本發(fā)明屬于自然語言處理中的知識圖譜融合領(lǐng)域,特別涉及一種基于解纏結(jié)圖神經(jīng)網(wǎng)絡(luò)的實體對齊方法及系統(tǒng)。
背景技術(shù):
1、知識圖譜(knowledge?graphs,kg)是一種以圖形化方式存儲真實世界中事實的知識表示模型。它是由節(jié)點(代表實體)和邊(代表實體之間的關(guān)系)構(gòu)成的有向圖,用于捕獲和組織豐富多樣的信息。知識圖譜廣泛應(yīng)用于自然語言處理、機(jī)器學(xué)習(xí)、搜索引擎優(yōu)化和推薦系統(tǒng)等領(lǐng)域。其核心價值在于整合跨源、跨領(lǐng)域的數(shù)據(jù),并能夠提供語義豐富的關(guān)聯(lián)信息,有助于理解和推理信息。實體對齊能夠自動發(fā)現(xiàn)不同知識圖譜中的等價實體,已經(jīng)成為知識圖譜融合、促進(jìn)知識覆蓋范圍的關(guān)鍵技術(shù)。
2、目前,基于嵌入的方法是實體對齊任務(wù)的主流方法,它的關(guān)鍵思想是將知識圖譜中的元素(如實體和關(guān)系)表示為低維向量(稱為嵌入),通過實體嵌入之間的距離判斷實體是否對齊。根據(jù)嵌入模型的不同,基于嵌入的實體對齊可以分為兩大類,即基于平移的實體對齊和基于圖神經(jīng)網(wǎng)絡(luò)的實體對齊。第一類方法使用transe及其變體建模知識圖譜的結(jié)構(gòu),它們將關(guān)系向量看作是從其頭部實體到其尾部實體的平移向量。第二類方法使用圖神經(jīng)網(wǎng)絡(luò)(graph?neural?networks,gnn)對知識圖譜進(jìn)行建模,它們可以將鄰域信息編碼到實體嵌入中,以便捕獲等價實體的相似性。因為圖神經(jīng)網(wǎng)絡(luò)在建模圖結(jié)構(gòu)數(shù)據(jù)時具有天然優(yōu)勢,所以在同等條件下,基于圖神經(jīng)網(wǎng)絡(luò)的方法性能通常優(yōu)于基于平移的方法。
3、但是,之前絕大多數(shù)基于gnn的方法都建立在一個重要的假設(shè)之上:不同知識圖譜中的等價實體具有類似的鄰域結(jié)構(gòu),經(jīng)過gnn編碼后,它們會產(chǎn)生相似的嵌入。在實踐中,不同的知識圖譜是由不同的機(jī)構(gòu)出于不同的目的使用不同的數(shù)據(jù)源構(gòu)建的。它們通常關(guān)注實體的不同方面,有的方面是一致的,而有的方面則不同。這導(dǎo)致一些等價實體的鄰域存在嚴(yán)重的異質(zhì)性。統(tǒng)計發(fā)現(xiàn),在實體對齊的基準(zhǔn)數(shù)據(jù)集dbp15k中,大多數(shù)的對齊實體對具有不同的相鄰實體。異質(zhì)的鄰域結(jié)構(gòu)會誘使gnn產(chǎn)生不同的表示,即使是對于等價實體。雖然之前的一些研究試圖減輕等價實體之間的鄰域異質(zhì)性,但是它們?nèi)匀皇艿絺鹘y(tǒng)gnn固有局限性的制約。它們將實體的鄰域視為一個整體,并將所有的鄰居特征聚合成一個單一的、靜態(tài)的表示。這種編碼策略不能明確區(qū)分實體不同方面的貢獻(xiàn),不可避免地引入噪聲,導(dǎo)致不正確的對齊結(jié)果。此外,有的方法使用了半監(jiān)督學(xué)習(xí)的方式迭代地選擇新的對齊種子用以擴(kuò)充訓(xùn)練數(shù)據(jù),這可能會產(chǎn)生錯誤的種子并導(dǎo)致進(jìn)一步的誤差傳播。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:針對上述現(xiàn)有方法存在的問題,本發(fā)明提供一種基于解纏結(jié)圖神經(jīng)網(wǎng)絡(luò)的實體對齊方法及系統(tǒng),有效緩解了不同知識圖譜中等價實體的鄰域異質(zhì)性問題,從而提高了實體對齊的準(zhǔn)確性與魯棒性。
2、技術(shù)方案:本發(fā)明所述的一種基于解纏結(jié)圖神經(jīng)網(wǎng)絡(luò)的實體對齊方法,具體包括以下步驟:
3、(1)構(gòu)建一種關(guān)系反射鄰域路由機(jī)制,將實體的鄰域劃分成多個語義不同的部分,并為實體不同方面學(xué)習(xí)相應(yīng)的表示;
4、(2)對微解纏結(jié)階段輸出的表示施加互信息正則化約束,減少實體不同方面表示之間的相關(guān)性;
5、(3)構(gòu)建對齊感知自注意力,自適應(yīng)地為實體不同方面分配合適的權(quán)重,并將多個方面表示的相似度加權(quán)求和以得到最終的實體相似度;
6、(4)在一個半監(jiān)督學(xué)習(xí)框架中,共同訓(xùn)練多個具有不同方面值的種子生成器,迭代地選擇具有特定稀疏度的實體對種子,并將其加入到最初的訓(xùn)練數(shù)據(jù)中。
7、進(jìn)一步地,所述步驟(1)實現(xiàn)過程如下:
8、采用k個獨(dú)立的嵌入聯(lián)合表示實體和關(guān)系:
9、
10、其中,k表示實體或者關(guān)系總的方面數(shù)量;是用于描述實體ei在第k個方面特征的解纏結(jié)表示,是用于描述關(guān)系rm在第k個方面特征的解纏結(jié)表示;d是每一個方面的表示的維度;
11、為關(guān)系rm建立如下關(guān)系反射變換矩陣,將實體嵌入投影到與第k個方面關(guān)聯(lián)的子空間:
12、
13、其中,i是一個單位矩陣;當(dāng)嵌入被規(guī)范化為時,為正交矩陣;
14、給定一個中心實體ei和所有包含ei的三元組,迭代地執(zhí)行下面的q輪聚類以獲得在不同方面中ei對鄰居實體的注意力權(quán)重:
15、
16、其中,是一個子空間簇的中心,是一個權(quán)重系數(shù),表示實體ej能在多大程度上收集到關(guān)于實體ei第k個方面的信息;q為當(dāng)前迭代次數(shù),為ei相鄰的實體關(guān)系對集合,和是實體ei和ej在第k個方面中的第l層的隱藏表示;τ是一個超參數(shù);在計算相似度時使用向量的l1距離;在第一次聚類開始時,被初始化為1/k;
17、q輪聚類完成之后,聚合在不同方面中鄰居實體的嵌入以獲得解纏結(jié)的實體表示:
18、
19、其中,是實體ei關(guān)于第k個方面的新的表示,用作第l+1層的輸出;
20、在解纏結(jié)圖神經(jīng)網(wǎng)絡(luò)中不同層的表示,含有不同層次的語義信息,串聯(lián)不同層輸出的實體嵌入以生成下面的全局實體表示:
21、
22、進(jìn)一步地,所述步驟(2)實現(xiàn)過程如下:
23、對實體的全局表示施加互信息正則化約束,具體地采用一個對比估計器計算互信息的上界;采用一個具有參數(shù)θ的簡單神經(jīng)網(wǎng)絡(luò)構(gòu)建一個變分分布以近似真實條件分布,互信息上界計算如下:
24、
25、其中,和分別表示正樣本對和負(fù)樣本對的對數(shù)似然,最小化該上界達(dá)到最小化互信息的目的;
26、最小化這兩個分布之間的kl散度以保證上式的計算結(jié)果是互信息上界;因此,互信息正則化約束的最終優(yōu)化目標(biāo)如下:
27、
28、其中,為各個方面之間的真實條件概率分布,該正則化損失和實體對齊的損失在訓(xùn)練中將會被交替優(yōu)化。
29、進(jìn)一步地,所述步驟(3)實現(xiàn)過程如下:
30、計算實體在每一個方面內(nèi)的距離,實體對(e1,e2)在第k個方面內(nèi)的距離定義如下:
31、
32、提出對齊感知的自注意力策略,自適應(yīng)地為不同方面分配適當(dāng)?shù)臋?quán)重;對多個方面內(nèi)的距離加權(quán)求和,得到(e1,e2)最終的距離:
33、
34、其中,b是一個可訓(xùn)練的注意力權(quán)重向量;
35、針對實體對齊問題,定義了如下的基于邊際的實體對齊目標(biāo)函數(shù),使對齊實體對的嵌入彼此相互接近,不對齊的實體對的嵌入彼此相互遠(yuǎn)離:
36、
37、其中,p是正樣本集合,即一些預(yù)對齊的實體對;p′是負(fù)樣本集合,γ>0是一個用于分離正樣本和負(fù)樣本的邊際超參數(shù)。
38、進(jìn)一步地,所述互信息正則化lreg和實體對齊lea的損失在整個訓(xùn)練過程中以交替的方式進(jìn)行優(yōu)化。
39、進(jìn)一步地,所述步驟(4)實現(xiàn)過程如下:
40、構(gòu)建具有多方面種子生成器的半監(jiān)督學(xué)習(xí)框架,種子生成器根據(jù)自身方面值各自采用雙向迭代算法識別具有特定稀疏度的新對齊種子;具體地,定義如下實體的稀疏度:
41、
42、其中,e*是知識圖譜中鄰居最多的實體;所有實體按稀疏度降序排序,并被分成m等份;如果實體ei在第m部分,則其稀疏度排序為:
43、
44、相應(yīng)地,訓(xùn)練m個種子生成器,并根據(jù)他們各自的方面值按升序排序;第m個種子生成器只能選擇稀疏度排名等于m的實體對,其他稀疏度的種子將被過濾掉;將所有種子生成器的輸出合并再添加到初始的的訓(xùn)練集中。
45、本發(fā)明所述的一種基于解纏結(jié)圖神經(jīng)網(wǎng)絡(luò)的實體對齊系統(tǒng),包括:
46、微觀解纏結(jié)表示模塊,設(shè)計關(guān)系反射鄰域路由機(jī)制,將實體的鄰域劃分成多個語義不同的部分,并為實體不同的方面都學(xué)習(xí)相應(yīng)的表示;
47、宏觀解纏結(jié)約束模塊,對微解纏結(jié)階段輸出的表示施加互信息正則化約束,減少實體不同方面表示之間的相關(guān)性;
48、多方面實體相似度計算模塊,構(gòu)建對齊感知自注意力,自適應(yīng)地為實體不同方面分配合適的權(quán)重,并將多個方面表示的相似度加權(quán)求和以得到最終的實體相似度;
49、半監(jiān)督學(xué)習(xí)模塊,共同訓(xùn)練多個具有不同方面值的種子生成器,迭代地選擇具有特定稀疏度的實體對種子,并將其加入到最初的訓(xùn)練數(shù)據(jù)中。
50、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:1、本發(fā)明利用關(guān)系反射鄰域路由機(jī)制從微觀和宏觀兩個層面學(xué)習(xí)解纏結(jié)的實體表示,從而緩解了實體對齊中普遍存在的鄰域異質(zhì)性現(xiàn)象;2、本發(fā)明設(shè)計了一種對齊感知的自注意策略,在計算實體對相似度時,可以自適應(yīng)地為實體不同的方面分配適當(dāng)?shù)臋?quán)重;3、本發(fā)明構(gòu)建半監(jiān)督學(xué)習(xí)框架,共同訓(xùn)練多個具有不同方面值的種子生成器,這些生成器可以迭代地選擇具有特定稀疏度的新的實體對種子,通過這種方式,可以精化數(shù)據(jù)增強(qiáng)過程以進(jìn)一步提高實體對齊的準(zhǔn)確性。