本發(fā)明屬于實體鏈接領(lǐng)域,涉及一種基于多知識庫的表格實體鏈接方法。
背景技術(shù):
當(dāng)前的萬維網(wǎng)中存在大量的擁有高質(zhì)量關(guān)系型數(shù)據(jù)的HTML表格,這些表格被視為從萬維網(wǎng)中進行知識抽取的重要來源。為了實現(xiàn)語義萬維網(wǎng)的愿景,許多工作嘗試挖掘表格中潛在的語義信息,將給定表格中的內(nèi)容表示成RDF三元組。對表格內(nèi)容進行語義信息挖掘的首要步驟即為實體鏈接,實體鏈接是識別表格中每個單元格里的字符串的真正含義,并將這些字符串分別鏈接向給定知識庫中的實體。如果不能正確識別表格中潛在的實體,那么將很難從給定表格的內(nèi)容中挖掘出正確的RDF三元組,所以對表格進行實體鏈接是具有非常大的研究意義與實用價值的工作。
近年來,國內(nèi)外研究人員為了解決表格實體鏈接的問題,提出了許多相關(guān)系不同的方法,并研制出若干實用系統(tǒng),包括Mulwad等人提出的基于語義信息傳遞的方法,英國謝菲爾德大學(xué)研制的TableMiner系統(tǒng),清華大學(xué)研制的LIEGE系統(tǒng)以及美國西北大學(xué)研制的TabEL系統(tǒng)等。但是目前現(xiàn)有的表格實體鏈接的方法與系統(tǒng)存在兩個主要的問題:1)許多方法或系統(tǒng)依賴于基于特定信息的特征,比如列標(biāo)題與知識庫中的實體類型,但是大多數(shù)抽取自萬維網(wǎng)中的表格均沒有列標(biāo)題,同時許多知識庫也沒有實體類型這樣的語義信息,這導(dǎo)致這些方法與系統(tǒng)并不通用,實用性較差;2)所有目前方法與系統(tǒng)均是針對單一知識庫進行表格實體鏈接,但是這并不能保證表格實體鏈接的質(zhì)量,很多表格中的實體并不存在于某一單一知識庫中,那么僅針對單一知識庫進行實體鏈接是不合理的。
LIEGE系統(tǒng)首先對維基百科站點的實體頁面,重定向頁面,去歧義頁面以及超鏈接信息進行了統(tǒng)計,得到一個關(guān)于表格中單元格里的字符串和知識庫實體的詞典。然后從詞典中為字符串生成候選實體集合,最后利用一種迭代聯(lián)合消歧算法完成實體鏈接。但是LIEGE系統(tǒng)僅能對列表型表格(一列多行)進行基于任意單一知識庫的實體鏈接,大大減弱了該系統(tǒng)的實用性。
TabEL系統(tǒng)首先利用統(tǒng)計萬維網(wǎng)與維基百科中所有實體的相關(guān)信息,然后得到相應(yīng)的先驗概率,并依照此概率為給定表格中每個單元格里的字符串生成候選實體,之后定義了多種不同的特征,最后綜合這些特征值,使用一種基于最大似然概率的聯(lián)合實體消岐方法,進行表格實體鏈接。TabEL比LIEGE更加先進,原因是TabEL能夠?qū)Χ嘈卸嗔械谋砀襁M行基于任意單一知識庫的實體鏈接,但是該系統(tǒng)還是不能完成基于多知識庫的表格實體鏈接的任務(wù),由于許多字符串所應(yīng)該鏈接的實體不存在于給定的單一知識庫中,導(dǎo)致使用TabEL系統(tǒng)進行表格實體鏈接的質(zhì)量依舊不能令人滿意。此外,該系統(tǒng)依賴于不同來源計算得到的先驗概率,而每個來源本身就是有所側(cè)重,導(dǎo)致獲取的先驗概率并不客觀,容易影響表格實體鏈接的質(zhì)量。
技術(shù)實現(xiàn)要素:
技術(shù)問題:本發(fā)明提供一種對于給定的一張表格以及任意多個知識庫,能夠自動化地確定表格中每個單元格里的字符串所應(yīng)該鏈接的存在于多個不同知識庫中的實體的基于多知識庫的表格實體鏈接方法。
技術(shù)方案:本發(fā)明的基于多知識庫的表格實體鏈接方法,首先通過一種利用同義詞典BabelNet與字符串匹配規(guī)則的方法,為表格中每個單元格里的字符串生成抽取自給定知識庫中的候選實體,然后設(shè)計一種通用的且不依賴于任何特定信息的基于圖的概率傳播算法,對每個單元格里的字符串對應(yīng)的抽取自不同知識庫的候選實體進行排序,之后利用源自不同知識庫中的實體間的等價關(guān)系對每個字符串所對應(yīng)的抽取自不同知識庫中的已排序候選實體進行劃分,最后使用三種啟發(fā)式規(guī)則確定每個字符串所應(yīng)該鏈接的存在于不同知識庫中的實體。
本發(fā)明的基于多知識庫的表格實體鏈接方法,包括如下步驟:
1)每次從知識庫集合K={KB1,KB2,...,KBz...,KBn}中選定一個單一知識庫KBz,按照如下方法從所述單一知識庫KBz中抽取候選實體,構(gòu)建候選實體列表,最終得到每個單一知識庫構(gòu)建的候選實體列表:
利用同義詞典BabelNet與字符串匹配規(guī)則,將表格T中所有單元格里的字符串s生成源自單一知識庫KBz的候選實體,每個字符串s對應(yīng)多個候選實體;
利用基于圖的概率傳播算法對表格T中每個字符串s所對應(yīng)的候選實體進行排序,得到候選實體列表;
2)將每個字符串s所對應(yīng)的n個候選實體列表中的所有實體劃分成多個實體集合,這些實體集合可分為兩類:第一類中的每個集合里的實體數(shù)量num∈{2,3,...,n},每個集合中的實體分別源自不同的候選實體列表,且這些實體兩兩之間均存在等價關(guān)系;第二類中的每個集合中的實體數(shù)量均為1,每個集合中的實體僅源自一個候選實體列表且與源自其他候選實體列表中的每個實體之間均不存在等價關(guān)系;
3)針對每個字符串所對應(yīng)的多個不同的實體集合,使用三種啟發(fā)式規(guī)則為每個字符串s選擇一個實體集合中的所有實體作為該字符串s所應(yīng)該鏈接的存在于不同知識庫中的實體,從而完成表格實體鏈接。
本發(fā)明方法的優(yōu)選方案中,所述步驟1)中,按照如下方式生成源自單一知識庫KBz的候選實體:
1-a)為單一知識庫KBz中的每個實體查找其在同義詞典BabelNet中的所有同義詞,并構(gòu)建每個實體對應(yīng)的同義詞集合;
1-b)對每個字符串s進行分詞,得到零散片段{w1(s),w2(s),...,wv(s),...,wk(s)},其中wv(s)表示對字符串s分詞后的第v個片段,v∈{1,2,...,k},k為對字符串s分詞后得到零散片段的總數(shù)量;
1-c)使用字符串匹配規(guī)則為表格T中所有單元格里的字符串生成候選實體,該規(guī)則為:如果知識庫KBz中的某個實體e及e的某個同義詞包含經(jīng)過分詞后的字符串s的某個零散片段wv(s),則將該實體e作為字符串s的一個候選實體。
本發(fā)明方法的優(yōu)選方案中,所述步驟1)中對表格T中每個字符串s所對應(yīng)的候選實體進行排序的具體流程為:
1-1)按照如下方式為表格T構(gòu)建實體消岐圖G:將表格T中每個單元格里的字符串作為一個字符串節(jié)點,將每個候選實體作為一個實體節(jié)點,將字符串——實體邊作為一條存在于每個字符串與其對應(yīng)的一個候選實體之間的無向邊,將一條實體——實體邊作為一條存在于G中任意兩個實體節(jié)點之間的無向邊;
1-2)計算所述實體消岐圖G中每個字符串與其對應(yīng)的每個候選實體之間的字符串——實體語言學(xué)相似度、字符串——實體上下文相似度,并根據(jù)這兩種相似度計算每條字符串——實體邊的權(quán)重;
1-3)計算實體消岐圖G中任意實體之間的實體——實體三元組相似度與實體——實體上下文相似度,并根據(jù)這兩種相似度計算每條實體——實體邊的權(quán)重;
1-4)利用如下公式進行迭代概率傳播,直至向量R收斂:
其中m為所構(gòu)建的實體消岐圖G中節(jié)點的總量,E是一個m×m的全1矩陣,b是一個接近1的常數(shù),b∈[0.8,1),R是一個m×1的向量<r1,r2,...,rm>,rj為G中第j個節(jié)點所關(guān)聯(lián)到的概率值,j∈{1,2,...,m};R的初始值計算方式如下:若第j個節(jié)點為字符串節(jié)點,則rj=1/m,它表示該字符串節(jié)點的重要度;若第j個節(jié)點為實體節(jié)點,則rj=0,它表示該一字符串鏈接到該實體的概率值;A是一個m×m鄰接矩陣,表示方式如下:
其中Axy表示從實體消岐圖G中的第x個節(jié)點到第y個節(jié)點的轉(zhuǎn)移概率,x∈{1,2,...,m},y∈{1,2,...,m},Axy的定義如下:
其中Wse(x,y)表示字符串節(jié)點x與實體節(jié)點y之間的字符串——實體邊權(quán)重,Wse(y,x)表示字符串節(jié)點y與實體節(jié)點x之間的字符串——實體邊權(quán)重,Wse(x,*)表示字符串節(jié)點x與其相鄰的每個實體節(jié)點之間的字符串——實體邊權(quán)重的總和,Wse(*,x)表示實體節(jié)點x與其相鄰的每個字符串節(jié)點之間的字符串——實體邊權(quán)重的總和,Wee(x,y)表示實體節(jié)點x、y之間的實體——實體邊權(quán)重,Wee(x,*)表示實體節(jié)點x與其相鄰的每個實體節(jié)點之間的實體——實體邊權(quán)重的總和,a是一個常數(shù),a∈(0,1);
1-5)所述向量R收斂后,根據(jù)候選實體所在的實體節(jié)點所關(guān)聯(lián)的概率值,對字符串s對應(yīng)的候選實體進行降序排列,從而得到候選實體列表。
本發(fā)明方法的優(yōu)選方案中,所述步驟3)中的三種啟發(fā)式規(guī)則分別為:
規(guī)則一:如果在字符串s對應(yīng)的多個實體集合中,存在一個集合Set,與其他實體集合相比,Set中所有實體在各自對應(yīng)的候選實體列表中的排名的平均值ar與最高值hr均最高,且集合Set中實體的數(shù)量num不小于所有給定知識庫的數(shù)量的一半,則選擇集合Set中的所有實體為s所應(yīng)該鏈接的存在于不同知識庫中的實體;
規(guī)則二:如果在字符串s對應(yīng)的多個實體集合中,存在g個集合,g>1,這g個集合中每個集合里的所有實體在各自候選實體列表中的排名的平均值ar相等,最高值hr也相等,且與其他實體集合相比,這g個集合中每個集合里的所有實體在各自候選實體列表中的排名的平均值ar與最高值hr均最高,此外這g個集合中每個集合里實體的數(shù)量均不小于所有給定知識庫的數(shù)量的一半,則隨機選擇這g個集合中的一個集合里的所有實體為s所應(yīng)該鏈接的存在于不同知識庫中的實體;
規(guī)則三:如果在字符串s對應(yīng)的每個實體集合中實體的數(shù)量均小于所有給定知識庫的數(shù)量的一半,則取出在字符串s所對應(yīng)的n個候選實體列表,將每個列表中排名第一的實體作為s所應(yīng)該鏈接的存在于不同知識庫中的實體。
本發(fā)明提出的基于多知識庫的表格實體鏈接方法,不依賴于任何特定信息且可以利用任意多種不同的知識庫進行表格實體鏈接,很好地克服了現(xiàn)有方法或系統(tǒng)的弱點,在實體鏈接的質(zhì)量上也有了較大的提升。
有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:
相比Mulwad等人提出的基于語義信息傳遞的方法,本發(fā)明不依賴于列標(biāo)題等特定信息對給定表格進行整體建模,從而完成基于多知識庫的表格實體鏈接任務(wù),實用性更強,針對不管是否存在列標(biāo)題的表格均能進行實體鏈接。此外,本發(fā)明對于外部信息的依賴更小,僅需使用任意給定知識庫中的RDF三元組計算字符串與實體之間的相似程度,這個需求是極易滿足的,而Mulwad等人提出的方法嚴(yán)重依賴于Wikitology的查詢功能,一旦Wikitology的查詢功能失效或者Wikitology不再開放,則他們的方法也就無法完成實體鏈接的任務(wù)
相比于英國謝菲爾德大學(xué)研制的TableMiner系統(tǒng),本發(fā)明使用一種基于圖的概率傳播算法為給定表格中每個字符串的候選實體進行排序,該算法強調(diào)表格中任意單元格中的字符串之間均存在潛在的關(guān)系,從而選擇這種聯(lián)合消歧的方式捕捉字符串之間的關(guān)聯(lián),從而一次性完成表格整體的實體鏈接。而TableMiner不考慮同一表格中字符串之間的潛在關(guān)聯(lián),僅以給定字符串為中心,單獨為每個字符串進行實體鏈接,不僅效率上不如本發(fā)明,而且在割裂了表格中字符串之間的關(guān)聯(lián)后,實體鏈接的質(zhì)量也并不高。
相比于清華大學(xué)研制的LIEGE系統(tǒng),發(fā)明不僅能夠針對多行多列的表格進行基于任意單一知識庫的實體鏈接,而且還利用不同知識庫中實體間的等價關(guān)系提出三種啟發(fā)式規(guī)則,從而完成基于多知識庫的實體鏈接任務(wù)。LIEGE系統(tǒng)的設(shè)計僅針對列表型表格,即一列多行表格,提出一系列基于維基百科的特征進行單一知識庫的實體鏈接,局限性太強,而本發(fā)明從基于同義詞典與字符串匹配規(guī)則的候選實體生成方法,到基于圖的概率傳播算法的候選實體排序方法,再到三種進行多知識庫實體鏈接的啟發(fā)式規(guī)則,整體對外部信息的依賴較小,所設(shè)計的特征都是通用易得,方法局限性小,適合各種場景下的表格實體鏈接任務(wù)。
相比于美國西北大學(xué)研制的TabEL系統(tǒng),本發(fā)明可以不依賴于任何先驗概率對多行多列的表格進行基于多知識庫的實體鏈接。TabEL系統(tǒng)利用統(tǒng)計萬維網(wǎng)與維基百科中所有實體的相關(guān)信息,然后得到相應(yīng)的先驗概率,并依照此概率為給定表格中每個單元格里的字符串生成候選實體,這種方式得到的先驗概率其實是不準(zhǔn)確的,因為萬維網(wǎng)與維基百科并不能涵蓋這個世界的方方面面,他們更多地還是體現(xiàn)當(dāng)前世界流行的內(nèi)容。而本發(fā)明使用的候選實體生成與排序方法的并不考慮這樣的先驗概率,這樣可以大大減少基于流行內(nèi)容的先驗概率對表格實體鏈接帶來的謬誤。此外,TabEL系統(tǒng)還是不能完成基于多知識庫的表格實體鏈接的任務(wù),由于許多字符串所應(yīng)該鏈接的實體不存在于給定的單一知識庫中,導(dǎo)致使用TabEL系統(tǒng)進行表格實體鏈接的質(zhì)量依舊不能令人滿意。而本發(fā)明提出的基于不同知識庫中實體間的等價關(guān)系的啟發(fā)式規(guī)則,可以完成基于多知識庫的表格實體鏈接任務(wù),大大提高鏈接的準(zhǔn)確性與覆蓋率。
經(jīng)過實驗分析證明,利用本發(fā)明提出的基于多知識庫的表格實體鏈接方法,可以完成基于任意的多個知識庫的表格實體鏈接任務(wù)。無論是準(zhǔn)確率、召回率還是F值,本發(fā)明在這些評價指標(biāo)上都優(yōu)于目前最先進的表格實體鏈接方法及系統(tǒng)。
附圖說明
圖1是本發(fā)明的基本過程的示意圖;
圖2是本發(fā)明中從單一知識庫中抽取候選實體的流程圖;
圖3是本發(fā)明中基于圖的概率傳播算法的流程圖。
具體實施方式
以下結(jié)合實施例和說明書附圖,詳細(xì)說明本發(fā)明的實施過程。
本發(fā)明是基于多知識庫的表格實體鏈接方法,包括以下3個步驟:
1)每次從知識庫集合K={KB1,KB2,...,KBz…,KBn}中選定一個單一知識庫KBz,按照如下方法從所述單一知識庫KBz中抽取候選實體,構(gòu)建候選實體列表,最終得到每個單一知識庫構(gòu)建的候選實體列表,詳細(xì)步驟如下:
由于將知識庫中數(shù)百萬的實體均作為每個字符串的候選實體是不切實際的,所以需要使用一種高效且低成本的方法為每個字符串快速選定若干個可能的候選實體,以便進一步使用更加復(fù)雜的方法對得到的候選實體進行進一步的判定。本發(fā)明為了盡可能在篩選候選實體時保證覆蓋率,首先使用同義詞典BabelNet與字符串匹配規(guī)則,將表格T中所有單元格里的字符串s生成源自單一知識庫KBz的候選實體,每個字符串s對應(yīng)多個候選實體,這里結(jié)合圖2說明候選實體的生成過程:
(1)為單一知識庫KBz中的每個實體查找其在同義詞典BabelNet中的所有同義詞,并構(gòu)建每個實體對應(yīng)的同義詞集合;
(2)對每個字符串s進行分詞,得到零散片段{w1(s),w2(s),...,wv(s),...,wk(s)},其中wv(s)表示對字符串s分詞后的第v個片段,v∈{1,2,...,k},k為對字符串s分詞后得到零散片段的總數(shù)量,比如字符串“Michael Jordan”對應(yīng)兩個片段“Michael”與“Jordan”:
(3)使用字符串匹配規(guī)則為表格T中所有單元格里的字符串生成候選實體,該規(guī)則為:如果知識庫KBz中的某個實體e及e的某個同義詞包含經(jīng)過分詞后的字符串s的某個零散片段wv(s),則將該實體e作為字符串s的一個候選實體,比如給定抽取自KB1中的實體“Michael Jeffrey Jordan”與“Michael Irwin Jordan”均可判定為字符串“Michael Jordan”的候選實體。
在對給定表格T中每個單元格里的字符串生成抽取自知識庫KBz中的候選實體后,為了最終確定每個字符串所應(yīng)該鏈接的實體,需要對每個字符串的候選實體進行排序,即通常所認(rèn)為的實體消岐工作。一般而言,不難發(fā)現(xiàn)表格中同一行或者同一列單元格里的字符串之間存在一定的關(guān)系,換句話說,即可認(rèn)為一個表格中任意兩個單元格中的字符串之間存在潛在的關(guān)聯(lián),所以本發(fā)明選擇使用一種通用的基于圖的概率傳播算法為給定表格T中所有單元格里的字符串進行聯(lián)合消岐,即同時為所有字符串各自的候選實體進行排序,該方法可以作用于任何單一的知識庫,不依賴于任何特定的表格信息或特定知識庫中的特定信息。
這里結(jié)合圖3說明本發(fā)明提出的為表格T中每個字符串s所對應(yīng)的候選實體進行排序的基于圖的概率傳播算法:
(1)按照如下方式為表格T構(gòu)建實體消岐圖G:將表格T中每個單元格里的字符串作為一個字符串節(jié)點,將每個候選實體作為一個實體節(jié)點,將字符串——實體邊作為一條存在于每個字符串與其對應(yīng)的一個候選實體之間的無向邊,將一條實體——實體邊作為一條存在于G中任意兩個實體節(jié)點之間的無向邊;
(2)計算實體消岐圖G中每個字符串與其對應(yīng)的每個候選實體之間的字符串——實體語言學(xué)相似度、字符串——實體上下文相似度,這兩種相似度的計算同樣不依賴于任何特定信息,是通用的從不同角度衡量字符串與實體之間的相似程度,并根據(jù)這兩種相似度計算每條字符串——實體邊的權(quán)重,計算方式如下:
(2a)字符串——實體語言學(xué)相似度:給定字符串s與實體e,它們之間的字符串——實體語言學(xué)相似度linSim(s,e)的定義如下所示:
其中1(e)是實體e的標(biāo)簽字符串,|s|和|1(e)|分別表示字符串s的長度與實體e的標(biāo)簽字符串長度,EditDistance(s,l(e))表示字符串s與實體e的標(biāo)簽字符串之間的編輯距離;
(2b)字符串——實體上下文相似度:給定字符串s,取出與s所在單元格處于同一行及同一列的單元格中的所有字符串,再對這些字符串進行分詞,收集這些字符串各自對應(yīng)的若干零散片段,所有收集到的零散片段構(gòu)成了字符串s的上下文集合scSet(s);給定實體e,查詢e所在的知識庫KBz,取出所有e作為主語或賓語的三元組,并收集這些三元組中的所有除e以外的作為主語或賓語的實體,之后對這些實體的字符串標(biāo)簽進行分詞,將這些字符串標(biāo)簽各自對應(yīng)的零散片段均放置于集合ecSet(e)中,ecSet(e)表示實體e的上下文集合;對于給定的字符串s與實體e,它們之間的字符串——實體上下文相似度secSim(s,e)如下所示:
其中|scSet(s)∩ecSet(e)|表示字符串s與買體e各自的上下文集合的交集大小,|scSet(s)∪ecSet(e)|表示字符串s與實體e各自的上下文集合的并集大小。
(2c)字符串——實體邊的權(quán)重:給定實體消岐圖G中一個字符串節(jié)點node(s),該節(jié)點表示字符串s,同時給定一個與該字符串節(jié)點相鄰的實體節(jié)點node(e),該實體節(jié)點表示實體e,node(s)與node(e)之間的字符串——實體邊的權(quán)重Wse(node(s),node(e))的定義如下所示:
Wse(node(s),node(e))=α1×linSim(s,e)+β1×secSim(s,e)+γ1
其中,α1+β1+γ1=1,α1∈(0,1),β1∈(0,1),γ1∈(0,1)且α1>>γ1,β1>>γ1;這里經(jīng)過多次實驗,決定令γ1=0.01,α1=β1=0.445,不難發(fā)現(xiàn)Wse(node(s),node(e))的最小值為0.01,這是為了在后續(xù)的概率傳播的過程中保證實體消岐圖G的連通性。
(3)計算實體消岐圖G中任意實體之間的實體——實體三元組相似度與實體——實體上下文相似度,這兩種相似度的計算同樣不依賴于任何特定信息,是通用的從不同角度衡量字符串與實體之間的相似程度,并根據(jù)這兩種相似度計算每條實體——實體邊的權(quán)重,計算方式如下:
(3a)實體——實體三元組相似度:給定兩個源自同一知識庫KBz的實體e1與e2,它們之間的三元組相似度triSim(e1,e2)的定義如下所示:
(3b)實體——實體上下文相似度:給定兩個源自同一知識庫KBz的實體e1與e2,查詢KBz,取出所有e1作為主語或賓語的三元組,并收集這些三元組中的所有除e1以外的作為主語或賓語的實體,之后對這些實體的字符串標(biāo)簽進行分詞,將這些字符串標(biāo)簽各自對應(yīng)的零散片段均放置于集合ecSet(e1)中,ecSet(e1)表示實體e1的上下文集合,以同樣的方式構(gòu)建實體e2的上下文集合ecSet(e2),實體e1與e2間的實體——實體上下文相似度eecSim(e1,e2)的定義如下所示:
其中|ecSet(e1)∩ecSet(e2)|表示實體e1與e2各自的上下文集合的交集大小,|ecSet(e1)∪ecSet(e2)|表示字符串s與實體e各自的上下文集合的并集大小。
(3c)實體——實體邊的權(quán)重:給定實體消岐圖G中任意兩個實體節(jié)點node(e1)與node(e2),這兩個節(jié)點分別表示實體e1與e2,node(e1)與node(e2)之間的實體——實體邊的權(quán)重Wee(node(e1),node(e2))的定義如下所示:
Wee(node(e1),node(e2))=α2×triSim(e1,e2)+β2×eecSim(e1,e2)+γ2
其中,α2+β2+γ2=1,α2∈(0,1),β2∈(0,1),γ2∈(0,1)且α2>>γ2,β2>>γ2;這里經(jīng)過多次實驗,決定令γ2=0.01,α2=β2=0.445,不難發(fā)現(xiàn)Wee(node(e1),node(e2))的最小值為0.01,這同樣是為了在后續(xù)的概率傳播的過程中保證實體消岐圖G的連通性。
(4)利用如下公式進行迭代概率傳播,直至向量R收斂:
其中m為所構(gòu)建的實體消岐圖G中節(jié)點的總量,E是一個m×m的全1矩陣,b是一個接近1的常數(shù),b∈[0.8,1),經(jīng)過多次實驗,本發(fā)明最終令b=0.85;R是一個m×1的向量<r1,r2,...,rm>,rj為G中第j個節(jié)點所關(guān)聯(lián)到的概率值,j∈{1,2,...,m},R的初始值計算方式如下:若第j個節(jié)點為字符串節(jié)點,則rj=1/m,它表示該字符串節(jié)點的重要度;若第j個節(jié)點為實體節(jié)點,則rj=0,它表示該一字符串鏈接到該實體的概率值;A是一個m×m鄰接矩陣,表示方式如下:
其中Axy表示從實體消岐圖G中的第x個節(jié)點到第y個節(jié)點的轉(zhuǎn)移概率,x∈{1,2,...,m},y∈{1,2,...,m},Axy的定義如下:
其中Wse(x,y)表示字符串節(jié)點x與實體節(jié)點y之間的字符串——實體邊權(quán)重,Wse(y,x)表示字符串節(jié)點y與實體節(jié)點x之間的字符串——實體邊權(quán)重,Wse(x,*)表示字符串節(jié)點x與其相鄰的每個實體節(jié)點之間的字符串——實體邊權(quán)重的總和,Wse(*,x)表示實體節(jié)點x與其相鄰的每個字符串節(jié)點之間的字符串——實體邊權(quán)重的總和,Wee(x,y)表示實體節(jié)點x、y之間的實體——實體邊權(quán)重,Wee(x,*)表示實體節(jié)點x與其相鄰的每個實體節(jié)點之間的實體——實體邊權(quán)重的總和,a是一個常數(shù),a∈(0,1),經(jīng)過多次實驗,本發(fā)明最終令a=0.5。
另外,根據(jù)馬爾可夫鏈的收斂性定義,需要保證矩陣A非周期,所以本發(fā)明在任意兩個節(jié)點之間增加一條特殊的無向邊,這些特殊的邊上所關(guān)聯(lián)的轉(zhuǎn)移概率為一極小值,這個值由常數(shù)b控制;R收斂后,給定表格T中任意一個單元格里的字符串s及其對應(yīng)的候選實體,根據(jù)這些候選實體所在的實體節(jié)點所關(guān)聯(lián)的概率值,對字符串s對應(yīng)的候選實體進行降序排列,從而得到表格T中每個單元格里的字符串所對應(yīng)的已排序候選實體列表。
(5)所述向量R收斂后,根據(jù)候選實體所在的實體節(jié)點所關(guān)聯(lián)的概率值,對字符串s對應(yīng)的候選實體進行降序排列,從而得到候選實體列表。
基于單一知識庫的表格實體鏈接并不總能確保一個良好覆蓋率,一種直觀的解決方案是分別進行基于不同單一知識庫的表格實體鏈接以提高覆蓋率,但是這種方法帶來的問題是同一字符串所鏈接到的不同知識庫中的實體間并不具備等價關(guān)系,即面臨著許多沖突,因此本發(fā)明使用如下方法以提高表格實體鏈接的覆蓋率并且能夠解決基于不同單一知識庫的表格實體鏈接的結(jié)果間的沖突問題。
2)將每個字符串s所對應(yīng)的n個候選實體列表中的所有實體劃分成多個實體集合,這些實體集合可分為兩類:第一類中的每個集合里的實體數(shù)量num∈{2,3,...,n},每個集合中的實體分別源自不同的候選實體列表,且這些實體兩兩之間均存在等價關(guān)系;第二類中的每個集合中的實體數(shù)量均為1,每個集合中的實體僅源自一個候選實體列表且與源自其他候選實體列表中的每個實體之間均不存在等價關(guān)系;
3)針對每個字符串所對應(yīng)的多個不同的實體集合,使用三種啟發(fā)式規(guī)則為每個字符串s選擇一個實體集合中的所有實體作為該字符串s所應(yīng)該鏈接的存在于不同知識庫中的實體,從而完成表格實體鏈接。:
下面介紹本發(fā)明提出的三種啟發(fā)式規(guī)則如下:
規(guī)則一:如果在字符串s對應(yīng)的多個實體集合中,存在一個集合Set,與其他實體集合相比,Set中所有實體在各自對應(yīng)的候選實體列表中的排名的平均值ar與最高值hr均最高,且集合Set中實體的數(shù)量num不小于所有給定知識庫的數(shù)量的一半,則選擇集合Set中的所有實體為s所應(yīng)該鏈接的存在于不同知識庫中的實體;
規(guī)則二:如果在字符串s對應(yīng)的多個實體集合中,存在g個集合,g>1,這g個集合中每個集合里的所有實體在各自候選實體列表中的排名的平均值ar相等,最高值hr也相等,且與其他實體集合相比,這g個集合中每個集合里的所有實體在各自候選實體列表中的排名的平均值ar與最高值hr均最高,此外這g個集合中每個集合里實體的數(shù)量均不小于所有給定知識庫的數(shù)量的一半,則隨機選擇這g個集合中的一個集合里的所有實體為s所應(yīng)該鏈接的存在于不同知識庫中的實體;
規(guī)則三:如果在字符串s對應(yīng)的每個實體集合中實體的數(shù)量均小于所有給定知識庫的數(shù)量的一半,則取出在字符串s所對應(yīng)的n個候選實體列表,將每個列表中排名第一的實體作為s所應(yīng)該鏈接的存在于不同知識庫中的實體。
為了爭取同時獲得全局與局部最優(yōu)的實體鏈接結(jié)果,本發(fā)明提出的三種不同的啟發(fā)式規(guī)則不僅考慮了每個字符串對應(yīng)的每個實體集合中所有實體的平均排名與最高排名,還有每個集合中實體的數(shù)量,即覆蓋這些相同含義的實體的知識庫的數(shù)量。如果給定集合中實體的數(shù)量低于所有給定知識庫數(shù)量的一半,那么意味著該集合中的擁有相同含義的實體僅被很少的知識庫所覆蓋,所以若最終選擇這個集合中的實體以解決基于不同單一知識庫的實體鏈接結(jié)果間的沖突是不符合全局最優(yōu)的設(shè)想的。
上述實施例僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出:對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和等同替換,這些對本發(fā)明權(quán)利要求進行改進和等同替換后的技術(shù)方案,均落入本發(fā)明的保護范圍。