本發(fā)明涉及知識(shí)管理和數(shù)字出版領(lǐng)域,具體涉及一種實(shí)體鏈接方法及裝置。
背景技術(shù):
互聯(lián)網(wǎng)的迅猛發(fā)展使得數(shù)字資源隨處可見(jiàn),接觸頻率最高的信息載體就是文字信息,如新聞、博客、評(píng)論等。同時(shí),隨著生活節(jié)奏的加快,用戶對(duì)高效閱讀的需求更加強(qiáng)烈,數(shù)字資源內(nèi)包含有大量具有明確語(yǔ)義信息的文本實(shí)體,如何在文本中高效地獲取出實(shí)體并加以利用是具有現(xiàn)實(shí)意義的事情。特別地,實(shí)體鏈接正是利用實(shí)體的流程中最為關(guān)鍵的步驟之一。例如,通過(guò)分析用戶瀏覽或者分享的數(shù)字資源來(lái)提取實(shí)體并進(jìn)行知識(shí)庫(kù)鏈接,將鏈接過(guò)的實(shí)體作為關(guān)鍵字或者標(biāo)簽,為用戶進(jìn)行更精準(zhǔn)的興趣建模;再如,在數(shù)字資源中增加針對(duì)實(shí)體的、用戶可能感興趣的內(nèi)容鏈接,這些鏈接可能指向?qū)嶓w相關(guān)概念解釋或者指向另一篇以此實(shí)體為主題的新聞,從而提升用戶閱讀體驗(yàn)。
現(xiàn)有的實(shí)體鏈接方法主要包括以下幾類:一類是根據(jù)具體應(yīng)用制定一些特殊的規(guī)則進(jìn)行語(yǔ)義消歧,該類方法在變換場(chǎng)景時(shí)很難取得較好的效果。第二類是基于文本中實(shí)體和鏈接的特點(diǎn)構(gòu)造語(yǔ)義網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)節(jié)點(diǎn)的距離、出度、入度等作為特征進(jìn)一步設(shè)計(jì)相似度衡量指標(biāo),從而實(shí)現(xiàn)語(yǔ)義消歧,該類方法在數(shù)據(jù)規(guī)模較大的時(shí)候,網(wǎng)絡(luò)的存儲(chǔ)開(kāi)銷(xiāo)、訓(xùn)練開(kāi)銷(xiāo)都受到很大的限制。第三類方法考慮了實(shí)體的上下文情境,通過(guò)計(jì)算實(shí)體與周?chē)谋局g的語(yǔ)義相似度把實(shí)體描述鏈接到知識(shí)庫(kù)中的某個(gè)實(shí)體,該類方忽略了同一文本內(nèi)的實(shí)體之間的語(yǔ)義關(guān)系。第四類是基于主題模型的實(shí)體鏈接方法,這種方法需要對(duì)數(shù)字資源進(jìn)行主題建模,較為復(fù)雜。
然而目前隨著實(shí)體數(shù)量的激增,使得當(dāng)前的實(shí)體鏈接技術(shù)越來(lái)越難以滿足人們對(duì)鏈接準(zhǔn)確率的要求。如何高效地從數(shù)字資源中獲取待鏈接實(shí)體并將其與給定知識(shí)庫(kù)中的實(shí)體進(jìn)行鏈接是當(dāng)前需要解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
鑒于當(dāng)前的實(shí)體鏈接方法無(wú)法高效地從數(shù)字資源中獲取待鏈接實(shí)體并將其與給定知識(shí)庫(kù)中的實(shí)體進(jìn)行鏈接的問(wèn)題,本發(fā)明提出一種實(shí)體鏈接方法及裝置。
第一方面,本發(fā)明提出一種實(shí)體鏈接方法,包括:
獲取待鏈接的實(shí)體集合,對(duì)所述實(shí)體集合中的每個(gè)實(shí)體在給定知識(shí)庫(kù)中生成所述每個(gè)實(shí)體對(duì)應(yīng)的候選實(shí)體集合;
根據(jù)候選實(shí)體集合中每個(gè)候選實(shí)體的精確屬性、模糊屬性和相關(guān)實(shí)體,計(jì)算每個(gè)實(shí)體與該實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的每個(gè)候選實(shí)體的相關(guān)度;
根據(jù)當(dāng)前實(shí)體與其各候選實(shí)體的相關(guān)度大小和該實(shí)體對(duì)應(yīng)的候選實(shí)體的數(shù)量,得到當(dāng)前實(shí)體的鏈接實(shí)體。
優(yōu)選地,所述根據(jù)當(dāng)前實(shí)體與其各候選實(shí)體的相關(guān)度大小和該實(shí)體對(duì)應(yīng)的候選實(shí)體的數(shù)量,得到當(dāng)前實(shí)體的鏈接實(shí)體之后,還包括:
根據(jù)每個(gè)鏈接實(shí)體的相關(guān)實(shí)體集合,對(duì)數(shù)字資源進(jìn)行補(bǔ)充實(shí)體鏈接。
優(yōu)選地,所述根據(jù)候選實(shí)體集合中每個(gè)候選實(shí)體的精確屬性、模糊屬性和相關(guān)實(shí)體,計(jì)算每個(gè)實(shí)體與該實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的每個(gè)候選實(shí)體的相關(guān)度,包括:
根據(jù)每個(gè)候選實(shí)體的每個(gè)精確屬性,若當(dāng)前精確屬性在數(shù)字資源中存在相似或相同的詞語(yǔ),則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加 第一預(yù)設(shè)值;其中,當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度的初始值為0,當(dāng)前候選實(shí)體的所有精確屬性計(jì)算結(jié)束后的相關(guān)度為第一相關(guān)度;
根據(jù)每個(gè)候選實(shí)體的每個(gè)模糊屬性,若當(dāng)前模糊屬性在數(shù)字資源中存在相同的詞語(yǔ),或存在相似的詞語(yǔ)且精確屬性的數(shù)量大于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前模糊屬性在數(shù)字資源中存在相似的詞語(yǔ)且精確屬性的數(shù)量小于等于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度根據(jù)以下公式一計(jì)算得到:
其中,si,j表示當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度,o表示當(dāng)前候選實(shí)體的精確屬性的數(shù)量,score表示第一預(yù)設(shè)值,σ表示第二預(yù)設(shè)值;
根據(jù)每個(gè)候選實(shí)體的每個(gè)相關(guān)實(shí)體,若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度大于等于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度小于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.25倍的第一預(yù)設(shè)值。
優(yōu)選地,所述根據(jù)當(dāng)前實(shí)體與其各候選實(shí)體的相關(guān)度大小和該實(shí)體對(duì)應(yīng)的候選實(shí)體的數(shù)量,得到當(dāng)前實(shí)體的鏈接實(shí)體,包括:
若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為0,則當(dāng)前實(shí)體的鏈接實(shí)體為空;
若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為1且當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則當(dāng)前實(shí)體的鏈接實(shí)體為當(dāng)前候選實(shí)體;
若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量大于1且當(dāng)前實(shí)體包含相關(guān)度大于等于3倍的第一預(yù)設(shè)值的候選實(shí)體,則當(dāng)前實(shí)體的鏈接實(shí)體為相關(guān)度最大的候選實(shí)體。
優(yōu)選地,所述根據(jù)每個(gè)鏈接實(shí)體的相關(guān)實(shí)體集合,對(duì)數(shù)字資源進(jìn)行補(bǔ)充實(shí)體鏈接,包括:
獲取所有鏈接實(shí)體的相關(guān)實(shí)體,若數(shù)字資源中存在與當(dāng)前相關(guān)實(shí)體相同的字符串且該字符串長(zhǎng)度大于2,或該字符串長(zhǎng)度小于等于2且當(dāng)前相關(guān)實(shí)體與該字符串的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則將該字符串與當(dāng)前相關(guān)實(shí)體進(jìn)行鏈接。
第二方面,本發(fā)明還提出一種實(shí)體鏈接裝置,包括:
候選實(shí)體生成模塊,用于獲取待鏈接的實(shí)體集合,對(duì)所述實(shí)體集合中的每個(gè)實(shí)體在給定知識(shí)庫(kù)中生成所述每個(gè)實(shí)體對(duì)應(yīng)的候選實(shí)體集合;
相關(guān)度計(jì)算模塊,用于根據(jù)候選實(shí)體集合中每個(gè)候選實(shí)體的精確屬性、模糊屬性和相關(guān)實(shí)體,計(jì)算每個(gè)實(shí)體與該實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的每個(gè)候選實(shí)體的相關(guān)度;
鏈接實(shí)體獲取模塊,用于根據(jù)當(dāng)前實(shí)體與其各候選實(shí)體的相關(guān)度大小和該實(shí)體對(duì)應(yīng)的候選實(shí)體的數(shù)量,得到當(dāng)前實(shí)體的鏈接實(shí)體。
優(yōu)選地,還包括:
補(bǔ)充鏈接實(shí)體獲取模塊,用于根據(jù)每個(gè)鏈接實(shí)體的相關(guān)實(shí)體集合,對(duì)數(shù)字資源進(jìn)行補(bǔ)充實(shí)體鏈接。
優(yōu)選地,所述相關(guān)度計(jì)算模塊包括:
精確屬性計(jì)算單元,用于根據(jù)每個(gè)候選實(shí)體的每個(gè)精確屬性,若當(dāng)前精確屬性在數(shù)字資源中存在相似或相同的詞語(yǔ),則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加第一預(yù)設(shè)值;其中,當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度的初始值為0,當(dāng)前候選實(shí)體的所有精確屬性計(jì)算結(jié)束后的相關(guān)度為第一相關(guān)度;
模糊屬性計(jì)算單元,用于根據(jù)每個(gè)候選實(shí)體的每個(gè)模糊屬性,若當(dāng)前模糊屬性在數(shù)字資源中存在相同的詞語(yǔ),或存在相似的詞語(yǔ)且精確屬性的數(shù)量大于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前模糊屬性在數(shù)字資源中存在相似的詞語(yǔ)且精確屬性的數(shù)量小于等于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度根據(jù)以下公式一計(jì)算得到:
其中,si,j表示當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度,o表示當(dāng)前候選實(shí)體的精確屬性的數(shù)量,score表示第一預(yù)設(shè)值,σ表示第二預(yù)設(shè)值;
相關(guān)實(shí)體計(jì)算單元,用于根據(jù)每個(gè)候選實(shí)體的每個(gè)相關(guān)實(shí)體,若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度大于等于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度小于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.25倍的第一預(yù)設(shè)值。
優(yōu)選地,所述鏈接實(shí)體獲取模塊包括:
第一鏈接實(shí)體獲取單元,用于判斷若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為0,則當(dāng)前實(shí)體的鏈接實(shí)體為空;
第二鏈接實(shí)體獲取單元,用于判斷若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為1且當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則當(dāng)前實(shí)體的鏈接實(shí)體為當(dāng)前候選實(shí)體;
第三鏈接實(shí)體獲取單元,用于判斷若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量大于1且當(dāng)前實(shí)體包含相關(guān)度大于等于3倍的第一預(yù)設(shè)值的候選實(shí)體,則當(dāng)前實(shí)體的鏈接實(shí)體為相關(guān)度最大的候選實(shí)體。
優(yōu)選地,所述補(bǔ)充鏈接實(shí)體獲取模塊用于獲取所有鏈接實(shí)體的相關(guān)實(shí)體,若數(shù)字資源中存在與當(dāng)前相關(guān)實(shí)體相同的字符串且該字符串長(zhǎng)度大于2,或該字符串長(zhǎng)度小于等于2且當(dāng)前相關(guān)實(shí)體與該字符串的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則將該字符串與當(dāng)前相關(guān)實(shí)體進(jìn)行鏈接。
由上述技術(shù)方案可知,本發(fā)明根據(jù)實(shí)體的知識(shí)進(jìn)行實(shí)體鏈接,提高了實(shí)體消歧的語(yǔ)義精確度,通過(guò)相關(guān)度進(jìn)行量化處理,挖掘了同一文本內(nèi)的實(shí)體之間的語(yǔ)義關(guān)系,能夠高效地從數(shù)字資源中獲取待鏈接實(shí)體并將其與給定知識(shí)庫(kù)中的實(shí)體進(jìn)行鏈接。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些圖獲得其他的附圖。
圖1為本發(fā)明一實(shí)施例提供的一種實(shí)體鏈接方法的流程示意圖;
圖2為本發(fā)明一實(shí)施例提供的一種實(shí)體鏈接方法的流程示意圖;
圖3為本發(fā)明一實(shí)施例提供的一種計(jì)算相關(guān)度的流程示意圖;
圖4為本發(fā)明一實(shí)施例提供的一種補(bǔ)充鏈接的流程示意圖;
圖5為本發(fā)明一實(shí)施例提供的一種實(shí)體鏈接裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖,對(duì)發(fā)明的具體實(shí)施方式作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說(shuō)明本發(fā)明的技術(shù)方案,而不能以此來(lái)限制本發(fā)明的保護(hù)范圍。
本發(fā)明涉及的基本定義和概念如下:
(1)用戶字典是由習(xí)慣用語(yǔ)、縮略語(yǔ)和新詞組成的詞語(yǔ)集合,定義為userlib={e1,e2,…,er},其中ei,i=1,…,r表示一個(gè)詞或短語(yǔ)。
(2)停用詞表是由標(biāo)點(diǎn)符號(hào)及數(shù)字資源中的無(wú)意義詞等組成的詞語(yǔ)集合,定義為stopwords={w1,w2,…,ws},其中wi,i=1,…,s表示一個(gè)詞、標(biāo)點(diǎn)符號(hào)或短語(yǔ)。
(3)停用詞性是由功能詞性構(gòu)成的集合,定義為stopspeeches={s1,s2,…,st},其中si,i=1,…,t表示一種功能詞性,如語(yǔ)氣詞、助詞等。
(4)加載用戶詞典對(duì)數(shù)字資源進(jìn)行分詞,并利用停用詞表及詞性對(duì)分詞結(jié)果進(jìn)行去噪后,所得到的詞語(yǔ)集合定義為t={term1,term2,…,termn},其中termi,i=1,…,n表示第i個(gè)意義詞。
(5)給定知識(shí)庫(kù)中的實(shí)體包含精確屬性、模糊屬性和相關(guān)實(shí)體等知識(shí)。精確屬性集a={a1,a2,…,ao},精確屬性個(gè)數(shù)為o;模糊屬性集b={b1,b2,…,bp},模糊屬性個(gè)數(shù)為p;相關(guān)實(shí)體集r={r1,r2,…,rq},相關(guān)實(shí)體個(gè)數(shù)為q。其中,模糊屬性由精確屬性利用相關(guān)技術(shù)獲取得到。
(6)待鏈接實(shí)體指稱的上下文與實(shí)體知識(shí)越匹配,則越可能鏈接到對(duì)應(yīng)實(shí)體。
(7)詞語(yǔ)terma與termb的相似度s定義為terma的詞向量va與termb的詞向量vb的內(nèi)積。若s=1,則terma與termb相同;若θ<s<1(θ為閾值,θ=0.85),則terma與termb相似。
圖1示出了本發(fā)明一實(shí)施例提供的一種實(shí)體鏈接方法,包括:
s1、獲取數(shù)字資源的待鏈接實(shí)體集合,對(duì)所述實(shí)體集合中的每個(gè)實(shí)體在給定知識(shí)庫(kù)中生成所述每個(gè)實(shí)體對(duì)應(yīng)的候選實(shí)體集合;
s2、根據(jù)候選實(shí)體集合中每個(gè)候選實(shí)體的精確屬性、模糊屬性和相關(guān)實(shí)體,計(jì)算每個(gè)實(shí)體與該實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的每個(gè)候選實(shí)體的相關(guān)度;
s3、根據(jù)當(dāng)前實(shí)體與其各候選實(shí)體的相關(guān)度大小和該實(shí)體對(duì)應(yīng)的候選實(shí)體的數(shù)量,得到當(dāng)前實(shí)體的鏈接實(shí)體。
本實(shí)施例根據(jù)實(shí)體的知識(shí)進(jìn)行實(shí)體鏈接,提高了實(shí)體消歧的語(yǔ)義精確度,通過(guò)相關(guān)度進(jìn)行量化處理,挖掘了同一文本內(nèi)的實(shí)體之間的語(yǔ)義關(guān)系,能夠高效地從數(shù)字資源中獲取待鏈接實(shí)體并將其與給定知識(shí)庫(kù)中的實(shí)體進(jìn)行鏈接。
作為本實(shí)施例的優(yōu)選方案,還包括:
s4、根據(jù)每個(gè)鏈接實(shí)體的相關(guān)實(shí)體集合,對(duì)數(shù)字資源進(jìn)行補(bǔ)充實(shí)體鏈接。
通過(guò)對(duì)數(shù)字資源進(jìn)行補(bǔ)充鏈接,能夠挖掘同一文本內(nèi)的實(shí)體之間的語(yǔ)義關(guān)系。
具體地,s2包括:
根據(jù)每個(gè)候選實(shí)體的每個(gè)精確屬性,若當(dāng)前精確屬性在數(shù)字資源中存在相似或相同的詞語(yǔ),則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加第一預(yù)設(shè)值;其中,當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度的初始值為0,當(dāng)前候選實(shí)體的所有精確屬性計(jì)算結(jié)束后的相關(guān)度為第一相關(guān)度;
根據(jù)每個(gè)候選實(shí)體的每個(gè)模糊屬性,若當(dāng)前模糊屬性在數(shù)字資源中存在相同的詞語(yǔ),或存在相似的詞語(yǔ)且精確屬性的數(shù)量大于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前模糊屬性在數(shù)字資源中存在相似的詞語(yǔ)且精確屬性的數(shù)量小于等于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度根據(jù)以下公式一計(jì)算得到:
其中,si,j表示當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度,o表示當(dāng)前候選實(shí)體的精確屬性的數(shù)量,score表示第一預(yù)設(shè)值,σ表示第二預(yù)設(shè)值;
根據(jù)每個(gè)候選實(shí)體的每個(gè)相關(guān)實(shí)體,若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度大于等于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度小于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.25倍的第一預(yù)設(shè)值。
通過(guò)將相似和相同詞語(yǔ)進(jìn)行區(qū)別對(duì)待,增強(qiáng)實(shí)體相關(guān)度計(jì)算的語(yǔ)義信息。
進(jìn)一步地,s3包括:
若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為0,則當(dāng)前實(shí)體的鏈接實(shí)體為空;
若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為1且當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則當(dāng)前實(shí)體的鏈接實(shí)體為當(dāng)前候選實(shí)體;
若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量大于1且當(dāng)前實(shí)體包含相關(guān)度大于等于3倍的第一預(yù)設(shè)值的候選實(shí)體,則當(dāng)前實(shí)體的鏈接實(shí)體為相關(guān)度最大的候選實(shí)體。
更進(jìn)一步地,s4包括:
獲取所有鏈接實(shí)體的相關(guān)實(shí)體,若知識(shí)庫(kù)中存在與當(dāng)前相關(guān)實(shí)體相同的字符串且該字符串長(zhǎng)度大于2,或該字符串長(zhǎng)度小于等于2且當(dāng)前相關(guān)實(shí)體與該字符串的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則將該字符串與當(dāng)前相關(guān)實(shí)體進(jìn)行鏈接。
本實(shí)施例提供的實(shí)體鏈接方法主要包括以下步驟,如圖2所示:
a1、將數(shù)字資源,一篇有格式或無(wú)格式的文本文檔,利用分詞、 詞性標(biāo)注等技術(shù)抽取出其所包含的待鏈接實(shí)體指稱集合e。對(duì)e中的每個(gè)實(shí)體ei∈e在給定知識(shí)庫(kù)中生成其候選實(shí)體集合
將給定知識(shí)庫(kù)中所有實(shí)體的名稱加入用戶字典userlib。取t中的名詞構(gòu)成待鏈接實(shí)體指稱集合e。對(duì)知識(shí)庫(kù)中擁有多個(gè)名稱的實(shí)體,通過(guò)同義詞表建立待鏈接實(shí)體指稱與候選實(shí)體的映射。
a2、對(duì)ei的每個(gè)候選實(shí)體ei,j利用詞向量結(jié)合ei,j的精確屬性、模糊屬性以及相關(guān)實(shí)體來(lái)計(jì)算ei與ei,j的相關(guān)度。
詞向量由給定知識(shí)庫(kù)的相關(guān)語(yǔ)料訓(xùn)練得到并進(jìn)行歸一化處理。
對(duì)給定知識(shí)庫(kù)中實(shí)體的精確屬性、模糊屬性、相關(guān)實(shí)體根據(jù)各自不同的生成方式設(shè)置不同的分?jǐn)?shù)。每個(gè)精確屬性的分?jǐn)?shù)設(shè)置為score(score=2)。
設(shè)ei與ei,j的相關(guān)度為si,j,初始值為0。如圖3所示,其計(jì)算方法為步驟如下:
(1)對(duì)ei,j的每個(gè)精確屬性a,遍歷數(shù)字資源詞語(yǔ)集合t中的每個(gè)termi,若termi與a相似或相同,令si,j=si,j+score;
(2)對(duì)ei,j的每個(gè)模糊屬性b,遍歷數(shù)字資源詞語(yǔ)集合t中的每個(gè)termi,若termi與b相同,令si,j=si,j+score/2;若termi與b相似,精確屬性個(gè)數(shù)o>σ(σ為閾值,模糊屬性基于精確屬性生成,σ反映模糊屬性的可信度,σ=20),令si,j=si,j+score/2;若termi與b相似,精確屬性個(gè)數(shù)o≤σ,根據(jù)公式一計(jì)算si,j;
(3)對(duì)ei,j的每個(gè)相關(guān)實(shí)體r,遍歷數(shù)字資源詞語(yǔ)集合t中的每個(gè)termi,若termi與r相同,且通過(guò)步驟(1)遍歷精確屬性后得到的si,j不小于score,令si,j=si,j+score/2;若termi與r相同,但通過(guò)遍歷精確屬性后得到的si,j小于score,令si,j=si,j+score/4。
a3、根據(jù)ei與候選實(shí)體集合
當(dāng)
當(dāng)
當(dāng)
e中所有ei鏈接得到的實(shí)體ki構(gòu)成e在給定知識(shí)庫(kù)的鏈接實(shí)體集合k={k1,k2,…,ki,…}。
a4、利用k的相關(guān)實(shí)體集合對(duì)數(shù)字資源進(jìn)行補(bǔ)充鏈接,如圖4所示。
(1)抽取k中所有實(shí)體的相關(guān)實(shí)體構(gòu)成集合rk。
(2)對(duì)rk中的每個(gè)相關(guān)實(shí)體rk,利用字符匹配在數(shù)字資源中進(jìn)行查找,若存在字符串str與rk名稱完全匹配,且名稱長(zhǎng)度大于2,將str與rk進(jìn)行鏈接;否則,若存在完全匹配字符串,但名稱長(zhǎng)度不大于2,按第二步計(jì)算str與rk的相關(guān)度
本實(shí)施例獲取待鏈接實(shí)體指稱集合時(shí)不采用命名實(shí)體技術(shù),操作簡(jiǎn)單高效;引入詞向量,將相似和相同詞語(yǔ)進(jìn)行區(qū)別對(duì)待,增強(qiáng)實(shí)體相關(guān)度計(jì)算的語(yǔ)義信息;根據(jù)實(shí)體的知識(shí)進(jìn)行實(shí)體鏈接,提高實(shí)體消歧的語(yǔ)義精確度;根據(jù)知識(shí)間的相互生成關(guān)系及知識(shí)的重要度設(shè)置閾值及評(píng)分策略,充分利用實(shí)體知識(shí);利用實(shí)體的相關(guān)實(shí)體進(jìn)行補(bǔ)充鏈接,挖掘同一文本內(nèi)的實(shí)體之間的語(yǔ)義關(guān)系。
舉例來(lái)說(shuō),當(dāng)θ=0.85,score=2,結(jié)果如下:
描寫(xiě)南宋{ynnnznnr}愛(ài)國(guó)詩(shī)人陸游{ynnnzn2z}生平的影片《風(fēng)流千古》,由峨眉電影制片廠攝制組來(lái)陸游{ynnnzn2z}的家鄉(xiāng) 紹興以及杭州{ynnrz3yq}西子湖畔拍攝外景?!讹L(fēng)流千古》描寫(xiě)的是陸游{ynnnzn2z}堅(jiān)持御外抗金的主張,屢遭當(dāng)權(quán)奸臣秦檜{ynnnznp6}等人排斥打擊的坎坷仕途,以及他與表妹唐琬{ynnrzvnx}建立在愛(ài)國(guó)思想基礎(chǔ)上的堅(jiān)貞愛(ài)情的故事。影片由寇嘉弼、江沛編劇,寇嘉弼、李杰鋒導(dǎo)演,顧溫厚攝影。陸游{ynnnzn2z}的扮演者計(jì)鎮(zhèn)華同志,是上海一位三十多歲的昆劇演員。唐琬{ynnrzvnx}由著名演員王馥荔扮演。
大括號(hào)內(nèi)的字符串代表文本中的待鏈接實(shí)體指稱鏈接到的歷史知識(shí)庫(kù)中的實(shí)體的id。將所有歷史知識(shí)庫(kù)中實(shí)體名稱加入用戶字典中,對(duì)文本進(jìn)行分詞、詞性標(biāo)注等處理后得到待鏈接實(shí)體指稱集合為:{南宋,詩(shī)人,陸游,生平,影片,千古,峨眉電影制片廠,攝制組,陸游,家鄉(xiāng),紹興,杭州,西子湖畔,外景,千古,陸游,御外,奸臣,秦檜,仕途,表妹,唐琬,思想,基礎(chǔ),愛(ài)情,故事,影片,寇嘉弼,江沛,編劇,寇嘉弼,李杰鋒,導(dǎo)演,顧溫厚,陸游,扮演者,計(jì)鎮(zhèn)華,同志,上海,昆劇,演員,唐琬,演員,王馥荔}。從歷史知識(shí)庫(kù)中可獲取的相關(guān)候選實(shí)體集合id分別為:南宋{ynnnznnr};陸游{ynnnzn2z};杭州{ynnnzfsv,ynnrz3yq};秦檜{ynnnznp6};唐琬{ynnrzvnx};紹興{ynnrzbve,ynnrzwoe};上海{ynnnzazv,ynnnzggg,ynnnrzbrd,ynnnzrfb}。歷史知識(shí)庫(kù)中地名多因朝代差異而存在多個(gè)同名實(shí)體。實(shí)體ynnrz3yq為宋朝杭州,ynnnzfsv為唐朝杭州;ynnrzbve為中華人民共和國(guó)紹興;ynnrzwoe為中華民國(guó)紹興;ynnnzazv為元朝上海;ynnnzggg為清朝上海;ynnnrzbrd為中華人民共和國(guó)上海;ynnnzrfb為明朝上海。實(shí)體陸游的鏈接過(guò)程中,文本中與其精確屬性相同的詞語(yǔ)有:詩(shī)人、南宋;與其精確屬性相似的詞語(yǔ)有:紹興(對(duì)應(yīng)山陰);相關(guān)實(shí)體有:秦檜。
圖5示出了本發(fā)明一實(shí)施例提供的一種實(shí)體鏈接裝置,包括:
候選實(shí)體生成模塊11,用于獲取數(shù)字資源的待鏈接實(shí)體集合,對(duì)所述實(shí)體集合中的每個(gè)實(shí)體在給定知識(shí)庫(kù)中生成所述每個(gè)實(shí)體對(duì)應(yīng)的候選實(shí)體集合;
相關(guān)度計(jì)算模塊12,用于根據(jù)候選實(shí)體集合中每個(gè)候選實(shí)體的精確屬性、模糊屬性和相關(guān)實(shí)體,計(jì)算每個(gè)實(shí)體與該實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的每個(gè)候選實(shí)體的相關(guān)度;
鏈接實(shí)體獲取模塊13,用于根據(jù)當(dāng)前實(shí)體與其各候選實(shí)體的相關(guān)度大小和該實(shí)體對(duì)應(yīng)的候選實(shí)體的數(shù)量,得到當(dāng)前實(shí)體的鏈接實(shí)體。
本實(shí)施例根據(jù)實(shí)體的知識(shí)進(jìn)行實(shí)體鏈接,提高了實(shí)體消歧的語(yǔ)義精確度,通過(guò)相關(guān)度進(jìn)行量化處理,挖掘了同一文本內(nèi)的實(shí)體之間的語(yǔ)義關(guān)系,能夠高效地從數(shù)字資源中獲取待鏈接實(shí)體并將其與給定知識(shí)庫(kù)中的實(shí)體進(jìn)行鏈接。
作為本實(shí)施例的優(yōu)選方案,還包括:
補(bǔ)充鏈接實(shí)體獲取模塊,用于根據(jù)每個(gè)鏈接實(shí)體的相關(guān)實(shí)體集合,對(duì)數(shù)字資源進(jìn)行補(bǔ)充實(shí)體鏈接。
通過(guò)對(duì)數(shù)字資源進(jìn)行補(bǔ)充鏈接,能夠挖掘同一文本內(nèi)的實(shí)體之間的語(yǔ)義關(guān)系。
具體地,所述相關(guān)度計(jì)算模塊12包括:
精確屬性計(jì)算單元,用于根據(jù)每個(gè)候選實(shí)體的每個(gè)精確屬性,若當(dāng)前精確屬性在數(shù)字資源中存在相似或相同的詞語(yǔ),則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加第一預(yù)設(shè)值;其中,當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度的初始值為0,當(dāng)前候選實(shí)體的所有精確屬性計(jì)算結(jié)束后的相關(guān)度為第一相關(guān)度;
模糊屬性計(jì)算單元,用于根據(jù)每個(gè)候選實(shí)體的每個(gè)模糊屬性,若當(dāng)前模糊屬性在數(shù)字資源中存在相同的詞語(yǔ),或存在相似的詞語(yǔ)且精確屬性的數(shù)量大于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度 增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前模糊屬性在數(shù)字資源中存在相似的詞語(yǔ)且精確屬性的數(shù)量小于等于第二預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度根據(jù)以下公式一計(jì)算得到:
其中,si,j表示當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度,o表示當(dāng)前候選實(shí)體的精確屬性的數(shù)量,score表示第一預(yù)設(shè)值,σ表示第二預(yù)設(shè)值;
相關(guān)實(shí)體計(jì)算單元,用于根據(jù)每個(gè)候選實(shí)體的每個(gè)相關(guān)實(shí)體,若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度大于等于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.5倍的第一預(yù)設(shè)值;若當(dāng)前相關(guān)實(shí)體在數(shù)字資源中存在相同的詞語(yǔ)且所述第一相關(guān)度小于所述第一預(yù)設(shè)值,則當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度增加0.25倍的第一預(yù)設(shè)值。
進(jìn)一步地,所述鏈接實(shí)體獲取模塊13包括:
第一鏈接實(shí)體獲取單元,用于判斷若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為0,則當(dāng)前實(shí)體的鏈接實(shí)體為空;
第二鏈接實(shí)體獲取單元,用于判斷若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量為1且當(dāng)前實(shí)體與當(dāng)前候選實(shí)體的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則當(dāng)前實(shí)體的鏈接實(shí)體為當(dāng)前候選實(shí)體;
第三鏈接實(shí)體獲取單元,用于判斷若當(dāng)前實(shí)體對(duì)應(yīng)的候選實(shí)體集合中的候選實(shí)體數(shù)量大于1且當(dāng)前實(shí)體包含相關(guān)度大于等于3倍的第一預(yù)設(shè)值的候選實(shí)體,則當(dāng)前實(shí)體的鏈接實(shí)體為相關(guān)度最大的候選實(shí)體。
更進(jìn)一步地,所述補(bǔ)充鏈接實(shí)體獲取模塊用于獲取所有鏈接實(shí)體的相關(guān)實(shí)體,若知識(shí)庫(kù)中存在與當(dāng)前相關(guān)實(shí)體相同的字符串且該字符串長(zhǎng)度大于2,或該字符串長(zhǎng)度小于等于2且當(dāng)前相關(guān)實(shí)體與該字符 串的相關(guān)度大于等于3倍的第一預(yù)設(shè)值,則將該字符串與當(dāng)前相關(guān)實(shí)體進(jìn)行鏈接。
本發(fā)明的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。