一種面向知識庫更新的實體細(xì)粒度分類方法與系統(tǒng)的制作方法

文檔序號：8299113閱讀：382來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向知識庫更新的實體細(xì)粒度分類方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域，具體涉及一種面向知識庫更新的實體細(xì)粒度分類方法與系統(tǒng)。
【背景技術(shù)】
[0002] 知識庫是采用某種知識表示方式組織和管理的互相聯(lián)系的知識集合。在知識工程領(lǐng)域，知識描述的要素一般包括分類、實體、關(guān)系、屬性等要素，其中分類用于對知識庫中的知識項進(jìn)行語義分組或語義標(biāo)注。知識庫在很多領(lǐng)域中起到至關(guān)重要的作用，例如在信息檢索中，知識庫可以幫助搜索引擎理解用戶查詢、感知用戶查詢意圖、進(jìn)行查詢擴(kuò)展和查詢問答等；此外，知識庫在數(shù)據(jù)分析、輿情監(jiān)控、深網(wǎng)資源發(fā)現(xiàn)等領(lǐng)域中也有廣泛的應(yīng)用。雖然目前存在眾多知識庫，但是它們在知識的覆蓋率和時新性方面仍存在諸多限制，根本原因在于，隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)正以爆炸速度增長，在Web中每天都會產(chǎn)生新的知識。因此，為了構(gòu)造高質(zhì)量的知識庫，將新產(chǎn)生的知識動態(tài)、實時、自動地更新到已有的知識庫中，并且保障知識庫的擴(kuò)展能力、覆蓋能力和時新性變得至關(guān)重要。
[0003] 實體作為知識描述的重要組成要素，知識庫必然需要具備自動擴(kuò)展實體的能力。要將新出現(xiàn)的實體更新到知識庫中，需要首先確定實體在知識庫中的位置，即實體在知識庫中所屬的分類信息。在確定了實體的分類之后，將新出現(xiàn)的實體添加到知識庫的該分類下，從而豐富知識庫中包含的實體集合。目前，實體分類方法主要有兩類：實體粗粒度分類和實體細(xì)粒度分類。
[0004] 實體粗粒度分類將實體劃分為粗粒度類別，如人名、地名、機(jī)構(gòu)名等。主要采用有監(jiān)督的方式訓(xùn)練實體分類模型，需要大量的人工標(biāo)注的訓(xùn)練數(shù)據(jù)。這種方式無法直接應(yīng)用到面向知識庫的實體分類中，原因在于知識庫將實體劃分成成百上千個類別，它需要的訓(xùn) 練數(shù)據(jù)的規(guī)模更大，而且創(chuàng)建如此規(guī)模的訓(xùn)練數(shù)據(jù)需要大量的人力。
[0005] 實體細(xì)粒度分類將實體劃分為更細(xì)致的類別，主要采用啟發(fā)式規(guī)則或基于弱監(jiān)督的方法對實體進(jìn)行分類。其中，基于啟發(fā)式規(guī)則的方法直接通過定義的句法模式為實體進(jìn) 行類別標(biāo)注，這種方法操作簡單，但是需要人工維護(hù)和定義大量的規(guī)則?；谌醣O(jiān)督的方法提取實體的上下文，利用上下文的詞法、句法特征計算實體所屬的分類信息，然而這種方法的準(zhǔn)確率較低，而且這種方法在上下文缺乏的情況下將難以推斷實體的分類信息。
[0006] 綜上所述，現(xiàn)有的實體粗粒度分類方法并不適用于知識庫的更新，而現(xiàn)有的實體細(xì)粒度分類方法準(zhǔn)確率較低。

【發(fā)明內(nèi)容】

[0007] 為解決上述問題，根據(jù)本發(fā)明的一個實施例，提供一種面向知識庫更新的實體細(xì) 粒度分類方法，包括：
[0008] 步驟1)、從文本中識別出實體；
[0009] 步驟2)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類作為結(jié)點(diǎn)構(gòu)建依賴圖，其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之間的相關(guān) 程度；
[0010]步驟3)、通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走，得到識別出的實體所屬的分類。
[0011] 上述方法中，步驟2)包括：
[0012] 步驟21)、根據(jù)語義相容度獲得識別出的實體在知識庫中的相關(guān)實體，并且獲得該相關(guān)實體在知識庫中的分類；其中，語義相容度表示識別出的實體的上下文信息與相關(guān)實體的描述文本的相似度；
[0013]步驟22)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類作為結(jié)點(diǎn)；
[0014]步驟23)、在表示識別出的實體的結(jié)點(diǎn)和表示相關(guān)實體的結(jié)點(diǎn)之間添加邊，邊的權(quán) 值為該識別出的實體與該相關(guān)實體之間的語義相容度；
[0015] 在表示相關(guān)實體的結(jié)點(diǎn)和表示分類的結(jié)點(diǎn)之間添加邊，邊的權(quán)值指示該相關(guān)實體是否屬于該分類；
[0016] 在表示相關(guān)實體的結(jié)點(diǎn)之間添加邊，邊的權(quán)值為該相關(guān)實體之間的語義相關(guān)度；
[0017] 在表示分類的結(jié)點(diǎn)之間添加邊，邊的權(quán)值為該分類之間的相關(guān)度。
[0018] 上述方法中，根據(jù)下式計算語義相容度：
【主權(quán)項】
1. 一種面向知識庫更新的實體細(xì)粒度分類方法，包括：步驟1)、從文本中識別出實體；步驟2)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類作為結(jié)點(diǎn)構(gòu)建依賴圖，其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之間的相關(guān)程度；步驟3)、通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走，得到識別出的實體所屬的分類。
2. 根據(jù)權(quán)利要求1所述的方法，其中，步驟2)包括：步驟21)、根據(jù)語義相容度獲得識別出的實體在知識庫中的相關(guān)實體，并且獲得該相關(guān) 實體在知識庫中的分類；其中，語義相容度表示識別出的實體的上下文信息與相關(guān)實體的描述文本的相似度；步驟22)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類作為結(jié)點(diǎn)；步驟23)、在表示識別出的實體的結(jié)點(diǎn)和表示相關(guān)實體的結(jié)點(diǎn)之間添加邊，邊的權(quán)值為該識別出的實體與該相關(guān)實體之間的語義相容度；在表示相關(guān)實體的結(jié)點(diǎn)和表示分類的結(jié)點(diǎn)之間添加邊，邊的權(quán)值指示該相關(guān)實體是否屬于該分類；在表示相關(guān)實體的結(jié)點(diǎn)之間添加邊，邊的權(quán)值為該相關(guān)實體之間的語義相關(guān)度；在表示分類的結(jié)點(diǎn)之間添加邊，邊的權(quán)值為該分類之間的相關(guān)度。
3. 根據(jù)權(quán)利要求2所述的方法，其中，根據(jù)下式計算語義相容度：
其中，SC(em，e)表示識別出的實體em與知識庫中的相關(guān)實體e的語義相容度，X表示 em的上下文信息，T表示e的描述文本，f (_)表示文本中包含的所有Biterm組成的TF-IDF 向量，| |表示向量的模，Biterm表示文本中共現(xiàn)的詞對。
4. 根據(jù)權(quán)利要求3所述的方法，其中，識別出的實體的上下文信息是由出現(xiàn)在所述文本之前和之后的詞組成的。
5. 根據(jù)權(quán)利要求3或4所述的方法，其中，步驟21)包括：將知識庫中與識別出的實體的語義相容度大于〇的實體作為相關(guān)實體。
6. 根據(jù)權(quán)利要求2所述的方法，其中，根據(jù)下式計算相關(guān)實體之間的語義相關(guān)度：
其中，SR(ei，e2)表示知識庫中的相關(guān)實體&和e 2的語義相關(guān)度，I :和12分別表示知識庫中描述實體的文本中出現(xiàn)實體eJP e 2的實體的集合，Z表示知識庫中包含的所有實體的集合，I ? I表示集合的大小。
7. 根據(jù)權(quán)利要求2所述的方法，其中，根據(jù)下式計算分類之間的相關(guān)度：
其中，CIUcdC^)表不分類(^和^之間的相關(guān)度，足,和&分別表不知識庫中屬于分類 (^和(32的實體的集合，I ? I表示集合的大小。
8. 根據(jù)權(quán)利要求1-4中任何一個所述的方法，其中，步驟3)包括：步驟31)、根據(jù)下式初始化所述依賴圖中結(jié)點(diǎn)的分布狀態(tài)：
其中，n表示結(jié)點(diǎn)總數(shù)，巧W表示結(jié)點(diǎn)i的初始分布狀態(tài)；若k = i，則ri〇5)= 1，否則 ri(k)= 0, k是自然數(shù)且1 < k < n ; 步驟32)、計算狀態(tài)轉(zhuǎn)移概率矩陣A = (aij):
其中，％表示在重啟動隨機(jī)游走過程中從結(jié)點(diǎn)i轉(zhuǎn)移到結(jié)點(diǎn)j的概率，i、j是自然數(shù) n 且滿足1彡i，j彡n 為結(jié)點(diǎn)i和結(jié)點(diǎn)j之間的邊的權(quán)重；表示連接結(jié)點(diǎn)i的所有邊的權(quán)重之和；步驟33)、對于每個結(jié)點(diǎn)，迭代地向其鄰居結(jié)點(diǎn)進(jìn)行狀態(tài)轉(zhuǎn)移，直到所述依賴圖中每個結(jié)點(diǎn)的分布狀態(tài)不隨迭代次數(shù)的增加而改變；其中，在第t次迭代后結(jié)點(diǎn)i的分布狀態(tài)?f1 表示如下：
其中，巧表示在第t次迭代后結(jié)點(diǎn)i的分布狀態(tài)，t是自然數(shù)，i是自然數(shù)且1彡i彡n，；表示在第t-1次迭代后結(jié)點(diǎn)i的分布狀態(tài)；y表示在第t次迭代后返回出發(fā)結(jié)點(diǎn)i的概率，y為實數(shù)且〇〈 y〈1 ;巧表示結(jié)點(diǎn)i的重啟動向量且巧=(VW，…，V,w，…,，若k =i，則vi〇d= 1，否則v i〇d= 〇, k是自然數(shù)且1彡k彡n ; 步驟34)、根據(jù)結(jié)點(diǎn)的分布狀態(tài)，得到其對應(yīng)的分類。
9. 根據(jù)權(quán)利要求8所述的方法，其中，步驟34)包括：在表示識別出的實體的結(jié)點(diǎn)的分布狀態(tài)中，將表示分類的結(jié)點(diǎn)按該結(jié)點(diǎn)對應(yīng)的分量的值進(jìn)行排序；根據(jù)排序結(jié)果得到識別出的實體對應(yīng)的分類。
10. -種面向知識庫更新的實體細(xì)粒度分類系統(tǒng)，包括：實體識別設(shè)備，用于從文本中識別出實體；依賴圖構(gòu)建設(shè)備，用于將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類作為結(jié)點(diǎn)構(gòu)建依賴圖，其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之間的相關(guān)程度；以及迭代設(shè)備，用于通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走，得到識別出的實體所屬的分類。
【專利摘要】本發(fā)明提供一種面向知識庫更新的實體細(xì)粒度分類方法與系統(tǒng)。所述方法包括：從文本中識別出實體；將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類作為結(jié)點(diǎn)構(gòu)建依賴圖，其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之間的相關(guān)程度；以及，通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走，得到識別出的實體所屬的分類。本發(fā)明能夠克服現(xiàn)有技術(shù)在實體上下文缺乏的情況下難以實現(xiàn)對該實體進(jìn)行細(xì)粒度分類的缺陷，并且提高了實體細(xì)粒度分類的準(zhǔn)確率。
【IPC分類】G06F17-30
【公開號】CN104615687
【申請?zhí)枴緾N201510033050
【發(fā)明人】程學(xué)旗, 王元卓, 林海倫, 賈巖濤, 熊錦華, 李曼玲, 常雨驍, 許洪波
【申請人】中國科學(xué)院計算技術(shù)研究所
【公開日】2015年5月13日
【申請日】2015年1月22日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程學(xué)旗;王元卓;林海倫;賈巖濤;熊錦華;李曼玲;常雨驍;許洪波;
技術(shù)所有人：中國科學(xué)院計算技術(shù)研究所;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

細(xì)粒度分類相關(guān)技術(shù)

細(xì)粒度圖像分類相關(guān)技術(shù)

面向?qū)嶓w的信息檢索相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向知識庫更新的實體細(xì)粒度分類方法與系統(tǒng)的制作方法