一種面向知識庫更新的實體細(xì)粒度分類方法與系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體涉及一種面向知識庫更新的實體細(xì)粒度分類 方法與系統(tǒng)。
【背景技術(shù)】
[0002] 知識庫是采用某種知識表示方式組織和管理的互相聯(lián)系的知識集合。在知識工程 領(lǐng)域,知識描述的要素一般包括分類、實體、關(guān)系、屬性等要素,其中分類用于對知識庫中的 知識項進(jìn)行語義分組或語義標(biāo)注。知識庫在很多領(lǐng)域中起到至關(guān)重要的作用,例如在信息 檢索中,知識庫可以幫助搜索引擎理解用戶查詢、感知用戶查詢意圖、進(jìn)行查詢擴(kuò)展和查詢 問答等;此外,知識庫在數(shù)據(jù)分析、輿情監(jiān)控、深網(wǎng)資源發(fā)現(xiàn)等領(lǐng)域中也有廣泛的應(yīng)用。雖然 目前存在眾多知識庫,但是它們在知識的覆蓋率和時新性方面仍存在諸多限制,根本原因 在于,隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)正以爆炸速度增長,在Web中每天都會產(chǎn)生新的知識。 因此,為了構(gòu)造高質(zhì)量的知識庫,將新產(chǎn)生的知識動態(tài)、實時、自動地更新到已有的知識庫 中,并且保障知識庫的擴(kuò)展能力、覆蓋能力和時新性變得至關(guān)重要。
[0003] 實體作為知識描述的重要組成要素,知識庫必然需要具備自動擴(kuò)展實體的能力。 要將新出現(xiàn)的實體更新到知識庫中,需要首先確定實體在知識庫中的位置,即實體在知識 庫中所屬的分類信息。在確定了實體的分類之后,將新出現(xiàn)的實體添加到知識庫的該分類 下,從而豐富知識庫中包含的實體集合。目前,實體分類方法主要有兩類:實體粗粒度分類 和實體細(xì)粒度分類。
[0004] 實體粗粒度分類將實體劃分為粗粒度類別,如人名、地名、機(jī)構(gòu)名等。主要采用有 監(jiān)督的方式訓(xùn)練實體分類模型,需要大量的人工標(biāo)注的訓(xùn)練數(shù)據(jù)。這種方式無法直接應(yīng)用 到面向知識庫的實體分類中,原因在于知識庫將實體劃分成成百上千個類別,它需要的訓(xùn) 練數(shù)據(jù)的規(guī)模更大,而且創(chuàng)建如此規(guī)模的訓(xùn)練數(shù)據(jù)需要大量的人力。
[0005] 實體細(xì)粒度分類將實體劃分為更細(xì)致的類別,主要采用啟發(fā)式規(guī)則或基于弱監(jiān)督 的方法對實體進(jìn)行分類。其中,基于啟發(fā)式規(guī)則的方法直接通過定義的句法模式為實體進(jìn) 行類別標(biāo)注,這種方法操作簡單,但是需要人工維護(hù)和定義大量的規(guī)則?;谌醣O(jiān)督的方法 提取實體的上下文,利用上下文的詞法、句法特征計算實體所屬的分類信息,然而這種方法 的準(zhǔn)確率較低,而且這種方法在上下文缺乏的情況下將難以推斷實體的分類信息。
[0006] 綜上所述,現(xiàn)有的實體粗粒度分類方法并不適用于知識庫的更新,而現(xiàn)有的實體 細(xì)粒度分類方法準(zhǔn)確率較低。
【發(fā)明內(nèi)容】
[0007] 為解決上述問題,根據(jù)本發(fā)明的一個實施例,提供一種面向知識庫更新的實體細(xì) 粒度分類方法,包括:
[0008] 步驟1)、從文本中識別出實體;
[0009] 步驟2)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的 分類作為結(jié)點(diǎn)構(gòu)建依賴圖,其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之間的相關(guān) 程度;
[0010]步驟3)、通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走,得到識別出的實體所屬的分 類。
[0011] 上述方法中,步驟2)包括:
[0012] 步驟21)、根據(jù)語義相容度獲得識別出的實體在知識庫中的相關(guān)實體,并且獲得該 相關(guān)實體在知識庫中的分類;其中,語義相容度表示識別出的實體的上下文信息與相關(guān)實 體的描述文本的相似度;
[0013]步驟22)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的 分類作為結(jié)點(diǎn);
[0014]步驟23)、在表示識別出的實體的結(jié)點(diǎn)和表示相關(guān)實體的結(jié)點(diǎn)之間添加邊,邊的權(quán) 值為該識別出的實體與該相關(guān)實體之間的語義相容度;
[0015] 在表示相關(guān)實體的結(jié)點(diǎn)和表示分類的結(jié)點(diǎn)之間添加邊,邊的權(quán)值指示該相關(guān)實體 是否屬于該分類;
[0016] 在表示相關(guān)實體的結(jié)點(diǎn)之間添加邊,邊的權(quán)值為該相關(guān)實體之間的語義相關(guān)度;
[0017] 在表示分類的結(jié)點(diǎn)之間添加邊,邊的權(quán)值為該分類之間的相關(guān)度。
[0018] 上述方法中,根據(jù)下式計算語義相容度:
【主權(quán)項】
1. 一種面向知識庫更新的實體細(xì)粒度分類方法,包括: 步驟1)、從文本中識別出實體; 步驟2)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類 作為結(jié)點(diǎn)構(gòu)建依賴圖,其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之間的相關(guān)程 度; 步驟3)、通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走,得到識別出的實體所屬的分類。
2. 根據(jù)權(quán)利要求1所述的方法,其中,步驟2)包括: 步驟21)、根據(jù)語義相容度獲得識別出的實體在知識庫中的相關(guān)實體,并且獲得該相關(guān) 實體在知識庫中的分類;其中,語義相容度表示識別出的實體的上下文信息與相關(guān)實體的 描述文本的相似度; 步驟22)、將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類 作為結(jié)點(diǎn); 步驟23)、在表示識別出的實體的結(jié)點(diǎn)和表示相關(guān)實體的結(jié)點(diǎn)之間添加邊,邊的權(quán)值為 該識別出的實體與該相關(guān)實體之間的語義相容度; 在表示相關(guān)實體的結(jié)點(diǎn)和表示分類的結(jié)點(diǎn)之間添加邊,邊的權(quán)值指示該相關(guān)實體是否 屬于該分類; 在表示相關(guān)實體的結(jié)點(diǎn)之間添加邊,邊的權(quán)值為該相關(guān)實體之間的語義相關(guān)度; 在表示分類的結(jié)點(diǎn)之間添加邊,邊的權(quán)值為該分類之間的相關(guān)度。
3. 根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)下式計算語義相容度:
其中,SC(em,e)表示識別出的實體em與知識庫中的相關(guān)實體e的語義相容度,X表示 em的上下文信息,T表示e的描述文本,f (_)表示文本中包含的所有Biterm組成的TF-IDF 向量,| |表示向量的模,Biterm表示文本中共現(xiàn)的詞對。
4. 根據(jù)權(quán)利要求3所述的方法,其中,識別出的實體的上下文信息是由出現(xiàn)在所述文 本之前和之后的詞組成的。
5. 根據(jù)權(quán)利要求3或4所述的方法,其中,步驟21)包括: 將知識庫中與識別出的實體的語義相容度大于〇的實體作為相關(guān)實體。
6. 根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)下式計算相關(guān)實體之間的語義相關(guān)度:
其中,SR(ei,e2)表示知識庫中的相關(guān)實體&和e 2的語義相關(guān)度,I :和12分別表示知 識庫中描述實體的文本中出現(xiàn)實體eJP e 2的實體的集合,Z表示知識庫中包含的所有實體 的集合,I ? I表示集合的大小。
7. 根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)下式計算分類之間的相關(guān)度:
其中,CIUcdC^)表不分類(^和^之間的相關(guān)度,足,和&分別表不知識庫中屬于分類 (^和(32的實體的集合,I ? I表示集合的大小。
8. 根據(jù)權(quán)利要求1-4中任何一個所述的方法,其中,步驟3)包括: 步驟31)、根據(jù)下式初始化所述依賴圖中結(jié)點(diǎn)的分布狀態(tài):
其中,n表示結(jié)點(diǎn)總數(shù),巧W表示結(jié)點(diǎn)i的初始分布狀態(tài);若k = i,則ri〇5)= 1,否則 ri(k)= 0, k是自然數(shù)且1 < k < n ; 步驟32)、計算狀態(tài)轉(zhuǎn)移概率矩陣A = (aij):
其中,%表示在重啟動隨機(jī)游走過程中從結(jié)點(diǎn)i轉(zhuǎn)移到結(jié)點(diǎn)j的概率,i、j是自然數(shù) n 且滿足1彡i,j彡n 為結(jié)點(diǎn)i和結(jié)點(diǎn)j之間的邊的權(quán)重;表示連接結(jié)點(diǎn)i的所 有邊的權(quán)重之和; 步驟33)、對于每個結(jié)點(diǎn),迭代地向其鄰居結(jié)點(diǎn)進(jìn)行狀態(tài)轉(zhuǎn)移,直到所述依賴圖中每個 結(jié)點(diǎn)的分布狀態(tài)不隨迭代次數(shù)的增加而改變;其中,在第t次迭代后結(jié)點(diǎn)i的分布狀態(tài)?f1 表示如下:
其中,巧表示在第t次迭代后結(jié)點(diǎn)i的分布狀態(tài),t是自然數(shù),i是自然數(shù)且1彡i彡n,; 表示在第t-1次迭代后結(jié)點(diǎn)i的分布狀態(tài);y表示在第t次迭代后返回出發(fā)結(jié)點(diǎn)i的 概率,y為實數(shù)且〇〈 y〈1 ;巧表示結(jié)點(diǎn)i的重啟動向量且巧=(VW,…,V,w,…,,若k =i,則vi〇d= 1,否則v i〇d= 〇, k是自然數(shù)且1彡k彡n ; 步驟34)、根據(jù)結(jié)點(diǎn)的分布狀態(tài),得到其對應(yīng)的分類。
9. 根據(jù)權(quán)利要求8所述的方法,其中,步驟34)包括: 在表示識別出的實體的結(jié)點(diǎn)的分布狀態(tài)中,將表示分類的結(jié)點(diǎn)按該結(jié)點(diǎn)對應(yīng)的分量的 值進(jìn)行排序; 根據(jù)排序結(jié)果得到識別出的實體對應(yīng)的分類。
10. -種面向知識庫更新的實體細(xì)粒度分類系統(tǒng),包括: 實體識別設(shè)備,用于從文本中識別出實體; 依賴圖構(gòu)建設(shè)備,用于將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知 識庫中的分類作為結(jié)點(diǎn)構(gòu)建依賴圖,其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之 間的相關(guān)程度;以及 迭代設(shè)備,用于通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走,得到識別出的實體所屬的 分類。
【專利摘要】本發(fā)明提供一種面向知識庫更新的實體細(xì)粒度分類方法與系統(tǒng)。所述方法包括:從文本中識別出實體;將識別出的實體、知識庫中與其相關(guān)的實體以及相關(guān)實體在知識庫中的分類作為結(jié)點(diǎn)構(gòu)建依賴圖,其中依賴圖中的邊的權(quán)值表示該邊連接的兩個結(jié)點(diǎn)之間的相關(guān)程度;以及,通過在所述依賴圖上執(zhí)行重啟動隨機(jī)游走,得到識別出的實體所屬的分類。本發(fā)明能夠克服現(xiàn)有技術(shù)在實體上下文缺乏的情況下難以實現(xiàn)對該實體進(jìn)行細(xì)粒度分類的缺陷,并且提高了實體細(xì)粒度分類的準(zhǔn)確率。
【IPC分類】G06F17-30
【公開號】CN104615687
【申請?zhí)枴緾N201510033050
【發(fā)明人】程學(xué)旗, 王元卓, 林海倫, 賈巖濤, 熊錦華, 李曼玲, 常雨驍, 許洪波
【申請人】中國科學(xué)院計算技術(shù)研究所
【公開日】2015年5月13日
【申請日】2015年1月22日