專利名稱:一種基于模糊認(rèn)知圖的文檔語義自動生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文檔語義自動生成方法,特別是涉及一種基于模糊認(rèn)知圖的文檔 語義自動生成方法。
背景技術(shù):
傳統(tǒng)的基于關(guān)鍵詞匹配的搜索引擎,通過對 < 關(guān)鍵詞,文章,頻率 > 這種集對的匹 配來進(jìn)行搜索。這種搜索方式的優(yōu)點(diǎn)是簡單快捷,查全率高。但是也正因?yàn)椤搓P(guān)鍵詞,文 章,頻率 > 這種集對向量過于簡單,傳統(tǒng)搜索引擎有著查準(zhǔn)率偏低,無法反映文章語義知識 等缺點(diǎn)?;谖臋n語義的搜索具有較好的查準(zhǔn)率,但是海量文檔的語義自動生成還沒有很 好的解決方案。
發(fā)明內(nèi)容
本發(fā)明所要解決的問題是,針對現(xiàn)有技術(shù)的不足,提出一種基于模糊認(rèn)知圖的文 檔語義自動生成方法,通過模糊認(rèn)知圖對文檔的段落進(jìn)行語義表示,基于模糊認(rèn)知圖的合 并實(shí)現(xiàn)整個文檔的語義表示。本發(fā)明所采用的技術(shù)方案一種基于模糊認(rèn)知圖的文檔語義自動生成方法,首先,對文檔進(jìn)行預(yù)處理包括文檔分段、分句及分詞處理;其次,將各個具有原子語義的段落都轉(zhuǎn)化為對應(yīng)的原子認(rèn)知圖(E-FCM);第三,將各個具有原子語義的段落原子認(rèn)知圖(E-FCM)組合成段落認(rèn)知圖 (S-FCM);第四,由同一篇文檔的原子認(rèn)知圖(E-FCM)和段落認(rèn)知圖(S-FCM)組合成文檔認(rèn) 知圖(D-FCM),從而實(shí)現(xiàn)文檔知識的表示。所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,采取下述步驟將具有原子語義 的段落轉(zhuǎn)換為一個原子認(rèn)知圖1)用一個文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句 作為原子認(rèn)知圖的主題結(jié)點(diǎn),即主題概念;2)對段落內(nèi)容進(jìn)行預(yù)處理,根據(jù)分句和分詞處理的結(jié)果,得到m個句子和η個不同 的關(guān)鍵詞,取前N個出現(xiàn)概率較大的關(guān)鍵詞,得到原子認(rèn)知圖的N個概念;所述m,η和N為 自然數(shù);3)對原子認(rèn)知圖中的N個概念,計算兩兩之間的聯(lián)系權(quán)重;計算公式為 ,若概念Ci和Cj共現(xiàn)第k個句子中,則bk = 1,否則bk = 0 ;
k=\4)計算原子認(rèn)知圖中的N個概念到主題概念的權(quán)重。fΛ計算方法為關(guān)鍵詞Ci對主題概念的權(quán)重由推理公式化( + 1) = / jyCi {t)wtJ,經(jīng)一
/=1
V i^jJ
次推理計算得到;第i個概念Ci在文本中的狀態(tài)值用Va = tanh(Xi)計算;Xi表示第i個 關(guān)鍵詞在文本出現(xiàn)的頻率;f()表示對所有關(guān)鍵詞權(quán)重的歸一化函數(shù),本發(fā)明采用求算術(shù) 和的歸一化方法。所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,在各個具有原子語義的段落都 被轉(zhuǎn)化為對應(yīng)的原子認(rèn)知圖后,通過下述步驟把這些原子認(rèn)知圖進(jìn)一步的歸并成段落認(rèn)知 圖1)把這些原子認(rèn)知圖先按照概念合并概念間權(quán)值按概念相加再除以原子認(rèn)知 圖的總數(shù),得到一個具有多個主題概念的認(rèn)知圖;2)刪除那些只和一個主題概念有聯(lián)系的概念,以及它們與其他概念和主題概念之 間的聯(lián)系; 3)對各個主題概念、概念之間的權(quán)值進(jìn)行歸一化處理。所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,采用如下的步驟將若干段落認(rèn) 知圖合并成文檔認(rèn)知圖(D-FCM)1)把這些段落認(rèn)知圖先按照概念合并概念間權(quán)值按概念相加再除以段落認(rèn)知 圖的總數(shù),得到一個具有多個主題概念的認(rèn)知圖;2)刪除那些只和一個主題概念有聯(lián)系的概念,以及它們與其他概念和主題概念之 間的聯(lián)系;3)對各個主題概念、概念之間的權(quán)值重新進(jìn)行歸一化處理。本發(fā)明的有益積極效果1、本發(fā)明基于模糊認(rèn)知圖的文檔語義自動生成方法,通過模糊認(rèn)知圖對文檔的段 落進(jìn)行語義表示,基于模糊認(rèn)知圖的合并實(shí)現(xiàn)整個文檔的語義表示。與現(xiàn)有技術(shù)相比較, 能提高文檔語義表示的自動化程度,并能方便應(yīng)用于Web環(huán)境下大規(guī)模網(wǎng)頁文本的語義表 示,進(jìn)而提高web搜索的查準(zhǔn)率。相對于其他的文檔語義表示方法具有自動化程度較高的 特點(diǎn),適合于大規(guī)模文檔的自動處理。2、本發(fā)明基于模糊認(rèn)知圖的文檔語義自動生成方法相對于關(guān)鍵詞向量的文檔表 示方法,富含更多的語義信息,應(yīng)用于搜索引擎中能夠比基于關(guān)鍵詞匹配的檢索方法具有 更高的查準(zhǔn)率。
圖1是本發(fā)明基于模糊認(rèn)知圖的文檔語義自動生成方法的流程圖;圖2-圖6提供了一個發(fā)明實(shí)例,包括了兩個段落的認(rèn)知圖表示和段落認(rèn)知圖的合 并過程,其中,圖2為段落1的圖形表示E-FCMl,其對應(yīng)的權(quán)值矩陣表示為
權(quán)利要求
1.一種基于模糊認(rèn)知圖的文檔語義自動生成方法,其特征是 首先,對文檔進(jìn)行預(yù)處理包括文檔分段、分句及分詞處理; 其次,將各個具有原子語義的段落都轉(zhuǎn)化為對應(yīng)的原子認(rèn)知圖; 第三,將各個具有原子語義的段落原子認(rèn)知圖組合成段落認(rèn)知圖;第四,由同一篇文檔的原子認(rèn)知圖和段落認(rèn)知圖組合成文檔認(rèn)知圖,從而實(shí)現(xiàn)文檔知 識的表示。
2.根據(jù)權(quán)利要求1所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,采取下述步驟將 具有原子語義的段落轉(zhuǎn)換為一個原子認(rèn)知圖1)用一個文本段落的標(biāo)題或文本段落中具有單詞數(shù)與關(guān)鍵詞數(shù)之比最大的語句作為 原子認(rèn)知圖的主題結(jié)點(diǎn),即主題概念;2)對段落內(nèi)容進(jìn)行預(yù)處理,根據(jù)分句和分詞處理的結(jié)果,得到m個句子和η個不同的關(guān) 鍵詞,取前N個出現(xiàn)概率較大的關(guān)鍵詞,得到原子認(rèn)知圖的N個概念;所述m,η和N為自然 數(shù);3)對原子認(rèn)知圖中的N個概念,計算兩兩之間的聯(lián)系權(quán)重;計算公式為 ,若概念Ci和Cj共現(xiàn)第k個句子中,則bk = 1,否則b
3.根據(jù)權(quán)利要求2所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,其特征是,采用 求算術(shù)和的歸一化方法計算原子認(rèn)知圖中的N個概念到主題概念的權(quán)重關(guān)鍵詞Ci對主題 概念的權(quán)重由推理公式
4.根據(jù)權(quán)利要求1、2或3所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,其特征是, 在各個具有原子語義的段落都被轉(zhuǎn)化為對應(yīng)的原子認(rèn)知圖后,通過下述步驟把這些原子認(rèn) 知圖進(jìn)一步的歸并成段落認(rèn)知圖1)把這些原子認(rèn)知圖先按照概念合并概念間權(quán)值按概念相加再除以原子認(rèn)知圖的 總數(shù),得到一個具有多個主題概念的認(rèn)知圖;2)刪除那些只和一個主題概念有聯(lián)系的概念,以及它們與其他概念和主題概念之間的 聯(lián)系;3)對各個主題概念、概念之間的權(quán)值進(jìn)行歸一化處理。
5.根據(jù)權(quán)利要求4所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,其特征是,采用 如下的步驟將若干段落認(rèn)知圖合并成文檔認(rèn)知圖1)把這些段落認(rèn)知圖先按照概念合并概念間權(quán)值按概念相加再除以段落認(rèn)知圖的 總數(shù),得到一個具有多個主題概念的認(rèn)知圖;2)刪除那些只和一個主題概念有聯(lián)系的概念,以及它們與其他概念和主題概念之間的 聯(lián)系;3)對各個主題概念、概念之間的權(quán)值重新進(jìn)行歸一化處理。
6.根據(jù)權(quán)利要求1、2或3所述的基于模糊認(rèn)知圖的文檔語義自動生成方法,其特征是, 采用如下的步驟將若干段落認(rèn)知圖合并成文檔認(rèn)知圖1)把這些段落認(rèn)知圖先按照概念合并概念間權(quán)值按概念相加再除以段落認(rèn)知圖的 總數(shù),得到一個具有多個主題概念的認(rèn)知圖;2)刪除那些只和一個主題概念有聯(lián)系的概念,以及它們與其他概念和主題概念之間的 聯(lián)系;3)對各個主題概念、概念之間的權(quán)值重新進(jìn)行歸一化處理。
全文摘要
本發(fā)明涉及一種文檔語義自動生成方法,特別是涉及一種基于模糊認(rèn)知圖的文檔語義自動生成方法。通過模糊認(rèn)知圖對文檔的段落進(jìn)行語義表示,基于模糊認(rèn)知圖的合并實(shí)現(xiàn)整個文檔的語義表示。其步驟包括首先對文檔進(jìn)行預(yù)處理包括文檔分段、分句及分詞處理;其次,將各個具有原子語義的段落都轉(zhuǎn)化為對應(yīng)的原子認(rèn)知圖;第三,將各個具有原子語義的段落原子認(rèn)知圖組合成段落認(rèn)知圖;第四,由同一篇文檔的原子認(rèn)知圖和段落認(rèn)知圖組合成文檔認(rèn)知圖,從而實(shí)現(xiàn)文檔知識的表示。本發(fā)明的方法能提高文檔語義表示的自動化程度,并能方便應(yīng)用于Web環(huán)境下海量網(wǎng)頁文本的語義表示,進(jìn)而提高web搜索的查準(zhǔn)率。
文檔編號G06F17/30GK102135955SQ20111009332
公開日2011年7月27日 申請日期2011年4月14日 優(yōu)先權(quán)日2011年4月14日
發(fā)明者劉超, 斯雪明, 曹偉, 羅興國, 賈云杰, 鄔江興, 雷詠梅, 駱祥峰, 魏曉 申請人:上海紅神信息技術(shù)有限公司, 中國人民解放軍信息工程大學(xué)