專利名稱:基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法
技術(shù)領(lǐng)域:
本發(fā)明屬于文本相似度度量方法技術(shù)領(lǐng)域,特別是涉及一種基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法。
背景技術(shù):
隨著網(wǎng)絡(luò)信息的迅速發(fā)展,如何在海量的文本信息資源中快捷且準(zhǔn)確地獲取有用的信息已成為數(shù)據(jù)挖掘和信息檢索技術(shù)領(lǐng)域亟待解決的問題。文本相似度的度量可用于數(shù)據(jù)挖掘和信息檢索技術(shù)領(lǐng)域,如文本相似度計(jì)算是文本聚類、信息檢索、自動問答中的關(guān)鍵步驟。目前,較為典型的文本相似度方法主要有基于語義理解和基于數(shù)理統(tǒng)計(jì)兩種,但這兩種方法都存在的問題是:沒有考慮詞匯對文本相似度度量所具有作用與地位。因此,度量的準(zhǔn)確性不高。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其用于數(shù)據(jù)挖掘和信息檢索過程中,將文本轉(zhuǎn)化為語義關(guān)系網(wǎng)絡(luò)以提取文本特征,并最終轉(zhuǎn)化為二分圖以實(shí)現(xiàn)文本相似度的計(jì)算,極大地提高了計(jì)算結(jié)果的準(zhǔn)確程度。為了實(shí)現(xiàn)上述目的,本發(fā)明公開了基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其按如下步驟進(jìn)行:一、輸入兩個文本并對這兩個文本進(jìn)行預(yù)處理,預(yù)處理的結(jié)果為詞匯的集合;二、計(jì)算所述兩個文本預(yù)處理結(jié)果的詞匯語義相似度,并根據(jù)計(jì)算結(jié)果分別構(gòu)建語義關(guān)系網(wǎng)絡(luò);三、分別計(jì)算語義關(guān)系網(wǎng)絡(luò)中每個節(jié)點(diǎn)的流介數(shù)值,獲得兩個文本的特征集合;四、根據(jù)兩個文本的特征集合構(gòu)建二分圖,并設(shè)置二分圖兩部分(即二分圖的兩個點(diǎn)集)之間的路徑權(quán)值;五、利用二分圖最優(yōu)匹配法計(jì)算兩個文本之間的相似度。優(yōu)選的,步驟一,預(yù)處理包括中文分詞和去除停用詞。優(yōu)選的,步驟二,構(gòu)建語義關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)由步驟一的結(jié)果組成,構(gòu)建語義關(guān)系網(wǎng)絡(luò)的邊的權(quán)值由詞匯之間的語義相似度計(jì)算得到,表示為w(i,j),i和j為步驟一預(yù)處理結(jié)果中的不同詞匯,W(i,j)的計(jì)算式如下:w(i, j)=l-sim(i, j)1:預(yù)處理結(jié)果中的一個詞匯;j:預(yù)處理結(jié)果中的另一個詞匯;sim(i, j):兩個詞匯的語義相似度。優(yōu)選的,步驟二,兩個詞匯之間的語義相似度可以根據(jù)具體的語義詞典或語義庫來計(jì)算,但結(jié)果要進(jìn)行歸一化處理。優(yōu)選的,步驟三,計(jì)算每個節(jié)點(diǎn)的流介數(shù)值,按照流介數(shù)值排序,取前m大的流介數(shù)值所對應(yīng)的詞匯作為該文本特征;節(jié)點(diǎn)U的流介數(shù)值是指網(wǎng)絡(luò)中所有路徑中經(jīng)過該節(jié)點(diǎn)的路徑的數(shù)目占所有路徑總數(shù)的比例,用Bfu表示,計(jì)算式為:
權(quán)利要求
1.關(guān)于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征是按如下步驟進(jìn)行: 一、輸入兩個文本并對這兩個文本進(jìn)行預(yù)處理,預(yù)處理的結(jié)果為詞匯的集合; 二、計(jì)算所述兩個文本預(yù)處理結(jié)果的詞匯語義相似度,并根據(jù)計(jì)算結(jié)果分別構(gòu)建語義關(guān)系網(wǎng)絡(luò); 三、分別計(jì)算語義關(guān)系網(wǎng)絡(luò)中每個節(jié)點(diǎn)的流介數(shù)值,獲得兩個文本的特征集合; 四、根據(jù)兩個文本的特征集合構(gòu)建二分圖,并設(shè)置二分圖兩部分之間的路徑權(quán)值; 五、利用二分圖最優(yōu)匹配法得到兩個文本之間的相似度。
2.根據(jù)權(quán)利要求1所述基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征在于,步驟一,預(yù)處理包括中文分詞和去除停用詞。
3.根據(jù)權(quán)利要求1所述基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征在于,步驟二,構(gòu)建語義關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)由步驟一預(yù)處理的結(jié)果組成,構(gòu)建語義關(guān)系網(wǎng)絡(luò)的邊的權(quán)值由步驟二的詞匯語義相似度計(jì)算得到,表示為w(i,j),i和j為步驟一預(yù)處理結(jié)果中的不同詞匯,w(i,j)的計(jì)算式如下:w(i, j)=l-sim(i, j)1:預(yù)處理結(jié)果中的一個詞匯;j:預(yù)處理結(jié)果中的另一個詞匯;sim(i, j):兩個詞匯的語義相似度。
4.根據(jù)權(quán)利要求書I或3所述基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征在于,步驟二,根據(jù)具體的語義詞典或語義庫計(jì)算兩個詞匯之間的語義相似度。
5.根據(jù)權(quán)利要求書I所述基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征在于,步驟三,計(jì)算每個節(jié)點(diǎn)的流介數(shù)值,按照流介數(shù)值排序,取前m大的流介數(shù)值所對應(yīng)的詞匯作為該文本特征,其中,m為輸入值;節(jié)點(diǎn)u的流介數(shù)值是指網(wǎng)絡(luò)中所有路徑中經(jīng)過該節(jié)點(diǎn)的路徑的數(shù)目占所有路徑總數(shù)的比例,用Bfu表示,計(jì)算式為:
6.根據(jù)權(quán)利要求書5所述基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征在于,步驟三,在獲得文本特征之后將每個文本特征的流介數(shù)值進(jìn)行歸一化處理,公式如下:.BJi)
7.根據(jù)權(quán)利要求1所述基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征在于,步驟四,構(gòu)建二分圖的兩部分(x,Y)分別為步驟三的兩個文本的特征集合,兩部分之間的邊的權(quán)值為所述的路徑權(quán)值W (xi, yj),計(jì)算式為:
8.根據(jù)權(quán)利要求1所述基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,其特征在于,步驟五,設(shè)利用二分圖最優(yōu)匹配求得結(jié)果為: M=I(XillYjl), (Xi2lYj2),..., (Xiffl, YjmM 步驟一輸入的兩個文本的相似度計(jì)算式為:
全文摘要
本發(fā)明公開了基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法一、輸入兩個文本并對這兩個文本進(jìn)行預(yù)處理,預(yù)處理的結(jié)果為詞匯的集合;二、計(jì)算所述兩個文本預(yù)處理結(jié)果的詞匯語義相似度,并根據(jù)計(jì)算結(jié)果分別構(gòu)建語義關(guān)系網(wǎng)絡(luò);三、分別計(jì)算語義關(guān)系網(wǎng)絡(luò)中每個節(jié)點(diǎn)的流介數(shù)值,獲得兩個文本的特征集合;四、根據(jù)兩個文本的特征集合構(gòu)建二分圖,并設(shè)置二分圖兩部分之間的路徑權(quán)值;五、利用二分圖最優(yōu)匹配法計(jì)算兩個文本之間的相似度。本發(fā)明基于語義分析和語義關(guān)系網(wǎng)絡(luò)的文本相似度度量方法,可用于數(shù)據(jù)挖掘和信息檢索技術(shù)領(lǐng)域,例如文本聚類、信息檢索等,其與現(xiàn)有的其他文本相似度計(jì)算方法相比,極大地提高了文本相似度計(jì)算的準(zhǔn)確程度。
文檔編號G06F17/27GK103092828SQ20131004697
公開日2013年5月8日 申請日期2013年2月6日 優(yōu)先權(quán)日2013年2月6日
發(fā)明者吳國華, 尤金朋, 張禎, 王玉娟, 邵根富 申請人:杭州電子科技大學(xué)