本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種基于統(tǒng)計(jì)學(xué)的文本特征詞匯提取方法。
背景技術(shù):
文本特征指的是最能代表文本主旨的詞匯集合,文本特征不僅可以很好的概括文本主要內(nèi)容和主旨,而且可以降低文本處理的復(fù)雜程度。前常用的文本特征提取方法,包括詞頻-反文檔頻率方法、信息增益等方法。詞頻-反文檔頻率方法的簡(jiǎn)單結(jié)構(gòu)并不能有效地反映詞匯或短語(yǔ)的重要程度和特征值的分布情況,所以TF-IDF的精度并不是很高。信息增益方法只適合用來(lái)提取一個(gè)類別的文本特征,而無(wú)法用于提取多個(gè)類別的文本特征。上述兩種文本特征提取方法沒(méi)有文本集合或沒(méi)有事先分好類別,僅僅給出一個(gè)文本,那么將無(wú)法提取這個(gè)文本的特征,這兩種方法的優(yōu)點(diǎn)在于計(jì)算速度快,但是計(jì)算結(jié)果的精度不高。另外上述兩種方法會(huì)引起高維稀疏的問(wèn)題以及不知特征詞匯集合對(duì)文本的重要程度和貢獻(xiàn)度。而且,上述算法沒(méi)有很好地解決文本數(shù)據(jù)中存在的自然語(yǔ)言問(wèn)題同義詞和多義詞。這些問(wèn)題干擾了文本相似度算法的效率和準(zhǔn)確性,使相似度計(jì)算的性能下降。為了滿足上述需求,本發(fā)明提供基于統(tǒng)計(jì)學(xué)的文本特征詞匯提取方法。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)于特征向量高維稀疏問(wèn)題、未考慮特征詞匯集合對(duì)文本的重要程度和貢獻(xiàn)度的問(wèn)題、存在同義詞與多義詞問(wèn)題,本發(fā)明提供了一種基于統(tǒng)計(jì)學(xué)的文本特征詞匯提取方法。
為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理;
步驟2:根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理,得到文本特征詞匯集合T=(c1,c2,…,ci,…,cz);
步驟3:根據(jù)詞匯在文本中的位置得到一系列詞匯位置權(quán)重值(α1,α2,…,αr);
步驟4:根據(jù)詞匯在文本中的詞性得到一系列詞匯詞性權(quán)重值β1、β2、β3、β4;
步驟5:綜合上述步驟,利用目標(biāo)權(quán)重函數(shù)mw(ci)對(duì)文本詞匯集合T進(jìn)行進(jìn) 一步降維處理得到詞匯集合T′=(c1,c2,…,ci,…,cz′);
步驟6:根據(jù)語(yǔ)義相似度條件,合并相似度高的詞匯,此時(shí)文本的特征詞匯向量為
本發(fā)明有益效果是:
1、此方法比傳統(tǒng)的詞頻-反文檔頻率方法得到的特征詞匯集合的準(zhǔn)確度更高。
2、此方法克服了信息增益方法只適合用來(lái)提取一個(gè)類別的文本特征的缺點(diǎn)。
4、為后續(xù)的文本相似度與文本聚類技術(shù)提供良好的理論基礎(chǔ)。
5、此方法結(jié)果更符合經(jīng)驗(yàn)值。
6、此方法解決了文本特征詞匯高維稀疏的問(wèn)題。
7、此方法解決了同義詞與多義詞的問(wèn)題。
5、此算法具有更大的利用價(jià)值。
6、此方法計(jì)算了特征詞匯中不同詞匯對(duì)文本思想的貢獻(xiàn)度。
附圖說(shuō)明
圖1基于統(tǒng)計(jì)學(xué)的文本特征詞匯提取方法的結(jié)構(gòu)流程圖
圖2 為n元語(yǔ)法分詞算法圖解
圖3中文文本預(yù)處理過(guò)程流程圖
具體實(shí)施方式
為了解決特征向量高維稀疏問(wèn)題、未考慮特征詞匯集合對(duì)文本的重要程度和貢獻(xiàn)度的問(wèn)題、存在同義詞與多義詞問(wèn)題,結(jié)合圖1-圖3對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:
步驟1:利用中文分詞技術(shù)對(duì)文本進(jìn)行分詞處理,其具體分詞技術(shù)過(guò)程如下:
步驟1.1:根據(jù)《分詞詞典》找到待分詞句子中與詞典中匹配的詞,把待分詞的漢字串完整的掃描一遍,在系統(tǒng)的詞典里進(jìn)行查找匹配,遇到字典里有的詞就標(biāo)識(shí)出來(lái);如果詞典中不存在相關(guān)匹配,就簡(jiǎn)單地分割出單字作為詞;直到漢字串為空。
步驟1.2:依據(jù)概率統(tǒng)計(jì)學(xué),將待分詞句子拆分為網(wǎng)狀結(jié)構(gòu),即得n個(gè)可能組合的句子結(jié)構(gòu),把此結(jié)構(gòu)每條順序節(jié)點(diǎn)依次規(guī)定為SM1M2M3M4M5E,其結(jié)構(gòu)圖如圖2所示。
步驟1.3:基于信息論方法,給上述網(wǎng)狀結(jié)構(gòu)每條邊賦予一定的權(quán)值,其具 體計(jì)算過(guò)程如下:
根據(jù)《分詞詞典》匹配出的字典詞與未匹配的單個(gè)詞,第i條路徑包含詞的個(gè)數(shù)為ni。即n條路徑詞的個(gè)數(shù)集合為(n1,n2,…,nn)。
得min()=min(n1,n2,…,nn)
在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權(quán)重大小。
在統(tǒng)計(jì)語(yǔ)料庫(kù)中,計(jì)算每個(gè)詞的信息量X(Ci),再求解路徑相鄰詞的共現(xiàn)信息量X(Ci,Ci+1)。既有下式:
X(Ci)=|x(Ci)1-x(Ci)2|
上式x(Ci)1為文本語(yǔ)料庫(kù)中詞Ci的信息量,x(Ci)2為含詞Ci的文本信息量。
x(Ci)1=-p(Ci)1lnp(Ci)1
上式p(Ci)1為Ci在文本語(yǔ)料庫(kù)中的概率,n為含詞Ci的文本語(yǔ)料庫(kù)的個(gè)數(shù)。
x(Ci)2=-p(Ci)2lnp(Ci)2
上式p(Ci)2為含詞Ci的文本數(shù)概率值,N為統(tǒng)計(jì)語(yǔ)料庫(kù)中文本總數(shù)。
同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|
x(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)信息量,x(Ci,Ci+1)2為相鄰詞(Ci,Ci+1)共現(xiàn)的文本信息量。
同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1
上式p(Ci,Ci+1)1為在文本語(yǔ)料庫(kù)中詞(Ci,Ci+1)的共現(xiàn)概率,m為在文本庫(kù)中詞(Ci,Ci+1)共現(xiàn)的文本數(shù)量。
x(Ci,Ci+1)2=-p(Ci,Ci+1)2lnp(Ci,Ci+1)2
p(Ci,Ci+1)2為文本庫(kù)中相鄰詞(Ci,Ci+1)共現(xiàn)的文本數(shù)概率。
綜上可得每條相鄰路徑的權(quán)值為
w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)
步驟1.4:找到權(quán)值最大的一條路徑,即為待分詞句子的分詞結(jié)果,其具體 計(jì)算過(guò)程如下:
有n條路徑,每條路徑長(zhǎng)度不一樣,假設(shè)路徑長(zhǎng)度集合為(L1,L2,…,Ln)。
假設(shè)經(jīng)過(guò)取路徑中詞的數(shù)量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設(shè)其路徑長(zhǎng)度集合為
則每條路徑權(quán)重為:
上式w(C1,C2),w(C2,C3),…,分別為第1,2到路徑邊的權(quán)重值,根據(jù)步驟1.4可以一一計(jì)算得出,為剩下(n-m)路徑中第Sj條路徑的長(zhǎng)度。
權(quán)值最大的一條路徑:
步驟2:根據(jù)停用表對(duì)文本詞匯進(jìn)行去停用詞處理,得到文本特征詞匯集合T=(c1,c2,…,ci,…,cz),其具體描述如下:
停用詞是指在文本中出現(xiàn)頻率高,但對(duì)于文本標(biāo)識(shí)卻沒(méi)有太大作用的單詞。去停用詞的過(guò)程就是將特征項(xiàng)與停用詞表中的詞進(jìn)行比較,如果匹配就將該特征項(xiàng)刪除,文本特征詞匯集合T=(c1,c2,…,ci,…,cz)
綜合分詞和刪除停用詞技術(shù),中文文本預(yù)處理過(guò)程流程圖如圖3。
步驟3:根據(jù)詞匯在文本中的位置得到一系列詞匯位置權(quán)重值(α1,α2,…,αr),其具體描述如下:
各個(gè)詞在文本中的分布是不同的,而不同位置的詞對(duì)于表示文本內(nèi)容的能力也是不同的。這個(gè)可以根據(jù)統(tǒng)計(jì)調(diào)查得出一系列的位置權(quán)重值(α1,α2,…,αr)。
步驟4:根據(jù)詞匯在文本中的詞性得到一系列詞匯詞性權(quán)重值β1、β2、β3、β4,其具體描述如下:
現(xiàn)代漢語(yǔ)語(yǔ)法中,一個(gè)句子主要由主語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)和狀語(yǔ)等成分構(gòu)成。從詞性的角度看,名詞一般擔(dān)當(dāng)主語(yǔ)和賓語(yǔ)的角色,動(dòng)詞一般擔(dān)當(dāng)謂語(yǔ)的角色,形容詞和副詞一般擔(dān)當(dāng)定語(yǔ)的角色。詞性的不同,造成了它們對(duì)文本或者句子的表示內(nèi)容的能力的不一樣。根據(jù)調(diào)查統(tǒng)計(jì)得出名詞、動(dòng)詞、形容詞、副詞的權(quán)重值依次為β1、β2、β3和β4,且β1>β2>β3>β4。
步驟5:綜合上述步驟,利用目標(biāo)權(quán)重函數(shù)mw(ci)對(duì)文本詞匯集合T進(jìn)行進(jìn)一步降維處理得到詞匯集合T′=(c1,c2,…,ci,…,cz′);需先求解詞匯集合T′中的詞匯在文本庫(kù)中的期望E(ci)與方差S(ci),其具體計(jì)算過(guò)程如下:
步驟5.1)詞匯在文本庫(kù)中的期望E(ci)
上式n為文本庫(kù)中文本數(shù)量,Pj(ci)為特征詞集中詞匯ci在第j文本中的概率值。
上式nj(ci)為特征詞集中詞匯ci在第j文本中出現(xiàn)的次數(shù),Nj為第j文本中特征詞匯的總個(gè)數(shù)。
步驟5.2)詞匯在文本庫(kù)中的方差S(ci)
上式為特征詞集中詞匯ci在文本庫(kù)中平均概率。
步驟5.3)構(gòu)造目標(biāo)權(quán)重函數(shù)mw(ci)
αm為上述位置權(quán)重值,m∈(1,2,…,r),βk為上述詞性權(quán)重,k∈(1,2,3,4);詞匯期望越小,同時(shí)方差越大,則詞匯區(qū)分文本的能力就越強(qiáng),即mw(ci)越大詞匯區(qū)分文本的能力就越強(qiáng)。
步驟5.4)設(shè)定閾值條件f,特征詞匯集合T降維到詞匯集合
T′=(c1,c2,…,ci,…,cz′),z′<z
條件為mw(ci)≥f,i∈(1,2,…,z′)
f可以由實(shí)驗(yàn)迭代測(cè)試出來(lái)。
步驟6:根據(jù)語(yǔ)義相似度條件,合并相似度高的詞匯,此時(shí)文本的特征詞匯向量為需先求解兩本體概念間的相似度,其具體計(jì)算過(guò)程如下:
步驟6.1)利用基于《知網(wǎng)》概念的方法,特征詞匯集合T′中的詞匯映射到概念,求解兩兩詞匯對(duì)應(yīng)的兩本體概念(g1,g2)間語(yǔ)義相似度即為詞匯相似度。
構(gòu)造兩本體概念(g1,g2)語(yǔ)義相似度sim1(g1,g2)
當(dāng)兩個(gè)概念共同直接子節(jié)點(diǎn)個(gè)數(shù)越多,則概念(g1,g2)相似度越大,反之,越小。
從概念(g1,g2)的直接子節(jié)點(diǎn)中找出共有的子節(jié)點(diǎn)個(gè)數(shù)N。
為了解決子節(jié)點(diǎn)多繼承問(wèn)題,有下式:
α為最長(zhǎng)路徑L1的權(quán)重系數(shù),β為(g1,g2)共有的子節(jié)點(diǎn)個(gè)數(shù)N的權(quán)重系數(shù),α+β=1。權(quán)重系數(shù)可以根據(jù)實(shí)驗(yàn)結(jié)果迭代得到。d1為兩本體概念的語(yǔ)義信息距離,d2為從子集中找出概念經(jīng)共同父節(jié)點(diǎn)的最長(zhǎng)路徑。
上式d1=[I(g1)+I(g2)]-I(ICN)
I(g1)、I(g2)分別為概念g1、g2在本體樹中的信息量,I(ICN)為概念g1、g2在本體樹中的共有信息量。
步驟6.2)設(shè)定閾值g,合并相似度高的詞匯,重新分配其權(quán)重。
條件:sim1(g1,g2)≥g
合并后的詞匯為權(quán)重更大的那個(gè),此時(shí)詞匯的權(quán)重mw(ci)′為兩詞匯權(quán)重的平均值,如下所式:
迭代計(jì)算兩兩詞匯間的相似度,直到?jīng)]有滿足上述條件的詞匯為止。
綜上即得,文本特征詞匯向量
基于統(tǒng)計(jì)學(xué)的文本特征詞匯提取方法,其偽代碼計(jì)算過(guò)程如下:
輸入:一個(gè)文本
輸出:提取文本特征詞匯向量。