面向文本大數(shù)據(jù)的詞語處理方法
【專利摘要】本發(fā)明公開了一種面向文本大數(shù)據(jù)的詞語處理方法,該方法包括:步驟1:從文本語料庫中選擇多個(gè)詞語,針對該多個(gè)詞語中的每一個(gè)詞語構(gòu)建一個(gè)K維特征向量,該特征向量的各維度初值由0-1區(qū)間內(nèi)的均勻分布產(chǎn)生;步驟2:使用N元語法模型N-gram方法將文本表示為由一組特征向量組合成的N-gram模型;步驟3:利用神經(jīng)網(wǎng)絡(luò)模型,計(jì)算該N-gram模型的得分;步驟4:用一隨機(jī)詞替換該N-gram模型的中間位置詞,并計(jì)算替換后模型的得分;步驟5:利用反向傳播算法更新N-gram模型中的N維詞向量,最終得到嵌入空間的詞特征;步驟6:針對基于所述語料庫所構(gòu)造的每一組N-gram模型,重復(fù)步驟3-5,從而更新所有詞的特征向量。
【專利說明】面向文本大數(shù)據(jù)的詞語處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算文本處理領(lǐng)域,尤其是文本大數(shù)據(jù)中的詞語計(jì)算方法。
【背景技術(shù)】
[0002]近年來,人們創(chuàng)造數(shù)據(jù)的能力已經(jīng)大大超過了獲取信息的能力,各種數(shù)據(jù)呈現(xiàn)爆炸式增長。文本作為最通用的數(shù)據(jù)類型,是知識傳播和信息交流的主要載體,因此研究文本大數(shù)據(jù)顯得格外重要。
[0003]雖然機(jī)器學(xué)習(xí)技術(shù)在文本挖掘、自然語言處理領(lǐng)域的廣泛應(yīng)用使得該領(lǐng)域取得了明顯的進(jìn)展,但是文本中詞語的計(jì)算處理方法上卻鮮有突破。
[0004]目前,詞語作為最小計(jì)算單元,主要以N維向量的形式存在,彼此之間無任何語義關(guān)聯(lián)。例如,當(dāng)以三維向量表示三個(gè)詞:飛機(jī)、火車、企業(yè);它們分別會表示為:飛機(jī)一[1,0,0],火車一[0,1,0],企業(yè)一[0,0,I]。這種詞語處理方式無法集成任何具有語義特性的先驗(yàn)知識,同時(shí),向量空間隨著詞的增多而爆炸增加,且向量空間十分稀疏,極大增加后續(xù)的文本挖掘、自然語言處理的計(jì)算難度。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的就是為了克服傳統(tǒng)向量表示方法的局限,提供一種新的詞語處理方法,本方法能夠降低文本處理的計(jì)算復(fù)雜性。
[0006]為了解決上述技術(shù)問題,本發(fā)明公開了一種面向文本大數(shù)據(jù)的詞語嵌入空間特征處理方法,包括:步驟1:從文本語料庫中選擇多個(gè)詞語,針對該多個(gè)詞語中的每一個(gè)詞語構(gòu)建一個(gè)K維特征向量,該特征向量的各維度初值由0-1區(qū)間內(nèi)的均勻分布產(chǎn)生;步驟2:使用N元語法模型N-gram方法將文本表示為由一組特征向量組合成的N-gram模型;步驟3:利用神經(jīng)網(wǎng)絡(luò)模型,計(jì)算該N-gram模型的得分;步驟4:用一隨機(jī)詞替換該N-gram模型的中間位置詞,并計(jì)算替換后模型的得分;步驟5:利用反向傳播算法更新N-gram模型中的N維詞向量,最終得到嵌入空間的詞特征;步驟6:針對基于所述語料庫所構(gòu)造的每一組N-gram模型,重復(fù)步驟3-5,從而更新所有詞的特征向量。
[0007]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0008]1、利用N維嵌入空間表示詞語,可以反應(yīng)詞的內(nèi)在特性;
[0009]2、詞語特征不隨詞匯量的增大而增大,降低計(jì)算復(fù)雜性;
[0010]3、通過機(jī)器自動處理詞語,形成詞語特征,不再依賴人工定義特征集合。
[0011]本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的【具體實(shí)施方式】部分予以詳細(xì)說明。
【專利附圖】
【附圖說明】
[0012]附圖是用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與下面的【具體實(shí)施方式】一起用于解釋本發(fā)明,但并不構(gòu)成對本發(fā)明的限制。在附圖中:
[0013]圖1示出了根據(jù)本發(fā)明實(shí)施方式的一種面向文本大數(shù)據(jù)的詞語處理方法的算法結(jié)構(gòu)圖;
[0014]圖2示出了根據(jù)本發(fā)明實(shí)施方式的一種面向文本大數(shù)據(jù)的詞語處理方法的算法實(shí)例圖;以及
[0015]圖3示出了根據(jù)本發(fā)明實(shí)施方式的一種面向文本大數(shù)據(jù)的詞語處理方法的算法結(jié)果圖。
【具體實(shí)施方式】
[0016]以下結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)說明。應(yīng)當(dāng)理解的是,此處所描述的【具體實(shí)施方式】僅用于說明和解釋本發(fā)明,并不用于限制本發(fā)明。
[0017]參考圖1至圖3,根據(jù)本發(fā)明的一個(gè)實(shí)施方式,提供了一種面向文本大數(shù)據(jù)的詞語處理方法,該方法可以包括:
[0018]步驟1:從(例如大數(shù)據(jù))文本語料庫T中選擇多個(gè)詞語,針對該多個(gè)詞語的每一個(gè)詞語均構(gòu)建一個(gè)K維特征向量,其中該特征向量各維度初值可由0-1區(qū)間內(nèi)的均勻分布產(chǎn)生;其中,從文本語料庫中選擇多個(gè)詞語可以包括:對所述文本語料庫進(jìn)行分詞;去除停用詞后,統(tǒng)計(jì)分詞后各詞語出現(xiàn)的詞頻;以及選擇詞頻大于設(shè)定閾值的詞語;
[0019]步驟2:使用N-gram (即N元語法模型,可以表示連續(xù)的N個(gè)字符組成的字符串,其中N為大于I的整數(shù))的方法將文本表示為由一組特征向量組合成的N-gram特征向量,其可以稱為N-gram模型,即為圖2中的投影層;
[0020]步驟3:利用神經(jīng)網(wǎng)絡(luò)模型,計(jì)算該N-gram模型的得分(Score);
[0021]步驟4:用一隨機(jī)詞替換該N-gram模型的中間位置詞,并計(jì)算替換后模型的得分(Score,);
[0022]步驟5:利用反向傳播算法更新N-gram模型中的N維詞向量,最終得到嵌入空間的詞特征;
[0023]步驟6:針對基于該語料庫T所構(gòu)造的每一組N-gram模型,重復(fù)步驟3_5,從而更新所有詞的特征向量。
[0024]其中步驟I可以包括以下步驟:
[0025]步驟1.1:對文本語料庫T進(jìn)行分詞,統(tǒng)計(jì)分詞后詞語的詞頻;
[0026]步驟1.2:對于頻率大于δ的詞集V = [V1, V2, , Vn]中的每個(gè)詞語,構(gòu)建一個(gè)K維向量來表示該詞,記為Vi = [f1; f2,..., fk];該向量的初值由0-1區(qū)間的均勻分布產(chǎn)生;對于頻率小于S的詞則直接丟棄;
[0027]步驟1.3:構(gòu)造詞集矩陣 LookupTable = [V1, V2, , Vn]。
[0028]其中步驟2可以包括以下步驟:
[0029]步驟2.1:利用N-gram方法,將語料庫T表示為[W1, W2, , wn]的集合形式,N 一般為大于I小于10的整數(shù),為表示方便,以下示例僅以N = 5來說明本發(fā)明的具體步驟;
[0030]步驟2.2:在步驟1.3構(gòu)造的詞集矩陣LookupTable基礎(chǔ)上,查找N-gram模型中出現(xiàn)的詞構(gòu)造 LT= [Wi_2, Wi^1, Wi, wi+1, wi+2]向量;
[0031]其中步驟3可以包括以下步驟:
[0032] 步驟3.1:在步驟2.2得到的N-gram模型的特征向量LT = [W^2, Wi^1, Wi, wi+1, wi+2]的基礎(chǔ)上,根據(jù)公式(I)對該特征向量做線性變換(即為圖1中的線性變換層)后根據(jù)公式(2)計(jì)算sigmoid值(即為圖1的Sigmoid變換層),具體計(jì)算公式如下表示:
[0033]f = W.LT+b (I)
【權(quán)利要求】
1.一種面向文本大數(shù)據(jù)的詞語處理方法,該方法包括: 步驟1:從文本語料庫中選擇多個(gè)詞語,針對該多個(gè)詞語中的每一個(gè)詞語構(gòu)建一個(gè)K維特征向量,該特征向量的各維度初值由0-1區(qū)間內(nèi)的均勻分布產(chǎn)生; 步驟2:使用N元語法模型N-gram方法將文本表示為由一組特征向量組合成的N-gram模型; 步驟3:利用神經(jīng)網(wǎng)絡(luò)模型,計(jì)算該N-gram模型的得分; 步驟4:用一隨機(jī)詞替換該N-gram模型的中間位置詞,并計(jì)算替換后模型的得分;步驟5:利用反向傳播算法更新N-gram模型中的N維詞向量,最終得到嵌入空間的詞特征; 步驟6:針對基于所述語料庫所構(gòu)造的每一組N-gram模型,重復(fù)步驟3_5,從而更新所有詞的特征向量。
2.根據(jù)權(quán)利要求1所述的方法,其中,從文本語料庫中選擇多個(gè)詞語包括: 對所述文本語料庫進(jìn)行分詞; 去除停用詞后,統(tǒng)計(jì)分詞后各詞語出現(xiàn)的詞頻;以及 選擇詞頻大于設(shè)定閾值的詞語。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟3包括以下步驟: 在所述N-gram模型的特征向量LT = [Wi^2, Wi^1, Wi, wi+1, wi+2]的基礎(chǔ)上,根據(jù)公式⑴對該特征向量作線性變換后根據(jù)公式(2)計(jì)算sigmoid值:f = W.LT+b 公式(I) g ad = ΤΖ~Τ 公式⑵
- l + e 以及,根據(jù)公式(3)計(jì)算所述N-gram模型的得分: score (g) = Wscore.g+bscore 公式(3), f表示線性轉(zhuǎn)換,W和Wsc^表示模型的權(quán)重矩陣,LT為特征向量,b為函數(shù)偏置。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述步驟4包括以下步驟: 將步驟3中的N-gram模型的中間詞替換為詞集矩陣中的隨機(jī)詞,得到新特征向量LT’=[Wi_2, Wh, w’i, wi+1, wi+2],并利用公式(I)、公式(2)和公式(3)計(jì)算該N-gram模型的得分 score (g')。
5.根據(jù)權(quán)利要求4所述的方法,其中,步驟5包括以下步驟: 以J =南gl1 —OT(g') + score(g)l為目標(biāo)函數(shù),利用反向傳播算法,更新的特征向量 LT = [Wi_2, Wh, Wi, wi+1, wi+2], J為模型的目標(biāo)函數(shù),T表示訓(xùn)練樣本個(gè)數(shù)。
【文檔編號】G06F17/27GK103995805SQ201410247336
【公開日】2014年8月20日 申請日期:2014年6月5日 優(yōu)先權(quán)日:2014年6月5日
【發(fā)明者】王繼生, 潘濤, 向陽 申請人:神華集團(tuán)有限責(zé)任公司, 神華和利時(shí)信息技術(shù)有限公司