欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于文本類特征選擇進(jìn)行降維的方法和裝置與流程

文檔序號:12364269閱讀:203來源:國知局
一種基于文本類特征選擇進(jìn)行降維的方法和裝置與流程
本發(fā)明涉及機(jī)器學(xué)習(xí)
技術(shù)領(lǐng)域
,特別涉及一種基于文本類特征選擇進(jìn)行降維的方法和裝置。
背景技術(shù)
:隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)相關(guān)技術(shù)的持續(xù)創(chuàng)新,使得整個社會信息化的成本、效率都較十年、二十年前發(fā)生了巨大的變化。此外,互聯(lián)網(wǎng)的日益普及產(chǎn)生了許多不同格式的數(shù)據(jù)(文本、多媒體等)和許多不同的數(shù)據(jù)來源,面對海量信息,人們已經(jīng)不能簡單的靠人工來處理所有的信息資源,而是需要輔助工具來幫助人們更好的發(fā)現(xiàn)、過濾和管理這些電子信息數(shù)據(jù)及資源。傳統(tǒng)的文本處理相關(guān)的軟件都是針對文本文件進(jìn)行處理,然而隨著多種文本格式的出現(xiàn),承載電子信息的文件已經(jīng)不再局限于單一的文件類型,尤其隨著Internet的發(fā)展,這些格式的文本也表現(xiàn)出各自的優(yōu)越性,對于單一格式文件的處理系統(tǒng)的局限性也隨之越來越明顯。文本的表示抽象成為特征詞集的空間向量,然而原始的候選特征詞集高達(dá)幾十萬維,而高維度的文本表示則造成了計算上的巨大負(fù)擔(dān)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供一種基于文本類特征選擇進(jìn)行降維的方法和裝置,以解決上述技術(shù)問題。本發(fā)明提供的一種基于文本類特征選擇進(jìn)行降維的方法,包括步驟:步驟A,獲取待處理的數(shù)據(jù)源文本的詳細(xì)信息并存儲;步驟B,采用HanLP對所述數(shù)據(jù)源文本進(jìn)行分詞得到多個詞項(xiàng),去除所述詞項(xiàng)中的停用詞;步驟C,統(tǒng)計詞頻、詞項(xiàng)文檔頻率以及文檔詞數(shù);步驟D,將所述詞項(xiàng)、詞頻和詞項(xiàng)文檔頻率以及文檔詞數(shù)存儲并形成初級文本向量;步驟E,對所述初級文本向量進(jìn)行信息增益計算,得到各詞項(xiàng)的信息增益量,按照所述信息增益量的大小排序,將滿足預(yù)設(shè)要求的多個詞匯形成特征選擇的基準(zhǔn)向量;步驟F,將待處理的文本按照所述基準(zhǔn)向量進(jìn)行降維,形成降維后的文本向量。其中,步驟E中進(jìn)行信息增益計算包括步驟:將每篇文本作為一個類別,將文本中的詞項(xiàng)作為特征,按照如下公式計算信息增益量IG(T)=-Σi=1nP(Ci)×log2P(Ci)+P(t)×Σi=1nP(Ci|t)×log2P(Ci|t)+P(t‾)×Σi=1nP(Ci|t‾)×log2P(Ci|t‾)]]>其中,N表示總類別數(shù),P(Ci)表示類別Ci出現(xiàn)的概率,P(t)表示特征(T)出現(xiàn)的概率,表示特征(T)不出現(xiàn)的概率,P(Ci|t),表示文本包含特征(T)且屬于類別Ci的概率。其中,步驟E中,其中DFT表示特征(T)的文檔頻率;P(t‾)=1-P(t);]]>其中TFi表示每個詞項(xiàng)的出現(xiàn)頻率;P(Ci|t‾)=P(t‾|Ci)×P(Ci)P(t‾).]]>本發(fā)明實(shí)施例還提供一種文本類特征選擇進(jìn)行降維的裝置,包括獲取模塊、分詞模塊、統(tǒng)計模塊、向量模塊、信息增益計算模塊和降維模塊;獲取模塊,用于獲取待處理的數(shù)據(jù)源文本的詳細(xì)信息并存儲;分詞模塊,用于采用HanLP對所述數(shù)據(jù)源文本進(jìn)行分詞得到多個詞項(xiàng),去除所述詞項(xiàng)中的停用詞;統(tǒng)計模塊,用于統(tǒng)計詞頻(每個詞項(xiàng)的出現(xiàn)頻率)和詞項(xiàng)文檔頻率以及文檔詞數(shù);向量模塊,用于將詞項(xiàng)、詞頻和詞項(xiàng)文檔頻率以及文檔詞數(shù)存儲并形成初級文本向量;信息增益計算模塊,用于對初級文本向量進(jìn)行信息增益計算,得到各詞項(xiàng)的信息增益量,按照信息增益量的大小排序,將滿足預(yù)設(shè)要求的多個詞匯形成特征選擇的基準(zhǔn)向量;降維模塊,用于將待處理的文本按照所述基準(zhǔn)向量進(jìn)行降維,形成降維后的文本向量。其中,所述信息增益計算模塊,用于:將每篇文本作為一個類別,將文本中的詞項(xiàng)作為特征,按照如下公式計算信息增益量IG(T)=-Σi=1nP(Ci)×log2P(Ci)+P(t)×Σi=1nP(Ci|t)×log2P(Ci|t)+P(t‾)×Σi=1nP(Ci|t‾)×log2P(Ci|t‾)]]>其中,N表示總類別數(shù),P(Ci)表示類別Ci出現(xiàn)的概率,P(t)表示特征(T)出現(xiàn)的概率,表示特征(T)不出現(xiàn)的概率,P(Ci|t),表示文本包含特征(T)且屬于類別Ci的概率;其中DFT表示特征(T)的文檔頻率;P(t‾)=1-P(t);]]>其中TFi表示每個詞項(xiàng)的出現(xiàn)頻率;P(Ci|t‾)=P(t‾|Ci)×P(Ci)P(t‾).]]>本發(fā)明實(shí)施例提供了一種基于文本類特征選擇進(jìn)行降維的方法和裝置,通過HanLP分詞、去除停用詞、將詞項(xiàng)作為特征進(jìn)行信息增益計算、根據(jù)信息增益量排序等步驟得到基準(zhǔn)向量,再根據(jù)基準(zhǔn)向量對文檔進(jìn)行降維處理,是一種基于信息增益算法而實(shí)現(xiàn)的文檔特征降維處理方法,降低了文檔特征詞集的維度,減少了幾十萬維特征詞集所導(dǎo)致的計算負(fù)擔(dān)。附圖說明圖1為本發(fā)明基于文本類特征選擇進(jìn)行降維的方法一個實(shí)施例的流程示意圖;圖2位本發(fā)明實(shí)施例二提供的進(jìn)行文本特征選擇的一個實(shí)施例的流程示意圖。具體實(shí)施方式本發(fā)明實(shí)施例提供了一種基于文本類特征選擇進(jìn)行降維的方法和裝置,是一種基于信息增益(InformationGain,IG)的文本類特征選擇的算法,通過在文本中提取能夠具有代表性、最有效的的特征,以降低數(shù)據(jù)集維度。在信息增益中,重要性的衡量標(biāo)準(zhǔn)就是看特征能夠?yàn)榉诸愊到y(tǒng)帶來多少信息,帶來的信息越多,該特征就越重要。本發(fā)明實(shí)施例采用HanLP分詞技術(shù)對文本進(jìn)行分詞,其原理是構(gòu)建一個足夠大的包含所有可能出現(xiàn)的漢語詞的詞典庫,判斷待處理的中文文本漢字串是否出現(xiàn)在詞典庫中,一旦發(fā)現(xiàn)則識別出一詞,并將該詞從漢字串中分割出來,直到漢字串被分割完畢。HanLP具備功能完善、性能高效、架構(gòu)清晰、語料時新、可自定義的特點(diǎn)。在提供豐富功能的同時,HanLP內(nèi)部模塊堅持低耦合、模型堅持惰性加載、服務(wù)堅持靜態(tài)提供、詞典堅持明文發(fā)布,使用非常方便,同時自帶一些語料處理工具,幫助用戶訓(xùn)練自己的語料。但其最大的缺點(diǎn)就是執(zhí)行的準(zhǔn)確率都完全依賴于詞典庫,需要對詞典庫進(jìn)行更新。信息增益方法是通過特征在文本中出現(xiàn)或不出現(xiàn)來判定文本所屬類別所提供的信息量的大小。在過濾問題中用于度量已知一個特征是否出現(xiàn)于某主題相關(guān)文本中對于該主題預(yù)測有多少信息貢獻(xiàn)。通過計算信息增益可以得到那些在正例樣本中出現(xiàn)頻率高而在非正例樣本中出現(xiàn)頻率低的特征。信息增益涉及較多的數(shù)學(xué)理論和復(fù)雜的熵理論公式,本發(fā)明實(shí)施例將其定義為某特征項(xiàng)為整個分類所能提供的信息量,不考慮任何特征的熵與考慮該特征后的熵的差值。本發(fā)明實(shí)施例根據(jù)訓(xùn)練數(shù)據(jù),計算出各個特征項(xiàng)的信息增益,刪除信息增益很小的項(xiàng),其余的按照信息增益從大到小排序和篩選。實(shí)施例一具體地,參見圖1所示,該方法包括步驟:步驟S110,獲取待處理的數(shù)據(jù)源文本的詳細(xì)信息并存儲。獲取數(shù)據(jù)源文本詳細(xì)信息,并存儲到HDFS中,并且保留備份,已備后續(xù)檢驗(yàn)或數(shù)據(jù)追溯使用。步驟S111,采用HanLP對所述數(shù)據(jù)源文本進(jìn)行分詞得到多個詞項(xiàng),去除所述詞項(xiàng)中的停用詞。一篇文本的有效信息一般主要由名詞、形容詞、動詞、量詞等實(shí)詞構(gòu)成,其屬于哪個類別也主要由這些實(shí)詞來區(qū)分,而還有一些在所有文本中都頻繁出現(xiàn)的詞和沒有實(shí)際含義的虛詞對文本分類幾乎沒有什么貢獻(xiàn)。這些停用詞通常不具有很大的實(shí)際意義,但在文本中卻經(jīng)常出現(xiàn),如果不去除的話,可能會使兩個內(nèi)容完全不同的文本因?yàn)檫@些大量的共有信息而無法分別,同時會影響到后面的特征選取階段,增加系統(tǒng)計算開銷,最終影響分類器的構(gòu)建。因此通過停用詞庫,對文本進(jìn)行分詞處理后,將存在于詞庫中的詞直接過濾掉。步驟S112,統(tǒng)計詞頻、詞項(xiàng)文檔頻率以及文檔詞數(shù)。采用HanLP對文本進(jìn)行分詞,統(tǒng)計詞頻和詞項(xiàng)(Term)文檔頻率以及文檔詞數(shù)。其中,詞頻為每個詞項(xiàng)(Term)在全部文本中出現(xiàn)的頻率,詞項(xiàng)文檔頻率為每個詞項(xiàng)在一篇文檔中出現(xiàn)的頻率,文檔詞數(shù)為一篇文檔所包含的詞項(xiàng)數(shù)量。步驟S113,將所述詞項(xiàng)、詞頻和詞項(xiàng)文檔頻率以及文檔詞數(shù)存儲并形成初級文本向量。將詞項(xiàng)、詞出現(xiàn)的次數(shù)(詞頻)、詞項(xiàng)文檔頻率存儲到內(nèi)存數(shù)據(jù)庫中,形成向量化文本,已備信息增益計算讀寫。步驟S114,對所述初級文本向量進(jìn)行信息增益計算,得到各詞項(xiàng)的信息增益量,按照所述信息增益量的大小排序,將滿足預(yù)設(shè)要求的多個詞匯形成特征選擇的基準(zhǔn)向量。對文本向量進(jìn)行信息增益計算,按照信息量大小排序,根據(jù)需求保留N個詞匯,作為特征選擇的基準(zhǔn)向量,并將所有文本按照基準(zhǔn)向量進(jìn)行降維,形成最終降維后的文本向量。熵的數(shù)學(xué)定義:假設(shè)有一個變量X,它的可能取值有n種,分別是x1,x2,…,xn,取每種值的概率為P1,P2,…,Pn,那么變量X的熵定義為:H(X)=-Σi=1n(Pi×log2Pi)]]>分類系統(tǒng)的熵:對于一個分類系統(tǒng),類別C是變量,它的可能取值為C1,C2,…,Cn,每個類別出現(xiàn)的概率為P(C1),P(C2),…,P(Cn),其中n表示類別數(shù)量。分類系統(tǒng)的熵定義為:H(C)=-Σi=1nP(Ci)×log2P(Ci)]]>其中:P(Ci)表示類別Ci出現(xiàn)的概率,可以采用類別Ci包含的記錄數(shù)量(文檔數(shù)量)除以總記錄數(shù)(總文檔數(shù)量)進(jìn)行估計。即:P(Ci)=P^(Ci)=NCiN]]>其中,N表示總記錄數(shù),表示類別Ci包含的記錄數(shù)。條件熵:假設(shè)特征X有n種可能取值(x1,x2,…,xn),那么在給定X的情況下,系統(tǒng)的熵定義為:H(C|X)=Σi=1nP(X=Xi)×H(C|X=Xi)]]>其中,H(C|X=xi)=-Σj=1nP(Cj|X=xi)×log2P(Cj|X=xi)]]>信息增益是針對每個特征而言的,就是看一個特征(T),系統(tǒng)有它和沒它的時候的信息量各是多少,兩者之間的差值就是該特征給系統(tǒng)帶來的信息量,即增益。特征(T)給系統(tǒng)帶來的信息增益可以寫成系統(tǒng)原本的熵與固定特征(T)后的條件熵的差:IG(T)=H(C)-H(C|T)在文本分類系統(tǒng)中,特征(T)對應(yīng)一個詞項(xiàng),它只有兩種取值“出現(xiàn)”或“不出現(xiàn)”。用t表示特征(T)出現(xiàn),用表示特征(T)不出現(xiàn)。那么:H(C|T)=P(t)×H(C|t)+P(t‾)×H(C|t‾)]]>其中:P(t)表示特征(T)出現(xiàn)的概率,表示特征(T)不出現(xiàn)的概率。將該公式進(jìn)一步展開:H(C|t)=-Σi=1nP(Ci|t)×log2P(Ci|t)]]>H(C|t‾)=-Σi=1nP(C1|t‾)×log2P(Ci|t‾)]]>所以IG(T)可以進(jìn)一步展開成:IG(T)=-Σi=1nP(Ci)×log2P(Ci)+P(t)×Σi=1nP(Ci|t)×log2P(Ci|t)+P(t‾)×Σi=1nP(Ci|t‾)×log2P(Ci|t‾)]]>文本的特征選擇,是在整個文本集合中抽取重要的詞項(xiàng),其中沒有類別的概念,所以需要對問題進(jìn)行泛化,將每篇文本作為一個類別。此時,類別的數(shù)量等于文本集合中文本的數(shù)量N?;谠摲N假設(shè)對信息增益公式的相關(guān)參數(shù)進(jìn)行估計。符號說明:N,表示總文本數(shù),即總類別數(shù);P(Ci),表示類別Ci出現(xiàn)的概率,即文本Di出現(xiàn)的概率,等于P(t),表示特征(T)出現(xiàn)的概率,采用包含特征(T)的文本數(shù)量除以總文本數(shù)量N,即:其中DFT表示特征(T)的文檔頻率;表示特征(T)不出現(xiàn)的概率,等于1-P(t);P(Ci|t),表示文本包含特征(T)且屬于類別Ci的概率;這里,可能存在兩種估計方式:采用包含特征(T)且屬于類別Ci的文本數(shù)量除以總文本數(shù),值為0或按貝葉斯公式展開,P(t|Ci)表示類別Ci中特征(T)出現(xiàn)的概率,即特征(T)在文檔Di中出現(xiàn)的概率,采用其中TFi表示每個詞項(xiàng)的出現(xiàn)頻率;TFT表示每個特征T出現(xiàn)的頻率。表示文本包含特征(T)且屬于類別Ci的概率;這里,可能存在兩種估計方式:采用不包含特征(T)且屬于類別Ci的文本數(shù)量除以總文本數(shù),值為0或按貝葉斯公式展開,其中需要注意的是:在估計P(t)時,該值可能為1,這將造成的值為0,從而使無法計算。所以P(t)實(shí)際采用進(jìn)行估計。P(t|Ci)采用進(jìn)行估計,如果TFT的值為0,這將是該估計的值為0。所以實(shí)際采用:進(jìn)行估計。在本發(fā)明實(shí)施例中所說的特征均指的是文本的詞項(xiàng)。本領(lǐng)域技術(shù)人員可根據(jù)本發(fā)明實(shí)施例的技術(shù)方案確定各參數(shù)定義,本發(fā)明實(shí)施例不全部列舉。步驟S115,將待處理的文本按照所述基準(zhǔn)向量進(jìn)行降維,形成降維后的文本向量。本發(fā)明實(shí)施例一提出的基于信息增益算法對文本進(jìn)行特征選擇,通過特征對整個系統(tǒng)的重要性,對特征進(jìn)行排序篩選,從而達(dá)到降維的目的,減輕計算負(fù)擔(dān)。實(shí)施例二在本發(fā)明實(shí)施例二中,基于文本類特征選擇進(jìn)行降維的方法的主要流程同實(shí)施例一,其中文本特征選擇流程參見圖2所示,包括步驟:步驟S210,獲取初始文本。步驟S211,獲取分詞器,使用分詞器對初始文本進(jìn)行分詞。步驟S212,獲取名詞過濾器,使用名詞過濾器對分詞后的文本進(jìn)行名詞篩選得到名詞集合。步驟S213,進(jìn)行文檔頻率統(tǒng)計并存入redis。步驟S214,進(jìn)行詞頻統(tǒng)計并存入redis。步驟S215,進(jìn)行文檔正向索引。步驟S216,根據(jù)步驟S213和步驟S214統(tǒng)計的結(jié)果進(jìn)行IG計算。步驟S217,將得到的特征詞持久化。實(shí)施例三本發(fā)明實(shí)施例三提供一種基于文本類特征選擇進(jìn)行降維的裝置,包括獲取模塊、分詞模塊、統(tǒng)計模塊、向量模塊、信息增益計算模塊和降維模塊。其中獲取模塊,用于獲取待處理的數(shù)據(jù)源文本的詳細(xì)信息并存儲。分詞模塊,用于采用HanLP對所述數(shù)據(jù)源文本進(jìn)行分詞得到多個詞項(xiàng),去除所述詞項(xiàng)中的停用詞。統(tǒng)計模塊,用于統(tǒng)計詞頻(每個詞項(xiàng)的出現(xiàn)頻率)和詞項(xiàng)文檔頻率以及文檔詞數(shù)。向量模塊,用于將所述詞項(xiàng)、詞頻和詞項(xiàng)文檔頻率以及文檔詞數(shù)存儲并形成初級文本向量。信息增益計算模塊,用于對初級文本向量進(jìn)行信息增益計算,得到各詞項(xiàng)的信息增益量,按照信息增益量的大小排序,將滿足預(yù)設(shè)要求的多個詞匯形成特征選擇的基準(zhǔn)向量。降維模塊,用于將待處理的文本按照基準(zhǔn)向量進(jìn)行降維,形成降維后的文本向量。文本的表示抽象成為特征詞集的空間向量,然而原始的候選特征詞集高達(dá)幾十萬維,高維度的文本表示除了一方面造成了計算上的負(fù)擔(dān),另一方面,較大的特征冗余會造成分類性能的下降,本發(fā)明實(shí)施例提供了一種基于信息增益算法而進(jìn)行特征提取的方法和裝置,降低了特征詞集的維度,減輕了相應(yīng)的計算負(fù)擔(dān),除去了冗余特征提高了分類性能。需要說明的是,本發(fā)明實(shí)施例中的裝置或者系統(tǒng)實(shí)施例可以通過軟件實(shí)現(xiàn),也可以通過硬件或者軟硬件結(jié)合的方式實(shí)現(xiàn)。從硬件層面而言,本發(fā)明實(shí)施例的硬件結(jié)構(gòu)框架結(jié)構(gòu)中,除了CPU、內(nèi)存、網(wǎng)絡(luò)接口、以及非易失性存儲器之外,實(shí)施例中裝置所在的設(shè)備通常還可以包括其他硬件,如負(fù)責(zé)處理報文的轉(zhuǎn)發(fā)芯片等等。以軟件實(shí)現(xiàn)為例,作為一個邏輯意義上的裝置,是通過其所在設(shè)備的CPU將非易失性存儲器中對應(yīng)的計算機(jī)程序指令讀取到內(nèi)存中運(yùn)行形成的。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
临沭县| 固始县| 闽清县| 离岛区| 青海省| 新竹市| 兴文县| 三明市| 兴安盟| 香港| 县级市| 兴国县| 江陵县| 连江县| 雅安市| 赞皇县| 墨脱县| 吴川市| 富锦市| 凌云县| 贵德县| 南通市| 尤溪县| 土默特左旗| 麦盖提县| 宝应县| 长宁县| 启东市| 金秀| 临洮县| 醴陵市| 集贤县| 哈密市| 华宁县| 铜鼓县| 牡丹江市| 余姚市| 莒南县| 连州市| 揭东县| 遂平县|