專利名稱:面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)文本處理技術(shù);特別是涉及面向遷移學(xué)習(xí)的文本處理方法和文本特征提取方法。
背景技術(shù):
傳統(tǒng)的特征提取算法,沒(méi)有考慮新、舊文本不同分布的情況,沒(méi)有考慮訓(xùn)練文本偏斜的問(wèn)題。由于新、舊文本有不同分布,當(dāng)差異較大時(shí),若用從舊文本提取的特征表示新文本時(shí),新文本會(huì)出現(xiàn)很多特征權(quán)重為0的現(xiàn)象。由于訓(xùn)練文本中新文本很少,若單獨(dú)從中提取特征,提取到的特征不能很好地代表所有新文本。如果在這些特征的基礎(chǔ)上,對(duì)訓(xùn)練文本和目標(biāo)任務(wù)的文本進(jìn)行表示,并進(jìn)行文本分類,必然不會(huì)取得很好的效果。本發(fā)明涉及的背景技術(shù)包括
·
I)文本挖掘隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展,洶涌而來(lái)的信息有時(shí)使人無(wú)所適從,從浩如煙海的信息海洋中迅速而準(zhǔn)確地獲取自己最需要的信息,變得非常困難。海量信息中,許多是文本信息。于是產(chǎn)生了一種新的信息處理技術(shù)——文本挖掘。文本挖掘是從大量文本信息中,抽取出隱含的、有用的知識(shí),這一過(guò)程也稱為文本庫(kù)中的知識(shí)發(fā)現(xiàn)。它涉及到文本庫(kù)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、統(tǒng)計(jì)文本分析等多個(gè)學(xué)科領(lǐng)域。研究?jī)?nèi)容包括文本聚類、文本分類、文本摘要的生成、信息抽取等問(wèn)題。2)文本分類文本分類是文本挖掘研究中一個(gè)重要的問(wèn)題,它是指在給定的分類體系下,將大量文本劃分為兩個(gè)或多個(gè)類別。利用計(jì)算機(jī)進(jìn)行文本分類,不僅速度快,而且準(zhǔn)確率相對(duì)較高。在現(xiàn)實(shí)生活中已經(jīng)有了很多應(yīng)用,例如,對(duì)Web網(wǎng)頁(yè)進(jìn)行分類,將包含相同內(nèi)容的頁(yè)面歸為一類。文本分類的步驟主要包括獲取訓(xùn)練文本、進(jìn)行文本預(yù)處理、文本特征選擇、文本表示、利用訓(xùn)練分類器進(jìn)行訓(xùn)練分類,選擇分類器和性能評(píng)價(jià)六個(gè)步驟,為了保證文本分類的準(zhǔn)確性,還可包括測(cè)試獲取測(cè)試文本,進(jìn)行文本與處理,文本表示、選擇分類器和性能評(píng)價(jià),由分類器去獲得文本分類結(jié)果,如圖I所示為文本分類流程示意圖。3)遷移學(xué)習(xí)在許多實(shí)際應(yīng)用中,文本信息不僅數(shù)量巨大,所包含的內(nèi)容也在快速的更新變化之中,例如,Web網(wǎng)頁(yè)的內(nèi)容經(jīng)常變化主題。在傳統(tǒng)的分類學(xué)習(xí)中,一個(gè)基本的假設(shè)就是認(rèn)為用于訓(xùn)練分類模型的文本與目標(biāo)任務(wù)的文本服從統(tǒng)一的分布。但是,由于目標(biāo)任務(wù)的文本會(huì)經(jīng)常變化,這樣就導(dǎo)致了當(dāng)把訓(xùn)練好的模型應(yīng)用于目標(biāo)任務(wù)時(shí),模型可能已經(jīng)過(guò)時(shí)。若頻繁地對(duì)目標(biāo)任務(wù)的文本重新進(jìn)行標(biāo)記,代價(jià)昂貴,也做不到及時(shí)。我們可稱目標(biāo)任務(wù)的文本為新文本,稱以往積累的、大量的、已分類的文本為舊文本。如何最大限度地利用舊文本的分類知識(shí),對(duì)新文本進(jìn)行分類,成為一個(gè)急需解決的問(wèn)題。遷移學(xué)習(xí)近年來(lái)成為文本挖掘領(lǐng)域的熱門話題,它與傳統(tǒng)機(jī)器學(xué)習(xí)方法的主要區(qū)別是不需要文本立同分布的假設(shè)。在現(xiàn)有的遷移學(xué)習(xí)方法中,需要取出少量新文本,進(jìn)行人工標(biāo)注,作為訓(xùn)練文本的一部分。但是,僅以這些訓(xùn)練文本用于訓(xùn)練模型,數(shù)量嚴(yán)重不足。所以以大量已分類的舊文本作為訓(xùn)練文本的補(bǔ)充。舊文本與新文本可能來(lái)自不同領(lǐng)域,有不同分布。如圖2所示。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明提出了一種面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法,在利用遷移學(xué)習(xí)方法解決文本二分類問(wèn)題的過(guò)程中,在其中的文本特征提取環(huán)節(jié),對(duì)已有的方法進(jìn)行了改進(jìn),針對(duì)訓(xùn)練文本中有少量新文本和大量舊文本的情況,提出一種二次提取的方法,能有效提高分類的準(zhǔn)確率與召回率。本發(fā)明提供一種面向遷移學(xué)習(xí)的文本特征提取方法,該方法包括以下步驟 第一個(gè)階段針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取,得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本,其中新文本來(lái)源于目標(biāo)領(lǐng)域,舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域,經(jīng)過(guò)第一階段的文本特征提取過(guò)程,將其中包含領(lǐng)域信息較少,對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉;對(duì)訓(xùn)練文本中包含的所有候選文本特征,計(jì)算其權(quán)值并排序,提取前面若干個(gè)作為第一階段提取的文本特征,第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量,a>l ;第二個(gè)階段對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量,以判斷某個(gè)文本特征在新、舊文本中的重要程度;采用公式(I)和(2)分別逐一計(jì)算a *K個(gè)文本特征t在新、舊文本中的分布; wSMe (t,Csame) =f (t,Csame) *n (t,Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中,Csame和Cdif分別表示訓(xùn)練文本中的新、舊文本,f(t, Csame)和f (t,Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù),n(t,CsaJ和n(t,Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù),N(Csanie)和n(Cdif)分別為新、舊文本中的文本總數(shù),Wsanre(t,CsaJ和wdif (t,Cdif)分別表示文本特征t在新、舊文本中的分布。再根據(jù)上述公式(I)和公式(2)的計(jì)算結(jié)果,逐一代入公式(3),計(jì)算文本特征t的權(quán)值max {wsame(t,Csame),Wdif (t,Cdif)} /min {wsame (t,Csame),Wdif (t,Cdif)} (3)將這a *K個(gè)文本特征按權(quán)重排序,選取權(quán)重最小的K個(gè)文本特征;所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。所述a取值為2。另外,本發(fā)明還提出了一種面向遷移學(xué)習(xí)的文本處理方法,該方法包括以下步驟建立訓(xùn)練文本集;信息的預(yù)處理,包括去除噪聲文本,去除停用詞,對(duì)英文文本進(jìn)行詞根還原。對(duì)中文文本進(jìn)行分詞處理為詞與詞之間加上分隔符,對(duì)詞語(yǔ)進(jìn)行詞性的標(biāo)注;文本特征提取。提取訓(xùn)練文本中的某些詞語(yǔ)作為文本的文本特征,具體操作為第一個(gè)階段針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取,得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本,其中新文本來(lái)源于目標(biāo)領(lǐng)域,舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域,經(jīng)過(guò)第一階段的文本特征提取過(guò)程,將其中包含領(lǐng)域信息較少,對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉;
對(duì)訓(xùn)練文本中包含的所有候選文本特征,計(jì)算其權(quán)值并排序,提取前面若干個(gè)作為第一階段提取的文本特征,第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量,a>l ;第二個(gè)階段對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量,以判斷某個(gè)文本特征在新、舊文本中的重要程度;采用公式(I)和(2)分別逐一計(jì)算a *K個(gè)文本特征t在新、舊文本中的分布;wSMe (t,Csame) =f (t,Csame) *n (t,Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中,Csame和Cdif分別表示訓(xùn)練文本中的新、舊文本,f(t, Csame)和f (t,Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù),n(t,CsaJ和n(t,Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù),N(Csanie)和N(Cdif)分別為新、舊文本中的文本總數(shù),Wsanre (t,CsaJ和wdif (t,Cdif)分別表示文本特征t在新、舊文本中的分布。再根據(jù)上述公式(I)和公式(2)的計(jì)算結(jié)果,逐一代入公式(3),計(jì)算文本特征t的權(quán)值 max {wsame(t,Csame),Wdif (t,Cdif)} /min {wsame (t,Csame),Wdif (t,Cdif)} (3)將這a *K個(gè)文本特征按權(quán)重排序,選取權(quán)重最小的K個(gè)文本特征;所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。將文本轉(zhuǎn)化為計(jì)算機(jī)可讀編碼形式;對(duì)已經(jīng)結(jié)構(gòu)化表示的文本進(jìn)行分類。所述a取值為2。與現(xiàn)有技術(shù)相比,本發(fā)明的文本特征提取方法能夠提高大大文本分類的準(zhǔn)確率,并且使用該文本特征提取方法的面向遷移學(xué)習(xí)的文本處理方法能夠使提取到的特征既不過(guò)于傾向舊文本,也不單純從少量的新文本中獲得,從而提高文本分類的準(zhǔn)確性。
圖I為現(xiàn)有技術(shù)的文本分類流程示意圖;圖2為本發(fā)明的改進(jìn)的文本特征提取算法流程圖。
具體實(shí)施例方式以下結(jié)合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明提供的具體實(shí)施方式
、結(jié)構(gòu)、文本特征及其功效,詳細(xì)說(shuō)明如下。
如圖2所示,為本發(fā)明提出的文本特征提取算法流程圖,將提取文本特征的過(guò)程分為兩個(gè)階段.在第一個(gè)階段中,針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取,這些訓(xùn)練文本中,既包括少量新文本也包括大量舊文本,新文本來(lái)源于目標(biāo)領(lǐng)域(即文本處理關(guān)心的領(lǐng)域),舊文本可能來(lái)源于其它領(lǐng)域,這些文本都經(jīng)過(guò)了標(biāo)注。在第一階段提取的文本特征,說(shuō)明它們適合在一個(gè)更高層面更大范圍的領(lǐng)域(既包括新文本領(lǐng)域也包括舊文本領(lǐng)域)中用于表示文本,包含的領(lǐng)域信息較多,對(duì)文本的區(qū)分度較高。經(jīng)過(guò)第一階段的文本特征提取過(guò)程,將其中包含領(lǐng)域信息較少,對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉了。在第一個(gè)提取文本特征的階段,采用某種傳統(tǒng)的文本特征提取方法即可。例如采用信息增益(IG, Information Gain)方法計(jì)算文本特征的權(quán)值,文本特征t的IG值可定義 為-X/U;)log/U;) + A/)l;/U; I /)log/U; i,) + /仍: 17)log/tr!7)
IG(t)= 7=1/=1/=1公式(4)公式(4)中,P(Ci)為文本類別Ci包含文本數(shù)與文本總數(shù)的比值,P (t)為包含文本特征t的文本數(shù)與文本總數(shù)的比值,P (Ci |t)為出現(xiàn)文本特征t時(shí)文本屬于Ci的概率,巧7)為不含文本特征t的文本數(shù)與文本總數(shù)的比值,7)為不出現(xiàn)文本特征t時(shí)文本屬于Ci的概率。對(duì)訓(xùn)練文本中包含的所有候選文本特征,計(jì)算其權(quán)值(例如IG值)并排序,選取前面若干個(gè)作為第一階段提取的文本特征。第一階段提取的文本特征數(shù)量應(yīng)該大于最終期望得到的數(shù)量,如果希望最終提取到K個(gè)文本特征,就需要在第一階段提取出a *K個(gè)文本特征(a >1,具體取值可以根據(jù)試驗(yàn)情況進(jìn)行調(diào)整)。在第二個(gè)階段,要考慮哪些文本特征更適合表示新文本。在第二階段提取文本特征時(shí),并不能單獨(dú)考慮那些在訓(xùn)練文本中的新文本中出現(xiàn)頻繁、密集的文本特征,因?yàn)楹芸赡苓@些文本特征只反映了新文本很小的一個(gè)方面,同時(shí),也不能將第一階段的所有文本特征直接用于文本的表示,因?yàn)橛?xùn)練文本中舊文本在數(shù)量上占了大部分,這些文本特征偏向于表示舊文本的內(nèi)容。在第二個(gè)階段,應(yīng)當(dāng)從第一階段提取的a*K個(gè)文本特征中,選取那些在新、舊文本內(nèi)分布相似的文本特征,這里說(shuō)的分布是指文本特征在文本中出現(xiàn)的疏密程度。在新、舊文本中分布類似,說(shuō)明這些文本特征不僅能很好的表示舊文本的文本,也能很好的表示新文本的文本。有了這樣的判斷標(biāo)準(zhǔn),就需要對(duì)文本特征在新、舊文本中的分布做一個(gè)度量。要用這個(gè)度量去判斷某個(gè)文本特征在新、舊文本中的重要程度,同時(shí),這個(gè)度量的計(jì)算量要盡可能的小,因?yàn)樵诖蠖鄶?shù)情況下,未經(jīng)提取的文本特征高達(dá)上萬(wàn)維。本發(fā)明采用公式(2)和
(3)計(jì)算文本特征t在新、舊文本中的分布。wSMe (t,Csame) =f (t,Csame) *n (t,Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中,Csame和Cdif分別表示訓(xùn)練文本中的新、舊文本,f(t, Csame)和f (t,Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù),n(t,CsaJ和n(t,Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù),N(Csanie)和N(Cdif)分別為新、舊文本中的文本總數(shù),Wsanre (t,CsaJ和wdif (t,Cdif)分別表示文本特征t在新、舊文本中的分布。公式(I)和(2)中,Wsame (t, Csame)或wdif(t, Cdif)的值越大,就說(shuō)明文本特征t在Csaffle或Cdif中越重要。最終要保留的文本特征就是那些在新、舊文本中分布相似的文本特征,分布相似就是要求對(duì)于一個(gè)文本特征項(xiàng)t而言,Wsame (t,CsaiJ與wdif(t,cdif)的值要盡可能的接近。本發(fā)明采用公式(3)計(jì)算文本特征t的最終的權(quán)值,這個(gè)權(quán)值越接近1,文本特征t在新、舊文本中的分布就越相似。
max {wsame(t,Csame),Wdif (t,Cdif)} /min {wsame (t,Csame),Wdif (t, Cdif)} (3)在文本特征提取的第二階段,把從第一階段提取的a *K個(gè)文本特征,逐一根據(jù)公式(2)和(3)計(jì)算文本特征的分布,根據(jù)公式(4)計(jì)算文本特征的權(quán)值。將這a*K個(gè)文本特征按權(quán)重排序,選取權(quán)重最小的K個(gè)文本特征。這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。本發(fā)明提出的特征提取方法,通過(guò)第一階段特征提取,過(guò)濾掉那些包含領(lǐng)域信息少、文本區(qū)分度不高的特征。隨著a的不斷變大,越來(lái)越多的特征被提取出來(lái),進(jìn)入第二階段提取。在第二階段特征提取中,關(guān)注的是特征在新文本與舊文本中分布的相似性,分布越一致,計(jì)算得到的權(quán)重就越高,在特征排序中也就越靠前。但隨著a繼續(xù)變大,很多包含領(lǐng)域信息少、文本區(qū)分度不高的特征通過(guò)了第一階段提取,并由于在新舊文本中分布一致,在最終的排序中獲得了較高的分?jǐn)?shù),這些特征并不利于文本表示,將影響分類的效果,導(dǎo)致分類的準(zhǔn)確率變低。實(shí)驗(yàn)表明當(dāng)a取到2時(shí),得到了分類正確率的最大值。按照上述文本特征提取算法的流程,來(lái)說(shuō)明本發(fā)明的文本特征提取方法在計(jì)算機(jī)文本處理方法中的應(yīng)用。I)獲取訓(xùn)練文本集。訓(xùn)練文本的好壞直接關(guān)系到最終分類模型的好壞,因此在選取訓(xùn)練文本時(shí)應(yīng)該由相關(guān)領(lǐng)域的專家進(jìn)行挑選,以求獲得較高的質(zhì)量,或是使用那些研究者使用較多的公開(kāi)文本集。2)信息的預(yù)處理。I)中的研究所采用的文本大多取自于現(xiàn)實(shí)生活,而這樣的文本經(jīng)常還包含很多研究者并不關(guān)心的內(nèi)容,如Web文檔中插入的廣告,某些無(wú)用的HTML標(biāo)記,等等。因此在進(jìn)行文本的文本特征提取前必須對(duì)文本進(jìn)行預(yù)處理。預(yù)處理的工作包括去除噪聲文本,去除停用詞,對(duì)英文文本進(jìn)行詞根還原。對(duì)中文文本而言,還有一項(xiàng)關(guān)鍵的工作一分詞。因?yàn)樵谥形睦?,句子中最基本的元素是字而不是詞,詞與詞之間不像英文中那樣有固定的分隔符,為了進(jìn)行文本特征提取,還需要對(duì)中文文本進(jìn)行分詞,分詞不僅要為詞與詞之間加上分隔符,還要對(duì)詞語(yǔ)進(jìn)行詞性的標(biāo)注?,F(xiàn)在已經(jīng)有很多不錯(cuò)的中文分詞工具,如中科院的ICTCLAS,開(kāi)源的IKAnalyzer,都能很好的滿足一般用戶的需求。3)文本特征提取。提取訓(xùn)練文本中的某些詞語(yǔ)作為文本的文本特征,可以采用本發(fā)明所提出的文本特征提取算法。4)文本表示。文本一般都采用自然語(yǔ)言描述,計(jì)算機(jī)不可能理解其含義。因此需要將文本轉(zhuǎn)化為計(jì)算機(jī)可以理解的形式,文本特征提取已經(jīng)為這一過(guò)程打下了基礎(chǔ)。目前向量空間模型(VSM)是應(yīng)用較多、效果較好的方法。5)選擇文本分類方法。對(duì)已經(jīng)結(jié)構(gòu)化表示的文本進(jìn)行分類??梢圆捎眠w移學(xué)習(xí)的方法,現(xiàn)在常用的方法有AdaBoost算法,TrAdaBoost算法等。6)性能評(píng)估。目前使用較多的評(píng)估指標(biāo)有準(zhǔn)確率,召回率,宏平均準(zhǔn)確率和宏平均召回率。用戶采用以上文本分類流程,在遷移學(xué)習(xí)中使用本發(fā)明提出的文本特征提取算法,能夠提高文本分類的準(zhǔn)確率和召回率。本發(fā)明提出的特征提取方法,適用于文本內(nèi)容不斷變化,采用遷移學(xué)習(xí)的方法進(jìn)行文本分類的場(chǎng)合。由于人工標(biāo)注的代價(jià)大,訓(xùn)練文本中只能有少量新文本,訓(xùn)練文本中需要保留大量的舊文本。本發(fā)明提出的特征提取方法,考慮到了訓(xùn)練本文偏斜、新舊文本不同分布的現(xiàn)實(shí)情況,能夠更好地表示文本文本。 在應(yīng)用遷移學(xué)習(xí)的方法解決文本分類問(wèn)題時(shí),在文本特征提取環(huán)節(jié)應(yīng)用本發(fā)明的算法,能夠使提取到的特征既不過(guò)于傾向舊文本,也不單純從少量的新文本中獲得,從而提高文本分類的準(zhǔn)確性。
權(quán)利要求
1.一種面向遷移學(xué)習(xí)的文本特征提取方法,其特征在于,該方法包括以下步驟 第一個(gè)階段 針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取,得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本,其中新文本來(lái)源于目標(biāo)領(lǐng)域,舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域,經(jīng)過(guò)第一階段的文本特征提取過(guò)程,將其中包含領(lǐng)域信息較少,對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉; 對(duì)訓(xùn)練文本中包含的所有候選文本特征,計(jì)算其權(quán)值并排序,提取前面若干個(gè)作為第一階段提取的文本特征,第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量,a>l ; 第二個(gè)階段 對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量,以判斷某個(gè)文本特征在新、舊文本中的重要程度;采用公式(I)和(2)分別逐一計(jì)算a*K個(gè)文本特征t在新、舊文本中的分布; wSame,Csame) =f (t, Csame)*n(t, Csame)/N(Csame) (I) Wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 ) 其中,Cs■和Cdif分別表示訓(xùn)練文本中的新、舊文本,f(t,Csame)和f(t,Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù),n(t,CsaJ和n(t,Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù),N(Csame)和N(Cdif)分別為新、舊文本中的文本總數(shù),Wsanre(t,Csame)和wdif (t, Cdif)分別表示文本特征t在新、舊文本中的分布。
再根據(jù)上述公式(2)和公式(3)的計(jì)算結(jié)果,逐一代入公式(3),計(jì)算文本特征t的權(quán)值 max {wsaae (t,Csame),wdif (t,Cdif)} /min {wsame (t,Csame),wdif (t,Cdif)} (3) 將這a *K個(gè)文本特征按權(quán)重排序,選取權(quán)重最小的K個(gè)文本特征;所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。
2.如權(quán)利要求I所述的面向遷移學(xué)習(xí)的文本特征提取方法,其特征在于,所述a取值為2。
3.一種面向遷移學(xué)習(xí)的文本處理方法,其特征在于,該方法包括以下步驟 建立訓(xùn)練文本集; 信息的預(yù)處理,包括去除噪聲文本,去除停用詞,對(duì)英文文本進(jìn)行詞根還原。對(duì)中文文本進(jìn)行分詞處理為詞與詞之間加上分隔符,對(duì)詞語(yǔ)進(jìn)行詞性的標(biāo)注; 文本特征提取。提取訓(xùn)練文本中的某些詞語(yǔ)作為文本的文本特征,具體操作為 第一個(gè)階段 針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取,得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本,其中新文本來(lái)源于目標(biāo)領(lǐng)域,舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域,經(jīng)過(guò)第一階段的文本特征提取過(guò)程,將其中包含領(lǐng)域信息較少,對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉; 對(duì)訓(xùn)練文本中包含的所有候選文本特征,計(jì)算其權(quán)值并排序,提取前面若干個(gè)作為第一階段提取的文本特征,第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量,a >1 ;第二個(gè)階段 對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量,以判斷某個(gè)文本特征在新、舊文本中的重要程度;采用公式(I)和(2)分別逐一計(jì)算a*K個(gè)文本特征t在新、舊文本中的分布; wSame,Csame) =f (t, Csame)*n(t, Csame)/N(Csame) (I) Wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 ) 其中,Cs■和Cdif分別表示訓(xùn)練文本中的新、舊文本,f(t,Csame)和f(t,Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù),n(t,CsaJ和n(t,Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù),N(Csame)和N(Cdif)分別為新、舊文本中的文本總數(shù),Wsanre(t,Csame)和wdif (t, Cdif)分別表示文本特征t在新、舊文本中的分布。
再根據(jù)上述公式(2)和公式(3)的計(jì)算結(jié)果,逐一代入公式(3),計(jì)算文本特征t的權(quán)值 max {wsaae (t,Csame),wdif (t,Cdif)} /min {wsame (t,Csame),wdif (t,Cdif)} (3) 將這a *K個(gè)文本特征按權(quán)重排序,選取權(quán)重最小的K個(gè)文本特征;所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。
將文本轉(zhuǎn)化為計(jì)算機(jī)可讀編碼形式; 對(duì)已經(jīng)結(jié)構(gòu)化表示的文本進(jìn)行分類。
4.如權(quán)利要求I所述的面向遷移學(xué)習(xí)的文本處理方法,其特征在于,所述a取值為2。
全文摘要
本發(fā)明公開(kāi)了一種面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法,其中的文本特征提權(quán)算法步驟為針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取,得到候選文本特征,根據(jù)權(quán)值排序提取前面α*K個(gè)文本特征(α>1),在文本特征提取的第二階段,把從第一階段提取的α*K個(gè)文本特征,逐一計(jì)算文本特征的分布,計(jì)算文本特征的權(quán)值。將這α*K個(gè)文本特征按權(quán)重排序,選取權(quán)重最小的K個(gè)文本特征文本征。這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。與現(xiàn)有技術(shù)相比,本發(fā)明的文本特征提取方法能夠提高大大文本分類的準(zhǔn)確率,并且使用該文本特征提取方法的面向遷移學(xué)習(xí)的文本處理方法能夠使提取到的特征既不過(guò)于傾向舊文本,也不單純從少量的新文本中獲得,從而提高文本分類的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK102750338SQ20121018073
公開(kāi)日2012年10月24日 申請(qǐng)日期2012年6月4日 優(yōu)先權(quán)日2012年6月4日
發(fā)明者劉江, 張?jiān)捶? 李煒 申請(qǐng)人:天津大學(xué)