面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法

文檔序號(hào)：6370889閱讀：157來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)文本處理技術(shù)；特別是涉及面向遷移學(xué)習(xí)的文本處理方法和文本特征提取方法。
背景技術(shù)：
傳統(tǒng)的特征提取算法，沒(méi)有考慮新、舊文本不同分布的情況，沒(méi)有考慮訓(xùn)練文本偏斜的問(wèn)題。由于新、舊文本有不同分布，當(dāng)差異較大時(shí)，若用從舊文本提取的特征表示新文本時(shí)，新文本會(huì)出現(xiàn)很多特征權(quán)重為0的現(xiàn)象。由于訓(xùn)練文本中新文本很少，若單獨(dú)從中提取特征，提取到的特征不能很好地代表所有新文本。如果在這些特征的基礎(chǔ)上，對(duì)訓(xùn)練文本和目標(biāo)任務(wù)的文本進(jìn)行表示，并進(jìn)行文本分類，必然不會(huì)取得很好的效果。本發(fā)明涉及的背景技術(shù)包括
·
I)文本挖掘隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展，洶涌而來(lái)的信息有時(shí)使人無(wú)所適從，從浩如煙海的信息海洋中迅速而準(zhǔn)確地獲取自己最需要的信息，變得非常困難。海量信息中，許多是文本信息。于是產(chǎn)生了一種新的信息處理技術(shù)——文本挖掘。文本挖掘是從大量文本信息中，抽取出隱含的、有用的知識(shí)，這一過(guò)程也稱為文本庫(kù)中的知識(shí)發(fā)現(xiàn)。它涉及到文本庫(kù)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、統(tǒng)計(jì)文本分析等多個(gè)學(xué)科領(lǐng)域。研究?jī)?nèi)容包括文本聚類、文本分類、文本摘要的生成、信息抽取等問(wèn)題。2)文本分類文本分類是文本挖掘研究中一個(gè)重要的問(wèn)題，它是指在給定的分類體系下，將大量文本劃分為兩個(gè)或多個(gè)類別。利用計(jì)算機(jī)進(jìn)行文本分類，不僅速度快，而且準(zhǔn)確率相對(duì)較高。在現(xiàn)實(shí)生活中已經(jīng)有了很多應(yīng)用，例如，對(duì)Web網(wǎng)頁(yè)進(jìn)行分類，將包含相同內(nèi)容的頁(yè)面歸為一類。文本分類的步驟主要包括獲取訓(xùn)練文本、進(jìn)行文本預(yù)處理、文本特征選擇、文本表示、利用訓(xùn)練分類器進(jìn)行訓(xùn)練分類，選擇分類器和性能評(píng)價(jià)六個(gè)步驟，為了保證文本分類的準(zhǔn)確性，還可包括測(cè)試獲取測(cè)試文本，進(jìn)行文本與處理，文本表示、選擇分類器和性能評(píng)價(jià)，由分類器去獲得文本分類結(jié)果，如圖I所示為文本分類流程示意圖。3)遷移學(xué)習(xí)在許多實(shí)際應(yīng)用中，文本信息不僅數(shù)量巨大，所包含的內(nèi)容也在快速的更新變化之中,例如，Web網(wǎng)頁(yè)的內(nèi)容經(jīng)常變化主題。在傳統(tǒng)的分類學(xué)習(xí)中，一個(gè)基本的假設(shè)就是認(rèn)為用于訓(xùn)練分類模型的文本與目標(biāo)任務(wù)的文本服從統(tǒng)一的分布。但是，由于目標(biāo)任務(wù)的文本會(huì)經(jīng)常變化，這樣就導(dǎo)致了當(dāng)把訓(xùn)練好的模型應(yīng)用于目標(biāo)任務(wù)時(shí)，模型可能已經(jīng)過(guò)時(shí)。若頻繁地對(duì)目標(biāo)任務(wù)的文本重新進(jìn)行標(biāo)記，代價(jià)昂貴，也做不到及時(shí)。我們可稱目標(biāo)任務(wù)的文本為新文本，稱以往積累的、大量的、已分類的文本為舊文本。如何最大限度地利用舊文本的分類知識(shí)，對(duì)新文本進(jìn)行分類，成為一個(gè)急需解決的問(wèn)題。遷移學(xué)習(xí)近年來(lái)成為文本挖掘領(lǐng)域的熱門話題，它與傳統(tǒng)機(jī)器學(xué)習(xí)方法的主要區(qū)別是不需要文本立同分布的假設(shè)。在現(xiàn)有的遷移學(xué)習(xí)方法中，需要取出少量新文本，進(jìn)行人工標(biāo)注，作為訓(xùn)練文本的一部分。但是，僅以這些訓(xùn)練文本用于訓(xùn)練模型，數(shù)量嚴(yán)重不足。所以以大量已分類的舊文本作為訓(xùn)練文本的補(bǔ)充。舊文本與新文本可能來(lái)自不同領(lǐng)域，有不同分布。如圖2所示。

發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù)存在的問(wèn)題，本發(fā)明提出了一種面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法，在利用遷移學(xué)習(xí)方法解決文本二分類問(wèn)題的過(guò)程中，在其中的文本特征提取環(huán)節(jié)，對(duì)已有的方法進(jìn)行了改進(jìn)，針對(duì)訓(xùn)練文本中有少量新文本和大量舊文本的情況，提出一種二次提取的方法，能有效提高分類的準(zhǔn)確率與召回率。本發(fā)明提供一種面向遷移學(xué)習(xí)的文本特征提取方法，該方法包括以下步驟第一個(gè)階段針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取，得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本，其中新文本來(lái)源于目標(biāo)領(lǐng)域，舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域，經(jīng)過(guò)第一階段的文本特征提取過(guò)程，將其中包含領(lǐng)域信息較少，對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉；對(duì)訓(xùn)練文本中包含的所有候選文本特征，計(jì)算其權(quán)值并排序，提取前面若干個(gè)作為第一階段提取的文本特征，第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量，a>l ；第二個(gè)階段對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量，以判斷某個(gè)文本特征在新、舊文本中的重要程度；采用公式(I)和(2)分別逐一計(jì)算a *K個(gè)文本特征t在新、舊文本中的分布； wSMe (t，Csame) =f (t，Csame) *n (t，Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中，Csame和Cdif分別表示訓(xùn)練文本中的新、舊文本，f(t, Csame)和f (t，Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù)，n(t，CsaJ和n(t，Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù)，N(Csanie)和n(Cdif)分別為新、舊文本中的文本總數(shù)，Wsanre(t，CsaJ和wdif (t，Cdif)分別表示文本特征t在新、舊文本中的分布。再根據(jù)上述公式(I)和公式(2)的計(jì)算結(jié)果，逐一代入公式(3)，計(jì)算文本特征t的權(quán)值max {wsame(t，Csame)，Wdif (t，Cdif)} /min {wsame (t，Csame)，Wdif (t，Cdif)} (3)將這a *K個(gè)文本特征按權(quán)重排序，選取權(quán)重最小的K個(gè)文本特征；所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。所述a取值為2。另外，本發(fā)明還提出了一種面向遷移學(xué)習(xí)的文本處理方法，該方法包括以下步驟建立訓(xùn)練文本集；信息的預(yù)處理，包括去除噪聲文本，去除停用詞，對(duì)英文文本進(jìn)行詞根還原。對(duì)中文文本進(jìn)行分詞處理為詞與詞之間加上分隔符，對(duì)詞語(yǔ)進(jìn)行詞性的標(biāo)注；文本特征提取。提取訓(xùn)練文本中的某些詞語(yǔ)作為文本的文本特征，具體操作為第一個(gè)階段針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取，得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本，其中新文本來(lái)源于目標(biāo)領(lǐng)域，舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域，經(jīng)過(guò)第一階段的文本特征提取過(guò)程，將其中包含領(lǐng)域信息較少，對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉；
對(duì)訓(xùn)練文本中包含的所有候選文本特征，計(jì)算其權(quán)值并排序，提取前面若干個(gè)作為第一階段提取的文本特征，第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量，a>l ；第二個(gè)階段對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量，以判斷某個(gè)文本特征在新、舊文本中的重要程度；采用公式(I)和(2)分別逐一計(jì)算a *K個(gè)文本特征t在新、舊文本中的分布；wSMe (t，Csame) =f (t，Csame) *n (t，Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中，Csame和Cdif分別表示訓(xùn)練文本中的新、舊文本，f(t, Csame)和f (t，Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù)，n(t，CsaJ和n(t，Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù)，N(Csanie)和N(Cdif)分別為新、舊文本中的文本總數(shù)，Wsanre (t，CsaJ和wdif (t，Cdif)分別表示文本特征t在新、舊文本中的分布。再根據(jù)上述公式(I)和公式(2)的計(jì)算結(jié)果，逐一代入公式(3)，計(jì)算文本特征t的權(quán)值 max {wsame(t，Csame)，Wdif (t，Cdif)} /min {wsame (t，Csame)，Wdif (t，Cdif)} (3)將這a *K個(gè)文本特征按權(quán)重排序，選取權(quán)重最小的K個(gè)文本特征；所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。將文本轉(zhuǎn)化為計(jì)算機(jī)可讀編碼形式；對(duì)已經(jīng)結(jié)構(gòu)化表示的文本進(jìn)行分類。所述a取值為2。與現(xiàn)有技術(shù)相比，本發(fā)明的文本特征提取方法能夠提高大大文本分類的準(zhǔn)確率，并且使用該文本特征提取方法的面向遷移學(xué)習(xí)的文本處理方法能夠使提取到的特征既不過(guò)于傾向舊文本，也不單純從少量的新文本中獲得，從而提高文本分類的準(zhǔn)確性。

圖I為現(xiàn)有技術(shù)的文本分類流程示意圖；圖2為本發(fā)明的改進(jìn)的文本特征提取算法流程圖。
具體實(shí)施例方式以下結(jié)合附圖及較佳實(shí)施例，對(duì)依據(jù)本發(fā)明提供的具體實(shí)施方式
、結(jié)構(gòu)、文本特征及其功效，詳細(xì)說(shuō)明如下。
如圖2所示，為本發(fā)明提出的文本特征提取算法流程圖，將提取文本特征的過(guò)程分為兩個(gè)階段.在第一個(gè)階段中，針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取，這些訓(xùn)練文本中，既包括少量新文本也包括大量舊文本，新文本來(lái)源于目標(biāo)領(lǐng)域(即文本處理關(guān)心的領(lǐng)域)，舊文本可能來(lái)源于其它領(lǐng)域，這些文本都經(jīng)過(guò)了標(biāo)注。在第一階段提取的文本特征，說(shuō)明它們適合在一個(gè)更高層面更大范圍的領(lǐng)域(既包括新文本領(lǐng)域也包括舊文本領(lǐng)域)中用于表示文本，包含的領(lǐng)域信息較多，對(duì)文本的區(qū)分度較高。經(jīng)過(guò)第一階段的文本特征提取過(guò)程，將其中包含領(lǐng)域信息較少，對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉了。在第一個(gè)提取文本特征的階段，采用某種傳統(tǒng)的文本特征提取方法即可。例如采用信息增益(IG, Information Gain)方法計(jì)算文本特征的權(quán)值,文本特征t的IG值可定義為-X/U；)log/U；) + A/)l；/U； I /)log/U； i,) + /仍: 17)log/tr!7)
IG(t)= 7=1/=1/=1公式(4)公式(4)中，P(Ci)為文本類別Ci包含文本數(shù)與文本總數(shù)的比值，P (t)為包含文本特征t的文本數(shù)與文本總數(shù)的比值，P (Ci |t)為出現(xiàn)文本特征t時(shí)文本屬于Ci的概率，巧7)為不含文本特征t的文本數(shù)與文本總數(shù)的比值，7)為不出現(xiàn)文本特征t時(shí)文本屬于Ci的概率。對(duì)訓(xùn)練文本中包含的所有候選文本特征，計(jì)算其權(quán)值(例如IG值)并排序，選取前面若干個(gè)作為第一階段提取的文本特征。第一階段提取的文本特征數(shù)量應(yīng)該大于最終期望得到的數(shù)量，如果希望最終提取到K個(gè)文本特征，就需要在第一階段提取出a *K個(gè)文本特征(a >1，具體取值可以根據(jù)試驗(yàn)情況進(jìn)行調(diào)整)。在第二個(gè)階段，要考慮哪些文本特征更適合表示新文本。在第二階段提取文本特征時(shí)，并不能單獨(dú)考慮那些在訓(xùn)練文本中的新文本中出現(xiàn)頻繁、密集的文本特征，因?yàn)楹芸赡苓@些文本特征只反映了新文本很小的一個(gè)方面，同時(shí)，也不能將第一階段的所有文本特征直接用于文本的表示，因?yàn)橛?xùn)練文本中舊文本在數(shù)量上占了大部分，這些文本特征偏向于表示舊文本的內(nèi)容。在第二個(gè)階段，應(yīng)當(dāng)從第一階段提取的a*K個(gè)文本特征中，選取那些在新、舊文本內(nèi)分布相似的文本特征，這里說(shuō)的分布是指文本特征在文本中出現(xiàn)的疏密程度。在新、舊文本中分布類似，說(shuō)明這些文本特征不僅能很好的表示舊文本的文本，也能很好的表示新文本的文本。有了這樣的判斷標(biāo)準(zhǔn)，就需要對(duì)文本特征在新、舊文本中的分布做一個(gè)度量。要用這個(gè)度量去判斷某個(gè)文本特征在新、舊文本中的重要程度，同時(shí)，這個(gè)度量的計(jì)算量要盡可能的小，因?yàn)樵诖蠖鄶?shù)情況下，未經(jīng)提取的文本特征高達(dá)上萬(wàn)維。本發(fā)明采用公式(2)和
(3)計(jì)算文本特征t在新、舊文本中的分布。wSMe (t，Csame) =f (t，Csame) *n (t，Csame) /N (Csame) (I)wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 )其中，Csame和Cdif分別表示訓(xùn)練文本中的新、舊文本，f(t, Csame)和f (t，Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù)，n(t，CsaJ和n(t，Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù)，N(Csanie)和N(Cdif)分別為新、舊文本中的文本總數(shù)，Wsanre (t，CsaJ和wdif (t，Cdif)分別表示文本特征t在新、舊文本中的分布。公式(I)和(2)中，Wsame (t, Csame)或wdif(t, Cdif)的值越大,就說(shuō)明文本特征t在Csaffle或Cdif中越重要。最終要保留的文本特征就是那些在新、舊文本中分布相似的文本特征，分布相似就是要求對(duì)于一個(gè)文本特征項(xiàng)t而言，Wsame (t，CsaiJ與wdif(t，cdif)的值要盡可能的接近。本發(fā)明采用公式(3)計(jì)算文本特征t的最終的權(quán)值，這個(gè)權(quán)值越接近1，文本特征t在新、舊文本中的分布就越相似。
max {wsame(t，Csame)，Wdif (t，Cdif)} /min {wsame (t，Csame)，Wdif (t, Cdif)} (3)在文本特征提取的第二階段，把從第一階段提取的a *K個(gè)文本特征，逐一根據(jù)公式(2)和(3)計(jì)算文本特征的分布，根據(jù)公式(4)計(jì)算文本特征的權(quán)值。將這a*K個(gè)文本特征按權(quán)重排序，選取權(quán)重最小的K個(gè)文本特征。這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。本發(fā)明提出的特征提取方法，通過(guò)第一階段特征提取，過(guò)濾掉那些包含領(lǐng)域信息少、文本區(qū)分度不高的特征。隨著a的不斷變大，越來(lái)越多的特征被提取出來(lái)，進(jìn)入第二階段提取。在第二階段特征提取中，關(guān)注的是特征在新文本與舊文本中分布的相似性，分布越一致，計(jì)算得到的權(quán)重就越高，在特征排序中也就越靠前。但隨著a繼續(xù)變大，很多包含領(lǐng)域信息少、文本區(qū)分度不高的特征通過(guò)了第一階段提取，并由于在新舊文本中分布一致，在最終的排序中獲得了較高的分?jǐn)?shù)，這些特征并不利于文本表示，將影響分類的效果，導(dǎo)致分類的準(zhǔn)確率變低。實(shí)驗(yàn)表明當(dāng)a取到2時(shí)，得到了分類正確率的最大值。按照上述文本特征提取算法的流程，來(lái)說(shuō)明本發(fā)明的文本特征提取方法在計(jì)算機(jī)文本處理方法中的應(yīng)用。I)獲取訓(xùn)練文本集。訓(xùn)練文本的好壞直接關(guān)系到最終分類模型的好壞，因此在選取訓(xùn)練文本時(shí)應(yīng)該由相關(guān)領(lǐng)域的專家進(jìn)行挑選，以求獲得較高的質(zhì)量，或是使用那些研究者使用較多的公開(kāi)文本集。2)信息的預(yù)處理。I)中的研究所采用的文本大多取自于現(xiàn)實(shí)生活，而這樣的文本經(jīng)常還包含很多研究者并不關(guān)心的內(nèi)容，如Web文檔中插入的廣告，某些無(wú)用的HTML標(biāo)記，等等。因此在進(jìn)行文本的文本特征提取前必須對(duì)文本進(jìn)行預(yù)處理。預(yù)處理的工作包括去除噪聲文本，去除停用詞，對(duì)英文文本進(jìn)行詞根還原。對(duì)中文文本而言，還有一項(xiàng)關(guān)鍵的工作一分詞。因?yàn)樵谥形睦?，句子中最基本的元素是字而不是詞，詞與詞之間不像英文中那樣有固定的分隔符，為了進(jìn)行文本特征提取，還需要對(duì)中文文本進(jìn)行分詞，分詞不僅要為詞與詞之間加上分隔符，還要對(duì)詞語(yǔ)進(jìn)行詞性的標(biāo)注?，F(xiàn)在已經(jīng)有很多不錯(cuò)的中文分詞工具，如中科院的ICTCLAS，開(kāi)源的IKAnalyzer，都能很好的滿足一般用戶的需求。3)文本特征提取。提取訓(xùn)練文本中的某些詞語(yǔ)作為文本的文本特征，可以采用本發(fā)明所提出的文本特征提取算法。4)文本表示。文本一般都采用自然語(yǔ)言描述，計(jì)算機(jī)不可能理解其含義。因此需要將文本轉(zhuǎn)化為計(jì)算機(jī)可以理解的形式，文本特征提取已經(jīng)為這一過(guò)程打下了基礎(chǔ)。目前向量空間模型(VSM)是應(yīng)用較多、效果較好的方法。5)選擇文本分類方法。對(duì)已經(jīng)結(jié)構(gòu)化表示的文本進(jìn)行分類?？梢圆捎眠w移學(xué)習(xí)的方法，現(xiàn)在常用的方法有AdaBoost算法，TrAdaBoost算法等。6)性能評(píng)估。目前使用較多的評(píng)估指標(biāo)有準(zhǔn)確率，召回率，宏平均準(zhǔn)確率和宏平均召回率。用戶采用以上文本分類流程，在遷移學(xué)習(xí)中使用本發(fā)明提出的文本特征提取算法，能夠提高文本分類的準(zhǔn)確率和召回率。本發(fā)明提出的特征提取方法，適用于文本內(nèi)容不斷變化，采用遷移學(xué)習(xí)的方法進(jìn)行文本分類的場(chǎng)合。由于人工標(biāo)注的代價(jià)大，訓(xùn)練文本中只能有少量新文本，訓(xùn)練文本中需要保留大量的舊文本。本發(fā)明提出的特征提取方法，考慮到了訓(xùn)練本文偏斜、新舊文本不同分布的現(xiàn)實(shí)情況，能夠更好地表示文本文本。在應(yīng)用遷移學(xué)習(xí)的方法解決文本分類問(wèn)題時(shí)，在文本特征提取環(huán)節(jié)應(yīng)用本發(fā)明的算法，能夠使提取到的特征既不過(guò)于傾向舊文本，也不單純從少量的新文本中獲得，從而提高文本分類的準(zhǔn)確性。
權(quán)利要求
1.一種面向遷移學(xué)習(xí)的文本特征提取方法，其特征在于，該方法包括以下步驟第一個(gè)階段針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取，得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本，其中新文本來(lái)源于目標(biāo)領(lǐng)域，舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域，經(jīng)過(guò)第一階段的文本特征提取過(guò)程，將其中包含領(lǐng)域信息較少，對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉；對(duì)訓(xùn)練文本中包含的所有候選文本特征，計(jì)算其權(quán)值并排序，提取前面若干個(gè)作為第一階段提取的文本特征，第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量，a>l ；第二個(gè)階段對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量，以判斷某個(gè)文本特征在新、舊文本中的重要程度；采用公式(I)和(2)分別逐一計(jì)算a*K個(gè)文本特征t在新、舊文本中的分布； wSame，Csame) =f (t, Csame)*n(t, Csame)/N(Csame) (I) Wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 ) 其中，Cs■和Cdif分別表示訓(xùn)練文本中的新、舊文本，f(t，Csame)和f(t，Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù)，n(t，CsaJ和n(t，Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù)，N(Csame)和N(Cdif)分別為新、舊文本中的文本總數(shù)，Wsanre(t，Csame)和wdif (t, Cdif)分別表示文本特征t在新、舊文本中的分布。
再根據(jù)上述公式(2)和公式(3)的計(jì)算結(jié)果，逐一代入公式(3)，計(jì)算文本特征t的權(quán)值 max {wsaae (t，Csame)，wdif (t，Cdif)} /min {wsame (t，Csame)，wdif (t，Cdif)} (3) 將這a *K個(gè)文本特征按權(quán)重排序，選取權(quán)重最小的K個(gè)文本特征；所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。
2.如權(quán)利要求I所述的面向遷移學(xué)習(xí)的文本特征提取方法，其特征在于，所述a取值為2。
3.一種面向遷移學(xué)習(xí)的文本處理方法，其特征在于，該方法包括以下步驟建立訓(xùn)練文本集；信息的預(yù)處理，包括去除噪聲文本，去除停用詞，對(duì)英文文本進(jìn)行詞根還原。對(duì)中文文本進(jìn)行分詞處理為詞與詞之間加上分隔符，對(duì)詞語(yǔ)進(jìn)行詞性的標(biāo)注；文本特征提取。提取訓(xùn)練文本中的某些詞語(yǔ)作為文本的文本特征，具體操作為第一個(gè)階段針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取，得到候選文本特征訓(xùn)練文本中既包括少量新文本也包括大量舊文本，其中新文本來(lái)源于目標(biāo)領(lǐng)域，舊文本來(lái)源于目標(biāo)領(lǐng)域或者其它領(lǐng)域，經(jīng)過(guò)第一階段的文本特征提取過(guò)程，將其中包含領(lǐng)域信息較少，對(duì)文本區(qū)分度不高的文本特征過(guò)濾掉；對(duì)訓(xùn)練文本中包含的所有候選文本特征，計(jì)算其權(quán)值并排序，提取前面若干個(gè)作為第一階段提取的文本特征，第一階段提取的文本特征數(shù)量a *K個(gè)文本特征應(yīng)該大于最終期望得到的數(shù)量，a >1 ;第二個(gè)階段對(duì)從第一階段提取的a *K個(gè)文本特征t在新、舊文本中的分布進(jìn)行度量，以判斷某個(gè)文本特征在新、舊文本中的重要程度；采用公式(I)和(2)分別逐一計(jì)算a*K個(gè)文本特征t在新、舊文本中的分布； wSame，Csame) =f (t, Csame)*n(t, Csame)/N(Csame) (I) Wdif (t, Cdif) =f (t, Cdif) *n (t, Cdif) /N (Cdif) (2 ) 其中，Cs■和Cdif分別表示訓(xùn)練文本中的新、舊文本，f(t，Csame)和f(t，Cdif)分別表示文本特征t在新、舊文本中出現(xiàn)的次數(shù)，n(t，CsaJ和n(t，Cdif)分別表示新、舊文本中出現(xiàn)文本特征t的文本數(shù)，N(Csame)和N(Cdif)分別為新、舊文本中的文本總數(shù)，Wsanre(t，Csame)和wdif (t, Cdif)分別表示文本特征t在新、舊文本中的分布。
再根據(jù)上述公式(2)和公式(3)的計(jì)算結(jié)果，逐一代入公式(3)，計(jì)算文本特征t的權(quán)值 max {wsaae (t，Csame)，wdif (t，Cdif)} /min {wsame (t，Csame)，wdif (t，Cdif)} (3) 將這a *K個(gè)文本特征按權(quán)重排序，選取權(quán)重最小的K個(gè)文本特征；所得到的這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。
將文本轉(zhuǎn)化為計(jì)算機(jī)可讀編碼形式；對(duì)已經(jīng)結(jié)構(gòu)化表示的文本進(jìn)行分類。
4.如權(quán)利要求I所述的面向遷移學(xué)習(xí)的文本處理方法，其特征在于，所述a取值為2。
全文摘要
本發(fā)明公開(kāi)了一種面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法，其中的文本特征提權(quán)算法步驟為針對(duì)所有訓(xùn)練文本進(jìn)行文本特征的提取，得到候選文本特征，根據(jù)權(quán)值排序提取前面α*K個(gè)文本特征(α>1)，在文本特征提取的第二階段，把從第一階段提取的α*K個(gè)文本特征，逐一計(jì)算文本特征的分布，計(jì)算文本特征的權(quán)值。將這α*K個(gè)文本特征按權(quán)重排序，選取權(quán)重最小的K個(gè)文本特征文本征。這K個(gè)文本特征即按本發(fā)明方法提取的文本特征。與現(xiàn)有技術(shù)相比，本發(fā)明的文本特征提取方法能夠提高大大文本分類的準(zhǔn)確率，并且使用該文本特征提取方法的面向遷移學(xué)習(xí)的文本處理方法能夠使提取到的特征既不過(guò)于傾向舊文本，也不單純從少量的新文本中獲得，從而提高文本分類的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK102750338SQ20121018073
公開(kāi)日2012年10月24日申請(qǐng)日期2012年6月4日優(yōu)先權(quán)日2012年6月4日
發(fā)明者劉江, 張?jiān)捶? 李煒申請(qǐng)人:天津大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉江;張?jiān)捶?李煒
技術(shù)所有人：天津大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向遷移學(xué)習(xí)的文本處理方法及其文本特征提取方法