本發(fā)明涉及文本信息技術(shù)領(lǐng)域,尤其涉及一種微博特征項(xiàng)提取方法。
背景技術(shù):
微博,即微博客的簡稱,是一個基于用戶關(guān)系的信息分享、傳播以及獲取平臺,用戶可以通過WEB,WAP以及各種客戶端組建個人社區(qū),以140字左右的文字更新信息,并實(shí)現(xiàn)即時分享。其具有發(fā)布信息快速,傳播速度快的特點(diǎn)。
微博技術(shù)的高速發(fā)展極大地促進(jìn)了人們的溝通和交流,為人類的文明和發(fā)展做出了巨大的貢獻(xiàn)。但信息爆炸式的增長帶來的消極影響日益凸現(xiàn)。特別是隨著各大微博網(wǎng)站的不斷普及等因素,網(wǎng)上所能提供的信息也在急劇增多,信息產(chǎn)生的速度遠(yuǎn)遠(yuǎn)超過人們對信息的利用能力。如何從海量的信息中過濾掉用戶不需要的,而快速定位用戶感興趣的信息,就成為了一個重要的問題。CHI統(tǒng)計(jì)方法是目前最好的特征選擇方法之一。與其他方法相比,分類效果好。大多數(shù)中文分類系統(tǒng)都采用這種方法,可是該方法仍然存在下面幾個缺點(diǎn):
(1)CHI統(tǒng)計(jì)方法只是由于考慮到了詞的文檔頻,然而并無顧及到特征的詞頻,因此極大的放大了低頻詞的作用。
(2)特征詞的CHI值是將特征詞對一個類別的CHI值與其余不同類別的卡方值做對比,CHI值很可能把對某一特定的類別的貢獻(xiàn)低而對其它的類的貢獻(xiàn)高的特征詞給選擇出來。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種微博特征項(xiàng)提取方法,改進(jìn)TF-IDF歸一化方法的同時還結(jié)合了CHI統(tǒng)計(jì)方法,故能從一定程度上提高話題檢測的準(zhǔn)確率和速度。
本發(fā)明提供了一種微博特征項(xiàng)提取方法包括:
首先獲取的總聞News={D1,D2,...,Di},
Di表示為所有新聞中的第i條新聞,第i條新聞中的所用詞語即可以表示Di={word1,word2,...,wordn}(i∈j+z);;
然后獲取其中一類中的所有不同詞
AWm={word1word2,...,wordm},按上述公式得到每個文本中每個詞的詞頻
再計(jì)算不屬于那一類的所有詞的詞頻
接著用公式來計(jì)算一個類中所有詞的CHI值;
用公式
來計(jì)算每個詞在每篇文本中所占權(quán)重即可得到每個詞的權(quán)重和
再結(jié)合所述CHI值,根據(jù)公式重新給一個類的所有詞賦權(quán);
最后通過公式SWWm={WW1,WW2,...,WWm}計(jì)算一個類中每個詞語的權(quán)重。
可選的,
步驟所述用公式來計(jì)算每個詞在每篇文本中所占權(quán)重包括:
ε為文本i中包含的特征項(xiàng)tij和與特征項(xiàng)tij相似度大于γ的特征項(xiàng)的個數(shù)之和與特征項(xiàng)tij的個數(shù)的商,mij表示包含特征項(xiàng)tij或與特征項(xiàng)tij的相似度大于γ的特征項(xiàng)的文本個數(shù),γ是系統(tǒng)設(shè)定值。
可選的,
步驟所述通過公式SWWm={WW1,WW2,...,WWm}計(jì)算一個類中每個詞語的權(quán)重之后還包括輸出微博的分類結(jié)果。
可選的,
所述微博的開放平臺為API;
所述總聞使用網(wǎng)絡(luò)爬蟲技術(shù)獲取2015年3月-2015年4月的微博。
本發(fā)明還提供了一種應(yīng)用于權(quán)利要求1至4中任一項(xiàng)所述的微博特征項(xiàng)提取方法的改進(jìn)TF-IDF歸一化方法,包括:
根據(jù)公式為特征項(xiàng)賦權(quán)。
來計(jì)算每個詞在每篇文本中所占權(quán)重即可得到每個詞的權(quán)重和其中,tij是代表了第i個文本中的第j個特征項(xiàng),tfij代表了特征項(xiàng)j出現(xiàn)在文本i的頻率,Wij代表了特征項(xiàng)tij的權(quán)重,log(N/nij+0.01)為逆文檔頻率,N是代表文檔的總數(shù),nij是代表包含了所有tij的文本數(shù)量;
ε為文本i中包含的特征項(xiàng)tij和與特征項(xiàng)tij相似度大于γ的特征項(xiàng)的個數(shù)之和與特征項(xiàng)tij的個數(shù)的商,mij表示包含特征項(xiàng)tij或與特征項(xiàng)tij的相似度大于γ的特征項(xiàng)的文本個數(shù),γ是系統(tǒng)設(shè)定值。
從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具體有以下優(yōu)點(diǎn):
本發(fā)明技術(shù)方案結(jié)合CHI方法和改進(jìn)TF-IDF歸一化方法的方法來提取特征項(xiàng),從而來降低空間向量的維數(shù)。由于考慮到了中文詞中存在一義多詞或一詞多義的緣故,對傳統(tǒng)的歸一化TF-IDF歸一化方法進(jìn)行了一些改進(jìn),即在計(jì)算詞的權(quán)重時結(jié)合了詞的語義。通過該歸一化方法來提取特征項(xiàng)不僅可以降低建空間向量時的維度,而且還可以減少話題的重復(fù)性,但在計(jì)算權(quán)重后容易忽略一些有利于分類的低頻詞,故在改進(jìn)TF-IDF歸一化方法的同時還結(jié)合了CHI統(tǒng)計(jì)方法,該方法可以發(fā)現(xiàn)一些有利于文本分類結(jié)果的低頻詞。故能從一定程度上提高話題檢測的準(zhǔn)確率和速度。
附圖說明
圖1為本發(fā)明中一種微博特征項(xiàng)提取方法實(shí)施例中權(quán)重結(jié)果對比仿真圖;
圖2為本發(fā)明中采用不同方法提取特征的SVM分類器性能比較;
圖3為為本發(fā)明中一種微博特征項(xiàng)提取方法流程圖。
具體實(shí)施方式
本發(fā)明提供了一種微博特征項(xiàng)提取方法,改進(jìn)TF-IDF歸一化方法的同時還結(jié)合了CHI統(tǒng)計(jì)方法,故能從一定程度上提高話題檢測的準(zhǔn)確率和速度。
CHI方法分類效果相對較好的結(jié)論提出結(jié)合傳統(tǒng)的互信息方法和CHI統(tǒng)計(jì)方法,使得查全率和查準(zhǔn)率都得到了明顯的提高。
CHI統(tǒng)計(jì)方法的思想是假設(shè)特征項(xiàng)w與類別c之間的關(guān)系是類似于具有一維自由度的χ2分布。w對于c的統(tǒng)計(jì)量可計(jì)算為:
其中,A代表的是包含了特征項(xiàng)w并且還是屬于類別c的文檔個數(shù),B則代表的是包含特征項(xiàng)w但它不是屬于類別c的文檔個數(shù),而C則是代表沒有特征項(xiàng)w可屬于類別c的文檔個數(shù),D代表既沒有特征項(xiàng)w也不屬于類別的文檔個數(shù),N則當(dāng)時所有的文檔個數(shù)。
該方法用來衡量類別c之間與類別c之間的關(guān)聯(lián)度。當(dāng)類別c和特征項(xiàng)w相互獨(dú)立時,有χ2(w,c)=0。而當(dāng)類別c和特征項(xiàng)w的關(guān)聯(lián)性越強(qiáng),χ2(w,c)的值就會越大,其價(jià)值越大,其識別信息量就越大。
在式(1)中表現(xiàn)為:AD-BC>0,說明類別和特征項(xiàng)是成正相關(guān)的,有特征項(xiàng)的出現(xiàn),則說明了該文檔很可能是屬于某一個類別的,所以此時的CHI值越大,則有這個特征項(xiàng)的文檔就越有可能是屬于某一個類別。相反,AD-BC<0,則說明類別和特征項(xiàng)是成負(fù)相關(guān)的,所以詞特征項(xiàng)的出現(xiàn)可以知道該文檔根本就不可能是屬于某一個類,則有,當(dāng)CHI值越大,含該特征項(xiàng)的文檔就越不可能是屬于某一個類的。
本發(fā)明提供了一種微博特征項(xiàng)提取方法原理包括:
首先獲取的總聞News={D1,D2,...,Di},Di表示為所有新聞中的第i條新聞,第i條新聞中的所用詞語即可以表示
Di={wora1,word2,...,wordn}(i∈j+z);;
然后獲取其中一類中的所有不同詞,
AWm={word1 word2,...,wordm},按上述公式得到每個文本中每個詞的詞頻
再計(jì)算不屬于那一類的所有詞的詞頻
接著用公式來計(jì)算一個類中所有詞的CHI值;
用公式
來計(jì)算每個詞在每篇文本中所占權(quán)重即可得到每個詞的權(quán)重和
再結(jié)合所述CHI值,根據(jù)公式重新給一個類的所有詞賦權(quán);
最后通過公式SWWm={WW1,WW2,...,WWm}計(jì)算一個類中每個詞語的權(quán)重。
需要說明的是,
是的改進(jìn),
其中,tij是代表了第i個文本中的第j個特征項(xiàng),tfij代表了特征項(xiàng)i出現(xiàn)在文本i的頻率,Wij代表了特征項(xiàng)tij的權(quán)重,log(N/nij+0.01)為逆文檔頻率,N是代表文檔的總數(shù),nij是代表包含了所有tij的文本數(shù)量;
ε為文本i中包含的特征項(xiàng)tij和與特征項(xiàng)tij相似度大于γ的特征項(xiàng)的個數(shù)之和與特征項(xiàng)tij的個數(shù)的商,mij表示包含特征項(xiàng)tij或與特征項(xiàng)tij的相似度大于γ的特征項(xiàng)的文本個數(shù),γ是系統(tǒng)設(shè)定值。因?yàn)槭褂媒Y(jié)合語義的相似度會使一個特征項(xiàng)所表達(dá)的語義分散到多個不同的特征項(xiàng)中進(jìn)行表達(dá),這會使得語義被分散,為了降低這種現(xiàn)象的影響,使用替代代替tfij。
通過公式SWWm={WW1,WW2,...,WWm}計(jì)算一個類中每個詞語的權(quán)重之后還包括輸出微博的分類結(jié)果,具體在后續(xù)實(shí)施例中進(jìn)行描述。
實(shí)驗(yàn)數(shù)據(jù)來自于微博開放平臺API,使用網(wǎng)絡(luò)爬蟲技術(shù)獲取2015年3月-2015年4月的微博,將每個微博文本的內(nèi)容當(dāng)成一個部分。利用結(jié)合CHI和改進(jìn)的TF-IDF算法的方法來提取特征項(xiàng)來減少微博文本的維度。電腦系統(tǒng)Window7,RAM 6G。軟件用Java編程,用MATLAB7.0實(shí)現(xiàn)結(jié)果的對比。
本發(fā)明還提供了一種改進(jìn)TF-IDF歸一化方法,包括:
具體為在原始TF-IDF算法中將公式
用公式來替換。
需要說明的是,ε為文本i中包含的特征項(xiàng)tij和與特征項(xiàng)tij相似度大于γ的特征項(xiàng)的個數(shù)之和與特征項(xiàng)tij的個數(shù)的商,mij表示包含特征項(xiàng)tij或與特征項(xiàng)tij的相似度大于γ的特征項(xiàng)的文本個數(shù),γ是系統(tǒng)設(shè)定值。因?yàn)槭褂媒Y(jié)合語義的相似度會使一個特征項(xiàng)所表達(dá)的語義分散到多個不同的特征項(xiàng)中進(jìn)行表達(dá),這會使得語義被分散,為了降低這種現(xiàn)象的影響,使用替代代替tfij。
本發(fā)明技術(shù)方案結(jié)合CHI方法和改進(jìn)TF-IDF歸一化方法的方法來提取特征項(xiàng),從而來降低空間向量的維數(shù)。由于考慮到了中文詞中存在一義多詞或一詞多義的緣故,對傳統(tǒng)的歸一化TF-IDF歸一化方法進(jìn)行了一些改進(jìn),即在計(jì)算詞的權(quán)重時結(jié)合了詞的語義。通過該歸一化方法來提取特征項(xiàng)不僅可以降低建空間向量時的維度,而且還可以減少話題的重復(fù)性,但在計(jì)算權(quán)重后容易忽略一些有利于分類的低頻詞,故在改進(jìn)TF-IDF歸一化方法的同時還結(jié)合了CHI統(tǒng)計(jì)方法,該方法可以發(fā)現(xiàn)一些有利于文本分類結(jié)果的低頻詞。故能從一定程度上提高話題檢測的準(zhǔn)確率和速度在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
下面以一個實(shí)際應(yīng)用中的例子進(jìn)行說明:
獲取2000條關(guān)于《太陽的后裔》的微博和2000條與《太陽的后裔》無關(guān)的微博。有NEWS={{Dx1,Dx2,...,Dxn},{Dx1,Dx2,...,Dxn}},SCN=NEWS。
將獲得微博數(shù)據(jù)使用ICTCLAS分詞系統(tǒng)進(jìn)行預(yù)處理,對中文微博信息進(jìn)行分詞和詞性標(biāo)注,然后去掉停用詞得到詞Wi={W1,W2,...,Wi}。把獲取的微博數(shù)據(jù)SCN分為兩類一類是《太陽的后裔》和另一類非《太陽的后裔》,取這兩類中的所有不同的詞即為Wp={{W1,W2,...,Wj},{W1,W2,...,Wk}}。再計(jì)算每個微博中每個詞的詞頻即為從SCN的一類中取得所有不同詞AWm={word1 word2,...,wordm}。
根據(jù)上述公式給所有不同詞來計(jì)算CHI值,再根據(jù)WFn結(jié)合上述公式給每條微博中的每個詞賦權(quán)。再按權(quán)重大小獲取每條微博中詞語權(quán)重排在前66.6%的詞。
在計(jì)算留下詞的所有權(quán)重之和得到WTIF={wtif1,wtif2,...,wtifm}。然后將得到的值正規(guī)化得到WEm={we1,we2,...,wem}。
據(jù)公式重新給詞賦權(quán)得到的NWm。根據(jù)權(quán)重大小留下前2/3的詞作為特征項(xiàng),經(jīng)過計(jì)算得每個類分別有1200,900,850,800,750個詞,特征項(xiàng)個數(shù)為1000,800,750個。
如下表格1是傳統(tǒng)的歸一化TF-IDF算法與改進(jìn)的TF-IDF算法對詞權(quán)重計(jì)算的結(jié)果。從圖1可以得出在改進(jìn)的TF-IDF算法下得到權(quán)重都比傳統(tǒng)的算法得到的值大,這是因?yàn)槲覀冊谟?jì)算的時候由于考慮到了詞語的語義,將近義詞歸在一起求值。因此改進(jìn)后的方法可以減少由詞的近義詞所引起的誤差。提高了計(jì)算的準(zhǔn)確性。
表格1兩種方法下計(jì)算的詞權(quán)重
做三組實(shí)驗(yàn),實(shí)驗(yàn)一:取1700條微博,850條關(guān)于《太陽的后裔》和850條與《太陽的后裔》無關(guān)的微博。實(shí)驗(yàn)二:取1800條微博,900條關(guān)于《太陽的后裔》和900條與《太陽的后裔》無關(guān)的微。實(shí)驗(yàn)三:取1900條微博,950條關(guān)于《太陽的后裔》和950條與《太陽的后裔》無關(guān)的微博。用CHI方法和提出的方法來進(jìn)行特征項(xiàng)的選擇。表2是3組實(shí)驗(yàn)數(shù)據(jù)的結(jié)果對比圖。根據(jù)文獻(xiàn)[8]微平均精確率(micro-averaging precision),被普遍的用于交叉驗(yàn)證的比較。這里它來比較不同的特征選擇算法的效果。圖2顯示的是SVM分類器分別采用CHI方法和基于結(jié)合CHI和改進(jìn)的TF-IDF算法的方法在微博數(shù)據(jù)集上的micro-P曲線。從圖2可知用不同方法分別獲取400,800,1200,1600個特征項(xiàng)時時SVM分類器的micro_P值中可以看出基于基于結(jié)合CHI和改進(jìn)TF-IDF算法的方法提取的特征項(xiàng)在一定程度上提高了查準(zhǔn)率。
表2三組實(shí)驗(yàn)數(shù)據(jù)的結(jié)果對比圖
以上所述實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。