1.一種微博特征項(xiàng)提取方法,其特征在于,包括:
首先獲取的總聞News={D1,D2,...,Di},Di表示為所有新聞中的第i條新聞,第i條新聞中的所用詞語即可以表示Di={word1,word2,...,wordn}(i∈j+z);;
然后獲取其中一類中的所有不同詞AWm={word1word2,...,wordm},按上述公式得到每個(gè)文本中每個(gè)詞的詞頻
再計(jì)算不屬于那一類的所有詞的詞頻
接著用公式來計(jì)算一個(gè)類中所有詞的CHI值;
用公式來計(jì)算每個(gè)詞在每篇文本中所占權(quán)重即可得到每個(gè)詞的權(quán)重和其中,tij是代表了第i個(gè)文本中的第j個(gè)特征項(xiàng),tfij代表了特征項(xiàng)j出現(xiàn)在文本i的頻率,Wij代表了特征項(xiàng)tij的權(quán)重,log(N/nij+0.01)為逆文檔頻率,N是代表文檔的總數(shù),nij是代表包含了所有tij的文本數(shù)量;
再結(jié)合所述CHI值,根據(jù)公式重新給一個(gè)類的所有詞賦權(quán);
最后通過公式SWWm={WW1,WW2,...,WWm}計(jì)算一個(gè)類中每個(gè)詞語的權(quán)重。
2.根據(jù)權(quán)利要求1所述的微博特征項(xiàng)提取方法,其特征在于,
步驟所述用公式來計(jì)算每個(gè)詞在每篇文本中所占權(quán)重包括:
ε為文本i中包含的特征項(xiàng)tij和與特征項(xiàng)tij相似度大于γ的特征項(xiàng)的個(gè)數(shù)之和與特征項(xiàng)tij的個(gè)數(shù)的商,mij表示包含特征項(xiàng)tij或與特征項(xiàng)tij的相似度大于γ的特征項(xiàng)的文本個(gè)數(shù),γ是系統(tǒng)設(shè)定值。
3.根據(jù)權(quán)利要求1所述的微博特征項(xiàng)提取方法,其特征在于,
步驟所述通過公式SWWm={WW1,WW2,...,WWm}計(jì)算一個(gè)類中每個(gè)詞語的權(quán)重之后還包括輸出微博的分類結(jié)果。
4.根據(jù)權(quán)利要求1所述的微博特征項(xiàng)提取方法,其特征在于,
所述微博的開放平臺(tái)為API;
所述總聞使用網(wǎng)絡(luò)爬蟲技術(shù)獲取2015年3月—2015年4月的微博。
5.一種應(yīng)用于權(quán)利要求1至4中任一項(xiàng)所述的微博特征項(xiàng)提取方法的改進(jìn)TF-IDF歸一化方法,其特征在于,包括:
根據(jù)公式為特征項(xiàng)賦權(quán)。
來計(jì)算每個(gè)詞在每篇文本中所占權(quán)重即可得到每個(gè)詞的權(quán)重和其中,tij是代表了第i個(gè)文本中的第j個(gè)特征項(xiàng),tfij代表了特征項(xiàng)j出現(xiàn)在文本i的頻率,Wij代表了特征項(xiàng)tij的權(quán)重,log(N/nij+0.01)為逆文檔頻率,N是代表文檔的總數(shù),nij是代表包含了所有tij的文本數(shù)量;
ε為文本i中包含的特征項(xiàng)tij和與特征項(xiàng)tij相似度大于γ的特征項(xiàng)的個(gè)數(shù)之和與特征項(xiàng)tij的個(gè)數(shù)的商,mij表示包含特征項(xiàng)tij或與特征項(xiàng)tij的相似度大于γ的特征項(xiàng)的文本個(gè)數(shù),γ是系統(tǒng)設(shè)定值。