一種基于文本挖掘的微博用戶興趣識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于文本挖掘的微博用戶興趣識(shí)別方法,屬于文本挖掘、自然語言處理領(lǐng)域,采集微博文本集的最新話題性微博文本數(shù)據(jù)和指定用戶微博文本數(shù)據(jù);將采集到的微博文本數(shù)據(jù)進(jìn)行規(guī)范化處理;將規(guī)范化處理后的話題性微博文本數(shù)據(jù)采用微博新詞識(shí)別方法,識(shí)別出最新微博新詞并更新新詞詞典;將規(guī)范化處理后的指定用戶微博文本數(shù)據(jù),利用新詞詞典的分詞方法進(jìn)行中文分詞,得到文本向量表示;對(duì)經(jīng)過文本向量表示的指定用戶微博文本數(shù)據(jù)進(jìn)行聚類,重組原始微博文本數(shù)據(jù);采用主題模型,提取新的文本集特征;給定主題詞典,基于新的文本集特征,計(jì)算每個(gè)主題詞典權(quán)重,獲得最終主題,作為微博用戶興趣識(shí)別,使特征提取的準(zhǔn)確性提高。
【專利說明】一種基于文本挖掘的微博用戶興趣識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]一種基于文本挖掘的微博用戶興趣識(shí)別方法,文本聚類——利用改進(jìn)的K-Means算法進(jìn)行短文本聚類,以及主題模型——利用VSM和LDA模型結(jié)合的方法進(jìn)行文本特征詞提取,屬于文本挖掘、自然語言處理、機(jī)器學(xué)習(xí)領(lǐng)域。
【背景技術(shù)】
[0002]文本特征提取是文本挖掘中關(guān)鍵環(huán)節(jié),根據(jù)提取出的特征計(jì)算文本間的相似度,應(yīng)用于文本分類、聚類等。微博的廣泛應(yīng)用,使得文本挖掘技術(shù)被廣泛應(yīng)用于微博文本中,通過分析微博文本,挖掘當(dāng)前的熱門話題、事件追蹤等。
[0003]主題模型應(yīng)用于文本特征提取具有比較理想的效果,它將文本看作是服從一定概率分布的主題集組成,每個(gè)主題又是由一定概率分布的詞項(xiàng)組成,將文本從“文本-詞”的二維空間擴(kuò)展到“文本-主題-詞”三維空間。主題模型可以有效的獲取文本的特征,并發(fā)現(xiàn)其潛在的語義,也就是主題。主題模型應(yīng)用于微博短文本中,由于短文本的主題不確切、數(shù)據(jù)稀疏,不能較準(zhǔn)確的發(fā)現(xiàn)微博短文本主題。
[0004]通過聚類算法將微博短文本集重新組合成新的長文本集,使得新文本集主題更加明確,數(shù)據(jù)稀疏性降低。K-Means聚類算法是典型的基于距離的聚類算法。工作原理為:隨機(jī)選擇K個(gè)樣本作為K個(gè)類別的中心,計(jì)算其它樣本到各個(gè)中心的距離,將樣本歸類到距離最短的中心所在的類。更新歸類后的每個(gè)類別的中心,迭代此步驟,直到兩次迭代的中心不再變化結(jié)束。
[0005]LDA(Latent Dirichlet Analysis,潛在狄利克雷模型)是主題模型中比較好的模型,它將文本看作是由一系列服從多項(xiàng)分布的主題組成,每個(gè)主題又是由一系列服從Dirichlet分布組成。LDA模型思想是根據(jù)概率分布抽樣:根據(jù)主題分布抽取一個(gè)主題,再根據(jù)此主題下的詞分布,抽取一個(gè)詞。迭代此步驟,直到抽取出文本中所有的詞,并得到最終結(jié)果:“文本-主題”概率矩陣和“主題-詞”概率矩陣。根據(jù)這兩個(gè)矩陣,提取原始文本的主題?;谖⒉┒涛谋镜奶匦?,改進(jìn)LDA模型,如MB-LDA模型,它綜合考慮了微博作者和文本的關(guān)聯(lián)關(guān)系,來輔助進(jìn)行微博的主題挖掘.采用吉布斯抽樣方法對(duì)模型進(jìn)行推導(dǎo),不僅能挖掘出微博的主題,還能挖掘出聯(lián)系人關(guān)注的主題。
[0006]中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。
[0007]N元切詞是指分詞得到的每個(gè)詞是由N個(gè)字組成,目前比較好的中文分詞系統(tǒng)如中科院的ICTCLAS分詞系統(tǒng),可以通過加入用戶給定的詞典來提高分詞效果。
[0008]文本表不是將將文本表不成為一個(gè)簡潔的、統(tǒng)一的、能夠被學(xué)習(xí)算法和分類器所識(shí)別的結(jié)構(gòu)化形式,文本表示模型中比較普遍使用的模型是空間向量模型,空間向量模型是指計(jì)算每個(gè)文本中的特征權(quán)值,每個(gè)文本都可以由特征向量唯一表示。其中特征向量的每個(gè)值通過計(jì)算TF-1DF值得到。
[0009]現(xiàn)有技術(shù)中的微博用戶興趣識(shí)別方法還存在許多不足之處,具體如下:
[0010]一、微博短文本特征提取,沒有將有效的新詞加入,導(dǎo)致得到的結(jié)果漏檢率偏高。[0011]二、已有的技術(shù)一般針對(duì)海量微博文本或?qū)⑽⒉┕δ芤脒M(jìn)行分析,挖掘熱門話題、事件等,而沒有合理的提出一種針對(duì)單個(gè)用戶的微博文本關(guān)聯(lián)用戶興趣的分析方法,而用戶的微博文本對(duì)于用戶興趣的識(shí)別是一個(gè)重要信息來源。
[0012]三、由于微博短文本的無結(jié)構(gòu)化、稀疏等特性,特征提取的準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0013]本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足之處提供一種基于文本挖掘的微博用戶興趣識(shí)別方法,可以通過某用戶發(fā)布的微博,直接觀察該用戶近期的興趣習(xí)慣。
[0014]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
[0015]一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,如下步驟:
[0016](I)采集微博文體集的最新話題性微博文本數(shù)據(jù)以及指定用戶微博文本數(shù)據(jù);
[0017](2)將采集到的話題性微博文本數(shù)據(jù)和指定用戶微博文本數(shù)據(jù)進(jìn)行規(guī)范化處理;
[0018](3)將規(guī)范化處理后的話題性微博文本數(shù)據(jù)采用微博新詞識(shí)別方法,識(shí)別出最新微博新詞,并更新新詞詞典;
[0019](4)將規(guī)范化處理后的指定用戶微博文本數(shù)據(jù),利用新詞詞典的分詞方法進(jìn)行中文分詞,計(jì)算中文分詞得到的每個(gè)詞項(xiàng)的TF-1DF值,得到文本向量表示;
[0020](5)對(duì)經(jīng)過文本向量表示的指定用戶微博文本數(shù)據(jù)進(jìn)行聚類,重組步驟⑴中的原始指定用戶微博文本數(shù)據(jù),得到新的文本集以及聚類數(shù)目;
[0021](6)采用LDA主題建模,提取聚類后得到的新的文本集特征詞;
[0022](7)給定主題詞典,基于新的文本集特征詞,計(jì)算每個(gè)主題詞典權(quán)重,獲得最終主題,作為微博用戶興趣識(shí)別。
[0023]作為優(yōu)選,步驟(3)中,所述微博新詞識(shí)別方法的步驟為:
[0024](31)采集規(guī)范化處理后的話題性微博文本數(shù)據(jù);
[0025](32)對(duì)話題性微博文本數(shù)據(jù)進(jìn)行預(yù)處理;
[0026](33)將預(yù)處理后的話題性微博文本數(shù)據(jù)進(jìn)行多元切詞;
[0027](34)將多元切詞進(jìn)行詞過濾,即對(duì)舊詞過濾、詞頻過濾、相鄰串過濾和互信息值過濾。
[0028]作為優(yōu)選,步驟(34)中,所述互信息值的計(jì)算是通過公
式:
【權(quán)利要求】
1.一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,如下步驟: (1)采集微博文體集的最新話題性微博文本數(shù)據(jù)以及指定用戶微博文本數(shù)據(jù); (2)將采集到的話題性微博文本數(shù)據(jù)和指定用戶微博文本數(shù)據(jù)進(jìn)行規(guī)范化處理; (3)將規(guī)范化處理后的話題性微博文本數(shù)據(jù)采用微博新詞識(shí)別方法,識(shí)別出最新微博新詞,并更新新詞詞典; (4)將規(guī)范化處理后的指定用戶微博文本數(shù)據(jù),利用新詞詞典的分詞方法進(jìn)行中文分詞,計(jì)算中文分詞得到的每個(gè)詞項(xiàng)的TF-1DF值,得到文本向量表示; (5)對(duì)經(jīng)過文本向量表示的指定用戶微博文本數(shù)據(jù)進(jìn)行聚類,重組步驟(1)中的原始指定用戶微博文本數(shù)據(jù),得到新的文本集以及聚類數(shù)目; (6)采用LDA主題建模,提取聚類后得到的新的文本集特征詞; (7)給定主題詞典,基于新的文本集特征詞,計(jì)算每個(gè)主題詞典權(quán)重,獲得最終主題,作為微博用戶興趣識(shí)別。
2.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,步驟(3)中,所述微博新詞識(shí)別方法的步驟為: (31)采集規(guī)范化處理后的話題性微博文本數(shù)據(jù); (32)對(duì)話題性微博文本數(shù)據(jù)進(jìn)行預(yù)處理; (33)將預(yù)處理后的話題性微博文本數(shù)據(jù)進(jìn)行多元切詞; (34)將多元切詞進(jìn)行詞過濾,即對(duì)舊詞過濾、詞頻過濾、相鄰串過濾和互信息值過濾。
3.根據(jù)權(quán)利要求2所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于, 步驟(34)中,所述互信息值的計(jì)算是通過公式:
4.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,步驟(5)中,所述聚類的步驟為: (51)將指定用戶微博文本數(shù)據(jù)轉(zhuǎn)化為V維的文本向量表示,V為N篇文本(指定用戶微博文本數(shù)據(jù))長度的平均值,通過初始中心給定方法選擇K個(gè)數(shù)據(jù)點(diǎn)作為K個(gè)聚類類別的中心; (52)利用歐式距離計(jì)算指定用戶微博文本數(shù)據(jù)中每個(gè)數(shù)據(jù)點(diǎn)與K個(gè)中心的距離,獲得聚類,記為:dij(i = I~N, j = I~K),其中,(Iij表示第i個(gè)數(shù)據(jù)點(diǎn)到第j個(gè)中心的距離,N為數(shù)據(jù)點(diǎn)個(gè)數(shù),i是第i個(gè)數(shù)據(jù)點(diǎn),j是第j個(gè)聚類中心的中心點(diǎn); (53)重新計(jì)算每個(gè)所獲聚類的聚類中心,選取.
5.根據(jù)權(quán)利要求4所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,步驟(51)中,所述初始中心給定方法步驟如下: (511)從N個(gè)數(shù)據(jù)點(diǎn)中,隨機(jī)選擇一個(gè)數(shù)據(jù)點(diǎn),記作center; (512)計(jì)算其它N-1個(gè)數(shù)據(jù)點(diǎn)到center的距離dis(center, m) (m = I~N),并累加所有的距離:sum {dis (center, m)};
(513)隨機(jī)選取值r = random (sum {dis (center, m)}),計(jì)算 r = r-dis (center, m),若r〈0,則m數(shù)據(jù)點(diǎn)記為中心點(diǎn),其中,random (sum {dis (center, m)})表示從0-sum{dis (center, m)}隨機(jī)選取一個(gè)值; (514)重復(fù)(511)和(512)兩個(gè)步驟,直到選出K個(gè)中心點(diǎn)。
6.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,步驟(6)中,提取新的文本集特征詞的步驟為: (61)根據(jù)聚類后得到的新的文本集,計(jì)算每篇新的文本集中詞的TF-1DF值,得到新的文本向量; (62)采用LDA模型對(duì)新的文本集建模,給定參數(shù)值并多次改變初始參數(shù)值,抽樣獲取“主題-詞”分布和“文檔-主題”分布; (63)采用最終特征詞提取方法,提取特征詞。
7.根據(jù)權(quán)利要求7所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,在步驟(63)中,最終特征詞提取方法的步驟如下: (631)針對(duì)新的文本集,從“文檔-主題”分布中,選擇一個(gè)權(quán)重最大的Topic作為關(guān)鍵主題 keyTopic ; (632)選擇keyTopic對(duì)應(yīng)的“主題-詞”分布; (633)從keyTopic對(duì)應(yīng)的詞分布中,獲取比重較大的前三個(gè)詞,若一個(gè)主題被多次提取,則保留被提取的次數(shù)keyCount ; (634)重復(fù)步驟(631)、(632)、(633),遍歷完新的文本集,得到所有的特征詞。
8.根據(jù)權(quán)利要求1或6所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,步驟(4)和步驟(61)中,所述TF-1DF值計(jì)算公式如下:
9.根據(jù)權(quán)利要求1所述的一種基于文本挖掘的微博用戶興趣識(shí)別方法,其特征在于,步驟(7)中,所述微博用戶興趣識(shí)別的步驟為:(71)給定S個(gè)主題詞典; (72)根據(jù)LDA模型對(duì)新的文本集建模提取出的特征詞,計(jì)算每個(gè)主題詞典包含的特征詞數(shù)目Ni (Ni為整數(shù)),若詞不匹配任何一個(gè)詞典,則標(biāo)記為額外類別; (73)每個(gè)特征詞都自帶一個(gè)權(quán)值,計(jì)算每個(gè)主題詞典的權(quán)重大小,計(jì)算公式如下:
【文檔編號(hào)】G06F17/30GK103942340SQ201410195244
【公開日】2014年7月23日 申請日期:2014年5月9日 優(yōu)先權(quán)日:2014年5月9日
【發(fā)明者】屈鴻, 王曉斌, 李 浩, 方正, 袁建 申請人:電子科技大學(xué)