一種針對特定群體的微博熱點話題檢測方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種針對特定群體的微博熱點話題檢測方法及裝置,包括以下步驟:根據(jù)認證用戶與被認證用戶關(guān)注的用戶之間的關(guān)注關(guān)系對微博中的所有用戶進行社區(qū)分類;根據(jù)獲取的各個認證用戶及其關(guān)注的用戶發(fā)布的微博的內(nèi)容抽取話題,得到多個概要話題類;根據(jù)用戶社區(qū)和概要話題類構(gòu)建社區(qū)話題矩陣;將與微博文本矢量對應(yīng)的微博文本放到與微博文本矢量的余弦相似度最大的概要話題類中;選取社區(qū)話題矩陣中若干個矩陣元素數(shù)值最大的概要話題類分別進行聚簇分類,分別提取每個事件聚簇類的中心熱點事件,并將得到的中心熱點事件展示給對應(yīng)的用戶社區(qū)。本發(fā)明獲取熱點話題事件的多層次結(jié)果,最終通過微博來代表某個社區(qū)所感興趣的熱點事件。
【專利說明】一種針對特定群體的微博熱點話題檢測方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘的輿情態(tài)勢感知領(lǐng)域,特別涉及一種針對特定群體的微博熱點話題檢測方法及裝置。
【背景技術(shù)】
[0002]近年來,以微博為代表的社交網(wǎng)絡(luò)正在人們生活中扮演著越來越重要的角色,社交網(wǎng)絡(luò)的用戶的規(guī)模也迅速上升。而大量的用戶規(guī)模和由此產(chǎn)生的大量微博蘊含著豐富的輿情信息,這些輿情信息對捕捉當前社會熱點,跟蹤輿情導向和社會態(tài)勢具有十分重要的意義。因此,針對微博的熱點話題檢測技術(shù)成為了近年來的一個核心輿情研究點。由于微博文本具有長度較短(不超過140個中文字符),并且更新快,新詞多,流量巨大等特點,針對微博熱點話題的檢測仍然是一個研究難點。目前對微博熱點話題的檢測方法主要使用典型的分類算法進行相似度計算來進行話題的分類,并且是針對全網(wǎng)用戶挖掘的普遍意義上的熱點話題。雖然這類方法也能夠在一定程度上成功地進行微博熱點挖掘,但是他們無法解決以下二個問題:第一、挖掘的熱點話題不具有針對性,由于微博產(chǎn)生的輿情信息不僅僅具有文本內(nèi)容,還有明顯的用戶興趣分布,因此,特定的熱點話題只有指定其感興趣的特定用戶群體才有現(xiàn)實意義。而如何準確進行基于用戶興趣的社區(qū)分類并且在該基礎(chǔ)上進行用戶社區(qū)的興趣挖掘是進行針對特定群體的微博熱點話題檢測技術(shù)的重要基礎(chǔ)。第二、當前的熱點挖掘方法挖掘出的僅僅一些短語性的概要熱點話題,并不能充分反映當前的熱點事件。一個完整的熱點事件至少包含事件六要素,即時間,地點,人物,事件內(nèi)容,時間起因和事件發(fā)展過程。如果要完整地描述一個事件,至少需要以上六要素中的四個要素。并且當前的熱點話題的定義非常模糊,從一條短語到一個微博事件都可以理解成為熱點話題,因為,挖掘的結(jié)果形式也不統(tǒng)一。綜上所述,如何對特定的用戶群體挖掘具有明確事件意義的微博熱點話題成為最重要的研究內(nèi)容。
【發(fā)明內(nèi)容】
[0003]本發(fā)明所要解決的技術(shù)問題是提供一種能夠進行多層次熱點話題挖掘、并且針對不同用戶群體展示不同熱點話題的微博熱點話題檢測方法及裝置。
[0004]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種針對特定群體的微博熱點話題檢測方法,包括以下步驟:
[0005]步驟1:獲取微博上各領(lǐng)域中各個認證用戶所關(guān)注的用戶、認證用戶與被認證用戶關(guān)注的用戶之間的關(guān)注關(guān)系、及各個認證用戶及其關(guān)注的用戶發(fā)布的微博,根據(jù)認證用戶與被認證用戶關(guān)注的用戶之間的關(guān)注關(guān)系對微博中的所有用戶進行社區(qū)分類,得到多個用戶社區(qū);
[0006]步驟2:根據(jù)獲取的各個認證用戶及其關(guān)注的用戶發(fā)布的微博的內(nèi)容抽取話題,得到多個概要話題類,每個概要話題類由一組相關(guān)詞匯組成,將生成的概要話題類存儲于話題文件中;[0007]步驟3:根據(jù)用戶社區(qū)和概要話題類構(gòu)建社區(qū)話題矩陣,社區(qū)話題矩陣中的矩陣元素為反應(yīng)不同用戶社區(qū)對不同概要話題類的感興趣程度的數(shù)值;
[0008]步驟4:采集各個認證用戶及其關(guān)注的用戶在某一時間段內(nèi)發(fā)布的所有微博文本作為測試數(shù)據(jù)集,對測試數(shù)據(jù)集中的每條微博文本和概要話題類進行矢量處理,得到微博文本矢量和概要話題類矢量,對微博文本矢量和概要話題類矢量進行余弦相似度處理,將與微博文本矢量對應(yīng)的微博文本放到與微博文本矢量的余弦相似度最大的概要話題類中;
[0009]步驟5:選取社區(qū)話題矩陣中若干個矩陣元素數(shù)值最大的概要話題類,對該若干概要話題類中的所有微博文本分別進行聚簇分類,每個概要話題類中得到多個事件聚簇類,分別提取每個事件聚簇類的中心熱點事件,并將得到的中心熱點事件展示給對應(yīng)的用戶社區(qū)。
[0010]本發(fā)明的有益效果是:選取矩陣元素數(shù)值最大的前N個概要話題進行事件聚簇并且進行中心熱點事件的抽取保證了提供給相應(yīng)用戶社區(qū)的熱點事件符合社區(qū)用戶的興趣,并且通過使用具體的微博代表熱點話題賦予熱點話題更明確的事件意義。
[0011]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
[0012]進一步,所述步驟3中社區(qū)話題矩陣中的元素數(shù)值的計算方法具體為:
[0013]
【權(quán)利要求】
1.一種針對特定群體的微博熱點話題檢測方法,其特征在于,包括以下步驟: 步驟1:獲取微博上各領(lǐng)域中各個認證用戶所關(guān)注的用戶、認證用戶與被認證用戶關(guān)注的用戶之間的關(guān)注關(guān)系、及各個認證用戶及其關(guān)注的用戶發(fā)布的微博,根據(jù)認證用戶與被認證用戶關(guān)注的用戶之間的關(guān)注關(guān)系對微博中的所有用戶進行社區(qū)分類,得到多個用戶社區(qū); 步驟2:根據(jù)獲取的各個認證用戶及其關(guān)注的用戶發(fā)布的微博的內(nèi)容抽取話題,得到多個概要話題類,每個概要話題類由一組相關(guān)詞匯組成,將生成的概要話題類存儲于話題文件中; 步驟3:根據(jù)用戶社區(qū)和概要話題類構(gòu)建社區(qū)話題矩陣,社區(qū)話題矩陣中的矩陣元素為反應(yīng)不同用戶社區(qū)對不同概要話題類的感興趣程度的數(shù)值; 步驟4:采集各個認證用戶及其關(guān)注的用戶在某一時間段內(nèi)發(fā)布的所有微博文本作為測試數(shù)據(jù)集,對測試數(shù)據(jù)集中的每條微博文本和概要話題類進行矢量處理,得到微博文本矢量和概要話題類矢量,對微博文本矢量和概要話題類矢量進行余弦相似度處理,將與微博文本矢量對應(yīng)的微博文本放到與微博文本矢量的余弦相似度最大的概要話題類中; 步驟5:選取社區(qū)話題矩陣中若干個矩陣元素數(shù)值最大的概要話題類,對該若干概要話題類中的所有微博文本分別進行聚簇分類,每個概要話題類中得到多個事件聚簇類,分別提取每個事件聚簇類的中心熱點事件,并將得到的中心熱點事件展示給對應(yīng)的用戶社區(qū)。
2.根據(jù)權(quán)利要求1所述的微博熱點話題檢測方法,其特征在于,所述步驟3中社區(qū)話題矩陣中的矩陣元素數(shù)值的計算方法具體為:
3.根據(jù)權(quán)利要求1所述的微博熱點話題檢測方法,其特征在于,所述步驟5中進行聚簇分類時采用的分類公式為:
4.根據(jù)權(quán)利要求1所述的微博熱點話題檢測方法,其特征在于,所述步驟5中提取每個事件聚簇類的中心熱點事件時采用的函數(shù)為:
Ti = (R^Ci) *Si;k*100 其中,Ti表示用來篩選中心熱點微博的分數(shù),Ri表示微博i的轉(zhuǎn)發(fā)數(shù)量,Ci表示微博i的評論數(shù)量,Siik表示微博i和話題k的余弦相似度。
5.一種針對特定群體的微博熱點話題檢測裝置,其特征在于:包括獲取分類模塊(I),抽取模塊(2),構(gòu)建模塊(3),余弦相似度分類模塊(4)和聚簇提取模塊(5); 獲取分類模塊(1),用于獲取微博上各領(lǐng)域中各個認證用戶所關(guān)注的用戶、認證用戶與被認證用戶關(guān)注的用戶之間的關(guān)注關(guān)系、及各個認證用戶及其關(guān)注的用戶發(fā)布的微博,根據(jù)認證用戶與被認證用戶關(guān)注的用戶之間的關(guān)注關(guān)系對微博中的所有用戶進行社區(qū)分類,得到多個用戶社區(qū); 抽取模塊(2),用于根據(jù)獲取分類模塊(I)獲取的各個認證用戶及其關(guān)注的用戶發(fā)布的微博的內(nèi)容抽取話題,得到多個概要話題類,每個概要話題類由一組相關(guān)詞匯組成,將生成的概要話題類存儲于話題文件中; 構(gòu)建模塊(3),用于根據(jù)獲取分類模塊(I)得到的用戶社區(qū)和抽取模塊(2)概要話題類構(gòu)建社區(qū)話題矩陣,社區(qū)話題矩陣中的矩陣元素為反應(yīng)不同用戶社區(qū)對不同概要話題類的感興趣程度的數(shù)值; 余弦相似度分類模塊(4),用于采集各個認證用戶及其關(guān)注的用戶在某一時間段內(nèi)發(fā)布的所有微博文本作為測試數(shù)據(jù)集,對測試數(shù)據(jù)集中的每條微博文本和概要話題類進行矢量處理,得到微博文本矢量和概要話題類矢量,對微博文本矢量和概要話題類矢量進行余弦相似度處理,將與微博文本矢量對應(yīng)的微博文本放到與微博文本矢量的余弦相似度最大的概要話題類中; 聚簇提取模塊(5),用于選取構(gòu)建模塊(3)構(gòu)建的社區(qū)話題矩陣中若干個矩陣元素數(shù)值最大的概要話題類,對該若干概要話題類中的由余弦相似度分類模塊(4)放入的所有微博文本分別進行聚簇分類,每個概要話題類中得到多個事件聚簇類,分別提取每個事件聚簇類的中心熱點事件,并將得 到的中心熱點事件展示給對應(yīng)的用戶社區(qū)。
6.根據(jù)權(quán)利要求5所述的微博熱點話題檢測裝置,其特征在于:所述構(gòu)建模塊(3)中社區(qū)話題矩陣中的矩陣元素數(shù)值的計算方法具體為:
7.根據(jù)權(quán)利要求5所述的微博熱點話題檢測裝置,其特征在于:所述聚簇提取模塊(5)中進行聚簇分類時采用的分類公式為:
8.根據(jù)權(quán)利要求5所述的微博熱點話題檢測裝置,其特征在于:所述聚簇提取模塊(5)中提取每個事件聚簇類的中心熱點事件時采用的函數(shù)為:
Ti = (R^Ci) *Si;k*100 其中,Ti表示用來篩選中心熱點微博的分數(shù),Ri表示微博i的轉(zhuǎn)發(fā)數(shù)量,Ci表示微博i的評論數(shù)量,Siik表示微博i和話題k的余弦相似度。
【文檔編號】G06F17/30GK103823890SQ201410085760
【公開日】2014年5月28日 申請日期:2014年3月10日 優(yōu)先權(quán)日:2014年3月10日
【發(fā)明者】譚郅聰, 張鵬, 翟立東, 杜躍進, 譚建龍, 郭莉 申請人:中國科學院信息工程研究所