事件的評論數(shù);如果互聯(lián)網(wǎng)上網(wǎng)民對某一熱點事件的評論數(shù)量越多,也能夠說明 事件的評論數(shù)也是影響事件相關(guān)度的一個因素。
[0113] 本申請中對于每個文本,都會標注文本的報道時間(比如新聞報道時間,博客、微 博、論壇的發(fā)表時間)、文本的點擊次數(shù)、文本的評論數(shù)目,根據(jù)文本的報道時間可W確定聚 類后得到的事件的報道頻率、事件的持續(xù)時間;根據(jù)文本的點擊次數(shù)可W確定聚類后得到 的事件的閱讀量,根據(jù)文本的評論數(shù)目可W確定聚類后得到的事件的評論數(shù)
[0114] R。;表示事件i的報道頻率;
[0115] RTi;表示在預(yù)定的N天時間內(nèi),媒體對有關(guān)事件i的有效報道天數(shù)和所有天數(shù)的 比值,當一天內(nèi)關(guān)于事件i的報道數(shù)量大于某一個闊值時,我們即認定該天就為事件i的 有效報道天數(shù);
[0116] CNi;表示事件i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的點擊閱讀數(shù)量;
[0117] DNi;表示事件i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的評論數(shù);
[0118] 事件熱度計算公式:
[0119] 而=曰 1 ?RFi+ 曰 2 ?RTi+ 曰 3 ?CNi+ 曰 4 ?DN。
[0120] 而表示事件i的熱度,a1、a2、a3、a4為權(quán)重系數(shù),當Ri大于給定闊值R時,將事 件i確定為熱點事件。
[0121] 本發(fā)明對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)是分別獨立進行事件抽取 的,假設(shè)對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)所抽取的熱點事件集合分別為化OG、 M-BLOG、BBS、肥WS,計算化OG、M-BLOG、BBS、NEWS的交集,所得到的結(jié)果確定為第一熱點事 件集合,計算化〇6、1-811?、885、肥¥5其中每^個集合的交集,所得到的所有結(jié)果的和減去 第一熱點事件集合確定為第二熱點事件集合,計算化OG、M-BLOG、BBS、肥WS其中每二個集 合的交集,所得到的所有結(jié)果的和減去第一熱點事件集合W及第二熱點事件集合確定為第 ^熱點事件集合,集合化06、1-811?、885、肥胖5的和減去第一熱點事件集合、第二熱點事件 集合W及第=熱點事件集合的結(jié)果確定為第四熱點事件集合。
[0122] 由于博客、微博、論壇、新聞報道網(wǎng)頁所反映的關(guān)注點可能會有所差異,所W當博 客、微博、論壇、新聞報道網(wǎng)頁同時關(guān)注的內(nèi)容應(yīng)該是熱度最高的內(nèi)容,博客、微博、論壇、新 聞報道網(wǎng)頁中S個同時關(guān)注的內(nèi)容熱度次之,博客、微博、論壇、新聞報道網(wǎng)頁中二個同時 關(guān)注的內(nèi)容熱度又次之,博客、微博、論壇、新聞報道網(wǎng)頁中只有一個關(guān)注的內(nèi)容熱度相對 最低。
[0123] 步驟S600,突發(fā)事件抽取,對于步驟S500得到的每一熱點事件,確定事件所包含 的文檔數(shù)量是否大于給定闊值,如果大于給定闊值,則將所述事件確定為突發(fā)事件;
[0124] 一般突發(fā)事件的關(guān)注量要大于一般的熱點事件,比如漢川地震等,其在網(wǎng)絡(luò)上的 表現(xiàn)就是報道量、評論量等會顯著的高于一般熱點事件,因此,根據(jù)經(jīng)驗設(shè)定闊值,當某個 事件所包含的文檔量大于給定闊值,就可W認為該事件為突發(fā)事件。
[01巧]步驟S700,突發(fā)事件演化分析,對步驟S600中抽取的突發(fā)事件進行演化分析。
[01%] 對于事件所包含的文檔集合D= (di,d2,…心…},按照文檔發(fā)表的時間進行聚 類,該樣就得到了該事件不同時間點的所對應(yīng)的文檔數(shù)量,將聚類結(jié)果W坐標圖的形式展 示給用戶,坐標橫軸表示時間,坐標縱軸表示文檔數(shù)量,從中可W看出不同時間點對該事件 的關(guān)注度。
[0127] 本發(fā)明采用分布式的云計算方式,能夠?qū)Υ笠?guī)模采集的各種網(wǎng)絡(luò)數(shù)據(jù)進行挖掘、 分析;并通過對不同數(shù)據(jù)源數(shù)據(jù)分別進行計算分析,得到不同數(shù)據(jù)源的熱點事件,進而進一 步確定事件的熱度,從而能夠更加客觀的得到當前熱點事件。本發(fā)明為覺政機關(guān)、大型企業(yè) 等單位和組織及時發(fā)現(xiàn)網(wǎng)絡(luò)敏感信息、掌握網(wǎng)絡(luò)輿情熱點、把握網(wǎng)絡(luò)輿情趨勢、應(yīng)對網(wǎng)絡(luò)輿 情危機提供自動化、系統(tǒng)化和科學化的信息支持。有效提高了所述網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)判斷 的準確性,為網(wǎng)絡(luò)微信輿情信息的后續(xù)處理提供了更為真實、準確的基礎(chǔ)。
[0128] 本領(lǐng)域技術(shù)人員在考慮說明書及實踐該里公開的發(fā)明后,將容易想到本發(fā)明的其 它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,該些變型、用途或 者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本技術(shù)領(lǐng)域中的公知常識 或慣用技術(shù)手段。
[0129] 應(yīng)當理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并 且可W在不脫離其范圍進行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。
【主權(quán)項】
1. 一種基于大數(shù)據(jù)的突發(fā)事件演化分析方法,包括: 步驟S100,數(shù)據(jù)采集,基于分布式云計算方式對網(wǎng)絡(luò)數(shù)據(jù)進行數(shù)據(jù)采集,所述數(shù)據(jù)采集 是由網(wǎng)絡(luò)爬蟲來實現(xiàn)的;通過分布式存儲設(shè)備存儲采集的網(wǎng)絡(luò)數(shù)據(jù),所述分布式存儲設(shè)備 基于HDFS實現(xiàn); 步驟S200,數(shù)據(jù)預(yù)處理,對步驟SlOO采集的網(wǎng)絡(luò)數(shù)據(jù)進行預(yù)處理; 步驟S300,事件抽取,基于預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù),從中抽取出事件; 步驟S500,熱點事件抽取,從步驟S300中抽取的事件中再次抽取出熱點事件; 步驟S600,突發(fā)事件抽取,對于步驟S500得到的每一熱點事件,確定事件所包含的文 檔數(shù)量是否大于給定閾值,如果大于給定閾值,則將所述事件確定為突發(fā)事件。2. 如權(quán)利要求1所述的基于大數(shù)據(jù)的突發(fā)事件演化分析方法,其中,步驟S300包括: 對步驟S200預(yù)處理得到的文檔進行文檔聚類,將每天新來到的報道作一次局部聚類, 從而得出每天的局部事件,稱之為候選事件集合; 歸并聚類,將局部聚類之后產(chǎn)生的候選事件集合和以往的舊事件集合進行歸并,產(chǎn)生 最新的事件集合。3. 如權(quán)利要求1所述的基于大數(shù)據(jù)的突發(fā)事件演化分析方法,其中,步驟S500之前還 包括步驟S400 :事件情感分析,對于步驟S300所抽取的事件進行情感分析。4. 如權(quán)利要求3所述的基于大數(shù)據(jù)的突發(fā)事件演化分析方法,其中,步驟S400包括: (1) 抽取能夠表達用戶情感的情感詞; (2) 對所抽取的情感詞進行聚類,將所述情感詞聚合成多個情感類型; (3 )用E=G1,e2, . ..,ep. . .em>表示情感模型,其中ei表示一種情感類型,m表示該 情感模型中包含的元素的數(shù)目; (4 )對于每篇文檔d,定義d的情感向量為& = @,々,…,巧,…吁〉,其中,對于情感 模型E中的第i個元素,如果文檔d具備該情感類型ei,實際上就是文檔d包含屬于該情感 類型的情感詞,則相應(yīng)地Ed中第i個元素取值為1,否則取值為0 ; (5) D=W1,d2,…(Ii,…}表示事件所包含的文檔集合,(Ii表示一篇文檔,用該文檔的 發(fā)表時間來對該文檔進行標記,將給定時間段T劃分為A,t2,…,&,…tp個子時間段,將D 劃分成一系列不相交子集DU1),D(t2),…,D(tj,…D(tp),使得DUi)表示時間段、內(nèi)發(fā)表的文檔的集合; (6) 對D的每個子集D(t),時刻t的情感向量E(t)為t時刻內(nèi)發(fā)表的文檔的情感向量 的總和,即5. 如權(quán)利要求1所述的基于大數(shù)據(jù)的突發(fā)事件演化分析方法,還包括:步驟S700,突發(fā) 事件演化分析,對步驟S600中抽取的突發(fā)事件進行演化分析。6. 如權(quán)利要求5所述的基于大數(shù)據(jù)的突發(fā)事件演化分析方法,其中,步驟S700包括: 對于事件所包含的文檔集合D=W1,d2,…屯,…},按照文檔發(fā)表的時間進行聚類,這 樣就得到了該事件不同時間點的所對應(yīng)的文檔數(shù)量,將聚類結(jié)果以坐標圖的形式展示給用 戶,坐標橫軸表示時間,坐標縱軸表示文檔數(shù)量,從中可以看出不同時間點對該事件的關(guān)注 度。
【專利摘要】本發(fā)明提出了一種基于大數(shù)據(jù)的突發(fā)事件演化分析方法,包括:步驟S100,數(shù)據(jù)采集,基于分布式云計算方式對網(wǎng)絡(luò)數(shù)據(jù)進行數(shù)據(jù)采集;步驟S200,數(shù)據(jù)預(yù)處理;步驟S300,事件抽?。徊襟ES400,事件情感分析;步驟S500,熱點事件抽取;步驟S600,突發(fā)事件抽??;步驟S700,突發(fā)事件演化分析。本發(fā)明采用分布式的云計算方式,能夠?qū)Υ笠?guī)模采集的各種網(wǎng)絡(luò)數(shù)據(jù)進行挖掘、分析。
【IPC分類】G06F17/30
【公開號】CN104965930
【申請?zhí)枴緾N201510458947
【發(fā)明人】張鵬
【申請人】成都布林特信息技術(shù)有限公司
【公開日】2015年10月7日
【申請日】2015年7月30日