欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于大數據的突發(fā)事件演化分析方法

文檔序號:9249330閱讀:897來源:國知局
一種基于大數據的突發(fā)事件演化分析方法
【技術領域】
[0001] 本發(fā)明設及數據處理領域,具體設及一種基于大數據的突發(fā)事件演化分析方法。
【背景技術】
[0002] 隨著Web2. 0技術的發(fā)展,互聯網發(fā)生翻天覆地的變化。互聯網由靜態(tài)網頁和信 息,轉變成為人人參與的"群體智慧"的展示平臺。通過博客、微博、BBS、SNS、新聞評論等, 網民可W自由發(fā)布自己的觀點想法和對任何事件進行評論。網絡給人們提供了前所未有的 開放、便捷的信息共享與發(fā)布平臺,越來越多的人通過網絡來表達自己的意見、想法、情緒 和態(tài)度,其中既包括對對事件的發(fā)展有著正面、積極作用的信息,也包括一些負面、消極的 信息。同時,網絡平臺的開放性、直接性和隱蔽性使得網絡輿論越來越重要地影響人們的意 識形態(tài)。因此,對大量輿情信息的及時有效監(jiān)控分析,對維護社會穩(wěn)定、促進國家發(fā)展具有 重要的現實意義。
[0003] 在日常生活中,突發(fā)事件頻繁發(fā)生,用戶越來越習慣于利用社交網絡(例如博客、 論壇、twitter,化cebook等)來發(fā)表自己的觀點和情感。然而,用戶對事件的情感并非保 持一成不變,而是隨著時間的變化或者事件的發(fā)展而不斷演化,逐漸變強或者變弱,甚至從 一種情感轉化到另一種情感。如何實時在線檢測用戶對突發(fā)事件的情感演化過程具有十分 重要的意義。對于企業(yè)而言,可W通過對消費者購買產品后情感的持續(xù)跟進,及時發(fā)現產品 的缺點及不足。對于社會和政府工作者而言,通過分析用戶對事件的情感變化情況,可對 突發(fā)事件及時做出回應,甚至預測事件的發(fā)展趨勢,從而快速發(fā)現不良苗頭,并進行合理引 導,將不良信息的影響程度降低到最小。
[0004] 此外,隨著移動互聯網、物聯網等應用的飛速發(fā)展,全球數據量出現了爆炸式增 長。數據量的飛速增長預示著現在已經進入了大數據時代。現有技術中對大數據的處理 采用基于化doop的平臺?;痙oop是一個開源分布式計算平臺,其核屯、包括皿FS化adoop DistributedFilesSystem,Hadoop分布式文件系統(tǒng))。皿FS的眾多優(yōu)點(主要包括高容 錯性、高伸縮性等)允許用戶將化doop部署在低廉的硬件上,搭建分布式集群,構成分布式 系統(tǒng)。皿ase化adoopDataBase,化doop數據庫)是建立在分布式文件系統(tǒng)皿FS之上的提 供高可靠性、高性能、列存儲、可伸縮、實時讀寫的分布式數據庫系統(tǒng),主要用來存儲非結構 化和半結構化的松散數據。

【發(fā)明內容】

[0005] 為解決現有技術中存在的問題,本發(fā)明提出一種基于大數據的突發(fā)事件演化分析 方法。
[0006] 本發(fā)明提出的一種基于大數據的突發(fā)事件演化分析方法,包括:
[0007] 步驟S100,數據采集,基于分布式云計算方式對網絡數據進行數據采集,所述數據 采集是由網絡爬蟲來實現的;通過分布式存儲設備存儲采集的網絡數據,所述分布式存儲 設備基于皿FS實現;
[000引步驟S200,數據預處理,對步驟SlOO采集的網絡數據進行預處理;
[0009] 步驟S300,事件抽取,基于預處理后的網絡數據,從中抽取出事件;
[0010] 步驟S500,熱點事件抽取,從步驟S300中抽取的事件中再次抽取出熱點事件;
[0011] 步驟S600,突發(fā)事件抽取,對于步驟S500得到的每一熱點事件,確定事件所包含 的文檔數量是否大于給定闊值,如果大于給定闊值,則將所述事件確定為突發(fā)事件。
[0012] 其中,步驟S300包括;
[0013] 對步驟S200預處理得到的文檔進行文檔聚類,將每天新來到的報道作一次局部 聚類,從而得出每天的局部事件,稱之為候選事件集合;
[0014] 歸并聚類,將局部聚類之后產生的候選事件集合和W往的舊事件集合進行歸并, 產生最新的事件集合。
[0015] 其中,步驟S500之前還包括步驟S400 ;事件情感分析,對于步驟S300所抽取的事 件進行情感分析。
[0016] 其中,步驟S400包括;
[0017] (1)抽取能夠表達用戶情感的情感詞;
[001引 (2)對所抽取的情感詞進行聚類,將所述情感詞聚合成多個情感類型;
[0019] (3)用E= <61,62, . . .,e。. . .e。〉表示情感模型,其中e;表示一種情感類型,m表 示該情感模型中包含的元素的數目;
[0020](4)對于每篇文檔d,定義d的情感向量為馬巧,巧,…,巧,...巧。),其中,對 于情感模型E中的第i個元素,如果文檔d具備該情感類型曰1,實際上就是文檔d包含屬于 該情感類型的情感詞,則相應地Ed中第i個元素取值為1,否則取值為0 ;
[002。 妨0= {A,d2,'''di,'''}表示事件所包含的文檔集合,中表示一篇文檔,用該文檔 的發(fā)表時間來對該文檔進行標記,將給定時間段T劃分為ti,t,,…,t?!璽p個子時間段,將D劃分成一系列不相交子集D(ti),D扣),…,D也),…D(tp),使得
[0022] D=\jD(t,.), i=\
[002引D(ti)表示時間段ti內發(fā)表的文檔的集合;
[0024]做對D的每個子集D(t),時刻t的情感向量E(t)為t時刻內發(fā)表的文檔的情感 向量的總和,即
[0025]
[0026] 所述的基于大數據的突發(fā)事件演化分析方法,還包括;步驟S700,突發(fā)事件演化 分析,對步驟S600中抽取的突發(fā)事件進行演化分析。
[0027] 其中,步驟S700包括;
[002引對于事件所包含的文檔集合D= (di,d2,…心…},按照文檔發(fā)表的時間進行聚 類,該樣就得到了該事件不同時間點的所對應的文檔數量,將聚類結果W坐標圖的形式展 示給用戶,坐標橫軸表示時間,坐標縱軸表示文檔數量,從中可W看出不同時間點對該事件 的關注度。
[0029] 本發(fā)明采用分布式的云計算方式,能夠對大規(guī)模采集的各種網絡數據進行挖掘、 分析;并通過對不同數據源數據分別進行計算分析,得到不同數據源的熱點話題,進而進一 步確定話題的熱度,從而能夠更加客觀的得到當前熱點話題。本發(fā)明為覺政機關、大型企業(yè) 等單位和組織及時發(fā)現網絡敏感信息、掌握網絡輿情熱點、把握網絡輿情趨勢、應對網絡輿 情危機提供自動化、系統(tǒng)化和科學化的信息支持。有效提高了所述網絡輿情監(jiān)測系統(tǒng)判斷 的準確性,為網絡微信輿情信息的后續(xù)處理提供了更為真實、準確的基礎。
【附圖說明】
[0030] 圖1為本發(fā)明基于大數據的突發(fā)事件演化分析方法的流程圖;
[0031] 圖2為基于圖的文本表示的示例圖。
【具體實施方式】
[0032] 下面將結合本發(fā)明的附圖,對本發(fā)明的技術方案進行清楚、完整地描述。該里將詳 細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述設及附圖時,除非另有表 示,不同附圖中的相同數字表示相同或相似的要素。W下示例性實施例中所描述的實施方 式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳 述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0033] 參見圖1,本發(fā)明提出的一種基于大數據的突發(fā)事件演化分析方法。
[0034] 步驟S100,數據采集
[0035] 基于分布式云計算方式對網絡數據進行數據采集,所述網絡數據包括博客、微博、 論壇、新聞報道網頁幾個類別的數據,并對所述網絡數據按照博客、微博、論壇、新聞報道網 頁幾個類別進行標注,并按所述類別分別存儲所述網絡數據;其中,新聞報道網頁是指騰訊 新聞、新浪新聞等口戶網站W及例如人民日報等新聞媒體網站所提供的報道新聞的網頁。
[0036] 所述數據采集是由網絡爬蟲來實現的。通過分布式存儲設備存儲采集的網絡數 據,所述分布式存儲設備基于皿FS實現。
[0037] 步驟S200,數據預處理,對步驟S100采集的網絡數據進行預處理,首先對采集的 網絡數據進行分詞和詞性標注處理;然后,根據停用詞列表,對分詞后的結果進行停用詞 過濾;最后得到用于表示文檔的特征項;
[003引經過預處理之后的詞匯量仍然巨大,所W仍需要進行第二個步驟,高質量詞匯提 取。文檔中的每一個特征項都隱含一個質量值,所謂質量值主要是基于特征項的詞頻特征, 反應特征項在文本中的貢獻度。質量越大,說明貢獻越大,可W留下用于文本聚類
當前第1頁1 2 3 4 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
临夏县| 乃东县| 株洲市| 克东县| 花莲市| 策勒县| 东城区| 河北省| 册亨县| 阆中市| 大新县| 海伦市| 景泰县| 九龙县| 赣榆县| 湄潭县| 晴隆县| 肥东县| 汉沽区| 福泉市| 峡江县| 河源市| 黑山县| 越西县| 疏勒县| 玛纳斯县| 靖西县| 屏边| 沂南县| 犍为县| 白朗县| 盐池县| 大足县| 南雄市| 漳浦县| 鹤庆县| 原阳县| 阳城县| 金沙县| 民权县| 红桥区|