微博熱點話題分析方法
【專利摘要】本發(fā)明公開了一種微博熱點話題分析方法,其包括以下步驟:微博采集模塊根據采集策略,使用網絡爬蟲與微博第三方api技術相結合的方式獲取微博數據;利用分詞處理技術從詞庫中調用關鍵詞和敏感詞,從微博文本數據中分析出關鍵詞和敏感詞;依據分析出的關鍵詞、敏感詞以及情感傾向詞對微博網頁文本數據進行過濾;熱點話題模塊通過聚類分析技術將##與[]符號之間括住的內容,標記為一個話題,以統(tǒng)計微博評論數;熱點人物模塊通過聚類分析技術以分析微博粉絲數量、評論數量;微博預警模塊從網絡微博中分析出與關鍵字和敏感詞有關的微博信息;分析統(tǒng)計模塊對系統(tǒng)中分析出的相關數據自動生成簡報。本發(fā)明提高了話題分析的準確性,提高了檢測效率。
【專利說明】微博熱點話題分析方法
【技術領域】
[0001]本發(fā)明涉及一種分析方法,特別是涉及一種微博熱點話題分析方法。。
【背景技術】
[0002]微博是一個基于用戶關系的信息分享、傳播以及獲取平臺,用戶可以通過WEB、WAP以及各種客戶端組件,以140字左右的文字更新信息,并實現即時分享。微博作為快速分享和傳播的網絡平臺,具有信息量龐大、信息分散多樣等特點。在國內,新浪微博和騰訊微博是最熱門的微博系統(tǒng),據公開數據,新浪有超過2億的注冊用戶,騰訊微博有超過3億的注冊用戶?;谖⒉┥缃痪W絡的輿情分析系統(tǒng)應當能聚集出微博言論中的熱門話題,并進行追蹤和分析,提供輿情預警的功能。目前,微博平臺上發(fā)現討論熱點的主要方式包括:基于詞頻的熱點話題發(fā)現方法和文本分類方法。其中,
詞頻統(tǒng)計是當前微博平臺上發(fā)現討論熱點的主要方式。該方法來源于傳統(tǒng)的了 tf-1df索引方法。在一定的時間范圍內,平臺對所有用戶發(fā)布的微博進行分詞、詞語篩選并建立倒排索引,之后將這些詞語按照頻率排序,頻率排序較高的詞語就成為微博上的熱點話題,用戶可以使用平臺提供的這些詞語,通過內部的反向索引在微博平臺上找到相關的微博條目。傳統(tǒng)的熱點詞語發(fā)現系統(tǒng)工作流程圖頻率統(tǒng)計方法簡單易行,在人工干預下具有較好的工作效率,目前在服務商中被廣泛采用。然而,頻率統(tǒng)計方法對于同義詞和一詞多義這兩種對其干擾很大的語義現象基本無法處理。單純基于詞語匹配的方法在文本匹配中存在著誤報或漏報結果這樣的現象。在微博平臺上,由于內容量大,用戶個性強,這使得基于文本匹配的熱點話題發(fā)現工作準確性不能得到很好的保證。另外,單獨的熱點詞語只能帶給用戶片面的信息,對于用戶來說更像是提供了一個信息索引而非信息本身。為了提高用戶體驗必須增加一定數量的人工篩選工作,減低了系統(tǒng)的效率;而且,針對日益升高的用戶個性化推薦需求的滿足,頻率統(tǒng)計方法幾乎不能給予有效的協(xié)助。
[0003]傳統(tǒng)的文本分類方法也可以應用在微博平臺上進行熱點信息篩選,目前被廣泛使用的自動分類器有貝葉斯分類器,基于實例的kNN分類器,以及支持向量機等。由于微博客用戶數量十分大,用戶關注的話題極為廣泛,用戶之間又存在著明顯的相互影響的關系,整個用戶網絡對熱點事件的捕捉是十分迅速的。如果能設計一種切合當前熱點事件的分類器,那么就能夠實時地檢測到這一類別的信息的變化趨勢。然而熱點事件和話題在其出現之前是未知的,因此問題轉變?yōu)榱藢σ恍┨囟ǖ?、敏感的話題的固定性監(jiān)測。分類器方法在針對特定話題的篩選上有著良好的效果,然而,由于微博上的文本內容分布范圍十分廣,這使得設計一個完備的詞典式分類器從而讓所有的信息都落在特定的類別中變得幾乎不可能。熱點話題發(fā)現需要迅速地捕捉到多個不同話題,一般的分類器難以勝任這樣的任務。另夕卜,由于新聞信息的突發(fā)性和不確定性,如果要完成對于微博上熱點信息變化趨勢的追蹤,必須花費不小的代價對分類器的結果進行監(jiān)測。
[0004]如上所述,傳統(tǒng)的微博熱點話題分析算法存在以下兩個方面的問題:
第一,傳統(tǒng)的微博熱點話題分析方法不關注搜索結果的詞語準確性——傳統(tǒng)方法受限于其本質上的割裂詞語之間相互聯系,因此對于同義詞和一詞多義這兩種對其干擾很大的現象基本無法處理,從而很大程度上影響了用戶體驗。由于人類在進行敘述時所采用的文字有很高的隨機性、不確定性,這使得用戶在面對海量信息進行查詢時經常被文本相近而內容實質上不相關的結果所困擾。微博熱點話題分析必須要考慮搜索結果的詞語準確性,搜索結果必須要考慮到相近詞匯的區(qū)別。
[0005]第二,傳統(tǒng)的微博熱點話題分析方法不關注搜索結果的實時性——熱點話題分析的結果的產生時間對結果排名沒有影響或者影響很小。然而,微博消息具有很強的實時性,是由微博用戶動態(tài)生成的,其內容往往涉及實時的消息和內容,因此微博熱點話題分析方法必須要考慮搜索結果的實時性,搜索結果的產生時間必須作為排名的依據。
[0006]然而,微博熱點話題分析方法相關領域的研究還比較有限,目前的研究工作主要集中在已知話題的被動數據采集,無法保證微博輿情發(fā)現的時效性。進行輿情分析、預警的工作經常需要大量網絡爬蟲采集回來的海量數據的讀入、寫出,傳統(tǒng)的文件存儲或者數據庫存儲已經滿足不了輿情分析工作的性能需求。
【發(fā)明內容】
[0007]本發(fā)明所要解決的技術問題是提供一種微博熱點話題分析方法,其解決上述技術問題。
[0008]本發(fā)明是通過下述技術方案來解決上述技術問題的:一種微博熱點話題分析方法,其特征在于,其包括以下步驟:
步驟一,微博采集模塊根據采集策略,使用網絡爬蟲與微博第三方api技術相結合的方式獲取微博數據;
步驟二,利用分詞處理技術從詞庫中調用關鍵詞和敏感詞,從微博文本數據中分析出關鍵詞和敏感詞;
步驟三,依據分析出的關鍵詞、敏感詞以及情感傾向詞對微博網頁文本數據進行過濾,存儲過濾記錄;
步驟四,熱點話題模塊通過聚類分析技術將##與[]符號之間括住的內容,標記為一個話題,以統(tǒng)計微博評論數和轉發(fā)次數等為依據,分析出當前的熱點話題,大大提高了話題分析的準確性;
步驟五,熱點人物模塊通過聚類分析技術以分析微博粉絲數量、評論數量,確定指定條件的熱點人物;
步驟六,微博預警模塊從網絡微博中分析出與關鍵字和敏感詞有關的微博信息,及時為用戶作出預警通知;
步驟七,分析統(tǒng)計模塊對系統(tǒng)中分析出的相關數據自動生成簡報,供用于分析使用。
[0009]優(yōu)選地,所述步驟一中采集的數據不僅僅包含國內的新浪和騰訊微博,還包含國外的twitter微博的數據。
[0010]優(yōu)選地,所述步驟二中的關鍵字除了國家相關法律法規(guī)所規(guī)定的敏感詞外,用戶自己定義關鍵詞和敏感詞。
[0011]優(yōu)選地,所述步驟四中對于感興趣的熱點話題不僅可以查看內容,還可以查看其來源以及傳播趨勢。
[0012]優(yōu)選地,所述步驟六中預警通知的發(fā)送通過郵箱、網站提示、手機途徑發(fā)送。
[0013]優(yōu)選地,所述步驟七中在分析完所需的信息之后,微博系統(tǒng)用戶通過微博賬號與系統(tǒng)綁定。
[0014]優(yōu)選地,所述微博熱點話題分析方法應用于微博預警系統(tǒng),微博預警系統(tǒng)包括微博采集模塊、微博分析模塊、微博服務模塊、微博數據倉庫。
[0015]本發(fā)明的積極進步效果在于:本發(fā)明提出基于時間判斷的廣度優(yōu)先網頁采集技術。通過在網頁采集流程中添加時間分析器,判斷一個將被采集的頁面中的時間是否均早于預設的時間點,從而決定是否對該頁面只進行廣度采集。該方法既避免了采集過早的無用信息,提高了采集效率,又保證了采集的覆蓋率。提出基于凝聚式層次聚類算法用于話題檢測。根據微博中用語靈活的特點,本發(fā)明用聚類分析模型分析出當前的熱點話題,大大提高了話題分析的準確性,提高了檢測效率,提高了話題檢測質量。提出一種微博預警系統(tǒng)實現微博信息監(jiān)控的方法,本發(fā)明通過微博數據采集技術對互聯網上的新浪、騰訊、twitter這三大微博系統(tǒng)進行數據采集,對獲取的海量數據進行分詞處理,敏感詞處理,文本聚類分析,分析出當前的熱點話題,使用戶能夠及時并且方便的瀏覽最新的微博熱點,追蹤微博來源,查看敏感微博,趨勢分析,并且對有危險情報的進行預警,最后可以自己定置所關心的內容顯示統(tǒng)計報表。本發(fā)明將網頁采集、文本分析和挖掘的技術應用于微博信息輿情分析,研究了網絡熱點話題的發(fā)現模型、實現了一個基于微博社交網絡的輿情分析系統(tǒng),滿足了當前微博輿情分析的需要,填補了一個重要輿情源挖掘的空白。
【專利附圖】
【附圖說明】
[0016]圖1為本發(fā)明微博熱點話題分析方法的流程圖。
【具體實施方式】
[0017]下面結合附圖給出本發(fā)明較佳實施例,以詳細說明本發(fā)明的技術方案。
[0018]如圖1所示,本發(fā)明微博熱點話題分析方法包括以下步驟:
步驟一,微博采集模塊根據采集策略,使用網絡爬蟲與微博第三方api技術相結合的方式獲取微博數據;
步驟二,利用分詞處理技術從詞庫中調用關鍵詞和敏感詞,從微博文本數據中分析出關鍵詞和敏感詞;
步驟三,依據分析出的關鍵詞、敏感詞以及情感傾向詞對微博網頁文本數據進行過濾,存儲過濾記錄;
步驟四,熱點話題模塊通過聚類分析技術將##與[]符號之間括住的內容,標記為一個話題,以統(tǒng)計微博評論數和轉發(fā)次數等為依據,分析出當前的熱點話題,大大提高了話題分析的準確性;
步驟五,熱點人物模塊通過聚類分析技術以分析微博粉絲數量、評論數量,確定指定條件的熱點人物;
步驟六,微博預警模塊從網絡微博中分析出與關鍵字和敏感詞有關的微博信息,及時為用戶作出預警通知;
步驟七,分析統(tǒng)計模塊對系統(tǒng)中分析出的相關數據自動生成簡報,供用于分析使用。
[0019]上述步驟一中采集的數據不僅僅包含國內的新浪和騰訊微博,還包含國外的twitter微博的數據。
[0020]上述步驟二中,關鍵字除了國家相關法律法規(guī)所規(guī)定的敏感詞外,用戶自己可以定義關鍵詞和敏感詞。
[0021]上述步驟四中對于感興趣的熱點話題不僅可以查看內容,還可以查看其來源以及傳播趨勢。
[0022]上述步驟六中預警通知的發(fā)送可以通過郵箱、網站提示、手機等多種途徑發(fā)送。
[0023]上述步驟七中在分析完所需的信息之后,微博系統(tǒng)用戶可以通過微博賬號與系統(tǒng)綁定,進行相類似于在新浪,騰訊,twitter微博上的一些操作,如關注,評論,發(fā)表微博等。
[0024]根據微博信息時效性強,信息更新和傳播速度快,用戶互動性強的特點,本發(fā)明設計了一種基于時間判斷的廣度優(yōu)先網頁采集技術。這種采集技術的核心思想包括兩個方面,一是通過微博客各個網頁之間的鏈接關系,從網頁中自動獲取鏈接信息,并根據鏈接自動獲取原始網頁,經過這樣不斷循環(huán),采集到整個微博客中的原始網頁;二是如果一個頁面信息時間均早于預設的時間則不進行深度采集,只通過這個頁面進行廣度采集。
[0025]本發(fā)明可應用于微博預警系統(tǒng),通過系統(tǒng)用戶接口設置為高校微博預警監(jiān)控系統(tǒng),監(jiān)控所有與該高校相關的微博信息,關注高校大學生的熱點話題,熱點人物,對高校相關的突發(fā)事件及時的進行跟蹤,對指定高校有負面影響的微博內容作出預警,維護高校的形象,提高教育質量,維護社會和諧穩(wěn)定。
[0026]本發(fā)明應用于的微博預警系統(tǒng)包括微博采集模塊、微博分析模塊、微博服務模塊、微博數據倉庫等模塊。
[0027](一)微博采集模塊:負責對互聯網上的新浪、騰訊、twitter這三大微博系統(tǒng)進行實時采集、跟蹤、監(jiān)控,微博采集模塊中的一項關鍵技術是智能信息采集技術,采用智能分布式協(xié)同爬蟲,可動態(tài)配置爬蟲服務器數量以及爬蟲數量,在不同的采集需求下動態(tài)增減使用在采集上的計算資源,通過網頁采集子系統(tǒng)中的爬蟲模塊在Internet上獲取微博信息,可對爬蟲模塊設置爬蟲的數量、抓取速度、起始URL、符合采集要求的URL的正則表達式、爬蟲線程終止條件等約束,來獲取相關的網頁信息,對獲取的網頁信息通過網頁清洗模塊清除廣告、圖片、版權說明等噪聲數據,萃取出相關網頁中的微博正文、鏈接地址、采集時間等數據。
[0028](二)微博分析模塊:將經過微博采集模塊得到的信息,經過微博分析模塊進行信息去重、傳播鏈分析、趨勢分析等獲取到有價值的微博情報,實時的分析出輿論熱點,把握微博情報的一些動向。微博分析模塊具體包括:
頁面過濾,可對微博網頁進行內容分析和過濾,自動去除無用信息,精確獲取目標內容主體信息;
傳播鏈分析,對某一個熱點話題的來源、轉載量、發(fā)布者等相關信息元素進行一段時間的跟蹤,并最終形成傳播鏈分析圖;
自動分類,根據用戶定義的關鍵詞規(guī)則,遍歷掃描微博內容,識別出關鍵詞所在的這些微博并自動分類標識,還可以根據樣本訓練得出分類特征向量空間模型,然后根據微博的特征向量實現對微博的自動分類標識;
多重聚類,采用多重聚類算法,對微博的內容進行多重聚類分析,對海量的微博信息進行智能化的分類處理;
熱點、關鍵詞發(fā)現,采用熱點權重計算模型來分析微博熱度,自動發(fā)現微博中的熱點詞匯,幫助用戶直觀地了解網絡熱點;
趨勢分析,對于微博引起的高關注度事件,可以及時掌握該微博的爆發(fā)點和事態(tài),提供不同時段的熱點事件;
傾向性分析,采用文本聚類和褒貶分析技術,對微博的網民評論進行聚類分析和褒貶分析,分析和歸納網民的主要觀點,并統(tǒng)計網民的褒貶傾向分布情況;
輿情研判,在以上分析功能的基礎上,進行來源分析、真?zhèn)畏治?、歸類分析、指向分析、矯正分析等,從整體上及時、全面了解和把握各種熱點與輿情動向,靈活應對各類社會突發(fā)事件與輿論危機。
[0029](三)微博服務模塊,是用戶能夠直觀體驗的,能夠清楚的了解到該微博預警系統(tǒng)的功能,通過用戶的操作更加具體、方便的了解整個微博的最新熱點,并且可以對自己關注的事項進行關鍵詞設置,關鍵詞搜索,及時獲取需要的一些信息。微博服務模塊具體包括:
監(jiān)控設置,可以通過關鍵詞設置,重點人物,關鍵人物設置,地區(qū)設置,重點監(jiān)控詞設置來監(jiān)控微博用戶的相關信息;
話題追蹤,微博系統(tǒng)根據從網絡獲取的微博分析出熱點話題;
熱點人物,微博系統(tǒng)根據從網絡獲取的微博分析出熱點人物;
突發(fā)事件,短時間內發(fā)生(24小時之內)的在網上引起很大反響的事件;
微博搜索,用戶可以對微博系統(tǒng)抓取的所有微博進行搜索,來獲取自己想要的微博數據;
統(tǒng)計分析,統(tǒng)計分析微博系統(tǒng)的相應模塊如:標注統(tǒng)計,標注報告,話題統(tǒng)計,話題報告,監(jiān)控詞統(tǒng)計,用戶行為統(tǒng)計;
微博預警,微博系統(tǒng)根據用戶設置的關鍵詞分析出微博,并在微博預警頁面顯示;
線上微博,微博系統(tǒng)用戶可以通過這個模塊進行相類似于在新浪,騰訊,twitter微博上的一些操作,如關注,評論,發(fā)表微博等。
[0030](四)微博數據倉庫,能夠存儲海量的非結構化的信息,并采用實時動態(tài)索引技術,數據的增加、刪除、修改時快速同步更新索引,無需重建整個索引以及局部重建索引,即數據變化后馬上能檢索出來,保證了信息搜索的實時性和有效性,滿足輿情應用的核心檢索需求。微博數據倉庫具體包括:
數據庫存儲服務,其能夠存儲海量的非結構化信息,并能夠隨時調取數據庫的信息; 數據索引服務,采用實時動態(tài)索引技術,保證了信息搜索的實時性和有效性。
[0031]本發(fā)明微博預警系統(tǒng)具體的功能如下:
(I)采集微博信息,對互聯網上的新浪、騰訊、twitter這三大微博系統(tǒng)進行數據采集,將采集的數據送至(2)環(huán)節(jié)進行分析。
[0032](2)微博分析,對采集來的信息進行信息去重、傳播鏈分析、趨勢分析等。提取出有效的情報數據,然后將這個情報數據傳送至(3)進行情報挖掘與分析。
[0033](3)情報挖掘,更近一步的對該情報進行信息挖掘,如目標的信息、動態(tài)的挖掘,然后將這些情報通過給(4)和(5)作進一步的處理。
[0034](4)微博服務,根據用戶的需求,通過界面顯示用戶需要得到的信息,用戶可使用的功能有監(jiān)控設置,話題追蹤,熱點人物,突發(fā)事件,微博搜索,統(tǒng)計分析,線上微博,微博預警等功能。
[0035](5)微博數據倉庫,將挖掘出的情報存儲在微博數據倉庫中,隨時等候用戶的搜索和使用,保證信息搜索的實時性和有效性。
[0036]本發(fā)明相對于現有技術的優(yōu)點和有益效果如下:微博采集模塊對互聯網上的新浪、騰訊、twitter這三大微博系統(tǒng)進行數據采集,然后將數據傳送至微博分析模塊進行信息去重、趨勢分析等。提取出有效的信息后,然后將這些情報通過界面顯示給用戶,用戶可使用的功能有監(jiān)控設置,話題追蹤,熱點人物,突發(fā)事件,微博搜索,統(tǒng)計分析,線上微博,微博預警等功能。用戶在界面的操作上更加的人性化,而且實現的功能很多,能全方位的對微博系統(tǒng)進行監(jiān)控,實時的反饋熱點話題,對于一些過激的言論進行追蹤和預警。本發(fā)明采用智能信息采集技術,智能分布式協(xié)同爬蟲,可動態(tài)配置爬蟲服務器數量以及爬蟲數量,在不同的采集需求下動態(tài)增減使用在采集上的計算資源。系統(tǒng)通過網頁采集子系統(tǒng)中的爬蟲模塊在Internet上獲取微博信息,可對爬蟲模塊設置爬蟲的數量、抓取速度、起始URL、符合采集要求的URL的正則表達式、爬蟲線程終止條件等約束,來獲取相關的網頁信息。對獲取的網頁,通過網頁清洗模塊清除網頁中的廣告、導航信息、圖片、版權說明等噪聲數據,萃取出相關網頁中的微博正文、鏈接地址、采集時間等數據,存儲在數據庫中。
[0037]對經微博搜索引擎采集到的每條微博數據進行如下操作:
步驟1-1)數據采集到的數據主要分兩類數據進行存儲,一類為用戶數據User,另一類為微博數據Tweet ;
步驟1-2)使用關系型數據庫存儲User和Tweet數據,供后續(xù)關聯查詢。
[0038]步驟2-1)使用中文分詞技術,對Tweet數據中的微博內容content進行分詞; 步驟2-2)使用全文檢索技術建立倒排索引,為數據分析做好查詢索引;
步驟2-3)對content字段建立索引的同時,提取content中由“#”號和“【】”號括住的內容tag ;
步驟2-4)并對該tag字段建立倒排索引;
步驟3-1)建立一個定時器程序,每隔I小時對Tweet數據進行查詢,統(tǒng)計出一小時內所有采集到的 tag 數據,查詢條件為 time=[now()_lh TO now() ]&facet.field=tag ;
步驟3-2)按照tag的數據量tag_count進行逆序排序,取出前100條tag ;
步驟4-1)遍歷中步驟3-2)取出的100條tag,使用中文分詞技術進行分詞,分詞后的每一項為term ;
步驟4-2)繼續(xù)查詢全文檢索服務器。當term小于3時,要求所有term都必須匹配,如果term大于3,則要求至少75%的term必須匹配。term數小于等于3,則查詢條件為(content=terml AND term2 AND term3) &time= [now () -24h TO now ()] ; term 數大與 3,則查詢條件應為(content= (terml AND term2 AND term3) OR (term4 OR term5...) &time= [now () -24h TO now ()];
步驟4-3)使用該方法,查詢出100條tag所對應當前的微博數據,然后按照此100條tag對應的微博數t_count進行逆序排序,就可以得出100條當天的熱點話題了。
[0039]本發(fā)明的優(yōu)點在于:通過聚類分析技術,提高了當前微博檢索結果的精確度。而且分析統(tǒng)計的計算的方法簡單高效,實時性有了顯著提高,可以及時的對微博系統(tǒng)進行全方位監(jiān)控,實時的反饋熱點話題,對于一些過激的言論進行智能追蹤和預警。
[0040]在一個實施例中,采集器可以周期性的對微博消息進行采集。但是周期性地對所有用戶進行采集,這使得采集器效率十分低下,因為微博用戶中很大一部分發(fā)帖周期較長,比如幾天才更新一次,如果當這部分用戶很多時,采集器對這部分用戶例如3分鐘采集一次將帶來效率的極大下降。
[0041]本領域的技術人員可以對本發(fā)明進行各種改型和改變。因此,本發(fā)明覆蓋了落入所附的權利要求書及其等同物的范圍內的各種改型和改變。
【權利要求】
1.一種微博熱點話題分析方法,其特征在于,所述微博熱點話題分析方法包括以下步驟: 步驟一,微博采集模塊根據采集策略,使用網絡爬蟲與微博第三方api技術相結合的方式獲取微博數據; 步驟二,利用分詞處理技術從詞庫中調用關鍵詞和敏感詞,從微博文本數據中分析出關鍵詞和敏感詞; 步驟三,依據分析出的關鍵詞、敏感詞以及情感傾向詞對微博網頁文本數據進行過濾,存儲過濾記錄; 步驟四,熱點話題模塊通過聚類分析技術將##與[]符號之間括住的內容,標記為一個話題,以統(tǒng)計微博評論數和轉發(fā)次數等為依據,分析出當前的熱點話題,大大提高了話題分析的準確性; 步驟五,熱點人物模塊通過聚類分析技術以分析微博粉絲數量、評論數量,確定指定條件的熱點人物; 步驟六,微博預警模塊從網絡微博中分析出與關鍵字和敏感詞有關的微博信息,及時為用戶作出預警通知; 步驟七,分析統(tǒng)計模塊對系統(tǒng)中分析出的相關數據自動生成簡報,供用于分析使用。
2.如權利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟一中采集的數據不僅僅包含國內的新浪和騰訊微博,還包含國外的twitter微博的數據。
3.如權利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟二中的關鍵字除了國家相關法律法規(guī)所規(guī)定的敏感詞外,用戶自己定義關鍵詞和敏感詞。
4.如權利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟四中對于感興趣的熱點話題不僅可以查看內容,還可以查看其來源以及傳播趨勢。
5.如權利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟六中預警通知的發(fā)送通過郵箱、網站提示、手機途徑發(fā)送。
6.如權利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述步驟七中在分析完所需的信息之后,微博系統(tǒng)用戶通過微博賬號與系統(tǒng)綁定。
7.如權利要求1所述的基于微博的突發(fā)事件分析方法,其特征在于,所述微博熱點話題分析方法應用于微博預警系統(tǒng),微博預警系統(tǒng)包括微博采集模塊、微博分析模塊、微博服務模塊、微博數據倉庫。
【文檔編號】G06F17/30GK104281607SQ201310284081
【公開日】2015年1月14日 申請日期:2013年7月8日 優(yōu)先權日:2013年7月8日
【發(fā)明者】肖江, 嚴時浪, 肖倫文 申請人:上海銳英軟件技術有限公司