專利名稱:一種基于社會網絡的網絡輿情行為分析方法
技術領域:
本發(fā)明涉及網絡信息處理技術領域,具體來講,涉及一種基于社會網絡的基于社 會網絡的網絡輿情行為分析方法。
背景技術:
網絡輿情是通過互聯網傳播的公眾對現實生活中某些熱點、焦點問題所持的有較 強影響力、傾向性的言論和觀點,主要通過BBS論壇、博客、新聞跟貼、轉貼等實現并加以強 化。由于互聯網具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點,越來越多的網民樂意 通過這種渠道來表達觀點、傳播思想。網絡輿情是一股強大的輿論力量,會反作用于熱點事 件并對社會發(fā)展和事態(tài)進程產生一定的影響。如果引導不善,負面的網絡輿情將對社會公 共安全形成較大威脅。對相關政府部門來說,如何準確的識別網絡輿情信息并加于及時監(jiān) 測和有效引導,對維護社會穩(wěn)定、促進國家發(fā)展具有重要的現實意義,也是構建和諧網絡的 應有內涵。因此,對網絡信息中的輿情信息進行及時準確的識別和對輿情事件緊急程度的 進行評估具有重要的意義,甚至可以被認為是網絡輿情監(jiān)控系統(tǒng)的核心。社會網絡分析是社會科學中的一個獨特視角,它是建立在如下假設基礎上的在 互動的單位之間存在的關系非常重要。自從人類學家Barnes在1954年首次使用“社會網 絡”理論來分析挪威某漁村的社會結構以來,社會網絡分析被視為是研究社會結構的最簡 單明朗、最具有說服力的研究視角之一。社會網絡分析在早期社會研究中僅限于微網研究, 即小群體內部結構和人際關系研究,目前已發(fā)展成大規(guī)模的宏網研究,從而使社會網絡分 析成為結構性與概念性較強理論研究的有力工具,并使微觀研究與宏觀研究有機地結合起 來。網絡輿情社會網絡是基于某個網絡輿情事件相關文檔集而建立的社會網絡模型。 在該社會網絡模型中每篇文檔為一個頂點,文檔與文檔之間的相似度達到一定閾值則在文 檔各自代表的頂點之間連一條邊,權重為文檔之間的相似度,該社會網絡模型為無向有權 圖。網絡輿情行為是網絡輿情事件的復雜性在網絡輿情社會網絡中的體現,通過分析該社 會網絡模型各個網絡參數隨時間的變化及網絡參數之間的對比可度量網絡輿情行為的變 化。網絡輿情社會網絡分析是研究網絡輿情的簡單明朗的研究視角之一,為分析網絡輿情 事件復雜性提供了有力工具,并使得通過分析網絡輿情行為來識別網絡輿情成為可能。目前已經有很多單位針對輿情監(jiān)控提出了一些不同的解決方案。谷尼國際軟件開發(fā)的Goonie互聯網輿情監(jiān)控系統(tǒng)通過對互聯網海量信息自動獲 取,自動聚類,主題檢測,專題聚焦,實現網絡輿情監(jiān)測和新聞專題追蹤,形成簡報、分析報 告等結果,為全面掌握輿情動態(tài)提供分析依據。該系統(tǒng)通過內容抽取識別,相似性去重等技 術,可以獲取網絡中的熱點話題和敏感話題,可以根據統(tǒng)計等策略,分析在不同時間內人們 對不同主題的關注程度,并預測事件的發(fā)展趨勢。北京拓爾思信息技術股份有限公司開發(fā)的TRS網絡輿情監(jiān)控系統(tǒng)采用多種技術, 實現對輿情信息的精準和全面采集,同時綜合運用大規(guī)模文檔智能挖掘技術,實現對海量輿情信息的準確、高效分析和管理。北大方正技術研究院開發(fā)的方正智思網絡輿情互聯網信息監(jiān)控分析系統(tǒng)整合互 聯網搜索技術及信息智能處理技術等,通過對網絡信息進行自動抓取,自動分類聚類,主題 檢測,專題聚焦等方法,實現網絡輿情監(jiān)控和新聞專題追蹤等功能。中科點擊開發(fā)的軍犬網絡輿情監(jiān)控系統(tǒng)使用強大的采集軟件,對數千網站進行監(jiān) 控,可以自動獲取輿情信息的熱度,并生成報表,同時可以獲取熱點主題的瀏覽量,回復數, 并跟蹤發(fā)帖人,對輿情信息進行管理,標注和分類,并根據重要性對輿情信息進一步篩選和 過濾o通過對上面幾個國內知名的輿情監(jiān)控系統(tǒng)的分析發(fā)現目前國內的輿情監(jiān)控系統(tǒng) 都將重點放在輿情的準確發(fā)現和分類歸類方面,而對于如何刻畫某個輿情事件中的輿情行 為和分析輿情行為的變化并沒有做深入的研究。這些監(jiān)控系統(tǒng)對于輿情的發(fā)現可能會有很 好的效果,因此適合給有關機構提供分析和咨詢,但是由于其側重于從文字內容方面發(fā)現 和分類輿情,不能刻畫某個輿情事件中的輿情行為和分析輿情行為的變化,如何及時準確 地刻畫網絡輿情行為和分析網絡輿情行為的變化成為一個亟待解決的問題。
發(fā)明內容
本發(fā)明的目的在于克服上述現有技術的不足,提供一種能及時準確地了解網絡輿 論的基于社會網絡的網絡輿情行為分析方法。為實現本發(fā)明目的,本發(fā)明的基于社會網絡的網絡輿情行為分析方法,包括以下 步驟(1)、從互聯網中采集網頁文本并對其預處理,得到的文檔存放到網頁信息數據 庫;(2)、對網頁信息數據庫中的文檔進行聚類;(3)、基于網頁信息數據庫中同一類別相關文檔之間的關系建立待分析的網絡輿 情事件社會網絡;(4)、計算網絡輿情事件社會網絡參數隨時間變化過程的數據并繪制網絡參數曲 線.線。(5)、從網絡參數曲線中切取出網絡輿情事件的主爆發(fā)周期;(6)、基于網絡輿情行為特征庫和主爆發(fā)周期的參數曲線進行網絡輿情識別和網 絡輿情事件緊急程度評估;(7)、輸出結果;進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟1中,通過網絡爬蟲從互聯 網中采集網頁文本;通過信息提取單元對網頁文本進行解析預處理,獲取的標題、正文和發(fā) 布時間信息組裝成文檔存放到網頁信息數據庫。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟2中,所述的對信息數據庫 中的文檔進行聚類,具體做法是步驟201計算文檔之間的相似度,根據如下公式
其中X,Y為文檔,Xi2,Yi2分別對應的X,Y的特征向量??紤]到每一個文檔代表的 是一個類,每個類可能大小不同,那么它們所代表的權重也應該相應做出調整,調整的過程 通過步驟202實現。步驟202計算文檔之間的吸引力,根據如下公式 其中F代表文檔之間的吸引力,m、M分別代表參與運算的兩個文檔所代表的類的 總帖子數,r為文檔之間相似度的倒數。這樣就能夠求出所有文檔與其它的文檔的相似度。為了方便后續(xù)的計算,采用步 驟203對結果進行標準化,得到兩點之間的距離R。步驟203首先計算所有吸引力的均值ave。對于所有低于ave的吸引力R = 0,所
有高于ave的值利用如下公式進行計算處理 這樣處理之后,能夠保證,所有的距離R的值都為0到1之間,并且吸引力越大,距 離出來的值就越小,文檔就越相似。在得到了兩點之間的距離之后就可以構造網絡了。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟3中,所述的建立待分析的 網絡輿情事件社會網絡,具體做法是步驟301在構造網絡之前,首先需要對文檔按照時間序列化,為了消除隨機波動,
對每天的文檔進行滑動平均 其中隊代表第i天的文檔數步驟302網絡中,每一個節(jié)點代表一個文檔,如果兩點之間的距離大于0,那么兩 點之存在一條邊(無向邊),并且邊的權值為兩點之間的距離。遍歷每個節(jié)點直至完成網絡 構建。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的網絡參數指的 是自定義的網絡參數,定義如下網絡參數1 節(jié)點數量,反應當前時間網絡上新增了多少關于所分析的事件的帖子。網絡參數2 網絡直徑,反應當前時間網絡上新增帖子所構成的網絡中,兩點之前 最短路徑的最大值。
網絡參數3 網絡密度,反應當前時間網絡上新增帖子所構成的網絡中,實際存在 的邊與同等節(jié)點數量的完全圖中的邊的比。網絡參數4:簇系數,又稱作聚集系數,它衡量的是隨機網絡的集團化程度,是隨 機網絡的一個重要參數。隨機圖中的結點的簇系數以描述的是隨機網絡中與該結點直接相 連的結點之間的連接關系,即與該結點直接相鄰的結點間實際存在的邊數目占最大可能存 在的邊數的比例。網絡參數5 結構熵,熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否穩(wěn) 定以及其變化的方向,熵越大,系統(tǒng)能量分布越均勻。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的計算網絡輿情 事件社會網絡參數隨時間變化過程的數據,具體做法是步驟401計算網絡密度網絡密度是當前節(jié)點間存在的邊數于同等數目節(jié)點的完 全圖中的邊的比值。網絡密度越大,說明網絡中內容相似的節(jié)點越多。網絡密度采用以下 公式計算 其中ND為網絡密度,n為節(jié)點數,S為實際的邊數。步驟402計算網絡直徑反應當前時間,網絡上新增帖子所構成的網絡中,兩點之 間最短路徑的最大值。網絡直徑的實際意義反應的是相關新聞中內容差距最大的兩篇文檔 之間的“距離”。步驟403計算簇系數又稱作聚集系數,它衡量的是隨機網絡的集團化程度,是隨 機網絡的一個重要參數。隨機圖中的結點的簇系數以描述的是隨機網絡中與該結點直接相 連的結點之間的連接關系,即與該結點直接相鄰的結點間實際存在的邊數目占最大可能存 在的邊數的比例。簇系數根據以下公式進行計算 其中表示節(jié)點的度數,e,表示結點的鄰結點之間實際存在的邊數,隨機網絡的 簇系數C為所有結點簇系數的算術平均值,即 步驟404計算結構熵熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否
穩(wěn)定以及其變化的方向,熵越大,系統(tǒng)能量分布越均勻。定義T時刻傳播網絡的結構熵為 進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟4中,所述的繪制網絡參數 曲線,做法是分別計算搜集各個參數在某個時間段內的數據,繪制成相應的數據曲線。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟5中,所述的從網絡參數曲 線中切取出網絡輿情事件的主爆發(fā)周期,目的是為了區(qū)分出不同的帖子數爆發(fā)周期,從而對每一個周期進行單獨分析,該步驟為圖1中的步驟ST5,具體流程圖為圖2。具體步驟如 下步驟501遍歷原始曲線,保留那些明顯的轉折點,用直線把這些轉折點連起來形 成折線圖;選擇這些轉折點的做法是開始和結尾的點首先被選為關鍵點,然后從一個關鍵 點開始,嘗試用直線連接它和它后面的每一個點,直到中間有點與這條直線的距離超過給 定的值d時,那個超出范圍的點就被認為是一個新的關鍵點。接下來從這個新的關鍵點開 始,重復上面的過程,直到曲線最后一個點。步驟502在折線圖上尋找每個周期開始和結束的位置,在折線圖上遍歷可以避免 無關起伏的干擾;步驟5021確認周期的開始判斷標準當一段直線的斜率超過人為給定的閾值L時就判定周期開始。步驟5022確認周期的結束判斷標準周期開始后,滿足下列兩個條件之一就判斷周期結束條件一.趨勢的起伏在一個給定的標準范圍d內,即選擇轉折點時給定的d,針對 具體情況可以適當調整,并且這種平穩(wěn)已經至少持續(xù)了一個給定的時間跨度minT,同時曲 線的當前高度不應該高于周期開始時的2倍;條件二 .周期的長度已經超過了給定的最大限度maxT。步驟503根據步驟5. 22得到的周期的開始和結束位置切取周期。后續(xù)的分析全是基于該步得到的周期進行的分析。如果得到多個周期,則分析整 個曲線最大值所在的周期;如果存在多個最大值差別不大的周期,則使用結構熵判斷主要 爆發(fā)周期。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的網絡輿情為滿 足如下兩個條件的網絡事件條件一.參與討論的新聞或者帖子數激增。條件二 .參與討論的人發(fā)表的獨立的觀點。所表現出來的網絡行為是帖子或者報道的新聞數量激增,同時網絡密度下降,即 網絡密度變化與帖子數量變化負相關。如果存在大量的帖子,但是都是通過轉載的形式出現的話。那么表現在網絡密度 的形式,網絡密度不變或者增加,這種情況明顯不屬于輿情,所以利用帖子數和網絡密度兩 個條件來定義是否是輿情。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的網絡輿情事件 緊急程度指的是自定義的緊急程度,定義如下紅色輿情是指參與討論的帖子內容基本一致,并且負面意見居多,反政府,反社 會,或者帶有極端煽動性,甚至有可能引起更大規(guī)模的反動輿論浪潮的輿情。這類輿情危害 性最大,需要立即處理。橙色輿情是指有大量的帖子參與討論的輿情事件,且內容差距比較大,并且很有 可能多次爆發(fā)的輿情。這類輿情由于沒有形成統(tǒng)一的負面意見,所以危害性要小于紅色輿 情。但是由于很可能再次爆發(fā),無法控制有可能向紅色輿情轉變,所以需要引導,從而將輿論引向正軌。黃色輿情是指有大量帖子參與,但是沒有形成統(tǒng)一負面意見,有可能再次爆發(fā)輿 情,但是可能性相對小于橙色輿情。所以危害性要小于橙色輿情,但是依然需要關注。綠色輿情是指有大量民眾參與,但是形成了統(tǒng)一的正面意見,或者對事件的討論 進入尾聲,很難再度爆發(fā)的輿情。這類輿情危害性很小。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的網絡輿情行為 特征庫指的是通過大量的網絡輿情事件觀察和實驗總結出來的四個網絡參數規(guī)則,這些規(guī) 則可用來對網絡輿情事件進行分類和識別,具體參數規(guī)則內容是參數規(guī)則1.網絡密度、通過觀察爆發(fā)階段網絡密度的值來判斷事件的屬性。當網 絡密度范圍為a) 0-0. 2之間稱為廣泛討論事件。對應的實際情況是,大量的帖子或者新聞,從各 個不同的角度討論整個事件,說明時間引起了廣泛的關注和討論。b)0. 2-0. 5之間稱為平衡事件。對應實際情況是對事件的討論比較集中,雖然存 在各個不同的版本,但是內容上比較一致。c)0. 5以上,稱為內容統(tǒng)一事件。對應的實際情況是對事件的討論趨于統(tǒng)一。如 果結合觀點分析,當觀點為正時,為綠色輿情事件;當觀點為負時,為紅色輿情事件。參數規(guī)則2.網絡直徑、通過觀察爆發(fā)階段網絡直徑的變化可以判斷出時間的部 分屬性。網絡直徑對應的實際意義是當前的左右帖子中,相關的帖子里內容區(qū)別最大兩個 帖子。在爆發(fā)階段,網絡直徑有兩種情況a)維持穩(wěn)定對于維持穩(wěn)定的情況,稱為能量釋放完全事件。也就是說,沒有新的 內容出現,那么之后,不容易出現再次爆發(fā)的情況。b)發(fā)生波動對于出現波動的情況,稱為能量不完全釋放事件。也就是說,繼續(xù)出 現新觀點,或者舊觀點的消亡。那么之后容易出現再次爆發(fā)的情況。參數規(guī)則3.簇系數、簇系數反應的是“抱團”的程度,在爆發(fā)期間,簇系數的變化 分為兩種情況a)維持穩(wěn)定,說明事件內部沒有出現觀點傾向性的變化。b)發(fā)生增長,說明抱團程度加劇,證明事件內部觀點開始發(fā)生集中。參數規(guī)則4.結構熵、結構熵反應的是度分布的問穩(wěn)定程度。結構熵越高,說明能 量分布越均衡。在多次爆發(fā)的事件中,如果帖子數量在波峰都差不多,可以利用結構熵來判 斷主爆發(fā)。結構熵最高的波峰,為主爆發(fā)。進一步,為使本發(fā)明獲得更好的發(fā)明效果,在上述步驟6中,所述的基于網絡輿情 行為特征庫和主爆發(fā)周期的參數曲線進行網絡輿情識別和網絡輿情事件緊急程度評估,該 步驟為圖1中的步驟ST6,具體流程圖為圖3,具體做法如下步驟601 考察帖子數量爆發(fā)時網絡密度的變化情況,a)網絡密度變化趨勢與帖子數量變化趨勢正相關,那么定義為非輿情事件,并且 結束分析。b)網絡密度變化趨勢與帖子數量變化趨勢負相關,那么定義為輿情事件,并且進 入步驟602分析。步驟602 結合網絡輿情行為特征庫分析網絡密度;
步驟6021 考察爆發(fā)期網絡密度的值,a)網絡密度的值小于0. 2,屬于廣泛討論事件,需要結合網絡參數進一步分析。b)網密度值高于0.5,定義為內容統(tǒng)一事件,結合觀點分析,如果觀點分析為負。 那么定義為紅色輿情事件,如果觀點分析為正,定義為綠色輿情事件。c)網絡密度介于0. 2-0. 5那么進入步驟603分析。步驟6022 當判斷該事件為廣泛討論事件的時候,就根據爆發(fā)期間網絡直徑和簇 系數的變化來區(qū)分輿情的緊急程度。a)網絡直徑和簇系數不發(fā)生明顯變化,那么認為該事件討論范圍和討論的集群不 再發(fā)生變化,可以理解為事件進入到發(fā)展階段的末期,定義為黃色輿情事件。b)網絡直徑和簇系數發(fā)生了明顯的變化,可以認為事件發(fā)展并沒有進入到末期, 仍需要重點關注,定義為橙色輿情事件。步驟603 首先區(qū)分是否是多次爆發(fā)的輿情,如果是多次爆發(fā)的輿情,利用結構熵 找到主爆發(fā),結構熵最大的一個爆發(fā)區(qū)間為主爆發(fā)區(qū)間;如果是單次爆發(fā)時間跳過這一步。 直接進入步驟604。步驟604 根據爆發(fā)期間網絡直徑和簇系數的變化來區(qū)分輿情的緊急程度。a)網絡直徑和簇系數不發(fā)生明顯變化,認為該事件討論范圍和討論的集群不再發(fā) 生變化,可以理解為事件進入到發(fā)展階段的末期,不再會發(fā)生大幅的波動或者下一輪的爆 發(fā)。定義為綠色輿情b)網絡直徑發(fā)生變化,簇系數沒有發(fā)生明顯變化,認為,該時間的討論范圍在繼續(xù) 變化,那么事件發(fā)展還沒有進入末期,之后又可能再次爆發(fā)。定義為黃色輿情。c)網絡直徑和簇系數都發(fā)生了明顯的變化,說明事件的討論范圍和觀點集群都在 發(fā)生變化,那么認為該事件極有可能再度爆發(fā)。定義為橙色輿情。本發(fā)明提出了一種基于社會網絡的網絡輿情行為分析方法,首先基于網絡新聞或 者帖子之間的相似度建立起一個社會網絡,然后通過分析社會網絡參數隨時間的變化,以 及參數之間的對比,自動的實現網絡輿情的識別和網絡輿情事件緊急程度的評估,使得政 府能夠更有效的監(jiān)控和管理網絡輿論。本發(fā)明通過網絡輿情行為分析的方式不但可以有效 地發(fā)現網絡中的輿情信息,還可以對網絡輿情事件的緊急程度評估進行有效的評估,彌補 了以往輿情系統(tǒng)只能從文字內容方面分析輿情,而不能做網絡輿情行為分析的不足。
圖1是本發(fā)明一種基于社會網絡的網絡輿情行為分析方法的整體流程圖;圖2是圖1所示的基于社會網絡的網絡輿情行為分析方法中,步驟ST5切取周期 的流程圖;圖3是圖1所示的基于社會網絡的網絡輿情行為分析方法中,步驟ST6參數分析 的流程圖;圖4是具體實例杭州飆車案例中的節(jié)點趨勢和網絡密度趨勢對比圖;圖5是具體實例杭州飆車案例中的網絡直徑趨勢圖;圖6是具體實例杭州飆車案例中的簇系數趨勢圖;圖7是具體實例某某某出訪案例中的節(jié)點趨勢和網絡密度趨勢對比圖8是具體實例貴州習水案例中的節(jié)點趨勢和網絡密度趨勢對比圖;圖9是具體實例貴州習水案例中的網絡直徑趨勢圖;圖10是具體實例貴州習水案例中的簇系數趨勢具體實施例方式為進一步理解本發(fā)明的基于社會網絡的網絡輿情行為分析方法,下面列舉具體實 例進行詳細說明。首先從互聯網中通過爬蟲采集網頁文檔并對其預處理,然后對得到的信息文檔進 行聚類,聚類結果包含三個網絡事件文檔集杭州飆車案文檔集、某某某出訪文檔集和貴州 習水案文檔集。分別針對這三個網絡事件進行構建社會網絡、計算網絡參數、繪制參數曲線、切取 曲線主爆發(fā)周期(斜率閾值為3)等步驟得到各自的節(jié)點趨勢和網絡密度趨勢對比圖、網絡 直徑趨勢圖和簇系數趨勢圖,接下來結合輿情行為特征庫里面的參數規(guī)則進行后續(xù)的網絡 輿情行為分析。具體實例1 杭州飆車案事件回顧2009年5月7日在杭州發(fā)生的一起交通事故,在杭州文二西路上,一名走人行橫 道線過馬路的行人被一輛超速行駛跑車撞死,事后,杭州交警部門在新聞發(fā)布會表示肇事 車輛的時速在70碼左右,該報告已經宣布立即引起普遍懷疑,70碼一詞迅速在網絡流傳開 來。最終,警方調查出該車速在100碼左右。輿情行為分析1)如圖4所示,既杭州飆車案例節(jié)點趨勢圖和網絡密度趨勢圖,容易看出,節(jié)點數 量在5月7日左右開始爆發(fā),同時網絡密度開始下降,因此可以判斷其為輿情事件;2)如圖4所示,既杭州飆車案例網絡密度趨勢圖,爆發(fā)期的網絡密度介于0. 2-0. 5 之間(后期的增長是因為帖子數量的減少,所以定性問噪聲),可以判斷事件為值得關注事 件;3)如圖5所示,既杭州飆車案例網絡直徑趨勢圖,根據網絡網絡直徑出現變化,定 性為能量不完全釋放事件;4)如圖6所示,既杭州飆車案案例簇系數趨勢圖,根據簇系數發(fā)生變化(上漲)說 明事件的觀點集團化傾向加深,所以定義為橙色輿情事件。具體實例2 某某某出訪事件回顧某某某,作為國家領導人,有很多相關的新聞,但是不能作為輿情存在,網絡行為 也很好的驗證了該觀點。輿情行為分析如圖7所示,既某某某出訪案例中的節(jié)點趨勢和網絡趨勢對比圖,爆發(fā)點的貼子 數和網絡密度保持相同的增長趨勢,故為非輿情事件。具體實例3 貴州習水案事件回顧
2007年10月始,犯罪嫌疑人使用暴力脅迫等手段逼迫少女賣淫。該事件與2008 年10月被爆出,由于存在公職人員參與以及定罪問題,引起了社會的廣泛熱議。輿情行為分析1)如圖8所示,既貴州習水案例中的節(jié)點趨勢和網絡密度趨勢對比圖,在帖子數 量爆發(fā)的時候,網絡密度是一個下降的過程,滿足輿情的定義的條件,該事件可以定性為輿 情事件。2)如圖8所示,由于事件爆發(fā)期,網絡密度基本低于0. 2,可以定性為廣泛討論事 件。3)如圖9和圖10所示,網絡直徑和簇系數在爆發(fā)期基本維持不變,滿足事件發(fā)展 末期的特性,故可以定性為黃色輿情事件。盡管上面對本發(fā)明說明性的具體實施方式
進行了描述,以便于本技術領的技術人 員理解本發(fā)明,但應該清楚,本發(fā)明不限于具體實施方式
的范圍,對本技術領域的普通技術 人員來講,只要各種變化在所附的權利要求限定和確定的本發(fā)明的精神和范圍內,這些變 化是顯而易見的,一切利用本發(fā)明構思的發(fā)明創(chuàng)造均在保護之列。
權利要求
一種基于社會網絡的網絡輿情行為分析方法,包括以下步驟(1)、從互聯網中采集網頁文本并對其預處理,得到的文檔存放到網頁信息數據庫;(2)、對網頁信息數據庫中的文檔進行聚類;(3)、基于網頁信息數據庫中同一類別相關文檔之間的關系建立待分析的網絡輿情事件社會網絡;(4)、計算網絡輿情事件社會網絡參數隨時間變化過程的數據并繪制網絡參數曲線;(5)、從網絡參數曲線中切取出網絡輿情事件的主爆發(fā)周期;(6)、基于網絡輿情行為特征庫和主爆發(fā)周期的參數曲線進行網絡輿情識別和網絡輿情事件緊急程度評估;(7)、輸出結果。
2.根據權利要求1所述的一種基于社會網絡的網絡輿情行為分析方法,其特征在于, 步驟(1)的具體實現方法為通過網絡爬蟲從互聯網中采集網頁文本;通過信息提取單元 對網頁文本進行解析預處理,獲取的標題、正文和發(fā)布時間信息組裝成文檔存放到網頁信 息數據庫。
3.根據權利要求1所述的一種基于社會網絡的網絡輿情行為分析方法,其特征在于, 步驟(4)所述的網絡參數指的是自定義的網絡參數,定義如下網絡參數1 節(jié)點數量,反應當前時間網絡上新增了多少關于所分析的事件的帖子;網絡參數2 網絡直徑,反應當前時間網絡上新增帖子所構成的網絡中,兩點之前最短 路徑的最大值;網絡參數3:網絡密度,反應當前時間網絡上新增帖子所構成的網絡中,實際存在的邊 與同等節(jié)點數量的完全圖中的邊的比;網絡參數4:簇系數,又稱作聚集系數,它衡量的是隨機網絡的集團化程度,是隨機網 絡的一個重要參數,隨機圖中的結點的簇系數以描述的是隨機網絡中與該結點直接相連的 結點之間的連接關系,即與該結點直接相鄰的結點間實際存在的邊數目占最大可能存在的 邊數的比例;網絡參數5 結構熵,熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否穩(wěn)定以 及其變化的方向,熵越大,系統(tǒng)能量分布越均勻。
4.根據權利要求1或3所述的一種基于社會網絡的網絡輿情行為分析方法,其特征在 于,步驟(4)所述的計算網絡輿情事件社會網絡參數隨時間變化過程的數據,具體做法是步驟4. 1計算網絡密度網絡密度是當前節(jié)點間存在的邊數于同等數目節(jié)點的完全圖 中的邊的比值,網絡密度越大,說明網絡中內容相似的節(jié)點越多,網絡密度采用以下公式計 算 其中ND為網絡密度,n為節(jié)點數,S為實際的邊數;步驟4. 2計算網絡直徑反應當前時間,網絡上新增帖子所構成的網絡中,兩點之間最 短路徑的最大值,網絡直徑的實際意義反應的是相關新聞中內容差距最大的兩篇文檔之間 的“距離”;步驟4. 3計算簇系數又稱作聚集系數,它衡量的是隨機網絡的集團化程度,是隨機網 絡的一個重要參數,簇系數根據以下公式進行計算 其中&表示節(jié)點的度數,e,表示結點的鄰結點之間實際存在的邊數,隨機網絡的簇系 數C為所有結點簇系數的算術平均值,即 步驟4. 4計算結構熵熵是系統(tǒng)能量的一種度量,可以表示系統(tǒng)所處的狀態(tài)是否穩(wěn)定 以及其變化的方向,熵越大,系統(tǒng)能量分布越均勻,定義T時刻傳播網絡的結構熵為
5.根據權利要求1所述的一種基于社會網絡的網絡輿情行為分析方法,其特征在于, 步驟(6)所述的網絡輿情為滿足如下兩個條件的網絡事件1、參與討論的新聞或者帖子數 激增;2、參與討論的人發(fā)表的獨立的觀點;所表現出來的網絡行為是帖子或者報道的新 聞數量激增,同時網絡密度下降,即網絡密度變化與帖子數量變化負相關。
6.根據權利要求1所述的一種基于社會網絡的網絡輿情行為分析方法,其特征在于, 步驟(6)所述的網絡輿情事件緊急程度指的是自定義的緊急程度,定義如下紅色輿情是指參與討論的帖子內容基本一致,并且負面意見居多,反政府,反社會,或 者帶有極端煽動性,甚至有可能引起更大規(guī)模的反動輿論浪潮的輿情,這類輿情危害性最 大,需要立即處理;橙色輿情是指有大量的帖子參與討論的輿情事件,且內容差距比較大,并且很有可能 多次爆發(fā)的輿情,這類輿情由于沒有形成統(tǒng)一的負面意見,所以危害性要小于紅色輿情,但 是由于很可能再次爆發(fā),無法控制有可能向紅色輿情轉變,所以需要引導,從而將輿論引向 正軌;黃色輿情是指有大量帖子參與,但是沒有形成統(tǒng)一負面意見,有可能再次爆發(fā)輿情, 但是可能性相對小于橙色輿情,所以危害性要小于橙色輿情,但是依然需要關注;綠色輿情是指有大量民眾參與,但是形成了統(tǒng)一的正面意見,或者對事件的討論進入 尾聲,很難再度爆發(fā)的輿情,這類輿情危害性很小。
7.根據權利要求1或6所述的一種基于社會網絡的網絡輿情行為分析方法,其特征在 于,步驟(6)所述的網絡輿情行為特征庫,指的是通過大量的網絡輿情事件觀察和實驗總 結出來的四個網絡參數規(guī)則,這些規(guī)則用來對網絡輿情事件進行分類和識別,具體參數規(guī) 則內容是參數規(guī)則1.網絡密度、通過觀察爆發(fā)階段網絡密度的值來判斷事件的屬性,當網絡密 度范圍為a)0-0. 2之間稱為廣泛討論事件,對應的實際情況是,大量的帖子或者新聞,從各個不 同的角度討論整個事件,說明時間引起了廣泛的關注和討論,b)0.2-0. 5之間稱為平衡事件,對應實際情況是對事件的討論比較集中,雖然存在不同的版本,但是內容上比較一致,c) 0. 5以上,稱為內容統(tǒng)一事件,對應的實際情況是對事件的討論趨于統(tǒng)一,如果結 合觀點分析,當觀點為正時,為綠色輿情事件;當觀點為負時,為紅色輿情事件,參數規(guī)則2.網絡直徑、通過觀察爆發(fā)階段網絡直徑的變化可以判斷出時間的部分屬 性,網絡直徑對應的實際意義是當前的左右帖子中,相關的帖子里內容區(qū)別最大兩個帖 子,在爆發(fā)階段,網絡直徑有兩種情況a)維持穩(wěn)定對于維持穩(wěn)定的情況,稱為能量釋放完全事件,也就是說,沒有新的內容 出現,那么之后,不容易出現再次爆發(fā)的情況,b)發(fā)生波動對于出現波動的情況,稱為能量不完全釋放事件,也就是說,繼續(xù)出現新 觀點,或者舊觀點的消亡,那么之后容易出現再次爆發(fā)的情況,參數規(guī)則3.簇系數、簇系數反應的是“抱團”的程度,在爆發(fā)期間,簇系數的變化分為 兩種情況a)維持穩(wěn)定,說明事件內部沒有出現觀點傾向性的變化,b)發(fā)生增長,說明抱團程度加劇,證明事件內部觀點開始發(fā)生集中,參數規(guī)則4.結構熵、結構熵反應的是度分布的問穩(wěn)定程度,結構熵越高,說明能量分 布越均衡,在多次爆發(fā)的事件中,如果帖子數量在波峰都差不多,可以利用結構熵來判斷主 爆發(fā),結構熵最高的波峰,為主爆發(fā)。
全文摘要
本發(fā)明公開了一種基于社會網絡的網絡輿情行為分析方法,首先基于網絡新聞或者帖子之間的相似度建立起一個網絡輿情事件社會網絡,然后通過分析社會網絡參數隨時間的變化以及參數之間的對比,自動的實現網絡輿情的識別和網絡輿情事件緊急程度的評估,方便相關政府部門更有效的監(jiān)控和管理網絡輿論。本發(fā)明通過網絡輿情行為分析的方式不但可以有效地發(fā)現網絡中的輿情信息,還可以對網絡輿情事件的緊急程度分級進行有效的評估,彌補了以往輿情系統(tǒng)只能從文字內容方面分析輿情,而不能做網絡輿情行為分析的不足。
文檔編號G06F17/30GK101853261SQ20091021630
公開日2010年10月6日 申請日期2009年11月23日 優(yōu)先權日2009年11月23日
發(fā)明者傅彥, 曾奉堯, 胡家豪, 高輝 申請人:電子科技大學