本發(fā)明涉及新聞文本的熱點挖掘與可視化,尤其涉及一種層次化新聞熱點及其演化的挖掘與可視化方法。
背景技術:
在如今互聯(lián)網(wǎng)和大數(shù)據(jù)日益發(fā)展的背景下,各類數(shù)據(jù)通過互聯(lián)網(wǎng)各異地互聯(lián)網(wǎng)平臺被大量產(chǎn)生出來。新聞報道由于敘述詳實規(guī)范,來源可靠,觀點客觀等特點,是互聯(lián)網(wǎng)海量數(shù)據(jù)中一個重要的信息來源,新聞文本對于經(jīng)濟形勢研究、國內(nèi)國際政治研究、商業(yè)決策研究、社會文化研究、甚至科學技術發(fā)展方向研究等領域都有著十分重要的作用。從海量地新聞數(shù)據(jù)分析篩選出有價值的信息需要耗費大量的資源,因此如何運用計算機技術自動歸納出有價值的值得關注的新聞話題,即新聞熱點,并通過可視化方法將新聞熱點的內(nèi)容全方位地呈現(xiàn)給用戶,是一個重要的研究課題。
新聞熱點挖掘技術能夠?qū)A啃侣勎谋具M行準確而高效地分析,并歸納一個時間范圍內(nèi)發(fā)生的有價值的新聞熱點。新聞熱點挖掘技術主要有基于監(jiān)督學習和基于無監(jiān)督學習兩種方式。監(jiān)督學習方式需要大量的標注數(shù)據(jù)對挖掘模型進行訓練,而新聞文本大多不是結構化的,獲取大量標注信息的代價很大,所以本文認為無需使用標注數(shù)據(jù)訓練模型的基于非監(jiān)督學習的新聞熱點挖掘技術更具研究價值。其中非常有效的一種方式就是概率主題建模技術。概率主題建模技術以blei等人提出的隱形狄利克雷分布(latentdirichletallocation,lda)為代表,可以用來發(fā)現(xiàn)新聞文本中的隱含語義,對新聞文本中語義相關的單詞進行聚類,從而挖掘新聞熱點。挖掘出新聞熱點后,我們希望以盡可能少的時間,來獲得盡可能多的信息,比如一段時間范圍內(nèi)的新聞熱點,與新聞熱點相關的新聞文本原文,新聞熱點的情感色彩等信息,于是新聞熱點可視化技術研究也日益增多,通過可視化技術,我們可以從各個維度解釋和分析大量的新聞文本數(shù)據(jù)。
通過傳統(tǒng)的lda概率主題建模挖掘新聞熱點的技術雖然可以獲取文本中隱含的語義信息,但是也具有很多的局限性。首先lda無法挖掘出熱點的層次性結構。在現(xiàn)實世界中,熱點本身是具有層次性的,比如一個關于“體育”的熱點,會包含“奧運會”、“世界杯”、“世錦賽”等子熱點。所以在挖掘新聞熱點的同時,我們也需要了解熱點間的層次結構關聯(lián)。再者,lda無法挖掘出新聞熱點在時間上的演化過程。隨著時間推進,新聞熱點的內(nèi)容會逐漸發(fā)生變化,同時,很多新的新聞熱點也會產(chǎn)生,而舊的新聞熱點可能會消失。比如2016年10月,有“美國大選”這個熱點,而在2016年11月,這個熱點可能會演化為“特朗普當選”。所以我們在了解新聞熱點的結構關聯(lián)的同時,還需要了解新聞熱點隨時間的演化?;谛侣劅狳c具有層次結構關聯(lián)性、時序關聯(lián)性這兩個特性和lda在這兩方面的不足,我們需要一種同時挖掘新聞熱點層次結構、時序關聯(lián)的方法,能夠深度挖掘新聞熱點的層次關聯(lián)和隨時間的演化過程。
可視化技術的目的是將雜亂的、高密度的數(shù)據(jù)用各種方式整理之后呈現(xiàn)給用戶,使用戶可以方便的從復雜的數(shù)據(jù)中獲取有用的信息。面對互聯(lián)網(wǎng)中海量的新聞數(shù)據(jù),可視化技術必不可少。迄今為止,文本可視化技術的應用主要有對特定領域?qū)W術論文文本進行可視化、對新聞文本進行可視化以及對詞典百科文本進行可視化等。由于新聞本文跨越了不同領域,語義內(nèi)容豐富,因此需要大量不同的可視化技術方式來呈現(xiàn),例如呈現(xiàn)新聞熱點本身、新聞熱點詞、新聞文本原文、新聞相關圖片等等。同時也要展現(xiàn)新聞熱點的層次結構以及新聞熱點在時序上的演化過程。所以對新聞文本以及層次化新聞熱點及其演化的可視化研究也成為了非常重要的理解新聞數(shù)據(jù)的方式。
技術實現(xiàn)要素:
本發(fā)明的目的在于解決現(xiàn)有技術中存在的問題,并提供一種層次化新聞熱點及其演化的挖掘與可視化方法。
本發(fā)明所采用的具體技術方案如下:
層次化新聞熱點及其演化的挖掘與可視化方法,包括如下步驟:
1)獲取新聞文本數(shù)據(jù)集,并對新聞文本進行預處理;
2)利用層次分類主題模型(hclda)對新聞文本進行層次分類主題建模,挖掘出樹狀的從抽象到具體的層次化新聞熱點;
3)利用預設的布局對層次化新聞熱點進行可視化展示;
4)利用相對熵對同一分類下的新聞熱點在時序上的關聯(lián)度進行計算,并且將新聞熱點在時序上分為四種演化行為:產(chǎn)生、演變、分裂和消亡;根據(jù)當前時間片上新聞熱點與前一時間片上新聞熱點的相關度,計算當前時間片上新聞熱點的演化行為;
5)利用動態(tài)可視化技術可視化層次化的新聞熱點在時序上的演化過程。
所述的步驟1)包括:
1)爬取新聞文本標題、原文、新聞文本所屬的分類標簽和新聞文本關鍵詞;
2)若爬取的文本為中文新聞文本,需要利用新聞文本關鍵詞對新聞文本進行分詞,之后得到中文新聞文本的詞典;若爬取的文本為英文新聞文本,需要利用新聞文本關鍵詞得到詞組或縮寫詞,之后得到新聞文本集的詞典,詞典中包括詞組和縮寫詞;中文詞典和英文詞典中均需要過濾低頻詞語和停詞;
3)將新聞文本表示成能夠被概率主題模型處理的形式。
所述的步驟2)包括:
1)利用層次分類主題模型對每篇新聞文本進行采樣,構建出層次化的新聞熱點,挖掘出的新聞熱點形成“新聞熱點樹”,且從根節(jié)點到葉節(jié)點的新聞熱點由抽象到具體;
采樣的過程是:首先按照公式(1)對每篇文檔采樣出一條從根節(jié)點到葉節(jié)點的路徑:
其中,c(d)為對當前文本d采樣出的路徑;c為“新聞熱點樹”的結構;cnews為部分文本的分類信息,由先驗φ控制;c-d為除去文本d外的“新聞熱點樹”從根節(jié)點到葉節(jié)點的路徑集合;cr為文本分類信息,w為文檔集合,z為主題分布,γ為超參數(shù)先驗,β為主題關于單詞分布的先驗;
然后按照公式(2)將文檔中的每個單詞分配到這條路徑上的節(jié)點,“新聞熱點樹”的第一層節(jié)點是半監(jiān)督分類新聞熱點,表示新聞的類別;
其中,zd,i為第d篇文檔第i個單詞所屬的主題(即新聞熱點);zd,-i為第d篇文檔除了第i個單詞以外,其他單詞所屬的主題(即新聞熱點)的集合;w為新聞文本集合;α為所有文檔關于主題的狄利克雷分布的先驗;αk為第k篇文檔關于主題的狄利克雷分布的先驗;βt為第t個主題關于單詞的概率分布先驗;l為“新聞熱點樹”的層數(shù);v為單詞集合;
2)待“新聞熱點樹”的結構收斂后,對建模得到的每個葉節(jié)點新聞熱點,根據(jù)公式(3)計算該新聞熱點相關的文檔;
其中,n表示第d篇新聞文本的單詞數(shù),l表示“新聞熱點樹”的層數(shù);w(d)代表第d篇新聞文本的單詞向量,z(d)表示第d篇新聞文本對應的新聞熱點向量,
所述的步驟3)包括:
1)利用“nestedcircle”布局呈現(xiàn)層次化的新聞熱點結構,在這個可視化布局中,每個新聞熱點用一個圓圈表示,圓圈的大小與和這個新聞熱點相關的文檔數(shù)成正比;
2)可視化每個分類新聞熱點下的子新聞熱點的相關新聞文本原文;當點擊某葉節(jié)點新聞熱點時,系統(tǒng)會顯示與該新聞熱點最相關的四篇新聞文本原文。
所述的步驟4)包括:
1)將新聞文本數(shù)據(jù)按照時間片輸入層次分類主題模型,并對于每個時間片得到模型的輸出的“新聞熱點樹”;
2)對當前時間片的每個新聞熱點,利用公式(4)計算新聞熱點與前一時間片的每個新聞熱點的相關度:
其中,
3)計算熱點在時序上的演化行為:熱點在時序上的演化行為有四種:產(chǎn)生、演變、分裂和消亡;首先定義一個相關度閾值;接下來對于前一時間片的每一個主題
所述的步驟5)包括:
1)采樣動畫的方式呈現(xiàn)新聞熱點的四種演化行為:產(chǎn)生、演變、分裂和消亡;
2)四種變化的過程和效果是:如果當前時間片的主題
本發(fā)明在對新聞文本進行了層次分類主題建模,產(chǎn)生層次化分類新聞熱點,并利用靜態(tài)文本可視化技術和動態(tài)文本可視化技術對層次化的新聞熱點進行了多維度的可視化。本發(fā)明不僅使用了靜態(tài)可視化方法呈現(xiàn)了層次分類新聞熱點及新聞熱點原文,并利用動態(tài)可視化方式呈現(xiàn)了新聞熱點的演化。在新聞文本可視化領域取得了較好的效果。
附圖說明
圖1是hclda概率主題建模生成的“新聞熱點樹”。
圖2是“nested-circle”布局展示新聞熱點的層次結構關聯(lián)示意圖。
圖3是與葉節(jié)點新聞熱點相關最高的四篇文檔的可視化。
圖4是“冬奧會”熱點從2014年1月到2014年2月的演化。
圖5是“世界杯”新聞熱點從2014年6月到2014年7月的分裂。
圖6是新聞熱點分裂效果圖。
圖7是“層次化新聞熱點及其演化的分析系統(tǒng)”的用戶界面。
圖8是層次分類新聞熱點動態(tài)可視化的用戶界面示意圖。
具體實施方式
下面結合附圖和具體實施方式對本發(fā)明做進一步闡述。
層次化新聞熱點及其演化的挖掘與可視化方法包括如下步驟:
1)獲取新聞文本數(shù)據(jù)集,并對新聞文本進行預處理;
1.1)爬取新聞文本標題、原文、新聞文本所屬的分類標簽和新聞文本關鍵詞(如有);
1.2)如是中文新聞文本,需要利用新聞文本關鍵詞對新聞文本進行分詞,之后得到中文新聞文本的詞典;如是英文新聞文本,需要利用新聞文本關鍵詞得到詞組或縮寫詞,之后得到新聞文本集的詞典(詞典中包括詞組和縮寫詞)。中文詞典和英文詞典中均需要過濾低頻詞語和停詞;
1.3)將新聞文本表示成能夠被概率主題模型處理的形式。
2)利用層次分類主題模型(hclda)對新聞文本進行層次分類主題建模,挖掘出樹狀的從抽象到具體的層次化新聞熱點;
2.1)利用層次分類主題模型(hclda)對每篇新聞文本進行采樣,構建出層次化的新聞熱點,挖掘出的新聞熱點呈樹狀結構,稱之為“新聞熱點樹”,且從根節(jié)點到葉節(jié)點的新聞熱點由抽象到具體。
采樣的過程是:首先按照公式(1)對每篇文檔采樣出一條從根節(jié)點到葉節(jié)點的路徑:
其中,c(d)為對當前文本d采樣出的路徑;c為“新聞熱點樹”的結構;cnews為部分文本的分類信息,由先驗φ控制;c-d為除去文本d外的“新聞熱點樹”從根節(jié)點到葉節(jié)點的路徑集合;cr為文本分類信息,w為文檔集合,z為主題分布,γ為超參數(shù)先驗,β為主題關于單詞分布的先驗。
接下來按照公式(2)將文檔中的每個單詞分配到這條路徑上的節(jié)點?!靶侣劅狳c樹”的第一層節(jié)點是半監(jiān)督分類新聞熱點,表示新聞的類別,如“體育”類,“國際新聞”類,“當?shù)匦侣劇鳖惖取?/p>
其中,zd,i為第d篇文檔第i個單詞所屬的主題(新聞熱點);zd,-i為第d篇文檔除了第i個單詞以外,其他單詞所屬的主題(新聞熱點)的集合;w為新聞文本集合;α為所有文檔關于主題的狄利克雷分布的先驗;αk為第k篇文檔關于主題的狄利克雷分布的先驗;βt為第t個主題關于單詞的概率分布先驗;l為“新聞熱點樹”的層數(shù);v為單詞集合;
hclda模型生成的“新聞熱點樹”如圖1。
2.2)待“新聞熱點樹”的結構收斂后,對建模得到的每個葉節(jié)點新聞熱點,根據(jù)公式(3)計算該新聞熱點相關的文檔。
其中,n表示第d篇新聞文本的單詞數(shù),l表示“新聞熱點樹”的層數(shù)。w(d)代表第d篇新聞文本的單詞向量,z(d)表示第d篇新聞文本對應的新聞熱點向量,
3)利用全新的“nested-circle”布局對層次化新聞熱點進行可視化展示;
3.1)利用“nestedcircle”布局呈現(xiàn)層次化的新聞熱點結構,如圖2,在這個可視化布局中,每個新聞熱點用一個圓圈表示,圓圈的大小與和這個新聞熱點相關的文檔數(shù)成正比。如圖2(a),最大的圓圈代表的是根節(jié)點新聞熱點,六個中等大小的圓圈代表的是hclda模型輸出得到的六個半監(jiān)督分類新聞熱點,每個分類用一種顏色表示,其中黃色的圓圈表示“國際新聞”分類,藍色的圓圈表示的是“體育新聞”分類,粉色的圓圈表示“圖書相關新聞”分類、紫色表示“文藝新聞”分類、綠色表示“商務新聞”分類、棕色表示“紐約當?shù)匦侣劇狈诸?。中等大小的圓圈中最小的圓圈表示的是該分類新聞熱點下的子新聞熱點。
3.2)可視化每個分類新聞熱點下的子新聞熱點的相關新聞文本原文。當點擊某葉節(jié)點新聞熱點時,系統(tǒng)會顯示與該新聞熱點最相關的四篇新聞文本原文。如圖3展示了顯示的新聞熱點相關的新聞文本原文。
4)利用相對熵(kl距離)對同一分類下的新聞熱點在時序上的關聯(lián)度進行計算,并且提出四種新聞熱點在時序上的演化行為:產(chǎn)生、演變、分裂和消亡。根據(jù)相當前時間片上新聞熱點與前一時間片上新聞熱點的相關度,計算當前時間片上新聞熱點的演化行為;
4.1)將新聞文本數(shù)據(jù)按照時間片輸入hclda模型,并對于每個時間片得到模型的輸出的“新聞熱點樹”。
4.2)對當前時間片的每個新聞熱點,利用公式(4)計算新聞熱點與前一時間片的每個新聞熱點的相關度:
其中,
4.3)計算熱點在時序上的演化行為。熱點在時序上的演化行為有四種:產(chǎn)生、演變、分裂和消亡。首先定義一個閾值。接下來對于前一時間片的每一個主題
5)利用動態(tài)可視化技術可視化層次化的新聞熱點在時序上的演化過程。
5.1)采樣動畫的方式呈現(xiàn)新聞熱點的四種演化行為:產(chǎn)生、演變、分裂和消亡。
5.2)四種變化的過程和效果是:如果當前時間片的主題
實施例
本實施例所采用的方法如前所述,不再贅述。本發(fā)明利用了《紐約時報》2014年全年的新聞文本數(shù)據(jù)做了實驗,利用hclda模型對新聞文本數(shù)據(jù)進行了層次分類主題建模,并對得到的層次新聞熱點進行靜態(tài)和動態(tài)的可視化。hclda模型的參數(shù)設置以及參數(shù)的作用如下:
表1
圖7展示了層次分類新聞熱點靜態(tài)可視化的用戶界面,可視化展示分為四部分:新聞熱點層次結構關聯(lián)展示、新聞熱點相關熱點詞展示、新聞熱點詞搜索和新聞熱點相關文本展示。圖7(b)是時間軸,可以選擇不同月份的新聞熱點進行展示,我們對2014年8月的可視化效果截圖展示。圖7(a)是使用“nested-circle”形式展示的具有層次結構關聯(lián)的新聞熱點。每個分類用一種顏色表示,其中黃色的圓圈表示“國際新聞”分類,藍色的圓圈表示的是“體育新聞”分類,粉色的圓圈表示“圖書相關新聞”分類、紫色表示“文藝新聞”分類、綠色表示“商務新聞”分類、棕色表示“紐約當?shù)匦侣劇狈诸?。點擊某個分類時,該分類熱點以及子希望熱點會放大展示。點擊分類下的子新聞熱點,圓圈中會顯示與該子新聞熱點相關的新聞文本數(shù),并且右側(cè)會出現(xiàn)與新聞熱點最相關的新聞文本原文(如圖7(e))。當把點擊某個新聞熱點所代表的圓圈時,會顯示該新聞熱點的熱點詞,我們采用了單詞云的形式可視化了新聞熱點的熱點詞(如圖7(c)),用單詞云中單詞的大小表示熱點詞的詞頻,可以看到圖中的新聞熱點是關于“以色列加沙沖突”的。同時,我們支持對熱點詞進行搜索的功能(如圖7(d)),如果有熱點包含搜索的熱點詞,那么該熱點會變?yōu)榧t色,我們可以進而追溯這個熱點以及與這個熱點相關的新聞文本。
圖8展示了層次分類新聞熱點靜態(tài)可視化的用戶界面。我們用淺綠色的圓圈表示新產(chǎn)生的熱點,用深綠色的圓圈表示由以往的熱點演化成的熱點,用橙色的圓圈表示分裂出的熱點。我們可以看到圖中有兩種類型的新聞熱點:新產(chǎn)生的熱點和分裂出的熱點(如圖8(a))。我們可以從圖8中看到,2014年8月,體育分類下的新聞熱點中,有三個分裂出來的新聞熱點和一個新出現(xiàn)的新聞熱點。同時,我們結合了《紐約時報》的跨媒體數(shù)據(jù)集,爬取了《紐約時報》的新聞相關圖片,對新聞熱點相關的新聞文本的新聞圖片進行展示,當鼠標移動到新聞熱點上時,會展示新聞熱點相關圖片(如圖8(b))和新聞熱點的全部熱點詞(如圖8(c)),我們可以看到,圖8中呈現(xiàn)的新聞熱點是“l(fā)edecky獲得世錦賽自由泳冠軍”。