本發(fā)明涉及相似性計算技術領域,特別是涉及一種基于復雜網(wǎng)絡結點相似性的計算事件相似性的方法和系統(tǒng)。
背景技術:
目前,隨著互聯(lián)網(wǎng)的普及,信息的傳播方式已經(jīng)從原來主要依靠電視、報紙等傳統(tǒng)媒體轉變成依靠互聯(lián)網(wǎng)來傳播。因此,網(wǎng)絡媒體作為一種新的信息傳播形式,已經(jīng)深入人們的日常生活。網(wǎng)民言論活躍已經(jīng)達到前所未有的熱度,不管是國內(nèi)還是國際事件,都能形成網(wǎng)上輿論,通過這種網(wǎng)絡表達觀點、傳播思想,進而產(chǎn)生巨大的輿論壓力,達到任何部門、機構都無法忽視的地步。這就體現(xiàn)了輿論系統(tǒng)的重要性。然而網(wǎng)絡上有那么多言論,很多時候爬蟲從不同網(wǎng)站爬去的內(nèi)容可能是同一個事件,如何能夠通過計算事件相似性來判斷就成為一個亟待解決的問題。雖然現(xiàn)在市面已經(jīng)存在一些計算事件相似性的系統(tǒng),但是現(xiàn)有的計算事件相似性的系統(tǒng)要都是通過文本分析來計算相似性,存在計算量大、準確率低等問題。
技術實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種基于復雜網(wǎng)絡結點相似性的計算事件相似性的方法和系統(tǒng),能夠降低事件相似性計算過程中的計算量,提高事件相似性計算的準確率。
本發(fā)明的目的是通過以下技術方案來實現(xiàn)的:一種基于復雜網(wǎng)絡結點相似性的計算事件相似性的方法,其特征在于:包括:
獲取事件信息,并提取所述事件信息的關鍵詞;
計算任意兩個事件信息中相同關鍵詞的比例;
根據(jù)所述任意兩個事件信息中相同關鍵詞的比例構建事件網(wǎng)絡;
計算事件網(wǎng)絡中任意兩個節(jié)點的相似性;
將相似性大于合并閾值的兩個節(jié)點對應的事件信息進行合并。
兩個事件信息中相同關鍵詞的比例的計算公式為:
兩個事件信息中相同關鍵詞的比例=兩個事件信息中相同關鍵詞的數(shù)量/兩個事件信息中關鍵詞的總數(shù)。
所述事件網(wǎng)絡的構建方法為:
將每個事件信息作為事件網(wǎng)絡中的一個節(jié)點;
判斷任意兩個事件信息中相同關鍵詞的比例是否大于連邊閾值:若大于連邊閾值則在這兩個事件信息對應的節(jié)點之間連線。
兩個節(jié)點的相似性的計算公式為:
相似性=兩個節(jié)點相同的鄰居結點數(shù)/兩個節(jié)點的度的總和。
一種基于復雜網(wǎng)絡結點相似性的計算事件相似性的系統(tǒng),包括:
信息獲取模塊,用于獲取事件信息;
關鍵詞提取模塊,用于提取所述事件信息的關鍵詞;
相同關鍵詞比例計算模塊,用于計算任意兩個事件信息中相同關鍵詞的比例;
事件網(wǎng)絡構建模塊,用于根據(jù)任意兩個事件信息中相同關鍵詞的比例構建事件網(wǎng)絡;
節(jié)點相似性計算模塊,用于計算事件網(wǎng)絡中任意兩個節(jié)點的相似性;
事件合并模塊,用于將相似性大于合并閾值的兩個節(jié)點對應的事件信息進行合并。
兩個事件信息中相同關鍵詞的比例的計算公式為:
兩個事件信息中相同關鍵詞的比例=兩個事件信息中相同關鍵詞的數(shù)量/兩個事件信息中關鍵詞的總數(shù)。
所述事件網(wǎng)絡的構建方法為:
將每個事件信息作為事件網(wǎng)絡中的一個節(jié)點;
判斷任意兩個事件信息中相同關鍵詞的比例是否大于連邊閾值:若大于連邊閾值則在這兩個事件信息對應的節(jié)點之間連線。
兩個節(jié)點的相似性的計算公式為:
相似性=兩個節(jié)點相同的鄰居結點數(shù)/兩個節(jié)點的度的總和。
本發(fā)明的有益效果是:本發(fā)明能夠有效地計算事件信息的相似度,并將相似性大于合并閾值的兩個事件信息進行合并,此外,本發(fā)明降低了事件相似性計算過程中的計算量,提高事件相似性計算的準確率。
附圖說明
圖1為本發(fā)明中基于復雜網(wǎng)絡結點相似性的計算事件相似性的方法的流程圖;
圖2為本發(fā)明的構建事件網(wǎng)絡的流程圖;
圖3為本發(fā)明中基于復雜網(wǎng)絡結點相似性的計算事件相似性的系統(tǒng)的示意框圖。
具體實施方式
下面結合附圖進一步詳細描述本發(fā)明的技術方案,但本發(fā)明的保護范圍不局限于以下所述。
如圖1所示,一種基于復雜網(wǎng)絡結點相似性的計算事件相似性的方法,包括:
步驟一、獲取事件信息,并提取所述事件信息的關鍵詞。
步驟二、計算任意兩個事件信息中相同關鍵詞的比例。兩個事件信息中相同關鍵詞的比例的計算公式為:
兩個事件信息中相同關鍵詞的比例=兩個事件信息中相同關鍵詞的數(shù)量/兩個事件信息中關鍵詞的總數(shù)。
步驟三、根據(jù)所述任意兩個事件信息中相同關鍵詞的比例構建事件網(wǎng)絡。如圖2所示,所述事件網(wǎng)絡的構建方法為:
將每個事件信息作為事件網(wǎng)絡中的一個節(jié)點;
判斷任意兩個事件信息中相同關鍵詞的比例是否大于連邊閾值:若大于連邊閾值則在這兩個事件信息對應的節(jié)點之間連線。
步驟四、計算事件網(wǎng)絡中任意兩個節(jié)點的相似性。兩個節(jié)點的相似性的計算公式為:
相似性=兩個節(jié)點相同的鄰居結點數(shù)/兩個節(jié)點的度的總和,兩個節(jié)點的度的總和即為兩個節(jié)點的鄰居節(jié)點的總數(shù)。
步驟五、將相似性大于合并閾值的兩個節(jié)點對應的事件信息進行合并。
實施例一
本實施例中對從不同門戶網(wǎng)站抓取到不同新聞的相似性進行計算,并將相似性大于合并閾值的兩條新聞進行合并,連邊閾值設為0.6,合并閾值設置為0.7,包括以下步驟:
S1. 采用爬蟲從各門戶網(wǎng)站爬取新聞,并提取爬取到的每條新聞的關鍵詞;
S2. 遍歷爬取到的每條新聞,將其與其余所有爬取到的新聞進行相同關鍵詞的比例計算,并保存計算結果;
S3. 將所有爬取到的新聞都轉化成網(wǎng)絡中的節(jié)點,即將每條新聞作為網(wǎng)絡中的一個節(jié)點,然后進行節(jié)點間的連邊,連邊的方法為:判斷兩個節(jié)點對應的新聞的相同關鍵詞的比例計算結果是否大于連邊閾值0.6,若是,則將這兩點進行連邊,否則這兩點不連邊;
S4.計算網(wǎng)絡中每一個節(jié)點與其他節(jié)點的相似性;
S5.若兩個節(jié)點之間的相似性大于設置的合并閾值0.7時,將這兩個節(jié)點對應的新聞進行合并,否則這兩個節(jié)點對應的新聞不進行合并。
如圖3所示,一種基于復雜網(wǎng)絡結點相似性的計算事件相似性的系統(tǒng),包括信息獲取模塊、關鍵詞提取模塊、相同關鍵詞比例計算模塊、事件網(wǎng)絡構建模塊、節(jié)點相似性計算模塊和事件合并模塊。
所述信息獲取模塊,用于獲取事件信息。
所述關鍵詞提取模塊,用于提取所述事件信息的關鍵詞。
所述相同關鍵詞比例計算模塊,用于計算任意兩個事件信息中相同關鍵詞的比例。兩個事件信息中相同關鍵詞的比例的計算公式為:
兩個事件信息中相同關鍵詞的比例=兩個事件信息中相同關鍵詞的數(shù)量/兩個事件信息中關鍵詞的總數(shù)。
所述事件網(wǎng)絡構建模塊,用于根據(jù)任意兩個事件信息中相同關鍵詞的比例構建事件網(wǎng)絡。所述事件網(wǎng)絡的構建方法為:將每個事件信息作為事件網(wǎng)絡中的一個節(jié)點;判斷任意兩個事件信息中相同關鍵詞的比例是否大于連邊閾值:若大于連邊閾值,則在這兩個事件信息對應的節(jié)點之間連線,否則這兩個事件信息對應的節(jié)點之間不連線。
所述節(jié)點相似性計算模塊,用于計算事件網(wǎng)絡中任意兩個節(jié)點的相似性。兩個節(jié)點的相似性的計算公式為:
相似性=兩個節(jié)點相同的鄰居結點數(shù)/兩個節(jié)點的度的總和,兩個節(jié)點的度的總和即為兩個節(jié)點的鄰居節(jié)點的總數(shù)。
所述事件合并模塊,用于將相似性大于合并閾值的兩個節(jié)點對應的事件信息進行合并。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當理解本發(fā)明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構想范圍內(nèi),通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應在本發(fā)明所附權利要求的保護范圍內(nèi)。