本發(fā)明專利屬于內(nèi)容檢索領(lǐng)域,尤其涉及一種組合新聞分析基于多篇資訊的內(nèi)容檢索方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,海量數(shù)據(jù)在互聯(lián)網(wǎng)上傳播,針對某個事件的新聞會通過不同維度來描述。隨著時間的變化,事件本身的焦點也回逐漸轉(zhuǎn)移。對事件評估也只能夠聚焦到事件傳播過程中的某個焦點,并不能針對整個事件做出評估。組合新聞分析就是針對事件多個焦點,多個維度對采集數(shù)據(jù)進(jìn)行分析評估。對相同事件不同焦點的新聞組合到一起進(jìn)行分析,能夠更好的掌握事件隨時間維度變化的發(fā)展動態(tài)。
發(fā)明專利內(nèi)容
本發(fā)明專利提供一種組合新聞分析基于多篇資訊的內(nèi)容檢索方法,對新聞事件的評估有較高的準(zhǔn)確性:通過對時間傳播不同時段的焦點的相關(guān)新聞資訊進(jìn)行組合,更好的分析出整個事件在互聯(lián)網(wǎng)上的傳播過程以及傳播情況。
一種組合新聞分析基于多篇資訊的內(nèi)容檢索方法,包括步驟一,將多篇資訊url組合到一起;作為要評估的輸入項;步驟二,根據(jù)這些url對數(shù)據(jù)進(jìn)行召回;首先獲取url對應(yīng)資訊的md5;根據(jù)獲取到的這一批md5進(jìn)行數(shù)據(jù)召回;每條url對應(yīng)資訊最多有十條md5,如果對五個url進(jìn)行組合評估,就將這五條url的md5都獲取過來,進(jìn)行召回數(shù)據(jù);步驟三,對召回的數(shù)據(jù)通過歸堆算法進(jìn)行歸堆;步驟四,將歸堆后新聞進(jìn)行評估分析,響應(yīng)給用戶。
附圖說明
圖1為一種組合新聞分析基于多篇資訊的內(nèi)容檢索方法傳播事件河流數(shù)據(jù)構(gòu)圖
圖2為一種組合新聞分析基于多篇資訊的內(nèi)容檢索方法分析結(jié)果系統(tǒng)圖。
具體實施方式
實施例:一種組合新聞分析基于多篇資訊的內(nèi)容檢索方法,包括步驟一,將多篇資訊url組合到一起;作為要評估的輸入項;步驟二,根據(jù)這些url對數(shù)據(jù)進(jìn)行召回;首先獲取url對應(yīng)資訊的md5;根據(jù)獲取到的這一批md5進(jìn)行數(shù)據(jù)召回;每條url對應(yīng)資訊最多有十條md5,如果對五個url進(jìn)行組合評估,就將這五條url的md5都獲取過來,進(jìn)行召回數(shù)據(jù);步驟三,對召回的數(shù)據(jù)通過歸堆算法進(jìn)行歸堆;步驟四,將歸堆后新聞進(jìn)行評估分析,響應(yīng)給用戶。
盡管已經(jīng)示出和描述了本發(fā)明的實施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。