本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體而言,特別涉及一種新聞熱點(diǎn)標(biāo)簽的生成方法及系統(tǒng)。
背景技術(shù):隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)媒體已被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”。由于網(wǎng)絡(luò)媒體與傳統(tǒng)媒體在傳播載體和傳播方式上的不同,將導(dǎo)致網(wǎng)絡(luò)輿論熱點(diǎn)、焦點(diǎn)層出不窮,而這些信息的產(chǎn)生將對社會產(chǎn)生巨大影響。因此,有必要對這些熱點(diǎn)信息的正確性及傳播范圍進(jìn)行有效處理。目前,針對新聞信息的分析功能有:新聞分類和預(yù)警、新聞聚合、新聞智能關(guān)聯(lián)、新聞轉(zhuǎn)載追蹤等,而新聞事件熱點(diǎn)標(biāo)簽的生成是上述分析功能的基礎(chǔ)工作之一,例如:利用新聞熱點(diǎn)標(biāo)簽作為檢索關(guān)鍵字從而發(fā)現(xiàn)熱點(diǎn)新聞;或者利用新聞熱點(diǎn)標(biāo)簽生成熱點(diǎn)新聞?wù)?。目前,?shí)用階段的新聞事件熱點(diǎn)標(biāo)簽生成技術(shù)主要有以下兩類:1)基于統(tǒng)計(jì)特征的方法,該方法主要是對詞元的使用頻率進(jìn)行統(tǒng)計(jì),雖然操作簡單,但是會忽略出現(xiàn)頻率不高但對于文檔具有關(guān)鍵意義的詞語,導(dǎo)致新聞熱點(diǎn)標(biāo)簽生成的準(zhǔn)確性低;2)基于詞語網(wǎng)絡(luò)圖的方法,該方法根據(jù)一定規(guī)則將文檔映射為詞語網(wǎng)絡(luò),利用詞語網(wǎng)絡(luò)圖計(jì)算詞語的關(guān)鍵度,在該方法中,目前主要是將高頻詞語以及它們在同一窗口(也即相互鄰接、在相同的句子或段落等)的共現(xiàn)關(guān)系映射成詞語網(wǎng)絡(luò),但該方法需要設(shè)定的參數(shù)過多,如頂點(diǎn)數(shù)、邊數(shù)等,因而常造成邊界上的取舍問題,如果邊界取舍不當(dāng),則造成新聞熱點(diǎn)標(biāo)簽生成的準(zhǔn)確性低。針對現(xiàn)有技術(shù)中新聞熱點(diǎn)標(biāo)簽生成準(zhǔn)確性低的問題,目前尚未提出有效的解決方法。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明的主要目的在于提供一種新聞熱點(diǎn)標(biāo)簽的生成方法及系統(tǒng),以解決現(xiàn)有技術(shù)中新聞熱點(diǎn)標(biāo)簽生成準(zhǔn)確性低的問題。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種新聞熱點(diǎn)標(biāo)簽的生成方法。本發(fā)明的新聞熱點(diǎn)標(biāo)簽的生成方法包括:提取新聞數(shù)據(jù)集中的新聞簇,其中,新聞數(shù)據(jù)集由多個(gè)新聞記錄組成,一個(gè)新聞簇包括至少兩個(gè)新聞記錄;確定提取出的多個(gè)新聞簇中的熱點(diǎn)新聞簇;提取熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字;生成由一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合的組合詞,其中,一個(gè)新聞記錄對應(yīng)一個(gè)或多個(gè)組合詞;以及根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽。進(jìn)一步地,提取新聞數(shù)據(jù)集中的新聞簇包括:計(jì)算新聞數(shù)據(jù)集中兩個(gè)新聞記錄之間的相似度;判斷相似度是否大于第一預(yù)設(shè)閾值;以及若相似度大于第一預(yù)設(shè)閾值時(shí),確定兩個(gè)新聞記錄屬于同一新聞簇。進(jìn)一步地,計(jì)算兩個(gè)新聞記錄之間的相似度包括:將兩個(gè)新聞記錄分別進(jìn)行特征化提取,得到一個(gè)新聞記錄對應(yīng)的第一向量和另一個(gè)新聞記錄對應(yīng)的第二向量;采用以下任意一個(gè)公式計(jì)算相似度:Sim(X,Y)=(X*Y)/(||X||*||Y||),或者其中,Sim(X,Y)為相似度,X為第一向量,Y為第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分別為X和Y的歐幾里得范數(shù)。進(jìn)一步地,第一向量對應(yīng)的新聞記錄為第一新聞記錄,將第一新聞記錄進(jìn)行特征化提取,得到第一向量包括:對第一新聞記錄的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的第一詞元集;根據(jù)詞元在第一新聞記錄中出現(xiàn)的次數(shù)計(jì)算第一詞元集中詞元對應(yīng)的特征值;刪除第一詞元集中特征值小于第二預(yù)設(shè)閾值的詞元;以及生成第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其 中,w1,w2,w3,...,wn第一詞元集中詞元,c1,c2,c3,...,cn分別為詞元對應(yīng)的特征值,n為第一詞元集中詞元的個(gè)數(shù)。進(jìn)一步地,計(jì)算第一詞元集中詞元對應(yīng)的特征值包括采用以下公式進(jìn)行計(jì)算:ci=a1+a2*T+a3*P+a4*K,其中,ci為第一詞元集中第i個(gè)詞元對應(yīng)的特征值,a1為該詞元在第一新聞記錄中出現(xiàn)的次數(shù),a2為該詞元在第一新聞記錄的標(biāo)題中出現(xiàn)的次數(shù),a3為該詞元在第一新聞記錄的段首或段尾中出現(xiàn)的次數(shù),a4為該詞元在第一新聞記錄的關(guān)鍵句中出現(xiàn)的次數(shù),T、P、K均為無量綱參數(shù)。進(jìn)一步地,在得到第一詞元集之后、計(jì)算第一詞元集中詞元對應(yīng)的特征值之前,將第一新聞記錄進(jìn)行特征化提取還包括:去除第一詞元集中的無效詞。進(jìn)一步地,在計(jì)算第一詞元集中詞元對應(yīng)的特征值之后、生成第一向量之前,將第一新聞記錄進(jìn)行特征化提取還包括:獲取第一詞元集中互為同義詞的詞元,得到同義詞元組;將同義詞元組對應(yīng)的各特征值相加后作為最大詞元對應(yīng)的特征值,其中,最大詞元為同義詞元組中特征值最大的詞元;在第一詞元集中刪除同義詞元組中除最大詞元之外的其他詞元。進(jìn)一步地,提取熱點(diǎn)新聞簇中的關(guān)鍵字包括:提取熱點(diǎn)新聞簇中各新聞記錄對應(yīng)的向量中的詞元作為關(guān)鍵字。進(jìn)一步地,根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽包括:針對熱點(diǎn)新聞簇的各新聞記錄,計(jì)算每個(gè)新聞記錄對應(yīng)的組合詞的特征值,其中,一個(gè)組合詞的特征值為該組合詞中各詞元對應(yīng)的特征值的和;采用以下公式計(jì)算組合詞的熱度值:其中,Term_hot_value為第一組合詞的熱度值,第一組合詞為任意一個(gè)組合詞,N為熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為熱點(diǎn)新聞簇中具有第一組合詞的新聞記錄個(gè)數(shù),Term_Countji為第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值;以及確定熱度值大于第三預(yù)設(shè)閾值的組合詞為新聞熱點(diǎn)標(biāo)簽。進(jìn)一步地,熱點(diǎn)新聞簇包括第二新聞記錄,提取第二新聞記錄的關(guān)鍵字包 括:對第二新聞記錄的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的第二詞元集;根據(jù)詞元在第二新聞記錄中出現(xiàn)的次數(shù)計(jì)算第二詞元集中詞元對應(yīng)的特征值;刪除第二詞元集中特征值小于第四預(yù)設(shè)閾值的詞元;確定第二詞元集中的詞元為第二新聞記錄的關(guān)鍵字。進(jìn)一步地,根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽包括:針對熱點(diǎn)新聞簇的各新聞記錄,計(jì)算每個(gè)新聞記錄對應(yīng)的組合詞的特征值,其中,一個(gè)組合詞的特征值為該組合詞中各關(guān)鍵字在該新聞記錄中出現(xiàn)次數(shù)的和;采用以下公式計(jì)算每個(gè)組合詞的熱度值:其中,Term_hot_value為第二組合詞的熱度值,第二組合詞為任意一個(gè)組合詞,N為熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為熱點(diǎn)新聞簇中具有第二組合詞的新聞記錄個(gè)數(shù),Term_Countji為第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值;以及確定熱度值大于第五預(yù)設(shè)閾值的組合詞為新聞熱點(diǎn)標(biāo)簽。進(jìn)一步地,確定提取出的多個(gè)新聞簇中的熱點(diǎn)新聞簇包括采用以下公式計(jì)算各個(gè)新聞簇的熱度值:Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate其中,Cluster_Hot_Value為一個(gè)新聞簇?zé)岫戎?,Site_Count為該新聞簇中包含的網(wǎng)站個(gè)數(shù),Site_Rate為曝光率權(quán)重,Publish_Count為新聞的發(fā)布量,Publish_Rate為發(fā)布率權(quán)重,且Site_Rate+Publish_Rate=1;以及根據(jù)各個(gè)新聞簇的熱度值確定熱點(diǎn)新聞簇。進(jìn)一步地,在提取新聞數(shù)據(jù)集中的新聞簇之前,該方法還包括:對新聞數(shù)據(jù)集進(jìn)行消噪處理。進(jìn)一步地,對新聞數(shù)據(jù)集進(jìn)行消噪處理包括:將新聞數(shù)據(jù)集中的新聞記錄的數(shù)據(jù)類型與預(yù)設(shè)的數(shù)據(jù)類型進(jìn)行匹配;刪除新聞數(shù)據(jù)集中數(shù)據(jù)類型與預(yù)設(shè)的數(shù)據(jù)類型不匹配的新聞記錄,和/或判斷新聞數(shù)據(jù)集中的新聞記錄的標(biāo)題與正文是否一致;刪除新聞數(shù)據(jù)集中標(biāo)題與正文不一致的新聞記錄。進(jìn)一步地,第三新聞記錄為新聞數(shù)據(jù)集中的任意一個(gè)新聞記錄,判斷第三 新聞記錄的標(biāo)題與正文是否一致包括:對第三新聞記錄的標(biāo)題進(jìn)行分詞,得到由一個(gè)或多個(gè)詞元組成的第三詞元組;統(tǒng)計(jì)第三詞元組中各詞元在第三新聞記錄的正文中出現(xiàn)次數(shù)的和;判斷統(tǒng)計(jì)得到的和是否大于第六預(yù)設(shè)閾值;以及當(dāng)統(tǒng)計(jì)得到的和大于第六預(yù)設(shè)閾值時(shí),確定第三新聞記錄的標(biāo)題與正文一致。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一個(gè)方面,提供了一種新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)。本發(fā)明的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)包括:第一提取單元,用于提取新聞數(shù)據(jù)集中的新聞簇,其中,新聞數(shù)據(jù)集由多個(gè)新聞記錄組成,一個(gè)新聞簇包括至少兩個(gè)新聞記錄;確定單元,用于確定提取出的多個(gè)新聞簇中的熱點(diǎn)新聞簇;第二提取單元,用于提取熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字;第一生成單元,用于生成由一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合的組合詞,其中,一個(gè)新聞記錄對應(yīng)一個(gè)或多個(gè)組合詞;以及第二生成單元,用于根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽。進(jìn)一步地,第一提取單元包括:第一計(jì)算模塊,用于計(jì)算新聞數(shù)據(jù)集中兩個(gè)新聞記錄之間的相似度;判斷模塊,用于判斷相似度是否大于第一預(yù)設(shè)閾值;以及第一確定模塊,用于當(dāng)相似度大于第一預(yù)設(shè)閾值時(shí),確定兩個(gè)新聞記錄屬于同一新聞簇。進(jìn)一步地,第一計(jì)算模塊包括:特征化子模塊,用于將兩個(gè)新聞記錄分別進(jìn)行特征化提取,得到一個(gè)新聞記錄對應(yīng)的第一向量和另一個(gè)新聞記錄對應(yīng)的第二向量;計(jì)算子模塊,用于采用以下任意一個(gè)公式計(jì)算相似度:Sim(X,Y)=(X*Y)/(||X||*||Y||),或者其中,Sim(X,Y)為相似度,X為第一向量,Y為第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分別為X和Y的歐幾里得范數(shù)。進(jìn)一步地,第一向量對應(yīng)的新聞記錄為第一新聞記錄,特征化子模塊采用 以下步驟得到第一向量:對第一新聞記錄的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的第一詞元集;根據(jù)詞元在第一新聞記錄中出現(xiàn)的次數(shù)計(jì)算第一詞元集中詞元對應(yīng)的特征值;刪除第一詞元集中特征值小于第二預(yù)設(shè)閾值的詞元;以及生成第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn第一詞元集中詞元,c1,c2,c3,...,cn分別為詞元對應(yīng)的特征值,n為第一詞元集中詞元的個(gè)數(shù)。進(jìn)一步地,特征化子模塊采用以下公式計(jì)算第一詞元集中詞元對應(yīng)的特征值:ci=a1+a2*T+a3*P+a4*K,其中,ci為第一詞元集中第i個(gè)詞元對應(yīng)的特征值,a1為該詞元在第一新聞記錄中出現(xiàn)的次數(shù),a2為該詞元在第一新聞記錄的標(biāo)題中出現(xiàn)的次數(shù),a3為該詞元在第一新聞記錄的段首或段尾中出現(xiàn)的次數(shù),a4為該詞元在第一新聞記錄的關(guān)鍵句中出現(xiàn)的次數(shù),T、P、K均為無量綱參數(shù)。進(jìn)一步地,第二提取單元提取熱點(diǎn)新聞簇中各新聞記錄對應(yīng)的向量中的詞元作為關(guān)鍵字。進(jìn)一步地,第二生成單元包括:第二計(jì)算模塊,用于針對熱點(diǎn)新聞簇的各新聞記錄,計(jì)算每個(gè)新聞記錄對應(yīng)的組合詞的特征值,其中,一個(gè)組合詞的特征值為該組合詞中各詞元對應(yīng)的特征值的和;第三計(jì)算模塊,采用以下公式計(jì)算組合詞的熱度值:其中,Term_hot_value為第一組合詞的熱度值,第一組合詞為任意一個(gè)組合詞,N為熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為熱點(diǎn)新聞簇中具有第一組合詞的新聞記錄個(gè)數(shù),Term_Countji為第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值;以及第二確定模塊,用于確定熱度值大于第三預(yù)設(shè)閾值的組合詞為新聞熱點(diǎn)標(biāo)簽。進(jìn)一步地,確定單元包括第四計(jì)算模塊,用于采用以下公式計(jì)算各個(gè)新聞簇的熱度值:Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate其中,Cluster_Hot_Value為一個(gè)新聞簇?zé)岫戎担琒ite_Count為該新聞簇中包 含的網(wǎng)站個(gè)數(shù),Site_Rate為曝光率權(quán)重,Publish_Count為新聞的發(fā)布量,Publish_Rate為發(fā)布率權(quán)重,且Site_Rate+Publish_Rate=1;以及第三確定模塊,用于根據(jù)各個(gè)新聞簇的熱度值確定熱點(diǎn)新聞簇。通過本發(fā)明,在生成新聞熱點(diǎn)標(biāo)簽時(shí),首先新聞數(shù)據(jù)集中提取新聞簇,每一個(gè)新聞簇都是由一群內(nèi)容相似的新聞記錄組成,而不同的新聞簇之間的新聞高度相異,然后在提取出的多個(gè)新聞簇中確定熱點(diǎn)新聞簇,再提取熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字,并生成由一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合的組合詞,最后根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽,能夠依據(jù)海量的新聞數(shù)據(jù)集生成新聞熱點(diǎn)標(biāo)簽,解決了新聞熱點(diǎn)標(biāo)簽生成準(zhǔn)確性低問題,達(dá)到了提高新聞熱點(diǎn)標(biāo)簽生成準(zhǔn)確性的效果。附圖說明圖1是根據(jù)本發(fā)明第一實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成方法的流程圖;圖2是根據(jù)本發(fā)明第二實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成方法的流程圖;圖3是根據(jù)本發(fā)明第三實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成方法的流程圖;圖4是根據(jù)本發(fā)明第四實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)的框圖;圖5是根據(jù)本發(fā)明第五實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)的框圖;圖6是根據(jù)本發(fā)明第六實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)的工作流程示意圖;圖7至圖10分別是根據(jù)本發(fā)明第六實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)中各模塊的工作流程示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明做進(jìn)一步說明。需要指出的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。首先對本發(fā)明所提供的新聞熱點(diǎn)標(biāo)簽的生成方法的實(shí)施例進(jìn)行詳細(xì)描述。圖1是根據(jù)本發(fā)明第一實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成方法的流程圖,如圖1所示,該方法包括如下的步驟S102至步驟S110。步驟S102:提取新聞數(shù)據(jù)集中的新聞簇。新聞數(shù)據(jù)集是由多個(gè)新聞記錄組成的集合,該集合可從網(wǎng)站上獲取,例如自動獲取各大門戶網(wǎng)站上新聞板塊 的新聞記錄。新聞簇是由至少兩個(gè)內(nèi)容相似的新聞記錄組成,屬于不同新聞簇的新聞記錄之間內(nèi)容高度相異。該步驟可通過聚類方法,將新聞數(shù)據(jù)集中各新聞記錄進(jìn)行聚類,得到新聞簇。步驟S104:確定提取出的多個(gè)新聞簇中的熱點(diǎn)新聞簇。從提取出的多個(gè)新聞簇確定熱點(diǎn)新聞簇時(shí),可根據(jù)新聞簇中各新聞記錄的曝光次數(shù)、轉(zhuǎn)載次數(shù)、評論量、發(fā)布量以及來源網(wǎng)站個(gè)數(shù)等因素計(jì)算新聞簇?zé)岫戎?,然后根?jù)新聞簇的熱度值進(jìn)行排序,提取排名靠前的新聞簇作為熱點(diǎn)新聞事件,即熱點(diǎn)新聞簇。在該步驟中,根據(jù)實(shí)際需要,可能確定一個(gè)或多個(gè)熱點(diǎn)新聞簇,當(dāng)確定的熱點(diǎn)新聞簇是多個(gè)時(shí),分別對每個(gè)熱點(diǎn)新聞簇執(zhí)行步驟S106至步驟S110,以確定每個(gè)熱點(diǎn)新聞簇的新聞熱點(diǎn)標(biāo)簽。步驟S106:提取熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字。在提取關(guān)鍵字時(shí),對熱點(diǎn)新聞簇進(jìn)行分析,通過多文檔關(guān)鍵字抽取技術(shù)提煉出熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字。這些關(guān)鍵字是指能夠體現(xiàn)新聞記錄的核心詞,例如以位于新聞標(biāo)題中的一些詞作為關(guān)鍵字。步驟S108:生成由一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合的組合詞。由于單一關(guān)鍵字所表示的信息量有限,因此在該步驟中將一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合為關(guān)鍵詞,優(yōu)選地,以相鄰的關(guān)鍵字結(jié)合起來形成組合詞,從而起到了擴(kuò)充信息量的作用。在進(jìn)行關(guān)鍵字的組合時(shí),可結(jié)合關(guān)鍵字的詞性進(jìn)行合理組合,組合后,一個(gè)新聞記錄將對應(yīng)一個(gè)或多個(gè)組合詞。步驟S110:根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽。在生成新聞熱點(diǎn)標(biāo)簽時(shí),可根據(jù)組合詞在新聞記錄中出現(xiàn)的次數(shù)、位置、在整個(gè)熱點(diǎn)新聞簇中出現(xiàn)的概率等因素計(jì)算該組合詞的熱度值,然后根據(jù)組合詞熱度值進(jìn)行排序,提取排名靠前的組合詞作為新聞熱點(diǎn)標(biāo)簽。采用該實(shí)施例提供的新聞熱點(diǎn)標(biāo)簽的生成方法,從海量的新聞數(shù)據(jù)集中獎(jiǎng)相似的新聞進(jìn)行聚類得到新聞簇,并確定新聞簇中的熱點(diǎn)新聞簇,然后在熱點(diǎn)新聞簇的多個(gè)新聞記錄中獲取到由多個(gè)關(guān)鍵字組成組合詞,最后根據(jù)組合詞的熱度值確定新聞熱點(diǎn)標(biāo)簽,提高了獲取新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確性。圖2是根據(jù)本發(fā)明第二實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成方法的流程圖,如圖2所示,該方法包括如下的步驟S202至步驟S214。步驟S202:獲取新聞數(shù)據(jù)集。在該步驟中,可定時(shí)或者在滿足一定條件時(shí),從預(yù)定的各大門戶網(wǎng)站新聞板塊自動獲取多條新聞記錄,該獲取到的新聞記錄采用統(tǒng)一格式存儲,將每條新聞記錄存儲為由<新聞標(biāo)題,新聞內(nèi)容,發(fā)布網(wǎng)站,發(fā)布時(shí)間,新聞鏈接>五部分內(nèi)容組成的數(shù)據(jù)。步驟S204:對新聞數(shù)據(jù)集進(jìn)行消噪處理。由于現(xiàn)實(shí)情況下數(shù)據(jù)是存在噪音的,因此該步驟的主要功能便是針對數(shù)據(jù)源中不合理數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,保留有效數(shù)據(jù),過濾無效數(shù)據(jù),以進(jìn)一步提高獲取新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確性,同時(shí),降低數(shù)據(jù)處理的復(fù)雜度。優(yōu)選地,在進(jìn)行消噪處理時(shí)采用如下的一種和/或兩種方法。方法1:將新聞數(shù)據(jù)集中的新聞記錄的數(shù)據(jù)類型與預(yù)設(shè)的數(shù)據(jù)類型進(jìn)行匹配,從而篩選出有問題的數(shù)據(jù),其中,預(yù)設(shè)的數(shù)據(jù)類型包括<新聞標(biāo)題,新聞內(nèi)容,發(fā)布網(wǎng)站,發(fā)布時(shí)間,新聞鏈接>五部分內(nèi)容,并且任意一部分內(nèi)容的數(shù)據(jù)格式均是標(biāo)準(zhǔn)數(shù)據(jù)格式。在匹配時(shí),如一條新聞記錄的某部分內(nèi)容為空,或者該新聞記錄的某部分內(nèi)容的數(shù)據(jù)格式和標(biāo)準(zhǔn)數(shù)據(jù)格式不一致,確定該新聞紀(jì)錄的數(shù)據(jù)類型與預(yù)設(shè)數(shù)據(jù)類型不匹配,將該新聞紀(jì)錄從新聞數(shù)據(jù)集中刪除。方法2:判斷新聞數(shù)據(jù)集中的新聞記錄的標(biāo)題與正文是否一致,當(dāng)標(biāo)題與正文不一致時(shí),確定該新聞記錄屬于無效的新聞記錄,從新聞數(shù)據(jù)集中刪除。為了準(zhǔn)確的將無效的新聞記錄從新聞數(shù)據(jù)集中刪除,更優(yōu)選地,在判斷新聞記錄的標(biāo)題與正文是否一致時(shí),首先對該新聞記錄的標(biāo)題進(jìn)行分詞,得到一個(gè)或多個(gè)詞元,將該一個(gè)或多個(gè)詞元組成一個(gè)詞元組;然后統(tǒng)計(jì)該詞元組中各詞元在該新聞記錄的正文中出現(xiàn)次數(shù)的和;再判斷統(tǒng)計(jì)得到的和是否大于預(yù)設(shè)的閾值,當(dāng)統(tǒng)計(jì)得到的和大于該閾值時(shí),確定該新聞記錄的標(biāo)題與正文一致,否則確定為不一致。步驟S206:提取消噪后的新聞數(shù)據(jù)集中的新聞簇。優(yōu)選地,在提取新聞簇時(shí),首先計(jì)算新聞數(shù)據(jù)集中各新聞記錄之間的相似度,將相似度較高的新聞紀(jì)錄構(gòu)成新聞簇。步驟S208:確定提取出的多個(gè)新聞簇中的熱點(diǎn)新聞簇。在確定熱點(diǎn)新聞簇時(shí),首先計(jì)算各個(gè)新聞簇的熱度值,然后根據(jù)計(jì)算得到的熱度值確定熱點(diǎn)新聞簇。優(yōu)選地,在計(jì)算新聞簇的熱度值時(shí),采用以下的公進(jìn)行計(jì)算:Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate其中,Cluster_Hot_Value為一個(gè)新聞簇?zé)岫戎?,Site_Count為該新聞簇中包含的網(wǎng)站個(gè)數(shù),也即曝光度,是指該新聞簇中各新聞記錄的不同源網(wǎng)站的個(gè)數(shù),Site_Rate為曝光率權(quán)重,用來衡量曝光度Site_Count的重要程度,即在計(jì)算新聞簇?zé)岫戎禃r(shí)Site_Count所占的比重;Publish_Count為新聞的發(fā)布量,是指在新聞簇中包含的所有新聞數(shù);Publish_Rate為發(fā)布率權(quán)重,用來衡量新聞發(fā)布量Publish_Count的重要程度,即在計(jì)算新聞簇?zé)岫戎禃r(shí)Publish_Count所占的比重,且Site_Rate+Publish_Rate=1。對每個(gè)新聞簇進(jìn)行計(jì)算,得到各新聞簇的熱度值,然后將各個(gè)熱度值進(jìn)行由大到小的排序,根據(jù)實(shí)際需要選擇熱度值排名前幾位的新聞簇作為熱點(diǎn)新聞簇,或者將計(jì)算得到的熱度值與預(yù)設(shè)值相比較,選擇熱度值大于預(yù)設(shè)值的新聞簇作為熱點(diǎn)新聞簇。步驟S210:提取熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字。對于一個(gè)新聞紀(jì)錄,在提取關(guān)鍵字時(shí),首先對該新聞記錄的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成詞元集;然后根據(jù)詞元在該新聞記錄中出現(xiàn)的次數(shù)計(jì)算詞元集中每個(gè)詞元對應(yīng)的特征值,其中,針對詞元在新聞記錄中出現(xiàn)的位置給予不同程度的線性加權(quán);然后將每個(gè)詞元的特征值與預(yù)設(shè)閾值比較,找出特征值小于預(yù)設(shè)閾值的詞元,并將這些詞元從詞元集中刪除,該詞元集中剩下的詞元作為該新聞記錄的關(guān)鍵字。將熱點(diǎn)新聞簇中各新聞紀(jì)錄按照上述方法確定關(guān)鍵字后,便可得到一個(gè)熱點(diǎn)新聞簇對應(yīng)的關(guān)鍵字。步驟S212:生成由一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合的組合詞。針對每個(gè)新聞紀(jì)錄,在得到關(guān)鍵字后,根據(jù)該新聞紀(jì)錄的關(guān)鍵字生成該新聞紀(jì)錄對應(yīng)的組合詞。在生成組合詞時(shí),可將相鄰的兩個(gè)或多個(gè)關(guān)鍵字進(jìn)行組合,具體地,可采用如下的組合方法。對于兩個(gè)關(guān)鍵字生成的組合詞,若前面關(guān)鍵字的詞性為形容詞,則后面關(guān)鍵字只能是名詞,即“形容詞+名詞”,其他的形式還有“動詞+副詞”,“動詞+名詞”,“名詞+名詞”,“名詞+動詞”五種形式;對于三個(gè)關(guān)鍵字生成的組合詞,組合可以是下面的任意一種:“名詞+名詞+名詞”,“名詞+形容詞+名詞”,“動詞+名詞+名詞”,“名詞+名詞+動詞”,“名詞+動詞+名詞”,“形容詞+名詞+動詞”, “副詞+形容詞+名詞”,此外用戶還可以根據(jù)自己的業(yè)務(wù)需求擴(kuò)充組合詞形式。將關(guān)鍵字組合為組合詞以后,擴(kuò)充了新聞熱點(diǎn)標(biāo)簽的信息量。步驟S214:根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽。通過上述步驟S212,可以得到熱點(diǎn)新聞簇中各新聞記錄的組合詞,在該步驟中,針對一個(gè)新聞紀(jì)錄,首先計(jì)算各個(gè)組合詞的特征值,一個(gè)組合詞的特征值為該組合詞中各關(guān)鍵字在該新聞記錄中出現(xiàn)次數(shù)的和;然后分別根據(jù)每個(gè)組合詞的特征值計(jì)算其熱度值,具體地,可采用如下的公式計(jì)算:其中,Term_hot_value為組合詞的熱度值,該組合詞為某熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞,N為該熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為該第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為該熱點(diǎn)新聞簇中具有該組合詞的新聞記錄個(gè)數(shù),Term_Countji為該第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值。采用上述公式,可確定每一個(gè)組合詞的熱度值,然后將每個(gè)熱度值與預(yù)設(shè)閾值,也即預(yù)設(shè)的熱度值進(jìn)行比較,找出熱度值大于該預(yù)設(shè)閾值的組合詞,將這一部分組合詞作為新聞熱點(diǎn)標(biāo)簽。采用該實(shí)施例提供的新聞熱點(diǎn)標(biāo)簽的生成方法,獲取到新聞數(shù)據(jù)集后,首先對其進(jìn)行消噪處理,能夠避免噪聲數(shù)據(jù)對新聞熱點(diǎn)標(biāo)簽準(zhǔn)確性的影響,同時(shí)提高后續(xù)步驟中數(shù)據(jù)處理效率;在確定熱點(diǎn)新聞簇時(shí),考慮新聞記錄來源網(wǎng)站個(gè)數(shù)、曝光率權(quán)重、新聞的發(fā)布量以及發(fā)布率權(quán)重因素,能夠準(zhǔn)確的從新聞數(shù)據(jù)集中提取熱點(diǎn)新聞簇;在利用關(guān)鍵字生成組合詞時(shí),考慮了關(guān)鍵字的詞性,使得新聞熱點(diǎn)標(biāo)簽的提取結(jié)果更加準(zhǔn)確。圖3是根據(jù)本發(fā)明第三實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成方法的流程圖,如圖3所示,該方法包括如下的步驟S302至步驟S318。步驟S302:獲取新聞數(shù)據(jù)集。步驟S304:對新聞數(shù)據(jù)集進(jìn)行消噪處理。上述的步驟S302與第二實(shí)施例中的步驟S202相同,上述的步驟S304與第二實(shí)施例中的步驟S204相同,此處不再贅述。步驟S306:將消噪后的新聞數(shù)據(jù)集中的新聞紀(jì)錄進(jìn)行特征化提取,得到 每個(gè)新聞紀(jì)錄對應(yīng)的向量。優(yōu)選地,針對一個(gè)新聞紀(jì)錄A,計(jì)算該新聞紀(jì)錄A對應(yīng)的向量的方法具體包括如下的步驟S3060至步驟S3063。步驟S3060:對該新聞記錄A的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的詞元集{w1,w2,w3,...,wn}。步驟S3061:根據(jù)詞元在該新聞記錄A中出現(xiàn)的次數(shù)計(jì)算詞元集中每個(gè)詞元對應(yīng)的特征值。以詞元集{w1,w2,w3,...,wn}中任意一個(gè)詞元wi為例,可采用以下公式計(jì)算該詞元wi對應(yīng)的特征值ci:ci=(a1+a2*T+a3*P+a4*K),其中,a1為該詞元wi在新聞記錄A中出現(xiàn)的次數(shù),a2為該詞元wi在新聞記錄A的標(biāo)題中出現(xiàn)的次數(shù),a3為該詞元wi在新聞記錄A的段首或段尾中出現(xiàn)的次數(shù),a4為該詞元wi在新聞記錄A的關(guān)鍵句中出現(xiàn)的次數(shù),該處的關(guān)鍵句是指新聞紀(jì)錄中的核心的和綜述的句子,可采用預(yù)設(shè)詞進(jìn)行標(biāo)定,例如將包括有“關(guān)鍵是”、“旨在”、“總之”等的句子標(biāo)定為關(guān)鍵句,T、P、K均為大于零的無量綱參數(shù)。步驟S3062:刪除詞元集{w1,w2,w3,...,wn}中特征值小于預(yù)設(shè)閾值的詞元。步驟S3063:根據(jù)刪除后的詞元及其對應(yīng)的特征值生成新聞記錄A對應(yīng)的向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),n為詞元集中詞元的個(gè)數(shù)。更優(yōu)選地,在步驟S3060與步驟S3061之間,設(shè)置步驟S3064:去除詞元集{w1,w2,w3,...,wn}中的無效詞。在該步驟S3064中,通過詞性分型,確定詞元集中的連詞、方位詞、區(qū)別詞、嘆詞、擬聲詞、介詞、量詞、代詞、助詞、語氣詞、狀態(tài)詞等無效詞,然后將詞元集{w1,w2,w3,...,wn}中的無效詞去除。通過該步驟S3064,在步驟S3061中,只需計(jì)算剩余詞元的詞元集,減少步驟S3061的計(jì)算量,提升數(shù)據(jù)處理效率。同時(shí),步驟S3063中的n為原始詞元集經(jīng)過S3064去除和步驟S3062刪除后剩余詞元的個(gè)數(shù)。為了進(jìn)一步提升數(shù)據(jù)處理效率,并使新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確度更高,進(jìn)一步優(yōu)選地,在步驟S3061與步驟S3062之間,設(shè)置步驟S3065至步驟S3067進(jìn)行同義詞元的處理,其中,對于經(jīng)過的向量計(jì)算方法,在步驟S3063中,n為原始詞元集經(jīng)過S3064去除、步驟S3062刪除和步驟S3067去除后剩余詞元個(gè)數(shù)。步驟S3065:獲取去除無效詞后的詞元集中互為同義詞的詞元,得到同義詞元組。步驟S3066:將同義詞元組對應(yīng)的各特征值相加后作為最大詞元對應(yīng)的特征值,其中,最大詞元為同義詞元組中特征值最大的詞元。步驟S3067:在去除無效詞后的詞元集中刪除同義詞元組中除最大詞元之外的其他詞元。步驟S308:根據(jù)兩個(gè)新聞紀(jì)錄對應(yīng)向量計(jì)算兩個(gè)新聞紀(jì)錄之間的相似度。優(yōu)選地,可采用以下任意一種方法計(jì)算相似度。余弦值相似度計(jì)算法:Sim(X,Y)=(X*Y)/(||X||*||Y||),X和Y分別為兩個(gè)新聞紀(jì)錄對應(yīng)的向量,X*Y表示向量X和向量Y之間的向量積,||X||和||Y||分別為X和Y的歐幾里得范數(shù);曼哈頓距離相似度計(jì)算法:X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),|xi-yi|為xi減去yi的絕對值。歐幾里得距離相似度計(jì)算法:(xi-yi)*(xi-yi)表示xi減去yi后差的平方。步驟S310:根據(jù)兩個(gè)新聞紀(jì)錄之間的相似度確定其是否屬于同一新聞簇。在確定新聞簇時(shí),判斷兩個(gè)新聞紀(jì)錄的相似度Sim(X,Y)是否大于預(yù)設(shè)閾值,如果大于,則認(rèn)為兩個(gè)新聞紀(jì)錄的內(nèi)容是相似的,屬于同一新聞簇,將其合并成簇;否則,繼續(xù)計(jì)算兩個(gè)新聞紀(jì)錄中一個(gè)新聞紀(jì)錄與下一個(gè)新聞紀(jì)錄之間的相似度,其中,預(yù)設(shè)閾值可由用戶根據(jù)實(shí)際需要定義。步驟S312:確定提取出的多個(gè)新聞簇中的熱點(diǎn)新聞簇。步驟S314:提取熱點(diǎn)新聞簇中各新聞記錄對應(yīng)的向量中的詞元作關(guān)鍵字。步驟S316:生成由一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合的組合詞。上述的步驟S312、步驟S314和步驟S316分別依次與上述第二實(shí)施例中的步驟S208、步驟S210和步驟S212相同,此處不再贅述。步驟S318:根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽。在該步驟中,針對一個(gè)新聞紀(jì)錄,首先計(jì)算各個(gè)組合詞的特征值,一個(gè)組 合詞的特征值為該組合詞中各關(guān)鍵字(也即各詞元)對應(yīng)的特征值的和,然后分別根據(jù)每個(gè)組合詞的特征值計(jì)算其熱度值,具體地,可采用如下的公式計(jì)算:其中,Term_hot_value為組合詞的熱度值,該組合詞為某熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞,N為該熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為該第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為該熱點(diǎn)新聞簇中具有該組合詞的新聞記錄個(gè)數(shù),Term_Countji為該第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值。采用上述公式,可確定每一個(gè)組合詞的熱度值,然后將每個(gè)熱度值與預(yù)設(shè)閾值,也即預(yù)設(shè)的熱度值進(jìn)行比較,找出熱度值大于該預(yù)設(shè)閾值的組合詞,將這一部分組合詞作為新聞熱點(diǎn)標(biāo)簽。優(yōu)選地,可將每一個(gè)組合詞的熱度值進(jìn)行歸一化處理,將歸一化處理后的值作為熱度值。采用該實(shí)施例提供的新聞熱點(diǎn)標(biāo)簽的生成方法,在計(jì)算詞元對應(yīng)的特征值時(shí),將詞元所在的位置給予線性加權(quán),從而避免漏掉出現(xiàn)次數(shù)少但重要的詞元,提高獲取新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確性;在計(jì)算特征值之前,根據(jù)詞元的詞性將無效詞去掉,提高方法的執(zhí)行效率;在計(jì)算特征值之后,從語義出發(fā),將同義的詞元特征值進(jìn)行合并處理,提升數(shù)據(jù)處理效率的同時(shí)進(jìn)一步使得新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確度更高;在計(jì)算熱度值時(shí),根據(jù)每個(gè)組合詞的特征值進(jìn)行計(jì)算,保證了新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確性;在確定新聞簇時(shí),計(jì)算新聞紀(jì)錄的相似度進(jìn)行確定,計(jì)算方法簡單,準(zhǔn)確性高。以上是對本發(fā)明所提供的新聞熱點(diǎn)標(biāo)簽的生成方法進(jìn)行的描述。下面將對本發(fā)明提供的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)進(jìn)行描述,需要說明的是,該系統(tǒng)可用于執(zhí)行上述任意一種新聞熱點(diǎn)標(biāo)簽的生成方法。圖4是根據(jù)本發(fā)明第四實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)的框圖,如圖4所示,該系統(tǒng)包括第一提取單元10、確定單元20、第二提取單元30、第一生成單元40和第二生成單元50。其中,第一提取單元10用于提取新聞數(shù)據(jù)集中的新聞簇。新聞數(shù)據(jù)集是由多個(gè)新聞記錄組成的集合,該提取單元10首先從網(wǎng)站上獲取各大門戶網(wǎng)站 上新聞板塊的新聞記錄,得到細(xì)紋數(shù)據(jù)集,然后通過聚類方法將新聞數(shù)據(jù)集中各新聞記錄進(jìn)行聚類,得到新聞簇,因而新聞簇至少由兩個(gè)內(nèi)容相似的新聞記錄組成,屬于不同新聞簇的新聞記錄之間內(nèi)容高度相異。確定單元20用于確定提取出的多個(gè)新聞簇中的熱點(diǎn)新聞簇,該確定單元20可根據(jù)新聞簇中各新聞記錄的曝光次數(shù)、轉(zhuǎn)載次數(shù)、評論量、發(fā)布量以及來源網(wǎng)站個(gè)數(shù)等因素計(jì)算新聞簇?zé)岫戎?,然后根?jù)新聞簇的熱度值進(jìn)行排序,提取排名靠前的新聞簇作為熱點(diǎn)新聞事件,也即熱點(diǎn)新聞簇。第二提取單元30用于提取熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字,在提取關(guān)鍵字時(shí),第二提取單元30對熱點(diǎn)新聞簇進(jìn)行分析,通過多文檔關(guān)鍵字抽取技術(shù)提煉出熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字。這些關(guān)鍵字是指能夠體現(xiàn)新聞記錄的核心詞,例如以位于新聞標(biāo)題中的一些詞作為關(guān)鍵字。第一生成單元40用于生成由一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合的組合詞,由于單一關(guān)鍵字所表示的信息量有限,因此通過該單元將一個(gè)新聞記錄的至少兩個(gè)關(guān)鍵字組合為關(guān)鍵詞,優(yōu)選地,以相鄰的關(guān)鍵字結(jié)合起來形成組合詞,從而起到了擴(kuò)充信息量的作用。在進(jìn)行關(guān)鍵字的組合時(shí),可結(jié)合關(guān)鍵字的詞性進(jìn)行合理組合,組合后,一個(gè)新聞記錄將對應(yīng)一個(gè)或多個(gè)組合詞。第二生成單元50用于根據(jù)組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽,在生成新聞熱點(diǎn)標(biāo)簽時(shí),可根據(jù)組合詞在新聞記錄中出現(xiàn)的次數(shù)、位置、在整個(gè)熱點(diǎn)新聞簇中出現(xiàn)的概率等因素計(jì)算該組合詞的熱度值,然后根據(jù)組合詞熱度值進(jìn)行排序,提取排名靠前的組合詞作為新聞熱點(diǎn)標(biāo)簽。采用該實(shí)施例提供的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng),從海量的新聞數(shù)據(jù)集中獎(jiǎng)相似的新聞進(jìn)行聚類得到新聞簇,并確定新聞簇中的熱點(diǎn)新聞簇,然后在熱點(diǎn)新聞簇的多個(gè)新聞記錄中獲取到由多個(gè)關(guān)鍵字組成組合詞,最后根據(jù)組合詞的熱度值確定新聞熱點(diǎn)標(biāo)簽,提高了獲取新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確性。圖5是根據(jù)本發(fā)明第五實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)的框圖,如圖5所示,該系統(tǒng)包括獲取單元60、消噪單元70、第一提取單元10、確定單元20、第二提取單元30、第一生成單元40和第二生成單元50,其中,消噪單元60包括第一消噪模塊62和/或第二消噪模塊64;第一提取單元10包括第一計(jì)算模塊12、判斷模塊14、第一確定模塊16;確定單元20包括第四計(jì)算模塊22 和第三確定模塊24;第二生成單元50包括第二計(jì)算模塊52、第三計(jì)算模塊54和第二確定模塊56。獲取單元60用于獲取多個(gè)新聞紀(jì)錄構(gòu)成新聞數(shù)據(jù)集。該獲取單元60可定時(shí)或者在滿足一定條件時(shí),從預(yù)定的各大門戶網(wǎng)站新聞板塊自動獲取多條新聞記錄,該獲取到的新聞記錄采用統(tǒng)一格式存儲,將每條新聞記錄存儲為由<新聞標(biāo)題,新聞內(nèi)容,發(fā)布網(wǎng)站,發(fā)布時(shí)間,新聞鏈接>五部分內(nèi)容組成的數(shù)據(jù)。消噪單元70用于對新聞數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行消噪處理,過濾無效數(shù)據(jù),以進(jìn)一步提高獲取新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確性,同時(shí),降低數(shù)據(jù)處理的復(fù)雜度。具體地,第一消噪模塊62用于將新聞數(shù)據(jù)集中的新聞記錄的數(shù)據(jù)類型與預(yù)設(shè)的數(shù)據(jù)類型進(jìn)行匹配,并所述新聞數(shù)據(jù)集中數(shù)據(jù)類型與預(yù)設(shè)的數(shù)據(jù)類型不匹配的新聞記錄,該消噪模塊62可用于執(zhí)行上述第二實(shí)施例中的方法1,此處不再贅述。第二消噪模塊64用于判斷新聞數(shù)據(jù)集中的新聞記錄的標(biāo)題與正文是否一致,并刪除新聞數(shù)據(jù)集中標(biāo)題與正文不一致的新聞記錄,該消噪模塊64在判斷新聞紀(jì)錄的標(biāo)題與正文是否一致時(shí),首先對新聞記錄的標(biāo)題進(jìn)行分詞,得到由一個(gè)或多個(gè)詞元組成的詞元組,然后統(tǒng)計(jì)該詞元組中各詞元在該新聞記錄的正文中出現(xiàn)次數(shù)的和;再判斷統(tǒng)計(jì)得到的和是否大于預(yù)設(shè)閾值,如果統(tǒng)計(jì)得到的和大于預(yù)設(shè)閾值時(shí),確定該新聞記錄的標(biāo)題與正文一致。第一提取單元10用于提取消噪后的新聞數(shù)據(jù)集中的新聞簇,該提取單元10在提取新聞簇時(shí),首先計(jì)算新聞數(shù)據(jù)集中各新聞記錄之間的相似度,將相似度較高的新聞紀(jì)錄組成新聞簇。第一計(jì)算模塊12用于計(jì)算新聞數(shù)據(jù)集中兩個(gè)新聞記錄之間的相似度。具體地,第一計(jì)算模塊包括特征化子模塊和計(jì)算子模塊。特征化子模塊用于將兩個(gè)新聞記錄分別進(jìn)行特征化提取,得到每個(gè)新聞記錄對應(yīng)的向量。在對一個(gè)新聞紀(jì)錄A進(jìn)行特征化提取時(shí),首先對該新聞記錄A的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的詞元集{w1,w2,w3,...,wn};然后根據(jù)詞元在該新聞記錄A中出現(xiàn)的次數(shù)計(jì)算該詞元集中詞元對應(yīng)的特征值;再刪除詞元集中特征值小于預(yù)設(shè)閾值的詞元;最后根據(jù)刪除后的詞元及其對應(yīng)的特征值生成該新聞記錄的向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>), 其中,c1,c2,c3,...,cn分別為詞元對應(yīng)的特征值,n為詞元集中詞元的個(gè)數(shù)。其中,特征化子模塊在計(jì)算詞元對應(yīng)的特征值時(shí),可采用如下的公式:ci=a1+a2*T+a3*P+a4*K其中,ci為詞元集{w1,w2,w3,...,wn}中第i個(gè)詞元wi對應(yīng)的特征值,a1為該詞元wi在該新聞記錄A中出現(xiàn)的次數(shù),a2為該詞元wi在新聞記錄A的標(biāo)題中出現(xiàn)的次數(shù),a3為該詞元wi在新聞記錄A的段首或段尾中出現(xiàn)的次數(shù),a4為該詞元wi在新聞記錄A的關(guān)鍵句中出現(xiàn)的次數(shù),T、P、K均為無量綱參數(shù)。計(jì)算子模塊用于采用上述的余弦值相似度計(jì)算法、曼哈頓距離相似度計(jì)算法或歐幾里得距離相似度計(jì)算法計(jì)算兩個(gè)新聞紀(jì)錄之間的相似度,此處不再贅述。判斷模塊14用于判斷相似度是否大于一個(gè)預(yù)設(shè)閾值,當(dāng)相似度大于該預(yù)設(shè)閾值時(shí),第一確定模塊16確定兩個(gè)新聞記錄屬于同一新聞簇。確定單元20用于確定熱點(diǎn)新聞簇,具體地,第四計(jì)算模塊22采用以下公式計(jì)算各個(gè)新聞簇的熱度值:Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate其中,Cluster_Hot_Value為一個(gè)新聞簇?zé)岫戎担琒ite_Count為該新聞簇中包含的網(wǎng)站個(gè)數(shù),Site_Rate為曝光率權(quán)重,Publish_Count為新聞的發(fā)布量,Publish_Rate為發(fā)布率權(quán)重,且Site_Rate+Publish_Rate=1。第三確定模塊24用于根據(jù)各個(gè)新聞簇的熱度值確定熱點(diǎn)新聞簇。第二提取單元30用于提取熱點(diǎn)新聞簇中各新聞記錄對應(yīng)的向量中的詞元作為關(guān)鍵字,第一生成單元40與上述第四實(shí)施例中的第一生成單元40相同,此處不再贅述。第二生成單元50中的第二計(jì)算模塊52用于針對熱點(diǎn)新聞簇的各新聞記錄,計(jì)算每個(gè)新聞記錄對應(yīng)的組合詞的特征值,其中,一個(gè)組合詞的特征值為該組合詞中各詞元對應(yīng)的特征值的和。第三計(jì)算模塊54用于采用以下公式計(jì)算某熱點(diǎn)新聞簇中第j個(gè)新聞中的一個(gè)組合詞的熱度值:其中,Term_hot_value為該組合詞的熱度值,N為該熱點(diǎn)新聞簇包括的 新聞記錄的個(gè)數(shù),M為該第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為該熱點(diǎn)新聞簇中具有該組合詞的新聞記錄個(gè)數(shù),Term_Countji為第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值。第二確定模塊56用于確定熱度值大于預(yù)設(shè)熱度值的組合詞為新聞熱點(diǎn)標(biāo)簽。圖6是根據(jù)本發(fā)明第六實(shí)施例的新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng)的工作流程示意圖,該系統(tǒng)最大的特點(diǎn)是對新聞紀(jì)錄進(jìn)行了結(jié)構(gòu)化分析,針對詞元在新聞紀(jì)錄中出現(xiàn)的位置給予不同程度的線性加權(quán);并且考慮了詞元的基本語義信息,對詞元的詞性和同義詞進(jìn)行分析,從而使得新聞熱點(diǎn)標(biāo)簽的提取結(jié)果更加準(zhǔn)確;基于多文檔的標(biāo)簽提取,與基于單一文檔的標(biāo)簽提取方法相比,充分考慮了多個(gè)新聞紀(jì)錄同時(shí)分析時(shí)對標(biāo)簽提取的影響。具體地,如圖6所示,該系統(tǒng)主要包含數(shù)據(jù)清理模塊、特征化提取模塊、熱點(diǎn)新聞聚焦模塊和熱點(diǎn)標(biāo)簽發(fā)現(xiàn)模塊四個(gè)模塊。其中,數(shù)據(jù)清理模塊相當(dāng)于上述各實(shí)施例中的消噪單元。由于現(xiàn)實(shí)情況下數(shù)據(jù)是存在噪音的,因此該模塊的主要功能便是針對數(shù)據(jù)源中不合理數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,保留有效數(shù)據(jù),過濾無效數(shù)據(jù)。特征化提取模塊是源數(shù)據(jù)的一般特性進(jìn)行匯總,特征化后的數(shù)據(jù)既能清晰地代表源數(shù)據(jù),又能在分析時(shí)對源數(shù)據(jù)進(jìn)行有效降維,從而提高后續(xù)算法的執(zhí)行效率,經(jīng)過該特征化提取模塊,可獲得每個(gè)新聞紀(jì)錄對應(yīng)的向量。該特征化提取模塊相當(dāng)于上述各實(shí)施例中的特征化子模塊。熱點(diǎn)新聞聚焦模塊的主要功能是從海量的新聞數(shù)據(jù)集中提煉新聞簇,每一個(gè)新聞簇都是由一群內(nèi)容相似的新聞組成,而不同的新聞簇之間的新聞高度相異。然后根據(jù)新聞簇的熱度值進(jìn)行排序,提取排名靠前的新聞簇作為熱點(diǎn)新聞簇。熱點(diǎn)標(biāo)簽發(fā)現(xiàn)模塊的主要功能即在上述各模塊的基礎(chǔ)上,對熱點(diǎn)新聞簇進(jìn)行分析,通過多文檔關(guān)鍵字抽取技術(shù)提煉出這些熱點(diǎn)新聞簇的各新聞紀(jì)錄中的的關(guān)鍵字,然后根據(jù)關(guān)鍵字生成組合詞,最后根據(jù)組合詞熱度值進(jìn)行排序,提取排名靠前的組合詞作為熱點(diǎn)新聞標(biāo)簽。具體地,如圖7所示,數(shù)據(jù)清理模塊的工作流程如下:1)從數(shù)據(jù)源中獲得新聞數(shù)據(jù)集,每條新聞記錄由<新聞標(biāo)題,新聞內(nèi)容,發(fā)布網(wǎng)站,發(fā)布時(shí)間,新聞鏈接>五部分內(nèi)容組成;2)讀取系統(tǒng)和用戶定義的問題數(shù)據(jù)類型,將每條新聞記錄進(jìn)行匹配,從而篩選出有問題的數(shù)據(jù)。該系統(tǒng)默認(rèn)提供缺失值和格式不一致兩種問題數(shù)據(jù)類型。缺失值類型是指該條新聞記錄某部分內(nèi)容為空的情況;格式不一致類型是指新聞記錄某部分內(nèi)容的數(shù)據(jù)格式和標(biāo)準(zhǔn)數(shù)據(jù)格式不一致情況。3)發(fā)現(xiàn)問題數(shù)據(jù)后,選擇問題數(shù)據(jù)處理方式,本系統(tǒng)提供兩種默認(rèn)忽略元組處理法和默認(rèn)缺失值處理法兩種處理方式。在忽略元組處理法中,如果新聞記錄的某部分內(nèi)容為問題數(shù)據(jù),則將整條新聞記錄忽略不考慮;在默認(rèn)缺失值處理法,如果新聞記錄的某部分內(nèi)容為問題數(shù)據(jù),則將該部分內(nèi)容用一個(gè)默認(rèn)的常量代替。4)將上述步驟處理后所得到的新聞紀(jì)錄進(jìn)行標(biāo)題與正文一致性判斷,其目的是清理掉那些標(biāo)題與正文不符的無效新聞,具體的一致性判斷方法上文已做詳細(xì)描述,此處不再贅述。5)將標(biāo)題內(nèi)容不一致的新聞記錄采用上述的忽略元組法進(jìn)行處理,最終完成數(shù)據(jù)清理流程。如圖8所示,征化提取模塊為整個(gè)系統(tǒng)的數(shù)據(jù)預(yù)處理環(huán)節(jié),特征化后的結(jié)果將為后續(xù)處理做數(shù)據(jù)準(zhǔn)備,特征化提取模塊的工作流程如下:1)對新聞紀(jì)錄的標(biāo)題和正文進(jìn)行分詞,將新聞紀(jì)錄轉(zhuǎn)化為形如{w1,w2,w3,...,wn}的詞元集;2)分析詞性,將詞元集中的連詞、方位詞、區(qū)別詞、嘆詞、擬聲詞、介詞、量詞、代詞、助詞、語氣詞、狀態(tài)詞等無效詞性過濾;3)掃描過濾后的詞元集,并按下列方式進(jìn)行詞元統(tǒng)計(jì),為每個(gè)詞元設(shè)置一個(gè)相應(yīng)的計(jì)數(shù)器,并初始化賦值為1,此后該詞元每出現(xiàn)一次就在其相應(yīng)的計(jì)數(shù)器中加1,以<w,c>形式保存,其中w表示詞元,c表示計(jì)數(shù)器(計(jì)數(shù)器中的值為詞元對應(yīng)的特征值);如果詞元在標(biāo)題位置中出現(xiàn),那么在相應(yīng)的計(jì)數(shù)器中額外加整數(shù)T;如果詞元在段首或段尾出現(xiàn),那么在相應(yīng)的計(jì)數(shù)器中額外加整數(shù)P;判斷詞元是否在“關(guān)鍵句”中出現(xiàn),所謂“關(guān)鍵句”是指例如那些包含諸如“關(guān)鍵是…”、“旨在…”、“總之…”等的句子。對在“關(guān)鍵句”中 出現(xiàn)的詞元,再在相應(yīng)的計(jì)數(shù)器中額外加整數(shù)K。4)同義詞處理,如果多個(gè)詞元之間互為同義詞,那么選擇計(jì)數(shù)器的計(jì)分最高者,保留該詞元和相應(yīng)計(jì)數(shù)器,然后把其它同義詞的計(jì)數(shù)器計(jì)分全部加入該計(jì)數(shù)器中;5)歸一化處理是將同義詞處理后所有詞元的計(jì)數(shù)器計(jì)分相加得到和S,然后每個(gè)計(jì)數(shù)器的計(jì)分除以S再放入計(jì)數(shù)器,此時(shí)每個(gè)計(jì)數(shù)器計(jì)分將是一個(gè)大于0小于1的值;6)閾值判斷先設(shè)定閾值λ,過濾計(jì)數(shù)器計(jì)分小于λ的詞元,保留計(jì)數(shù)器積分大于或等于λ的詞元,此時(shí)每條新聞記錄可表示成向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中λ≤ci。熱點(diǎn)新聞聚焦模塊是在上述特征化提取模塊的基礎(chǔ)上,將內(nèi)容相似的新聞聚集成簇,并計(jì)算新聞簇?zé)岫戎?,最后提取出熱點(diǎn)新聞事件。如圖9所示,熱點(diǎn)新聞聚焦模塊的工作流程如下:1)新聞簇初始化:首先掃描所有的特征化后的新聞記錄,并將每個(gè)新聞對象作為一個(gè)初始簇;2)計(jì)算兩個(gè)新聞紀(jì)錄之間的相似度,可采用上述三種方法中的任一種。3)判斷相似度是否大于閾值,如果大于,則認(rèn)為兩篇新聞紀(jì)錄的內(nèi)容是相似的,將其合并成簇,否則繼續(xù)計(jì)算與下一篇新聞之間的相似度;4)計(jì)算新聞簇?zé)岫戎担唧w計(jì)算方法上文已做詳細(xì)描述,此處不再贅述。5)最后將所有的新聞簇按照熱度值從高到低進(jìn)行排序,抽取前幾位的新聞簇作為熱點(diǎn)新聞簇。如圖10所示,熱點(diǎn)標(biāo)簽發(fā)現(xiàn)模塊的工作流程如下:1)讀取熱點(diǎn)新聞簇中的新聞記錄,針對每篇新聞記錄,進(jìn)行分詞、過濾無效詞性、詞元統(tǒng)計(jì)和同義詞處理,其處理流程和特征化提取模塊中對應(yīng)的流程一致,在此不再重復(fù);2)組合詞生成:由于單一詞元所表示的信息量有限,因此需要將相鄰的詞元結(jié)合起來形成組合詞,從而擴(kuò)充其信息量。3)計(jì)算所有組合詞的熱度值,具體計(jì)算方法上文已做詳細(xì)描述,此處不再贅述。4)最后將熱點(diǎn)新聞簇中的所有組合詞按照熱度值從高到低進(jìn)行排序,抽取前幾位的即為新聞熱點(diǎn)標(biāo)簽。從以上的描述中,可以看出,本發(fā)明實(shí)施例實(shí)現(xiàn)了如下技術(shù)效果:提高了獲取新聞熱點(diǎn)標(biāo)簽的準(zhǔn)確性。以上,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。