技術(shù)特征:1.一種新聞熱點(diǎn)標(biāo)簽的生成方法,其特征在于,包括:提取新聞數(shù)據(jù)集中的新聞簇,其中,所述新聞數(shù)據(jù)集由多個(gè)新聞記錄組成,一個(gè)所述新聞簇包括至少兩個(gè)所述新聞記錄;確定提取出的多個(gè)所述新聞簇中的熱點(diǎn)新聞簇;提取所述熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字;生成由一個(gè)新聞記錄的至少兩個(gè)所述關(guān)鍵字組合的組合詞,其中,一個(gè)新聞記錄對應(yīng)一個(gè)或多個(gè)所述組合詞;以及根據(jù)所述組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽,其中,提取新聞數(shù)據(jù)集中的新聞簇包括:計(jì)算所述新聞數(shù)據(jù)集中兩個(gè)新聞記錄之間的相似度;判斷所述相似度是否大于第一預(yù)設(shè)閾值;以及若所述相似度大于所述第一預(yù)設(shè)閾值時(shí),確定所述兩個(gè)新聞記錄屬于同一新聞簇,計(jì)算兩個(gè)新聞記錄之間的相似度包括:將所述兩個(gè)新聞記錄分別進(jìn)行特征化提取,得到一個(gè)新聞記錄對應(yīng)的第一向量和另一個(gè)新聞記錄對應(yīng)的第二向量;采用以下任意一個(gè)公式計(jì)算所述相似度:Sim(X,Y)=(X*Y)/(||X||*||Y||),或者其中,Sim(X,Y)為所述相似度,X為所述第一向量,Y為所述第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分別為X和Y的歐幾里得范數(shù),所述第一向量對應(yīng)的新聞記錄為第一新聞記錄,將所述第一新聞記錄進(jìn)行特征化提取,得到所述第一向量包括:對所述第一新聞記錄的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的第一詞元集;根據(jù)詞元在所述第一新聞記錄中出現(xiàn)的次數(shù)計(jì)算所述第一詞元集中詞元對應(yīng)的特征值;刪除所述第一詞元集中特征值小于第二預(yù)設(shè)閾值的詞元;以及生成所述第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn所述第一詞元集中詞元,c1,c2,c3,...,cn分別為詞元 對應(yīng)的特征值,n為所述第一詞元集中詞元的個(gè)數(shù),計(jì)算所述第一詞元集中詞元對應(yīng)的特征值包括采用以下公式進(jìn)行計(jì)算:ci=a1+a2*T+a3*P+a4*K其中,ci為所述第一詞元集中第i個(gè)詞元對應(yīng)的特征值,a1為所述第i個(gè)詞元在所述第一新聞記錄中出現(xiàn)的次數(shù),a2為所述第i個(gè)詞元在所述第一新聞記錄的標(biāo)題中出現(xiàn)的次數(shù),a3為所述第i個(gè)詞元在所述第一新聞記錄的段首或段尾中出現(xiàn)的次數(shù),a4為所述第i個(gè)詞元在所述第一新聞記錄的關(guān)鍵句中出現(xiàn)的次數(shù),T、P、K均為無量綱參數(shù)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在得到所述第一詞元集之后、計(jì)算所述第一詞元集中詞元對應(yīng)的特征值之前,將所述第一新聞記錄進(jìn)行特征化提取還包括:去除所述第一詞元集中的無效詞。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在計(jì)算所述第一詞元集中詞元對應(yīng)的特征值之后、生成所述第一向量之前,將所述第一新聞記錄進(jìn)行特征化提取還包括:獲取所述第一詞元集中互為同義詞的詞元,得到同義詞元組;將所述同義詞元組對應(yīng)的各特征值相加后作為最大詞元對應(yīng)的特征值,其中,所述最大詞元為所述同義詞元組中特征值最大的詞元;在所述第一詞元集中刪除所述同義詞元組中除所述最大詞元之外的其他詞元。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,提取所述熱點(diǎn)新聞簇中的關(guān)鍵字包括:提取所述熱點(diǎn)新聞簇中各新聞記錄對應(yīng)的向量中的詞元作為所述關(guān)鍵字。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽包括:針對所述熱點(diǎn)新聞簇的各新聞記錄,計(jì)算每個(gè)新聞記錄對應(yīng)的組合詞的特征值,其中,一個(gè)組合詞的特征值為該組合詞中各詞元對應(yīng)的特征值的和;采用以下公式計(jì)算所述組合詞的熱度值:其中,Term_hot_value為第一組合詞的熱度值,所述第一組合詞為任意一個(gè)所述組合詞,N為所述熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為所述熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為所述熱點(diǎn)新聞簇中具有所述第一組合詞的新聞記錄個(gè)數(shù),Term_Countji為所述第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值;以及確定熱度值大于第三預(yù)設(shè)閾值的組合詞為所述新聞熱點(diǎn)標(biāo)簽。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述熱點(diǎn)新聞簇包括第二新聞記錄,提取所述第二新聞記錄的關(guān)鍵字包括:對所述第二新聞記錄的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的第二詞元集;根據(jù)詞元在所述第二新聞記錄中出現(xiàn)的次數(shù)計(jì)算所述第二詞元集中詞元對應(yīng)的特征值;刪除所述第二詞元集中特征值小于第四預(yù)設(shè)閾值的詞元;確定所述第二詞元集中的詞元為所述第二新聞記錄的關(guān)鍵字。7.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽包括:針對所述熱點(diǎn)新聞簇的各新聞記錄,計(jì)算每個(gè)新聞記錄對應(yīng)的組合詞的特征值,其中,所述一個(gè)組合詞的特征值為該組合詞中各關(guān)鍵字在該新聞記錄中出現(xiàn)次數(shù)的和;采用以下公式計(jì)算每個(gè)所述組合詞的熱度值:其中,Term_hot_value為第二組合詞的熱度值,所述第二組合詞為任意一個(gè)所述組合詞,N為所述熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為所述熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為所述熱點(diǎn)新聞簇中具有所述第二組合詞的新聞記錄個(gè)數(shù),Term_Countji為所述第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值;以及確定熱度值大于第五預(yù)設(shè)閾值的組合詞為所述新聞熱點(diǎn)標(biāo)簽。8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其特征在于,確定提取出的多個(gè)所述新聞簇中的熱點(diǎn)新聞簇包括:采用以下公式計(jì)算各個(gè)新聞簇的熱度值,Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate其中,Cluster_Hot_Value為一個(gè)新聞簇?zé)岫戎?,Site_Count為該新聞簇中包含的網(wǎng)站個(gè)數(shù),Site_Rate為曝光率權(quán)重,Publish_Count為新聞的發(fā)布量,Publish_Rate為發(fā)布率權(quán)重,且Site_Rate+Publish_Rate=1;以及根據(jù)所述各個(gè)新聞簇的熱度值確定所述熱點(diǎn)新聞簇。9.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其特征在于,在提取新聞數(shù)據(jù)集中的新聞簇之前,所述方法還包括:對所述新聞數(shù)據(jù)集進(jìn)行消噪處理。10.根據(jù)權(quán)利要求9所述的方法,其特征在于,對所述新聞數(shù)據(jù)集進(jìn)行消噪處理包括:將所述新聞數(shù)據(jù)集中的新聞記錄的數(shù)據(jù)類型與預(yù)設(shè)的數(shù)據(jù)類型進(jìn)行匹配;刪除所述新聞數(shù)據(jù)集中數(shù)據(jù)類型與所述預(yù)設(shè)的數(shù)據(jù)類型不匹配的新聞記錄,和/或判斷所述新聞數(shù)據(jù)集中的新聞記錄的標(biāo)題與正文是否一致;刪除所述新聞數(shù)據(jù)集中標(biāo)題與正文不一致的新聞記錄。11.根據(jù)權(quán)利要求10所述的方法,其特征在于,第三新聞記錄為所述新聞數(shù)據(jù)集中的任意一個(gè)新聞記錄,判斷所述第三新聞記錄的標(biāo)題與正文是否一致包括:對所述第三新聞記錄的標(biāo)題進(jìn)行分詞,得到由一個(gè)或多個(gè)詞元組成的第三詞元組;統(tǒng)計(jì)所述第三詞元組中各詞元在所述第三新聞記錄的正文中出現(xiàn)次數(shù)的和;判斷統(tǒng)計(jì)得到的和是否大于第六預(yù)設(shè)閾值;以及當(dāng)所述統(tǒng)計(jì)得到的和大于所述第六預(yù)設(shè)閾值時(shí),確定所述第三新聞記錄的標(biāo)題與正文一致。12.一種新聞熱點(diǎn)標(biāo)簽的生成系統(tǒng),其特征在于,包括:第一提取單元,用于提取新聞數(shù)據(jù)集中的新聞簇,其中,所述新聞數(shù)據(jù)集由多個(gè)新聞記錄組成,一個(gè)所述新聞簇包括至少兩個(gè)所述新聞記錄;確定單元,用于確定提取出的多個(gè)所述新聞簇中的熱點(diǎn)新聞簇;第二提取單元,用于提取所述熱點(diǎn)新聞簇中各新聞記錄的關(guān)鍵字;第一生成單元,用于生成由一個(gè)新聞記錄的至少兩個(gè)所述關(guān)鍵字組合的組合詞,其中,一個(gè)新聞記錄對應(yīng)一個(gè)或多個(gè)所述組合詞;以及第二生成單元,用于根據(jù)所述組合詞的熱度值生成新聞熱點(diǎn)標(biāo)簽,所述第一提取單元包括:第一計(jì)算模塊,用于計(jì)算所述新聞數(shù)據(jù)集中兩個(gè)新聞記錄之間的相似度;判斷模塊,用于判斷所述相似度是否大于第一預(yù)設(shè)閾值;以及第一確定模塊,用于當(dāng)所述相似度大于所述第一預(yù)設(shè)閾值時(shí),確定所述兩個(gè)新聞記錄屬于同一新聞簇,所述第一計(jì)算模塊包括:特征化子模塊,用于將所述兩個(gè)新聞記錄分別進(jìn)行特征化提取,得到一個(gè)新聞記錄對應(yīng)的第一向量和另一個(gè)新聞記錄對應(yīng)的第二向量;計(jì)算子模塊,用于采用以下任意一個(gè)公式計(jì)算所述相似度:Sim(X,Y)=(X*Y)/(||X||*||Y||),或者其中,Sim(X,Y)為所述相似度,X為所述第一向量,Y為所述第二向量,X=(x1,x2,x3,...,xn),Y=(y1,y2,y3,...,yn),||X||和||Y||分別為X和Y的歐幾里得范數(shù),所述第一向量對應(yīng)的新聞記錄為第一新聞記錄,所述特征化子模塊采用以下步驟得到所述第一向量:對所述第一新聞記錄的標(biāo)題和正文進(jìn)行分詞,得到由多個(gè)詞元組成的第一詞元集;根據(jù)詞元在所述第一新聞記錄中出現(xiàn)的次數(shù)計(jì)算所述第一詞元集中詞元對應(yīng)的特征值;刪除所述第一詞元集中特征值小于第二預(yù)設(shè)閾值的詞元;以及生成所述第一向量:X=(<w1,c1>,<w2,c2>,<w3,c3>,...,<wn,cn>),其中,w1,w2,w3,...,wn所述第一詞元集中詞元,c1,c2,c3,...,cn分別為詞元對應(yīng)的特征值,n為所述第一詞元集中詞元的個(gè)數(shù),所述特征化子模塊采用以下公式計(jì)算所述第一詞元集中詞元對應(yīng)的特征 值:ci=a1+a2*T+a3*P+a4*K其中,ci為所述第一詞元集中第i個(gè)詞元對應(yīng)的特征值,a1為所述第i個(gè)詞元在所述第一新聞記錄中出現(xiàn)的次數(shù),a2為所述第i個(gè)詞元在所述第一新聞記錄的標(biāo)題中出現(xiàn)的次數(shù),a3為所述第i個(gè)詞元在所述第一新聞記錄的段首或段尾中出現(xiàn)的次數(shù),a4為所述第i個(gè)詞元在所述第一新聞記錄的關(guān)鍵句中出現(xiàn)的次數(shù),T、P、K均為無量綱參數(shù)。13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述第二提取單元提取所述熱點(diǎn)新聞簇中各新聞記錄對應(yīng)的向量中的詞元作為所述關(guān)鍵字。14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第二生成單元包括:第二計(jì)算模塊,用于針對所述熱點(diǎn)新聞簇的各新聞記錄,計(jì)算每個(gè)新聞記錄對應(yīng)的組合詞的特征值,其中,一個(gè)組合詞的特征值為該組合詞中各詞元對應(yīng)的特征值的和;第三計(jì)算模塊,采用以下公式計(jì)算所述組合詞的熱度值:其中,Term_hot_value為第一組合詞的熱度值,所述第一組合詞為任意一個(gè)所述組合詞,N為所述熱點(diǎn)新聞簇包括的新聞記錄的個(gè)數(shù),M為所述熱點(diǎn)新聞簇中第j個(gè)新聞記錄對應(yīng)的組合詞的個(gè)數(shù),n為所述熱點(diǎn)新聞簇中具有所述第一組合詞的新聞記錄個(gè)數(shù),Term_Countji為所述第j個(gè)新聞記錄對應(yīng)的第i個(gè)組合詞的特征值;以及第二確定模塊,用于確定熱度值大于第三預(yù)設(shè)閾值的組合詞為所述新聞熱點(diǎn)標(biāo)簽。15.根據(jù)權(quán)利要求12至14中任一項(xiàng)所述的系統(tǒng),其特征在于,所述確定單元包括:第四計(jì)算模塊,用于采用以下公式計(jì)算各個(gè)新聞簇的熱度值,Cluster_Hot_Value=Site_Count*Site_Rate+Publish_Count*Publish_Rate其中,Cluster_Hot_Value為一個(gè)新聞簇?zé)岫戎?,Site_Count為該新聞簇中包含的網(wǎng)站個(gè)數(shù),Site_Rate為曝光率權(quán)重,Publish_Count為新聞的發(fā)布 量,Publish_Rate為發(fā)布率權(quán)重,且Site_Rate+Publish_Rate=1;以及第三確定模塊,用于根據(jù)所述各個(gè)新聞簇的熱度值確定所述熱點(diǎn)新聞簇。