欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法

文檔序號(hào):6374415閱讀:194來(lái)源:國(guó)知局
專利名稱:基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法
技術(shù)領(lǐng)域
本發(fā)明涉及文本信息處理中的網(wǎng)絡(luò)信息分析、文本分類和文本聚類技術(shù),尤其涉及一種基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的信息越來(lái)越多元和豐富,與此同時(shí),網(wǎng)絡(luò)輿情的社會(huì)影響力不斷增強(qiáng),很多社會(huì)熱點(diǎn)事件都是在網(wǎng)絡(luò)中第一時(shí)間披露和傳播,網(wǎng)絡(luò)話題檢測(cè)因而愈發(fā)顯現(xiàn)出其重要價(jià)值。在互聯(lián)網(wǎng)環(huán)境中,存在大量自然語(yǔ)言形式的文檔,其類型包括新聞、博客、論壇帖子,以及新興的微博等,這些文檔為發(fā)現(xiàn)熱點(diǎn)話題提供了最基本的數(shù)據(jù)來(lái)源。 美國(guó)國(guó)防部開(kāi)展的話題檢測(cè)與跟蹤項(xiàng)目(TDT, Topic Detection and Tracking)最早展開(kāi)了該領(lǐng)域的系統(tǒng)性研究。多種TDT技術(shù)在該領(lǐng)域已經(jīng)做出了有益探索?,F(xiàn)有話題檢測(cè)技術(shù)大多串行地處理每個(gè)新產(chǎn)生文檔,基于向量空間模型或其他模型,采用單路徑聚類、凝聚層次聚類等聚類算法,考察其與現(xiàn)有話題集合中各話題的相關(guān)程度,并決定將其合并入現(xiàn)有話題或?qū)⑵湟暈橐粋€(gè)新話題。然而,由于這些方法采用串行方式處理每一個(gè)文檔,一旦面臨較大的數(shù)據(jù)量,如果不在聚類算法的選擇上采用復(fù)雜度較低但效果較差的算法,便難以保證具有實(shí)用意義的處理速度。并且,由于沒(méi)有采取預(yù)先有效降低噪聲的措施,其檢測(cè)效果也有待改善??傊捎诰W(wǎng)絡(luò)環(huán)境中新的文檔每時(shí)每刻都在大量產(chǎn)生,如何對(duì)它們進(jìn)行即有效又快速的分析,檢測(cè)出熱點(diǎn)話題,對(duì)現(xiàn)有技術(shù)構(gòu)成了很大挑戰(zhàn)。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法,以解決在互聯(lián)網(wǎng)環(huán)境中大量文檔快速更新的條件下,話題檢測(cè)面臨的檢測(cè)效果與時(shí)間開(kāi)銷的尖銳矛盾。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
一種基于分布式多級(jí)聚類的話題檢測(cè)裝置,該裝置主要包括
新聞采集模塊,用于實(shí)時(shí)采集網(wǎng)絡(luò)新聞,并抽取出結(jié)構(gòu)化信息;
新聞分類模塊,用于對(duì)采集的新聞按主題類別進(jìn)行分類,分發(fā)到各個(gè)頻道;
話題檢測(cè)模塊,分為多個(gè)彼此獨(dú)立的模塊,每個(gè)頻道對(duì)應(yīng)一個(gè)模塊,采用并行方式在各頻道內(nèi)進(jìn)行多級(jí)聚類,計(jì)算各話題熱度,并篩選出頻道熱門(mén)話題;
話題整合模塊,用于綜合各頻道熱門(mén)話題,篩選出全系統(tǒng)的熱門(mén)話題。其中,所述話題檢測(cè)裝置進(jìn)一步包括
話題展示模塊,用于將各話題及其相關(guān)信息組織成用戶易使用的形式。一種基于分布式多級(jí)聚類的話題檢測(cè)方法,該方法包括
A、對(duì)新聞進(jìn)行采集的步驟,從各類網(wǎng)站實(shí)時(shí)采集網(wǎng)絡(luò)新聞;B、對(duì)所述新采集的新聞進(jìn)行分類的步驟,按其主題類別進(jìn)行自動(dòng)化分類,每類對(duì)應(yīng)一個(gè)頻道,并將分類后的新聞分發(fā)到各個(gè)頻道的多級(jí)聚類模塊中;
C、對(duì)各頻道并行地進(jìn)行多級(jí)聚類的步驟;在所述的每個(gè)頻道中,對(duì)新進(jìn)入該頻道的新聞抽取特征,再對(duì)頻道內(nèi)全部數(shù)據(jù)進(jìn)行多級(jí)聚類,將聚類產(chǎn)生的每一個(gè)集合或簇作為一個(gè)話題;
D、計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題。其中,步驟A具體包括
Al、由網(wǎng)絡(luò)爬蟲(chóng)采集目標(biāo)網(wǎng)站列表中的網(wǎng)頁(yè);
A2、對(duì)采集到的原始網(wǎng)頁(yè)做頁(yè)面分析,抽取出標(biāo)題、正文、摘要、作者、來(lái)源、發(fā)表時(shí)間、圖片、視頻信息,并組織成結(jié)構(gòu)化信息。
步驟B所述按新聞主題類別進(jìn)行自動(dòng)化分類,包括國(guó)內(nèi)、國(guó)際、社會(huì)、財(cái)經(jīng)、體育、娛樂(lè)、汽車、科技和互聯(lián)網(wǎng)類,并將所述類別作為相應(yīng)的頻道。步驟B具體包括
BI、采用預(yù)先專門(mén)訓(xùn)練的樸素貝葉斯分類器,抽取網(wǎng)頁(yè)的標(biāo)題、正文、URL的特征,并結(jié)合若干規(guī)則,判定本周期內(nèi)新采集到的各網(wǎng)頁(yè)是否屬于新聞,如果是,進(jìn)一步判定其屬于哪一個(gè)頻道;
B2、將新采集到的新聞發(fā)送給對(duì)應(yīng)的頻道。7、根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟C所述對(duì)各頻道并行地進(jìn)行多級(jí)聚類的步驟,具體包括
Cl、去除頻道內(nèi)長(zhǎng)時(shí)間無(wú)變化的話題,以降低后續(xù)聚類處理的數(shù)據(jù)量,避免過(guò)時(shí)話題對(duì)聚類可能造成的干擾;
C2、對(duì)當(dāng)前周期內(nèi)進(jìn)入本頻道的各條新聞抽取特征;
C3、對(duì)步驟C2中生成的一批特征向量進(jìn)行層次聚類,聚類算法采用非加權(quán)組中心UPGMC算法,在該算法中,聚類結(jié)果中的每個(gè)集合或簇都擁有一個(gè)中心向量;相似度的計(jì)算方法為采用兩個(gè)簇的中心向量的余弦相似度;
C4、對(duì)上述步驟C3中產(chǎn)生的每一個(gè)簇,找出與該簇的相似度最大的話題。相似度的計(jì)算方式仍為取余弦相似度;
C5、對(duì)本頻道內(nèi)所有話題再進(jìn)行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本頻道內(nèi)的全部話題。步驟C2還包括
首先對(duì)新聞的標(biāo)題和正文進(jìn)行分詞、詞性標(biāo)注、去停用詞、專名識(shí)別、同義詞歸并,處理的結(jié)果以詞或短語(yǔ)為單位,統(tǒng)稱為token,對(duì)每個(gè)token,計(jì)算其TF. IffF分值作為基礎(chǔ)權(quán)重,并結(jié)合其在文中的位置、詞性、專名類型信息,確定其最終的權(quán)重;然后再將token及其分值構(gòu)造成一個(gè)基于向量空間模型的特征向量,用以描述該新聞。步驟C4還包括如果該相似度大于預(yù)定閥值,將該簇合并到該話題中,并修正其中心向量和更新時(shí)間;否則,將該簇被視為一個(gè)新的話題,其誕生時(shí)間和更新時(shí)間均為系統(tǒng)當(dāng)前時(shí)間。步驟D具體包括
D1、對(duì)每個(gè)頻道內(nèi)的話題,依據(jù)其所含新聞的數(shù)量及其發(fā)表時(shí)間分布、話題的誕生時(shí)間、更新時(shí)間的因素綜合計(jì)算,得出其熱度;
D2、再于頻道內(nèi)對(duì)各話題按熱度排序,從而篩選出各頻道內(nèi)的熱門(mén)話題;
D3、最后對(duì)整個(gè)系統(tǒng)內(nèi)的話題按熱度排序,篩選出全系統(tǒng)熱門(mén)話題,展示給用戶。本發(fā)明所提供的基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法,具有以下優(yōu)點(diǎn) 在互聯(lián)網(wǎng)新聞快速、大量產(chǎn)生的環(huán)境中,宏觀上,對(duì)于所有新聞,基于“屬于同一話題的
新聞基本屬于相同主題類別”這一合理假設(shè),對(duì)新聞按主題類別(頻道)采取分而治之的分布式處理策略;而微觀上,對(duì)于每一頻道內(nèi)的新聞,基于“屬于同一話題的新聞在時(shí)間序列上傾向于相對(duì)集中”這一合理假設(shè),采取先局部再整體,先增量再全量的多級(jí)聚類方式。二者相結(jié)合,既大幅度降低了話題檢測(cè)時(shí)無(wú)關(guān)和弱相關(guān)數(shù)據(jù)的干擾,便于有針對(duì)性地對(duì)不同類別的數(shù)據(jù)設(shè)置不同參數(shù),有效保證了檢測(cè)效果,又顯著提高了整個(gè)系統(tǒng)的并行化程度,降低了時(shí)間開(kāi)銷。出于實(shí)際產(chǎn)品的需求和其他原因的考慮,本發(fā)明主要針對(duì)處理的文檔類型為網(wǎng)絡(luò)新聞,還可以擴(kuò)展到博客、微博等其他自然語(yǔ)言形式的文檔領(lǐng)域。


圖I為本發(fā)明的基于分布式多級(jí)聚類的話題檢測(cè)方法的總體流程 圖2為應(yīng)用本發(fā)明針對(duì)新聞采集的流程 圖3為應(yīng)用本發(fā)明進(jìn)行新聞分類的流程 圖4為應(yīng)用本發(fā)明進(jìn)行多級(jí)聚類的流程 圖5為應(yīng)用本發(fā)明進(jìn)行熱門(mén)話題篩選的流程 圖6為本發(fā)明的一個(gè)具體實(shí)現(xiàn)裝置的模塊組成圖。
具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法作進(jìn)一步詳細(xì)的說(shuō)明。圖I為本發(fā)明的基于分布式多級(jí)聚類的話題檢測(cè)方法的總體流程圖,如圖I所示,該流程為周期性執(zhí)行,主要包括以下步驟
步驟SI :新聞采集,從各類網(wǎng)站實(shí)時(shí)采集網(wǎng)絡(luò)新聞,并抽取出結(jié)構(gòu)化信息。步驟S2 :新聞分類,對(duì)本周期內(nèi)新采集的新聞按其主題類別進(jìn)行自動(dòng)化分類,分發(fā)到各個(gè)頻道。步驟S3:在各頻道并行開(kāi)展多級(jí)聚類。在每個(gè)頻道中,對(duì)本周期內(nèi)新進(jìn)入該頻道的新聞抽取特征,再對(duì)頻道內(nèi)全部數(shù)據(jù)進(jìn)行多級(jí)層次聚類,聚類產(chǎn)生的每一個(gè)簇視為一個(gè)“話題”。該步驟是本發(fā)明的核心。步驟S4 :計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題,呈現(xiàn)給用戶。如圖2所示,所述步驟SI,進(jìn)一步包括
步驟Sll :采用網(wǎng)絡(luò)爬蟲(chóng)采集目標(biāo)網(wǎng)站列表中的網(wǎng)頁(yè),這些網(wǎng)站不僅包含各類專業(yè)新聞網(wǎng)站(例如網(wǎng)易、新浪、搜狐等),也包括登載新聞的非新聞網(wǎng)站(例如各政府機(jī)關(guān)、事業(yè)單位、企業(yè)的官方網(wǎng)站)。步驟S12 :對(duì)采集到的原始網(wǎng)頁(yè)做頁(yè)面分析,抽取出標(biāo)題、正文、摘要、作者、來(lái)源、發(fā)表時(shí)間、圖片、視頻等信息,并組織成結(jié)構(gòu)化信息,以利于進(jìn)一步處理。如圖3所示,步驟S2對(duì)網(wǎng)頁(yè)進(jìn)行分類,其分類體系包括國(guó)內(nèi)、國(guó)際、社會(huì)、財(cái)經(jīng)、體育、娛樂(lè)、汽車、科技、互聯(lián)網(wǎng)等頻道。該步驟S2執(zhí)行以下步驟
步驟S21,采用預(yù)先訓(xùn)練的樸素貝葉斯分類器,利用網(wǎng)頁(yè)的標(biāo)題、正文、url等特征,結(jié)合若干規(guī)則,判定本周期內(nèi)新采集到的各網(wǎng)頁(yè)是否屬于新聞,如果是,判定該網(wǎng)頁(yè)屬于哪一個(gè)頻道。步驟S22,將新采集到的新聞發(fā)送給對(duì)應(yīng)的頻道。如圖4所示,該步驟S3并行地對(duì)屬于各個(gè)頻道的新聞分別進(jìn)行多級(jí)聚類,是整個(gè)流程的核心。在每個(gè)頻道內(nèi)執(zhí)行以下子步驟
步驟S31 :去除本頻道內(nèi)長(zhǎng)時(shí)間沒(méi)有變化的話題。每個(gè)話題都記錄了其最近更新時(shí)間,如該時(shí)間距離當(dāng)前時(shí)間之差超過(guò)一定預(yù)值,則視為該話題已不可能再成為熱點(diǎn)。 步驟S32 :對(duì)本周期內(nèi)新進(jìn)入本頻道的各條新聞抽取特征,采用向量空間模型(VSM)刻劃其特征向量。首先對(duì)新聞的標(biāo)題和正文進(jìn)行分詞、停用詞去除、詞性標(biāo)注、專名識(shí)別、同義詞歸并等自然語(yǔ)言處理步驟,再把處理的結(jié)果進(jìn)行整合(比如一個(gè)專名可能包含多個(gè)相鄰的分詞結(jié)果單元,例如專名“北京大學(xué)經(jīng)濟(jì)學(xué)院”由包含分詞結(jié)果“北京大學(xué)”、“經(jīng)濟(jì)”和“學(xué)院”),整合結(jié)果以詞或短語(yǔ)為步驟位,統(tǒng)稱為token。對(duì)每個(gè)token,計(jì)算其權(quán)重,計(jì)算時(shí)綜合考慮以下幾項(xiàng)因素
I) token的TF. IffF分值。這一分值表征token在文檔中的重要性,與時(shí)間相關(guān),構(gòu)成token的基本權(quán)重。其計(jì)算公式為
.....·十.I
τ . Iη,_··ν_ w ^ τ · τ V·ν.
" i ... , ········; , ,· , :·· ,· _····....................................................................................
Il 、····· Γ I "·· ·Ι·丨I t1 , 、· \I ·Α ·ΜΙ■_··_
··! , t πτ , Λ 丄· I "·Λ
W
i................\\V· * "t··*w
I—I · I I I、· —>. t ..···_“ 、
兵十·■J.. ,■ 一^ _O
·... .J -I a.. IW-νΛ*'liiV·. I. ,·* · I*''P d, 1
"Λ * £ '% *■ ·¥i % · ·# * * ·..."IKfaIfc/ ΜΨ公式中的t代表某一周期,w代表token, d代表包含w的文檔,tf (w,d)代表w在d中出現(xiàn)的頻次,wft(w)代表w在t時(shí)刻的頻次總數(shù),d(t)代表t時(shí)刻前出現(xiàn)的d。2) token在網(wǎng)頁(yè)中的位置如果token在標(biāo)題中出現(xiàn),權(quán)重提高;
3)token的詞性實(shí)詞(名詞、動(dòng)詞等)的權(quán)重提高,虛詞的權(quán)重降低甚至去除;
4)token的專名類型(如果是專名)依據(jù)新聞所屬的具體頻道而定。本系統(tǒng)擁有專門(mén)開(kāi)發(fā)的專名識(shí)別模塊,對(duì)專名類別的劃分較為細(xì)致。例如在汽車頻道,汽車型號(hào)等專名的權(quán)重提聞;在體育頻道,體育運(yùn)動(dòng)員等專名的權(quán)重提聞。確定每個(gè)token的權(quán)重后,把各token及其權(quán)重構(gòu)造成一個(gè)特征向量,用以描述該新聞。步驟S33 :對(duì)這批新的新聞進(jìn)行層次聚類,聚類算法采用UPGMC算法,該算法屬于凝聚式層次聚類,每個(gè)聚類結(jié)果(簇)都擁有一個(gè)中心向量。在初始階段,該算法把輸入的每一條新聞都視為一個(gè)簇,簇的中心向量為該新聞的特征向量,然后執(zhí)行以下步驟
I)計(jì)算所有簇兩兩之間的相似度。在本發(fā)明中,我們采用簇中心向量的余弦相似度作為這兩個(gè)簇之間的相似度度量。2)找出以上相似度中最大的相似度,若其高于預(yù)定閥值,則把對(duì)應(yīng)的兩個(gè)簇合并,合并后的新簇的中心向量為兩個(gè)簇的中心向量之和,為去除噪聲并避免維度過(guò)高,新中心向量中權(quán)重過(guò)低的分量將被去除,然后返回第I)步繼續(xù)執(zhí)行。否則算法結(jié)束。步驟S34 :對(duì)新產(chǎn)生的簇和頻道內(nèi)既有話題進(jìn)行合并。對(duì)每一個(gè)新產(chǎn)生的簇,依此考察本頻道中的每個(gè)話題,找出與該簇的相似度最大的話題。相似度的計(jì)算方法為計(jì)算簇中心向量和話題中心向量的余弦相似度。如果該相似度大于預(yù)定閥值,就把該簇合并到該話題中,并修正其中心向量和更新時(shí)間。否則,該簇被視為一個(gè)新的話題,其誕生時(shí)間和更新時(shí)間都是系統(tǒng)當(dāng)前時(shí)間。步驟S35 :對(duì)本頻道內(nèi)所有話題(包括步驟S34產(chǎn)生的新話題)再進(jìn)行一次UPGMC層次聚類,同樣采用余弦相似度計(jì)算簇的相似度。如果有若干話題合并成新話題,新話題的更新時(shí)間亦為系統(tǒng)當(dāng)前時(shí)間。聚類結(jié)果產(chǎn)生的各個(gè)簇即為本周期結(jié)束后本頻道內(nèi)的全部話題。
如圖5所示,所述的步驟S4負(fù)責(zé)篩選熱門(mén)話題。其進(jìn)一步包括如下兩個(gè)步驟 步驟S41 :并行地考察各個(gè)頻道中所有話題的熱度。對(duì)于一個(gè)話題,依據(jù)其所含新聞的
數(shù)量及其發(fā)表時(shí)間分布、話題的誕生時(shí)間、更新時(shí)間等因素綜合計(jì)算,得出其熱度
權(quán)利要求
1.一種基于分布式多級(jí)聚類的話題檢測(cè)裝置,其特征在于,該裝置主要包括 新聞采集模塊,用于實(shí)時(shí)采集網(wǎng)絡(luò)新聞,并抽取出結(jié)構(gòu)化信息; 新聞分類模塊,用于對(duì)采集的新聞按主題類別進(jìn)行分類,分發(fā)到各個(gè)頻道; 話題檢測(cè)模塊,分為多個(gè)彼此獨(dú)立的模塊,每個(gè)頻道對(duì)應(yīng)一個(gè)模塊,采用并行方式在各頻道內(nèi)進(jìn)行多級(jí)聚類,計(jì)算各話題熱度,并篩選出頻道熱門(mén)話題; 話題整合模塊,用于綜合各頻道熱門(mén)話題,篩選出全系統(tǒng)的熱門(mén)話題。
2.根據(jù)權(quán)利要求I所述的基于分布式多級(jí)聚類的話題檢測(cè)裝置,其特征在于,所述話題檢測(cè)裝置進(jìn)一步包括 話題展示模塊,用于將各話題及其相關(guān)信息組織成用戶易使用的形式。
3.一種基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,該方法包括 A、對(duì)新聞進(jìn)行采集的步驟,從各類網(wǎng)站實(shí)時(shí)采集網(wǎng)絡(luò)新聞; B、對(duì)所述新采集的新聞進(jìn)行分類的步驟,按其主題類別進(jìn)行自動(dòng)化分類,每類對(duì)應(yīng)一個(gè)頻道,并將分類后的新聞分發(fā)到各個(gè)頻道的多級(jí)聚類模塊中; C、對(duì)各頻道并行地進(jìn)行多級(jí)聚類的步驟;在所述的每個(gè)頻道中,對(duì)新進(jìn)入該頻道的新聞抽取特征,再對(duì)頻道內(nèi)全部數(shù)據(jù)進(jìn)行多級(jí)聚類,將聚類產(chǎn)生的每一個(gè)集合或簇作為一個(gè)話題; D、計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題。
4.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟A具體包括 Al、由網(wǎng)絡(luò)爬蟲(chóng)采集目標(biāo)網(wǎng)站列表中的網(wǎng)頁(yè); A2、對(duì)采集到的原始網(wǎng)頁(yè)做頁(yè)面分析,抽取出標(biāo)題、正文、摘要、作者、來(lái)源、發(fā)表時(shí)間、圖片、視頻信息,并組織成結(jié)構(gòu)化信息。
5.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟B所述按新聞主題類別進(jìn)行自動(dòng)化分類,包括國(guó)內(nèi)、國(guó)際、社會(huì)、財(cái)經(jīng)、體育、娛樂(lè)、汽車、科技和互聯(lián)網(wǎng)類,并將所述類別作為相應(yīng)的頻道。
6.根據(jù)權(quán)利要求3或5所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟B具體包括 BI、采用預(yù)先專門(mén)訓(xùn)練的樸素貝葉斯分類器,抽取網(wǎng)頁(yè)的標(biāo)題、正文、URL的特征,并結(jié)合若干規(guī)則,判定本周期內(nèi)新采集到的各網(wǎng)頁(yè)是否屬于新聞,如果是,進(jìn)一步判定其屬于哪一個(gè)頻道; B2、將新采集到的新聞發(fā)送給對(duì)應(yīng)的頻道。
7.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟C所述對(duì)各頻道并行地進(jìn)行多級(jí)聚類的步驟,具體包括 Cl、去除頻道內(nèi)長(zhǎng)時(shí)間無(wú)變化的話題,以降低后續(xù)聚類處理的數(shù)據(jù)量,避免過(guò)時(shí)話題對(duì)聚類可能造成的干擾; C2、對(duì)當(dāng)前周期內(nèi)進(jìn)入本頻道的各條新聞抽取特征; C3、對(duì)步驟C2中生成的一批特征向量進(jìn)行層次聚類,聚類算法采用非加權(quán)組中心UPGMC算法,在該算法中,聚類結(jié)果中的每個(gè)集合或簇都擁有一個(gè)中心向量;相似度的計(jì)算方法為采用兩個(gè)簇的中心向量的余弦相似度;C4、對(duì)上述步驟C3中產(chǎn)生的每一個(gè)簇,找出與該簇的相似度最大的話題;相似度的計(jì)算方式仍為取余弦相似度; C5、對(duì)本頻道內(nèi)所有話題再進(jìn)行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本頻道內(nèi)的全部話題。
8.根據(jù)權(quán)利要求7所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟C2還包括 首先對(duì)新聞的標(biāo)題和正文進(jìn)行分詞、詞性標(biāo)注、去停用詞、專名識(shí)別、同義詞歸并,處理的結(jié)果以詞或短語(yǔ)為單位,統(tǒng)稱為token,對(duì)每個(gè)token,計(jì)算其TF. IffF分值作為基礎(chǔ)權(quán)重,并結(jié)合其在文中的位置、詞性、專名類型信息,確定其最終的權(quán)重;然后再將token及其分值構(gòu)造成一個(gè)基于向量空間模型的特征向量,用以描述該新聞。
9.根據(jù)權(quán)利要求7所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟C4還包括 如果該相似度大于預(yù)定閥值,將該簇合并到該話題中,并修正其中心向量和更新時(shí)間;否則,將該簇被視為一個(gè)新的話題,其誕生時(shí)間和更新時(shí)間均為系統(tǒng)當(dāng)前時(shí)間。
10.根據(jù)權(quán)利要求3所述的基于分布式多級(jí)聚類的話題檢測(cè)方法,其特征在于,步驟D具體包括 D1、對(duì)每個(gè)頻道內(nèi)的話題,依據(jù)其所含新聞的數(shù)量及其發(fā)表時(shí)間分布、話題的誕生時(shí)間、更新時(shí)間的因素綜合計(jì)算,得出其熱度; D2、再于頻道內(nèi)對(duì)各話題按熱度排序,從而篩選出各頻道內(nèi)的熱門(mén)話題; D3、最后對(duì)整個(gè)系統(tǒng)內(nèi)的話題按熱度排序,篩選出全系統(tǒng)熱門(mén)話題,展示給用戶。
全文摘要
本發(fā)明公開(kāi)了一種基于分布式多級(jí)聚類的話題檢測(cè)裝置及方法,該裝置主要包括新聞采集模塊、新聞分類模塊、話題檢測(cè)模塊和話題整合模塊以及話題展示模塊;該方法包括題檢測(cè)方法,其特征在于,該方法包括A、對(duì)新聞進(jìn)行采集的步驟;B、對(duì)所述新采集的新聞進(jìn)行分類的步驟;C、對(duì)各頻道并行地進(jìn)行多級(jí)聚類的步驟;D、計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題。采用本發(fā)明,能夠解決在互聯(lián)網(wǎng)環(huán)境中大量文檔快速更新的條件下,話題檢測(cè)面臨的檢測(cè)效果與時(shí)間開(kāi)銷的尖銳矛盾。
文檔編號(hào)G06F17/30GK102831193SQ201210274779
公開(kāi)日2012年12月19日 申請(qǐng)日期2012年8月3日 優(yōu)先權(quán)日2012年8月3日
發(fā)明者楊青, 李德聰 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
梓潼县| 长海县| 兰溪市| 广州市| 慈利县| 芷江| 永靖县| 广宗县| 长沙市| 沙洋县| 咸宁市| 永定县| 威远县| 沙田区| 黄骅市| 松原市| 沙坪坝区| 永康市| 嘉义市| 芦溪县| 高雄市| 周宁县| 耒阳市| 普格县| 名山县| 乐平市| 红原县| 上栗县| 乾安县| 射洪县| 隆子县| 客服| 山东省| 叙永县| 天等县| 临湘市| 忻城县| 吕梁市| 西贡区| 琼海市| 时尚|