本發(fā)明涉及網(wǎng)絡(luò)信息挖掘
技術(shù)領(lǐng)域:
,特別是涉及一種微博子話題演化分析方法及裝置。
背景技術(shù):
:微博客等互聯(lián)網(wǎng)應(yīng)用的出現(xiàn),降低了互聯(lián)網(wǎng)的進(jìn)入門(mén)檻,使得廣大網(wǎng)民更容易的使用網(wǎng)絡(luò),發(fā)出內(nèi)心的聲音?;ヂ?lián)網(wǎng)絡(luò)在傳達(dá)民情民意方面的優(yōu)勢(shì)逐步顯現(xiàn)出來(lái),繼傳統(tǒng)的報(bào)紙、廣播、電視之后,成為第四媒體,并在表達(dá)民眾心聲、反應(yīng)社會(huì)輿論方面發(fā)揮極其重要的作用。熱點(diǎn)話題作為廣大網(wǎng)民關(guān)注的熱點(diǎn)、討論的焦點(diǎn),反應(yīng)一定時(shí)間周期內(nèi)網(wǎng)絡(luò)輿論的中心,是廣大網(wǎng)民對(duì)現(xiàn)實(shí)社會(huì)生活中存在問(wèn)題的集中反應(yīng)。另外,熱點(diǎn)話題會(huì)隨著新的事件、新的焦點(diǎn)的出現(xiàn),并且在廣大網(wǎng)民、特別是意見(jiàn)領(lǐng)袖的參與或別有用心的人推波助瀾下,會(huì)迅速傳播并不斷發(fā)生演化,話題的中心會(huì)發(fā)生變化,形成不同的子話題。子話題既可以指話題討論過(guò)程中的不同側(cè)面、不同中心,又可以指隨著話題發(fā)展產(chǎn)生的新事件。子話題發(fā)現(xiàn)屬于話題檢測(cè)與跟蹤技術(shù),目前的技術(shù)主要是針對(duì)新聞等傳統(tǒng)媒體,基于文本相似度來(lái)發(fā)現(xiàn)子話題,但是因?yàn)槲⒉┪谋緝?nèi)容短小,一條微博信息包含的有效特征較少,而且每個(gè)特征僅出現(xiàn)一次或幾次,僅僅通過(guò)文本相似度來(lái)衡量效果較差,傳統(tǒng)的子話題發(fā)現(xiàn)技術(shù)對(duì)于微博文本不適用。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問(wèn)題是提供一種微博子話題演化分析方法及裝置,能 夠準(zhǔn)確快速地識(shí)別微博子話題并分析出微博子話題的演化關(guān)系。一方面,本發(fā)明提供一種微博子話題演化分析方法,包括:通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi),以根據(jù)聚類(lèi)結(jié)果生成相應(yīng)的子話題;根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系??蛇x的,所述通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi)包括:針對(duì)每個(gè)微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對(duì)特征樣本中的任一個(gè)作為初始聚類(lèi)樣本;利用所述初始聚類(lèi)樣本聚類(lèi)產(chǎn)生一個(gè)簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。進(jìn)一步的,所述根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系之前,所述方法還包括:計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;根據(jù)所述話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;所述根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系包括:根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系??蛇x的,所述計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性包括:根據(jù)特征相似性和作者相似性,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性??蛇x的,所述根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系包括:根據(jù)特征相似性,計(jì)算當(dāng)前窗口的每個(gè)子話題與上一窗口的每個(gè)子話題之間的相似性;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性大于第一閾值時(shí),確定子話題SubTj是對(duì)子話題SubTi的繼承;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時(shí),確定子話 題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性小于所述第二閾值時(shí),確定子話題SubTi與SubTj無(wú)關(guān);其中,所述第一閾值大于所述第二閾值。另一方面,本發(fā)明還提供一種微博子話題演化分析裝置,包括:聚類(lèi)單元,用于通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi),以根據(jù)聚類(lèi)結(jié)果生成相應(yīng)的子話題;確定單元,用于根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,以確定子話題的演化關(guān)系??蛇x的,所述聚類(lèi)單元具體用于:針對(duì)每個(gè)微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對(duì)特征樣本中的任一個(gè)作為初始聚類(lèi)樣本;利用所述初始聚類(lèi)樣本聚類(lèi)產(chǎn)生一個(gè)簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。可選的,所述裝置還包括:計(jì)算單元,用于在所述檢測(cè)單元檢測(cè)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性之前,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;篩選單元,用于根據(jù)所述計(jì)算單元計(jì)算的話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;所述確定單元,具體用于根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系。可選的,所述計(jì)算單元,具體用于根據(jù)特征相似性和作者相似性,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性??蛇x的,所述確定單元,具體用于:根據(jù)特征相似性,計(jì)算當(dāng)前窗口的每個(gè)子話題與上一窗口的每個(gè)子話題之間的相似性;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性大于第一閾值時(shí),確定子話題SubTj是對(duì)子話題SubTi的繼承;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時(shí),確 定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性小于所述第二閾值時(shí),確定子話題SubTi與SubTj無(wú)關(guān);其中,所述第一閾值大于所述第二閾值。本發(fā)明實(shí)施例提供的微博子話題演化分析方法及裝置,能夠通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果生成相應(yīng)的子話題,然后根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,確定子話題的演化關(guān)系,這樣,由于改進(jìn)的最鄰近方法能夠?qū)ξ⒉┰掝}的特征進(jìn)行更精準(zhǔn)的聚類(lèi),子話題檢測(cè)效果更好,從而能夠?qū)Σ煌瑫r(shí)間窗口的子話題進(jìn)行更有效的演化分析。附圖說(shuō)明圖1是本發(fā)明實(shí)施例提供的微博子話題演化分析方法的一種流程圖;圖2是本發(fā)明實(shí)施例中微博子話題產(chǎn)生的一種流程圖;圖3是本發(fā)明實(shí)施例中微博子話題演化分析方法的另一種流程圖;圖4是本發(fā)明實(shí)施例提供的微博子話題演化分析裝置的一種結(jié)構(gòu)示意圖。具體實(shí)施方式以下結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。如圖1所示,本發(fā)明實(shí)施例提供一種微博子話題演化分析方法,包括:S11,通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi),以根據(jù)聚類(lèi)結(jié)果生成相應(yīng)的子話題;S12,根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系。本發(fā)明實(shí)施例提供的微博子話題演化分析方法,能夠通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果生成相應(yīng) 的子話題,然后根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,確定子話題的演化關(guān)系,這樣,由于改進(jìn)的最鄰近方法能夠?qū)ξ⒉┰掝}的特征進(jìn)行更精準(zhǔn)的聚類(lèi),子話題檢測(cè)效果更好,從而能夠?qū)Σ煌瑫r(shí)間窗口的子話題進(jìn)行更有效的演化分析。其中,改進(jìn)的最近鄰方法是根據(jù)微博微博文本內(nèi)容短小、有效特征較少等特點(diǎn),對(duì)傳統(tǒng)的最鄰近算法進(jìn)行的改進(jìn),該改進(jìn)可以包括對(duì)最近鄰聚類(lèi)方法的初始聚類(lèi)樣本選取、距離計(jì)算以及聚類(lèi)過(guò)程的改進(jìn)。其中,可以采用互信息作為特征之間的距離度量,特征之間的互信息指特征在相同微博信息中的共現(xiàn)情況,體現(xiàn)了兩個(gè)特征的依賴(lài)程度,互信息越高,兩個(gè)特征之間的距離就越小,描述同一話題的可能性越大。具體的,在步驟S11中,需要將話題的各個(gè)特征進(jìn)行重新聚類(lèi),生成相應(yīng)的子話題。由于各個(gè)話題特征與話題的相關(guān)程度不同,如果選取與話題相關(guān)程度較低的特征做為聚類(lèi)初始樣本點(diǎn),則會(huì)干擾聚類(lèi)結(jié)果,產(chǎn)生噪音類(lèi)。為了避免這種情況,可以針對(duì)每個(gè)微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對(duì)特征樣本中的任一個(gè)作為初始聚類(lèi)樣本,這樣,因?yàn)橐话憔嚯x很近的兩個(gè)特征應(yīng)該屬于同一話題,都是話題強(qiáng)相關(guān)特征,從而能夠避免選到噪音特征。利用所述初始聚類(lèi)樣本聚類(lèi)產(chǎn)生一個(gè)簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;接著考察下一個(gè)特征樣本是否滿(mǎn)足聚入該簇的條件,直到該話題的特征中不存在可以聚入該簇的特征樣本為止,聚類(lèi)結(jié)束,產(chǎn)生一個(gè)子話題。其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。如圖2所示,子話題從話題中產(chǎn)生過(guò)程包括如下步驟:101.提取話題特征;102.計(jì)算兩兩特征之間的互信息;103.選擇互信息最大且大于預(yù)設(shè)閾值的一對(duì)特征之一作為新簇;104.計(jì)算每個(gè)樣本點(diǎn)與簇之間的互信息;105.選擇與簇互信息最大,且與簇中每個(gè)樣本互信息大于預(yù)設(shè)閾值的新樣本聚入該簇;106.當(dāng)沒(méi)有滿(mǎn)足條件的樣本聚入時(shí),該簇的聚類(lèi)結(jié)束,產(chǎn)生了一個(gè)子話題;107.當(dāng)所有話題特征都已經(jīng)歸入相應(yīng)的簇時(shí),所有的子話題都已經(jīng)產(chǎn)生,聚類(lèi)過(guò)程結(jié)束。在步驟S12中,進(jìn)一步的,為了提高步驟S12中子話題演化關(guān)系的分析效率,可以先找出當(dāng)前時(shí)間窗口和上一時(shí)間窗口的話題中哪些是持續(xù)性話題,從而僅需在持續(xù)性話題之間進(jìn)一步確定子話題的相似性和演化關(guān)系,而對(duì)于非持續(xù)性話題無(wú)需確定其子話題的演化關(guān)系。在這種情況下,本發(fā)明實(shí)施例提供的子話題演化分析方法可如圖3所示。具體的,在本發(fā)明的一個(gè)實(shí)施例中,在根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系之前,還包括:計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;根據(jù)所述話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;基于此,根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系可具體包括:根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系??蛇x的,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性可包括:根據(jù)特征相似性和作者相似性,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性。舉例說(shuō)明,在本發(fā)明的一個(gè)實(shí)施例中,將兩個(gè)話題的特征相似性和文檔相似性結(jié)合,來(lái)計(jì)算話題的相似性。本實(shí)施例中,假設(shè)話題Ti和Tj共有n個(gè)不重復(fù)的特征,話題Ti和Tj的特征向量示意如下,如果特征在Fi話題中出現(xiàn),表示為1,不出現(xiàn),表示為0。表1F1F2F3……FnTi011……0Tj110……0對(duì)上述特征向量歸一化處理,得到話題Ti和話題Tj的特征概率向量,如表2所示。表2F1F2F3……FnTi01/SUMi1/SUMi……0Tj1/SUMj1/SUMj0……0其中,SUMi和SUMj分別表示話題Ti和Tj的特征個(gè)數(shù)。根據(jù)話題Ti對(duì)應(yīng)的微博信息集合映射到作者集合A,即發(fā)表話題Ti相關(guān)文檔的作者的集合。話題Ti和Tj共對(duì)應(yīng)m個(gè)不重復(fù)的作者,話題Ti和Tj的作者向量示意如下,如果作者Ai在話題中出現(xiàn),表示為1,不出現(xiàn),表示為0。表3A1A2A3……AmTi011……0Tj110……0對(duì)上述作者向量歸一化處理,得到話題Ti和Tj題的作者概率向量,如表4所示。表4A1A2A3……AmTi01/AUTHi1/AUTHi……0Tj1/AUTHj1/AUTHj0……0其中,AUTHi和AUTHj分別表示話題Ti和Tj對(duì)應(yīng)的作者數(shù)量。話題Ti和Tj的相似性計(jì)算如下:sim(Ti,Tj)=a*Fi1*Fj1+Fi2*Fj2+......+Fin*FjnFi12+Fi22......+Fin2*Fj12+Fj22......+Fjn2+b*Ai1*Aj1+Ai2*Aj2+......+Ain*AjnAi12+Ai22......+Ain2*Aj12+Aj22......Ajn2]]>其中,F(xiàn)i1中表示第1個(gè)特征在話題Ti中的概率權(quán)重,Ai1中表示的第1個(gè)作者在話題Ti中的概率權(quán)重。a和b是調(diào)節(jié)參數(shù),可以根據(jù)實(shí)際需要進(jìn)行調(diào)整,本實(shí)例取值都為1,在本發(fā)明的其他實(shí)施例中還可以取其他值??梢愿鶕?jù)經(jīng)驗(yàn)設(shè)定閾值S,當(dāng)話題相似性sim(Ti,Tj)大于S時(shí),表示兩個(gè)話題是相關(guān)話題,當(dāng)前時(shí)間窗口的話題是上一時(shí)間窗口話題的延續(xù),否則可以確定兩個(gè)話題是無(wú)關(guān)話題。具體而言,在步驟S12中,根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系可包括:根據(jù)特征相似性,計(jì)算當(dāng)前窗口的子話題SubTj與上一窗口的子話題SubTi之間的相似性;由于此處考察的是子話題之間的相似性,子話題之間作者的變動(dòng)性不大,因此,本實(shí)施例中,可以?xún)H根據(jù)特征相似性計(jì)算子話題之間的相似性,即:sim(SubTi,SubTj)=Fi1*Fj1+Fi2*Fj2+......+Fin*FjnFi12+Fi22......+Fin2*Fj12+Fj22......+Fjn2]]>當(dāng)兩個(gè)子話題SubTi和SubTj的相似性大于第一閾值時(shí),確定子話題SubTj是對(duì)子話題SubTi的繼承;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時(shí),確定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性小于所述第二閾值時(shí),確定子話題SubTj與SubTi無(wú)關(guān),即子話題SubTj是一個(gè)新子話題;其中,所述第一閾值大于所述第二閾值。相應(yīng)的,如圖4所示,本發(fā)明的實(shí)施例還提供一種微博子話題演化分析裝置,包括:聚類(lèi)單元41,用于通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi),以根據(jù)聚類(lèi)結(jié)果生成相應(yīng)的子話題;確定單元42,用于根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系。本發(fā)明實(shí)施例提供的微博子話題演化分析裝置,聚類(lèi)單元41能夠通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果生成相應(yīng)的子話題,確定單元42能夠根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系,這樣,由于改進(jìn)的最鄰近方法能夠?qū)ξ⒉┰掝}的特征進(jìn)行更精準(zhǔn)的聚類(lèi),子話題檢測(cè)效果更好,從而能夠?qū)Σ煌瑫r(shí)間窗口的子話題進(jìn)行更有效的演化分析??蛇x的,聚類(lèi)單元41可具體用于:針對(duì)每個(gè)微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對(duì)特征樣本中的任一個(gè)作為初始聚類(lèi)樣本;利用所述初始聚類(lèi)樣本聚類(lèi)產(chǎn)生一個(gè)簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。進(jìn)一步的,該微博子話題演化分析裝置還包括:計(jì)算單元,用于在所述確定單元根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系之前,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;篩選單元,用于根據(jù)所述計(jì)算單元計(jì)算的話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;相應(yīng)的,確定單元42,可具體用于根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系??蛇x的,計(jì)算單元,具體可用于根據(jù)特征相似性和作者相似性,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性。可選的,確定單元,具體可用于:根據(jù)特征相似性,計(jì)算當(dāng)前窗口的每個(gè)子話題與上一窗口的每個(gè)子話題之間的相似性;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性大于第一閾值時(shí),確定子話題SubTj是對(duì)子話題SubTi的繼承;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時(shí),確定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性小于所述第二閾值時(shí),確定子話題SubTi與SubTj無(wú)關(guān);其中,所述第一閾值大于所述第二閾值。盡管為示例目的,已經(jīng)公開(kāi)了本發(fā)明的優(yōu)選實(shí)施例,本領(lǐng)域的技術(shù)人員將意識(shí)到各種改進(jìn)、增加和取代也是可能的,因此,本發(fā)明的范圍應(yīng)當(dāng)不限于上述實(shí)施例。當(dāng)前第1頁(yè)1 2 3