1.一種微博子話題演化分析方法,其特征在于,包括:
通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類,以根據(jù)聚類結(jié)果生成相應(yīng)的子話題;
根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類包括:
針對(duì)每個(gè)微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對(duì)特征樣本中的任一個(gè)作為初始聚類樣本;
利用所述初始聚類樣本聚類產(chǎn)生一個(gè)簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系之前,所述方法還包括:
計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;
根據(jù)所述話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;
所述根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系包括:
根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性包括:
根據(jù)特征相似性和作者相似性,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性確定子話題的演化關(guān)系包括:
根據(jù)特征相似性,計(jì)算當(dāng)前窗口的每個(gè)子話題與上一窗口的每個(gè)子話題之間的相似性;
當(dāng)兩個(gè)子話題SubTi和SubTj的相似性大于第一閾值時(shí),確定子話題SubTj是對(duì)子話題SubTi的繼承;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時(shí),確定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性小于所述第二閾值時(shí),確定子話題SubTi與SubTj無(wú)關(guān);其中,所述第一閾值大于所述第二閾值。
6.一種微博子話題演化分析裝置,其特征在于,包括:
聚類單元,用于通過(guò)改進(jìn)的最近鄰方法對(duì)當(dāng)前時(shí)間窗口中的每個(gè)微博話題的特征進(jìn)行聚類,以根據(jù)聚類結(jié)果生成相應(yīng)的子話題;
確定單元,用于根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,以確定子話題的演化關(guān)系。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述聚類單元具體用于:
針對(duì)每個(gè)微博話題,從所有特征樣本中選擇互信息最大且大于預(yù)設(shè)閾值D的一對(duì)特征樣本中的任一個(gè)作為初始聚類樣本;
利用所述初始聚類樣本聚類產(chǎn)生一個(gè)簇后,如果新特征樣本與所述簇的互信息大于所述預(yù)設(shè)閾值D,且所述新特征樣本與所述簇的互信息大于其他特征樣本與所述簇的互信息,將所述新特征樣本聚入所述簇;其中,所述新特征樣本與所述簇的互信息等于所述新特征樣本與所述簇的已有特征樣本之間的互信息的平均值。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:
計(jì)算單元,用于在所述確定單元根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗 口中子話題的相似性確定子話題的演化關(guān)系之前,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性;
篩選單元,用于根據(jù)所述計(jì)算單元計(jì)算的話題相似性篩選出當(dāng)前窗口的話題中的持續(xù)性話題;
所述確定單元,具體用于根據(jù)當(dāng)前時(shí)間窗口中子話題與上一時(shí)間窗口中子話題的相似性,在所述持續(xù)性話題中確定子話題的演化關(guān)系。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述計(jì)算單元,具體用于根據(jù)特征相似性和作者相似性,計(jì)算當(dāng)前窗口的話題與上一窗口的話題之間的話題相似性。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述確定單元,具體用于:
根據(jù)特征相似性,計(jì)算當(dāng)前窗口的每個(gè)子話題與上一窗口的每個(gè)子話題之間的相似性;
當(dāng)兩個(gè)子話題SubTi和SubTj的相似性大于第一閾值時(shí),確定子話題SubTj是對(duì)子話題SubTi的繼承;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性在所述第一閾值和所述第二閾值之間時(shí),確定子話題SubTj是子話題SubTi的轉(zhuǎn)移;當(dāng)兩個(gè)子話題SubTi和SubTj的相似性小于所述第二閾值時(shí),確定子話題SubTi與SubTj無(wú)關(guān);其中,所述第一閾值大于所述第二閾值。