1.一種用于微博的突發(fā)特征檢測(cè)方法,其特征在于,包括:
根據(jù)信息流中有意義串的被檢特征的瞬時(shí)爆發(fā)情況,檢測(cè)出候選突發(fā)特征;
將所述候選突發(fā)特征中的頻繁偽突發(fā)特征和間歇性偽突發(fā)特征濾除。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)信息流中有意義串的被檢特征的瞬時(shí)爆發(fā)情況,檢測(cè)出候選突發(fā)特征包括:
提取所述信息流中的重復(fù)串;
對(duì)所述重復(fù)串進(jìn)行上下文鄰接分析,以從所述重復(fù)串中提取有意義串;
如果所述有意義串的被檢特征的頻次增長(zhǎng)率大于預(yù)設(shè)增長(zhǎng)閾值,確定所述有意義串的被檢特征為候選突發(fā)特征。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述候選突發(fā)特征中的頻繁偽突發(fā)特征濾除包括:
將第一預(yù)設(shè)時(shí)間段內(nèi)各時(shí)間窗口上的候選突發(fā)特征形成第一頻次序列;
將所述第一頻次序列變換到頻域;
根據(jù)所述第一頻次序列的頻譜分布,識(shí)別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述第一頻次序列的頻譜分布,識(shí)別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征包括:
確定所述第一頻次序列頻譜的0頻率的能量值與其他頻率的能量平均值的能量比;
在所述能量比大于預(yù)設(shè)比值的情況下,確定所述第一頻次序列對(duì)應(yīng)的候選突發(fā)特征為頻繁偽突發(fā)特征;
將所述頻繁偽突發(fā)特征從所述候選突發(fā)特征中濾除。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,將所述候選突發(fā)特征中的間歇性偽突發(fā)特征濾除包括:
將第二預(yù)設(shè)時(shí)間段內(nèi)各時(shí)間窗口上的候選突發(fā)特征形成第二頻次序列;
通過(guò)對(duì)所述第二頻次序列進(jìn)行趨勢(shì)分析,確定所述候選突發(fā)特征是否為首次突發(fā);
在所述候選突發(fā)特征不是首次突發(fā)的情況下,確定所述候選突發(fā)特征為間歇性偽突發(fā)特征并將所述間歇性偽突發(fā)特征濾除。
6.一種用于微博的突發(fā)特征檢測(cè)裝置,其特征在于,包括:
檢測(cè)單元,用于根據(jù)信息流中有意義串的被檢特征的瞬時(shí)爆發(fā)情況,檢測(cè)出候選突發(fā)特征;
第一濾除單元,用于將所述候選突發(fā)特征中的頻繁偽突發(fā)特征濾除;
第二濾除單元,用于將所述候選突發(fā)特征中的間歇性偽突發(fā)特征濾除。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述檢測(cè)單元包括:
提取模塊,用于提取所述信息流中的重復(fù)串;
鄰接分析模塊,用于對(duì)所述重復(fù)串進(jìn)行上下文鄰接分析,以從所述重復(fù)串中提取有意義串;
確定模塊,用于如果所述有意義串的被檢特征的頻次增長(zhǎng)率大于預(yù)設(shè)增長(zhǎng)閾值,確定所述有意義串的被檢特征為候選突發(fā)特征。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一濾除單元包括:
第一形成模塊,用于將第一預(yù)設(shè)時(shí)間段內(nèi)各時(shí)間窗口上的候選突發(fā)特征形成第一頻次序列;
變換模塊,用于將所述第一頻次序列變換到頻域;
第一濾除模塊,用于根據(jù)所述第一頻次序列的頻譜分布,識(shí)別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述識(shí)別和濾除模塊,具體用于:
確定所述第一頻次序列頻譜的0頻率的能量值與其他頻率的能量平均值的能量比;
在所述能量比大于預(yù)設(shè)比值的情況下,確定所述第一頻次序列對(duì)應(yīng)的候選突發(fā)特征為頻繁偽突發(fā)特征;
將所述頻繁偽突發(fā)特征從所述候選突發(fā)特征中濾除。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的裝置,其特征在于,所述第二濾除單元包括:
第二形成模塊,用于將第二預(yù)設(shè)時(shí)間段內(nèi)各時(shí)間窗口上的候選突發(fā)特征形成第二頻次序列;
趨勢(shì)分析模塊,用于通過(guò)對(duì)所述第二頻次序列進(jìn)行趨勢(shì)分析,確定所述候選突發(fā)特征是否為首次突發(fā);
第二濾除模塊,用于在所述候選突發(fā)特征不是首次突發(fā)的情況下,確定所述候選突發(fā)特征為間歇性偽突發(fā)特征并將所述間歇性偽突發(fā)特征濾除。