本發(fā)明涉及網(wǎng)絡(luò)信息挖掘
技術(shù)領(lǐng)域:
,特別是涉及一種用于微博的突發(fā)特征檢測方法及裝置。
背景技術(shù):
:近年來,隨著web2.0社交網(wǎng)絡(luò)的興起,微博以其方便快捷的優(yōu)點迅速流行起來,現(xiàn)在已經(jīng)發(fā)展成為網(wǎng)絡(luò)信息傳播的主要途徑。微博用戶數(shù)量眾多,每天產(chǎn)生的信息量非常龐大。在微博中,人人都是信息的生產(chǎn)者和傳播者,信息發(fā)布、轉(zhuǎn)發(fā)非常便捷,這使得微博成為信息傳播速度最快的網(wǎng)絡(luò)媒體。社會上許多突發(fā)性話題,往往在微博平臺上首發(fā),借助其好友轉(zhuǎn)發(fā)機制迅速傳播,引起廣泛的社會共鳴,進而波及傳統(tǒng)媒體如新聞、論壇、博客等,產(chǎn)生巨大的社會影響。因此,微博平臺上的社會突發(fā)話題檢測技術(shù),對于社會熱點及時發(fā)現(xiàn)、網(wǎng)絡(luò)民意盡快感知、突發(fā)事件及早響應(yīng)等方面都具有積極的現(xiàn)實意義。與傳統(tǒng)新聞話題相比,微博話題作為大眾媒體的產(chǎn)物,具有自己顯著的特點:(1)話題的多樣性:同一時間,微博上各種話題,如社會事件類話題、娛樂八卦類話題、個人生活瑣事等多種話題摻雜在一起,特別是一些生活瑣事類話題,可能表現(xiàn)出一些周期性的突發(fā)特點,如周一“不想上班”,周末“出游計劃”,月末“月光族”等話題。(2)話題的間歇性:同一個話題,通常會隨著微博用戶的關(guān)注程度和時間的推移經(jīng)歷一個產(chǎn)生、發(fā)展、成熟、衰退和消亡的完整生命周期。而且微博基于好友的轉(zhuǎn)發(fā)機制,導致海量的信息冗余,產(chǎn)生大量的滯后過期信息,這使 得話題表現(xiàn)出一定的間歇性特征。鑒于微博的上述特點,傳統(tǒng)的基于簡單統(tǒng)計的突發(fā)特征檢測方法識別準確率較低,不適用于微博信息的特征檢測。如何針對微博信息噪音大、數(shù)據(jù)多樣性的特點進行突發(fā)特征檢測,現(xiàn)有技術(shù)尚無有效的解決方案。技術(shù)實現(xiàn)要素:本發(fā)明要解決的技術(shù)問題是提供一種用于微博的突發(fā)特征檢測方法及裝置,用以解決現(xiàn)有技術(shù)中微博信息噪音大、數(shù)據(jù)多樣突發(fā)特征檢測準確率低的問題。一方面,本發(fā)明提供一種用于微博的突發(fā)特征檢測方法,包括:根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征;將所述候選突發(fā)特征中的頻繁偽突發(fā)特征和間歇性偽突發(fā)特征濾除。可選的,所述根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征包括:提取所述信息流中的重復串;對所述重復串進行上下文鄰接分析,以從所述重復串中提取有意義串;如果所述有意義串的被檢特征的頻次增長率大于預設(shè)增長閾值,確定所述有意義串的被檢特征為候選突發(fā)特征??蛇x的,將所述候選突發(fā)特征中的頻繁偽突發(fā)特征濾除包括:將第一預設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第一頻次序列;將所述第一頻次序列變換到頻域;根據(jù)所述第一頻次序列的頻譜分布,識別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征??蛇x的,所述根據(jù)所述第一頻次序列的頻譜分布,識別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征包括:確定所述第一頻次序列頻譜的0頻率的能量值與其他頻率的能量平均值的能量比;在所述能量比大于預設(shè)比值的情況下,確定所述第一頻次序列對應(yīng)的候選突發(fā)特征為頻繁偽突發(fā)特征;將所述頻繁偽突發(fā)特征從所述候選突發(fā)特征中濾除??蛇x的,將所述候選突發(fā)特征中的間歇性偽突發(fā)特征濾除包括:將第二預 設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第二頻次序列;通過對所述第二頻次序列進行趨勢分析,確定所述候選突發(fā)特征是否為首次突發(fā);在所述候選突發(fā)特征不是首次突發(fā)的情況下,確定所述候選突發(fā)特征為間歇性偽突發(fā)特征并將所述間歇性偽突發(fā)特征濾除。另一方面,本發(fā)明還提供一種用于微博的突發(fā)特征檢測裝置,包括:檢測單元,用于根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征;第一濾除單元,用于將所述候選突發(fā)特征中的頻繁偽突發(fā)特征濾除;第二濾除單元,用于將所述候選突發(fā)特征中的間歇性偽突發(fā)特征濾除??蛇x您的,所述檢測單元包括:提取模塊,用于提取所述信息流中的重復串;鄰接分析模塊,用于對所述重復串進行上下文鄰接分析,以從所述重復串中提取有意義串;確定模塊,用于如果所述有意義串的被檢特征的頻次增長率大于預設(shè)增長閾值,確定所述有意義串的被檢特征為候選突發(fā)特征??蛇x的,所述第一濾除單元包括:第一形成模塊,用于將第一預設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第一頻次序列;變換模塊,用于將所述第一頻次序列變換到頻域;第一濾除模塊,用于根據(jù)所述第一頻次序列的頻譜分布,識別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征。可選的,所述識別和濾除模塊,具體用于:確定所述第一頻次序列頻譜的0頻率的能量值與其他頻率的能量平均值的能量比;在所述能量比大于預設(shè)比值的情況下,確定所述第一頻次序列對應(yīng)的候選突發(fā)特征為頻繁偽突發(fā)特征;將所述頻繁偽突發(fā)特征從所述候選突發(fā)特征中濾除??蛇x的,所述第二濾除單元包括:第二形成模塊,用于將第二預設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第二頻次序列;趨勢分析模塊,用于通過對所述第二頻次序列進行趨勢分析,確定所述候選突發(fā)特征是否為首次突發(fā);第二濾除模塊,用于在所述候選突發(fā)特征不是首次突發(fā)的情況下,確定所述候選突發(fā)特征為間歇性偽突發(fā)特征并將所述間歇性偽突發(fā)特征濾除。本發(fā)明實施例提供的用于微博的突發(fā)特征檢測方法及裝置,能夠根據(jù)信息 流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征,然后將候選突發(fā)特征中的頻繁偽突發(fā)特征和間歇性偽突發(fā)特征濾除,從而能夠針對微博信息噪音大、數(shù)據(jù)多樣性的特點將相應(yīng)的偽突發(fā)特征濾除,提高了微博突發(fā)特征檢測的準確性。附圖說明圖1是本發(fā)明實施例提供的用于微博的突發(fā)特征檢測方法的一種流程圖;圖2是本發(fā)明實施例提供的用于微博的突發(fā)特征檢測方法的另一種流程圖;圖3是本發(fā)明實施例提供的用于微博的突發(fā)特征檢測方法的又一種流程圖;圖4是本發(fā)明實施例提供的用于微博的突發(fā)特征檢測裝置的一種結(jié)構(gòu)示意圖。具體實施方式以下結(jié)合附圖對本發(fā)明進行詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不限定本發(fā)明。如圖1所示,本發(fā)明實施例提供的用于微博的突發(fā)特征檢測方法,包括:S11,根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征;S12,將所述候選突發(fā)特征中的頻繁偽突發(fā)特征和間歇性偽突發(fā)特征濾除。本發(fā)明實施例提供的用于微博的突發(fā)特征檢測方法,能夠根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征,然后將候選突發(fā)特征中的頻繁偽突發(fā)特征和間歇性偽突發(fā)特征濾除,從而能夠針對微博信息噪音大、數(shù)據(jù)多樣性的特點將相應(yīng)的偽突發(fā)特征濾除,提高了微博突發(fā)特征檢測的準確性。需要說明的是,在微博信息中,存在著這樣一類頻繁特征,如“工作人員”,“上半年”,“短信”等,它們會周期性或者非周期性的頻繁出現(xiàn),但每天出現(xiàn)的頻次不會特別高。由于語言的多樣復雜性,這類頻繁特征可以在多重語境中重復出現(xiàn),偶爾呈現(xiàn)瞬時爆發(fā)增長趨勢,但實際上并非真正的突發(fā)話題關(guān)鍵特征,稱為頻繁偽突發(fā)特征。頻繁偽突發(fā)特征與真正的突發(fā)特征在短時間內(nèi)都表現(xiàn)出明顯的爆發(fā)趨勢,但是頻繁偽突發(fā)特征在歷史信息中頻繁而規(guī)律的出現(xiàn),而突發(fā)特征在歷史信息中出現(xiàn)情況不穩(wěn)定。此外,微博話題還會呈現(xiàn)出一定的生存周期,有些話題的產(chǎn)生、發(fā)展、消亡是連續(xù)的,從話題產(chǎn)生開始到結(jié)束期間,每天都產(chǎn)生相關(guān)消息,而有些話題的發(fā)展是間歇性的,話題產(chǎn)生后沉寂幾天才會有新的進展和消息,在話題存在的整個周期中,不一定每天都出現(xiàn)相關(guān)討論。在一個話題周期內(nèi),特征第一次爆出是突發(fā)特征,再一次爆發(fā)就不構(gòu)成突發(fā)特征,稱為間歇性偽突發(fā)特征。要檢測出真正的突發(fā)特征,就需要將上述的頻繁偽突發(fā)特征和間歇性偽突發(fā)特征濾除。為此,在步驟S11中,首先可以根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征,然后在步驟S12中這兩種偽突發(fā)特征濾除??蛇x的,在步驟S11中,根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征可具體包括:提取所述信息流中的重復串;其中,重復串是指重復出現(xiàn)頻次大于兩次的字符串??蛇x的,重復串的長度可以根據(jù)需要限定在一定數(shù)量的字符以內(nèi),例如10個字符以內(nèi)。對所述重復串進行上下文鄰接分析,以從所述重復串中提取有意義串;如果所述有意義串的被檢特征的頻次增長率大于預設(shè)增長閾值,確定所述有意義串的被檢特征為候選突發(fā)特征。具體而言,可以將微博信息看作時間序列上的文本流,設(shè)置時間窗口T,將時間窗口T內(nèi)的微博信息作為文檔集合D={D1,D2,D3,…},提取D中 的有意義串。其中,時間窗口T可以根據(jù)需要設(shè)置,例如,在本發(fā)明的一個實施例中,時間窗口T可以取值為1天、2天等。其中,有意義串是指包含具體語義且能在多種不同語境中使用的字符串。有意義串是靈活獨立的語言單元,可包括未錄入的新詞和命名實體,以及有意義的詞組和短語。也就是說,有意義串都具有語義完整性,但突破了詞典中詞語的界限??蛇x的,可以采用鄰接分析的方法進行有意義串的提取。鄰接分析是指分析有意義字符串的上下文語言環(huán)境,如果該字符串能夠應(yīng)用于多種不同的上下文環(huán)境,具有語用靈活性,則該字符串就是有意義串。上下文鄰接分析首先要提取重復串的鄰接集合,計算每個重復串的鄰接種類。鄰接集合和鄰接種類定義如下:鄰接集合:分為左鄰接集合NBL和右鄰接集合NBR,分別指真實文本中,與字符串S左邊或者右邊相鄰的詞語的集合。當字符串做為一個句子的開始,其左鄰接元素記為BOS,做為句子的結(jié)束時,其右鄰接元素記為EOS。鄰接種類:分為左鄰接種類VL和右鄰接種類VR,分別指左鄰接集合中和右鄰接集合種元素的數(shù)目,它們反映了字符串上文和下文語境種類的多少。選取重復串S的左鄰接類別和右鄰接類別中的較小值記為minVN。當minVN大于預設(shè)閾值TVN時,該重復串S就是有意義串。其中,預設(shè)閾值TVN的選取與微博信息的規(guī)模相關(guān),取值應(yīng)大于2,例如可以為3。有意義串的被檢特征的爆發(fā)程度可以通過不同時間窗口上被檢特征的頻次變化情況來體現(xiàn)。在本發(fā)明的一個實施例中,提取當前時間窗口的有意義串后,可以統(tǒng)計每個有意義串的被檢特征在當前時間窗口與上一個時間窗口相比的頻次增長情況,如果當前時間窗口的頻次與上一時間窗口的頻次相比,增大超過了預設(shè)增長閾值,則該被檢特征即可作為候選突發(fā)特征。如果被檢特征在上一時間窗口未出現(xiàn),則上一時間窗口對應(yīng)的頻次為0。具體而言,為了得到真正的突發(fā)特征,在步驟S12中,需要分別將候選突 發(fā)特征中的頻繁偽突發(fā)特征和間歇性偽突發(fā)特征濾除,由于這兩種偽突發(fā)特征是相互獨立的,因此,濾除的先后順序不限??蛇x的,將所述候選突發(fā)特征中的頻繁偽突發(fā)特征濾除可包括:將第一預設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第一頻次序列;將所述第一頻次序列變換到頻域;根據(jù)所述第一頻次序列的頻譜分布,識別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征。具體而言,可以統(tǒng)計候選特征在較長歷史時間段(例如1個月或1年)的頻次,形成N個時間窗口上的頻次序列,然后將該頻次序列看作離散時間信號,對其進行傅立葉變換,以便產(chǎn)生頻域信號序列。通過對信號進行頻域分析,即能夠直觀看到信號在不同頻率成份上的大小分布,直接反映信號的頻繁程度,從而揭示信號隨頻率的變化規(guī)律。例如,在頻域中,頻繁偽突發(fā)特征在0頻率上的能量比較大,而其它頻率上的能量相對較小,曲線有較明顯的沖擊;突發(fā)特征在0頻率上的能量與其它頻率上的能量差距相對較小,曲線比較平緩。因此,通過分析特征在0頻率上與其他頻率上的能量情況,即可將頻繁偽突發(fā)特征識別出來。可選的,根據(jù)所述第一頻次序列的頻譜分布,識別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征可包括如下步驟:確定所述第一頻次序列頻譜的0頻率的能量值與其他頻率的能量平均值的能量比;在所述能量比大于預設(shè)比值的情況下,確定所述第一頻次序列對應(yīng)的候選突發(fā)特征為頻繁偽突發(fā)特征;將所述頻繁偽突發(fā)特征從所述候選突發(fā)特征中濾除。舉例說明,如圖2所示,在本發(fā)明的一個實施例中,可以計算候選突發(fā)特征在當前時間窗口(當天)往前一個月內(nèi)每天的的頻次,構(gòu)成頻次序列,并進行傅立葉變換,根據(jù)頻域中0頻率與其他頻率上的能量比識別頻繁偽突發(fā)特征。其中,信號的頻譜分布中,0頻率的能量與其它頻率能量平均值的比值稱為能量比,用符號S表示:S=|x[0]|21K(Σk=1K|x[k]|2)---(1)]]>S可作為被檢特征是否為頻繁偽突發(fā)特征的度量,S的值越大,被檢特征是頻繁偽突發(fā)特征的可能性越大。實際應(yīng)用中可以通過大量的標注數(shù)據(jù)訓練得到預設(shè)比值ST,將能量比S與預設(shè)比值ST相比較,如果能量比S大于預設(shè)比值ST,即可確定該被檢特征為頻繁偽突發(fā)特征。具體的,步驟S12中的將候選突發(fā)特征中的間歇性偽突發(fā)特征濾除可包括:將第二預設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第二頻次序列;通過對所述第二頻次序列進行趨勢分析,確定所述候選突發(fā)特征是否為首次突發(fā);在所述候選突發(fā)特征不是首次突發(fā)的情況下,確定所述候選突發(fā)特征為間歇性偽突發(fā)特征并將所述間歇性偽突發(fā)特征濾除。其中,第二預設(shè)時間段一般比第一預設(shè)時間段短,可選的,可以為微博等信息平臺的一個話題周期。從階段性趨勢來看,經(jīng)過間歇期后的爆發(fā)點就已經(jīng)處于特征的下降趨勢范圍了,可以對話題周期內(nèi)的頻次序列進行平滑,分析其階段性的趨勢特點,進而判斷突發(fā)特征是否為首次突發(fā),從而識別出間歇性偽突發(fā)特征。例如,如果一個話題周期為M天,則可以對特征的頻次曲線進行M天移動指數(shù)平滑EMA(exponentialmovingaverage),再計算移動平均收斂發(fā)散MACD(MovingAverageConvergencc-Divergence)指標,通過該指標來判斷被檢特征是否為首次突發(fā),進而識別出間歇性偽突發(fā)特征。其中,指數(shù)移動平均EMA,是指將特征的頻次時間序列進行n天指數(shù)平均,平均后的頻次值與前n天的頻次值相關(guān),距離較近的頻次值具有較大權(quán)重較大。EMA(n)[x]t=αxt+(1-α)EMA(n-1)[x]t-1=Σk=0nα(1-α)kxt-k---(2)]]>其中,xt是第t天的頻次值,EMA(n)[x]t是n天指數(shù)平均頻次值,它對于近期頻次的變化要快于簡單的n天平均值。α取值與n相關(guān),一般為2/(n+1)。移動平均收斂發(fā)散MACD(MovingAverageConvergencc-Divergence)MACD指標是由兩條曲線構(gòu)成:一條實線(稱為“MACD線”)與一條虛線(稱為“Signal線”)。MACD線是較快的EMA線和較慢的EMA線的差值,它對于頻次值變動的反應(yīng)比較敏感。較快的EMA線與較慢的EMA線相比,n取值更小,受影響的歷史區(qū)間更小,對當前值反應(yīng)更快。“Signal線”是MACD線是經(jīng)過指數(shù)平均之后的另一條EMA線,它對于頻次值變動的反應(yīng)比較緩慢。具體計算公式如下:MACD(n1,n2)=EMA(n1)-EMA(n2)(n1<n2)(3)signal(n1,n2,n3)=EMA(n3)[MACD(n1,n2)](n1<n3<n2)(4)當快速的MACD線穿越慢速的Signal線,頻次的趨勢發(fā)生變化。用histogram來表示,它是MACD和signal的差值,計算公式如下:histogram(n1,n2,n3)=MACD(n1,n2)-signal(n1,n2,n3)(5)hisrogram擴大了特征的平均頻次值和局部波動之間的差異,當hisrogram大于0時,表示頻次處于上升趨勢,當hisrogram小于0時,表示頻次處于下降趨勢。它可用來反映特征頻次的變化趨勢,作為衡量特征是否為首次突發(fā)的指標。間歇性突發(fā)特征在首次出現(xiàn)時,hisrogran大于0,頻次呈現(xiàn)上升態(tài)勢,屬于突發(fā)特征;當間歇性特征在話題周期內(nèi)再次出現(xiàn)時,hisrogram小于0,頻次呈現(xiàn)下跌態(tài)勢,則表明特征在前期出現(xiàn)過大規(guī)模爆發(fā),判斷該特征不是首次突發(fā)特征,而僅僅是間歇性突發(fā)特征。本實施例中的間歇性偽突發(fā)特征檢測的具體過程可如圖3所示。在上述突發(fā)特征的趨勢分析中,參數(shù)n1,n2,n3的取值應(yīng)該與話題周期 相關(guān)。一般n2可以取值為一個話題周期,n1可以取值為半個話題周期,而n3取值在n1和n2之間。通過分析和訓練發(fā)現(xiàn),大部分話題的生存周期在一周左右,在本實例中,n1可取值為3,n2取值為7,n3取值為5。相應(yīng)的,如圖4所示,本發(fā)明的實施例還提供一種用于微博的突發(fā)特征檢測裝置,包括:檢測單元40,用于根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征;第一濾除單元41,用于將所述候選突發(fā)特征中的頻繁偽突發(fā)特征濾除;第二濾除單元42,用于將所述候選突發(fā)特征中的間歇性偽突發(fā)特征濾除。本發(fā)明實施例提供的用于微博的突發(fā)特征檢測裝置,檢測單元40能夠根據(jù)信息流中有意義串的被檢特征的瞬時爆發(fā)情況,檢測出候選突發(fā)特征,第一濾除單元41能夠?qū)⒑蜻x突發(fā)特征中的頻繁偽突發(fā)特征濾除,第二濾除單元42能夠?qū)⒑蜻x突發(fā)特征中的間歇性偽突發(fā)特征濾除,從而能夠針對微博信息噪音大、數(shù)據(jù)多樣性的特點將相應(yīng)的偽突發(fā)特征濾除,有效提高了微博突發(fā)特征檢測的準確性??蛇x的,檢測單元40可包括:提取模塊,用于提取所述信息流中的重復串;鄰接分析模塊,用于對所述重復串進行上下文鄰接分析,以從所述重復串中提取有意義串;確定模塊,用于如果所述有意義串的被檢特征的頻次增長率大于預設(shè)增長閾值,確定所述有意義串的被檢特征為候選突發(fā)特征。可選的,第一濾除單元41可包括:第一形成模塊,用于將第一預設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第一頻次序列;變換模塊,用于將所述第一頻次序列變換到頻域;第一濾除模塊,用于根據(jù)所述第一頻次序列的頻譜分布,識別并濾除所述候選突發(fā)特征中的頻繁偽突發(fā)特征。可選的,識別和濾除模塊,可具體用于:確定所述第一頻次序列頻譜的0頻率的能量值與其他頻率的能量平均值的能量比;在所述能量比大于預設(shè)比值的情況下,確定所述第一頻次序列對應(yīng)的候選突發(fā)特征為頻繁偽突發(fā)特征;將所述頻繁偽突發(fā)特征從所述候選突發(fā)特征中濾除??蛇x的,第二濾除單元42可包括:第二形成模塊,用于將第二預設(shè)時間段內(nèi)各時間窗口上的候選突發(fā)特征形成第二頻次序列;趨勢分析模塊,用于通過對所述第二頻次序列進行趨勢分析,確定所述候選突發(fā)特征是否為首次突發(fā);第二濾除模塊,用于在所述候選突發(fā)特征不是首次突發(fā)的情況下,確定所述候選突發(fā)特征為間歇性偽突發(fā)特征并將所述間歇性偽突發(fā)特征濾除。盡管為示例目的,已經(jīng)公開了本發(fā)明的優(yōu)選實施例,本領(lǐng)域的技術(shù)人員將意識到各種改進、增加和取代也是可能的,因此,本發(fā)明的范圍應(yīng)當不限于上述實施例。當前第1頁1 2 3