基于微博的事件特征演化挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于微博的事件特征演化挖掘方法,包括:在微博時序序列中選取演化起始文檔集,并在微博文檔集合上基于詞匯的共現(xiàn)特征構(gòu)造文檔的圖模型以得到事件的知識網(wǎng)絡結(jié)構(gòu);依據(jù)詞匯的字面特征,詞匯傾向性的相容性特征將微博圖模型進行合并,構(gòu)造事件特征的微觀演化圖;在事件的微觀演化圖上進行剪枝、切分和轉(zhuǎn)化,形成事件特征的宏觀演化圖。該方法在挖掘事件特征的演化規(guī)律過程中采用了基于事件的知識網(wǎng)絡的圖挖掘方法,使得整個事件特征演化挖掘方法在知識的繼承性方面得到提升,挖掘結(jié)果的可解釋性更強。
【專利說明】基于微博的事件特征演化挖掘方法及系統(tǒng)
【技術(shù)領域】
[0001]本發(fā)明涉及文本挖掘和話題發(fā)現(xiàn)與跟蹤領域,特別涉及一種基于微博文本數(shù)據(jù)的事件特征演化與挖掘的方法。
【背景技術(shù)】
[0002]隨著Web2.0技術(shù)和應用近年來的蓬勃發(fā)展,在線微博服務逐漸成為了一種擁有大量用戶、產(chǎn)生大量信息的新的信息傳播平臺。據(jù)第29次中國互聯(lián)網(wǎng)報告統(tǒng)計:截至2011年12月底,我國微博的實際用戶數(shù)達到2.5億,較上一年底增長了 296.0%,網(wǎng)民使用率為48.7%。
[0003]區(qū)別于Facebook等強關(guān)系社交網(wǎng)絡服務,微博服務的社會網(wǎng)絡關(guān)系通常是單向的——即用戶不需要其他用戶授權(quán)就可以關(guān)注他們,接收他們產(chǎn)生的信息。用戶關(guān)注的人稱為該用戶的好友(friends);關(guān)注某用戶的人稱為該用戶的粉絲(followers),用戶發(fā)布的所有博文(tweets)將出現(xiàn)在公共時間線上(public timeline),該用戶所有粉絲(followers)時間線上將顯示該用戶的所有消息。
[0004]現(xiàn)實中的話題或事件投影在微博的文本空間中,就是所有用戶討論相關(guān)話題、事件的博文的集合。(在文本分析領域,有時對話題和事件這兩個概念不予區(qū)分,下文中均采用此觀點。)現(xiàn)實中的話題和事件在不斷演化,相應地,微博文本空間中的話題和事件也在不斷演化。話題/事件演化的時刻即當微博中的粉絲對其關(guān)注者所發(fā)出的信息進行轉(zhuǎn)發(fā)或評論的時刻。轉(zhuǎn)發(fā)和評論中除了對原博文中的觀點、敘述進行顯示或隱式的重復外,還會引入新的觀點和新的敘述,此時話題就會發(fā)生一定程度變化。從原博文后第一次被轉(zhuǎn)發(fā)或評論起,話題的演化過程就開始了。隨著轉(zhuǎn)發(fā)、評論的不斷進行,話題的外延也在不斷延伸,話題不斷演化。研究話題/事件在傳播過程中的演化,就是要跟蹤話題/事件信息在每一次傳播中的細微變化,進而綜合考察話題/事件在宏觀上的變化。
[0005]目前對微博上話題/事件信息傳播和演化的研究分為以下兩類。第一類研究通過分析話題/事件傳播的行為要素,建立話題傳播和演化的數(shù)學模型,模擬傳播演化過程,以回答話題/事件為什么會傳播的問題。這類研究偏向于傳播學層面的仿真建模理論,對研究某一特定話題/事件的傳播演化過程并無實際意義。第二類研究將微博中的社會網(wǎng)絡信息與傳統(tǒng)的話題/事件模型相結(jié)合,對話題/事件在微博中的傳播過程進行推理,此類研究最終會得到兩種結(jié)果,其一是話題/事件在微博中的顯式和隱式的傳播路徑,其二是話題/事件在傳播過程中模型所發(fā)生的變化。此類研究的基本步驟是:
[0006]1、將微博中討論同一話題/事件的文本按照時序排列,保持其顯式轉(zhuǎn)發(fā)關(guān)系,按照時間由前到后的順序,和轉(zhuǎn)發(fā)順序進行處理,必要時引入時間片的概念,對同一時間片的文本同時進行處理。對沒有引入時間片概念的,可以視為每篇文檔單獨占據(jù)一個時間片;
[0007]2、建立每個時間片的話題/事件模型,此時多考慮使用向量空間模型和概率模型,必要時將此時間片的話題模型進行拆分,分解為若干個子話題,以表示話題的不同方面。[0008]3、以0時刻的話題/事件模型為基準,依次對后續(xù)時間片中的每一個文本的話題/事件模型進行考察,比較后者與前者的相似性,推理其傳播關(guān)系。鑒于微博中信息流走向的局部性,此步驟中需將產(chǎn)生兩個文本的用戶間的關(guān)系考慮進來,若兩用戶之間沒有明顯的聯(lián)系,則認為文本間有傳播關(guān)系的概率小。
[0009]4、由步驟3,每個文檔可視為一個頂點,文檔間的傳播關(guān)系可視為頂點間的邊,因此此時可以構(gòu)造造出文本信息的傳播樹或傳播圖。此圖中刻畫了話題/事件信息在微博中的顯式/隱式傳播路徑。沿每條路徑考察各頂點的話題/事件模型,該模型的變化規(guī)律即為沿此路徑的話題/事件的演化規(guī)律。
[0010]從上述描述中可以看出,由于考察話題/事件的演化過程是在建立傳播模型的同時完成的,所以話題/事件的演化過程并沒有獨立的模型,而是依賴于如向量空間或概率模型等話題模型。這些話題模型是文檔集合的有效表達方式,卻缺乏話題演化方面的表達,這導致上述方法得到的話題/事件演化分析結(jié)果不外乎詞頻或詞匯向量隨時間的變化規(guī)律,并沒有詞匯之間的關(guān)聯(lián)信息,在話題/事件的領域知識方面沒有繼承性,在演化方面缺乏可解釋性。介于此,需要一種新的話題/事件特征演化挖掘方法。
【發(fā)明內(nèi)容】
[0011]本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種新的基于微博的事件特征演化挖掘方法及系統(tǒng)。
[0012]本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
[0013]一方面,本發(fā)明提供了一種基于微博的事件特征演化挖掘方法,包括:
[0014]步驟1,從與待分析事件相關(guān)的微博文本的集合中選取若干個代表事件起點的微博,以構(gòu)成事件演化起點微博集合;
[0015]步驟2,構(gòu)造事件演化起點微博集合的圖模型,作為初始的事件微觀演化圖;所述圖模型中頂點為出現(xiàn)在該事件演化起點微博集合的各微博文本中的名詞/動詞,兩個頂點間的邊表示這兩個頂點對應的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預先給定的閾值;
[0016]步驟3,對與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當前的事件演化微觀圖中;
[0017]步驟4,基于經(jīng)步驟3得到的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化。
[0018]上述方法中,所述步驟1中代表事件起點的微博可具有以下特征:a)發(fā)表時間早;
b)為原創(chuàng)微博,而非轉(zhuǎn)發(fā)或評論的微博。
[0019]上述方法中,所述步驟2中所述圖模型的頂點可以由該頂點對應的名詞/動詞,包含名詞/動詞的微博文檔的集合,該名詞/動詞的傾向性評分構(gòu)成的三元組來表示,其中該名詞/動詞的傾向性評分為修飾該名詞/動詞的形容詞和副詞所對應的傾向性評分的平均值。
[0020]上述方法中,所述步驟2可包括:
[0021]步驟2-1)對事件演化起點微博集合中每條微博文本進行分詞和詞性標注;
[0022]步驟2-2)對分詞后的形容詞和副詞,設置其傾向性評分;[0023]步驟2-3)對于分詞后的名詞和動詞,將修飾同一名詞/動詞的形容詞和副詞所對應的傾向性評分取平均值,作為此名詞或動詞的傾向性評分;
[0024]步驟2-4)以名詞和動詞作為頂點,如果任兩個頂點對應的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預先給定的閾值,則在這兩個頂點之間創(chuàng)建邊。
[0025]上述方法中,所述步驟3中將所構(gòu)建的微博的圖模型加入到當前的事件演化微觀圖可包括:對待處理微博的圖模型中的每一條邊:
[0026]a)若該邊的兩個頂點都已存在于當前的事件演化微觀圖中,且該事件演化微觀圖中已有此邊,則對該邊的出現(xiàn)次數(shù)計數(shù)進行累加;若該事件演化微觀圖中尚無此邊,則將此邊復制到該事件演化微觀圖中;
[0027]b)若該邊中有且只有一個頂點出現(xiàn)在當前的事件演化微觀圖中,則將不在該事件演化微觀圖中的頂點和邊復制到該事件演化微觀圖中;
[0028]c)若該邊的兩個頂點均不在當前的事件演化微觀圖中,則將此邊和兩個頂點完整復制到該事件演化微觀圖中。
[0029]上述方法中,所述步驟3還可包括判斷微博的圖模型中某個頂點是否在事件演化微觀圖中的步驟,其包括:對于微博的圖模型中給定的某個頂點,如果事件演化微觀圖中包含有與該頂點對應的詞相同的頂點,該微博與對該事件演化微觀圖中對應頂點涉及的微博文本存在轉(zhuǎn)發(fā)或評論的關(guān)系,并且這兩個頂點的傾向性評分相容,則判定事件演化微觀圖中已包含該給定的頂點,其中,傾向性評分相容指事件演化微觀圖中對應頂點的傾向性評分與該給定的頂點傾向性評分的差小于一定閾值。
[0030]上述方法中,所述的步驟4)可包括對事件微觀演化圖進行切分和轉(zhuǎn)化以獲取事件宏觀演化圖。
[0031]上述方法中,所述對事件微觀演化圖進行切分和轉(zhuǎn)化可包括:
[0032]步驟4-1)將與待分析事件相關(guān)的微博文本按時間進行排序,對該微博文本序列按時間進行切片,形成所需粒度的時間片;
[0033]步驟4-2)在事件宏觀演化圖中創(chuàng)建一個頂點,對應初始的事件微觀演化圖;
[0034]步驟4-3)對于每一個時間片執(zhí)行下列步驟:
[0035]4-3-a)在事件微觀演化圖中依次選取每一個時間片對應的頂點和邊,構(gòu)造以此子圖為基的最小連通子圖;
[0036]4-3-b)在事件宏觀演化圖中創(chuàng)建一個頂點,對應于該最小連通子圖,若該最小連通子圖與事件宏觀演化圖中其它頂點對應的子圖相交,則創(chuàng)建一條連接兩個子圖的邊;
[0037]上述方法中,所述步驟4-3)還可包括所創(chuàng)建的連接兩個子圖的這條邊賦予權(quán)值,
邊的權(quán)值為兩個頂點對應子圖的Jaccard系數(shù);其中對于事件宏觀演化圖中任兩個頂點ν
r Jf Λ #(GrnGr.)
和ν,,其對應子圖的Jaccard系數(shù)計算方式為:Jaccard) =.....巧:.|其中,Gv n Gv,
和Gv U Gv,分別表示兩個頂點對應子圖的頂點集合的交集和并集,函數(shù)#0表示集合中的元素個數(shù)。
[0038]上述方法中,所述步驟4還可包括對事件微觀演化圖進行剪枝的步驟,其包括刪除事件微觀演化圖中出現(xiàn)次數(shù)低于給定閾值的邊,然后刪除與初始的事件微觀演化圖不連通的分支,其中邊的出現(xiàn)次數(shù)指在與待分析事件相關(guān)的微博文本的集合中該邊的兩個頂點對應的詞共同出現(xiàn)在同一微博中的次數(shù)。
[0039]又一方面,本發(fā)明提供了一種基于微博的事件特征演化挖掘系統(tǒng),包括:
[0040]用于從與待分析事件相關(guān)的微博文本的集合中選取若干個代表事件起點的微博,以構(gòu)成事件演化起點微博集合的裝置;
[0041]用于構(gòu)造事件演化起點微博集合的圖模型,作為初始的事件微觀演化圖的裝置;所述圖模型中頂點為出現(xiàn)在該事件演化起點微博集合的各微博文本中的名詞/動詞,兩個頂點間的邊表示這兩個頂點對應的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預先給定的閾值; [0042]用于對與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當前的事件演化微觀圖中的裝置;
[0043]用于基于最后的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化的裝置。
[0044]與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
[0045]采用事件的圖模型為基礎,通過構(gòu)造詞匯之間的知識結(jié)構(gòu),從而得到在知識層面更具可解釋性的事件演化模型。在事件圖模型上以知識網(wǎng)絡為單位構(gòu)造事件演化圖,提升了事件知識的繼承性。權(quán)衡了微博文本的特點,利用統(tǒng)計法,以文本數(shù)量多參與用戶多的優(yōu)點克服單條微博文本少,特征稀缺的不足。
【專利附圖】
【附圖說明】
[0046]以下,結(jié)合附圖來詳細說明本發(fā)明的實施例,其中:
[0047]圖1為根據(jù)本發(fā)明實施例的基于微博的事件特征演化挖掘方法流程示意圖?!揪唧w實施方式】
[0048]為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖通過具體實施例對本發(fā)明進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0049]在本發(fā)明的一個實施例中,提供了一種具有較高識別度和解釋性的基于微博的事件特征演化挖掘方法,超越文檔自身邊界,從事件知識的層面出發(fā),細粒度地對事件演化過程進行挖掘和跟蹤。下面結(jié)合圖1對該方法的具體步驟進行舉例說明。
[0050]步驟1,獲取討論同一事件的微博文本的集合,并從中選取演化起點微博若干。其中演化起點微博也就是代表事件起點的微博,作為事件起點的微博必須具有如下特征:a)發(fā)表時間早;b)為原創(chuàng)微博,而非轉(zhuǎn)發(fā)或評論。根據(jù)本發(fā)明的一個實施例,步驟1)可包括下列步驟:
[0051]步驟1-1,獲取討論同一事件的微博文本的集合。例如,可采用關(guān)鍵詞搜索的方式獲取。
[0052]步驟1-2,對討論同一事件的微博按時間順序進行排序,即將該集合中的微博文本按微博發(fā)表時間由先到后進行排列,并保持微博間的顯式轉(zhuǎn)發(fā)、評論關(guān)系(本申請中將轉(zhuǎn)發(fā)和評論等同視之),可將此序列記為:0=((1^ d2,…,dj。其中,下標1~η又可作為該文檔的時刻標記,由于時刻的無限可分,可以認為一個時刻最多只會產(chǎn)生一篇文檔。在此序列上建立轉(zhuǎn)發(fā)指示函數(shù)Rt:DXD— {0,1},表示文檔間的轉(zhuǎn)發(fā)關(guān)系,對于文檔屯,(1」,0〈?〈Κη,若文檔4轉(zhuǎn)發(fā)了文檔φ,則財(屯,4)=1,否則此表達式值為0。在此關(guān)系基礎上,又可建立函數(shù)isRt:D— {0,1},表示每個文檔是原創(chuàng)文檔(0)或轉(zhuǎn)發(fā)文檔(1)。此外,另有定義在文檔集合上的轉(zhuǎn)發(fā)指示函數(shù)Rt的版本Rt:2DX2D— {0, 1},對于文檔集合01和%:
[0053]
【權(quán)利要求】
1.一種基于微博的事件特征演化挖掘方法,包括以下步驟:步驟1,從與待分析事件相關(guān)的微博文本的集合中選取若干個代表事件起點的微博,以構(gòu)成事件演化起點微博集合;步驟2,構(gòu)造事件演化起點微博集合的圖模型,作為初始的事件微觀演化圖;所述圖模型中頂點為出現(xiàn)在該事件演化起點微博集合的各微博文本中的名詞/動詞,兩個頂點間的邊表示這兩個頂點對應的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預先給定的閾值;步驟3,對與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當前的事件演化微觀圖中;步驟4,基于經(jīng)步驟3得到的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟1中代表事件起點的微博具有以下特征:a)發(fā)表時間早;b)為原創(chuàng)微博,而非轉(zhuǎn)發(fā)或評論的微博。
3.根據(jù)權(quán)利要求1所述的方法,所述步驟2中所述圖模型的頂點以由該頂點對應的名詞/動詞,包含名詞/動詞的微博文檔的集合,該名詞/動詞的傾向性評分構(gòu)成的三元組來表示,其中該名詞/動詞的傾向性評分為修飾該名詞/動詞的形容詞和副詞所對應的傾向性評分的平均值。
4.根據(jù)權(quán)利要求3所述的方法,所述步驟2包括: 步驟2-1)對事件演化起點微博集合中每條微博文本進行分詞和詞性標注;步驟2-2)對分詞后的形容詞和副詞,設置其傾向性評分;步驟2-3)對于分詞后的名詞和動詞,將修飾同一名詞/動詞的形容詞和副詞所對應的傾向性評分取平均值,作為此名詞或動詞的傾向性評分;步驟2-4)以名詞和動詞作為頂點,如果任兩個頂點對應的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預先給定的閾值,則在這兩個頂點之間創(chuàng)建邊。
5.根據(jù)權(quán)利要求1所述的方法,所述步驟3中將所構(gòu)建的微博的圖模型加入到當前的事件演化微觀圖包括:對待處理微博的圖模型中的每一條邊:a)若該邊的兩個頂點都已存在于當前的事件演化微觀圖中,且該事件演化微觀圖中已有此邊,則對該邊的出現(xiàn)次數(shù)計數(shù)進行累加;若該事件演化微觀圖中尚無此邊,則將此邊復制到該事件演化微觀圖中;b)若該邊中有且只有一個頂點出現(xiàn)在當前的事件演化微觀圖中,則將不在該事件演化微觀圖中的頂點和邊復制到該事件演化微觀圖中;c)若該邊的兩個頂點均不在當前的事件演化微觀圖中,則將此邊和兩個頂點完整復制到該事件演化微觀圖中。
6.根據(jù)權(quán)利要求5所述的方法,所述步驟3還包括判斷微博的圖模型中某個頂點是否在事件演化微觀圖中的步驟,其包括:對于微博的圖模型中給定的某個頂點,如果事件演化微觀圖中包含有與該頂點對應的詞相同的頂點,該微博與對該事件演化微觀圖中對應頂點涉及的微博文本存在轉(zhuǎn)發(fā)或評論的關(guān)系,并且這兩個頂點的傾向性評分相容,則判定事件演化微觀圖中已包含該給定的頂點,其中,傾向性評分相容指事件演化微觀圖中對應頂點的傾向性評分與該給定的頂點傾向性評分的差小于一定閾值。
7.根據(jù)權(quán)利要求1所述的方法,所述的步驟4)包括對事件微觀演化圖進行切分和轉(zhuǎn)化以獲取事件宏觀演化圖。
8.根據(jù)權(quán)利要求7所述的方法,所述對事件微觀演化圖進行切分和轉(zhuǎn)化包括:步驟4-1)將與待分析事件相關(guān)的微博文本按時間進行排序,對該微博文本序列按時間進行切片,形成所需粒度的時間片;步驟4-2)在事件宏觀演化圖中創(chuàng)建一個頂點,對應初始的事件微觀演化圖;步驟4-3)對于每一個時間片執(zhí)行下列步驟:4-3-a)在事件微觀演化圖中依次選取每一個時間片對應的頂點和邊,構(gòu)造以此子圖為基的最小連通子圖;4-3-b)在事件宏觀演化圖中創(chuàng)建一個頂點,對應于該最小連通子圖,若該最小連通子圖與事件宏觀演化圖中其它頂點對應的子圖相交,則創(chuàng)建一條連接兩個子圖的邊。
9.根據(jù)權(quán)利要求8所述的方法,所述步驟4-3)還包括所創(chuàng)建的連接兩個子圖的這條邊賦予權(quán)值,邊的權(quán)值為兩個頂點對應子圖的Jaccard系數(shù);其中對于事件宏觀演化圖中任兩個頂點ν和ν’,其對應子圖的Jaccard系數(shù)計算方式為:
10.根據(jù)權(quán)利要求7所述的方法,所述步驟4還包括對事件微觀演化圖進行剪枝的步驟,其包括刪除事件微觀演化圖中出現(xiàn)次數(shù)低于給定閾值的邊,然后刪除與初始的事件微觀演化圖不連通的分支,其中邊的出現(xiàn)次數(shù)指在與待分析事件相關(guān)的微博文本的集合中該邊的兩個頂點對應的詞共同出現(xiàn)在同一微博中的次數(shù)。
11.一種基于微博的事件特征演化挖掘系統(tǒng),包括:用于從與待分析事件相關(guān)的微博文本的集合中選取若干個代表事件起點的微博,以構(gòu)成事件演化起點微博集合的裝置;用于構(gòu)造事件演化起點微博集合的圖模型,作為初始的事件微觀演化圖的裝置;所述圖模型中頂點為出現(xiàn)在該事件演化起點微博集合的各微博文本中的名詞/動詞,兩個頂點間的邊表示這兩個頂點對應的詞共同出現(xiàn)在同一微博中或共現(xiàn)距離小于預先給定的閾值;用于對與待分析事件相關(guān)的微博文本的集合中其余各條微博,構(gòu)建該條微博的圖模型并將其加入到當前的事件演化微觀圖中的裝置;用于基于最后的事件微觀演化圖獲取事件宏觀演化圖并基于事件宏觀演化圖觀察事件特征的演化的裝置。
【文檔編號】G06F17/30GK103631862SQ201310532377
【公開日】2014年3月12日 申請日期:2013年10月31日 優(yōu)先權(quán)日:2012年11月2日
【發(fā)明者】鄧鐳, 賈焰, 鄒鵬, 楊樹強, 周斌, 韓偉紅, 李愛平, 韓毅, 李莎莎 申請人:中國人民解放軍國防科學技術(shù)大學