本發(fā)明涉及一種信息挖掘技術(shù),具體地說,涉及一種微博網(wǎng)絡(luò)地域突發(fā)事件檢測方法。
背景技術(shù):
:微博作為實時性、交互性很強的社交媒體,為用戶提供了自由發(fā)表內(nèi)容以及信息交換的平臺,已經(jīng)成為人們爆料事件、發(fā)表觀點、分享經(jīng)驗的首選媒體?,F(xiàn)實中發(fā)生的很多事件在微博上都先有爆料,而后傳統(tǒng)的主流媒體才予以報道,比如,2013年的波士頓爆炸事件、撒切爾夫人的離世等等事件。面向微博的事件檢測已成為近期事件檢測領(lǐng)域的研究熱點。由于微博的很多內(nèi)容帶有地域信息,包括博文提及的地點,發(fā)表博文的用戶的注冊地點,以及博文附帶的地理標(biāo)簽等,面向微博的局部地域事件檢測(localizedevent)已經(jīng)成為了新興的研究方向。這類事件檢測有一個基本假設(shè),即當(dāng)本地域沒有事件發(fā)生的時候,用戶很少會討論此類事件,一旦發(fā)生了,就會有大量的討論,比如地域發(fā)生火災(zāi)、爆炸、洪水、交通事故、污染、疾病傳染等等事件。這與社交媒體的廣域事件檢測(globalevent)有很大的不同,廣域事件檢測不考慮地域特性,面對的是媒體的整個信息流,不僅分析的工作量大,而且可能忽略了局部地域的熱點事件,已有的事件檢測方法難以直接應(yīng)用到地域事件檢測之中。在2010年美國出版的會議論文集:2010年第19屆國際萬維網(wǎng)會議(19thinternationalworldwidewebconference),題目為:基于twitter用戶的地震檢測-通過社交傳感器實時檢測事件(earthquakeshakestwitterusers:real-timeeventdetectionbysocialsensors),作者是takeshisakaki,makotookazaki,yutakamatsuo,該文把每個twitter用戶模擬成無線傳感器網(wǎng)絡(luò)中的節(jié)點,用戶發(fā)表與地震相關(guān)的博文的過程被抽象成無線傳感器網(wǎng)絡(luò)中的節(jié)點發(fā)布自身采集到的信息行為,再通過博文的時間和空間模型及后續(xù)的濾波處理,對地震是否發(fā)生進行確認(rèn)。但該方法需要人工設(shè)計一些查詢輸入項,難以應(yīng)用到非常規(guī)的突發(fā)事件的檢測。在2016年中國出版的期刊:現(xiàn)代圖書情報技術(shù),題目為:基于地理坐標(biāo)的微博事件檢測與分析,作者是:李進華,安仲杰,該文使用了微博數(shù)據(jù)的發(fā)布數(shù)、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、用戶活躍度和移動強度5個指標(biāo)構(gòu)建微博的特征。該方法在檢測微博突發(fā)事件時,考慮到的微博類的社交媒體的特征并不全面,包括突發(fā)詞的頻率、地域突發(fā)性等,而且在計算各個指標(biāo)時并沒有給出具體的計算方法(包括形式化的公式等等)。在2016年美國出版的會議論文集:第39屆國際acm信息檢索會議(39thinternationalacmsigirconferenceonresearchanddevelopmentininformationretrieval),題目為:geoburst:從地理標(biāo)簽推特流中實時監(jiān)測區(qū)域事件(geoburst:real-timelocaleventdetectioningeo-taggedtweetstreams),作者是zhangchao,zhouguangyu,yuanquan,zhuanghonglei,zhengyu,kaplanlance,wangshaowen,hanjiawei,該文首先在查詢窗口內(nèi)識別一些重要微博作為中心軸點(pivots),進一步通過與歷史數(shù)據(jù)在時空方面的比較得到突發(fā)事件。該方法是從微博文本信息的角度出發(fā),由于微博比較短小,且用語不規(guī)范,直接從一些短小的單篇微博文本中難以提取出有效的特征。技術(shù)實現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種新的微博網(wǎng)絡(luò)地域突發(fā)事件的檢測方法,該方法更合理的利用了微博網(wǎng)絡(luò)詞的突發(fā)特征,更適合微博網(wǎng)絡(luò)地域突發(fā)事件的檢測。本發(fā)明所要解決的技術(shù)問題是通過以下的技術(shù)方案來實現(xiàn)的。本發(fā)明提供了一種微博網(wǎng)絡(luò)地域突發(fā)事件的檢測方法,其特點是,其具體步驟如下:a、從微博網(wǎng)絡(luò)中采集地域微博,得到微博集合plmb,對微博預(yù)處理后得到微博集合lmb;b、從微博集合lmb中提取突發(fā)詞,得到突發(fā)詞集合ew;c、對ew中的突發(fā)詞進行聚類,得到突發(fā)事件詞簇ewc={ewc1,ewc2,…,ewcq},假設(shè)有q個詞簇;本發(fā)明方法所述的步驟a中所述的從微博網(wǎng)絡(luò)中采集地域微博,預(yù)處理后得到微博集合lmb,優(yōu)選采用以下具體步驟:a1、使用采集工具獲取地域localized的微博信息集合plmb={plmb1,plmb2,l,plmbm},其中plmbi(1#im)為每一條地域微博;a2、對微博集合plmb進行預(yù)處理,去除微博中鏈接網(wǎng)址、表情符號信息,去除長度小于5個字的微博,得到預(yù)處理后的微博集合lmb,lmb={lmb1,lmb2,l,lmbn},其中l(wèi)mbi(1#in)為每一條地域微博。本發(fā)明方法所述的步驟b中所述的從微博集合lmb中提取突發(fā)詞,得到突發(fā)詞集合ew,其優(yōu)選的具體步驟如下:b1、對lmb中的每條微博lmbi(1#in)進行分詞,去除停用詞,保留名詞、動詞、地名、人名、專有名詞,得到最終的詞集合為lmbw={w1,w2,l,wr,},假設(shè)有r個詞;b2、計算詞wi(1#ir)的頻率突發(fā)性,假設(shè)當(dāng)前突發(fā)事件檢測的時間點為k,選取之前的p個時刻的歷史數(shù)據(jù)為參考,詞wi在k時間點的頻率突發(fā)性定義為:其中,分子為詞wi在k時間點出現(xiàn)的頻率,分母中的b3、計算詞wi(1#ir)的關(guān)聯(lián)用戶突發(fā)性,假設(shè)當(dāng)前突發(fā)事件檢測的時間點為k,選取之前的p個時刻的歷史數(shù)據(jù)為參考,詞wi在k時間點的關(guān)聯(lián)用戶突發(fā)性定義為:其中,分子為k時間點,提及到詞wi的不同用戶數(shù)量,分母中的b4、計算詞wi(1#ir)的地域突發(fā)性,詞wi在k時間點的分布地域突發(fā)性定義為:其中,分子為k時間點,提及到詞wi的不同地理標(biāo)簽的數(shù)量,分母中的b5、計算詞wi(1#ir)的社交行為突發(fā)性,詞wi在k時間點的社交行為突發(fā)性定義為:其中,分子為k時間點,提及到詞wi的微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和閱讀數(shù)之和,分母中的b6、綜合步驟b2、b3、b4、b5的四個突發(fā)性,最終得到一個詞wi在k時間點的突發(fā)值為:burstyscore(wi)=α*f(wi)+β*u(u|wi)+χ*gt(gt|wi)+δ*sb(sb|wi),其中,α、β、χ、δ為調(diào)節(jié)系數(shù),用于調(diào)節(jié)四類指標(biāo)的權(quán)重,α+β+χ+δ=1,α≥0,β≥0,χ≥0,δ≥0;b7、在計算出每個詞的突發(fā)值后,使用四分差選出n個突發(fā)詞,構(gòu)成突發(fā)詞集合ew。四分差的距離計算方法為:iqs(ew)=q3(ew)-q1(ew)。當(dāng)一個詞的突發(fā)值大于一定的閾值,則作為突發(fā)詞,閾值的計算方法為:maxima(ew)=q3(ew)+1.5×iqs(ew)。本發(fā)明方法所述的一種微博網(wǎng)絡(luò)地域突發(fā)事件檢測方法,所述的步驟c中對ew中的突發(fā)詞進行聚類,得到突發(fā)事件詞簇ewc={ewc1,ewc2,…,ewcq},優(yōu)選的具體步驟如下:c1、基于步驟b獲取的突發(fā)特征集ew,構(gòu)建突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)ewn=(v,e),v是突發(fā)詞集合ew,e表示突發(fā)詞之間的關(guān)聯(lián)強度。突發(fā)詞ewi、ewj關(guān)聯(lián)強度是統(tǒng)計兩個詞在同一篇微博博文中共現(xiàn)的次數(shù);c2、突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)ewn構(gòu)建完成后,使用開源的cluto工具包對ewn進行聚類,獲取突發(fā)事件詞簇ewc={ewc1,ewc2,…,ewcq},假設(shè)有q個詞簇。與現(xiàn)有技術(shù)相比,本發(fā)明提出了全面的利用微博網(wǎng)絡(luò)的特征進行事件檢測的指標(biāo),提出了利用詞頻率、詞關(guān)聯(lián)用戶、詞分布地域及詞社交行為4類指標(biāo),計算詞的突發(fā)值,更合理的利用了微博網(wǎng)絡(luò)詞的突發(fā)特征,更適合微博網(wǎng)絡(luò)地域突發(fā)事件的檢測。并給出了具體的計算方法,有很大的實用價值。附圖說明圖1是本發(fā)明的微博網(wǎng)絡(luò)地域突發(fā)事件檢測方法的一種流程圖;圖2是圖1中步驟101所述的從微博網(wǎng)絡(luò)中采集地域微博,得到微博集合plmb,對微博預(yù)處理后得到微博集合lmb的流程圖;圖3是圖1中步驟102所述的從微博集合lmb中提取突發(fā)詞,得到突發(fā)詞集合ew的流程圖;圖4是圖1中步驟103所述的對ew中的突發(fā)詞進行聚類,得到突發(fā)事件詞簇ewc={ewc1,ewc2,…,ewcq}的流程圖。具體實施方式下面結(jié)合附圖和具體實施方式對本發(fā)明的實施過程作進一步詳細(xì)的描述。參照圖1,一種微博網(wǎng)絡(luò)地域突發(fā)事件的檢測方法,該方法包括如下步驟:步驟101、從微博網(wǎng)絡(luò)中采集地域微博,得到微博集合plmb,對微博預(yù)處理后得到微博集合lmb,參照圖2,其具體步驟如下:步驟201、使用采集工具獲取地域localized的微博信息集合plmb={plmb1,plmb2,l,plmbm},其中plmbi(1#im)為每一條地域微博。在微博申請開發(fā)者權(quán)限后,調(diào)用api中不同接口,可以獲取到某個位置周邊的動態(tài)微博信息。調(diào)用位置服務(wù)接口可以獲取返回的微博內(nèi)容、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)、用戶信息、簽到地點等。步驟202、對微博集合plmb進行預(yù)處理,去除微博中鏈接網(wǎng)址、表情符號信息,去除長度小于5個字的微博,得到預(yù)處理后的微博集合lmb,lmb={lmb1,lmb2,l,lmbn},其中l(wèi)mbi(1#in)為每一條地域微博。采集到的地域微博中,雖然已經(jīng)是從海量的微博中進行了有針對性的篩選,但其中還存在一些干擾信息,需要對其進行過濾,減少后期計算的復(fù)雜度。步驟102、從微博集合lmb中提取突發(fā)詞,得到突發(fā)詞集合ew,參照圖3,其具體步驟如下:步驟301、對lmb中的每條微博lmbi(1#in)進行分詞,去除停用詞,保留名詞、動詞、地名、人名、專有名詞,得到最終的詞集合為lmbw={w1,w2,l,wr,},假設(shè)有r個詞。因為有些動詞不具有實際意義,比如“舉行、進行、開展、會”等等,進一步的去除其中的停用動詞;步驟302、計算詞wi(1#ir)的頻率突發(fā)性,假設(shè)當(dāng)前突發(fā)事件檢測的時間點為k,選取之前的p個時刻的歷史數(shù)據(jù)為參考,詞wi在k時間點的頻率突發(fā)性定義為:其中,分子為詞wi在k時間點出現(xiàn)的頻率,分母中的f(wi)越大,說明在當(dāng)前k時間點,詞wi出現(xiàn)的頻率增勢越大,越有可能是突發(fā)詞;步驟303、計算詞wi(1#ir)的關(guān)聯(lián)用戶突發(fā)性,假設(shè)當(dāng)前突發(fā)事件檢測的時間點為k,選取之前的p個時刻的歷史數(shù)據(jù)為參考,詞wi在k時間點的關(guān)聯(lián)用戶突發(fā)性定義為:其中,分子為k時間點,提及到詞wi的不同用戶數(shù)量,分母中的u(wi)越大,說明k時間點,提及到詞wi的用戶數(shù)量增勢越大,詞wi越有可能是突發(fā)詞;步驟304、計算詞wi(1#ir)的地域突發(fā)性,詞wi在k時間點的分布地域突發(fā)性定義為:其中,分子為k時間點,提及到詞wi的不同地理標(biāo)簽的數(shù)量,分母中的gt(wi)越大,說明k時間點,提及到詞wi的地理標(biāo)簽數(shù)量增勢越大,詞wi越有可能是突發(fā)詞;步驟305、計算詞wi(1#ir)的社交行為突發(fā)性,詞wi在k時間點的社交行為突發(fā)性定義為:其中,分子為k時間點,提及到詞wi的微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和閱讀數(shù)之和,分母中的sb(wi)越大,說明k時間點,提及到詞wi的社交行為數(shù)量增勢越大,詞wi越有可能是突發(fā)詞;步驟306、綜合上述詞的四個突發(fā)性,最終得到一個詞wi在k時間點的突發(fā)值為:burstyscore(wi)=α*f(wi)+β*u(u|wi)+χ*gt(gt|wi)+δ*sb(sb|wi),其中,α、β、χ、δ為調(diào)節(jié)系數(shù),用于調(diào)節(jié)四類指標(biāo)的權(quán)重,α+β+χ+δ=1,α≥0,β≥0,χ≥0,δ≥0。burstyscore(wi)越大,說明詞wi在k時間點的突發(fā)性越大,詞wi越有可能是突發(fā)詞;步驟307、在計算出每個詞的突發(fā)值后,使用四分差選出n個突發(fā)詞,構(gòu)成突發(fā)詞集合ew。四分差的距離計算方法為:iqs(ew)=q3(ew)-q1(ew)。當(dāng)一個詞的突發(fā)值大于一定的閾值,則作為突發(fā)詞,閾值的計算方法為:maxima(ew)=q3(ew)+1.5×iqs(ew)。步驟103、對ew中的突發(fā)詞進行聚類,得到突發(fā)事件詞簇ewc={ewc1,ewc2,…,ewcq},參照圖4,其具體步驟如下:步驟401、基于突發(fā)特征集ew,構(gòu)建突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)ewn=(v,e),v是突發(fā)詞集合ew,e表示突發(fā)詞之間的關(guān)聯(lián)強度。突發(fā)詞ewi、ewj關(guān)聯(lián)強度是統(tǒng)計兩個詞在同一篇微博博文中共現(xiàn)的次數(shù);步驟402、突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)ewn構(gòu)建完成后,使用開源的cluto工具包對ewn進行聚類,獲取突發(fā)事件詞簇ewc={ewc1,ewc2…,ewcq},假設(shè)有q個詞簇。cluto提供三種聚類算法,既可以直接在聚類對象的特征空間上直接聚類,也可以按照對象的相似空間來聚類。這些算法為基于切分的、基于凝聚的和基于圖形切分的。實際應(yīng)用中,基于凝聚的層次聚類方法用的較多,因此本發(fā)明選用了凝聚層次聚類方法。對比例:使用三種不同的微博網(wǎng)絡(luò)地域突發(fā)事件檢測方法,比較地域突發(fā)事件檢測的有效性。三種方法如下:(1)方法1-hbed,選取微博中包含的hashtag,將hashtag表示為向量模式,詞的權(quán)重采用tf-idf的方式計算,計算聚簇的熱度時考慮了一個簇包含微博的數(shù)量變化。(2)方法2-geoburst,首先在查詢窗口內(nèi)識別一些重要微博作為中心軸點,進一步的通過與歷史數(shù)據(jù)在時空方面的比較得到突發(fā)事件。突發(fā)事件的排序根據(jù)詞簇中詞的時間和空間突發(fā)性。四個主要的參數(shù)設(shè)置:核函數(shù)寬度h=0.01,重新開始概率α=0.2,隨機游走相似度閾值δ=0.02,平衡時空突發(fā)性的參數(shù)η=0.5。(3)方法3-loctbed,本發(fā)明提出的方法,主要是提出的詞的突發(fā)性計算,使用cluto提供的凝聚聚類方法bagglo進行聚類,簇的個數(shù)指定為10,聚類的相似度函數(shù)指定為余弦函數(shù)cos。詞的突發(fā)值計算時,詞的歷史考察時間設(shè)置為一周(7天),四類指標(biāo)累加時的調(diào)節(jié)參數(shù)α=β=χ=8=0.25。本發(fā)明以真實的社交媒體-新浪微博為例,采集了北京、江蘇省連云港市兩個城市帶有地理標(biāo)簽的微博,北京地區(qū)信息采集的時間是2016年12月1日-12月30日(一個月的數(shù)據(jù)),共采集到346863條帶地理標(biāo)簽的微博,連云港市信息采集的時間是2016年5月1日-10月31日(半年的數(shù)據(jù)),共采集到63744條帶地理標(biāo)簽的微博。以天為單位驗證各種事件檢測方法的有效性,即檢測指定的某天的地域突發(fā)事件。由于每個城市每天的地域突發(fā)事件是未知的,所以參考目前已有的主流研究方法,采用精準(zhǔn)率p@n作為評價指標(biāo)。對于每天檢測到的top-k突發(fā)事件,人工判斷檢測到的是否是地域突發(fā)事件,由于top-k檢測的事件數(shù)量較少,所以人工評測的工作量并不復(fù)雜。3種方法在5個評測指標(biāo)上獲取的結(jié)果如表1所示。表1.5種方法在5個評測指標(biāo)上的檢測結(jié)果methodsp@1p@2p@3p@4p@5averagehbed0.200.300.200.300.240.24geoburst0.800.700.800.750.720.72loctbed0.800.800.870.800.760.76對比3種方法,本文提出的方法loctbed獲取的效果最為理想,在5個評測指標(biāo)上得到的平均值為0.76。其次是geoburst,在5個評測指標(biāo)上得到的平均值為0.72。雖然這兩種方法得到的值比較接近,但兩者得到檢測結(jié)果中的突發(fā)事件的排序有較大的區(qū)別。方法loctbed在計算突發(fā)事件類簇的熱度時,考慮了類簇包含的地域詞的個數(shù),對檢測地域性突發(fā)事件有重要的幫助。方法hbed的效果偏差,主要原因是,獲取的地理標(biāo)簽微博中,帶有hashtag的微博數(shù)量偏少,且多是廣域性的事件,對地域性事件的檢測不適用。本發(fā)明所述的方法并不限于具體實施方式中所述的實施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出的其它的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。當(dāng)前第1頁12