一種基于堆優(yōu)化的微博突發(fā)事件檢測方法及其檢測裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及短文本流的微博突發(fā)事件檢測領(lǐng)域,尤其涉及一種基于堆優(yōu)化的微博 突發(fā)事件檢測方法及其檢測裝置。
【背景技術(shù)】
[0002] TDT(話題檢測與跟蹤)技術(shù)從1996年開始興起,最早的目標(biāo)是用于對在線新聞文 本進(jìn)行話題識別和跟蹤。隨著互聯(lián)網(wǎng)的發(fā)展,短文文本應(yīng)用如微博,Twitter等隨之興起, 短文文本的話題檢測需求日益突出,于是在短文文本方面的TDT技術(shù)也不斷發(fā)展。目前針 對國內(nèi)外在微博突發(fā)事件的研究方法上,主要分為兩種,以文本為中心的方法和以突發(fā)特 征為中心的方法。
[0003] 以文本為中心的方法通過先抽取文本的主題詞,通過主題詞表示文本的內(nèi)容,再 對文本進(jìn)行聚類,從而識別突發(fā)事件。目前以文本為中心的方法常用的有基于語義擴(kuò)展的 方法和進(jìn)行主題建模的方法。在主題建模中,LDA(LatentDirichletAllocation,文檔主 題生成模型)主題建模較為常用,該方法在2003年由D.MBlei提出,是一種非監(jiān)督機(jī)器學(xué) 習(xí)的方法,可對自然語言進(jìn)行建模,用于識別大規(guī)模文檔集和語料庫中潛在的主題信息。由 于短文文本字?jǐn)?shù)較少,數(shù)據(jù)較為稀疏,普通的以文本為中心的方法難以取得良好的檢測效 果。
[0004] 以突發(fā)特征為中心的方法,先抽取短文文本中的突發(fā)特征詞,再對突發(fā)特征詞進(jìn) 行聚類,利用聚類結(jié)果表示事件從而實(shí)現(xiàn)突發(fā)事件的識別和檢測。該方法可以過濾大部分 的垃圾信息,減小噪聲影響。由于突發(fā)特征詞的數(shù)量較大,使用本方法在聚類上的時(shí)間復(fù)雜 度也較高。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種基于堆優(yōu)化的微博突發(fā)事件檢測方法及其檢測裝置,本發(fā)明通 過引入相應(yīng)的數(shù)據(jù)結(jié)構(gòu),提升微博突發(fā)事件的檢測效率,幫助用戶更加快速,及時(shí)獲取微博 突發(fā)事件,詳見下文描述:
[0006] -種基于堆優(yōu)化的微博突發(fā)事件檢測方法,所述檢測方法包括以下步驟:
[0007] 對預(yù)處理后的微博數(shù)據(jù)按時(shí)間窗分組,分別計(jì)算組內(nèi)微博文本的詞語權(quán)重;
[0008] 通過所述詞語權(quán)重獲取詞語的突發(fā)度,并計(jì)算時(shí)間窗內(nèi)詞語的突發(fā)度,提取突發(fā) 詞集合;
[0009] 對所述突發(fā)詞集合進(jìn)行聚類,通過堆優(yōu)化加速聚類的過程;
[0010] 對聚類結(jié)果進(jìn)行處理,提取有效事件。
[0011] 其中,所述對所述突發(fā)詞集合進(jìn)行聚類,通過堆優(yōu)化加速聚類的過程的步驟具體 為:
[0012] 按照堆頂結(jié)點(diǎn)的簇間距離最小的原則,對堆進(jìn)行排序編號;
[0013] 從排序編號小的簇開始,查看簇的堆頂結(jié)點(diǎn),如果堆頂結(jié)點(diǎn)記錄的距離值小于當(dāng) 前已知的最小距離值,則記錄該簇編號,選擇當(dāng)前堆頂結(jié)點(diǎn),同時(shí)更新最小距離值,直到遍 歷完所有族;
[0014] 將最終得到的簇編號與距離最近的簇合并,同時(shí)計(jì)算合并后簇與其他簇的簇間距 離,并建立對應(yīng)的堆保存信息。
[0015] 其中,所述對聚類結(jié)果進(jìn)行處理,提取有效事件的步驟具體為:
[0016] 分析突發(fā)詞聚類簇中是否包含了描述一個(gè)事件的必需詞匯,刪除無法描述事件的 聚類簇,篩選出有效聚類簇,所述有效聚類簇為簇中詞語包含時(shí)間、地點(diǎn)、人物、事件要素。
[0017] -種基于堆優(yōu)化的微博突發(fā)事件檢測裝置,所述檢測裝置包括:
[0018] 計(jì)算模塊,用于對預(yù)處理后的微博數(shù)據(jù)按時(shí)間窗分組,分別計(jì)算組內(nèi)微博文本的 詞語權(quán)重;
[0019] 第一提取模塊,用于通過所述詞語權(quán)重獲取詞語的突發(fā)度,并計(jì)算時(shí)間窗內(nèi)詞語 的突發(fā)度,提取突發(fā)詞集合;
[0020] 聚類模塊,用于對所述突發(fā)詞集合進(jìn)行聚類,通過堆優(yōu)化加速聚類的過程;
[0021] 第二提取模塊,用于對聚類結(jié)果進(jìn)行處理,提取有效事件。
[0022] 其中,所述聚類模塊包括:
[0023] 排序子模塊,用于按照堆頂結(jié)點(diǎn)的簇間距離最小的原則,對堆進(jìn)行排序編號;
[0024] 第一獲取子模塊,從排序編號小的簇開始,查看簇的堆頂結(jié)點(diǎn),如果堆頂結(jié)點(diǎn)記錄 的距離值小于當(dāng)前已知的最小距離值,則記錄該簇編號,選擇當(dāng)前堆頂結(jié)點(diǎn),同時(shí)更新最小 距離值,直到遍歷完所有簇;
[0025] 第二獲取子模塊,用于將最終得到的簇編號與距離最近的簇合并,同時(shí)計(jì)算合并 后簇與其他簇的簇間距離,并建立對應(yīng)的堆保存信息。
[0026] 其中,所述第二提取模塊包括:
[0027] 提取子模塊,用于分析突發(fā)詞聚類簇中是否包含了描述一個(gè)事件的必需詞匯,刪 除無法描述事件的聚類簇,篩選出有效聚類簇。
[0028] 本發(fā)明提供的技術(shù)方案的有益效果是:在微博海量數(shù)據(jù)中,充斥著大量的垃圾信 息和無用,由于用戶是通過手動的方式瀏覽微博信息,大量的垃圾信息和無用信息給用戶 尋找有效的信息帶來困難。本發(fā)明通過過濾垃圾信息和無用信息,再結(jié)合用戶影響力等因 素,在大量的微博文本中檢測出最有可能的用戶感興趣的突發(fā)事件,以滿足用戶及時(shí)獲取 突發(fā)事件的需求。通過本發(fā)明,用戶可以避免再海量的微博數(shù)據(jù)中逐個(gè)查找,能夠及時(shí)獲取 最近發(fā)生的重大事件,了解事件的起因、經(jīng)過。用戶也能夠通過該方法得到的結(jié)果,對突發(fā) 事件進(jìn)行追蹤,了解到事件當(dāng)前狀態(tài)。
【附圖說明】
[0029] 圖1為一種基于堆優(yōu)化的微博突發(fā)事件檢測方法的流程圖;
[0030] 圖2為微博數(shù)據(jù)預(yù)處理的流程圖;
[0031] 圖3為本方法與原有方法在時(shí)間增長率變化上的對比示意圖;
[0032] 圖4為一種基于堆優(yōu)化的微博突發(fā)事件檢測裝置的結(jié)構(gòu)示意圖;
[0033] 圖5為聚類模塊的結(jié)構(gòu)示意圖;
[0034] 圖6為第二提取模塊的結(jié)構(gòu)示意圖。
[0035] 附圖中,各部件的列表如下:
[0036] 1 :計(jì)算模塊; 2 :第一提取模塊;
[0037] 3 :聚類模塊; 4 :第二提取模塊;
[0038] 31 :排序子模塊; 32 :第一獲取子模塊;
[0039] 33 :第二獲取子模塊; 41 :提取子模塊。
【具體實(shí)施方式】
[0040] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面對本發(fā)明實(shí)施方式作進(jìn)一步 地詳細(xì)描述。
[0041] 實(shí)施例1
[0042] 一種基于堆優(yōu)化的微博突發(fā)事件檢測方法,參見圖1,該檢測方法包括以下步驟:
[0043] 101 :對微博文本進(jìn)行降噪,分詞的預(yù)處理;
[0044] 其中,微博文本中包含大量表情符號、網(wǎng)頁地址鏈接、用戶評論內(nèi)容等無效的數(shù) 據(jù),在微博文本中匹配這些字符,并將其刪除。通過分詞軟件對微博文本進(jìn)行分詞處理。
[0045] 102 :對預(yù)處理后的微博數(shù)據(jù)按時(shí)間窗分組,分別計(jì)算組內(nèi)微博文本的詞語權(quán)重;
[0046] 103:通過詞語權(quán)重獲取詞語的突發(fā)度,并計(jì)算時(shí)間窗內(nèi)詞語的突發(fā)度,提取突發(fā) 詞集合;
[0047] 用戶影響力由粉絲數(shù),發(fā)布的微博數(shù),是否VIP用戶,活躍度這些因素影響。影響 力較大的用戶發(fā)布的微博內(nèi)容越容易受到關(guān)注,同時(shí)這些用戶可能發(fā)布重要事件。對于每 個(gè)用戶要區(qū)別對待他們發(fā)布的微博,影響力越大的用戶發(fā)布的微博事件越可能是熱點(diǎn)事件 或突發(fā)事件,因此影響力越大的用戶發(fā)布的微博詞語的權(quán)重也應(yīng)該越大。
[0048] 突發(fā)事件的突發(fā)性表現(xiàn)在事件來的突然,并且迅速被廣泛討論。通過將當(dāng)前時(shí)間 窗內(nèi)的詞語權(quán)重與回顧時(shí)間窗內(nèi)的詞語權(quán)重對比得到詞語在當(dāng)前時(shí)間窗內(nèi)的突發(fā)度情況。 微博