基于短文本數據的區(qū)域事件檢測方法和設備的制作方法
【專利摘要】本發(fā)明提供一種基于短文本數據的區(qū)域事件檢測方法和設備,該方法包括:獲取待處理的短文本數據,所述短文本數據中包括位置信息;根據所述位置信息從所述短文本數據中選取與預設的位置對應的樣本文本數據;分別對選取的樣本文本數據進行分詞處理,計算所述樣本文本數據中各詞的權重;根據所述樣本文本數據中各詞的權重構建所述樣本文本數據對應的樣本文本—詞矩陣;對所述樣本文本—詞矩陣進行矩陣分解,根據分解得到的樣本文本—事件矩陣確定所述各樣本文本所屬的事件。從而克服了現有技術中無法對短文本數據信息進行有效的處理以進行歸納和分類的問題。
【專利說明】基于短文本數據的區(qū)域事件檢測方法和設備
【技術領域】
[0001] 本發(fā)明屬于數據挖掘【技術領域】,尤其是涉及一種基于短文本數據的區(qū)域事件檢測 方法和設備。
【背景技術】
[0002] 隨著互聯(lián)網技術的蓬勃發(fā)展,越來越多的用戶通過比如論壇、微博等社交網絡平 臺來發(fā)布各種新聞或者發(fā)表個人對一些社會現象的意見。微博由于其獨特的通信服務,女口 便捷性、即時性和易用,允許用戶快速響應和無限制的傳播信息內容,得到了越來越廣泛的 應用。數億用戶利在微博上通過短文本數據進行信息的傳送和評論,爆炸式的數據信息帶 來前所未有的價值的同時,也給互聯(lián)網安全檢測和分析帶來了巨大的挑戰(zhàn),對海量的數據 信息進行有效的事件挖掘成為各搜索引擎主要研究的問題。
[0003] 目前,對事件進行發(fā)現和挖掘比較有效的方法是聚類方法。聚類方法首先對數據 進行聚類,然后通過一個相似度闊值約束,將得到的主題結果進行分類,分類結果中一類是 歷史事件的演變,另一類是新發(fā)現的事件,然而該方法并不能對數據進行靜態(tài)的分析,將當 前數據信息按事件進行歸納和分類,且聚類方法也不適用于對短文本數據信息的分析。
【發(fā)明內容】
[0004] 本發(fā)明提供一種基于短文本數據的區(qū)域事件檢測方法和設備,用W克服現有技術 中無法對短文本數據信息進行有效的處理W進行歸納和分類的問題。
[0005] 本發(fā)明提供了一種基于短文本數據的區(qū)域事件檢測方法,包括:
[0006] 獲取待處理的短文本數據,所述短文本數據中包括位置信息;
[0007] 根據所述位置信息從所述短文本數據中選取與預設的位置對應的樣本文本數 據;
[0008] 分別對選取的樣本文本數據進行分詞處理,計算所述樣本文本數據中各詞的權 重;
[0009] 根據所述樣本文本數據中各詞的權重構建所述樣本文本數據對應的詞一樣本文 本矩陣;
[0010] 對所述詞一樣本文本矩陣進行矩陣分解,根據分解得到的樣本文本一事件矩陣確 定所述各樣本文本所屬的事件。
[0011] 本發(fā)明提供了一種基于短文本數據的區(qū)域事件檢測設備,包括:
[0012] 獲取模塊,用于獲取待處理的短文本數據,所述短文本數據中包括位置信息;
[0013] 選取模塊,用于根據所述位置信息從所述短文本數據中選取與預設的位置對應的 樣本文本數據;
[0014] 運算模塊,用于分別對選取的樣本文本數據進行分詞處理,計算所述樣本文本數 據中各詞的權重;
[0015] 構建模塊,用于根據所述樣本文本數據中各詞的權重構建所述樣本文本數據對應 的樣本文本一詞矩陣;
[0016] 所述運算模塊,還用于對所述樣本文本一詞矩陣進行矩陣分解,根據分解得到的 樣本文本一事件矩陣確定所述各樣本文本所屬的事件。
[0017] 本發(fā)明提供的基于短文本數據的區(qū)域事件檢測方法和設備,通過獲取待處理的短 文本數據,所述短文本數據中包括位置信息;根據所述位置信息從所述短文本數據中選取 與預設的位置對應的樣本文本數據;分別對選取的樣本文本數據進行分詞處理,計算所述 樣本文本數據中各詞的權重;根據所述樣本文本數據中各詞的權重構建所述樣本文本數據 對應的樣本文本一詞矩陣;對所述樣本文本一詞矩陣進行矩陣分解,根據分解得到的樣本 文本一事件矩陣確定所述各樣本文本所屬的事件。從而克服了現有技術中無法對短文本數 據信息進行有效的處理W進行歸納和分類的問題。
【專利附圖】
【附圖說明】
[0018] 圖1為本發(fā)明提供的基于短文本數據的區(qū)域事件檢測方法實施例一的流程示意 圖;
[0019] 圖2A為本發(fā)明提供的基于短文本數據的區(qū)域事件檢測方法實施例二對應S120的 流程意圖;
[0020] 圖2B為本發(fā)明提供的基于短文本數據的區(qū)域事件檢測方法實施例二對應S140的 流程意圖;
[0021] 圖3為本發(fā)明提供的基于短文本數據的區(qū)域事件檢測設備實施例一的結構示意 圖。
【具體實施方式】
[0022] 圖1為本發(fā)明提供的基于短文本數據的區(qū)域事件檢測方法實施例一的流程示意 圖。如圖1所示,該方法包括:
[0023] S100,獲取待處理的短文本數據,所述短文本數據中包括位置信息。
[0024] 本實施例提供的方法可W適用于對互聯(lián)網上的各種應用所產生的短文本信息中 的海量數據進行區(qū)域事件分類處理,尤其適用于諸如微博等社交網絡,該方法可W由一短 文本數據的處理設備來執(zhí)行,該處理設備例如可W為某中應用的管理平臺。
[0025] W微博為例,每天都會有大量的各種各樣的數據信息在微博上進行傳播,為了便 于廣大普遍用戶能夠在海量的微博數據中快速有效地搜索到自身需要的信息,或者為了使 普通用戶、政府機構等用戶能夠及時獲知社會熱點,需要對海量的微博數據進行事件分類。 值得說明的是,本實施例中主要是針對短文本類型的數據信息進行處理,稱之為短文本數 據。而且,本實施例中所述的事件,并非一般意義上的某件完整的事情或新聞,而是指用一 些關鍵詞表征的詞語集合,一個事件中包含的關鍵詞往往具有一定的關聯(lián),比如該些關鍵 詞同時在很多條數據文本中都同時出現過,因此,該些關鍵詞也一定程度上反映了當前微 博中的關注熱點。
[0026] S110,根據所述位置信息從所述短文本數據中選取與預設的位置對應的樣本文本 數據。
[0027] 具體來說,微博數據中包含城市級別地理位置信息,具體的,微博中的位置信息為 城市信息,本發(fā)明各實施例中W位置信息為城市為例進行說明。若短文本數據的處理設備 要對城市"北京"的微博數據進行分類處理,則在獲得了比如某一天的微博數據即待處理的 短文本數據后,從待處理的短文本數據中選取出與"北京"對應的短文本數據作為樣本文本 數據。
[0028] S120,分別對選取的樣本文本數據進行分詞處理,計算所述樣本文本數據中各詞 的權重。
[0029] 短文本數據處理設備選出樣本數據后,對每個樣本文本數據進行分詞處理,比如 采用現有的NLPIR漢語分詞系統(tǒng)對每個數據文件進行分詞處理,從而將每個短文本數據按 照詞語為單位進行劃分,得到每個數據文本中包含的各個詞語。通過對待處理數據中的每 個數據文本都進行分詞處理,從而能夠得到待處理數據中包含的所有詞語,并計算各樣本 文本數據中各詞在該樣本文本中的權重。
[0030] S130,根據所述樣本文本數據中各詞的權重構建所述樣本文本數據對應的樣本文 本一詞矩陣。
[0031] 具體的,本實施例中的樣本文本一詞矩陣中,各列向量為各個樣本文本中的各個 詞的權重值,各行向量為處理設備選取的各個樣本文本數據。
[0032] S140,對所述樣本文本一詞矩陣進行矩陣分解,根據分解得到的樣本文本一事件 矩陣確定所述各樣本文本所屬的事件。
[0033] 進而,對該樣本文本一詞矩陣進行矩陣分解,其中,矩陣分解是現有技術中的現有 矩陣分解方法,此處不做費述。矩陣分解可W得到兩個矩陣,分別為樣本文本一事件矩陣和 事件一詞矩陣。矩陣分解得到的兩個矩陣的乘積是該樣本文本一詞矩陣的近似表達,分解 的結果保證了在同一位置上的元素,在分解前后的誤差值為正數,從而使分解后的元素具 有與分解前該元素基本等同的表達。樣本文本一事件矩陣中各元素表明各樣本文本中的詞 與各事件的相關度,相關度最大的即表明該樣本文本與該事件最相關,即該樣本文本屬于 該事件。
[0034] 本發(fā)明提供的基于短文本數據的區(qū)域事件檢測方法,基于短文本數據的區(qū)域事件 檢測設備首先根據獲取到的待處理的短文本數據中包括的位置信息,選取出需要處理的樣 本文本數據,之后對各樣本文本數據分別進行分詞處理,并計算各詞在各樣本文本中的權 重,從而得到樣本文本一詞的矩陣,進而再對該矩陣進行矩陣分解,根據分解得到的樣本文 本一事件矩陣即可確定各樣本文本數據所屬的事件。首先根據文本數據中包括的位置信息 選取樣本文本數據,再確定選取的樣本文本中各詞的權重,之后再構建樣本文本一詞矩陣, 并對該矩陣進行矩陣分解即可得到樣本文本一事件矩陣,根據最終得到的矩陣即可確定各 樣本文本所屬的事件,該種處理方法不僅考慮了短文本數據的特點,且根據詞的權重構建 樣本文本一詞矩陣,使得最終得到的樣本文本一事件矩陣中樣本文本與事件的相關度更加 準確,進而可更加準確的實現對各短文本數據進行區(qū)域事件分類的處理。
[00巧]圖2A為本發(fā)明提供的基于短文本數據的區(qū)域事件檢測方法實施例二對應S120的 流程示意圖,如圖2A所示,若樣本文本數據j中包括詞i,則上述S120包括:
[0036] S121,根據所述詞i在所述樣本文本數據j中出現的次數Wu及在所有待處理的短 文本數據中出現的次數Wi,確定所述詞i的分布頻率AWF。= Wy/Wi。
[0037] S122,根據所述詞i的Wy及所述樣本文本數據中的所有詞的次數Wj.,確定所述詞 i 的詞頻 OWFu = Wy/Wj。
[0038] S123,根據所述待處理的短文本數據中包括的不同位置信息個數N及所述待處理 的短文本數據中包括所述詞i的不同位置信息個數Mi,確定所述詞i的逆向城市頻率ICFu =N/Mi。
[0039] S124,根據所述AWFu、OWFu及ICFu確定所述詞i在所述樣本文本數據j中的權 重。
[0040] 具體的,本實施例中,考慮如果一個詞在某一個城市中出現的次數很小,而在其他 城市出現次數比較多,對于該城市來說,該個詞的貢獻就不是很大。基于短文本數據的區(qū)域 事件檢測設備考慮單個詞在所有城市中的分布,也考慮單個詞在所在微博中的分布情況。 主要考慮H個方面,第一單個詞的詞頻:一個詞出現的次數盡可能多;第二反向城市頻率: 出現該詞的城市盡可能少;第H考慮詞自身在所有城市分布的詞頻;一個詞出現在該城市 的次數要比其出現在其他城市的次數要多。
[00川具體的,把一個詞自身的分布頻率定義為AWF,AWF。= W^/Wi,Wi是詞i在所有城 市中出現的次數。在所有出現詞i的城市中,哪個城市出現的次數多,其AWF就越大。同樣 的,一個詞在所有樣本文本數據中出現的次數越多,其OWF就越小,待處理的短文本數據中 包括的城市的個數越多,或者包括詞i的城市的個數越小,其逆向城市頻率就越小。在確定 詞的分布頻率、詞頻及逆向城市頻率后,即可根據下式確定該詞在樣本文本數據中的權重 OIA :
[0042]
【權利要求】
1. 一種基于短文本數據的區(qū)域事件檢測方法,其特征在于,包括: 獲取待處理的短文本數據,所述短文本數據中包括位置信息; 根據所述位置信息從所述短文本數據中選取與預設的位置對應的樣本文本數據; 分別對選取的樣本文本數據進行分詞處理,計算所述樣本文本數據中各詞的權重; 根據所述樣本文本數據中各詞的權重構建所述樣本文本數據對應的樣本文本一詞矩 陣; 對所述樣本文本一詞矩陣進行矩陣分解,根據分解得到的樣本文本一事件矩陣確定所 述各樣本文本所屬的事件。
2. 根據權利要求1所述的方法,其特征在于,所述樣本文本數據j中包括詞i,所述計 算所述樣本文本數據中各詞的權重,包括: 根據所述詞i在所述樣本文本數據j中出現的次數及在所有待處理的短文本數據 中出現的次數I,確定所述詞i的分布頻率AWFij = Wij/Wi ; 根據所述詞i的及所述樣本文本數據中的所有詞的次數確定所述詞i的詞頻 OWFij = ffij/ffj ; 根據所述待處理的短文本數據中包括的不同位置信息個數N及所述待處理的短文本 數據中包括所述詞i的不同位置信息個數確定所述詞i的逆向城市頻率ICFU = N/X ; 根據所述AWFp 0WFu及ICFU確定所述詞i在所述樣本文本數據j中的權重。
3. 根據權利要求1所述的方法,其特征在于,所述樣本文本數據中包括N個樣本數據, 所述N個樣本數據中包括M個詞,所述樣本文本一詞矩陣A為MXN維矩陣,所述N為大于 或等于1的整數; 所述對所述樣本文本一詞矩陣進行矩陣分解,根據分解得到的樣本文本一事件矩陣確 定所述各樣本文本所屬的事件,包括: 對所述矩陣A進行矩陣分解,得到樣本文本一事件矩陣UMXK,和事件一詞矩陣VKXN,所 述K為所述樣本文本數據中包含的事件個數; 分別計算所述矩陣UMXK中的第i個行向量Ui ?與VKXN中的第j個列向量v \的乘積 與矩陣A中的元素的偏差值%_,其中,i為不大于M的正整數,j為不大于N的正整數; 判斷所述M*N個偏差值\的平方和E是否小于預設的值; 若否,則分別根據所述對所述矩陣UMXK及所述矩陣VKXN中的各元素進行修正,直至 所述E小于預設的值; 根據最終得到的樣本文本一事件矩陣確定所述各樣本文本所屬的事件。
4. 根據權利要求3所述的方法,其特征在于,所述分別根據所述對所述矩陣UMXK及 所述矩陣VKXN中的各元素進行修正,包括: 令所述矩陣UMXK中的元素u ' ik = Uij^a+ei/KVkj,所述矩陣VKXN中的元素v ' kj = Vkj+Za^ei/iniik,所述a為預設的步長。
5. 根據權利要求3或4所述的方法,其特征在于,所述預設的值中包括至少2個不相等 的數值。
6. -種基于短文本數據的區(qū)域事件檢測設備,其特征在于,包括: 獲取模塊,用于獲取待處理的短文本數據,所述短文本數據中包括位置信息; 選取模塊,用于根據所述位置信息從所述短文本數據中選取與預設的位置對應的樣本 文本數據; 運算模塊,用于分別對選取的樣本文本數據進行分詞處理,計算所述樣本文本數據中 各詞的權重; 構建模塊,用于根據所述樣本文本數據中各詞的權重構建所述樣本文本數據對應的樣 本文本一詞矩陣; 所述運算模塊,還用于對所述樣本文本一詞矩陣進行矩陣分解,根據分解得到的樣本 文本一事件矩陣確定所述各樣本文本所屬的事件。
7. 根據權利要求6所述的設備,其特征在于,所述樣本文本數據j中包括詞i,所述運 算模塊,具體用于: 根據所述詞i在所述樣本文本數據j中出現的次數及在所有待處理的短文本數據 中出現的次數I,確定所述詞i的分布頻率AWFij = Wij/Wi ; 根據所述詞i的及所述樣本文本數據中的所有詞的次數確定所述詞i的詞頻 OWFij = ffij/ffj ; 根據所述待處理的短文本數據中包括的不同位置信息個數N及所述待處理的短文本 數據中包括所述詞i的不同位置信息個數確定所述詞i的逆向城市頻率ICFU = N/X ; 根據所述AWFp 0WFu及ICFU確定所述詞i在所述樣本文本數據j中的權重。
8. 根據權利要求6所述的設備,其特征在于,所述樣本文本數據中包括N個樣本數據, 所述N個樣本數據中包括M個詞,所述樣本文本一詞矩陣A為MXN維矩陣,所述N為大于 或等于1的整數; 所述運算模塊,具體用于: 對所述矩陣A進行矩陣分解,得到樣本文本一事件矩陣UMXK,和事件一詞矩陣VKXN,所 述K為所述樣本文本數據中包含的事件個數; 分別計算所述矩陣UMXK中的第i個行向量Ui ?與VKXN中的第j個列向量v \的乘積 與矩陣A中的元素的偏差值%_,其中,i為不大于M的正整數,j為不大于N的正整數; 判斷所述M*N個偏差值\的平方和E是否小于預設的值; 若否,則分別根據所述對所述矩陣UMXK及所述矩陣VKXN中的各元素進行修正,直至 所述E小于預設的值; 根據最終得到的樣本文本一事件矩陣確定所述各樣本文本所屬的事件。
9. 根據權利要求8所述的設備,其特征在于,所述運算模塊,具體用于所述分別根據所 述eij對所述矩陣UMXK及所述矩陣VKXN中的各元素進行修正,包括 : 令所述矩陣UMXK中的元素u ' ik = Uij^a+ei/KVkj,所述矩陣VKXN中的元素v ' kj = Vkj+Za^ei/iniik,所述a為預設的步長。
10. 根據權利要求8或9所述的設備,其特征在于,所述預設的值中包括至少2個不相 等的數值。
【文檔編號】G06F17/30GK104331483SQ201410635944
【公開日】2015年2月4日 申請日期:2014年11月5日 優(yōu)先權日:2014年11月5日
【發(fā)明者】胡春明, 文章樂, 沃天宇, 隨培培 申請人:北京航空航天大學