一種基于通信網絡的行為異常檢測方法
【技術領域】
[0001] 發(fā)明涉及數據挖掘領域,具體涉及一種行為異常檢測的方法。
【背景技術】一種基于模式自學習的中文開放式實體關系抽取方法
[0002] 挖掘用戶行為和分析行為異常是挖掘數據異常和內部威脅的重要研究領域。
[0003] 通信網絡是由多人通信服務形成的,例如電子郵件,電話等等。通信網絡在日常生 活中扮演了一個重要的角色,而且他提供了一個前所未有的機會讓我們去分析和挖掘用戶 的模型和社會關系?,F在關于通信網絡中的用戶行為挖掘已經有很多研究,例如社團挖掘, 角色分析,仿真模型等。
[0004] 近期通信網絡中有大量研究工作集中在用戶行為模型挖掘和事件挖掘上面。然而 異常檢測和相關模型的聯(lián)系是緊密的,怎么定義常規(guī)模型是重要的研究熱點。
[0005]目前主要的挑戰(zhàn)就是怎樣方便準確地模擬和表示用戶通信模型。比較常用的技術 就是基于文本的語義分析,根據提取和跟蹤文本信息的話題來獲取用戶行為模式和意圖。 然而,因為隱私問題和權限限制,獲取用戶信息內容存在很多的障礙。另一個比較流行的技 術是基于網絡的框架和時間屬性來發(fā)掘用戶模型。與以上工作不同的是,我們的研究直接 聚焦在用戶的個體行為。
[0006] 跟蹤監(jiān)測用戶行為演化和異??梢詭椭覀冾A測潛在的威脅和挖掘未知事件。因 此尋找一個有效的方法去研究它們是十分重要的。根據收集到的通信記錄,我們可以得到 一個網絡,網絡中節(jié)點代表用戶ID,邊代表直接的信息交互。通信網絡是一個典型的時間序 列網絡。它可以由一系列的快照來表達。根據快照中用戶的行為活動可以得到用戶行為基 準,檢測用戶的行為異常。
【發(fā)明內容】
[0007] 本發(fā)明主要是提供一種基于通信網絡的行為異常檢測方法。該方法可以基于個 體的歷史行為檢測個體的行為異常,方便分析人員量化個體行為異常并提供相關的決策支 持。
[0008] 對于獲取的通信記錄,首先構建了一個通信網絡。節(jié)點代表用戶,邊代表通信記 錄。如果發(fā)信者u在t時刻向收信者v發(fā)送了信息,就建立在t時刻的一個由u指向v的 有向邊。用一個向量(u,v,t)來表示這個邊。然后把通信網絡根據一定的時間間隔劃分成 一系列的快照。每一個快照在忽略它的時間屬性的情況下可以看成邊的集合。
[0009] 假設G= {gl,g2,…,gM}是截取一系列的通信網絡的快照。對于每個用戶,首先提 取每個用戶快照的基本信息。然后我們關注其中的三個非文本特征:通信量、通信時間分布 和收信者頻度分布。
[0010] 計算用戶的通信量異常值,利用Iglewicz和Hoaglin提出的基于絕對中位數 (MAD)的改進后的Z-scores方法,將改進后Z-scores的絕對值Imz」作為通信量異常值 [0011] 計算用戶的通信時間分布異常值,利用所有通信時間分布的平均值來定義通信時 間分布的基準,利用Kullback-Leibler散度計算通信時間分布異常值。
[0012] 計算用戶的收信者頻度分布異常值,定義如果一個收信者出現在k個快照中, 我們就定義他的頻度就是k,和上面相似,我們也定義了一個收信人頻度分布基準,利用 Kullback-Leibler散度計算收信者頻度分布異常值。
[0013] 最后通過一個轉換方式來映射異常值到一個在區(qū)間[0, 1]的標準值,標準化的異 常值能夠被解釋為觀測到異常值的可能性。同時也為在不同用戶異常行為間的比較帶來了 很多便利。
【附圖說明】
[0014] 附圖1是本發(fā)明對行為異常檢測所提出方法的基本流程圖。
【具體實施方式】
[0015] 為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0016] 圖1為本發(fā)明提供的行為異常檢測的流程圖。具體可以包括如下步驟:
[0017] 101、根據時間間隔劃分網絡快照:
[0018] 通信網絡是一個典型的時間序列網絡。它可以由一系列的快照來表達。根據一定 的時間間隔,可以把通信網絡劃分成若干個網絡快照,便于進行下一步分析。
[0019] 102、根據網絡快照提取用戶資料:
[0020] 在獲取若干個網絡快照后,我們可以從中提取出用戶的有效信息,本發(fā)明重點關 注通信量、通信時間分布和收信者頻度分布這三個特征。
[0021] 103、根據用戶資料構造用戶基準:
[0022] 我們提取出用戶資料后,根據用戶資料構造出用戶基準,這些基準通常是某些快 照樣本的平均值,得到用戶基準便于計算異常值
[0023] 104、根據用戶資料和用戶基準計算異常值:
[0024] 在本發(fā)明中選取用戶的三個特征:通信量,通信時間分布和收信者頻度分布來進 行特征異常計算,具體計算方式如下:
[0025]I通信量
[0026] 通信網絡主要用于用戶間的信息傳遞,因此,某一用戶在通信網絡中通信量是表 征用戶行為模式的重要特征。假設一段時間間隔內的通信量保持相對穩(wěn)定?;谠摷僭O, 用戶通信量的變化能夠反映現實世界中某一事件的發(fā)生。我們利用改進的Z-scores來測 量用戶通信量的異常In1,n2,…,nM}。
[0027]Z-scores通常用于數值數據中的異常值標記。對于一組給定的數據集{Xl,x2,… ,Xn},樣本乂;的z-score由以下公式進行計算:
[0028]
[0029]其中
[0030]如果21的絕對值超過了 3,那么對應的xi就將被標記為異常值。這種方法又稱為three-sigma規(guī)則。但是由于均值Z及樣本標準差s不是恒定不變的,Z-score計算所得的 可能的最大值并不依賴于數據值,而僅僅取決于觀測值的數量。因此,該方法并