一種面向通信網(wǎng)絡(luò)的用戶行為模式挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種面向通信網(wǎng)絡(luò)的用戶行為模式挖掘方法及系統(tǒng),包括:獲取一系列網(wǎng)絡(luò)快照,根據(jù)活躍度確定研究對象,確定M個與研究對象相關(guān)的相關(guān)特征,并根據(jù)相關(guān)特征計算每個網(wǎng)絡(luò)快照的特征矩陣,進而計算基準特征矩陣;對基準特征矩陣和每個網(wǎng)絡(luò)快照的特征矩陣做標準化處理,分解標準化基準特征矩陣得到模元矩陣和系數(shù)矩陣;利用每個網(wǎng)絡(luò)快照的標準化特征矩陣和模元矩陣計算每個網(wǎng)絡(luò)快照中所有研究對象的行為模式矩陣,即本發(fā)明采用“相關(guān)特征-模元-行為模式”的三元對應(yīng)關(guān)系表示用戶行為模式,為用戶的通信行為模式提供統(tǒng)一的表示方法,在用戶量大的情況下用戶間的模式對比清晰明了,有助于方便正確地檢測數(shù)據(jù)集中用戶行為模式的變化情況。
【專利說明】一種面向通信網(wǎng)絡(luò)的用戶行為模式挖掘方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信網(wǎng)絡(luò)、復雜網(wǎng)絡(luò)和異常檢測等領(lǐng)域,尤其涉及一種面向通信網(wǎng)絡(luò)的用戶行為模式挖掘方法及系統(tǒng)。
【背景技術(shù)】
[0002]通信網(wǎng)絡(luò)是指人們之間的信息交流而形成的網(wǎng)絡(luò)的統(tǒng)稱,郵件通信網(wǎng)絡(luò)、短信通信網(wǎng)絡(luò)、電話通信網(wǎng)絡(luò)等都是典型的通信網(wǎng)絡(luò)。在現(xiàn)代社會中,通信網(wǎng)絡(luò)已全面滲透到人們的日常生活中,通信網(wǎng)絡(luò)中包含了人們?nèi)粘W飨r間、工作生活習慣、社交關(guān)系、工作性質(zhì)等諸多十分有價值信息。
[0003]以郵件網(wǎng)絡(luò)為例,挖掘郵件用戶通信行為模式并分析其演變過程對檢測郵件數(shù)據(jù)泄漏等郵件網(wǎng)絡(luò)事件具有重要意義。通常由于郵件已加密或者隱私問題而無法獲得完整的郵件內(nèi)容,在此考慮僅利用郵件網(wǎng)絡(luò)的日志信息如何來挖掘用戶的通信行為模式。郵件通信日志記錄了人們的通信關(guān)系、通信頻率、通信時間等許多有價值的信息。利用郵件日志來學習用戶在郵件通信中的行為模式,繼而可以挖掘出用戶的社交關(guān)系網(wǎng)、生活習慣、工作性質(zhì)等社會屬性。通過對用戶行為模式的分析可為組織機構(gòu)的信息安全防護工作提供重要依據(jù)。例如通過對不同個體的通信行為模式進行橫向?qū)Ρ饶軌虬l(fā)現(xiàn)那些“特立獨行”的人;對個體行為模式的縱向分析可以發(fā)現(xiàn)個體行為的異常變動。利用這些異??梢詭椭嚓P(guān)人員縮小排查范圍,有利于快速發(fā)現(xiàn)并定位內(nèi)部人員的不軌行為,對于組織內(nèi)部威脅的檢測及計算機取證等工作都有著重要的指導意義。
[0004]郵件通信行為模式是指人們在郵件通信過程中所體現(xiàn)出的個體或群體間重復出現(xiàn)的通信特征集合。組織機構(gòu)的郵件日志中隱含了許多與內(nèi)部員工的工作性質(zhì)、日常行為習慣、生活作息時間等有關(guān)的信息。如何挖掘這類信息并有效地利用這些信息是人們十分關(guān)注的問題。
[0005]人們通常將某組織機構(gòu)的郵件網(wǎng)絡(luò)視為一個完整的社交網(wǎng)絡(luò),然后提取一些網(wǎng)絡(luò)結(jié)構(gòu)特征,利用社交網(wǎng)絡(luò)分析的方法來挖掘用戶行為模式,但是該方法忽略了組織機構(gòu)郵件網(wǎng)絡(luò)外部通信信息的缺失問題,這會影響到某些特征的準確性。并且以往的研究大多數(shù)直接用相關(guān)特征來表示將用戶的行為模式,但如果提取的相關(guān)特征較多時這種“相關(guān)特征-行為模式”二元對應(yīng)關(guān)系往往導致用戶模式形式多樣,用戶量大的情況下不利于用戶間的模式對比。
【發(fā)明內(nèi)容】
[0006]本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種面向通信網(wǎng)絡(luò)的用戶行為模式挖掘方法及系統(tǒng),以提高用戶行為模式分析的準確性并統(tǒng)一用戶行為模式的表
/Jn ο
[0007]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種面向通信網(wǎng)絡(luò)的用戶行為模式挖掘方法,包括如下步驟:[0008]步驟1:按照不同時期對通信網(wǎng)絡(luò)數(shù)據(jù)進行劃分,得到一系列網(wǎng)絡(luò)快照G= (G11G2, - ,GT};
[0009]步驟2:確定在網(wǎng)絡(luò)快照中的活躍度高于預定閾值的用戶為研究對象,記錄研究對象個數(shù)為N ;
[0010]步驟3:確定M個與研究對象相關(guān)的相關(guān)特征,并根據(jù)相關(guān)特征計算每個網(wǎng)絡(luò)快照的特征矩陣了;
[0011]步驟4:根據(jù)所有網(wǎng)絡(luò)快照的特征矩陣y (t = 1,2,...T)計算基準特征矩陣:? ;
[0012]步驟5:對基準特征矩陣J和每個網(wǎng)絡(luò)快照的特征矩陣7做標準化處理,得到標
準化基準特征矩陣A和相應(yīng)的每個網(wǎng)絡(luò)快照的標準化特征矩陣At ;
[0013]步驟6:利用非負矩陣分解算法分解標準化基準特征矩陣A得到模元矩陣W和系數(shù)矩陣H ;
[0014]步驟7:利用每個網(wǎng)絡(luò)快照的標準化特征矩陣At和模元矩陣W計算每個網(wǎng)絡(luò)快照中所有研究對象的行為模式矩陣Ht (t = 1,2,...T)。
[0015]本發(fā)明的有益效果是:本發(fā)明采用“相關(guān)特征-模元-行為模式”的三元對應(yīng)關(guān)系表示用戶行為模式,為用戶的通信行為模式提供統(tǒng)一的表示方法,在用戶量大的情況下用戶間的模式對比清晰明了, 有助于方便正確地檢測數(shù)據(jù)集中用戶行為模式的變化情況;用戶的行為模式可以表示為模元空間中的向量,這樣就為用戶的行為模式提供了統(tǒng)一的描述準則,降低了模式表述的復雜性。
[0016]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
[0017]進一步,所述用戶的行為模式以“相關(guān)特征-模元-行為模式”的三元對應(yīng)關(guān)系表示,其中所述模元為基本行為模式單元,代表通信網(wǎng)絡(luò)中基本行為。
[0018]進一步,步驟2中活躍度等級為通信網(wǎng)絡(luò)中通信節(jié)點作為發(fā)信者在各快照中出現(xiàn)的頻度,進而確定研究對象的具體實現(xiàn)為:按照用戶的活躍度進行排序,選擇活躍度前θ%的用戶作為研究對象,其中Θ為預定值。
[0019]采用上述進一步方案的有益效果:不僅考慮通信網(wǎng)絡(luò)的結(jié)構(gòu)特征,還考慮用戶在通信過程中的轉(zhuǎn)發(fā)量、附件量等于工作性質(zhì)有關(guān)的職能特征,保證了獲取的通信網(wǎng)絡(luò)數(shù)據(jù)的完整性,大大提高了用戶行為模式挖掘的準確性。
[0020]進一步,步驟3中的具體實現(xiàn)為:計算某一網(wǎng)絡(luò)快照的特征矩陣7時,統(tǒng)計該快照
中的與各相關(guān)特征有關(guān)的信息,得到特征矩陣了 J是一個M行N列的矩陣,每一行就代
表某一相關(guān)特征在不同研究對象下的取值,每一列代表某一研究對象的所有相關(guān)特征的取值。
[0021]進一步,步驟4的具體實現(xiàn)為:基準特征矩陣2是一個M行N列的矩陣,每一行就代表某一相關(guān)特征在不同研究對象下在所有網(wǎng)絡(luò)快照中的平均取值,每一列代表某一研究對象的所有相關(guān)特征在 所有網(wǎng)絡(luò)快照中的平均取值,計算基準特征矩陣2時,統(tǒng)計所有
網(wǎng)絡(luò)快照的特征矩陣了相應(yīng)位置處的非零值取平均,得到基準特征矩陣I中相應(yīng)位置的取值,每個位置的計算公式如下,[0022]
【權(quán)利要求】
1.一種面向通信網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,包括如下步驟: 步驟1:按照不同時期對通信網(wǎng)絡(luò)數(shù)據(jù)進行劃分,得到一系列網(wǎng)絡(luò)快照G= {G\G2,…,GT}; 步驟2:確定在網(wǎng)絡(luò)快照中的活躍度高于預定閾值的用戶為研究對象,記錄研究對象個數(shù)為N ; 步驟3:確定M個與研究對象相關(guān)的相關(guān)特征,并根據(jù)相關(guān)特征計算每個網(wǎng)絡(luò)快照的特征矩陣I7 ; 步驟4:根據(jù)所有網(wǎng)絡(luò)快照的特征矩陣7 (t = 1,2,...T)計算基準特征矩陣7 步驟5:對基準特征矩陣2和每個網(wǎng)絡(luò)快照的特征矩陣了做標準化處理,得到標準化基準特征矩陣A和相應(yīng)的每個網(wǎng)絡(luò)快照的標準化特征矩陣At ; 步驟6:利用非負矩陣分解算法分解標準化基準特征矩陣A得到模元矩陣W和系數(shù)矩陣H; 步驟7:利用每個網(wǎng)絡(luò)快照的標準化特征矩陣At和模元矩陣W計算每個網(wǎng)絡(luò)快照中所有研究對象的行為模式矩陣Ht (t = 1,2,...T)。
2.根據(jù)權(quán)利要求1所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,所述用戶的行為模式以“相關(guān)特征-模元-行為模式”的三元對應(yīng)關(guān)系表示,其中,所述模元為基本行為模式單元,代表通信網(wǎng)絡(luò)中用戶的基本行為模式。
3.根據(jù)權(quán)利要求1所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,步驟2中活躍度等級為通信網(wǎng)絡(luò)中通信節(jié)點作為發(fā)信者在各快照中出現(xiàn)的頻度,進而確定研究對象的具體實現(xiàn)為:按照用戶的活躍度進行排序,選擇活躍度前θ%的用戶作為研究對象,其中Θ為預定值。
4.根據(jù)權(quán)利要求1所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,步驟3中的具體實現(xiàn)為:計算某一網(wǎng)絡(luò)快照的特征矩陣^時,統(tǒng)計該快照中的與各相關(guān)特征有關(guān)的信息,得到特征矩陣了 Ai是一個M行N列的矩陣,每一行就代表某一相關(guān)特征在不同研究對象下的取值,每一列代表某一研究對象的所有相關(guān)特征的取值。
5.根據(jù)權(quán)利要求1所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,步驟4的具體實現(xiàn)為:基準特征矩陣2是一個M行N列的矩陣,每一行就代表某一相關(guān)特征在不同研究對象下在所有網(wǎng)絡(luò)快照中的平均取值,每一列代表某一研究對象的所有相關(guān)特征在所有網(wǎng)絡(luò)快照中的平均取值,計算基準特征矩陣3時,統(tǒng)計所有網(wǎng)絡(luò)快照的特征矩陣了相應(yīng)位置處的非零值取平均,得到基準特征矩陣3中相應(yīng)位置的取值,每個位置的計算公式如下,
6.根據(jù)權(quán)利要求1所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,步驟6中的具體實現(xiàn)為:利用非負矩陣分解算法分解標準化基準特征矩陣A得到模元矩陣W和系數(shù)矩陣
7.根據(jù)權(quán)利要求1所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,步驟7的具體實現(xiàn)為:利用每個網(wǎng)絡(luò)快照的標準化特征矩陣At和模元矩陣W依次計算每個網(wǎng)絡(luò)快照中所有研究對象的行為模式矩陣Ht,要求
8.根據(jù)權(quán)利要求7所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,上述技術(shù)方案還包括分析某一研究對象的行為模式時,按照其出現(xiàn)過的網(wǎng)絡(luò)快照間的時間順序,將其在各網(wǎng)絡(luò)快照中的行為模式排列起來,構(gòu)成一個多元時間序列。
9.一種實現(xiàn)權(quán)利要求1-8中任一項所述面向通信網(wǎng)絡(luò)的用戶行為模式挖掘系統(tǒng),其特征在于,包括網(wǎng)絡(luò)快照獲取模塊、研究對象確定模塊、網(wǎng)絡(luò)快照特征矩陣計算模塊、基準特征矩陣計算模塊、矩陣標準化模塊、模元矩陣計算模塊和行為模式矩陣計算模塊; 網(wǎng)絡(luò)快照計算模塊,其用于按照不同時期對通信網(wǎng)絡(luò)數(shù)據(jù)進行劃分,得到一系列網(wǎng)絡(luò)快照 G= {G1, G2,..., GT}; 研究對象確定模塊,其用于確定在網(wǎng)絡(luò)快照中的活躍度高于預定閾值的用戶為研究對象,記錄研究對象個數(shù)為N; 網(wǎng)絡(luò)快照特征矩陣計算模塊,其用于確定M個與研究對象相關(guān)的相關(guān)特征,并根據(jù)相關(guān)特征計算每個網(wǎng)絡(luò)快照的特征矩陣了; 基準特征矩陣計算模塊,其用于根據(jù)所有網(wǎng)絡(luò)快照的特征矩陣27 Ct= 1,2,...T)計算基準特征矩陣]; 矩陣標準化模塊,其用于對基準特征矩陣3和每個網(wǎng)絡(luò)快照的特征矩陣孑做標準化處理,得到標準化基準特征矩陣A和相應(yīng)的每個網(wǎng)絡(luò)快照的標準化特征矩陣At ; 模元矩陣計算模塊,其用于利用非負矩陣分解算法分解標準化基準特征矩陣A得到模元矩陣W和系數(shù)矩陣H; 行為模式矩陣計算模塊,其用于利用每個網(wǎng)絡(luò)快照的標準化特征矩陣At和模元矩陣W計算每個網(wǎng)絡(luò)快照中所有研究對象的行為模式矩陣Ht (t = 1,2,...T)。
10.根據(jù)權(quán)利要求9所述一種面向郵件網(wǎng)絡(luò)的用戶行為模式挖掘方法,其特征在于,還包括多元時間序列提取模塊,其用于當分析某一研究對象的行為模式時,按照其出現(xiàn)過的網(wǎng)絡(luò)快照間的時間順序,將其在各網(wǎng)絡(luò)快照中的行為模式排列起來,構(gòu)成一個多元時間序列。
【文檔編號】G06F17/30GK103744994SQ201410030664
【公開日】2014年4月23日 申請日期:2014年1月22日 優(yōu)先權(quán)日:2014年1月22日
【發(fā)明者】時金橋, 柳廳文, 李全剛 申請人:中國科學院信息工程研究所