本發(fā)明屬于數(shù)據(jù),具體涉及一種動(dòng)態(tài)訪問(wèn)行為分析方法。
背景技術(shù):
1、在數(shù)字化時(shí)代,數(shù)據(jù)已成為推動(dòng)各個(gè)領(lǐng)域智能化決策的核心要素。數(shù)據(jù)資源的收集和利用能力體現(xiàn)了競(jìng)爭(zhēng)優(yōu)勢(shì),而數(shù)據(jù)的開(kāi)放共享被視為一種釋放數(shù)據(jù)資源價(jià)值的重要途徑。為了有效解決跨域的數(shù)據(jù)共享管理問(wèn)題,降低數(shù)據(jù)泄露和數(shù)據(jù)濫用的風(fēng)險(xiǎn),可以利用一種基于數(shù)據(jù)盒的數(shù)據(jù)自治安全建模方法。在該方法框架中,將數(shù)據(jù)盒作為數(shù)據(jù)共享的最小單元,支持共享數(shù)據(jù)的數(shù)據(jù)描述、數(shù)據(jù)操作、和數(shù)據(jù)約束等基本要素建模,封裝數(shù)據(jù)保護(hù)機(jī)制。對(duì)于數(shù)據(jù)的訪問(wèn)和操作,外部軟件或數(shù)據(jù)使用者只需通過(guò)調(diào)用數(shù)據(jù)盒提供的接口即可完成。
2、盡管數(shù)據(jù)盒對(duì)部分共享的數(shù)據(jù)進(jìn)行了封裝,數(shù)據(jù)使用者仍可能會(huì)利用授權(quán)的數(shù)據(jù)分析方法中的漏洞隱式地執(zhí)行非法數(shù)據(jù)操作。因此,需要精準(zhǔn)刻畫高動(dòng)態(tài)、細(xì)粒度的訪問(wèn)行為,建立動(dòng)態(tài)訪問(wèn)行為監(jiān)測(cè)策略,并在數(shù)據(jù)盒中集成訪問(wèn)監(jiān)控程序。近年來(lái),隨著深度學(xué)習(xí)方法和動(dòng)態(tài)圖神經(jīng)網(wǎng)絡(luò)(temporal?graph?networks,tgns)的出現(xiàn),許多相應(yīng)的方法被應(yīng)用于異常行為檢測(cè)研究中,并在識(shí)別準(zhǔn)確性上取得了一定的進(jìn)展。數(shù)據(jù)使用者在數(shù)據(jù)盒中的訪問(wèn)行為數(shù)據(jù)可被建模為交互行為事件序列,將行為對(duì)象與訪問(wèn)對(duì)象視為節(jié)點(diǎn),交互行為即為動(dòng)態(tài)連邊,構(gòu)成動(dòng)態(tài)交互圖。進(jìn)一步利用動(dòng)態(tài)圖網(wǎng)絡(luò)框架建模動(dòng)態(tài)交互圖,以捕捉數(shù)據(jù)訪問(wèn)動(dòng)態(tài)行為的特征,基于這些特征識(shí)別非法訪問(wèn)數(shù)據(jù)的行為,并在數(shù)據(jù)盒訪問(wèn)監(jiān)控程序中報(bào)警相關(guān)訪問(wèn)操作。為了防止冗余的行為數(shù)據(jù)引入不必要的噪聲,采用動(dòng)態(tài)圖結(jié)構(gòu)學(xué)習(xí)方法實(shí)現(xiàn)動(dòng)態(tài)圖降噪,增強(qiáng)模型區(qū)分異常行為特征的能力。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種面向動(dòng)態(tài)訪問(wèn)行為數(shù)據(jù)的基于動(dòng)態(tài)交互圖的動(dòng)態(tài)訪問(wèn)行為分析方法,用以提高動(dòng)態(tài)訪問(wèn)行為數(shù)據(jù)的分析準(zhǔn)確性和效率,并分析挖掘非法訪問(wèn)數(shù)據(jù)的行為,阻止非法訪問(wèn)操作。
2、本發(fā)明提供的基于動(dòng)態(tài)交互圖的動(dòng)態(tài)訪問(wèn)行為分析方法,包括:構(gòu)建動(dòng)態(tài)交互圖,以對(duì)動(dòng)態(tài)訪問(wèn)行為進(jìn)行準(zhǔn)確表征;構(gòu)建動(dòng)態(tài)訪問(wèn)行為特征表示學(xué)習(xí)模型,用于對(duì)面向噪聲的動(dòng)態(tài)訪問(wèn)行為進(jìn)行學(xué)習(xí);并通過(guò)模型訓(xùn)練,優(yōu)化模型,對(duì)動(dòng)態(tài)訪問(wèn)行為數(shù)據(jù)中噪聲進(jìn)行降噪,以增強(qiáng)模型,提升魯棒性;具體步驟如下:
3、步驟s1:構(gòu)成動(dòng)態(tài)交互圖;對(duì)于給定的一組訪問(wèn)行為事件序列數(shù)據(jù),將其構(gòu)成動(dòng)態(tài)交互圖;其中,以訪問(wèn)行為對(duì)象與訪問(wèn)對(duì)象視為節(jié)點(diǎn),訪問(wèn)行為即為動(dòng)態(tài)連邊,所述連邊包含時(shí)間戳屬性,以體現(xiàn)訪問(wèn)行為發(fā)生的時(shí)間;一個(gè)動(dòng)態(tài)交互圖節(jié)點(diǎn)集合記為邊集合記為其中eij(t)表示于t∈[0,t]時(shí)刻發(fā)生在節(jié)點(diǎn)i,j之間的行為事件,節(jié)點(diǎn)和邊都可能關(guān)聯(lián)了一組屬性向量。根據(jù)時(shí)間戳屬性,可以將訪問(wèn)行為數(shù)據(jù)按照時(shí)間發(fā)生先后劃分為3部分,分別為訓(xùn)練數(shù)據(jù)、驗(yàn)證數(shù)據(jù)和測(cè)試數(shù)據(jù),通常該比例為7:1.5:1.5。
4、以鏈接預(yù)測(cè)的下游任務(wù)為例,假設(shè)數(shù)據(jù)的邊集合為ε,將其按照時(shí)間順序從前往后排序,并按序按比例進(jìn)行分配,將其劃分為四個(gè)部分:
5、ε=ε訓(xùn)練∪ε驗(yàn)證∪v測(cè)試
6、步驟s2:構(gòu)建動(dòng)態(tài)訪問(wèn)行為特征表示學(xué)習(xí)模型;所述模型具體包括:雙層記憶模塊,用于記錄歷史訪問(wèn)行為;信息生成模塊,用于生成節(jié)點(diǎn)信息;狀態(tài)更新模塊,用于對(duì)記憶信息進(jìn)行更新;節(jié)點(diǎn)動(dòng)態(tài)表征模塊,用于節(jié)點(diǎn)表征。具體地:
7、步驟s2-1:構(gòu)建雙層記憶模塊。假設(shè)在時(shí)間t時(shí),節(jié)點(diǎn)i和節(jié)點(diǎn)j之間發(fā)生的訪問(wèn)行為事件,記為eij(t),假設(shè)節(jié)點(diǎn)i和節(jié)點(diǎn)j在這一時(shí)刻分別有兩個(gè)表示(此處以節(jié)點(diǎn)i為例進(jìn)行說(shuō)明,對(duì)于節(jié)點(diǎn)j,進(jìn)行同樣處理):hi(t-)為事件前的表示,hi(t+)為事件后的表示。前者可以用來(lái)預(yù)測(cè)事件是否會(huì)發(fā)生,而后者反映事件的影響。從這個(gè)角度看,將嵌入hi視為t的函數(shù),那么有或ei(τ)∈ε}是函數(shù)的不連續(xù)點(diǎn)。稱h(t-)和h(t+)分別為跳躍前后的表示。并引入了兩個(gè)記憶單元和分別存儲(chǔ)每個(gè)節(jié)點(diǎn)i的表示hi(t+)和hi(t-)。對(duì)于每個(gè)節(jié)點(diǎn),其記憶值和被初始化為零向量,然后隨著涉及該節(jié)點(diǎn)的新事件的到來(lái)而更新。
8、步驟s2-2:構(gòu)建信息生成模塊。對(duì)于在時(shí)間t涉及節(jié)點(diǎn)i的事件,首先生成信息mi(t)以計(jì)算事件后的節(jié)點(diǎn)表示,即h(t+)。
9、假設(shè)事件eij(t)發(fā)生在節(jié)點(diǎn)i和節(jié)點(diǎn)j之間,并具有特征向量eij(t)。首先,從記憶單元中獲取節(jié)點(diǎn)以前的狀態(tài)和其中如果是從中獲取值,則有si(t)=hi(ti’+),即節(jié)點(diǎn)i在上一個(gè)事件時(shí)間ti’后的狀態(tài)。另一種選擇是使用那么有si(t)=hi(t-),表示當(dāng)前事件前節(jié)點(diǎn)i的狀態(tài)。默認(rèn)情況下,采用因?yàn)樗粌H考慮了上一次事件t’的影響,還捕捉了節(jié)點(diǎn)在時(shí)間窗口(t’,t)內(nèi)的演變,然后生成兩個(gè)信息:
10、mi(t)=msg.si(t),sj(t),eij(t),φ(t-ti′)/,?(1)
11、mj(t)=msg.sj(t),si(t),eij(t),φ(t-tj′)/,?(2)
12、其中,msg是消息函數(shù),ti’是最近一次涉及節(jié)點(diǎn)j的事件的時(shí)間戳。φ是時(shí)間編碼函數(shù),φ將時(shí)間間隔映射到一個(gè)d維向量。為了簡(jiǎn)單起見(jiàn),通常使用identity消息函數(shù),它直接返回輸入向量的連接。
13、步驟s2-3:構(gòu)建狀態(tài)更新模塊。如前所述,節(jié)點(diǎn)的狀態(tài)h(t+)反映了事件的影響。通過(guò)下述公式計(jì)算在接收事件eij(t)后節(jié)點(diǎn)i的新表示:
14、
15、hi(t+)=upd.h′i(t),mi(t)/,?(4)
16、其中,upd是可學(xué)習(xí)的更新函數(shù),在實(shí)際中使用gru[1]。同樣,對(duì)于先前狀態(tài)h’i(t),即如果使用h’i(t)=hi(t-),那么可以看作是模擬事件即時(shí)影響并在時(shí)間t模擬跳躍[2]。另一方面,當(dāng)h’i(t)=hi(ti’+)時(shí),即為傳統(tǒng)的遞歸單元,其中h(t’+)作為最后的隱藏狀態(tài),m(t)作為輸入。默認(rèn)情況下使用后者,因?yàn)樗cgru更新函數(shù)更兼容。在為節(jié)點(diǎn)i計(jì)算新的嵌入hi(t+)后,通過(guò)對(duì)對(duì)應(yīng)的值進(jìn)行賦值來(lái)更新記憶
17、步驟s2-4:構(gòu)建節(jié)點(diǎn)動(dòng)態(tài)表征模塊。節(jié)點(diǎn)動(dòng)態(tài)表征模塊旨在生成任意時(shí)間t前的預(yù)跳躍表示h(t-),以在下一個(gè)事件到來(lái)之前使用。具體地,采用l層時(shí)間圖注意網(wǎng)絡(luò)[3]來(lái)聚合鄰域信息:
18、首先,從記憶單元中獲取數(shù)據(jù)對(duì)于涉及節(jié)點(diǎn)i的l-跳所有鄰居節(jié)點(diǎn)k,將它們與其節(jié)點(diǎn)特征結(jié)合:其中是第一層時(shí)間圖注意層的輸入。此時(shí)存儲(chǔ)了在最后一次發(fā)生在時(shí)間tk’的事件的跳躍后的表征。
19、然后,對(duì)于每一層1≤l≤l,使用多頭注意力[4]聚合鄰域信息,具體公式表示如下:
20、
21、其中,||表示向量拼接,mlp(·)是隱藏和輸出維度均為d的兩層前饋神經(jīng)網(wǎng)絡(luò),mha(·)是多頭注意力函數(shù);并有,查詢鍵值將感受野限制為每個(gè)節(jié)點(diǎn)k的最近n個(gè)事件,由表示。這里π是一個(gè)排列,πk(·)是節(jié)點(diǎn)k的時(shí)間鄰域。這里的標(biāo)注省略了中的下標(biāo)k,它可以指代從k到πk(·)的事件或πk(·)到k的事件。
22、使用作為節(jié)點(diǎn)i的動(dòng)態(tài)表征,并通過(guò)更新記憶
23、步驟s3:設(shè)計(jì)面向噪聲的動(dòng)態(tài)訪問(wèn)行為表示學(xué)習(xí)方法,并訓(xùn)練模型,優(yōu)化模型參數(shù):
24、對(duì)于動(dòng)態(tài)圖(如圖2(a))中給定交互邊eij(t)的邊權(quán)重wij(t),修改邊權(quán)重以削弱噪聲邊的影響,減少它們的值,同時(shí)增加正常邊的邊權(quán)重以加強(qiáng)它們的貢獻(xiàn)(如圖2(b))。然而,直接使用邊(一個(gè)交互行為事件)本身只關(guān)注事件參與者,忽略了非參與者的重要性。為了解決這個(gè)問(wèn)題,同時(shí)控制計(jì)算成本,本發(fā)明引入負(fù)采樣[15]:對(duì)于每個(gè)傳入邊eij(t),從節(jié)點(diǎn)集合中隨機(jī)抽取q個(gè)節(jié)點(diǎn)n1,n2,…,nq,并從時(shí)間中隨機(jī)抽取相同數(shù)量的時(shí)間點(diǎn)tn1,tn2,…,tnq,作為負(fù)樣本來(lái)構(gòu)建負(fù)事件(i,n1,tn1),…,(i,nq,tnq),這些事件實(shí)際上沒(méi)有發(fā)生。
25、因此,正負(fù)事件根據(jù)以下監(jiān)督信號(hào)重新加權(quán)。對(duì)于節(jié)點(diǎn)i的正樣本對(duì)i,
26、
27、將被最小化,其中,sij(t)是一個(gè)動(dòng)態(tài)噪聲函數(shù),∈∈r+是一個(gè)超參數(shù),σ(·)是sigmoid函數(shù)。如果兩個(gè)節(jié)點(diǎn)相似,它們更可能共享一個(gè)正常的邊,并且會(huì)很大,這將迫使wij(t)通過(guò)最小化此信號(hào)接近1。相反,如果兩個(gè)節(jié)點(diǎn)不相似,它們傾向于連接到一個(gè)噪聲邊,并且會(huì)很小,這將對(duì)wij(t)影響很小。同樣,對(duì)于節(jié)點(diǎn)i的負(fù)樣本nq:
28、
29、將被最小化。如果兩個(gè)節(jié)點(diǎn)不相似,會(huì)很大,這將迫使通過(guò)最小化此信號(hào)接近0。將兩部分優(yōu)化目標(biāo)結(jié)合,提出對(duì)應(yīng)的優(yōu)化函數(shù)
30、
31、其中,nq~pn(i)是節(jié)點(diǎn)i的負(fù)樣本分布,通過(guò)上述步驟可以對(duì)動(dòng)態(tài)圖中的邊權(quán)重進(jìn)行調(diào)整(如圖2(c)),并可以得到權(quán)重調(diào)整后的、對(duì)數(shù)據(jù)進(jìn)行去噪聲處理的動(dòng)態(tài)圖(如圖2(d))。
32、通過(guò)將此優(yōu)化函數(shù)與原本動(dòng)態(tài)訪問(wèn)行為特征表示學(xué)習(xí)模型中的優(yōu)化函數(shù)進(jìn)行有可學(xué)習(xí)權(quán)重的相加,獲得的新的優(yōu)化函數(shù)進(jìn)行訓(xùn)練,可以抵抗動(dòng)態(tài)圖中結(jié)構(gòu)學(xué)習(xí)的噪聲。
33、模型的整體優(yōu)化過(guò)程為:模型的輸入是含有噪聲的數(shù)據(jù)集中交互行為序列,以及其關(guān)聯(lián)的節(jié)點(diǎn)特征向量、邊特征向量和時(shí)間戳,并通過(guò)步驟s1構(gòu)建動(dòng)態(tài)圖。對(duì)于每一個(gè)歷史交互行為,通過(guò)構(gòu)建的動(dòng)態(tài)訪問(wèn)行為特征表示學(xué)習(xí)模型(步驟s2),計(jì)算其中交互行為節(jié)點(diǎn)在未來(lái)某時(shí)間點(diǎn)下的動(dòng)態(tài)節(jié)點(diǎn)表征,并在動(dòng)態(tài)交互圖訓(xùn)練框架下,插入面向噪聲的動(dòng)態(tài)訪問(wèn)行為表示學(xué)習(xí)方法,引入步驟s3中提到的負(fù)采樣并對(duì)邊進(jìn)行權(quán)重調(diào)整,減少噪聲邊的影響、增強(qiáng)正常邊的貢獻(xiàn),并構(gòu)建對(duì)應(yīng)的目標(biāo)函數(shù),以獲得去噪聲后的動(dòng)態(tài)圖,并使得上述過(guò)程可以被優(yōu)化以及使得模型對(duì)數(shù)據(jù)噪聲敏感并進(jìn)行降噪處理。通過(guò)自監(jiān)督信號(hào),即數(shù)據(jù)集中未來(lái)時(shí)間點(diǎn)是否有邊作為監(jiān)督信號(hào),采用模型生成的不同節(jié)點(diǎn)的動(dòng)態(tài)節(jié)點(diǎn)表征,通過(guò)計(jì)算節(jié)點(diǎn)之間的表征相似度(相似度高則說(shuō)明兩個(gè)節(jié)點(diǎn)之間存在邊的可能性高),進(jìn)行預(yù)進(jìn)行動(dòng)態(tài)邊預(yù)測(cè)的訓(xùn)練。這個(gè)過(guò)程中,該動(dòng)態(tài)訪問(wèn)行為特征表示學(xué)習(xí)的優(yōu)化函數(shù)為交叉墑函數(shù)。針對(duì)上述的整體目標(biāo)函數(shù),將進(jìn)行多輪迭代優(yōu)化,更新模型的參數(shù),可以選用梯度下降[5]的優(yōu)化方法,每次迭代計(jì)算梯度,并按負(fù)梯度方向更新參數(shù),直到算法收斂或者達(dá)到設(shè)定的最高迭代次數(shù)。此時(shí),在訓(xùn)練數(shù)據(jù)上完成模型的訓(xùn)練。
34、其中s3是對(duì)于s2的可插入補(bǔ)充方法:s2可單獨(dú)使用,插入s3可以對(duì)s2中提及的模型進(jìn)行增強(qiáng)。
35、本發(fā)明提供的面向動(dòng)態(tài)訪問(wèn)行為數(shù)據(jù)的基于交互圖的動(dòng)態(tài)訪問(wèn)行為分析方法,采用動(dòng)態(tài)訪問(wèn)行為特征表示學(xué)習(xí)模型對(duì)訪問(wèn)行為數(shù)據(jù)構(gòu)成的動(dòng)態(tài)交互圖進(jìn)行表征學(xué)習(xí),采用雙層記憶模塊,有效建模節(jié)點(diǎn)動(dòng)態(tài)表征;同時(shí)采用動(dòng)態(tài)圖結(jié)構(gòu)學(xué)習(xí)方法實(shí)現(xiàn)動(dòng)態(tài)圖降噪,對(duì)動(dòng)態(tài)交互圖中噪聲數(shù)據(jù)進(jìn)行處理,削弱噪聲數(shù)據(jù)對(duì)模型效果帶來(lái)的影響,并增強(qiáng)正常數(shù)據(jù)的貢獻(xiàn),增強(qiáng)模型區(qū)分異常行為特征的能力。