本發(fā)明屬于計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種基于流梯度導(dǎo)向的加密流量識別方法。
背景技術(shù):
對等網(wǎng)絡(luò)(Peer-to-Peer,P2P)技術(shù)在當(dāng)前互聯(lián)網(wǎng)中取得了廣泛的應(yīng)用,例如:流媒體業(yè)務(wù)、VoIP、文件共享等諸多領(lǐng)域都采用對等網(wǎng)絡(luò)傳輸技術(shù)。由于該技術(shù)具有易于實現(xiàn)、承載能力強、適合個人用戶等特點,其在網(wǎng)絡(luò)中的使用率極高。然而,對等網(wǎng)絡(luò)業(yè)務(wù)開放式的特點導(dǎo)致其安全性無法滿足當(dāng)前網(wǎng)絡(luò)的需求,各種經(jīng)過加密的木馬病毒、惡意軟件、盜版信息在對等網(wǎng)絡(luò)中大量傳播,如何提高網(wǎng)絡(luò)安全性成為嚴峻的挑戰(zhàn)?,F(xiàn)有的加密流量識別方法有:基于機器學(xué)習(xí)的加密流量識別方法、基于經(jīng)典關(guān)鍵標(biāo)識的加密流量識別方法等;但是,目前的加密流識別方法在識別率以及復(fù)雜度方面均無法滿足現(xiàn)有網(wǎng)絡(luò)的需求,其往往沒有考慮網(wǎng)絡(luò)數(shù)據(jù)流的梯度導(dǎo)向;并且,現(xiàn)有的加密流量識別方法不支持流量特征實時變化的識別,對于更廣泛的加密流不具有相應(yīng)的識別率。
技術(shù)實現(xiàn)要素:
為克服現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種基于流梯度導(dǎo)向的加密流量識別方法,解決現(xiàn)有技術(shù)中的加密流識別率及復(fù)雜度方面的缺陷,針對網(wǎng)絡(luò)數(shù)據(jù)流的梯度導(dǎo)向,實現(xiàn)對加密流更好的識別率,進一步保障網(wǎng)絡(luò)信息的安全性、穩(wěn)定性,應(yīng)用于數(shù)據(jù)傳輸網(wǎng)絡(luò)各級節(jié)點中,對任意網(wǎng)絡(luò)加密流識別均具有適用性。
按照本發(fā)明所提供的設(shè)計方案,一種基于流梯度導(dǎo)向的加密流量識別方法,包含如下步驟:
步驟1、根據(jù)已知數(shù)據(jù)流訓(xùn)練集合,計算數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識;
步驟2、提取網(wǎng)絡(luò)數(shù)據(jù)流,包含抓取目標(biāo)加密流量業(yè)務(wù)數(shù)據(jù)流、及非目標(biāo)加密流量業(yè)務(wù)數(shù)據(jù)流,分別計算目標(biāo)加密流量業(yè)務(wù)的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識及非目標(biāo)加密流量業(yè)務(wù)的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識;
步驟3、針對網(wǎng)絡(luò)待測未知流量,計算未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識;
步驟4、分別計算未知流量與目標(biāo)加密流量業(yè)務(wù)兩者之間的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識的相關(guān)偏移量St,及未知流量與非目標(biāo)加密流量業(yè)務(wù)之間的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識的相關(guān)偏移量Sn;
步驟5、判斷相關(guān)偏移量St是否大于Sn,若是,則判定該未知流量為目標(biāo)加密流量業(yè)務(wù),否則,則判定該未知流量為非目標(biāo)加密流量業(yè)務(wù)。
上述的,計算數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識,包含如下內(nèi)容:
統(tǒng)計數(shù)據(jù)流特征數(shù)據(jù),所述數(shù)據(jù)流特征數(shù)據(jù)包括前序數(shù)據(jù)包大小、當(dāng)前數(shù)據(jù)包大小、前序數(shù)據(jù)包到達間隔、及當(dāng)前數(shù)據(jù)包到達間隔;
根據(jù)數(shù)據(jù)流特征數(shù)據(jù),計算數(shù)據(jù)流關(guān)鍵標(biāo)識,得到其梯度導(dǎo)向關(guān)鍵標(biāo)識。
上述的,計算數(shù)據(jù)流關(guān)鍵標(biāo)識,其具體內(nèi)容如下:
根據(jù)數(shù)據(jù)流特征數(shù)據(jù)的變化梯度,評估其梯度導(dǎo)向加權(quán)函數(shù)指標(biāo),對數(shù)據(jù)流特征數(shù)據(jù)進行加權(quán)處理;
刻畫梯度導(dǎo)向關(guān)鍵標(biāo)識為矢量數(shù)據(jù)對,建立數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列,得到矢量概率密度函數(shù);
通過平滑濾波器對矢量概率密度函數(shù)進行過濾處理,得到該數(shù)據(jù)流的梯度導(dǎo)向關(guān)鍵標(biāo)識。
上述的,數(shù)據(jù)流特征數(shù)據(jù)的變化梯度由數(shù)據(jù)包上一狀態(tài)與當(dāng)前狀態(tài)決定。
上述的,數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列為二維矢量數(shù)據(jù)序列,其中,第一維度由前序數(shù)據(jù)包與當(dāng)前數(shù)據(jù)包大小加權(quán)決定,第二維度由前序數(shù)據(jù)包與當(dāng)前數(shù)據(jù)包抵達間隔加權(quán)決定。
上述的,數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列,當(dāng)前數(shù)據(jù)包與前序數(shù)據(jù)包大小之比,兩者變化正相關(guān)。
上述的,數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列,當(dāng)前數(shù)據(jù)包到達間隔與前序數(shù)據(jù)包到達間隔之比,兩者變化正相關(guān)。
上述的,步驟4中的計算相關(guān)偏移量,還包含對相關(guān)偏移量的取模運算。
優(yōu)選的,相關(guān)偏移量用于比較數(shù)據(jù)流關(guān)鍵標(biāo)識之間的近似度,相關(guān)偏移量為非負數(shù),取值范圍[0,1]。
優(yōu)選的,相關(guān)偏移量未知流量中的元素以概率p由關(guān)鍵標(biāo)識所對應(yīng)的應(yīng)用層關(guān)鍵標(biāo)識產(chǎn)生,該元素與未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識最大值正相關(guān),與未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識矢量數(shù)據(jù)對的加權(quán)均值正相關(guān),與未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識最小值負相關(guān)。
本發(fā)明的有益效果:
1、本發(fā)明通過計算已知訓(xùn)練集合中數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識,提取網(wǎng)絡(luò)數(shù)據(jù)流量并進行關(guān)鍵標(biāo)識分析,分別計算網(wǎng)絡(luò)中目標(biāo)加密流量業(yè)務(wù)與非目標(biāo)加密流量業(yè)務(wù)的關(guān)鍵標(biāo)識,針對待測量未知數(shù)據(jù)流,利用梯度導(dǎo)向關(guān)鍵標(biāo)識計算方法,計算未知流梯度導(dǎo)向關(guān)鍵標(biāo)識,再分別計算未知流關(guān)鍵標(biāo)識與目標(biāo)以及非目標(biāo)加密流量業(yè)務(wù)關(guān)鍵標(biāo)識相關(guān)偏移量,判斷未知流關(guān)鍵標(biāo)識與目標(biāo)加密流量業(yè)務(wù)關(guān)鍵標(biāo)識相關(guān)偏移量是否大于未知流關(guān)鍵標(biāo)識與非目標(biāo)加密流量業(yè)務(wù)關(guān)鍵標(biāo)識相關(guān)偏移量,若是,則判定該未知流為目標(biāo)加密流量業(yè)務(wù),若否,則判定該未知流是非目標(biāo)加密流量業(yè)務(wù);識別率高,更加準確。
2、本發(fā)明應(yīng)用于各級數(shù)據(jù)傳輸網(wǎng)絡(luò)各級節(jié)點中,提取未知流并計算梯度導(dǎo)向關(guān)鍵標(biāo)識與已知目標(biāo)流量做相關(guān)偏移量比較,判定流類型;通過比較未知數(shù)據(jù)流與已訓(xùn)練數(shù)據(jù)流關(guān)鍵標(biāo)識的相關(guān)偏移量來判定是否為目標(biāo)加密數(shù)據(jù)流,識別率高,易用性強;對任意網(wǎng)絡(luò)加密流識別均具有適用性,支持網(wǎng)絡(luò)的演進,對于未來可能出現(xiàn)的網(wǎng)絡(luò)加密流識別也可以兼容。
附圖說明:
圖1為本發(fā)明的流程示意圖;
圖2為實施例二的實現(xiàn)流程圖;
圖3為數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識計算方法流程示意圖;
圖4為相關(guān)偏移量判別方法流程示意圖。
具體實施方式:
為了便于下文理解,在此對文中用到的名詞或縮寫進行解釋:
梯度導(dǎo)向關(guān)鍵標(biāo)識:通過提取分析前序數(shù)據(jù)包統(tǒng)計特性,包括數(shù)據(jù)包大小,到達時間間隔,不考慮加密流量本身的行為特點,利用前序樣本數(shù)據(jù)包與當(dāng)前數(shù)據(jù)包的特征統(tǒng)計數(shù)據(jù),構(gòu)建能夠精確描述數(shù)據(jù)流的一種數(shù)學(xué)標(biāo)識;它不考慮數(shù)據(jù)流本身的內(nèi)容特性,僅利用數(shù)據(jù)流表征表示,具有更強的通用性。
相關(guān)偏移量:利用數(shù)據(jù)流關(guān)鍵標(biāo)識,用于表示兩種不同數(shù)據(jù)流表征近似度;它可用于判定通用性數(shù)據(jù)流之間一致程度,可判斷兩數(shù)據(jù)流是否相同或近似。
下面結(jié)合附圖和技術(shù)方案對本發(fā)明作進一步詳細的說明,并通過優(yōu)選的實施例詳細說明本發(fā)明的實施方式,但本發(fā)明的實施方式并不限于此。
實施例一,參見圖1所示,一種基于流梯度導(dǎo)向的加密流量識別方法,包含如下步驟:
步驟1、根據(jù)已知數(shù)據(jù)流訓(xùn)練集合,計算數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識;
步驟2、提取網(wǎng)絡(luò)數(shù)據(jù)流,包含抓取目標(biāo)加密流量業(yè)務(wù)數(shù)據(jù)流、及非目標(biāo)加密流量業(yè)務(wù)數(shù)據(jù)流,分別計算目標(biāo)加密流量業(yè)務(wù)的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識及非目標(biāo)加密流量業(yè)務(wù)的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識;
步驟3、針對網(wǎng)絡(luò)待測未知流量,計算未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識;
步驟4、分別計算未知流量與目標(biāo)加密流量業(yè)務(wù)兩者之間的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識的相關(guān)偏移量St,及未知流量與非目標(biāo)加密流量業(yè)務(wù)之間的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識的相關(guān)偏移量Sn;
步驟5、判斷相關(guān)偏移量St是否大于Sn,若是,則判定該未知流量為目標(biāo)加密流量業(yè)務(wù),否則,則判定該未知流量為非目標(biāo)加密流量業(yè)務(wù)。
本發(fā)明通過計算已知訓(xùn)練集合中數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識,提取網(wǎng)絡(luò)數(shù)據(jù)流量并進行關(guān)鍵標(biāo)識分析,分別計算網(wǎng)絡(luò)中目標(biāo)加密流量業(yè)務(wù)與非目標(biāo)加密流量業(yè)務(wù)的關(guān)鍵標(biāo)識,針對待測量未知數(shù)據(jù)流,利用梯度導(dǎo)向關(guān)鍵標(biāo)識計算方法,計算未知流梯度導(dǎo)向關(guān)鍵標(biāo)識,再分別計算未知流關(guān)鍵標(biāo)識與目標(biāo)以及非目標(biāo)加密流量業(yè)務(wù)關(guān)鍵標(biāo)識相關(guān)偏移量,判斷未知流關(guān)鍵標(biāo)識與目標(biāo)加密流量業(yè)務(wù)關(guān)鍵標(biāo)識相關(guān)偏移量是否大于未知流關(guān)鍵標(biāo)識與非目標(biāo)加密流量業(yè)務(wù)關(guān)鍵標(biāo)識相關(guān)偏移量,若是,則判定該未知流為目標(biāo)加密流量業(yè)務(wù),若否,則判定該未知流是非目標(biāo)加密流量業(yè)務(wù);識別率高,更加準確。
實施例二,參見圖2~4所示,一種基于流梯度導(dǎo)向的加密流量識別方法,包含如下內(nèi)容:
1)根據(jù)已知數(shù)據(jù)流訓(xùn)練集合,統(tǒng)計數(shù)據(jù)流特征數(shù)據(jù),所述數(shù)據(jù)流特征數(shù)據(jù)包括前序數(shù)據(jù)包大小、當(dāng)前數(shù)據(jù)包大小、前序數(shù)據(jù)包到達間隔、及當(dāng)前數(shù)據(jù)包到達間隔;根據(jù)數(shù)據(jù)流特征數(shù)據(jù),計算數(shù)據(jù)流關(guān)鍵標(biāo)識,根據(jù)數(shù)據(jù)流特征數(shù)據(jù)的變化梯度,評估其梯度導(dǎo)向加權(quán)函數(shù)指標(biāo),對數(shù)據(jù)流特征數(shù)據(jù)進行加權(quán)處理;刻畫梯度導(dǎo)向關(guān)鍵標(biāo)識為矢量數(shù)據(jù)對,建立數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列,得到矢量概率密度函數(shù);為緩解噪聲干擾,以減少數(shù)據(jù)流特征噪聲之間的干擾,通過平滑濾波器對矢量概率密度函數(shù)進行過濾處理,得到該數(shù)據(jù)流的梯度導(dǎo)向關(guān)鍵標(biāo)識。
其中,數(shù)據(jù)流特征數(shù)據(jù)的變化梯度由數(shù)據(jù)包上一狀態(tài)與當(dāng)前狀態(tài)決定。
其中,數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列為二維矢量數(shù)據(jù)序列,其中,第一維度由前序數(shù)據(jù)包與當(dāng)前數(shù)據(jù)包大小加權(quán)決定,第二維度由前序數(shù)據(jù)包與當(dāng)前數(shù)據(jù)包抵達間隔加權(quán)決定。
梯度導(dǎo)向加權(quán)函數(shù)指標(biāo)中梯度導(dǎo)向加權(quán)值應(yīng)滿足以下條件:
①加權(quán)指標(biāo)值為大于0的實數(shù);
②隨著特征指標(biāo)的增大,其梯度導(dǎo)向更強;
③數(shù)據(jù)流特征變化越小,加權(quán)指標(biāo)更趨于穩(wěn)定;
④隨著特征指標(biāo)的增大,其梯度導(dǎo)向減弱;
梯度導(dǎo)向由前序數(shù)據(jù)包大小與當(dāng)前數(shù)據(jù)包大小和對數(shù)減去前序數(shù)據(jù)包大小對數(shù)決定,以準確反映數(shù)據(jù)流梯度。
上述的,數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列,當(dāng)前數(shù)據(jù)包與前序數(shù)據(jù)包大小之比,兩者變化正相關(guān)。
上述的,數(shù)據(jù)流表征統(tǒng)計矢量數(shù)據(jù)序列,當(dāng)前數(shù)據(jù)包到達間隔與前序數(shù)據(jù)包到達間隔之比,兩者變化正相關(guān)。
2)提取網(wǎng)絡(luò)數(shù)據(jù)流,包含抓取目標(biāo)加密流量業(yè)務(wù)數(shù)據(jù)流、及非目標(biāo)加密流量業(yè)務(wù)數(shù)據(jù)流,分別計算目標(biāo)加密流量業(yè)務(wù)的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識及非目標(biāo)加密流量業(yè)務(wù)的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識。
3)針對網(wǎng)絡(luò)待測未知流量,計算未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識。
4)分別計算未知流量與目標(biāo)加密流量業(yè)務(wù)兩者之間的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識的相關(guān)偏移量St,及未知流量與非目標(biāo)加密流量業(yè)務(wù)之間的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識的相關(guān)偏移量Sn。
其中,計算相關(guān)偏移量,還包含:對相關(guān)偏移量的取模運算。
相關(guān)偏移量用于比較數(shù)據(jù)流關(guān)鍵標(biāo)識之間的近似度,相關(guān)偏移量為非負數(shù),取值范圍[0,1];比較結(jié)果越接近于0,二者越不近似,越接近1,二者越近似。
優(yōu)選的,相關(guān)偏移量未知流量中的元素以概率p由關(guān)鍵標(biāo)識所對應(yīng)的應(yīng)用層關(guān)鍵標(biāo)識產(chǎn)生,該元素與未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識最大值正相關(guān),與未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識矢量數(shù)據(jù)對的加權(quán)均值正相關(guān),與未知流量的數(shù)據(jù)流梯度導(dǎo)向關(guān)鍵標(biāo)識最小值負相關(guān)。
5)判斷相關(guān)偏移量St是否大于Sn,若是,則判定該未知流量為目標(biāo)加密流量業(yè)務(wù),否則,則判定該未知流量為非目標(biāo)加密流量業(yè)務(wù)。
本發(fā)明中,所有梯度導(dǎo)向效應(yīng)狀態(tài)矢量數(shù)列隨當(dāng)前數(shù)據(jù)包與前序數(shù)據(jù)包大小之比正相關(guān),前序數(shù)據(jù)包越大,關(guān)鍵標(biāo)識矢量數(shù)對趨小,反之趨大;所有梯度導(dǎo)向效應(yīng)狀態(tài)矢量數(shù)列隨當(dāng)前數(shù)據(jù)包到達間隔與前序數(shù)據(jù)包到達間隔之比正相關(guān),到達時間間隔越大,關(guān)鍵標(biāo)識矢量數(shù)列趨小,反之趨大;構(gòu)成梯度導(dǎo)向效應(yīng)狀態(tài)矢量數(shù)列數(shù)據(jù)包大小部分采用以2為底的對數(shù)計算;構(gòu)成梯度導(dǎo)向效應(yīng)狀態(tài)矢量數(shù)列數(shù)據(jù)包到達時間間隔部分采用以10為底的對數(shù)計算。處理盡可能少的前序數(shù)據(jù)包對方法的簡易性有益,隨著前序數(shù)據(jù)包數(shù)量選取增加,梯度導(dǎo)向關(guān)鍵標(biāo)識計算越精確。綜合平滑濾波器效能與濾除噪聲效果,隨著模糊窗口增大,其濾波召回率仍呈現(xiàn)增大梯度,但增長速率已滿足濾波需求。
本發(fā)明應(yīng)用于各級數(shù)據(jù)傳輸網(wǎng)絡(luò)各級節(jié)點中,提取未知流并計算梯度導(dǎo)向關(guān)鍵標(biāo)識與已知目標(biāo)流量做相關(guān)偏移量比較,判定流類型;通過比較未知數(shù)據(jù)流與已訓(xùn)練數(shù)據(jù)流關(guān)鍵標(biāo)識的相關(guān)偏移量來判定是否為目標(biāo)加密數(shù)據(jù)流,識別率高,易用性強;對任意網(wǎng)絡(luò)加密流識別均具有適用性,支持網(wǎng)絡(luò)的演進,對于未來可能出現(xiàn)的網(wǎng)絡(luò)加密流識別也可以兼容。
本發(fā)明不局限于上述具體實施方式,本領(lǐng)域技術(shù)人員還可據(jù)此做出多種變化,但任何與本發(fā)明等同或者類似的變化都應(yīng)涵蓋在本發(fā)明權(quán)利要求的范圍內(nèi)。