本發(fā)明主要涉及到網(wǎng)絡(luò)安全
技術(shù)領(lǐng)域:
,特指一種基于多維度行為特征的惡意代碼分類方法。
背景技術(shù):
:隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)迅速發(fā)展,惡意代碼的數(shù)量呈現(xiàn)爆發(fā)式地增長(zhǎng),惡意代碼的形態(tài)也愈發(fā)模塊化和多樣化,而惡意代碼威脅的對(duì)象,已經(jīng)從影響個(gè)人的電腦,發(fā)展到破壞國家的重要基礎(chǔ)設(shè)施和社會(huì)的重要資產(chǎn)。惡意代碼的防范,已經(jīng)成為應(yīng)對(duì)網(wǎng)絡(luò)空間安全威脅的重點(diǎn)。惡意代碼分析是檢測(cè)和防范惡意代碼的重要基礎(chǔ)。基于特征碼和簽名的惡意代碼分析技術(shù),在傳統(tǒng)基于終端(主機(jī))的惡意代碼檢測(cè)機(jī)制中發(fā)揮了重要的重要。然而,基于特征碼和簽名的惡意代碼分析技術(shù),既需要面對(duì)惡意代碼數(shù)量增長(zhǎng)帶來的挑戰(zhàn),也需要面對(duì)需要大量人工參與分析的問題。因此,為了滿足惡意代碼自動(dòng)分析的需求,以及應(yīng)對(duì)惡意代碼數(shù)量增長(zhǎng)的挑戰(zhàn),惡意代碼的分析檢測(cè)正朝著基于云端的智能分析檢測(cè)方向發(fā)展,機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析技術(shù)的發(fā)展,促使惡意代碼的分析檢測(cè)朝著自動(dòng)化分析檢測(cè)和深度分析檢測(cè)方面發(fā)展。基于云端的智能分析檢測(cè)技術(shù)包括基于靜態(tài)的分析檢測(cè)和基于動(dòng)態(tài)行為的分析檢測(cè)。靜態(tài)分析通過程序的指令和結(jié)構(gòu)來確定惡意代碼的功能,其在不執(zhí)行惡意代碼的情況下,提取能夠表達(dá)惡意代碼樣本的特征向量。然而,靜態(tài)分析技術(shù)難以應(yīng)對(duì)惡意代碼采用的變種手段,如變形、多態(tài)、加殼等技術(shù)手段,從而使得靜態(tài)分析技術(shù)在面對(duì)海量真實(shí)惡意代碼樣本時(shí),往往變得失效。動(dòng)態(tài)分析技術(shù)通過收集惡意代碼運(yùn)行時(shí)的動(dòng)態(tài)行為信息,如系統(tǒng)調(diào)用、網(wǎng)絡(luò)訪問、文件和內(nèi)存修改等,基于動(dòng)態(tài)行為信息進(jìn)行惡意代碼的分析檢測(cè)。動(dòng)態(tài)分析技術(shù)通過捕獲惡意代碼的真實(shí)行為信息進(jìn)行行為分析判斷來識(shí)別、檢測(cè)惡意代碼?;跈C(jī)器學(xué)習(xí)方法對(duì)惡意代碼的動(dòng)態(tài)行為信息進(jìn)行分類學(xué)習(xí),是當(dāng)前的研究熱點(diǎn)。惡意代碼的動(dòng)態(tài)分析提供了多維度的行為特征信息,提取多維度的行為特征,構(gòu)建惡意代碼的行為特征向量,設(shè)計(jì)行為深度分析的自動(dòng)分析處理框架,是基于機(jī)器學(xué)習(xí)進(jìn)行惡意代碼動(dòng)態(tài)行為分析研究的主要思路。然而,基于單一特征進(jìn)行分類往往具有片面性,容易造成分類準(zhǔn)確率的下降,而且惡意代碼的特征向量存在特征維度多、單個(gè)特征維度高的特點(diǎn),復(fù)雜的特征向量必然造成分類效率的下降。因此,如何設(shè)計(jì)基于多維度行為特征的惡意代碼分類技術(shù),提高惡意代碼行為分析的準(zhǔn)確率是目前的主要研究熱點(diǎn)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的技術(shù)問題就在于:針對(duì)現(xiàn)有技術(shù)存在的技術(shù)問題,本發(fā)明提供一種原理簡(jiǎn)單、易實(shí)現(xiàn)、效果好的基于多維度行為特征的惡意代碼分類方法。為解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案:一種基于多維度行為特征的惡意代碼分類方法,其步驟為:S1:獲得惡意代碼的行為數(shù)據(jù);S2:系統(tǒng)函數(shù)調(diào)用時(shí)間差信息提?。话凑招袨閿?shù)據(jù)中函數(shù)調(diào)用的順序,計(jì)算相鄰兩個(gè)系統(tǒng)函數(shù)調(diào)用的時(shí)間差,構(gòu)建系統(tǒng)函數(shù)調(diào)用的時(shí)間差信息表;S3:系統(tǒng)函數(shù)調(diào)用頻度信息提取;從行為數(shù)據(jù)中提取系統(tǒng)函數(shù)調(diào)用的名稱,統(tǒng)計(jì)每個(gè)系統(tǒng)函數(shù)調(diào)用的頻度,建立系統(tǒng)函數(shù)調(diào)用的頻度信息表;S4:行為分類頻度信息提??;S5:將時(shí)間差信息表、系統(tǒng)函數(shù)調(diào)用的頻度信息表、行為類別的頻度信息表分別進(jìn)行加權(quán)計(jì)算和歸一化處理,并進(jìn)一步處理時(shí)間差信息表特征,處理后合并成一個(gè)新的特征空間;S6:對(duì)所有家族樣本的行為特征,采用機(jī)器學(xué)習(xí)的典型分類方法,進(jìn)行交叉驗(yàn)證。作為本發(fā)明的進(jìn)一步改進(jìn):所述步驟S1中的行為數(shù)據(jù)包括:函數(shù)調(diào)用名稱、函數(shù)調(diào)用時(shí)間、輸入?yún)?shù)、輸出參數(shù)、函數(shù)執(zhí)行結(jié)果、以及函數(shù)執(zhí)行需要的上下文信息。作為本發(fā)明的進(jìn)一步改進(jìn):在上述步驟S5之后,輸出為單個(gè)惡意代碼的特征向量,同時(shí)這些向量自動(dòng)歸類,再以此作為構(gòu)成樣本家族的特征向量,用于訓(xùn)練以后的分類器。作為本發(fā)明的進(jìn)一步改進(jìn):所述訓(xùn)練的過程為:首先將樣本集合隨機(jī)分為測(cè)試集和訓(xùn)練集,并分別進(jìn)行多維特征提取與處理;然后對(duì)訓(xùn)練集中特征進(jìn)行標(biāo)記,得到特征庫并訓(xùn)練分類器;之后利用訓(xùn)練好的分類器對(duì)測(cè)試集進(jìn)行分類,得到最后的分類結(jié)果。作為本發(fā)明的進(jìn)一步改進(jìn):所述步驟S4的具體流程為:S4.1:定義惡意代碼的行為類別;S4.2:根據(jù)行為分類模型,對(duì)系統(tǒng)函數(shù)調(diào)用頻度按照分類進(jìn)行頻率計(jì)算,建立惡意代碼的行為類別頻度信息表。作為本發(fā)明的進(jìn)一步改進(jìn):所述行為類別包括:文件行為類、注冊(cè)表行為類、網(wǎng)絡(luò)行為類、進(jìn)程行為類、服務(wù)行為類、時(shí)間行為類、驅(qū)動(dòng)行為類、GUI行為類、系統(tǒng)行為類;所述行為類別構(gòu)成了惡意代碼的行為分類模型。作為本發(fā)明的進(jìn)一步改進(jìn):所述步驟S5的具體流程為:S5.1:采用基于TF-IDF方法對(duì)惡意代碼的行為特征進(jìn)行加權(quán)計(jì)算,計(jì)算方法如下:設(shè)定t=(x1,x2,…xm)是惡意代碼樣本d中的維度為m的特征,N是訓(xùn)練集中所有樣本的總數(shù),n表示訓(xùn)練集中所有出現(xiàn)特征t的樣本數(shù),e表示惡意代碼家族數(shù)目;TF-IDF方法計(jì)算特征t權(quán)重的具體實(shí)施過程如下:S5.1.1:計(jì)算特征t對(duì)于每個(gè)特征家族ci的后驗(yàn)概率P(ci|t);P(ci|t)是家族ci中出現(xiàn)特征t的次數(shù)與整個(gè)待訓(xùn)練集中出現(xiàn)特征t的次數(shù)之比,t在每一個(gè)家族中的后驗(yàn)概率構(gòu)成了在整個(gè)類別之間的分布;S5.1.2:定義特征t的區(qū)分能力;為了表示特征t的家族區(qū)分能力,基于特征t對(duì)于每個(gè)家族的后驗(yàn)概率P(ci|t)定義特征t的區(qū)分能力為:每個(gè)特征t基于TD-IDF加權(quán)后的權(quán)值為:S5.1.3:利用權(quán)重w(t,d)對(duì)特征t進(jìn)行加權(quán);則加權(quán)公式如下所示:tw=t×w(t,d)即:S5.2:對(duì)每個(gè)維度的特征值進(jìn)行歸一化處理;設(shè)定為的最大值,則歸一化公式如下所示:即:S5.3:進(jìn)一步處理時(shí)間差信息表特征,得到具有分類能力的特征;S5.3.1:計(jì)算時(shí)間差信息表中維度為m的特征的特征值之和fm;S5.3.2:計(jì)算時(shí)間差信息表中惡意代碼家族ci對(duì)應(yīng)m維度特征的特征值之和S5.3.3:計(jì)算各個(gè)家族維度m的特征所占比例S5.3.4:選出維度m相同時(shí)的最大值,設(shè)為ratiom;S5.3.5:設(shè)定閾值th1,當(dāng)ratiom>th1時(shí),保留維度為m的特征;S5.3.6:設(shè)定閾值th2,當(dāng)fm>th2時(shí),保留維度為m的特征。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:本發(fā)明的基于多維度行為特征的惡意代碼分類方,原理簡(jiǎn)單、易實(shí)現(xiàn),其通過研究惡意代碼的動(dòng)態(tài)行為特征,將不同的角度的多維度行為特征進(jìn)行分析處理,并利用機(jī)器學(xué)習(xí)進(jìn)行準(zhǔn)確分類,克服了在實(shí)際中存在的特征維度多,需要進(jìn)行特征融合從而造成分類結(jié)果較差的情況,解決了傳統(tǒng)惡意代碼自動(dòng)分析技術(shù)的不足,具備很好的應(yīng)用前景,可以應(yīng)用于惡意代碼分析檢測(cè)體系的后端分析檢測(cè)系統(tǒng)中。附圖說明圖1是本發(fā)明方法的流程示意圖。圖2是本發(fā)明在具體應(yīng)用實(shí)例中惡意代碼行為特征向量的提取流程示意圖。圖3是本發(fā)明在具體應(yīng)用實(shí)例中基于行為特征的分類流程示意圖。具體實(shí)施方式以下將結(jié)合說明書附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。如圖1所示,本發(fā)明的基于多維度行為特征的惡意代碼分類方法,其步驟為:S1:行為數(shù)據(jù)提取,即獲得惡意代碼的行為數(shù)據(jù)。S2:系統(tǒng)函數(shù)調(diào)用時(shí)間差信息提取。按照行為數(shù)據(jù)中函數(shù)調(diào)用的順序,計(jì)算相鄰兩個(gè)系統(tǒng)函數(shù)調(diào)用的時(shí)間差,構(gòu)建系統(tǒng)函數(shù)調(diào)用的時(shí)間差信息表。S3:系統(tǒng)函數(shù)調(diào)用頻度信息提取。從行為數(shù)據(jù)中提取系統(tǒng)函數(shù)調(diào)用的名稱,統(tǒng)計(jì)每個(gè)系統(tǒng)函數(shù)調(diào)用的頻度,建立系統(tǒng)函數(shù)調(diào)用的頻度信息表。S4:行為分類頻度信息提取。S5:將時(shí)間差信息表、系統(tǒng)函數(shù)調(diào)用的頻度信息表、行為類別的頻度信息表分別進(jìn)行加權(quán)計(jì)算和歸一化處理,并進(jìn)一步處理時(shí)間差信息表特征,處理后合并成一個(gè)新的特征空間。S6:對(duì)所有家族樣本的行為特征,采用機(jī)器學(xué)習(xí)的典型分類方法,進(jìn)行交叉驗(yàn)證。在具體應(yīng)用實(shí)例中,步驟S1中可以通過沙箱等方式,獲得惡意代碼的行為數(shù)據(jù)。行為數(shù)據(jù)的基本內(nèi)容包括:函數(shù)調(diào)用名稱、函數(shù)調(diào)用時(shí)間、輸入?yún)?shù)、輸出參數(shù)、函數(shù)執(zhí)行結(jié)果、以及函數(shù)執(zhí)行需要的上下文信息。作為較佳的應(yīng)用實(shí)例,本實(shí)例中步驟S4的具體流程為:S4.1:定義惡意代碼的行為類別,行為類別包括:文件行為類、注冊(cè)表行為類、網(wǎng)絡(luò)行為類、進(jìn)程行為類、服務(wù)行為類、時(shí)間行為類、驅(qū)動(dòng)行為類、GUI行為類、系統(tǒng)行為類、其他行為類等。行為類別構(gòu)成了惡意代碼的行為分類模型。S4.2:根據(jù)行為分類模型,對(duì)系統(tǒng)函數(shù)調(diào)用頻度按照分類進(jìn)行頻率計(jì)算,建立惡意代碼的行為類別頻度信息表。作為較佳的應(yīng)用實(shí)例,本實(shí)例中步驟S5的具體流程為:S5.1:采用基于TF-IDF方法對(duì)惡意代碼的行為特征進(jìn)行加權(quán)計(jì)算,計(jì)算方法如下:設(shè)定t=(x1,x2,…xm)是惡意代碼樣本d中的維度為m的特征,N是訓(xùn)練集中所有樣本的總數(shù),n表示訓(xùn)練集中所有出現(xiàn)特征t的樣本數(shù),e表示惡意代碼家族數(shù)目。TF-IDF方法計(jì)算特征t權(quán)重的具體實(shí)施過程如下:S5.1.1:計(jì)算特征t對(duì)于每個(gè)特征家族ci的后驗(yàn)概率P(ci|t)。P(ci|t)是家族ci中出現(xiàn)特征t的次數(shù)與整個(gè)待訓(xùn)練集中出現(xiàn)特征t的次數(shù)之比,t在每一個(gè)家族中的后驗(yàn)概率構(gòu)成了在整個(gè)類別之間的分布。S5.1.2:定義特征t的區(qū)分能力。為了表示特征t的家族區(qū)分能力,基于特征t對(duì)于每個(gè)家族的后驗(yàn)概率P(ci|t)定義特征t的區(qū)分能力為:每個(gè)特征t基于TD-IDF加權(quán)后的權(quán)值為:S5.1.3:利用權(quán)重w(t,d)對(duì)特征t進(jìn)行加權(quán)。則加權(quán)公式如下所示:tw=t×w(t,d)即:S5.2:對(duì)每個(gè)維度的特征值進(jìn)行歸一化處理。設(shè)定為的最大值,則歸一化公式如下所示:即:S5.3:進(jìn)一步處理時(shí)間差信息表特征,得到具有較好分類能力的特征。S5.3.1:計(jì)算時(shí)間差信息表中維度為m的特征的特征值之和fm。S5.3.2:計(jì)算時(shí)間差信息表中惡意代碼家族ci對(duì)應(yīng)m維度特征的特征值之和S5.3.3:計(jì)算各個(gè)家族維度m的特征所占比例S5.3.4:選出維度m相同時(shí)的最大值,設(shè)為ratiom。S5.3.5:設(shè)定閾值th1,當(dāng)ratiom>th1時(shí),保留維度為m的特征。S5.3.6:設(shè)定閾值th2,當(dāng)fm>th2時(shí),保留維度為m的特征。以下將結(jié)合一個(gè)具體應(yīng)用實(shí)例,來對(duì)本發(fā)明的實(shí)際應(yīng)用進(jìn)行說明。本實(shí)例中的數(shù)據(jù)集來自4個(gè)家族共計(jì)599個(gè)惡意代碼樣本。參見圖2所示,為惡意代碼多維特征向量的提取流程圖。在提取惡意代碼樣本庫文件的行為數(shù)據(jù)后,從時(shí)間、頻度和行為分析方面對(duì)惡意代碼樣本的行為特征。對(duì)提取出的特征分別分析處理:(1)計(jì)算相鄰兩個(gè)系統(tǒng)函數(shù)調(diào)用的時(shí)間差,建立時(shí)間差信息表;(2)統(tǒng)計(jì)每個(gè)系統(tǒng)函數(shù)調(diào)用的頻度,建立系統(tǒng)函數(shù)調(diào)用的頻度信息表;(3)建立惡意代碼的行為分類模型,而后對(duì)劃分后的行為分類進(jìn)行頻率計(jì)算,建立行為類別的頻度信息表。將時(shí)間差信息表、系統(tǒng)函數(shù)調(diào)用的頻度信息表、行為類別的頻度信息表分別進(jìn)行加權(quán)計(jì)算和歸一化處理,處理后合并成一個(gè)新的特征空間。該提取過程輸出為單個(gè)惡意代碼的特征向量,同時(shí)這些向量自動(dòng)歸類,再以此作為構(gòu)成樣本家族的特征向量,用于訓(xùn)練以后的分類器。參見圖3所示,為基于行為特征的惡意代碼分類流程。首先將樣本集合隨機(jī)分為測(cè)試集和訓(xùn)練集,并分別進(jìn)行多維特征提取與處理,然后對(duì)訓(xùn)練集中特征進(jìn)行標(biāo)記,得到特征庫并訓(xùn)練分類器,之后利用訓(xùn)練好的分類器對(duì)測(cè)試集進(jìn)行分類,得到最后的分類結(jié)果。本發(fā)明數(shù)據(jù)集帶有標(biāo)簽,采用有監(jiān)督學(xué)習(xí)的方法訓(xùn)練分類器,用KNN分類算法對(duì)惡意代碼樣本特征進(jìn)行分類。具體實(shí)施過程如下:第一步:行為數(shù)據(jù)提取。本實(shí)例中采用Pin插樁的方式獲得每個(gè)惡意代碼動(dòng)態(tài)執(zhí)行的行為記錄,行為記錄的基本內(nèi)容包括:函數(shù)調(diào)用名稱、函數(shù)調(diào)用時(shí)間、輸入?yún)?shù)、輸出參數(shù)、函數(shù)執(zhí)行結(jié)果、以及函數(shù)執(zhí)行需要的上下文信息。單個(gè)行為數(shù)據(jù)的表示如下:第二步:系統(tǒng)函數(shù)調(diào)用時(shí)間差信息提取。按照行為數(shù)據(jù)中函數(shù)調(diào)用的順序,計(jì)算相鄰兩個(gè)系統(tǒng)函數(shù)調(diào)用的時(shí)間差,構(gòu)建系統(tǒng)函數(shù)調(diào)用的時(shí)間差信息表。選用0800毫秒作為單位來計(jì)算相鄰函數(shù)調(diào)用動(dòng)作發(fā)生時(shí)間差。根據(jù)時(shí)間差的數(shù)值,構(gòu)造一個(gè)時(shí)間差頻次字典。表1是單個(gè)樣本時(shí)間差信息表所形成的部分展示,利用詞典的索引號(hào)將不同的時(shí)間差形成向量,其中對(duì)應(yīng)次數(shù)表示該時(shí)間差在樣本中的出現(xiàn)次數(shù)。表1時(shí)間差信息表時(shí)間差頻次212421312101280668166726641130659-81611342-3821-751240第三步:函數(shù)調(diào)用頻度信息提取。從行為數(shù)據(jù)中提取系統(tǒng)函數(shù)調(diào)用的名稱,統(tǒng)計(jì)每個(gè)系統(tǒng)函數(shù)調(diào)用的頻度,建立系統(tǒng)函數(shù)調(diào)用的頻度信息表,得到單個(gè)樣本的特征。單個(gè)樣本函數(shù)調(diào)用頻度信息表部分展示如表2所示:表2函數(shù)調(diào)用頻度信息表第四步:行為分類頻度信息提取。步驟4.1:定義惡意代碼的行為類別模型M={m1,m2,…,mS},形成惡意代碼的行為類型集,其中S表示行為類型的數(shù)量;模型M包括的類別如下:文件行為類、注冊(cè)表行為類、網(wǎng)絡(luò)行為類、進(jìn)程行為類、服務(wù)行為類、時(shí)間行為類、驅(qū)動(dòng)行為類、GUI行為類、系統(tǒng)行為類、其他行為類等。步驟4.2:根據(jù)行為分類模型M,對(duì)系統(tǒng)函數(shù)調(diào)用頻度按照分類進(jìn)行頻率計(jì)算,建立惡意代碼的行為類別頻度信息表。在分類模型M={m1,m2,…,mS}中,對(duì)于每種類型mi,其中1≤i≤S,均有相應(yīng)的行為模式。如涉及到文件行為的函數(shù)有CreateFile、DeleteFileA/W、DeleteFileW、ReadFile、CloseFile等,可抽象出“刪除自身”、“復(fù)制自身”、“釋放文件”、“篡改文件”、“修改文件屬性”、“搜索文件”等行為模式。針對(duì)每種行為類型mi,采用統(tǒng)計(jì)學(xué)方法,統(tǒng)計(jì)每個(gè)惡意代碼樣本中mi的行為模式以及相關(guān)函數(shù)的出現(xiàn)頻率,形成惡意代碼的行為類別頻度信息表。第五步:將時(shí)間差信息表、系統(tǒng)函數(shù)調(diào)用的頻度信息表、行為類別的頻度信息表分別進(jìn)行加權(quán)計(jì)算和歸一化處理,并進(jìn)一步處理時(shí)間差信息表特征,處理后合并成一個(gè)新的特征空間。步驟5.1:采用基于TF-IDF方法對(duì)惡意代碼的行為特征進(jìn)行加權(quán)計(jì)算,計(jì)算方法如下:設(shè)定t=(x1,x2,…xm)是惡意代碼樣本d中的維度為m的特征,N是訓(xùn)練集中所有樣本的總數(shù),n表示訓(xùn)練集中所有出現(xiàn)特征t的樣本數(shù)。為了使加權(quán)計(jì)算的實(shí)施過程更加具有可操作性,現(xiàn)舉例如表4所示。假設(shè)有三類惡意代碼家族A、B、C,其中a、b、c分別為不同家族的惡意代碼樣本,惡意代碼樣本特征t1=(2,4),t2=(1,3),則N=3。則a特征包含(t1,t2),b特征包含(t2),c特征包含(t2),則表4惡意代碼樣本及其特征采用TF-IDF方法計(jì)算特征t權(quán)重的具體實(shí)施過程如下:步驟5.1.1:計(jì)算特征t對(duì)于每個(gè)特征家族ci的后驗(yàn)概率P(ci|t)。P(ci|t)是家族ci中出現(xiàn)特征t的次數(shù)與整個(gè)待訓(xùn)練集中出現(xiàn)特征t的次數(shù)之比,t在每一個(gè)家族中的后驗(yàn)概率構(gòu)成了在整個(gè)類別之間的分布。則P(A|t1)=1,步驟5.1.2:定義特征t的區(qū)分能力。為了表示特征t的家族區(qū)分能力,基于特征t對(duì)于每個(gè)家族的后驗(yàn)概率P(ci|t)定義特征t的區(qū)分能力為:則對(duì)于特征t1,對(duì)于特征t2,明顯t1比t2擁有更好的類別區(qū)分能力。每個(gè)特征t基于TD-IDF加權(quán)后的權(quán)值為:其中tf(t1,b)=0,tf(t1,c)=0,tf(t2,b)=1,tf(t2,c)=1。則可以計(jì)算得到:同理可得w(t1,b)=0,w(t1,c)=0,w(t2,a)≈0.016,w(t2,b)=1,w(t2,c)=1。步驟5.1.3:利用權(quán)重w(t,d)對(duì)特征t進(jìn)行加權(quán)。根據(jù)公式tw=t×w(t,d)有:對(duì)于惡意代碼樣本a,對(duì)于惡意代碼樣本b,對(duì)于惡意代碼樣本c,步驟5.2:對(duì)每個(gè)維度的特征值進(jìn)行歸一化處理。根據(jù)公式進(jìn)行歸一化處理,有:對(duì)于惡意代碼樣本a,對(duì)于惡意代碼樣本b,對(duì)于惡意代碼樣本c,步驟5.3:進(jìn)一步處理時(shí)間差信息表特征,得到具有較好分類能力的特征。假設(shè)惡意代碼樣本a1,a2屬于家族A,b1屬于家族B,且其時(shí)間差信息表特征如下表所示:表5惡意代碼時(shí)間差信息表特征惡意代碼樣本維度1維度2維度3a1010.5a20.210.5b100.011步驟5.3.1:計(jì)算時(shí)間差信息表中維度為m的特征的特征值之和fm。則有f1=0.2,f2=2.01,f3=2步驟5.3.2:計(jì)算時(shí)間差信息表中惡意代碼家族ci對(duì)應(yīng)m維度特征的特征值之和則有fA1=0.2,fA2=2,fA3=1,fB1=0,fB2=0.01,fB3=1步驟5.3.3:計(jì)算各個(gè)家族維度m的特征所占比例則有ratioA1=1,ratioA2=0.99,ratioA3=0.5,ratioB1=0,ratioB2=0.01,ratioB3=0.5步驟5.3.4:選出維度m相同時(shí)的最大值,設(shè)為ratiom。此時(shí),ratio1=1,ratio2=0.99,ratio3=0.5步驟5.3.5:設(shè)定閾值th1,當(dāng)ratiom>th1時(shí),保留維度為m的特征。設(shè)定閾值th1=0.7,則此時(shí)只保留維度1、2的特征。步驟5.3.6:設(shè)定閾值th2,當(dāng)fm>th2時(shí),保留維度為m的特征。設(shè)定閾值th2=0.3,則此時(shí)只保留維度2的特征。第六步:對(duì)所有家族樣本的行為特征,采用機(jī)器學(xué)習(xí)的典型分類方法,進(jìn)行交叉驗(yàn)證。本實(shí)例利中,基于Python提供的公知的keras模塊進(jìn)行分類的交叉驗(yàn)證,得到分類結(jié)果。以上僅是本發(fā)明的優(yōu)選實(shí)施方式,本發(fā)明的保護(hù)范圍并不僅局限于上述實(shí)施例,凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護(hù)范圍。應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明原理前提下的若干改進(jìn)和潤(rùn)飾,應(yīng)視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁1 2 3