1.一種基于多維度行為特征的惡意代碼分類方法,其特征在于,步驟為:
S1:獲得惡意代碼的行為數(shù)據(jù);
S2:系統(tǒng)函數(shù)調(diào)用時(shí)間差信息提??;按照行為數(shù)據(jù)中函數(shù)調(diào)用的順序,計(jì)算相鄰兩個(gè)系統(tǒng)函數(shù)調(diào)用的時(shí)間差,構(gòu)建系統(tǒng)函數(shù)調(diào)用的時(shí)間差信息表;
S3:系統(tǒng)函數(shù)調(diào)用頻度信息提??;從行為數(shù)據(jù)中提取系統(tǒng)函數(shù)調(diào)用的名稱,統(tǒng)計(jì)每個(gè)系統(tǒng)函數(shù)調(diào)用的頻度,建立系統(tǒng)函數(shù)調(diào)用的頻度信息表;
S4:行為分類頻度信息提??;
S5:將時(shí)間差信息表、系統(tǒng)函數(shù)調(diào)用的頻度信息表、行為類別的頻度信息表分別進(jìn)行加權(quán)計(jì)算和歸一化處理,并進(jìn)一步處理時(shí)間差信息表特征,處理后合并成一個(gè)新的特征空間;
S6:對(duì)所有家族樣本的行為特征,采用機(jī)器學(xué)習(xí)的分類方法,進(jìn)行交叉驗(yàn)證。
2.根據(jù)權(quán)利要求1所述的基于多維度行為特征的惡意代碼分類方法,其特征在于,所述步驟S1中的行為數(shù)據(jù)包括:函數(shù)調(diào)用名稱、函數(shù)調(diào)用時(shí)間、輸入?yún)?shù)、輸出參數(shù)、函數(shù)執(zhí)行結(jié)果、以及函數(shù)執(zhí)行需要的上下文信息。
3.根據(jù)權(quán)利要求1所述的基于多維度行為特征的惡意代碼分類方法,其特征在于,在上述步驟S5之后,輸出為單個(gè)惡意代碼的特征向量,同時(shí)這些向量自動(dòng)歸類,再以此作為構(gòu)成樣本家族的特征向量,用于訓(xùn)練以后的分類器。
4.根據(jù)權(quán)利要求3所述的基于多維度行為特征的惡意代碼分類方法,其特征在于,所述訓(xùn)練的過(guò)程為:首先將樣本集合隨機(jī)分為測(cè)試集和訓(xùn)練集,并分別進(jìn)行多維特征提取與處理;然后對(duì)訓(xùn)練集中特征進(jìn)行標(biāo)記,得到特征庫(kù)并訓(xùn)練分類器;之后利用訓(xùn)練好的分類器對(duì)測(cè)試集進(jìn)行分類,得到最后的分類結(jié)果。
5.根據(jù)權(quán)利要求1或2或3或4所述的基于多維度行為特征的惡意代碼分類方法,其特征在于,所述步驟S4的具體流程為:
S4.1:定義惡意代碼的行為類別;
S4.2:根據(jù)行為分類模型,對(duì)系統(tǒng)函數(shù)調(diào)用頻度按照分類進(jìn)行頻率計(jì)算,建立惡意代碼的行為類別頻度信息表。
6.根據(jù)權(quán)利要求5所述的基于多維度行為特征的惡意代碼分類方法,其特征在于,所述行為類別包括:文件行為類、注冊(cè)表行為類、網(wǎng)絡(luò)行為類、進(jìn)程行為類、服務(wù)行為類、時(shí)間行為類、驅(qū)動(dòng)行為類、GUI行為類、系統(tǒng)行為類;所述行為類別構(gòu)成了惡意代碼的行為分類模型。
7.根據(jù)權(quán)利要求1或2或3或4所述的基于多維度行為特征的惡意代碼分類方法,其特征在于,所述步驟S5的具體流程為:
S5.1:采用基于TF-IDF方法對(duì)惡意代碼的行為特征進(jìn)行加權(quán)計(jì)算,計(jì)算方法如下:
設(shè)定t=(x1,x2,…xm)是惡意代碼樣本d中的維度為m的特征,N是訓(xùn)練集中所有樣本的總數(shù),n表示訓(xùn)練集中所有出現(xiàn)特征t的樣本數(shù),e表示惡意代碼家族數(shù)目;TF-IDF方法計(jì)算特征t權(quán)重的具體實(shí)施過(guò)程如下:
S5.1.1:計(jì)算特征t對(duì)于每個(gè)特征家族ci的后驗(yàn)概率P(ci|t);P(ci|t)是家族ci中出現(xiàn)特征t的次數(shù)與整個(gè)待訓(xùn)練集中出現(xiàn)特征t的次數(shù)之比,t在每一個(gè)家族中的后驗(yàn)概率構(gòu)成了在整個(gè)類別之間的分布;
S5.1.2:定義特征t的區(qū)分能力;為了表示特征t的家族區(qū)分能力,基于特征t對(duì)于每個(gè)家族的后驗(yàn)概率P(ci|t)定義特征t的區(qū)分能力為:
每個(gè)特征t基于TD-IDF加權(quán)后的權(quán)值為:
S5.1.3:利用權(quán)重w(t,d)對(duì)特征t進(jìn)行加權(quán);則加權(quán)公式如下所示:
tw=t×w(t,d)
即:
S5.2:對(duì)每個(gè)維度的特征值進(jìn)行歸一化處理;設(shè)定的最大值,則歸一化公式如下所示:
即:
S5.3:進(jìn)一步處理時(shí)間差信息表特征,得到具有分類能力的特征;
S5.3.1:計(jì)算時(shí)間差信息表中維度為m的特征的特征值之和fm;
S5.3.2:計(jì)算時(shí)間差信息表中惡意代碼家族ci對(duì)應(yīng)m維度特征的特征值之和
S5.3.3:計(jì)算各個(gè)家族維度m的特征所占比例
S5.3.4:選出維度m相同時(shí)的最大值,設(shè)為ratiom;
S5.3.5:設(shè)定閾值th1,當(dāng)ratiom>th1時(shí),保留維度為m的特征;
S5.3.6:設(shè)定閾值th2,當(dāng)fm>th2時(shí),保留維度為m的特征。