一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法,包括:對惡意代碼樣本進行反匯編得到匯編代碼;基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為圖像樣本數(shù)據(jù);將所述圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò),得到惡意代碼樣本分類結(jié)果。本發(fā)明還公開了一種基于深度學(xué)習(xí)的惡意代碼樣本分類系統(tǒng)。本發(fā)明所述技術(shù)方案能夠準(zhǔn)確識別惡意代碼樣本所屬類別,并提高了惡意代碼樣本分類的準(zhǔn)確性。
【專利說明】
-種基于深度學(xué)習(xí)的惡意代碼樣本分類方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息安全技術(shù)領(lǐng)域,尤其設(shè)及一種基于深度學(xué)習(xí)的惡意代碼樣本分類 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 惡意代碼(Unwanted Code)是指沒有作用卻會帶來危險的代碼,又稱惡意軟件。Ed Skoudis將惡意軟件定義為運行在計算機上,使系統(tǒng)按照攻擊者的意愿執(zhí)行任務(wù)的一組指 令;微軟用惡意軟件來指代故意在計算機系統(tǒng)中執(zhí)行惡意任務(wù)的蠕蟲、病毒和特洛伊木馬。 惡意代碼分類問題是惡意代碼研究領(lǐng)域的重要內(nèi)容,國內(nèi)外研究學(xué)者對此進行了深入研 究,現(xiàn)有的自動分析惡意代碼技術(shù)主要包括靜態(tài)分析和動態(tài)分析兩類:(1)靜態(tài)分析技術(shù)是 通過文件結(jié)構(gòu)解析、反匯編、反編譯等技術(shù)對惡意代碼進行分析。該方法的技術(shù)難度高,且 難W應(yīng)對采用了加殼、多態(tài)和變形技術(shù)的惡意代碼;(2)動態(tài)分析技術(shù)通過在一個可控環(huán)境 中運行惡意代碼,利用API化oking等技術(shù)對惡意代碼運行過程中的行為進行監(jiān)測,分析惡 意代碼與操作系統(tǒng)之間的行為特征從而實現(xiàn)分類。該技術(shù)雖能克服靜態(tài)分析技術(shù)的部分局 限,但是只能針對可執(zhí)行的惡意代碼,且部分惡意代碼采用了反虛擬機技術(shù),降低了分析的 準(zhǔn)確性。
[0003] 深度學(xué)習(xí)是近十年來人工智能領(lǐng)域取得的最重要的突破之一,在語音識別、自然 語言處理、計算機視覺、圖像與視頻分析、多媒體等諸多領(lǐng)域都取得了巨大成功。在圖像分 類上,深度學(xué)習(xí)主要應(yīng)用于人臉識別和物體檢測,2014年IEEE國際計算機視覺與模式識別 會議(CVPR)上,De邱ID和De巧化ce都將深度學(xué)習(xí)應(yīng)用于人臉識別,在LFW Face化化base數(shù) 據(jù)集上取得了97.45%和97.35%的人臉識別率,且0669102+通過對06日9102加大網(wǎng)絡(luò)結(jié)構(gòu), 增加訓(xùn)練數(shù)據(jù),將識別率提升到99.47%;同年,在Large Scale Visual Recognition Challenge中,物體檢測方面引入深度卷積網(wǎng)絡(luò)和支持向量機將平均物體檢測率 (meanAveraged Precision,mAP)從22.581%提升到43.933%。由此可見,深度學(xué)習(xí)在圖像分 類上展現(xiàn)出了極好的分類性能和廣闊的應(yīng)用前景。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所述的技術(shù)方案通過將惡意代碼樣本轉(zhuǎn)化為圖像形式的樣本數(shù)據(jù),并將圖 像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)最終得到惡意代碼樣本分類結(jié)果。本發(fā)明所述的 技術(shù)方案能夠克服傳統(tǒng)分類方法效率低并且準(zhǔn)確性不高的問題。
[0005] 本發(fā)明采用如下方法來實現(xiàn):一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法,包括: 對惡意代碼樣本進行反匯編得到匯編代碼; 基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為圖像樣本數(shù)據(jù); 將所述圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò),得到惡意代碼樣本分類結(jié) 果。
[0006] 進一步地,所述基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為圖 像樣本數(shù)據(jù)為: 各字節(jié)十六進制碼的取值范圍為00至FF,對應(yīng)的圖像灰度值范圍為0至255階; 將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù)。
[0007]更進一步地,所述將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù) 后,還包括: 根據(jù)惡意代碼樣本文件大小確定所述圖像樣本數(shù)據(jù)的統(tǒng)一寬度值; W高度值最大的圖像樣本數(shù)據(jù)為基準(zhǔn),填充0補齊其他圖像樣本數(shù)據(jù)達到同一高度值。 [000引上述方法中,所述卷積神經(jīng)網(wǎng)絡(luò)共五層,包括: 輸入層,用于接收輸入的圖像樣本數(shù)據(jù); 卷積層C1,用于采用6個7*7的卷積核與所述圖像樣本數(shù)據(jù)的對應(yīng)元素相乘、求和并加 上偏置項后得到卷積層C1的特征圖; 卷積層S1,用于采用6個4*4的子矩陣對卷積層C1的特征圖進行子采樣,得到卷積層S1 的特征圖; 全連接層C2,用于采用16個7*7的卷積核與卷積層S1的特征圖做卷積運算后,求和并加 上偏置項后得到全連接層C2的特征圖; 輸出層,由8個歐式徑向基函數(shù)單元組成,用于基于全連接層C2的特征圖輸出所述圖像 樣本數(shù)據(jù)所屬的惡意代碼樣本分類。
[0009] 其中,在預(yù)先訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)時,選取已知分類的惡意代碼樣本作為輸入, 計算所述卷積神經(jīng)網(wǎng)絡(luò)輸出的惡意代碼樣本分類結(jié)果與實際已知分類之間的誤差,通過后 向傳播算法調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)各層的權(quán)值和偏置項直至所述卷積神經(jīng)網(wǎng)絡(luò)穩(wěn)定。
[0010] 本發(fā)明可W采用如下系統(tǒng)來實現(xiàn):一種基于深度學(xué)習(xí)的惡意代碼樣本分類系統(tǒng), 包括: 反匯編模塊,用于對惡意代碼樣本進行反匯編得到匯編代碼; 圖像樣本數(shù)據(jù)生成模塊,用于基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼 轉(zhuǎn)化為圖像樣本數(shù)據(jù); 惡意代碼樣本分類模塊,用于將所述圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng) 絡(luò),得到惡意代碼樣本分類結(jié)果。
[0011] 進一步地,所述圖像樣本數(shù)據(jù)生成模塊,具體用于: 各字節(jié)十六進制碼的取值范圍為00至FF,對應(yīng)的圖像灰度值范圍為0至255階; 將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù)。
[0012] 更進一步地,所述將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù) 后,還包括: 根據(jù)惡意代碼樣本文件大小確定所述圖像樣本數(shù)據(jù)的統(tǒng)一寬度值; W高度值最大的圖像樣本數(shù)據(jù)為基準(zhǔn),填充0補齊其他圖像樣本數(shù)據(jù)達到同一高度值。
[0013] 上述系統(tǒng)中,所述卷積神經(jīng)網(wǎng)絡(luò)共五層,包括: 輸入層,用于接收輸入的圖像樣本數(shù)據(jù); 卷積層C1,用于采用6個7*7的卷積核與所述圖像樣本數(shù)據(jù)的對應(yīng)元素相乘、求和并加 上偏置項后得到卷積層C1的特征圖; 卷積層S1,用于采用6個4*4的子矩陣對卷積層C1的特征圖進行子采樣,得到卷積層S1 的特征圖; 全連接層C2,用于采用16個7*7的卷積核與卷積層S1的特征圖做卷積運算后,求和并加 上偏置項后得到全連接層C2的特征圖; 輸出層,由8個歐式徑向基函數(shù)單元組成,用于基于全連接層C2的特征圖輸出所述圖像 樣本數(shù)據(jù)所屬的惡意代碼樣本分類。
[0014] 其中,在預(yù)先訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)時,選取已知分類的惡意代碼樣本作為輸入, 計算所述卷積神經(jīng)網(wǎng)絡(luò)輸出的惡意代碼樣本分類結(jié)果與實際已知分類之間的誤差,通過后 向傳播算法調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)各層的權(quán)值和偏置項直至所述卷積神經(jīng)網(wǎng)絡(luò)穩(wěn)定。
[0015] 綜上,本發(fā)明給出一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法及系統(tǒng),首先,對惡 意代碼樣本進行反匯編處理;基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化 為圖像樣本數(shù)據(jù);最后,將圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)中,得到惡意代 碼樣本的分類結(jié)果,所述分類結(jié)果包括:病毒、木馬、蠕蟲、工具類、流巧軟件、廣告件、風(fēng)險 軟件或者情色軟件等。
[0016] 有益效果為:本發(fā)明所述技術(shù)方案將圖像分類的深度學(xué)習(xí)算法用于惡意代碼樣本 的分類上,利用卷積神經(jīng)網(wǎng)絡(luò)完成惡意代碼樣本抽象特征的提取和多通道特征的呈現(xiàn),從 而可W多維度表征惡意代碼樣本的內(nèi)部特征,進而提升惡意代碼樣本分類的準(zhǔn)確性;進一 步,本發(fā)明中所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程可W利用GPU并行計算來實現(xiàn),提升了算法計算 效率,縮短了訓(xùn)練所需的時間。
【附圖說明】
[0017] 為了更清楚地說明本發(fā)明的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡 單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域 普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù)運些附圖獲得其他的附圖。
[0018] 圖1為本發(fā)明提供的一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法實施例流程圖; 圖2為本發(fā)明提供的一種基于深度學(xué)習(xí)的惡意代碼樣本分類系統(tǒng)實施例結(jié)構(gòu)圖。
【具體實施方式】
[0019] 本發(fā)明給出了一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法及系統(tǒng)實施例,為了使 本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例中的技術(shù)方案,并使本發(fā)明的上述目的、特征 和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明中技術(shù)方案作進一步詳細的說明: 本發(fā)明首先提供了一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法實施例,如圖1所示,包 括: S101對惡意代碼樣本進行反匯編得到匯編代碼;其中,所述惡意代碼樣本包括但不限 于:apk文件或者dex文件; S102基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為圖像樣本數(shù)據(jù); S103將所述圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò),得到惡意代碼樣本分類 結(jié)果。
[0020] 其中,所述惡意代碼樣本分類結(jié)果包括但不限于:病毒、木馬、蠕蟲、工具類、流巧 軟件、廣告件、風(fēng)險軟件或者情色軟件等。
[0021] 優(yōu)選地,所述基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為圖像 樣本數(shù)據(jù)為: 各字節(jié)十六進制碼的取值范圍為00至FF,對應(yīng)的圖像灰度值范圍為0至255階; 將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù)。
[0022] 更優(yōu)選地,所述將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù) 后,還包括: 根據(jù)惡意代碼樣本文件大小確定所述圖像樣本數(shù)據(jù)的統(tǒng)一寬度值; W高度值最大的圖像樣本數(shù)據(jù)為基準(zhǔn),填充0補齊其他圖像樣本數(shù)據(jù)達到同一高度值。
[0023] 其中,所述根據(jù)惡意代碼樣本文件大小確定所述圖像樣本數(shù)據(jù)的統(tǒng)一寬度值為:
' 依據(jù)惡意代碼樣本反匯編文件大小的分布情況,所述圖像樣本數(shù)據(jù)的寬度值為I 512pixel〇
[0024] 上述方法實施例中,所述卷積神經(jīng)網(wǎng)絡(luò)共五層,包括: 輸入層,用于接收輸入的圖像樣本數(shù)據(jù); 卷積層C1,用于采用6個7*7的卷積核與所述圖像樣本數(shù)據(jù)的對應(yīng)元素相乘、求和并加 上偏置項后得到卷積層C1的特征圖; 卷積層S1,用于采用6個4*4的子矩陣對卷積層C1的特征圖進行子采樣,得到卷積層S1 的特征圖; 全連接層C2,用于采用16個7*7的卷積核與卷積層S1的特征圖做卷積運算后,求和并加 上偏置項后得到全連接層C2的特征圖; 輸出層,由8個歐式徑向基函數(shù)單元組成,用于基于全連接層C2的特征圖輸出所述圖像 樣本數(shù)據(jù)所屬的惡意代碼樣本分類。
[00劇例如; 輸入層:輸入一張尺寸為N*M的圖像樣本數(shù)據(jù); 卷積層C1:采用6個7*7的卷積核,步長為1,將輸入的圖像樣本數(shù)據(jù)和卷積核的對應(yīng)元 素相乘,求和,加上偏置項b后生成C1層的特征圖的對應(yīng)元素,最終得到6個N1*M1的特征圖, 其中 Nl=[(N-7)%l]+l,Ml=[(M-7)%l]+l,%表示整除,[x]表示對x取整; 卷積層S1:采用6個4*4的子矩陣,步長為4,對C1層的6個特征圖進行子采樣,選用最大 池采樣方法,得到6個N2*M2的特征圖,其中N2=[ (N1 -4) %4 ]+1,M2=[ (Ml -4) %4 ]+1; 全連接層C2:全連接是指C2的前6個特征圖WS1中3個相鄰的特征圖子集作為輸入;接 下來6個特征圖WS1中4個相鄰特征圖子集為輸入;隨后3個W不相鄰的4個特征圖子集作為 輸入;最后一個將S1中所有特征圖為輸入。全連接過程需要用到16個7*7卷積核,步長為1。 具體操作過程為:取SI層y個特征圖,將其與各自對應(yīng)的卷積核做卷積運算后得到y(tǒng)個N3*M3 的矩陣,將y個矩陣的對應(yīng)元素相加,并為每個元素加上一個偏置項后,用sigmoid函數(shù)做非 線性映射,即得到C2層的一個特征圖。其中N3=[(肥-7)%1 ]+1,M3=[ (M2-7)%1 ]+1。
[0026] 輸出層:由歐式徑向基函數(shù)(Euclidean Radial Basis Function)單元組成,每類 一個單元(共8類),每個有16個輸入。每個輸出RBF單元計算輸入向量和參數(shù)向量之間的歐 式距罔。輸入罔參數(shù)向量越遠,RBF輸出的越大。
[0027] 其中,在預(yù)先訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)時,選取已知分類的惡意代碼樣本作為輸入, 計算所述卷積神經(jīng)網(wǎng)絡(luò)輸出的惡意代碼樣本分類結(jié)果與實際已知分類之間的誤差,通過后 向傳播算法調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)各層的權(quán)值和偏置項直至所述卷積神經(jīng)網(wǎng)絡(luò)穩(wěn)定。
[002引其中,采用GPU實現(xiàn)所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程;從而提升計算效率,縮短所需 的分類時間。
[0029] 本發(fā)明還提供了一種基于深度學(xué)習(xí)的惡意代碼樣本分類系統(tǒng)實施例,如圖2所示, 包括: 反匯編模塊201,用于對惡意代碼樣本進行反匯編得到匯編代碼; 圖像樣本數(shù)據(jù)生成模塊202,用于基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代 碼轉(zhuǎn)化為圖像樣本數(shù)據(jù); 惡意代碼樣本分類模塊203,用于將所述圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng) 網(wǎng)絡(luò),得到惡意代碼樣本分類結(jié)果。
[0030] 優(yōu)選地,所述圖像樣本數(shù)據(jù)生成模塊,具體用于: 各字節(jié)十六進制碼的取值范圍為00至FF,對應(yīng)的圖像灰度值范圍為0至255階; 將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù)。
[0031] 更優(yōu)選地,所述將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù) 后,還包括: 根據(jù)惡意代碼樣本文件大小確定所述圖像樣本數(shù)據(jù)的統(tǒng)一寬度值; W高度值最大的圖像樣本數(shù)據(jù)為基準(zhǔn),填充0補齊其他圖像樣本數(shù)據(jù)達到同一高度值。
[0032] 上述系統(tǒng)實施例中,所述卷積神經(jīng)網(wǎng)絡(luò)共五層,包括: 輸入層,用于接收輸入的圖像樣本數(shù)據(jù); 卷積層C1,用于采用6個7*7的卷積核與所述圖像樣本數(shù)據(jù)的對應(yīng)元素相乘、求和并加 上偏置項后得到卷積層C1的特征圖; 卷積層S1,用于采用6個4*4的子矩陣對卷積層C1的特征圖進行子采樣,得到卷積層S1 的特征圖; 全連接層C2,用于采用16個7*7的卷積核與卷積層S1的特征圖做卷積運算后,求和并加 上偏置項后得到全連接層C2的特征圖; 輸出層,由8個歐式徑向基函數(shù)單元組成,用于基于全連接層C2的特征圖輸出所述圖像 樣本數(shù)據(jù)所屬的惡意代碼樣本分類。
[0033] 其中,在預(yù)先訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)時,選取已知分類的惡意代碼樣本作為輸入, 計算所述卷積神經(jīng)網(wǎng)絡(luò)輸出的惡意代碼樣本分類結(jié)果與實際已知分類之間的誤差,通過后 向傳播算法調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)各層的權(quán)值和偏置項直至所述卷積神經(jīng)網(wǎng)絡(luò)穩(wěn)定。
[0034] 其中,采用GPU實現(xiàn)所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程;從而提升計算效率,縮短所需 的分類時間。
[0035] 上述實施例均采用遞進的方式描述,各個實施例之間相同或相似的部分互相參見 即可,每個實施例重點說明的都是與其他實施例的不同之處。上述方法實施例和系統(tǒng)實施 例中相關(guān)之處互相參加即可。
[0036] 如上所述,上述實施例給出了一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法及系統(tǒng) 實施例,通過對惡意代碼樣本進行反匯編得到匯編代碼;并且基于十六進制碼與圖像灰度 值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為圖像樣本數(shù)據(jù);最后,將圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練穩(wěn)定 的卷積神經(jīng)網(wǎng)絡(luò)中,得到惡意代碼樣本分類結(jié)果。
[0037] 綜上,上述實施例通過十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為 圖像形式的樣本數(shù)據(jù),進而利用卷積神經(jīng)網(wǎng)絡(luò)對圖像樣本數(shù)據(jù)進行分類;更為優(yōu)選地,所述 卷積神經(jīng)網(wǎng)絡(luò)包含五層,利用多層卷積實現(xiàn)惡意代碼樣本的特征提取,利用多核卷積實現(xiàn) 惡意代碼樣本的多通道特征的提取,從而實現(xiàn)從多維度表征惡意代碼樣本的內(nèi)部特征,從 而最終提升惡意代碼樣本分類結(jié)果的準(zhǔn)確性。
[0038] W上實施例用W說明而非限制本發(fā)明的技術(shù)方案。不脫離本發(fā)明精神和范圍的任 何修改或局部替換,均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
【主權(quán)項】
1. 一種基于深度學(xué)習(xí)的惡意代碼樣本分類方法,其特征在于,包括: 對惡意代碼樣本進行反匯編得到匯編代碼; 基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼轉(zhuǎn)化為圖像樣本數(shù)據(jù); 將所述圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò),得到惡意代碼樣本分類結(jié) 果。2. 如權(quán)利要求1所述的方法,其特征在于,所述基于十六進制碼與圖像灰度值的對應(yīng)關(guān) 系,將匯編代碼轉(zhuǎn)化為圖像樣本數(shù)據(jù)為: 各字節(jié)十六進制碼的取值范圍為〇〇至FF,對應(yīng)的圖像灰度值范圍為0至255階; 將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù)。3. 如權(quán)利要求2所述的方法,其特征在于,所述將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰 度值形成圖像樣本數(shù)據(jù)后,還包括: 根據(jù)惡意代碼樣本文件大小確定所述圖像樣本數(shù)據(jù)的統(tǒng)一寬度值; 以高度值最大的圖像樣本數(shù)據(jù)為基準(zhǔn),填充〇補齊其他圖像樣本數(shù)據(jù)達到同一高度值。4. 如權(quán)利要求1~3任一所述的方法,其特征在于,所述卷積神經(jīng)網(wǎng)絡(luò)共五層,包括: 輸入層,用于接收輸入的圖像樣本數(shù)據(jù); 卷積層C1,用于采用6個7*7的卷積核與所述圖像樣本數(shù)據(jù)的對應(yīng)元素相乘、求和并加 上偏置項后得到卷積層C1的特征圖; 卷積層S1,用于采用6個4*4的子矩陣對卷積層C1的特征圖進行子采樣,得到卷積層S1 的特征圖; 全連接層C2,用于采用16個7*7的卷積核與卷積層S1的特征圖做卷積運算后,求和并加 上偏置項后得到全連接層C2的特征圖; 輸出層,由8個歐式徑向基函數(shù)單元組成,用于基于全連接層C2的特征圖輸出所述圖像 樣本數(shù)據(jù)所屬的惡意代碼樣本分類。5. 如權(quán)利要求4所述的方法,其特征在于,在預(yù)先訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)時,選取已知 分類的惡意代碼樣本作為輸入,計算所述卷積神經(jīng)網(wǎng)絡(luò)輸出的惡意代碼樣本分類結(jié)果與實 際已知分類之間的誤差,通過后向傳播算法調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)各層的權(quán)值和偏置項直 至所述卷積神經(jīng)網(wǎng)絡(luò)穩(wěn)定。6. -種基于深度學(xué)習(xí)的惡意代碼樣本分類系統(tǒng),其特征在于,包括: 反匯編模塊,用于對惡意代碼樣本進行反匯編得到匯編代碼; 圖像樣本數(shù)據(jù)生成模塊,用于基于十六進制碼與圖像灰度值的對應(yīng)關(guān)系,將匯編代碼 轉(zhuǎn)化為圖像樣本數(shù)據(jù); 惡意代碼樣本分類模塊,用于將所述圖像樣本數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的卷積神經(jīng)網(wǎng) 絡(luò),得到惡意代碼樣本分類結(jié)果。7. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述圖像樣本數(shù)據(jù)生成模塊,具體用于: 各字節(jié)十六進制碼的取值范圍為〇〇至FF,對應(yīng)的圖像灰度值范圍為0至255階; 將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰度值形成圖像樣本數(shù)據(jù)。8. 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述將匯編代碼的各字節(jié)轉(zhuǎn)化為對應(yīng)圖片灰 度值形成圖像樣本數(shù)據(jù)后,還包括: 根據(jù)惡意代碼樣本文件大小確定所述圖像樣本數(shù)據(jù)的統(tǒng)一寬度值; 以高度值最大的圖像樣本數(shù)據(jù)為基準(zhǔn),填充0補齊其他圖像樣本數(shù)據(jù)達到同一高度值。9. 如權(quán)利要求7~8任一所述的系統(tǒng),其特征在于,所述卷積神經(jīng)網(wǎng)絡(luò)共五層,包括: 輸入層,用于接收輸入的圖像樣本數(shù)據(jù); 卷積層C1,用于采用6個7*7的卷積核與所述圖像樣本數(shù)據(jù)的對應(yīng)元素相乘、求和并加 上偏置項后得到卷積層C1的特征圖; 卷積層S1,用于采用6個4*4的子矩陣對卷積層C1的特征圖進行子采樣,得到卷積層S1 的特征圖; 全連接層C2,用于采用16個7*7的卷積核與卷積層S1的特征圖做卷積運算后,求和并加 上偏置項后得到全連接層C2的特征圖; 輸出層,由8個歐式徑向基函數(shù)單元組成,用于基于全連接層C2的特征圖輸出所述圖像 樣本數(shù)據(jù)所屬的惡意代碼樣本分類。10. 如權(quán)利要求9所述的系統(tǒng),其特征在于,在預(yù)先訓(xùn)練所述卷積神經(jīng)網(wǎng)絡(luò)時,選取已知 分類的惡意代碼樣本作為輸入,計算所述卷積神經(jīng)網(wǎng)絡(luò)輸出的惡意代碼樣本分類結(jié)果與實 際已知分類之間的誤差,通過后向傳播算法調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)各層的權(quán)值和偏置項直 至所述卷積神經(jīng)網(wǎng)絡(luò)穩(wěn)定。
【文檔編號】G06N3/02GK105989288SQ201511013606
【公開日】2016年10月5日
【申請日】2015年12月31日
【發(fā)明人】何源浩, 孫巖, 馬志遠
【申請人】武漢安天信息技術(shù)有限責(zé)任公司