欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于lzw壓縮算法的未知惡意代碼檢測(cè)方法

文檔序號(hào):4688857閱讀:281來源:國(guó)知局
專利名稱:基于lzw壓縮算法的未知惡意代碼檢測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于LZW壓縮算法的未知惡意代碼檢測(cè)方法的評(píng)估。屬于信息安 全領(lǐng)域。
背景技術(shù)
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)絡(luò)技術(shù)的快速發(fā)展與廣泛應(yīng)用,計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的安全受到 嚴(yán)重的挑戰(zhàn),來自計(jì)算機(jī)病毒和黑客攻擊及其他方面的威脅越來越大。計(jì)算機(jī)惡意代碼是 計(jì)算機(jī)安全中很難根除的威脅。 目前,存在著多種計(jì)算機(jī)惡意代碼防治技術(shù),其中未知惡意代碼的檢測(cè)技術(shù)可以 發(fā)現(xiàn)未知的惡意代碼,有效地改善查殺總是落后于新病毒產(chǎn)生這一現(xiàn)狀。未知惡意代碼檢 測(cè)已成為計(jì)算機(jī)安全領(lǐng)域的主要研究課題之一。 國(guó)內(nèi)外現(xiàn)有的未知惡意代碼檢測(cè)方法主要有基于K-近鄰的未知惡意代碼檢測(cè)、 基于支持向量機(jī)的未知惡意代碼檢測(cè)、基于貝葉斯原理的未知惡意代碼檢測(cè)、基于關(guān)聯(lián)規(guī) 則的未知惡意代碼檢測(cè)、受免疫啟發(fā)的未知惡意代碼檢測(cè)、基于決策樹的未知惡意代碼檢 測(cè)、基于行為檢測(cè)的未知惡意代碼檢測(cè)等方法。但是這些方法已經(jīng)研究了很多年,技術(shù)已經(jīng) 基本成熟,對(duì)于各種方法本身存在的缺點(diǎn)仍然無法克服。所以需要一種新的未知惡意代碼 檢測(cè)方法來完善未知惡意代碼檢測(cè)領(lǐng)域的不足。以上提到的未知惡意代碼檢測(cè)方法中最知 名的、也是理論基礎(chǔ)最好的應(yīng)是基于貝葉斯原理的未知惡意代碼檢測(cè)。雖然基于貝葉斯原 理的未知惡意代碼檢測(cè)方法能夠很好的檢測(cè)出有明顯單詞結(jié)構(gòu)的未知惡意代碼,但是對(duì)于 可執(zhí)行文件這類沒有明顯單詞結(jié)構(gòu)的未知惡意代碼檢測(cè)效果不是很理想。為了改善這方面 的不足,使檢測(cè)方法對(duì)于任意文件都能有效地檢測(cè)出來。發(fā)明人提出并實(shí)現(xiàn)了一種基于LZW 壓縮算法的未知惡意代碼檢測(cè)方法。LZW壓縮算法由Lemple-Ziv-Welch三人共同創(chuàng)造,用 他們的名字命名。它采用了一種先進(jìn)的串表壓縮,將每個(gè)第一次出現(xiàn)的串放在一個(gè)串表中, 用一個(gè)數(shù)字來表示串,壓縮文件只存貯數(shù)字,則不存貯串,從而使文件的壓縮效率得到較大 的提高。采用這種壓縮算法的未知惡意代碼檢測(cè)方法,能夠克服基于貝葉斯原理的未知惡 意代碼檢測(cè)方法對(duì)于沒有明顯單詞結(jié)構(gòu)的未知惡意代碼檢測(cè)效果不理想的缺點(diǎn)。

發(fā)明內(nèi)容
本發(fā)明的目的,就在于克服上述基于貝葉斯原理的未知惡意代碼檢測(cè)方法的不 足,提供一種能夠有效檢測(cè)出各類未知惡意代碼的方法,即基于LZW壓縮算法的未知惡意 代碼檢測(cè)方法。
本發(fā)明的特征在于依次包括以下步驟 首先進(jìn)行文件的學(xué)習(xí)將學(xué)習(xí)集中樣本文件通過定長(zhǎng)編碼模塊將樣本集中的非文 本文件轉(zhuǎn)換為有明顯單詞結(jié)構(gòu)的文本文件。將轉(zhuǎn)換后的文件經(jīng)過LZW字典生成模塊,進(jìn)行 壓縮字典的生成。并根據(jù)樣本集是正常代碼集或惡意代碼集保存為相應(yīng)的正常代碼字典或 惡意代碼字典,并將兩類字典保存到數(shù)據(jù)庫(kù)中。
3
然后進(jìn)行待測(cè)文件的分類預(yù)測(cè)將待測(cè)文件通過定長(zhǎng)編碼模塊將待測(cè)文件中的 非文本文件轉(zhuǎn)換為有明顯單詞結(jié)構(gòu)的文本文件,并將保存在數(shù)據(jù)庫(kù)中的字典集讀取到內(nèi)存 中。根據(jù)正常代碼字典與惡意代碼字典,對(duì)經(jīng)過處理的待測(cè)文件進(jìn)行壓縮處理。
最后評(píng)估結(jié)果根據(jù)壓縮率判斷文件的類別,正常文件類或惡意代碼文件類。設(shè)正 常代碼字典壓縮待測(cè)文件得到壓縮率為A,惡意代碼字典壓縮待測(cè)文件得到壓縮率為B,則 如果A > B,判斷待測(cè)文件為正常文件;如果A < B,判斷待測(cè)文件為惡意代碼文件。
壓縮率(R)=(壓縮前文件大小_壓縮后文件大小)/壓縮前文件大小X 100%
本發(fā)明的優(yōu)勢(shì)在于,基于LZW壓縮算法的未知惡意代碼檢測(cè)方法能夠有效地彌補(bǔ) 基于貝葉斯原理的未知惡意代碼檢測(cè)方法對(duì)于可執(zhí)行文件這類沒有明顯單詞結(jié)構(gòu)的未知 惡意代碼檢測(cè)效果不理想的缺點(diǎn)。 1.適應(yīng)能力強(qiáng)。由于本方法是基于字節(jié)的,可以對(duì)任何類型的文件進(jìn)行特征學(xué)習(xí) 和分析。 2.可以克服特征組合產(chǎn)生的變化結(jié)果。例如兩個(gè)正常字符串特征組合在一起時(shí) 可能就是惡意代碼的特征,其他的檢測(cè)算法不能夠識(shí)別出來,但是本方法可以檢測(cè)出來。


圖1是本發(fā)明實(shí)現(xiàn)基于LZW壓縮算法的未知惡意代碼檢測(cè)方法的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖1具體介紹本發(fā)明的實(shí)現(xiàn)方法的步驟 參見附圖l,本發(fā)明是一種基于LZW壓縮算法的未知惡意代碼檢測(cè)方案。該方案包 含兩個(gè)主要部分,即樣本文件的學(xué)習(xí)與待測(cè)文件的分類預(yù)測(cè)。首先,分析惡意代碼結(jié)構(gòu),抽 取最能代表其特性的部分。然后,對(duì)所抽取的部分利用壓縮算法,按照其類別建立符合其統(tǒng) 計(jì)特性的相應(yīng)壓縮字典(正常代碼/惡意代碼字典)。最后,通過判斷利用正常代碼/惡意 代碼字典對(duì)待測(cè)文件進(jìn)行壓縮得到的不同壓縮率,依據(jù)最小描述原則將其歸類為能取得最 好壓縮率的類別,從而達(dá)到檢測(cè)未知惡意代碼的目的。 首先進(jìn)行文件的學(xué)習(xí),將學(xué)習(xí)集中樣本文件通過定長(zhǎng)編碼模塊將樣本集中的非文 本文件轉(zhuǎn)換為有明顯單詞結(jié)構(gòu)的文本文件,如原文件部分代碼為"騵+A"這類亂碼,轉(zhuǎn)換后 結(jié)構(gòu)為"F27B1041"這類有單詞結(jié)構(gòu)的文本文件。將轉(zhuǎn)換后的文件經(jīng)過LZW字典生成模塊, 進(jìn)行壓縮字典的生成。判斷是否還有未學(xué)習(xí)的文件,如果還有則繼續(xù)進(jìn)行學(xué)習(xí),否則判斷學(xué) 習(xí)樣本是否為惡意代碼,如果是則打開惡意代碼字典數(shù)據(jù)庫(kù),如果不是,則打開正常字典數(shù) 據(jù)庫(kù)。保存壓縮字典,將字符串按照順序保存入數(shù)據(jù)庫(kù)。 然后進(jìn)行待測(cè)文件的分類預(yù)測(cè),將待測(cè)文件通過定長(zhǎng)編碼模塊將待測(cè)文件中的非
文本文件轉(zhuǎn)換為有明顯單詞結(jié)構(gòu)的文本文件,并將保存在數(shù)據(jù)庫(kù)中的字典集讀取到內(nèi)存
中。將特征字典經(jīng)過HASH散列模塊??梢詢?yōu)化壓縮待測(cè)文件的速度。例如,字符串A78B4C經(jīng)過HASH散列模塊后,形成(653654543, A78B4C)這樣的MAP
集,以后對(duì)待測(cè)文件進(jìn)行壓縮時(shí)可以不用逐個(gè)匹配字符串,而是用由字符串得到的哈希值
作為索引,快速地查找到字符串。壓縮待測(cè)文件,根據(jù)正常代碼字典與惡意代碼字典,對(duì)經(jīng)
過處理的待測(cè)文件進(jìn)行壓縮處理。
最后評(píng)估結(jié)果。根據(jù)壓縮率判斷文件的類別,正常文件類或惡意代碼文件類。設(shè) 正常代碼字典壓縮待測(cè)文件得到壓縮率為A,惡意代碼字典壓縮待測(cè)文件得到壓縮率為B, 則如果A > B,判斷待測(cè)文件為正常文件;如果A < B,判斷待測(cè)文件為惡意代碼文件。
壓縮率(R)=(壓縮前文件大小_壓縮后文件大小)/壓縮前文件大小X 100 %
例如,原文件大小為15K,正常代碼字典壓縮后為12KB,惡意代碼字典壓縮后為 IOKB,則壓縮率RI二 (15-12)/15 = 20%, R2 = (15-10)/15 = 33. 3%
Rl < R2,所以將此原文件判斷為惡意代碼文件。
權(quán)利要求
基于LZW壓縮算法的未知惡意代碼檢測(cè)方法,其特征在于,包括以下步驟首先進(jìn)行文件的學(xué)習(xí)將學(xué)習(xí)集中樣本文件通過定長(zhǎng)編碼模塊將樣本集中的非文本文件轉(zhuǎn)換為有明顯單詞結(jié)構(gòu)的文本文件;將轉(zhuǎn)換后的文件經(jīng)過LZW字典生成模塊,進(jìn)行壓縮字典的生成;并根據(jù)樣本集是正常代碼集或惡意代碼集保存為相應(yīng)的正常代碼字典或惡意代碼字典,并將兩類字典保存到數(shù)據(jù)庫(kù)中;然后進(jìn)行待測(cè)文件的分類預(yù)測(cè)將待測(cè)文件通過定長(zhǎng)編碼模塊將待測(cè)文件中的非文本文件轉(zhuǎn)換為有明顯單詞結(jié)構(gòu)的文本文件,并將保存在數(shù)據(jù)庫(kù)中的字典集讀取到內(nèi)存中;根據(jù)正常代碼字典與惡意代碼字典,對(duì)經(jīng)過處理的待測(cè)文件進(jìn)行壓縮處理;最后評(píng)估結(jié)果根據(jù)壓縮率判斷文件的類別,正常文件類或惡意代碼文件類;設(shè)正常代碼字典壓縮待測(cè)文件得到壓縮率為A,惡意代碼字典壓縮待測(cè)文件得到壓縮率為B,則如果A>B,判斷待測(cè)文件為正常文件;如果A<B,判斷待測(cè)文件為惡意代碼文件;壓縮率=(壓縮前文件大小-壓縮后文件大小)/壓縮前文件大小×100%。
全文摘要
本發(fā)明是一種利用壓縮算法來檢測(cè)未知惡意代碼的方法,它利用LZW壓縮算法提取出的特征字典,通過將待測(cè)文件用特征字典進(jìn)行壓縮,并根據(jù)壓縮率來預(yù)測(cè)文件的類別。首先,分析惡意代碼結(jié)構(gòu),抽取最能代表其特性的部分。然后,對(duì)所抽取的部分利用壓縮算法,按照其類別建立符合其統(tǒng)計(jì)特性的相應(yīng)壓縮字典(正常代碼/惡意代碼字典)。最后,通過判斷利用正常代碼/惡意代碼字典對(duì)待測(cè)文件進(jìn)行壓縮得到的不同壓縮率,依據(jù)最小描述原則將其歸類為能取得最好壓縮率的類別,從而達(dá)到檢測(cè)未知惡意代碼的目的。
文檔編號(hào)G06F21/00GK101763481SQ20101003417
公開日2010年6月30日 申請(qǐng)日期2010年1月15日 優(yōu)先權(quán)日2010年1月15日
發(fā)明者劉宏楠, 李健, 楊震, 段立娟, 賴英旭 申請(qǐng)人:北京工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
灵丘县| 东乡| 昌吉市| 高安市| 漳浦县| 永安市| 三亚市| 应用必备| 武陟县| 丰台区| 台南县| 郎溪县| 本溪市| 临潭县| 夏邑县| 葫芦岛市| 文山县| 宁南县| 太保市| 马公市| 仁布县| 贵定县| 洪湖市| 茶陵县| 通许县| 灌南县| 额济纳旗| 五大连池市| 新竹县| 东乡族自治县| 山东| 民县| 德保县| 肃宁县| 苗栗县| 牟定县| 甘德县| 辉县市| 泾阳县| 新巴尔虎右旗| 邹城市|