專利名稱:樣本分析方法、裝置及存儲(chǔ)介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)及信息安全技術(shù)領(lǐng)域,尤其涉及一種基于聚類運(yùn)算的大規(guī)模樣本分析方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,為了保證網(wǎng)絡(luò)信息安全,需要對(duì)海量的惡意樣本進(jìn)行分析,并從海量樣本的分析中發(fā)現(xiàn)新型的惡意攻擊技術(shù),以便采取相應(yīng)的反惡意攻擊措施。在即時(shí)通訊的網(wǎng)絡(luò)管理平臺(tái)上,用戶每日需要上傳成千上萬(wàn)的樣本,這對(duì)后臺(tái)的分析工程師來(lái)說(shuō)極具挑戰(zhàn)。而且,很多樣本非常相似,雖然其惡意行為相同,但樣本并非完全一致,使得分析工程師經(jīng)常不得不進(jìn)行重復(fù)分析。
目前,分析工程師手工分析樣本的低效性已遠(yuǎn)遠(yuǎn)無(wú)法滿足海量樣本分析所要求的時(shí)效性?,F(xiàn)有的一種解決方案是借助網(wǎng)站在線分析平臺(tái)對(duì)樣本進(jìn)行分析,分析工程師將樣本提交網(wǎng)站在線分析平臺(tái),一定時(shí)間后(數(shù)分鐘至數(shù)小時(shí)不等)查看分析結(jié)果。此種在線分析技術(shù)中,在后臺(tái)搭建有少量的服務(wù)器,使用沙箱技術(shù)來(lái)實(shí)現(xiàn)樣本的分析,通過(guò)前臺(tái)提供網(wǎng)頁(yè)讓訪問(wèn)者提交和上傳所要分析的樣本。這種方式雖然可大大提高人工詳細(xì)分析的效率,但是,在分析的過(guò)程中需要人手工將樣本提交上傳至網(wǎng)站,而這些提供在線分析的網(wǎng)站通常對(duì)提交的樣本數(shù)量有限制,難以實(shí)現(xiàn)自動(dòng)化的操作,使得每日分析的樣本量仍然非常有限?,F(xiàn)有的另一種解決方案是使用多臺(tái)服務(wù)器組建分析集群,利用沙箱或者虛擬機(jī)技術(shù)來(lái)進(jìn)行海量樣本分析,該方法不需要人工提交樣本,而且分析的效率可以通過(guò)增加服務(wù)器的數(shù)量來(lái)進(jìn)行提升。這種方式相比提交網(wǎng)站在線分析樣本的方式,雖然分析效率得以大大提升,但是,當(dāng)所要處理的樣本數(shù)量遠(yuǎn)遠(yuǎn)超出預(yù)定的處理量時(shí),該方案則很難通過(guò)增加和擴(kuò)展計(jì)算能力來(lái)滿足要求,因?yàn)樾枰姆?wù)器數(shù)量過(guò)于龐大,成本將難以控制?,F(xiàn)有的三種樣本分析方案的對(duì)比結(jié)果如下表I所示
病毒樣本分析技術(shù)每日樣本處理量人機(jī)交互方式
手工詳細(xì)分析I - 10全人工操作
提交網(wǎng)站在線分析300左右需要人工提交樣本^
多服務(wù)器組建分析集群~10 - 100萬(wàn)全自動(dòng)操作表I由上表I可以看出目前分析效率最高的多服務(wù)器組建分析集群的分析方式每日處樣本理量為100萬(wàn)左右,而目前網(wǎng)絡(luò)管理平臺(tái)上每日新上傳的樣本已經(jīng)達(dá)到1000萬(wàn)的量級(jí),而且還會(huì)繼續(xù)快速增長(zhǎng),因此,簡(jiǎn)單的在多服務(wù)器組建分析集群的技術(shù)上,繼續(xù)疊加服務(wù)器以增加分析能力的方案已不可行。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種樣本分析方法、裝置及存儲(chǔ)介質(zhì),旨在提高樣本分析效率,降低系統(tǒng)成本。為了達(dá)到上述目的,本發(fā)明提出一種樣本分析方法,包括以下步驟接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理;對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。優(yōu)選地,所述對(duì)樣本進(jìn)行過(guò)濾處理的步驟包括 過(guò)濾掉所述樣本組成的樣本集中不符合預(yù)定分析條件的樣本。本發(fā)明還提出一種樣本分析裝置,包括過(guò)濾模塊,用于接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理;聚類模塊,用于對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;分析模塊,用于對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。本發(fā)明還提出一種計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì),在其上存儲(chǔ)了使計(jì)算機(jī)能夠運(yùn)行的程序,在程序裝入計(jì)算機(jī)的存儲(chǔ)器內(nèi)后,接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理;對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。本發(fā)明提出的一種樣本分析方法、裝置及存儲(chǔ)介質(zhì),通過(guò)對(duì)上傳的樣本進(jìn)行過(guò)濾,對(duì)相似樣本進(jìn)行聚合歸納,在進(jìn)行樣本分析時(shí),按照對(duì)應(yīng)的類別,在每一類樣本集中隨機(jī)挑選預(yù)定數(shù)量的樣本進(jìn)行分析,由于無(wú)需對(duì)相似樣本進(jìn)行重復(fù)分析,因此極大降低了分析工程師的分析工作量,提高了樣本分析效率,而且無(wú)需增加和擴(kuò)展計(jì)算能力來(lái)滿足海量樣本分析要求,從而降低系統(tǒng)成本。
圖I是本發(fā)明樣本分析方法較佳實(shí)施例的流程示意圖;圖2是本發(fā)明樣本分析方法較佳實(shí)施例中對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理的流程示意圖;圖3是本發(fā)明樣本分析方法較佳實(shí)施例中系統(tǒng)分析架構(gòu)示意圖;圖4是本發(fā)明樣本分析方法較佳實(shí)施例中一種實(shí)例的流程示意圖;圖5是本發(fā)明樣本分析裝置較佳實(shí)施例的結(jié)構(gòu)示意圖;圖6是本發(fā)明樣本分析裝置較佳實(shí)施例中過(guò)濾模塊的結(jié)構(gòu)示意圖;圖7是本發(fā)明樣本分析裝置較佳實(shí)施例中聚類模塊的結(jié)構(gòu)示意圖。為了使本發(fā)明的技術(shù)方案更加清楚、明了,下面將結(jié)合附圖作進(jìn)一步詳述。
具體實(shí)施例方式本發(fā)明實(shí)施例的解決方案主要是對(duì)上傳的樣本進(jìn)行過(guò)濾,對(duì)相似樣本進(jìn)行聚合歸納,在進(jìn)行樣本分析時(shí),對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析,只要一類樣本集中任意一個(gè)樣本被分析過(guò),則該類中的樣本不再重復(fù)分析;若該類別中還沒(méi)有任何樣本被分析過(guò),則從中隨機(jī)挑選預(yù)定數(shù)量的樣本進(jìn)行分析,以減少相似樣本的分析數(shù)量,提高樣本分析效率。如圖I所示,本發(fā)明較佳實(shí)施例提出的一種樣本分析方法,包括步驟SlOl,接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理;本實(shí)施例方法運(yùn)行載體為可實(shí)現(xiàn)海量樣本分析的樣本分析裝置,該裝置具有樣本過(guò)濾、聚集歸類以及計(jì)算分析功能,可將樣本按照彼此之間的相似度進(jìn)行歸類整理,以減少分析計(jì)算時(shí)對(duì)相似樣本進(jìn)行重復(fù)分析的樣本數(shù)量。以即時(shí)通訊為例,在即時(shí)通訊的網(wǎng)絡(luò)管理平臺(tái)上,用戶每日需要上傳成千上萬(wàn)的樣本。采用本實(shí)施例中的樣本分析裝置接收用戶上傳的樣本,該樣本分析裝置首先過(guò)濾掉樣本組成的樣本集中不符合預(yù)定分析條件的樣本,其中,不符合預(yù)定分析條件的樣本比如是已經(jīng)損壞的程序文件、系統(tǒng)不支持的文件格式或者體積過(guò)大的文件等。 此外,還需要使用樣本分析裝置中的反惡意引擎比如反病毒引擎,對(duì)所述樣本進(jìn)行掃描,進(jìn)一步過(guò)濾掉其中已經(jīng)被反病毒引擎識(shí)別出的樣本,在本裝置中只對(duì)未報(bào)告病毒的樣本進(jìn)行分析。通過(guò)對(duì)樣本的過(guò)濾處理,可以減少樣本的分析數(shù)量,提高樣本分析效率。步驟S102,對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;樣本分析裝置在完成樣本的過(guò)濾后,對(duì)保留下來(lái)的樣本進(jìn)行聚集分類。首先,對(duì)每一樣本的文件內(nèi)容進(jìn)行掃描,為每一樣本生成一個(gè)類別特征碼,表不該樣本屬于哪一類,相似的樣本會(huì)擁有非常相近的類別特征碼,因此,依據(jù)該類別特征碼去查找預(yù)置的數(shù)據(jù)庫(kù),如果在數(shù)據(jù)庫(kù)中找到與之相同或相似的類別特征碼,則表示該類別已經(jīng)存在,如果沒(méi)有找到,則表示該類別之前不存在。樣本分析裝置預(yù)先在本地配置有用于記錄樣本的類別特征碼的數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)中以樣本的類別特征碼為索引對(duì)各個(gè)樣本進(jìn)行分類。同時(shí)每個(gè)樣本具有標(biāo)識(shí)號(hào),該標(biāo)識(shí)號(hào)可以以樣本的密鑰比如MD5表示。當(dāng)以樣本的類別特征碼查找數(shù)據(jù)庫(kù),表示該類別已經(jīng)存在時(shí),則直接將該樣本的MD5記錄到該類別特征碼對(duì)應(yīng)的類別中即可。如果通過(guò)查找數(shù)據(jù)庫(kù),表示該類別不存在,則在數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)新類別,以該樣本的類別特征碼作為索引,將該樣本的MD5記錄到創(chuàng)建的新類別中。步驟S103,對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。樣本分析裝置在完成樣本的聚集歸類后,按照樣本對(duì)應(yīng)的類別分別進(jìn)行分析,該分析過(guò)程可以由人工操作完成,也可以采用自動(dòng)化的分析技術(shù)。在對(duì)每一類樣本集進(jìn)行分析時(shí),如果該類別的樣本集中已經(jīng)有樣本實(shí)際分析過(guò),則無(wú)需對(duì)該類別的樣本集進(jìn)行實(shí)際的詳細(xì)分析計(jì)算,樣本處理流程到此結(jié)束。如果該類別樣本集中還沒(méi)有任何樣本被分析過(guò),則從中隨機(jī)挑選預(yù)定數(shù)量的樣本進(jìn)行詳細(xì)的分析。其中,隨機(jī)挑選的樣本的數(shù)量可以為少量樣本,具體根據(jù)實(shí)際需要設(shè)定為一個(gè)、兩個(gè)或更多個(gè)。后續(xù)若再遇到該類別的樣本,則直接采用上次的分析結(jié)果,而不用耗時(shí)對(duì)此類似的樣本進(jìn)行重復(fù)分析,以提高樣本分析效率。如圖2所示,在具體實(shí)施過(guò)程中,上述步驟S102對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理的步驟包括
步驟S1021,對(duì)過(guò)濾處理后的樣本進(jìn)行內(nèi)容掃描,為每一樣本生成一類別特征碼;步驟S1022,根據(jù)所述類別特征碼查找預(yù)置的數(shù)據(jù)庫(kù),判斷所述數(shù)據(jù)庫(kù)中是否存在與所述類別特征碼相同或相似的類別特征碼;若是,則進(jìn)入步驟S1023 ;否則,進(jìn)入步驟S1024 ;步驟S1023,將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中;步驟S1024,在所述數(shù)據(jù)庫(kù)中創(chuàng)建一對(duì)應(yīng)所述類別特征碼的類別,并以所述類別特征碼為索引,將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中。由上述方案可以看出,采用對(duì)相似樣本進(jìn)行聚合歸納處理,如果一批惡意樣本屬于同一病毒變種,那么該方案自動(dòng)將這些樣本歸為一類,分析工程師只需要分析該類別中一個(gè)樣本即可,這樣可極大地降低分析工程師的分析工作。而如果出現(xiàn)一個(gè)完全新型的惡意攻擊樣本類型,該方案會(huì)自動(dòng)創(chuàng)建一個(gè)新的類別,此時(shí)分析工程師通過(guò)及時(shí)分析該類別中的任意一個(gè)樣本,則能很容易地發(fā)現(xiàn)新型病毒。 以反病毒樣本為例,如圖3所示,若將本實(shí)施例中對(duì)樣本的過(guò)濾、歸類以及分析處理過(guò)程分別對(duì)應(yīng)設(shè)置為樣本過(guò)濾層、引擎掃描層、聚類層和分析計(jì)算層,則本實(shí)施例樣本分析方法的系統(tǒng)分析架構(gòu)可以表示成如圖3所示的漏斗形狀。樣本處理流向如圖3所示的豎直箭頭方向,樣本經(jīng)輸入,并經(jīng)過(guò)過(guò)濾層、引擎掃描層、聚類層和分析計(jì)算層的多層計(jì)算和處理后,需要實(shí)際分析的樣本數(shù)量會(huì)急劇下降,當(dāng)?shù)竭_(dá)最底層的分析計(jì)算層時(shí),需要實(shí)際分析的樣本數(shù)量已經(jīng)下降到輸入樣本集數(shù)量的1%_5%,由此,極大的提高了樣本的分析效率,而且無(wú)需增加和擴(kuò)展計(jì)算能力來(lái)滿足海量樣本分析要求,從而降低系統(tǒng)成本。如圖4所示,以下以一較為具體完整的實(shí)例對(duì)本實(shí)施例樣本分析方法的技術(shù)方案進(jìn)行詳細(xì)闡述,其具體流程如下SI,當(dāng)接收到上傳的樣本后,對(duì)樣本的文件類型進(jìn)行識(shí)別;S2,判斷樣本的文件格式是否是可以分析的文件格式;若是,則進(jìn)入步驟S3 ;否貝1J,進(jìn)入步驟S12 ;S3,判斷樣本的文件是否損壞;若是,則進(jìn)入步驟S12 ;否則,進(jìn)入步驟S4 ;S4,使用反病毒引擎對(duì)樣本進(jìn)行掃描;S5,判斷反病毒引擎是否報(bào)毒;若是,則進(jìn)入步驟S12 ;否則,進(jìn)入步驟S4 ;S6,根據(jù)樣本的文件內(nèi)容生成類別特征碼,到數(shù)據(jù)庫(kù)中去查找;S7,判斷數(shù)據(jù)庫(kù)中是否存在與該類別特征碼相同或相似的類別特征碼;若是,表明該類別存在,則進(jìn)入步驟S9 ;否則,進(jìn)入步驟S8 ;步驟S8,創(chuàng)建一個(gè)新類別,并進(jìn)入步驟S9 ;步驟S9,將樣本的MD5記錄到該類別中;步驟S10,判斷該類別中是否任意樣本已經(jīng)詳細(xì)分析過(guò);若是,則進(jìn)入步驟S12 ;否貝U,說(shuō)明這是新發(fā)現(xiàn)的病毒種類,進(jìn)入步驟Sii ;步驟S11,該類別為新發(fā)現(xiàn)的病毒種類,進(jìn)行詳細(xì)分析。本實(shí)施例減少相似樣本重復(fù)分析的方法,只要一類樣本集中任意一個(gè)樣本被分析過(guò),以后再出現(xiàn)同類樣本時(shí),則將其自動(dòng)歸類,而不再重復(fù)分析。通過(guò)這種方式可以將每日所要分析處理的樣本處理量下降一個(gè)數(shù)量級(jí)。例如如果每日需要分析1000萬(wàn)的樣本,在應(yīng)用了該方法后,則只需要實(shí)際分析20萬(wàn)的樣本,即可實(shí)現(xiàn)1000萬(wàn)的樣本的分析效果。在實(shí)際操作中,分析工程師只需要將樣本的MD5列表提交給樣本分析裝置統(tǒng)即可,無(wú)須其他操作,極大降低了分析工程師的分析工作量,并提高了樣本分析效率,而且無(wú)需增加和擴(kuò)展計(jì)算能力來(lái)滿足海量樣本分析要求,降低了系統(tǒng)成本。如圖5所示,本發(fā)明較佳實(shí)施例提出一種樣本分析裝置,包括過(guò)濾模塊501、聚類模塊502以及分析模塊503,其中過(guò)濾模塊501,用于接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理;聚類模塊502,用于對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;分析模塊503,用于對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。本實(shí)施例樣本分析裝置可實(shí)現(xiàn)海量樣本分析,該裝置具有樣本過(guò)濾、聚集歸類以 及計(jì)算分析功能,可將樣本按照彼此之間的相似度進(jìn)行歸類整理,以減少分析計(jì)算時(shí)對(duì)相似樣本進(jìn)行重復(fù)分析的樣本數(shù)量。以即時(shí)通訊為例,在即時(shí)通訊的網(wǎng)絡(luò)管理平臺(tái)上,用戶每日需要上傳成千上萬(wàn)的樣本。本實(shí)施例樣本分析裝置首先采用過(guò)濾模塊501接收用戶上傳的樣本,過(guò)濾掉樣本組成的樣本集中不符合預(yù)定分析條件的樣本,其中,不符合預(yù)定分析條件的樣本比如是已經(jīng)損壞的程序文件、系統(tǒng)不支持的文件格式或者體積過(guò)大的文件等。此外,過(guò)濾模塊501還需要通過(guò)反惡意引擎比如反病毒引擎,對(duì)所述樣本進(jìn)行掃描,進(jìn)一步過(guò)濾掉其中已經(jīng)被反病毒引擎識(shí)別出的樣本,本實(shí)施例只對(duì)未報(bào)告病毒的樣本進(jìn)行分析。通過(guò)對(duì)樣本的過(guò)濾處理,可以減少樣本的分析數(shù)量,提高樣本分析效率。樣本分析裝置在完成樣本的過(guò)濾后,對(duì)保留下來(lái)的樣本進(jìn)行聚集分類。具體地,通過(guò)聚類模塊502對(duì)每一樣本的文件內(nèi)容進(jìn)行掃描,為每一樣本生成一個(gè)類別特征碼,表示該樣本屬于哪一類,相似的樣本會(huì)擁有非常相近的類別特征碼,因此,依據(jù)該類別特征碼去查找預(yù)置的數(shù)據(jù)庫(kù),如果在數(shù)據(jù)庫(kù)中找到與之相同或相似的類別特征碼,則表示該類別已經(jīng)存在,如果沒(méi)有找到,則表示該類別之前不存在。樣本分析裝置預(yù)先在本地配置有用于記錄樣本的類別特征碼的數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)中以樣本的類別特征碼為索引對(duì)各個(gè)樣本進(jìn)行分類。同時(shí),每個(gè)樣本具有標(biāo)識(shí)號(hào),該標(biāo)識(shí)號(hào)可以以樣本的密鑰比如MD5表示。當(dāng)以樣本的類別特征碼查找數(shù)據(jù)庫(kù),表示該類別已經(jīng)存在時(shí),則直接將該樣本的MD5記錄到該類別特征碼對(duì)應(yīng)的類別中即可。如果通過(guò)查找數(shù)據(jù)庫(kù),表示該類別不存在,則在數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)新類別,以該樣本的類別特征碼作為索引,將該樣本的MD5記錄到創(chuàng)建的新類別中。樣本分析裝置在完成樣本的聚集歸類后,通過(guò)分析模塊503按照樣本對(duì)應(yīng)的類別分別進(jìn)行分析,該分析過(guò)程可以由人工操作完成,也可以采用自動(dòng)化的分析技術(shù)。分析模塊503在對(duì)每一類樣本集進(jìn)行分析時(shí),如果該類別的樣本集中已經(jīng)有樣本實(shí)際分析過(guò),則無(wú)需對(duì)該類別的樣本集進(jìn)行實(shí)際的詳細(xì)分析計(jì)算,樣本處理流程到此結(jié)束。如果該類別樣本集中還沒(méi)有任何樣本被分析過(guò),則從中隨機(jī)挑選預(yù)定數(shù)量的樣本進(jìn)行詳細(xì)的分析。其中,隨機(jī)挑選的樣本的數(shù)量可以為少量樣本,具體根據(jù)實(shí)際需要設(shè)定為一個(gè)、兩個(gè)或更多個(gè)。后續(xù)若再遇到該類別的樣本,則直接采用上次的分析結(jié)果,而不用耗時(shí)對(duì)此類似的樣本進(jìn)行重復(fù)分析,以提高樣本分析效率。如圖6所示,在具體實(shí)施過(guò)程中,所述過(guò)濾模塊501包括過(guò)濾單元5011以及反惡意引擎單元5012,其中過(guò)濾單元5011,用于過(guò)濾掉所述樣本組成的樣本集中不符合預(yù)定分析條件的樣本。反惡意引擎單元5012,用于使用反惡意引擎對(duì)所述樣本進(jìn)行掃描,過(guò)濾掉其中被所述反惡意引擎識(shí)別的樣本。如圖7所示,所述聚類模塊502包括特征碼生成單元5021、判斷單元5022以及分類單元5023,其中特征碼生成單元5021,用于對(duì)過(guò)濾處理后的樣本進(jìn)行內(nèi)容掃描,為每一樣本生成一類別特征碼; 判斷單元5022,用于根據(jù)所述類別特征碼查找預(yù)置的數(shù)據(jù)庫(kù),判斷所述數(shù)據(jù)庫(kù)中是否存在與所述類別特征碼相同或相似的類別特征碼;分類單元5023,用于當(dāng)所述數(shù)據(jù)庫(kù)中存在所述類別特征碼時(shí),將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中;否則,在所述數(shù)據(jù)庫(kù)中創(chuàng)建一對(duì)應(yīng)所述類別特征碼的類別,并以所述類別特征碼為索引,將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中。由上述方案可以看出,通過(guò)對(duì)相似樣本進(jìn)行聚合歸納處理,如果一批惡意樣本屬于同一病毒變種,那么該方案自動(dòng)將這些樣本歸為一類,分析工程師只需要分析該類別中一個(gè)樣本即可,這樣可極大地降低分析工程師的分析工作。而如果出現(xiàn)一個(gè)完全新型的惡意攻擊樣本類型,該方案會(huì)自動(dòng)創(chuàng)建一個(gè)新的類別,此時(shí)分析工程師通過(guò)及時(shí)分析該類別中的任意一個(gè)樣本,則能很容易地發(fā)現(xiàn)新型病毒。在實(shí)際操作中,分析工程師只需要將樣本的MD5列表提交給樣本分析裝置統(tǒng)即可,無(wú)須其他操作,極大降低了分析工程師的分析工作量,并提高了樣本分析效率,而且無(wú)需增加和擴(kuò)展計(jì)算能力來(lái)滿足海量樣本分析要求,降低了系統(tǒng)成本。此外,本發(fā)明還提出一種計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì),在其上存儲(chǔ)了使計(jì)算機(jī)能夠運(yùn)行的程序,在程序裝入計(jì)算機(jī)的存儲(chǔ)器內(nèi)后,接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理;對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換,或直接或間接運(yùn)用在其它相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種樣本分析方法,其特征在于,包括以下步驟 接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理; 對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理; 對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述對(duì)樣本進(jìn)行過(guò)濾處理的步驟包括 過(guò)濾掉所述樣本組成的樣本集中不符合預(yù)定分析條件的樣本;所述不符合預(yù)定分析條件的樣本包括已損壞的程序文件、系統(tǒng)不支持的文件格式或者體積過(guò)大的文件。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述過(guò)濾掉所述樣本組成的樣本集中不符合預(yù)定分析條件的樣本的步驟之后還包括 使用反惡意引擎對(duì)所述樣本進(jìn)行掃描,過(guò)濾掉其中被所述反惡意引擎識(shí)別的樣本。
4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,所述對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理的步驟包括 對(duì)過(guò)濾處理后的樣本進(jìn)行內(nèi)容掃描,為每一樣本生成一類別特征碼; 根據(jù)所述類別特征碼查找預(yù)置的數(shù)據(jù)庫(kù),判斷所述數(shù)據(jù)庫(kù)中是否存在與所述類別特征碼相同或相似的類別特征碼; 若是,則將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中;否則在所述數(shù)據(jù)庫(kù)中創(chuàng)建一對(duì)應(yīng)所述類別特征碼的類別,并以所述類別特征碼為索引,將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析的步驟包括 對(duì)歸類處理后的每一類別樣本集,判斷該類別樣本集中是否有樣本分析過(guò),若是,則結(jié)束對(duì)該類別的樣本分析流程;否則 從該類別樣本中隨機(jī)挑選預(yù)定數(shù)量的樣本進(jìn)行分析。
6.一種樣本分析裝置,其特征在于,包括 過(guò)濾模塊,用于接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理; 聚類模塊,用于對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理; 分析模塊,用于對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述過(guò)濾模塊包括 過(guò)濾單元,用于過(guò)濾掉所述樣本組成的樣本集中不符合預(yù)定分析條件的樣本;所述不符合預(yù)定分析條件的樣本包括已損壞的程序文件、系統(tǒng)不支持的文件格式或者體積過(guò)大的文件。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述過(guò)濾模塊還包括 反惡意引擎單元,用于使用反惡意引擎對(duì)所述樣本進(jìn)行掃描,過(guò)濾掉其中被所述反惡意引擎識(shí)別的樣本。
9.根據(jù)權(quán)利要求6、7或8所述的裝置,其特征在于,所述聚類模塊包括 特征碼生成單元,用于對(duì)過(guò)濾處理后的樣本進(jìn)行內(nèi)容掃描,為每一樣本生成一類別特征碼; 判斷單元,用于根據(jù)所述類別特征碼查找預(yù)置的數(shù)據(jù)庫(kù),判斷所述數(shù)據(jù)庫(kù)中是否存在與所述類別特征碼相同或相似的類別特征碼;分類單元,用于當(dāng)所述數(shù)據(jù)庫(kù)中存在所述類別特征碼時(shí),將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中;否則,在所述數(shù)據(jù)庫(kù)中創(chuàng)建一對(duì)應(yīng)所述類別特征碼的類別,并以所述類別特征碼為索引,將所述樣本的標(biāo)識(shí)號(hào)記錄到該類別特征碼對(duì)應(yīng)的類別中。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述分析模塊還用于對(duì)歸類處理后的每一類別樣本集,判斷該類別樣本集中是否有樣本分析過(guò),若是,則不對(duì)該類別的樣本進(jìn)行分析;否則從該類別樣本中隨機(jī)挑選預(yù)定數(shù)量的樣本進(jìn)行分析。
11.一種計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì),在其上存儲(chǔ)了使計(jì)算機(jī)能夠運(yùn)行的程序,在程序裝入計(jì)算機(jī)的存儲(chǔ)器內(nèi)后,接收上傳的樣本,對(duì)所述樣本進(jìn)行過(guò)濾處理;對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。
全文摘要
本發(fā)明涉及一種樣本分析方法、裝置及存儲(chǔ)介質(zhì),其方法包括接收上傳的樣本,對(duì)樣本進(jìn)行過(guò)濾處理;對(duì)過(guò)濾處理后的樣本進(jìn)行歸類處理;對(duì)歸類處理后的樣本按照對(duì)應(yīng)的類別進(jìn)行分析。本發(fā)明通過(guò)對(duì)上傳的樣本進(jìn)行過(guò)濾,對(duì)相似樣本進(jìn)行聚合歸納,在進(jìn)行樣本分析時(shí),按照對(duì)應(yīng)的類別,在每一類樣本中隨機(jī)挑選預(yù)定數(shù)量的樣本進(jìn)行分析,由于無(wú)需對(duì)相似樣本進(jìn)行重復(fù)分析,因此極大降低了分析工程師的分析工作量,提高了樣本分析效率,而且無(wú)需增加和擴(kuò)展計(jì)算能力來(lái)滿足海量樣本分析要求,從而降低了系統(tǒng)成本。
文檔編號(hào)G06F17/30GK102831149SQ20121021043
公開(kāi)日2012年12月19日 申請(qǐng)日期2012年6月25日 優(yōu)先權(quán)日2012年6月25日
發(fā)明者張曉康 申請(qǐng)人:騰訊科技(深圳)有限公司