本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種程序文件的處理方法及裝置。
背景技術(shù):
一般手機等的終端設(shè)備需要裝載了程序后才能運行,實現(xiàn)各種功能,終端設(shè)備裝載的程序主要包括系統(tǒng)程序和應(yīng)用程序,但是如果這些程序遭到惡意者的攻擊,會使得用戶信息的丟失,因此,需要對終端設(shè)備接收的任意文件進行識別,識別出惡意文件,并進行相應(yīng)處理。終端設(shè)備在識別惡意文件時,需要事先確定好惡意文件的樣本文件的特征,然后將待識別文件的特征與樣本文件的特征進行比較以確定惡意文件。
現(xiàn)有技術(shù)中,終端設(shè)備確定樣本文件的特征時,一種方法是通過提取特征代碼的技術(shù)來實現(xiàn),但是,這種方法無法應(yīng)對新病毒的和新變種,具有滯后性,無法識別未知的惡意文件。另一種方法是以行為為基準的提取方案,提取出程序行為特征,此方法分為白名單模型和黑名單模型,其中,黑名單模型是對惡意行為進行建模,此法和基于特征代碼的技術(shù)一樣,無法應(yīng)對未知惡意文件;白名單模型是對合法行為進行建模,然而在實際應(yīng)用中,合法行為占了較大比例,要對其進行充分的抽象具有極大的挑戰(zhàn),從而容易引起誤報。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種程序文件的處理方法及裝置,實現(xiàn)了將樣本程序文件的函數(shù)依賴圖的特征作為聚類或分類應(yīng)用的基準。
本發(fā)明實施例提供一種程序文件的處理方法,包括:
獲取樣本程序文件的函數(shù)依賴圖,所述函數(shù)依賴圖中包括多個節(jié)點;
獲取所述多個節(jié)點中各個鄰接節(jié)點之間的關(guān)系信息;
根據(jù)所述關(guān)系信息獲取所述函數(shù)依賴圖的第一特征向量;
根據(jù)所述第一特征向量對待處理程序文件進行聚類或分類處理。
本發(fā)明實施例提供一種程序文件的處理裝置,包括:
依賴圖獲取單元,用于獲取樣本程序文件的函數(shù)依賴圖,所述函數(shù)依賴圖中包括多個節(jié)點;
關(guān)系信息獲取單元,用于獲取所述依賴圖獲取單元獲取的函數(shù)依賴圖所包括的多個節(jié)點中各個鄰接節(jié)點之間的關(guān)系信息;
特征獲取單元,用于根據(jù)所述關(guān)系信息獲取單元獲取的關(guān)系信息獲取所述函數(shù)依賴圖的第一特征向量;
應(yīng)用處理單元,用于根據(jù)所述特征獲取單元獲取的第一特征向量對待處理程序文件進行聚類或分類處理。
可見,在本實施例的程序文件處理方法中,主要是先獲取樣本程序文件的函數(shù)依賴圖,并根據(jù)函數(shù)依賴圖所包括的多個節(jié)點中各個鄰接節(jié)點之間的關(guān)系信息,獲取函數(shù)依賴圖的第一特征向量,最后可以將第一特征向量應(yīng)用到待處理程序文件的聚類或分類處理中。這樣由于惡意程序文件一般都是通過調(diào)用相同的系統(tǒng)函數(shù)和相似的調(diào)用結(jié)構(gòu)來達到相應(yīng)的目的,這些惡意程序文件的函數(shù)依賴圖具有相似性,即使惡意程序文件發(fā)生更新或有新的惡意程序文件出現(xiàn),其函數(shù)依賴圖也不會做大的改變,這樣如果將樣本程序文件的函數(shù)依賴圖的特征即上述第一特征向量作為識別惡意程序文件的基準,可以應(yīng)對惡意程序文件的更新和新出現(xiàn)的惡意程序文件;進一步地,由于一個程序文件的函數(shù)依賴圖的特征較多,為了減少程序文件的處理裝置的計算量,且有利于后續(xù)應(yīng)用中與待處理程序文件對比,本發(fā)明實施例中只是將樣本程序文件的函數(shù)依賴圖中所包括的鄰接節(jié)點的關(guān)系特征作為聚類或分類應(yīng)用的基準。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的一種程序文件的處理方法的流程圖;
圖2是本發(fā)明實施例提供的另一種程序文件的處理方法的流程圖;
圖3是本發(fā)明實施例提供的另一種程序文件的處理方法的流程圖;
圖4是本發(fā)明實施例提供的一種程序文件的處理裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明實施例提供的另一種程序文件的處理裝置的結(jié)構(gòu)示意圖;
圖6是本發(fā)明實施例提供的另一種程序文件的處理裝置的結(jié)構(gòu)示意圖;
圖7是本發(fā)明應(yīng)用實施例中提供的程序文件的處理方法的流程圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三”“第四”等(如果存在)是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排它的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
本發(fā)明實施例提供一種程序文件的處理方法,主要是程序文件的處理裝置所執(zhí)行的方法,流程圖如圖1所示,包括:
步驟101,獲取樣本程序文件的函數(shù)依賴圖,該函數(shù)依賴圖中包括多個節(jié)點。函數(shù)依賴圖是指程序中多個函數(shù)之間的依賴關(guān)系圖,在程序執(zhí)行過程中,如果函數(shù)a的定義中調(diào)用了函數(shù)b,那么函數(shù)a依賴函數(shù)b,則將函數(shù)a和b定義為兩個節(jié)點,且兩個節(jié)點在函數(shù)依賴圖中用一個帶箭頭的實線連接a和b,由a指向b,表示節(jié)點a是節(jié)點b的父節(jié)點。。
由于每個程序文件都是通過一定的規(guī)則編譯得到的,其中可以包括多個函數(shù),及各個函數(shù)之間的依賴關(guān)系語句等,則本實施例中一個程序文件得到的函數(shù)依賴圖中的一個節(jié)點可以表示一個函數(shù)。
步驟102,獲取多個節(jié)點中各個鄰接節(jié)點之間的關(guān)系信息,具體地,程序文件的處理裝置在獲取各個節(jié)點之間的關(guān)系信息時,可以通過關(guān)聯(lián)矩陣,距 離矩陣,鄰接矩陣和拉普拉斯矩陣等來衡量,則本步驟中獲取的關(guān)系信息可以包括矩陣的信息。
步驟103,根據(jù)步驟102獲取的關(guān)系信息獲取各個鄰接節(jié)點之間的關(guān)系的特征,并將各個鄰接節(jié)點之間的關(guān)系的特征作為函數(shù)依賴圖的第一特征向量。由于上述步驟102獲取的關(guān)系信息包括矩陣的信息,則本步驟中,直接計算矩陣的特征向量可以得到該第一特征向量。
步驟104,根據(jù)第一特征向量對待處理程序文件進行聚類或分類處理。具體地,程序文件的處理裝置可以獲取待處理程序文件的函數(shù)依賴圖的第二特征向量,根據(jù)第一特征向量和第二特征向量的相似度確定待處理程序文件的類型,如果相似度較高,則確定待處理程序文件與樣本程序文件的類型一致,否則不一致。其中,獲取第二特征向量與上述步驟101到103中獲取第一特征向量的方法類似,不同的是第二特征向量針對的是已知類型的樣本程序文件,而第一特征向量針對的是未知類型的待處理程序文件。
可見,在本實施例的程序文件處理方法中,主要是先獲取樣本程序文件的函數(shù)依賴圖,并根據(jù)函數(shù)依賴圖所包括的多個節(jié)點中各個鄰接節(jié)點之間的關(guān)系信息,獲取函數(shù)依賴圖的第一特征向量,最后可以將第一特征向量應(yīng)用到待處理程序文件的聚類或分類處理中。這樣由于惡意程序文件一般都是通過調(diào)用相同的系統(tǒng)函數(shù)和相似的調(diào)用結(jié)構(gòu)來達到相應(yīng)的目的,這些惡意程序文件的函數(shù)依賴圖具有相似性,即使惡意程序文件發(fā)生更新或有新的惡意程序文件出現(xiàn),其函數(shù)依賴圖也不會做大的改變,這樣如果將樣本程序文件的函數(shù)依賴圖的特征即上述第一特征向量作為識別惡意程序文件的基準,可以應(yīng)對惡意程序文件的更新和新出現(xiàn)的惡意程序文件;進一步地,由于一個程序文件的函數(shù)依賴圖的特征較多,為了減少程序文件的處理裝置的計算量,且有利于后續(xù)應(yīng)用中與待處理程序文件對比,本發(fā)明實施例中只是將樣本程序文件的函數(shù)依賴圖中所包括的鄰接節(jié)點的關(guān)系特征作為聚類或分類應(yīng)用的基準。
參考圖2所示,在一個具體的實施例中,程序文件的處理裝置在執(zhí)行上述步驟102時,可以通過如下步驟1021和1022來實現(xiàn),而在執(zhí)行上述步驟103時,可以通過如下步驟1031來實現(xiàn),具體地:
步驟1021,將函數(shù)依賴圖轉(zhuǎn)化為鄰接矩陣,該鄰接矩陣為n*n的矩陣,其中,n為函數(shù)依賴圖所包括節(jié)點的節(jié)點數(shù)。
其中,鄰接矩陣(Adjacency Matrix)表示函數(shù)依賴圖中各個節(jié)點之間相鄰關(guān)系的矩陣,假設(shè)G=(V,E)表示一個函數(shù)依賴圖,其中V={v1,v2,…vn},V為節(jié)點集,E為邊集,該函數(shù)依賴圖G的鄰接矩陣A(G)是一個n階方陣,若函數(shù)依賴圖中的節(jié)點i指向節(jié)點j,則A(G)(i,j)=1,否則為0。
步驟1022,根據(jù)鄰接矩陣計算轉(zhuǎn)移概率矩陣,將轉(zhuǎn)移概率矩陣作為各個鄰接節(jié)點之間的關(guān)系信息,或?qū)D(zhuǎn)移概率矩陣進行至少一次處理后得到的矩陣作為各個鄰接節(jié)點之間的關(guān)系信息。其中,轉(zhuǎn)移概率矩陣中的轉(zhuǎn)移概率是根據(jù)函數(shù)依賴圖中節(jié)點的出度信息和各個節(jié)點之間的調(diào)用關(guān)系計算得到的各個節(jié)點之間的轉(zhuǎn)移概率,該轉(zhuǎn)移概率體現(xiàn)了類依賴關(guān)系的調(diào)用概率。
步驟1031,獲取轉(zhuǎn)移概率矩陣對應(yīng)的特征向量作為第一特征向量,或獲取對轉(zhuǎn)移概率矩陣進行至少一次處理后得到的矩陣對應(yīng)的特征向量作為第一特征向量。
需要說明的是,上述對轉(zhuǎn)移概率矩陣進行的至少一次處理可以包括對轉(zhuǎn)移概率矩陣做拉普拉斯變換得到拉普拉斯矩陣,其中,拉普拉斯矩陣(Laplacian Matrix)也叫做導(dǎo)納矩陣、基爾霍夫矩陣或離散拉普拉斯算子,主要應(yīng)用在圖論中,作為一個圖的矩陣表示。
參考圖3所示,在另一個具體的實施例中,程序文件的處理裝置在執(zhí)行上述步驟103時,是通過如下步驟1032到1034來實現(xiàn),具體地:
步驟1032,獲取轉(zhuǎn)移概率矩陣對應(yīng)的特征向量,或獲取對轉(zhuǎn)移概率矩陣進行至少一次處理后得到的矩陣對應(yīng)的特征向量。
步驟1033,按照步驟1032中獲取的特征向量對應(yīng)的特征值,取k個特征值較高的特征向量,具體地,可以按照特征值從大到小對步驟1032中獲取的特征向量進行排序,然后取前k個特征向量。
假設(shè)A是n階方陣,如果數(shù)λ和n維非零列向量x使關(guān)系式Ax=λx成立,那么數(shù)λ稱為矩陣A特征值,非零向量x稱為A的對應(yīng)于特征值λ的特征向量。
步驟1034,獲取k個特征向量中每m個特征向量之間的數(shù)學(xué)計算值作為第一特征向量,這里m為大于或等于2,且小于k的自然數(shù)。這里的數(shù)學(xué)計算值可以是m個特征向量的任意數(shù)據(jù)運算后得到的值,比如相加或相乘等。
如果程序文件的處理裝置將獲取的k個特征向量中每兩個特征向量的余弦夾角作為第一特征向量,既可以表達各個鄰接節(jié)點的連接關(guān)系,且可以針對不同的函數(shù)依賴圖得到相同維度的特征向量,有利于對比。
可見,本實施例中,程序文件的處理裝置在獲取了函數(shù)依賴圖中各個鄰接節(jié)點之間的關(guān)系信息對應(yīng)的特征向量后,為了便于在后續(xù)聚類或分類處理中與待處理程序文件進行對比,還需要對這些特征向量做統(tǒng)一量化處理,即統(tǒng)一提取出k個特征向量后,再經(jīng)過一定的數(shù)學(xué)計算最終得到第一特征向量。
本發(fā)明實施例還提供一種程序文件的處理裝置,其結(jié)構(gòu)示意圖如圖4所示,具體可以包括:
依賴圖獲取單元10,用于獲取樣本程序文件的函數(shù)依賴圖,所述函數(shù)依賴圖中包括多個節(jié)點;
關(guān)系信息獲取單元11,用于獲取所述依賴圖獲取單元10獲取的函數(shù)依賴圖所包括的多個節(jié)點中各個鄰接節(jié)點之間的關(guān)系信息;
特征獲取單元12,用于根據(jù)所述關(guān)系信息獲取單元11獲取的關(guān)系信息獲取所述各個鄰接節(jié)點之間的關(guān)系的特征作為函數(shù)依賴圖的第一特征向量;
應(yīng)用處理單元13,用于根據(jù)所述特征獲取單元12獲取的第一特征向量對待處理程序文件進行聚類或分類處理。具體地,所述應(yīng)用處理單元13主要獲取所述待處理程序文件的函數(shù)依賴圖的第二特征向量,根據(jù)所述第一特征向量和第二特征向量的相似度確定所述待處理程序文件的類型。其中,該應(yīng)用處理單元13
在本實施例的程序文件處理裝置中,主要是依賴圖獲取單元10先獲取樣 本程序文件的函數(shù)依賴圖,并特征獲取單元12根據(jù)函數(shù)依賴圖所包括的多個節(jié)點中各個鄰接節(jié)點之間的關(guān)系信息,獲取函數(shù)依賴圖的第一特征向量,最后應(yīng)用處理單元13可以將第一特征向量應(yīng)用到待處理程序文件的聚類或分類處理中。這樣如果將樣本程序文件的函數(shù)依賴圖的特征即上述第一特征向量作為識別惡意程序文件的基準,可以應(yīng)對惡意程序文件的更新和新出現(xiàn)的惡意程序文件;進一步地,由于一個程序文件的函數(shù)依賴圖的特征較多,為了減少程序文件的處理裝置的計算量,且有利于后續(xù)應(yīng)用中與待處理程序文件對比,本發(fā)明實施例中只是將樣本程序文件的函數(shù)依賴圖中所包括的鄰接節(jié)點的關(guān)系特征作為聚類或分類應(yīng)用的基準。
參考圖5所示,在一個具體的實施例中,程序文件的處理裝置中所包括的關(guān)系信息獲取單元11具體可以通過轉(zhuǎn)化單元111和計算單元112來實現(xiàn),其中:
轉(zhuǎn)化單元111,用于將所述依賴圖獲取單元10獲取的函數(shù)依賴圖轉(zhuǎn)化為鄰接矩陣,所述鄰接矩陣為n*n的矩陣,所述n為所述函數(shù)依賴圖所包括節(jié)點的節(jié)點數(shù);
計算單元112,用于根據(jù)所述轉(zhuǎn)化單元111轉(zhuǎn)化得到的鄰接矩陣計算轉(zhuǎn)移概率矩陣,將所述轉(zhuǎn)移概率矩陣作為所述各個鄰接節(jié)點之間的關(guān)系信息,或?qū)λ鲛D(zhuǎn)移概率矩陣進行至少一次處理后得到的矩陣作為所述各個鄰接節(jié)點之間的關(guān)系信息。其中,所述計算單元112對所述轉(zhuǎn)移概率矩陣進行的至少一次處理包括:對所述轉(zhuǎn)移概率矩陣做拉普拉斯變換得到拉普拉斯矩陣。
本實施例中,當(dāng)計算單元112計算得到個鄰接節(jié)點之間的關(guān)系信息后,特征獲取單元12可以具體用于獲取所述轉(zhuǎn)移概率矩陣對應(yīng)的特征向量作為所述第一特征向量,或獲取對所述轉(zhuǎn)移概率矩陣進行至少一次處理后得到的矩陣對應(yīng)的特征向量作為所述第一特征向量。
為了便于在后續(xù)應(yīng)用處理單元13在聚類或分類處理中與待處理程序文件進行對比,在另一個具體實施例中,當(dāng)計算單元112計算得到個鄰接節(jié)點之間的關(guān)系信息后,特征獲取單元12,具體用于獲取所述轉(zhuǎn)移概率矩陣對應(yīng)的特征向量,或獲取對所述轉(zhuǎn)移概率矩陣進行至少一次處理后得到的矩陣對應(yīng)的特征向量;按照所述獲取的特征向量對應(yīng)的特征值,取k個特征值較高的特征向量;獲取所述k個特征向量中每m個特征向量之間的數(shù)學(xué)計算值作為所述第 一特征向量,所述m為大于或等于2,且小于所述k的自然數(shù)。具體地,所述m為2,所述數(shù)學(xué)計算值為2個特征向量之間的余弦夾角。
本發(fā)明實施例還提供一種程序文件的處理裝置,其結(jié)構(gòu)示意圖如圖6所示,該程序文件的處理裝置可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個或一個以上中央處理器(central processing units,CPU)20(例如,一個或一個以上處理器)和存儲器21,一個或一個以上存儲應(yīng)用程序221或數(shù)據(jù)222的存儲介質(zhì)22(例如一個或一個以上海量存儲設(shè)備)。其中,存儲器21和存儲介質(zhì)22可以是短暫存儲或持久存儲。存儲在存儲介質(zhì)22的程序可以包括一個或一個以上模塊(圖示沒標(biāo)出),每個模塊可以包括對程序文件的處理裝置中的一系列指令操作。更進一步地,中央處理器30可以設(shè)置為與存儲介質(zhì)22通信,在程序文件的處理裝置上執(zhí)行存儲介質(zhì)22中的一系列指令操作。
程序文件的處理裝置還可以包括一個或一個以上電源23,一個或一個以上有線或無線網(wǎng)絡(luò)接口24,一個或一個以上輸入輸出接口25,和/或,一個或一個以上操作系統(tǒng)223,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM等等。
上述方法實施例中所述的由程序文件的處理裝置所執(zhí)行的步驟可以基于該圖6所示的程序文件的處理裝置的結(jié)構(gòu)。
以下以一個具體的應(yīng)用實例來說明本發(fā)明實施例的方法,本實施例中主要是針對安卓系統(tǒng)的程序文件所執(zhí)行的方法,具體地:
(1)參考圖7所示,按照如下步驟獲取安卓程序的樣本文件對應(yīng)的特征向量:
步驟201,將安卓(Android Package,APK)程序的樣本文件,后續(xù)簡稱APK文件進行解壓,然后經(jīng)過反編譯處理為可閱讀形式,最后構(gòu)建該APK文件的函數(shù)依賴圖G。
這里APK文件是安卓操作系統(tǒng)上的應(yīng)用程序安裝文件格式,安卓應(yīng)用程序的代碼必須先進行編譯,然后被打包成為安卓系統(tǒng)所能識別的文件才可以被運行,這種文件格式即為APK格式。
步驟202,將函數(shù)依賴圖G轉(zhuǎn)化為鄰接矩陣A(G),A(G)為n*n的矩陣, n為函數(shù)依賴圖所包括節(jié)點的節(jié)點數(shù)。
步驟203,根據(jù)鄰接矩陣A(G)計算轉(zhuǎn)移概率矩陣D(G)。
步驟204,對轉(zhuǎn)移概率矩陣L(G)做拉普拉斯變換得到拉普拉斯矩陣L(G)。
步驟205,計算拉普拉斯矩陣L(G)的特征值(λ1,λ2,…λm)以及特征值所對應(yīng)的特征向量(μ1,μ2,…μh)。
步驟206,將步驟205特征向量按照對應(yīng)特征值從大到小排序,取前k個特征向量(μ1,μ2,…μk)。
步驟207,計算k個特征向量中每兩個特征向量之間的余弦夾角得到第一特征向量ν,其中:
ν=(C(μ1,μ2),C(μ1,μ3),…C(μ1,μk),C(μ2,μ3),…C(μ2,μk),…C(μk-1,μk))
(2)根據(jù)上述得到的第一特征向量對待處理的程序文件進行聚類或分類,具體地,可以按照如上步驟201到207的方法得到待處理的程序文件對應(yīng)的第二特征向量,然后將第一特征向量和第二特征向量進行比較。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(ROM)、隨機存取存儲器RAM)、磁盤或光盤等。
以上對本發(fā)明實施例所提供的程序文件的處理方法及裝置進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。