庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn)行相 似度分析,所述樣本安裝包為已發(fā)布的應(yīng)用程序安裝包; 根據(jù)相似度分析結(jié)果,對(duì)應(yīng)用程序進(jìn)行分析。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析得到的應(yīng)用程序代碼,提取 所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括: 根據(jù)解析得到的應(yīng)用程序代碼中的目錄W及代碼文件之間的節(jié)點(diǎn)關(guān)系,確定代碼結(jié)構(gòu) 特征數(shù)據(jù); 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn) 行相似度分析,包括: 計(jì)算每個(gè)樣本安裝包的代碼結(jié)構(gòu)特征數(shù)據(jù)與所述應(yīng)用程序安裝包的代碼結(jié)構(gòu)特征數(shù) 據(jù)之間代碼結(jié)構(gòu)的相似度。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析得到的應(yīng)用程序代碼,提取 所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括: 根據(jù)解析得到的應(yīng)用程序代碼在運(yùn)行過程中所加載的數(shù)據(jù)文件的存儲(chǔ)路徑,得到資源 分布特征數(shù)據(jù); 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn) 行相似度分析,包括: 計(jì)算每個(gè)樣本安裝包的每個(gè)資源分布特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每個(gè)資源分 布特征數(shù)據(jù)之間的樹編輯距離,根據(jù)每個(gè)樣本安裝包的每個(gè)資源分布特征數(shù)據(jù)與所述應(yīng)用 程序安裝包的每個(gè)資源分布特征數(shù)據(jù)之間的樹編輯距離,得到樹型文件相似度矩陣,根據(jù) 所述樹型文件相似度矩陣,計(jì)算資源分布的相似度。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析得到的應(yīng)用程序代碼,提取 所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括: 根據(jù)解析得到的應(yīng)用程序代碼中代碼執(zhí)行指令,確定代碼執(zhí)行指令對(duì)應(yīng)的權(quán)重,所述 代碼執(zhí)行指令包括指令代碼及操作數(shù)據(jù)對(duì)象; 根據(jù)所述代碼執(zhí)行指令及對(duì)應(yīng)的權(quán)重,確定代碼向量; 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn) 行相似度分析,包括: 確定每個(gè)樣本安裝包的代碼向量與所述應(yīng)用程序安裝包的代碼向量之間的交集及并 集,將所述交集中數(shù)據(jù)的數(shù)量與所述并集中數(shù)據(jù)的數(shù)量之間的比值,作為代碼向量的相似 度。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)解析得到的應(yīng)用程序代碼,提取 所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括: 根據(jù)解析得到的應(yīng)用程序代碼的函數(shù)調(diào)用關(guān)系,確定代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù); 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn) 行相似度分析,包括: 計(jì)算每個(gè)樣本安裝包的每個(gè)代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每 個(gè)代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)之間的樹編輯距離,根據(jù)每個(gè)樣本安裝包的每個(gè)代碼函數(shù)調(diào) 用關(guān)系特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每個(gè)代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)之間的樹編輯 距離,得到函數(shù)調(diào)用的相似度矩陣,根據(jù)所述函數(shù)調(diào)用的相似度矩陣,計(jì)算函數(shù)調(diào)用的相似 度。
6. 根據(jù)權(quán)利要求1至5中任一權(quán)利要求所述的方法,其特征在于,所述根據(jù)相似度分析 結(jié)果,對(duì)應(yīng)用程序進(jìn)行分析,包括: 根據(jù)樣本數(shù)據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之間代碼結(jié)構(gòu)的相似度數(shù) 據(jù)、資源分布的相似度數(shù)據(jù)、代碼向量的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似度數(shù)據(jù),確定樣本數(shù) 據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之間的綜合相似度; 若存在大于正版闊值的綜合相似度,則確定所述應(yīng)用程序不為正版應(yīng)用程序。
7. 根據(jù)權(quán)利要求6中所述的方法,其特征在于,所述根據(jù)樣本數(shù)據(jù)庫中每個(gè)樣本安裝 包與所述應(yīng)用程序安裝包之間代碼結(jié)構(gòu)的相似度數(shù)據(jù)、資源分布的相似度數(shù)據(jù)、代碼向量 的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似度數(shù)據(jù),確定樣本數(shù)據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程 序安裝包之間的綜合相似度,包括: 將樣本數(shù)據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之間代碼結(jié)構(gòu)的相似度數(shù)據(jù)、 資源分布的相似度數(shù)據(jù)、代碼向量的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似度數(shù)據(jù)分別乘W相應(yīng)的 權(quán)重后進(jìn)行疊加,將疊加結(jié)果作為樣本數(shù)據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之 間的綜合相似度數(shù)據(jù)。
8. -種應(yīng)用程序的分析裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取待發(fā)布的應(yīng)用程序安裝包; 解析模塊,用于解析所述獲取模塊獲取到的應(yīng)用程序安裝包; 提取模塊,用于根據(jù)解析模塊解析得到的應(yīng)用程序代碼,提取所述應(yīng)用程序安裝包的 特征數(shù)據(jù),所述特征數(shù)據(jù)包括代碼結(jié)構(gòu)特征數(shù)據(jù)、資源分布特征數(shù)據(jù)、代碼向量和代碼函數(shù) 調(diào)用關(guān)系特征數(shù)據(jù)中至少一項(xiàng); 第一分析模塊,用于根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與提取模塊提取到的所 述應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn)行相似度分析,所述樣本安裝包為已發(fā)布的應(yīng)用程序安 裝包; 第二分析模塊,用于根據(jù)第一分析模塊分析到的相似度分析結(jié)果,對(duì)應(yīng)用程序進(jìn)行分 析。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取模塊,用于根據(jù)解析模塊解析得 到的應(yīng)用程序代碼中的目錄W及代碼文件之間的節(jié)點(diǎn)關(guān)系,確定代碼結(jié)構(gòu)特征數(shù)據(jù); 所述第一分析模塊,用于計(jì)算每個(gè)樣本安裝包的代碼結(jié)構(gòu)特征數(shù)據(jù)與所述應(yīng)用程序安 裝包的代碼結(jié)構(gòu)特征數(shù)據(jù)之間代碼結(jié)構(gòu)的相似度。
10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取模塊,用于根據(jù)解析模塊解析 得到的應(yīng)用程序代碼在運(yùn)行過程中所加載的數(shù)據(jù)文件的存儲(chǔ)路徑,得到資源分布特征數(shù) 據(jù); 所述第一分析模塊,用于計(jì)算每個(gè)樣本安裝包的每個(gè)資源分布特征數(shù)據(jù)與所述應(yīng)用程 序安裝包的每個(gè)資源分布特征數(shù)據(jù)之間的樹編輯距離,根據(jù)每個(gè)樣本安裝包的每個(gè)資源分 布特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每個(gè)資源分布特征數(shù)據(jù)之間的樹編輯距離,得到樹型 文件相似度矩陣,根據(jù)所述樹型文件相似度矩陣,計(jì)算資源分布的相似度。
11. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取模塊,用于根據(jù)解析模塊解析 得到的應(yīng)用程序代碼中代碼執(zhí)行指令,確定代碼執(zhí)行指令對(duì)應(yīng)的權(quán)重,所述代碼執(zhí)行指令 包括指令代碼及操作數(shù)據(jù)對(duì)象; 根據(jù)所述代碼執(zhí)行指令及對(duì)應(yīng)的權(quán)重,確定代碼向量; 所述第一分析模塊,用于確定每個(gè)樣本安裝包的代碼向量與所述應(yīng)用程序安裝包的 代碼向量之間的交集及并集,將所述交集中數(shù)據(jù)的數(shù)量與所述并集中數(shù)據(jù)的數(shù)量之間的比 值,作為代碼向量的相似度。
12. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取模塊,用于根據(jù)解析模塊解析 得到的應(yīng)用程序代碼的函數(shù)調(diào)用關(guān)系,確定代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù); 所述第一分析模塊,用于計(jì)算每個(gè)樣本安裝包的每個(gè)代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)與所 述應(yīng)用程序安裝包的每個(gè)代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)之間的樹編輯距離,根據(jù)每個(gè)樣本安 裝包的每個(gè)代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每個(gè)代碼函數(shù)調(diào)用關(guān)系 特征數(shù)據(jù)之間的樹編輯距離,得到函數(shù)調(diào)用的相似度矩陣,根據(jù)所述函數(shù)調(diào)用的相似度矩 陣,計(jì)算函數(shù)調(diào)用的相似度。
13. 根據(jù)權(quán)利要求8至12中任一權(quán)利要求所述的裝置,其特征在于,所述第二分析模 塊,包括: 第一確定單元,用于根據(jù)樣本數(shù)據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之間代 碼結(jié)構(gòu)的相似度數(shù)據(jù)、資源分布的相似度數(shù)據(jù)、代碼向量的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似 度數(shù)據(jù),確定樣本數(shù)據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之間的綜合相似度; 第二確定單元,用于當(dāng)存在大于正版闊值的綜合相似度時(shí),則確定所述應(yīng)用程序不為 正版應(yīng)用程序。
14. 根據(jù)權(quán)利要求13中所述的裝置,其特征在于,所述第一確定單元,用于將樣本數(shù) 據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之間代碼結(jié)構(gòu)的相似度數(shù)據(jù)、資源分布的相 似度數(shù)據(jù)、代碼向量的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似度數(shù)據(jù)分別乘W相應(yīng)的權(quán)重后進(jìn)行疊 力口,將疊加結(jié)果作為樣本數(shù)據(jù)庫中每個(gè)樣本安裝包與所述應(yīng)用程序安裝包之間的綜合相似 度數(shù)據(jù)。
【專利摘要】本發(fā)明公開了一種應(yīng)用程序的分析方法及裝置,屬于計(jì)算機(jī)技術(shù)領(lǐng)域。方法包括:獲取待發(fā)布的應(yīng)用程序安裝包;解析應(yīng)用程序安裝包;根據(jù)解析得到的應(yīng)用程序代碼,提取應(yīng)用程序安裝包的特征數(shù)據(jù);根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn)行相似度分析;根據(jù)相似度分析結(jié)果,對(duì)應(yīng)用程序進(jìn)行分析。本發(fā)明提取應(yīng)用程序安裝包的特征數(shù)據(jù),根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與應(yīng)用程序安裝包的特征數(shù)據(jù),進(jìn)行相似度分析,根據(jù)相似度分析結(jié)果,確定應(yīng)用程序是否為正版應(yīng)用程序。由于可自動(dòng)對(duì)應(yīng)用進(jìn)行分析,從而降低了分析成本。另外,由于分析過程中采集的樣本數(shù)量較多,因此,分析結(jié)果較為準(zhǔn)確。
【IPC分類】G06F9-44, G06F17-30
【公開號(hào)】CN104572085
【申請(qǐng)?zhí)枴緾N201410812366
【發(fā)明人】羅繩禮, 周志林
【申請(qǐng)人】華為技術(shù)有限公司
【公開日】2015年4月29日
【申請(qǐng)日】2014年12月23日