應(yīng)用程序的分析方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種應(yīng)用程序的分析方法及裝置。
【背景技術(shù)】
[0002] 隨著計算機技術(shù)的快速發(fā)展,使用應(yīng)用程序的越來越多。開發(fā)者在開發(fā)一個應(yīng)用 程序后,通常需要將應(yīng)用程序上傳至應(yīng)用運營平臺,供用戶下載使用。為了保護應(yīng)用程序的 版權(quán),開發(fā)者將應(yīng)用程序上傳至應(yīng)用運營平臺時,需要先分析該應(yīng)用程序與應(yīng)用運營平臺 中已有的應(yīng)用程序是否存在創(chuàng)意及使用過程等方面上的相似性。若該應(yīng)用程序與應(yīng)用運營 平臺上已有的應(yīng)用程序較為相似,則可確定該應(yīng)用程序不是正版應(yīng)用程序,并禁止該應(yīng)用 程序上傳至應(yīng)用運營平臺。該判斷過程可以是由相關(guān)工作人員通過人工分析,判斷應(yīng)用程 序與應(yīng)用運營平臺上已有的應(yīng)用程序是否相似,根據(jù)判斷結(jié)果確定是否允許應(yīng)用程序上傳 至應(yīng)用運營平臺。
[0003] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)上述方法至少存在以下問題:
[0004] 由于在對應(yīng)用程序進行分析時,需要進行人工分析,而人工分析需要大量人員持 續(xù)投入,從而使得分析成本較高。另外,由于人工分析很難覆蓋到應(yīng)用運營平臺中所有的應(yīng) 用程序,因此,分析時采集的樣本有限,導(dǎo)致分析結(jié)果較為不準確。
【發(fā)明內(nèi)容】
[0005] 為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實施例提供了一種應(yīng)用程序的分析方法及裝 置。所述技術(shù)方案如下:
[0006] 第一方面,提供了一種應(yīng)用程序的分析方法,所述方法包括:
[0007] 獲取待發(fā)布的應(yīng)用程序安裝包;
[0008] 解析所述應(yīng)用程序安裝包;
[0009] 根據(jù)解析得到的應(yīng)用程序代碼,提取所述應(yīng)用程序安裝包的特征數(shù)據(jù),所述特征 數(shù)據(jù)包括代碼結(jié)構(gòu)特征數(shù)據(jù)、資源分布特征數(shù)據(jù)、代碼向量和代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù) 中至少一項;
[0010] 根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù)據(jù),進 行相似度分析,所述樣本安裝包為已發(fā)布的應(yīng)用程序安裝包;
[0011] 根據(jù)相似度分析結(jié)果,對應(yīng)用程序進行分析。
[0012] 結(jié)合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,所述根據(jù)解析得到的應(yīng) 用程序代碼,提取所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括:
[0013] 根據(jù)解析得到的應(yīng)用程序代碼中的目錄以及代碼文件之間的節(jié)點關(guān)系,確定代碼 結(jié)構(gòu)特征數(shù)據(jù);
[0014] 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù) 據(jù),進行相似度分析,包括:
[0015] 計算每個樣本安裝包的代碼結(jié)構(gòu)特征數(shù)據(jù)與所述應(yīng)用程序安裝包的代碼結(jié)構(gòu)特 征數(shù)據(jù)之間代碼結(jié)構(gòu)的相似度。
[0016]結(jié)合第一方面,在第一方面的第二種可能的實現(xiàn)方式中,所述根據(jù)解析得到的應(yīng) 用程序代碼,提取所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括:
[0017] 根據(jù)解析得到的應(yīng)用程序代碼在運行過程中所加載的數(shù)據(jù)文件的存儲路徑,得到 資源分布特征數(shù)據(jù);
[0018] 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù) 據(jù),進行相似度分析,包括:
[0019]計算每個樣本安裝包的每個資源分布特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每個資 源分布特征數(shù)據(jù)之間的樹編輯距離,根據(jù)每個樣本安裝包的每個資源分布特征數(shù)據(jù)與所述 應(yīng)用程序安裝包的每個資源分布特征數(shù)據(jù)之間的樹編輯距離,得到樹型文件相似度矩陣, 根據(jù)所述樹型文件相似度矩陣,計算資源分布的相似度。
[0020] 結(jié)合第一方面,在第一方面的第三種可能的實現(xiàn)方式中,所述根據(jù)解析得到的應(yīng) 用程序代碼,提取所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括:
[0021] 根據(jù)解析得到的應(yīng)用程序代碼中代碼執(zhí)行指令,確定代碼執(zhí)行指令對應(yīng)的權(quán)重, 所述代碼執(zhí)行指令包括指令代碼及操作數(shù)據(jù)對象;
[0022] 根據(jù)所述代碼執(zhí)行指令及對應(yīng)的權(quán)重,確定代碼向量;
[0023] 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù) 據(jù),進行相似度分析,包括:
[0024] 確定每個樣本安裝包的代碼向量與所述應(yīng)用程序安裝包的代碼向量之間的交集 及并集,將所述交集中數(shù)據(jù)的數(shù)量與所述并集中數(shù)據(jù)的數(shù)量之間的比值,作為代碼向量的 相似度。
[0025]結(jié)合第一方面,在第一方面的第四種可能的實現(xiàn)方式中,所述根據(jù)解析得到的應(yīng) 用程序代碼,提取所述應(yīng)用程序安裝包的特征數(shù)據(jù),包括:
[0026] 根據(jù)解析得到的應(yīng)用程序代碼的函數(shù)調(diào)用關(guān)系,確定代碼函數(shù)調(diào)用關(guān)系特征數(shù) 據(jù);
[0027] 所述根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與所述應(yīng)用程序安裝包的特征數(shù) 據(jù),進行相似度分析,包括:
[0028]計算每個樣本安裝包的每個代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)與所述應(yīng)用程序安裝包 的每個代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)之間的樹編輯距離,根據(jù)每個樣本安裝包的每個代碼函 數(shù)調(diào)用關(guān)系特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每個代碼函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)之間的樹 編輯距離,得到函數(shù)調(diào)用的相似度矩陣,根據(jù)所述函數(shù)調(diào)用的相似度矩陣,計算函數(shù)調(diào)用的 相似度。
[0029]結(jié)合第一方面至第一方面的第四種可能的實現(xiàn)方式中任一種可能的實現(xiàn)方式,在 第一方面的第五種可能的實現(xiàn)方式中,所述根據(jù)相似度分析結(jié)果,對應(yīng)用程序進行分析,包 括:
[0030] 根據(jù)樣本數(shù)據(jù)庫中每個樣本安裝包與所述應(yīng)用程序安裝包之間代碼結(jié)構(gòu)的相似 度數(shù)據(jù)、資源分布的相似度數(shù)據(jù)、代碼向量的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似度數(shù)據(jù),確定樣 本數(shù)據(jù)庫中每個樣本安裝包與所述應(yīng)用程序安裝包之間的綜合相似度;
[0031] 若存在大于正版閾值的綜合相似度,則確定所述應(yīng)用程序不為正版應(yīng)用程序。
[0032] 結(jié)合第一方面的第五種可能的實現(xiàn)方式,在第一方面的第六種可能的實現(xiàn)方式 中,所述根據(jù)樣本數(shù)據(jù)庫中每個樣本安裝包與所述應(yīng)用程序安裝包之間代碼結(jié)構(gòu)的相似度 數(shù)據(jù)、資源分布的相似度數(shù)據(jù)、代碼向量的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似度數(shù)據(jù),確定樣本 數(shù)據(jù)庫中每個樣本安裝包與所述應(yīng)用程序安裝包之間的綜合相似度,包括:
[0033] 將樣本數(shù)據(jù)庫中每個樣本安裝包與所述應(yīng)用程序安裝包之間代碼結(jié)構(gòu)的相似度 數(shù)據(jù)、資源分布的相似度數(shù)據(jù)、代碼向量的相似度數(shù)據(jù)及函數(shù)調(diào)用的相似度數(shù)據(jù)分別乘以 相應(yīng)的權(quán)重后進行疊加,將疊加結(jié)果作為樣本數(shù)據(jù)庫中每個樣本安裝包與所述應(yīng)用程序安 裝包之間的綜合相似度數(shù)據(jù)。
[0034] 第二方面,提供了一種應(yīng)用程序的分析裝置,所述裝置包括:
[0035] 獲取模塊,用于獲取待發(fā)布的應(yīng)用程序安裝包;
[0036] 解析模塊,用于解析所述獲取模塊獲取到的應(yīng)用程序安裝包;
[0037] 提取模塊,用于根據(jù)解析模塊解析得到的應(yīng)用程序代碼,提取所述應(yīng)用程序安裝 包的特征數(shù)據(jù),所述特征數(shù)據(jù)包括代碼結(jié)構(gòu)特征數(shù)據(jù)、資源分布特征數(shù)據(jù)、代碼向量和代碼 函數(shù)調(diào)用關(guān)系特征數(shù)據(jù)中至少一項;
[0038] 第一分析模塊,用于根據(jù)樣本數(shù)據(jù)庫中樣本安裝包的特征數(shù)據(jù)與提取模塊提取到 的所述應(yīng)用程序安裝包的特征數(shù)據(jù),進行相似度分析,所述樣本安裝包為已發(fā)布的應(yīng)用程 序安裝包;
[0039] 第二分析模塊,用于根據(jù)第一分析模塊分析到的相似度分析結(jié)果,對應(yīng)用程序進 行分析。
[0040] 結(jié)合第二方面,在第二方面的第一種可能的實現(xiàn)方式中,所述提取模塊,用于根據(jù) 解析模塊解析得到的應(yīng)用程序代碼中的目錄以及代碼文件之間的節(jié)點關(guān)系,確定代碼結(jié)構(gòu) 特征數(shù)據(jù);
[0041] 所述第一分析模塊,用于計算每個樣本安裝包的代碼結(jié)構(gòu)特征數(shù)據(jù)與所述應(yīng)用程 序安裝包的代碼結(jié)構(gòu)特征數(shù)據(jù)之間代碼結(jié)構(gòu)的相似度。
[0042] 結(jié)合第二方面,在第二方面的第二種可能的實現(xiàn)方式中,所述提取模塊,用于根據(jù) 解析模塊解析得到的應(yīng)用程序代碼在運行過程中所加載的數(shù)據(jù)文件的存儲路徑,得到資源 分布特征數(shù)據(jù);
[0043] 所述第一分析模塊,用于計算每個樣本安裝包的每個資源分布特征數(shù)據(jù)與所述應(yīng) 用程序安裝包的每個資源分布特征數(shù)據(jù)之間的樹編輯距離,根據(jù)每個樣本安裝包的每個資 源分布特征數(shù)據(jù)與所述應(yīng)用程序安裝包的每個資源分布特征數(shù)據(jù)之間的樹編輯距離,得到 樹型文件相似度矩陣,根據(jù)所述樹型文件相似度矩陣,計算資源分布的相似度。
[0044] 結(jié)合第二方面,在第二方面的第三種可能的實現(xiàn)方式中,所述提取模塊,用于根據(jù) 解析模塊解析得到的應(yīng)用程序代碼中代碼執(zhí)行指令,確定代碼執(zhí)行指令對應(yīng)的權(quán)重,所述 代碼執(zhí)行指令包括指令代碼及操作數(shù)據(jù)對象;
[0045