反編譯中基于子圖同構(gòu)匹配算法的內(nèi)在函數(shù)識別方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明屬于反編譯
技術(shù)領(lǐng)域:
,涉及一種反編譯中對內(nèi)聯(lián)內(nèi)在函數(shù)的識別方法,具體涉及一種反編譯中基于子圖同構(gòu)匹配算法的內(nèi)在函數(shù)識別方法?!?br>背景技術(shù):
】[0002]反編譯技術(shù)最早出現(xiàn)在60年代,主要是為了實現(xiàn)代碼的跨平臺移植,目前已經(jīng)被廣泛運用到程序理解,源代碼恢復(fù),程序調(diào)試,安全分析等各個方面。反編譯軟件包括前端,中間端和后端。前端包括加載器、軟件解析單元和解碼器。加載器加載可執(zhí)行文件,反匯編得到匯編代碼,反編譯軟件再將匯編程序組織成相應(yīng)的數(shù)據(jù)結(jié)構(gòu),如符號表、符號地址表、過程體入口地址表、指令鏈表等;軟件解析單元將特定系統(tǒng)架構(gòu)的寄存器信息、標(biāo)志位函數(shù)和指令解碼信息等組織成相應(yīng)的數(shù)據(jù)結(jié)構(gòu),在解碼階段使用;解碼器解碼匯編指令序列,根據(jù)控制流重構(gòu)算法構(gòu)造出匯編程序的控制流圖。中間端是反編譯流程中最重要的部分,該部分主要包括數(shù)據(jù)流分析,控制流分析和類型分析。數(shù)據(jù)流分析通過活躍變量分析來消除無用代碼,傳播表達式,確定被調(diào)用過程體的參數(shù)和返回值等;控制流分析根據(jù)結(jié)構(gòu)化算法,將控制流圖中的節(jié)點按照其在控制流圖中的位置分成不同的類別,如順序代碼塊、分支代碼塊和循環(huán)代碼塊等;類型分析從機器指令的操作碼、庫函數(shù)的簽名和常數(shù)的值等多處獲取基本類型信息,然后利用類型推導(dǎo)規(guī)則推導(dǎo)其他變量的類型,從而使得生成的高級代碼的可讀性更強。后端是高級代碼的生成,通過遍歷控制流圖,依據(jù)每一個基本塊的類型,分別生成順序、分支和循環(huán)的代碼。[0003]目前的主流反編譯軟件包括Hex-Rays,Phoenix,RetargetableDecompiler,Boomerang等。Hex-Rays是基于當(dāng)前最流行的商業(yè)反匯編器IDA開發(fā)的具有反編譯功能的插件,可以將匯編指令轉(zhuǎn)化為微指令代碼,然后進行全局優(yōu)化、局部優(yōu)化、結(jié)構(gòu)化分析和類型分析來提高微指令代碼的抽象水平。Hex-Rays能識別出大概三分之一的內(nèi)在函數(shù)。Phoenix在反編譯軟件BAP的基礎(chǔ)上,將x86匯編指令流轉(zhuǎn)化為中間語言BIL,Phoenix沒有在匯編代碼或者BIL上進行習(xí)語的檢測,但Phoenix提供了20種模式,可以簡化由gcc編譯器產(chǎn)生的指令代碼。RetargetableDecompiler利用窺孔優(yōu)化算法實現(xiàn)了在LLVMIR代碼上的習(xí)語檢測,基于不同的ISA產(chǎn)生的IR變化很大,同時一條匯編指令對應(yīng)幾條復(fù)雜的LLVMIR語句,使得反編譯的效率不高。Boomerang是一款在UQBT二進制翻譯的基礎(chǔ)上,面向多種架構(gòu)實現(xiàn)的開源反編譯系統(tǒng),可以實現(xiàn)PowerPC、Spare和X86等多種體系結(jié)構(gòu)的可執(zhí)行程序的反編譯。Boomerang中沒有實現(xiàn)對內(nèi)聯(lián)內(nèi)在函數(shù)的識別。[0004]程序中為了實現(xiàn)特定的功能通常包含大量的函數(shù),如用戶函數(shù)、系統(tǒng)函數(shù)等。內(nèi)在函數(shù)也叫內(nèi)建函數(shù),是編譯器內(nèi)部的函數(shù),既不屬于庫函數(shù)也不屬于系統(tǒng)函數(shù)。雖然不同類型函數(shù)在二進制文件中的表現(xiàn)存在差異,但都是特定功能的代碼片段,都能給出與調(diào)用點上下文相關(guān)的變量的類型信息,所以如果能識別出這些函數(shù),不僅能夠大幅減少代碼的分析量,為后續(xù)分析提供類型信息,同時也能提高反編譯結(jié)果的可讀性,提高分析效率。在現(xiàn)有常規(guī)的反編譯軟件中,對于庫函數(shù)的識別主要采用基于模式匹配的識別方法,Hex-Rays采用Flirt算法,根據(jù)庫函數(shù)對應(yīng)的二進制字節(jié)流信息,構(gòu)建函數(shù)的簽名信息,通過匹配函數(shù)簽名信息識別恢復(fù)庫函數(shù)。如C語言中常見的庫函數(shù)strlen、strcpy、strcmp、memcmp,這類庫函數(shù)也作為編譯器的內(nèi)在函數(shù),在編譯優(yōu)化選項下,函數(shù)體在函數(shù)調(diào)用點內(nèi)聯(lián)展開函數(shù)體語句,F(xiàn)lirt算法構(gòu)建的字節(jié)流函數(shù)簽名,不能有效的表示指令語句之間的控制流關(guān)系,無法高效地識別出該類函數(shù),導(dǎo)致對內(nèi)在函數(shù)的反編譯結(jié)果不完全,影響了最終產(chǎn)生的高級代碼的可讀性?!?br/>發(fā)明內(nèi)容】[0005]本發(fā)明的目的在于提供一種反編譯中基于子圖同構(gòu)匹配算法的內(nèi)在函數(shù)識別方法,能夠高效地實現(xiàn)對內(nèi)聯(lián)內(nèi)在函數(shù)的識別,減少類型分析和數(shù)據(jù)流分析的工作量,提高反編譯過程中的抽象層次,增強反編譯結(jié)果的可讀性和準(zhǔn)確性。[0006]為達到上述目的,本發(fā)明采用以下技術(shù)方案:[0007]-種反編譯中基于子圖同構(gòu)匹配算法的內(nèi)在函數(shù)識別方法,包括以下步驟:[0008]1)針對具體的編譯器,構(gòu)建該編譯器的內(nèi)在函數(shù)模板庫;[0009]2)基于反編譯軟件Boomerang將目標(biāo)匯編文件進行解碼,構(gòu)建出目標(biāo)匯編文件的匯編指令控制流圖;[0010]3)將內(nèi)在函數(shù)模板庫中的內(nèi)在函數(shù)模版與目標(biāo)匯編文件的匯編指令控制流圖進行子圖同構(gòu)匹配,識別目標(biāo)匯編文件中的目標(biāo)程序中內(nèi)聯(lián)的內(nèi)在函數(shù);[0011]4)結(jié)合內(nèi)在函數(shù)的原型和同構(gòu)映射關(guān)系恢復(fù)內(nèi)在函數(shù)的函數(shù)名、返回值、返回值類型和函數(shù)參數(shù)。[0012]所述步驟1)中的內(nèi)在函數(shù)模板庫的構(gòu)建方法包括以下步驟:[0013]a)選取具有內(nèi)在函數(shù)調(diào)用的程序作為樣本程序,在編譯器優(yōu)化選項下編譯樣本程序生成可執(zhí)行文件;[0014]b)利用IDA反匯編器反匯編可執(zhí)行文件,生成匯編文件,將匯編文件作為Boomerang反編譯器的輸入,Boomerang反編譯器對匯編文件進行加載和解碼,解碼模塊以連續(xù)的匯編指令為基本塊,以控制流關(guān)系為有向邊,構(gòu)建匯編文件的匯編指令控制流圖;[0015]c)提取基于匯編指令控制流圖的內(nèi)在函數(shù)的控制流子圖和匯編指令序列,作為內(nèi)在函數(shù)的模板,并插入到內(nèi)在函數(shù)模板庫中;[0016]d)重復(fù)步驟a)~c),構(gòu)造出通用計算機體系結(jié)構(gòu)所共有的內(nèi)在函數(shù)的內(nèi)在函數(shù)模板庫。[0017]所述的內(nèi)在函數(shù)模板庫針對具體編譯器的內(nèi)在函數(shù),將代表內(nèi)在函數(shù)特征的匯編指令控制流圖作為內(nèi)在函數(shù)的函數(shù)模板;將內(nèi)在函數(shù)對應(yīng)的所有函數(shù)模板以字典的形式組織,以內(nèi)在函數(shù)的鍵為內(nèi)在函數(shù)名稱,以內(nèi)在函數(shù)的值為模板鏈表;內(nèi)在函數(shù)的函數(shù)模板的匯編指令控制流圖的頂點由匯編指令組成的基本塊構(gòu)成,匯編指令控制流圖的邊由表示基本塊之間的控制流關(guān)系組成。[0018]所述步驟2)中構(gòu)建出的目標(biāo)匯編文件的匯編指令控制流圖是一個表示程序控制流變化的有向圖G=(N,E,entry,exit),其中entry表示程序唯一入口節(jié)點,exit表示程序唯一出口節(jié)點,N表示基本塊,E表示有向邊,G表示有向圖。[0019]所述步驟3)中子圖同構(gòu)匹配的具體步驟如下:[0020]A)對匹配狀態(tài)進行初始化,初始狀態(tài)S=Stl,初始狀態(tài)的子圖同構(gòu)映射集M(S(>)=0,初始狀態(tài)的候選節(jié)點對集P(Stl)=KTdB1),(T1,B2)…(TpBn)},其中S為當(dāng)前匹配狀態(tài)集,Stl為初始狀態(tài)的匹配狀態(tài)集,Tl為模板入口基本塊,Bl為目標(biāo)控制流圖第1個基本塊,Bn為目標(biāo)控制流圖第η個基本塊;[0021]Β)從內(nèi)在函數(shù)模板庫中取出一個函數(shù)模板;[0022]C)利用VF2子圖同構(gòu)匹配算法進行圖模式匹配和基本塊語義匹配,根據(jù)當(dāng)前匹配狀態(tài)集S以及目標(biāo)控制流圖與模板子圖的拓?fù)浣Y(jié)構(gòu),計算出當(dāng)前候選節(jié)點對集P(S),并對當(dāng)前候選節(jié)點對集P(S)中的每一個候選節(jié)點對P進行基本塊語義匹配,若匹配成功,則更新匹配狀態(tài)集為S',同時將候選節(jié)點對P添加到當(dāng)前子圖同構(gòu)映射集M(S')中,并更新候選節(jié)點對集為P(S');繼續(xù)對匹配狀態(tài)集S'進行匹配,如果匹配成功,則繼續(xù)匹配;否則回溯到匹配狀態(tài)集S繼續(xù)匹配;直至子圖同構(gòu)映射集包含模板子圖的全部基本塊,則當(dāng)前內(nèi)在函數(shù)模板匹配成功;[0023]D)在目標(biāo)控制流圖中標(biāo)記匹配成功的函數(shù)模板中的所有基本塊,通過狀態(tài)回溯算法繼續(xù)匹配目標(biāo)控制流圖中存在的其他函數(shù)模板,直至當(dāng)前候選節(jié)點對集P(S)為空,表示當(dāng)前函數(shù)模板匹配結(jié)束;否則當(dāng)前函數(shù)模板匹配失敗,轉(zhuǎn)至步驟B),依次取其它函數(shù)模板進行子圖同構(gòu)匹配,直至內(nèi)在函數(shù)模板庫中的函數(shù)模板匹配完畢。[0024]所述的基本塊語義匹配,是用來對比內(nèi)在函數(shù)模板中的基本塊和目標(biāo)控制流圖中的待匹配基本塊之間語義是否一致的方法;基本塊的語義由基本塊的匯編指令序列表示,將基本塊的匯編指令操作碼序列作為語義匹配的標(biāo)準(zhǔn);同時基本塊語義匹配滿足以下要求:內(nèi)在函數(shù)模板中的基本塊的匯編指令當(dāng)前第1頁1 2 3 4