欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于腳本特征的網(wǎng)頁(yè)聚類方法

文檔序號(hào):6363855閱讀:183來(lái)源:國(guó)知局
專利名稱:一種基于腳本特征的網(wǎng)頁(yè)聚類方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)頁(yè)聚類,尤其涉及一種基于網(wǎng)頁(yè)包含的腳本程序片段的特征進(jìn)行相似頁(yè) 面聚類的方法,屬于計(jì)算機(jī)安全技術(shù)領(lǐng)域。技術(shù)背景目前互聯(lián)網(wǎng)已經(jīng)成了傳播惡意程序的重要途徑。近兩年來(lái),木馬病毒已經(jīng)成為惡意代 碼發(fā)展的主要方向。通過(guò)在網(wǎng)頁(yè)上掛馬,利用瀏覽器及其插件的漏洞,獲得執(zhí)行權(quán)限,進(jìn) 而劫持瀏覽器,植入木馬病毒,是當(dāng)前木馬病毒傳播的主要途徑。目前檢測(cè)網(wǎng)頁(yè)掛馬的檢測(cè)方法很多,其中包括靜態(tài)和動(dòng)態(tài)的方法,但要準(zhǔn)確的判斷網(wǎng) 頁(yè)中是否存在掛馬行為,需要針對(duì)網(wǎng)頁(yè)進(jìn)行大量的運(yùn)算。但目前互聯(lián)上網(wǎng)頁(yè)數(shù)量呈爆*'卜工 增長(zhǎng)的趨勢(shì),根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2008年1月發(fā)布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展 狀況統(tǒng)計(jì)報(bào)告》,我國(guó)互聯(lián)網(wǎng)資源正在迅猛增長(zhǎng),域名、網(wǎng)站、網(wǎng)頁(yè)的年增長(zhǎng)率都超過(guò)60%, 2008年統(tǒng)計(jì)的域名總數(shù)為1193萬(wàn)個(gè),網(wǎng)站數(shù)量達(dá)150萬(wàn)個(gè),網(wǎng)頁(yè)數(shù)量達(dá)84.7億個(gè),其中 大部分論壇的網(wǎng)頁(yè)數(shù)量過(guò)萬(wàn),部分大規(guī)模網(wǎng)站如新浪網(wǎng)等,其頁(yè)面數(shù)量已超過(guò)千萬(wàn)幀。互 聯(lián)網(wǎng)上如此海量的頁(yè)面,對(duì)網(wǎng)馬檢測(cè)工作來(lái)說(shuō),是個(gè)巨大的挑戰(zhàn)。在實(shí)際掛馬場(chǎng)景中,攻擊者常會(huì)劫持同一個(gè)網(wǎng)站的一大批網(wǎng)頁(yè),如果要分析一個(gè)網(wǎng)站 的全部頁(yè)面,分析量會(huì)很大,但如果隨便選擇某站點(diǎn)的部分URL分析,卻又可能會(huì)造成 遺漏。考慮到掛馬網(wǎng)頁(yè)主要利用系統(tǒng)或?yàn)g覽器的漏洞,或下載可執(zhí)行文件等,除了直接用 object和xml漏洞攻擊以外,大部分網(wǎng)頁(yè)掛馬,都需要利用到script腳本的功能來(lái)協(xié)助計(jì)算 或運(yùn)行,所以,網(wǎng)頁(yè)中腳本語(yǔ)言片段的存在是網(wǎng)頁(yè)掛馬的關(guān)鍵。如果能找出這些腳本片段 之間的相似性,則可以預(yù)先對(duì)大批網(wǎng)頁(yè)進(jìn)行相似性聚類,對(duì)聚類后的同一類網(wǎng)頁(yè)部分抽樣 做詳細(xì)的檢測(cè),可以節(jié)省大量檢測(cè)資源。發(fā)明內(nèi)容本發(fā)明的目的在于提出一種基于腳本特征的網(wǎng)頁(yè)聚類方法。本方法根據(jù)網(wǎng)頁(yè)中的腳本片段進(jìn)行標(biāo)識(shí),將相似的網(wǎng)頁(yè)聚為一類。該方法可應(yīng)用到掛 馬網(wǎng)頁(yè)檢測(cè)分析的預(yù)處理過(guò)程,用于將同一網(wǎng)站頁(yè)面分類,對(duì)于同一集合的網(wǎng)頁(yè),只需選擇一部分抽樣進(jìn)行檢測(cè),從而可以節(jié)省大量檢測(cè)資源。本發(fā)明的主要思想是將網(wǎng)頁(yè)中script標(biāo)簽內(nèi)的代碼片斷提取出來(lái),將頁(yè)面的控制部分與 內(nèi)容部分分離,對(duì)于具有相同控制部分的頁(yè)面,可認(rèn)為網(wǎng)頁(yè)具有相同的動(dòng)態(tài)行為,從向,f 以聚為一類。對(duì)于根據(jù)本發(fā)明方法所聚類到同一類的網(wǎng)頁(yè),只需抽樣檢測(cè)便可確定這一類 網(wǎng)頁(yè)的動(dòng)態(tài)特性,如是否被掛馬等。為了便于說(shuō)明,本發(fā)明定義如下概念1. 腳本片段(scriptfrag):網(wǎng)頁(yè)代碼中包含在同一對(duì)script標(biāo)簽內(nèi)的腳本代碼段,每個(gè) 代碼段定義為一個(gè)腳本片段;2. 腳本片段標(biāo)識(shí)(script frag id):對(duì)腳本片段作規(guī)格化處理后,進(jìn)行hash計(jì)算得到的 值,用這個(gè)值來(lái)標(biāo)識(shí)一個(gè)腳本片段;3. 網(wǎng)頁(yè)標(biāo)識(shí)(uriid):對(duì)整個(gè)網(wǎng)頁(yè)文件及其各級(jí)鏈接頁(yè)面中所有的腳本片段標(biāo)識(shí)進(jìn)行排 序處理后得到的序列進(jìn)行hash計(jì)算得到的值,用這個(gè)值來(lái)標(biāo)識(shí)網(wǎng)頁(yè)。具體來(lái)說(shuō),本發(fā)明方法以多個(gè)網(wǎng)頁(yè)作為聚類對(duì)象,包括a) 獲得網(wǎng)頁(yè)中的腳本片段及其各級(jí)鏈接頁(yè)面中的腳本片段;b) 對(duì)腳本片段作規(guī)格化處理后計(jì)算其特征值作為腳本片段標(biāo)識(shí);c) 將各個(gè)腳本片段標(biāo)識(shí)排序后計(jì)算該序列的特征值作為網(wǎng)頁(yè)標(biāo)識(shí);d) 將網(wǎng)頁(yè)標(biāo)識(shí)相同的網(wǎng)頁(yè)聚為一類。在本發(fā)明方法中,所述多個(gè)網(wǎng)頁(yè)可以是通過(guò)爬蟲等技術(shù)獲得的某個(gè)網(wǎng)站的所有頁(yè)面。 在本發(fā)明方法中,^驟a具體可通過(guò)下述方法實(shí)現(xiàn)i. 創(chuàng)建一URL隊(duì)列,將當(dāng)前頁(yè)面的URL加入所述隊(duì)列中;ii. 從所述隊(duì)列POP出一個(gè)URL,獲取該URL的頁(yè)面內(nèi)容并進(jìn)行處理iii. 當(dāng)遇到〈frame〉或〈iframe〉標(biāo)簽時(shí),如該標(biāo)簽存在src屬性,則將屬性值加入所述 隊(duì)列;iv. 當(dāng)遇到々cript〉標(biāo)簽時(shí),獲取該標(biāo)簽內(nèi)部的腳本片段;如該標(biāo)簽存在src屬性, 則獲取src屬性對(duì)象的script文件內(nèi)容,并將該文件內(nèi)容作為一個(gè)原始的腳本片段。在本發(fā)明方法中,歩驟b所述規(guī)格化處理的目的在于防止script中的參數(shù)被隨機(jī)化從 而產(chǎn)生大量形式不同但實(shí)質(zhì)相同的腳本片段。針對(duì)不同的聚類策略,可以采用或松或嚴(yán)的 規(guī)格化方案。常用的方式是將腳本片段中所有的參數(shù)列表和變量賦值替換為設(shè)定的字符。在本發(fā)明方法中,歩驟b和步驟c所述特征值可以是hash值,兩步驟中的hash值可 通過(guò)相同或不同的hash算法(如MD5、 SHA512等)計(jì)算得到。在本發(fā)明方法中,當(dāng)網(wǎng)頁(yè)多次鏈接至某個(gè)url時(shí),需要對(duì)該url指向的網(wǎng)頁(yè)作多次分析, 而這樣的多次分析并不必要。因此,在步驟a中,當(dāng)所述各級(jí)鏈接頁(yè)面中的多個(gè)頁(yè)面的鏈 接地址相同時(shí),僅獲得其中一個(gè)鏈接頁(yè)面中的腳本片段,以減少不必要的分析。網(wǎng)頁(yè)不僅可能多次引用同一網(wǎng)頁(yè),也有可能多次引用同一腳本代碼,對(duì)于同一腳本代 碼,作一次分析就可以。因此,在步驟c中,優(yōu)選按照各個(gè)腳本片段標(biāo)識(shí)由小到大的順序 排列,當(dāng)出現(xiàn)標(biāo)識(shí)相同的腳本片段時(shí),僅保留其中一個(gè),用于后續(xù)計(jì)算。和現(xiàn)有技術(shù)相比,本發(fā)明具有以下積極意義1. 在面向從未分析檢測(cè)過(guò)的網(wǎng)頁(yè)時(shí),相對(duì)于網(wǎng)頁(yè)掛馬檢測(cè)的運(yùn)算時(shí)間,計(jì)算網(wǎng)頁(yè)中 的腳本片斷標(biāo)識(shí)的運(yùn)算量要少很多,在進(jìn)行詳細(xì)深入的檢測(cè)之前,先使用腳本片斷標(biāo)識(shí)對(duì) 網(wǎng)頁(yè)進(jìn)行預(yù)處理,可從大量的網(wǎng)頁(yè)中聚類相似頁(yè)面,提高檢測(cè)效率;特別是對(duì)于論壇網(wǎng)站、 新聞網(wǎng)站等含有大量類似網(wǎng)頁(yè)的站點(diǎn),該方法具有非常好的效果;2. 當(dāng)需要為某個(gè)站點(diǎn)是否掛馬提供實(shí)時(shí)監(jiān)測(cè)時(shí),通過(guò)本發(fā)明方法可以判斷此站點(diǎn)的 網(wǎng)頁(yè)是否存在腳本更新,若該站點(diǎn)未修改其中的腳本片段,可以認(rèn)為該站點(diǎn)的頁(yè)面未添如 新的動(dòng)態(tài)內(nèi)容,通過(guò)這種方法可有效的判斷是否需要重新檢測(cè)該站點(diǎn)的頁(yè)面,從而極大的 提高監(jiān)測(cè)服務(wù)的能力。
具體實(shí)施方式
下面通過(guò)具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。 本實(shí)施例通過(guò)下述方法實(shí)現(xiàn)網(wǎng)頁(yè)聚類1. 通過(guò)爬蟲等技術(shù)獲得一個(gè)站點(diǎn)需要檢測(cè)的所有網(wǎng)頁(yè)的URL并存儲(chǔ)到數(shù)據(jù)庫(kù)中;;2. 針對(duì)該站點(diǎn)中的每個(gè)網(wǎng)頁(yè),進(jìn)行如下步驟的處理i. 創(chuàng)建一URL隊(duì)列,將當(dāng)前頁(yè)面的URL加入所述隊(duì)列中;ii. 從所述隊(duì)列POP出一個(gè)URL,獲取該URL的頁(yè)面內(nèi)容并進(jìn)行處理iii. 當(dāng)遇到《rame〉或〈iframe〉標(biāo)簽時(shí),如該標(biāo)簽存在src屬性,則將屬性值加入所述隊(duì)列;iv. 當(dāng)遇到〈scrip^標(biāo)簽時(shí),獲取該標(biāo)簽內(nèi)部的腳本片段;如該標(biāo)簽存在src屬性,則 通過(guò)網(wǎng)絡(luò)獲取該script文件內(nèi)容,并將該文件內(nèi)容作為一個(gè)原始的腳本片段。舉例來(lái)說(shuō),假設(shè)當(dāng)前頁(yè)面的html代碼為Uli current-<html>5<script .. >contentl </script><script src="urir,…></script〉<frame src = "url2,'…><iframe src= ',url3" ... > </iframe></html>當(dāng)前頁(yè)面中的各個(gè)鏈接頁(yè)面分別為urll:content2url2:<html><frame src="url3"...><script... >content3</script> ,<script... >content4</script></html>url3:<html><script ...>content4</script> <script ...>content5</script></html>則當(dāng)前網(wǎng)頁(yè)中的腳本片段及其各級(jí)鏈接頁(yè)面中的腳本片段依次包括contentl; content2; content3; content4; content4; content5; content4; content5。若在上述分析過(guò)程中考慮當(dāng)前頁(yè)面的各級(jí)鏈接中出現(xiàn)了兩個(gè)指向url3的鏈接的情況, 而對(duì)url3的第二次引用不作處理,則最終得到的腳本片段包括:contentl; content2;content3; content4; content4; content5,以下例證內(nèi)容以此為基礎(chǔ)。3.對(duì)上述腳本片段中的每個(gè)均作下列處理將所有的參數(shù)列表替換為"LvaU",同時(shí)將所有的賦值語(yǔ)句"=..."替換為"=—val」'。例如,假設(shè)contentl的內(nèi)容包括 function MMJumpMenu(targ,selObj,restore){ 〃v3.0 eval(targ+".location='"+selObj.options[selObj.selectedIndex].value+'""); if (restore) selObj.selectedIndex=0;則經(jīng)過(guò)上述規(guī)格化后,contentl變成function—MMJ umpMen(val」{〃v3.0;
if(_val_JselObj. selectedlndex=_val」
};
對(duì)每個(gè)腳本片段作上述規(guī)格化后,計(jì)算每個(gè)規(guī)格化后的腳本片段的md5值作為腳本片段標(biāo)識(shí),假設(shè)idl, id2, id3, id4, id5, id6依次表示上述腳本片段的標(biāo)識(shí)。
4. 按照上述五個(gè)腳本片段標(biāo)識(shí)的大小排序,排序過(guò)程中,由于id54d4,則僅保留id4,假設(shè)排序得到的序列是id6, idl, id3, id4, id2,計(jì)算這一序列的md5值作為當(dāng)前頁(yè)面的標(biāo)識(shí)。
5. 得到所有網(wǎng)頁(yè)的標(biāo)識(shí)后將標(biāo)識(shí)相同的網(wǎng)頁(yè)聚為一類。
在上述聚類結(jié)果的基礎(chǔ)上,從每一類中任選10個(gè)網(wǎng)頁(yè)進(jìn)行詳細(xì)檢測(cè)以確定該類網(wǎng)頁(yè)是否被掛馬,即可確定該網(wǎng)站是否被掛馬。
本發(fā)明發(fā)明人將本發(fā)明方法用于北京大學(xué)信息安全工程中心掛馬網(wǎng)頁(yè)檢測(cè)平臺(tái),取得了良好的效果,對(duì)于每個(gè)待檢測(cè)站點(diǎn),有效的將需要檢測(cè)的網(wǎng)頁(yè)規(guī)模縮小至1/30-1/50,實(shí)現(xiàn)了本發(fā)明的目的,并取得了很好的實(shí)用性和推廣應(yīng)用前景。
權(quán)利要求
1.一種基于腳本特征的網(wǎng)頁(yè)聚類方法,以多個(gè)網(wǎng)頁(yè)作為聚類對(duì)象,其步驟包括a)獲得網(wǎng)頁(yè)中的腳本片段及其各級(jí)內(nèi)嵌鏈接頁(yè)面中的腳本片段;b)對(duì)腳本片段作規(guī)格化處理后計(jì)算其特征值作為腳本片段標(biāo)識(shí);c)將各個(gè)腳本片段標(biāo)識(shí)排序后計(jì)算該序列的特征值作為網(wǎng)頁(yè)標(biāo)識(shí);d)將網(wǎng)頁(yè)標(biāo)識(shí)相同的網(wǎng)頁(yè)聚為一類。
2. 如權(quán)利要求1所述的網(wǎng)頁(yè)聚類方法,其特征在于,所述多個(gè)網(wǎng)頁(yè)是一個(gè)網(wǎng)站的所有頁(yè) 面。
3. 如權(quán)利要求1所述的網(wǎng)頁(yè)聚類方法,其特征在于,步驟a通過(guò)下列方法實(shí)現(xiàn)i. 創(chuàng)建一URL隊(duì)列,將當(dāng)前頁(yè)面的URL加入所述隊(duì)列中;ii. 從所述隊(duì)列POP出一個(gè)URL,獲取該URL的頁(yè)面內(nèi)容并進(jìn)行處理; 當(dāng)遇到〈frame〉或〈iframe〉標(biāo)簽時(shí),如該標(biāo)簽存在src屬性,則將屬性值加入所述隊(duì)列;iv. 當(dāng)遇到〈script〉標(biāo)簽時(shí),獲取該標(biāo)簽內(nèi)部的腳本片段;如該標(biāo)簽存在src屬性, 則獲取src屬性對(duì)象的script文件內(nèi)容,并將該文件內(nèi)容作為一個(gè)原始的腳本片段。
4. 如權(quán)利要求l所述的網(wǎng)頁(yè)聚類方法,其特征在于,步驟b所述規(guī)格化處理是 將腳本片段中所有的參數(shù)列表和變量賦值替換為設(shè)定的字符。
5. 如權(quán)利要求1所述的網(wǎng)頁(yè)聚類方法,其特征在于,步驟b和步驟c所述特征值均為hash 值,hash值可通過(guò)相同或不同的hash算法計(jì)算得到。
6. 如權(quán)利要求5所述的網(wǎng)頁(yè)聚類方法,其特征在于,所述hash值通過(guò)MD5或SHA512算法計(jì)算得到。
7. 如權(quán)利要求1所述的網(wǎng)頁(yè)聚類方法,其特征在于,在步驟a中,當(dāng)所述各級(jí)鏈接頁(yè)面 中的多個(gè)頁(yè)面的鏈接地址相同時(shí),僅獲得其中一個(gè)鏈接頁(yè)面中的腳本片段。
8. 如權(quán)利要求1所述的網(wǎng)頁(yè)聚類方法,其特征在于,歩驟c按照各個(gè)腳本片段標(biāo)識(shí)由小 到大的順序排列,當(dāng)出現(xiàn)標(biāo)識(shí)相同的腳本片段時(shí),僅保留其中一個(gè)。
全文摘要
本發(fā)明公開(kāi)了一種基于腳本特征的網(wǎng)頁(yè)聚類方法,屬于計(jì)算機(jī)安全技術(shù)領(lǐng)域。本發(fā)明方法以多個(gè)網(wǎng)頁(yè)作為聚類對(duì)象,包括a)獲得網(wǎng)頁(yè)中的腳本片段及其各級(jí)內(nèi)嵌鏈接頁(yè)面中的腳本片段;b)對(duì)腳本片段作規(guī)格化處理后計(jì)算其特征值作為腳本片段標(biāo)識(shí);c)將各個(gè)腳本片段標(biāo)識(shí)排序后計(jì)算該序列的特征值作為網(wǎng)頁(yè)標(biāo)識(shí);d)將網(wǎng)頁(yè)標(biāo)識(shí)相同的網(wǎng)頁(yè)聚為一類。本發(fā)明方法可用于掛馬網(wǎng)頁(yè)檢測(cè)分析的預(yù)處理過(guò)程,用于將同一網(wǎng)站頁(yè)面分類,對(duì)于同一集合的網(wǎng)頁(yè),只需選擇一部分抽樣進(jìn)行檢測(cè),從而可以節(jié)省大量檢測(cè)資源。
文檔編號(hào)G06F17/30GK101630325SQ20091009133
公開(kāi)日2010年1月20日 申請(qǐng)日期2009年8月18日 優(yōu)先權(quán)日2009年8月18日
發(fā)明者梁知音, 韜 韋, 龔曉銳 申請(qǐng)人:北京大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
灵武市| 谢通门县| 泗洪县| 墨脱县| 华宁县| 庆阳市| 沁阳市| 开鲁县| 华容县| 綦江县| 威远县| 化隆| 乌鲁木齐县| 平阳县| 闽清县| 隆化县| 仁怀市| 本溪市| 永泰县| 大竹县| 岚皋县| 永城市| 中西区| 明水县| 静乐县| 揭东县| 拜城县| 南开区| 湟中县| 通渭县| 永新县| 江永县| 呼伦贝尔市| 松溪县| 宣武区| 黑山县| 卢龙县| 平果县| 阿鲁科尔沁旗| 文登市| 霍林郭勒市|