專利名稱:由釣魚(yú)網(wǎng)頁(yè)查找目標(biāo)網(wǎng)頁(yè)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種由釣魚(yú)網(wǎng)頁(yè)查找目標(biāo)網(wǎng)頁(yè)的方法,主要從釣魚(yú)網(wǎng)頁(yè)與對(duì)應(yīng)目標(biāo)網(wǎng) 頁(yè)之間在文本和圖像特征之間的相似性來(lái)查找目標(biāo)網(wǎng)頁(yè),以更新釣魚(yú)檢測(cè)時(shí)所需要的白名單,屬于信息安全領(lǐng)域。
背景技術(shù):
釣魚(yú)網(wǎng)站是隨著網(wǎng)絡(luò)普及和在線交易的増加而變得異常猖獗的網(wǎng)絡(luò)詐騙行為。釣魚(yú)網(wǎng)站是犯罪分子模仿合法網(wǎng)頁(yè)做出的詐騙網(wǎng)站,釣魚(yú)網(wǎng)站通常與銀行網(wǎng)站或其他知名網(wǎng)站幾乎完全相同,從而引誘網(wǎng)站使用者在釣魚(yú)網(wǎng)站上提交出敏感信息,如用戶名、ロ令、銀行帳號(hào)或信用卡詳細(xì)信息等。最典型的網(wǎng)絡(luò)釣魚(yú)攻擊過(guò)程如下首先將用戶引誘到ー個(gè)通過(guò)精心設(shè)計(jì)與目標(biāo)組織的網(wǎng)站非常相似的釣魚(yú)網(wǎng)站上,然后獲取用戶在該釣魚(yú)網(wǎng)站上輸入的個(gè)人敏感信息,例如銀行帳號(hào)、銀行密碼等。通常這個(gè)攻擊過(guò)程不會(huì)讓受害者警覺(jué)。這些個(gè)人信息對(duì)釣魚(yú)網(wǎng)站持有者具有非常大的吸引力,通過(guò)使用竊取到的個(gè)人信息,他們可以假冒受害者進(jìn)行欺詐性金融交易,獲得極大的經(jīng)濟(jì)利益,而受害者們卻因此而遭受到巨大的經(jīng)濟(jì)損失,非但如此,被竊取的個(gè)人信息還可能被用于其他非法活動(dòng)。如何識(shí)別釣魚(yú)網(wǎng)站,如何保證網(wǎng)站信息傳輸?shù)谋C芡暾裕l(fā)的顯示出其重要性和必要性。大多數(shù)用戶會(huì)受騙,很多時(shí)候是由于釣魚(yú)網(wǎng)頁(yè)總是與真實(shí)網(wǎng)頁(yè)有高度的相似性。如果我們能從相似性的角度檢測(cè)釣魚(yú)網(wǎng)頁(yè),不失為ー個(gè)很好的方法。然而在釣魚(yú)檢測(cè)的過(guò)程中,除了釣魚(yú)檢測(cè)方法外,特征庫(kù)的好壞也直接影響到檢測(cè)的準(zhǔn)確率,如何能找到釣魚(yú)網(wǎng)頁(yè)的目標(biāo)網(wǎng)頁(yè),是本發(fā)明的研究重點(diǎn)。Zhang在2007年提出CANTINA[Zhang2007],該方法通過(guò)借助第三方工具,比如搜索引擎,來(lái)檢測(cè)釣魚(yú)網(wǎng)頁(yè),它首先統(tǒng)計(jì)網(wǎng)頁(yè)中詞的TF-IDF (TF-IDF,詞頻-反文檔頻率,是ー種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)字或詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度),把TF-IDF排序靠前的幾個(gè)詞條利用搜索引擎檢索,如果該網(wǎng)頁(yè)不出現(xiàn)在搜索結(jié)果的前面30個(gè)結(jié)果中,則認(rèn)為是釣魚(yú)網(wǎng)頁(yè)。該方法具有較高的精度和較小的誤判率。但是該方法只是基于網(wǎng)頁(yè)內(nèi)容的,對(duì)于ー種文字很少,圖片很多的網(wǎng)頁(yè),或者是文字在圖片中的網(wǎng)頁(yè)將無(wú)能為力。本發(fā)明將從文本和圖片兩種途徑提取關(guān)鍵詞,然后在多個(gè)搜索引擎上檢索,綜合多個(gè)搜索引擎的結(jié)果,最后再?gòu)膱D片角度利用圖像感知哈技術(shù)查找最相似的目標(biāo)網(wǎng)頁(yè)。[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina: A content-basedapproach to detecting phishing websites. WWW, 2007.
[Fu2006] Anthony Y. Fuj Wenyin Liuj Xiaotie Deng. Detecting PhishingWeb Pages with Visual similarity Assessment based on Earth Mover’ s Distance(EMD). IEEE Transactions on Dependable and Secure Computing, 2006,3(4),pages301-311.[Dong2010]X. Dong, J. A. Clark, J. L. Jacob. Defending the weakest丄ink: phishing websites detection by analysing user behaviours. SpringerScience+Business Media, LLC 2010.
[Cao2009]Jiuxin Caoj Bo Maoj Junzhou Luoj and Bo Liu. A Phishing Web PagesDetection Algorithm Based on Nested Structure of Earth Mover’ s Distance(Nested-EMD) · Chinese Journal of Computers. 2009,(05): 922-929.
[Chen2009]K.-T. Chen, J. -Y. Chen, C. -R. Huang, and C. -S. Chen. FightingPhishing with Discriminative Keypoint Features of Webpages. IEEE InternetComputing, 2009.
[Afroz2009]Sadia Afroz and Rachel Greenstadt. Phishzoo: An Automated WebPhishing Detection Approach Based on Profiling and Fuzzy Matching. TechnicalReport DU-CS-09-03,Drexel University, 2009.
[Henzinger2006]M. Henzinger. Finding near-duplicate Web pages: A丄arge—scale evaluation of algorithms. Proceedings of the Internationa丄 ACMSIGIR Conference on Research and Development in Information Retrieval, 2006.
發(fā)明內(nèi)容
技術(shù)問(wèn)題本發(fā)明提出的由釣魚(yú)網(wǎng)頁(yè)查找目標(biāo)網(wǎng)頁(yè)的方法,是ー種結(jié)合網(wǎng)頁(yè)文本和圖像特征,借用第三方工具和圖像感知哈希技術(shù)來(lái)查找目標(biāo)網(wǎng)頁(yè)的方法。釣魚(yú)者為了取得用戶的信任,他們通常會(huì)模仿合法網(wǎng)頁(yè)來(lái)構(gòu)建釣魚(yú)網(wǎng)頁(yè),所以ー個(gè)釣魚(yú)網(wǎng)頁(yè)與它的目標(biāo)網(wǎng)頁(yè)在視覺(jué)上是非常相似的,兩者之間是有很好的關(guān)聯(lián)性的。以往目標(biāo)網(wǎng)頁(yè)的檢測(cè)是通過(guò)人工識(shí)別的,本發(fā)明提出的方法是從相似性角度查找目標(biāo)網(wǎng)頁(yè),將更接近實(shí)際情況,同時(shí)可以保證釣魚(yú)檢測(cè)的高精度和低誤判率。技術(shù)方案大多數(shù)用戶會(huì)受騙,很多時(shí)候是由于釣魚(yú)網(wǎng)頁(yè)與真實(shí)網(wǎng)頁(yè)有高度的相似性。如果我們能從相似性的角度檢測(cè)釣魚(yú)網(wǎng)頁(yè),不失為ー個(gè)很好的方法。然而在釣魚(yú)檢測(cè)的過(guò)程中,除了釣魚(yú)檢測(cè)方法外,特征庫(kù)的好壞也直接影響到檢測(cè)的準(zhǔn)確率,本發(fā)明的研究重點(diǎn)就是如何能找到釣魚(yú)網(wǎng)頁(yè)的目標(biāo)網(wǎng)頁(yè)。如果能找到與其最相近的目標(biāo)網(wǎng)頁(yè),那么如果再次遇到該目標(biāo)網(wǎng)頁(yè)的釣魚(yú)網(wǎng)頁(yè),就能很好地被檢測(cè)出來(lái),提高檢測(cè)的準(zhǔn)確率。由釣魚(yú)網(wǎng)頁(yè)查找目標(biāo)網(wǎng)頁(yè)的方法,首先從網(wǎng)頁(yè)標(biāo)題、主體和網(wǎng)頁(yè)圖片中提取關(guān)鍵詞,組成該釣魚(yú)網(wǎng)頁(yè)的詞匯簽名;然后在多個(gè)搜索引擎上用詞匯簽名進(jìn)行檢索,綜合這些搜索引擎的結(jié)果,找出最相近的前K個(gè)網(wǎng)頁(yè),K為整數(shù);將這K個(gè)網(wǎng)頁(yè)和釣魚(yú)網(wǎng)頁(yè)以圖片形式保存,提取圖像感知哈希序列,最后分別計(jì)算這K個(gè)網(wǎng)頁(yè)圖片與釣魚(yú)網(wǎng)頁(yè)圖片之間海明距離,根據(jù)距離的大小可以選出該釣魚(yú)網(wǎng)頁(yè)的一個(gè)或者多個(gè)目標(biāo)網(wǎng)頁(yè)。該方法主要包括詞匯簽名的生成部分、多個(gè)搜索引擎檢索部分、圖像感知哈希序列的生成及匹配部分。詞匯簽名的生成部分需要的步驟如下
步驟11)分別從網(wǎng)頁(yè)標(biāo)題和主體中提取純文本文字;
步驟12)獲取網(wǎng)頁(yè)中的圖片,通過(guò)光學(xué)字符識(shí)別OCR技術(shù)提取出嵌在圖片中的文字; 步驟13)綜合網(wǎng)頁(yè)標(biāo)題、主體和圖片中的文字,計(jì)算這些文字的詞頻-反文檔頻率TF-IDF值,由前5個(gè)最高TF-IDF的詞構(gòu)成ー個(gè)詞匯簽名;
多個(gè)搜索引擎檢索部分需要的步驟如下
步驟21)將生成的詞匯簽名分別在N個(gè)搜索引擎上進(jìn)行檢索,N為整數(shù);
步驟22)找出至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)頁(yè),組成一個(gè)網(wǎng)頁(yè)列表;
步驟23)由公式1、2、3計(jì)算網(wǎng)頁(yè)列表中各個(gè)網(wǎng)頁(yè)的相關(guān)度;
權(quán)利要求
1.一種由釣魚(yú)網(wǎng)頁(yè)查找目標(biāo)網(wǎng)頁(yè)的方法,其特征在于首先從網(wǎng)頁(yè)標(biāo)題、主體和網(wǎng)頁(yè)圖片中提取關(guān)鍵詞,組成該釣魚(yú)網(wǎng)頁(yè)的詞匯簽名;然后在多個(gè)搜索引擎上用詞匯簽名進(jìn)行檢索,綜合這些搜索引擎的結(jié)果,找出最相近的前K個(gè)網(wǎng)頁(yè),K為整數(shù);將這K個(gè)網(wǎng)頁(yè)和釣魚(yú)網(wǎng)頁(yè)以圖片形式保存,提取圖像感知哈希序列,最后分別計(jì)算這K個(gè)網(wǎng)頁(yè)圖片與釣魚(yú)網(wǎng)頁(yè)圖片之間海明距離,根據(jù)距離的大小選出該釣魚(yú)網(wǎng)頁(yè)的一個(gè)或者多個(gè)目標(biāo)網(wǎng)頁(yè); 該方法主要包括詞匯簽名的生成部分、多個(gè)搜索引擎檢索部分、圖像感知哈希序列的生成及匹配部分; 詞匯簽名的生成部分需要的步驟如下 步驟11)分別從網(wǎng)頁(yè)標(biāo)題和主體中提取純文本文字; 步驟12)獲取網(wǎng)頁(yè)中的圖片,通過(guò)光學(xué)字符識(shí)別OCR技術(shù)提取出嵌在圖片中的文字; 步驟13)綜合網(wǎng)頁(yè)標(biāo)題、主體和圖片中的文字,計(jì)算這些文字的詞頻-反文檔 頻率TF-IDF值,由前5個(gè)最高TF-IDF的詞構(gòu)成一個(gè)詞匯簽名; 多個(gè)搜索引擎檢索部分需要的步驟如下 步驟21)將生成的詞匯簽名分別在N個(gè)搜索引擎上進(jìn)行檢索,N為整數(shù); 步驟22)找出至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)頁(yè),組成一個(gè)網(wǎng)頁(yè)列表; 步驟23)由公式1、2、3計(jì)算網(wǎng)頁(yè)列表中各個(gè)網(wǎng)頁(yè)的相關(guān)度; U2,l ·■ ■■ UN,I Ii·\ ntln 產(chǎn)\■■■··■ _■m mμ ·(I) ■ ■m ■■ ■■ m ■ _Ul,Nr U2,Nr ■■ ■· UN,Nr _ 其中,uU表示第i個(gè)搜索引擎的檢索結(jié)果中排名為j的網(wǎng)址,1=1,2,......,N,J=U,......,Nr, N 與Ff.均為整數(shù);'N-(Ri ,-I)f1 Wu = ^^^ ……,構(gòu)⑵ Oeke 其中,表示第i個(gè)搜索引擎中的排名為j的相關(guān)度I表示一個(gè)搜索引擎所取的搜索結(jié)果總數(shù)Aij表示第i個(gè)搜索引擎中的第j個(gè)結(jié)果的排名為j鳥(niǎo)=J ;Uy表示第i個(gè)搜索引擎的檢索結(jié)果中排名為j的網(wǎng)址,如果1^ 只在一個(gè)搜索引擎中出現(xiàn),那么= 0 ;UP表示至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)址,P = 1,2,......,M,M為整數(shù)且M < N*Nr ; H Hs = ΣΣ , ο)P W j-1K0J Kj-uPiP = 1,2,......,Μ 其中,5V表示 在N個(gè)搜索引擎中的相關(guān)度之和;%表示至少出現(xiàn)在兩個(gè)搜索引擎結(jié)果中的網(wǎng)址,P = IA......M為整數(shù)且M <N*Nr 表示第i個(gè)搜索引擎的搜索結(jié)果中排名為j的網(wǎng)址,如果只在一個(gè)搜索引擎中出現(xiàn),那么= O 表示第i個(gè)搜索引擎中的排名為j的相關(guān)度,N與AT,均為整數(shù); 步驟24)由公式3和4計(jì)算出前K個(gè)相關(guān)度高的網(wǎng)頁(yè),認(rèn)為這K個(gè)網(wǎng)頁(yè)與該 釣魚(yú)網(wǎng)頁(yè)最相關(guān),作為該釣魚(yú)網(wǎng)頁(yè)的候選目標(biāo)網(wǎng)頁(yè),K為不大于的整數(shù);
全文摘要
本發(fā)明是一種由釣魚(yú)網(wǎng)頁(yè)查找目標(biāo)網(wǎng)頁(yè)的方法,首先從網(wǎng)頁(yè)文本和網(wǎng)頁(yè)圖片中提取關(guān)鍵詞,組成該釣魚(yú)網(wǎng)頁(yè)的詞匯簽名,然后在多個(gè)搜索引擎上用詞匯簽名進(jìn)行檢索,綜合這些搜索引擎的結(jié)果,找出最相近的前K個(gè)網(wǎng)頁(yè),將這K個(gè)網(wǎng)頁(yè)和釣魚(yú)網(wǎng)頁(yè)以圖片形式保存,提取圖像感知哈希序列,最后分別計(jì)算這K個(gè)網(wǎng)頁(yè)圖片與釣魚(yú)網(wǎng)頁(yè)圖片之間的海明距離,根據(jù)距離的大小可以選出該釣魚(yú)網(wǎng)頁(yè)模仿的一個(gè)或者多個(gè)合法網(wǎng)頁(yè),即目標(biāo)網(wǎng)頁(yè)。
文檔編號(hào)G06F17/30GK102629261SQ20121005117
公開(kāi)日2012年8月8日 申請(qǐng)日期2012年3月1日 優(yōu)先權(quán)日2012年3月1日
發(fā)明者周國(guó)富, 周國(guó)強(qiáng), 張衛(wèi)豐, 張迎周, 王慕妮, 田先桃, 許碧歡, 陸柳敏, 顧賽賽 申請(qǐng)人:南京郵電大學(xué)