欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于網(wǎng)頁關聯(lián)性的釣魚檢測方法

文檔序號:6353354閱讀:209來源:國知局
專利名稱:一種基于網(wǎng)頁關聯(lián)性的釣魚檢測方法
技術領域
本發(fā)明涉及一種釣魚網(wǎng)頁檢測的方法,主要從網(wǎng)頁之間的關聯(lián)性角度對釣魚網(wǎng)頁 進行匹配和識別,屬于信息安全領域。
背景技術
“釣魚網(wǎng)站”是隨著網(wǎng)絡普及和在線交易增加而變得異常猖獗的網(wǎng)絡詐騙行為。 “釣魚網(wǎng)站”是犯罪分子做出的詐騙網(wǎng)站,“釣魚網(wǎng)站”通常與銀行網(wǎng)站或其他知名網(wǎng)站幾乎 完全相同,從而引誘網(wǎng)站使用者在“釣魚網(wǎng)站”上提交出敏感信息(如用戶名、口令、帳號 ID、ATM、PIN碼或信用卡詳細信息等)[aiang2007]。圖1是釣魚網(wǎng)站的體系結構[Cao2009]。最典型的網(wǎng)絡釣魚攻擊過程如下首先將 用戶引誘到一個通過精心設計與目標組織的網(wǎng)站非常相似的釣魚網(wǎng)站上,然后獲取用戶在 該釣魚網(wǎng)站上輸入的個人敏感信息,例如銀行帳號、銀行密碼等。通常這個攻擊過程不會讓 受害者警覺。這些個人信息對釣魚網(wǎng)站持有者具有非常大的吸引力,通過使用竊取到的個 人信息,他們可以假冒受害者進行欺詐性金融交易,獲得極大的經(jīng)濟利益,而受害者們卻因 此而遭受到巨大的經(jīng)濟損失,非但如此,被竊取的個人信息還可能被用于其他非法活動。如 何識別釣魚網(wǎng)站,如何保證網(wǎng)站信息傳輸?shù)谋C芡暾?,愈發(fā)的顯示出其重要性和必要性。當前釣魚網(wǎng)站識別主要靠計算機自動識別和人工識別兩種方式,人工識別采用黑 名單機制,用戶對某個網(wǎng)站進行舉報,通過人工鑒定是否為釣魚網(wǎng)站,這樣顯然速度太慢。 計算機自動識別目前主要是基于頁面視覺相似性檢測方式判斷是否為釣魚網(wǎng)站,電腦通過 抽取網(wǎng)頁的視覺、文字特征與大多數(shù)主要的合法網(wǎng)站頁面進行相似度對比或進行機器學 習,從而判斷是否為釣魚網(wǎng)站。大多數(shù)用戶會受騙,很多時候是由于釣魚網(wǎng)頁總是與真實網(wǎng)頁有高度的相似性。 計算相似性的方法很多,文獻[Liu2005]、[Fu2006]、[Chen2009]、[Afroz2009]。正如[Dhamija2006]、[Jackson2007]、[Afroz2009]中提到的,由于人們一般都 比較注重自己瀏覽網(wǎng)頁的主要目的,進而忽視了安全性問題的提示,并且視覺欺騙率很高。 由此人們想到從視覺角度來檢測,基于視覺的檢測分為基于HMTL文本的檢測、基于布局 [Liu2005]、[Afroz2009]的檢測和基于圖像[Chen2009]的檢測。由于HMTL語言的靈活性 和網(wǎng)頁元素的動態(tài)性及豐富性,仿冒者可以輕易地做出視覺上一樣但是HMTL結構不同的 網(wǎng)頁,這樣,基于HMTL的匹配將會失效。基于布局特征和圖像特征的網(wǎng)頁相似檢測方法根 據(jù)人的視覺原理,對網(wǎng)頁的相似性進行計算,是一種通用的檢測方法,如2006年Fu等人提 出了一種基于像素的EMD距離的匹配算法[Fu2006],這種算法是在像素水平上從視覺的相 似性角度來察覺釣魚網(wǎng)頁的。從實驗結果可以看出效果要明顯好于基于HTML內(nèi)容的檢 測,但也有其局限性,該算法只考慮了網(wǎng)頁圖像中的顏色及其分布特點,沒有考慮網(wǎng)頁中不 同部分之間的位置關系。根據(jù)格斯塔視覺原理,相對位置在人的視覺中占主要地位,特別是 多個形體間的相對位置關系,相對位置關系的變化必然導致視覺上的區(qū)別,而該算法由于 沒有考慮相對位置因素可能導致相似檢測的失效,所以這種方法只能檢測出與真實網(wǎng)頁在視覺上有相似性的網(wǎng)頁。[Cao2009]在Fu的基礎上解決了相對位置的問題,首先對網(wǎng)頁進 行分塊,然后再用EMD算法計算相似度。前面也說過釣魚者為了取得用戶的信任,他們通常會模仿合法網(wǎng)站來構建釣魚網(wǎng) 站,所以一個釣魚網(wǎng)站跟它的目標網(wǎng)站是有很好關聯(lián)的。根據(jù)格式塔理論,我們可以認為網(wǎng) 頁是一個不可分割的整體[Dong2010]。我們簡化復雜信息,獲取主要信息,對一系列的問題 進行整合?;谶@種兩種思想,我們結合網(wǎng)頁之間的關聯(lián)性和網(wǎng)頁的整體性,可以有效地判 斷是否為釣魚網(wǎng)頁。[Zhang2007] Y. Zhang,J . Hong, and L . Cr an ο r . Cantina A content-basedapproach to detecting phishing websites. WWW,2007.[Fu2006]Anthony Y. Fu, Wenyin Liu, Xiaotie Deng. Detecting Phishing Web Pageswith Visual Similarity Assessment based on Earth Mover' s Distance (EMD). IEEE Transactions on Dependable and Secure Computing,2006,3(4), pages301-311.[Dong2010]X. Dong,J. A. Clark,J. L. Jacob. Defending the weakest 1 ink :phishingwebsites detection by analysing user behaviours. Springer Science+Business Media,LLC 2010.[Liu2010]W. Y. Liu, N. Fang, X. J. Quan, B. Qiu, G. Liu. Discovering phishing target based onsemantic link network. Future Generation Comp. Syst.,2010 :381 388.[Cao2009] Jiuxin Cao, Bo Mao, Junzhou Luo, and Bo Liu. A Phishing Web PagesDetection Algorithm Based on Nested Structure of Earth Mover’ s Distance (Nested-EMD). Chinese Journal of Computers. 2009,(05) :922-929.(中文曹 玖新,毛波,羅軍舟,劉波.基于嵌套EMD的釣魚網(wǎng)頁檢測算法.計算機學報,2009,(05) 922-929.)[Liu2005] W. Liu, G. Huang, X. Liu, Μ. Ζ, and Χ. Deng. Detection of PhishingWebpages Based on Visual SimiIarity.International World Wide WebConference,2005,pp. 1060-1061.[Chen2009]K. _T. Chen,J. -Y. Chen,C. -R. Huang,and C. -S. Chen. Fighting Phishingwith Discriminative Keypoint Features of Webpages. IEEE Internet Computing,2009.[Affoz2009]Sadia Afroz and Rachel Greenstadt. Phishzoo :An Automated WebPhishing Detection Approach Based on Profiling and Fuzzy Matching. TechnicalReport DU-CS-09-03, Drexel University,2009.[Dhami ja2006]Dhami ja, R. , Tygar, J. D. , and Hearst, M. Why Phishing Works. Proceedings of the SIGCHI Conference on Human Factors in ComputingSystems(Montreal, Quebec,Canada,April 22-28,2006) · NewYork :ACM Press, 2006.[Jackson2007] Collin Jackson,Daniel R. Simon, Desney S. Tan, and Adam Barth. AnEvaluation of Extended Validation and Picture-in-Picture PhishingAttacks.Proceedings of Usable Security(USEC' 07), February 2007.

發(fā)明內(nèi)容
技術問題本發(fā)明的目的是提供一種基于網(wǎng)頁關聯(lián)性的釣魚網(wǎng)頁檢測方法,以往 釣魚網(wǎng)頁識別主要通過人工識別,目前現(xiàn)有的計算機識別的釣魚網(wǎng)頁檢測技術主要從網(wǎng)頁 元素角度對檢測網(wǎng)頁進行匹配檢測,匹配速度往往無法達到實際使用的要求。本發(fā)明從網(wǎng) 頁的關聯(lián)和網(wǎng)頁整體性進行特征提取、特征匹配,大大提高了頁面匹配的速度,同時保證了 高精度和低誤判率。技術方案本發(fā)明的基于網(wǎng)頁關聯(lián)性的釣魚網(wǎng)頁檢測方法是以網(wǎng)頁之間的關聯(lián)性 和網(wǎng)頁整體性為出發(fā)點,提取了 4個特征鏈接關聯(lián)、搜索關聯(lián)、文本關聯(lián)和整體性關聯(lián); 前3個是側(cè)重文本內(nèi)容,第4個側(cè)重圖像,集合了文本和圖像;在釣魚網(wǎng)頁檢測階段進行相 似特征的快速查詢,查詢所得相似特征交給機器學習匹配模塊進行識別;機器學習匹配模 塊在系統(tǒng)訓練階段接收特征提取模塊傳來的特征數(shù)據(jù)進行訓練,優(yōu)化網(wǎng)頁相似性閥值的參 數(shù);在釣魚網(wǎng)頁檢測階段,接收特征提取模塊傳來的特征數(shù)據(jù),計算網(wǎng)頁之間的相似性,最 后根據(jù)網(wǎng)頁相似性閥值判斷釣魚網(wǎng)頁;在釣魚網(wǎng)頁檢測過程中通過提取特征,以此作為釣魚網(wǎng)頁檢測的依據(jù),具體實現(xiàn) 步驟為步驟1).訓練階段數(shù)據(jù)準備過程采集至少100個可能被釣魚網(wǎng)頁模仿的正規(guī)網(wǎng) 站頁面,并提取出特征組織成樣本數(shù)據(jù);采集至少100個釣魚網(wǎng)站頁面以及100個普通網(wǎng) 頁,并提取特征組織成測試數(shù)據(jù);特征由以下四個數(shù)值屬性組成鏈接關聯(lián)網(wǎng)頁1與網(wǎng)頁2的鏈接關聯(lián)是指網(wǎng)頁1中指向網(wǎng)頁2的鏈接個數(shù)與網(wǎng) 頁1的總鏈接個數(shù)的比值;反過來,網(wǎng)頁2與網(wǎng)頁1的鏈接關聯(lián)是指網(wǎng)頁2中指向網(wǎng)頁1的 鏈接個數(shù)與網(wǎng)頁2的總鏈接個數(shù)的比值;很明顯,兩者之間的關聯(lián)性并不是對稱的;搜索關聯(lián)從網(wǎng)頁1獲得關鍵詞,然后在第三方搜索引擎上搜索,得到網(wǎng)頁2的排 名,總的搜索結果個數(shù)減去網(wǎng)頁2的排名,再加1與總的搜索結果個數(shù)的比值即為網(wǎng)頁1和 網(wǎng)頁2的搜索關聯(lián),如果沒有網(wǎng)頁2的排名則排名為0,同理,兩者之間的關聯(lián)性也并不是對 稱的;文本關聯(lián)網(wǎng)頁1與網(wǎng)頁2的文本關聯(lián)是指網(wǎng)頁1和網(wǎng)頁2共有的單詞集個數(shù)與 網(wǎng)頁1的總單詞集個數(shù)的比值,同樣,兩者之間的關聯(lián)性仍然不是對稱的;整體性關聯(lián)首先對網(wǎng)頁進行壓縮,然后用正規(guī)化壓縮距離計算網(wǎng)頁時間的相似 度,值越小說明越匹配。步驟2)測試數(shù)據(jù)集的標定過程將測試數(shù)據(jù)中的所有普通網(wǎng)頁標注為“false”, 表示非釣魚網(wǎng)頁;再將測試數(shù)據(jù)中的所有釣魚網(wǎng)頁標注為“true”,表示釣魚網(wǎng)頁;步驟幻對所有測試網(wǎng)頁的特征在訓練庫中查找相似的特征,并統(tǒng)計找到每一個 測試網(wǎng)頁在庫中最相似的網(wǎng)頁,計算它們的相似度作為測試網(wǎng)頁與庫的相似度;步驟4)將所有測試網(wǎng)頁的標注以及測試網(wǎng)頁與庫的相似度送入機器學習匹配模 ±夬,遍歷所有可能的相似度閥值,找到一個值T使得相似度大于T的釣魚網(wǎng)頁數(shù)量與相似度
5小于T的釣魚網(wǎng)頁數(shù)量差值最大,T作為釣魚網(wǎng)頁相似度閥值;步驟幻對疑似釣魚網(wǎng)頁的檢測過程對可疑網(wǎng)頁采集特征;用可疑網(wǎng)頁的特征在 訓練庫中查找相似的特征,并統(tǒng)計找到可疑網(wǎng)頁在庫中最相似的網(wǎng)頁,計算它們的相似度 作為可疑網(wǎng)頁與庫的相似度;將待可疑網(wǎng)頁的與庫的相似度送入訓練好的機器學習匹配模 塊進行預測,預測所得結果作為本方案最終的釣魚網(wǎng)站檢測結果。有益效果由于基于網(wǎng)絡拓撲采用面相站點分析手段,本發(fā)明具有以下一些特殊 優(yōu)點和有益成果高準確率機器學習主要的評價指標為精度和召回率,在釣魚網(wǎng)站檢測識別中,精 度表示機器判斷為釣魚網(wǎng)頁的所有頁面中,確實是釣魚網(wǎng)頁的比例,召回率表示所有釣魚 網(wǎng)頁中被機器識別為釣魚網(wǎng)頁所占比例。顯然精度和召回率越高表示效果越好。經(jīng)過實驗 證明,本發(fā)明提出的釣魚網(wǎng)頁檢測采用我們提出的機器學習模型進行機器學習以后檢測精 度和召回率都很高,該結果與目前最好的釣魚網(wǎng)頁自動檢測技術不相上下。應用領域廣泛由于本發(fā)明實際提出了一種網(wǎng)頁相似性計算方案,所以在網(wǎng)頁相 似性上用途廣泛。


圖1是釣魚郵件體系結構,圖2是基于網(wǎng)頁關聯(lián)的釣魚檢測特征處理流程圖,圖3是分類器分類流程。
具體實施例方式釣魚者為了取得用戶的信任,他們通常會模仿合法網(wǎng)頁來構建釣魚網(wǎng)頁,所以一 個釣魚網(wǎng)頁跟它的目標網(wǎng)頁是有很好關聯(lián)的。這種關聯(lián)可以用鏈接關聯(lián)和相似性關聯(lián)來表 示。鏈接關聯(lián)是指從一個網(wǎng)頁到另一個網(wǎng)頁之間有一個直接的超鏈接。相似性關聯(lián)包括搜 索關聯(lián)和文本關聯(lián)。除此之外,我們對網(wǎng)頁進行一個整體性的相似度比較。根據(jù)格式塔理論,我們可以 認為網(wǎng)頁是一個不可分割的整體。簡化復雜信息,獲取主要信息,對一系列的問題進行整 合?;谶@種思想,我們首先對網(wǎng)頁進行壓縮,然后來計算網(wǎng)頁之間的相似度。實施方法需要以下步驟步驟1)從網(wǎng)頁的標題、元數(shù)據(jù)標簽和主體三部分提取兩個網(wǎng)頁之間的鏈接關聯(lián)、 搜索關聯(lián)和文本關聯(lián);步驟2、把網(wǎng)頁以圖片形式保存,進行壓縮處理,計算網(wǎng)頁之間的正規(guī)化壓縮距離 值;步驟3)選出與該網(wǎng)頁最匹配的一行作為最后的結果;步驟4)用機器學習方法進行訓練,獲取一個閥值;步驟幻選定好閥值后,對可疑網(wǎng)頁進行預測。本發(fā)明技術方案主要分為三大部分1.特征提取部分釣魚者為了試圖取得用戶的信任,他們通常會模擬合法網(wǎng)頁來構建釣魚網(wǎng)頁,所以一個釣魚網(wǎng)站跟它的目標網(wǎng)站有很好的關聯(lián)。這種關聯(lián)可以用鏈接關聯(lián)和相似性關聯(lián)來 表示。鏈接關聯(lián)是指從一個網(wǎng)站到另一個網(wǎng)站之間有一個直接的超鏈接。相似性關聯(lián)包括 搜索關聯(lián)和文本關聯(lián)。鏈接關聯(lián)通過內(nèi)嵌在網(wǎng)站里的超鏈接來度量,這種關聯(lián)經(jīng)常被用到釣魚網(wǎng)站中, 使得訪問者相信他們可以通過點擊這些鏈接到達合法網(wǎng)站,然而合法網(wǎng)站是不可能通過正 向鏈接返回到釣魚網(wǎng)頁的。我們可以用正向鏈接的個數(shù)來度量兩個網(wǎng)頁之間的關聯(lián)強度。 如果一個可疑網(wǎng)頁有很多超鏈接指向一個網(wǎng)頁,但是沒有一個鏈接是返回的,那么這個可 疑網(wǎng)頁很有可能是釣魚網(wǎng)頁。搜索關聯(lián)從網(wǎng)頁1獲得關鍵詞,然后在第三方搜索引擎上搜索,查看網(wǎng)頁2的排 名。如果網(wǎng)頁2的主域和搜索結果中的前N(N= 10或30)個主域中有匹配項,我們就說網(wǎng) 頁1和網(wǎng)頁2之間有搜索關聯(lián)。我們可以用谷歌作為搜索引擎來挖掘這種關聯(lián),選擇網(wǎng)頁 中的除了停止詞外詞頻最高的5個詞作為關鍵詞作為詢問詞。如果用一個可疑網(wǎng)頁的關鍵 詞搜索后,排名很高,那么這個可疑網(wǎng)頁很有可能是釣魚網(wǎng)頁。文本關聯(lián)一個釣魚網(wǎng)頁通常用和目標網(wǎng)頁相似甚至相同的文本內(nèi)容,來引誘訪 問者。如果一個可疑網(wǎng)頁里的文本內(nèi)容和與之關聯(lián)的知名網(wǎng)頁的非常相似,但是兩者的主 域名不同,那么這個可疑網(wǎng)頁很有可能就是釣魚網(wǎng)頁。另外,我們對網(wǎng)頁進行一個整體性的相似度比較。根據(jù)格式塔理論,我們可以認為 網(wǎng)頁是一個不可分割的整體。我們簡化復雜信息來獲取主要信息,對一系列的問題進行整 合?;谶@種思想,我們首先對網(wǎng)頁進行壓縮,然后來計算網(wǎng)頁之間的相似度。相似度計算 用正規(guī)化壓縮距離,值越小說明越匹配。如果一個可疑網(wǎng)頁和與之對應的合法網(wǎng)頁(除自 身以外)的正規(guī)化壓縮距離很小,說明這個可疑網(wǎng)頁很有可能為釣魚網(wǎng)頁。具體步驟如下步驟1)從網(wǎng)頁的標題、meta標簽和主體三部分提取兩個網(wǎng)頁之間的鏈接關聯(lián)、搜 索關聯(lián)和文本關聯(lián);步驟2、把網(wǎng)頁以圖片形式保存,進行壓縮處理,計算網(wǎng)頁之間的正規(guī)化壓縮距離值。2.相似度計算部分因為上述4個特征都是兩兩網(wǎng)頁之間的值,結果都是矩陣形式的,所以需要取一 組與該測試網(wǎng)頁最匹配的值。選取標準有兩個一是選出4個中作用最顯著的一個特征,以 其為標準選出最匹配項;二是給4個特征取權值,求和,值越大認為越匹配。步驟1)用R軟件給這4個特征取合適的權值或用R軟件選出這4個特征中顯著 性最高的一個;步驟2)以步驟1)為標準選出與該網(wǎng)頁最匹配的一行作為最后的結果。3.匹配部分匹配分兩種機器學習匹配和貝葉斯可添加回歸樹分類方法匹配1).機器學習匹配其核心任務就是根據(jù)指定的網(wǎng)頁相似性算法,找到相似程度最高的η個網(wǎng)頁,如 果相似性超過一定的閥值,則認為待檢測網(wǎng)頁是釣魚網(wǎng)頁,如果低于閥值,則認為是正常網(wǎng) 頁。其中閥值的確定需要使用訓練階段的標注數(shù)據(jù)根據(jù)我們的機器學習算法進行訓練所得。主要可以分為兩大部分a.機器學習模塊的訓練步驟1)采集至少100個可能被釣魚網(wǎng)頁模仿的正規(guī)網(wǎng)站頁面,提取特征組織成樣 本數(shù)據(jù);步驟2、采集至少100個釣魚網(wǎng)站頁面以及100個普通網(wǎng)頁,并提取特征組織成測 試數(shù)據(jù);步驟3)將測試數(shù)據(jù)中的所有普通網(wǎng)頁標注為“false”,表示非釣魚網(wǎng)頁;再將測 試數(shù)據(jù)中的所有釣魚網(wǎng)頁標注為“ true ”,表示釣魚網(wǎng)頁;步驟幻找出每一個測試網(wǎng)頁在庫中最相似的網(wǎng)頁,計算它們的相似度作為測試 網(wǎng)頁與庫的相似度;步驟6)將所有測試網(wǎng)頁的標注以及測試網(wǎng)頁與庫的相似度送入機器學習匹配模 塊,使用機器學習匹配部分的數(shù)據(jù)訓練算法計算出釣魚網(wǎng)頁相似度閥值。b.釣魚網(wǎng)站檢測步驟1)對可疑網(wǎng)頁采集特征;步驟2)找出可疑網(wǎng)頁在庫中最相似的網(wǎng)頁,計算它們的相似度作為可疑網(wǎng)頁與 庫的相似度;步驟幻將待可疑網(wǎng)頁的與庫的相似度送入訓練好的機器學習匹配模塊進行預 測,預測所得結果作為本方案最終的釣魚網(wǎng)站檢測結果。2).貝葉斯可添加回歸樹分類方法匹配除了用上述機器學習方法進行分類外,我們再加入一種貝葉斯可添加回歸樹。
權利要求
1. 一種基于網(wǎng)頁關聯(lián)性的釣魚網(wǎng)頁檢測方法,其特征在于該方法是以網(wǎng)頁之間的關聯(lián) 性和網(wǎng)頁整體性為出發(fā)點,提取了 4個特征鏈接關聯(lián)、搜索關聯(lián)、文本關聯(lián)和整體性關聯(lián); 前3個是側(cè)重文本內(nèi)容,第4個側(cè)重圖像,集合了文本和圖像;在釣魚網(wǎng)頁檢測階段進行相 似特征的快速查詢,查詢所得相似特征交給機器學習匹配模塊進行識別;機器學習匹配模 塊在系統(tǒng)訓練階段接收特征提取模塊傳來的特征數(shù)據(jù)進行訓練,優(yōu)化網(wǎng)頁相似性閥值的參 數(shù);在釣魚網(wǎng)頁檢測階段,接收特征提取模塊傳來的特征數(shù)據(jù),計算網(wǎng)頁之間的相似性,最 后根據(jù)網(wǎng)頁相似性閥值判斷釣魚網(wǎng)頁;在釣魚網(wǎng)頁檢測過程中通過提取特征,以此作為釣魚網(wǎng)頁檢測的依據(jù),具體實現(xiàn)步驟為步驟1).訓練階段數(shù)據(jù)準備過程采集至少100個可能被釣魚網(wǎng)頁模仿的正規(guī)網(wǎng)站頁 面,并提取出特征組織成樣本數(shù)據(jù);采集至少100個釣魚網(wǎng)站頁面以及100個普通網(wǎng)頁,并 提取特征組織成測試數(shù)據(jù);特征由以下四個數(shù)值屬性組成鏈接關聯(lián)網(wǎng)頁1與網(wǎng)頁2的鏈接關聯(lián)是指網(wǎng)頁1中指向網(wǎng)頁2的鏈接個數(shù)與網(wǎng)頁1 的總鏈接個數(shù)的比值;反過來,網(wǎng)頁2與網(wǎng)頁1的鏈接關聯(lián)是指網(wǎng)頁2中指向網(wǎng)頁1的鏈接 個數(shù)與網(wǎng)頁2的總鏈接個數(shù)的比值;很明顯,兩者之間的關聯(lián)性并不是對稱的;搜索關聯(lián)從網(wǎng)頁1獲得關鍵詞,然后在第三方搜索引擎上搜索,得到網(wǎng)頁2的排名,總 的搜索結果個數(shù)減去網(wǎng)頁2的排名,再加1與總的搜索結果個數(shù)的比值即為網(wǎng)頁1和網(wǎng)頁2 的搜索關聯(lián),如果沒有網(wǎng)頁2的排名則排名為0,同理,兩者之間的關聯(lián)性也并不是對稱的; 文本關聯(lián)網(wǎng)頁1與網(wǎng)頁2的文本關聯(lián)是指網(wǎng)頁1和網(wǎng)頁2共有的單詞集個數(shù)與網(wǎng)頁 1的總單詞集個數(shù)的比值,同樣,兩者之間的關聯(lián)性仍然不是對稱的;整體性關聯(lián)首先對網(wǎng)頁進行壓縮,然后用正規(guī)化壓縮距離計算網(wǎng)頁時間的相似度,值 越小說明越匹配。步驟2)測試數(shù)據(jù)集的標定過程將測試數(shù)據(jù)中的所有普通網(wǎng)頁標注為“false”,表示 非釣魚網(wǎng)頁;再將測試數(shù)據(jù)中的所有釣魚網(wǎng)頁標注為“true”,表示釣魚網(wǎng)頁;步驟3)對所有測試網(wǎng)頁的特征在訓練庫中查找相似的特征,并統(tǒng)計找到每一個測試 網(wǎng)頁在庫中最相似的網(wǎng)頁,計算它們的相似度作為測試網(wǎng)頁與庫的相似度;步驟4)將所有測試網(wǎng)頁的標注以及測試網(wǎng)頁與庫的相似度送入機器學習匹配模塊, 遍歷所有可能的相似度閥值,找到一個值T使得相似度大于T的釣魚網(wǎng)頁數(shù)量與相似度小 于T的釣魚網(wǎng)頁數(shù)量差值最大,T作為釣魚網(wǎng)頁相似度閥值;步驟5)對疑似釣魚網(wǎng)頁的檢測過程對可疑網(wǎng)頁采集特征;用可疑網(wǎng)頁的特征在訓練 庫中查找相似的特征,并統(tǒng)計找到可疑網(wǎng)頁在庫中最相似的網(wǎng)頁,計算它們的相似度作為 可疑網(wǎng)頁與庫的相似度;將待可疑網(wǎng)頁的與庫的相似度送入訓練好的機器學習匹配模塊進 行預測,預測所得結果作為本方案最終的釣魚網(wǎng)站檢測結果。
全文摘要
一種基于網(wǎng)頁關聯(lián)性的釣魚檢測方法整合了頁面之間關聯(lián)性以及頁面的整體性布局特征,主要解決了基于網(wǎng)頁關聯(lián)性和視覺相似性角度進行快速釣魚網(wǎng)頁檢測的問題。該方法主要從4個方面研究網(wǎng)頁之間的關聯(lián)性,主要指嵌在網(wǎng)頁里的鏈接關聯(lián)性、搜索關聯(lián)性和文本關聯(lián)性以及網(wǎng)頁的整體關聯(lián)性,把網(wǎng)頁看作一個不可分割的整體,對其進行壓縮處理,獲取主要信息。經(jīng)大量實驗數(shù)據(jù)檢驗證明,該方法構建了一種高速高精度釣魚網(wǎng)頁檢測方法,在保證高準確率的同時,顯著減小網(wǎng)頁檢測時間。
文檔編號G06F21/00GK102096781SQ201110020890
公開日2011年6月15日 申請日期2011年1月18日 優(yōu)先權日2011年1月18日
發(fā)明者周國強, 張衛(wèi)豐, 張迎周, 田先桃, 許碧歡, 陸柳敏 申請人:南京郵電大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
永和县| 时尚| 曲沃县| 泰顺县| 广灵县| 汶川县| 崇信县| 卓资县| 高邮市| 新干县| 高青县| 林西县| 河津市| 贡山| 醴陵市| 广州市| 体育| 江达县| 伊金霍洛旗| 桃江县| 阳西县| 慈利县| 淅川县| 镇宁| 娱乐| 茶陵县| 温宿县| 榕江县| 金溪县| 思南县| 阿巴嘎旗| 沙雅县| 包头市| 秦皇岛市| 朔州市| 吉水县| 桑植县| 白山市| 航空| 泗洪县| 西丰县|