欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分析網(wǎng)絡(luò)內(nèi)容的系統(tǒng)和方法

文檔序號:6455438閱讀:422來源:國知局
專利名稱:分析網(wǎng)絡(luò)內(nèi)容的系統(tǒng)和方法
技術(shù)領(lǐng)域
本申請案涉及數(shù)據(jù)和應用程序安全性。確切地說,本申請案揭示收集和挖掘數(shù)據(jù)以 確定數(shù)據(jù)是否與惡意內(nèi)容相關(guān)聯(lián)的系統(tǒng)方法。
背景技水
傳統(tǒng)上,計算機病毒和其它惡意內(nèi)容最經(jīng)常通過將受感染的磁盤或某種其它物理媒 體插入計算機而被提供到客戶端計算機。隨著電子郵件和因特網(wǎng)的使用增加,電子郵件 附件攻擊變?yōu)橛糜谙蛴嬎銠C分布病毒代碼的普遍方法。為了用這些類型的具有惡意內(nèi)容 的病毒感染計算機,通常需要用戶的某種同意動作,例如打開受感染的文件附件或從網(wǎng) 站下載受感染的文件并在用戶的計算機上啟動所述文件。隨著時間的過去,反病毒軟件 制作者開發(fā)出日益有效的程序,所述程序經(jīng)設(shè)計以掃描文件并在其有機會感染客戶端計 算機之前將其消毒。因此,計算機黑客不得不創(chuàng)造更聰明且創(chuàng)新的方法來用其惡意代碼 感染計算機。
在當今的日漸聯(lián)網(wǎng)的數(shù)字世界,正開發(fā)分布式應用程序以在開放的、合作的聯(lián)網(wǎng)環(huán) 境中向用戶提供越來越多的功能性。盡管這些應用程序較有力且復雜,但其增加的功能 性要求網(wǎng)絡(luò)服務(wù)器以更集成的方式與客戶端計算機交互。舉例來說,在先前網(wǎng)絡(luò)應用程 序主要向客戶端瀏覽器提供HTML內(nèi)容并經(jīng)由HTTP郵遞命令從客戶端接收回數(shù)據(jù)的情 況下,許多新的網(wǎng)絡(luò)應用程序經(jīng)配置以向客戶端計算機發(fā)送各種形式的目標內(nèi)容(例如 活動內(nèi)容),其引起在較新的網(wǎng)絡(luò)瀏覽器的增強特征內(nèi)啟動應用程序。舉例來說,許多基 于網(wǎng)絡(luò)的應用程序現(xiàn)在利用活動-X (Active-X)控件,其必須下載到客戶端計算機以使 得其可被有效地利用。在特定例子中Java小程序(Javaapplet)、 Java腳本(JavaScript) 和VB腳本(VBScript)命令也有能力修改客戶端計算機文件。
這些功能性增加所帶來的便利也有代價。較新的網(wǎng)絡(luò)應用程序和內(nèi)容顯然比先前的 應用程序環(huán)境更冇力。因此,其還為將惡意代碼下載到客戶端計算機提供了機會。另外,隨著操作系統(tǒng)和網(wǎng)絡(luò)瀏覽應用程序的復雜性增加,更難以識別可能會允許黑客將惡意代 碼傳送到客戶端計算機的安全性弱點。盡管瀏覽器和操作系統(tǒng)廠商通常會發(fā)布軟件更新 以補救這些弱點,但許多用戶尚未配置其計算機以下載這些更新。因此,黑客已開始編 寫利用這些弱點以將其本身下載到用戶的機器而不用依賴于用戶的任何特定活動(例如 啟動受感染的文件)的惡意代碼和應用程序。此攻擊的一個實例是使用嵌入在網(wǎng)站上的 活動內(nèi)容對象的惡意代碼。如果惡意代碼已經(jīng)配置以利用網(wǎng)絡(luò)瀏覽器中的弱點,那么用 戶可能僅僅因為訪問過所述頁面就會被惡意代碼感染或損害,因為所述頁面中的目標內(nèi) 容將在用戶的計算機上執(zhí)行。
解決嵌入活動內(nèi)容中的惡意代碼的問題的一種嘗試是利用網(wǎng)絡(luò)瀏覽器上的升高的安 全性設(shè)定。然而在許多公司環(huán)境中,內(nèi)部網(wǎng)或外部網(wǎng)應用程序經(jīng)配置而向客戶端計算機 發(fā)送可執(zhí)行內(nèi)容。將瀏覽器設(shè)定設(shè)定為高安全性等級往往會妨礙或阻礙對這些類型的"安 全"應用程序的有效使用。解決問題的另一嘗試是使用網(wǎng)絡(luò)防火墻應用程序來阻止所有 可執(zhí)行內(nèi)容。此強力方法在許多環(huán)境中也是低效的,因為為了讓軟件正確地起作用,有 必要對特定類型內(nèi)容進行選擇性接入。
需要一種允許檢測惡意網(wǎng)絡(luò)內(nèi)容而不會損害用戶功能性的系統(tǒng)和方法。此外,需要 一種可檢測例如活動內(nèi)容的目標內(nèi)容并快速識別和歸類其行為,且以最小延遲向大量客 戶端計算機提供針對惡意內(nèi)容的保護的系統(tǒng)。

發(fā)明內(nèi)容
本發(fā)明的系統(tǒng)、方法和裝置每一者均具有若干方面,其中任何單個一個方面均不唯 一負責其所需的屬性?,F(xiàn)在將簡要論述本發(fā)明的若干特征,但并不限制本發(fā)明的范圍。
一個實施例包含將網(wǎng)絡(luò)內(nèi)容分類的方法。所述方法包含接收至少一個網(wǎng)頁的內(nèi)容。 所述方法進一步包含至少部分地基于所述網(wǎng)頁的所述內(nèi)容識別與所述網(wǎng)頁相關(guān)聯(lián)的屬 性。所述方法進一步包含將屬性存儲在網(wǎng)頁屬性數(shù)據(jù)庫中。所述方法進一步包含對至少 一個定義與存儲在所述網(wǎng)頁屬性數(shù)據(jù)庫中的屬性進行比較。所述方法進一步包含基于對 至少一個定義與存儲的屬性進行比較來識別具有所述定義的網(wǎng)頁。所述方法進一步包含 識別具有與所述至少一個定義相關(guān)聯(lián)的至少一個類別的所述網(wǎng)頁,其中所述類別指示與
所述網(wǎng)頁相關(guān)聯(lián)的活動內(nèi)容。
一個實施例包含用于將網(wǎng)絡(luò)內(nèi)容分類的系統(tǒng)。所述系統(tǒng)包含數(shù)據(jù)庫,其經(jīng)配置以與 網(wǎng)頁相關(guān)聯(lián)的屬性。所述系統(tǒng)進一歩包含至少一個處理器,其經(jīng)配置以至少部分地基于
網(wǎng)頁的內(nèi)容識別與M頁相關(guān)聯(lián)的屬性,以及將屬性存儲在網(wǎng)頁屬性數(shù)據(jù)庫中。所述處理器進一步經(jīng)配置以對至少一個定義與存儲在網(wǎng)頁屬性數(shù)據(jù)庫中的屬性進行比較,基于對 至少一個定義與存儲的屬性進行比較來識別具有所述定義的網(wǎng)頁,以及識別具有與所述 至少一個定義相關(guān)聯(lián)的至少一個類別的網(wǎng)頁,其中所述類別指示與網(wǎng)頁相關(guān)聯(lián)的活動內(nèi) 容。


在本描述內(nèi)容中參看附圖,其中始終以相同標號指代相同部分。
圖1是根據(jù)本發(fā)明方面的系統(tǒng)的各種組件的方框圖。
圖2是來自圖1的工作站模塊的方框圖。
圖3是來自圖1的網(wǎng)關(guān)服務(wù)器模塊的方框圖。
圖4是記錄數(shù)據(jù)庫的實例。
圖5是URL接入策略數(shù)據(jù)庫表的實例。
圖6A和6B分別是經(jīng)歸類和未經(jīng)歸類的URL的實例。
圖7是來自圖1的數(shù)據(jù)庫管理模塊的方框圖。
圖8是來自圖7的收集系統(tǒng)的方框圖。
圖9是來自圖8的收集模塊的方框圖。
圖IO展示根據(jù)本發(fā)明某些方面的蜜罐客戶端系統(tǒng)。
圖11是由來自圖9的收集模塊收集的URL相關(guān)數(shù)據(jù)的實例。
圖12是來自圖7的記分和歸類模塊的方框圖。
圖13A是屬性表的實例。
圖13B是經(jīng)處理的網(wǎng)頁屬性表的實例。
圖13C是定義表的實例。
圖14是說明來自圖7的訓練模塊的一個實施例的方框圖。 圖15是說明來自圖12的活動分析系統(tǒng)的一個實施例的方框圖。 圖16是描述在一個實施例中可如何在網(wǎng)關(guān)服務(wù)器模塊中處理URL的流程圖。 圖17是描述根據(jù)某些實施例可如何結(jié)合策略模塊通過網(wǎng)關(guān)服務(wù)器模塊處理URL的 流程圖。
圖18是描述收集系統(tǒng)可如何在網(wǎng)關(guān)服務(wù)器模塊內(nèi)處理URL的流程圖。 圖19是描述收集系統(tǒng)可如何在數(shù)據(jù)庫管理模塊內(nèi)處理URL的流程圖。 圖20是數(shù)據(jù)挖掘系統(tǒng)的方框圖。
圖21是說明在數(shù)據(jù)庫管理模塊內(nèi)將URL歸類的方法的一個實施例的流程圖。圖22是說明在圖21的方法中識別URL的屬性的方法的一個實施例的流程圖。 圖23是說明在圖21的方法中基于URL屬性將URL歸類的方法的一個實施例的流 程圖。
圖24是說明識別在圖22和23的方法中將URL歸類時使用的屬性的方法的一個實 施例的流程圖。
具體實施例方式
以下詳細描述是針對本發(fā)明的某些具體實施例。然而,本發(fā)明可以權(quán)利要求書定義 和涵蓋的許多不同方式來實施。在本描述內(nèi)容中參看附圖,其中始終以相同標號指代相 同部分。
特定實施例提供識別和歸類在通過統(tǒng)一資源定位符(URL)識別的位置發(fā)現(xiàn)的網(wǎng)絡(luò) 內(nèi)容的系統(tǒng)和方法,所述內(nèi)容包含可能可執(zhí)行的網(wǎng)絡(luò)內(nèi)容和惡意內(nèi)容。如本文使用,可 能可執(zhí)行的網(wǎng)絡(luò)內(nèi)容通常指包含由網(wǎng)絡(luò)瀏覽器或網(wǎng)絡(luò)客戶端計算機執(zhí)行的指令的任何類 型的內(nèi)容??赡芸蓤?zhí)行的網(wǎng)絡(luò)內(nèi)容可包含例如小程序、嵌入HTML或其它超文本文檔(包 含例如Java腳本或VB腳本的腳本語言)的可執(zhí)行代碼、嵌入其它文檔(例如微軟Word 宏或樣式表)中的可執(zhí)行代碼??赡芸蓤?zhí)行的網(wǎng)絡(luò)內(nèi)容也可指執(zhí)行位于另一位置(例如 另一網(wǎng)頁、另一計算機或網(wǎng)絡(luò)瀏覽器計算機本身上)中的代碼的文檔。舉例來說,通常 可認為包含"對象"元素且因此可引起活動X或其它可執(zhí)行組件的執(zhí)行的HTML網(wǎng)頁是 可能可執(zhí)行的網(wǎng)絡(luò)內(nèi)容,無論所述可執(zhí)行組件的位置如何。惡意內(nèi)容可指不可執(zhí)行但可 經(jīng)計算以利用客戶端計算機的弱點的內(nèi)容。然而,可能可執(zhí)行的網(wǎng)絡(luò)內(nèi)容也可能是惡意 內(nèi)容。舉例來說,已使用圖像文件來在所述圖像經(jīng)處理用于顯示時利用某些操作系統(tǒng)中 的弱點。而且,惡意網(wǎng)絡(luò)內(nèi)容也可指例如"網(wǎng)絡(luò)釣魚(phishing)"方案的交互內(nèi)容,在 所述方案中,HTML表格或其它網(wǎng)絡(luò)內(nèi)容經(jīng)設(shè)計以表現(xiàn)為由例如銀行的另一 (通常是受 到信任的)網(wǎng)站提供,以便欺騙用戶向未經(jīng)授權(quán)方提供證書或其它敏感信息。
系統(tǒng)的描述
圖1提供示范性系統(tǒng)的最高級說明。系統(tǒng)包含網(wǎng)絡(luò)110。網(wǎng)絡(luò)110可以是局域網(wǎng)、廣 域網(wǎng)或某種其它類型的網(wǎng)絡(luò)。網(wǎng)絡(luò)110可包含一個或一個以上工作站116。工作站116 可以是附接到網(wǎng)絡(luò)的各種類型的客戶端計算機??蛻舳擞嬎銠C116可以是桌上型計算機、 筆記型計算機、手持式計算機或類似計算機??蛻舳擞嬎銠C也可裝載有操作系統(tǒng),所述 操作系統(tǒng)允許客戶端計算機通過例如網(wǎng)絡(luò)瀏覽器、電子郵件程序等各種軟件模塊利用網(wǎng) 絡(luò)。每一工作站116均可與網(wǎng)關(guān)服務(wù)器模塊120電連通。網(wǎng)關(guān)服務(wù)器模塊可駐存在網(wǎng)絡(luò) 110的邊緣,使得從因特網(wǎng)112和向因特網(wǎng)112發(fā)送的業(yè)務(wù)可在進入或離開網(wǎng)絡(luò)110的途 中經(jīng)過網(wǎng)關(guān)服務(wù)器模塊。網(wǎng)關(guān)服務(wù)器模塊112可采用安裝在服務(wù)器上的軟件模塊的形式, 所述服務(wù)器作為向比工作站116直接附接到的網(wǎng)絡(luò)110廣的區(qū)域網(wǎng)絡(luò)112的網(wǎng)關(guān)而起作 用。數(shù)據(jù)庫管理模塊114也連接到因特網(wǎng)112。數(shù)據(jù)庫管理模塊也可以是駐存在一個或一 個以上計算裝置上的軟件模塊(或一個或一個以上硬件器件)。數(shù)據(jù)庫管理模塊U4可駐 存在包含某類網(wǎng)絡(luò)連接硬件(例如網(wǎng)絡(luò)接口卡)的機器上,所述網(wǎng)絡(luò)連接硬件允許數(shù)據(jù) 庫管理模塊U4向因特網(wǎng)112發(fā)送數(shù)據(jù)和信息以及從因特網(wǎng)112接收數(shù)據(jù)和信息。
現(xiàn)在參看圖2,呈現(xiàn)工作站116的更詳細視圖。工作站116可包含工作站模塊130。 工作站模塊130可采用經(jīng)安裝以在工作站116的操作系統(tǒng)上運行的軟件的形式?;蛘撸?工作站模塊130可以是在另一機器上運行的由工作站116遠程啟動的應用程序。
丁作站模塊130可包含各種組件。工作站模塊可包含本地活動內(nèi)容模塊132的清單 (inventory),其記錄存儲在工作站116上的所有網(wǎng)絡(luò)內(nèi)容。舉例來說,本地內(nèi)容清單模 塊132可周期性列出所有本地內(nèi)容的清單。清單中列出的數(shù)據(jù)可上載到網(wǎng)關(guān)服務(wù)器模塊 120以與經(jīng)歸類的URL/內(nèi)容數(shù)據(jù)庫146進行比較。本地內(nèi)容清單模塊132可通過與清單 中列出的本地內(nèi)容132進行比較來確定是否有新內(nèi)容正在被引入到工作站116。
工作站模塊還可包含上載/下載模塊134和URL請求模塊136。上載/下載模塊134 可用于通過網(wǎng)關(guān)服務(wù)器模塊120從網(wǎng)絡(luò)110向因特網(wǎng)112發(fā)送和接收數(shù)據(jù)。URL請求模 塊136從用戶或某個系統(tǒng)過程接收URL輸入,且可經(jīng)由網(wǎng)關(guān)服務(wù)器模塊120發(fā)送請求以 檢索與所述URL相關(guān)聯(lián)的文件和/或內(nèi)容。通常,上載/下載模塊134和URL請求模塊 136中的每一者的功能可由例如網(wǎng)絡(luò)瀏覽器的軟件應用程序執(zhí)行,其中因特網(wǎng)探測器⑧ (Internet Explorer ),謀智火狐(Mozilla Firefox)、奧普拉(Opera)、遠征(Safari)是 此項技術(shù)中眾所周知的瀏覽軟件的實例。或者,模塊的功能可在不同的軟件應用程序之 間劃分。舉例來說,F(xiàn)TP應用程序可執(zhí)行上載/下載模塊134的功能,而網(wǎng)絡(luò)瀏覽器可執(zhí) 行URL請求。其它類型的軟件也可執(zhí)行上載/下載模塊134的功能。盡管工作站上通常 不需要這些類型的軟件,但例如間諜軟件(Spyware)或特洛伊木馬(Trojan Horses)的 軟件可能做出從因特網(wǎng)發(fā)送和接收數(shù)據(jù)的請求。
工作站模塊130可與網(wǎng)關(guān)服務(wù)器模塊120通信。網(wǎng)關(guān)服務(wù)器模塊120可用于分析傳 入和傳出的網(wǎng)絡(luò)業(yè)務(wù)并做出關(guān)于所述業(yè)務(wù)對工作站116可能造成的影響的各種確定。現(xiàn) 在參看圖3,提供網(wǎng)關(guān)服務(wù)器模塊120的實例。網(wǎng)關(guān)服務(wù)器模塊120與工作站116雙向通信。其可從工作站模塊130接收文件上載和下載以及URL請求。網(wǎng)關(guān)服務(wù)器模塊120還 與因特網(wǎng)112雙向通信。因此,源自網(wǎng)絡(luò)110的工作站116內(nèi)的請求可能需要在其前進 到因特網(wǎng)時通過網(wǎng)關(guān)服務(wù)器模塊120。在一些實施例中,網(wǎng)關(guān)服務(wù)器模塊120可與保護 網(wǎng)絡(luò)IIO免受來自因特網(wǎng)112的未經(jīng)授權(quán)的入侵的某個防火墻硬件或軟件集成。在其它 實施例中,網(wǎng)關(guān)服務(wù)器模塊120可以是獨立的硬件器件乃至是安裝在駐存于到因特網(wǎng)112 的網(wǎng)絡(luò)網(wǎng)關(guān)處的單獨網(wǎng)關(guān)服務(wù)器上的軟件模塊。
如上論述,網(wǎng)關(guān)服務(wù)器模塊120可借助于工作站模塊130而從工作站116接收URL 請求和上載/下載數(shù)據(jù)。網(wǎng)關(guān)服務(wù)器模塊120可包含基于所接收數(shù)據(jù)執(zhí)行各種功能的各種 組件。
網(wǎng)關(guān)服務(wù)器模塊120中包含的一個特征是經(jīng)歸類URL數(shù)據(jù)庫146。 URL數(shù)據(jù)庫146 可用于存儲包含與URL相關(guān)聯(lián)的數(shù)據(jù)的關(guān)于URL的信息。經(jīng)歸類URL數(shù)據(jù)庫146可以 是關(guān)系數(shù)據(jù)庫,或其可以例如平面文件、面向?qū)ο蟮臄?shù)據(jù)庫的某種其它形式存儲,且可 經(jīng)由應用程序編程接口 (API)或某個數(shù)據(jù)庫管理軟件(DBMS)存取。URL數(shù)據(jù)庫146 通??捎胒幫助確定由URL請求模塊136發(fā)送的URL請求是否將被許可完成。在一個 實施例中,將存儲在URL數(shù)據(jù)庫146中的URL歸類。
網(wǎng)關(guān)服務(wù)器模塊120還可包含策略模塊142。策略模塊142可用于實施關(guān)于特定內(nèi) 容將如何由網(wǎng)關(guān)服務(wù)器模塊120或由安裝在網(wǎng)絡(luò)110內(nèi)的防火墻或某種其它安全性軟件 處理的網(wǎng)絡(luò)策略。在一個實施例中,策略模塊142可經(jīng)配置以提供關(guān)于如何處理針對經(jīng) 歸類URL的URL請求的系統(tǒng)引導。舉例來說,網(wǎng)關(guān)服務(wù)器模塊120可經(jīng)配置以不允許 歸類為"惡意"或"間諜軟件"的URL請求。在其它實施例中,策略模塊142可用于確 定如何處理未經(jīng)歸類的URL請求。在一個實施例中,系統(tǒng)可經(jīng)配置以阻止針對不在經(jīng)歸 類URL數(shù)據(jù)庫146中的URL的所有請求。策略模塊142還可經(jīng)配置以基于做出請求的 用戶或做出請求的時間而允許某些對未經(jīng)歸類URL的請求。這允許系統(tǒng)在通用型 (one-size-fits-all)配置將不滿足運行網(wǎng)關(guān)服務(wù)器模塊120的組織的業(yè)務(wù)需要時避免具有 所述配置。
網(wǎng)關(guān)服務(wù)器模塊120可包含收集模塊140。收集模塊140可以是用于收集關(guān)于URL 的數(shù)據(jù)的軟件程序、例行程序或過程。在一個實施例中,當從URL請求模塊136接收到 針對特定URL的請求時,收集模塊140可經(jīng)配置以訪問所述URL并下載頁面數(shù)據(jù)到網(wǎng) 關(guān)服務(wù)器模塊120以供網(wǎng)關(guān)服務(wù)器模塊120的組件進行分析。下載的數(shù)據(jù)還可經(jīng)由因特 網(wǎng)112發(fā)送以傳遞到數(shù)據(jù)庫管理模塊114 (如下文將進一步論述的)。在一些實施例中,網(wǎng)關(guān)服務(wù)器模塊120還可包含記錄數(shù)據(jù)庫144。記錄數(shù)據(jù)庫144 可執(zhí)行各種功能。舉例來說,其可存儲網(wǎng)絡(luò)110內(nèi)的特定類型發(fā)生情況的記錄。在一個 實施例中,記錄數(shù)據(jù)庫144可經(jīng)配置以記錄工作站116請求未經(jīng)授權(quán)URL的每一事件。 在一些實施例中,記錄數(shù)據(jù)庫144還可經(jīng)配置以記錄特定未經(jīng)歸類URL被請求的頻率。 此信息可用于確定未經(jīng)歸類URL是否應具有特定重要性或優(yōu)先權(quán)且應先于較早的接收到 的數(shù)據(jù)而由數(shù)據(jù)庫管理模塊U4歸類。在一些實施例中,未經(jīng)歸類URL可單獨存儲在未 經(jīng)歸類URL數(shù)據(jù)庫147中。
舉例來說,可編寫某個間諜軟件以從特定URL請求數(shù)據(jù)。如果網(wǎng)絡(luò)110內(nèi)的許多工 作站116被所述間諜軟件感染,則對特定URL的重復請求可提供網(wǎng)絡(luò)內(nèi)存在某種異常的 指示。記錄數(shù)據(jù)庫也可經(jīng)配置以記錄對經(jīng)歸類URL數(shù)據(jù)的請求。在一些實施例中,對經(jīng) 歸類URL的請求歸類可有助于確定特定URL是否被錯誤地特征化。
現(xiàn)在參看圖4,論述記錄數(shù)據(jù)庫144的實例。記錄數(shù)據(jù)庫144包含四列數(shù)據(jù)。第一 列"頁面請求次數(shù)"152指示網(wǎng)絡(luò)110內(nèi)的用戶請求特定URL的次數(shù)。第二列"URL" 154記錄正在記錄數(shù)據(jù)庫144中記錄的特定URL串。因此,當將URL發(fā)送到記錄數(shù)據(jù)庫 144時,可首先搜索數(shù)據(jù)庫以確定所述URL串是否已在其中。如果不是,那么可將URL 串添加到數(shù)據(jù)庫。在一些實施例中,收集模塊140可經(jīng)配置以訪問所請求的URL并收集 關(guān)于所述URL的數(shù)據(jù)。收集模塊140可檢索所請求URL的頁面來源并對其進行掃描以 査找可能指示內(nèi)容類型的特定關(guān)鍵詞。舉例來說,如果頁面來源包含"javascript://",那 么所述頁可被識別為具有Java腳本。盡管此內(nèi)容并非固有危險的,但具有Java腳本的網(wǎng) 頁包含惡意內(nèi)容的可能性可能更大,所述惡意內(nèi)容經(jīng)設(shè)計以利用瀏覽器應用程序處理 Java腳本函數(shù)調(diào)用的方式。在一些實施例中,此數(shù)據(jù)可存儲在記錄數(shù)據(jù)庫144中在Java 腳本列155中。記錄數(shù)據(jù)庫也可從包含活動-X內(nèi)容的頁面接收類似的信息并將所述內(nèi)容 存儲在活動X列156內(nèi)。在其它實施例中,可針對Java小程序、VB腳本等檢測和存儲 其它類型的活動內(nèi)容。
再次參看罔3,網(wǎng)關(guān)服務(wù)器模塊120可進一步包含管理界面模塊148或"管理模塊"。 管理模塊148可用于允許網(wǎng)絡(luò)管理員或組織內(nèi)的其它技術(shù)人員配置網(wǎng)關(guān)服務(wù)器模塊120 的各種特征。在某些實施例中,管理模塊148允許網(wǎng)絡(luò)管理員或某種其它網(wǎng)絡(luò)管理類型 來配置策略模塊142。
現(xiàn)在參看圖5,提供URL接入策略數(shù)據(jù)庫158的實例。URL接入策略數(shù)據(jù)庫158可 由策略模塊142用于實施用于網(wǎng)絡(luò)110內(nèi)的工作站116接入基于網(wǎng)絡(luò)的內(nèi)容的策略。在所示的實施例中,URL接入策略數(shù)據(jù)庫158包含具有四列的表。第一列是用戶列160。"用 戶"列160包含關(guān)于服從于在表的給定行中定義的策略的用戶的數(shù)據(jù)。下一列"類別" 162列出所述行定義的策略所適用的內(nèi)容的類別。第三列"總是阻止"164表示當所請求 內(nèi)容的用戶和類別166匹配于所述特定行中定義的用戶和類別時系統(tǒng)實施的行為或策 略。在一個實施例中,"總是阻止"字段可以是其中數(shù)據(jù)可設(shè)定為真或假的布爾型字段。 因此,在數(shù)據(jù)表所示的第一行中,策略模塊142經(jīng)配置以"總是阻止"用戶"asmith"對 "惡意內(nèi)容"的請求。
如上所述,策略模塊還可經(jīng)配置以基于不同時間實施策略。在圖5提供的實施例中, 第四列"允許的時間"166提供此功能性。第二行數(shù)據(jù)提供如何實施時間策略的實例。 用戶164設(shè)定為"bnguyen"且類別162是"賭博"。正如保留為空白的字段所指示的, 策略未經(jīng)配置以針對"bnguyen""總是阻止"賭博內(nèi)容。然而,這些URL請求被許可的 時間限于從6PM到8AM。因此,采用這些類型的策略允許網(wǎng)絡(luò)管理員向工作站和用戶 提供某一程度的靈活性,但此靈活性的提供是以在典型工作時間期間網(wǎng)絡(luò)業(yè)務(wù)不受損害 的方式進行的。
圖6A和6B提供對經(jīng)歸類URL數(shù)據(jù)庫146可如何存儲經(jīng)歸類數(shù)據(jù)的說明。在一個 實施例中,經(jīng)歸類URL可存儲在例如圖6A所示的兩列數(shù)據(jù)庫表中。在一個實施例中, 所述表可包含URL列172,其可僅存儲已經(jīng)特征化的URL串。類別列174可存儲關(guān)于所 述URL已如何由數(shù)據(jù)庫模塊114特征化的數(shù)據(jù)(如下文將詳細描述)。在一個實施例中, 可對URL字段編索引以使得其可被實時地更快速地搜索。因為經(jīng)歸類URL的列表可能 涉及到數(shù)百萬個URL,所以快速接入例行程序是有益的。
現(xiàn)在參看圖6B,提供未經(jīng)歸類URL的表147 (上文結(jié)合圖3描述)。此表中可填充 有來自丁作站116的URL請求,所述URL請求是請求在經(jīng)歸類URL表146中不存在的 URL。如下文將更詳細描述,網(wǎng)關(guān)服務(wù)器模塊120可經(jīng)配置以査詢經(jīng)歸類URL數(shù)據(jù)庫146 以確定是否應阻止所請求的URL。如果所請求URL在經(jīng)歸類數(shù)據(jù)庫146中,則策略模塊 可確定是否允許所述請求前進到因特網(wǎng)112。然而如果在經(jīng)歸類URL數(shù)據(jù)庫中沒有發(fā)現(xiàn) 所請求URL,則可將其添加到未經(jīng)歸類URL列表176,使得其可經(jīng)由因特網(wǎng)112發(fā)送到 數(shù)據(jù)庫管理模塊114并稍后經(jīng)分析和歸類且下載到經(jīng)歸類URL數(shù)據(jù)庫146中。
圖7是對數(shù)據(jù)庫管理模塊114中可包含的各種組件的說明。如上文論述,數(shù)據(jù)庫管 理模塊114可位于網(wǎng)絡(luò)IIO及其相關(guān)聯(lián)工作站116的遠端(可經(jīng)由因特網(wǎng)112接入)。數(shù) 據(jù)庫管理模塊可采用一個或許多不同硬件和軟件組件的形式,例如同時運行數(shù)百個服務(wù)器以實現(xiàn)改善性能的服務(wù)器庫。
在一個實施例中,數(shù)據(jù)庫管理模塊114可包含上載/下載模塊178。上載/下載模塊178 可以是軟件或硬件組件,其允許數(shù)據(jù)庫管理模塊114從因特網(wǎng)112向任意數(shù)目的位置發(fā) 送和接收數(shù)據(jù)。在一個實施例中,上載/下載模塊經(jīng)配置以向因特網(wǎng)112上的網(wǎng)關(guān)服務(wù)器 模塊120發(fā)送新歸類的URL以添加到其本地URL數(shù)據(jù)庫146。
數(shù)據(jù)庫管理模塊114還可包含URL/內(nèi)容數(shù)據(jù)庫180。 URL/內(nèi)容數(shù)據(jù)庫180可采用數(shù) 據(jù)倉庫的形式,其存儲URL串和關(guān)于已由收集系統(tǒng)182收集的URL的信息。URL/內(nèi)容 數(shù)據(jù)庫180可以是經(jīng)編索引以提供快速且有效的數(shù)據(jù)搜索的關(guān)系數(shù)據(jù)庫。在某些實施例 中,URL數(shù)據(jù)庫可以是數(shù)據(jù)入庫應用程序,其跨越許多物理硬件組件和存儲媒體。URL 數(shù)據(jù)庫可包含例如以下數(shù)據(jù):URL串、與這些串相關(guān)聯(lián)的內(nèi)容、關(guān)于如何收集到內(nèi)容(例 如,通過蜜罐客戶端、通過客戶提交等)的信息,且可能包含URL被寫入到URL/內(nèi)容 數(shù)據(jù)庫180內(nèi)的日期。
數(shù)據(jù)庫管理模塊114可進一步包含訓練系統(tǒng)184。訓練系統(tǒng)184可以是軟件/硬件模 塊,其用于定義可用于歸類基于網(wǎng)絡(luò)的內(nèi)容的屬性和定義。數(shù)據(jù)庫管理模塊114可進一 步提供記分/分類系統(tǒng)186,其利用由訓練系統(tǒng)184創(chuàng)建的定義和屬性來向網(wǎng)絡(luò)內(nèi)容提供 記分或分類(例如,歸類),使得所述歸類可經(jīng)由上載/下載模塊178傳遞到網(wǎng)關(guān)服務(wù)器 模塊120。
現(xiàn)在參看圖8,提供收集系統(tǒng)182的更詳細視圖。收集系統(tǒng)182可包含收集模塊190, 其(直接或間接)耦合到數(shù)據(jù)挖掘模塊192。收集模塊190可由數(shù)據(jù)庫管理模塊114用-丁-為URL數(shù)據(jù)庫180收集關(guān)于未經(jīng)歸類的URL的數(shù)據(jù)。除了URL之外,URL數(shù)據(jù)庫180 還可存儲與URL相關(guān)聯(lián)的內(nèi)容。收集模塊還可用于收集URL供其它系統(tǒng)組件進行額外 分析。收集模塊190可與其可從其收集關(guān)于URL的數(shù)據(jù)的一個或一個以上收集源194相 關(guān)聯(lián)。收集源可采用各種形式。在一些實施例中,收集源194可包含主動與被動蜜罐和 蜜罐客戶端、存儲在網(wǎng)關(guān)服務(wù)器模塊120上的記錄數(shù)據(jù)庫144的用以識別應用程序的數(shù) 據(jù)分析、用于收集的URL和協(xié)議。收集源也可以是網(wǎng)絡(luò)爬行(webcrawling)應用程序, 其針對特定關(guān)鍵詞搜索因特網(wǎng)112,或在頁面內(nèi)容內(nèi)搜索短語。收集源194還可包含從 DNS數(shù)據(jù)庫挖掘的URL和IP地址數(shù)據(jù)以識別與已知惡意IP地址相關(guān)聯(lián)的域。在一些實 施例中,可通過從共享惡意代碼和惡意URL樣本的其它組織接收此信息以收集用于歸類 的URL。在又一些實施例中,可經(jīng)由電子郵件模塊收集URL,所述模塊經(jīng)配置以從整個 公眾接收舉報(tip),近似于通過罪犯舉報熱線來識別罪犯的方式。現(xiàn)在參看圖9,提供收集模塊190的更詳細視圖。收集模塊190可包含允許其有效 利用上述收集源中每一者的各種子組件。收集模塊190可包含搜索短語數(shù)據(jù)模塊197和 表達式數(shù)據(jù)模塊198。搜索短語數(shù)據(jù)模塊197收集并提供可能與識別不適當內(nèi)容相關(guān)的 搜索短語。表達式數(shù)據(jù)模塊可包含各種類型的表達式,例如常規(guī)表達式、操作數(shù)或某種 其它表達式。搜索短語數(shù)據(jù)模塊197和表達式數(shù)據(jù)模塊198每一者可包含可更新的記錄 組,其可用于定義用于網(wǎng)絡(luò)爬行收集源194的搜索參數(shù)。收集模塊190還可包含優(yōu)先權(quán) 模塊200。優(yōu)先權(quán)模塊200可采用在收集系統(tǒng)182內(nèi)運行的軟件過程的形式,或者其可 作為單獨過程運行。優(yōu)先權(quán)模塊可用于對收集模塊收集的數(shù)據(jù)區(qū)分優(yōu)先次序,以便使較 可能危險或可疑的URL (或數(shù)據(jù))在較可能無害的URL之前受到嚴格的檢査。在一個實 施例中,優(yōu)先權(quán)模塊200可基于接收的URL來自的收集源194而指派優(yōu)先權(quán)。舉例來說, 如果從客戶報告接收到URL,則可為其指定較高的優(yōu)先權(quán)。類似地,如果從接入在過去 主機惡意內(nèi)容已知的域或IP地址或子網(wǎng)的網(wǎng)絡(luò)爬行器接收到URL,則所述URL可得到 高優(yōu)先權(quán)。類似地,由蜜罐客戶端(下文更詳細論述)識別的可能危險的網(wǎng)站也可得到 高優(yōu)先權(quán)。收集模塊190還可包含數(shù)據(jù)選擇模塊202,其可與優(yōu)先權(quán)模塊200 —起工作 以確定所識別URL是否應被標記為用于歸類的候選URL。在一個實施例中,數(shù)據(jù)選擇 URL可提供用于接收搜索參數(shù)的用戶界面以通過基于優(yōu)先權(quán)和內(nèi)容搜索數(shù)據(jù)來進一步細 化經(jīng)區(qū)分優(yōu)先次序的數(shù)據(jù)。
如上文指示,收集模塊還可包含數(shù)據(jù)下載模塊204。數(shù)據(jù)下載模塊204可經(jīng)配置以 識別URL以進行訪問以及從所訪問URL下載數(shù)據(jù)和內(nèi)容。數(shù)據(jù)下載模塊可結(jié)合收集模 塊中的各種子系統(tǒng)一起工作,以檢索用于URL數(shù)據(jù)庫180的數(shù)據(jù)。 一個此子系統(tǒng)是網(wǎng)絡(luò) 爬行器模塊206。網(wǎng)絡(luò)爬行器模塊206可以是軟件應用程序,其經(jīng)配置以通過接入網(wǎng)頁 并跟隨包含在所述頁面中的超鏈接來接入因特網(wǎng)112上的網(wǎng)站。網(wǎng)絡(luò)爬行器模塊206可 配置有若干同時的過程,所述過程允許模塊同時爬行許多網(wǎng)站并將所訪問URL報告回 URL數(shù)據(jù)庫180,如下文將更詳細論述。收集模塊190還可包含蜜罐客戶端模塊208。蜜 罐客戶端模塊208是軟件過程,其經(jīng)配置而以吸引存儲在所訪問頁面內(nèi)的惡意代碼的方 式模仿網(wǎng)絡(luò)瀏覽者訪問網(wǎng)站的行為。蜜罐客戶端模塊208可訪問網(wǎng)站并跟蹤網(wǎng)站的行為, 且將內(nèi)容下載回到URL數(shù)據(jù)庫180供進一步分析。
下載模塊204還可包含第三方供應者模塊212,其經(jīng)配置以從第三方接收URL和相 關(guān)聯(lián)的內(nèi)容。舉例來說,第三方模塊212可經(jīng)配置以提供可由一般公眾接入的網(wǎng)站。所 述模塊可經(jīng)配置以接收輸入URL串,所述串隨后可被輸入到URL數(shù)據(jù)庫180中。在一些實施例中,第三方模塊還可經(jīng)配置以接收來自專有或公共郵寄列表的電子郵件,且識 別所述電子郵件內(nèi)嵌入的任何URL數(shù)據(jù)以存儲在URL數(shù)據(jù)庫180中。
下載模塊還可包含網(wǎng)關(guān)服務(wù)器接入模塊210。網(wǎng)關(guān)服務(wù)器接入模塊是軟件組件或程 序,其可經(jīng)配置以有規(guī)律地接入網(wǎng)關(guān)服務(wù)器模塊120上的記錄數(shù)據(jù)庫144以下載/上載由 記錄數(shù)據(jù)庫144識別的所有新未經(jīng)歸類的網(wǎng)絡(luò)內(nèi)容。
返回參看圖8,收集系統(tǒng)還可包含數(shù)據(jù)挖掘模塊192。數(shù)據(jù)挖掘模塊192可用于獲得 關(guān)于存儲在URL數(shù)據(jù)庫180中的URL的額外數(shù)據(jù)。在許多例子中,由收集源194供應 到收集模塊190和URL數(shù)據(jù)庫180的信息僅限于URL串。因此,為了使系統(tǒng)有效地歸 類所述URL內(nèi)的內(nèi)容,可能必須有更多數(shù)據(jù)。舉例來說,可能需要檢査實際的頁面內(nèi)容 以確定是否存在嵌入URL內(nèi)的危險內(nèi)容。數(shù)據(jù)挖掘模塊192用于收集關(guān)于URL的此額 外必要數(shù)據(jù),且下文將更詳細論述。
圖10提供蜜罐客戶端系統(tǒng)208的更詳細視圖。蜜罐客戶端系統(tǒng)208包含控制服務(wù)器 220??刂品?wù)器220用于控制多個蜜罐挖掘器(honey miner) 222,其經(jīng)配置以訪問網(wǎng) 站并模仿人類瀏覽者的行為以嘗試檢測網(wǎng)站上的惡意代碼。蜜罐挖掘器222可以是被動 蜜罐挖掘器或主動蜜罐挖掘器。被動蜜罐挖掘器類似于上述的網(wǎng)絡(luò)爬行器。然而,不同 于僅訪問網(wǎng)站并報告從所述站點可獲得的URL鏈接的上述網(wǎng)絡(luò)爬行器,被動蜜罐挖掘器 可經(jīng)配置以下載頁面內(nèi)容并將其傳回控制服務(wù)器220以用于插入到URL數(shù)據(jù)庫180中。 蜜罐挖掘器222可以是單一機器上的軟件模塊,或者其每一者可實施在單獨計算裝置上。
在一個實施例中,每一控制服務(wù)器可控制17個被動蜜罐挖掘器222。控制服務(wù)器220 可從URL數(shù)據(jù)庫180提取或接收需要額外信息以便完全分析或歸類的URL??刂品?wù)器 220將所述URL提供到挖掘器,挖掘器又檢閱URL并存儲收集的數(shù)據(jù)。當被動挖掘器 222完成特定URL時,其可從其控制服務(wù)器222請求另一URL。在一些實施例中,挖掘 器222可經(jīng)配置以跟隨URL內(nèi)容上的鏈接,使得除了訪問由控制服務(wù)器220指定的URL 之外,挖掘器還可訪問其鏈接到所述URL的內(nèi)容。在一些實施例中,挖掘器222可經(jīng)配 置以相對于每一原始URL挖掘到指定深度。舉例來說,挖掘器222可經(jīng)配置以向下挖掘 穿過四層網(wǎng)絡(luò)內(nèi)容,然后從控制服務(wù)器220請求新的URL數(shù)據(jù)。
在其它實施例中,控制服務(wù)器220可經(jīng)配置以控制主動蜜罐挖掘器222。與僅訪問 網(wǎng)站并存儲站點上呈現(xiàn)的內(nèi)容的被動蜜罐挖掘器相比,主動蜜罐挖掘器222可經(jīng)配置以 訪問URL并運行或執(zhí)行在站點上識別的內(nèi)容。在一些實施例中,主動蜜罐挖掘器222包 含實際的網(wǎng)絡(luò)瀏覽軟件,其經(jīng)配置以訪問網(wǎng)站并經(jīng)由瀏覽器軟件接入網(wǎng)站上的內(nèi)容??刂品?wù)器220 (或蜜罐挖掘器本身222)可經(jīng)配置以在其執(zhí)行其訪問的網(wǎng)站上的內(nèi)容時監(jiān) 視蜜罐挖掘器222的特性。在一個實施例中,控制服務(wù)器220將記錄由于執(zhí)行所訪問網(wǎng) 站上的應用程序或內(nèi)容而由蜜罐挖掘器訪問的URL。因此,主動蜜罐挖掘器222可提供 更準確地跟蹤系統(tǒng)行為并發(fā)現(xiàn)先前未識別出的利用(exploit)的方式。因為主動蜜罐挖 掘器將其本身暴露于可執(zhí)行內(nèi)容的危險,所以在一些實施例中主動蜜罐挖掘器222可位 于沙盒(sandbox)環(huán)境中,其提供 一 組受到緊密控制的資源用于客人程序(guest program) 在其中運行,以便保護其它計算機免于可能由惡意內(nèi)容造成的危險。在一些實施例中, 沙盒可采用模擬操作系統(tǒng)的虛擬機的形式。在其它實施例中,沙盒可采用與網(wǎng)絡(luò)隔離的 實際系統(tǒng)的形式。可通過實時跟蹤對沙盒機器上的文件系統(tǒng)做出的改變來檢測反常行為。 在一些實施例中,由主動蜜罐挖掘器222執(zhí)行的代碼可能會引起運行所述挖掘器的機器 由于嵌入在網(wǎng)頁內(nèi)容中的惡意代碼而變?yōu)椴豢刹僮?。為了解決此問題,控制服務(wù)器可控 制替代挖掘器,其可插手幫助完成在挖掘過程期間損壞的蜜罐挖掘器222的丁作。
現(xiàn)在參看圖11,提供已由收集系統(tǒng)收集的一組URL相關(guān)數(shù)據(jù)的實例。盡管提供所收 集數(shù)據(jù)的特定實例,但所屬領(lǐng)域的技術(shù)人員將了解,除了此實例中提供的數(shù)據(jù)之外還可 收集其它數(shù)據(jù)。所收集數(shù)據(jù)中包含針對URL的IP地址230。 IP地址230可用于識別正 代管同一IP地址下或同一服務(wù)器上的可疑內(nèi)容的多個域的網(wǎng)站。因此,如果具有惡意內(nèi) 容的URL被識別為來自特定IP地址,那么可針對具有相同IP地址的其它URL挖掘URL/ 內(nèi)容數(shù)據(jù)庫180中的數(shù)據(jù)的其余部分,以便對其進行選擇和對其進行更仔細的分析。所 收集URL數(shù)據(jù)還可包含URL 232,如圖ll中的第二列指示。在使用例如上述蜜罐客戶 端過程的挖掘過程收集數(shù)據(jù)的例子中,URL 232可常包含來自相同網(wǎng)域的各種頁面,因 為挖掘器可能經(jīng)配置以爬行通過網(wǎng)站中的所有鏈接。所收集數(shù)據(jù)還可包含針對特定URL 的頁面內(nèi)容234。因為URL的內(nèi)容可呈圖形、文本、應用程序和/或其它內(nèi)容的形式,所 以在一些實施例中,存儲此URL數(shù)據(jù)的數(shù)據(jù)庫可經(jīng)配置以將頁面內(nèi)容存儲為數(shù)據(jù)記錄中 的二進制大對象(blob)或應用程序?qū)ο蟆H欢?,由于某些網(wǎng)頁只含有文本,因此頁面 內(nèi)容234也可存儲為文本。在一些實施例中,收集例行程序可經(jīng)配置以確定URL是否含 有可執(zhí)行內(nèi)容。在這些例子中,所收集數(shù)據(jù)的所得數(shù)據(jù)集可包含URL在其頁面代碼內(nèi)是 否具有可執(zhí)行內(nèi)容236的指示。此信息可稍后用于從具有候選數(shù)據(jù)的URL/內(nèi)容數(shù)據(jù)庫 180中選擇數(shù)據(jù)以供分析。
圖12是說明來自圖7的記分和歸類模塊186的方框圖。在一個實施例中,記分和歸 類模塊168包含屬性數(shù)據(jù)庫320、經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324、定義數(shù)據(jù)庫326、靜態(tài)內(nèi)容分類模塊328以及內(nèi)容記分模塊330。在一個實施例中,記分和歸類模塊186包含活 動分析模塊332。內(nèi)容分析模塊322接收來自URL數(shù)據(jù)庫180的一個或一個以上候選URL 并從屬性數(shù)據(jù)庫320中識別其發(fā)現(xiàn)的與每一候選URL相關(guān)聯(lián)的屬性。每一 URL的屬性 的值和/或計數(shù)存儲在經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324中。靜態(tài)內(nèi)容分類模塊328基于來自定 義數(shù)據(jù)庫326的定義査詢經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324以將類別與候選URL相關(guān)聯(lián)。內(nèi)容 記分模塊330可進一步將記分與每一URL相關(guān)聯(lián),所述記分可用于進一步歸類或改變由 靜態(tài)內(nèi)容分類模塊328識別的類別。在一個實施例中,內(nèi)容記分模塊330可識別候選URL 以供活動分析模塊332進行處理?;顒臃治瞿K332下載和執(zhí)行任何活動內(nèi)容以識別與 URL相關(guān)聯(lián)的行為屬性。接著可將這些屬性提供到內(nèi)容記分模塊以進一步歸類候選URL, 例如改變其類別或添加額外類別。
舉例來說,由內(nèi)容分析模塊322處理的URL可得到"惡意"類別。內(nèi)容記分模塊330 接著可將記分(例如,低分)與URL相關(guān)聯(lián),所述記分指示URL不是惡意的。為了解 決,內(nèi)容記分模塊330可將URL作為候選URL提供到活動分析模塊332以識別更多屬 性或行為記分,其可由內(nèi)容記分模塊330使用以確定"惡意"類別是否適當。
屬性數(shù)據(jù)庫320包含可用于歸類網(wǎng)頁的關(guān)鍵詞、常規(guī)表達式以及其它網(wǎng)頁屬性。屬 性也可以是與網(wǎng)頁相關(guān)聯(lián)的值,例如HTTP請求標頭數(shù)據(jù)或與網(wǎng)頁相關(guān)聯(lián)的其它元數(shù)據(jù)。 舉例來說,屬性可包含將在文檔中識別的例如'、java腳本〉""<對象>"的關(guān)鍵詞、例如 "數(shù)據(jù)=.*\.1)(1"的常規(guī)表達式(例如,關(guān)鍵詞"數(shù)據(jù)="之后是任意長度的字符串,之后 是".txt"),或來自HTTP標頭的數(shù)據(jù)的內(nèi)容類型。圖13A是屬性數(shù)據(jù)庫的實例,其包含 屬性和識別屬性類型的額外字段,例如關(guān)鍵詞或常規(guī)表達式。在說明性數(shù)據(jù)庫中,屬性 ID字段用于提供用于每一屬性的唯一 (在數(shù)據(jù)庫內(nèi))識別符。在其它實施例中,可使用 其它合適類型的關(guān)鍵詞。
在一個實施例中,內(nèi)容分析模塊322接收來自URL數(shù)據(jù)庫的巳經(jīng)由收集系統(tǒng)182識 別的候選URL。內(nèi)容分析模塊接收內(nèi)容和與URL相關(guān)聯(lián)的其它數(shù)據(jù)(例如HTTP標頭), 并識別屬性數(shù)據(jù)庫320中與候選網(wǎng)頁相關(guān)聯(lián)的一個或一個以上屬性,且將與那些屬性相 關(guān)的數(shù)據(jù)存儲在經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324中。內(nèi)容分析模塊322可接收來自URL數(shù)據(jù) 庫的候選網(wǎng)頁的內(nèi)容或其本身可下載數(shù)據(jù)。在一個實施例中,蜜罐客戶端模塊208獲得 并存儲URL數(shù)據(jù)庫中每一候選網(wǎng)頁的內(nèi)容。在另一實施例中,作為針對屬性處理網(wǎng)頁的 一部分,內(nèi)容分析模塊322下載候選網(wǎng)頁的內(nèi)容。
大體上,屬性數(shù)據(jù)庫320存儲屬性和充足信息以識別與網(wǎng)頁相關(guān)聯(lián)的屬性。舉例來說,針對關(guān)鍵詞或常規(guī)表達式屬性,屬性數(shù)據(jù)庫320可存儲關(guān)鍵詞或常規(guī)表達式。相比 之下,經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324可存儲由內(nèi)容分析模塊322發(fā)現(xiàn)與每一網(wǎng)頁相關(guān)聯(lián)的 關(guān)鍵詞或常規(guī)表達式的計數(shù)。對于常規(guī)表達式,取決于實施例,可將匹配表達式的計數(shù) 或匹配表達式本身或所述兩者存儲在經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324中。舉例來說,對于特 定網(wǎng)頁,經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324可能存儲值3,其指屬性'、java腳本>"在頁面中 出現(xiàn)的次數(shù),值0 ,指屬性" < 對象t> "出現(xiàn)的次數(shù),以及 "data=httD:〃www.example.ud/example.txt.",指常規(guī)表達式屬性"數(shù)據(jù)=,Vtxt."。
圖13B說明經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324中的表的一個實施例,其中圖13A的實例屬 性已經(jīng)相對于若干網(wǎng)頁經(jīng)處理。在說明的實施例中,數(shù)據(jù)庫包含兩個表, 一個將URL與 唯一 (在數(shù)據(jù)庫內(nèi))識別符相關(guān),第二個將URL識別符與同所述URL相關(guān)聯(lián)的屬性相 關(guān)。在說明的實施例中,表包含針對與URL相關(guān)聯(lián)的網(wǎng)絡(luò)內(nèi)容數(shù)據(jù)的每一屬性的條目或 行。在一個實施例中,數(shù)據(jù)庫還包含針對對應于關(guān)鍵詞屬性的每一屬性/URL的數(shù)字值, 其指示在網(wǎng)頁中發(fā)現(xiàn)特定屬性的次數(shù)。數(shù)據(jù)庫,例如在URL/屬性表中,還可包含匹配于 URL的常規(guī)表達式屬性的實際表達式。在一個實施例中,可在頁面主體中和標頭或其它 元數(shù)據(jù)中搜索關(guān)鍵詞屬性。在一個實施例中,僅搜索頁面主體。在又一實施例中,屬性 可與例如屬性數(shù)據(jù)庫320中的數(shù)據(jù)相關(guān)聯(lián),其指示在識別網(wǎng)頁中的屬性的過程中應處理 哪些數(shù)據(jù)。
在一個實施例中,靜態(tài)內(nèi)容分類模塊328存取網(wǎng)頁屬性數(shù)據(jù)庫324并對一個或一個 以上網(wǎng)頁的屬性與來自定義數(shù)據(jù)庫326的定義進行比較。當網(wǎng)頁匹配于特定定義時,以 與所述定義相關(guān)聯(lián)的一個或一個以上類別識別所述網(wǎng)頁。在一個實施例中,這些類別存 儲在與URL相關(guān)聯(lián)的URL數(shù)據(jù)庫中。在一個實施例中,根據(jù)網(wǎng)頁的一個或一個以上屬 性表達每一定義。在一個實施例中,定義表達為與一個或一個以上所述屬性相關(guān)的一階 邏輯運算。在一個實施例中,定義的項包含網(wǎng)頁屬性之間或?qū)傩耘c值(包含常數(shù)值)之 間的比較。舉例來說,定義可能包含表達式,例如"屬性J"="屬性2" AND "屬性—3" 的發(fā)生>5。除了比較之外,項可包含對網(wǎng)頁屬性的其它運算,例如算術(shù)、字符串或任何 其它合適的計算表達式。舉例來說,簡單的定義可以是"data^n.txt"z:"data^yx333.txt", 其匹配于具有字符串"data-xyx333.txt"(匹配于常規(guī)表達式屬性"data=,*Vtxt")作為其 內(nèi)容的一部分的任何網(wǎng)頁。更復雜的定義可包括對所述項的邏輯運算。此類邏輯運算可 包含AND、 OR、 NOT、 XOR、 IF-THEN-ELSE,或?qū)傩缘某R?guī)表達式匹配。在一個實 施例中,定義還可包含或?qū)跀?shù)據(jù)庫查詢表達式,例如標準SQL數(shù)據(jù)庫比較函數(shù)和邏輯運算。在一個實施例中,定義可包含可執(zhí)行代碼,例如可執(zhí)行程序的腳本或引用或至 少部分地確定URL的分類的腳本。圖13C說明根據(jù)一個實施例的定義數(shù)據(jù)庫326的示范 性部分。如本文使用,類別可指任何類型的分類。舉例來說,類別可僅僅是指示針對URL 應執(zhí)行進一步處理或分析以識別URL的類別的分類。
在一個實施例中,內(nèi)容記分模塊330進一步分析網(wǎng)頁并向網(wǎng)頁指派與一個或一個以 上類別相關(guān)聯(lián)的記分。在一個實施例中,記分可基于在網(wǎng)頁中發(fā)現(xiàn)關(guān)鍵詞的次數(shù)的加權(quán) 組合。在一個實施例中,權(quán)數(shù)存儲在與對應屬性相關(guān)聯(lián)的屬性數(shù)據(jù)庫中。
在另一實施例中,記分可基于關(guān)于網(wǎng)頁的URL的信息來確定。舉例來說,可基于因 特M地址和/或域名向特定者指派記分。數(shù)據(jù)庫可向整個子網(wǎng)絡(luò)指派記分(例如,匹配于 128.2.*.*的所有地址可具有特定記分)。此類網(wǎng)絡(luò)或子網(wǎng)絡(luò)幫助將網(wǎng)站識別為位于特定國 家或具有特定服務(wù)提供商。已發(fā)現(xiàn)這對記分有用,因為由于不同的法律或執(zhí)法不嚴,某 些國家和服務(wù)提供商已經(jīng)關(guān)聯(lián)于特定類型的網(wǎng)絡(luò)內(nèi)容。網(wǎng)絡(luò)或子網(wǎng)絡(luò)的記分系統(tǒng)可基于 具有特定類別的特定網(wǎng)絡(luò)或域中的URL的相對數(shù)目。舉例來說,如果URL數(shù)據(jù)庫180 中針對特定網(wǎng)絡(luò)的URL的95%被分類為惡意的,那么可給予新URL高分。在一個實施 例中,具有高于閾值的記分的URL被識別為具有一類別,例如惡意的,而無論通過對網(wǎng) 頁的內(nèi)容分析識別的類別如何或除了所述類別以外。在一個實施例中,向每一URL指派 與不同類別相關(guān)聯(lián)的多個記分,且用URL識別對應于高于給定閾值的每一記分的類別。 在一個實施例中,采用多個閾值。舉例來說,基于記分自動分類具有高于一個閾值的記 分的URL。在一個實施例中,將具有低于第一閾值但高于第二閾值的記分的URL傳送給 人類分析員以用于分類。在一個實施例中,內(nèi)容記分模塊330將此類URL傳送到活動分 析模塊332以用于額外分析。
一個實施例可包含記分和歸類系統(tǒng),例如標題為"用于控制對因特網(wǎng)站點的接入的 系統(tǒng)禾口方法"("System and method for controlling access to internet sites,") 的第 6,606,659號美國專利中說明,所述文檔的全文以引用的方式并入。
在一個實施例中,活動分析模塊332執(zhí)行網(wǎng)頁的活動內(nèi)容以識別其行為屬性。這些 屬性可接著用于為網(wǎng)頁記分和分類。在一個實施例中,靜態(tài)內(nèi)容分類模塊328和內(nèi)容記 分模塊330中的一者或一者以上識別URL以用于由活動分析模塊332處理。在接收到候 選URL之后,活動分析模塊332可將與一個或一個以上行為屬性(例如,比如"寫入到 注冊表"的屬性)相關(guān)聯(lián)的行為記分或數(shù)據(jù)提供到內(nèi)容記分模塊以用于進一步歸類。
圖14是說明來自圖7的訓練模塊184的一個實施例的方框圖。在一個實施例中,訓練模塊包含分析任務(wù)分配模塊352,其識別針對其需要額外類別的具有例如活動內(nèi)容等 內(nèi)容的網(wǎng)頁或URL。在一個實施例中,收集模塊190識別具有活動內(nèi)容的URL。在另一 實施例中,例如安全性研究員等外部源識別具有已經(jīng)識別出具有 一 個或 一 個以上類別(例 如,鍵盤記錄程序、病毒、惡意內(nèi)容、蠕蟲等)的活動內(nèi)容的特定URL。在一個實施例 中,這些可存儲在URL數(shù)據(jù)庫180中。在一個實施例中,任務(wù)分配模塊352維持此類 URL的數(shù)據(jù)庫(未圖示)。在一個實施例中,任務(wù)分配模塊352數(shù)據(jù)庫維持針對這些URL 的優(yōu)先權(quán),并基于優(yōu)先權(quán)將其呈現(xiàn)給分析員。
屬性識別模塊354識別網(wǎng)頁的屬性和基于所述屬性的定義,所述屬性和定義對網(wǎng)頁 進行歸類。在一個實施例中,屬性識別模塊354為人類分析員提供使用記分和分類模塊 186向URL應用特定規(guī)則或定義的界面。另外在一個實施例中,屬性識別模塊354可提 供一界面,供分析員將URL識別為供圖10的活動分析模塊332執(zhí)行URL的行為分析的 候選,以便從活動分析模塊332接收回用于將URL分類的額外數(shù)據(jù)。屬性識別模塊354 接著可將此數(shù)據(jù)提供給分析員。在一個實施例中,分析員分析來自記分和分類模塊186 (包含活動分析模塊332)的URL數(shù)據(jù)以幫助識別將URL以及(在可能時)涉及類似分 類的內(nèi)容的其它URL適當分類的屬性和定義。在一個實施例中,屬性識別模塊354將這 些新識別的屬性和定義提供到數(shù)據(jù)庫更新模塊356,數(shù)據(jù)庫更新模塊356將新定義和屬 性存儲到屬性數(shù)據(jù)庫320和定義數(shù)據(jù)庫326。
圖15是說明來自圖12的活動分析模塊332的一個實施例的方框圖。在一個實施例 中,活動分析模塊332包含沙盒模塊370,在沙盒模塊370中如將在典型工作站116上所 發(fā)生的那樣下載URL和執(zhí)行任何活動內(nèi)容。沙盒模塊370以透明方式監(jiān)視計算機的狀態(tài) 以識別網(wǎng)絡(luò)內(nèi)容的行為,所述行為影響例如新產(chǎn)生進程、網(wǎng)絡(luò)接入、處理器使用、存儲 器使用、系統(tǒng)資源使用、文件系統(tǒng)存取或修改以及注冊表存取或修改中的一者或一者以 上。
行為分析模塊372將來自沙盒模塊的所監(jiān)視動作與特征化所監(jiān)視動作的列表、數(shù)據(jù) 庫或規(guī)則進行比較。在一個實施例中,這些特征化定義URL的屬性,所述屬性隨后由圖 12的靜態(tài)內(nèi)容分類模塊328分析。在另一實施例中,活動記分分類模塊374可使用與行 為屬性相關(guān)聯(lián)的記分來確定URL的記分。在一個實施例中,記分是這些屬性的加權(quán)記分。 此記分可用于將URL分類或?qū)⑵鋫魉偷絻?nèi)容記分模塊以用于分類。在另一實施例中,將 例如來自定義數(shù)據(jù)庫332的規(guī)則或定義應用于URL的行為屬性(且在一個實施例中,經(jīng) 處理網(wǎng)頁屬性324)以識別與URL相關(guān)聯(lián)的一個或一個以上類別。使用和操作的方法描述
取決于實施例,本文描述的方法的動作或事件可以不同順序執(zhí)行、可合并,或可完 全省略(例如,并非所有動作或事件對于實踐所述方法都是必要的),除非正文中另有具 體且清楚的陳述。另外,本文描述的方法可包含額外的動作或事件,除非正文中另有具 體且清楚的陳述。而且,除非另有清楚陳述,否則可例如通過中斷處理或多個處理器同 時執(zhí)行而不是順序執(zhí)行動作或事件。
如上文結(jié)合圖3論述,在一些實施例中,網(wǎng)關(guān)服務(wù)器模塊120可經(jīng)配置以基于經(jīng)歸 類URL數(shù)據(jù)庫146中存儲的數(shù)據(jù)來控制對特定URL的接入。圖16是描述網(wǎng)關(guān)服務(wù)器模 塊處理來自工作站116的請求的實施例的流程圖。
在方框1200,工作站116從因特網(wǎng)112請求URL。在方框1202,此請求在因特網(wǎng)網(wǎng) 關(guān)處被攔截并被轉(zhuǎn)發(fā)到網(wǎng)關(guān)服務(wù)器模塊120。在方框1204,查詢經(jīng)歸類URL數(shù)據(jù)庫146 以確定所請求URL是否存儲在數(shù)據(jù)庫146中。如果發(fā)現(xiàn)所請求URL是數(shù)據(jù)庫中的一份 記錄,那么過程繼續(xù)移動到方框1206,其中所述過程分析URL記錄以確定URL的類別 是否是應針對工作站用戶阻止的類別。如果所述類別被阻止,則過程跳轉(zhuǎn)到方框1212且 請求被阻止。然而如果所述類別未被阻止,則在方框1208處允許所述請求。
如果在方框1204處并未發(fā)現(xiàn)所請求URL是經(jīng)歸類URL數(shù)據(jù)庫146中的記錄,則系 統(tǒng)前進到方框1210。在方框1210處,系統(tǒng)確定如何處理未經(jīng)歸類內(nèi)容。在一些實施例 中,系統(tǒng)可利用策略模塊142來做出此確定。如果網(wǎng)關(guān)服務(wù)器模塊120經(jīng)配置以阻止針 對未經(jīng)歸類內(nèi)容的請求,則過程移動到方框1212,且阻止請求。另一方面,如果模塊經(jīng) 配置以允許這些類型的未經(jīng)歸類請求,則過程移動到方框1208,其中允許所述請求前進 到因特網(wǎng)112。
在一些實施例中,對URL數(shù)據(jù)的請求可導致新記錄添加到記錄數(shù)據(jù)庫144。這些記 錄可稍后傳送到數(shù)據(jù)庫管理模塊114供進一步分析?,F(xiàn)在參看圖17,提供描述網(wǎng)關(guān)服務(wù) 器模塊可借以處理URL請求的過程的另一流程圖。在方框1300,網(wǎng)關(guān)服務(wù)器模塊120 接收針對URL的請求。如上所述,此請求可來自工作站116。在方框1302,接著將URL 與經(jīng)歸類URL數(shù)據(jù)庫146進行比較,且系統(tǒng)在方框1304確定所請求URL是否在經(jīng)歸類 URL數(shù)據(jù)庫中。
如果URL已經(jīng)在經(jīng)歸類URL數(shù)據(jù)庫146中,則過程跳轉(zhuǎn)到方框1308。然而如果在 經(jīng)歸類URL數(shù)據(jù)庫146中沒有發(fā)現(xiàn)所請求URL,則過程移動到方框1306,其中將URL 插入到未經(jīng)歸類URL數(shù)據(jù)庫147中。(在一些實施例中,記錄數(shù)據(jù)庫144和未經(jīng)歸類URL數(shù)據(jù)庫147可以是同一數(shù)據(jù)庫。)在將URL插入到數(shù)據(jù)庫中之后,方法前進到方框1308。 在方框1308,檢査策略數(shù)據(jù)庫以獲得關(guān)于如何處理所接收URL的指令。 一旦策略模塊 142已經(jīng)被檢査,就在方框1310更新記錄數(shù)據(jù)庫144以記錄URL巳經(jīng)被請求。在更新記 錄數(shù)據(jù)庫144之后,如果策略數(shù)據(jù)庫許可工作站116接入URL,則過程移動到方框1314, 且將URL請求發(fā)送到因特網(wǎng)112。然而如果策略數(shù)據(jù)庫不允許所述請求,則過程跳轉(zhuǎn)到 方框1316且阻止請求。
在一些實施例中,網(wǎng)關(guān)服務(wù)器模塊120可執(zhí)行收集活動以減少數(shù)據(jù)庫管理模塊114 的收集系統(tǒng)182的負擔。圖18提供網(wǎng)關(guān)服務(wù)器收集模塊140用于收集關(guān)于未經(jīng)歸類URL 的數(shù)據(jù)的系統(tǒng)的實例。在方框1400,網(wǎng)關(guān)服務(wù)器模塊接收針對URL的請求。接著,在方 框1402,將所請求URL與經(jīng)歸類URL數(shù)據(jù)庫進行比較。如果在方框1404系統(tǒng)確定所請 求URL在URL數(shù)據(jù)庫中,則過程移動到方框1410,其中依據(jù)URL如何被歸類而將請求 轉(zhuǎn)發(fā)到因特網(wǎng)112或阻止請求。
如果所請求URL不在經(jīng)歸類URL數(shù)據(jù)庫146中,則過程移動到方框1406,其中將 URL發(fā)送到網(wǎng)關(guān)收集模塊140。接著在方框1408,收集模塊140收集關(guān)于所請求URL 的URL數(shù)據(jù)。在一些實施例中,此數(shù)據(jù)可存儲在未經(jīng)歸類URL數(shù)據(jù)庫147中?;蛘?, 此數(shù)據(jù)可簡單地經(jīng)由因特網(wǎng)112轉(zhuǎn)發(fā)到數(shù)據(jù)庫管理模塊114。 一旦數(shù)據(jù)已被收集并存儲, 則過程移動到方框1410,其中基于策略模塊142中指示的策略而允許或阻止URL請求。
如先前論述,未經(jīng)歸類URL數(shù)據(jù)可從網(wǎng)關(guān)服務(wù)器模塊120發(fā)送到數(shù)據(jù)庫管理模塊114 供進一步分析,使得URL可經(jīng)歸類并添加到經(jīng)歸類URL數(shù)據(jù)庫146。然而,因為未經(jīng)歸 類數(shù)據(jù)的量有時很大,以至于或許不可能在無損于準確性或速度的情況下將所有接收的 數(shù)據(jù)歸類。因此,在一些例子中,可能需要識別未經(jīng)歸類數(shù)據(jù)內(nèi)的最有可能對工作站116 和網(wǎng)絡(luò)110引起威脅的候選URL。
圖19提供用于識別候選URL供進一步分析的方法的實例。所述方法以將.URL接收 到數(shù)據(jù)庫模塊114的收集系統(tǒng)182中開始。在方框1502,預處理URL或應用程序以確定 其是否攜帶己知的惡意數(shù)據(jù)元素或數(shù)據(jù)簽名。接著在方框1504,如果系統(tǒng)確定URL包含 已知的惡意元素,則過程跳轉(zhuǎn)到方框1514,其中將URL標記為候選URL并將其發(fā)送到 訓練系統(tǒng)184供進一步分析。如果在方框1504中對URL的初始分析沒有顯示惡意元素, 則過程移動到方框1506,其中將URL添加到可能的候選URL的數(shù)據(jù)庫。接著在方框1508, 數(shù)據(jù)挖掘模塊192經(jīng)配置以基于預先配置的條件(例如,攻擊串、病毒簽名等)從源194 (可能的候選URL的數(shù)據(jù)庫是其中之一)選擇URL。接著在方框1510將包含所有數(shù)據(jù)源194的數(shù)據(jù)集發(fā)送到數(shù)據(jù)挖掘模塊192,其中在方框1512通過數(shù)據(jù)挖掘模塊192分析每 一 URL。如果URL滿足所定義的預先配置的條件,則過程移動到方框1514,其中將URL 標記為候選URL并將其轉(zhuǎn)送到記分/分類系統(tǒng)186供額外分析。然而如果URL不滿足為 將其轉(zhuǎn)換為候選URL而指定的條件,則方法前進到方框1516且不將URL標記為候選。 盡管在URL候選分類的上下文中描述此實施例,但所屬領(lǐng)域的技術(shù)人員將容易了解,可 使用上述過程類似地分析應用程序并將其標記為候選。
如上論述,收集并分析因特網(wǎng)數(shù)據(jù)以確定其是否包含有害的活動內(nèi)容的難點之一就 是必須收集和分析的數(shù)據(jù)的量。在又一實施例中,數(shù)據(jù)挖掘模塊192可用于通過收集大 量相關(guān)數(shù)據(jù)來解決這些問題以有效且高效地利用系統(tǒng)資源?,F(xiàn)在參看圖20,提供數(shù)據(jù)挖 掘系統(tǒng)192的更詳細的方框圖。數(shù)據(jù)挖掘系統(tǒng)192可采用軟件模塊的形式,其運行多個 異步過程以實現(xiàn)最大效率和輸出。數(shù)據(jù)挖掘系統(tǒng)192可包含插入模塊242,其接收提供 關(guān)于應如何處理輸入數(shù)據(jù)的指令的配置參數(shù)。在一個實施例中,由插件模塊接收的指令 可采用HTTP協(xié)議插件的形式,其為數(shù)據(jù)挖掘系統(tǒng)192接收URL數(shù)據(jù)并基于由數(shù)據(jù)挖掘 系統(tǒng)對URL數(shù)據(jù)實施的各種HTTP相關(guān)指令分析和補充數(shù)據(jù)提供參數(shù)。在另一實施例中, 可朝挖掘例如FTP、 NNTP或某種其它數(shù)據(jù)形式的某種其它協(xié)議的方向來調(diào)整插件。
也可用于實施被動蜜罐客戶端的數(shù)據(jù)挖掘系統(tǒng)192還包含調(diào)度程序248的庫246。 調(diào)度程序248是單個單個的異步處理實體,其基于輸入到數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)(用于 分析)和由插件模塊242接收的配置數(shù)據(jù)來接收任務(wù)指派。庫246是由驅(qū)動程序244控 制的調(diào)度程序的集合。驅(qū)動程序244是用于庫的管理機制。驅(qū)動程序244可經(jīng)配置以監(jiān) 視庫246中的調(diào)度程序248的活動以確定何時將額外數(shù)據(jù)發(fā)送到庫246中用于挖掘和分 析。在一個實施例中,驅(qū)動程序可經(jīng)配置以每當任何調(diào)度程序248空閑便將新數(shù)據(jù)單元 發(fā)送到庫246中。在一個實施例中,驅(qū)動程序244可用作控制服務(wù)器以管理如上文結(jié)合 圖10描述的蜜罐客戶端挖掘器222。庫246可將數(shù)據(jù)單元傳遞到空閑的調(diào)度程序248。 調(diào)度程序248讀取插件配置并根據(jù)插件242執(zhí)行動作。
在一個實施例中,插件模塊可接收HTTP插件。HTTP插件可經(jīng)配置以接收呈URL 串形式的輸入數(shù)據(jù),關(guān)于所述數(shù)據(jù),數(shù)據(jù)挖掘系統(tǒng)192將獲得額外信息,例如URL的頁 面內(nèi)容、在接入URL時由URL返回的HTTP消息(例如,"4xx—文件未找到"或"5xx— 服務(wù)器錯誤")。插件可進一步指定網(wǎng)絡(luò)爬行模式,其中調(diào)度程序除了收集頁面內(nèi)容以外 還將URL內(nèi)容內(nèi)的URL鏈接添加到待分析的URL數(shù)據(jù)集。
圖21是說明在數(shù)據(jù)庫管理模塊114內(nèi)將URL歸類的方法2000的一個實施例的流程圖。方法2000開始于方框2002,其中開發(fā)可用于將網(wǎng)頁歸類的屬性。在一個實施例中, 訓練模塊184用于開發(fā)屬性數(shù)據(jù)庫320中的屬性。在一個實施例中,開發(fā)屬性包含開發(fā) 定義(例如與一個或一個以上屬性相關(guān)的表達式),并將定義存儲在定義數(shù)據(jù)庫326中。 接著在方框2004處,識別網(wǎng)頁以用于內(nèi)容分析。在一個實施例中,收集模塊190識別網(wǎng) 頁以用于內(nèi)容分析。在一個實施例中,識別具有活動內(nèi)容的屬性或其它指示的網(wǎng)頁以用 于內(nèi)容分析。
移動到方框2006,內(nèi)容分析模塊322識別與每一所識別網(wǎng)頁相關(guān)聯(lián)的一個或一個以 上屬性。下文參看圖22更詳細描述方框2006的功能。前進到方框2010,靜態(tài)內(nèi)容分類 模塊328至少部分地基于屬性識別具有一個或一個以上類別的網(wǎng)頁。在一個實施例中, 靜態(tài)內(nèi)容分類模塊328將來自定義數(shù)據(jù)庫326的定義與每一網(wǎng)頁的屬性進行比較以識別 其屬性。在一個實施例中,類別包含指示網(wǎng)頁是否與活動內(nèi)容相關(guān)聯(lián)的那些類別。在一 個實施例中,類別包含指示與網(wǎng)頁相關(guān)聯(lián)或由網(wǎng)頁引用的活動內(nèi)容的類型(例如,惡意、 網(wǎng)絡(luò)釣魚站點、鍵盤記錄程序、病毒、蠕蟲等)的那些類別。在一個實施例中,活動內(nèi) 容包含在網(wǎng)頁的主體中。在一個實施例中,在網(wǎng)頁的鏈接或活動X對象元素中引用活動 內(nèi)容。在一個實施例中,活動內(nèi)容包含交互式"網(wǎng)絡(luò)釣魚"站點,其包含往往誤導用戶 提供證書或其它敏感、私人或個人信息的內(nèi)容。在一個實施例中,記分模塊330進一步 為網(wǎng)頁記分和分類。移動到方框2012,將與網(wǎng)頁相關(guān)聯(lián)的類別存儲在URL數(shù)據(jù)庫中。在 一個實施例中,圖7的上載下載模塊178將新URL類別分布到一個或一個以上網(wǎng)關(guān)服務(wù) 器模塊120或工作站116 (兩者均見圖1)。在一個實施例中,方法2000的一個或一個以 上方框(例如,方框2006-2012)也可在收集模塊190接收到新URL時連續(xù)執(zhí)行。在一 個實施例中,方法2000的一個或一個以上方框(例如,方框2006-2012)可周期性執(zhí)行。
圖22是說明執(zhí)行圖21的方框2006的功能的方法的一個實施例的流程圖。方法開始 于方框2020,其中內(nèi)容分析模塊322接收URL數(shù)據(jù)庫180中的網(wǎng)頁URL的列表。在一 個實施例中,收集模塊190提供候選URL的列表。接著在方框2022,針對每一 URL, 內(nèi)容分析模塊322接收下載的網(wǎng)頁內(nèi)容。在一個實施例中,收集模塊190下載內(nèi)容并將 其存儲在URL數(shù)據(jù)庫180中,內(nèi)容分析模塊322從URL數(shù)據(jù)庫180中存取所述內(nèi)容。 在另一實施例中,內(nèi)容分析模塊322下載并處理內(nèi)容。移動到方框2024,內(nèi)容分析模塊 322從屬性數(shù)據(jù)庫320存取屬性。接著在方框2026,內(nèi)容分析模塊322至少部分地基于 每一網(wǎng)頁的內(nèi)容而識別與每一網(wǎng)頁相關(guān)聯(lián)的屬性。在一個實施例中,內(nèi)容分析模塊322 掃描內(nèi)容以識別來自屬性數(shù)據(jù)庫320的字符串、關(guān)鍵詞和常規(guī)表達式屬性。在一個實施例中,內(nèi)容分析模塊322還可在掃描屬性之前和/或之后解碼內(nèi)容。舉例來說,內(nèi)容分析 模塊322可在掃描之前解碼例如URL的URL編碼部分或十六進制編碼網(wǎng)絡(luò)地址的網(wǎng)絡(luò) 內(nèi)容,以幫助防止通過編碼或部分編碼關(guān)鍵詞而將關(guān)鍵詞隱藏。前進到方框2028,內(nèi)容 分析模塊322將與每一網(wǎng)頁相關(guān)聯(lián)的所識別屬性存儲在經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324中。
圖23是說明執(zhí)行圖21的方框2010的功能的方法的一個實施例的流程圖。方法開始 于方框2042,其中靜態(tài)內(nèi)容分類模塊328從定義數(shù)據(jù)庫326存取指示網(wǎng)頁類別的定義。 接著在方框2044,針對每一定義,靜態(tài)內(nèi)容分類模塊328對照經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324 識別與每一定義相關(guān)聯(lián)的一個或一個以上査詢。在一個實施例中,査詢包括SQL査詢。
移動到方框2046,靜態(tài)內(nèi)容分類模塊328將網(wǎng)頁屬性數(shù)據(jù)庫中的URL的屬性與查詢 進行比較以識別匹配于査詢的URL。在一個實施例中,靜態(tài)內(nèi)容分類模塊328通過執(zhí)行 所述一個或一個以上所識別數(shù)據(jù)庫查詢,而對照經(jīng)處理網(wǎng)頁屬性數(shù)據(jù)庫324執(zhí)行比較。 接著在方框2050,靜態(tài)內(nèi)容分類模塊328將任何所識別URL與定義進行比較以識別匹配 于定義的所識別URL中的任一者。在一個實施例中,此比較包含使用額外可執(zhí)行指令(例 如Perl腳本)比較數(shù)據(jù)庫査詢的結(jié)果以識別匹配的URL。前進到方框2052,靜態(tài)內(nèi)容分 類模塊328基于定義將所識別的URL歸類。在一個實施例中,每一定義與單一類別相關(guān) 聯(lián)。在另一實施例中,每一定義與每一者用URL來識別的若干類別相關(guān)聯(lián)。在又一實施 例中,定義可包含邏輯表達式,其識別一個或一個以上待用URL識別的類別。舉例來說, if-then-else表達式可依據(jù)if表達式的結(jié)果識別不同的類別。在一個實施例中,內(nèi)容記分 模塊進一步對URL記分?;谟浄?,可用URL識別相同、不同或額外的類別。接著在 方框2054,靜態(tài)內(nèi)容分類模塊328將每一 URL的類別存儲到經(jīng)歸類網(wǎng)頁數(shù)據(jù)庫。在一個 實施例中,URL數(shù)據(jù)庫180包含經(jīng)歸類網(wǎng)頁數(shù)據(jù)庫。
圖24是說明作為識別在圖22和23的方法中將URL歸類時使用的屬性的一部分來 執(zhí)行圖21的方框2002的功能的方法的一個實施例的流程圖。方法開始于方框2062,其 中圖14的分析任務(wù)分配模塊352接收與活動內(nèi)容相關(guān)聯(lián)的活動內(nèi)容數(shù)據(jù)或URL。接著在 方框2064,屬性識別模塊254識別區(qū)分與活動內(nèi)容數(shù)據(jù)相關(guān)的目標URL與其它URL且 識別與目標URL相關(guān)聯(lián)的一個或一個以上類別的屬性。在一個實施例中,記分和分類系 統(tǒng)186用于幫助識別這些屬性。另外,可識別包括一個或一個以上所述屬性的定義,所 述一個或一個以上屬性區(qū)分與特定類別相關(guān)聯(lián)的目標URL與不應與所述類別相關(guān)聯(lián)的其 它URL。移動到方框2068,數(shù)據(jù)庫更新模塊356將屬性、定義和類別存儲在屬性數(shù)據(jù)庫 320和定義數(shù)據(jù)庫326中。因此使這些經(jīng)更新的屬性和定義可用于使用例如圖21說明的方法來處理URL。
如本文中所使用,"數(shù)據(jù)庫"指存儲在可由計算機存取的媒體上的所存儲數(shù)據(jù)的任何 集合。舉例來說,數(shù)據(jù)庫可指平面數(shù)據(jù)文件或結(jié)構(gòu)化數(shù)據(jù)文件。而且,將認識到結(jié)合本 文中所揭示的實施例描述的各種說明性數(shù)據(jù)庫可實施為組合各種說明性數(shù)據(jù)庫的方面的 數(shù)據(jù)庫,或者可將所述說明性數(shù)據(jù)庫劃分為多個數(shù)據(jù)庫。舉例來說,各種說明性數(shù)據(jù)庫 中的一者或一者以上可實施為一個或一個以上關(guān)系數(shù)據(jù)庫中的表。實施例可以關(guān)系數(shù)據(jù) 庫實施,所述關(guān)系數(shù)據(jù)庫包含例如mySQL的SQL數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫、對象關(guān) 系數(shù)據(jù)庫、平面文件或任何其它合適的數(shù)據(jù)存儲系統(tǒng)。
所屬領(lǐng)域的技術(shù)人員將認識到,結(jié)合本文中所揭示的實施例描述的各種說明性邏輯 區(qū)塊、模塊、電路和算法步驟可實施為電子硬件、計算機軟件或兩者的組合。為了清楚 地說明硬件與軟件的此可互換性,上文已大體在功能性方面描述各種說明性組件、區(qū)塊、 模塊、電路和步驟。此功能性實施為硬件還是軟件取決于特定應用和強加于總體系統(tǒng)的 設(shè)計約束。所屬領(lǐng)域的技術(shù)人員可針對每一特定應用以各種方式實施所述功能性,但此 類實施方案決策不應被解釋為導致偏離本發(fā)明的范圍。
結(jié)合本文揭示的實施例描述的各種說明性邏輯區(qū)塊、模塊和電路可用如下裝置實施 或執(zhí)行通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門 陣列(FPGA)或其它可編程邏輯裝置、離散門或晶體管邏輯、離散硬件組件或其經(jīng)設(shè)計 以執(zhí)行本文所述功能的任意組合。通用處理器可以是微處理器,但在替代方案中,處理 器可以是任何常規(guī)處理器、控制器、微控制器或狀態(tài)機。處理器也可實施為計算裝置的 組合,例如DSP與微處理器的組合、多個微處理器、 一個或一個以上微處理器結(jié)合DSP 核心,或任何其它此配置。
結(jié)合本文揭示的實施例描述的方法或算法的步驟可直接以硬件實施、以由處理器執(zhí) 行的軟件模塊實施,或以兩者的組合實施。軟件模塊可駐存在RAM存儲器、快閃存儲器、 ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可移除盤、CD-ROM 或此項技術(shù)中已知的任何其它形式的存儲媒體中。示范性存儲媒體耦合到處理器,使得 處理器可從存儲媒體讀取信息和向存儲媒體寫入信息。在替代方案中,存儲媒體可與處 理器成為一體。處理器和存儲媒體可駐存在ASIC中。ASIC可駐存在用戶終端中。在替 代方案中,處理器和存儲媒體可作為離散組件駐存在用戶終端中。
鑒于上文內(nèi)容,將了解本發(fā)明的實施例通過提供處理因特網(wǎng)上可用的大量URL以識 別URL的類別(尤其是具有活動內(nèi)容的URL)的高效方式來克服此項技術(shù)中的許多長期存在的問題。具有許多類型的活動內(nèi)容的URL甚至對于人類分析員來說可能也難以歸類, 因為相關(guān)屬性可埋入于可執(zhí)行代碼(包含腳本)中,或埋入于活動X組件的參數(shù)中???經(jīng)高效處理的屬性和定義的使用允許通過自動過程來有效地識別活動X內(nèi)容。此外,通 過將網(wǎng)頁的屬性存儲在數(shù)據(jù)庫中用于稍后查詢,可在識別出活動內(nèi)容的新定義時基于這 些存儲的屬性來立即將大量URL歸類。
盡管上述詳細描述已展示、描述和指出應用于各種實施例的本發(fā)明的新穎特征,但 將了解,在不脫離本發(fā)明精神的情況下,所屬領(lǐng)域的技術(shù)人員可對所說明的裝置或過程 做出形式和細節(jié)上的各種省略、替代和改變。將認識到,本發(fā)明可以并不提供本文陳述 的所有特征和益處的形式實施,因為有些特征可與其它特征分丌地使用或?qū)嵺`。本發(fā)明 的范圍由所附權(quán)利要求書指示而不是由上述描述內(nèi)容指示。在權(quán)利要求書的等效物的意 義和范圍內(nèi)的所有改變應包含在權(quán)利要求書的范圍內(nèi)。
權(quán)利要求
1. 一種將網(wǎng)絡(luò)內(nèi)容分類的方法,所述方法包括接收至少一個網(wǎng)頁的內(nèi)容;至少部分地基于所述網(wǎng)頁的所述內(nèi)容識別與所述網(wǎng)頁相關(guān)聯(lián)的屬性;將所述屬性存儲在網(wǎng)頁屬性數(shù)據(jù)庫中;對至少一個定義與存儲在所述網(wǎng)頁屬性數(shù)據(jù)庫中的屬性進行比較;基于對至少一個定義與所述存儲的屬性進行比較而識別具有所述定義的所述網(wǎng)頁;以及識別具有與所述至少一個定義相關(guān)聯(lián)的至少一個類別的所述網(wǎng)頁,其中所述類別指示與所述網(wǎng)頁相關(guān)聯(lián)的活動內(nèi)容。
2. 根據(jù)權(quán)利要求1所述的方法,其中對所述網(wǎng)頁與所述定義進行比較包括執(zhí)行與至少 一個定義相關(guān)聯(lián)的至少一個數(shù)據(jù)庫査詢,其中所述查詢從所述網(wǎng)頁屬性數(shù)據(jù)庫中選 擇所述網(wǎng)頁,所述選擇是至少部分地基于所述選擇的至少一個網(wǎng)頁的所述屬性。
3. 根據(jù)權(quán)利要求l所述的方法,其進一步包括執(zhí)行與所述至少一個網(wǎng)頁相關(guān)聯(lián)的指令;識別與所述網(wǎng)頁相關(guān)聯(lián)的至少一個行為屬性,其中識別具有所述至少一個類別的 所述網(wǎng)頁是至少部分地基于所述行為屬性。
4. 根據(jù)權(quán)利要求l所述的方法,其中識別具有與所述至少一個定義相關(guān)聯(lián)的類別的所 述網(wǎng)頁包括存儲將所述網(wǎng)頁中的所述至少一者的統(tǒng)一資源定位符與所述類別相關(guān) 聯(lián)的數(shù)據(jù)。
5. 根據(jù)權(quán)利要求1所述的方法,其中所述類別將所述至少一個網(wǎng)頁識別為具有惡意內(nèi) 容。
6. 根據(jù)權(quán)利要求1所述的方法,其進一步包括從定義數(shù)據(jù)庫接收所述至少一個定義。
7. 根據(jù)權(quán)利要求l所述的方法,其中所述定義中的至少一者包括邏輯表達式。
8. 根據(jù)權(quán)利要求7所述的方法,其中所述邏輯表達式包括至少一個項,所述項包括至 少一個網(wǎng)頁屬性與至少一個其它值的關(guān)系。
9. 根據(jù)權(quán)利要求8所述的方法,其中所述至少一個其它值包括常數(shù)值。
10. 根據(jù)權(quán)利要求8所述的方法,其中所述至少一個其它值包括至少一個其它網(wǎng)頁屬性。
11. 根據(jù)權(quán)利要求1所述的方法,其中所述屬性中的至少一者與字符串相關(guān)聯(lián)。
12. 根據(jù)權(quán)利要求1所述的方法,其中所述屬性中的至少一者與常規(guī)表達式相關(guān)聯(lián)。
13. 根據(jù)權(quán)利要求ll所述的方法,其中所述屬性中的所述至少一者包括指示所述網(wǎng)頁的 所述內(nèi)容內(nèi)的發(fā)生率的數(shù)字。
14. 根據(jù)權(quán)利要求11所述的方法,其進一步包括確定與所述網(wǎng)頁的URL相關(guān)聯(lián)的記分, 其中識別具有至少一個類別的所述網(wǎng)頁是至少部分地基于所述記分。
15. —種用于將網(wǎng)絡(luò)內(nèi)容分類的系統(tǒng),所述系統(tǒng)包括數(shù)據(jù)庫,其經(jīng)配置以與網(wǎng)頁相關(guān)聯(lián)的屬性; 至少一個處理器,其經(jīng)配置以至少部分地基于所述網(wǎng)頁的內(nèi)容識別與網(wǎng)頁相關(guān)聯(lián)的屬性;將所述屬性存儲在所述網(wǎng)頁屬性數(shù)據(jù)庫中對至少一個定義與存儲在所述網(wǎng)頁屬性數(shù)據(jù)庫中的屬性進行比較; 基于對至少一個定義與所述存儲的屬性進行比較而識別具有所述定義的所述 網(wǎng)頁;以及識別具有與所述至少一個定義相關(guān)聯(lián)的至少一個類別的所述網(wǎng)頁,其中所述類別指示與所述M頁相關(guān)聯(lián)的活動內(nèi)容。
16. 根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述處理器經(jīng)配置以至少部分地通過執(zhí)行與至 少一個定義相關(guān)聯(lián)的至少一個數(shù)據(jù)庫查詢來對所述網(wǎng)頁與所述定義進行比較,其中 所述査詢從所述網(wǎng)頁屬性數(shù)據(jù)庫選擇所述網(wǎng)頁,所述選擇是至少部分地基于所述選 擇的至少一個網(wǎng)頁的所述屬性。
17. 根據(jù)權(quán)利要求15所述的系統(tǒng),其進一步包括第二處理器,其經(jīng)配置以執(zhí)行與所述至少一個網(wǎng)頁相關(guān)聯(lián)的指令;識別與所述網(wǎng)頁相關(guān)聯(lián)的至少一個行為屬性,其中所述至少一個處理器經(jīng)配置 以至少部分地基于所述行為屬性來識別具有所述至少 一 個類別的所述網(wǎng)頁。
18. 根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述處理器經(jīng)配置以至少部分地通過存儲將所 述網(wǎng)頁中的所述至少一者的統(tǒng)一資源定位符與所述類別相關(guān)聯(lián)的數(shù)據(jù)來識別具有 與所述至少一個定義相關(guān)聯(lián)的類別的所述網(wǎng)頁。
19. 根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述類別將所述網(wǎng)頁中的所述至少一者識別為 具有惡意內(nèi)容。
20. 根據(jù)權(quán)利要求15所述的系統(tǒng),其進一步包括經(jīng)配置以存儲所述網(wǎng)頁的所述屬性的 數(shù)據(jù)庫。
21. 根據(jù)權(quán)利要求15所述的系統(tǒng),其進一步包括經(jīng)配置以存儲所述至少一個定義的數(shù) 據(jù)庫。
22. 根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述至少一個定義包括邏輯表達式。
23. 根據(jù)權(quán)利要求22所述的系統(tǒng),其中所述邏輯表達式包括至少一個項,所述項包括 至少一個網(wǎng)頁屬性與至少一個其它值的關(guān)系。
24. 根據(jù)權(quán)利要求23所述的系統(tǒng),其中所述至少一個其它值包括常數(shù)值。
25. 根據(jù)權(quán)利要求23所述的系統(tǒng),其中所述至少一個其它值包括至少一個其它網(wǎng)頁屬 性。
26. 根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述屬性中的至少一者與字符串相關(guān)聯(lián)。
27. 根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述屬性中的至少一者與常規(guī)表達式相關(guān)聯(lián)。
28. 根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述屬性中的至少一者包括指示所述網(wǎng)頁的所 述內(nèi)容內(nèi)的發(fā)生率的數(shù)字。
全文摘要
本發(fā)明提供一種用于識別網(wǎng)絡(luò)上的網(wǎng)站中的活動內(nèi)容的系統(tǒng)和方法。一個實施例包含一種將網(wǎng)絡(luò)內(nèi)容分類的方法。在一個實施例中,分類指示活動和/或惡意內(nèi)容。所述方法包含至少部分地基于所述網(wǎng)頁的內(nèi)容識別與所述網(wǎng)頁相關(guān)聯(lián)的屬性,以及將所述屬性存儲在網(wǎng)頁屬性數(shù)據(jù)庫中。所述方法進一步包含對至少一個定義與存儲在所述網(wǎng)頁屬性數(shù)據(jù)庫中的屬性進行比較,以及基于對至少一個定義與所述存儲的屬性進行比較來識別具有所述定義的網(wǎng)頁。所述方法進一步包含識別具有與所述至少一個定義相關(guān)聯(lián)的至少一個類別的網(wǎng)頁,其中所述類別指示與所述網(wǎng)頁相關(guān)聯(lián)的活動內(nèi)容。其它實施例包含經(jīng)配置以執(zhí)行此類方法的系統(tǒng)。
文檔編號G06F17/30GK101512522SQ200780025882
公開日2009年8月19日 申請日期2007年7月9日 優(yōu)先權(quán)日2006年7月10日
發(fā)明者丹·哈伯德, 尼古拉斯·J·維雷尼尼, 斯蒂芬·切尼特, 維克托·L·巴杜爾, 阿里·A·梅斯達克 申請人:網(wǎng)圣公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
稻城县| 金堂县| 临安市| 古蔺县| 顺昌县| 新昌县| 徐水县| 黎川县| 五指山市| 抚顺市| 老河口市| 田东县| 开化县| 徐水县| 清水河县| 康乐县| 文登市| 行唐县| 罗田县| 杭锦旗| 左权县| 宁武县| 涡阳县| 清流县| 贡山| 河东区| 密云县| 开远市| 始兴县| 佛山市| 肇州县| 称多县| 抚松县| 阳西县| 浮梁县| 永顺县| 樟树市| 含山县| 手机| 宁明县| 区。|