專利名稱:互聯網不良信息檢測方法以及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及網絡安全檢測技術,尤其涉及一種互聯網不良信息檢測方法以及系 統(tǒng),屬于網絡安全領域。
背景技術:
隨著計算機及通信技術的高速發(fā)展,互聯網的巨大影響和利潤驅使很多別有用心 的人借助互聯網進行各種不良行為。IDC的統(tǒng)計曾顯示,有30% -40%的Internet訪問是 與工作無關的,其中相當大的比例訪問色情、暴力、反動等站點,Internet資源被嚴重浪費。 近年來,互聯網色情、釣魚、暴力等不良信息的泛濫嚴重擾亂了互聯網秩序,造成一系列不 良影響,特別影響著廣大青少年的身心健康。互聯網不良信息網站泛指色情網站、反動網站、暴力網站、病毒網站和作弊網站, 其中作弊網站包括釣魚、欺詐、搜索引擎垃圾等,色情、反動類網站多采用作弊技術。目前為 止,高效的、全面的、成熟的有害信息識別與過濾技術仍然沒有取得突破性進展。1999年歐盟啟動了安全網絡行動計劃,利用五年時間先后組織歐盟125個研究組 織完成35項科研項目,這些研究項目以跨地域、文化、語言的網絡有害信息過濾和評估方 案為主要研究目標,希望在歐盟建立統(tǒng)一的網絡有害信息過濾系統(tǒng)。近年來,國內模式識別 國家重點實驗室開展了敏感信息與行為監(jiān)控實用化技術的研究與開發(fā),主要是對圖像視頻 進行內容理解,處于實驗室階段?,F有技術中利用單一模態(tài)對網絡不良信息進行檢測,方法包括文本過濾、黑白名 單過濾、IP過濾、圖像內容理解等,另外也包括網頁內容與圖像融合的模式學習方法。雖然 上述方法各自有其特點,且在不同方面的檢測上各有所長,但也存在各自的缺點。綜上所述,現有技術中只是提取彼此不相關聯的單一模態(tài)來對網絡不良信息進行 檢測,存在著統(tǒng)計學習的方法特征提取不全等問題,因此,導致了檢測性能低且檢測系統(tǒng)的 魯棒性差。
發(fā)明內容
本發(fā)明的目的在于提供一種互聯網不良信息檢測方法以及系統(tǒng),用以解決現有技 術中采用統(tǒng)計學習方法導致的提取特征不全的問題,進而提高互聯網不良信息檢測的檢測 性能及檢測系統(tǒng)的魯棒性。為了實現上述目的,本發(fā)明提供一種互聯網不良信息檢測方法,包括從預檢測的網絡信息中提取多模態(tài)特征,得到與所述多模態(tài)特征相對應的各模態(tài) 特征子向量,提取的多模態(tài)特征包括內容統(tǒng)計特征、文本相關特征和鏈接相關特征中的至 少兩項;對提取到的各模態(tài)特征子向量進行特征融合處理,得到多模態(tài)聯合特征向量;根據所述多模態(tài)聯合特征向量,采用機器學習算法進行不良信息檢測,得到檢測結果。
本發(fā)明還提供了一種互聯網不良信息檢測系統(tǒng),包括多模態(tài)特征提取模塊,用于從預檢測的網絡信息中提取多模態(tài)特征,得到與所述 多模態(tài)特征相對應的各模態(tài)特征子向量,提取的多模態(tài)特征包括內容統(tǒng)計特征、文本相關 特征和鏈接相關特征中的至少兩項;特征融合模塊,用于對提取到的各模態(tài)特征子向量進行特征融合處理,得到多模 態(tài)聯合特征向量;檢測模塊,用于根據所述多模態(tài)聯合特征向量,采用機器學習算法進行不良信息 檢測,得到檢測結果。本發(fā)明提供的多模態(tài)特征的互聯網不良信息檢測方法以及系統(tǒng),充分挖掘多模態(tài) 特征,建立統(tǒng)一檢測策略以打擊多種類型的互聯網不良應用。從而,有效地克服了現有基于 統(tǒng)計學習的方法穩(wěn)定性不高、特征提取不全,及特征融合等問題。不僅可以更好的提高檢測 性能,而且大大提高了檢測系統(tǒng)的魯棒性。
圖1為本發(fā)明互聯網不良信息檢測方法實施例的流程示意圖;圖2為本發(fā)明實施例中步驟100的具體流程示意圖;圖3為本發(fā)明實施例中步驟200的具體流程示意圖;圖4為本發(fā)明實施例中步驟300的具體流程示意圖;圖5為本發(fā)明互聯網不良信息檢測系統(tǒng)實施例的結構示意圖。
具體實施例方式下面結合附圖和具體實施例進一步說明本發(fā)明實施例的技術方案。圖1為本發(fā)明互聯網不良信息檢測方法實施例的流程圖,如圖1所示,本發(fā)明多模 態(tài)特征的互聯網不良信息檢測方法包括以下步驟步驟100、對預檢測的網絡信息進行多模態(tài)特征提取,即從預檢測的網絡信息中提 取多模態(tài)特征,得到與上述多模態(tài)特征對應的各模態(tài)特征子向量;其中,步驟100從預檢測的網絡信息中提取多模態(tài)特征,形成各模態(tài)特征子向量 的步驟可具體包括網頁抓取和預處理、網頁內容分析、超鏈接圖構建、提取內容統(tǒng)計特征、 提取文本相關特征、提取鏈接相關特征。圖2為本發(fā)明實施例中步驟100的具體流程示意圖。如圖2所示,該方法包括如 下步驟步驟101、網頁抓取和預處理,對網頁內容進行抓取和預處理后,當對網頁內容進 行分析時,執(zhí)行步驟102,當對超鏈接圖進行分析時,則執(zhí)行步驟103,網頁抓取和預處理技 術是比較成熟的現有技術,可以通過網絡爬蟲技術實現,例如框架Heritrix和Nutch。步驟102、網頁內容分析,具體的是從多視角對網頁信息進行分析,包括內容提取、 錨文本提取、網頁統(tǒng)計信息提取和復雜背景文字檢測與識別。其中內容提取、錨文本提取方 法有成熟的方法,例如利用CyberNeko技術的HTML解析器。網頁統(tǒng)計信息的提取包括一系 列網頁相關的簡單統(tǒng)計屬性。復雜背景文字檢測與識別作為獨立研究近年來取得了長足發(fā) 展,其檢測與識別率完全滿足進行內容分析的需要,本申請將充分利用該類文本信息。當分析的網頁信息為統(tǒng)計信息時,執(zhí)行步驟104,當分析的網頁信息為其他信息時,則執(zhí)行步驟 105。步驟103、構建超鏈接圖,使用目前已經成熟的框架webgraph。以下將詳細敘述提取內容統(tǒng)計特征、提取文本相關特征及提取鏈接相關特征步 驟步驟104、提取內容統(tǒng)計特征,該步驟提取的統(tǒng)計特征包括網頁中單詞的數量、網 頁的壓縮率、可見文字的比例、錨文本的比例、標題中單詞的個數、錨文本的平均長度、網頁 中詞匯的平均長度、N元語法似然度特征等。我們采用以下方法將所有的網頁統(tǒng)計特征向 網站映射,H表示I個網頁的網站,這I個網頁可表示為P= {pl,p2,…,Pl},用ph表示該 網站的主頁,Pm表示該網站擁有最大PageRank值的網頁。f(p)表示前述8個統(tǒng)計特征,則 網站H的特征向量f (H)為f (H) = (f (ph),f (pm),E (f (ρ)),Var (f (ρ)))其中,ρ e P,E (f (ρ))表示該網站中所有網頁相應特征的均值,Var(f(p))表示該 網站所有網頁相應特征的方差。這樣得到32個內容統(tǒng)計特征。步驟105、提取文本相關特征,其中,文本包含三部分信息,網頁內容文本、錨文本 和圖片文字,該步驟的處理對象并不是以上三類文本的簡單疊加后的對象,而是首先對網 頁內容文本進行長度歸一化處理,在此基礎上與錨文本和圖片文本簡單聯合成為文本D, 這樣做是防止網頁文本過長而掩蓋錨文本和圖片文字。進一步,將網站主頁Dh和擁有最 大PageRank值的網頁Dm聯合為Dh U Dm,代表該網站,文本特征的提取在Dh U DmI展開。
每個網站都被表示為J = ,《,...,O ,其中式= TF{wnd)*IDFiwi),:TFO,.,&表示詞頻,
IDF(Wi)表示逆轉的文檔頻率。使用信息增益算法對^進行計算,選擇有效分類特征,最終形 成文本相關特征。步驟106、提取鏈接相關特征,考慮到互聯網不良信息的提供以網站為載體,本發(fā) 明鏈接相關特征的提取直接把網站作為鏈接節(jié)點。鏈接特征的提取從多個視角開展,基本 度量包括出入度、PageRank, TrustRank, TruncatedPageRank (以上三種算法均為著名的鏈 接分析算法)等?;谝陨隙攘?,分別計算其入鄰居、出鄰居、二級近鄰的相應度量均值。最 終形成鏈接相關特征,該特征對于通過超鏈接進行不良信息傳播的應用尤為有效。步驟200、對提取到的各模態(tài)特征子向量進行特征融合處理,獲得多模態(tài)聯合特征 向量;圖3為本發(fā)明實施例中步驟200的具體流程示意圖。如圖3所示,步驟200包括 特征聯合處理和特征選擇處理??紤]到內容統(tǒng)計特征、文本相關特征和鏈接相關特征的表 示形式、語義各不相同,首先對這三類特征進行屬性的歸一化,歸一化公式如下y = (x-Min Value)/(Max Value-Min Value)χ, y分別為轉換前、后的值,MaxValue和MinValue分別為所有樣本(包括標號集 和檢測集)的該特征的最大值和最小值。步驟201、特征聯合處理,即在歸一化處理后,將三類特征線性融合,如果內容統(tǒng)計 特征有C維,文本相關特征有T維,鏈接相關特征有L維,線性特征融合就是將這三種特征 線性進行疊加,形成融合向量,該特征向量的維數為C+T+L??紤]到融合向量的維數太高,為 了加快分類器學習和檢測效率,進行必要的特征選擇處理。
步驟202、特征選擇處理。特征選擇即從高維的特征中根據特定的算法將某些對分 類貢獻不大的或沒有貢獻的維度剔除,保留有辨識力的維度的行為。本發(fā)明中特征選擇算 法可以選擇現有的主成分分析、線性判別分析等。經過步驟200的特征融合處理和步驟202特征選擇處理操作,即將步驟200的 C+T+L維的特征,進一步經步驟202進行降維,比如得到U維,在U維特征空間上,最終形成 各模態(tài)特征聯合特征向量,每個特征聯合向量包含U個元素。接下來的步驟300的訓練以 及分類決策均在該聯合特征向量上展開。步驟300、根據多模態(tài)聯合特征向量,采用現有的機器學習算法進行作弊檢測(即 不良信息檢測),得到檢測結果,機器學習算法包括決策樹、神經網絡、支持向量機至少一 項。圖4為本發(fā)明實施例中步驟300的具體流程示意圖。如圖4所示,步驟300的分 類器學習和分類決策是基于步驟200形成的聯合特征向量。具體包括步驟301、在聯合特征向量上對訓練集和檢測集進行標示;步驟302、在訓練集上訓練分類器,分類器的選擇可以為任何現有模式分類器,如 支持向量機(SVMs)、決策樹、核方法、神經網絡、學習矢量量化等;步驟303、在分類器被訓練結束后,使用訓練好的模型對檢測集中的站點樣本進行 分類,完成對互聯網不良信息的檢測,生成檢測結果。綜上所述,本發(fā)明提供的互聯網不良信息檢測方法,通過對預檢測的網絡信息進 行多模態(tài)特征提取,形成各模態(tài)特征子向量。之后,將各模態(tài)特征子向量進行特征融合處 理,并獲取多模態(tài)聯合特征向量。最后,根據多模態(tài)聯合特征向量,采用機器學習算法進行 不良信息檢測。上述方法,對多模態(tài)特征進行了充分的挖掘,建立了統(tǒng)一檢測策略以打擊多 種類型的互聯網不良應用,能夠有效地克服了基于統(tǒng)計學習的方法特征提取不全等問題, 不僅提高了檢測性能,而且大大提高了檢測系統(tǒng)的魯棒性。圖5為本發(fā)明互聯網不良信息檢測系統(tǒng)實施例的結構示意圖。如圖5所示,該系 統(tǒng)包括多模態(tài)特征提取模塊501、特征融合模塊502和檢測模塊503 其中,多模態(tài)特征提取 模塊501用于從預檢測的網絡信息中提取多模態(tài)特征,得到與所述多模態(tài)特征相對應的各 模態(tài)特征子向量,提取的多模態(tài)特征包括內容統(tǒng)計特征、文本相關特征和鏈接相關特征中 的至少兩項;特征融合模塊502用于對提取到的各模態(tài)特征子向量進行特征融合處理,得 到多模態(tài)聯合特征向量;檢測模塊503用于根據所述多模態(tài)聯合特征向量,采用機器學習 算法進行不良信息檢測,得到檢測結果。上述多模態(tài)特征的互聯網不良信息檢測系統(tǒng),通過對多模態(tài)特征進行提取并進行 特征融合,建立了統(tǒng)一的檢測策略,可以有效地克服現有技術中特征提取不全等問題,從而 能更好的提高檢測性能及檢測系統(tǒng)的穩(wěn)定性。具體的,如圖5所示,本發(fā)明上述實施例中的多模態(tài)特征提取模塊501,可以包括 第一提取單元504、第二提取單元505和第三提取單元506,其中,第一提取單元504用于提 取內容統(tǒng)計特征;第二提取單元505用于提取文本相關特征;第三提取單元506用于提取 鏈接相關特征。綜上所述,本發(fā)明提供的互聯網不良信息檢測方法,通過充分挖掘多模態(tài)特征,建 立統(tǒng)一檢測策略以打擊多種類型的互聯網不良應用,能夠有效地克服基于統(tǒng)計學習的方法提取特征不全等問題。與現有技術相比,不僅可以更好的提高檢測性能,而且大大提高了檢 測系統(tǒng)的魯棒性。 雖然本發(fā)明以實施例揭示如上,但其并非用以限定本發(fā)明,任何本領域技術人員, 在不脫離本發(fā)明的精神和范圍內,可作任意改動或等同替換,故本發(fā)明的保護范圍應當以 本申請權利要求書所界定的范圍為準。
權利要求
1.一種互聯網不良信息檢測方法,其特征在于,包括從預檢測的網絡信息中提取多模態(tài)特征,得到與所述多模態(tài)特征相對應的各模態(tài)特征 子向量,提取的多模態(tài)特征包括內容統(tǒng)計特征、文本相關特征和鏈接相關特征中的至少兩 項;對提取到的各模態(tài)特征子向量進行特征融合處理,得到多模態(tài)聯合特征向量;根據所述多模態(tài)聯合特征向量,采用機器學習算法進行不良信息檢測,得到檢測結果。
2.根據權利要求1所述的互聯網不良信息檢測方法,其特征在于,提取內容統(tǒng)計特征 包括提取文字長度、可見文本比例和壓縮率。
3.根據權利要求1所述的互聯網不良信息檢測方法,其特征在于,提取文本相關特征 包括根據信息增益方法對網頁內容、錨文本和圖片文字信息進行特征選擇。
4.根據權利要求1所述的互聯網不良信息檢測方法,其特征在于,提取鏈接相關特征 包括提取鏈接出入度信息、鏈接分析值相關信息和支持度相關信息。
5.根據權利要求1所述的互聯網不良信息檢測方法,其特征在于,所述對提取到的各 模態(tài)特征子向量進行特征融合處理包括將從預檢測的網絡信息中提取的內容統(tǒng)計特征、文本相關特征和鏈接相關特征中的至 少兩項進行特征聯合處理,得到融合向量;對得到的融合向量進行特征選擇處理,獲得所述多模態(tài)聯合特征向量。
6.根據權利要求1所述的互聯網不良信息檢測方法,其特征在于,所述機器學習算法 包括決策樹、神經網絡和支持向量機中至少一項。
7.一種互聯網不良信息檢測系統(tǒng),其特征在于,包括多模態(tài)特征提取模塊,用于從預檢測的網絡信息中提取多模態(tài)特征,得到與所述多模 態(tài)特征相對應的各模態(tài)特征子向量,提取的多模態(tài)特征包括內容統(tǒng)計特征、文本相關特征 和鏈接相關特征中的至少兩項;特征融合模塊,用于對提取到的各模態(tài)特征子向量進行特征融合處理,得到多模態(tài)聯 合特征向量;檢測模塊,用于根據所述多模態(tài)聯合特征向量,采用機器學習算法進行不良信息檢測, 得到檢測結果。
全文摘要
本發(fā)明提供一種互聯網不良信息檢測方法以及系統(tǒng)。該方法包括從預檢測的網絡信息中提取多模態(tài)特征,得到與所述多模態(tài)特征相對應的各模態(tài)特征子向量,包括從預檢測的網絡信息中提取內容統(tǒng)計特征、文本相關特征和鏈接相關特征中的至少兩項;對提取到的各模態(tài)特征子向量進行特征融合處理,得到多模態(tài)聯合特征向量;根據多模態(tài)聯合特征向量,采用機器學習算法進行不良信息檢測,得到檢測結果。本發(fā)明還提供了對應的系統(tǒng)。本發(fā)明提供的互聯網不良信息檢測方法以及系統(tǒng),能夠提高對互聯網不良信息的檢測性能,而且大大提高了檢測系統(tǒng)的魯棒性。
文檔編號G06F17/30GK102004764SQ20101053638
公開日2011年4月6日 申請日期2010年11月4日 優(yōu)先權日2010年11月4日
發(fā)明者盧文哲, 張桓銘, 李曉東, 李洪濤, 楊衛(wèi)平, 毛偉, 王國棟, 耿光剛, 齊超 申請人:中國科學院計算機網絡信息中心, 北龍中網(北京)科技有限責任公司