1.一種基于網(wǎng)絡(luò)關(guān)系圖的網(wǎng)站分類方法,其特征在于,包括以下步驟:
步驟1:以“安全聯(lián)盟”的惡意數(shù)據(jù)作為樣本數(shù)據(jù)源,獲取已有的數(shù)據(jù)分類和URL數(shù)據(jù);
步驟2:通過抽取樣本數(shù)據(jù)的外站鏈接和分詞器處理,形成站點映射表和詞頻分析表;利用站點指紋特征提取器提取樣本指紋特征,構(gòu)建特征表,通過抽取各指紋特征集形成類型表;
步驟3:由各站點和其連接權(quán)重構(gòu)成一個無向權(quán)重圖,各站點作為網(wǎng)絡(luò)圖的節(jié)點,初始權(quán)重由相互之間的頁面鏈接的緊密程度來確定;
步驟4:眾多的站點和權(quán)重構(gòu)成一個網(wǎng)絡(luò)關(guān)系圖,通過圖聚類算法把一個大圖分成若干個子圖;即將各子圖中的節(jié)點數(shù)統(tǒng)計出來,在分發(fā)隊列里存儲子圖ID和其對應(yīng)的節(jié)點數(shù),根據(jù)子圖的大小平均地把各子圖分發(fā)到不同的服務(wù)器上進行計算;
步驟5:各任務(wù)單元在各自的服務(wù)器上通過站點指紋特征提取器和分類器來抽取指紋特征并分類。
2.如權(quán)利要求1所述的一種基于網(wǎng)絡(luò)關(guān)系圖的網(wǎng)站分類方法,其特征在于,所述步驟5具體為:基于樣本特征得到新的站點數(shù)據(jù)和指紋特征,劃分訓(xùn)練集,每個子訓(xùn)練集通過分類器得到分類結(jié)果,把這些數(shù)據(jù)存儲到相應(yīng)的表中。
3.如權(quán)利要求2所述的一種基于網(wǎng)絡(luò)關(guān)系圖的網(wǎng)站分類方法,其特征在于,還包括存儲各站點的特征詞匯、頻率和分類列表。
4.如權(quán)利要求1至3任一項所述的一種基于網(wǎng)絡(luò)關(guān)系圖的網(wǎng)站分類方法,其特征在于,還包括根據(jù)分類結(jié)果中的特征值和權(quán)重系數(shù),更新整個關(guān)系圖的連接權(quán)重;對于新增的外站鏈接站點和其它來源的站點,在各任務(wù)處理單元處理時,添加到數(shù)據(jù)預(yù)處理隊列中進行處理。
5.如權(quán)利要求4所述的一種基于網(wǎng)絡(luò)關(guān)系圖的網(wǎng)站分類方法,其特征在于,還包括重復(fù)前述步驟步驟1至步驟5,各數(shù)據(jù)分類結(jié)果構(gòu)成一套在每次迭代之后都不斷更新的網(wǎng)絡(luò)關(guān)系圖。
6.如權(quán)利要求5所述的一種基于網(wǎng)絡(luò)關(guān)系圖的網(wǎng)站分類方法,其特征在于,還包括在分類結(jié)果的基礎(chǔ)上,結(jié)合白名單數(shù)據(jù)表和傳統(tǒng)大站點的類型表對分類結(jié)果進一步處理,避免特殊因素影響分類結(jié)果。