dundancy,則令maxredundancy = MIC[Fi][Fj]且maxindex = Fj. index。若maxredundancyC目2,則說(shuō)明該特征與其他所有特征冗余性并不強(qiáng),為其獨(dú)自 創(chuàng)建一個(gè)簇。最終對(duì)每個(gè)簇進(jìn)行遍歷,取出其中最大關(guān)聯(lián)的特征巧=ai'gmaXfkes 并加入到最終特征子集中。當(dāng)某一特征的信息度(也即01)小于0.2時(shí),可W認(rèn)定其為無(wú)關(guān)特 征;而當(dāng)兩個(gè)特征之間的冗余度(也即02)大于0.5時(shí),認(rèn)定兩個(gè)特征之間存在冗余。若01值 設(shè)置太高,會(huì)將富含信息量的特征排除掉,91值設(shè)置太低,會(huì)引入無(wú)關(guān)變量。若02值設(shè)置太 低,會(huì)導(dǎo)致原本關(guān)聯(lián)度并不高的特征聚到一起,最終選擇其中的一個(gè)會(huì)損失信息量,02值設(shè) 置太高,導(dǎo)致屬性較難與其他屬性達(dá)到冗余的定義,獨(dú)立形成一個(gè)簇,導(dǎo)致最終選擇的特征 過(guò)多。
[0064] 聚類分析階段包括如下實(shí)施步驟:
[0065] 步驟4a:將經(jīng)過(guò)步驟3b重要度篩選W及步驟3d冗余度篩選的特征所形成的子集導(dǎo) 入系統(tǒng)用于聚類分析。
[0066] 步驟4b:載入特征選擇好的低維數(shù)據(jù),根據(jù)總條數(shù)N,確定樣本數(shù)目為Sample = ON '(1/2),進(jìn)行隨機(jī)抽樣,C為不超過(guò)5的常數(shù);給定用于確定截?cái)嗑嚯xdc的參數(shù)te(0,l),計(jì) 算距離dij,并令dij = dji,i< j,i,j e IS;確定截?cái)嗑嚯xdc。將上一步計(jì)算的距離dija< j), 共
個(gè)距離值進(jìn)行升序排序,設(shè)得到的序列為dl<=d2含…含dM,取dc = df(Mt),其中f(Mt)表示對(duì)Mt進(jìn)行四舍五入后得到的整數(shù)。按照局部密度定義計(jì)算{pi}[ii,并 生成其降序排列下標(biāo)序村1拍1。確定聚類中屯、扭巧"三1,并初始化數(shù)據(jù)點(diǎn)歸類屬性標(biāo)記 杠惜1,具體為 ,1 fk,若Xi為聚類中也,且歸屬于第k個(gè)ckister, 巧067]。二! I -1, otherwise.
[0068] 步驟4c :在聚類階段,需要對(duì)所有數(shù)據(jù)進(jìn)行標(biāo)記。目化abel [ i ] = argminjsGenters (eculidean_dis1:ance(D[i] ,Center!; j]))。在對(duì)非聚類中屯、數(shù)據(jù)點(diǎn)進(jìn)行歸類時(shí),判斷Cqi是 否為-1,若是則將與其密度大于它的距離最小的一個(gè)點(diǎn)的聚類中屯、值心W賦予Cql;設(shè)j屬于 數(shù)據(jù)中屯、的編號(hào),對(duì)于數(shù)據(jù)點(diǎn)D[i],遍歷聚類中屯、CenterU數(shù)組,保存該數(shù)據(jù)點(diǎn)到所有中屯、 Center。']的距離的最小值W及取得最小值的中屯、下標(biāo)j,然后將Label[i]的值設(shè)為j,表示 j為數(shù)據(jù)i的聚類簇編號(hào)。
[0069] 步驟4d:運(yùn)一步主要是聚類類型確定,由于步驟4c中的標(biāo)記,運(yùn)些數(shù)據(jù)已經(jīng)被分為 相應(yīng)的簇,對(duì)于每一個(gè)簇,進(jìn)行如下操作:從每一個(gè)簇中抽取少數(shù)量的記錄,根據(jù)已有的入 侵?jǐn)?shù)據(jù)庫(kù)、網(wǎng)絡(luò)流量和日志文件對(duì)抽樣的流量數(shù)據(jù)進(jìn)行分辨,從而達(dá)到較高的檢測(cè)率,采取 多數(shù)表決制度,選擇數(shù)量最大的記錄類型作為該簇的記錄類型。利用抽樣樣本眾數(shù)類別的 流量類型來(lái)表示整個(gè)流量類型簇的流量類型,檢測(cè)出異常流量。
[0070] 本發(fā)明的保護(hù)內(nèi)容不局限于W上實(shí)施例。在不背離發(fā)明構(gòu)思的精神和范圍下,本 領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點(diǎn)都被包括在本發(fā)明中,并且W所附的權(quán)利要求書為保 護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于特征選擇以及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測(cè)方法,其特征在于,包括 如下階段: 流量采集階段:通過(guò)網(wǎng)絡(luò)分析工具監(jiān)聽(tīng)網(wǎng)絡(luò),并將監(jiān)聽(tīng)到的數(shù)據(jù)包采集到本地; 特征提取階段:從所述數(shù)據(jù)包中提取屬于同一個(gè)流的數(shù)據(jù)包,對(duì)所述數(shù)據(jù)包進(jìn)行特征 抽取,并將提取的特征進(jìn)行歸一化; 特征選擇階段:利用最大信息系數(shù)評(píng)估每個(gè)特征對(duì)分類決策的重要性,再根據(jù)特征之 間的冗余度對(duì)特征進(jìn)行簡(jiǎn)單聚類,在相互之間存在冗余的特征中選擇出重要性最高的一個(gè) 特征加入特征子集; 聚類分析階段:對(duì)所述特征子集的特征,采用改進(jìn)的基于密度峰值的聚類方法對(duì)特征 進(jìn)行聚類,將其分為多個(gè)流量類型簇,對(duì)每一個(gè)所述流量類型簇進(jìn)行少量抽樣,通過(guò)已有的 入侵?jǐn)?shù)據(jù)庫(kù)、網(wǎng)絡(luò)流量和日志文件進(jìn)行分析來(lái)對(duì)抽樣的流量數(shù)據(jù)進(jìn)行分辨并標(biāo)記,利用抽 樣樣本眾數(shù)類別的流量類型來(lái)表示整個(gè)流量類型簇的流量類型,以檢測(cè)出異常流量。2. 根據(jù)權(quán)利要求1所述的基于特征選擇以及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于,所述流量采集階段包括下述步驟: 步驟1 a:初始化L i nux系統(tǒng); 步驟lb:使用yum命令來(lái)安裝tcpdump; 步驟lc:采集通過(guò)系統(tǒng)的網(wǎng)卡的流量抓取tcp數(shù)據(jù)包,將數(shù)據(jù)包保存到本地的.cap文件 中。3. 根據(jù)權(quán)利要求1所述的基于特征選擇以及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于,所述特征提取階段包括下述步驟: 步驟2a:從所述數(shù)據(jù)包的IP包頭中提取五元組,所述五元組為源地址、源端口、目的地 址、目的端口以及協(xié)議類型; 步驟2b:從所述數(shù)據(jù)包的TCP報(bào)頭中提取flag字段的特征,包括基本特征、時(shí)間戳、從源 主機(jī)到目標(biāo)主機(jī)數(shù)據(jù)的字節(jié)數(shù)、從目標(biāo)主機(jī)到源主機(jī)的數(shù)據(jù)字節(jié)數(shù); 步驟2c:將連續(xù)的特征進(jìn)行歸一化,使之落在[0.0,1.0 ]的區(qū)間內(nèi)。4. 根據(jù)權(quán)利要求1所述的基于特征選擇以及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于,所述特征選擇階段包括下述步驟: 步驟3a:將所述數(shù)據(jù)的特征分為離散型與連續(xù)型,其中離散型的特征直接使用互信息 公式計(jì)算兩個(gè)特征之間的相關(guān)度;對(duì)于連續(xù)型的特征,使用最大信息系數(shù)來(lái)評(píng)估兩個(gè)特征 之間的相關(guān)度; 步驟3b:將每一個(gè)特征與其他特征之間的關(guān)聯(lián)度進(jìn)行求和,得到求和變量數(shù)值; 步驟3c:移除所述求和變量數(shù)值小于特定閾值的特征; 步驟3d:對(duì)于剩余的特征,將兩者之間相關(guān)度大于特定閾值的特征進(jìn)行聚類,形成簇, 同一簇內(nèi)的特征存在冗余, 步驟3e:對(duì)每一個(gè)簇,選取簇內(nèi)與其他特征之間相關(guān)度最大的一個(gè)特征,加入并獲得特 征子集。5. 根據(jù)權(quán)利要求1所述的基于特征選擇以及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測(cè)方法, 其特征在于,所述方法的聚類分析階段包括下述步驟: 步驟4a:將經(jīng)過(guò)重要度以及冗余度篩選的特征所形成的子集導(dǎo)入系統(tǒng)用于聚類分析; 步驟4b:加入抽樣機(jī)制,對(duì)每一個(gè)所述流量類型簇進(jìn)行少量抽樣,計(jì)算抽樣樣本在高維 空間的密度以及距離,并確定聚類中心; 步驟4c:為高維空間中的每一個(gè)點(diǎn)選擇距離最近的一個(gè)聚類中心; 步驟4d:通過(guò)對(duì)簇進(jìn)行抽樣以及樣本進(jìn)行鑒別,確定各數(shù)據(jù)的類型,以甄別出異常流 量。
【專利摘要】本發(fā)明公開(kāi)了一種基于特征選擇以及密度峰值聚類的網(wǎng)絡(luò)流量異常檢測(cè)方法包括如下階段:流量采集階段:通過(guò)網(wǎng)絡(luò)分析工具監(jiān)聽(tīng)網(wǎng)絡(luò),并將監(jiān)聽(tīng)到的數(shù)據(jù)包采集到本地;特征提取階段:從數(shù)據(jù)包中提取屬于同一個(gè)流的數(shù)據(jù)包,對(duì)數(shù)據(jù)包進(jìn)行特征抽取,并將提取的特征進(jìn)行歸一化;特征選擇階段:利用最大信息系數(shù)評(píng)估每個(gè)特征對(duì)分類決策的重要性,再根據(jù)特征之間的冗余度對(duì)特征進(jìn)行簡(jiǎn)單聚類,選擇出重要性最高的一個(gè)特征加入特征子集;聚類分析階段:采用改進(jìn)的基于密度峰值的聚類方法對(duì)特征進(jìn)行聚類得到多個(gè)流量類型簇,對(duì)每一個(gè)流量類型簇進(jìn)行少量抽樣,并進(jìn)行類別檢測(cè),利用抽樣樣本眾數(shù)類別的流量類型來(lái)覆蓋整個(gè)流量類型簇的流量類型,以檢測(cè)出異常流量。
【IPC分類】H04L29/06
【公開(kāi)號(hào)】CN105577679
【申請(qǐng)?zhí)枴緾N201610023675
【發(fā)明人】何道敬, 倪謝俊, 黃琳
【申請(qǐng)人】華東師范大學(xué), 北京奇虎測(cè)騰科技有限公司
【公開(kāi)日】2016年5月11日
【申請(qǐng)日】2016年1月14日