專利名稱:一種網(wǎng)絡(luò)異常流量監(jiān)測方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息安全技術(shù)領(lǐng)域,特別涉及一種網(wǎng)絡(luò)異常流量監(jiān)測方法及裝置。
背景技術(shù):
網(wǎng)絡(luò)流量異常指網(wǎng)絡(luò)中流量不規(guī)則的顯著變化,如網(wǎng)絡(luò)短暫擁塞、分布式拒絕服務(wù)攻擊(DDoS, Distributed Denial ofService)、大范圍掃描等本地事件或者網(wǎng)絡(luò)路由異常等全局事件。網(wǎng)絡(luò)流量異常的監(jiān)測和分析對網(wǎng)絡(luò)安全應(yīng)急響應(yīng)部門而言非常重要,但是由于宏觀流量異常監(jiān)測比較困難,需要從大量高維的富含噪聲的數(shù)據(jù)中提取和解釋異常模式,使得對于網(wǎng)絡(luò)異常的監(jiān)測和分析仍然是一個極大的挑戰(zhàn)。為此,國內(nèi)外的學(xué)術(shù)機(jī)構(gòu)和企業(yè)提出了多種監(jiān)測方法。
其中,基于閾值的監(jiān)測方法,通過分析歷史數(shù)據(jù),建立正常的參考范圍,超出此范圍即判斷為異常。這種方法操作簡單,計(jì)算復(fù)雜度小。然而,作為一種實(shí)用的監(jiān)測手段時(shí),它需要結(jié)合網(wǎng)絡(luò)流量特點(diǎn)進(jìn)行修正和改進(jìn)。基于統(tǒng)計(jì)的監(jiān)測方法,通過建立統(tǒng)計(jì)學(xué)模型產(chǎn)生相應(yīng)的監(jiān)測方法,如一般似然比(GLR, generalized Likelihood Ratio)監(jiān)測方法,它考慮兩個相鄰的時(shí)間窗口以及由這兩個窗口構(gòu)成的合并窗口,每個窗口都用自回歸模型擬合,并計(jì)算各窗口序列殘差的聯(lián)合似然比,然后與某個預(yù)先設(shè)定的閾值T進(jìn)行比較,當(dāng)超過閾值T時(shí),則認(rèn)定該窗口邊界為異常點(diǎn)。這種監(jiān)測方法對于流量的突變監(jiān)測比較有效,但是它的閾值不是自動選取,并且當(dāng)異常持續(xù)長度超過窗口長度時(shí),將出現(xiàn)部分失效?;谧儞Q域進(jìn)行流量異常監(jiān)測方法,將時(shí)域的流量信號變換到頻域或者小波域,然后依據(jù)變換后的空間特征進(jìn)行異常監(jiān)測。該方法的計(jì)算過于復(fù)雜,不適于在高速骨干網(wǎng)上進(jìn)行實(shí)時(shí)監(jiān)測。此外,還有一些其它的監(jiān)測方法,如主成分分析(PCA, Principal ComponentAnalysis)方法,將源和目標(biāo)之間的數(shù)據(jù)流高維結(jié)構(gòu)空間進(jìn)行PCA分解,歸結(jié)到3個主成分上,以3個新的復(fù)合變量來重構(gòu)網(wǎng)絡(luò)流的特征,并以此發(fā)展出一套監(jiān)測方法?;贛arkov模型的網(wǎng)絡(luò)狀態(tài)轉(zhuǎn)換概率監(jiān)測方法,將每種類型的事件定義為系統(tǒng)狀態(tài),通過過程轉(zhuǎn)換模型來描述所預(yù)測的正常的網(wǎng)絡(luò)特征,當(dāng)?shù)絹淼牧髁刻卣髋c期望特征產(chǎn)生偏差時(shí)進(jìn)行報(bào)警。LERAD監(jiān)測方法基于網(wǎng)絡(luò)安全特征的監(jiān)測,通過對網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行分析得到流量屬性之間的正常的關(guān)聯(lián)規(guī)則,然后建立正常的規(guī)則集,在實(shí)際監(jiān)測中對流量進(jìn)行規(guī)則匹配,對違反規(guī)則的流量進(jìn)行告警。這種方法能夠?qū)Πl(fā)生異常的地址進(jìn)行定位,并對異常的程度進(jìn)行量化,但需要大量正常模式下的純凈數(shù)據(jù),因此在實(shí)際網(wǎng)絡(luò)中不易實(shí)現(xiàn)??傮w來看,基于流量異常的監(jiān)測方法有很多,但它們主要存在以下問題(I)準(zhǔn)確度不高,特別是基于閾值的方法精確度比較差。由于網(wǎng)絡(luò)入侵情況下的處理需要相當(dāng)大的代價(jià),所以漏檢、錯檢的損失巨大。(2)輸出結(jié)果沒有置信度,對一個只有50%可能被攻擊的狀態(tài)和99%可能被攻擊的狀態(tài)進(jìn)行相同處理的風(fēng)險(xiǎn)差別是巨大的。(3)無法應(yīng)對在線采集所累計(jì)的海量網(wǎng)絡(luò)數(shù)據(jù)流,日益增長的數(shù)據(jù)會使各種數(shù)據(jù)驅(qū)動方法的處理時(shí)間無限增長以至于無法實(shí)時(shí)地監(jiān)測當(dāng)前的網(wǎng)絡(luò)情況。
(4)網(wǎng)絡(luò)監(jiān)測系統(tǒng)各種參數(shù)不能根據(jù)歷史網(wǎng)絡(luò)情況自適應(yīng)調(diào)整。人工干預(yù)設(shè)定不僅消耗大量人力,還降低了系統(tǒng)的穩(wěn)定性,一旦出現(xiàn)差錯,結(jié)果將難以預(yù)測。(5)處理高維數(shù)據(jù)效率低下。由于網(wǎng)絡(luò)數(shù)據(jù)流一般由多種數(shù)據(jù)組合而成,對其進(jìn)行分析的時(shí)間復(fù)雜度非常高,由此造成網(wǎng)絡(luò)監(jiān)測系統(tǒng)運(yùn)行效率低下,不利于嵌入到各種硬件設(shè)備中。近年來,基于統(tǒng)計(jì)分析的機(jī)器學(xué)習(xí)方法被引入到網(wǎng)絡(luò)異常監(jiān)測中,并成為當(dāng)前熱點(diǎn)之一。支持向量機(jī)(SVM, Support Vector Machine)由于其堅(jiān)實(shí)的理論基礎(chǔ)以及核(Kernel)方法所帶來的眾多優(yōu)點(diǎn)成為異常監(jiān)測一種重要方法,它解決了準(zhǔn)確度和處理高維數(shù)據(jù)效率低下問題?;赟VM的網(wǎng)絡(luò)流量監(jiān)測系統(tǒng)可描述如下首先,使用數(shù)據(jù)預(yù)處理器對大量的審計(jì)數(shù)據(jù)進(jìn)行處理或變換,其中包括數(shù)據(jù)采集、特征選擇、數(shù)據(jù)轉(zhuǎn)換功能,最終得到統(tǒng)一長度的數(shù)字向量。然后,SVM分類器對這些數(shù)字向量
進(jìn)行判別。最后輸出判別結(jié)果,該結(jié)果可以作為最后的監(jiān)測結(jié)果。為了提高系統(tǒng)的監(jiān)測正確率,SVM網(wǎng)絡(luò)流量監(jiān)測系統(tǒng)還設(shè)計(jì)了決策響應(yīng)功能,SVM分類器的結(jié)果輸出給決策響應(yīng),決策響應(yīng)通過設(shè)定判決準(zhǔn)則,如發(fā)生數(shù)目、事件的百分比等,進(jìn)行最終的判定。在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題(I)進(jìn)行監(jiān)測時(shí),SVM支持向量的個數(shù)隨著訓(xùn)練樣本的增大成線性增長,當(dāng)訓(xùn)練樣本很大的時(shí)候,一方面可能造成過度擬合歷史數(shù)據(jù)而使泛化能力變?nèi)?,另一方面則浪費(fèi)計(jì)算時(shí)間。(2)無法得到概率式的監(jiān)測輸出,即預(yù)測結(jié)果沒有置信度,僅為某一標(biāo)簽或者數(shù)值。(3)必須人工設(shè)定部分參數(shù)的變化范圍,設(shè)置不當(dāng)會引起過擬合或者欠擬合等問題,該參數(shù)對結(jié)果有很大的影響。大部分的情況下,使用者都必須猜測各種可能值,才能找最好的結(jié)果。(4) SVM所使用的核函數(shù)必須符合Mercer條件,核函數(shù)的選擇范圍被限定在了比較小的空間。(5)支持向量機(jī)對噪聲是比較敏感的。現(xiàn)有技術(shù)中,尚沒有一種低誤檢率、低錯檢率、帶結(jié)果置信度輸出、參數(shù)自動選擇、高效的網(wǎng)絡(luò)異常流量監(jiān)測方案。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)異常流量監(jiān)測方法及裝置。所述技術(shù)方案如下一種網(wǎng)絡(luò)異常流量監(jiān)測方法,所述方法包括捕獲流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流;根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù);所述η根據(jù)系統(tǒng)的計(jì)算能力確定;將捕獲的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型;根據(jù)所述數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測。所述將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練之前,還包括
將所述網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)進(jìn)行去噪處理。所述將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型,包括為相關(guān)向量機(jī)選擇核函數(shù),將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)的特征向量映射到高維空間;在高維空間內(nèi),為所述核函數(shù)選擇相應(yīng)參數(shù),迭代求解最優(yōu)的權(quán)重分布;根據(jù)所述權(quán)重分布,預(yù)測數(shù)據(jù),建立數(shù)據(jù)模型。所述核函數(shù)包括但不限于高斯核函數(shù)或多項(xiàng)式核函數(shù)。所述為所述核函數(shù)選擇相應(yīng)參數(shù),包括使用當(dāng)前值X作為核函數(shù)參數(shù),X取值O到無窮;通過核函數(shù)計(jì)算網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)之間的相似性并記錄所有相似度;統(tǒng)計(jì)所有在預(yù)設(shè)區(qū)間內(nèi) 的相似度的個數(shù),并記錄此個數(shù)η ;增加核函數(shù)參數(shù)x = x+ Δχ,其中,所述Δχ為核參數(shù)增量;增加迭代次數(shù)i=i + l ;若在當(dāng)前時(shí)間的η小于前一時(shí)間的η,則取前一時(shí)間的值χ作為核函數(shù)參數(shù);輸出所述X作為核函數(shù)參數(shù)。所述方法還包括將監(jiān)測的當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)加入所述數(shù)據(jù)模型中,作為歷史網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)模型。所述根據(jù)所述數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測,包括判斷網(wǎng)絡(luò)數(shù)據(jù)流的風(fēng)險(xiǎn)概率是否大于操作閾值,若是,輸出相應(yīng)概率和級別的風(fēng)險(xiǎn)預(yù)測,并根據(jù)風(fēng)險(xiǎn)預(yù)測情況采取相應(yīng)的措施;否則,繼續(xù)監(jiān)測。一種網(wǎng)絡(luò)異常流量監(jiān)測裝置,所述裝置包括捕獲單元、篩選單元、數(shù)據(jù)處理單元和輸出單元,其中,所述捕獲單元,用于捕獲流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流;所述篩選單元,用于根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù);所述η根據(jù)計(jì)算能力確定;所述數(shù)據(jù)處理單元,用于將捕獲的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型;所述輸出單元,用于根據(jù)所述數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測。所述裝置還包括去噪單元,用于將所述網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)進(jìn)行去噪處理,削減高維噪聲。所述數(shù)據(jù)處理單元進(jìn)一步包括映射子單元、參數(shù)選擇子單元和預(yù)測子單元,其中,所述映射子單元,用于為相關(guān)向量機(jī)選擇核函數(shù),將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)的特征向量映射到高維空間;所述參數(shù)選擇子單元,用于在高維空間內(nèi),為所述核函數(shù)選擇相應(yīng)參數(shù),迭代求解最優(yōu)的權(quán)重分布;所述預(yù)測子單元,用于根據(jù)所述權(quán)重分布,建立數(shù)據(jù)模型,預(yù)測數(shù)據(jù)。本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是
通過滾動時(shí)間窗口策略選擇一定數(shù)量的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù),將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立歷史數(shù)據(jù)的數(shù)據(jù)模型,根據(jù)數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測和預(yù)測。本發(fā)明實(shí)施例提供了一種低誤檢率、低錯檢率、帶結(jié)果置信度輸出、參數(shù)自動選擇、高效的網(wǎng)絡(luò)異常流量監(jiān)測方案,能提高分類監(jiān)測的精度,使異常流量監(jiān)測能更快速有效,保證較低誤檢率和錯檢率。在解決準(zhǔn)確度問題的基礎(chǔ)上,借助貝葉斯概率的特點(diǎn)解決發(fā)生異常的概率輸出問題。
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面 描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明實(shí)施例一提供的網(wǎng)絡(luò)異常流量監(jiān)測方法流程圖;圖2是本發(fā)明實(shí)施例一提供的參數(shù)自動選擇方法流程圖;圖3是本發(fā)明實(shí)施例二提供的網(wǎng)絡(luò)異常流量監(jiān)測裝置結(jié)構(gòu)示意圖;圖4是本發(fā)明實(shí)施例二提供的數(shù)據(jù)處理單元300結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。實(shí)施例一參見圖1,為本實(shí)施例提供的網(wǎng)絡(luò)異常流量監(jiān)測方法原理流程圖,具體如下步驟10,捕獲流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流。本實(shí)施例中,對于網(wǎng)絡(luò)異常流量的監(jiān)控,首先需要對網(wǎng)絡(luò)中的未知流量進(jìn)行捕獲,捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)一方面需要輸入相關(guān)向量機(jī)進(jìn)行訓(xùn)練,從而建立歷史數(shù)據(jù)模型,通過數(shù)據(jù)模型來判斷后續(xù)的網(wǎng)絡(luò)數(shù)據(jù)流是否異常。另一方面,也需要不斷的捕獲當(dāng)前通過的網(wǎng)絡(luò)數(shù)據(jù)流,才能實(shí)時(shí)的預(yù)測網(wǎng)絡(luò)流量的異常。步驟20,根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)。這里,如何選擇合適的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為歷史數(shù)據(jù)來訓(xùn)練模型,是首要需要解決的問題。本實(shí)施例提出一種滾動時(shí)間窗口策略篩選部分歷史數(shù)據(jù)流作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練。這種策略實(shí)際上就是根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)。η的取值與系統(tǒng)的計(jì)算能力相關(guān),計(jì)算能力越強(qiáng),η的取值可以越大,這樣選取的數(shù)據(jù)越多,建立的模型也就越準(zhǔn)確。步驟30,將捕獲的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型。本步驟是本實(shí)施例的關(guān)鍵。本實(shí)施例主要通過相關(guān)向量機(jī)來進(jìn)行模型的訓(xùn)練,具體的方法如下相關(guān)向量機(jī)是在貝葉斯框架的基礎(chǔ)上提出的,是一種基于核函數(shù)映射將低維空間非線性問題轉(zhuǎn)化為高維空間的線性問題。相關(guān)向量機(jī)分類器,通過判定函數(shù)對判定函數(shù)中的新的觀測數(shù)據(jù)X*預(yù)測其相應(yīng)目標(biāo)。,其分布為 P (t I t, Q Jip, σ MP ) — / P (t I W, Q Jip, σ IP )由于上式兩個積分項(xiàng)均為正態(tài)分布,故P (t* 11, α Μρ, σ -2) =N (t* | y*, σ *2)其中y*= μ τ | Φ (χ*) σ *2= σ ΜΡ2+ Φ (χ*)τ Σ Φ (χ*)此時(shí),相關(guān)向量機(jī)對新觀測值的預(yù)測輸出為y(X*; μ )。相關(guān)向量機(jī)的步驟可以歸結(jié)為下面幾步選擇適當(dāng)?shù)暮撕瘮?shù),將特征向量映射到高維空間,解決低維空間內(nèi)的線性不可分問題。理論上相關(guān)向量機(jī)可以使用任意的核函數(shù),但考慮到具體的應(yīng)用,本實(shí)施例以高斯核函數(shù)和多項(xiàng)式核函數(shù)為例。選擇高斯核函數(shù)最重要的是核函數(shù)寬度參數(shù)的選擇,核函數(shù)寬度過小,則導(dǎo)致過學(xué)習(xí),核函數(shù)寬度過大,又導(dǎo)致過平滑,都會引起分類或回歸能力的下降。在高維空間內(nèi),為核函數(shù)選擇相應(yīng)參數(shù),迭代求解最優(yōu)的權(quán)重分布。根據(jù)權(quán)重分布,預(yù)測數(shù)據(jù),建立數(shù)據(jù)模型。本實(shí)施例中所述的Kernel函數(shù)(核函數(shù))可以為高斯核函數(shù),其表達(dá)式為K (X1, x2) =exp [_ | | X1-X21 | V (2 σ 2)]其中,σ表示核函數(shù)寬度,X1與X2是實(shí)數(shù)變量。所述的Kernel函數(shù)也可以為多項(xiàng)式核函數(shù),其表達(dá)式為K (Xi, χ」) =(Xi · Xj+1)d其中,d是多項(xiàng)式的次數(shù)。為了快速選擇合適的參數(shù),本實(shí)施例提出一種快速參數(shù)自動選擇方法來獲得σ或d的值。具體的,網(wǎng)絡(luò)數(shù)據(jù)流的元素繁多,引入過多特征會增加方法的計(jì)算復(fù)雜度,而漏掉重要特征,使得預(yù)報(bào)結(jié)果精確度下降。因此,合理有效地選取這些特征參數(shù)對預(yù)報(bào)結(jié)果有重要影響。為此,本實(shí)施例采用核主元成分分析(Kernel Principal ComponentAnalysis, KPCA)方法通過交叉驗(yàn)證進(jìn)行特征選取。當(dāng)然,也可以采用快速留一法、交叉驗(yàn)證法等方法來進(jìn)行特征選取,具體實(shí)現(xiàn)方式為現(xiàn)有技術(shù)內(nèi)容,此處不贅述。本實(shí)施例采用的特征參數(shù)可根據(jù)IPv6特征,選擇流量對稱性、協(xié)議分布、服務(wù)分布等特性參數(shù)中的一類或幾類。流量對稱性參數(shù)選取,除了常規(guī)的TCP,UDP等數(shù)據(jù)包數(shù)目外,可增加ESP包個數(shù)等參數(shù)(監(jiān)測加密數(shù)據(jù)包在網(wǎng)絡(luò)中的數(shù)量,判斷是否出現(xiàn)中間人攻擊);對于服務(wù)分布參數(shù),IPv4中可提取IP包字段中的TTL,RTT等值來監(jiān)測數(shù)據(jù)報(bào)在網(wǎng)絡(luò)中的存活時(shí)間及返回時(shí)延,判斷是否出現(xiàn)異常攻擊,在IPv6下可以通過提取IP包字段中的跳限值來判斷經(jīng)過的路由器是否為應(yīng)該經(jīng)過的跳數(shù)。在網(wǎng)絡(luò)流量大的時(shí)候,流量對稱性、協(xié)議分布、服務(wù)分布等特性將會趨于穩(wěn)定,使統(tǒng)計(jì)更有效。相關(guān)向量機(jī)需要人工設(shè)定核函數(shù)寬度或多項(xiàng)式核函數(shù)的次數(shù),而核函數(shù)寬度或多項(xiàng)式核函數(shù)的次數(shù)決定數(shù)據(jù)之間相似性的大小。數(shù)據(jù)間相似性應(yīng)盡量分布在區(qū)間
之間而盡量避免接近O與I的出現(xiàn)。通常核函數(shù)相似度是根據(jù)核函數(shù)參數(shù)單調(diào)增長的,因此本實(shí)施例提出如下參數(shù)自動選擇方法,如圖2所示,迭代步驟如下使用當(dāng)前值χ作為核函數(shù)參數(shù),χ可以從O到無窮,通過核函數(shù)計(jì)算由時(shí)間窗口策略選出的樣本之間的相似性并記錄所有相似度;自動統(tǒng)計(jì)所有在某個區(qū)間如
內(nèi)的相似度的個數(shù),并記錄此個數(shù)η;增加核函數(shù)參數(shù),X = X + Δχ,其中,Δχ為核參數(shù)增量;增加迭代次數(shù)i=i + l ;如果在當(dāng)前時(shí)間的η小于前一時(shí)間的n,則取前一時(shí)間的值χ作為核函數(shù)參數(shù);否貝U,跳至第一步驟,重新執(zhí)行;輸出n(i)時(shí)刻的χ作為核函數(shù)參數(shù)?!び纱?,核函數(shù)參數(shù)不但可被自動選擇,省去了人工費(fèi)用,而且可以在線地根據(jù)時(shí)間窗口策略選出的數(shù)據(jù)進(jìn)行自動調(diào)節(jié),解決參數(shù)自動選擇問題。步驟40,根據(jù)數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測。在完成了模型建立的過程后,可以根據(jù)建立的數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行監(jiān)測。監(jiān)測的目的在于發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)流的異常,從而采取不同的措施進(jìn)行處理。實(shí)際上,還需要輸出監(jiān)測后的預(yù)報(bào)結(jié)果及其風(fēng)險(xiǎn)級別,并將監(jiān)測后的數(shù)據(jù)加入到原有的訓(xùn)練模型中,作為歷史網(wǎng)絡(luò)數(shù)據(jù)。另外,還需要判斷風(fēng)險(xiǎn)概率是否大于設(shè)定的操作閾值,若沒有大于操作閾值,繼續(xù)監(jiān)控;否則,需要輸出相應(yīng)概率和級別的風(fēng)險(xiǎn)預(yù)測,并根據(jù)風(fēng)險(xiǎn)預(yù)測情況采取相應(yīng)的措施。對于輸出不同概率不同級別的風(fēng)險(xiǎn),根據(jù)分類情況自動采取不同的操作;必要時(shí),人工控制進(jìn)行決策,處理高風(fēng)險(xiǎn)高重要級別的異常監(jiān)測。特別的,在步驟30之前,還包括一個將網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)進(jìn)行去噪處理的步驟,目的在于削減噪聲。噪聲主要是錯誤或異常數(shù)據(jù),可能會影響數(shù)據(jù)挖掘結(jié)果。實(shí)施例二參見圖3,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)異常流量監(jiān)測裝置,該裝置包括捕獲單元100、篩選單元200、數(shù)據(jù)處理單元300和輸出單元400,具體如下捕獲單元100,用于捕獲流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流;篩選單元200,用于根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的η條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù);η根據(jù)本裝置的計(jì)算能力確定;數(shù)據(jù)處理單元300,用于將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型;輸出單元400,用于根據(jù)數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測。較佳地,上述裝置還包括去噪單元500,用于將網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)進(jìn)行去噪處理。較佳地,參見圖4,上述裝置中的數(shù)據(jù)處理單元300進(jìn)一步包括映射子單元301、參數(shù)選擇子單元302和預(yù)測子單元303,具體如下映射子單元301,用于為相關(guān)向量機(jī)選擇核函數(shù),將特征向量映射到高維空間;參數(shù)選擇子單元302,用于在高維空間內(nèi),為核函數(shù)選擇相應(yīng)參數(shù),迭代求解最優(yōu)的權(quán)重分布;預(yù)測子單元303,用于根據(jù)權(quán)重分布,建立數(shù)據(jù)模型,預(yù)測數(shù)據(jù)。根據(jù)建立好的樣本數(shù)據(jù)模型來預(yù)測新數(shù)據(jù),這里的輸入是新數(shù)據(jù),輸出是事件是否發(fā)生以及發(fā)生的概率。
需要說明的是上述實(shí)施例提供的網(wǎng)絡(luò)異常流量監(jiān)測裝置在網(wǎng)絡(luò)異常流量監(jiān)測時(shí),僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施例提供的網(wǎng)絡(luò)異常流量監(jiān)測裝置與網(wǎng)絡(luò)異常流量監(jiān)測方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。綜上所述,本發(fā)明各個實(shí)施例通過滾動時(shí)間窗口策略選擇一定數(shù)量的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù),將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立歷史數(shù)據(jù)的數(shù)據(jù)模型,根據(jù)數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測和預(yù)測。本發(fā)明實(shí)施例提供了一種低誤檢率、低錯檢率、帶結(jié)果置信度輸出、參數(shù)自動選擇、高效的網(wǎng)絡(luò)異常流量監(jiān)測方案,能提高分類監(jiān)測的精度,使異常流量監(jiān)測能更快速有效,保證較低誤檢率和錯檢率。在解決準(zhǔn)確度問題的基礎(chǔ)上,借助貝葉斯概率的特點(diǎn)解決發(fā)生異常的概率輸出問題。 本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計(jì)算機(jī)可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)絡(luò)異常流量監(jiān)測方法,其特征在于,所述方法包括捕獲流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流;根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的n條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù);所述n根 據(jù)系統(tǒng)的計(jì)算能力確定;將捕獲的n條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型;根據(jù)所述數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測。
2.如權(quán)利要求1所述的方法,其特征在于,所述將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向 量機(jī)的輸入進(jìn)行訓(xùn)練之前,還包括將所述網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)進(jìn)行去噪處理。
3.如權(quán)利要求1所述的方法,其特征在于,所述將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向 量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型,包括為相關(guān)向量機(jī)選擇核函數(shù),將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)的特征向量映射到高維空間; 在高維空間內(nèi),為所述核函數(shù)選擇相應(yīng)參數(shù),迭代求解最優(yōu)的權(quán)重分布;根據(jù)所述權(quán)重分布,預(yù)測數(shù)據(jù),建立數(shù)據(jù)模型。
4.如權(quán)利要求3所述的方法,其特征在于,所述核函數(shù)包括但不限于高斯核函數(shù)或多 項(xiàng)式核函數(shù)。
5.如權(quán)利要求3所述的方法,其特征在于,所述為所述核函數(shù)選擇相應(yīng)參數(shù),包括 使用當(dāng)前值x作為核函數(shù)參數(shù),x取值0到無窮;通過核函數(shù)計(jì)算網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)之間的相似性并記錄所有相似度;統(tǒng)計(jì)所有在預(yù)設(shè)區(qū)間內(nèi)的相似度的個數(shù),并記錄此個數(shù)n ;增加核函數(shù)參數(shù)x = x+ Ax,其中,所述A X為核參數(shù)增量;增加迭代次數(shù)i=i+l ;若在當(dāng)前時(shí)間的n小于前一時(shí)間的n,則取前一時(shí)間的值x作為核函數(shù)參數(shù);輸出所述x作為核函數(shù)參數(shù)。
6.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括將監(jiān)測的當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)加入所述數(shù)據(jù)模型中,作為歷史網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)模型。
7.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量 數(shù)據(jù)進(jìn)行監(jiān)測,包括判斷網(wǎng)絡(luò)數(shù)據(jù)流的風(fēng)險(xiǎn)概率是否大于操作閾值,若是,輸出相應(yīng)概率和級別的風(fēng)險(xiǎn)預(yù) 測,并根據(jù)風(fēng)險(xiǎn)預(yù)測情況采取相應(yīng)的措施;否則,繼續(xù)監(jiān)測。
8.—種網(wǎng)絡(luò)異常流量監(jiān)測裝置,其特征在于,所述裝置包括捕獲單元、篩選單元、數(shù)據(jù) 處理單元和輸出單元,其中,所述捕獲單元,用于捕獲流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流;所述篩選單元,用于根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的n條網(wǎng)絡(luò) 數(shù)據(jù)流數(shù)據(jù);所述n根據(jù)計(jì)算能力確定;所述數(shù)據(jù)處理單元,用于將捕獲的n條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn) 練,建立數(shù)據(jù)模型;所述輸出單元,用于根據(jù)所述數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測。
9.如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括去噪單元,用于將所述網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)進(jìn)行去噪處理。
10.如權(quán)利要求8或9所述的裝置,其特征在于,所述數(shù)據(jù)處理單元進(jìn)一步包括映射子 單元、參數(shù)選擇子單元和預(yù)測子單元,其中,所述映射子單元,用于為相關(guān)向量機(jī)選擇核函數(shù),將捕獲的網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)的特征向 量映射到高維空間;所述參數(shù)選擇子單元,用于在高維空間內(nèi),為所述核函數(shù)選擇相應(yīng)參數(shù),迭代求解最優(yōu) 的權(quán)重分布;所述預(yù)測子單元,用于根據(jù)所述權(quán)重分布,建立數(shù)據(jù)模型,預(yù)測數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)異常流量監(jiān)測方法,屬于信息安全技術(shù)領(lǐng)域。所述方法包括捕獲流經(jīng)的網(wǎng)絡(luò)數(shù)據(jù)流;根據(jù)網(wǎng)絡(luò)數(shù)據(jù)流的產(chǎn)生時(shí)間,選擇與當(dāng)前時(shí)間最接近的n條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù);所述n根據(jù)系統(tǒng)的計(jì)算能力確定;將捕獲的n條網(wǎng)絡(luò)數(shù)據(jù)流數(shù)據(jù)作為相關(guān)向量機(jī)的輸入進(jìn)行訓(xùn)練,建立數(shù)據(jù)模型;根據(jù)所述數(shù)據(jù)模型對當(dāng)前的網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行監(jiān)測。本發(fā)明能提高分類監(jiān)測的精度,使異常流量監(jiān)測能更快速有效,保證較低誤檢率和錯檢率。
文檔編號H04L12/801GK102957579SQ20121038054
公開日2013年3月6日 申請日期2012年9月29日 優(yōu)先權(quán)日2012年9月29日
發(fā)明者魯松, 鄒昕, 周立, 張良, 關(guān)建峰, 許長橋, 張能, 張宏科 申請人:北京郵電大學(xué), 國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心