專利名稱:一種基于dpi和svm技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明屬于網(wǎng)絡管理領(lǐng)域,特別涉及一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法。
背景技術(shù):
網(wǎng)絡流量識別技術(shù)是指通過獲取基于IP協(xié)議承載的未知網(wǎng)絡數(shù)據(jù)流量,采用特定的識別方法,分析出該網(wǎng)絡流量中包含的成分,將網(wǎng)絡上傳輸?shù)臄?shù)據(jù)流與具體的網(wǎng)絡協(xié)議或者網(wǎng)絡應用類型對應起來的技術(shù);網(wǎng)絡流量識別技術(shù)目前主要有基于網(wǎng)絡端口的識別方法、基于數(shù)據(jù)包分析的識別方法以及基于數(shù)據(jù)流分析的識別方法三大類。(I)基于端口的網(wǎng)絡流量識別方法基于端口的識別方法是將網(wǎng)絡端口和相應的網(wǎng)絡應用相對應,得到端口進而判別是哪一種應用協(xié)議。例如web應用的80端口,DNS (53),F(xiàn)TP(20, 21), e-mail (25, 110)等;基于端口識別的方法最大的優(yōu)勢在于識別的速度快,并且識別系統(tǒng)實現(xiàn)起來簡單,端口的知識庫組建和擴展都很容易;但是基于網(wǎng)絡端口識別方法的局限性也越來越明顯,因為隨著網(wǎng)絡應用不使用默認的端口實現(xiàn),越來越多的使用動態(tài)分配的端口 ;而且許多應用或者惡意行為為了繞過防火墻,隱藏原本的端口 ;所以該方法準確率越來越低。(2)基于數(shù)據(jù)包分析的識別方法基于數(shù)據(jù)包分析識別方法準確率最高,并且速度快;使用最多的為深度包監(jiān)測技術(shù)(DPI),是通過檢查數(shù)據(jù)包有效載荷,通過匹配已知特征庫確定是哪一個應用層的協(xié)議而得到結(jié)果;但是這種方法要求更多的資源(包括處理的時間和存儲的空間),尤其是對加密的數(shù)據(jù)流無能為力,而且檢測數(shù)據(jù)包應用層內(nèi)容牽涉到隱私問題。(3)基于數(shù)據(jù)流分析的識別方法因為DPI等基于數(shù)據(jù)包有效載荷進行流量識別對于加密的數(shù)據(jù)流無能為力以及查看數(shù)據(jù)包內(nèi)容在法律上牽涉到隱私的問題,基于數(shù)據(jù)流分析的識別方法在此環(huán)境之下被提出;基于數(shù)據(jù)流分析的識別方法是從宏觀的角度,對數(shù)據(jù)流進行數(shù)據(jù)統(tǒng)計,包括單位時間數(shù)據(jù)流數(shù)目、數(shù)據(jù)流的位速率、流大小以及流的生存周期(數(shù)據(jù)流的開始和結(jié)束時間之差);基于數(shù)據(jù)流的識別方法,最常見的是將統(tǒng)計的特征用于機器學習進行識別;但是這種方法的準確度沒有DPI技術(shù)高,對于流的統(tǒng)計有時候需要等待一條數(shù)據(jù)流結(jié)束,而且當發(fā)生丟包情況時,對識別的結(jié)果有一定的影響。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對基于端口識別技術(shù)的準確率低,基于DPI的技術(shù)對數(shù)據(jù)加密的業(yè)務識別困難,基于機器學習的識別技術(shù)存在丟包的缺陷,提出了將DPI和SVM相結(jié)合的網(wǎng)絡流量識別系統(tǒng)及方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是首先在網(wǎng)絡上捕獲數(shù)據(jù)包,提取常見特征后,將數(shù)據(jù)流通過DPI識別,然后在DPI識別過程中再進行提取特征,最后將該特征和之前提取的常見特征整合一起作為SVM的特征輸入對數(shù)據(jù)流進行分類。
本發(fā)明采用的技術(shù)方案如下
一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng),包括捕獲模塊、分析模塊、DPI識別模塊、SVM分類模塊、訓練模塊、特征庫、數(shù)據(jù)庫;分析模塊分別與捕獲模塊、DPI識別模塊、SVM分類模塊、訓練模塊相連;DPI識別模塊、訓練模塊分別與SVM分類模塊相連;特征庫與DPI識別模塊相連;數(shù)據(jù)庫分別與DPI識別模塊和SVM分類模塊相連?;谏鲜鱿到y(tǒng)的網(wǎng)絡流量識別方法,包括以下步驟,
步驟I、捕獲模塊從網(wǎng)絡上獲取數(shù)據(jù)包,并將數(shù)據(jù)包傳送給分析模塊;
步驟2、分析模塊對數(shù)據(jù)包進行會話重組和特征提取,并將得到的數(shù)據(jù)流發(fā)送至訓練模塊和DPI識別模塊,將提取出的特征傳送至SVM分類模塊;
步驟3、訓練模塊對獲得的數(shù)據(jù)流進行訓練,并將得到的特征發(fā)送給SVM分類模塊;步驟4、DPI識別模塊將接收到的數(shù)據(jù)流通過特征匹配進行識別,并且在特征匹配的過 程中再次對數(shù)據(jù)流進行特征提取,將提取的特征發(fā)送給SVM分類模塊,同時標識該數(shù)據(jù)流是否需要重新識別,如果是,則進入步驟5,否則將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫,轉(zhuǎn)步驟6 ;
步驟5、DPI識別模塊將需要重新識別的數(shù)據(jù)流發(fā)送給SVM分類模塊,SVM分類模塊根據(jù)其得到的特征對數(shù)據(jù)流進行分類,并將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫,轉(zhuǎn)步驟6 ;
步驟6、數(shù)據(jù)庫將得到的數(shù)據(jù)流進行結(jié)果統(tǒng)計。首先捕獲模塊是通過網(wǎng)卡實時捕獲網(wǎng)絡流量的數(shù)據(jù)包,將滿足條件的數(shù)據(jù)包作為分析模塊的輸入;分析模塊主要包括會話重組和特征提取兩個子模塊,分析模塊通過數(shù)據(jù)包安裝數(shù)據(jù)流的定義完成數(shù)據(jù)流的重組以及該數(shù)據(jù)流常見特征的提取,然后將數(shù)據(jù)流和該數(shù)據(jù)流所包含的常見特征的集合輸出之DPI識別模塊;DPI識別模塊中包括特征提取模塊,其對接收到的數(shù)據(jù)流再次進行特征提??;最后將兩次提取的特征整合在一起作為SVM分類模塊的特征輸入,對數(shù)據(jù)流進行分類,并將識別和分類結(jié)果傳輸至數(shù)據(jù)庫進行結(jié)構(gòu)統(tǒng)計。其中,訓練模塊的作用是對數(shù)據(jù)流集進行訓練進而得到分類模型,并將分類模型發(fā)送給SVM分類模塊供其分類使用;特征庫是為DPI識別模塊提供所需使用的特征,進而實現(xiàn)特征匹配,達到識別的目的;數(shù)據(jù)庫的作用是集合識別和分類的結(jié)果,進而統(tǒng)計結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明將DPI和SVM兩種技術(shù)結(jié)合在一起,在DPI識別模塊中加入了提取特征模塊,并將該特征和之前提取的常見特征整合在一起作為SVM分類模塊的特征輸入,這種方法提高了系統(tǒng)的整體性能,從而提高網(wǎng)絡流量識別系統(tǒng)的準確度;本發(fā)明特別適用于中小型局域網(wǎng),其能夠?qū)⒕W(wǎng)絡中流經(jīng)的數(shù)據(jù)精細的呈現(xiàn)出來,方便網(wǎng)絡管理員了解網(wǎng)絡數(shù)據(jù)流的組成,提高網(wǎng)絡管理的質(zhì)量和效率。
圖I為實現(xiàn)本發(fā)明的系統(tǒng)結(jié)構(gòu)框 圖2為本發(fā)明的流程圖。
具體實施例方式下面結(jié)合附圖所示的實施例對本發(fā)明作進一步說明。如附圖所示,本發(fā)明提供一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng),包括捕獲模塊、分析模塊、DPI識別模塊、SVM分類模塊、訓練模塊、特征庫、數(shù)據(jù)庫;分析模塊分別與捕獲模塊、DPI識別模塊、SVM分類模塊、訓練模塊相連;DPI識別模塊、訓練模塊分別與SVM分類模塊相連;特征庫與DPI識別模塊相連;數(shù)據(jù)庫分別與DPI識別模塊和SVM分類模塊相連?;谏鲜鱿到y(tǒng)的網(wǎng)絡流量識別方法,包括以下步驟,
步驟I、捕獲模塊從網(wǎng)絡上獲取數(shù)據(jù)包,并將數(shù)據(jù)包傳送給分析模塊;
步驟2、分析模塊對數(shù)據(jù)包進行會話重組和 特征提取,并將得到的數(shù)據(jù)流發(fā)送至訓練模塊和DPI識別模塊,將提取出的特征傳送至SVM分類模塊;
步驟3、訓練模塊對獲得的數(shù)據(jù)流進行訓練,并將得到的特征發(fā)送給SVM分類模塊;步驟4、DPI識別模塊將接收到的數(shù)據(jù)流通過特征匹配進行識別,并且在特征匹配的過程中再次對數(shù)據(jù)流進行特征提取,將提取的特征發(fā)送給SVM分類模塊,同時標識該數(shù)據(jù)流是否需要重新識別,如果是,則進入步驟5,否則將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫,轉(zhuǎn)步驟6 ;
步驟5、DPI識別模塊將需要重新識別的數(shù)據(jù)流發(fā)送給SVM分類模塊,SVM分類模塊根據(jù)其得到的特征對數(shù)據(jù)流進行分類,并將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫,轉(zhuǎn)步驟6 ;
步驟6、數(shù)據(jù)庫將得到的數(shù)據(jù)流進行結(jié)果統(tǒng)計。捕獲模塊采用旁路監(jiān)聽的方式,通過交換機的鏡像端口將通過交換機的所有數(shù)據(jù)包復制一份交給鏡像端口,鏡像端口連接的監(jiān)控機就可以通過分析鏡像端口傳輸過來的數(shù)據(jù)包了解該節(jié)點的網(wǎng)絡情況,從而做出決策,可以根據(jù)IP地址、端口號、協(xié)議等設(shè)置條件,例如當只需要研究TCP連接的時候,可以設(shè)置協(xié)議為TCP,從而丟掉所有的UDP數(shù)據(jù)包;本實施例中采用Libpcap和PF_RING結(jié)合,可以提高抓包的效率,滿足在千兆帶寬上不出現(xiàn)丟包情況,所以需要部署本發(fā)明的主機安裝Libpcap和PF_RING組件。分析模塊是對接收到的數(shù)據(jù)包進行進一步的分析處理,分析模塊包括會話重 組和特征提取兩個模塊通過TCP/IP網(wǎng)絡體系結(jié)構(gòu)的四層由下至上進行解包,得到數(shù)
據(jù)流的五元組(源地址、源端口、目的地址、目的端口、協(xié)議)。會話重組模塊主要是進行協(xié)議分析,從網(wǎng)絡層得到IP地址和上層協(xié)議、從傳輸層得到端口號組成一個五元組,從而得到一個數(shù)據(jù)流的基本信息,在網(wǎng)絡數(shù)據(jù)處理的時候,從一次會話的第一個數(shù)據(jù)就可以得到這個信息,而且五元組也是作為該數(shù)據(jù)流的關(guān)鍵字,后續(xù)達到的數(shù)據(jù)包根據(jù)這個關(guān)鍵字,采用數(shù)據(jù)包分類算法對該到達的數(shù)據(jù)進行分類,得到該數(shù)據(jù)包屬于的數(shù)據(jù)流,常見的成熟應用的數(shù)據(jù)包分類算法有線性查找、分層樹查找、網(wǎng)格樹查找等算法。數(shù)據(jù)包重組過程中,一個關(guān)鍵的問題是一條數(shù)據(jù)流的結(jié)束判斷,即如何判斷某條數(shù)據(jù)流已經(jīng)結(jié)束了,本發(fā)明采用以下三中方法進行判斷數(shù)據(jù)流的結(jié)束
(a)結(jié)束標志FIN
在TCP連接過程中,一次會話以SYN標志開始,以FIN標志結(jié)束,所以當檢測到FIN標志的時候認為該會話結(jié)束。(b)截斷處理
當同一個數(shù)據(jù)流關(guān)鍵字(即源IP地址+源端口 +目的IP地址+目的端口 +傳輸層協(xié)議)相同時,某一個數(shù)據(jù)包在分類的時候該如何選擇具體一個數(shù)據(jù)流是一個很難明確的問題。而且FIN數(shù)據(jù)包有時候會比其他數(shù)據(jù)晚到很長時間,有可能長達I分鐘,這個時候某個關(guān)鍵字下面的多個數(shù)據(jù)流都處于等待狀態(tài),如果一個新的數(shù)據(jù)流也是此關(guān)鍵字,此時若只是簡單的將到達的數(shù)據(jù)分類給最后一個數(shù)據(jù)流的話并不是完全正確的。例如常見的HTTP協(xié)議I. I支持長連接(keep alive),能夠支持在一次連接中提交多次請求,如果兩個請求到達,按照如上簡單處理的話,所有的數(shù)據(jù)包將被分到第二個數(shù)據(jù)流,第一個數(shù)據(jù)流的有效有效載荷是O。本實施例中采用截斷處理的方法當一次連接中有多個數(shù)據(jù)流時,以響應報文的第一個數(shù)據(jù)包作為節(jié)點,如果后續(xù)數(shù)據(jù)流的第一個響應報文到達并且根據(jù)序列號和確認號找到該報文屬于的數(shù)據(jù)流,后續(xù)報文都屬于該數(shù)據(jù)流,直到一個新的響應報文節(jié)點到達。在HTTP協(xié)議中,一個響應報文是有很多標志的,例如響應報文的有效有效載荷中的第一行是HTTP/1. I 200 0K。(c)超時處理
超時處理是最常見的一種處理方式,像UDP協(xié)議是無連接,盡最大努力傳輸?shù)牟豢煽繀f(xié)議,沒有所謂的FIN標志,通過以上方法很難判斷。還有一種常見的情況是,一次連接建立之后,或者一次會話進行一半的時候,由于網(wǎng)絡故障或者服務器宕機導致余下的數(shù)據(jù)沒有到達,在HTTP協(xié)議中的第一個響應報文沒有到達,如果不作處理的話,這個數(shù)據(jù)流永遠都是等待狀態(tài),得不到處理。所以本發(fā)明也采用超時處理的半分,時間定為一分鐘,如果最后一個報文到達并且在接下來的一分鐘之內(nèi)都沒有接收到任何相關(guān)聯(lián)的數(shù)據(jù)包,則認為這次會話已經(jīng)完成,數(shù)據(jù)流判斷為已經(jīng)結(jié)束。特征提取是在會話重組模塊完成了重組之后進行的,因為如果會話重組沒有完成的話,部分特征的提取就不能有效完成。表I列出了本發(fā)明的特征提取模塊提取的部分特征,本實施例采用的這些特征是通過工具weka計算由DPI技術(shù)過程中得到的特征和其他常見特征的相關(guān)性,實施例最終采用的特征集合如表I所示,也作為SVM分類模塊的輸入。其中,最后一個特征alpahnum (有限長度字母出現(xiàn)個數(shù))是在DPI識別過程中提取出的屬性,其他為常見特征。為了使DPI識別模塊能夠提取更多有益信息,本發(fā)明對傳統(tǒng)的DPI識別技術(shù)作了進一步的完善和改進。主要有如下兩個方面
(a)字符統(tǒng)計功能
DPI識別就是針對數(shù)據(jù)包內(nèi)容進行一次掃描,即對字符串的掃描。通過對字符串的掃描最簡單、最易實現(xiàn)的就是對字符的統(tǒng)計。為了實現(xiàn)起來不影響匹配效率,本發(fā)明采用空間換時間的策略,統(tǒng)計固定長度(例如,前100個字節(jié))數(shù)據(jù)包內(nèi)容中出現(xiàn)的不同字母個數(shù),區(qū)分大小寫,通過建立大小為52的字符數(shù)組對每一個字母進行統(tǒng)計,沒出現(xiàn)數(shù)值為O。最后能夠得到出現(xiàn)的不同字母,以及出現(xiàn)最多的字母和個數(shù)等。(b)單詞統(tǒng)計功能
本實施例考慮到在模式匹配過程中,使用正則表達式表示特征以及使用確定的有限狀態(tài)機(DFA)作為匹配引擎,DFA中執(zhí)行過程中如果沒有執(zhí)行到終點則匹配失敗,但是可能存在其他有意義的特征字。所以統(tǒng)計這些特征字,也就是確定的單詞需要新的功能函數(shù)。通過引用匹配算法AC算法中使用的三個函數(shù)goto函數(shù)、fail函數(shù)和output達到這一目的,即通過加入需要統(tǒng)計的單詞并且按照AC函數(shù)添加標記達到統(tǒng)計結(jié)果。特征庫是DPI識別過程中需要的特征庫,DPI識別過程中需要首先將所有的特征庫下載到識別系統(tǒng)中,然后將這些特征組織起來使得特征匹配的效率提高。本實施例采用的特征使用正則表達式(regular expression)進行表示,每一條應用使用一條特征進行表/Jn o運用本發(fā)明對某一局域網(wǎng)進行檢測,表I、表2、表3分別為在本實施例中得到的部分特征、數(shù)據(jù)和結(jié)果。表I特征列表
權(quán)利要求
1.一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng),其特征在于包括捕獲模塊、分析模塊、DPI識別模塊、SVM分類模塊、訓練模塊、特征庫、數(shù)據(jù)庫;分析模塊分別與捕獲模塊、DPI識別模塊、SVM分類模塊、訓練模塊相連;DPI識別模塊、訓練模塊分別與SVM分類模塊相連;特征庫與DPI識別模塊相連;數(shù)據(jù)庫分別與DPI識別模塊和SVM分類模塊相連。
2.基于上述系統(tǒng)的網(wǎng)絡流量識別方法,其特征在于包括以下步驟, 步驟I、捕獲模塊從網(wǎng)絡上獲取數(shù)據(jù)包,并將數(shù)據(jù)包傳送給分析模塊; 步驟2、分析模塊對數(shù)據(jù)包進行會話重組和特征提取,并將得到的數(shù)據(jù)流發(fā)送至訓練模塊和DPI識別模塊,將提取出的特征傳送至SVM分類模塊; 步驟3、訓練模塊對獲得的數(shù)據(jù)流進行訓練,并將得到的特征發(fā)送給SVM分類模塊;步驟4、DPI識別模塊將接收到的數(shù)據(jù)流通過特征匹配進行識別,并且在特征匹配的過 程中再次對數(shù)據(jù)流進行特征提取,將提取的特征發(fā)送給SVM分類模塊,同時標識該數(shù)據(jù)流是否需要重新識別,如果是,則進入步驟5,否則將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫,轉(zhuǎn)步驟6 ; 步驟5、DPI識別模塊將需要重新識別的數(shù)據(jù)流發(fā)送給SVM分類模塊,SVM分類模塊根據(jù)其得到的特征對數(shù)據(jù)流進行分類,并將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫,轉(zhuǎn)步驟6 ; 步驟6、數(shù)據(jù)庫將得到的數(shù)據(jù)流進行結(jié)果統(tǒng)計。
全文摘要
本發(fā)明提供一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法,其將DPI識別技術(shù)和SVM識別技術(shù)結(jié)合在一起,首先在網(wǎng)絡上捕獲數(shù)據(jù)包,提取常見特征后,將數(shù)據(jù)流通過DPI識別,然后在DPI識別過程中加入提取特征模塊,最后將該特征和之前提取的常見特征整合一起作為SVM的特征輸入對數(shù)據(jù)流進行分類。本發(fā)明特別適用于用于中小型局域網(wǎng),將網(wǎng)絡中流經(jīng)的數(shù)據(jù)精細的呈現(xiàn)出來,方便網(wǎng)絡管理員了解網(wǎng)絡數(shù)據(jù)流的組成,提高網(wǎng)絡管理的質(zhì)量和效率。
文檔編號H04L12/24GK102739457SQ20121025516
公開日2012年10月17日 申請日期2012年7月23日 優(yōu)先權(quán)日2012年7月23日
發(fā)明者杜瑞穎, 裴凱, 陳晶 申請人:武漢大學