一種基于dpi和svm技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法

文檔序號：7856436閱讀：201來源：國知局

專利名稱：一種基于dpi和svm技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明屬于網(wǎng)絡管理領(lǐng)域，特別涉及一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法。
背景技術(shù)：
網(wǎng)絡流量識別技術(shù)是指通過獲取基于IP協(xié)議承載的未知網(wǎng)絡數(shù)據(jù)流量，采用特定的識別方法，分析出該網(wǎng)絡流量中包含的成分，將網(wǎng)絡上傳輸?shù)臄?shù)據(jù)流與具體的網(wǎng)絡協(xié)議或者網(wǎng)絡應用類型對應起來的技術(shù)；網(wǎng)絡流量識別技術(shù)目前主要有基于網(wǎng)絡端口的識別方法、基于數(shù)據(jù)包分析的識別方法以及基于數(shù)據(jù)流分析的識別方法三大類。(I)基于端口的網(wǎng)絡流量識別方法基于端口的識別方法是將網(wǎng)絡端口和相應的網(wǎng)絡應用相對應，得到端口進而判別是哪一種應用協(xié)議。例如web應用的80端口，DNS (53)，F(xiàn)TP(20, 21), e-mail (25, 110)等；基于端口識別的方法最大的優(yōu)勢在于識別的速度快，并且識別系統(tǒng)實現(xiàn)起來簡單，端口的知識庫組建和擴展都很容易；但是基于網(wǎng)絡端口識別方法的局限性也越來越明顯，因為隨著網(wǎng)絡應用不使用默認的端口實現(xiàn)，越來越多的使用動態(tài)分配的端口；而且許多應用或者惡意行為為了繞過防火墻，隱藏原本的端口；所以該方法準確率越來越低。(2)基于數(shù)據(jù)包分析的識別方法基于數(shù)據(jù)包分析識別方法準確率最高，并且速度快；使用最多的為深度包監(jiān)測技術(shù)(DPI)，是通過檢查數(shù)據(jù)包有效載荷，通過匹配已知特征庫確定是哪一個應用層的協(xié)議而得到結(jié)果；但是這種方法要求更多的資源(包括處理的時間和存儲的空間)，尤其是對加密的數(shù)據(jù)流無能為力，而且檢測數(shù)據(jù)包應用層內(nèi)容牽涉到隱私問題。(3)基于數(shù)據(jù)流分析的識別方法因為DPI等基于數(shù)據(jù)包有效載荷進行流量識別對于加密的數(shù)據(jù)流無能為力以及查看數(shù)據(jù)包內(nèi)容在法律上牽涉到隱私的問題，基于數(shù)據(jù)流分析的識別方法在此環(huán)境之下被提出；基于數(shù)據(jù)流分析的識別方法是從宏觀的角度，對數(shù)據(jù)流進行數(shù)據(jù)統(tǒng)計，包括單位時間數(shù)據(jù)流數(shù)目、數(shù)據(jù)流的位速率、流大小以及流的生存周期(數(shù)據(jù)流的開始和結(jié)束時間之差)；基于數(shù)據(jù)流的識別方法，最常見的是將統(tǒng)計的特征用于機器學習進行識別；但是這種方法的準確度沒有DPI技術(shù)高，對于流的統(tǒng)計有時候需要等待一條數(shù)據(jù)流結(jié)束，而且當發(fā)生丟包情況時，對識別的結(jié)果有一定的影響。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于，針對基于端口識別技術(shù)的準確率低，基于DPI的技術(shù)對數(shù)據(jù)加密的業(yè)務識別困難，基于機器學習的識別技術(shù)存在丟包的缺陷，提出了將DPI和SVM相結(jié)合的網(wǎng)絡流量識別系統(tǒng)及方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是首先在網(wǎng)絡上捕獲數(shù)據(jù)包，提取常見特征后，將數(shù)據(jù)流通過DPI識別，然后在DPI識別過程中再進行提取特征，最后將該特征和之前提取的常見特征整合一起作為SVM的特征輸入對數(shù)據(jù)流進行分類。
本發(fā)明采用的技術(shù)方案如下
一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng)，包括捕獲模塊、分析模塊、DPI識別模塊、SVM分類模塊、訓練模塊、特征庫、數(shù)據(jù)庫；分析模塊分別與捕獲模塊、DPI識別模塊、SVM分類模塊、訓練模塊相連；DPI識別模塊、訓練模塊分別與SVM分類模塊相連；特征庫與DPI識別模塊相連；數(shù)據(jù)庫分別與DPI識別模塊和SVM分類模塊相連?；谏鲜鱿到y(tǒng)的網(wǎng)絡流量識別方法，包括以下步驟，
步驟I、捕獲模塊從網(wǎng)絡上獲取數(shù)據(jù)包，并將數(shù)據(jù)包傳送給分析模塊；
步驟2、分析模塊對數(shù)據(jù)包進行會話重組和特征提取，并將得到的數(shù)據(jù)流發(fā)送至訓練模塊和DPI識別模塊，將提取出的特征傳送至SVM分類模塊；
步驟3、訓練模塊對獲得的數(shù)據(jù)流進行訓練，并將得到的特征發(fā)送給SVM分類模塊；步驟4、DPI識別模塊將接收到的數(shù)據(jù)流通過特征匹配進行識別，并且在特征匹配的過程中再次對數(shù)據(jù)流進行特征提取，將提取的特征發(fā)送給SVM分類模塊，同時標識該數(shù)據(jù)流是否需要重新識別，如果是，則進入步驟5，否則將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫，轉(zhuǎn)步驟6 ；
步驟5、DPI識別模塊將需要重新識別的數(shù)據(jù)流發(fā)送給SVM分類模塊，SVM分類模塊根據(jù)其得到的特征對數(shù)據(jù)流進行分類，并將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫，轉(zhuǎn)步驟6 ；
步驟6、數(shù)據(jù)庫將得到的數(shù)據(jù)流進行結(jié)果統(tǒng)計。首先捕獲模塊是通過網(wǎng)卡實時捕獲網(wǎng)絡流量的數(shù)據(jù)包，將滿足條件的數(shù)據(jù)包作為分析模塊的輸入；分析模塊主要包括會話重組和特征提取兩個子模塊，分析模塊通過數(shù)據(jù)包安裝數(shù)據(jù)流的定義完成數(shù)據(jù)流的重組以及該數(shù)據(jù)流常見特征的提取，然后將數(shù)據(jù)流和該數(shù)據(jù)流所包含的常見特征的集合輸出之DPI識別模塊；DPI識別模塊中包括特征提取模塊，其對接收到的數(shù)據(jù)流再次進行特征提??；最后將兩次提取的特征整合在一起作為SVM分類模塊的特征輸入，對數(shù)據(jù)流進行分類，并將識別和分類結(jié)果傳輸至數(shù)據(jù)庫進行結(jié)構(gòu)統(tǒng)計。其中，訓練模塊的作用是對數(shù)據(jù)流集進行訓練進而得到分類模型，并將分類模型發(fā)送給SVM分類模塊供其分類使用；特征庫是為DPI識別模塊提供所需使用的特征，進而實現(xiàn)特征匹配，達到識別的目的；數(shù)據(jù)庫的作用是集合識別和分類的結(jié)果，進而統(tǒng)計結(jié)果。與現(xiàn)有技術(shù)相比，本發(fā)明將DPI和SVM兩種技術(shù)結(jié)合在一起，在DPI識別模塊中加入了提取特征模塊，并將該特征和之前提取的常見特征整合在一起作為SVM分類模塊的特征輸入，這種方法提高了系統(tǒng)的整體性能，從而提高網(wǎng)絡流量識別系統(tǒng)的準確度；本發(fā)明特別適用于中小型局域網(wǎng)，其能夠?qū)⒕W(wǎng)絡中流經(jīng)的數(shù)據(jù)精細的呈現(xiàn)出來，方便網(wǎng)絡管理員了解網(wǎng)絡數(shù)據(jù)流的組成，提高網(wǎng)絡管理的質(zhì)量和效率。

圖I為實現(xiàn)本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖2為本發(fā)明的流程圖。
具體實施例方式下面結(jié)合附圖所示的實施例對本發(fā)明作進一步說明。如附圖所示，本發(fā)明提供一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng)，包括捕獲模塊、分析模塊、DPI識別模塊、SVM分類模塊、訓練模塊、特征庫、數(shù)據(jù)庫；分析模塊分別與捕獲模塊、DPI識別模塊、SVM分類模塊、訓練模塊相連；DPI識別模塊、訓練模塊分別與SVM分類模塊相連；特征庫與DPI識別模塊相連；數(shù)據(jù)庫分別與DPI識別模塊和SVM分類模塊相連?；谏鲜鱿到y(tǒng)的網(wǎng)絡流量識別方法，包括以下步驟，
步驟I、捕獲模塊從網(wǎng)絡上獲取數(shù)據(jù)包，并將數(shù)據(jù)包傳送給分析模塊；
步驟2、分析模塊對數(shù)據(jù)包進行會話重組和特征提取，并將得到的數(shù)據(jù)流發(fā)送至訓練模塊和DPI識別模塊，將提取出的特征傳送至SVM分類模塊；
步驟3、訓練模塊對獲得的數(shù)據(jù)流進行訓練，并將得到的特征發(fā)送給SVM分類模塊；步驟4、DPI識別模塊將接收到的數(shù)據(jù)流通過特征匹配進行識別，并且在特征匹配的過程中再次對數(shù)據(jù)流進行特征提取，將提取的特征發(fā)送給SVM分類模塊，同時標識該數(shù)據(jù)流是否需要重新識別，如果是，則進入步驟5，否則將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫，轉(zhuǎn)步驟6 ；
步驟5、DPI識別模塊將需要重新識別的數(shù)據(jù)流發(fā)送給SVM分類模塊，SVM分類模塊根據(jù)其得到的特征對數(shù)據(jù)流進行分類，并將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫，轉(zhuǎn)步驟6 ；
步驟6、數(shù)據(jù)庫將得到的數(shù)據(jù)流進行結(jié)果統(tǒng)計。捕獲模塊采用旁路監(jiān)聽的方式，通過交換機的鏡像端口將通過交換機的所有數(shù)據(jù)包復制一份交給鏡像端口，鏡像端口連接的監(jiān)控機就可以通過分析鏡像端口傳輸過來的數(shù)據(jù)包了解該節(jié)點的網(wǎng)絡情況，從而做出決策，可以根據(jù)IP地址、端口號、協(xié)議等設(shè)置條件，例如當只需要研究TCP連接的時候，可以設(shè)置協(xié)議為TCP，從而丟掉所有的UDP數(shù)據(jù)包；本實施例中采用Libpcap和PF_RING結(jié)合，可以提高抓包的效率，滿足在千兆帶寬上不出現(xiàn)丟包情況，所以需要部署本發(fā)明的主機安裝Libpcap和PF_RING組件。分析模塊是對接收到的數(shù)據(jù)包進行進一步的分析處理，分析模塊包括會話重組和特征提取兩個模塊通過TCP/IP網(wǎng)絡體系結(jié)構(gòu)的四層由下至上進行解包，得到數(shù)
據(jù)流的五元組(源地址、源端口、目的地址、目的端口、協(xié)議)。會話重組模塊主要是進行協(xié)議分析，從網(wǎng)絡層得到IP地址和上層協(xié)議、從傳輸層得到端口號組成一個五元組，從而得到一個數(shù)據(jù)流的基本信息，在網(wǎng)絡數(shù)據(jù)處理的時候，從一次會話的第一個數(shù)據(jù)就可以得到這個信息，而且五元組也是作為該數(shù)據(jù)流的關(guān)鍵字，后續(xù)達到的數(shù)據(jù)包根據(jù)這個關(guān)鍵字，采用數(shù)據(jù)包分類算法對該到達的數(shù)據(jù)進行分類，得到該數(shù)據(jù)包屬于的數(shù)據(jù)流，常見的成熟應用的數(shù)據(jù)包分類算法有線性查找、分層樹查找、網(wǎng)格樹查找等算法。數(shù)據(jù)包重組過程中，一個關(guān)鍵的問題是一條數(shù)據(jù)流的結(jié)束判斷，即如何判斷某條數(shù)據(jù)流已經(jīng)結(jié)束了，本發(fā)明采用以下三中方法進行判斷數(shù)據(jù)流的結(jié)束
(a)結(jié)束標志FIN
在TCP連接過程中，一次會話以SYN標志開始，以FIN標志結(jié)束，所以當檢測到FIN標志的時候認為該會話結(jié)束。(b)截斷處理
當同一個數(shù)據(jù)流關(guān)鍵字(即源IP地址+源端口 +目的IP地址+目的端口 +傳輸層協(xié)議)相同時，某一個數(shù)據(jù)包在分類的時候該如何選擇具體一個數(shù)據(jù)流是一個很難明確的問題。而且FIN數(shù)據(jù)包有時候會比其他數(shù)據(jù)晚到很長時間，有可能長達I分鐘，這個時候某個關(guān)鍵字下面的多個數(shù)據(jù)流都處于等待狀態(tài)，如果一個新的數(shù)據(jù)流也是此關(guān)鍵字，此時若只是簡單的將到達的數(shù)據(jù)分類給最后一個數(shù)據(jù)流的話并不是完全正確的。例如常見的HTTP協(xié)議I. I支持長連接(keep alive),能夠支持在一次連接中提交多次請求,如果兩個請求到達，按照如上簡單處理的話，所有的數(shù)據(jù)包將被分到第二個數(shù)據(jù)流，第一個數(shù)據(jù)流的有效有效載荷是O。本實施例中采用截斷處理的方法當一次連接中有多個數(shù)據(jù)流時，以響應報文的第一個數(shù)據(jù)包作為節(jié)點，如果后續(xù)數(shù)據(jù)流的第一個響應報文到達并且根據(jù)序列號和確認號找到該報文屬于的數(shù)據(jù)流，后續(xù)報文都屬于該數(shù)據(jù)流，直到一個新的響應報文節(jié)點到達。在HTTP協(xié)議中，一個響應報文是有很多標志的，例如響應報文的有效有效載荷中的第一行是HTTP/1. I 200 0K。(c)超時處理
超時處理是最常見的一種處理方式，像UDP協(xié)議是無連接，盡最大努力傳輸?shù)牟豢煽繀f(xié)議，沒有所謂的FIN標志，通過以上方法很難判斷。還有一種常見的情況是，一次連接建立之后，或者一次會話進行一半的時候，由于網(wǎng)絡故障或者服務器宕機導致余下的數(shù)據(jù)沒有到達，在HTTP協(xié)議中的第一個響應報文沒有到達，如果不作處理的話，這個數(shù)據(jù)流永遠都是等待狀態(tài)，得不到處理。所以本發(fā)明也采用超時處理的半分，時間定為一分鐘，如果最后一個報文到達并且在接下來的一分鐘之內(nèi)都沒有接收到任何相關(guān)聯(lián)的數(shù)據(jù)包，則認為這次會話已經(jīng)完成，數(shù)據(jù)流判斷為已經(jīng)結(jié)束。特征提取是在會話重組模塊完成了重組之后進行的，因為如果會話重組沒有完成的話，部分特征的提取就不能有效完成。表I列出了本發(fā)明的特征提取模塊提取的部分特征，本實施例采用的這些特征是通過工具weka計算由DPI技術(shù)過程中得到的特征和其他常見特征的相關(guān)性，實施例最終采用的特征集合如表I所示，也作為SVM分類模塊的輸入。其中，最后一個特征alpahnum (有限長度字母出現(xiàn)個數(shù))是在DPI識別過程中提取出的屬性，其他為常見特征。為了使DPI識別模塊能夠提取更多有益信息，本發(fā)明對傳統(tǒng)的DPI識別技術(shù)作了進一步的完善和改進。主要有如下兩個方面
(a)字符統(tǒng)計功能
DPI識別就是針對數(shù)據(jù)包內(nèi)容進行一次掃描，即對字符串的掃描。通過對字符串的掃描最簡單、最易實現(xiàn)的就是對字符的統(tǒng)計。為了實現(xiàn)起來不影響匹配效率，本發(fā)明采用空間換時間的策略，統(tǒng)計固定長度(例如，前100個字節(jié))數(shù)據(jù)包內(nèi)容中出現(xiàn)的不同字母個數(shù)，區(qū)分大小寫，通過建立大小為52的字符數(shù)組對每一個字母進行統(tǒng)計，沒出現(xiàn)數(shù)值為O。最后能夠得到出現(xiàn)的不同字母，以及出現(xiàn)最多的字母和個數(shù)等。(b)單詞統(tǒng)計功能
本實施例考慮到在模式匹配過程中，使用正則表達式表示特征以及使用確定的有限狀態(tài)機(DFA)作為匹配引擎，DFA中執(zhí)行過程中如果沒有執(zhí)行到終點則匹配失敗，但是可能存在其他有意義的特征字。所以統(tǒng)計這些特征字，也就是確定的單詞需要新的功能函數(shù)。通過引用匹配算法AC算法中使用的三個函數(shù)goto函數(shù)、fail函數(shù)和output達到這一目的，即通過加入需要統(tǒng)計的單詞并且按照AC函數(shù)添加標記達到統(tǒng)計結(jié)果。特征庫是DPI識別過程中需要的特征庫，DPI識別過程中需要首先將所有的特征庫下載到識別系統(tǒng)中，然后將這些特征組織起來使得特征匹配的效率提高。本實施例采用的特征使用正則表達式(regular expression)進行表示,每一條應用使用一條特征進行表/Jn o運用本發(fā)明對某一局域網(wǎng)進行檢測，表I、表2、表3分別為在本實施例中得到的部分特征、數(shù)據(jù)和結(jié)果。表I特征列表
權(quán)利要求
1.一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng)，其特征在于包括捕獲模塊、分析模塊、DPI識別模塊、SVM分類模塊、訓練模塊、特征庫、數(shù)據(jù)庫；分析模塊分別與捕獲模塊、DPI識別模塊、SVM分類模塊、訓練模塊相連；DPI識別模塊、訓練模塊分別與SVM分類模塊相連；特征庫與DPI識別模塊相連；數(shù)據(jù)庫分別與DPI識別模塊和SVM分類模塊相連。
2.基于上述系統(tǒng)的網(wǎng)絡流量識別方法，其特征在于包括以下步驟，步驟I、捕獲模塊從網(wǎng)絡上獲取數(shù)據(jù)包，并將數(shù)據(jù)包傳送給分析模塊；步驟2、分析模塊對數(shù)據(jù)包進行會話重組和特征提取，并將得到的數(shù)據(jù)流發(fā)送至訓練模塊和DPI識別模塊，將提取出的特征傳送至SVM分類模塊；步驟3、訓練模塊對獲得的數(shù)據(jù)流進行訓練，并將得到的特征發(fā)送給SVM分類模塊；步驟4、DPI識別模塊將接收到的數(shù)據(jù)流通過特征匹配進行識別，并且在特征匹配的過程中再次對數(shù)據(jù)流進行特征提取，將提取的特征發(fā)送給SVM分類模塊，同時標識該數(shù)據(jù)流是否需要重新識別，如果是，則進入步驟5，否則將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫，轉(zhuǎn)步驟6 ；步驟5、DPI識別模塊將需要重新識別的數(shù)據(jù)流發(fā)送給SVM分類模塊，SVM分類模塊根據(jù)其得到的特征對數(shù)據(jù)流進行分類，并將數(shù)據(jù)流發(fā)送至數(shù)據(jù)庫，轉(zhuǎn)步驟6 ；步驟6、數(shù)據(jù)庫將得到的數(shù)據(jù)流進行結(jié)果統(tǒng)計。
全文摘要
本發(fā)明提供一種基于DPI和SVM技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法，其將DPI識別技術(shù)和SVM識別技術(shù)結(jié)合在一起，首先在網(wǎng)絡上捕獲數(shù)據(jù)包，提取常見特征后，將數(shù)據(jù)流通過DPI識別，然后在DPI識別過程中加入提取特征模塊，最后將該特征和之前提取的常見特征整合一起作為SVM的特征輸入對數(shù)據(jù)流進行分類。本發(fā)明特別適用于用于中小型局域網(wǎng)，將網(wǎng)絡中流經(jīng)的數(shù)據(jù)精細的呈現(xiàn)出來，方便網(wǎng)絡管理員了解網(wǎng)絡數(shù)據(jù)流的組成，提高網(wǎng)絡管理的質(zhì)量和效率。
文檔編號H04L12/24GK102739457SQ20121025516
公開日2012年10月17日申請日期2012年7月23日優(yōu)先權(quán)日2012年7月23日
發(fā)明者杜瑞穎, 裴凱, 陳晶申請人:武漢大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳晶;杜瑞穎;裴凱
技術(shù)所有人：武漢大學
我是此專利的發(fā)明人

上一篇：一種無線傳感器網(wǎng)絡信道資源多級分配方法
上一篇：一種基于手機的靜音開機處理方法及手機的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網(wǎng)絡流量控制技術(shù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于dpi和svm技術(shù)的網(wǎng)絡流量識別系統(tǒng)及方法