一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法

文檔序號：7926749閱讀：271來源：國知局

專利名稱：一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法
技術(shù)領域：
本發(fā)明屬于網(wǎng)絡安全技術(shù)領域，特別是涉及一種提取網(wǎng)絡中未知應用層協(xié)議的關(guān)鍵詞的技術(shù)。
背景技術(shù)：
網(wǎng)絡中的新應用和攻擊層出不窮，許多都沒有標準文檔可查?，F(xiàn) 有方法都是通過人工對未知應用層數(shù)據(jù)進行分析，以發(fā)現(xiàn)它的某些字符串特征。要分析其應用層協(xié)議過程則是更困難的問題。采用數(shù)據(jù)挖掘的方法來提取未知應用層數(shù)據(jù)中包含的頻繁項集，就使得可以通過自動的方法來發(fā)現(xiàn)未知應用的關(guān)鍵詞集，以及利用挖掘出來的關(guān)鍵詞集，研究分析未知應用層協(xié)議的執(zhí)行過程。進一步，則可以利用獲得的關(guān)鍵詞集來識別應用、描述未知應用會話過程及其行為，從而實現(xiàn) 對應用的分類控制和對應用過程的分階段控制。
但常用的數(shù)據(jù)挖掘方法不能夠有效地應用于對未知應用的關(guān)鍵詞提取，原因是數(shù)據(jù)挖掘方法中必須的支持度不好確定，因為各關(guān)鍵詞出現(xiàn)的頻繁程度不一樣，無法用同一個支持度來確定。如果支持度設置過高，則挖掘出來的字符串比實際的關(guān)鍵詞短；支持度設置過低，則挖掘出來的字符串比實際的關(guān)鍵詞長。另外，應用層數(shù)據(jù)內(nèi)容中頻繁出現(xiàn)的詞匯，也容易被混淆為關(guān)鍵詞
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種未知應用的關(guān) 鍵詞提取方法。利用該方法使得網(wǎng)絡可以用比現(xiàn)有技術(shù)更有效的方式，獲取未知應用的關(guān)鍵詞集。利用所獲得的關(guān)鍵詞集可以對未知應用進行行為分析、特征識別、過程跟蹤，從而實現(xiàn)對應用的有區(qū)別的控制和跟蹤，例如流量管理、安全檢測與防御等。
為了實現(xiàn)發(fā)明目的，采用的技術(shù)方案如下
一種未知應用的關(guān)鍵詞提取方法，它通過采集未知應用在會話過程中傳輸?shù)膱笪?，獲得會話樣本，并由大量的會話樣本構(gòu)成樣本集；通過對樣本集中字符的位置進行標注，體現(xiàn)關(guān)鍵詞在會話過程中的作用和在報文中的位置屬性；通過計算關(guān)鍵詞在樣本集中的通用度和支持度，確定關(guān)鍵詞的廣泛適用性和出現(xiàn)的頻繁程度；
樣本集構(gòu)成方法是它通過網(wǎng)絡采集同一種未知應用的樣本，組成樣本集，其中每一個樣本都是這種應用的一個會話記錄；每個會話記錄都包含至少2個報文，每個報文都只保留應用層數(shù)據(jù)，沒有應用層數(shù)據(jù)的報文不予保留，少于2個報文的會話記錄也不予保留。
把樣本集中的會話樣本進一步分為樣本子集，每個樣本子集所包含的會話樣本具有共同點對于客戶機一服務器模式的應用，該樣本子集中所有的會話均具有相同的服務器IP地址和端口號；而對于P2P 模式的應用，該樣本子集中所有的會話均發(fā)生在一組給定的IP地址之間。
對樣本集中的字符進行標注的方法是，通過把樣本集中的字符位置標注為字符的下標，使得具有相同下標的字符具有相同的屬性，其意義為，帶下標的字符A二A，當且僅當^^且/=/;具體方法如下設字符C在一個會話樣本中的位置為由前向后數(shù)處于第/個報文的第&個字符位置，由后向前數(shù)處于倒數(shù)第J'個報文的倒數(shù)第/個
字符位置，則給字符c分別添加下標使之成為Co， q， G， G， G，
Q，,)， Cc C(,，,)， CM);由此把樣本集分別映射為樣本集O，樣本集 1，...，樣本集8;其中，樣本集O用于找到任意位置出現(xiàn)的關(guān)鍵詞，樣本集1用于找到會話結(jié)束時最后出現(xiàn)的關(guān)鍵詞，樣本集2用于找到
會話開始時常出現(xiàn)的關(guān)鍵詞，樣本集3用于找到報文結(jié)尾標識字符串，樣本集4用于找到報文開始若個字節(jié)包含的關(guān)鍵詞，樣本集5用于找到會話結(jié)尾幾個報文的結(jié)尾字符串，樣本集6用于找到會話結(jié)尾幾個報文的起始關(guān)鍵詞，樣本集7用于找到會話開始幾個報文的結(jié)尾字符串，樣本集8用于找到會話開始幾個報文中起始的關(guān)鍵詞。
把應用層協(xié)議的關(guān)鍵詞、類型碼、狀態(tài)碼、定界符等協(xié)議過程和報文格式所需要的字符串統(tǒng)稱為關(guān)鍵詞；提取關(guān)鍵詞的依據(jù)是一個字符串在樣本集中出現(xiàn)的頻繁程度；它包括支持度和通用度支持度定
義為在給定通用度條件下，在樣本集中包含給定字符串的會話的個數(shù)，即如果該字符串在一個會話的至少一個報文中存在，則它的支持度加1;通用度定義為在樣本集中包含給定字符串的樣本子集的個數(shù)，即如果該字符串在一個樣本子集的至少一個會話中存在，則它的通用度加l;如果給定通用度為"，支持度為m〉m則給定字符串必須屬于m個會話樣本，這m個會話樣本必須屬于n個不同的樣本子集；當樣本集中樣本子集的個數(shù)為iV時，求通用度至少"=iV且支持度至少m〉AA的關(guān)鍵詞集的方法具體如下對于每個樣本集/， for/=0, 1,…，8
1) 求l-string頻繁項集計算每一個帶下標字符在樣本集/中的通用度和支持度；當它的通用度大于等于"且支持度大于等于m時，把它列入1-string頻繁項集；
2) 再由k-string頻繁項集求(k+l)-string頻繁項集(k^l):對于 k-string頻繁項集中的任意兩項A和B，如果A的后(k-l)-string (當 k=l時為null)與B的前(k-l)-string (當k=l時為null)相同，則把A 和B合成一個待選的(k+l)-string ，即把A二a(b山2…bw)與 B氣b!b2…bw)c合成a(b山2…bk-0c，然后計算該(k+l)-string在樣本集f 中的通用度和支持度；當它的通用度大于等于n且支持度大于等于w 時，把它列入(k+l)-string頻繁項集；循環(huán)，直到?jīng)]有更長頻繁項為止；
3) 把所求得的l-string頻繁項集、2-string頻繁項集、...，合成一個關(guān)鍵詞集/。
最后對關(guān)鍵詞進行篩選。具體方法如下令關(guān)鍵詞集/具有級別 /, for /=0, 1, ..., 8;級別0最低，級別8最高;把關(guān)鍵詞集z'， for /=0, 1,...,
8合成一個關(guān)鍵詞集；然后，刪除關(guān)鍵詞集中屬于其它項的子字符串的項，即如果A是B的子字符串，當A與B同級別或者比B的級別低時，刪除A;否則刪除B;
本發(fā)明通過對未知應用層數(shù)據(jù)的字符位置進行標注，使得可以從采集的大量未知應用層數(shù)據(jù)中，找到會話開始或結(jié)束時出現(xiàn)的關(guān)鍵詞、報文開始或結(jié)尾的關(guān)鍵詞、以及在報文中間出現(xiàn)的關(guān)鍵詞。通過限定待選字符串的通用度和支持度，避免那些在某一個網(wǎng)站大量出現(xiàn) 的專有字符串或者詞匯被誤以為通用的應用層協(xié)議的關(guān)鍵詞，從而克服了常用數(shù)據(jù)挖掘方法的不足。挖掘出來的關(guān)鍵詞集可應用于對網(wǎng)絡中未知應用會話過程的特征分析，并通過獲取的會話過程特征，實現(xiàn)
對應用的分類和細粒度的控制，進而實現(xiàn)多種應用系統(tǒng)，例如QoS
保證、有區(qū)分的服務、帶寬共享、分類速率控制和過濾、網(wǎng)絡入侵防御、異常流過濾等。

圖1為本發(fā)明的一個實施例的流程圖2為一個會話樣本的報文序列的示例圖3為一個字符在會話及報文中按時間順序及倒數(shù)順序編號示意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明做進一步的說明。
本發(fā)明采用數(shù)據(jù)挖掘的方法，從未知應用的應用層數(shù)據(jù)中提取關(guān) 鍵詞。
一個具體的實施方法如圖l所示，它包括以下步驟 1.采集樣本
從同一種未知應用采集樣本，組成樣本集，其中每一個樣本都是
這種應用的一個會話(session)記錄；把這些會話樣本進一步分為樣本
子集，每個樣本子集所包含的會話樣本應該具有共同點，例如對于客戶機一服務器模式的應用，該樣本子集中所有的會話均具有相同的服
務器IP地址和端口號；而對于P2P模式的應用，該樣本子集中所有的會話均發(fā)生在一組給定的IP地址之間。設樣本集中共有A^1個樣本子集，iWWV個會話樣本。為了使得樣本集反映未知應用的應用層協(xié)議的全部情況，設樣本集至少有2個樣本子集，每個樣本子集中至少有10個會話樣本。
每個會話樣本都包含至少2個報文^,^2,...，如圖2所示，其中下標代表每個報文被觀測到的時間順序；這些報文包括從會話的A 端到B端傳輸?shù)膱笪暮蛷腂端到A端傳輸?shù)膱笪?，它們按觀測到的時間順序交錯在一起；但這些報文中不包含沒有應用層數(shù)據(jù)的報文；對于同方向傳輸?shù)摹⒅虚g沒有夾雜另一方向報文的多個報文，按順序組成一個大報文并用同一個下標來標記。
2.對樣本集中的字符位置進行標注
許多情況下，報文的開始幾個字節(jié)就是關(guān)鍵詞或關(guān)鍵代碼，報文的結(jié)尾幾個字節(jié)在某些協(xié)議中是結(jié)尾標志；對于按固定字段劃分的報文格式，報文的中間也可以按位置找到關(guān)鍵字段。所以，需要對字符進行標記，即增加下標，使得具有相同下標的字符具有相同的屬性。
這使得對于帶下標的字符A和A，只有當^=^且/=/時，才有A二 5/。設字符在會話及報文中的位置如圖3所示，則標記字符的方法具體如下
1) 把樣本集中所有字符C都加上一個下標O，使得字符與其所在位置沒有關(guān)系，由此得到樣本集0;
2) 把樣本集中所有字符C都按照它在會話結(jié)束時的順序來進行
劃分:如果該字符在會話樣本中處于由后向前數(shù)的倒數(shù)第y個報文中，則加上下標y，變成q.;由此得到樣本集l;用于找到會話結(jié)束時按順序出現(xiàn)的關(guān)鍵詞；
3) 把樣本集中所有字符C都按照它在會話開始時出現(xiàn)的順序來進行劃分:如果該字符在會話樣本中處于由前向后數(shù)的第/個報文中，則加上下標/，變成C,.;由此得到樣本集2;用于找到會話開始時按順序出現(xiàn)的關(guān)鍵詞；
4) 把樣本集中所有字符C都按照它在報文結(jié)束時的位置來進行劃分如果該字符在報文中處于由后向前數(shù)的倒數(shù)第/個字符位置，則加上下標/，變成C/;由此得到樣本集3;用于找到報文的結(jié)尾字符串；
5) 把樣本集中所有字符C都按照它在報文開始時的位置來進行劃分如果該字符在報文中處于由前向后數(shù)的第A個字符位置，則加上下標A:，變成CV;由此得到樣本集4;用于找到報文開始幾個字節(jié) 包含的關(guān)鍵詞；
6) 把樣本集中所有字符C都按照它在會話結(jié)束時的報文的結(jié)尾
位置來進行劃分如果該字符由后向前數(shù)處于會話樣本中的倒數(shù)第y
個報文中的倒數(shù)第/個字符位置，則加上下標(/，/)，變成Q;，,)；由此得到樣本集5;用于找到會話結(jié)束幾個報文的結(jié)尾字符串；
7) 把樣本集中所有字符C都按照它在會話結(jié)束時的報文的起始
位置來進行劃分如果該字符由后向前數(shù)處于會話樣本中的倒數(shù)第y
個報文中的由前向后數(shù)第A個字符位置，則加上下標(/， Q，變成Q^); 由此得到樣本集6;用于找到會話結(jié)尾幾個報文的起始的關(guān)鍵詞；8) 把樣本集中所有字符C都按照它在會話開始時的報文的結(jié)尾
位置進行劃分如果該字符由前向后數(shù)處于會話樣本中的第/個報文中的由后向前數(shù)的倒數(shù)第/個字符位置，則加上下標(/,/)，變成C(,，/); 由此得到樣本集7;用于找到會話開始幾個報文的結(jié)尾字符串；
9) 把樣本集中所有字符C都按照它在會話開始時的報文的開始位置來進行劃分如果該字符由前向后數(shù)處于會話樣本中的第/個報
文中的第/t個字符位置，則加上下標a&)，變成C(a);由此得到樣本
集8;用于找到會話開始幾個報文中開始幾個字節(jié)的關(guān)鍵詞； 3.提取關(guān)鍵詞
把應用層協(xié)議的關(guān)鍵詞、類型碼、狀態(tài)碼、定界符等協(xié)議過程和報文格式所需要的字符串統(tǒng)稱為關(guān)鍵詞。
把通用度定義為在樣本集中包含給定字符串的樣本子集的個數(shù)；把支持度定義為在給定通用度條件下，在樣本集中包含給定字符串的會話的個數(shù)，即如果給定通用度為"，支持度為w，則這m個會話樣本必須屬于"個不同的樣本子集。
設樣本集中樣本子集的個數(shù)為W，會話的個數(shù)為M，則求通用度至少"且支持度至少m的關(guān)鍵詞集的方法具體如下
對于給定樣本集/:
1)求l-String頻繁項集計算每一個帶下標字符在樣本集f'中的通用度和支持度如果它在一個會話的至少一個報文中存在，則它的支持度加l;如果它在一個樣本子集的至少一個會話中存在，則它的通用度加l;當它的通用度大于等于"且支持度大于等于w時，把它列入l-string頻繁項集；
2) 再由k-string頻繁項集求(k+l)-string頻繁項集(k^l):對于 k-string頻繁項集中的任意兩項A和B，如果A的后(k-l)-string (當 k=l時為null)與B的前(k-l)-string (當k=l時為null)相同，則把A 和B合成一個待選的(k+l)-string ，例如把A:a(b山2…bk-!)與 B-(b山2…bw)c合成a(b山2…bw)c，然后計算該(k+l)-string在樣本集/ 中的通用度和支持度；當它的通用度大于等于《且支持度大于等于m 時，把它列入(k+l)-string頻繁項集；如此進行，直到?jīng)]有更長頻繁項為止，設最長頻繁項的長度為K;
3) 把1-string頻繁項集、2-string頻繁項集、…、K-string頻繁項集，合成一個關(guān)鍵詞集/。
類似地求出所有的關(guān)鍵詞集"for M), 1, ...， 8。 4.篩選關(guān)鍵詞以得到關(guān)鍵詞集
篩選關(guān)鍵詞的基本考慮是，一個關(guān)鍵詞的子字符串通常都不會是關(guān)鍵詞；另外，被位置限定越多的字符串，如果是頻繁項，就越有可能是關(guān)鍵詞；而越是自由位置的頻繁項，越有可能與其它頻繁出現(xiàn)的詞匯相混淆。所以，具體篩選方法如下
1) 令關(guān)鍵詞集/具有級別/,for片0，l，…，8;級別0最低，級別 8最高；把關(guān)鍵詞集/, for /=0, 1， ...， 8合成一個關(guān)鍵詞集；
2) 刪除關(guān)鍵詞集中屬于其它項的子字符串的項設A是B的子字符串，如果A與B同級別或者比B的級別低，則刪除A;如果A 比B的級別高，則刪除B。
權(quán)利要求
1、一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法，其特征在于通過采集未知應用在會話過程中傳輸?shù)膱笪?，獲得會話樣本，并由大量的會話樣本構(gòu)成樣本集；對樣本集中構(gòu)成關(guān)鍵詞的字符或字符串進行標注，再計算標注好的字符或字符串在樣本集中的通用度和支持度，即該字符或字符串的廣泛適用性和出現(xiàn)的頻繁程度，從而確定關(guān)鍵詞集合。
2、根據(jù)權(quán)利要求1所述的一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法，其特征在于所述的樣本集構(gòu)成方法，通過網(wǎng)絡采集同一種未知應用的會話樣本，組成樣本集，其中每一個樣本都是這種應用的一個會話記錄；每個會話記錄都包含至少2個報文，每個報文都只保留應用層數(shù) 據(jù)。
3、根據(jù)權(quán)利要求2所述的網(wǎng)絡未知應用的關(guān)鍵詞提取方法，其特征在于把樣本集中的會話樣本進一步分為樣本子集，每個樣本子集所包含的會話樣本具有共同點。
4、根據(jù)權(quán)利要求1或2或3所述的網(wǎng)絡未知應用的關(guān)鍵詞提取方法，其特征在于對樣本集中的字符進行標注的方法，它通過把樣本集中的字符位置標注為字符的下標，使得具有相同下標的字符具有相同的屬性，即當且僅當^=^且/=7'時，帶下標的字符A二A，具體標注方法如下設字符C在一個會話樣本中的位置為由前向后數(shù)處于第/個報文的第A個字符位置，由后向前數(shù)處于倒數(shù)第/個報文的倒數(shù)第/個字符位置，則給字符C分別添加下標使之成為Q)， G， G， G， G，Cc C(,，,)， C(U);由此把樣本集分別映射為樣本集O，樣本集1，...，樣本集8，即樣本集/， for/=0, 1,…，8。
5、根據(jù)權(quán)利要求4所述的網(wǎng)絡未知應用的關(guān)鍵詞提取方法，其特征在于所述的關(guān)鍵詞定義為應用層協(xié)議在協(xié)議過程和報文格式所需要的字符串，包括關(guān)鍵詞、或類型碼、或狀態(tài)碼、或定界符；提取關(guān)鍵詞依據(jù)支持度和通用度，所述通用度為在樣本集中包含給定字符或字符串的樣本子集的個數(shù)，所述支持度為在給定通用度條件下，在樣本集中包含給定字符或字符串的會話的個數(shù)。
6、根據(jù)權(quán)利要求5所述的網(wǎng)絡未知應用的關(guān)鍵詞提取方法，其特征在于確定關(guān)鍵詞集的方法具體為對于每個樣本集/，for片0, 1,8，當樣本集中樣本子集的個數(shù)為iV時，求通用度至少":iV且支持度至少附>7^的步驟如下1) 求l-string頻繁項集計算每一個帶下標字符在樣本集/中的通用度和支持度；當它的通用度大于等于"且支持度大于等于w時，把它列入l-string頻繁項集；2) 再由k-string頻繁項集求(k+l)-string頻繁項集(k^l):對于 k-string頻繁項集中的任意兩項A禾B B，如果A的后(k-l)-string與B 的前(k-l)-string相同，則把A和B合成一個待選的(k+l)-string，然后計算該(k+l)-string在樣本集/中的通用度和支持度；當它的通用度大于等于n且支持度大于等于m時，把它列入(k+l)-string頻繁項集；如此進行，直到?jīng)]有更長頻繁項為止；3) 把所求得的所有頻繁項集合成一個關(guān)鍵詞集/。
7、根據(jù)權(quán)利要求6所述的一種網(wǎng)絡應用的關(guān)鍵詞提取方法，其特征在于還包括篩選關(guān)鍵詞，具體篩選方法如下令關(guān)鍵詞集/具有級別/, for /=0, 1,…，8;級別0最低，級別8 最高；把關(guān)鍵詞集z',forM), 1，...，8合成一個關(guān)鍵詞集；然后，刪除關(guān)鍵詞集中屬于其它項的子字符串的項，即如果A是B的子字符串，當A與B同級別或者比B的級別低時，刪除A;否則刪除B。
全文摘要
本發(fā)明提供一種從未知應用層數(shù)據(jù)中提取應用層協(xié)議關(guān)鍵詞的方法，它通過標注字符在會話和報文中的位置，以及定義字符串的通用度和支持度，來實現(xiàn)關(guān)鍵詞的數(shù)據(jù)挖掘。本發(fā)明所提取的關(guān)鍵詞集可以用于對未知應用的特征分析和類型識別，并在識別的基礎上實現(xiàn)對應用的分類控制，包括基于內(nèi)容的服務、分類速率控制、異常流過濾等。
文檔編號H04L9/36GK101488861SQ20081022018
公開日2009年7月22日申請日期2008年12月19日優(yōu)先權(quán)日2008年12月19日
發(fā)明者余順爭申請人:中山大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余順爭
技術(shù)所有人：中山大學
我是此專利的發(fā)明人

上一篇：一種網(wǎng)絡成分協(xié)調(diào)控制方法
上一篇：一種基于關(guān)鍵詞序列的應用識別與跟蹤方法

該領域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

關(guān)鍵詞提取相關(guān)技術(shù)

關(guān)鍵詞提取工具相關(guān)技術(shù)

關(guān)鍵詞提取算法相關(guān)技術(shù)

光年關(guān)鍵詞提取工具相關(guān)技術(shù)

文章關(guān)鍵詞提取相關(guān)技術(shù)

文本關(guān)鍵詞提取相關(guān)技術(shù)

文章關(guān)鍵詞提取工具相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法