欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法

文檔序號:7926749閱讀:271來源:國知局
專利名稱:一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法
技術(shù)領域
本發(fā)明屬于網(wǎng)絡安全技術(shù)領域,特別是涉及一種提取網(wǎng)絡中未知 應用層協(xié)議的關(guān)鍵詞的技術(shù)。
背景技術(shù)
網(wǎng)絡中的新應用和攻擊層出不窮,許多都沒有標準文檔可查?,F(xiàn) 有方法都是通過人工對未知應用層數(shù)據(jù)進行分析,以發(fā)現(xiàn)它的某些字 符串特征。要分析其應用層協(xié)議過程則是更困難的問題。采用數(shù)據(jù)挖 掘的方法來提取未知應用層數(shù)據(jù)中包含的頻繁項集,就使得可以通過 自動的方法來發(fā)現(xiàn)未知應用的關(guān)鍵詞集,以及利用挖掘出來的關(guān)鍵詞 集,研究分析未知應用層協(xié)議的執(zhí)行過程。進一步,則可以利用獲得 的關(guān)鍵詞集來識別應用、描述未知應用會話過程及其行為,從而實現(xiàn) 對應用的分類控制和對應用過程的分階段控制。
但常用的數(shù)據(jù)挖掘方法不能夠有效地應用于對未知應用的關(guān)鍵 詞提取,原因是數(shù)據(jù)挖掘方法中必須的支持度不好確定,因為各關(guān)鍵 詞出現(xiàn)的頻繁程度不一樣,無法用同一個支持度來確定。如果支持度 設置過高,則挖掘出來的字符串比實際的關(guān)鍵詞短;支持度設置過低, 則挖掘出來的字符串比實際的關(guān)鍵詞長。另外,應用層數(shù)據(jù)內(nèi)容中頻 繁出現(xiàn)的詞匯,也容易被混淆為關(guān)鍵詞
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種未知應用的關(guān) 鍵詞提取方法。利用該方法使得網(wǎng)絡可以用比現(xiàn)有技術(shù)更有效的方 式,獲取未知應用的關(guān)鍵詞集。利用所獲得的關(guān)鍵詞集可以對未知應 用進行行為分析、特征識別、過程跟蹤,從而實現(xiàn)對應用的有區(qū)別的 控制和跟蹤,例如流量管理、安全檢測與防御等。
為了實現(xiàn)發(fā)明目的,采用的技術(shù)方案如下
一種未知應用的關(guān)鍵詞提取方法,它通過采集未知應用在會話過 程中傳輸?shù)膱笪?,獲得會話樣本,并由大量的會話樣本構(gòu)成樣本集; 通過對樣本集中字符的位置進行標注,體現(xiàn)關(guān)鍵詞在會話過程中的作 用和在報文中的位置屬性;通過計算關(guān)鍵詞在樣本集中的通用度和支 持度,確定關(guān)鍵詞的廣泛適用性和出現(xiàn)的頻繁程度;
樣本集構(gòu)成方法是它通過網(wǎng)絡采集同一種未知應用的樣本,組 成樣本集,其中每一個樣本都是這種應用的一個會話記錄;每個會話 記錄都包含至少2個報文,每個報文都只保留應用層數(shù)據(jù),沒有應用 層數(shù)據(jù)的報文不予保留,少于2個報文的會話記錄也不予保留。
把樣本集中的會話樣本進一步分為樣本子集,每個樣本子集所包 含的會話樣本具有共同點對于客戶機一服務器模式的應用,該樣本 子集中所有的會話均具有相同的服務器IP地址和端口號;而對于P2P 模式的應用,該樣本子集中所有的會話均發(fā)生在一組給定的IP地址 之間。
對樣本集中的字符進行標注的方法是,通過把樣本集中的字符位 置標注為字符的下標,使得具有相同下標的字符具有相同的屬性,其意義為,帶下標的字符A二A,當且僅當^^且/=/;具體方法如下 設字符C在一個會話樣本中的位置為由前向后數(shù)處于第/個報 文的第&個字符位置,由后向前數(shù)處于倒數(shù)第J'個報文的倒數(shù)第/個
字符位置,則給字符c分別添加下標使之成為Co, q, G, G, G,
Q,,), Cc C(,,,), CM);由此把樣本集分別映射為樣本集O,樣本集 1,...,樣本集8;其中,樣本集O用于找到任意位置出現(xiàn)的關(guān)鍵詞, 樣本集1用于找到會話結(jié)束時最后出現(xiàn)的關(guān)鍵詞,樣本集2用于找到
會話開始時常出現(xiàn)的關(guān)鍵詞,樣本集3用于找到報文結(jié)尾標識字符 串,樣本集4用于找到報文開始若個字節(jié)包含的關(guān)鍵詞,樣本集5用 于找到會話結(jié)尾幾個報文的結(jié)尾字符串,樣本集6用于找到會話結(jié)尾 幾個報文的起始關(guān)鍵詞,樣本集7用于找到會話開始幾個報文的結(jié)尾 字符串,樣本集8用于找到會話開始幾個報文中起始的關(guān)鍵詞。
把應用層協(xié)議的關(guān)鍵詞、類型碼、狀態(tài)碼、定界符等協(xié)議過程和 報文格式所需要的字符串統(tǒng)稱為關(guān)鍵詞;提取關(guān)鍵詞的依據(jù)是一個字 符串在樣本集中出現(xiàn)的頻繁程度;它包括支持度和通用度支持度定
義為在給定通用度條件下,在樣本集中包含給定字符串的會話的個 數(shù),即如果該字符串在一個會話的至少一個報文中存在,則它的支持 度加1;通用度定義為在樣本集中包含給定字符串的樣本子集的個數(shù), 即如果該字符串在一個樣本子集的至少一個會話中存在,則它的通用 度加l;如果給定通用度為",支持度為m〉m則給定字符串必須屬 于m個會話樣本,這m個會話樣本必須屬于n個不同的樣本子集; 當樣本集中樣本子集的個數(shù)為iV時,求通用度至少"=iV且支持度至少m〉AA的關(guān)鍵詞集的方法具體如下 對于每個樣本集/, for/=0, 1,…,8
1) 求l-string頻繁項集計算每一個帶下標字符在樣本集/中的 通用度和支持度;當它的通用度大于等于"且支持度大于等于m時, 把它列入1-string頻繁項集;
2) 再由k-string頻繁項集求(k+l)-string頻繁項集(k^l):對于 k-string頻繁項集中的任意兩項A和B,如果A的后(k-l)-string (當 k=l時為null)與B的前(k-l)-string (當k=l時為null)相同,則把A 和B合成 一 個待選的(k+l)-string ,即把A二a(b山2…bw)與 B氣b!b2…bw)c合成a(b山2…bk-0c,然后計算該(k+l)-string在樣本集f 中的通用度和支持度;當它的通用度大于等于n且支持度大于等于w 時,把它列入(k+l)-string頻繁項集;循環(huán),直到?jīng)]有更長頻繁項為止;
3) 把所求得的l-string頻繁項集、2-string頻繁項集、...,合成 一個關(guān)鍵詞集/。
最后對關(guān)鍵詞進行篩選。具體方法如下令關(guān)鍵詞集/具有級別 /, for /=0, 1, ..., 8;級別0最低,級別8最高;把關(guān)鍵詞集z', for /=0, 1,...,
8合成一個關(guān)鍵詞集;然后,刪除關(guān)鍵詞集中屬于其它項的子字符串 的項,即如果A是B的子字符串,當A與B同級別或者比B的級別 低時,刪除A;否則刪除B;
本發(fā)明通過對未知應用層數(shù)據(jù)的字符位置進行標注,使得可以從 采集的大量未知應用層數(shù)據(jù)中,找到會話開始或結(jié)束時出現(xiàn)的關(guān)鍵 詞、報文開始或結(jié)尾的關(guān)鍵詞、以及在報文中間出現(xiàn)的關(guān)鍵詞。通過限定待選字符串的通用度和支持度,避免那些在某一個網(wǎng)站大量出現(xiàn) 的專有字符串或者詞匯被誤以為通用的應用層協(xié)議的關(guān)鍵詞,從而克 服了常用數(shù)據(jù)挖掘方法的不足。挖掘出來的關(guān)鍵詞集可應用于對網(wǎng)絡 中未知應用會話過程的特征分析,并通過獲取的會話過程特征,實現(xiàn)
對應用的分類和細粒度的控制,進而實現(xiàn)多種應用系統(tǒng),例如QoS
保證、有區(qū)分的服務、帶寬共享、分類速率控制和過濾、網(wǎng)絡入侵防 御、異常流過濾等。


圖1為本發(fā)明的一個實施例的流程圖2為一個會話樣本的報文序列的示例圖3為一個字符在會話及報文中按時間順序及倒數(shù)順序編號示 意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明做進一步的說明。
本發(fā)明采用數(shù)據(jù)挖掘的方法,從未知應用的應用層數(shù)據(jù)中提取關(guān) 鍵詞。
一個具體的實施方法如圖l所示,它包括以下步驟 1.采集樣本
從同一種未知應用采集樣本,組成樣本集,其中每一個樣本都是
這種應用的一個會話(session)記錄;把這些會話樣本進一步分為樣本
子集,每個樣本子集所包含的會話樣本應該具有共同點,例如對于客 戶機一服務器模式的應用,該樣本子集中所有的會話均具有相同的服
務器IP地址和端口號;而對于P2P模式的應用,該樣本子集中所有的會話均發(fā)生在一組給定的IP地址之間。設樣本集中共有A^1個樣 本子集,iWWV個會話樣本。為了使得樣本集反映未知應用的應用層 協(xié)議的全部情況,設樣本集至少有2個樣本子集,每個樣本子集中至 少有10個會話樣本。
每個會話樣本都包含至少2個報文^,^2,...,如圖2所示,其 中下標代表每個報文被觀測到的時間順序;這些報文包括從會話的A 端到B端傳輸?shù)膱笪暮蛷腂端到A端傳輸?shù)膱笪?,它們按觀測到的 時間順序交錯在一起;但這些報文中不包含沒有應用層數(shù)據(jù)的報文; 對于同方向傳輸?shù)摹⒅虚g沒有夾雜另一方向報文的多個報文,按順序 組成一個大報文并用同一個下標來標記。
2.對樣本集中的字符位置進行標注
許多情況下,報文的開始幾個字節(jié)就是關(guān)鍵詞或關(guān)鍵代碼,報文 的結(jié)尾幾個字節(jié)在某些協(xié)議中是結(jié)尾標志;對于按固定字段劃分的報 文格式,報文的中間也可以按位置找到關(guān)鍵字段。所以,需要對字符 進行標記,即增加下標,使得具有相同下標的字符具有相同的屬性。
這使得對于帶下標的字符A和A,只有當^=^且/=/時,才有A二 5/。設字符在會話及報文中的位置如圖3所示,則標記字符的方法具 體如下
1) 把樣本集中所有字符C都加上一個下標O,使得字符與其所 在位置沒有關(guān)系,由此得到樣本集0;
2) 把樣本集中所有字符C都按照它在會話結(jié)束時的順序來進行
劃分:如果該字符在會話樣本中處于由后向前數(shù)的倒數(shù)第y個報文中,則加上下標y,變成q.;由此得到樣本集l;用于找到會話結(jié)束時按 順序出現(xiàn)的關(guān)鍵詞;
3) 把樣本集中所有字符C都按照它在會話開始時出現(xiàn)的順序來 進行劃分:如果該字符在會話樣本中處于由前向后數(shù)的第/個報文中, 則加上下標/,變成C,.;由此得到樣本集2;用于找到會話開始時按 順序出現(xiàn)的關(guān)鍵詞;
4) 把樣本集中所有字符C都按照它在報文結(jié)束時的位置來進行 劃分如果該字符在報文中處于由后向前數(shù)的倒數(shù)第/個字符位置, 則加上下標/,變成C/;由此得到樣本集3;用于找到報文的結(jié)尾字 符串;
5) 把樣本集中所有字符C都按照它在報文開始時的位置來進行 劃分如果該字符在報文中處于由前向后數(shù)的第A個字符位置,則加 上下標A:,變成CV;由此得到樣本集4;用于找到報文開始幾個字節(jié) 包含的關(guān)鍵詞;
6) 把樣本集中所有字符C都按照它在會話結(jié)束時的報文的結(jié)尾
位置來進行劃分如果該字符由后向前數(shù)處于會話樣本中的倒數(shù)第y
個報文中的倒數(shù)第/個字符位置,則加上下標(/,/),變成Q;,,);由此 得到樣本集5;用于找到會話結(jié)束幾個報文的結(jié)尾字符串;
7) 把樣本集中所有字符C都按照它在會話結(jié)束時的報文的起始
位置來進行劃分如果該字符由后向前數(shù)處于會話樣本中的倒數(shù)第y
個報文中的由前向后數(shù)第A個字符位置,則加上下標(/, Q,變成Q^); 由此得到樣本集6;用于找到會話結(jié)尾幾個報文的起始的關(guān)鍵詞;8) 把樣本集中所有字符C都按照它在會話開始時的報文的結(jié)尾
位置進行劃分如果該字符由前向后數(shù)處于會話樣本中的第/個報文 中的由后向前數(shù)的倒數(shù)第/個字符位置,則加上下標(/,/),變成C(,,/); 由此得到樣本集7;用于找到會話開始幾個報文的結(jié)尾字符串;
9) 把樣本集中所有字符C都按照它在會話開始時的報文的開始 位置來進行劃分如果該字符由前向后數(shù)處于會話樣本中的第/個報
文中的第/t個字符位置,則加上下標a&),變成C(a);由此得到樣本
集8;用于找到會話開始幾個報文中開始幾個字節(jié)的關(guān)鍵詞; 3.提取關(guān)鍵詞
把應用層協(xié)議的關(guān)鍵詞、類型碼、狀態(tài)碼、定界符等協(xié)議過程和 報文格式所需要的字符串統(tǒng)稱為關(guān)鍵詞。
把通用度定義為在樣本集中包含給定字符串的樣本子集的個數(shù); 把支持度定義為在給定通用度條件下,在樣本集中包含給定字符串的 會話的個數(shù),即如果給定通用度為",支持度為w,則這m個會話樣 本必須屬于"個不同的樣本子集。
設樣本集中樣本子集的個數(shù)為W,會話的個數(shù)為M,則求通用度 至少"且支持度至少m的關(guān)鍵詞集的方法具體如下
對于給定樣本集/:
1)求l-String頻繁項集計算每一個帶下標字符在樣本集f'中的 通用度和支持度如果它在一個會話的至少一個報文中存在,則它的 支持度加l;如果它在一個樣本子集的至少一個會話中存在,則它的 通用度加l;當它的通用度大于等于"且支持度大于等于w時,把它列入l-string頻繁項集;
2) 再由k-string頻繁項集求(k+l)-string頻繁項集(k^l):對于 k-string頻繁項集中的任意兩項A和B,如果A的后(k-l)-string (當 k=l時為null)與B的前(k-l)-string (當k=l時為null)相同,則把A 和B合成 一 個待選的(k+l)-string ,例如把A:a(b山2…bk-!)與 B-(b山2…bw)c合成a(b山2…bw)c,然后計算該(k+l)-string在樣本集/ 中的通用度和支持度;當它的通用度大于等于《且支持度大于等于m 時,把它列入(k+l)-string頻繁項集;如此進行,直到?jīng)]有更長頻繁項 為止,設最長頻繁項的長度為K;
3) 把1-string頻繁項集、2-string頻繁項集、…、K-string頻繁項 集,合成一個關(guān)鍵詞集/。
類似地求出所有的關(guān)鍵詞集"for M), 1, ..., 8。 4.篩選關(guān)鍵詞以得到關(guān)鍵詞集
篩選關(guān)鍵詞的基本考慮是, 一個關(guān)鍵詞的子字符串通常都不會是 關(guān)鍵詞;另外,被位置限定越多的字符串,如果是頻繁項,就越有可 能是關(guān)鍵詞;而越是自由位置的頻繁項,越有可能與其它頻繁出現(xiàn)的 詞匯相混淆。所以,具體篩選方法如下
1) 令關(guān)鍵詞集/具有級別/,for片0,l,…,8;級別0最低,級別 8最高;把關(guān)鍵詞集/, for /=0, 1, ..., 8合成一個關(guān)鍵詞集;
2) 刪除關(guān)鍵詞集中屬于其它項的子字符串的項設A是B的子 字符串,如果A與B同級別或者比B的級別低,則刪除A;如果A 比B的級別高,則刪除B。
權(quán)利要求
1、一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法,其特征在于通過采集未知應用在會話過程中傳輸?shù)膱笪?,獲得會話樣本,并由大量的會話樣本構(gòu)成樣本集;對樣本集中構(gòu)成關(guān)鍵詞的字符或字符串進行標注,再計算標注好的字符或字符串在樣本集中的通用度和支持度,即該字符或字符串的廣泛適用性和出現(xiàn)的頻繁程度,從而確定關(guān)鍵詞集合。
2、 根據(jù)權(quán)利要求1所述的一種網(wǎng)絡未知應用的關(guān)鍵詞提取方法, 其特征在于所述的樣本集構(gòu)成方法,通過網(wǎng)絡采集同一種未知應用的 會話樣本,組成樣本集,其中每一個樣本都是這種應用的一個會話記 錄;每個會話記錄都包含至少2個報文,每個報文都只保留應用層數(shù) 據(jù)。
3、 根據(jù)權(quán)利要求2所述的網(wǎng)絡未知應用的關(guān)鍵詞提取方法,其 特征在于把樣本集中的會話樣本進一步分為樣本子集,每個樣本子集 所包含的會話樣本具有共同點。
4、 根據(jù)權(quán)利要求1或2或3所述的網(wǎng)絡未知應用的關(guān)鍵詞提取 方法,其特征在于對樣本集中的字符進行標注的方法,它通過把樣本 集中的字符位置標注為字符的下標,使得具有相同下標的字符具有相 同的屬性,即當且僅當^=^且/=7'時,帶下標的字符A二A,具體標 注方法如下設字符C在一個會話樣本中的位置為由前向后數(shù)處于第/個報 文的第A個字符位置,由后向前數(shù)處于倒數(shù)第/個報文的倒數(shù)第/個 字符位置,則給字符C分別添加下標使之成為Q), G, G, G, G,Cc C(,,,), C(U);由此把樣本集分別映射為樣本集O,樣本集1,...,樣本集8,即樣本集/, for/=0, 1,…,8。
5、 根據(jù)權(quán)利要求4所述的網(wǎng)絡未知應用的關(guān)鍵詞提取方法,其 特征在于所述的關(guān)鍵詞定義為應用層協(xié)議在協(xié)議過程和報文格式所 需要的字符串,包括關(guān)鍵詞、或類型碼、或狀態(tài)碼、或定界符;提取關(guān)鍵詞依據(jù)支持度和通用度,所述通用度為在樣本集中包含 給定字符或字符串的樣本子集的個數(shù),所述支持度為在給定通用度條 件下,在樣本集中包含給定字符或字符串的會話的個數(shù)。
6、 根據(jù)權(quán)利要求5所述的網(wǎng)絡未知應用的關(guān)鍵詞提取方法,其 特征在于確定關(guān)鍵詞集的方法具體為對于每個樣本集/,for片0, 1,8,當樣本集中樣本子集的個數(shù)為iV時,求通用度至少":iV且支持度 至少附>7^的步驟如下1) 求l-string頻繁項集計算每一個帶下標字符在樣本集/中的 通用度和支持度;當它的通用度大于等于"且支持度大于等于w時, 把它列入l-string頻繁項集;2) 再由k-string頻繁項集求(k+l)-string頻繁項集(k^l):對于 k-string頻繁項集中的任意兩項A禾B B,如果A的后(k-l)-string與B 的前(k-l)-string相同,則把A和B合成一個待選的(k+l)-string,然后 計算該(k+l)-string在樣本集/中的通用度和支持度;當它的通用度大 于等于n且支持度大于等于m時,把它列入(k+l)-string頻繁項集; 如此進行,直到?jīng)]有更長頻繁項為止;3) 把所求得的所有頻繁項集合成一個關(guān)鍵詞集/。
7、根據(jù)權(quán)利要求6所述的一種網(wǎng)絡應用的關(guān)鍵詞提取方法,其 特征在于還包括篩選關(guān)鍵詞,具體篩選方法如下令關(guān)鍵詞集/具有級別/, for /=0, 1,…,8;級別0最低,級別8 最高;把關(guān)鍵詞集z',forM), 1,...,8合成一個關(guān)鍵詞集;然后,刪除 關(guān)鍵詞集中屬于其它項的子字符串的項,即如果A是B的子字符串, 當A與B同級別或者比B的級別低時,刪除A;否則刪除B。
全文摘要
本發(fā)明提供一種從未知應用層數(shù)據(jù)中提取應用層協(xié)議關(guān)鍵詞的方法,它通過標注字符在會話和報文中的位置,以及定義字符串的通用度和支持度,來實現(xiàn)關(guān)鍵詞的數(shù)據(jù)挖掘。本發(fā)明所提取的關(guān)鍵詞集可以用于對未知應用的特征分析和類型識別,并在識別的基礎上實現(xiàn)對應用的分類控制,包括基于內(nèi)容的服務、分類速率控制、異常流過濾等。
文檔編號H04L9/36GK101488861SQ20081022018
公開日2009年7月22日 申請日期2008年12月19日 優(yōu)先權(quán)日2008年12月19日
發(fā)明者余順爭 申請人:中山大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
铅山县| 会昌县| 惠水县| 谢通门县| 宁强县| 吉水县| 酉阳| 永嘉县| 万山特区| 江西省| 西华县| 宕昌县| 奉化市| 固安县| 二手房| 五常市| 交口县| 象州县| 金溪县| 三门峡市| 民权县| 津市市| 四子王旗| 迭部县| 新竹市| 郯城县| 迁西县| 乐陵市| 连州市| 保康县| 威信县| 呼和浩特市| 屏东市| 渭南市| 木里| 汤阴县| 内乡县| 大田县| 丹东市| 乐安县| 庆安县|