欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法

文檔序號(hào):6518975閱讀:249來源:國(guó)知局
多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法
【專利摘要】本發(fā)明提供了一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡(jiǎn)化特征的一類特征向量機(jī)來檢測(cè)網(wǎng)絡(luò)流量中的敏感信息;多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法包括:首先識(shí)別數(shù)據(jù)包的網(wǎng)絡(luò)協(xié)議,進(jìn)行數(shù)據(jù)包重組、解碼、文本提取和復(fù)原;然后,對(duì)于復(fù)原的文本進(jìn)行分詞,使用特征簡(jiǎn)約算法提取特征向量,并進(jìn)行分類。特征簡(jiǎn)約算法分別包括基于文檔頻率方法、信息增益方法、開方擬和檢驗(yàn)方法。
【專利說明】多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)信息【技術(shù)領(lǐng)域】的方法,具體涉及一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,更具體涉及一種基于簡(jiǎn)化特征的一類特征向量機(jī)的檢測(cè)網(wǎng)絡(luò)流量中的敏感信息的方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)在近幾十年迅猛發(fā)展,使得網(wǎng)絡(luò)已經(jīng)成為了信息化的重要組成部分,然而隨之而來的卻是良莠不齊的信息充斥著互聯(lián)網(wǎng)空間。傳統(tǒng)的網(wǎng)絡(luò)流量敏感信息檢測(cè)方法只能檢測(cè)部分未編碼的或者非亂序的數(shù)據(jù)包,在檢測(cè)這部分信息也都是基于字符串匹配程序?qū)崿F(xiàn)的。但是隨著網(wǎng)絡(luò)服務(wù)的日益更新,傳統(tǒng)的文本敏感信息檢測(cè)方法已經(jīng)不能滿足時(shí)代的需求。傳統(tǒng)檢測(cè)方法的缺點(diǎn)主要體現(xiàn)在如下幾點(diǎn):
[0003]1、無法處理有編碼的或者亂序抵達(dá)的數(shù)據(jù)包
[0004]許多網(wǎng)絡(luò)協(xié)議為了壓縮傳輸數(shù)據(jù)大小,或者保證傳輸?shù)恼_率,往往使用約定的某些編碼方式來傳輸數(shù)據(jù)包。傳統(tǒng)的檢測(cè)信息并不能理解傳送雙方的協(xié)議格式,因此無法正確對(duì)數(shù)據(jù)進(jìn)行解碼。而對(duì)于由于網(wǎng)絡(luò)路徑的選擇不同而亂序,重復(fù)抵達(dá)的數(shù)據(jù)包,更是無法進(jìn)行重組以獲取原始信息。
[0005]2、全文匹配,浪費(fèi)資源
[0006]傳統(tǒng)技術(shù)對(duì)于進(jìn)入系統(tǒng)內(nèi)的文本進(jìn)行全文匹配才能得出其是否包含不良信息的結(jié)論,雖然研究人員為了優(yōu)化搜索難度,提出了 KMP算法,Boyer-Moore算法等,降低了系統(tǒng)處理的時(shí)間復(fù)雜度,但在最差的情況下,復(fù)雜度依然在O(m*n)。
[0007]3、不良特征需要預(yù)先定義
[0008]為了檢測(cè)出不良文本,傳統(tǒng)技術(shù)必須要預(yù)先定義需要被過濾的敏感信息,這就需要一個(gè)巨大的不良信息數(shù)據(jù)庫(kù)作為基礎(chǔ)。然而,一旦有新的不良信息出現(xiàn),數(shù)據(jù)庫(kù)的更新往往是滯后的,這就使得檢測(cè)系統(tǒng)沒有很好的實(shí)時(shí)性。
[0009]4、對(duì)于不良信息檢測(cè)的魯棒性不強(qiáng)
[0010]為了應(yīng)付檢測(cè)系統(tǒng),文本往往被構(gòu)造成與不良信息數(shù)據(jù)庫(kù)有略微差別,但是人可以識(shí)別的模式。例如使用空格將敏感詞語隔開,使用別字等,這個(gè)就為構(gòu)造不良信息數(shù)據(jù)庫(kù)構(gòu)成了難度。
[0011]雖然研究人員使用分類這一概念來解決這個(gè)海量數(shù)據(jù)挖掘的問題,提出了 一類支持向量機(jī)的模型,但是在實(shí)際應(yīng)用時(shí)卻存在一些不足。其中比較突出的一點(diǎn)就是維數(shù)爆炸。這是因?yàn)槲谋緝?nèi)包含的詞語量非常大,商務(wù)印書館出版的《現(xiàn)代漢語詞典》第5版(2005年5月出版),其中收錄了 65000個(gè)詞,使用如此高維度對(duì)存儲(chǔ)資源和計(jì)算能力是一種嚴(yán)重浪費(fèi)。

【發(fā)明內(nèi)容】

[0012]本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)中存在上述缺陷,提供一種基于簡(jiǎn)化特征的一類特征向量機(jī)的檢測(cè)網(wǎng)絡(luò)流量中的敏感信息的新方法,該方法能很好地解決數(shù)據(jù)傳統(tǒng)檢測(cè)方法面臨的問題。
[0013]為了實(shí)現(xiàn)上述技術(shù)目的,根據(jù)本發(fā)明,提供了一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡(jiǎn)化特征的一類特征向量機(jī)來檢測(cè)網(wǎng)絡(luò)流量中的敏感信息,其包括:首先識(shí)別數(shù)據(jù)包的網(wǎng)絡(luò)協(xié)議,進(jìn)行數(shù)據(jù)包重組、解碼、文本提取和復(fù)原;然后,對(duì)于復(fù)原的文本進(jìn)行分詞,使用特征簡(jiǎn)約算法提取特征向量,并進(jìn)行分類。
[0014]優(yōu)選地,特征向量為一些名詞和動(dòng)詞。
[0015]優(yōu)選地,特征簡(jiǎn)約算法分別包括基于文檔頻率方法、信息增益方法、開方擬和檢驗(yàn)方法。
[0016]優(yōu)選地,基于文檔頻率方法使用特征詞在一個(gè)類別中出現(xiàn)的文檔數(shù)量來表示這個(gè)特征詞與該類別的相關(guān)度,而且在某個(gè)類別中的越多的文檔中出現(xiàn)的特征詞被保留的可能性越大。
[0017]優(yōu)選地,信息增益方法通過計(jì)算系統(tǒng)引入該特征和未引入該特征的前后信息量的差值定義這個(gè)特征給系統(tǒng)帶來的信息量來作為其對(duì)檢測(cè)某個(gè)類別的依據(jù)。
[0018]優(yōu)選地,開方擬和檢驗(yàn)方法通過觀察實(shí)際值與理論值的偏差來確定假設(shè)該特征對(duì)系統(tǒng)有很大影響的假定是否正確。
[0019]根據(jù)本發(fā)明,提供了 一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡(jiǎn)化特征的一類特征向量機(jī)來檢測(cè)網(wǎng)絡(luò)流量中的敏感信息,其包括:
[0020]第一步,使用已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫(kù),對(duì)其進(jìn)行分詞,提取所有的名詞和動(dòng)詞作為候選特征向量;
[0021]第二步,使用特征簡(jiǎn)約算法對(duì)候選特征向量進(jìn)行提??;
[0022]第三步,使用一類支持向量機(jī)對(duì)已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,其中使用在第二步中從所有向量中提取出的特征向量,由此獲得分類的標(biāo)準(zhǔn);
[0023]第四步,確定數(shù)據(jù)包的傳輸協(xié)議,并根據(jù)RFC對(duì)于不同傳輸層和應(yīng)用層協(xié)議的定義來提取、復(fù)原文本信息;
[0024]第五步,對(duì)于第四步中的復(fù)原的文本信息,進(jìn)行分詞,特征向量提??;然后根據(jù)第三步中的訓(xùn)練結(jié)果使用SVM進(jìn)行分類,檢測(cè)其是否為不良文本。
[0025]優(yōu)選地,提取所有的名詞和動(dòng)詞作為候選特征向量。
[0026]優(yōu)選地,在第二步中,特征簡(jiǎn)約算法對(duì)候選特征向量進(jìn)行提取,其特征是只提取對(duì)于系統(tǒng)影響較大的特征向量,特征簡(jiǎn)約算法包括基于文檔頻率方法、信息增益方法、開方擬和檢驗(yàn)方法,具體為:
[0027](I)、基于文檔頻率方法
[0028]算法統(tǒng)計(jì)出所有數(shù)據(jù)庫(kù)中的非停詞的詞語出現(xiàn)頻率,然后根據(jù)出現(xiàn)頻率進(jìn)行排序,選擇出現(xiàn)最多的若干個(gè)作為特征詞供SVM算法進(jìn)行維度映射,具體選取的數(shù)量根據(jù)系統(tǒng)需要的精確率,其中首先對(duì)數(shù)據(jù)庫(kù)中的每一篇文章進(jìn)行分詞,只保留名詞和動(dòng)詞作為特征詞的備選詞,然后對(duì)每一個(gè)不存在于停詞表中的備選詞進(jìn)行數(shù)量統(tǒng)計(jì),記錄到頻率表中,最后,將頻率表中出現(xiàn)的備選詞根據(jù)出現(xiàn)數(shù)量的多少進(jìn)行排序,選擇前η個(gè)作為DF算法得到的特征詞,算法結(jié)束;
[0029](2)、信息增益方法[0030]對(duì)每一個(gè)預(yù)處理得到的備選詞進(jìn)行信息熵和條件熵的值的計(jì)算,在對(duì)每個(gè)備選詞進(jìn)行了引入熵值的計(jì)算值后,根據(jù)這個(gè)值從大到小來排序,選擇前η個(gè)作為IG算法得到的特征詞,算法結(jié)束;
[0031]其中,所述的信息熵,可以用如下公式計(jì)算
[0032]
【權(quán)利要求】
1.一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡(jiǎn)化特征的一類特征向量機(jī)來檢測(cè)網(wǎng)絡(luò)流量中的敏感信息,其特征在于包括:首先識(shí)別數(shù)據(jù)包的網(wǎng)絡(luò)協(xié)議,進(jìn)行數(shù)據(jù)包重組、解碼、文本提取和復(fù)原;然后,對(duì)于復(fù)原的文本進(jìn)行分詞,使用特征簡(jiǎn)約算法提取特征向量,并進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,特征向量為一些名詞和動(dòng)詞。
3.根據(jù)權(quán)利要求1或2所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,特征簡(jiǎn)約算法分別包括基于文檔頻率方法、信息增益方法、開方擬和檢驗(yàn)方法。
4.根據(jù)權(quán)利要求3所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,基于文檔頻率方法使用特征詞在一個(gè)類別中出現(xiàn)的文檔數(shù)量來表示這個(gè)特征詞與該類別的相關(guān)度,而且在某個(gè)類別中的越多的文檔中出現(xiàn)的特征詞被保留的可能性越大。
5.根據(jù)權(quán)利要求3所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,信息增益方法通過計(jì)算系統(tǒng)引入該特征和未引入該特征的前后信息量的差值定義這個(gè)特征給系統(tǒng)帶來的信息量來作為其對(duì)檢測(cè)某個(gè)類別的依據(jù)。
6.根據(jù)權(quán)利要求3所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,開方擬和檢驗(yàn)方法通過觀察實(shí)際值與理論值的偏差來確定假設(shè)該特征對(duì)系統(tǒng)有很大影響的假定是否正確。
7.一種多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,用于基于簡(jiǎn)化特征的一類特征向量機(jī)來檢測(cè)網(wǎng)絡(luò)流量中的敏感信息,其特征在于包括: 第一步,使用已經(jīng)完成人為 標(biāo)記的文本數(shù)據(jù)庫(kù),對(duì)其進(jìn)行分詞,提取所有的名詞和動(dòng)詞作為候選特征向量; 第二步,使用特征簡(jiǎn)約算法對(duì)候選特征向量進(jìn)行提??; 第三步,使用一類支持向量機(jī)對(duì)已經(jīng)完成人為標(biāo)記的文本數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練,其中使用在第二步中從所有向量中提取出的特征向量,由此獲得分類的標(biāo)準(zhǔn); 第四步,確定數(shù)據(jù)包的傳輸協(xié)議,并根據(jù)RFC對(duì)于不同傳輸層和應(yīng)用層協(xié)議的定義來提取、復(fù)原文本信息; 第五步,對(duì)于第四步中的復(fù)原的文本信息,進(jìn)行分詞,特征向量提?。蝗缓蟾鶕?jù)第三步中的訓(xùn)練結(jié)果使用SVM進(jìn)行分類,檢測(cè)其是否為不良文本。
8.根據(jù)權(quán)利要求7所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,提取所有的名詞和動(dòng)詞作為候選特征向量。
9.根據(jù)權(quán)利要求7或8所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,在第二步中,特征簡(jiǎn)約算法對(duì)候選特征向量進(jìn)行提取,其特征是只提取對(duì)于系統(tǒng)影響較大的特征向量,特征簡(jiǎn)約算法包括基于文檔頻率方法、信息增益方法、開方擬和檢驗(yàn)方法,具體為: (I)、基于文檔頻率方法 算法統(tǒng)計(jì)出所有數(shù)據(jù)庫(kù)中的非停詞的詞語出現(xiàn)頻率,然后根據(jù)出現(xiàn)頻率進(jìn)行排序,選擇出現(xiàn)最多的若干個(gè)作為特征詞供SVM算法進(jìn)行維度映射,具體選取的數(shù)量根據(jù)系統(tǒng)需要的精確率,其中首先對(duì)數(shù)據(jù)庫(kù)中的每一篇文章進(jìn)行分詞,只保留名詞和動(dòng)詞作為特征詞的備選詞,然后對(duì)每一個(gè)不存在于停詞表中的備選詞進(jìn)行數(shù)量統(tǒng)計(jì),記錄到頻率表中,最后,將頻率表中出現(xiàn)的備選詞根據(jù)出現(xiàn)數(shù)量的多少進(jìn)行排序,選擇前η個(gè)作為DF算法得到的特征詞,算法結(jié)束; (2)、信息增益方法 對(duì)每一個(gè)預(yù)處理得到的備選詞進(jìn)行信息熵和條件熵的值的計(jì)算,在對(duì)每個(gè)備選詞進(jìn)行了引入熵值的計(jì)算值后,根據(jù)這個(gè)值從大到小來排序,選擇前η個(gè)作為IG算法得到的特征詞,算法結(jié)束; 其中,所述的信息熵,可以用如下公式計(jì)算
10.根據(jù)權(quán)利要求7或8所述的多協(xié)議網(wǎng)絡(luò)文件內(nèi)容檢查方法,其特征在于,在第四步中,根據(jù)數(shù)據(jù)包內(nèi)的偏移字段的值確定文本信息的網(wǎng)絡(luò)層以及應(yīng)用層使用的協(xié)議;將網(wǎng)絡(luò)層中的信息用于確認(rèn)數(shù)據(jù)包的順序,以便按照其原有的發(fā)送的正確序列還原應(yīng)用層的信息,應(yīng)用層中的信息詳細(xì)定義編碼方式。
【文檔編號(hào)】G06F17/27GK103617156SQ201310567527
【公開日】2014年3月5日 申請(qǐng)日期:2013年11月14日 優(yōu)先權(quán)日:2013年11月14日
【發(fā)明者】劉功申, 丁宵云, 蘇波, 孟魁, 寧蔚 申請(qǐng)人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
波密县| 大邑县| 南充市| 新郑市| 宜宾市| 城步| 建昌县| 林芝县| 河西区| 西乌珠穆沁旗| 滨海县| 沂源县| 荃湾区| 海南省| 娄烦县| 利川市| 军事| 南昌县| 靖远县| 铜梁县| 长武县| 宣城市| 丹凤县| 德令哈市| 平定县| 洪泽县| 平陆县| 酉阳| 日土县| 宾川县| 湄潭县| 南京市| 兴义市| 吴忠市| 澜沧| 横山县| 连江县| 阿拉善右旗| 平江县| 句容市| 桦甸市|