欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)絡(luò)日志壓縮方法和裝置與流程

文檔序號:11155092閱讀:747來源:國知局
一種網(wǎng)絡(luò)日志壓縮方法和裝置與制造工藝

本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種網(wǎng)絡(luò)日志壓縮方法和裝置。



背景技術(shù):

在當(dāng)前互聯(lián)網(wǎng)極度發(fā)達(dá)的時代,網(wǎng)絡(luò)日志采集與查詢系統(tǒng)具有廣泛的用途。各種IT系統(tǒng)、網(wǎng)絡(luò)設(shè)備、安全設(shè)備都會產(chǎn)生大量的網(wǎng)絡(luò)日志,這些網(wǎng)絡(luò)日志數(shù)據(jù)的格式往往存在較大差異,網(wǎng)絡(luò)日志采集與查詢系統(tǒng)需要適配大量的非結(jié)構(gòu)化數(shù)據(jù),以便進(jìn)行業(yè)務(wù)分析。面對海量的非結(jié)構(gòu)化數(shù)據(jù),一般會將采集到的網(wǎng)絡(luò)日志進(jìn)行壓縮存儲,這樣可以有效的節(jié)省存儲資源,減少用戶購買存儲設(shè)備的成本。

一種常用的網(wǎng)絡(luò)日志壓縮方法為:先將所有采集到的網(wǎng)絡(luò)日志統(tǒng)一進(jìn)行存儲,然后對存儲后的網(wǎng)絡(luò)日志進(jìn)行二次壓縮存儲。由于將網(wǎng)絡(luò)日志進(jìn)行統(tǒng)一存儲后,再進(jìn)行壓縮處理,最后將得到的壓縮包寫入磁盤進(jìn)行存儲,即該過程依次包括一次寫、一次讀和一次寫,導(dǎo)致了輸入輸出(Input and Output,簡稱IO)上的浪費;一般情況下,不同的網(wǎng)絡(luò)日志具有的特征之間存在差異,這些不同的特征被稱為混雜特征。在對網(wǎng)絡(luò)日志進(jìn)行壓縮時,由于存在大量的混雜特征,網(wǎng)絡(luò)日志之間的相似度較低,導(dǎo)致了壓縮率低。

另一種常用的網(wǎng)絡(luò)日志壓縮方法為:將采集到的所有網(wǎng)絡(luò)日志先統(tǒng)一進(jìn)行壓縮處理,然后將得到的壓縮包寫入磁盤進(jìn)行存儲,即該過程包括一次讀和一次寫,雖然減少一次寫,但是由于在壓縮時,仍然存在大量的混雜特征的字段數(shù)據(jù),導(dǎo)致了壓縮率的低。

再一種常用的網(wǎng)絡(luò)日志壓縮方法為:將采集到的網(wǎng)絡(luò)日志先按照網(wǎng)絡(luò)日志的業(yè)務(wù)類型進(jìn)行分類,然后針對每種不同業(yè)務(wù)類型的網(wǎng)絡(luò)日志分別進(jìn)行壓縮并 存儲。雖然相比于前兩種壓縮方法提高了壓縮比率,但由于網(wǎng)絡(luò)日志的業(yè)務(wù)類型較多,對每種業(yè)務(wù)類型的網(wǎng)絡(luò)日志進(jìn)行壓縮后存儲,仍需要較大的存儲空間,并且壓縮比率仍然較低。

綜上所述,隨著網(wǎng)絡(luò)日志的數(shù)量越來越龐大,采用現(xiàn)有網(wǎng)絡(luò)日志壓縮方法由于壓縮率較低,壓縮后的日志需要占用較大的存儲空間。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供了一種網(wǎng)絡(luò)日志壓縮方法和裝置,用于改善現(xiàn)有網(wǎng)絡(luò)日志壓縮方法壓縮率低的問題。

第一方面,一種網(wǎng)絡(luò)日志壓縮方法,所述方法包括:

對采集到的網(wǎng)絡(luò)日志進(jìn)行解析,確定出所述網(wǎng)絡(luò)日志包含的至少一個特征;

若已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,其中,所述第一特征為所述至少一個特征中用于表示所述網(wǎng)絡(luò)日志的業(yè)務(wù)類型的特征,所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集,所述網(wǎng)絡(luò)日志的特征集合為所述網(wǎng)絡(luò)日志的特征組成的集合,所述第一數(shù)據(jù)集的特征集合為所述第一數(shù)據(jù)集中的所有網(wǎng)絡(luò)日志的特征的并集;

如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度大于設(shè)定閾值,將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集;如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度不大于設(shè)定閾值,創(chuàng)建第二數(shù)據(jù)集,并將所述網(wǎng)絡(luò)日志歸并至所述第二數(shù)據(jù)集中;

對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,其中,若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集,則對所述第一數(shù)據(jù)集進(jìn)行壓縮和存儲處理;若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,則分別對所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

本發(fā)明實施例的方法中,在已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征時,根據(jù)所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,對所述網(wǎng)絡(luò)日志進(jìn)行歸類。由于本發(fā)明提供的歸并方案中能夠?qū)⒉煌瑯I(yè)務(wù)類型且相似度高的網(wǎng)絡(luò)日志歸為同一類,從而有效減少了壓縮包的數(shù)量,進(jìn)而減少了存儲空間。

可能的實現(xiàn)方式中,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,包括:

確定出第一數(shù)值和第二數(shù)值,其中,所述第一數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的交集中的特征個數(shù),所述第二數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集中的特征個數(shù);

根據(jù)所述第一數(shù)值與所述第二數(shù)值,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,其中,所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度為所述第一數(shù)值與所述第二數(shù)值之比。

可能的實現(xiàn)方式中,將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集之后,還包括:

將所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集確定為所述第一數(shù)據(jù)集的特征集合。

可能的實現(xiàn)方式中,對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,包括:

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)目達(dá)到設(shè)定的第一門限值后,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理;或者

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)據(jù)量之和達(dá)到設(shè)定的第二門限值后,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理;或者

在設(shè)定的壓縮周期到來時,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

可能的實現(xiàn)方式中,對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,包括:

采用列式存儲的方式,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。由于采用列式存儲的方式進(jìn)行壓縮和存儲,能夠獲得更高的壓縮比率。

可能的實現(xiàn)方式中,確定出所述網(wǎng)絡(luò)日志包含的至少一個特征之后,還包括:

根據(jù)所述網(wǎng)絡(luò)日志的第一特征,在確定出所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集中包含所述第一特征時,將所述網(wǎng)絡(luò)日志歸并至包含所述第一數(shù)據(jù)集。

可能的實現(xiàn)方式中,對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理之后,還包括:

根據(jù)設(shè)定時間段內(nèi)采集到的網(wǎng)絡(luò)日志包含的至少一個特征,形成第三數(shù)據(jù)集;

若所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第一數(shù)據(jù)集,其中,所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第三數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集;

若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,且所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第二數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第二數(shù)據(jù)集。

第二方面,一種網(wǎng)絡(luò)日志壓縮裝置,所述裝置包括:

特征解析模塊,用于對采集到的網(wǎng)絡(luò)日志進(jìn)行解析,確定出所述網(wǎng)絡(luò)日志包含的至少一個特征;

第一處理模塊,用于若已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,其中,所述第一特征為所述至少一個特征中用于表示所述網(wǎng)絡(luò)日志的業(yè)務(wù)類型的特征,所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集,所述網(wǎng)絡(luò)日志的特征集合為所述網(wǎng)絡(luò)日志的特征組成的集合,所述第一數(shù)據(jù)集的特征集合為所述第一數(shù)據(jù)集中的所有網(wǎng)絡(luò)日志的特征的并集;

第二處理模塊,用于如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度大于設(shè)定閾值,將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集;如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似 度不大于設(shè)定閾值,創(chuàng)建第二數(shù)據(jù)集,并將所述網(wǎng)絡(luò)日志歸并至所述第二數(shù)據(jù)集中;

壓縮模塊,用于對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,其中,若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集,則對所述第一數(shù)據(jù)集進(jìn)行壓縮和存儲處理;若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,則分別對所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

本發(fā)明實施例的裝置中,在已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征時,根據(jù)所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,對所述網(wǎng)絡(luò)日志進(jìn)行歸類。由于本發(fā)明提供的歸并方案中能夠?qū)⒉煌瑯I(yè)務(wù)類型且相似度高的網(wǎng)絡(luò)日志歸為同一類,從而有效減少了壓縮包的數(shù)量,進(jìn)而減少了存儲空間。

可能的實現(xiàn)方式中,所述第一處理模塊確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度時,具體用于:

確定出第一數(shù)值和第二數(shù)值,其中,所述第一數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的交集中的特征個數(shù),所述第二數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集中的特征個數(shù);

根據(jù)所述第一數(shù)值與所述第二數(shù)值,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,其中,所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度為所述第一數(shù)值與所述第二數(shù)值之比。

可能的實現(xiàn)方式中,所述第二處理模塊將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集之后,還用于:

將所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集確定為所述第一數(shù)據(jù)集的特征集合。

可能的實現(xiàn)方式中,所述壓縮模塊對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理時,具體用于:

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)目達(dá)到設(shè)定的第一門限值后,對每個所述數(shù) 據(jù)集進(jìn)行壓縮和存儲處理;或者

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)據(jù)量之和達(dá)到設(shè)定的第二門限值后,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理;或者

在設(shè)定的壓縮周期到來時,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

可能的實現(xiàn)方式中,所述第一處理模塊還用于:

根據(jù)所述網(wǎng)絡(luò)日志的第一特征,在確定出所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集中包含所述第一特征時,將所述網(wǎng)絡(luò)日志歸并至包含所述第一數(shù)據(jù)集。

可能的實現(xiàn)方式中,所述裝置還包括:

優(yōu)化模塊,用于根據(jù)設(shè)定時間段內(nèi)采集到的網(wǎng)絡(luò)日志包含的至少一個特征,形成第三數(shù)據(jù)集;若所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第一數(shù)據(jù)集,其中,所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第三數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集;若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,且所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第二數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第二數(shù)據(jù)集。

第三方面,一種服務(wù)器,包括:處理器、輸入接口、輸出接口、存儲器和系統(tǒng)總線;其中:

在服務(wù)器運行時,處理器讀取存儲器中的程序,并執(zhí)行上述方法實施例。

存儲器用于存儲所述處理器在執(zhí)行操作時所使用的數(shù)據(jù);

輸入接口用于在所述處理器的控制下讀入數(shù)據(jù);

輸出接口在所述處理器的控制下輸出數(shù)據(jù)。

本發(fā)明實施例的服務(wù)器中,在已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征時,根據(jù)所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,對所述網(wǎng)絡(luò)日志進(jìn)行歸類。由于本發(fā)明提供的歸并方案中能夠?qū)⒉煌瑯I(yè)務(wù)類型且相似度高的網(wǎng)絡(luò)日志歸為同一類,從而有效減少了壓縮包的數(shù)量,進(jìn)而減少了存儲空間。

附圖說明

圖1為本發(fā)明實施例提供的一種網(wǎng)絡(luò)日志壓縮方法的示意圖;

圖2為本發(fā)明實施例提供的另一種網(wǎng)絡(luò)日志壓縮方法的示意圖;

圖3為本發(fā)明實施例形成的分類樹的示意圖;

圖4為本發(fā)明實施例提供的一種網(wǎng)絡(luò)日志壓縮裝置的示意圖;

圖5為本發(fā)明實施例提供的另一種網(wǎng)絡(luò)日志壓縮裝置的示意圖;

圖6為本發(fā)明實施例提供的服務(wù)器的示意圖。

具體實施方式

下面結(jié)合說明書附圖對本發(fā)明實施例作進(jìn)一步詳細(xì)描述。應(yīng)當(dāng)理解,此處所描述的實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。

本發(fā)明實施例提供的一種網(wǎng)絡(luò)日志壓縮方法,如圖1所示,該方法包括:

S11、對采集到的網(wǎng)絡(luò)日志進(jìn)行解析,確定出所述網(wǎng)絡(luò)日志包含的特征;

其中,網(wǎng)絡(luò)日志的特征為網(wǎng)絡(luò)日志中用于存儲不同內(nèi)容的字段,例如srcip(源IP),dstip(目的IP),srcport(源端口),dspport(目的端口)等等。

S12、若已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度。

本發(fā)明實施例中,所述第一特征為所述至少一個特征中用于表示所述網(wǎng)絡(luò)日志的業(yè)務(wù)類型的特征。

舉例說明,網(wǎng)絡(luò)日志的第一特征即為該網(wǎng)絡(luò)日志中的eventType字段,用于存儲該網(wǎng)絡(luò)日志的業(yè)務(wù)類型,如入侵防御系統(tǒng)(Intrusion Prevention System,IPS)業(yè)務(wù)類型、LOGIN(登錄)業(yè)務(wù)類型、分布式拒絕服務(wù)(Distributed Denial of Service,DDoS)業(yè)務(wù)類型等。

本發(fā)明實施例中,所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集。

舉例說明,假設(shè)數(shù)據(jù)集中的網(wǎng)絡(luò)日志1屬于IPS業(yè)務(wù)類型,網(wǎng)絡(luò)日志2也屬于IPS業(yè)務(wù)類型,網(wǎng)絡(luò)日志3屬于LOGIN業(yè)務(wù)類型,網(wǎng)絡(luò)日志4屬于DDoS業(yè)務(wù)類型,則該數(shù)據(jù)集對應(yīng)的業(yè)務(wù)類型并集為{IPS業(yè)務(wù)類型,LOGIN業(yè)務(wù)類型,DDoS業(yè)務(wù)類型。

本發(fā)明實施例中,所述網(wǎng)絡(luò)日志的特征集合為所述網(wǎng)絡(luò)日志的特征組成的集合。

本發(fā)明實施例中,所述第一數(shù)據(jù)集的特征集合為所述第一數(shù)據(jù)集中的所有網(wǎng)絡(luò)日志的特征的并集。

舉例說明,假設(shè)所述第一數(shù)據(jù)集中包含兩個網(wǎng)絡(luò)日志,第一個網(wǎng)絡(luò)日志的特征包括srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe;第二個網(wǎng)絡(luò)日志的特征包括srcip,dstip,srcport,dspport,username,appname,domain;則所述第一數(shù)據(jù)集的特征集合為:

{srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe,appname,domain}。

S13A、如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度大于設(shè)定閾值,將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集。

S13B、如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度不大于設(shè)定閾值,創(chuàng)建第二數(shù)據(jù)集,并將所述網(wǎng)絡(luò)日志歸并至所述第二數(shù)據(jù)集中。

S14、對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理;其中:若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集,則對所述第一數(shù)據(jù)集進(jìn)行壓縮和存儲處理;若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,則分別對所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

本發(fā)明實施例中,以數(shù)據(jù)集為單位,對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

舉例說明,若所述數(shù)據(jù)集包括第一數(shù)據(jù)集,則對每個第一數(shù)據(jù)集分別進(jìn)行壓縮和存儲處理;若所述數(shù)據(jù)集包括第一數(shù)據(jù)集和第二數(shù)據(jù)集,則對第一數(shù)據(jù) 集和第二數(shù)據(jù)集分別進(jìn)行壓縮和存儲處理。

本發(fā)明實施例中,在已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征時,根據(jù)所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,對所述網(wǎng)絡(luò)日志進(jìn)行歸類,具體為:若所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度大于設(shè)定閾值,將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集;若所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度不大于設(shè)定閾值,創(chuàng)建第二數(shù)據(jù)集,并將所述網(wǎng)絡(luò)日志歸并至所述第二數(shù)據(jù)集中。由于本發(fā)明提供的歸并方案中能夠?qū)⒉煌瑯I(yè)務(wù)類型且相似度高的網(wǎng)絡(luò)日志歸為同一類,從而有效減少了壓縮包的數(shù)量,進(jìn)而減少了存儲空間。

本發(fā)明實施例中,作為另一種可選的實現(xiàn)方式,如圖2所示,S11之后,所述方法還包括:

S15、根據(jù)所述網(wǎng)絡(luò)日志的第一特征,在確定出已有的第一數(shù)據(jù)集對應(yīng)的業(yè)務(wù)類型并集中包含所述第一特征時,將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集中。

本發(fā)明實施例中,S12中確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,包括:

確定出第一數(shù)值和第二數(shù)值,其中,所述第一數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的交集中的特征個數(shù),所述第二數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集中的特征個數(shù);

根據(jù)所述第一數(shù)值與所述第二數(shù)值,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,其中,所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度為所述第一數(shù)值與所述第二數(shù)值之比。

在具體實現(xiàn)中,可預(yù)先設(shè)置知識庫,該知識庫為所有網(wǎng)絡(luò)日志的特征集合中的特征按照設(shè)定的排序規(guī)則形成的特征序列。在確定第一數(shù)值和第二數(shù)值時,先將所述網(wǎng)絡(luò)日志的特征集合中的特征也按照設(shè)定的排序規(guī)則形成第一特征序列,以及將所述第一數(shù)據(jù)集的特征集合中的特征也按照設(shè)定的排序規(guī)則形 成第二特征序列;再將所述第一特征序列和所述第二特征序列分別與所設(shè)置的知識庫進(jìn)行比對,以形成第一標(biāo)記序列和第二標(biāo)記序列,其中,第一標(biāo)記序列和第二標(biāo)記序列的長度均與所設(shè)置的知識庫的長度相同,且所述第一標(biāo)記序列和所述第二標(biāo)記序列均為僅包括0和1的比特序列,其中,所述第一標(biāo)記序列中比特值為1的比特位對應(yīng)的特征為所述網(wǎng)絡(luò)日志包含的特征,比特值為0的比特位對應(yīng)的特征為所述網(wǎng)絡(luò)日志中沒有的特征;所述第二標(biāo)記序列中比特值為1的比特位對應(yīng)的特征為所述第一數(shù)據(jù)集的特征集合中包含的特征,比特值為0的比特位對應(yīng)的特征為所述第一數(shù)據(jù)集的特征集合中沒有的特征。

舉例說明,假設(shè)將網(wǎng)絡(luò)日志的特征集合按照設(shè)定的排序規(guī)則形成的第一特征序列為:srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe;

所述第一數(shù)據(jù)集的特征集合按照設(shè)定的排序規(guī)則形成的第二特征序列為:srcip,dstip,srcport,dspport,username,appname,domain;

所設(shè)置的知識庫為:srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe,appname,domain,netid,localinfo;

則:所述第一特征序列與所設(shè)置的知識庫進(jìn)行比對形成的第一標(biāo)記序列為:1,1,1,1,1,1,1,1,0,0,0,0;所述第二特征序列與所設(shè)置的知識庫進(jìn)行比對形成的第二標(biāo)記序列為:1,1,1,1,0,0,1,0,1,1,0,0。計算上述第一標(biāo)記序列和第二標(biāo)記序列中同一位置均為1的比特數(shù)為5(即第一數(shù)值);計算上述第一標(biāo)記序列和第二標(biāo)記序列中同一位置只要有一個為1的比特數(shù)為10(即第二數(shù)值)。計算所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度為5/10=0.5。

可選的,S13A中將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集之后,還包括:

將所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集確定為所述第一數(shù)據(jù)集的特征集合。

具體的,在將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集之后,還需要對所述第一數(shù)據(jù)集的特征集合進(jìn)行更新,即將所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集確定為所述第一數(shù)據(jù)集的特征集合。

本發(fā)明實施例中,采用上述方式進(jìn)行分類后所形成的分類樹如圖3所示,分類一、分類二等為父節(jié)點,父節(jié)點表示形成的數(shù)據(jù)集,業(yè)務(wù)類1、業(yè)務(wù)類2等為子節(jié)點,子節(jié)點表示數(shù)據(jù)集中包含的網(wǎng)絡(luò)日志。

本發(fā)明實施例中,S14中對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,包括以下三種觸發(fā):

方式1、事件A觸發(fā),即在滿足已存儲的所述網(wǎng)絡(luò)日志的數(shù)目,即網(wǎng)絡(luò)日志的條數(shù),達(dá)到設(shè)定的第一門限值后,觸發(fā)壓縮和存儲處理,具體為:

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)目達(dá)到設(shè)定的第一門限值后,例如,第二門限值可以是1000條,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

方式2、事件B觸發(fā),即在滿足已存儲的所述網(wǎng)絡(luò)日志的數(shù)據(jù)量之和達(dá)到設(shè)定的第二門限值后,觸發(fā)壓縮和存儲處理,具體為:

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)據(jù)量之和達(dá)到設(shè)定的第二門限值后,例如,第二門限值可以是100M字節(jié),對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

方式3、周期觸發(fā),即在每個設(shè)定的壓縮周期到來后,觸發(fā)壓縮和存儲處理,具體為:

在設(shè)定的壓縮周期到來時,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

基于上述任一實施例,可選的,S14中對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,包括:

采用列式存儲的方式,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。由于采用列式存儲的方式進(jìn)行壓縮和存儲,能夠獲得更高的壓縮比率。

當(dāng)然,本發(fā)明實施例不限于采用列式存儲的方式進(jìn)行壓縮和存儲處理,也可以采用本領(lǐng)域公知的其他方式對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,如行式存儲方式等。

基于上述任一實施例,可選的,S14中對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理后,得到每個數(shù)據(jù)集對應(yīng)的壓縮包,每個壓縮包均采用TLV格式存儲,其中,T表示特征標(biāo)識(如srcip,dstip,srcport等),L表示壓縮包的長度,V 表示壓縮包本身。

舉例說明,TLV為三元組,其全稱為Type(類型)、Length(長度)和Value(值)。其中,T、L字段的長度往往固定(通常為1~4bytes),V字段長度可變。T、L和V的表示方式均可自定義,本發(fā)明實施例中,T表示特征標(biāo)識(即網(wǎng)絡(luò)日志的特征中的一個特征,表示存儲的是哪個特征),L表示所存儲的壓縮包的長度,V表示所存儲的壓縮包。

基于上述任一實施例,S14中對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理之后,還包括對每個所述數(shù)據(jù)集的業(yè)務(wù)類型進(jìn)行優(yōu)化,具體為:

根據(jù)設(shè)定時間段內(nèi)采集到的網(wǎng)絡(luò)日志包含的至少一個特征,形成第三數(shù)據(jù)集;

若所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第一數(shù)據(jù)集,其中,所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第三數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集;

若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,且所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第二數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第二數(shù)據(jù)集。

舉例說明,在完成網(wǎng)絡(luò)日志的壓縮和存儲處理之后,可以對當(dāng)前已形成的分類樹進(jìn)行優(yōu)化,具體為:在完成網(wǎng)絡(luò)日志的壓縮和存儲處理之后,根據(jù)設(shè)定時間段內(nèi)已采集到的網(wǎng)絡(luò)日志包含的特征,例如,根據(jù)當(dāng)前時間之前的1天內(nèi)采集到的網(wǎng)絡(luò)日志包含的特征形成新的數(shù)據(jù)集(即第三數(shù)據(jù)集),以形成優(yōu)化的分類樹;對于所述第三數(shù)據(jù)集,若所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第一數(shù)據(jù)集;若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,且所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第二數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第二數(shù)據(jù)集,從而使用優(yōu)化的分類樹替換掉原有的分類樹。

上述方法處理流程可以用軟件程序?qū)崿F(xiàn),該軟件程序可以存儲在存儲介質(zhì) 中,當(dāng)存儲的軟件程序被調(diào)用時,執(zhí)行上述方法步驟。

基于同一發(fā)明構(gòu)思,本發(fā)明實施例中還提供了一種網(wǎng)絡(luò)日志壓縮裝置,該裝置解決問題的原理與上述一種網(wǎng)絡(luò)日志壓縮方法相似,該裝置中與上述方法相同的部分,具體參見圖1和圖2所示實施例中的相關(guān)描述,此處不再贅述。

本發(fā)明實施例提供的一種網(wǎng)絡(luò)日志壓縮裝置,如圖4所示,包括:

特征解析模塊41,用于對采集到的網(wǎng)絡(luò)日志進(jìn)行解析,確定出所述網(wǎng)絡(luò)日志包含的至少一個特征;

第一處理模塊42,用于若已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,其中,所述第一特征為所述至少一個特征中用于表示所述網(wǎng)絡(luò)日志的業(yè)務(wù)類型的特征,所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集,所述網(wǎng)絡(luò)日志的特征集合為所述網(wǎng)絡(luò)日志的特征組成的集合,所述第一數(shù)據(jù)集的特征集合為所述第一數(shù)據(jù)集中的所有網(wǎng)絡(luò)日志的特征的并集;

第二處理模塊43,用于如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度大于設(shè)定閾值,將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集;如果確定出所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度不大于設(shè)定閾值,創(chuàng)建第二數(shù)據(jù)集,并將所述網(wǎng)絡(luò)日志歸并至所述第二數(shù)據(jù)集中;

壓縮模塊44,用于對每個數(shù)據(jù)集進(jìn)行壓縮和存儲處理,其中,若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集,則對所述第一數(shù)據(jù)集進(jìn)行壓縮和存儲處理;若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,則分別對所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

本發(fā)明實施例中,在已有的第一數(shù)據(jù)集的業(yè)務(wù)類型并集中不包含所述網(wǎng)絡(luò)日志的第一特征時,根據(jù)所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,對所述網(wǎng)絡(luò)日志進(jìn)行歸類。由于本發(fā)明提供的歸并方案中能夠?qū)? 不同業(yè)務(wù)類型且相似度高的網(wǎng)絡(luò)日志歸為同一類,從而有效減少了壓縮包的數(shù)量,進(jìn)而減少了存儲空間。

可選的,第一處理模塊42確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度時,具體用于:

確定出第一數(shù)值和第二數(shù)值,其中,所述第一數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的交集中的特征個數(shù),所述第二數(shù)值為所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集中的特征個數(shù);

根據(jù)所述第一數(shù)值與所述第二數(shù)值,確定所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度,其中,所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的相似度為所述第一數(shù)值與所述第二數(shù)值之比。

基于上述任一實施例,可選的,第二處理模塊43將所述網(wǎng)絡(luò)日志歸并至所述第一數(shù)據(jù)集之后,還用于:

將所述網(wǎng)絡(luò)日志的特征集合與所述第一數(shù)據(jù)集的特征集合的并集確定為所述第一數(shù)據(jù)集的特征集合。

可選的,壓縮模塊44具體用于:

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)目達(dá)到設(shè)定的第一門限值后,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理;或者

在已存儲的所述網(wǎng)絡(luò)日志的數(shù)據(jù)量之和達(dá)到設(shè)定的第二門限值后,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理;或者

在設(shè)定的壓縮周期到來時,對每個所述數(shù)據(jù)集進(jìn)行壓縮和存儲處理。

作為另一種可選的實現(xiàn)方式,第一處理模塊42還用于:

根據(jù)所述網(wǎng)絡(luò)日志的第一特征,在確定出所述第一數(shù)據(jù)集的業(yè)務(wù)類型并集中包含所述第一特征時,將所述網(wǎng)絡(luò)日志歸并至包含所述第一數(shù)據(jù)集。

基于上述任一實施例,可選的,如圖5所示,所述裝置還包括:

優(yōu)化模塊45,用于根據(jù)設(shè)定時間段內(nèi)采集到的網(wǎng)絡(luò)日志包含的至少一個特征,形成第三數(shù)據(jù)集;若所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第一數(shù)據(jù)集的 業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第一數(shù)據(jù)集,其中,所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第三數(shù)據(jù)集中的網(wǎng)絡(luò)日志的業(yè)務(wù)類型的并集;若所述數(shù)據(jù)集包括所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集,且所述第三數(shù)據(jù)集的業(yè)務(wù)類型并集為所述第二數(shù)據(jù)集的業(yè)務(wù)類型并集的子集,采用所述第三數(shù)據(jù)集替換所述第二數(shù)據(jù)集。

本發(fā)明實施例中,可以通過服務(wù)器實現(xiàn)上述圖1和圖2所示實施例的方法,如圖6所示,該服務(wù)器包括:處理器61、輸入接口62、輸出接口63、存儲器64和系統(tǒng)總線65;其中:

處理器61負(fù)責(zé)邏輯運算和處理。在服務(wù)器運行時,處理器61讀取存儲器64中的程序,并執(zhí)行上述方法實施例,具體為:處理器61執(zhí)行上述步驟S11、S12、S13A、S13B和S14。可選的,該處理器61還可執(zhí)行上述步驟S15。

存儲器64包括內(nèi)存和硬盤,可以存儲處理器61在執(zhí)行操作時所使用的數(shù)據(jù)(如第一數(shù)據(jù)集、第二數(shù)據(jù)集,對數(shù)據(jù)集進(jìn)行壓縮得到的壓縮包等)。輸入接口62用于在處理器61的控制下讀入數(shù)據(jù)(如網(wǎng)絡(luò)日志等),輸出接口63在處理器61的控制下輸出數(shù)據(jù)(如壓縮包等)。

總線架構(gòu)可以包括任意數(shù)量的互聯(lián)的總線和橋,具體由處理器61代表的一個或多個處理器和存儲器64代表的內(nèi)存和硬盤的各種電路鏈接在一起??偩€架構(gòu)還可以將諸如外圍設(shè)備、穩(wěn)壓器和功率管理電路等之類的各種其他電路鏈接在一起,這些都是本領(lǐng)域所公知的,因此,本文不再對其進(jìn)行進(jìn)一步描述。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和 /或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宝鸡市| 临安市| 廉江市| 南郑县| 司法| 康乐县| 洮南市| 内黄县| 四子王旗| 广河县| 大城县| 武夷山市| 青河县| 忻州市| 乐都县| 鹤壁市| 榆中县| 肥城市| 台州市| 永泰县| 阜平县| 芜湖县| 临颍县| 克什克腾旗| 福安市| 青阳县| 禹城市| 化州市| 牡丹江市| 鄢陵县| 宁强县| 平度市| 舟山市| 小金县| 濮阳市| 额敏县| 呼伦贝尔市| 绥宁县| 景德镇市| 荣成市| 微博|