欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)流處理方法及裝置的制作方法

文檔序號(hào):7775865閱讀:471來源:國(guó)知局
專利名稱:一種數(shù)據(jù)流處理方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)流處理方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲透到社會(huì)生活的每一個(gè)角落,成為人們學(xué)習(xí)、生活、工作不可缺少的工具,也為企業(yè)高效運(yùn)營(yíng)提供了基礎(chǔ)平臺(tái)。但是互聯(lián)網(wǎng)給我們帶來諸多便利的同時(shí),也為各種不和諧的行為提供了滋生的溫床,網(wǎng)絡(luò)惡搞、誹謗中傷、傳播違法反動(dòng)信息等等,越來越對(duì)國(guó)家安定、社會(huì)和諧、企業(yè)效率提出了嚴(yán)峻的挑戰(zhàn)。為了解決上述問題,上網(wǎng)行為管理概念應(yīng)運(yùn)而生。上網(wǎng)行為管理是指幫助互聯(lián)網(wǎng)用戶控制和管理對(duì)互聯(lián)網(wǎng)的使用,包括對(duì)網(wǎng)頁(yè)訪問過濾、網(wǎng)絡(luò)應(yīng)用控制、帶寬流量管理、信息收發(fā)審計(jì)、用戶行為分析,從而實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)訪問行為的全面管理。在P2P流量管理、防止內(nèi)網(wǎng)泄密、防范法規(guī)風(fēng)險(xiǎn)、互聯(lián)網(wǎng)訪問行為記錄、上網(wǎng)安全等多個(gè)方面提供有效的解決方案。其中,論壇作為信息獲取以及言論發(fā)表的一個(gè)重要工具,在上網(wǎng)行為管理中顯得尤為重要。論壇的發(fā)帖審計(jì)已經(jīng)成為上網(wǎng)行為管理所不可或缺的重要功能之一。目前主流論壇提交數(shù)據(jù)(發(fā)帖)都是通過HTTP-POST協(xié)議,其中POST(超文本傳輸協(xié)議(HTTP,Hypertext Transfer Protocol)請(qǐng)求方法中的一種)對(duì)應(yīng)的統(tǒng)一資源定位符(URL, Uniform Resource Locator)標(biāo)志論壇數(shù)據(jù)提交至的網(wǎng)址,而HTTP報(bào)文頭部Referer字段則表明了論壇數(shù)據(jù)發(fā)布的網(wǎng)址。主流論壇數(shù)據(jù)標(biāo)題和內(nèi)容的數(shù)據(jù)封裝格式主要包括如下兩種HTML上傳表單和URL編碼。而不管是哪種數(shù)據(jù)封裝格式,由于提交的數(shù)據(jù)是通過網(wǎng)絡(luò)提交到服務(wù)器的,因此在網(wǎng)關(guān)或上網(wǎng)行為管理設(shè)備中就可以截獲到提交的報(bào)文,通過對(duì)報(bào)文格式進(jìn)行窺探、分析,就可以提取論壇數(shù)據(jù)中的標(biāo)題以及內(nèi)容等信息,從而達(dá)到論壇發(fā)帖審計(jì)的目的。例如,根據(jù)RFC2616,POST報(bào)文的URL語法格式可以如下所示HTTP_URL: = 〃 http:" “ //" host [ port] [abs_path[" ? “ query]]則可以根據(jù)上述語法格式確定該P(yáng)OST報(bào)文對(duì)應(yīng)的信息其中http代表HTTP協(xié)議,host[port]為HTTP請(qǐng)求報(bào)文首部HOST域的值(即資源站點(diǎn)的地址,可以是域名,也可以是IP),如果port為空,則代表port為80。abS_path[“ ? “ query]即資源的統(tǒng)一資源標(biāo)識(shí)符(URI, Uniform Resource Identifier)。目前的論壇發(fā)帖審計(jì)主要包括以下兩種方式方式一、POST全部審計(jì)。此種方式下,將流經(jīng)網(wǎng)關(guān)或上網(wǎng)行為管理設(shè)備的所有HTTP-POST數(shù)據(jù)都拿來分析、審計(jì)。該方式實(shí)現(xiàn)簡(jiǎn)單,但由于在實(shí)際網(wǎng)絡(luò)中,除了論壇,還有其他很多應(yīng)用也是通過HTTP-POST來提交數(shù)據(jù)的,因此將導(dǎo)致審計(jì)信息中充斥著大量非論壇數(shù)據(jù),增大了審計(jì)的工作量,且降低了論壇發(fā)帖審計(jì)的效率。方式二、POST部分審計(jì)。
在此種方式下,可以僅針對(duì)URL中含有“bbs”的HTTP-POST數(shù)據(jù)進(jìn)行審計(jì),即僅將URL中含有“bbs”的HTTP-POST數(shù)據(jù)認(rèn)為是論壇提交數(shù)據(jù)。但由于很多URL中未含有“bbs”的HTTP-POST數(shù)據(jù)也是論壇提交數(shù)據(jù),因此,在此種方式下,非常容易存在漏審計(jì)的問題,使得審計(jì)結(jié)果準(zhǔn)確性較低。同時(shí),不論是方式一還是方式二,都是通過人工分析HTTP-POST數(shù)據(jù)的方法收集特征字段,從而在對(duì)HTTP-POST數(shù)據(jù)進(jìn)行審計(jì)時(shí),根據(jù)人工收集的特征字段提取對(duì)應(yīng)的信息,而人工收集特征字段的收集效率低下,且容易遺漏,從而導(dǎo)致審計(jì)結(jié)果準(zhǔn)確性較低。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種數(shù)據(jù)流處理方法及裝置,用于解決論壇發(fā)帖審計(jì)效率低和審計(jì)結(jié)果準(zhǔn)確性較低的問題。一種數(shù)據(jù)流處理方法,所述方法包括接收數(shù)據(jù)流,在確定該數(shù)據(jù)流符合HTTP-POST協(xié)議時(shí),提取該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址;在確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合時(shí),確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段;針對(duì)每個(gè)待提取的特征字段,確定該數(shù)據(jù)流中是否包含預(yù)先確定出的該特征字段對(duì)應(yīng)字段名集合中的字段名,該字段名集合是預(yù)先針對(duì)該待提取的特征字段,通過抓包分析工具,解析出的已知論壇數(shù)據(jù)對(duì)應(yīng)的字段名集合;若確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名,提取該字段名對(duì)應(yīng)的字段值。一種數(shù)據(jù)流處理裝置,所述裝置包括接收模塊,用于接收數(shù)據(jù)流;第一判斷模塊,用于確定該數(shù)據(jù)流是否符合HTTP-POST協(xié)議;網(wǎng)址提取模塊,用于在第一判斷模塊確定該數(shù)據(jù)流符合HTTP-POST協(xié)議時(shí),提取該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址;第二判斷模塊,用于確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址是否屬于預(yù)先確定出的網(wǎng)址集合;確定模塊,用于在第二判斷模塊確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合時(shí),確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段;第三判斷模塊,用于針對(duì)每個(gè)待提取的特征字段,確定該數(shù)據(jù)流中是否包含預(yù)先確定出的該特征字段對(duì)應(yīng)字段名集合中的字段名,該字段名集合是預(yù)先針對(duì)該待提取的特征字段,通過抓包分析工具,解析出的已知論壇數(shù)據(jù)對(duì)應(yīng)的字段名集合;字段值提取模塊,用于在第三判斷模塊確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名時(shí),提取該字段名對(duì)應(yīng)的字段值。根據(jù)本發(fā)明實(shí)施例提供的方案,在確定接收到的數(shù)據(jù)流符合HTTP-POST協(xié)議,且該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合時(shí),提取該數(shù)據(jù)流對(duì)應(yīng)的特征字段的字段值,從而可以通過是否符合HTTP-POST協(xié)議、以及對(duì)應(yīng)的網(wǎng)址是否屬于預(yù)先確定出的網(wǎng)址集合來篩選后續(xù)進(jìn)行審計(jì)的數(shù)據(jù)流,提高審計(jì)的效率。并且,可以利用抓包分析工具,解析出該特征字段對(duì)應(yīng)的字段名集合,避免了人工查找字段名效率低且容易遺漏的問題,并提高了后續(xù)對(duì)數(shù)據(jù)流進(jìn)行審計(jì)的正確率。


圖1為本發(fā)明實(shí)施例一提供的數(shù)據(jù)流處理方法的步驟流程圖;圖2為本發(fā)明實(shí)施例二提供的確定字段名集合的步驟流程圖;圖3為本發(fā)明實(shí)施例三提供的更新網(wǎng)址集合的步驟流程圖;圖4為本發(fā)明實(shí)施例三提供的更新網(wǎng)址集合的拓?fù)浣Y(jié)構(gòu)示意圖;圖5為本發(fā)明實(shí)施例四提供的字段名失效檢測(cè)的步驟流程圖;圖6為本發(fā)明實(shí)施例五提供的數(shù)據(jù)流處理裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明實(shí)施例針對(duì)現(xiàn)有上網(wǎng)行為管理論壇發(fā)帖審計(jì)過程存在的各種缺陷與不足,提出了一種基于URL分類庫(kù)(預(yù)先確定出的網(wǎng)址集合)的論壇發(fā)帖審計(jì)方案,能夠有效過濾非論壇數(shù)據(jù),同時(shí)又能最大限度的保證不漏審。本發(fā)明實(shí)施例還提出了一種行之有效的不斷豐富URL分類庫(kù)的方法,保證URL分類庫(kù)的實(shí)時(shí)更新。同時(shí)本發(fā)明實(shí)施例還提出了一種字段名高效提取以及失效檢測(cè)的方案。下面結(jié)合說明書附圖和各實(shí)施例對(duì)本發(fā)明方案進(jìn)行說明。實(shí)施例一、本發(fā)明實(shí)施例一提供一種數(shù)據(jù)流處理方法,該方法的步驟如圖1所示,包括步驟101、接收數(shù)據(jù)流。步驟102、確定該數(shù)據(jù)流是否符合HTTP-POST協(xié)議。在本實(shí)施例中,為了對(duì)論壇數(shù)據(jù)進(jìn)行審計(jì),所述論壇數(shù)據(jù)可以是來自論壇、微博、博客、社區(qū)、電子廣告欄(BBQ等用戶可以進(jìn)行言論自由發(fā)表的網(wǎng)絡(luò)環(huán)境,根據(jù)主流論壇提交數(shù)據(jù)(發(fā)帖)都是通過HTTP-POST協(xié)議的特點(diǎn),可以首先利用數(shù)據(jù)流是否符合HTTP-POST協(xié)議對(duì)接收到的數(shù)據(jù)流進(jìn)行篩選。具體的,可以通過以下方式確定數(shù)據(jù)流符合HTTP-POST協(xié)議確定該數(shù)據(jù)流為傳輸控制協(xié)議(TCP,Transmission Control Protocol)數(shù)據(jù)流,且該數(shù)據(jù)流的 POST URI HTTP-VERSION 字段中,HTTP-VERSION 為 HTTP/1. 1 或 HTTP/1. 0。POST URI HTTP-VERSION字段中,URI為該數(shù)據(jù)流的URI地址,由于不同數(shù)據(jù)流的URI各不相同,因此,POST URI HTTP-VERSION字段中的URI可以是一個(gè)任意的字符串。在本步驟中,若確定該數(shù)據(jù)流符合HTTP-POST協(xié)議,則可以繼續(xù)執(zhí)行步驟103,否則,可以結(jié)束本流程。步驟103、提取該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址。在本實(shí)施例中,為了對(duì)論壇數(shù)據(jù)進(jìn)行審計(jì),可以進(jìn)一步利用數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址對(duì)數(shù)據(jù)流進(jìn)行篩選,從而根據(jù)論壇數(shù)據(jù)對(duì)應(yīng)的網(wǎng)址的特點(diǎn),篩除數(shù)據(jù)流符合HTTP-POST協(xié)議,但并不對(duì)應(yīng)論壇數(shù)據(jù)的數(shù)據(jù)流,減少后續(xù)審計(jì)的工作量,提高審計(jì)的效率??梢酝ㄟ^數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址中的至少一個(gè)來對(duì)數(shù)據(jù)流進(jìn)行篩選。由于POST對(duì)應(yīng)的URL標(biāo)志數(shù)據(jù)流提交至的網(wǎng)址,而HTTP報(bào)文頭部Referer字段表明了數(shù)據(jù)流發(fā)布的網(wǎng)址,因此具體的,在本步驟中,可以提取該數(shù)據(jù)流對(duì)應(yīng)的URL,從而確定該數(shù)據(jù)流提交至的網(wǎng)址,并可以通過提取該數(shù)據(jù)流對(duì)應(yīng)的Referer字段,確定該數(shù)據(jù)流公布的網(wǎng)址。步驟104、確定提取出的網(wǎng)址是否屬于預(yù)先確定出的網(wǎng)址集合。在本實(shí)施例中,所述預(yù)先確定出的網(wǎng)址集合可以是指針對(duì)論壇數(shù)據(jù)的網(wǎng)址集合。具體的,可以但不限于通過以下現(xiàn)有方式確定針對(duì)論壇數(shù)據(jù)的網(wǎng)址方式一、在人為確定訪問的網(wǎng)站屬于論壇(所述論壇可以是指論壇、微博、博客、社區(qū)、電子廣告欄(BBS)等用戶可以進(jìn)行言論自由發(fā)表的網(wǎng)絡(luò)環(huán)境)時(shí),將該網(wǎng)站對(duì)應(yīng)的網(wǎng)址確定為針對(duì)論壇數(shù)據(jù)的一個(gè)網(wǎng)址。方式二、自動(dòng)確定針對(duì)論壇數(shù)據(jù)的網(wǎng)址。具體的,可以包括以下步驟步驟1、通過網(wǎng)絡(luò)爬蟲,下載互聯(lián)網(wǎng)上已經(jīng)存在的網(wǎng)頁(yè)。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則,自動(dòng)的抓取萬維網(wǎng)信息的程序或者腳本。步驟2、網(wǎng)頁(yè)去噪。網(wǎng)頁(yè)通常包含大量的“噪音”。同普通文本相比,網(wǎng)頁(yè)的設(shè)計(jì)比較隨意,通常包含各類廣告,設(shè)計(jì)人員的注釋以及版權(quán)申明等無關(guān)信息。有時(shí)同一個(gè)網(wǎng)頁(yè)甚至?xí)鄠€(gè)不同的主題。在確定一個(gè)網(wǎng)頁(yè)的網(wǎng)址是否對(duì)應(yīng)論壇數(shù)據(jù)之前,需要自動(dòng)清除這些“噪音”,從而提高確定出的對(duì)應(yīng)論壇數(shù)據(jù)的網(wǎng)址的準(zhǔn)確性。步驟3、中文分詞。所謂的分詞就是將一句句的中文句子或中英文混合的句子,按一個(gè)個(gè)的詞切分出來,如果是英文單詞,則切出一個(gè)個(gè)單詞。中文分詞不同于英文分詞,英文可以以空格為切分標(biāo)記,而中文就沒有明顯的標(biāo)記用于切分,中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,一種簡(jiǎn)單的做法就是基于中文詞庫(kù)進(jìn)行分詞。步驟4、文本分類。文本分類就是根據(jù)文本中各個(gè)詞出現(xiàn)的頻率、權(quán)重的相似度來判斷該文本屬于哪一個(gè)分類,從而確定該網(wǎng)頁(yè)是否對(duì)應(yīng)論壇數(shù)據(jù),并在確定該網(wǎng)頁(yè)對(duì)應(yīng)論壇數(shù)據(jù)時(shí),將該網(wǎng)頁(yè)對(duì)應(yīng)的網(wǎng)址確定為針對(duì)論壇數(shù)據(jù)的網(wǎng)址。在本步驟中,可以確定步驟103中提取出的網(wǎng)址是否屬于預(yù)先確定出的網(wǎng)址集合,若步驟103中提取的網(wǎng)址為數(shù)據(jù)流提交至的網(wǎng)址,則預(yù)先確定出的網(wǎng)址集合為數(shù)據(jù)流提交至的網(wǎng)址集合。若步驟103中提取的網(wǎng)址為數(shù)據(jù)流發(fā)布的網(wǎng)址,則預(yù)先確定出的網(wǎng)址集合為數(shù)據(jù)流發(fā)布的網(wǎng)址集合。若步驟103中提取的網(wǎng)址為數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址,則預(yù)先確定出的網(wǎng)址集合為數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址的集合,且在本步驟中,可以在確定提取出的數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址均屬于預(yù)先確定出的網(wǎng)址集合時(shí)(可以理解為,提取出的數(shù)據(jù)流提交至的網(wǎng)址屬于預(yù)先確定出數(shù)據(jù)流提交至的網(wǎng)址集合,且提取出的數(shù)據(jù)流發(fā)布的網(wǎng)址屬于預(yù)先確定出數(shù)據(jù)流發(fā)布的網(wǎng)址集合),認(rèn)為步驟103中提取出的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合。若確定步驟103中提取出的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合,則可以繼續(xù)執(zhí)行步驟105,否則,可以結(jié)束本流程。進(jìn)一步的,若確定步驟103中提取出的網(wǎng)址不屬于預(yù)先確定出的網(wǎng)址集合,還可以利用步驟103中提取出的網(wǎng)址對(duì)預(yù)先確定出的網(wǎng)址集合進(jìn)行更新,使得后續(xù)可以根據(jù)更新后的網(wǎng)址集合進(jìn)行數(shù)據(jù)流處理。具體的,可以確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段,針對(duì)每個(gè)待提取的特征字段,確定該數(shù)據(jù)流中是否包含預(yù)先確定出的該特征字段對(duì)應(yīng)字段名集合中的字段名,在確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名時(shí),將該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址提交至云服務(wù)器。當(dāng)然,若確定步驟103中提取出的網(wǎng)址不屬于預(yù)先確定出的網(wǎng)址集合,也可以人工確定是否需要將該網(wǎng)址添加至預(yù)先確定出的網(wǎng)址集合,在確定需要將該網(wǎng)址添加至預(yù)先確定出的網(wǎng)址集合時(shí),可以將該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址提交至云服務(wù)器。云服務(wù)器可以將接收到的網(wǎng)址加入所述預(yù)先確定出的網(wǎng)址集合。具體的,云服務(wù)器可以在該網(wǎng)址被提交的次數(shù)大于設(shè)定閾值時(shí),將該網(wǎng)址加入所述預(yù)先確定出的網(wǎng)址集合。一個(gè)特征字段對(duì)應(yīng)的字段名的集合可以是預(yù)先確定的,具體包括預(yù)先針對(duì)一個(gè)特征字段,通過抓包分析工具,解析出已知論壇數(shù)據(jù)對(duì)應(yīng)的字段名集合,將該字段名集合作為該特征字段的對(duì)應(yīng)字段名集合。步驟105、確定待提取的特征字段。在本步驟中,可以根據(jù)后續(xù)對(duì)論壇數(shù)據(jù)審計(jì)的需要,確定待提取的特征字段,例如,可以確定待提取的特征字段為標(biāo)題字段和內(nèi)容字段,從而后續(xù)在數(shù)據(jù)流中對(duì)標(biāo)題字段和內(nèi)容字段進(jìn)行查找,并可以針對(duì)標(biāo)題字段和內(nèi)容字段的字段值進(jìn)行審計(jì)。步驟106、確定一個(gè)數(shù)據(jù)流是否包含預(yù)先確定出的字段名集合中的字段名。在本實(shí)施例中,可以預(yù)先確定每個(gè)特征字段對(duì)應(yīng)的字段名集合(預(yù)先確定每個(gè)特征字段對(duì)應(yīng)的字段名集合的方法在步驟104中已經(jīng)描述,在此不再贅述),并在一個(gè)數(shù)據(jù)流包含預(yù)先確定出的字段名集合中的字段名時(shí),進(jìn)一步確定該數(shù)據(jù)流對(duì)應(yīng)論壇數(shù)據(jù),繼續(xù)執(zhí)行步驟107,提取該數(shù)據(jù)流中的字段值,否則,可以認(rèn)為該數(shù)據(jù)流不是對(duì)應(yīng)論壇數(shù)據(jù),可以結(jié)束本流程。在本步驟中,可以針對(duì)每個(gè)待提取的特征字段,確定該數(shù)據(jù)流中是否包含預(yù)先確定出的該特征字段對(duì)應(yīng)字段名集合中的字段名,若確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名,執(zhí)行步驟107,提取該字段名對(duì)應(yīng)的字段值。步驟107、提取字段值。根據(jù)字段名提取字段值的方法與現(xiàn)有技術(shù)相同,在此不再贅述。提取字段值之后,可以根據(jù)提取的字段值對(duì)該字段值對(duì)應(yīng)的數(shù)據(jù)流進(jìn)行解析(審計(jì)),從而實(shí)現(xiàn)對(duì)論壇數(shù)據(jù)的審計(jì),對(duì)數(shù)據(jù)流的審計(jì)產(chǎn)生的審計(jì)信息可以但不限于包含審計(jì)時(shí)間、數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址、數(shù)據(jù)流的標(biāo)題內(nèi)容(標(biāo)題字段的字段值)、具體內(nèi)容(內(nèi)容字段的字段值)。審計(jì)信息可以寫入永久性存儲(chǔ)介質(zhì),使得掉電后仍然能夠有效保存。此時(shí),還可以根據(jù)產(chǎn)生的審計(jì)信息對(duì)預(yù)先確定出的字段名集合中的字段名是否有效進(jìn)行檢測(cè),具體的,可以確定審計(jì)的數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址,針對(duì)每一個(gè)網(wǎng)址,確定設(shè)定周期內(nèi)對(duì)該網(wǎng)址對(duì)應(yīng)的數(shù)據(jù)流審計(jì)的次數(shù)并上報(bào)至云服務(wù)器,云服務(wù)器在確定任一周期內(nèi)對(duì)該網(wǎng)址對(duì)應(yīng)的數(shù)據(jù)流解析的次數(shù)與該周期的上一周期內(nèi)對(duì)該網(wǎng)址對(duì)應(yīng)的數(shù)據(jù)流解析的次數(shù)相比,減少的次數(shù)大于設(shè)定次數(shù)時(shí),可以認(rèn)為該數(shù)據(jù)流的特征字段的字段名發(fā)生了改變,此時(shí)可以確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段,針對(duì)每個(gè)待提取的特征字段,通過抓包分析工具,解析出該特征字段對(duì)應(yīng)的字段名,利用解析出的字段名更新該特征字段對(duì)應(yīng)的字段名集合,具體的,可以將該解析出的字段名加入該特征字段對(duì)應(yīng)的字段名集合,或者,可以在該特征字段對(duì)應(yīng)的字段名集合中,利用該解析出的字段名替換該數(shù)據(jù)流原來對(duì)應(yīng)的字段名,使得后續(xù)可以根據(jù)更新后的字段名集合進(jìn)行數(shù)據(jù)流處理。下面通過一個(gè)具體的實(shí)施例對(duì)實(shí)施例一中確定字段名集合的過程進(jìn)行詳細(xì)說明。實(shí)施例二、本發(fā)明實(shí)施例二提供一種確定字段名集合的方法,該方法的步驟如圖2所示,包括步驟201、預(yù)定義各個(gè)預(yù)提取字段的字段值。例如,要提取標(biāo)題、內(nèi)容字段的字段名,那可以預(yù)定義標(biāo)題字段的值為“title-test”,內(nèi)容字段的值為“content-test”,不同字段其預(yù)定義值設(shè)置不同。步驟202、定義一個(gè)抓包分析工具。該工具對(duì)于HTTP-POST數(shù)據(jù)流報(bào)文進(jìn)行窺探、分析,判斷報(bào)文數(shù)據(jù)中是否存在預(yù)定義字段值以及相應(yīng)的出現(xiàn)位置。然后根據(jù)數(shù)據(jù)的封裝格式(HTML上傳表單或URL編碼),反向分析出該預(yù)定義值所對(duì)應(yīng)的字段名。根據(jù)預(yù)定義值與字段的對(duì)應(yīng)關(guān)系,該工具就可以自動(dòng)輸出各字段對(duì)應(yīng)的字段名了。如該工具可自動(dòng)輸出如下信息標(biāo)題字段名為title內(nèi)容字段名為message步驟203、運(yùn)行抓包分析工具。打開一個(gè)已知的論壇,在該論壇上發(fā)一個(gè)帖子,帖子標(biāo)題、內(nèi)容均為預(yù)定義的值,如標(biāo)題為“title-test”,內(nèi)容為“content-test”。最終工具將自動(dòng)輸出標(biāo)題、內(nèi)容對(duì)應(yīng)的字段名。步驟204、收集目前每個(gè)已知論壇的帖子標(biāo)題、內(nèi)容字段名集合。最終可以輸出類似如下的字段名集合標(biāo)題字段名集合titile、subject、strTitle、strSubject、......內(nèi)容字段名集合content、message、strContent、strMessage、......本發(fā)明實(shí)施例一提供的方案中,還可以進(jìn)一步對(duì)預(yù)先確定出的網(wǎng)址集合進(jìn)行更新,下面通過實(shí)施例三進(jìn)行說明。實(shí)施例三、本發(fā)明實(shí)施例三提供一種對(duì)預(yù)先確定出的網(wǎng)址集合進(jìn)行更新的方法,該方法的步驟如圖3所示,包括
步驟301、確定提取出的網(wǎng)址不屬于預(yù)先確定出的網(wǎng)址集合的數(shù)據(jù)流。步驟302、確定該數(shù)據(jù)流中是否包含設(shè)定的字段名。在本步驟中,可以設(shè)定至少一個(gè)特征字段,特別的,設(shè)定的至少一個(gè)特征字段可以是待提取的特征字段,針對(duì)每個(gè)設(shè)定的特征字段,確定該數(shù)據(jù)流中是否包含該特征字段對(duì)應(yīng)字段名集合中的字段名,在確定針對(duì)至少一個(gè)設(shè)定的特征字段,該數(shù)據(jù)流中包含該特征字段對(duì)應(yīng)字段名集合中的字段名時(shí),繼續(xù)執(zhí)行步驟303,否則,結(jié)束本流程。步驟303、確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址。本步驟確定出的網(wǎng)址是與預(yù)先確定出的網(wǎng)址集合對(duì)應(yīng)的,數(shù)據(jù)流提交至的網(wǎng)址,或者是數(shù)據(jù)流發(fā)布的網(wǎng)址,或者是數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址。步驟304、將該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址提交給云服務(wù)器。圖4為更新網(wǎng)址集合的拓?fù)浣Y(jié)構(gòu)示意圖,從圖4可以看出,該拓?fù)渲锌梢园ǘ鄠€(gè)數(shù)據(jù)流處理設(shè)備(實(shí)施例一中各步驟的執(zhí)行主體),因此,云服務(wù)器可能接收多個(gè)數(shù)據(jù)流處理設(shè)備上傳的網(wǎng)址,并可以對(duì)所有數(shù)據(jù)流處理設(shè)備上傳的網(wǎng)址進(jìn)行排重處理,最終生成一個(gè)具有唯一性的網(wǎng)址集合。然后可以進(jìn)一步人工對(duì)該網(wǎng)址集合進(jìn)行驗(yàn)證,判斷該網(wǎng)址集合中的哪些網(wǎng)址需要加入到預(yù)先確定出的網(wǎng)址集合中,從而實(shí)現(xiàn)對(duì)預(yù)先確定出的網(wǎng)址集合的更新。本發(fā)明實(shí)施例一提供的方案中,還可以進(jìn)一步對(duì)預(yù)先確定出的字段名集合中的字段名進(jìn)行失效檢測(cè),下面通過實(shí)施例四進(jìn)行說明。實(shí)施例四、本發(fā)明實(shí)施例四提供一種字段名失效檢測(cè)的方法,該方法的步驟如圖5所示,包括步驟401、確定產(chǎn)生審計(jì)信息的數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址。所述網(wǎng)址可以為數(shù)據(jù)流提交至的網(wǎng)址。使得后續(xù)可以針對(duì)數(shù)據(jù)流提交至的網(wǎng)址,確定產(chǎn)生的審計(jì)次數(shù)。所述網(wǎng)址也可以為數(shù)據(jù)流發(fā)布的網(wǎng)址。使得后續(xù)可以針對(duì)數(shù)據(jù)流發(fā)布的網(wǎng)址,確定產(chǎn)生的審計(jì)次數(shù)。當(dāng)然,也可以確定產(chǎn)生審計(jì)信息的數(shù)據(jù)流的數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址(即確定出的網(wǎng)址是一個(gè)二元組),使得后續(xù)可以針對(duì)數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址均相同的數(shù)據(jù)流,針對(duì)數(shù)據(jù)流提交至的網(wǎng)址和數(shù)據(jù)流發(fā)布的網(wǎng)址,確定產(chǎn)生的審計(jì)次數(shù)。下面以所述網(wǎng)址為數(shù)據(jù)流提交至的網(wǎng)址為例進(jìn)行說明。步驟402、確定設(shè)定周期內(nèi)每個(gè)網(wǎng)址對(duì)應(yīng)的審計(jì)次數(shù)。與圖4的拓?fù)浣Y(jié)構(gòu)類似的,假設(shè)拓?fù)渲写嬖趦膳_(tái)數(shù)據(jù)流處理設(shè)備(實(shí)施例一中各步驟的執(zhí)行主體),分別為第一數(shù)據(jù)流處理設(shè)備和第二數(shù)據(jù)流處理設(shè)備,且第一數(shù)據(jù)流處理設(shè)備確定出的網(wǎng)址及第一設(shè)定周期內(nèi)(周期可以設(shè)定為7天,假設(shè)第一設(shè)定周期為2011. 11. 5 11. 11)每個(gè)網(wǎng)址對(duì)應(yīng)的審計(jì)次數(shù)如表1所示(按照審計(jì)次數(shù)由高到低排列),第二數(shù)據(jù)流處理設(shè)備確定出的網(wǎng)址及第一設(shè)定周期內(nèi)每個(gè)網(wǎng)址對(duì)應(yīng)的審計(jì)次數(shù)如表2所示(按照審計(jì)次數(shù)由高到低排列)。
權(quán)利要求
1.一種數(shù)據(jù)流處理方法,其特征在于,所述方法包括接收數(shù)據(jù)流,在確定該數(shù)據(jù)流符合HTTP-POST協(xié)議時(shí),提取該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址;在確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合時(shí),確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段;針對(duì)每個(gè)待提取的特征字段,確定該數(shù)據(jù)流中是否包含預(yù)先確定出的該特征字段對(duì)應(yīng)字段名集合中的字段名,該字段名集合是預(yù)先針對(duì)該待提取的特征字段,通過抓包分析工具,解析出的已知論壇數(shù)據(jù)對(duì)應(yīng)的字段名集合;若確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名,提取該字段名對(duì)應(yīng)的字段值。
2.如權(quán)利要求1所述的方法,其特征在于,提取該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址,具體包括通過POST對(duì)應(yīng)的URL,提取該數(shù)據(jù)流對(duì)應(yīng)的數(shù)據(jù)流提交至的網(wǎng)址,和/或通過HTTP報(bào)文頭部的Referer字段,提取該數(shù)據(jù)流對(duì)應(yīng)的數(shù)據(jù)流發(fā)布的網(wǎng)址。
3.如權(quán)利要求1所述的方法,其特征在于,通過以下方式確定數(shù)據(jù)流符合HTTP-POST協(xié)議確定該數(shù)據(jù)流為傳輸控制協(xié)議TCP數(shù)據(jù)流,且該數(shù)據(jù)流的POST URI HTTP-VERSION字段中,HTTP-VERSION 為 HTTP/1. 1 或 HTTP/1. 0。
4.如權(quán)利要求1 3任一所述的方法,其特征在于,在確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址不屬于預(yù)先確定出的網(wǎng)址集合時(shí),所述方法還包括針對(duì)每個(gè)待提取的特征字段,在確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名時(shí),將該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址提交至云服務(wù)器;云服務(wù)器將該網(wǎng)址加入所述預(yù)先確定出的網(wǎng)址集合。
5.如權(quán)利要求1 3任一所述的方法,其特征在于,確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名,提取該字段名對(duì)應(yīng)的字段值之后,所述方法還包括根據(jù)提取的字段值對(duì)該字段值對(duì)應(yīng)的數(shù)據(jù)流進(jìn)行解析,以及確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址;針對(duì)每一個(gè)網(wǎng)址,確定設(shè)定周期內(nèi)對(duì)該網(wǎng)址對(duì)應(yīng)的數(shù)據(jù)流解析的次數(shù)并上報(bào)至云服務(wù)器;云服務(wù)器在確定任一周期內(nèi)對(duì)該網(wǎng)址對(duì)應(yīng)的數(shù)據(jù)流解析的次數(shù)與該周期的上一周期內(nèi)對(duì)該網(wǎng)址對(duì)應(yīng)的數(shù)據(jù)流解析的次數(shù)相比,減少的次數(shù)大于設(shè)定次數(shù)時(shí),確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段,針對(duì)每個(gè)待提取的特征字段,通過抓包分析工具,解析出該特征字段對(duì)應(yīng)的字段名,利用解析出的字段名更新該特征字段對(duì)應(yīng)的字段名集合。
6.一種數(shù)據(jù)流處理裝置,其特征在于,所述裝置包括接收模塊,用于接收數(shù)據(jù)流;第一判斷模塊,用于確定該數(shù)據(jù)流是否符合HTTP-POST協(xié)議;網(wǎng)址提取模塊,用于在第一判斷模塊確定該數(shù)據(jù)流符合HTTP-POST協(xié)議時(shí),提取該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址;第二判斷模塊,用于確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址是否屬于預(yù)先確定出的網(wǎng)址集合;確定模塊,用于在第二判斷模塊確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合時(shí),確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段;第三判斷模塊,用于針對(duì)每個(gè)待提取的特征字段,確定該數(shù)據(jù)流中是否包含預(yù)先確定出的該特征字段對(duì)應(yīng)字段名集合中的字段名,該字段名集合是預(yù)先針對(duì)該待提取的特征字段,通過抓包分析工具,解析出的已知論壇數(shù)據(jù)對(duì)應(yīng)的字段名集合;字段值提取模塊,用于在第三判斷模塊確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名時(shí),提取該字段名對(duì)應(yīng)的字段值。
7.如權(quán)利要求6所述的裝置,其特征在于,網(wǎng)址提取模塊,具體用于通過POST對(duì)應(yīng)的URL,提取該數(shù)據(jù)流對(duì)應(yīng)的數(shù)據(jù)流提交至的網(wǎng)址,和/或通過HTTP報(bào)文頭部的Referer字段,提取該數(shù)據(jù)流對(duì)應(yīng)的數(shù)據(jù)流發(fā)布的網(wǎng)址。
8.如權(quán)利要求6所述的裝置,其特征在于,第一判斷模塊,具體用于通過以下方式確定數(shù)據(jù)流符合HTTP-POST協(xié)議確定該數(shù)據(jù)流為傳輸控制協(xié)議TCP數(shù)據(jù)流,且該數(shù)據(jù)流的POST URI HTTP-VERSION字段中,HTTP-VERSION 為 HTTP/1. 1 或 HTTP/1. 0。
9.如權(quán)利要求6 8任一所述的裝置,其特征在于,所述裝置還包括更新模塊,用于在第二判斷模塊確定該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址不屬于預(yù)先確定出的網(wǎng)址集合時(shí),確定該數(shù)據(jù)流對(duì)應(yīng)的待提取的特征字段,針對(duì)每個(gè)待提取的特征字段,確定該數(shù)據(jù)流中是否包含預(yù)先確定出的該特征字段對(duì)應(yīng)字段名集合中的字段名,在確定該數(shù)據(jù)流中包含預(yù)先確定出的特征字段對(duì)應(yīng)字段名集合中的字段名時(shí),將該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址提交至云服務(wù)器。
10.如權(quán)利要求6 8任一所述的裝置,其特征在于,所述裝置還包括解析模塊,用于根據(jù)提取的字段值對(duì)該字段值對(duì)應(yīng)的數(shù)據(jù)流進(jìn)行解析;失效檢測(cè)模塊,用于確定解析模塊解析的每條數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址,針對(duì)每一個(gè)網(wǎng)址,確定設(shè)定周期內(nèi)對(duì)該網(wǎng)址對(duì)應(yīng)的數(shù)據(jù)流解析的次數(shù)并上報(bào)至云服務(wù)器。
全文摘要
本發(fā)明實(shí)施例提供一種數(shù)據(jù)流處理方法及裝置,包括在確定接收到的數(shù)據(jù)流符合HTTP-POST協(xié)議,且該數(shù)據(jù)流對(duì)應(yīng)的網(wǎng)址屬于預(yù)先確定出的網(wǎng)址集合時(shí),提取該數(shù)據(jù)流對(duì)應(yīng)的特征字段的字段值,從而可以通過是否符合HTTP-POST協(xié)議、以及對(duì)應(yīng)的網(wǎng)址是否屬于預(yù)先確定出的網(wǎng)址集合來篩選后續(xù)進(jìn)行審計(jì)的數(shù)據(jù)流,提高審計(jì)的效率。并且,可以利用抓包分析工具,解析出該特征字段對(duì)應(yīng)的字段名集合,避免了人工查找字段名效率低且容易遺漏的問題,并提高了后續(xù)對(duì)數(shù)據(jù)流進(jìn)行審計(jì)的正確率。
文檔編號(hào)H04L29/08GK102571922SQ201110415509
公開日2012年7月11日 申請(qǐng)日期2011年12月13日 優(yōu)先權(quán)日2011年12月13日
發(fā)明者魏逢一 申請(qǐng)人:北京星網(wǎng)銳捷網(wǎng)絡(luò)技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
光泽县| 古蔺县| 靖江市| 怀安县| 南丹县| 凭祥市| 城固县| 娱乐| 乐山市| 汶上县| 子长县| 平湖市| 广水市| 灵台县| 遵义县| 镇坪县| 昭平县| 墨竹工卡县| 雅江县| 英吉沙县| 方城县| 古丈县| 犍为县| 绍兴县| 恭城| 安宁市| 湄潭县| 关岭| 磐石市| 铁力市| 光山县| 同仁县| 金乡县| 高雄市| 洪湖市| 惠来县| 高碑店市| 湘西| 谷城县| 那曲县| 烟台市|