專利名稱:用于網(wǎng)絡(luò)流量監(jiān)控的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)(Internet)領(lǐng)域,且更具體而言,涉及互聯(lián)網(wǎng)中數(shù)據(jù)流量的監(jiān)控。
背景技術(shù):
隨著Internet的快速發(fā)展,互聯(lián)網(wǎng)成為信息傳播承載的主要途徑。然而,傳統(tǒng)互聯(lián)網(wǎng)缺乏監(jiān)管,惡意/黃色/人身攻 擊的信息泛濫,甚至已經(jīng)出現(xiàn)恐怖組織利用互聯(lián)網(wǎng)培養(yǎng)恐怖分子、組織恐怖襲擊的案例。為了應(yīng)對這種不良情態(tài),采用技術(shù)手段對互聯(lián)網(wǎng)進(jìn)行監(jiān)管已成為各國政府和運(yùn)營商的共識。流量監(jiān)控系統(tǒng)在這樣的背景下應(yīng)運(yùn)而生。流量監(jiān)控系統(tǒng)采集流量信息,還原原始信息,并根據(jù)原始信息中的特征進(jìn)行智能分析,從而及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中存在的漏洞,并力求對網(wǎng)絡(luò)攻擊做到防患于未然。傳統(tǒng)的流量監(jiān)控方法一般分為三個(gè)步驟流量引流、協(xié)議重組及后臺內(nèi)容分析。這三個(gè)步驟由對應(yīng)的三種功能單元完成,如圖I所示,分別為引流分類單元102、協(xié)議重組單元104及后臺內(nèi)容分析單元106。其中,引流分類單元102按照協(xié)議類型將收到的數(shù)據(jù)包分發(fā)給不同的協(xié)議重組單元104,協(xié)議重組單元104還原應(yīng)用層信息(例如,從簡單郵件傳輸協(xié)議(SMTP)報(bào)文還原電子郵件(Email)信息、從超文本傳輸協(xié)議(HTTP)報(bào)文還原網(wǎng)頁的超文本標(biāo)記語言(HTML),然后,將還原的應(yīng)用層信息連同時(shí)間標(biāo)簽,鏈路信息等發(fā)送至后臺內(nèi)容分析單元106進(jìn)行分析。后臺內(nèi)容分析單元106由服務(wù)器集群組成,對還原的應(yīng)用層信息進(jìn)行熱點(diǎn)統(tǒng)計(jì)、互聯(lián)網(wǎng)信息分析等,從而采取一定的措施抑制網(wǎng)絡(luò)攻擊。但是,在上述現(xiàn)有技術(shù)中,引流分類單元被動(dòng)引流,大流量的數(shù)據(jù)直接被導(dǎo)入到協(xié)議重組單元和后臺內(nèi)容分析單元。隨著流量的增長,協(xié)議重組單元和后臺內(nèi)容分析單元中的服務(wù)器集群的處理成本會大幅上升。其次,后臺內(nèi)容分析功能是在協(xié)議重組后完成的,從而對大量相同的內(nèi)容進(jìn)行重復(fù)重組,導(dǎo)致對協(xié)議重組單元的性能需求很大。此外,上述傳統(tǒng)的流量監(jiān)控方法由于只能獲得部分的對等網(wǎng)絡(luò)(Peer-To-Peer,英文簡稱為P2P)文件分片而無法實(shí)現(xiàn)智能鏈接其它的P2P文件分片,從而不能處理對等網(wǎng)絡(luò)的流量監(jiān)控。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的一方面提供一種用于網(wǎng)絡(luò)流量監(jiān)控的方法,所述方法包括在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL (Uniform/Universal ResourceLocator, URL)的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源;對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組;及對經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。本發(fā)明的一方面提供一種用于網(wǎng)絡(luò)流量監(jiān)控的系統(tǒng),所述系統(tǒng)包括引流分類單元,用于對數(shù)據(jù)包進(jìn)行引流分類;熱點(diǎn)統(tǒng)計(jì)單元,用于在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取單元,用于主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源;協(xié)議重組單元,用于對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組;及后臺內(nèi)容分析單元,用于對經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。本發(fā)明實(shí)施例的技術(shù)方案在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL,然后主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組和內(nèi)容分析。因此,可以減少協(xié)議重組和后臺內(nèi)容分析的負(fù)擔(dān)。此外,本發(fā)明實(shí)施例的技術(shù)方案對于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,以支持對P2P流量的監(jiān)控。
圖I為現(xiàn)有技術(shù)中傳統(tǒng)的網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)的示意圖。圖2為本發(fā)明實(shí)施例中網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)的一個(gè)實(shí)施例示意圖。圖3為本發(fā)明實(shí)施例中網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)的另一個(gè)實(shí)施例示意圖。
圖4為本發(fā)明實(shí)施例中網(wǎng)絡(luò)流量監(jiān)控方法的一個(gè)實(shí)施例示意圖。結(jié)合附圖閱讀時(shí)將更好地了解以上發(fā)明內(nèi)容以及以下本發(fā)明的某些實(shí)施例的詳細(xì)描述。出于說明本發(fā)明的目的,在圖中展示某些實(shí)施例。然而,應(yīng)了解,本發(fā)明不限于附圖中所展示的布置和手段。
具體實(shí)施例方式下文結(jié)合附圖所闡述的詳細(xì)說明意在說明本發(fā)明的各種實(shí)施例,而非代表本發(fā)明僅可實(shí)施為這些實(shí)施例。詳細(xì)說明包括具體細(xì)節(jié),以便達(dá)成對本發(fā)明的透徹了解。然而,所屬領(lǐng)域的技術(shù)人員應(yīng)了解,本發(fā)明的實(shí)施也可以不使用這些具體細(xì)節(jié)。在某些實(shí)例中,以方塊圖的形式顯示各眾所周知的結(jié)構(gòu)及組件,以免淡化對本發(fā)明的說明。圖2描繪的是根據(jù)本發(fā)明一實(shí)施例的網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)。該系統(tǒng)包括引流分類單元202、熱點(diǎn)統(tǒng)計(jì)單元204、主動(dòng)抓取單元206、協(xié)議重組單元208及后臺內(nèi)容分析單元210。其中,引流分類單元202,用于對數(shù)據(jù)包進(jìn)行引流分類;熱點(diǎn)統(tǒng)計(jì)單元204,用于在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取單元206,用于主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源;協(xié)議重組單元208,用于對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組;后臺內(nèi)容分析單元210,用于對經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。在該網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)中,先獲得熱點(diǎn)資源,再進(jìn)行協(xié)議重組和后臺內(nèi)容分析,使得對同樣的內(nèi)容僅進(jìn)行一次處理,從而減少了協(xié)議重組單元和后臺內(nèi)容分析單元的負(fù)擔(dān),提供了整個(gè)系統(tǒng)的效率。此外,對于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,以支持對P2P流量的監(jiān)控。圖3描繪的是根據(jù)本發(fā)明的另一實(shí)施例的網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)。該網(wǎng)絡(luò)流量監(jiān)控系統(tǒng)包括引流分類單元302,用于對數(shù)據(jù)包進(jìn)行引流分類;熱點(diǎn)統(tǒng)計(jì)單元304,用于在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;主動(dòng)抓取單元310,用于主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源;協(xié)議重組單元312,用于對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組;以及
后臺內(nèi)容分析單元314,用于對經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。其中,熱點(diǎn)統(tǒng)計(jì)單元304進(jìn)一步包括分級統(tǒng)計(jì) 單元306和判斷單元308。其中,分級統(tǒng)計(jì)單元306,用于建立資源表對所述URL分級統(tǒng)計(jì)被請求次數(shù)以確定每級URL是否為熱點(diǎn)URL。資源表將存儲每級URL在預(yù)定時(shí)間內(nèi)被請求的次數(shù)和預(yù)定的閾值。判斷單元308,用于當(dāng)預(yù)定時(shí)間內(nèi)某一 URL的被請求次數(shù)超過預(yù)定的閾值時(shí),確定該URL為熱點(diǎn)URL。熱點(diǎn)URL對應(yīng)的資源可以是網(wǎng)頁,也可以是P2P文件分片。圖4展示了一種用于網(wǎng)絡(luò)流量監(jiān)控的方法流程圖。這種方法可減少協(xié)議重組單元和后臺內(nèi)容分析單元的負(fù)擔(dān),提高整個(gè)系統(tǒng)的效率并降低成本;其次,對于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,支持對P2P流量的監(jiān)控。圖4所示的網(wǎng)絡(luò)流量監(jiān)控的方法包括402 :引流分類單元對數(shù)據(jù)包進(jìn)行引流分類;根據(jù)本實(shí)施例,根據(jù)所捕獲的數(shù)據(jù)包所屬的協(xié)議類型對數(shù)據(jù)包進(jìn)行引流分類。若數(shù)據(jù)包所屬的協(xié)議類型是HTTP,則只將請求頭發(fā)送給熱點(diǎn)統(tǒng)計(jì)單元。在HTTP建立請求的過程中,HTTP請求報(bào)文中的請求頭包含請求行,請求行包含請求方法,請求方法可以是GET或POST。GET—般用于獲取/查詢資源信息,而POST—般用于更新資源信息。當(dāng)客戶端要從服務(wù)器中讀取文檔時(shí),使用GET請求方法。GET請求方法要求服務(wù)器將URL定位的資源放在響應(yīng)報(bào)文的數(shù)據(jù)部分回送給客戶端。此處采用GET請求方法。GET請求行中還包括請求鏈接的URL。404 :熱點(diǎn)統(tǒng)計(jì)單元對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ;可選地,當(dāng)請求方法為GET時(shí),在預(yù)定時(shí)間內(nèi)對HTTP請求頭中的統(tǒng)一資源定位符(URL)的被請求次數(shù)進(jìn)行統(tǒng)計(jì)。通??蓪㈩A(yù)定時(shí)間設(shè)為10天。在10天內(nèi)按URL被請求的次數(shù)從高到低排序,定期清除排序靠后的URL。當(dāng)預(yù)定時(shí)間內(nèi)某一 URL被請求的次數(shù)超過預(yù)定閾值時(shí),則確定該URL為熱點(diǎn)URL,觸發(fā)主動(dòng)抓取單元執(zhí)行主動(dòng)抓取動(dòng)作。406 :主動(dòng)抓取單元主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源;在確定了熱點(diǎn)URL后,主動(dòng)抓取單元主動(dòng)抓取熱點(diǎn)URL對應(yīng)的資源。該資源可以是熱點(diǎn)URL對應(yīng)的網(wǎng)頁以及其鏈接到的其它網(wǎng)頁;該熱點(diǎn)URL對應(yīng)的資源還可以是分布在對等網(wǎng)絡(luò)(P2P)中不同節(jié)點(diǎn)上的文件分片。408 :協(xié)議重組單元對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組;410 :后臺內(nèi)容分析單元對經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。為便于理解,下面介紹兩個(gè)具體的應(yīng)用場景。一、網(wǎng)絡(luò)輿情監(jiān)控網(wǎng)絡(luò)輿情指的是網(wǎng)絡(luò)里產(chǎn)生的公眾對現(xiàn)實(shí)生活里最關(guān)心的熱點(diǎn)焦點(diǎn)問題。這些被高度關(guān)注的問題主要通過論壇、博客、微博等途徑得以傳播。由于網(wǎng)絡(luò)的快速傳播性,一些熱點(diǎn)問題發(fā)生后,在很短的時(shí)間里就會一發(fā)不可收拾。對網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控,可以及時(shí)應(yīng)對網(wǎng)絡(luò)突發(fā)的公共事件和全面掌握社情民意。在本應(yīng)用場景中,熱點(diǎn)統(tǒng)計(jì)單元通過在預(yù)定時(shí)間內(nèi)對統(tǒng)計(jì)HTTP/GET請求中的URL的被請求次數(shù)來確定熱點(diǎn)URL,然后主動(dòng)抓取單元抓取該熱點(diǎn)URL對應(yīng)的網(wǎng)頁及其鏈接的其他網(wǎng)頁,可以達(dá)到輿情監(jiān)控的目的。
在一些實(shí)施例中,熱點(diǎn)統(tǒng)計(jì)單元在預(yù)定時(shí)間內(nèi)每收到一次HTTP/GET報(bào)文記做一次記錄??梢圆捎觅Y源表的形式對URL進(jìn)行分級統(tǒng)計(jì)。統(tǒng)計(jì)的深度根據(jù)監(jiān)控的要求來確定。本領(lǐng)域的技術(shù)人員可以理解的是,URL中每個(gè)除號(/)劃分一個(gè)級別。如,對于www.XXX. com/sport/football/f ifa2012/index, html 的 URL,可以將統(tǒng)計(jì)深度設(shè)為 3。第一級為www. XXX. com ;第二級為 www. xxx. com/sport ;第 3 級為 www. xxx. com/sport/football。統(tǒng)計(jì)所得的數(shù)據(jù)和預(yù)定閾值都存儲在資源表中。需要說明的是,閾值的設(shè)置通常參考經(jīng)驗(yàn)值。如果將經(jīng)驗(yàn)值設(shè)置過低,則會導(dǎo)致大量內(nèi)容緩存在本地,設(shè)置過高 又會導(dǎo)致部分熱點(diǎn)信息的漏報(bào)。經(jīng)驗(yàn)值可根據(jù)對監(jiān)控?zé)狳c(diǎn)的定義、系統(tǒng)的存儲容量進(jìn)行合理設(shè)置。預(yù)定閾值的設(shè)置可與客戶所用的系統(tǒng)相關(guān)。例如,在中國國干網(wǎng),閾值可設(shè)為幾萬;在省市出口網(wǎng),則可以設(shè)為幾千。下表I展示對熱點(diǎn)URL進(jìn)行統(tǒng)計(jì)的示意資源表表I
URL級別 URL__統(tǒng)計(jì)的請求次數(shù)閾值_
1級www.xxx.com10000次訪問8000
2級www.xxx.comhport 7000次訪問8000
3級www.xxx.comAport/foo 5000次訪問8000
tball其中,在預(yù)定時(shí)間內(nèi),www. xxx. com的請求次數(shù)10000超過了閾值8000,則確定該URL為熱點(diǎn)URL。在一些實(shí)施例中,可以采用哈希表的方式將資源表存儲在數(shù)據(jù)文件上,資源表的索引存儲在內(nèi)存中。根據(jù)URL找到散列值,再由散列值找到索引,直接根據(jù)索弓I指針定位到數(shù)據(jù)文件。在熱點(diǎn)統(tǒng)計(jì)單元確定熱點(diǎn)URL后,主動(dòng)抓取單元主動(dòng)抓取熱點(diǎn)URL對應(yīng)的網(wǎng)頁以及其鏈接到的其它網(wǎng)頁。若A網(wǎng)頁是熱點(diǎn)網(wǎng)頁,A網(wǎng)頁包含到B網(wǎng)頁的鏈接,B網(wǎng)頁包含到C網(wǎng)頁的鏈接。在挖掘深度為3的情況下,A,B, C網(wǎng)頁都被主動(dòng)抓取到本地。實(shí)際應(yīng)用中具體的挖掘深度由手工設(shè)置,在通常情況下挖掘深度為5級可以完成監(jiān)控的需要。舉例而言,若www. xxx. com被確定為熱點(diǎn)URL,則主動(dòng)抓取單元發(fā)送HTTP/GET請求到www. xxx. com,這時(shí)通常直接返回Index, html。分析Index, html上的鏈接,做廣度或者深度抓取。通常Index網(wǎng)頁代表一個(gè)主頁,由主頁開始逐級抓取各級網(wǎng)頁內(nèi)容。深度抓取采用的是遞歸抓取所有遇到的超級鏈接,直到遞歸達(dá)到要求的抓取級別。廣度抓取則是檢索一個(gè)網(wǎng)頁的全部超級鏈接,分別發(fā)送HTTP請求以抓取全部內(nèi)容,然后再逐級深入直到要求的抓取級別。抓取到的資源通過協(xié)議重組后供后臺進(jìn)行分析,可以了解到獨(dú)立IP (InternetProtocol,網(wǎng)絡(luò)協(xié)議,IP)地址流量、網(wǎng)站頁面流量、獨(dú)立用戶流量、新用戶流量等數(shù)據(jù),從而實(shí)現(xiàn)對輿情的監(jiān)控。二、對等網(wǎng)絡(luò)(P2P)
P2P,即Peer-To-Peer,作為對等網(wǎng)絡(luò)的代名詞已被人們所熟知。P2P網(wǎng)絡(luò)可以簡單的定義成通過直接交換來實(shí)現(xiàn)不同系統(tǒng)之間的資源共享。在P2P網(wǎng)絡(luò)環(huán)境中,通過Internet連接的計(jì)算機(jī)被看做是平等的參與者,它們的地位是彼此對等的,每個(gè)參與通信的節(jié)點(diǎn)被稱作為一個(gè)Peer。在P2P模式下,服務(wù)器和客戶端之間的界限被取消了。由于數(shù)據(jù)存儲、處理和網(wǎng)絡(luò)帶寬等均是以一種完全分散、異步的方式來運(yùn)行,各種負(fù)載就可以得到完全合理的均衡。P2P的應(yīng)用模式的特點(diǎn)就是下載的人越多,提供的帶寬也越寬,種子也會越來越多,下載的速度越來越快。在P2P應(yīng)用中,P2P節(jié)點(diǎn)通過瀏覽器到網(wǎng)站下載需要的種子文件,然后從中獲取Tracker服務(wù)器的地址并與之連接,連接成功后Track服務(wù)器就會返回正在下載同一資源文件的其它節(jié)點(diǎn)(鄰居節(jié)點(diǎn))的信息。請求節(jié)點(diǎn)獲取該信息后向這些鄰居節(jié)點(diǎn)發(fā)出消息建立連接,進(jìn)行資源的下載,從而實(shí)現(xiàn)在網(wǎng)絡(luò)中的對等節(jié)點(diǎn)之間共享資源和服務(wù)。其中,種子文件是被下載文件的“索引”,下載文件的每個(gè)塊的索引信息和Hash驗(yàn)證碼都寫入種子文件。Tracker服務(wù)器是收集下載者的服務(wù)器,并將此信息提供給其它下載者,使下載者們相互連接起來傳輸數(shù)據(jù)。 由此可見,下載者要下載文件內(nèi)容,首先需要得到相應(yīng)的種子文件,然后解析種子文件得到Tracker服務(wù)器的地址,連接Tracker服務(wù)器。下載者從Tracker服務(wù)器的回應(yīng)消息中獲得其它下載者(鄰居節(jié)點(diǎn))的IP地址,連接其它下載者完成數(shù)據(jù)和資源的共享。在這個(gè)過程中,要下載的文件被分為若干個(gè)文件分片,其分別存儲于不同的節(jié)點(diǎn)當(dāng)中,而Tracker服務(wù)器能獲知每個(gè)文件分片所存儲的不同節(jié)點(diǎn)的IP地址。節(jié)點(diǎn)與Tracker服務(wù)器之間的通信基于HTTP協(xié)議。也就是說,節(jié)點(diǎn)連接Tracker服務(wù)器需要首先向該Tracker服務(wù)器發(fā)送HTTP/GET請求,該請求中包含的URL是種子文件中記錄的Tracker服務(wù)器的地址。在一些實(shí)施例中,熱點(diǎn)統(tǒng)計(jì)單元對P2P節(jié)點(diǎn)在預(yù)定時(shí)間內(nèi)向Tracker服務(wù)器發(fā)送HTTP/GET請求中的URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)。當(dāng)在預(yù)定時(shí)間內(nèi)對某個(gè)URL的請求次數(shù)超過預(yù)定閾值時(shí),將該URL確定為熱點(diǎn)URL。主動(dòng)抓取模塊向該熱點(diǎn)URL對應(yīng)的Tracker請求下載文件的每個(gè)文件分片所存儲的節(jié)點(diǎn)的IP地址,然后從不同的節(jié)點(diǎn)獲取不同的文件分片,將這些分片重新組合為原始內(nèi)容,供后臺內(nèi)容分析單元進(jìn)行分析??梢允估斫獾氖?,這里的主動(dòng)抓取單元類似一個(gè)P2P節(jié)點(diǎn)。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,該程序可以存儲于一種計(jì)算機(jī)可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。結(jié)合本文所揭示實(shí)施例闡述的各種例示性邏輯塊、單元、電路、元件及/或組件可通過通用處理器、數(shù)字信號處理器(Digital Signal Processing, DSP)、應(yīng)用專用集成電路(Application Specific Integrated Circuit, ASIC)、現(xiàn)場可編程門陣列(Field-Programmable Gate Array, FPGA)或其它可編程邏輯組件、離散門或晶體管邏輯、離散硬件組件、或設(shè)計(jì)用于執(zhí)行本文所述功能的其任何組合來實(shí)施或執(zhí)行。通用處理器可為微處理器,但另一選擇為,處理器也可為任何常規(guī)處理器、控制器、微控制器、或狀態(tài)機(jī)。處理器也可實(shí)施為計(jì)算組件的組合,例如DSP與微處理器的組合、多個(gè)微處理器的組合、一個(gè)或多個(gè)微處理器與DSP核心的組合、或任何其它這種配置。
本發(fā)明的實(shí)施例在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL,然后主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組和內(nèi)容分析。因此,可以減少協(xié)議重組單元和后臺內(nèi)容分析單元的負(fù)擔(dān)。此外,本發(fā)明實(shí)施例的技術(shù)方案對于分布式P2P資源,可主動(dòng)抓取分布在各處的P2P文件分片,以支持對P2P流量的監(jiān)控。以上對本發(fā)明所提供的用于網(wǎng)絡(luò)流量監(jiān)控的方法和系統(tǒng)進(jìn)行了詳細(xì)介紹,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實(shí)施例的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會有改變之處,因此,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。·
權(quán)利要求
1.一種用于網(wǎng)絡(luò)流量監(jiān)控的方法,其特征在于,所述方法包括 對數(shù)據(jù)包進(jìn)行引流分類; 在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ; 主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源; 對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組;及 對經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于, 在預(yù)定時(shí)間內(nèi)對URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL包括對所述URL分級統(tǒng)計(jì)被請求次數(shù)以確定每級URL是否為熱點(diǎn)URL。
3.根據(jù)權(quán)利要求I或2所述的方法,其特征在于,其中, 所述熱點(diǎn)URL對應(yīng)的資源包括網(wǎng)頁或?qū)Φ染W(wǎng)絡(luò)P2P文件分片。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,在預(yù)定時(shí)間內(nèi)對URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL包括當(dāng)某個(gè)URL在預(yù)定時(shí)間內(nèi)被請求次數(shù)超過預(yù)定閾值時(shí),則將該URL確定為所述熱點(diǎn)URL。
5.一種用于網(wǎng)絡(luò)流量監(jiān)控的系統(tǒng),其特征在于,所述系統(tǒng)包括 引流分類單元,用于對數(shù)據(jù)包進(jìn)行引流分類; 熱點(diǎn)統(tǒng)計(jì)單元,用于在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL ; 主動(dòng)抓取單元,用于主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源; 協(xié)議重組單元,用于對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組;及 后臺內(nèi)容分析單元,用于對經(jīng)協(xié)議重組后的數(shù)據(jù)進(jìn)行內(nèi)容分析。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述熱點(diǎn)統(tǒng)計(jì)單元進(jìn)一步包括分級統(tǒng)計(jì)單元,所述分級統(tǒng)計(jì)單元用于對所述URL分級統(tǒng)計(jì)請求次數(shù)以確定每級URL是否為熱點(diǎn)URL。
7.根據(jù)權(quán)利要求5或6所述的系統(tǒng),其特征在于, 所述熱點(diǎn)URL對應(yīng)的資源包括網(wǎng)頁或?qū)Φ染W(wǎng)絡(luò)P2P文件分片。
8.根據(jù)權(quán)利要求5-7中任一項(xiàng)所述的系統(tǒng),其特征在于,所述熱點(diǎn)統(tǒng)計(jì)單元進(jìn)一步包括判斷單元,所述判斷單元用于當(dāng)某個(gè)URL在預(yù)定時(shí)間內(nèi)被請求次數(shù)超過預(yù)定閾值時(shí),則將該URL確定為熱點(diǎn)URL。
全文摘要
本發(fā)明的實(shí)施例涉及用于網(wǎng)絡(luò)流量監(jiān)控的方法和系統(tǒng)。本發(fā)明實(shí)施例的方法包括在預(yù)定時(shí)間內(nèi)對統(tǒng)一資源定位符URL的被請求次數(shù)進(jìn)行統(tǒng)計(jì)以確定熱點(diǎn)URL,主動(dòng)抓取所述熱點(diǎn)URL對應(yīng)的資源,對主動(dòng)抓取的所述熱點(diǎn)URL對應(yīng)的資源進(jìn)行協(xié)議重組,及對經(jīng)協(xié)議重組的數(shù)據(jù)進(jìn)行內(nèi)容分析。本發(fā)明實(shí)施例還提供一種用于網(wǎng)絡(luò)流量監(jiān)控的系統(tǒng)。本發(fā)明的實(shí)施例可以有效減少協(xié)議重組及后臺內(nèi)容分析和的負(fù)擔(dān),提高整個(gè)系統(tǒng)的效率,降低系統(tǒng)成本;此外,對于分布式P2P資源,可以進(jìn)行智能重組,支持P2P監(jiān)控。
文檔編號H04L12/26GK102957571SQ201110241618
公開日2013年3月6日 申請日期2011年8月22日 優(yōu)先權(quán)日2011年8月22日
發(fā)明者陳旭, 宋璇, 尹咸陽, 張仁卓 申請人:華為技術(shù)有限公司