欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種大規(guī)模數(shù)據(jù)的處理方法和系統(tǒng)的制作方法

文檔序號:7893373閱讀:144來源:國知局
專利名稱:一種大規(guī)模數(shù)據(jù)的處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技木,特別涉及一種大規(guī)模數(shù)據(jù)的處理方法和系統(tǒng)。
背景技木隨著網(wǎng)絡(luò)用戶的不斷擴(kuò)大,Internet上的數(shù)據(jù)量成爆炸性增長,人們對網(wǎng)絡(luò)的傳輸速度、數(shù)據(jù)的安全及可靠性有了新的認(rèn)識(shí)。用戶的數(shù)據(jù)廣泛地分布在很多地方,對用戶來 說沒有被完善管理的數(shù)據(jù)存儲(chǔ)和備份使商務(wù)運(yùn)作存在著隱含的危險(xiǎn),數(shù)據(jù)傳輸?shù)乃俣群唾|(zhì)量影響著用戶體驗(yàn),另外隨著云服務(wù)的逐漸興起和推廣,大規(guī)模數(shù)據(jù)的存儲(chǔ)、統(tǒng)計(jì)或分析等處理需求成為亟待解決的問題。然而,現(xiàn)有的數(shù)據(jù)處理系統(tǒng)和方法受限于性能的影響無法滿足大規(guī)模數(shù)據(jù)的處理需求,例如現(xiàn)有數(shù)據(jù)處理系統(tǒng)和方法如果直接應(yīng)用于大規(guī)模數(shù)據(jù)的存儲(chǔ),則會(huì)帶來無法承受的數(shù)據(jù)讀寫壓力。

發(fā)明內(nèi)容本發(fā)明提供了一種大規(guī)模數(shù)據(jù)的處理方法和系統(tǒng),以便滿足大規(guī)模數(shù)據(jù)的處理需求。具體技術(shù)方案如下ー種大規(guī)模數(shù)據(jù)的處理系統(tǒng),該系統(tǒng)包括流量采集子系統(tǒng)和流量處理子系統(tǒng);所述流量采集子系統(tǒng),用于采集數(shù)據(jù)流量,將采集到的數(shù)據(jù)流量進(jìn)行鏡像,并將得到的鏡像流量分流為P路子流量發(fā)送至所述流量處理子系統(tǒng)中的流量存儲(chǔ)集群,P為大于I的整數(shù);所述流量存儲(chǔ)集群由M臺(tái)存儲(chǔ)服務(wù)器組成,每臺(tái)存儲(chǔ)服務(wù)器下掛N個(gè)磁盤,所述M為正整數(shù),N為大于I的整數(shù),且MXN > P ;每臺(tái)存儲(chǔ)服務(wù)器接收分流到的子流量,并采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述流量采集子系統(tǒng)包括用于采集外網(wǎng)核心交換機(jī)出口的數(shù)據(jù)流量并對采集到的數(shù)據(jù)流量進(jìn)行鏡像的流量采集單元,以及用于采用負(fù)載均衡技術(shù)將鏡像流量分流為各子流量的分流處理單元。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述流量采集單元由分光器和光放大器組成;所述分光器對外網(wǎng)核心交換機(jī)出口的數(shù)據(jù)流量進(jìn)行分光處理,所述光放大器對分光處理后的數(shù)據(jù)流量進(jìn)行光放大形成鏡像流量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述分流處理單元為分流交換機(jī),采用trunk的方式將鏡像流量采用負(fù)載均衡技術(shù)分流成P路子流量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,每臺(tái)存儲(chǔ)服務(wù)器上運(yùn)行多個(gè)進(jìn)程,每個(gè)進(jìn)程分別對應(yīng)所述N個(gè)磁盤中的部分磁盤,每個(gè)進(jìn)程分別負(fù)責(zé)接收一部分子流量以及將接收到的所述部分子流量按預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入對應(yīng)磁盤。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述流量處理子系統(tǒng)還包括實(shí)時(shí)分析集群;
所述流量采集子系統(tǒng)將采集到的數(shù)據(jù)流量進(jìn)行鏡像得到兩路鏡像流量,其中一路鏡像流量用于執(zhí)行所述分流處理,另一路鏡像流量被發(fā)送至所述實(shí)時(shí)分析集群;所述實(shí)時(shí)分析集群,用于對接收到的鏡像流量進(jìn)行流量信息的統(tǒng)計(jì),并利用統(tǒng)計(jì)結(jié)果生成分析文件。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述實(shí)時(shí)分析集群包括由服務(wù)器集群組成的實(shí)時(shí)接收模塊和匯總統(tǒng)計(jì)模塊;所述實(shí)時(shí)接收模塊中的若干個(gè)服務(wù)器接收所述鏡像流量,將統(tǒng)計(jì)的流量信息寫入日志文件;所述匯總統(tǒng)計(jì)模塊將所述若干個(gè)服務(wù)器所生成的日志文件進(jìn)行下載,匯總各日志文件中的流量信息得到并輸出分析文件,其中所述下載的周期長度大于所述實(shí)時(shí)接收模塊將統(tǒng)計(jì)的流量信息寫入日志文件的周期長度。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述流量處理子系統(tǒng)還包括非實(shí)時(shí)分析集群,用于匯總所述流量存儲(chǔ)集群存儲(chǔ)的子流量后進(jìn)行分析,所述分析包括網(wǎng)絡(luò)攻擊行為的挖掘或者需求數(shù)據(jù)的抽取。一種大規(guī)模數(shù)據(jù)的處理方法,該方法應(yīng)用于包括流量采集子系統(tǒng)和流量處理子系統(tǒng)的大規(guī)模數(shù)據(jù)處理系統(tǒng),所述流量處理子系統(tǒng)中的流量存儲(chǔ)集群由M臺(tái)存儲(chǔ)服務(wù)器組成,每臺(tái)存儲(chǔ)服務(wù)器下掛N個(gè)磁盤,所述方法包括所述流量采集子系統(tǒng)采集數(shù)據(jù)流量,將采集到的數(shù)據(jù)流量進(jìn)行鏡像,并將得到的鏡像流量分流為P路子流量發(fā)送至所述流量存儲(chǔ)集群,P為大于I的整數(shù);每臺(tái)存儲(chǔ)服務(wù)器接收分流到的子流量,并采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤;其中所述M為正整數(shù),N為大于I的整數(shù),且MXN ^ P0根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述采集數(shù)據(jù)流量具體為采集外網(wǎng)核心交換機(jī)的數(shù)據(jù)流量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述將采集到的數(shù)據(jù)流量進(jìn)行鏡像具體為采用分光器對采集的數(shù)據(jù)流量進(jìn)行分光處理,采用光放大器對分光處理后的數(shù)據(jù)流量進(jìn)行光放大形成鏡像流量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述將得到的鏡像流量分流為P路子流量具體為采用分流交換機(jī)的trunk方式將鏡像流量采用負(fù)載均衡技術(shù)分流成P路子流量。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤具體為每臺(tái)存儲(chǔ)服務(wù)器上運(yùn)行多個(gè)進(jìn)程,每個(gè)進(jìn)程分別對應(yīng)所述N個(gè)磁盤中的部分磁盤,每個(gè)進(jìn)程分別負(fù)責(zé)接收一部分子流量以及將接收到的所述部分子流量按預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入對應(yīng)磁盤。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述流量采集子系統(tǒng)在將采集到的數(shù)據(jù)流量進(jìn)行鏡像吋,得到兩路鏡像流量,其中一路鏡像流量用于執(zhí)行所述分流處理,另一路鏡像流量被發(fā)送至所述流量處理子系統(tǒng)的實(shí)時(shí)分析集群;所述實(shí)時(shí)分析集群對接收到的鏡像流量進(jìn)行流量信息的統(tǒng)計(jì),并利用統(tǒng)計(jì)結(jié)果生成分析文件。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述對接收到的鏡像流量進(jìn)行流量信息的統(tǒng)計(jì),井利用統(tǒng)計(jì)結(jié)果生成分析文件具體為
所述實(shí)時(shí)分析集群中的若干個(gè)服務(wù)器接收所述鏡像流量,將統(tǒng)計(jì)的流量信息寫入日志文件;所述實(shí)時(shí)分析集群中的匯總統(tǒng)計(jì)模塊將所述若干個(gè)服務(wù)器所生成的日志文件進(jìn)行下載,匯總各日志文件中的流量信息得到并輸出分析文件,其中所述下載的周期長度大于所述將統(tǒng)計(jì)的流量信息寫入日志文件的周期長度。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法還包括非實(shí)時(shí)分析集群匯總所述流量存儲(chǔ)集群存儲(chǔ)的子流量后進(jìn)行分析,所述分析包括網(wǎng)絡(luò)攻擊行為的挖掘或者需求數(shù)據(jù)的抽取。由以上技術(shù)方案可以看出,本發(fā)明提供的系統(tǒng)和方法中,流量采集子系統(tǒng)首先將采集到的數(shù)據(jù)流量進(jìn)行鏡像后,將得到的鏡像流量分流為多路子流量發(fā)送至流量處理子系統(tǒng)的流量存儲(chǔ)集群,流量存儲(chǔ)集群由若干臺(tái)存儲(chǔ)服務(wù)器組成,每臺(tái)存儲(chǔ)服務(wù)器將接收到的分流量采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的多個(gè)磁盤,通過這種方式降低了磁 盤持續(xù)寫的壓力,較好地解決了大規(guī)模數(shù)據(jù)存儲(chǔ)的問題,同時(shí)提高了磁盤利用率,有效節(jié)約了服務(wù)器成本。

圖I為本發(fā)明實(shí)施例提供的大規(guī)模數(shù)據(jù)的處理系統(tǒng)示意圖;圖2為本發(fā)明實(shí)施例提供的一個(gè)系統(tǒng)實(shí)例圖;圖3為本發(fā)明實(shí)施例提供的大規(guī)模數(shù)據(jù)的處理方法流程圖。
具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。首先對本發(fā)明所提供的大規(guī)模數(shù)據(jù)的處理系統(tǒng)進(jìn)行描述,如圖I所示,該系統(tǒng)可以包括流量采集子系統(tǒng)100和流量處理子系統(tǒng)200。流量采集子系統(tǒng)100,用于采集數(shù)據(jù)流量,并將采集到的數(shù)據(jù)流量鏡像到流量處理子系統(tǒng)200中的服務(wù)器集群。具體可以包括用于采集數(shù)據(jù)流量并對采集到的數(shù)據(jù)流量進(jìn)行鏡像的流量采集單元110,并進(jìn)ー步可以包括用于采用負(fù)載均衡技術(shù)將鏡像流量分流為各子流量的分流處理單元120。其中,流量采集單元110在采集數(shù)據(jù)流量時(shí),可以布設(shè)采集點(diǎn)在外網(wǎng)核心交換機(jī)的出口,這樣的布設(shè)方式一方面可以無損地采集全部的流量數(shù)據(jù),另一方面以較少的采集點(diǎn)就可以完成預(yù)期目標(biāo),對于工程實(shí)施能夠節(jié)約成本且降低工程難度。另外,流量采集單元110采集數(shù)據(jù)流量并進(jìn)行鏡像的方式可以包括以下兩種其一、端ロ鏡像方式通過將外網(wǎng)核心交換機(jī)一個(gè)端ロ或多個(gè)端ロ的數(shù)據(jù)鏡像到另ー個(gè)或多個(gè)端ロ的方式,實(shí)現(xiàn)數(shù)據(jù)流量的采集,這種方式是現(xiàn)有技術(shù),在此不再詳述。其ニ、分光鏡像方式首先通過分光器對外網(wǎng)核心交換機(jī)的出口數(shù)據(jù)進(jìn)行分光處理,由于分光后信號強(qiáng)度會(huì)有衰減,因此可以進(jìn)ー步對分光處理后的流量進(jìn)行光放大,從而保證分光后的流量的信號強(qiáng)度充足,確保數(shù)據(jù)的完整和可靠。分光鏡像方式相比較端ロ鏡像方式的優(yōu)點(diǎn)是穩(wěn)定性和可靠性都較高,端ロ鏡像方式會(huì)對核心交換機(jī)本身產(chǎn)生影響,對于線上服務(wù)來說,核心交換機(jī)的故障對服務(wù)的影響是致命的,因此,分光鏡像方式作為ー種優(yōu)選的數(shù)據(jù)流量采集方式。鏡像后得到的一路流量可以發(fā)送給流量處理子系統(tǒng)200中的實(shí)時(shí)分析集群用于對流量進(jìn)行實(shí)時(shí)分析,另一路流量可以發(fā)送至分流處理單元120進(jìn)行進(jìn)一歩處理。分流處理單元120可以采用分流交換機(jī)來實(shí)現(xiàn)。在分流時(shí)可以 采用trunk的方式,分流交換機(jī)將接收到的鏡像流量采用負(fù)載均衡技術(shù)分流成多路子流量發(fā)送給流量處理子系統(tǒng)200中的服務(wù)器集群以對該多路子流量進(jìn)行相同的處理,這里主要是對多路子流量分別進(jìn)行存儲(chǔ)處理。以處理IOG的數(shù)據(jù)流量為例,交換機(jī)的一個(gè)萬兆端ロ作為入端ロ接入該IOG的數(shù)據(jù)流量,出端ロ同時(shí)存在8個(gè)千兆ロ作為ー個(gè)trunk,這樣8個(gè)千兆ロ會(huì)以輪叫調(diào)度(round-robin)方式將入端ロ的流量均勻分布在8個(gè)千兆口上,實(shí)現(xiàn)對高速流量的第一次負(fù)載均衡。圖2為流量采集子系統(tǒng)100的其中一個(gè)實(shí)施方式的示意圖,即分光裝置將外網(wǎng)核心交換機(jī)的出口流量進(jìn)行分光處理,光放大器對分光處理后的流量進(jìn)行光放大,再經(jīng)由分流交換機(jī)實(shí)現(xiàn)流量的分流。分光后得到的一路流量可以發(fā)送給流量處理子系統(tǒng)200中的實(shí)時(shí)分析集群,分光后得到的另一路流量經(jīng)分流交換機(jī)處理后得到的各路子流量可以發(fā)送給流量處理子系統(tǒng)200中的流量存儲(chǔ)集群,用于后續(xù)的非實(shí)時(shí)分析。下面對流量處理子系統(tǒng)200中的實(shí)時(shí)分析集群210和流量存儲(chǔ)集群220進(jìn)行詳細(xì)描述。實(shí)時(shí)分析集群210對接收到的流量進(jìn)行流量信息的統(tǒng)計(jì),并利用統(tǒng)計(jì)結(jié)果生成分析文件。具體地,該實(shí)時(shí)分析集群210可以具體包括實(shí)時(shí)接收模塊和匯總統(tǒng)計(jì)模塊(圖I中并未示出)。其中實(shí)時(shí)接收模塊可以由服務(wù)器集群構(gòu)成,該服務(wù)器集群中的各服務(wù)器運(yùn)行相同的包捕獲和統(tǒng)計(jì)程序,將統(tǒng)計(jì)結(jié)果寫入日志(log)文件。以萬兆服務(wù)器為例,每臺(tái)萬兆服務(wù)器支持2個(gè)萬兆網(wǎng)卡,能夠同時(shí)處理20G的數(shù)據(jù)流量,包捕獲程序能夠完成從萬兆網(wǎng)卡的高效收包,統(tǒng)計(jì)程序以目的ip為單位進(jìn)行流量信息的分別統(tǒng)計(jì),統(tǒng)計(jì)的內(nèi)容可以包括但不限于tcp流量值、udp流量值、icmp流量值等,單位通常為bps ;tcp包速率、udp包速率、icmp包速率等,単位通常為pps ;非服務(wù)端ロ毎秒的訪問次數(shù);http毎秒的get請求數(shù)、get數(shù)據(jù)包的長度;http主要狀態(tài)碼每秒回應(yīng)的數(shù)據(jù)包個(gè)數(shù)等信息。然后可以將統(tǒng)計(jì)結(jié)果以ニ進(jìn)制格式寫入log文件。匯總統(tǒng)計(jì)模塊將實(shí)時(shí)接收模塊的服務(wù)器集群生成的log文件進(jìn)行下載,其中下載的周期長度通常大于實(shí)時(shí)接收模塊將統(tǒng)計(jì)的流量信息寫入log文件的周期長度。然后對各log文件中的流量信息進(jìn)行匯總得到分析文件,輸出該分析文件。例如,可以對各log文件中相同目的ip的流量信息進(jìn)行匯總。流量存儲(chǔ)集群220是由M臺(tái)存儲(chǔ)服務(wù)器組成的集群,M為正整數(shù),完成的主要功能是將接收到的流量以高效可靠的方式寫入磁盤進(jìn)行保存。由于接收到海量的數(shù)據(jù)包,且實(shí)際線上應(yīng)用處理的流量通常是幾十甚至上百G/s的速率,需要將大規(guī)模的流量以較小的成本代價(jià)存儲(chǔ)在慢速的磁盤。在本發(fā)明中每一臺(tái)存儲(chǔ)服務(wù)器下掛N個(gè)磁盤,N為大于I的正整數(shù),且MXN ^ P,P為流量處理子系統(tǒng)200分流后得到的子流量數(shù)量。存儲(chǔ)服務(wù)器接收分流到的流量,將接收到的流量采用負(fù)載均衡技術(shù)寫入各磁盤,具體地,可以按預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入各磁盤。其中每一臺(tái)存儲(chǔ)服務(wù)器上可以運(yùn)行多個(gè)進(jìn)程,每個(gè)進(jìn)程分別對應(yīng)部分磁盤,每個(gè)進(jìn)程分別負(fù)責(zé)其中一部子流量的接收以及將該部子流量按預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入對應(yīng)磁盤。舉ー個(gè)例子,假設(shè)流量存儲(chǔ)子系統(tǒng)包括兩臺(tái)存儲(chǔ)服務(wù)器,每臺(tái)存儲(chǔ)服務(wù)器攜帯一張4 ロ千兆網(wǎng)卡,掛載8塊磁盤,每塊1T。分流處理單元120分流后得到8路子流量,每臺(tái)存儲(chǔ)服務(wù)器上同時(shí)運(yùn)行4個(gè)獨(dú)立進(jìn)程,分別從4個(gè)千兆網(wǎng)卡接收流量,即負(fù)責(zé)接收其中4路子流量,每個(gè)進(jìn)程對應(yīng)2塊磁盤。每個(gè)進(jìn)程將流量往磁盤寫的過程中再一次采用了負(fù)載均衡策略,即第二次負(fù)載均衡,可以以分鐘為單位依次輪流寫入2塊磁盤,第一分鐘的流量寫入第一塊磁盤,第二分鐘的流量寫入第ニ塊磁盤,第三分鐘的流量寫入第ー塊磁盤,第四分鐘的流量寫入第二塊磁盤,以此類推。這種負(fù)載均衡策略充分利用了各個(gè)進(jìn)程和磁盤的獨(dú)立性,降低了磁盤持續(xù)寫的壓力,較好地解決了大規(guī)模數(shù)據(jù)存儲(chǔ)的問題,同時(shí)提高了磁盤利用率,有效地節(jié)約了服務(wù)器成本。除此之外,流量處理子系統(tǒng)200還可以進(jìn)ー步包括非實(shí)時(shí)分析集群230,用于對流量存儲(chǔ)集群220存儲(chǔ)的流量進(jìn)行匯總后進(jìn)行分析,包括但不限于網(wǎng)絡(luò)攻擊行為的挖掘或者需求數(shù)據(jù)的抽取等。在進(jìn)行網(wǎng)絡(luò)攻擊行為的挖掘時(shí),可以抽取攻擊時(shí)段的流量,基于所抽取流量的特征進(jìn)行攻擊行為分析。例如,對于常見的網(wǎng)絡(luò)攻擊,主要包括網(wǎng)絡(luò)層面帶寬型攻擊、tcp層的synflood和ack flood攻擊、應(yīng)用層的分布式請求攻擊。各種網(wǎng)絡(luò)攻擊行為會(huì)對產(chǎn)品的穩(wěn)定運(yùn)行帶來影響,我們能夠基于以存儲(chǔ)的歷史數(shù)據(jù)即流量存儲(chǔ)集群220存儲(chǔ)的流量來深度解析攻擊特征,為產(chǎn)品線的防御和攻擊行為的取證提供服務(wù)。對于網(wǎng)絡(luò)層面的帶寬型攻擊,常見的有udp flood和icmp flood,我們通過抽取攻擊時(shí)段的流量,然后統(tǒng)計(jì)該時(shí)段各種類型的流量大小來判斷攻擊類型和攻擊規(guī)模。對于tcp層協(xié)議棧資源耗盡型攻擊,通過抽取攻擊時(shí)段的流量,統(tǒng)計(jì)時(shí)段tcp標(biāo)志位各種類型的包速率來判斷攻擊類型和攻擊規(guī)模。對于應(yīng)用層的分布式請求攻擊,通過抽取攻擊時(shí)段的數(shù)據(jù)包,統(tǒng)計(jì)該時(shí)段http請求頭的各個(gè)字段,包括host、url、cookie、User-Agent或referer等字段,來判斷攻擊類型,并進(jìn)一步判斷被攻擊的產(chǎn)品線及相關(guān)頁面,同時(shí)歸納總結(jié)http頭部的請求特征,為封禁策略提供識(shí)別標(biāo)志。目前業(yè)務(wù)方面對過去訪問記錄的需求包括追蹤問題和產(chǎn)品的線下測試,需求數(shù)據(jù)的抽取正是為了滿足該需求。具體實(shí)現(xiàn)方法是基于流量存儲(chǔ)集群220存儲(chǔ)的流量,非實(shí)時(shí)分析集群230根據(jù)產(chǎn)品線的目的ip,從流量存儲(chǔ)集群220存儲(chǔ)的流量中抽取對應(yīng)目的ip的 數(shù)據(jù)包并以諸如抓包(Pcap)文件格式存儲(chǔ)下來,用于后續(xù)將該數(shù)據(jù)包提供給業(yè)務(wù)需求方?;谏鲜鎏幚硐到y(tǒng)實(shí)現(xiàn)的大規(guī)模數(shù)據(jù)的處理方法可以如圖3所示,主要包括以下步驟步驟301 :流量采集子系統(tǒng)采集數(shù)據(jù)流量,將采集到的數(shù)據(jù)流量進(jìn)行鏡像,將得到的其中一路鏡像流量執(zhí)行步驟302 ;將得到的另一路鏡像流量發(fā)送至流量處理子系統(tǒng)中的實(shí)時(shí)分析集群,執(zhí)行步驟305。在采集數(shù)據(jù)流量時(shí),采集點(diǎn)可以布設(shè)在外網(wǎng)核心交換機(jī)的出口,即采集外網(wǎng)核心交換機(jī)的數(shù)據(jù)流量。
所述將采集到的數(shù)據(jù)流量進(jìn)行鏡像的方式可以具體包括以下兩種其一、端ロ鏡像方式通過將外網(wǎng)核心交換機(jī)一個(gè)端ロ或多個(gè)端ロ的數(shù)據(jù)鏡像到另ー個(gè)或多個(gè)端ロ的方式,實(shí)現(xiàn)數(shù)據(jù)流量的采集,這種方式是現(xiàn)有技術(shù),在此不再詳述。其ニ、分光鏡像方式首先通過分光器對外網(wǎng)核心交換機(jī)的出口數(shù)據(jù)進(jìn)行分光處理,由于分光后信號強(qiáng)度會(huì)有衰減,因此可以進(jìn)ー步對分光處理后的流量進(jìn)行光放大,從而保證分光后的流量的信號強(qiáng)度充足,確保數(shù)據(jù)的完整和可靠。分光鏡像方式相比較端ロ鏡像方式的優(yōu)點(diǎn)是穩(wěn)定性和可靠性都較高,端ロ鏡像方式會(huì)對核心交換機(jī)本身產(chǎn)生影響,對于線上服務(wù)來說,核心交換機(jī)的故障對服務(wù)的影響是致命的,因此,分光鏡像方式作為ー種優(yōu)選的數(shù)據(jù)流量采集方式。步驟302 :將鏡像流量分流為P路子流量發(fā)送至流量處理子系統(tǒng)中的流量存儲(chǔ)集群。P為大于I的整數(shù)。在本步驟中進(jìn)行的分流處理可以由分流交換機(jī)實(shí)現(xiàn),分流交換機(jī)采用trunk方式將鏡像流量采用負(fù)載均衡技術(shù)分流成P路子流量。步驟303 :流量存儲(chǔ)集群中的M臺(tái)存儲(chǔ)服務(wù)器分別接收分流到的子流量,并采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤;其中所述M為正整數(shù),N為大于I的整數(shù),且MXN彡P(guān)。本步驟中采用的負(fù)載均衡方式可以按照預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入磁盤。其中每一臺(tái)存儲(chǔ)服務(wù)器上可以運(yùn)行多個(gè)進(jìn)程,每個(gè)進(jìn)程分別對應(yīng)部分磁盤,每個(gè)進(jìn)程分別負(fù)責(zé)其中一部分子流量的接收以及將該部分流量按預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入對應(yīng)磁盤。這種負(fù)載均衡策略充分利用了各個(gè)進(jìn)程和磁盤的獨(dú)立性,降低了磁盤持續(xù)寫的壓力,較好地解決了大規(guī)模數(shù)據(jù)存儲(chǔ)的問題,同時(shí)提高了磁盤利用率,有效地節(jié)約了服務(wù)器成本。步驟304 :流量處理子系統(tǒng)中的非實(shí)時(shí)分析集群匯總流量存儲(chǔ)集群存儲(chǔ)的子流量后進(jìn)行分析,執(zhí)行的分析包括但不限干網(wǎng)絡(luò)攻擊行為的挖掘或者需求數(shù)據(jù)的抽取。在進(jìn)行網(wǎng)絡(luò)攻擊行為的挖掘時(shí),可以抽取攻擊時(shí)段的流量,基于所抽取流量的特征進(jìn)行攻擊行為分析。例如,對于常見的網(wǎng)絡(luò)攻擊,主要包括網(wǎng)絡(luò)層面帶寬型攻擊、tcp層的synflood和ack flood攻擊、應(yīng)用層的分布式請求攻擊。各種網(wǎng)絡(luò)攻擊行為會(huì)對產(chǎn)品的穩(wěn)定運(yùn)行帶來影響,我們能夠基于以存儲(chǔ)的歷史數(shù)據(jù)即流量存儲(chǔ)集群存儲(chǔ)的流量來深度解析攻擊特征,為產(chǎn)品線的防御和攻擊行為的取證提供服務(wù)。對于網(wǎng)絡(luò)層面的帶寬型攻擊,常見的有udpflood和icmp flood,我們通過抽取攻擊時(shí)段的流量,然后統(tǒng)計(jì)該時(shí)段各種類型的流量大小來判斷攻擊類型和攻擊規(guī)模。對于tcp層協(xié)議棧資源耗盡型攻擊,通過抽取攻擊時(shí)段的流量,統(tǒng)計(jì)時(shí)段tcp標(biāo)志位各種類型的包速率來判斷攻擊類型和攻擊規(guī)模。對于應(yīng)用層的分布式請求攻擊,通過抽取攻擊時(shí)段的數(shù)據(jù)包,統(tǒng)計(jì)該時(shí)段http請求頭的各個(gè)字 段,包括host、url、cookie、User-Agent或referer等字段,來判斷攻擊類型,并進(jìn)一步判斷被攻擊的產(chǎn)品線及相關(guān)頁面,同時(shí)歸納總結(jié)http頭部的請求特征,為封禁策略提供識(shí)別
O目前業(yè)務(wù)方面對過去訪問記錄的需求包括追蹤問題和產(chǎn)品的線下測試,需求數(shù)據(jù)的抽取正是為了滿足該需求。具體實(shí)現(xiàn)方法是基于流量存儲(chǔ)集群存儲(chǔ)的流量,非實(shí)時(shí)分析集群根據(jù)產(chǎn)品線的目的ip,從流量存儲(chǔ)集群存儲(chǔ)的流量中抽取對應(yīng)目的ip的數(shù)據(jù)包并以諸如pcap文件格式存儲(chǔ)下來,用于后續(xù)將該數(shù)據(jù)包提供給業(yè)務(wù)需求方。步驟305 :實(shí)時(shí)分析集群對接收到的鏡像流量進(jìn)行流量信息的統(tǒng)計(jì),并利用統(tǒng)計(jì)結(jié)果生成分析文件。在本步驟中,實(shí)時(shí)分析集群中的若干個(gè)服務(wù)器接收鏡像流量,將統(tǒng)計(jì)的流量信息寫入log文件。然后實(shí)時(shí)分析集群中的匯總統(tǒng)計(jì)模塊將上述若干個(gè)服務(wù)器所生成的log文件進(jìn)行下載,匯總各日志文件中的流量信息得到并輸出分析文件,其中匯總統(tǒng)計(jì)模塊下載log文件的周期長度大于上述若干個(gè)服務(wù)器將統(tǒng)計(jì)的流量信息寫入日志文件的周期長度。 上述若干個(gè)服務(wù)器運(yùn)行相同的包捕獲和統(tǒng)計(jì)程序,包捕獲程序能夠完成從萬兆網(wǎng)卡的高效收包,統(tǒng)計(jì)程序以目的ip為單位進(jìn)行流量信息的分別統(tǒng)計(jì),統(tǒng)計(jì)的內(nèi)容可以包括但不限于tcp流量值、udp流量值、icmp流量值等,單位通常為bps ;tcp包速率、udp包速率、icmp包速率等,單位通常為pps ;非服務(wù)端ロ姆秒的訪問次數(shù);http姆秒的get請求數(shù)、get數(shù)據(jù)包的長度;http主要狀態(tài)碼每秒回應(yīng)的數(shù)據(jù)包個(gè)數(shù)等信息。然后可以將統(tǒng)計(jì)結(jié)果以ニ進(jìn)制格式寫入log文件。本發(fā)明提供的上述系統(tǒng)和方法,通過流量鏡像、存儲(chǔ)服務(wù)器集群以及所下掛磁盤的流量存儲(chǔ)負(fù)載均衡,實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)的存儲(chǔ)需求,進(jìn)ー步通過實(shí)時(shí)分析集群對大規(guī)模的鏡像流量實(shí)現(xiàn)實(shí)時(shí)分析需求,通過非實(shí)時(shí)分析集群對存儲(chǔ)服務(wù)器集群存儲(chǔ)的數(shù)據(jù)進(jìn)行匯總分析實(shí)現(xiàn)對大規(guī)模數(shù)據(jù)的非實(shí)時(shí)分析需求。經(jīng)驗(yàn)證,本發(fā)明能夠很好的處理帶寬超過100G的數(shù)據(jù)流,且數(shù)據(jù)具備完整性和穩(wěn)定性,且網(wǎng)絡(luò)設(shè)備成本方面的優(yōu)勢明顯。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種大規(guī)模數(shù)據(jù)的處理系統(tǒng),其特征在于,該系統(tǒng)包括流量采集子系統(tǒng)和流量處理子系統(tǒng); 所述流量采集子系統(tǒng),用于采集數(shù)據(jù)流量,將采集到的數(shù)據(jù)流量進(jìn)行鏡像,并將得到的鏡像流量分流為P路子流量發(fā)送至所述流量處理子系統(tǒng)中的流量存儲(chǔ)集群,P為大于I的整數(shù); 所述流量存儲(chǔ)集群由M臺(tái)存儲(chǔ)服務(wù)器組成,每臺(tái)存儲(chǔ)服務(wù)器下掛N個(gè)磁盤,所述M為正整數(shù),N為大于I的整數(shù),且MXN SP ;每臺(tái)存儲(chǔ)服務(wù)器接收分流到的子流量,并采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述流量采集子系統(tǒng)包括 用于采集外網(wǎng)核心交換機(jī)出口的數(shù)據(jù)流量并對采集到的數(shù)據(jù)流量進(jìn)行鏡像的流量采集單元,以及 用于采用負(fù)載均衡技術(shù)將鏡像流量分流為各子流量的分流處理單元。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述流量采集單元由分光器和光放大器組成; 所述分光器對外網(wǎng)核心交換機(jī)出口的數(shù)據(jù)流量進(jìn)行分光處理,所述光放大器對分光處理后的數(shù)據(jù)流量進(jìn)行光放大形成鏡像流量。
4.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述分流處理單元為分流交換機(jī),采用trunk的方式將鏡像流量采用負(fù)載均衡技術(shù)分流成P路子流量。
5.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,每臺(tái)存儲(chǔ)服務(wù)器上運(yùn)行多個(gè)進(jìn)程,每個(gè)進(jìn)程分別對應(yīng)所述N個(gè)磁盤中的部分磁盤,每個(gè)進(jìn)程分別負(fù)責(zé)接收一部分子流量以及將接收到的所述部分子流量按預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入對應(yīng)磁盤。
6.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述流量處理子系統(tǒng)還包括實(shí)時(shí)分析集群; 所述流量采集子系統(tǒng)將采集到的數(shù)據(jù)流量進(jìn)行鏡像得到兩路鏡像流量,其中一路鏡像流量用于執(zhí)行所述分流處理,另一路鏡像流量被發(fā)送至所述實(shí)時(shí)分析集群; 所述實(shí)時(shí)分析集群,用于對接收到的鏡像流量進(jìn)行流量信息的統(tǒng)計(jì),并利用統(tǒng)計(jì)結(jié)果生成分析文件。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述實(shí)時(shí)分析集群包括由服務(wù)器集群組成的實(shí)時(shí)接收模塊和匯總統(tǒng)計(jì)模塊; 所述實(shí)時(shí)接收模塊中的若干個(gè)服務(wù)器接收所述鏡像流量,將統(tǒng)計(jì)的流量信息寫入日志文件; 所述匯總統(tǒng)計(jì)模塊將所述若干個(gè)服務(wù)器所生成的日志文件進(jìn)行下載,匯總各日志文件中的流量信息得到并輸出分析文件,其中所述下載的周期長度大于所述實(shí)時(shí)接收模塊將統(tǒng)計(jì)的流量信息寫入日志文件的周期長度。
8.根據(jù)權(quán)利要求I所述的系統(tǒng),其特征在于,所述流量處理子系統(tǒng)還包括非實(shí)時(shí)分析集群,用于匯總所述流量存儲(chǔ)集群存儲(chǔ)的子流量后進(jìn)行分析,所述分析包括網(wǎng)絡(luò)攻擊行為的挖掘或者需求數(shù)據(jù)的抽取。
9.一種大規(guī)模數(shù)據(jù)的處理方法,其特征在于,該方法應(yīng)用于包括流量采集子系統(tǒng)和流量處理子系統(tǒng)的大規(guī)模數(shù)據(jù)處理系統(tǒng),所述流量處理子系統(tǒng)中的流量存儲(chǔ)集群由M臺(tái)存儲(chǔ)服務(wù)器組成,每臺(tái)存儲(chǔ)服務(wù)器下掛N個(gè)磁盤,所述方法包括 所述流量采集子系統(tǒng)采集數(shù)據(jù)流量,將采集到的數(shù)據(jù)流量進(jìn)行鏡像,并將得到的鏡像流量分流為P路子流量發(fā)送至所述流量存儲(chǔ)集群,P為大于I的整數(shù); 每臺(tái)存儲(chǔ)服務(wù)器接收分流到的子流量,并采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤;其中所述M為正整數(shù),N為大于I的整數(shù),且MXN彡P(guān)。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述采集數(shù)據(jù)流量具體為采集外網(wǎng)核心交換機(jī)的數(shù)據(jù)流量。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述將采集到的數(shù)據(jù)流量進(jìn)行鏡像具體 為 采用分光器對采集的數(shù)據(jù)流量進(jìn)行分光處理,采用光放大器對分光處理后的數(shù)據(jù)流量進(jìn)行光放大形成鏡像流量。
12.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述將得到的鏡像流量分流為P路子流量具體為 采用分流交換機(jī)的trunk方式將鏡像流量采用負(fù)載均衡技術(shù)分流成P路子流量。
13.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤具體為每臺(tái)存儲(chǔ)服務(wù)器上運(yùn)行多個(gè)進(jìn)程,每個(gè)進(jìn)程分別對應(yīng)所述N個(gè)磁盤中的部分磁盤,每個(gè)進(jìn)程分別負(fù)責(zé)接收一部分子流量以及將接收到的所述部分子流量按預(yù)設(shè)的時(shí)間長度為單位依次輪流寫入對應(yīng)磁盤。
14.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述流量采集子系統(tǒng)在將采集到的數(shù)據(jù)流量進(jìn)行鏡像時(shí),得到兩路鏡像流量,其中一路鏡像流量用于執(zhí)行所述分流處理,另一路鏡像流量被發(fā)送至所述流量處理子系統(tǒng)的實(shí)時(shí)分析集群; 所述實(shí)時(shí)分析集群對接收到的鏡像流量進(jìn)行流量信息的統(tǒng)計(jì),并利用統(tǒng)計(jì)結(jié)果生成分析文件。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述對接收到的鏡像流量進(jìn)行流量信息的統(tǒng)計(jì),并利用統(tǒng)計(jì)結(jié)果生成分析文件具體為 所述實(shí)時(shí)分析集群中的若干個(gè)服務(wù)器接收所述鏡像流量,將統(tǒng)計(jì)的流量信息寫入日志文件; 所述實(shí)時(shí)分析集群中的匯總統(tǒng)計(jì)模塊將所述若干個(gè)服務(wù)器所生成的日志文件進(jìn)行下載,匯總各日志文件中的流量信息得到并輸出分析文件,其中所述下載的周期長度大于所述將統(tǒng)計(jì)的流量信息寫入日志文件的周期長度。
16.根據(jù)權(quán)利要求9所述的方法,其特征在于,該方法還包括 非實(shí)時(shí)分析集群匯總所述流量存儲(chǔ)集群存儲(chǔ)的子流量后進(jìn)行分析,所述分析包括網(wǎng)絡(luò)攻擊行為的挖掘或者需求數(shù)據(jù)的抽取。
全文摘要
本發(fā)明提供了一種大規(guī)模數(shù)據(jù)的處理系統(tǒng)和方法,其中系統(tǒng)包括流量采集子系統(tǒng)和流量處理子系統(tǒng);所述流量采集子系統(tǒng),用于采集數(shù)據(jù)流量,將采集到的數(shù)據(jù)流量進(jìn)行鏡像,并將得到的鏡像流量分流為P路子流量發(fā)送至所述流量處理子系統(tǒng)中的流量存儲(chǔ)集群,P為大于1的整數(shù);所述流量存儲(chǔ)集群由M臺(tái)存儲(chǔ)服務(wù)器組成,每臺(tái)存儲(chǔ)服務(wù)器下掛N個(gè)磁盤,所述M為正整數(shù),N為大于1的整數(shù),且M×N≥P;每臺(tái)存儲(chǔ)服務(wù)器接收分流到的子流量,并采用負(fù)載均衡技術(shù)將分流到的子流量寫入下掛的N個(gè)磁盤。通過這種方式降低了磁盤持續(xù)寫的壓力,較好地解決了大規(guī)模數(shù)據(jù)存儲(chǔ)的問題。
文檔編號H04L29/08GK102664789SQ20121010241
公開日2012年9月12日 申請日期2012年4月9日 優(yōu)先權(quán)日2012年4月9日
發(fā)明者周宇, 李婷婷, 石婧嵐, 賀艷軍 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
隆化县| 西青区| 阿巴嘎旗| 桓仁| 甘德县| 宁波市| 临朐县| 赤壁市| 青浦区| 葵青区| 台南县| 永定县| 随州市| 常德市| 滨海县| 旌德县| 石楼县| 鹿泉市| 周口市| 临潭县| 仪陇县| 莱西市| 遵义市| 北宁市| 名山县| 景宁| 全州县| 台东市| 宕昌县| 永平县| 时尚| 启东市| 彰武县| 秦安县| 遂宁市| 磴口县| 济源市| 兖州市| 贡嘎县| 津市市| 竹山县|