用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及云計算技術(shù),特別涉及用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的方法和裝置。
【背景技術(shù)】
[0002]云計算是一種基于互聯(lián)網(wǎng)的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設(shè)備。云計算描述了一種基于互聯(lián)網(wǎng)的新的IT服務(wù)增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展而且經(jīng)常是虛擬化的資源,它意味著計算能力也可作為一種商品通過互聯(lián)網(wǎng)進(jìn)行流通。
[0003]云計算技術(shù)的運用改變了數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)。傳統(tǒng)網(wǎng)絡(luò)采用接入層、匯聚層和核心層的三層互聯(lián)架構(gòu),但是由于云計算的網(wǎng)絡(luò)設(shè)備需要考慮虛擬機的迀移域,因此采用接入層+核心層的兩層互連架構(gòu),并且網(wǎng)關(guān)設(shè)置在核心層交換機中以增加迀移域的范圍,層間則通過端口聚合互聯(lián)以增加云計算網(wǎng)絡(luò)的彈性。
[0004]聚合端口主要用于交換機之間的連接。當(dāng)兩個交換機之間有多條冗余鏈路時,根據(jù)生成樹協(xié)議(STP),其中的幾條鏈路將被關(guān)閉而僅保留一條鏈路,由此避免層間環(huán)路的形成。但是路徑冗余的放棄將帶來STP鏈路切換很慢(50秒左右)的后果。當(dāng)使用以太網(wǎng)通道時,交換機將把一組物理端口聯(lián)合在一起形成一個邏輯通道,此時交換機將這樣的邏輯通道視為一個端口。
[0005]網(wǎng)絡(luò)設(shè)備的狀態(tài)主要指板卡、端口的使用狀態(tài),其異常一般表現(xiàn)為板卡或者端口僵死。目前,監(jiān)測網(wǎng)絡(luò)設(shè)備板卡狀態(tài)包括基于Ping機制的方法、基于硬件狗機制的方法和基于分布式網(wǎng)絡(luò)控制的方法。
[0006]在Ping機制方法中,主控盤使用操作系統(tǒng)提供的ping命令對所有線卡的內(nèi)網(wǎng)IP地址施行Ping操作,然后檢測Ping命令的回饋結(jié)果,如果丟包率為100%,就認(rèn)為該線卡出現(xiàn)異常。
[0007]硬件狗機制方法需要FPGA支持硬件狗功能,軟件根據(jù)硬件狗要求,在規(guī)定時間內(nèi)對硬件規(guī)定的某個寄存器位施行寫入操作,如果線卡(PU死機,則在規(guī)定的時間內(nèi)不存在上述寫入操作,硬件狗將超時從而重啟該線卡。
[0008]在基于分布式網(wǎng)絡(luò)控制機制的方法中,主控盤生成并發(fā)送第一UDP心跳報文至線卡,響應(yīng)于第一UDP心跳報文,線卡根據(jù)自身的資源使用率信息來生成第二 UDP心跳報文并向主控盤發(fā)送生成的第二 UDP報文。當(dāng)主控盤判斷線卡的資源使用率超過預(yù)設(shè)閾值時,判定線卡出現(xiàn)異常。
[0009]但是上述三種方法都存在缺陷。具體而言,在基于ping機制的方法和基于分布式網(wǎng)絡(luò)控制機制的方法中,利用ICMP或UDP報文來探測,源地址和目的地地址不變,交換機始終通過聚合端口中的某一個端口固定轉(zhuǎn)發(fā),因此無法檢測到聚合端口中其他端口的狀態(tài)。基于硬件狗機制的方法需要硬件支持,此外,采用硬件狗機制將無法同時監(jiān)測分布式系統(tǒng)內(nèi)網(wǎng)通信異常的情況。
[0010]由上可見,需要一種能夠克服上述缺點的用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的方法和裝置。
【發(fā)明內(nèi)容】
[0011]本發(fā)明提供用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的方法和裝置,其具有實施方便、響應(yīng)速度快和故障定位能力強等優(yōu)點。
[0012]根據(jù)本發(fā)明的一個方面,提供了一種用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的方法,所述網(wǎng)絡(luò)設(shè)備被匯接至位于接入層的交換機,所述方法包含下列步驟:
向所述交換機發(fā)送采集所述網(wǎng)絡(luò)設(shè)備的狀態(tài)的請求;
根據(jù)從交換機接收的所述網(wǎng)絡(luò)設(shè)備的狀態(tài)信息,確定所述網(wǎng)絡(luò)設(shè)備的狀態(tài)是否出現(xiàn)異常,
其中,所述狀態(tài)信息包括所述交換機上將所述網(wǎng)絡(luò)設(shè)備互聯(lián)的成對端口組的報文收發(fā)狀態(tài),所述成對端口組的其中一個向另一個發(fā)送報文。
[0013]優(yōu)選地,在上述方法中,所述報文收發(fā)狀態(tài)包括所述成對端口組處發(fā)送和接收的報文的數(shù)量。
[0014]優(yōu)選地,在上述方法中,根據(jù)預(yù)設(shè)時長的間隔內(nèi)在成對端口組處接收和發(fā)送的報文的數(shù)量的偏移值來確定所述網(wǎng)絡(luò)設(shè)備的狀態(tài)是否出現(xiàn)異常。
[0015]優(yōu)選地,在上述方法中,所述偏移值為預(yù)設(shè)時長的間隔內(nèi)在成對端口組處接收和發(fā)送的報文的數(shù)量之比,如果連續(xù)η個時間間隔內(nèi)所述偏移值小于或等于閾值,則確定所述網(wǎng)絡(luò)設(shè)備的狀態(tài)是否出現(xiàn)異常,這里η為預(yù)先設(shè)定的正整數(shù)。
[0016]優(yōu)選地,在上述方法中,與所述交換機的通信基于簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)。
[0017]優(yōu)選地,在上述方法中,所述交換機基于鏈路層發(fā)現(xiàn)協(xié)議(LLDP)獲取網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的信息,所述網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)用于確定成對端口組,并且所述交換機基于生成樹協(xié)議(STP)得到成對端口組的報文收發(fā)狀態(tài)。
[0018]優(yōu)選地,在上述方法中,所述報文為網(wǎng)橋協(xié)議數(shù)據(jù)單元(Brou)報文。
[0019]根據(jù)本發(fā)明的另一個方面,提供了一種用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的裝置,包括:
與位于接入層的交換機耦合的收集單元,所述網(wǎng)絡(luò)設(shè)備被匯接至所述交換機,所述收集單元被配置為向所述交換機發(fā)送采集所述網(wǎng)絡(luò)設(shè)備的狀態(tài)的請求和從所述交換機接收所述網(wǎng)絡(luò)設(shè)備的狀態(tài)信息;
與所述收集單元耦合的處理單元,其被配置為根據(jù)所述網(wǎng)絡(luò)設(shè)備的狀態(tài)信息確定所述網(wǎng)絡(luò)設(shè)備的狀態(tài)是否出現(xiàn)異常,
其中,所述狀態(tài)信息包括所述交換機上將所述網(wǎng)絡(luò)設(shè)備互聯(lián)的成對端口組的報文收發(fā)狀態(tài),所述成對端口組的其中一個向另一個發(fā)送報文。
[0020]優(yōu)選地,在上述裝置中,進(jìn)一步包括與處理單元耦合的告警單元,其被配置為在所述處理單元確定所述網(wǎng)絡(luò)設(shè)備的狀態(tài)出現(xiàn)異常時生成告警消息。
【附圖說明】
[0021]本發(fā)明的上述和/或其它方面和優(yōu)點將通過以下結(jié)合附圖的各個方面的描述變得更加清晰和更容易理解,附圖中相同或相似的單元采用相同的標(biāo)號表示,附圖包括:
圖1為按照本發(fā)明一個實施例的用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的裝置的框圖。
[0022]圖2為圖1中所示交換機的邏輯功能框圖。
[0023]圖3為按照本發(fā)明另一個實施例的用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的方法的流程圖。
[0024]圖4為可應(yīng)用于圖3所示實施例的確定網(wǎng)絡(luò)設(shè)備是否出現(xiàn)異常的方法的流程圖。
[0025]圖5為用于表征網(wǎng)絡(luò)設(shè)備出現(xiàn)異常的偏移值-時間的示意圖。
【具體實施方式】
[0026]下面參照其中圖示了本發(fā)明示意性實施例的附圖更為全面地說明本發(fā)明。但本發(fā)明可以按不同形式來實現(xiàn),而不應(yīng)解讀為僅限于本文給出的各實施例。給出的上述各實施例旨在使本文的披露全面完整,以將本發(fā)明的保護(hù)范圍更為全面地傳達(dá)給本領(lǐng)域技術(shù)人員。
[0027]諸如“包含”和“包括”之類的用語表示除了具有在說明書和權(quán)利要求書中有直接和明確表述的單元和步驟以外,本發(fā)明的技術(shù)方案也不排除具有未被直接或明確表述的其它單元和步驟的情形。
[0028]在云計算環(huán)境下,交換機通常將一組物理端口聯(lián)合在一起形成一個聚合端口,不同類型的數(shù)據(jù)分組根據(jù)其源或者目的MAC地址、IP地址被分配到聚合端口的各個端口。由于在網(wǎng)絡(luò)監(jiān)控中同一類型的數(shù)據(jù)分組將從同一端口轉(zhuǎn)發(fā),因此故障難以被發(fā)現(xiàn)。按照本發(fā)明的實施例,通過收集網(wǎng)絡(luò)設(shè)備互聯(lián)端口處報文收發(fā)的狀態(tài)(例如收發(fā)報文的數(shù)量)并且根據(jù)互聯(lián)端口報文收發(fā)狀態(tài)的偏移值來判斷網(wǎng)絡(luò)設(shè)備是否出現(xiàn)異常。
[0029]優(yōu)選地,收發(fā)的報文為網(wǎng)橋協(xié)議數(shù)據(jù)單元(BPDU)報文。BPDU報文是生成樹協(xié)議(STP)下的一種問候數(shù)據(jù)分組,其以可配置的間隔發(fā)送,用于在網(wǎng)絡(luò)的網(wǎng)橋間進(jìn)行信息交換。當(dāng)一個網(wǎng)橋開始變?yōu)榛顒訒r,其每個端口都以設(shè)定的間隔(例如2秒)發(fā)送一個BPDU報文,對于接收到BPDU報文的本地端口,如果接收到的BPDU報文的優(yōu)先級高于其正要發(fā)送的BPDU報文,則該本地端口將優(yōu)先發(fā)送接收到BPDU報文,此后,如果在預(yù)設(shè)的時間間隔內(nèi)未接收到高優(yōu)先級的BPDU報文,則本地端口再發(fā)送被延遲的BPDU報文。
[0030]以下借助附圖描述本發(fā)明的具體實施例。
[0031]圖1為按照本發(fā)明一個實施例的用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的裝置的框圖。
[0032]圖1所示的用于監(jiān)測云計算環(huán)境下網(wǎng)絡(luò)設(shè)備的狀態(tài)的裝置10包括收集單元110和處理單元120??蛇x地,裝置10還包含告警單元130。
[0033]如圖1所示,收集單元110與接入層交換機20耦合,其被配置為向接入層交換機發(fā)送采集網(wǎng)絡(luò)設(shè)備(未畫出)的狀態(tài)的請求,其中這些網(wǎng)絡(luò)設(shè)備被匯接至位于接入層的交換機20。優(yōu)選地,收集單元110與交換機20的通信基于簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)。
[0034]由一組網(wǎng)絡(luò)管理的標(biāo)準(zhǔn)組成,包含一個應(yīng)用層協(xié)議、數(shù)據(jù)庫模型和一組資源對象,其目標(biāo)是管理互聯(lián)網(wǎng)上眾多廠家生產(chǎn)的軟硬件平臺,因此受互聯(lián)網(wǎng)標(biāo)準(zhǔn)網(wǎng)絡(luò)管理框架的影響很大。
[0035]圖2為圖1中所示交換機的邏輯功能框圖。如圖2所示,交換機20包含下列邏輯功能模塊:SNMP接收端210、STP模塊220和鏈路層發(fā)現(xiàn)協(xié)議(LLDP)模塊230。
[0036]接收端21