一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,屬于通訊設(shè)備故障監(jiān)測的技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著信息化程度的提高、網(wǎng)絡(luò)規(guī)模的不斷擴大,路由器、交換機等網(wǎng)絡(luò)設(shè)備也在不 斷增加,運些網(wǎng)絡(luò)設(shè)備負責對網(wǎng)絡(luò)中存在的大量數(shù)據(jù)進行傳輸;然而,由于現(xiàn)實網(wǎng)絡(luò)環(huán)境的 復(fù)雜性,使得網(wǎng)絡(luò)設(shè)備不可避免的出現(xiàn)故障,如:傳輸丟包、時延抖動等,嚴重時甚至會造成 網(wǎng)絡(luò)擁疾;因此,保證網(wǎng)絡(luò)設(shè)備的正常運行,在出現(xiàn)故障之后能夠迅速、準確地定位問題并 排除故障,是網(wǎng)絡(luò)維護的核屯、任務(wù)。
[0003] 網(wǎng)絡(luò)設(shè)備故障預(yù)測是通過對歷史和當前的故障特征值進行分析,預(yù)測出未來的故 障特征值,從而預(yù)測出設(shè)備在未來一段時間內(nèi)的運行狀態(tài),并且依據(jù)運些特征值,判斷設(shè)備 的故障級別,提前掌握設(shè)備故障的發(fā)展趨勢,為提早預(yù)防和修復(fù)故障提供依據(jù),具有重要的 理論研究價值和工程實踐意義。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明克服現(xiàn)有技術(shù)存在的不足,所要解決的技術(shù)問題為:提供一種能夠?qū)W(wǎng)絡(luò) 設(shè)備故障進行智能預(yù)測、并可提前預(yù)警的網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法。
[0005] 為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診 斷方法,包括W下步驟:
[0006] SI:根據(jù)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值,通過訓練算法,得到網(wǎng)絡(luò)設(shè)備無故 障工作狀態(tài)下的特征參數(shù);其訓練算法的過程為:
[0007] SlOl:連續(xù)采集一段時間內(nèi)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值,并根據(jù)特征值 生成檢測序列,記為Xn;
[000引S102:根據(jù)檢測序列Xn,計算網(wǎng)絡(luò)設(shè)備特征變量的信念值,記為k;
[0009] S103:根據(jù)網(wǎng)絡(luò)設(shè)備特征值的工作上限H,W及網(wǎng)絡(luò)設(shè)備達到工作上限H的時間容 忍度r,設(shè)置報警闊值h,記為h = r*化-o+k),其中:〇為檢測序列的Xn的標準偏差;
[0010 ] S104:計算序列檢測序列Xn快速變化到報警闊值h時的CUSUM值,記為Zn;
[OOW S105:根據(jù)報警闊值h對檢測序列Xn進行測試,將檢測序列Xn無故障工作狀態(tài)下的 Zn與h進行比較,若Zn<h;則訓練結(jié)束,若Zn>h,則調(diào)整h值,并將調(diào)整后的h值作為新的報警 闊值h,并根據(jù)新的報警闊值h重新對檢測序列Xn進行測試,直到無故障工作狀態(tài)下的Zn<h。
[0012] S2:定期采集工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值,通過檢測算法,對網(wǎng) 絡(luò)設(shè)備故障進行預(yù)測并報警,其檢測算法的過程為:
[0013] S201:定期采集工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值,并根據(jù)特征值生 成序列yn,計算序列yn的CUSUM值,記為Zn;
[0014] S202:如果yn+Zn-廣S-k<0,則Zn = O,否則Zn = yn+Zn-廣S-k;其中:Zn-I為網(wǎng)絡(luò)設(shè)備實 際工作狀態(tài)下的采集的前n-1個特征值生成的序列yn-1的CUSUM值;
[001引S203:將Zn與h進行比較,若Zn>h,則報警;若Zn小于h,則記錄該數(shù)據(jù)后,進入步驟 S201對下一時刻采集的網(wǎng)絡(luò)工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值進行檢測。 [0016]所述步驟S102中計算網(wǎng)絡(luò)設(shè)備特征變量的信念值的過程包括如下步驟:
[0017] S1021:求出檢測序列Xn的期望值,記為8,并利用正態(tài)分布逼近策略,計算檢測序 列的標準偏差,記為O;
[001引 S1022:遍歷y = l,2,3,...,計算k = y*0,當檢測序列Xn的偏差<k,則停止,并將此 時的k作為網(wǎng)絡(luò)設(shè)備特征變量的信念值。
[0019] 所述步驟S103中,容忍度r的取值為:r=l,或r = T/t;其中,r=l,表示達到工作上 限H需要立即報警;r = T/t,表示達到工作上限H后可繼續(xù)工作一段時間T后再進行報警,t為 采樣時間間隔。
[0020] 所述特征值為板卡溫度,或為CPU使用率,或為內(nèi)存使用率,或為接口丟包率,或為 誤碼率。
[0021] 所述步驟Sioi中采集一段時間內(nèi)的網(wǎng)絡(luò)設(shè)備正常工作狀態(tài)下的特征值,所述一段 時間為:采集時間大于2天,采集間隔為5分鐘。
[0022] 本發(fā)明與現(xiàn)有技術(shù)相比具有W下有益效果:
[0023] 本發(fā)明通過對網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值進行訓練算法,獲取設(shè)備正常 工作時的特征參數(shù),然后利用訓練得到特征參數(shù),對定時采集的網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下 的特征值,進行CUSUM值計算,如果得到CUSUM值大于闊值則報警,預(yù)示網(wǎng)絡(luò)設(shè)備的工作狀態(tài) 出現(xiàn)異常;本發(fā)明中的網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法計算簡單,能夠在網(wǎng)絡(luò)設(shè)備特征值達 到上限前發(fā)出警報,對系統(tǒng)故障具有預(yù)測作用。
【附圖說明】
[0024] 下面結(jié)合附圖對本發(fā)明做進一步詳細的說明。
[0025] 圖1為本發(fā)明訓練算法的流程示意圖;
[0026] 圖2為本發(fā)明檢測算法的流程示意圖。
【具體實施方式】
[0027] 如圖1、圖2所示,一種網(wǎng)絡(luò)設(shè)備故障預(yù)測及診斷方法,包括W下步驟:
[0028] SI:根據(jù)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值,通過訓練算法,得到網(wǎng)絡(luò)設(shè)備無故 障工作狀態(tài)下的特征參數(shù);其訓練算法的過程為:
[0029] SlOl:連續(xù)采集一段時間內(nèi)網(wǎng)絡(luò)設(shè)備無故障工作狀態(tài)下的特征值,并根據(jù)特征值 生成檢測序列,記為Xn;
[0030] S102:根據(jù)檢測序列Xn,計算網(wǎng)絡(luò)設(shè)備特征變量的信念值,記為k;
[0031] S103:根據(jù)網(wǎng)絡(luò)設(shè)備特征值的工作上限H,W及網(wǎng)絡(luò)設(shè)備達到工作上限H的時間容 忍度r,設(shè)置報警闊值h,記為h = r*化-o+k),其中:〇為檢測序列的Xn的標準偏差;
[0032] S104:計算序列檢測序列Xn快速變化到報警闊值h時的CUSUM值,記為Zn;
[0033] S105:根據(jù)報警闊值h對檢測序列Xn進行測試,將檢測序列Xn無故障工作狀態(tài)下的 Zn與h進行比較,若Zn<h;則訓練結(jié)束,若Zn>h,則調(diào)整h值,并將調(diào)整后的h值作為新的報警 闊值h,并根據(jù)新的報警闊值h重新對檢測序列Xn進行測試,直到無故障工作狀態(tài)下的Zn小于 h。
[0034] S2:定期采集工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值,通過檢測算法,對網(wǎng) 絡(luò)設(shè)備故障進行預(yù)測并報警,其檢測算法的過程為:
[0035] S201:定期采集工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值,并根據(jù)特征值生 成序列yn,計算序列yn的CUSUM值,記為Zn;
[0036] S202:如果yn+Zn-廣S-k<0,則Zn = O,否則Zn = yn+Zn-廣S-k;其中:Zn-I為網(wǎng)絡(luò)設(shè)備實 際工作狀態(tài)下的采集的前n-1個特征值生成的序列yn-1的CUSUM值;
[0037] S203:將Zn與h進行比較,若Zn>h,則報警;若Zn小于h,則記錄該數(shù)據(jù)后,進入步驟 S201對下一時刻采集的網(wǎng)絡(luò)工作時間內(nèi)網(wǎng)絡(luò)設(shè)備實際工作狀態(tài)下的特征值進行檢測。
[0038] 所述步驟S102中計算網(wǎng)絡(luò)設(shè)備特征變量的信念值的過程包括如下步驟:
[0039] S1021:求出檢測序列Xn的期望值,記為8,并利用正態(tài)分布逼近策略,計算檢測序 列的標準偏差,記為O;
[0040] S1022:遍歷y = l,2,3,...,計算k = y*〇,當檢測序列Xn的偏差<k,則停止,并將此 時的k作為網(wǎng)絡(luò)設(shè)備特征變量的信念值。
[0041 ] 進一步地,所述步驟S103中,容忍度r的取值為:r= 1,或r = T/t;其中,r= 1,表示 達到工作上限H需要立即報警;r = T/t,表示達到工作上限H后可繼續(xù)工作一段時間T后再進 行報警,t為采樣時間間隔。
[0042] 如圖2所示,本發(fā)明中,使用CUSUM算法進行異常檢測時容易產(chǎn)生累積和效應(yīng)問題, 系統(tǒng)從異常狀態(tài)恢復(fù)到正常狀態(tài)了,但是Zn任然高于口限h,運樣就出現(xiàn)誤報,當系統(tǒng)發(fā)生 誤報時,即:經(jīng)過工作人員確認,網(wǎng)絡(luò)設(shè)備為正常工作狀態(tài),但報告為異常,此時,可通過改 變報警闊值h,消除誤報,通過對h值的調(diào)整可W控制算法對變化的敏感程度。
[0043] 為了解決誤報的問題,本發(fā)明中,規(guī)定當Zn>h后,Zn不再增加維持在h值,當系統(tǒng) 恢復(fù)到當正常狀態(tài)時使得化迅速小于h,消除累積和效應(yīng)。
[0044] 具體過程為:步驟S203中,將Zn與h進行比較,如果Zn>h,則報警;并設(shè)置中間參數(shù) Z'n,,此時,令Z'n,=Zn,,Zn=,h,如果發(fā)生誤報,則增加 h,使h = 巧Z'n,,即Z'n,&l