本發(fā)明涉及服務器運維,具體是一種基于深度學習的智能運維風險預警方法。
背景技術:
1、服務器(server)也稱伺服器,是提供計算服務的設備,是計算機的一種,在網(wǎng)絡中為其它客戶機(如pc機、智能手機、atm等終端)提供計算或者應用服務,目前,業(yè)內(nèi)關于就服務器運維的監(jiān)控方式,多是通過專家對監(jiān)測的可反映服務器實時運行狀態(tài)的指標提供一些闕值、范圍或邏輯條件,以判斷服務器是否處于正常或存在異常的情況。
2、然而,專家的規(guī)則體系需要定期人工制定邏輯更新以維持效果,制定邏輯非常費事費力,且專家的規(guī)則體系是根據(jù)實時的指標評判來觸發(fā),觸發(fā)時實際上問題已經(jīng)產(chǎn)生,沒有預測風險的能力,因此,針對以上現(xiàn)狀,迫切需要開發(fā)一種基于深度學習的智能運維風險預警方法,以克服當前實際應用中的不足。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于深度學習的智能運維風險預警方法,以解決上述背景技術中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
3、一種基于深度學習的智能運維風險預警方法,所述方法包括如下步驟:
4、步驟一、輸入離線數(shù)據(jù),所述離線數(shù)據(jù)指通過對一些實地場景的測試下通過服務器設備返還回云端的數(shù)據(jù);
5、步驟二、構(gòu)建報警規(guī)則,并輸出報警數(shù)據(jù),離線數(shù)據(jù)通過專家的分析,被劃分為多指標、多維度的數(shù)據(jù)集,通過專家確定出值得觀測的重要指標,支持監(jiān)測這些指標的數(shù)據(jù)被輸出;
6、步驟三、模型訓練;
7、步驟四、模型訓練完畢后,經(jīng)過之前專家給出的指標群,以及一些必要的服務器設備相關的基礎配置信息,對模型的調(diào)用準備工作結(jié)束,同時,關于業(yè)務范圍的告警策略(基于限定的指標后的業(yè)務監(jiān)測邏輯)也會配置;
8、步驟五、模型的部署與啟動,模型部署于云端,當服務器設備的指標類數(shù)據(jù)(包含近期歷史數(shù)據(jù))上傳回云端,云端完成對數(shù)據(jù)預處理,在定時任務的控制下定時性地加載模型,對預處理后的數(shù)據(jù)定期去預測;
9、步驟六:模型在云端進行計算,之后輸出其結(jié)果。
10、作為本發(fā)明進一步的方案:所述步驟三具體步驟如下:對步驟二中輸出的離線數(shù)據(jù)進行數(shù)據(jù)清洗和準備,選擇模型,讀取訓練集數(shù)據(jù)進行模型訓練,并進行模型優(yōu)化和調(diào)參,讀取驗證集數(shù)據(jù)對訓練模型進行驗證和預測,模型訓練完成,輸出模型。
11、作為本發(fā)明進一步的方案:所述步驟三中,模型的算法為時序深度模型lstm。
12、作為本發(fā)明進一步的方案:所述步驟五中云端為tdengine時序空間大數(shù)據(jù)引擎。
13、作為本發(fā)明進一步的方案:所述步驟六中的結(jié)果從數(shù)據(jù)意義來說是指多個指標未來一段時間內(nèi)的預測值,根據(jù)這些預測值結(jié)合專家的評判邏輯,若無異常,則模型的輸出類似“靜默”效果,無事發(fā)生,若異常,則生成告警信息,這個告警信息在生成后,會通過歷史讀取告警記錄形成的評判邏輯再次對此告警信息進行調(diào)整,調(diào)整后的告警信息被發(fā)出,默認返回到云端的數(shù)據(jù)庫。
14、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
15、本申請通過機器學習、深度學習技術以各指標的歷史數(shù)據(jù)先訓練一個模型,利用這個模型替代傳統(tǒng)的專家評判邏輯,而這個模型是可以純自動化、更新式訓練的,從而不再需要人為去定期更新評判體系,而是讓機器自動訓練模型,本申請是基于更強的專家理論支持獲得了異常與否評判閾值情況下,用模型去預測出“未來一段時間的數(shù)據(jù)”,立足于“預測出的未來一段時間”的指標,集合專家理論,來提出“未來是否會有風險”,是基于未來的預測的“預警”,而不是對實時或歷史近期數(shù)據(jù)引發(fā)的偵測到異常的“告警”。
1.一種基于深度學習的智能運維風險預警方法,其特征在于,所述方法包括如下步驟:
2.根據(jù)權(quán)利要求2所述的基于深度學習的智能運維風險預警方法,其特征在于,所述步驟三具體步驟如下:對步驟二中輸出的離線數(shù)據(jù)進行數(shù)據(jù)清洗和準備,選擇模型,讀取訓練集數(shù)據(jù)進行模型訓練,并進行模型優(yōu)化和調(diào)參,讀取驗證集數(shù)據(jù)對訓練模型進行驗證和預測,模型訓練完成,輸出模型。
3.根據(jù)權(quán)利要求3所述的基于深度學習的智能運維風險預警方法,其特征在于,所述步驟三中,模型的算法為時序深度模型lstm。
4.根據(jù)權(quán)利要求4所述的基于深度學習的智能運維風險預警方法,其特征在于,所述步驟五中云端為tdengine時序空間大數(shù)據(jù)引擎。
5.根據(jù)權(quán)利要求1所述的基于深度學習的智能運維風險預警方法,其特征在于,所述步驟六中的結(jié)果從數(shù)據(jù)意義來說是指多個指標未來一段時間內(nèi)的預測值,根據(jù)這些預測值結(jié)合專家的評判邏輯,若無異常,則模型的輸出類似“靜默”效果,無事發(fā)生,若異常,則生成告警信息,這個告警信息在生成后,會通過歷史讀取告警記錄形成的評判邏輯再次對此告警信息進行調(diào)整,調(diào)整后的告警信息被發(fā)出,默認返回到云端的數(shù)據(jù)庫。