欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種集群亞健康預警方法及系統(tǒng)的制作方法

文檔序號:10724770閱讀:410來源:國知局
一種集群亞健康預警方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種集群亞健康預警方法及系統(tǒng),該方法包括:獲取集群歷史運行數(shù)據(jù);根據(jù)集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;獲取集群實時運行數(shù)據(jù);將實時數(shù)據(jù)作為輸入,輸入至預測模型中計算生成預測結果;判斷預測結果是否處于亞健康狀態(tài),當預測結果處于亞健康狀態(tài)時,則生成預警信號進行報警。本發(fā)明通過訓練建模,將數(shù)據(jù)挖掘算法運用到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模,產(chǎn)生預測模型,將實時運行數(shù)據(jù)作為模型輸入,預測集群的健康狀況,可以對集群潛在風險進行預測且在異常發(fā)生之前,及時通知運維人員進行相關處理,進而降低集群發(fā)生異常帶來的重大損失。
【專利說明】
一種集群亞健康預警方法及系統(tǒng)
技術領域
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)及云計算技術領域,更具體的,涉及一種集群亞健康預警方法 及系統(tǒng)。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)和云計算技術的不斷發(fā)展,越來越多的服務需要使用集群服務來更好 的滿足用戶的需求。一方面,服務集群化使用戶可以得到更好的用戶體驗,例如訪問速度 快,同時,服務集群化可以在同一時間為更多的用戶提供服務;另一方面,服務集群化可以 提高系統(tǒng)的可用性,減少系統(tǒng)故障對業(yè)務造成的危害。
[0003]對于農(nóng)行大數(shù)據(jù)平臺建設的不斷推進,在數(shù)據(jù)量爆炸式增長的同時,集群數(shù)量和 規(guī)模也在急劇增加,隨之而來的軟硬件故障也有所上升。自搭建大數(shù)據(jù)平臺以來,相關數(shù)據(jù) 庫發(fā)生多次漏洞和事故,造成宕機和數(shù)據(jù)錯誤等;另外,硬件上也發(fā)生故障,例如:操作系統(tǒng) 莫名重啟,內存耗盡,磁盤耗盡以及內存故障等。這些問題都已經(jīng)嚴重影響了大數(shù)據(jù)平臺的 建設進度。
[0004] 目前,大部分集群監(jiān)控工具是簡單采集和展示軟硬件資源,通常包括磁盤利用率、 內存利用率、10、網(wǎng)絡和系統(tǒng)進程、作業(yè)執(zhí)行情況等;另外,也有一些功能相對完善的監(jiān)控工 具會對某些指標設定一個閾值,例如內存利用率、磁盤利用率等,超過閾值則報警,這種集 群監(jiān)控工具可以有效的發(fā)現(xiàn)已經(jīng)出現(xiàn)的異常,但是無法提前進行故障預測,避免造成重大 損失。

【發(fā)明內容】

[0005] 本發(fā)明的目的在于提出一種集群亞健康預警方法及系統(tǒng),以解決現(xiàn)有技術中只能 事后發(fā)現(xiàn)異常或者簡單設置報警閾值,無法對集群潛在風險進行預測且在異常發(fā)生之前, 及時通知運維人員進行相關處理,進而造成重大損失的問題。
[0006] 為達到上述目的,本發(fā)明提供了以下技術方案:
[0007] 本發(fā)明公開了一種集群亞健康預警方法,包括:
[0008] 獲取集群歷史運行數(shù)據(jù);
[0009] 根據(jù)所述集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;
[0010]獲取集群實時運行數(shù)據(jù);
[0011] 將所述實時數(shù)據(jù)作為輸入,輸入至所述預測模型中計算生成預測結果;
[0012] 判斷所述預測結果是否處于亞健康狀態(tài),當所述預測結果處于亞健康狀態(tài)時,則 生成預警信號進行報警。
[0013] 其中,所述預須彳模型為正態(tài)分布模型和KNN分類模型。
[0014]優(yōu)選的,當所述預測模型為正態(tài)分布模型時,該方法還包括:
[0015] 判斷所述實時數(shù)據(jù)是否存儲到歷史數(shù)據(jù)庫中;
[0016] 當所述實時數(shù)據(jù)需要存儲到所述歷史數(shù)據(jù)庫中時,則將所述實時數(shù)據(jù)存儲至所述 歷史數(shù)據(jù)庫。
[0017] 優(yōu)選的,當所述預測模型為KNN分類模型時,該方法還包括:
[0018] 將所述實時數(shù)據(jù)存儲到歷史數(shù)據(jù)庫中。
[0019] 優(yōu)選的,該方法包括:
[0020] 判斷所述預測模型是否達到重新訓練建模的訓練間隔;
[0021] 當所述預測模型達到重新訓練建模的訓練間隔時,則重新獲取集群歷史運行數(shù)據(jù) 進行訓練建模;
[0022] 當所述預測模型未達到重新訓練建模的訓練間隔時,則循環(huán)讀取實時數(shù)據(jù)進行預 測結果的計算。
[0023]本發(fā)明還公開了一種集群亞健康預警系統(tǒng),包括:
[0024] 歷史數(shù)據(jù)獲取單元,用于獲取集群歷史運行數(shù)據(jù);
[0025] 模型生成單元,用于根據(jù)所述集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;
[0026] 實時數(shù)據(jù)獲取單元,用于獲取集群運行的實時數(shù)據(jù);
[0027] 計算單元,用于將所述實時數(shù)據(jù)作為輸入,輸入至所述預測模型中計算生成預測 結果;
[0028]判斷單元,用于判斷所述預測結果是否處于亞健康狀態(tài),當所述預測結果處于亞 健康狀態(tài)時,則生成預警信號進行報警。
[0029]其中,所述預測模型為正態(tài)分布模型和KNN分類模型。
[0030]優(yōu)選的,當所述預測模型為正態(tài)分布模型時,該系統(tǒng)還包括:
[0031]第一判斷單元,用于判斷所述實時數(shù)據(jù)是否存儲到歷史數(shù)據(jù)庫中;
[0032]第一存儲單元,用于當所述實時數(shù)據(jù)需要存儲到所述歷史數(shù)據(jù)庫中時,則將所述 實時數(shù)據(jù)存儲至所述歷史數(shù)據(jù)庫。
[0033]優(yōu)選的,當所述預測模型為KNN分類模型時,該系統(tǒng)還包括:
[0034]第二存儲單元,用于當所述實時數(shù)據(jù)需要存儲到所述歷史數(shù)據(jù)庫中時,則將所述 實時數(shù)據(jù)存儲至所述歷史數(shù)據(jù)庫。
[0035]優(yōu)選的,該系統(tǒng)還包括:
[0036] 第二判斷單元,用于判斷所述預測模型是否達到重新訓練建模的訓練間隔;
[0037] 重新建模單元,用于當所述預測模型達到重新訓練建模的訓練間隔,則重新獲取 集群歷史運行數(shù)據(jù)進行訓練建模;
[0038] 重新讀取單元,用于當所述預測模型未達到重新訓練建模的訓練間隔,則循環(huán)讀 取實時數(shù)據(jù)進行預測結果的計算。
[0039] 經(jīng)由上述的技術方案可知,與現(xiàn)有技術相比,本發(fā)明公開了一種集群亞健康預警 方法,包括:獲取集群歷史運行數(shù)據(jù);根據(jù)集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型; 獲取集群實時運行數(shù)據(jù);將實時數(shù)據(jù)作為輸入,輸入至預測模型中計算生成預測結果;判斷 預測結果是否處于亞健康狀態(tài),當預測結果處于亞健康狀態(tài)時,則生成預警信號進行報警。 本發(fā)明通過訓練建模,將數(shù)據(jù)挖掘算法運用到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練 建模,產(chǎn)生預測模型,將實時運行數(shù)據(jù)作為模型輸入,預測集群的健康狀況,可以對集群潛 在風險進行預測且在異常發(fā)生之前,及時通知運維人員進行相關處理,進而降低集群發(fā)生 異常帶來的重大損失。另外,本發(fā)明還公開了一種集群亞健康預警系統(tǒng),通過該系統(tǒng)實現(xiàn)集 群亞健康預警方法。
【附圖說明】
[0040] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0041] 圖1為本發(fā)明實施例一公開的一種集群亞健康預警方法的流程示意圖;
[0042]圖2為本發(fā)明實施例二公開的一種集群亞健康預警方法的流程示意圖;
[0043]圖3為本發(fā)明中公開的預測模型為正態(tài)分布概率密度曲線圖;
[0044]圖4為本發(fā)明實施例三公開的一種集群亞健康預警方法的流程示意圖;
[0045] 圖5為本發(fā)明實施例四公開的一種集群亞健康預警系統(tǒng)的結構示意圖;
[0046] 圖6為本發(fā)明實施例五公開的一種集群亞健康預警系統(tǒng)的結構示意圖;
[0047] 圖7為本發(fā)明實施例六公開的一種集群亞健康預警系統(tǒng)的結構示意圖。
【具體實施方式】
[0048] 下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0049] 相關術語解釋:
[0050] 作業(yè):大數(shù)據(jù)平臺調度系統(tǒng)中的批量作業(yè),一個作業(yè)是由輸入數(shù)據(jù)和一個ETL腳本 組成。
[0051] KNN算法:k最鄰近鄰居(k nearest neighbor)算法,是數(shù)據(jù)挖掘中常見的分類算 法之一,如果一個樣本在特征空間中的k個最相鄰的樣本中大多數(shù)屬于某一類別,則該樣本 也屬于這個類,并具有這個類別上樣本的特性。
[0052]請參閱附圖1,圖1為本發(fā)明實施例一公開的一種集群亞健康預警方法的流程示意 圖。如圖1所示,本發(fā)明公開了一種集群亞健康預警方法,具體的,該方法可以包括如下步 驟:
[0053] S101、獲取集群歷史運行數(shù)據(jù)。
[0054] 在系統(tǒng)運行過程中,將集群運行日志存儲在集群存儲器中,作為集群歷史運行數(shù) 據(jù),本發(fā)明需要先獲取內部存儲器中的集群歷史運行數(shù)據(jù)。
[0055] S102、根據(jù)集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型。
[0056] 通過對集群歷史運行數(shù)據(jù)訓練建模,上述提及的預測模型可以采用數(shù)據(jù)挖掘的分 類模型或者正態(tài)分布模型進行訓練。
[0057] S103、獲取集群實時運行數(shù)據(jù)。
[0058]在系統(tǒng)運行過程中,從集群中獲取集群運行的實時日志數(shù)據(jù)。
[0059] S104、將實時數(shù)據(jù)作為輸入,輸入至預測模型中計算生成預測結果。
[0060] 獲取集群運行產(chǎn)生的實時日志數(shù)據(jù),利用預先建立好的模型分析實時日志數(shù)據(jù), 產(chǎn)生預測結果。
[0061] S105、判斷預測結果是否處于亞健康狀態(tài),當預測結果處于亞健康狀態(tài)時,進入步 驟 106〇
[0062] S106、生成預警信號進行報警。
[0063]根據(jù)上述預測結果判斷集群是否會發(fā)生異常,當預測會發(fā)生異常時,生成預警信 號進行報警,具體可以利用短信和郵件向訂閱人員報警。
[0064]上述實施例公開一種集群亞健康預警方法,包括:獲取集群歷史運行數(shù)據(jù);根據(jù)集 群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;獲取集群實時運行數(shù)據(jù);將實時數(shù)據(jù)作為輸 入,輸入至預測模型中計算生成預測結果;判斷預測結果是否處于亞健康狀態(tài),當預測結果 處于亞健康狀態(tài)時,則生成預警信號進行報警。本發(fā)明通過訓練建模,將數(shù)據(jù)挖掘算法運用 到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模,產(chǎn)生預測模型,將實時運行數(shù)據(jù)作為模 型輸入,預測集群的健康狀況,可以對集群潛在風險進行預測且在異常發(fā)生之前,及時通知 運維人員進行相關處理,進而降低集群發(fā)生異常帶來的重大損失。
[0065]請參閱附圖2,圖2為本發(fā)明實施例二公開的一種集群亞健康預警方法的流程示意 圖。如圖2所示,本實施例公開了一種集群亞健康預警方法,具體的,該方法可以包括如下步 驟:
[0066] S201、獲取集群歷史運行數(shù)據(jù)。
[0067]在系統(tǒng)運行過程中,將集群運行日志存儲在集群存儲器中,作為集群歷史運行數(shù) 據(jù),本發(fā)明需要先獲取內部存儲器中的集群歷史運行數(shù)據(jù)。
[0068] S202、根據(jù)集群歷史運行數(shù)據(jù)進行訓練建模,生成正態(tài)分析模型。
[0069] 通過對集群歷史運行數(shù)據(jù)訓練建模,本實施例中的預測模型采用正態(tài)分布模型進 行訓練,通過正態(tài)分析,生成所分析運行指標的正常區(qū)間,使得所分析運行指標的取值落入 正常區(qū)間的概率大于用戶設定的閾值,一般至少為95%以上。
[0070] S203、獲取集群實時運行數(shù)據(jù)。
[0071 ]在系統(tǒng)運行的過程中,獲取集群運行的實時日志數(shù)據(jù)。
[0072] S204、將實時數(shù)據(jù)作為輸入,輸入至正態(tài)分布模型中計算生成預測結果。
[0073] 獲取集群運行產(chǎn)生的實時日志數(shù)據(jù),利用預先建立好的模型分析實時日志數(shù)據(jù), 產(chǎn)生預測結果,具體是將實時獲取的運行日志數(shù)據(jù)與該運行指標的正常區(qū)間進行比較,若 在區(qū)間外,則該值異常。
[0074] S205、判斷預測結果是否處于亞健康狀態(tài),具體為當S204計算得到的異常值數(shù)目 或者異常率大于用戶設定的閾值,則系統(tǒng)處于亞健康,否則系統(tǒng)正常。當預測結果處于亞健 康狀態(tài)時,進入步驟S206,當預測結果處于非亞健康狀態(tài)時,則進入步驟S207。
[0075] S206、生成預警信號進行報警。
[0076] S207、判斷實時數(shù)據(jù)是否存儲到歷史數(shù)據(jù)庫中,當實時數(shù)據(jù)需要存儲到歷史數(shù)據(jù) 庫中時進入步驟S208。
[0077] S208、將實時數(shù)據(jù)存儲至歷史數(shù)據(jù)庫。
[0078] S209、判斷預測模型是否達到重新訓練建模的訓練間隔,當預測模型達到重新訓 練建模的訓練間隔時,則反回步驟S201重新獲取集群歷史運行數(shù)據(jù)進行訓練建模,當預測 模型未達到重新訓練建模的訓練間隔時,則進入步驟S203循環(huán)讀取實時數(shù)據(jù)進行預測結果 的計算。
[0079] 根據(jù)上述預測結果判斷集群是否會發(fā)生異常,當預測會發(fā)生異常時,生成預警信 號進行報警,具體可以利用短信和郵件向訂閱人員報警。
[0080] 具體的,在預測模型為正態(tài)分布模型時,具體的過程如下描述:
[0081 ]正態(tài)分布又名高斯分布,是一種十分重要的概率分布,在統(tǒng)計學中有著廣泛的應 用,記為Ν(μ,σ2),其概率密度函數(shù)如公式
4為期望,σ為標 準差,其概率密度曲線請參閱附圖3所示,因形狀似鐘形,又叫鐘形分布。
[0082]正態(tài)分布具有集中性、對稱性和均勻變動性的特征,即隨機變量X的取值落在均值 附近的概率最大,并且從均值向兩側概率均勻降低,且隨機變量落在(μ_1.96σ,μ+1.96〇)外 的概率小于5%,稱為小概率事件,即認為在一次試驗中該事件是幾乎不可能發(fā)生的。
[0083] 生活中有許多現(xiàn)象可以認為是服從正態(tài)分布或者近似服從正態(tài)分布,例如一次實 驗中的隨機誤差,同齡人的身高,平均氣溫,平均降雨量等等。一般來說如果一個量是由許 多微小的相互獨立的隨機因素影響的結果,那么可以認為這個量服從正態(tài)分布(見中心極 限定理)。
[0084]正態(tài)分布模型被廣泛應用于生活中的各個領域,例如醫(yī)學中的參考值范圍,就是 通過研究一批數(shù)量足夠大的"正常人",設定適當?shù)陌俜纸缰?,?5%、99%,根據(jù)實際應用 確定單側或者雙側界值,若患者的指標不在正常范圍內,根據(jù)小概率事件原理,即可認為該 患者的健康狀況可能存在問題。
[0085]集群也如人一樣,也有反映健康狀況的運行指標,這些指標中也有部分服從正態(tài) 分布,當小概率事件發(fā)生時,預示著系統(tǒng)處于亞健康狀態(tài),需要及時"治療"。例如表的每日 增量大小,作業(yè)的運行時間,集群的負載方差,SQL語句的執(zhí)行時間等。通過對歷史數(shù)據(jù)的分 析,選取合適的概率值,為這些指標計算正常值區(qū)間,若運行數(shù)據(jù)不在正常值內,則可認為 系統(tǒng)處于亞健康狀態(tài)。更進一步,可以通過分析異常數(shù)據(jù)的比例和數(shù)目來提高預測的準確 性。目前,亞健康預警已經(jīng)實現(xiàn)了作業(yè)超時率、長SQL數(shù)目和集群負載異常預警。
[0086]作業(yè)超時率:作業(yè)是指大數(shù)據(jù)平臺調度系統(tǒng)中的批量作業(yè),每個作業(yè)包括腳本及 輸入數(shù)據(jù)。大數(shù)據(jù)平臺每日的運行腳本是一致的,并且源數(shù)據(jù)文件大小近似服從正態(tài)分布, 因此每個作業(yè)的運行時間近似服從正態(tài)分布。值得注意的是,月末的源數(shù)據(jù)多為全量文件, 與月中大小相差較大,因此月中和月末需要分開處理。作業(yè)超時率預警可以綜合預測系統(tǒng) 多方面的故障,例如輸入文件大小異常,網(wǎng)絡和磁盤阻塞等。具體流程如下:
[0087] 作業(yè)超時率預測算法:
[0088] 1、選取調度近1年的作業(yè)運行數(shù)據(jù)作為訓練集,按〈作業(yè)標識,是否月末〉兩個維度 對數(shù)據(jù)進行劃分;
[0089] 2、對劃分后的數(shù)據(jù)進行正態(tài)建模,以μ±3σ為上下邊界,建立每個作業(yè)運行時間的 正常區(qū)間;
[0090] 3、以5分鐘為間隔循環(huán)讀取調度實時運行數(shù)據(jù),選取該時間間隔內已完成的和正 在運行的作業(yè)進行分析,對于已完成作業(yè),用完成時間-開始時間作為作業(yè)執(zhí)行時間,對于 正在運行作業(yè),用采集時間-開始時間作為作業(yè)執(zhí)行時間;
[0091] 4、對于已完成作業(yè),將作業(yè)執(zhí)行時間與正常區(qū)間的上下界比較,若不在該區(qū)間內 則表示該作業(yè)異常,對于正在運行作業(yè),若作業(yè)執(zhí)行時間大于正常區(qū)間上界,則該作業(yè)超 時;
[0092] 5、異常和超時的作業(yè)的比例大于用戶設定的閾值,則報警。
[0093]長SQL數(shù)目:主要采集大數(shù)據(jù)平臺GBase數(shù)據(jù)庫SQL執(zhí)行時間,對于每個SQL語句按 月中和月末生成(μ±3〇)參考值區(qū)間,由于GBase數(shù)據(jù)庫只能采集到當前運行的SQL的執(zhí)行 時間,因此對于SQL執(zhí)行時間若大于上界,則認為SQL超時,若超時SQL的數(shù)目大于用戶設定 的閾值,則報警。其原理和處理方式與作業(yè)超時率類似。SQL超時可以有效發(fā)現(xiàn)異常SQL和集 群阻塞。
[0094] 集群負載均衡異常:負載均衡對于充分利用機器的存儲和計算能力是十分關鍵 的,因此設計優(yōu)良的集群系統(tǒng)都會將負載均衡作為軟件的一個必須的功能模塊,一旦節(jié)點 間負載差異較大,往往預示著軟件或者硬件故障。負載均衡主要考慮內存、磁盤、10等負載。
[0095] 綜上,由于不同時間段的集群整體負載會存在差異,因此為了避免數(shù)量級不正確 導致的預測不準確,需要先對內存、磁盤和10數(shù)據(jù)進行標準化。標準化公式如公式
,其中X為當前數(shù)值,max為該序列中的最大值。
[0096] 標準化之后利用公式 計算負載偏 差,其中xi為標準化后的內存、磁盤或者10值,η表示集群節(jié)點數(shù)目,m為標準化之后數(shù)值序 列的中位數(shù),此處選擇中位數(shù)而不是均值,是因為一個集群中大部分節(jié)點的資源利用率比 較接近,中位數(shù)更能反映這些資源利用率的平均情況,避免了個別極值對均值的影響。對偏 差值求正態(tài)分布和相應的正常值范圍,若有一個指標超過正常值,則進行1級報警,若兩個 指標異常,則進行2級報警,以此類推。
[0097]上述實施例公開一種集群亞健康預警方法,包括:獲取集群歷史運行數(shù)據(jù);根據(jù)集 群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;獲取集群實時運行數(shù)據(jù),將實時數(shù)據(jù)作為輸 入,輸入至預測模型中計算生成預測結果;判斷預測結果是否處于亞健康狀態(tài),當預測結果 處于亞健康狀態(tài)時,則生成預警信號進行報警。本發(fā)明通過訓練建模,將數(shù)據(jù)挖掘算法運用 到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模,產(chǎn)生預測模型,該預測模型為正態(tài)分布 模型,將實時運行數(shù)據(jù)作為模型輸入,預測集群的健康狀況,可以對集群潛在風險進行預測 且在異常發(fā)生之前,及時通知運維人員進行相關處理,進而降低集群發(fā)生異常帶來的重大 損失。
[0098]請參閱附圖4,圖4為本發(fā)明實施例三公開的一種集群亞健康預警方法的流程示意 圖。如圖4所示,本實施例公開了一種集群亞健康預警方法,具體的,該方法可以包括如下步 驟:
[0099] S401、獲取集群歷史運行數(shù)據(jù)。
[0100] 在系統(tǒng)運行過程中,將集群運行日志存儲在集群存儲器中,作為集群歷史運行數(shù) 據(jù),本發(fā)明需要先獲取內部存儲器中的集群歷史運行數(shù)據(jù)。
[0101] S402、根據(jù)集群歷史運行數(shù)據(jù)進行訓練建模,生成KNN分類模型。
[0102] 對集群歷史運行數(shù)據(jù)訓練建模,具體為根據(jù)集群歷史運行情況,對歷史數(shù)據(jù)進行 標記,標記為正常或者異常。本實施例中的預測模型采用KNN分類模型進行訓練。
[0103] S403、獲取集群實時運行數(shù)據(jù)
[0104] 在系統(tǒng)運行過程中,獲取集群實時運行數(shù)據(jù)。
[0105] S404、將實時數(shù)據(jù)作為輸入,輸入至KNN分類模型中計算生成預測結果。
[0106] 將獲取集群運行產(chǎn)生的實時日志數(shù)據(jù),利用預先建立好的模型分析實時日志數(shù) 據(jù),計算實時運行數(shù)據(jù)在訓練集中的K個最鄰近鄰居,根據(jù)K個最鄰近鄰居的類別投票產(chǎn)生 實時運行數(shù)據(jù)的類別,具體的若大于K/2個鄰居為異常,則該值異常,否則該值正常。產(chǎn)生預 測結果。
[0107] S405、判斷預測結果是否處于亞健康狀態(tài),當預測結果處于亞健康狀態(tài)時,進入步 驟S406,當預測結果處于非亞健康狀態(tài)時,則進入步驟S407。
[0108] S406、生成預警信號進行報警。
[0109] S407、將實時數(shù)據(jù)存儲至所述歷史數(shù)據(jù)庫。
[0110] S408、判斷預測模型是否達到重新訓練建模的訓練間隔,當預測模型達到重新訓 練建模的訓練間隔時,則反回步驟S401重新獲取集群歷史運行數(shù)據(jù)進行訓練建模,當預測 模型未達到重新訓練建模的訓練間隔時,則進入步驟S403循環(huán)讀取實時數(shù)據(jù)進行預測結果 的計算。
[0111] 具體的,在預測模型為KNN分類模型時,具體的過程如下描述:
[0112] MPP數(shù)據(jù)庫有個常用操作,即進行多表關聯(lián)時,若關聯(lián)字段為非哈希字段,則有可 能拉表,即在多個節(jié)點之間傳輸大量的表副本,對于單個節(jié)點,可能需要將與該節(jié)點連接字 段匹配的記錄都傳輸?shù)奖镜?,這會造成大量的10和內存消耗,極端情況,如果是兩張大表做 笛卡爾積,很有可能將內存耗盡,從而造成死機、重啟等故障。在使用GBase的過程中,曾發(fā) 生多次由于笛卡爾積導致內存耗盡死機的情況,因此,能否在內存即將耗盡之前,提前預 測,將導致異常的SQL及時停止是十分關鍵的。
[0113]經(jīng)分析,此類問題有個共同點,即拉表操作會在短時間內造成內存的急劇上升,內 存利用率曲線的斜率會比較高,因此可以通過分析內存利用率趨勢,預測這種情況的發(fā)生。 對于兩個采集時點,內存利用率的變化即為一條線段,可以通過線段的斜率表示內存的增 長趨勢,那么問題轉換為一個分類問題,即對于某個給定的斜率,判斷是否屬于異常類。在 分類問題中,最簡單有效的方法就是KNN算法,即計算k個最鄰近鄰居,通過k個鄰近鄰居的 投票,確定該值所屬的類別。算法如下所示:
[0114] KNN分類模型預測內存增長趨勢算法:
[0115] 1、選取近三個月的內存利用率數(shù)據(jù),以一定的時間間隔,對內存利用率曲線進行 劃分,計算每個劃分的斜率;
[0116] 2、手工對異常斜率進行標記,其余標記為正常,以此作為模型庫;
[0117] 3、以相同的時間間隔采集集群內存利用率指標,計算斜率;
[0118] 4、計算該斜率與訓練庫中數(shù)據(jù)的歐幾里得距離,并選出最近的k個鄰居;
[0119] 5、若大于k/2個鄰居為正常,則該點正常,否則,該點異常,并報警。
[0120]利用KNN分類算法進行內存利用趨勢預測,可以有效的預知拉表造成的內存快速 消耗,若伴隨內存利用率上限閾值,效果會更加明顯。此算法比較關鍵的一點是采集間隔的 選取,若間隔過短,則無法反映出內存增長趨勢的差異,若采集間隔過長,可能會錯過中間 增長峰值,而誤認為系統(tǒng)正常,采集間隔的選取需要分析歷史內存利用率曲線確定。
[0121 ]上述實施例公開一種集群亞健康預警方法,包括:獲取集群歷史運行數(shù)據(jù);根據(jù)集 群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;獲取集群實時運行數(shù)據(jù);將實時數(shù)據(jù)作為輸 入,輸入至預測模型中計算生成預測結果;判斷預測結果是否處于亞健康狀態(tài),當預測結果 處于亞健康狀態(tài)時,則生成預警信號進行報警;將檢測的實時數(shù)據(jù)存入歷史數(shù)據(jù)庫中。本發(fā) 明通過訓練建模,將數(shù)據(jù)挖掘算法運用到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模, 產(chǎn)生預測模型,該預測模型為KNN分類模型,將實時運行數(shù)據(jù)作為模型輸入,預測集群的健 康狀況,且將實時數(shù)據(jù)存儲為集群歷史運行數(shù)據(jù),將發(fā)生異常的數(shù)據(jù)實時記錄,可以對集群 潛在風險進行預測且在異常發(fā)生之前,及時通知運維人員進行相關處理,進而降低集群發(fā) 生異常帶來的重大損失。
[0122] 請參閱附圖5,圖5為本發(fā)明實施例四公開的一種集群亞健康預警系統(tǒng)的結構示意 圖。如圖5所示,本發(fā)明在上述公開的方法的基礎上,還公開了一種集群亞健康預警系統(tǒng),具 體該系統(tǒng)包括:
[0123] 歷史數(shù)據(jù)獲取單元501,用于獲取集群歷史運行數(shù)據(jù);模型生成單元502,用于根據(jù) 集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;實時數(shù)據(jù)獲取單元503,用于獲取集群實 時運行數(shù)據(jù);計算單元504,用于將實時數(shù)據(jù)作為輸入,輸入至預測模型中計算生成預測結 果;判斷單元505,用于判斷預測結果是否處于亞健康狀態(tài),當預測結果處于亞健康狀態(tài)時, 則生成預警信號進行報警。
[0124] 具體的,上述預測模型可以采用正態(tài)分布模型和KNN分類模型。
[0125] 由于本實施例中的各單元能夠執(zhí)行圖1所示的方法,本實施例未詳細描述的部分, 可參考對圖1的相關說明。
[0126] 上述實施例公開一種集群亞健康預警系統(tǒng),通過訓練建模,將數(shù)據(jù)挖掘算法運用 到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模,產(chǎn)生預測模型,將實時運行數(shù)據(jù)作為模 型輸入,預測集群的監(jiān)控狀況,可以對集群潛在風險進行預測且在異常發(fā)生之前,及時通知 運維人員進行相關處理,進而降低集群發(fā)生異常帶來的重大損失。
[0127] 請參閱附圖6,圖6為本發(fā)明實施例五公開的一種集群亞健康預警系統(tǒng)的結構示意 圖。如圖6所示,本發(fā)明在上述公開的方法的基礎上,還公開了一種集群亞健康預警系統(tǒng),具 體該系統(tǒng)包括:
[0128] 歷史數(shù)據(jù)獲取單元601,用于獲取集群歷史運行數(shù)據(jù);模型生成單元602,用于根據(jù) 集群歷史運行數(shù)據(jù)進行訓練建模,生成正態(tài)分布模型;實時數(shù)據(jù)獲取單元603,用戶獲取集 群運行的實時日志數(shù)據(jù);計算單元604,用于將實時數(shù)據(jù)作為輸入,輸入至正態(tài)分布模型中 計算生成預測結果;判斷單元605,用于判斷預測結果是否處于亞健康狀態(tài),當預測結果處 于亞健康狀態(tài)時,則生成預警信號進行報警;第一判斷單元606,用于判斷實時數(shù)據(jù)是否存 儲到歷史數(shù)據(jù)庫中;第一存儲單元607,用于當實時數(shù)據(jù)需要存儲到歷史數(shù)據(jù)庫中時,則將 實時數(shù)據(jù)存儲至歷史數(shù)據(jù)庫;第二判斷單元608,用于判斷預測模型是否達到重新訓練建模 的訓練間隔;重新建模單元609,用于當預測模型達到重新訓練建模的訓練間隔,則重新獲 取集群歷史運行數(shù)據(jù)進行訓練建模;重新讀取單元610,用于循環(huán)讀取實時數(shù)據(jù)進行預測結 果的計算。
[0129] 由于本實施例中的各單元能夠執(zhí)行圖2所示的方法,本實施例未詳細描述的部分, 可參考對圖2的相關說明。
[0130] 上述實施例公開一種集群亞健康預警系統(tǒng),通過訓練建模,將數(shù)據(jù)挖掘算法運用 到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模,產(chǎn)生正態(tài)分布模型,將實時運行數(shù)據(jù)作 為模型輸入,預測集群的監(jiān)控狀況,可以對集群潛在風險進行預測且在異常發(fā)生之前,及時 通知運維人員進行相關處理,進而降低集群發(fā)生異常帶來的重大損失。
[0131] 請參閱附圖7,圖7為本發(fā)明實施例六公開的一種集群亞健康預警系統(tǒng)的結構示意 圖。如圖7所示,本發(fā)明在上述公開的方法的基礎上,還公開了一種集群亞健康預警系統(tǒng),具 體該系統(tǒng)包括:
[0132] 歷史數(shù)據(jù)獲取單元701,用于獲取集群歷史運行數(shù)據(jù);模型生成單元702,用于根據(jù) 集群歷史運行數(shù)據(jù)進行訓練建模,生成KNN分類模型;實時數(shù)據(jù)獲取單元703,用于獲取集群 實時運行數(shù)據(jù);計算單元704,用于將實時數(shù)據(jù)作為輸入,輸入至KNN分類模型中計算生成預 測結果;判斷單元705,用于判斷預測結果是否處于亞健康狀態(tài),當預測結果處于亞健康狀 態(tài)時,則生成預警信號進行報警;第二存儲單元706,用于則將實時數(shù)據(jù)存儲至所述歷史數(shù) 據(jù)庫;第二判斷單元707,用于判斷預測模型是否達到重新訓練建模的訓練間隔;重新建模 單元708,用于當預測模型達到重新訓練建模的訓練間隔,則重新獲取集群歷史運行數(shù)據(jù)進 行訓練建模;重新讀取單元709,用于循環(huán)讀取實時數(shù)據(jù)進行預測結果的計算。
[0133] 由于本實施例中的各單元能夠執(zhí)行圖4所示的方法,本實施例未詳細描述的部分, 可參考對圖4的相關說明。
[0134] 上述實施例公開一種集群亞健康預警系統(tǒng),通過訓練建模,將數(shù)據(jù)挖掘算法運用 到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模,產(chǎn)生KNN分類模型,將實時運行數(shù)據(jù)作 為模型輸入,預測集群的監(jiān)控狀況,可以對集群潛在風險進行預測且在異常發(fā)生之前,及時 通知運維人員進行相關處理,進而降低集群發(fā)生異常帶來的重大損失。
[0135] 綜上所述:本發(fā)明公開了一種集群亞健康預警方法及系統(tǒng),該方法包括:獲取集群 歷史運行數(shù)據(jù);根據(jù)集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型;獲取集群實時運行數(shù) 據(jù);將實時數(shù)據(jù)作為輸入,輸入至預測模型中計算生成預測結果;判斷預測結果是否處于亞 健康狀態(tài),當預測結果處于亞健康狀態(tài)時,則生成預警信號進行報警。本發(fā)明通過訓練建 模,將數(shù)據(jù)挖掘算法運用到集群運行日志分析中,通過對歷史數(shù)據(jù)訓練建模,產(chǎn)生預測模 型,將實時運行數(shù)據(jù)作為模型輸入,預測集群的健康狀況,可以對集群潛在風險進行預測且 在異常發(fā)生之前,及時通知運維人員進行相關處理,進而降低集群發(fā)生異常帶來的重大損 失。
[0136] 需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重 點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
[0137] 對所公開的實施例的上述說明,使本領域專業(yè)技術人員能夠實現(xiàn)或使用本發(fā)明。 對這些實施例的多種修改對本領域的專業(yè)技術人員來說將是顯而易見的,本文中所定義的 一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明 將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一 致的最寬的范圍。
【主權項】
1. 一種集群亞健康預警方法,其特征在于,包括: 獲取集群歷史運行數(shù)據(jù); 根據(jù)所述集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型; 獲取集群實時運行數(shù)據(jù); 將所述實時數(shù)據(jù)作為輸入,輸入至所述預測模型中計算生成預測結果; 判斷所述預測結果是否處于亞健康狀態(tài),當所述預測結果處于亞健康狀態(tài)時,則生成 預警信號進行報警。2. 根據(jù)權利要求1所述的方法,其特征在于,所述預測模型為正態(tài)分布模型和KNN分類 模型。3. 根據(jù)權利要求2所述的方法,其特征在于,當所述預測模型為正態(tài)分布模型時,該方 法還包括: 判斷所述實時數(shù)據(jù)是否存儲到歷史數(shù)據(jù)庫中; 當所述實時數(shù)據(jù)需要存儲到所述歷史數(shù)據(jù)庫中時,則將所述實時數(shù)據(jù)存儲至所述歷史 數(shù)據(jù)庫。4. 根據(jù)權利要求2所述的方法,其特征在于,當所述預測模型為KNN分類模型時,該方法 還包括: 將所述實時數(shù)據(jù)存儲到歷史數(shù)據(jù)庫中。5. 根據(jù)權利要求3或4所述的方法,其特征在于,該方法還包括: 判斷所述預測模型是否達到重新訓練建模的訓練間隔; 當所述預測模型達到重新訓練建模的訓練間隔時,則重新獲取集群歷史運行數(shù)據(jù)進行 訓練建模; 當所述預測模型未達到重新訓練建模的訓練間隔時,則循環(huán)讀取實時數(shù)據(jù)進行預測結 果的計算。6. -種集群亞健康預警系統(tǒng),其特征在于,包括: 歷史數(shù)據(jù)獲取單元,用于獲取集群歷史運行數(shù)據(jù); 模型生成單元,用于根據(jù)所述集群歷史運行數(shù)據(jù)進行訓練建模,生成預測模型; 實時數(shù)據(jù)獲取單元,用于獲取集群運行的實時數(shù)據(jù); 計算單元,用于將所述實時數(shù)據(jù)作為輸入,輸入至所述預測模型中計算生成預測結果; 判斷單元,用于判斷所述預測結果是否處于亞健康狀態(tài),當所述預測結果處于亞健康 狀態(tài)時,則生成預警信號進行報警。7. 根據(jù)權利要求6所述的系統(tǒng),其特征在于,所述預測模型為正態(tài)分布模型和KNN分類 模型。8. 根據(jù)權利要求7所述的系統(tǒng),其特征在于,當所述預測模型為正態(tài)分布模型時,該系 統(tǒng)還包括: 第一判斷單元,用于判斷所述實時數(shù)據(jù)是否存儲到歷史數(shù)據(jù)庫中; 第一存儲單元,用于當所述實時數(shù)據(jù)需要存儲到所述歷史數(shù)據(jù)庫中時,則將所述實時 數(shù)據(jù)存儲至所述歷史數(shù)據(jù)庫。9. 根據(jù)權利要求7所述的系統(tǒng),其特征在于,當所述預測模型為KNN分類模型時,該系統(tǒng) 還包括: 第二存儲單元,用于當所述實時數(shù)據(jù)需要存儲到所述歷史數(shù)據(jù)庫中時,則將所述實時 數(shù)據(jù)存儲至所述歷史數(shù)據(jù)庫。10.根據(jù)權利要求8或9所述的系統(tǒng),其特征在于,該系統(tǒng)還包括: 第二判斷單元,用于判斷所述預測模型是否達到重新訓練建模的訓練間隔; 重新建模單元,用于當所述預測模型達到重新訓練建模的訓練間隔,則重新獲取集群 歷史運行數(shù)據(jù)進行訓練建模; 重新讀取單元,用于當所述預測模型未達到重新訓練建模的訓練間隔,則循環(huán)讀取實 時數(shù)據(jù)進行預測結果的計算。
【文檔編號】G06F11/34GK106095639SQ201610371512
【公開日】2016年11月9日
【申請日】2016年5月30日
【發(fā)明人】楊亞軍, 陳宏曉
【申請人】中國農(nóng)業(yè)銀行股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
牡丹江市| 太谷县| 永寿县| 星座| 西乌珠穆沁旗| 大化| 太原市| 金寨县| 昌图县| 三江| 永宁县| 浮梁县| SHOW| 寿光市| 姚安县| 杭州市| 光泽县| 沾益县| 东光县| 彰化县| 台中市| 乐清市| 青浦区| 鄂托克旗| 涟水县| 七台河市| 宁远县| 奉节县| 大英县| 阳谷县| 商河县| 东宁县| 酉阳| 朔州市| 江西省| 灵宝市| 鄂尔多斯市| 德安县| 遵义市| 彩票| 兰溪市|