一種基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)及方法,其使用數(shù)據(jù)中心作為數(shù)據(jù)流轉(zhuǎn)各個步驟的接口,實現(xiàn)各個處理步驟對數(shù)據(jù)處理的無縫對接;底層數(shù)據(jù)采集根據(jù)系統(tǒng)業(yè)務(wù)數(shù)據(jù)生成的時間,預(yù)定取數(shù)時間,由取數(shù)程序快速獲取業(yè)務(wù)運行數(shù)據(jù)的獲取,包括系統(tǒng)狀態(tài)數(shù)據(jù)、數(shù)據(jù)庫及存儲復(fù)制狀態(tài)、桌面安全監(jiān)控數(shù)據(jù)以及客服處理數(shù)據(jù)等數(shù)據(jù),以預(yù)定的數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心;數(shù)據(jù)處理根據(jù)監(jiān)控指標(biāo)頻率,通過定時任務(wù)的觸發(fā),依照預(yù)定的處理頻率實現(xiàn)數(shù)據(jù)的篩選、合計、對比等處理,生成故障告警信息;應(yīng)用展示使用數(shù)據(jù)處理過程中生成的故障告警信息、曲線圖數(shù)據(jù)、信號量數(shù)據(jù)等展示數(shù)據(jù),通過圖表、聲光等形式展示給用戶。
【專利說明】一種基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息系統(tǒng)監(jiān)控【技術(shù)領(lǐng)域】,具體是一種基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)及方法。
【背景技術(shù)】
[0002]信息系統(tǒng)監(jiān)控技術(shù)一直是信息系統(tǒng)運行維護領(lǐng)域重要的且被廣泛使用的技術(shù)。目前各類信息系統(tǒng)監(jiān)控技術(shù)主要致力于對所監(jiān)控的信息系統(tǒng)實現(xiàn)運行細節(jié)的監(jiān)控。其中如信息運維綜合監(jiān)管系統(tǒng)(IMS)實現(xiàn)的監(jiān)控對象包括了:系統(tǒng)的運行狀態(tài)監(jiān)管、桌面應(yīng)用程序監(jiān)管、系統(tǒng)信息安全監(jiān)管、數(shù)據(jù)備份監(jiān)管、設(shè)備臺賬監(jiān)管等幾個大的方面。該系統(tǒng)經(jīng)過多年發(fā)展逐步形成橫向集成、上下貫通的大型監(jiān)控技術(shù)支撐平臺,實現(xiàn)了除覆蓋包含網(wǎng)絡(luò)、主機、業(yè)務(wù)應(yīng)用、安全設(shè)備、桌面終端等IT基礎(chǔ)內(nèi)容的監(jiān)控架構(gòu)外,還引入了標(biāo)準(zhǔn)運維流程管理,對于監(jiān)控過程中發(fā)現(xiàn)的各類故障事件,提供問題發(fā)現(xiàn)、告警提示、故障處理的流程服務(wù),使得系統(tǒng)在具備全面監(jiān)控能力的同時也具備了問題處理的能力??梢哉f在信息系統(tǒng)監(jiān)控技術(shù)發(fā)展的過程中已經(jīng)能夠較好地對影響信息系統(tǒng)健康運行的各個要點實現(xiàn)完善的監(jiān)控,同時各類監(jiān)控技術(shù)的組合使得現(xiàn)有的監(jiān)控平臺功能拓展極為迅速,平臺規(guī)模也變得十分龐大。
[0003]隨著信息監(jiān)控技術(shù)的發(fā)展,監(jiān)控范圍逐步覆蓋到信息系統(tǒng)運行的各個方面,獲取得到的系統(tǒng)運行數(shù)據(jù)也越來越能夠表征信息系統(tǒng)的實時運行的情況,在此基礎(chǔ)上的各類信息系統(tǒng)監(jiān)控平臺也獲得巨大發(fā)展,系統(tǒng)涉及的監(jiān)控要點越來越多,其規(guī)模也越來越大,但同時也暴露出當(dāng)前信息系統(tǒng)監(jiān)控平臺的一些不足:
[0004]1、系統(tǒng)監(jiān)控平臺為滿足全面的監(jiān)控要求,平臺規(guī)模較大,各類模塊功能繁多,用戶使用存在不便的操作。這導(dǎo)致一線監(jiān)控人員在使用信息系統(tǒng)監(jiān)控平臺獲取故障信息的過程中存在使用效率低下以及漏查故障的問題。
[0005]2、監(jiān)控內(nèi)容獨立且比較分散,根據(jù)不同的監(jiān)控需求形成各類監(jiān)控指標(biāo),衡量標(biāo)準(zhǔn)的不同也帶來了無法對監(jiān)控內(nèi)容進行統(tǒng)一認知的問題。監(jiān)控人員在缺少對信息系統(tǒng)的整體了解的情況下,在獲知系統(tǒng)異常信息時,難以根據(jù)指標(biāo)的說明獲知對應(yīng)故障對整個信息系統(tǒng)運行健康的影響。
[0006]3、系統(tǒng)監(jiān)控平臺由于需要進行數(shù)據(jù)采集、指標(biāo)分析等環(huán)節(jié)的處理,最終展示故障信息時會略晚于實際信息系統(tǒng)出現(xiàn)故障的時間,這個時間的長短取決于系統(tǒng)監(jiān)控平臺數(shù)據(jù)預(yù)處理模塊的性能設(shè)計。對于大型的系統(tǒng)監(jiān)控平臺,在數(shù)據(jù)展示精確性的要求下,往往在數(shù)據(jù)預(yù)處理的過程中花費更多的判斷,以此來確保最終展示的故障信息的準(zhǔn)確性,這樣的處理會影響系統(tǒng)的實時性要求。
【發(fā)明內(nèi)容】
[0007]本發(fā)明提供一種基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)及方法,其系統(tǒng)結(jié)構(gòu)簡單,對故障反應(yīng)快捷,實現(xiàn)了監(jiān)控操作的簡化,故障發(fā)生和告警產(chǎn)生之間時間的大為縮短。
[0008]一種基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng),包括數(shù)據(jù)中心服務(wù)器、應(yīng)用服務(wù)器、采集管理節(jié)點、與采集管理節(jié)點連接的多個采集節(jié)點,采集節(jié)點與大型監(jiān)控系統(tǒng)或業(yè)務(wù)系統(tǒng)連接;采集管理節(jié)點和應(yīng)用服務(wù)器分別于數(shù)據(jù)中心服務(wù)器連接,
[0009]所述采集管理節(jié)點,用于實現(xiàn)業(yè)務(wù)運行數(shù)據(jù)采集,具體功能為:
[0010]根據(jù)不同類型的業(yè)務(wù)運行數(shù)據(jù),設(shè)定不同的取數(shù)時間;
[0011]按照系統(tǒng)類別進行數(shù)據(jù)采集;
[0012]對采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類;
[0013]將采集得到的數(shù)據(jù)按照預(yù)定數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器;
[0014]所述應(yīng)用服務(wù)器,用于對采集的業(yè)務(wù)運行數(shù)據(jù)進行分析,具體為:
[0015]根據(jù)不同監(jiān)控指標(biāo)頻率,創(chuàng)建不同的定時任務(wù);
[0016]配置定時任務(wù)觸發(fā)時間,任務(wù)調(diào)度器啟動后加載相關(guān)配置;
[0017]任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理;
[0018]將分析處理后的數(shù)據(jù)按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器;
[0019]所述應(yīng)用服務(wù)器還用于在對采集的業(yè)務(wù)運行數(shù)據(jù)進行分析后進行集中監(jiān)控展示,具體為:
[0020]初始化展示頁面;
[0021]載入頁面刷新頻率,定時加載最新監(jiān)控數(shù)據(jù);
[0022]載入頁面監(jiān)控指標(biāo)配置文件,查詢指標(biāo)對應(yīng)告警信息,根據(jù)查詢得到的告警信息進行實時聲光告警;
[0023]根據(jù)信號量數(shù)據(jù)對應(yīng)的指標(biāo)氣泡圖顏色進行渲染;
[0024]顏色標(biāo)識異常的氣泡圖在點擊時,彈出對應(yīng)指標(biāo)的數(shù)據(jù)歷史曲線圖。
[0025]一種基于數(shù)據(jù)中心的集中監(jiān)控方法,其特征在于應(yīng)用在上述監(jiān)控系統(tǒng)中,所述方法包括如下步驟:
[0026]步驟Sll:根據(jù)不同類型的業(yè)務(wù)運行數(shù)據(jù),設(shè)定不同的取數(shù)時間;
[0027]步驟S12:按照系統(tǒng)類別進行數(shù)據(jù)采集;
[0028]步驟S13:對采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類;
[0029]步驟S14:將采集得到的數(shù)據(jù)按照預(yù)定數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器;
[0030]步驟S15:根據(jù)不同監(jiān)控指標(biāo)頻率,創(chuàng)建不同的定時任務(wù);
[0031]步驟S16:配置定時任務(wù)觸發(fā)時間,任務(wù)調(diào)度器啟動后加載相關(guān)配置;
[0032]步驟S17:任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理;
[0033]步驟S18:將分析處理后的數(shù)據(jù)按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器;
[0034]步驟S19:初始化展示頁面;
[0035]步驟S20:載入頁面刷新頻率,定時加載最新監(jiān)控數(shù)據(jù);
[0036]步驟S21:載入頁面監(jiān)控指標(biāo)配置文件,查詢指標(biāo)對應(yīng)告警信息,根據(jù)查詢得到的告警信息進行實時聲光告警;
[0037]步驟S22:根據(jù)信號量數(shù)據(jù)對應(yīng)的指標(biāo)氣泡圖顏色進行渲染;
[0038]步驟S23:顏色標(biāo)識異常的氣泡圖在點擊時,彈出對應(yīng)指標(biāo)的數(shù)據(jù)歷史曲線圖。
[0039]本發(fā)明具有如下有益效果:
[0040]1、通過應(yīng)用該基于數(shù)據(jù)中心的集中監(jiān)控技術(shù),降低了監(jiān)控系統(tǒng)的規(guī)模以及監(jiān)控系統(tǒng)各部分之間的交互復(fù)雜度;
[0041]2、可以有效提升數(shù)據(jù)處理效率,縮短故障發(fā)生和故障告警之間時間;
[0042]3、監(jiān)控人員在監(jiān)控過程中的操作復(fù)雜度大幅降低,提高監(jiān)控效率;
[0043]4、輔助的聲光提示,可以減少監(jiān)控人員長時間關(guān)注系統(tǒng)的壓力。
【專利附圖】
【附圖說明】
[0044]圖1是本發(fā)明基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)的結(jié)構(gòu)示意圖;
[0045]圖2是本發(fā)明基于數(shù)據(jù)中心的集中監(jiān)控方法的流程示意圖。
[0046]圖中:1 一數(shù)據(jù)中心服務(wù)器,2—應(yīng)用服務(wù)器,3—采集管理節(jié)點,4一采集節(jié)點,5—實時數(shù)據(jù)庫服務(wù)器。
【具體實施方式】
[0047]下面將結(jié)合本發(fā)明中的附圖,對本發(fā)明中的技術(shù)方案進行清楚、完整地描述。
[0048]圖1所示為本發(fā)明基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)的結(jié)構(gòu)示意圖,所述基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng)包括數(shù)據(jù)中心服務(wù)器1、應(yīng)用服務(wù)器2、采集管理節(jié)點3、與采集管理節(jié)點3連接的多個采集節(jié)點4。采集節(jié)點4與大型監(jiān)控系統(tǒng)或業(yè)務(wù)系統(tǒng)連接;采集管理節(jié)點3和應(yīng)用服務(wù)器2分別于數(shù)據(jù)中心服務(wù)器I連接。
[0049]所述采集管理節(jié)點3,用于實現(xiàn)業(yè)務(wù)運行數(shù)據(jù)采集。具體功能如下:
[0050](I)根據(jù)不同類型的業(yè)務(wù)運行數(shù)據(jù),設(shè)定不同的取數(shù)時間;
[0051](2)按照系統(tǒng)類別進行數(shù)據(jù)采集,具體的,針對網(wǎng)絡(luò)性能、數(shù)據(jù)庫性能、主機性能、中間件性能通過采集節(jié)點4分別實現(xiàn)數(shù)據(jù)采集;其中網(wǎng)絡(luò)性能通過監(jiān)控廣域核心路由器的端口獲取數(shù)據(jù),數(shù)據(jù)庫性能通過SQL查詢語句實現(xiàn)數(shù)據(jù)獲取,主機性能數(shù)據(jù)采集通過具有一定權(quán)限的用戶登錄到系統(tǒng)獲取相應(yīng)的性能數(shù)據(jù),中間件性能采用JMX和SNMP協(xié)議獲取規(guī)范標(biāo)準(zhǔn)下的性能數(shù)據(jù)。采集數(shù)據(jù)以不同類型的數(shù)據(jù)產(chǎn)生情況為依據(jù),通過不同的采集方式進行實時的數(shù)據(jù)采集。特別針對業(yè)務(wù)數(shù)據(jù)產(chǎn)生的時間,實現(xiàn)低頻數(shù)據(jù)的低頻采集,避免同一的采集過程帶來的額外的數(shù)據(jù)采集資源的消耗。
[0052](3)對采集節(jié)點4采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類,具體的,按照業(yè)務(wù)內(nèi)容的不同將采集的數(shù)據(jù)分為系統(tǒng)狀態(tài)數(shù)據(jù)、數(shù)據(jù)庫及存儲復(fù)制狀態(tài)、桌面安全監(jiān)控數(shù)據(jù)以及客服處理數(shù)據(jù)四大類;
[0053](4)將采集得到的數(shù)據(jù)按照預(yù)定數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器I ;數(shù)據(jù)中心服務(wù)器I規(guī)定了系統(tǒng)所需的資源數(shù)據(jù)、資產(chǎn)數(shù)據(jù)、元數(shù)據(jù)、告警數(shù)據(jù)、性能數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),便于各類數(shù)據(jù)的結(jié)構(gòu)化表示。數(shù)據(jù)中心服務(wù)器I除提供了系統(tǒng)所需的所有數(shù)據(jù)的管理的功能外,數(shù)據(jù)中心更多情況下作為各個模塊的數(shù)據(jù)交互接口,各模塊的數(shù)據(jù)獲取除了系統(tǒng)外部數(shù)據(jù)意外,所有所需的數(shù)據(jù)均可從數(shù)據(jù)中心服務(wù)器I獲取,各模塊處理產(chǎn)生的數(shù)據(jù)均可存入數(shù)據(jù)中心服務(wù)器1,供其他模塊獲取使用。
[0054]所述應(yīng)用服務(wù)器2,用于對采集管理節(jié)點3采集的業(yè)務(wù)運行數(shù)據(jù)進行分析,具體功能如下:
[0055](I)根據(jù)不同監(jiān)控指標(biāo)頻率,創(chuàng)建不同的定時任務(wù),監(jiān)控指標(biāo)頻率的確定依據(jù)于采集數(shù)據(jù)的時間頻率;
[0056](2)配置定時任務(wù)觸發(fā)時間,任務(wù)調(diào)度器啟動后加載相關(guān)配置;
[0057](3)任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理,具體的,根據(jù)任務(wù)創(chuàng)建時確定的分析邏輯,實現(xiàn)篩選、合計、對比等分析處理,生成相應(yīng)告警信息、曲線圖數(shù)據(jù)、信號量數(shù)據(jù),并存入數(shù)據(jù)中心服務(wù)器(I)中。例如進行如下三類數(shù)據(jù)分析:
[0058]數(shù)據(jù)缺失分析:針對性能數(shù)據(jù)無法正常獲取而導(dǎo)致在數(shù)據(jù)分析過程中出現(xiàn)數(shù)據(jù)缺失的場景,將生成對應(yīng)數(shù)據(jù)缺失故障告警;
[0059]數(shù)據(jù)超出預(yù)定閾值情況分析:針對具有一定波動范圍的數(shù)據(jù),將預(yù)設(shè)波動范圍的最大最小閾值,在數(shù)據(jù)分析過程中出現(xiàn)超出最大、最小閾值的情況,將生成對應(yīng)數(shù)據(jù)越界故障告警;
[0060]數(shù)據(jù)非正常變化情況分析:針對具有線性增長規(guī)律以及恒定不變的規(guī)律等等一定變化規(guī)律的數(shù)據(jù),在數(shù)據(jù)分析過程中出現(xiàn)不符合業(yè)務(wù)規(guī)律的突變時,將生成對應(yīng)數(shù)據(jù)突變故障告警。
[0061]本發(fā)明根據(jù)監(jiān)控指標(biāo)的不同頻率要求,創(chuàng)建不同的定時任務(wù),通過任務(wù)調(diào)度管理實現(xiàn)自動的數(shù)據(jù)分析,相同頻率的指標(biāo)通過多線程處理,實現(xiàn)并行的數(shù)據(jù)分析,可提高數(shù)據(jù)分析效率。
[0062](4)將分析處理后的數(shù)據(jù)按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器I。
[0063]所述應(yīng)用服務(wù)器2還用于在對采集管理節(jié)點3采集的業(yè)務(wù)運行數(shù)據(jù)進行分析后進行集中監(jiān)控展示,具體功能如下:
[0064](I)初始化展示頁面;
[0065](2)載入頁面刷新頻率,定時加載最新監(jiān)控數(shù)據(jù),頁面刷新頻率依據(jù)于監(jiān)控指標(biāo)頻率;
[0066](3)載入頁面監(jiān)控指標(biāo)配置文件,查詢指標(biāo)對應(yīng)告警信息,根據(jù)查詢得到的告警信息進行實時聲光告警;
[0067](4)根據(jù)信號量數(shù)據(jù)對應(yīng)的指標(biāo)氣泡圖顏色進行渲染;
[0068](5)顏色標(biāo)識異常的氣泡圖在點擊時,彈出對應(yīng)指標(biāo)的數(shù)據(jù)歷史曲線圖。
[0069]本發(fā)明精簡了數(shù)據(jù)應(yīng)用展示。通過選取重要的監(jiān)控功能,形成監(jiān)控展示、實時告警、故障查詢、評價看板四個展示功能。實現(xiàn)對需要重點關(guān)注的指標(biāo)實現(xiàn)集中展示的功能;提供設(shè)備運行故障及時進行告警提示功能;提供對歷史故障信息進行指定條件的查詢的功能;實現(xiàn)對重點關(guān)注的指標(biāo)進行評分展示的功能。
[0070]如圖2所示,本發(fā)明還提供一種基于數(shù)據(jù)中心的集中監(jiān)控方法,其應(yīng)用上述監(jiān)控系統(tǒng)進行監(jiān)控,所述方法包括如下步驟:
[0071]所述采集管理節(jié)點3進行業(yè)務(wù)運行數(shù)據(jù)采集,具體步驟如下:
[0072]步驟Sll:根據(jù)不同類型的業(yè)務(wù)運行數(shù)據(jù),設(shè)定不同的取數(shù)時間;
[0073]步驟S12:按照系統(tǒng)類別進行數(shù)據(jù)采集,具體的,針對網(wǎng)絡(luò)性能、數(shù)據(jù)庫性能、主機性能、中間件性能通過采集節(jié)點4分別實現(xiàn)數(shù)據(jù)采集;其中網(wǎng)絡(luò)性能通過監(jiān)控廣域核心路由器的端口獲取數(shù)據(jù),數(shù)據(jù)庫性能通過SQL查詢語句實現(xiàn)數(shù)據(jù)獲取,主機性能數(shù)據(jù)采集通過具有一定權(quán)限的用戶登錄到系統(tǒng)獲取相應(yīng)的性能數(shù)據(jù),中間件性能采用JMX和SNMP協(xié)議獲取規(guī)范標(biāo)準(zhǔn)下的性能數(shù)據(jù)。
[0074]步驟S13:對采集節(jié)點4采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類,具體的,按照業(yè)務(wù)內(nèi)容的不同將采集的數(shù)據(jù)分為系統(tǒng)狀態(tài)數(shù)據(jù)、數(shù)據(jù)庫及存儲復(fù)制狀態(tài)、桌面安全監(jiān)控數(shù)據(jù)以及客服處理數(shù)據(jù)四大類;
[0075]步驟S14:將采集得到的數(shù)據(jù)按照預(yù)定數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器I。
[0076]所述應(yīng)用服務(wù)器2對采集的業(yè)務(wù)運行數(shù)據(jù)進行分析,具體步驟如下:
[0077]步驟S15:根據(jù)不同監(jiān)控指標(biāo)頻率,創(chuàng)建不同的定時任務(wù);
[0078]步驟S16:配置定時任務(wù)觸發(fā)時間,任務(wù)調(diào)度器啟動后加載相關(guān)配置;
[0079]步驟S17:任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理,具體的,根據(jù)任務(wù)創(chuàng)建時確定的分析邏輯,實現(xiàn)篩選、合計、對比等分析處理,例如如下三類數(shù)據(jù)分析:
[0080]數(shù)據(jù)缺失分析:針對性能數(shù)據(jù)無法正常獲取而導(dǎo)致在數(shù)據(jù)分析過程中出現(xiàn)數(shù)據(jù)缺失的場景,將生成對應(yīng)數(shù)據(jù)缺失故障告警;
[0081]數(shù)據(jù)超出預(yù)定閾值情況分析:針對具有一定波動范圍的數(shù)據(jù),將預(yù)設(shè)波動范圍的最大最小閾值,在數(shù)據(jù)分析過程中出現(xiàn)超出最大、最小閾值的情況,將生成對應(yīng)數(shù)據(jù)越界故障告警;
[0082]數(shù)據(jù)非正常變化情況分析:針對具有線性增長規(guī)律以及恒定不變的規(guī)律等等一定變化規(guī)律的數(shù)據(jù),在數(shù)據(jù)分析過程中出現(xiàn)不符合業(yè)務(wù)規(guī)律的突變時,將生成對應(yīng)數(shù)據(jù)突變故障告警。
[0083]步驟S18:將分析處理后的數(shù)據(jù)按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器I。
[0084]所述應(yīng)用服務(wù)器2在對采集管理節(jié)點3采集的業(yè)務(wù)運行數(shù)據(jù)進行分析后進行集中監(jiān)控展示,具體步驟如下:
[0085]步驟S19:初始化展示頁面;
[0086]步驟S20:載入頁面刷新頻率,定時加載最新監(jiān)控數(shù)據(jù);
[0087]步驟S21:載入頁面監(jiān)控指標(biāo)配置文件,查詢指標(biāo)對應(yīng)告警信息,根據(jù)查詢得到的告警信息進行實時聲光告警;
[0088]步驟S22:根據(jù)信號量數(shù)據(jù)對應(yīng)的指標(biāo)氣泡圖顏色進行渲染;
[0089]步驟S23:顏色標(biāo)識異常的氣泡圖在點擊時,彈出對應(yīng)指標(biāo)的數(shù)據(jù)歷史曲線圖。
[0090]本發(fā)明基于數(shù)據(jù)中心的集中監(jiān)控技術(shù)針對當(dāng)前大型監(jiān)控平臺的使用復(fù)雜,監(jiān)控內(nèi)容分散,故障發(fā)生和告警之間的時間較長的問題進行了優(yōu)化,即該技術(shù)主要進行了如下創(chuàng)新:
[0091](I)有重點的監(jiān)控展示設(shè)計。該技術(shù)有選擇地選取了指標(biāo)狀態(tài)監(jiān)控,告警詳細信息查詢以及指標(biāo)數(shù)值看板3個關(guān)注度較高的監(jiān)控功能。其中指標(biāo)狀態(tài)監(jiān)控作為監(jiān)控展示功能的一個邏輯模塊,以氣泡圖的形式展現(xiàn),通過氣泡的變化直觀的反應(yīng)指標(biāo)的狀態(tài)信息;告警詳細信息查詢作為故障查詢功能的一個邏輯模塊,提供有條件的查詢方法,可以在指標(biāo)狀態(tài)異常的時候快捷地提供告警信息的查詢;指標(biāo)數(shù)值看板即為評價看板功能,提供指標(biāo)的衡量值的展示,便于用戶進行指標(biāo)的評價分析。這三個監(jiān)控功能盡管無法反映信息系統(tǒng)運行的全部信息,但是能夠?qū)?fù)雜的監(jiān)控內(nèi)容濃縮在有限的功能中,通過以小見大的方式,以重要指標(biāo)的變化反映信息系統(tǒng)運行的一般情況。
[0092](2)以數(shù)據(jù)中心為數(shù)據(jù)管理形式。該技術(shù)通過數(shù)據(jù)中心實現(xiàn)所有的業(yè)務(wù)性能數(shù)據(jù)、告警信息等數(shù)據(jù)的管理。通過集中的數(shù)據(jù)管理,可以集中進行數(shù)據(jù)結(jié)構(gòu)的設(shè)計,避免了對各個模塊處理的中間數(shù)據(jù)分別進行數(shù)據(jù)結(jié)構(gòu)的定義,有利于數(shù)據(jù)的維護;同時通過數(shù)據(jù)中心提供統(tǒng)一的數(shù)據(jù)訪問方式,減少各模塊的數(shù)據(jù)交互的復(fù)雜性,各模塊僅需要通過與數(shù)據(jù)中心的交互即可獲取所需數(shù)據(jù)或存儲處理的結(jié)果。
[0093](3)高效的數(shù)據(jù)處理過程。為能夠更加及時反映信息系統(tǒng)的運行狀態(tài)變化,對信息系統(tǒng)運行數(shù)據(jù)處理的效率非常關(guān)鍵。該技術(shù)在數(shù)據(jù)采集和數(shù)據(jù)分析兩個模塊上進行了處理效率的提升,采用多節(jié)點的形式,分別實現(xiàn)各個業(yè)務(wù)性能數(shù)據(jù)的采集,通過統(tǒng)一的采集管理實現(xiàn)數(shù)據(jù)匯總,同時多線性并行實現(xiàn)了數(shù)據(jù)指標(biāo)分析。另外各模塊根據(jù)執(zhí)行的先后順序,實現(xiàn)模塊間的無縫對接,盡可能縮短從數(shù)據(jù)產(chǎn)生到前臺展示所需的時間。本發(fā)明在數(shù)據(jù)流轉(zhuǎn)的時序上實現(xiàn)了各模塊的無縫對接,縮短了數(shù)據(jù)產(chǎn)生到展示的時間。采集模塊定時觸發(fā)進行數(shù)據(jù)采集存入數(shù)據(jù)中心,數(shù)據(jù)采集時間經(jīng)過測算并實際控制于I分鐘之內(nèi);數(shù)據(jù)處理的指標(biāo)分析定時進行對應(yīng)業(yè)務(wù)性能數(shù)據(jù)的分析處理,處理頻率依據(jù)分析數(shù)據(jù)的采集頻率,在數(shù)據(jù)采集完成后指標(biāo)分析進行同頻率的處理,處理的時間也在測算后實際控制于I分鐘之內(nèi);集中監(jiān)控展示模塊同樣以定時觸發(fā)的形式進行數(shù)據(jù)分析處理結(jié)果數(shù)據(jù)的獲取并展示。在數(shù)據(jù)采集和數(shù)據(jù)處理兩個模塊的運行中,后者以同頻率在前者處理完成后觸發(fā)執(zhí)行,實現(xiàn)對前者處理結(jié)果的下一步加工;而對于數(shù)據(jù)處理和集中監(jiān)控展示也是如此,以保證產(chǎn)生的告警等處理信息能夠及時反映在監(jiān)控頁面上。
[0094]基于上述創(chuàng)新,使得基于該技術(shù)的監(jiān)控系統(tǒng)具備精簡的系統(tǒng)結(jié)構(gòu),使監(jiān)控人員能夠以更少的操作完成更多的監(jiān)控要求;同時系統(tǒng)各個邏輯間關(guān)系,模塊部署的相互依賴性較低,便于分模塊進行系統(tǒng)維護;數(shù)據(jù)分析效率提升,能更加及時反映系統(tǒng)的運行故障;有效的問題聲光提示,可以將用戶從持續(xù)監(jiān)控觀察工作中解放出來;由于系統(tǒng)設(shè)計精簡,適合用于對現(xiàn)有的大型信息系統(tǒng)監(jiān)控平臺進行輔助工作。
[0095]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何屬于本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng),其特征在于:包括數(shù)據(jù)中心服務(wù)器(I)、應(yīng)用服務(wù)器(2)、采集管理節(jié)點(3)、與采集管理節(jié)點(3)連接的多個采集節(jié)點(4),采集節(jié)點(4)與大型監(jiān)控系統(tǒng)或業(yè)務(wù)系統(tǒng)連接;采集管理節(jié)點(3)和應(yīng)用服務(wù)器(2)分別于數(shù)據(jù)中心服務(wù)器⑴連接, 所述采集管理節(jié)點(3),用于實現(xiàn)業(yè)務(wù)運行數(shù)據(jù)采集,具體功能為: 根據(jù)不同類型的業(yè)務(wù)運行數(shù)據(jù),設(shè)定不同的取數(shù)時間; 按照系統(tǒng)類別進行數(shù)據(jù)采集; 對采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類; 將采集得到的數(shù)據(jù)按照預(yù)定數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器(I); 所述應(yīng)用服務(wù)器(2),用于對采集的業(yè)務(wù)運行數(shù)據(jù)進行分析,具體為: 根據(jù)不同監(jiān)控指標(biāo)頻率,創(chuàng)建不同的定時任務(wù); 配置定時任務(wù)觸發(fā)時間,任務(wù)調(diào)度器啟動后加載相關(guān)配置; 任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理; 將分析處理后的數(shù)據(jù)按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器(I); 所述應(yīng)用服務(wù)器(2)還用于在對采集的業(yè)務(wù)運行數(shù)據(jù)進行分析后進行集中監(jiān)控展示,具體為: 初始化展示頁面; 載入頁面刷新頻率,定時加載最新監(jiān)控數(shù)據(jù); 載入頁面監(jiān)控指標(biāo)配置文件,查詢指標(biāo)對應(yīng)告警信息,根據(jù)查詢得到的告警信息進行實時聲光告警; 根據(jù)信號量數(shù)據(jù)對應(yīng)的指標(biāo)氣泡圖顏色進行渲染; 顏色標(biāo)識異常的氣泡圖在點擊時,彈出對應(yīng)指標(biāo)的數(shù)據(jù)歷史曲線圖。
2.如權(quán)利要求1所述的基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng),其特征在于:按照系統(tǒng)類別進行數(shù)據(jù)采集具體為:針對網(wǎng)絡(luò)性能、數(shù)據(jù)庫性能、主機性能、中間件性能通過采集節(jié)點(4)分別實現(xiàn)數(shù)據(jù)采集,其中網(wǎng)絡(luò)性能通過監(jiān)控廣域核心路由器的端口獲取數(shù)據(jù),數(shù)據(jù)庫性能通過SQL查詢語句實現(xiàn)數(shù)據(jù)獲取,主機性能數(shù)據(jù)采集通過具有一定權(quán)限的用戶登錄到系統(tǒng)獲取相應(yīng)的性能數(shù)據(jù),中間件性能采用JMX和SNMP協(xié)議獲取規(guī)范標(biāo)準(zhǔn)下的性能數(shù)據(jù)。
3.如權(quán)利要求1所述的基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng),其特征在于:對采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類為四大類:系統(tǒng)狀態(tài)數(shù)據(jù)、數(shù)據(jù)庫及存儲復(fù)制狀態(tài)、桌面安全監(jiān)控數(shù)據(jù)以及客服處理數(shù)據(jù)。
4.如權(quán)利要求1所述的基于數(shù)據(jù)中心的集中監(jiān)控系統(tǒng),其特征在于:任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理具體為:根據(jù)任務(wù)創(chuàng)建時確定的分析邏輯,進行數(shù)據(jù)缺失分析、數(shù)據(jù)超出預(yù)定閾值情況分析和數(shù)據(jù)非正常變化情況分析生成相應(yīng)告警信息;對數(shù)據(jù)進行合計篩選生成曲線圖數(shù)據(jù)、信號量數(shù)據(jù),并將生成數(shù)據(jù)存入數(shù)據(jù)中心服務(wù)器(I)中。
5.一種基于數(shù)據(jù)中心的集中監(jiān)控方法,其特征在于應(yīng)用在權(quán)利要求1-4中任一所述監(jiān)控系統(tǒng)中,所述方法包括如下步驟: 步驟Sll:根據(jù)不同類型的業(yè)務(wù)運行數(shù)據(jù),設(shè)定不同的取數(shù)時間; 步驟S12:按照系統(tǒng)類別進行數(shù)據(jù)采集; 步驟S13:對采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類; 步驟S14:將采集得到的數(shù)據(jù)按照預(yù)定數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器(I); 步驟S15:根據(jù)不同監(jiān)控指標(biāo)頻率,創(chuàng)建不同的定時任務(wù); 步驟S16:配置定時任務(wù)觸發(fā)時間,任務(wù)調(diào)度器啟動后加載相關(guān)配置; 步驟S17:任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理; 步驟S18:將分析處理后的數(shù)據(jù)按照預(yù)定的數(shù)據(jù)結(jié)構(gòu)存入數(shù)據(jù)中心服務(wù)器(I); 步驟S19:初始化展示頁面; 步驟S20:載入頁面刷新頻率,定時加載最新監(jiān)控數(shù)據(jù); 步驟S21:載入頁面監(jiān)控指標(biāo)配置文件,查詢指標(biāo)對應(yīng)告警信息,根據(jù)查詢得到的告警信息進行實時聲光告警; 步驟S22:根據(jù)信號量數(shù)據(jù)對應(yīng)的指標(biāo)氣泡圖顏色進行渲染; 步驟S23:顏色標(biāo)識異常的氣泡圖在點擊時,彈出對應(yīng)指標(biāo)的數(shù)據(jù)歷史曲線圖。
6.如權(quán)利要求5所述的基于數(shù)據(jù)中心的集中監(jiān)控方法,其特征在于:步驟S12中按照系統(tǒng)類別進行數(shù)據(jù)采集具體為:針對網(wǎng)絡(luò)性能、數(shù)據(jù)庫性能、主機性能、中間件性能通過采集節(jié)點(4)分別實現(xiàn)數(shù)據(jù)采集,其中網(wǎng)絡(luò)性能通過監(jiān)控廣域核心路由器的端口獲取數(shù)據(jù),數(shù)據(jù)庫性能通過SQL查詢語句實現(xiàn)數(shù)據(jù)獲取,主機性能數(shù)據(jù)采集通過具有一定權(quán)限的用戶登錄到系統(tǒng)獲取相應(yīng)的性能數(shù)據(jù),中間件性能采用JMX和SNMP協(xié)議獲取規(guī)范標(biāo)準(zhǔn)下的性能數(shù)據(jù)。
7.如權(quán)利要求5所述的基于數(shù)據(jù)中心的集中監(jiān)控方法,其特征在于:步驟S13中對采集的數(shù)據(jù)按照業(yè)務(wù)類別進行分類為四大類:系統(tǒng)狀態(tài)數(shù)據(jù)、數(shù)據(jù)庫及存儲復(fù)制狀態(tài)、桌面安全監(jiān)控數(shù)據(jù)以及客服處理數(shù)據(jù)。
8.如權(quán)利要求5所述的基于數(shù)據(jù)中心的集中監(jiān)控方法,其特征在于:步驟S17中任務(wù)調(diào)度器觸發(fā)任務(wù)后對數(shù)據(jù)進行分析處理具體為:根據(jù)任務(wù)創(chuàng)建時確定的分析邏輯,進行數(shù)據(jù)缺失分析、數(shù)據(jù)超出預(yù)定閾值情況分析和數(shù)據(jù)非正常變化情況分析,生成相應(yīng)告警信息;對數(shù)據(jù)進行合計篩選生成曲線圖數(shù)據(jù)、信號量數(shù)據(jù),并將生成數(shù)據(jù)存入數(shù)據(jù)中心服務(wù)器(I)中。
【文檔編號】G06F11/32GK104407964SQ201410743521
【公開日】2015年3月11日 申請日期:2014年12月8日 優(yōu)先權(quán)日:2014年12月8日
【發(fā)明者】孫俊, 何濤, 張勇, 巢玉堅, 周振煜, 趙世文, 陳國良, 王靚, 曾玉榮 申請人:國家電網(wǎng)公司, 國網(wǎng)湖北省電力公司信息通信公司, 南京南瑞集團公司, 南京南瑞信息通信科技有限公司