欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

故障管理系統(tǒng)和故障管理方法

文檔序號:8006210閱讀:704來源:國知局
故障管理系統(tǒng)和故障管理方法
【專利摘要】本發(fā)明提供了一種故障管理系統(tǒng),包括:故障監(jiān)測模塊,用于在與分布式系統(tǒng)中的多個分布式子機建立連接后,對所述多個分布式子機進行監(jiān)測,并在監(jiān)測到所述多個分布式子機中的任一分布式子機出現(xiàn)故障時,記錄所述任一分布式子機的故障信息;故障處理模塊,獲取所述故障信息,并根據(jù)所述故障信息的故障類型對所述任一分布式子機執(zhí)行對應的預設故障處理操作。相應地,本發(fā)明還提供了一種故障管理方法。通過本發(fā)明的技術方案,能夠有效管理在分布式計算過程中發(fā)生的故障,提供維護人員的工作效率。
【專利說明】故障管理系統(tǒng)和故障管理方法
【技術領域】
[0001]本發(fā)明涉及分布式系統(tǒng)管理領域,具體而言,涉及一種故障管理系統(tǒng)和故障管理方法。
【背景技術】
[0002]隨著科技的進步,大規(guī)模分布式計算成為了現(xiàn)實,動輒使用上百甚至上千臺服務器搭建集群。單臺服務器的硬盤故障率是4%,但是當一個集群有5000臺服務器的時候,硬盤故障率就是99.6% 了。而且在這種集群環(huán)境下,服務器之間網(wǎng)絡通信,任務調(diào)度也會產(chǎn)生更多問題,這些問題和故障的處理大多都要求快速和準確,但是維護人員手工定位、排查和解決故障一般都需要很長時間,這帶給了維護人員前所未有的巨大壓力。
[0003]因此,需要一種新的故障管理技術,能夠有效管理在分布式計算過程中發(fā)生的大多數(shù)故障,從而達到快速反應并處理故障,提高維護人員的工作效率,節(jié)約時間和成本,同時使分布式計算過程更加穩(wěn)定的目的。

【發(fā)明內(nèi)容】

[0004]本發(fā)明正是基于上述問題,提出了一種新的故障管理技術,能夠有效管理在分布式計算過程中發(fā)生的大多數(shù)故障,從而達到快速反應并處理故障,提高維護人員的工作效率,節(jié)約時間和成本,同時使分布式計算過程更加穩(wěn)定的目的。
[0005]有鑒于此,本發(fā)明提出了一種故障管理系統(tǒng),用于管理分布式系統(tǒng),包括:故障監(jiān)測模塊,用于在與分布式系統(tǒng)中的多個分布式子機建立連接后,對所述多個分布式子機進行監(jiān)測,并在監(jiān)測到所述多個分布式子機中的任一分布式子機出現(xiàn)故障時,記錄所述任一分布式子機的故障信息;故障處理模塊,獲取所述故障信息,并根據(jù)所述故障信息的故障類型對所述任一分布式子機執(zhí)行對應的預設故障處理操作。
[0006]在該技術方案中,通過故障檢測模塊實時檢測出影響分布式系統(tǒng)運行的故障的詳細信息,并馬上執(zhí)行應對故障的措施,達到了前所未有的反應速度,大大的提高了分布式系統(tǒng)維護的工作效率。
[0007]其中,該故障管理系統(tǒng)可以設置在獨立的服務器上運行,這樣保證可以不受到分布式系統(tǒng)故障的影響,從而保證故障管理系統(tǒng)的可靠性。
[0008]在上述技術方案中,優(yōu)選地,所述故障處理模塊還用于,檢測所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài),并在所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài)為斷開時,發(fā)出連接故障通知。
[0009]在該技術方案中,一旦故障監(jiān)測模塊和分布式系統(tǒng)的連接斷開,即不能通過故障監(jiān)測模塊監(jiān)測分布式系統(tǒng),此時,系統(tǒng)可以發(fā)出連接故障通知或者是采取其他的監(jiān)控方式繼續(xù)監(jiān)控分布式系統(tǒng),從而保證能夠實時的監(jiān)控到分布式系統(tǒng)的狀態(tài)。
[0010]在上述技術方案中,優(yōu)選地,所述故障監(jiān)測模塊還包括:設置子模塊,用于根據(jù)接收到的設置指令,對所述故障類型和所述預設故障處理操作之間的關聯(lián)關系進行設置。[0011]在該技術方案中,用戶或廠商可以根據(jù)個人的需要設置監(jiān)控模塊對分布式系統(tǒng)的哪些故障進行檢測,比如設置故障類型包括:硬件順勢故障、硬件間歇故障、硬件永久故障、數(shù)值錯誤、非法請求、棧溢出、存儲器錯誤等等,以及設置每種故障類型對應的故障處理操作,這樣,保證在檢測到分布式系統(tǒng)故障時,能采取對應的故障處理操作自動對故障進行處理。
[0012]在上述技術方案中,優(yōu)選地,所述故障處理模塊還包括:報警子模塊,在所述故障類型為預設故障類型時,發(fā)出報警提示。
[0013]在該技術方案中,當分布式系統(tǒng)中的故障類型是無法通過自動采取故障處理操作進行處理的故障時,可以發(fā)出報警提示,從而提醒工作人員及時對該故障進行人工處理。當然,提示的方式不僅包括報警提示,也可以是預設的其他的通知方式。
[0014]在上述技術方案中,優(yōu)選地,還包括:故障信息模塊,用于對所述故障信息進行顯
/Jn o
[0015]在該技術方案中,用戶可以通過故障信息模塊查看到故障信息,其中,故障信息可以以故障日志的方式進行顯示,優(yōu)選地,用戶還可以根據(jù)自定義的條件查詢故障信息(即故障曰志)。
[0016]根據(jù)本發(fā)明的另一方面,還提供了一種故障管理方法,用于管理分布式系統(tǒng),包括:步驟202,在與分布式系統(tǒng)中的多個分布式子機建立連接后,對所述多個分布式子機進行監(jiān)測,并在監(jiān)測到所述多個分布式子機中的任一分布式子機出現(xiàn)故障時,記錄所述任一分布式子機的故障信息;步驟204,獲取所述故障信息,并根據(jù)所述故障信息的故障類型對所述任一分布式子機執(zhí)行對應的預設故障處理操作。
[0017]在該技術方案中,通過故障檢測模塊實時檢測出影響分布式系統(tǒng)運行的故障的詳細信息,并馬上執(zhí)行應對故障的措施,達到了前所未有的反應速度,大大的提高了分布式系統(tǒng)維護的工作效率。
[0018]其中,該故障管理系統(tǒng)可以設置在獨立的服務器上運行,這樣保證可以不受到分布式系統(tǒng)故障的影響,從而保證故障管理系統(tǒng)的可靠性。
[0019]在上述技術方案中,優(yōu)選地,所述步驟204還包括,檢測所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài),并在所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài)為斷開時,發(fā)出連接故障通知。
[0020]在該技術方案中,一旦故障監(jiān)測模塊和分布式系統(tǒng)的連接斷開,即不能通過故障監(jiān)測模塊監(jiān)測分布式系統(tǒng),此時,系統(tǒng)可以發(fā)出連接故障通知或者是采取其他的監(jiān)控方式繼續(xù)監(jiān)控分布式系統(tǒng),從而保證能夠實時的監(jiān)控到分布式系統(tǒng)的狀態(tài)。
[0021]在所述步驟202之前還包括:根據(jù)接收到的設置指令,對所述故障類型和所述預設故障處理操作之間的關聯(lián)關系進行設置。
[0022]在該技術方案中,用戶或廠商可以根據(jù)個人的需要設置監(jiān)控模塊對分布式系統(tǒng)的哪些故障進行檢測,比如設置故障類型包括:硬件順勢故障、硬件間歇故障、硬件永久故障、數(shù)值錯誤、非法請求、棧溢出、存儲器錯誤等等,以及設置每種故障類型對應的故障處理操作,這樣,保證在檢測到分布式系統(tǒng)故障時,能采取對應的故障處理操作自動對故障進行處理。
[0023]在上述技術方案中,優(yōu)選地,所述步驟204還包括:在所述故障類型為預設故障類型時,發(fā)出報警提示。
[0024]在該技術方案中,當分布式系統(tǒng)中的故障類型是無法通過自動采取故障處理操作進行處理的故障時,可以發(fā)出報警提示,從而提醒工作人員及時對該故障進行人工處理。當然,提示的方式不僅包括報警提示,也可以是預設的其他的通知方式。
[0025]在上述技術方案中,優(yōu)選地,還包括:步驟206,對所述故障信息進行顯示。
[0026]在該技術方案中,用戶可以通過故障信息模塊查看到故障信息,其中,故障信息可以以故障日志的方式進行顯示,優(yōu)選地,用戶還可以根據(jù)自定義的條件查詢故障信息(即故障曰志)。
[0027]通過以上技術方案,能夠有效管理在分布式計算過程中發(fā)生的大多數(shù)故障,從而達到快速反應并處理故障,提高維護人員的工作效率,節(jié)約時間和成本,同時使分布式計算過程更加穩(wěn)定的目的。
【專利附圖】

【附圖說明】
[0028]圖1示出了根據(jù)本發(fā)明的實施例的故障管理系統(tǒng)的框圖;
[0029]圖2示出了根據(jù)本發(fā)明的實施例的故障管理方法的流程圖;
[0030]圖3示出了根據(jù)本發(fā)明的實施例的故障管理系統(tǒng)的結構示意圖。
【具體實施方式】
[0031]為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結合附圖和【具體實施方式】對本發(fā)明進行進一步的詳細描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
[0032]在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。
[0033]圖1示出了根據(jù)本發(fā)明的實施例的故障管理系統(tǒng)的框圖。
[0034]如圖1所示,根據(jù)本發(fā)明的實施例的故障管理系統(tǒng)100,包括:故障監(jiān)測模塊102,用于在與分布式系統(tǒng)中的多個分布式子機建立連接后,對所述多個分布式子機進行監(jiān)測,并在監(jiān)測到所述多個分布式子機中的任一分布式子機出現(xiàn)故障時,記錄所述任一分布式子機的故障信息;故障處理模塊104,獲取所述故障信息,并根據(jù)所述故障信息的故障類型對所述任一分布式子機執(zhí)行對應的預設故障處理操作。
[0035]在該技術方案中,通過故障檢測模塊實時檢測出影響分布式系統(tǒng)運行的故障的詳細信息,并馬上執(zhí)行應對故障的措施,達到了前所未有的反應速度,大大的提高了分布式系統(tǒng)維護的工作效率。
[0036]其中,該故障管理系統(tǒng)可以設置在獨立的服務器上運行,這樣保證可以不受到分布式系統(tǒng)故障的影響,從而保證故障管理系統(tǒng)的可靠性。
[0037]在上述技術方案中,優(yōu)選地,所述故障處理模塊104還用于,檢測所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài),并在所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài)為斷開時,發(fā)出連接故障通知。
[0038]在該技術方案中,一旦故障監(jiān)測模塊和分布式系統(tǒng)的連接斷開,即不能通過故障監(jiān)測模塊監(jiān)測分布式系統(tǒng),此時,系統(tǒng)可以發(fā)出連接故障通知或者是采取其他的監(jiān)控方式繼續(xù)監(jiān)控分布式系統(tǒng),從而保證能夠實時的監(jiān)控到分布式系統(tǒng)的狀態(tài)。
[0039]在上述技術方案中,優(yōu)選地,所述故障監(jiān)測模塊102還包括:設置子模塊1022,用于根據(jù)接收到的設置指令,對所述故障類型和所述預設故障處理操作之間的關聯(lián)關系進行設置。
[0040]在該技術方案中,用戶或廠商可以根據(jù)個人的需要設置監(jiān)控模塊對分布式系統(tǒng)的哪些故障進行檢測,比如設置故障類型包括:硬件順勢故障、硬件間歇故障、硬件永久故障、數(shù)值錯誤、非法請求、棧溢出、存儲器錯誤等等,以及設置每種故障類型對應的故障處理操作,這樣,保證在檢測到分布式系統(tǒng)故障時,能采取對應的故障處理操作自動對故障進行處理。
[0041]在上述技術方案中,優(yōu)選地,所述故障處理模塊104還包括:報警子模塊1042,在所述故障類型為預設故障類型時,發(fā)出報警提示。
[0042]在該技術方案中,當分布式系統(tǒng)中的故障類型是無法通過自動采取故障處理操作進行處理的故障時,可以發(fā)出報警提示,從而提醒工作人員及時對該故障進行人工處理。當然,提示的方式不僅包括報警提示,也可以是預設的其他的通知方式。
[0043]在上述技術方案中,優(yōu)選地,還包括:故障信息模塊106,用于對所述故障信息進行顯示。
[0044]在該技術方案中,用戶可以通過故障信息模塊查看到故障信息,其中,故障信息可以以故障日志的方式進行顯示,優(yōu)選地,用戶還可以根據(jù)自定義的條件查詢故障信息(即故障曰志)。
[0045]圖2示出了根據(jù)本發(fā)明的實施例的故障管理方法的流程圖。
[0046]如圖2所示,根據(jù)本發(fā)明的實施例的故障管理方法,包括:步驟202,在與分布式系統(tǒng)中的多個分布式子機建立連接后,對所述多個分布式子機進行監(jiān)測,并在監(jiān)測到所述多個分布式子機中的任一分布式子機出現(xiàn)故障時,記錄所述任一分布式子機的故障信息;步驟204,獲取所述故障信息,并根據(jù)所述故障信息的故障類型對所述任一分布式子機執(zhí)行對應的預設故障處理操作。
[0047]在該技術方案中,通過故障檢測模塊實時檢測出影響分布式系統(tǒng)運行的故障的詳細信息,并馬上執(zhí)行應對故障的措施,達到了前所未有的反應速度,大大的提高了分布式系統(tǒng)維護的工作效率。
[0048]其中,該故障管理系統(tǒng)可以設置在獨立的服務器上運行,這樣保證可以不受到分布式系統(tǒng)故障的影響,從而保證故障管理系統(tǒng)的可靠性。
[0049]在上述技術方案中,優(yōu)選地,所述步驟204還包括,檢測所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài),并在所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài)為斷開時,發(fā)出連接故障通知。
[0050]在該技術方案中,一旦故障監(jiān)測模塊和分布式系統(tǒng)的連接斷開,即不能通過故障監(jiān)測模塊監(jiān)測分布式系統(tǒng),此時,系統(tǒng)可以發(fā)出連接故障通知或者是采取其他的監(jiān)控方式繼續(xù)監(jiān)控分布式系統(tǒng),從而保證能夠實時的監(jiān)控到分布式系統(tǒng)的狀態(tài)。
[0051]在所述步驟202之前還包括:根據(jù)接收到的設置指令,對所述故障類型和所述預設故障處理操作之間的關聯(lián)關系進行設置。[0052]在該技術方案中,用戶或廠商可以根據(jù)個人的需要設置監(jiān)控模塊對分布式系統(tǒng)的哪些故障進行檢測,比如設置故障類型包括:硬件順勢故障、硬件間歇故障、硬件永久故障、數(shù)值錯誤、非法請求、棧溢出、存儲器錯誤等等,以及設置每種故障類型對應的故障處理操作,這樣,保證在檢測到分布式系統(tǒng)故障時,能采取對應的故障處理操作自動對故障進行處理。
[0053]在上述技術方案中,優(yōu)選地,所述步驟204還包括:在所述故障類型為預設故障類型時,發(fā)出報警提示。
[0054]在該技術方案中,當分布式系統(tǒng)中的故障類型是無法通過自動采取故障處理操作進行處理的故障時,可以發(fā)出報警提示,從而提醒工作人員及時對該故障進行人工處理。當然,提示的方式不僅包括報警提示,也可以是預設的其他的通知方式。
[0055]在上述技術方案中,優(yōu)選地,還包括:步驟206,對所述故障信息進行顯示。
[0056]在該技術方案中,用戶可以通過故障信息模塊查看到故障信息,其中,故障信息可以以故障日志的方式進行顯示,優(yōu)選地,用戶還可以根據(jù)自定義的條件查詢故障信息(即故障曰志)。
[0057]圖3示出了根據(jù)本發(fā)明的實施例的故障管理系統(tǒng)的結構示意圖。
[0058]如圖3所示,根據(jù)本發(fā)明的實施例的故障管理系統(tǒng)300包括:故障監(jiān)測模塊302,其與分布式系統(tǒng)的子機連接,并在每個子機安裝寄宿程序,用來監(jiān)測故障和傳送故障信息。故障監(jiān)測模塊302的工作流程如下:首先,預先定義一些故障類型,如:硬件瞬時故障、硬件間歇故障,硬件永久故障,數(shù)值錯誤,非法請求,棧溢出,存儲器錯誤等等。同時,故障監(jiān)測模塊302中還預先定義一些監(jiān)測程序,這些監(jiān)測程序分為兩種,一種是在寄宿程序中執(zhí)行的,一種是在故障管理服務器執(zhí)行的。然后,設定監(jiān)測到的故障日志的格式,以及通知方式等信息。一旦發(fā)生故障,立即可以通過預先安裝在被監(jiān)測機器中的寄宿程序監(jiān)測并把監(jiān)測結果發(fā)送到故障管理服務器保存為故障日志;如果寄宿程序出現(xiàn)異常,這也是一種故障,故障管理系統(tǒng)會把該異常記入故障日志并交給故障處理模塊,同時由故障管理系統(tǒng)發(fā)起監(jiān)測程序,從外部監(jiān)測機器故障。當某些故障需要工作人員處理時,則按預設的通知方式發(fā)出通知。
[0059]故障信息模塊306,其與所述的故障監(jiān)測模塊302連接,為故障監(jiān)測模塊302提供故障日志寫入的接口。同時,提供對故障日志查詢的視圖,用戶可以根據(jù)自定義的條件查詢故障日志。
[0060]故障處理模塊304,其與所述的故障信息模塊306連接,獲取故障日志。當故障發(fā)生時,接收故障日志,并根據(jù)故障日志中記錄的故障詳細信息,執(zhí)行相應的故障處理程序。
[0061]以上結合附圖詳細說明了本發(fā)明的技術方案,通過本發(fā)明的技術方案,能夠有效管理在分布式計算過程中發(fā)生的大多數(shù)故障,從而達到快速反應并處理故障,提高維護人員的工作效率,節(jié)約時間和成本,同時使分布式計算過程更加穩(wěn)定的目的。
[0062]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【權利要求】
1.一種故障管理系統(tǒng),其特征在于,包括: 故障監(jiān)測模塊,用于在與分布式系統(tǒng)中的多個分布式子機建立連接后,對所述多個分布式子機進行監(jiān)測,并在監(jiān)測到所述多個分布式子機中的任一分布式子機出現(xiàn)故障時,記錄所述任一分布式子機的故障信息; 故障處理模塊,獲取所述故障信息,并根據(jù)所述故障信息的故障類型對所述任一分布式子機執(zhí)行對應的預設故障處理操作。
2.根據(jù)權利要求1所述的故障管理系統(tǒng),其特征在于,所述故障處理模塊還用于, 檢測所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài),并在所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài)為斷開時,發(fā)出連接故障通知。
3.根據(jù)權利要求1所述的故障管理系統(tǒng),其特征在于,所述故障監(jiān)測模塊還包括: 設置子模塊,用于根據(jù)接收到的設置指令,對所述故障類型和所述預設故障處理操作之間的關聯(lián)關系進行設置。
4.根據(jù)權利要求1所述的故障管理系統(tǒng),其特征在于,所述故障處理模塊還包括: 報警子模塊,在所述故障類型為預設故障類型時,發(fā)出報警提示。
5.根據(jù)權利要求1至4中任一項所述的故障管理系統(tǒng),其特征在于,還包括: 故障信息模塊,用于對所述故障信息進行顯示。
6.一種故障管理方法,其特征在于,包括: 步驟202,在與分布式系統(tǒng)中的多個分布式子機建立連接后,對所述多個分布式子機進行監(jiān)測,并在監(jiān)測到所述多個分布式子機中的任一分布式子機出現(xiàn)故障時,記錄所述任一分布式子機的故障信息; 步驟204,獲取所述故障信息,并根據(jù)所述故障信息的故障類型對所述任一分布式子機執(zhí)行對應的預設故障處理操作。
7.根據(jù)權利要求6所述的故障管理方法,其特征在于,所述步驟204還包括, 檢測所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài),并在所述故障監(jiān)測模塊和所述多個分布式子機的連接狀態(tài)為斷開時,發(fā)出連接故障通知。
8.根據(jù)權利要求6所述的故障管理方法,其特征在于,在所述步驟202之前還包括: 根據(jù)接收到的設置指令,對所述故障類型和所述預設故障處理操作之間的關聯(lián)關系進行設置。
9.根據(jù)權利要求6所述的故障管理方法,其特征在于,所述步驟204還包括: 在所述故障類型為預設故障類型時,發(fā)出報警提示。
10.根據(jù)權利要求6至9中任一項所述的故障管理方法,其特征在于,還包括: 步驟206,對所述故障信息進行顯示。
【文檔編號】H04L12/24GK103490919SQ201310392087
【公開日】2014年1月1日 申請日期:2013年9月2日 優(yōu)先權日:2013年9月2日
【發(fā)明者】王洪吉 申請人:用友軟件股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丹阳市| 共和县| 称多县| 新蔡县| 当阳市| 开平市| 黄大仙区| 黔江区| 青河县| 八宿县| 昆明市| 苍山县| 伊春市| 吉林省| 张家口市| 都江堰市| 于田县| 郎溪县| 迁安市| 凤阳县| 辽中县| 德兴市| 习水县| 阿克陶县| 启东市| 周口市| 延吉市| 日照市| 温州市| 库尔勒市| 汶上县| 左权县| 鄯善县| 祁阳县| 耒阳市| 珠海市| 新竹市| 宜春市| 阿拉善左旗| 讷河市| 苏尼特左旗|