本發(fā)明涉及云計算技術(shù),尤指一種云系統(tǒng)中服務(wù)故障的處理方法和裝置。
背景技術(shù):
隨著云操作系統(tǒng)os管理系統(tǒng)應(yīng)用的廣泛應(yīng)用,云海os的后臺服務(wù)不斷增多,運(yùn)行環(huán)境越來越復(fù)雜,云海os的各項服務(wù)會遇到各種各樣的問題無法啟動?,F(xiàn)在云海采用微服務(wù)架構(gòu),服務(wù)總共有30個,任何一個模塊出現(xiàn)問題都會造成我們的云海無法使用,我們現(xiàn)在采用人工的方式修復(fù),由于云海部署的機(jī)器一般是內(nèi)網(wǎng)機(jī)器,這就要求去現(xiàn)場解決問題,開發(fā)人員到現(xiàn)場后,需要對每個模塊逐一排查,找出問題進(jìn)行修復(fù)。特別當(dāng)我們的系統(tǒng)越來越大,客戶越來越多,這個工作量是巨大的,而且有些問題還可能是重復(fù)出現(xiàn)的,這樣會浪費(fèi)大量的人力、物力和財力,此問題急需解決。
技術(shù)實現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明提供了一種云系統(tǒng)中服務(wù)故障的處理方法和裝置,能夠自動處理故障,減少服務(wù)故障的復(fù)雜度。
為了達(dá)到本發(fā)明目的,本發(fā)明提供了一種云系統(tǒng)中服務(wù)故障的處理方法,包括:
在云系統(tǒng)中服務(wù)發(fā)生故障后,獲取故障的描述信息;根據(jù)故障的描述信息,查找所述故障的解決策略;如果查找到解決策略,執(zhí)行所述解決策略;根據(jù)所述解決策略對所述故障的處理結(jié)果,對解決策略進(jìn)行管理。
其中,所述獲取故障的描述信息包括:
按照預(yù)先設(shè)置的時間管理策略,讀取服務(wù)器的日志信息;根據(jù)所述日志信息中記錄的服務(wù)器發(fā)生故障的記錄,獲取日志中對故障的描述信息。
其中,所述根據(jù)故障的描述信息,查找所述故障的解決策略,包括:
獲取故障的描述信息的關(guān)鍵詞;在預(yù)先設(shè)置的解決策略中,根據(jù)所述關(guān)鍵詞查找所述故障的解決策略,其中每個解決策略是以該解決策略能夠處理的故障的關(guān)鍵詞來標(biāo)識;如果查找到以所述關(guān)鍵字標(biāo)識的解決策略,根據(jù)所述解決策略的匹配度的數(shù)值,選擇解決策略。
其中,所述根據(jù)所述解決策略對所述故障的處理結(jié)果,對解決策略進(jìn)行管理,包括:
如果所述解決策略能夠解決所述故障,則增加所述解決策略與故障的匹配度的數(shù)值;否則,輸出所述故障的告警信息。
其中,所述方法還包括:
如果沒有查找到對應(yīng)的解決策略,或者,查找到解決策略但該解決策略不能解決所述故障時,記錄對所述故障的解決策略;建立所述故障和所述解決策略的對應(yīng)關(guān)系,并設(shè)置所述解決策略設(shè)置對應(yīng)的標(biāo)識和匹配度。
一種云系統(tǒng)中服務(wù)故障的處理裝置,包括:
獲取模塊,用于在云系統(tǒng)中服務(wù)發(fā)生故障后,獲取故障的描述信息;
查找模塊,用于根據(jù)故障的描述信息,查找所述故障的解決策略;
執(zhí)行模塊,用于如果查找到解決策略,執(zhí)行所述解決策略;
管理模塊,用于根據(jù)所述解決策略對所述故障的處理結(jié)果,對解決策略進(jìn)行管理。
其中,所述獲取模塊包括:
讀取單元,用于按照預(yù)先設(shè)置的時間管理策略,讀取服務(wù)器的日志信息;
第一獲取單元,用于根據(jù)所述日志信息中記錄的服務(wù)器發(fā)生故障的記錄,獲取日志中對故障的描述信息。
其中,所述查找模塊包括:
第二獲取單元,用于獲取故障的描述信息的關(guān)鍵詞;
查找單元,用于在預(yù)先設(shè)置的解決策略中,根據(jù)所述關(guān)鍵詞查找所述故障的解決策略,其中每個解決策略是以該解決策略能夠處理的故障的關(guān)鍵詞來標(biāo)識;
選擇單元,用于如果查找到以所述關(guān)鍵字標(biāo)識的解決策略,則根據(jù)所述解決策略的匹配度的數(shù)值,選擇解決策略。
其中,所述管理模塊具體用于:
如果所述解決策略能夠解決所述故障,則增加所述解決策略與故障的匹配度的數(shù)值;否則,輸出所述故障的告警信息。
其中,所述裝置還包括:
記錄模塊,用于如果沒有查找到對應(yīng)的解決策略,或者,查找到解決策略但該解決策略不能解決所述故障時,記錄對所述故障的解決策略;
建立模塊,建立所述故障和所述解決策略的對應(yīng)關(guān)系,并設(shè)置所述解決策略設(shè)置對應(yīng)的標(biāo)識和匹配度。
本發(fā)明提供的實施例,獲取故障的描述信息,根據(jù)故障的描述信息,查找所述故障的解決策略,如果查找到解決策略,執(zhí)行所述解決策略,再對解決策略進(jìn)行管理,能夠自主對故障進(jìn)行處理,并對解決策略進(jìn)行學(xué)習(xí),實現(xiàn)自動處理故障,減少服務(wù)故障的復(fù)雜度,能夠自主對故障進(jìn)行處理,減少服務(wù)故障的復(fù)雜度。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖說明
附圖用來提供對本發(fā)明技術(shù)方案的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本申請的實施例一起用于解釋本發(fā)明的技術(shù)方案,并不構(gòu)成對本發(fā)明技術(shù)方案的限制。
圖1為本發(fā)明提供的云系統(tǒng)中服務(wù)故障的處理方法的流程圖;
圖2為本發(fā)明提供的基于機(jī)器自主學(xué)習(xí)的服務(wù)異常自動修復(fù)方法的流程圖;
圖3為本發(fā)明提供的云系統(tǒng)中服務(wù)故障的處理裝置的結(jié)構(gòu)圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下文中將結(jié)合附圖對本發(fā)明的實施例進(jìn)行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。
在附圖的流程圖示出的步驟可以在諸如一組計算機(jī)可執(zhí)行指令的計算機(jī)系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1為本發(fā)明提供的云系統(tǒng)中服務(wù)故障的處理方法的流程圖。圖1所示方法包括:
步驟101、在云系統(tǒng)中服務(wù)發(fā)生故障后,獲取故障的描述信息;
步驟102、根據(jù)故障的描述信息,查找所述故障的解決策略;
步驟103、如果查找到解決策略,執(zhí)行所述解決策略;
步驟104、根據(jù)所述解決策略對所述故障的處理結(jié)果,對所述解決策略進(jìn)行管理。
本發(fā)明提供的方法實施例,獲取故障的描述信息,根據(jù)故障的描述信息,查找所述故障的解決策略,如果查找到解決策略,執(zhí)行所述解決策略,再對解決策略進(jìn)行管理,能夠自主對故障進(jìn)行處理,并對解決策略進(jìn)行學(xué)習(xí),實現(xiàn)自動處理故障,減少服務(wù)故障的復(fù)雜度,能夠自主對故障進(jìn)行處理,減少服務(wù)故障的復(fù)雜度。
下面對本發(fā)明提供的方法實施例作進(jìn)一步說明:
由于云海服務(wù)器之間是相互聯(lián)系的,一旦其中一個服務(wù)器模塊出現(xiàn)問題,可能會影響其他多個服務(wù)器也不能繼續(xù)工作,因此,向該服務(wù)器查詢故障是很難實現(xiàn)的,因此,本發(fā)明提供如下方式來獲取服務(wù)器的故障:
按照預(yù)先設(shè)置的時間管理策略,讀取服務(wù)器的日志信息;
根據(jù)所述日志信息中記錄的服務(wù)器發(fā)生故障的記錄,獲取日志中對故障的描述信息。
在云系統(tǒng)中,可以設(shè)置一進(jìn)程用于負(fù)責(zé)掃描系統(tǒng)中服務(wù)中的狀態(tài),分析錯誤日志,執(zhí)行錯誤處理方法利用服務(wù)器的日志,通過查詢?nèi)罩居涗浀膬?nèi)容,可以確定的服務(wù)器的故障的描述信息。
在得到故障的描述信息后,提取該描述信息中的關(guān)鍵詞;
在預(yù)先設(shè)置的解決策略中,根據(jù)所述關(guān)鍵詞查找所述故障的解決策略,其中每個解決策略是以該解決策略能夠處理的故障的關(guān)鍵詞來標(biāo)識;
如果查找到以所述關(guān)鍵字標(biāo)識的解決策略,則根據(jù)所述解決策略的匹配度的數(shù)值,選擇解決策略。
在實際應(yīng)用中,可以設(shè)置解決策略的數(shù)據(jù)庫,其中每個解決策略以解決策略能夠處理的故障的關(guān)鍵詞來標(biāo)識,從而方便根據(jù)故障查詢該解決策略,在確定解決策略后,如果發(fā)現(xiàn)解決策略有多個時,可以按照匹配度從高到低的順序依次執(zhí)行該解決策略,其中匹配度是根據(jù)該解決策略成功處理故障的次數(shù)來確定的。
其中,如果所述解決策略能夠解決所述故障,則增加所述解決策略與故障的匹配度的數(shù)值;否則,輸出所述故障的告警信息,讓管理人員處理該故障。當(dāng)然,如果沒有查找到對應(yīng)的解決策略,或者,查找到解決策略但該解決策略不能解決所述故障時,記錄對所述故障的解決策略;建立所述故障和所述解決策略的對應(yīng)關(guān)系,并設(shè)置所述解決策略設(shè)置對應(yīng)的標(biāo)識和匹配度。
通過已知的解決策略嘗試修復(fù)系統(tǒng)出現(xiàn)的故障,如果系統(tǒng)得以修復(fù),則將該處理方法存入庫中,系統(tǒng)再出現(xiàn)類似問題,能夠很快地修復(fù),機(jī)器通過不斷地學(xué)習(xí),不斷完善自己,提升自己的故障修復(fù)能力。
由上可以看出,在系統(tǒng)的運(yùn)行環(huán)境中,如果云海的某一個服務(wù)出現(xiàn)異常,可通過本發(fā)明嘗試修復(fù)服務(wù),增加了系統(tǒng)的健壯性,使系統(tǒng)更穩(wěn)定可靠地給用戶提供服務(wù)。
圖2為本發(fā)明提供的基于機(jī)器自主學(xué)習(xí)的服務(wù)異常自動修復(fù)方法的流程圖。圖2所示方法包括:
在實現(xiàn)該方法時,需要在系統(tǒng)中預(yù)先設(shè)置下面三個數(shù)據(jù)庫,分別為:
修復(fù)方法庫:預(yù)置在系統(tǒng)中的故障修復(fù)方法。
修復(fù)方法庫:預(yù)置在系統(tǒng)中的故障修復(fù)方法。
故障字典-修復(fù)方法映射庫:預(yù)制在系統(tǒng)中的故障字典與故障修復(fù)方法的映射關(guān)系。
利用上述三個數(shù)據(jù)庫執(zhí)行的操作包括:
1)定時監(jiān)控服務(wù)的狀態(tài),判斷服務(wù)是否異常,如果異常,收集日志的錯誤日志。
2)根據(jù)收集的日志與故障字典對比,如果沒有則將該故障中關(guān)鍵信息,存入故障詞典,繼續(xù)將該故障關(guān)鍵字傳遞給故障處理模塊。
3)根據(jù)故障關(guān)鍵字去故障字典-修復(fù)方法映射庫查詢故障的處理方法,如果找到則按照該處理方法修復(fù)故障,修復(fù)完成判斷故障是否修復(fù),如果在故障字典-修復(fù)方法映射庫中未找到或者根據(jù)已知方法服務(wù)沒能被修復(fù),則從修復(fù)方法庫取出修復(fù)方法,逐一操作,直至恢復(fù)正常,如果服務(wù)被修復(fù),則將故障字典和修復(fù)方法的映射存入故障字典-修復(fù)方法映射庫。
本發(fā)明的應(yīng)用實例,針對云海os的服務(wù)經(jīng)常會出現(xiàn)異常,造成無法提供服務(wù)的問題,已有的故障字典、修復(fù)方法庫、故障字典-修復(fù)方法映射庫對故障進(jìn)行分析,嘗試修復(fù)服務(wù),使服務(wù)能夠正常提供服務(wù),并在處理異常的過程中,自主學(xué)習(xí)和自動修復(fù)服務(wù)中的異常。
圖3為本發(fā)明提供的云系統(tǒng)中服務(wù)故障的處理裝置的結(jié)構(gòu)圖。圖3所示裝置包括:
獲取模塊301,用于在云系統(tǒng)中服務(wù)發(fā)生故障后,獲取故障的描述信息;
查找模塊302,用于根據(jù)故障的描述信息,查找所述故障的解決策略;
執(zhí)行模塊303,用于如果查找到解決策略,執(zhí)行所述解決策略;
管理模塊304,用于根據(jù)所述解決策略對所述故障的處理結(jié)果,對解決策略進(jìn)行管理。
其中,所述獲取模塊301包括:
讀取單元,用于按照預(yù)先設(shè)置的時間管理策略,讀取服務(wù)器的日志信息;
第一獲取單元,用于根據(jù)所述日志信息中記錄的服務(wù)器發(fā)生故障的記錄,獲取日志中對故障的描述信息。
其中,所述查找模塊302包括:
第二獲取單元,用于獲取故障的描述信息的關(guān)鍵詞;
查找單元,用于在預(yù)先設(shè)置的解決策略中,根據(jù)所述關(guān)鍵詞查找所述故障的解決策略,其中每個解決策略是以該解決策略能夠處理的故障的關(guān)鍵詞來標(biāo)識;
選擇單元,用于如果查找到以所述關(guān)鍵字標(biāo)識的解決策略,則根據(jù)所述解決策略的匹配度的數(shù)值,選擇解決策略。
其中,所述管理模塊303具體用于:
如果所述解決策略能夠解決所述故障,則增加所述解決策略與故障的匹配度的數(shù)值;否則,輸出所述故障的告警信息。
可選的,所述裝置還包括:
記錄模塊,用于如果沒有查找到對應(yīng)的解決策略,或者,查找到解決策略但該解決策略不能解決所述故障時,記錄對所述故障的解決策略;
建立模塊,建立所述故障和所述解決策略的對應(yīng)關(guān)系,并設(shè)置所述解決策略設(shè)置對應(yīng)的標(biāo)識和匹配度。
本發(fā)明提供的裝置實施例,獲取故障的描述信息,根據(jù)故障的描述信息,查找所述故障的解決策略,如果查找到解決策略,執(zhí)行所述解決策略,再對解決策略進(jìn)行管理,能夠自主對故障進(jìn)行處理,并對解決策略進(jìn)行學(xué)習(xí),實現(xiàn)自動處理故障,減少服務(wù)故障的復(fù)雜度,能夠自主對故障進(jìn)行處理,減少服務(wù)故障的復(fù)雜度。
雖然本發(fā)明所揭露的實施方式如上,但所述的內(nèi)容僅為便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實施的形式及細(xì)節(jié)上進(jìn)行任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。