專利名稱:一種服務(wù)器故障的離線診斷方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體的說是一種服務(wù)器故障的離線診斷方法。
背景技術(shù):
隨著用戶需求的的不斷提升和科技進步的不斷發(fā)展,服務(wù)器的性能越來越卓越,同時也使得服務(wù)器系統(tǒng)越來越復(fù)雜。卓越的性能給用戶帶來良好體驗的同時,也引入了一個棘手的問題一系統(tǒng)維護越來越困難。當(dāng)系統(tǒng)出現(xiàn)故障時,面對如此龐大的電子系統(tǒng),數(shù)量眾多的系統(tǒng)板卡,成千上萬的電子元器件,系統(tǒng)維護工程師往往要花費大量的時間才能定位到故障點,很多情況下,還需要借助于實驗室分析才能定位,這浪費了大量的時間和人力消耗,同時長時間宕機也給客戶帶來了很大損失。芯片廠商和系統(tǒng)設(shè)計者都看到了這一問題,他們通過各種方法來提高自診斷能力,減少故障定位時間,提高系統(tǒng)維護效率。一般情況下芯片會根據(jù)自身的工作狀態(tài)輸出一些狀態(tài)指示信號,例如指示錯誤的Error信號,指示溫度異常的Hot信號,指示電源質(zhì)量的PWRG00D等,系統(tǒng)設(shè)計者通過一定的手段收集這些狀態(tài)信號并作出診斷,指示系統(tǒng)故障,給系統(tǒng)維護者提供幫助。常規(guī)的故障診斷方法可稱之為在線故障診斷,其一般工作原理是
1、IC根據(jù)自身工作狀態(tài)驅(qū)動工作狀態(tài)指示信號,通過聲光器件(LED、數(shù)碼管、蜂鳴器等)指示其工作狀態(tài)(如PWRG00D、HOT、Error等);
2、系統(tǒng)管理單元(SMC)收集系統(tǒng)工作狀態(tài),包括鏈路狀態(tài),系統(tǒng)電源狀態(tài),系統(tǒng)溫度狀態(tài),濕度狀態(tài),內(nèi)存和CPU異常等,通過系統(tǒng)日志或者UI面板指示系統(tǒng)工作狀態(tài);
采用這種故障診斷方法,診斷比較全面,實現(xiàn)也比較簡單,但是存在一個致命問題可維護性較差,具體表現(xiàn)在
1、在線診斷方式,只能在芯片工作時才能指示異常,此時往往需要系統(tǒng)完全開機;然而,系統(tǒng)出了嚴重故障時可能已經(jīng)宕機,在未排除系統(tǒng)故障的情況下,嘗試對系統(tǒng)再次開機可能對設(shè)備造成災(zāi)難性損壞;
2、在線診斷和離線維護之間存在矛盾在對硬件故障維護更換時,系統(tǒng)必須處于關(guān)機狀態(tài),然后在線診斷時系統(tǒng)又必須處于開機狀態(tài),這就要求維護人員必須在開機狀態(tài)下仔細記錄故障現(xiàn)象,然后再關(guān)機維護。一方面當(dāng)系統(tǒng)故障點較多時,記錄比較麻煩,容易造成遺漏;另一方面,當(dāng)板卡需要返廠做專業(yè)維修時,故障記錄也容易在傳遞過程中造成遺失或者混亂,
3、系統(tǒng)日志導(dǎo)出往往需要專業(yè)工具,另一方面,從龐雜的系統(tǒng)日志里提取所包含的故障信息需要較高的專業(yè)知識,這會增加維護人員的工作難度,降低維護效率。為了解決在線故障診斷所帶來的不便,提高維護效率,本發(fā)明提出一種全新的故障診斷方式一離線診斷
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是解決現(xiàn)有技術(shù)的不足,提供一種服務(wù)器故障的離線診斷方法。本發(fā)明的技術(shù)方案是按以下方式實現(xiàn)的,該一種服務(wù)器故障的離線診斷方法,其具體實現(xiàn)步驟為
a、在服務(wù)器內(nèi)設(shè)置管理卡和若干診斷板卡,在診斷板卡上設(shè)置有順序連接的電源管理模塊、離線指示模塊和偵測單元,在管理卡上設(shè)置有相互連通的BIOS和故障診斷中心,所述故障診斷中心與上述電源管理模塊、離線指示模塊和偵測模塊均連通;
b、偵測單元偵測各自的狀態(tài)信息,BIOS偵測系統(tǒng)底層錯誤信息;
C、故障診斷中心收集上述步驟b中的狀態(tài)信息和錯誤信息,并對系統(tǒng)各模塊狀態(tài)做出診斷;
d、故障診斷中心發(fā)送故障信息到離線指示模塊;
e、離線指示模塊存儲故障信息,并在用戶觸發(fā)后,指示故障模塊;
f、維護人員根據(jù)故障指示,完成系統(tǒng)維護更換。所述步驟a中板卡上的離線指示模塊是指低功耗微處理器MCU,偵測單元是指硬件監(jiān)控芯片或模數(shù)轉(zhuǎn)換器ADC ;所述管理卡上的故障診斷中心是指服務(wù)監(jiān)控芯片SMC。所述步驟b中偵測單元偵測的狀態(tài)信息包括所在板卡的電壓偵測、溫度偵測、濕度偵測和風(fēng)扇轉(zhuǎn)速偵測;BI0S收集系統(tǒng)底層的錯誤信息包括內(nèi)存錯誤,CPU故障。所述故障診斷中心還負責(zé)完成電池電量偵測,當(dāng)電量過低時,會發(fā)出指示信號。所述步驟e的具體步驟為離線指示模塊接收來自故障診斷中心的故障數(shù)據(jù),并將其存儲在自身Flash或者EEPROM中;在收到離線指示觸發(fā)信號后,點亮故障模塊對應(yīng)的LED。所述電源管理模塊采用下述兩種方法中的一種進行供電
1)系統(tǒng)在線狀態(tài)時,采用系統(tǒng)電源給離線指示模塊供電,此時MCU處于一直工作狀態(tài),以便及時處理來自故障診斷中心的數(shù)據(jù),系統(tǒng)離線時,切換到電池供電;
2)當(dāng)采用電池供電時,MCU進入睡眠狀態(tài),只有收到離線指示觸發(fā)信號才恢復(fù)正常工作,讀取自身存儲的故障信息,同時點亮指示燈,之后立即進入睡眠狀態(tài)。本發(fā)明與現(xiàn)有技術(shù)相比所產(chǎn)生的有益效果是
本發(fā)明的一種服務(wù)器故障的離線診斷方法可以全面克服在線診斷方式的弊端,使得維護人員不再受限于系統(tǒng)工作狀態(tài),可以隨時隨地查看故障信息,完成高效維護;由于錯誤數(shù)據(jù)存儲在EEPROM或者Flash存儲器中,除非故障診斷中心去改寫這些數(shù)據(jù),否則它會永遠保留;離線診斷,指示方便直觀,便于快速定位,不再依賴于系統(tǒng)電源和系統(tǒng)運行狀態(tài),因此維護人員完全可以將板卡拆卸下來再去定位,而且故障直接定位到模塊或者器件,維護人員只需按照指示去更換相應(yīng)的模塊即可,高效直觀,有效提高產(chǎn)品的市場競爭力
附圖1是本發(fā)明的服務(wù)器構(gòu)架部分結(jié)構(gòu)示意框圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明的一種服務(wù)器故障的離線診斷方法作以下詳細說明。
如附圖1所示,現(xiàn)提供一種服務(wù)器故障的離線診斷方法,其具體實現(xiàn)步驟為
a、在服務(wù)器內(nèi)設(shè)置管理卡和若干診斷板卡,在診斷板卡上設(shè)置有順序連接的電源管理模塊、離線指示模塊和偵測單元,在管理卡上設(shè)置有相互連通的BIOS和故障診斷中心,所述故障診斷中心與上述電源管理模塊、離線指示模塊和偵測模塊均連通;
下面對上述各個模塊作詳細簡介。偵測單元偵測單元用來偵測該模塊或者位置的狀態(tài),常見的偵測包括電壓偵測、溫度偵測、濕度偵測、風(fēng)扇轉(zhuǎn)速偵測;偵測單元在系統(tǒng)中一般有模數(shù)轉(zhuǎn)換器ADC或者硬件監(jiān)控芯片 Hardware Monitor 完成。BIOS =BIOS用來收集系統(tǒng)底層的一些錯誤信息,比如內(nèi)存錯誤,CPU故障等。故障診斷中心故障診斷中心在系統(tǒng)中一般由服務(wù)監(jiān)控芯片SMC承擔(dān);故障診斷中心主要完成四個方面的工作①收集來自偵測單元的數(shù)據(jù);②收集來自BIOS的系統(tǒng)狀態(tài)信息(比如內(nèi)存和CPU錯誤)根據(jù)收集到的信息對各模塊狀態(tài)作出診斷;④發(fā)送模塊錯誤信息到離線指示模塊;另外故障診斷中心還負責(zé)完成電池電量偵測,當(dāng)電量過低時,會發(fā)出指示信號,提醒用戶更換電池。離線指示模塊離線指示模塊接收來自故障診斷中心的故障數(shù)據(jù),并將其存儲在自身Flash或者EEPROM中;在收到離線指示觸發(fā)信號后,點亮故障模塊(如內(nèi)存、CPU、電源、風(fēng)扇等)對應(yīng)的LED,提示維護人員此模塊有故障;離線指示模塊在系統(tǒng)中通常由低功耗微處理器(MCU)完成,如MSP430系列微處理器,其待機電流非常低,因此可以采用電池供電方案;由于故障數(shù)據(jù)存儲在非易失存儲器中,因此即便系統(tǒng)關(guān)機,電池耗盡,該故障信息也會被保留下來,維護人員可以隨時查看。電源管理模塊為了節(jié)省電池功耗,電源管理模塊采用兩種策略來延長電池壽命①離線指示模塊電源切換一系統(tǒng)在線狀態(tài)時,采用系統(tǒng)電源給離線指示模塊供電,此時MCU處于一直工作狀態(tài),以便及時處理來自故障診斷中心的數(shù)據(jù),系統(tǒng)離線時,切換到電池供電;@MCU低功耗切換機制當(dāng)采用電池供電時,MCU進入睡眠狀態(tài),只有收到離線指示觸發(fā)信號才恢復(fù)正常工作,讀取自身存儲的故障信息,同時點亮指示LED幾秒鐘,之后立即進入睡眠狀態(tài);通過這兩種策略,可以最大程度延遲電池壽命。b、偵測單元偵測各自的狀態(tài)信息,BIOS偵測系統(tǒng)底層錯誤信息。C、故障診斷中心收集上述步驟b中的狀態(tài)信息和錯誤信息,并對系統(tǒng)各模塊狀態(tài)做出診斷。d、故障診斷中心發(fā)送故障信息到離線指示模塊。e、離線指示模塊存儲故障信息,并在用戶觸發(fā)后,指示故障模塊。f、維護人員根據(jù)故障指示,完成系統(tǒng)維護更換。本發(fā)明的一種服務(wù)器故障的離線診斷方法,區(qū)別于服務(wù)器故障在線診斷方法,該診斷方法的最大特點是在系統(tǒng)離線狀態(tài)下仍可指示故障點,幫助系統(tǒng)維護人員迅速定位,維護更換備件,從而快速恢復(fù)系統(tǒng)正常運作。該服務(wù)器故障的離線診斷方法主要包含以下技術(shù)點①故障定位②故障信息存儲③故障離線指示④電源管理方案。本文所闡述的服務(wù)器故障離線診斷方法適用于各種形式的服務(wù)器系統(tǒng),包括但不限于刀片服務(wù)器、機架服務(wù)器、塔式服務(wù)器,采用這種故障離線診斷方法可以提高系統(tǒng)維護人員工作效率,大幅縮短系統(tǒng)宕機時間,降低維護成本。
權(quán)利要求
1.一種服務(wù)器故障的離線診斷方法,其特征在于其具體實現(xiàn)步驟為: a、在服務(wù)器內(nèi)設(shè)置管理卡和若干診斷板卡,在診斷板卡上設(shè)置有順序連接的電源管理模塊、離線指示模塊和偵測單元,在管理卡上設(shè)置有相互連通的BIOS和故障診斷中心,所述故障診斷中心與上述電源管理模塊、離線指示模塊和偵測模塊均連通; b、偵測單元偵測各自的狀態(tài)信息,BIOS偵測系統(tǒng)底層錯誤信息; C、故障診斷中心收集上述步驟b中的狀態(tài)信息和錯誤信息,并對系統(tǒng)各模塊狀態(tài)做出診斷; d、故障診斷中心發(fā)送故障信息到離線指示模塊; e、離線指示模塊存儲故障信息,并在用戶觸發(fā)后,指示故障模塊; f、維護人員根據(jù)故障指示,完成系統(tǒng)維護更換。
2.根據(jù)權(quán)利要求1所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述步驟a中板卡上的離線指示模塊是指低功耗微處理器MCU,偵測單元是指硬件監(jiān)控芯片或模數(shù)轉(zhuǎn)換器ADC ;所述管理卡上的故障診斷中心是指服務(wù)監(jiān)控芯片SMC。
3.根據(jù)權(quán)利要求1所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述步驟b中偵測單元偵測的狀態(tài)信息包括所在板卡的電壓偵測、溫度偵測、濕度偵測和風(fēng)扇轉(zhuǎn)速偵測;B10S收集系統(tǒng)底層的錯誤信息包括內(nèi)存錯誤,CPU故障。
4.根據(jù)權(quán)利要求1所述的一種 服務(wù)器故障的離線診斷方法,其特征在于:所述故障診斷中心還負責(zé)完成電池電量偵測,當(dāng)電量過低時,會發(fā)出指示信號。
5.根據(jù)權(quán)利要求1 4中任一所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述步驟e的具體步驟為:離線指示模塊接收來自故障診斷中心的故障數(shù)據(jù),并將其存儲在自身Flash或者EEPROM中;在收到離線指示觸發(fā)信號后,點亮故障模塊對應(yīng)的LED。
6.根據(jù)權(quán)利要求5所述的一種服務(wù)器故障的離線診斷方法,其特征在于:所述電源管理模塊采用下述兩種方法中的一種進行供電: 1)系統(tǒng)在線狀態(tài)時,采用系統(tǒng)電源給離線指示模塊供電,此時MCU處于一直工作狀態(tài),以便及時處理來自故障診斷中心的數(shù)據(jù),系統(tǒng)離線時,切換到電池供電; 2)當(dāng)采用電池供電時,MCU進入睡眠狀態(tài),只有收到離線指示觸發(fā)信號才恢復(fù)正常工作,讀取自身存儲的故障信息,同時點亮指示燈,之后立即進入睡眠狀態(tài)。
全文摘要
本發(fā)明提供一種服務(wù)器故障的離線診斷方法,屬于計算機技術(shù),其主要步驟包括①故障定位;②故障信息存儲;③故障離線指示;④電源管理方案。該一種服務(wù)器故障的離線診斷方法和現(xiàn)有技術(shù)相比,在系統(tǒng)離線狀態(tài)下仍可指示故障點,幫助系統(tǒng)維護人員迅速定位,維護更換備件,從而快速恢復(fù)系統(tǒng)正常運作,提高系統(tǒng)維護人員工作效率,大幅縮短系統(tǒng)宕機時間,降低維護成本,提高系統(tǒng)可靠性。
文檔編號G06F11/22GK103077103SQ20131001880
公開日2013年5月1日 申請日期2013年1月18日 優(yōu)先權(quán)日2013年1月18日
發(fā)明者薛廣營, 李博樂 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司