本發(fā)明涉及通信技術(shù)領(lǐng)域,特別是涉及一種服務(wù)器故障檢測(cè)方法及裝置。
背景技術(shù):
隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)業(yè)務(wù)量出現(xiàn)猛烈增長(zhǎng),計(jì)算量及計(jì)算頻率隨之增大;在服務(wù)器系統(tǒng)中,業(yè)務(wù)計(jì)算量的增加,使得服務(wù)器的運(yùn)載壓力變大,其核心部件如cpu(中央處理器:centralprocessingunit)、內(nèi)存、硬盤等發(fā)熱量變大,機(jī)器內(nèi)部溫度升高,核心部件所能承受的溫度是有一定限制的,如果達(dá)到承受點(diǎn),性能會(huì)降低,元器件的壽命會(huì)降低,甚至服務(wù)器不能使用。
主板上有一些重要的gpio(通用輸入/輸出:generalpurposeinputoutput)信號(hào),這些gpio信號(hào)的狀態(tài)直接決定了服務(wù)器的運(yùn)行狀態(tài),如cpuerror信號(hào)、風(fēng)扇狀態(tài)監(jiān)控信號(hào)、內(nèi)存error信號(hào)等,當(dāng)服務(wù)器運(yùn)行發(fā)生故障時(shí),可以通過這些信號(hào)的狀態(tài)以及信號(hào)狀態(tài)發(fā)生變化的時(shí)間來定位故障原因。
如圖1所示,為優(yōu)化前gpio信號(hào)控制主板狀態(tài)的示意圖。假定主板上有4組重要的gpio信號(hào),4組gpio信號(hào)通過電平的高低變化,都可以實(shí)現(xiàn)對(duì)主板工作狀態(tài)的控制;信號(hào)的高低電平一旦發(fā)生變化,主板將會(huì)處于異常工作狀態(tài),有的會(huì)導(dǎo)致服務(wù)器性能降低,嚴(yán)重的甚至?xí)?dǎo)致服務(wù)器宕機(jī)。但是,當(dāng)服務(wù)器處于異常工作狀態(tài)的情況下,我們并不能及時(shí)的了解具體是哪一組gpio信號(hào)的電平狀態(tài)發(fā)生了變化,什么時(shí)間發(fā)生的變化,這就不利于我們及時(shí)的處理故障及分析故障原因。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的是提供一種服務(wù)器故障檢測(cè)方法及裝置,在主板上gpio信號(hào)發(fā)生變化時(shí),能夠?qū)崟r(shí)記錄gpio信號(hào)狀態(tài)的變化和gpio信號(hào)狀態(tài)發(fā)生變化的時(shí)間,便于快速的確認(rèn)故障原因。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下的技術(shù)方案:
本發(fā)明提供一種服務(wù)器故障檢測(cè)方法,包括以下步驟:
a.將主板上的gpio信號(hào)連接至記錄芯片;
b.記錄芯片與基板管理控制器相連接;
c.基板管理控制器實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài);
d.判斷gpio信號(hào)的狀態(tài)是否發(fā)生變化,如果是,基板管理控制器對(duì)應(yīng)記錄一條日志;如果否,則轉(zhuǎn)步驟c。
優(yōu)選地,在步驟b之后還包括:記錄芯片實(shí)時(shí)記錄gpio信號(hào)的狀態(tài)。
優(yōu)選地,所述日志包括gpio信號(hào)狀態(tài)的變化和gpio信號(hào)狀態(tài)發(fā)生變化的時(shí)間。
優(yōu)選地,在步驟d之后,還包括:通過基板管理控制器中記錄的日志進(jìn)行故障的定位以及分析。
優(yōu)選地,將主板上的gpio信號(hào)連接至記錄芯片的gpio端口。
優(yōu)選地,步驟b具體包括:記錄芯片的i2c總線端口與基板管理控制器的i2c端口相連接。
本發(fā)明還提供一種服務(wù)器故障檢測(cè)裝置,包括:
連接配置模塊,用于將主板上的gpio信號(hào)連接至記錄芯片以及記錄芯片與基板管理控制器相連接;
gpio信號(hào)狀態(tài)讀取模塊,用于基板管理控制器實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài);
判斷模塊,用于判斷gpio信號(hào)的狀態(tài)是否發(fā)生變化。
優(yōu)選地,還包括:gpio信號(hào)狀態(tài)記錄模塊,用于記錄芯片實(shí)時(shí)記錄gpio信號(hào)的狀態(tài)。
優(yōu)選地,還包括:故障定位及分析模塊,用于通過基板管理控制器中記錄的日志進(jìn)行故障的定位以及分析。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
本發(fā)明在原有設(shè)計(jì)的基礎(chǔ)上,增加了對(duì)gpio信號(hào)實(shí)時(shí)監(jiān)控記錄的設(shè)計(jì),將主板上的gpio信號(hào)連接至記錄芯片,記錄芯片與基板管理控制器相連接,記錄芯片會(huì)實(shí)時(shí)記錄gpio信號(hào)的高低電平變化,同時(shí)基板管理控制器會(huì)實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài),當(dāng)發(fā)現(xiàn)gpio信號(hào)的高低電平發(fā)生變化,基板管理控制器會(huì)詳細(xì)記錄gpio信號(hào)的電平變化以及gpio信號(hào)電平發(fā)生變化的時(shí)間,便于快速的確認(rèn)故障原因;與此同時(shí),這種設(shè)計(jì)還提高了產(chǎn)品的可維護(hù)性及產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。
上述服務(wù)器故障檢測(cè)方法的有益效果與服務(wù)器故障檢測(cè)裝置的有益效果類似,此處不再贅述。
附圖說明
圖1是優(yōu)化前gpio信號(hào)控制主板狀態(tài)的示意圖;
圖2是本發(fā)明一種服務(wù)器故障檢測(cè)方法的流程示意圖;
圖3是本發(fā)明一種服務(wù)器故障檢測(cè)裝置的結(jié)構(gòu)示意圖;
圖4是本發(fā)明優(yōu)化后gpio信號(hào)控制主板狀態(tài)及實(shí)時(shí)監(jiān)控原理圖。
具體實(shí)施方式
為了便于理解,對(duì)本發(fā)明中出現(xiàn)的部分名詞作以下解釋說明:
bmc:基板管理控制器(baseboardmanagementcontroller),服務(wù)器系統(tǒng)中,我們通常使用bmc來對(duì)主板的健康狀況進(jìn)行監(jiān)控和管理,主板上的一些重要的參數(shù)如電壓、溫度、功耗等都是通過bmc監(jiān)控記錄的。
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述:
本實(shí)施例提供一種服務(wù)器故障檢測(cè)方法,包括以下步驟:
a.將主板上的gpio信號(hào)連接至記錄芯片;
b.記錄芯片與基板管理控制器相連接;
c.基板管理控制器實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài);
d.判斷gpio信號(hào)的狀態(tài)是否發(fā)生變化,如果是,基板管理控制器對(duì)應(yīng)記錄一條日志;如果否,則轉(zhuǎn)步驟c。
請(qǐng)參考圖2,圖2是本發(fā)明一種服務(wù)器故障檢測(cè)方法的流程示意圖,本實(shí)施例提供一種服務(wù)器故障檢測(cè)方法,包括以下步驟:
步驟s201,將主板上的gpio信號(hào)連接至記錄芯片;
在本實(shí)施例中,將主板上的gpio信號(hào)連接至記錄芯片的gpio端口。
步驟s202,記錄芯片與基板管理控制器相連接;
在本實(shí)施例中,記錄芯片的i2c(inter-integratedcircuit)總線端口和bmc上的i2c端口相連接。
步驟s203,記錄芯片實(shí)時(shí)記錄gpio信號(hào)的狀態(tài);
在本實(shí)施例中,記錄芯片實(shí)時(shí)記錄gpio信號(hào)的高低電平變化。
步驟s204,基板管理控制器實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài);
在本實(shí)施例中,bmc通過i2c總線實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài)。
步驟s205,判斷gpio信號(hào)的狀態(tài)是否發(fā)生變化,如果是,則轉(zhuǎn)步驟s206;如果否,則轉(zhuǎn)步驟s204;
在本實(shí)施例中,判斷gpio信號(hào)的高低電平是否發(fā)生變化,如果發(fā)生變化,bmc會(huì)實(shí)時(shí)記錄一條日志,該日志包括gpio信號(hào)狀態(tài)的變化和gpio信號(hào)狀態(tài)發(fā)生變化的時(shí)間,最多可以記錄4組gpio信號(hào)狀態(tài)的變化。
步驟s206,基板管理控制器對(duì)應(yīng)記錄一條日志;
步驟s207,通過基板管理控制器中記錄的日志進(jìn)行故障的定位以及分析。
請(qǐng)參考圖4,本發(fā)明在原有設(shè)計(jì)的基礎(chǔ)上,增加了對(duì)gpio信號(hào)實(shí)時(shí)監(jiān)控記錄的設(shè)計(jì),將主板上的gpio信號(hào)控制主板狀態(tài)的同時(shí),連接至記錄芯片的gpio端口,記錄芯片與基板管理控制器相連接,記錄芯片會(huì)實(shí)時(shí)記錄gpio信號(hào)的高低電平變化,同時(shí)基板管理控制器會(huì)實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài),當(dāng)發(fā)現(xiàn)gpio信號(hào)的高低電平發(fā)生變化,基板管理控制器會(huì)詳細(xì)記錄gpio信號(hào)的電平變化以及gpio信號(hào)電平發(fā)生變化的時(shí)間,便于快速的確認(rèn)故障原因;與此同時(shí),這種設(shè)計(jì)還提高了產(chǎn)品的可維護(hù)性及產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。
本發(fā)明實(shí)施例還提供一種服務(wù)器故障檢測(cè)裝置,包括:
連接配置模塊,用于將主板上的gpio信號(hào)連接至記錄芯片以及記錄芯片與基板管理控制器相連接;
gpio信號(hào)狀態(tài)讀取模塊,用于基板管理控制器實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài);
判斷模塊,用于判斷gpio信號(hào)的狀態(tài)是否發(fā)生變化。
請(qǐng)參考圖3,圖3是本發(fā)明一種服務(wù)器故障檢測(cè)裝置的結(jié)構(gòu)示意圖;本實(shí)施例提供一種服務(wù)器故障檢測(cè)裝置,包括:連接配置模塊301、gpio信號(hào)狀態(tài)記錄模塊302、gpio信號(hào)狀態(tài)讀取模塊303、判斷模塊304和故障定位及分析模塊305,連接配置模塊301依次順序與gpio信號(hào)狀態(tài)記錄模塊302、gpio信號(hào)狀態(tài)讀取模塊303、判斷模塊304和故障定位及分析模塊305連接。
連接配置模塊301,用于將主板上的gpio信號(hào)連接至記錄芯片以及記錄芯片與基板管理控制器相連接;
gpio信號(hào)狀態(tài)讀取模塊303,用于基板管理控制器實(shí)時(shí)讀取記錄芯片中g(shù)pio信號(hào)的狀態(tài);
判斷模塊304,用于判斷gpio信號(hào)的狀態(tài)是否發(fā)生變化。
gpio信號(hào)狀態(tài)記錄模塊302,用于記錄芯片實(shí)時(shí)記錄gpio信號(hào)的狀態(tài)。
故障定位及分析模塊305,用于通過基板管理控制器中記錄的日志進(jìn)行故障的定位以及分析。
以上所示僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。