本發(fā)明涉及一種Parastor200并行存儲(chǔ)運(yùn)行環(huán)境問題檢查方法。
背景技術(shù):
ParaStor200并行存儲(chǔ)系統(tǒng)采用了代表存儲(chǔ)技術(shù)、網(wǎng)絡(luò)通信技術(shù)以及數(shù)據(jù)管理技術(shù)發(fā)展方向的并行體系架構(gòu),是一款面向海量非結(jié)構(gòu)化數(shù)據(jù)處理、擁有自主知識(shí)產(chǎn)權(quán)的高端存儲(chǔ)系統(tǒng)。它可以提供TB/s級(jí)的高速帶寬和EB級(jí)的海量存儲(chǔ)空間,能夠滿足飛機(jī)汽車船舶設(shè)計(jì)、生物基因研究、材料科學(xué)研究、天氣預(yù)報(bào)、地震監(jiān)測(cè)、環(huán)境監(jiān)測(cè)分析、能源勘探、電子商務(wù)、網(wǎng)絡(luò)游戲、社交與視頻分享網(wǎng)站建設(shè)、動(dòng)漫渲染、視頻編輯處理等領(lǐng)域中對(duì)于存儲(chǔ)容量和I/O性能要求極高的應(yīng)用,可廣泛應(yīng)用于政府、教育、科研、制造、企業(yè)、醫(yī)療、石油、廣電、互聯(lián)網(wǎng)等行業(yè)。MGR表示Parastor200的管理節(jié)點(diǎn),提供統(tǒng)一的控制管理界面,管理員通過該節(jié)點(diǎn)管理整個(gè)存儲(chǔ)系統(tǒng)。oPara表示Parastor200元數(shù)據(jù)節(jié)點(diǎn),用于管理存儲(chǔ)系統(tǒng)的所有索引數(shù)據(jù)和命名空間,對(duì)外提供單一的全局映像,支持多個(gè)節(jié)點(diǎn)以Active-Active集群模式工作。oStor表示Parastor200數(shù)據(jù)節(jié)點(diǎn),用于提供數(shù)據(jù)存儲(chǔ)空間,內(nèi)嵌高性能數(shù)據(jù)存取引擎,并行處理所有客戶端的數(shù)據(jù)訪問請(qǐng)求,支持多個(gè)oStor以副本方式(1-3個(gè)副本)容錯(cuò)。BMC表示底板管理控制器(Baseboardmanagementcontroller),是主板上的微控制器。Parastor200并行存儲(chǔ)在硬件上由管理節(jié)點(diǎn)、元數(shù)據(jù)節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)、及網(wǎng)絡(luò)設(shè)備等部件組成,由于涉及部件較多,無(wú)疑引入了比較多的故障點(diǎn),而系統(tǒng)運(yùn)行環(huán)境的問題經(jīng)常會(huì)導(dǎo)致存儲(chǔ)系統(tǒng)的故障。目前,Parastor存儲(chǔ)監(jiān)控主要通過管理界面查看,能夠查看Parastor系統(tǒng)各節(jié)點(diǎn)的服務(wù)運(yùn)行狀態(tài)、實(shí)時(shí)的IO統(tǒng)計(jì)、客戶端授權(quán)信息等。目前當(dāng)系統(tǒng)運(yùn)行環(huán)境出現(xiàn)問題時(shí),我們還難以通過管理界面所呈現(xiàn)的信息來(lái)進(jìn)行診斷。同樣的現(xiàn)象可能背后有很多不同的誘因,所以有必要對(duì)系統(tǒng)運(yùn)行環(huán)境做更細(xì)粒度的檢查。Parastor200并行存儲(chǔ)系統(tǒng)有一定的復(fù)雜度,當(dāng)出現(xiàn)問題時(shí),技術(shù)水平一般的現(xiàn)場(chǎng)工程師難以對(duì)這些問題進(jìn)行處理,這時(shí)候就需要總部工程師通過電話等方式對(duì)現(xiàn)場(chǎng)工程師進(jìn)行遠(yuǎn)程指導(dǎo)處理。然而當(dāng)現(xiàn)場(chǎng)工程師對(duì)Parastor缺乏了解,無(wú)法對(duì)問題做準(zhǔn)確的描述時(shí),還需要總部工程師詳細(xì)的告訴現(xiàn)場(chǎng)工程師做各種現(xiàn)場(chǎng)測(cè)試或者是如何截取某部分日志信息發(fā)給總部工程師進(jìn)行診斷。這耽誤了大量的時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種Parastor200并行存儲(chǔ)運(yùn)行環(huán)境問題檢查方法。本方法使存儲(chǔ)系統(tǒng)debug流程變得非常清晰簡(jiǎn)單,即使是對(duì)Parastor200存儲(chǔ)系統(tǒng)完全不了解的工程師也可以到現(xiàn)場(chǎng)處理問題。即便出現(xiàn)現(xiàn)場(chǎng)工程師無(wú)法判斷的問題,也能夠很快的收集到有用的信息供遠(yuǎn)程的總部工程師分析。本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:一種Parastor200并行存儲(chǔ)運(yùn)行環(huán)境問題檢查方法,其改進(jìn)之處在于,所述方法通過將Parastor200故障檢查流程程序化來(lái)實(shí)現(xiàn);包括下述步驟:A、檢查存儲(chǔ)節(jié)點(diǎn)網(wǎng)絡(luò)是否正常,判斷是否有丟包現(xiàn)象;B、檢查存儲(chǔ)節(jié)點(diǎn)是否有壞盤和磁盤變成readonly(只讀)現(xiàn)象;C、檢查存儲(chǔ)節(jié)點(diǎn)的存儲(chǔ)系統(tǒng)服務(wù)是否正常;D、檢查存儲(chǔ)節(jié)點(diǎn)時(shí)間是否同步;E、觸發(fā)存儲(chǔ)系統(tǒng)信息收集進(jìn)程收集信息。其中,所述步驟A中,通過flushping檢查各存儲(chǔ)節(jié)點(diǎn)網(wǎng)絡(luò)是否正常,判斷是否有丟包現(xiàn)象:如果無(wú)丟包現(xiàn)象則通過,有丟包則報(bào)告丟包節(jié)點(diǎn),并提示現(xiàn)場(chǎng)工程師檢查該節(jié)點(diǎn)并處理,然后再查,直到無(wú)丟包現(xiàn)象。其中,所述步驟B中,通過Parastor200管理工具檢查是否有壞盤和磁盤變成readonly(只讀)現(xiàn)象;如果有有壞盤和磁盤變成readonly(只讀)現(xiàn)象,則定位到具體的盤,提示現(xiàn)場(chǎng)工程師進(jìn)行處理;如果沒有則通過。其中,所述步驟C中,通過Parastor200管理工具檢查各個(gè)存儲(chǔ)節(jié)點(diǎn)存儲(chǔ)系統(tǒng)服務(wù)是否正常;如果正常則通過,如果某個(gè)節(jié)點(diǎn)的存儲(chǔ)系統(tǒng)服務(wù)出現(xiàn)故障,則提示現(xiàn)場(chǎng)工程師手動(dòng)啟動(dòng)該節(jié)點(diǎn)服務(wù),并觸發(fā)信息收集程序收集信息供總部工程師進(jìn)一步檢查誘因。其中,所述步驟D中,如果存儲(chǔ)節(jié)點(diǎn)存儲(chǔ)系統(tǒng)服務(wù)沒有問題,然后檢查存儲(chǔ)節(jié)點(diǎn)時(shí)間是否同步;如果同步則通過,并告知現(xiàn)場(chǎng)工程師;如果不同步則檢查管理節(jié)點(diǎn)時(shí)間服務(wù)器是否運(yùn)行正常;如果時(shí)間服務(wù)器正常,則讓各個(gè)節(jié)點(diǎn)和時(shí)間服務(wù)器同步時(shí)間,同步之后再查,如果時(shí)間仍不同步,則讓現(xiàn)場(chǎng)工程師檢查不同步節(jié)點(diǎn)。其中,所述步驟E中,如果存儲(chǔ)節(jié)點(diǎn)時(shí)間同步之后,存儲(chǔ)系統(tǒng)仍有故障,則觸發(fā)存儲(chǔ)系統(tǒng)信息收集進(jìn)程收集日志信息;將收集的日志信息打包壓縮,由現(xiàn)場(chǎng)工程師發(fā)送給總部工程師進(jìn)行分析。其中,收集的信息包括:1)Parastor200存儲(chǔ)系統(tǒng)配置信息;2)Parastor200存儲(chǔ)系統(tǒng)日志,包括管理節(jié)點(diǎn)心跳日志、元數(shù)據(jù)節(jié)點(diǎn)日志、數(shù)據(jù)節(jié)點(diǎn)日志和客戶端節(jié)點(diǎn)日志;3)Parastor200存儲(chǔ)管理節(jié)點(diǎn)、元數(shù)據(jù)節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)、客戶端的操作系統(tǒng)日志;4)通過主板bmc芯片獲取系統(tǒng)硬件日志;5)時(shí)間同步情況、網(wǎng)絡(luò)狀況的檢查結(jié)果;6)hosts表信息。與現(xiàn)有技術(shù)比,本發(fā)明達(dá)到的有益效果是:本發(fā)明提供的Parastor200并行存儲(chǔ)運(yùn)行環(huán)境問題檢查方法,使存儲(chǔ)系統(tǒng)debug流程變得非常清晰簡(jiǎn)單,即使是對(duì)Parastor200存儲(chǔ)系統(tǒng)完全不了解的工程師也可以到現(xiàn)場(chǎng)處理問題。即便出現(xiàn)現(xiàn)場(chǎng)工程師無(wú)法判斷的問題,也能夠很快的收集到有用的信息供遠(yuǎn)程的總部工程師分析。具體實(shí)施方式下面對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步的詳細(xì)說(shuō)明。本發(fā)明主要解決的問題是收集系統(tǒng)運(yùn)行環(huán)境信息,并對(duì)簡(jiǎn)單問題作出初步判斷和給出建議,對(duì)復(fù)雜問題則打包收集到的信息;這樣現(xiàn)場(chǎng)工程師可以將這些信息發(fā)送給總部工程師等待問題診斷結(jié)果。一般情況下,通過這些信息都能夠判斷問題所在。本發(fā)明提供的Parastor200并行存儲(chǔ)運(yùn)行環(huán)境問題檢查方法包括下述步驟:A、首先,本專利程序通過flushping檢查各存儲(chǔ)節(jié)點(diǎn)網(wǎng)絡(luò)是否正常,是否有丟包現(xiàn)象。如果無(wú)丟包現(xiàn)象則通過,有丟包則報(bào)告丟包節(jié)點(diǎn),并提示現(xiàn)場(chǎng)工程師檢查該節(jié)點(diǎn)并處理,然后再查,直到無(wú)丟包現(xiàn)象。B、其次,通過Parastor200管理工具檢查是否有壞盤和磁盤變成readonly現(xiàn)象。如果有則定位到具體的盤,提示現(xiàn)場(chǎng)工程師進(jìn)行處理。如果沒有則通過。C、然后,通過Parastor200管理工具檢查各個(gè)節(jié)點(diǎn)存儲(chǔ)系統(tǒng)服務(wù)是否正常。如果正常則通過,如果某個(gè)節(jié)點(diǎn)的存儲(chǔ)系統(tǒng)服務(wù)出現(xiàn)故障,則提示現(xiàn)場(chǎng)工程師手動(dòng)啟動(dòng)該節(jié)點(diǎn)服務(wù),并將觸發(fā)信息收集程序收集相關(guān)信息供總部工程師進(jìn)一步檢查誘因。D、如果存儲(chǔ)系統(tǒng)服務(wù)沒有問題,然后檢查存儲(chǔ)節(jié)點(diǎn)時(shí)間是否同步,如果同步則通過,并告知現(xiàn)場(chǎng)工程師,如果不同步則檢查管理節(jié)點(diǎn)時(shí)間服務(wù)器是否運(yùn)行正常,如果時(shí)間服務(wù)器正常,則讓各個(gè)節(jié)點(diǎn)和時(shí)間服務(wù)器同步時(shí)間,同步之后再查,如果時(shí)間仍然不同步,則讓現(xiàn)場(chǎng)工程師檢查不同步的節(jié)點(diǎn)的問題。E、如果時(shí)間同步之后,系統(tǒng)仍然有故障,則觸發(fā)系統(tǒng)信息收集進(jìn)程,收集的信息包括:1)Parastor200存儲(chǔ)系統(tǒng)配置信息;2)Parastor200存儲(chǔ)系統(tǒng)日志,包括管理節(jié)點(diǎn)心跳日志、元數(shù)據(jù)節(jié)點(diǎn)日志、數(shù)據(jù)節(jié)點(diǎn)日志、客戶端節(jié)點(diǎn)日志;3)Parastor200存儲(chǔ)管理節(jié)點(diǎn)、元數(shù)據(jù)節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)、客戶端的操作系統(tǒng)日志;4)通過主板bmc芯片獲取系統(tǒng)硬件日志;5)時(shí)間同步情況、網(wǎng)絡(luò)狀況等的檢查結(jié)果;6)hosts表信息。收集到這些日志后對(duì)他們進(jìn)行打包壓縮。由現(xiàn)場(chǎng)工程師發(fā)送給總部工程師進(jìn)行分析。最后應(yīng)當(dāng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:依然可以對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。