定位故障的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種定位故障的方法及系統(tǒng),所述方法包括:接收?qǐng)?bào)警信息;確定所述接收的報(bào)警信息所歸屬的推理樹,其中所述推理樹存儲(chǔ)了系統(tǒng)可識(shí)別并用于進(jìn)行故障推理的規(guī)則集;通過所述確定的推理樹定位出故障。通過采用本發(fā)明可以對(duì)報(bào)警快速進(jìn)行收斂,從而有效地提高故障定位的效率。
【專利說明】定位故障的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,更為具體而言,涉及定位故障的方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前在各個(gè)領(lǐng)域都存在基礎(chǔ)的監(jiān)控系統(tǒng),當(dāng)發(fā)生故障時(shí),會(huì)產(chǎn)生大量有關(guān)聯(lián)性的故障告警。為了能夠更快的發(fā)現(xiàn)故障根因,提高整個(gè)定位效率,目前在各個(gè)領(lǐng)域也存在不少故障定位系統(tǒng)的實(shí)現(xiàn)方案。例如,當(dāng)監(jiān)控到網(wǎng)絡(luò)或設(shè)備發(fā)生故障癥狀時(shí),根據(jù)化簡(jiǎn)后的故障集與癥狀集的關(guān)聯(lián)關(guān)系矩陣,確定與監(jiān)控到的故障癥狀具有關(guān)聯(lián)關(guān)系的故障。然而只能根據(jù)一定的規(guī)則矩陣對(duì)一定量相關(guān)聯(lián)的故障報(bào)警進(jìn)行推理,在大型數(shù)據(jù)中心中,多個(gè)系統(tǒng)混合嵌套,故障報(bào)警關(guān)聯(lián)雜亂、存在層級(jí),現(xiàn)有技術(shù)無法很好解決此問題,或者在推理定位中存在較大的延時(shí)性。
【發(fā)明內(nèi)容】
[0003]為有效地解決上述技術(shù)問題,本發(fā)明提供了一種定位故障的方法及系統(tǒng)。
[0004]一方面,本發(fā)明的實(shí)施方式提供了一種定位故障的方法,所述方法包括:
[0005]接收?qǐng)?bào)警信息;
[0006]確定所述接收的報(bào)警信息所歸屬的推理樹,其中所述推理樹存儲(chǔ)了系統(tǒng)可識(shí)別并用于進(jìn)行故障推理的規(guī)則集;
[0007]通過所述確定的推理樹定位出故障。
[0008]另一方面,本發(fā)明的實(shí)施方式提供了一種定位故障的系統(tǒng),所述系統(tǒng)包括:
[0009]接收模塊,用于接收?qǐng)?bào)警信息;
[0010]確定模塊,用于確定所述接收模塊所接收的報(bào)警信息所歸屬的推理樹,其中所述推理樹存儲(chǔ)了系統(tǒng)可識(shí)別并用于進(jìn)行故障推理的規(guī)則集;
[0011 ] 定位模塊,用于通過所述確定模塊所確定出的推理樹定位出故障。
[0012]實(shí)施本發(fā)明提供的定位故障的方法及系統(tǒng)可以對(duì)報(bào)警快速進(jìn)行收斂,從而有效地提尚故障定位的效率。
【專利附圖】
【附圖說明】
[0013]圖1是根據(jù)本發(fā)明實(shí)施方式的定位故障的方法的流程圖;
[0014]圖2示出了圖1所示的步驟S130的一種實(shí)施方式;
[0015]圖3是根據(jù)本發(fā)明實(shí)施方式的定位故障的方法的另一種實(shí)施方式;
[0016]圖4是示出本發(fā)明實(shí)施方式的推理樹的示意圖;
[0017]圖5是示出本發(fā)明實(shí)施方式的混合二次推理機(jī)制的示意圖;
[0018]圖6是根據(jù)本發(fā)明實(shí)施方式的定位故障的系統(tǒng)的結(jié)構(gòu)示意圖;
[0019]圖7是根據(jù)本發(fā)明實(shí)施方式的定位故障的系統(tǒng)的另一種實(shí)施方式。
【具體實(shí)施方式】
[0020]為使本發(fā)明的實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述。
[0021]圖1是根據(jù)本發(fā)明實(shí)施方式的定位故障的方法的流程圖。參見圖1,所述方法包括:
[0022]SllO:接收?qǐng)?bào)警信息;
[0023]S120:確定所述接收的報(bào)警信息所歸屬的推理樹,其中所述推理樹存儲(chǔ)了系統(tǒng)可識(shí)別并用于進(jìn)行故障推理的規(guī)則集,并且,在本發(fā)明的實(shí)施方式中,在執(zhí)行該步驟S120前,該方法還可以預(yù)先以二叉樹的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)所述規(guī)則集以構(gòu)建所述推理樹;
[0024]S130:通過所述確定的推理樹定位出故障。
[0025]如圖2所示,在本發(fā)明的實(shí)施方式中,該步驟S130可以通過以下方式實(shí)現(xiàn):
[0026]S131:根據(jù)所述確定的推理樹對(duì)所述報(bào)警信息進(jìn)行整合以生成所述推理樹的報(bào)警池;
[0027]S132:根據(jù)所述推理樹的拆分原則,將所述報(bào)警池拆分成推理報(bào)警池,其中不同的推理樹的拆分原則不同,可以預(yù)先根據(jù)經(jīng)驗(yàn)設(shè)定,例如可以包括但不限于:按照?qǐng)?bào)警信息歸屬的機(jī)房進(jìn)行拆分的原則以及按照?qǐng)?bào)警信息歸屬的設(shè)備進(jìn)行拆分的原則;
[0028]S133:將所述推理報(bào)警池中的報(bào)警信息與所述推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出故障。
[0029]如圖3所示,在本發(fā)明的一種優(yōu)選的實(shí)施方式中,該方法包括:
[0030]S110,至S130,:同上所述的SllO至S130,在此不再贅述;
[0031]S140’:判斷是否定位所述故障的原因(導(dǎo)致所述故障的深度故障),若是,則執(zhí)行S150’,否則,結(jié)束定位;
[0032]S150’:確定所述故障所歸屬的深度推理樹,并通過所述確定的深度推理樹定位出所述故障的原因,并返回執(zhí)行步驟S140’。
[0033]其中,在本發(fā)明的實(shí)施方式中,該步驟S150’可以通過以下方式實(shí)現(xiàn):
[0034]根據(jù)所述確定的深度推理樹對(duì)所述故障進(jìn)行整合以生成所述深度推理樹的故障池;
[0035]根據(jù)所述深度推理樹的拆分原則,將所述故障池拆分成推理故障池;
[0036]將所述推理故障池中的故障與所述深度推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出原因。
[0037]以下結(jié)合具體例子對(duì)本發(fā)明的實(shí)施方式進(jìn)行具體說明。在本發(fā)明的實(shí)施方式中將人推理故障的過程程序化,或者說將人的故障推理經(jīng)驗(yàn)配置化,利用人類專家的知識(shí)和經(jīng)驗(yàn),模擬人類專家的決策過程,來解決大型數(shù)據(jù)中心的故障定位問題。即將人類專家的經(jīng)驗(yàn)抽象化、配置化,形成系統(tǒng)可識(shí)別的且可用于故障推理的規(guī)則集并進(jìn)行存儲(chǔ),供故障定位使用,例如可以采用二叉樹(推理樹)的形式存儲(chǔ)專家經(jīng)驗(yàn),同時(shí)每個(gè)二叉樹的輸出葉子節(jié)點(diǎn)都可以作為另外一棵二叉樹的輸入。根據(jù)收集到的條件和已知信息匹配推理樹中存儲(chǔ)的規(guī)則集中的規(guī)則,從而定位出故障。
[0038]圖4是本發(fā)明實(shí)施方式的推理樹的示意圖。參見圖4,從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的唯一路徑為推導(dǎo)過程,即一條推導(dǎo)鏈,對(duì)應(yīng)一種類型的故障;每個(gè)推理樹中的葉子節(jié)點(diǎn)為一種推導(dǎo)鏈對(duì)應(yīng)的故障類型,對(duì)應(yīng)一類故障根因case ;通過使用推導(dǎo)鏈編號(hào)作為其故障類型的編號(hào);在推導(dǎo)的中間環(huán)節(jié),判斷某些報(bào)警信息是否同時(shí)呈現(xiàn)出某種特征,根據(jù)判定結(jié)果進(jìn)入后續(xù)的推導(dǎo)流程。由于目前大型數(shù)據(jù)中心的監(jiān)控現(xiàn)狀,一般會(huì)有如下特點(diǎn):1)報(bào)警信息是分層次的,如整機(jī)房級(jí)別報(bào)警、房間級(jí)別報(bào)警、集群級(jí)別報(bào)警、交換機(jī)級(jí)別報(bào)警、板卡級(jí)別報(bào)警、端口級(jí)別報(bào)警等;2)每一層的報(bào)警又可分為原子報(bào)警和衍生性報(bào)警。如以端口級(jí)別的報(bào)警為例,軟件/協(xié)議層面的報(bào)警即為衍生性報(bào)警,物理UP/DOWN的報(bào)警即為原子報(bào)警。原子報(bào)警會(huì)產(chǎn)生衍生性報(bào)警,反之則不然。因此,根據(jù)上述特點(diǎn)在本發(fā)明的實(shí)施方式中,構(gòu)建推理樹的原則包括:1)從高層報(bào)警到底層報(bào)警;2)從原子報(bào)警到衍生性報(bào)警;3)推理樹的數(shù)量取決于可組合在一起的有關(guān)聯(lián)的報(bào)警的數(shù)量。
[0039]以下對(duì)定位故障的過程進(jìn)行說明,在本發(fā)明的實(shí)施方式中,首先進(jìn)行初始化,包括讀取報(bào)警種類信息、推理樹信息、報(bào)警歸屬的推理樹信息、推理樹節(jié)點(diǎn)信息,同時(shí)構(gòu)建推理樹、注冊(cè)推理樹節(jié)點(diǎn)函數(shù)、開啟相關(guān)工作線程等;其次,接收底層系統(tǒng)的報(bào)警信息,對(duì)報(bào)警信息進(jìn)行解析(解析報(bào)警信息的內(nèi)容,例如是網(wǎng)絡(luò)報(bào)警還是整機(jī)房報(bào)警、報(bào)警歸屬的機(jī)房和設(shè)備、報(bào)警發(fā)生的時(shí)間等),統(tǒng)一存儲(chǔ)結(jié)構(gòu),生成原始報(bào)警鏈表;再根據(jù)預(yù)先載入的報(bào)警歸屬的推理樹信息對(duì)原始報(bào)警進(jìn)行整合,生成原始報(bào)警推理池(由歸屬于同一個(gè)推理樹的原始報(bào)警構(gòu)成);最后對(duì)原始報(bào)警推理池進(jìn)行拆分(不同的推理樹的拆分原則不同,可以根據(jù)經(jīng)驗(yàn)預(yù)先設(shè)定,例如根據(jù)設(shè)備進(jìn)行拆分),并根據(jù)預(yù)先載入的推理樹信息、推理樹節(jié)點(diǎn)信息進(jìn)行推理,生成故障隊(duì)列。同時(shí),在本發(fā)明中提出混合二次推理機(jī)制,可將不同層次推理樹推理出來的多個(gè)結(jié)論重新進(jìn)行關(guān)聯(lián),并進(jìn)行深度推理,從而得出更高層次的根因,解決復(fù)雜關(guān)系系統(tǒng)根因定位困難的問題。具體地如圖5所示,混合推理的整體過程為:
[0040]1、原始報(bào)警按所歸屬的推理樹進(jìn)行整合,生成原始報(bào)警推理池;
[0041]2、原始報(bào)警推理池進(jìn)行拆分、推理、生成初級(jí)故障;
[0042]3、初級(jí)故障按歸屬的推理樹進(jìn)行整合,生成初級(jí)故障推理池;
[0043]4、初級(jí)故障推理池進(jìn)行拆分、推理,生成中級(jí)故障;
[0044]5、以此類推,重復(fù)步驟3、4,進(jìn)行更高級(jí)的混合推理,可以根據(jù)配置的專家經(jīng)驗(yàn),決定是否要進(jìn)行更深層次的推理,若不需要,則無相關(guān)配置,混合推理結(jié)束。
[0045]圖6是根據(jù)本發(fā)明實(shí)施方式的定位故障的系統(tǒng)100的結(jié)構(gòu)示意圖。參見圖6,該系統(tǒng)100包括:
[0046]接收模塊110,用于接收?qǐng)?bào)警信息。
[0047]確定模塊120,用于確定所述接收模塊所接收的報(bào)警信息所歸屬的推理樹,其中所述推理樹存儲(chǔ)了系統(tǒng)可識(shí)別并用于進(jìn)行故障推理的規(guī)則集,并且,在本發(fā)明的實(shí)施方式中,該系統(tǒng)100還可以包括構(gòu)建模塊,用于以二叉樹的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)所述規(guī)則集以構(gòu)建所述推理樹。
[0048]定位模塊130,用于通過所述確定模塊所確定出的推理樹定位出故障。
[0049]其中,在本發(fā)明的實(shí)施方式中,該定位模塊130可以包括:
[0050]整合單元,用于根據(jù)所述確定的推理樹對(duì)所述報(bào)警信息進(jìn)行整合以生成所述推理樹的報(bào)警池;
[0051]拆分單元,用于根據(jù)所述推理樹的拆分原則,將所述整合單元所整合出的報(bào)警池拆分成推理報(bào)警池,其中,所述拆分原則包括:按照?qǐng)?bào)警信息歸屬的機(jī)房進(jìn)行拆分的原則以及按照?qǐng)?bào)警信息歸屬的設(shè)備進(jìn)行拆分的原則;
[0052]匹配定位單元,用于將所述拆分單元所拆分出的推理報(bào)警池中的報(bào)警信息與所述推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出故障。
[0053]圖7是根據(jù)本發(fā)明實(shí)施方式的定位故障的系統(tǒng)的另一種實(shí)施方式。參見圖7,該系統(tǒng)100,包括:
[0054]接收模塊110’、確定模塊120’、定位模塊130’:分別同上述的接收模塊110、確定模塊120、定位模塊130,在此不再贅述;
[0055]判斷模塊140’,用于判斷是否定位所述定位模塊130’所定出的故障的原因;
[0056]深度推理模塊150’,包括:用于當(dāng)所述判斷模塊判定為定位所述故障的原因時(shí),確定所述故障所歸屬的深度推理樹的確定單元,以及用于通過所述確定單元所確定的深度推理樹定位出所述故障的原因的深度定位單元。
[0057]其中,在本發(fā)明的實(shí)施方式中,該深度定位單元可以包括:
[0058]整合子單元,用于根據(jù)所述確定的深度推理樹對(duì)所述故障進(jìn)行整合以生成所述深度推理樹的故障池;
[0059]拆分子單元,用于根據(jù)所述深度推理樹的拆分原則,將所述整合子單元所整合出的故障池拆分成推理故障池;
[0060]匹配定位子單元,用于將所述拆分子單元所拆分出的推理故障池中的故障與所述深度推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出原因。
[0061]實(shí)施本發(fā)明提供的定位故障的方法及系統(tǒng)可以將數(shù)據(jù)中心瞬間產(chǎn)生的有多面性、冗余性、耦合性的報(bào)警進(jìn)行快速收斂,定位故障,提高發(fā)現(xiàn)事件、解決事件、通告事件的整體能力,同時(shí)為后續(xù)事件的自動(dòng)化處理奠定基礎(chǔ),從而提高整個(gè)故障處理效率。
[0062]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件結(jié)合硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以全部通過硬件來實(shí)施。基于這樣的理解,本發(fā)明的技術(shù)方案對(duì)【背景技術(shù)】做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,智能手機(jī)或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
[0063]本發(fā)明說明書中使用的術(shù)語和措辭僅僅為了舉例說明,并不意味構(gòu)成限定。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,在不脫離所公開的實(shí)施方式的基本原理的前提下,對(duì)上述實(shí)施方式中的各細(xì)節(jié)可進(jìn)行各種變化。因此,本發(fā)明的范圍只由權(quán)利要求確定,在權(quán)利要求中,除非另有說明,所有的術(shù)語應(yīng)按最寬泛合理的意思進(jìn)行理解。
【權(quán)利要求】
1.一種定位故障的方法,其特征在于,所述方法包括: 接收?qǐng)?bào)警信息; 確定所述接收的報(bào)警信息所歸屬的推理樹,其中所述推理樹存儲(chǔ)了系統(tǒng)可識(shí)別并用于進(jìn)行故障推理的規(guī)則集; 通過所述確定的推理樹定位出故障。
2.如權(quán)利要求1所述的方法,其特征在于,通過所述確定的推理樹定位出故障包括: 根據(jù)所述確定的推理樹對(duì)所述報(bào)警信息進(jìn)行整合以生成所述推理樹的報(bào)警池; 根據(jù)所述推理樹的拆分原則,將所述報(bào)警池拆分成推理報(bào)警池; 將所述推理報(bào)警池中的報(bào)警信息與所述推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出故障。
3.如權(quán)利要求2所述的方法,其特征在于, 所述拆分原則包括:按照?qǐng)?bào)警信息歸屬的機(jī)房進(jìn)行拆分的原則以及按照?qǐng)?bào)警信息歸屬的設(shè)備進(jìn)行拆分的原則。
4.如權(quán)利要求1?3中任意一項(xiàng)所述的方法,其特征在于,所述方法還包括: 在執(zhí)行所述通過所述確定的推理樹定位出故障后,判斷是否定位所述故障的原因; 若是,則確定所述故障所歸屬的深度推理樹,并通過所述確定的深度推理樹定位出所述故障的原因。
5.如權(quán)利要求4所述的方法,其特征在于,通過所述確定的深度推理樹定位出所述故障的原因包括: 根據(jù)所述確定的深度推理樹對(duì)所述故障進(jìn)行整合以生成所述深度推理樹的故障池; 根據(jù)所述深度推理樹的拆分原則,將所述故障池拆分成推理故障池; 將所述推理故障池中的故障與所述深度推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出原因。
6.如權(quán)利要求1?3中任意一項(xiàng)所述的方法,其特征在于,所述方法還包括: 在執(zhí)行所述確定所述接收的報(bào)警信息所歸屬的推理樹前,以二叉樹的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)所述規(guī)則集以構(gòu)建所述推理樹。
7.一種定位故障的系統(tǒng),其特征在于,所述系統(tǒng)包括: 接收模塊,用于接收?qǐng)?bào)警信息; 確定模塊,用于確定所述接收模塊所接收的報(bào)警信息所歸屬的推理樹,其中所述推理樹存儲(chǔ)了系統(tǒng)可識(shí)別并用于進(jìn)行故障推理的規(guī)則集; 定位模塊,用于通過所述確定模塊所確定出的推理樹定位出故障。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述定位模塊包括: 整合單元,用于根據(jù)所述確定的推理樹對(duì)所述報(bào)警信息進(jìn)行整合以生成所述推理樹的報(bào)警池; 拆分單元,用于根據(jù)所述推理樹的拆分原則,將所述整合單元所整合出的報(bào)警池拆分成推理報(bào)警池; 匹配定位單元,用于將所述拆分單元所拆分出的推理報(bào)警池中的報(bào)警信息與所述推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出故障。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于, 所述拆分原則包括:按照?qǐng)?bào)警信息歸屬的機(jī)房進(jìn)行拆分的原則以及按照?qǐng)?bào)警信息歸屬的設(shè)備進(jìn)行拆分的原則。
10.如權(quán)利要求7?9中任意一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 判斷模塊,用于判斷是否定位所述故障的原因; 深度推理模塊,包括:用于當(dāng)所述判斷模塊判定為定位所述故障的原因時(shí),確定所述故障所歸屬的深度推理樹的確定單元,以及用于通過所述確定單元所確定的深度推理樹定位出所述故障的原因的深度定位單元。
11.如權(quán)利要求10所述的系統(tǒng),其特征在于,所述深度定位單元包括: 整合子單元,用于根據(jù)所述確定的深度推理樹對(duì)所述故障進(jìn)行整合以生成所述深度推理樹的故障池; 拆分子單元,用于根據(jù)所述深度推理樹的拆分原則,將所述整合子單元所整合出的故障池拆分成推理故障池; 匹配定位子單元,用于將所述拆分子單元所拆分出的推理故障池中的故障與所述深度推理樹的節(jié)點(diǎn)信息進(jìn)行匹配以定位出原因。
12.如權(quán)利要求7?9中任意一項(xiàng)所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 構(gòu)建模塊,用于以二叉樹的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)所述規(guī)則集以構(gòu)建所述推理樹。
【文檔編號(hào)】H04L12/24GK104486115SQ201410765586
【公開日】2015年4月1日 申請(qǐng)日期:2014年12月11日 優(yōu)先權(quán)日:2014年12月11日
【發(fā)明者】谷偉波, 方軍, 田津津, 熊亞軍 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司