欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

告警聚合方法及系統(tǒng)與流程

文檔序號(hào):11410699閱讀:910來(lái)源:國(guó)知局
告警聚合方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及告警聚合方法及系統(tǒng)。



背景技術(shù):

告警系統(tǒng)用于對(duì)設(shè)備及服務(wù)的異常情況進(jìn)行告警,并提供告警信息查看、處理和訂閱功能,廣泛應(yīng)用于各類互聯(lián)網(wǎng)公司的生產(chǎn)環(huán)境中。告警系統(tǒng)接收到由監(jiān)控系統(tǒng)傳入的各類原始的指標(biāo)值,這些指標(biāo)值數(shù)據(jù)經(jīng)過(guò)觸發(fā)器的一系列運(yùn)算和判斷,觸發(fā)器如果被觸發(fā),就會(huì)產(chǎn)生一個(gè)告警。這個(gè)告警最終會(huì)通過(guò)查詢其訂閱信息,找到告警的訂閱者,最終投遞到訂閱者的短息、郵件產(chǎn)生一條報(bào)警信息。

當(dāng)資源出現(xiàn)異常時(shí),告警系統(tǒng)會(huì)在一時(shí)間段內(nèi),產(chǎn)生大量的冗余告警,不方便運(yùn)維人員分析異常來(lái)源。例如當(dāng)網(wǎng)絡(luò)發(fā)生擁塞,傳輸質(zhì)量發(fā)生抖動(dòng)的時(shí)候,通常一個(gè)機(jī)房的所有機(jī)器都會(huì)報(bào)出“ping不可達(dá)”這樣的告警。大量告警將運(yùn)維人員淹沒(méi),使之很容易忽略了真正的有效告警,極端情況下會(huì)造成嚴(yán)重后果。

現(xiàn)有技術(shù)中,為了防止大量的冗余告警,方便運(yùn)維人員分析異常來(lái)源,采用告警數(shù)量防洪策略,當(dāng)告警數(shù)量超過(guò)預(yù)設(shè)的數(shù)值時(shí),就會(huì)過(guò)濾掉部分告警信息。但是采用現(xiàn)有技術(shù)過(guò)濾掉部分告警信息,會(huì)導(dǎo)致有效告警信息被過(guò)濾掉,反而降低了發(fā)現(xiàn)異常來(lái)源的成功率。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例的目的在于提供一種告警聚合方法及系統(tǒng),以實(shí)現(xiàn)在方便運(yùn)維人員分析異常來(lái)源的基礎(chǔ)上,提高發(fā)現(xiàn)異常來(lái)源的成功率。具體技術(shù)方案如下:

一種告警聚合方法,其特征在于,包括:

獲取網(wǎng)絡(luò)中至少兩條告警信息,分別確定每條所述告警信息對(duì)應(yīng)的異常資源;

獲取所述異常資源的關(guān)鍵信息,將所述關(guān)鍵信息分別標(biāo)識(shí)到每條所述異常資源對(duì)應(yīng)的告警信息上,得到至少兩個(gè)告警標(biāo)識(shí),其中,所述關(guān)鍵信息標(biāo)識(shí)所述異常資源對(duì)應(yīng)的類型或位置;

根據(jù)所述告警標(biāo)識(shí)中標(biāo)識(shí)的關(guān)鍵信息,將所述告警信息進(jìn)行分組;

將同一個(gè)分組中的多條告警信息進(jìn)行聚合,得到并輸出聚合后的告警信息。

可選的,所述關(guān)鍵信息,包括:

所述關(guān)鍵信息標(biāo)識(shí)所述異常資源對(duì)應(yīng)的類型為應(yīng)用、機(jī)房、集群和物理機(jī)中的一種,或所述關(guān)鍵信息標(biāo)識(shí)所述異常資源對(duì)應(yīng)的位置為所述異常資源所處的集群、所述異常資源所處的應(yīng)用、所述異常資源所處的物理機(jī)和所述異常資源所處的機(jī)房中的一種。

可選的,所述獲取所述異常資源的關(guān)鍵信息,將所述關(guān)鍵信息分別標(biāo)識(shí)到每條所述異常資源對(duì)應(yīng)的告警信息上,得到至少兩個(gè)告警標(biāo)識(shí),包括:

根據(jù)每條所述告警信息對(duì)應(yīng)的異常資源,查詢配置管理數(shù)據(jù)庫(kù),確定所述異常資源的關(guān)鍵信息;

生成標(biāo)識(shí)所述異常資源的關(guān)鍵信息及所述異常資源的名稱的標(biāo)簽信息;

分別給每條所述告警信息標(biāo)注對(duì)應(yīng)的標(biāo)簽信息,得到至少兩個(gè)告警標(biāo)識(shí)。

可選的,在所述分別給每條所述告警信息標(biāo)注對(duì)應(yīng)的標(biāo)簽信息,得到至少兩個(gè)告警標(biāo)識(shí)之后,所述方法還包括:

在所述異常資源對(duì)應(yīng)的關(guān)鍵信息和/或名稱發(fā)生變更時(shí),生成標(biāo)識(shí)所述變更的變更消息;

根據(jù)所述變更消息,更新所述告警信息上標(biāo)注的標(biāo)簽信息。

可選的,所述將所述同一個(gè)分組中的多條告警信息進(jìn)行聚合,得到并輸出聚合后的告警信息,包括:

分別獲取每組所述同一個(gè)分組中的告警信息的數(shù)量;

將所述數(shù)量大于或等于預(yù)設(shè)數(shù)目閾值的分組中的告警信息進(jìn)行聚合,得到聚合后的告警信息;

輸出所述數(shù)量小于預(yù)設(shè)數(shù)目閾值的分組中的告警信息及所述聚合后的告警信息。

一種告警聚合系統(tǒng),其特征在于,包括:

異常資源確定模塊,用于獲取網(wǎng)絡(luò)中至少兩條告警信息,分別確定每條所述告警信息對(duì)應(yīng)的異常資源;

告警標(biāo)識(shí)生成模塊,用于獲取所述異常資源的關(guān)鍵信息,將所述關(guān)鍵信息分別標(biāo)識(shí)到每條所述異常資源對(duì)應(yīng)的告警信息上,得到至少兩個(gè)告警標(biāo)識(shí),其中,所述關(guān)鍵信息標(biāo)識(shí)所述異常資源對(duì)應(yīng)的類型或位置;

分組劃分模塊,用于根據(jù)所述告警標(biāo)識(shí)中標(biāo)識(shí)的關(guān)鍵信息,將所述告警信息進(jìn)行分組;

告警聚合模塊,用于將同一個(gè)分組中的多條告警信息進(jìn)行聚合,得到并輸出聚合后的告警信息。

可選的,所述告警標(biāo)識(shí)生成模塊中的所述關(guān)鍵信息,包括:

所述關(guān)鍵信息標(biāo)識(shí)所述異常資源對(duì)應(yīng)的類型為應(yīng)用、機(jī)房、集群和物理機(jī)中的一種,或所述關(guān)鍵信息標(biāo)識(shí)所述異常資源對(duì)應(yīng)的位置為所述異常資源所處的集群、所述異常資源所處的應(yīng)用、所述異常資源所處的物理機(jī)和所述異常資源所處的機(jī)房中的一種。

可選的,所述告警標(biāo)識(shí)生成模塊,包括:

關(guān)鍵信息確定子模塊,用于根據(jù)每條所述告警信息對(duì)應(yīng)的異常資源,查詢配置管理數(shù)據(jù)庫(kù),確定所述異常資源的關(guān)鍵信息;

標(biāo)簽信息生成子模塊,用于生成標(biāo)識(shí)所述異常資源的關(guān)鍵信息及所述異常資源的名稱的標(biāo)簽信息;

標(biāo)簽信息標(biāo)注子模塊,用于分別給每條所述告警信息標(biāo)注對(duì)應(yīng)的標(biāo)簽信息,得到至少兩個(gè)告警標(biāo)識(shí)。

可選的,所述告警聚合系統(tǒng)還包括:

變更消息生成模塊,用于在所述異常資源對(duì)應(yīng)的關(guān)鍵信息和/或名稱發(fā)生變更時(shí),生成標(biāo)識(shí)所述變更的變更消息;

標(biāo)簽信息更新模塊,用于根據(jù)所述變更消息,更新所述告警信息上標(biāo)注的標(biāo)簽信息。

可選的,所述告警聚合模塊,包括:

數(shù)量確定子模塊,用于分別獲取每組所述同一個(gè)分組中的告警信息的數(shù)量;

閾值判決子模塊,用于將所述數(shù)量大于或等于預(yù)設(shè)數(shù)目閾值的分組中的告警信息進(jìn)行聚合,得到聚合后的告警信息;

告警輸出子模塊,用于輸出所述數(shù)量小于預(yù)設(shè)數(shù)目閾值的分組中的告警信息及所述聚合后的告警信息。

本發(fā)明實(shí)施例提供的告警聚合方法及系統(tǒng),通過(guò)告警信息確定異常資源,查詢異常資源的關(guān)鍵信息,并標(biāo)識(shí)關(guān)鍵信息到告警信息上,利用關(guān)鍵信息將告警信息進(jìn)行分組,聚合并輸出同一分組中的告警信息,聚合后的告警信息的數(shù)量明顯減少,根據(jù)關(guān)鍵信息聚合分析更加方便,可以在方便運(yùn)維人員分析異常來(lái)源的基礎(chǔ)上,提高發(fā)現(xiàn)異常來(lái)源的成功率。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例的告警聚合方法的一種流程示意圖;

圖2為本發(fā)明實(shí)施例的告警聚合系統(tǒng)的一種示意圖;

圖3為本發(fā)明實(shí)施例的標(biāo)簽信息的生成及維護(hù)流程示意圖;

圖4為本發(fā)明實(shí)施例的規(guī)則的示意圖;

圖5為本發(fā)明實(shí)施例的圖2所示告警聚合系統(tǒng)的具體應(yīng)用的示意圖;

圖6為本發(fā)明實(shí)施例的告警聚合系統(tǒng)的另一種示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

告警系統(tǒng)用于對(duì)設(shè)備及服務(wù)的異常情況進(jìn)行告警,并提供告警信息查看、處理和訂閱功能,廣泛應(yīng)用于各類互聯(lián)網(wǎng)公司的生產(chǎn)環(huán)境中。告警系統(tǒng)接收到由監(jiān)控系統(tǒng)傳入的各類原始的指標(biāo)值,這些指標(biāo)值數(shù)據(jù)經(jīng)過(guò)觸發(fā)器的一系列運(yùn)算和判斷,觸發(fā)器如果被觸發(fā),就會(huì)產(chǎn)生一個(gè)告警。

告警系統(tǒng)通常會(huì)在一段時(shí)間內(nèi),產(chǎn)生大量的告警信息。例如當(dāng)網(wǎng)絡(luò)發(fā)送擁塞,傳輸質(zhì)量發(fā)送抖動(dòng)時(shí),一個(gè)機(jī)房中的所有機(jī)器都會(huì)發(fā)出“ping不可達(dá)”這樣的告警信息。大量的告警信息容易將運(yùn)維人員淹沒(méi),不利于查找到癥結(jié)所在。

為此本發(fā)明實(shí)施例提供了一種告警聚合方法,參見(jiàn)圖1,圖1為本發(fā)明實(shí)施例的告警聚合方法的流程示意圖,包括:

s101,獲取網(wǎng)絡(luò)中至少兩條告警信息,分別確定每條告警信息對(duì)應(yīng)的異常資源。

當(dāng)網(wǎng)絡(luò)中的資源(設(shè)備或服務(wù))出現(xiàn)異常時(shí),告警系統(tǒng)會(huì)發(fā)出告警信息。告警聚合系統(tǒng)獲取網(wǎng)絡(luò)中的告警信息,告警信息的內(nèi)容中標(biāo)識(shí)了該告警信息告警的資源,根據(jù)告警信息的內(nèi)容,告警聚合系統(tǒng)確定告警信息告警的資源,即為異常資源。

告警聚合系統(tǒng)可以為一種設(shè)備,包括:處理器、存儲(chǔ)器、通信接口和總線;處理器、存儲(chǔ)器和通信接口通過(guò)總線連接并完成相互間的通信;存儲(chǔ)器存儲(chǔ)可執(zhí)行程序代碼;處理器通過(guò)讀取存儲(chǔ)器中存儲(chǔ)的可執(zhí)行程序代碼來(lái)運(yùn)行與可執(zhí)行程序代碼對(duì)應(yīng)的程序,以用于執(zhí)行告警聚合方法。

告警聚合系統(tǒng)還可以為一種應(yīng)用于告警系統(tǒng)或告警訂閱者的應(yīng)用程序,用于在運(yùn)行時(shí)執(zhí)行告警聚合方法。

告警聚合系統(tǒng)還可以為一種應(yīng)用于告警系統(tǒng)或告警訂閱者的存儲(chǔ)介質(zhì),用于存儲(chǔ)可執(zhí)行代碼,可執(zhí)行代碼用于執(zhí)行告警聚合方法。

s102,獲取異常資源的關(guān)鍵信息,將關(guān)鍵信息分別標(biāo)識(shí)到每條異常資源對(duì)應(yīng)的告警信息上,得到至少兩個(gè)告警標(biāo)識(shí),其中,關(guān)鍵信息標(biāo)識(shí)異常資源對(duì)應(yīng)的類型或位置。

異常資源應(yīng)用端的配置管理系統(tǒng)中包含了異常資源的關(guān)鍵信息,異常資源的關(guān)鍵信息標(biāo)識(shí)了異常資源的部分或全部屬性,如異常資源的類型或異常資源所在的位置。告警聚合系統(tǒng)通過(guò)查詢異常資源應(yīng)用端的配置管理系統(tǒng)確定異常資源的關(guān)鍵信息,例如通過(guò)cmdb(configurationmanagementdatabase,配置管理數(shù)據(jù)庫(kù)),查詢所有異常資源的關(guān)鍵信息。將每條關(guān)鍵信息分別標(biāo)識(shí)到該條關(guān)鍵信息對(duì)應(yīng)的異常資源的告警信息上,得到告警標(biāo)識(shí),以便區(qū)分不同類型或位置的告警信息,方便后續(xù)分組。告警標(biāo)識(shí)是指告警信息上標(biāo)注的關(guān)鍵信息,標(biāo)識(shí)了告警信息告警的異常資源的類型或位置,例如,告警標(biāo)識(shí)標(biāo)識(shí)告警信息的類型為app1,或告警標(biāo)識(shí)標(biāo)識(shí)告警信息所在的位置為dc1(機(jī)房1)。

s103,根據(jù)告警標(biāo)識(shí)中標(biāo)識(shí)的關(guān)鍵信息,將告警信息進(jìn)行分組。

告警信息的關(guān)鍵信息標(biāo)識(shí)了該告警信息告警的異常資源對(duì)應(yīng)的類型或位置,首先根據(jù)關(guān)鍵信息,通過(guò)預(yù)設(shè)的過(guò)濾規(guī)則,在所有的告警信息中過(guò)濾出符合要求的告警信息,然后根據(jù)關(guān)鍵信息,通過(guò)預(yù)設(shè)的分組規(guī)則,將過(guò)濾出的告警信息進(jìn)行分組。

例如,若過(guò)濾規(guī)則為:過(guò)濾出類型為app1(應(yīng)用1)的告警信息時(shí),則在所有的告警信息中過(guò)濾出關(guān)鍵信息標(biāo)識(shí)的類型為app1的告警信息。若過(guò)濾規(guī)則為:過(guò)濾dc1中的告警信息,則在所有的告警信息中過(guò)濾出關(guān)鍵信息標(biāo)識(shí)的位置為dc1的告警信息。

若過(guò)濾出的告警信息分別為:告警標(biāo)識(shí)標(biāo)識(shí)的類型為app1的告警信息a,告警標(biāo)識(shí)標(biāo)識(shí)的類型為app1的告警信息b,告警標(biāo)識(shí)標(biāo)識(shí)的類型為app2的告警信息c,告警標(biāo)識(shí)標(biāo)識(shí)的類型為machine1(物理機(jī)1)的告警信息d,當(dāng)分組規(guī)則為:將告警標(biāo)識(shí)標(biāo)識(shí)的類型為app的告警信息劃分為一組,關(guān)鍵信息標(biāo)識(shí)的類型為machine告警信息劃分為一組時(shí),則將告警信息a、告警信息b及告警信息c劃分到同一個(gè)分組中,將告警信息d劃分到另一個(gè)分組中。當(dāng)分組規(guī)則為:將告警標(biāo)識(shí)相同的告警信息劃分為一組時(shí),則將告警信息a及告警信息b劃分到一個(gè)分組中,將告警信息c劃分為一個(gè)分組,將告警信息d劃分為一個(gè)分組。

若過(guò)濾出的告警信息分別為:告警標(biāo)識(shí)標(biāo)識(shí)的位置為dc1的告警信息a,告警標(biāo)識(shí)標(biāo)識(shí)的位置為dc1的告警信息b,告警標(biāo)識(shí)標(biāo)識(shí)的位置為dc2(機(jī)房2)的告警信息c,當(dāng)分組規(guī)則為:將相同機(jī)房的告警信息劃分為一組時(shí),則將告警信息a及告警信息b劃分為一組,將告警信息c劃分為另一組。當(dāng)分組規(guī)則為:將所有機(jī)房的告警信息劃分為一組時(shí),則將告警信息a、告警信息b及告警信息c劃分到一個(gè)分組中。

s104,將同一個(gè)分組中的多條告警信息進(jìn)行聚合,得到并輸出聚合后的告警信息。

分別將每一分組中的告警信息進(jìn)行聚合,聚合后的告警信息中標(biāo)識(shí)了該聚合后的告警信息中的告警信息的關(guān)鍵信息,以方便對(duì)聚合后的告警信息進(jìn)行查找及分析。

例如,當(dāng)分組規(guī)則為:將告警標(biāo)識(shí)相同的告警信息劃分為一組,且同一個(gè)分組中包括:告警標(biāo)識(shí)標(biāo)識(shí)的類型為app1的告警信息a及告警標(biāo)識(shí)標(biāo)識(shí)的類型為app1的告警信息b兩個(gè)告警信息時(shí),告警聚合系統(tǒng)將告警信息a與告警信息b進(jìn)行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示為:app1的告警信息共2條。當(dāng)然該聚合后的告警信息還包含了告警信息a與告警信息b的全部?jī)?nèi)容,可以利用操作來(lái)顯示或隱藏告警信息a與告警信息b的內(nèi)容。

例如,當(dāng)分組規(guī)則為:將相同機(jī)房的告警信息劃分為一組,且同一個(gè)分組中包括:告警標(biāo)識(shí)標(biāo)識(shí)的位置為dc1的告警信息a,告警標(biāo)識(shí)標(biāo)識(shí)的位置為dc1的告警信息b時(shí),告警聚合系統(tǒng)將告警信息a與告警信息b進(jìn)行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示為:dc1中的告警信息共2條。當(dāng)然該聚合后的告警信息還包含了告警信息a與告警信息b的全部?jī)?nèi)容,可以利用操作來(lái)顯示或隱藏告警信息a與告警信息b的內(nèi)容。

在本發(fā)明實(shí)施例中,通過(guò)告警信息確定異常資源,查詢異常資源的關(guān)鍵信息,并標(biāo)識(shí)關(guān)鍵信息到告警信息上,利用關(guān)鍵信息將告警信息進(jìn)行分組,聚合并輸出同一分組中的告警信息。聚合后的告警信息的數(shù)量明顯減少,根據(jù)關(guān)鍵信息查詢聚合后的告警信息更加方便,可以在方便運(yùn)維人員分析異常來(lái)源的基礎(chǔ)上,提高發(fā)現(xiàn)異常來(lái)源的成功率。

關(guān)鍵信息標(biāo)識(shí)了異常資源對(duì)應(yīng)的類型或位置,關(guān)鍵信息標(biāo)識(shí)的位置信息越具體,聚合后的告警信息的數(shù)量越多,例如,相比于根據(jù)標(biāo)識(shí)異常資源所在的物理機(jī)的關(guān)鍵信息進(jìn)行分組聚合,根據(jù)標(biāo)識(shí)異常資源所在的機(jī)房的關(guān)鍵信息進(jìn)行分組聚合,得到的聚合后的告警信息的總數(shù)量更少。在實(shí)際應(yīng)用中,用戶可以根據(jù)具體情況設(shè)定關(guān)鍵信息,以控制聚合后的告警信息的數(shù)量。

可選的,在本發(fā)明實(shí)施例的告警信息聚合方法中,關(guān)鍵信息包括:

關(guān)鍵信息標(biāo)識(shí)異常資源對(duì)應(yīng)的類型為應(yīng)用、機(jī)房、集群和物理機(jī)中的一種,或關(guān)鍵信息標(biāo)識(shí)異常資源對(duì)應(yīng)的位置為異常資源所處的集群、異常資源所處的應(yīng)用、異常資源所處的物理機(jī)和異常資源所處的機(jī)房中的一種。

在本發(fā)明實(shí)施例中,給出了關(guān)鍵信息的內(nèi)容,利用不同的關(guān)鍵信息,可以控制聚合后的告警信息的數(shù)量。

為了方便后期運(yùn)維人員對(duì)異常來(lái)源的分析,告警標(biāo)識(shí)除了包括異常資源的關(guān)鍵信息外,還可以包括異常資源的名稱。

可選的,獲取異常資源的關(guān)鍵信息,將關(guān)鍵信息分別標(biāo)識(shí)到每條異常資源對(duì)應(yīng)的告警信息上,得到至少兩個(gè)告警標(biāo)識(shí),包括:

步驟一,根據(jù)每條告警信息對(duì)應(yīng)的異常資源,查詢配置管理數(shù)據(jù)庫(kù),確定異常資源的關(guān)鍵信息。

cmdb(configurationmanagementdatabase,配置管理數(shù)據(jù)庫(kù))用于存儲(chǔ)與管理企業(yè)it(informationtechnology,信息技術(shù))架構(gòu)中設(shè)備的各種配置信息,cmdb與所有的服務(wù)支持和服務(wù)交付流程都緊密相連。告警聚合系統(tǒng)通過(guò)查詢cmdb,獲取異常資源的關(guān)鍵信息。

步驟二,生成標(biāo)識(shí)異常資源的關(guān)鍵信息及異常資源的名稱的標(biāo)簽信息。

標(biāo)簽信息通過(guò)預(yù)設(shè)的tagger(標(biāo)注者)生成,每個(gè)tagger負(fù)責(zé)生成及標(biāo)注一類標(biāo)簽信息。標(biāo)簽信息包括前綴和內(nèi)容兩部分,前綴部分標(biāo)識(shí)異常資源的關(guān)鍵信息,內(nèi)容部分標(biāo)識(shí)異常資源的名稱。例如,標(biāo)識(shí)類型為app的異常資源app1的告警信息的標(biāo)簽信息為app:app1。標(biāo)識(shí)類型為cluster(集群)的異常資源mq-jylt-online001的告警信息的標(biāo)簽信息為cluster:mq-jylt-online001。標(biāo)識(shí)位置為dc1的異常資源machine1的告警信息的標(biāo)簽信息為dc1:machine1。

步驟三,分別給每條告警信息標(biāo)注對(duì)應(yīng)的標(biāo)簽信息,得到至少兩個(gè)告警標(biāo)識(shí)。

一條告警信息上可以標(biāo)注多個(gè)標(biāo)簽信息,標(biāo)簽信息的數(shù)量是由tagger的數(shù)量決定的。例如,若有tagger1標(biāo)識(shí)類型為app和tagger2標(biāo)識(shí)類型為type兩個(gè)tagger,則每條告警信息上應(yīng)該標(biāo)識(shí)兩個(gè)標(biāo)簽信息,如app:app1,type:network。

相應(yīng)的s103包括:根據(jù)告警標(biāo)識(shí)中標(biāo)識(shí)的關(guān)鍵信息及異常資源的名稱,將告警信息進(jìn)行分組。

告警聚合系統(tǒng)根據(jù)標(biāo)簽信息過(guò)濾出符合預(yù)設(shè)過(guò)濾規(guī)則的告警信息,并根據(jù)標(biāo)簽信息,通過(guò)預(yù)設(shè)的分組規(guī)則將過(guò)濾出的告警信息進(jìn)行分組。

例如,在過(guò)濾規(guī)則為:過(guò)濾出標(biāo)簽信息為“app:mysql”的告警信息時(shí),只篩選出標(biāo)簽信息的前綴是“app”,內(nèi)容是“mysql”的告警信息。而在過(guò)濾規(guī)則為:過(guò)濾出標(biāo)簽信息同時(shí)標(biāo)注“app:mysql”和“type:network”的告警信息時(shí),篩選出既標(biāo)注了app:mysql又標(biāo)注了type:network的告警信息。

分組規(guī)則是為了對(duì)執(zhí)行過(guò)濾規(guī)則之后篩選出的告警信息進(jìn)行分組,分組依據(jù)標(biāo)簽信息,告警聚合系統(tǒng)把篩選出的告警信息進(jìn)行分組。若過(guò)濾出的告警信息分別為:標(biāo)簽信息為app:app1的告警信息a,標(biāo)簽信息為app:app2的告警信息b,標(biāo)簽信息為app:app3的告警信息c,標(biāo)簽信息為machine:machine1的告警信息d,當(dāng)分組規(guī)則為:將標(biāo)簽信息的前綴相同的告警信息劃分為一組時(shí),則將告警信息a、告警信息b及告警信息c劃分到同一個(gè)分組中,將告警信息d劃分到另一個(gè)分組中。

在將告警信息進(jìn)行分組后,還需要將同一個(gè)分組中的多條告警信息進(jìn)行聚合,得到并輸出聚合后的告警信息。

例如,當(dāng)分組規(guī)則為:將標(biāo)簽信息前綴相同的告警信息劃分為一組,且同一個(gè)分組中包括:標(biāo)簽信息為app:app1的告警信息a、標(biāo)簽信息為app:app2的告警信息b及標(biāo)簽信息為app:app3的告警信息c時(shí),告警聚合系統(tǒng)將告警信息a、告警信息b和告警信息c進(jìn)行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示為:app類的告警信息共3條。當(dāng)然該聚合后的告警信息還可以包含告警信息a、告警信息b及告警信息c的全部?jī)?nèi)容,可以利用操作來(lái)顯示或隱藏告警信息a告警信息b及告警信息c的內(nèi)容。

例如,當(dāng)分組規(guī)則為:將cluster1中cpuload類的告警信息劃分為一組,且同一個(gè)分組中包括:標(biāo)簽信息為cluster:cluster1及type:cpuload的告警信息a,標(biāo)簽信息為cluster:cluster1及type:cpuload的告警信息b時(shí),告警聚合系統(tǒng)將告警信息a與告警信息b進(jìn)行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示為:cluster1中的cpuload類型告警信息共2條。當(dāng)然該聚合后的告警信息還可以包含告警信息a與告警信息b的全部?jī)?nèi)容,可以利用操作來(lái)顯示或隱藏告警信息a與告警信息b的內(nèi)容。

在本發(fā)明實(shí)施例中,通過(guò)標(biāo)簽信息標(biāo)識(shí)告警信息,標(biāo)簽信息中除了包括異常資源的關(guān)鍵信息外,還包括異常資源的名稱。通過(guò)標(biāo)簽信息,方便告警信息的過(guò)濾及分組,并且方便后期對(duì)告警信息的查找及分析,有利于運(yùn)維人員分析異常來(lái)源,提高發(fā)現(xiàn)異常來(lái)源的成功率。

可選的,在分別給每條告警信息標(biāo)注對(duì)應(yīng)的標(biāo)簽信息,得到至少兩個(gè)告警標(biāo)識(shí)之后,該方法還包括:

步驟四,在異常資源對(duì)應(yīng)的關(guān)鍵信息和/或名稱發(fā)生變更時(shí),生成標(biāo)識(shí)變更的變更消息。

步驟五,根據(jù)變更消息,更新告警信息上標(biāo)注的標(biāo)簽信息。

例如,異常資源對(duì)應(yīng)的關(guān)鍵信息從dc1,變更為dc2,則將該異常資源對(duì)應(yīng)的標(biāo)簽信息中的dc1更改為dc2。

在本發(fā)明實(shí)施例中,通過(guò)變更消息,更新標(biāo)簽信息,保證了標(biāo)簽信息的正確性,從而提高了告警信息聚合的準(zhǔn)確度。

將告警信息分組后,還需要將告警信息進(jìn)行聚合。可以分別聚合每個(gè)分組中的全部告警信息,也可以聚合部分分組中的全部告警信息,還可以根據(jù)實(shí)際情況聚合部分分組中的部分告警信息。

可選的,s104,包括:

步驟一,分別獲取每組同一個(gè)分組中的告警信息的數(shù)量。

步驟二,將數(shù)量大于或等于預(yù)設(shè)數(shù)目閾值的分組中的告警信息進(jìn)行聚合,得到聚合后的告警信息。

此處的預(yù)設(shè)數(shù)目閾值為符合本發(fā)明實(shí)施例的任意數(shù)值,根據(jù)異常資源關(guān)鍵信息的范圍的大小進(jìn)行設(shè)定,且異常資源關(guān)鍵信息的范圍的大小與預(yù)設(shè)數(shù)目閾值的大小正相關(guān)。例如,當(dāng)異常資源的關(guān)鍵信息標(biāo)識(shí)的類型為dc(機(jī)房)時(shí),數(shù)目閾值可以設(shè)定為20。這是因?yàn)橐环矫娓婢畔⒌木酆闲枰挠?jì)算資源,若頻繁聚合小數(shù)量的告警信息,會(huì)消耗大量的計(jì)算資源,降低了告警聚合系統(tǒng)、甚至告警聚合系統(tǒng)所在系統(tǒng)的整體性能;同時(shí)頻繁聚合小數(shù)量的告警信息不利于運(yùn)維人員分析問(wèn)題來(lái)源。

步驟三,輸出數(shù)量小于預(yù)設(shè)數(shù)目閾值的分組中的告警信息及聚合后的告警信息。

告警聚合是在一個(gè)時(shí)間窗口(例如,兩分鐘)內(nèi)進(jìn)行的,如果數(shù)目閾值太小,不僅會(huì)消耗大量的計(jì)算資源,降低告警聚合系統(tǒng)、甚至告警聚合系統(tǒng)所在系統(tǒng)的整體性能,并且起不到聚合的效果,不利于運(yùn)維人員分析問(wèn)題來(lái)源。例如聚合想要達(dá)到的效果是“把網(wǎng)絡(luò)類型的告警信息按照機(jī)房分組聚合發(fā)送”,想反映出機(jī)房級(jí)別的網(wǎng)絡(luò)問(wèn)題,如果數(shù)目閾值設(shè)置的太小,會(huì)把一些正常的某個(gè)小范圍的網(wǎng)絡(luò)問(wèn)題包含進(jìn)來(lái),而不能達(dá)到預(yù)期效果。所以數(shù)目閾值應(yīng)該根據(jù)具體的規(guī)則進(jìn)行設(shè)定,才能夠達(dá)到預(yù)定的聚合效果,以方便對(duì)不同物理級(jí)別范圍內(nèi)的異常進(jìn)行分析。

在本發(fā)明實(shí)施例中,僅聚合告警信息數(shù)量大于預(yù)設(shè)數(shù)目閾值的分組,相比于聚合所有分組中的告警信息,能夠合理利用網(wǎng)絡(luò)資源,增加告警信息聚合的效率。

在本發(fā)明實(shí)施例中,還提供了一種應(yīng)用上述告警聚合方法的系統(tǒng)。參見(jiàn)圖2,圖2為本發(fā)明實(shí)施例的告警聚合系統(tǒng)的一種示意圖,包括:

標(biāo)簽生成模塊201、規(guī)則制定模塊202及告警聚合引擎203。

標(biāo)簽生成模塊201,用于從cmdb的接口中獲取告警信息所關(guān)聯(lián)的集群、機(jī)房及其他信息,并以標(biāo)簽的形式標(biāo)注到該告警信息上,與該告警信息建立關(guān)聯(lián),同時(shí)負(fù)責(zé)標(biāo)簽的維護(hù)及存儲(chǔ)。

標(biāo)簽生成模塊201包含一系列的tagger(標(biāo)注者),每個(gè)tagger負(fù)責(zé)一類標(biāo)簽信息的標(biāo)注工作,獲取異常資源對(duì)應(yīng)的hostname(主機(jī)名稱),根據(jù)hostname從cmdb中抽取出需要的關(guān)聯(lián)的標(biāo)簽信息,將標(biāo)簽信息標(biāo)注到對(duì)應(yīng)的告警信息上,并且接受該異常資源的變更消息,用于維護(hù)此類標(biāo)簽信息的準(zhǔn)確性。

如圖3所示,圖3為本發(fā)明實(shí)施例的標(biāo)簽信息的生成及維護(hù)流程示意圖,包括:

s301,獲取主機(jī)名稱。

在告警系統(tǒng)中,一個(gè)topic(話題)代表一個(gè)告警來(lái)源,當(dāng)topic對(duì)應(yīng)的觸發(fā)條件達(dá)到時(shí),就會(huì)產(chǎn)生一條event(告警信息)。確定event對(duì)應(yīng)topic,在topic中獲取異常資源的hostname(主機(jī)名稱)。

s302,生成標(biāo)簽信息。

根據(jù)hostname,查找cmdb,抽取異常資源的關(guān)鍵信息,生成tag(標(biāo)簽信息)。tag由前綴和內(nèi)容兩部分組成。前綴用來(lái)標(biāo)識(shí)異常資源的類型,如“cluster”,“dc”,“app”及其他類型。內(nèi)容用來(lái)標(biāo)識(shí)異常資源的具體信息,如集群的名稱。

s303,標(biāo)注標(biāo)簽信息。

將tag標(biāo)注到對(duì)應(yīng)的event上。

s304,訂閱變更消息。

在異常資源對(duì)應(yīng)的關(guān)鍵信息和/或名稱發(fā)生變更時(shí),生成標(biāo)識(shí)變更的變更消息。根據(jù)變更消息,更新event上標(biāo)注的tag。

規(guī)則制定模塊202,用于負(fù)責(zé)預(yù)設(shè)規(guī)則的表達(dá)、存儲(chǔ)及查詢接口的維護(hù)。

規(guī)則制定模塊202中保存了各種預(yù)設(shè)規(guī)則,包括:過(guò)濾規(guī)則401、分組規(guī)則402及條目規(guī)則403。其中,過(guò)濾規(guī)則用于規(guī)定過(guò)濾條件,分組規(guī)則用于規(guī)定分組條件,條目規(guī)則規(guī)定告警信息聚合的最小數(shù)目。規(guī)則制定模塊202還能夠用于新規(guī)則的制定,及現(xiàn)有規(guī)則的修改。

過(guò)濾規(guī)則401是為了篩選出符合條件的event,根據(jù)tag的前綴和內(nèi)容來(lái)制定。過(guò)濾規(guī)則包括至少一個(gè)filter(過(guò)濾器),每個(gè)filter過(guò)濾出一種tag。例如在過(guò)濾規(guī)則僅包含一個(gè)filter:app:mysql時(shí),只篩選出前綴部分是app,內(nèi)容部分是mysql的標(biāo)簽信息所標(biāo)識(shí)的告警信息。在過(guò)濾規(guī)則包含兩個(gè)filter:app:mysql和type:network時(shí),篩選出同時(shí)包含兩個(gè)標(biāo)簽app:mysql和type:network的告警信息,和內(nèi)容部分為network,前綴部分為type的標(biāo)簽信息所標(biāo)識(shí)的告警信息。

分組規(guī)則402是為了對(duì)執(zhí)行過(guò)濾規(guī)則之后篩選出的event進(jìn)行分組,分組依據(jù)tag的前綴,將event進(jìn)行分組。分組規(guī)則包括至少一個(gè)group(分組器),每個(gè)group完成一類tag的分組。比如:dc,把篩選出的event按照dc類標(biāo)簽分組。

條目數(shù)規(guī)則403規(guī)定每個(gè)分組中聚合告警信息的count(預(yù)設(shè)的數(shù)目閾值),只有當(dāng)分組中的告警信息大于或等于count時(shí),才會(huì)聚合該分組中的告警信息??梢詾楦鶕?jù)group的不同設(shè)置不同的count,也可以為所有分組共享一個(gè)count,例如count設(shè)置為20。

告警聚合引擎203,用于解析及執(zhí)行預(yù)設(shè)規(guī)則,將符合預(yù)設(shè)規(guī)則的告警信息進(jìn)行聚合。

告警聚合引擎203過(guò)濾出符合過(guò)濾規(guī)則的tag,根據(jù)分組規(guī)則將過(guò)濾出的tag對(duì)應(yīng)的event劃分到對(duì)應(yīng)的分組中,在分組中的event的數(shù)量滿足條目規(guī)則時(shí),將該分組中的告警信息進(jìn)行聚合。輸出聚合后的告警信息,產(chǎn)生聚合報(bào)警。

在本發(fā)明實(shí)施例中,標(biāo)簽生成模塊201生成與告警信息對(duì)應(yīng)的標(biāo)簽信息,告警聚合引擎203利用規(guī)則制定模塊202中的規(guī)則,根據(jù)標(biāo)簽信息,將告警信息進(jìn)行分組,聚合并輸出同一分組中的告警信息。聚合后的告警信息的數(shù)量明顯減少,根據(jù)聚合后告警信息的標(biāo)簽信息查找及分析異常原因效率更高,可以在方便運(yùn)維人員分析異常來(lái)源的基礎(chǔ)上,提高發(fā)現(xiàn)異常來(lái)源的成功率。

參見(jiàn)圖5,圖5為本發(fā)明實(shí)施例的應(yīng)用圖2所示告警聚合系統(tǒng)的示意圖,包括:

標(biāo)簽生成模塊201包含一系列的tagger(標(biāo)注者),每個(gè)tagger負(fù)責(zé)一類標(biāo)簽信息的標(biāo)注工作,一個(gè)topic(話題)代表一個(gè)告警來(lái)源,獲取topic對(duì)應(yīng)的hostname,根據(jù)hostname從cmdb中抽取出需要的關(guān)聯(lián)的標(biāo)簽信息,將標(biāo)簽信息標(biāo)注到對(duì)應(yīng)的告警信息上,并且接受該異常資源的變更消息,用于維護(hù)此類標(biāo)簽信息的準(zhǔn)確性。

告警聚合引擎203獲取規(guī)則制定模塊202中的過(guò)濾規(guī)則、分組規(guī)則及條目數(shù)規(guī)則。根據(jù)標(biāo)簽信息,篩選出符合過(guò)濾規(guī)則的告警信息,并利用分組規(guī)則,將篩選出的告警信息進(jìn)行分組。最后,將符合條目數(shù)規(guī)則的分組中的告警信息進(jìn)行聚合,輸出聚合后的告警信息及未聚合的分組中的告警信息。運(yùn)維人員對(duì)輸出的告警信息進(jìn)行統(tǒng)計(jì)與分析,以發(fā)現(xiàn)異常資源的癥結(jié)所在。

在本發(fā)明實(shí)施例中,標(biāo)簽生成模塊201將標(biāo)簽信息標(biāo)注到對(duì)應(yīng)的告警信息上,告警聚合引擎203利用規(guī)則制定模塊202中的規(guī)則,根據(jù)標(biāo)簽信息,將告警信息進(jìn)行分組和聚合,輸出聚合后的告警信息。聚合后告警信息的數(shù)量相比于聚合前告警信息的數(shù)量明顯減少,方便運(yùn)維人員分析。且根據(jù)標(biāo)簽信息查詢聚合的告警信息更加便利,可以在方便運(yùn)維人員分析異常來(lái)源的基礎(chǔ)上,提高發(fā)現(xiàn)異常來(lái)源的成功率。

參見(jiàn)圖6,圖6為本發(fā)明實(shí)施例的告警聚合系統(tǒng)的另一種示意圖,包括:

異常資源確定模塊601,用于獲取網(wǎng)絡(luò)中至少兩條告警信息,分別確定每條告警信息對(duì)應(yīng)的異常資源。

告警標(biāo)識(shí)生成模塊602,用于獲取異常資源的關(guān)鍵信息,將關(guān)鍵信息分別標(biāo)識(shí)到每條異常資源對(duì)應(yīng)的告警信息上,得到至少兩個(gè)告警標(biāo)識(shí),其中,關(guān)鍵信息標(biāo)識(shí)異常資源對(duì)應(yīng)的類型或位置。

分組劃分模塊603,用于根據(jù)告警標(biāo)識(shí)中標(biāo)識(shí)的關(guān)鍵信息,將告警信息進(jìn)行分組。

告警聚合模塊604,用于將同一個(gè)分組中的多條告警信息進(jìn)行聚合,得到并輸出聚合后的告警信息。

在本發(fā)明實(shí)施例中,通過(guò)告警信息確定異常資源,查詢異常資源的關(guān)鍵信息,并標(biāo)識(shí)關(guān)鍵信息到告警信息上,利用關(guān)鍵信息將告警信息進(jìn)行分組,聚合并輸出同一分組中的告警信息。聚合后的告警信息的數(shù)量明顯減少,根據(jù)關(guān)鍵信息查詢聚合后的告警信息更加方便,可以在方便運(yùn)維人員分析異常來(lái)源的基礎(chǔ)上,提高發(fā)現(xiàn)異常來(lái)源的成功率。

需要說(shuō)明的是本發(fā)明實(shí)施例的系統(tǒng)是應(yīng)用上述告警聚合方法的系統(tǒng),則上述告警聚合方法的實(shí)施例均適用于該系統(tǒng),且均能達(dá)到相同或相似的有益效果。

可選的,告警標(biāo)識(shí)生成模塊602中的關(guān)鍵信息,包括:

關(guān)鍵信息標(biāo)識(shí)異常資源對(duì)應(yīng)的類型為應(yīng)用、機(jī)房、集群和物理機(jī)中的一種,或關(guān)鍵信息標(biāo)識(shí)異常資源對(duì)應(yīng)的位置為異常資源所處的集群、異常資源所處的應(yīng)用、異常資源所處的物理機(jī)和異常資源所處的機(jī)房中的一種。

在本發(fā)明實(shí)施例中,給出了關(guān)鍵信息的內(nèi)容,利用不同的關(guān)鍵信息,可以控制聚合后的告警信息的數(shù)量。

可選的,告警標(biāo)識(shí)生成模塊602,包括:

關(guān)鍵信息確定子模塊,用于根據(jù)每條告警信息對(duì)應(yīng)的異常資源,查詢配置管理數(shù)據(jù)庫(kù),確定異常資源的關(guān)鍵信息。

標(biāo)簽信息生成子模塊,用于生成標(biāo)識(shí)異常資源的關(guān)鍵信息及異常資源的名稱的標(biāo)簽信息。

標(biāo)簽信息標(biāo)注子模塊,用于分別給每條告警信息標(biāo)注對(duì)應(yīng)的標(biāo)簽信息,得到至少兩個(gè)告警標(biāo)識(shí)。

在本發(fā)明實(shí)施例中,告警標(biāo)識(shí)除了包括異常資源的關(guān)鍵信息外,還包括異常資源的名稱,以方便后期對(duì)告警信息的查找及分析,方便運(yùn)維人員分析異常來(lái)源,提高發(fā)現(xiàn)異常來(lái)源的成功率。

可選的,本發(fā)明實(shí)施例的告警聚合系統(tǒng)還包括:

變更消息生成模塊,用于在異常資源對(duì)應(yīng)的關(guān)鍵信息和/或名稱發(fā)生變更時(shí),生成標(biāo)識(shí)變更的變更消息。

標(biāo)簽信息更新模塊,用于根據(jù)變更消息,更新告警信息上標(biāo)注的標(biāo)簽信息。

在本發(fā)明實(shí)施例中,通過(guò)變更消息,更新標(biāo)簽信息,保證了標(biāo)簽信息的正確性,從而提高了告警信息聚合的準(zhǔn)確度。

可選的,告警聚合模塊604,包括:

數(shù)量確定子模塊,用于分別獲取每組同一個(gè)分組中的告警信息的數(shù)量。

閾值判決子模塊,用于將數(shù)量大于或等于預(yù)設(shè)數(shù)目閾值的分組中的告警信息進(jìn)行聚合,得到聚合后的告警信息。

告警輸出子模塊,用于輸出數(shù)量小于預(yù)設(shè)數(shù)目閾值的分組中的告警信息及聚合后的告警信息。

在本發(fā)明實(shí)施例中,僅聚合告警信息數(shù)量大于預(yù)設(shè)數(shù)目閾值的分組,相比于聚合所有分組中的告警信息,能夠合理利用網(wǎng)絡(luò)資源,增加告警信息聚合的效率。

需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
富平县| 阿拉善盟| 阿拉善右旗| 永安市| 和平区| 雷州市| 云浮市| 云南省| 子长县| 讷河市| 亚东县| 巨野县| 晋中市| 重庆市| 靖安县| 青神县| 布拖县| 彭泽县| 安徽省| 长乐市| 霸州市| 灵川县| 襄汾县| 灌南县| 闸北区| 西城区| 桓台县| 宣恩县| 盐津县| 新密市| 高碑店市| 海晏县| 克拉玛依市| 南汇区| 连平县| 武穴市| 临城县| 巴彦县| 上高县| 肃南| 卓尼县|