一種業(yè)務集中監(jiān)控方法及系統的制作方法
【專利摘要】本發(fā)明公開了一種業(yè)務集中監(jiān)控方法及系統,所述方法包括:采集業(yè)務系統的業(yè)務相關數據;根據預設的數據清洗規(guī)則對業(yè)務相關數據進行清洗,生成預定格式的監(jiān)控數據;分析監(jiān)控數據,判斷是否出現業(yè)務異常,如果是,則根據預設的異常處理策略確定與業(yè)務異常相匹配的異常處理流程并執(zhí)行與異常處理流程相對應的操作。本發(fā)明的業(yè)務集中監(jiān)控方法及系統,將業(yè)務系統的業(yè)務執(zhí)行環(huán)節(jié)與監(jiān)控重試反饋等環(huán)節(jié)進行解耦,能夠獨立地針對不同的業(yè)務異常情況進行監(jiān)控并進行異常處理操作,并可以針對不同數據來源進行不同的異常處理規(guī)則配置,實現業(yè)務運行的穩(wěn)定性并保證業(yè)務執(zhí)行環(huán)節(jié)的成功率。
【專利說明】
一種業(yè)務集中監(jiān)控方法及系統
技術領域
[0001]本發(fā)明涉及網絡監(jiān)控技術領域,特別涉及一種業(yè)務集中監(jiān)控方法及系統。
【背景技術】
[0002]業(yè)務或生產系統,例如視頻播放系統、電子商務系統等,除了能完成系統應有的業(yè)務功能之外,還需要有針對系統內部所有過程進行重試、監(jiān)控、報警、反饋的環(huán)節(jié)。針對失敗環(huán)節(jié)進行監(jiān)控,超過閾值報警;對失敗環(huán)節(jié)數據進行篩查展示反饋;針對不同的失敗環(huán)節(jié)進行最大努力的重試,保證比較高的成功率。目前,在業(yè)務系統中進行有限不可調控的簡單的重試,最終返回失敗結果;針對現有環(huán)節(jié)進行簡單監(jiān)控報警,很難做到全面的、全流程的監(jiān)控;重試模塊融合在生產系統中,過多的重試可能會影響正常生產,重試不夠,不能保證比較高的成功率,且不可控。而且生產與監(jiān)控部分融合在一個系統中,耦合性太高,可擴展性差,不可復用。
【發(fā)明內容】
[0003]有鑒于此,本發(fā)明的目的在于提出一種業(yè)務集中監(jiān)控方法及系統,實現針對不同的業(yè)務異常情況進行監(jiān)控和異常處理操作。
[0004]基于上述目的本發(fā)明提供的一種業(yè)務集中監(jiān)控方法,包括:采集業(yè)務系統的業(yè)務相關數據;根據預設的數據清洗規(guī)則對業(yè)務相關數據進行清洗,生成預定格式的監(jiān)控數據;分析所述監(jiān)控數據,判斷是否出現業(yè)務異常,如果是,則根據預設的異常處理策略確定與所述業(yè)務異常相匹配的異常處理流程并執(zhí)行與所述異常處理流程相對應的操作。
[0005]根據本發(fā)明的一個實施例,進一步的,所述采集業(yè)務系統的業(yè)務相關數據包括:基于設置的監(jiān)聽IP地址和監(jiān)聽端口建立套接字Socket連接;對于所述Socket連接啟動一個或多個監(jiān)聽線程,通過所述Socket連接接收所述業(yè)務系統發(fā)送的業(yè)務相關數據。
[0006]根據本發(fā)明的一個實施例,進一步的,所述采集業(yè)務系統的業(yè)務相關數據包括:監(jiān)聽設置的消息隊列并從所述消息隊列中獲取所述業(yè)務相關數據;其中,所述消息隊列用于存儲所述業(yè)務系統發(fā)送的業(yè)務相關數據。
[0007]根據本發(fā)明的一個實施例,進一步的,所述采集業(yè)務系統的業(yè)務相關數據包括:從所述業(yè)務系統的業(yè)務數據庫中提取所述業(yè)務相關數據。
[0008]根據本發(fā)明的一個實施例,進一步的,所述根據預設的數據清洗規(guī)則對所述業(yè)務相關數據進行清洗、生成預定格式的監(jiān)控數據包括:配置數據清洗規(guī)則文件,所述數據清洗規(guī)則文件中至少包括一條數據清洗規(guī)則;遍歷全部的數據清洗規(guī)則依次對所述業(yè)務相關數據進行篩選處理;將通過所述篩選處理的所述業(yè)務相關數據基于預定格式進行格式轉換,生成所述監(jiān)控數據;將所述監(jiān)控數據存儲在監(jiān)控數據庫中。
[0009]根據本發(fā)明的一個實施例,進一步的,所述分析所述監(jiān)控數據、判斷是否出現業(yè)務異常包括:從所述監(jiān)控數據中提取業(yè)務狀態(tài)信息,基于所述業(yè)務狀態(tài)信息判斷是否出現業(yè)務異常。
[0010]根據本發(fā)明的一個實施例,進一步的,所述根據預設的異常處理策略確定與所述業(yè)務異常相匹配的異常處理流程并執(zhí)行與所述異常處理流程相對應的操作包括:當判斷出現業(yè)務異常時,則從所述監(jiān)控數據中提取與此業(yè)務異常相關的業(yè)務節(jié)點信息和失敗原因碼,基于所述業(yè)務節(jié)點信息和失敗原因碼統計此業(yè)務異常發(fā)生的次數;將所述業(yè)務節(jié)點信息、業(yè)務狀態(tài)信息、失敗原因碼以及業(yè)務異常發(fā)生的次數輸入異常處理規(guī)則引擎進行規(guī)則匹配,確定異常處理流程和執(zhí)行的操作,其中,所述執(zhí)行的操作包括:重試、報警、反饋操作。
[0011]根據本發(fā)明的一個實施例,進一步的,所述確定異常處理流程和執(zhí)行的操作包括:所述規(guī)則包括:報警次數閾值;當業(yè)務異常的次數超過所述報警次數閾值時,則向發(fā)送報警?目息O
[0012]根據本發(fā)明的一個實施例,進一步的,所述確定異常處理流程和異常處理包括:所述規(guī)則包括:第一業(yè)務狀態(tài)、重傳原因碼、重傳次數閾值;當所述業(yè)務狀態(tài)信息與所述業(yè)務狀態(tài)匹配、所述失敗原因碼與所述重傳原因碼匹配并且出現此業(yè)務異常的次數未超過預設的重傳次數閾值時,則調用業(yè)務系統提供的接口進行重試處理。
[0013]根據本發(fā)明的一個實施例,進一步的,所述確定異常處理流程和異常處理包括:所述規(guī)則包括:第二業(yè)務狀態(tài)、反饋原因碼;當所述業(yè)務狀態(tài)信息與所述業(yè)務狀態(tài)匹配、所述失敗原因碼與所述反饋原因碼匹配時,則向設定的反饋接收人或業(yè)務系統發(fā)送反饋信息,其中,發(fā)送反饋信息的方式包括:郵件、短信。
[0014]根據本發(fā)明的一個實施例,進一步的,包括:通過配置管理界面配置異常處理規(guī)則引擎中的規(guī)則,并在所述配置管理界面上顯示信息,包括:異常業(yè)務信息、報警信息、重試信息、反饋信息。
[0015]—種業(yè)務集中監(jiān)控系統,包括:數據采集模塊,用于采集業(yè)務系統的業(yè)務相關數據;數據清洗模塊,用于根據預設的數據清洗規(guī)則對所述業(yè)務相關數據進行清洗,生成預定格式的監(jiān)控數據;分析適配模塊,用于分析所述監(jiān)控數據,判斷是否出現業(yè)務異常,如果是,則根據預設的異常處理策略確定與所述業(yè)務異常相匹配的異常處理流程;執(zhí)行操作單元,用于所述異常處理流程相對應的操作。
[0016]根據本發(fā)明的一個實施例,進一步的,所述數據采集模塊,用于基于設置的監(jiān)聽IP地址和監(jiān)聽端口建立套接字Socket連接;對于所述Socket連接啟動一個或多個監(jiān)聽線程,通過所述Socket連接接收所述業(yè)務系統發(fā)送的業(yè)務相關數據。
[0017]根據本發(fā)明的一個實施例,進一步的,所述數據采集模塊,用于監(jiān)聽設置的消息隊列并從所述消息隊列中獲取所述業(yè)務相關數據;其中,所述消息隊列用于存儲所述業(yè)務系統發(fā)送的業(yè)務相關數據。
[0018]根據本發(fā)明的一個實施例,進一步的,所述數據采集模塊,用于從所述業(yè)務系統的業(yè)務數據庫中提取所述業(yè)務相關數據。
[0019]根據本發(fā)明的一個實施例,進一步的,所述數據清洗模塊,用于配置數據清洗規(guī)則文件,所述數據清洗規(guī)則文件中至少包括一條數據清洗規(guī)則;遍歷全部的數據清洗規(guī)則依次對所述業(yè)務相關數據進行篩選處理;將通過所述篩選處理的所述業(yè)務相關數據基于預定格式進行格式轉換,生成所述監(jiān)控數據;將所述監(jiān)控數據存儲在監(jiān)控數據庫中。
[0020]根據本發(fā)明的一個實施例,進一步的,所述分析適配模塊,用于從所述監(jiān)控數據中提取業(yè)務狀態(tài)信息,基于所述業(yè)務狀態(tài)信息判斷是否出現業(yè)務異常。
[0021]根據本發(fā)明的一個實施例,進一步的,所述分析適配模塊,還用于當判斷出現業(yè)務異常時,從所述監(jiān)控數據中提取與此業(yè)務異常相關的業(yè)務節(jié)點信息和失敗原因碼,基于所述業(yè)務節(jié)點信息和失敗原因碼統計此業(yè)務異常發(fā)生的次數;將所述業(yè)務節(jié)點信息、業(yè)務狀態(tài)信息、失敗原因碼以及業(yè)務異常發(fā)生的次數輸入異常處理規(guī)則引擎進行規(guī)則匹配,確定異常處理流程和執(zhí)行的操作,其中,所述執(zhí)行的操作包括:重試、報警、反饋操作。
[0022]根據本發(fā)明的一個實施例,進一步的,所述規(guī)則包括:報警次數閾值;當所述分析適配模塊判斷業(yè)務異常的次數超過所述報警次數閾值時,確定執(zhí)行報警操作;所述執(zhí)行操作單元包括:報警模塊,用于發(fā)送報警信息。
[0023]根據本發(fā)明的一個實施例,進一步的,所述規(guī)則包括:第一業(yè)務狀態(tài)、重傳原因碼、重傳次數閾值;當所述分析適配模塊判斷所述業(yè)務狀態(tài)信息與所述業(yè)務狀態(tài)匹配、所述失敗原因碼與所述重傳原因碼匹配并且出現此業(yè)務異常的次數未超過預設的重傳次數閾值時,確定執(zhí)行重試操作;所述執(zhí)行操作單元包括:重試模塊,用于調用業(yè)務系統提供的接口進行重試處理。
[0024]根據本發(fā)明的一個實施例,進一步的,所述規(guī)則包括:第二業(yè)務狀態(tài)、反饋原因碼;當所述分析適配模塊判斷所述業(yè)務狀態(tài)信息與所述業(yè)務狀態(tài)匹配、所述失敗原因碼與所述反饋原因碼匹配時,確定執(zhí)行反饋操作;所述執(zhí)行操作單元包括:反饋模塊,用于向設定的反饋接收人或業(yè)務系統發(fā)送反饋信息,其中,發(fā)送反饋信息的方式包括:郵件、短信。
[0025]根據本發(fā)明的一個實施例,進一步的,配置管理模塊,用于通過配置管理界面配置異常處理規(guī)則引擎中的規(guī)則,并在所述配置管理界面上顯示信息,包括:異常業(yè)務信息、報警信息、重試信息、反饋信息。
[0026]本發(fā)明的業(yè)務集中監(jiān)控方法及系統,將業(yè)務系統的業(yè)務執(zhí)行環(huán)節(jié)與監(jiān)控重試反饋等環(huán)節(jié)進行解耦,能夠獨立地針對不同的業(yè)務異常情況進行監(jiān)控并進行異常處理操作,并可以針對不同數據來源進行不同的異常處理規(guī)則配置。
【附圖說明】
[0027]為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[0028]圖1為根據本發(fā)明的業(yè)務集中監(jiān)控方法的一個實施例的流程示意圖;
[0029]圖2為根據本發(fā)明的業(yè)務集中監(jiān)控系統的一個實施例的模塊示意圖。
【具體實施方式】
[0030]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
[0031]需要說明的是,本發(fā)明實施例中所有使用“第一”和“第二”的表述均是為了區(qū)分兩個相同名稱非相同的實體或者非相同的參量,可見“第一” “第二”僅為了表述的方便,不應理解為對本發(fā)明實施例的限定,后續(xù)實施例對此不再一一說明。
[0032]圖1為根據本發(fā)明的業(yè)務集中監(jiān)控方法的一個實施例的流程示意圖,如圖1所示:
[0033]步驟101,采集業(yè)務系統的業(yè)務相關數據,可以采集多個業(yè)務系統的業(yè)務相關數據,例如,視頻播放系統、電子商務系統等。
[0034]步驟102,根據預設的數據清洗規(guī)則對所述業(yè)務相關數據進行清洗,生成預定格式的監(jiān)控數據。
[0035]步驟103,分析所述監(jiān)控數據,判斷是否出現業(yè)務異常。
[0036]步驟104,如果否,則不進行處理。如果是,則根據預設的異常處理策略確定與所述業(yè)務異常相匹配的異常處理流程并執(zhí)行與所述異常處理流程相對應的操作,在操作執(zhí)行后,將執(zhí)行的信息存放在監(jiān)控數據庫中。
[0037]在一個實施例中,基于設置的監(jiān)聽IP地址和監(jiān)聽端口建立套接字Socket連接,對于所述Socket連接啟動一個或多個監(jiān)聽線程,通過所述Socket連接接收所述業(yè)務系統發(fā)送的業(yè)務相關數據。
[0038]例如,在配置文件中配置了業(yè)務系統中執(zhí)行業(yè)務的服務器的IP地址作為監(jiān)聽IP地址,監(jiān)聽IP地址也可以配置為執(zhí)行監(jiān)控功能的服務器的IP地址,在配置文件中可以配置監(jiān)聽端口,例如,監(jiān)聽端口可以為80端口。監(jiān)聽IP地址和監(jiān)聽端口可以為一對或多對。
[0039]基于監(jiān)聽IP地址和監(jiān)聽端口建立套接字Socket連接,例如,使用JAVA的socket類建立連接。對于Socket連接啟動一個或多個監(jiān)聽線程,通過建立的Socket連接接收業(yè)務系統發(fā)送的業(yè)務相關數據,可以實現單線程接收或多線程接收業(yè)務相關數據。
[0040]可以監(jiān)聽設置的消息隊列并從消息隊列中獲取業(yè)務相關數據;消息隊列用于存儲業(yè)務系統發(fā)送的業(yè)務相關數據。消息隊列可以為多種消息隊列,例如,配置JAVA消息隊列服務JMS,業(yè)務系統中執(zhí)行業(yè)務的服務器作為JMS的提供者,業(yè)務系統中執(zhí)行業(yè)務的服務器向消息隊列中發(fā)送業(yè)務相關數據,執(zhí)行業(yè)務集中監(jiān)控的服務器為JMS的消費者,從消息隊列中接收消息。
[0041]從業(yè)務系統的業(yè)務數據庫中提取業(yè)務相關數據,例如,間隔固定的時間周期從業(yè)務數據庫中提取業(yè)務相關數據,在下一次提取數據時提取在間隔時間周期內的增量數據。上述采集業(yè)務相關數據的方法可以根據需要進行配置,使用其中的一種或多種,并可以通過去重的方法保證獲取數據的唯一性。
[0042]在一個實施例中,業(yè)務相關數據為業(yè)務系統在執(zhí)行多個業(yè)務環(huán)節(jié)時產生的信息,包括業(yè)務日志、運行狀態(tài)、trace、異常信息、告警信息等等??梢愿鶕A設的數據清洗規(guī)則對業(yè)務相關數據進行清洗,刪除掉與監(jiān)控關聯不大的信息。
[0043]配置數據清洗規(guī)則文件,數據清洗規(guī)則文件中至少包括一條數據清洗規(guī)則。例如,設置的一條數據清洗規(guī)則為數據中必須有業(yè)務狀態(tài)信息,即業(yè)務執(zhí)行為成功或失敗狀態(tài),業(yè)務為正?;虍惓顟B(tài)。遍歷全部的數據清洗規(guī)則依次對業(yè)務相關數據進行篩選處理,將通過篩選處理的業(yè)務相關數據基于預定格式進行格式轉換,生成監(jiān)控數據,將監(jiān)控數據存儲在監(jiān)控數據庫中。監(jiān)控數據的格式可以根據具體的需要進行設置,能夠存儲在監(jiān)控數據庫中,監(jiān)控數據庫可以為oracle、mysql等數據庫。
[0044]從監(jiān)控數據中提取業(yè)務狀態(tài)信息,基于業(yè)務狀態(tài)信息判斷是否出現業(yè)務異常。例如,業(yè)務狀態(tài)信息為下載失敗、轉碼失敗等,則判斷出現了業(yè)務異常。當判斷出現業(yè)務異常時,則從監(jiān)控數據中提取與此業(yè)務異常相關的業(yè)務節(jié)點信息和失敗原因碼,基于業(yè)務節(jié)點信息和失敗原因碼統計此業(yè)務異常發(fā)生的次數。
[0045]業(yè)務節(jié)點可以為執(zhí)行業(yè)務的服務器的ID等,業(yè)務狀態(tài)可以為上載文件、下載文件、轉碼等,失敗原因碼標識出現失敗的原因,例如網絡故障為0001,格式不匹配為0002等??梢詮谋O(jiān)控數據庫中統計針對同一服務器的ID和失敗原因碼統計此業(yè)務異常發(fā)生的次數。
[0046]將業(yè)務節(jié)點信息、業(yè)務狀態(tài)信息、失敗原因碼以及業(yè)務異常發(fā)生的次數輸入異常處理規(guī)則引擎進行規(guī)則匹配,確定異常處理流程和執(zhí)行的操作,執(zhí)行的操作包括:重試、報警、反饋等操作,重試、報警、反饋等操作可以進行隨意組合完成不同的異常處理流程。
[0047]異常處理規(guī)則引擎可以是一種嵌入在應用程序中的組件,實現了將業(yè)務決策從應用程序代碼中分離出來,并使用預定義的語義模塊編寫業(yè)務決策。接受數據輸入,解釋業(yè)務規(guī)則,并根據業(yè)務規(guī)則做出業(yè)務決策。
[0048]在多個規(guī)則配置好之后,只需要將相關的數據輸入即可完成異常分析并制訂異常處理的流程。可以從經過清洗后的數據中提取相關的數據輸入到異常處理規(guī)則引擎,也可以從監(jiān)控數據庫中提取相關的數據輸入異常處理規(guī)則引擎。
[0049]例如,異常處理規(guī)則引擎中的針對報警的規(guī)則包括:報警次數閾值。當業(yè)務異常的次數超過報警次數閾值時,則向發(fā)送報警信息。例如,報警次數閾值為一小時內某一節(jié)點上傳失敗數量為100,當異常處理規(guī)則引擎判斷在一小時內此節(jié)點上傳失敗數量大于100時,則進行報警。
[0050]異常處理規(guī)則引擎中的針對重傳的規(guī)則包括:第一業(yè)務狀態(tài)、重傳原因碼、重傳次數閾值等。當業(yè)務狀態(tài)信息與業(yè)務狀態(tài)匹配、失敗原因碼與重傳原因碼匹配并且出現此業(yè)務異常的次數未超過預設的重傳次數閾值時,則調用業(yè)務系統提供的接口進行重試處理。[0051 ] 例如,針對重傳的規(guī)則為:第一業(yè)務狀態(tài)=40,重傳原因碼=1002010056,重傳次數閾值=3。當異常處理規(guī)則引擎判斷接收某一節(jié)點的業(yè)務狀態(tài)信息為40,即下載失敗;失敗原因碼= 1002010056,從監(jiān)控數據庫中統計此節(jié)點已經進行的重傳次數為3,則不進行重傳,并執(zhí)行反饋操作。
[0052]反饋是指將監(jiān)控結果反饋給目標對象進行處理,目標對象可以是工作人員或其它系統。通過策略配置實現不同業(yè)務場景下的信息反饋,如由于片源不規(guī)范導致的轉碼失敗視頻,反饋給上傳人員。
[0053]異常處理規(guī)則引擎中的針對反饋的規(guī)則包括:業(yè)務狀態(tài)、反饋原因碼。當業(yè)務狀態(tài)信息與業(yè)務狀態(tài)匹配、失敗原因碼與反饋原因碼匹配時,則向設定的反饋接收人或業(yè)務系統發(fā)送反饋信息,發(fā)送反饋信息的方式包括:郵件、短信等。例如,當異常處理規(guī)則引擎判斷某一節(jié)點的業(yè)務狀態(tài)為40,下載失敗,而失敗原因碼為1043010056,即片源不規(guī)范,則通過郵件將異常信息反饋給相關的業(yè)務人員。
[0054]可以通過配置管理界面配置異常處理規(guī)則引擎中的規(guī)則,并在配置管理界面上顯示信息,包括:異常業(yè)務信息、報警信息、重試信息、反饋等信息。
[0055]上述實施例中的業(yè)務集中監(jiān)控方法,將業(yè)務系統的業(yè)務執(zhí)行環(huán)節(jié)與監(jiān)控重試反饋等環(huán)節(jié)進行解耦,能夠獨立地針對不同的業(yè)務異常情況進行監(jiān)控并進行異常處理操作,可以保證業(yè)務執(zhí)行環(huán)節(jié)的成功率,并且不影響正常的業(yè)務執(zhí)行環(huán)節(jié),可實現反饋進行友好提醒,針對不同數據來源進行不同的異常處理規(guī)則配置,對突發(fā)異常做到快速反應,實現業(yè)務運行的穩(wěn)定性。
[0056]在一個實施例中,本發(fā)明提供一種業(yè)務集中監(jiān)控系統。如圖2所示,數據采集模塊21采集業(yè)務系統的業(yè)務相關數據。數據清洗模塊22根據預設的數據清洗規(guī)則對業(yè)務相關數據進行清洗,生成預定格式的監(jiān)控數據。分析適配模塊23分析監(jiān)控數據,判斷是否出現業(yè)務異常,如果是,則根據預設的異常處理策略確定與業(yè)務異常相匹配的異常處理流程。執(zhí)行操作單元24異常處理流程相對應的操作。
[0057]數據采集模塊21可以基于設置的監(jiān)聽IP地址和監(jiān)聽端口建立套接字Socket連接。對于Socket連接啟動一個或多個監(jiān)聽線程,通過Socket連接接收業(yè)務系統發(fā)送的業(yè)務相關數據。數據采集模塊21可以監(jiān)聽設置的消息隊列并從消息隊列中獲取業(yè)務相關數據;其中,消息隊列用于存儲業(yè)務系統發(fā)送的業(yè)務相關數據。數據采集模塊21可以從業(yè)務系統的業(yè)務數據庫中提取業(yè)務相關數據。
[0058]數據清洗模塊22配置數據清洗規(guī)則文件,數據清洗規(guī)則文件中至少包括一條數據清洗規(guī)則,遍歷全部的數據清洗規(guī)則依次對業(yè)務相關數據進行篩選處理。數據清洗模塊22將通過篩選處理的業(yè)務相關數據基于預定格式進行格式轉換,生成監(jiān)控數據,將監(jiān)控數據存儲在監(jiān)控數據庫25中。
[0059]在一個實施例中,分析適配模塊23從監(jiān)控數據中提取業(yè)務狀態(tài)信息,基于業(yè)務狀態(tài)信息判斷是否出現業(yè)務異常。當判斷出現業(yè)務異常時,分析適配模塊23從監(jiān)控數據中提取與此業(yè)務異常相關的業(yè)務節(jié)點信息和失敗原因碼,基于業(yè)務節(jié)點信息和失敗原因碼統計此業(yè)務異常發(fā)生的次數。
[0060]分析適配模塊23將業(yè)務節(jié)點信息、業(yè)務狀態(tài)信息、失敗原因碼以及業(yè)務異常發(fā)生的次數輸入異常處理規(guī)則引擎進行規(guī)則匹配,確定異常處理流程和執(zhí)行的操作,執(zhí)行的操作包括:重試、報警、反饋等操作。
[0061 ]異常處理規(guī)則引擎中的規(guī)則包括:報警次數閾值。當分析適配模塊23判斷業(yè)務異常的次數超過報警次數閾值時,確定執(zhí)行報警操作。執(zhí)行操作單元24包括:報警模塊241,報警模塊241發(fā)送報警信息。
[0062]異常處理規(guī)則引擎中的規(guī)則包括:第一業(yè)務狀態(tài)、重傳原因碼、重傳次數閾值等。當分析適配模塊23判斷業(yè)務狀態(tài)信息與第一業(yè)務狀態(tài)匹配、失敗原因碼與重傳原因碼匹配并且出現此業(yè)務異常的次數未超過預設的重傳次數閾值時,確定執(zhí)行重試操作。執(zhí)行操作單元24包括:重試模塊242,重試模塊242調用業(yè)務系統提供的接口進行重試處理。
[0063]異常處理規(guī)則引擎中的規(guī)則包括:第二業(yè)務狀態(tài)、反饋原因碼等;當分析適配模塊23判斷業(yè)務狀態(tài)信息與第二業(yè)務狀態(tài)匹配、失敗原因碼與反饋原因碼匹配時,確定執(zhí)行反饋操作。執(zhí)行操作單元24包括:反饋模塊243,反饋模塊243向設定的反饋接收人或業(yè)務系統發(fā)送反饋信息,發(fā)送反饋信息的方式包括:郵件、短信等。
[0064]配置管理模塊26通過配置管理界面27配置異常處理規(guī)則引擎中的規(guī)則,并在配置管理界面27上顯示信息,包括:異常業(yè)務信息、報警信息、重試信息、反饋信息等。
[0065]上述實施例提供的業(yè)務集中監(jiān)控方法及系統,將業(yè)務系統的業(yè)務執(zhí)行環(huán)節(jié)與監(jiān)控重試反饋等環(huán)節(jié)進行解耦,能夠獨立地針對不同的業(yè)務異常情況進行監(jiān)控并進行異常處理操作,并可以針對不同數據來源進行不同的異常處理規(guī)則配置,實現業(yè)務運行的穩(wěn)定性并保證業(yè)務執(zhí)行環(huán)節(jié)的成功率。
[0066]所屬領域的普通技術人員應當理解:以上任何實施例的討論僅為示例性的,并非旨在暗示本公開的范圍(包括權利要求)被限于這些例子;在本發(fā)明的思路下,以上實施例或者不同實施例中的技術特征之間也可以進行組合,步驟可以以任意順序實現,并存在如上所述的本發(fā)明的不同方面的許多其它變化,為了簡明它們沒有在細節(jié)中提供。
[0067]另外,為簡化說明和討論,并且為了不會使本發(fā)明難以理解,在所提供的附圖中可以示出或可以不示出與集成電路(IC)芯片和其它部件的公知的電源/接地連接。此外,可以以框圖的形式示出裝置,以便避免使本發(fā)明難以理解,并且這也考慮了以下事實,即關于這些框圖裝置的實施方式的細節(jié)是高度取決于將要實施本發(fā)明的平臺的(即,這些細節(jié)應當完全處于本領域技術人員的理解范圍內)。在闡述了具體細節(jié)(例如,電路)以描述本發(fā)明的示例性實施例的情況下,對本領域技術人員來說顯而易見的是,可以在沒有這些具體細節(jié)的情況下或者這些具體細節(jié)有變化的情況下實施本發(fā)明。因此,這些描述應被認為是說明性的而不是限制性的。
[0068]盡管已經結合了本發(fā)明的具體實施例對本發(fā)明進行了描述,但是根據前面的描述,這些實施例的很多替換、修改和變型對本領域普通技術人員來說將是顯而易見的。例如,其它存儲器架構(例如,動態(tài)RAM(DRAM))可以使用所討論的實施例。
[0069]本發(fā)明的實施例旨在涵蓋落入所附權利要求的寬泛范圍之內的所有這樣的替換、修改和變型。因此,凡在本發(fā)明的精神和原則之內,所做的任何省略、修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1.一種業(yè)務集中監(jiān)控方法,其特征在于,包括: 采集業(yè)務系統的業(yè)務相關數據; 根據預設的數據清洗規(guī)則對所述業(yè)務相關數據進行清洗,生成預定格式的監(jiān)控數據;分析所述監(jiān)控數據,判斷是否出現業(yè)務異常,如果是,則根據預設的異常處理策略確定與所述業(yè)務異常相匹配的異常處理流程并執(zhí)行與所述異常處理流程相對應的操作。2.根據權利要求1所述的方法,其特征在于,所述采集業(yè)務系統的業(yè)務相關數據包括: 基于設置的監(jiān)聽IP地址和監(jiān)聽端口建立套接字Socket連接; 對于所述Socket連接啟動一個或多個監(jiān)聽線程,通過所述Socket連接接收所述業(yè)務系統發(fā)送的業(yè)務相關數據。3.根據權利要求1所述的方法,其特征在于,所述采集業(yè)務系統的業(yè)務相關數據包括: 監(jiān)聽設置的消息隊列并從所述消息隊列中獲取所述業(yè)務相關數據; 其中,所述消息隊列用于存儲所述業(yè)務系統發(fā)送的業(yè)務相關數據。4.根據權利要求1所述的方法,其特征在于,所述采集業(yè)務系統的業(yè)務相關數據包括: 從所述業(yè)務系統的業(yè)務數據庫中提取所述業(yè)務相關數據。5.根據權利要求1所述的方法,其特征在于,所述根據預設的數據清洗規(guī)則對所述業(yè)務相關數據進行清洗、生成預定格式的監(jiān)控數據包括: 配置數據清洗規(guī)則文件,所述數據清洗規(guī)則文件中至少包括一條數據清洗規(guī)則; 遍歷全部的數據清洗規(guī)則依次對所述業(yè)務相關數據進行篩選處理; 將通過所述篩選處理的所述業(yè)務相關數據基于預定格式進行格式轉換,生成所述監(jiān)控數據; 將所述監(jiān)控數據存儲在監(jiān)控數據庫中。6.根據權利要求5所述的方法,其特征在于,所述分析所述監(jiān)控數據、判斷是否出現業(yè)務異常包括:從所述監(jiān)控數據中提取業(yè)務狀態(tài)信息,基于所述業(yè)務狀態(tài)信息判斷是否出現業(yè)務異常。7.根據權利要求6所述的方法,其特征在于,所述根據預設的異常處理策略確定與所述業(yè)務異常相匹配的異常處理流程并執(zhí)行與所述異常處理流程相對應的操作包括: 當判斷出現業(yè)務異常時,則從所述監(jiān)控數據中提取與此業(yè)務異常相關的業(yè)務節(jié)點信息和失敗原因碼,基于所述業(yè)務節(jié)點信息和失敗原因碼統計此業(yè)務異常發(fā)生的次數; 將所述業(yè)務節(jié)點信息、業(yè)務狀態(tài)信息、失敗原因碼以及業(yè)務異常發(fā)生的次數輸入異常處理規(guī)則引擎進行規(guī)則匹配,確定異常處理流程和執(zhí)行的操作,其中,所述執(zhí)行的操作包括:重試、報警、反饋操作。8.根據權利要求7所述的方法,其特征在于,所述確定異常處理流程和執(zhí)行的操作包括:所述規(guī)則包括:報警次數閾值;當業(yè)務異常的次數超過所述報警次數閾值時,則向發(fā)送報警信息。9.根據權利要求8所述的方法,其特征在于,所述確定異常處理流程和異常處理包括: 所述規(guī)則包括:第一業(yè)務狀態(tài)、重傳原因碼、重傳次數閾值;當所述業(yè)務狀態(tài)信息與所述第一業(yè)務狀態(tài)匹配、所述失敗原因碼與所述重傳原因碼匹配并且出現此業(yè)務異常的次數未超過預設的重傳次數閾值時,則調用業(yè)務系統提供的接口進行重試處理。10.根據權利要求9所述的方法,其特征在于,所述確定異常處理流程和異常處理包括: 所述規(guī)則包括:第二業(yè)務狀態(tài)、反饋原因碼; 當所述業(yè)務狀態(tài)信息與所述第二業(yè)務狀態(tài)匹配、所述失敗原因碼與所述反饋原因碼匹配時,則向設定的反饋接收人或業(yè)務系統發(fā)送反饋信息,其中,發(fā)送反饋信息的方式包括:郵件、短ig。11.根據權利要求10所述的方法,其特征在于,包括: 通過配置管理界面配置異常處理規(guī)則引擎中的規(guī)則,并在所述配置管理界面上顯示信息,包括:異常業(yè)務信息、報警信息、重試信息、反饋信息。12.一種業(yè)務集中監(jiān)控系統,其特征在于,包括: 數據采集模塊,用于采集業(yè)務系統的業(yè)務相關數據; 數據清洗模塊,用于根據預設的數據清洗規(guī)則對所述業(yè)務相關數據進行清洗,生成預定格式的監(jiān)控數據; 分析適配模塊,用于分析所述監(jiān)控數據,判斷是否出現業(yè)務異常,如果是,則根據預設的異常處理策略確定與所述業(yè)務異常相匹配的異常處理流程; 執(zhí)行操作單元,用于所述異常處理流程相對應的操作。13.根據權利要求12所述的系統,其特征在于: 所述數據采集模塊,用于基于設置的監(jiān)聽IP地址和監(jiān)聽端口建立套接字Socket連接;對于所述Socket連接啟動一個或多個監(jiān)聽線程,通過所述Socket連接接收所述業(yè)務系統發(fā)送的業(yè)務相關數據。14.根據權利要求12所述的系統,其特征在于: 所述數據采集模塊,用于監(jiān)聽設置的消息隊列并從所述消息隊列中獲取所述業(yè)務相關數據;其中,所述消息隊列用于存儲所述業(yè)務系統發(fā)送的業(yè)務相關數據。15.根據權利要求12所述的系統,其特征在于: 所述數據采集模塊,用于從所述業(yè)務系統的業(yè)務數據庫中提取所述業(yè)務相關數據。16.根據權利要求12所述的系統,其特征在于: 所述數據清洗模塊,用于配置數據清洗規(guī)則文件,所述數據清洗規(guī)則文件中至少包括一條數據清洗規(guī)則;遍歷全部的數據清洗規(guī)則依次對所述業(yè)務相關數據進行篩選處理;將通過所述篩選處理的所述業(yè)務相關數據基于預定格式進行格式轉換,生成所述監(jiān)控數據;將所述監(jiān)控數據存儲在監(jiān)控數據庫中。17.根據權利要求16所述的系統,其特征在于: 所述分析適配模塊,用于從所述監(jiān)控數據中提取業(yè)務狀態(tài)信息,基于所述業(yè)務狀態(tài)信息判斷是否出現業(yè)務異常。18.根據權利要求17所述的系統,其特征在于: 所述分析適配模塊,還用于當判斷出現業(yè)務異常時,從所述監(jiān)控數據中提取與此業(yè)務異常相關的業(yè)務節(jié)點信息和失敗原因碼,基于所述業(yè)務節(jié)點信息和失敗原因碼統計此業(yè)務異常發(fā)生的次數;將所述業(yè)務節(jié)點信息、業(yè)務狀態(tài)信息、失敗原因碼以及業(yè)務異常發(fā)生的次數輸入異常處理規(guī)則引擎進行規(guī)則匹配,確定異常處理流程和執(zhí)行的操作,其中,所述執(zhí)行的操作包括:重試、報警、反饋操作。19.根據權利要求18所述的系統,其特征在于: 所述規(guī)則包括:報警次數閾值; 當所述分析適配模塊判斷業(yè)務異常的次數超過所述報警次數閾值時,確定執(zhí)行報警操作; 所述執(zhí)行操作單元包括: 報警模塊,用于發(fā)送報警信息。20.根據權利要求19所述的系統,其特征在于: 所述規(guī)則包括:第一業(yè)務狀態(tài)、重傳原因碼、重傳次數閾值; 當所述分析適配模塊判斷所述業(yè)務狀態(tài)信息與所述第一業(yè)務狀態(tài)匹配、所述失敗原因碼與所述重傳原因碼匹配并且出現此業(yè)務異常的次數未超過預設的重傳次數閾值時,確定執(zhí)行重試操作; 所述執(zhí)行操作單元包括: 重試模塊,用于調用業(yè)務系統提供的接口進行重試處理。21.根據權利要求20所述的方法,其特征在于: 所述規(guī)則包括:第二業(yè)務狀態(tài)、反饋原因碼; 當所述分析適配模塊判斷所述業(yè)務狀態(tài)信息與所述業(yè)務狀態(tài)匹配、所述失敗原因碼與所述反饋原因碼匹配時,確定執(zhí)行反饋操作; 所述執(zhí)行操作單元包括: 反饋模塊,用于向設定的反饋接收人或業(yè)務系統發(fā)送反饋信息,其中,發(fā)送反饋信息的方式包括:郵件、短信。22.根據權利要求21所述的系統,其特征在于,包括: 配置管理模塊,用于通過配置管理界面配置異常處理規(guī)則引擎中的規(guī)則,并在所述配置管理界面上顯示信息,包括:異常業(yè)務信息、報警信息、重試信息、反饋信息。
【文檔編號】H04L12/26GK105847083SQ201610166670
【公開日】2016年8月10日
【申請日】2016年3月22日
【發(fā)明人】楊佳浩, 鮑大磊, 王孝慶
【申請人】樂視云計算有限公司