本發(fā)明屬于日志異常檢測,涉及一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法。
背景技術(shù):
1、基于bert模型的日志異常檢測方法是目前日志異常檢測中較優(yōu)的一種方法,bert模型是語言分析transformer模型的改進模型。參考transformer模型對自然語言的處理,分別對日志文本中每個單詞進行編碼,并利用編碼器分析單詞之間的特征。在bert模型自監(jiān)督訓(xùn)練過程中,采用掩碼的方式,對隨機選取的單詞進行掩蓋,通過訓(xùn)練bert模型對被掩蓋單詞的預(yù)測能力。如果預(yù)測出的單詞與符合預(yù)期則認(rèn)為日志正常,否則認(rèn)為日志異常。通過掩碼預(yù)測可以訓(xùn)練bert模型對日志文本的理解能力。
2、由于日志文本的單詞間存在關(guān)聯(lián)性,而現(xiàn)有bert模型在學(xué)習(xí)日志文本時未能充分利用單詞間的關(guān)聯(lián)性,導(dǎo)致對模型對日志單詞的理解未能利用上下文信息。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對日志文本的特點,提供一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,分析日志文本中存在的高頻詞組和子序列,在高頻詞組和子序列的基礎(chǔ)上對日志文本掩碼時,采用混合策略,使得模型既能提取單個單詞的特征,又能提取高頻詞組和子序列的特征,從而提升bert模型對日志文本分析的性能。
2、本發(fā)明通過下述技術(shù)方案來實現(xiàn)。一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,包括以下步驟:
3、步驟1:采用日志解析器對日志數(shù)據(jù)庫中的每條日志文本進行統(tǒng)計分析,分析出日志文本中包含的日志模板,形成日志模板庫;
4、步驟2:將日志模板庫中所有的常量對應(yīng)的單詞組合提取出來形成常量單詞子序列庫;將所有變量對應(yīng)的單詞組合提取出來,形成變量單詞子序列庫;
5、步驟3:將常量和變量中的長單詞拆解,重新構(gòu)成單詞組合,更新常量單詞子序列庫和變量單詞子序列庫,構(gòu)建日志單詞庫;
6、步驟4:對常量單詞子序列庫和變量單詞子序列庫中的單詞子序列進行分詞處理,分析單詞子序列中包含的高頻詞組;選擇子序列,通過統(tǒng)計連續(xù)g個單詞出現(xiàn)的頻率,當(dāng)大于閾值時,將連續(xù)g個單詞構(gòu)成的詞組作為高頻詞組;
7、步驟5:基于單詞、高頻詞組與子序列對日志文本混合掩碼,得到掩碼后的單詞序列;
8、步驟6:基于掩碼后的單詞序列構(gòu)建transformer編碼器的輸入,進行bert模型自監(jiān)督訓(xùn)練。
9、具體地,日志模板庫,,為日志模板數(shù)量,為第個日志模板,,為變量/常量數(shù)量,一個日志模板中的一個常量包含固定數(shù)量的單詞組合,變量中包含單詞的長度不固定。
10、具體地,步驟2中,對于日志數(shù)據(jù)庫中每一條日志文本,與每一個日志模板匹配,按最長匹配原則匹配常量,常量之間的單詞視為變量,從而識別出日志文本中包含的常量和變量。
11、具體地,步驟3中,將常量單詞子序列庫和變量單詞子序列庫中所有單詞取出,形成日志單詞庫,為日志單詞庫的第1個單詞,為日志單詞庫的第個單詞,代表了日志文本庫中所有單詞的數(shù)量;
12、;
13、式中表示從子序列中取出不同的單詞、去掉相同的單詞。
14、具體地,步驟4中,建立常量單詞子序列庫和變量單詞子序列庫中每個子序列與高頻詞組的對應(yīng)關(guān)系,獲知每個子序列包含的高頻詞組。
15、具體地,步驟5中,從訓(xùn)練數(shù)據(jù)集中取一條日志文本數(shù)據(jù)與日志模板進行匹配,分析出日志文本中包含的常量單詞子序列和變量單詞子序列,并對長單詞進行拆解,得到子序列集合,該條日志文本數(shù)據(jù)包含p個子序列,代表第個子序列,,或,為常量單詞子序列庫,為變量單詞子序列庫。同時,日志文本數(shù)據(jù)也按單詞進行解析,得到單詞序列,該條日志文本數(shù)據(jù)順序包含個單詞,表示第個位置的單詞,,;
16、基于單詞、高頻詞組與子序列對日志文本混合掩碼方式過程如下:
17、步驟a:隨機選取位置();
18、步驟b:如果位置的單詞及其相鄰的單詞處在高頻詞組中,將位置的單詞所屬的高頻詞組作為待掩蓋單詞;
19、步驟c:如果位置的單詞及其相鄰的單詞不處在高頻詞組中,按50%的概率將位置的單詞作為待掩蓋單詞,另外50%的概率將位置的單詞所屬的子序列作為待掩蓋單詞;
20、步驟d:計算待掩蓋單詞數(shù)量mn,如果,則回到步驟a繼續(xù)隨機取出一個位置,如果,則待掩蓋單詞選取結(jié)束;
21、步驟e:針對選取的待掩蓋單詞,80%的概率直接用[mask]標(biāo)記替代原有單詞;10%的概率用隨機的單詞替換原有單詞;有10%的概率保持原有單詞不變;
22、步驟f:經(jīng)過混合掩碼后,一條日志文本數(shù)據(jù)的單詞序列有三種輸出、、,其中mn個單詞被[mask]標(biāo)記替代后的單詞序列,mn個單詞被隨機單詞替代后的單詞序列,mn個單詞保持原有單詞不變后的單詞序列;其中為第1個被[mask]標(biāo)記替代后的單詞,為第mn個被[mask]標(biāo)記替代后的單詞,為第1個被隨機單詞替代后的單詞,為第mn個被隨機單詞替代后的單詞。
23、進一步優(yōu)選,步驟6中,對混合掩碼后的輸出、、,構(gòu)建各單詞形成的詞嵌入矩陣,其中是日志數(shù)據(jù)庫中所有單詞形成的詞嵌入矩陣,是一個單詞的詞嵌入的維度,是日志數(shù)據(jù)庫中所有單詞的數(shù)量;構(gòu)建各單詞的位置編碼矩陣z,其中表示當(dāng)前日志文本各單詞形成的位置編碼矩陣,t表示當(dāng)前日志文本中單詞的數(shù)量,是一個單詞的位置編碼的維度,日志文本中的一個單詞表達(dá)為詞嵌入和位置編碼,[mask]標(biāo)記單詞的詞嵌入為、位置編碼,詞嵌入和位置編碼之和形成輸入表示,,,輸入表示集合作為bert模型中transformer編碼器的輸入。
24、進一步優(yōu)選,bert模型自監(jiān)督訓(xùn)練時,transformer編碼器作為輸入表示集合的特征提取模塊,的特征后得到特征圖,根據(jù)預(yù)測被掩蓋單詞的內(nèi)容。
25、進一步優(yōu)選,將transformer編碼器中自注意力機制替換為分組查詢注意力機制。
26、進一步優(yōu)選,在分組查詢注意力機制過程中,將查詢頭的數(shù)量設(shè)置為8,分組數(shù)量設(shè)置為4,每組查詢頭共享相同的輸入線性變換得到的關(guān)鍵字映射和值映射。
27、本發(fā)明通過隨機掩蓋輸入日志文本的單詞序列中的連續(xù)單詞的片段,訓(xùn)練bert模型預(yù)測被掩蓋的單詞,不僅增強了bert模型對日志結(jié)構(gòu)和語義的理解,還提高了bert模型捕捉單詞長距離依賴關(guān)系的能力。通過預(yù)測被掩蓋的單詞,bert模型能夠更好地理解日志文本的上下文信息,從而更準(zhǔn)確地識別潛在的異常模式。
1.一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,日志模板庫,,為日志模板數(shù)量,為第個日志模板,,為變量/常量數(shù)量,一個日志模板中的一個常量包含固定數(shù)量的單詞組合,變量中包含單詞的長度不固定。
3.根據(jù)權(quán)利要求1所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,步驟2中,對于日志數(shù)據(jù)庫中每一條日志文本,與每一個日志模板匹配,按最長匹配原則匹配常量,常量之間的字段視為變量,從而識別出日志文本中包含的常量和變量。
4.根據(jù)權(quán)利要求1所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,步驟3中,將常量單詞子序列庫和變量單詞子序列庫中所有單詞取出,形成日志單詞庫,為日志單詞庫的第1個單詞,為日志單詞庫的第個單詞,代表了日志文本庫中所有單詞的數(shù)量;
5.根據(jù)權(quán)利要求1所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,步驟4中,建立常量單詞子序列庫和變量單詞子序列庫中每個子序列與高頻詞組的對應(yīng)關(guān)系,獲知每個子序列包含的高頻詞組。
6.根據(jù)權(quán)利要求1所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,步驟5中,從訓(xùn)練數(shù)據(jù)集中取一條日志文本數(shù)據(jù)與日志模板進行匹配,分析出日志文本中包含的常量單詞子序列和變量單詞子序列,并對長單詞進行拆解,得到子序列集合,該條日志文本數(shù)據(jù)包含p個子序列,代表第個子序列,,或,為常量單詞子序列庫,為變量單詞子序列庫;同時,日志文本數(shù)據(jù)也按單詞進行解析,得到單詞序列,該條日志文本數(shù)據(jù)順序包含個單詞,表示第個位置的單詞,,;
7.根據(jù)權(quán)利要求6所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,步驟6中,對混合掩碼后的輸出、、,構(gòu)建各單詞形成的詞嵌入矩陣,其中是日志數(shù)據(jù)庫中所有單詞形成的詞嵌入矩陣,是一個單詞的詞嵌入的維度,是日志數(shù)據(jù)庫中所有單詞的數(shù)量;構(gòu)建各單詞的位置編碼矩陣z,其中表示當(dāng)前日志文本各單詞形成的位置編碼矩陣,t表示當(dāng)前日志文本中單詞的數(shù)量,是一個單詞的位置編碼的維度,日志文本中的一個單詞表達(dá)為詞嵌入和位置編碼,[mask]標(biāo)記單詞的詞嵌入為、位置編碼,詞嵌入和位置編碼之和形成輸入表示,,,輸入表示集合作為bert模型中transformer編碼器的輸入。
8.根據(jù)權(quán)利要求7所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,bert模型自監(jiān)督訓(xùn)練時,transformer編碼器作為輸入表示集合的特征提取模塊,的特征后得到特征圖,根據(jù)預(yù)測被掩蓋單詞的內(nèi)容。
9.根據(jù)權(quán)利要求7所述的一種日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法,其特征在于,將transformer編碼器中自注意力機制替換為分組注意力機制。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機指令,其特征在于,所述計算機指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-9任意一項所述的日志異常檢測語言模型自監(jiān)督訓(xùn)練中混合掩碼方法。