本發(fā)明涉及sg-cim模型檢索,具體涉及一種基于改進bert的sg-cim模型檢索方法和系統(tǒng)。
背景技術(shù):
1、sg-cim(state?grid?common?information?model,國家電網(wǎng)公共數(shù)據(jù)模型)是國家電網(wǎng)公司參考國際標(biāo)準(zhǔn),結(jié)合公司核心業(yè)務(wù)需求、在運系統(tǒng)數(shù)據(jù)字典等,采用“業(yè)務(wù)需求驅(qū)動自頂向下”和“基于現(xiàn)狀驅(qū)動自下向上”相結(jié)合模式,基于面向?qū)ο蠼<夹g(shù),構(gòu)建的企業(yè)級統(tǒng)一數(shù)據(jù)模型??梢酝ㄟ^sg-cim模型檢索所需業(yè)務(wù)相關(guān)信息。
2、目前,針對sg-cim模型的成果檢索基本都是通過輸入業(yè)務(wù)關(guān)鍵詞,定位包含這些業(yè)務(wù)關(guān)鍵詞的sg-cim模型成果,并根據(jù)相關(guān)性評分和排序?qū)⒆钕嚓P(guān)的sg-cim模型成果作為檢索結(jié)果。該過程由于缺乏語義分析能力,易返回大量不相關(guān)結(jié)果,同時,該過程忽略了業(yè)務(wù)之間的關(guān)聯(lián)性,造成檢索精度低,此外,現(xiàn)有的檢索方式難以應(yīng)對長文本或復(fù)雜描述的檢索需求。
技術(shù)實現(xiàn)思路
1、為了克服上述基于關(guān)鍵詞的sg-cim模型的信息檢索過程的檢索精度低及難以應(yīng)對長文本或復(fù)雜描述的檢索需求的問題,本發(fā)明提供一種基于改進bert的sg-cim模型檢索方法和系統(tǒng)。
2、一方面,本發(fā)明提供一種基于改進bert的sg-cim模型檢索方法,方法包括:
3、通過bert模型對輸入的針對sg-cim模型的檢索業(yè)務(wù)描述進行特征提取,得到所述檢索業(yè)務(wù)描述的檢索特征;
4、基于所述檢索特征與預(yù)置的各項針對sg-cim模型的模型成果的成果特征之間的相似度,篩選出與所述檢索業(yè)務(wù)描述匹配的模型成果作為檢索結(jié)果;
5、其中,所述特征提取過程中,若所述檢索業(yè)務(wù)描述中存在至少兩個詞屬于同一電力業(yè)務(wù)系統(tǒng),基于屬于同一電力業(yè)務(wù)系統(tǒng)的詞的情況進行自注意力處理。
6、可選地,所述通過bert模型對輸入的針對sg-cim模型的檢索業(yè)務(wù)描述進行特征提取,得到所述檢索業(yè)務(wù)描述的檢索特征,包括:
7、通過bert模型的詞嵌入層對所述檢索業(yè)務(wù)描述進行多維度的向量化表示,得到所述檢索業(yè)務(wù)描述對應(yīng)的檢索嵌入向量;
8、通過bert模型的編碼層對所述檢索嵌入向量進行編碼處理,得到檢索編碼向量;
9、通過bert模型的池化層對所述檢索編碼向量進行池化處理,得到所述檢索業(yè)務(wù)描述的檢索特征。
10、可選地,在對所述檢索業(yè)務(wù)描述進行多維度的向量化表示之前,所述方法還包括:
11、基于所述sg-cim模型的模型詞典,對所述檢索業(yè)務(wù)描述進行分詞,得到分詞結(jié)果,所述分詞結(jié)果的每個詞對應(yīng)一個詞基本單元;
12、所述通過bert模型的詞嵌入層對所述檢索業(yè)務(wù)描述進行多維度的向量化表示,得到所述檢索業(yè)務(wù)描述對應(yīng)的檢索嵌入向量,包括:
13、通過bert的詞嵌入層進行所述分詞結(jié)果對應(yīng)的詞基本單元的詞嵌入表示、句子嵌入表示和位置嵌入表示,對應(yīng)得到詞嵌入向量、句子嵌入向量和位置嵌入向量;
14、對所述詞嵌入向量、所述句子嵌入向量和所述位置嵌入向量進行基于歸一化的融合處理,得到所述檢索嵌入向量。
15、可選地,所述通過bert模型的編碼層對所述檢索嵌入向量進行編碼處理,得到檢索編碼向量,包括:
16、基于屬于同一電力業(yè)務(wù)系統(tǒng)的基本單元的情況進行自注意力處理,得到多頭注意力矩陣;
17、對所述多頭注意力矩陣進行殘差求和及歸一化,得到歸一化結(jié)果;
18、將所述歸一化結(jié)果通過所述編碼層的前饋神經(jīng)網(wǎng)絡(luò)處理后進行殘差求和及歸一化,得到所述檢索業(yè)務(wù)描述的整體特征表示和所述檢索業(yè)務(wù)描述中單個基本單元的特征表示,即所述檢索編碼向量。
19、可選地,所述基于屬于同一電力業(yè)務(wù)系統(tǒng)的基本單元的情況進行自注意力處理,得到多頭注意力矩陣,包括:
20、根據(jù)所述sg-cim模型的模型詞典確定所述檢索嵌入向量中屬于同一電力業(yè)務(wù)系統(tǒng)的基本單元的數(shù)量;所述模型詞典包括各電力業(yè)務(wù)系統(tǒng)的名詞和每個名詞所述電力業(yè)務(wù)系統(tǒng)的標(biāo)識;
21、基于屬于同一電力業(yè)務(wù)系統(tǒng)的基本單元的數(shù)量,確定膨脹因子;
22、基于所述膨脹因子對所述檢索嵌入向量中屬于同一電力業(yè)務(wù)系統(tǒng)的基本單元的鍵向量進行膨脹處理,得到新的鍵矩陣;
23、基于所述新的鍵矩陣進行自注意力處理,得到新的自注意力矩陣;
24、對所述編碼層的多個注意力模塊對應(yīng)的新的自注意力矩陣進行拼接,得到多頭注意力矩陣。
25、可選地,所述膨脹因子的計算公式為:
26、
27、其中,p(n)表示膨脹因子,n為屬于同一電力業(yè)務(wù)系統(tǒng)的基本單元的數(shù)量;
28、所述新的自注意力矩陣的表達式為:
29、
30、其中,i-attention為新的自注意力矩陣,q為查詢矩陣,kp的為基于膨脹因子進行膨脹處理后得到的新的鍵矩陣,v為值矩陣;dk表示新的鍵矩陣的維度,ssoftmax表示歸一化處理函數(shù),上標(biāo)t為矩陣轉(zhuǎn)置;
31、所述多頭注意力矩陣的表達式為:
32、multihead(q,k,v)=concat(head1,...,headi,...,headn)wo
33、headi=i-attention(qwiq,kwik,vwiv);
34、其中,multihead(q,k,v)為多頭注意力矩陣,i為編碼層的多頭注意力的注意力模塊編號,headi為編碼層的第i個注意力模塊的新的自注意力矩陣,headn為編碼層的第n個注意力模塊的新的自注意力矩陣,qwiq,kwik,vwiv分別為編碼層的第i個注意力模塊中的查詢矩陣、新的鍵矩陣、值矩陣的權(quán)重矩陣,wo為編碼層的輸出線性層的權(quán)重矩陣。
35、可選地,所述通過bert模型的池化層對所述檢索編碼向量進行池化處理,得到提取的所述檢索業(yè)務(wù)描述的檢索特征,包括:
36、基于所述整體特征表示和所述單個基本單元的特征表示之間的相似性確定注意力池化權(quán)重;
37、基于所述注意力池化權(quán)重進行各項整體特征表示的加權(quán)融合,得到所述檢索業(yè)務(wù)描述的檢索特征。
38、可選地,在基于所述檢索特征與預(yù)置的各項針對sg-cim模型的模型成果的成果特征之間的相似度,篩選出與所述檢索業(yè)務(wù)描述匹配的模型成果作為檢索結(jié)果之前,所述方法還包括:
39、基于白化標(biāo)準(zhǔn)化策略分別進行所述檢索特征和各項針對sg-cim模型的模型成果的成果特征的降維和標(biāo)準(zhǔn)化處理。
40、可選地,在通過bert模型對輸入的針對sg-cim模型的檢索業(yè)務(wù)描述進行特征提取,得到所述檢索業(yè)務(wù)描述的檢索特征之前,所述方法還包括:
41、通過bert模型對所述sg-cim模型的成果集進行特征提取,得到各項針對sg-cim模型的模型成果的成果特征。
42、另一方面,本發(fā)明還提供一種基于改進bert的sg-cim模型檢索系統(tǒng),所述系統(tǒng)包括:
43、特征提取模塊,用于通過bert模型對輸入的針對sg-cim模型的檢索業(yè)務(wù)描述進行特征提取,得到所述檢索業(yè)務(wù)描述的檢索特征;
44、匹配篩選模塊,用于基于所述檢索特征與預(yù)置的各項針對sg-cim模型的模型成果的成果特征之間的相似度,篩選出與所述檢索業(yè)務(wù)描述匹配的模型成果作為檢索結(jié)果;
45、其中,所述特征提取過程中,若所述檢索業(yè)務(wù)描述中存在至少兩個詞屬于同一電力業(yè)務(wù)系統(tǒng),基于屬于同一電力業(yè)務(wù)系統(tǒng)的詞的情況進行自注意力處理。
46、另一方面,本發(fā)明還提供一種電子設(shè)備,包括:至少一個處理器和存儲器;所述存儲器和處理器通過總線相連;
47、所述存儲器,用于存儲一個或多個程序;
48、當(dāng)所述一個或多個程序被所述至少一個處理器執(zhí)行時,實現(xiàn)上述中任意一項所述的基于改進bert的sg-cim模型檢索方法。
49、另一方面,本發(fā)明還提供一種可讀存儲介質(zhì),其上存有執(zhí)行程序,所述執(zhí)行程序被執(zhí)行時,實現(xiàn)上述中任意一項所述的基于改進bert的sg-cim模型檢索方法。
50、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
51、本發(fā)明提供一種基于改進bert的sg-cim模型檢索方法和系統(tǒng),一方面,通過bert模型對輸入的針對sg-cim模型的檢索業(yè)務(wù)描述進行特征提取,得到所述檢索業(yè)務(wù)描述的檢索特征;充分利用bert模型的深度雙向上下文理解能力,來生成捕獲上下文關(guān)系和深層語義的向量表示,克服了基于關(guān)鍵詞檢索技術(shù)缺乏語義理解的問題,提升檢索精度;同時可以滿足長文本和復(fù)雜檢索需求。另一方面,在特征提取過程中,若所述檢索業(yè)務(wù)描述中存在至少兩個詞屬于同一電力業(yè)務(wù)系統(tǒng),基于屬于同一電力業(yè)務(wù)系統(tǒng)的詞的情況進行自注意力處理,充分挖掘檢索描述中的業(yè)務(wù)相關(guān)性,有效提升sg-cim模型檢索特征的業(yè)務(wù)指向性,進而保證sg-cim模型檢索描述與模型成果之間的匹配精度,提高檢索精度和效率。