本技術(shù)涉及自然語(yǔ)言處理領(lǐng)域,具體而言,涉及一種公文信息抽取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。
背景技術(shù):
1、公文,即公務(wù)文件,是指政府機(jī)關(guān)、企事業(yè)單位、社會(huì)團(tuán)體等在行政管理活動(dòng)或日常工作中,為了傳達(dá)決策、指示、通知、報(bào)告、請(qǐng)示、批復(fù)等目的而形成的正式文件。而隨著業(yè)務(wù)的持續(xù)擴(kuò)展,單位內(nèi)累積的公文數(shù)量急劇增加,種類和內(nèi)容也趨向多樣化和復(fù)雜化。目前,傳統(tǒng)的電子文檔管理方式已顯不足,其整理與分類工作完全依賴人工操作,而文檔的標(biāo)簽分類又受個(gè)人主觀判斷影響較大,這不僅降低了查詢效率,也容易造成錯(cuò)誤。在這種形勢(shì)下,引入人工智能技術(shù)以提升單位公文管理水平,實(shí)現(xiàn)對(duì)公文關(guān)鍵要素的自動(dòng)提取,構(gòu)建起系統(tǒng)化的公文關(guān)系和網(wǎng)絡(luò)流轉(zhuǎn)脈絡(luò),顯得尤為迫切和重要。通過(guò)智能化管理,不僅能提高工作效率,還能確保公文管理的準(zhǔn)確性和規(guī)范性,從而促進(jìn)單位內(nèi)部信息資源的有效利用和知識(shí)傳承。
2、需要說(shuō)明的是,公文要素抽取包括了文檔解析和要素抽取兩個(gè)主要環(huán)節(jié),在文檔解析階段主要是對(duì)不同類型、不同格式的公文進(jìn)行全文內(nèi)容的識(shí)別。在要素抽取階段,目前主要是將問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,通過(guò)深度學(xué)習(xí)技術(shù)對(duì)文本進(jìn)行語(yǔ)義表征能更好地獲得語(yǔ)義信息,結(jié)合上下文特征對(duì)文本中的每個(gè)詞進(jìn)行多標(biāo)簽分類,預(yù)測(cè)所屬要素的類別以及位置。然而,目前基于bert衍生模型的抽取方法,存在準(zhǔn)確率較低以及信息缺失的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)中的至少一個(gè)不足,本技術(shù)提供一種公文信息抽取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備,具體包括:
2、第一方面,本技術(shù)提供一種公文信息抽取方法,所述方法包括:
3、獲取待處理公文;
4、通過(guò)預(yù)先訓(xùn)練的要素抽取模型對(duì)所述待處理公文進(jìn)行處理,得到所述待處理公文中的公文要素以及與所述公文要素對(duì)應(yīng)的公文段落;
5、根據(jù)所述公文要素以及所述公文要素對(duì)應(yīng)的公文段落,生成用于指示預(yù)設(shè)大語(yǔ)言模型對(duì)所述公文段落進(jìn)行優(yōu)化的提示詞;
6、將所述提示詞發(fā)送給所述預(yù)設(shè)大語(yǔ)言模型進(jìn)行處理,得到優(yōu)化后的公文段落。
7、結(jié)合第一方面的可選實(shí)施方式,所述根據(jù)所述公文要素以及所述公文要素對(duì)應(yīng)的公文段落,生成用于指示預(yù)設(shè)大語(yǔ)言模型對(duì)所述公文段落進(jìn)行優(yōu)化的提示詞,包括:
8、獲取預(yù)選編寫的提示詞模板;
9、將所述公文要素以及所述公文要素對(duì)應(yīng)的公文段落分別填充到所述提示詞模板中的預(yù)留位置,得到所述提示詞。
10、結(jié)合第一方面的可選實(shí)施方式,所述方法還包括所述要素抽取模型的訓(xùn)練方法,所述訓(xùn)練方法包括:
11、獲取公文樣本以及所述公文樣本的訓(xùn)練標(biāo)簽,所述訓(xùn)練標(biāo)簽包括所述公文樣本中的樣本公文要素以及與所述樣本公文要素應(yīng)的樣本公文段落;
12、將所述公文樣本輸入待訓(xùn)練模型進(jìn)行處理,得到所述樣本公文要素的第一預(yù)測(cè)結(jié)果以及與所述樣本公文段落的第二預(yù)測(cè)結(jié)果;
13、根據(jù)所述樣本公文要素的第一預(yù)測(cè)結(jié)果,得到所述待訓(xùn)練模型的第一模型損失;
14、根據(jù)所述樣本公文段落的第二預(yù)測(cè)結(jié)果,得到所述待訓(xùn)練模型的第二模型損失;
15、根據(jù)所述第一模型損失與所述第二模型損失,得到所述待訓(xùn)練模型的綜合損失;
16、若所述待訓(xùn)練模型未滿足預(yù)設(shè)收斂條件,則根據(jù)所述綜合損失更新所述待訓(xùn)練模型,并返回所述將所述公文樣本輸入待訓(xùn)練模型進(jìn)行處理,得到所述樣本公文要素的第一預(yù)測(cè)結(jié)果以及與所述樣本公文段落的第二預(yù)測(cè)結(jié)果的步驟執(zhí)行,直至滿足所述預(yù)設(shè)收斂條件后,得到所述要素抽取模型。
17、結(jié)合第一方面的可選實(shí)施方式,所述根據(jù)所述第一模型損失與所述第二模型損失,得到所述待訓(xùn)練模型的綜合損失,包括:
18、根據(jù)所述第一模型損失與所述第二模型損失各自的權(quán)重進(jìn)行加權(quán),得到所述待訓(xùn)練模型的綜合損失。
19、結(jié)合第一方面的可選實(shí)施方式,所述第一模型損失的權(quán)重隨著迭代次數(shù)的增加而降低,所述第二模型損失的權(quán)重隨著迭代次數(shù)的增加而增加。
20、結(jié)合第一方面的可選實(shí)施方式,所述第一模型損失的權(quán)重α1與所述第二模型損失的權(quán)重α2各自的表達(dá)式為:
21、
22、式中,step表示當(dāng)前的迭代次數(shù),total_step表示總迭代次數(shù)。
23、結(jié)合第一方面的可選實(shí)施方式,所述樣本公文段落包括文本內(nèi)容、表格內(nèi)容以及圖像內(nèi)容中的至少一種。
24、第二方面,本技術(shù)還提供一種公文信息抽取裝置,所述裝置包括:
25、公文獲取模塊,用于獲取待處理公文;
26、信息抽取模塊,用于通過(guò)預(yù)先訓(xùn)練的要素抽取模型對(duì)所述待處理公文進(jìn)行處理,得到所述待處理公文中的公文要素以及與所述公文要素對(duì)應(yīng)的公文段落;
27、信息優(yōu)化模塊,用于根據(jù)所述公文要素以及所述公文要素對(duì)應(yīng)的公文段落,生成用于指示預(yù)設(shè)大語(yǔ)言模型對(duì)所述公文段落進(jìn)行優(yōu)化的提示詞;將所述提示詞發(fā)送給所述預(yù)設(shè)大語(yǔ)言模型進(jìn)行處理,得到優(yōu)化后的公文段落。
28、結(jié)合第二方面的可選實(shí)施方式,所述信息優(yōu)化模塊還具體用于:
29、獲取預(yù)選編寫的提示詞模板;
30、將所述公文要素以及所述公文要素對(duì)應(yīng)的公文段落分別填充到所述提示詞模板中的預(yù)留位置,得到所述提示詞。
31、結(jié)合第二方面的可選實(shí)施方式,所述裝置還包括,模型訓(xùn)練模塊,所述模型訓(xùn)練模塊用于:
32、獲取公文樣本以及所述公文樣本的訓(xùn)練標(biāo)簽,所述訓(xùn)練標(biāo)簽包括所述公文樣本中的樣本公文要素以及與所述樣本公文要素應(yīng)的樣本公文段落;
33、將所述公文樣本輸入待訓(xùn)練模型進(jìn)行處理,得到所述樣本公文要素的第一預(yù)測(cè)結(jié)果以及與所述樣本公文段落的第二預(yù)測(cè)結(jié)果;
34、根據(jù)所述樣本公文要素的第一預(yù)測(cè)結(jié)果,得到與所述待訓(xùn)練模型的第一模型損失;
35、根據(jù)所述樣本公文段落的第二預(yù)測(cè)結(jié)果,得到以及待訓(xùn)練模型的第二模型損失;
36、根據(jù)所述第一模型損失與所述第二模型損失,得到所述待訓(xùn)練模型的綜合損失;
37、若所述待訓(xùn)練模型未滿足預(yù)設(shè)收斂條件,則根據(jù)所述綜合損失更新所述待訓(xùn)練模型,并返回所述將所述公文樣本輸入待訓(xùn)練模型進(jìn)行處理,得到所述樣本公文要素的第一預(yù)測(cè)結(jié)果以及與所述樣本公文段落的第二預(yù)測(cè)結(jié)果的步驟執(zhí)行,直至滿足所述預(yù)設(shè)收斂條件后,得到所述要素抽取模型。
38、結(jié)合第二方面的可選實(shí)施方式,所述模型訓(xùn)練模塊還具體用于:
39、根據(jù)所述第一模型損失與所述第二模型損失各自的權(quán)重進(jìn)行加權(quán),得到所述待訓(xùn)練模型的綜合損失。
40、結(jié)合第二方面的可選實(shí)施方式,所述第一模型損失的權(quán)重隨著迭代次數(shù)的增加而降低,所述第二模型損失的權(quán)重隨著迭代次數(shù)的增加而增加。
41、結(jié)合第二方面的可選實(shí)施方式,所述第一模型損失的權(quán)重α1與所述第二模型損失的權(quán)重α2各自的表達(dá)式為:
42、
43、式中,step表示當(dāng)前的迭代次數(shù),total_step表示總迭代次數(shù)。
44、結(jié)合第二方面的可選實(shí)施方式,所述樣本公文段落包括文本內(nèi)容、表格內(nèi)容以及圖像內(nèi)容中的至少一種。
45、第三方面,本技術(shù)還提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的公文信息抽取方法。
46、第四方面,本技術(shù)還提供一種電子設(shè)備,所述電子設(shè)備包括處理器以及存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)所述的公文信息抽取方法。
47、相對(duì)于現(xiàn)有技術(shù)而言,本技術(shù)具有以下有益效果:
48、本技術(shù)提供一種公文信息抽取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備。其中,電子設(shè)備獲取待處理公文;通過(guò)預(yù)先訓(xùn)練的要素抽取模型對(duì)待處理公文進(jìn)行處理,得到待處理公文中的公文要素以及與公文要素對(duì)應(yīng)的公文段落;根據(jù)公文要素以及公文要素對(duì)應(yīng)的公文段落,生成用于指示預(yù)設(shè)大語(yǔ)言模型對(duì)公文段落進(jìn)行優(yōu)化的提示詞;將提示詞發(fā)送給預(yù)設(shè)大語(yǔ)言模型進(jìn)行處理,得到優(yōu)化后的公文段落。如此,由于要素抽取模型進(jìn)行了有針對(duì)性地訓(xùn)練,擅長(zhǎng)抽取較為準(zhǔn)確的公文要素,并利用大語(yǔ)言模型進(jìn)行對(duì)公文要素對(duì)應(yīng)的公文段落進(jìn)行優(yōu)化,從而能夠從待處理公文中抽取較為準(zhǔn)確且完整的公文信息。