本發(fā)明屬于文檔內(nèi)容提取,尤其涉及一種表單內(nèi)容提取方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、傳統(tǒng)的文檔內(nèi)容提取通常以人為干預(yù)為主,smartfix被設(shè)計(jì)處理固定格式表格以及任何格式的非結(jié)構(gòu)化信件等各種文件;schuster等人采用基于規(guī)則過濾的方法從財(cái)經(jīng)新聞中自動(dòng)提取公司名稱,基于模板匹配的方法被廣泛用于提取一個(gè)或多個(gè)目標(biāo);但是,這些方法往往需要預(yù)先設(shè)計(jì)大量的規(guī)則或者基于位置坐標(biāo)設(shè)計(jì)模板,遷移成本較高。
3、基于上述問題,ch?iu等人提出了一種創(chuàng)新的混合模型,該模型結(jié)合bilstm和cnn自動(dòng)檢測(cè)并提取單詞和字符級(jí)特征,無需繁瑣的特征工程和深厚詞匯知識(shí),簡(jiǎn)化了流程且滿足高性能需求;huang等人提出應(yīng)用于序列標(biāo)注任務(wù)的bi-lstm-crf模型,該模型能同時(shí)結(jié)合bilstm與crf(條件隨機(jī)場(chǎng)),不僅利用了過去和未來的輸入特征,還考慮了句子級(jí)別的標(biāo)簽信息,使其在處理自然語言處理任務(wù)時(shí)更為強(qiáng)大和靈活;post-ocr解析方案通過ocr提取文本段落和坐標(biāo),序列化并進(jìn)行bio(生物化標(biāo)記)標(biāo)記,最后分組合并生成解析結(jié)果。jiang等人提出將文本塊坐標(biāo)嵌入特征直接加到bilstm-crf模型中;但是這些方法僅依賴于文本自身及其對(duì)應(yīng)的位置信息來進(jìn)行內(nèi)容抽取,對(duì)于多模態(tài)文檔(例如表單,其內(nèi)部文本數(shù)據(jù)之間存在一定的關(guān)聯(lián)關(guān)系)內(nèi)容提取,此類方法無法有效獲取文本之間的關(guān)聯(lián)關(guān)系,導(dǎo)致提取的內(nèi)容信息不完整。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種表單內(nèi)容提取方法及系統(tǒng),以解決現(xiàn)有技術(shù)僅依賴文本自身及其對(duì)應(yīng)的位置信息來進(jìn)行內(nèi)容抽取,而忽略了表單中文本實(shí)體之間的關(guān)聯(lián)關(guān)系,導(dǎo)致提取內(nèi)容信息不完整的問題。
2、根據(jù)本發(fā)明實(shí)施例的第一個(gè)方面,提供了一種表單內(nèi)容提取方法,包括:
3、獲取待內(nèi)容提取的表單圖像;
4、基于獲得的表單圖像,進(jìn)行文本及其對(duì)應(yīng)的文本位置信息的提??;
5、基于提取的文本及其對(duì)應(yīng)的文本位置信息,利用預(yù)先訓(xùn)練的文本標(biāo)簽識(shí)別模型,實(shí)現(xiàn)對(duì)表單內(nèi)文本的標(biāo)簽識(shí)別;
6、其中,所述文本標(biāo)簽識(shí)別模型具體執(zhí)行如下處理過程:基于提取的文本及其對(duì)應(yīng)的文本位置信息,分別構(gòu)建文本嵌入表示、位置信息嵌入表示以及布局嵌入表示;基于文本嵌入表示、位置信息嵌入表示以及布局嵌入表示,利用引入注意力精煉模塊的多模態(tài)編碼器,獲得多模態(tài)特征表示;基于所述多模態(tài)特征表示,利用引入注意力精煉模塊的解碼器,獲得文本標(biāo)簽的識(shí)別結(jié)果;其中,所述注意力精煉模塊用于利用基于注意力機(jī)制得到的輸入數(shù)據(jù)的注意力得分,構(gòu)建初始相似度矩陣;基于所述初始相似度矩陣構(gòu)建精細(xì)矩陣;基于所述初始相似度矩陣和精細(xì)矩陣,結(jié)合注意力機(jī)制得到的內(nèi)容向量,獲得注意力精煉模塊的輸出結(jié)果;
7、基于獲得的文本以及文本標(biāo)簽,實(shí)現(xiàn)表單內(nèi)容的提取。
8、進(jìn)一步的,所述文本嵌入表示、位置信息嵌入表示以及布局嵌入表示的構(gòu)建,具體為:對(duì)提取的文本進(jìn)行分詞,并將每個(gè)詞轉(zhuǎn)換為詞表中的索引,以所述索引作為一維位置信息嵌入表示;將文本中每個(gè)分詞的詞向量和一維位置信息嵌入表示相加,獲得文本嵌入表示;基于文本提取時(shí)所對(duì)應(yīng)文本框的寬度、高度以及邊界坐標(biāo)值,構(gòu)建文本所對(duì)應(yīng)的布局嵌入表示。
9、進(jìn)一步的,所述引入注意力精煉模塊的多模態(tài)編碼器,具體包括一個(gè)多頭注意力精煉模塊以及兩層前饋神經(jīng)網(wǎng)絡(luò),其中,所述多頭注意力精煉模塊由若干注意力精煉模塊構(gòu)成,將文本嵌入表示、位置信息嵌入表示以及布局嵌入分別作為多頭注意力精煉模塊中各個(gè)注意力精煉模塊的輸入,以及,將各個(gè)注意力精煉模塊的輸出進(jìn)行拼接后進(jìn)行線性變換,獲得拼接特征;將所述拼接特征順序經(jīng)殘差連接、歸一化處理以及全連接網(wǎng)絡(luò)處理后獲得多模態(tài)特征表示。
10、進(jìn)一步的,所述引入注意力精煉模塊的解碼器,具體包括第一解碼器和第二解碼器,基于獲得的多模態(tài)特征表示,通過所述第一解碼器獲得文本對(duì)應(yīng)的類別標(biāo)簽,同時(shí),基于獲得的類別標(biāo)簽,通過第二解碼器獲得文本之間的關(guān)系。
11、進(jìn)一步的,所述注意力精煉模塊,具體表示如下:
12、
13、r=reshape(norm(max(0,conv(reshape(αt)))wr))
14、其中,a表示注意力得分矩陣,t∈[0,l),t表示位置,αt表示位置t的注意力分?jǐn)?shù),r表示批量歸一化以及維度調(diào)整后得到精細(xì)矩陣,wr∈dc×n是可訓(xùn)練參數(shù)矩陣,dc為卷積層的中間維度,n表示注意力頭的個(gè)數(shù)。
15、進(jìn)一步的,所述文本及其對(duì)應(yīng)的文本位置信息的提取,具體采用光學(xué)字符識(shí)別方法得到。
16、根據(jù)本發(fā)明實(shí)施例的第二個(gè)方面,提供了一種表單內(nèi)容提取系統(tǒng),包括:
17、數(shù)據(jù)獲取單元,其用于獲取待內(nèi)容提取的表單圖像;
18、基本信息提取單元,其用于基于獲得的表單圖像,進(jìn)行文本及其對(duì)應(yīng)的文本位置信息的提取;
19、文本標(biāo)簽識(shí)別單元,其用于基于提取的文本及其對(duì)應(yīng)的文本位置信息,利用預(yù)先訓(xùn)練的文本標(biāo)簽識(shí)別模型,實(shí)現(xiàn)對(duì)表單內(nèi)文本的標(biāo)簽識(shí)別;其中,所述文本標(biāo)簽識(shí)別模型具體執(zhí)行如下處理過程:基于提取的文本及其對(duì)應(yīng)的文本位置信息,分別構(gòu)建文本嵌入表示、位置信息嵌入表示以及布局嵌入表示;基于文本嵌入表示、位置信息嵌入表示以及布局嵌入表示,利用引入注意力精煉模塊的多模態(tài)編碼器,獲得多模態(tài)特征表示;基于所述多模態(tài)特征表示,利用引入注意力精煉模塊的解碼器,獲得文本標(biāo)簽的識(shí)別結(jié)果;其中,所述注意力精煉模塊用于利用基于注意力機(jī)制得到的輸入數(shù)據(jù)的注意力得分,構(gòu)建初始相似度矩陣;基于所述初始相似度矩陣構(gòu)建精細(xì)矩陣;基于所述初始相似度矩陣和精細(xì)矩陣,結(jié)合注意力機(jī)制得到的內(nèi)容向量,獲得注意力精煉模塊的輸出結(jié)果;
20、表單內(nèi)容提取單元,其用于基于獲得的文本以及文本標(biāo)簽,實(shí)現(xiàn)表單內(nèi)容的提取。
21、根據(jù)本發(fā)明實(shí)施例的第三個(gè)方面,提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)所述的表單內(nèi)容提取方法。
22、根據(jù)本發(fā)明實(shí)施例的第四個(gè)方面,提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的表單內(nèi)容提取方法。
23、根據(jù)本發(fā)明實(shí)施例的第五個(gè)方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的表單提取方法。
24、以上一個(gè)或多個(gè)技術(shù)方案存在以下有益效果:
25、(1)本發(fā)明提供了一種表單內(nèi)容提取方法及系統(tǒng),所述方案在表單內(nèi)容提取過程中通過引入表單文檔整體的布局嵌入表示,結(jié)合文本及其對(duì)應(yīng)的文本位置信息,基于多模態(tài)特征對(duì)表單中的文本進(jìn)行標(biāo)簽識(shí)別,通過標(biāo)簽識(shí)別獲取表單中文本之間的關(guān)聯(lián)關(guān)系;并以文本的標(biāo)簽和文本自身的結(jié)合作為表單內(nèi)容提取的結(jié)果,有效豐富了表單內(nèi)容提取的完整性。
26、(2)本發(fā)明提供了一種注意力精煉模塊,通過該模塊能夠?qū)ψ⒁饬Ψ謹(jǐn)?shù)進(jìn)行加權(quán)、提高,可以更精確地進(jìn)行文本識(shí)別。
27、本發(fā)明附加方面的優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。