本技術涉及自然語言處理,更具體的說,是涉及一種文檔識別方法、裝置、相關設備及計算機程序產(chǎn)品。
背景技術:
1、文檔識別任務包括文本檢測與定位任務、版面分析任務中的一種或兩種。文本檢測與定位任務即識別文檔中包含的文本行的內(nèi)容,及文本行對應的檢測框位置坐標。版面分析任務即識別文檔中包含的版面元素類型及檢測框位置坐標,其中版面元素類型示例如:文本框、圖像區(qū)域、表格、標題、頁眉、頁腳等元素。
2、當前文檔識別任務主要聚焦于單頁文檔,通過ocr(optical?characterrecognition,光學字符識別)模型對單頁文檔進行識別。對于多頁文檔,處理方式也是先切分為若干個單頁文檔,進而針對每一頁文檔進行文檔識別,之后,將各頁文檔的識別結果拼接起來,得到多頁文檔的識別結果。這種多頁文檔識別方法嚴重破壞了多頁文檔的上下文語義信息,導致文檔識別結果不準確。
技術實現(xiàn)思路
1、鑒于上述問題,提出了本技術以便提供一種文檔識別方法、裝置、相關設備及計算機程序產(chǎn)品,以提升多頁文檔的識別結果準確度。具體方案如下:
2、第一方面,提供了一種文檔識別方法,包括:
3、將待識別文檔切分為一頁以上的文檔圖像;
4、通過視覺編碼模塊提取每頁文檔圖像的視覺特征;
5、通過文本編碼模塊提取設定的第一文檔識別指令的文本特征,所述第一文檔識別指令用于指示大模型輸出文檔圖像的文檔識別結果;
6、將各頁文檔圖像的視覺特征和所述第一文檔識別指令的文本特征進行融合,并將融合特征送入配置的大模型的特征處理層,以得到大模型輸出的文檔識別結果。
7、在一種可能的設計中,在本技術實施例的第一方面的另一種實現(xiàn)方式中,所述第一文檔識別指令包括:文本識別指令,用于指示大模型輸出文檔圖像的文本行識別結果;
8、基于此,所述大模型輸出的文檔識別結果包括:文本行識別結果。
9、在一種可能的設計中,在本技術實施例的第一方面的另一種實現(xiàn)方式中,所述第一文檔識別指令還包括:版面分析指令,用于指示大模型輸出文檔圖像的版面要素信息;
10、基于此,所述大模型輸出的文檔識別結果還包括:版面要素信息。
11、在一種可能的設計中,在本技術實施例的第一方面的另一種實現(xiàn)方式中,還包括:
12、通過文本編碼模塊提取設定的第二文檔識別指令的文本特征,所述第二文檔識別指令用于指示大模型輸出文檔圖像的版面要素信息;
13、將各頁文檔圖像的視覺特征和所述第二文檔識別指令的文本特征進行融合,并將融合特征送入所述大模型的特征處理層,以得到大模型輸出的版面要素信息。
14、在一種可能的設計中,在本技術實施例的第一方面的另一種實現(xiàn)方式中,所述視覺編碼模塊包括視覺編碼器和采樣器,通過視覺編碼模塊提取每頁文檔圖像的視覺特征的過程,包括:
15、通過視覺編碼器提取每頁文檔圖像的初始視覺特征;
16、通過采樣器對每頁文檔圖像的初始視覺特征提取m個視覺單元token的視覺特征,其中,m為設定常數(shù)。
17、在一種可能的設計中,在本技術實施例的第一方面的另一種實現(xiàn)方式中,在將各頁文檔圖像的視覺特征和所述第一文檔識別指令的文本特征進行融合之前,還包括:
18、確定每頁文檔圖像對應的視覺位置編碼,所述視覺位置編碼包括頁內(nèi)位置編碼,所述頁內(nèi)位置編碼由若干個可學習的位置編碼向量組成,其中,所述若干個可學習的位置編碼向量在所述大模型訓練過程更新并固定,且可學習的位置編碼向量的個數(shù)與每頁文檔圖像的視覺特征對應的視覺單元token的個數(shù)相同;
19、針對每頁文檔圖像,將當前頁文檔圖像的視覺特征與視覺位置編碼進行融合,得到更新后的當前頁文檔圖像的視覺特征。
20、在一種可能的設計中,在本技術實施例的第一方面的另一種實現(xiàn)方式中,所述視覺位置編碼還包括頁間位置編碼,所述頁間位置編碼由絕對位置編碼組成。
21、在一種可能的設計中,在本技術實施例的第一方面的另一種實現(xiàn)方式中,所述大模型的訓練過程,包括:
22、獲取訓練文檔樣本及對應的文檔識別結果標簽;
23、將所述訓練文檔樣本切分為一頁以上的訓練文檔圖像;
24、通過視覺編碼模塊提取每頁訓練文檔圖像的m個token的視覺特征,以及,通過文本編碼模塊提取設定的第一文檔識別指令的文本特征;
25、針對每頁訓練文檔圖像,將當前頁訓練文檔圖像的m個token的視覺特征與m個可學習的位置編碼向量進行對應位置逐個元素相加,并將相加后m個token的視覺特征再加上當前頁訓練文檔圖像的頁間位置編碼,得到更新后的當前頁訓練文檔圖像的視覺特征;
26、將更新后的各頁訓練文檔圖像的視覺特征和所述第一文檔識別指令的文本特征進行融合,并將融合特征送入大模型的特征處理層,得到大模型輸出的文檔識別結果;
27、以所述文檔識別結果趨近于所述文檔識別結果標簽為訓練目標,更新大模型的網(wǎng)絡參數(shù)及m個可學習的位置編碼向量,直至達到訓練結束條件為止。
28、第二方面,提供了一種文檔識別裝置,包括:
29、文檔切分單元,用于將待識別文檔切分為一頁以上的文檔圖像;
30、視覺特征提取單元,用于通過視覺編碼模塊提取每頁文檔圖像的視覺特征;
31、文本特征提取單元,用于通過文本編碼模塊提取設定的第一文檔識別指令的文本特征,所述第一文檔識別指令用于指示大模型輸出文檔圖像的文檔識別結果;
32、大模型推理單元,用于將各頁文檔圖像的視覺特征和所述第一文檔識別指令的文本特征進行融合,并將融合特征送入配置的大模型的特征處理層,以得到大模型輸出的文檔識別結果。
33、第三方面,提供了一種電子設備,包括:存儲器和處理器;
34、所述存儲器,用于存儲程序;
35、所述處理器,用于執(zhí)行所述程序,實現(xiàn)本技術前述第一方面中任一項所描述的文檔識別方法。
36、第四方面,提供了一種可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)本技術前述第一方面中任一項所描述的文檔識別方法。
37、第五方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時,實現(xiàn)本技術前述第一方面中任一項所描述的文檔識別方法。
38、借由上述技術方案,本技術提出了一種基于大模型的文檔識別方法,對于待識別文本可以拆分為多頁文檔圖像,并分別提取每頁文檔圖像的視覺特征,可以將多頁文檔圖像的視覺特征同時送入大模型,同時提取第一文檔識別指令的文本特征,也送入大模型,能夠通過大模型端到端地輸出多頁文檔的識別結果。由于大模型具有更強的建模能力,同時將多頁文檔圖像的視覺特征送入大模型,可以保留不同頁文檔圖像之間的上下文信息,進而能夠理解文本的上下文語義,更精確地分析文檔的層次結構和內(nèi)容關系,從而提高文本識別和版面理解的準確性,提升多頁文檔的識別結果準確度。