文檔識別方法、裝置、相關設備及計算機程序產品與流程

文檔序號：40533722發(fā)布日期：2024-12-31 13:51閱讀：來源：國知局

技術特征：

1.一種文檔識別方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述第一文檔識別指令包括：文本識別指令，用于指示大模型輸出文檔圖像的文本行識別結果；

3.根據權利要求2所述的方法，其特征在于，所述第一文檔識別指令還包括：版面分析指令，用于指示大模型輸出文檔圖像的版面要素信息；

4.根據權利要求2所述的方法，其特征在于，還包括：

5.根據權利要求1所述的方法，其特征在于，所述視覺編碼模塊包括視覺編碼器和采樣器，通過視覺編碼模塊提取每頁文檔圖像的視覺特征的過程，包括：

6.根據權利要求1所述的方法，其特征在于，在將各頁文檔圖像的視覺特征和所述第一文檔識別指令的文本特征進行融合之前，還包括：

7.根據權利要求6所述的方法，其特征在于，所述視覺位置編碼還包括頁間位置編碼，所述頁間位置編碼由絕對位置編碼組成。

8.根據權利要求7所述的方法，其特征在于，所述大模型的訓練過程，包括：

9.一種文檔識別裝置，其特征在于，包括：

10.一種電子設備，其特征在于，包括：存儲器和處理器；

11.一種可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時，實現如權利要求1～8中任一項所述的文檔識別方法的各個步驟。

12.一種計算機程序產品，包括計算機程序，其特征在于，該計算機程序被處理器執(zhí)行時，實現如權利要求1～8中任一項所述的文檔識別方法的各個步驟。

技術總結
本申請公開了一種文檔識別方法、裝置、相關設備及計算機程序產品，對于待識別文本可以拆分為多頁文檔圖像，并分別提取每頁文檔圖像的視覺特征，可以將多頁文檔圖像的視覺特征同時送入大模型，同時提取第一文檔識別指令的文本特征也送入大模型，所述第一文檔識別指令用于指示大模型輸出文檔圖像的文檔識別結果，如此能夠通過大模型端到端地輸出多頁文檔的識別結果。由于大模型具有更強的建模能力，同時將多頁文檔圖像的視覺特征送入大模型，可以保留不同頁文檔圖像之間的上下文信息，進而能夠理解文本的上下文語義，更精確地分析文檔的層次結構和內容關系，從而提高文本識別和版面理解的準確性，提升多頁文檔的識別結果準確度。

技術研發(fā)人員：劉辰宇,余文鑫,張嘉奧,殷保才,殷兵,胡金水,潘嘉,陳明軍
受保護的技術使用者：科大訊飛股份有限公司
技術研發(fā)日：
技術公布日：2024/12/30

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔識別方法、裝置、相關設備及計算機程序產品與流程

文檔識別方法、裝置、相關設備及計算機程序產品與流程