1.一種文檔識別方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述第一文檔識別指令包括:文本識別指令,用于指示大模型輸出文檔圖像的文本行識別結果;
3.根據權利要求2所述的方法,其特征在于,所述第一文檔識別指令還包括:版面分析指令,用于指示大模型輸出文檔圖像的版面要素信息;
4.根據權利要求2所述的方法,其特征在于,還包括:
5.根據權利要求1所述的方法,其特征在于,所述視覺編碼模塊包括視覺編碼器和采樣器,通過視覺編碼模塊提取每頁文檔圖像的視覺特征的過程,包括:
6.根據權利要求1所述的方法,其特征在于,在將各頁文檔圖像的視覺特征和所述第一文檔識別指令的文本特征進行融合之前,還包括:
7.根據權利要求6所述的方法,其特征在于,所述視覺位置編碼還包括頁間位置編碼,所述頁間位置編碼由絕對位置編碼組成。
8.根據權利要求7所述的方法,其特征在于,所述大模型的訓練過程,包括:
9.一種文檔識別裝置,其特征在于,包括:
10.一種電子設備,其特征在于,包括:存儲器和處理器;
11.一種可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現如權利要求1~8中任一項所述的文檔識別方法的各個步驟。
12.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時,實現如權利要求1~8中任一項所述的文檔識別方法的各個步驟。