一種光學(xué)字符識(shí)別方法、裝置及設(shè)備與流程

文檔序號(hào)：40439269發(fā)布日期：2024-12-24 15:13閱讀：20來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及圖像處理，尤其涉及一種光學(xué)字符識(shí)別方法、裝置及設(shè)備。

背景技術(shù)：

1、目前ocr(optical?character?recognition，光學(xué)字符識(shí)別)識(shí)別場(chǎng)景(如身份證、人臉、票據(jù)等等)是金融行業(yè)業(yè)務(wù)的重要組成部分之一?，F(xiàn)有技術(shù)中一般采用以下方法進(jìn)行ocr識(shí)別。

2、1.機(jī)器學(xué)習(xí)方法：

3、主要依賴人工設(shè)計(jì)的特征提取算法(如邊緣檢測(cè)、連通組件分析等)和分類器(如支持向量機(jī)、決策樹(shù)等)對(duì)文字圖像進(jìn)行識(shí)別。特征工程耗時(shí)且依賴領(lǐng)域?qū)I(yè)知識(shí)，對(duì)復(fù)雜背景、字體變化、光照不均等情況適應(yīng)性差，識(shí)別準(zhǔn)確率受制于特征的質(zhì)量；多語(yǔ)言支持需要分別訓(xùn)練多個(gè)模型，擴(kuò)展性較差。

4、2.深度學(xué)習(xí)方法：

5、主要采用單一的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(如全連接網(wǎng)絡(luò)、簡(jiǎn)單的cnn)進(jìn)行文字識(shí)別，然后配合預(yù)處理步驟(如二值化、傾斜校正)，對(duì)文字圖像的空間結(jié)構(gòu)和序列信息捕捉不足，對(duì)復(fù)雜背景、噪聲、模糊等干擾因素敏感；缺乏有效的跨語(yǔ)言學(xué)習(xí)機(jī)制，每增加一種新語(yǔ)言識(shí)別需求，需重新收集大量標(biāo)注數(shù)據(jù)訓(xùn)練單獨(dú)模型，成本高昂且效率低下。

6、總之，針對(duì)多語(yǔ)言等，復(fù)雜情況下的ocr識(shí)別目前存在字符目標(biāo)識(shí)別精度低的問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別方法、裝置及設(shè)備，可以有效解決現(xiàn)有ocr識(shí)別技術(shù)在多語(yǔ)言等復(fù)雜場(chǎng)景下識(shí)別精度低的問(wèn)題等。

2、第一方面，本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別方法，包括：

3、獲取待識(shí)別的包含多種語(yǔ)言的目標(biāo)文字圖像，并對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理，得到純凈文字圖像；其中，所述預(yù)處理包括采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理；

4、獲取所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述，得到語(yǔ)音模態(tài)數(shù)據(jù)，以及獲取對(duì)所述目標(biāo)文字圖像預(yù)先標(biāo)注的文本標(biāo)簽，得到標(biāo)簽?zāi)B(tài)數(shù)據(jù)；

5、將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù)，以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別，得到所述目標(biāo)文字圖像中包含的目標(biāo)文字字符。

6、在一些實(shí)施例中，所述自適應(yīng)噪聲抑制模塊為u-net網(wǎng)絡(luò)；所述u-net網(wǎng)絡(luò)包括編碼器、解碼器和局部分析函數(shù)單元；

7、所述采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理，包括：

8、通過(guò)所述編碼器中每個(gè)下采樣層對(duì)所述目標(biāo)文字圖像進(jìn)行下采樣得到對(duì)應(yīng)的第一特征圖；

9、采用所述局部分析函數(shù)單元計(jì)算每個(gè)所述第一特征圖中每個(gè)像素點(diǎn)的噪聲評(píng)價(jià)參數(shù)，根據(jù)所述噪聲評(píng)價(jià)參數(shù)和設(shè)定的噪聲閾值，確定噪聲區(qū)域，對(duì)所述噪聲區(qū)域進(jìn)行標(biāo)記，得到每個(gè)噪聲掩碼；其中，所述噪聲評(píng)價(jià)參數(shù)包括均值、標(biāo)準(zhǔn)差和梯度信息中的一種或多種組合；

10、通過(guò)所述解碼器中每個(gè)上采樣層，根據(jù)對(duì)應(yīng)的所述噪聲掩碼、對(duì)應(yīng)的所述第一特征以及當(dāng)前上采樣層的上一個(gè)層輸入的圖像特征，確定所述當(dāng)前上采樣層的輸出特征。

11、在一些實(shí)施例中，在所述對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理之前，所述方法還包括：

12、對(duì)所述u-net網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練，其中，在迭代訓(xùn)練過(guò)程中采用余弦退火策略調(diào)整學(xué)習(xí)率；所述迭代訓(xùn)練的結(jié)束條件為：迭代訓(xùn)練得到的峰值信噪比大于設(shè)定的信噪比閾值，且迭代訓(xùn)練得到的結(jié)構(gòu)相似度指數(shù)大于設(shè)定指數(shù)閾值。

13、在一些實(shí)施例中，所述多模態(tài)字符識(shí)別模型包括依次連接的卷積神經(jīng)網(wǎng)絡(luò)模塊、文本嵌入層、注意力機(jī)制層以及循環(huán)神經(jīng)網(wǎng)絡(luò)模塊；

14、所述將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù)，以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別，得到目標(biāo)文字字符，包括：

15、將所述純凈文字圖像輸入所述卷積神經(jīng)網(wǎng)絡(luò)模塊，得到視覺(jué)特征圖；將所述語(yǔ)音模態(tài)數(shù)據(jù)通過(guò)語(yǔ)音識(shí)別技術(shù)轉(zhuǎn)換得到的文本數(shù)據(jù)和所述標(biāo)簽?zāi)B(tài)數(shù)據(jù)分別輸入文本嵌入層，得到對(duì)應(yīng)模態(tài)的文字特征圖；將所述視覺(jué)特征圖和各所述文字特征圖輸入所述注意力機(jī)制層，以進(jìn)行計(jì)算每個(gè)通道接收的特征圖的注意力權(quán)重；根據(jù)每個(gè)通道的所述注意力權(quán)重對(duì)各所述特征圖進(jìn)行加權(quán)求和，得到融合特征向量；將所述融合特征向量輸入所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行提取上下文信息提取以及字符識(shí)別，得到目標(biāo)文字字符。

16、在一些實(shí)施例中，所述方法還包括：

17、根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整。

18、在一些實(shí)施例中，所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊包括bi-lstm層；

19、所述根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整，包括：

20、若所述迭代訓(xùn)練結(jié)果為所述多模態(tài)字符識(shí)別模型出現(xiàn)欠擬合現(xiàn)象，則在所述卷積神經(jīng)網(wǎng)絡(luò)模塊中增加預(yù)設(shè)數(shù)量的卷積層、濾波器數(shù)量或改變?yōu)V波器尺寸，在所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊中的bi-lstm層之后再堆疊預(yù)設(shè)層數(shù)的bi-lstm層，或在所述bi-lstm層前加入時(shí)間卷積網(wǎng)絡(luò)層；

21、其中，若設(shè)定的期望準(zhǔn)確率與利用多語(yǔ)言訓(xùn)練樣本進(jìn)行訓(xùn)練時(shí)得到的訓(xùn)練準(zhǔn)確率的差值大于設(shè)定的第一差值，且利用多語(yǔ)言驗(yàn)證樣本進(jìn)行驗(yàn)證時(shí)得到驗(yàn)證準(zhǔn)確率與所述訓(xùn)練準(zhǔn)確率的絕對(duì)差值小于設(shè)定的第二差值，則確定所述多模態(tài)字符識(shí)別模型出現(xiàn)欠擬合現(xiàn)象。

22、在一些實(shí)施例中，根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整包括：

23、解凍所述多模態(tài)字符識(shí)別模型的輸出層和預(yù)設(shè)的任務(wù)層，以進(jìn)行參數(shù)更新；

24、凍結(jié)所述多模態(tài)字符識(shí)別模型中所述輸出層和指定的任務(wù)層之外的任務(wù)層；

25、若當(dāng)前迭代訓(xùn)練得到的字符錯(cuò)誤率與上一周期迭代訓(xùn)練得到的所述字符錯(cuò)誤率的差值小于設(shè)定錯(cuò)誤率閾值且當(dāng)前迭代訓(xùn)練得到的詞錯(cuò)誤率小于上一迭代周期得到的所述詞錯(cuò)誤率，或者在n個(gè)迭代周期內(nèi)所述指定的任務(wù)層的梯度值均小于設(shè)定的梯度標(biāo)準(zhǔn)，則解凍下一任務(wù)層。

26、在一些實(shí)施例中，所述根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整包括：

27、若所述迭代訓(xùn)練結(jié)果中字符錯(cuò)誤率和詞錯(cuò)誤率均大于設(shè)定的最大錯(cuò)誤率閾值，或所述迭代訓(xùn)練結(jié)果中的訓(xùn)練準(zhǔn)確率低于設(shè)定的期望準(zhǔn)確率設(shè)定的準(zhǔn)確率差值，則根據(jù)字符錯(cuò)誤率、詞錯(cuò)誤率，確定錯(cuò)誤字符或語(yǔ)法結(jié)構(gòu)的類型，并在多語(yǔ)言訓(xùn)練樣本中增加對(duì)應(yīng)的所述錯(cuò)誤字符或語(yǔ)法結(jié)構(gòu)的類型對(duì)應(yīng)的數(shù)據(jù)樣本；

28、若所述迭代訓(xùn)練結(jié)果中損失曲線狀態(tài)改變時(shí)，則采用學(xué)習(xí)率衰減策略調(diào)整學(xué)習(xí)率。

29、第二方面，本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別裝置，包括：

30、預(yù)處理模塊，用于獲取待識(shí)別的目標(biāo)文字圖像，并對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理，得到純凈文字圖像；其中，所述預(yù)處理包括采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理；

31、多模態(tài)數(shù)據(jù)獲取模塊，用于獲取所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述，得到語(yǔ)音模態(tài)數(shù)據(jù)，以及獲取對(duì)所述目標(biāo)文字圖像標(biāo)注的文本標(biāo)簽，得到標(biāo)簽?zāi)B(tài)數(shù)據(jù)；

32、目標(biāo)文字字符識(shí)別模塊，用于將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù)，以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別，得到目標(biāo)文字字符。

33、第三方面，本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別設(shè)備，所述光學(xué)字符識(shí)別設(shè)備包括處理器和存儲(chǔ)器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器用于執(zhí)行所述計(jì)算機(jī)程序以實(shí)施本技術(shù)第一方面提供的一種光學(xué)字符識(shí)別方法。

34、本技術(shù)的實(shí)施例具有如下有益效果：

35、本技術(shù)對(duì)多種語(yǔ)言的目標(biāo)文字圖像采用自適應(yīng)噪聲抑制模塊進(jìn)行降噪處理。然后根據(jù)所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述，得到語(yǔ)音模態(tài)數(shù)據(jù)，以及獲取對(duì)所述目標(biāo)文字圖像預(yù)先標(biāo)注的文本標(biāo)簽，得到標(biāo)簽?zāi)B(tài)數(shù)據(jù)；將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù)，以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別，得到所述目標(biāo)文字圖像中包含的目標(biāo)文字字符。本技術(shù)首先對(duì)目標(biāo)文字圖像中的噪音進(jìn)行去除，而且考慮多種特征，由此，可以有效解決現(xiàn)有ocr識(shí)別技術(shù)在多語(yǔ)言等復(fù)雜場(chǎng)景下識(shí)別精度低的問(wèn)題等。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊光磊
技術(shù)所有人：天津金城銀行股份有限公司
我是此專利的發(fā)明人

上一篇：拉索連接器的制作方法
上一篇：一種基于物聯(lián)網(wǎng)的配電設(shè)備溫度監(jiān)測(cè)設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

OCR光學(xué)字符識(shí)別技術(shù)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種光學(xué)字符識(shí)別方法、裝置及設(shè)備與流程