欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種光學(xué)字符識(shí)別方法、裝置及設(shè)備與流程

文檔序號(hào):40439269發(fā)布日期:2024-12-24 15:13閱讀:20來(lái)源:國(guó)知局
一種光學(xué)字符識(shí)別方法、裝置及設(shè)備與流程

本技術(shù)涉及圖像處理,尤其涉及一種光學(xué)字符識(shí)別方法、裝置及設(shè)備。


背景技術(shù):

1、目前ocr(optical?character?recognition,光學(xué)字符識(shí)別)識(shí)別場(chǎng)景(如身份證、人臉、票據(jù)等等)是金融行業(yè)業(yè)務(wù)的重要組成部分之一?,F(xiàn)有技術(shù)中一般采用以下方法進(jìn)行ocr識(shí)別。

2、1.機(jī)器學(xué)習(xí)方法:

3、主要依賴人工設(shè)計(jì)的特征提取算法(如邊緣檢測(cè)、連通組件分析等)和分類器(如支持向量機(jī)、決策樹(shù)等)對(duì)文字圖像進(jìn)行識(shí)別。特征工程耗時(shí)且依賴領(lǐng)域?qū)I(yè)知識(shí),對(duì)復(fù)雜背景、字體變化、光照不均等情況適應(yīng)性差,識(shí)別準(zhǔn)確率受制于特征的質(zhì)量;多語(yǔ)言支持需要分別訓(xùn)練多個(gè)模型,擴(kuò)展性較差。

4、2.深度學(xué)習(xí)方法:

5、主要采用單一的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(如全連接網(wǎng)絡(luò)、簡(jiǎn)單的cnn)進(jìn)行文字識(shí)別,然后配合預(yù)處理步驟(如二值化、傾斜校正),對(duì)文字圖像的空間結(jié)構(gòu)和序列信息捕捉不足,對(duì)復(fù)雜背景、噪聲、模糊等干擾因素敏感;缺乏有效的跨語(yǔ)言學(xué)習(xí)機(jī)制,每增加一種新語(yǔ)言識(shí)別需求,需重新收集大量標(biāo)注數(shù)據(jù)訓(xùn)練單獨(dú)模型,成本高昂且效率低下。

6、總之,針對(duì)多語(yǔ)言等,復(fù)雜情況下的ocr識(shí)別目前存在字符目標(biāo)識(shí)別精度低的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別方法、裝置及設(shè)備,可以有效解決現(xiàn)有ocr識(shí)別技術(shù)在多語(yǔ)言等復(fù)雜場(chǎng)景下識(shí)別精度低的問(wèn)題等。

2、第一方面,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別方法,包括:

3、獲取待識(shí)別的包含多種語(yǔ)言的目標(biāo)文字圖像,并對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理,得到純凈文字圖像;其中,所述預(yù)處理包括采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理;

4、獲取所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述,得到語(yǔ)音模態(tài)數(shù)據(jù),以及獲取對(duì)所述目標(biāo)文字圖像預(yù)先標(biāo)注的文本標(biāo)簽,得到標(biāo)簽?zāi)B(tài)數(shù)據(jù);

5、將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到所述目標(biāo)文字圖像中包含的目標(biāo)文字字符。

6、在一些實(shí)施例中,所述自適應(yīng)噪聲抑制模塊為u-net網(wǎng)絡(luò);所述u-net網(wǎng)絡(luò)包括編碼器、解碼器和局部分析函數(shù)單元;

7、所述采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理,包括:

8、通過(guò)所述編碼器中每個(gè)下采樣層對(duì)所述目標(biāo)文字圖像進(jìn)行下采樣得到對(duì)應(yīng)的第一特征圖;

9、采用所述局部分析函數(shù)單元計(jì)算每個(gè)所述第一特征圖中每個(gè)像素點(diǎn)的噪聲評(píng)價(jià)參數(shù),根據(jù)所述噪聲評(píng)價(jià)參數(shù)和設(shè)定的噪聲閾值,確定噪聲區(qū)域,對(duì)所述噪聲區(qū)域進(jìn)行標(biāo)記,得到每個(gè)噪聲掩碼;其中,所述噪聲評(píng)價(jià)參數(shù)包括均值、標(biāo)準(zhǔn)差和梯度信息中的一種或多種組合;

10、通過(guò)所述解碼器中每個(gè)上采樣層,根據(jù)對(duì)應(yīng)的所述噪聲掩碼、對(duì)應(yīng)的所述第一特征以及當(dāng)前上采樣層的上一個(gè)層輸入的圖像特征,確定所述當(dāng)前上采樣層的輸出特征。

11、在一些實(shí)施例中,在所述對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理之前,所述方法還包括:

12、對(duì)所述u-net網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,其中,在迭代訓(xùn)練過(guò)程中采用余弦退火策略調(diào)整學(xué)習(xí)率;所述迭代訓(xùn)練的結(jié)束條件為:迭代訓(xùn)練得到的峰值信噪比大于設(shè)定的信噪比閾值,且迭代訓(xùn)練得到的結(jié)構(gòu)相似度指數(shù)大于設(shè)定指數(shù)閾值。

13、在一些實(shí)施例中,所述多模態(tài)字符識(shí)別模型包括依次連接的卷積神經(jīng)網(wǎng)絡(luò)模塊、文本嵌入層、注意力機(jī)制層以及循環(huán)神經(jīng)網(wǎng)絡(luò)模塊;

14、所述將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到目標(biāo)文字字符,包括:

15、將所述純凈文字圖像輸入所述卷積神經(jīng)網(wǎng)絡(luò)模塊,得到視覺(jué)特征圖;將所述語(yǔ)音模態(tài)數(shù)據(jù)通過(guò)語(yǔ)音識(shí)別技術(shù)轉(zhuǎn)換得到的文本數(shù)據(jù)和所述標(biāo)簽?zāi)B(tài)數(shù)據(jù)分別輸入文本嵌入層,得到對(duì)應(yīng)模態(tài)的文字特征圖;將所述視覺(jué)特征圖和各所述文字特征圖輸入所述注意力機(jī)制層,以進(jìn)行計(jì)算每個(gè)通道接收的特征圖的注意力權(quán)重;根據(jù)每個(gè)通道的所述注意力權(quán)重對(duì)各所述特征圖進(jìn)行加權(quán)求和,得到融合特征向量;將所述融合特征向量輸入所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行提取上下文信息提取以及字符識(shí)別,得到目標(biāo)文字字符。

16、在一些實(shí)施例中,所述方法還包括:

17、根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整。

18、在一些實(shí)施例中,所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊包括bi-lstm層;

19、所述根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整,包括:

20、若所述迭代訓(xùn)練結(jié)果為所述多模態(tài)字符識(shí)別模型出現(xiàn)欠擬合現(xiàn)象,則在所述卷積神經(jīng)網(wǎng)絡(luò)模塊中增加預(yù)設(shè)數(shù)量的卷積層、濾波器數(shù)量或改變?yōu)V波器尺寸,在所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊中的bi-lstm層之后再堆疊預(yù)設(shè)層數(shù)的bi-lstm層,或在所述bi-lstm層前加入時(shí)間卷積網(wǎng)絡(luò)層;

21、其中,若設(shè)定的期望準(zhǔn)確率與利用多語(yǔ)言訓(xùn)練樣本進(jìn)行訓(xùn)練時(shí)得到的訓(xùn)練準(zhǔn)確率的差值大于設(shè)定的第一差值,且利用多語(yǔ)言驗(yàn)證樣本進(jìn)行驗(yàn)證時(shí)得到驗(yàn)證準(zhǔn)確率與所述訓(xùn)練準(zhǔn)確率的絕對(duì)差值小于設(shè)定的第二差值,則確定所述多模態(tài)字符識(shí)別模型出現(xiàn)欠擬合現(xiàn)象。

22、在一些實(shí)施例中,根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整包括:

23、解凍所述多模態(tài)字符識(shí)別模型的輸出層和預(yù)設(shè)的任務(wù)層,以進(jìn)行參數(shù)更新;

24、凍結(jié)所述多模態(tài)字符識(shí)別模型中所述輸出層和指定的任務(wù)層之外的任務(wù)層;

25、若當(dāng)前迭代訓(xùn)練得到的字符錯(cuò)誤率與上一周期迭代訓(xùn)練得到的所述字符錯(cuò)誤率的差值小于設(shè)定錯(cuò)誤率閾值且當(dāng)前迭代訓(xùn)練得到的詞錯(cuò)誤率小于上一迭代周期得到的所述詞錯(cuò)誤率,或者在n個(gè)迭代周期內(nèi)所述指定的任務(wù)層的梯度值均小于設(shè)定的梯度標(biāo)準(zhǔn),則解凍下一任務(wù)層。

26、在一些實(shí)施例中,所述根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整包括:

27、若所述迭代訓(xùn)練結(jié)果中字符錯(cuò)誤率和詞錯(cuò)誤率均大于設(shè)定的最大錯(cuò)誤率閾值,或所述迭代訓(xùn)練結(jié)果中的訓(xùn)練準(zhǔn)確率低于設(shè)定的期望準(zhǔn)確率設(shè)定的準(zhǔn)確率差值,則根據(jù)字符錯(cuò)誤率、詞錯(cuò)誤率,確定錯(cuò)誤字符或語(yǔ)法結(jié)構(gòu)的類型,并在多語(yǔ)言訓(xùn)練樣本中增加對(duì)應(yīng)的所述錯(cuò)誤字符或語(yǔ)法結(jié)構(gòu)的類型對(duì)應(yīng)的數(shù)據(jù)樣本;

28、若所述迭代訓(xùn)練結(jié)果中損失曲線狀態(tài)改變時(shí),則采用學(xué)習(xí)率衰減策略調(diào)整學(xué)習(xí)率。

29、第二方面,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別裝置,包括:

30、預(yù)處理模塊,用于獲取待識(shí)別的目標(biāo)文字圖像,并對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理,得到純凈文字圖像;其中,所述預(yù)處理包括采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理;

31、多模態(tài)數(shù)據(jù)獲取模塊,用于獲取所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述,得到語(yǔ)音模態(tài)數(shù)據(jù),以及獲取對(duì)所述目標(biāo)文字圖像標(biāo)注的文本標(biāo)簽,得到標(biāo)簽?zāi)B(tài)數(shù)據(jù);

32、目標(biāo)文字字符識(shí)別模塊,用于將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到目標(biāo)文字字符。

33、第三方面,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別設(shè)備,所述光學(xué)字符識(shí)別設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器用于執(zhí)行所述計(jì)算機(jī)程序以實(shí)施本技術(shù)第一方面提供的一種光學(xué)字符識(shí)別方法。

34、本技術(shù)的實(shí)施例具有如下有益效果:

35、本技術(shù)對(duì)多種語(yǔ)言的目標(biāo)文字圖像采用自適應(yīng)噪聲抑制模塊進(jìn)行降噪處理。然后根據(jù)所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述,得到語(yǔ)音模態(tài)數(shù)據(jù),以及獲取對(duì)所述目標(biāo)文字圖像預(yù)先標(biāo)注的文本標(biāo)簽,得到標(biāo)簽?zāi)B(tài)數(shù)據(jù);將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到所述目標(biāo)文字圖像中包含的目標(biāo)文字字符。本技術(shù)首先對(duì)目標(biāo)文字圖像中的噪音進(jìn)行去除,而且考慮多種特征,由此,可以有效解決現(xiàn)有ocr識(shí)別技術(shù)在多語(yǔ)言等復(fù)雜場(chǎng)景下識(shí)別精度低的問(wèn)題等。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
石景山区| 大邑县| 南漳县| 衡水市| 贵南县| 临澧县| 栾川县| 广灵县| 霍林郭勒市| 安阳县| 廉江市| 江陵县| 淮滨县| 偃师市| 婺源县| 双鸭山市| 望城县| 青神县| 泸溪县| 正镶白旗| 霍山县| 博野县| 民县| 鹤岗市| 拉萨市| 宣化县| 左云县| 玉屏| 收藏| 英吉沙县| 云和县| 庆元县| 沙田区| 永兴县| 嘉祥县| 会理县| 安徽省| 南康市| 临颍县| 信丰县| 长垣县|