本技術(shù)涉及圖像處理,尤其涉及一種光學(xué)字符識(shí)別方法、裝置及設(shè)備。
背景技術(shù):
1、目前ocr(optical?character?recognition,光學(xué)字符識(shí)別)識(shí)別場(chǎng)景(如身份證、人臉、票據(jù)等等)是金融行業(yè)業(yè)務(wù)的重要組成部分之一?,F(xiàn)有技術(shù)中一般采用以下方法進(jìn)行ocr識(shí)別。
2、1.機(jī)器學(xué)習(xí)方法:
3、主要依賴人工設(shè)計(jì)的特征提取算法(如邊緣檢測(cè)、連通組件分析等)和分類器(如支持向量機(jī)、決策樹(shù)等)對(duì)文字圖像進(jìn)行識(shí)別。特征工程耗時(shí)且依賴領(lǐng)域?qū)I(yè)知識(shí),對(duì)復(fù)雜背景、字體變化、光照不均等情況適應(yīng)性差,識(shí)別準(zhǔn)確率受制于特征的質(zhì)量;多語(yǔ)言支持需要分別訓(xùn)練多個(gè)模型,擴(kuò)展性較差。
4、2.深度學(xué)習(xí)方法:
5、主要采用單一的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(如全連接網(wǎng)絡(luò)、簡(jiǎn)單的cnn)進(jìn)行文字識(shí)別,然后配合預(yù)處理步驟(如二值化、傾斜校正),對(duì)文字圖像的空間結(jié)構(gòu)和序列信息捕捉不足,對(duì)復(fù)雜背景、噪聲、模糊等干擾因素敏感;缺乏有效的跨語(yǔ)言學(xué)習(xí)機(jī)制,每增加一種新語(yǔ)言識(shí)別需求,需重新收集大量標(biāo)注數(shù)據(jù)訓(xùn)練單獨(dú)模型,成本高昂且效率低下。
6、總之,針對(duì)多語(yǔ)言等,復(fù)雜情況下的ocr識(shí)別目前存在字符目標(biāo)識(shí)別精度低的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別方法、裝置及設(shè)備,可以有效解決現(xiàn)有ocr識(shí)別技術(shù)在多語(yǔ)言等復(fù)雜場(chǎng)景下識(shí)別精度低的問(wèn)題等。
2、第一方面,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別方法,包括:
3、獲取待識(shí)別的包含多種語(yǔ)言的目標(biāo)文字圖像,并對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理,得到純凈文字圖像;其中,所述預(yù)處理包括采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理;
4、獲取所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述,得到語(yǔ)音模態(tài)數(shù)據(jù),以及獲取對(duì)所述目標(biāo)文字圖像預(yù)先標(biāo)注的文本標(biāo)簽,得到標(biāo)簽?zāi)B(tài)數(shù)據(jù);
5、將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到所述目標(biāo)文字圖像中包含的目標(biāo)文字字符。
6、在一些實(shí)施例中,所述自適應(yīng)噪聲抑制模塊為u-net網(wǎng)絡(luò);所述u-net網(wǎng)絡(luò)包括編碼器、解碼器和局部分析函數(shù)單元;
7、所述采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理,包括:
8、通過(guò)所述編碼器中每個(gè)下采樣層對(duì)所述目標(biāo)文字圖像進(jìn)行下采樣得到對(duì)應(yīng)的第一特征圖;
9、采用所述局部分析函數(shù)單元計(jì)算每個(gè)所述第一特征圖中每個(gè)像素點(diǎn)的噪聲評(píng)價(jià)參數(shù),根據(jù)所述噪聲評(píng)價(jià)參數(shù)和設(shè)定的噪聲閾值,確定噪聲區(qū)域,對(duì)所述噪聲區(qū)域進(jìn)行標(biāo)記,得到每個(gè)噪聲掩碼;其中,所述噪聲評(píng)價(jià)參數(shù)包括均值、標(biāo)準(zhǔn)差和梯度信息中的一種或多種組合;
10、通過(guò)所述解碼器中每個(gè)上采樣層,根據(jù)對(duì)應(yīng)的所述噪聲掩碼、對(duì)應(yīng)的所述第一特征以及當(dāng)前上采樣層的上一個(gè)層輸入的圖像特征,確定所述當(dāng)前上采樣層的輸出特征。
11、在一些實(shí)施例中,在所述對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理之前,所述方法還包括:
12、對(duì)所述u-net網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,其中,在迭代訓(xùn)練過(guò)程中采用余弦退火策略調(diào)整學(xué)習(xí)率;所述迭代訓(xùn)練的結(jié)束條件為:迭代訓(xùn)練得到的峰值信噪比大于設(shè)定的信噪比閾值,且迭代訓(xùn)練得到的結(jié)構(gòu)相似度指數(shù)大于設(shè)定指數(shù)閾值。
13、在一些實(shí)施例中,所述多模態(tài)字符識(shí)別模型包括依次連接的卷積神經(jīng)網(wǎng)絡(luò)模塊、文本嵌入層、注意力機(jī)制層以及循環(huán)神經(jīng)網(wǎng)絡(luò)模塊;
14、所述將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到目標(biāo)文字字符,包括:
15、將所述純凈文字圖像輸入所述卷積神經(jīng)網(wǎng)絡(luò)模塊,得到視覺(jué)特征圖;將所述語(yǔ)音模態(tài)數(shù)據(jù)通過(guò)語(yǔ)音識(shí)別技術(shù)轉(zhuǎn)換得到的文本數(shù)據(jù)和所述標(biāo)簽?zāi)B(tài)數(shù)據(jù)分別輸入文本嵌入層,得到對(duì)應(yīng)模態(tài)的文字特征圖;將所述視覺(jué)特征圖和各所述文字特征圖輸入所述注意力機(jī)制層,以進(jìn)行計(jì)算每個(gè)通道接收的特征圖的注意力權(quán)重;根據(jù)每個(gè)通道的所述注意力權(quán)重對(duì)各所述特征圖進(jìn)行加權(quán)求和,得到融合特征向量;將所述融合特征向量輸入所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行提取上下文信息提取以及字符識(shí)別,得到目標(biāo)文字字符。
16、在一些實(shí)施例中,所述方法還包括:
17、根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整。
18、在一些實(shí)施例中,所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊包括bi-lstm層;
19、所述根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整,包括:
20、若所述迭代訓(xùn)練結(jié)果為所述多模態(tài)字符識(shí)別模型出現(xiàn)欠擬合現(xiàn)象,則在所述卷積神經(jīng)網(wǎng)絡(luò)模塊中增加預(yù)設(shè)數(shù)量的卷積層、濾波器數(shù)量或改變?yōu)V波器尺寸,在所述循環(huán)神經(jīng)網(wǎng)絡(luò)模塊中的bi-lstm層之后再堆疊預(yù)設(shè)層數(shù)的bi-lstm層,或在所述bi-lstm層前加入時(shí)間卷積網(wǎng)絡(luò)層;
21、其中,若設(shè)定的期望準(zhǔn)確率與利用多語(yǔ)言訓(xùn)練樣本進(jìn)行訓(xùn)練時(shí)得到的訓(xùn)練準(zhǔn)確率的差值大于設(shè)定的第一差值,且利用多語(yǔ)言驗(yàn)證樣本進(jìn)行驗(yàn)證時(shí)得到驗(yàn)證準(zhǔn)確率與所述訓(xùn)練準(zhǔn)確率的絕對(duì)差值小于設(shè)定的第二差值,則確定所述多模態(tài)字符識(shí)別模型出現(xiàn)欠擬合現(xiàn)象。
22、在一些實(shí)施例中,根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整包括:
23、解凍所述多模態(tài)字符識(shí)別模型的輸出層和預(yù)設(shè)的任務(wù)層,以進(jìn)行參數(shù)更新;
24、凍結(jié)所述多模態(tài)字符識(shí)別模型中所述輸出層和指定的任務(wù)層之外的任務(wù)層;
25、若當(dāng)前迭代訓(xùn)練得到的字符錯(cuò)誤率與上一周期迭代訓(xùn)練得到的所述字符錯(cuò)誤率的差值小于設(shè)定錯(cuò)誤率閾值且當(dāng)前迭代訓(xùn)練得到的詞錯(cuò)誤率小于上一迭代周期得到的所述詞錯(cuò)誤率,或者在n個(gè)迭代周期內(nèi)所述指定的任務(wù)層的梯度值均小于設(shè)定的梯度標(biāo)準(zhǔn),則解凍下一任務(wù)層。
26、在一些實(shí)施例中,所述根據(jù)對(duì)所述多模態(tài)字符識(shí)別模型的迭代訓(xùn)練結(jié)果采用預(yù)設(shè)的調(diào)整策略對(duì)所述多模態(tài)字符識(shí)別模型進(jìn)行結(jié)構(gòu)優(yōu)化調(diào)整包括:
27、若所述迭代訓(xùn)練結(jié)果中字符錯(cuò)誤率和詞錯(cuò)誤率均大于設(shè)定的最大錯(cuò)誤率閾值,或所述迭代訓(xùn)練結(jié)果中的訓(xùn)練準(zhǔn)確率低于設(shè)定的期望準(zhǔn)確率設(shè)定的準(zhǔn)確率差值,則根據(jù)字符錯(cuò)誤率、詞錯(cuò)誤率,確定錯(cuò)誤字符或語(yǔ)法結(jié)構(gòu)的類型,并在多語(yǔ)言訓(xùn)練樣本中增加對(duì)應(yīng)的所述錯(cuò)誤字符或語(yǔ)法結(jié)構(gòu)的類型對(duì)應(yīng)的數(shù)據(jù)樣本;
28、若所述迭代訓(xùn)練結(jié)果中損失曲線狀態(tài)改變時(shí),則采用學(xué)習(xí)率衰減策略調(diào)整學(xué)習(xí)率。
29、第二方面,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別裝置,包括:
30、預(yù)處理模塊,用于獲取待識(shí)別的目標(biāo)文字圖像,并對(duì)所述目標(biāo)文字圖像進(jìn)行預(yù)處理,得到純凈文字圖像;其中,所述預(yù)處理包括采用自適應(yīng)噪聲抑制模塊對(duì)所述目標(biāo)文字圖像進(jìn)行降噪處理;
31、多模態(tài)數(shù)據(jù)獲取模塊,用于獲取所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述,得到語(yǔ)音模態(tài)數(shù)據(jù),以及獲取對(duì)所述目標(biāo)文字圖像標(biāo)注的文本標(biāo)簽,得到標(biāo)簽?zāi)B(tài)數(shù)據(jù);
32、目標(biāo)文字字符識(shí)別模塊,用于將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到目標(biāo)文字字符。
33、第三方面,本技術(shù)實(shí)施例提供一種光學(xué)字符識(shí)別設(shè)備,所述光學(xué)字符識(shí)別設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器用于執(zhí)行所述計(jì)算機(jī)程序以實(shí)施本技術(shù)第一方面提供的一種光學(xué)字符識(shí)別方法。
34、本技術(shù)的實(shí)施例具有如下有益效果:
35、本技術(shù)對(duì)多種語(yǔ)言的目標(biāo)文字圖像采用自適應(yīng)噪聲抑制模塊進(jìn)行降噪處理。然后根據(jù)所述目標(biāo)文字圖像對(duì)應(yīng)的語(yǔ)音描述,得到語(yǔ)音模態(tài)數(shù)據(jù),以及獲取對(duì)所述目標(biāo)文字圖像預(yù)先標(biāo)注的文本標(biāo)簽,得到標(biāo)簽?zāi)B(tài)數(shù)據(jù);將所述語(yǔ)音模態(tài)數(shù)據(jù)和/或所述標(biāo)簽?zāi)B(tài)數(shù)據(jù),以及所述純凈文字圖像輸入訓(xùn)練好的多模態(tài)字符識(shí)別模型進(jìn)行識(shí)別,得到所述目標(biāo)文字圖像中包含的目標(biāo)文字字符。本技術(shù)首先對(duì)目標(biāo)文字圖像中的噪音進(jìn)行去除,而且考慮多種特征,由此,可以有效解決現(xiàn)有ocr識(shí)別技術(shù)在多語(yǔ)言等復(fù)雜場(chǎng)景下識(shí)別精度低的問(wèn)題等。