本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其是一種基于深度學(xué)習(xí)的文字識(shí)別方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、傳統(tǒng)的ocr解決方案是基于強(qiáng)版式方法論的方案,主要包含五個(gè)步驟:特定要素文本定位,接著進(jìn)行傾斜文本矯正,之后分割出單字后,并對(duì)單字識(shí)別,最后進(jìn)行語(yǔ)義糾錯(cuò)。傳統(tǒng)單字分割多采用連通域分析、投影分析、字符聚類和模板匹配等算法,由于有字符模糊、斷裂、粘連、污損等情況,使得文字識(shí)別中單字分割難度增加且現(xiàn)有方案魯棒性差,并且由于文字識(shí)別中單字識(shí)別沒(méi)有上下文信息,準(zhǔn)確率低。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,為了解決上述技術(shù)問(wèn)題的至少之一,本發(fā)明的目的是提供一種基于深度學(xué)習(xí)的文字識(shí)別方法、裝置及存儲(chǔ)介質(zhì),提高準(zhǔn)確性。
2、本發(fā)明實(shí)施例提供了一種基于深度學(xué)習(xí)的文字識(shí)別方法,包括:
3、獲取訓(xùn)練集;所述訓(xùn)練集包括文檔和/或圖像;
4、通過(guò)所述訓(xùn)練集分別對(duì)檢測(cè)分類網(wǎng)絡(luò)、文字檢測(cè)網(wǎng)絡(luò)以及文字識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到檢測(cè)分類模型、文字檢測(cè)模型以及文字識(shí)別模型;其中,所述檢測(cè)分類模型包括可解耦使用的大類分類模型以及每一大類對(duì)應(yīng)的細(xì)分分類模型,所述文字檢測(cè)網(wǎng)絡(luò)以深度卷積神經(jīng)網(wǎng)絡(luò)為主干網(wǎng)絡(luò)并結(jié)合像素聚合網(wǎng)絡(luò),所述文字識(shí)別網(wǎng)絡(luò)根據(jù)ctc?loss結(jié)合centerloss進(jìn)行訓(xùn)練;
5、獲取待分析對(duì)象,通過(guò)所述檢測(cè)分類模型對(duì)所述待分析對(duì)象進(jìn)行分類,確定目標(biāo)分類,并通過(guò)所述文字檢測(cè)網(wǎng)絡(luò)對(duì)所述待分析對(duì)象進(jìn)行檢測(cè),確定目標(biāo)文字區(qū)域,通過(guò)所述文字識(shí)別模型對(duì)所述目標(biāo)文字區(qū)域進(jìn)行識(shí)別,得到文字識(shí)別結(jié)果。
6、進(jìn)一步,所述通過(guò)所述檢測(cè)分類模型對(duì)所述待分析對(duì)象進(jìn)行分類,確定目標(biāo)分類,包括:
7、當(dāng)所述待分析對(duì)象的大類已知,確定已知大類對(duì)應(yīng)的目標(biāo)細(xì)分分類模型,通過(guò)所述目標(biāo)細(xì)分分類模型對(duì)所述待分析對(duì)象進(jìn)行分類,得到目標(biāo)分類;
8、否則,通過(guò)所述大類分類模型對(duì)所述待分析對(duì)象進(jìn)行第一分類,確定所述第一分類對(duì)應(yīng)的目標(biāo)細(xì)分分類模型,通過(guò)所述目標(biāo)細(xì)分分類模型對(duì)所述待分析對(duì)象進(jìn)行第二分類,得到目標(biāo)分類;所述第一分類包括合同、簡(jiǎn)歷、表單、卡證以及票據(jù)中的其中一種。
9、進(jìn)一步,所述大類分類模型的訓(xùn)練,包括:
10、構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)為resnet網(wǎng)絡(luò)結(jié)合transformer網(wǎng)絡(luò)的大類分類網(wǎng)絡(luò);所述檢測(cè)分類網(wǎng)絡(luò)包括所述大類分類網(wǎng)絡(luò);
11、通過(guò)所述訓(xùn)練集對(duì)所述大類分類網(wǎng)絡(luò)進(jìn)行圖像到文本的預(yù)訓(xùn)練任務(wù)的訓(xùn)練,在訓(xùn)練過(guò)程中增加第一難例數(shù)據(jù)至所述訓(xùn)練集中;所述訓(xùn)練集還具有通過(guò)人工干預(yù)或者增強(qiáng)操作增加的樣本,所述第一難例數(shù)據(jù)包括模糊、遮擋、錯(cuò)位以及識(shí)別異常的數(shù)據(jù)中的至少一種;
12、當(dāng)訓(xùn)練達(dá)到第一終止條件,得到大類分類模型。
13、進(jìn)一步,所述細(xì)分分類模型的訓(xùn)練,包括:
14、構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)為yolo網(wǎng)絡(luò)的細(xì)分分類網(wǎng)絡(luò);所述細(xì)分分類網(wǎng)絡(luò)中對(duì)于旋轉(zhuǎn)角度的回歸添加至yolo網(wǎng)絡(luò)的輸出中,所述檢測(cè)分類網(wǎng)絡(luò)包括所述細(xì)分分類網(wǎng)絡(luò);
15、通過(guò)所述訓(xùn)練集以及pytorch框架對(duì)所述細(xì)分分類網(wǎng)絡(luò)進(jìn)行混合精度訓(xùn)練,在訓(xùn)練過(guò)程中的學(xué)習(xí)率采用warmup以及cosinedecay,并增加第二難例數(shù)據(jù)至所述訓(xùn)練集中;所述第二難例數(shù)據(jù)包括模糊、遮擋、錯(cuò)位以及識(shí)別異常的數(shù)據(jù)中的至少一種;
16、當(dāng)訓(xùn)練達(dá)到第二終止條件,得到細(xì)分分類模型。
17、進(jìn)一步,所述訓(xùn)練集包括大類以及細(xì)分分類的訓(xùn)練數(shù)據(jù),所述文字檢測(cè)模型的訓(xùn)練,包括:
18、以深度卷積神經(jīng)網(wǎng)絡(luò)為主干網(wǎng)絡(luò)并結(jié)合像素聚合網(wǎng)絡(luò)構(gòu)建文字檢測(cè)網(wǎng)絡(luò);
19、通過(guò)所述訓(xùn)練集以及pytorch框架對(duì)所述文字檢測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中增加外擴(kuò)距離的邊界距離損失,并增加第三難例數(shù)據(jù)至所述訓(xùn)練集中;所述訓(xùn)練集還具有通過(guò)人工干預(yù)或者增強(qiáng)操作增加的樣本,所述第三難例數(shù)據(jù)包括模糊、遮擋、錯(cuò)位以及識(shí)別異常的數(shù)據(jù)中的至少一種;所述外擴(kuò)距離為所述文字檢測(cè)網(wǎng)絡(luò)識(shí)別到文字區(qū)域,推理時(shí)根據(jù)所述文字區(qū)域的邊界像素點(diǎn)計(jì)算的平均邊界距離;
20、當(dāng)訓(xùn)練達(dá)到第三終止條件,得到文字檢測(cè)模型。
21、進(jìn)一步,所述文字識(shí)別模型的訓(xùn)練,包括:
22、構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)為卷積神經(jīng)網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)的文字識(shí)別網(wǎng)絡(luò);
23、通過(guò)所述訓(xùn)練集以及pytorch框架對(duì)所述文字識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練;所述訓(xùn)練集具有通過(guò)人工干預(yù)或者增強(qiáng)操作增加的樣本;
24、在訓(xùn)練過(guò)程中計(jì)算所述ctc?loss以及所述center?loss,當(dāng)所述ctc?loss以及所述center?loss滿足第四終止條件,得到文字識(shí)別模型。
25、進(jìn)一步,所述方法還包括:
26、獲取所述文字識(shí)別結(jié)果對(duì)應(yīng)的錯(cuò)誤數(shù)據(jù);
27、將所述錯(cuò)誤數(shù)據(jù)添加至所述訓(xùn)練集中,返回所述通過(guò)所述訓(xùn)練集分別對(duì)檢測(cè)分類網(wǎng)絡(luò)、文字檢測(cè)網(wǎng)絡(luò)以及文字識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練的步驟,得到新的檢測(cè)分類模型、新的文字檢測(cè)模型以及新的文字識(shí)別模型中的至少之一。
28、本發(fā)明實(shí)施例還提供一種文字識(shí)別裝置,包括:
29、獲取模塊,用于獲取訓(xùn)練集;所述訓(xùn)練集包括文檔和/或圖像;
30、訓(xùn)練模塊,用于通過(guò)所述訓(xùn)練集分別對(duì)檢測(cè)分類網(wǎng)絡(luò)、文字檢測(cè)網(wǎng)絡(luò)以及文字識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到檢測(cè)分類模型、文字檢測(cè)模型以及文字識(shí)別模型;其中,所述檢測(cè)分類模型包括可解耦使用的大類分類模型以及每一大類對(duì)應(yīng)的細(xì)分分類模型,所述文字檢測(cè)網(wǎng)絡(luò)以深度卷積神經(jīng)網(wǎng)絡(luò)為主干網(wǎng)絡(luò)并結(jié)合像素聚合網(wǎng)絡(luò),所述文字識(shí)別網(wǎng)絡(luò)根據(jù)ctcloss結(jié)合center?loss進(jìn)行訓(xùn)練;
31、處理模塊,用于獲取待分析對(duì)象,通過(guò)所述檢測(cè)分類模型對(duì)所述待分析對(duì)象進(jìn)行分類,確定目標(biāo)分類,并通過(guò)所述文字檢測(cè)網(wǎng)絡(luò)對(duì)所述待分析對(duì)象進(jìn)行檢測(cè),確定目標(biāo)文字區(qū)域,通過(guò)所述文字識(shí)別模型對(duì)所述目標(biāo)文字區(qū)域進(jìn)行識(shí)別,得到文字識(shí)別結(jié)果。
32、本發(fā)明實(shí)施例還提供一種文字識(shí)別裝置,所述文字識(shí)別裝置包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執(zhí)行以實(shí)現(xiàn)所述方法。
33、本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執(zhí)行以實(shí)現(xiàn)所述方法。
34、本發(fā)明的有益效果是:
35、通過(guò)獲取訓(xùn)練集,通過(guò)所述訓(xùn)練集分別對(duì)檢測(cè)分類網(wǎng)絡(luò)、文字檢測(cè)網(wǎng)絡(luò)以及文字識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到檢測(cè)分類模型、文字檢測(cè)模型以及文字識(shí)別模型,所述檢測(cè)分類模型包括大類分類模型以及每一大類對(duì)應(yīng)的細(xì)分分類模型,大類分類模型以及細(xì)分分類模型可解耦使用,提高適用性,每個(gè)細(xì)分分類模型只需要關(guān)注于某個(gè)細(xì)分類別降低訓(xùn)練難度,并且大類分類模型以及細(xì)分分類模型結(jié)合有利于提高準(zhǔn)確率;所述文字檢測(cè)網(wǎng)絡(luò)以深度卷積神經(jīng)網(wǎng)絡(luò)為主干網(wǎng)絡(luò)并結(jié)合像素聚合網(wǎng)絡(luò),有利于使得高低層特征都具有強(qiáng)空間和語(yǔ)義信息,所述文字識(shí)別網(wǎng)絡(luò)根據(jù)ctc?loss結(jié)合center?loss進(jìn)行訓(xùn)練,可以提高訓(xùn)練速度以及識(shí)別效果;獲取待分析對(duì)象,通過(guò)所述檢測(cè)分類模型對(duì)所述待分析對(duì)象進(jìn)行分類,確定目標(biāo)分類,并通過(guò)所述文字檢測(cè)網(wǎng)絡(luò)對(duì)所述待分析對(duì)象進(jìn)行檢測(cè),確定目標(biāo)文字區(qū)域,通過(guò)所述文字識(shí)別模型對(duì)所述目標(biāo)文字區(qū)域進(jìn)行識(shí)別,得到文字識(shí)別結(jié)果,有利于提高文字識(shí)別結(jié)果的準(zhǔn)確性。
36、為了更好地理解和實(shí)施,下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明。