本發(fā)明屬于模式識(shí)別中的文字識(shí)別領(lǐng)域,更具體地,涉及一種基于深度學(xué)習(xí)的文字識(shí)別方法。
背景技術(shù):
隨著現(xiàn)代科學(xué)技術(shù)的不斷發(fā)展與互聯(lián)網(wǎng)的廣泛普及,我們每天都要接觸到以各類(lèi)形式呈現(xiàn)的海量信息資源,特別是在我們平時(shí)的生活學(xué)習(xí)和工作當(dāng)中,經(jīng)常難以避免地需要處理大量的文字信息,并將其錄入到計(jì)算機(jī)中。因此,如何能夠快速準(zhǔn)確地將這些文字信息錄入到計(jì)算機(jī)等各類(lèi)電子設(shè)備之中便成為了一個(gè)急需解決的問(wèn)題。光學(xué)字符識(shí)別(簡(jiǎn)稱(chēng)ocr)是指通過(guò)借助機(jī)器設(shè)備自動(dòng)提取出圖片中的文字,并將其轉(zhuǎn)換成機(jī)器可以編輯的文字的一種技術(shù)。
一般而言,傳統(tǒng)的漢字識(shí)別方法主要包括數(shù)據(jù)預(yù)處理、特征提取和分類(lèi)識(shí)別三部分。
(1)預(yù)處理。預(yù)處理的作用在于加強(qiáng)有用圖像信息、去除噪聲、從而有利于特征提取。該過(guò)程通過(guò)二值化、平滑去噪和歸一化等手段來(lái)執(zhí)行。其中,二值化是實(shí)現(xiàn)灰度文本圖像到二值化文本圖像的轉(zhuǎn)化;去噪是將二值化后,圖像中的孤立點(diǎn)(污點(diǎn))去除;歸一化是規(guī)范文字的大小、位置形狀以減少相同字符之間的形變。
(2)特征提取。特征提取分為2大類(lèi):結(jié)構(gòu)特征提取與統(tǒng)計(jì)特征提取?;诮Y(jié)構(gòu)的特征提取是指,提取字符輪廓或骨架上的字符像素信息,如筆劃特征、輪廓、周邊特征、部件等,該方法能有效適應(yīng)字體變化,區(qū)分相似字能力強(qiáng),但是在圖像文本中存在各種干擾,如傾斜、扭曲、斷裂、粘連、五點(diǎn)等,該類(lèi)方法抗干擾能力較弱。對(duì)樣本進(jìn)行數(shù)學(xué)變換后提取的特征,被稱(chēng)為統(tǒng)計(jì)特征。主要采用的方法有小波變換、傅里葉變換、頻域變換、矩、,離散余弦變換等。提取出的特征通常供給統(tǒng)計(jì)分類(lèi)器使用??傮w而言,統(tǒng)計(jì)特征的識(shí)別相對(duì)結(jié)構(gòu)特征細(xì)分能力較弱,區(qū)分相似字的能力不強(qiáng)。
(3)分類(lèi)識(shí)別。分類(lèi)識(shí)別時(shí)對(duì)特征提取所獲得樣本,按建立的分類(lèi)規(guī)則進(jìn)行識(shí)別。分類(lèi)器是分類(lèi)識(shí)別的核心問(wèn)題,分類(lèi)器的作用是加快匹配速度,提高識(shí)別效率,達(dá)到識(shí)別效果。
但傳統(tǒng)漢字字體的識(shí)別方法存在著不足,因?yàn)闈h字字符的復(fù)雜性,特征提取方法不能處理多變的漢字外形,特征點(diǎn)提取方法需要人工專(zhuān)家定義重要的特征點(diǎn)位置,而且,對(duì)于那些特征點(diǎn)的重要性也不能給出統(tǒng)一的標(biāo)準(zhǔn),從而導(dǎo)致文字識(shí)別準(zhǔn)確率較低。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明的目的在于提供了一種基于深度學(xué)習(xí)的文字識(shí)別方法,由此解決目前的文字識(shí)別方法對(duì)文字的識(shí)別準(zhǔn)確率較低的技術(shù)問(wèn)題。
為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種基于深度學(xué)習(xí)的文字識(shí)別方法,包括:空間變換層構(gòu)建階段以及深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段;
所述空間變換層構(gòu)建階段包括:
定位網(wǎng)絡(luò)接收輸入的特征圖,經(jīng)過(guò)系列隱層,輸出空間變換參數(shù),其中,該參數(shù)是變換函數(shù)作用在特征圖上的參數(shù);
網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格;
采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果;
所述深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段包括:
構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),將構(gòu)建的空間變換層設(shè)置在深層卷積神經(jīng)網(wǎng)絡(luò)的最開(kāi)始位置得到目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò);
采用隨機(jī)梯度下降法對(duì)目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而得到字符識(shí)別模型,所述字符識(shí)別模型用于對(duì)輸入的待識(shí)別文字圖像進(jìn)行文字識(shí)別。
優(yōu)選地,所述定位網(wǎng)絡(luò)包括兩個(gè)卷積層,各卷積層的卷積核數(shù)量為m,大小為n,步長(zhǎng)為s,在每個(gè)卷積層后均設(shè)置一個(gè)最大值池化層,該池化層大小為l,步長(zhǎng)為t,在每個(gè)池化層后均設(shè)置一個(gè)relu層,在第二個(gè)relu層后設(shè)置一個(gè)全連接層,在全連接層后設(shè)置一個(gè)relu層,接著最后一層也是全連接層,用于輸出空間變換參數(shù),維度是d。
優(yōu)選地,所述網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格,包括:
由
優(yōu)選地,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:
由
優(yōu)選地,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:
由
優(yōu)選地,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:
由
總體而言,通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:本發(fā)明提出的基于深度學(xué)習(xí)的文字識(shí)別方法通過(guò)將空間變換層引入到卷積神經(jīng)網(wǎng)絡(luò)中,可以在網(wǎng)絡(luò)中對(duì)輸入文字圖像主動(dòng)進(jìn)行各種空間變換,并且無(wú)需對(duì)優(yōu)化過(guò)程進(jìn)行額外的訓(xùn)練監(jiān)督或者修改。結(jié)果表明,利用空間變換層可以令模型學(xué)習(xí)到對(duì)平移、縮放、旋轉(zhuǎn)以及更為一般性的空間扭曲不變性,能夠較好的識(shí)別存在較為明顯變形的字符。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法的流程示意圖;
圖2為本發(fā)明實(shí)施例公開(kāi)的一種空間變換層的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
本發(fā)明公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法,設(shè)計(jì)了一種深層的空間變換卷積神經(jīng)網(wǎng)絡(luò),可以主動(dòng)對(duì)輸入的字符圖像進(jìn)行各種空間變換,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的,同時(shí)提升網(wǎng)絡(luò)空間不變性的能力,針對(duì)漢字字符具有比較高的識(shí)別準(zhǔn)確率。
如圖1所示是本發(fā)明實(shí)施例公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法的流程示意圖,在圖1所示的方法中包括兩個(gè)階段,即空間變換層的構(gòu)建階段與深層卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練階段,下面對(duì)這兩個(gè)階段進(jìn)行具體說(shuō)明。
(a)空間變換層構(gòu)建階段包括:
定位網(wǎng)絡(luò)接收輸入的特征圖,經(jīng)過(guò)系列隱層,輸出空間變換參數(shù),其中,該參數(shù)是變換函數(shù)作用在特征圖上的參數(shù);
其中,定位網(wǎng)絡(luò)將特征圖
定位網(wǎng)絡(luò)函數(shù)floc()可以是任何形式,比如全連接網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò),但最后都要包含一個(gè)回歸層用于生成變換參數(shù)θ。
在本發(fā)明中,所述定位網(wǎng)絡(luò)包括兩個(gè)卷積層,各卷積層的卷積核數(shù)量為m,大小為n,步長(zhǎng)為s,在每個(gè)卷積層后均設(shè)置一個(gè)最大值池化層,該池化層大小為l,步長(zhǎng)為t,在每個(gè)池化層后均設(shè)置一個(gè)激活函數(shù)(rectifiedlinearunits,relu)層,在第二個(gè)relu層后設(shè)置一個(gè)全連接層,在全連接層后設(shè)置一個(gè)relu層,接著最后一層也是全連接層,用于輸出空間變換參數(shù),維度是d。優(yōu)選地,m取值為20,n取值為5,s取值為1,l取值為2,t取值為2,全連接層的輸出類(lèi)別優(yōu)選為20。
網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格;
其中,為了對(duì)輸入特征圖進(jìn)行各種變形處理,每個(gè)輸出像素通過(guò)一個(gè)采樣內(nèi)核進(jìn)行計(jì)算得到,該內(nèi)核以輸入特征圖中的一個(gè)特定位置為中心。這里的輸入像素指的是普通的特征圖中的一個(gè)像素,不一定必須是原始圖像。通常,輸出像素是在像素集
假設(shè)tθ是一個(gè)2維仿射變換aθ,那么逐像素變換如公式(1)所示。
其中
可以對(duì)變換tθ的類(lèi)別做更多的限制,比如,當(dāng)變換矩陣
采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果;
其中,為了在輸入特征圖上進(jìn)行空間變換,采樣器需要在特征圖u中使用采樣點(diǎn)集tθ(g)進(jìn)行采樣,從而得到采樣后的輸出特征圖v。tθ(g)中的每一個(gè)
其中φx和φy為通用采樣內(nèi)核k()的參數(shù),它們定義了圖像的插值操作(比如線性插值),
理論上,只要能夠?qū)?imgfile="bda0001341325350000076.gif"wi="51"he="64"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>以及
其中
為了能在這種采樣機(jī)制中實(shí)現(xiàn)損失的反向傳播,我們可以定義相對(duì)于u和g的梯度,對(duì)于雙線性采樣(4),偏導(dǎo)數(shù)如公式(5),(6)所示。
定位網(wǎng)絡(luò),網(wǎng)格生成器與采樣器三者形成了空間變換層,如圖2所示為空間變換層的結(jié)構(gòu)示意圖,這是一個(gè)完全獨(dú)立的模塊,可以以任意數(shù)量被布置在卷積神經(jīng)網(wǎng)絡(luò)中的任何位置,進(jìn)而得到空間變換網(wǎng)絡(luò)。該模塊計(jì)算速度快,對(duì)訓(xùn)練速度不會(huì)有影響,時(shí)間開(kāi)銷(xiāo)小。
(b)深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段包括:
構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),將構(gòu)建的空間變換層設(shè)置在深層卷積神經(jīng)網(wǎng)絡(luò)的最開(kāi)始位置得到目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò);
其中,構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò),包括定義構(gòu)成網(wǎng)絡(luò)的層數(shù),卷積窗大小與節(jié)點(diǎn)數(shù)等。作為一種可選的實(shí)施方式,在本發(fā)明實(shí)施例中,最后構(gòu)建完成的網(wǎng)絡(luò)含有參數(shù)的網(wǎng)絡(luò)層有14層(如果將輸入層、池化層以及softmax輸出也算在內(nèi)的話則有19層),網(wǎng)絡(luò)包含有4個(gè)inception模塊用于增加網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量,同時(shí)能夠有效控制網(wǎng)絡(luò)在訓(xùn)練時(shí)計(jì)算復(fù)雜度不會(huì)出現(xiàn)爆炸性增長(zhǎng)。每一個(gè)inception模塊由大小為1×1,3×3與5×5的卷積層以及一個(gè)3×3的最大值池化層組成。
采用隨機(jī)梯度下降法對(duì)目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而得到字符識(shí)別模型,所述字符識(shí)別模型用于對(duì)輸入的待識(shí)別文字圖像進(jìn)行文字識(shí)別。
其中,因?yàn)榭臻g變換層是完全獨(dú)立的,可以以任何數(shù)量安放在網(wǎng)絡(luò)的任何位置。在本發(fā)明中選擇將在上一階段中設(shè)計(jì)的空間變換層置于網(wǎng)絡(luò)的開(kāi)始處,也就是網(wǎng)絡(luò)的數(shù)據(jù)輸入層之后。
將空間變換層與深層卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,從而得到空間變換網(wǎng)絡(luò),能夠?qū)μ卣鲌D進(jìn)行主動(dòng)的空間變換,增強(qiáng)網(wǎng)絡(luò)對(duì)平移、縮放、旋轉(zhuǎn)以及更為一般化的空間扭曲的不變性。
使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到目標(biāo)網(wǎng)絡(luò),參數(shù)設(shè)置如下:batchsize為256,baselearningrate為0.01,不設(shè)置weightdecay,同時(shí)learningrate每50k次降低10倍。對(duì)網(wǎng)絡(luò)的權(quán)重進(jìn)行隨機(jī)初始化,但不包括定位網(wǎng)絡(luò)最后的回歸層,該層的初始化要考慮對(duì)恒等變換進(jìn)行回歸。目標(biāo)網(wǎng)絡(luò)用于對(duì)輸入的文字圖像進(jìn)行文字識(shí)別。
本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。