一種基于深度學(xué)習(xí)的文字識(shí)別方法與流程

文檔序號(hào)：11775303閱讀：489來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于模式識(shí)別中的文字識(shí)別領(lǐng)域，更具體地，涉及一種基于深度學(xué)習(xí)的文字識(shí)別方法。

背景技術(shù)：

隨著現(xiàn)代科學(xué)技術(shù)的不斷發(fā)展與互聯(lián)網(wǎng)的廣泛普及，我們每天都要接觸到以各類(lèi)形式呈現(xiàn)的海量信息資源，特別是在我們平時(shí)的生活學(xué)習(xí)和工作當(dāng)中，經(jīng)常難以避免地需要處理大量的文字信息，并將其錄入到計(jì)算機(jī)中。因此，如何能夠快速準(zhǔn)確地將這些文字信息錄入到計(jì)算機(jī)等各類(lèi)電子設(shè)備之中便成為了一個(gè)急需解決的問(wèn)題。光學(xué)字符識(shí)別(簡(jiǎn)稱(chēng)ocr)是指通過(guò)借助機(jī)器設(shè)備自動(dòng)提取出圖片中的文字，并將其轉(zhuǎn)換成機(jī)器可以編輯的文字的一種技術(shù)。

一般而言，傳統(tǒng)的漢字識(shí)別方法主要包括數(shù)據(jù)預(yù)處理、特征提取和分類(lèi)識(shí)別三部分。

(1)預(yù)處理。預(yù)處理的作用在于加強(qiáng)有用圖像信息、去除噪聲、從而有利于特征提取。該過(guò)程通過(guò)二值化、平滑去噪和歸一化等手段來(lái)執(zhí)行。其中，二值化是實(shí)現(xiàn)灰度文本圖像到二值化文本圖像的轉(zhuǎn)化；去噪是將二值化后，圖像中的孤立點(diǎn)(污點(diǎn))去除；歸一化是規(guī)范文字的大小、位置形狀以減少相同字符之間的形變。

(2)特征提取。特征提取分為2大類(lèi)：結(jié)構(gòu)特征提取與統(tǒng)計(jì)特征提取?；诮Y(jié)構(gòu)的特征提取是指，提取字符輪廓或骨架上的字符像素信息，如筆劃特征、輪廓、周邊特征、部件等，該方法能有效適應(yīng)字體變化，區(qū)分相似字能力強(qiáng)，但是在圖像文本中存在各種干擾，如傾斜、扭曲、斷裂、粘連、五點(diǎn)等，該類(lèi)方法抗干擾能力較弱。對(duì)樣本進(jìn)行數(shù)學(xué)變換后提取的特征，被稱(chēng)為統(tǒng)計(jì)特征。主要采用的方法有小波變換、傅里葉變換、頻域變換、矩、，離散余弦變換等。提取出的特征通常供給統(tǒng)計(jì)分類(lèi)器使用?？傮w而言，統(tǒng)計(jì)特征的識(shí)別相對(duì)結(jié)構(gòu)特征細(xì)分能力較弱，區(qū)分相似字的能力不強(qiáng)。

(3)分類(lèi)識(shí)別。分類(lèi)識(shí)別時(shí)對(duì)特征提取所獲得樣本，按建立的分類(lèi)規(guī)則進(jìn)行識(shí)別。分類(lèi)器是分類(lèi)識(shí)別的核心問(wèn)題，分類(lèi)器的作用是加快匹配速度，提高識(shí)別效率，達(dá)到識(shí)別效果。

但傳統(tǒng)漢字字體的識(shí)別方法存在著不足，因?yàn)闈h字字符的復(fù)雜性，特征提取方法不能處理多變的漢字外形，特征點(diǎn)提取方法需要人工專(zhuān)家定義重要的特征點(diǎn)位置，而且，對(duì)于那些特征點(diǎn)的重要性也不能給出統(tǒng)一的標(biāo)準(zhǔn)，從而導(dǎo)致文字識(shí)別準(zhǔn)確率較低。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求，本發(fā)明的目的在于提供了一種基于深度學(xué)習(xí)的文字識(shí)別方法，由此解決目前的文字識(shí)別方法對(duì)文字的識(shí)別準(zhǔn)確率較低的技術(shù)問(wèn)題。

為實(shí)現(xiàn)上述目的，按照本發(fā)明的一個(gè)方面，提供了一種基于深度學(xué)習(xí)的文字識(shí)別方法，包括：空間變換層構(gòu)建階段以及深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段；

所述空間變換層構(gòu)建階段包括：

定位網(wǎng)絡(luò)接收輸入的特征圖，經(jīng)過(guò)系列隱層，輸出空間變換參數(shù)，其中，該參數(shù)是變換函數(shù)作用在特征圖上的參數(shù)；

網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格；

采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入，在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣，最后得到輸出特征圖結(jié)果；

所述深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段包括：

構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，將構(gòu)建的空間變換層設(shè)置在深層卷積神經(jīng)網(wǎng)絡(luò)的最開(kāi)始位置得到目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò)；

采用隨機(jī)梯度下降法對(duì)目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，進(jìn)而得到字符識(shí)別模型，所述字符識(shí)別模型用于對(duì)輸入的待識(shí)別文字圖像進(jìn)行文字識(shí)別。

優(yōu)選地，所述定位網(wǎng)絡(luò)包括兩個(gè)卷積層，各卷積層的卷積核數(shù)量為m，大小為n，步長(zhǎng)為s，在每個(gè)卷積層后均設(shè)置一個(gè)最大值池化層，該池化層大小為l，步長(zhǎng)為t，在每個(gè)池化層后均設(shè)置一個(gè)relu層，在第二個(gè)relu層后設(shè)置一個(gè)全連接層，在全連接層后設(shè)置一個(gè)relu層，接著最后一層也是全連接層，用于輸出空間變換參數(shù)，維度是d。

優(yōu)選地，所述網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格，包括：

由得到輸入特征圖中的各像素變換后的輸出像素，由所有輸出像素組成輸出特征圖中的采樣網(wǎng)格，其中，表示輸入特征圖中在第i個(gè)像素的源坐標(biāo)，表示輸出特征圖中的采樣網(wǎng)格在第i個(gè)像素的目標(biāo)坐標(biāo)，aθ表示仿射變換矩陣，為定位網(wǎng)絡(luò)輸出的空間變換參數(shù)，gi表示采樣網(wǎng)格中的像素集。

優(yōu)選地，所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入，在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣，最后得到輸出特征圖結(jié)果，包括：

由得到輸出特征圖中各像素對(duì)應(yīng)的坐標(biāo)點(diǎn)的像素值，其中，φx和φy為采樣內(nèi)核k()的參數(shù)，是輸入特征圖的c通道在輸入特征圖中第i個(gè)像素的坐標(biāo)點(diǎn)(n,m)的像素值，vi^c是輸出特征圖的c通道在輸出特征圖中坐標(biāo)點(diǎn)的輸出像素值，w表示輸入特征圖的寬，h表示輸入特征圖的高，c表示輸入特征圖的通道數(shù)。

由得到輸出特征圖中各像素對(duì)應(yīng)的坐標(biāo)點(diǎn)的像素值，其中，表示向下取整，δ()表示克羅內(nèi)克函數(shù)，是輸入特征圖的c通道在輸入特征圖中第i個(gè)像素的坐標(biāo)點(diǎn)(n,m)的像素值，vi^c是輸出特征圖的c通道在輸出特征圖中坐標(biāo)點(diǎn)的輸出像素值，w表示輸入特征圖的寬，h表示輸入特征圖的高，c表示輸入特征圖的通道數(shù)。

由得到輸出特征圖中各像素對(duì)應(yīng)的坐標(biāo)點(diǎn)的像素值，其中，是輸入特征圖的c通道在輸入特征圖中坐標(biāo)點(diǎn)(n,m)的像素值，vi^c是輸出特征圖的c通道在輸出特征圖中第i個(gè)像素的坐標(biāo)點(diǎn)的輸出像素值，w表示輸入特征圖的寬，h表示輸入特征圖的高，c表示輸入特征圖的通道數(shù)。

總體而言，通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比，能夠取得下列有益效果：本發(fā)明提出的基于深度學(xué)習(xí)的文字識(shí)別方法通過(guò)將空間變換層引入到卷積神經(jīng)網(wǎng)絡(luò)中，可以在網(wǎng)絡(luò)中對(duì)輸入文字圖像主動(dòng)進(jìn)行各種空間變換，并且無(wú)需對(duì)優(yōu)化過(guò)程進(jìn)行額外的訓(xùn)練監(jiān)督或者修改。結(jié)果表明，利用空間變換層可以令模型學(xué)習(xí)到對(duì)平移、縮放、旋轉(zhuǎn)以及更為一般性的空間扭曲不變性，能夠較好的識(shí)別存在較為明顯變形的字符。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法的流程示意圖；

圖2為本發(fā)明實(shí)施例公開(kāi)的一種空間變換層的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。此外，下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。

本發(fā)明公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法，設(shè)計(jì)了一種深層的空間變換卷積神經(jīng)網(wǎng)絡(luò)，可以主動(dòng)對(duì)輸入的字符圖像進(jìn)行各種空間變換，從而達(dá)到數(shù)據(jù)增強(qiáng)的目的，同時(shí)提升網(wǎng)絡(luò)空間不變性的能力，針對(duì)漢字字符具有比較高的識(shí)別準(zhǔn)確率。

如圖1所示是本發(fā)明實(shí)施例公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法的流程示意圖，在圖1所示的方法中包括兩個(gè)階段，即空間變換層的構(gòu)建階段與深層卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練階段，下面對(duì)這兩個(gè)階段進(jìn)行具體說(shuō)明。

(a)空間變換層構(gòu)建階段包括：

其中，定位網(wǎng)絡(luò)將特征圖作為輸入，寬為w，高為h，通道數(shù)為c，輸出為θ，θ是變換函數(shù)tθ作用在特征圖上的參數(shù)：θ＝floc(u)。θ的形式可以多樣，取決于參數(shù)化后的變換類(lèi)型，比如對(duì)于仿射變換，那么θ就是一個(gè)6維的輸出。

定位網(wǎng)絡(luò)函數(shù)floc()可以是任何形式，比如全連接網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò)，但最后都要包含一個(gè)回歸層用于生成變換參數(shù)θ。

在本發(fā)明中，所述定位網(wǎng)絡(luò)包括兩個(gè)卷積層，各卷積層的卷積核數(shù)量為m，大小為n，步長(zhǎng)為s，在每個(gè)卷積層后均設(shè)置一個(gè)最大值池化層，該池化層大小為l，步長(zhǎng)為t，在每個(gè)池化層后均設(shè)置一個(gè)激活函數(shù)(rectifiedlinearunits，relu)層，在第二個(gè)relu層后設(shè)置一個(gè)全連接層，在全連接層后設(shè)置一個(gè)relu層，接著最后一層也是全連接層，用于輸出空間變換參數(shù)，維度是d。優(yōu)選地，m取值為20，n取值為5，s取值為1，l取值為2，t取值為2，全連接層的輸出類(lèi)別優(yōu)選為20。

網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格；

其中，為了對(duì)輸入特征圖進(jìn)行各種變形處理，每個(gè)輸出像素通過(guò)一個(gè)采樣內(nèi)核進(jìn)行計(jì)算得到，該內(nèi)核以輸入特征圖中的一個(gè)特定位置為中心。這里的輸入像素指的是普通的特征圖中的一個(gè)像素，不一定必須是原始圖像。通常，輸出像素是在像素集的采樣網(wǎng)格g＝{gi}中被定義，從而產(chǎn)生輸出特征圖其中h'和w'表示采樣網(wǎng)格的高度和寬度，c表示通道數(shù)。

假設(shè)tθ是一個(gè)2維仿射變換aθ，那么逐像素變換如公式(1)所示。

其中是輸出特征圖中采樣網(wǎng)格在第i個(gè)像素的目標(biāo)坐標(biāo)，是定義第i個(gè)采樣點(diǎn)的輸入特征圖中的源坐標(biāo)，aθ是仿射變換矩陣。我們使用高度與寬度歸一化后的坐標(biāo)，使得在輸出的空間邊界中有在輸入的空間邊界中有(對(duì)于y坐標(biāo)也是類(lèi)似的)。源/目標(biāo)變換與采樣操作與圖形學(xué)中的標(biāo)準(zhǔn)紋理映射以及坐標(biāo)是等同的。

可以對(duì)變換tθ的類(lèi)別做更多的限制，比如，當(dāng)變換矩陣時(shí)，可以通過(guò)調(diào)整s，tx和ty來(lái)實(shí)現(xiàn)裁剪、平移以及縮放等操作。事實(shí)上，變換可以包含任何參數(shù)化的形式，但有一個(gè)條件，就是其相對(duì)于參數(shù)能夠可微分，這一點(diǎn)很關(guān)鍵，它可以允許將梯度從采樣點(diǎn)tθ(gi)反向傳播到定位網(wǎng)絡(luò)，進(jìn)而得到參數(shù)θ。

采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入，在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣，最后得到輸出特征圖結(jié)果；

其中，為了在輸入特征圖上進(jìn)行空間變換，采樣器需要在特征圖u中使用采樣點(diǎn)集tθ(g)進(jìn)行采樣，從而得到采樣后的輸出特征圖v。tθ(g)中的每一個(gè)坐標(biāo)定義了輸入特征圖的空間位置，在輸入特征圖中使用采樣內(nèi)核進(jìn)行采樣，得到輸出特征圖特定像素值，如公式(2)所示。

其中φx和φy為通用采樣內(nèi)核k()的參數(shù)，它們定義了圖像的插值操作(比如線性插值)，是輸入特征圖的c通道在輸入特征圖中坐標(biāo)點(diǎn)(n,m)的值，vi^c是c通道在輸出特征圖中第i個(gè)像素的坐標(biāo)的輸出像素值。注意，對(duì)輸入特征圖的每一個(gè)通道都是完全相同的采樣處理，因此每一個(gè)通道都是以完全相同的方式被轉(zhuǎn)換的(這樣做可以保持通道之間的空間一致性)。

理論上，只要能夠?qū)?imgfile="bda0001341325350000076.gif"wi="51"he="64"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>以及定義子梯度，任何形式的采樣內(nèi)核都可以被拿來(lái)使用。比如，使用整數(shù)采樣內(nèi)核可以將公式(2)轉(zhuǎn)化為公式(3)。

其中表示將x四舍五入到最接近的整數(shù)。δ()表示克羅內(nèi)克函數(shù)。該采樣內(nèi)核等同于將距離最近的像素的值復(fù)制到輸出位置或者也可以使用雙線性采樣內(nèi)核，如公式(4)所示。

為了能在這種采樣機(jī)制中實(shí)現(xiàn)損失的反向傳播，我們可以定義相對(duì)于u和g的梯度，對(duì)于雙線性采樣(4)，偏導(dǎo)數(shù)如公式(5)，(6)所示。

的計(jì)算方式同(6)類(lèi)似。

定位網(wǎng)絡(luò)，網(wǎng)格生成器與采樣器三者形成了空間變換層，如圖2所示為空間變換層的結(jié)構(gòu)示意圖，這是一個(gè)完全獨(dú)立的模塊，可以以任意數(shù)量被布置在卷積神經(jīng)網(wǎng)絡(luò)中的任何位置，進(jìn)而得到空間變換網(wǎng)絡(luò)。該模塊計(jì)算速度快，對(duì)訓(xùn)練速度不會(huì)有影響，時(shí)間開(kāi)銷(xiāo)小。

(b)深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段包括：

其中，構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)，包括定義構(gòu)成網(wǎng)絡(luò)的層數(shù)，卷積窗大小與節(jié)點(diǎn)數(shù)等。作為一種可選的實(shí)施方式，在本發(fā)明實(shí)施例中，最后構(gòu)建完成的網(wǎng)絡(luò)含有參數(shù)的網(wǎng)絡(luò)層有14層(如果將輸入層、池化層以及softmax輸出也算在內(nèi)的話則有19層)，網(wǎng)絡(luò)包含有4個(gè)inception模塊用于增加網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量，同時(shí)能夠有效控制網(wǎng)絡(luò)在訓(xùn)練時(shí)計(jì)算復(fù)雜度不會(huì)出現(xiàn)爆炸性增長(zhǎng)。每一個(gè)inception模塊由大小為1×1，3×3與5×5的卷積層以及一個(gè)3×3的最大值池化層組成。

其中，因?yàn)榭臻g變換層是完全獨(dú)立的，可以以任何數(shù)量安放在網(wǎng)絡(luò)的任何位置。在本發(fā)明中選擇將在上一階段中設(shè)計(jì)的空間變換層置于網(wǎng)絡(luò)的開(kāi)始處，也就是網(wǎng)絡(luò)的數(shù)據(jù)輸入層之后。

將空間變換層與深層卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合，從而得到空間變換網(wǎng)絡(luò)，能夠?qū)μ卣鲌D進(jìn)行主動(dòng)的空間變換，增強(qiáng)網(wǎng)絡(luò)對(duì)平移、縮放、旋轉(zhuǎn)以及更為一般化的空間扭曲的不變性。

使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到目標(biāo)網(wǎng)絡(luò)，參數(shù)設(shè)置如下：batchsize為256，baselearningrate為0.01，不設(shè)置weightdecay，同時(shí)learningrate每50k次降低10倍。對(duì)網(wǎng)絡(luò)的權(quán)重進(jìn)行隨機(jī)初始化，但不包括定位網(wǎng)絡(luò)最后的回歸層，該層的初始化要考慮對(duì)恒等變換進(jìn)行回歸。目標(biāo)網(wǎng)絡(luò)用于對(duì)輸入的文字圖像進(jìn)行文字識(shí)別。

本領(lǐng)域的技術(shù)人員容易理解，以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：凌賀飛;趙航;李平
技術(shù)所有人：華中科技大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度學(xué)習(xí)的文字識(shí)別方法與流程