欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度學(xué)習(xí)的文字識(shí)別方法與流程

文檔序號(hào):11775303閱讀:489來(lái)源:國(guó)知局
一種基于深度學(xué)習(xí)的文字識(shí)別方法與流程

本發(fā)明屬于模式識(shí)別中的文字識(shí)別領(lǐng)域,更具體地,涉及一種基于深度學(xué)習(xí)的文字識(shí)別方法。



背景技術(shù):

隨著現(xiàn)代科學(xué)技術(shù)的不斷發(fā)展與互聯(lián)網(wǎng)的廣泛普及,我們每天都要接觸到以各類(lèi)形式呈現(xiàn)的海量信息資源,特別是在我們平時(shí)的生活學(xué)習(xí)和工作當(dāng)中,經(jīng)常難以避免地需要處理大量的文字信息,并將其錄入到計(jì)算機(jī)中。因此,如何能夠快速準(zhǔn)確地將這些文字信息錄入到計(jì)算機(jī)等各類(lèi)電子設(shè)備之中便成為了一個(gè)急需解決的問(wèn)題。光學(xué)字符識(shí)別(簡(jiǎn)稱(chēng)ocr)是指通過(guò)借助機(jī)器設(shè)備自動(dòng)提取出圖片中的文字,并將其轉(zhuǎn)換成機(jī)器可以編輯的文字的一種技術(shù)。

一般而言,傳統(tǒng)的漢字識(shí)別方法主要包括數(shù)據(jù)預(yù)處理、特征提取和分類(lèi)識(shí)別三部分。

(1)預(yù)處理。預(yù)處理的作用在于加強(qiáng)有用圖像信息、去除噪聲、從而有利于特征提取。該過(guò)程通過(guò)二值化、平滑去噪和歸一化等手段來(lái)執(zhí)行。其中,二值化是實(shí)現(xiàn)灰度文本圖像到二值化文本圖像的轉(zhuǎn)化;去噪是將二值化后,圖像中的孤立點(diǎn)(污點(diǎn))去除;歸一化是規(guī)范文字的大小、位置形狀以減少相同字符之間的形變。

(2)特征提取。特征提取分為2大類(lèi):結(jié)構(gòu)特征提取與統(tǒng)計(jì)特征提取?;诮Y(jié)構(gòu)的特征提取是指,提取字符輪廓或骨架上的字符像素信息,如筆劃特征、輪廓、周邊特征、部件等,該方法能有效適應(yīng)字體變化,區(qū)分相似字能力強(qiáng),但是在圖像文本中存在各種干擾,如傾斜、扭曲、斷裂、粘連、五點(diǎn)等,該類(lèi)方法抗干擾能力較弱。對(duì)樣本進(jìn)行數(shù)學(xué)變換后提取的特征,被稱(chēng)為統(tǒng)計(jì)特征。主要采用的方法有小波變換、傅里葉變換、頻域變換、矩、,離散余弦變換等。提取出的特征通常供給統(tǒng)計(jì)分類(lèi)器使用??傮w而言,統(tǒng)計(jì)特征的識(shí)別相對(duì)結(jié)構(gòu)特征細(xì)分能力較弱,區(qū)分相似字的能力不強(qiáng)。

(3)分類(lèi)識(shí)別。分類(lèi)識(shí)別時(shí)對(duì)特征提取所獲得樣本,按建立的分類(lèi)規(guī)則進(jìn)行識(shí)別。分類(lèi)器是分類(lèi)識(shí)別的核心問(wèn)題,分類(lèi)器的作用是加快匹配速度,提高識(shí)別效率,達(dá)到識(shí)別效果。

但傳統(tǒng)漢字字體的識(shí)別方法存在著不足,因?yàn)闈h字字符的復(fù)雜性,特征提取方法不能處理多變的漢字外形,特征點(diǎn)提取方法需要人工專(zhuān)家定義重要的特征點(diǎn)位置,而且,對(duì)于那些特征點(diǎn)的重要性也不能給出統(tǒng)一的標(biāo)準(zhǔn),從而導(dǎo)致文字識(shí)別準(zhǔn)確率較低。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明的目的在于提供了一種基于深度學(xué)習(xí)的文字識(shí)別方法,由此解決目前的文字識(shí)別方法對(duì)文字的識(shí)別準(zhǔn)確率較低的技術(shù)問(wèn)題。

為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種基于深度學(xué)習(xí)的文字識(shí)別方法,包括:空間變換層構(gòu)建階段以及深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段;

所述空間變換層構(gòu)建階段包括:

定位網(wǎng)絡(luò)接收輸入的特征圖,經(jīng)過(guò)系列隱層,輸出空間變換參數(shù),其中,該參數(shù)是變換函數(shù)作用在特征圖上的參數(shù);

網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格;

采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果;

所述深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段包括:

構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),將構(gòu)建的空間變換層設(shè)置在深層卷積神經(jīng)網(wǎng)絡(luò)的最開(kāi)始位置得到目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò);

采用隨機(jī)梯度下降法對(duì)目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而得到字符識(shí)別模型,所述字符識(shí)別模型用于對(duì)輸入的待識(shí)別文字圖像進(jìn)行文字識(shí)別。

優(yōu)選地,所述定位網(wǎng)絡(luò)包括兩個(gè)卷積層,各卷積層的卷積核數(shù)量為m,大小為n,步長(zhǎng)為s,在每個(gè)卷積層后均設(shè)置一個(gè)最大值池化層,該池化層大小為l,步長(zhǎng)為t,在每個(gè)池化層后均設(shè)置一個(gè)relu層,在第二個(gè)relu層后設(shè)置一個(gè)全連接層,在全連接層后設(shè)置一個(gè)relu層,接著最后一層也是全連接層,用于輸出空間變換參數(shù),維度是d。

優(yōu)選地,所述網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格,包括:

得到輸入特征圖中的各像素變換后的輸出像素,由所有輸出像素組成輸出特征圖中的采樣網(wǎng)格,其中,表示輸入特征圖中在第i個(gè)像素的源坐標(biāo),表示輸出特征圖中的采樣網(wǎng)格在第i個(gè)像素的目標(biāo)坐標(biāo),aθ表示仿射變換矩陣,為定位網(wǎng)絡(luò)輸出的空間變換參數(shù),gi表示采樣網(wǎng)格中的像素集。

優(yōu)選地,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:

得到輸出特征圖中各像素對(duì)應(yīng)的坐標(biāo)點(diǎn)的像素值,其中,φx和φy為采樣內(nèi)核k()的參數(shù),是輸入特征圖的c通道在輸入特征圖中第i個(gè)像素的坐標(biāo)點(diǎn)(n,m)的像素值,vic是輸出特征圖的c通道在輸出特征圖中坐標(biāo)點(diǎn)的輸出像素值,w表示輸入特征圖的寬,h表示輸入特征圖的高,c表示輸入特征圖的通道數(shù)。

優(yōu)選地,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:

得到輸出特征圖中各像素對(duì)應(yīng)的坐標(biāo)點(diǎn)的像素值,其中,表示向下取整,δ()表示克羅內(nèi)克函數(shù),是輸入特征圖的c通道在輸入特征圖中第i個(gè)像素的坐標(biāo)點(diǎn)(n,m)的像素值,vic是輸出特征圖的c通道在輸出特征圖中坐標(biāo)點(diǎn)的輸出像素值,w表示輸入特征圖的寬,h表示輸入特征圖的高,c表示輸入特征圖的通道數(shù)。

優(yōu)選地,所述采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果,包括:

得到輸出特征圖中各像素對(duì)應(yīng)的坐標(biāo)點(diǎn)的像素值,其中,是輸入特征圖的c通道在輸入特征圖中坐標(biāo)點(diǎn)(n,m)的像素值,vic是輸出特征圖的c通道在輸出特征圖中第i個(gè)像素的坐標(biāo)點(diǎn)的輸出像素值,w表示輸入特征圖的寬,h表示輸入特征圖的高,c表示輸入特征圖的通道數(shù)。

總體而言,通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:本發(fā)明提出的基于深度學(xué)習(xí)的文字識(shí)別方法通過(guò)將空間變換層引入到卷積神經(jīng)網(wǎng)絡(luò)中,可以在網(wǎng)絡(luò)中對(duì)輸入文字圖像主動(dòng)進(jìn)行各種空間變換,并且無(wú)需對(duì)優(yōu)化過(guò)程進(jìn)行額外的訓(xùn)練監(jiān)督或者修改。結(jié)果表明,利用空間變換層可以令模型學(xué)習(xí)到對(duì)平移、縮放、旋轉(zhuǎn)以及更為一般性的空間扭曲不變性,能夠較好的識(shí)別存在較為明顯變形的字符。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法的流程示意圖;

圖2為本發(fā)明實(shí)施例公開(kāi)的一種空間變換層的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。

本發(fā)明公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法,設(shè)計(jì)了一種深層的空間變換卷積神經(jīng)網(wǎng)絡(luò),可以主動(dòng)對(duì)輸入的字符圖像進(jìn)行各種空間變換,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的,同時(shí)提升網(wǎng)絡(luò)空間不變性的能力,針對(duì)漢字字符具有比較高的識(shí)別準(zhǔn)確率。

如圖1所示是本發(fā)明實(shí)施例公開(kāi)的一種基于深度學(xué)習(xí)的文字識(shí)別方法的流程示意圖,在圖1所示的方法中包括兩個(gè)階段,即空間變換層的構(gòu)建階段與深層卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練階段,下面對(duì)這兩個(gè)階段進(jìn)行具體說(shuō)明。

(a)空間變換層構(gòu)建階段包括:

定位網(wǎng)絡(luò)接收輸入的特征圖,經(jīng)過(guò)系列隱層,輸出空間變換參數(shù),其中,該參數(shù)是變換函數(shù)作用在特征圖上的參數(shù);

其中,定位網(wǎng)絡(luò)將特征圖作為輸入,寬為w,高為h,通道數(shù)為c,輸出為θ,θ是變換函數(shù)tθ作用在特征圖上的參數(shù):θ=floc(u)。θ的形式可以多樣,取決于參數(shù)化后的變換類(lèi)型,比如對(duì)于仿射變換,那么θ就是一個(gè)6維的輸出。

定位網(wǎng)絡(luò)函數(shù)floc()可以是任何形式,比如全連接網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò),但最后都要包含一個(gè)回歸層用于生成變換參數(shù)θ。

在本發(fā)明中,所述定位網(wǎng)絡(luò)包括兩個(gè)卷積層,各卷積層的卷積核數(shù)量為m,大小為n,步長(zhǎng)為s,在每個(gè)卷積層后均設(shè)置一個(gè)最大值池化層,該池化層大小為l,步長(zhǎng)為t,在每個(gè)池化層后均設(shè)置一個(gè)激活函數(shù)(rectifiedlinearunits,relu)層,在第二個(gè)relu層后設(shè)置一個(gè)全連接層,在全連接層后設(shè)置一個(gè)relu層,接著最后一層也是全連接層,用于輸出空間變換參數(shù),維度是d。優(yōu)選地,m取值為20,n取值為5,s取值為1,l取值為2,t取值為2,全連接層的輸出類(lèi)別優(yōu)選為20。

網(wǎng)格生成器使用定位網(wǎng)絡(luò)輸出的空間變換參數(shù)產(chǎn)生出采樣網(wǎng)格;

其中,為了對(duì)輸入特征圖進(jìn)行各種變形處理,每個(gè)輸出像素通過(guò)一個(gè)采樣內(nèi)核進(jìn)行計(jì)算得到,該內(nèi)核以輸入特征圖中的一個(gè)特定位置為中心。這里的輸入像素指的是普通的特征圖中的一個(gè)像素,不一定必須是原始圖像。通常,輸出像素是在像素集的采樣網(wǎng)格g={gi}中被定義,從而產(chǎn)生輸出特征圖其中h'和w'表示采樣網(wǎng)格的高度和寬度,c表示通道數(shù)。

假設(shè)tθ是一個(gè)2維仿射變換aθ,那么逐像素變換如公式(1)所示。

其中是輸出特征圖中采樣網(wǎng)格在第i個(gè)像素的目標(biāo)坐標(biāo),是定義第i個(gè)采樣點(diǎn)的輸入特征圖中的源坐標(biāo),aθ是仿射變換矩陣。我們使用高度與寬度歸一化后的坐標(biāo),使得在輸出的空間邊界中有在輸入的空間邊界中有(對(duì)于y坐標(biāo)也是類(lèi)似的)。源/目標(biāo)變換與采樣操作與圖形學(xué)中的標(biāo)準(zhǔn)紋理映射以及坐標(biāo)是等同的。

可以對(duì)變換tθ的類(lèi)別做更多的限制,比如,當(dāng)變換矩陣時(shí),可以通過(guò)調(diào)整s,tx和ty來(lái)實(shí)現(xiàn)裁剪、平移以及縮放等操作。事實(shí)上,變換可以包含任何參數(shù)化的形式,但有一個(gè)條件,就是其相對(duì)于參數(shù)能夠可微分,這一點(diǎn)很關(guān)鍵,它可以允許將梯度從采樣點(diǎn)tθ(gi)反向傳播到定位網(wǎng)絡(luò),進(jìn)而得到參數(shù)θ。

采樣器將輸入的特征圖以及采樣網(wǎng)格作為輸入,在采樣網(wǎng)格點(diǎn)上對(duì)輸入的特征圖進(jìn)行采樣,最后得到輸出特征圖結(jié)果;

其中,為了在輸入特征圖上進(jìn)行空間變換,采樣器需要在特征圖u中使用采樣點(diǎn)集tθ(g)進(jìn)行采樣,從而得到采樣后的輸出特征圖v。tθ(g)中的每一個(gè)坐標(biāo)定義了輸入特征圖的空間位置,在輸入特征圖中使用采樣內(nèi)核進(jìn)行采樣,得到輸出特征圖特定像素值,如公式(2)所示。

其中φx和φy為通用采樣內(nèi)核k()的參數(shù),它們定義了圖像的插值操作(比如線性插值),是輸入特征圖的c通道在輸入特征圖中坐標(biāo)點(diǎn)(n,m)的值,vic是c通道在輸出特征圖中第i個(gè)像素的坐標(biāo)的輸出像素值。注意,對(duì)輸入特征圖的每一個(gè)通道都是完全相同的采樣處理,因此每一個(gè)通道都是以完全相同的方式被轉(zhuǎn)換的(這樣做可以保持通道之間的空間一致性)。

理論上,只要能夠?qū)?imgfile="bda0001341325350000076.gif"wi="51"he="64"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>以及定義子梯度,任何形式的采樣內(nèi)核都可以被拿來(lái)使用。比如,使用整數(shù)采樣內(nèi)核可以將公式(2)轉(zhuǎn)化為公式(3)。

其中表示將x四舍五入到最接近的整數(shù)。δ()表示克羅內(nèi)克函數(shù)。該采樣內(nèi)核等同于將距離最近的像素的值復(fù)制到輸出位置或者也可以使用雙線性采樣內(nèi)核,如公式(4)所示。

為了能在這種采樣機(jī)制中實(shí)現(xiàn)損失的反向傳播,我們可以定義相對(duì)于u和g的梯度,對(duì)于雙線性采樣(4),偏導(dǎo)數(shù)如公式(5),(6)所示。

的計(jì)算方式同(6)類(lèi)似。

定位網(wǎng)絡(luò),網(wǎng)格生成器與采樣器三者形成了空間變換層,如圖2所示為空間變換層的結(jié)構(gòu)示意圖,這是一個(gè)完全獨(dú)立的模塊,可以以任意數(shù)量被布置在卷積神經(jīng)網(wǎng)絡(luò)中的任何位置,進(jìn)而得到空間變換網(wǎng)絡(luò)。該模塊計(jì)算速度快,對(duì)訓(xùn)練速度不會(huì)有影響,時(shí)間開(kāi)銷(xiāo)小。

(b)深層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練階段包括:

構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),將構(gòu)建的空間變換層設(shè)置在深層卷積神經(jīng)網(wǎng)絡(luò)的最開(kāi)始位置得到目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò);

其中,構(gòu)建深層卷積神經(jīng)網(wǎng)絡(luò),包括定義構(gòu)成網(wǎng)絡(luò)的層數(shù),卷積窗大小與節(jié)點(diǎn)數(shù)等。作為一種可選的實(shí)施方式,在本發(fā)明實(shí)施例中,最后構(gòu)建完成的網(wǎng)絡(luò)含有參數(shù)的網(wǎng)絡(luò)層有14層(如果將輸入層、池化層以及softmax輸出也算在內(nèi)的話則有19層),網(wǎng)絡(luò)包含有4個(gè)inception模塊用于增加網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量,同時(shí)能夠有效控制網(wǎng)絡(luò)在訓(xùn)練時(shí)計(jì)算復(fù)雜度不會(huì)出現(xiàn)爆炸性增長(zhǎng)。每一個(gè)inception模塊由大小為1×1,3×3與5×5的卷積層以及一個(gè)3×3的最大值池化層組成。

采用隨機(jī)梯度下降法對(duì)目標(biāo)深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而得到字符識(shí)別模型,所述字符識(shí)別模型用于對(duì)輸入的待識(shí)別文字圖像進(jìn)行文字識(shí)別。

其中,因?yàn)榭臻g變換層是完全獨(dú)立的,可以以任何數(shù)量安放在網(wǎng)絡(luò)的任何位置。在本發(fā)明中選擇將在上一階段中設(shè)計(jì)的空間變換層置于網(wǎng)絡(luò)的開(kāi)始處,也就是網(wǎng)絡(luò)的數(shù)據(jù)輸入層之后。

將空間變換層與深層卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,從而得到空間變換網(wǎng)絡(luò),能夠?qū)μ卣鲌D進(jìn)行主動(dòng)的空間變換,增強(qiáng)網(wǎng)絡(luò)對(duì)平移、縮放、旋轉(zhuǎn)以及更為一般化的空間扭曲的不變性。

使用隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練得到目標(biāo)網(wǎng)絡(luò),參數(shù)設(shè)置如下:batchsize為256,baselearningrate為0.01,不設(shè)置weightdecay,同時(shí)learningrate每50k次降低10倍。對(duì)網(wǎng)絡(luò)的權(quán)重進(jìn)行隨機(jī)初始化,但不包括定位網(wǎng)絡(luò)最后的回歸層,該層的初始化要考慮對(duì)恒等變換進(jìn)行回歸。目標(biāo)網(wǎng)絡(luò)用于對(duì)輸入的文字圖像進(jìn)行文字識(shí)別。

本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
邹平县| 平邑县| 二手房| 年辖:市辖区| 宜阳县| 印江| 河津市| 通山县| 惠州市| 靖西县| 西乌珠穆沁旗| 河北省| 都江堰市| 隆化县| 东莞市| 铅山县| 宁国市| 津市市| 广昌县| 龙陵县| 抚松县| 巨野县| 大埔县| 连平县| 梅州市| 潮州市| 蓬莱市| 松滋市| 长兴县| 德化县| 龙山县| 潮州市| 蛟河市| 辉南县| 敦煌市| 荣成市| 双牌县| 唐海县| 尼木县| 静安区| 灌云县|