欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種曲面化變形文本頁面圖像矯正方法與流程

文檔序號:12468600閱讀:739來源:國知局
一種曲面化變形文本頁面圖像矯正方法與流程

本發(fā)明屬于圖像信息處理領(lǐng)域,涉及一種曲面化變形文本頁面圖像矯正方法。



背景技術(shù):

傳統(tǒng)文檔數(shù)字化系統(tǒng)通常采用平板掃描儀獲取文本頁面的數(shù)字圖像,然后通過光學(xué)字符識別(optical character recognition,OCR)技術(shù)提取圖像中的文本信息。作為文檔數(shù)字化的重要步驟,OCR技術(shù)在學(xué)術(shù)界得以廣泛研究。對于通過掃描方式獲得的文本頁面圖像而言,利用現(xiàn)有的OCR技術(shù)可以獲得極高的識別精度。盡管上述數(shù)字化處理過程可以獲得很好的效果,許多研究人員試圖利用數(shù)碼相機(jī)替換平板掃描儀。這主要是因?yàn)閿?shù)碼相機(jī)與平板掃描儀相比具有許多優(yōu)勢,比如:數(shù)碼相機(jī)易于攜帶、拍照速度快、拍照角度靈活等,且利用數(shù)碼相機(jī)拍攝圖像是一種被動(dòng)式、非接觸式方法,因此對于易碎文檔(比如:歷史文物文檔)而言數(shù)碼相機(jī)更為合適。然而,由于相機(jī)拍攝的文檔圖像通常包含嚴(yán)重變形,若直接利用OCR技術(shù)進(jìn)行處理,則識別精度將受到較大的影響。實(shí)際應(yīng)用中,文本頁面通常呈現(xiàn)曲面化變形形式,這種文本頁面圖像中會(huì)引入兩種類型的變形:一種是曲面化文本頁面的幾何變形,另一種是成像過程中引入的透視投影變形。因此,對于采用數(shù)碼相機(jī)捕獲圖像的文檔數(shù)字化系統(tǒng)而言,圖像變形矯正十分必要。

現(xiàn)有文本頁面圖像變形消除方法大致可以劃分為兩類。第一類方法利用非線性圖像變換實(shí)現(xiàn)變形文本頁面圖像矯正。這類方法首先將文字或者文本行分割出來,然后分別對文字或者文本行進(jìn)行矯正。由于上述方法采用局部圖像變換,因此不能處理非文本區(qū)域。為了獲得具有一致性的結(jié)果,一些學(xué)者利用全局圖像變換實(shí)現(xiàn)圖像矯正。首先創(chuàng)建圖像網(wǎng)格,然后通過網(wǎng)格正則化來估計(jì)全局圖像變換實(shí)現(xiàn)圖像變形消除。盡管利用非線性圖像變換實(shí)現(xiàn)變形文本頁面圖像矯正可以獲得較好的OCR效果,但由于缺少頁面的三維形狀信息,矯正后的文本頁面圖像中仍然存在明顯是視覺變形。

另一類方法借助頁面的三維形狀信息對圖像實(shí)施矯正。一旦獲得了文本頁面的三維形狀信息,從理論上來說就能夠?qū)崿F(xiàn)任何類型的頁面重投影,從而實(shí)現(xiàn)圖像的精確矯正。計(jì)算機(jī)視覺領(lǐng)域的許多三維重建方法都被用于文本頁面圖像矯正。一些學(xué)者利用激光掃描儀(M.Pilu,“Deskewing perspectively distorted documents:An approach based on perceptual organization,”in“HPWhite Paper,”2001)、結(jié)構(gòu)光(M.S.Brown and W.B.Seales,“Image restoration of arbitrarily warped documents,”IEEE Transactions on Pattern Analysis and Machine Intelligence 26(10):1295-1306,2004)、立體相機(jī)(A.Yamashita,A.Kawarago,T.Kaneko,and K.T.Miura,“Shape reconstruction and image restoration for non-flat surfaces of documents with a stereo vision system,”in“Proceedings of the 17th International Conference on Pattern Recognition,”482-485,2004)等特殊設(shè)備來獲取文本頁面的三維形狀,然后基于所獲取的頁面三維模型實(shí)現(xiàn)變形圖像恢復(fù)。盡管利用上述附加的、已精確標(biāo)定的硬件可以獲得較好的效果,但這些系統(tǒng)成本較高、外形尺寸較大,因此在實(shí)際使用中受到一些限制。

近年來,一些學(xué)者嘗試?yán)闷胀ㄕ障鄼C(jī)拍攝文本頁面,然后通過基于圖像的方法獲得文本頁面的三維結(jié)構(gòu),進(jìn)一步實(shí)現(xiàn)文本頁面圖像的矯正。Pal等(K.Pal,M.Terras,and T.Weyrich,“Interactive exploration and flattening of deformed historical documents,”in “Proceedings of Eurographics 2013,”327-334,2013)提出一種針對歷史文檔的交互式瀏覽和矯正系統(tǒng)。該系統(tǒng)利用基于圖像的多視圖三維重建方法獲取文檔的三維模型,然后根據(jù)三維模型生成新的無變形文檔圖像。由于上述方法需要利用多視圖幾何實(shí)現(xiàn)三維重建,因此需要從不同角度拍攝多張圖像,對實(shí)際應(yīng)用帶來不便。

與上述方法重建一般三維形狀的方法不同,一些學(xué)者通過對文本頁面的形狀作出特定假設(shè),以此簡化圖像矯正過程。Kim等(B.S.Kim,H.I.Koo,and N.I.Cho,“Document dewarping via text-line based optimization,”Pattern Recognition 48(11):3600-3614,2015)假設(shè)文本頁面是一般圓柱形曲面(general cylindrical surface,GCS),該方法可以同時(shí)消除幾何變形和透視投影變形,而且只需拍攝一幅圖像。然而,由于它采用了一般圓柱形曲面,因此并不能應(yīng)用于一般曲面化變形文本頁面圖像的矯正。



技術(shù)實(shí)現(xiàn)要素:

針對現(xiàn)有技術(shù)不足,本發(fā)明提出一種曲面化變形文本頁面圖像矯正方法,從單幅局部平滑的曲面化文本頁面圖像中計(jì)算文本頁面的三維幾何形狀信息,在此基礎(chǔ)上對文本頁面圖像進(jìn)行矯正,以消除文本頁面圖像中由于三維曲面和透視投影引入的圖像變形,具體技術(shù)方案如下。

一種曲面化變形文本頁面圖像矯正方法,包括以下步驟:

(S1)提取文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息:將原始輸入的變形文本頁面圖像轉(zhuǎn)換為二值圖像,提取二值圖像中文本字符對應(yīng)的聯(lián)通像素區(qū)域及其多邊形凸包信息;確定Nθ條投影直線,針對每一個(gè)多邊形凸包,計(jì)算距離該多邊形凸包質(zhì)心最近的Nc個(gè)多邊形凸包在各條投影直線上的投影線段,Nc,Nθ為整數(shù);

(S2)計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的水平方向,即圖像空間中該字符水平走向與圖像縱向坐標(biāo)軸之間的夾角。其中,圖像空間指的是圖像所在二維平面,圖像空間坐標(biāo)原點(diǎn)位于圖像左上角,橫向坐標(biāo)軸方向?yàn)橛勺笙蛴曳较?,縱向坐標(biāo)軸方向?yàn)橛缮舷蛳路较颉?/p>

(S3)計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的垂直方向,即圖像空間中該字符垂直走向與圖像縱坐標(biāo)軸之間的夾角;

(S4)根據(jù)步驟(S2)和(S3)中得到的水平方向和垂直方向,構(gòu)建文本頁面的二維圖像變形網(wǎng)格;

(S5)重建文本頁面的三維幾何結(jié)構(gòu);

(S6)對原始輸入的變形文本頁面圖像進(jìn)行矯正,獲得矯正的文本頁面圖像。

進(jìn)一步地,所述步驟(S1)的具體過程為:

(S11)將輸入的文本頁面圖像轉(zhuǎn)換為二值圖像,記為{Bp},二值圖像中任意像素p的取值Bp采用如下公式計(jì)算:

其中,Cp和分別表示原始輸入的文本圖像及其高斯濾波后的圖像中像素p的取值,σ表示高斯平滑窗口大小,取值范圍是6~12個(gè)像素,λ1、λ2為常數(shù)參數(shù);λ1的取值范圍是0.7~0.9,λ2的取值范圍是20~30。

(S12)采用基于8-聯(lián)通鄰域模式搜索二值圖像{Bp}中取值為1的所有像素組成的聯(lián)通像素區(qū)域,剔除像素?cái)?shù)量多于1000或者少于10的聯(lián)通區(qū)域;

計(jì)算各聯(lián)通像素區(qū)域的多邊形凸包頂點(diǎn)坐標(biāo)及其質(zhì)心坐標(biāo);對于任意多邊形凸包CH,其質(zhì)心c=(x,y)T的計(jì)算公式如下:

其中,Nv是給定多邊形凸包CH所包含的頂點(diǎn)數(shù)量,xi和yi分別為多邊形凸包頂點(diǎn)vi(i={1,2,…,Nv})在圖像空間中的橫坐標(biāo)和縱坐標(biāo);T表示轉(zhuǎn)置符號。

(S13)確定投影直線束k={1,2,…,Nθ},整數(shù)Nθ的取值范圍是181~361,其中投影直線表示與圖像縱向坐標(biāo)軸之間夾角為θk的直線,θk的計(jì)算公式是:

(S14)對于每個(gè)多邊形凸包CH,計(jì)算距離其質(zhì)心c最近的Nc個(gè)多邊形凸包在投影直線上的投影線段;整數(shù)Nc取的取值范圍是32~64,對于變形嚴(yán)重的文檔,可降低Nc的取值。記為距離c最近的Nc個(gè)多邊形凸包的下標(biāo)集合,計(jì)算多邊形凸包在各投影直線(k={1,2,…,Nθ})上的投影線段起、止點(diǎn)的橫坐標(biāo),記為xa(CHik)和xb(CHik)。

進(jìn)一步地,所述步驟(S2)的具體過程為:

(S21)構(gòu)建距離多邊形凸包質(zhì)心c最近的Nc個(gè)多邊形凸包在投影直線(k={1,2,…,Nθ})上的投影輪廓函數(shù)fk(·),fk(x)的計(jì)算公式如下:

其中,

(S22)計(jì)算距離c最近的Nc個(gè)多邊形凸包在投影直線(k={1,2,…,Nθ})上的離散投影代價(jià)函數(shù)E1(k),計(jì)算公式是:

其中,

以及

j取整數(shù),范圍為1,2,…,Ns。表示向下取整數(shù),表示向上取整數(shù)。

(S23)估算質(zhì)心c所在位置字符的水平方向,利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)函數(shù)E1(k)(k=1,2,…,Nθ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F1(k),函數(shù)擬合考察自變量的取值范圍取是:

其中,argmin表示使目標(biāo)函數(shù)取最小值時(shí)的變量值。然后在曲線F1(k)上搜索最小化函數(shù)取值的k,并按照如下公式計(jì)算c所在位置字符的最優(yōu)水平方向:

進(jìn)一步地,所述步驟(S3)具體為:

(S31)計(jì)算距離多邊形凸包質(zhì)心c最近的Nc個(gè)多邊形凸包在投影直線(k=1,2,…,Nθ)上的投影能量E2(k),計(jì)算公式是:

其中,是多邊形凸包CHi的外接圓直徑,權(quán)重參數(shù)ωi的計(jì)算公式如下:

其中,||·||2表示向量的歐幾里德范數(shù),c表示任意指定的一個(gè)多邊形凸包的質(zhì)心,ci表示第i個(gè)多邊形凸包的質(zhì)心;

(S32)估算質(zhì)心c所在位置字符的垂直方向,利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)E2(k),(k=1,2,…,Nθ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F2(k),函數(shù)擬合考察自變量的取值范圍取是:

然后在曲線F2(k)上搜索最小化函數(shù)取值的k,并按照如下公式計(jì)算c所在位置字符的最優(yōu)垂直方向:

進(jìn)一步地,所述步驟(S4)具體步驟為:

(S41)對字符聯(lián)通區(qū)域多邊形凸包質(zhì)心位置上的字符水平方向、垂直方向數(shù)據(jù)進(jìn)行預(yù)處理。檢查每個(gè)多邊形凸包質(zhì)心位置上的字符方向與其周圍鄰域位置上的字符方向均值的一致性,如果該多邊形凸包質(zhì)心位置上的字符方向(即當(dāng)前所檢查的多邊形凸包質(zhì)心位置)與距離該質(zhì)心最近的個(gè)鄰域質(zhì)心位置上所有字符方向的平均值的差異高于Δθ(Δθ的取值范圍是π/6~π/5),則采用鄰域均值替代該位置上的字符方向。

(S42)構(gòu)建文本方向函數(shù),利用雙線性插值方法,根據(jù)多邊形凸包質(zhì)心位置上的字符水平方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本水平方向函數(shù)Oh(x,y);利用雙線性插值方法,根據(jù)多邊形凸包質(zhì)心位置上的字符垂直方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本垂直方向函數(shù)Ov(x,y);

(S43)構(gòu)建二維圖像變形網(wǎng)格,包括以下三個(gè)步驟:

(S431)生成文本水平流線,分別以(1,mΔv)T為起始點(diǎn),根據(jù)函數(shù)Oh(x,y)計(jì)算條文本水平流線,其中H表示原始輸入圖像(即原始輸入的變形文本頁面圖像)縱向像素?cái)?shù)量,Δv為縱向采樣間隔像素?cái)?shù)量,取值范圍是10~20。

(S432)生成文本垂直流線,分別以(nΔh,1)T為起始點(diǎn),根據(jù)函數(shù)Ov(x,y)計(jì)算條文本垂直流線,其中W表示原始輸入圖像橫向像素?cái)?shù)量,Δh為橫向采樣間隔像素?cái)?shù)量,取值范圍是20~40;

其中,文本水平(或垂直)流線生成的具體方法是:首先,確定起始點(diǎn)p0;然后,沿文本水平(或者垂直)走向(文本水平走向根據(jù)函數(shù)Oh(x,y)計(jì)算(或者文本垂直走向根據(jù)Ov(x,y)計(jì)算)),從p0向前移動(dòng)Δp個(gè)像素至位置p1;然后,繼續(xù)從p1沿文本走向向前移動(dòng)Δp個(gè)像素至位置p2;以此類推直到移動(dòng)至圖像邊界以外,依次連接各關(guān)鍵點(diǎn)p0、p1、p2、…,形成的折線即為一條流線;其中,Δp的取值范圍是4~8個(gè)像素;

(S433)構(gòu)建二維圖像變形網(wǎng)格,根據(jù)水平方向、垂直方向兩組流線相交的結(jié)果構(gòu)建二維圖像變形網(wǎng)格,記所形成的二維圖像變形網(wǎng)格縱向和橫向單元格數(shù)量分別為M和N。

進(jìn)一步地,所述步驟(S5)具體過程為:

(S51)建立單元格索引和網(wǎng)格頂點(diǎn)索引,將單元格、網(wǎng)格頂點(diǎn)按照從左至右、從上至下的順序編號;記二維圖像變形網(wǎng)格中第q(q={1,2,…,M×N})個(gè)二維圖像單元格Qq的左上角、左下角、右下角、右上角頂點(diǎn)索引號分別為gul(q)、gll(q)、glr(q)、gur(q)。

(S52)通過求解如下優(yōu)化問題計(jì)算獲得變形網(wǎng)格所有頂點(diǎn)的三維空間坐標(biāo)的最優(yōu)估計(jì)值

其中,(xt,yt)T和Vt=(Xt,Yt,Zt)T分別為第t(t={1,2,…,(M+1)×(N+1)})個(gè)網(wǎng)格頂點(diǎn)對應(yīng)的二維圖像坐標(biāo)和三維空間坐標(biāo),α為參數(shù),α的取值范圍是0.4~0.6。(xt,yt)T是已知量,是待估計(jì)量,字母右上角加*表示最優(yōu)估計(jì)值。

進(jìn)一步地,所述步驟(S6)具體步驟為:

(S61)對圖像單元格進(jìn)行正射矯正,利用圖像透視變換技術(shù)將二維單元格Qq(q={1,2,…,M×N})對應(yīng)的圖像區(qū)域矯正為寬為aq、高為bq的矩形圖像塊Qq′,其中aq、bq的計(jì)算公式是:

(S62)根據(jù)Qq的鄰接關(guān)系將所有已矯正的單元格Qq′拼合形成最終矯正圖像。

采用本發(fā)明的有益效果:已有基于三維形狀恢復(fù)的文本頁面變形矯正方法要么借助附加的、已標(biāo)定硬件實(shí)現(xiàn)文檔頁面的三維重建,要么需要利用多張文本頁面圖像恢復(fù)文檔頁面的三維形狀,或者只能處理滿足一般圓柱形曲面、進(jìn)化曲面等比較嚴(yán)格的形狀約束的文檔頁面。本發(fā)明方法僅需要利用普通照相機(jī)拍攝一幅圖像,且能夠處理滿足局部平滑特性的一般曲面化文本頁面,并能同時(shí)消除文本頁面形狀變形和成像透視變形,因此本發(fā)明方法更加靈活、實(shí)用。

附圖說明

圖1為本發(fā)明一種曲面化變形文本頁面圖像矯正方法的流程圖;

圖2為提取文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息的流程圖;

圖3為投影輪廓函數(shù)構(gòu)建示意圖;

圖4為離散投影代價(jià)函數(shù)及連續(xù)投影代價(jià)曲線示意圖;

圖5為單元格、頂點(diǎn)索引示意圖;

圖6為本發(fā)明實(shí)施例的實(shí)驗(yàn)結(jié)果圖。

具體實(shí)施方式

下面,結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步說明。

如圖1所示,本發(fā)明提供了一種曲面化變形文本頁面圖像矯正方法,包括如下步驟:

步驟一,提取文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息。文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息提取的流程如圖2所示。

首先,將原始輸入的變形文本頁面圖像轉(zhuǎn)換為二值圖像{Bp}。二值圖像中任意像素p的取值Bp采用如下公式計(jì)算:

其中,Cp和分別表示原始輸入的文本頁面圖像及其高斯濾波后圖像中像素p的取值,高斯平滑窗口σ取值為10個(gè)像素,參數(shù)λ1=0.8,λ2=25。

其次,提取文本字符對應(yīng)的聯(lián)通像素區(qū)域及其多邊形凸包信息。文本字符對應(yīng)的聯(lián)通像素區(qū)域指的是在二值圖像中是聯(lián)通區(qū)域,且其原輸入圖像對應(yīng)的位置為文本字符。采用基于8-聯(lián)通鄰域模式搜索二值圖像{Bp}中取值為1的所有像素組成的聯(lián)通像素區(qū)域,剔除像素?cái)?shù)量多于1000或者少于10的聯(lián)通區(qū)域。之后,計(jì)算各聯(lián)通像素區(qū)域的多邊形凸包頂點(diǎn)坐標(biāo)及其質(zhì)心坐標(biāo)。對于任意多邊形凸包CH,其質(zhì)心c=(x,y)T的計(jì)算公式如下:

其中,Nv是給定多邊形凸包CH所包含的頂點(diǎn)數(shù)量,xi和yi分別為多邊形凸包頂點(diǎn)vi(i={1,2,…,Nv})在圖像空間中的橫坐標(biāo)和縱坐標(biāo)。

接下來,確定投影直線束(k={1,2,…,Nθ},Nθ表示投影直線的數(shù)量,取值為181,其中投影直線表示與圖像縱向坐標(biāo)軸之間夾角為θk的直線,θk的計(jì)算公式是:

最后,對于各多邊形CH,計(jì)算距離其質(zhì)心c最近的Nc個(gè)多邊形凸包在投影直線上的投影線段。整數(shù)Nc取值48,對于變形嚴(yán)重的文檔,可降低Nc的取值。記為距離c最近的Nc個(gè)多邊形凸包的下標(biāo)集合。按照如下公式計(jì)算多邊形凸包在各投影直線(k={1,2,…,Nθ})上的投影線段起、止點(diǎn)的橫坐標(biāo)xa(CHik)和xb(CHik):

其中,表示多邊形凸包CHi的頂點(diǎn)數(shù)量,vj=(xj,yj)T表示CHi第j個(gè)頂點(diǎn)在圖像空間中的坐標(biāo)。

步驟二,計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置文本字符的水平方向。

計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的水平方向,即圖像空間中字符水平走向與圖像縱向坐標(biāo)軸之間的夾角。其中,任意多邊形凸包質(zhì)心位置c所處位置的字符水平方向按照如下方式計(jì)算。

首先,構(gòu)建距離c最近的Nc個(gè)多邊形凸包在投影直線(k={1,2,…,Nθ})上的投影輪廓函數(shù)fk(·)。fk(x)的計(jì)算公式如下:

其中,

圖3為投影輪廓函數(shù)fk(x)的構(gòu)建過程示意圖。其中,圖3(a)為距離質(zhì)心c最近的48個(gè)字符的聯(lián)通像素區(qū)域?qū)?yīng)的多邊形凸包,圖3(b)為函數(shù)f91(x)的曲線圖,圖3(c)為函數(shù)f177(x)的曲線圖。

其次,計(jì)算距離c最近的Nc個(gè)多邊形凸包在投影直線(k={1,2,…,Nθ})上的離散投影代價(jià)函數(shù)E1(k),計(jì)算公式是:

其中,

以及

圖4(a)為圖3(a)所示文本區(qū)域?qū)?yīng)的離散投影代價(jià)函數(shù)E1(k)。

最后,估算質(zhì)心c所在位置字符的水平方向。利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)E1(k)(k=1,2,…,Nθ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F1(k),函數(shù)擬合考察自變量的取值范圍取是:

然后在曲線F1(k)上搜索最小化函數(shù)取值的k(曲線擬合和最優(yōu)解搜索示意圖見圖4(b)),并按照如下公式計(jì)算c所在位置文本的最優(yōu)水平方向:

步驟三,計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置文本字符的垂直方向。

計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的垂直方向,即圖像空間中字符垂直走向與圖像縱向坐標(biāo)軸之間的夾角。其中,任意多邊形凸包質(zhì)心位置c所處位置的字符垂直方向按照如下方式計(jì)算。

首先,計(jì)算距離c最近的Nc個(gè)多邊形凸包在投影直線(k=1,2,…,Nθ)上的投影能量,計(jì)算公式是:

其中,是多邊形凸包CHi的外接圓直徑,權(quán)重參數(shù)ωi的計(jì)算公式如下:

其中,||·||2表示向量的歐幾里德范數(shù)。

然后,估算質(zhì)心c所在位置字符的垂直方向。利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)E2(k)(k=1,2,…,Nθ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F2(k),函數(shù)擬合考察自變量的取值范圍取是:

然后在曲線F2(k)上搜索最小化函數(shù)取值的k,并按照如下公式計(jì)算c所在位置字符的最優(yōu)垂直方向:

步驟四,構(gòu)建文本文檔二維圖像變形網(wǎng)格。

首先,對字符聯(lián)通區(qū)域多邊形凸包質(zhì)心位置上的字符水平方向、垂直方向數(shù)據(jù)進(jìn)行預(yù)處理。檢查每個(gè)多邊形凸包質(zhì)心位置上的字符方向與其周圍鄰域質(zhì)心上的字符方向均值的一致性,如果該字符方向與距離該質(zhì)心最近的個(gè)鄰域質(zhì)心位置上所有方向的平均值的差異高于設(shè)定值Δθ(Δθ的取值為π/6),則采用鄰域均值替代該位置上的字符方向。

其次,構(gòu)建文本方向函數(shù)。利用雙線性插值方法,根據(jù)離散位置上的文本水平方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本水平方向函數(shù)Oh(x,y)。利用雙線性插值方法,根據(jù)離散文本垂直方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本垂直方向函數(shù)Ov(x,y)。

最后,構(gòu)建二維圖像變形網(wǎng)格。包含三個(gè)步驟:

1.文本水平流線生成。分別以(1,mΔv)T為起始點(diǎn),根據(jù)函數(shù)Oh(x,y)計(jì)算條文本水平流線。其中,H表示原始輸入圖像縱向像素?cái)?shù)量,Δv為縱向采樣間隔像素?cái)?shù)量,取值是15。

2.文本垂直流線生成。分別以(nΔh,1)T為起始點(diǎn),根據(jù)函數(shù)Ov(x,y)計(jì)算條文本垂直流線。其中,W表示原始輸入圖像橫向像素?cái)?shù)量,Δh為橫向采樣間隔像素?cái)?shù)量,取值是30。

其中,文本流線生成的具體方法是:首先,確定起始點(diǎn)p0;然后,沿文本水平(或者垂直)走向(文本走向根據(jù)函數(shù)Oh(x,y)(或者Ov(x,y))計(jì)算),從p0向前移動(dòng)Δp個(gè)像素至位置p1;然后,繼續(xù)從p1沿文本走向向前移動(dòng)Δp個(gè)像素至位置p2;以此類推直到移動(dòng)至圖像邊界以外,依次連接各關(guān)鍵點(diǎn)p0、p1、p2、…,形成的折線即為一條流線。其中,Δp的取值是6個(gè)像素。

3.二維圖像變形網(wǎng)格構(gòu)建。根據(jù)水平方向、垂直方向兩組流線相交的結(jié)果構(gòu)建二維圖像變形網(wǎng)格,記所形成的二維圖像變形網(wǎng)格縱向和橫向單元格數(shù)量分別為M和N。

步驟五,重建文本頁面的三維幾何結(jié)構(gòu)。

首先,建立單元格索引和網(wǎng)格頂點(diǎn)索引。將單元格、網(wǎng)格頂點(diǎn)按照從左至右、從上至下的順序編號。按照如下公式計(jì)算二維圖像變形網(wǎng)格中第q(q={1,2,…,M×N})個(gè)二維圖像單元格Qq的左上角、左下角、右下角、右上角頂點(diǎn)索引gul(q)、gll(q)、glr(q)、gur(q):

圖5為M=4、N=5的情況下單元格和網(wǎng)格頂點(diǎn)索引結(jié)果示意圖,網(wǎng)格頂點(diǎn)索引號外加圓圈以和單元格索引相互區(qū)分。

然后,通過求解如下優(yōu)化問題計(jì)算獲得變形網(wǎng)格所有頂點(diǎn)的三維空間坐標(biāo)的最優(yōu)估計(jì)

其中,(xt,yt)T和Vt=(Xt,Yt,Zt)T分別為第t(t={1,2,…,(M+1)×(N+1)})個(gè)網(wǎng)格頂點(diǎn)對應(yīng)的二維圖像坐標(biāo)和三維空間坐標(biāo),參數(shù)α的取值是0.5。(xt,yt)T是已知量,是待估計(jì)量。上述問題是一個(gè)線性最小二乘問題,通過奇異值分解(Singular Value Decomposition,SVD)方法求解。求解過程中,為了避免全零平凡解,令Z1=1。

步驟六,對原始輸入的文本頁面圖像進(jìn)行矯正,獲得矯正的文本頁面圖像。

首先,對圖像單元格進(jìn)行正射矯正。利用圖像透視變換技術(shù)將二維單元格Qq(i={1,2,…,M×N})對應(yīng)的圖像區(qū)域矯正為寬為aq、高為bq的矩形圖像塊Qq′。其中,aq、bq的計(jì)算公式是:

Vgul(q),Vgll(q),Vgur(q)分別表示第q個(gè)二維圖像單元格Qq的左上角、左下角、右上角頂點(diǎn)對應(yīng)的三維空間坐標(biāo);V1,V2分別表示第1個(gè)、第2個(gè)網(wǎng)格頂點(diǎn)對應(yīng)的三維空間坐標(biāo)。

然后,根據(jù)Qq的鄰接關(guān)系將所有已矯正的單元格Qq′拼合形成最終矯正圖像。

圖6為本發(fā)明方法在真實(shí)圖像上的部分實(shí)驗(yàn)結(jié)果。其中,圖6(a)為輸入的4幅具有代表性的曲面化變形文本頁面圖像,從左至右分別為平面英文頁面、進(jìn)化曲面英文頁面、進(jìn)化曲面中文頁面、一般曲面化變形頁面,圖6(b)為相應(yīng)的矯正結(jié)果圖像。通過實(shí)驗(yàn),證明了本發(fā)明僅需輸入一幅變形文本頁面圖像就能實(shí)現(xiàn)圖像矯正,能夠處理滿足局部平滑特性的一般曲面化文本頁面,并能同時(shí)消除文本頁面形狀變形和成像透視投影變形。

綜上所述,以上僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
栾城县| 新沂市| 伊宁县| 米泉市| 绥江县| 丰城市| 自贡市| 尉犁县| 秦皇岛市| 正蓝旗| 孟州市| 山阴县| 苏州市| 湾仔区| 鹤山市| 连云港市| 渑池县| 锡林郭勒盟| 扶余县| 江山市| 四川省| 合作市| 甘谷县| 苏尼特左旗| 五河县| 武宁县| 雷山县| 威信县| 闽清县| 紫云| 双柏县| 乐昌市| 桦甸市| 山丹县| 定州市| 临沂市| 禹城市| 吉首市| 寻乌县| 麻江县| 曲阜市|