一種曲面化變形文本頁面圖像矯正方法與流程

文檔序號：12468600閱讀：739來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于圖像信息處理領(lǐng)域，涉及一種曲面化變形文本頁面圖像矯正方法。

背景技術(shù)：

傳統(tǒng)文檔數(shù)字化系統(tǒng)通常采用平板掃描儀獲取文本頁面的數(shù)字圖像，然后通過光學(xué)字符識別(optical character recognition,OCR)技術(shù)提取圖像中的文本信息。作為文檔數(shù)字化的重要步驟，OCR技術(shù)在學(xué)術(shù)界得以廣泛研究。對于通過掃描方式獲得的文本頁面圖像而言，利用現(xiàn)有的OCR技術(shù)可以獲得極高的識別精度。盡管上述數(shù)字化處理過程可以獲得很好的效果，許多研究人員試圖利用數(shù)碼相機(jī)替換平板掃描儀。這主要是因?yàn)閿?shù)碼相機(jī)與平板掃描儀相比具有許多優(yōu)勢，比如：數(shù)碼相機(jī)易于攜帶、拍照速度快、拍照角度靈活等，且利用數(shù)碼相機(jī)拍攝圖像是一種被動(dòng)式、非接觸式方法，因此對于易碎文檔(比如：歷史文物文檔)而言數(shù)碼相機(jī)更為合適。然而，由于相機(jī)拍攝的文檔圖像通常包含嚴(yán)重變形，若直接利用OCR技術(shù)進(jìn)行處理，則識別精度將受到較大的影響。實(shí)際應(yīng)用中，文本頁面通常呈現(xiàn)曲面化變形形式，這種文本頁面圖像中會(huì)引入兩種類型的變形：一種是曲面化文本頁面的幾何變形，另一種是成像過程中引入的透視投影變形。因此，對于采用數(shù)碼相機(jī)捕獲圖像的文檔數(shù)字化系統(tǒng)而言，圖像變形矯正十分必要。

現(xiàn)有文本頁面圖像變形消除方法大致可以劃分為兩類。第一類方法利用非線性圖像變換實(shí)現(xiàn)變形文本頁面圖像矯正。這類方法首先將文字或者文本行分割出來，然后分別對文字或者文本行進(jìn)行矯正。由于上述方法采用局部圖像變換，因此不能處理非文本區(qū)域。為了獲得具有一致性的結(jié)果，一些學(xué)者利用全局圖像變換實(shí)現(xiàn)圖像矯正。首先創(chuàng)建圖像網(wǎng)格，然后通過網(wǎng)格正則化來估計(jì)全局圖像變換實(shí)現(xiàn)圖像變形消除。盡管利用非線性圖像變換實(shí)現(xiàn)變形文本頁面圖像矯正可以獲得較好的OCR效果，但由于缺少頁面的三維形狀信息，矯正后的文本頁面圖像中仍然存在明顯是視覺變形。

另一類方法借助頁面的三維形狀信息對圖像實(shí)施矯正。一旦獲得了文本頁面的三維形狀信息，從理論上來說就能夠?qū)崿F(xiàn)任何類型的頁面重投影，從而實(shí)現(xiàn)圖像的精確矯正。計(jì)算機(jī)視覺領(lǐng)域的許多三維重建方法都被用于文本頁面圖像矯正。一些學(xué)者利用激光掃描儀(M.Pilu,“Deskewing perspectively distorted documents:An approach based on perceptual organization,”in“HPWhite Paper,”2001)、結(jié)構(gòu)光(M.S.Brown and W.B.Seales,“Image restoration of arbitrarily warped documents,”IEEE Transactions on Pattern Analysis and Machine Intelligence 26(10):1295-1306,2004)、立體相機(jī)(A.Yamashita,A.Kawarago,T.Kaneko,and K.T.Miura,“Shape reconstruction and image restoration for non-flat surfaces of documents with a stereo vision system,”in“Proceedings of the 17th International Conference on Pattern Recognition,”482-485,2004)等特殊設(shè)備來獲取文本頁面的三維形狀，然后基于所獲取的頁面三維模型實(shí)現(xiàn)變形圖像恢復(fù)。盡管利用上述附加的、已精確標(biāo)定的硬件可以獲得較好的效果，但這些系統(tǒng)成本較高、外形尺寸較大，因此在實(shí)際使用中受到一些限制。

近年來，一些學(xué)者嘗試?yán)闷胀ㄕ障鄼C(jī)拍攝文本頁面，然后通過基于圖像的方法獲得文本頁面的三維結(jié)構(gòu)，進(jìn)一步實(shí)現(xiàn)文本頁面圖像的矯正。Pal等(K.Pal,M.Terras,and T.Weyrich,“Interactive exploration and flattening of deformed historical documents,”in “Proceedings of Eurographics 2013,”327-334,2013)提出一種針對歷史文檔的交互式瀏覽和矯正系統(tǒng)。該系統(tǒng)利用基于圖像的多視圖三維重建方法獲取文檔的三維模型，然后根據(jù)三維模型生成新的無變形文檔圖像。由于上述方法需要利用多視圖幾何實(shí)現(xiàn)三維重建，因此需要從不同角度拍攝多張圖像，對實(shí)際應(yīng)用帶來不便。

與上述方法重建一般三維形狀的方法不同，一些學(xué)者通過對文本頁面的形狀作出特定假設(shè)，以此簡化圖像矯正過程。Kim等(B.S.Kim,H.I.Koo,and N.I.Cho,“Document dewarping via text-line based optimization,”Pattern Recognition 48(11):3600-3614,2015)假設(shè)文本頁面是一般圓柱形曲面(general cylindrical surface,GCS)，該方法可以同時(shí)消除幾何變形和透視投影變形，而且只需拍攝一幅圖像。然而，由于它采用了一般圓柱形曲面，因此并不能應(yīng)用于一般曲面化變形文本頁面圖像的矯正。

技術(shù)實(shí)現(xiàn)要素：

針對現(xiàn)有技術(shù)不足，本發(fā)明提出一種曲面化變形文本頁面圖像矯正方法，從單幅局部平滑的曲面化文本頁面圖像中計(jì)算文本頁面的三維幾何形狀信息，在此基礎(chǔ)上對文本頁面圖像進(jìn)行矯正，以消除文本頁面圖像中由于三維曲面和透視投影引入的圖像變形，具體技術(shù)方案如下。

一種曲面化變形文本頁面圖像矯正方法，包括以下步驟：

(S1)提取文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息：將原始輸入的變形文本頁面圖像轉(zhuǎn)換為二值圖像，提取二值圖像中文本字符對應(yīng)的聯(lián)通像素區(qū)域及其多邊形凸包信息；確定N_θ條投影直線，針對每一個(gè)多邊形凸包，計(jì)算距離該多邊形凸包質(zhì)心最近的N_c個(gè)多邊形凸包在各條投影直線上的投影線段，N_c，N_θ為整數(shù)；

(S2)計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的水平方向，即圖像空間中該字符水平走向與圖像縱向坐標(biāo)軸之間的夾角。其中，圖像空間指的是圖像所在二維平面，圖像空間坐標(biāo)原點(diǎn)位于圖像左上角，橫向坐標(biāo)軸方向?yàn)橛勺笙蛴曳较?，縱向坐標(biāo)軸方向?yàn)橛缮舷蛳路较颉?/p>

(S3)計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的垂直方向，即圖像空間中該字符垂直走向與圖像縱坐標(biāo)軸之間的夾角；

(S4)根據(jù)步驟(S2)和(S3)中得到的水平方向和垂直方向，構(gòu)建文本頁面的二維圖像變形網(wǎng)格；

(S5)重建文本頁面的三維幾何結(jié)構(gòu)；

(S6)對原始輸入的變形文本頁面圖像進(jìn)行矯正，獲得矯正的文本頁面圖像。

進(jìn)一步地，所述步驟(S1)的具體過程為：

(S11)將輸入的文本頁面圖像轉(zhuǎn)換為二值圖像，記為{B_p}，二值圖像中任意像素p的取值B_p采用如下公式計(jì)算：

其中，C_p和分別表示原始輸入的文本圖像及其高斯濾波后的圖像中像素p的取值，σ表示高斯平滑窗口大小，取值范圍是6～12個(gè)像素，λ₁、λ₂為常數(shù)參數(shù)；λ₁的取值范圍是0.7～0.9，λ₂的取值范圍是20～30。

(S12)采用基于8-聯(lián)通鄰域模式搜索二值圖像{B_p}中取值為1的所有像素組成的聯(lián)通像素區(qū)域，剔除像素?cái)?shù)量多于1000或者少于10的聯(lián)通區(qū)域；

計(jì)算各聯(lián)通像素區(qū)域的多邊形凸包頂點(diǎn)坐標(biāo)及其質(zhì)心坐標(biāo)；對于任意多邊形凸包CH，其質(zhì)心c＝(x,y)^T的計(jì)算公式如下：

其中，N_v是給定多邊形凸包CH所包含的頂點(diǎn)數(shù)量，x_i和y_i分別為多邊形凸包頂點(diǎn)v_i(i＝{1,2,…,N_v})在圖像空間中的橫坐標(biāo)和縱坐標(biāo)；T表示轉(zhuǎn)置符號。

(S13)確定投影直線束k＝{1,2,…,N_θ}，整數(shù)N_θ的取值范圍是181～361，其中投影直線表示與圖像縱向坐標(biāo)軸之間夾角為θ_k的直線，θ_k的計(jì)算公式是：

(S14)對于每個(gè)多邊形凸包CH，計(jì)算距離其質(zhì)心c最近的N_c個(gè)多邊形凸包在投影直線上的投影線段；整數(shù)N_c取的取值范圍是32～64，對于變形嚴(yán)重的文檔，可降低N_c的取值。記為距離c最近的N_c個(gè)多邊形凸包的下標(biāo)集合，計(jì)算多邊形凸包在各投影直線(k＝{1,2,…,N_θ})上的投影線段起、止點(diǎn)的橫坐標(biāo)，記為x_a(CH_i,θ_k)和x_b(CH_i,θ_k)。

進(jìn)一步地，所述步驟(S2)的具體過程為：

(S21)構(gòu)建距離多邊形凸包質(zhì)心c最近的N_c個(gè)多邊形凸包在投影直線(k＝{1,2,…,N_θ})上的投影輪廓函數(shù)f_k(·)，f_k(x)的計(jì)算公式如下：

其中，

(S22)計(jì)算距離c最近的N_c個(gè)多邊形凸包在投影直線(k＝{1,2,…,N_θ})上的離散投影代價(jià)函數(shù)E₁(k)，計(jì)算公式是：

其中，

以及

j取整數(shù)，范圍為1,2，…，N_s。表示向下取整數(shù)，表示向上取整數(shù)。

(S23)估算質(zhì)心c所在位置字符的水平方向，利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)函數(shù)E₁(k)(k＝1,2,…,N_θ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F₁(k)，函數(shù)擬合考察自變量的取值范圍取是：

其中，argmin表示使目標(biāo)函數(shù)取最小值時(shí)的變量值。然后在曲線F₁(k)上搜索最小化函數(shù)取值的k，并按照如下公式計(jì)算c所在位置字符的最優(yōu)水平方向：

進(jìn)一步地，所述步驟(S3)具體為：

(S31)計(jì)算距離多邊形凸包質(zhì)心c最近的N_c個(gè)多邊形凸包在投影直線(k＝1,2,…,N_θ)上的投影能量E₂(k)，計(jì)算公式是：

其中，是多邊形凸包CH_i的外接圓直徑，權(quán)重參數(shù)ω_i的計(jì)算公式如下：

其中，||·||₂表示向量的歐幾里德范數(shù)，c表示任意指定的一個(gè)多邊形凸包的質(zhì)心，c_i表示第i個(gè)多邊形凸包的質(zhì)心；

(S32)估算質(zhì)心c所在位置字符的垂直方向，利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)E₂(k)，(k＝1,2,…,N_θ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F₂(k)，函數(shù)擬合考察自變量的取值范圍取是：

然后在曲線F₂(k)上搜索最小化函數(shù)取值的k，并按照如下公式計(jì)算c所在位置字符的最優(yōu)垂直方向：

進(jìn)一步地，所述步驟(S4)具體步驟為：

(S41)對字符聯(lián)通區(qū)域多邊形凸包質(zhì)心位置上的字符水平方向、垂直方向數(shù)據(jù)進(jìn)行預(yù)處理。檢查每個(gè)多邊形凸包質(zhì)心位置上的字符方向與其周圍鄰域位置上的字符方向均值的一致性，如果該多邊形凸包質(zhì)心位置上的字符方向(即當(dāng)前所檢查的多邊形凸包質(zhì)心位置)與距離該質(zhì)心最近的個(gè)鄰域質(zhì)心位置上所有字符方向的平均值的差異高于Δθ(Δθ的取值范圍是π/6～π/5)，則采用鄰域均值替代該位置上的字符方向。

(S42)構(gòu)建文本方向函數(shù)，利用雙線性插值方法，根據(jù)多邊形凸包質(zhì)心位置上的字符水平方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本水平方向函數(shù)O_h(x,y)；利用雙線性插值方法，根據(jù)多邊形凸包質(zhì)心位置上的字符垂直方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本垂直方向函數(shù)O_v(x,y)；

(S43)構(gòu)建二維圖像變形網(wǎng)格，包括以下三個(gè)步驟：

(S431)生成文本水平流線，分別以(1,mΔv)^T為起始點(diǎn)，根據(jù)函數(shù)O_h(x,y)計(jì)算條文本水平流線，其中H表示原始輸入圖像(即原始輸入的變形文本頁面圖像)縱向像素?cái)?shù)量，Δv為縱向采樣間隔像素?cái)?shù)量，取值范圍是10～20。

(S432)生成文本垂直流線，分別以(nΔh,1)^T為起始點(diǎn)，根據(jù)函數(shù)O_v(x,y)計(jì)算條文本垂直流線，其中W表示原始輸入圖像橫向像素?cái)?shù)量，Δh為橫向采樣間隔像素?cái)?shù)量，取值范圍是20～40；

其中，文本水平(或垂直)流線生成的具體方法是：首先，確定起始點(diǎn)p₀；然后，沿文本水平(或者垂直)走向(文本水平走向根據(jù)函數(shù)O_h(x,y)計(jì)算(或者文本垂直走向根據(jù)O_v(x,y)計(jì)算))，從p₀向前移動(dòng)Δp個(gè)像素至位置p₁；然后，繼續(xù)從p₁沿文本走向向前移動(dòng)Δp個(gè)像素至位置p₂；以此類推直到移動(dòng)至圖像邊界以外，依次連接各關(guān)鍵點(diǎn)p₀、p₁、p₂、…，形成的折線即為一條流線；其中，Δp的取值范圍是4～8個(gè)像素；

(S433)構(gòu)建二維圖像變形網(wǎng)格，根據(jù)水平方向、垂直方向兩組流線相交的結(jié)果構(gòu)建二維圖像變形網(wǎng)格，記所形成的二維圖像變形網(wǎng)格縱向和橫向單元格數(shù)量分別為M和N。

進(jìn)一步地，所述步驟(S5)具體過程為：

(S51)建立單元格索引和網(wǎng)格頂點(diǎn)索引，將單元格、網(wǎng)格頂點(diǎn)按照從左至右、從上至下的順序編號；記二維圖像變形網(wǎng)格中第q(q＝{1,2,…,M×N})個(gè)二維圖像單元格Q_q的左上角、左下角、右下角、右上角頂點(diǎn)索引號分別為g_ul(q)、g_ll(q)、g_lr(q)、g_ur(q)。

(S52)通過求解如下優(yōu)化問題計(jì)算獲得變形網(wǎng)格所有頂點(diǎn)的三維空間坐標(biāo)的最優(yōu)估計(jì)值

其中，(x_t,y_t)^T和V_t＝(X_t,Y_t,Z_t)^T分別為第t(t＝{1,2,…,(M+1)×(N+1)})個(gè)網(wǎng)格頂點(diǎn)對應(yīng)的二維圖像坐標(biāo)和三維空間坐標(biāo)，α為參數(shù)，α的取值范圍是0.4～0.6。(x_t,y_t)^T是已知量，是待估計(jì)量，字母右上角加*表示最優(yōu)估計(jì)值。

進(jìn)一步地，所述步驟(S6)具體步驟為：

(S61)對圖像單元格進(jìn)行正射矯正，利用圖像透視變換技術(shù)將二維單元格Q_q(q＝{1,2,…,M×N})對應(yīng)的圖像區(qū)域矯正為寬為a_q、高為b_q的矩形圖像塊Q_q′，其中a_q、b_q的計(jì)算公式是：

(S62)根據(jù)Q_q的鄰接關(guān)系將所有已矯正的單元格Q_q′拼合形成最終矯正圖像。

采用本發(fā)明的有益效果：已有基于三維形狀恢復(fù)的文本頁面變形矯正方法要么借助附加的、已標(biāo)定硬件實(shí)現(xiàn)文檔頁面的三維重建，要么需要利用多張文本頁面圖像恢復(fù)文檔頁面的三維形狀，或者只能處理滿足一般圓柱形曲面、進(jìn)化曲面等比較嚴(yán)格的形狀約束的文檔頁面。本發(fā)明方法僅需要利用普通照相機(jī)拍攝一幅圖像，且能夠處理滿足局部平滑特性的一般曲面化文本頁面，并能同時(shí)消除文本頁面形狀變形和成像透視變形，因此本發(fā)明方法更加靈活、實(shí)用。

附圖說明

圖1為本發(fā)明一種曲面化變形文本頁面圖像矯正方法的流程圖；

圖2為提取文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息的流程圖；

圖3為投影輪廓函數(shù)構(gòu)建示意圖；

圖4為離散投影代價(jià)函數(shù)及連續(xù)投影代價(jià)曲線示意圖；

圖5為單元格、頂點(diǎn)索引示意圖；

圖6為本發(fā)明實(shí)施例的實(shí)驗(yàn)結(jié)果圖。

具體實(shí)施方式

下面，結(jié)合附圖和具體實(shí)施例對本發(fā)明作進(jìn)一步說明。

如圖1所示，本發(fā)明提供了一種曲面化變形文本頁面圖像矯正方法，包括如下步驟：

步驟一，提取文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息。文本聯(lián)通像素區(qū)域及其多邊形凸包投影信息提取的流程如圖2所示。

首先，將原始輸入的變形文本頁面圖像轉(zhuǎn)換為二值圖像{B_p}。二值圖像中任意像素p的取值B_p采用如下公式計(jì)算：

其中，C_p和分別表示原始輸入的文本頁面圖像及其高斯濾波后圖像中像素p的取值，高斯平滑窗口σ取值為10個(gè)像素，參數(shù)λ₁＝0.8，λ₂＝25。

其次，提取文本字符對應(yīng)的聯(lián)通像素區(qū)域及其多邊形凸包信息。文本字符對應(yīng)的聯(lián)通像素區(qū)域指的是在二值圖像中是聯(lián)通區(qū)域，且其原輸入圖像對應(yīng)的位置為文本字符。采用基于8-聯(lián)通鄰域模式搜索二值圖像{B_p}中取值為1的所有像素組成的聯(lián)通像素區(qū)域，剔除像素?cái)?shù)量多于1000或者少于10的聯(lián)通區(qū)域。之后，計(jì)算各聯(lián)通像素區(qū)域的多邊形凸包頂點(diǎn)坐標(biāo)及其質(zhì)心坐標(biāo)。對于任意多邊形凸包CH，其質(zhì)心c＝(x,y)^T的計(jì)算公式如下：

其中，N_v是給定多邊形凸包CH所包含的頂點(diǎn)數(shù)量，x_i和y_i分別為多邊形凸包頂點(diǎn)v_i(i＝{1,2,…,N_v})在圖像空間中的橫坐標(biāo)和縱坐標(biāo)。

接下來，確定投影直線束(k＝{1,2,…,N_θ}，N_θ表示投影直線的數(shù)量，取值為181，其中投影直線表示與圖像縱向坐標(biāo)軸之間夾角為θ_k的直線，θ_k的計(jì)算公式是：

最后，對于各多邊形CH，計(jì)算距離其質(zhì)心c最近的N_c個(gè)多邊形凸包在投影直線上的投影線段。整數(shù)N_c取值48，對于變形嚴(yán)重的文檔，可降低N_c的取值。記為距離c最近的N_c個(gè)多邊形凸包的下標(biāo)集合。按照如下公式計(jì)算多邊形凸包在各投影直線(k＝{1,2,…,N_θ})上的投影線段起、止點(diǎn)的橫坐標(biāo)x_a(CH_i,θ_k)和x_b(CH_i,θ_k)：

其中，表示多邊形凸包CH_i的頂點(diǎn)數(shù)量，v_j＝(x_j,y_j)^T表示CH_i第j個(gè)頂點(diǎn)在圖像空間中的坐標(biāo)。

步驟二，計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置文本字符的水平方向。

計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的水平方向，即圖像空間中字符水平走向與圖像縱向坐標(biāo)軸之間的夾角。其中，任意多邊形凸包質(zhì)心位置c所處位置的字符水平方向按照如下方式計(jì)算。

首先，構(gòu)建距離c最近的N_c個(gè)多邊形凸包在投影直線(k＝{1,2,…,N_θ})上的投影輪廓函數(shù)f_k(·)。f_k(x)的計(jì)算公式如下：

其中，

圖3為投影輪廓函數(shù)f_k(x)的構(gòu)建過程示意圖。其中，圖3(a)為距離質(zhì)心c最近的48個(gè)字符的聯(lián)通像素區(qū)域?qū)?yīng)的多邊形凸包，圖3(b)為函數(shù)f₉₁(x)的曲線圖，圖3(c)為函數(shù)f₁₇₇(x)的曲線圖。

其次，計(jì)算距離c最近的N_c個(gè)多邊形凸包在投影直線(k＝{1,2,…,N_θ})上的離散投影代價(jià)函數(shù)E₁(k)，計(jì)算公式是：

其中，

以及

圖4(a)為圖3(a)所示文本區(qū)域?qū)?yīng)的離散投影代價(jià)函數(shù)E₁(k)。

最后，估算質(zhì)心c所在位置字符的水平方向。利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)E₁(k)(k＝1,2,…,N_θ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F₁(k)，函數(shù)擬合考察自變量的取值范圍取是：

然后在曲線F₁(k)上搜索最小化函數(shù)取值的k(曲線擬合和最優(yōu)解搜索示意圖見圖4(b))，并按照如下公式計(jì)算c所在位置文本的最優(yōu)水平方向：

步驟三，計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置文本字符的垂直方向。

計(jì)算每個(gè)多邊形凸包的質(zhì)心所在位置字符的垂直方向，即圖像空間中字符垂直走向與圖像縱向坐標(biāo)軸之間的夾角。其中，任意多邊形凸包質(zhì)心位置c所處位置的字符垂直方向按照如下方式計(jì)算。

首先，計(jì)算距離c最近的N_c個(gè)多邊形凸包在投影直線(k＝1,2,…,N_θ)上的投影能量，計(jì)算公式是：

其中，是多邊形凸包CH_i的外接圓直徑，權(quán)重參數(shù)ω_i的計(jì)算公式如下：

其中，||·||₂表示向量的歐幾里德范數(shù)。

然后，估算質(zhì)心c所在位置字符的垂直方向。利用5階多項(xiàng)式擬合方法根據(jù)各投影直線的離散投影代價(jià)E₂(k)(k＝1,2,…,N_θ)擬合關(guān)于k的連續(xù)投影代價(jià)曲線F₂(k)，函數(shù)擬合考察自變量的取值范圍取是：

然后在曲線F₂(k)上搜索最小化函數(shù)取值的k，并按照如下公式計(jì)算c所在位置字符的最優(yōu)垂直方向：

步驟四，構(gòu)建文本文檔二維圖像變形網(wǎng)格。

首先，對字符聯(lián)通區(qū)域多邊形凸包質(zhì)心位置上的字符水平方向、垂直方向數(shù)據(jù)進(jìn)行預(yù)處理。檢查每個(gè)多邊形凸包質(zhì)心位置上的字符方向與其周圍鄰域質(zhì)心上的字符方向均值的一致性，如果該字符方向與距離該質(zhì)心最近的個(gè)鄰域質(zhì)心位置上所有方向的平均值的差異高于設(shè)定值Δθ(Δθ的取值為π/6)，則采用鄰域均值替代該位置上的字符方向。

其次，構(gòu)建文本方向函數(shù)。利用雙線性插值方法，根據(jù)離散位置上的文本水平方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本水平方向函數(shù)O_h(x,y)。利用雙線性插值方法，根據(jù)離散文本垂直方向數(shù)據(jù)擬合相對于圖像坐標(biāo)x和y的文本垂直方向函數(shù)O_v(x,y)。

最后，構(gòu)建二維圖像變形網(wǎng)格。包含三個(gè)步驟：

1.文本水平流線生成。分別以(1,mΔv)^T為起始點(diǎn)，根據(jù)函數(shù)O_h(x,y)計(jì)算條文本水平流線。其中，H表示原始輸入圖像縱向像素?cái)?shù)量，Δv為縱向采樣間隔像素?cái)?shù)量，取值是15。

2.文本垂直流線生成。分別以(nΔh,1)^T為起始點(diǎn)，根據(jù)函數(shù)O_v(x,y)計(jì)算條文本垂直流線。其中，W表示原始輸入圖像橫向像素?cái)?shù)量，Δh為橫向采樣間隔像素?cái)?shù)量，取值是30。

其中，文本流線生成的具體方法是：首先，確定起始點(diǎn)p₀；然后，沿文本水平(或者垂直)走向(文本走向根據(jù)函數(shù)O_h(x,y)(或者O_v(x,y))計(jì)算)，從p₀向前移動(dòng)Δp個(gè)像素至位置p₁；然后，繼續(xù)從p₁沿文本走向向前移動(dòng)Δp個(gè)像素至位置p₂；以此類推直到移動(dòng)至圖像邊界以外，依次連接各關(guān)鍵點(diǎn)p₀、p₁、p₂、…，形成的折線即為一條流線。其中，Δp的取值是6個(gè)像素。

3.二維圖像變形網(wǎng)格構(gòu)建。根據(jù)水平方向、垂直方向兩組流線相交的結(jié)果構(gòu)建二維圖像變形網(wǎng)格，記所形成的二維圖像變形網(wǎng)格縱向和橫向單元格數(shù)量分別為M和N。

步驟五，重建文本頁面的三維幾何結(jié)構(gòu)。

首先，建立單元格索引和網(wǎng)格頂點(diǎn)索引。將單元格、網(wǎng)格頂點(diǎn)按照從左至右、從上至下的順序編號。按照如下公式計(jì)算二維圖像變形網(wǎng)格中第q(q＝{1,2,…,M×N})個(gè)二維圖像單元格Q_q的左上角、左下角、右下角、右上角頂點(diǎn)索引g_ul(q)、g_ll(q)、g_lr(q)、g_ur(q)：

圖5為M＝4、N＝5的情況下單元格和網(wǎng)格頂點(diǎn)索引結(jié)果示意圖，網(wǎng)格頂點(diǎn)索引號外加圓圈以和單元格索引相互區(qū)分。

然后，通過求解如下優(yōu)化問題計(jì)算獲得變形網(wǎng)格所有頂點(diǎn)的三維空間坐標(biāo)的最優(yōu)估計(jì)

其中，(x_t,y_t)^T和V_t＝(X_t,Y_t,Z_t)^T分別為第t(t＝{1,2,…,(M+1)×(N+1)})個(gè)網(wǎng)格頂點(diǎn)對應(yīng)的二維圖像坐標(biāo)和三維空間坐標(biāo)，參數(shù)α的取值是0.5。(x_t,y_t)^T是已知量，是待估計(jì)量。上述問題是一個(gè)線性最小二乘問題，通過奇異值分解(Singular Value Decomposition,SVD)方法求解。求解過程中，為了避免全零平凡解，令Z₁＝1。

步驟六，對原始輸入的文本頁面圖像進(jìn)行矯正，獲得矯正的文本頁面圖像。

首先，對圖像單元格進(jìn)行正射矯正。利用圖像透視變換技術(shù)將二維單元格Q_q(i＝{1,2,…,M×N})對應(yīng)的圖像區(qū)域矯正為寬為a_q、高為b_q的矩形圖像塊Q_q′。其中，a_q、b_q的計(jì)算公式是：

V_gul(q)，V_gll(q)，V_gur(q)分別表示第q個(gè)二維圖像單元格Q_q的左上角、左下角、右上角頂點(diǎn)對應(yīng)的三維空間坐標(biāo)；V₁，V₂分別表示第1個(gè)、第2個(gè)網(wǎng)格頂點(diǎn)對應(yīng)的三維空間坐標(biāo)。

然后，根據(jù)Q_q的鄰接關(guān)系將所有已矯正的單元格Q_q′拼合形成最終矯正圖像。

圖6為本發(fā)明方法在真實(shí)圖像上的部分實(shí)驗(yàn)結(jié)果。其中，圖6(a)為輸入的4幅具有代表性的曲面化變形文本頁面圖像，從左至右分別為平面英文頁面、進(jìn)化曲面英文頁面、進(jìn)化曲面中文頁面、一般曲面化變形頁面，圖6(b)為相應(yīng)的矯正結(jié)果圖像。通過實(shí)驗(yàn)，證明了本發(fā)明僅需輸入一幅變形文本頁面圖像就能實(shí)現(xiàn)圖像矯正，能夠處理滿足局部平滑特性的一般曲面化文本頁面，并能同時(shí)消除文本頁面形狀變形和成像透視投影變形。

綜上所述，以上僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：康來;魏迎梅;白亮;郭金林;老松楊;謝毓湘
技術(shù)所有人：中國人民解放軍國防科學(xué)技術(shù)大學(xué)
我是此專利的發(fā)明人

上一篇：可更換及避障的機(jī)器人皮膚的制作方法與工藝
上一篇：一種基于決策理論粗糙集的地物特征提取方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

不能得到文本圖像可用相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種曲面化變形文本頁面圖像矯正方法與流程