欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

印刷體阿拉伯字符預(yù)處理方法和裝置的制作方法

文檔序號(hào):6334971閱讀:332來(lái)源:國(guó)知局
專利名稱:印刷體阿拉伯字符預(yù)處理方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于光學(xué)字符識(shí)別領(lǐng)域,涉及一種字符預(yù)處理方法和裝置,具體涉及一種印刷體阿拉伯字符預(yù)處理方法和裝置。
背景技術(shù)
在字符識(shí)別時(shí),需要從原圖中對(duì)字符圖像進(jìn)行定位,然后再根據(jù)定位的坐標(biāo)進(jìn)行單字符識(shí)別。在印刷體的阿拉伯文中,各詞語(yǔ)在基線處連接在一起,排版時(shí)為了使每行中的文字都保持完整,在該行中一些詞中的拉長(zhǎng)符的長(zhǎng)度經(jīng)常會(huì)比較長(zhǎng)。如圖1所示,如果一個(gè)字符帶著較長(zhǎng)的拉長(zhǎng)符,但該字符的形狀則不可避免地存在一定的變形,導(dǎo)致字符不容易識(shí)別,現(xiàn)有的方法一般首先通過(guò)切分先將拉長(zhǎng)符斷開,然后分別對(duì)得到的切分塊進(jìn)行識(shí)別, 但切分時(shí)所采取的切分點(diǎn)會(huì)影響識(shí)別的效果,而且在切分點(diǎn)選取得并不非常準(zhǔn)確的情況下,阿拉伯字符間的拉長(zhǎng)符難免會(huì)對(duì)字符的識(shí)別帶來(lái)影響。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是公開了一種印刷體阿拉伯字符預(yù)處理方法和裝置, 在進(jìn)行字符識(shí)別前通過(guò)重心分析選取置信框,并通過(guò)置信框?qū)ψ址麍D像進(jìn)行調(diào)整后識(shí)別, 避免了拉長(zhǎng)符在阿拉伯文中的影響,提高了字符識(shí)別的識(shí)別率。本發(fā)明公開了一種印刷體阿拉伯字符預(yù)處理方法,包括如下步驟
步驟一對(duì)切分后得到的字符圖像分別進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度; 如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到步驟三,否則轉(zhuǎn)到步驟二; 步驟二 根據(jù)得到的重心偏離度調(diào)整置信框,確定置信框內(nèi)的字符圖像; 步驟三將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。所述步驟一包括如下步驟
步驟1.1對(duì)切分后得到的字符圖像進(jìn)行垂直投影;
步驟1. 2根據(jù)垂直投影得到的直方圖進(jìn)行統(tǒng)計(jì),分別標(biāo)記字符圖像的重心、左重心和右重心;
步驟1. 3根據(jù)標(biāo)記的重心、左重心和右重心計(jì)算字符圖像的重心偏離度; 步驟1. 4將重心偏離度與指定閾值比較;如果字符圖像的重心偏離度小于指定閾值, 則轉(zhuǎn)到步驟三,否則轉(zhuǎn)到步驟二。所述重心為字符圖像的水平重心,在該重心的水平坐標(biāo)的左側(cè)的垂直投影值之和與右側(cè)的垂直投影值之和相等。所述左重心為字符圖像的左邊界到重心之間水平方向上的某一點(diǎn),該點(diǎn)到字符圖像的左邊界的水平坐標(biāo)的垂直投影值之和與從該點(diǎn)到重心的垂直投影值之和相等。所述右重心為重心到字符圖像的右邊界之間水平方向上的某一點(diǎn),該點(diǎn)到字符圖像的右邊界的水平坐標(biāo)的垂直投影值之和與從該點(diǎn)到重心的垂直投影值之和相等。所述重心偏離度的計(jì)算公式為ABS(Pm - Μ)!(Mimam - GlrOr-Om)),其中,字
符圖像對(duì)應(yīng)的重心為σΜ ,左重心為-右重心為σ,,幾何中心為I。所述步驟二包括如下步驟
步驟2. 1根據(jù)重心偏離度確定字符圖像中待調(diào)整部分; 步驟2. 2根據(jù)得到的待調(diào)整部分進(jìn)行輪廓分析,得到調(diào)整點(diǎn); 步驟2. 3根據(jù)輪廓分析得到的調(diào)整點(diǎn)進(jìn)行置信框調(diào)整。所述確定字符圖像中待調(diào)整部分時(shí),選取使字符圖像的左右兩端的投影值差值最小的坐標(biāo)點(diǎn)作為調(diào)整后字符圖像的幾何中心,根據(jù)字符圖像的幾何中心定位待調(diào)整部分。所述待調(diào)整部分進(jìn)行輪廓分析時(shí),分別判斷字符圖像中待調(diào)整部分對(duì)應(yīng)的上輪廓和下輪廓的差值是否在輪廓閾值之內(nèi),如果在輪廓閾值之內(nèi),則從字符圖像的邊界開始查找首個(gè)上輪廓或下輪廓的差值在輪廓閾值之外的點(diǎn)作為調(diào)整點(diǎn)。所述上輪廓為字符圖像中每列像素從上至下第一個(gè)黑像素的位置,下輪廓為字符圖像中每列像素從下往上第一個(gè)黑像素的位置。所述根據(jù)輪廓分析得到的調(diào)整點(diǎn)進(jìn)行置信框調(diào)整時(shí),如果調(diào)整的是字符圖像的左邊部分時(shí),則將置信框的左邊界右移至調(diào)整點(diǎn);如果調(diào)整的是字符圖像的右邊部分,則將置信框的右邊界左移至調(diào)整點(diǎn)。本發(fā)明還公開了一種印刷體阿拉伯字符預(yù)處理裝置,包括如下模塊
分析模塊對(duì)切分后得到的字符圖像分別進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度; 如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到加載模塊,否則轉(zhuǎn)到調(diào)整模塊; 調(diào)整模塊根據(jù)得到的重心偏離度調(diào)整置信框,確定置信框內(nèi)的字符圖像; 加載模塊將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。本發(fā)明一種印刷體阿拉伯字符預(yù)處理方法和裝置,其優(yōu)點(diǎn)在于在進(jìn)行字符識(shí)別前通過(guò)重心分析選取置信框,并通過(guò)置信框?qū)ψ址麍D像進(jìn)行調(diào)整后,對(duì)置信框內(nèi)重心部分的字符圖像進(jìn)行識(shí)別,使字符圖像不受字符切分時(shí)切分點(diǎn)選擇不當(dāng)?shù)挠绊懀瑥亩苊饬死L(zhǎng)符在阿拉伯文中的影響,提高了字符識(shí)別的識(shí)別效果。


圖1為現(xiàn)有技術(shù)由于排版使字符圖像中拉長(zhǎng)符拉長(zhǎng)時(shí)的文本圖像的示意圖; 圖2為本發(fā)明印刷體阿拉伯字符預(yù)處理方法預(yù)處理的一個(gè)字符圖像示意圖; 圖3為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的字符圖像切分后得到的一個(gè)字塊; 圖4為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的流程圖; 圖5為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的重心均勻分布的字符圖像; 圖6為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的重心不均勻分布的字符圖像; 圖7為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的重心分析流程圖;圖8為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的垂直投影直方圖; 圖9為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的置信框調(diào)整的流程圖; 圖10為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的左重心點(diǎn)的左邊部分的垂直投影值之和以及左重心點(diǎn)的右邊部分的垂直投影值之和;
圖11為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的上輪廓值的直方圖; 圖12為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的下輪廓值的直方圖; 圖13為本發(fā)明印刷體阿拉伯字符預(yù)處理方法的置信框調(diào)整示意圖; 圖14為本發(fā)明印刷體阿拉伯字符預(yù)處理方法中預(yù)處理后的字符圖像; 圖15為未采用本方法印刷體阿拉伯字符預(yù)處理方法對(duì)圖1所示的字符圖像進(jìn)行識(shí)別的結(jié)果;
圖16為采用本發(fā)明印刷體阿拉伯字符預(yù)處理方法對(duì)圖1所示的字符圖像進(jìn)行識(shí)別的結(jié)果。
具體實(shí)施例方式下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。本發(fā)明公開了一種印刷體阿拉伯字符預(yù)處理方法和裝置,在阿拉伯文字符識(shí)別前對(duì)其進(jìn)行預(yù)處理,通過(guò)重心分析選取置信框,并通過(guò)置信框?qū)ψ址麍D像進(jìn)行調(diào)整,降低了阿拉伯文字符中的拉長(zhǎng)符對(duì)識(shí)別核心的影響,提高了識(shí)別的效果。如圖2所示,該阿拉伯字符由于排版等原因?qū)е伦址g的拉長(zhǎng)符較長(zhǎng),經(jīng)過(guò)字符切分后得到的字塊之一為如圖3所示的字塊。由于該字塊存在拉長(zhǎng)符,對(duì)于它的形狀與正常字符“??”的匹配度較差,如果將該字塊直接傳給單字識(shí)別核心進(jìn)行識(shí)別,得到的識(shí)別率會(huì)大大降低。本發(fā)明公開了一種印刷體阿拉伯字符預(yù)處理方法,對(duì)其進(jìn)行置信框預(yù)處理來(lái)解決這些問(wèn)題,下面給出一個(gè)實(shí)施實(shí)例,處理的流程圖如圖4,具體步驟如下
步驟一對(duì)切分后得到的字符圖像分別進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度; 如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到步驟三,否則轉(zhuǎn)到步驟二。所述重心為字符圖像的水平重心,在該重心的水平坐標(biāo)的左側(cè)的垂直投影值之和與右側(cè)的垂直投影值之和相等。所述左重心為字符圖像的左邊界到重心之間水平方向上的某一點(diǎn),該點(diǎn)到字符圖像的左邊界的垂直投影值之和與從該點(diǎn)到重心的垂直投影值之和相等。所述右重心為重心到字符圖像的右邊界之間水平方向上的某一點(diǎn),該點(diǎn)到字符圖像的右邊界的垂直投影值之和與從該點(diǎn)到重心的垂直投影值之和相等。如圖5所示,一般來(lái)說(shuō),切分正確的阿拉伯文的字符重心分布應(yīng)該是均勻的,應(yīng)該在其水平坐標(biāo)中心的附近,但如圖6所示,帶有拉長(zhǎng)符的阿拉伯文字符的重心分布不均勻, 考慮到以上特點(diǎn),對(duì)字符圖像進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度。本實(shí)施例中,如圖7所示,以切分后如圖6所示的字符圖像為例對(duì)字符圖像進(jìn)行重心分析
步驟1.1對(duì)切分后得到的字符圖像進(jìn)行垂直投影;將切分后如圖6中的字符圖像進(jìn)行垂直投影,得到垂直投影數(shù)組,垂直投影數(shù)組中存儲(chǔ)字符圖像中對(duì)應(yīng)水平坐標(biāo)的投影值,所得的投影直方圖如圖8所示,圖中橫坐標(biāo)為圖6對(duì)應(yīng)的字符的橫坐標(biāo),縱坐標(biāo)為圖6中各橫坐標(biāo)對(duì)應(yīng)的垂直投影值。步驟1. 2根據(jù)垂直投影得到的直方圖進(jìn)行統(tǒng)計(jì),分別標(biāo)記字符圖像的重心、左重心和右重心;
對(duì)圖8中投影直方圖中的各橫坐標(biāo)對(duì)應(yīng)的投影值進(jìn)行統(tǒng)計(jì)。根據(jù)各橫坐標(biāo)對(duì)應(yīng)的投影值標(biāo)記出字符圖像對(duì)應(yīng)的重心、左重心和右重心,使所述重心的水平坐標(biāo)的左右兩側(cè)的垂直投影值之和相等,左重心到字符圖像的左邊界的水平坐標(biāo)的垂直投影值之和與從左重心到重心的垂直投影值之和相等;右重心到字符圖像的右邊界的水平坐標(biāo)的垂直投影值之和與從右重心到重心的垂直投影值之和相等。步驟1. 3根據(jù)標(biāo)記的重心、左重心和右重心計(jì)算字符圖像的重心偏離度; 本實(shí)施例中,設(shè)標(biāo)記出圖8中所示的字符圖像對(duì)應(yīng)的重心為&,左重心為
巧,右重心為水平坐標(biāo)的幾何中心為if ,所對(duì)應(yīng)的重心偏離度的計(jì)算公式為 ^(Gk - M)I(MIN(GS - GliGr-Gm)),其中分子- If)表示字符圖像的重心與幾
何中心的偏差,分母Gi,巧-GJ為左重心和右重心中與重心偏差較小的部分,表
示字符圖像中變形較小并且不包含拉長(zhǎng)符的更加穩(wěn)定的部分,分子、分母進(jìn)行計(jì)算從而得到字符圖像的重心偏離度。步驟1. 4將重心偏離度與指定閾值比較;如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到步驟三,否則轉(zhuǎn)到步驟二。本實(shí)施例中,如圖8所示,對(duì)于圖6中的字符圖像,重心Gjs =14,左重心Q =6,右重
心Gr =28,幾何中心Af =23,指定閾值取0.5,將重心偏離度與指定閾值比較,故對(duì)應(yīng)的重心
偏離度為』1(14-23)/(1^/(14-6,28-14)) =1. 125,大于閾值0. 5,轉(zhuǎn)到步驟二,根據(jù)得到
的重心偏離度對(duì)字符圖像采用置信框進(jìn)行調(diào)整,否則,轉(zhuǎn)到步驟三,不進(jìn)行置信框調(diào)整,直接輸出作為預(yù)處理圖像,將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。步驟二 根據(jù)得到的重心偏離度調(diào)整置信框,確定置信框內(nèi)的字符圖像;
對(duì)于字符圖像來(lái)說(shuō),置信框?yàn)樵谧址麍D像中一個(gè)字符最可能出現(xiàn)區(qū)域的最大外接矩形框,即在字符圖像中的一個(gè)矩形區(qū)域,該矩形區(qū)域內(nèi)的圖像被識(shí)別為一個(gè)字符的可能性較大。字符圖像加載置信框后,對(duì)置信框進(jìn)行調(diào)整,去除字符圖像中無(wú)用的部分,使置信框中盡可能只保留一個(gè)字符的有效部分。置信框由上邊界、下邊界、左邊界和右邊界四個(gè)邊界組成。本實(shí)施例中,如圖6所示的字符圖像,未調(diào)整的初始置信框設(shè)置為圖像的邊界,其上邊界為1,下邊界為37,左邊界為1,右邊界為46。如圖9所示,具體根據(jù)得到的重心偏離度對(duì)字符圖像采用置信框進(jìn)行調(diào)整的步驟包括
步驟2. 1根據(jù)重心偏離度確定字符圖像中待調(diào)整部分。由于帶拉長(zhǎng)符的字符圖像的重心與字符圖像的幾何中心的偏差與正常不帶拉長(zhǎng)符的字符相比較大,則根據(jù)字符圖像的重心和字符圖像的幾何中心的位置對(duì)字符圖像進(jìn)行調(diào)整。本實(shí)施例中,根據(jù)投影直方圖中的字符圖像的重心和字符圖像的幾何中心的坐標(biāo)進(jìn)行判斷。為了使調(diào)整后的字符圖像的重心向幾何中心靠近,使字符圖像中心的左右兩端的投影值平衡,如果字符圖像的重心在幾何中心的左邊,說(shuō)明拉長(zhǎng)符應(yīng)該在字符圖像的右半部分,則需要調(diào)整字符圖像的右半部分使字符圖像在幾何中心的左右兩端的投影值平衡;如果字符圖像的重心在幾何中心的右邊,說(shuō)明拉長(zhǎng)符應(yīng)該在字符圖像的左半部分,則需要調(diào)整字符圖像的左半部分使字符圖像在幾何中心的左右兩端的投影值平衡。字符圖像中的置信框進(jìn)行調(diào)整后,字符圖像重心和中心的偏差較小,字符圖像的幾何中心的左右兩端的投影值平衡。在調(diào)整過(guò)程中選取使字符圖像的左右兩端的投影值最平衡的點(diǎn),即差值最小的坐標(biāo)點(diǎn)作為調(diào)整后字符圖像的幾何中心,具體對(duì)置信框進(jìn)行調(diào)整的過(guò)程如下
當(dāng)需要調(diào)整字符圖像的右半部分時(shí),設(shè)調(diào)整后的重心為這,垂直投影數(shù)組為Ρ[χΙ(χ= ,-,η),表示坐標(biāo)點(diǎn)的水平坐標(biāo)的投影值,則調(diào)整后的目標(biāo)函數(shù)為
,該目標(biāo)函數(shù)表示調(diào)整后的字符圖像的重心與中心重合。對(duì)于從左重
心點(diǎn)到重心點(diǎn)之間的每個(gè)水平坐標(biāo)點(diǎn) ,分別計(jì)算左重心點(diǎn)的左邊部分的垂直投影值之和
i 2i
1以及左重心點(diǎn)的右邊部分的垂直投影值之和⑷,且硿=Σ珂到、硿=Σ珂幻,設(shè)當(dāng)這
Mml
兩個(gè)垂直投影值之和的差距為最小時(shí)對(duì)應(yīng)的水平坐標(biāo)為J,則將J作為調(diào)整后的重心所對(duì)應(yīng)的水平坐標(biāo),且對(duì)應(yīng)的調(diào)整點(diǎn)的水平坐標(biāo)為U ,即將水平坐標(biāo)值為U右側(cè)的部分的字符圖像作為待調(diào)整部分。當(dāng)需要調(diào)整字符圖像的左半部分時(shí),調(diào)整后的目標(biāo)函數(shù)為2x ΣΡ[χ]= Σ ΡΜ
,該目標(biāo)函數(shù)表示調(diào)整后的字符圖像的重心與中心重合,對(duì)于從重心點(diǎn)到右重心點(diǎn)之間的每個(gè)水平坐標(biāo)點(diǎn),,分別計(jì)算右重心點(diǎn)的右邊部分的垂直投影值之和貧以及右重心點(diǎn)的左
邊部分的垂直投影值之和爐,和硿=Ση^ι ,設(shè)當(dāng)這兩個(gè)垂直投影值之和的
差距為最小時(shí)對(duì)應(yīng)的水平坐標(biāo)為J,則將J作為調(diào)整后的重心所對(duì)應(yīng)的水平坐標(biāo),且對(duì)應(yīng)的調(diào)整點(diǎn)的水平坐標(biāo)為2j_ ,即將水平坐標(biāo)值為左側(cè)的部分的字符圖像作為待調(diào)整部分。本實(shí)施例中,如圖8所示,圖6所示的字符圖像的重心在字符圖像的幾何中心的左邊,則說(shuō)明拉長(zhǎng)符應(yīng)該在字符圖像的右半部分,需要調(diào)整字符圖像的右半部分使字符圖像在幾何中心的左右兩端的投影值平衡。從字符圖像的左重心點(diǎn)到重心點(diǎn)之間的每個(gè)水平坐
標(biāo)點(diǎn),分別計(jì)算左重心點(diǎn)的左邊部分的垂直投影值之和焚以及左重心點(diǎn)的右邊部分的垂直投影值之和硿,對(duì)應(yīng)的硿和硿的值如圖10所示。其中,水平坐標(biāo)為6的坐標(biāo)點(diǎn)所對(duì)應(yīng)
8的硿和硿的差距最小,將該坐標(biāo)點(diǎn)作為調(diào)整后字符圖像的重心,所以對(duì)應(yīng)的字符圖像的調(diào)
整點(diǎn)的水平坐標(biāo)為12,則字符圖像中調(diào)整點(diǎn)的右側(cè)部分[13-46]為對(duì)應(yīng)的待調(diào)整部分。步驟2. 2根據(jù)得到的待調(diào)整的部分進(jìn)行輪廓分析,得到待調(diào)整部分的調(diào)整點(diǎn)。對(duì)待調(diào)整部分進(jìn)行上輪廓分析,判斷待調(diào)整部分是否為一個(gè)拉長(zhǎng)符,即判斷字符圖像的上輪廓是否為一條水平的直線,也就是判斷該部分字符圖像黑像素的上邊緣和下邊緣的是否近似水平。具體判斷字符圖像黑像素的上邊緣和下邊緣是否近似水平的方法為
設(shè)字符圖像對(duì)應(yīng)的上輪廓為啊(又=1,…,《)、對(duì)應(yīng)的下輪廓為D[x],(x = 1,…,Μ),上輪廓表示字符圖像中每列像素從上至下第一個(gè)黑像素的位置,下輪廓表示字符圖像中每列像素從下往上第一個(gè)黑像素的位置,設(shè)待調(diào)整部分的字符圖像的左邊界為i ,右邊界為Λ, 如果待調(diào)整部分的字符圖像的輪廓滿足如下條件
』孤(t/(x) — 7(χ + 1)) 2 且』孤(D(x)—£)(i- + l))S2 , (χ= £,-,Λ)
表明該字符圖像的上輪廓和下輪廓變化幅度不大,則認(rèn)為該部分的字符圖像的輪廓為一個(gè)拉長(zhǎng)符,否則需要根據(jù)字符圖像的上輪廓和下輪廓重新計(jì)算調(diào)整部分。當(dāng)需要調(diào)整字符圖像的左邊部分時(shí),從左邊界i開始查找第一個(gè)不滿足上述條件的點(diǎn),記為如果該點(diǎn)位于坐標(biāo)圖像的右半部分,即(i-£)大于口-£)/2 ,則設(shè)調(diào)整點(diǎn)為是。當(dāng)需要調(diào)整字符圖像的右邊部分時(shí),從右邊界開始查找第一個(gè)不滿足上述條件的點(diǎn),記為A,如果該點(diǎn)位于坐標(biāo)圖像的左半部分,即大于⑵_i)/2 ,則設(shè)調(diào)整點(diǎn)力如果以上條件都不滿足,則直接轉(zhuǎn)至步驟三。本實(shí)施例中,從水平坐標(biāo)13到46的區(qū)域?yàn)榇{(diào)整區(qū)域,如圖11和圖12所示,圖中,橫坐標(biāo)為圖6對(duì)應(yīng)的字符的橫坐標(biāo),縱坐標(biāo)為圖6中各橫坐標(biāo)對(duì)應(yīng)的上輪廓值和下輪廓值。字符圖像的上輪廓之間和下輪廓之間的值相差不大,該待調(diào)整區(qū)域內(nèi)的水平坐標(biāo)點(diǎn)滿足條件As (乙.r0)-^/0+1 S2 且 ASJOD(X)- +1)) S2 (x=L, — ,R),表明該待調(diào)整
區(qū)域內(nèi)的字符圖像的上輪廓和下輪廓變化幅度不大,為阿拉伯字符圖像中對(duì)應(yīng)的拉長(zhǎng)符, 設(shè)置調(diào)整點(diǎn)對(duì)應(yīng)的水平坐標(biāo)為12。步驟2. 3根據(jù)輪廓分析得到的調(diào)整點(diǎn)進(jìn)行置信框調(diào)整。調(diào)用存儲(chǔ)模塊中存儲(chǔ)的置信框,對(duì)置信框進(jìn)行初始化,并根據(jù)輪廓分析得到的調(diào)整點(diǎn)對(duì)置信框進(jìn)行調(diào)整。根據(jù)輪廓分析得到的調(diào)整點(diǎn)進(jìn)行判斷,如果調(diào)整的是字符圖像的左邊部分時(shí),則設(shè)置置信框?qū)?yīng)的左邊界為起始,將置信框的左邊界向右移動(dòng),將置信框的左邊界右移至待調(diào)整區(qū)域的右邊界,即將置信框的左邊界右移至調(diào)整點(diǎn),置信框的其他邊界不變;如果調(diào)整的是字符圖像的右邊部分,設(shè)置置信框?qū)?yīng)的右邊界為起始,將置信框的右邊界向左移動(dòng),將置信框的右邊界左移至待調(diào)整區(qū)域的左邊界,即將置信框的右邊界左移至調(diào)整點(diǎn),置信框的其他邊界不變。本實(shí)施例中,如圖13所示,重心在幾何中心的左半部分,根據(jù)步驟2. 1中對(duì)確定待調(diào)整部分的過(guò)程,故需要調(diào)整字符圖像的右邊部分,則設(shè)置置信框?qū)?yīng)的右邊界為起始,將字符圖像的置信框的右邊界左移,調(diào)整至輪廓分析得到的調(diào)整點(diǎn),即對(duì)應(yīng)的水平坐標(biāo)12,則字符圖像調(diào)整后的置信框的右邊界對(duì)應(yīng)的水平坐標(biāo)為13,置信框的其他邊界不變。
步驟三將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。本實(shí)施例中,預(yù)處理后的字符圖像如圖14所示,此時(shí)的置信框的上邊界為1,下邊界為37,左邊界為1,右邊界為13。從圖中可以看出,字符圖像中的拉長(zhǎng)符被截?cái)啵址麍D像在幾何中心的左右兩端的投影值平衡,使各字符圖像在去掉拉長(zhǎng)符后再加載至識(shí)別阿拉伯文單字識(shí)別核心進(jìn)行識(shí)別,處理后的字符形狀與阿拉伯文字符“??”的匹配度較好,使識(shí)別率大大提高。如圖15所示,為未使用本方法對(duì)圖1進(jìn)行字符識(shí)別后的結(jié)果,圖中上半部分是識(shí)別結(jié)果,下半部分是待識(shí)別圖像,從圖中可看出,第一行的第二個(gè)詞以及第三行的最后一個(gè)詞都為原圖中字符圖像的拉長(zhǎng)符過(guò)長(zhǎng)導(dǎo)致,使識(shí)別率受到了影響。如圖16所示,為采用本方法對(duì)圖1所示的字符圖像進(jìn)行字符識(shí)別后的結(jié)果,對(duì)字符圖像進(jìn)行了置信框預(yù)處理,使字符圖像在幾何中心的左右兩端的投影值平衡,避免了字符圖像中的拉長(zhǎng)符對(duì)字符識(shí)別的影響,從而得到良好的效果。本發(fā)明還公開了一種印刷體阿拉伯字符預(yù)處理裝置,包括如下模塊
分析模塊對(duì)切分后得到的字符圖像分別進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度; 如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到加載模塊,否則轉(zhuǎn)到調(diào)整模塊; 調(diào)整模塊根據(jù)得到的重心偏離度調(diào)整置信框,確定置信框內(nèi)的字符圖像; 加載模塊將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括如上述方法實(shí)施例的步驟,所述的存儲(chǔ)介質(zhì),如R0M/RAM、磁碟、光盤等。以上所述,僅為本發(fā)明的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種印刷體阿拉伯字符預(yù)處理方法,其特征在于,包括如下步驟步驟一對(duì)切分后得到的字符圖像分別進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度; 如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到步驟三,否則轉(zhuǎn)到步驟二;步驟二 根據(jù)得到的重心偏離度調(diào)整置信框,確定置信框內(nèi)的字符圖像;步驟三將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟一包括如下步驟步驟1. 1對(duì)切分后得到的字符圖像進(jìn)行垂直投影;步驟1. 2根據(jù)垂直投影得到的直方圖進(jìn)行統(tǒng)計(jì),分別標(biāo)記字符圖像的重心、左重心和右重心;步驟1. 3根據(jù)標(biāo)記的重心、左重心和右重心計(jì)算字符圖像的重心偏離度;步驟1. 4將重心偏離度與指定閾值比較;如果字符圖像的重心偏離度小于指定閾值, 則轉(zhuǎn)到步驟三,否則轉(zhuǎn)到步驟二。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于所述重心為字符圖像的水平重心,在該重心的水平坐標(biāo)的左側(cè)的垂直投影值之和與右側(cè)的垂直投影值之和相等。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于所述左重心為字符圖像的左邊界到重心之間水平方向上的某一點(diǎn),該點(diǎn)到字符圖像的左邊界的垂直投影值之和與從該點(diǎn)到重心的垂直投影值之和相等。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于所述右重心為重心到字符圖像的右邊界之間水平方向上的某一點(diǎn),該點(diǎn)到字符圖像的右邊界的垂直投影值之和與從該點(diǎn)到重心的垂直投影值之和相等。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于所述重心偏離度的計(jì)算公式為 ^(Gh - M)f(MIN(Om - GllOr-OJ),其中,字符圖像對(duì)應(yīng)的重心為0^ ,左重心為 右重心為0。幾何中心為M。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟二包括如下步驟步驟2. 1根據(jù)重心偏離度確定字符圖像中待調(diào)整部分;步驟2. 2根據(jù)得到的待調(diào)整部分進(jìn)行輪廓分析,得到調(diào)整點(diǎn);步驟2. 3根據(jù)輪廓分析得到的調(diào)整點(diǎn)進(jìn)行置信框調(diào)整。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于所述確定字符圖像中待調(diào)整部分時(shí),選取使字符圖像的左右兩端的投影值差值最小的坐標(biāo)點(diǎn)作為調(diào)整后字符圖像的幾何中心,根據(jù)字符圖像的幾何中心定位待調(diào)整部分。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于所述待調(diào)整部分進(jìn)行輪廓分析時(shí),分別判斷字符圖像中待調(diào)整部分對(duì)應(yīng)的上輪廓和下輪廓的差值是否在輪廓閾值之內(nèi),如果在輪廓閾值之內(nèi),則從字符圖像的邊界開始查找首個(gè)上輪廓或下輪廓的差值在輪廓閾值之外的點(diǎn)作為調(diào)整點(diǎn)。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于所述上輪廓為字符圖像中每列像素從上至下第一個(gè)黑像素的位置,下輪廓為字符圖像中每列像素從下往上第一個(gè)黑像素的位置。
11.根據(jù)權(quán)利要求7所述的方法,其特征在于所述根據(jù)輪廓分析得到的調(diào)整點(diǎn)進(jìn)行置信框調(diào)整時(shí),如果調(diào)整的是字符圖像的左邊部分時(shí),則將置信框的左邊界右移至調(diào)整點(diǎn);如果調(diào)整的是字符圖像的右邊部分,則將置信框的右邊界左移至調(diào)整點(diǎn)。
12. —種印刷體阿拉伯字符預(yù)處理裝置,其特征在于,包括如下模塊 分析模塊對(duì)切分后得到的字符圖像分別進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度; 如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到加載模塊,否則轉(zhuǎn)到調(diào)整模塊; 調(diào)整模塊根據(jù)得到的重心偏離度調(diào)整置信框,確定置信框內(nèi)的字符圖像; 加載模塊將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。
全文摘要
本發(fā)明公開了一種印刷體阿拉伯字符預(yù)處理方法和裝置,屬于光學(xué)字符識(shí)別領(lǐng)域。該方法包括步驟一,對(duì)切分后得到的字符圖像分別進(jìn)行重心分析,計(jì)算字符圖像的重心偏離度;如果字符圖像的重心偏離度小于指定閾值,則轉(zhuǎn)到步驟三,否則轉(zhuǎn)到步驟二;步驟二,根據(jù)得到的重心偏離度調(diào)整置信框,確定置信框內(nèi)的字符圖像;步驟三將置信框內(nèi)的字符圖像加載到識(shí)別核心進(jìn)行識(shí)別。本發(fā)明在進(jìn)行字符識(shí)別前通過(guò)重心分析選取置信框,并通過(guò)置信框?qū)ψ址麍D像進(jìn)行調(diào)整后,對(duì)置信框內(nèi)重心部分的字符圖像進(jìn)行識(shí)別,使字符圖像不受字符切分時(shí)切分點(diǎn)選擇不當(dāng)?shù)挠绊?,從而避免了拉長(zhǎng)符在阿拉伯文中影響,提高了字符識(shí)別的識(shí)別效果。
文檔編號(hào)G06K9/36GK102456138SQ20101053020
公開日2012年5月16日 申請(qǐng)日期2010年11月3日 優(yōu)先權(quán)日2010年11月3日
發(fā)明者劉正珍, 王琛, 鈕興昱 申請(qǐng)人:漢王科技股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
含山县| 怀来县| 江永县| 金沙县| 丰城市| 昔阳县| 浦城县| 乌拉特中旗| 阿克苏市| 南通市| 安阳市| 洪江市| 梨树县| 南皮县| 酉阳| 叶城县| 南开区| 广昌县| 崇礼县| 桃江县| 红桥区| 铜川市| 绩溪县| 双辽市| 慈利县| 邛崃市| 桃园县| 海南省| 桃园市| 大方县| 茂名市| 涿州市| 浮山县| 探索| 福海县| 长岛县| 芒康县| 金沙县| 宁波市| 闵行区| 逊克县|