欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種針對中文字符驗(yàn)證碼的二值化和分割方法與流程

文檔序號:11583624閱讀:694來源:國知局
一種針對中文字符驗(yàn)證碼的二值化和分割方法與流程

本發(fā)明涉及一種過濾二維字符驗(yàn)證碼中背景噪聲的方法,更具體地說,是一種針對中文字符驗(yàn)證碼的二值化和分割方法。



背景技術(shù):

字符驗(yàn)證碼被廣泛應(yīng)用于互聯(lián)網(wǎng)服務(wù)中,作為判斷網(wǎng)絡(luò)請求是否來自合法用戶的工具,從而防范機(jī)器的大量自動請求,保障網(wǎng)站服務(wù)器的穩(wěn)定運(yùn)行。字符驗(yàn)證碼是目前最常被使用的一類驗(yàn)證碼。該類驗(yàn)證碼通常需要用戶完成一個(gè)文字識別任務(wù),用戶需要正確識別出由計(jì)算機(jī)圖像技術(shù)生成的字符圖像中的各個(gè)字符以通過驗(yàn)證。為了提高機(jī)器識別驗(yàn)證碼的難度,該類驗(yàn)證碼的圖像中通常會伴隨有噪點(diǎn)、干擾線等作為干擾,字符本身通常會經(jīng)過旋轉(zhuǎn)、對稱、仿射等變換。此外,一些驗(yàn)證碼開始采用中文字符作為待識別字符。由于中文字符的筆劃較多,線條結(jié)構(gòu)較為復(fù)雜,使得傳統(tǒng)方法難以有效地將字符前景與干擾背景分割開來。

字符類驗(yàn)證碼識別的一般流程為:獲取圖像,圖像預(yù)處理,字符分割,字符特征提取,字符識別。其中,驗(yàn)證碼圖像的預(yù)處理主要是對圖像進(jìn)行前背景分割:噪點(diǎn)、干擾線等被分為背景,進(jìn)而將其過濾掉;字符被分為前景,以備特征提取和識別。

現(xiàn)有的字符類驗(yàn)證碼識別中,預(yù)處理時(shí)通常借助大津法得到全局二值化閾值。這種方法不適用于存在背景漸變的驗(yàn)證碼。此外,現(xiàn)有的識別方法對字符的分割主要采用豎直投影方法、基于連通區(qū)域分析的方法等。基于豎直投影的方法基于驗(yàn)證碼中字符呈水平分布這一假設(shè)對圖像進(jìn)行字符分割。如果驗(yàn)證碼中字符之間存在較密集的粘連,或是字符的分布不是水平時(shí),這種方法很難從統(tǒng)計(jì)出的垂直投影直方圖中估計(jì)出字符間隙,最終無法有效分割字符。基于連通區(qū)域分析的方法利用驗(yàn)證碼中同一字符筆畫的連通性,對圖像進(jìn)行字符分割。這種方法不適合分割中文字符驗(yàn)證碼,漢字字符中,一個(gè)字符可能包含多個(gè)連通域。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種針對中文字符驗(yàn)證碼的二值化和分割方法,利用高斯平滑濾波、形態(tài)學(xué)重建與meanshift聚類方法,能夠?qū)χ形淖址麍D像進(jìn)行有效的前背景分割。

為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種針對中文字符驗(yàn)證碼的二值化和分割方法,具體操作步驟如下:

(1)對獲取到的原始驗(yàn)證碼圖像灰度化;

(2)對灰度圖像進(jìn)行去噪和二值化;去噪時(shí),針對不同圖像噪聲情況應(yīng)用不同去噪方法;

(3)定位前景字符點(diǎn);統(tǒng)計(jì)前景、背景像素點(diǎn)數(shù)量,取數(shù)量較多的一類為背景點(diǎn),數(shù)量較少的一類為前景點(diǎn);

(4)對字符點(diǎn)進(jìn)行聚類;針對待識別驗(yàn)證碼圖像的特點(diǎn),選擇不同的數(shù)據(jù)維度利用meanshift方法進(jìn)行聚類;

(5)聚類調(diào)整:聚類后,對于分布比較分散的聚類,進(jìn)一步對其進(jìn)行聚類,得到更小更緊密的聚類;經(jīng)過聚類調(diào)整后,處于同一個(gè)聚類點(diǎn)的字符像素點(diǎn)將看作是表示同一個(gè)字符,由此得到驗(yàn)證碼圖像中的每一個(gè)字符的像素點(diǎn)表示,即字符分割完畢。

所述步驟(2)中的針對不同圖像噪聲情況應(yīng)用不同去噪方法,具體為:如果干擾線較粗或較密,或是驗(yàn)證碼背景存在漸變,則運(yùn)用核大小為1.0的高斯平滑和形態(tài)學(xué)重建方法;如果圖像中字符與背景顏色對比度不強(qiáng),則運(yùn)用核大小為0.3的高斯平滑和形態(tài)學(xué)重建方法;如果干擾線較少,且背景無漸變,字符和背景對比度較高,則不進(jìn)行去噪。

所述步驟(4)中的meanshift方法進(jìn)行聚類,是對具體待識別驗(yàn)證碼特點(diǎn)確定樣本點(diǎn)數(shù)據(jù)維度的;如果原始驗(yàn)證碼圖像是灰度圖像,或者是前景字符顏色統(tǒng)一的彩色圖像,則取灰度圖像的前景點(diǎn)像素在圖像中的行列位置(r,c)以及該像素灰度值v作為待聚類數(shù)據(jù)點(diǎn)(r,c,v);如果原始驗(yàn)證碼圖像是彩色圖像,而前景字符顏色不統(tǒng)一,則將原始圖像轉(zhuǎn)換到lab色彩空間,并取前景點(diǎn)像素在圖像中的行列位置(r,c)以及該像素lab色彩值(l,a,b)作為待聚類數(shù)據(jù)點(diǎn)(r,c,l,a,b)。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下突出的優(yōu)點(diǎn):

(1)基于高斯濾波和形態(tài)學(xué)重建的去噪和二值化過程,使得對存在背景漸變的驗(yàn)證碼能進(jìn)行有效的二值化;

(2)去噪過程是自適應(yīng)的。根據(jù)不同圖像的特點(diǎn)實(shí)行不同的去噪策略,使本方法適用于更多模式的驗(yàn)證碼識別;

(3)字符分割過程是自適應(yīng)的。根據(jù)圖像中背景和字符的顏色分布特點(diǎn),選擇不同特征作為分割依據(jù)。

(4)字符分割過程不限制字符數(shù)量。由于本方法分割前無需對字符數(shù)量進(jìn)行估計(jì)因而可以分割任意個(gè)數(shù)的字符;

(5)字符分割過程對字符分布容忍性較強(qiáng)。由于本方法分割后對聚類結(jié)果進(jìn)行進(jìn)一步調(diào)整,因此分布較為密集的多個(gè)字符將被進(jìn)一步分割為單獨(dú)的字符,如此可以得到更加準(zhǔn)確的字符分割結(jié)果。

附圖說明

圖1為本發(fā)明一種針對中文字符驗(yàn)證碼的二值化和分割方法的流程圖。

圖2為本發(fā)明一種針對中文字符驗(yàn)證碼的二值化和分割方法中圖像去噪過程的流程圖。

圖3為本發(fā)明一種針對中文字符驗(yàn)證碼的二值化和分割方法中確定meanshift聚類數(shù)據(jù)維度以及meanshift聚類過程的流程圖。

具體實(shí)施方式

下面結(jié)合附圖,對本發(fā)明的具體實(shí)施例做進(jìn)一步的說明。

如圖1所示,一種針對中文字符驗(yàn)證碼的二值化和分割方法,具體操作步驟如下:

(1)對獲取到的原始驗(yàn)證碼圖像灰度化,并將圖像的像素值線性映射到[0,1]區(qū)間。

(2)對灰度圖像進(jìn)行除噪和二值化。如果圖像中干擾線較多或較粗,或是存在漸變背景,則對圖像分別進(jìn)行沒有高斯平滑的形態(tài)學(xué)重建和使用高斯平滑的形態(tài)學(xué)重建,然后將兩次重建結(jié)果進(jìn)行逐像素的或運(yùn)算,得到去噪后的圖像。其中,高斯平滑的核大小為1.0。如果圖像中字符與背景顏色對比度不強(qiáng),同樣應(yīng)用上述去噪過程,不過要選用大小為0.3的高斯核進(jìn)行高斯平滑。如果圖像中干擾線較少,則不進(jìn)行除噪操作。對去噪后的圖像應(yīng)用大津法(一種通過最大化類間方差確定二值化閾值的方法),得到二值字符圖像,如圖2所示。

上述形態(tài)學(xué)重建的具體操作是,灰度圖像作為重建的掩模圖像i,將灰度圖像每個(gè)像素點(diǎn)灰度值減去0.4作為重建的種子圖像j,掩模圖像和種子圖像的值域?yàn)閧0,1,…,n-1}。由種子圖像j對掩模圖像i按照下式進(jìn)行灰度重建:

其中,tk(·)表示對某灰度圖像以閾值k進(jìn)行二值化得到的二值圖像。

(3)定位表示字符的前景點(diǎn)。對得到的二值字符圖像統(tǒng)計(jì)其前、背景點(diǎn)像素?cái)?shù)量,取數(shù)量較多的一類為背景點(diǎn),數(shù)量較少的一類為前景點(diǎn),即表示字符的像素點(diǎn)。也就是說,如果上一步中得到的二值字符圖像中前景點(diǎn)比背景點(diǎn)多,則將前背景互換。

(4)對字符點(diǎn)聚類。使用meanshift方法(一種統(tǒng)計(jì)迭代的核密度估計(jì)方法,這里用于聚類)對字符點(diǎn)進(jìn)行聚類。聚類之前需要確定要聚類的數(shù)據(jù)點(diǎn)維數(shù)。如果原始驗(yàn)證碼圖像是灰度圖像,或者是前景字符顏色統(tǒng)一的彩色圖像,則取灰度圖像的前景點(diǎn)像素在圖像中的行列位置(r,c)以及該像素灰度值v作為待聚類數(shù)據(jù)點(diǎn)(r,c,v);如果原始驗(yàn)證碼圖像是彩色圖像,而前景字符顏色不統(tǒng)一,則將原始圖像轉(zhuǎn)換到lab色彩空間,并取前景點(diǎn)像素在圖像中的行列位置(r,c)以及該像素lab色彩值(l,a,b)作為待聚類數(shù)據(jù)點(diǎn)(r,c,l,a,b)。確定了聚類數(shù)據(jù)點(diǎn)后,將這些數(shù)據(jù)點(diǎn)作為meanshift方法的輸入,進(jìn)行聚類,如圖3所示。聚類得到一些聚類中心點(diǎn),以及各個(gè)像素點(diǎn)對于這些聚類中心的歸屬情況。每一類有若干像素點(diǎn),每個(gè)字符像素點(diǎn)都將被分配至某一類,這些像素點(diǎn)在顏色空間和位置空間上都比較相近。

(5)聚類調(diào)整。對于比較分散的聚類,進(jìn)一步對這一類點(diǎn)進(jìn)行聚類,得到更小更緊密的聚類。經(jīng)過聚類調(diào)整后,處于同一個(gè)聚類點(diǎn)的字符像素點(diǎn)將看作是表示同一個(gè)字符,由此得到驗(yàn)證碼圖像中的每一個(gè)字符的像素點(diǎn)表示,即字符分割完畢。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
南部县| 永定县| 财经| 山东省| 东海县| 海原县| 莲花县| 治县。| 灵石县| 邢台市| 武宁县| 汝阳县| 兴业县| 元朗区| 宜川县| 泽州县| 太保市| 尼勒克县| 临邑县| 梓潼县| 都匀市| 北票市| 南宁市| 遂平县| 察雅县| 阜南县| 桐柏县| 南雄市| 岚皋县| 宁国市| 库尔勒市| 固原市| 静海县| 西宁市| 锦屏县| 桓台县| 邹平县| 什邡市| 汝阳县| 花垣县| 衡山县|