本發(fā)明涉及圖像文字識別領(lǐng)域,更具體地,涉及一種基于多分類器集成的圖像文字識別方法。
背景技術(shù):
社會發(fā)展進入信息時代,隨著實踐活動的擴大、深入和社會化需要,人類需要去識別很多類的形式內(nèi)容復(fù)雜的信息。人們已經(jīng)不再停留在自己的耳朵和眼睛去直接獲得這些信息,而是使用計算機將文字自動的輸入計算機。由于科技水平不斷提高,使得各種不同的研究對象得到“圖像化”和“數(shù)字化”,以圖像為主的多媒體信息迅速成為重要的信息傳遞媒介,圖像中的文字信息包含了豐富的高層語義信息。提取出這些文字,對于圖像高層次語義的理解、索引和檢索非常有幫助。
現(xiàn)在對于文字圖像識別技術(shù)的研究,還面臨幾個問題,一是圖像數(shù)據(jù)量大,一般來說,要取得較高的識別精度,原始圖像應(yīng)具有較高的分辨率,至少應(yīng)大于64×64。二是圖像污損,由于目標(biāo)環(huán)境的干擾、傳輸?shù)恼`差、傳感器的誤差、噪聲、背景干擾、變形等會污損圖像。三是準(zhǔn)確性,位移、旋轉(zhuǎn)、尺度變化、扭曲,和人類的視覺一樣,目標(biāo)和傳感器之間存在有位置的變化,因此,要求系統(tǒng)在目標(biāo)產(chǎn)生位移、旋轉(zhuǎn)、尺度變化、扭曲時,仍能夠正確識別目標(biāo)。四是實時性,在軍事領(lǐng)域的應(yīng)用中,大都要求系統(tǒng)能夠?qū)崟r的識別目標(biāo),這就要求系統(tǒng)有極快的出來速度和識別效率。
鑒于當(dāng)前文字識別系統(tǒng)的發(fā)展現(xiàn)狀,如何提高印刷體文字的識別率仍是當(dāng)前的研究熱點,如何在世界場景下識別文字將是文字識別系統(tǒng)發(fā)展的一個方向。此外,如何構(gòu)建具有版面自動分析、容錯性強、識別率高、錯誤自學(xué)習(xí)自修正、易擴展特點的文字識別系統(tǒng)是文字識別自動化的研究目標(biāo)。所以,圖像文字識別技術(shù)的研究顯得尤為重要。
技術(shù)實現(xiàn)要素:
本發(fā)明為克服上述現(xiàn)有技術(shù)所述的至少一種缺陷,提供一種自動化的、識別率高的基于多分類器集成的圖像文字識別方法。
為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
一種基于多分類器集成的圖像文字識別方法,所述方法包括以下步驟:
S1:將彩色的待識別圖像轉(zhuǎn)換為灰度圖像,若待識別圖像本身為灰度圖像則省略本步驟;
S2:對得到的灰度圖像進行二值化處理,并將包含文字信息的圖像區(qū)域分割出來;
S3:將每個漢字從整塊文字圖像中分割出來;
S4:提取每個漢字的網(wǎng)格特征和方向特征;
S5:采用最小距離分類器,選用筆畫密度總長度特征來進行第一層的粗分類;
S6:采用最鄰近分類器,分別選用外圍特征、網(wǎng)格特征和方向特征相結(jié)合來完成第二層的分類匹配。
在一種優(yōu)選的方案中,步驟S1中,將彩色的待識別圖像轉(zhuǎn)換為灰度圖像時,采用加權(quán)平均值方法進行灰度轉(zhuǎn)換,即對R、G、B的值加權(quán)平均:R=G=B=a*R+b*G+c*B;其中,R、G、B分別表示紅色、綠色和藍色,a,b,c分別為R、G、B的權(quán)值,其中b>a>c。
在圖像文字識別時,輸入的待識別圖像一般都是彩色RGB圖像,其包含了大量的顏色信息,要是對圖像進行處理會降低系統(tǒng)的執(zhí)行速度,加之RGB圖像包含有很多與文字識別無關(guān)的顏色信息,不利于文字的定位,而灰度圖像,只包含亮度信息,不包含色彩信息,有利于后期對圖像進一步的處理,可以提高運行速度,有利于下一步的文字定位。由于人眼對綠色最為敏感,對紅色的敏感度次之,對藍色的敏感度最低,所以當(dāng)在b>a>c的條件下,可以得到較易于識別的灰度圖像。
在一種優(yōu)選的方案中,步驟S2中,采用OTSU算法(大津法或最大類間方差法)對灰度圖像進行二值化處理。
圖像的二值化處理,是對圖像上的像素點的灰度值置為0或255,即當(dāng)所有灰度大于或等于閥值的像素點被判定為特定的物體,其灰度值為255,否則,其灰度值為0,表示其他的物體區(qū)域或者背景,處理后的圖像將呈現(xiàn)明顯的黑白效果。圖像的二值化將是具有256個灰度等級的灰度圖像經(jīng)過合適的閥值選取后,將像素的灰度級分成2級。經(jīng)過二值化處理后的圖像,其性質(zhì)只與灰度值為0或255的像素點的位置有關(guān),不再涉及到其他灰度級的像素點,便于對圖像作進一步的處理,且數(shù)據(jù)的處理量和壓縮量較小,且獲得的二值化圖像仍舊可以反映圖像整體與局部的特征。為了得到理想的二值化圖像,閥值的選取至關(guān)重要。選取適當(dāng)?shù)拈y值,不僅可以有效地去除噪聲,而且可將圖像明顯地分成目標(biāo)區(qū)域和背景,大大減少信息量,提高處理的速度。
在一種優(yōu)選的方案中,步驟S3中,采用字切分法識別圖像區(qū)域里的單個文字,即利用字和字之間的空白間隙在圖像水平方向上的垂直投影形成的波峰與波谷將單個字符分割出來。
在一種優(yōu)選的方案中,步驟S3中,為了提高準(zhǔn)確率,采用回歸式字切分法識別單個文字,即根據(jù)漢字是方形圖形、具有大致的均勻尺寸的特點,利用行切分時獲取的文字高度來估計文字的寬度,從而預(yù)測下一個文字的位置。
在一種優(yōu)選的方案中,步驟S4中,提取文字網(wǎng)格特征的具體方法如下:
1)將文字點陣分成8×8份;
2)求出每份中的黑點數(shù),用P11,P12,…P18,P21…P88表示;
3)求出文字總的黑點數(shù)P=P11+P12+…+Pl8+P21+…+P88;
4)求出每份中黑點數(shù)所占整個文字黑點數(shù)的百分比Pij=Pij× 100 / P,其中i、j為大于等于1且小于等于8的整數(shù),特征向量(P11,P12,…P18,P21…P88)就是文字的網(wǎng)格特征。
在一種優(yōu)選的方案中,步驟S4中,提取文字方向特征的具體方法如下:
對文字點陣圖像進行二值化和歸一化,并提取輪廓信息,對輪廓上的每個點賦予一個或兩個方向的屬性,方向取水平、垂直及正反45°共四個角度,將文字點陣劃分為n×n個網(wǎng)格,計算每個網(wǎng)格中包括的4個方向?qū)傩缘膫€數(shù),從而構(gòu)成一個4維向量,綜合所有的網(wǎng)格特征,形成一個4×n×n維的特征向量,即為方向特征。
在一種優(yōu)選的方案中,步驟S5中,構(gòu)建最小距離分類器的具體方法如下:
1)從樣本中提取文字的筆畫密度長度作為粗分類的特征向量。2)分別計算每一個類別的樣本所對應(yīng)的特征,每一類的每一維都有特征集合,通過集合,可以計算出一個均值,也就是特征中心。3)通常為了消除不同特征因為量綱不同的影響,我們對每一維的特征,需要做一個歸一化,或者是放縮到(-1,1)等區(qū)間,使其去量綱化。4)利用選取的距離準(zhǔn)則,對待分類的本進行判定。
在一種優(yōu)選的方案中,步驟S6中,構(gòu)建最鄰近分類器的具體方法如下:
1)初始化距離為最大值
2)計算未知樣本和每個訓(xùn)練樣本的距離dist
3)得到目前K個最臨近樣本中的最大距離maxdist
4)如果dist小于maxdist,則將該訓(xùn)練樣本作為K-最近鄰樣本
5)重復(fù)步驟2、3、4,直到未知樣本和所有訓(xùn)練樣本的距離都算完
6)統(tǒng)計K-最近鄰樣本中每個類標(biāo)號出現(xiàn)的次數(shù)
7)選擇出現(xiàn)頻率最大的類標(biāo)號作為未知樣本的類標(biāo)號
與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:本發(fā)明提供一種基于多分類器集成的圖像文字識別方法,將彩色的待識別圖像轉(zhuǎn)換為灰度圖像;對灰度圖像進行二值化處理,并將包含文字信息的圖像區(qū)域分割出來;將每個漢字從整塊文字圖像中分割出來;提取每個漢字的網(wǎng)格特征和方向特征;采用最小距離分類器,選用筆畫密度總長度特征來進行第一層的粗分類;采用最鄰近分類器,分別選用外圍特征、網(wǎng)格特征和方向特征相結(jié)合來完成第二層的分類匹配。對于特征提取,采用網(wǎng)格和方向特征結(jié)合的方法,使文字識別既有較強的抗干擾能力、又有較強的描述文字局部結(jié)構(gòu)的能力,而且受筆畫寬度的影響較??;對于圖像文字識別中,應(yīng)用了人工智能學(xué)習(xí)技術(shù),提高系統(tǒng)的適應(yīng)性并且識別率高;對于分類器設(shè)計,采用了最小距離分類器、最臨近分類器互補結(jié)合的分類器集成技術(shù),使系統(tǒng)更具可靠性。
附圖說明
圖1為基于多分類器集成的圖像文字識別方法的流程圖。
圖2為灰度轉(zhuǎn)換和二值化的示意圖。
圖3為回歸式字切分法的示意圖。
圖4為提取文字網(wǎng)格特征的示意圖。
圖5為提取方向網(wǎng)格特征的示意圖。
圖6為多個分類器集成的文字識別示意圖。
圖7為整段文字分割成單個的字體的示意圖。
圖8為以文本框的形式輸出文字的示意圖。
具體實施方式
附圖僅用于示例性說明,不能理解為對本專利的限制;
為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產(chǎn)品的尺寸;
對于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。
下面結(jié)合附圖和實施例對本發(fā)明的技術(shù)方案做進一步的說明。
實施例1
如圖1所示,一種基于多分類器集成的圖像文字識別方法,所述方法包括以下步驟:
S1:將彩色的待識別圖像轉(zhuǎn)換為灰度圖像,若待識別圖像本身為灰度圖像則省略本步驟;
將彩色的待識別圖像轉(zhuǎn)換為灰度圖像時,采用加權(quán)平均值方法進行灰度轉(zhuǎn)換,即對R、G、B的值加權(quán)平均:R=G=B=a*R+b*G+c*B;其中,R、G、B分別表示紅色、綠色和藍色,a,b,c分別為R、G、B的權(quán)值,其中b>a>c。
在圖像文字識別時,輸入的待識別圖像一般都是彩色RGB圖像,其包含了大量的顏色信息,要是對圖像進行處理會降低系統(tǒng)的執(zhí)行速度,加之RGB圖像包含有很多與文字識別無關(guān)的顏色信息,不利于文字的定位,而灰度圖像,只包含亮度信息,不包含色彩信息,有利于后期對圖像進一步的處理,可以提高運行速度,有利于下一步的文字定位。由于人眼對綠色最為敏感,對紅色的敏感度次之,對藍色的敏感度最低,所以當(dāng)在b>a>c的條件下,可以得到較易于識別的灰度圖像。
S2:對得到的灰度圖像進行二值化處理,并將包含文字信息的圖像區(qū)域分割出來;
如圖2所示,步驟S2中,采用OTSU算法對灰度圖像進行二值化處理。圖像的二值化處理,是對圖像上的像素點的灰度值置為0或255,即當(dāng)所有灰度大于或等于閥值的像素點被判定為特定的物體,其灰度值為255,否則,其灰度值為0,表示其他的物體區(qū)域或者背景,處理后的圖像將呈現(xiàn)明顯的黑白效果。圖像的二值化將是具有256個灰度等級的灰度圖像經(jīng)過合適的閥值選取后,將像素的灰度級分成2級。經(jīng)過二值化處理后的圖像,其性質(zhì)只與灰度值為0或255的像素點的位置有關(guān),不再涉及到其他灰度級的像素點,便于對圖像作進一步的處理,且數(shù)據(jù)的處理量和壓縮量較小,且獲得的二值化圖像仍舊可以反映圖像整體與局部的特征。為了得到理想的二值化圖像,閥值的選取至關(guān)重要。選取適當(dāng)?shù)拈y值,不僅可以有效地去除噪聲,而且可將圖像明顯地分成目標(biāo)區(qū)域和背景,大大減少信息量,提高處理的速度。
OTSU算法是按圖像的灰度特性,將圖像分成背景和目標(biāo)2部分,背景和目標(biāo)之間的類間方差越大,說明構(gòu)成圖像的2部分的差別越大,當(dāng)部分目標(biāo)錯分為背景或部分背景錯分為目標(biāo)都會導(dǎo)致2部分差別變小,因此,使類間方差最大的分割意味著錯分概率最??;
Otsu算法步驟如下:
設(shè)圖象包含L個灰度級(0,1…,L-1),灰度值為i的的象素點數(shù)為Ni ,圖象總的象素點數(shù)為N=N0+N1+...+N(L-1),灰度值為i的點的概率為:P(i) = N(i)/N;
門限t將整幅圖象分為暗區(qū)c1和亮區(qū)c2兩類,則類間方差σ是t的函數(shù):σ=a1*a2(u1-u2)^2 ;式中,aj 為類cj的面積與圖象總面積之比,a1=sum(P(i)) i->t, a2 = 1-a1;
uj為類cj的均值,u1 = sum(i*P(i))/a1 0->t, u2 = sum(i*P(i))/a2, t+1->L-1,該法選擇最佳門限t^使類間方差最大,即:令Δu=u1-u2,σb = max{a1(t)*a2(t)Δu^2}。
S3:將每個漢字從整塊文字圖像中分割出來;
如圖3所示,步驟S3中,采用字切分法識別圖像區(qū)域里的單個文字,即利用字和字之間的空白間隙在圖像水平方向上的垂直投影形成的波峰與波谷將單個字符分割出來。為了提高準(zhǔn)確率,采用回歸式字切分法識別單個文字,即根據(jù)漢字是方形圖形、具有大致的均勻尺寸的特點,利用行切分時獲取的文字高度來估計文字的寬度,從而預(yù)測下一個文字的位置。
S4:提取每個漢字的網(wǎng)格特征和方向特征;
抽取單一種類的特征進行漢字識別,誤識率不易降低,且抗干擾性也不易提高。因為這樣所利用的漢字信息量有限,不能全面反映漢字的特點,對任何一種特征來說,必然存在其識別的“死角”,即利用這種特征很難區(qū)分漢字。從模式識別的角度來看,若將漢字的全部矢量化特征所組成的空間稱作空間Ω(i=1,2,...),那么利用整個空間Ω的信息進行漢字識別,由于提供的漢字信息很充分,抗干擾性會大大增強。但是,在實際應(yīng)用中,必須考慮到識別正確率與識別速度(運算量)及系統(tǒng)資源三者的折衷。所以任何一個實用的OCR系統(tǒng)只利用其中部分子空間的信息。由于信息的缺陷,便不可避免地遇到識別“死角”的問題。
在這些方法研究的基礎(chǔ)上,本發(fā)明選擇了漢字的網(wǎng)格特征和方向特征進行漢字識別,這些特征具有較強的抗干擾能力,又有較強的描述文字局部結(jié)構(gòu)的能力,而且受筆畫寬度的影響較小,相得益彰,使?jié)h字識別的“死角”大幅減小,從而提高識別率。
如圖4所示,步驟S4中,提取文字網(wǎng)格特征的具體方法如下:
1)將文字點陣分成m×m份,本實施例中分為8×8份。
2)求出每份中的黑點數(shù),用P11,P12,…P18,P21…P88表示。
3)求出文字總的黑點數(shù)P=P11+P12+…+Pl8+P21+…+P88。
4)求出每份中黑點數(shù)所占整個文字黑點數(shù)的百分比Pij=Pij× 100 / P,其中i、j為大于等于1且小于等于8的整數(shù),特征向量(P11,P12,…P18,P21…P88)就是文字的網(wǎng)格特征。
如圖5所示,步驟S4中,提取文字方向特征的具體方法如下:
對文字點陣圖像進行二值化和歸一化,并提取輪廓信息,對輪廓上的每個點賦予一個或兩個方向的屬性,方向取水平、垂直及正反45°共四個角度,將文字點陣劃分為n×n個網(wǎng)格,計算每個網(wǎng)格中包括的4個方向?qū)傩缘膫€數(shù),從而構(gòu)成一個4維向量,綜合所有的網(wǎng)格特征,形成一個4×n×n維的特征向量,即為方向特征。
S5:如圖6所示,采用最小距離分類器,選用筆畫密度總長度特征來進行第一層的粗分類;
最小距離分類器選用筆畫密度總長度特征來進行第一層的粗分類。在這種方法中,被識別模式與所屬模式類別樣本的距離最小。假定c 個類別代表模式的特征向量用R1,…,Rc表示,x是被識別模式的特征向量,|x-Ri|是x與Ri(i=1,2,…,c)之間的距離,如果|x-Ri|最小,則把x分為第i類。
S6:采用最鄰近分類器,分別選用外圍特征、網(wǎng)格特征和方向特征相結(jié)合來完成第二層的分類匹配。
最鄰近分類器分別選用網(wǎng)格特征和方向特征相結(jié)合來完成第二層的分類匹配。最近鄰分類器是在最小距離分類的基礎(chǔ)上進行擴展,將訓(xùn)練集中的每一個樣本作為判別依據(jù),尋找距離待分類樣本最近的訓(xùn)練集中的樣本,以此為依據(jù)來進行分類。
經(jīng)過多次試驗與研究,結(jié)論表明基于單個識別器原理不能從根本上提高系統(tǒng)性能,應(yīng)依靠多個分類器的識別結(jié)果的集成。多分類器集成即通過多個互補的分類器來改善單個分類器的性能,得到一個可靠性更高的識別系統(tǒng)。因此,本發(fā)明采用最小距離分類器及最鄰近分類器集成,通過分類器設(shè)計上的優(yōu)化,進一步提高了文字的可以別率和準(zhǔn)確率。
為驗證本發(fā)明的有效性,需進行相關(guān)實驗,本發(fā)明使用包含697個漢字的原始圖像來進行測試。首先把該原始圖片轉(zhuǎn)化為灰度圖像以便進行下一步的操作。通過回歸式字切分法把整段文字分割成單個的字體,測試效果如圖7,可以準(zhǔn)確地分割每個漢字。最后,采用多特征提取和多分類器集成的方法識別分割出來的文字,并以文本框的形式輸出,測試結(jié)果如圖8,結(jié)果全部正確。
多特征提取方法及多分類器集成方法使提高圖像文字識別率成為可能,其良好的識別效果引起了人們的普遍重視,具有廣闊的應(yīng)用前景。本發(fā)明基于多分類器集成方法實現(xiàn)圖像文字識別,使圖像文字信息的處理及提取更具可行性。
顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護范圍之內(nèi)。