本發(fā)明涉及計算機技術領域,尤其涉及一種字符識別方法和裝置。
背景技術:
光學字符識別(英文全稱:Optical Character Recognition,英文簡稱:OCR)是指電子設備(例如掃描儀或數(shù)碼相機)檢查紙上打印出來的字符圖像,通過檢測暗、亮的模式確定字符圖像的特征,然后用字符識別方法將字符的特征翻譯成計算機文字的過程,在OCR中,需要對文本資料進行掃描,得到圖像文件,然后對圖像文件進行分析處理,從而獲取到文字及版面信息。
在OCR的處理過程中,特征是識別字符的關鍵信息,每個不同的字符都需要通過對應的特征來和其他字符進行區(qū)分,字符的特征描述也是OCR的最重要的關鍵因素之一,目前常見的字符特征有如下三種:
1、字符模板,即將樣本字符圖像存檔,用測試字符圖像直接與其進行比對。
2、字符輪廓,即將字符的輪廓信息提取出來,以此作為比對的依據(jù)。
3、紋理描述,通過采用一定的紋理描述方法,將字符圖像轉化為紋理特征,依次進行比對識別。
本發(fā)明的發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),上述現(xiàn)有技術存至少存在如下技術問題:
1、識別準確率低,尤其對于中文等大字符集合,往往識別效率會降低。
2、魯棒性偏低,測試字符往往有各種復雜的背景、光照、大小等干擾因素,現(xiàn)有技術很難有穩(wěn)定的高效的識別效果。
技術實現(xiàn)要素:
本發(fā)明實施例提供了一種字符的識別方法和裝置,用于提高字符識別的準確率,以及保證字符識別的穩(wěn)定性。
為解決上述技術問題,本發(fā)明實施例提供以下技術方案:
第一方面,本發(fā)明實施例提供一種字符的識別方法,包括:
對第一字符圖像按照至少兩個尺度分別進行縮放處理,得到至少兩個尺度的第二字符圖像;
對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征;
對所述各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到各種尺度的第二字符圖像對應的第二字符特征;
將所述第二字符特征輸入分類器,識別出與所述第一字符圖像對應的字符結果。
第二方面,本發(fā)明實施例還提供一種字符的識別裝置,包括:
圖像縮放模塊,用于對第一字符圖像按照至少兩個尺度分別進行縮放處理,得到至少兩個尺度的第二字符圖像;
多類型特征提取模塊,用于對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征;
字符特征處理模塊,用于對所述各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到各種尺度的第二字符圖像對應的第二字符特征;
字符識別模塊,用于將所述第二字符特征輸入分類器,識別出與所述第一字符圖像對應的字符結果。
從以上技術方案可以看出,本發(fā)明實施例具有以下優(yōu)點:
在本發(fā)明實施例中,首先對第一字符圖像按照至少兩個尺度分別進行縮放處理,得到至少兩個尺度的第二字符圖像,然后對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征,接下來對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識別出與第一字符圖像對 應的字符結果。本發(fā)明實施例中,第一字符圖像作為需要進行字符識別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一字符特征,由于進行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時存在魯棒性偏低的問題,保證字符識別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準確,將該第二字符特征輸入分類器時可以提高識別速度以及分類器的準確率,從而可以提高字符識別的準確率。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域的技術人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種字符識別方法的流程方框示意圖;
圖2為本發(fā)明實施例提供的字符識別方法的一種應用場景示意圖;
圖3-a為本發(fā)明實施例提供的一種字符識別裝置的組成結構示意圖;
圖3-b為本發(fā)明實施例提供的一種字符識別裝置的組成結構示意圖;
圖3-c為本發(fā)明實施例提供的一種圖像中心化處理模塊的組成結構示意圖;
圖3-d為本發(fā)明實施例提供的一種字符識別模塊的組成結構示意圖;
圖4為本發(fā)明實施例提供的字符識別方法應用于服務器的組成結構示意圖。
具體實施方式
本發(fā)明實施例提供了一種字符的識別方法和裝置,用于提高字符識別的準確率,以及保證字符識別的穩(wěn)定性。
為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點能夠更加的明顯和易懂,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,下面所描述的實施例僅僅是本發(fā)明一部分實施例,而非全部實施例?;诒景l(fā)明中的實施例,本領域的技術人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明的說明書和權利要求書及上述附圖中的術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,以便包含一系列單元的過程、方法、系統(tǒng)、產(chǎn)品或設備不必限于那些單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產(chǎn)品或設備固有的其它單元。
以下分別進行詳細說明。
本發(fā)明字符識別方法的一個實施例,具體可以應用于對字符進行識別處理的OCR技術中,本發(fā)明提供的字符識別方法是一種多尺度、多特征融合的字符特征描述方法,可以較好的解決了現(xiàn)有的字符特征描述算法的不足,在實際測試中,本發(fā)明提供的字符識別方法在識別準確率以及魯棒性都有極大的提升。接下來對本發(fā)明提供的方法進行詳細說明,請參閱圖1所示,本發(fā)明一個實施例提供的字符識別方法,可以包括如下步驟:
101、對第一字符圖像按照至少兩個尺度分別進行縮放處理,得到至少兩個尺度的第二字符圖像。
在本發(fā)明實施例中,首先獲取到第一字符圖像,該第一字符圖像可以是掃描后得到文字資料,該文字資料掃描后為第一字符圖像,該第一字符圖像作為需要進行字符識別的圖像進行多尺度的縮放處理,可以得到多個尺度的第二字符圖像,在這種話實現(xiàn)方式中,第一字符圖像為原始字符圖像。例如一個第一字符圖像可以被縮放為三種尺度的第二字符圖像,三種尺度的第二字符圖像可以分別為16×16,32×32,48×48,64×64等。
在本發(fā)明的一些實施例中,步驟101對第一字符圖像按照至少兩個尺度分別進行縮放處理之前,本發(fā)明實施例提供的字符識別方法,還可以包括如下步驟:
A1、對第一字符圖像進行中心化處理,得到字符塊居中的第一字符圖像。
在如上步驟A1中,圖像縮放之前,先對第一字符圖像進行中心化處理, 其中中心化處理指的是調整第一字符圖像的中心,調整第一字符圖像的字符框的尺度,使第一字符圖像中的字符塊處于第一字符圖像的居中位置。對第一字符圖像的中心化處理可以使進行多尺度縮放處理的第一字符圖像中字符塊始終處于圖像的居中位置,使字符的識別更準確。
進一步的,在本發(fā)明的一些實施例中,步驟A1對第一字符圖像進行中心化處理,具體可以包括如下步驟:
A11、計算第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及第一字符圖像的方差;
A12、根據(jù)第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及第一字符圖像的方差調整第一字符圖像,使第一字符圖像中的字符塊在調整后的第一字符圖像上處于居中的位置。
其中,步驟A11中,對于輸入的單個第一字符圖像,分別計算水平方向和垂直方向上的光線灰度分布的重心位置以及第一字符圖像的方差,第一字符圖像的方差可以有效的表達第一字符圖像的灰度變化信息,根據(jù)獲取到重心位置和方差依次來調整字符中心以及字符框的尺度,使第一字符圖像中的字符塊在調整后的第一字符圖像上處于居中的位置,進一步的,在本發(fā)明實施例中,還可以按照預置的方差將第一字符圖像的灰度值調整到預置的一個數(shù)值,例如將灰度值調整到統(tǒng)一水平,可以取平均灰度為128,其中,第一字符圖像的方差可以為64等。
102、對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征。
在本發(fā)明實施例中,得到至少兩個尺度的第二字符圖像之后,對于不同尺度下的第二字符圖像,按照至少兩種字符類型提取到至少兩種不同類型的特征,則對于不同尺度的第二字符圖像都對應有至少兩種不同類型的第一字符特征,舉例說明,第二字符圖像共有4種尺度,則對于每種尺度的第二字符圖像按照3種兩種字符類型進行特征提取,則每種尺度的第二字符圖像都可以提取到3種不同類型的第一字符特征。本發(fā)明實施例中對于每一種尺度的第二字符圖像都需要提取到多種類型的第一字符特征,按照不同的字符類型提取方式提取得到的多種字符特征都可以用于描述字符圖像的特征,多種 字符特征可以描述出字符圖像在不同字符類型下表現(xiàn)出的特征,這與現(xiàn)有技術中只按照一種字符類型提取字符圖像的特征是完全不同的,多種類型的字符特征可以用于更準確的字符識別。
在本發(fā)明的一些實施例中,步驟102對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,具體可以包括如下步驟:
B1、對每一種尺度的第二字符圖像都提取到預置的多種類型中的至少兩種類型的特征,預置的多種類型包括:梯度投影特征、梯度方向直方圖(英文全稱:Histogram of Oriented Gradients,英文簡稱:HOG)特征、灰度模板特征、Gabor特征、局部二值模式(英文全稱:Local Binary Pattern,英文簡稱:LBP)特征、小波變換特征。
其中,在上述實現(xiàn)方式中,首先設置使用哪些種字符類型對第二字符圖像進行特征提取,在本發(fā)明實施例中,采用的多種字符類型可以是如下類型中的兩種或者更多種:梯度投影特征、HOG特征、灰度模板特征、Gabor特征、LBP特征、小波變換特征。按照上述的類型提取方式,都可以從第二字符圖像中提取到一種第一字符特征,則各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征。需要說明的是,使用不同類型的特征提取方式提取第二字符圖像的特征可以參閱現(xiàn)有技術。
103、對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到各種尺度的第二字符圖像對應的第二字符特征。
在本發(fā)明實施例中,在獲取到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征之后,對于上述的第一字符特征再進行融合處理以及降維處理,則每一種尺度的第二字符圖像對應的多個類型的第一字符特征都可以生成一個第二字符特征。由于每一種尺度的第二字符圖像都提取到了多種類型的第一字符特征,因此通過前述步驟可知,得到的第一字符特征有很多個,舉例說明如下,第二字符圖像共有4種尺度,則對于每種尺度的第二字符圖像按照3種兩種字符類型進行特征提取,則每種尺度的第二字符圖像都可以提取到3種不同類型的第一字符特征,因此對于不同尺度下的3個不同類型的第一字符特征,都可以獲取到一個第二字符特征,因此可以得到4 種尺度下的4個第二字符特征。對于獲取到的多個第一字符特征,在輸入分類器之前,還需要對多個第一字符特征進行融合處理以及降維處理,以此可獲取到第二字符特征。由于第二字符特征是對獲取到的多個第一字符特征進行融合處理以及降維處理后得到的結果,因此第二字符特征可以更準確的描述出原始字符圖像中的字符塊特征,通過分類器進行識別后,能夠獲取到更準確的字符識別結果。
在本發(fā)明的一些實施例中,步驟103對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,具體可包括如下步驟:
C1、對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征先進行融合處理,然后對融合后的結果再進行降維處理;
或,C2、對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征先進行降維處理,然后對降維后的結果再進行融合處理。
具體的,對于步驟103,在具體實現(xiàn)時可以有多種實現(xiàn)方式,在C1中對多個的第一字符特征先進行融合處理再進行降維處理,與C1不同的是,也可以采用C2中對多個第一字符特征先進行降維處理再進行融合處理的方式。其中,本發(fā)明實施例中,對第一字符特征進行融合處理指的是將提取到的多種特征連接成一個向量特征,再對該向量特征進行降維處理,對第一字符特征進行降維處理指的是由于提取的特征維度較高,為了提高識別速度以及分類器的準確率而對第一字符特征進行的特征降維。C1中由于需要先融合處理,因此得到融合后的結果數(shù)據(jù)量很大,因此再進行降維處理時需要消耗更多的時間,而C2中多個的第一字符特征先逐個降維,或同時降維,這比C1的方式會消耗較少的時間。在具體實現(xiàn)時可以結合場景的需要來確定融合處理和降維處理的先后順序。需要說明的是,在本發(fā)明實施例中,對第一字符特征進行降維處理可以采用如下的降維算法:主元分析(英文全稱:Principal components Analysis,英文簡稱:PLA),線性鑒別分析(英文全稱:Linear Discriminant Analysis,英文簡稱:LDA)以及神經(jīng)網(wǎng)絡等。
104、將第二字符特征輸入分類器,識別出與第一字符圖像對應的字符結果。
在本發(fā)明實施例中,對于多個第一字符特征進行融合處理以及降維處理之后,可以獲取到第二字符特征,將該第二字符特征輸入到分類器中,從而可以識別出字符結果,該字符結果是第一字符圖像作為原始輸入圖像進行字符識別后得到的字符。本發(fā)明實施例中采用的分類器具體可以為向量機(英文全稱:Support Vector Machine,英文簡稱:SVM)分類器,也可以采用幾何分類器、神經(jīng)網(wǎng)絡分類器等。由于第二字符特征是對獲取到的多個第一字符特征進行融合處理以及降維處理后得到的結果,因此第二字符特征可以更準確的描述出原始字符圖像中的字符塊特征,通過分類器對第二字符特征進行特征識別后,能夠獲取到更準確的字符識別結果。
在本發(fā)明的一些實施例中,步驟104將第二字符特征輸入分類器,識別出與第一字符圖像對應的字符結果,具體可以包括如下步驟:
D1、計算第二字符特征與樣本特征均值的余弦相似度;
D2、選擇余弦相似度最高的樣本特征對應的字符作為與第一字符圖像對應的字符結果。
具體的,在本發(fā)明的上述實現(xiàn)方式中,可以直接采用余弦距離作為分類器的分類依據(jù),即計算輸入字符圖像的第二字符特征與樣本特征均值的余弦相似度,相似度最高的那個樣板特征對應的字符就可以作為最終的識別結果。不限制的是,在前述舉例說明中采用余弦距離作為分類器的分類依據(jù),在本發(fā)明實施例中還可以采用歐氏距離或者杰卡德距離作為分類器的分類依據(jù),此處不做限定。
通過上述實施例對本發(fā)明的描述可知,首先對第一字符圖像按照至少兩個尺度分別進行縮放處理,得到至少兩個尺度的第二字符圖像,然后對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征,接下來對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識別出與第一字符圖像對應的字符結果。本發(fā)明實施例中,第一字符圖像作為需要進行字符識別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一 字符特征,由于進行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時存在魯棒性偏低的問題,保證字符識別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準確,將該第二字符特征輸入分類器時可以提高識別速度以及分類器的準確率,從而可以提高字符識別的準確率。
為便于更好的理解和實施本發(fā)明實施例的上述方案,下面舉例相應的應用場景來進行具體說明。接下來以本發(fā)明提供的字符識別方法應用于OCR為例進行說明,OCR作為模式識別的一個領域的一個分支,其整體過程也就是模式識別的過程,可以概括為以下幾個步驟:
1、預處理:對包含文字的字符圖像進行處理以便后續(xù)進行特征提取、學習。這個過程的主要目的是減少字符圖像中的無用信息,以便方便后面的處理。
2、多個特征的提取、融合、降維:特征是用來識別文字的關鍵信息,每個不同的文字都需要通過對應的特征來和其他文字進行區(qū)分。對于漢字等結構較為復雜的字符,通常只提取一個特征是不能夠準確的描述出字符,因此本發(fā)明實施例中,需要提取到多個類型的特征,并且通常提取的特征維度較高,為了提高識別速度以及分類器的準確率,通常需要進行融合處理以及特征降維處理。
3、分類器設計:對于給定的字符,通過第2步提取其特征,分類器根據(jù)特征來識別出到底該字符是哪個文字。
4、后續(xù)處理:對于分類器識別的結果,還可以做一定的優(yōu)化處理。例如:加入語言模型,同形字替換等。
接下里對上述第2個步驟中多個特征的提取、融合、降維的具體實現(xiàn)方式進行詳細說明。請參閱如圖2所示,為本發(fā)明實施例提供的字符識別方法的一種應用場景示意圖,圖2中以實際樣例“數(shù)”這個字符圖像的識別為例子,詳細說明本發(fā)明提供的字符識別方法。
對于給定的字符圖像,首先做中心化處理,然后將中心化之后的圖像進 行多尺度縮放,對于每一個尺度下的字符圖像,提取多種特征(梯度投影、HOG、灰度模板)融合并進行降維處理,最終得到該字符的特征表達,輸入相應的分類器即可得到最終的識別結果。
S1對第一字符圖像進行中心化處理
圖2中,第一字符圖像為掃描得到的原始字符圖像,第一字符圖像中的字符塊可能沒有處于圖像的居中位置,需要先進行中心化處理,對于輸入的單個字符圖像,分別計算水平和垂直方向的灰度分布的重心位置以及字符圖像的方差,并依次來調整字符中心以及字符框的尺度,同時將字符灰度值調整到統(tǒng)一水平,例如平均灰度128,方差64等。
S2、對第一字符圖像進行多尺度分解
為了更好的描述字符特征,將中心化處理之后的單個字符進行不同的尺度縮放,如按照16×16、32×32、48×48、64×64進行縮放處理,如圖2中所示,對于第一字符圖像進行多尺度分解后,得到4個第二字符圖像。
S3、得到4個第二字符圖像,對多尺度的第二字符圖像獨立提取多維的特征。
圖2中以分別提取梯度投影特征、HoG特征、灰度模板特征為例,每個尺度的第二字符圖像都提取到如下的3種不同類型的第一字符特征:
梯度投影特征:X=(x1,x2,…,xm);
HoG特征:Y=(y1,y2,…,yn);
灰度模板特征:Z=(z1,z2,…,zk);
其中,m、n、k根據(jù)具體的特征提取方式來取值。
S4、特征融合
如圖2所示,在每個尺度的第二字符圖像都提取到梯度投影特征、HoG特征、灰度模板特征之后,采用如下方式進行特征融合:
F=X+Y+Z=(x1,x2,…,xm,y1,y2,…,yn,z1,z2,…,zk)。
其中,F(xiàn)表示特征融合后得到的字符特征,將提取的多種特征連接成一個向量特征F。每種尺度的第二字符圖像都可以按照如上表達式表示將3種不同類型的第一字符特征融合在一起,得到融合后的3種不同類型的第一字符特征。
S5、特征降維
如圖2所示,對于每種尺度下的融合后的第一字符特征進行降維處理,得到每種尺度下的第二字符特征,得到降維結果可以通過如下方式:
F=(f1,f2,…,fs);
其中,s的取值可以根據(jù)采用的具體降維方法來確定。
S6、輸入分類器
如圖2所示,將降維后得到的第二字符特征輸入到分類器,得到最終的字符識別結果:“數(shù)”。例如,在每種尺度下的第二字符特征輸入到分類器中進行識別后,都可以輸出字符識別結果,再通過多種尺度下得到的字符識別結果進行賦值,最后可輸出最終的字符識別結果。
需要說明的是,在前述實施例中,對于多尺度分解,可以采用不同分解方法和不同的等級,圖2的示例將第一字符圖像分解為4個不同尺度的第二字符圖像。另外圖2中以先執(zhí)行步驟S4再執(zhí)行步驟S5為例,但是在本發(fā)明的一些實施例中,可以先將各特征融合后再做降維,也可以先將各特征降維后再做融合,后者在降維過程中所消耗的時間會比前者更少一些。
通過前述對本發(fā)明的舉例說明可知,通過多尺度分解,可以較好的解決了測試字符尺度不一致導致的算法識別魯棒性偏低的問題,通過多特征融合和降維,這對于OCR提升識別準確度有較大的提升。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
為便于更好的實施本發(fā)明實施例的上述方案,下面還提供用于實施上述方案的相關裝置。
請參閱圖3-a所示,本發(fā)明實施例提供的一種字符識別裝置300,可以包括:圖像縮放模塊301、多類型特征提取模塊302、字符特征處理模塊303、字符識別模塊304,其中,
圖像縮放模塊301,用于對第一字符圖像按照至少兩個尺度分別進行縮放 處理,得到至少兩個尺度的第二字符圖像;
多類型特征提取模塊302,用于對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征;
字符特征處理模塊303,用于對所述各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到各種尺度的第二字符圖像第二字符特征;
字符識別模塊304,用于將所述第二字符特征輸入分類器,識別出與所述第一字符圖像對應的字符結果。
在本發(fā)明的一些實施例中,請參閱如圖3-b所示,所述字符識別裝置300還包括:
圖像中心化處理模塊305,用于所述圖像縮放模301對第一字符圖像按照至少兩個尺度分別進行縮放處理之前,對所述第一字符圖像進行中心化處理,得到字符塊居中的第一字符圖像。
在本發(fā)明的一些實施例中,請參閱如圖3-c示,所述圖像中心化處理模塊305,包括:
第一計算單元3051,用于計算所述第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符圖像的方差;
圖像調整單元3052,用于根據(jù)所述第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符圖像的方差調整所述第一字符圖像,使所述第一字符圖像中的字符塊在調整后的第一字符圖像上處于居中的位置。
在本發(fā)明的一些實施例中,所述多類型特征提取模塊302,具體用于對每一種尺度的第二字符圖像都提取到預置的多種類型中的至少兩種類型的特征,所述預置的多種類型包括:梯度投影特征、梯度方向直方圖HOG特征、灰度模板特征、Gabor特征、局部二值模式LBP特征、小波變換特征。
在本發(fā)明的一些實施例中,所述字符特征處理模塊303,具體用于對所述各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征先進行融合處理,然后對融合后的結果再進行降維處理;或,對所述各種尺度的第二 字符圖像對應的至少兩種不同類型的第一字符特征先進行降維處理,然后對降維后的結果再進行融合處理。
在本發(fā)明的一些實施例中,請參閱如圖3-d示,所述字符識別模塊304,包括:
第二計算單元3041,用于計算所述第二字符特征與樣本特征均值的余弦相似度;
字符選擇單元3042,用于選擇余弦相似度最高的樣本特征對應的字符作為與所述第一字符圖像對應的字符結果。
通過以上對本發(fā)明實施例的描述可知,首先對第一字符圖像按照至少兩個尺度分別進行縮放處理,得到至少兩個尺度的第二字符圖像,然后對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征,接下來對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識別出與第一字符圖像對應的字符結果。本發(fā)明實施例中,第一字符圖像作為需要進行字符識別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一字符特征,由于進行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時存在魯棒性偏低的問題,保證字符識別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準確,將該第二字符特征輸入分類器時可以提高識別速度以及分類器的準確率,從而可以提高字符識別的準確率。
圖4是本發(fā)明實施例提供的一種服務器結構示意圖,該服務器400可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個或一個以上中央處理器(central processing units,CPU)422(例如,一個或一個以上處理器)和存儲器432,一個或一個以上存儲應用程序442或數(shù)據(jù)444的存儲介質430(例如一個或一個以上海量存儲設備)。其中,存儲器432和存儲介質430可以是短 暫存儲或持久存儲。存儲在存儲介質430的程序可以包括一個或一個以上模塊(圖示沒標出),每個模塊可以包括對服務器中的一系列指令操作。更進一步地,中央處理器422可以設置為與存儲介質430通信,在服務器400上執(zhí)行存儲介質430中的一系列指令操作。
服務器400還可以包括一個或一個以上電源426,一個或一個以上有線或無線網(wǎng)絡接口450,一個或一個以上輸入輸出接口458,和/或,一個或一個以上操作系統(tǒng)441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM等等。
上述實施例中由服務器所執(zhí)行的步驟可以基于該圖3所示的字符識別裝置的結構。
通過以上對本發(fā)明實施例的描述可知,首先對第一字符圖像按照至少兩個尺度分別進行縮放處理,得到至少兩個尺度的第二字符圖像,然后對于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征,接下來對各種尺度的第二字符圖像對應的至少兩種不同類型的第一字符特征進行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識別出與第一字符圖像對應的字符結果。本發(fā)明實施例中,第一字符圖像作為需要進行字符識別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一字符特征,由于進行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時存在魯棒性偏低的問題,保證字符識別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準確,將該第二字符特征輸入分類器時可以提高識別速度以及分類器的準確率,從而可以提高字符識別的準確率。
另外需說明的是,以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可 以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。另外,本發(fā)明提供的裝置實施例附圖中,模塊之間的連接關系表示它們之間具有通信連接,具體可以實現(xiàn)為一條或多條通信總線或信號線。本領域普通技術人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
通過以上的實施方式的描述,所屬領域的技術人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件的方式來實現(xiàn),當然也可以通過專用硬件包括專用集成電路、專用CPU、專用存儲器、專用元器件等來實現(xiàn)。一般情況下,凡由計算機程序完成的功能都可以很容易地用相應的硬件來實現(xiàn),而且,用來實現(xiàn)同一功能的具體硬件結構也可以是多種多樣的,例如模擬電路、數(shù)字電路或專用電路等。但是,對本發(fā)明而言更多情況下軟件程序實現(xiàn)是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在可讀取的存儲介質中,如計算機的軟盤,U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。
綜上所述,以上實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照上述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對上述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的精神和范圍。