欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

字符識別裝置及方法、字符識別程序的制作方法

文檔序號:6522916閱讀:230來源:國知局
字符識別裝置及方法、字符識別程序的制作方法
【專利摘要】一種字符識別裝置、方法及程序,能在抑制正讀率的降低幅度的同時進行降低了誤讀率的高效的舍棄,并能減少舍棄判定所需的計算量。使基于各種指標(biāo)的舍棄判定(109、113)在舍棄值彼此的獨立性高的情況下串行組合,在舍棄值彼此的獨立性低的情況下并行組合。舍棄率高的舍棄指標(biāo)、計算成本低的舍棄指標(biāo)配置在處理的前期。字符識別部(106)識別字符切取部(105)切取出的各字符單位的圖像中的字符。多個舍棄值計算(107、108、110~112)將舍棄能力越高的舍棄值計算(107、108)越在先配置。舍棄判定在基于在先的舍棄值計算所計算出的舍棄值而判定為舍棄時,省略在后的舍棄值計算處理,由此判定是否舍棄識別結(jié)果。
【專利說明】字符識別裝置及方法、字符識別程序
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及字符識別裝置及方法、字符識別程序,尤其涉及具有組合了多個舍棄值的舍棄判定方式的光學(xué)式字符識別裝置及方法、字符識別程序。另外,本實施例在字符識別的技術(shù)中尤其還涉及舍棄的技術(shù)。
【背景技術(shù)】
[0002]本【技術(shù)領(lǐng)域】涉及光學(xué)式字符識別(OCR:0ptical Character Recognition ;光學(xué)字符識別)裝置。OCR裝置通過掃描儀等讀取紙類文件,并識別圖像中的文字和/或符號,由此,通過代碼化成Unicode (統(tǒng)一碼)等來進行電子化。OCR裝置在一般企業(yè)、自治機構(gòu)、金融機構(gòu)、醫(yī)療機構(gòu)、教育機構(gòu)等中,用于會計票據(jù)、繳納完成通知書、工資報告單、訂單、成批轉(zhuǎn)賬單、醫(yī)療費用明細(xì)、答題紙等的電子化。另外,面向一般用戶時,在基于移動電話進行的字符識別、便簽等一般文件中的字符識別中使用。
[0003]簡略地說明基于OCR裝置的文件電子化的處理流程。
[0004]圖6是用于說明基于字符識別裝置的文件電子化的流程圖。首先,進行基于掃描儀等的文件圖像化、二值化和噪聲處理等的前處理。由此,例如能夠得到圖6的附圖標(biāo)記601那樣的二值的文件圖像。接下來,通過基于OCR裝置進行的、圖表位置和/或文件段落構(gòu)造等的布局分析和字符串提取,而得到例如圖6的附圖標(biāo)記602那樣的字符串圖像。之后,OCR裝置通過字符切取而從字符串圖像中切取字符單位的圖像,然后,識別各個圖像中的字符。從文件的圖像化到字符串提取為止的處理例如在專利文件1、專利文獻2中有所記載。另外,到從字符串圖像中識別各個字符為止的處理例如在專利文獻3、非專利文獻1、非專利文獻2中有所記載。
[0005]本技術(shù)涉及各個字符圖像的識別技術(shù)。以下,簡單說明對各個字符圖像中描繪的字符進行識別的技術(shù)。
[0006]首先,進行將字符圖像轉(zhuǎn)換為矢量值的特征提取處理。當(dāng)將矢量值的維數(shù)設(shè)為N時,通過特征提取處理而將一個字符圖像表現(xiàn)為N維矢量。從相同字符種類的字符圖像中提取的N維矢量分布在N維空間中的較近位置上。
[0007]圖9通過示意圖而示出上述情況。圓形、三角形、四邊形分別表示從與字符種類A、字符種類B、字符種類C對應(yīng)的各字符圖像提取出的矢量值。
[0008]接下來,參照預(yù)先生成的字符識別用辭典,基于從字符圖像提取出的矢量值,來識別字符圖像中描繪的字符。
[0009]在此,首先說明字符識別辭典。在字符識別用辭典中,例如對于各識別對象字符種類k而保存有將N維矢量取為自變量、將實數(shù)值取為值的識別函數(shù)fk U)。識別函數(shù)fk(X)是以針對從描繪有字符種類k的字符圖像所生成的N維矢量X而取較大值,針對從描繪有其他字符種類的字符圖像所生成的N維矢量X而取較小值的方式,預(yù)先通過學(xué)習(xí)而生成的。識別函數(shù)fk (X)的值稱為相對于矢量X的字符種類k的相似度、似然度(likelihood)等。例如,在將數(shù)字作為對象來識別的情況下,與O?9這十個數(shù)字種類對應(yīng)地存在有10個識別函數(shù) fO (x)、fl (x)、...、f9 (x)。
[0010]在字符的識別中,使用從字符圖像提取出的N維矢量X,來計算各字符種類的識別函數(shù)fk (x)的值。識別函數(shù)fk (x)的值是相對于字符種類k的相似度,由此,fk (x)的值最大的字符種類k成為識別結(jié)果的第一候選。同樣地,值第二大的識別函數(shù)對應(yīng)的字符種類k成為識別結(jié)果的第二候選。這樣,能夠得到直到第η候補的識別結(jié)果。
[0011]圖7是用于說明字符識別結(jié)果的圖。例如,通過圖6的字符切取(附圖標(biāo)記603)所切取的字符圖像的識別如圖7所示。通過以上內(nèi)容,得到圖6的附圖標(biāo)記604那樣的識別結(jié)果,并轉(zhuǎn)換為計算機能處理的字符代碼等的代碼。
[0012]上述所說明的字符識別是計算字符圖像和各識別對象字符種類的相似度,并基于此而得到候選字符的處理。為了提高OCR裝置的有用性,該字符識別的精度是重要的。但是,在識別結(jié)果可疑的情況下,使通知該情況的識別結(jié)果的舍棄處理也是重要的。
[0013]圖12是用于表示非字符和不明確字符的示例的圖。在成為舍棄對象的字符中,具有例如圖12的字符例1201所示的非字符、和字符串1202所示的不明確字符。非字符例如是基于字符切取錯誤所導(dǎo)致的字符的一部分和/或多個字符合在一起的圖像、混入了污潰等干擾因素的圖像等。不明確字符例如是如字符例1202的左端圖像所示地?zé)o法區(qū)別7和9的情況等。
[0014]若舍棄處理是細(xì)致的,則具有幾個優(yōu)點。一個優(yōu)點是,如果將錯誤地識別了字符的結(jié)果直接保存的話,則不是該錯誤的狀態(tài)被保持,就是為了修正該錯誤而必須通過人工對所有識別結(jié)果進行再核查。與之相對,在識別結(jié)果可疑的情況下,只要能夠?qū)⒃撉闆r通知給用戶,用戶就可以僅修正該部分。另外,若能夠高精度地進行舍棄,則判定為作為舍棄的因素是可能在前處理、字符行提取、字符切取等在前的處理中發(fā)生了失誤,從而能夠從在前的任一個處理開始改變處理方法和/或處理條件等,再次嘗試進行處理。由此,能夠提高識別精度。
[0015]以下,將正確地識別字符圖像中的字符的比率稱為正讀率,將錯誤地識別的比率稱為誤讀率,將舍棄識別結(jié)果的比率稱為舍棄率。正讀率、誤讀率、舍棄率的和為I。通常,若舍棄過多,則不僅將誤讀的內(nèi)容舍棄,還會將正確讀取的一些內(nèi)容舍棄,由此,正讀率、誤讀率均下降。由此,希望以盡量不降低正讀率且使誤讀率減少的方式進行舍棄。
[0016]說明舍棄的方法。將從輸入圖像提取出的N維矢量設(shè)為X。另外,將與第一候選字符kl對應(yīng)的識別函數(shù)設(shè)為fkl。此時,fkl (X)是相對于字符種類kl的相似度。若使rl(X) = - fkl (X),則rl (X)能夠視為相對于字符種類kl的非相似度。由此,預(yù)先確定閾值hl,在rl (x)> hi時,作為非相似度較高(相似度較低)而作出舍棄的判定??梢栽O(shè)想在輸入圖像為非字符時相對于第一候選字符的相似度也會較低,因此該方法考慮到了舍棄非字符的情況。
[0017]而且,將與第二候選字符k2對應(yīng)的識別函數(shù)設(shè)為fk2。此時,fk2 (X)是相對于字符種類k2的相似度。另外,fkl (X)≥fk2 (X)0若使r2 (x) = fk2 (x) — fkl (x),貝丨J該r2 (X)的值越大,fkl (X)與fk2 (x)的值越接近。此時,表示在第一候選字符與第二候選字符之間識別是不明確的。由此,預(yù)先確定閾值h2,在r2 (x)>h2時,作為識別結(jié)果是不明確的而進行舍棄。
[0018]圖13是用于表不成為舍棄對象的圖像不例的圖。[0019]除此之外,在專利文獻4中記載了如下進行舍棄判定的方法:
[0020]計算圖13的字符例1301那樣的字符的斷線程度r3(x)、和字符例1302那樣的字符的團塊程度r4 (X),并基于這些進行舍棄判定。預(yù)先確定閾值h3,在r3 (x) > h3時斷線程度較大,所以舍棄。另外,預(yù)先確定閾值h4,在r4 (x)>h4時團塊程度較大,所以舍棄。
[0021]現(xiàn)有技術(shù)文獻
[0022]專利文獻
[0023]專利文獻1:日本特開2010-244372號公報
[0024]專利文獻2:日本特開平11-53466號公報
[0025]專利文獻3:日本特開2004-171316號公報
[0026]專利文獻4:日本特愿2011-212308號
[0027]非專利文獻
[0028]非專利文獻1:Mohammed Cheriet, Nawwaf Kharma, Cheng Iin Liu, and ChingSuen.Character Recognition Systems:A Guide for Students and Practitioners.Wiley-1ntersciencej2007.[0029]非專利文獻2:石井健一郎、上田修功、前田英作、村瀨洋。圖案識別。日本歐姆(OHM)社出版社。
[0030]關(guān)于用于舍棄字符的指標(biāo),如上述的非字符度(非相似度)rl、不明確度r2、斷線度r3、團塊度r4那樣能考慮各種指標(biāo)。但是,使這些指標(biāo)組合的方法并不明確。在現(xiàn)有技術(shù)中,采用了將基于任意一個基準(zhǔn)而舍棄了的內(nèi)容進行舍棄等簡單方法,或者采用了 一邊通過人工來進行試驗調(diào)整一邊組合多個指標(biāo)等的方法。
[0031]在前者的簡單方法中,需要計算全部的舍棄指標(biāo),由此,花費計算成本。在此基礎(chǔ)上,由于基于任意一個舍棄指標(biāo)在超過閾值的情況下就進行舍棄,所以能夠想到通常舍棄過于嚴(yán)重而導(dǎo)致正讀率下降的情況,從實現(xiàn)高正讀率和低誤讀率這一舍棄目的來考慮,并不一定合適。另外,關(guān)于后者的通過人工的試驗調(diào)整,若該指標(biāo)數(shù)增多,則會是相當(dāng)耗費成本的方法,且能夠想到存在難以實現(xiàn)的情況。

【發(fā)明內(nèi)容】

[0032]本發(fā)明鑒于上述問題,以通過較低的人工成本來提供一種高正讀率、低誤讀率、快速的舍棄方法為目的。
[0033]根據(jù)本發(fā)明的第一解決方式,提供一種字符識別裝置,其特征在于,具有:
[0034]多個舍棄值計算部,其基于預(yù)先設(shè)定的舍棄函數(shù)對從輸入圖像而識別的字符的識別結(jié)果計算舍棄值;和
[0035]一個或多個舍棄判定部,基于由多個所述舍棄值計算部的某一個或某些個計算出的一個或多個舍棄值,分別判定是否將所述識別結(jié)果舍棄,
[0036]使用基于多個所述舍棄值計算部的相關(guān)性而組合的多個所述舍棄值計算部,所述舍棄判定部基于多個舍棄值來進行所述識別結(jié)果的舍棄判定,并將判定為舍棄的所述識別結(jié)果舍棄,由此,將沒有判定為舍棄的所述識別結(jié)果保存在存儲部中或顯示在顯示部中。
[0037]根據(jù)本發(fā)明的第二解決方式,提供一種字符識別方法,其特征在于,[0038]使用多個舍棄值計算部,該多個舍棄值計算部基于預(yù)先設(shè)定的舍棄函數(shù)對從輸入圖像而識別的字符的識別結(jié)果計算舍棄值,
[0039]并使用一個或多個舍棄判定部,該一個或多個舍棄判定部基于由多個所述舍棄值計算部的某一個或某些個計算出的一個或多個舍棄值,分別判定是否將所述識別結(jié)果舍棄,
[0040]還使用基于多個所述舍棄值計算部的相關(guān)性而組合的多個所述舍棄值計算部,所述舍棄判定部基于多個舍棄值來進行所述識別結(jié)果的舍棄判定,并將判定為舍棄的所述識別結(jié)果舍棄,由此,將沒有判定為舍棄的所述識別結(jié)果保存在存儲部中或顯示在顯示部中。
[0041]根據(jù)本發(fā)明的第三解決方式,提供一種字符識別程序,其特征在于,用于使計算機執(zhí)行如下功能:
[0042]處理部使用多個舍棄值計算部,基于預(yù)先設(shè)定的舍棄函數(shù)對從輸入圖像而識別的字符的識別結(jié)果計算舍棄值的功能;
[0043]處理部使用一個或多個舍棄判定部,基于由多個所述舍棄值計算部的某一個或某些個計算出的一個或多個舍棄值,分別判定是否將所述識別結(jié)果舍棄的功能;和
[0044]處理部使用基于多個所述舍棄值計算部的相關(guān)性而組合的多個所述舍棄值計算部,所述舍棄判定部基于多個舍棄值來進行所述識別結(jié)果的舍棄判定,并將判定為舍棄的所述識別結(jié)果舍棄,由此,將沒有判定為舍棄的所述識別結(jié)果保存在存儲部中或顯示在顯示部中的功能。
[0045]發(fā)明的效果
[0046]根據(jù)本實施例,能夠以較低的人工成本而提供一種高正讀率、低誤讀率、快速的舍棄方法。
【專利附圖】

【附圖說明】
[0047]圖1是說明本發(fā)明的實施例4的字符識別裝置的處理的流程圖的示例。
[0048]圖2是字符識別裝置的構(gòu)成圖的示例。
[0049]圖3是用于說明獨立性較高的兩個舍棄值的圖。
[0050]圖4是用于說明獨立性較低的兩個舍棄值的圖。
[0051]圖5是說明本發(fā)明的相關(guān)技術(shù)的字符識別裝置的處理流程圖的示例。
[0052]圖6是用于說明基于字符識別裝置的文件電子化的流程圖。
[0053]圖7是用于說明字符識別的結(jié)果的圖。
[0054]圖8是表不舍棄值的不例的圖。
[0055]圖9是用于說明字符識別用的方式的圖。
[0056]圖10是用于說明字符切取處理的圖。
[0057]圖11是用于說明字符識別和識別結(jié)果選定處理的圖。
[0058]圖12是用于表示非字符和不明確字符的示例的圖。
[0059]圖13是用于表不成為舍棄對象的圖像的不例的圖。
[0060]圖14是用于表示特征提取的處理的示例的圖。
[0061]圖15是用于表示學(xué)習(xí)用字符圖像數(shù)據(jù)庫的示例的圖。
[0062]圖16是表示串行構(gòu)成的情況下的舍棄區(qū)域的圖。[0063]圖17是說明本發(fā)明的實施例1和實施例2的字符識別裝置的處理流程圖的示例。
[0064]圖18是說明本發(fā)明的實施例3的字符識別裝置的處理流程圖的示例。
[0065]圖19是關(guān)于梯度特征提取方法的說明圖(I)。
[0066]圖20是關(guān)于梯度特征提取方法的說明圖(2)。
[0067]圖21是舍棄函數(shù)的說明圖。
[0068]圖22是舍棄值的構(gòu)成處理的流程圖。
[0069]附圖標(biāo)記說明
[0070]201字符識別裝置
[0071]202輸入裝置
[0072]203顯示裝置
[0073]204圖像獲取裝置
[0074]205通信裝置
[0075]206 運算裝置(CPU )
[0076]207外部存儲裝置(HDD,存儲器)
【具體實施方式】
[0077]以下,使用附圖來說明實施例。
[0078]1.概要
[0079]在本實施方式中,若列舉字符識別裝置的一個示例,則字符識別裝置具有:
[0080]文件圖像化部,通過對文件進行光學(xué)掃描來獲取文件圖像;
[0081]前處理部,具有從所述文件圖像中去除噪聲和背景,并進行二值化而生成二值圖像的單元;
[0082]布局分析部,具有分析所述二值圖像的文件構(gòu)造和圖表構(gòu)造的單元;
[0083]字符串提取部,具有從所述二值圖像提取字符串單位的圖像的單元;
[0084]字符切取部,具有從提取出的所述字符串圖像的各個字符串圖像切取字符單位的圖像的單元;
[0085]字符識別部,具有識別由字符切取部所切取出的各字符單位的圖像中的字符的單元;
[0086]舍棄判定部,具有多個舍棄值計算單元,還具有如下單元:使越是舍棄能力高的舍棄值計算單元越在先配置,在基于由在先的舍棄值計算單元所計算出的舍棄值而判定為舍棄的情況下,省略在后的舍棄值計算處理,由此判定是否舍棄上述識別結(jié)果;
[0087]識別結(jié)果選定部,具有基于所述識別結(jié)果和舍棄判定結(jié)果來選定所述各字符串圖像的識別結(jié)果的單元;
[0088]重試判定部,具有基于所述識別結(jié)果來判定是否進行識別的再處理的單元;和
[0089]識別后處理部,具有進行將識別結(jié)果保存、或者向顯示裝置輸出等處理的單元。
[0090]本實施方式的字符識別裝置的特征也可以為,在舍棄判定部中,基于舍棄能力的強度和舍棄值計算成本而得到的舍棄效率越高的舍棄值計算部,越在先配置,在基于在先的舍棄值計算單元所計算出的舍棄值而判定為舍棄的情況下,省略在后的舍棄值計算處理,由此判定是否舍棄上述識別結(jié)果。[0091]本實施方式的字符識別裝置的特征也可以為,在上述的舍棄判定部中,基于并行配置的多個舍棄值計算單元的各個舍棄值來生成新的舍棄值,并基于該舍棄值來進行舍棄判定。
[0092]本實施方式的字符識別裝置的特征也可以為,在上述舍棄判定部中,具有判定多個舍棄值的獨立性的單元,將獨立性較高的舍棄值計算單元串行處理。
[0093]本實施方式的字符識別裝置的特征也可以為,在上述舍棄判定部中,具有判定多個舍棄值的獨立性的單元,將獨立性較低的舍棄值計算單元并行處理。
[0094]本實施方式的字符識別裝置的特征也可以為,在上述舍棄判定部中,具有判定多個舍棄值的獨立性的單元,作為判定上述獨立性的單元,而通過基于識別誤差的函數(shù)來學(xué)習(xí)如下函數(shù),該函數(shù)是基于所述舍棄值而對舍棄圖像數(shù)據(jù)庫和正讀圖像數(shù)據(jù)庫進行識別的函數(shù),比較基于所述函數(shù)的識別誤差、與將舍棄值串行構(gòu)成的情況下的識別誤差,在兩者誤差之差為預(yù)先決定的閾值以上的情況,判定為獨立性較低,在除了該情況以外的情況下,判定為獨立性較高。
[0095]2.實施方式
[0096]實施例1
[0097]參照圖表說明具有舍棄方法的字符識別裝置的實施例。本實施例的字符識別裝置是通過檢測識別輸入文件圖像中的字符并將字符代碼化來將輸入文件電子化的裝置。輸入文件除了通常文件以外,還具有帳票、明細(xì)等。
[0098]圖2是表示本實施例的字符識別裝置的一例的構(gòu)成圖。
[0099]本實施例的字符識別裝置201例如進行印章識別及帳票識別,具有輸入裝置202、顯示裝置203、圖像獲取裝置204、通信裝置205、運算裝置(CPU) 206、和外部存儲裝置207。外部存儲裝置207包括正讀圖像數(shù)據(jù)庫211及舍棄圖像數(shù)據(jù)庫212。
[0100]輸入裝置202是用于輸入指令等的鍵盤和鼠標(biāo)等。輸入裝置202是輸入用于對運算裝置(CPU) 206所執(zhí)行的程序進行控制和除此以外對連接設(shè)備進行控制而執(zhí)行的指令等的裝置。
[0101]顯示裝置203是適當(dāng)顯示處理內(nèi)容的顯示器等的裝置。
[0102]圖像獲取裝置204是掃描儀等的圖像獲取用的裝置。獲取的圖像可以存儲在外部存儲裝置等中。
[0103]通信裝置205用于進行來自PC、服務(wù)器等外部設(shè)備的數(shù)據(jù)的交換。通信裝置205用于從外部設(shè)備獲取基于用戶的執(zhí)行指令、從外部設(shè)備獲取圖像和文本等信息的等等目的。另外,通信裝置205還用于向外部設(shè)備發(fā)送通過印章識別及帳票識別裝置201的處理內(nèi)容等的目的。
[0104]運算裝置(CPU) 206是執(zhí)行如下處理的運算裝置:生成用于文件圖像中的字符識別的識別用辭典等。
[0105]外部存儲裝置207是HDD、存儲器等外部存儲裝置。在外部存儲裝置207中保存有帳票圖像、印章圖像、印章識別用辭典等各種數(shù)據(jù)。另外,外部存儲裝置也用于臨時存儲在由運算裝置(CPU) 206執(zhí)行的處理過程中生成的數(shù)據(jù)等。
[0106]也可以不具有輸入裝置202、顯示裝置203、圖像獲取裝置204、和通信裝置205。在沒有輸入裝置202的情況下,處理的開始利用通信裝置205從外部設(shè)備進行指示,或者通過時間指定等而自動進行。在沒有顯示裝置203的情況下,處理結(jié)果使用通信裝置205發(fā)送到外部設(shè)備,或者存儲在外部存儲裝置207中。
[0107]執(zhí)行處理的模塊的輸出和輸入也可以經(jīng)由外部存儲裝置207來進行。也就是說,也可以為,處理部I向處理部2輸出處理結(jié)果,處理部2將該處理結(jié)果作為輸入接收,在該情況下,實際上處理部I事先將處理結(jié)果輸出并存儲到外部存儲裝置207,在處理部2中,將存儲在外部存儲裝置207中的處理部I的輸出結(jié)果作為輸入而獲取。
[0108]接下來,說明由本實施例的字符識別裝置201實施的處理。
[0109]下面,首先使用圖5說明本發(fā)明的相關(guān)技術(shù)的字符識別裝置的處理。此外,然后使用圖1說明本實施例的處理。
[0110]首先說明本發(fā)明的相關(guān)技術(shù)的字符識別裝置的處理。
[0111]圖5表示基于字符識別裝置的文件電子化的流程的典型示例。
[0112]在文件的圖像化(掃描)101中,字符識別裝置201的CPU206通過掃描儀等讀取文件并將其圖像化。此時,在背景印刷為彩色印字的情況下等,還具有CPU206進行將特定色的印字光學(xué)除去的脫色(color dropout)等處理的情況。輸入文件是一般文件、帳票類、以及原本就在通過字符識別裝置進行處理的目的下生成的標(biāo)記紙等。
[0113]在前處理102中,CPU206進行文件圖像的彩色圖像的二值化(黑白化)、噪聲去除、背景印刷等不必要部分的去除等的處理。前處理后的二值圖像例如如圖6的帳票圖像601所示。
[0114]在布局分析103中,CPU206進行二值圖像的布局分析,識別圖表的位置、段落構(gòu)造、項目和數(shù)據(jù)的位置等。關(guān)于項目和數(shù)據(jù)的位置,例如在圖6的附圖標(biāo)記602的情況下,CPU206根據(jù)表構(gòu)造的關(guān)系而分析出位于附圖標(biāo)記602的欄之上的支付金額為項目名稱,其下的記載有7,890,123的框為數(shù)據(jù)框等。在論文和技術(shù)報告書的情況下等,還具有根據(jù)文件的構(gòu)造和位置關(guān)系進行對寫有標(biāo)題、作者、主要內(nèi)容、頁碼等的位置進行識別等的元數(shù)據(jù)提取的情況。
[0115]在字符串提取104中,CPU206從文件圖像中提取字符串單位的圖像。CPU206對字符串單位的圖像進行提取,該字符串單位的圖像在一般文件的情況下為一行量的圖像、在表格的情況下為框內(nèi)的圖像等。例如,如圖6的附圖標(biāo)記602那樣,提取表格的框內(nèi)的圖像。
[0116]通過字符切取105、字符識別503、識別結(jié)果選定114這一系列的處理,來識別提取出的各字符串圖像中的字符。關(guān)于此處的處理,如圖6的附圖標(biāo)記603那樣,將字符串圖像分割成字符單位,識別各個字符圖像中的字符,由此最終如附圖標(biāo)記604那樣轉(zhuǎn)換為字符代碼等計算機能處理的代碼。
[0117]舉例來說明從上述字符串提取104起以后的、從字符切取105到識別結(jié)果選定114為止的處理。
[0118]圖10是用于說明字符切取處理的圖。
[0119]首先,說明字符切取105。例如假設(shè)通過字符串提取而得到圖10的圖像1001那樣的字符串圖像。首先,在字符切取105的處理中,CPU206基于字符線彼此交叉的點、字符線中斷的點等,生成截斷候選點。圖10的圖像1002表示基于截斷候選點所進行的分割。在該例中,分割成四個圖像。該各分割圖像與相鄰的多個圖像的合成成為字符圖像候選。在圖10的圖像1003的例子中,從左開始的第一個和第二個圖像、從左開始的第二個和第三個圖像也分別作為字符圖像候選,從而得到六個字符圖像候選。從左端的點從左向右而到達(dá)右端的點的各路徑成為字符串1001的切取候選。
[0120]圖7是用于說明字符識別的結(jié)果的圖。
[0121]接下來,在字符識別503中,CPU206對成為候選的各個字符圖像中的字符進行識另|J。在此,例如圖7那樣得到針對各字符圖像的正確候選字符(第一位候選字符種類)、和相對于該正確候選字符的相似度(似然度、可靠度)。
[0122]接下來,CPU206基于在字符識別503得到的正確候補字符和相似度,如圖11的附圖標(biāo)記1101那樣生成成為識別結(jié)果的候選的網(wǎng)狀物。附圖標(biāo)記1102是去除了圖像的網(wǎng)狀物。從左端的點從左向右而到達(dá)右端的點的各路徑成為識別結(jié)果候選。另外,在此,CPU206在判定為字符圖像的識別結(jié)果的可靠性較低的情況下,進行舍棄處理。對識別結(jié)果設(shè)置舍棄標(biāo)志等,向在后的處理或者用戶通知識別結(jié)果的可靠性較低的情況。
[0123]說明該字符識別503的內(nèi)部處理。在此,CPU206識別在各個字符圖像中描繪的字符。另外,還進行識別結(jié)果的舍棄處理。
[0124]首先,說明字符識別106。在此,首先,CPU206進行將字符圖像轉(zhuǎn)換為矢量值的特征提取處理。若將矢量值的維數(shù)設(shè)為N,則一個字符圖像通過特征提取處理而表現(xiàn)為N維矢量。通過將字符圖像表現(xiàn)為矢量值,能夠統(tǒng)計性地處理字符圖像的分布。
[0125]圖14是用于表示特征提取的處理的示例的圖。
[0126]使用圖14說明特征提取。首先,CPU206進行字符圖像的正規(guī)化。通常,輸入字符圖像的大小不同。由此,通過正規(guī)化來使字符圖像的大小一致,由此,能夠通過在后的處理統(tǒng)一處理。另外,輸入字符圖像還具有因筆記工具、筆記人員、字體等的差異,而導(dǎo)致即使是相同字符種類的字符但其字形差異較大的情況。該情況成為識別精度降低的原因。因此,在正規(guī)化處理中,通過輸入字符圖像的大小的變形和字形的變形,來進行大小的統(tǒng)一,并降低相同字符種類之間的字形的偏差。在圖14的圖像1401為輸入字符圖像的示例中,圖像1402是變形為64X64大小的圖像。關(guān)于正規(guī)化處理具有多種方法,例如在非專利文獻I中有詳細(xì)記載。
[0127]接下來,進行將通過正規(guī)化而生成的正規(guī)化圖像轉(zhuǎn)換為矢量值的特征提取。在特征提取中也具有多種方法,例如,在非專利文獻I中有詳細(xì)記載。在此使用最簡單的像素特征提取的示例來進行說明。在像素特征提取中,將正規(guī)化圖像分割為小區(qū)域。在圖14的示例中,將正規(guī)化圖像1402分割為64個小區(qū)域。分割的情況在圖像1403示出。接下來,轉(zhuǎn)換為以各小區(qū)域的黑像素的個數(shù)為要素的矢量值。由于小區(qū)域有64個,所以如圖像1404那樣生成了 64維的矢量值。
[0128]作為廣泛使用的特征提取方法的另一個示例,對梯度特征提取方法進行說明。
[0129]圖19以及圖20是關(guān)于梯度特征提取方法的說明書圖(I)以及(2)。
[0130]在此,假設(shè)在通過正規(guī)化而生成的正規(guī)化圖像中標(biāo)注了一個像素量的白緣。另外,使像素點(i,j)的正規(guī)化圖像的像素值為f (i,j)。此時,CPU206在正規(guī)化圖像的各像素點(i,j)中,如下所示地計算梯度矢量g = (gx,gy)。這相當(dāng)于實施了圖19所示的濾波。
[0131]gx (i, j) = {f (i + l,j + l) + 2f (i,j + l) + f (i — I, j + I) — f (i +1,j -1) - 2f (i,j -1) - f (1-1, j - 1))/8[0132]gy (i, j) ={f (i + I, j + I) + 2f (i + I, j) + f (i + I, j -1) - f (i —1,j + I) — 2f (i — 1,j) - f (1-1, j - 1))/8
[0133]其中,在上述算式中,在像素點(i,j)位于圖像邊緣的情況下,具有其周圍的像素點處于圖像區(qū)域外的情況。此時,將圖像外區(qū)域中的f的值考慮為0,計算上述算式。由此,在各像素點(i,j)中,能夠得到像素值的梯度矢量g = (gx,gy)。
[0134]接下來,CPU206將矢量g (i,j)分解為圖20的附圖標(biāo)記2001所示的45度間隔的八個方向g0 (i,j)、gl (i,j)、…、g7 (i, j)ο分解是分解到與g (i,j)的方向接近的兩個方向上。但是,在g (i,j)的方向在與八個方向的任意一個完全一致的情況下,沒有分解的必要,假設(shè)在與方向O—致的情況下,取為g0 (i, j)=矢量g (i, j)的長度,關(guān)于其他的方向,gl (i,j)=…=g7 (i, j) = Oo通過圖20的附圖標(biāo)記2002的圖來說明分解的方法。CPU206在g (i,j)如附圖標(biāo)記2002所示那樣存在于方向O與方向I之間的情況下,將矢量g (i,j)分解為方向O和方向I的成分。此時,將方向O的成分的長度設(shè)為p0,將方向I的成分的長度設(shè)為pl,則成為g0 (i,j) = p0、gl (i,j) = pl、p2 (丨,」)=…=p7 (i,j) = O。
[0135]如以上所示,生成了八個方向圖像g0 (i,j)、…、g7 (i,j)。為了提高對字符的變形的強健性,還具有對該圖像實施基于高斯濾波(Gauss filter)的模糊的情況。在該情況下,將實施了模糊的方向圖像重新設(shè)為g0 (i,j)、…、g7 (i,j)。接下來,CPU206將各方向圖像gi (x、y)分割為小區(qū)域,生成以各小區(qū)域的像素值的合計值為要素的矢量?,F(xiàn)在,當(dāng)將各方向圖像分割為64個小區(qū)域時,能夠從各方向圖像得到64個值。由于這些值是針對各方向得到的,所以在八個方向合計得到64X8 = 512個值。將這些值作為矢量的成分而生成512維的矢量。
[0136]以上是梯度 特征提取方法的說明。
[0137]CPU206如以上所述地將字符圖像轉(zhuǎn)換為矢量值。以下,將通過特征提取而生成的矢量值的維數(shù)設(shè)為N。由此,一個個的字符圖像表現(xiàn)為N維空間上的點,相同字符種類分布在較近的區(qū)域。在接下來的圖9中示意地示出該情況。
[0138]圖9是用于說明字符識別用的方式的圖。圓形、三角形、四邊形分別表示從與字符種類A、字符種類B、字符種類C對應(yīng)的各字符圖像中提取的N維矢量點。例如,一個個的O表示從與字符種類A不同的圖像提取出的矢量。
[0139]接下來,CPU206參照預(yù)先生成的字符識別用辭典,基于從字符圖像提取出的矢量值,來識別在字符圖像中描繪的字符。
[0140]在此,首先,說明字符識別辭典。在字符識別用辭典中,例如對于各識別對象字符種類k而保存有將N維矢量取為自變量并將實數(shù)值取為值的識別函數(shù)fk U)。識別函數(shù)fk (x)是以相對于根據(jù)描繪有字符種類k的字符圖像所生成的N維矢量X而取較大值、相對于從描繪有其他字符種類的字符圖像所生成的N維矢量X而取較小值的方式,預(yù)先通過學(xué)習(xí)而生成的。識別函數(shù)fk (X)的值稱為相對于矢量X的字符種類k的相似度、似然度(likelihood)等。例如,在將數(shù)字作為對象進行識別的情況下,與O~9這十個數(shù)字種類對應(yīng)地存在有10個識別函數(shù)f0 (x)、fl (X)、...、f9 (x)。
[0141]CPU206例如能夠使用由字符圖像和字符標(biāo)簽構(gòu)成的學(xué)習(xí)用字符圖像數(shù)據(jù)庫來生成該識別函數(shù)。[0142]圖15是用于表示學(xué)習(xí)用字符圖像數(shù)據(jù)庫的示例的圖。如圖所示,字符標(biāo)簽是表示在字符圖像中描繪的字符的被代碼化的正確標(biāo)簽。學(xué)習(xí)用字符圖像數(shù)據(jù)庫例如能夠通過讓人在指定的框內(nèi)寫入指定的字符等來收集字符圖像而生成。CPU206通過與上述同樣的方法而將包含在學(xué)習(xí)用字符圖像數(shù)據(jù)庫中的各圖像轉(zhuǎn)換為N維矢量。在此,CPU206基于這些N維矢量和正確標(biāo)簽,以相對于與字符種類k對應(yīng)的N維矢量而取較大值、相對于與其他字符種類對應(yīng)的N維矢量而取較小值的方式,通過學(xué)習(xí)而生成識別函數(shù)fk (x)0在識別函數(shù)的學(xué)習(xí)方法中,例如能夠使用SVM(Support Vector Machine ;支持向量機)、神經(jīng)網(wǎng)絡(luò)(neuralnetwork)、高斯模型(gauss model)、LVQ (Learning Vector Quantization ;學(xué)習(xí)矢量化)等各種方法。
[0143]在字符的識別中,CPU206使用從字符圖像提取的N維矢量x來計算各字符種類的識別函數(shù)fk (X)的值。識別函數(shù)fk (X)的值是相對于字符種類k的相似度,由此,fk (x)的值最大的字符種類k成為識別結(jié)果的第一候選。同樣地,值第二大的識別函數(shù)對應(yīng)的字符種類k成為識別結(jié)果的第二候選。這樣,能夠得到直到第η候選的識別結(jié)果。例如,通過圖6的字符切取603所切取的字符圖像的識別如圖7所示。通過以上內(nèi)容,如圖6的附圖標(biāo)記604那樣得到識別結(jié)果,并轉(zhuǎn)換為計算機能處理的字符代碼等的代碼。
[0144]以上是字符識別106的說明。
[0145]上述所說明的字符識別是計算字符圖像和各識別對象字符種類的相似度,并基于此而得到候選字符的處理。對于提高OCR裝置的有用性,該字符識別的精度是重要的。但是,在識別結(jié)果可疑的情況下,通知該情況的識別結(jié)果的舍棄處理也是重要的。
[0146]圖12是用于表示非字符和不明確字符的示例的圖。在成為舍棄對象的字符中,具有例如圖12的附圖標(biāo)記1201所不的非字符、和附圖標(biāo)記1202所不的不明確字符。非字符例如是基于字符切取錯誤而導(dǎo)致的字符的一部分和/或多個字符合在一起的圖像、混入了污潰等的干擾因素的圖像等。不明確字符例如是附圖標(biāo)記1202的左端圖像那樣無法區(qū)別7和9的情況等。
[0147]若舍棄處理是細(xì)致的,則具有幾個優(yōu)點。一個優(yōu)點是,如果將錯誤地識別了字符的結(jié)果直接保存的話,則不是該錯誤的狀態(tài)被保持,就是為了修正該錯誤而必須通過人工對所有識別結(jié)果進行再核查。與之相對,在識別結(jié)果可疑的情況下,只要能夠?qū)⒃撉闆r通知給用戶,用戶就可以僅修正該部分。另外,若能夠高精度地進行舍棄,則判定為作為舍棄的因素是可能在前處理、字符行提取、字符切取等在前的處理中發(fā)生了失誤,從而能夠從在前的任一個處理開始改變處理方法和/或處理條件等,再次嘗試進行處理。由此,能夠提高識別精度。
[0148]以下,將正確地識別字符圖像中的字符的比率稱為正讀率,將錯誤地識別的比率稱為誤讀率,將舍棄識別結(jié)果的比率稱為舍棄率。通常,若舍棄過多,則不僅將誤讀的內(nèi)容舍棄,還會將正確讀取的一些內(nèi)容舍棄,由此,正讀率、誤讀率均下降。由此,希望以盡量不降低正讀率且使誤讀率減少的方式進行舍棄。
[0149]以下,說明舍棄判定部的處理即非字符舍棄501、不明確字符舍棄502。
[0150]說明非字符舍棄501。將從輸入字符圖像提取的N維矢量設(shè)為X。另外,將與第一候選字符kl對應(yīng)的識別函數(shù)設(shè)為fkl。此時,fkl (X)是相對于字符種類kl的相似度。若表示為rl (x) = - fkl (x),則rl (x)能夠視為相對于字符種類kl的非相似度。由此,CPU206預(yù)先確定閾值hl,在rl (x) > hi時,作為非相似度較高(相似度較低)而進行舍棄的判定??梢栽O(shè)想在輸入圖像為非字符時相對于第一候選字符的相似度也會較低,因此該方法考慮到了舍棄非字符的情況。
[0151]接下來,說明不明確字符舍棄502。將與第二候選字符k2對應(yīng)的識別函數(shù)設(shè)為fk2。此時,fk2 (X)是相對于字符種類k2的相似度。另外,fkl (X)≥fk2 (X)。若r2(X) = fk2 (X) — fkl (X),則該r2 (x)的值越大,則fkl (x)與fk2 (x)的值越接近。此時,表示在第一候選字符與第二候選字符之間識別是不明確的。由此,CPU206預(yù)先確定閾值h2,在r2 (x)> h2時,作為識別結(jié)果不明確而進行舍棄。該處理在非字符舍棄501中已作出舍棄判定的情況下可以略過。
[0152]以上,說明了通過字符識別503的處理。該處理對各字符圖像進行。
[0153]在識別結(jié)果選定114中,CPU206 —邊參照單詞辭典等來綜合判斷相對于各字符的相似度(可靠度),一邊從識別結(jié)果候選中選定最終的識別結(jié)果。例如在進行住所識別的情況下,單詞辭典能夠采用預(yù)先保存有住所清單的辭典等。在一般文件的識別的情況下,采用單詞等。
[0154]以上,是從字符切取105到識別結(jié)果選定114為止的處理。該處理對各字符串圖像進行。
[0155]接下來,在重試判定115中,CPU206判斷是否改變處理來進行識別的再處理。再處理例如具有將文件圖像整體作為對象的情況,還具有字符串圖像單位、字符圖像單位的情況。例如,在字符串識別結(jié)果中存在相似度(似然度、可靠度)較低的字符的情況下、無法得到與單詞辭典相符的結(jié)果的情況下、存在無法讀取的字符的情況下等,CPU206進行再處理。進行再處理的情況 下,CPU206從之前的任意一個處理起進行處理方式的改變、處理條件的改變等,來嘗試再次識別。例如,將前處理102的二值化或噪聲去除的方式改變等。最后,在識別后處理116中,CPU206進行將識別結(jié)果保存在存儲裝置等中、或顯示在顯示器上等的處理。
[0156]以上是本發(fā)明的相關(guān)技術(shù)的字符識別裝置的處理流程。
[0157]圖13是表示成為舍棄對象的圖像的示例的圖。在舍棄指標(biāo)中,除上述rl、r2以外,還具有CPU206計算圖13的附圖標(biāo)記1301那樣的字符的斷線程度r3 (x)、和附圖標(biāo)記1302那樣的字符的團塊程度r4 (X),并基于這些進行舍棄判定的方法。預(yù)先確定閾值h3,在r3 (X) > h3時斷線程度較大,所以進行舍棄。另外,預(yù)先確定閾值h4,在r4 (x) > h4時團塊程度較大,所以進行舍棄。此外,還能夠使用字符圖像的重心位置、字符線的線寬的平均值等。例如,在重心位置的情況下,字符識別結(jié)果為8,但重心位置大幅偏離中心,在該情況下,進行舍棄等的判定。
[0158]在此,列舉了斷線程度r3 (X)、團塊程度r4 (x)的示例。但是,在上述中x作為通過特征提取而提取出的矢量,而在此X為正規(guī)化圖像。對各字符種類的每一種,從學(xué)習(xí)DB預(yù)先計算正規(guī)化圖像的平均合計像素值m。相對于輸入圖像,r3 (X)設(shè)為從m減去輸入圖像的正規(guī)化圖像的合計像素值而得到的值,r4 (x)設(shè)為從輸入圖像的正規(guī)化圖像的合計像素值減去m而得到的值。由此,在輸入圖像的正規(guī)化圖像的合計像素值比m小的情況下r3大,在相反地大的情況下r4小。
[0159]但是,以往使這些指標(biāo)組合的方法并不明確。在現(xiàn)有技術(shù)中,采用了將通過任意一個基準(zhǔn)而舍棄了的內(nèi)容進行舍棄等的簡單方法,或者采用了一邊通過人工來進行試驗調(diào)整一邊使多個指標(biāo)組合等的方法。
[0160]在前者的簡單方法中,需要計算全部的舍棄指標(biāo),由此,花費計算成本。在此基礎(chǔ)上,由于基于任意一個舍棄指標(biāo)在超過閾值的情況下就進行舍棄,所以能夠想到通常舍棄過于嚴(yán)重而導(dǎo)致正讀率下降的情況,從實現(xiàn)高正讀率和低誤讀率這一舍棄目的來考慮,并不一定合適。另外,關(guān)于后者的通過人工的試驗調(diào)整,若該指標(biāo)數(shù)增多,則會是相當(dāng)耗費成本的方法,且能夠想到存在難以實現(xiàn)的情況。
[0161]3.字符識別
[0162]在本實施例中,能夠自動地構(gòu)成使多個舍棄指標(biāo)有效組合的舍棄方式。由此,能夠削減用于使多個舍棄指標(biāo)組合的人工成本。另外,能夠在將正讀率維持在高水準(zhǔn)的狀態(tài)下削減誤讀率,能夠構(gòu)成細(xì)致且快速的舍棄方式。
[0163]使用【專利附圖】
附圖
【附圖說明】本實施例的字符識別裝置的處理。
[0164]圖17是說明本發(fā)明實施例的字符識別裝置的處理流程圖的示例。
[0165]文件的圖像化101、前處理102、布局分析103、字符串提取104、字符切取105、字符識別106、識別結(jié)果選定114、重試判定115、識別后處理116如圖5以及其說明內(nèi)容所記載那樣,與本發(fā)明的相關(guān)技術(shù)字符識別裝置的處理相同的。
[0166]以下,說明字符識別1707的內(nèi)部的舍棄判定部的從處理1701到處理1706為止的處理。在舍棄處理中,CPU206使用字符識別106的結(jié)果和舍棄值來進行舍棄判斷。CPU206在判定為舍棄的情況下,對該字符識別結(jié)果設(shè)置舍棄標(biāo)志等,對在后的處理和/或用戶進行通知,使其能夠利用該結(jié)果。
[0167]在本實施例的舍棄組合的構(gòu)成中,預(yù)先準(zhǔn)備有集合了希望舍棄的圖像樣本的舍棄圖像數(shù)據(jù)庫、和集合了希望正確讀取的圖像樣本的正讀圖像數(shù)據(jù)庫。舍棄圖像數(shù)據(jù)庫是集合了由字符識別106誤讀的樣本、非字符圖像、不明確字符圖像、斷線圖像、團塊圖像等希望舍棄的圖像樣本的數(shù)據(jù)庫。正讀圖像數(shù)據(jù)庫是集合了能夠通過字符識別106的處理來正確地進行字符識別的樣本等希望正確讀取的字符圖像樣本的數(shù)據(jù)庫。以下,將正讀圖像數(shù)據(jù)庫的樣本中被進行了舍棄判定的樣本的比例稱為誤舍棄率,將舍棄圖像數(shù)據(jù)庫的樣本中沒有被判定為舍棄的樣本的比例稱為誤受理率。誤舍棄率和誤受理率均是越小則舍棄判定的精度越高。
[0168]以下,具有η個舍棄值計算部,對舍棄值以舍棄值1、舍棄值2、…、舍棄值η的方式標(biāo)注編號。另外,將以圖像X為輸入、輸出舍棄值的函數(shù)(舍棄函數(shù))寫為rl (X)、r2
(X)、…、rn (X)等。
[0169]簡單說明舍棄值的性質(zhì)。舍棄函數(shù)ri (X)以具有如下性質(zhì)的方式構(gòu)成:相對于希望舍棄的樣本而取較高值,相對于不希望舍棄的樣本而取較低值。例如,如已說明那樣,具有斷線度、團塊度、使用識別函數(shù)的值而計算的非字符度、不明確度等。以預(yù)先設(shè)置閾值hl,在ri (x?hl時進行舍棄的方式等使用。此時,若hi過大,則無法充分地舍棄,誤讀率變高。另一方面,若hi 過低,則誤讀率變小,但正讀率也變小。由此,根據(jù)用戶的要求,以盡量不降低正讀率且使誤讀率減小的方式調(diào)整hi。
[0170]圖16中,相對于兩個舍棄值,在任意一個舍棄值超過閾值時判斷為舍棄的情況下,通過斜線來表示判斷為舍棄的值的區(qū)域。在舍棄值I超過閾值I的情況、或者舍棄值2超過閾值2的情況下被舍棄,因此,舍棄區(qū)域如圖16的斜線部所示。
[0171]在本實施例中,將這些η個舍棄值按舍棄強度從強到弱的順序配置。舍棄強度強意味著基于該舍棄值的舍棄判定的舍棄率較高的情況。列舉幾個舍棄強度的確定方式的例。
[0172]列舉第一例。首先,指定誤舍棄率與誤受理率之和e。針對各舍棄函數(shù)ri,以使在通過ri (x)> hi來進行舍棄判定的情況下的誤舍棄率和誤受理率之和e最小的方式設(shè)定hi。此時,按照在基于ri (x)> hi時舍棄的方式進行舍棄判定的情況下的學(xué)習(xí)用字符圖像數(shù)據(jù)庫的樣本的舍棄率從高到低的順序來選定舍棄值。
[0173]列舉第二例。針對各舍棄函數(shù)ri,預(yù)先通過用戶指定閾值hi。此時,按照在基于ri (x) > hi時舍棄的方式進行舍棄判定的情況下的學(xué)習(xí)用字符圖像數(shù)據(jù)庫的舍棄率高的順序來選定舍棄值。
[0174]現(xiàn)在,存在有三個舍棄值,按照rl、r2、r3的順序,舍棄率高,即舍棄強度高。此時,以從圖17的處理1701開始到處理1706所示的順序進行處理。S卩,在舍棄值I計算1701中,計算相對于輸入圖像X的舍棄值rl (X),在舍棄判定I (1702)中,若rl (x)> hi則判定為舍棄,只要不是rl (x)>hl就不舍棄。在判定為舍棄的情況下,跳過在后的舍棄處理的從處理1703到處理1706為止的處理。在沒有判定為舍棄的情況下,移至接下來的處理1703。以下,同樣地,繼續(xù)舍棄判定2的處理、或者舍棄判定2和舍棄判定3的處理。在示例中,說明了舍棄值為三個的情況,但是,在具有兩個以上的任意個數(shù)的舍棄值的情況下也是同樣的。
[0175]在本實施例中,能夠在判定為舍棄的時間點結(jié)束處理。而且,由于按照舍棄率高的順序事先配置,所以在計算成本方面,是高效的。
[0176]實施例2
[0177]圖2是表示本實施例的字符識別裝置的一例的構(gòu)成圖,與實施例1相同。在圖17中表示本實施例的字符識別裝置的處理流程。文件的圖像化101、前處理102、布局分析103、字符串提取104、字符切取105、字符識別106、識別結(jié)果選定114、重試判定115、識別后處理116的字符識別裝置的處理也與實施例1相同。另外,字符識別106也與實施例1相同。
[0178]在本實施例中,舍棄判定部的各1701?1706的處理流程不同。
[0179]在實施例1中,按舍棄強度強的順序配置舍棄值計算處理和舍棄判定處理。在對于舍棄值計算的計算成本幾乎沒有差異的情況下,通過該方法是足夠的,但是不在這種情況下,存在效率低的情況。例如,若使舍棄率較高且舍棄值計算的計算成本也較高的舍棄值計算處理配置較前,則始終對計算成本較高的舍棄值進行計算。在此,計算成本例如作為平均處理時間等而求出,該平均處理時間是在對學(xué)習(xí)用字符圖像數(shù)據(jù)庫所包含的圖像進行處理的情況下的舍棄函數(shù)的計算所花費的平均處理時間。
[0180]由此,在本實施例中,也考慮各舍棄值計算的計算成本(處理時間)來決定處理的順序。即,也可以構(gòu)成為,以基于舍棄值的舍棄率和計算成本(處理時間)而制定的舍棄效率為基準(zhǔn),舍棄效率越高越在先配置。舍棄效率例如能夠通過舍棄率X計算成本(平均處理時間)而算出。
[0181]圖21是舍棄函數(shù)的說明圖。[0182]若通過表格來表不本實施例的舍棄的構(gòu)成,貝U成為如圖21的表2101所不那樣。表的各行(橫向)表示并行的排列,表示待合成的舍棄函數(shù)和其合成函數(shù),列方向(縱向)表示串行的排列。在本實施例的情況下,由于任意一個舍棄函數(shù)均串行地連接,所以各列是一個舍棄函數(shù)。舍棄值I計算1701、舍棄值2計算1703、舍棄值3計算1705分別計算Π (rl(x))、f2 (r2 (x))、f3 (r3 (x))而設(shè)為舍棄值,但如本實施例那樣,在沿并行方向只有一個舍棄函數(shù)的情況下,fl、f2、f3是恒等函數(shù),例如可以為fl (rl (x)> = rl (x)。
[0183]實施例3
[0184]圖2是表示本實施例的字符識別裝置的一例的構(gòu)成圖,與實施例1相同。在圖18中表示本實施例的字符識別裝置的處理流程。文件的圖像化101、前處理102、布局分析103、字符串提取104、字符切取105、字符識別106、識別結(jié)果選定114、重試判定115、識別后處理116的字符識別裝置的處理也與實施例1相同。另外,字符識別106也與實施例1相同。
[0185]在本實施例中,字符識別1805中的進行舍棄判定的處理1801?1804不同。在本實施例中,如處理1801?1803所示,平行地計算多個舍棄值,并基于這些值在處理1804中進行舍棄判定處理。
[0186]首先,說明這樣地將舍棄值計算并行地連接的理由。
[0187]圖16中,相對于兩個舍棄值,在任意一個舍棄值超過閾值時判斷為舍棄的情況下,通過斜線來表示判定為舍棄的值的區(qū)域。在舍棄值I超過閾值I的情況下、或者舍棄值2超過閾值2的情況下進行舍棄,因此,舍棄區(qū)域如圖16的斜線部所示。這相當(dāng)于如實施例1和實施例2那樣按順序進行舍棄值計算和舍棄判定,將處理串行連接的情況。
[0188]圖4示意地表示兩個舍棄值的值、希望舍棄的樣本、希望正確讀取的樣本的分布。三角形表示舍棄圖像數(shù)據(jù)庫的樣本,圓形表示正讀圖像數(shù)據(jù)庫的樣本。在這種分布的情況下,正讀圖像數(shù)據(jù)庫的樣本的分布和舍棄圖像數(shù)據(jù)庫的樣本的分布之間的邊界成為圖4的邊界線那樣,應(yīng)該舍棄的樣本位于與該邊界線相比的右上側(cè)。另一方面,在串行地進行舍棄的情況下,成為圖16所示的舍棄區(qū)域,在該例中,多個應(yīng)該舍棄的樣本無法被舍棄。若縮小閾值I和閾值2的值以使這些應(yīng)該舍棄的樣本能夠舍棄的話,這會導(dǎo)致希望正確讀取的圓形的樣本被大量舍棄。
[0189]因為具有這種情況,所以在本實施例中,基于舍棄值I和舍棄值2雙方的值來進行舍棄判定。S卩,在將舍棄值I的值設(shè)為XI,將舍棄值2的值設(shè)為X2時,通過將它們?nèi)樽宰兞康暮瘮?shù)f (xl,x2)來決定新的舍棄值,并在f (xl,x2)的值處于固定的閾值以上的情況下舍棄。作為f (xl,x2)例如能夠使用f (xl, x2) = xl + x2。再列舉一個函數(shù)f (xl,x2)的決定方式。
[0190]函數(shù)f (xl,x2)定義為作為參數(shù)而具有all、a22、al2、al、a2、aO的關(guān)于xl, x2的二次函數(shù) f (xl,x2) = allxlxl + a22x2x2 + al2xlx2 + alxl + a2x2 + aO。以相對于正讀圖像數(shù)據(jù)庫的樣本而取負(fù)值、相對于舍棄圖像數(shù)據(jù)庫的樣本而取正值的方式設(shè)定該參數(shù)all、a22、al2、al、a2、aO。但是,可以預(yù)想到設(shè)定相對于全部樣本均滿足該條件那樣的參數(shù)通常是不可能的,因此,定義將參數(shù)取為自變量、表示不滿足條件的程度的成本函數(shù)(損失函數(shù))(或者,基于正讀圖像數(shù)據(jù)庫的樣本和舍棄圖像數(shù)據(jù)庫的樣本的識別誤差的成本函數(shù))c (f),通過機器學(xué)習(xí)來進行學(xué)習(xí)以使該值變小。例如,作為向相對于舍棄圖像數(shù)據(jù)庫的樣本使f取1、相對于正讀圖像數(shù)據(jù)庫的樣本使f取-1的方向進行的學(xué)習(xí),將C Cf)設(shè)為從這些值的相對于全部樣本的誤差的平方之和。C (f)例如使從舍棄圖像數(shù)據(jù)庫的樣本所計算出的f的值與I的誤差的平方之和為Vl =Σ I f — I I ~2,使從正讀圖像數(shù)據(jù)庫的樣本所計算出的f的值與-1的誤差的平方之和為ν2 =Σ I f + I I ~2,成為c(f)=vl + v2 (誤差的平方之和)等。例如,能夠使用神經(jīng)網(wǎng)絡(luò)和/或SVM等。這樣所生成的f的成為f = O的等高線如圖4的邊界線那樣成為正讀圖像數(shù)據(jù)庫的分布與舍棄圖像數(shù)據(jù)庫的樣本的邊界線。此外,在此,以二次函數(shù)為例說明了 f,但也能夠使用更通常的函數(shù),例如更高次的函數(shù)、以及神經(jīng)網(wǎng)絡(luò)、徑向基函數(shù)的線性結(jié)合等。
[0191]以上,為了使說明變得簡單,說明了具有兩個舍棄值的情況,但是三個以上舍棄值的情況也是相同的。在圖18中表示存在三個舍棄值的情況下的處理流程。在處理1801、處理1802、處理1803中,分別計算舍棄值1、舍棄值2、和舍棄值3。將各個舍棄值設(shè)為xl、x2、x3。在舍棄判定3 (1804)中,基于如上述說明那樣生成的新的舍棄值f (xl, x2, x3),在f (xl, x2, x3)比預(yù)先決定的閾值大的情況下舍棄,在其他情況下不舍棄。
[0192]本實施例的方法能夠進行比串行連接更高精度的舍棄。但是,不得不計算出全部的舍棄值,在此基礎(chǔ)上,還需要基于這些舍棄值來計算f的值。由此,可以預(yù)想到舍棄所消耗的計算成本變大的情況。
[0193]若用表格來表不本實施例的舍棄的構(gòu)成,貝1J如圖21的表2102所不。表的各行(橫向)表示并行的排列,表示待合成的舍棄函數(shù)和其合成函數(shù),列方向(縱向)表示串行的排列。在本實施例的情況下,由于任意一個舍棄函數(shù)均并行地連接,所以是一行。合成函數(shù)為f,通過舍棄判定1804所計算出的值成為f (rl (x),r2 (x), r3 (x))。f例如是通過上述說明的方法而生成的函數(shù)。
[0194]實施例4
[0195]圖2是表示本實施·例的字符識別裝置的一例的構(gòu)成圖,與實施例1相同。在圖1中表示本實施例的字符識別裝置的處理流程。文件的圖像化101、前處理102、布局分析103、字符串提取104、字符切取105、字符識別106、識別結(jié)果選定114、重試判定115、識別后處理116的文字識別裝置的處理也與實施例1相同。另外,字符識別106也與實施例1相同。
[0196]在本實施例中,字符識別117中的進行舍棄判定的處理的組合(相當(dāng)于107~113部分)不同。
[0197]在本實施例的舍棄組合的構(gòu)成中,預(yù)先準(zhǔn)備有集合了希望舍棄的圖像樣本的舍棄圖像數(shù)據(jù)庫、和集合了希望正確讀取的圖像樣本的正讀圖像數(shù)據(jù)庫。舍棄圖像數(shù)據(jù)庫是集合了由字符識別106誤讀的樣本、非字符圖像、不明確字符圖像、斷線圖像、團塊圖像等希望舍棄的圖像樣本的數(shù)據(jù)庫。正讀圖像數(shù)據(jù)庫是集合了能夠通過字符識別106的處理來正確地進行字符識別的樣本等、希望正確讀取的字符圖像樣本的數(shù)據(jù)庫。以下,將正讀圖像數(shù)據(jù)庫的樣本中被判定為舍棄的樣本的比例稱為誤舍棄率,將舍棄圖像數(shù)據(jù)庫的樣本中沒有被判定為舍棄的樣本的比例稱為誤受理率。誤舍棄率和誤受理率均是越小則舍棄判定的精度越高。
[0198]以下,作為具有η個舍棄值計算部,對舍棄值以舍棄值1、舍棄值2、…、舍棄值η的方式標(biāo)注編號。另外,將以圖像X為輸入、輸出舍棄值的函數(shù)寫為rl (X)、r2 U)、…、rn (X)等。[0199]在本實施例中,一邊考慮舍棄值彼此的獨立性高、獨立性低(相關(guān)性高)、舍棄效率一邊組合這些η個舍棄值。本實施例的舍棄值計算器的組合方針為,將舍棄值計算器串行或者并行地連接。其組合方式為,使獨立性較高的舍棄值計算其彼此串行組合,使獨立性較低(相關(guān)性較高)的舍棄值計算器彼此并行組合,且越是舍棄強度強的舍棄值計算器越在先配置。另外,在并行組合的情況下,基于所組合的多個舍棄值,決定新的舍棄值,并基于該新的舍棄值來進行舍棄判定。而且,舍棄效率越高的處理越在先配置。
[0200]圖16中,相對于兩個舍棄值,在任意一個舍棄值超過閾值時判斷為舍棄的情況下,通過斜線來表示判斷為舍棄的值的區(qū)域。在舍棄值I超過閾值I的情況下、或者舍棄值2超過閾值2的情況下進行舍棄,因此,舍棄區(qū)域如圖16的斜線部所示。
[0201]首先,使用圖3來說明舍棄值彼此的獨立性。圖3示意地表示兩個舍棄值的值、希望舍棄的樣本、希望正確讀取的樣本的分布。三角形表示舍棄圖像數(shù)據(jù)庫的樣本,圓形表示正讀圖像數(shù)據(jù)庫的樣本。在這種分布下,正讀圖像數(shù)據(jù)庫的樣本的分布和舍棄圖像數(shù)據(jù)庫的樣本的分布之間的邊界線如圖3所示,成為向右上方大幅鼓出的凸?fàn)睢T谶@種情況下,稱為兩個舍棄值的獨立性較高。這種狀況能夠在以兩個舍棄值的獨立性較高的現(xiàn)象為基礎(chǔ)來計算舍棄值的情況下發(fā)生。例如是舍棄值I計算字符的斷線度、舍棄值2計算字符重心位置從標(biāo)準(zhǔn)重心位置偏離的大小的情況等。
[0202]在本實施例中,在舍棄值的獨立性較高的情況下,舍棄值I計算和舍棄值2計算串行地處理。即,首先,計算舍棄值1,在此基礎(chǔ)上,在值比閾值I高的情況下進行舍棄的判定。若判定為舍棄,則舍棄處理結(jié)束。在沒有判定為舍棄的情況下,計算舍棄值2,在此基礎(chǔ)上,在值比閾值2高的情況下,判定為舍棄。若判定為舍棄,則舍棄處理結(jié)束。在沒有判定為舍棄的情況下,移至接下來的舍棄處理。在如圖3所示地決定閾值1、閾值2,在舍棄值I超過閾值I的情況下,或者舍棄值2超過閾值2的情況下,判定為舍棄,由此,能夠高效地進行舍棄。這種舍棄值串行地處理即可。
[0203]接下來,使用圖4說明舍棄值彼此的獨立性較低(相關(guān)性較高)的情況。圖4示意地表示兩個舍棄值的值、希望舍棄的樣本、希望正確讀取的樣本的分布。三角形表示舍棄圖像數(shù)據(jù)庫的樣本,圓形表示正讀圖像數(shù)據(jù)庫的樣本。在這種分布中,關(guān)于正讀圖像數(shù)據(jù)庫的樣本的分布和舍棄圖像數(shù)據(jù)庫的樣本的分布之間的邊界線,在如圖4那樣凸出程度沒有圖3的情況大的情況下、接近于直線的情況下、或者相反地成為向左下方凸出的情況下,稱為兩個舍棄值的獨立性較低。這種狀況能夠在以兩個舍棄值的相關(guān)性較高的現(xiàn)象為基礎(chǔ)來計算舍棄值的情況下發(fā)生。例如是舍棄值I基于已經(jīng)說明的識別函數(shù)來計算非字符度、舍棄值2基于識別函數(shù)來計算不明確度的情況。在這種情況下,均基于識別函數(shù)來計算舍棄值,由此,相互具有關(guān)聯(lián)性,成為圖4那樣的分布。
[0204]在本實施例中,在舍棄值的獨立性較低的情況下,舍棄值I計算和舍棄值2計算并行地處理。即,在將舍棄值I設(shè)為xl,將舍棄值2設(shè)為χ2時,通過將這些值取為自變量的函數(shù)f (xl,x2)來重新決定舍棄值,在f (xl,x2)的值為固定的閾值以上的情況下進行舍棄。若判定為舍棄,則舍棄處理結(jié)束。在沒有判定為舍棄的情況下,轉(zhuǎn)至接下來的舍棄處理。函數(shù)f的決定方式與實施例3是相同的。在圖4的分布的情況下,例如,若設(shè)為f (xl,x2) =xl + x2,則能夠從左上向右下沿斜向決定閾值邊界線,能夠?qū)⒄x圖像數(shù)據(jù)庫的樣本和舍棄圖像數(shù)據(jù)庫的樣本分離。在如圖4所示的分布的情況下,若將舍棄值串行連接,則僅將舍棄值I比閾值I大、舍棄值2比閾值2大的區(qū)域舍棄,不能將與閾值I相比分布于左側(cè)且與閾值2相比分布于下側(cè)的三角形的樣本舍棄。另外,若為了舍棄這些樣本而降低閾值I和/或閾值2的值,則會將希望正確讀取的圓形的樣本大量舍棄。由此,這種舍棄值需要并行地連接。
[0205]如以上所述,在本實施例中,獨立性較高的舍棄值彼此串行地處理,相關(guān)性較高的舍棄值彼此并行地處理。
[0206]在此,列舉用于判斷兩個舍棄值是獨立性較高還是獨立性較低(相關(guān)性較高)的方法的示例。將兩個舍棄值分別設(shè)為xl、x2。定義以該兩個舍棄值為自變量的兩個函數(shù)gl(xl, x2)> g2 (xl,x2)0
[0207]函數(shù)gl (xl,x2)與實施例3相同地為二次函數(shù),基于成本函數(shù)c以相對于正讀圖像數(shù)據(jù)庫的樣本而取負(fù)值、相對于舍棄圖像數(shù)據(jù)庫的樣本而取正值的方式,通過機器學(xué)習(xí)而設(shè)定。例如如圖3、圖4所示,gl成為如下的函數(shù):gl = O的等高線成為邊界線,與邊界線相比位于左下的區(qū)域為負(fù),位于右上的區(qū)域為正。
[0208]函數(shù)g2 (xl, x2)為如下的函數(shù):作為參數(shù)而具有兩個值h1、h2,在xl > hi或者x2 > h2的情況下,g2 (xl, x2) = 1,在其他情況下g2 (xl, x2) = -1。即,成為g2 (xl,x2) > 0的區(qū)域是舍棄區(qū)域。但是,因為設(shè)定相對于全部樣本滿足該條件的參數(shù)通常是不可能的,所以定義將參數(shù)取為自變量、表示沒有滿足條件的程度的成本函數(shù)c (hi, h2),以使該值變小的方式通過機器學(xué)習(xí)來進行學(xué)習(xí)。例如,將在舍棄圖像數(shù)據(jù)庫的樣本中成為g2=-1的樣本的個數(shù)取為vl,將在正讀圖像數(shù)據(jù)庫的樣本中成為g2 = I的樣本的個數(shù)取為v2, c (hl,h2)成為c (hi, h2) = vl + v2 (不滿足條件的樣本的個數(shù))等。例如,能夠使用神經(jīng)網(wǎng)絡(luò)和/或SVM等。這樣地生成的g2的g2 = I和g2 = -1的邊界線與舍棄值I或者舍棄值2的軸平行,且成為將正讀圖像數(shù)據(jù)庫的分布和舍棄圖像數(shù)據(jù)庫的樣本分開的邊界。在圖3、圖4的例子中,若閾值I為表示hi的虛線,閾值2為表示h2的虛線,則g2在與閾值I相比位于左側(cè)且與閾值2相比位于下側(cè)的區(qū)域中,成為g2= - 1,在與閾值I相比位于右側(cè),或者與閾值2相比位于上側(cè)的區(qū)域中,成為g2 = I。
[0209]基于上述函數(shù)g2 (xl,x2)的g2 = I和g2 = -1的邊界,相當(dāng)于將舍棄處理串行連接的情況下的舍棄區(qū)域的邊界。另一方面,基于函數(shù)gl (xl,x2)的gl = O的等高線,相當(dāng)于通過實施例3的方法將舍棄處理并行連接的情況下的舍棄區(qū)域的邊界。
[0210]在此,比較基于由函數(shù)gl所生成的舍棄區(qū)域的精度、和基于由函數(shù)g2所生成的舍棄區(qū)域的精度。將在舍棄圖像數(shù)據(jù)庫的樣本中成為g2 = -1的樣本的個數(shù)設(shè)為vl,將在正讀圖像數(shù)據(jù)庫的樣本中成為g2 = I的樣本的個數(shù)設(shè)為v2,將在舍棄圖像數(shù)據(jù)庫的樣本中成為gl < O的樣本的個數(shù)設(shè)為wl,將在正讀圖像數(shù)據(jù)庫的樣本中成為gl >0的樣本的個數(shù)設(shè)為w2。vl、wl相當(dāng)于誤受理的個數(shù),v2、w2相當(dāng)于誤舍棄的個數(shù)。誤受理的個數(shù)pl、誤舍棄的個數(shù)P2的情況下的損失函數(shù)設(shè)為h(pl,p2)。h是pl、p2的單調(diào)增加函數(shù)。例如設(shè)為h (pl,p2) = pl +p2等。該情況是誤受理數(shù)與誤舍棄數(shù)之和。能夠視為h值越小,舍棄的精度越好。
[0211]接下來,比較h (vl,v2)和h (wl,w2)。通常,基于函數(shù)gl進行的舍棄區(qū)域的精度較好,h (vl,v2)比h (wl,w2)大。在此,D = h (vl,v2) — h (wl, w2)表示串行連接的情況和并行連接的情況的損失之差。在該損失之差為一定以上、且較大的情況下,判定為基于g2的舍棄區(qū)域不充分,舍棄值I和舍棄值2的獨立性較低。相反地,在D = h (vl,v2)-h(wl, w2)為固定值以上、但較小的情況下,判定為舍棄值I和舍棄值2的獨立性較高。
[0212]以上,為了使說明變得簡單,說明了兩個舍棄值,但三個以上的情況也是同樣的。
[0213]在本實施例中,獨立性較高的處理并行配置,獨立性較低的處理串行配置。對于并行配置的情況下的舍棄值與實施例3相同地,能夠使用上述函數(shù)gl。另外,與實施例2相同地,舍棄效率越高的處理,越在先配置。
[0214]在具有η個舍棄值的情況下,舉例說明舍棄值的構(gòu)成方法。
[0215]圖22表示舍棄值的構(gòu)成處理的流程圖。該處理可以通過字符識別裝置201的CPU206、或者字符識別裝置201以外的其他的處理裝置來執(zhí)行。首先,CPU206或者其他的處理裝置從η個舍棄值中選定獨立性最低(上述的D的值較大)的對(pair)。CPU206或者其他的處理裝置在判定該獨立性的值D比預(yù)先決定的值小的情況下,所選定的對的獨立性較高,因此,將該η個舍棄值串行地配置。CPU206或者其他的處理裝置在判定為所選定的對的獨立性較低的情況下,將所選定的對并行連接,與實施例3的方法同樣地決定基于這些舍棄值的新的舍棄值。若將該并行連接的舍棄值視為一個舍棄值,則存在η — I個舍棄值。同樣地,CPU206或者其他的處理裝置從η — I個舍棄值中選定獨立性最低的對。在所選定的對被判定為獨立性較高的情況下,CPU206或者其他的處理裝置將該η -1個舍棄值串行配置。在判定為所選定的對的獨立性較低的情況下,CPU206或者其他的處理裝置將所選定的對并行連接,與實施例3的方法同樣地決定基于這些舍棄值的新的舍棄值。此時,如果構(gòu)成所選定的對的舍棄值(設(shè)為rl、r2)為由多個舍棄值的并行所構(gòu)成的情況下,CPU206或者其他處理裝置將該舍棄值分解為構(gòu)成該舍棄值的原來的舍棄值,并將這些舍棄值并行連接,與實施例3的方法同樣地決定基于這些舍棄值的新的舍棄值。例如,在rl原本通過將兩個舍棄值S1、s2并行連接而構(gòu)成的情況下,CPU206或者其他處理裝置將rl分解為原來的舍棄值,將sl、s2、rl并行連接。如上所述,CPU206或者其他處理裝置持續(xù)處理直到最終判定為獨立性較低的對消失為止。
[0216]在圖1中示出了如下構(gòu)成:舍棄值I和舍棄值2并行連接,舍棄值3、舍棄值4、舍棄值5并行連接,前者的組與后者的組串行連接。
[0217]若通過表格來表不圖1的情況下的舍棄的構(gòu)成,貝1J成為圖21的表2103那樣。表的各行(橫向)表示并行的排列,表示待合成的舍棄函數(shù)和其合成函數(shù),列方向(縱向)表示串行的排列。在圖1的情況下,首先舍棄值I和舍棄值2并行連接,舍棄值3、舍棄值4、舍棄值5并行連接,由此,在第一行中排列有舍棄函數(shù)I和舍棄函數(shù)2,在下一行中排列有舍棄函數(shù)1、舍棄函數(shù)2、舍棄函數(shù)3。合成函數(shù)fl、f2例如能夠通過上述說明的生成gl的方法來生成。
[0218]實施例5
[0219]在上述實施例2、實施例3、實施例4中,也可以在能夠使用并行運算裝置的情況下,使并行排列的舍棄函數(shù)彼此并行地計算。另外,在串行排列的情況下,在能夠計算下一個舍棄函數(shù)時也可以進行計算。在該情況下,在下一個舍棄函數(shù)的計算結(jié)果不需要的情況下,將該結(jié)果舍棄即可。
[0220]4.實施例的效果
[0221]根據(jù)本實施例,能夠自動地構(gòu)成使多個舍棄指標(biāo)組合的舍棄方式。由此,能夠削減用于使多個舍棄指標(biāo)組合的人工成本。另外,根據(jù)本實施例,能夠在將正讀率維持于高水準(zhǔn)的狀態(tài)下,削減誤讀率,并能夠構(gòu)成精致且快速的舍棄方式。
[0222]另外,在本實施例中,關(guān)于多個舍棄指標(biāo),以舍棄指標(biāo)彼此的獨立性為基準(zhǔn),將獨立性較高的舍棄指標(biāo)彼此串行地構(gòu)成,將獨立性較低的舍棄指標(biāo)彼此并行地構(gòu)成,由此,能夠以低人工成本提供高正讀率、低誤讀率、且快速的舍棄方法。
[0223]5.附記
[0224]此外,本發(fā)明并不限定于上述的實施例,也包含各種變形例。例如,上述實施例為了易于理解地說明本發(fā)明而具體地進行了說明,但并不限定于必須具有所說明的全部構(gòu)成。另外,能夠?qū)⒛骋粚嵤├臉?gòu)成的一部分置換為其他的實施例的構(gòu)成,還能夠?qū)δ骋粚嵤├臉?gòu)成追加其他實施例的構(gòu)成。另外,能夠?qū)Ω鲗嵤├臉?gòu)成的一部分進行其他構(gòu)成的追加、刪除、置換。
[0225]另外,上述的各構(gòu)成、功能、處理部、處理單元等也可以為,通過將它們的一部分或者全部例如設(shè)計到集成電路中,從而通過硬件而實現(xiàn)。另外,上述各構(gòu)成、功能等也可以為,處理器對實現(xiàn)各個功能的程序進行解釋、執(zhí)行,由此,通過軟件而實現(xiàn)。實現(xiàn)各功能的程序、表格、文件等的信息能夠存儲在存儲器、硬盤、SSD (Solid State Driver ;固態(tài)硬盤)等的存儲裝置、或者IC卡、SD卡、DVD等的存儲介質(zhì)中。
[0226]另外,控制線和信息線示出了認(rèn)為在說明中必要的線,不一定示出了產(chǎn)品中全部的控制線和信息線。實際上,可以考慮為幾乎全部的構(gòu)成是相互連接的。
[0227]本發(fā)明的字符識別方法或者字符識別裝置、系統(tǒng)能夠通過用于使其各流程在計算機中執(zhí)行的字符識別程序、記錄了字符識別程序的計算機可讀取的存儲介質(zhì)、包含字符識別程序且能夠加載至計算機的內(nèi)部存儲器中的程序產(chǎn)品、包含該程序的服務(wù)器等的計算機等來提供。
【權(quán)利要求】
1.一種字符識別裝置,其特征在于,具有: 多個舍棄值計算部,其基于預(yù)先設(shè)定的舍棄函數(shù)對從輸入圖像而識別的字符的識別結(jié)果計算舍棄值;和 一個或多個舍棄判定部,其基于由多個所述舍棄值計算部的某一個或某些個計算出的一個或多個舍棄值,分別判定是否將所述識別結(jié)果舍棄, 使用基于多個所述舍棄值計算部的相關(guān)性而組合的多個所述舍棄值計算部,所述舍棄判定部基于多個舍棄值來進行所述識別結(jié)果的舍棄判定,并將判定為舍棄的所述識別結(jié)果舍棄,由此,將沒有判定為舍棄的所述識別結(jié)果保存在存儲部中或顯示在顯示部中。
2.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 在基于在先的所述舍棄值計算部所計算出的舍棄值而判定為舍棄的情況下,跳過由在后的所述舍棄值計算部進行的舍棄值的計算。
3.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 構(gòu)成為越是舍棄能力或舍棄率高的計算舍棄值的所述舍棄值計算部,越在先配置地進行計算處理。
4.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 構(gòu)成為將對多個舍棄值中獨立性較高的舍棄值進行計算的所述舍棄值計算部串行配置來進行計算處理。
5.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 構(gòu)成為將對多個舍棄值中獨立`性較低的舍棄值進行計算的所述舍棄值計算部并行配置來進行計算處理。
6.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 構(gòu)成為將對多個舍棄值中獨立性較高的舍棄值進行計算的所述舍棄值計算部串行配置,且將對多個舍棄值中獨立性較低的舍棄值進行計算的所述舍棄值計算部并行配置,從而進行計算處理。
7.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 所述舍棄函數(shù)是以相對于希望舍棄的所述識別結(jié)果而取高值、相對于不希望舍棄的所述識別結(jié)果而取低值的方式來計算舍棄值的函數(shù)。
8.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于,具有: 預(yù)先集合了希望舍棄的圖像樣本的舍棄圖像數(shù)據(jù)庫;和 預(yù)先集合了希望正確讀取的圖像樣本的正讀圖像數(shù)據(jù)庫, 所述字符識別裝置以使基于所述正讀圖像數(shù)據(jù)庫的舍棄率較小、使基于所述舍棄圖像數(shù)據(jù)庫的舍棄率較大的方式,決定用于與舍棄值比較來進行舍棄判定的一個或多個閾值。
9.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 基于舍棄能力或舍棄率的聞低和舍棄值計算成本而得到的舍棄效率越聞的所述舍棄值計算部,越在先配置,在所述舍棄判定部基于在先的所述舍棄值計算部所計算出的舍棄值而判定為舍棄的情況下,省略基于在后的所述舍棄值計算部所進行的舍棄值的計算處理。
10.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 基于并行配置的多個所述舍棄值計算部的各個舍棄值來確定新的舍棄函數(shù),并基于所述新的舍棄函數(shù)來進行舍棄判定。
11.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于,具有: 預(yù)先集合了希望舍棄的圖像樣本的舍棄圖像數(shù)據(jù)庫;和 預(yù)先集合了希望正確讀取的圖像樣本的正讀圖像數(shù)據(jù)庫, 判定多個舍棄值的獨立性,作為所述獨立性的判定而如下進行: 通過基于識別誤差的函數(shù)來學(xué)習(xí)以所述舍棄值為自變量的函數(shù),該以所述舍棄值為自變量的函數(shù)對存儲在所述舍棄圖像數(shù)據(jù)庫中的圖像樣本和存儲在所述正讀圖像數(shù)據(jù)庫中的圖像樣本進行識別,對基于所述函數(shù)的識別誤差和將舍棄值串行構(gòu)成時的識別誤差進行比較,在兩者誤差之差為預(yù)先決定的閾值以上的情況下,判定為獨立性較低,在其以外的情況下,判定為獨立性較高。
12.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于, 通過并行配置的多個所述舍棄值計算部來并行地計算舍棄值、及/或通過串行配置的多個所述舍棄值計算部來并行地計算舍棄值。
13.根據(jù)權(quán)利要求1所述的字符識別裝置,其特征在于,具有: 文件圖像化部,其通過對文件進行光學(xué)掃描來獲取文件圖像; 前處理部,其從所述文件圖像中去除噪聲和背景,并進行二值化而生成二值圖像; 布局分析部,其分析所述二值圖像的文件構(gòu)造和圖表構(gòu)造;` 字符串提取部,其從所述二值圖像提取字符串單位的圖像; 字符切取部,其從提取出的所述字符串圖像的各個字符串圖像切取字符單位的圖像;字符識別部,其識別由所述字符切取部所切取出的各字符單位的圖像中的字符,并輸出所述識別結(jié)果; 識別結(jié)果選定部,其基于由所述字符識別部進行的所述識別結(jié)果和由所述舍棄判定部進行的舍棄判定結(jié)果,來選定各個所述字符串圖像的所述識別結(jié)果; 重試判定部,其基于所述識別結(jié)果而判定是否進行識別的再處理;和 識別后處理部,其將所述識別結(jié)果保存及/或向顯示裝置輸出。
14.一種字符識別方法,其特征在于, 使用多個舍棄值計算部,該多個舍棄值計算部基于預(yù)先設(shè)定的舍棄函數(shù)對從輸入圖像而識別的字符的識別結(jié)果計算舍棄值, 并使用一個或多個舍棄判定部,該一個或多個舍棄判定部基于由多個所述舍棄值計算部的某一個或某些個計算出的一個或多個舍棄值,分別判定是否將所述識別結(jié)果舍棄,還使用基于多個所述舍棄值計算部的相關(guān)性而組合的多個所述舍棄值計算部,所述舍棄判定部基于多個舍棄值來進行所述識別結(jié)果的舍棄判定,并將判定為舍棄的所述識別結(jié)果舍棄,由此,將沒有判定為舍棄的所述識別結(jié)果保存在存儲部中或顯示在顯示部中。
15.一種字符識別程序,其特征在于,用于使計算機執(zhí)行如下功能: 處理部使用多個舍棄值計算部,基于預(yù)先設(shè)定的舍棄函數(shù)對從輸入圖像而識別的字符的識別結(jié)果計算舍棄值的功能; 處理部使用一個或多個舍棄判定部,基于由多個所述舍棄值計算部的某一個或某些個計算出的一個或多個舍棄值,分別判定是否將所述識別結(jié)果舍棄的功能;和 處理部使用基于多個所述舍棄值計算部的相關(guān)性而組合的多個所述舍棄值計算部,所述舍棄判定部基于多個舍棄值來進行所述識別結(jié)果的舍棄判定,并將判定為舍棄的所述識別結(jié)果舍棄,由此,將沒有判定為舍棄的所述識別結(jié)果保存在存儲部中或顯示在顯示部中的 功能。
【文檔編號】G06K9/20GK103870823SQ201310661200
【公開日】2014年6月18日 申請日期:2013年12月6日 優(yōu)先權(quán)日:2012年12月7日
【發(fā)明者】三好利升, 新莊廣, 永崎健, 堤庸昂 申請人:株式會社日立信息通信工程
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宁夏| 吉首市| 钦州市| 新密市| 清水县| 岳阳市| 临朐县| 资阳市| 原阳县| 兰溪市| 蒙自县| 青阳县| 石泉县| 股票| 大宁县| 新乡市| 古田县| 宜川县| 乌鲁木齐市| 神池县| 丰原市| 赤峰市| 都匀市| 汉川市| 鸡东县| 荥经县| 湾仔区| 都安| 宁化县| 仙游县| 濮阳县| 淮阳县| 沐川县| 富宁县| 沁阳市| 镶黄旗| 安图县| 桃园市| 台安县| 永川市| 阳信县|