專利名稱:圖像處理設(shè)備和方法,以及計(jì)算機(jī)可讀存儲(chǔ)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖像處理設(shè)備和方法,以及一種計(jì)算機(jī)可讀存儲(chǔ)器。
具有字符識(shí)別功能的傳統(tǒng)圖像處理設(shè)備基本上可識(shí)別給定分辨率的一幅二進(jìn)制圖像。另一方面,字符識(shí)別精度與輸入圖像的分辨率密切相關(guān)。
然而,因?yàn)閭鹘y(tǒng)的圖像處理設(shè)備只能識(shí)別給定分辨率的圖像,從識(shí)別精度的角度來(lái)說(shuō),字符識(shí)別并不總是在最理想的狀況下完成。
考慮到上述問題,本發(fā)明的目的在于提供一種能夠改進(jìn)字符識(shí)別精度的圖像處理設(shè)備和方法,以及一種計(jì)算機(jī)可讀存儲(chǔ)器。
為了達(dá)到上述目的,根據(jù)本發(fā)明的圖像處理設(shè)備由以下配置所構(gòu)成。即圖像處理設(shè)備包括用于將輸入圖像轉(zhuǎn)換成預(yù)定格式圖像的轉(zhuǎn)換裝置;確定裝置,用于通過該轉(zhuǎn)換裝置的轉(zhuǎn)換的圖像,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率;識(shí)別裝置,用于在確定裝置的確定結(jié)果的基礎(chǔ)上執(zhí)行輸入圖像的字符識(shí)別;以及用于輸出該識(shí)別裝置的識(shí)別結(jié)果的輸出裝置。
為了達(dá)到上述目的,根據(jù)本發(fā)明的圖像處理方法由以下配置所構(gòu)成。即圖像處理方法包括將輸入圖像轉(zhuǎn)換成預(yù)定格式圖像的轉(zhuǎn)換步驟;確定步驟,通過該轉(zhuǎn)換步驟中所轉(zhuǎn)換的圖像,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的確定步驟;在該確定步驟的確定結(jié)果的基礎(chǔ)上,執(zhí)行輸入圖像的字符識(shí)別的識(shí)別步驟;以及輸出該識(shí)別步驟的識(shí)別結(jié)果的輸出步驟。
為了達(dá)到上述目的,根據(jù)本發(fā)明的計(jì)算機(jī)可讀存儲(chǔ)器由以下配置構(gòu)成。即
計(jì)算機(jī)可讀存儲(chǔ)器包括將輸入圖像轉(zhuǎn)換成預(yù)定格式圖像的該轉(zhuǎn)換步驟的程序代碼;通過該轉(zhuǎn)換步驟所轉(zhuǎn)換的圖像,確定在進(jìn)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的該確定步驟的程序代碼;在確定步驟的確定結(jié)果的基礎(chǔ)上,進(jìn)行輸入圖像字符識(shí)別的識(shí)別步驟的程序代碼;以及輸出該識(shí)別步驟的識(shí)別結(jié)果的輸出步驟的程序代碼。
為了達(dá)到上述目的,根據(jù)本發(fā)明的圖像處理設(shè)備由以下配置構(gòu)成。即圖像處理設(shè)備包括輸入裝置,用于輸入包含一組圖像的文件數(shù)據(jù),這些文件數(shù)據(jù)是基于一個(gè)單一圖像而產(chǎn)生,并具有不同的分辨率;確定裝置,用于通過由該輸入裝置輸入的該組圖像,確定執(zhí)行字符識(shí)別時(shí)所使用的分辨率;以及控制裝置,用于控制把該分辨率作為確定裝置的一個(gè)確定結(jié)果存儲(chǔ)在該文件數(shù)據(jù)中。
為了達(dá)到上述目的,根據(jù)本發(fā)明的圖像處理方法由以下配置構(gòu)成。即圖像處理方法包括這些步驟輸入包含一組圖像的文件數(shù)據(jù),這些圖像基于一個(gè)單一圖像而產(chǎn)生,并具有不同的分辨率;以及對(duì)以下過程進(jìn)行控制通過該組圖像確定執(zhí)行字符識(shí)別時(shí)所使用的分辨率,和將該分辨率作為一個(gè)確定結(jié)果存儲(chǔ)在文件數(shù)據(jù)中。
為了達(dá)到上述目的,根據(jù)本發(fā)明的計(jì)算機(jī)可讀存儲(chǔ)器由以下配置構(gòu)成。即計(jì)算機(jī)可讀存儲(chǔ)器包括輸入包含一組圖像的文件數(shù)據(jù)的輸入步驟的程序代碼,這些圖像基于一個(gè)單一圖像而產(chǎn)生,并具有不同的分辨率;通過該輸入步驟輸入的該組圖像,確定進(jìn)行字符識(shí)別時(shí)所使用的分辨率的該確定步驟的程序代碼;以及將該分辨率作為確定步驟的一個(gè)確定結(jié)果存儲(chǔ)在該文件數(shù)據(jù)中的該存儲(chǔ)步驟的程序代碼。
本發(fā)明的其他特點(diǎn)和優(yōu)點(diǎn),從以下結(jié)合附圖的描述,會(huì)更加顯而易見。其中,同樣的參考字符在全部圖中代表相同或類似的部件。
圖1是一個(gè)方框圖,顯示根據(jù)本發(fā)明的第一個(gè)實(shí)施例的一個(gè)圖像處理設(shè)備的功能配置;圖2是一個(gè)流程圖,顯示在本發(fā)明的第一個(gè)實(shí)施例中,由一個(gè)最佳字符識(shí)別分辨率確定電路執(zhí)行的處理細(xì)節(jié);圖3是一個(gè)流程圖,顯示在本發(fā)明的第一個(gè)實(shí)施例中,由一個(gè)字符識(shí)別電路執(zhí)行的處理細(xì)節(jié);圖4顯示一個(gè)結(jié)構(gòu)化圖像文件的例子;圖5顯示一個(gè)結(jié)構(gòu)化圖像文件的例子;圖6顯示包含一組具有不同分辨率的圖像的一個(gè)圖像文件的例子;圖7顯示一個(gè)圖像分割成拼板狀的例子;圖8是一個(gè)表格,顯示一個(gè)圖像內(nèi)容屬性集的例子;圖9是一個(gè)表格,顯示一個(gè)子圖像頭部的例子;圖10是一個(gè)方框圖,顯示根據(jù)本發(fā)明的圖像處理設(shè)備的硬件配置;和圖11是一個(gè)圖表,顯示平均相關(guān)值的遲滯性。
以下結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例給以詳細(xì)描述。
(第一個(gè)實(shí)施例)圖1是一個(gè)方框圖,顯示根據(jù)本發(fā)明的圖像處理設(shè)備的功能配置。
參看圖1,數(shù)字2表示一個(gè)掃描儀,用于輸入一個(gè)原始圖像。注意該原始圖像不必總是由掃描儀2輸入。例如,由數(shù)字相機(jī)攝取的圖像,存儲(chǔ)在存儲(chǔ)設(shè)備中的圖像,均可輸入。數(shù)字4表示一個(gè)FlashPix光柵器(rasterizer),用于將掃描儀2輸入的圖像轉(zhuǎn)換成FlashPix圖像,作為圖像的一種文件格式。數(shù)字6表示一個(gè)圖像存儲(chǔ)器,用于存儲(chǔ)由FlashPix光柵器4轉(zhuǎn)換的FlashPix圖像。
數(shù)字8表示一個(gè)最佳字符識(shí)別分辨率確定電路,用于確定在存儲(chǔ)于圖像存儲(chǔ)器6中圖像的基礎(chǔ)上,對(duì)字符識(shí)別最佳的分辨率。數(shù)字10表示一個(gè)字符識(shí)別電路,用于在該最佳字符識(shí)別分辨率確定電路10的確定結(jié)果的基礎(chǔ)上,對(duì)存儲(chǔ)在圖像存儲(chǔ)器6中的圖像進(jìn)行最后的字符識(shí)別。數(shù)字12表示一個(gè)輸出電路,用于輸出該字符識(shí)別電路10的識(shí)別結(jié)果到一個(gè)存儲(chǔ)設(shè)備,如打印機(jī)、顯示器、網(wǎng)絡(luò)等等。
以下簡(jiǎn)述FlashPix文件格式的圖像文件中(FlashPix是Eastman柯達(dá)公司的商品名稱),存儲(chǔ)在圖像頭部域中的圖像屬性信息和圖像數(shù)據(jù)被進(jìn)一步結(jié)構(gòu)化,并存儲(chǔ)成一個(gè)圖像文件。圖4和圖5顯示了該結(jié)構(gòu)化圖像文件。
對(duì)圖像文件中的屬性和圖像數(shù)據(jù)使用“存儲(chǔ)倉(cāng)”和“信息流”來(lái)管理,對(duì)應(yīng)于使用MS-DOS時(shí)的目錄和文件。參看圖4和圖5,帶陰影的方塊是“存儲(chǔ)倉(cāng)”,不帶陰影的方塊是“信息流”。圖像數(shù)據(jù)和圖像屬性信息存儲(chǔ)在信息流中。圖像數(shù)據(jù)按不同的分辨率分等級(jí)存儲(chǔ),具有相應(yīng)分辨率的圖像稱為子圖像,由其分辨率0,1,…,n-1和n表示。對(duì)每一分辨率的一個(gè)圖像而言,讀取該圖像所必需的信息存儲(chǔ)在一個(gè)子圖像頭部,圖像數(shù)據(jù)本身存儲(chǔ)在子圖像數(shù)據(jù)中。
屬性集按其使用目的和內(nèi)容分類并定義各種屬性信息,包括概要信息屬性集,圖像信息屬性集,圖像內(nèi)容屬性集,和擴(kuò)展列表屬性集。
(屬性集的解釋)概要信息屬性集對(duì)于FlashPix而言,并不是唯一的。例如,這個(gè)屬性集對(duì)于微軟公司的“結(jié)構(gòu)化存儲(chǔ)”是必須的,存儲(chǔ)諸如標(biāo)題、內(nèi)容、作者、縮微圖等該圖像文件的信息。
圖像內(nèi)容屬性集是描述圖像數(shù)據(jù)存儲(chǔ)方法的一個(gè)屬性。這個(gè)屬性描述圖像數(shù)據(jù)的層數(shù)、寬度、高度、最大分辨率圖像的顏色深度,具有相應(yīng)分辨率的圖像的信息,或者使用JPEG時(shí),一個(gè)量化表或Huffman表的定義。圖8顯示該圖像內(nèi)容屬性集的一個(gè)例子。
圖像信息屬性集存儲(chǔ)了可在使用該圖像時(shí)應(yīng)用的有關(guān)信息,如表示圖像抓取方法的信息,圖像使用方法的信息等等。這類信息的一個(gè)例子如下有關(guān)該數(shù)字?jǐn)?shù)據(jù)抓取/生成方法的信息(文件源)有關(guān)版權(quán)的信息(知識(shí)產(chǎn)權(quán))
有關(guān)圖像內(nèi)容(人物、地點(diǎn)等圖像中的類似內(nèi)容)的信息(內(nèi)容描述)有關(guān)圖像攝取中使用的相機(jī)信息(照相機(jī)信息)有關(guān)圖像攝取時(shí)設(shè)定的(曝光值、快門速度、焦距、有無(wú)使用電子閃光燈等等)相機(jī)信息(每張照片相機(jī)設(shè)定值)有關(guān)對(duì)于數(shù)字相機(jī)和馬賽克過濾器而言唯一的分辨率信息(數(shù)字相機(jī)特征)有關(guān)膠卷的生產(chǎn)商名稱、產(chǎn)品名稱、類型(正片/負(fù)片,彩色/黑白)等信息(膠卷信息)有關(guān)當(dāng)原始圖像是一個(gè)文檔或打印出的文件時(shí)類型和尺寸的信息(原始文檔掃描信息)有關(guān)所使用的掃描儀和軟件,以及使用掃描儀掃描圖像時(shí)操作者的信息(掃描設(shè)備)擴(kuò)展列表屬性集是當(dāng)不包括在FlashPix的基本規(guī)格中的信息要加入時(shí)所使用的一個(gè)域。
圖5中顯示的FlashPix圖像瀏覽對(duì)象是一個(gè)圖像文件,它存儲(chǔ)了在顯示圖像和圖像數(shù)據(jù)時(shí)所使用的一組瀏覽參考參數(shù)。瀏覽參數(shù)是當(dāng)在圖像顯示中應(yīng)用圖像旋轉(zhuǎn),放大/縮小,移動(dòng),顏色轉(zhuǎn)換,過濾等操作時(shí)所存儲(chǔ)的一組處理系數(shù)。
來(lái)源/結(jié)果FlashPix圖像對(duì)象是FlashPix圖像的集合。來(lái)源FlashPix圖像對(duì)象是必須的,而結(jié)果FlashPix圖像對(duì)象是可選的。來(lái)源FlashPix圖像對(duì)象存儲(chǔ)原始圖像,而結(jié)果FlashPix圖像對(duì)象存儲(chǔ)使用該瀏覽參數(shù)處理過的圖像。來(lái)源/結(jié)果描述屬性集是用于區(qū)別圖像數(shù)據(jù)的屬性集,并存儲(chǔ)諸如圖像ID,變化抑制屬性集,最后修改日期等信息。
變形屬性集存儲(chǔ)諸如旋轉(zhuǎn)、放大/縮小,移動(dòng),顏色轉(zhuǎn)換矩陣,對(duì)比度調(diào)節(jié)值,過濾系數(shù)等仿射變形系數(shù)信息。
以下描述圖像數(shù)據(jù)的處理。
圖6顯示了包括一組具有不同分辨率圖像的圖像文件的例子。參看圖6,一個(gè)具有最大分辨率的圖像,其尺寸為C×R(列×行),另一個(gè)最大圖像的尺寸為C/2×R/2。類似地,重復(fù)縮小列和行的尺寸到1/2,直到列和行的尺寸相等或者小于64像素。
作為這種分級(jí)的結(jié)果,“每個(gè)圖像文件的層數(shù)”,以及前述頭部信息和每層圖像的圖像數(shù)據(jù)都要求作為一個(gè)圖像的屬性信息。上述圖像內(nèi)容屬性集描述有關(guān)每個(gè)圖像文件的層數(shù),具有最大分辨率的圖像的寬度和高度,或者具有相應(yīng)分辨率的圖像的寬度、高度、顏色深度,壓縮格式等等的信息。如圖8所示。
此外,每一分辨率的一個(gè)圖像被分割成64×64拼板,如圖7所示。當(dāng)一個(gè)圖像從其左上部分開始被依次分割成64×64拼板時(shí),有些圖像會(huì)在其右部和下端出現(xiàn)空白拼板。在這種情況下,通過重復(fù)插入最右端或最下端圖像來(lái)構(gòu)成64×64像素。在FlashPix中,每一拼板中的圖像通過JPEG壓縮、單一顏色壓縮和非壓縮中的一種而存儲(chǔ),注意JPEG壓縮是由ISO/IEC JTCl/SC29圖標(biāo)標(biāo)準(zhǔn)化了的方案,此處省略對(duì)該方案本身的描述。同樣,單一顏色壓縮也是一種方案,它是當(dāng)該拼板由相同顏色構(gòu)成時(shí),用一種顏色表示給定拼板的顏色,而不記錄個(gè)別的像素值。這個(gè)方案尤其適用于由計(jì)算機(jī)圖形程序生成的圖像。
這些分割的圖像數(shù)據(jù)存儲(chǔ)在一個(gè)子圖像數(shù)據(jù)流中。全部的拼板數(shù),個(gè)別拼板的大小,數(shù)據(jù)開始位置以及壓縮方案都存儲(chǔ)在子圖像頭部。圖9顯示這個(gè)子圖像頭部的一個(gè)例子。
以下描述圖1所示的配置所進(jìn)行的操作。
由掃描儀2輸入的圖像被FlashPix光柵器4轉(zhuǎn)換成FlashPix圖像,該FlashPix圖像存儲(chǔ)在圖像存儲(chǔ)器6中。最佳字符識(shí)別分辨率確定電路8從該圖像存儲(chǔ)器6讀取相應(yīng)分辨率的圖像的預(yù)定部分,并執(zhí)行該讀取部分的字符識(shí)別。然后,電路8在相應(yīng)字符識(shí)別結(jié)果的基礎(chǔ)上確定最佳字符識(shí)別分辨率。
該字符識(shí)別電路10從該圖像存儲(chǔ)器6讀取由該最佳字符識(shí)別分辨率確定電路8確定的具有最佳分辨率的一個(gè)圖像,并執(zhí)行整個(gè)讀取圖像的字符識(shí)別。以后將詳細(xì)描述該最佳字符識(shí)別分辨率確定電路8和字符識(shí)別電路10的操作。輸出電路12將字符識(shí)別電路10的字符識(shí)別結(jié)果轉(zhuǎn)換成輸出格式(文件,打印機(jī),顯示器,網(wǎng)絡(luò)等等),并輸出轉(zhuǎn)換的結(jié)果。
圖10顯示根據(jù)本發(fā)明的圖像處理設(shè)備的硬件配置。
以下結(jié)合附圖1對(duì)附圖10中的相應(yīng)構(gòu)件加以描述。數(shù)字101表示CPU(中央處理器),它根據(jù)存儲(chǔ)在存儲(chǔ)器(MEM)102和外部存儲(chǔ)媒介103中的程序代碼執(zhí)行各種處理。以后將要描述的流程圖所示的處理是在CPU101的控制下執(zhí)行的。FlashPix光柵器4,最佳字符識(shí)別分辨率確定電路8和字符識(shí)別電路10都由CPU101實(shí)施。
數(shù)字102表示包括ROM和RAM在內(nèi)的存儲(chǔ)器。存儲(chǔ)器102存儲(chǔ)從圖像輸入裝置104輸入的圖像,或是從另一個(gè)終端經(jīng)由通信I/F108相連的通訊網(wǎng)絡(luò)輸入的圖像,轉(zhuǎn)換成FlashPix等文件格式的圖像數(shù)據(jù),字符識(shí)別電路10在字符識(shí)別中使用的字符詞典數(shù)據(jù),一個(gè)識(shí)別結(jié)果的候選字符組,在以后將要描述的處理中使用的各種參數(shù),等等。存儲(chǔ)器102有一個(gè)工作存儲(chǔ)區(qū),用于存儲(chǔ)正在進(jìn)行處理的數(shù)據(jù)。圖像存儲(chǔ)器6由這個(gè)存儲(chǔ)器102實(shí)施。
數(shù)字103表示外部存儲(chǔ)媒介,如CD-ROM,CD-R,F(xiàn)D等等,可從本實(shí)施例的設(shè)備分離。圖像,控制程序的程序代碼,處理結(jié)果的圖像文件,文本等等可在或向這些外部存儲(chǔ)媒介存儲(chǔ)或讀取。數(shù)字104表示一個(gè)圖像輸入裝置,如掃描儀,數(shù)字相機(jī)等可以光學(xué)方式掃描原始圖像的裝置。掃描儀2與圖像輸入裝置104相對(duì)應(yīng)。數(shù)字105表示一個(gè)顯示器,如CRT,液晶顯示器等在處理期間顯示圖像,文本,消息的裝置。同樣,顯示器105也顯示在鍵盤107和操作窗口輸入的數(shù)據(jù)。
數(shù)字106表示一個(gè)打印機(jī),如LBP(激光打印機(jī)),噴墨打印機(jī)等用于記錄圖像,文本等內(nèi)容的裝置。數(shù)字107表示可以輸入各種命令,字符代碼等由操作員操作時(shí)輸入的鍵盤。除鍵盤107以外,也可配備像鼠標(biāo),觸摸板這樣的坐標(biāo)輸入裝置以輸入坐標(biāo)數(shù)據(jù)。數(shù)字108表示一個(gè)通訊I/F以經(jīng)由一個(gè)通訊網(wǎng)絡(luò)(公眾網(wǎng)或LAN)與另一個(gè)終端交換數(shù)據(jù),命令等。數(shù)字109表示一條總線,它允許各種構(gòu)件彼此交換數(shù)據(jù),命令等。
以下結(jié)合附圖2和3詳細(xì)描述由最佳字符識(shí)別分辨率確定電路8和字符識(shí)別電路10執(zhí)行的處理。
圖2是一張流程圖,顯示根據(jù)本發(fā)明的第一個(gè)實(shí)施例由最佳字符識(shí)別分辨率確定電路執(zhí)行的處理細(xì)節(jié)。
在步驟S202中,存儲(chǔ)器102存儲(chǔ)將要在步驟S204中讀取的FlashPix圖像的讀取分辨率,在該存儲(chǔ)器102中的讀取分辨率參數(shù)被設(shè)定成待處理的FlashPix圖像的最大分辨率。在步驟S204中,讀取具有某個(gè)分辨率的圖像的預(yù)定區(qū)域,該分辨率由存儲(chǔ)在圖像存儲(chǔ)器6中的FlashPix圖像的讀取分辨率參數(shù)表示。假定該預(yù)定區(qū)域在包含圖像的文本塊中是第一個(gè)塊。在步驟S206中,讀取圖像被轉(zhuǎn)換成二進(jìn)制圖像。在步驟S208中,該二進(jìn)制圖像經(jīng)受一系列包括字符抽取和相關(guān)計(jì)算在內(nèi)的,由字符識(shí)別電路10執(zhí)行的字符識(shí)別操作。在步驟S210,相應(yīng)字符的相關(guān)值的平均相關(guān)值被計(jì)算為與在步驟S204中讀取的圖像有關(guān)的字符識(shí)別評(píng)估值。這個(gè)平均相關(guān)值可由步驟S208中作為字符識(shí)別結(jié)果得到的第一個(gè)候選字符的所有類似值的疊加,再將總數(shù)除以字符數(shù)而得到。計(jì)算過的平均相關(guān)值,與圖像分辨率相對(duì)應(yīng)存儲(chǔ)在存儲(chǔ)器102中。
在步驟S212中檢查步驟S204到步驟S210中計(jì)算平均相關(guān)值的過程是否對(duì)于待處理的FlashPix圖像的包括最小分辨率在內(nèi)的所有分辨率的圖像都得到處理。如果確定所有分辨率的圖像的平均相關(guān)值還沒有被計(jì)算(在步驟S212中是“否”),則流程前進(jìn)到步驟S214。在步驟S214中,按當(dāng)前讀取分辨率參數(shù)設(shè)定的分辨率被降低一個(gè)等級(jí),并在存儲(chǔ)器102中設(shè)定。此后,流程返回步驟S204。另一方面,如果確定所有分辨率的圖像的平均相關(guān)值已經(jīng)被計(jì)算(在步驟S212中是“是”),則流程前進(jìn)到步驟S216。在步驟S216中,搜索存儲(chǔ)在存儲(chǔ)器102中的所有分辨率的圖像的平均相關(guān)值以找出最大值,產(chǎn)生最大值的圖像分辨率在存儲(chǔ)器102中被設(shè)定成一個(gè)最佳字符識(shí)別分辨率,由此結(jié)束處理。
如果由檢索找到的最大值小于預(yù)存儲(chǔ)在存儲(chǔ)器102中的一個(gè)給定的臨界值,即如果相似性很低,將在步驟S204中讀取的區(qū)域被轉(zhuǎn)換到另一個(gè)區(qū)域(如第二個(gè)抽取文本塊),步驟S202到步驟S216中的過程可以重復(fù)。同樣,在步驟S216中得到的最佳字符識(shí)別分辨率數(shù)據(jù)也可存儲(chǔ)在FlashPix圖像中。
附圖3是一張流程圖,顯示根據(jù)本發(fā)明的第一個(gè)實(shí)施例由該字符識(shí)別電路執(zhí)行的處理細(xì)節(jié)。
在步驟S302中,由該最佳字符識(shí)別分辨率確定電路8讀取存儲(chǔ)在存儲(chǔ)器102中的最佳字符識(shí)別分辨率。在步驟S304中,具有讀取最佳字符識(shí)別分辨率的FlashPix圖像從圖像存儲(chǔ)器6中被讀取。在步驟S306中,字符識(shí)別電路10執(zhí)行從圖像存儲(chǔ)器6讀取的整個(gè)圖像的字符識(shí)別。識(shí)別結(jié)果的文本可以存儲(chǔ)成一個(gè)FlashPix圖像文件格式,或者由顯示器105,打印機(jī)106,或通信I/F108輸出。
如上所述,根據(jù)第一個(gè)實(shí)施例,該最佳字符識(shí)別分辨率確定電路8可以提前確定對(duì)字符識(shí)別而言最佳的分辨率,使用確定的分辨率的一個(gè)FlashPix圖像完成字符識(shí)別,由此極大提高字符識(shí)別精度。
(第二個(gè)實(shí)施例)第一個(gè)實(shí)施例的最佳字符識(shí)別分辨率確定電路8抽取一個(gè)圖像的給定區(qū)域,以確定一個(gè)最佳字符識(shí)別分辨率。然而,本發(fā)明并不限于這種特定的方法。例如,如果將被字符識(shí)別的圖像數(shù)據(jù)是包含多頁(yè)的多頁(yè)圖像,可以抽取第一頁(yè)以確定一個(gè)最佳字符識(shí)別分辨率,并且可以使用該確定的最佳字符識(shí)別分辨率對(duì)所有頁(yè)的圖像進(jìn)行字符識(shí)別。
在第一和第二個(gè)實(shí)施例中,使用了FlashPix圖像。然而,本發(fā)明不限于這種特定的圖像格式。例如,也可使用另一種格式數(shù)據(jù),CIFF(佳能圖像格式文件),它可存儲(chǔ)或生成一組不同分辨率的圖像。
在第三個(gè)實(shí)施例中,該讀取分辨率設(shè)定為步驟S202中的最大級(jí),降低步驟S214中的分辨率來(lái)確定一個(gè)最佳字符識(shí)別分辨率。然而,本發(fā)明并不限于這種特定方法。例如,讀取分辨率可以設(shè)定為步驟S202中的最低級(jí),可通過逐級(jí)提高步驟S214中分辨率級(jí)來(lái)檢查所有的分辨率,由此確定一個(gè)最佳字符識(shí)別分辨率。
在第一個(gè)實(shí)施例中,檢測(cè)從所有分辨率的圖像得到的平均相關(guān)值的最大值,產(chǎn)生該最大值的分辨率被確定為一個(gè)最佳字符識(shí)別分辨率。然而,本發(fā)明并不限于這種特定的方法。例如,可以控制在相應(yīng)分辨率得到的平均相關(guān)值的遲滯性,當(dāng)步驟S210中得到的值為峰值時(shí),產(chǎn)生該值的圖像的分辨率可以確定為一個(gè)最佳字符識(shí)別分辨率,計(jì)算下一個(gè)分辨率的一個(gè)圖像的相關(guān)值的平均值的過程可以停止。附圖11顯示了當(dāng)依次從最低分辨率級(jí)的圖像計(jì)算平均相關(guān)值時(shí),該平均相關(guān)值的遲滯性。當(dāng)?shù)玫揭粋€(gè)值1104,確定值1103與一個(gè)峰值相對(duì)應(yīng),并停止計(jì)算。
根據(jù)第一和第二個(gè)實(shí)施例,字符識(shí)別精度級(jí)對(duì)于一個(gè)相同圖像的一組分辨率而言是有區(qū)別的,根據(jù)該差別結(jié)果選擇具有最佳分辨率的一個(gè)圖像,以執(zhí)行字符識(shí)別,由此極大提高字符識(shí)別精度。
注意本發(fā)明既可以適用于由一組裝置(如一個(gè)主機(jī),一個(gè)界面裝置,一個(gè)讀取器,一個(gè)打印機(jī)等等)組成的系統(tǒng),也可適用于由單一裝置(如復(fù)印機(jī),傳真設(shè)備等等)構(gòu)成的設(shè)備。
本發(fā)明的目的還通過提供一種存儲(chǔ)媒介而達(dá)到,該媒介可記錄能實(shí)現(xiàn)上述實(shí)施例中系統(tǒng)或設(shè)備功能的軟件程序的程序代碼,由該系統(tǒng)或設(shè)備的計(jì)算機(jī)(或一個(gè)CPU或MPU)讀取并執(zhí)行存儲(chǔ)在該存儲(chǔ)媒介中的程序代碼。上述流程圖描述的處理步驟,按照該程序代碼,在CPU的控制下得以執(zhí)行。
在這種情況下,從該存儲(chǔ)媒介讀取的程序代碼本身實(shí)現(xiàn)上述實(shí)施例的功能,存儲(chǔ)該程序代碼的存儲(chǔ)媒介包含在本發(fā)明內(nèi)。
作為提供程序代碼的存儲(chǔ)媒介,可以使用軟盤,硬盤,光盤,磁光盤,CD-ROM,CD-R,磁帶,固定存儲(chǔ)卡,ROM等等。
上述實(shí)施例的功能不僅可以通過由計(jì)算機(jī)執(zhí)行所讀取的程序代碼來(lái)實(shí)現(xiàn),也可通過在該程序代碼的指令基礎(chǔ)上,由計(jì)算機(jī)上運(yùn)行的OS(操作系統(tǒng))執(zhí)行的一些或全部實(shí)際的處理操作來(lái)實(shí)現(xiàn)。
此外,上述實(shí)施例的功能可以通過由配置在功能擴(kuò)展板或功能擴(kuò)展元件(這種擴(kuò)展板是插在計(jì)算機(jī)中或與計(jì)算機(jī)相連,在從存儲(chǔ)媒介讀取的程序代碼被寫入該擴(kuò)展板或元件的存儲(chǔ)器中以后)上的CPU等所執(zhí)行的一些或全部實(shí)際的處理操作來(lái)實(shí)現(xiàn)。
很明顯,本發(fā)明可以有很多不同的實(shí)施例,而不與其精神和范圍相分離,應(yīng)當(dāng)理解本發(fā)明包括但不限于所屬權(quán)利要求中所限定的特定實(shí)施例。
權(quán)利要求
1.一種圖像處理設(shè)備,包括轉(zhuǎn)換裝置,用于將輸入圖像轉(zhuǎn)換成預(yù)定格式圖像;確定裝置,用于通過該轉(zhuǎn)換裝置的轉(zhuǎn)換的圖像,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率;識(shí)別裝置,用于在確定裝置的確定結(jié)果的基礎(chǔ)上執(zhí)行輸入圖像的字符識(shí)別;以及輸出裝置,用于輸出該識(shí)別裝置的識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1的設(shè)備,其中該轉(zhuǎn)換裝置將具有一組不同分辨率的圖像轉(zhuǎn)換成輸入圖像。
3.根據(jù)權(quán)利要求1的設(shè)備,其中該預(yù)定格式為FlashPix。
4.根據(jù)權(quán)利要求1的設(shè)備,其中該預(yù)定格式為CIFF。
5.根據(jù)權(quán)利要求1的設(shè)備,其中該確定裝置以不同分辨率為單位執(zhí)行該轉(zhuǎn)換圖像的字符識(shí)別,并在字符識(shí)別結(jié)果的基礎(chǔ)上,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率。
6.根據(jù)權(quán)利要求1的設(shè)備,其中該確定裝置在以從字符識(shí)別結(jié)果得到的識(shí)別字符為單位的平均相關(guān)值的基礎(chǔ)上,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率。
7.根據(jù)權(quán)利要求1的設(shè)備,其中該字符識(shí)別裝置執(zhí)行具有由該確定裝置確定的分辨率的圖像的字符識(shí)別。
8.根據(jù)權(quán)利要求1的設(shè)備,其中該確定裝置按照?qǐng)D像分辨率的升序執(zhí)行字符識(shí)別,并確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率。
9.根據(jù)權(quán)利要求1的設(shè)備,其中該確定裝置按照?qǐng)D像分辨率的降序執(zhí)行字符識(shí)別,并確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率。
10.根據(jù)權(quán)利要求1的設(shè)備,其中該確定裝置在確定從每一字符識(shí)別結(jié)果得到的相應(yīng)識(shí)別字符的一個(gè)平均相關(guān)值為峰值時(shí),停止確定。
11.一種圖像處理方法,包括將輸入圖像轉(zhuǎn)換成預(yù)定格式圖像的轉(zhuǎn)換步驟;確定步驟,通過該轉(zhuǎn)換步驟中所轉(zhuǎn)換的圖像,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的確定步驟;在該確定步驟的確定結(jié)果的基礎(chǔ)上,執(zhí)行輸入圖像的字符識(shí)別的識(shí)別步驟;以及輸出該識(shí)別步驟的識(shí)別結(jié)果的輸出步驟。
12.根據(jù)權(quán)利要求11的方法,其中該轉(zhuǎn)換步驟包括將具有一組不同分辨率的圖像轉(zhuǎn)換成輸入圖像的步驟。
13.根據(jù)權(quán)利要求11的方法,其中該預(yù)定格式為FlashPix。
14.根據(jù)權(quán)利要求11的方法,其中該預(yù)定格式為CIFF。
15.根據(jù)權(quán)利要求11的方法,其中該確定步驟包括以不同分辨率為單位執(zhí)行該轉(zhuǎn)換圖像的字符識(shí)別,并在字符識(shí)別結(jié)果的基礎(chǔ)上,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的步驟。
16.根據(jù)權(quán)利要求11的方法,其中該確定步驟包括在以從字符識(shí)別結(jié)果得到的識(shí)別字符為單位的平均相關(guān)值的基礎(chǔ)上,確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的步驟。
17.根據(jù)權(quán)利要求11的方法,其中該識(shí)別步驟包括執(zhí)行具有由該確定步驟確定的分辨率的圖像的字符識(shí)別步驟。
18.根據(jù)權(quán)利要求11的方法,其中該確定步驟包括按照?qǐng)D像分辨率的升序執(zhí)行字符識(shí)別,并確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的步驟。
19.根據(jù)權(quán)利要求11的方法,其中該確定步驟包括按照?qǐng)D像分辨率的降序執(zhí)行字符識(shí)別,并確定在執(zhí)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的步驟。
20.根據(jù)權(quán)利要求11的方法,其中該確定步驟包括在確定從每一字符識(shí)別結(jié)果得到的相應(yīng)識(shí)別字符的一個(gè)平均相關(guān)值為峰值時(shí),停止確定的步驟。
21.一種計(jì)算機(jī)可讀存儲(chǔ)器,包括將輸入圖像轉(zhuǎn)換成預(yù)定格式圖像的該轉(zhuǎn)換步驟的程序代碼;通過該轉(zhuǎn)換步驟所轉(zhuǎn)換的圖像,確定在進(jìn)行輸入圖像的字符識(shí)別時(shí)所使用的分辨率的該確定步驟的程序代碼;在確定步驟的確定結(jié)果的基礎(chǔ)上,進(jìn)行輸入圖像字符識(shí)別的識(shí)別步驟的程序代碼;以及輸出該識(shí)別步驟的識(shí)別結(jié)果的輸出步驟的程序代碼。
22.一種圖像處理設(shè)備,包括輸入裝置,用于輸入包含一組圖像的文件數(shù)據(jù),這些文件數(shù)據(jù)是基于一個(gè)單一圖像而產(chǎn)生,并具有不同的分辨率;確定裝置,用于通過由該輸入裝置輸入的該組圖像,確定執(zhí)行字符識(shí)別時(shí)所使用的分辨率;以及控制裝置,用于控制把該分辨率作為確定裝置的一個(gè)確定結(jié)果存儲(chǔ)在該文件數(shù)據(jù)中。
23.根據(jù)權(quán)利要求22的設(shè)備,其中該確定裝置通過識(shí)別每一圖像的一個(gè)部分區(qū)域中的字符,確定在執(zhí)行字符識(shí)別時(shí)所使用的分辨率。
24.根據(jù)權(quán)利要求22的設(shè)備,其中該確定裝置通過識(shí)別每一圖像的一個(gè)文本塊中的字符,確定在執(zhí)行字符識(shí)別時(shí)所使用的分辨率。
25.根據(jù)權(quán)利要求22的設(shè)備,其中該確定裝置從包含在該輸入裝置輸入的文件數(shù)據(jù)中的圖像確定在執(zhí)行字符識(shí)別時(shí)所使用的圖像。
26.根據(jù)權(quán)利要求22的設(shè)備,其中該確定裝置以圖像為單位執(zhí)行部分區(qū)域的字符識(shí)別,并在字符識(shí)別結(jié)果的基礎(chǔ)上,確定在執(zhí)行字符識(shí)別時(shí)所使用的分辨率。
27.根據(jù)權(quán)利要求26的設(shè)備,其中當(dāng)該確定裝置確定的字符識(shí)別結(jié)果小于預(yù)定值時(shí),通過執(zhí)行與已經(jīng)完成的字符識(shí)別區(qū)域不同的一個(gè)區(qū)域的字符識(shí)別,確定分辨率。
28.根據(jù)權(quán)利要求22的設(shè)備,還包括圖像讀取裝置,用于從該文件數(shù)據(jù)中讀取由該確定裝置確定的分辨率的圖像;字符識(shí)別裝置,用于執(zhí)行由該圖像讀取裝置讀取的圖像的字符識(shí)別;以及顯示裝置,用于顯示該字符識(shí)別裝置的字符識(shí)別結(jié)果。
29.根據(jù)權(quán)利要求22的設(shè)備,還包括圖像讀取裝置,用于從該文件數(shù)據(jù)中讀取由該確定裝置確定的分辨率的圖像;字符識(shí)別裝置,用于執(zhí)行由該圖像讀取裝置讀取的圖像的字符識(shí)別;以及噴墨打印機(jī),用于記錄該字符識(shí)別裝置的字符識(shí)別結(jié)果。
30.根據(jù)權(quán)利要求22的設(shè)備,還包括圖像讀取裝置,用于從該文件數(shù)據(jù)中讀取由該確定裝置確定的分辨率的圖像;字符識(shí)別裝置,用于執(zhí)行由該圖像讀取裝置讀取的圖像的字符識(shí)別;以及記錄裝置,用于記錄該字符識(shí)別裝置的字符識(shí)別結(jié)果。
31.一種圖像處理方法,包括以下步驟輸入包含一組圖像的文件數(shù)據(jù),這些圖像基于一個(gè)單一圖像而產(chǎn)生,并具有不同的分辨率;以及控制通過該組圖像確定執(zhí)行字符識(shí)別時(shí)所使用的分辨率,和將該分辨率作為一個(gè)確定結(jié)果存儲(chǔ)在文件數(shù)據(jù)中。
32.根據(jù)權(quán)利要求31的方法,其中在執(zhí)行字符識(shí)別時(shí)所使用的分辨率是通過識(shí)別每一圖像的一個(gè)部分區(qū)域中的字符來(lái)確定。
33.根據(jù)權(quán)利要求31的方法,其中在執(zhí)行字符識(shí)別時(shí)所使用的分辨率是通過識(shí)別每一圖像的一個(gè)文本塊中的字符來(lái)確定。
34.根據(jù)權(quán)利要求31的方法,其中在執(zhí)行字符識(shí)別時(shí)所使用的分辨率是從包含在該輸入裝置輸入的文件數(shù)據(jù)中的圖像而確定。
35.根據(jù)權(quán)利要求31的方法,其中一個(gè)部分區(qū)域的字符識(shí)別是以圖像為單位而執(zhí)行的,并在字符識(shí)別結(jié)果的基礎(chǔ)上確定在執(zhí)行字符識(shí)別時(shí)所使用的分辨率。
36.根據(jù)權(quán)利要求35的方法,其中當(dāng)字符識(shí)別結(jié)果小于預(yù)定值時(shí),通過執(zhí)行與已經(jīng)完成的字符識(shí)別區(qū)域不同的一個(gè)區(qū)域的字符識(shí)別,確定分辨率。
37.根據(jù)權(quán)利要求31的方法,還包括以下步驟從文件數(shù)據(jù)讀取具有確定分辨率的圖像,執(zhí)行該讀取圖像的字符識(shí)別;以及顯示字符識(shí)別結(jié)果。
38.根據(jù)權(quán)利要求31的方法,還包括以下步驟從文件數(shù)據(jù)讀取具有確定分辨率的圖像,執(zhí)行該讀取圖像的字符識(shí)別;以及通過噴墨打印機(jī)記錄字符識(shí)別結(jié)果。
39.根據(jù)權(quán)利要求31的方法,還包括以下步驟從文件數(shù)據(jù)讀取具有確定分辨率的圖像,執(zhí)行該讀取圖像的字符識(shí)別;以及記錄字符識(shí)別結(jié)果。
40.一種計(jì)算機(jī)可讀存儲(chǔ)器,包括輸入包含一組圖像的文件數(shù)據(jù)的輸入步驟的程序代碼,這些圖像基于一個(gè)單一圖像而產(chǎn)生,并具有不同的分辨率;通過該輸入步驟輸入的該組圖像,確定進(jìn)行字符識(shí)別時(shí)所使用的分辨率的該確定步驟的程序代碼;以及將該分辨率作為確定步驟的一個(gè)確定結(jié)果存儲(chǔ)在該文件數(shù)據(jù)中的該存儲(chǔ)步驟的程序代碼。
全文摘要
一個(gè)輸入圖像被轉(zhuǎn)換為預(yù)定格式的圖像。一個(gè)最佳字符識(shí)別分辨率確定元件使用該轉(zhuǎn)換圖像確定在執(zhí)行該輸入圖像的字符識(shí)別時(shí)所使用的最佳分辨率。一個(gè)字符識(shí)別電路在該確定結(jié)果的基礎(chǔ)上執(zhí)行字符識(shí)別。一個(gè)輸出裝置輸出該識(shí)別結(jié)果。
文檔編號(hào)G06K9/42GK1241758SQ9910836
公開日2000年1月19日 申請(qǐng)日期1999年6月11日 優(yōu)先權(quán)日1998年6月12日
發(fā)明者金田北洋 申請(qǐng)人:佳能株式會(huì)社