專(zhuān)利名稱(chēng):字形要素判定裝置及字形要素判定方法
技術(shù)領(lǐng)域:
本發(fā)明涉及字形要素判定裝置及字形要素判定方法。
背景技術(shù):
除了例如像JIS標(biāo)準(zhǔn)那樣準(zhǔn)備了預(yù)定字體的文字(漢字)以外,還存在例如使用 者制成點(diǎn)圖形(或位圖)而得到的文字、即所謂的稀用字。稀用字大多用于例如人名和地
-C3 寸。例如,在市鎮(zhèn)村合并中,各市鎮(zhèn)村大多使用不同的稀用字字體。因此,需要能夠?qū)?多個(gè)稀用字合并為1個(gè),例如用1個(gè)常用漢字進(jìn)行代替使用。因此,需要針對(duì)稀用字檢索文字圖形的形狀類(lèi)似的文字。此時(shí),關(guān)注于稀用字的部 首、調(diào)查相同部首的文字的方法是常用方法之一。另外,關(guān)于具有手寫(xiě)文字識(shí)別功能的文字輸入裝置及方法,提出了以下的技術(shù)對(duì) 文字框和構(gòu)成該文字框的預(yù)定數(shù)量的分割區(qū)域進(jìn)行顯示,對(duì)構(gòu)成書(shū)寫(xiě)者在文字框內(nèi)書(shū)寫(xiě)的 手寫(xiě)文字的筆劃的坐標(biāo)序列進(jìn)行檢測(cè)并輸入,根據(jù)所輸入的手寫(xiě)文字的各筆劃的坐標(biāo)序列 判定該筆劃是否跨越文字框內(nèi)的分割區(qū)域,在跨越的情況下,合并相應(yīng)的分割區(qū)域,根據(jù)合 并后的分割區(qū)域,以部首為單位切分上述手寫(xiě)文字,針對(duì)所切分的各部首,參照部首識(shí)別字 典進(jìn)行識(shí)別處理,根據(jù)部首識(shí)別處理的結(jié)果和文字構(gòu)成字典進(jìn)行文字構(gòu)成,取得并輸出手 寫(xiě)文字的識(shí)別結(jié)果。專(zhuān)利文獻(xiàn)1 日本特開(kāi)平11-184971號(hào)公報(bào)例如在針對(duì)稀用字檢索文字圖形的形狀類(lèi)似的文字時(shí),關(guān)注于稀用字的部首,進(jìn) 行基于計(jì)算機(jī)的檢索。但是,使用者需要輸入稀用字的部首本身,從而作業(yè)比較麻煩。另外, 例如,在市鎮(zhèn)村合并的規(guī)模較大的情況下,有時(shí)稀用字達(dá)到幾千個(gè)字。在該情況下,進(jìn)行輸 入所需的使用者負(fù)擔(dān)非常大。并且,在通過(guò)使用鉛字OCR(光學(xué)式文字讀取裝置)檢索類(lèi)似 文字的情況下,鉛字OCR只是判斷文字整體的形狀是否類(lèi)似,不能根據(jù)部首檢索文字(稀用 字)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠判定文字的部首及部首以外的構(gòu)成部分的字形 要素判定裝置。所公開(kāi)的字形要素判定裝置具有輪廓圖形存儲(chǔ)部、定量數(shù)據(jù)生成部、定量數(shù)據(jù)存 儲(chǔ)部、部首配置模式分析部、轉(zhuǎn)換部、部首/部分點(diǎn)圖形存儲(chǔ)部以及部首/部分識(shí)別部。輪 廓圖形存儲(chǔ)部對(duì)表示判定對(duì)象文字的輪廓的輪廓圖形進(jìn)行存儲(chǔ)。定量數(shù)據(jù)生成部針對(duì)存儲(chǔ) 在輪廓圖形存儲(chǔ)部中的輪廓圖形,根據(jù)輪廓圖形的坐標(biāo),生成定量數(shù)據(jù),該定量數(shù)據(jù)包含包 圍輪廓圖形的矩形的大小和矩形的中心坐標(biāo)。定量數(shù)據(jù)存儲(chǔ)部存儲(chǔ)針對(duì)輪廓圖形生成的定 量數(shù)據(jù)。部首配置模式分析部根據(jù)存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部中的定量數(shù)據(jù),確定判定對(duì)象文 字中的部首及部首以外的構(gòu)成部分的配置模式,根據(jù)配置模式,將輪廓圖形分為包含作為部首的輪廓圖形的第1組和包含作為部首以外的構(gòu)成部分的輪廓圖形的第2組。轉(zhuǎn)換部將 存儲(chǔ)在輪廓圖形存儲(chǔ)部中的第1組的輪廓圖形轉(zhuǎn)換為第1點(diǎn)圖形,將存儲(chǔ)在輪廓圖形存儲(chǔ) 部中的第2組的輪廓圖形轉(zhuǎn)換為第2點(diǎn)圖形。部首/部分點(diǎn)圖形存儲(chǔ)部存儲(chǔ)第1點(diǎn)圖形和 第2點(diǎn)圖形。部首/部分識(shí)別部根據(jù)與存儲(chǔ)在點(diǎn)圖形存儲(chǔ)部中的第1點(diǎn)圖形相關(guān)的OCR識(shí) 別判定部首,根據(jù)與存儲(chǔ)在點(diǎn)圖形存儲(chǔ)部中的第2點(diǎn)圖形相關(guān)的OCR識(shí)別判定部首以外的 構(gòu)成部分。根據(jù)所公開(kāi)的字形要素判定裝置,能夠針對(duì)判定對(duì)象文字,判定文字的字形要素, 換言之,判定部首及部首以外的構(gòu)成部分。由此,即使在例如存在幾千個(gè)稀用字的情況下, 也能夠判定其字形要素,高效地生成字形要素的字典,能夠高效地進(jìn)行文字的檢索、識(shí)別作 業(yè)。
圖1是示出所公開(kāi)的字形要素判定裝置的結(jié)構(gòu)的圖。圖2是示出點(diǎn)圖形、輪廓圖形以及定量數(shù)據(jù)的一例的圖。圖3是示出部首/部分點(diǎn)圖形以及字形要素信息的一例的圖。圖4是示出字形要素分析的一例的圖。圖5是示出文字代碼的一例的圖。圖6是示出字形要素判定的處理流程的圖。圖7是示出字形要素分析的處理流程的圖。圖8是示出字形要素分析的處理流程的圖。圖9是示出部首配置模式判定的處理流程的圖。圖10是示出部首配置模式判定的處理流程的圖。圖11是示出字形要素判定結(jié)果的一例的圖。圖12是示出字形要素判定結(jié)果的一例的圖。圖13是示出字形要素判定結(jié)果的一例的圖。圖14是示出字形要素判定結(jié)果的一例的圖。標(biāo)號(hào)說(shuō)明1字形要素判定裝置;2稀用字文件;3字形要素?cái)?shù)據(jù)庫(kù);11點(diǎn)圖形生成部;12點(diǎn) 圖形存儲(chǔ)部;13字形要素分析部;14輪廓圖形存儲(chǔ)部;15定量數(shù)據(jù)存儲(chǔ)部;16部首分析字 典;17部首/部分點(diǎn)圖形存儲(chǔ)部;18部首識(shí)別字典;19部分識(shí)別字典;131輪廓提取部;132 定量數(shù)據(jù)生成部;133部首配置模式分析部;134部首/部分光柵化部;135部首/部分識(shí)別 部;136字形要素存儲(chǔ)部。
具體實(shí)施例方式圖1是示出所公開(kāi)的字形要素判定裝置1的結(jié)構(gòu)的圖。字形要素判定裝置1針對(duì)所輸入的文字?jǐn)?shù)據(jù),進(jìn)行判定文字的字形要素的形狀 (以下,稱(chēng)為字形要素判定)的處理,并將該判定結(jié)果作為字形要素信息,存儲(chǔ)到字形要素 數(shù)據(jù)庫(kù)3中。所輸入的文字?jǐn)?shù)據(jù)例如是從稀用字文件2輸入的稀用字?jǐn)?shù)據(jù)。文字的字形要 素是部首、和部首以外的構(gòu)成部分。所謂字形,是指文字整體的形狀、部首的形狀、部首以外的構(gòu)成部分的形狀。所謂部首,是指字旁、字邊、字頭等。部首以外的構(gòu)成部分是部首以外 的文字構(gòu)成要素,是從該文字去除該文字的部首后的部分。字形要素信息是針對(duì)包含在1 個(gè)文字的文字?jǐn)?shù)據(jù)中的各個(gè)字形要素,表示該字形要素的信息,如后所述,例如是包含文字 代碼、配置代碼等的信息。字形要素判定裝置1具有稀用字文件2和字形要素?cái)?shù)據(jù)庫(kù)3。稀用字文件2存儲(chǔ) 多個(gè)稀用字的稀用字?jǐn)?shù)據(jù)。稀用字?jǐn)?shù)據(jù)例如是用點(diǎn)圖形表示該稀用字的數(shù)據(jù)。點(diǎn)圖形是針 對(duì)文字顯示區(qū)域中的每個(gè)像素賦予白(=0)或黑(=1)的值來(lái)用黑色圖形表現(xiàn)該文字的 數(shù)據(jù)。字形要素?cái)?shù)據(jù)庫(kù)3是存儲(chǔ)與包含在1個(gè)文字的文字?jǐn)?shù)據(jù)中的各個(gè)字形要素相關(guān)的字 形要素信息的數(shù)據(jù)庫(kù)。字形要素判定裝置1具有點(diǎn)圖形生成部11、點(diǎn)圖形存儲(chǔ)部12、字形要素分析部13、 輪廓圖形存儲(chǔ)部14、定量數(shù)據(jù)存儲(chǔ)部15、部首分析字典16、部首/部分點(diǎn)圖形存儲(chǔ)部17、部 首識(shí)別字典18以及部分識(shí)別字典19。字形要素分析部13還具有輪廓提取部131、定量數(shù) 據(jù)生成部132、部首配置模式分析部133、部首/部分光柵化部134、部首/部分識(shí)別部135 以及字形要素存儲(chǔ)部136。如圖2 (A)所示,點(diǎn)圖形生成部11從稀用字文件2讀入1個(gè)文字的稀用字?jǐn)?shù)據(jù)21, 并且在所讀入的1個(gè)文字的稀用字?jǐn)?shù)據(jù)21是點(diǎn)圖形的情況下,將稀用字?jǐn)?shù)據(jù)21作為點(diǎn)圖 形121存儲(chǔ)到點(diǎn)圖形存儲(chǔ)部12中。在所讀入的1個(gè)文字的稀用字?jǐn)?shù)據(jù)不是點(diǎn)圖形的情況 下,點(diǎn)圖形生成部11將稀用字?jǐn)?shù)據(jù)21轉(zhuǎn)換為點(diǎn)圖形121而生成點(diǎn)圖形121并存儲(chǔ)到點(diǎn)圖 形存儲(chǔ)部12中。點(diǎn)圖形存儲(chǔ)部12是存儲(chǔ)1個(gè)文字的稀用字的點(diǎn)圖形121的存儲(chǔ)器。存儲(chǔ)在點(diǎn)圖 形存儲(chǔ)部12中的點(diǎn)圖形121、換言之即由點(diǎn)圖形生成部11讀入的1個(gè)文字的稀用字?jǐn)?shù)據(jù) 21是判定對(duì)象文字。輪廓提取部131從點(diǎn)圖形存儲(chǔ)部12讀出點(diǎn)圖形121,提取與所讀出的點(diǎn)圖形121 相關(guān)的輪廓圖形。由此提取出表示判定對(duì)象文字的輪廓的輪廓圖形。輪廓提取部131將所 提取的輪廓圖形作為輪廓圖形141存儲(chǔ)到輪廓圖形存儲(chǔ)部14中。輪廓圖形存儲(chǔ)部14對(duì)表示判定對(duì)象文字的輪廓的輪廓圖形141進(jìn)行存儲(chǔ)。圖2 (B) 示出輪廓圖形141的一例。如圖2(B)所示,輪廓圖形141是針對(duì)每1個(gè)輪廓進(jìn)行提取的,針對(duì)每1個(gè)文字例 如提取多個(gè)輪廓。各個(gè)輪廓圖形141包含輪廓編號(hào)、輪廓數(shù)以及多個(gè)輪廓的坐標(biāo)數(shù)據(jù)。輪 廓編號(hào)是由輪廓提取部131針對(duì)每個(gè)輪廓圖形141唯一地確定的識(shí)別編號(hào)。輪廓數(shù)是由輪 廓提取部131提取的輪廓的數(shù)量。輪廓的坐標(biāo)數(shù)據(jù)是預(yù)定坐標(biāo)內(nèi)的輪廓的坐標(biāo)數(shù)據(jù)。例如在點(diǎn)圖形121中,對(duì)值即將從“1”變化到“0”之前的值“1”的像素即點(diǎn)(邊 緣)進(jìn)行檢測(cè),將該檢測(cè)到的連續(xù)的點(diǎn)的集合設(shè)為1個(gè)輪廓,由此提取輪廓的坐標(biāo)數(shù)據(jù)。換 言之,輪廓的邊緣是連續(xù)的。由此,針對(duì)1個(gè)判定對(duì)象文字(稀用字)提取出2個(gè)以上的輪 廓的坐標(biāo)數(shù)據(jù)。所提取的多個(gè)輪廓的坐標(biāo)數(shù)據(jù)的數(shù)量為輪廓數(shù),對(duì)所提取的多個(gè)輪廓的各 個(gè)坐標(biāo)數(shù)據(jù)賦予輪廓編號(hào)。例如,在圖4(A)中,文字“字”的輪廓為2個(gè),輪廓數(shù)為“2”。另外,對(duì)2個(gè)輪廓分 別賦予輪廓編號(hào)。如圖4(B)所示,例如對(duì)與矩形#1對(duì)應(yīng)的輪廓(的部分)賦予輪廓 編號(hào)=1,對(duì)與矩形#2對(duì)應(yīng)的輪廓(“子”的部分)賦予輪廓編號(hào)=2。并且,與矩形#1對(duì)應(yīng)的輪廓(的部分)為部首,與矩形#2對(duì)應(yīng)的輪廓(“子”的部分)為部首以外的構(gòu) 成部分。針對(duì)輪廓編號(hào)=1的輪廓,將輪廓編號(hào)、輪廓數(shù)以及與矩形#1對(duì)應(yīng)的輪廓(“ + ” 的部分)的坐標(biāo)數(shù)據(jù)存儲(chǔ)為與文字“字”相關(guān)的第1輪廓圖形141。針對(duì)輪廓編號(hào)=2的輪 廓,將輪廓編號(hào)、輪廓數(shù)以及與矩形#2對(duì)應(yīng)的輪廓(“子”的部分)的坐標(biāo)數(shù)據(jù)存儲(chǔ)為與文 字“字”相關(guān)的第2輪廓圖形141。定量數(shù)據(jù)生成部132針對(duì)存儲(chǔ)在輪廓圖形存儲(chǔ)部14中的輪廓圖形141,根據(jù)輪廓 圖形141的輪廓的坐標(biāo)數(shù)據(jù),求出包圍輪廓圖形141的矩形,并進(jìn)一步求出矩形大小以及矩 形中心坐標(biāo)。由此,定量數(shù)據(jù)生成部132生成包含矩形大小和矩形中心坐標(biāo)的定量數(shù)據(jù)。定 量數(shù)據(jù)生成部132將所生成的定量數(shù)據(jù)作為定量數(shù)據(jù)151存儲(chǔ)到定量數(shù)據(jù)存儲(chǔ)部15中。定量數(shù)據(jù)存儲(chǔ)部15存儲(chǔ)針對(duì)輪廓圖形141所生成的定量數(shù)據(jù)151。換言之,針對(duì) 1個(gè)輪廓圖形141生成1個(gè)定量數(shù)據(jù)151。圖2(C)示出定量數(shù)據(jù)151的一例。如圖2(C)所示,定量數(shù)據(jù)151包含輪廓編號(hào)、包圍輪廓的矩形坐標(biāo)、矩形的中心坐 標(biāo)、矩形的大小(面積)、部首標(biāo)志以及母輪廓編號(hào)。部首標(biāo)志有時(shí)包含配置代碼。輪廓編 號(hào)INT是對(duì)應(yīng)的矩形的輪廓圖形141的輪廓編號(hào)。包圍輪廓的矩形坐標(biāo)RECT是矩形的對(duì) 角線上的2點(diǎn)的矩形坐標(biāo)數(shù)據(jù)。矩形的中心坐標(biāo)POINT是表示矩形中心的坐標(biāo)數(shù)據(jù)。矩形 的大小(面積)INT2是根據(jù)矩形的坐標(biāo)數(shù)據(jù)確定的面積。如后所述,矩形的大小被設(shè)為如 1(面積最小的值) 9(面積最大的值)那樣的相對(duì)值。部首標(biāo)志BOOL在對(duì)應(yīng)的輪廓編號(hào) 的輪廓圖形141被判定為部首的情況下設(shè)為ON(或“1”),在不是部首的情況下設(shè)為OFF(或 “0”)。配置代碼是唯一地確定部首配置模式的代碼,在部首標(biāo)志BOOL為ON的情況下被存 儲(chǔ),在部首標(biāo)志BOOL為OFF的情況下不存儲(chǔ)。母輪廓編號(hào)INT3將在后文詳細(xì)敘述,針對(duì)其 他包含在輪廓中的小輪廓,將包含該小輪廓的大輪廓的輪廓編號(hào)賦予為小輪廓的上位的輪 廓編號(hào),換言之,賦予為母輪廓編號(hào)。按照下述方式求出矩形坐標(biāo)RECT。如圖4(B)所示,輪廓圖形141的輪廓的坐標(biāo)數(shù) 據(jù)是由相對(duì)于原點(diǎn)O的X坐標(biāo)和Y坐標(biāo)確定的。在該情況下,從輪廓圖形141的輪廓坐標(biāo) 數(shù)據(jù)中提取X坐標(biāo)的最大值XI、X坐標(biāo)的最小值X2、Y坐標(biāo)的最大值Yl以及Y坐標(biāo)的最小 值Y2。由此,求出以坐標(biāo)(XI,Yl)、坐標(biāo)(X1,Y2)、坐標(biāo)(Χ2,Υ1)、坐標(biāo)(Χ2,Υ2)為頂點(diǎn)的矩形。矩形的中心坐標(biāo)POINT例如作為矩形的對(duì)角線的交點(diǎn)坐標(biāo)而求出。矩形的大小是 通過(guò)使用4個(gè)頂點(diǎn)而求出的。部首標(biāo)志B00L、配置代碼以及母輪廓編號(hào)INT3由部首配置模式分析部133求出。 由此,在由定量數(shù)據(jù)生成部132存儲(chǔ)到定量數(shù)據(jù)存儲(chǔ)部15中時(shí)的定量數(shù)據(jù)151中,部首標(biāo) 志B00L、配置代碼以及母輪廓編號(hào)INT3被設(shè)為“空”。部首配置模式分析部133判定部首的配置模式,換言之,判定“字旁”、“字邊”等部 首的種類(lèi)。為此,部首配置模式分析部133使用存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部15中的定量數(shù)據(jù) 151、和部首分析字典16。部首配置模式分析部133在判定為判定對(duì)象字形(輪廓圖形141) 是部首的情況下,求出部首的配置模式,將定量數(shù)據(jù)151的部首標(biāo)志設(shè)為0N。另一方面,部 首配置模式分析部133在判定為不是部首的情況下,將定量數(shù)據(jù)151的部首標(biāo)志設(shè)為OFF。部首的配置模式是由唯一確定該配置模式的配置代碼表示的。因此,求出配置模式就是確定配置模式的配置代碼。所確定的配置代碼被存儲(chǔ)為定量數(shù)據(jù)151的配置代碼。 對(duì)于被判定為不是部首的輪廓圖形,不存儲(chǔ)定量數(shù)據(jù)151的配置代碼。關(guān)于配置代碼,例如 將“沒(méi)有部首”設(shè)為“0 ”,將“字旁”設(shè)為“ 1 ”,將“字邊”設(shè)為“ 2 ”,將“字頭”設(shè)為“ 3 ”,將“字 底”設(shè)為“4”,將“廣字頭或病字頭”設(shè)為“5”,將“建之旁或走之底或走字旁”設(shè)為“6”,將 “字框”設(shè)為“7”。具體而言,部首配置模式分析部133根據(jù)存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部15中的定量數(shù)據(jù) 151,確定判定對(duì)象文字中的部首及部首以外的構(gòu)成部分的配置模式。然后,部首配置模式 分析部133根據(jù)所確定的配置模式,將輪廓圖形141分為部首的組(第1組)和部首以外 的構(gòu)成部分的組(第2組),其中,該部首的組(第1組)包含作為部首的輪廓圖形141,該 部首以外的構(gòu)成部分的組(第2組)包含作為部首以外的構(gòu)成部分的輪廓圖形141。為此,部首配置模式分析部133具有部首分析字典16。部首分析字典16存儲(chǔ)每個(gè) 部首的定量數(shù)據(jù)151。部首配置模式分析部133根據(jù)存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部15中的定量數(shù) 據(jù)151參照部首分析字典16,由此確定判定對(duì)象文字中的部首的配置模式。然后,部首配置 模式分析部133根據(jù)所確定的配置模式,確定作為判定對(duì)象文字中的部首的輪廓圖形141。部首配置模式分析部133為了根據(jù)定量數(shù)據(jù)151參照部首分析字典16,使用陣列 及陣列結(jié)構(gòu)體。作為陣列,使用重疊1個(gè)以上的二維陣列而得到的三維陣列,其中,該二維 陣列是如圖4(B)的右側(cè)所示在縱向和橫向上將文字顯示區(qū)域3等分而得到的。關(guān)于陣列 結(jié)構(gòu)體,在陣列中,在與矩形的中心坐標(biāo)對(duì)應(yīng)的分割區(qū)域中存儲(chǔ)該矩形的中心坐標(biāo)及矩形 的大小。所謂重疊二維陣列,換言之,是指在二維陣列中允許在1個(gè)分割區(qū)域中存儲(chǔ)多個(gè)矩 形的中心坐標(biāo)及矩形的大小。針對(duì)1個(gè)文字,生成1個(gè)三維陣列結(jié)構(gòu)體。三維陣列結(jié)構(gòu)體是重疊1個(gè)以上的二 維陣列結(jié)構(gòu)體而得到的,關(guān)于該二維陣列結(jié)構(gòu)體,是在二維陣列中,在與矩形的中心坐標(biāo)對(duì) 應(yīng)的分割區(qū)域中存儲(chǔ)該矩形的中心坐標(biāo)及矩形的大小。并且,針對(duì)1個(gè)文字的定量數(shù)據(jù)存 儲(chǔ)部15實(shí)際上包含1個(gè)三維陣列結(jié)構(gòu)體、和針對(duì)每個(gè)輪廓生成的多個(gè)定量數(shù)據(jù)151。如圖4⑶所示,陣列包含9個(gè)分割區(qū)域a i。通過(guò)將文字顯示區(qū)域在縱向和橫 向上3等分,能夠在上段a c,中段d f,下段g i,左段a、d及g,中段b、e及h,右段 c、f及i中,確定各自的中央。由此,能夠準(zhǔn)確地確定部首的配置模式。分割區(qū)域b位于上 段中心,分割區(qū)域d位于左段中心,分割區(qū)域e位于全體即各段的中心,分割區(qū)域f位于右 段中心,分割區(qū)域h位于下段中心。部首配置模式分析部133在陣列中,將輪廓圖形141的矩形的中心坐標(biāo)和與該矩 形的中心坐標(biāo)對(duì)應(yīng)的區(qū)域?qū)?yīng)起來(lái),提取輪廓圖形141的矩形的中心坐標(biāo)的位置關(guān)系,由 此確定部首及部首以外的構(gòu)成部分的配置模式。另外,部首配置模式分析部133將輪廓圖 形141的矩形與將文字顯示區(qū)域分割為多個(gè)分割區(qū)域而得到的陣列重疊,提取輪廓圖形 141的矩形的位置及大小的關(guān)系,由此確定部首及部首以外的構(gòu)成部分的配置模式。例如,如圖4(B)中斜線所示,針對(duì)文字“字”,“ ”部分的輪廓圖形141的矩形#1 與陣列重疊。此外,如圖4(B)中粗網(wǎng)格所示,針對(duì)文字“字”,“子”部分的輪廓圖形141的 矩形#2與陣列重疊。部分的輪廓圖形141的矩形與“子”部分的輪廓圖形141的矩形 相互重疊?!?”部分的輪廓圖形141的矩形#1的中心坐標(biāo)#1位于與分割區(qū)域b對(duì)應(yīng)的位
8置。因此,在陣列的分割區(qū)域b中存儲(chǔ)中心坐標(biāo)#1及其面積(例如“3”)。“子”部分的輪 廓圖形141的矩形#2的中心坐標(biāo)#2位于與分割區(qū)域e對(duì)應(yīng)的位置上。由此,在陣列的分 割區(qū)域e中存儲(chǔ)中心坐標(biāo)#2及其面積(例如“6”)。例如,對(duì)使根據(jù)矩形的坐標(biāo)數(shù)據(jù)求出的面積除以陣列中的1個(gè)分割區(qū)域的面積而 得到的值進(jìn)行四舍五入,由此求出矩形的面積。由此,矩形的大小被設(shè)為如1(面積最小的 值) 9 (面積最大的值)那樣的相對(duì)值。如上所述,在陣列上生成判定對(duì)象文字的配置模式,作為陣列結(jié)構(gòu)體。部首配置模 式分析部133將判定對(duì)象文字的陣列結(jié)構(gòu)體與部首分析字典16進(jìn)行對(duì)照,由此針對(duì)判定對(duì) 象文字,確定“字旁”、“字邊”等部首的配置模式。因此,部首分析字典16是用于針對(duì)陣列結(jié) 構(gòu)體進(jìn)行分析的字典,并確定該分析處理。關(guān)于部首分析字典16及配置模式的確定處理, 將參照?qǐng)D9 圖14在后文敘述。部首/部分光柵化部134是進(jìn)行輪廓的光柵化(再次的點(diǎn)圖形化)的轉(zhuǎn)換部。部 首/部分光柵化部134根據(jù)輪廓圖形141和定量數(shù)據(jù)151,對(duì)部首或部首以外的構(gòu)成部分進(jìn) 行點(diǎn)圖形化(光柵化),生成點(diǎn)圖形171。例如,部首/部分光柵化部134針對(duì)存儲(chǔ)在輪廓圖形存儲(chǔ)部14中的輪廓圖形141, 參照存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部15中的同一輪廓編號(hào)的定量數(shù)據(jù)151。在定量數(shù)據(jù)151中,在 部首標(biāo)志BOOL為“ 1”的情況下,該輪廓圖形141為部首的輪廓圖形,換言之,為部首的組 的輪廓圖形141。在該情況下,部首/部分光柵化部134將存儲(chǔ)在輪廓圖形存儲(chǔ)部14中的 (部首的組的)輪廓圖形141轉(zhuǎn)換為第1點(diǎn)圖形。第1點(diǎn)圖形為部首的點(diǎn)圖形。另一方面,在定量數(shù)據(jù)151中,在部首標(biāo)志BOOL為“0”的情況下,該輪廓圖形141 為部首以外的構(gòu)成部分的輪廓圖形,換言之,為部首以外的構(gòu)成部分的組的輪廓圖形141。 在該情況下,部首/部分光柵化部134將存儲(chǔ)在輪廓圖形存儲(chǔ)部14中的(部首以外的構(gòu)成 部分的組的)輪廓圖形141轉(zhuǎn)換為第2點(diǎn)圖形。第2點(diǎn)圖形為部首以外的構(gòu)成部分的點(diǎn)圖 形。第1點(diǎn)圖形和第2點(diǎn)圖形被存儲(chǔ)在部首/部分點(diǎn)圖形存儲(chǔ)部17中。圖3 (A)示出 點(diǎn)圖形171的一例。如圖3㈧所示,多個(gè)點(diǎn)圖形171分別包含輪廓編號(hào)、部首標(biāo)志、配置代碼以及比特 圖形。輪廓編號(hào)是輪廓圖形141的輪廓編號(hào)。部首標(biāo)志是由部首配置模式分析部133確定 的、定量數(shù)據(jù)151中的部首標(biāo)志B00L。配置代碼是由部首配置模式分析部133確定的、定量 數(shù)據(jù)151中的表示配置模式的配置代碼。比特圖形是由部首/部分光柵化部134進(jìn)行點(diǎn)圖 形化后的數(shù)據(jù)。部首/部分識(shí)別部135根據(jù)與存儲(chǔ)在部首/部分點(diǎn)圖形存儲(chǔ)部17中的第1點(diǎn)圖 形171相關(guān)的OCR識(shí)別,判定部首。此外,部首/部分識(shí)別部135根據(jù)與存儲(chǔ)在部首/部分 點(diǎn)圖形存儲(chǔ)部17中的第2點(diǎn)圖形171相關(guān)的OCR識(shí)別,判定部首以外的構(gòu)成部分。為此,部首/部分識(shí)別部135具有部首識(shí)別字典18和部分識(shí)別字典19。部首識(shí) 別字典18存儲(chǔ)每個(gè)部首的點(diǎn)圖形。部分識(shí)別字典19存儲(chǔ)每個(gè)部首以外的構(gòu)成部分的點(diǎn)圖 形。部首/部分識(shí)別部135根據(jù)與第1點(diǎn)圖形相關(guān)的OCR識(shí)別參照部首識(shí)別字典18, 由此判定部首。例如,對(duì)與第1點(diǎn)圖形相關(guān)的OCR識(shí)別結(jié)果、和存儲(chǔ)在部首識(shí)別字典18中的部首的點(diǎn)圖形進(jìn)行比較,在一致率為預(yù)定值以上的情況下,判定為第1點(diǎn)圖形是該部首。 部首/部分識(shí)別部135根據(jù)該判定結(jié)果,從部首識(shí)別字典18得到與該部首對(duì)應(yīng)的部首文字 代碼,存儲(chǔ)到字形要素存儲(chǔ)部136中。部首/部分識(shí)別部135根據(jù)與第2點(diǎn)圖形相關(guān)的OCR識(shí)別參照部分識(shí)別字典19, 由此判定部首以外的構(gòu)成部分。例如,對(duì)與第2點(diǎn)圖形相關(guān)的OCR識(shí)別結(jié)果、和存儲(chǔ)在部分 識(shí)別字典19中的部首以外的構(gòu)成部分的點(diǎn)圖形進(jìn)行比較,在一致率為預(yù)定值以上的情況 下,判定為第2點(diǎn)圖形是該部首以外的構(gòu)成部分。部首/部分識(shí)別部135根據(jù)該判定結(jié)果, 從部分識(shí)別字典19得到與該部首以外的構(gòu)成部分對(duì)應(yīng)的部分文字代碼,并存儲(chǔ)到字形要 素存儲(chǔ)部136中。例如,如圖5(A)所示,在文字“字”中,在關(guān)注于部首“ ”的部分時(shí),通過(guò)針對(duì)矩形 91 (矩形#1)進(jìn)行光柵化,生成包含點(diǎn)圖形171的矩形92,矩形91包含部首“ ”的部分的 輪廓圖形141。通過(guò)針對(duì)矩形92進(jìn)行OCR識(shí)別,可得到部首“ ”的部首文字代碼。例如,如圖5(B)所示,在文字“字”中,在關(guān)注于部首以外的部分“子”的部分時(shí), 通過(guò)針對(duì)矩形93 (矩形#2)進(jìn)行光柵化,生成包含點(diǎn)圖形171的矩形94,矩形93包含部首 以外的部分“子”部分的輪廓圖形141。通過(guò)針對(duì)矩形94進(jìn)行OCR識(shí)別,可得到部首以外的 部分“子”的部分文字代碼。如上所述,部首/部分識(shí)別部135將字形要素信息存儲(chǔ)到字形要素存儲(chǔ)部136中。 部首/部分識(shí)別部135(或字形要素分析部13)將字形要素信息輸出到字形要素?cái)?shù)據(jù)庫(kù)3。 圖3(B)示出字形要素信息31的一例。如圖3(B)所示,字形要素信息31包含文字代碼WCHAR、配置代碼INT4、部首文字 代碼WCHAR2以及部分文字代碼WCHAR3。文字代碼WCHAR是按照每個(gè)文字(稀用字)唯一 確定的識(shí)別信息。配置代碼INT4是按照每個(gè)“字旁”、“字邊”等部首的配置(部首的種類(lèi)) 唯一確定的識(shí)別信息,是存儲(chǔ)在點(diǎn)圖形171中的配置代碼。部首文字代碼WCHAR2是按照每 個(gè)“人字旁”、“三點(diǎn)水”等的部首唯一確定的識(shí)別信息。部分文字代碼WCHAR3是按照每個(gè) 部首以外的構(gòu)成部分唯一確定的識(shí)別信息。圖6是示出字形要素判定的處理流程的圖。字形要素判定裝置1的點(diǎn)圖形生成部11從稀用字文件2讀入1個(gè)文字的稀用字 數(shù)據(jù)(步驟Si)。點(diǎn)圖形生成部11在所讀入的1個(gè)文字的稀用字?jǐn)?shù)據(jù)不是點(diǎn)圖形121的情 況下,將所讀入的1個(gè)文字的稀用字?jǐn)?shù)據(jù)轉(zhuǎn)換為點(diǎn)圖形121 (步驟S》。然后,點(diǎn)圖形生成 部11將所讀入的1個(gè)文字的稀用字的點(diǎn)圖形121或轉(zhuǎn)換后的點(diǎn)圖形121存儲(chǔ)到點(diǎn)圖形存 儲(chǔ)部12中。接著,字形要素分析部13根據(jù)存儲(chǔ)在點(diǎn)圖形存儲(chǔ)部12中的稀用字的點(diǎn)圖形121, 進(jìn)行字形要素分析的處理(步驟S3)。關(guān)于字形要素分析處理,將參照?qǐng)D7和圖8在后面敘 述。在1個(gè)文字的稀用字?jǐn)?shù)據(jù)的字形要素分析處理后,字形要素分析部13將該1個(gè)文 字的字形要素信息作為字形要素判定結(jié)果輸出到字形要素?cái)?shù)據(jù)庫(kù)3 (步驟S4)。然后,點(diǎn)圖形生成部11判定是否對(duì)存儲(chǔ)在稀用字文件2中的所有稀用字?jǐn)?shù)據(jù)進(jìn)行 了處理,在判斷為存在未處理的文字的情況下(步驟S5否),執(zhí)行步驟Si。另一方面,在判 斷為對(duì)從稀用字文件2輸入的數(shù)據(jù)的所有文字進(jìn)行了處理的情況下(步驟S5是),點(diǎn)圖形生成部11結(jié)束處理。圖7和圖8是示出字形要素分析的處理流程的圖。字形要素分析部13的輪廓提取部131針對(duì)存儲(chǔ)在點(diǎn)圖形存儲(chǔ)部12中的稀用字的 點(diǎn)圖形121,進(jìn)行輪廓提取處理(步驟Sll)。換言之,輪廓提取部131根據(jù)所提取的輪廓生 成輪廓圖形141,將所生成的輪廓圖形141存儲(chǔ)到輪廓圖形存儲(chǔ)部14中。然后,輪廓提取部131判定是否處理了存儲(chǔ)在點(diǎn)圖形存儲(chǔ)部12中的稀用字的點(diǎn)圖 形121的所有輪廓(步驟S12)。在判斷為未處理所有輪廓的情況下(步驟S12否),定量數(shù)據(jù)生成部132根據(jù)存儲(chǔ) 在輪廓圖形存儲(chǔ)部14中的輪廓圖形141,求出輪廓矩形(包圍矩形的輪廓)(步驟Si; )。并 且,定量數(shù)據(jù)生成部132根據(jù)所求出的輪廓矩形,求出該輪廓矩形的中心坐標(biāo)(步驟S14)。 并且,定量數(shù)據(jù)生成部132還求出矩形的大小(面積),生成包含輪廓矩形的中心坐標(biāo)、矩形 面積的定量數(shù)據(jù)151。然后,定量數(shù)據(jù)生成部132在以例如縱3X橫3X深度為要素的三維陣列中,在存 在所求出的矩形的中心坐標(biāo)的位置(的結(jié)構(gòu)體)上存儲(chǔ)該矩形的中心坐標(biāo)、矩形的大小而 生成三維陣列結(jié)構(gòu)體(步驟S15),然后,執(zhí)行步驟S12。另一方面,在步驟S12中判斷為對(duì)所有輪廓進(jìn)行了處理的情況下(步驟S12是), 部首配置模式分析部133根據(jù)存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部15中的定量數(shù)據(jù)151和部首分析字 典16,進(jìn)行部首配置模式的判定處理(步驟S16)。然后,部首配置模式分析部133將部首 配置模式的判定處理結(jié)果存儲(chǔ)到定量數(shù)據(jù)存儲(chǔ)部15中。例如,部首配置模式分析部133在判定為判定對(duì)象輪廓圖形141是部首的情況下, 求出配置模式的配置代碼,將部首標(biāo)志設(shè)為ON。另一方面,在判定為判定對(duì)象輪廓圖形141 不是部首的情況下,部首配置模式分析部133將部首標(biāo)志設(shè)為OFF。部首標(biāo)志被設(shè)定為定量 數(shù)據(jù)存儲(chǔ)部15的定量數(shù)據(jù)151的部首標(biāo)志。所求出的配置模式的配置代碼被設(shè)定為定量 數(shù)據(jù)存儲(chǔ)部15的定量數(shù)據(jù)151的配置代碼。關(guān)于部首配置模式的判定處理,將參照?qǐng)D9和 圖10在后文敘述。然后,部首/部分光柵化部134對(duì)包含在定量數(shù)據(jù)151的部首標(biāo)志為ON的輪廓圖 形141中的輪廓進(jìn)行光柵化(點(diǎn)圖形化)(步驟S17),將部首的點(diǎn)圖形171存儲(chǔ)到部首/部 分點(diǎn)圖形存儲(chǔ)部17中。然后,部首/部分識(shí)別部135針對(duì)存儲(chǔ)在部首/部分點(diǎn)圖形存儲(chǔ)部 17中的、部首標(biāo)志為ON的點(diǎn)圖形171,根據(jù)部首識(shí)別字典18,進(jìn)行部首的識(shí)別(步驟S18)。 部首/部分識(shí)別部135將部首的識(shí)別結(jié)果存儲(chǔ)到存儲(chǔ)器中(步驟S19)。接著,部首/部分光柵化部134對(duì)包含在部首標(biāo)志為0FF(部首以外的構(gòu)成部分) 的輪廓圖形141中的輪廓進(jìn)行光柵化(步驟S110),將部首以外的構(gòu)成部分的點(diǎn)圖形171存 儲(chǔ)到部首/部分點(diǎn)圖形存儲(chǔ)部17中。然后,部首/部分識(shí)別部135針對(duì)存儲(chǔ)在部首/部分 點(diǎn)圖形存儲(chǔ)部17中的、部首標(biāo)志為OFF的點(diǎn)圖形171,根據(jù)部分識(shí)別字典19,進(jìn)行部首以外 的構(gòu)成部分的識(shí)別(步驟S111)。部首/部分識(shí)別部135將部首以外的構(gòu)成部分的識(shí)別結(jié) 果存儲(chǔ)到存儲(chǔ)器中(步驟S112)。此處,在識(shí)別結(jié)果為“字旁”和“字邊”的情況下,部首與部首以外的構(gòu)成部分有可 能是反的。因此,部首/部分識(shí)別部135讀出存儲(chǔ)在存儲(chǔ)器中的識(shí)別結(jié)果,在識(shí)別結(jié)果為“字 旁”和“字邊”的情況下,判定部首與部首以外的構(gòu)成部分是否是反的。具體而言,部首/部分識(shí)別部135將識(shí)別結(jié)果的文字代碼為部首文字代碼的一方設(shè)為部首,將另一方設(shè)為部首 以外的構(gòu)成部分(步驟S113)。然后,部首/部分識(shí)別部135將字形要素信息31存儲(chǔ)到字形要素存儲(chǔ)部136中 (步驟S114),其中,字形要素信息31包含配置模式、部首及部首以外的構(gòu)成部分的識(shí)別結(jié) 果。然后,字形要素分析部13將存儲(chǔ)在字形要素存儲(chǔ)部136中的字形要素信息31存儲(chǔ)到 字形要素?cái)?shù)據(jù)庫(kù)3中,結(jié)束處理。圖9和圖10是示出部首配置模式判定的處理流程的圖。如上所述,部首分析字典16是用于針對(duì)陣列結(jié)構(gòu)體進(jìn)行分析的字典,并確定該分 析處理。由此,以下的步驟S21 S213為部首分析的處理,可認(rèn)為是部首分析字典16的內(nèi)容。部首配置模式分析部133讀出存儲(chǔ)在輪廓圖形存儲(chǔ)部14中的輪廓圖形141、以及 存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部15中的與其對(duì)應(yīng)的(同一輪廓編號(hào)的)定量數(shù)據(jù)151,并根據(jù)所讀 出的輪廓圖形141,判定輪廓圖形141是否為1個(gè)(是否沒(méi)有部首)(步驟S21)。在判定為輪廓圖形141不是1個(gè)O個(gè)以上)的情況下(步驟S21否),當(dāng)輪廓圖 形141中存在預(yù)定面積以下的小輪廓的輪廓圖形141、且存在包含該小輪廓的更大輪廓時(shí), 部首配置模式分析部133將這些輪廓設(shè)為1個(gè)輪廓組(步驟S22)。此處,預(yù)定的面積例如被設(shè)為“1”。包含小輪廓的大輪廓的輪廓圖形141的面積被 設(shè)為小輪廓的面積與大輪廓的面積的總和。包含小輪廓的大輪廓的輪廓圖形141的位置被 設(shè)為該大輪廓的輪廓圖形141的對(duì)應(yīng)分割區(qū)域。并且,部首配置模式分析部133將大輪廓 的輪廓圖形141的輪廓編號(hào)作為母輪廓編號(hào)設(shè)定在與包含在大輪廓中的小輪廓的輪廓圖 形141對(duì)應(yīng)的定量數(shù)據(jù)151中。接著,部首配置模式分析部133判定輪廓圖形141的輪廓數(shù)是否是2個(gè)或3個(gè)以 上(步驟S23)。在輪廓數(shù)為3個(gè)以上的情況下,部首配置模式分析部133根據(jù)定量數(shù)據(jù)151的矩 形大小,判定在矩形中面積最大的矩形是否位于上下左右的某一個(gè)中心(分割區(qū)域b、d、e、 f、h)(步驟 S24)。在判定為在矩形中面積最大的矩形位于分割區(qū)域的上下左右的任意一個(gè)中心的 情況下(步驟SM是),部首配置模式分析部133判定是否面積最大的矩形位于任意一個(gè) 段的中心,例如上段中心(分割區(qū)域b)、且其他所有矩形位于面積最大的矩形的下方位置。 在面積最大的矩形位于任意一個(gè)段的中心、且其他所有矩形位于面積最大的矩形的下方位 置的情況下,部首配置模式分析部133將面積最大的矩形判定為部首“字頭”(步驟S25), 執(zhí)行步驟S210。在除此以外的情況下,換言之,在判定為面積最大的矩形不位于上段中心、或者其 他任意一個(gè)矩形不位于面積最大的矩形的下方位置的情況下,部首配置模式分析部133判 定是否面積最大的矩形位于任意一個(gè)段的中心,例如下段中心(分割區(qū)域h)、且其他所有 矩形位于面積最大的矩形的上方位置。在面積最大的矩形位于任意一個(gè)段的中心、且其他 所有矩形位于面積最大的矩形的上方位置的情況下,部首配置模式分析部133將面積最大 的矩形判定為部首“字底”(步驟S26),執(zhí)行步驟S210。在除此以外的情況下,換言之,在判定為面積最大的矩形不位于下段中心、或者其他任意一個(gè)矩形不位于面積最大的矩形的上方位置的情況下,部首配置模式分析部133判 定是否面積最大的矩形位于任意一個(gè)段的中心,例如左段中心(分割區(qū)域d)、且其他所有 矩形位于面積最大的矩形的右方位置。在面積最大的矩形位于任意一個(gè)段的中心、且其他 所有矩形位于右方位置的情況下,部首配置模式分析部133將面積最大的矩形判定為部首 “字旁”(步驟S27),執(zhí)行步驟S210。在除此以外的情況下,換言之,在判定為面積最大的矩形不位于左段中心、或者其 他任意一個(gè)矩形不位于右方位置的情況下,部首配置模式分析部133判定是否面積最大的 矩形位于任意一個(gè)段的中心,例如右段中心(分割區(qū)域f)、且其他所有矩形位于面積最大 的矩形的左方位置。在面積最大的矩形位于任意一個(gè)段的中心、且其他所有矩形處于左方 位置的情況下,部首配置模式分析部133將面積最大的矩形判定為部首“字邊”(步驟S28), 執(zhí)行步驟S210。在除此以外的情況下,換言之,在判定為面積最大的矩形不位于右段中心、或者其 他任意一個(gè)矩形不位于左方位置的情況下,部首配置模式分析部133判定為難以判定部首 的情況,判定為“沒(méi)有部首”(步驟S29)。然后,部首配置模式分析部133在定量數(shù)據(jù)151中設(shè)定配置代碼,并設(shè)定三維陣列 結(jié)構(gòu)體的各輪廓數(shù)據(jù)的部首標(biāo)志的ON/(或)0FF(步驟S210)。換言之,部首配置模式分析 部133生成定量數(shù)據(jù)151,存儲(chǔ)到定量數(shù)據(jù)存儲(chǔ)部15中,結(jié)束處理。在步驟S23中,在輪廓數(shù)為2個(gè)的情況下,部首配置模式分析部133判定2個(gè)矩形 的中心坐標(biāo)的位置關(guān)系是否處于左右位置關(guān)系。在2個(gè)矩形的中心坐標(biāo)的位置關(guān)系處于左 右位置關(guān)系的情況下,部首配置模式分析部133將矩形面積小的矩形判定為部首“字旁”或 “字邊”(步驟S211),執(zhí)行步驟S210。此時(shí),在矩形面積小的矩形存在于左方的情況下,將 該矩形面積小的矩形設(shè)為部首“字旁”。在矩形面積小的矩形存在于右方的情況下,將該矩 形面積小的矩形設(shè)為部首“字邊”。在判定為2個(gè)矩形的中心坐標(biāo)的位置關(guān)系不處于左右位置關(guān)系的情況下,部首配 置模式分析部133判定2個(gè)矩形的中心坐標(biāo)的位置關(guān)系是否處于上下位置關(guān)系。在2個(gè)矩 形的中心坐標(biāo)的位置關(guān)系處于上下位置關(guān)系的情況下,部首配置模式分析部133將矩形面 積小的矩形判定為部首“字頭”或“字底”(步驟S212),執(zhí)行步驟S210。此時(shí),在矩形面積 小的矩形存在于上方的情況下,將該矩形面積小的矩形設(shè)為部首“字頭”。在矩形面積小的 矩形存在于下方的情況下,將該矩形面積小的矩形設(shè)為部首“字底”。在判定為2個(gè)矩形的中心坐標(biāo)的位置關(guān)系不處于上下位置關(guān)系的情況下,部首配 置模式分析部133判定2個(gè)矩形的中心坐標(biāo)的位置關(guān)系是否均位于同一中心。在2個(gè)矩形 的中心坐標(biāo)的位置關(guān)系均處于同一中心的情況下,部首配置模式分析部133將矩形面積大 的矩形判定為部首“廣字頭或病字頭”或“字框”(步驟S213),執(zhí)行步驟S210。此時(shí),部首 “廣字頭或病字頭”和部首“字框”為同一條件,因此不能通過(guò)步驟S213進(jìn)行判定。由此,判 定結(jié)果被設(shè)為部首“廣字頭或病字頭”或部首“字框”。在判定為2個(gè)矩形的中心坐標(biāo)的位置關(guān)系不是均處于同一中心的情況下,部首配 置模式分析部133執(zhí)行步驟S29。圖11 圖14是示出使用部首分析字典16的字形要素分析的一例的圖。例如,在圖Il(A)中,針對(duì)文字“休”,用灰色(網(wǎng)格)圖形表示文字“休”自身,用實(shí)線表示包圍2個(gè)輪廓各自的輪廓圖形的矩形,用黑色圓圈表示矩形的中心坐標(biāo)。并且,與 這樣將矩形和黑色圓圈與文字重疊后的圖形并排地示出了針對(duì)具有兩個(gè)輪廓、由“字旁”和 “字邊”構(gòu)成的字形要素,例如文字“休”生成的三維陣列結(jié)構(gòu)體(以下稱(chēng)為陣列結(jié)構(gòu)體)。 另外,用粗線示出的矩形表示該矩形是確定作為字形要素的“部首”的因素。另外,出現(xiàn)在陣列結(jié)構(gòu)體中的“3”、“6”等數(shù)字表示對(duì)該分割區(qū)域分配了矩形的中 心坐標(biāo),以及具有該所分配的中心坐標(biāo)的矩形的大小(面積)。例如,數(shù)字“3”表示對(duì)圖 4(B)所示的分割區(qū)域d分配了大小為“3”的矩形。另外,在陣列結(jié)構(gòu)體中,用網(wǎng)格表示的分 割區(qū)域以及該分割區(qū)域的數(shù)字表示該區(qū)域和該數(shù)字是確定作為字形要素的“部首”的因素。 例如,在圖Il(A)中,表示在分割區(qū)域d中存在作為大小為“3”的“部首”的矩形。如上所述,在圖Il(A)中,針對(duì)文字“休”,矩形和黑色圓圈與文字重疊后的圖形是 對(duì)存儲(chǔ)在輪廓圖形存儲(chǔ)部14中的輪廓圖形141和存儲(chǔ)在定量數(shù)據(jù)存儲(chǔ)部15中的定量數(shù)據(jù) 151進(jìn)行結(jié)合而視覺(jué)表現(xiàn)的圖形。另外,陣列結(jié)構(gòu)體是與將矩形和黑色圓圈與文字重疊后的 圖形對(duì)應(yīng)的、針對(duì)文字“休”的陣列結(jié)構(gòu)體。以上在其他例子中也同樣。關(guān)于圖Il(A)所示的文字“休”,輪廓數(shù)為2個(gè)(步驟S2!3),2個(gè)輪廓處于左右位置 關(guān)系,比面積為“6”的另一個(gè)輪廓小且面積為“3”的輪廓位于左方,因此將該位于左方的輪 廓設(shè)為部首“字旁”(步驟S211)。關(guān)于圖11⑶所示的文字“?!?,對(duì)“? ”部分(三點(diǎn)水)的輪廓賦予圖2(C)所示 的同一母輪廓編號(hào)INT3,由此,雖然實(shí)際為多個(gè)輪廓,但是作為面積為“5”的1個(gè)輪廓進(jìn)行 處理(步驟S22),其結(jié)果是,輪廓數(shù)為3個(gè)(步驟S23),面積為“5”且最大的輪廓位于左段 中心,因此將該面積為“5”的輪廓設(shè)為部首“字旁”(步驟S27)。此外,在分割區(qū)域a中,存儲(chǔ)了 2個(gè)數(shù)字“1”。其原因在于,如前所述,陣列結(jié)構(gòu)體 是三維的,因此允許在1個(gè)分割區(qū)域中存儲(chǔ)多個(gè)矩形的中心坐標(biāo)及矩形的大小。關(guān)于圖Il(C)所示的文字“歌”,對(duì)2個(gè)“可”部分的輪廓賦予圖2(C)所示的同一母 輪廓編號(hào)INT3,由此,雖然實(shí)際為多個(gè)輪廓,但是作為1個(gè)輪廓進(jìn)行處理(步驟S22),其結(jié) 果是,輪廓數(shù)為3個(gè)(步驟S23),將面積為“6”且最大的輪廓設(shè)為部首“字邊”(步驟S28)。關(guān)于圖Il(D)所示的文字“動(dòng)”,輪廓數(shù)為2個(gè)(步驟S2!3),2個(gè)輪廓處于左右位 置關(guān)系,面積為“4”的較小輪廓位于右方,因此將該面積小的輪廓設(shè)為部首“字邊”(步驟 S211)。關(guān)于圖12(A)所示的文字“字”,輪廓數(shù)為2個(gè)(步驟S2!3),2個(gè)輪廓處于上下位置 關(guān)系,面積為“4”的較小輪廓位于上方,因此將面積小的輪廓設(shè)為部首“字頭”(步驟S211)。針對(duì)圖12(B)所示的文字“草”,輪廓數(shù)為2個(gè)(步驟S2!3),2個(gè)輪廓處于上下位置 關(guān)系,面積為“3”的較小輪廓位于上方,因此將面積小的輪廓設(shè)為部首“字頭”(步驟S211)。針對(duì)圖12(C)所示的文字“恭”,對(duì)設(shè)為部首“字底”的輪廓賦予圖2(C)所示的同 一母輪廓編號(hào)INT3,由此,雖然實(shí)際為多個(gè)輪廓,但是作為1個(gè)輪廓進(jìn)行處理(步驟S22), 其結(jié)果是,輪廓數(shù)為2個(gè)(步驟S23),2個(gè)輪廓位于上下位置關(guān)系,面積為“4”的較小輪廓 位于下方,因此將該積小的輪廓設(shè)為部首“字底”(步驟S212)。針對(duì)圖12⑶所示的文字“點(diǎn)”,對(duì)設(shè)為部首“字底”的輪廓賦予圖2(C)所示的同 一母輪廓編號(hào)INT3,由此,雖然實(shí)際為多個(gè)輪廓,但作為1個(gè)輪廓進(jìn)行處理(步驟S22),其 結(jié)果是,輪廓數(shù)為2個(gè)(步驟S23),2個(gè)輪廓處于上下位置關(guān)系,面積為“4”的較小輪廓位于下方,因此將面積小的輪廓設(shè)為部首“字底”(步驟S212)。關(guān)于圖13(A)所示的文字“疾”,輪廓數(shù)為2個(gè)(步驟S23),2個(gè)輪廓處于相同位置 關(guān)系,因此將面積大的輪廓設(shè)為部首“廣字頭或病字頭”或“字框”(步驟S213)。另外,文字“疾”本來(lái)是需要判定為“廣字頭或病字頭”的例子,但在該例子中,不能 區(qū)別部首“廣字頭或病字頭”和部首“字框”。但是,這種情況已經(jīng)預(yù)先知道,因此在分類(lèi)為 部首“廣字頭或病字頭”或“字框”的文字中,根據(jù)部首/部分識(shí)別部135的OCR識(shí)別處理 結(jié)果,判定是部首“廣字頭或病字頭”還是部首“字框”即可。以上對(duì)于圖13(B)也是同樣。關(guān)于圖13 (B)所示的文字“広”,輪廓數(shù)為2個(gè)(步驟S23),2個(gè)輪廓處于相同位置 關(guān)系,因此將面積大的輪廓設(shè)為部首“廣字頭或病字頭”或“字框”(步驟S213)。關(guān)于圖13 (C)所示的文字“道”,輪廓數(shù)為3個(gè)以上(步驟S23),面積大的輪廓位于 中心(步驟S24),其他輪廓的位置關(guān)系全部不處于右或左的位置關(guān)系(步驟S25 S28), 因此設(shè)為難以判定部首的情況,設(shè)為“沒(méi)有部首”(步驟S29)。另外,文字“道”本來(lái)是需要判定為“建之旁或走之底或走字旁”的例子,但在該例 子中,設(shè)為“沒(méi)有部首”。由此,除了本來(lái)的“沒(méi)有部首”以外,“沒(méi)有部首”有時(shí)還包括需要 判定為“建之旁或走之底或走字旁”的文字的情況。但是,這種情況已經(jīng)預(yù)先知道,因此,根 據(jù)部首/部分識(shí)別部135的OCR識(shí)別處理的結(jié)果,從分類(lèi)為“沒(méi)有部首”的文字中去除需要 判定為“建之旁或走之底或走字旁”的文字即可。關(guān)于圖13⑶所示的文字“醫(yī)”,輪廓數(shù)為2個(gè)(步驟S23),2個(gè)輪廓處于相同位置 關(guān)系,因此將面積大的輪廓設(shè)為部首“廣字頭或病字頭”或“字框”(步驟S213)。另外,文字“醫(yī)”本來(lái)是需要判定為“字框”的例子,但在該例子中,不能區(qū)別部首 “廣字頭或病字頭”和部首“字框”。但是,這種情況已經(jīng)預(yù)先知道,因此在分類(lèi)為部首“廣字 頭或病字頭”或“字框”的文字中,根據(jù)部首/部分識(shí)別部135的OCR識(shí)別處理的結(jié)果,判定 是部首“字框”還是部首“廣字頭或病字頭”即可。關(guān)于圖14所示的文字“皆”,輪廓數(shù)為3個(gè)以上(步驟S23),面積大的輪廓也不 處于上下左右的任意一個(gè)中心(步驟S24),因此設(shè)為難以判定部首的情況,設(shè)為“沒(méi)有部 首”(步驟S29)。并且,在圖11 圖14中,使用常用漢字進(jìn)行了說(shuō)明,但是針對(duì)稀用字也同樣能夠 得到字形要素信息。
權(quán)利要求
1.一種字形要素判定裝置,其特征在于,該字形要素判定裝置具有輪廓圖形存儲(chǔ)部,其存儲(chǔ)輪廓圖形,該輪廓圖形表示判定對(duì)象文字的輪廓;定量數(shù)據(jù)生成部,其針對(duì)存儲(chǔ)在所述輪廓圖形存儲(chǔ)部中的所述輪廓圖形,根據(jù)所述輪 廓圖形的坐標(biāo),生成定量數(shù)據(jù),該定量數(shù)據(jù)包含包圍所述輪廓圖形的矩形的大小和所述矩 形的中心坐標(biāo);定量數(shù)據(jù)存儲(chǔ)部,其存儲(chǔ)針對(duì)所述輪廓圖形生成的所述定量數(shù)據(jù);部首配置模式分析部,其根據(jù)存儲(chǔ)在所述定量數(shù)據(jù)存儲(chǔ)部中的所述定量數(shù)據(jù),確定所 述判定對(duì)象文字中的部首及所述部首以外的構(gòu)成部分的配置模式,根據(jù)所述配置模式,將 所述輪廓圖形分為包含作為所述部首的輪廓圖形的第1組和包含作為所述部首以外的構(gòu) 成部分的輪廓圖形的第2組;轉(zhuǎn)換部,其將存儲(chǔ)在所述輪廓圖形存儲(chǔ)部中的所述第1組的輪廓圖形轉(zhuǎn)換為第1點(diǎn)圖 形,將存儲(chǔ)在所述輪廓圖形存儲(chǔ)部中的所述第2組的輪廓圖形轉(zhuǎn)換為第2點(diǎn)圖形;部首/部分點(diǎn)圖形存儲(chǔ)部,其存儲(chǔ)所述第1點(diǎn)圖形和所述第2點(diǎn)圖形;以及部首/部分識(shí)別部,其根據(jù)與存儲(chǔ)在所述點(diǎn)圖形存儲(chǔ)部中的所述第1點(diǎn)圖形相關(guān)的OCR 識(shí)別判定所述部首,根據(jù)與存儲(chǔ)在所述點(diǎn)圖形存儲(chǔ)部中的所述第2點(diǎn)圖形相關(guān)的OCR識(shí)別 判定所述部首以外的構(gòu)成部分。
2.根據(jù)權(quán)利要求1所述的字形要素判定裝置,其特征在于,所述字形要素判定裝置還具有輪廓提取部,該輪廓提取部根據(jù)所述判定對(duì)象文字的點(diǎn) 圖形,提取表示判定對(duì)象文字的輪廓的輪廓圖形。
3.根據(jù)權(quán)利要求1所述的字形要素判定裝置,其特征在于,所述部首配置模式分析部具有存儲(chǔ)每個(gè)部首的定量數(shù)據(jù)的部首分析字典,通過(guò)根據(jù)存 儲(chǔ)在所述定量數(shù)據(jù)存儲(chǔ)部中的所述定量數(shù)據(jù)參照所述部首分析字典,確定所述判定對(duì)象文 字中的部首的配置模式,根據(jù)所述配置模式,確定作為所述部首的輪廓圖形。
4.根據(jù)權(quán)利要求1所述的字形要素判定裝置,其特征在于,所述部首配置模式分析部在將文字顯示區(qū)域分割為多個(gè)分割區(qū)域而得的陣列中,將所 述輪廓圖形的所述矩形的中心坐標(biāo)和與該矩形的中心坐標(biāo)對(duì)應(yīng)的區(qū)域?qū)?yīng)起來(lái),提取所述 輪廓圖形的所述矩形的中心坐標(biāo)的位置關(guān)系,由此確定所述部首及所述部首以外的構(gòu)成部 分的所述配置模式。
5.根據(jù)權(quán)利要求1所述的字形要素判定裝置,其特征在于,所述部首配置模式分析部將所述輪廓圖形的所述矩形與將文字顯示區(qū)域分割為多個(gè) 分割區(qū)域而得的陣列重疊,提取所述輪廓圖形的所述矩形的位置及大小的關(guān)系,由此確定 所述部首及所述部首以外的構(gòu)成部分的所述配置模式。
6.根據(jù)權(quán)利要求4或5所述的字形要素判定裝置,其特征在于,所述陣列是重疊了 1個(gè)以上的二維陣列的三維陣列,該二維陣列是在縱向和橫向上將 所述文字顯示區(qū)域3等分而得。
7.根據(jù)權(quán)利要求1所述的字形要素判定裝置,其特征在于,所述部首/部分識(shí)別部具有存儲(chǔ)每個(gè)部首的點(diǎn)圖形的部首識(shí)別字典、和存儲(chǔ)每個(gè)所述 部首以外的構(gòu)成部分的點(diǎn)圖形的部分識(shí)別字典,根據(jù)與所述第1點(diǎn)圖形相關(guān)的OCR識(shí)別參照所述部首識(shí)別字典,由此判定所述部首,并根據(jù)與所述第2點(diǎn)圖形相關(guān)的OCR識(shí)別參照所 述部分識(shí)別字典,由此判定所述部首以外的構(gòu)成部分。
8. 一種字形要素判定方法,其特征在于,該字形要素判定方法使計(jì)算機(jī)執(zhí)行以下處理針對(duì)存儲(chǔ)在輪廓圖形存儲(chǔ)部中的表示判定對(duì)象文字的輪廓的輪廓圖形,根據(jù)所述輪廓 圖形的坐標(biāo),生成定量數(shù)據(jù),存儲(chǔ)到定量數(shù)據(jù)存儲(chǔ)部中,該定量數(shù)據(jù)包含包圍所述輪廓圖形 的矩形的大小和所述矩形的中心坐標(biāo);根據(jù)存儲(chǔ)在所述定量數(shù)據(jù)存儲(chǔ)部中的所述定量數(shù)據(jù),確定所述判定對(duì)象文字中的部首 及所述部首以外的構(gòu)成部分的配置模式,根據(jù)所述配置模式,將所述輪廓圖形分為包含作 為所述部首的輪廓圖形的第1組和包含作為所述部首以外的構(gòu)成部分的輪廓圖形的第2 組;將存儲(chǔ)在所述輪廓圖形存儲(chǔ)部中的所述第1組的輪廓圖形轉(zhuǎn)換為第1點(diǎn)圖形,將存儲(chǔ) 在所述輪廓圖形存儲(chǔ)部中的所述第2組的輪廓圖形轉(zhuǎn)換為第2點(diǎn)圖形,存儲(chǔ)到部首/部分 點(diǎn)圖形存儲(chǔ)部中;以及根據(jù)與存儲(chǔ)在所述點(diǎn)圖形存儲(chǔ)部中的所述第1點(diǎn)圖形相關(guān)的OCR識(shí)別判定所述部首, 根據(jù)與存儲(chǔ)在所述點(diǎn)圖形存儲(chǔ)部中的所述第2點(diǎn)圖形相關(guān)的OCR識(shí)別判定所述部首以外的 構(gòu)成部分。
全文摘要
字形要素判定裝置及字形要素判定方法。本發(fā)明的課題是提供能夠判定文字的部首及部首以外的構(gòu)成部分的字形要素判定裝置。作為解決手段,定量數(shù)據(jù)生成部針對(duì)文字的輪廓圖形,生成定量數(shù)據(jù),該定量數(shù)據(jù)包含包圍輪廓圖形的矩形的大小和矩形的中心坐標(biāo)。部首配置模式分析部根據(jù)定量數(shù)據(jù),確定部首及部首以外的構(gòu)成部分的配置模式,根據(jù)配置模式,將輪廓圖形分為作為部首的第1組和作為部首以外的構(gòu)成部分的第2組。轉(zhuǎn)換部將第1組和第2組的輪廓圖形轉(zhuǎn)換為第1和第2點(diǎn)圖形。部首/部分識(shí)別部根據(jù)第1點(diǎn)圖形和第2點(diǎn)圖形的OCR識(shí)別,分別判定部首及部首以外的構(gòu)成部分。
文檔編號(hào)G06K9/20GK102096814SQ20101028788
公開(kāi)日2011年6月15日 申請(qǐng)日期2010年9月17日 優(yōu)先權(quán)日2009年12月15日
發(fā)明者大石勇, 村松千織 申請(qǐng)人:富士通株式會(huì)社