專利名稱:在線手寫中文字識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種以字形為基礎(chǔ)的手寫中文字在線解讀方法,以及特別涉及以該文字的組成字形與輸入法的文字壓縮碼-序列碼參考文件作比較而識別文字的在線手寫中文字識別裝置。
常規(guī)的文字識別方法一般采用樣本匹配(template matching,或“模板匹配”)的方式,將輸入的未知文字圖形與預(yù)先存儲(chǔ)的文字筆跡樣本一一匹配,以相似性最大、差異性最小的匹配樣本作為識別的結(jié)果。由于這樣的技術(shù)需要存儲(chǔ)大量的文字筆跡樣本數(shù),才能達(dá)到較好的識別效果。而大多數(shù)文字識別的方法都使用分類方法或其他匹配方法來配合樣本匹配技術(shù),目的在于降低匹配大量文字筆跡樣本時(shí)所耗費(fèi)的時(shí)間,但是仍然必須存儲(chǔ)大量的文字筆跡樣本。
例如中國臺灣專利公報(bào)公告第311201號專利《以前后字根為基礎(chǔ)的手寫中文字識別系統(tǒng)》,該發(fā)明的特征在于利用前字根和后字根將所有中文字分為三大類,即,前字根加后剩余字、后字根加前剩余字、以及獨(dú)體字,然后利用該分類法建立一個(gè)中文識別系統(tǒng)。
圖13為該系統(tǒng)的模板建立部分的方框圖,包括中文字跡數(shù)據(jù)庫10,其用于存儲(chǔ)80組中文字筆跡數(shù)據(jù),每組5401字,且由不同人所書寫;中文字跡分類器11,其用于根據(jù)分類法來將中文字加以區(qū)分,以決定它們是屬于前字根的字、后字根的字、還是獨(dú)體字;字根分離器12,其用于將前字根的字分為前字根部分和后剩余字,或是將后字根的字分為后字根部分和前剩余字;獨(dú)體字模板產(chǎn)生器13,其用于提取獨(dú)體字的特征點(diǎn),然后依筆畫數(shù)目的順序?qū)⑦@些特征存儲(chǔ)在獨(dú)體字模板16中;字根模板產(chǎn)生器14,其用于提取前字根和后字根的特征,然后依字根筆畫數(shù)目的順序?qū)⑦@些特征存儲(chǔ)在前字根模板17和后字根模板18中;剩余字模板產(chǎn)生器15,其用于提取前剩余字和后剩余字的特征,然后依筆畫數(shù)目的順序?qū)⑦@些特征存儲(chǔ)在前剩余字模板19和后剩余字模板20中。
圖14顯示該常規(guī)識別系統(tǒng)的方框圖。該識別系統(tǒng)包括預(yù)處理器21,其用于對原始筆跡進(jìn)行除去噪聲信號、平滑化、平移校正、旋轉(zhuǎn)校正、尺寸正規(guī)化以及提取想要的特征等處理;篩選器22,其利用輸入筆跡的部分特征來篩選出可能的模板前字根比較器23,其用于從輸入的筆跡中,分離出可能的前字根部分,然后與篩選過的前字根模板做詳細(xì)比較,以計(jì)算出彼此間的相似度,并記錄相似度最高的10個(gè)前字根;后字根比較器24,其用于從輸入的筆跡中,分離出可能的后字根部分,然后與篩選過的后字根模板做詳細(xì)比較,以計(jì)算出彼此間的相似度,記錄相似度最高的10個(gè)后字根;后剩余字比較器25,其用于把當(dāng)前輸入筆跡與后剩余字模板進(jìn)行比較,其中后剩余字模板所對應(yīng)的前字根須在前字根比較器23中進(jìn)入前10位;然后合并前字根比較器23操作中所得的相似度和在當(dāng)前階段所得的相似度,得到當(dāng)前輸出文字的相似度;前剩余字比較器26,其用于把輸入筆跡與前剩余字模板進(jìn)行比較,其中前剩余字模板所對應(yīng)的后字根必須在后字根比較器24中進(jìn)入前10位,然后合并后字根比較器24操作中所得的相似度與在當(dāng)前階段所得的相似度,得到當(dāng)前輸出文字的相似度;獨(dú)體字比較器27,其用于計(jì)算篩選過的獨(dú)體字模板和輸入的筆跡之間的相似度;優(yōu)勝者決定器28,其用于排列比較后的相似度,并保留前10個(gè)最大相似度的字作為識別結(jié)果。
上述中國臺灣專利公報(bào)公告號第311221號發(fā)明《以前后字根為基礎(chǔ)的手寫中文字識別系統(tǒng)》有以下幾個(gè)缺點(diǎn)1、在模板建立階段和文字識別階段仍需要多組的中文字筆跡數(shù)據(jù)(每組包含作為認(rèn)識對象的5401字);
2、必須預(yù)先建立大量模板,耗費(fèi)大量時(shí)間。
考慮到上述樣本匹配需存儲(chǔ)大量文字筆跡樣本數(shù),造成存儲(chǔ)空間和樣本匹配時(shí)間的浪費(fèi),本發(fā)明的目的在于提供一種以字形為基礎(chǔ)的在線手寫識別裝置,以降低匹配樣本的存儲(chǔ)空間和匹配時(shí)間。
為解決上述缺點(diǎn),本發(fā)明提供一種具有用于暫存數(shù)據(jù)的緩沖區(qū)和輸出部分的在線手寫中文字識別裝置,其特征在于包括基本字形特征存儲(chǔ)部分,其中包括基于字形拆字的輸入法中所定義的基本字根(即,基礎(chǔ)字根)或相關(guān)字根(即,派生字根)的特征;輸入法參考部分,其基于常規(guī)根據(jù)字形拆字的輸入法,其包括用于文字壓縮碼與序列碼查找信息的輸入法系統(tǒng)數(shù)據(jù)文件;例外字描述部分,其用于記錄例外字的特征,輔助后處理部分從候選字中決定出最后識別結(jié)果;輸入部分,其中包括常規(guī)在線文字書寫裝置的數(shù)字化輸入板和筆;預(yù)處理部分,其用于對輸入的手寫文字做正規(guī)化與細(xì)線化處理,并抽取文字識別所需的特征存儲(chǔ)于緩沖區(qū)中;字形拆解部分,其用于參照基本字形特征存儲(chǔ)部分,根據(jù)預(yù)處理部分所抽取手寫文字的特征來拆解文字,以找出可組成該手寫文字的基本字形;比較部分,其用于以字形拆解部分找出的基本字形與輸入法參考部分的內(nèi)容相比較,找出差異值在閾值以下的文字作為候選字;后處理部分,其用于參照例外字描述部分的內(nèi)容,根據(jù)手寫文字的其余特征,從候選字中決定最后識別結(jié)果,然后把最后識別結(jié)果傳送到輸出部分輸出。
由上述構(gòu)成,本發(fā)明的在線手寫中文字識別裝置通過字形拆解的方法將手寫字拆解,以基本字形組合表示,能夠直接利用常規(guī)以字形拆字的輸入法的文字編碼與序列碼查找表得到識別結(jié)果,可減少在線手寫識別系統(tǒng)所需的匹配樣本數(shù),減少匹配的時(shí)間。
在下文參照附圖對優(yōu)選實(shí)施例的描述中,本發(fā)明的其他特點(diǎn)和優(yōu)點(diǎn)將變得更加清楚。
圖1是本發(fā)明的一個(gè)優(yōu)選實(shí)施例的系統(tǒng)方框圖。
圖2是本發(fā)明優(yōu)選實(shí)施例的預(yù)處理部分的處理流程圖。
圖3是本發(fā)明優(yōu)選實(shí)施例中的字形拆解部分的處理流程圖。
圖4是本發(fā)明優(yōu)選實(shí)施例中的比較部分的處理流程圖。
圖5是本發(fā)明優(yōu)選實(shí)施例中的后處理部分的處理流程圖。
圖6A、6B、6C和6D是本發(fā)明優(yōu)選實(shí)施例中的基本字形樣本特征存儲(chǔ)部分的結(jié)構(gòu)示意圖。
圖7是本發(fā)明優(yōu)選實(shí)施例中的輸入法參考部分的結(jié)構(gòu)示意圖。
圖8是本發(fā)明優(yōu)選實(shí)施例中的例外字描述部分的結(jié)構(gòu)示意圖。
圖9是本發(fā)明優(yōu)選實(shí)施例中的拆解“抓”字所得的基本字形組。
圖10是本發(fā)明優(yōu)選實(shí)施例中的輸入法字碼與序列碼的關(guān)系示意圖。
圖11是本發(fā)明優(yōu)選實(shí)施例中的文字分離的五種組合。
圖12是本發(fā)明優(yōu)選實(shí)施例中的基本字形樣本組所含的二十四個(gè)倉頡基本字根、七十四個(gè)派生字根,以及10個(gè)復(fù)合字根。
圖13是現(xiàn)有實(shí)例的模板建立部分的方框圖。
圖14是現(xiàn)有實(shí)例的識別系統(tǒng)部分的流程圖。
在本優(yōu)選實(shí)施例中,以字形拆字的倉頡輸入法為文字識別的基礎(chǔ),以倉頡輸入法定義的基本字根、派生字根以及復(fù)合字根作為本優(yōu)選實(shí)施例所指的基本字形樣本組,如圖12所示。依據(jù)中文字的結(jié)構(gòu)和組字原理,倉頡輸入法將中文字歸納分成二十四個(gè)倉頡基本字根,以及七十四個(gè)派生字根。然后,根據(jù)倉頡取碼原則,將中文字拆成倉頡碼,且最多為5個(gè)碼,接著輸入正確的倉頡碼,即可得到正確的字。
圖1是本發(fā)明的在線手寫中文字識別裝置的一種優(yōu)選實(shí)施例的方框圖。輸入部分100,例如數(shù)字化輸入板,是供使用者進(jìn)行在線文字書寫。預(yù)處理部分200是將使用者輸入的手寫字做正規(guī)化與細(xì)線化處理后,利用切字技術(shù)將每個(gè)文字分離為外內(nèi)、上下、左右、多列或獨(dú)體等五個(gè)組(如圖11所示),然后對文字做特征抽取,且存入緩沖區(qū)700中。抽取的特征包括每筆畫之間的相交關(guān)系、筆畫位置、筆畫起始和終點(diǎn)方向、各筆畫所屬層級(level)等。其中各筆畫所屬層級由該文字筆畫書寫順序和所屬獨(dú)體來決定。緩沖區(qū)700是用來存儲(chǔ)輸入筆畫的相關(guān)數(shù)據(jù)和特征。
字形拆解部分300通過把文字特征與基本字形特征存儲(chǔ)部分350的內(nèi)容相比較以拆解文字,獲得每一筆畫可組成的基本字形組。然后,根據(jù)取碼規(guī)則挑出可形成該文字的基本字形組所屬的基本字根代碼?;咀中翁卣鞔鎯?chǔ)部分350用于存儲(chǔ)所有基本字形的特征,其詳細(xì)構(gòu)造如圖6A至6D所示。每個(gè)基本字形的數(shù)據(jù)包括筆畫數(shù)、筆畫特征,如方向、長度等,以及筆畫與筆畫間的相交關(guān)系、相似的基本字形代碼等。
比較部分400負(fù)責(zé)把對應(yīng)于拆解文字所得的基本字形所屬基本字根代碼的壓縮碼與輸入法參考部分450的內(nèi)容作比較,找出候選字的序列碼。輸入法參考部分450是包括文字壓縮碼和序列碼查找數(shù)據(jù)的輸入法系統(tǒng)數(shù)據(jù)文件,用來輔助比較部分400取得候選字的序列碼。用于本發(fā)明的該部分內(nèi)容在圖7中示出。
后處理部分500參考例外字描述部分550,進(jìn)一步從多個(gè)候選字中挑出最后識別的結(jié)果。例外字描述部分550是輔助后處理部分500從多個(gè)候選字中選出最后識別結(jié)果的參考部分。例外字描述部分550的結(jié)構(gòu)如圖8所示。每一序列碼(代表一文字)包括總筆畫數(shù),以及以13為基底將例外字各字碼組成筆畫數(shù)壓縮后的數(shù)據(jù)。
結(jié)合上述裝置的構(gòu)成,圖2示出預(yù)處理部分200對輸入的手寫文字作預(yù)處理與特征抽取的流程。圖3示出字形拆解部分300拆解輸入文字并挑出所屬的基本字根代碼的流程。圖4示出比較部分400比較輸入文字所屬字碼的壓縮碼與輸入法參考文件450的內(nèi)容來找出候選字的流程。圖5示出后處理部分500從候選字中決定輸出文字的流程。
如圖2所示,在步驟S201中,預(yù)處理部分200讀入手寫文字的點(diǎn)座標(biāo)。然后,在步驟S202中,對文字做正規(guī)化和細(xì)線化處理。在步驟S203中,利用切字技術(shù)將文字分離成由外內(nèi)、上下、左右、多列或獨(dú)體的組成。在步驟S204中,抽取文字各筆劃方向和長度特征,以及彼此相交關(guān)系特征。最后,在步驟S205中,將抽出的特征輸出至緩沖區(qū)700中暫存。
如圖3所示,在步驟S301中,根據(jù)筆畫順序從緩沖區(qū)700讀取由預(yù)處理部分200所抽取的每一筆畫特征。在步驟S302中,參考基本字形特征存儲(chǔ)部分350,以把該輸入筆畫的特征與基本字形特征存儲(chǔ)部分350內(nèi)的各基本字形特征相比較,找出與此輸入筆畫相似性高的基本字形組。在步驟S303中,將所找到的這些基本字形的代碼存入緩沖區(qū)700中該筆畫的位置。然后,在步驟S304,該輸入筆畫和與其相交的以前筆畫相結(jié)合,在步驟S305,參考基本字形特征存儲(chǔ)部分350,把結(jié)合后的字形與基本字形特征存儲(chǔ)部分350內(nèi)的各基本字形特征做比較,找出筆畫結(jié)合后可共同組成的基本字形。在步驟S306中,把找到的這些基本字形的代碼存入緩沖區(qū)700中關(guān)于該當(dāng)前筆畫及與它相交筆畫的相關(guān)信息所在位置。在步驟S307中,把該輸入筆畫和以前同一層級筆畫相結(jié)合,在步驟S308,參考基本字形特征存儲(chǔ)部分350,把結(jié)合后的字形與基本字形特征存儲(chǔ)部分350內(nèi)的各基本字形特征做比較,找出結(jié)合后的筆畫共同可組成的基本字形。在步驟S309,把找到的這些基本字形的代碼存入緩沖區(qū)700中該輸入筆畫及與它同一層級的以前筆畫的相關(guān)信息所在位置。由于基本字形的最多筆畫數(shù)為為十三劃(“鬼”),因此執(zhí)行與以前筆畫結(jié)合的步驟時(shí),最多檢查十二劃。在步驟S310中,在所有筆畫檢查后,在步驟S311中從緩沖區(qū)700中各筆畫可組成的基本字形的信息找出各筆畫由最多筆畫數(shù)組成的基本字形組。在所有筆畫都找出其最多筆畫數(shù)組成的基本字形后,在步驟S312中從這些由最多畫數(shù)組成的基本字形中,根據(jù)取碼規(guī)則找出用于比較的基本字形及其所屬基本字根的代碼。在步驟S313中,把最終找到的基本字形所屬基本字根的代碼存入緩沖區(qū)700中。
以下將說明本發(fā)明與現(xiàn)有技術(shù)相比所具有的突破點(diǎn),例如,比較部分400進(jìn)行比較的技術(shù),可加速比較速度和節(jié)省數(shù)據(jù)存儲(chǔ)空間。本發(fā)明起源于同一中文系統(tǒng)可能使用不同的輸入法。也有不同的存儲(chǔ)格式。但是,最后結(jié)果都是讀取相同的字型文件。為了使中文字型文件適于這些情況,就有一種稱為序列碼的值產(chǎn)生。在輸入法中,利用壓縮公式把文字的代碼壓縮。然后參考包括用于壓縮碼和序列碼的查找數(shù)據(jù)的輸入法系統(tǒng)參考文件,并計(jì)算(加上序列碼的初值),以查找與該壓縮碼對應(yīng)的序列碼。這些序列碼表示存儲(chǔ)于各字型文件中的文字的順序。得到序列碼后,則可在字型文件讀取字型,如圖10所示。另外,由于在一些以字形拆解的輸入法中,有部分文字的字碼組成不是唯一的。即不同的字具有相同的代碼組。因此,本發(fā)明的在線手寫中文字識別裝置對這種況進(jìn)行后處理。
圖4描述比較部分400的比較操作的流程圖。在步驟S401中,比較部分400從緩沖區(qū)700取得由字形拆解部分300輸出的用于比較的基本字根代碼。在步驟S402中,利用倉頡輸入法中的壓縮公式將基本字根代碼壓縮。然后,在步驟S403中,參照輸入法參考部分450找出與該壓縮碼差值在閾值T以下的文字的序列碼。在步驟S404中,判斷是否只找到一個(gè)序列碼。如果為“是”,則在步驟S405中,從字型文件中輸出對應(yīng)于該序列碼的文字作為識別結(jié)果。如果不只找到一個(gè)文字的序列碼,則把候選字的序列碼暫存在緩沖區(qū)700中,用于隨后由后處理部分500進(jìn)行后處理操作。
參見圖5,在步驟S501中,從緩沖區(qū)700輸入形成候選字的基本字形組的筆畫數(shù)特征。然后,在步驟S502中,后處理部分500首先利用以5為基底把構(gòu)成該手寫文字的各個(gè)基本字形的筆畫數(shù)壓縮。在步驟S503中,把候選字的總筆畫數(shù)和筆畫數(shù)壓縮后的值與例外字描述部分550的內(nèi)容比較,找出差值最小的候選字。在步驟S504中,在字型文件中將對應(yīng)于該文字序列碼的文字作為識別結(jié)果輸出至輸出部分600中。
在下文中以在線手寫中文字“抓”為例,結(jié)合圖3的字形拆解處理流程圖、圖4的文字比較處理流程圖、以及圖5的文字后處理流程圖,來詳細(xì)說明本發(fā)明在線手寫中文字識別裝置的基本操作。其中仍舊以倉頡輸入法的基本字根、派生字根、取碼規(guī)則、編碼壓縮方法和其他相關(guān)原則作為本實(shí)施例的背景。
在輸入部分100上輸入手寫字“抓”后,執(zhí)行步驟S202,由預(yù)處理部分200進(jìn)行正規(guī)化與細(xì)線化處理。在步驟S203,利用切字技術(shù)將每個(gè)文字分離為由左右兩獨(dú)體所組成“扌”與“爪”。在步驟S204抽取文字各筆劃方向、長度特征與彼此相交關(guān)系特征。在步驟S205把這些特征存儲(chǔ)到緩沖區(qū)700中。
接著,參見圖3,在步驟S301中,從緩沖區(qū)700取得第一筆畫“一”的特征。在步驟S302中,參考基本字形特征存儲(chǔ)部分350(參見圖6A至6D),與筆畫數(shù)為1的基本字形特征做比較,找到相似性最大的基本字形“一”。在步驟S303中,把基本字形“一”的代碼(例如,13)存到緩沖區(qū)700中記錄第一筆畫“一”的數(shù)據(jù)的位置。由于這是第一筆畫,并且之前沒有其他已檢查過的筆畫,因此步驟S304-S309不執(zhí)行。流程再次轉(zhuǎn)到步驟S301從緩沖區(qū)700取得第二筆畫“丨”的特征。在步驟S302,參考基本字形特征存儲(chǔ)部分350中與筆畫數(shù)為1的基本字形特征做比較,找到相似性最高的基本字形“丨”。在步驟S303,由于該基本字形是派生字根,則把基本字形“丨”的代碼與基本字根代碼(例如,27,12)存到緩沖區(qū)700中記錄第二筆畫“丨”的數(shù)據(jù)的位置。然后,在步驟S304,把該第二筆畫與它相交的第一筆畫(“一”)相結(jié)合。在步驟S305,再次參考基本字形特征存儲(chǔ)部分350,把結(jié)合后的字形“十”與基本字形特征存儲(chǔ)部分350內(nèi)筆畫數(shù)為2的基本字形比較,找出相似性最高的基本字形“十”。在步驟S306,把“十”的代碼(例如,10)存到緩沖區(qū)700中記錄第二筆畫“丨”與第一筆畫“一”的數(shù)據(jù)位置中。在步驟S307-S309,為結(jié)合此筆畫與之前檢查過的其它筆畫,找出結(jié)合后的字形可構(gòu)成的基本字形并記錄在緩沖區(qū)700中。所有筆畫依上述步驟所找到的基本字形列于圖9。
在所有筆畫檢查完后,在步驟S311,從圖9所列記錄在緩沖區(qū)700里各筆畫的基本字形中,找出各筆畫由最多畫數(shù)組成的基本字形,依筆畫輸入順序?yàn)椤鞭小?基本字根為手,總筆畫數(shù)為3)、“扌”(手,3)、“扌”(手,3)、“廠”(竹,2)、“廠”(竹,2)、“丨”(中,1)、“\”(人,1)。在步驟S312中,由于“抓”可切為左右兩獨(dú)體,根據(jù)倉頡取碼規(guī)則,“扌”是首先被取為文字的左部分。它屬于基本字根“手”,基本字根代碼為17。文字的右部分取三個(gè)碼“′”、“/”、“\”,其分別屬于基本字根“竹”、“中”、“人”,基本字根代碼分別為8、12、15。最后,在步驟S313,基本字根代碼17、8、12、15被存入緩沖區(qū)700中。
在步驟S401,比較部分400從字形拆解部分300取得用于比較的代碼。在步驟S402,利用倉頡輸入法的壓縮公式將基本字根代碼壓縮壓縮碼=17×274+12×273+15×272+8×27+0。在步驟S403,通過用該壓縮碼查找輸入法參考部分450并計(jì)算(加上序列碼初值),找出兩個(gè)與此壓縮碼差值在閾值T以下的兩個(gè)文字“抓”和”掀”的序列碼。在步驟S404,判斷找到不只一個(gè)序列碼,接著輸出兩個(gè)序列碼到后處理部分500進(jìn)行后處理操作。
在步驟S502,后處理部分500利用以13為基底壓縮構(gòu)成各基本字形的筆畫數(shù)。該筆畫數(shù)分別為3(手…“扌”)、2(竹…“廠”)、1(中…“丨”、1(人…“\”)。壓縮后的值F=3×134+2×133+1×132+1×13+0。接著,在步驟S503,F(xiàn)值和手寫字的總筆畫數(shù)(7)與例外字描述部分550中“抓”和“掀”的F值和總筆畫數(shù)作比較,其中“抓”的平均差值最小。最后,在步驟S504,在字型文件中把對應(yīng)于“抓”的序列碼的文字作為識別結(jié)果輸出到輸出部分600中。
用于上述實(shí)施例的倉頡輸入法是本發(fā)明的一種環(huán)境。本發(fā)明不限于上述實(shí)施例。只要基于拆解字形的輸入法可用作本發(fā)明的實(shí)施環(huán)境。輸入法中的字根是被用作為本發(fā)明拆解文字時(shí)的基本字形。對于輸入法中所用的取碼規(guī)則和代碼壓縮公式,只要不改變字形拆解和比較操作的技術(shù),可以適當(dāng)變形以實(shí)施。
以倉頡輸入法所包含的所有文字為可能的識別對象,當(dāng)利用本發(fā)明的以倉頡基本字形為基礎(chǔ)的在線手寫識別裝置時(shí),分解手寫字為基本字形的技術(shù)可使文字前三位識別率達(dá)92%以上。由于本發(fā)明使用現(xiàn)有倉頡碼來體現(xiàn)字根之間的關(guān)系,不須存儲(chǔ)大量用于識別的文字筆跡樣本,從而可降低數(shù)據(jù)庫空間。
盡管本發(fā)明已經(jīng)結(jié)合被認(rèn)為是最實(shí)際和優(yōu)選的實(shí)施例進(jìn)行了描述,但是應(yīng)當(dāng)知道本發(fā)明不限于該公開的實(shí)施例,而是覆蓋包括在最廣意義上的精神和范圍內(nèi)的各種方案,從而包括所有這種改變和等價(jià)方案。
權(quán)利要求
1.一種具有暫存數(shù)據(jù)的緩沖區(qū)及輸出部分的在線手寫中文字識別裝置,其特征為在于,所述裝置包括基本字形特征存儲(chǔ)部分,包括基于字形拆解的輸入法所定義的基本字根或派生字根的形狀特征;輸入法參考部分,基于常規(guī)根據(jù)字形拆字的輸入法,其包括用于文字壓縮碼和序列碼查找信息的輸入法系統(tǒng)數(shù)據(jù)文件;例外字描述部分,用于記錄例外字的特征,以輔助后處理部分從候選字中決定出最后識別結(jié)果;輸入部分,包括常規(guī)在線文字手寫設(shè)備的數(shù)字化輸入板和筆;預(yù)處理部分,用于對輸入的手寫文字做正規(guī)化與細(xì)線化處理,并抽取文字識別所需的特征存儲(chǔ)于緩沖區(qū);字形拆解部分,用于參照基本字形特征存儲(chǔ)部分,根據(jù)預(yù)處理部分所抽取手寫文字的特征來拆解文字,以找出可形成該手寫文字的基本字形;比較部分,用于把字形拆解部分找出的基本字形與輸入法參考部分的內(nèi)容做比較,找出差異值在閾值以下的文字作為候選字;后處理部分,用于參照例外字描述部分的內(nèi)容,根據(jù)手寫文字的其余特征,從候選字中決定最后識別結(jié)果,并把該最后識別結(jié)果送到輸出部分輸出。
全文摘要
一種以字形為基礎(chǔ)的在線手寫中文字識別裝置,減少在線手寫中文字識別系統(tǒng)所需的匹配樣本數(shù),降低匹配時(shí)間。輸入的手寫中文字被拆解為基本字形。然后參照輸入法的取碼規(guī)則,根據(jù)手寫字字體組成方式取出用于比較的字根,接著利用壓縮公式將字根代碼壓縮,再把壓縮碼與輸入法參考文件的內(nèi)容比較,得到候選字的序列碼。最后通過后處理進(jìn)一步比較決定最后識別的序列碼,然后把字型文件中對應(yīng)于該文字的序列碼的文字作為識別結(jié)果并輸出。
文檔編號G06K9/22GK1252584SQ9911954
公開日2000年5月10日 申請日期1999年9月2日 優(yōu)先權(quán)日1998年10月26日
發(fā)明者張憶文, 郭俊桔 申請人:松下電器產(chǎn)業(yè)株式會(huì)社