專利名稱:亂筆順庫建立方法及聯(lián)機(jī)手寫漢字識(shí)別評測系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及手寫漢字識(shí)別系統(tǒng)的評測方法,特別涉及一種建立亂筆順庫的方法及聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的評測系統(tǒng)。
背景技術(shù):
在手寫識(shí)別研究領(lǐng)域,數(shù)據(jù)庫的建設(shè)變得尤為重要,它是發(fā)展、評價(jià)和比較不同字符識(shí)別技術(shù)的必然要求。鑒于聯(lián)機(jī)手寫漢字識(shí)別的應(yīng)用范圍越來越廣、參與聯(lián)機(jī)手寫識(shí)別技術(shù)研發(fā)推廣的機(jī)構(gòu)越來越多,國家質(zhì)檢總局于2002年7月頒布了國家標(biāo)準(zhǔn)《聯(lián)機(jī)手寫漢字識(shí)別技術(shù)要求與測試規(guī)程GB/T18790-2002》,因此,如何建立聯(lián)機(jī)手寫漢字識(shí)別漢字庫,以對聯(lián)機(jī)手寫漢字識(shí)別技術(shù)進(jìn)行客觀公正的評測,變得越來越重要。
在國外,聯(lián)機(jī)手寫數(shù)據(jù)庫建設(shè)中最著名的是UNIPEN,它始于1992年,是由許多大學(xué)和公司,如Tetsu Fujisaki(IBM),Ronjon Nag(Lexicus),Sandy Benett(GO/EO),Dick Lyons(Apple),Yves Chauvin(NetID),Dave Reynolds and Dan Flickinger(HP),Isabelle Guyon(AT&T)and Lambert Schomaker(NICI),參與的聯(lián)機(jī)手寫數(shù)據(jù)庫采集與評測的國際開放性項(xiàng)目,對其樣本數(shù)據(jù)格式進(jìn)行了統(tǒng)一規(guī)定,但是,其主要字符集為英文字符,沒有中文漢字字符。
目前,國外漢字庫建設(shè)資料中,主要有ETL9和PE92,其中,ETL9是日本國家標(biāo)準(zhǔn)(脫機(jī))漢字庫,字符集為日本JIS第1級(jí)漢字2965個(gè)字符、平假名71個(gè)字符,采集對象為4,000個(gè)人,共607,200個(gè)樣本字;PE92為韓國的脫機(jī)漢字庫,其字符集為2350個(gè)KS5601字符,每個(gè)字符的200個(gè)樣本保存為灰度或二值圖片(pdi=200),在聯(lián)機(jī)漢字庫建設(shè)方面,國外還未見諸相關(guān)資料、報(bào)道或介紹。
在國內(nèi),亂筆順樣本庫的建立為隨機(jī)打亂筆順方法(詳見國家標(biāo)準(zhǔn)GB/T18790-2002),即對整個(gè)字的所有筆畫進(jìn)行隨機(jī)排列,得到打亂筆順的樣本,從而建立亂筆順樣本庫,然后,在此基礎(chǔ)上評測聯(lián)機(jī)手寫漢字識(shí)別系統(tǒng)。這種方法沒有很好地利用漢字的結(jié)構(gòu)特征,導(dǎo)致所產(chǎn)生的亂筆順樣本不能如實(shí)地反映書寫者的書寫習(xí)慣,其明顯的弊端是用這種方法產(chǎn)生的亂筆順樣本,會(huì)出現(xiàn)不同偏旁部首之間筆順的交叉打亂,而在實(shí)際書寫時(shí),除非故意書寫者不會(huì)還沒寫完一個(gè)偏旁部首就著手寫下一個(gè)偏旁部首,因此這種亂筆順樣本顯然不能反映書寫者的書寫習(xí)慣,影響了識(shí)別系統(tǒng)的識(shí)別率,從而不能對聯(lián)機(jī)手寫漢字識(shí)別技術(shù)進(jìn)行客觀公正地評測。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種建立亂筆順庫的方法,解決現(xiàn)有亂筆順庫建立方法中包含了在一般書寫時(shí)不可能出現(xiàn)的不同偏旁部首之間筆順的交叉打亂的缺陷,本發(fā)明的另一目的還在于提供一種聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的評測系統(tǒng),以克服現(xiàn)有亂筆順庫所導(dǎo)致的無法合理評測聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的不足。
本發(fā)明提供的一種建立亂筆順庫的方法,包括標(biāo)準(zhǔn)樣本庫的采集和亂筆順庫的生成,所述亂筆順庫是按照筆畫的連通關(guān)系,對采集的聯(lián)機(jī)手寫漢字筆跡數(shù)據(jù)進(jìn)行等價(jià)劃分,分割出至少一個(gè)以上的部件后,再打亂每個(gè)部件內(nèi)筆畫的順序生成的。
作為建立亂筆順庫的方法的一種改進(jìn),在打亂每個(gè)部件內(nèi)筆畫的順序之前或之后,還包括打亂部件之間排列順序的步驟。
所述的部件是將聯(lián)機(jī)漢字筆跡數(shù)據(jù)轉(zhuǎn)化成一幅二值圖像后,深度優(yōu)先搜索二值圖像分割得到的連通分量。
本發(fā)明提供的聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的評測系統(tǒng),包括一計(jì)算機(jī),該計(jì)算機(jī)包括一存儲(chǔ)設(shè)備,用于存儲(chǔ)標(biāo)準(zhǔn)樣本庫和亂筆順庫;和一采集模塊,用于采集標(biāo)準(zhǔn)樣本庫;該計(jì)算機(jī)還包括轉(zhuǎn)換模塊,用于將聯(lián)機(jī)漢字筆跡數(shù)據(jù)轉(zhuǎn)化成一幅二值圖像;分割模塊,用于按照筆畫的連通關(guān)系從二值圖像中分割出至少一個(gè)以上的部件;生成模塊,包括一用于打亂每個(gè)部件內(nèi)筆畫的順序的單元。
所述生成模塊還包括一用于打亂部件之間排列順序的單元。
本發(fā)明的優(yōu)點(diǎn)在于本發(fā)明建立亂筆順庫的方法,基于漢字的結(jié)構(gòu)特征以及書寫習(xí)慣,對原始樣本進(jìn)行分割,得到分割后的部件;然后以部件為基元,將同一部件內(nèi)的筆順、部件之間排列順序隨機(jī)打亂,得到一種新的亂筆順庫,不會(huì)出現(xiàn)如附圖3中(e)、(f)、(g)所示的不同部件之間筆畫的交叉打亂情況,例如,(e)中左邊“口”還未寫完就開始寫右邊“艸”中的豎(筆畫2到3的突變);(f)中的筆畫1到2、5到6、6到7,以及(g)中的筆畫2到3、3到4、5到6都存在這種交叉打亂情況;避免了正常書寫條件下不會(huì)出現(xiàn)一個(gè)部件還沒寫完就開始書寫另一部件的情況。
本發(fā)明聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的評測系統(tǒng),在本發(fā)明的亂筆順庫的基礎(chǔ)上評測聯(lián)機(jī)手寫漢字識(shí)別技術(shù),能更客觀地評測聯(lián)機(jī)手寫漢字識(shí)別技術(shù),為應(yīng)用系統(tǒng)的集成和成果推廣提供科學(xué)依據(jù),以促進(jìn)聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的交流與提高,推動(dòng)成果的應(yīng)用推廣和產(chǎn)業(yè)化。
圖1是生成亂筆順樣本庫的流程圖。
圖2是聯(lián)機(jī)漢字樣本“哎”的部件分割示意圖。
圖3是聯(lián)機(jī)漢字樣本“哎”的亂筆順樣本,其中,(a)是未打亂的原始樣本;(b)、(c)和(d)是本發(fā)明可能生成的亂筆順樣本;(e)、(f)和(g)是本發(fā)明亂筆順樣本中不會(huì)出現(xiàn)的不符合書寫習(xí)慣的亂筆順樣本。
具體實(shí)施例方式
為了更好地理解本發(fā)明,下面結(jié)合附圖和具體實(shí)施方式
進(jìn)一步說明本發(fā)明亂筆順庫的建立過程及評測系統(tǒng)。
(1)首先,由書寫者用壓力式手寫板和采集模塊書寫規(guī)定測試字符樣本,建立標(biāo)準(zhǔn)樣本庫。
聯(lián)機(jī)手寫漢字識(shí)別的對象,也即識(shí)別系統(tǒng)的輸入,是表示成一系列坐標(biāo)點(diǎn)的手寫漢字。這些坐標(biāo)點(diǎn)是對書寫時(shí)筆尖運(yùn)動(dòng)的軌跡進(jìn)行時(shí)域采樣得到的。這些記錄單個(gè)漢字的所有坐標(biāo)點(diǎn)的數(shù)據(jù)稱之為POT數(shù)據(jù)塊,即聯(lián)機(jī)手寫漢字筆跡數(shù)據(jù)。具體地說,每個(gè)POT數(shù)據(jù)塊中包含一個(gè)手寫漢字的字型采樣數(shù)據(jù)和相應(yīng)的漢字內(nèi)碼等信息。在GB/T18790-2002中,對POT數(shù)據(jù)塊的格式進(jìn)行了統(tǒng)一規(guī)定。
采集時(shí),每位書寫者用壓力式手寫板和采集模塊對測試字符集上的每個(gè)字符書寫一遍,按GB/T18790-2002規(guī)定的格式保存為一個(gè)樣本文件,稱為一套樣本,由所有書寫者的樣本文件組成標(biāo)準(zhǔn)樣本庫。
例如,我們在2003年度863計(jì)劃聯(lián)機(jī)手寫漢字識(shí)別評測中,根據(jù)評測組制定的測試大綱,采集并建立了60套聯(lián)機(jī)手寫漢字樣本庫。樣本的字符集范圍是國家標(biāo)準(zhǔn)GB18030-2000中的全部27533個(gè)漢字字符和62個(gè)常用的數(shù)字字母,共采集了1,094,910字,其中數(shù)字、字母、GB18030雙字節(jié)2區(qū)漢字字符各采集了60套,GB18030雙字節(jié)3、4區(qū)和四字節(jié)區(qū)漢字各采集了30套。在此基礎(chǔ)上,建立了10套亂筆順樣本庫(共275,330字),成功地完成了對各參評系統(tǒng)的評測。
(2)然后,在標(biāo)準(zhǔn)樣本庫中隨機(jī)選取規(guī)定套數(shù)的漢字字符樣本(用于建立亂筆順庫),經(jīng)過轉(zhuǎn)換模塊,將聯(lián)機(jī)漢字樣本的筆跡數(shù)據(jù)轉(zhuǎn)化成二值圖像。
筆跡數(shù)據(jù)轉(zhuǎn)化為二值圖像的算法描述如下
輸入聯(lián)機(jī)漢字樣本的筆跡數(shù)據(jù)(POT數(shù)據(jù)塊);輸出聯(lián)機(jī)漢字樣本的二值圖像;步驟Step 1.生成一幅缺省的二值圖像,其寬度和高度分別是聯(lián)機(jī)漢字樣本的寬度W和高度H,將其所有像素值均初始化為255。
Step 2.讀取POT數(shù)據(jù)塊中的總筆畫數(shù),假設(shè)為N。
Step 3.初始化循環(huán)變量i=1;Step 4.若i>=N,則說明所有筆畫處理完畢,則轉(zhuǎn)Step 9;Step 5.初始化循環(huán)變量j=1;Step 6.對于當(dāng)前第i個(gè)筆畫Si中的第j個(gè)點(diǎn)Pj,在POT數(shù)據(jù)塊中取其坐標(biāo)(xj,yj),在二值圖像中置其相應(yīng)位置的像素值為0,并記錄該點(diǎn)所屬的筆畫序號(hào)iStroke[xj][yj]=i(二維數(shù)組Stroke為全局變量);Step 7.若當(dāng)前筆畫Si的點(diǎn)未處理完畢,即在POT數(shù)據(jù)塊中沒有遇到筆畫結(jié)束標(biāo)志(0xFFFF和0x0000,見GB/T18790-2002),則j=j(luò)+1,轉(zhuǎn)Step 6,處理當(dāng)前筆畫的下一點(diǎn);Step 8.i=i+1,轉(zhuǎn)Step 4,處理下一筆畫;Step 9.算法結(jié)束。
(3)再由分割模塊采用深度優(yōu)先搜索算法遍歷該二值圖像,得到的連通分量即為分割后的部件。
漢字由位點(diǎn)、筆畫、部件和單字組成,部件是指構(gòu)成漢字的最小筆畫結(jié)構(gòu)單位,其下限必須大于基本筆畫,上限小于或等于偏旁。
本發(fā)明中的部件是指聯(lián)機(jī)手寫漢字筆跡數(shù)據(jù)中一個(gè)獨(dú)立的連通元。其中,關(guān)于連通元的定義如下在聯(lián)機(jī)手寫漢字筆跡數(shù)據(jù)中,筆畫的連通關(guān)系是由所有筆畫構(gòu)成的集合上的一個(gè)關(guān)系①若任意兩筆畫有公共的交叉點(diǎn),則稱兩者是連通的;②筆畫的連通關(guān)系具有自反性,即一個(gè)筆畫與它本身是連通的;③筆畫的連通關(guān)系具有對稱性,即若筆畫a與筆畫b連通,則筆畫b與筆畫a也是連通的;④筆畫的連通關(guān)系具有傳遞性,即若筆畫a與筆畫b連通,筆畫b與筆畫c連通,則稱筆畫a與筆畫c是連通的。
由以可知,筆畫的連通關(guān)系是等價(jià)關(guān)系(滿足自反、對稱、傳遞性要求),由此構(gòu)成的等價(jià)類稱為連通元。
部件的分割就是按筆畫的連通關(guān)系對聯(lián)機(jī)手寫漢字筆跡數(shù)據(jù)進(jìn)行等價(jià)劃分,得出分割后的部件。因此,部件的分割算法就是確定等價(jià)類的算法在這方面的具體應(yīng)用,可有多種方法實(shí)現(xiàn)。
本發(fā)明采用圖的深度或廣度優(yōu)先搜索法(下面僅以深度優(yōu)先搜索算法為例),即將聯(lián)機(jī)漢字樣本的筆跡數(shù)據(jù)轉(zhuǎn)化成一幅二值圖像,然后采用圖的深度優(yōu)先搜索遍歷該二值圖像,得到的連通分量即為分割后的部件。
如以下的算法描述所示,通過調(diào)用部件分割算法(PotCharSegmentation),該算法調(diào)用深度優(yōu)先搜索算法(DFSBmp),便可完成部件分割,得到包含所有部件的集合P。
①部件分割算法(PotCharSegmentation)輸入聯(lián)機(jī)漢字樣本的二值圖像;輸出經(jīng)分割得到的、包含所有部件的集合P。
步驟Step 1.初始化置部件集合P為空,全局訪問標(biāo)志變量數(shù)組Visited[i][j]=False,表示未訪問,其中i=0,…,H-1;j=0,…,W-1,H、W分別為圖像的高度和寬度;Step 2.初始化循環(huán)變量i=0;Step 3.若i>=H,則轉(zhuǎn)Step 11;Step 4.初始化循環(huán)變量j=0;Step 5.若j>=W,則轉(zhuǎn)Step 10;Step 6.若Visited[i][j]==True,則表示點(diǎn)V(i,j)已訪問,轉(zhuǎn)Step 9;Step 7.以當(dāng)前像素點(diǎn)V(i,j)為搜索起點(diǎn),調(diào)用深度優(yōu)先搜索算法DFSBmp,求出每一連通分量即一個(gè)部件PV,PV為存放部件筆畫序號(hào)的一維整形數(shù)組;Step 8.將部件PV加入到部件集合P中;Step 9.j=j(luò)+1,轉(zhuǎn)Step 5,處理下一列;Step 10.i=i+1,轉(zhuǎn)Step 3,處理下一行;Step 11.算法結(jié)束。
②深度優(yōu)先搜索算法(DFSBmp)輸入搜索起點(diǎn)V0(x0,y0),聯(lián)機(jī)漢字樣本的二值圖像;輸出一個(gè)連通分量即一個(gè)部件P0;步驟Step 1.構(gòu)造一個(gè)空棧SInitStack(S),并置部件P為空;Step 2.將V0入棧Push(S,V0),并置全局標(biāo)志數(shù)組Visited[x0][y0]=True;Step 3.若棧S為空,則轉(zhuǎn)Step 14;
Step 4.出棧令V=Pop(S);Step 5.初始化循環(huán)控制變量i=0,其中i=0,…,7,代表8個(gè)方向;Step 6.若i>=8,則表示V的8個(gè)鄰接點(diǎn)處理完畢,轉(zhuǎn)Step 3;Step 7.求V在第i方向上的鄰接點(diǎn)U,不妨設(shè)U的坐標(biāo)為(x,y);Step 8.若U的像素值≠0,則說明U不是筆畫上的點(diǎn),轉(zhuǎn)Step 13;Step 9.若Visited[x][y]==True,則說明U已訪問,轉(zhuǎn)Step 13;Step 10.置Visited[x][y]=True,并將U入棧Push(S,U);Step 11.令j=Stroke[x][y],表示V所屬的筆畫序號(hào);Step 12.若j沒有加入到部件P0中,則將j加入到部件P0中;Step 13.i=i+1,轉(zhuǎn)Step 6,處理V的下一鄰接點(diǎn);Step 14.算法結(jié)束。
如圖2示例了樣本“哎”字在采用以上算法后得到的分割部件。
鑒于在打亂筆順之前,我們已知待打亂筆順的樣本是什么字,以及該字的偏旁部首等結(jié)構(gòu)信息。因此,在完成上述的部件分割之后,還可以利用這種結(jié)構(gòu)信息幫助解決部件合并以及筆畫粘連問題,以使分割后的部件更趨合理。因?yàn)槁?lián)機(jī)手寫漢字樣本與印刷體漢字相比,可能存在較大變形,所以這方面還有待于進(jìn)一步研究。
(4)最后,由生成模塊先打亂每個(gè)部件內(nèi)筆畫的順序后,再打亂部件排列順序;也可先打亂部件排列順序,再打亂部件內(nèi)的筆順。
在本例中,部件內(nèi)筆畫順序的打亂是指對每個(gè)部件的所有筆畫順序按一定比例進(jìn)行隨機(jī)打亂,再將筆跡數(shù)據(jù)中的部件按打亂后的筆畫順序重新組織,便得到打亂筆順的部件。
現(xiàn)將本發(fā)明中打亂部件內(nèi)筆順的隨機(jī)打亂算法(Perturb)描述如下輸入打亂比例α(缺省值為
范圍內(nèi)的一個(gè)隨機(jī)小數(shù));輸出一維整數(shù)數(shù)組R
,其中的數(shù)組元素R[i]表示打亂前序號(hào)為R[i]的元素經(jīng)打亂后序號(hào)為i;說明隨機(jī)函數(shù)unrand()返回一[0,1)區(qū)間內(nèi)的一個(gè)隨機(jī)小數(shù);步驟Step 1.計(jì)算待打亂的數(shù)組元素個(gè)數(shù)Num=N*α;Step 2.初始化R每一元素為最大隨機(jī)整數(shù)R
=RAND_MAX,表示都未被打亂,其中RAND_MAX>N;Step 3.若Num<=1,則不需打亂,轉(zhuǎn)Step 18;Step 4.隨機(jī)產(chǎn)生打亂起始結(jié)點(diǎn)Start=N*unrand();
Step 5.初始化前驅(qū)結(jié)點(diǎn)Pre=Start和當(dāng)前結(jié)點(diǎn)Cur=-1;Step 6.初始化循環(huán)變量i=0,其中i=0,…,Num-1;Step 7.若i>=Num,則表示隨機(jī)打亂完畢,轉(zhuǎn)Step 18;Step 8.隨機(jī)產(chǎn)生當(dāng)前結(jié)點(diǎn)Cur=N*unrand();Step 9.若R[Cur]≠RAND_MAX或者Cur==Pre,則說明當(dāng)前結(jié)點(diǎn)已打亂或者實(shí)際上沒有打亂,需隨機(jī)另選當(dāng)前結(jié)點(diǎn),轉(zhuǎn)Step 8;Step 10.R[Cur]=Pre;Step 11.若Cur≠Start,則不需要重新產(chǎn)生起始結(jié)點(diǎn),轉(zhuǎn)Step 15;Step 12.隨機(jī)產(chǎn)生起點(diǎn)Start=N*unrand();Step 13.若R[Start]≠RAND_MAX,則說明起始結(jié)點(diǎn)已打亂,需另選起始結(jié)點(diǎn),轉(zhuǎn)Step 12;Step 14.Cur=Start;Step 15.更新前驅(qū)結(jié)點(diǎn)Pre=Cur;Step 16.i=i+1,轉(zhuǎn)Step 7,處理下一結(jié)點(diǎn);Step 17.若Cur≠-1,則回填起始結(jié)點(diǎn)R[Start]=Cur;Step 18.i∈
,若R[i]==RAND_MAX,則說明該結(jié)點(diǎn)不需要打亂,置R[i]=i;Step 19.算法結(jié)束。
通過調(diào)用以上隨機(jī)打亂算法,得到數(shù)組R
,然后將原始筆跡數(shù)據(jù)中部件的筆畫按R
,…,R[N-1]順序重新排列,便得到打亂筆順的部件。
部件之間排列順序的打亂是指對部件的排列順序按一定比例進(jìn)行隨機(jī)打亂,再將筆跡數(shù)據(jù)按打亂后的部件順序重新組織,便得到打亂部件順序的筆跡數(shù)據(jù)。本發(fā)明中部件順序的隨機(jī)打亂算法與部件內(nèi)筆順的隨機(jī)打亂算法(Perturb)相同,在此從略。
綜上所述,亂筆順庫生成是指按以下四種筆順打亂方法之一生成亂筆順庫(1)僅打亂部件內(nèi)的筆順;(2)僅打亂部件排列順序;(3)先打亂部件內(nèi)的筆順,再打亂部件排列順序;(4)先打亂部件排列順序,再打亂部件內(nèi)的筆順。
在實(shí)現(xiàn)亂筆順庫生成算法時(shí),需要考慮筆順打亂方法的選擇。本發(fā)明采用的選擇方法為若分割后的部件總數(shù)大于1,則從以上四種方法中隨機(jī)選取一種方法生成亂筆順庫;否則表示整個(gè)樣本字就是一個(gè)部件,僅按(1)打亂部件內(nèi)的筆順生成亂筆順庫。
權(quán)利要求
1.一種建立亂筆順庫的方法,包括標(biāo)準(zhǔn)樣本庫的采集和亂筆順庫的生成,其特征在于,所述亂筆順庫是按照筆畫的連通關(guān)系,對采集的聯(lián)機(jī)手寫漢字筆跡數(shù)據(jù)進(jìn)行等價(jià)劃分,分割出至少一個(gè)以上的部件后,再打亂每個(gè)部件內(nèi)筆畫的順序生成的。
2.按權(quán)利要求1所述的建立亂筆順庫的方法,其特征在于,在打亂每個(gè)部件內(nèi)筆畫的順序之前或之后,還包括一打亂部件之間排列順序的步驟。
3.按權(quán)利要求1或2所述的建立亂筆順庫的方法,其特征在于,所述的部件是將聯(lián)機(jī)漢字筆跡數(shù)據(jù)轉(zhuǎn)化成一幅二值圖像后,深度優(yōu)先搜索二值圖像分割得到的連通分量。
4.一種聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的評測系統(tǒng),包括一計(jì)算機(jī),該計(jì)算機(jī)包括一存儲(chǔ)設(shè)備,用于存儲(chǔ)標(biāo)準(zhǔn)樣本庫和亂筆順庫;和一采集模塊,用于采集標(biāo)準(zhǔn)樣本庫;其特征在于,所述計(jì)算機(jī)還包括轉(zhuǎn)換模塊,用于將聯(lián)機(jī)漢字筆跡數(shù)據(jù)轉(zhuǎn)化成一幅二值圖像;分割模塊,用于按照筆畫的連通關(guān)系從二值圖像中分割出至少一個(gè)以上的部件;生成模塊,包括一用于打亂每個(gè)部件內(nèi)筆畫的順序的單元。
5.按權(quán)利要求4所述的聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的評測系統(tǒng),其特征在于,所述生成模塊還包括一用于打亂部件之間排列順序的單元。
全文摘要
本發(fā)明涉及一種建立亂筆順庫的方法及聯(lián)機(jī)手寫漢字識(shí)別技術(shù)的評測系統(tǒng)。本發(fā)明方法,包括標(biāo)準(zhǔn)樣本庫的采集和亂筆順庫的生成,其特征在于,所述亂筆順庫是按照筆畫的連通關(guān)系,對采集的聯(lián)機(jī)手寫漢字筆跡數(shù)據(jù)進(jìn)行等價(jià)劃分,分割出至少一個(gè)以上的部件后,再打亂每個(gè)部件內(nèi)筆畫的順序生成的。本發(fā)明的評測系統(tǒng),包括存儲(chǔ)設(shè)備,用于存儲(chǔ)標(biāo)準(zhǔn)樣本庫和亂筆順庫;采集模塊,用于采集標(biāo)準(zhǔn)樣本庫;轉(zhuǎn)換模塊,用于將聯(lián)機(jī)漢字筆跡數(shù)據(jù)轉(zhuǎn)化成一幅二值圖像;分割模塊,用于按照筆畫的連通關(guān)系從二值圖像中分割出至少一個(gè)以上的部件;生成模塊,包括一用于打亂每個(gè)部件內(nèi)筆畫的順序的單元,以及一用于打亂部件之間排列順序的單元。
文檔編號(hào)G06K9/72GK1641686SQ20041000082
公開日2005年7月20日 申請日期2004年1月17日 優(yōu)先權(quán)日2004年1月17日
發(fā)明者唐勝, 錢躍良, 林守勛, 李錦濤 申請人:中國科學(xué)院計(jì)算技術(shù)研究所