專(zhuān)利名稱(chēng):一種識(shí)別手寫(xiě)字符輸入的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及手寫(xiě)字符識(shí)別領(lǐng)域,尤其涉及一種識(shí)別手寫(xiě)字符輸入 的方法及系統(tǒng)。
背景技術(shù):
目前手寫(xiě)輸入的識(shí)別技術(shù)被應(yīng)用到各種通信終端及信息處理終
端;這種類(lèi)型的終端產(chǎn)品通常具有一個(gè)用于書(shū)寫(xiě)的觸摸手寫(xiě)熒光屏, 用戶(hù)能在上面用筆或手指寫(xiě)字,然后經(jīng)過(guò)終端的識(shí)別處理,生成相應(yīng) 的字符顯示在終端上,并進(jìn)行后續(xù)的相關(guān)操作,手寫(xiě)輸入的識(shí)別技術(shù) 提高了輸入的速度和靈活性,因此被普遍地應(yīng)用。
現(xiàn)在的手寫(xiě)輸入的識(shí)別過(guò)程大多分為信號(hào)采集、預(yù)處理、特征提 取、特征匹配等步驟,現(xiàn)有技術(shù)因計(jì)算量大、處理時(shí)間長(zhǎng),使得識(shí)別 速度還是較慢,且識(shí)別精度不高,還有待進(jìn)一步的改進(jìn)。
發(fā)明內(nèi)容
基于現(xiàn)有技術(shù)的不足,本發(fā)明實(shí)施例要解決的技術(shù)問(wèn)題在于提供一 種識(shí)別手寫(xiě)字符輸入的方法及系統(tǒng),使得手寫(xiě)字符輸入識(shí)另"的特征提 取速度更快,且更準(zhǔn)確。
本發(fā)明的目的通過(guò)以下技術(shù)方案實(shí)現(xiàn) 一種識(shí)別手寫(xiě)字符輸入的 方法,包括以下步驟
A、建立由各個(gè)字符類(lèi)的第一樣本中心構(gòu)成的粗分類(lèi)模版,以及 由各個(gè)字符類(lèi)的第二樣本中心構(gòu)成的細(xì)分類(lèi)模版,該細(xì)分類(lèi)模版是根
據(jù)F i s h e r準(zhǔn)則計(jì)算特征變換矩陣,利用該變換矩陣對(duì)全體字符類(lèi)的樣本進(jìn)行特征變換,計(jì)算得到各個(gè)字符類(lèi)的第二樣本中心,然后對(duì)特征
變換矩陣和各個(gè)字符類(lèi)的第二樣本中心進(jìn)行迭代調(diào)整得到的;
B、 接收用戶(hù)手寫(xiě)字符輸入的信號(hào)并采集輸入字符軌跡點(diǎn)的離散 坐標(biāo)序列,進(jìn)行預(yù)處理之后得到該字符的規(guī)整坐標(biāo)序列;
C、 根據(jù)所述規(guī)整坐標(biāo)序列,進(jìn)行特征提取,計(jì)算手寫(xiě)輸入字符 的多維特征矢量;
D、 從所述手寫(xiě)輸入字符的多維特征矢量中選取部分特征值,將 所述手寫(xiě)輸入字符分別與所述粗分類(lèi)模版進(jìn)行匹配,從所述粗分類(lèi)模 版中選取相似度最大的若干個(gè)樣本中心,并將這若干個(gè)樣本中心對(duì)應(yīng) 的字符類(lèi)作為候選字符類(lèi);
E、 利用步驟A中根據(jù)Fisher準(zhǔn)則計(jì)算得到的所述的特征變換矩 陣,對(duì)所述手寫(xiě)輸入字符的多維特征矢量進(jìn)行特征變換,從所述細(xì)分 類(lèi)模版中選取步驟D中得到的所述候選字符類(lèi)的樣本中心,分別與特 征變換后的手寫(xiě)輸入字符進(jìn)行匹配,從所述候選字符類(lèi)中確定最相似 的字符類(lèi),以供用戶(hù)選擇。
本發(fā)明還提供一種識(shí)別手寫(xiě)字符輸入的系統(tǒng),其包括 存儲(chǔ)模塊,用于存儲(chǔ)各個(gè)字符類(lèi),以及所述各個(gè)字符類(lèi)對(duì)應(yīng)的粗
分類(lèi)模版和細(xì)分類(lèi)模版,還有根據(jù)Fisher準(zhǔn)則計(jì)算得到的特征變換矩
陣;
第一信號(hào)采集模塊,用于接收用戶(hù)手寫(xiě)字符輸入的信號(hào)并采集手 寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列;
第一歸一化模塊,用于將所述第一信號(hào)采集模塊采集到的手寫(xiě)字 符軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě) 字符的大小和形狀以及重心的坐標(biāo)值,得到該字符的規(guī)整坐標(biāo)序列;
第一特征提取模塊,用于根據(jù)所述規(guī)整坐標(biāo)序列,將手寫(xiě)字符的 所有相鄰軌跡點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,計(jì)算手寫(xiě)字符的多維特征矢量;
粗分類(lèi)模塊,用于從用戶(hù)手寫(xiě)輸入字符的多維特征矢量中選取部 分特征值,將所述手寫(xiě)輸入字符分別與所述存儲(chǔ)模塊中的粗分類(lèi)模版 進(jìn)行匹配,從中選取相似度最大的若干個(gè)樣本中心,并將這若干個(gè)樣
本中心對(duì)應(yīng)的字符類(lèi)作為候選字符類(lèi);
細(xì)分類(lèi)模塊,用于利用所述存儲(chǔ)模塊中的特征變換矩陣,對(duì)所述 手寫(xiě)輸入字符的多維特征矢量進(jìn)行特征變換,從所述細(xì)分類(lèi)模版中選 取所述候選字符類(lèi)的樣本中心,分別與特征變換后的手寫(xiě)輸入字符進(jìn) 行匹配,從所述候選字符類(lèi)中確定最相似的字符類(lèi),以供用戶(hù)選擇。
顯示模塊,用于顯示所述細(xì)分類(lèi)模塊輸出的最相似的字符類(lèi),以 供用戶(hù)選擇。
與現(xiàn)有技術(shù)相比較,本發(fā)明通過(guò)同時(shí)迭代調(diào)整變換矩陣與所有樣 本中心,能得到更高的識(shí)別精度的細(xì)分類(lèi)模版,從而使得字符識(shí)別的 準(zhǔn)確度更高。
本發(fā)明一種識(shí)別手寫(xiě)字符輸入的方法的一種優(yōu)選實(shí)施方式是,所
述步驟A具體包括以下步驟
Al、采集各個(gè)字符類(lèi)的手寫(xiě)字符樣本,并計(jì)算所述手寫(xiě)字符樣本 的軌跡點(diǎn)的離散坐標(biāo)序列;
A2、將手寫(xiě)字符樣本的軌跡點(diǎn)的離散坐標(biāo)序列進(jìn)行預(yù)處理,得到 該手寫(xiě)字符樣本的規(guī)整坐標(biāo)序列;
A3、根據(jù)所述的規(guī)整坐標(biāo)序列,進(jìn)行特征提取,將所有相鄰軌跡 點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,得到該手寫(xiě)字符樣本的多維 特征矢量;
A4、根據(jù)Fisher準(zhǔn)則,從全體字符類(lèi)的樣本的多維特征矢量中選 取部分特征值,計(jì)算各個(gè)字符類(lèi)的第一樣本中心,得到由各個(gè)字符類(lèi) 的第 一 樣本中心構(gòu)成的粗分類(lèi)模版;
10A5、根據(jù)Fisher準(zhǔn)則計(jì)算特征變換矩陣,利用該變換矩陣對(duì)全體 字符類(lèi)的樣本的多維特征矢量進(jìn)行特征變換,重新計(jì)算得到各個(gè)字符 類(lèi)的第二樣本中心,然后對(duì)特征變換矩陣和所有樣本中心進(jìn)行迭代調(diào) 整,得到由全體字符類(lèi)的第二樣本中心構(gòu)成的細(xì)分類(lèi)模版。
本發(fā)明 一種識(shí)別手寫(xiě)字符輸入的方法的另 一種優(yōu)選實(shí)施方式是, 所述步驟A5具體包括以下步驟
利用根據(jù)F i sher準(zhǔn)則得到的特征變換矩陣,將所有字符類(lèi)的樣本 進(jìn)行特征變換,降低其多維特征矢量的維數(shù);
重新計(jì)算特征變換后的所有字符類(lèi)的樣本中心;
對(duì)所述特征變換矩陣及所有字符類(lèi)的樣本中心進(jìn)行迭代調(diào)整,重 新計(jì)算特征變換矩陣和所有字符類(lèi)的樣本中心,得到由全體字符類(lèi)的
樣本中心構(gòu)成的細(xì)分類(lèi)才莫版。
本發(fā)明 一種識(shí)別手寫(xiě)字符輸入的方法的另一種優(yōu)選實(shí)施方式是, 所述步驟E具體包括以下步驟
利用步驟A5中所述迭代調(diào)整后的特征變換矩陣,對(duì)用戶(hù)手寫(xiě)輸 入的字符進(jìn)行特征變換,得到其低維特征矢量;
從所述細(xì)分類(lèi)模版中選取所述候選字符類(lèi)的樣本中心,分別與特 征變換后的手寫(xiě)輸入字符的低維特征矢量進(jìn)行匹配,從候選字符類(lèi)中 確定相似度最大的字符類(lèi),以供用戶(hù)選擇。
本發(fā)明一種識(shí)別手寫(xiě)字符輸入的方法的另 一種優(yōu)選實(shí)施方式是, 所述步驟A3和C具體包括以下步驟
根據(jù)所述規(guī)整坐標(biāo)序列,將所有相鄰軌跡點(diǎn)形成的矢量線段分解 到八個(gè)標(biāo)準(zhǔn)方向,每個(gè)標(biāo)準(zhǔn)方向上得到各個(gè)矢量線段的長(zhǎng)度值;
對(duì)所述得到的各個(gè)矢量線段的長(zhǎng)度值進(jìn)行處理,計(jì)算大尺度特征 值和小尺度特征值,得到由大尺度特征值和小尺度特征值構(gòu)成的多維 特征矢量。
ii本發(fā)明一種識(shí)別手寫(xiě)字符輸入的方法的另 一種優(yōu)選實(shí)施方式是,
所述步驟D具體包括以下步驟
根據(jù)Fisher準(zhǔn)則,從所述手寫(xiě)輸入字符的多維特征矢量中選取部 分特征值,所述手寫(xiě)輸入字符具有與字符類(lèi)的樣本相同維數(shù)的由選取 特征值構(gòu)成的特征矢量;
將所述手寫(xiě)輸入字符分別與所述粗分類(lèi)模版進(jìn)行匹配,從預(yù)存儲(chǔ) 字符類(lèi)中選取相似度最大的若干個(gè)候選字符類(lèi)。
本發(fā)明一種識(shí)別手寫(xiě)字符輸入的方法的另 一種優(yōu)選實(shí)施方式是, 所述步驟A2、 B中的預(yù)處理是將采集到的手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo) 序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě)輸入字符的大小和形 狀以及重心的坐標(biāo)值,具體包括以下步驟
將所有軌跡點(diǎn)的橫坐標(biāo)值和縱坐標(biāo)值變換到介于0到100之間; 分別計(jì)算所有軌跡點(diǎn)橫坐標(biāo)和縱坐標(biāo)的重心坐標(biāo)值; 將所有軌跡點(diǎn)坐標(biāo)值和重心坐標(biāo)值除以100, 4吏所有軌跡點(diǎn)坐標(biāo) 值和重心坐標(biāo)值變?yōu)镺到l之間,利用4吏重心坐標(biāo)值的4黃坐標(biāo)和縱坐 標(biāo)變?yōu)?.5的一個(gè)平滑連續(xù)函數(shù),將采集到的手寫(xiě)字符軌跡點(diǎn)的離散 坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列;
再將所有軌跡點(diǎn)坐標(biāo)值乘以64,得到輸入字符的規(guī)整坐標(biāo)序列。
本發(fā)明 一 種識(shí)別手寫(xiě)字符輸入的系統(tǒng)的 一 種優(yōu)選實(shí)施方式是,該 系統(tǒng)還包括一個(gè)匹配模版獲得子系統(tǒng),該子系統(tǒng)包括
第二信號(hào)采集模塊,用于接收手寫(xiě)字符樣本的信號(hào)并采集手寫(xiě)字 符軌跡點(diǎn)的離散坐標(biāo)序列;
第二歸一化模塊,用于將所述第二信號(hào)采集模塊采集到的手寫(xiě)字 符軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě) 字符的大小和形狀以及重心的坐標(biāo)值,得到該字符的規(guī)整坐標(biāo)序列;
第二特征提取模塊,用于根據(jù)所述規(guī)整坐標(biāo)序列,將手寫(xiě)字符的所有相鄰軌跡點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,計(jì)算手寫(xiě)字符 的多維特征矢量;
粗分類(lèi)模版計(jì)算模塊,用于從所述特征提取模塊得出的全體字符 類(lèi)的樣本的多維特征矢量中,選取部分特征值,計(jì)算各個(gè)字符類(lèi)的樣 本中心,得到由全體字符類(lèi)的樣本中心構(gòu)成的粗分類(lèi)模版,并將該粗
分類(lèi)模版存儲(chǔ)到所述存儲(chǔ)模塊;
細(xì)分類(lèi)模版計(jì)算模塊,用于根據(jù)Fisher準(zhǔn)則計(jì)算特征變換矩陣, 利用該變換矩陣對(duì)全體字符類(lèi)的樣本的多維特征矢量進(jìn)行特征變換, 重新計(jì)算各個(gè)字符類(lèi)的樣本中心,然后對(duì)特征變換矩陣和所有樣本中
心進(jìn)行迭代調(diào)整,得到由全體字符類(lèi)的樣本中心構(gòu)成的細(xì)分類(lèi)模版, 并將該細(xì)分類(lèi)模版和所述特征變換矩陣存儲(chǔ)到所述存儲(chǔ)模塊。
本發(fā)明一種識(shí)別手寫(xiě)字符輸入的系統(tǒng)的另 一種優(yōu)選實(shí)施方式是, 所述第一信號(hào)采集模塊和第二信號(hào)采集模塊還包括
采集單元,用于接收手寫(xiě)字符的信號(hào)并采集手寫(xiě)字符軌跡點(diǎn)的離 散坐標(biāo)序列;
判斷單元,用于判斷一個(gè)手寫(xiě)字符輸入是否結(jié)束,當(dāng)未接收到手 寫(xiě)字符輸入信號(hào)的時(shí)間超過(guò)設(shè)定的閾值,則結(jié)束該字符離散坐標(biāo)序列 的采集;
檢測(cè)單元,用于檢查采集到的手寫(xiě)字符的軌跡點(diǎn)是否只有一個(gè), 如果是則刪除該軌跡點(diǎn)重新采集;以及檢測(cè)采集到的手寫(xiě)字符的軌跡 點(diǎn)中相鄰點(diǎn)之間的坐標(biāo)距離,如果該距離小于設(shè)定的閾值,則刪除其 中的一點(diǎn),使得相鄰點(diǎn)之間保持一定距離。
圖1是本發(fā)明實(shí)施例一種識(shí)別手寫(xiě)字符輸入方法的流程圖。
圖2是本發(fā)明實(shí)施例一 種識(shí)別手寫(xiě)字符輸入方法的詳細(xì)流程圖。
13圖3是本發(fā)明實(shí)施例一 種識(shí)別手寫(xiě)字符輸入系統(tǒng)的結(jié)構(gòu)示意圖。
圖4是本發(fā)明實(shí)施例 一 種識(shí)別手寫(xiě)字符輸入系統(tǒng)的詳細(xì)結(jié)構(gòu)示意圖。
圖5a是圖1中步驟S02中字符大小形狀調(diào)整前的示意圖。
圖5b是圖1中步驟S02中字符大小形狀調(diào)整后的示意圖。
圖6是圖1中步驟S02將調(diào)整后的字符放進(jìn)一個(gè)網(wǎng)格的示意圖。
圖7是圖1中步驟S03中所述的8個(gè)標(biāo)準(zhǔn)方向圖。
圖8是圖1中步驟S03中所述的將一個(gè)矢量線段分解到2個(gè)標(biāo)準(zhǔn)方向的示 意圖。
具體實(shí)施例方式
為使本發(fā)明更加容易理解,結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步闡述,但 附圖中的實(shí)施例不構(gòu)成對(duì)本發(fā)明的任何限制。
本發(fā)明是對(duì)手寫(xiě)輸入的字符經(jīng)過(guò)坐標(biāo)序列采集,預(yù)處理、特征矢 量提取、粗分類(lèi)、細(xì)分類(lèi)等處理流程,從而最終識(shí)別該手寫(xiě)字符。
圖1示出了本發(fā)明實(shí)施例一種識(shí)別手寫(xiě)字符輸入方法的流程圖,其中 獲得字符匹配模版的方法包括以下步驟
步驟SOl,采集全體各個(gè)字符類(lèi)的手寫(xiě)字符樣本,并計(jì)算所述手 寫(xiě)字符樣本的軌跡點(diǎn)的離散坐標(biāo)序列;具體地用筆在觸摸屏上書(shū)寫(xiě), 下筆時(shí)把筆尖的位置(x,y)坐標(biāo)序列記錄下來(lái)。 一個(gè)輸入字符的完整 書(shū)寫(xiě)軌跡用 一個(gè)(x,y)序列表示((xl,yl), (x2,y2),…,(xn,yn)}。
步驟S02,將手寫(xiě)字符樣本的軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,進(jìn)行預(yù)處理得到該手寫(xiě)字符樣本的規(guī)整坐標(biāo)序列; 具體地,利用一個(gè)平滑連續(xù)函數(shù),將采集到的手寫(xiě)字符軌跡點(diǎn)的離散 坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě)字符的大小和形 狀以及重心的坐標(biāo)值,得到該手寫(xiě)字符的規(guī)整坐標(biāo)序列;字符軌跡的 歸一化有兩個(gè)目的大小標(biāo)準(zhǔn)化和形狀才交正。如圖5a-5b所示,圖5a中的字符經(jīng)過(guò)歸一化后變成了圖5b中的形狀,不僅邊界變成了規(guī)定的 大小(所有字符經(jīng)歸一化后邊界變成相同大小),而且形狀也發(fā)生了變 化,變得更規(guī)范,從而更容易識(shí)別。
歸一化是通過(guò)兩個(gè)座標(biāo)變換函數(shù)x: 和y^,實(shí)現(xiàn),把字符軌跡中
每 一 點(diǎn)的座標(biāo)(x,y)用(x, ,y ,)代替后,就得到歸 一 化的字符軌跡。 參數(shù)a和b的估計(jì)方法如下
首先,找出座標(biāo)序列中x和y的最小值,4巴所有點(diǎn)的x和y坐標(biāo) 分別減去x和y的最小值,從而使x和y的最小值都變成0。然后, 所有的x和y值乘以100/u,其中u是所有點(diǎn)x和y的最大值,從而使 x和y <直介于0到100之間。
笫二步,求筆劃軌跡在水平方向和垂直方向上的投影。把字符筆 劃軌跡放進(jìn)一個(gè)100x100的網(wǎng)才各,如圖6所示(示意圖中為10x10的 網(wǎng)格)。把每一縱列格子中的筆劃長(zhǎng)度相加,就得到水平方向的投影 fx(i), i=l,2,...,100。同樣,把每一行格子中的筆劃長(zhǎng)度相加,就得到垂 直方向的投影fy(i) , i=l,2,...,100.由fx(i)計(jì)算水平方向的重心
100
同樣,由fy(i)計(jì)算垂直方向的重心yc。
第三步,把所有點(diǎn)的坐標(biāo)及(xc,yc)除以100,變?yōu)?到l之間。
a _ log 0.5
函數(shù)? = 和/ = /分別把xc和yc變?yōu)?.5,即<=()'5, ^gx。,同樣 b = log 0.5
;;/=0'5, logye 。經(jīng)過(guò)變換,使字符軌跡的重心移到(0.5 ,0.5)而邊界 保持不變。
第四步,把(x,,y,)乘以一個(gè)給定的倍數(shù),從而使字符的外框變?yōu)?規(guī)定的大小。這個(gè)倍數(shù)我們定為64。最后,歸一化字符軌跡中所有點(diǎn)的坐標(biāo)介于0到64之間。
步驟S03,根據(jù)所述的規(guī)整坐標(biāo)序列,進(jìn)行特征提取,將所有相 鄰軌跡點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,得到該手寫(xiě)字符樣本 的多維特征矢量;基本思想如下如圖7所示,把筆劃線段(每相鄰 兩點(diǎn)之間連成一條矢量線段)分解到Dl至D8的8個(gè)標(biāo)準(zhǔn)方向,記錄 64x64網(wǎng)格中每個(gè)格子中各個(gè)方向的線段長(zhǎng)度值,然后計(jì)算兩個(gè)尺度 的方向特征值。
第 一 步,把筆劃線段分解到8個(gè)標(biāo)準(zhǔn)方向。坐標(biāo)點(diǎn)序列中每相鄰 兩點(diǎn)之間連成一條線段,是一個(gè)有方向的矢量fj。該矢量f;的方向介于 兩個(gè)標(biāo)準(zhǔn)方向D2與D3之間,把矢量f,分解成兩個(gè)標(biāo)準(zhǔn)方向D2與D3 上的分量(如圖8所示),每個(gè)標(biāo)準(zhǔn)方向上的分量長(zhǎng)度計(jì)入所在格子中 該方向的線段長(zhǎng)度值。這樣,在8個(gè)方向的每個(gè)方向上得到64x64個(gè) 線段長(zhǎng)度值。
第二步,計(jì)算大尺度特征。把每個(gè)方向上的64x64網(wǎng)格均勻分成 4x4個(gè)方格,計(jì)算每個(gè)方格中各個(gè)方向上線段長(zhǎng)度值的和,得到 8x4x4=128個(gè)特征值。
第三步,計(jì)算小尺度特征。把每個(gè)方向上的64x64網(wǎng)格均勻分成 8x8個(gè)方格,計(jì)算每個(gè)方格中各個(gè)方向上線段長(zhǎng)度值的和,得到 8x8x8=512個(gè)特征值。
大尺度特征和小尺度特征的總個(gè)數(shù)為128+512=640。
步驟S04,從全體字符類(lèi)的樣本的多維特征矢量中選取部分特征 值,計(jì)算各個(gè)字符類(lèi)的樣本中心,得到由全體字符類(lèi)的樣本中心構(gòu)成 的粗分類(lèi)模版;具體地,根據(jù)Fisher準(zhǔn)則,從每一個(gè)字符類(lèi)的樣本的 多維特征矢量中,選取使得Fisher比最大的若干個(gè)特征值,計(jì)算各個(gè) 字符類(lèi)的樣本中心,得到由全體字符類(lèi)的樣本中心構(gòu)成的粗分類(lèi)模版。
該步驟的目的是從預(yù)存儲(chǔ)字符類(lèi)的樣本的特征矢量中獲得粗分類(lèi)
16模版,為了提高粗分類(lèi)的速度,要選擇一部分特征計(jì)算匹配距離,特 征選擇和模版設(shè)計(jì)是在一個(gè)訓(xùn)練樣本集合上進(jìn)行的。訓(xùn)練樣本集包含
每個(gè)字符類(lèi)別的手寫(xiě)樣本,每個(gè)樣本經(jīng)特征提取用640個(gè)特征值(640
維的特征矢量xz[x"…,XM。F )表示。設(shè)有C個(gè)類(lèi)別的總共N個(gè)樣本,其 中類(lèi)別i有Ni個(gè)樣本。選擇特征的準(zhǔn)則是Fisher準(zhǔn)則(模式識(shí)別教材 上有詳細(xì)說(shuō)明)Fisher準(zhǔn)則函數(shù)的基本思想是,構(gòu)造評(píng)價(jià)函數(shù),使得 當(dāng)評(píng)價(jià)函數(shù)最優(yōu)時(shí),被分類(lèi)的類(lèi)別之間的距離盡可能大,同時(shí)各類(lèi)內(nèi) 部樣本間距離盡可能小。
將第i類(lèi)的第j個(gè)樣本表示為特征矢量<(由部分候選特征組成), 則各個(gè)類(lèi)別的樣本中心(均值)為
<formula>formula see original document page 17</formula> (2)
〃。=丄|>,〃' 總的中心為 。
類(lèi)內(nèi)協(xié)方差矩陣和類(lèi)間協(xié)方差矩陣分別計(jì)算為
<formula>formula see original document page 17</formula> (4)
特征選擇的目標(biāo)是在選擇部分特征的基礎(chǔ)上,矩陣S;X的跡t"《Sb)
(Fisher比)達(dá)到最大值。這里的x'J候選特征在特征選擇過(guò)程中是變 化的。尋找Fisher比最大的特征組合是一個(gè)組合優(yōu)化問(wèn)題,可用順序 前向搜索法近似求解
先計(jì)算每一個(gè)特征的Fisher比,選4奪Fisher比最大的特征。然后 把余下特征中的每一個(gè)依次與已選特征組成特征矢量計(jì)算Fisher比, 選擇Fisher比最大的特征加入已選特征。如此反復(fù),直到已選特征達(dá) 到規(guī)定的數(shù)目(定為100以下)為止。
特征選擇的具體過(guò)程如下首先以640個(gè)特征中的每一個(gè)依次作為候選,計(jì)算Fisher比,以Fisher比最大的 一個(gè)特征作為選出來(lái)的第 一個(gè)特征。然后把剩下的639個(gè)特征中的每一個(gè)依次與第一次選出來(lái) 的特征一起(此時(shí)候選特征有兩個(gè))評(píng)1"介,選出Fisher比最大的含有 2個(gè)特征值的組合。然后4巴剩下的638個(gè)特征中的每一個(gè)依次與前面 選出來(lái)的含有2個(gè)特征值的組合一起(此時(shí)候選特征有3個(gè))評(píng)j介, 選出Fisher比最大的含有3個(gè)特征值的組合。如此反復(fù),直到選出來(lái) 的特征數(shù)達(dá)到指定的數(shù)目為止。特征選擇完成后,特征集也就固定了。
經(jīng)過(guò)特征選擇后,各個(gè)類(lèi)別的粗分類(lèi)模版是一類(lèi)樣本的中心(均 值),用公式(2)計(jì)算。
步驟S05,根據(jù)Fisher準(zhǔn)則計(jì)算特征變換矩陣,利用該變換矩陣 對(duì)全體字符類(lèi)的樣本的多維特征矢量進(jìn)行特征變換,重新計(jì)算各個(gè)字 符類(lèi)的樣本中心,得到由全體字符類(lèi)的樣本中心構(gòu)成的細(xì)分類(lèi)模版; 為了得到更高的識(shí)別精度,細(xì)分類(lèi)特征采取特征變換,而不是特征選 擇,即把原來(lái)D=640維的特征矢量經(jīng)線性變換得到低維(d〈D)矢量,
特征變換后的特征矢量維數(shù)一般定為IOO到150之間。利用公式y(tǒng) = Wx 進(jìn)行特征變換,其中W為dxD的變換矩陣。求解變換矩陣使Fisher
比tr[(wSwWT)-'w、wT]最大,其結(jié)果,w的每一行是矩陣s;X對(duì)應(yīng)本征值
最大的d個(gè)本征向量(這是標(biāo)準(zhǔn)的數(shù)學(xué)方法,不必贅述)。經(jīng)過(guò)降維后, 各個(gè)類(lèi)別的模版是一類(lèi)樣本的中心(公式(2))。
像上面這樣得到的特征變換矩陣和類(lèi)別模版還不能得到很高的識(shí) 別精度。為此,對(duì)變換矩陣和類(lèi)別模版進(jìn)行迭代調(diào)整,使在訓(xùn)練樣本 集合上的分類(lèi)錯(cuò)誤(每個(gè)樣本分到距離最近的類(lèi)別)逐步減少。首先, 將所有訓(xùn)練樣本的權(quán)重設(shè)為l,用Fisher準(zhǔn)則得到的變換矩陣和類(lèi)別
中心模版對(duì)所有的訓(xùn)練樣本分類(lèi),每個(gè)錯(cuò)分的樣本權(quán)重加l。設(shè)樣本x;
(i類(lèi)的第j個(gè)樣本)的權(quán)重表示為v〗,按下式重新計(jì)算類(lèi)中心、類(lèi)內(nèi) 和類(lèi)間協(xié)方差矩陣1 &
1 C Wi
i=l j=l
i=l j-1
(5)
(6)
(7)
,其中 h ( 8 )
在此基礎(chǔ)上通過(guò)使tr[(WSwWT)"WTSbWT]最大化重新計(jì)算變換矩陣和
特征變換后的類(lèi)中心,重新對(duì)訓(xùn)練樣本分類(lèi),錯(cuò)分的樣本權(quán)重加1; 如此反復(fù),直到訓(xùn)練樣本的分類(lèi)錯(cuò)誤不再進(jìn)一步減少為止。
通過(guò)上述的方法步驟,得到了手寫(xiě)識(shí)別過(guò)程中要用到的粗分類(lèi)模 版和細(xì)分類(lèi)模版;手寫(xiě)輸入字符識(shí)別的流程包括以下步驟
步驟S06,接收用戶(hù)手寫(xiě)字符輸入的信號(hào)并采集輸入字符軌跡點(diǎn) 的離散坐標(biāo)序列,進(jìn)行預(yù)處理之后得到該字符的規(guī)整坐標(biāo)序列;
該步驟的處理過(guò)程與上述的步驟SOI和S02類(lèi)似,首先用筆在觸 摸屏上書(shū)寫(xiě),下筆時(shí)把筆尖的位置(x,y)坐標(biāo)序列記錄下來(lái)。 一個(gè)輸 入字符的完整書(shū)寫(xiě)軌跡用 一個(gè)(x,y)序列表示((xl,yl), (x2,y2),…, (xn,yn)}。
然后利用一個(gè)平滑連續(xù)函數(shù),將采集到的手寫(xiě)字符軌跡點(diǎn)的離散 坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě)字符的大小和形 狀以及重心的坐標(biāo)值,得到該手寫(xiě)字符的規(guī)整坐標(biāo)序列;字符軌跡的 歸一化有兩個(gè)目的大小標(biāo)準(zhǔn)化和形狀校正。如圖5a-5b所示,圖5a 中的字符經(jīng)過(guò)歸一化后變成了圖5b中的形狀,不僅邊界變成了規(guī)定的 大小(所有字符經(jīng)歸一化后邊界變成相同大小),而且形狀也發(fā)生了變 化,變得更規(guī)范,從而更容易識(shí)別。歸一化是通過(guò)兩個(gè)座標(biāo)變換函數(shù)
191'=,和/ = /實(shí)現(xiàn),把字符軌跡中每一點(diǎn)的座標(biāo)(x,y)用(x,,y,)代替后, 就得到歸一化的字符軌跡。參數(shù)a和b的估計(jì)方法和步驟S02中所述 的方法相同。
步驟S07,根據(jù)所述規(guī)整坐標(biāo)序列,進(jìn)行特征提取計(jì)算手寫(xiě)輸入 字符的多維特征矢量;具體的特征提取過(guò)程與步驟S03中所述的過(guò)程 相同,如圖7所示,把筆劃線段(每相鄰兩點(diǎn)之間連成一條矢量線段) 分解到Dl至D8的8個(gè)標(biāo)準(zhǔn)方向,記錄64x64網(wǎng)格中每個(gè)4各子中各個(gè) 方向的線段長(zhǎng)度值,然后計(jì)算兩個(gè)尺度的方向特征值。
第一步,把筆劃線段分解到8個(gè)標(biāo)準(zhǔn)方向。坐標(biāo)點(diǎn)序列中每相鄰 兩點(diǎn)之間連成一條線段,是一個(gè)有方向的矢量f;。該矢量f,的方向介于 兩個(gè)標(biāo)準(zhǔn)方向D2與D3之間,把矢量&分解成兩個(gè)標(biāo)準(zhǔn)方向D2與D3 上的分量(如圖8所示),每個(gè)標(biāo)準(zhǔn)方向上的分量長(zhǎng)度計(jì)入所在格子中 該方向的線段長(zhǎng)度值。這樣,在8個(gè)方向的每個(gè)方向上得到64x64個(gè) 線段長(zhǎng)度值。
第二步,計(jì)算大尺度特征。把每個(gè)方向上的64x64網(wǎng)格均勻分成 4x4個(gè)方格,計(jì)算每個(gè)方格中各個(gè)方向上線段長(zhǎng)度值的和,得到 8x4x4=128個(gè)特征值。
第三步,計(jì)算小尺度特征。把每個(gè)方向上的64x64網(wǎng)格均勻分成 8x8個(gè)方格,計(jì)算每個(gè)方格中各個(gè)方向上線段長(zhǎng)度值的和,得到 8x8x8=512個(gè)特征值。
大尺度特征和小尺度特征的總個(gè)數(shù)為128+512=640。 步驟S08,從所述手寫(xiě)輸入字符的多維特征矢量中選取部分特征 值,將所述手寫(xiě)輸入字符分別與所述粗分類(lèi)模版進(jìn)行匹配,從所述粗 分類(lèi)模版中選取相似度最大的若千個(gè)樣本中心,并將這若干個(gè)樣本中 心對(duì)應(yīng)的字符類(lèi)作為候選字符類(lèi);具體地,根據(jù)Fisher準(zhǔn)則,從手寫(xiě) 輸入字符的多維特征矢量中,選取使得Fisher比最大的若干個(gè)特征值,選取的特征值個(gè)數(shù)與步驟S04中選取的特征值個(gè)數(shù)相同。
模版匹配的距離計(jì)算如下設(shè)手寫(xiě)輸入字符的多維特征矢量表示
為矢量X =",…,X"]T ,粗分類(lèi)模版中 一 個(gè)類(lèi)別的樣本中心表示為特征矢
量y-U,…,凡]T,則通過(guò)如下公式計(jì)算匹配距離
<formula>formula see original document page 21</formula> ( 9 )
步驟S09,利用步驟SO5中根據(jù)Fisher準(zhǔn)則計(jì)算得到的特征變換矩陣,對(duì)所述手寫(xiě)輸入字符的多維特征矢量進(jìn)行特征變換,從所述細(xì)分類(lèi)模版中選取所述候選字符類(lèi)的樣本中心,分別與特征變換后的手寫(xiě)輸入字符進(jìn)行匹配,從所述候選字符類(lèi)中確定最相似的字符類(lèi),以供用戶(hù)選擇;然后返回步驟S06,進(jìn)行下一個(gè)手寫(xiě)字符的輸入識(shí)別。
該步驟的目的是進(jìn)行細(xì)分類(lèi),對(duì)一個(gè)輸入字符,步驟S08粗分類(lèi)找出M個(gè)候選類(lèi)別后,細(xì)分類(lèi)采用比粗分類(lèi)更多的特征,利用公式(9)重新計(jì)算輸入字符到M個(gè)候選類(lèi)別模版的距離,取距離最近的類(lèi)別作為最終識(shí)別結(jié)果。
細(xì)分類(lèi)給出匹配距離最小的多個(gè)( 一般為10個(gè))類(lèi)別作為最終候選。這些候選類(lèi)別可以直接顯示出來(lái)供用戶(hù)選擇,或利用語(yǔ)言規(guī)則根據(jù)上下文自動(dòng)選擇。
步驟S08的粗分類(lèi)是把輸入字符(待識(shí)別字符)的特征矢量與模版數(shù)據(jù)庫(kù)中存儲(chǔ)的各個(gè)字符類(lèi)別的模版進(jìn)行比較(匹配),找出距離最小(也就是相似度最大)的M (比如M=100)個(gè)類(lèi)別作為候選,在步驟S09的細(xì)分類(lèi)中再找出距離最小的候選類(lèi)別作為最終識(shí)別結(jié)果。
粗分類(lèi)和細(xì)分類(lèi)所比較的模版不同(特征也不一樣)粗分類(lèi)模版簡(jiǎn)單(特征少),計(jì)算速度快,細(xì)分類(lèi)模版復(fù)雜(特征較多),計(jì)算速度較慢。
粗分類(lèi)的目的是快速找出M個(gè)候選類(lèi)別后,細(xì)分類(lèi)中不必計(jì)算所有類(lèi)別的距離(只計(jì)算M個(gè)候選類(lèi)別的距離),從而提高總體識(shí)別速度。
舉個(gè)例子來(lái)說(shuō)明有字符類(lèi)表示為R、 S、 T、 U、 V……,其對(duì)應(yīng)的粗分類(lèi)才莫版表示為Rl、 Sl、 Tl、 Ul、 VI……,其對(duì)應(yīng)的細(xì)分類(lèi)模版表示為R2、 S2、 T2、 U2、 V2……;此時(shí)用戶(hù)輸入一個(gè)手寫(xiě)字符Z,經(jīng)過(guò)特征選取后與粗分類(lèi)模版進(jìn)行匹配,得到相似度最大的幾個(gè)樣本中心Rl、 Sl、 Tl,因此將R、 S、 T選取作為候選字符類(lèi);從細(xì)分類(lèi)模版中選取候選字符類(lèi)R、 S、 T對(duì)應(yīng)的樣本中心R2、 S2、T2,然后再將手寫(xiě)字符Z特征變換后與R2、 S2、 T2進(jìn)行匹配,獲得匹配距離最小的是S2,此時(shí)就將字符類(lèi)S作為最后的識(shí)別對(duì)象。
綜上所述,圖2示出了本發(fā)明實(shí)施例一種識(shí)別手寫(xiě)字符輸入方法的詳細(xì)流程步驟S05具體包括以下步驟
步驟S051,利用根據(jù)Fisher準(zhǔn)則得到的特征變換矩陣,將所有字符類(lèi)的樣本進(jìn)行特征變換,降低其多維特征矢量的維數(shù);
步驟S052,重新計(jì)算特征變換后的所有字符類(lèi)的樣本中心;
步驟S053,對(duì)所述特征變換矩陣及所有字符類(lèi)的樣本中心進(jìn)行迭代調(diào)整,重新計(jì)算特征變換矩陣和所有字符類(lèi)的樣本中心,得到由全體字符類(lèi)的樣本中心構(gòu)成的細(xì)分類(lèi)模版。
所述步驟S06具體包括以下步驟
步驟S061,接收手寫(xiě)字符輸入的信號(hào)并采集輸入字符軌跡點(diǎn)的離散坐標(biāo)序列;
步驟S062,判斷一個(gè)字符輸入是否結(jié)束,當(dāng)未接收到手寫(xiě)字符輸入信號(hào)的時(shí)間超過(guò)設(shè)定的閾值,則結(jié)束該字符離散坐標(biāo)序列的采集;當(dāng)提筆時(shí)間超過(guò)一個(gè)閾值(如0.5秒)時(shí),視為一個(gè)字書(shū)寫(xiě)結(jié)束;一個(gè)輸入字符的完整書(shū)寫(xiě)軌跡用 一個(gè)(x,y)序列表示((xl,yl), (x2,y2),…,(xn,yn)},其中,提筆用 一個(gè)特殊的座標(biāo)(-l,O)表示。
步驟S063,檢查采集到的手寫(xiě)字符的軌跡點(diǎn)是否只有一個(gè),如果是則刪除該軌跡點(diǎn)重新采集;
步驟S064,檢測(cè)采集到的手寫(xiě)字符的軌跡點(diǎn)中相鄰點(diǎn)之間的坐標(biāo)距離,如果該距離小于設(shè)定的閾值,即如果兩個(gè)相鄰點(diǎn)位置重合或離得非常緊,則刪除其中的一點(diǎn),使得相鄰點(diǎn)之間保持一定距離;
步驟S065,利用一個(gè)平滑連續(xù)函數(shù),將采集到的手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě)輸入字符的大小和形狀以及重心的坐標(biāo)值,得到該字符的規(guī)整坐標(biāo)序列。
所述步驟S07具體包括以下步驟
步驟S071,根據(jù)手寫(xiě)字符的規(guī)整坐標(biāo)序列,將所有相鄰軌跡點(diǎn)形成的矢量線段分解到8個(gè)標(biāo)準(zhǔn)方向(如圖7和8所示),每個(gè)標(biāo)準(zhǔn)方向上得到矢量線段長(zhǎng)度值;
步驟S072,對(duì)所述得到的矢量線段長(zhǎng)度值進(jìn)行處理,得到大尺度特征值和小尺度特征值構(gòu)成的多維特征矢量。
所述步驟S08具體包括以下步驟
步驟S081,根據(jù)Fisher準(zhǔn)則,從所述手寫(xiě)輸入字符的多維特征矢量中選取部分特征值,所述手寫(xiě)輸入字符具有與字符類(lèi)的樣本相同維數(shù)的由選取特征值構(gòu)成的特征矢量;
步驟S082,將所述手寫(xiě)輸入字符分別與所述粗分類(lèi)模版進(jìn)行匹配,從預(yù)存儲(chǔ)字符類(lèi)中選取相似度最大的若千個(gè)候選字符類(lèi)。
所述步驟S09具體包括以下步驟
步驟S091,用迭代調(diào)整后的特征變換矩陣對(duì)手寫(xiě)輸入字符進(jìn)行特征變換,得到其低維特征矢量;
步驟S092,該手寫(xiě)輸入字符的低維特征矢量分別與從所述細(xì)分類(lèi)模版中選取的候選字符類(lèi)的樣本中心進(jìn)行匹配,從候選字符類(lèi)中確定相似度最大的字符類(lèi),以供用戶(hù)選擇。圖3示出了本發(fā)明實(shí)施例一種識(shí)別手寫(xiě)字符輸入的系統(tǒng)的結(jié)構(gòu)示
意圖。該系統(tǒng)包括
第一信號(hào)采集模塊1,用于接收手寫(xiě)字符輸入的信號(hào)并采集該手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列;
第一歸一化模塊2,用于利用一個(gè)平滑連續(xù)函數(shù),將采集到的手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě)字符的大小和形狀以及重心的坐標(biāo)值,得到該手寫(xiě)字符的規(guī)整坐
標(biāo)序列;
第一特征提取模塊3,用于根據(jù)手寫(xiě)字符的規(guī)整坐標(biāo)序列,將所有相鄰軌跡點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,得到手寫(xiě)字符的多維特征矢量;
存儲(chǔ)模塊4,用于存儲(chǔ)各個(gè)字符類(lèi),以及所述各個(gè)字符類(lèi)對(duì)應(yīng)的粗分類(lèi)模版和細(xì)分類(lèi)模版,還有根據(jù)F i s h e r準(zhǔn)則計(jì)算得到的特征變換矩陣;
粗分類(lèi)模塊5,用于根據(jù)Fisher準(zhǔn)則,從手寫(xiě)輸入字符的多維特征矢量中選取部分特征值,將所述手寫(xiě)輸入字符分別與所述存儲(chǔ)模塊4中的粗分類(lèi)模版進(jìn)行匹配,從預(yù)存儲(chǔ)字符類(lèi)中選取相似度最大的若干個(gè)候選字符類(lèi);
細(xì)分類(lèi)模塊6,用于對(duì)手寫(xiě)輸入字符的多維特征矢量進(jìn)行特征變換,將特征變換后的手寫(xiě)輸入字符與從所述存儲(chǔ)模塊4中的細(xì)分類(lèi)模版中選取的候選字符類(lèi)的樣本中心進(jìn)行匹配,從中確定最相似的宇符類(lèi),以供用戶(hù)選擇。
圖4示出了本發(fā)明實(shí)施例一種識(shí)別手寫(xiě)字符輸入的系統(tǒng)的詳細(xì)結(jié)構(gòu)示意圖;其中匹配模版獲得子系統(tǒng)X1包括
第二信號(hào)采集模塊11,用于接收手寫(xiě)字符樣本的信號(hào)并采集手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列;第二歸一化模塊21,用于將所述第二信號(hào)采集模塊11采集到的手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě)字符的大小和形狀以及重心的坐標(biāo)值,得到該字符的規(guī)整坐標(biāo)
序列;
第二特征提取模塊31,用于根據(jù)所述規(guī)整坐標(biāo)序列,將手寫(xiě)字符的所有相鄰軌跡點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,計(jì)算手寫(xiě)字符的多維特征矢量;
粗分類(lèi)模版計(jì)算模塊51,用于從所述特征提取模塊得出的全體字符類(lèi)的樣本的多維特征矢量中,選取部分特征值,計(jì)算各個(gè)字符類(lèi)的樣本中心,得到由全體字符類(lèi)的樣本中心構(gòu)成的粗分類(lèi)模版,并將該粗分類(lèi)模版存儲(chǔ)到所述存儲(chǔ)模塊4;
細(xì)分類(lèi)模版計(jì)算模塊61 ,用于根據(jù)F i s h e r準(zhǔn)則計(jì)算特征變換矩陣,
利用該變換矩陣對(duì)全體字符類(lèi)的樣本的多維特征矢量進(jìn)行特征變換,重新計(jì)算各個(gè)字符類(lèi)的樣本中心,然后對(duì)特征變換矩陣和所有樣本中
心進(jìn)行迭代調(diào)整,得到由全體字符類(lèi)的樣本中心構(gòu)成的細(xì)分類(lèi)模版,并將該細(xì)分類(lèi)模版和所述特征變換矩陣存儲(chǔ)到所述存儲(chǔ)模塊4。
其中第一和第二信號(hào)采集模塊1和11具體包括
采集單元101,用于采集手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列;
判斷單元102,用于判斷一個(gè)手寫(xiě)字符輸入是否結(jié)束,當(dāng)未接收
到手寫(xiě)字符輸入信號(hào)的時(shí)間超過(guò)設(shè)定的閾值,則結(jié)束該手寫(xiě)字符離散
坐標(biāo)序列的采集;
檢測(cè)單元103,用于檢查采集到的手寫(xiě)字符的軌跡點(diǎn)是否只有一
個(gè),如果是則刪除該軌跡點(diǎn)重新采集;以及檢測(cè)采集到的手寫(xiě)字符的
軌跡點(diǎn)中相鄰點(diǎn)之間的坐標(biāo)距離,如果該距離小于設(shè)定的閾值,則刪
除其中的一點(diǎn),使得相鄰點(diǎn)之間保持一定距離。
系統(tǒng)還包括一個(gè)顯示模塊7,用于顯示所述細(xì)分類(lèi)模塊6輸出的最相似的字符類(lèi),以供用戶(hù)選擇。
與現(xiàn)有方法相比,在歸一化、特征提取、粗分類(lèi)、細(xì)分類(lèi)中的技
術(shù)有一些不同
歸一化坐標(biāo)變換函數(shù)^' = ^和^' = ^是新提出的,這樣做的好處是坐標(biāo)變換的函數(shù)為平滑連續(xù)函數(shù),從而使變換后的字符形狀更為自然,同時(shí)保證字符軌跡的重心變換到外框的中心(0.5 )。以前也有把字符重心映射到外框中心的做法,但是用的是分段線性函數(shù),變換后的字符形狀不自然,也影響后面的識(shí)別。
特征提取筆劃軌跡線段直接分解到8個(gè)方向?,F(xiàn)有的方法是先把軌跡變?yōu)橐环鶊D像,對(duì)圖像中的像素進(jìn)行方向分解,這樣做的計(jì)算量更大,而且生成的圖像會(huì)有失真。我們的方法避免了生成圖像所增加的計(jì)算量,而且得到的方向特征更準(zhǔn)確。
粗分類(lèi)現(xiàn)有方法一般是人工選取一部分特征(如直接使用大尺度特征)或者采用特征變換。而我們用Fisher準(zhǔn)則選擇的特征比人工選擇特征有更好的識(shí)別精度,與特征變換相比減少了計(jì)算量(因?yàn)闆](méi)有線性變換)。
細(xì)分類(lèi)特征變換矩陣和類(lèi)別中心模版的迭代調(diào)整能明顯提高識(shí)別精度。現(xiàn)有的方法是直接采用Fisher準(zhǔn)則得到的變換矩陣,然后在變換特征上采用學(xué)習(xí)矢量量化(Learning Vector Quantization, LVQ)算法調(diào)整類(lèi)別中心模版。我們的方法通過(guò)同時(shí)調(diào)整變換矩陣與類(lèi)別中心模版,能得到更高的識(shí)別精度。
本方法可適用于中文、英文、數(shù)字、符號(hào)的識(shí)別。
一、輸入字符軌跡<image>image see original document page 26</image>
二、歸一化后的軌跡:啖
三、粗分類(lèi)選出的10個(gè)候選類(lèi)別及其匹配距離(在60個(gè)選擇特征上計(jì)算距離)
唆唉哈啶喚呋嗅唳喉嘜
597621643676689698715732764771
四、細(xì)分類(lèi)對(duì)10個(gè)候選類(lèi)別的重新排序及其距離(在120個(gè)變換特征上計(jì)算距離)
唉啶喚唆喻唳呋喉嗅嘜
10791121U571186123312981374141914621503
五、最后的識(shí)別結(jié)果為"唉"。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和變動(dòng),這些改進(jìn)和變動(dòng)也視為本發(fā)明的保護(hù)范圍。
2權(quán)利要求
1、一種識(shí)別手寫(xiě)字符輸入的方法,其特征在于,包括以下步驟A、建立由各個(gè)字符類(lèi)的第一樣本中心構(gòu)成的粗分類(lèi)模版,以及由各個(gè)字符類(lèi)的第二樣本中心構(gòu)成的細(xì)分類(lèi)模版,該細(xì)分類(lèi)模版是根據(jù)Fisher準(zhǔn)則計(jì)算特征變換矩陣,利用該變換矩陣對(duì)全體字符類(lèi)的樣本進(jìn)行特征變換,計(jì)算得到各個(gè)字符類(lèi)的第二樣本中心,然后對(duì)特征變換矩陣和各個(gè)字符類(lèi)的第二樣本中心進(jìn)行迭代調(diào)整得到的;B、接收用戶(hù)手寫(xiě)字符輸入的信號(hào)并采集輸入字符軌跡點(diǎn)的離散坐標(biāo)序列,進(jìn)行預(yù)處理之后得到該字符的規(guī)整坐標(biāo)序列;C、根據(jù)所述規(guī)整坐標(biāo)序列,進(jìn)行特征提取,計(jì)算手寫(xiě)輸入字符的多維特征矢量;D、從所述手寫(xiě)輸入字符的多維特征矢量中選取部分特征值,將所述手寫(xiě)輸入字符分別與所述粗分類(lèi)模版進(jìn)行匹配,從所述粗分類(lèi)模版中選取相似度最大的若干個(gè)樣本中心,并將這若干個(gè)樣本中心對(duì)應(yīng)的字符類(lèi)作為候選字符類(lèi);E、利用步驟A中根據(jù)Fisher準(zhǔn)則計(jì)算得到的所述的特征變換矩陣,對(duì)所述手寫(xiě)輸入字符的多維特征矢量進(jìn)行特征變換,從所述細(xì)分類(lèi)模版中選取步驟D中得到的所述候選字符類(lèi)的樣本中心,分別與特征變換后的手寫(xiě)輸入字符進(jìn)行匹配,從所述候選字符類(lèi)中確定最相似的字符類(lèi),以供用戶(hù)選擇。
2、 根據(jù)權(quán)利要求1所述的一種識(shí)別手寫(xiě)字符輸入的方法,其特征 在于,所述步驟A具體包括以下步驟Al、采集各個(gè)字符類(lèi)的手寫(xiě)字符樣本,并計(jì)算所述手寫(xiě)字符樣本 的軌跡點(diǎn)的離散坐標(biāo)序列;A2、將手寫(xiě)字符樣本的軌跡點(diǎn)的離散坐標(biāo)序列進(jìn)行預(yù)處理,得到 該手寫(xiě)字符樣本的規(guī)整坐標(biāo)序列;A3、根據(jù)所述的規(guī)整坐標(biāo)序列,進(jìn)行特征提取,將所有相鄰軌跡 點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,得到該手寫(xiě)字符樣本的多維 特征矢量;A4、根據(jù)Fisher準(zhǔn)則,從全體字符類(lèi)的樣本的多維特征矢量中選 取部分特征值,計(jì)算各個(gè)字符類(lèi)的第一樣本中心,得到由各個(gè)字符類(lèi) 的第一樣本中心構(gòu)成的粗分類(lèi)模版;A5、根據(jù)Fisher準(zhǔn)則計(jì)算特征變換矩陣,利用該變換矩陣對(duì)全體 字符類(lèi)的樣本的多維特征矢量進(jìn)行特征變換,重新計(jì)算得到各個(gè)字符 類(lèi)的第二樣本中心,然后對(duì)特征變換矩陣和所有樣本中心進(jìn)行迭代調(diào) 整,得到由全體字符類(lèi)的第二樣本中心構(gòu)成的細(xì)分類(lèi)模版。
3、 根據(jù)權(quán)利要求2所迷的一種識(shí)別手寫(xiě)字符輸入的方法,其特征 在于,所述步驟A5具體包括以下步驟利用根據(jù)F i s h e r準(zhǔn)則得到的特征變換矩陣,將所有字符類(lèi)的樣本 進(jìn)行特征變換,降低其多維特征矢量的維數(shù);重新計(jì)算特征變換后的所有字符類(lèi)的樣本中心;對(duì)所述特征變換矩陣及所有字符類(lèi)的樣本中心進(jìn)行迭代調(diào)整,重 新計(jì)算特征變換矩陣和所有字符類(lèi)的樣本中心,得到由全體字符類(lèi)的 樣本中心構(gòu)成的細(xì)分類(lèi)模版。
4、 根據(jù)權(quán)利要求3所述的一種識(shí)別手寫(xiě)字符輸入的方法,其特征 在于,所述步驟E具體包括以下步驟利用步驟A5中所述迭代調(diào)整后的特征變換矩陣,對(duì)用戶(hù)手寫(xiě)輸 入的字符進(jìn)行特征變換,得到其低維特征矢量;從所述細(xì)分類(lèi)模版中選取所述候選字符類(lèi)的樣本中心,分別與特 征變換后的手寫(xiě)輸入字符的低維特征矢量進(jìn)行匹配,從候選字符類(lèi)中 確定相似度最大的字符類(lèi),以供用戶(hù)選擇。
5、 根據(jù)權(quán)利要求2所述的一種識(shí)別手寫(xiě)字符輸入的方法,其特征 在于,所述步驟A3和C具體包括以下步驟根據(jù)所述規(guī)整坐標(biāo)序列,將所有相鄰軌跡點(diǎn)形成的矢量線段分解 到八個(gè)標(biāo)準(zhǔn)方向,每個(gè)標(biāo)準(zhǔn)方向上得到各個(gè)矢量線段的長(zhǎng)度值;對(duì)所述得到的各個(gè)矢量線段的長(zhǎng)度值進(jìn)行處理,計(jì)算大尺度特征 值和小尺度特征值,得到由大尺度特征值和小尺度特征值構(gòu)成的多維 特征矢量。
6、 根據(jù)權(quán)利要求1所述的一種識(shí)別手寫(xiě)字符輸入的方法,其特征 在于,所述步驟D具體包括以下步驟根據(jù)Fisher準(zhǔn)則,從所述手寫(xiě)輸入字符的多維特征矢量中選取部 分特征值,所述手寫(xiě)輸入字符具有與字符類(lèi)的樣本相同維數(shù)的由選取 特征值構(gòu)成的特征矢量;將所述手寫(xiě)輸入字符分別與所述粗分類(lèi)模版進(jìn)行匹配,從預(yù)存儲(chǔ) 字符類(lèi)中選取相似度最大的若干個(gè)候選字符類(lèi)。
7、 根據(jù)權(quán)利要求2所述的一種識(shí)別手寫(xiě)字符輸入的方法,其特征 在于,所述步驟A2、 B中的預(yù)處理是將采集到的手寫(xiě)字符軌跡點(diǎn)的離 散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě)輸入字符的大 小和形狀以及重心的坐標(biāo)值,具體包括以下步驟將所有軌跡點(diǎn)的橫坐標(biāo)值和縱坐標(biāo)值變換到介于0到100之間;分別計(jì)算所有軌跡點(diǎn) 一黃坐標(biāo)和縱坐標(biāo)的重心坐標(biāo)值;將所有軌跡點(diǎn)坐標(biāo)值和重心坐標(biāo)值除以100,使所有軌跡點(diǎn)坐標(biāo) 值和重心坐標(biāo)值變?yōu)?到l之間,利用使重心坐標(biāo)值的4黃坐標(biāo)和縱坐 標(biāo)變?yōu)?.5的一個(gè)平滑連續(xù)函數(shù),將采集到的手寫(xiě)字符軌跡點(diǎn)的離散 坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列;再將所有軌跡點(diǎn)坐標(biāo)值乘以64,得到輸入字符的規(guī)整坐標(biāo)序列。
8、 一種識(shí)別手寫(xiě)字符輸入的系統(tǒng),其特征在于,其包括存儲(chǔ)模塊,用于存儲(chǔ)各個(gè)字符類(lèi),以及所述各個(gè)字符類(lèi)對(duì)應(yīng)的粗 分類(lèi)模版和細(xì)分類(lèi)模版,還有根據(jù)Fisher準(zhǔn)則計(jì)算得到的特征變換矩陣;第一信號(hào)采集模塊,用于接收用戶(hù)手寫(xiě)字符輸入的信號(hào)并采集手 寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列;第一歸一化模塊,用于將所述第一信號(hào)采集模塊采集到的手寫(xiě)字 符軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě) 字符的大小和形狀以及重心的坐標(biāo)值,得到該字符的規(guī)整坐標(biāo)序列;第一特征提取模塊,用于根據(jù)所述規(guī)整坐標(biāo)序列,將手寫(xiě)字符的 所有相鄰軌跡點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,計(jì)算手寫(xiě)字符 的多維特征矢量;粗分類(lèi)模塊,用于從用戶(hù)手寫(xiě)輸入字符的多維特征矢量中選取部 分特征值,將所述手寫(xiě)輸入字符分別與所述存儲(chǔ)模塊中的粗分類(lèi)模版 進(jìn)行匹配,從中選取相似度最大的若干個(gè)樣本中心,并將這若干個(gè)樣 本中心對(duì)應(yīng)的字符類(lèi)作為候選字符類(lèi);細(xì)分類(lèi)模塊,用于利用所述存儲(chǔ)模塊中的特征變換矩陣,對(duì)所述 手寫(xiě)輸入字符的多維特征矢量進(jìn)行特征變換,從所述細(xì)分類(lèi)模版中選 取所述候選字符類(lèi)的樣本中心,分別與特征變換后的手寫(xiě)輸入字符進(jìn) 行匹配,從所述候選字符類(lèi)中確定最相似的字符類(lèi),以供用戶(hù)選才奪。顯示模塊,用于顯示所述細(xì)分類(lèi)模塊輸出的最相似的字符類(lèi),以 供用戶(hù)選擇。
9、 根據(jù)權(quán)利要求8所述的一種識(shí)別手寫(xiě)字符輸入的系統(tǒng),該系統(tǒng) 還包括一個(gè)匹配模版獲得子系統(tǒng),該子系統(tǒng)包括第二信號(hào)采集模塊,用于接收手寫(xiě)字符樣本的信號(hào)并采集手寫(xiě)字 符軌跡點(diǎn)的離散坐標(biāo)序列;第二歸一化模塊,用于將所述第二信號(hào)采集模塊采集到的手寫(xiě)字 符軌跡點(diǎn)的離散坐標(biāo)序列變換成為另 一個(gè)離散坐標(biāo)序列,以調(diào)整手寫(xiě) 字符的大小和形狀以及重心的坐標(biāo)值,得到該字符的規(guī)整坐標(biāo)序列;第二特征提取模塊,用于根據(jù)所述規(guī)整坐標(biāo)序列,將手寫(xiě)字符的 所有相鄰軌跡點(diǎn)形成的矢量線段分解到八個(gè)標(biāo)準(zhǔn)方向,計(jì)算手寫(xiě)字符 的多維特征矢量;粗分類(lèi)模版計(jì)算模塊,用于從所述特征提取模塊得出的全體字符 類(lèi)的樣本的多維特征矢量中,選取部分特征值,計(jì)算各個(gè)字符類(lèi)的樣 本中心,得到由全體字符類(lèi)的樣本中心構(gòu)成的粗分類(lèi)模版,并將該粗 分類(lèi)模版存儲(chǔ)到所述存儲(chǔ)模塊;細(xì)分類(lèi)模版計(jì)算模塊,用于根據(jù)Fisher準(zhǔn)則計(jì)算特征變換矩陣, 利用該變換矩陣對(duì)全體字符類(lèi)的樣本的多維特征矢量進(jìn)行特征變換, 重新計(jì)算各個(gè)字符類(lèi)的樣本中心,然后對(duì)特征變換矩陣和所有樣本中心進(jìn)行迭代調(diào)整,得到由全體字符類(lèi)的第二樣本中心構(gòu)成的細(xì)分類(lèi)模 版,并將該細(xì)分類(lèi)模版存儲(chǔ)到所述存儲(chǔ)模塊。
10、 根據(jù)權(quán)利要求9所述的一種識(shí)別手寫(xiě)字符輸入的系統(tǒng),所述 第一信號(hào)采集模塊和第二信號(hào)采集模塊還包括采集單元,用于接收手寫(xiě)字符的信號(hào)并采集手寫(xiě)字符軌跡點(diǎn)的離散坐標(biāo)序列;判斷單元,用于判斷一個(gè)手寫(xiě)字符輸入是否結(jié)束,當(dāng)未接收到手 寫(xiě)字符輸入信號(hào)的時(shí)間超過(guò)設(shè)定的閾值,則結(jié)束該字符離散坐標(biāo)序列 的采集;檢測(cè)單元,用于檢查采集到的手寫(xiě)字符的軌跡點(diǎn)是否只有一個(gè), 如果是則刪除該軌跡點(diǎn)重新采集;以及檢測(cè)采集到的手寫(xiě)字符的軌跡 點(diǎn)中相鄰點(diǎn)之間的坐標(biāo)距離,如果該距離小于設(shè)定的閾值,則刪除其中的一點(diǎn),使得相鄰點(diǎn)之間保持一定距離。
全文摘要
本發(fā)明公開(kāi)了一種識(shí)別手寫(xiě)字符輸入的方法,其包括建立粗分類(lèi)模版和細(xì)分類(lèi)模版;接收用戶(hù)手寫(xiě)字符輸入的信號(hào)并采集其離散坐標(biāo)序列,進(jìn)行預(yù)處理;進(jìn)行特征提取計(jì)算手寫(xiě)輸入字符的多維特征矢量;將所述手寫(xiě)輸入字符分別與粗分類(lèi)模版進(jìn)行匹配,選取相似度最大的若干個(gè)候選字符類(lèi);將特征變換后的手寫(xiě)輸入字符與從細(xì)分類(lèi)模版中選取的候選字符類(lèi)的樣本中心進(jìn)行匹配,從中確定最相似的字符類(lèi)。本發(fā)明還公開(kāi)了一種識(shí)別手寫(xiě)字符輸入的系統(tǒng)。本發(fā)明手寫(xiě)字符輸入識(shí)別的速度更快,且識(shí)別精度更高。
文檔編號(hào)G06F3/041GK101477425SQ20091003648
公開(kāi)日2009年7月8日 申請(qǐng)日期2009年1月8日 優(yōu)先權(quán)日2009年1月8日
發(fā)明者劉志玭, 吳政維, 李景平, 王志愛(ài), 王紅輝, 胡安進(jìn), 蔡沐宇, 譚春桃, 方 郭, 陸華興, 陳炳輝, 高精鍊, 黃新春 申請(qǐng)人:廣東國(guó)筆科技股份有限公司