專利名稱:一種文字識別方法
技術領域:
本發(fā)明屬于模式識別與人工智能技術領域中的文字識別方向,特別是涉及一種文字識別方法。
背景技術:
文字識別是當今備受關注的一個課題,它是模式識別的一個重要分支,也是人工智能和模式識別研究中的一個重要方向。漢字的種類繁多、筆畫復雜、相似字多,而且不同人的手寫漢字風格迥異,因此手寫漢字識別,尤其是手寫漢字的相似字識別,一直是文字識別中的一個難點和關注點。在實際應用中,一般的手寫漢字識別系統(tǒng)里為了提高識別率通常都要對手寫漢字 提取高維的特征向量,以獲得更多有助于識別的字體特征信息。但是由于特征向量的維數(shù)很高,而且識別中的涉及的字體數(shù)目較多,為了運算降低存儲量、加快識別的運算速度以及提高識別的正確率,一般都對高維空間的特征向量進行降維映射。目前用于漢字識別比較流行的數(shù)據(jù)降維算法是線性判別分析法(Linear Discriminate Analysis, LDA)。但是,考慮到漢字類別數(shù)眾多(如GBl有3755個漢字),采用LDA降維后直接分類,并不能達到很好的識別效果。因此,流行的做法用層級分類的方案。傳統(tǒng)的兩級LDA選擇方案的實現(xiàn)首先是直接用LDA降維,然后進行粗分類得出首選字及其候選字,接著對首選字和其他候選字組成的相似字集合進行第二級LDA映射,最后用小類別的強分類器得出最終的識別結果。這里需要說明的是其他候選字的生成可以采用一種快速的靜態(tài)候選字生成技術,這里不作敘述。雖然這種使用了兩級的LDA層級分類的漢字識別方案,相對于直接的一級分類識別的方法來說,識別率有了很大的提高,但是,如何進一步從樣本中獲取判別信息,以提高識別率是漢字識別努力的一個方向。傳統(tǒng)的LDA并沒有很好的保存數(shù)據(jù)的判別信息。因此,如果能找到適合的降維算法更好地保留手寫漢字的判別信息,其識別率仍有改進的空間。數(shù)據(jù)降維的其中一個最主要的問題就是找到一個合適的投影,使原始數(shù)據(jù)從高維空間變換到低維子空間。它的目的是將數(shù)據(jù)從高維數(shù)據(jù)轉換到一個可以揭示數(shù)據(jù)分布固有空間結構的低維空間,使數(shù)據(jù)得到一個更加簡潔、有效的表達。傳統(tǒng)的全局線性降維的方法主要是基于線性的,其中主成分分析法(PCA)、線性判別分析法(LDA)被廣泛地應用在模式分類問題上。主成分分析法(PCA)會最大化在原始高維空間中呈現(xiàn)高斯分布的樣本之間的相互距離。主成分分析法(PCA)在高斯分布數(shù)據(jù)的重建中得到最優(yōu)化。然而,由于它不使用類標簽信息,主成分分析法(PCA)并不是一個用于分類的最佳選擇。費舍爾的線性判別分析法(LDA)找到一個投影方向使得類別間散布矩陣的跡最大的同時使類別內散布矩陣的跡最小。但是,LDA在實現(xiàn)中存在以下問題1)忽略數(shù)據(jù)可能存在的非線性特點;2)假設所有的樣本對分類的貢獻相等;3)樣本少的情況下,性能下降嚴重。總的來說,這兩種方法只是在大樣本情況下各類模式識別問題中表現(xiàn)得較好,而在小樣本情況下的表現(xiàn)并不理想。為了克服上述主成分分析法(PCA)和線性判別分析法(LDA)面臨的問題,新的線性算法,判別局部塊配準(DLA)算法被提出來用于分類問題。該算法分以下三個階段執(zhí)行I)部分最優(yōu)化階段;2)整體配準階段。首先,每個數(shù)據(jù)塊都是由一個樣品和它的鄰近樣本組成,在這個局部數(shù)據(jù)塊內,需要相同類別的樣本盡量靠近,不同類別的樣本盡量遠離;在整體配準階段,實現(xiàn)方法是將加權后的部分最優(yōu)校正到整體最優(yōu)中。由于對本發(fā)明的理解需要到許多判別局部塊配準(DLA)算法的具體內容,下面對判別局部塊配準(DLA)算法的具體步驟進行較為詳細的介紹(I)部分最優(yōu)設定C類別數(shù)的訓練集為ΕΜβχΛΓ(其中汧表示DXN維的線性空間),對于一個給定的樣本Xi,根據(jù)類的標簽信息,劃分其他的樣本為兩組和樣品Xi為同一類的樣本,和與Xi不同類的樣本。選擇與樣本Xi同類的Hl1個最近鄰的樣本,并把它們稱為同類近鄰樣本
權利要求
1.一種文字識別方法,采用文字識別引擎對采集的文字進行識別,其特征在于所述文字識別引擎是基于核判別局部塊配準算法的文字相似字識別算法,核判別局部塊配準算法的文字相似字識別算法是在再生希爾伯特空間中采用判別局部塊配準算法進行降維。
2.根據(jù)權利要求I所述文字識別方法,其特征在于所述核判別局部塊配準算法的文字相似字識別算法的具體實現(xiàn)方式 1)將一個線性的輸入空間通過非線性映射到一個再生希爾伯特空間; 2)在判別局部塊配準算法中,局部數(shù)據(jù)塊為
全文摘要
本發(fā)明公開一種文字識別方法,采用文字識別引擎對采集的文字進行識別,文字識別引擎是基于核判別局部塊配準算法的文字相似字識別算法,核判別局部塊配準算法的文字相似字識別算法是在再生希爾伯特空間中采用判別局部塊配準算法進行降維。本發(fā)明提出文字識別方法,通過證明其效果等效于先用核主成分分析法降維,再用判別局部塊配準算法進行降維,以提高實踐過程中算法的速度。利用本發(fā)明提出的核判別局部塊配準算法進行手寫漢字相似字的識別,其識別率高于其他有代表性的判別分析提取算法。
文檔編號G06K9/20GK102945369SQ20121039648
公開日2013年2月27日 申請日期2012年10月17日 優(yōu)先權日2012年10月17日
發(fā)明者金連文, 陶大鵬, 黎小鳳 申請人:華南理工大學