專利名稱:一種基于最大熵的文字識別方法和識別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及手寫識別技術(shù)領(lǐng)域,特別是涉及一種基于最大熵的文字識別方法和識 別裝置。
背景技術(shù):
手寫識別(Handwriting Recognize),是指將在手寫設(shè)備上書寫時產(chǎn)生的軌跡信 息轉(zhuǎn)化為漢字內(nèi)碼的過程,實際上是手寫軌跡的坐標序列到漢字的內(nèi)碼的一個映射過程, 是人機交互最自然、最方便的手段之一。隨著智能手機、掌上電腦等移動信息工具的普及, 手寫識別技術(shù)也進入了規(guī)模應(yīng)用時代。手寫識別能夠使用戶按照最自然、最方便的輸入方 式進行文字輸入,易學(xué)易用,可取代鍵盤或者鼠標。在手寫識別中,需要處理不同人不同的書寫筆順和連筆書寫的問題。每個識別引 擎在識別時的側(cè)重點不同,有的識別引擎對連筆書寫(筆順正確)的字符能有很高識別率, 但對筆順錯誤的字符就不能正確識別;有的識別引擎對字符筆順不敏感,筆順是否錯誤并 不影響識別正確率,但對是否正楷書寫比較敏感,連筆書寫字符的識別效果會差一些,在筆 順錯誤時反而能夠給出較好的結(jié)果。現(xiàn)有技術(shù)對手寫字符的識別中,一般采用多個識別引擎共同決策,根據(jù)各個識別 結(jié)果進行綜合考慮、綜合判斷,最終給出識別結(jié)果。由于用戶在漢字輸入時多數(shù)情況下是筆 順正確的,此方法存在兩個缺點多數(shù)情況下,一個識別引擎能給出正確結(jié)果,而當(dāng)多個識 別引擎共同決策時,識別結(jié)果反而不正確;并且,多個識別引擎進行識別,加大了工作量,降 低了計算效率。在具體應(yīng)用時,例如,輸入一個筆順正確、非常潦草的“建”字,連筆引擎識 別結(jié)果正確,但無筆順引擎識別錯誤,兩者綜合考慮,最終識別結(jié)果可能會錯誤。再例如,輸 入一個正楷書寫但筆順錯誤的“訊”字,無筆順引擎識別正確,但連筆引擎識別結(jié)果錯誤,兩 者綜合考慮,最終識別結(jié)果也可能會錯誤。總之,需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是如何能夠提供一種基 于最大熵的文字識別技術(shù)方案,在保證更高識別結(jié)果正確的前提下,提高識別效率。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于最大熵的文字識別方法和識別裝置, 在保證識別結(jié)果正確的同時,能夠提高識別效率。為了解決上述問題,本發(fā)明公開了一種基于最大熵的文字識別方法,包括Al,將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特性信息;A2,依據(jù)所述特征信息構(gòu)建最大熵訓(xùn)練模型;A3,針對用戶輸入的手寫軌跡,逐個選取單一識別引擎進行識別,將識別得到的特 征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;其中,當(dāng)單一識別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,停止下一識別引擎的 識別,將當(dāng)前識別引擎對應(yīng)的識別結(jié)果輸出;當(dāng)單個識別引擎對應(yīng)的判定結(jié)果均不滿足預(yù)置判定值時,對多個識別引擎的識別結(jié)果共同決策進行輸出。進一步,所述特征信息為第一候選字的編碼、識別距離、第一候選字是否正確的 判定。進一步,所述判定結(jié)果代表了在該識別引擎中,與特征信息相對應(yīng)的第一候選字 正確的概率大小。優(yōu)選的,所述識別引擎包括無筆順識別引擎和連筆識別引擎。優(yōu)選的,所述步驟A3包括針對用戶輸入的手寫軌跡,選取無筆順識別引擎進行識別,并將識別得到的特征 信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;判斷無筆順識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值;若是,則停止識別,將 無筆順識別引擎對應(yīng)的識別結(jié)果輸出;若否,則選取連筆識別引擎進行識別,并將識別得到 的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;判斷連筆識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值;若是,則停止識別,將連 筆識別引擎對應(yīng)的識別結(jié)果輸出;若否,則由無筆順識別引擎和連筆識別引擎的識別結(jié)果 共同決策進行輸出。此外,本發(fā)明還公開了一種基于最大熵的文字識別裝置,包括特征提取單元,用于將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特性 fn息;模型訓(xùn)練單元,用于依據(jù)所述特征信息構(gòu)建最大熵訓(xùn)練模型;多個識別引擎,用于針對用戶輸入的手寫軌跡進行識別;引擎控制單元,用于逐個選擇觸發(fā)單一識別引擎進行識別操作,以及將識別引擎 識別到的特征信息輸入到模型訓(xùn)練單元中,由最大熵訓(xùn)練模型輸出判定結(jié)果;其中,當(dāng)單一 識別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,停止觸發(fā)下一識別引擎,并觸發(fā)識別輸出單 元將當(dāng)前識別引擎對應(yīng)的識別結(jié)果輸出;當(dāng)單個識別引擎對應(yīng)的判定結(jié)果均不滿足預(yù)置判 定值時,觸發(fā)識別輸出單元對多個識別引擎的識別結(jié)果共同決策進行輸出;識別輸出單元,用于輸出識別結(jié)果。進一步,所述特征信息為第一候選字的編碼、識別距離、第一候選字是否正確的 判定。進一步,所述判定結(jié)果代表了在當(dāng)前識別引擎中,與特征信息相對應(yīng)的第一候選 字正確的概率大小。優(yōu)選的,所述識別引擎包括無筆順識別弓I擎和連筆識別引擎。優(yōu)選的,所述引擎控制單元包括選擇子單元,用于針對用戶輸入的手寫軌跡,逐個選擇觸發(fā)無筆順識別引擎和連 筆識別引擎進行識別操作;訓(xùn)練子單元,用于將識別得到的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn) 練模型輸出判定結(jié)果;判斷子單元,用于判斷無筆順識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值,若 是,則停止選擇子單元,觸發(fā)識別輸出單元將無筆順識別引擎對應(yīng)的識別結(jié)果輸出;若否, 則判斷連筆識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值,若是,則觸發(fā)識別輸出單元將
5連筆識別引擎對應(yīng)的識別結(jié)果輸出,若否,則觸發(fā)識別輸出單元對無筆順識別引擎和連筆 識別引擎的識別結(jié)果共同決策進行輸出。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明通過從訓(xùn)練樣本中提取出特征信息構(gòu)建最大熵訓(xùn)練模型,則在手寫識別應(yīng) 用時,逐個選取單一識別引擎對用戶輸入的手寫軌跡進行識別,并將手寫軌跡的特征信息 作為最大熵訓(xùn)練模型的輸入特征,由最大熵訓(xùn)練模型輸出判定結(jié)果,在單一識別引擎對應(yīng) 的判定結(jié)果滿足預(yù)置判定值時,停止識別,將當(dāng)前識別結(jié)果輸出。本發(fā)明利用最大熵訓(xùn)練模 型,設(shè)定了單個引擎的識別條件,以及多個引擎同時識別的條件,通過采用單一引擎識別, 在保證識別結(jié)果正確的同時,減少了多個引擎的識別計算量,提高識別效率。并且,能夠避 免多個引擎同時識別決策時,產(chǎn)生的識別錯誤。
圖1是本發(fā)明一種基于最大熵的文字識別方法實施例一的流程圖;圖2是本發(fā)明一種基于最大熵的文字識別方法實施例二的流程圖;圖3是本發(fā)明一種基于最大熵的文字識別裝置實施例的結(jié)構(gòu)圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實 施方式對本發(fā)明作進一步詳細的說明。本發(fā)明的核心構(gòu)思之一在于首先從訓(xùn)練樣本中提取出特征信息,并針對特征信 息構(gòu)建最大熵訓(xùn)練模型,當(dāng)用戶輸入字符時,將手寫軌跡的特征信息作為最大熵訓(xùn)練模型 的輸入特征,根據(jù)最大熵訓(xùn)練模型輸出判定結(jié)果,判斷該軌跡的識別是由單個識別引擎做 出最終判斷,還是由多個識別引擎共同決策,從而保證識別結(jié)果正確的同時,減少了工作 量,提高識別效率。參照圖1,示出了本發(fā)明一種基于最大熵的文字識別方法實施例一的流程圖,該方 法包括步驟101,將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特性信息;所述訓(xùn)練樣本為預(yù)先采集的各種手寫輸入軌跡,例如,可以選用GBK等各種字符 集作為訓(xùn)練樣本采集的范圍。本步驟從訓(xùn)練樣本中提取特征,對于每一個訓(xùn)練樣本,輸入每 一個識別引擎后,即可提取到相應(yīng)的特征信息。進一步,所述特征信息為第一候選字的編碼、識別距離、以及第一候選字是否正 確的判定。漢字識別系統(tǒng)處理漢字信息的前提條件是對每個漢字進行編碼,這些編碼統(tǒng)稱 為漢字編碼。漢字信息在系統(tǒng)內(nèi)傳送的過程就是漢字編碼轉(zhuǎn)換的過程,通常漢字編碼又稱 為內(nèi)碼。所述識別距離是與該漢字編碼相應(yīng)的識別類似度或識別概率。例如,將一個訓(xùn)練 樣本輸入某一識別引擎后,提取到的特征信息為第一候選字的編碼及其識別距離、第二候
選字的編碼及其識別距離、第三候選字的編碼及其識別距離......第N候選字的編碼及其
識別距離,并且,還可以獲知第一候選字是否正確,需要說明的是,本發(fā)明只關(guān)注第一候選 字的編碼及其識別距離。步驟102,依據(jù)所述特征信息構(gòu)建最大熵訓(xùn)練模型;
最大熵原理(the maximum entropy principle)的主要思想是,在只掌握關(guān)于未 知分布的部分信息時,應(yīng)該選取符合這些信息但熵值最大的概率分布。因為在這種情況下, 符合已知信息的概率分布可能不止一個。熵定義的實際上是一個隨機變量的不確定性,熵 最大的時候,說明隨機變量最不確定,換句話說,也就是隨機變量最隨機,對其行為做準確 預(yù)測最困難。從這個意義上講,那么最大熵原理的實質(zhì)就是,在已知部分信息的前提下,關(guān) 于未知分布最合理的推斷就是符合已知信息最不確定或最隨機的推斷,這是可以作出的唯 一不偏不倚的選擇,任何其它的選擇都意味著增加了其它的約束和假設(shè),這些約束和假設(shè) 根據(jù)已掌握的信息無法作出。最大熵模型是將熵理論應(yīng)用于分類(對應(yīng)于第一候選字、第二候選字等等)問題 中,在滿足限定條件下,使熵值最大的原則。本步驟可以利用開源的最大熵訓(xùn)練工具,得到 最大熵訓(xùn)練模型。步驟103,針對用戶輸入的手寫軌跡,逐個選取單一識別引擎進行識別,將識別得 到的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;根據(jù)步驟102得到的最大熵訓(xùn)練模型,實現(xiàn)手寫軌跡的識別操作。在具體的應(yīng)用 中,用戶輸入一個漢字的手寫軌跡,先由單個識別引擎進行識別,得到的特征信息為第一 候選字的編碼、識別距離、以及第一候選字是否正確的判定。將特征信息作為最大熵訓(xùn)練模 型的輸入特征,則從最大熵模型輸出與該特征信息相對應(yīng)的判定結(jié)果。進一步,所述判定結(jié) 果代表了在當(dāng)前識別引擎中,與特征信息相對應(yīng)的第一候選字正確的概率大小,也就是說, 判定結(jié)果代表了每個特征出現(xiàn)時,第一候選正確的可能性的大小,針對第一候選字正確的 概率的不同大小賦予不同的判定結(jié)果。例如,根據(jù)第一候選字正確的概率大小,將判定結(jié)果分為兩種1和0,當(dāng)判定結(jié)果 為1時,為置信的判定結(jié)果,代表了第一候選字正確的概率高;當(dāng)判定結(jié)果為0時,為不置信 的判定結(jié)果,代表了第一候選字正確的概率低。又如,還可以將判定結(jié)果分為三種0(對應(yīng) 置信的判定結(jié)果,代表了第一候選字正確的概率高)、0. 5 (對應(yīng)較置信的判定結(jié)果,代表了 第一候選字正確的概率較高)、1 (對應(yīng)不置信的判定結(jié)果,代表了第一候選字正確的概率 低)。可以理解的是,判定結(jié)果不限于上述種類,還可以根據(jù)不同的識別需求,按照第一候選 字正確的概率的不同大小進行多種劃分。步驟104,當(dāng)單一識別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,停止下一識別引擎 的識別,將當(dāng)前識別引擎對應(yīng)的識別結(jié)果輸出;根據(jù)判定結(jié)果的種類,所述預(yù)置判定值可以為單一值或者多個離散值。例如,當(dāng)判 定結(jié)果有0和1兩種情況時,預(yù)置判定值設(shè)為ι ;當(dāng)判定結(jié)果包括0、0. 5、1這三種情況時, 預(yù)置判定值設(shè)為1或0. 5 (滿足其中任意一值即可);當(dāng)判定結(jié)果包括0、0. 25,0. 5,0. 75、1 這五種情況時,預(yù)置判定值設(shè)為1或0. 75。則當(dāng)單一識別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判 定值時,則認為第一候選結(jié)果正確,將對應(yīng)的第一候選字輸出,不再進行其他引擎的識別。具體的,先由第一識別引擎進行識別,當(dāng)?shù)谝蛔R別引擎對應(yīng)的判定結(jié)果滿足預(yù)置 判定值時,則認為第一識別引擎對應(yīng)的第一候選結(jié)果正確;當(dāng)?shù)谝蛔R別引擎對應(yīng)的判定結(jié) 果不滿足預(yù)置判定值時,則認為第一識別引擎對應(yīng)的第一候選結(jié)果不正確,由第二識別引 擎進行識別。當(dāng)?shù)诙R別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,則認為第二識別引擎對應(yīng)的
7第一候選結(jié)果正確;當(dāng)?shù)诙R別引擎對應(yīng)的判定結(jié)果不滿足預(yù)置判定值時,則認為第二識 別引擎對應(yīng)的第一候選結(jié)果不正確,由第三識別引擎進行識別。以此類推,直到某一識別引 擎對應(yīng)的第一候選字正確的概率大于預(yù)置閾值??梢岳斫獾氖?,針對各個識別引擎可以設(shè)置相同的預(yù)置判定值,如均設(shè)置為1 ;此 外,還可以針對每個識別引擎設(shè)置不同的預(yù)置閾值,例如,針對第一識別引擎,預(yù)置判定值 為1或0. 75,針對第二識別引擎,預(yù)置判定值為1,本發(fā)明在此不作限制。步驟105,當(dāng)單個識別引擎對應(yīng)的判定結(jié)果均不滿足預(yù)置判定值時,由多個識別引 擎的識別結(jié)果共同決策進行輸出。如果單個識別引擎都無法決定結(jié)果是否正確,也就是說,每一個引擎對應(yīng)的第一 候選字正確的概率均對應(yīng)不自信的判定結(jié)果,則按照多個引擎識別的方式,由每個識別引 擎的識別結(jié)果共同決策,得出所識別的字符進行輸出。通過本發(fā)明的方法實施例一,根據(jù)單個引擎的識別結(jié)果,結(jié)合最大熵訓(xùn)練模型,判 斷是否進行對引擎的識別,可以利用單一識別引擎的識別結(jié)果作為識別輸出,在保證識別 結(jié)果正確的前提下,減少了其他引擎識別的計算量,提高了識別效率。參照圖2,示出了本發(fā)明一種基于最大熵的文字識別方法實施例二的流程圖,在本 發(fā)明方法實施例二中,所述識別引擎包括連筆識別引擎和無筆順識別引擎;需要說明的 是,在具體實施例,還可以采用更多的識別引擎進行識別,例如,還包括相似字識別引擎等, 本發(fā)明在此不做限定,此處僅為一種實例。本發(fā)明實施例二所述方法包括如下步驟步驟201,將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特性信息;步驟202,依據(jù)所述特征信息構(gòu)建最大熵訓(xùn)練模型;步驟203,針對用戶輸入的手寫軌跡,選取無筆順識別引擎進行識別,并將識別得 到的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;通常,無筆順識別引擎較之連筆識別引擎的識別效率高,因此,本發(fā)明實施例首先 選用無筆順識別引擎。步驟204,判斷無筆順識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值;若是,則執(zhí) 行步驟205 ;若否,則執(zhí)行步驟206 ;步驟205,停止識別,將無筆順識別引擎識別的第一候選字輸出;步驟206,選取連筆識別引擎進行識別,并將識別得到的特征信息輸入到最大熵訓(xùn) 練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果,并執(zhí)行步驟207 ;步驟207,判斷連筆識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值;若是,則執(zhí)行 步驟208 ;若否,則執(zhí)行步驟209 ;步驟208,停止識別,將連筆識別引擎識別的第一候選字輸出;步驟209,由無筆順識別引擎和連筆識別引擎的識別結(jié)果共同決策進行輸出。例如,本發(fā)明根據(jù)第一候選字正確的概率大小設(shè)定兩種判定結(jié)果1和0。具體的, 結(jié)合最大熵訓(xùn)練模型,先由無筆順識別引擎進行識別,將對應(yīng)特征信息輸入到最大熵訓(xùn)練 模型中,當(dāng)輸出判定結(jié)果1時,則判斷第一候選字識別結(jié)果正確,將該第一候選項作為識別 輸出;當(dāng)輸出判定結(jié)果0時,則判斷第一候選字結(jié)果不正確,采用連筆識別引擎進行識別, 當(dāng)連筆識別引擎對應(yīng)的輸出的判定結(jié)果也為0時,由無筆順識別引擎和連筆識別引擎共同決策得到最終識別結(jié)果。下面,舉一個具體的例子進行詳細說明,如“建”字,有的人習(xí)慣先寫左邊,有的人 習(xí)慣先寫右邊。當(dāng)用戶先寫左邊時,筆順不正確,按照現(xiàn)有技術(shù)的方法,由多個識別引擎共 同識別,無筆順識別引擎能識別正確,而其他有筆順識別引擎(連筆識別引擎)識別錯誤, 最終綜合考慮,最終的識別結(jié)果可能為錯誤。按照本發(fā)明實施例二所述,針對用戶先輸入左邊、后輸入右邊的字符“建”的軌跡, 首先采用無筆順識別引擎進行識別,識別得到的特征信息輸入到最大熵訓(xùn)練模型中,輸出 判定結(jié)果為1,則識別結(jié)果是正確的,能夠判定出無筆順識別引擎對該字的識別結(jié)果是值得 信賴的,不用再通過其他識別引擎識別,從而把無筆順識別引擎的識別結(jié)果作為正確結(jié)果 直接給出。又如,對于一個筆順正確,書寫潦草的字符“建”的軌跡,先采用無筆順識別引擎進 行識別,識別得到的特征信息輸入到最大熵訓(xùn)練模型中,由于書寫潦草,輸出判定結(jié)果為0, 則識別結(jié)果錯誤,再采用連筆識別引擎進行識別,輸出判定結(jié)果為1,則識別結(jié)果是正確的, 能夠判定出連筆識別引擎對該字的識別結(jié)果是值得信賴的,從而把連筆識別引擎的識別結(jié) 果做為正確結(jié)果直接給出。較之現(xiàn)有技術(shù)中,有多個引擎共同識別,提高了識別的正確率和 計算效率。需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組 合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā) 明,某些步驟可以采用其他順序或者同時進行。例如,針對本發(fā)明方法實施例二,對于用戶 再次輸入的手寫軌跡,由于已經(jīng)構(gòu)建了最大熵訓(xùn)練模型,則不再執(zhí)行步驟201至202。參照圖3,示出了本發(fā)明一種基于最大熵的文字識別裝置實施例的結(jié)構(gòu)圖,包括特征提取單元301,用于將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特 性信息;模型訓(xùn)練單元302,用于依據(jù)所述特征信息構(gòu)建最大熵訓(xùn)練模型;多個識別引擎303,用于針對用戶輸入的手寫軌跡進行識別;引擎控制單元304,用于逐個選擇觸發(fā)單一識別引擎進行識別操作,以及將識別引 擎識別到的特征信息輸入到模型訓(xùn)練單元中,由最大熵訓(xùn)練模型輸出判定結(jié)果;其中,當(dāng)單 一識別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,停止觸發(fā)下一識別引擎,并觸發(fā)識別輸出 單元將當(dāng)前識別引擎對應(yīng)的識別結(jié)果輸出;當(dāng)單個識別引擎對應(yīng)的判定結(jié)果均不滿足預(yù)置 判定值時,觸發(fā)識別輸出單元對多個識別引擎的識別結(jié)果共同決策進行輸出;識別輸出單元,用于輸出識別結(jié)果。優(yōu)選的,所述特征信息為第一候選字的編碼、識別距離、第一候選字是否正確的判定。進一步,所述判定結(jié)果代表了在當(dāng)前識別引擎中,與特征信息相對應(yīng)的第一候選 字正確的概率大小。在本發(fā)明的一個優(yōu)選實施例中,所述識別引擎包括無筆順識別引擎和連筆識別 引擎;進一步,所述引擎控制單元包括選擇子單元,用于針對用戶輸入的手寫軌跡,逐個選擇觸發(fā)無筆順識別引擎和連
9筆識別引擎進行識別操作;訓(xùn)練子單元,用于將識別得到的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn) 練模型輸出判定結(jié)果;判斷子單元,用于判斷無筆順識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值,若 是,則停止選擇子單元,觸發(fā)識別輸出單元將無筆順識別引擎對應(yīng)的識別結(jié)果輸出;若否, 則判斷連筆識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值,若是,則觸發(fā)識別輸出單元將 連筆識別引擎對應(yīng)的識別結(jié)果輸出,若否,則觸發(fā)識別輸出單元對無筆順識別引擎和連筆 識別引擎的識別結(jié)果共同決策進行輸出。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與 其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置實施例 而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部 分說明即可。以上對本發(fā)明所提供的一種基于最大熵的文字識別方法和識別裝置,進行了詳細 介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明 只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本 發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng) 理解為對本發(fā)明的限制。
權(quán)利要求
一種基于最大熵的文字識別方法,其特征在于,包括A1,將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特性信息;A2,依據(jù)所述特征信息構(gòu)建最大熵訓(xùn)練模型;A3,針對用戶輸入的手寫軌跡,逐個選取單一識別引擎進行識別,將識別得到的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;其中,當(dāng)單一識別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,停止下一識別引擎的識別,將當(dāng)前識別引擎對應(yīng)的識別結(jié)果輸出;當(dāng)單個識別引擎對應(yīng)的判定結(jié)果均不滿足預(yù)置判定值時,對多個識別引擎的識別結(jié)果共同決策進行輸出。
2.如權(quán)利要求1所述的方法,其特征在于,所述特征信息為第一候選字的編碼、識別距離、第一候選字是否正確的判定。
3.如權(quán)利要求1所述的方法,其特征在于,所述判定結(jié)果代表了在該識別引擎中,與特征信息相對應(yīng)的第一候選字正確的概率大
4.如權(quán)利要求1所述的方法,其特征在于,所述識別引擎包括無筆順識別弓I擎和連筆識別引擎。
5.如權(quán)利要求4所述的方法,其特征在于,所述步驟A3包括針對用戶輸入的手寫軌跡,選取無筆順識別引擎進行識別,并將識別得到的特征信息 輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;判斷無筆順識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值;若是,則停止識別,將無筆 順識別引擎對應(yīng)的識別結(jié)果輸出;若否,則選取連筆識別引擎進行識別,并將識別得到的特 征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;判斷連筆識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值;若是,則停止識別,將連筆識 別引擎對應(yīng)的識別結(jié)果輸出;若否,則由無筆順識別引擎和連筆識別引擎的識別結(jié)果共同 決策進行輸出。
6.一種基于最大熵的文字識別裝置,其特征在于,包括特征提取單元,用于將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特性信息;模型訓(xùn)練單元,用于依據(jù)所述特征信息構(gòu)建最大熵訓(xùn)練模型; 多個識別引擎,用于針對用戶輸入的手寫軌跡進行識別;引擎控制單元,用于逐個選擇觸發(fā)單一識別引擎進行識別操作,以及將識別引擎識別 到的特征信息輸入到模型訓(xùn)練單元中,由最大熵訓(xùn)練模型輸出判定結(jié)果;其中,當(dāng)單一識別 引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,停止觸發(fā)下一識別引擎,并觸發(fā)識別輸出單元將 當(dāng)前識別引擎對應(yīng)的識別結(jié)果輸出;當(dāng)單個識別引擎對應(yīng)的判定結(jié)果均不滿足預(yù)置判定值 時,觸發(fā)識別輸出單元對多個識別引擎的識別結(jié)果共同決策進行輸出; 識別輸出單元,用于輸出識別結(jié)果。
7.如權(quán)利要求6所述的裝置,其特征在于,所述特征信息為第一候選字的編碼、識別距離、第一候選字是否正確的判定。
8.如權(quán)利要求6所述的裝置,其特征在于,所述判定結(jié)果代表了在當(dāng)前識別引擎中,與特征信息相對應(yīng)的第一候選字正確的概率大小。
9.如權(quán)利要求6所述的裝置,其特征在于,所述識別引擎包括無筆順識別弓I擎和連筆識別引擎。
10.如權(quán)利要求9所述的裝置,其特征在于,所述引擎控制單元包括選擇子單元,用于針對用戶輸入的手寫軌跡,逐個選擇觸發(fā)無筆順識別引擎和連筆識 別引擎進行識別操作;訓(xùn)練子單元,用于將識別得到的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模 型輸出判定結(jié)果;判斷子單元,用于判斷無筆順識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值,若是,則 停止選擇子單元,觸發(fā)識別輸出單元將無筆順識別引擎對應(yīng)的識別結(jié)果輸出;若否,則判斷 連筆識別引擎對應(yīng)的判定結(jié)果是否滿足預(yù)置判定值,若是,則觸發(fā)識別輸出單元將連筆識 別引擎對應(yīng)的識別結(jié)果輸出,若否,則觸發(fā)識別輸出單元對無筆順識別引擎和連筆識別引 擎的識別結(jié)果共同決策進行輸出。
全文摘要
本發(fā)明提供了一種基于最大熵的文字識別方法和識別裝置,所述方法包括將訓(xùn)練樣本輸入到各個識別引擎中進行特征提取,獲得特性信息;針對用戶輸入的手寫軌跡,逐個選取單一識別引擎進行識別,將識別得到的特征信息輸入到最大熵訓(xùn)練模型中,由最大熵訓(xùn)練模型輸出判定結(jié)果;其中,當(dāng)單一識別引擎對應(yīng)的判定結(jié)果滿足預(yù)置判定值時,停止下一識別引擎的識別,將當(dāng)前識別引擎對應(yīng)的識別結(jié)果輸出;當(dāng)單個識別引擎對應(yīng)的判定結(jié)果均不滿足預(yù)置判定值時,對多個識別引擎的識別結(jié)果共同決策進行輸出。通過本發(fā)明,在保證識別結(jié)果正確的前提下,提高了識別效率。
文檔編號G06K9/68GK101901355SQ20101022190
公開日2010年12月1日 申請日期2010年6月29日 優(yōu)先權(quán)日2010年6月29日
發(fā)明者張連毅, 李健, 武衛(wèi)東 申請人:北京捷通華聲語音技術(shù)有限公司