手寫軌跡的檢測、規(guī)范化和在線識別以及異常字根的收集的制作方法
【專利摘要】本發(fā)明涉及用于手寫軌跡的檢測、規(guī)范化和在線識別以及異常字根的收集的方法和裝置。根據(jù)本公開一個實(shí)施例,提供了一種對字符的手寫軌跡進(jìn)行檢測的方法,包括:基于預(yù)定的異常字根,對于手寫軌跡的每一筆畫,根據(jù)該筆畫的幾何特征進(jìn)行第一判斷,以判斷是否該筆畫是異常字根;如果不是,則進(jìn)行第二判斷,以判斷是否該筆畫是異常字根的一部分并且其與相鄰筆畫的組合是異常字根,所述第二判斷是基于該筆畫的幾何特征和所述相鄰筆畫的幾何特征進(jìn)行的。
【專利說明】手寫軌跡的檢測、規(guī)范化和在線識別以及異常字根的收集
【技術(shù)領(lǐng)域】
[0001]本公開涉及用于字符的手寫軌跡的檢測、規(guī)范化、以及在線識別方法和裝置,以及用于收集異常字根的方法和裝置。
【背景技術(shù)】
[0002]以中文以及日文漢字(kanji)為代表的字符系統(tǒng)(其也被稱為方塊字或象形文字(ideographic character))通常包含多個筆畫(stroke),其中的某些筆畫或筆畫組合常常被作為字根(radical)(例如但不限于,中文中的偏旁部首)。另外,某些字根可以與例如相鄰的筆畫組成更高級別的字根。
[0003]象形文字之類的字符的書寫通常要比以英文為代表的表音字符系統(tǒng)要復(fù)雜得多。例如,中文(漢字)對于每一個字都具有標(biāo)準(zhǔn)的書寫方式(writing style),包括:筆畫的數(shù)目、筆畫的書寫順序(筆順)和方向,等等。
[0004]對于以中文(漢字)為代表的字符系統(tǒng),鍵盤式的輸入(到終端設(shè)備,例如計(jì)算機(jī)、移動終端等)常常是麻煩和低效的。隨著手寫板以及手機(jī)等便攜式設(shè)備的普及,手寫字符輸入成為一種趨勢。
[0005]然而,中文(漢字)字符眾多,書寫方式多樣。并且,在書寫時,為了簡化和快捷,很多人并不是嚴(yán)格遵循標(biāo)準(zhǔn)的書寫方式,并且筆畫形狀(stroke shape)和/或字根形狀也可能發(fā)生變形,例如行書和草書等。并且,對于一些字根,特別是由較少筆畫構(gòu)成的字根,為了書寫的便利,很多人會傾向于簡化其書寫,從而使得所寫就的字根不符合標(biāo)準(zhǔn)的書寫方式。通常,可以將這樣的不符合標(biāo)準(zhǔn)的書寫方式(例如,具有異常的筆畫連接)的字根稱為異常字根(abnormal radical)。例如,圖8B示出了異常字根的一個示例。因此,這對高準(zhǔn)確率地識別手寫字符提出了挑戰(zhàn)。
[0006]典型地,字符識別包括基于在線信息的在線識別和基于離線信息的離線識別。字符識別通常使用字典,字典可以包括用于字符的標(biāo)準(zhǔn)模板和/或基準(zhǔn)模型。標(biāo)準(zhǔn)模板可以包括例如下列中的一項(xiàng)或多項(xiàng):筆畫構(gòu)成,筆畫數(shù)量,筆畫的位置(起止點(diǎn)坐標(biāo)),其它參考點(diǎn)坐標(biāo),等等?;鶞?zhǔn)模型可以包括例如字符筆畫的概率分布,筆畫的起止點(diǎn)統(tǒng)計(jì)信息等等。本領(lǐng)域中已知用于字符識別的多種字典以及多種標(biāo)準(zhǔn)模板和/或基準(zhǔn)模型。
[0007]在線識別將每一字符看作是筆移動(書寫)的時間上的序列。也就是說,將手寫軌跡看作具有分離筆畫指示的坐標(biāo)點(diǎn)的序列。因此,對于每一字符(文字),存在標(biāo)準(zhǔn)的序列,據(jù)此可以構(gòu)造用于該字符(文字)的基準(zhǔn)模型(reference model)以用于在線識別。從而,可以評估手寫軌跡與用于在線識別的基準(zhǔn)模型的匹配度,由此得到候選字符。例如但不限于,該匹配度可以作為識別置信度。
[0008]由于在線識別是基于軌跡序列的匹配,而一些常用的彈性的序列匹配方法(譬如隱馬爾科夫模型(Hidden Markov Model, HMM)算法、動態(tài)時間歸整(Dynamic TimeWarping, DTff)算法等)對變形的字符具有較為魯棒的匹配結(jié)果,因此即使對于形狀變形了的字符,也能夠?qū)崿F(xiàn)相對精確的輸入的序列和基準(zhǔn)序列(reference sequence)之間的匹配。然而,在線識別對書寫的順序敏感,而書寫順序與筆畫的數(shù)目、筆畫的書寫順序和方向(也即,書寫方式)高度相關(guān),其中的變化很可能導(dǎo)致不準(zhǔn)確的識別。
[0009]另外,與離線識別相比,某些在線書寫信息易于提取,例如,筆畫的數(shù)目、筆畫的書寫順序、每一筆畫的書寫方向。然而,由于筆畫的不同書寫方式,字符的手寫跡線的筆畫的數(shù)目、筆畫的書寫順序、每一筆畫的書寫方向常常會發(fā)生變化。因而,書寫方式的變化將影響在線識別的識別性能。
[0010]對此,在現(xiàn)有技術(shù)中提出了一些在字符識別字典中記錄書寫方式變化(原型)的方法,例如可以見:
[0011]現(xiàn)有技術(shù)文獻(xiàn)I:Masaki N, Kaoru M 所著“Collection of on-line handwrittenJapanese character pattern databases and their analyses,,,IJDAR(2004) 7:69-81 ;
[0012]現(xiàn)有技術(shù)文獻(xiàn)2:Akihito K, Masaki N所著“Prototype learning of structuredpattern representation applied to on-line recognition of handwritten Japanesecharacters”, IJDAR(2007) 10:101-112
[0013]現(xiàn)有技術(shù)文獻(xiàn)3:US09/020838 ;
[0014]現(xiàn)有技術(shù)文獻(xiàn)4:US13/214222。
[0015]在此,可以將每一種書寫方式稱為一種原型。在這些基于原型登記的在線識別技術(shù)中,將在字典中記錄同一字符的多個原型,每一原型代表了一種書寫方式。另一方面,對于基于統(tǒng)計(jì)的在線識別技術(shù),諸如HMM、神經(jīng)網(wǎng)絡(luò)技術(shù)等等,字典中要存儲對于同一字符的不同書寫方式的更加復(fù)雜的統(tǒng)計(jì)模型,例如,HMM方法中的高斯密度分量來表示概率分布。
[0016]因此,針對不同書寫方式,需要登記各種書寫方式變化(原型),這通常需要復(fù)雜的計(jì)算和大得多的字典,這也意味著需要高的硬件成本和/或較長的識別時間(識別響應(yīng)時間)。另外,對于這種基于原型登記的技術(shù),其識別性能(例如,準(zhǔn)確率)取決于訓(xùn)練樣本的多樣性。換句而言之,其僅能識別訓(xùn)練樣本中已有的書寫方式變化。離線識別從手寫軌跡的圖像提取筆畫或筆畫段的空間分布信息作為離線特征進(jìn)行匹配。其通常是在書寫完成之后進(jìn)行識別的,一般其不利用動態(tài)書寫信息(諸如,前述的筆畫的數(shù)目、筆畫的書寫順序(筆順)和方向等)。離線識別依賴于手寫軌跡圖像的空間特征,從而對于書寫方式的變化魯棒。但是由于筆畫形狀的變形,離線識別的最佳候選(例如,第一最佳候選)的識別準(zhǔn)確率通常沒有在線識別的高。并且為了對筆畫形狀的變形魯棒,離線識別需要高得多的處理能力和存儲器成本,否則難以實(shí)現(xiàn)與在線識別相當(dāng)?shù)臏?zhǔn)確率。
[0017]至少針對上述的部分或全部問題,提出了本發(fā)明。
【發(fā)明內(nèi)容】
[0018]根據(jù)本公開一個方面,提供了一種對字符的手寫軌跡進(jìn)行檢測的方法和裝置。所述方法包括:基于預(yù)定的異常字根,對于手寫軌跡的每一筆畫,根據(jù)該筆畫的幾何特征進(jìn)行第一判斷,以判斷是否該筆畫是異常字根;以及如果不是,則進(jìn)行第二判斷,以判斷是否該筆畫是異常字根的一部分并且其與相鄰筆畫的組合是異常字根,所述第二判斷是基于該筆畫的幾何特征和所述相鄰筆畫的幾何特征進(jìn)行的。
[0019]根據(jù)本公開一個方面,提供了一種對字符的手寫軌跡進(jìn)行規(guī)范化的方法和裝置。所述方法包括:根據(jù)前述的方法對字符的手寫軌跡進(jìn)行檢測;以及對所檢測到的異常字根進(jìn)行修正以使其符合對應(yīng)的標(biāo)準(zhǔn)字根的書寫方式。
[0020]根據(jù)本公開一個方面,提供了一種手寫字符在線識別方法和裝置,所述手寫字符具有手寫軌跡。所述方法包括:根據(jù)前述的方法對手寫字符的手寫軌跡進(jìn)行規(guī)范化;以及基于所述規(guī)范化后的手寫軌跡,通過在線識別來識別該手寫字符。
[0021]根據(jù)本公開一個方面,提供了一種收集異常字根的方法和裝置。所述方法包括:獲得非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡及其對應(yīng)的標(biāo)準(zhǔn)字符;通過將所述非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡與對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板的比較,檢測非標(biāo)準(zhǔn)筆畫以得到非標(biāo)準(zhǔn)筆畫集,其中所述非標(biāo)準(zhǔn)筆畫集至少包括一個非標(biāo)準(zhǔn)筆畫,并且還能夠包括與該非標(biāo)準(zhǔn)筆畫相鄰的一個或多個筆畫;根據(jù)該非標(biāo)準(zhǔn)筆畫集的幾何特征,確定該非標(biāo)準(zhǔn)筆畫集是否被包含在其它字符的手寫軌跡中;以及如果包含該非標(biāo)準(zhǔn)筆畫集的不同字符的數(shù)目大于一閾值,則將該非標(biāo)準(zhǔn)筆畫集確定為異常字根。
[0022]根據(jù)本公開一個方面,提供了一種針對書寫者自適應(yīng)的在線字符識別方法和裝置。所述方法包括:根據(jù)前述的方法收集異常字根;接收所述書寫者的字符手寫軌跡;根據(jù)前述的方法對所接收的字符手寫軌跡進(jìn)行識別,其中以所收集的異常字根作為所述預(yù)定的異常字根。
[0023]根據(jù)本公開的實(shí)施例,可以以較低的成本(例如,較小的字典,較低的計(jì)算處理能力)實(shí)現(xiàn)緊湊的高準(zhǔn)確率的手寫識別引擎。根據(jù)本公開的實(shí)施例的方法或裝置,對于書寫方式的變化相比于現(xiàn)有技術(shù)更加魯棒。并且由于本發(fā)明基于字根級別的識別和/或書寫方式規(guī)范化,而不是如現(xiàn)有技術(shù)中那樣基于筆畫級別,而字根是可以在若干不同字符之間共享的,因此可以降低或消除對訓(xùn)練樣本的依賴性。此外,根據(jù)本公開的實(shí)施例,對于筆畫形狀變形也更加魯棒。與現(xiàn)有技術(shù)相比,本發(fā)明可以實(shí)現(xiàn)對手寫軌跡的更高準(zhǔn)確率的識別,特別是,可以顯著改善對于第一(最佳)候選的識別準(zhǔn)確率。
[0024]從下面參考附圖的說明中,本發(fā)明的另外的特性、特征、和優(yōu)點(diǎn)將更加清楚。
【專利附圖】
【附圖說明】
[0025]本申請包括附圖,并且附圖構(gòu)成本申請的一部分,附圖示出了本公開的實(shí)施例并且與說明書一起用于解釋本發(fā)明的原理。
[0026]圖1是示出可以實(shí)現(xiàn)本公開的某些實(shí)施例的一種機(jī)器系統(tǒng)的硬件配置的框圖。
[0027]圖2示意性地示出了根據(jù)本公開一個實(shí)施例的用于對字符的手寫軌跡進(jìn)行檢測的方法的流程圖。
[0028]圖3示意性地示出了根據(jù)本公開一個實(shí)施例的用于對字符的手寫軌跡進(jìn)行檢測的裝置的示意框圖。
[0029]圖4示意性地示出了根據(jù)本公開一實(shí)施例的判斷筆畫或筆畫的組合是否是異常字根的示例處理過程的流程圖。
[0030]圖5示意性示出了根據(jù)本公開一實(shí)施例的收集異常字根的示例處理過程的流程圖。
[0031]圖6示意性地示出了根據(jù)本公開一個實(shí)施例的檢測非標(biāo)準(zhǔn)筆畫的示例處理過程的流程圖。
[0032]圖7示意性示出了根據(jù)本公開一個實(shí)施例的對字符的手寫軌跡進(jìn)行規(guī)范化的裝置的示意框圖。
[0033]圖8A示意性地示出了作為一個示例的手寫字符的視圖,圖SB示出了根據(jù)該示例的一個異常字根,圖8C示出了對該異常字根的修正。
[0034]圖9示意性地示出了根據(jù)本公開一個實(shí)施例的對異常字根進(jìn)行修正的處理過程的流程圖。
[0035]圖10A-10D示出了根據(jù)本公開的一個實(shí)例的異常字根,其角點(diǎn)、其筆畫連接點(diǎn)、和根據(jù)筆畫連接點(diǎn)劃分的筆畫的例子。
[0036]圖11示出了根據(jù)本公開一個實(shí)施例的手寫字符在線識別裝置的示意框圖。
[0037]圖12示出了根據(jù)本公開一個實(shí)施例的收集異常字根的裝置的示意框圖。
[0038]圖13示出了根據(jù)本公開一個實(shí)施例的針對書寫者自適應(yīng)的在線字符識別裝置的示意框圖。
【具體實(shí)施方式】
[0039]下面將參考附圖詳細(xì)描述本公開的實(shí)施例。
[0040]注意,在附圖中類似的附圖標(biāo)記和字母表示類似的項(xiàng),并且因此一旦在一個附圖中定義了一個項(xiàng),則對于以后的附圖無需再就該項(xiàng)進(jìn)行討論。
[0041]圖1是示出可以實(shí)現(xiàn)本發(fā)明實(shí)施例的機(jī)器(例如,計(jì)算機(jī))系統(tǒng)1000的硬件配置的框圖。
[0042]如圖1中所示,計(jì)算機(jī)系統(tǒng)包括計(jì)算機(jī)1110。計(jì)算機(jī)1110包括經(jīng)由系統(tǒng)總線1121連接的處理單元1120、系統(tǒng)存儲器1130、固定非易失性存儲器接口 1140、可移動非易失性存儲器接口 1150、用戶輸入接口 1160、網(wǎng)絡(luò)接口 1170、視頻接口 1190和輸出外圍接口1195。
[0043]系統(tǒng)存儲器1130包括ROM (只讀存儲器)1131和RAM (隨機(jī)存取存儲器)1132。BIOS (基本輸入輸出系統(tǒng))1133駐留在R0M1131中。操作系統(tǒng)1134、應(yīng)用程序1135、其它程序模塊1136和某些程序數(shù)據(jù)1137駐留在RAMl 132中。
[0044]諸如硬盤之類的固定非易失性存儲器1141連接到固定非易失性存儲器接口1140。固定非易失性存儲器1141例如可以存儲操作系統(tǒng)1144、應(yīng)用程序1145、其它程序模塊1146和某些程序數(shù)據(jù)1147。
[0045]諸如軟盤驅(qū)動器1151和⑶-ROM驅(qū)動器1155之類的可移動非易失性存儲器連接到可移動非易失性存儲器接口 1150。例如,軟盤1152可以被插入到軟盤驅(qū)動器1151中,以及⑶(光盤)1156可以被插入到⑶-ROM驅(qū)動器1155中。
[0046]諸如麥克風(fēng)1161和鍵盤1162之類的輸入設(shè)備被連接到用戶輸入接口 1160。計(jì)算機(jī)1110還可以包括手寫輸入單元(諸如,手寫板)1163,以用于接收用戶輸入的手寫字符,所述手寫字符可以具有手寫軌跡。
[0047]計(jì)算機(jī)1110可以通過網(wǎng)絡(luò)接口 1170連接到遠(yuǎn)程計(jì)算機(jī)1180。例如,網(wǎng)絡(luò)接口1170可以經(jīng)由局域網(wǎng)1171連接到遠(yuǎn)程計(jì)算機(jī)1180?;蛘?,網(wǎng)絡(luò)接口 1170可以連接到調(diào)制解調(diào)器(調(diào)制器一解調(diào)器)1172,以及調(diào)制解調(diào)器1172經(jīng)由廣域網(wǎng)1173連接到遠(yuǎn)程計(jì)算機(jī)1180。
[0048]遠(yuǎn)程計(jì)算機(jī)1180可以包括諸如硬盤之類的存儲器1181,其存儲遠(yuǎn)程應(yīng)用程序1185。
[0049]視頻接口 1190連接到監(jiān)視器1191。
[0050]輸出外圍接口 1195連接到打印機(jī)1196和揚(yáng)聲器1197。
[0051]圖1所示的計(jì)算機(jī)系統(tǒng)僅僅是說明性的并且決不意圖對本發(fā)明、其應(yīng)用或用途進(jìn)行任何限制。
[0052]圖1所示的計(jì)算機(jī)系統(tǒng)可以被實(shí)施于任何實(shí)施例,可作為獨(dú)立計(jì)算機(jī),或者也可作為設(shè)備中的處理系統(tǒng),可以移除一個或更多個不必要的組件,也可以向其添加一個或更多個附加的組件。
[0053]圖2示出了根據(jù)本公開一個實(shí)施例的用于對字符的手寫軌跡進(jìn)行檢測的方法的流程圖。在該實(shí)施例中,在步驟S201,基于預(yù)定的異常字根,對于手寫軌跡的每一筆畫,根據(jù)該筆畫的幾何特征判斷(第一判斷)是否該筆畫是異常字根。
[0054]在一個實(shí)現(xiàn)方式中,可以通過對多個書寫者的多種書寫方式進(jìn)行統(tǒng)計(jì)分析,預(yù)先針對每一字符(例如,常用漢字)定義可能的異常字根,例如,具有異常筆畫連接的字根,從而,形成預(yù)定的異常字根。在另外的實(shí)現(xiàn)方式中,可以以例如自適應(yīng)的方式收集異常字根。圖5示出了根據(jù)本公開一實(shí)施例的收集異常字根的處理過程的流程圖,將在稍后對其詳細(xì)說明??梢栽跀?shù)據(jù)庫或者字典等中存儲所預(yù)先定義或者收集的異常字根。
[0055]如果在步驟S201,判斷該筆畫是異常字根,則確定該筆畫是異常字根。如果不是,則判斷(第二判斷)是否該筆畫是異常字根的一部分并且其與相鄰筆畫的組合是異常字根(步驟S203)。如果是,則確定該筆畫是異常字根。如果不是,則確定該筆畫不是異常字根。這里,所述第二判斷可以是基于該筆畫的幾何特征和所述相鄰筆畫的幾何特征進(jìn)行的。
[0056]所述幾何特征包括所述筆畫或筆畫的組合中的線段的長度、線段的方向、以及線段的中點(diǎn)的坐標(biāo)。在一個具體示例中,所述線段可以是在所述筆畫或筆畫的組合中的角點(diǎn)處將該筆畫或筆畫的組合分隔而成的多個(兩個或更多個)線段。
[0057]圖8A示意性地示出了作為一個示例的手寫字符“/(女,,的視圖。顯然,對其正確的識別將得到字符“位”。圖8B示出了對于該手寫軌跡,一個可能的異常字根,是由一筆寫成的“義”。
[0058]下表I以示例的方式示出了某些示例字符內(nèi)的可能的異常字根。
【權(quán)利要求】
1.一種對字符的手寫軌跡進(jìn)行檢測的方法,包括: 基于預(yù)定的異常字根,對于手寫軌跡的每一筆畫, 根據(jù)該筆畫的幾何特征進(jìn)行第一判斷,以判斷是否該筆畫是異常字根; 如果不是,則進(jìn)行第二判斷,以判斷是否該筆畫是異常字根的一部分并且其與相鄰筆畫的組合是異常字根,所述第二判斷是基于該筆畫的幾何特征和所述相鄰筆畫的幾何特征進(jìn)行的。
2.根據(jù)權(quán)利要求1所述的方法,其中所述判斷是否該筆畫或筆畫的組合是異常字根的步驟包括: 檢測該筆畫或筆畫的組合內(nèi)的角點(diǎn),并在所述角點(diǎn)處將該筆畫或筆畫的組合分成多個線段; 確定每一線段的幾何特征; 根據(jù)所述幾何特征確定所述多個線段是否與所述預(yù)定的異常字根的線段對應(yīng); 如果對應(yīng),則確定該筆畫或筆畫的組合是異常字根。
3.根據(jù)權(quán)利要求1所述的方法,其中所述判斷是否該筆畫或該筆畫與相鄰筆畫的組合是異常字根的步驟包括: 檢測該筆畫或筆畫的組合內(nèi)的角點(diǎn),并在所述角點(diǎn)處將該筆畫或筆畫的組合分成多個線段; 確定每一線段的幾何特征; 根據(jù)所述幾何特征確定所述多個線段是否與所述預(yù)定的異常字根的線段對應(yīng); 如果確定所述多個線段與所述預(yù)定的異常字根的線段對應(yīng),則評估所述多個線段之間的相互關(guān)系以確定是否與對應(yīng)的異常字根的線段的相互關(guān)系相符; 如果相符,則確定該筆畫或筆畫的組合是異常字根。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其中所述幾何特征包括下列中的至少一項(xiàng):線段的長度、線段的方向、以及線段的中點(diǎn)的坐標(biāo)。
5.根據(jù)權(quán)利要求3所述的方法,其中所述相互關(guān)系包括下列中的至少一項(xiàng):所述多個線段之間的交叉角以及所述多個線段之間的距離。
6.根據(jù)權(quán)利要求1所述的方法,其中通過如下步驟收集獲得所述預(yù)定的異常字根: 獲得非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡及其對應(yīng)的標(biāo)準(zhǔn)字符; 通過將所述非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡與對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板的比較,檢測非標(biāo)準(zhǔn)筆畫以得到非標(biāo)準(zhǔn)筆畫集,其中所述非標(biāo)準(zhǔn)筆畫集至少包括一個非標(biāo)準(zhǔn)筆畫,并且還能夠包括與該非標(biāo)準(zhǔn)筆畫相鄰的一個或多個筆畫; 根據(jù)該非標(biāo)準(zhǔn)筆畫集的幾何特征,確定該非標(biāo)準(zhǔn)筆畫集是否被包含在其它字符的手寫軌跡中;以及 如果包含該非標(biāo)準(zhǔn)筆畫集的不同字符的數(shù)目大于一閾值,則將該非標(biāo)準(zhǔn)筆畫集確定為異常字根。
7.根據(jù)權(quán)利要求6所述的方法,其中所述檢測非標(biāo)準(zhǔn)筆畫的步驟包括,對于所述手寫軌跡內(nèi)的每一筆畫: 生成該筆畫的特征序列; 計(jì)算所述特征序列與所述對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板中的所有筆畫的特征序列的匹配距離;以及 如果對于該筆畫的最小匹配距離大于預(yù)定的閾值,則確定該筆畫為非標(biāo)準(zhǔn)筆畫。
8.一種對字符的手寫軌跡進(jìn)行規(guī)范化的方法,包括: 根據(jù)權(quán)利要求1-7中任一項(xiàng)所述的方法對字符的手寫軌跡進(jìn)行檢測;以及 對所檢測到的異常字根進(jìn)行修正以使其符合對應(yīng)的標(biāo)準(zhǔn)字根的書寫方式。
9.根據(jù)權(quán)利要求8所述的方法,其中所述修正步驟包括,對于每一檢測的異常字根: 檢測該異常字根的角點(diǎn); 根據(jù)該異常字根的相應(yīng)的標(biāo)準(zhǔn)書寫方式選擇角點(diǎn)中的至少一個作為筆畫連接點(diǎn); 將該異常字根在所述筆畫連接點(diǎn)處分離成筆畫;以及 根據(jù)標(biāo)準(zhǔn)書寫方式重新排序每一分離的筆畫中的軌跡點(diǎn)。
10.根據(jù)權(quán)利要求9所述的方法,其中所述修正步驟還包括: 根據(jù)標(biāo)準(zhǔn)書寫方式重新排序所分離的筆畫。
11.根據(jù)權(quán)利要求9或10所述的方法,其中所述修正步驟還包括: 如果修正后的異常字根能夠與相鄰的筆畫組合形成更高級別的字根,則根據(jù)該更高級別的字根的標(biāo)準(zhǔn)書寫方式對所述分離的筆畫和所述相鄰的筆畫重新排序。
12.—種手寫字符在線識別方法,所述手寫字符具有手寫軌跡,所述方法包括: 根據(jù)權(quán)利要求8-11中任一項(xiàng)所述的方法對手寫字符的手寫軌跡進(jìn)行規(guī)范化;以及 基于所述規(guī)范化后的手寫軌跡,通過在線識別來識別該手寫字符。
13.一種收集異常字根的方法,包括: 獲得非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡及其對應(yīng)的標(biāo)準(zhǔn)字符; 通過將所述非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡與對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板的比較,檢測非標(biāo)準(zhǔn)筆畫以得到非標(biāo)準(zhǔn)筆畫集,其中所述非標(biāo)準(zhǔn)筆畫集至少包括一個非標(biāo)準(zhǔn)筆畫,并且還能夠包括與該非標(biāo)準(zhǔn)筆畫相鄰的一個或多個筆畫; 根據(jù)該非標(biāo)準(zhǔn)筆畫集的幾何特征,確定該非標(biāo)準(zhǔn)筆畫集是否被包含在其它字符的手寫軌跡中;以及 如果包含該非標(biāo)準(zhǔn)筆畫集的不同字符的數(shù)目大于一閾值,則將該非標(biāo)準(zhǔn)筆畫集確定為異常字根。
14.根據(jù)權(quán)利要求13所述的方法,其中所述檢測非標(biāo)準(zhǔn)筆畫的步驟包括,對于所述手寫軌跡內(nèi)的每一筆畫: 生成該筆畫的特征序列; 計(jì)算所述特征序列與對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板中的所有筆畫的特征序列的匹配距離;以及 如果對于該筆畫的最小匹配距離大于預(yù)定的閾值,則確定該筆畫為非標(biāo)準(zhǔn)筆畫。
15.根據(jù)權(quán)利要求13所述的方法,其中所述幾何特征至少包括有關(guān)以該非標(biāo)準(zhǔn)筆畫集中每一筆畫的各角點(diǎn)分隔的各線段的信息。
16.根據(jù)權(quán)利要求15所述的方法,其中所述幾何特征還包括所述各線段之間的相互關(guān)系; 其中所述線段的信息包括下列中一項(xiàng)或多項(xiàng):線段的起始點(diǎn)坐標(biāo)、線段的長度、線段的方向、線段的中點(diǎn)坐標(biāo)、線段的角點(diǎn)坐標(biāo)。
17.根據(jù)權(quán)利要求13所述的方法,還包括: 確定與所述異常字根對應(yīng)的標(biāo)準(zhǔn)字根。
18.根據(jù)權(quán)利要求17所述的方法,其中確定與所述異常字根對應(yīng)的標(biāo)準(zhǔn)字根包括: 計(jì)算以該非標(biāo)準(zhǔn)筆畫集中每一筆畫的各角點(diǎn)分隔的各線段的每一組合與所述標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板中的標(biāo)準(zhǔn)筆畫的組合之間的匹配距離;以及 選擇該非標(biāo)準(zhǔn)筆畫集的匹配距離最小的線段組合作為對應(yīng)的標(biāo)準(zhǔn)字根。
19.一種針對書寫者自適應(yīng)的在線字符識別方法,包括: 根據(jù)權(quán)利要求13-18中任一項(xiàng)所述的方法收集異常字根; 接收所述書寫者的字符手寫軌跡; 根據(jù)權(quán)利要求12所述的方法對所接收的字符手寫軌跡進(jìn)行識別,其中以所收集的異常字根作為所述預(yù)定的異常字根。
20.一種對字符的手寫軌跡進(jìn)行檢測的裝置,包括: 手寫輸入單元,適于接收用戶輸入的字符的手寫軌跡, 處理單元,適于: 基于預(yù)定的異常字根,對于所述手寫軌跡的每一筆畫, 根據(jù)該筆畫的幾何特征進(jìn)行第一判斷,以判斷是否該筆畫是異常字根;以及如果不是,則進(jìn)行第二判斷,以判斷是否該筆畫是異常字根的一部分并且其與相鄰筆畫的組合是異常字根,所述第二判斷是基于該筆畫的幾何特征和所述相鄰筆畫的幾何特征進(jìn)行的。
21.根據(jù)權(quán)利要求20所述的裝置,其中所述判斷是否該筆畫或筆畫的組合是異常字根包括: 檢測該筆畫或筆畫的組合內(nèi)的角點(diǎn),并在所述角點(diǎn)處將該筆畫或筆畫的組合分成多個線段; 確定每一線段的幾何特征; 根據(jù)所述幾何特征確定所述多個線段是否與所述預(yù)定的異常字根的線段對應(yīng); 如果對應(yīng),則確定該筆畫或筆畫的組合是異常字根。
22.根據(jù)權(quán)利要求20所述的裝置,其中所述判斷是否該筆畫或該筆畫與相鄰筆畫的組合是異常字根包括: 檢測該筆畫或筆畫的組合內(nèi)的角點(diǎn),并在所述角點(diǎn)處將該筆畫或筆畫的組合分成多個線段; 確定每一線段的幾何特征; 根據(jù)所述幾何特征確定所述多個線段是否與所述預(yù)定的異常字根的線段對應(yīng); 如果確定所述多個線段與所述預(yù)定的異常字根的線段對應(yīng),則評估所述多個線段之間的相互關(guān)系以確定是否與對應(yīng)的異常字根的線段的相互關(guān)系相符; 如果相符,則確定該筆畫或筆畫的組合是異常字根。
23.根據(jù)權(quán)利要求20-22中任一項(xiàng)所述的裝置,其中所述幾何特征包括下列中的至少一項(xiàng):線段的長度、線段的方向、以及線段的中點(diǎn)的坐標(biāo)。
24.根據(jù)權(quán)利要求22所述的裝置,其中所述相互關(guān)系包括下列中的至少一項(xiàng):所述多個線段之間的交叉角以及所述多個線段之間的距離。
25.根據(jù)權(quán)利要求20所述的裝置,還包括: 收集裝置,用于收集獲得所述預(yù)定的異常字根,所述收集裝置適于: 獲得非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡及其對應(yīng)的標(biāo)準(zhǔn)字符; 通過將所述非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡與對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板的比較,檢測非標(biāo)準(zhǔn)筆畫以得到非標(biāo)準(zhǔn)筆畫集,其中所述非標(biāo)準(zhǔn)筆畫集至少包括一個非標(biāo)準(zhǔn)筆畫,并且還能夠包括與該非標(biāo)準(zhǔn)筆畫相鄰的一個或多個筆畫; 根據(jù)該非標(biāo)準(zhǔn)筆畫集的幾何特征,確定該非標(biāo)準(zhǔn)筆畫集是否被包含在其它字符的手寫軌跡中;以及 如果包含該非標(biāo)準(zhǔn)筆畫集的不同字符的數(shù)目大于一閾值,則將該非標(biāo)準(zhǔn)筆畫集確定為異常字根。
26.根據(jù)權(quán)利要求25所述的裝置,其中所述檢測非標(biāo)準(zhǔn)筆畫包括,對于所述手寫軌跡內(nèi)的每一筆畫: 生成該筆畫的特征序列; 計(jì)算所述特征序列與所述對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板中的所有筆畫的特征序列的匹配距離;以及 如果對于該筆畫的最小匹配距離大于預(yù)定的閾值,則確定該筆畫為非標(biāo)準(zhǔn)筆畫。
27.一種對字符的手寫軌跡進(jìn)行規(guī)范化的裝置,包括: 根據(jù)權(quán)利要求20-26中任一項(xiàng)所述的對字符的手寫軌跡進(jìn)行檢測的裝置; 修正裝置,用于對所檢測到的異常字根進(jìn)行修正以使其符合對應(yīng)的標(biāo)準(zhǔn)字根的書寫方式。
28.根據(jù)權(quán)利要求27所述的裝置,其中所述修正裝置適于: 對于每一檢測的異常字根,檢測該異常字根的角點(diǎn); 根據(jù)該異常字根的相應(yīng)的標(biāo)準(zhǔn)書寫方式選擇角點(diǎn)中的至少一個作為筆畫連接點(diǎn); 將該異常字根在所述筆畫連接點(diǎn)處分離成筆畫;以及 根據(jù)標(biāo)準(zhǔn)書寫方式重新排序每一分離的筆畫中的軌跡點(diǎn)。
29.根據(jù)權(quán)利要求28所述的裝置,其中所述修正裝置還適于: 根據(jù)標(biāo)準(zhǔn)書寫方式重新排序所分離的筆畫。
30.根據(jù)權(quán)利要求28或29所述的裝置,其中所述修正裝置還適于: 如果修正后的異常字根能夠與相鄰的筆畫組合形成更高級別的字根,則根據(jù)該更高級別的字根的標(biāo)準(zhǔn)書寫方式對所述分離的筆畫和所述相鄰的筆畫重新排序。
31.一種手寫字符在線識別裝置,所述手寫字符具有手寫軌跡,所述裝置包括: 根據(jù)權(quán)利要求27-30中任一項(xiàng)所述的對手寫字符的手寫軌跡進(jìn)行規(guī)范化的裝置; 在線識別單元,適于基于所述規(guī)范化后的手寫軌跡,通過在線識別來識別該手寫字符。
32.一種收集異常字根的裝置,包括: 獲取單元,適于獲得非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡及其對應(yīng)的標(biāo)準(zhǔn)字符; 檢測單元,適于通過將所述非標(biāo)準(zhǔn)書寫方式的字符手寫軌跡與對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板的比較,檢測非標(biāo)準(zhǔn)筆畫以得到非標(biāo)準(zhǔn)筆畫集,其中所述非標(biāo)準(zhǔn)筆畫集至少包括一個非標(biāo)準(zhǔn)筆畫,并且還能夠包括與該非標(biāo)準(zhǔn)筆畫相鄰的一個或多個筆畫; 確定單元,適于根據(jù)該非標(biāo)準(zhǔn)筆畫集的幾何特征,確定該非標(biāo)準(zhǔn)筆畫集是否被包含在其它字符的手寫軌跡中,以及如果包含該非標(biāo)準(zhǔn)筆畫集的不同字符的數(shù)目大于一閾值,則將該非標(biāo)準(zhǔn)筆畫集確定為異常字根。
33.根據(jù)權(quán)利要求32所述的裝置,其中所述檢測非標(biāo)準(zhǔn)筆畫包括,對于所述手寫軌跡內(nèi)的每一筆畫: 生成該筆畫的特征序列; 計(jì)算所述特征序列與對應(yīng)的標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板中的所有筆畫的特征序列的匹配距離;以及 如果對于該筆畫的最小匹配距離大于預(yù)定的閾值,則確定該筆畫為非標(biāo)準(zhǔn)筆畫。
34.根據(jù)權(quán)利要求32所述的裝置,其中所述幾何特征至少包括有關(guān)以該非標(biāo)準(zhǔn)筆畫集中每一筆畫的各角點(diǎn)分隔的各線段的信息。
35.根據(jù)權(quán)利要求34所述的裝置,其中所述幾何特征還可包括所述各線段之間的相互關(guān)系; 其中所述線段的信息包括下列中一項(xiàng)或多項(xiàng):線段的起始點(diǎn)坐標(biāo)、線段的長度、線段的方向、線段的中點(diǎn)坐標(biāo)、線段的角點(diǎn)坐標(biāo)。
36.根據(jù)權(quán)利要求32所述的裝置,還包括: 標(biāo)準(zhǔn)字根確定單元,適于確定與所述異常字根對應(yīng)的標(biāo)準(zhǔn)字根。
37.根據(jù)權(quán)利要求36所述的裝置,其中確定與所述異常字根對應(yīng)的標(biāo)準(zhǔn)字根包括: 計(jì)算以該非標(biāo)準(zhǔn)筆畫集中每一筆畫的各角點(diǎn)分隔的各線段的每一組合與所述標(biāo)準(zhǔn)字符的標(biāo)準(zhǔn)模板中的標(biāo)準(zhǔn)筆畫的組合的匹配距離;以及 選擇該非標(biāo)準(zhǔn)筆畫集的匹配距離最小的線段組合作為對應(yīng)的標(biāo)準(zhǔn)字根。
38.一種針對書寫者自適應(yīng)的在線字符識別裝置,包括: 根據(jù)權(quán)利要求32-37中任一項(xiàng)所述的收集異常字根的裝置,適于收集異常字根; 手寫輸入單元,適于接收所述書寫者的字符手寫軌跡;以及 根據(jù)權(quán)利要求31所述的手寫字符在線識別裝置,適于對所接收的字符手寫軌跡進(jìn)行識別,其中以所收集的異常字根作為所述預(yù)定的異常字根。
【文檔編號】G06K9/68GK104008363SQ201310202701
【公開日】2014年8月27日 申請日期:2013年5月28日 優(yōu)先權(quán)日:2013年2月26日
【發(fā)明者】許梅芳, 李建杰 申請人:佳能株式會社