對手寫字符的無旋轉(zhuǎn)識別的制作方法
【專利摘要】字符識別系統(tǒng)接收未知字符,并基于預(yù)先訓(xùn)練的識別模型來識別該字符。在識別該字符之前,字符識別系統(tǒng)可對該字符進(jìn)行預(yù)處理以將該字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向。通過在訓(xùn)練和識別兩個階段中將該字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向,字符識別系統(tǒng)使預(yù)先訓(xùn)練的識別模型從考慮處于不同定向的字符原型中釋放出來,并由此加速對未知字符的識別。在一個示例中,字符識別系統(tǒng)通過使字符的每一筆畫的各開始點(diǎn)的坐標(biāo)的和與各結(jié)束點(diǎn)的坐標(biāo)的和之間的線與標(biāo)準(zhǔn)化方向?qū)R來將字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向。
【專利說明】對手寫字符的無旋轉(zhuǎn)識別
[0001]背景
[0002]字符識別允許在有少許人類干預(yù)或沒有人類干預(yù)的情況下基于所訓(xùn)練的識別模型來自動識別未知的字符。在現(xiàn)實(shí)世界應(yīng)用中已開發(fā)并采用了多種字符識別算法,包括例如用于轉(zhuǎn)換手寫、打字和/或打印文檔的掃描圖像的光學(xué)字符識別應(yīng)用。
[0003]最近的移動設(shè)備技術(shù)開發(fā)為字符識別展開了新機(jī)會。由于移動設(shè)備的小形狀因素,移動設(shè)備通常不包括用于用戶輸入的鍵盤。即使移動設(shè)備提供了鍵盤,該鍵盤往往也非常小而且不便使用,尤其是在需要輸入大量文字或字符時。在這種情形下,字符識別已被認(rèn)為是該輸入問題的可能解決方案。用戶可通過移動設(shè)備的觸摸屏或輸入板輸入字符,并且移動設(shè)備的識別應(yīng)用可隨后基于字符識別模型來識別或轉(zhuǎn)換所輸入的字符。字符識別的使用不僅使用戶免于通過極小的鍵盤(如果存在任何鍵盤的話)輸入字符,而且還減少了由于因鍵盤的小尺寸而錯誤地觸摸該鍵盤上的錯誤按鈕而導(dǎo)致的錯誤。
[0004]雖然字符識別作為比極小的鍵盤更優(yōu)良的解決方案而言是受歡迎的,但在移動設(shè)備中利用字符識別并非沒有問題。一般來說,現(xiàn)有字符識別的準(zhǔn)確性嚴(yán)重依賴于要識別的字符是否是以預(yù)定的定向(例如,以垂直位置)來接收的。當(dāng)要識別的字符偏離預(yù)定定向時,現(xiàn)有的字符識別的準(zhǔn)確性急劇惡化。換言之,現(xiàn)有的字符識別因要識別的字符的定向而變化。
[0005]概述
[0006]本概述介紹了將在以下詳細(xì)描述中進(jìn)一步描述的字符識別的簡化概念。本概述并不旨在標(biāo)識所要求保護(hù)的主題的必要特征,也不旨在用于確定所要求保護(hù)的主題的范圍。
[0007]本申請描述了字符識別的示例實(shí)施例。在一個實(shí)施例中,可接收多個訓(xùn)練字符,例如,諸如中文字符、日文字符、韓文字符等東亞字符。在一個實(shí)施例中,在提取每一訓(xùn)練字符的特征之前,可首先將每一訓(xùn)練字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向。作為示例而非限制,每一字符可基于相應(yīng)字符的每一筆畫的至少兩個點(diǎn)(例如,開始點(diǎn)和結(jié)束點(diǎn))的信息來旋轉(zhuǎn)。在一些實(shí)施例中,在旋轉(zhuǎn)了多個訓(xùn)練字符后,可提取每一訓(xùn)練字符的特征并將其用于訓(xùn)練識別模型。在一個實(shí)施例中,在訓(xùn)練識別模型之際,可進(jìn)一步壓縮或減少識別模型的參數(shù)。例如,識別模型的參數(shù)可被量化。作為補(bǔ)充或替換,可構(gòu)造用于在運(yùn)行時使用所訓(xùn)練的識別模型來促成對傳入字符的識別的樹。
[0008]在一些實(shí)施例中,一旦存在識別模型,就可接收新的未知字符。該新的未知字符可包括一個或多個筆畫。在一個實(shí)施例中,在使用所訓(xùn)練的識別模型來識別該新的未知字符之前,可例如基于該新的未知字符的每一筆畫的至少兩個點(diǎn)(例如,開始點(diǎn)和結(jié)束點(diǎn))將該新的未知字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向。在將該新的未知字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向后,可使用所訓(xùn)練的識別模型來識別經(jīng)旋轉(zhuǎn)的字符。
[0009]附圖簡述
[0010]參考附圖闡述詳細(xì)描述。在附圖中,附圖標(biāo)記最左邊的數(shù)字標(biāo)識該附圖標(biāo)記首次出現(xiàn)于其中的附圖。在不同附圖中使用相同的附圖標(biāo)記指示相似或相同的項(xiàng)。
[0011]圖1示出了包括示例字符識別系統(tǒng)的示例環(huán)境。
[0012]圖2更詳細(xì)地示出了圖1的示例字符識別系統(tǒng)。
[0013]圖3示出在訓(xùn)練和/或識別期間旋轉(zhuǎn)接收到的字符的示例場景。
[0014]圖4示出訓(xùn)練識別模型的示例方法。
[0015]圖5示出基于所訓(xùn)練的識別模型來識別字符的示例方法。
[0016]詳細(xì)描述
[0017]概覽
[0018]如上所述,現(xiàn)有字符識別模型的識別準(zhǔn)確性嚴(yán)重依賴于給定字符是否是以預(yù)定定向被接收的。給定字符與預(yù)定定向的任何偏差使字符識別模型的識別準(zhǔn)確性惡化并致使這些模型易于出錯。通常,用戶將以偏離預(yù)定定向的角度輸入手寫字符。在經(jīng)由移動設(shè)備的觸摸屏來輸入字符時這種情況尤其嚴(yán)重,經(jīng)由移動設(shè)備的觸摸屏輸入字符無法保持在預(yù)期的定向處。
[0019]本公開描述了一種字符識別系統(tǒng),該系統(tǒng)在使用預(yù)先訓(xùn)練的識別模型來識別或轉(zhuǎn)換傳入字符之前將輸入字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向。標(biāo)準(zhǔn)化定向無需一定對應(yīng)于該字符的垂直或水平定向。
[0020]一般來說,在字符識別的訓(xùn)練階段期間,所描述的系統(tǒng)可接收訓(xùn)練數(shù)據(jù),例如多個文本字符。多個文本字符可包括但不限于東亞字符(諸如,中文字符、韓文字符、日文字符等)和中東字符(諸如,希伯來文字符、希臘文字符、阿拉伯文字符等)。在一個實(shí)施例中,所描述的系統(tǒng)可通過將每一字符旋轉(zhuǎn)到表征相應(yīng)字符的一個或多個筆畫的至少兩個點(diǎn)(例如,開始點(diǎn)和結(jié)束點(diǎn))之間的關(guān)系的相應(yīng)標(biāo)準(zhǔn)化定向(或旋轉(zhuǎn)表征該關(guān)系的相應(yīng)的旋轉(zhuǎn)角)來對每一字符進(jìn)行預(yù)處理。作為示例而非限制,所描述的系統(tǒng)可旋轉(zhuǎn)字符以使從該字符的一個或多個筆畫的各開始點(diǎn)的坐標(biāo)的加權(quán)和到該字符的一個或多個筆畫的各結(jié)束點(diǎn)的坐標(biāo)的加權(quán)和(或反過來)的線與預(yù)定的標(biāo)準(zhǔn)化方向?qū)R。在一個實(shí)施例中,字符的一個或多個筆畫可包括例如字符的每一筆畫、字符的具有大于或等于預(yù)定閾值的屬性(例如,長度)的筆畫的子集等。
[0021]在旋轉(zhuǎn)多個字符之際,所描述的系統(tǒng)可以從多個經(jīng)旋轉(zhuǎn)的字符提取特征。此外,所描述的系統(tǒng)可基于所提取的特征來構(gòu)造識別模型(或分類器)。在一些實(shí)施例中,所描述的系統(tǒng)可進(jìn)一步改進(jìn)識別模型。例如,所描述的系統(tǒng)可使用優(yōu)化算法(例如彈性傳播(Rprop)算法等)用目標(biāo)函數(shù)來改進(jìn)識別模型。作為補(bǔ)充或替換,所描述的系統(tǒng)可使用諸如分割向量量化(VQ)技術(shù)之類的技術(shù)來壓縮識別模型的參數(shù)。作為補(bǔ)充或替換,在一個實(shí)施例中,所描述的系統(tǒng)可構(gòu)造用于加速在運(yùn)行時使用識別模型對傳入或未知字符的識別的樹(諸如,兩層的快速匹配樹)。
[0022]在一些實(shí)施例中,在識別階段期間,所描述的系統(tǒng)可接收例如由用戶輸入的傳入字符。作為示例而非限制,所描述的系統(tǒng)可接收由用戶通過設(shè)備的觸摸屏或輸入板輸入的傳入字符,該傳入字符是用手指、數(shù)字筆、或鼠標(biāo)等寫入的。作為補(bǔ)充或替換,所描述的系統(tǒng)可接收來自要識別或轉(zhuǎn)換的文檔的傳入字符。
[0023]響應(yīng)于接收傳入字符,所描述的系統(tǒng)可如上所述例如通過基于該傳入字符的一個或多個筆畫的至少兩個點(diǎn)(例如,開始點(diǎn)和結(jié)束點(diǎn))之間的關(guān)系的信息來旋轉(zhuǎn)該傳入字符來對該傳入字符進(jìn)行預(yù)處理。在旋轉(zhuǎn)輸入字符之際,所描述的系統(tǒng)可從傳入字符提取特征,并基于所提取的特征和預(yù)先訓(xùn)練的識別模型來識別或轉(zhuǎn)換傳入字符。在一個實(shí)施例中,所描述的系統(tǒng)可使用例如所構(gòu)造的兩層快速匹配樹來加速對傳入字符的識別。在成功識別或轉(zhuǎn)換傳入字符之際,所描述的系統(tǒng)可將識別結(jié)果提供給可通過其顯示器(例如,觸摸屏)向用戶顯示識別結(jié)果或?qū)⒆R別結(jié)果傳送至其中的應(yīng)用以供進(jìn)一步操縱的設(shè)備。在一些實(shí)例中,所描述的系統(tǒng)可在與用戶輸入傳入字符或文本基本上同時地運(yùn)行時對傳入字符或文本的部分執(zhí)行識別,而在其他實(shí)例中,所描述的系統(tǒng)可在用戶輸入了傳入字符或文本后對傳入字符或文本的部分執(zhí)行識別。
[0024]所描述的系統(tǒng)將傳入字符旋轉(zhuǎn)表征傳入字符的一個或多個筆畫的角度,并將傳入字符變換到標(biāo)準(zhǔn)化定向以促成對該傳入字符的識別。通過在識別之前將傳入字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向,所描述的系統(tǒng)允許字符識別對傳入字符的接收定向不那么敏感或不那么容易因傳入字符的接收定向而變化,并因此提高了字符識別模型的識別準(zhǔn)確性。
[0025]盡管在本文中描述的示例中,由字符識別系統(tǒng)來旋轉(zhuǎn)字符、從字符提取特征、識別字符、構(gòu)造識別模型、改進(jìn)識別模型、壓縮識別模型的參數(shù)并構(gòu)造搜索樹,但在其他實(shí)施例中,這些功能可以由多個分開的系統(tǒng)或服務(wù)來執(zhí)行。例如,在一個實(shí)施例中,預(yù)處理服務(wù)可對字符進(jìn)行預(yù)處理,而訓(xùn)練服務(wù)可訓(xùn)練識別模型,分開的服務(wù)可改進(jìn)和/或壓縮識別模型,并且又一服務(wù)可基于識別模型來識別字符。
[0026]本申請描述了多個且變化的實(shí)現(xiàn)和實(shí)施例。下一小節(jié)描述了適用于實(shí)施各種實(shí)現(xiàn)的示例環(huán)境。接著,本申請描述用于實(shí)現(xiàn)字符識別系統(tǒng)的示例系統(tǒng)、設(shè)備和過程。
[0027]示例性環(huán)境
[0028]圖1示出了可用于實(shí)現(xiàn)字符識別系統(tǒng)102的示例性環(huán)境100。在一個實(shí)施例中,環(huán)境100可包括客戶機(jī)設(shè)備104、服務(wù)器106和網(wǎng)絡(luò)108??蛻魴C(jī)設(shè)備104和/或服務(wù)器106可以經(jīng)由網(wǎng)絡(luò)108與字符識別系統(tǒng)102進(jìn)行數(shù)據(jù)通信。
[0029]盡管圖1中的字符識別系統(tǒng)102被描述為與客戶機(jī)設(shè)備104和服務(wù)器106分開,但在一個實(shí)施例中,字符識別系統(tǒng)102的功能可被包括和分布在一個或多個客戶機(jī)設(shè)備104和/或一個或多個服務(wù)器106中。例如,客戶機(jī)設(shè)備104可包括字符識別系統(tǒng)102的各功能的一部分,而字符識別系統(tǒng)102的其他功能可被包括在服務(wù)器106中。在一些實(shí)施例中,字符識別系統(tǒng)102的所有功能可被包括在客戶機(jī)設(shè)備104或服務(wù)器106中。
[0030]客戶機(jī)設(shè)備104可以被實(shí)現(xiàn)為各種常規(guī)計算設(shè)備中的任一種,包括例如,筆記本或便攜式計算機(jī)、手持式設(shè)備、上網(wǎng)本、因特網(wǎng)設(shè)備、便攜式閱讀設(shè)備、電子書閱讀器設(shè)備、圖形輸入板或平板計算機(jī)、游戲控制臺、移動設(shè)備(例如,移動電話、個人數(shù)字助理、智能電話等)、媒體播放器等,或其組合。
[0031]網(wǎng)絡(luò)108可以是無線或有線網(wǎng)絡(luò),或其組合。網(wǎng)絡(luò)108可以是各單獨(dú)網(wǎng)絡(luò)的集合,這些網(wǎng)絡(luò)彼此互連并用作單個大型網(wǎng)絡(luò)(例如,因特網(wǎng)或內(nèi)聯(lián)網(wǎng))。這樣的單獨(dú)網(wǎng)絡(luò)的示例包括,但不僅限于,電話網(wǎng)絡(luò)、電纜網(wǎng)絡(luò)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN),以及城域網(wǎng)(MAN)。此外,各單獨(dú)網(wǎng)絡(luò)也可以是無線或有線網(wǎng)絡(luò),或其組合。
[0032]在一個實(shí)施例中,設(shè)備104包括耦合到存儲器112的一個或多個處理器110。存儲器112包括一個或多個應(yīng)用114(例如,字符識別應(yīng)用、書寫應(yīng)用等)和其他程序數(shù)據(jù)116。存儲器112還可耦合到其他設(shè)備、與其他設(shè)備相關(guān)聯(lián)、和/或可由其他設(shè)備訪問,其他設(shè)備諸如網(wǎng)絡(luò)服務(wù)器、路由器、服務(wù)器106、和/或其他客戶機(jī)設(shè)備(未示出)。
[0033]客戶機(jī)設(shè)備104的用戶118可能想要向客戶機(jī)設(shè)備104輸入字符。例如,用戶可采用客戶機(jī)設(shè)備104的書寫應(yīng)用使用手指、數(shù)字筆、指示筆、鼠標(biāo)等在客戶機(jī)設(shè)備104的觸摸屏、輸入板或其他顯示器上寫入字符。在該示例中,書寫應(yīng)用可包括可通過與作為后端的字符識別系統(tǒng)102傳遞字符數(shù)據(jù)而獲得寫入字符的識別結(jié)果的前端應(yīng)用。
[0034]響應(yīng)于從書寫應(yīng)用接收字符數(shù)據(jù),字符識別系統(tǒng)102可使用包括在其中的預(yù)先訓(xùn)練的識別模型來識別字符,并將識別結(jié)果返回給書寫應(yīng)用。例如,字符識別系統(tǒng)102可將識別出的文本結(jié)果(例如,以特定字體)返回給書寫應(yīng)用。在一些實(shí)施例中,字符識別系統(tǒng)102或客戶機(jī)設(shè)備104或服務(wù)器106的另一系統(tǒng)或應(yīng)用還可將字符從一種語言轉(zhuǎn)換成另一種語言(例如,從中文轉(zhuǎn)換成英文)。
[0035]在其中客戶機(jī)設(shè)備104具有足夠處理能力的其他實(shí)施例中,字符識別可完全由客戶機(jī)設(shè)備104處的字符識別功能(例如,字符識別系統(tǒng)102的功能)來實(shí)現(xiàn)。
[0036]圖2更詳細(xì)地示出了字符識別系統(tǒng)102。在一個實(shí)施例中,字符識別系統(tǒng)102包括但不限于一個或多個處理器202、網(wǎng)絡(luò)接口 204、存儲器206和輸入/輸出接口 208。處理器202被配置成執(zhí)行從網(wǎng)絡(luò)接口 204接收的、從輸入/輸出接口 208接收的、和/或存儲在存儲器206中的指令。
[0037]存儲器206可包括諸如隨機(jī)存取存儲器(RAM)之類的易失性存儲器形式的和/或諸如只讀存儲器(ROM)或閃速RAM之類的非易失性存儲器形式的計算機(jī)可讀存儲介質(zhì)。存儲器206是計算機(jī)可讀介質(zhì)的示例。計算機(jī)可讀介質(zhì)包括至少兩種類型的計算機(jī)可讀介質(zhì),即計算機(jī)存儲介質(zhì)和通信介質(zhì)。
[0038]計算機(jī)存儲介質(zhì)包括以用于存儲如計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。計算機(jī)存儲介質(zhì)包括但不限于,相變存儲器(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、閃存或其他存儲器技術(shù)、光盤只讀存儲器(⑶-ROM)、數(shù)字多功能盤(DVD)或其它光存儲、磁帶盒、磁帶、磁盤存儲或其它磁存儲設(shè)備、或可用于存儲由計算設(shè)備訪問的信息的任何其他非傳輸介質(zhì)。
[0039]相反,通信介質(zhì)可在諸如載波之類的已調(diào)制數(shù)據(jù)信號或其他傳輸機(jī)制中體現(xiàn)計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)。如本文所定義的,計算機(jī)存儲介質(zhì)不包括通信介質(zhì)。
[0040]存儲器206可包括程序模塊210和程序數(shù)據(jù)212。在一個實(shí)施例中,程序模塊210可包括獲取模塊214。獲取模塊214可從例如字符識別系統(tǒng)102中包括的字符數(shù)據(jù)庫216獲取或檢索用于訓(xùn)練識別模型的數(shù)據(jù)。作為補(bǔ)充或替換,獲取模塊214可以從客戶機(jī)設(shè)備104和/或服務(wù)器106獲取或檢索訓(xùn)練數(shù)據(jù)。在一個實(shí)施例中,訓(xùn)練數(shù)據(jù)可包括但不限于(諸如用戶118的特定用戶或多個用戶的)已用手指、指示筆等在觸摸屏或輸入板上寫入的手寫字符和鍵入字符等的先前掃描或捕捉副本。在一些實(shí)施例中,訓(xùn)練數(shù)據(jù)可進(jìn)一步包括關(guān)于每一字符的每一筆畫的書寫軌跡的信息。作為示例而非限制,字符的軌跡信息可包括例如書寫該字符的每一筆畫的時間(例如,時戳)和空間(例如,坐標(biāo))信息。作為補(bǔ)充或替換,訓(xùn)練字符可包括某語言的文本字符,包括例如東亞字符(例如,中文字符、韓文字符、日文字符等)、中東字符(諸如,阿拉伯文字符、希伯來文字符等)等。在一個實(shí)施例中,訓(xùn)練字符中的字符或要識別的字符可包括L筆畫,該字符的第k筆畫被表示為點(diǎn)序列Fk =其中# = (X^yi)是第k筆畫的第η點(diǎn)的坐標(biāo)。
[0041]響應(yīng)于獲得訓(xùn)練數(shù)據(jù),字符識別系統(tǒng)102可進(jìn)一步包括用于對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理以促成對識別模型的后續(xù)訓(xùn)練的預(yù)處理模塊218。在一個實(shí)施例中,預(yù)處理模塊218可將訓(xùn)練數(shù)據(jù)的字符旋轉(zhuǎn)表征該字符的一個或多個筆畫的信息的角度(或旋轉(zhuǎn)到表征該字符的一個或多個筆畫的信息的定向)。
[0042]在一個實(shí)施例中,預(yù)處理模塊218可基于字符的一個或多個筆畫的一個或多個點(diǎn)的信息來旋轉(zhuǎn)字符。在一個實(shí)施例中,這一個或多個點(diǎn)可包括但不限于開始點(diǎn)、結(jié)束點(diǎn)、中間點(diǎn)等。此外,字符的一個或多個筆畫可包括例如字符的所有筆畫、字符的具有大于或等于預(yù)定閾值的屬性(例如,長度等)的筆畫的子集等。作為補(bǔ)充或替換,字符的一個或多個筆畫可包括字符的具有等級最高的屬性(諸如,長度等)的預(yù)定數(shù)目(或百分比)的筆畫和/或字符的第一筆畫和最后筆畫等。
[0043]作為補(bǔ)充或替換,字符的一個或多個筆畫可包括例如該字符的在忽略了非??赡苋菀族e誤的筆畫后的剩余筆畫。例如,如果字符的筆畫具有非常短的長度(例如,小于預(yù)定閾值或與字符的其余筆畫(諸如,字符的筆畫的平均長度)相比具有非常短的長度),則預(yù)處理模塊218可忽略該筆畫。
[0044]作為示例而非限制,在接收給定字符(訓(xùn)練字符或要識別的字符)之際,預(yù)處理模塊218可計算字符的一個或多個筆畫的一個或多個點(diǎn)中的每一個點(diǎn)的加權(quán)和。該加權(quán)和可包括但不限于簡單算術(shù)和、對相關(guān)聯(lián)的一個或多個筆畫的相應(yīng)長度進(jìn)行加權(quán)的和(例如,權(quán)重系數(shù)直接與相關(guān)聯(lián)的筆畫的長度成比例等)等。在一個實(shí)施例中,如圖3所示,預(yù)處理模塊218可例如計算字符的每一筆畫的開始點(diǎn)和結(jié)束點(diǎn)的簡單算術(shù)和:
【權(quán)利要求】
1.一種系統(tǒng),包括: 一個或多個處理器; 存儲器,通信地耦合到所述一個或多個處理器,所述存儲器存儲可執(zhí)行指令,當(dāng)所述可執(zhí)行指令被所述一個或多個處理器執(zhí)行時,配置所述一個或多個處理器以執(zhí)行包括以下的動作: 接收多個手寫文本字符; 基于每一手寫文本字符的每一筆畫的開始點(diǎn)和結(jié)束點(diǎn)的信息來將每一手寫文本字符旋轉(zhuǎn)到預(yù)定定向; 從所述多個經(jīng)旋轉(zhuǎn)的手寫文本字符提取特征; 基于使用彈性傳播(Rprop)算法來優(yōu)化基于樣本分割邊緣(SSM)的最小分類誤差(MCE)目標(biāo)函數(shù)來訓(xùn)練字符識別模型; 使用分割向量量化(SVQ)技術(shù)來壓縮所述字符識別模型的參數(shù);以及 構(gòu)造用于在運(yùn)行時識別未知文本字符的兩層的快速匹配樹。
2.一個或多個存儲可執(zhí)行指令的計算機(jī)可讀介質(zhì),當(dāng)所述可執(zhí)行指令被一個或多個處理器執(zhí)行時,配置所述一個或多個處理器以執(zhí)行包括以下的動作: 接收多個文本字符; 基于每一文本字符中的多個筆畫中的每一個筆畫的開始點(diǎn)和結(jié)束點(diǎn)的信息來將每一文本字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化定向; 提取每一經(jīng)旋轉(zhuǎn)文本字符的特征;以及 基于每一經(jīng)旋轉(zhuǎn)文本字符的所提取特征來訓(xùn)練識別模型。
3.如權(quán)利要求2所述的一個或多個計算機(jī)可讀介質(zhì),其特征在于,所述動作進(jìn)一步包括使用分割向量量化技術(shù)來壓縮經(jīng)訓(xùn)練的識別模型的參數(shù)。
4.如權(quán)利要求2所述的一個或多個計算機(jī)可讀介質(zhì),其特征在于,所述動作進(jìn)一步包括構(gòu)造兩層的快速匹配樹以供在運(yùn)行時用于幫助使用經(jīng)訓(xùn)練的識別模型來識別未知的文本字符。
5.如權(quán)利要求2所述的一個或多個計算機(jī)可讀介質(zhì),其特征在于,所述旋轉(zhuǎn)每一文本字符包括: 將第一坐標(biāo)計算為相應(yīng)文本字符的多個筆畫的各開始點(diǎn)的坐標(biāo)的第一加權(quán)和; 將第二坐標(biāo)計算為相應(yīng)文本字符的多個筆畫的各結(jié)束點(diǎn)的坐標(biāo)的第二加權(quán)和; 以所述標(biāo)準(zhǔn)化方向來對齊所述第一坐標(biāo)和所述第二坐標(biāo)之間的線。
6.如權(quán)利要求5所述的一個或多個計算機(jī)可讀介質(zhì),其特征在于,所述第一加權(quán)和或所述第二加權(quán)和包括: 所述開始點(diǎn)或所述結(jié)束點(diǎn)的坐標(biāo)的平均和,或 具有用與所述開始點(diǎn)或所述結(jié)束點(diǎn)的坐標(biāo)相關(guān)聯(lián)的筆畫的長度加權(quán)的系數(shù)的所述開始點(diǎn)或所述結(jié)束點(diǎn)的坐標(biāo)的和。
7.如權(quán)利要求2所述的一個或多個計算機(jī)可讀介質(zhì),其特征在于,所述訓(xùn)練包括使用彈性傳播(Rprop)算法基于基于樣本分割邊緣(SSM)的最小分類誤差(MCE)目標(biāo)函數(shù)來訓(xùn)練所述識別模型。
8.如權(quán)利要求2所述的一個或多個計算機(jī)可讀介質(zhì),其特征在于,所述多個筆畫包括相應(yīng)文本字符的所有筆畫、相應(yīng)文本字符的預(yù)定數(shù)目的最長筆畫、相應(yīng)文本字符的預(yù)定百分比的最長筆畫、相應(yīng)文本字符的具有大于或等于預(yù)定長度閾值的長度的一個或多個筆畫、和/或相應(yīng)文本字符的具有大于或等于多個筆畫的平均長度的長度的一個或多個筆畫。
9.一種方法,包括: 在配置有可執(zhí)行指令的一個或多個處理器的控制下: 接收包括多個筆畫的文本字符;以及 基于所述多個筆畫中的一筆畫的至少兩個點(diǎn)將所述文本字符旋轉(zhuǎn)到標(biāo)準(zhǔn)化方向。
10.如權(quán)利要求9所述的方法,其特征在于,進(jìn)一步包括基于識別模型來識別經(jīng)旋轉(zhuǎn)的文本字符。
11.如權(quán)利要求9所述的方法,其特征在于,所述至少兩個點(diǎn)包括所述多個筆畫中的所述筆畫的開始點(diǎn)和結(jié)束點(diǎn)。
12.如權(quán)利要求9所述的方法,其特征在于,所述旋轉(zhuǎn)包括: 將第一坐標(biāo)計算為所述多個筆畫的子集的各開始點(diǎn)的坐標(biāo)的第一加權(quán)和;以及 將第二坐標(biāo)計算為所述多個筆畫的所述子集的各結(jié)束點(diǎn)的坐標(biāo)的第二加權(quán)和,其中所述旋轉(zhuǎn)包括旋轉(zhuǎn)所述文本字符以使得所述第一坐標(biāo)和所述第二坐標(biāo)之間的線與所述標(biāo)準(zhǔn)化方向?qū)R。
13.如權(quán)利要求12所述的方法,其特征在于,所述第一加權(quán)和或所述第二加權(quán)和包括: 所述開始點(diǎn)或所述結(jié)束點(diǎn)的坐標(biāo)的平均和,或 具有用與所述開始點(diǎn)或所述結(jié)束點(diǎn)的坐標(biāo)相關(guān)聯(lián)的多個筆畫的子集的長度加權(quán)的系數(shù)的所述開始點(diǎn)或所述結(jié)束點(diǎn)的坐標(biāo)的和。
14.如權(quán)利要求12所述的方法,其特征在于,所述多個筆畫的子集包括所述多個筆畫中的所有筆畫、所述多個筆畫中的預(yù)定數(shù)目的最長筆畫、所述多個筆畫中的預(yù)定百分比的最長筆畫、所述多個筆畫中的具有大于或等于預(yù)定長度閾值的長度的筆畫、和/或所述多個筆畫中的具有大于或等于所述多個筆畫的平均長度的長度的筆畫。
15.如權(quán)利要求9所述的方法,其特征在于,所述旋轉(zhuǎn)獨(dú)立于由用戶寫入的文本字符的多個筆畫的次序。
16.如權(quán)利要求9所述的方法,其特征在于,所述接收包括接收所述文本字符的多個筆畫的開始點(diǎn)和結(jié)束點(diǎn)的坐標(biāo)。
17.如權(quán)利要求9所述的方法,其特征在于,進(jìn)一步包括確定所述多個筆畫的開始點(diǎn)和結(jié)束點(diǎn),而無需知道或跟蹤所述多個筆畫的寫入方向。
18.如權(quán)利要求9所述的方法,其特征在于,進(jìn)一步包括基于對寫入筆畫的約定的試探式假定來確定所述多個筆畫的開始點(diǎn)和結(jié)束點(diǎn)。
19.如權(quán)利要求17所述的方法,其特征在于,所述寫入筆畫的約定包括從左到右寫入以及從上到下寫入。
20.如權(quán)利要求9所述的方法,其特征在于,還包括: 計算所述多個筆畫中從所述多個筆畫的至少兩個點(diǎn)中的第一點(diǎn)到所述多個筆畫的至少兩個點(diǎn)中的第二點(diǎn)的每一筆畫的方向;以及 將向量和方向計算為所述多個筆畫的方向的向量和,其中所述旋轉(zhuǎn)包括旋轉(zhuǎn)所述文本字符以使得所述向量和方向與所述標(biāo)準(zhǔn)化方向?qū)R。
【文檔編號】G06K9/00GK104205126SQ201280071668
【公開日】2014年12月10日 申請日期:2012年3月23日 優(yōu)先權(quán)日:2012年3月23日
【發(fā)明者】Q·霍, J·杜 申請人:微軟公司