專利名稱:兩層文本識別的制作方法
背景
計算機技術(shù)(例如,微處理器速度、存儲器容量、數(shù)據(jù)傳輸帶寬、軟件功 能等)的進(jìn)步一般有助于各行業(yè)中的計算機應(yīng)用的增長。例如,基于計算機的
決策支持系統(tǒng)常用于諸如光學(xué)字符識別(OCR)等識別系統(tǒng)及相關(guān)的文本識別 應(yīng)用程序。
通常,掃描儀或光學(xué)成像器最初被開發(fā)成"數(shù)字化"圖片(例如,將圖像輸 入到計算系統(tǒng)中)。隨后,這些系統(tǒng)被應(yīng)用于其他印刷和排版材料,并且 OCR系統(tǒng)逐漸擴(kuò)展到多個計算機應(yīng)用。 一般而言,OCR技術(shù)被調(diào)節(jié)成識別受 限的或有限的對可能字體類型的選擇。 一般而言,這些系統(tǒng)可通過將字符與預(yù) 先存在的字體的數(shù)據(jù)庫進(jìn)行比較來"識別"字符。如果一字體被認(rèn)為是不相干 的,則OCR技術(shù)返回?zé)o法辨認(rèn)或不存在的字符以指示無法識別這一不相干的 文本。
此外,手寫識別已證明是甚至比文本識別更具挑戰(zhàn)性的場景。 一般而言, 一個人的筆跡例示通過書法顯示的個人主義風(fēng)格。因此,筆跡圖案就其根本性 質(zhì)而言展示出不同的形式,即使是對于相同的字符。顯然,為一特定字符存儲 每一個想得到的手寫形式是不可行的。
已經(jīng)開發(fā)了各種方法以識別與這些手寫字符相關(guān)聯(lián)的圖案。大多數(shù)手寫識 別系統(tǒng)采用基于神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型(HMM)或K個最近鄰居(KNN) 方法的識別器。 一般而言,這些系統(tǒng)在基于字符的總體外觀來對其進(jìn)行分類的 任務(wù)方面執(zhí)行得相當(dāng)好。例如,可通過生成圖案之間的距離度量來確定相似性 等級。
5然而,通常被稱為離線手寫識別的對圖像中的手寫文本的識別仍然是一具 有挑戰(zhàn)性的任務(wù)。在可高效地構(gòu)建在商業(yè)上大規(guī)??尚械南到y(tǒng)之前仍然有大量 的工作要做。這些問題被諸如阿拉伯語、波斯語等非拉丁語/手跡進(jìn)一步放大, 其中對于解決所涉及的相關(guān)聯(lián)的識別問題分配了較少的研究工作。
通常,大多數(shù)對阿拉伯語離線識別的研究己涉及數(shù)字和單一字符識別。存 在解決阿拉伯語單詞的離線識別問題的少許示例。最近對標(biāo)準(zhǔn)的可公開獲得的 手寫阿拉伯語文本圖像的數(shù)據(jù)庫(例如,IFN/INIT數(shù)據(jù)庫)的構(gòu)造慢慢激起了 對這些手跡/語言的進(jìn)一步研究活動。
相反,對于拉丁手跡而言,基于隱馬爾可夫模型(HMM)的方法主宰了
離線草寫單詞識別領(lǐng)域。在一典型的設(shè)置中,提供詞典來約束識別器的輸出。
然后可對于詞典中的每一個單詞構(gòu)建HMM并計算相應(yīng)的可能性(數(shù)據(jù)由該模 型生成的概率)。 一般而言,最有可能的解釋然后被假定為正確的一個。
在少許已報告的阿拉伯語文本識別方法中,通常已采用了如拉丁文本識別 方法的類似方法。而且,所執(zhí)行的各種修改預(yù)處理和特征提取階段以適應(yīng)阿拉 伯語書寫手跡的不同特性的嘗試未證明是高效的。此外,這些嘗試一般而言沒 有出于識別目的利用諸如條件聯(lián)接規(guī)則等阿拉伯語手跡的獨特特性。
概述
以下提出了簡化概述以便提供對在此描述的某些方面的基本理解。本概述 并不是對所要求保護(hù)的主題的全面綜述。它既不旨在標(biāo)識出所要求保護(hù)的主題 的關(guān)鍵或重要的要素,也不描繪其范圍。其唯一的目的是以簡化的形式來介紹 一些概念,作為稍后提出的更為詳細(xì)的描述的序言。
本發(fā)明能夠通過采用兩層方法來識別文本,其中一層識別基于與文本相關(guān) 聯(lián)的語言的聯(lián)接規(guī)則來連接的預(yù)定鏈接字母組(單詞子組),而另一層將這些 鏈接字母剖析成各個(形成該預(yù)定鏈接字母組的)構(gòu)成字母,以便識別這些鏈 接字母。例如, 一識別層最初可標(biāo)識基于阿拉伯語的條件聯(lián)接規(guī)則預(yù)定義的用 戶定義的阿拉伯語文本詞典(例如,阿拉伯語單詞的一部分-PAW)。在確定 了最佳匹配的PAW之后,另一層將該識別過程引導(dǎo)至形成這一 PAW的字母 搜索。因此,這一分層方法提供了更高的識別字母的可能性,因為搜索被縮小
6至預(yù)定的字母組合(單詞子組)。
因此,本發(fā)明可將識別方法分解成可并排執(zhí)行的兩個過程。第一個過程將 搜索約束于基于與文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來連接的預(yù)定鏈接字母組。在 第二個過程中,該搜索被約束于形成該預(yù)定鏈接字母組的各個字母。例如,在 阿拉伯語中,搜索的第一個過程(例如,層一)由字母到PAW詞典來約束。 在層二中,該搜索由PAW到單詞詞典來約束。引導(dǎo)這些搜索的是基于神經(jīng)網(wǎng) 絡(luò)的PAW識別器。
在一相關(guān)方面,用于實現(xiàn)該兩層方法的系統(tǒng)可采用標(biāo)識預(yù)定鏈接字母組
(例如,標(biāo)識PAW)的基于神經(jīng)網(wǎng)絡(luò)的文本識別器組件。此外,訓(xùn)練組件可 訓(xùn)練該識別器組件以標(biāo)識作為該預(yù)定組的一部分的其他字母組(例如,由于最 初未定義鏈接單詞組而在最初未識別出的PAW;諸如,外國名字、拼寫錯誤
等)。還可使用各種人工智能組件來促進(jìn)本發(fā)明的各不同方面。以下描述和附圖詳細(xì)闡明了所要求保護(hù)的主題的某些說明性方面。然而, 這些方面僅指示了可采用該主題的原理的各種方法中的幾種,且所要求保護(hù)的
主題旨在包括所有這些方面及其等效方面。結(jié)合附圖閱讀下面的詳細(xì)描述,則 其他優(yōu)點和新穎特征將變得清楚。
附圖簡述
圖1示出了根據(jù)本發(fā)明的一方面的執(zhí)行兩層文本識別系統(tǒng)的示例性系統(tǒng) 的框圖。
圖2示出了對于基于與文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來連接的預(yù)定鏈接 字母組的示例性關(guān)系。
圖3a和3b示出了涉及啟用本發(fā)明的各方面的阿拉伯語文本識別的條件聯(lián) 接規(guī)則的特定方面。
圖4示出了可根據(jù)本發(fā)明的一方面來緩解的阿拉伯語文本的示例性識別 錯誤。
圖5示出了根據(jù)本發(fā)明的一方面的相關(guān)的兩層文本識別方法。 圖6示出了根據(jù)本發(fā)明的特定方面的描述預(yù)處理、規(guī)范化、分段、識別和
搜索動作的相關(guān)方法。
圖7a、 7b和7c示出了根據(jù)本發(fā)明的一方面的對單詞子組的各種場景的示
例性標(biāo)記。
圖8示出了幫助識別基于相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來連接的預(yù)定鏈接字 母組的系統(tǒng)。
圖9示出了根據(jù)本發(fā)明的一特定方面的采用人工智能組件的阿拉伯語文 本識別系統(tǒng)。
圖IO示出了用于實現(xiàn)本發(fā)明的各方面的示例性操作環(huán)境。 詳細(xì)描述
現(xiàn)在將參考附圖描述本發(fā)明的各個方面,全部附圖中相同的標(biāo)號指的是相 同或相應(yīng)的元素。然而,應(yīng)理解,附圖及其有關(guān)的詳細(xì)描述不旨在將所要求保 護(hù)的主題限于所公開的具體形式。相反,其意圖是覆蓋落在所要求保護(hù)的主題的精神和范圍內(nèi)的所有修改、等效和替換方案。
最初參考圖1,示出了根據(jù)本發(fā)明的一方面的文本識別系統(tǒng)100。這一識 別系統(tǒng)100還包括標(biāo)識基于與文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則連接在一起的預(yù)定
義鏈接字母組(單詞子組)的識別器組件110。同樣,識別器組件112可識別
形成該預(yù)定鏈接字母組的各個字母。因此,本發(fā)明可將識別方法分解成可并排 執(zhí)行的兩個過程。第一個過程將搜索約束于基于與文本相關(guān)聯(lián)的語言的聯(lián)接規(guī) 則來連接的預(yù)定鏈接字母組。在第二個過程中,該搜索被約束于形成該預(yù)定鏈 接字母組的各個字母。
例如,識別器組件110可處理傳入文本信號103或"視覺圖案",并且將這
些圖案與存儲早先可基于與這一文本相關(guān)聯(lián)的語言的規(guī)則來預(yù)定義的預(yù)定字 母分組的數(shù)據(jù)庫105進(jìn)行比較。例如,識別器組件IIO可包括特征提取層和分 類器層(未示出)。由此,識別器組件IIO可接收文本輸入103 (例如,二維 位圖輸入圖案)并提供這一圖案匹配存儲在存儲介質(zhì)105中的預(yù)定義連接字母 組的圖案的概率。文本輸入103的傳入信號可直接在該系統(tǒng)處輸入或可經(jīng)由遠(yuǎn) 程鏈路(例如,網(wǎng)絡(luò)或通信鏈路)來接收。
可以理解,文本識別系統(tǒng)100還可用于執(zhí)行手寫圖案識別和/或字符識別。 例如,圖案可來自掃描的文檔和/或可以是筆或鼠標(biāo)跡線的二維位圖投影。同樣, 這樣的接收到的數(shù)據(jù)可以是來自用戶的手寫的任何字符和/或輸入。例如,各種 計算設(shè)備和/或系統(tǒng)利用手寫輸入,諸如,但不限于,圖形輸入板、便攜式數(shù)據(jù) 助理(PDA)、移動通信設(shè)備、指示筆、識別筆、具有觸摸屏能力的交互式顯 示設(shè)備等。
在一個示例性方面,文本識別系統(tǒng)IOO基于巻積神經(jīng)網(wǎng)絡(luò)(CNN)體系結(jié) 構(gòu)來操作,如早先所解釋的,該體系結(jié)構(gòu)還可包括特征提取層和分類器層。一 般而言,"巻積層"指的是其中一組(例如,特征映射)在不同的位置采用基本 上相同的一組系數(shù)或權(quán)重以修改接收到的輸入的神經(jīng)網(wǎng)絡(luò)組件。各組(例如, 各特征映射)使用不同的各組系數(shù)也是有可能的。因此,這些組(例如,特征 映射)可從所接收到的輸入中提取不同的特征。特征提取層的輸出可連接至分 類器層。因此,文本識別系統(tǒng)IOO可諸如利用互熵錯誤最小化來從輸入訓(xùn)練數(shù) 據(jù)中學(xué)習(xí)。例如,文本識別系統(tǒng)IOO可使用最小化互熵錯誤的隨機梯度下降來訓(xùn)練。
此外,如果數(shù)據(jù)被識別器組件110和/或識別器組件112認(rèn)為是有歧義的, 則可采用利用用戶專用后處理器技術(shù)來對字符和/或圖像進(jìn)行分類的"混淆規(guī)
則"。因此,可在本發(fā)明中利用不同類型的后處理器分類,諸如MLLR (最大
似然線性回歸)自適應(yīng)密度模型、直接密度模型和直接區(qū)別模型等。這一采用 不同模型和分類器的靈活性允許本發(fā)明容易地與現(xiàn)有手寫識別技術(shù)集成。由 此,本發(fā)明可利用基于來自多個用戶的整體觀察的通用分類器和/或已通過除了 本發(fā)明中的用戶專用分類器之外的裝置從通用分類器改裝的用戶專用分類器 以增強手寫識別系統(tǒng)標(biāo)識來自特定用戶的數(shù)據(jù)的能力。
圖2示出了基于與文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來連接的預(yù)定鏈接字母 組的示例性說明200。例如,子組202、 204、 206、 208 (W,到Wn, n是整數(shù)) 涉及基于與這一文本的書寫相關(guān)聯(lián)的語言的聯(lián)接規(guī)則鏈接在一起的一組聯(lián)接 字母(例如,單詞子部分)。此外,還可采用概率方法來作為創(chuàng)建/定義這些鏈 接字母202、 204、 206和208的準(zhǔn)則,其中鏈接字母在其在書寫樣本中出現(xiàn)超 過一預(yù)定頻率的情況下被標(biāo)識。
例如,阿拉伯語的字母表由28個基本字母組成,其中手跡是草寫體并且 所有主要字母都具有對于其字形的條件形式,這取決于它們在單詞的開頭、中 間還是末尾??烧故疽蛔帜傅亩噙_(dá)四種不同的形式(詞首、詞中、詞尾或隔離)。 此外,只有六個字母,即' ,、 "二"、 ' ,、 "j"、 'V,具有或者隔離或者詞尾形 式并且不具有詞首或詞中形式。這些字母在后面跟隨另一個字母的情況下通常 不與之聯(lián)接。因此, 一般而言,下一個字母只可具有其詞首或隔離形式,即使 它不是單詞的首字母。這一規(guī)則應(yīng)用于數(shù)字和非阿拉伯字母,并且通常被稱為 條件聯(lián)接。圖3a和3b示出了阿拉伯語手跡中的示例性條件聯(lián)接特性。圖3a 示出了跟隨在一聯(lián)接字母之后的詞尾形式的字母。同樣,圖3b示出了跟隨在 一非聯(lián)接字母之后的隔離的詞尾形式的相同字母。這一條件聯(lián)接特性允許定義 阿拉伯語單詞的一部分(PAW),其中PAW是聯(lián)接在一起的阿拉伯語字母序 列。 一般而言,任何阿拉伯語單詞都可被確定性地分段成一個或多個PAW。
此外,給定阿拉伯語書寫手跡的這一條件聯(lián)接特性,單詞可被視作由PAW 序列組成。換言之,PAW可被認(rèn)為是替換字母表。構(gòu)成單詞詞典的唯一PAW
10的數(shù)目可限于有限數(shù)目,例如,隨著詞典中的單詞數(shù)量次線性增長。因此,根 據(jù)本發(fā)明的一具體方面,阿拉伯語單詞詞典然后可被分解成兩個詞典。 一個是 PAW到字母詞典,其按照字母表列出所有唯一PAW及其拼寫。另一個是單詞
到PAW詞典,其按照PAW字母表列出所有唯一單詞及其拼寫。
因此,找到對于圖像的最佳匹配詞典條目的方法可被分解成可同時執(zhí)行的 兩個互相成對的(intertwined)過程。 一個過程是找到由PAW到字母詞典約束 的從字符到PAW的最佳可能映射。另一個過程是找到由單詞到PAW詞典約 束的從PAW到單詞的最佳可能映射。
這一兩層方法可緩解識別錯誤。例如,詞典可約束識別過程的輸出,并且 多個字符識別錯誤也可在PAW識別階段中解決。圖4示出了可根據(jù)本發(fā)明的 一方面來緩解的示例性識別錯誤。如圖4所示,預(yù)期是"u^"的第二個字母404 不太可能被字符識別器如此標(biāo)識/建議一假定它寫得非常糟糕。因此, PAW"—"的圖像可能與作為有效詞典PAW的"—"相混淆,但能夠容易 地在例如識別階段被挑選出。可以理解,PAW在單詞中的出現(xiàn)概率以及各自 的使用頻率也可由PAW識別器組件用來偏愛更頻繁地出現(xiàn)的PAW。這些先驗 概率通??杀灰曌黩?qū)動識別過程的語言上的n元語法字符模型。
圖5示出了根據(jù)本發(fā)明的一個方面的相關(guān)方法500。雖然該示例性方法此 處被示出并描述為表示各種事件和/或動作的一系列框,但本發(fā)明并不受所示出 的這些框的排序的限制。例如,根據(jù)本發(fā)明,除了在此示出的次序之外,某些 動作或事件可以按不同的次序發(fā)生和/或與其他動作或事件同時發(fā)生。此外,不 是所有示出的框、事件或動作都是實施根據(jù)本發(fā)明的方法所必需的。此外,將 會認(rèn)識到根據(jù)本發(fā)明的該示例性方法和其他方法可以與在此圖示并描述的方 法相關(guān)聯(lián)地實現(xiàn),也可與未示出或描述的其他系統(tǒng)和裝置相關(guān)聯(lián)地實現(xiàn)。最初 在510處,由本發(fā)明的文本識別系統(tǒng)來接收需要識別的文本輸入。這一輸入可 經(jīng)由直接在該系統(tǒng)處輸入或經(jīng)由遠(yuǎn)程鏈路(例如,網(wǎng)絡(luò)或通信鏈路)接收的傳 入信號來接收。接著在520處,將所輸入的圖像與基于與該文本相關(guān)聯(lián)的語言 的聯(lián)接規(guī)則來連接的預(yù)定鏈接字母組進(jìn)行比較。在這一比較之后且在530處, 然后選擇最有可能的匹配。隨后,作為本發(fā)明的另一識別層的一部分,將這一 鏈接字母的最有可能的匹配與形成該預(yù)定鏈接字母組的構(gòu)成字母進(jìn)行比較。因
11此,這一分層方法提供了更高的識別字母的可能性,因為搜索被縮小至單詞和 字母的預(yù)定組合。
圖6示出了根據(jù)本發(fā)明的一特定方面的描述預(yù)處理、規(guī)范化、分段、識別 和搜索動作的相關(guān)方法600。在610處,接收到的圖像通過圖像二進(jìn)制化、裁
切、詞劃分、降噪等基本處理。隨后在620處,可檢測連接的單詞子組(例如,
基于與該文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來連接的預(yù)定鏈接字母組)。例如,獲
得寬度和高度都低于特定閾值的連接的單詞子組???20可擔(dān)當(dāng)附加降噪。
連接的單詞子組隨后可基于其最右邊的點從右到左排序。這使得本發(fā)明的 搜索算法能夠以近似書寫次序的次序按順序通過該單詞子組。在630處,然后 可標(biāo)記連接的單詞子組(例如,標(biāo)記為"主要的"和"次要的")。標(biāo)記可通過檢 測連接的單詞子組之間的相對水平重疊并且對單詞子組應(yīng)用安全閾值來執(zhí)行, 如圖7所示的。例如,每一個次要的連接子組都可與一主要的連接子組相關(guān)聯(lián),并且通常
沒有次要的分量可單獨存在。在640處,為了 650處的預(yù)定義單詞子組(例如, PAW)的神經(jīng)網(wǎng)絡(luò)分類器識別可提取關(guān)于圖像輸入的特征。例如,可采用兩個 神經(jīng)網(wǎng)絡(luò)PAW分類器。第一個分類器可由巻積神經(jīng)網(wǎng)絡(luò)組成,其中縮放所輸 入的圖像以適應(yīng)固定大小的網(wǎng)格,同時維持其高寬比。因為PAW中的字母數(shù) 量可從1到8變化,所以網(wǎng)格高寬比通常被選成足夠?qū)捯匀菁{最寬的可能 PAW,并且仍然維持其清晰度。第二個分類器可基于從構(gòu)成PAW的連接的字 母(子單詞組)的方向碼中提取的特征。例如,對于阿拉伯語,這兩個分類器 中的每一個都可具有762個輸出,這些輸出都可用反映PAW在單詞詞典中的 預(yù)定分布的訓(xùn)練集來訓(xùn)練。
如在上文中所詳細(xì)解釋的,本發(fā)明將單詞詞典分解成兩個詞典,即字母到 PAW詞典和PAW到單詞詞典。字母到PAW詞典用于約束PAW識別器的輸 出,而PAW到單詞識別器用于約束對最佳匹配單詞的搜索。
此外,可結(jié)合本發(fā)明來使用試探功能(例如,最佳優(yōu)先搜索、定向搜索)。 例如,定向搜索可用于通過使用PAW識別器的輸出作為搜索試探來找到對于 圖像的最佳匹配單詞。該搜索按順序通過連接的單詞子組,并且考慮或者開始 一新的PAW或者將該組添加到現(xiàn)有PAW。可保留由PAW識別器產(chǎn)生的可能 PAW的列表及其相應(yīng)的后驗概率。不同的連接的子組單詞到PAW的映射可被 保存在可能分段的點陣中。在按順序通過所有組之后,可評估最佳可能分段并 將其選為獲勝的假設(shè)。
例如,通常為了確保點陣中的分段概率不爆發(fā),采用兩個試探,其中可將 每個PAW的連接的單詞組的最大數(shù)量設(shè)限為例如4 (基于訓(xùn)練數(shù)據(jù)根據(jù)經(jīng)驗 確定的)。此外,在該點陣中的每一步驟處,然后可剪除具有比最有可能的分 段低預(yù)定閾值的概率的分段概率。
圖7a、 7b和7c示出了根據(jù)本發(fā)明的一方面的對單詞子組的各種場景的示 例性標(biāo)記。圖7a示出了其中單詞/連接的單詞子組中的每一個702、 704、 706 和708實際上都是PAW的情況。通常,這一場景占到阿拉伯語文本中的單詞 總數(shù)的將近65%。同樣,圖7b示出了其中PAW被分成兩個組710、 712的情 況,其中這兩個組710、 712的組合可對應(yīng)于單個PAW (例如,過度分段(over-segmentation)情況)。這一場景通常在單詞總數(shù)中出現(xiàn)30%左右。類 似地,圖7c示出了其中子組720實際上是互相接觸的兩個PAW的場景。 一般 而言,這些情況構(gòu)成5%左右的情況。為了解決這一其中多于一個PAW被分 段為一個連接的單詞組720的分段不足(under-segmentation)的情況,可包括 一附加動作并且在該點陣中的獲勝分段路徑的概率低于預(yù)定閾值的情況下觸 發(fā)該動作。因此,當(dāng)觸發(fā)時,可以對連接的單詞子組的各個PAW識別結(jié)果執(zhí) 行維特比(Viterbi)搜索。在該搜索中計算PAW到單詞詞典中的每一個與識 別結(jié)果之間的編輯距離。PAW插入和刪除兩者都被允許具有與各自相關(guān)聯(lián)的 懲罰。
現(xiàn)在轉(zhuǎn)到圖8,示出了根據(jù)本發(fā)明的一方面的利用經(jīng)異形字訓(xùn)練的分類器 來幫助識別與手寫相關(guān)聯(lián)的(基于語言的聯(lián)接規(guī)則來連接的)預(yù)定鏈接字母組 和/或字母的系統(tǒng)800。系統(tǒng)800可包括可用異形字?jǐn)?shù)據(jù)來訓(xùn)練分類器(未示出) 的個性化組件802,其中這一訓(xùn)練幫助識別手寫字符。例如,異形字?jǐn)?shù)據(jù)可以 是關(guān)于手寫風(fēng)格的自動生成的和/或手動生成的數(shù)據(jù)。個性化組件802可經(jīng)由接 口組件804接收手寫字符和/或關(guān)于手寫樣本的數(shù)據(jù),并提供至少部分地基于在 分類器的訓(xùn)練中對異形字?jǐn)?shù)據(jù)的采用的優(yōu)化的手寫識別。例如,接收到的數(shù)據(jù) 可以是任何字符和/或單詞子組,如將在下文中詳細(xì)描述的。例如,各種計算設(shè) 備和/或系統(tǒng)利用手寫輸入,諸如圖形輸入板、便攜式數(shù)據(jù)助理(PDA)、移動 通信設(shè)備、指示筆、識別筆、具有觸摸屏能力的交互式顯示設(shè)備等。
個性化組件802可提供書寫者自適應(yīng),其中書寫者自適應(yīng)可以是將通用 (例如,書寫者無關(guān)的)手寫識別器轉(zhuǎn)換為對于任何特定用戶的具有改進(jìn)的準(zhǔn) 確度的個性化的(例如,書寫者相關(guān)的)識別器的過程。個性化組件802可以 用來自特定用戶的少許樣本來實現(xiàn)該自適應(yīng)技術(shù)。
異形字?jǐn)?shù)據(jù)可以手動地、自動地和/或兩者兼而有之地生成。例如,異形 字?jǐn)?shù)據(jù)可采用任何合適的聚類技術(shù)來自動生成。因此,可實現(xiàn)用于通過聚類來 從手寫字符中標(biāo)識異形字(例如,字符形狀和/或樣式)的自動化方法。在另一
示例中,異形字?jǐn)?shù)據(jù)可利用手寫專家來提供與手寫相關(guān)聯(lián)的類型和/或樣式來手 動提供。
此外,個性化組件802可用異形字?jǐn)?shù)據(jù)來訓(xùn)練分類器并結(jié)合基于非異形字的分類器來實現(xiàn)這些結(jié)果,以便提供優(yōu)化的手寫識別。個性化組件802可無縫 地與現(xiàn)有識別器(例如,手寫字符識別器)集成并采用來自個體的新樣本來對 稱地(equilaterally)改進(jìn)它。例如,個性化組件802可將字母和/或字符與特定 樣式和/或異形字進(jìn)行匹配,而不是簡單地匹配字母。因此,個性化組件802 可利用可在給定來自用戶的書寫樣本和/或示例的情況下學(xué)習(xí)的映射技術(shù)和/或 功能。個性化組件802可利用來自常規(guī)和/或傳統(tǒng)分類器的輸出來應(yīng)用該映射功 能和/或技術(shù)以提供每一個字母和/或字符的概率以便優(yōu)化手寫識別。
此外,系統(tǒng)800可包括任何合適的和/或必要的接口組件804,它提供了將 個性化組件802集成到實際上任何操作和/或數(shù)據(jù)庫系統(tǒng)中的各種適配器、連接 器、通道、通信路徑等。此外,接口組件804可以提供允許與個性化組件802、 數(shù)據(jù)、手寫數(shù)據(jù)、與優(yōu)化的手寫識別相關(guān)聯(lián)的數(shù)據(jù)、以及優(yōu)化的手寫識別交互 的各種適配器、連接器、通道、通信路徑等。
圖9示出了根據(jù)根發(fā)明的一方面的阿拉伯語文本識別系統(tǒng)900,其中這一 系統(tǒng)利用阿拉伯語書寫手跡中的字母的條件聯(lián)接特性來將識別過程分解成可 同時解決的兩個識別過程。通過使用基于神經(jīng)網(wǎng)絡(luò)的PAW識別器,執(zhí)行兩層 定向搜索以找到對于輸入圖像的最佳匹配單詞。此外,可以使用人工智能(AI) 組件902來促進(jìn)識別過程。如此處所使用的,術(shù)語"推斷"通常指的是根據(jù)經(jīng)由 事件和/或數(shù)據(jù)捕獲的一組觀察結(jié)果來推出或推斷系統(tǒng)、環(huán)境、和/或用戶狀態(tài) 的過程。例如,推斷可用于標(biāo)識特定的上下文或動作,或可生成狀態(tài)的概率分 布。推斷可以是概率性的,即,基于對數(shù)據(jù)和事件的考慮計算所關(guān)注狀態(tài)的概 率分布。推斷也可以指用于從一組事件和/或數(shù)據(jù)合成更高級事件的技術(shù)。這類 推斷導(dǎo)致從一組觀察到的事件和/或儲存的事件數(shù)據(jù)中構(gòu)造新的事件或動作,而 無論事件是否在相鄰時間上相關(guān),也無論事件和數(shù)據(jù)是來自一個還是若干個事 件和數(shù)據(jù)源。
例如,如早先所解釋的,識別PAW和/或各個構(gòu)成字母的過程可經(jīng)由自動 分類器系統(tǒng)和過程來促進(jìn)。分類器是將輸入屬性矢量x = (xl, x2, x3, x4, xn)映 射到該輸入屬于一個類的置信度的函數(shù),即f(x) = confidence(class)。這一分類 可采用基于概率和/或基于統(tǒng)計的分析(例如,分解成分析效用和成本)來預(yù)測 或推斷用戶期望自動執(zhí)行的動作。
15支持向量機(SVM)是可采用的分類器的一個示例。SVM通過找出可能 輸入空間中的超曲面來操作,其中,超曲面試圖將觸發(fā)準(zhǔn)則從非觸發(fā)事件中分 離出來。直觀上,這使得分類對于接近但不等同于訓(xùn)練數(shù)據(jù)的測試數(shù)據(jù)正確。 可采用其它定向和非定向模型分類方法,包括,例如,樸素貝葉斯、貝葉斯網(wǎng) 絡(luò)、決策樹、神經(jīng)網(wǎng)絡(luò)、模糊邏輯模型以及提供不同獨立性模式的概率分類模 型。此處所使用的分類也包括用于開發(fā)優(yōu)先級模型的統(tǒng)計回歸。
如從本說明書中可以容易地理解,本發(fā)明可以使用顯式訓(xùn)練(例如,經(jīng)由 一般訓(xùn)練數(shù)據(jù))以及隱式訓(xùn)練(例如,經(jīng)由觀察用戶行為、接收外來信息)的
分類器。例如,SVM經(jīng)由分配器構(gòu)造器和特征選擇模塊中的學(xué)習(xí)或訓(xùn)練階段
來配置。因此,可使用分類器來自動地學(xué)習(xí)和執(zhí)行多個功能,包括但不限于根 據(jù)預(yù)定準(zhǔn)則來確定何時更新或細(xì)化先前推斷的模式,基于正在處理的數(shù)據(jù)種類 (例如,金融還是非金融、個人還是非個人)使關(guān)于推斷算法的準(zhǔn)則更嚴(yán)格, 以及一天中何時實現(xiàn)更嚴(yán)格的準(zhǔn)則控制(例如,在系統(tǒng)性能受到影響較小的晚 上)。
參考圖10,用于實現(xiàn)此處所公開的各方面的示例性環(huán)境1010包括計算機 1012 (例如,臺式機、膝上型計算機、服務(wù)器、手持式、可編程消費或工業(yè)電 子產(chǎn)品...)。計算機1012包括處理器單元1014、系統(tǒng)存儲器1016和系統(tǒng)總線 1018。系統(tǒng)總線1018將包括但不限于系統(tǒng)存儲器1016的系統(tǒng)組件耦合到處理 單元1014。處理單元1014可以是各種可用處理器中的任意一種。雙微處理器 和其它多處理器體系結(jié)構(gòu)(例如,多核)也可用作處理單元1014。
系統(tǒng)總線1018可以是若干類型的總線結(jié)構(gòu)中的任一種,包括存儲器總線 或存儲器控制器、外圍總線或外部總線、和/或使用各種可用的總線體系結(jié)構(gòu)中 的任一種的局部總線,可用的總線體系結(jié)構(gòu)包括,但不限于,ll位總線、工業(yè) 標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)、微通道體系結(jié)構(gòu)(MCA)、擴(kuò)展的ISA (EISA)、智 能驅(qū)動器電子接口 (IDE) 、 VESA局部總線(VLB)、外圍部件互連(PCI)、 通用串行總線(USB)、高級圖形接口 (AGP)、個人計算機存儲卡國際協(xié)會 總線(PCMCIA)以及小型計算機系統(tǒng)接口 (SCSI)。
系統(tǒng)存儲器1016包括易失性存儲器1020和非易失性存儲器1022?;?輸入/輸出系統(tǒng)(BIOS)包含諸如在啟動期間在計算機1012的元件之間傳送信
16息的基本例程,其存儲在非易失性存儲器1022中。作為說明而非局限,非易
失性存儲器1022可以包括只讀存儲器(ROM)、可編程ROM (PROM)、電 可編程ROM (EPROM)、電可擦除ROM (EEPROM)或者閃存。易失性存 儲器1020包括用作外部高速緩沖存儲器的隨機存取存儲器(RAM)。
計算機1012還包括可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。 例如,圖IO示出了大容量或輔助存儲1024。大容量存儲1024包括但不限于諸 如磁盤驅(qū)動器、軟盤驅(qū)動器、磁帶驅(qū)動器、Jaz驅(qū)動器、Zip驅(qū)動器、LS-100 驅(qū)動器、閃存卡、或者記憶棒之類的設(shè)備。此外,大容量存儲1024可以包括 獨立的或者與其它存儲介質(zhì)結(jié)合的存儲介質(zhì),其他存儲介質(zhì)包括但不限于諸如 緊致盤ROM設(shè)備(CD-ROM)、可記錄CD驅(qū)動器(CD-R驅(qū)動器)、可重 寫CD驅(qū)動器(CD-RW驅(qū)動器)或者數(shù)字多功能盤ROM驅(qū)動器(DVD-ROM) 這樣的光盤驅(qū)動器。為了便于將大容量存儲設(shè)備1024連接到系統(tǒng)總線1018, 通常使用諸如接口 1026等可移動或不可移動接口。
可以理解,圖10描述了用戶與在合適的操作環(huán)境1010中描述的基本計算 機資源之間擔(dān)當(dāng)中介的軟件。這樣的軟件包括操作系統(tǒng)1028。可被存儲在大容 量存儲1024并加載到系統(tǒng)存儲器1016的操作系統(tǒng)1028用來控制和分配系統(tǒng) 1012的資源。系統(tǒng)應(yīng)用程序1030通過存儲在系統(tǒng)存儲器1016中或大容量存儲 1024上的程序模塊1032和程序數(shù)據(jù)1034來利用操作系統(tǒng)1028對資源的管理。 可以理解,本發(fā)明可用各種操作系統(tǒng)或操作系統(tǒng)的組合來實現(xiàn)。
用戶通過輸入設(shè)備1036把命令或信息輸入到計算機1012中。輸入設(shè)備 1036包括但不限于諸如鼠標(biāo)、跟蹤球、指示筆、觸摸墊等定點設(shè)備、鍵盤、話 筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀、TV調(diào)諧卡、數(shù)碼相機、 數(shù)碼攝像機、網(wǎng)絡(luò)攝像頭等等。這些以及其它輸入設(shè)備通過系統(tǒng)總線1018經(jīng) 由接口端口 1038連至處理單元1014。接口端口 1038包括,例如串行端口、并 行端口、游戲端口、以及通用串行總線(USB)。輸出設(shè)備1040利用和輸入 設(shè)備1036相同類型的某些端口 。因此,例如,USB端口可以用來向計算機1012 提供輸入,以及把來自計算機1012的信息輸出到輸出設(shè)備1040。提供輸出適 配器1042是為了說明除了輸出設(shè)備1040之外還有一些像顯示器(例如,平板、 CRT、 LCD、等離子...)、揚聲器、以及打印機這樣的需要專用適配器的輸出
17設(shè)備1040。輸出適配器1042包括,作為說明而非局限,提供輸出設(shè)備1040 和系統(tǒng)總線1018之間的連接手段的顯卡和聲卡。應(yīng)該注意到,其它設(shè)備和/或 設(shè)備系統(tǒng)提供了輸入和輸出能力,諸如遠(yuǎn)程計算機1044。
計算機1012可以使用至諸如遠(yuǎn)程計算機1044等一個或多個遠(yuǎn)程計算機的 邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計算機1044可以是個人計算機、服務(wù)器、 路由器、網(wǎng)絡(luò)PC、工作站、基于微處理器的電器、對等設(shè)備或者其它常見的 網(wǎng)絡(luò)節(jié)點等,且通常包括相對于計算機1012所描述的很多或者全部元件。為 了簡明起見,對遠(yuǎn)程計算機1044僅示出了存儲器存儲設(shè)備1046。遠(yuǎn)程計算機 1044經(jīng)由網(wǎng)絡(luò)接口 1048被邏輯地連接到計算機1012,并且然后經(jīng)由通信連接 1050物理地連接(例如,有線或無線地)。網(wǎng)絡(luò)接口 1048涵蓋諸如局域網(wǎng)(LAN) 和廣域網(wǎng)(WAN)這樣的通信網(wǎng)絡(luò)。
通信連接1050指的是用于把網(wǎng)絡(luò)接口 1048連接到總線1018的硬件/軟件。 雖然為了清楚地舉例說明,通信連接1050被示為在計算機1016的內(nèi)部,但其 也可以在計算機1012的外部。連接至網(wǎng)絡(luò)接口 1048所需的硬件/軟件僅為示例 性目的包括內(nèi)部和外部技術(shù),諸如包括常規(guī)電話級調(diào)制解調(diào)器、電纜調(diào)制解調(diào) 器、電源調(diào)制解調(diào)器和DSL調(diào)制解調(diào)器等調(diào)制解調(diào)器、ISDN適配器以及以太 網(wǎng)卡或組件。
以上所已經(jīng)描述的內(nèi)容包括所要求保護(hù)的主題的各方面的例子。當(dāng)然,出 于描繪所要求保護(hù)的主題的目的而描述每一個可以想到的組件或方法的組合 是不可能的,但本領(lǐng)域內(nèi)的普通技術(shù)人員應(yīng)該認(rèn)識到,所要求保護(hù)的主題的許 多進(jìn)一步的組合和排列都是可能的。從而,所公開的主題旨在涵蓋落入所附權(quán) 利要求書的精神和范圍內(nèi)的所有這樣的變更、修改和變化。而且,就在詳細(xì)描 述或權(quán)利要求書中使用術(shù)語"包含"、"具有"或"含有"或其形式的變型而言,這 樣的術(shù)語旨在以類似于術(shù)語"包括"在用作權(quán)利要求書中的過渡詞時所解釋的 方式為包含性的。
權(quán)利要求
1.一種幫助文本識別的系統(tǒng),包括用于識別基于與所述文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來預(yù)定義的單詞組(202、204、206、208)的識別器組件(110),以及用于識別形成所述單詞組(202、204、206、208)的構(gòu)成字母的另一識別器組件(112)。
2. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述聯(lián)接規(guī)則定義阿拉伯語單 詞的一部分(PAW)。
3. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述識別器組件和所述另一識 別器組件是基于神經(jīng)網(wǎng)絡(luò)的。
4. 如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括用異形字?jǐn)?shù)據(jù)來訓(xùn)練相 關(guān)聯(lián)的分類器的個性化組件。
5. 如權(quán)利要求4所述的系統(tǒng),其特征在于,所述異形字?jǐn)?shù)據(jù)表示手寫風(fēng)格。
6. 如權(quán)利要求4所述的系統(tǒng),其特征在于,所述個性化組件包括將書寫者 無關(guān)的手寫轉(zhuǎn)換成對于用戶的個性化手寫的自適應(yīng)特征。
7. 如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括進(jìn)一步促進(jìn)文本識別的 人工智能組件。
8. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述識別器組件具有定向搜索 能力。
9. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述個性化組件包括提供字母 出現(xiàn)概率的映射特征。
10. —種識別文本的方法,包括 將文本輸入與基于所述文本的語言的聯(lián)接規(guī)則來連接的預(yù)定義鏈接字母組(202、 204、 206、 208)進(jìn)行比較;從所述預(yù)定義鏈接字母組(202、204、206、208)中選出可能的匹配(530);以及將可能的匹配與構(gòu)成字母進(jìn)行比較(540)。
11. 如權(quán)利要求10所述的方法,其特征在于,還包括將鏈接字母組預(yù) 定義為PAW。
12. 如權(quán)利要求ll所述的方法,其特征在于,還包括標(biāo)記鏈接字母。
13. 如權(quán)利要求11所述的方法,其特征在于,還包括從所述鏈接字母 中提取特征以便進(jìn)行識別。
14. 如權(quán)利要求13所述的方法,其特征在于,還包括采用維特比搜索。
15. 如權(quán)利要求14所述的方法,其特征在于,還包括確定過度分段的場景。
16. 如權(quán)利要求14所述的方法,其特征在于,還包括基于異形字?jǐn)?shù)據(jù) 來訓(xùn)練分類器。
17. 如權(quán)利要求16所述的方法,其特征在于,還包括基于所述訓(xùn)練動 作來優(yōu)化手寫識別。
18. 如權(quán)利要求17所述的方法,其特征在于,還包括將通用手寫轉(zhuǎn)換 成個性化手寫。
19. 如權(quán)利要求18所述的方法,其特征在于,還包括基于字母到特定 樣式的映射來匹配字母。
20. —種幫助文本識別的系統(tǒng),包括用于識別基于與所述文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來預(yù)定義的單詞組(202、 204、 206、 208)的裝置(110),以及用于另外識別形成所述單詞組的構(gòu)成字母的裝置(112)。
全文摘要
提供了利用語言手跡的獨特特性(例如,阿拉伯語的條件聯(lián)接規(guī)則)來啟用兩層文本識別的系統(tǒng)和方法。在這一兩層系統(tǒng)中,一層可識別基于與文本相關(guān)聯(lián)的語言的聯(lián)接規(guī)則來連接的預(yù)定鏈接字母組,而另一層將這些鏈接字母剖析(并識別)為形成該預(yù)定鏈接字母組的相應(yīng)構(gòu)成字母。各種分類器和人工智能組件可進(jìn)一步促進(jìn)每一層的文本識別。
文檔編號G06K9/62GK101496036SQ200780028494
公開日2009年7月29日 申請日期2007年6月28日 優(yōu)先權(quán)日2006年7月31日
發(fā)明者A·A·阿布杜勒卡德 申請人:微軟公司