專利名稱:字符識(shí)別/修正方式的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及識(shí)別書(shū)寫(xiě)到通常所見(jiàn)到的各種發(fā)票上的字符串,特別涉及識(shí)別以不規(guī)則的字符間隔或用不規(guī)則的書(shū)寫(xiě)方法書(shū)寫(xiě)的在相鄰字符之間發(fā)生接觸、分離的那種低品質(zhì)的字符串的技術(shù)。
讀取圖像數(shù)據(jù)并變換為字符編碼數(shù)據(jù)的OCR(光學(xué)字符讀取裝置)隨著其應(yīng)用領(lǐng)域的擴(kuò)大,已在各種業(yè)務(wù)中進(jìn)行使用。每一種業(yè)務(wù)使用不同的發(fā)票,并且書(shū)寫(xiě)到發(fā)票上的字符串和書(shū)寫(xiě)者也是各種各樣的。
在先有的OCR用發(fā)票中,字符登錄框是使用按逐個(gè)字符印刷的字符框,特別是在書(shū)寫(xiě)漢字時(shí),是使用大的字符框。對(duì)OCR裝置而言,這是為了容易逐個(gè)字符檢測(cè)所書(shū)寫(xiě)的字符,另外,對(duì)于書(shū)寫(xiě)者說(shuō)來(lái),這是為了促使其在書(shū)寫(xiě)時(shí)所書(shū)寫(xiě)的字符不與相鄰的字符接觸。
這樣的發(fā)票,例如即使只書(shū)寫(xiě)2、3個(gè)住所或姓名,所書(shū)寫(xiě)的字符數(shù)也有數(shù)十個(gè)字符,結(jié)果,就必須使用大尺寸的發(fā)票,從而將增加費(fèi)用。另外,對(duì)于書(shū)寫(xiě)者說(shuō)來(lái),也增加了必須逐個(gè)字符書(shū)寫(xiě)到框中的麻煩。
隨著OCR的應(yīng)用領(lǐng)域擴(kuò)大,已迫切需要不受字符框約束而能將漢字字符串書(shū)寫(xiě)到通常的發(fā)票那樣小的發(fā)票中,并且可以按實(shí)用上的識(shí)別精度進(jìn)行識(shí)別,并在修正不能閱讀的字符時(shí)可以有效地進(jìn)行修正的字符識(shí)別/修正技術(shù)。
在先有的典型的字符識(shí)別方法中,是參照稱為存儲(chǔ)書(shū)寫(xiě)識(shí)別對(duì)象字符串的字符框的發(fā)票上的坐標(biāo)位置的定義體的文件,逐個(gè)字符檢測(cè)所書(shū)寫(xiě)的字符并將它們分離開(kāi)來(lái)。并且,通過(guò)對(duì)該分離開(kāi)的各字符進(jìn)行識(shí)別處理,輸出作為識(shí)別結(jié)果的候補(bǔ)字符組。
分離開(kāi)的字符的識(shí)別處理,例如可以按如下方式進(jìn)行。
首先,收集由大量的不特定的書(shū)寫(xiě)者按照預(yù)先規(guī)定的書(shū)寫(xiě)方式所書(shū)寫(xiě)的字符,從這些字符中抽出與識(shí)別方式相關(guān)的特征量,利用統(tǒng)計(jì)的方法(例如,分組方法)作成標(biāo)準(zhǔn)模式。并且,根據(jù)作為目的的每一種字種的標(biāo)準(zhǔn)模式作成標(biāo)準(zhǔn)模式詞典。
標(biāo)準(zhǔn)模式,例如可以作為通過(guò)將所收集的各字符模式平均而得到的平均模式而作成。更具體地說(shuō),就是利用通過(guò)運(yùn)算與所收集的各字符對(duì)應(yīng)的特征量的平均而得到的平均特征量來(lái)表現(xiàn)該平均模式。
在手寫(xiě)字符的識(shí)別處理中,由于手寫(xiě)者不同而發(fā)生大的字形變形,所以,對(duì)各字種作成多個(gè)標(biāo)準(zhǔn)模式。通常,1個(gè)標(biāo)準(zhǔn)模式稱為1個(gè)模板,對(duì)上述各字種根據(jù)多個(gè)標(biāo)準(zhǔn)模式作成的詞典稱為多個(gè)模板詞典。
字符識(shí)別處理,使用上述標(biāo)準(zhǔn)模式詞典或多個(gè)模板詞典進(jìn)行。具體而言,就是從根據(jù)輸入發(fā)票分離出來(lái)的1個(gè)字符抽出特征量,在該特征量與構(gòu)成標(biāo)準(zhǔn)模式詞典(或多個(gè)模板詞典)的各模板(標(biāo)準(zhǔn)模式)的特征量之間計(jì)算類似度或距離(歐幾里得距離、馬哈賴諾畢斯距離等)。并且,按類似度大的順序或距離小的順序,將指定順序位次(例如,8位)之前的各模板所屬的各字種類別作為候補(bǔ)字符組而輸出。
這里,所識(shí)別的字符是表示住所或姓名的字符時(shí),通常對(duì)上述候補(bǔ)字符組進(jìn)行使用住所單詞、姓名單詞的知識(shí)處理。
更具體地說(shuō),首先就是各書(shū)寫(xiě)位置的候補(bǔ)字符組通過(guò)按整個(gè)書(shū)寫(xiě)位置進(jìn)行組合然后輸出候補(bǔ)字符組。
其次,對(duì)構(gòu)成該候補(bǔ)字符組的各候補(bǔ)字符串比較在該候補(bǔ)字符串中是否存在知識(shí)處理對(duì)象的住所詞典或姓名詞典內(nèi)的各單詞字符串。
并且,按照該比較結(jié)果,例如按照構(gòu)成候補(bǔ)字符串的各候補(bǔ)字符的順序位次等,對(duì)該候補(bǔ)字符串打分。
在對(duì)所有的候補(bǔ)字符串進(jìn)行該處理之后,將得分最高得候補(bǔ)字符串作為知識(shí)處理結(jié)果而輸出。
作為關(guān)于這種知識(shí)處理的先有技術(shù),例如已在日本國(guó)特許公開(kāi)公報(bào)特開(kāi)昭61-107486號(hào)中所公開(kāi)了,這是大家所熟知的。
這里,識(shí)別如像向通常的發(fā)票上書(shū)寫(xiě)那樣用自由間距書(shū)寫(xiě)的住所、姓名那樣的漢字字符串時(shí),通常會(huì)發(fā)生很多相鄰的字符之間相互接觸的現(xiàn)象,另外,相反,也會(huì)存在對(duì)漢字分離為偏、旁那樣而書(shū)寫(xiě)的字符。
因此,在逐個(gè)字符檢測(cè)書(shū)寫(xiě)字符并分離出來(lái)進(jìn)行識(shí)別的先有的字符識(shí)別方法中,難于判斷哪個(gè)范圍是1個(gè)字符的范圍,實(shí)現(xiàn)達(dá)到實(shí)用上的識(shí)別精度是困難的。
此外,如果不能正確地識(shí)別各字符,則有時(shí)就連書(shū)寫(xiě)的是何種字符都不能判斷,在以確定構(gòu)成單詞的字符數(shù)為前提的先有的知識(shí)處理中,謀求提高識(shí)別精度是有限度的。
另外,特別是在住所地名等的識(shí)別處理中,例如在不能利用知識(shí)處理識(shí)別高位級(jí)的單詞(例如,東京都、大阪府等)時(shí),通常在該階段低位級(jí)的單詞也不能進(jìn)行知識(shí)處理,所以,為了修正住所地名,就必須從第1個(gè)字符開(kāi)始順序修正所有的字符串。
作為用于識(shí)別上述那樣的自由間距的字符串的第1先有技術(shù),已在日本國(guó)特許公報(bào)特公平8-23875號(hào)“單詞讀取方式”中所公開(kāi),這是大家已知的。在該第1先有技術(shù)中,作為識(shí)別結(jié)果的候補(bǔ)字符串與單詞詞典通過(guò)DP匹配等進(jìn)行對(duì)照,選擇一致的字符多的單詞,再次分離出不一致的部分,對(duì)該分離出的字符串進(jìn)行進(jìn)一步識(shí)別。
作為用于識(shí)別自由間距的字符串的第2先有技術(shù),已在日本國(guó)特許公開(kāi)公報(bào)特開(kāi)昭63-136291號(hào)“單詞讀取方式”中公開(kāi)了,這是大家已知的。在該第2先有技術(shù)中,使用作為標(biāo)準(zhǔn)模式而具有表示字符的偏、旁的各部分的部分模式的標(biāo)準(zhǔn)模式詞典進(jìn)行識(shí)別處理,根據(jù)候補(bǔ)字符串的各字符的偏、旁生成字符串,進(jìn)行它們與單詞詞典的匹配處理。
作為用于識(shí)別自由間距的字符串的第3先有技術(shù),已在日本國(guó)特許公開(kāi)公報(bào)特開(kāi)平8-171614號(hào)“字符串讀取裝置”中所公開(kāi),這是大家已知的。在該第3先有技術(shù)中,在候補(bǔ)字符串中不包含正確字符而發(fā)生讀取轉(zhuǎn)移時(shí)或者由于存在與正確字符競(jìng)爭(zhēng)的字符候補(bǔ)而發(fā)生多個(gè)讀取候補(bǔ)時(shí)等,就檢測(cè)預(yù)想字符串的存在可能性。
但是,研究了對(duì)我們?nèi)粘K鶗?shū)寫(xiě)的字符串即相鄰字符間的接觸頻繁地發(fā)生、字符寬度也隨各字符而變化很大、很多東倒西歪的低品質(zhì)的字符串的識(shí)別處理時(shí),上述第1~第3先有技術(shù)存在以下問(wèn)題。
首先,在第1先有技術(shù)中,優(yōu)先處理候補(bǔ)字符串中的哪個(gè)字符不一定,由于對(duì)等地處理候補(bǔ)字符串中的所有的字符,所以,有可能根據(jù)最初的字符分離位置只將完全不適當(dāng)?shù)膯卧~選擇為候補(bǔ)字符了。
其次,在第2先有技術(shù)中,在對(duì)相鄰字符相互接觸的區(qū)域的處理中存在問(wèn)題。
此外,在第3先有技術(shù)中,雖然描述了幾個(gè)檢測(cè)手段的實(shí)現(xiàn)方法,但是,不論哪個(gè)方法都使用字符候補(bǔ)的組合,它們的檢測(cè)性能與最初的字符的分離結(jié)果關(guān)系很大。
本發(fā)明的目的在于通過(guò)著眼于特定的字符而高精度地識(shí)別低品質(zhì)的字符串。
本發(fā)明以識(shí)別構(gòu)成書(shū)寫(xiě)到具有指定類別的書(shū)寫(xiě)范圍的輸入字符串的字符的字符識(shí)別/修正方法、和與其具有同等功能的字符識(shí)別裝置或計(jì)算機(jī)可以讀取的記錄媒體為前提。
在本發(fā)明中,首先通過(guò)在輸入字符串和第1識(shí)別詞典(特定字符標(biāo)準(zhǔn)模式詞典107)之間進(jìn)行第1匹配處理,從輸入字符串中抽出特定字符或特定字符串。更具體地說(shuō),就是在第1識(shí)別詞典中存儲(chǔ)與特定字符或特定字符串對(duì)應(yīng)的標(biāo)準(zhǔn)模式,通過(guò)在輸入字符串的模式和第1識(shí)別詞典內(nèi)的各標(biāo)準(zhǔn)模式之間進(jìn)行第1匹配處理,從輸入字符串中抽出特定字符或特定字符串。上述特定字符或特定字符串是例如在指定類別中出現(xiàn)的頻度高的或識(shí)別精度高的字符或字符串。
其次,從不同類別單詞詞典(特定字符詞典110、知識(shí)詞典111)中抽出有可能屬于指定類別(例如,住所字符串)并且位于從輸入字符串中抽出的各特定字符或特定字符串的前后的輸入字符串中的區(qū)域的候補(bǔ)單詞組。
并且,對(duì)于屬于所抽出的候補(bǔ)單詞組的各候補(bǔ)單詞,通過(guò)根據(jù)與該各候補(bǔ)單詞有關(guān)的信息對(duì)該各候補(bǔ)單詞所位于的輸入字符串中的各區(qū)域使用第2識(shí)別詞典(標(biāo)準(zhǔn)模式詞典113)進(jìn)行第2匹配處理,識(shí)別構(gòu)成輸入字符串的字符。更具體地說(shuō),就是在第2識(shí)別詞典中存儲(chǔ)與和屬于候補(bǔ)單詞組的候補(bǔ)單詞關(guān)聯(lián)的字符或字符串對(duì)應(yīng)的標(biāo)準(zhǔn)模式,對(duì)于屬于候補(bǔ)單詞組的各候補(bǔ)單詞,通過(guò)根據(jù)與該各候補(bǔ)單詞相關(guān)的信息對(duì)該各候補(bǔ)單詞所位于的輸入字符串中的各區(qū)域在該各候補(bǔ)單詞的模式和第2識(shí)別詞典內(nèi)的各標(biāo)準(zhǔn)模式之間進(jìn)行第2匹配處理,識(shí)別構(gòu)成輸入字符串的字符。這時(shí),作為與各候補(bǔ)單詞有關(guān)的信息,例如可以使用該各候補(bǔ)單詞的字符數(shù)的信息。另外,第2識(shí)別詞典也可以包含第1識(shí)別詞典。
根據(jù)上述發(fā)明的結(jié)構(gòu),首先優(yōu)先地識(shí)別輸入字符串中的特定字符或特定字符串,根據(jù)該識(shí)別結(jié)果來(lái)假定其前后的候補(bǔ)單詞,進(jìn)而通過(guò)使用該候補(bǔ)單詞的信息再次識(shí)別構(gòu)成輸入字符串的字符,便可高精度識(shí)別構(gòu)成通常所見(jiàn)到的書(shū)寫(xiě)到各種帳薄(發(fā)票)上的以不規(guī)則的間隔和書(shū)寫(xiě)方法所書(shū)寫(xiě)的輸入字符串的字符。
在上述發(fā)明的結(jié)構(gòu)中,與輸入字符串并列地顯示構(gòu)成輸入字符串的字符的識(shí)別結(jié)果,由用戶指定該顯示的輸入字符串上的所希望的區(qū)域,修正與該所希望的區(qū)域?qū)?yīng)的字符或字符串,根據(jù)與通過(guò)該修正而得到的正確字符或正確字符串有關(guān)的信息再次進(jìn)行候補(bǔ)單詞組的抽出處理和第2匹配處理,從而再次識(shí)別構(gòu)成輸入字符串的字符。這時(shí),應(yīng)答對(duì)所顯示的輸入字符串上的所希望區(qū)域的指定,顯示該所希望區(qū)域的多個(gè)候補(bǔ)識(shí)別結(jié)果。
利用這種字符修正技術(shù),只修正特定的字符或字符串便可自動(dòng)地修正其他不能識(shí)別的部分。
另外,在上述發(fā)明的結(jié)構(gòu)中,對(duì)于各候補(bǔ)單詞,具有書(shū)寫(xiě)上的變化波動(dòng)的單詞作為屬于候補(bǔ)單詞組的新的候補(bǔ)單詞而輸出。
利用這種書(shū)寫(xiě)上的變化波動(dòng)的控制技術(shù),可以靈活地對(duì)待各種書(shū)寫(xiě)方法。
圖1是本發(fā)明實(shí)施例的結(jié)構(gòu)圖。
圖2是本發(fā)明實(shí)施例的總體控制動(dòng)作流程圖(之一)。
圖3是本發(fā)明實(shí)施例的總體控制動(dòng)作流程圖(之二)。
圖4是本發(fā)明實(shí)施例的總體控制動(dòng)作流程圖(之三)。
圖5是表示書(shū)寫(xiě)范圍定義的數(shù)據(jù)格式例的圖。
圖6是字符分離部的控制動(dòng)作流程圖(之一)。
圖7是字符分離部的控制動(dòng)作流程圖(之二)。
圖8是字符分離部的控制動(dòng)作的說(shuō)明圖。
圖9是關(guān)于書(shū)寫(xiě)的波動(dòng)的控制動(dòng)作流程圖。
圖10是知識(shí)詞典(住所)的結(jié)構(gòu)圖。
圖11是特定字符詞典的結(jié)構(gòu)圖。
圖12是表示特定字符詞典110的結(jié)構(gòu)例(之一)的圖。
圖13是表示特定字符詞典110的結(jié)構(gòu)例(之二)的圖。
圖14是表示特定字符詞典110的結(jié)構(gòu)例(之三)的圖。
圖15是表示特定字符詞典110的結(jié)構(gòu)例(之四)的圖。
圖16是書(shū)寫(xiě)的變化波動(dòng)的控制動(dòng)作的說(shuō)明圖。
圖17是候補(bǔ)單詞檢索部的動(dòng)作說(shuō)明圖(之一)。
圖18是候補(bǔ)單詞檢索部的動(dòng)作說(shuō)明圖(之二)。
圖19是候補(bǔ)單詞檢索部的動(dòng)作說(shuō)明圖(之三)。
圖20是利用標(biāo)準(zhǔn)模式詞典的字符串檢測(cè)/識(shí)別動(dòng)作的說(shuō)明圖。
圖21是輸入部和顯示部的動(dòng)作說(shuō)明圖(之一)。
圖22是輸入部和顯示部的動(dòng)作說(shuō)明圖(之二)。
圖23是輸入部和顯示部的動(dòng)作說(shuō)明圖(之三)。
圖24是記錄實(shí)現(xiàn)本實(shí)施例的程序的記錄媒體的說(shuō)明圖。
下面,參照附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施例。
圖1是本發(fā)明實(shí)施例的結(jié)構(gòu)圖。
首先,字符分離部103使用定義關(guān)于帳薄的書(shū)寫(xiě)范圍位置的信息的書(shū)寫(xiě)范圍定義104,從由圖像存儲(chǔ)器102中讀出的書(shū)寫(xiě)到帳薄上的輸入字符串101中的開(kāi)頭順序逐個(gè)分離字符。
其次,特征抽出部105從該分離出的字符中抽出特征量。
接著,匹配部106進(jìn)行該分離出的字符的特征量和特定字符標(biāo)準(zhǔn)模式詞典107內(nèi)的各特定字符標(biāo)準(zhǔn)模式的特征量之間的匹配處理,按匹配度高的順序?qū)⒅付樞蛭恢暗母魈囟ㄗ址麡?biāo)準(zhǔn)模式所屬的各特定字符的字種類別作為對(duì)上述分離出的字符的候補(bǔ)特定字符向候補(bǔ)字符串緩沖器108輸出。
對(duì)字符分離部103從輸入字符串101的開(kāi)頭順序分離出的各字符進(jìn)行利用字符分離部103、特征抽出部105和匹配部106進(jìn)行的上述一系列的特定字符識(shí)別處理。結(jié)果,在候補(bǔ)字符串緩沖器108中,就按照與從輸入字符串101中分離出的字符的排列順序?qū)?yīng)的排列順序保持與各字符對(duì)應(yīng)的候補(bǔ)特定字符。
候補(bǔ)單詞檢索部109從候補(bǔ)字符串緩沖器108得到的候補(bǔ)特定字符串中全部抽出由相鄰的任意2個(gè)特定字符構(gòu)成的組(特定字符組),并檢索各特定字符組是否已登錄到特定字符詞典110中。
在1組的特定字符組已登錄到特定字符詞典110中時(shí),候補(bǔ)單詞檢索部109就從與該登錄記錄器鏈接的知識(shí)詞典11中的記錄器中檢索被構(gòu)成該特定字符組的2個(gè)特定字符夾在中間的單詞組,將該檢索的單詞組作為候補(bǔ)單詞組保持到候補(bǔ)單詞緩沖器112中。
候補(bǔ)單詞檢索部109對(duì)于從候補(bǔ)字符串緩沖器108中抽出的上述個(gè)特定字符組,抽出與它們對(duì)應(yīng)的候補(bǔ)單詞組,并保持到候補(bǔ)單詞緩沖器112中。
結(jié)果,在候補(bǔ)單詞緩沖器112中,對(duì)1組特定字符組可以得到1各以上的候補(bǔ)單詞組,最后,便可得到多個(gè)特定字符組的候補(bǔ)單詞組的集合。
對(duì)于1組的特定字符組,順序讀出屬于候補(bǔ)單詞緩沖器112得到的候補(bǔ)單詞組的各候補(bǔ)單詞,并對(duì)它們進(jìn)行以下一系列的處理。
首先,字符分離部103使用從候補(bǔ)單詞緩沖器112輸出的候補(bǔ)單詞的信息對(duì)從圖像存儲(chǔ)器102中讀出的輸入字符串101中,再次分離出被構(gòu)成該候補(bǔ)單詞所屬的特定字符組的2個(gè)特定字符夾在中間的字符串區(qū)域內(nèi)的字符串。
特征抽出部105從再次分離出的字符串中抽出特征量。
此外,匹配部106進(jìn)行該再次分離出的字符串的特征量和第2詞典即標(biāo)準(zhǔn)模式詞典113內(nèi)的各標(biāo)準(zhǔn)模式的特征量的匹配處理,按照匹配度高的順序,將指定順序位之前的各標(biāo)準(zhǔn)模式所屬的字符串的類別作為對(duì)上述候補(bǔ)單詞的候補(bǔ)識(shí)別結(jié)果組,保持到候補(bǔ)字符串緩沖器108中。
利用字符分離部103、特征抽出部105和匹配部106對(duì)于上述1組的特定字符組,對(duì)屬于候補(bǔ)單詞緩沖器112得到的候補(bǔ)單詞組的各候補(bǔ)單詞進(jìn)行上述一系列的再次識(shí)別處理,在候補(bǔ)單詞緩沖器108中對(duì)各候補(bǔ)單詞可以得到指定順序位之前的候補(bǔ)識(shí)別結(jié)果組。
并且,匹配部106對(duì)屬于上述1組的特定字符組的各候補(bǔ)單詞從候補(bǔ)字符串緩沖器108得到的指定順序位之前的全部候補(bǔ)識(shí)別結(jié)果組中,最穩(wěn)妥地將可靠性高的識(shí)別結(jié)果,更具體地說(shuō)就是將匹配度最高的候補(bǔ)識(shí)別結(jié)果,作為被構(gòu)成上述1組的特定字符組的2個(gè)特定字符夾在中間的部分的識(shí)別結(jié)果向知識(shí)處理部114輸出。
利用字符分離部103、特征抽出部105和匹配部106進(jìn)行的屬于1組的特定字符組的候補(bǔ)單詞組的各候補(bǔ)單詞的上述一系列的再次識(shí)別處理,對(duì)登錄到候補(bǔ)單詞緩沖器112中的各特定字符組進(jìn)行。結(jié)果,與被構(gòu)成各特定字符組的2個(gè)特定字符夾在中間的各字符區(qū)域?qū)?yīng)的識(shí)別結(jié)果向知識(shí)處理部114輸出。
知識(shí)處理部114對(duì)與被構(gòu)成各特定字符組的2個(gè)特定字符夾在中間的各字符區(qū)域?qū)?yīng)的識(shí)別結(jié)果,通過(guò)使用書(shū)寫(xiě)范圍定義104和知識(shí)詞典11的知識(shí)處理,決定由上述各字符區(qū)域構(gòu)成的全部字符區(qū)域的最終識(shí)別結(jié)果,并將其向識(shí)別結(jié)果緩沖器115輸出。
在上述一系列的識(shí)別處理中,對(duì)于最后未滿足識(shí)別條件的字符或字符串的部分,附加上拒識(shí)(不能識(shí)別)信息。
這時(shí),識(shí)別結(jié)果緩沖器115得到的識(shí)別結(jié)果通過(guò)接口部116在詳細(xì)部117上進(jìn)行顯示。用戶對(duì)顯示部117上的識(shí)別結(jié)果的顯示,可以從由鼠標(biāo)和鍵盤(pán)等構(gòu)成的輸入部118修正不能識(shí)別字符/字符串。
用戶只從輸入部118指定不能識(shí)別字符/字符串列的特定的正確字符,關(guān)于該正確字符的信息便從接口部116向正確字符緩沖器119和區(qū)域坐標(biāo)緩沖器120輸出。
候補(bǔ)單詞檢索部109將從正確字符緩沖器119得到的與正確字符有關(guān)的信息作為特定字符的信息,通常通過(guò)使用上述特定字符詞典110和知識(shí)詞典11進(jìn)行候補(bǔ)單詞的檢索處理,便可正確地再次識(shí)別不能識(shí)別的字符。另外,字符分離部103通過(guò)從區(qū)域坐標(biāo)緩沖器120取得由用戶指定的正確字符的分離位置,便可進(jìn)行正確的字符的分離。
如上所述,在本實(shí)施例中,對(duì)于書(shū)寫(xiě)到帳薄中的各書(shū)寫(xiě)范圍中的住所、姓名、物品名等的輸入字符串101,通過(guò)著眼于在各范圍內(nèi)出現(xiàn)頻度高的字符或特定的字符/字符串,使用知識(shí)詞典111保持的單詞信息和具有層次結(jié)構(gòu)的住所等的字符串時(shí)各字符區(qū)域的接續(xù)信息,便可選擇被上述特定字符夾在中間的字符區(qū)域的候補(bǔ)單詞。
此外,在本實(shí)施例中,通過(guò)使用該候補(bǔ)單詞的信息進(jìn)行從輸入字符串101抽出被上述特定字符夾在中間的字符區(qū)域和對(duì)該字符區(qū)域的再次識(shí)別處理,便可以高的識(shí)別精度識(shí)別在相鄰字符間以發(fā)生很多接觸、分離的書(shū)寫(xiě)方式書(shū)寫(xiě)的字符串。
圖2至圖4是表示具有圖1所示的結(jié)構(gòu)的本發(fā)明的實(shí)施例實(shí)現(xiàn)的全部控制的動(dòng)作流程圖。
(特定字符的識(shí)別處理)首先,字符分離部103使用定義關(guān)于帳薄的書(shū)寫(xiě)范圍位置的信息的書(shū)寫(xiě)范圍定義104,從圖像存儲(chǔ)器102中作為2值化圖像數(shù)據(jù)讀出的書(shū)寫(xiě)到帳薄上的輸入字符串101中的開(kāi)頭順序逐個(gè)進(jìn)行字符分離(圖2的S201)。
圖5是表示字符分離部103使用的記入范圍定義104的數(shù)據(jù)格式例的圖。
例如,在帳薄上設(shè)置范圍1、2,識(shí)別書(shū)寫(xiě)到這2個(gè)范圍內(nèi)的字符串時(shí),書(shū)寫(xiě)范圍定義104按以下方式進(jìn)行決定。
首先,將帳薄的上部作為坐標(biāo)原點(diǎn),將橫向定義為x軸,將縱向定義為y軸,對(duì)于范圍1、2,該范圍的左上端的位置的坐標(biāo)(范圍原點(diǎn)坐標(biāo))和由x軸方向的范圍寬度及y軸方向的范圍高度構(gòu)成的范圍的大小數(shù)據(jù)如圖5(a)所示的那樣定義。長(zhǎng)度的單位為毫米或英寸。
其次,對(duì)于范圍1、2,定義表示各范圍書(shū)寫(xiě)什么種類的字符串的范圍類別。
這些信息用圖5(b)所示的表示形式作為書(shū)寫(xiě)范圍定義104特別地保持到圖中未示出存儲(chǔ)裝置中。
字符分離部103通過(guò)使用上述書(shū)寫(xiě)范圍定義104,在從圖像存儲(chǔ)器102中讀出的圖像數(shù)據(jù)上決定各范圍的字符區(qū)域之后,對(duì)該字符區(qū)域內(nèi)的圖像數(shù)據(jù)進(jìn)行由圖6所示的動(dòng)作流程圖所示的字符分離控制。
這里,如圖8(a)所示,設(shè)從書(shū)寫(xiě)范圍定義104中抽出的對(duì)象區(qū)域的范圍原點(diǎn)坐標(biāo)為(x0,y0)、x軸方向的范圍寬度為dx、y軸方向的范圍高度為dy。
首先,字符分離部103通過(guò)對(duì)x軸方向的各掃描線累計(jì)計(jì)算黑像素?cái)?shù),如圖8(b)所示的那樣,計(jì)算表示各y坐標(biāo)位置的x軸方向的黑像素的出現(xiàn)頻度的水平直方圖(圖6的S601)。
其次,如圖8(b)所示,字符分離部103從其上方和下方掃描上述水平直方圖,計(jì)算最初超過(guò)頻度值C的位置α和β,將進(jìn)而根據(jù)它們計(jì)算的數(shù)值α-β作為該對(duì)象區(qū)域的字符串高度h(S602)。
然后,字符分離部103通過(guò)對(duì)y軸方向的各掃描線累計(jì)計(jì)算黑像素?cái)?shù),如圖8(c)所示的那樣計(jì)算表示各x坐標(biāo)位置的y軸方向的黑像素的出現(xiàn)頻度的垂直直方圖(圖6的S603)。
接著,如圖8(c)所示,字符分離部103從其左邊開(kāi)始掃描上述垂直直方圖,分離出頻度值從小于閾值d變化到大于閾值d的點(diǎn)x1、x3、x5、…(x2n-1:n=1、2、…),作為候補(bǔ)位置進(jìn)行計(jì)算,另外,也分離出頻度值從大于閾值d變化到小于閾值d的點(diǎn)x2、x4、x6、…(x2m:m=1、2、…),作為候補(bǔ)位置進(jìn)行計(jì)算(S604)。
然后,字符分離部103計(jì)算滿足下述條件式的區(qū)域[x2m,x2n 1],并將其作為字符分離結(jié)果(S605)。
數(shù)式1h-t1≤x2m-x2n-1≤h+t2(m=1、2、3、…),(n=1、2、3、…)其中,h為在上述S602計(jì)算的字符高度,t1和t2是通過(guò)輸入字符串101的學(xué)習(xí)采樣而決定的參量。在圖8(c)的例中,下述3個(gè)區(qū)域作為字符分離結(jié)果進(jìn)行計(jì)算。[x3,x4][x5,x8]字符分離部103判斷S605的處理結(jié)果是否留下滿足下述條件式的區(qū)域(S606)。
數(shù)式2x2l-x2l-1>h+t2(l=1、2、3、…)在S606的判斷如果為NO,字符分離部103就結(jié)束該控制處理。
在S606的判斷如果是YES,字符分離部103就在區(qū)域[x2l- 1,x2l]中,計(jì)算是小于在S603計(jì)算的垂直直方圖的頻度值比閾值d大的指定值并且滿足下述條件式的值k。
數(shù)式3h≈(x2l-x2l-1)/k結(jié)果,將把區(qū)域[x2l-x2l-1]作k份分割的各位置作為字符分離位置進(jìn)行計(jì)算(以上,為S607)。在圖8(d)的例中,為l=1、k=2,將把區(qū)域[x1,x2]分割為2份的位置x′作為字符分離位置進(jìn)行計(jì)算。
然后,字符分離部103結(jié)束該控制處理。
以上說(shuō)明的圖6的動(dòng)作流程圖與字符分離部103對(duì)字符數(shù)未預(yù)先給定的范圍所進(jìn)行的字符分離處理對(duì)應(yīng)。
與此相反,如根據(jù)從候補(bǔ)單詞緩沖器112中讀出的候補(bǔ)單詞的信息再次進(jìn)行識(shí)別處理時(shí)那樣,有時(shí)字符分離部103也對(duì)作為字符分離的對(duì)象的區(qū)域和該區(qū)域內(nèi)的字符數(shù)已預(yù)先給定的范圍進(jìn)行字符分離處理。
這時(shí),字符分離部103進(jìn)行圖7的S701的處理,取代圖6的S605~607的處理。
即,當(dāng)給定作為字符分離對(duì)象的區(qū)域的左端的x坐標(biāo)為xs、右端的x坐標(biāo)為xt、上述區(qū)域內(nèi)的字符數(shù)為n時(shí),字符分離部103就將具有與是在圖6的S603計(jì)算的垂直直方圖的頻度值小于指定值并且滿足下述條件式的值Xn接近的相鄰間隔的位置作為字符分離位置進(jìn)行計(jì)算。
數(shù)式4(xt-xs)/n=Xn具體而言,設(shè)相鄰的2個(gè)字符分離位置為xi、xi+1(i=1、2、…、xs≤xi、xi+1≤xt)時(shí),字符分離部103計(jì)算滿足下述條件式的字符分離位置xi(xi≠xs,xt)。
數(shù)式5Xn-t5≤xi+1-xi≤Xn+t6其中,t5和t6是通過(guò)輸入字符串101的學(xué)習(xí)采樣而決定的參量。
在由以上說(shuō)明的字符分離部103進(jìn)行的字符分離處理后,特征抽出部105從該分離出的1字符中抽出作為用于進(jìn)行識(shí)別的特征量即特征矢量(圖2的S202)。
具體而言,就是特征抽出部105通過(guò)例如以下一系列的處理抽出特征矢量。
即,首先,特征抽出部105從分離出的字符的圖像數(shù)據(jù)中抽出字符輪廓像素。
然后,特征抽出部105將該分離出的區(qū)域分割為多個(gè)分割區(qū)域。
此外,特征抽出部105按各分割區(qū)域?qū)υ摲指顓^(qū)域內(nèi)的各輪廓像素抽出方向成分(例如,縱向、橫向、左斜方向、右斜方向的4個(gè)方向成分),通過(guò)累計(jì)計(jì)算該分割區(qū)域內(nèi)的全部輪廓像素的方向成分,計(jì)算該分割區(qū)域內(nèi)的各方向成分的累計(jì)值,從而計(jì)算將它們作為與各方向成分對(duì)應(yīng)的要素值而具有的部分特征矢量。
最后,特征抽出部105通過(guò)綜合所有的分割區(qū)域的部分特征矢量的各要素,抽出特征矢量。
如上述那樣在特征抽出部105抽出分離出的字符的特征矢量后,匹配部106進(jìn)行該分離出的字符的特征矢量與特定字符標(biāo)準(zhǔn)模式詞典107內(nèi)的各特定字符標(biāo)準(zhǔn)模式的特征矢量之間的匹配處理(圖2的S203),按匹配度高的順序?qū)⒅付樞蛭恢暗母魈囟ㄗ址麡?biāo)準(zhǔn)模式所屬的各特定字符的字種類別作為上述分離出的字符的候補(bǔ)特定字符組向候補(bǔ)字符串緩沖器108輸出(圖2的S204)。
更具體地說(shuō),就是匹配部106計(jì)算在該分離出的字符的特征矢量與特定字符標(biāo)準(zhǔn)模式詞典107內(nèi)的各特定字符標(biāo)準(zhǔn)模式的特征矢量之間例如距離(歐幾里得距離、馬哈賴諾畢斯距離等)。并且,匹配部106按距離小的順序?qū)⒅付樞蛭?n位)之前的各特定字符標(biāo)準(zhǔn)模式所屬的各特定字符的字種類別作為上述分離出的特定字符的候補(bǔ)特定字符組向候補(bǔ)字符串緩沖器108輸出。
1位的特定字符標(biāo)準(zhǔn)模式的距離大于指定的閾值T1時(shí),就將拒識(shí)(不能識(shí)別)信息附加到該分離出的字符上。
下面,舉具體例說(shuō)明上述特定字符標(biāo)準(zhǔn)模式詞典107。
現(xiàn)在,考慮輸入字符串101為住所字符串的情況。
在本實(shí)施例中,開(kāi)始在例如住所字符串中,可以只識(shí)別表示其層次結(jié)構(gòu)的區(qū)分的出現(xiàn)頻度高的由“都”“道”“府”“縣”“市”“區(qū)”“郡”“町”“村”“字”“大字”等1字符或2字符構(gòu)成的特定字符。另外,在住所字符串中,“東”“西”“南”“北”等特定字符,出現(xiàn)頻度也很高。
因此,在本實(shí)施例中,為了提高這些特定字符的識(shí)別精度,使用僅由這些特定字符的標(biāo)準(zhǔn)模式構(gòu)成的詞典容量小的特定字符標(biāo)準(zhǔn)模式詞典107。
通過(guò)準(zhǔn)備這種與標(biāo)準(zhǔn)模式詞典113不同的特定字符標(biāo)準(zhǔn)模式詞典107,便可縮短識(shí)別處理速度,并且可以提高識(shí)別精度。
特定字符標(biāo)準(zhǔn)模式詞典107也可以采用與標(biāo)準(zhǔn)模式詞典113相同的詞典而構(gòu)成,為了提高特定字符的識(shí)別精度,對(duì)各特定字符存儲(chǔ)多個(gè)模板(標(biāo)準(zhǔn)模式)。
另一方面,在輸入字符串101為姓名字符串時(shí),雖然不存在像住所字符串那樣相區(qū)分的字符,但是,存在出現(xiàn)頻度高的字符種類。例如,名字使用的字符在出現(xiàn)頻度中在高位500位之前的字符種類占了約82%,所以,可以用高位N個(gè)字符作成特定字符標(biāo)準(zhǔn)模式詞典107。
或者,也可以從標(biāo)準(zhǔn)模式詞典113中有選擇地僅將N個(gè)字種用于進(jìn)行特定字符的識(shí)別。
并且,特定字符詞典110與上述特定的字種對(duì)應(yīng)。
另外,也可以不根據(jù)出現(xiàn)頻度選擇字種,而根據(jù)大量的實(shí)際數(shù)據(jù)統(tǒng)計(jì)地決定容易識(shí)別的字符,選擇這些決定的字種。
由字符分離部103、特征抽出部105和匹配部106進(jìn)行的上述一系列的特定字符識(shí)別處理,對(duì)字符分離部103從輸入字符串101的開(kāi)頭順序分離出的各字符進(jìn)行(反復(fù)進(jìn)行圖2的S205→202的處理)。結(jié)果,各字符的候補(bǔ)特定字符組就按照與從輸入字符串101中分離出的字符的排列順序?qū)?yīng)的排列順序保持到候補(bǔ)字符串緩沖器108中。
(特定字符間區(qū)域的候補(bǔ)單詞的檢索和在該區(qū)域中的再次識(shí)別處理)候補(bǔ)單詞檢索部109從候補(bǔ)字符串緩沖器108得到的候補(bǔ)特定字符組的集合中抽出全部由相鄰的任意的2個(gè)特定字符構(gòu)成的組(特定字符組),并檢索這些特定字符組是否已登錄在特定字符詞典110中。并且,在1組的特定字符組已登錄在特定字符詞典110中時(shí),候補(bǔ)單詞檢索部109就從與該登錄記錄數(shù)據(jù)鏈接的知識(shí)詞典11中的記錄數(shù)據(jù)中檢索被構(gòu)成該特定字符組的2個(gè)特定字符夾在中間的單詞組,并將該檢索的單詞組作為候補(bǔ)單詞組保持到候補(bǔ)單詞緩沖器112中(以上,為圖3的S206)。
現(xiàn)在,考慮輸入字符串101為住所字符串的情況。對(duì)于住所字符串以外的姓名字符串、品名字符串等,由于不具有層次結(jié)構(gòu),所以,除了關(guān)于層次結(jié)構(gòu)的部分,可以和住所字符串的情況一樣地實(shí)現(xiàn)。
作為住所詞典的知識(shí)詞典11的結(jié)構(gòu),例如如圖10所示的那樣,按照住所的層次結(jié)構(gòu),分割為等級(jí)1都道府縣、等級(jí)2市區(qū)郡、等級(jí)3町村、…,各存儲(chǔ)屬于各層的單詞。
另一方面,如圖11所示,對(duì)于由“字符1”和“字符2”這樣的2個(gè)特定字符構(gòu)成的特定字符組對(duì)應(yīng)的各記錄數(shù)據(jù),由用于表示已存儲(chǔ)了被構(gòu)成該特定字符組的2個(gè)特定字符夾在中間的單詞組的知識(shí)詞典111上的記錄數(shù)據(jù)的集合的指針信息,和從該指針開(kāi)始的數(shù)據(jù)數(shù)信息構(gòu)成的數(shù)據(jù)組存儲(chǔ)到特定字符詞典110中。作為該數(shù)據(jù)組,如圖11所示,可以指定多個(gè)組,對(duì)于特定字符詞典110的各特定字符組的記錄數(shù)據(jù),如圖11所示的那樣,也存儲(chǔ)了與上述指針信息和數(shù)據(jù)數(shù)信息的數(shù)據(jù)組的數(shù)對(duì)應(yīng)的指針數(shù)信息N。
在圖12的例中,記錄由特定字符詞典110內(nèi)的空白字符和“縣”這樣的2個(gè)特定字符構(gòu)成的特定字符組對(duì)應(yīng)的記錄數(shù)據(jù),已登錄了分別表示從圖10所示的知識(shí)詞典111內(nèi)的等級(jí)1區(qū)域內(nèi)的單詞“青森”開(kāi)始的n1個(gè)記錄數(shù)據(jù),和從相同的等級(jí)1區(qū)域內(nèi)的單詞“神奈川”開(kāi)始的n2個(gè)記錄數(shù)據(jù)的數(shù)據(jù)組(指針信息和數(shù)據(jù)數(shù)信息)和指針數(shù)N=2。
另外,在圖13的例中,對(duì)于由特定字符詞典11 內(nèi)的“都”和“區(qū)”這樣的2個(gè)特定字符構(gòu)成的特定字符組對(duì)應(yīng)的記錄數(shù)據(jù),已登錄了從圖10所示的知識(shí)詞典111內(nèi)的等級(jí)2區(qū)域內(nèi)的單詞“千代田”開(kāi)始的n3個(gè)記錄數(shù)據(jù)和指針數(shù)N=1。
另外,住所通常以“…丁目…番地…方”這樣的書(shū)寫(xiě)方式而結(jié)束,但是,夾在這種特定字符“丁目”“番地”“番”“方”“號(hào)”之間的區(qū)域中,多數(shù)情況不是單詞而是書(shū)寫(xiě)數(shù)字。這時(shí),如圖14所示,對(duì)于與特定字符詞典110內(nèi)的由上述特定字符構(gòu)成的特定字符組對(duì)應(yīng)的記錄數(shù)據(jù),不是設(shè)定上述那樣的由指針信息和數(shù)據(jù)數(shù)信息構(gòu)成的數(shù)據(jù)組,而是設(shè)定“(數(shù)字)*n”這樣的符號(hào)。候補(bǔ)單詞檢索部109從特定字符詞典1100中檢索到已設(shè)定上述那樣的符號(hào)的記錄數(shù)據(jù)時(shí),檢測(cè)在夾在上述那樣的特定字符中間的區(qū)域連續(xù)地書(shū)寫(xiě)數(shù)字的情況,并將表示該信息的檢測(cè)結(jié)果寫(xiě)入到候補(bǔ)單詞緩沖器112中。
此外,也可以采用例如圖15所示的那樣的特定字符詞典110和知識(shí)詞典11的結(jié)構(gòu)。
即,在圖15的例中,對(duì)于特定字符詞典110內(nèi)的與由空白字符和“川”這樣的2個(gè)特定字符構(gòu)成的特定字符組對(duì)應(yīng)的記錄數(shù)據(jù),設(shè)定指示知識(shí)詞典111內(nèi)的4個(gè)字符的單詞“神奈川縣”的指針信息和數(shù)據(jù)數(shù)=1以及指示知識(shí)詞典111內(nèi)的2個(gè)字符的單詞“神奈”的指針信息和數(shù)據(jù)數(shù)=1。
另外,對(duì)于特定字符詞典110內(nèi)的與由“川”和“中”這樣的2個(gè)特定字符構(gòu)成的特定字符組對(duì)應(yīng)的記錄數(shù)據(jù),設(shè)定指示知識(shí)詞典111內(nèi)的2個(gè)字符的單詞“崎山”的指針信息和數(shù)據(jù)數(shù)=1。
此外,對(duì)于特定字符詞典110內(nèi)的與由“中”和“中”這樣的2個(gè)特定字符構(gòu)成的特定字符組對(duì)應(yīng)的記錄數(shù)據(jù),設(shè)定指示知識(shí)詞典111內(nèi)的5個(gè)字符的單詞“原區(qū)上小田”的指針信息和數(shù)據(jù)數(shù)=1。
這樣,便可將與在住所字符串中以高的頻度出現(xiàn)的特定字符和單詞對(duì)應(yīng)的信息存儲(chǔ)到特定字符詞典110和知識(shí)詞典111中。
其次,如圖16所示,對(duì)于特定字符詞典110內(nèi)的與由表示“區(qū)”和住所的結(jié)尾的特定字符的2個(gè)特定字符構(gòu)成的特定字符組對(duì)應(yīng)的記錄數(shù)據(jù),在已鏈接了知識(shí)詞典111內(nèi)的單詞“丸の內(nèi)”時(shí),作為表示的變化波動(dòng),有可能不是書(shū)寫(xiě)為“丸の內(nèi)”而是書(shū)寫(xiě)為“丸丿內(nèi)”這樣的字符串。這時(shí),在知識(shí)詞典11中存儲(chǔ)與所有的表示上的變化波動(dòng)對(duì)應(yīng)的單詞,就是一種浪費(fèi)。
因此,在本實(shí)施例中,在從特定字符詞典110中檢索鏈接的知識(shí)詞典111內(nèi)的單詞時(shí),就進(jìn)行用于處置由圖9的動(dòng)作流程圖所示的表示上的變化波動(dòng)的控制動(dòng)作。
首先,候補(bǔ)單詞檢索部109對(duì)1組的特定字符組按照迄今說(shuō)明的規(guī)則檢索特定字符詞典110和知識(shí)詞典111,并將該檢索結(jié)果的單詞組作為與現(xiàn)在處理中的特定字符組對(duì)應(yīng)的候補(bǔ)單詞組寫(xiě)入候補(bǔ)單詞緩沖器112中(圖9的S901)。該S901是圖3的S206的一部分。
其次,作為圖3的S206的一部分,候補(bǔ)單詞檢索部109對(duì)于1組的特定字符組分別對(duì)候補(bǔ)單詞緩沖器112得到的候補(bǔ)單詞組反復(fù)進(jìn)行圖9的S902~910所示的一系列的處理。
即,在構(gòu)成所檢測(cè)的單詞的字符中存在平假名時(shí),候補(bǔ)單詞檢索部109就將該平假名變更為片假名,并將該變更結(jié)果而得到的單詞作為與現(xiàn)在處理中的特定字符組對(duì)應(yīng)的其他候補(bǔ)單詞寫(xiě)入到候補(bǔ)單詞緩沖器112中(圖9的S902→903)。
其次,在構(gòu)成所檢測(cè)的單詞的字符中存在平假名時(shí),候補(bǔ)單詞檢索部109就將該片假名變更為平假名,并將該變更結(jié)果而得到的單詞作為與現(xiàn)在處理中的特定字符組對(duì)應(yīng)的其他候補(bǔ)單詞寫(xiě)入到候補(bǔ)單詞緩沖器112中(圖9的S904→905)。
然后,在構(gòu)成所檢測(cè)的單詞的字符中存在漢字?jǐn)?shù)字時(shí),候補(bǔ)單詞檢索部109就將該漢字?jǐn)?shù)字變更為阿拉伯?dāng)?shù)字,并將該變更結(jié)果而得到的單詞作為與現(xiàn)在處理中的特定字符組對(duì)應(yīng)的其他候補(bǔ)單詞寫(xiě)入到候補(bǔ)單詞緩沖器112中(圖9的S906→907)。
其次,在構(gòu)成所檢測(cè)的單詞的字符中存在阿拉伯?dāng)?shù)字時(shí),候補(bǔ)單詞檢索部109就將該阿拉伯?dāng)?shù)字變更為漢字?jǐn)?shù)字,并將該變更結(jié)果而得到的單詞作為與現(xiàn)在處理中的特定字符組對(duì)應(yīng)的其他候補(bǔ)單詞寫(xiě)入到候補(bǔ)單詞緩沖器112中(圖9的S908→909)。
最后,在構(gòu)成所檢測(cè)的單詞的字符中存在可以省略的字符(例如,“丿口”省略為“口”時(shí)的“丿”)時(shí),候補(bǔ)單詞檢索部109就將省略掉該可以省略的字符后得到的字符串作為與現(xiàn)在處理中的特定字符組對(duì)應(yīng)的其他候補(bǔ)單詞寫(xiě)入到候補(bǔ)單詞緩沖器112中(圖9的S908→909)。
對(duì)于1組特定字符組,在候補(bǔ)單詞緩沖器112中還有不對(duì)表示上的變化波動(dòng)進(jìn)行控制處理的候補(bǔ)單詞組時(shí),候補(bǔ)單詞檢索部109就反復(fù)進(jìn)行上述圖9的S902~910所示的一系列的處理(反復(fù)進(jìn)行圖9的S111→902~910→911)。
如上所述,對(duì)于1組特定字符組,對(duì)候補(bǔ)單詞緩沖器112得到的候補(bǔ)單詞組可以實(shí)現(xiàn)對(duì)表示上的變化波動(dòng)的控制。
通過(guò)上述處理,對(duì)于從候補(bǔ)字符串緩沖器108中選擇的1組特定字符組,候補(bǔ)單詞緩沖器112可以得到候補(bǔ)單詞組。
現(xiàn)在,例如書(shū)寫(xiě)了圖17所示的輸入字符串101時(shí),通過(guò)上述圖2的S201~205的特定字符的識(shí)別處理,就將區(qū)域1701識(shí)別為特定字符“都”、將區(qū)域1702識(shí)別為特定字符“區(qū)”。
對(duì)于該識(shí)別結(jié)果,在上述圖3的S206,候補(bǔ)單詞檢索部109在特定字符詞典110中檢測(cè)由空白字符和特定字符“都”構(gòu)成的特定字符組的記錄數(shù)據(jù),從與該登錄記錄數(shù)據(jù)鏈接的知識(shí)詞典111中的登記項(xiàng)目中檢索由構(gòu)成該特定字符組的2個(gè)特定字符夾在中間的1個(gè)單詞“東京”,并將該檢索的單詞作為與由空白字符和特定字符“都”構(gòu)成的特定字符組對(duì)應(yīng)的候補(bǔ)單詞組保持到候補(bǔ)單詞緩沖器112中。這時(shí),對(duì)于上述特定字符組的候補(bǔ)單詞組的數(shù)是1個(gè),如圖18所示,候補(bǔ)單詞“東京”的字符數(shù)為2個(gè)字符。
另外,在后面所述的圖3的S211的判斷之后第2次進(jìn)行的圖3的S206,候補(bǔ)單詞檢索部109在特定字符詞典110中檢測(cè)由特定字符“都”和“區(qū)”構(gòu)成的特定字符組的記錄數(shù)據(jù),從與該登錄記錄數(shù)據(jù)鏈接的圖10所示的知識(shí)詞典111中的登記項(xiàng)目中檢索由構(gòu)成該特定字符組的2個(gè)特定字符夾在中間的23個(gè)單詞“千代田”“中央”“港”…,并將這些檢索的單詞組作為與上述特定字符組對(duì)應(yīng)的候補(bǔ)單詞組保持到候補(bǔ)單詞緩沖器112中。這時(shí),對(duì)上述特定字符組的候補(bǔ)單詞組的數(shù)為23個(gè),如圖19所示,各候補(bǔ)單詞的字符數(shù)為3個(gè)字符、2個(gè)字符或1個(gè)字符中的某一種。
這樣,對(duì)于從候補(bǔ)字符串緩沖器108中選擇的1組的特定字符組,候補(bǔ)單詞緩沖器112得到候補(bǔ)單詞組后,通過(guò)字符分離部103、特征抽出部105和匹配部106對(duì)屬于該候補(bǔ)單詞組的各候補(bǔ)單詞進(jìn)行圖3的S207~211的一系列的再次識(shí)別處理,對(duì)各候補(bǔ)單詞抽出指定順序位之前的候補(bǔ)識(shí)別結(jié)果群。
首先,字符分離部103在從圖像存儲(chǔ)器102中讀出的輸入字符串101中使用從候補(bǔ)單詞緩沖器112中輸出的候補(bǔ)單詞的信息,再次分離被構(gòu)成該候補(bǔ)單詞所屬的特定字符組的2個(gè)特定字符夾在中間的字符串區(qū)域內(nèi)的字符串(圖3的S207)。
這時(shí),候補(bǔ)單詞的字符數(shù)是例如圖18所示的“東京”或圖19所示的“中央”那樣的2個(gè)字符時(shí),字符分離部103按照上述圖6的S601~604和圖7的S701所示的動(dòng)作流程圖將作為字符分離的對(duì)象的區(qū)域分割為2部分(上述數(shù)式3中n=2),決定各字符的分離位置。
另外,候補(bǔ)單詞的字符數(shù)是例如圖19所示的“千代田”那樣3個(gè)字符時(shí),字符分離部103將作為字符分離對(duì)象的區(qū)域分割為3部分(上述數(shù)式3中n=3),決定各字符的分離位置。
此外,候補(bǔ)單詞的字符數(shù)是例如圖19所示的“港”那樣的1個(gè)字符時(shí),字符分離部103就假定在作為字符分離的對(duì)象的區(qū)域只存在1個(gè)字符(上述數(shù)式3中的n=1)。
其次,特征抽出部105對(duì)再次分離出的字符串如上述那樣逐個(gè)字符抽出特征矢量(圖3的S208)。
此外,匹配部106對(duì)上述各字符進(jìn)行該字符的特征矢量與作為第2詞典的標(biāo)準(zhǔn)模式詞典113內(nèi)的各標(biāo)準(zhǔn)模式的特征矢量之間的匹配處理(圖3的S209),將按照匹配度高的順序指定順序位之前的各標(biāo)準(zhǔn)模式所屬的各字種類別作為對(duì)上述字符的保護(hù)字符組向候補(bǔ)字符串緩沖器108輸出(圖3的S210)。
更具體地說(shuō),匹配部106計(jì)算在上述字符的特征矢量和標(biāo)準(zhǔn)模式詞典113內(nèi)的各標(biāo)準(zhǔn)模式的特征矢量之間的例如距離(歐幾里得距離、馬哈賴諾畢斯距離等)。并且,匹配部106按距離小的順序?qū)⒅付樞蛭?n位)之前的各標(biāo)準(zhǔn)模式所屬的各字種類別作為對(duì)上述字符的候補(bǔ)字符組向候補(bǔ)字符串緩沖器108輸出。
對(duì)于構(gòu)成由字符分離部103再次分離出的字符串的各字符,如上所述,在候補(bǔ)字符串緩沖器108按距離小的順序得到指定順序位之前的候補(bǔ)字符組后,對(duì)于1個(gè)特定字符組,對(duì)屬于候補(bǔ)單詞緩沖器112得到的候補(bǔ)單詞組的其他候補(bǔ)單詞反復(fù)進(jìn)行S207~210的一系列的處理。
對(duì)于1個(gè)特定字符組,候補(bǔ)字符串緩沖器108對(duì)屬于候補(bǔ)單詞緩沖器112得到的候補(bǔ)單詞組的所有的候補(bǔ)單詞按構(gòu)成它們的各字符得到指定順序位之前的候補(bǔ)字符組時(shí),匹配部106就對(duì)各候補(bǔ)單詞將全部構(gòu)成它們的各字符的指定順序位之前的候補(bǔ)字符組組合,生成候補(bǔ)字符串組,對(duì)它們所包含的各候補(bǔ)字符串利用下式計(jì)算其平均距離(圖3的S212)。
數(shù)式6(D1+D2+…+Dm)/m其中,m是對(duì)象候補(bǔ)單詞的字符數(shù),Di(1≤i≤m)表示在對(duì)象候補(bǔ)單詞內(nèi)的第i個(gè)字符中為了構(gòu)成對(duì)象候補(bǔ)字符串而選擇的候補(bǔ)字符的距離。
并且,匹配部106從與1個(gè)特定字符組的所有的候補(bǔ)單詞對(duì)應(yīng)地生成的候補(bǔ)字符串組中按照與構(gòu)成它們的各候補(bǔ)字符串對(duì)應(yīng)的平均距離小的順序選擇指定個(gè)數(shù)(P個(gè))的候補(bǔ)字符串,并將它們作為由構(gòu)成上述特定字符組的2個(gè)特定字符夾在中間的字符區(qū)域的識(shí)別結(jié)果向知識(shí)處理部114輸出。
這樣,在得到由構(gòu)成1個(gè)特定字符組的2個(gè)特定字符夾在中間的字符區(qū)域的識(shí)別結(jié)果時(shí),就再次從圖3的S213返回到S206的處理。
并且,通過(guò)上述圖2的S201~205的特定字符的識(shí)別處理,從候補(bǔ)字符串緩沖器108得到的候補(bǔ)特定字符組的集合中再次抽出由相鄰的其他任意的2個(gè)特定字符構(gòu)成的其他的特定字符組,通過(guò)對(duì)該特定字符組再次進(jìn)行圖3的S206~212的一系列的控制處理,對(duì)各特定字符組反復(fù)進(jìn)行計(jì)算由構(gòu)成該特定字符組的2個(gè)特定字符夾在中間的字符區(qū)域的識(shí)別結(jié)果這樣的動(dòng)作(圖3的S213→206~212→213的反復(fù))。
知識(shí)處理部114對(duì)與由構(gòu)成各特定字符組的2個(gè)特定字符夾在中間的各字符區(qū)域?qū)?yīng)的識(shí)別結(jié)果通過(guò)使用書(shū)寫(xiě)范圍定義104和知識(shí)詞典111的知識(shí)處理,決定由上述各字符區(qū)域構(gòu)成的全體字符區(qū)域的最終識(shí)別結(jié)果,并將其向識(shí)別結(jié)果緩沖器115輸出(圖4的S214)。
通過(guò)對(duì)帳薄的各書(shū)寫(xiě)范圍位置反復(fù)進(jìn)行以上說(shuō)明的圖2的S201~圖4的S214的一系列控制處理,決定對(duì)各書(shū)寫(xiě)范圍的最終識(shí)別結(jié)果(圖4的S215→圖2的S201的反復(fù))。
在上述一系列的識(shí)別處理中,對(duì)直至最后未滿足識(shí)別條件的字符或字符串的部分附加上拒識(shí)(不能識(shí)別)信息。
這時(shí),識(shí)別結(jié)果緩沖器115得到的識(shí)別結(jié)果通過(guò)接口部116在顯示部117上顯示。用戶對(duì)顯示部117上的識(shí)別結(jié)果的顯示可以通過(guò)由鼠標(biāo)和鍵盤(pán)等構(gòu)成的輸入部118對(duì)不能識(shí)別字符/字符串進(jìn)行修正。
用戶通過(guò)輸入部118只指定不能識(shí)別字符/字符串中的特定的正確字符,關(guān)于該正確字符的信息就從接口部116向正確字符緩沖器119和區(qū)域坐標(biāo)緩沖器120輸出。
在圖21的例中,在顯示部117上與識(shí)別結(jié)果2102并列地顯示對(duì)象字符串的圖像2101。用戶通過(guò)作為輸入部118的鼠標(biāo)等指示了圖像2101上的特定區(qū)域2103時(shí),與其對(duì)應(yīng)的識(shí)別結(jié)果字符2104就進(jìn)行強(qiáng)調(diào)或反轉(zhuǎn)顯示等。對(duì)于該顯示,用戶通過(guò)作為輸入部118的鍵盤(pán)等輸入正確字符“都”時(shí),關(guān)于該正確字符“都”的信息就從接口部116向正確字符緩沖器119和區(qū)域坐標(biāo)緩沖器120輸出。當(dāng)然,用戶指示了圖像2101上的例如與“東京”對(duì)應(yīng)的區(qū)域并將與其對(duì)應(yīng)的識(shí)別結(jié)果“束長(zhǎng)”修正為“東京”時(shí),關(guān)于該正確字符“東京”的信息就從接口部116向正確字符緩沖器119和區(qū)域坐標(biāo)緩沖器120輸出。
候補(bǔ)單詞檢索部109將關(guān)于正確字符緩沖器119得到的正確字符的信息作為特定字符的信息,通過(guò)進(jìn)行使用上述特定字符詞典110和知識(shí)詞典111的候補(bǔ)單詞的檢索處理,便可正確地再次識(shí)別不能識(shí)別的字符。另外,字符分離部103通過(guò)從區(qū)域坐標(biāo)緩沖器120中取得由用戶指定的正確字符的分離位置,便可進(jìn)行正確的字符的分離。
另外,在圖22的例中,在顯示部117上與識(shí)別結(jié)果2202并列地顯示對(duì)象字符串的圖像。用戶通過(guò)作為輸入部118的鼠標(biāo)等指示了該圖像上的特定區(qū)域2201時(shí),與其對(duì)應(yīng)的識(shí)別結(jié)果字符2203進(jìn)行強(qiáng)調(diào)或反轉(zhuǎn)顯示等,同時(shí)在指示部分顯示識(shí)別結(jié)果候補(bǔ)2204。對(duì)于該顯示,用戶通過(guò)作為輸入部118的鍵盤(pán)等選擇正確字符“都”時(shí),關(guān)于該正確字符“都”的信息就從接口部116向正確字符緩沖器119和區(qū)域坐標(biāo)緩沖器120輸出。這時(shí),在指示部分顯示的識(shí)別結(jié)果候補(bǔ)2204按所顯示的字符的出現(xiàn)頻度順序或者在如住所字符串那樣具有層次結(jié)構(gòu)時(shí)按由該層次結(jié)構(gòu)決定的順序或單純地按字符代碼順序進(jìn)行顯示。
在圖22的例之后,如圖23所示,對(duì)于指示位置和與其對(duì)應(yīng)的識(shí)別結(jié)果位置2302,也可以通過(guò)進(jìn)行同樣的修正處理正確地再次識(shí)別字符串2303。
關(guān)于對(duì)由構(gòu)成各特定字符組的2個(gè)特定字符夾在中間的各字符區(qū)域的再次識(shí)別處理,在上述圖3的S207~212對(duì)怪1個(gè)候補(bǔ)單詞的各字符個(gè)別地再次進(jìn)行識(shí)別處理,最后輸出對(duì)該候補(bǔ)單詞的識(shí)別結(jié)果。
這時(shí),匹配部106通過(guò)將從標(biāo)準(zhǔn)模式詞典113上檢索的字符種類限定為候補(bǔ)單詞所屬的類別的字符種類,實(shí)現(xiàn)高效率的再次識(shí)別處理。
另一方面,對(duì)由2個(gè)特定字符夾在中間的整個(gè)字符區(qū)域,也可以進(jìn)行特征矢量的抽出和匹配部106的匹配處理。這時(shí),在標(biāo)準(zhǔn)模式詞典113中保持將“川崎”“橫濱”“橫須賀”…各個(gè)單詞作為1個(gè)模式的標(biāo)準(zhǔn)模式的特征矢量,匹配部106進(jìn)行將1個(gè)候補(bǔ)單詞的全體作為1個(gè)模式的特征矢量與標(biāo)準(zhǔn)模式詞典113內(nèi)的各標(biāo)準(zhǔn)模式的特征矢量的匹配處理。
這時(shí),匹配部106通過(guò)將從標(biāo)準(zhǔn)模式詞典113上檢索的單詞組限定為候補(bǔ)單詞所屬的類別的單詞組,實(shí)現(xiàn)高效率的再次識(shí)別處理。
更具體地說(shuō),就是在例如住所字符串的識(shí)別中,匹配部106通過(guò)將從標(biāo)準(zhǔn)模式詞典113上檢索的單詞組限定為構(gòu)成候補(bǔ)單詞所屬的層次等級(jí)的單詞組,實(shí)現(xiàn)高效率的再次識(shí)別處理。
例如,如圖20所示,在由2個(gè)特定字符“縣”和“市”夾在中間的區(qū)域的再次識(shí)別處理中,可以將標(biāo)準(zhǔn)模式詞典113限定為只表示“川崎”“橫濱”“橫須賀”…等市的單詞組。
另外,在例如住所字符串的識(shí)別中,得到高位等級(jí)的識(shí)別結(jié)果時(shí),匹配部106通過(guò)將從標(biāo)準(zhǔn)模式詞典113上檢索的單詞組限定為構(gòu)成屬于該高位等級(jí)的識(shí)別結(jié)果并且構(gòu)成候補(bǔ)單詞所屬的低位等級(jí)的單詞組,實(shí)現(xiàn)更高效率的再次識(shí)別處理。
例如,住所字符串的等級(jí)1的識(shí)別結(jié)果為“青森”時(shí),等級(jí)2的標(biāo)準(zhǔn)模式就可以不是可由2個(gè)特定字符“縣”“市”夾在中間而出現(xiàn)的所有的單詞組,而限定為表示屬于“青森縣”的市的單詞組。
與上述相反,在例如住所字符串的識(shí)別中,在得到低位等級(jí)的識(shí)別結(jié)果時(shí),匹配部106通過(guò)將從標(biāo)準(zhǔn)模式詞典113上檢索的單詞組限定為構(gòu)成該低位等級(jí)的識(shí)別結(jié)果并且是候補(bǔ)單詞所屬的高位等級(jí)的單詞組,也可以補(bǔ)救高位的不能識(shí)別狀態(tài)。
對(duì)于記錄實(shí)現(xiàn)本實(shí)施例的程序的記錄媒體的補(bǔ)充本發(fā)明由計(jì)算機(jī)使用時(shí),也可以構(gòu)成為用于使計(jì)算機(jī)具有和由本發(fā)明的實(shí)施例的各結(jié)構(gòu)所實(shí)現(xiàn)的功能相同的功能的計(jì)算機(jī)可以讀出的記錄媒體。
這時(shí),如圖24所示,例如軟盤(pán)、CD-ROM盤(pán)、光盤(pán)、可移動(dòng)硬盤(pán)等便攜式記錄媒體2402通過(guò)網(wǎng)絡(luò)線路2403實(shí)現(xiàn)本發(fā)明的實(shí)施例的各種功能的程序裝載到計(jì)算機(jī)2401的本體2404內(nèi)的存儲(chǔ)器(RAM或硬盤(pán)等)2405中而運(yùn)行。
按照本發(fā)明的字符識(shí)別技術(shù)首先優(yōu)先地識(shí)別輸入字符串中的特定字符或特定字符串,根據(jù)該識(shí)別結(jié)果假定其前后的候補(bǔ)單詞,進(jìn)而通過(guò)使用該候補(bǔ)單詞的信息再次識(shí)別構(gòu)成輸入字符串的字符,便可高精度地識(shí)別構(gòu)成書(shū)寫(xiě)到通常所見(jiàn)到各種帳薄(發(fā)票)上的那種以不規(guī)則的間隔、書(shū)寫(xiě)方法書(shū)寫(xiě)的輸入字符串的字符。
按照本發(fā)明的字符修正技術(shù),只修正特定的字符或字符串便可自動(dòng)地修正其他不能識(shí)別的部分。
按照本發(fā)明的對(duì)表示上的變化波動(dòng)進(jìn)行控制的技術(shù),可以靈活地對(duì)待各種書(shū)寫(xiě)方法。
權(quán)利要求
1.一種字符識(shí)別方法,用于識(shí)別構(gòu)成書(shū)寫(xiě)到具有指定類別的書(shū)寫(xiě)范圍內(nèi)的輸入字符串的字符,其特征在于通過(guò)在上述輸入字符串與第1識(shí)別詞典之間進(jìn)行第1匹配處理,從上述輸入字符串中抽出特定字符或特定字符串;從不同類別的單詞詞典中抽出屬于上述指定類別的并且有可能位于從上述輸入字符串中抽出的各特定字符或特定字符串的前后的上述輸入字符串中的區(qū)域的候補(bǔ)單詞組;對(duì)于屬于該抽出的候補(bǔ)單詞組的各候補(bǔ)單詞組,根據(jù)與該各候補(bǔ)單詞有關(guān)的信息,對(duì)該各候補(bǔ)單詞所在的上述輸入字符串中的各區(qū)域,通過(guò)使用第2識(shí)別詞典進(jìn)行第2匹配處理,識(shí)別構(gòu)成上述輸入字符串的字符。
2.按權(quán)利要求1所述的字符識(shí)別方法,其特征在于將與上述特定字符或特定字符串對(duì)應(yīng)的標(biāo)準(zhǔn)模式存儲(chǔ)到上述第1識(shí)別詞典中;通過(guò)在上述輸入字符串的模式和上述第1識(shí)別詞典內(nèi)的各標(biāo)準(zhǔn)模式之間進(jìn)行上述第1匹配處理,從上述輸入字符串中抽出上述特定字符或特定字符串。
3.按權(quán)利要求1或2的任一權(quán)項(xiàng)所述的字符識(shí)別方法,其特征在于將與和屬于上述候補(bǔ)單詞組的候補(bǔ)單詞關(guān)聯(lián)的字符或字符串對(duì)應(yīng)的標(biāo)準(zhǔn)模式存儲(chǔ)到上述第2識(shí)別詞典中;對(duì)于屬于上述候補(bǔ)單詞組的各候補(bǔ)單詞,根據(jù)與該各候補(bǔ)單詞有關(guān)的信息,對(duì)該各候補(bǔ)單詞所在的上述輸入字符串中的各區(qū)域,通過(guò)在該各候補(bǔ)單詞的模式和上述第2識(shí)別詞典內(nèi)的各標(biāo)準(zhǔn)模式之間進(jìn)行上述第2匹配處理,識(shí)別構(gòu)成上述輸入字符串的字符。
4.按權(quán)利要求1至3的任一權(quán)項(xiàng)所述的字符識(shí)別方法,其特征在于具有如下過(guò)程,即作為關(guān)于上述各候補(bǔ)單詞的信息,使用該各候補(bǔ)單詞的字符數(shù)的信息。
5.按權(quán)利要求1至4的任一權(quán)項(xiàng)所述的字符識(shí)別方法,其特征在于作為上述第1識(shí)別詞典,使用包含該第1識(shí)別詞典的上述第2識(shí)別詞典。
6.按權(quán)利要求1至5的任一權(quán)項(xiàng)所述的字符識(shí)別方法,其特征在于通過(guò)在上述輸入字符串和上述第1識(shí)別詞典之間進(jìn)行第1匹配處理,從上述輸入字符串中抽出在上述指定類別中出現(xiàn)的頻度高的特定字符或特定字符串。
7.按權(quán)利要求1至5的任一權(quán)項(xiàng)所述的字符識(shí)別方法,其特征在于通過(guò)在上述輸入字符串和上述第1識(shí)別詞典之間進(jìn)行第1匹配處理,從上述輸入字符串中抽出識(shí)別精度高的特定字符或特定字符串。
8.一種使用權(quán)利要求1至7的任一權(quán)項(xiàng)所述的字符識(shí)別方法的字符修正方法,其特征在于與上述輸入字符串并列地顯示構(gòu)成上述輸入字符串的字符的識(shí)別結(jié)果;指定該顯示的輸入字符串上的所希望的區(qū)域,修正與該所希望的區(qū)域?qū)?yīng)的字符或字符串;根據(jù)與通過(guò)該修正而得到的正確字符或正確字符串有關(guān)的信息,通過(guò)再次進(jìn)行上述候補(bǔ)單詞組的抽出處理和上述第2匹配處理,再次識(shí)別構(gòu)成上述輸入字符串的字符。
9.按權(quán)利要求8所述的字符修正方法,其特征在于具有如下過(guò)程,即應(yīng)答上述顯示的輸入字符串上的所希望的區(qū)域的指定,顯示該所希望的區(qū)域中的多個(gè)候補(bǔ)識(shí)別結(jié)果。
10.按權(quán)利要求1至9的字符識(shí)別方法或字符修正方法,其特征在于對(duì)于上述各候補(bǔ)單詞具有變化波動(dòng)的單詞作為屬于上述候補(bǔ)單詞組的新的候補(bǔ)單詞而輸出。
11.一種字符識(shí)別裝置,用于識(shí)別構(gòu)成書(shū)寫(xiě)到具有指定類別的書(shū)寫(xiě)范圍中的輸入字符串的字符,其特征在于具有通過(guò)在上述輸入字符串與第1識(shí)別詞典之間進(jìn)行第1匹配處理,從上述輸入字符串中抽出特定字符或特定字符串的特定字符/特定字符串抽出單元;從不同類別的單詞詞典中抽出屬于上述指定類別的,并且有可能位于從上述輸入字符串中抽出的,各特定字符或特定字符串的前后的上述輸入字符串中的區(qū)域的候補(bǔ)單詞組的候補(bǔ)單詞組抽出單元;和對(duì)于屬于該抽出的候補(bǔ)單詞組的各候補(bǔ)單詞組,根據(jù)與該各候補(bǔ)單詞有關(guān)的信息,對(duì)該各候補(bǔ)單詞所在的上述輸入字符串中的各區(qū)域,通過(guò)使用第2識(shí)別詞典進(jìn)行第2匹配處理,識(shí)別構(gòu)成上述輸入字符串的字符的輸入字符串識(shí)別單元。
12.一種在計(jì)算機(jī)使用時(shí)記錄由其讀出的程序的計(jì)算機(jī)可以讀出的記錄媒體,其特征在于記錄用于使計(jì)算機(jī)具有以下功能的程序,即通過(guò)在書(shū)寫(xiě)到具有指定類別的書(shū)寫(xiě)范圍內(nèi)的輸入字符串和第1識(shí)別詞典之間進(jìn)行第1匹配處理,從上述輸入字符串中抽出特定字符或特定字符串的功能;從不同類別的單詞詞典中抽出屬于上述指定類別的,并且有可能位于從上述輸入字符串中抽出的各特定字符或特定字符串的前后的,上述輸入字符串中的區(qū)域的候補(bǔ)單詞組的功能;和對(duì)于屬于該抽出的候補(bǔ)單詞組的各候補(bǔ)單詞組,根據(jù)與該各候補(bǔ)單詞有關(guān)的信息,對(duì)該各候補(bǔ)單詞所在的上述輸入字符串中的各區(qū)域,通過(guò)使用第2識(shí)別詞典進(jìn)行第2匹配處理,識(shí)別構(gòu)成上述輸入字符串的字符的功能。
全文摘要
本發(fā)明用于高精度地識(shí)別書(shū)寫(xiě)到各種發(fā)票上不規(guī)則的低品質(zhì)的字符串。通過(guò)在輸入字符串和特定字符標(biāo)準(zhǔn)模式詞典之間進(jìn)行第1匹配處理,從輸入字符串中抽出特定字符或特定字符串。其次,從特定字符詞典和與其鏈接的知識(shí)詞典中抽出屬于指定類別的,并且有可能位于從輸入字符串中抽出的各特定字符或特定字符串的前后的區(qū)域的候補(bǔ)單詞組。并且,對(duì)于屬于候補(bǔ)單詞組的各候補(bǔ)單詞,通過(guò)使用標(biāo)準(zhǔn)模式詞典進(jìn)行第2匹配處理,識(shí)別構(gòu)成輸入字符串的字符。
文檔編號(hào)G06K9/03GK1215201SQ98107408
公開(kāi)日1999年4月28日 申請(qǐng)日期1998年4月23日 優(yōu)先權(quán)日1997年10月16日
發(fā)明者伊崎保直 申請(qǐng)人:富士通株式會(huì)社