欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

全文檢索設(shè)備及全文檢索方法

文檔序號(hào):6441127閱讀:155來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):全文檢索設(shè)備及全文檢索方法
技術(shù)領(lǐng)域
本發(fā)明涉及例如根據(jù)識(shí)別文書(shū)或附圖上記載的字符圖像作成的文書(shū)·附圖數(shù)據(jù),用任意的關(guān)鍵字進(jìn)行全文檢索的全文檢索設(shè)備及全文檢索方法。
在蓄積了計(jì)算機(jī)能讀取的電子化文本并用關(guān)鍵字進(jìn)行電子化文本的檢索處理的方法中,有以下兩種方法(1)對(duì)文本的內(nèi)容和關(guān)鍵字一個(gè)字符一個(gè)字符地直接對(duì)照的方法、(2)預(yù)先抽出文本內(nèi)出現(xiàn)的字符及其位置信息,作成索引,檢索時(shí)用索引檢驗(yàn)關(guān)鍵字和文本內(nèi)的字符的位置關(guān)系的方法。
在上述(2)中根據(jù)作成索引的字符串的單位,能大致分為以下兩種索引連續(xù)的N(N為整數(shù))個(gè)字符單位的索引;以及由包括單詞、形態(tài)要素等文法要素的單位構(gòu)成的索引。還有根據(jù)位置信息的記述內(nèi)容來(lái)記述文本編號(hào)等的方法;以及除了文本編號(hào)以外記述文本內(nèi)字符的出現(xiàn)位置的方法。
在上述(1)中,為了快速地進(jìn)行文本和關(guān)鍵字的對(duì)照,需要在存儲(chǔ)器中將文本展開(kāi),但如果保存的文本數(shù)增多,則在存儲(chǔ)器中將文本展開(kāi)的時(shí)間變長(zhǎng),所以發(fā)生不能快速檢索的問(wèn)題??墒牵捎陬A(yù)先不作成索引也可以,所以在頻繁地進(jìn)行登錄、刪除的情況下較為方便。
上述(2)中,由于預(yù)先需要作成索引,所以與上述(1)相比,在刪除時(shí)費(fèi)時(shí)間,但一般說(shuō)來(lái),檢索的處理時(shí)間比上述(1)少。因此,適合于不太頻繁地進(jìn)行登錄、刪除、處理大量文書(shū)的情況。
圖21是表示例如特開(kāi)平10-149367號(hào)公報(bào)所示的現(xiàn)有的全文檢索設(shè)備(以下稱(chēng)現(xiàn)有例1)的結(jié)構(gòu)圖,該現(xiàn)有例1適用于有關(guān)上述(2)的索引作成方法。
圖中,201是文本存儲(chǔ)裝置,202是主索引登錄裝置,203是副索引登錄裝置,204是主索引存儲(chǔ)裝置,205是副索引存儲(chǔ)裝置,206是副索引作成裝置,207是主索引檢索裝置,208是副索引檢索裝置,209是關(guān)鍵字檢索控制裝置,210是關(guān)鍵字檢索結(jié)果存儲(chǔ)裝置,211是檢索條件輸入裝置,212是邏輯條件分析裝置,213是檢索結(jié)果輸出裝置。
其次說(shuō)明工作情況。
用文本存儲(chǔ)裝置201存儲(chǔ)的文本利用主索引登錄裝置202登錄連續(xù)的N個(gè)字符的索引,利用主索引存儲(chǔ)裝置204進(jìn)行存儲(chǔ)。
檢索時(shí),利用從檢索條件輸入裝置211獲得的檢索條件,通過(guò)關(guān)鍵字檢索控制裝置209檢索主索引和副索引,獲得檢索結(jié)果。關(guān)鍵字檢索結(jié)果存儲(chǔ)裝置210根據(jù)該檢索結(jié)果,啟動(dòng)副索引作成裝置206,對(duì)檢索結(jié)果的件數(shù)(文本識(shí)別數(shù))多的文本、或檢索結(jié)果的文本內(nèi)字符位置數(shù)和文本識(shí)別數(shù)之比大的文本,進(jìn)行副索引的作成。
在現(xiàn)有例1中,除了N個(gè)字符索引的主索引以外,還保存副索引,開(kāi)始時(shí)訪問(wèn)副索引,在副索引中不存在關(guān)鍵字的情況下,訪問(wèn)主索引。
主索引保存著文書(shū)編號(hào)和字符位置編號(hào),副索引只保存文書(shū)編號(hào)。因此,與主索引相比,副索引的尺寸小,索引的檢驗(yàn)處理也少。
在副索引內(nèi)有關(guān)鍵字的N個(gè)字符索引的情況下,沒(méi)有必要訪問(wèn)主索引,檢索處理時(shí)間縮短。另外,根據(jù)檢索履歷,將檢索的頻度小的索引從副索引中刪除,能縮小索引的尺寸。
其次,為了檢索沒(méi)有對(duì)文書(shū)進(jìn)行字符編碼(沒(méi)有作成電子化文本)的文書(shū)圖像,進(jìn)行字符識(shí)別處理,從文書(shū)圖像中抽出字符部分,由此來(lái)作成并保存電子化文本。例如,在特開(kāi)平8-7033號(hào)公報(bào)中公開(kāi)了這樣的技術(shù)作為字符識(shí)別的結(jié)果,保存多個(gè)各字符圖像的識(shí)別候選字符,由此來(lái)提高包含正確解釋解釋的字符的比例。
圖22是表示特開(kāi)平8-7033號(hào)公報(bào)所示的現(xiàn)有的全文檢索設(shè)備(以下稱(chēng)現(xiàn)有例2)的結(jié)構(gòu)圖,圖中221是圖像輸入裝置,222是輸出裝置,223是字符識(shí)別裝置,224是文書(shū)檢索裝置,225是關(guān)鍵字輸入裝置,226是圖像數(shù)據(jù),227是文本信息,228是檢索用文件。
其次說(shuō)明工作情況。
在現(xiàn)有例2中,如果從圖像輸入裝置221輸入文書(shū)圖像,便用字符識(shí)別裝置223進(jìn)行字符識(shí)別,將該識(shí)別候選字符存儲(chǔ)在檢索用文件228中。
由于存儲(chǔ)多個(gè)識(shí)別候選字符,所以檢索用文件228的記述使用識(shí)別候選字符數(shù)和識(shí)別候選字符,記述成[候選字符數(shù)]、[候選字符1]、[候選字符2]、…。
例如,對(duì)于稱(chēng)為“新文書(shū)編檔”的字符圖像來(lái)說(shuō),在存儲(chǔ)多個(gè)識(shí)別候選字符的情況下,記述成[1]新[4]丈文女交[1]書(shū)[1]フ[1]ア[1]イ[1]リ[1]ン[1]グ等。
檢索時(shí),文書(shū)檢索裝置224對(duì)檢索用文件228內(nèi)的文本和關(guān)鍵字進(jìn)行對(duì)照,在識(shí)別候選字符中包含全部關(guān)鍵字和同一字符的情況下,認(rèn)定對(duì)照成功。例如,對(duì)于“新文書(shū)編檔”的文本來(lái)說(shuō),如果用關(guān)鍵字“文書(shū)”進(jìn)行檢索,則由于在[4][丈文女交][1][書(shū)]的識(shí)別候選字符內(nèi)存在“文”及“書(shū)”,所以對(duì)照成功,并作為檢索結(jié)果輸出。
另外,通過(guò)將現(xiàn)有例1和現(xiàn)有例2組合起來(lái),作成包含識(shí)別候選字符的索引,就能進(jìn)行檢索。例如,設(shè)N=2,在現(xiàn)有例2的“新文書(shū)編檔)”的例中,通過(guò)作成使用“新丈”、“新文”、“新女”、“新交”、“丈書(shū)”、“文書(shū)”、“女書(shū)”、“交書(shū)”這樣的識(shí)別候選字符的索引,就能適用于現(xiàn)有例1。
由于如上構(gòu)成現(xiàn)有的全文檢索設(shè)備,所以在根據(jù)字符識(shí)別結(jié)果作成的文本作成索引的情況下,如果作成只使用字符識(shí)別結(jié)果的第一位識(shí)別候選字符的索引,則字符識(shí)別結(jié)果包含錯(cuò)誤的概率增大,關(guān)鍵字和文本內(nèi)的字符不一致,存在不能正確解釋地檢索的情況增多的課題。
另外,如現(xiàn)有例2所示,在實(shí)際上對(duì)照使用了識(shí)別候選字符的文本的檢索中,與只保存第一位識(shí)別候選字符的情況相比,文本中包含正解字符的概率雖然較高,但數(shù)據(jù)越多,將文本文件裝入存儲(chǔ)器所需要的時(shí)間越長(zhǎng),所以存在不能謀求高速檢索的課題。
另外,在使用識(shí)別候選字符作成索引進(jìn)行檢索的情況下,如果識(shí)別候選字符內(nèi)完全不包含正解字符,則不能正確解釋地作成正解字符串的索引,存在檢索時(shí)不能正確解釋檢索的課題。
例如,稱(chēng)為“字符識(shí)別”的字符圖像的識(shí)別結(jié)果如“字符識(shí)別”所示z在將“字”錯(cuò)誤地識(shí)別為“宇”的情況下,作成的索引變?yōu)椤拔淖帧?、“宇認(rèn)”、“識(shí)別”,而不能作成本來(lái)的“字符”、“字認(rèn)”的索引,其結(jié)果不能用“字符識(shí)別”的關(guān)鍵字正確解釋地進(jìn)行檢索。
另外,例如如果對(duì)各字符每3個(gè)字符保存識(shí)別候選字符,則作成連續(xù)的兩個(gè)字符的索引時(shí)的組合變?yōu)?×3=9組,是一個(gè)字符一個(gè)字符地保存識(shí)別候選字符時(shí)的9倍。連續(xù)的3個(gè)字符的組合為3×3×3=27組,所保存的識(shí)別候選字符越多,連續(xù)的N個(gè)字符的組合越多,其結(jié)果,存在索引的容量變得非常大的問(wèn)題。
本發(fā)明就是為了解決上述課題而完成的,其目的在于獲得一種能高速且高精度地進(jìn)行全文檢索的全文檢索設(shè)備及全文檢索方法。
另外,本發(fā)明的目的還在于獲得能使索引的容量小的全文檢索設(shè)備。
本發(fā)明的全文檢索設(shè)備設(shè)有檢索裝置,它參照索引,檢索與關(guān)鍵字一致的識(shí)別候選字符的文書(shū),另一方面,對(duì)照由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合檢索條件的文書(shū)。
本發(fā)明的全文檢索設(shè)備在索引的作成對(duì)象中包含組合了兩個(gè)以上的識(shí)別候選字符的連接字符。
本發(fā)明的全文檢索設(shè)備在字符識(shí)別裝置輸出的各識(shí)別候選字符中,將準(zhǔn)確度比基準(zhǔn)準(zhǔn)確度低的識(shí)別候選字符從索引的作成對(duì)象中除去。
本發(fā)明的全文檢索設(shè)備,即使在字符識(shí)別裝置輸出的識(shí)別候選字符的準(zhǔn)確度比基準(zhǔn)準(zhǔn)確度低的情況下,在沒(méi)有其準(zhǔn)確度超過(guò)基準(zhǔn)準(zhǔn)確度的識(shí)別候選字符的與字符圖像有關(guān)的識(shí)別候選字符時(shí),索引的作成對(duì)象中包含該識(shí)別候選字符,同時(shí)對(duì)該識(shí)別候選字符附加與其他識(shí)別候選字符相區(qū)別的識(shí)別記號(hào)。
本發(fā)明的全文檢索設(shè)備將字符圖像的形狀特征存儲(chǔ)在數(shù)據(jù)庫(kù)中,同時(shí)將該字符圖像的各識(shí)別候選字符和有可能構(gòu)成單詞的字符的字符碼存儲(chǔ)在數(shù)據(jù)庫(kù)中。
本發(fā)明的全文檢索設(shè)備考慮語(yǔ)言信息或字符種類(lèi),判斷各識(shí)別候選字符和有可能構(gòu)成單詞的字符。
本發(fā)明的全文檢索設(shè)備計(jì)算由特征抽出裝置抽出的字符圖像的形狀特征與構(gòu)成關(guān)鍵字的字符的形狀特征的距離,該距離滿(mǎn)足規(guī)定的基準(zhǔn)時(shí),認(rèn)定符合檢索條件。
本發(fā)明的全文檢索設(shè)備設(shè)有設(shè)定由檢索裝置進(jìn)行的形狀特征對(duì)照處理的有無(wú)的設(shè)定裝置。
本發(fā)明的全文檢索設(shè)備將包含與關(guān)鍵字一致的識(shí)別候選字符的文書(shū)從形狀特征的對(duì)照對(duì)象中除去。
本發(fā)明的全文檢索設(shè)備只在不存在與關(guān)鍵字一致的識(shí)別候選字符的情況下,對(duì)照由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征。
本發(fā)明的全文檢索設(shè)備在確定關(guān)鍵字的形狀特征的對(duì)照對(duì)象時(shí),將附加了識(shí)別符號(hào)的識(shí)別候選字符作為通配符處理。
本發(fā)明的全文檢索設(shè)備考慮了整個(gè)文書(shū)中出現(xiàn)組合了兩個(gè)以上的識(shí)別候選字符的連接字符的出現(xiàn)概率,判斷索引的作成對(duì)象中是否包含該連接字符。
本發(fā)明的全文檢索設(shè)備,在構(gòu)成連接字符的各識(shí)別候選字符是該字符圖像的唯一的識(shí)別候選字符的情況下,對(duì)該連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù),更新出現(xiàn)概率。
本發(fā)明的全文檢索設(shè)備對(duì)與關(guān)鍵字一致的連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù),更新出現(xiàn)概率。
本發(fā)明的全文檢索設(shè)備在修正了字符識(shí)別裝置輸出的識(shí)別候選字符的情況下,對(duì)包含修正后的識(shí)別候選字符的連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù),更新出現(xiàn)概率。
本發(fā)明的全文檢索方法參照索引,檢索與關(guān)鍵字一致的識(shí)別候選字符的文書(shū),另一方面,對(duì)照字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合檢索條件的文書(shū)。


圖1是表示本發(fā)明的實(shí)施例1的全文檢索設(shè)備的結(jié)構(gòu)圖。
圖2是表示文書(shū)的登錄方法的流程圖。
圖3是表示輸入圖像的說(shuō)明圖。
圖4是表示字符識(shí)別裝置的識(shí)別結(jié)果的說(shuō)明圖。
圖5是表示識(shí)別候選字符的減少結(jié)果的說(shuō)明圖。
圖6是表示保持從字符圖像抽出的形狀特征的例的說(shuō)明圖。
圖7是表示模糊文本的某文書(shū)編號(hào)的開(kāi)始位置等的說(shuō)明圖。
圖8是表示具體的形狀特征的作成方法的說(shuō)明圖。
圖9是表示兩個(gè)字符的索引例的說(shuō)明圖。
圖10是表示存儲(chǔ)了一個(gè)字符索引的位置和識(shí)別順序的表的說(shuō)明圖。
圖11是表示文書(shū)的檢索方法的流程圖。
圖12是表示索引對(duì)照的流程圖。
圖13是表示模糊文本對(duì)照的流程圖。
圖14是表示索引對(duì)照的流程圖。
圖15是表示本發(fā)明的實(shí)施例3的全文檢索設(shè)備的結(jié)構(gòu)圖。
圖16是表示字符連鎖出現(xiàn)概率詞典的說(shuō)明圖。
圖17是表示文書(shū)的登錄方法的流程圖。
圖18是表示識(shí)別結(jié)果的修正內(nèi)容的說(shuō)明圖。
圖19是表示文書(shū)的登錄方法的流程圖。
圖20是表示文書(shū)的檢索方法的流程圖。
圖21是表示現(xiàn)有的全文檢索設(shè)備(現(xiàn)有例1)的結(jié)構(gòu)圖。
圖22是表示現(xiàn)有的全文檢索設(shè)備(現(xiàn)有例2)的結(jié)構(gòu)圖。
以下,說(shuō)明實(shí)施本發(fā)明的一種形態(tài)。
實(shí)施例1圖1是表示本發(fā)明的實(shí)施例1的全文檢索設(shè)備的結(jié)構(gòu)圖,圖中,1是輸入圖像的圖像輸入裝置,2是識(shí)別輸入圖像中包含的各字符圖像,輸出各字符圖像的一個(gè)以上的識(shí)別候選字符,同時(shí)輸出各識(shí)別候選字符的準(zhǔn)確度(類(lèi)似度)的字符識(shí)別裝置,3是作成表示字符識(shí)別裝置2輸出的各識(shí)別候選字符和字符位置的對(duì)應(yīng)關(guān)系的索引的索引作成裝置。
4是在輸入圖像中包含的各字符圖像中存在沒(méi)有其準(zhǔn)確度超過(guò)基準(zhǔn)準(zhǔn)確度的識(shí)別候選字符的字符圖像的情況下,抽出該字符圖像的形狀特征,同時(shí)考慮語(yǔ)言信息或字符種類(lèi),判斷該字符圖像的識(shí)別候選字符和有可能構(gòu)成單詞(字符串)的字符,將該字符串作為模糊文本抽出的模糊文本抽出裝置(特征抽出裝置),5是作為文書(shū)的檢索條件輸入關(guān)鍵字的檢索條件輸入裝置(輸入裝置,設(shè)定裝置),6是參照索引,檢索與該關(guān)鍵字一致的識(shí)別候選字符的文書(shū)編號(hào),另一方面對(duì)照由模糊文本抽出裝置4抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合文書(shū)的檢索條件的文書(shū)編號(hào)的檢索裝置,7是輸出檢索裝置6的檢索結(jié)果的輸出裝置。
8是字符識(shí)別裝置2進(jìn)行字符識(shí)別時(shí)使用的字符識(shí)別詞典,9是檢索裝置6進(jìn)行關(guān)鍵字檢索時(shí)使用的形狀特征詞典,10是存儲(chǔ)由模糊文本抽出裝置4抽出的模糊文本的模糊文本數(shù)據(jù)庫(kù),11是存儲(chǔ)由索引作成裝置3作成的索引的索引數(shù)據(jù)庫(kù),12是存儲(chǔ)識(shí)別候選字符等的識(shí)別字符數(shù)據(jù)庫(kù)。
其次說(shuō)明工作情況。
最初,參照?qǐng)D2說(shuō)明文書(shū)的登錄方法。首先,在步驟ST100中,圖像輸入裝置1輸入能用計(jì)算機(jī)處理的文書(shū)圖像。
作為圖像輸入裝置1的結(jié)構(gòu),可以采用掃描器或數(shù)字?jǐn)z像機(jī),也可經(jīng)由網(wǎng)絡(luò)等輸入預(yù)先作成的能用計(jì)算機(jī)處理的圖像。這里,假定從圖像輸入裝置1輸入圖3所示的文書(shū)圖像。
其次,在步驟ST110中,字符識(shí)別裝置2對(duì)從圖像輸入裝置1輸入的輸入圖像進(jìn)行字符識(shí)別處理,輸出表示字符碼及其準(zhǔn)確度的類(lèi)似度。
字符識(shí)別方法能采用眾所周知的技術(shù),所以詳細(xì)說(shuō)明從略。字符識(shí)別裝置2對(duì)于輸入圖像中包含的各字符圖像,輸出多個(gè)識(shí)別候選字符和各自的類(lèi)似度。
圖4是字符識(shí)別裝置2的識(shí)別結(jié)果的一部分,這里,關(guān)于圖3中的第一行至第二行的各字符圖像的識(shí)別結(jié)果,示出了從識(shí)別候選第一位至第五位的識(shí)別候選字符及其類(lèi)似度。
圖4中識(shí)別候選字符中存在的“◆”意味著未存儲(chǔ)對(duì)應(yīng)的字符碼。
其次,在步驟ST120中,索引作成裝置3根據(jù)圖4所示的識(shí)別結(jié)果,進(jìn)行檢索用的識(shí)別候選字符的收縮。
作為進(jìn)行檢索用的識(shí)別候選字符的收縮的方法,例如,根據(jù)預(yù)先學(xué)習(xí)數(shù)據(jù),求得識(shí)別候選字符的類(lèi)似度和該識(shí)別候選字符正解的準(zhǔn)確率,設(shè)定正解的準(zhǔn)確率高、而且能進(jìn)行充分減少的閾值TH1,保存類(lèi)似度在閾值TH1以上的識(shí)別候選字符。
在不存在類(lèi)似度在閾值TH1以上的識(shí)別候選字符的情況下,由于不包含正解字符的準(zhǔn)確率高,所以除了各識(shí)別候選字符外,還附加表示不包含正解字符的可能性高的“*”符號(hào)。
在該例中,雖然使用“*”符號(hào),但也可以分配其他字符碼,還可以分配字符碼以外的值。
圖5表示識(shí)別候選字符的收縮結(jié)果。例如,如果設(shè)定TH1=80,則對(duì)于字符位置編號(hào)4和字符位置編號(hào)9來(lái)說(shuō),不存在類(lèi)似度在80以上的識(shí)別候選字符(參照?qǐng)D4),所以對(duì)它們附加“*”(參照?qǐng)D5中的符號(hào)23、24)。索引作成裝置3將圖5所示的收縮后的識(shí)別候選字符保存在識(shí)別字符數(shù)據(jù)庫(kù)12中。
其次,在步驟ST130中,索引作成裝置3作成索引。這里,根據(jù)圖5所示的識(shí)別候選字符,作成每一個(gè)字符的索引和連續(xù)的兩個(gè)字符的索引。
這里,具體地說(shuō)明索引的作成方法。
圖9表示索引作成裝置3根據(jù)圖5所示的識(shí)別候選字符作成的兩個(gè)字符的索引。該作成方法是從圖5中的第一個(gè)字符開(kāi)始,依次對(duì)相鄰的字符之間計(jì)算并保存相鄰的兩個(gè)字符的前一個(gè)字符和后一個(gè)字符的字符碼、前一個(gè)字符的出現(xiàn)位置、前一個(gè)字符的識(shí)別候選順序和后一個(gè)字符的識(shí)別候選順序的積。出現(xiàn)位置記作“X-Y”,意味著從文書(shū)編號(hào)X的開(kāi)頭位置開(kāi)始至第Y個(gè)字符。這里,將圖3中的文書(shū)圖像的文書(shū)編號(hào)作為“1”。
例如,根據(jù)圖5中的“文”21和“書(shū)”22,作成圖9中的“文書(shū)”25的索引。在此情況下,“文”21的位置信息是從文書(shū)1的開(kāi)頭的第一個(gè)字符,所以字符位置為“1-1”,“文”21和“書(shū)”22的識(shí)別候選順序都是一位,所以識(shí)別候選順序?yàn)?×1=1。
圖10是存儲(chǔ)字符索引的位置和識(shí)別順序的表,用來(lái)保存字符碼、字符出現(xiàn)位置及識(shí)別候選順序。對(duì)于被斷定為不包含正解字符碼的字符來(lái)說(shuō),保存“*”31和字符位置32。
其次,在步驟ST140中,模糊文本抽出裝置4抽出不包含正解字符碼的字符。
即,模糊文本抽出裝置4根據(jù)圖5所示的識(shí)別候選字符,并根據(jù)帶“*”的字符碼的字符圖像,作成字符的形狀特征,與其前后的數(shù)個(gè)字符一起存儲(chǔ)在模糊文本數(shù)據(jù)庫(kù)10中。
前后字符的判斷方法可以是例如進(jìn)行眾所周知的形態(tài)要素分析,從帶“*”的字符碼的前后開(kāi)始作為形態(tài)要素分析中失敗的字符,也可以作為與帶“*”的字符碼為同一類(lèi)別(英文、漢字、數(shù)字、平假名、片假名中的任意一種)連續(xù)的字符,還可以固定字符數(shù)。這里,保存后一個(gè)字符。
圖8表示具體的形狀特征的作成方法,在圖8中,將字符圖像分成8個(gè)部分,求各區(qū)域的黑像素?cái)?shù)。例如,對(duì)區(qū)域41求13個(gè)黑像素?cái)?shù)(參照符號(hào)49),對(duì)區(qū)域42求10個(gè)黑像素?cái)?shù)(參照符號(hào)50)。將這樣作成的形狀特征與識(shí)別候選字符一起保存。圖6表示保存從第四字符和第九字符的字符圖像抽出的形狀特征的例。
另外,模糊文本抽出裝置4將作成形狀特征的字符的位置及其特征值存儲(chǔ)在識(shí)別字符數(shù)據(jù)庫(kù)12中(參照?qǐng)D5的下部)。
其次,說(shuō)明文書(shū)的檢索方法。
這里,文書(shū)登錄處理的結(jié)果,只將與文書(shū)編號(hào)為1的文書(shū)有關(guān)的數(shù)據(jù)存儲(chǔ)在索引數(shù)據(jù)庫(kù)11及模糊文本數(shù)據(jù)庫(kù)10中。圖11是表示文書(shū)的檢索方法的流程圖。
首先,在步驟ST200中,使用者用檢索條件輸入裝置5輸入關(guān)鍵字。為了構(gòu)成檢索條件輸入裝置5,可以用計(jì)算機(jī)的鍵盤(pán)或鼠標(biāo),但不限于此,也可以是使用話(huà)筒、電話(huà)等的聲音輸入。這里是輸入稱(chēng)為“字符”的關(guān)鍵字的裝置。
其次,在步驟ST210中,檢索裝置6分割輸入的關(guān)鍵字。這里,分解成一個(gè)字符及兩個(gè)字符連接字符串的組。即,分割成“文”、“字”、“文字”。
其次,在步驟ST220中,檢索裝置6用索引進(jìn)行文書(shū)的檢索。圖12是表示索引對(duì)照的流程圖。
首先,在步驟ST221中,檢索裝置6進(jìn)行取出該分割了的“文字”、“文”、“字”的各索引(參照?qǐng)D9中的符號(hào)26、圖10中的符號(hào)27、28)的處理。具體地說(shuō),將各索引的內(nèi)容裝入圖中未示出的存儲(chǔ)器中。
其次,在步驟ST222中,進(jìn)行字符位置的驗(yàn)證,檢索文書(shū)編號(hào)。即分別驗(yàn)證“文”、“字”的字符位置,檢索文書(shū)編號(hào)即可,但也可以用“文字”的索引26,檢索文書(shū)編號(hào)。這里,用“文字”的索引26進(jìn)行檢索。在此情況下,由于“文字”的字符位置是“1-7”,所以文書(shū)編號(hào)1成為檢索結(jié)果。
最后,在步驟ST224中,檢索裝置6輸出用索引進(jìn)行的檢索結(jié)果。
其次,在圖11所示的步驟ST230中,檢索裝置6用模糊文本進(jìn)行檢索。圖13是表示模糊文本對(duì)照的流程圖。
首先,在步驟ST231中進(jìn)行檢索對(duì)象文書(shū)的確定。這里,為了處理時(shí)節(jié)省時(shí)間,將由索引對(duì)照(步驟ST220)進(jìn)行的檢索結(jié)果、成為輸出候選的文書(shū)編號(hào)的文書(shū)從檢索對(duì)象中除去。
具體地說(shuō),抽出包含關(guān)鍵字“文字”的“文”、“字”中的某一個(gè)字符的文書(shū)編號(hào),將從其中把在步驟ST220中輸出的文書(shū)編號(hào)的文書(shū)除去后的文書(shū)作為檢索對(duì)象。就是說(shuō),從圖10取出“文”的索引27表示的文書(shū)編號(hào)和“字”的索引28表示的文書(shū)編號(hào)的OR,從其中將在步驟ST220中的檢索結(jié)果除去。
在此情況下,“文”和“字”的文書(shū)編號(hào)的OR為1,在步驟ST220中,輸出文書(shū)編號(hào)1,所以將文書(shū)編號(hào)1從文書(shū)編號(hào)1除去后作為非對(duì)象文書(shū)。
其次,在步驟ST232中,將對(duì)象文書(shū)裝入存儲(chǔ)器。這時(shí),由于是非對(duì)象文書(shū),所以不裝入。接著,在步驟ST233中,進(jìn)行使用字符碼層次的對(duì)照,但由于是非對(duì)象文書(shū),所以不進(jìn)行對(duì)照。同樣,在步驟ST234中,進(jìn)行形狀特征的對(duì)照,但由于是非對(duì)象文書(shū),所以不進(jìn)行對(duì)照。在步驟ST235中,進(jìn)入Y(是),在步驟ST236中輸出無(wú)結(jié)果后結(jié)束。
最后,在圖11所示的步驟ST240中,輸出各檢索結(jié)果(文書(shū)編號(hào)1)后結(jié)束。
其次,說(shuō)明使用者輸入了“課題”作為關(guān)鍵字時(shí)的檢索。
在圖11所示的步驟ST200中,使用者從檢索條件輸入裝置5輸入“課題”作為關(guān)鍵字。在步驟ST210中,檢索裝置6進(jìn)行關(guān)鍵字分割。這里,分割成“課”、“題”、“課題”。
其次,在步驟ST220中,檢索裝置6按照索引對(duì)照的方法進(jìn)行檢索。在圖12所示的步驟ST221中,取出各索引,這時(shí)存在“題”的索引30,而不存在“課題”、“課”的索引。進(jìn)入步驟ST222、步驟ST224,由于不存在“課題”的索引,所以無(wú)結(jié)果而結(jié)束。
其次,在圖11所示的步驟ST230中,檢索裝置6檢索模糊文本。首先,在圖13所示的步驟ST231中,進(jìn)行檢索對(duì)象文書(shū)的確定。取出“課”的索引表示的文書(shū)編號(hào)和“題”的索引表示的文書(shū)編號(hào)的OR,進(jìn)行從其中將在步驟ST220中的檢索結(jié)果除去的處理。
“題”的索引30表示的文書(shū)編號(hào)為“1”,由于在步驟ST220中沒(méi)有檢索結(jié)果,所以對(duì)象文書(shū)的文書(shū)編號(hào)變?yōu)椤?”。
其次,在步驟ST232中,將對(duì)象文書(shū)的模糊文本裝入存儲(chǔ)器。這里,將圖6所示的文書(shū)編號(hào)1的文本及形狀特征裝入存儲(chǔ)器。
其次,在步驟ST233中,檢索裝置6用字符碼層次進(jìn)行對(duì)照。這時(shí),在檢索關(guān)鍵字和一個(gè)字符一致的情況下,將一致的字符位置附近作為形狀特征對(duì)照范圍存儲(chǔ)起來(lái),然后繼續(xù)進(jìn)行。具體地說(shuō),將關(guān)鍵字“課題”的“課”或“題”中的任意一個(gè)字符存在的部分的附近作為形狀特征對(duì)照范圍。這里,在圖6中由于“題”33一致,所以將它作為形狀特征對(duì)照范圍。
其次,在步驟ST234中,檢索裝置6進(jìn)行使用形狀特征的對(duì)照。這里,根據(jù)圖6中的形狀特征34和形狀特征詞典9,裝入“課”的形狀特征。在圖8中,將41~48的區(qū)域分配給區(qū)域~區(qū)域8。形狀特征的計(jì)算如下所示,計(jì)算每個(gè)區(qū)域的特征的差分。D=Σi=18|Xi-Yi|]]>式中,D是形狀特征間的距離,Xi是模糊文本數(shù)據(jù)庫(kù)10內(nèi)的文本的第i號(hào)的形狀特征,Yi是對(duì)應(yīng)的關(guān)鍵字字符的第i號(hào)的形狀特征(存儲(chǔ)在形狀特征詞典9內(nèi))。
在距離D在某一閾值THR以下的情況下,形狀特征的對(duì)照成功,將該文書(shū)作為檢索結(jié)果輸出?,F(xiàn)在,假設(shè)形狀特征詞典9內(nèi)的“課”的區(qū)域1~8的特征值分別為“10”、“7”、“12”、“12”、“10”、“5”、“10”、“9”,與圖6中的形狀特征34的距離D=30。
因此,THR≥D成立,所以該特征之間的對(duì)照成功,將文書(shū)編號(hào)1作為檢索結(jié)果輸出。
最后,在步驟ST240中,輸出作為該檢索結(jié)果的文書(shū)編號(hào)1。
在該實(shí)施例1中,說(shuō)明了索引為一個(gè)字符和兩個(gè)字符的情況,但不限于此,也可以使用連續(xù)的3個(gè)字符的索引,也可以是更多字符的索引。
另外,在該實(shí)施例1中,用索引和模糊文本兩者進(jìn)行了檢索,但不限于此,如圖20所示,不進(jìn)行模糊文本的對(duì)照也可以輸出檢索結(jié)果。由于不使用模糊文本,所以不能進(jìn)行字符識(shí)別中失敗的部分的檢索,但能謀求結(jié)果輸出的高速化。
另外,由于使用模糊文本能進(jìn)行高精度檢索,所以將檢索條件輸入檢索條件輸入裝置5時(shí),指定是否進(jìn)行使用模糊文本的檢索,能自由地指定檢索精度優(yōu)先或檢索速度優(yōu)先。
另外,模糊文本雖然使用了圖6,但如圖7所示,也可以作成表示哪個(gè)文書(shū)中包含作為模糊文本的文書(shū)編號(hào)的開(kāi)始位置和結(jié)束位置及模糊文本的字符碼的表。
說(shuō)明這時(shí)的工作情況。如上所述,登錄時(shí)模糊文本抽出裝置4將類(lèi)似度包含TH1以下的字符的前后數(shù)個(gè)字符的字符串確定為模糊文本,保存該開(kāi)始字符位置和結(jié)束字符位置及文書(shū)編號(hào)?,F(xiàn)在,用圖5中的“*”23進(jìn)行說(shuō)明,這里,假定包含該字符的后一個(gè)字符為模糊文本。在圖7中保存開(kāi)始字符位置4(參照符號(hào)500)、結(jié)束字符位置5(參照符號(hào)501)、文書(shū)編號(hào)1(參照符號(hào)502)。
另外,模糊文本抽出裝置4作成圖7(B)所示的出現(xiàn)模糊文本的字符表?,F(xiàn)在,對(duì)在開(kāi)始字符位置4和結(jié)束字符位置5處存在的全部識(shí)別候選字符保存文書(shū)編號(hào)1。從圖5可知在該例中,對(duì)圖7(B)中的“諜”503、“訓(xùn)”504、“詰”505、“語(yǔ)”506、“話(huà)”507、“題”508保存文書(shū)編號(hào)1。
檢索處理直至圖11中的步驟ST220與上述實(shí)施例1相同。在步驟ST230中,對(duì)關(guān)鍵字“課題”來(lái)說(shuō),檢索裝置6從圖7(B)中的表裝入“課”、“題”的索引確定該文書(shū)。
這里,由于不存在包含“課”的文書(shū),而包含“題”的文書(shū)的文書(shū)編號(hào)為“1”,所以對(duì)文書(shū)編號(hào)1進(jìn)行使用形狀特征的檢索。
在圖7(A)中對(duì)文書(shū)編號(hào)1的第4至第5個(gè)字符、以及第9至第10個(gè)字符,從圖5中的識(shí)別字符數(shù)據(jù)庫(kù)12裝入字符和形狀特征,進(jìn)行對(duì)照。以下與實(shí)施例1相同。
因此,能防止識(shí)別字符數(shù)據(jù)庫(kù)12和模糊文本數(shù)據(jù)庫(kù)10的雙重保存,數(shù)據(jù)量越大,越能抑制數(shù)據(jù)保存用的容量。
從以上說(shuō)明可知,如果采用該實(shí)施例1,則由于參照索引,檢索與關(guān)鍵字一致的識(shí)別候選字符的文書(shū)編號(hào),另一方面對(duì)照字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合文書(shū)的檢索條件的文書(shū)編號(hào),所以具有能進(jìn)行高速且高精度的全文檢索的效果。
實(shí)施例2在上述實(shí)施例1中,雖然給出了在字符碼完全不一致的情況下,使用形狀特征檢索文書(shū)編號(hào)的例,但也可以不使用形狀特征,而只用索引進(jìn)行檢索。
文書(shū)的登錄方法與上述實(shí)施例1相同,所以說(shuō)明文書(shū)的檢索方法。
首先,在圖11所示的步驟ST200中,進(jìn)行輸入關(guān)鍵字“課題”的操作。其次,在步驟ST210中,進(jìn)行關(guān)鍵字分割。
這里,作成“課”、“題”、“課題”。其次,在步驟ST220中,進(jìn)行對(duì)照索引的檢索,但對(duì)照索引的流程采用圖14所示的流程圖。
在步驟ST221中,檢索裝置6進(jìn)行取出各分割關(guān)鍵字字符串的索引的處理。由于不存在“課題”、“課”的索引,只存在“題”的索引,所以從圖10取出“題”的索引30。
其次,在步驟ST222中,進(jìn)行字符位置的對(duì)照。這里,由于不存在“課題”的索引,所以沒(méi)有適合對(duì)照的文書(shū),進(jìn)入步驟ST223。在步驟ST223中,對(duì)一部分不一致的字符位置使用符號(hào)“*”進(jìn)行對(duì)照。
該檢索即使如“課題”所示與關(guān)鍵字完全不一致,但用“*題”、“課*”的字符串也能對(duì)照。處理的順序是使用“課”、“題”的索引,根據(jù)“課”或“題”的索引,檢索字符位置。雖然對(duì)“課”來(lái)說(shuō)不存在索引,但存在“題”的索引30。
其次,裝入“*”字符的索引31。用“*”的索引31驗(yàn)證“題”的索引30中是否存在連接的字符。由于“*”開(kāi)始的字符位置“1-4”32位于“題”的1-5的一個(gè)字符前,所以滿(mǎn)足條件。此外,由于不存在“題”的字符位置,所以在步驟ST224中,輸出檢索結(jié)果(文書(shū)編號(hào)1)后結(jié)束。
在圖11中,不進(jìn)行步驟ST230的模糊文本對(duì)照,進(jìn)入步驟ST240,輸出其檢索結(jié)果(文書(shū)編號(hào)1)后結(jié)束。
在該實(shí)施例2中,對(duì)于被認(rèn)為識(shí)別候選字符中不存在正解的字符來(lái)說(shuō),在識(shí)別候選字符中增加符號(hào)“*”,看看該字符與哪個(gè)字符對(duì)照一致,進(jìn)行檢索。但是,如“**”所示,在正解字符一個(gè)字符也不包含的情況下不成功。因此,具有能減少由于誤識(shí)別造成的漏檢索的效果。
實(shí)施例3圖15是表示本發(fā)明的實(shí)施例3的全文檢索設(shè)備的結(jié)構(gòu)圖,圖中與圖1相同的符號(hào)表示相同或相當(dāng)?shù)牟糠郑哉f(shuō)明從略。
13是修正字符識(shí)別裝置2的識(shí)別結(jié)果的識(shí)別結(jié)果修正裝置,14是變更字符連鎖出現(xiàn)概率的字符連鎖出現(xiàn)概率詞典更新裝置(出現(xiàn)概率更新裝置),15是存儲(chǔ)字符連鎖的出現(xiàn)概率的字符連鎖出現(xiàn)概率詞典,16是作成索引時(shí),參照字符連鎖出現(xiàn)概率詞典15,判斷索引的作成對(duì)象中是否包含兩個(gè)以上的識(shí)別候選字符組合的連接字符的索引作成裝置。
其次說(shuō)明工作情況。
這里,說(shuō)明使用字符連鎖出現(xiàn)概率詞典15作成索引的方法、以及字符連鎖出現(xiàn)概率詞典15的更新方法。
在文書(shū)的登錄處理中,直到圖2中的步驟ST120與上述實(shí)施例1的處理方法相同。
在圖2所示的步驟ST130中,索引作成裝置16與上述實(shí)施例1一樣,進(jìn)行識(shí)別候選字符的減少,根據(jù)圖5所示的識(shí)別候選字符作成索引。這時(shí),用字符連鎖出現(xiàn)概率詞典15,對(duì)識(shí)別候選字符的組合,確定是否作成索引。
圖16表示字符連鎖出現(xiàn)概率詞典15的一例,在圖15的“概率”中,預(yù)先根據(jù)多個(gè)學(xué)習(xí)文書(shū),計(jì)算文書(shū)內(nèi)連續(xù)的N個(gè)字符的組合的出現(xiàn)數(shù),對(duì)全體文書(shū)求出現(xiàn)概率??倲?shù)是實(shí)際學(xué)習(xí)文書(shū)中出現(xiàn)的組合數(shù)。組合字符(連接字符)的開(kāi)始字符相同的組的概率的和為“1”。例如,“文字”、“文學(xué)”、“文章”等從“文”開(kāi)始的組合的概率的和為“1”。
定義下式,根據(jù)圖5中的識(shí)別候選字符的組合計(jì)算E,根據(jù)該E的值確定是否作成索引。Eijk=α(Rij+R(i+1)k)+(1-α)·β·Pij(i+1)k0≤α≤1式中,R表示字符識(shí)別的類(lèi)似度,Rij表示從開(kāi)頭第i個(gè)字符位置的第j位識(shí)別候選字符的類(lèi)似度。同樣,R(i+1)k表示從開(kāi)頭第(i+1)個(gè)字符位置的第k位識(shí)別候選字符的類(lèi)似度。
Pij(i+1)k表示從開(kāi)頭第i個(gè)字符位置的第j位識(shí)別候選字符之后從開(kāi)頭第(i+1)個(gè)字符位置的第k位識(shí)別候選字符繼續(xù)出現(xiàn)的概率。α、β是常數(shù)。
具體地說(shuō),在圖5中,例如i=7時(shí),對(duì)“文字”、“文字”、“文學(xué)”、“丈宇”、“文字”、“丈學(xué)”6組進(jìn)行E的計(jì)算,如果各值在某閾值以上,則在索引中作成其組合,如果在某閾值以下,則在索引中不殘留。
現(xiàn)在,假設(shè)α=0.5,β=300,則E(文字)=0.5×(90+86)+(1-0.5)×300×0.001=88.15。同樣計(jì)算,得E(文字)=102,E(文學(xué))=86.5,E(丈宇)=78.15,E(丈字)=77.15,E(丈學(xué))=75.15。
因此,在將E>85以上的字符組作為索引保存時(shí),只登錄“文字”、“文字”、“文學(xué)”的組合。這時(shí),在圖9中的兩個(gè)字符索引中,按照大小順序分配E的值。這里,使“文字”保持1,使“文宇”保持2,使“文學(xué)”保持3。
文書(shū)的檢索方法與上述實(shí)施例1相同。
由于用字符識(shí)別中使用的類(lèi)似度、以及文書(shū)中字符之間的組合連續(xù)出現(xiàn)的概率,算出值的大小,所以能排除作為字符的正解下降的可能性、或者作為字符串在文書(shū)中存在的概率低的組合,能緊湊地、而且正解字符被錯(cuò)誤地刪除少地作成檢索用的索引。
實(shí)施例4其次,說(shuō)明變更字符連鎖出現(xiàn)概率詞典15的方法。
在內(nèi)容、領(lǐng)域相同或相似的文書(shū)中,各文書(shū)內(nèi)出現(xiàn)的重要單詞相類(lèi)似,較多地出現(xiàn)。因此,通過(guò)學(xué)習(xí)出現(xiàn)的字符的組合,更新每個(gè)領(lǐng)域的文書(shū)的字符連鎖出現(xiàn)概率詞典15,能并不怎么降低檢索的精度,而使索引緊湊化。
在該實(shí)施例4中,說(shuō)明根據(jù)字符識(shí)別結(jié)果,計(jì)數(shù)被認(rèn)為正確解釋的字符組合的出現(xiàn)數(shù),使該值反映在字符連鎖出現(xiàn)概率詞典15中的例。
圖17是表示文書(shū)的登錄方法的流程圖。文書(shū)登錄中使用的文書(shū)與上述實(shí)施例1相同。
直到步驟ST120,與上述實(shí)施例1的處理方法相同。在步驟ST135中,與上述實(shí)施例1同樣地作成索引。此后,字符連鎖出現(xiàn)概率詞典更新裝置14從圖5所示的識(shí)別候選字符中,計(jì)算候選數(shù)為一個(gè)字符連續(xù)的字符的組合的出現(xiàn)數(shù)。
在圖5中,對(duì)“文書(shū)”、“識(shí)性”、“性能”、“能の”、“の向”、“向上”的組合,計(jì)數(shù)其出現(xiàn)數(shù)。字符連鎖出現(xiàn)概率詞典更新裝置14將各組合及其數(shù)保存在圖中未示出的緩沖器中,在某一時(shí)刻,例如在多次文書(shū)登錄中用一次的比例更新圖16中的字符連鎖出現(xiàn)概率詞典15。另外,使用者利用進(jìn)行更新的命令進(jìn)行更新。
以下,在步驟ST140中,與上述實(shí)施例1一樣,作成模糊文本后結(jié)束。
另外,在使用者用識(shí)別結(jié)果修正裝置13,對(duì)識(shí)別候選字符修正字符識(shí)別錯(cuò)誤的情況下,計(jì)算修正的字符的組合數(shù),也能更新字符連鎖出現(xiàn)概率詞典15。
圖19是表示文書(shū)的登錄方法的流程圖。在圖19中直到步驟ST120,與上述實(shí)施例1的處理方法相同。
在步驟ST125中,用識(shí)別結(jié)果修正裝置13進(jìn)行字符的修正。例如,如圖18中的60、61所示,使用者修正圖5中的字符位置8、9。
其次,在步驟ST133中,索引作成裝置16根據(jù)圖18所示的識(shí)別候選字符作成索引。其次,在步驟ST143中,計(jì)數(shù)字符連鎖出現(xiàn)頻度。字符連鎖出現(xiàn)概率詞典更新裝置14計(jì)數(shù)修正后的字符前后包含識(shí)別候選字符為一個(gè)字符的組合數(shù)。這里,在圖18中對(duì)“字認(rèn)”、“認(rèn)識(shí)”計(jì)數(shù)組合數(shù)。字符連鎖出現(xiàn)概率詞典15的更新在某一時(shí)刻、例如修正了一定數(shù)之后進(jìn)行更新。
另外,不限于誤識(shí)別字符的修正,還能根據(jù)檢索用的關(guān)鍵字,計(jì)數(shù)字符連鎖出現(xiàn)頻度,使其反映在字符連鎖出現(xiàn)概率詞典15中,登錄時(shí)能更準(zhǔn)確地殘留用于關(guān)鍵字的字符串。
如上所述,如果采用本發(fā)明,則由于設(shè)有檢索裝置,它參照索引,檢索與關(guān)鍵字一致的識(shí)別候選字符的文書(shū),另一方面,對(duì)照由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合檢索條件的文書(shū),所以具有能進(jìn)行高速、且高精度的全文檢索的效果。
如果采用本發(fā)明,則由于在索引的作成對(duì)象中包含兩個(gè)以上的識(shí)別候選字符組合的連接字符,所以具有能進(jìn)行高速、且高精度的全文檢索的效果。
例如采用本發(fā)明,則由于在字符識(shí)別裝置輸出的各識(shí)別候選字符中,將準(zhǔn)確度比基準(zhǔn)準(zhǔn)確度低的識(shí)別候選字符從索引的作成對(duì)象中除去,所以具有不會(huì)導(dǎo)致檢索精度的劣化、能減少索引的容量的效果。
如果采用本發(fā)明,則由于即使在字符識(shí)別裝置輸出的識(shí)別候選字符的準(zhǔn)確度比基準(zhǔn)準(zhǔn)確度低的情況下,在沒(méi)有其準(zhǔn)確度超過(guò)基準(zhǔn)準(zhǔn)確度的識(shí)別候選字符的與字符圖像有關(guān)的識(shí)別候選字符時(shí),索引的作成對(duì)象中包含該識(shí)別候選字符,同時(shí)對(duì)該識(shí)別候選字符附加與其他識(shí)別候選字符相區(qū)別的識(shí)別候選字符,所以在關(guān)鍵字和字符碼不一致的檢索中具有能只使用索引數(shù)據(jù)庫(kù)進(jìn)行檢索的效果。
如果采用本發(fā)明,則由于將字符圖像的形狀特征存儲(chǔ)在數(shù)據(jù)庫(kù)中,同時(shí)將該字符圖像的各識(shí)別候選字符和有可能構(gòu)成字的字符的字符碼存儲(chǔ)在數(shù)據(jù)庫(kù)中,所以具有能謀求提高檢索精度的效果。
如果采用本發(fā)明,則由于考慮語(yǔ)言信息或字符種類(lèi),判斷各識(shí)別候選字符和有可能構(gòu)成字的字符,所以具有提高檢索精度的效果。
如果采用本發(fā)明,則由于計(jì)算由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征的距離,該距離滿(mǎn)足規(guī)定的基準(zhǔn)時(shí),認(rèn)定符合檢索條件,所以具有能定做形狀特征詞典的效果。
如果采用本發(fā)明,則由于設(shè)有設(shè)定由檢索裝置進(jìn)行的形狀特征對(duì)照處理的有無(wú)的設(shè)定裝置,所以具有能考慮檢索速度和檢索精度的重要性,設(shè)定檢索處理時(shí)的處理種類(lèi)的優(yōu)先度的效果。
如果采用本發(fā)明,則由于將包含與關(guān)鍵字一致的識(shí)別候選字符的文書(shū)從形狀特征的對(duì)照對(duì)象中除去,所以具有能減少對(duì)照形狀特征時(shí)無(wú)用的檢索的效果。
如果采用本發(fā)明,則由于只在不存在與關(guān)鍵字一致的識(shí)別候選字符的情況下,對(duì)照由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,所以具有能提高檢索速度的效果。
如果采用本發(fā)明,則由于在特定關(guān)鍵字的形狀特征的對(duì)照對(duì)象時(shí),將附加了識(shí)別符號(hào)的識(shí)別候選字符作為通配符處理,所以具有能只用索引數(shù)據(jù)庫(kù)進(jìn)行檢索的效果。
如果采用本發(fā)明,則由于考慮整個(gè)文書(shū)中出現(xiàn)兩個(gè)以上的識(shí)別候選字符組合的連接字符的出現(xiàn)概率,判斷索引的作成對(duì)象中是否包含該連接字符,所以具有能有效地削減索引的容量的效果。
如果采用本發(fā)明,則由于在構(gòu)成連接字符的各識(shí)別候選字符是該字符圖像的唯一的識(shí)別候選字符的情況下,對(duì)該連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù),更新出現(xiàn)概率,所以具有能降低不能檢索重要的關(guān)鍵字的概率的效果。
如果采用本發(fā)明,則由于對(duì)與關(guān)鍵字一致的連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù),更新出現(xiàn)概率,所以具有能提高重要的字符的優(yōu)先度、降低不能檢索重要的字符的概率的效果。
如果采用本發(fā)明,則由于在修正了字符識(shí)別裝置輸出的識(shí)別候選字符的情況下,對(duì)包含修正后的識(shí)別候選字符的連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù),更新出現(xiàn)概率,所以具有能提高重要的字符的優(yōu)先度、降低不能檢索重要的字符的概率的效果。
如果采用本發(fā)明,則由于參照索引,檢索與關(guān)鍵字一致的識(shí)別候選字符的文書(shū),另一方面對(duì)照字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合檢索條件的文書(shū),所以具有能進(jìn)行高速且高精度的全文檢索的效果。
權(quán)利要求
1.一種全文檢索設(shè)備,其特征在于備有識(shí)別輸入圖像中包含的各字符圖像并輸出各字符圖像的一個(gè)以上的識(shí)別候選字符的同時(shí)輸出各識(shí)別候選字符的準(zhǔn)確度的字符識(shí)別裝置;作成表示上述字符識(shí)別裝置輸出的各識(shí)別候選字符與文書(shū)的對(duì)應(yīng)關(guān)系的索引的索引作成裝置;在輸入圖像中包含的各字符圖像中存在沒(méi)有其準(zhǔn)確度超過(guò)基準(zhǔn)準(zhǔn)確度的識(shí)別候選字符的字符圖像的情況下抽出該字符圖像的形狀特征的特征抽出裝置;作為文書(shū)的檢索條件輸入關(guān)鍵字的輸入裝置;以及檢索裝置,參照索引,檢索與該關(guān)鍵字一致的識(shí)別候選字符的文書(shū),另一方面,對(duì)照由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合檢索條件的文書(shū)。
2.根據(jù)權(quán)利要求1所述的全文檢索設(shè)備,其特征在于索引作成裝置在索引的作成對(duì)象中包含組合了兩個(gè)以上的識(shí)別候選字符的連接字符。
3.根據(jù)權(quán)利要求1所述的全文檢索設(shè)備,其特征在于索引作成裝置在字符識(shí)別裝置輸出的各識(shí)別候選字符中,將準(zhǔn)確度比基準(zhǔn)準(zhǔn)確度低的識(shí)別候選字符從索引的作成對(duì)象中除去。
4.根據(jù)權(quán)利要求3所述的全文檢索設(shè)備,其特征在于即使在字符識(shí)別裝置輸出的識(shí)別候選字符的準(zhǔn)確度比基準(zhǔn)準(zhǔn)確度低的情況下,索引作成裝置在沒(méi)有其準(zhǔn)確度超過(guò)基準(zhǔn)準(zhǔn)確度的識(shí)別候選字符的與字符圖像有關(guān)的識(shí)別候選字符時(shí),索引的作成對(duì)象中包含該識(shí)別候選字符,同時(shí)對(duì)該識(shí)別候選字符附加與其他識(shí)別候選字符相區(qū)別的識(shí)別記號(hào)。
5.根據(jù)權(quán)利要求1至權(quán)利要求4中的任意一項(xiàng)所述的全文檢索設(shè)備,其特征在于特征抽出裝置將字符圖像的形狀特征存儲(chǔ)在數(shù)據(jù)庫(kù)中,同時(shí)將該字符圖像的各識(shí)別候選字符和有可能構(gòu)成單詞的字符的字符碼存儲(chǔ)在數(shù)據(jù)庫(kù)中。
6.根據(jù)權(quán)利要求5所述的全文檢索設(shè)備,其特征在于特征抽出裝置考慮語(yǔ)言信息或字符種類(lèi),判斷各識(shí)別候選字符和有可能構(gòu)成單詞的字符。
7.根據(jù)權(quán)利要求1所述的全文檢索設(shè)備,其特征在于檢索裝置計(jì)算由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征的距離,該距離滿(mǎn)足規(guī)定的基準(zhǔn)時(shí),認(rèn)定符合檢索條件。
8.根據(jù)權(quán)利要求1所述的全文檢索設(shè)備,其特征在于設(shè)有設(shè)定由檢索裝置進(jìn)行的形狀特征對(duì)照處理的有無(wú)的設(shè)定裝置。
9.根據(jù)權(quán)利要求1所述的全文檢索設(shè)備,其特征在于檢索裝置將包含與關(guān)鍵字一致的識(shí)別候選字符的文書(shū)從形狀特征的對(duì)照對(duì)象中除去。
10.根據(jù)權(quán)利要求1所述的全文檢索設(shè)備,其特征在于只在不存在與關(guān)鍵字一致的識(shí)別候選字符的情況下,檢索裝置對(duì)照由特征抽出裝置抽出的字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征。
11.根據(jù)權(quán)利要求4所述的全文檢索設(shè)備,其特征在于在特定關(guān)鍵字的形狀特征的對(duì)照對(duì)象時(shí),檢索裝置將附加了識(shí)別符號(hào)的識(shí)別候選字符作為通配符處理。
12.根據(jù)權(quán)利要求2所述的全文檢索設(shè)備,其特征在于索引作成裝置考慮整個(gè)文書(shū)中出現(xiàn)組合了兩個(gè)以上的識(shí)別候選字符的連接字符的出現(xiàn)概率,判斷索引的作成對(duì)象中是否包含該連接字符。
13.根據(jù)權(quán)利要求12所述的全文檢索設(shè)備,其特征在于在構(gòu)成連接字符的各識(shí)別候選字符是該字符圖像的唯一的識(shí)別候選字符的情況下,對(duì)該連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù),更新出現(xiàn)概率。
14.根據(jù)權(quán)利要求12所述的全文檢索設(shè)備,其特征在于設(shè)有對(duì)與關(guān)鍵字一致的連接字符的出現(xiàn)次數(shù)計(jì)數(shù)進(jìn)行往上并更新出現(xiàn)概率的出現(xiàn)概率更新裝置。
15.根據(jù)權(quán)利要求12所述的全文檢索設(shè)備,其特征在于設(shè)有在修正了字符識(shí)別裝置輸出的識(shí)別候選字符的情況下,對(duì)包含修正后的識(shí)別候選字符的連接字符的出現(xiàn)次數(shù)進(jìn)行往上計(jì)數(shù)并更新出現(xiàn)概率的出現(xiàn)概率更新裝置。
16.一種全文檢索方法,其特征在于識(shí)別輸入圖像中包含的各字符圖像,輸出各字符圖像的一個(gè)以上的識(shí)別候選字符和各識(shí)別候選字符的準(zhǔn)確度,作成表示各識(shí)別候選字符與文書(shū)的對(duì)應(yīng)關(guān)系的索引,同時(shí)在輸入圖像中包含的各字符圖像中抽出沒(méi)有其準(zhǔn)確度超過(guò)基準(zhǔn)準(zhǔn)確度的識(shí)別候選字符的字符圖像的形狀特征,一旦輸入關(guān)鍵字作為文書(shū)的檢索條件,便參照上述索引,檢索與該關(guān)鍵字一致的識(shí)別候選字符的文書(shū),另一方面對(duì)照上述字符圖像的形狀特征和構(gòu)成該關(guān)鍵字的字符的形狀特征,檢索符合檢索條件的文書(shū)。
全文摘要
在根據(jù)字符識(shí)別結(jié)果作成的文本作成索引時(shí),如果只用字符識(shí)別結(jié)果的第一位識(shí)別候選字符作成索引,則字符識(shí)別結(jié)果包含錯(cuò)誤的概率增大,關(guān)鍵字和文本內(nèi)的字符不一致,存在不能正確解釋地檢索的情況增加的課題。解決問(wèn)題的方法是參照索引,檢索與該關(guān)鍵字一致的識(shí)別候選字符的文書(shū),另一方面對(duì)照字符圖像的形狀特征和構(gòu)成關(guān)鍵字的字符的形狀特征,檢索符合檢索條件的文書(shū)。
文檔編號(hào)G06F17/30GK1300026SQ0013496
公開(kāi)日2001年6月20日 申請(qǐng)日期2000年12月13日 優(yōu)先權(quán)日1999年12月14日
發(fā)明者龜代泰三, 平野敬 申請(qǐng)人:三菱電機(jī)株式會(huì)社
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿拉善右旗| 都安| 微山县| 大悟县| 永安市| 闸北区| 濮阳市| 浙江省| 黄龙县| 商南县| 鄂托克旗| 太和县| 晴隆县| 满洲里市| 汉沽区| 金湖县| 双柏县| 南康市| 龙泉市| 北辰区| 太湖县| 屯昌县| 和政县| 神池县| 新和县| 东海县| 青河县| 凤台县| 鄂尔多斯市| 内丘县| 皮山县| 宜川县| 台州市| 土默特右旗| 华亭县| 长春市| 昌黎县| 改则县| 喀什市| 岳阳市| 阳信县|