專利名稱:基于圖像內(nèi)容的關(guān)鍵詞搜索方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種快速并準(zhǔn)確地從文檔圖像中搜索和定位關(guān)鍵詞的裝 置和方法。更具體地說(shuō),涉及用于在用戶輸入了感興趣的關(guān)鍵詞(例如, "北京"等)時(shí)從文檔圖像中自動(dòng)、準(zhǔn)確地搜索并定位關(guān)鍵詞的位置的 裝置和方法。
背景技術(shù):
傳統(tǒng)的在文檔圖像中定位關(guān)鍵詞的方法通常是利用OCR (光學(xué)字符 識(shí)別,Optical Character Recognition)技術(shù)來(lái)實(shí)現(xiàn)的。在傳統(tǒng)的定位關(guān)鍵 詞的方法中,首先對(duì)文檔圖像進(jìn)行分割,然后對(duì)分割出來(lái)的單一字符區(qū) 域進(jìn)行識(shí)別,將文檔圖像轉(zhuǎn)換為文本,并且在識(shí)別出的文本中搜索關(guān)鍵 詞以進(jìn)行定位。例如,在美國(guó)專利申請(qǐng)US 6470336中公開了這種傳統(tǒng)的 在文檔圖像中定位關(guān)鍵詞的裝置和方法。
圖l示出了基于OCR技術(shù)的傳統(tǒng)裝置的基本結(jié)構(gòu)及操作流程的方框圖。
如圖1所示,傳統(tǒng)裝置包括圖像分割單元101、單字識(shí)別單元102 以及結(jié)果搜索單元103。首先,圖像分割單元101對(duì)所輸入的文檔圖像進(jìn) 行版面分析和圖像分割,以獲得一系列的單一字符的圖像區(qū)域。隨后, 單字識(shí)別單元102利用OCR技術(shù)對(duì)通過(guò)圖像分割單元101獲得的單一字 符的圖像區(qū)域進(jìn)行識(shí)別,以獲得各個(gè)圖像區(qū)域的識(shí)別結(jié)果。結(jié)果搜索單 元103在通過(guò)單字識(shí)別單元102獲得的識(shí)別結(jié)果中搜索關(guān)鍵詞,以確定 關(guān)鍵詞是否在識(shí)別結(jié)果中出現(xiàn)。如果出現(xiàn)則返回關(guān)鍵詞的出現(xiàn)位置,并 輸出搜索定位的結(jié)果。
這種傳統(tǒng)的方法存在很多問(wèn)題。首先,圖像分割單元101很難準(zhǔn)確 地對(duì)所輸入的文檔圖像進(jìn)行分割。尤其是在手寫文檔圖像的情況下,由
ii于手寫體字符本身存在筆畫粘連,不同的人的書寫風(fēng)格也不一致,并且 手寫體字符沒(méi)有固定的大小,因此很難界定單一字符區(qū)域,從而從手寫 文檔圖像中分割出單一字符的圖像區(qū)域非常困難,這極大地影響了后續(xù) 的單字識(shí)別的精度,傳統(tǒng)OCR技術(shù)很難處理手寫文檔也主要是因?yàn)檫@個(gè) 原因。其次,將所有的字符圖像區(qū)域識(shí)別成單一字符的方法非常耗時(shí)。 對(duì)于大字符集合(例如亞洲國(guó)家的語(yǔ)言,包括漢字、日文等),字符的種
類通常很多,例如漢字, 一級(jí)漢字和二級(jí)漢字一共有6063種。對(duì)這種大 類別的識(shí)別問(wèn)題,由于字符的種類繁多,并且近似字符也很多,導(dǎo)致精 度降低(尤其是對(duì)于手寫體識(shí)別)。同時(shí),由于需要對(duì)每個(gè)字符圖像區(qū)域 進(jìn)行識(shí)別,導(dǎo)致識(shí)別速度進(jìn)一步下降,從而使得系統(tǒng)的識(shí)別效果不是很 好。
另外,傳統(tǒng)方法中還存在利用隱馬爾科夫模型來(lái)自動(dòng)分割文檔圖像 并定位關(guān)鍵詞的方法,例如美國(guó)專利申請(qǐng)US 5745600和US 5592568中 所公開的方法。但是這些傳統(tǒng)方法缺乏有效的校驗(yàn)措施,從而使得整體 識(shí)別率較低。
發(fā)明內(nèi)容
鑒于上述傳統(tǒng)技術(shù)中的問(wèn)題而提出本發(fā)明。本發(fā)明的一個(gè)目的是提 供一種高精度的基于圖像內(nèi)容的關(guān)鍵詞搜索方法和裝置。
本發(fā)明的另一目的是提供一種快速的基于圖像內(nèi)容的關(guān)鍵詞搜索方 法和裝置。
為了實(shí)現(xiàn)本發(fā)明的目的,本發(fā)明提供了一種利用整體匹配技術(shù)來(lái)選 擇候選關(guān)鍵詞圖像區(qū)域并利用單一字符識(shí)別作為校驗(yàn)的方法。
根據(jù)本發(fā)明的一個(gè)方面,本發(fā)明提供了一種基于圖像內(nèi)容的關(guān)鍵詞 搜索裝置,該關(guān)鍵詞搜索裝置在所輸入的文檔圖像中搜索并定位所輸入
的關(guān)鍵詞,該關(guān)鍵詞搜索裝置包括整體匹配單元,該整體匹配單元從
所述文檔圖像中提取多個(gè)候選關(guān)鍵詞圖像區(qū)域,提取所述多個(gè)候選關(guān)鍵 詞圖像區(qū)域的圖像特征,將所述圖像特征與所述關(guān)鍵詞的特征進(jìn)行匹配,
以獲得與所述多個(gè)候選關(guān)鍵詞圖像區(qū)域相對(duì)應(yīng)的匹配距離;校驗(yàn)單元,
12該校驗(yàn)單元對(duì)匹配距離小的前N個(gè)候選關(guān)鍵詞圖像區(qū)域進(jìn)行識(shí)別,計(jì)算 識(shí)別候選和所述關(guān)鍵詞之間的校驗(yàn)距離;過(guò)濾單元,該過(guò)濾單元計(jì)算所 述匹配距離和所述校驗(yàn)距離的組合距離,并根據(jù)該組合距離濾除組合距 離大的候選關(guān)鍵詞圖像區(qū)域。
根據(jù)本發(fā)明的另一方面,在根據(jù)本發(fā)明的關(guān)鍵詞搜索裝置中,所述 整體匹配單元包括連通域分析單元,該連通域分析單元對(duì)所述文檔圖
像進(jìn)行分析,以確定所述文檔圖像中的連通域;候選區(qū)域提取單元,該
候選區(qū)域提取單元根據(jù)所述連通域從所述文檔圖像中提取所述關(guān)鍵詞候
選圖像區(qū)域;特征提取單元,該特征提取單元從所述關(guān)鍵詞候選圖像區(qū) 域中提取特征;特征合成單元,該特征合成單元根據(jù)所述關(guān)鍵詞中的各 個(gè)字符來(lái)合成關(guān)鍵詞的特征;匹配單元,該匹配單元將所提取的所述關(guān) 鍵詞候選圖像區(qū)域的特征與所述關(guān)鍵詞的合成特征進(jìn)行比較,以獲得所 述匹配距離。
根據(jù)本發(fā)明的另一方面,在根據(jù)本發(fā)明的關(guān)鍵詞搜索裝置中,所述 校驗(yàn)單元包括候選字符區(qū)域獲取單元,該候選字符區(qū)域獲取單元對(duì)于
每一個(gè)候選關(guān)鍵詞圖像區(qū)域,通過(guò)連通域分析來(lái)確定候選單一字符圖像
區(qū)域;單字識(shí)別單元,該單字識(shí)別單元對(duì)由所述候選字符區(qū)域獲取單元 確定的每一個(gè)候選單一字符圖像區(qū)域進(jìn)行識(shí)別,對(duì)于每一個(gè)候選單一字 符圖像區(qū)域得到一系列識(shí)別候選,從而獲得與所有候選單一字符圖像區(qū) 域相對(duì)應(yīng)識(shí)別候選陣列;編輯距離計(jì)算單元,該編輯距離計(jì)算單元計(jì)算 所述識(shí)別候選陣列與所述關(guān)鍵詞的編輯距離作為所述候選關(guān)鍵詞圖像區(qū) 域的校驗(yàn)距離。
根據(jù)本發(fā)明的另一方面,本發(fā)明還提供了一種基于圖像內(nèi)容的關(guān)鍵 詞搜索方法,該關(guān)鍵詞搜索方法在所輸入的文檔圖像中搜索并定位所輸 入的關(guān)鍵詞,該關(guān)鍵詞搜索方法包括以下步驟整體匹配步驟,從所述 文檔圖像中提取多個(gè)候選關(guān)鍵詞圖像區(qū)域,提取所述多個(gè)候選關(guān)鍵詞圖 像區(qū)域的圖像特征,將所述圖像特征與所述關(guān)鍵詞的特征進(jìn)行匹配,以 獲得與所述多個(gè)候選關(guān)鍵詞圖像區(qū)域相對(duì)應(yīng)的匹配距離;校驗(yàn)步驟,對(duì) 匹配距離小的前N個(gè)候選關(guān)鍵詞圖像區(qū)域進(jìn)行識(shí)別,計(jì)算識(shí)別候選和所述關(guān)鍵詞之間的校驗(yàn)距離;過(guò)濾步驟,計(jì)算所述匹配距離和所述校驗(yàn)距
離的組合距離,并根據(jù)該組合距離濾除組合距離大的候選關(guān)鍵詞圖像區(qū) 域。
本發(fā)明的關(guān)鍵詞搜索方法不對(duì)文檔圖像進(jìn)行切分,而是利用連通域 分析提取初步的候選關(guān)鍵詞圖像區(qū)域,并直接從候選關(guān)鍵詞圖像區(qū)域提 取特征,然后與關(guān)鍵詞的合成特征進(jìn)行整體匹配,并對(duì)所有的候選關(guān)鍵
詞圖像區(qū)域的匹配結(jié)果按照匹配距離由小到大進(jìn)行排序,取前N個(gè)候選 關(guān)鍵詞圖像區(qū)域作為候選關(guān)鍵詞圖像區(qū)域。本發(fā)明的方法不需對(duì)文檔圖 像進(jìn)行切分,從而避免了傳統(tǒng)方法中的切分錯(cuò)誤。另外,采用整體匹配 的方法,而不是利用識(shí)別技術(shù)對(duì)每一個(gè)字符區(qū)域進(jìn)行識(shí)別,將大類別的 識(shí)別問(wèn)題變成了簡(jiǎn)單的匹配問(wèn)題,從而能夠極大地提高處理的精度和速 度。
此外,本發(fā)明的關(guān)鍵詞搜索方法在利用整體匹配方法得到候選關(guān)鍵 詞圖像區(qū)域之后,利用單字識(shí)別技術(shù)對(duì)候選關(guān)鍵詞圖像區(qū)域進(jìn)行校驗(yàn)。 僅對(duì)數(shù)量極少的候選關(guān)鍵詞圖像區(qū)域進(jìn)行校驗(yàn),避免了對(duì)整個(gè)圖像的切 分識(shí)別,從而減少了切分錯(cuò)誤的發(fā)生,并且極大地提高了處理的速度。
此外,本發(fā)明的關(guān)鍵詞搜索方法在整體匹配中,利用了動(dòng)態(tài)規(guī)劃的 方法來(lái)匹配從圖像中提取的特征和關(guān)鍵詞的合成特征,從而保證了整體 識(shí)別的效果,提高了處理的精度。
此外,本發(fā)明的關(guān)鍵詞搜索方法在利用單字識(shí)別技術(shù)對(duì)候選關(guān)鍵詞 圖像區(qū)域進(jìn)行校驗(yàn)的過(guò)程中,計(jì)算候選關(guān)鍵詞圖像區(qū)域的識(shí)別候選與關(guān) 鍵詞之間的編輯距離,有效地獲得了校驗(yàn)距離,從而能夠準(zhǔn)確而快速地 獲得正確的關(guān)鍵詞,因此極大地提高了處理的精度和速度。
此外,本發(fā)明的關(guān)鍵詞搜索方法在獲得整體匹配的匹配距離和利用 單字識(shí)別的校驗(yàn)距離之后,組合這兩種距離,以獲得組合距離。
應(yīng)當(dāng)理解,以上總體說(shuō)明和以下詳細(xì)說(shuō)明都是說(shuō)明性和示例性的, 并旨在提供對(duì)所要求的本發(fā)明的進(jìn)一步說(shuō)明。
所包含的附圖用于提供對(duì)本發(fā)明的進(jìn)一步理解,其被并入說(shuō)明書并 構(gòu)成說(shuō)明書的一部分,
了本發(fā)明的實(shí)施方式,并與說(shuō)明書一起 用于解釋本發(fā)明的原理。
圖1是基于OCR技術(shù)的傳統(tǒng)裝置的基本結(jié)構(gòu)及操作流程的方框圖; 圖2是根據(jù)本發(fā)明實(shí)施方式的關(guān)鍵詞搜索裝置的總體結(jié)構(gòu)的方框
圖3是根據(jù)本發(fā)明實(shí)施方式的關(guān)鍵詞搜索方法的總體流程圖4是根據(jù)本發(fā)明實(shí)施方式的整體匹配單元的方框圖5是根據(jù)本發(fā)明實(shí)施方式的候選區(qū)域提取單元的方框圖6是根據(jù)本發(fā)明的文檔圖像特征與合成特征的匹配方法的示意
圖7是根據(jù)本發(fā)明實(shí)施方式的校驗(yàn)單元的方框圖8是根據(jù)本發(fā)明實(shí)施方式的候選字符區(qū)域獲取方法的示意圖。
具體實(shí)施例方式
下面將參照附圖詳細(xì)說(shuō)明根據(jù)本發(fā)明實(shí)施方式的關(guān)鍵詞搜索方法和 裝置。
參照?qǐng)D2和圖3描述根據(jù)本發(fā)明實(shí)施方式的關(guān)鍵詞搜索裝置的總體 結(jié)構(gòu)和操作流程。
圖2是根據(jù)本發(fā)明實(shí)施方式的關(guān)鍵詞搜索裝置的總體結(jié)構(gòu)的方框 圖。圖3是根據(jù)本發(fā)明實(shí)施方式的關(guān)鍵詞搜索方法的總體流程圖。
如圖2所示,根據(jù)本發(fā)明的關(guān)鍵詞搜索裝置包括整體匹配單元201、 校驗(yàn)單元202、過(guò)濾單元204。
如圖3所示,向整體匹配單元201輸入文檔圖像和關(guān)鍵詞(步驟Sl), 整體匹配單元201根據(jù)所輸入的文檔圖像和關(guān)鍵詞來(lái)計(jì)算匹配距離,具 體地說(shuō),整體匹配單元201從文檔圖像中提取候選關(guān)鍵詞圖像區(qū)域(步 驟S2),并提取這些候選關(guān)鍵詞圖像區(qū)域的圖像特征(步驟S3),與所輸 入的關(guān)鍵詞的特征進(jìn)行整體匹配,得到一系列的匹配距離,按由小到大 順序?qū)λ玫降钠ヅ渚嚯x進(jìn)行排列并輸出(步驟S4)。校驗(yàn)單元202對(duì)匹
15配距離小的前N個(gè)關(guān)鍵詞區(qū)域進(jìn)行識(shí)別(步驟S5),并計(jì)算識(shí)別候選和
關(guān)鍵詞之間的校驗(yàn)距離(步驟S6)。過(guò)濾單元204利用整體匹配單元201 輸出的匹配距離和校驗(yàn)單元202輸出的校驗(yàn)距離,通過(guò)線性組合,計(jì)算 出組合距離(步驟S7),并根據(jù)該組合距離濾除組合距離較大的候選關(guān)鍵 詞區(qū)域(步驟S8),最終輸出搜索結(jié)果(步驟S9)。
下面將詳細(xì)說(shuō)明根據(jù)本發(fā)明實(shí)施方式的關(guān)鍵詞搜索裝置的各個(gè)單元 的具體結(jié)構(gòu)和操作。
首先,將參照?qǐng)D4對(duì)根據(jù)本發(fā)明實(shí)施方式的整體匹配單元201進(jìn)行 詳細(xì)說(shuō)明。
圖4是根據(jù)本發(fā)明實(shí)施方式的整體匹配單元201的方框圖。 如圖4所示,整體匹配單元201包括連通域分析單元301、候選區(qū) 域提取單元302、特征提取單元304、特征合成單元305、匹配單元307。 此外,整體匹配單元201還包括單字特征庫(kù)306。
連通域分析單元301對(duì)所輸入的文檔圖像進(jìn)行分析,以確定文檔圖 像中的連通域,連通域是圖像前景色(通常為黑色)像素點(diǎn)的集合,在 該集合中,任何兩個(gè)像素點(diǎn)都能通過(guò)該集合內(nèi)的像素點(diǎn)相連通。候選區(qū) 域提取單元302根據(jù)連通域從所輸入的文檔圖像中提取關(guān)鍵詞候選圖像 區(qū)域。特征提取單元304從關(guān)鍵詞候選圖像區(qū)域中直接提取出特征(例 如外圍輪廓特征、或輪廓方向特征等,參見Q. D. Trier, A. K. Jain and T. Taxt, "Feature Extraction Methods for Character Recognition - a Survey", Pattern Recognition, Vol. 29, No. 4, pp. 641-662, 1996以及F. Kimura, T. Wakabayashi, S. Tsuruoka and Y. Miyake, "Improvement of Handwritten Japanese Character Recognition Using Weighted Direction Code Histogram", Pattern Recognition, Vol. 30, No. 8, pp. 1329-1337, 1997)。特征合成單元 305根據(jù)所輸入的關(guān)鍵詞中的各個(gè)字符,利用單字特征庫(kù)306中所存儲(chǔ)的 相應(yīng)字符特征來(lái)合成關(guān)鍵詞的特征。匹配單元307通過(guò)將通過(guò)特征提取 單元304提取的特征與通過(guò)特征合成單元305合成的關(guān)鍵詞的合成特征 進(jìn)行比較,得到各個(gè)候選關(guān)鍵詞圖像區(qū)域的匹配距離,根據(jù)匹配距離的 大小對(duì)這些匹配距離進(jìn)行排序并輸出。具體地說(shuō),連通域分析單元301通過(guò)連通域檢測(cè)算法(參見
Hypermedia Image Processing Preference, Bob Fisher, Simon Perkins, Ashley Walker and Erik Wolfart Department of Artificial .Intelligence University of Edinburgh, UK. http:〃homepages.inf.ed.ac.uk/rbf/HIPR2/),標(biāo)識(shí)出所輸 入的文檔圖像中的所有連通域,并根據(jù)標(biāo)識(shí)出的連通域的大小、位置及 其與相鄰連通域之間的距離等信息,將相應(yīng)的連通域合并為新的連通域。 例如,假設(shè)所輸入的文檔圖像為橫向書寫的文檔圖像,則當(dāng)連通域A在 連通域B上方時(shí),連通域B和A應(yīng)該屬于同一字符,因此應(yīng)當(dāng)將連通域 B和A合并為一新的連通域。具體地,連通域的合并可以參見美國(guó)專利 申請(qǐng)US6,535,619B1中的圖11A、 11B、 IIC及其說(shuō)明。
候選區(qū)域提取單元302從連通域分析單元301輸出的連通域中提取 關(guān)鍵詞候選圖像區(qū)域。
在根據(jù)本發(fā)明的一個(gè)實(shí)施方式中,候選區(qū)域提取單元302通過(guò)以下 的方法從連通域中提取關(guān)鍵詞候選圖像區(qū)域。
在該實(shí)施方式中,候選區(qū)域提取單元302根據(jù)所輸入的關(guān)鍵詞中的 字符的數(shù)量/,分析候選關(guān)鍵詞圖像區(qū)域中可能含有的最小連通域數(shù)量 CC^和最大連通域數(shù)量CCm収(確定CC幽和CQ^的方法將在后面進(jìn)行 說(shuō)明),并且將滿足下列條件的相鄰連通域的圖像區(qū)域的組合判定為候選 關(guān)鍵詞圖像區(qū)域-
(1) 在該組合中,連通域的數(shù)量在CCmin到CCmax之間。
(2) 該候選關(guān)鍵詞圖像區(qū)域的寬高比小于所有連通域的平均寬度和 平均高度之比與k/的乘積,艮卩
其中,k為給定的正的常數(shù),通常大于l,騰^為所有連通域的平均寬度, "^一為所有連通域的平均高度,C朋rf,表示第i候選關(guān)鍵詞圖像區(qū)域, 肌淑(0^,)和報(bào)妙《Om《)分別表示第i候選關(guān)鍵詞圖像區(qū)域的寬度和高 度。式(1)表示連通域的組合寬高比不能超過(guò)平均寬高比與關(guān)鍵詞的長(zhǎng) 度的乘積太多。
通過(guò)以下的方法來(lái)確定最小連通域數(shù)量CCmin和最大連通域數(shù)量Umax0
最大連通域數(shù)量ccmax為關(guān)鍵詞中的所有字符的左右結(jié)構(gòu)的偏旁部 首的數(shù)量之和加上一個(gè)正的常數(shù),該常數(shù)可以通過(guò)實(shí)驗(yàn)來(lái)確定,例如可
以為//2。
最小連通域數(shù)量CCm^max (〃2, 1),艮卩,〃2與1中的最大值。
例如,當(dāng)所輸入的關(guān)鍵詞為"北京"時(shí),該關(guān)鍵詞中的字符的數(shù)量/ 為2,關(guān)鍵詞"北京"中的所有的左右結(jié)構(gòu)的偏旁部首的數(shù)量為2 (北) +1 (京)=3,然后將該數(shù)量加上//2,得到最大連通域數(shù)量CC腿^^4。此 外,最小連通域數(shù)量CCmi廠max (〃2, 1) =1。
通過(guò)使用上述條件(1)和(2)來(lái)限定候選關(guān)鍵詞圖像區(qū)域,降低 了需要檢查和匹配的候選關(guān)鍵詞圖像區(qū)域的數(shù)量,從而可以極大地提高 關(guān)鍵詞搜索的處理速度。
該實(shí)施方式的候選區(qū)域提取方法直接利用了連通域分析和關(guān)鍵詞的 偏旁部首分析,適合于只有少量關(guān)鍵詞的檢索的應(yīng)用。
當(dāng)輸入多關(guān)鍵詞時(shí),使用該實(shí)施方式的候選區(qū)域提取方法,候選關(guān) 鍵詞圖像區(qū)域的數(shù)量會(huì)非常多。
因此,本發(fā)明的另一實(shí)施方式使用了具有以下結(jié)構(gòu)的候選區(qū)域提取 單元302。
圖5示出了該候選區(qū)域提取單元302的方框圖。
如圖5所示,該候選區(qū)域提取單元302包括單字識(shí)別單元302A和區(qū) 域確定單元302B。單字識(shí)別單元302A對(duì)所輸入的文檔圖像的各個(gè)連通 域進(jìn)行識(shí)別,并利用動(dòng)態(tài)規(guī)劃方法找出匹配距離最小的識(shí)別結(jié)果(參見 R.G. Casey and E. Lecolinet. A Survey of Methods and Strategies in Character Segmentation. IEEE Trans. Pattern Analysis and Machine Intelligence. Vol 18, No 7, July 1996, PP. 690-706)。然后,候選區(qū)i或確定單 元302B判斷單字識(shí)別單元302A的識(shí)別結(jié)果是否存在關(guān)鍵詞中的字符,
如果存在,則將在該單字區(qū)域前個(gè)字符區(qū)域和后I!2個(gè)字符區(qū)域的合并
區(qū)域作為候選關(guān)鍵詞圖像區(qū)域。
其中,通過(guò)以下的過(guò)程來(lái)確定n,和ri2。
18假設(shè)關(guān)鍵詞中含有/個(gè)字符,并且第i個(gè)字符存在于所輸入的文檔圖 像的某一字符圖像區(qū)域的單字識(shí)別候選中,則W分別被設(shè)置為i-l、 i、 i+l,
112分別被設(shè)置為/-i-l、 /-i、 /-i+l。因此,候選關(guān)鍵詞圖像區(qū)域?yàn)樽疃? (3X3)個(gè)可能區(qū)域,分別對(duì)應(yīng)于前m和后n2個(gè)單字區(qū)域的9種合并區(qū) 域。
注意,在上面的過(guò)程中,當(dāng)m、 112的某些取值<1時(shí),則將其設(shè)置為 1,而當(dāng)取值>/時(shí),則將其設(shè)置為/。
在該實(shí)施方式的候選區(qū)域提取單元302中,提前進(jìn)行單字識(shí)別,利
用與關(guān)鍵詞中的字符和識(shí)別結(jié)果相關(guān)的信息,可以有效地減少候選關(guān)鍵 詞圖像區(qū)域的數(shù)量。
在候選區(qū)域提取單元302提取了候選關(guān)鍵詞圖像區(qū)域之后,特征提 取單元304從候選關(guān)鍵詞圖像區(qū)域直接提取特征。由特征提取單元304 進(jìn)行的操作通常包括圖像歸一化處理和特征提取處理。在現(xiàn)有技術(shù)中, 圖像歸一化存在很多種方法,例如在題為"Handwritten digit normalization method (手寫數(shù)字歸一化方法)"的美國(guó)專利申請(qǐng)US 5325447中所述的 方法。特征提取單元304通過(guò)圖像歸一化處理將候選關(guān)鍵詞圖像區(qū)域歸 一化為指定寬度的圖像,然后從歸一化后的圖像中提取特征,提取特征 的方法也有很多,例如外圍輪廓特征、輪廓方向特征等。
特征提取單元304將所提取的特征輸出到匹配單元307。 此外,特征合成單元305根據(jù)所輸入的關(guān)鍵詞中所包含的各個(gè)字符, 利用單字特征庫(kù)306中所存儲(chǔ)的相應(yīng)字符特征,來(lái)合成關(guān)鍵詞的特征。 具體的合成方法也有很多,例如參見日本專利"特許第3879341號(hào)"和"特 開平11-161740"中所公開的方法,或者通過(guò)直接排列各個(gè)字符特征來(lái)獲 得新的特征。
特征合成單元305將所合成的關(guān)鍵詞特征輸出到匹配單元307。 匹配單元307利用動(dòng)態(tài)規(guī)劃的方法,來(lái)計(jì)算特征提取單元304在候 選關(guān)鍵詞圖像區(qū)域中提取的特征與特征合成單元305合成的關(guān)鍵詞特征 之間的匹配距離,以確定候選關(guān)鍵詞圖像區(qū)域與所輸入的關(guān)鍵詞之間的 近似度,并對(duì)所有的關(guān)鍵詞候選圖像區(qū)域進(jìn)行排序并輸出。
19將參照?qǐng)D6對(duì)具體的匹配方法進(jìn)行說(shuō)明。圖6是根據(jù)本發(fā)明的文檔 圖像特征與合成特征的匹配方法的示意圖。
在圖6中,假設(shè)所輸入的關(guān)鍵詞是"蔡斯家"。并且圖6中的(a) 為從候選關(guān)鍵詞圖像區(qū)域中提取的特征的示意圖,圖6中的(b)為合成 特征的示意圖。圖6中的(c)可理解為單字特征庫(kù)306中所存儲(chǔ)的與關(guān) 鍵詞中的各個(gè)字符相對(duì)應(yīng)的各個(gè)字符特征,即,圖6中的(b)是由圖6 中的(c)合成的。
為了清楚地說(shuō)明匹配過(guò)程,采用根據(jù)線密度(參見F. Kimura, T. Wakabayashi, S. Tsuruoka and Y Miyake, "Improvement of Handwritten Japanese Character Recognition Using Weighted Direction Code Histogram", Pattern Recognition, Vol. 30, No. 8, pp. 1329-1337, 1997以及H. Yamada, K. Yamamoto and T. Saito, "A Nonlinear Normalization Method for Handprinted Kanji Character Recognition - Line Density Equalization", Pattern Recognition Vol. 23, Nno. 9, pp. 1023-1029, 1990)的方法來(lái)劃分網(wǎng)格,以 提取特征。即,根據(jù)線密度將圖像劃分為一定數(shù)量的網(wǎng)格,保證每個(gè)網(wǎng) 格中的黑色點(diǎn)(前景色點(diǎn))的密度一致。然后在每個(gè)網(wǎng)格中提取特征。 為了使問(wèn)題簡(jiǎn)化,假設(shè)候選關(guān)鍵字圖像區(qū)域和合成特征圖像被歸一化為 相同的高度L。匹配兩個(gè)圖像的問(wèn)題實(shí)際上被轉(zhuǎn)換成如何對(duì)應(yīng)候選關(guān)鍵字 圖像區(qū)域和合成特征圖像的每一個(gè)網(wǎng)格列的問(wèn)題。由于兩個(gè)圖像之間可 能存在比例拉伸,同時(shí)還可能存在一些噪聲,所以各個(gè)網(wǎng)格列可能是噪 聲列,或者對(duì)應(yīng)于另一圖像中的多個(gè)網(wǎng)格列。兩個(gè)圖像的直接匹配問(wèn)題 實(shí)際上可以轉(zhuǎn)換為一個(gè)動(dòng)態(tài)規(guī)劃的問(wèn)題(參見E. Ukkonen, "On Approximate String Matching", Foundations of Computation Theory, 1983, LNCS Vol. 158, pp. 487-495以及Needleman, S.B. & Wunsch, C. D., "A general method applicable to the search for similarities in the amino acid sequence of two proteins", J. Mol. Biol. 48, 443-453, 1970)。
將兩個(gè)圖像的匹配距離定義為匹配代價(jià)H(N, M)(其中,N表示候選 關(guān)鍵字圖像區(qū)域的網(wǎng)格列的數(shù)量,M表示合成特征圖像的網(wǎng)格列的數(shù) 量),則H(N,M)可以由以下的遞歸公式給出
20<formula>formula see original document page 21</formula>
在上面的公式中,H(i, j)表示候選關(guān)鍵字圖像區(qū)域的后i列網(wǎng)格與合
成特征圖像的后j列網(wǎng)格的匹配距離。Pi、 Qj分別表示候選關(guān)鍵字圖像區(qū) 域的第i列網(wǎng)格和合成特征圖像的第j列網(wǎng)格。1M,4表示向量A、 B之
間的歐氏距離,14為M,4的縮寫。average(Pi,…,Pi+h)表示候選關(guān)鍵字 圖像區(qū)域的第i列至第i+h列網(wǎng)格列的特征的平均值,average(QjQj+k) 表示合成特征圖像的第j列至第j+k列網(wǎng)格列的特征的平均值, a^(化,^,)表示候選關(guān)鍵字圖像區(qū)域的第i列至第i化列網(wǎng)格列的
平均列與合成特征圖像的第j列至第j+k列網(wǎng)格列的平均列之間的歐式距 離,Q,(U表示候選關(guān)鍵字圖像區(qū)域的第i列至第i+h列網(wǎng)格列被認(rèn)為 是噪聲網(wǎng)格列時(shí)被刪除的代價(jià),C^(A^)表示合成特征圖像的第j列至
第j+k列網(wǎng)格列被認(rèn)為是噪聲網(wǎng)格列時(shí)被刪除的代價(jià)。
在上面的公式中,限定一個(gè)圖像的一列網(wǎng)格列與另一圖像的網(wǎng)格列 之間的匹配最多存在以下4種情況
(1) 該圖像的該網(wǎng)格列與另一圖像的一列網(wǎng)格列匹配;
(2) 該圖像的該網(wǎng)格列與另一圖像的兩列相鄰的網(wǎng)格列匹配;
(3) 該圖像的該網(wǎng)格列與另一圖像的三列相鄰的網(wǎng)格列匹配;(4)該圖像的該網(wǎng)格列為噪聲;
a) 該網(wǎng)格列為噪聲;
b) 該網(wǎng)格列與下一相鄰的網(wǎng)格列為噪聲;
c) 該網(wǎng)格列與下兩列相鄰的網(wǎng)格列為噪聲。
在以上公式中,公式(2)對(duì)應(yīng)于(1)的情況;公式(3) (8)對(duì)應(yīng) 于(2)的情況;公式(4) (9)對(duì)應(yīng)于(3)的情況;公式(5) (10)對(duì) 應(yīng)于(4) a)的情況;公式(6) (11)對(duì)應(yīng)于(4) b)的情況;公式(7) (12)對(duì)應(yīng)于(4) c)的情況。
通過(guò)如上定義的匹配代價(jià)H(N, M),可以利用動(dòng)態(tài)規(guī)劃的方法得到 兩個(gè)圖像(或特征)之間的匹配距離。
應(yīng)當(dāng)注意的是,上面的匹配過(guò)程可以很容易地被擴(kuò)展為一個(gè)圖像的 每一網(wǎng)格列與另一圖像的三列以上的相鄰網(wǎng)格列的匹配情況。
接下來(lái),將參照?qǐng)D7說(shuō)明根據(jù)本發(fā)明的關(guān)鍵詞搜索裝置的校驗(yàn)單元 202的基本結(jié)構(gòu)和操作。
圖7是根據(jù)本發(fā)明實(shí)施方式的校驗(yàn)單元202的方框圖。
如圖7所示,校驗(yàn)單元202包括候選字符區(qū)域獲取單元401、單字 識(shí)別單元402以及編輯距離計(jì)算單元403。
在圖7中,候選字符區(qū)域獲取單元401對(duì)于每一個(gè)候選關(guān)鍵詞圖像 區(qū)域,利用連通域分析來(lái)確定候選單一字符圖像區(qū)域。單字識(shí)別單元402 利用單字識(shí)別引擎來(lái)識(shí)別由候選字符區(qū)域獲取單元401確定的每一個(gè)候 選單一字符圖像區(qū)域,對(duì)于每一個(gè)候選單一字符圖像區(qū)域得到一系列識(shí) 別候選,因此所有的候選單一字符圖像區(qū)域的識(shí)別候選構(gòu)成了一個(gè)識(shí)別 候選陣列。編輯距離計(jì)算單元403計(jì)算該識(shí)別候選陣列與關(guān)鍵詞的編輯 距離,并輸出該編輯距離作為該候選關(guān)鍵詞圖像區(qū)域的校驗(yàn)距離。
具體地說(shuō),候選字符區(qū)域獲取單元401判斷每一個(gè)連通域、每相鄰 的兩個(gè)連通域、每相鄰的三個(gè)連通域是否為候選字符圖像區(qū)域。
圖8中的(a) - (d)示出了候選字符區(qū)域獲取單元401進(jìn)行的處理 的示例。圖8是根據(jù)本發(fā)明實(shí)施方式的候選字符區(qū)域獲取方法的示意圖。 在圖8中,假設(shè)所輸入的候選關(guān)鍵詞圖像區(qū)域?yàn)?河北"。如圖8中的(a)所示,首先從圖像中得到連通域A、 B、 C、 D。其中A由兩個(gè)連通域合 并而成。連通域的合并可以參見美國(guó)專利申請(qǐng)US 6,535,619 Bl中的圖 IIA、 IIB、 IIC及其說(shuō)明。考慮到漢字字符在橫向上最多僅可以有三個(gè) 獨(dú)立結(jié)構(gòu),例如"樹"由"木"、"又"、"寸"三個(gè)獨(dú)立結(jié)構(gòu)組成。如圖8 的(b)所示,相鄰的兩個(gè)連通域被組合作為候選單一字符圖像區(qū)域,艮卩, AB、 BC、 CD;如圖8的(c)所示,相鄰的三個(gè)連通域也被組合作為候 選單一字符圖像區(qū)域,艮卩,ABC、 BCD。
在上面的連通域組合過(guò)程中,當(dāng)組合后的連通域的寬度大于某一給 定閾值Thc時(shí),則不進(jìn)行連通域的組合。如圖8的(d)所示,ABC、 BCD 的寬度大于Thc,艮卩Width (ABC) 〉Thc, Width (BCD) 〉Thc,則ABC、 BCD不被判定為候選單一字符圖像區(qū)域。因此,最終的候選單一字符圖 像區(qū)域?yàn)锳、 B、 C、 D、 AB、 BC禾nCD。
單字識(shí)別單元402識(shí)別所有的候選單一字符圖像區(qū)域。對(duì)每一個(gè)候 選單一字符圖像區(qū)域得到一識(shí)別候選列表。圖8的(e)示出了所有候選 單一字符圖像區(qū)域A、 B、 C、 D、 AB、 BC、 CD的識(shí)別候選陣列。每一 個(gè)識(shí)別候選旁邊的數(shù)字代表該候選單一字符圖像區(qū)域被識(shí)別為該識(shí)別候 選的匹配距離。因?yàn)锳BC、 BCD不是候選單一字符圖像區(qū)域,所以不對(duì) 它們進(jìn)行識(shí)別。
編輯距離計(jì)算單元403利用動(dòng)態(tài)規(guī)劃的方法來(lái)計(jì)算通過(guò)單字識(shí)別單
元402得到的候選識(shí)別結(jié)果陣列與關(guān)鍵詞之間的最佳匹配路徑,并輸出
匹配代價(jià)(即,編輯距離)作為校驗(yàn)距離。
下面詳細(xì)介紹編輯距離計(jì)算單元403進(jìn)行的具體搜索操作。
將所有候選單一字符圖像區(qū)域的識(shí)別候選陣列定義為G,所輸入的
關(guān)鍵詞為K,并且假設(shè)候選關(guān)鍵詞的連通域的數(shù)量為N,關(guān)鍵詞K中的
字符的數(shù)量為M,則計(jì)算候選識(shí)別結(jié)果陣列與關(guān)鍵詞之間的最佳匹配路
徑可以轉(zhuǎn)換為計(jì)算最小代價(jià)E(N, M),最小代4介E(N, M)定義如下
<formula>formula see original document page 23</formula>其中,Q (i=l,…,N), Kj (j = l,…,M)分別表示第i個(gè)連通域和K中 的第j個(gè)字符。Ci,…,i+h表示第i個(gè)至第i+h個(gè)連通域的組合,例如圖7中 的AB, BC等。Qd表示一個(gè)連通域被認(rèn)為是噪聲連通域,從而被刪除的 代價(jià),可以將其設(shè)置為一個(gè)正常數(shù),例如l。 Cost(Ci,.,.,i+h,Kj)表示將第 i個(gè)至第i+h個(gè)連通域的組合區(qū)域識(shí)別為Kj的代價(jià)。各個(gè)候選單一字符圖 像區(qū)域W與Kj的匹配代價(jià)被定義如下
其中m"、(、)表示如果Kj出現(xiàn)在W的識(shí)別候選中,則Kj在W的識(shí)
別候選列表中按匹配距離由小到大排列的位置。MaxCand表示最大的識(shí) 別候選數(shù)。Wk表示W(wǎng)的第k個(gè)識(shí)別候選。
通過(guò)定義匹配代價(jià)E(N, M),上面的處理實(shí)際上被轉(zhuǎn)換成典型的遞歸 動(dòng)態(tài)歸化問(wèn)題,因此可以有效地解決該問(wèn)題。
如圖1所示,由整體匹配單元201計(jì)算的匹配距離以及由校驗(yàn)單元 202計(jì)算的校驗(yàn)距離被輸入到過(guò)濾單元204。
假設(shè)存在m個(gè)候選關(guān)鍵詞圖像區(qū)域,由整體匹配單元201計(jì)算的每 一個(gè)候選關(guān)鍵詞圖像區(qū)域的整體匹配距離為Hi, (i=0, 1…,m-l),并且 按整體匹配距離的大小進(jìn)行排列,即,如果i〉j,則H^Hj。由校驗(yàn)單元 202計(jì)算出的校驗(yàn)距離為Ei, (i=0, 1…,m-l),所輸入的關(guān)鍵詞的長(zhǎng)度 為/,則由過(guò)濾單元204計(jì)算的組合距離可以被定義為
C。wc。m (/) = a * / / + (1 - a) * (& - /f 。) /仏 (15)
其中,a為O至Ul之間的正的常數(shù),其具體數(shù)值可以實(shí)驗(yàn)來(lái)確定。
在計(jì)算出每一個(gè)候選關(guān)鍵詞圖像區(qū)域的組合距離之后,過(guò)濾單元204 根據(jù)所計(jì)算出的組合距離來(lái)濾除組合距離較大的候選關(guān)鍵詞圖像區(qū)域, 并最終輸出搜索結(jié)果。
根據(jù)以上對(duì)具體實(shí)施方式
的描述,在根據(jù)本發(fā)明的關(guān)鍵詞搜索裝置 中,校驗(yàn)單元202以及整體匹配單元201的候選區(qū)域提取單元302A分別 包括單字識(shí)別單元402和單字識(shí)別單元302A。但是本發(fā)明不限于此,本 發(fā)明的關(guān)鍵詞搜索裝置還可以包括由檢驗(yàn)單元202和候選區(qū)域提取單元 302A共用的單字識(shí)別單元203 (如圖2中的虛線部分所示)。
24根據(jù)本發(fā)明,僅對(duì)有限數(shù)量的候選關(guān)鍵詞圖像區(qū)域進(jìn)行單字識(shí)別, 而不用對(duì)整個(gè)圖像進(jìn)行識(shí)別,因此可以極大地提高系統(tǒng)的處理速度。同 時(shí),利用小范圍的動(dòng)態(tài)規(guī)劃校驗(yàn),可以進(jìn)一步提高系統(tǒng)的處理精度。
在上述實(shí)施方式中,僅針對(duì)單個(gè)關(guān)鍵字的搜索進(jìn)行了說(shuō)明,但是本 發(fā)明不限于此,本發(fā)明還可以應(yīng)用于對(duì)多關(guān)鍵詞的搜索。
此外,在本發(fā)明中使用匹配距離來(lái)判斷相似程度,但是本發(fā)明不限 于此,還可以使用匹配距離以外的方法來(lái)判斷相似程度,例如使用特征 向量之間的余弦夾角、特征向量之間的街區(qū)距離等。因此,本發(fā)明的匹 配距離應(yīng)作廣泛的解釋,是本領(lǐng)域技術(shù)人員所能想到的相似程度的定量 表不。
前面對(duì)本發(fā)明實(shí)施方式的描述是示例性和說(shuō)明性的,并不是排他性 的,也不是為了將本發(fā)明限制為所公開的確切形式。顯然,對(duì)于本領(lǐng)域 的普通技術(shù)人員,很多修改和變型是顯而易見的。選擇并說(shuō)明這些實(shí)施 方式是為了更好地說(shuō)明本發(fā)明的原理及其實(shí)際應(yīng)用。從而使得本領(lǐng)域的 其他技術(shù)人員能夠理解用于各種實(shí)施方式的本發(fā)明以及本發(fā)明適于特殊 使用目的的變型。
2權(quán)利要求
1、一種基于圖像內(nèi)容的關(guān)鍵詞搜索裝置,該關(guān)鍵詞搜索裝置在所輸入的文檔圖像中搜索并定位所輸入的關(guān)鍵詞,該關(guān)鍵詞搜索裝置包括整體匹配單元,該整體匹配單元從所述文檔圖像中提取多個(gè)候選關(guān)鍵詞圖像區(qū)域,提取所述多個(gè)候選關(guān)鍵詞圖像區(qū)域的圖像特征,將所述圖像特征與所述關(guān)鍵詞的特征進(jìn)行匹配,以獲得與所述多個(gè)候選關(guān)鍵詞圖像區(qū)域相對(duì)應(yīng)的匹配距離;校驗(yàn)單元,該校驗(yàn)單元對(duì)匹配距離小的前N個(gè)候選關(guān)鍵詞圖像區(qū)域進(jìn)行識(shí)別,計(jì)算識(shí)別候選和所述關(guān)鍵詞之間的校驗(yàn)距離;過(guò)濾單元,該過(guò)濾單元計(jì)算所述匹配距離和所述校驗(yàn)距離的組合距離,并根據(jù)該組合距離濾除組合距離大的候選關(guān)鍵詞圖像區(qū)域。
2、 根據(jù)權(quán)利要求1所述的關(guān)鍵詞搜索裝置,其中,所述整體匹配單 元包括連通域分析單元,該連通域分析單元對(duì)所述文檔圖像進(jìn)行分析,以 確定所述文檔圖像中的連通域;候選區(qū)域提取單元,該候選區(qū)域提取單元根據(jù)所述連通域從所述文 檔圖像中提取所述關(guān)鍵詞候選圖像區(qū)域;特征提取單元,該特征提取單元從所述關(guān)鍵詞候選圖像區(qū)域中提取 特征;特征合成單元,該特征合成單元根據(jù)所述關(guān)鍵詞中的各個(gè)字符來(lái)合 成關(guān)鍵詞的特征;匹配單元,該匹配單元將所提取的所述關(guān)鍵詞候選圖像區(qū)域的特征 與所述關(guān)鍵詞的合成特征進(jìn)行比較,以獲得所述匹配距離。
3、 根據(jù)權(quán)利要求2所述的關(guān)鍵詞搜索裝置,其中,所述關(guān)鍵詞候選 圖像區(qū)域包含滿足以下條件的相鄰連通域(1)連通域的數(shù)量在CC油到CC皿之間,其中,CCm趙表示最大連 通域數(shù)量,其為所述關(guān)鍵詞中的所有字符的左右結(jié)構(gòu)的偏旁部首的數(shù)量 之和加上一給定的正的常數(shù),CCmin表示最小連通域數(shù)量,并且CCmin-max (〃2, 1),即〃2與1中的最大值,/為所述關(guān)鍵詞中的字符的數(shù)量;(2)所述關(guān)鍵詞候選圖像區(qū)域的寬高比小于所有連通域的平均寬度和平均高度之比與k/的乘積,即附必/z(C朋《)〈"avew,礎(chǔ)其中,k為給定的正的常數(shù),通常大于l,"氣,.湖為所有連通域的平均寬度, "^一,為所有連通域的平均高度,C朋《表示第i候選關(guān)鍵詞圖像區(qū)域, 附淑(0^,)和報(bào)妙"0^,)分別表示第i候選關(guān)鍵詞圖像區(qū)域的寬度和高 度。
4、 根據(jù)權(quán)利要求2所述的關(guān)鍵詞搜索裝置,其中,所述候選區(qū)域提 取單元包括單字識(shí)別單元,該單字識(shí)別單元對(duì)所述文檔圖像中的各個(gè)連通域進(jìn) 行識(shí)別;以及區(qū)域確定單元,該區(qū)域確定單元判斷所述單字識(shí)別單元的識(shí)別結(jié)果 中是否存在所述關(guān)鍵字中的字符,如果存在,則將與該識(shí)別結(jié)果相對(duì)應(yīng) 的連通域的前m個(gè)連通域和后n2個(gè)連通域的合并區(qū)域作為所述候選關(guān)鍵 詞圖像區(qū)域,其中,n!被分別設(shè)置為i-l、 i、 i+l,并且112被分別設(shè)置為/-"1、 Z-i、 /-i+l,其中/為所述關(guān)鍵詞中的字符的數(shù)量,i表示所述單字識(shí)別單元的 識(shí)別結(jié)果中存在所述關(guān)鍵字中的第i個(gè)字符,并且當(dāng)ni或n2的值^時(shí), 將該值設(shè)置為l,而當(dāng)n,或n2的值W時(shí),將該值設(shè)置為/。
5、 根據(jù)權(quán)利要求2所述的關(guān)鍵詞搜索裝置,其中,所述整體匹配單 元還包括單字特征庫(kù),該單字特征庫(kù)中存儲(chǔ)有字符特征,并且其中所述 特征合成單元使用所述單字特征庫(kù)中存儲(chǔ)的字符特征來(lái)合成所述關(guān)鍵詞 的特征。
6、 根據(jù)權(quán)利要求2所述的關(guān)鍵詞搜索裝置,其中,所述匹配單元將 所述候選關(guān)鍵字圖像區(qū)域和所述合成特征圖像劃分成多個(gè)網(wǎng)格,使每個(gè) 網(wǎng)格中的前景色點(diǎn)的密度一致,并通過(guò)以下公式獲得所述候選關(guān)鍵字圖 像區(qū)域和所述合成特征圖像的匹配距離,<formula>formula see original document page 4</formula>其中,N表示候選關(guān)鍵字圖像區(qū)域的網(wǎng)格列的數(shù)量,M表示合成特征圖像的網(wǎng)格列的數(shù)量,H(i, j)表示候選關(guān)鍵字圖像區(qū)域的后i列網(wǎng)格與合成特征圖像的后j列網(wǎng)格的匹配距離,Pi、 Qj分別表示候選關(guān)鍵字圖像 區(qū)域的第i列網(wǎng)格和合成特征圖像的第j列網(wǎng)格,M,《表示向量A、 B之間的歐氏距離,H4為M,4的縮寫,average(Pi, ...,Pi+h)表示候選關(guān)鍵 字圖像區(qū)域的第i列至第i+h列網(wǎng)格列的特征的平均值,average(Qj Qj+k)表示合成特征圖像的第j列至第j+k列網(wǎng)格列的特征的平均值, Cow(S、,2, ,M)表示候選關(guān)鍵字圖像區(qū)域的第i列至第i+h列網(wǎng)格列的平均列與合成特征圖像的第j列至第j+k列網(wǎng)格列的平均列之間的歐式距 離,C&,W,..,,+J表示候選關(guān)鍵字圖像區(qū)域的第i列至第i+h列網(wǎng)格列被認(rèn)為是噪聲網(wǎng)格列時(shí)被刪除的代價(jià),C"A,^)表示合成特征圖像的第j列至第j+k列網(wǎng)格列被認(rèn)為是噪聲網(wǎng)格列時(shí)被刪除的代價(jià)。
7、根據(jù)權(quán)利要求1所述的關(guān)鍵詞搜索裝置,其中,所述校驗(yàn)單元包括候選字符區(qū)域獲取單元,該候選字符區(qū)域獲取單元對(duì)于每一個(gè)候選 關(guān)鍵詞圖像區(qū)域,通過(guò)連通域分析來(lái)確定候選單一字符圖像區(qū)域;單字識(shí)別單元,該單字識(shí)別單元對(duì)由所述候選字符區(qū)域獲取單元確 定的每一個(gè)候選單一字符圖像區(qū)域進(jìn)行識(shí)別,對(duì)于每一個(gè)候選單一字符 圖像區(qū)域得到一系列識(shí)別候選,從而獲得與所有候選單一字符圖像區(qū)域 相對(duì)應(yīng)識(shí)別候選陣列;編輯距離計(jì)算單元,該編輯距離計(jì)算單元計(jì)算所述識(shí)別候選陣列與 所述關(guān)鍵詞的編輯距離作為所述候選關(guān)鍵詞圖像區(qū)域的校驗(yàn)距離。
8、根據(jù)權(quán)利要求7所述的關(guān)鍵詞搜索裝置,其中,所述編輯距離計(jì)算單元通過(guò)以下公式計(jì)算所述編輯距離,'單-1, M -1) + C。W(C", ) 翠-2, Af -1) + Ow〖(C" , K ) 幸-3, M -1) + Co《,("一d, ( —2), &) 翠-1,M) + Q,其中,N為候選關(guān)鍵詞圖像區(qū)域的連通域的數(shù)量,M為關(guān)鍵詞中的 字符的數(shù)量,E(N,M)表示編輯距離,Q (i=l,...,N)、 Kj (j = l, ...,M) 分別表示第i個(gè)連通域和關(guān)鍵詞中的第j個(gè)字符,Ci, ...,i+h表示第i至第i+h 個(gè)連通域的組合,Qd表示一個(gè)連通域被認(rèn)為是噪聲連通域時(shí)被刪除的代 價(jià),其為正常數(shù),Cost (Ci,..,h,Kj)表示將第i個(gè)至第i+h個(gè)連通域的組 合區(qū)域識(shí)別為K」的代價(jià),其可以通過(guò)以下公式獲得,五(jV, M) = min<f[ra"、 ) -1] /[MaxCa"d — 1] 3『化=0 < A: S Ma;cCa"t/、 1 Vt, 0 < h M。xOmd『A # ■其中,W表示候選單一字符圖像區(qū)域,腦、(、)表示如果Kj出現(xiàn)在W的識(shí)別候選中,則Kj在W的識(shí)別候選列表中按匹配距離由小到大排 列的位置,MaxCand表示最大的識(shí)別候選數(shù),Wk表示W(wǎng)的第k個(gè)識(shí)別 候選。
9、根據(jù)權(quán)利要求1所述的關(guān)鍵詞搜索裝置,其中,所述過(guò)濾單元通過(guò)以下公式計(jì)算所述組合距離,?!? (/) = " * 〃 + (1 - * (//, -//。)///。 其中,CM匚(0為組合距離,"為O至ljl之間的正的常數(shù),Hi (i=0, 1…,m-l)為所述整體匹配單元計(jì)算的匹配距離,并且按匹配距離的大 小進(jìn)行排列,即,如果i〉j,則H一Hj, Ei (i=0, 1…,m-l)為所述校驗(yàn)單元計(jì)算的校驗(yàn)距離,/為關(guān)鍵詞中的字符的數(shù)量,m為候選關(guān)鍵詞圖像區(qū)域的數(shù)量。
10、 根據(jù)權(quán)利要求1所述的關(guān)鍵詞搜索裝置,該關(guān)鍵詞搜索裝置還 包括單字識(shí)別單元,并且其中,所述校驗(yàn)單元通過(guò)所述單字識(shí)別單元對(duì) 所述候選關(guān)鍵詞圖像區(qū)域進(jìn)行識(shí)別。
11、 根據(jù)權(quán)利要求2所述的關(guān)鍵詞搜索裝置,其中,該關(guān)鍵詞搜索裝置還包括單字識(shí)別單元,并且其中,所述候選區(qū)域提取單元通過(guò)該單 字識(shí)別單元對(duì)所述文檔圖像中的各個(gè)連通域進(jìn)行識(shí)別,并且所述候選區(qū)域提取單元包括區(qū)域確定單元,該區(qū)域確定單元判斷所述單字識(shí)別單元的識(shí)別結(jié)果 中是否存在所述關(guān)鍵字中的字符,如果存在,則將與該識(shí)別結(jié)果相對(duì)應(yīng)的連通域的前ni個(gè)連通域和后n2個(gè)連通域的合并區(qū)域作為所述候選關(guān)鍵詞圖像區(qū)域,其中,n、被分別設(shè)置為i-l、 i、 i+l,并且112被分別設(shè)置為/-"1、 Z-i、 /—i+l,其中/為所述關(guān)鍵詞中的字符的數(shù)量,i表示所述單字識(shí)別單元的 識(shí)別結(jié)果中存在所述關(guān)鍵字中的第i個(gè)字符,并且當(dāng)r^或ri2的值〈時(shí), 將該值設(shè)置為l,而當(dāng)m或ri2的值W時(shí),將該值設(shè)置為/。
12、 一種基于圖像內(nèi)容的關(guān)鍵詞搜索方法,該關(guān)鍵詞搜索方法在所 輸入的文檔圖像中搜索并定位所輸入的關(guān)鍵詞,該關(guān)鍵詞搜索方法包括 以下步驟整體匹配步驟,從所述文檔圖像中提取多個(gè)候選關(guān)鍵詞圖像區(qū)域, 提取所述多個(gè)候選關(guān)鍵詞圖像區(qū)域的圖像特征,將所述圖像特征與所述 關(guān)鍵詞的特征進(jìn)行匹配,以獲得與所述多個(gè)候選關(guān)鍵詞圖像區(qū)域相對(duì)應(yīng) 的匹配距離;校驗(yàn)步驟,對(duì)匹配距離小的前N個(gè)候選關(guān)鍵詞圖像區(qū)域進(jìn)行識(shí)別, 計(jì)算識(shí)別候選和所述關(guān)鍵詞之間的校驗(yàn)距離;過(guò)濾步驟,計(jì)算所述匹配距離和所述校驗(yàn)距離的組合距離,并根據(jù) 該組合距離濾除組合距離大的候選關(guān)鍵詞圖像區(qū)域。
13、 根據(jù)權(quán)利要求12所述的關(guān)鍵詞搜索方法,其中,所述整體匹配步驟包括以下步驟連通域分析步驟,對(duì)所述文檔圖像進(jìn)行分析,以確定所述文檔圖像 中的連通域;候選區(qū)域提取步驟,根據(jù)所述連通域從所述文檔圖像中提取所述關(guān)鍵詞候選圖像區(qū)域;特征提取步驟,從所述關(guān)鍵詞候選圖像區(qū)域中提取特征; 特征合成步驟,根據(jù)所述關(guān)鍵詞中的各個(gè)字符來(lái)合成關(guān)鍵詞的特征; 匹配步驟,將所提取的所述關(guān)鍵詞候選圖像區(qū)域的特征與所述關(guān)鍵詞的合成特征進(jìn)行比較,以獲得所述匹配距離。
14、 根據(jù)權(quán)利要求13所述的關(guān)鍵詞搜索方法,其中,所述關(guān)鍵詞候 選圖像區(qū)域包含滿足以下條件的相鄰連通域(1) 連通域的數(shù)量在CQ^到CQ^之間,其中,CC咖x表示最大連 通域數(shù)量,其為所述關(guān)鍵詞中的所有字符的左右結(jié)構(gòu)的偏旁部首的數(shù)量 之和加上一給定的正的常數(shù),CCmin表示最小連通域數(shù)量,并且CCmin= max (〃2, 1),即〃2與1中的最大值,/為所述關(guān)鍵詞中的字符的數(shù)量;(2) 所述關(guān)鍵詞候選圖像區(qū)域的寬高比小于所有連通域的平均寬度 和平均高度之比與k/的乘積,即服洲CW,) 匿一, 其中,k為給定的正的常數(shù),通常大于l, ov^,為所有連通域的平均寬度, "W一為所有連通域的平均高度,Om《表示第i候選關(guān)鍵詞圖像區(qū)域, 附湖(Om《)和壓妙/(Om《)分別表示第i候選關(guān)鍵詞圖像區(qū)域的寬度和高 度。
15、 根據(jù)權(quán)利要求13所述的關(guān)鍵詞搜索方法,其中,所述候選區(qū)域 提取步驟包括以下步驟單字識(shí)別步驟,對(duì)所述文檔圖像中的各個(gè)連通域進(jìn)行識(shí)別;以及 區(qū)域確定步驟,判斷所述單字識(shí)別單元的識(shí)別結(jié)果中是否存在所述 關(guān)鍵字中的字符,如果存在,則將與該識(shí)別結(jié)果相對(duì)應(yīng)的連通域的前 個(gè)連通域和后ri2個(gè)連通域的合并區(qū)域作為所述候選關(guān)鍵詞圖像區(qū)域,其中, 被分別設(shè)置為i-l、 i、 i+l,并且ri2被分別設(shè)置為/-i-l、 /-i、/-i+l,其中/為所述關(guān)鍵詞中的字符的數(shù)量,i表示所述單字識(shí)別單元的 識(shí)別結(jié)果中存在所述關(guān)鍵字中的第i個(gè)字符,并且當(dāng)W或n2的值^時(shí),將該值設(shè)置為l,而當(dāng)m或ri2的值w時(shí),將該值設(shè)置為/。
16、 根據(jù)權(quán)利要求13所述的關(guān)鍵詞搜索方法,其中,所述特征合成步驟使用存儲(chǔ)在單字特征庫(kù)中的字符特征來(lái)合成所述關(guān)鍵詞的特征。
17、 根據(jù)權(quán)利要求13所述的關(guān)鍵詞搜索方法,其中,所述匹配步驟將所述候選關(guān)鍵字圖像區(qū)域和所述合成特征圖像劃分成多個(gè)網(wǎng)格,使每個(gè)網(wǎng)格中的前景色點(diǎn)的密度一致,并通過(guò)以下公式獲得所述候選關(guān)鍵字圖像區(qū)域和所述合成特征圖像的匹配距離,<formula>formula see original document page 8</formula>其中,N表示候選關(guān)鍵字圖像區(qū)域的網(wǎng)格列的數(shù)量,M表示合成特 征圖像的網(wǎng)格列的數(shù)量,H(i, j)表示候選關(guān)鍵字圖像區(qū)域的后i列網(wǎng)格與合成特征圖像的后j列網(wǎng)格的匹配距離,Pi、 Qj分別表示候選關(guān)鍵字圖像 區(qū)域的第i列網(wǎng)格和合成特征圖像的第j列網(wǎng)格,lA魂表示向量A、 B 之間的歐氏距離,14為M,4的縮寫,average", ...,Pi+h)表示候選關(guān)鍵 字圖像區(qū)域的第i列至第i+h列網(wǎng)格列的特征的平均值,average(Qj ,..., Qj+k)表示合成特征圖像的第j列至第j+k列網(wǎng)格列的特征的平均值,。w(S,,e,爿)表示候選關(guān)鍵字圖像區(qū)域的第i列至第i+h列網(wǎng)格列的平均列與合成特征圖像的第j列至第j+k列網(wǎng)格列的平均列之間的歐式距離,Q,(U表示候選關(guān)鍵字圖像區(qū)域的第i列至第i+h列網(wǎng)格列被認(rèn)為 是噪聲網(wǎng)格列時(shí)被刪除的代價(jià),,.,-)表示合成特征圖像的第j列至第j+k列網(wǎng)格列被認(rèn)為是噪聲網(wǎng)格列時(shí)被刪除的代價(jià)。
18、 根據(jù)權(quán)利要求12所述的關(guān)鍵詞搜索方法,其中,所述校驗(yàn)步驟包括以下步驟候選字符區(qū)域獲取步驟,對(duì)于每一個(gè)候選關(guān)鍵詞圖像區(qū)域,通過(guò)連通域分析來(lái)確定候選單一字符圖像區(qū)域;單字識(shí)別步驟,對(duì)由所述候選字符區(qū)域獲取單元確定的每一個(gè)候選 單一字符圖像區(qū)域進(jìn)行識(shí)別,對(duì)于每一個(gè)候選單一字符圖像區(qū)域得到一 系列識(shí)別候選,從而獲得與所有候選單一字符圖像區(qū)域相對(duì)應(yīng)識(shí)別候選 陣列;編輯距離計(jì)算步驟,計(jì)算所述識(shí)別候選陣列與所述關(guān)鍵詞的編輯距 離作為所述候選關(guān)鍵詞圖像區(qū)域的校驗(yàn)距離。
19、 根據(jù)權(quán)利要求18所述的關(guān)鍵詞搜索方法,其中,所述編輯距離計(jì)算步驟通過(guò)以下公式計(jì)算所述編輯距離,<formula>formula see original document page 9</formula>其中,N為候選關(guān)鍵詞圖像區(qū)域的連通域的數(shù)量,M為關(guān)鍵詞中的 字符的數(shù)量,E(N,M)表示編輯距離,Ci (i=l,...,N)、 Kj (j = l,...,M) 分別表示第i個(gè)連通域和關(guān)鍵詞中的第j個(gè)字符,Ci,…,i+h表示第i至第i+h 個(gè)連通域的組合,Cdd表示一個(gè)連通域被認(rèn)為是噪聲連通域時(shí)被刪除的代 價(jià),其為正常數(shù),Cost (C^+^Kj)表示將第i個(gè)至第i+h個(gè)連通域的組 合區(qū)域識(shí)別為Kj的代價(jià),其可以通過(guò)以下公式獲得,<formula>formula see original document page 9</formula>其中,W表示候選單一字符圖像區(qū)域,rw、(、)表示如果Kj出現(xiàn)在W的識(shí)別候選中,則Kj在W的識(shí)別候選列表中按匹配距離由小到大排列的位置,MaxCand表示最大的識(shí)別候選數(shù),Wk表示W(wǎng)的第k個(gè)識(shí)別 候選。
20、根據(jù)權(quán)利要求12所述的關(guān)鍵詞搜索方法,其中,所述過(guò)濾步驟 通過(guò)以下公式計(jì)算所述組合距離,C。A咖(/) = a * £, 〃 + (1 - (A -仏)/仏其中,a為O至ljl之間的正的常數(shù),Hi (i=0, 1…,m-l)為所述整 體匹配單元計(jì)算的匹配距離,并且按匹配距離的大小進(jìn)行排列,即,如 果i〉j,則H^Hj, Ei (i=0, 1…,m-1)為所述校驗(yàn)單元計(jì)算的校驗(yàn)距 離,/為關(guān)鍵詞中的字符的數(shù)量,m為候選關(guān)鍵詞圖像區(qū)域的數(shù)量。
全文摘要
本發(fā)明提供了一種基于圖像內(nèi)容的關(guān)鍵詞搜索方法和裝置。該關(guān)鍵詞搜索裝置在所輸入的文檔圖像中搜索并定位所輸入的關(guān)鍵詞,該關(guān)鍵詞搜索裝置包括整體匹配單元,該整體匹配單元從所述文檔圖像中提取多個(gè)候選關(guān)鍵詞圖像區(qū)域,提取所述多個(gè)候選關(guān)鍵詞圖像區(qū)域的圖像特征,將所述圖像特征與所述關(guān)鍵詞的特征進(jìn)行匹配,以獲得與所述多個(gè)候選關(guān)鍵詞圖像區(qū)域相對(duì)應(yīng)的匹配距離;校驗(yàn)單元,該校驗(yàn)單元對(duì)匹配距離小的前N個(gè)候選關(guān)鍵詞圖像區(qū)域進(jìn)行識(shí)別,計(jì)算識(shí)別候選和所述關(guān)鍵詞之間的校驗(yàn)距離;過(guò)濾單元,該過(guò)濾單元計(jì)算所述匹配距離和所述校驗(yàn)距離的組合距離,并根據(jù)該組合距離濾除組合距離大的候選關(guān)鍵詞圖像區(qū)域。
文檔編號(hào)G06K9/62GK101520783SQ20081008094
公開日2009年9月2日 申請(qǐng)日期2008年2月29日 優(yōu)先權(quán)日2008年2月29日
發(fā)明者堀田悅伸, 俊 孫, 直井聰, 藤本克仁, 鄭大念, 黃開竹 申請(qǐng)人:富士通株式會(huì)社