欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

地址識別裝置的制作方法

文檔序號:6608338閱讀:160來源:國知局
專利名稱:地址識別裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及地址識別的裝置。更具體地,涉及一種識別任意間距區(qū) 域內(nèi)的手寫字符地址的地址識別裝置。
背景技術(shù)
傳統(tǒng)上有兩種對手寫地址進(jìn)行識別的方法。
第一種傳統(tǒng)方法是首先從輸入地址圖像中提取單字符區(qū)域(即只含 有一個字符的區(qū)域),并從這些單字符區(qū)域中提取關(guān)鍵字符(在手寫地址 識別中,關(guān)鍵字符為能夠表示行政區(qū)域的單一字符,例如省、區(qū)、州、 市、縣、鎮(zhèn)、鄉(xiāng)、村等),檢測由兩個相鄰關(guān)鍵字符所限定的地名區(qū)域。 為了識別地名區(qū)域內(nèi)的地名,該方法將該地名區(qū)域分割成獨(dú)立的字符, 然后逐個識別這些獨(dú)立字符。
但是,這種傳統(tǒng)的地址識別方法存在一定的缺陷,即,將地址分割 成獨(dú)立字符時常常出現(xiàn)錯誤。特別是當(dāng)自由間距區(qū)內(nèi)的地址相互連接緊 密時,該方法尤其容易出錯。而由于手寫字符常常不太規(guī)范、形態(tài)各異, 所以這種緊密連接的情況很常見。
第二種傳統(tǒng)方法也是首先提取字符片斷,并檢測由兩個相鄰關(guān)鍵字 符所限定的地名區(qū)域。它與第一種方法的不同之處在于,這種方法將地 名區(qū)域內(nèi)的地名作為整體來進(jìn)行識別。比如輸入地址圖像的實(shí)際地址為 "北京市朝陽區(qū)霄云路",首先市,區(qū),路這些關(guān)鍵地址被提取識別出來。 然后這些關(guān)鍵字之間的圖像(或第一個關(guān)鍵字之前的圖像)被切分出來。 即,"北京","朝陽","霄云"所對應(yīng)的圖像將被切分出來。并對這些圖像 整體識別。
這個傳統(tǒng)方法的一個主要問題是,很大一部分實(shí)際地址中,關(guān)鍵字 往往被省去。比如,地址條"北京市朝陽區(qū)霄云路"中的"市"或"區(qū)"可以被略去,而且并不會影響對地址的解讀。在這種情況下,整體識別的 方法會失敗,因為地名區(qū)域也即關(guān)鍵字之間的圖像區(qū)域?qū)o法確定。

發(fā)明內(nèi)容
本發(fā)明鑒于上述問題而提出。本發(fā)明的目的是提供對地址進(jìn)行識別 的地址識別裝置,用以解決現(xiàn)有技術(shù)中的一個或更多個問題。
為了實(shí)現(xiàn)本發(fā)明的目的,根據(jù)本發(fā)明的第一方面,提供了一種地址 識別裝置,所述裝置包括以下單元關(guān)鍵字缺失判斷單元,判斷輸入的 地址圖像中關(guān)鍵字是否缺失;整體地址識別單元,在所述關(guān)鍵字缺失判 斷單元判斷出所述輸入的地址圖像中關(guān)鍵字不缺失時,對所述關(guān)鍵字之 間的地址區(qū)域進(jìn)行整體識別;詞語言地址識別單元,在所述關(guān)鍵字缺失 判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字缺失時,對所述輸入的地 址圖像進(jìn)行詞語言地址識別。
根據(jù)本發(fā)明的第二方面,提供了一種確定字符圖像中單字符區(qū)域的 裝置,所述裝置包括以下單元連通域分割單元,對所述字符圖像進(jìn)行 連通域分割;候選單字符區(qū)域判斷單元,判斷每一個連通域、每相鄰的 倆個連通域以及每相鄰的三個連通域的寬度是否大于閾值,將大于閾值 的每一個連通域、每相鄰的倆個連通域以及每相鄰的三個連通域判斷為 候選單字符區(qū)域。
根據(jù)本發(fā)明的第三方面,提供了一種對地址圖像中的地址進(jìn)行識別 的裝置,所述裝置包括以下單元單字字符識別單元,識別所述地址圖 像中的每一個候選單字符區(qū)域,得到字符識別候選;識別候選陣列獲得 單元,獲得由所有所述候選單字符區(qū)域的字符識別候選所組成的識別候 選陣列;匹配單元,將地址字典中的地址與所述識別候選陣列進(jìn)行匹配, 將識別距離最小的地址識別為識別結(jié)果。
本發(fā)明在字符分割時,每個連通組件,每倆個相鄰的連通組件及每 三個相鄰的連通組件,都將作為可能的字符區(qū)域被分別識別?;谠~圖 搜索的方法則從得到的識別候選序列中搜索最優(yōu)的識別地址。使用多個 連通組件的組合提高了系統(tǒng)的魯棒性,從而降低丟失正確字符的風(fēng)險,提高地址識別的正確度。
本發(fā)明能夠有效地識別存在關(guān)鍵字和不存在關(guān)鍵字的地址。 另外,本發(fā)明在基于詞圖搜索的地名匹配方法中,采用了一種加權(quán) 詞圖的搜索方法。關(guān)鍵字與普通漢字相比往往能提供更多的信息。當(dāng)關(guān) 鍵字存在時,這種方法突出了關(guān)鍵字的作用,即,給予含關(guān)鍵字的地名 以較大的權(quán)值。另外,中文地址中,低級地名一般不會缺失關(guān)鍵字。比 如,北京市朝陽區(qū)霄云路中,"市"、"區(qū)"可能會被省去,但"路" 一般不會被省去??紤]加權(quán)關(guān)鍵字能提高識別地址識別的效率和正確率。
應(yīng)當(dāng)理解,以上總體說明和以下詳細(xì)說明都是說明性和示例性的, 并旨在提供對所要求的本發(fā)明的進(jìn)一步說明。


所包含的附圖用于提供對本發(fā)明的進(jìn)一步理解,其被并入說明書并 構(gòu)成其一部分,

了本發(fā)明的實(shí)施例,并與說明書一起用于解釋 本發(fā)明的原理。
圖1是依據(jù)本發(fā)明的一個實(shí)施例的地址識別裝置的方框圖; 圖2示出了依據(jù)本發(fā)明一個實(shí)施例的地址識別方法的流程圖; 圖3是依據(jù)本發(fā)明的關(guān)鍵字缺失判斷單元進(jìn)行的候選單字符區(qū)域分 割的示例性說明;
圖4是依據(jù)本發(fā)明實(shí)施例的詞語言地址識別單元的方框圖5是依據(jù)本發(fā)明的一種樹形結(jié)構(gòu)的地址詞圖示意圖6是依據(jù)本發(fā)明的詞語言模型匹配單元的操作流程圖;以及
圖7示出了依據(jù)本發(fā)明一個實(shí)施例的地址識別裝置的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面將參照附圖詳細(xì)說明本發(fā)明的地址識別裝置和方法。在附圖中, 相同的附圖標(biāo)記代表相同或類似的部件。
圖1是依據(jù)本發(fā)明的一個實(shí)施例的地址識別裝置的方框圖。如圖1 所示,依據(jù)本發(fā)明的地址識別裝置包括關(guān)鍵字缺失判斷單元11、整體地址識別單元12、判斷單元13和詞語言地址識別單元14。圖2示出了依據(jù)本發(fā)明一個實(shí)施例的地址識別方法的流程圖。如圖 2所示,在步驟S201中,由關(guān)鍵字缺失判斷單元11將輸入的地址圖像切 分為可能的單一字符區(qū)域,并進(jìn)行關(guān)鍵字是否缺失的確定。在判斷出關(guān) 鍵字不缺失(步驟S202,是)時,在步驟S203,整體地址識別單元12 進(jìn)行整體地址識別。然后,在步驟S204,判斷單元13判斷整體識別單元 12在步驟S203的輸出的地址的匹配距離是否超過一預(yù)設(shè)閾值。如果沒有 超過該閾值,說明整體識別單元識別結(jié)果可靠,于是輸出該結(jié)果為最終識 別結(jié)果。如果該匹配距離超過了該閾值,說明遞歸整體識別單元結(jié)果不 可靠,輸入的地址圖像中仍有較大可能性缺失關(guān)鍵字,于是處理進(jìn)行到 步驟S205,由詞語言地址識別單元14進(jìn)行識別。整體識別單元12在進(jìn)行整體地址識別時,首先從候選單一字符區(qū)域 中提取關(guān)鍵字,再依次提取關(guān)鍵字之間的地名區(qū)域,進(jìn)行遞歸整體識別。 整體識別的方法和步驟可以詳見中國專利申請第200510089537.0號?,F(xiàn) 通過引用將該申請并如本文中,如同在本文中完全闡明一樣。大略地說, 所述整體地址識別步驟可以包括提取步驟,提取所述地址區(qū)域的特征 向量;匹配步驟,將所提取的特征向量與地名字典中的地名的特征向量 相匹配,尋找所有可能候選地名。實(shí)踐中,可以在所述地名字典中的地 名的特征向量與所提取的特征向量的匹配距離小于預(yù)定閾值時就將該地 名判斷為可能候選地名。而如果在所述匹配步驟中獲得多個可能候選地 名時,按預(yù)定的規(guī)則對所述多個可能候選地名進(jìn)行篩選。當(dāng)輸入地址圖像中存在關(guān)鍵字缺失時,整體識別的輸出結(jié)果將會錯 誤。但此時其匹配距離也會較大。因而,由判斷單元13對整體識別單元 的整體識別結(jié)果進(jìn)行評價。判斷單元13的存在進(jìn)一步提高了本發(fā)明的地 址識別方法的可靠性,避免了關(guān)鍵字缺失判斷單元ll的判斷錯誤可能造 成的影響。下面結(jié)合圖3說明關(guān)鍵字缺失判斷單元11和步驟S201的操作。圖 3是依據(jù)本發(fā)明的關(guān)鍵字缺失判斷單元11的候選單字符區(qū)域分割的示例 性說明。依據(jù)本發(fā)明的關(guān)鍵字缺失判斷單元11首先進(jìn)行候選單字符區(qū)域分割。具體地,首先從圖像中分割連通域;然后判斷每一個連通域、每相鄰的倆個連通域以及每相鄰的三個連通域是否為候選單字符區(qū)域。圖3中假設(shè)輸入的地址為"河北..."。作為示例性說明,僅對"河北" 圖像進(jìn)行說明。如圖3 (a),首先從圖像中得到連通域A,B,C,D。其中A 為倆個連通域組合而成。連通域是圖像前景色(通常為黑色)像素點(diǎn)的集 合,在此集合中,任何兩個像素點(diǎn)都能通過該集合內(nèi)的像素相連通。具 體檢測連通域的方法可參見連通域檢測算法(參見/^; erm^^ /waw i ^"e"ce, Bob Fisher, Simon Perkins, Ashley Walker and Erik Wolfart.Depa rtment of Artificial Intelligence University of Edinburgh,UK, http:〃www.cee.hw.ac.uk/hipr/html/label.html),連通域的合并可參見美國專 利US 6,535,619 Bl中圖11A, 11B, IIC及其說明??紤]漢字字符橫向上 最多只可能有三個獨(dú)立結(jié)構(gòu),比如"樹,,由"木","又","寸"組成。如圖 3(b)所示,相鄰的倆個連通域被組合作為候選單一字符區(qū)域,即,AB,BC, CD;如圖3(c)所示,相鄰的三個連通域也被組合作為候選單一字符區(qū)域, ABC, BCD。在上面的連通域組合過程中,當(dāng)組合后的連通域?qū)挾却笥?某一給定閾值The時則不進(jìn)行組合連通域。在一個實(shí)施例中,當(dāng)估計The 時,首先從所有的連通域中得到平均高度,假定為Thh,對漢字而言,漢 字的平均寬度和高度之比往往在一個穩(wěn)定的范圍內(nèi),則The可被設(shè)置為 ThhXcof,其中cof通常為2 3。如圖3(d)所示,BCD的寬度大于J^c,艮卩^CX^ 〉7 2c,貝iJ BCD不被判定為候選的單一字符區(qū)域。于是,最后的候選單一字符區(qū)域 為,A,B,C,D, AB,BC,CD,ABC。在確定了候選單字符區(qū)域之后,判斷所確定的候選單字符區(qū)域中的 單個字符是否為關(guān)鍵字??梢詫⑺龊蜻x單字符區(qū)域中的單個字符與關(guān) 鍵字字典中的關(guān)鍵字進(jìn)行比較,以確定其是否為關(guān)鍵字。在一個實(shí)施例 中,當(dāng)所述單個字符與關(guān)鍵字字典中的關(guān)鍵字的匹配距離小于預(yù)定閾值 時,認(rèn)為其為關(guān)鍵字。在一個實(shí)施例中,在判斷出所述輸入的圖像中存 在關(guān)鍵字時,還進(jìn)行所識別出的關(guān)鍵字所組成的路徑是否合法的判斷。如"省...市"為合法,"市...省"為不合法。在本發(fā)明的一個實(shí)施例中, 所述關(guān)鍵字符詞典單元所保存的可能關(guān)鍵字符僅為包括如下漢字字符 省、市、區(qū)、弄、路、街、村、鄉(xiāng)、鎮(zhèn)、港、灣、縣、道、里、同、巷、 樓、州、旗、胡、莊、坊。在判斷出存在關(guān)鍵字時,如上所示,進(jìn)行步 驟S203的整體識別。在判斷出不存在關(guān)鍵字或關(guān)鍵字路徑不符合預(yù)定規(guī)則(在某些實(shí)施例中)時,進(jìn)行步驟S205的詞語言地址識別。圖4是依據(jù)本發(fā)明實(shí)施例的詞語言地址識別單元(詞圖搜索識別單 元)13的方框圖。如圖4所示,依據(jù)一個實(shí)施例,本發(fā)明的詞語言地址 識別單元13包括地址詞圖存儲單元302、單字字符識別單元301、候選 陣列獲得單元303、詞語言模型匹配單元304。在詞語言地址識別單元13中,首先對輸入的候選單一字符區(qū)域進(jìn)行 單字字符識別,于是每一候選單一字符區(qū)域都得到長度為N個的識別候 選,通過候選陣列獲得單元303簡單地排列所有的候選單一字符區(qū)域的識 別候選,而獲得一識別候選陣列。匹配單元將存儲在地址詞圖存儲單元 302當(dāng)中的地名(如,北京或北京市,上海或上海市,湖北或湖北省等) 與該識別候選陣列進(jìn)行匹配,并從中計算出識別距離最小的地址列作為 識別結(jié)果。更具體地,圖4中單字字符識別單元301用來識別候選單字區(qū)域。 單字字符識別單元301識別每一個候選單字區(qū)域而得到字符識別候選。 此時的候選單字區(qū)域就是前面所述的每一個連通域,每相鄰的倆個和三 個連通域,并利用給定的任一分類方法(比如模板匹配,二次判別分析,支撐 向量機(jī)等)對所述各連通域進(jìn)行了分類識別。所有候選單字區(qū)域的識別 候選將會組合成一陣列(識別候選陣列)。這種組合候選陣列獲得單元303 完成。匹配單元304則將存儲在地址詞圖存儲單元302當(dāng)中的地名(如, 北京或北京市,上?;蛏虾J?,湖北或湖北省等)與該識別候選陣列進(jìn) 行匹配,并從中計算出識別距離最小的地址列作為識別結(jié)果。圖5是依據(jù)本發(fā)明的一種樹形結(jié)構(gòu)的地址詞圖示意圖。在圖5中, 地名根據(jù)其隸屬關(guān)系被組織成樹形結(jié)構(gòu)。EO代表根節(jié)點(diǎn),連接一級地址, 即直轄市,或省級地址,如Ell示出了北京市,E12示出了上海市,E13示出了湖北省等。為了有效地識別關(guān)鍵字缺失的地址,該詞圖中的樹形 結(jié)構(gòu)的各節(jié)點(diǎn),既存儲含關(guān)鍵字的地名,又存儲不含關(guān)鍵字的地名,如Ell 中,北京和北京市都存儲在節(jié)點(diǎn)中。依據(jù)隸屬關(guān)系,中文地址最多只有四級結(jié)構(gòu),例如E13 (湖北省)-£23(荊州市)-£33(沙市區(qū))-£41(紅門路)。 圖6是依據(jù)本發(fā)明的匹配單元304的操作流程圖。如圖6所示,在 步驟S1讀入數(shù)據(jù),即識別各候選單字區(qū)域得到識別候選陣列。假設(shè)候選 單字區(qū)域共m個,表示為M"2,...,^^,識別每個候選區(qū)域A共得到" 個候選,表示為Q (0<i<m, 0<j<n+l,i,j均為正整數(shù)),每個識別候選的識別 距離記為Dist(CV)。各候選按照識別距離由小到大進(jìn)行排序,即如果乂〉/t, Dist(Q)> Dist(C汰)。在步驟S2中,利用如下規(guī)則減少候選字符數(shù)目規(guī)則一如果Dist(C27^,從候選陣列中刪除Ciq, Ci(q+1) ...,Cin規(guī)則二如果[Dist(G々)-Dist(C")]/Dist(C")〉77^,從候選陣列中刪除某候選的識別絕對距離越大,說明該候選為正確的單字識別結(jié)果的 可能越小,規(guī)則一用于減少絕對距離大的識別候選。同理,規(guī)則二利用 與第一識別候選的相對值來濾除那些不大可能為正確識別結(jié)果的候選單 字。規(guī)則一和規(guī)則二能減少候選數(shù)目,從而提高系統(tǒng)的搜索速度和識別 精度。在步驟S3,將對識別候選陣列進(jìn)行不缺失第一級地址的匹配。即首先將地址詞圖存儲單元302里的所有第一級地址(77, 73,..,7"與前幾個候選單字區(qū)域的識別候選進(jìn)行匹配,得到候選地名《。具體而言,該候選詞《由以下公式得到,I) = arg maxn卩og尸(77) + log CF(70],p(77)為地名n'出現(xiàn)的概率,可以從大量的地址語料里通過計算"出現(xiàn)的 頻率來得到。CF(W為多個候選單字區(qū)域識別為^的置信度,其計算過程如下假設(shè)77 = ,...,t;},這里z;,o < / < P +1,且/為正整數(shù),表示地名里 的第j'個字符,如乃-北京市,則,T"北,r。-京,^=市。假設(shè),單字區(qū)域<formula>formula see original document page 14</formula>被匹配為<formula>formula see original document page 14</formula>為識別^所得的/個候選。如下 所示地定義字符^與人.的近似度<formula>formula see original document page 14</formula><formula>formula see original document page 14</formula>上面的定義中,如果字符4存在于《的識別候選陣列中,則《可能為字 符4。同時,如果《識別為字符4的距離越小,則《越有可能識別為4,s一z;o則應(yīng)該越大,這也是(i)所闡述的意思。如果字符^不存在于《的識別候選陣列中,則認(rèn)為字符^與《的近似度很小,因此賦給 胸(7;,《.)一個很小的值《,這也是(2)所闡述的意思。最后c/^')定義如下<formula>formula see original document page 14</formula> (3){w、 如果;為關(guān)鍵字,并且存在6工—=7;'"一 —i wc, 如果;不是關(guān)鍵字,或者對任意6,C— - ^誕為一大于1的常數(shù),奮為一小于1的常數(shù)。公式(3)中,該地名n的置信度定義為其中各字符j;與字符圖像的近似度的乘積的加權(quán)。同時,如果^的最后一個字為中有關(guān)鍵字,并且 該關(guān)鍵字出現(xiàn)在字符圖像的識別候選中,說明該候選字符圖為一正確的 地名的可能性很大,我們因此給予以較大權(quán)值滅,否則給予以較小權(quán)值wc。此處,"較大"、"較小"可以被分別理解為"大于""小于"某一預(yù)定的值。當(dāng)?shù)谝患壍孛黄ヅ浜螅_定第二級地名的匹配。第二級地名匹配完成后,再進(jìn)行下級地名匹配,并依此類推。直到匹配結(jié)束。第k級地名A由以下公式得到。<formula>formula see original document page 14</formula> (4) 其中/>(77|11...;^-1)表示前]^1級地址確定后,地名7;出現(xiàn)的概率。該值定義如下<formula>formula see original document page 14</formula>^為地名f在語料庫中出現(xiàn)的頻率。CF(77)置信度由公式(3)計算而得。艮P,在所述匹配中,所述第k級候選地名這樣確定計算前k-l級 地址確定后,地名Ti的出現(xiàn)概率,將計算出的概率與地名圖像被識別成 該地名Ti的置信度相乘,將乘積最大的地名Ti確定為第k級候選地名,i是大于等于1的整數(shù),Ti表示第k級候選地名的第i個候選。所述地名的置信度為地名圖像與識別出的所述地名Ti的近似度的加 權(quán);如果地名Ti中的最后一個候選識別區(qū)域被識別成關(guān)鍵字,則將所述 近似度乘以較大的權(quán)值,如果地名Ti中的最后一個候選識別區(qū)域未被識別成關(guān)鍵字,則將所述近似度乘以較小的權(quán)值。S4用來判斷不缺失第一級地址的匹配S3結(jié)果是否足夠好。具體而 言,假設(shè)不缺失第一級地址的匹配結(jié)果為, £。 = logI Zt.. .d) + log C尸(圳,"=7,…,t貝U, a-l 如果I^五。S7\ 不接受X,,...Xk,r&為一給定閾值。當(dāng)fl^〉7^時,說明匹配結(jié)果A…^的總體可靠性較高,因此接受該匹配結(jié)果為最終的識別結(jié)果。當(dāng);fl五a^2^時,說明匹配結(jié)果Zi...A的總體可靠性較低,因此該匹 配結(jié)果可能為不含第一級地址,比如"湖北省荊州市沙市區(qū)紅門路"中的湖北省可能缺失。因此在步驟S5中進(jìn)行缺失地址的匹配,首先進(jìn)行缺失第一級地址的匹配。在缺失第一級地址的匹配S5中,從地址詞圖存儲單元302中的第二 級地址開始與候選字符區(qū)域的識別候選陣列進(jìn)行匹配,其匹配基本過程 與S3—致。區(qū)別僅在于不從第一級地址開始。該步驟也會得到一匹配總體可靠性flA 。在步驟S6中比較缺失地址匹配的總體可靠性與不缺失地址匹配的 總體可靠性,取其中可靠性高的為最后識別結(jié)果。當(dāng)輸入地址含有第一級地址時,采用S3-S4-S5-S6區(qū)分不缺失第一級地址匹配和缺失第一級地址的匹配的方法,S3將直接輸出識別結(jié)果,而 將不用進(jìn)行缺失第一級地址的匹配,從而能提高系統(tǒng)的效率和精度。注意在上面的說明中,根據(jù)實(shí)際情況,上面的框架應(yīng)該被靈活應(yīng)用。 比如當(dāng)輸入地址中存在一,二級地址均缺失較為頻繁的情況,參考上面的 方框圖,缺失地址匹配步驟可以進(jìn)行缺失第一級和第二級地址的匹配。 從而達(dá)到提高系統(tǒng)效率和精度的效果。圖7示出了依據(jù)本發(fā)明一個實(shí)施例的匹配單元的結(jié)構(gòu)圖。如圖7所 示,依據(jù)本發(fā)明一個實(shí)施例的匹配單元304包括地址不缺失匹配單元 701,用于進(jìn)行上述地址不缺失匹配,即按隸屬關(guān)系逐級將地址字典中的 地址與識別候選陣列進(jìn)行比較;判斷單元702,用于判斷所述地址不缺失 匹配單元701的匹配結(jié)果是否足夠好;地址缺失匹配單元703,用于在所 述判斷單元判斷出所述匹配結(jié)果不夠好時,進(jìn)行地址缺失匹配,即只逐 級進(jìn)行隸屬關(guān)系中的較下幾級的匹配,所述較下幾級是指從隸屬關(guān)系中 的第二級或第三級開始直至隸屬關(guān)系中最后一級;確定單元704,用于選 擇所述地址不缺失匹配單元7021和地址缺失匹配單元7023的匹配結(jié)果 中的較好者。綜上所述,本發(fā)明提供了這樣的地址識別裝置(或方法),所述裝置 (或方法)包括以下單元(或步驟)關(guān)鍵字缺失判斷單元(步驟),判 斷輸入的地址圖像中關(guān)鍵字是否缺失;整體地址識別單元(步驟),在所 述關(guān)鍵字缺失判斷單元(步驟)判斷出所述輸入的地址圖像中關(guān)鍵字不 缺失時,對所述關(guān)鍵字之間的地址區(qū)域進(jìn)行整體識別;詞語言地址識別 單元(步驟),在所述關(guān)鍵字缺失判斷單元(步驟)判斷出所述輸入的地 址圖像中關(guān)鍵字缺失時,對所述輸入的地址圖像進(jìn)行詞語言地址識別。本發(fā)明還提供了一種確定字符圖像中單字符區(qū)域的裝置(方法),所 述裝置(方法)包括以下單元(步驟)連通域分割單元(步驟),對所 述字符圖進(jìn)行連通域分割;候選單字符區(qū)域判斷單元(步驟),判斷每一 個連通域、每相鄰的倆個連通域以及每相鄰的三個連通域是否小于閾值, 將小于所述閾值的每一個連通域、每相鄰的倆個連通域以及每相鄰的三 個連通域判斷為候選單字符區(qū)域。在一個實(shí)施例中,所述裝置(方法)還包括以下單元(步驟)可靠 性判斷單元(步驟),對所述整體地址識別單元(步驟)所識別出的地址 的可靠性進(jìn)行判斷;其中,在所述可靠性判斷單元(步驟)判斷出所述 整體地址識別單元(步驟)所識別出的地址不可靠時,由所述詞語言地 址識別單元(步驟)對所述輸入的地址圖像進(jìn)行詞語言地址識別。在一個實(shí)施例中,當(dāng)所述整體地址識別單元(步驟)所識別出的地 址的匹配距離大于預(yù)定閾值時,所述可靠性判斷單元(步驟)判斷所述 整體地址識別單元(步驟)所識別出的地址不可靠。在一個實(shí)施例中,所述關(guān)鍵字缺失判斷單元(步驟)包括以下單元 (步驟)單個字符提取單元(步驟),提取所述輸入的地址圖像中的候 選單個字符;比較單元(步驟),將所提取的各候選單個字符分別與關(guān)鍵 字字符字典中的關(guān)鍵字進(jìn)行比較;關(guān)鍵字判斷單元(步驟),當(dāng)所述各候選單個字符與所述關(guān)鍵字字符字典中的所有關(guān)鍵字的匹配距離都大于特 定閾值時或雖然存在匹配距離小于特定閾值的所述候選單個字符,但未 出現(xiàn)合理的關(guān)鍵字次序時,判斷所述輸入的地址圖像中關(guān)鍵字缺失。在一個實(shí)施例中,所述單個字符提取單元(步驟)包括以下單元(步 驟)連通域分割單元(步驟),從圖像中分割出連通域;候選單字符區(qū) 域判斷單元(步驟),判斷每一個連通域、每相鄰的倆個連通域以及每相 鄰的三個連通域是否為候選單字符區(qū)域;字符提取單元(步驟),針對所 確定出的候選單字符區(qū)域進(jìn)行字符提取。在一個實(shí)施例中,所述候選單字符區(qū)域判斷單元(步驟)通過判斷 每一個連通域、每相鄰的倆個連通域以及每相鄰的三個連通域的寬度是 否大于給定閾值而分別判斷所述每一個連通域、每相鄰的倆個連通域以 及每相鄰的三個連通域是否為候選單字符區(qū)域。在一個實(shí)施例中,所述整體字符識別單元(步驟)包括以下單元(步 驟)提取單元(步驟),提取所述地址區(qū)域的特征向量;匹配單元(步驟),將所提取的特征向量與地名字典中的地名的特征向量相匹配,尋找 所有可能候選地名。在一個實(shí)施例中,所述詞語言地址識別單元(步驟)包括識別候選陣列獲得單元(步驟),獲得單字符識別區(qū)域的候選單字字符組成的識 別候選陣列;匹配單元(步驟),將地址字典中的地址與所述識別候選陣 列進(jìn)行匹配,將識別距離最小的地址作為識別結(jié)果。在一個實(shí)施例中,所述匹配單元(步驟)包括地址不缺失匹配單元 (步驟),進(jìn)行地址不缺失匹配,即按隸屬關(guān)系逐級將地址字典中的地址 與所述識別候選陣列進(jìn)行匹配。在一個實(shí)施例中,所述匹配單元(步驟)還包括判斷單元(步驟),判斷所述地址不缺失匹配單元(步驟)所確定出 的地址是否可靠;地址缺失匹配單元(步驟),當(dāng)所述判斷單元(步驟) 判斷出所述地址不缺失匹配單元(步驟)所確定出的地址不可靠時,進(jìn) 行地址缺失匹配,即只逐級進(jìn)行隸屬關(guān)系中的較下幾級的匹配,所述較 下幾級是指從隸屬關(guān)系中的第二級或第三級開始直至隸屬關(guān)系中最后一 級;以及可靠性比較單元(步驟),將所述地址不缺失匹配單元(步驟)所確定出的結(jié)果的可靠性與所述地址缺失匹配單元(步驟)所確定出的 結(jié)果的可靠性進(jìn)行比較,將可靠性高的作為匹配結(jié)果。在一個實(shí)施例中,在所述匹配單元(步驟)中,所述第k級候選地 名這樣確定計算確定出了前k-l級地址后,地名Ti的出現(xiàn)概率,將計 算出的概率與地名圖像被識別成該地名Ti的置信度相乘,將乘積最大的 地名Ti確定為第k級候選地名,i是大于等于1的整數(shù),Ti表示第k級候 選地名的第i個候選。在一個實(shí)施例中,所述地名的置信度為地名圖像與識別出的所述地 名Ti的近似度的加權(quán);如果地名Ti中的最后一個候選識別區(qū)域被識別成 關(guān)鍵字,則將所述近似度乘以較大的權(quán)值,如果地名Ti中的最后一個候 選識別區(qū)域未被識別成關(guān)鍵字,則將所述近似度乘以較小的權(quán)值。在一個實(shí)施例中,所述詞語言地址識別單元(步驟)還包括候選字 減少單元(步驟),用于減少所述候選陣列中的候選單字字符。在一個實(shí)施例中,所述候選字減少單元(步驟)根據(jù)以下規(guī)則之一 減少候選單字字符,(1)如果候選單字字符的絕對識別距離大于第一閾 值則將其從所述候選陣列中刪除;(2)如果候選單字字符的相對識別距離大于第二閾值則將其從所述候選陣列中刪除。另外,本發(fā)明還提供了一種計算機(jī)程序,該計算機(jī)程序在被計算機(jī) 執(zhí)行時,可使計算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的地址識別方法及其各組成單元。本發(fā)明還提供了存儲所述程序 的計算機(jī)可讀存儲介質(zhì)。另外,本發(fā)明還提供了一種計算機(jī)程序,該計算機(jī)程序在被計算機(jī) 執(zhí)行時,可使計算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的地址識別裝置及其各組成單元。本發(fā)明還提供了存儲該程序的 計算機(jī)可讀存儲介質(zhì)。另外,本發(fā)明還提供了一種計算機(jī)程序,該計算機(jī)程序在被計算機(jī) 執(zhí)行時,可使計算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的確定字符圖像中單字符區(qū)域的方法及其各組成步驟。本發(fā)明還 提供了存儲該程序的計算機(jī)可讀存儲介質(zhì)。另外,本發(fā)明還提供了一種計算機(jī)程序,該計算機(jī)程序在被計算機(jī) 執(zhí)行時,可使計算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的確定字符圖像中單字符區(qū)域的裝置及其各組成單元。本發(fā)明還 提供了存儲該程序的計算機(jī)可讀存儲介質(zhì)。另外,本發(fā)明還提供了一種計算機(jī)程序,該計算機(jī)程序在被計算機(jī) 執(zhí)行時,可使計算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的對地址圖像中的地址進(jìn)行識別的方法及其各組成步驟。本發(fā)明 還提供了存儲該程序的計算機(jī)可讀存儲介質(zhì)。另外,本發(fā)明還提供了一種計算機(jī)程序,該計算機(jī)程序在被計算機(jī) 執(zhí)行時,可使計算機(jī)實(shí)現(xiàn)權(quán)利要求書中獨(dú)立權(quán)利要求及從屬權(quán)利要求中 所記載的對地址圖像中的地址進(jìn)行識別的裝置及其各組成單元。本發(fā)明 還提供了存儲該程序的計算機(jī)可讀存儲介質(zhì)。所述的計算機(jī)可讀存儲介質(zhì)可以是硬盤、閃存、軟盤、磁盤、DVD、VCD、 CD,閃存、ROM、 RAM等本領(lǐng)域技術(shù)人員所知的所有可存儲計 算機(jī)可執(zhí)行指令或計算機(jī)程序的存儲介質(zhì)。前面對本發(fā)明實(shí)施例的描述是示例性和說明性的,并不是排他性的,也不是為了將本發(fā)明限制到所公開的確切形式。顯然,對于本領(lǐng)域的普 通技術(shù)人員,很多修改和變型是顯而易見的。選擇并說明這些實(shí)施例是 為了最好地說明本發(fā)明的原理及其實(shí)際應(yīng)用。從而使得本領(lǐng)域的其他技 術(shù)人員能夠理解用于各種實(shí)施例的本發(fā)明以及本發(fā)明適于特殊使用目的 的變型。例如本發(fā)明也可應(yīng)用于日語和韓文手寫地名的識別。此外,在 本文中使用匹配距離來判斷相似程度,但判斷相似程度也可使用匹配距 離以外的方法,例如特征向量之間的余弦夾角,特征向量之間的街區(qū)距離 等,因此本發(fā)明的匹配距離應(yīng)作廣泛的解釋,是本領(lǐng)域技術(shù)人員所能想 到的相似程度的定量表示。
權(quán)利要求
1. 一種地址識別裝置,所述裝置包括以下單元關(guān)鍵字缺失判斷單元,判斷輸入的地址圖像中關(guān)鍵字是否缺失;整體地址識別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字不缺失時,對所述關(guān)鍵字之間的地址區(qū)域進(jìn)行整體識別;詞語言地址識別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字缺失時,對所述輸入的地址圖像進(jìn)行詞語言地址識別;可靠性判斷單元,對所述整體地址識別單元所識別出的地址的可靠性進(jìn)行判斷;其中,在所述可靠性判斷單元判斷出所述整體地址識別單元所識別出的地址不可靠時,由所述詞語言地址識別單元對所述輸入的地址圖像進(jìn)行詞語言地址識別。
2、 根據(jù)權(quán)利要求1所述的裝置,其中,當(dāng)所述整體地址識別單元所 識別出的地址的匹配距離大于預(yù)定閾值時,所述可靠性判斷單元判斷所 述整體地址識別單元所識別出的地址不可靠。
3、 根據(jù)權(quán)利要求1所述的裝置,其中,所述關(guān)鍵字缺失判斷單元包 括以下單元單個字符提取單元,提取所述輸入的地址圖像中的候選單個字符; 比較單元,將所提取的各候選單個字符分別與關(guān)鍵字字符字典中的關(guān)鍵字進(jìn)行比較;以及關(guān)鍵字判斷單元,當(dāng)所述各候選單個字符與所述關(guān)鍵字字符字典中的所有關(guān)鍵字的匹配距離都大于特定閾值時或雖然存在匹配距離小于特定閾值的所述候選單個字符,但未出現(xiàn)合理的關(guān)鍵字次序時,判斷所述輸入的地址圖像中關(guān)鍵字缺失。
4、 根據(jù)權(quán)利要求3所述的裝置,其中,所述單個字符提取單元包括 以下單元連通域分割單元,從圖像中分割出連通域;候選單字符區(qū)域判斷單元,判斷每一個連通域、每相鄰的倆個連通 域以及每相鄰的三個連通域是否為候選單字符區(qū)域;以及字符提取單元,針對所確定出的候選單字符區(qū)域進(jìn)行字符提取。
5、 根據(jù)權(quán)利要求4所述的裝置,其中,所述候選單字符區(qū)域判斷單 元通過判斷每一個連通域、每相鄰的倆個連通域以及每相鄰的三個連通 域的寬度是否大于給定閾值而分別判斷所述每一個連通域、每相鄰的倆 個連通域以及每相鄰的三個連通域是否為候選單字符區(qū)域。
6、 根據(jù)權(quán)利要求1所述的裝置,其中,所述整體地址識別單元包括 以下單元提取單元,提取所述地址區(qū)域的特征向量;整體匹配單元,將所提取的特征向量與地名字典中的地名的特征向 量相匹配,尋找所有可能候選地名。
7、 根據(jù)權(quán)利要求1所述的裝置,其中,所述詞語言地址識別單元包括識別候選陣列獲得單元,識別各候選單字符區(qū)域,得到識別候選陣 列;以及匹配單元,將地址字典中的地址與所述識別候選陣列進(jìn)行匹配,將 識別距離最小的地址作為識別結(jié)果。
8、 根據(jù)權(quán)利要求7所述的裝置,其中,所述匹配單元包括地址不缺 失匹配單元,進(jìn)行地址不缺失匹配,即按隸屬關(guān)系逐級將地址字典中的 地址與所述識別候選陣列進(jìn)行匹配。
9、 根據(jù)權(quán)利要求8所述的裝置,其中,所述匹配單元還包括 判斷單元,判斷所述地址不缺失匹配單元所確定出的地址是否可靠; 地址缺失匹配單元,當(dāng)所述判斷單元判斷出所述地址不缺失匹配單元所確定出的地址不可靠時,進(jìn)行地址缺失匹配,即只逐級進(jìn)行隸屬關(guān) 系中的較下幾級的匹配,所述較下幾級是指從隸屬關(guān)系中的第二級或第 三級開始直至隸屬關(guān)系中最后一級;以及可靠性比較單元,將所述地址不缺失匹配單元所確定出的結(jié)果的可靠性與所述地址缺失匹配單元所確定出的結(jié)果的可靠性進(jìn)行比較,將可 靠性高的作為匹配結(jié)果。
10、 根據(jù)權(quán)利要求7所述的裝置,其中,在所述匹配單元中,第k 級候選地名這樣確定計算在確定出了前k-l級地址后,地名Ti的出現(xiàn) 概率,將計算出的概率與地名圖像被識別成該地名Ti的置信度相乘,將乘積最大的地名Ti確定為第k級候選地名,i是大于等于1的整數(shù),Ti 表示第k級候選地名的第i個候選。
11、 根據(jù)權(quán)利要求10所述的裝置,所述地名的置信度為地名圖像與識別出的所述地名Ti的近似度的加權(quán);如果地名Ti中的最后一個候選識別區(qū)域被識別成關(guān)鍵字,則將所述近似度乘以較大的權(quán)值,如果地名Ti 中的最后一個候選識別區(qū)域未被識別成關(guān)鍵字,則將所述近似度乘以較 小的權(quán)值。
12、 根據(jù)權(quán)利要求7所述的裝置,其中,所述詞語言地址識別單元 還包括候選字減少單元,用于減少所述候選陣列中的候選單字字符。
13、 根據(jù)權(quán)利要求12所述的裝置,其中,所述候選字減少單元根據(jù) 以下規(guī)則之一減少候選單字字符,(1) 如果候選單字字符的絕對識別距離大于第一閾值則將其從所述 候選陣列中刪除;以及(2) 如果候選單字字符的相對識別距離大于第二閾值則將其從所述 候選陣列中刪除。
14、 一種確定字符圖像中單字字符區(qū)域的裝置,所述裝置包括以下單元連通域分割單元,對所述字符圖像進(jìn)行連通域分割; 候選單字符區(qū)域判斷單元,判斷每一個連通域、每相鄰的倆個連通 域以及每相鄰的三個連通域的寬度是否小于閾值,將小于所述閾值的每 一個連通域、每相鄰的倆個連通域以及每相鄰的三個連通域判斷為候選 單字符區(qū)域。
15、 一種對地址圖像中的地址進(jìn)行識別的裝置,所述裝置包括以下單元單字字符識別單元,識別所述地址圖像中的每一個候選單字符區(qū)域,得到字符識別候選;識別候選陣列獲得單元,獲得由所有所述候選單字符區(qū)域的字符識別候選所組成的識別候選陣列;以及匹配單元,將地址字典中的地址與所述識別候選陣列進(jìn)行匹配,將 識別距離最小的地址識別為識別結(jié)果。
16、 根據(jù)權(quán)利要求15所述的裝置,其中,所述匹配單元包括地址不 缺失匹配單元,該單元進(jìn)行地址不缺失匹配,即按隸屬關(guān)系逐級將地址 字典中的地址與所述識別候選陣列進(jìn)行匹配。
17、 根據(jù)權(quán)利要求16所述的裝置,其中,所述匹配單元還包括-判斷單元,判斷所述地址不缺失匹配單元所確定出的地址是否可靠; 地址缺失匹配單元,當(dāng)所述判斷單元判斷出所述地址不缺失匹配單元所確定出的地址不可靠時,進(jìn)行地址缺失匹配,即只逐級進(jìn)行隸屬關(guān) 系中的較下幾級的匹配,所述較下幾級是指從隸屬關(guān)系中的第二級或第 三級開始直至隸屬關(guān)系中最后一級,以及可靠性比較單元,將所述地址不缺失匹配單元所確定出的地址的可 靠性與所述地址缺失匹配單元所確定出的地址的可靠性進(jìn)行匹配,將可 靠性高的作為匹配結(jié)果。
18、 根據(jù)權(quán)利要求15所述的裝置,其中,在所述匹配單元中,第k 級候選地名這樣確定計算在前k-l級地址確定后,地名Tj的出現(xiàn)概率, 將計算出的概率與地名圖像被識別成該地名Ti的置信度相乘,將乘積最 大的地名Ti確定為第k級候選地名,i是大于等于l的整數(shù),Ti表示第k 級候選地名的第i個候選。
19、 根據(jù)權(quán)利要求18所述的裝置,所述地名的置信度為地名圖像與 識別出的所述地名Ti的近似度的加權(quán);如果地名Ti中的最后一個候選識 別區(qū)域被識別成關(guān)鍵字,則將所述近似度乘以較大的權(quán)值,如果地名Ti 中的最后一個候選識別區(qū)域未被識別成關(guān)鍵字,則將所述近似度乘以較 小的權(quán)值。
20、 根據(jù)權(quán)利要求15所述的裝置,其中,所述裝置還包括候選字減少單元,用于減少所述候選陣列中的候選單字字符。
21、根據(jù)權(quán)利要求20所述的裝置,其中,所述候選字減少單元根據(jù)以下規(guī)則之一減少候選單字字符,(1) 如果候選單字字符的絕對識別距離大于第一閾值則將其從所述候選陣列中刪除;以及(2) 如果候選單字字符的相對識別距離大于第二閾值則將其從所述候選陣列中刪除。
全文摘要
本發(fā)明公開了地址識別裝置。所述裝置包括以下單元關(guān)鍵字缺失判斷單元,判斷輸入的地址圖像中關(guān)鍵字是否缺失;整體地址識別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字不缺失時,對所述關(guān)鍵字之間的地址區(qū)域進(jìn)行整體識別;詞語言地址識別單元,在所述關(guān)鍵字缺失判斷單元判斷出所述輸入的地址圖像中關(guān)鍵字缺失時,對所述輸入的地址圖像進(jìn)行詞語言地址識別;可靠性判斷單元,對所述整體地址識別單元所識別出的地址的可靠性進(jìn)行判斷;其中,在所述可靠性判斷單元判斷出所述整體地址識別單元所識別出的地址不可靠時,由所述詞語言地址識別單元對所述輸入的地址圖像進(jìn)行詞語言地址識別。
文檔編號G06F17/30GK101276327SQ200710091539
公開日2008年10月1日 申請日期2007年3月27日 優(yōu)先權(quán)日2007年3月27日
發(fā)明者堀田悅伸, 俊 孫, 麗 莊, 朱小燕, 直井聰, 藤本克仁, 黃開竹, 翀 龍 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
兴城市| 沛县| 乐陵市| 邵东县| 左贡县| 临泉县| 云安县| 云安县| 皮山县| 炎陵县| 富锦市| 乌苏市| 澄城县| 图们市| 咸宁市| 上林县| 绩溪县| 睢宁县| 商丘市| 韶山市| 原平市| 玉门市| 永仁县| 临湘市| 尉犁县| 潍坊市| 延安市| 万荣县| 含山县| 阿拉善盟| 海口市| 萨嘎县| 和田县| 大竹县| 墨玉县| 赤水市| 太仆寺旗| 密云县| 新化县| 井陉县| 夏津县|