欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法

文檔序號(hào):5076093閱讀:445來(lái)源:國(guó)知局
專利名稱:一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法
技術(shù)領(lǐng)域
本發(fā)明屬于郵政技術(shù)領(lǐng)域,特別涉及一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法。
背景技術(shù)
隨著經(jīng)濟(jì)和社會(huì)的發(fā)展,信函量不斷增長(zhǎng),傳統(tǒng)的手工分揀無(wú)法滿足實(shí)際需要,使 用信函自動(dòng)分揀機(jī)已成為一種趨勢(shì)。信函自動(dòng)分揀機(jī)是通過(guò)采集信封圖像并對(duì)其進(jìn)行識(shí)別 處理,然后根據(jù)識(shí)別結(jié)果對(duì)信函進(jìn)行分揀?,F(xiàn)有的信函自動(dòng)分揀機(jī)主要是根據(jù)郵政編碼識(shí) 別結(jié)果對(duì)信函進(jìn)行分揀,同時(shí)也有用地址識(shí)別信息對(duì)郵政編碼進(jìn)行補(bǔ)充和修正的方法。如果分揀目標(biāo)是將信函分揀到投遞局,僅僅依靠6位郵政編碼可以實(shí)現(xiàn)分揀,但 如果信封上沒(méi)有郵政編碼時(shí)依然無(wú)法分揀。如果分揀目標(biāo)是分揀到道段,即在同一郵政編 碼范圍內(nèi)需要將信函分揀為如道段,這樣的分揀要求無(wú)法依靠郵政編碼實(shí)現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種地址庫(kù)驅(qū)動(dòng)的信函地址自動(dòng)識(shí)別按址分揀方法,以解決 目前信函分揀技術(shù)中效率和準(zhǔn)確性欠佳的問(wèn)題。本發(fā)明的技術(shù)方案是,一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法,所述地 址信息庫(kù)中的每個(gè)投遞地址至少擁有一種包含實(shí)現(xiàn)轉(zhuǎn)口分揀、本口分揀以及供道段投遞使 用的地址信息的文字表示,將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表 示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配,根據(jù)匹配度獲得所述郵政信函的分揀信 息,實(shí)現(xiàn)郵政信函的轉(zhuǎn)口分揀、本口分揀以及本口分揀后的道段投遞。進(jìn)一步的,所述字符識(shí)別獲得所述郵政信函的地址文字表示的步驟包括對(duì)信函圖像進(jìn)行分析,得到收件人地址的區(qū)域;對(duì)地址區(qū)的漢字采用分割算法進(jìn)行分割,得到多行文字后將每行文字再分割為多 個(gè)單字;對(duì)每個(gè)單字采用漢字采用識(shí)別算法進(jìn)行識(shí)別,獲得所述郵政信函的地址文字表
示 ο進(jìn)一步的,在將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與 所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配,根據(jù)匹配度獲得所述郵政信函的分揀信息 時(shí),結(jié)合所述郵政信函的郵編信息進(jìn)行分揀信息的校驗(yàn)。本發(fā)明所述的地址信息庫(kù)驅(qū)動(dòng)包括首先建立一個(gè)包含標(biāo)準(zhǔn)地址信息條目的地址 庫(kù),而對(duì)每幅信函圖像由模式識(shí)別技術(shù)得到一個(gè)包含地址信息的識(shí)別結(jié)果,對(duì)于地址庫(kù)中 的每條查詢地址信息條目,在識(shí)別結(jié)果中進(jìn)行匹配,獲取匹配度最高的查詢地址信息條目, 分析匹配度信息,若滿足要求則輸出該條目對(duì)應(yīng)得分揀信息,否則沒(méi)有分揀信息。本發(fā)明實(shí)際應(yīng)用于信函分揀機(jī)的識(shí)別模塊中,在地址庫(kù)相對(duì)準(zhǔn)確完整、識(shí)別率基 本保證的情況下,該方法能夠有效對(duì)識(shí)別結(jié)果進(jìn)行分析校正,得到準(zhǔn)確的結(jié)果,即可以完全依靠對(duì)信函地址識(shí)別結(jié)果進(jìn)行信函分揀。


圖1是本發(fā)明實(shí)施例中轉(zhuǎn)口地址表結(jié)構(gòu) 圖2是本發(fā)明實(shí)施例中地址庫(kù)驅(qū)動(dòng)的地址識(shí)別流程3是本發(fā)明實(shí)施例中地址庫(kù)驅(qū)動(dòng)框4是本發(fā)明實(shí)施例中轉(zhuǎn)口地址判決結(jié)果流程5是本發(fā)明實(shí)施例中本口地址識(shí)別流程6是本發(fā)明實(shí)施例中多道路、單位匹配結(jié)果的郵編、所屬區(qū)縣信息校驗(yàn)流程框 7是本發(fā)明實(shí)施例中道路和單位匹配投遞信息結(jié)果互校驗(yàn)流程圖
具體實(shí)施例方式以下結(jié)合附圖對(duì)于本發(fā)明的具體實(shí)施方式
做詳細(xì)說(shuō)明。根據(jù)信函寄達(dá)地的不同,信函分揀分兩種方式本口分揀和轉(zhuǎn)口分揀。本口分揀是 信函寄達(dá)地為分揀機(jī)所在地區(qū)的信函,它需要精確到投遞支局或投遞道段的分揀;轉(zhuǎn)口分 揀是信函寄達(dá)地為除分揀機(jī)所在地區(qū)的其他地區(qū)的信函,它按分揀方案的不同需要精確到 省級(jí)、地市級(jí)或縣區(qū)級(jí)的分揀。對(duì)于這兩種分揀方式,都需要建立相應(yīng)得地址庫(kù)來(lái)驅(qū)動(dòng)信函 的中文地址識(shí)別。對(duì)于轉(zhuǎn)口地址存儲(chǔ)格式,如圖1所示表示的轉(zhuǎn)口地址表結(jié)構(gòu),由全國(guó)三級(jí)行政區(qū) 劃組成,分別是31個(gè)省級(jí)行政區(qū)劃(如浙江省),每個(gè)省級(jí)行政區(qū)劃下為其地市級(jí)的行政區(qū) 劃(如杭州市),每個(gè)地市級(jí)行政區(qū)劃又包含多個(gè)縣區(qū)級(jí)的行政區(qū)劃(如余杭區(qū))。每個(gè)行 政區(qū)劃都標(biāo)注了該區(qū)域內(nèi)郵編的范圍,如比如余杭區(qū)的郵編前四位為3111,后兩位不確定, 所以用3111XX表示,χ表示任意0 9的數(shù)字。特別說(shuō)明的是地級(jí)市標(biāo)注的郵編為其中心 城區(qū)的郵編。由此建立了一張覆蓋全國(guó)精確到縣區(qū)行政區(qū)劃的地名表以及其對(duì)應(yīng)的郵編。 本發(fā)明將表中的每個(gè)地址條目稱為查詢地址。對(duì)于本口地址存儲(chǔ)格式,本口地址分為道路地址和單位名稱兩個(gè)。對(duì)于道路地址信息,采用道路與門牌號(hào)相關(guān)結(jié)合的形式表示。而對(duì)于單位名稱信 息,其內(nèi)容多樣化,可以是某小區(qū)、公司、大廈、機(jī)關(guān)、學(xué)校、小地名等各種除路名以外的其他 地址表達(dá)形式。首先需要去除這些地址信息中一些冗余的信息,比如對(duì)于浙江杭州的本口 單位信息,設(shè)置“浙江”,“浙江省”,“杭州” “杭州市” “公司” “有限公司”等常用詞作為冗余 信息,去除這些信息并不影響地址的表達(dá),因此我們?cè)诓挥绊懙刂繁磉_(dá)的原則下下去除這 些信息。去除后的表達(dá)稱為該條地址的簡(jiǎn)稱。比如“浙江省人民政府”的簡(jiǎn)稱為“省人民政府”“浙江大學(xué)”的簡(jiǎn)稱任為“浙江大學(xué)”“杭州阿里巴巴有限公司”的簡(jiǎn)稱為“阿里巴巴”采用簡(jiǎn)稱的優(yōu)點(diǎn)在于,由于本口單位信息較長(zhǎng),完全匹配的難度很大,而如“浙江 省”的詞組在地址中出現(xiàn)頻率很高,會(huì)嚴(yán)重影響兩條了類似地址的區(qū)分。采用簡(jiǎn)稱可以較大 程序的出去干擾,提高匹配度。
對(duì)于去除冗余后地址條目即地址簡(jiǎn)稱,接下來(lái)要提取關(guān)鍵詞作為檢索,為后續(xù)匹 配作準(zhǔn)備。這里關(guān)鍵詞的定義是某條地址中的連續(xù)三個(gè)字組成的詞,而且該詞在其他地址 中出現(xiàn)的頻率最低。道路地址信息的表示形式如下 “路名”即道路的名稱。如中山北路、世紀(jì)大道、長(zhǎng)慶街、祖廟巷、桃花弄等等。注 意名稱中不可出現(xiàn)任何標(biāo)點(diǎn)符號(hào)?!捌媾紭?biāo)志”標(biāo)明該段道路的投遞號(hào)碼僅為奇數(shù)號(hào)、僅為偶數(shù)號(hào)還是為連續(xù)號(hào)碼。“起始號(hào)”該段道路投遞號(hào)碼的起始號(hào)?!敖K止號(hào)”該段道路投遞號(hào)碼的終止號(hào)。若該段道路的終止號(hào)未知,則定義其為 “9999” (奇數(shù)號(hào)或全號(hào)時(shí))或“9998” (偶數(shù)號(hào)時(shí))?!班]編”該段道路的郵政編碼?!八鶎賲^(qū)縣”該段道路所在的區(qū)縣。其中,區(qū)縣是指市轄區(qū)、縣級(jí)市、縣等等?!岸蔚谰幪?hào)”該段道路所屬段道編號(hào)。單位名稱信息的表示形式如下 每條單位信息按行來(lái)儲(chǔ)存,包含“單位名”、“郵編”、“所屬區(qū)縣”、“實(shí)際地址”、“簡(jiǎn) 稱1”、“簡(jiǎn)稱2”、“簡(jiǎn)稱3”、“段道編號(hào)”、“備注”9項(xiàng)屬性,每項(xiàng)信息按列儲(chǔ)存。如下表所示 單位地址的投遞信息
“單位名”即單位的名稱。例如浙江大學(xué)、恒勵(lì)大廈、杭州市西湖區(qū)人民法院、中融 城市花園等等。名稱一定要寫全稱,例如“浙江省高級(jí)人民法院”不可以寫為“省高級(jí)人民 法院”,但“省高級(jí)人民法院”可寫入“簡(jiǎn)稱1” 一欄。注意名稱中不可出現(xiàn)任何標(biāo)點(diǎn)符號(hào)?!班]編” ··該單位所在地區(qū)的郵政編碼。
“所屬區(qū)縣”該單位所在的區(qū)縣。其中,區(qū)縣是指市轄區(qū)、縣級(jí)市、縣等等。“實(shí)際地址”該條單位信息所表示的單位所在的實(shí)際地址。如圖10所示。“簡(jiǎn)稱1” 該條單位信息所表示的單位的簡(jiǎn)稱。若無(wú)則為空。如圖10所示。“簡(jiǎn)稱2”:該條單位信息所表示的單位的簡(jiǎn)稱。若無(wú)則為空?!昂?jiǎn)稱3”:該條單位信息所表示的單位的簡(jiǎn)稱。若無(wú)則為空?!岸蔚谰幪?hào)”該單位實(shí)際地址所屬段道編號(hào)?!皞渥ⅰ眰渥⑿畔?。其中的特殊情況有[A]對(duì)于XX里、XX坊、XX苑、XX村、XX花園、XX小區(qū)以及類似的這種住宅小區(qū)大 多數(shù)情況下均存放在“單位”工作表中。但是若出現(xiàn)某一住宅小區(qū)分屬于不同投遞局,則將 其儲(chǔ)存在“道路”工作表中。例如白馬花園1-20號(hào)屬于甲投遞局,21-40號(hào)屬于乙投遞局。 則白馬花園存放于“道路”工作表中而不是“單位”工作表。存放格式如下甲投遞局.xls中的“道路”工作表 乙投遞局.xls中的“道路”工作表 [B]對(duì)于“東湖 香榭水岸”這種格式的名稱,由于“單位名”中不可出現(xiàn)標(biāo)點(diǎn)符號(hào), 則需表示為“東湖香榭水岸”。而對(duì)于“沙湖村(原沙湖新村)”這種格式的名稱,可將括號(hào) 去掉,將“原沙湖新村”這一注釋信息放入對(duì)應(yīng)的“備注” 一欄。[C]對(duì)于郵政專用信箱,應(yīng)存放于“道路”工作表中,存放格式如下。而其它信箱不 可存放入“道路”工作表中。郵政專用信箱存放格式表 [D]對(duì)于有阿拉伯?dāng)?shù)字番號(hào)的部隊(duì),例如“73022部隊(duì)”,應(yīng)存放于“道路”工作表中,存放格式如下表。有阿拉伯?dāng)?shù)字番號(hào)的部隊(duì) [Ε]而其他的部隊(duì)如“武警部隊(duì)第八中隊(duì)”,則存放于“單位”工作表中,如下表所
示ο不含阿拉伯?dāng)?shù)字番號(hào)的部隊(duì) 對(duì)于一幅信函圖像,為了得到最終的分揀信息,需要運(yùn)用圖像分析、漢字識(shí)另I」、數(shù) 據(jù)庫(kù)查詢等方法對(duì)圖像進(jìn)行處理。圖2是對(duì)圖像信息進(jìn)行處理的基本步驟,首先需要對(duì)信 函圖像進(jìn)行分析,得到收件人地址的區(qū)域;再對(duì)地址區(qū)的漢字按行進(jìn)行分割,得到多行文 字;接著采用第一和第二,兩種漢字分割算法對(duì)每行文字分割成單字;對(duì)于第一算法得到 的單字,分別采用了 L和W漢字識(shí)別算法對(duì)單字進(jìn)行識(shí)別,而對(duì)于第二算法得到的單字,使用H漢字識(shí)別算法進(jìn)行單字識(shí)別;最后地址庫(kù)驅(qū)動(dòng)算法結(jié)合L、W、H三種算法的識(shí)別結(jié)果和 地址庫(kù)信息獲取最終分揀機(jī)需要分揀信息。在這里第一和第二漢字分割算法可以是漢字分 割算法中的一種,L、W、H三種算法可以是漢字識(shí)別算法中的一種。 本發(fā)明提出的技術(shù)方案核心是地址庫(kù)驅(qū)動(dòng),它的基本思想是首先建立一個(gè)包含標(biāo) 準(zhǔn)地址信息條目的地址庫(kù),而對(duì)每幅信函圖像由模式識(shí)別技術(shù)得到一個(gè)包含地址信息的識(shí) 別結(jié)果,對(duì)于地址庫(kù)中的每條查詢地址信息條目,在識(shí)別結(jié)果中進(jìn)行匹配,獲取匹配度最高 的查詢地址信息條目,分析匹配度等信息,若滿足要求則輸出該條目對(duì)應(yīng)得分揀信息,否則 沒(méi)有信息。對(duì)于地址庫(kù)驅(qū)動(dòng),它的基本流程如圖3。地址庫(kù)驅(qū)動(dòng)的輸入為三種漢字識(shí)別結(jié)果(分別為H、L、W算法),在圖2中可以看 到L、W算法使用相同的字分割算法,而H算法使用了另一種字分割算法,因此L、W算法的識(shí) 別結(jié)果字符串具有相同的長(zhǎng)度,而H算法的識(shí)別結(jié)果字符串的長(zhǎng)度與前兩種可能不同,因 此首先對(duì)這三種識(shí)別結(jié)果進(jìn)行對(duì)齊,產(chǎn)生一個(gè)字符串集D,它的每個(gè)位置都有1至3個(gè)候選 字(分別為H、L、W的識(shí)別結(jié)果)。對(duì)于字符串集D,若需要進(jìn)行轉(zhuǎn)口分揀,則使用轉(zhuǎn)口表地 址條目與D進(jìn)行匹配,判決得到分揀信息;若需要進(jìn)行本口分揀,則使用本口地址表進(jìn)行匹 配,判決得到本口分揀信息;若進(jìn)行本轉(zhuǎn)口混合分揀,則先進(jìn)行轉(zhuǎn)口地址識(shí)別,若結(jié)果為本 口信函時(shí),再進(jìn)行本口地址識(shí)別。 以下對(duì)于結(jié)果識(shí)別中的涉及的問(wèn)題分別加以敘述。1.識(shí)別結(jié)果對(duì)齊及識(shí)別結(jié)果字符串集的建立為了方便地址庫(kù)驅(qū)動(dòng)的匹配并充分利用三種算法(H、L、W算法)的識(shí)別結(jié)果,首先 需對(duì)三種識(shí)別進(jìn)行綜合得到一個(gè)優(yōu)化的字符串集D,該集合D的每個(gè)字都有1至3個(gè)候選 字,分別為(H、L、W算法的識(shí)別結(jié)果),并且候選字按優(yōu)先級(jí)進(jìn)行了排序。設(shè)H、L、W算法的 識(shí)別結(jié)果字符串分別為Hr、Lr、Wr,字符串的長(zhǎng)度分別為HI、Li、W1,那么Ll與Wl相等,而 Hl則不一定相等。為了不確保不剔除有用信息,對(duì)齊后的字符串長(zhǎng)度Dl為H1、L1、W1的最 大長(zhǎng)度,即Dl = max (Hl,Li)在這里采用了 Needleman-Wimsch算法對(duì)識(shí)別結(jié)果進(jìn)行對(duì)齊處理,由于識(shí)別結(jié)果 中Lr,Wr已對(duì)齊,因此只需要Hr與Lr或Wr對(duì)齊即可,也就是在匹配時(shí)只要Hr中的字符與 Lr或Wr中同一位置的兩個(gè)字符的任意一個(gè)相同,則認(rèn)為Hr中的字符與Wr和Hr的字符匹 配。為此對(duì)Neeldeman-Wunsch算法進(jìn)行了一些改進(jìn),下面是改進(jìn)的Needleman-Wunsch算 法的介紹初始條件M(i,0)= M(0,j) = 0(0 ≤ i ≤ L1,0 ≤ j≤ HI)Tx(i,0) = Tx(0, j) = 0 (0 ≤ i ≤ L1,0 ≤ j ≤ HI)Ty(i,0) = Ty (0, j) = 0 (0 ≤ i ≤ Li,0 ≤ j ≤ HI)遞歸條件 其中M,Tx, Ty均為(Ll+1)*(Hl+1)的矩陣,M為匹配得分矩陣,Tx,Ty為回溯矩 陣,表示M的每個(gè)單元是相鄰的哪個(gè)單元得到,Tx記錄χ方向的位置,Ty記錄方向的位置。 σ為得分函數(shù),當(dāng)Hr(j)與Lr(i),Wr(i)任一個(gè)相等時(shí),匹配得分為Mat;當(dāng)不相等時(shí),錯(cuò)配 得分為Mis。而添加空格的懲罰得分為W。同時(shí)M每個(gè)單元的值依賴其左、左上、上三個(gè)方 向的值。在這里我們?cè)O(shè)計(jì)Mat為2,Mis為-1,W為-2。從矩陣的(L1,H1)向前回溯到(0, 0),根據(jù)回溯矩陣的指向,得到對(duì)齊后的字符串Hd,ffd, Ld,它們組成了字符串集D,且長(zhǎng)度 為 Dl = max (HI, Li)。2.轉(zhuǎn)口地址識(shí)別轉(zhuǎn)口地址識(shí)別包含了兩個(gè)部分,轉(zhuǎn)口地址庫(kù)的匹配與轉(zhuǎn)口匹配結(jié)果的判決。2.1.轉(zhuǎn)口地址庫(kù)的匹配在圖1中可以看到,轉(zhuǎn)口地址表中的查詢地址有三種類型省級(jí)地址、地市級(jí)地 址、縣區(qū)級(jí)地址。而對(duì)于每個(gè)查詢地址,都可以解析為兩部分,這里稱為地名和級(jí)別名。比 如“北京市”,北京是地名,而市是級(jí)別名,就一條地址而言地名包含了絕大部分信息,而級(jí) 別名對(duì)很多地址都是相同的,在轉(zhuǎn)口表中級(jí)別名主要是“市” “省” “自治區(qū)” “縣” “區(qū)”等。 對(duì)于一個(gè)識(shí)別字符集D,一般來(lái)說(shuō)要對(duì)每個(gè)查詢地址都進(jìn)行匹配,計(jì)算出它的匹配度。在這 里采用了 Smith-Waterman算法進(jìn)行匹配得分計(jì)算,Smith-Waterman算法輸入查詢序列為 轉(zhuǎn)口表的某一條地址,而由于Smith-Waterman算法輸入的庫(kù)序列為有三個(gè)候選字的字符 串集D,因此對(duì)Smith-Waterman算法進(jìn)行了改進(jìn)。首先對(duì)改進(jìn)的Smith-Waterman算法進(jìn)行介紹。設(shè)轉(zhuǎn)口表中的某條地址為字符串 Q,其長(zhǎng)度為Q1,下面是改進(jìn)的Smith-Waterman算法的公式初始條件 遞歸條件
她,其它(8)其中,M,E,F(xiàn)都為(Q1+1)*(D1+1)的矩陣,σ為得分函數(shù),q為空位開(kāi)發(fā)處罰,r為空位延伸處罰,Mat匹配得分,Mis位錯(cuò)配得分。對(duì)于轉(zhuǎn)口地址表中的每條查詢地址,通過(guò)Smith-Waterman算法計(jì)算,都從字符串集D中得到一段字符串R,該段字符串R與該條查詢地址最大的匹配度,以及R在D中的位 置。由于省、地市、縣區(qū)三級(jí)地址之間存在從屬關(guān)系,為了減少地址表的匹配次數(shù),轉(zhuǎn)口地址 表的匹配流程如下圖4。經(jīng)過(guò)經(jīng)轉(zhuǎn)口地址表的匹配,獲取匹配度大于設(shè)定域值的地址組成集合DA,集合DA 中包含了所有滿足域值的各省、地市、縣區(qū)的等不同級(jí)別的查詢地址條目。根據(jù)轉(zhuǎn)口地址 表中地址的從屬關(guān)系,若DA集合中的查詢地址具有從屬關(guān)系,將其組合成一個(gè)查詢地址條 目,比如DA集合中包含了 “浙江省” “杭州市” “臺(tái)州市”三條信息,則將組合成“浙江省杭 州市”和“浙江省臺(tái)州市”兩個(gè)信息。根據(jù)從屬關(guān)系組合后的集合DA稱為集合DB。2. 2.轉(zhuǎn)口匹配結(jié)果的判決集合DB中每個(gè)條目稱之為地址串,地址串可以由1 3個(gè)查詢地址組成,比如“北 京市”,“上海市浦東新區(qū)”,“浙江省杭州市余杭區(qū)”分別為1,2,3個(gè)查詢地址組成的地址串。 DB是包含一條或多條地址串的集合,為了從中選取正確的一條地址串,需要建立匹配結(jié)果 的評(píng)價(jià)模型進(jìn)行判決。對(duì)于每個(gè)查詢地址,都具有以下幾條信息匹配度、匹配位置郵編。 在這里如果識(shí)別結(jié)果中包含郵編,則能夠提取郵編識(shí)別的信息。首先該模型需要建立匹配度的評(píng)分原則,具體步驟如下[A]將查詢地址分為地名+級(jí)別名兩部分,長(zhǎng)度為al和a2[B]查詢地名和級(jí)別名分別在匹配字符串R(長(zhǎng)度Rl)中的字符匹配個(gè)數(shù)bl和b2[C]設(shè)定地名和級(jí)別名完全匹配的權(quán)值為cl,c2,其中cl = 4,c2 = 1[D]計(jì)算匹配得分Sl = (cl*bl/al+c2*b2/a2)/(cl+c2)(9)[Ε]對(duì)地名被完全匹配進(jìn)行獎(jiǎng)勵(lì) 由公式可知S2為1. 0時(shí)查詢地址完全匹配。[F]設(shè)定查詢地址完全匹配和不完全匹配時(shí)的權(quán)值,分別為ml,m2,其中ml = 100, m2 = 20。 區(qū)分完全匹配和不完全匹配的權(quán)值,是由于查詢地址完全匹配時(shí),我們認(rèn)為該識(shí) 別信息不會(huì)引起任何歧義。S3表示了每個(gè)查詢地址的得分,最高分為100,由公式可知,查 詢地址中若地名在字符串集D中匹配S3 ^ 16。由于一般情況下地名反應(yīng)了地址信息,我們 選取門限MTl = 16,認(rèn)為查詢地址基本可信任。而當(dāng)級(jí)別名完全匹配b2/a2 = 1,地名匹配 度為bl/al = 0. 5時(shí),比如字符串集D中內(nèi)容為“浙江省杭川市”,那么查詢地址“杭州市” 的匹配度得分S3 = 12,此時(shí)我們認(rèn)為該條查詢地址包含部分地址信息,可能通過(guò)其他信息 比如郵編、其上下級(jí)地址關(guān)聯(lián)、地名的排它性等因素,確定“杭州市”是正確信息,因此選取門限MT2 = 12,認(rèn)為查詢地址有可用地址信息。[G]將S3在門限MT2及以上的查詢地址組成集合DA,并由DA根據(jù)查詢地址的從 屬關(guān)系,得到集合DB。接下來(lái)模型需要對(duì)DB中的每個(gè)地址串進(jìn)行得分評(píng)價(jià)。設(shè)地址串得分 為S4,其包含的最多三級(jí)查詢地址(省級(jí)、地市級(jí)、縣區(qū)級(jí))的得分分別為SS1,SS2,SS3(不 存在時(shí)得分為0),由以下判斷準(zhǔn)則(1)那么當(dāng)?shù)刂反腥我徊樵兊刂返梅值扔诨虼笥贛Tl時(shí),

(2)當(dāng)?shù)刂反写嬖谒胁樵兊刂返梅中∮贛Tl時(shí)(存在時(shí)必大于或等于MT2), 根據(jù)查詢地址在D中的匹配位置,按匹配位置是否符合中文地址的書(shū)寫方式,即是否按省 級(jí)、地市級(jí)、縣區(qū)的順序進(jìn)行書(shū)寫,取不同的值
若匹配位置符合書(shū)寫順序(13)
若書(shū)寫不符合書(shū)寫順序(14)根據(jù)以上準(zhǔn)確,我們得到了每個(gè)地址串的得分,上述的“浙江省杭川市”得分應(yīng)為 S4應(yīng)為112。[H]若不存在郵編識(shí)別信息,則S4即是地址串的最終得分;若郵編識(shí)別信息存 在,則將郵編識(shí)別信息加入地址串的評(píng)分體系。當(dāng)郵編識(shí)別信息存在時(shí),使用識(shí)別郵編與 地址串中每級(jí)查詢地址的郵編進(jìn)行比對(duì),得到能夠匹配成功的最低一級(jí)查詢地址,如郵編 “310001”能夠匹配到“浙江省杭州市”的地市級(jí),而“320001”只能匹配到省級(jí)。對(duì)于一個(gè)地 址串,若其某級(jí)查詢地址郵編和郵編識(shí)別信息匹配成功,則對(duì)其得分會(huì)有一個(gè)加性的獎(jiǎng)勵(lì)。 某級(jí)匹配的基本獎(jiǎng)勵(lì)值為MW,同時(shí)根據(jù)郵編匹配級(jí)別和查詢地址匹配度得分S3的不同,對(duì) MW設(shè)定了五級(jí)不同的權(quán)值。由于地市級(jí)、縣區(qū)級(jí)郵編匹配是4位郵編匹配,而省級(jí)郵編匹配 為2位郵編匹配,所以地市級(jí)、縣區(qū)級(jí)匹配比省級(jí)有更高的權(quán)值,而對(duì)于S3彡MTl的查詢地 址若得到郵編的驗(yàn)證,也應(yīng)具有更高的權(quán)值。具體規(guī)則如下當(dāng)匹配到省級(jí)時(shí) 當(dāng)匹配到縣區(qū)級(jí)時(shí) (20)MW的值是根據(jù)識(shí)別郵編的準(zhǔn)確度而設(shè)定的,在這里我們?cè)O(shè)定MW為40,即若郵編與 DB集合中的查詢匹配時(shí),是相對(duì)可信的。以上建立匹配結(jié)果評(píng)價(jià)模型的整個(gè)過(guò)程,集合DB中的每個(gè)地址串經(jīng)過(guò)評(píng)價(jià)都會(huì) 得到相應(yīng)的評(píng)價(jià)得分。那么接下來(lái)需要判決集合DB中哪個(gè)地址串正確表述信函收件人地 址。這里選取了最簡(jiǎn)單的判決方式,即對(duì)地址串按評(píng)價(jià)得分、各地址串中查詢地址得分、地 址串在字符串集D中的匹配位置等進(jìn)行排序,選取排序位置最高的1 2個(gè)地址串進(jìn)行分 析,得到最終結(jié)果,具體流程如圖4。說(shuō)明MT3為最終判決評(píng)價(jià)等分的域值,MT3的取值有兩種情況,在郵編識(shí)別結(jié)果 未綜合入評(píng)價(jià)模式時(shí),這里取MT3 = MT1+1 ;當(dāng)郵編識(shí)別結(jié)果綜合入評(píng)價(jià)模型型時(shí)MT3 = MW+MTl+lo下面以幾個(gè)例子說(shuō)明以上的評(píng)價(jià)判決模式的判決過(guò)程和結(jié)果例1 “上海市福州路”,“上海市”得分100 > “福州”得分17,故結(jié)果為“上海市”。例2 "442000廈門電力公司” “廈門”得分16,由于郵編存在且不匹配,故據(jù)識(shí)。例3 “浙江省杭川市”,“浙江省杭州市”得分為112,故結(jié)果為“浙江省杭州市”。例4 “上海市全山區(qū)” “上海市金山區(qū)”得分為112,“上海市寶山區(qū)”得分為112, 故結(jié)果為“上海市”。3.本口地址識(shí)別本口地址識(shí)別是利用本口地址表對(duì)識(shí)別結(jié)果字符串集D進(jìn)行匹配,取得匹配地址 在本口表中對(duì)應(yīng)的投遞支局或投遞道段信息。本口地址表的存儲(chǔ)方式,它包括道路地址和 單位名稱兩個(gè)表,這時(shí)由于道路地址和單位名稱是收件人地址的兩種表達(dá)形式。本口地址 識(shí)別也包含了匹配和判決兩個(gè)部分。4.在本口地址識(shí)別的基本流程如圖5所示,它包括了道路地址表的匹配和單位名 稱表的匹配。同時(shí)每個(gè)表的匹配又分為模糊匹配和精確匹配兩部分,對(duì)兩個(gè)表的似然的多 個(gè)匹配結(jié)果按投遞信息的一致性以及郵編識(shí)別信息進(jìn)行綜合判斷,得到分揀信息。下面逐 一介紹各個(gè)步驟。4. 1.模糊匹配這里的匹配采用兩步匹配,模糊匹配和精確匹配,主要原因是精確匹配的時(shí)間消 耗很大,而道路地址表和單位名稱表的地址條目容量很大,為了提高速度,設(shè)計(jì)了快速的模 糊匹配算法,使用該算法進(jìn)行模糊匹配為精確匹配提高一個(gè)相對(duì)很小的候選集。在模糊匹配前,首先需要對(duì)道路地址表和單位名稱表進(jìn)行檢索字的提取,檢索字是從道路名或單位 名中抽取的長(zhǎng)度為3的字符串,抽取原則是表中所有抽取的檢索字相互之間的相似性最 小。模糊匹配利用檢索字去匹配中文識(shí)別結(jié)果,采用直接搜索的快速比較算法,選取匹配度 大于某一域值的條目作為精確匹配的候選集。分別對(duì)道路地址表和單位名稱表進(jìn)行模糊匹 配得到兩個(gè)候選集成為道路模糊匹配集和單位模糊匹配集。4. 2.精確匹配 在模糊匹配時(shí),由于采用了長(zhǎng)度為3的檢索字代替了實(shí)際的道路名或單位名進(jìn)行 匹配,它初選出了兩個(gè)模糊候選集,但是并不代表實(shí)際道路名或單位名的匹配度。精確匹配 就是對(duì)模糊候選集中每個(gè)條目與字符串集D再進(jìn)行一次匹配,匹配的算法采用了上文介紹 的改進(jìn)的Smith-Waterman算法。本口地址匹配度(Si)的計(jì)算采用以下公式Sl = Match/max (Lin, Rl)(21)其中Match表示匹配字符個(gè)數(shù),Lin表示道路名或單位名的字符串長(zhǎng)度,Rl為 Smith-Waterman算法輸出的匹配字符串R的長(zhǎng)度。由于道路名和單位名的多樣性和相互 之間的相似性等因素影響,精確匹配后只選取完全匹配(Si = 1.0)的條目作為結(jié)果。那么 經(jīng)過(guò)兩個(gè)表的匹配后,會(huì)0到多個(gè)道路名的結(jié)果和0到多個(gè)單位名的結(jié)果。產(chǎn)生多個(gè)道路 名結(jié)果的原因是字符串集D中本身包含多條路名,比如“人民路中山路路口”包含了 “人民 路”和“中山路”,又比如“中山西路”包含了 “中山西路”和“山西路”;而對(duì)于多個(gè)單位名也 存在以上的情況。同時(shí)匹配結(jié)果中引起歧義還包括單位名稱表中存在多個(gè)名字相同的單位 名,它們分屬于同一城市的兩個(gè)不同的地方,或者存在多條同名的路。對(duì)于匹配的道路結(jié)果,由于同一條路的不同門牌分屬于不同投遞支局或投遞道 段,故需要提取它的門牌號(hào),這時(shí)認(rèn)為門牌號(hào)是緊跟路名的一串?dāng)?shù)字,提取門牌號(hào)后會(huì)得到 道路+門牌號(hào)的結(jié)果,否則只有道路。對(duì)道路+門牌號(hào)的結(jié)果在道路地址表中查詢,可能會(huì) 得到唯一確定的投遞信息,或多條不同投遞信息(多條同名路時(shí));對(duì)于只有道路名在道路 地址表中查詢,可能得到唯一的投遞信息(道路只屬于一個(gè)投遞支局或道段),多條投遞信 息(多個(gè)同名路),不確定投遞信息(道路屬于多個(gè)投遞支局或道段)。以上對(duì)同一條道路 查詢總結(jié)了三種結(jié)果,這里分別稱為確定道路匹配結(jié)果,重復(fù)道路匹配結(jié)果,不確定道路匹 配結(jié)果。而單位查詢只有兩種情況確定單位匹配結(jié)果和不確定單位匹配結(jié)果。4.3.精確匹配結(jié)果的判決對(duì)于精確匹配產(chǎn)生的結(jié)果,由于上文分析的多種情況,需要通過(guò)郵編、匹配位置所 屬區(qū)縣等信息進(jìn)行綜合判決,最終得到正確的分揀信息。圖6是當(dāng)?shù)缆繁砘騿挝槐砭_匹配后存在有多個(gè)結(jié)果時(shí),通過(guò)郵編匹配、所屬區(qū) 縣匹配、匹配結(jié)果投遞支局或道段相互比較等信息進(jìn)行校驗(yàn),剔出不準(zhǔn)確信息或冗余信息, 得到唯一的投遞支局或道段。經(jīng)圖6的信息校驗(yàn)后,分別得到了由道路地址表和單位名稱 表得到的唯一或多個(gè)投遞支局或道段,若道路名和單位名的匹配中只有一項(xiàng)有投遞支局或 道段結(jié)果,若投遞支局或道段唯一,則輸出該分揀信息,否則無(wú)信息。若道路名和單位名匹 配都存在投遞支局或道段結(jié)果,則需要通過(guò)相互的校驗(yàn)獲得最后的分揀信息。如圖7所示, 若兩者按投遞支局或道段進(jìn)行比較,若存在唯一的相同投遞支局或道段,輸出該投遞支局 或道段作為分揀信息,否則如果道路地址的匹配投遞信息結(jié)果本身唯一,采用該信息作為 分揀信息,其他情況下認(rèn)為信息不確定而無(wú)法決定投遞支局或道段。
以上介紹了地址庫(kù)驅(qū)動(dòng)的信函自動(dòng)識(shí)別和分揀方法,它實(shí)際應(yīng)用于信函分揀機(jī)的識(shí)別模塊中。經(jīng)實(shí)踐表明,在地址庫(kù)相對(duì)準(zhǔn)確完整、識(shí)別率基本保證的情況下,該方法能夠 有效對(duì)識(shí)別結(jié)果進(jìn)行分析校正,得到準(zhǔn)確的結(jié)果。該方法能夠成功使用的關(guān)鍵在于地址庫(kù) 的準(zhǔn)確性,尤其是本口地址庫(kù)中道路地址表信息的完整性和單位名稱表的有選擇性錄入。同時(shí)在信函圖像包含郵編和完整地址的情況下也能取得更好的結(jié)果。
權(quán)利要求
一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法,其特征在于,所述地址信息庫(kù)中的每個(gè)投遞地址至少擁有一種包含實(shí)現(xiàn)轉(zhuǎn)口分揀、本口分揀以及供道段投遞使用的地址信息的文字表示,將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配,根據(jù)匹配度獲得所述郵政信函的分揀信息,實(shí)現(xiàn)郵政信函的轉(zhuǎn)口分揀、本口分揀以及本口分揀后的道段投遞。
2.如權(quán)利要求1所述的地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法,其特征在于,所 述字符識(shí)別獲得所述郵政信函的地址文字表示的步驟包括對(duì)信函圖像進(jìn)行分析,得到收件人地址的區(qū)域;對(duì)地址區(qū)的漢字采用分割算法進(jìn)行分割,得到多行文字后將每行文字再分割為多個(gè)單字;對(duì)每個(gè)單字采用漢字采用識(shí)別算法進(jìn)行識(shí)別,獲得所述郵政信函的地址文字表示。
3.如權(quán)利要求2所述的地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法,其特征在于,在 將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的 投遞地址進(jìn)行遍歷匹配,根據(jù)匹配度獲得所述郵政信函的分揀信息時(shí),結(jié)合所述郵政信函 的郵編信息進(jìn)行分揀信息的校驗(yàn)。
全文摘要
本發(fā)明公開(kāi)了一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法,所述地址信息庫(kù)中的每個(gè)投遞地址至少擁有一種包含實(shí)現(xiàn)轉(zhuǎn)口分揀、本口分揀以及供道段投遞使用的地址信息的文字表示,將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配,根據(jù)匹配度獲得所述郵政信函的分揀信息,實(shí)現(xiàn)郵政信函的轉(zhuǎn)口分揀、本口分揀以及本口分揀后的道段投遞。本發(fā)明實(shí)際應(yīng)用于信函分揀機(jī)的識(shí)別模塊中,在地址庫(kù)相對(duì)準(zhǔn)確完整、識(shí)別率基本保證的情況下,該方法能夠有效對(duì)信函地址識(shí)別結(jié)果進(jìn)行分析校正,得到準(zhǔn)確的信函分揀信息,即可以完全依靠對(duì)信函地址識(shí)別結(jié)果進(jìn)行信函分揀。
文檔編號(hào)B07C3/10GK101844135SQ201010170949
公開(kāi)日2010年9月29日 申請(qǐng)日期2010年5月11日 優(yōu)先權(quán)日2010年5月11日
發(fā)明者呂岳, 呂淑靜, 姚心宇, 屠曉, 范生淼 申請(qǐng)人:上海郵政科學(xué)研究院
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
英超| 鲁山县| 巍山| 达日县| 富民县| 丰镇市| 睢宁县| 衡东县| 盐山县| 左贡县| 克东县| 古丈县| 湘西| 南和县| 长阳| 鹤峰县| 信阳市| 潜江市| 迁西县| 凤翔县| 五寨县| 康定县| 荔浦县| 新乡县| 乐业县| 彝良县| 崇义县| 晴隆县| 鹿泉市| 剑阁县| 炉霍县| 赤壁市| 刚察县| 紫阳县| 屏东市| 清涧县| 疏勒县| 交城县| 临海市| 宣化县| 唐海县|