一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法

文檔序號(hào)：5076093閱讀：445來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>分離篩選設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法
技術(shù)領(lǐng)域：
本發(fā)明屬于郵政技術(shù)領(lǐng)域，特別涉及一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法。
背景技術(shù)：
隨著經(jīng)濟(jì)和社會(huì)的發(fā)展，信函量不斷增長(zhǎng)，傳統(tǒng)的手工分揀無(wú)法滿足實(shí)際需要，使用信函自動(dòng)分揀機(jī)已成為一種趨勢(shì)。信函自動(dòng)分揀機(jī)是通過(guò)采集信封圖像并對(duì)其進(jìn)行識(shí)別處理，然后根據(jù)識(shí)別結(jié)果對(duì)信函進(jìn)行分揀?，F(xiàn)有的信函自動(dòng)分揀機(jī)主要是根據(jù)郵政編碼識(shí) 別結(jié)果對(duì)信函進(jìn)行分揀，同時(shí)也有用地址識(shí)別信息對(duì)郵政編碼進(jìn)行補(bǔ)充和修正的方法。如果分揀目標(biāo)是將信函分揀到投遞局，僅僅依靠6位郵政編碼可以實(shí)現(xiàn)分揀，但如果信封上沒(méi)有郵政編碼時(shí)依然無(wú)法分揀。如果分揀目標(biāo)是分揀到道段，即在同一郵政編碼范圍內(nèi)需要將信函分揀為如道段，這樣的分揀要求無(wú)法依靠郵政編碼實(shí)現(xiàn)。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種地址庫(kù)驅(qū)動(dòng)的信函地址自動(dòng)識(shí)別按址分揀方法，以解決目前信函分揀技術(shù)中效率和準(zhǔn)確性欠佳的問(wèn)題。本發(fā)明的技術(shù)方案是，一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法，所述地址信息庫(kù)中的每個(gè)投遞地址至少擁有一種包含實(shí)現(xiàn)轉(zhuǎn)口分揀、本口分揀以及供道段投遞使用的地址信息的文字表示，將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配，根據(jù)匹配度獲得所述郵政信函的分揀信息，實(shí)現(xiàn)郵政信函的轉(zhuǎn)口分揀、本口分揀以及本口分揀后的道段投遞。進(jìn)一步的，所述字符識(shí)別獲得所述郵政信函的地址文字表示的步驟包括對(duì)信函圖像進(jìn)行分析，得到收件人地址的區(qū)域；對(duì)地址區(qū)的漢字采用分割算法進(jìn)行分割，得到多行文字后將每行文字再分割為多個(gè)單字；對(duì)每個(gè)單字采用漢字采用識(shí)別算法進(jìn)行識(shí)別，獲得所述郵政信函的地址文字表
示 ο進(jìn)一步的，在將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配，根據(jù)匹配度獲得所述郵政信函的分揀信息時(shí)，結(jié)合所述郵政信函的郵編信息進(jìn)行分揀信息的校驗(yàn)。本發(fā)明所述的地址信息庫(kù)驅(qū)動(dòng)包括首先建立一個(gè)包含標(biāo)準(zhǔn)地址信息條目的地址庫(kù)，而對(duì)每幅信函圖像由模式識(shí)別技術(shù)得到一個(gè)包含地址信息的識(shí)別結(jié)果，對(duì)于地址庫(kù)中的每條查詢地址信息條目，在識(shí)別結(jié)果中進(jìn)行匹配，獲取匹配度最高的查詢地址信息條目，分析匹配度信息，若滿足要求則輸出該條目對(duì)應(yīng)得分揀信息，否則沒(méi)有分揀信息。本發(fā)明實(shí)際應(yīng)用于信函分揀機(jī)的識(shí)別模塊中，在地址庫(kù)相對(duì)準(zhǔn)確完整、識(shí)別率基本保證的情況下，該方法能夠有效對(duì)識(shí)別結(jié)果進(jìn)行分析校正，得到準(zhǔn)確的結(jié)果，即可以完全依靠對(duì)信函地址識(shí)別結(jié)果進(jìn)行信函分揀。

圖1是本發(fā)明實(shí)施例中轉(zhuǎn)口地址表結(jié)構(gòu) 圖2是本發(fā)明實(shí)施例中地址庫(kù)驅(qū)動(dòng)的地址識(shí)別流程3是本發(fā)明實(shí)施例中地址庫(kù)驅(qū)動(dòng)框4是本發(fā)明實(shí)施例中轉(zhuǎn)口地址判決結(jié)果流程5是本發(fā)明實(shí)施例中本口地址識(shí)別流程6是本發(fā)明實(shí)施例中多道路、單位匹配結(jié)果的郵編、所屬區(qū)縣信息校驗(yàn)流程框 7是本發(fā)明實(shí)施例中道路和單位匹配投遞信息結(jié)果互校驗(yàn)流程圖
具體實(shí)施例方式以下結(jié)合附圖對(duì)于本發(fā)明的具體實(shí)施方式
做詳細(xì)說(shuō)明。根據(jù)信函寄達(dá)地的不同，信函分揀分兩種方式本口分揀和轉(zhuǎn)口分揀。本口分揀是信函寄達(dá)地為分揀機(jī)所在地區(qū)的信函，它需要精確到投遞支局或投遞道段的分揀；轉(zhuǎn)口分揀是信函寄達(dá)地為除分揀機(jī)所在地區(qū)的其他地區(qū)的信函，它按分揀方案的不同需要精確到省級(jí)、地市級(jí)或縣區(qū)級(jí)的分揀。對(duì)于這兩種分揀方式，都需要建立相應(yīng)得地址庫(kù)來(lái)驅(qū)動(dòng)信函的中文地址識(shí)別。對(duì)于轉(zhuǎn)口地址存儲(chǔ)格式，如圖1所示表示的轉(zhuǎn)口地址表結(jié)構(gòu)，由全國(guó)三級(jí)行政區(qū) 劃組成，分別是31個(gè)省級(jí)行政區(qū)劃(如浙江省)，每個(gè)省級(jí)行政區(qū)劃下為其地市級(jí)的行政區(qū) 劃(如杭州市)，每個(gè)地市級(jí)行政區(qū)劃又包含多個(gè)縣區(qū)級(jí)的行政區(qū)劃(如余杭區(qū))。每個(gè)行政區(qū)劃都標(biāo)注了該區(qū)域內(nèi)郵編的范圍，如比如余杭區(qū)的郵編前四位為3111，后兩位不確定，所以用3111XX表示，χ表示任意0 9的數(shù)字。特別說(shuō)明的是地級(jí)市標(biāo)注的郵編為其中心城區(qū)的郵編。由此建立了一張覆蓋全國(guó)精確到縣區(qū)行政區(qū)劃的地名表以及其對(duì)應(yīng)的郵編。本發(fā)明將表中的每個(gè)地址條目稱為查詢地址。對(duì)于本口地址存儲(chǔ)格式，本口地址分為道路地址和單位名稱兩個(gè)。對(duì)于道路地址信息，采用道路與門牌號(hào)相關(guān)結(jié)合的形式表示。而對(duì)于單位名稱信息，其內(nèi)容多樣化，可以是某小區(qū)、公司、大廈、機(jī)關(guān)、學(xué)校、小地名等各種除路名以外的其他地址表達(dá)形式。首先需要去除這些地址信息中一些冗余的信息，比如對(duì)于浙江杭州的本口單位信息，設(shè)置“浙江”，“浙江省”，“杭州” “杭州市” “公司” “有限公司”等常用詞作為冗余信息，去除這些信息并不影響地址的表達(dá)，因此我們?cè)诓挥绊懙刂繁磉_(dá)的原則下下去除這些信息。去除后的表達(dá)稱為該條地址的簡(jiǎn)稱。比如“浙江省人民政府”的簡(jiǎn)稱為“省人民政府”“浙江大學(xué)”的簡(jiǎn)稱任為“浙江大學(xué)”“杭州阿里巴巴有限公司”的簡(jiǎn)稱為“阿里巴巴”采用簡(jiǎn)稱的優(yōu)點(diǎn)在于，由于本口單位信息較長(zhǎng)，完全匹配的難度很大，而如“浙江省”的詞組在地址中出現(xiàn)頻率很高，會(huì)嚴(yán)重影響兩條了類似地址的區(qū)分。采用簡(jiǎn)稱可以較大程序的出去干擾，提高匹配度。
對(duì)于去除冗余后地址條目即地址簡(jiǎn)稱，接下來(lái)要提取關(guān)鍵詞作為檢索，為后續(xù)匹配作準(zhǔn)備。這里關(guān)鍵詞的定義是某條地址中的連續(xù)三個(gè)字組成的詞，而且該詞在其他地址中出現(xiàn)的頻率最低。道路地址信息的表示形式如下 “路名”即道路的名稱。如中山北路、世紀(jì)大道、長(zhǎng)慶街、祖廟巷、桃花弄等等。注意名稱中不可出現(xiàn)任何標(biāo)點(diǎn)符號(hào)?！捌媾紭?biāo)志”標(biāo)明該段道路的投遞號(hào)碼僅為奇數(shù)號(hào)、僅為偶數(shù)號(hào)還是為連續(xù)號(hào)碼。“起始號(hào)”該段道路投遞號(hào)碼的起始號(hào)?！敖K止號(hào)”該段道路投遞號(hào)碼的終止號(hào)。若該段道路的終止號(hào)未知，則定義其為 “9999” (奇數(shù)號(hào)或全號(hào)時(shí))或“9998” (偶數(shù)號(hào)時(shí))?！班]編”該段道路的郵政編碼?！八鶎賲^(qū)縣”該段道路所在的區(qū)縣。其中，區(qū)縣是指市轄區(qū)、縣級(jí)市、縣等等?！岸蔚谰幪?hào)”該段道路所屬段道編號(hào)。單位名稱信息的表示形式如下每條單位信息按行來(lái)儲(chǔ)存，包含“單位名”、“郵編”、“所屬區(qū)縣”、“實(shí)際地址”、“簡(jiǎn) 稱1”、“簡(jiǎn)稱2”、“簡(jiǎn)稱3”、“段道編號(hào)”、“備注”9項(xiàng)屬性，每項(xiàng)信息按列儲(chǔ)存。如下表所示單位地址的投遞信息
“單位名”即單位的名稱。例如浙江大學(xué)、恒勵(lì)大廈、杭州市西湖區(qū)人民法院、中融城市花園等等。名稱一定要寫全稱，例如“浙江省高級(jí)人民法院”不可以寫為“省高級(jí)人民法院”，但“省高級(jí)人民法院”可寫入“簡(jiǎn)稱1” 一欄。注意名稱中不可出現(xiàn)任何標(biāo)點(diǎn)符號(hào)?！班]編” ··該單位所在地區(qū)的郵政編碼。
“所屬區(qū)縣”該單位所在的區(qū)縣。其中，區(qū)縣是指市轄區(qū)、縣級(jí)市、縣等等。“實(shí)際地址”該條單位信息所表示的單位所在的實(shí)際地址。如圖10所示。“簡(jiǎn)稱1” 該條單位信息所表示的單位的簡(jiǎn)稱。若無(wú)則為空。如圖10所示。“簡(jiǎn)稱2”:該條單位信息所表示的單位的簡(jiǎn)稱。若無(wú)則為空?！昂?jiǎn)稱3”:該條單位信息所表示的單位的簡(jiǎn)稱。若無(wú)則為空?！岸蔚谰幪?hào)”該單位實(shí)際地址所屬段道編號(hào)?！皞渥ⅰ眰渥⑿畔?。其中的特殊情況有[A]對(duì)于XX里、XX坊、XX苑、XX村、XX花園、XX小區(qū)以及類似的這種住宅小區(qū)大多數(shù)情況下均存放在“單位”工作表中。但是若出現(xiàn)某一住宅小區(qū)分屬于不同投遞局，則將其儲(chǔ)存在“道路”工作表中。例如白馬花園1-20號(hào)屬于甲投遞局，21-40號(hào)屬于乙投遞局。則白馬花園存放于“道路”工作表中而不是“單位”工作表。存放格式如下甲投遞局.xls中的“道路”工作表乙投遞局.xls中的“道路”工作表 [B]對(duì)于“東湖香榭水岸”這種格式的名稱，由于“單位名”中不可出現(xiàn)標(biāo)點(diǎn)符號(hào)，則需表示為“東湖香榭水岸”。而對(duì)于“沙湖村(原沙湖新村)”這種格式的名稱，可將括號(hào) 去掉，將“原沙湖新村”這一注釋信息放入對(duì)應(yīng)的“備注” 一欄。[C]對(duì)于郵政專用信箱，應(yīng)存放于“道路”工作表中，存放格式如下。而其它信箱不可存放入“道路”工作表中。郵政專用信箱存放格式表 [D]對(duì)于有阿拉伯?dāng)?shù)字番號(hào)的部隊(duì)，例如“73022部隊(duì)”，應(yīng)存放于“道路”工作表中，存放格式如下表。有阿拉伯?dāng)?shù)字番號(hào)的部隊(duì) [Ε]而其他的部隊(duì)如“武警部隊(duì)第八中隊(duì)”，則存放于“單位”工作表中，如下表所
示ο不含阿拉伯?dāng)?shù)字番號(hào)的部隊(duì) 對(duì)于一幅信函圖像，為了得到最終的分揀信息，需要運(yùn)用圖像分析、漢字識(shí)另I」、數(shù) 據(jù)庫(kù)查詢等方法對(duì)圖像進(jìn)行處理。圖2是對(duì)圖像信息進(jìn)行處理的基本步驟，首先需要對(duì)信函圖像進(jìn)行分析，得到收件人地址的區(qū)域；再對(duì)地址區(qū)的漢字按行進(jìn)行分割，得到多行文字；接著采用第一和第二，兩種漢字分割算法對(duì)每行文字分割成單字；對(duì)于第一算法得到的單字，分別采用了 L和W漢字識(shí)別算法對(duì)單字進(jìn)行識(shí)別，而對(duì)于第二算法得到的單字，使用H漢字識(shí)別算法進(jìn)行單字識(shí)別；最后地址庫(kù)驅(qū)動(dòng)算法結(jié)合L、W、H三種算法的識(shí)別結(jié)果和地址庫(kù)信息獲取最終分揀機(jī)需要分揀信息。在這里第一和第二漢字分割算法可以是漢字分割算法中的一種，L、W、H三種算法可以是漢字識(shí)別算法中的一種。本發(fā)明提出的技術(shù)方案核心是地址庫(kù)驅(qū)動(dòng)，它的基本思想是首先建立一個(gè)包含標(biāo) 準(zhǔn)地址信息條目的地址庫(kù)，而對(duì)每幅信函圖像由模式識(shí)別技術(shù)得到一個(gè)包含地址信息的識(shí) 別結(jié)果，對(duì)于地址庫(kù)中的每條查詢地址信息條目，在識(shí)別結(jié)果中進(jìn)行匹配，獲取匹配度最高的查詢地址信息條目，分析匹配度等信息，若滿足要求則輸出該條目對(duì)應(yīng)得分揀信息，否則沒(méi)有信息。對(duì)于地址庫(kù)驅(qū)動(dòng)，它的基本流程如圖3。地址庫(kù)驅(qū)動(dòng)的輸入為三種漢字識(shí)別結(jié)果(分別為H、L、W算法)，在圖2中可以看到L、W算法使用相同的字分割算法，而H算法使用了另一種字分割算法，因此L、W算法的識(shí) 別結(jié)果字符串具有相同的長(zhǎng)度，而H算法的識(shí)別結(jié)果字符串的長(zhǎng)度與前兩種可能不同，因此首先對(duì)這三種識(shí)別結(jié)果進(jìn)行對(duì)齊，產(chǎn)生一個(gè)字符串集D，它的每個(gè)位置都有1至3個(gè)候選字(分別為H、L、W的識(shí)別結(jié)果)。對(duì)于字符串集D，若需要進(jìn)行轉(zhuǎn)口分揀，則使用轉(zhuǎn)口表地址條目與D進(jìn)行匹配，判決得到分揀信息；若需要進(jìn)行本口分揀，則使用本口地址表進(jìn)行匹配，判決得到本口分揀信息；若進(jìn)行本轉(zhuǎn)口混合分揀，則先進(jìn)行轉(zhuǎn)口地址識(shí)別，若結(jié)果為本口信函時(shí)，再進(jìn)行本口地址識(shí)別。以下對(duì)于結(jié)果識(shí)別中的涉及的問(wèn)題分別加以敘述。1.識(shí)別結(jié)果對(duì)齊及識(shí)別結(jié)果字符串集的建立為了方便地址庫(kù)驅(qū)動(dòng)的匹配并充分利用三種算法(H、L、W算法)的識(shí)別結(jié)果，首先需對(duì)三種識(shí)別進(jìn)行綜合得到一個(gè)優(yōu)化的字符串集D，該集合D的每個(gè)字都有1至3個(gè)候選字，分別為(H、L、W算法的識(shí)別結(jié)果)，并且候選字按優(yōu)先級(jí)進(jìn)行了排序。設(shè)H、L、W算法的識(shí)別結(jié)果字符串分別為Hr、Lr、Wr，字符串的長(zhǎng)度分別為HI、Li、W1，那么Ll與Wl相等，而 Hl則不一定相等。為了不確保不剔除有用信息，對(duì)齊后的字符串長(zhǎng)度Dl為H1、L1、W1的最大長(zhǎng)度，即Dl = max (Hl，Li)在這里采用了 Needleman-Wimsch算法對(duì)識(shí)別結(jié)果進(jìn)行對(duì)齊處理，由于識(shí)別結(jié)果中Lr，Wr已對(duì)齊，因此只需要Hr與Lr或Wr對(duì)齊即可，也就是在匹配時(shí)只要Hr中的字符與 Lr或Wr中同一位置的兩個(gè)字符的任意一個(gè)相同，則認(rèn)為Hr中的字符與Wr和Hr的字符匹配。為此對(duì)Neeldeman-Wunsch算法進(jìn)行了一些改進(jìn)，下面是改進(jìn)的Needleman-Wunsch算法的介紹初始條件M(i，0)= M(0，j) = 0(0 ≤ i ≤ L1，0 ≤ j≤ HI)Tx(i,0) = Tx(0, j) = 0 (0 ≤ i ≤ L1，0 ≤ j ≤ HI)Ty(i,0) = Ty (0, j) = 0 (0 ≤ i ≤ Li，0 ≤ j ≤ HI)遞歸條件其中M，Tx, Ty均為(Ll+1)*(Hl+1)的矩陣，M為匹配得分矩陣，Tx，Ty為回溯矩陣，表示M的每個(gè)單元是相鄰的哪個(gè)單元得到，Tx記錄χ方向的位置，Ty記錄方向的位置。 σ為得分函數(shù)，當(dāng)Hr(j)與Lr(i)，Wr(i)任一個(gè)相等時(shí)，匹配得分為Mat;當(dāng)不相等時(shí)，錯(cuò)配得分為Mis。而添加空格的懲罰得分為W。同時(shí)M每個(gè)單元的值依賴其左、左上、上三個(gè)方向的值。在這里我們?cè)O(shè)計(jì)Mat為2，Mis為-1，W為-2。從矩陣的(L1，H1)向前回溯到(0， 0)，根據(jù)回溯矩陣的指向，得到對(duì)齊后的字符串Hd，ffd, Ld，它們組成了字符串集D，且長(zhǎng)度為 Dl = max (HI, Li)。2.轉(zhuǎn)口地址識(shí)別轉(zhuǎn)口地址識(shí)別包含了兩個(gè)部分，轉(zhuǎn)口地址庫(kù)的匹配與轉(zhuǎn)口匹配結(jié)果的判決。2.1.轉(zhuǎn)口地址庫(kù)的匹配在圖1中可以看到，轉(zhuǎn)口地址表中的查詢地址有三種類型省級(jí)地址、地市級(jí)地址、縣區(qū)級(jí)地址。而對(duì)于每個(gè)查詢地址，都可以解析為兩部分，這里稱為地名和級(jí)別名。比如“北京市”，北京是地名，而市是級(jí)別名，就一條地址而言地名包含了絕大部分信息，而級(jí) 別名對(duì)很多地址都是相同的，在轉(zhuǎn)口表中級(jí)別名主要是“市” “省” “自治區(qū)” “縣” “區(qū)”等。對(duì)于一個(gè)識(shí)別字符集D，一般來(lái)說(shuō)要對(duì)每個(gè)查詢地址都進(jìn)行匹配，計(jì)算出它的匹配度。在這里采用了 Smith-Waterman算法進(jìn)行匹配得分計(jì)算，Smith-Waterman算法輸入查詢序列為轉(zhuǎn)口表的某一條地址，而由于Smith-Waterman算法輸入的庫(kù)序列為有三個(gè)候選字的字符串集D，因此對(duì)Smith-Waterman算法進(jìn)行了改進(jìn)。首先對(duì)改進(jìn)的Smith-Waterman算法進(jìn)行介紹。設(shè)轉(zhuǎn)口表中的某條地址為字符串 Q，其長(zhǎng)度為Q1，下面是改進(jìn)的Smith-Waterman算法的公式初始條件遞歸條件
她,其它(8)其中，M，E，F(xiàn)都為(Q1+1)*(D1+1)的矩陣，σ為得分函數(shù)，q為空位開(kāi)發(fā)處罰，r為空位延伸處罰，Mat匹配得分，Mis位錯(cuò)配得分。對(duì)于轉(zhuǎn)口地址表中的每條查詢地址，通過(guò)Smith-Waterman算法計(jì)算，都從字符串集D中得到一段字符串R，該段字符串R與該條查詢地址最大的匹配度，以及R在D中的位置。由于省、地市、縣區(qū)三級(jí)地址之間存在從屬關(guān)系，為了減少地址表的匹配次數(shù)，轉(zhuǎn)口地址表的匹配流程如下圖4。經(jīng)過(guò)經(jīng)轉(zhuǎn)口地址表的匹配，獲取匹配度大于設(shè)定域值的地址組成集合DA，集合DA 中包含了所有滿足域值的各省、地市、縣區(qū)的等不同級(jí)別的查詢地址條目。根據(jù)轉(zhuǎn)口地址表中地址的從屬關(guān)系，若DA集合中的查詢地址具有從屬關(guān)系，將其組合成一個(gè)查詢地址條目，比如DA集合中包含了 “浙江省” “杭州市” “臺(tái)州市”三條信息，則將組合成“浙江省杭州市”和“浙江省臺(tái)州市”兩個(gè)信息。根據(jù)從屬關(guān)系組合后的集合DA稱為集合DB。2. 2.轉(zhuǎn)口匹配結(jié)果的判決集合DB中每個(gè)條目稱之為地址串，地址串可以由1 3個(gè)查詢地址組成，比如“北京市”，“上海市浦東新區(qū)”，“浙江省杭州市余杭區(qū)”分別為1，2，3個(gè)查詢地址組成的地址串。 DB是包含一條或多條地址串的集合，為了從中選取正確的一條地址串，需要建立匹配結(jié)果的評(píng)價(jià)模型進(jìn)行判決。對(duì)于每個(gè)查詢地址，都具有以下幾條信息匹配度、匹配位置郵編。在這里如果識(shí)別結(jié)果中包含郵編，則能夠提取郵編識(shí)別的信息。首先該模型需要建立匹配度的評(píng)分原則，具體步驟如下[A]將查詢地址分為地名+級(jí)別名兩部分，長(zhǎng)度為al和a2[B]查詢地名和級(jí)別名分別在匹配字符串R(長(zhǎng)度Rl)中的字符匹配個(gè)數(shù)bl和b2[C]設(shè)定地名和級(jí)別名完全匹配的權(quán)值為cl，c2，其中cl = 4，c2 = 1[D]計(jì)算匹配得分Sl = (cl*bl/al+c2*b2/a2)/(cl+c2)(9)[Ε]對(duì)地名被完全匹配進(jìn)行獎(jiǎng)勵(lì) 由公式可知S2為1. 0時(shí)查詢地址完全匹配。[F]設(shè)定查詢地址完全匹配和不完全匹配時(shí)的權(quán)值，分別為ml，m2，其中ml = 100， m2 = 20。區(qū)分完全匹配和不完全匹配的權(quán)值，是由于查詢地址完全匹配時(shí)，我們認(rèn)為該識(shí) 別信息不會(huì)引起任何歧義。S3表示了每個(gè)查詢地址的得分，最高分為100，由公式可知，查詢地址中若地名在字符串集D中匹配S3 ^ 16。由于一般情況下地名反應(yīng)了地址信息，我們選取門限MTl = 16，認(rèn)為查詢地址基本可信任。而當(dāng)級(jí)別名完全匹配b2/a2 = 1，地名匹配度為bl/al = 0. 5時(shí)，比如字符串集D中內(nèi)容為“浙江省杭川市”，那么查詢地址“杭州市” 的匹配度得分S3 = 12，此時(shí)我們認(rèn)為該條查詢地址包含部分地址信息，可能通過(guò)其他信息比如郵編、其上下級(jí)地址關(guān)聯(lián)、地名的排它性等因素，確定“杭州市”是正確信息，因此選取門限MT2 = 12，認(rèn)為查詢地址有可用地址信息。[G]將S3在門限MT2及以上的查詢地址組成集合DA，并由DA根據(jù)查詢地址的從屬關(guān)系，得到集合DB。接下來(lái)模型需要對(duì)DB中的每個(gè)地址串進(jìn)行得分評(píng)價(jià)。設(shè)地址串得分為S4，其包含的最多三級(jí)查詢地址(省級(jí)、地市級(jí)、縣區(qū)級(jí))的得分分別為SS1，SS2，SS3(不存在時(shí)得分為0)，由以下判斷準(zhǔn)則(1)那么當(dāng)?shù)刂反腥我徊樵兊刂返梅值扔诨虼笥贛Tl時(shí)，

(2)當(dāng)?shù)刂反写嬖谒胁樵兊刂返梅中∮贛Tl時(shí)(存在時(shí)必大于或等于MT2)，根據(jù)查詢地址在D中的匹配位置，按匹配位置是否符合中文地址的書(shū)寫方式，即是否按省級(jí)、地市級(jí)、縣區(qū)的順序進(jìn)行書(shū)寫，取不同的值
若匹配位置符合書(shū)寫順序(13)
若書(shū)寫不符合書(shū)寫順序(14)根據(jù)以上準(zhǔn)確，我們得到了每個(gè)地址串的得分，上述的“浙江省杭川市”得分應(yīng)為 S4應(yīng)為112。[H]若不存在郵編識(shí)別信息，則S4即是地址串的最終得分；若郵編識(shí)別信息存在，則將郵編識(shí)別信息加入地址串的評(píng)分體系。當(dāng)郵編識(shí)別信息存在時(shí)，使用識(shí)別郵編與地址串中每級(jí)查詢地址的郵編進(jìn)行比對(duì)，得到能夠匹配成功的最低一級(jí)查詢地址，如郵編 “310001”能夠匹配到“浙江省杭州市”的地市級(jí)，而“320001”只能匹配到省級(jí)。對(duì)于一個(gè)地址串，若其某級(jí)查詢地址郵編和郵編識(shí)別信息匹配成功，則對(duì)其得分會(huì)有一個(gè)加性的獎(jiǎng)勵(lì)。某級(jí)匹配的基本獎(jiǎng)勵(lì)值為MW，同時(shí)根據(jù)郵編匹配級(jí)別和查詢地址匹配度得分S3的不同，對(duì) MW設(shè)定了五級(jí)不同的權(quán)值。由于地市級(jí)、縣區(qū)級(jí)郵編匹配是4位郵編匹配，而省級(jí)郵編匹配為2位郵編匹配，所以地市級(jí)、縣區(qū)級(jí)匹配比省級(jí)有更高的權(quán)值，而對(duì)于S3彡MTl的查詢地址若得到郵編的驗(yàn)證，也應(yīng)具有更高的權(quán)值。具體規(guī)則如下當(dāng)匹配到省級(jí)時(shí) 當(dāng)匹配到縣區(qū)級(jí)時(shí) (20)MW的值是根據(jù)識(shí)別郵編的準(zhǔn)確度而設(shè)定的，在這里我們?cè)O(shè)定MW為40，即若郵編與 DB集合中的查詢匹配時(shí)，是相對(duì)可信的。以上建立匹配結(jié)果評(píng)價(jià)模型的整個(gè)過(guò)程，集合DB中的每個(gè)地址串經(jīng)過(guò)評(píng)價(jià)都會(huì) 得到相應(yīng)的評(píng)價(jià)得分。那么接下來(lái)需要判決集合DB中哪個(gè)地址串正確表述信函收件人地址。這里選取了最簡(jiǎn)單的判決方式，即對(duì)地址串按評(píng)價(jià)得分、各地址串中查詢地址得分、地址串在字符串集D中的匹配位置等進(jìn)行排序，選取排序位置最高的1 2個(gè)地址串進(jìn)行分析，得到最終結(jié)果，具體流程如圖4。說(shuō)明MT3為最終判決評(píng)價(jià)等分的域值，MT3的取值有兩種情況，在郵編識(shí)別結(jié)果未綜合入評(píng)價(jià)模式時(shí)，這里取MT3 = MT1+1 ；當(dāng)郵編識(shí)別結(jié)果綜合入評(píng)價(jià)模型型時(shí)MT3 = MW+MTl+lo下面以幾個(gè)例子說(shuō)明以上的評(píng)價(jià)判決模式的判決過(guò)程和結(jié)果例1 “上海市福州路”，“上海市”得分100 > “福州”得分17，故結(jié)果為“上海市”。例2 "442000廈門電力公司” “廈門”得分16，由于郵編存在且不匹配，故據(jù)識(shí)。例3 “浙江省杭川市”，“浙江省杭州市”得分為112，故結(jié)果為“浙江省杭州市”。例4 “上海市全山區(qū)” “上海市金山區(qū)”得分為112，“上海市寶山區(qū)”得分為112，故結(jié)果為“上海市”。3.本口地址識(shí)別本口地址識(shí)別是利用本口地址表對(duì)識(shí)別結(jié)果字符串集D進(jìn)行匹配，取得匹配地址在本口表中對(duì)應(yīng)的投遞支局或投遞道段信息。本口地址表的存儲(chǔ)方式，它包括道路地址和單位名稱兩個(gè)表，這時(shí)由于道路地址和單位名稱是收件人地址的兩種表達(dá)形式。本口地址識(shí)別也包含了匹配和判決兩個(gè)部分。4.在本口地址識(shí)別的基本流程如圖5所示，它包括了道路地址表的匹配和單位名稱表的匹配。同時(shí)每個(gè)表的匹配又分為模糊匹配和精確匹配兩部分，對(duì)兩個(gè)表的似然的多個(gè)匹配結(jié)果按投遞信息的一致性以及郵編識(shí)別信息進(jìn)行綜合判斷，得到分揀信息。下面逐一介紹各個(gè)步驟。4. 1.模糊匹配這里的匹配采用兩步匹配，模糊匹配和精確匹配，主要原因是精確匹配的時(shí)間消耗很大，而道路地址表和單位名稱表的地址條目容量很大，為了提高速度，設(shè)計(jì)了快速的模糊匹配算法，使用該算法進(jìn)行模糊匹配為精確匹配提高一個(gè)相對(duì)很小的候選集。在模糊匹配前，首先需要對(duì)道路地址表和單位名稱表進(jìn)行檢索字的提取，檢索字是從道路名或單位名中抽取的長(zhǎng)度為3的字符串，抽取原則是表中所有抽取的檢索字相互之間的相似性最小。模糊匹配利用檢索字去匹配中文識(shí)別結(jié)果，采用直接搜索的快速比較算法，選取匹配度大于某一域值的條目作為精確匹配的候選集。分別對(duì)道路地址表和單位名稱表進(jìn)行模糊匹配得到兩個(gè)候選集成為道路模糊匹配集和單位模糊匹配集。4. 2.精確匹配在模糊匹配時(shí)，由于采用了長(zhǎng)度為3的檢索字代替了實(shí)際的道路名或單位名進(jìn)行匹配，它初選出了兩個(gè)模糊候選集，但是并不代表實(shí)際道路名或單位名的匹配度。精確匹配就是對(duì)模糊候選集中每個(gè)條目與字符串集D再進(jìn)行一次匹配，匹配的算法采用了上文介紹的改進(jìn)的Smith-Waterman算法。本口地址匹配度(Si)的計(jì)算采用以下公式Sl = Match/max (Lin, Rl)(21)其中Match表示匹配字符個(gè)數(shù)，Lin表示道路名或單位名的字符串長(zhǎng)度，Rl為 Smith-Waterman算法輸出的匹配字符串R的長(zhǎng)度。由于道路名和單位名的多樣性和相互之間的相似性等因素影響，精確匹配后只選取完全匹配(Si = 1.0)的條目作為結(jié)果。那么經(jīng)過(guò)兩個(gè)表的匹配后，會(huì)0到多個(gè)道路名的結(jié)果和0到多個(gè)單位名的結(jié)果。產(chǎn)生多個(gè)道路名結(jié)果的原因是字符串集D中本身包含多條路名，比如“人民路中山路路口”包含了 “人民路”和“中山路”，又比如“中山西路”包含了 “中山西路”和“山西路”；而對(duì)于多個(gè)單位名也存在以上的情況。同時(shí)匹配結(jié)果中引起歧義還包括單位名稱表中存在多個(gè)名字相同的單位名，它們分屬于同一城市的兩個(gè)不同的地方，或者存在多條同名的路。對(duì)于匹配的道路結(jié)果，由于同一條路的不同門牌分屬于不同投遞支局或投遞道段，故需要提取它的門牌號(hào)，這時(shí)認(rèn)為門牌號(hào)是緊跟路名的一串?dāng)?shù)字，提取門牌號(hào)后會(huì)得到道路+門牌號(hào)的結(jié)果，否則只有道路。對(duì)道路+門牌號(hào)的結(jié)果在道路地址表中查詢，可能會(huì) 得到唯一確定的投遞信息，或多條不同投遞信息(多條同名路時(shí))；對(duì)于只有道路名在道路地址表中查詢，可能得到唯一的投遞信息(道路只屬于一個(gè)投遞支局或道段)，多條投遞信息(多個(gè)同名路)，不確定投遞信息(道路屬于多個(gè)投遞支局或道段)。以上對(duì)同一條道路查詢總結(jié)了三種結(jié)果，這里分別稱為確定道路匹配結(jié)果，重復(fù)道路匹配結(jié)果，不確定道路匹配結(jié)果。而單位查詢只有兩種情況確定單位匹配結(jié)果和不確定單位匹配結(jié)果。4.3.精確匹配結(jié)果的判決對(duì)于精確匹配產(chǎn)生的結(jié)果，由于上文分析的多種情況，需要通過(guò)郵編、匹配位置所屬區(qū)縣等信息進(jìn)行綜合判決，最終得到正確的分揀信息。圖6是當(dāng)?shù)缆繁砘騿挝槐砭_匹配后存在有多個(gè)結(jié)果時(shí)，通過(guò)郵編匹配、所屬區(qū) 縣匹配、匹配結(jié)果投遞支局或道段相互比較等信息進(jìn)行校驗(yàn)，剔出不準(zhǔn)確信息或冗余信息，得到唯一的投遞支局或道段。經(jīng)圖6的信息校驗(yàn)后，分別得到了由道路地址表和單位名稱表得到的唯一或多個(gè)投遞支局或道段，若道路名和單位名的匹配中只有一項(xiàng)有投遞支局或道段結(jié)果，若投遞支局或道段唯一，則輸出該分揀信息，否則無(wú)信息。若道路名和單位名匹配都存在投遞支局或道段結(jié)果，則需要通過(guò)相互的校驗(yàn)獲得最后的分揀信息。如圖7所示，若兩者按投遞支局或道段進(jìn)行比較，若存在唯一的相同投遞支局或道段，輸出該投遞支局或道段作為分揀信息，否則如果道路地址的匹配投遞信息結(jié)果本身唯一，采用該信息作為分揀信息，其他情況下認(rèn)為信息不確定而無(wú)法決定投遞支局或道段。
以上介紹了地址庫(kù)驅(qū)動(dòng)的信函自動(dòng)識(shí)別和分揀方法，它實(shí)際應(yīng)用于信函分揀機(jī)的識(shí)別模塊中。經(jīng)實(shí)踐表明，在地址庫(kù)相對(duì)準(zhǔn)確完整、識(shí)別率基本保證的情況下，該方法能夠有效對(duì)識(shí)別結(jié)果進(jìn)行分析校正，得到準(zhǔn)確的結(jié)果。該方法能夠成功使用的關(guān)鍵在于地址庫(kù) 的準(zhǔn)確性，尤其是本口地址庫(kù)中道路地址表信息的完整性和單位名稱表的有選擇性錄入。同時(shí)在信函圖像包含郵編和完整地址的情況下也能取得更好的結(jié)果。
權(quán)利要求
一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法，其特征在于，所述地址信息庫(kù)中的每個(gè)投遞地址至少擁有一種包含實(shí)現(xiàn)轉(zhuǎn)口分揀、本口分揀以及供道段投遞使用的地址信息的文字表示，將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配，根據(jù)匹配度獲得所述郵政信函的分揀信息，實(shí)現(xiàn)郵政信函的轉(zhuǎn)口分揀、本口分揀以及本口分揀后的道段投遞。
2.如權(quán)利要求1所述的地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法，其特征在于，所述字符識(shí)別獲得所述郵政信函的地址文字表示的步驟包括對(duì)信函圖像進(jìn)行分析，得到收件人地址的區(qū)域；對(duì)地址區(qū)的漢字采用分割算法進(jìn)行分割，得到多行文字后將每行文字再分割為多個(gè)單字；對(duì)每個(gè)單字采用漢字采用識(shí)別算法進(jìn)行識(shí)別，獲得所述郵政信函的地址文字表示。
3.如權(quán)利要求2所述的地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法，其特征在于，在將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配，根據(jù)匹配度獲得所述郵政信函的分揀信息時(shí)，結(jié)合所述郵政信函的郵編信息進(jìn)行分揀信息的校驗(yàn)。
全文摘要
本發(fā)明公開(kāi)了一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法，所述地址信息庫(kù)中的每個(gè)投遞地址至少擁有一種包含實(shí)現(xiàn)轉(zhuǎn)口分揀、本口分揀以及供道段投遞使用的地址信息的文字表示，將通過(guò)圖像采集和字符識(shí)別獲得的所述郵政信函的地址文字表示與所述地址信息庫(kù)中的投遞地址進(jìn)行遍歷匹配，根據(jù)匹配度獲得所述郵政信函的分揀信息，實(shí)現(xiàn)郵政信函的轉(zhuǎn)口分揀、本口分揀以及本口分揀后的道段投遞。本發(fā)明實(shí)際應(yīng)用于信函分揀機(jī)的識(shí)別模塊中，在地址庫(kù)相對(duì)準(zhǔn)確完整、識(shí)別率基本保證的情況下，該方法能夠有效對(duì)信函地址識(shí)別結(jié)果進(jìn)行分析校正，得到準(zhǔn)確的信函分揀信息，即可以完全依靠對(duì)信函地址識(shí)別結(jié)果進(jìn)行信函分揀。
文檔編號(hào)B07C3/10GK101844135SQ201010170949
公開(kāi)日2010年9月29日申請(qǐng)日期2010年5月11日優(yōu)先權(quán)日2010年5月11日
發(fā)明者呂岳, 呂淑靜, 姚心宇, 屠曉, 范生淼申請(qǐng)人:上海郵政科學(xué)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂岳;范生淼;呂淑靜;屠曉;姚心宇
技術(shù)所有人：上海郵政科學(xué)研究院
我是此專利的發(fā)明人

上一篇：一種高磷硫菱鐵礦的綜合處理方法
上一篇：離心分離機(jī)驅(qū)動(dòng)裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、謝老師：1.代謝工程：氨基酸和核苷酸及衍生物代謝工程育種、代謝網(wǎng)絡(luò)定量分析、氨基酸和核苷酸及衍生物產(chǎn)品開(kāi)發(fā)和應(yīng)用 2.發(fā)酵工程：發(fā)酵過(guò)程優(yōu)化放大，產(chǎn)品分離提取，節(jié)能減排和資源高效利用 3.系統(tǒng)生物學(xué)：重要工業(yè)微生物生理代謝、基因組和蛋白質(zhì)組等比較組學(xué)研究。
2、王老師：1.化工過(guò)程系統(tǒng)工程 2.化工過(guò)程強(qiáng)化 3.反應(yīng)精餾；精密精餾
3、鄧?yán)蠋煟?font color="777777">1.新型分離、富集材料 2.高靈敏、高通量分離分析檢測(cè)技術(shù) 3.新型高靈敏傳感檢測(cè)
4、鄧?yán)蠋煟?font color="777777">鹵水資源綜合利用、稀有元素分離技術(shù)、相平衡與相圖、溶液熱力學(xué)與熱化學(xué)、海洋化學(xué)
5、唐老師：海水和鹵水資源綜合利用、食鹽與健康及鹽產(chǎn)品高值化、膜分離技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

郵政信函相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種地址信息庫(kù)驅(qū)動(dòng)下的郵政信函按址分揀方法