專利名稱:基于規(guī)則的地址信息匹配方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機的信息匹配和檢索技術(shù),具體涉及用于地址檢索、地址標準化、地址匹配和地址清洗等的基于規(guī)則的地址信息匹配方法。
背景技術(shù):
在計算機的數(shù)據(jù)處理中,有很對針對地址的分析和應用,因為數(shù)據(jù)來源的不同,針對同一地址的描述往往很難一致。這就給地址的分析和處理產(chǎn)生了很大的麻煩。這就需要有一個工具把錄入的地址轉(zhuǎn)換成標準的地址。在進行地址轉(zhuǎn)換匹配中需要解決諸多問題,因為我國地域廣闊而地址名稱也是多種多樣,造成了匹配精度較低的現(xiàn)狀。其主要原因包括地址數(shù)量大而地址的精確性低,以及地址重名較多。例如張自忠路,北京、上海、天津等中國很多城市都有該地址名稱。省略和別名也較多,例如北京市,地址描述時候常常把市給省略掉。另外地址信息中還通常包含其它信息,例如寫地址的時候經(jīng)常攙雜一些其它的信息, 包括公司的名字,有時候還有姓名和電話號碼。另外,地址的異化問題包括習慣稱呼、名稱改變、名稱重疊和同音字錯誤、簡繁字體差異等也會帶來地址匹配的錯誤。為解決上述問題,需要建立龐大的地址庫以減小地址匹配差異,目前針對地址庫過大的問題通常都是從硬件上去解決。例如使用性能更好的計算機,或者使用性能更好的數(shù)據(jù)庫。但帶來的后果首先是成本的問題,另外硬件的改善對于地址匹配缺陷的改變還是非常有限。
發(fā)明內(nèi)容
本發(fā)明提供了一種匹配精度高、速度快的基于規(guī)則的地址信息匹配方法,其采用較為小型的地址庫和配置的多類型數(shù)據(jù)庫有效地解決了地址異化問題,避免了地址名稱變更、習慣稱呼、地址名重疊、錯別字等各種影響地址詞條匹配問題,實現(xiàn)了精確和快捷的正確地址信息匹配。本發(fā)明所采用的技術(shù)方案如下一種基于規(guī)則的地址信息匹配方法,其特征在于所述地址信息匹配方法包括根據(jù)錄入的地址信息進行切詞,將切詞后得到的地址詞條在地址庫中進行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個最佳匹配的結(jié)果輸出。
具體實施方式
中,所述匹配方法進一步包括所述地址庫包括一標準地址庫,該標準地址庫以樹狀結(jié)構(gòu)建立,所述每一樹狀結(jié)構(gòu)的節(jié)點建立索引,所述地址庫中的中文和數(shù)字采用相匹配的壓縮形式。一實施方式中,所述地址庫還包括一別名地址庫,別名地址庫包括同一地址的習慣稱呼、歷史名稱、簡稱和特稱信息。一實施方式中,所述匹配方法進一步包括所述切詞后得到的地址詞條先在所述標準地址庫中進行詞條匹配,然后再于別名地址庫中進行詞條匹配,然后選擇一匹配的地址詞條添加到地址鏈路中。一實施方式中,所述匹配方法進一步包括所述切詞后得到的地址詞條進行錯別字糾正,然后用糾正后的地址詞條在地址庫中進行詞條匹配。另一實施方式中,所述錯別字糾錯包括音近字錯別字糾錯和形近字錯別字糾錯;所述音近字錯別字糾錯包括利用拼音建立漢字之間的關(guān)系,在進行詞條匹配時如無法在地址庫中,用音近字代替當前漢字在地址庫中重新進行詞條匹配;所述形近字錯別字糾錯包括建立形近字字庫,在形近字字庫中將漢字按字形分組,在進行詞條匹配時,漢字在其字形分組內(nèi)替代匹配。一實施方式中,所述匹配方法進一步包括 在地址庫中建立郵編與地址的關(guān)聯(lián),進行詞條匹配前,根據(jù)地址詞條找出匹配對應的郵編;如果輸入地址包含郵編信息,則先根據(jù)郵編對應的區(qū)域范圍,縮小地址查找區(qū)域。一實施方式中,所述地址庫還包括一組織機構(gòu)數(shù)據(jù)庫,該組織機構(gòu)數(shù)據(jù)庫將組織機構(gòu)名稱拆分為關(guān)鍵字和修飾詞;所述匹配方法包括對錄入的地址信息與組織機構(gòu)數(shù)據(jù)庫進行詞條匹配,首先與所述關(guān)鍵字進行詞條匹配,再與修飾詞進行詞條匹配,然后將詞條匹配的結(jié)果作為一臨時結(jié)果,再進行全地址的詞條匹配,最后擬合地址與組織機構(gòu)匹配的結(jié)果,并選擇一結(jié)果輸出。再一實施方式中,所述匹配方法進一步包括創(chuàng)立一繁體和簡體文字轉(zhuǎn)換表,在進行詞條匹配前,先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡體文字轉(zhuǎn)換表轉(zhuǎn)換為簡體字。該基于規(guī)則的地址信息匹配方法通過將切詞后的地址詞條進行地址庫匹配,并根據(jù)匹配信息進行匹配后的地址詞條的地址鏈路添加。地址庫包括采用樹狀結(jié)構(gòu)建立的標準地址庫,每樹狀結(jié)構(gòu)的標準地址庫能夠有效地減少地址數(shù)據(jù)的重復描述情況,通過對樹狀結(jié)構(gòu)的每一個節(jié)點建立索引,能夠加快地址檢索和匹配的速度;而根據(jù)中文文字和數(shù)字的差異選擇壓縮技術(shù),能夠減小數(shù)據(jù)庫的大小。針對同一地址的習慣稱呼、歷史名稱、簡稱和特稱等地址別名,本發(fā)明允許給出一個地址別名并根據(jù)該別名的輸入得到相應的匹配地址詞條。對于組織機構(gòu)的匹配,本發(fā)明收集和建立了組織機構(gòu)數(shù)據(jù)庫,每一組織機構(gòu)的地址詞條都拆分為關(guān)鍵字和修飾詞部分,關(guān)鍵詞為組織機構(gòu)匹配的核心。關(guān)鍵字若無法匹配則不再進行組織機構(gòu)的詞條匹配。如果關(guān)鍵字完全匹配的話,則根據(jù)修飾詞的匹配情況判斷最終的匹配結(jié)果。本發(fā)明的有益效果在于,該地址信息匹配方法匹配精度高、速度快的基于規(guī)則,其采用較為小型的地址庫和配置的多類型數(shù)據(jù)庫有效地解決了地址異化問題,避免了地址名稱變更、習慣稱呼、地址名重疊、錯別字等各種影響地址詞條匹配問題,實現(xiàn)了精確和快捷的正確地址信息匹配。下面結(jié)合具體實施方式
對本發(fā)明做進一步的闡述。
具體實施例方式該基于規(guī)則的地址信息匹配方法可用于基于計算機的地址檢索、地址標準化、地址匹配和地址清洗等技術(shù)。其根據(jù)錄入的地址信息進行切詞,將切詞后得到的地址詞條在地址庫中進行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個最佳匹配的結(jié)果輸出。該地址庫包括一標準地址庫,該標準地址庫以樹狀結(jié)構(gòu)建立,所述每一樹狀結(jié)構(gòu)的節(jié)點建立索引,所述地址庫中的中文和數(shù)字采用相匹配的壓縮形式。該地址庫還包括一別名地址庫,別名地址庫包括同一地址的習慣稱呼、歷史名稱、簡稱和特稱信息。例如“北京市海淀區(qū)西直門外大街”別名為“西外大街”,在系統(tǒng)匹配過程中用戶輸入“北京西外大街”就可以得到“北京市海淀區(qū)西直門外大街”;一個地址可以存在多個別名。例如“江蘇省蘇州市相城區(qū)陽澄湖鎮(zhèn)湘太路98號愛汀花園”的允許給兩個別名,分別是“愛汀堡”和“愛丁堡”。所述切詞后得到的地址詞條先在標準地址庫中進行詞條匹配,然后再于別名地址庫中進行詞條匹配,然后選擇一匹配的地址詞條添加到地址鏈路中。地址庫還包括一組織 機構(gòu)數(shù)據(jù)庫,該組織機構(gòu)數(shù)據(jù)庫將組織機構(gòu)名稱拆分為關(guān)鍵字和修飾詞;所述匹配方法還包括對錄入的地址信息與組織機構(gòu)數(shù)據(jù)庫進行詞條匹配,首先與所述關(guān)鍵字進行詞條匹配,再與修飾詞進行詞條匹配,然后將詞條匹配的結(jié)果作為一臨時結(jié)果,再進行全地址的詞條匹配,最后擬合地址與組織機構(gòu)匹配的結(jié)果,并選擇一結(jié)果輸出。該組織機構(gòu)數(shù)據(jù)庫集合了大量的公司、機關(guān)、單位、組織和學校的名字信息。組織機構(gòu)的名字信息可拆分為關(guān)鍵字和修飾詞兩部分,例如“北京鋒尚鑫隆電子技術(shù)中心”。“鋒尚鑫隆”為關(guān)鍵字,可以大概確定公司的字符串。其它如“北京”“電子”“技術(shù)” “中心”為修飾詞。修辭詞為事先定義好的詞庫。該詞庫為采集的組織機構(gòu)中的常見的字詞。比如上例中的“北京”、“電子”“技術(shù)” “中心”等。拆分組織機構(gòu)的時候,先拆修飾詞。等修飾詞拆分完,剩下的就是關(guān)鍵詞。一個組織機構(gòu)允許有多個關(guān)鍵字。關(guān)鍵字為組織機構(gòu)匹配的核心。關(guān)鍵字若匹配不上則停止組織機構(gòu)的匹配。關(guān)鍵字完全匹配上的話,則根據(jù)修飾詞的匹配情況判斷最終的匹配結(jié)果。在匹配過程中,切詞后得到的地址詞條還進行錯別字糾正,然后用糾正后的地址詞條在地址庫中進行詞條匹配。錯別字糾錯包括音近字錯別字糾錯和形近字錯別字糾錯,這兩種錯別字所占的比例非常高,其原因是當前的輸入法往往用的是字音或字形兩鐘輸入方式。所述音近字錯別字糾錯包括利用拼音建立漢字之間的關(guān)系,在進行詞條匹配時如無法在地址庫中,用音近字代替當前漢字在地址庫中重新進行詞條匹配。例如用戶會把“北京市海淀區(qū)“錯誤的輸成“北京還店區(qū)”。本專利用拼音建立漢字之間的關(guān)系。在匹配時,就可以用音近字代替當前漢字去匹配。最終得到預期的匹配結(jié)果。例如上面的字符串,“還”和“海”字音想同,所以是有關(guān)系的。匹配時,發(fā)現(xiàn)“還”和“?!庇嘘P(guān)系,“店”和“淀”有關(guān)系,北京還店區(qū)”就匹配到了 “北京市海淀區(qū)”。形近字錯別字糾錯包括建立形近字字庫,在形近字字庫中將漢字按字形分組,在進行詞條匹配時,漢字在其字形分組內(nèi)替代匹配。例如用戶把“北京市海淀區(qū)”輸入成“北京每定區(qū)”,經(jīng)過漢字字形分組匹配,可得到“北京市海淀區(qū)”的詞條匹配。 地址庫中建立有郵編與地址的關(guān)聯(lián),在地址庫中建立郵編與地址的關(guān)聯(lián),進行詞條匹配前,根據(jù)地址詞條找出匹配對應的郵編;如果輸入地址包含郵編信息,則先根據(jù)郵編對應的區(qū)域范圍,縮小地址查找區(qū)域,以提高地址的匹配精度。郵編的關(guān)聯(lián)精確度可分三級。前兩位郵編號精確,前四位郵編更精確,六位全精確。三個精確級別所對應的地址范圍也不同。
同時,本發(fā)明還創(chuàng)立一繁體和簡體文字轉(zhuǎn)換表,在進行詞條匹配前,先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡體文字轉(zhuǎn)換表轉(zhuǎn)換為簡體字。
權(quán)利要求
1.一種基于規(guī)則的地址信息匹配方法,其特征在于所述地址信息匹配方法包括 根據(jù)錄入的地址信息進行切詞,將切詞后得到的地址詞條在地址庫中進行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個最佳匹配的結(jié)果輸出。
2.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進一步包括 所述地址庫包括一標準地址庫,該標準地址庫以樹狀結(jié)構(gòu)建立,所述每一樹狀結(jié)構(gòu)的節(jié)點建立索引,所述地址庫中的中文信息和數(shù)字信息采用相匹配的壓縮形式。
3.根據(jù)權(quán)利要求2所述的基于規(guī)則的地址信息匹配方法,其特征在于所述地址庫還包括一別名地址庫,別名地址庫包括同一地址的習慣稱呼、歷史名稱、簡稱和特稱信息。
4.根據(jù)權(quán)利要求3所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進一步包括 所述切詞后得到的地址詞條先在所述標準地址庫中進行詞條匹配,然后再于別名地址庫中進行詞條匹配,然后選擇一匹配的地址詞條添加到地址鏈路中。
5.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進一步包括 所述切詞后得到的地址詞條進行錯別字糾正,然后用糾正后的地址詞條在地址庫中進行詞條匹配。
6.根據(jù)權(quán)利要求5所述的基于規(guī)則的地址信息匹配方法,其特征在于所述錯別字糾錯包括音近字錯別字糾錯和形近字錯別字糾錯;所述音近字錯別字糾錯包括利用拼音建立漢字之間的關(guān)系,在進行詞條匹配時如無法在地址庫中,用音近字代替當前漢字在地址庫中重新進行詞條匹配;所述形近字錯別字糾錯包括建立形近字字庫,在形近字字庫中將漢字按字形分組,在進行詞條匹配時,漢字在其字形分組內(nèi)替代匹配。
7.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進一步包括 在地址庫中建立郵編與地址的關(guān)聯(lián),進行詞條匹配前,根據(jù)地址詞條找出匹配對應的郵編;如果輸入地址包含郵編信息,則先根據(jù)郵編對應的區(qū)域范圍,縮小地址查找區(qū)域。
8.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述地址庫還包括一組織機構(gòu)數(shù)據(jù)庫,該組織機構(gòu)數(shù)據(jù)庫將組織機構(gòu)名稱拆分為關(guān)鍵字和修飾詞; 所述匹配方法包括對錄入的地址信息與組織機構(gòu)數(shù)據(jù)庫進行詞條匹配,首先與所述關(guān)鍵字進行詞條匹配,再與修飾詞進行詞條匹配,然后將詞條匹配的結(jié)果作為一臨時結(jié)果,再進行全地址的詞條匹配,最后擬合地址與組織機構(gòu)匹配的結(jié)果,并選擇一結(jié)果輸出。
9.根據(jù)權(quán)利要求I所述的基于規(guī)則的地址信息匹配方法,其特征在于所述匹配方法進一步包括 創(chuàng)立一繁體和簡體文字轉(zhuǎn)換表,在進行詞條匹配前,先將發(fā)現(xiàn)的繁體字依據(jù)繁體和簡體文字轉(zhuǎn)換表轉(zhuǎn)換為簡體字。
全文摘要
一種基于規(guī)則的地址信息匹配方法,包括根據(jù)錄入的地址信息進行切詞,將切詞后得到的地址詞條在地址庫中進行詞條匹配,并將匹配的地址詞條添加到地址鏈路中,并在地址鏈路中選擇一個最佳匹配的結(jié)果輸出。該基于規(guī)則的地址信息匹配方法匹配精度高、速度快,其采用較為小型的地址庫和配置的多類型數(shù)據(jù)庫有效地解決了地址異化問題,避免了地址名稱變更、習慣稱呼、地址名重疊、錯別字等各種影響地址詞條匹配問題,實現(xiàn)了精確和快捷的正確地址信息匹配。
文檔編號G06F17/30GK102750351SQ201210189409
公開日2012年10月24日 申請日期2012年6月11日 優(yōu)先權(quán)日2012年6月11日
發(fā)明者于志華, 崔傳德 申請人:迪爾碼國際營銷服務(北京)有限公司