欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用處理系統(tǒng)解析地址的方法和系統(tǒng)的制作方法

文檔序號:6469929閱讀:197來源:國知局
專利名稱:使用處理系統(tǒng)解析地址的方法和系統(tǒng)的制作方法
技術領域
本發(fā)明通常涉及一種處理系統(tǒng),尤其涉及一種利用處理系統(tǒng)解析 地址的過程。
背景技術
在處理系統(tǒng)中存在識別人類語言文本中的街道地址的應用。IBM 的產(chǎn)品IBM Identity Resolution是識別個人及其相關的街道地址的程 序的例子。街道地址是不能被計算機直接理解以便進行進一步信息處 理的人類語言文本。由于街道地址可能使用計算機不能理解的不同語 言,例如英語、阿拉伯語、土耳其語等等,所以該地址可能是不可理 解的。
而且,根據(jù)街道地址來自的國家/地區(qū),它們可能具有不同的句 子結構。例如,盡管英國和美國都使用英語地址,它們的地址結構完 全不同。
在許多用于解析地址的應用中所使用的傳統(tǒng)算法被稱為模式匹 配算法。在這種類型的算法中,將地址與有限數(shù)量的可能模式進行比 較,并且最先匹配該地址的模式被用作為正確的地址。由于這些模式 以預先確定的順序進行比較,地址可能與一個模式匹配,但是它可能 與后面的模式更好地匹配。此外,未正確輸入的地址可能匹配到錯誤 的模式或根本不匹配。
此外,當認識到存在新類型的地址時,處理系統(tǒng)中需要的、使得 能夠精確匹配街道地址的模式的數(shù)量將指數(shù)增長??赡苄枰獢?shù)百種模 式來表示像美國這樣的國家中的所有可能地址。而且,某些地址,諸 如1234 East West Street,可能很難用模式匹配算法來解析。例如, 含糊的美國街道地址是"1234 East West Street"。最后,具有悠久歷史的城市(例如,在歐洲)趨向于具有結構不太好的地址。用于這類城 市的模式的數(shù)量可能是巨大的。
因此,傳統(tǒng)模式匹配算法具有如下缺點,即,由于針對每個地址 進行大量查找以及難以針對新的語言/地區(qū)實現(xiàn)這類算法導致該算法 很慢。因此,需要一種克服上述問題的、用于解析街道地址的方法和 系統(tǒng)。本發(fā)明致力于這個需求。

發(fā)明內(nèi)容
公開了 一種解析地址的方法和系統(tǒng)。所述方法和系統(tǒng)包括將地址
分離成多個記號(token),并基于特定于地區(qū)的配置信息來提供一遍 (pass)或多遍記號含義發(fā)現(xiàn),以確定地址中每個記號的含義。這樣 做,處理系統(tǒng)能夠以切實有效的方式解析地址。通過根據(jù)特定于地區(qū) 的配置信息規(guī)則集合公開每個地址記號的含義,提供了使得按照解析 要求的變化能夠進行容易的修改的解析過程。


圖l是根據(jù)實施例的處理系統(tǒng)的圖。
圖2是根據(jù)實施例的解析過程的流程圖。
圖3 - 7圖示了根據(jù)實施例的解析街道地址"6600 Bermuda Road, Suite A"的過程的例子。

發(fā)明內(nèi)容
本發(fā)明通常涉及一種處理系統(tǒng),尤其涉及一種利用處理系統(tǒng)解析 地址的過程。以下描述被提出以使本領域普通技術人員做出并使用本 發(fā)明,并且所述描述在專利申請和其要求的情況下被提供。并非意欲 將本發(fā)明局限于所示的實施方式,而給予本發(fā)明與文中所述的原理和 特征一致的最寬范圍。
根據(jù)本發(fā)明的使用解析過程的系統(tǒng)能夠采取全硬件實現(xiàn)方式、全 軟件實現(xiàn)方式,或包含硬件和軟件元素的實現(xiàn)方式。在一個實施例中,本公開用軟件實現(xiàn),其包括但不限于應用軟件、固件、駐留軟件、微 碼等。
此外,這種解析過程能夠采取可從計算機可用介質(zhì)或計算機可讀 介質(zhì)獲得的計算機程序產(chǎn)品的形式,上述介質(zhì)提供由計算機或任何指 令執(zhí)行系統(tǒng)使用或與其結合使用的程序代碼。為了描述,計算機可用 介質(zhì)或計算機可讀介質(zhì)可以是能包括、存儲、通信、傳播或傳送由指 令執(zhí)行系統(tǒng)、設備或裝置使用或與其結合使用的程序的任何設備。
所述介質(zhì)可以是電子、磁性、光學、電磁、紅外或半導體系統(tǒng)(或 設備或裝置)或傳播介質(zhì)。計算機可讀介質(zhì)的例子包括半導體或固態(tài)
存儲器、磁帶、可移動計算機磁盤、隨機存取存儲器(RAM)、只讀 存儲器(ROM)、剛性》茲盤和光盤?,F(xiàn)有光盤的例子包括DVD、只 讀光盤存儲器(CD-ROM)和可讀/寫光盤(CD-R/W)。
圖1描述適于存儲和/或執(zhí)行關于解析過程的程序代碼的數(shù)據(jù)處 理系統(tǒng)100。數(shù)據(jù)處理系統(tǒng)100包括通過系統(tǒng)總線106耦接到存儲器 單元104a-104b的處理器102。在其他實施方式中,數(shù)據(jù)處理系統(tǒng) 100可包括多于一個處理器,且每個處理器可通過系統(tǒng)總線直接或間 接地耦接到一個或多個存儲器單元。
存儲器單元104a-104b可以包括在程序代碼的實際執(zhí)行期間使 用的本地存儲器、大容量存儲器和高速緩沖存儲器,該高速緩沖存儲 器提供至少某些程序代碼的臨時存儲,從而減少執(zhí)行期間必須從大容 量存儲器中檢索代碼的次數(shù)。如圖所示,輸入/輸出或I/O設備108a - 108b耦接到數(shù)據(jù)處理系統(tǒng)100。I/O設備108a - 108b可通過中間I/O 控制器(未示出)直接或間接地耦接到數(shù)據(jù)處理系統(tǒng)IOO。
在該實施方式中,網(wǎng)絡適配器110耦接到數(shù)據(jù)處理系統(tǒng)100,以 使數(shù)據(jù)處理系統(tǒng)100能夠通過通信鏈路112耦接到其他數(shù)據(jù)處理系統(tǒng) 或遠程打印機或存儲設備。通信鏈路112可以是專用或公共網(wǎng)絡。調(diào) 制解調(diào)器、線纜調(diào)制解調(diào)器和以太網(wǎng)卡僅僅是目前可用的網(wǎng)絡適配器 的少數(shù)類型。
在根據(jù)實施例的解析過程中,盡可能快地確定地址的每個記號的含義。這種確定通過發(fā)現(xiàn)地址每個元素的記號含義來完成。這在下文 中將被描述為記號含義發(fā)現(xiàn)。因此,通過利用基于特定于地區(qū)的配置 信息的一遍或多遍記號含義發(fā)現(xiàn), 一個或多個記號含義被排除,直至 所有記號被確定或基于多遍記號含義發(fā)現(xiàn)不再能確定記號含義。匹配 問題能夠通過提供新規(guī)則或修改已有規(guī)則而被消除。
此外,根據(jù)這個實施例,用解析過程對特定于地區(qū)的配置信息的
規(guī)則集合進行調(diào)試是很容易的。優(yōu)選地,HTML格式的輸出能夠被用 于精確指示規(guī)則是如何被應用,以及在每遍記號含義發(fā)現(xiàn)中每條規(guī)則 排除了什么記號含義。
因此,在實施例中,街道地址首先被記號化,即,地址元素被分 離成單獨的記號。根據(jù)實施例的解析過程的目標是要將記號含義的數(shù) 目減少至一個,從而發(fā)現(xiàn)這個記號的唯一可能含義。因此,根據(jù)特定 于地區(qū)的配置信息發(fā)現(xiàn)每個記號的含義,直至所有記號含義被找到或 記號含義不能被進一步減少。
特定于地區(qū)的配置信息規(guī)則集合使得解析過程能夠有效操作。特 定于地區(qū)的配置信息的兩個例子是
-地址部分(ROAD, AVE, RUE等詞)
-規(guī)則集(支配實際解析的規(guī)則)
通過利用配置信息與一遍或多遍記號含義發(fā)現(xiàn),提供比傳統(tǒng)解析 算法更有利的解析過程。
在實施例中,第一遍記號含義發(fā)現(xiàn)不需要上下文信息(不需要周 圍的記號信息)來開始試圖減少與街道地址的記號相關聯(lián)的含義。例 如,街道地址"124 Bermuda Road,,中的"124",在美國不是街道后綴, 因此可立即排除"124"是后綴的可能性。
第二遍以及隨后的記號含義發(fā)現(xiàn)需要上下文信息以試圖進一步 減少每個記號的含義。這個例子中,上下文信息意味著關于周圍記號 的信息。
例如,通過觀察之前和之后的記號,"124 Bermuda Road,,中 "Bermuda"的含義可能被設置為"STREETNAME (街道名稱)",這是因為地區(qū)特定配置信息規(guī)則被配置成指出"如果記號在STREET NUMBER (街道號)和STREET SUFFIX (街道后綴)之間,則記號 為STREET NAME (街道名稱)"。
為了更詳細地描述根據(jù)實施例的解析過程的實施例的特征,結合 附圖參考下述描述。圖2是解析地址的過程的實施例的流程圖。首先, 經(jīng)由步驟202,街道地址被記號化。在一個實施例中,通過將地址分 離成單獨的單詞或元素,然后將記號與每個單詞或元素相關聯(lián),地址 被記號化。此外,可通過合并或分解單詞和/或元素來設置某些專門記 號。例如,詞語"#5,,能分解成"#"和"5",或者,"PO,,和"BOX"可合 并成"PO BOX"。
接下來,經(jīng)由步驟204,在沒有上下文信息的情況下執(zhí)行第一遍 記號含義發(fā)現(xiàn)。在該第一遍記號含義發(fā)現(xiàn)中,對于所有記號應用來自 該過程中的地區(qū)特定配置信息規(guī)則集合的至少一個硬編碼(hardcoded) 規(guī)則。經(jīng)由處理系統(tǒng)的存儲器中的查找表,可以排除記號含義。例如, 如果記號不是在特定查找表中的方向單詞(East (東)、West (西)、 South (南)、North (北))之一,則對于該記號,這類記號含義能 立即被排除。來自這個過程中的特定于地區(qū)的配置信息規(guī)則集合的規(guī) 則被應用。記號含義消除可無需上下文信息而被執(zhí)行(例如,在美國, "#,,符號總是單元標記,或者,如果在記號里沒有數(shù)字,該記號不可 能是街道號碼)。
然后,經(jīng)由步驟206,利用特定于地區(qū)的配置信息規(guī)則集合以及 上下文信息,向每個記號應用包括上下文信息的多遍記號含義發(fā)現(xiàn)。 這些遍記號含義發(fā)現(xiàn)被執(zhí)行,直至所有記號含義被找到或最后一遍記 號含義發(fā)現(xiàn)對于識別記號沒有做出任何改變。因此,如果已知某個特 定記號的含義,則上下文規(guī)則被應用。諸如相鄰記號、記號在地址中 的位置等的上下文規(guī)則被用于排除記號含義。
最后,經(jīng)由步驟208,如有必要,相似的記號被合并。在這個步 驟中,如果相鄰記號具有相同的含義,則它們被合并成一個記號。例 如,在地址"Yellow Rose Street"中,"Yellow,,和"Rose,,被發(fā)現(xiàn)是兩個記號,它們的含義都是街道名稱,則這兩個記號被合并成"Yellow Rose"。
為了在特定例子的情況下描述這個過程,現(xiàn)在參考下文。在這個 例子中,街道地址"6600 Bermuda Road, Suite A,,被解析。在這個實施 方式中,該地址是美國地址,而且符合美國地址規(guī)則的規(guī)則集被創(chuàng)建 并被應用于該地址。但是,本領域普通技術人員應當認識到,來自特 定國家的任何地址和符合那個國家的規(guī)則集能被使用,并且該使用在 本發(fā)明的精神和范圍內(nèi)。此外,應當理解,基于被引入到國家中的地 址新類型或者使用原始規(guī)則集合不能準確發(fā)現(xiàn)某些地址的發(fā)現(xiàn),規(guī)則 集合可被修改,并且仍在本發(fā)明的精神和范圍內(nèi)。
為了在特定例子的情況下描述本發(fā)明,現(xiàn)在參考下文。圖3-7 圖示了利用解析過程的實施例來解析美國街道地址"6600 Bermuda Road, Suite A"的過禾呈的例子。
下面是能用作美國街道地址的記號的縮略詞和其相關含義。
STREETN畫街道號碼,例如"6600 Bermuda Road, Suite A,,
中的(6600)
PREDIR在街道名稱前的方向詞。如"West Sahara Ave."中的 (West)
POSTDIR在街道名稱/后綴后的方向詞例如,"Sunset Ave, West,,中的(West)
STREETNAME街道名稱,例如"6600 Bermuda Road, Suite A,, 中的(Bermuda )
PREFIX在街道名稱前的街道類型,例如"Rue Morgue"中的 (Rue)。不用于美國地址。
SUFFIX在街道名稱后的街道類型,例如"6600 Bermuda Road, Suite A"中的(Road)
UNITSIDE (目前只用于西班牙地址)左或右,等等。不用于美 國地址
BUILDINGSIDE (目前只用于西班牙地址)左或右,等等。不用于美國地址
UNITNUM單元號碼,例如"6600 Bermuda Road, Suite A,,中的
(A)
UNITLABEL單元標記,例如"Bermuda Road, Suite A,,中的 (Suite )
POBOXNUMP.O.Box號碼,例如"P.O. Box 32,,中的(32) POBOTYPE P.O. Box類型,例如"P.O. Box 32"中的(P.O. Box ) RRHCLABEL鄉(xiāng)村路線標記,例如"RR 32 Box 45,,中的(RR) RRHCNUM鄉(xiāng)村路線號碼,例如"RR32Box45,,中的(32) 如圖3所示,在單獨一行中提供街道地址。圖4示出通過將地址 元素分離成單獨的記號來記號化地址。在這個實施例中,每個元素是 一個記號。但是,如前所述,某些元素可被分開,例如將數(shù)字符號與 數(shù)字分開,或者某些元素在這個記號化步驟期間能被合并,例如"PO" 和"Box,,被合并,從而更精確地分離這些元素。
圖5A-5E圖示了根據(jù)實施例的第一遍記號含義發(fā)現(xiàn)。對于每個 記號,在沒有上下文信息的第一遍記號含義發(fā)現(xiàn)的開始,執(zhí)行硬編碼 含義排除步驟。在這個硬編碼含義排除步驟中,例如,僅僅通過在查 找表中查找含義來排除記號的含義。例如,通過參考 ADDRESSPARTS: SUFFIX表,"6600 Bermuda Road, Suite A"中的 記號"Bermuda,,作為后綴被排除。此外,如果規(guī)則在其定義中沒有 條件,則該規(guī)則被稱為"無條件規(guī)則"。對于這些規(guī)則,"排除,,或"設 置,,屬性總是被應用。例如,圖5A所示的RULE NCR000排除了 "PREFIX, UNITSIDE, BUILDINGSIDE",這是因為美國地址沒有 前綴、單元側或建筑側。這些類型的描述不用于美國地址是被認可的。 同樣如前所述,在第一遍記號含義發(fā)現(xiàn)中,根據(jù)特定于地區(qū)的配 置信息,每個記號在沒有上下文信息的情況下被搮作以確定能否給任 何元素賦予記號含義。參考圖5A,基于規(guī)則集合,對于元素"6600", 所有非數(shù)字相關的記號被排除。在圖5B中,確定出"Bermuda"是街 道名稱。對于元素"Road",除"Streetname"和"Suffix"之外的所有記號都被排除。對于元素"Suite",參考圖5D,除"Streetname"和 "UnitName,,之外的所有記號被排除。參考圖5E,對于元素"A",除 "Streetname,,和"UnitNum,,之外的所有記號被排除。因此,如在第一 遍記號含義發(fā)現(xiàn)之后所看到的那樣,對于地址的每個元素,許多記號 含義已經(jīng)被排除,并且在一個例子中,在沒有上下文信息的情況下, 已經(jīng)基于規(guī)則集合識別了記號"Bermuda"。
如前所述,在隨后的多遍記號含義發(fā)現(xiàn)中,上下文信息被包括以 進一步發(fā)現(xiàn)每個元素的記號含義。仍參考這個例子,圖6A-6D圖示 了利用上下文信息,進行元素的記號含義發(fā)現(xiàn)。圖6A中,通過規(guī)則 集合確定出"6600"是街道號碼"StreetNum"。圖6B中,通過規(guī)則集合 確定出"ROAD"是后綴。圖6C中,通過規(guī)則集合確定出"Suite,,的記 號含義是UNITLABEL。最后,圖6D中,通過規(guī)則集合確定出"A" 的記號含義是UNITNUM。
圖7圖示了地址的兩遍記號含義發(fā)現(xiàn)的結果。因此,在這個實施 例中,通過利用兩遍記號含義發(fā)現(xiàn),每個元素的記號含義都被發(fā)現(xiàn)并 且被該過程有效地解析。這樣做,提供了與傳統(tǒng)解析過程相比具有顯 著優(yōu)點的解析過程。
優(yōu)點
根據(jù)本發(fā)明的解析器不需要改變代碼來增加另一種語言/地區(qū)特 定配置信息地址類型。僅僅需要新的配置。在其特定于地區(qū)的配置信 息被加載后,解析過程就能完全在存儲器中操作。輸出可包括日志, 從而使得在確定出地址沒有被準確解析時能夠進行調(diào)試。
雖然根據(jù)所示實施例描述了本發(fā)明,但是本領域普通技術人員應 當容易地認識到,可以變化實施例,并且那些變化仍在本發(fā)明的精神 和范圍內(nèi)。例如,雖然在本實施例中美國街道地址被解析,但是本領 域普通技術人員應當認識到,其它類型的地址或不同國家的地址能夠 被解析,并且這仍在本發(fā)明的精神和范圍內(nèi)。因此,本領域普通技術 人員可以進行許多修改而不背離所附權利要求的精神和范圍。
權利要求
1. 一種解析方法,包括將地址分離成多個記號;以及基于特定于地區(qū)的配置信息提供一遍或多遍記號含義發(fā)現(xiàn),以確定所述地址中每個記號的含義。
2. 如權利要求l所述的方法,其中所述提供一遍或多遍記號含 義發(fā)現(xiàn)包括在沒有上下文信息的情況下提供第一遍記號含義發(fā)現(xiàn)。
3. 如權利要求2所述的方法,其中所述提供一遍或多遍記號含 義發(fā)現(xiàn)包括在有上下文信息的情況下提供一遍或多遍隨后的記號含 義發(fā)現(xiàn)。
4. 如權利要求l所述的方法,其中特定于地區(qū)的配置信息包括 地址部分和規(guī)則集合。
5. 如權利要求l所述的方法,其中所述地址包括街道地址。
6. 如權利要求l所述的方法,其中所述特定于地區(qū)的配置信息 包括特定于上下文的規(guī)則和非特定于上下文的規(guī)則。
7. 如權利要求l所述的方法,其中所述地址的元素被合并以提 供記號。
8. 如權利要求l所述的方法,其中所述地址的元素被分離以提 供單獨的記號。
9. 一種處理系統(tǒng),包括處理器;耦接到所述處理器的存儲器;以及要由所述處理器執(zhí)行的解析代碼;所述解析代碼進一步包括將 地址分離成多個記號;以及基于特定于地區(qū)的配置信息提供一遍或多 遍記號含義發(fā)現(xiàn)以確定所述地址中每個記號的含義。
10. 如權利要求9所述的處理系統(tǒng),其中所述提供一遍或多遍 記號含義發(fā)現(xiàn)包括在沒有上下文信息的情況下提供第一遍記號含義 發(fā)現(xiàn)。
11. 如權利要求9所述的處理系統(tǒng),其中所述提供一遍或多遍 記號含義發(fā)現(xiàn)包括在有上下文信息的情況下提供一遍或多遍隨后的 記號含義發(fā)現(xiàn)。
12. 如權利要求9所述的處理系統(tǒng),其中特定于地區(qū)的配置信 息包括地址部分和規(guī)則集合。
13. 如權利要求9所述的處理系統(tǒng),其中所述地址包括街道地址。
14. 如權利要求9所述的處理系統(tǒng),其中所述特定于地區(qū)的配 置信息包括特定于上下文的規(guī)則和非特定于上下文的規(guī)則。
15. 如權利要求9所述的處理系統(tǒng),其中所述地址的元素被合 并以提供記號。
16. 如權利要求9所述的處理系統(tǒng),其中所述地址的元素被分 離以提供單獨的記號。
17. —種計算機可讀介質(zhì),所述計算機可讀介質(zhì)包含用于解析 地址的程序指令,所述程序指令包括 將地址分離成多個記號;以及基于特定于地區(qū)的配置信息提供一遍或多遍記號含義發(fā)現(xiàn),以確 定所述地址中每個記號的含義。
全文摘要
公開了一種解析地址的方法和系統(tǒng)。所述方法和系統(tǒng)包括將地址分離成多個記號,以及基于特定于地區(qū)的配置信息提供一遍或多遍記號含義發(fā)現(xiàn),以確定所述地址中每個記號的含義。這樣做,處理系統(tǒng)能夠以切實有效的方式解析地址。通過根據(jù)特定于地區(qū)的配置信息規(guī)則集合公開地址的每個記號的含義,提供使得隨解析要求的變化能夠進行簡單修改的解析過程。
文檔編號G06F17/27GK101425056SQ200810212470
公開日2009年5月6日 申請日期2008年8月29日 優(yōu)先權日2007年11月2日
發(fā)明者B·亞齊茲 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
瑞丽市| 白玉县| 泰兴市| 宿迁市| 茶陵县| 三穗县| 启东市| 高台县| 仪征市| 水富县| 汶上县| 鱼台县| 从江县| 波密县| 泾源县| 定襄县| 邛崃市| 无棣县| 密山市| 云南省| 玉山县| 马公市| 逊克县| 兴山县| 镇平县| 普格县| 嘉荫县| 东乌珠穆沁旗| 永安市| 三穗县| 汉沽区| 南安市| 合作市| 永川市| 巩义市| 扶余县| 阜新市| 修文县| 启东市| 金寨县| 兴城市|