專利名稱:用于對具有象形表意內(nèi)容的數(shù)據(jù)進行搜索和匹配的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本公開涉及對數(shù)據(jù)進行搜索和匹配,并且更具體地,涉及對包 含非語音、語義或者象形表意內(nèi)容的數(shù)據(jù)進行搜索和匹配。
背景技術(shù):
對于有效利用數(shù)據(jù)庫中的數(shù)據(jù)而言,高效的數(shù)據(jù)庫訪問能力和 搜索能力是很重要的。對于此目標,關(guān)鍵在于允許高效檢索正確數(shù) 據(jù)的能力,其中借助于操作以找到匹配的方法來查找該數(shù)據(jù),而無 需對存儲在參考全域中的每個數(shù)據(jù)元素進行搜索。
搜索和匹配系統(tǒng)是已知的,并且提供了從用于各種用途的數(shù)據(jù) 庫中檢索相關(guān)信息的有效方式。例如,在信用卡行業(yè),通常通過商 業(yè)可用數(shù)據(jù)庫來處理關(guān)于正在被考察信用.的給定商業(yè)實體的信用歷 史信息。用戶可以將商業(yè)實體的名稱輸入到連接至數(shù)據(jù)庫的處理器, 然后該處理器在數(shù)據(jù)庫中定位給定的實體并檢索其信用歷史信息。 其他示例包括如下應(yīng)用,其中用戶可能希望將來自完全不同來源的 信息進行整合以獲得對客戶或者供貨商的 一 般性了解。
在美國專利申請No. 10/702,114中公開了利用存儲的數(shù)據(jù)對輸入 數(shù)據(jù)進行搜索和匹配的示例性方法和系統(tǒng),該申請公開為美國專利 公開No.2004/0220918 Al,在此將其全部引入作為參考?;痉椒?包括三個順序執(zhí)行的處理,在圖1中示出
1.清理、解析以及標準化。此處理包括a)標識查詢數(shù)據(jù)的關(guān)鍵成分;b)將名稱、地址和城市數(shù)據(jù)規(guī)格化;以及c)將地址數(shù)據(jù) 標準化。
2. 候選檢索。此處理包括a)基于查詢中提供的數(shù)據(jù)來選擇關(guān) 鍵字;b)優(yōu)化關(guān)鍵字以改進檢索質(zhì)量和速度;以及c)從參考數(shù)據(jù) 庫收集最可能匹配候選。
3. 評價與決策。此步驟涉及利用了一致的、可重復(fù)的匹配質(zhì) 量反饋來根據(jù) 一 致標準來評價匹配,以便將主觀決策轉(zhuǎn)化為客觀標 準(諸如,匹配等級模式)以反映'個體屬性決策,以及將結(jié)果的整 體分層的置信度代碼轉(zhuǎn)化成類似質(zhì)量的組(還具有其他優(yōu)點)。這 些處理使得能夠進行自動決策。
先前的亞洲匹配反饋信息局限于在其中將匹配查詢結(jié)果分類成 A、 B或C的層。在個體水平處,此反々貴水平在A或B水平匹配內(nèi) 部的結(jié)果之間不具有區(qū)分的能力,由于每個類別中的匹配數(shù)量,尤 其是在B類別中的那些數(shù)量比較可觀,并且在沒有母語講話者人工
介入的情況下無法在它們之間進行區(qū)分,所以這種反饋水平不夠理
相
解決A、 B和C匹配是可行的,但是由于這是人工密集型處理, 需要與人交互來驗證匹配,所以是高代價的。
匹配的類別描述如下。"A"匹配表明匹配的高度可能性,但是其 可能包含重復(fù)(duplication)匹配或者錯誤的匹配。"B,,匹配表明可 能的匹配,但是需要人工研究來解決。"C"匹配表明很可能出現(xiàn)誤酉己, 這還可以是由查詢數(shù)據(jù)的缺陷所引起。
具有上述環(huán)境中的自動決策的問題在于缺乏粒度。在缺少了匹 配質(zhì)量的進一步反饋的情況下,用戶無法在多個"B"匹配中進行選擇 以便選擇最佳匹配。即使是在"A,,匹配中,用戶也不能在缺少人工審 核每個匹配的情況下改進置信度。
在圖2中示出了現(xiàn)有技術(shù)的匹配系統(tǒng)示意圖。
在本系統(tǒng)中,為了進一步區(qū)分具有不同匹配水平的查詢結(jié)果, 來執(zhí)行更小粒度的高水平匹配反饋并將其映射為相應(yīng)的置信度代碼。優(yōu)選地,在范圍的保守末端處選擇目標置信度代碼("CC,,)。 后續(xù)調(diào)節(jié)增強了此映射的分布。在圖3中示出此映射的示例。
在等于7或者大于7的置信度代碼處,由于可以在沒有人工干
預(yù)的情況下接受這些匹配的能力,市場上的很多客戶將系統(tǒng)設(shè)置為
自動決策。并非所有7的置信度代碼的匹配都是完美的匹配,所以 優(yōu)選地,需要謹慎考慮自動決策閾值。相反,如果使用低于7的置 信度代碼,則將會忽略很多良好匹配。因此,7是質(zhì)量閾值的保守末 端,尤其是對于諸如日語的復(fù)雜語言中的匹配。
5和7之間的置信度表明仍然存在可用的"良好"匹配,尤其在輸 入數(shù)據(jù)稀少的情況下。在日本字符的示例中,由于使用的多個書寫 系統(tǒng)以及母語的內(nèi)在復(fù)雜性,通常需要仔細檢查具有此置信度代碼 范圍的結(jié)果以便確認。由于雙重含義,還可能存在某些誤配。
通常,4的置信度代碼是最低的置信度代碼,很多處理甚至考慮 是否對其進行顯示。這些匹配"不太可能"是正確的匹配,并且除非 查詢數(shù)據(jù)非常稀疏或者可以引用減輕錯誤的其他環(huán)境,否則通常不 4吏用這些匹配。
然而,如上面的例子所示,盡管諸如商業(yè)的標識和聯(lián)系信息之 類的數(shù)據(jù)集足夠緊密匹配而被認為是"7或者高于7"的置信度代碼匹 配,但這并不意味著匹配的數(shù)據(jù)完全準確。同樣,"5到6"的置信度 代碼匹配并不全部具有相同匹配水平。準確度是最能夠描述唯一商 業(yè)應(yīng)用的術(shù)語。
匹配等級模式呈現(xiàn)了不同水平的個體屬性匹配。匹配等級結(jié)果 中的"A,,符號表示在客戶信息和所匹配的記錄之間的數(shù)據(jù)屬性的高 置信度匹配。"B,,表示相似,但是沒有達到"A"表示的相似水平。"F" 符號表示客戶數(shù)據(jù)和所匹配記錄兩者針對給定屬性具有不同數(shù)據(jù)。 "Z,,表示客戶信息和/或數(shù)據(jù)庫記錄的任意一個中不包括針對給定字 段的任何信息。評價不僅基于逐字符的比較,而且還基于語義含義、 音調(diào)、詞位變化以及其他因素。而且,這些指派不是在查詢水平整 體做出的,而是在個體屬性水平做出的,以便增大粒度并使得能夠進行自動決策。
繼而可以將置信度代碼指派給每個不同的匹配等級串,以允許 將結(jié)果分層。將上述每個成分處理進一步劃分成圖4中所示功能區(qū)域。
利用增強的反饋,用戶可以支持商業(yè)規(guī)則,諸如將"5-6,,的置信
度代碼匹配進行子劃分的商業(yè)規(guī)則,從而例如,接受具有理想名稱 和城市的那些匹配,以及對在具有正確轄區(qū)(自治區(qū)或省)卻沒有 城市的那些匹配的查找進行排序,并且忽略在名稱上具有低質(zhì)量匹 配的那些匹配。其結(jié)果是,反饋使得能夠進行自動決策。
在處理不能依賴于包含語音字母(諸如,英語、法語和希臘語) 的書寫系統(tǒng)提供的區(qū)別的數(shù)據(jù)庫中,匹配面臨其他挑戰(zhàn)。在諸如漢
語和日語的語言中,書寫系統(tǒng)通過表意符號構(gòu)建并且將語義含義具 體化,這對搜索和匹配提出了獨特的挑戰(zhàn)。另外,使用這些書寫系 統(tǒng)的國家通常自由地集成其他語音的書寫系統(tǒng),以便允許表示外文 或者新詞。象形表意書寫系統(tǒng)中評價的挑戰(zhàn)在于書寫的語義本質(zhì)。 對于在足以區(qū)分"相同"和"類似"的水平處辨明含義而言,單獨基于正 確拼字的傳統(tǒng)記分方法是極不充分的,而這是本發(fā)明匹配等級處理 的核心。
這樣,需要改進現(xiàn)有搜索和匹配系統(tǒng)以及方法,尤其是通過在 非語音書寫系統(tǒng)中為評價匹配結(jié)果的質(zhì)量提供附加標準來改進。還 需要用于在機器匹配中進行區(qū)分的系統(tǒng)和方法,而無需對全部或部
分在象形表意上下文中呈現(xiàn)的數(shù)據(jù)進行昂貴的人工介入;從而允許 一致性與可擴展性。還需要用于完全自動搜索和匹配的系統(tǒng)和方法, 該系統(tǒng)和方法處理在非語音、象形表意書寫系統(tǒng)中的挑戰(zhàn)。
發(fā)明內(nèi)容
本公開提供了用于搜索、匹配,并為數(shù)據(jù)匹配提供質(zhì)量反饋(即, 增強的亞洲語言(例如,雙字節(jié))匹配反々貴)的系統(tǒng)和方法。
8的計算機化方法,該方法包括以下步驟接收輸入數(shù)據(jù),該輸入數(shù)
據(jù)包括具有多個元素的搜索串;將該多個元素的子集轉(zhuǎn)換成短語集; 從該短語集生成最佳的多個關(guān)鍵字;基于與匹配于該輸入數(shù)據(jù)的最 可能候選相對應(yīng)的該最佳關(guān)鍵字來檢索存儲的數(shù)據(jù);以及從多個匹 配候選選擇最佳匹配。至少某些要素形成了象形表意書寫系統(tǒng)的部 分。將元素的子集轉(zhuǎn)換成短語集的步驟使用從以下方法組成的組中 選擇的至少一個方法多圖標語法語義二異性消除、漢字字首組合 詞(acronym)擴展、日本漢字字首組合詞擴展以及商業(yè)詞語識別。 還提供了增強的亞洲語言匹配反饋系統(tǒng),其包括在查詢記錄和 存儲的參考記錄之間的匹配質(zhì)量測量。該系統(tǒng)使用定制用于亞洲書 寫系統(tǒng)獨特方面的方法,來反映用于非象形表意書寫系統(tǒng)的現(xiàn)有技 術(shù)。匹配等級模式或串對應(yīng)于數(shù)據(jù)庫記錄內(nèi)的數(shù)據(jù)子集的多種匹配 值,將其映射到現(xiàn)有結(jié)構(gòu),即包含在查詢數(shù)據(jù)記錄中的數(shù)據(jù),并且 反映名稱、某些地址成分、電話號碼和其他信息的個體質(zhì)量。.提供 例如由l-10之間的整數(shù)所標明的置信度代碼,其對應(yīng)于匹配等級模 式,并且通過將匹配等級模式分層成范圍以使能商業(yè)規(guī)則的應(yīng)用來 反映保守匹配質(zhì)量。該方法還包括將查詢記錄與在非語音或象形表 意語言中存儲的參考記錄相匹配。
圖1是現(xiàn)有技術(shù)的記錄匹配方法框圖2是現(xiàn)有技術(shù)的記錄匹配系統(tǒng)框圖3是示出了將置信度代碼映射到匹配結(jié)果的表;
圖4是示出了現(xiàn)有技術(shù)數(shù)據(jù)匹配方法的成分處理的框圖5是示出了日本商業(yè)參考記錄中的匹配等級模式的映射的表;
圖6是本公開的增強匹配系統(tǒng)的框圖7是表示匹配等級模式矩陣的表;
圖8是示出了用于檢索候選列表的框圖9是從英文公司名稱推導(dǎo)的字串(shingle)示例的示意;圖IO是根據(jù)本公開方法推導(dǎo)的漢字字串("漢字串(hingle),,) 示例的示意圖11是根據(jù)本公開方法推導(dǎo)的"粘滯字串(sticky shingle)"示例 的示意圖12是根據(jù)本公開方法推導(dǎo)的"啞漢字串(dumbhingle),,示例 的示意圖13是根據(jù)本公開方法的去除或縮寫結(jié)構(gòu)指示符的示例的示意
圖14是作為商業(yè)名稱 一 部分而包含的附加結(jié)構(gòu)指示符的示例的 示意圖15是"漢字首組合詞(Hacronym)"的示例的示意圖; 圖16是簡體語言和繁體語言的示例;
圖17示出了根據(jù)本公開的、表示用于算法的預(yù)測得分計算的表; 圖18是根據(jù)本公開方法的、將匹配等級串指派給記錄的方法框.
圖19是匹配等級模式的示意圖20是根據(jù)本公開方法的、示出了指派給參考名稱的匹配等級 代碼的表;
圖21是根據(jù)本公開方法的、示出了指派給參考記錄匹配候選的 置信度代碼的表;
圖22是根據(jù)本公開方法的、示出了如何呈現(xiàn)匹配結(jié)果的匹配等 級反饋報告示例;
圖23是根據(jù)本公開方法的、全文索引和名稱"日字串化" (kingling)示例的流程圖24是根據(jù)本公開方法的、用于唯一性的匹配等級算法示例;
圖25示出了根據(jù)本公開方法的、相對唯一性與絕對唯一性的圖
示;
圖26示出了根據(jù)本公開方法的、用于多圖標語法
(polylogogrammatic )語義消除二異性的示例性算法;以及圖27示出了根據(jù)本公開方法的、行業(yè)得分的表示。
具體實施例方式
本公開的系統(tǒng)和方法包括1)清理、解析和標準化,2)候選 檢索,以及3)評價和決策。評價和決策涉及根據(jù)一致性標準評價匹 配,并且包括創(chuàng)建匹配等級模式以建立細粒度反饋、指派使能自動 決策的置信度代碼,以及包括用于額外信息的匹配數(shù)據(jù)配置。增強 所有處理以解決象形表意書寫系統(tǒng)所提出的挑戰(zhàn)。
增強的亞洲語言匹配反饋系統(tǒng)和方法包括匹配質(zhì)量的三種測 量1)匹配等級得分(即,匹配等級),其被映射到現(xiàn)有數(shù)據(jù)結(jié)構(gòu), 并反映了名稱、某些地址成分、電話號碼和其他信息的個體質(zhì)量;2) 置信度代碼,例如由諸如3、 5和7的數(shù)字表示,使得能夠?qū)⒔Y(jié)果層 化;以及3 )還提供匹配數(shù)據(jù)配置使得其包含用于達到結(jié)果的具體元 數(shù)據(jù)上的附加信息,并且進一步區(qū)分匹配結(jié)果,尤其是區(qū)分"5-6,,置 信度代碼匹配結(jié)果。
而且,可用(或者可推導(dǎo)的)信息可以在用于更魯棒通信的解 決方案中映射,其類似于世界其他部分中的當前反饋。在圖5中示 出了日本匹配方案中的此映射示例。
下面描述本公開的增強匹配系統(tǒng)執(zhí)行的方法。在圖6中示出本 公開系統(tǒng)的實施方式示意圖。新系統(tǒng)可以取代當前數(shù)據(jù)匹配系統(tǒng)或 者作為對當前基于字符的系統(tǒng)的增強。將該系統(tǒng)充分地模塊化,使 得可以將其作為額外組件和工作流階段的集合而添加到當前工作流 處理。
清理、解析以及標準化(CPS)
增強匹配系統(tǒng)用于增強匹配方法,該方法的第 一 步驟開始于對 輸入的查詢數(shù)據(jù)進行清理、解析和標準化(CPS)。
在一個實施方式中,使用外部軟件對輸入的查詢數(shù)據(jù)進行清理、 解析和標準化(C P S )。進 一 步增強該處理的輸出以評定推導(dǎo)的信息、擴展首字縮略詞、以及解決其他已知的使用挑戰(zhàn)。此擴展使用適用
于亞洲書寫轉(zhuǎn)換的某些方法,諸如圖13、 14、 15和16中描述的。
該系統(tǒng)包括用于數(shù)據(jù)條目的各種字段,該數(shù)據(jù)由搜索數(shù)據(jù)的用 戶或者管理系統(tǒng)的用戶輸入。字段的第一集合包括多個"任務(wù)設(shè)置,,, 建立這些字段使得用戶可以輸入各種數(shù)據(jù)來管理搜索任務(wù)的處理。
這些各種類型的數(shù)據(jù)可以呈現(xiàn)為"任務(wù)偏好,,用戶界面(UI)中的不 同字段。任務(wù)偏好界面可以包括用于以下內(nèi)容的字段
(a) 處理批號可以將其推測為自動生成的,并且僅由用戶確認。 該任務(wù)號唯一地標識該任務(wù)并且還可以包含客戶ID (見下文)作為 該號碼一部分。該系統(tǒng)還創(chuàng)建任務(wù)批號,并且該任務(wù)批號可以作為 備選。
(b) 客戶ID:這優(yōu)選地是標識客戶的號碼。該客戶ID可以經(jīng)由 查找而4全索,并且該系統(tǒng)包括這樣的工具,如果客戶ID不存在則創(chuàng) 建新客戶ID。優(yōu)選地,這不是完整的客戶關(guān)系管理(CRM),而僅僅 是在數(shù)據(jù)通過系統(tǒng)時對該數(shù)據(jù)"加標簽"的需要。 (c) 自動決策閾值此值基于為該任務(wù)預(yù)先選擇的閾值置信度代 碼。該置信度代碼閾值例如為1-10,在該閾值處,系統(tǒng)可以自動匹 配DUNS標識符,即唯一的公司標識符(假設(shè)處理與平局決勝
(tie-breaking )邏輯不產(chǎn)生重復(fù))。優(yōu)選地,此能力處于任務(wù)偏好 窗口中。
(d) 查詢/參考SQL (結(jié)構(gòu)化查詢語言)表在這些表中,用戶 可以指定包含查詢數(shù)據(jù)和/或參考數(shù)據(jù)的服務(wù)器、數(shù)據(jù)庫和表。在一 個實施方式中,外部軟件為其處理的每個任務(wù)創(chuàng)建表,該表是查詢 數(shù)據(jù)表。
(e) 任務(wù)報告任務(wù)設(shè)置界面還可以包括提前指定所期待的報告 以及將報告寫到的位置的能力。
系統(tǒng)還可以包括管理接口 ,以便訪問包括匹配等級沖莫式矩陣(在 圖7中示出其示例)的數(shù)據(jù),通過該管理界面,將匹配等級模式及 它們到置信度代碼的映射存儲在系統(tǒng)數(shù)據(jù)庫中。該系統(tǒng)可以通過基本圖形用戶界面(GUI)來對其進行搜索和編輯。管理界面還可以包 括對所存儲的平局決勝規(guī)則的訪問,下文對此進行更詳細地描述, 并且這使得能夠從類似分層的潛在結(jié)果的組中選擇最終的最佳匹 配。優(yōu)選地,將平局決勝規(guī)則模塊化,使得它們不僅僅是在系統(tǒng)程 序產(chǎn)品內(nèi)的"硬編碼",從而允許運行中調(diào)節(jié)。在一個實施方式中, 每個客戶的平局決勝規(guī)則集存儲在它們各自的文件中,使得用戶的 平局決勝規(guī)則作為默認自動發(fā)生。在另一實施方式中,UI可以為任 務(wù)選擇平局決勝規(guī)則,或者選擇規(guī)則的位置(即,目錄)。優(yōu)選地, 以腳本或者另一可編輯格式存儲規(guī)則,使得可以增強、去除或者添 加規(guī)則,而不需要新版本的系統(tǒng)。
用戶可以輸入標識待搜索的期望實體的各種數(shù)據(jù)。表示用戶查 詢的數(shù)據(jù)稱為查詢數(shù)據(jù),該查詢數(shù)據(jù)存儲在記錄中,稱為查詢記錄。 這種處理查詢數(shù)據(jù)包括由用戶輸入的表示關(guān)于某實體的數(shù)據(jù),用戶 試圖從參考數(shù)據(jù)庫為該實體定位最佳匹配。此數(shù)據(jù)包括商業(yè)名稱數(shù)
據(jù)、地址數(shù)據(jù)和電話號碼數(shù)據(jù),在上述清理、解析和標準化(CPS)
例程中處理全郜所述數(shù)據(jù)。輸入可以處于混合字符集中,該字符集
包括亞洲文字和羅馬文字。地址數(shù)據(jù)由CPS例程處理以產(chǎn)生推導(dǎo)的 地址編碼(address codification),然后對其進行進一步劃分用于評 價。電話號碼數(shù)據(jù)由CPS例程標準化以基于本地國家慣例而分離出 子字段。
附加數(shù)據(jù)還可以與用戶輸入的數(shù)據(jù) 一起存儲,其中附加數(shù)據(jù)包 括與進入數(shù)據(jù)一起存儲的批號以及記錄號,該批號使得在任務(wù)存在 于系統(tǒng)中的整個期間唯 一 標識該任務(wù),記錄號在任務(wù)內(nèi)唯 一 標識每 個查詢數(shù)據(jù)記錄。記錄號可以僅僅是序列號。
對用戶輸入的查詢數(shù)據(jù)的處理產(chǎn)生多個數(shù)據(jù)元素和代碼。系統(tǒng) 利用算法來以如下方式評價所有范圍內(nèi)的數(shù)據(jù)元素,該方式產(chǎn)生諸 如下述的檢索關(guān)鍵字和評價屬性。以如下方式構(gòu)建多個這種算法 使得能夠同時處理包括語音書寫和象形表意書寫的多種文字。數(shù)據(jù) 元素、關(guān)鍵字和屬性針對每個查詢記錄存儲在數(shù)據(jù)庫中。數(shù)據(jù)元素可以用語音語言、非語音或象形表意語言或者其結(jié)合來提供。記錄 包括
a) 經(jīng)過清理的商業(yè)名稱(在CPS后)。這是對其應(yīng)用算法后的 標準化名稱。在一個示例中,算法包括"返回"代碼解析,其中"返 回,,代碼的第一字節(jié)用于商業(yè)名稱評價。附加變換包括字首組合詞 的擴展以及已知別名的處理,以及對觀察到的亞洲書寫習(xí)慣的處理, 諸如圖13、 14、 15和16中'所描述。
b) 可以推斷或者添加的附加信息,諸如日語中的轄區(qū)名稱。
c) 輸入到系統(tǒng)中的或者可以從外部模塊計算或檢索的地址編 碼。該系統(tǒng)使用算法來推導(dǎo)或者解析編碼,以檢索包括街道號、街 道名、城市、省(轄區(qū))和/或郵編的數(shù)據(jù)。例如在日本,住所代碼 包括直到實際街道號的數(shù)字信息,該住所代碼還通過在跨越多個書 寫系統(tǒng)的日語文字中拾取關(guān)鍵字(諸如,bldg、建筑物、樓層、FL、
-房間、RM、套房等),來標識和去除樓層和房間號。
還可以由系統(tǒng)執(zhí)行諸如經(jīng)度/綿度的其他編碼。解析此編碼可以 導(dǎo)致推導(dǎo)出附加屬性。
d) 電話區(qū)號通過直接輸入系統(tǒng)而提供以及經(jīng)由CPS處理而豐 富。創(chuàng)建定制算法以執(zhí)行CPS并解析輸入的電話號碼。將電話號碼 解析為可能的子成分。然后,將其存儲在查詢記錄上。
候選檢索
在對查詢數(shù)據(jù)進行清理、解析以及標準化后,系統(tǒng)必須為了評 價而檢索候選列表。目的在于構(gòu)建最可能包含來自參考數(shù)據(jù)庫的最 可用匹配的候選列表,同時將所考慮的候選池以及檢索該候選池的 計算復(fù)雜度最小化。候選必須是來自參考數(shù)據(jù)的"最佳"候選,即, 具有與查詢記錄最大相似度的參考記錄,不僅需要考慮字符上的相 似,而且音調(diào)、象形表意內(nèi)容以及對于亞洲書寫系統(tǒng)唯一的其他方 面也要相似。換言之,處理應(yīng)當返回最可能的候選列表,從而考慮 所有可用的以及可推導(dǎo)出的信息。記錄類似的記錄 的方法。所用的算法打破了預(yù)測(即,該算法有多大可能性檢索到 包含所期待匹配的記錄集)和性能(其涉及檢索了多少記錄、推導(dǎo) 檢索關(guān)鍵字的計算復(fù)雜度、以及因此可以多快地處理候選列表)之 間的平tf。
為了允許包括運行中優(yōu)化,提供了候選檢索的非確定方法,該 方法允許基于計算復(fù)雜度、算法的預(yù)測、已檢索候選的期望集合的 唯一性以及對于亞洲數(shù)據(jù)集唯一 的候選分布的所觀察或推導(dǎo)的方 面,使用多種算法并從那些算法中為每個查詢選擇最佳子集。在圖8 中示出了此方法的典型步驟及示例。該方法包括從查詢數(shù)據(jù)可用的 信息生成有效關(guān)鍵字,諸如關(guān)鍵詞、漢字或者日本漢字字首組合詞 (漢字首組合詞、日語字首組合詞)和電話號碼。從先前計算的參 考集檢索用于所有有效關(guān)鍵字交集的頻率計數(shù),即查詢記錄和參考
記錄中的匹配關(guān)^:字。可選地,壓制或者抑制產(chǎn)生多于預(yù)設(shè)頻率限
制的候選的那些關(guān)鍵字。還可以應(yīng)用其他技術(shù)以精選所提議的檢索 隊列?;谝粋€或多個因素,諸如檢索時間、交集時間、預(yù)測和計 算開銷,來為有效關(guān)鍵字交集產(chǎn)生成本函數(shù)?;谟嬎銖?fù)雜度、預(yù) 領(lǐng)'J和被檢索的潛在候選數(shù)量的乘積來以成本遞增順序重新排列關(guān)鍵
字交集;以相應(yīng)的關(guān)鍵字交集乘積順序從數(shù)據(jù)庫檢索候選列表。此 方法允i午在處理查詢時實時地優(yōu)化此方案。
在語音語言中,用于解決正字變型的算法之一稱為"字串化
(shingling),,的方法,使用此方法,通過排列從查詢串選擇已知大 小和偏移的正字片段,并且將其與指示那些相同片段在數(shù)據(jù)庫的已 知記錄中的唯一性如何的索引相比較。適合的關(guān)鍵字是那些表示少 見片段的那些片段。在圖9中示出了"ShellOilCompany"名稱的字串 示例。在"字串化,,(用于語音語言)的實現(xiàn)中,在標識"唯一"字 串(即,較小頻率出現(xiàn)的字串)時可以使用"字串化",從計算吞 吐量角度來講,其中該"唯一"字串很可能既具有預(yù)測性又高效。
在非語音語言中使用"字串化"的挑戰(zhàn)在于,符號變化具有更多的意義。在這種語言中不會出現(xiàn)"拼寫錯誤",盡管當然存在這樣 的情況,即字符被省略和/或重新排列卻仍保留含義。還可以是由于 亞洲語言輸入方法編輯器的復(fù)雜性而輸入了相似聲音符號。進 一 步
的挑戰(zhàn)來自于這樣的事實當與其他符號連接時,某些符號獲得了
僅由字符組合表示的新含義——必須小心對待這些組合的復(fù)雜組, 以避免在算法操作期間對它們?nèi)リP(guān)聯(lián),否則將丟失或者改變內(nèi)在的 含義。
通過以適合于亞洲語言的方式管理符號化操作,本公開提供了 查詢數(shù)據(jù)片段進行匹配的方法。此方法將某些符號歸組在一起,作 為"粘滯"字串,當將這些符號歸組在一起時,其在非語音語言中具 有較高的含義。從觀察到的粘滯字串(在漢語中稱為"漢字串
(Hingle)"在日語中稱為"日字串(Kingle)")之間或者之中作為結(jié) 果的轉(zhuǎn)變而提取附加推論。圖IO至圖12示出了將此方法應(yīng)用到中 文語言的實施方式,盡管此方法在任何非語音語言或者通信系統(tǒng)中 都是可用的。外推法(extrapolation)也適用于解決相同數(shù)據(jù)屬性中 的混合書寫系統(tǒng)(例如,日語中組合的日本漢字和片作支名)。
圖9是"字串,,的示例。在漢語書寫系統(tǒng)中,本方法利用"漢字串 化(hingling),,來表示漢字中的"字串化,,,"漢字串化,,是對漢字進 行"字串化,,的簡稱。圖IO是漢字字串或者漢字串(這些漢字串的 長度為2個字符,并且因此可以稱為"漢雙(Huple),,(Hanzee Duple) 的示例。漢字串保留了搜索串的重疊子段的概念,同時考慮到可能 成為"粘滯"的某些漢字字串或漢字串,因為它們被歸組以傳達某些 更高級別含義。這些"粘滯字串"是象形表意書寫的特點,可以使用 這一特點以顯著地改進候選檢索。漢字字符既不是字母也不是單詞, 而是語義元素。這樣,如圖11所示,當字符"粘合"在一起時,它們 的含義發(fā)生根本性改變。因此,如圖ll所示,將表示"上海"的字符 集標記為特殊的,并且在某些處理期間將其保持在一起。通過觀察 從漢字串到漢字串(漢雙到漢雙)的轉(zhuǎn)變,候選沖全索方法可以推i侖 出輸入串的高度預(yù)測子成分。很多"粘滯漢字串,,也是"噪音漢字串,,,這意味著它們頻繁出現(xiàn)但 對于候選檢索卻不可用。從技術(shù)上講,它們是"不感興趣的"。相反 地,"感興趣的,,漢字串是那些不經(jīng)常出現(xiàn)的漢字串,并且因此對于 候選檢索是高度預(yù)測的。
除了 "漢字串化,,和粘滯漢字串外,本發(fā)明區(qū)分"噪音漢字串,, 或者一起頻繁出現(xiàn)而對于候選^f企索卻不可用的漢字串(因為是"不感 興趣的,,)。本方法還標識并利用了"啞漢字串",它們被:規(guī)為預(yù)參考 信息相鄰的表意文字組,但是當檢查時卻不包含含義。這些"啞漢字 串"的出現(xiàn)不具有語義含義,但是發(fā)現(xiàn)它們在候選檢索方法中是很強 的預(yù)測器。在圖12中提供了啞漢字串的示例。
這樣,該方法包括分析數(shù)據(jù)庫并使所有"噪音漢字串"退出到特殊 文件中。這些噪音漢字串并不用于參考表的構(gòu)建,并且在查詢輸入 中將其忽略。此方法非常具有預(yù)測性。
上述所有術(shù)語和方法都可以擴展到用于日語書寫的日本漢字。 作為結(jié)果的"日字串"、"粘滯日字串"、"啞日字串"以及感興趣的/不
感興趣的切片(paring)具有類似功能;但是,由于日語查詢數(shù)據(jù)還 包含散布的片假名、羅馬字和平假名字符,所以象形表意算法必須 利用現(xiàn)有的語音方法來豐富以便產(chǎn)生預(yù)測結(jié)果。
該方法還包括分析在非語音語言中出現(xiàn)的名稱的附加方面。在 一個實施方式中,如圖13所示,系統(tǒng)可以縮寫或忽略通常出現(xiàn)的指 示符,諸如結(jié)構(gòu)指示符。如圖13所示,系統(tǒng)識別"D&B Taiwan"的漢 字名稱中的結(jié)構(gòu)指示符,其表示D&B公司的臺灣分部。在此示例中, 系統(tǒng)去除表示"美商"的漢字串或者使其退出,并去除縮寫表示"臺灣 公司結(jié)構(gòu),,的漢字串和/或使其退出。這樣,表示D&B的非常見字符 組合主要用于匹配目的(與任何預(yù)測啞漢字串一起)。如圖14所示, 名稱內(nèi)的其他結(jié)構(gòu)指示符可以用于檢索或者退出,諸如公司名稱內(nèi) 劃分或部門的指示。在另一實施方式中,在圖15中舉例說明的,"漢 字首組合詞",即,從公司名稱分離出漢字字首組合以便反映通常用 來描述公司的字首組合詞,從而允許系統(tǒng)搜索并檢索具有給定漢字首組合詞的候選。如圖16所示,該系統(tǒng)還可以反映非語音語言簡體版本和繁體版本中的差異。最后,對于日本漢字字首組合詞(稱為
"日字首組合詞(Kacronym)"),存在類似的但是語音增強版本的方法,該方法可以由上述的嵌入語音書寫來觀察。
該系統(tǒng)還可以利用候選的匹配等級和置信度代碼對它們進行排名。優(yōu)選地,該系統(tǒng)首先以候選的置信度代碼順序?qū)λ鼈冞M行排名,然后進一步基于商業(yè)平局決勝規(guī)則來區(qū)分出排名最高的層。下文進一步詳細地描述匹配等級和置信度代碼的指派以及平局決勝規(guī)則的應(yīng)用。
還提供了在評價候選檢索算法的預(yù)測中使用的處理,該處理包括針對整個處理使用"字串化"以及其他算法。針對具有非確定候選檢索的匹配環(huán)境,該系統(tǒng)為每個查詢記錄選取最有用的算法。算法(A)的計算復(fù)雜度CC (A)是計算迭代元素輸入或者步驟或算術(shù)操作的數(shù)量需要解決計算問題。預(yù)測P(A)等于所預(yù)期結(jié)果的數(shù)量除以所觀測結(jié)果的數(shù)量。如果使用了該方法,則預(yù)期的產(chǎn)出Y(A)等于返回的記錄的號。該處理首先包括基于以下公式計算每個算法的算法常數(shù)(AC (A) ) : AC(An) = CC(An)xP(An)。然后,將算法常數(shù)乘以預(yù)期的產(chǎn)出以產(chǎn)生最終得分X( A ): AC (An)xY (An)二 X (An)。在圖17中示出這些計算的示例。優(yōu)選地在匹配系統(tǒng)中使用產(chǎn)出最低最終分的算法。
評價與決策
在選擇并使用了適當?shù)暮蜻x檢索方法后,隨后通過計算匹配等級("MG,,)串來對候選進4亍記分。針對匹配等級串的每個元素,對候選數(shù)據(jù)和輸入的相應(yīng)屬性指派A、 B、 F或Z的代碼。此處理在圖18中示出。如圖19所示,將MG代碼指派給每個代碼成分的結(jié)果是匹配等級串或者匹配等級模式。在一個實施方式中,在匹配等級模式中,最多有11個條目(字節(jié))。
匹配等級代碼包括"A,,匹配和"B,,匹配,其中"A,,匹配指示,可以認為查詢主題數(shù)據(jù)元素與參考數(shù)據(jù)"相同,,,以及"B,,匹配指示查詢主
題數(shù)據(jù)元素與參考數(shù)據(jù)"類似",但不相同。這些代碼還包括"F,,匹配和"Z"匹配,其中"F,匹配表示查詢主題數(shù)據(jù)元素與參考數(shù)據(jù)不同,"Z,,匹配表示在查詢記錄或參考數(shù)據(jù)記錄中不存在查詢數(shù)據(jù)。
在圖20的表中示出了各種匹配等級代碼的示例,其中示出了用于與"三菱商事(抹)vs.三菱商事,,的示例的查詢數(shù)據(jù)相比較的參考結(jié)果的匹配等級代碼。為了建立用于亞洲語言的A/B/F的推論,記分方法不僅考慮逐字符比較,而且考慮發(fā)音(對于中文)、拼音或者假名音譯、詞位變化、筆畫復(fù)雜度以及對于象形表意書寫系統(tǒng)而言獨特的其他參數(shù)。
已經(jīng)開發(fā).出某些專用算法以便解決亞洲書寫系統(tǒng)與本地習(xí)慣的細微差別。例如,唯一性(11個匹配等級元素中的一個)必須考慮在亞洲的較大城市與日本轄區(qū)和中國省的結(jié)構(gòu)之間的相互關(guān)系(圖24和圖25)。已經(jīng)引入相對唯一'f生與絕對唯一性,以便適應(yīng)亞洲商業(yè)人口統(tǒng)計學(xué)的這些觀察到的特性。
需要針對亞洲語言特殊處理的另 一 匹配等級元素是行業(yè)分類,這必須通過稱為多圖標語法語義消除二義性的新處理來推斷(圖26至圖27)。考慮到這樣的事實亞洲查詢(尤其是日本)通常包括象形表意書寫系統(tǒng)和語音書寫系統(tǒng)二者的組合,所以此處理使用查詢串遞歸筒化的方法。此遞歸簡化以如下方式完成針對在匹配等級串內(nèi)的子分類,強調(diào)最可能的行業(yè)相關(guān)關(guān)鍵字。
如圖21所示,在推導(dǎo)出匹配等級串后,繼而基于推導(dǎo)的匹配等級串來將置信度代碼("CC,,)指派給參考或者檢索的數(shù)據(jù)記錄。在一個實施方式中,置信度代碼是數(shù)字,優(yōu)選地是1和IO之間的整數(shù)。此指派意在將數(shù)據(jù)分層歸組以便使商業(yè)規(guī)則得以應(yīng)用。優(yōu)選地,從諸如圖7中所示模式矩陣檢索CC。 MG模式矩陣優(yōu)選地存儲在SQL表中,其中每個元素置于單獨的字段中。
在系統(tǒng)性能評價和決策步驟中,如果檢索到多于一個候選具有針對查詢實體檢索的所有匹配候選的最高置信度代碼,則必須使用平局決勝規(guī)則。置信度代碼與平局決勝規(guī)則一起可以用于按照自動決策中的任務(wù)設(shè)置和商業(yè)規(guī)則來自動決策,如果可以標識最佳候選,并且如果候選具有至少一個闞值置信度代碼以保證商業(yè)應(yīng)用,則可
以自動接受匹配??梢杂捎脩纛A(yù)先選擇閾值置信度代碼。如果使用平局決勝規(guī)則,則系統(tǒng)將記錄使用哪個規(guī)則來為任何查詢記錄打破最終平局、以及使用什么數(shù)據(jù)值用于該最終比較。
以下描述了平局決勝規(guī)則集的示例。依次處理這些規(guī)則,直到存在一個候選比所有其他排名都高。用整數(shù)表示排名,較高的排名對應(yīng)較低的整數(shù)值。只有排名最高的候選(如果多于1個的話)進行到下一規(guī)則。
規(guī)則1: "A"匹配商業(yè)名稱、街道號、街道名稱、城市、省/轄區(qū)和郵編匹配等級模式都是"A",并且對于公司類型是否相同0-是,l-否。
規(guī)則2:商業(yè)名稱的匹配等級根據(jù)商業(yè)名稱的匹配等級代碼的對候選進行排名0-A, l-B, 2-F。
>見則3:公司類型根據(jù)與查詢數(shù)據(jù)相比較的公司類型(每個代碼)對候選進行排名0-相同,l-不同。
規(guī)則4:省/轄區(qū)的匹配等級根據(jù)位置的匹配等級代碼對候選進行排名0 - A, 1 - F, 3- Z。
夫見則5: J成市的匹配等級根據(jù)i成市的匹配等級代碼對候選進^亍排名0 - A, 1 - F, 2- Z。
*見則6:街道名稱的匹配等級根據(jù)雄f道名稱的匹配等級代碼對候選進行排名0-A, l-B, 2-F。
頭見則7: 4軒道號碼的匹配等級沖艮據(jù)雄f道號碼的匹配等級代碼對候選進行排名0-A, l-B, 2-Z, 3-F。
規(guī)則8: OOB(歇業(yè))指示符根據(jù)狀態(tài)是營業(yè)還是歇業(yè)(OOB )對候選進行排名0=活動,1=不活動(OOB)。
規(guī)則9: HQ/BR (總部/分部)狀態(tài)。根據(jù)實體類型對候選進行排名0=HQ, 1=單個位置,2=分公司,3=子公司。規(guī)則10:電話號碼的"A,,匹配等級。根據(jù)電話號碼的"A"匹配等級代碼對候選進行排名0-A, l-其他所有。
規(guī)則11:公司名稱中的"公司類型"位置。根據(jù)與查詢數(shù)據(jù)相比較的"公司類型"位置指示符(每個代碼)對候選進行排名0-相同,l-不同。
規(guī)則12:電話號碼的匹配等級。根據(jù)電話號碼的匹配等級代碼對候選進行排名0-A, l-B, 2-Z, 3-F。
少見則13:郵編的匹配等級4艮據(jù)郵編的匹配等級代碼對候選進行排名:0-A, l-B, 2-Z, 3-F。
規(guī)則14: TSR (商業(yè)類型記錄)代碼。根據(jù)TSR代碼的出現(xiàn)/不出現(xiàn)對候選進行排名0-TSR代碼出現(xiàn),l-TSR代碼不出現(xiàn)。
規(guī)則15:當前數(shù)據(jù)標志。根據(jù)"COM"標志對候選進行排名0-標志未出現(xiàn)(更新的數(shù)據(jù)),1-標志出現(xiàn)(老數(shù)據(jù))。
規(guī)則16:記錄更新日期。根據(jù)系統(tǒng)數(shù)據(jù)庫中主要更新的日期從新到舊對候選進行排名。
規(guī)則17: DUNS號。這是最終的平局決勝器。根據(jù)DUNS號(即,唯一的公司標識符)來以升序順序?qū)蜻x進行排名。
然后,將匹配等級結(jié)果呈現(xiàn)給用戶。所呈現(xiàn)的信息可以包括以下內(nèi)容的 一個或多個所使用的匹配等級模式(每個元素一個字段)、置信度代碼、匹配數(shù)據(jù)配置、處理日期、處理批號、用戶ID、所匹配參考記錄的DUNS號、查詢記錄數(shù)量、以及使用的最終平局決勝規(guī)則。可以基于區(qū)分置信度代碼和其他觀察的或推斷的屬性來對結(jié)果進行分類。
可以向用戶提供瀏覽和審核不能匹配的數(shù)據(jù)的附加能力。用戶還可以具有瀏覽任何數(shù)據(jù)(包括自動匹配數(shù)據(jù)在內(nèi))的能力。其他能力可以包括對輸出進行過濾(通過置信度代碼、匹配等級模式以及〗吏用的平局決勝A見則)、手動匹配以及重新匹配。該系統(tǒng)還可以包括用于對所選擇記錄進行重新處理的手動發(fā)起能力的能力,通過該能力,系統(tǒng)可以響應(yīng)于用戶請求而重新運行用于所選擇記錄全部處理。
優(yōu)選地,該結(jié)果作為報告呈現(xiàn)給用戶。優(yōu)選地,如圖22所示,該結(jié)果是來自結(jié)果數(shù)據(jù)的不可編輯報告形式。在另一實施方式中,在不需要重新編譯系統(tǒng)的情況下,可以添加、修改和/或刪除報告。
報告可以由XML/XSL編碼,并且最初生成為HTML,隨后轉(zhuǎn)換成不可編輯格式??梢蕴崆盀槿蝿?wù)選擇可應(yīng)用的報告,然后該報告成為用于該任務(wù)的默認設(shè)置??梢允褂糜⒄Z或者母語基礎(chǔ)文本來生成報告》
該系統(tǒng)在"匹配等級主表"中存儲當前匹配等級模式以及它們相應(yīng)置信度代碼的矩陣。如圖7所示,每個唯一的匹配等級模式僅有一行。此表可以包括作為串的匹配等級模式、附加于該模式的置信度代碼、作為單獨列的優(yōu)選為11個匹配等級模式的每個字節(jié)、每個條目最后一次改變的版本、和/或當條目改變時自動生成的更新日期-時間。保留編輯歷史允許運行中質(zhì)量保證以及連續(xù)的處理改進。
無論何時,當出于任何原因而改變匹配等級主表中的條目時,例如,置信度代碼改變或者生效時,系統(tǒng)優(yōu)選地將先前的條目存儲在"匹配等級歷史表,,中。除了每個匹配等級模式存在多個條目以外,此表具有與匹配等級主表相同的結(jié)構(gòu)。
匹配等級主表的每個改變都需要增大最近版本號。這可以是"較小,,改變(例如,0.2 0.3)或者"較大"改變(0.3 0.4)。將此改變所影響的匹配等級主表中的每個條目加上最近版本的時間戳。但是,可以增大版本并且輸入注釋,而不必對匹配等級數(shù)據(jù)進行任何改變。
可以將關(guān)于此改變的信息存儲到"匹配等級版本表,,中,該表可以包括作為新版本號碼的版本號、執(zhí)行改變的個人的用戶ID、注釋和/或日期。注釋是針對所執(zhí)行改變及其理由的描述。在處理任何改變之前必須填寫此字段。更新日期是標記何時輸入了改變的自動生成日期/時間字段。
在一個實施方式中,該方法進一步包括非語音字符的比較串,諸如簡體中文、繁體中文或者日語字符,并生成表示它們?nèi)绾蜗嗨埔杂脕斫傩约壠ヅ涞燃壷概桑⒂?于啞字串、粘滯二重以及其他構(gòu)件的歸納。在一個實施方式中,以 下描述的方法和庫適用于漢字字符,但是也適用于任何非語音語言 或者通信系統(tǒng)。
在幾個軸上執(zhí)行相似度計算,包括正字、語音和詞位變型,以 及通過多用戶的盲測來客觀地評價母語講話者對算法推理的反應(yīng)。
除了上述得分之外,例如在日語和漢語兩者中,在評價和決策 處理中使用象形表意書寫的附加方面。優(yōu)選地,上述"漢字串化,, 處理還用于確定置信度代碼或者表示匹配質(zhì)量的其他得分。
本發(fā)明的增強的匹配系統(tǒng)和方法為漢語、日語和其他非語音或 象形表意語言數(shù)據(jù)匹配系.統(tǒng)提供了高級數(shù)據(jù)匹配和更詳細的反饋。 該系統(tǒng)還能為數(shù)據(jù)清理和匹配使用更多數(shù)據(jù)元素,能夠以比現(xiàn)有才支 術(shù)中可用方式更多的方式來匹配數(shù)據(jù),以及可以對匹配處理提供更 智能的、更小粒度的反饋。此小粒度反饋使得能夠經(jīng)由計算機系統(tǒng) 來實現(xiàn)商業(yè)處理自動化,否則這是無法實現(xiàn)的。。
本發(fā)明的增強匹配系統(tǒng),諸如日語增強匹配系統(tǒng)(JEMS),其 使用多于先前系統(tǒng)的用戶輸入文件中的數(shù)據(jù)元素、并以利用亞洲書 寫系統(tǒng)的象形表意性質(zhì)的方式對數(shù)據(jù)進行匹配。與現(xiàn)有技術(shù)的系統(tǒng) 相比,該系統(tǒng)和方法的特色還在于,對于現(xiàn)有和新數(shù)據(jù)元素的附加 比壽交一幾制。
應(yīng)當理解,本領(lǐng)域技術(shù)人員可以設(shè)計出在此公開的教導(dǎo)的各種 替代方式、組合和修改。本發(fā)明意在包含落入在此公開的教導(dǎo)范圍 內(nèi)的所有這類替代方式、修改和變型。
權(quán)利要求
1.一種針對存儲的數(shù)據(jù)來搜索和匹配輸入數(shù)據(jù)的計算機化方法,所述方法包括接收輸入數(shù)據(jù),所述輸入數(shù)據(jù)包括具有多個元素的搜索串,至少某些所述元素形成了象形表意書寫系統(tǒng)的部分;使用從包括以下內(nèi)容的組中選擇的至少一個方法來將所述多個元素的子集轉(zhuǎn)換成短語集,所述組包括多圖標語法語義消除二義性、漢字字首組合詞擴展、日本漢字字首組合詞擴展和商業(yè)詞語識別;從所述短語集生成最佳多個關(guān)鍵字;基于與匹配于所述輸入數(shù)據(jù)的最可能候選相對應(yīng)的所述最佳關(guān)鍵字,來檢索存儲的數(shù)據(jù);以及從所述匹配候選選擇最佳匹配。
2. 根據(jù)權(quán)利要求1的方法,其中所述檢索步驟使用從包括以下 內(nèi)容的組中選擇的至少一個方法,所述組包括粘滯漢字字串、粘 滯曰本漢字字串、吸漢字字串、吸日本漢字字串以及跨越多個書寫系統(tǒng)的文本索引。
3. 根據(jù)權(quán)利要求1的方法,其中所述轉(zhuǎn)換步驟包括將所述搜索 串劃分成多個重疊子段。
4. 根據(jù)權(quán)利要求3的方法,其中所述轉(zhuǎn)換步驟進一步包括標 識包括在所述象形表意書寫系統(tǒng)中具有語義含義的子段的粘滯子 段。
5. 根據(jù)權(quán)利要求4的方法,其中所述轉(zhuǎn)換步驟進一步包括去除 噪音子段。
6. 根據(jù)權(quán)利要求5的方法,其中所述轉(zhuǎn)換步驟進一步包括 標識包括在所述象形表意書寫系統(tǒng)中不具有語義含義的鄰近元素的啞子段;以及從所述啞子段歸納預(yù)測。
7. 根據(jù)權(quán)利要求6的方法,其中所述生成步驟包括使用所述粘滯子段和啞子段來生成所述最佳的多個關(guān)鍵字。
8. 根據(jù)權(quán)利要求1的方法,其中所述轉(zhuǎn)換步驟包括將所述象形 表意書寫系統(tǒng)的繁體版本和簡體版本規(guī)格化。
9. 根據(jù)權(quán)利要求1的方法,其中所述象形表意書寫系統(tǒng)是從包括以下內(nèi)容的組中選4奪的至少一個日本漢字、繁體漢字和簡體漢 字(漢字)。
10. 根據(jù)權(quán)利要求1的方法,其中所述元素包括亞洲和羅馬字符。
11. 根據(jù)權(quán)利要求1的方法,其中所述轉(zhuǎn)換步驟包括 解析所述多個元素以便標識所述短語集,所述多個元素包括名稱元素、電話號碼元素以及地址元素;通過多圖標語法方法推斷業(yè)務(wù)范圍,通過所述地址元素交叉校驗 電話號碼元素;以及識別所述象形表意書寫系統(tǒng)的習(xí)慣用語和表達,并將所述習(xí)慣用 語和表達保持在一起以保持含義。
12. 根據(jù)權(quán)利要求11的方法,其中所述轉(zhuǎn)換步驟進一步包括 標識名稱元素中的結(jié)構(gòu)指示符和字首組合詞。
13. 根據(jù)權(quán)利要求11的方法,進一步包括基于所述地址元素 并通過對靈活亞洲尋址慣例的推斷來建立經(jīng)度和緯度信息。
14. 根據(jù)權(quán)利要求l的方法,其中所述檢索步驟進一步包括P艮 制用于所述多個關(guān)鍵字中的某些關(guān)鍵字的匹配候選,其中所述多個 關(guān)鍵字返回的計數(shù)超過預(yù)定閾值;為選擇關(guān)鍵字交集生成成本函數(shù); 根據(jù)所述成本函數(shù)來對所述關(guān)鍵字交集排列優(yōu)先級;以及按照所述 關(guān)鍵字交集的順序檢索所述匹配候選。
15. 根據(jù)權(quán)利要求l的方法,其中所述檢索步驟進一步包括基 于匹配的程度,為每個匹配候選生成匹配等級、置信度代碼以及匹 配數(shù)據(jù)配置。
16. 根據(jù)權(quán)利要求15的方法,其中所述置信度代碼至少部分基 于所述搜索串的推斷內(nèi)容和語義含義來確定。
17. 根據(jù)權(quán)利要求14的方法,進一步包括基于所述置信度代碼,來提供所選擇的匹配候選的有序列表。
18. 根據(jù)權(quán)利要求15的方法,進一步包括將所述有序列表中 的所述每個候選指派給多個匹配水平之一。
19. 根據(jù)權(quán)利要求18的方法,進一步包括通過對所述匹配候 選以其置信度代碼的順序進行排名來確定所述匹配水平的指派,然 后進一步基于用戶定義的平局決勝規(guī)則來區(qū)分所述最高排名水平。
20. —種計算機可讀介質(zhì),具有用于執(zhí)行針對所存儲數(shù)據(jù)搜索和 匹配輸入數(shù)據(jù)的方法的指令,所述方法包括接收輸入數(shù)據(jù),所述輸入數(shù)據(jù)包括具有多個元素的搜索串,所述 元素中的至少某些形成了象形表意書寫系統(tǒng)的部分;使用從由包括以下內(nèi)容的組中選擇的至少一個.方法來將所述多 個元素的子集轉(zhuǎn)換成短語集,所述組包括多圖標語法語義消除二 義性、漢字字首組合詞擴展、日本漢字字首組合詞擴展和商業(yè)詞語 識別;從所述短語的集生成最佳多個關(guān)鍵字;基于與最可'能匹配所述輸入數(shù)據(jù)的候選相對應(yīng)的所述最佳關(guān)鍵 字來檢索所存儲的數(shù)據(jù);以及從所述匹配候選選擇最佳匹配。
全文摘要
一種針對所存儲數(shù)據(jù)來搜索和匹配輸入數(shù)據(jù)的方法,該方法包括以下步驟接收輸入數(shù)據(jù),該輸入數(shù)據(jù)包括具有多個元素的搜索串;將該多個元素的子集轉(zhuǎn)換成短語集;從該短語的集生成最佳多個關(guān)鍵字;基于與最可能匹配該輸入數(shù)據(jù)的候選相對應(yīng)的最佳關(guān)鍵字來檢索存儲的數(shù)據(jù);以及從該匹配候選選擇最佳匹配。至少某些象形表意元素形成了象形表意書寫系統(tǒng)的部分。該方法還包括將該搜索串劃分成多個重疊的子段,以及標識在象形表意書寫系統(tǒng)中具有推斷語義含義的子段以及不具有語義含義的子段,并使用各種子段來生成最優(yōu)關(guān)鍵字。
文檔編號G06F17/30GK101542475SQ200680049613
公開日2009年9月23日 申請日期2006年11月22日 優(yōu)先權(quán)日2005年11月23日
發(fā)明者A·斯克里菲格納諾, G·S·彭, J·N·N·普勞厄, J·施, K·內(nèi)德, N·特奧, P·邵, S·陸, W·馬修斯, 岡田昌幸, 笠井麻矢子 申請人:鄧百氏公司