基于變體標(biāo)記網(wǎng)絡(luò)的數(shù)據(jù)分群的制作方法
【專利摘要】接收數(shù)據(jù)記錄,每個都包括一個或多個字段中的一個或多個值,對所接收的數(shù)據(jù)記錄進(jìn)行處理以識別一個或多個數(shù)據(jù)群,該處理包括:識別(110)多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段;生成(120)表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及用至少部分基于與節(jié)點關(guān)聯(lián)的值區(qū)分的不同節(jié)點子組來生成所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
【專利說明】基于變體標(biāo)記網(wǎng)絡(luò)的數(shù)據(jù)分群
[0001]相關(guān)申請的交叉引用
[0002]本申請要求2011年11月15日所提交美國專利申請第61/560257號和2012年6月15日所提交美國專利申請第61/660259號的優(yōu)先權(quán),二者中每個都通過引用合并于此。
【背景技術(shù)】
[0003]本說明書涉及基于變體標(biāo)記網(wǎng)絡(luò)的數(shù)據(jù)分群。
[0004]數(shù)據(jù)分群是這樣一種方法,通過該方法將大體類似的信息用共享的標(biāo)識符來標(biāo)注,從而可使該信息后續(xù)在被處理時就像這些信息已經(jīng)一起匯聚在同一位置那樣。該信息可包括各種類型的信息,例如,諸如財務(wù)數(shù)據(jù)或醫(yī)保記錄等等。每個群(在多個群組成的一組中)包括已經(jīng)被確定為符合一些類似性標(biāo)準(zhǔn)的多個數(shù)據(jù)單元(例如,文檔、數(shù)據(jù)庫記錄、或其他數(shù)據(jù)對象)。一些技術(shù)屬于“離線”技術(shù),其將數(shù)據(jù)單元按批處理以生成群或添加至已有群。一些技術(shù)屬于“在線”技術(shù),其對數(shù)據(jù)單元按照接收這些數(shù)據(jù)單元的方式進(jìn)行增量式處理。群可以是分級的,此時一個級別上的給定群自身在另一級別上被劃分成多個群。在一些情況下,群對應(yīng)于一個分區(qū)的數(shù)據(jù)單元,其中每個數(shù)據(jù)單元恰好是其中一個群,而在一些情況下,群可與屬于一個以上群的其中一員的數(shù)據(jù)單元疊合。
【發(fā)明內(nèi)容】
[0005]在一個方案中,一般而言,一種方法包括:接收數(shù)據(jù)記錄,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群。該處理包括:識別多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段;生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
[0006]這些方案可包括以下特征的其中一個或多個。
[0007]如果兩個標(biāo)記之間的距離在一閾值以下則該兩個標(biāo)記具有變體關(guān)系。
[0008]至少一個子組包括第一節(jié)點和通過遍歷與比關(guān)聯(lián)于所述第一節(jié)點的值相等或更低的值相關(guān)聯(lián)的節(jié)點連接的邊所得到的節(jié)點。
[0009]至少一第一子組包括至少一個與一標(biāo)記關(guān)聯(lián)的節(jié)點,該標(biāo)記是由所述第一子組中其他節(jié)點表示的標(biāo)記的代表。
[0010]識別一數(shù)據(jù)群以關(guān)聯(lián)于第一接收數(shù)據(jù)記錄包括用所述第一接收數(shù)據(jù)記錄的代表標(biāo)記來取代所述第一接收數(shù)據(jù)記錄中的至少一個標(biāo)記。
[0011]識別至少一個節(jié)點,該至少一個節(jié)點與比所述第一組中其他節(jié)點相關(guān)聯(lián)的值的平均值大過多于一預(yù)定閾值的值關(guān)聯(lián)。
[0012]該方法還包括確定所識別的節(jié)點中通過一邊直接彼此連接的任意兩個節(jié)點。
[0013]該方法還包括接收來自用戶的輸入或?qū)㈩A(yù)先確定的規(guī)則應(yīng)用于所述網(wǎng)絡(luò)以通過在兩個節(jié)點之間添加邊或移除兩個節(jié)點之間的邊來修改所述網(wǎng)絡(luò)。
[0014]該方法還包括在用戶界面中顯示所述網(wǎng)絡(luò)的可視化表示,以及可視化地指示與所述節(jié)點關(guān)聯(lián)的所述值。
[0015]該方法還包括通過所述用戶界面接收所述輸入。
[0016]在另一個方案中,一般而言,一種計算機(jī)程序,存儲在計算機(jī)可讀存儲介質(zhì)上。所述計算機(jī)程序包括指令,該指令用于使計算機(jī)系統(tǒng):接收數(shù)據(jù)記錄,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群。該處理包括:識別標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段;生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
[0017]在另一個方案中,一般而言,一種計算機(jī)系統(tǒng),包括:輸入裝置或端口,被配置為接收數(shù)據(jù)記錄,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及至少一個處理器,被配置為處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群。該處理包括:識別多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段;生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
[0018]在另一個方案中,一般而言,一種計算機(jī)系統(tǒng),包括:用于接收數(shù)據(jù)記錄的裝置,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及用于處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群的裝置。該處理包括:識別多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段;生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
[0019]這些方案可具有以下有益效果的其中一個或多個。
[0020]當(dāng)對大規(guī)模數(shù)據(jù)加以分群時,限制性能和擴(kuò)展性的主要因素之一是在記錄之間為確定哪些在適當(dāng)距離測量下是接近的所需要進(jìn)行的運算量。簡單的多對多比較與待分群的記錄數(shù)目成平方比例關(guān)系。
[0021]改善的途徑是,在進(jìn)一步進(jìn)行附近記錄的計分之前通過新查詢記錄必須接近的代表記錄增量式地發(fā)現(xiàn)群并表示每個群。發(fā)現(xiàn)查詢記錄屬于新的群與不同群的數(shù)目成平方比例,因為在可創(chuàng)建新群之前必須首先檢查每個已有群的代表。對于大量的不同群,這在對商業(yè)中客戶數(shù)據(jù)庫內(nèi)個體或家庭進(jìn)行分群時是常見的,該途徑變得難以維系。
[0022]這里描述的數(shù)據(jù)分群方法在進(jìn)行任何高成本的比較之前使用搜索處理以在近似距離測量下確定查詢記錄與任一已有群是否足夠接近。這將之前查詢記錄作為新群第一記錄的方法中的最糟情況轉(zhuǎn)化成最佳情況。如果該查詢記錄與已有記錄的重疊不足,其將不從搜索中返回候選項記錄,并且其必定是新群的成員。[0023]這里描述的數(shù)據(jù)分群方法使用基于擴(kuò)展自初始查詢的數(shù)個查詢組合的緊縮目標(biāo)式搜索。多重查詢使得查詢詞的變體匹配能夠在搜索期間并且對于來自字段中多個標(biāo)記或者來自記錄中多個字段的同時查詢而被檢測到。搜索尋求從充當(dāng)已有群的代表的主記錄組找到匹配候選項匹配標(biāo)準(zhǔn)的候選項記錄。搜索目錄(indices)可在批處理模式下針對全數(shù)據(jù)組預(yù)計算出來,或者可在增量模式下累積填充。在批處理模式下,搜索目錄可包含位向量形式的用于匹配記錄的位置信息。這有助于布林運算(Boolean computation)以結(jié)合多重搜索的結(jié)果。
[0024]候選項匹配標(biāo)準(zhǔn)可按搜索碼來規(guī)劃(formulate),搜索碼是對搜索組合的定性結(jié)果(例如對于客戶的搜索是否具有姓氏和城市二者的匹配)進(jìn)行編碼的碼。與每個搜索碼關(guān)聯(lián)的樣本記錄可被提取以輔助用戶調(diào)整候選項匹配標(biāo)準(zhǔn)。搜索碼在一些實施方式中還能夠?qū)崿F(xiàn)整個候選項匹配標(biāo)準(zhǔn)作為搜索結(jié)果的布林表達(dá),使得即使在標(biāo)記僅需近似匹配時搜索也非???。
[0025]在找到匹配候選項匹配標(biāo)準(zhǔn)的候選項記錄之后,來自于該候選項記錄關(guān)聯(lián)的每個群的代表記錄被調(diào)出用于與查詢記錄的詳細(xì)比較。使用成本更高的距離測量來用于這一比較。與搜索碼類似,匹配碼被構(gòu)造以定性地總結(jié)該比較,包括在每對經(jīng)過比較的個體字段或者字段組合與經(jīng)過比對的個體字段或字段組合的填充狀態(tài)之間的定性匹配,指示特定字段例如是否為空的、空白或填充的。在由匹配碼分群之后可累積統(tǒng)計以量化質(zhì)量變化的匹配數(shù)目。還可提取固定數(shù)目的樣本記錄關(guān)聯(lián)于每個匹配碼以輔助用戶判定不同種類匹配的質(zhì)量以及反復(fù)調(diào)整用于比較記錄的比較功能由此以改變匹配輸出。記錄填充特征與匹配輸出質(zhì)量之間的關(guān)聯(lián)還可由匹配碼推導(dǎo)出來。
[0026]查詢記錄與來自候選項群的代表記錄之間的詳細(xì)比較組可被分析以找到某一匹配閾值以上的最佳匹配配對。如果沒有匹配閾值以上的最佳匹配配對,則使該查詢記錄作為新群的第一個記錄。如果有一個匹配閾值以上的最佳匹配配對,則將該查詢記錄添加至對應(yīng)群。如果有一個以上與不同已有群的匹配閾值以上的匹配配對,則將該查詢記錄添加至與最佳匹配配對關(guān)聯(lián)的群,但可選群的組要被記錄以供用戶檢查使用。
[0027]在已經(jīng)做出群成員身份決策并且所有查詢記錄已經(jīng)被分配給群之后,用戶可檢查群記錄的網(wǎng)絡(luò)并參加群認(rèn)可處理。模糊匹配被標(biāo)志給用戶以用于檢查。用戶可選擇確認(rèn)其群內(nèi)的任意記錄,在這種情況下如果該記錄已被再次提交給群則其將收到同一群id,而無需經(jīng)歷分群處理。這符合業(yè)務(wù)需求,如果用戶已經(jīng)手動確認(rèn)記錄在正確分區(qū)內(nèi),則該決策必須堅持。
[0028]用戶可選擇將一記錄排除在已經(jīng)放置了該記錄的群之外。在接續(xù)的群運行中,該記錄被阻止分配給該群,并將被分配給由算法確定的下一最佳群。
[0029]用戶可選擇將一記錄映射至新群。在接續(xù)的分群運行中,該記錄將被分配給新群。任何未經(jīng)確認(rèn)的記錄可添加新群的該記錄,只要它們與接近其他已有群中的記錄相比要更接近該記錄。類似地,用戶可將選擇的記錄重映射至不同的已有群,其中該記錄還未由分群處理放置。在接續(xù)的運行中,選擇的該記錄將被放置在所選取的群中并且接近該記錄的任何(未經(jīng)確認(rèn))的記錄將與選擇的該記錄一起移動至該選取的群。這使用戶能夠?qū)⒅赜成渖倭窟x擇的個體記錄并允許進(jìn)行重新群以重映射與所選擇記錄密切相關(guān)的所有記錄。
[0030]該認(rèn)可處理通過提取受用戶的修改影響的所有記錄并經(jīng)分群處理對它們重運行來加以促進(jìn)。得到的數(shù)據(jù)群與之前的數(shù)據(jù)群有所不同,且為用戶顯示該結(jié)果。然后用戶可選擇緊接著在剛作出的分群之上應(yīng)用進(jìn)一步的修改并且重復(fù)或丟棄這些修改以及從頭重新開始該認(rèn)可處理。整個認(rèn)可處理可在臨時工作區(qū)中執(zhí)行,并且在處理完成且用戶滿意時,引導(dǎo)該群處理的作為基礎(chǔ)的分群庫可發(fā)布返回至持續(xù)生成區(qū)(persistent productionarea)。
[0031]這里所描述數(shù)據(jù)分群處理的進(jìn)一步有益效果在于,批處理模式的分群能夠在初始數(shù)據(jù)組上做出而將來的數(shù)據(jù)可使用增量模式添加至已有群,而無需對整個積累的數(shù)據(jù)組重新群。這滿足了個體記錄的群成員身份不隨著新數(shù)據(jù)到來而改變的業(yè)務(wù)預(yù)期和需求。除非未經(jīng)確認(rèn)的記錄就像它們在群認(rèn)可處理期間那樣被重處理,否則它們對于個體群的分配無法改變。
[0032]跨國機(jī)構(gòu)能夠在很多國家存儲關(guān)于個體的信息。這些國家可能具有限制如何使用及出口數(shù)據(jù)到其他國家的數(shù)據(jù)隱私法律或規(guī)定。該數(shù)據(jù)隱私法律可保護(hù)包括社保記錄和財務(wù)記錄等各種不同類型的數(shù)據(jù)。一些國家的數(shù)據(jù)保護(hù)法律阻止將數(shù)據(jù)出口至任一其他國家。在其他國家中,這樣的法律允許將數(shù)據(jù)出口至某些國家而阻止將數(shù)據(jù)出口至其他國家。如這里使用的,限制數(shù)據(jù)流向任一其他國家的國家被稱為禁止數(shù)據(jù)出口國,限制數(shù)據(jù)流向有選擇性國家的國家被稱為選擇性數(shù)據(jù)出口國,并且限制性的數(shù)據(jù)出口國將用來統(tǒng)稱為禁止數(shù)據(jù)出口國和選擇性數(shù)據(jù)出口國。
[0033]與此同時,請求國可請求所選擇的信息可在它們的司法管轄下由實體訪問。例如,美國(在該示例中為請求國)可請求在其司法管轄下的全球金融機(jī)構(gòu)提供與有關(guān)人士關(guān)聯(lián)的銀行賬戶的清單;然而,所請求的數(shù)據(jù)可能位于瑞士(在該示例中為限制性數(shù)據(jù)出口國)。
[0034]這里描述的技術(shù)可用來在請求國中使用限制數(shù)據(jù)出口國中的記錄對與有關(guān)人士關(guān)聯(lián)的記錄進(jìn)行分群而無需從這些國家出口數(shù)據(jù)。
【專利附圖】
【附圖說明】
[0035]圖1A為示出分群處理的框圖。
[0036]圖1B為示出涉及受限數(shù)據(jù)出口國的分群處理的視圖。
[0037]圖1C為示出分群引擎的框圖。
[0038]圖1D為示出候選項搜索引擎的框圖。
[0039]圖1E為示出變體剖析器(variant profiler)的框圖。
[0040]圖1F為示出變體網(wǎng)絡(luò)分析器(analyzer)的框圖。
[0041]圖1G為示出分群認(rèn)可引擎的框圖。
[0042]圖2A-圖2D示出變體搜索過程的示例。
[0043]圖3A示出變體網(wǎng)絡(luò)的示例。
[0044]圖3B示出填充標(biāo)記代表庫(token-representative store)的處理的示例。
[0045]圖4為用于使用重復(fù)分段來并行化分群的處理的示例的流程圖。
[0046]圖5A-圖5C不出使用重復(fù)分段的并行分群的不例。
[0047]圖6示出通過自然鍵來分區(qū)而生成并行代理鍵的示例。
[0048]圖7A-圖7D示出從多個字段搜索問詢的示例。[0049]圖8示出使用刪除-添加過程來實施變體查找過程的示例。
[0050]圖9為用于增量模式的分群處理的示例流程圖。
[0051]圖1OA-圖1OD示出增量模式的分群的示例。
[0052]圖1lA-圖1lB為用于批處理模式的分群處理的示例流程圖。
[0053]圖1lC示出用于匹配已有群的一個成員的查詢記錄的群成員身份決策處理的示例。
[0054]圖1lD示出用于匹配一個以上已有群的成員的查詢的群成員身份決策處理的示例。
[0055]圖12為調(diào)和多重匹配的處理示例的流程圖。
[0056]圖13A-圖13C示出調(diào)和多重匹配的示例。
[0057]圖14A-圖14B為分群認(rèn)可處理的示例的流程圖。
[0058]圖15A-圖15C為在一個系統(tǒng)上發(fā)起并在一遠(yuǎn)程系統(tǒng)上繼續(xù)的分群示例的流程圖。
【具體實施方式】
[0059]I 綜述
[0060]1.1基于搜索的分群處理綜述
[0061]參考圖1A,數(shù)據(jù)處理系統(tǒng)10用于對來自數(shù)據(jù)源100的數(shù)據(jù)進(jìn)行分群。在一些實施方式中,由數(shù)據(jù)處理系統(tǒng)10執(zhí)行的分群處理分析出現(xiàn)在數(shù)據(jù)內(nèi)的標(biāo)記(token),這些標(biāo)記被組織為在各個字段具有多個值的記錄(也稱為“屬性”或“欄目”),這些值可能包括空值(null value)。一個標(biāo)記是一個字段或多個字段組合中的至少一個值或值的片段。用戶102使用用戶界面104來監(jiān)測并控制分群處理的各個方面,包括:接收對于在數(shù)據(jù)源100的所選字段(或多個字段的組合)以及它們之中變體關(guān)系網(wǎng)絡(luò)中收集的值、標(biāo)記、及其變體的通報(可能既有表格式的又有圖形式的);創(chuàng)建并維護(hù)業(yè)務(wù)規(guī)則以識別變體標(biāo)記、類似短語(即,多標(biāo)記單元)和類似記錄,從而找到并解決模糊或假性肯定的匹配的標(biāo)記、短語或記錄,且進(jìn)行將每個記錄分配至一個或多個群的群成員身份決策;以及檢查、修改、并認(rèn)可變體網(wǎng)絡(luò)連接和群成員身份決策。
[0062]數(shù)據(jù)源100 —般包括多個個體數(shù)據(jù)源,也稱為數(shù)據(jù)組,每個個體數(shù)據(jù)源可具有獨特的存儲格式和接口(例如,數(shù)據(jù)庫表,表單文件,純文本文件,或者由主機(jī)使用的本機(jī)格式)。這些個體數(shù)據(jù)源對于分群系統(tǒng)10而言可以是本地的,例如,托管(host)在同一計算機(jī)系統(tǒng)上;或者對于分群系統(tǒng)10而言可以是遠(yuǎn)程的,例如,托管在通過局域網(wǎng)或廣域網(wǎng)被訪問的遠(yuǎn)程計算機(jī)上或者通過云網(wǎng)絡(luò)服務(wù)訪問分群系統(tǒng)10或被分群系統(tǒng)10訪問的遠(yuǎn)程計算機(jī)上。
[0063]數(shù)據(jù)源中的數(shù)據(jù)可被組織為一個或多個記錄,每個記錄包括一個或多個包含多個值的字段,每個值由字符串或二進(jìn)制值組成。該字符串可為單字節(jié)或多字節(jié)的字符,例如ASCII或Unicode。二進(jìn)制數(shù)據(jù)可包括諸如整數(shù)等數(shù)字或者諸如圖像數(shù)據(jù)等原始和/或壓縮數(shù)據(jù)。
[0064]讀取自數(shù)據(jù)源100的數(shù)據(jù)由變體剖析器(variant profiler) 110處理。變體剖析器110識別標(biāo)記(例如,基于預(yù)定規(guī)則)及對數(shù)據(jù)中特定標(biāo)記的出現(xiàn)計數(shù)(例如其中出現(xiàn)特定標(biāo)記的記錄的數(shù)目),并在一些實施方式中存儲識別其中出現(xiàn)特定標(biāo)記的具體記錄的信息。通過例如編輯距離、語音類似性、或者共享字符序列的測量(例如,“eqty fnd”類似于“equity fund”,因為前者中所有字符都按相同的順序出現(xiàn)在后者中),變體剖析器110還基于一些類似性得分識別出不同識別標(biāo)記對(互為變體)(稱為“變體標(biāo)記對”)。例如通過提供單詞詞典、同義詞和縮寫詞列表、用戶提供的變體配對(例如公司特有的同義詞、縮寫或縮略詞)、或者名稱(例如,昵稱、變體拼寫、外國名稱的變體音譯等等)的文化類變體配對,外部數(shù)據(jù)106可用來豐富或修改由變量剖析器110使用類似性得分而識別的標(biāo)記和變體標(biāo)記對的組。這些列表可在原數(shù)據(jù)組中添加不存在的標(biāo)記,或者在類似性不關(guān)聯(lián)的標(biāo)記之間創(chuàng)建變體配對。外部數(shù)據(jù)106還可用于修改與變體配對關(guān)聯(lián)的得分(此時得分用來指示緊密度,這能夠被用來改變標(biāo)記之間的表觀距離(apparent distance)),從而打斷變體配對(例如,在僅偶然類似的字典單詞之間),或者移除標(biāo)記。
[0065]標(biāo)記的示例為字段中的單詞(沒有空格的字符串),該字段的值包括由空格隔開的多個單詞,例如,從包含全名的字段中取的個人名字,或者街道地址(可能由連在一起的多個字段形成)中的單詞。標(biāo)記可能包含空格,例如城市名“New York(紐約)”。標(biāo)記可為數(shù)字值(可能是二進(jìn)制),類似政府標(biāo)識符(id)或賬單號。標(biāo)記可為字符串值或數(shù)字值的片段,諸如刪除了一個字符的字符串,去除了一位的數(shù)字,或者由取自字符串或數(shù)字的連續(xù)序列的η個字符組成的連詞。標(biāo)記可能為二進(jìn)制字段的片段,例如與圖像中一區(qū)域?qū)?yīng)的數(shù)據(jù)。
[0066]由變體剖析器110識別的變體標(biāo)記的配對(成為變體標(biāo)記對)限定變體網(wǎng)絡(luò),其中每個標(biāo)記由一節(jié)點表示或者由與表示這些標(biāo)記的節(jié)點之間的邊對應(yīng)的變體標(biāo)記之間的配對表示。該變體網(wǎng)絡(luò)可由變體網(wǎng)絡(luò)分析器120分析。典型的網(wǎng)絡(luò)可包括多個連接組件的匯聚,其中每個連接組件的節(jié)點都由邊連接至該組件中的另一節(jié)點,但不同組件中沒有節(jié)點互相連接。連接的組件是由邊連接的節(jié)點的閉合組。通過限定,不同的連接組件是不相交的(disjoint)。變體網(wǎng)絡(luò)分析器120可識別網(wǎng)絡(luò)的連接組件的匯聚,并且可將一個或多個標(biāo)記代表與變體網(wǎng)絡(luò)的連接組件內(nèi)的每個標(biāo)記相關(guān)聯(lián)。在多個量值中,表征變體網(wǎng)絡(luò)節(jié)點的是從數(shù)據(jù)組中所有記錄取自所選字段(或者字段的組合)的關(guān)聯(lián)標(biāo)記的實例的計數(shù),以及分別地,與標(biāo)記配對的變體數(shù)目對應(yīng)的標(biāo)記的度(或者配位數(shù)),也即連接表示該標(biāo)記的節(jié)點的邊數(shù)目。
[0067]用戶102可在用戶界面104中查看標(biāo)記(特別是在單個連接組件內(nèi)的那些標(biāo)記)的變體配對的網(wǎng)絡(luò)的圖形表示。變體網(wǎng)絡(luò)的連接組件的特定子組可以是所關(guān)注的并且可選擇地在圖形表示中加以突出。例如,考慮未與具有高計數(shù)的節(jié)點連接的那些節(jié)點。在一些實施方式中,這些節(jié)點可被選擇作為該連接組件的標(biāo)記代表的匯聚。通過遍歷僅與相同或較少計數(shù)的節(jié)點連接的邊而得到的節(jié)點樹所組成的子網(wǎng)絡(luò)可稱為標(biāo)記代表的典型鄰居(canonical neighborhood)。典型鄰居中的所有節(jié)點可由其標(biāo)記代表表示。典型鄰居可重疊。相應(yīng)地,如果其自身并非標(biāo)記代表,則該標(biāo)記可與一個以上的標(biāo)記代表相關(guān)聯(lián)。這會幫助用戶102能夠通過圖形用戶界面104可視化典型鄰居及其重疊。
[0068]與所選標(biāo)記配對的變體標(biāo)記的組稱為所選標(biāo)記的本地鄰居。該所選標(biāo)記稱為本地鄰居的主位(primary)。在圖形顯示中,本地鄰居是通過邊與所選(主位)節(jié)點連接的節(jié)點組。標(biāo)記的度(或者圖形意義(sense)中的配位數(shù))是本地鄰居的大小(減去I以排除標(biāo)記自身)。所選標(biāo)記的顯著性被計算為所選標(biāo)記本地鄰居中每個標(biāo)記出現(xiàn)的計數(shù)總和除以包含至少一個標(biāo)記的記錄數(shù)目(在給定的源和字段或者所選標(biāo)記出現(xiàn)的語境中)的比率的對數(shù)。該顯著性允許不同標(biāo)記的相對重要性得以比較:具有較高顯著性的標(biāo)記出現(xiàn)在較少的記錄中并且因此在搜索中使用時會更為突出。
[0069]在一些實施方式中,通過統(tǒng)計測試而被識別為有特色的那些標(biāo)記(例如計數(shù)超過本地鄰居中標(biāo)記計數(shù)的平均和標(biāo)準(zhǔn)差的總和的那些標(biāo)記)可被識別為“(本地)正標(biāo)記”(對于典型鄰居或者實際上任意鄰居中的標(biāo)記可進(jìn)行類似識別)。對于由公司或個人名稱中個別單詞形成的標(biāo)記,正標(biāo)記在統(tǒng)計上可能為“實際”單詞或名稱,而不會說成是錯誤形成的印刷變體。也即,該標(biāo)記出現(xiàn)的頻率足夠高以至于,在數(shù)據(jù)組內(nèi)其鄰居的語境中,該標(biāo)記不太可能是偶然出現(xiàn)。
[0070]須注意,正標(biāo)記并不必然預(yù)期在字典中找得到。拼錯的單詞之所以在數(shù)據(jù)組中占優(yōu)勢可能是有系統(tǒng)的原因。尤其是,許多人造或故意拼錯的單詞被用來形成有特色的公司名稱。同樣地,并非所有字典單詞都將被辨識為正標(biāo)記,因為數(shù)據(jù)組的統(tǒng)計可能并不支持它們的識別。
[0071]很多本地鄰居將具有一個正標(biāo)記。該正標(biāo)記在統(tǒng)計意義上是“實際”標(biāo)記一其他標(biāo)記是相對少見的變體。一些本地鄰居可能不具有正標(biāo)記,因為所有變體標(biāo)記出現(xiàn)的頻率都相似。這對于在統(tǒng)計不足以區(qū)分出正標(biāo)記的數(shù)據(jù)組中少見的標(biāo)記而言尤其如此。如果正主位標(biāo)記的本地鄰居具有一個以上的正標(biāo)記,則其他正標(biāo)記被認(rèn)為時“偽標(biāo)記”。也即,它們在統(tǒng)計上可能是其他“實際”標(biāo)記,而并非主位正標(biāo)記的偶然變體。識別這些偽正標(biāo)記是有用的,因為它們表示的是不應(yīng)基于語義(semantic meaning)配對而是基于相似性配對的標(biāo)記。通過破壞這些變體配對能夠改善變體網(wǎng)絡(luò)的精確性。需要適當(dāng)關(guān)注,因為類似名詞復(fù)數(shù)(plural)的那些“偽”正標(biāo)記應(yīng)當(dāng)保留為變體。
[0072]在標(biāo)記代表的語境中,為典型鄰居識別正標(biāo)記可能是有用的。一些非常常見的個人名稱非常相似??紤]到,例如“Hermandez ”和“Fernandez ”,僅僅通過一個替換就將它們區(qū)分為變體對。在給定數(shù)據(jù)組中其中一個將比另一個更為頻繁,則該名稱可能是包含二者的典型鄰居中更頻繁出現(xiàn)的標(biāo)記,因此,在一些實施方式中,為其標(biāo)記代表。通過打斷“Hermandez”和“Fernandez”之間的鏈接,二者都成為不太可能連接至另一較高計數(shù)標(biāo)記的標(biāo)記,并且隨后成為它們各自(重疊)典型鄰居的標(biāo)記代表??赡苄枰M(jìn)一步修剪來更徹底地隔開典型鄰居,例如,打斷“Hermandez”和“Fernandez”與其他類似配對之間的鏈接。
[0073]用戶102可使用用戶界面104例如通過添加或刪除節(jié)點之間的邊或添加或去除節(jié)點來操控變體網(wǎng)絡(luò)。這對應(yīng)于添加或打斷變體配對或者添加或去除標(biāo)記,這可能通過提供適當(dāng)外部數(shù)據(jù)106而由變體剖析器110執(zhí)行的過程而已經(jīng)完成。圖形用戶界面104提供這樣做的有用方式。圖形用戶界面104還可以圖形形式地正標(biāo)記與其他標(biāo)記區(qū)分開,并突出連接這些正標(biāo)記的邊??商峁B接正標(biāo)記的所有變體配對的列表視圖,一并提供的還有選擇哪些邊打斷以及哪些保留的機(jī)制。
[0074]基于搜索的分群引擎130處理“標(biāo)記化記錄”(它們是內(nèi)容已經(jīng)過標(biāo)記化處理的記錄),在一些實施方式中被劃分成段和/或在要并行處理的多個處理器中被分區(qū),以集合具有類似內(nèi)容(基于它們對應(yīng)的標(biāo)記)的記錄從而產(chǎn)生數(shù)據(jù)群180的集合。分群引擎130能夠運行在“批處理模式”(或“離線模式”)下,其中數(shù)據(jù)源100中一批記錄內(nèi)的所有記錄一開始就能全體用于比較,或者運行在“增量模式”(或“在線模式”)下,其中將所述記錄處理成它們所到達(dá)的已經(jīng)過處理的記錄集合的形式。
[0075]在一些實施方式中,批處理模式用于得到初始群,而后續(xù)記錄則以增量模式來添力口。而后添加數(shù)據(jù)無需從頭對積累的整個數(shù)據(jù)組重新群。除了顯而易見僅處理添加記錄的性能優(yōu)勢外,其還有附加的益處,即在新數(shù)據(jù)到達(dá)時之前確定分配給群的記錄無法改變,而如果從頭重新分群整個數(shù)據(jù)組則有可能發(fā)生改變。這在業(yè)務(wù)環(huán)境中分群時尤為重要,因為群及其成員具有獨立于分群處理的業(yè)務(wù)上的含義,并且如果是僅僅因為有更多數(shù)據(jù)變?yōu)榭捎枚撼蓡T身份就能有變化,則業(yè)務(wù)不會順暢。
[0076]分群庫170,包括搜索庫146和代表記錄庫178 (見圖1D和圖1G),通過分群引擎130來維護(hù)并參與到分群處理中。在一些實施方式中,除了分群庫170外,來自變體剖析器110和變體網(wǎng)絡(luò)分析器120的結(jié)果在分群處理期間比較記錄類似性時可納入考慮。
[0077]數(shù)據(jù)群是這樣的數(shù)據(jù)記錄的組,這些數(shù)據(jù)記錄的內(nèi)容被判定為足夠類似。群中包括的數(shù)據(jù)記錄被稱為該群的成員。在一些實施方式中,群中的記錄表現(xiàn)出與該群其他成員的高度類似以及與其他群成員的低度類似。
[0078]分段(segment)是這樣的數(shù)據(jù)記錄的組,這些數(shù)據(jù)記錄可相互進(jìn)行用于群中成員身份的比較。不同分段中的記錄并非由分群引擎130來比較,并且必要地將被分配給不同群的成員身份。將數(shù)據(jù)組中的記錄放置到分段中稱為分段。一個記錄可以是一個以上分段的成員。在一些場景中,存在自然分段,該自然分段是基于在整個分群中預(yù)期為共同的值,例如,將記錄的集合劃分成不相交組的分類標(biāo)識符,類似于產(chǎn)品標(biāo)識符或者像郵編或原產(chǎn)國那樣的地理量值。在一些實施方式中,可基于其他標(biāo)準(zhǔn)來給數(shù)據(jù)群進(jìn)行分段,例如,可基于政府分配標(biāo)識符的片段來對數(shù)據(jù)分段。在一些實施方式中,多個級別的分段是可能的。例如,數(shù)據(jù)首先可按原產(chǎn)國分段,每個原產(chǎn)國分段內(nèi)的數(shù)據(jù)群可進(jìn)一步按政府分配標(biāo)識符的片段來分段。
[0079]進(jìn)行并行處理時,在一些實施方式中,每個分段可傳遞至分離的處理分區(qū),因為在不同分段中的記錄之間并不進(jìn)行比較。在其他實施方式中,假定分群引擎130所使用的某些數(shù)據(jù)(包括搜索庫)由所有分區(qū)共享,相同分段中的數(shù)據(jù)記錄可被分區(qū)以隔開要并行處理的分區(qū)。
[0080]在涉及遠(yuǎn)程處理系統(tǒng)之間受限的或單向的信息流的一些實施方式中,像搜索庫條目等查詢及共享信息可單向傳遞至受限的遠(yuǎn)程處理系統(tǒng),而從受限的遠(yuǎn)程處理系統(tǒng)來看免于妨害結(jié)果的可靠性。例如,一些國家限制個人信息跨國界共享:一些國家禁止數(shù)據(jù)出口至所有其他國家(例如瑞士)而其他國家禁止數(shù)據(jù)出口至包括美國等所選的其他國家(例如法國)。在圖1B中,由用戶22在US21發(fā)起查詢20。該查詢可能由個人名稱、政府分配標(biāo)識符以及生日組成,且該查詢的目的是找到由該名下個人擁有的所有銀行賬戶。該查詢應(yīng)用至在US21中持有的數(shù)據(jù)群23,且返回某些記錄(稱為候選項記錄)??蓹z索諸如來自搜索庫146的搜索條目或者來自代表記錄庫178的代表記錄等附加信息并保持其作為該查詢的結(jié)果。該查詢、候選項記錄以及可能的附加信息可被傳送40至選擇數(shù)據(jù)出口國41以由本地用戶42針對該選擇數(shù)據(jù)出口國41內(nèi)持有的數(shù)據(jù)群43進(jìn)行本地分群。類似地,該查詢、候選項記錄以及可能的附加信息可被傳送50至禁止數(shù)據(jù)出口國51以由本地用戶52針對該選擇數(shù)據(jù)出口國51內(nèi)保持的數(shù)據(jù)群53進(jìn)行本地分群。分群的結(jié)果在受限數(shù)據(jù)出口國內(nèi)將可用于適當(dāng)?shù)谋镜夭僮?,例如,用于欺詐檢測或法律實施。受限數(shù)據(jù)出口國出口其數(shù)據(jù)或其共享信息(例如搜索條目或代表記錄)的失敗意味著從受限數(shù)據(jù)出口國的數(shù)據(jù)中得到的群成員在該國外部將不可見。該受限國外部分群數(shù)據(jù)的完整性不受影響。
[0081]在一些實施方式中,通過將對來自一個或多個字段的數(shù)據(jù)記錄進(jìn)行比較結(jié)合到使用記分功能的記分和業(yè)務(wù)規(guī)則中來測量記錄的相似性。諸如搜索代碼和匹配代碼等數(shù)據(jù)圖案代碼用來總結(jié)記錄的特征,并且用于幫助制定用于測量相似性的業(yè)務(wù)規(guī)則以及向用戶102展現(xiàn)結(jié)果。例如,用于記錄的搜索代碼可標(biāo)注記錄組之間共享的標(biāo)記的組合,而用于配對的匹配代碼可對匹配質(zhì)量以及要進(jìn)行比較的每個字段或字段組合的填充狀態(tài)(state ofpopulation)進(jìn)行編碼。例如,一對比較字段值的匹配代碼內(nèi)的匹配質(zhì)量狀態(tài)可包括“準(zhǔn)確匹配”(如果這些值相等)或者“模糊匹配”(如果相似性打分大于模糊匹配閾值)。匹配代碼內(nèi)的填充狀態(tài)可包括“無填充I”(如果配對的記錄I中的值為空或空白(零或更多個空格字符))或者“關(guān)聯(lián)填充”(如果配對的記錄I和記錄2中的值要么均被填充要么均為空或空白)。從表征搜索或匹配對的不同屬性的這些編碼狀態(tài)的匯聚中匯編出搜索代碼或匹配代碼。具有每個搜索代碼的樣本記錄,或者來自具有每個匹配代碼的匹配對的樣本記錄,可顯示給用戶。這會幫助用戶形成、改善和調(diào)節(jié)用來作出群成員身份決策的相似性測量。
[0082]可采用分群認(rèn)可引擎190通過與用戶交互來反復(fù)改善分群決策。用戶102通過用戶界面104作出一系列的分群認(rèn)可決策,例如,將一記錄確認(rèn)為一個群的成員或者將一記錄重映射至新的或已有的群。僅有被選擇的記錄需要由用戶102重映射來分裂或融合整個群。潛在會受分群認(rèn)可決策影響的記錄通過分群引擎130識別、檢索并再處理以產(chǎn)生改進(jìn)的數(shù)據(jù)群180。個別記錄的重映射對于群成員身份有級聯(lián)效應(yīng),這在受影響的記錄被重分群時導(dǎo)致已有群的分裂或融合一與群的初始主位記錄相比更接近重映射記錄的那些記錄將隨重映射記錄一起移動至其新群。在用戶界面104中可為用戶102顯示數(shù)據(jù)群的“前-后”表示,以驗證由用戶的分群認(rèn)可決策引發(fā)的改變。由于重映射所引起的級聯(lián)效應(yīng),用戶能夠用少許很明智的改變來操控很多記錄的部署,而無需對每個個體記錄的放置加以微觀管理。
[0083]1.2分群引擎
[0084]圖1C示出分群引擎130的示例的元件。在一些實施方式中,數(shù)據(jù)源記錄100或標(biāo)記化記錄118由分段引擎132讀取并分成多個分段,和/或由并行分區(qū)器134在多重處理中加以分區(qū)以用于并行處理。
[0085]在一些實施方式中,初始或標(biāo)記化的記錄組可被分類136 (在每個分段和/或處理內(nèi))以加以排序,該排序反映記錄的可區(qū)別性或豐富性,其中更易區(qū)別的記錄在先。這可改善群的質(zhì)量。可區(qū)別性旨在具有這樣的意義,具有更充分填充的字段、包含不同值和多個標(biāo)記的記錄在直觀上比那些可能不完整、包含未填充字段及字段填充有默認(rèn)值或單個標(biāo)記的記錄要更易于與其他記錄區(qū)分開。
[0086]例如,一個可區(qū)別性標(biāo)準(zhǔn)可以是基于記錄的特征填充圖案而定。填充圖案碼可用來通過例如為記錄中一個或多個字段或字段組合的選擇組連結(jié)(concatenate) —組值來對記錄的填充狀態(tài)進(jìn)行編碼——例如,如果該字段未填充(無、空或空白)則值為“0”,如果包含默認(rèn)值則值為“1”,并且如果該字段填充有非默認(rèn)值則值為“2”??墒褂闷渌叩闹祦韺ψ侄翁畛錉顟B(tài)之間進(jìn)行進(jìn)一步的量化區(qū)分,例如,在文本字段中的標(biāo)記數(shù)目(如果數(shù)目超出“9”則在其他碼值的表示中作出適當(dāng)補(bǔ)償)。在填充圖案碼中可將可區(qū)別性分值計算為不同填充值的權(quán)重分值。更高的分值將表示更易于區(qū)別的記錄,并且組織記錄的分類136可以是對可區(qū)別性分值的降序分類。(通常,分類排序可由非數(shù)字可區(qū)別性標(biāo)準(zhǔn)來確定,諸如填充圖案碼,而無需一開始就轉(zhuǎn)換成分值)。可使用包括像給定源和字段(或語境)中每個標(biāo)記的顯著性的統(tǒng)計測量那樣的變體剖析器分值115中的數(shù)據(jù)來構(gòu)造更正式的可區(qū)別性測量。
[0087]進(jìn)行可區(qū)別性分類136的目的在于其導(dǎo)致更好的分群結(jié)果,因為群成員身份決策處理是增量式的:記錄隨著被處理而被分配給群。尤其是,群的數(shù)目一開始是未知的,隨著記錄的處理而發(fā)現(xiàn)新的群??蓞^(qū)別性排序被設(shè)計用來與群成員身份決策處理一起作用以產(chǎn)生與群成員身份決策處理兼容的最大數(shù)目的不同群。經(jīng)驗顯示,如果首先處理可區(qū)別性分值低且常常伴隨著較低數(shù)據(jù)質(zhì)量的記錄,它們傾向于引發(fā)否則可區(qū)分的群的匯聚(agglomeration)。
[0088]在一些實施方式中,可優(yōu)選地以數(shù)據(jù)質(zhì)量級聯(lián)的方式來執(zhí)行分群,在該方式中具有實質(zhì)不同數(shù)據(jù)質(zhì)量的記錄被分開處理。例如,對于具有客戶姓名、政府id和生日的銀行記錄,值得將填充有全部三個字段(具有非默認(rèn)的值)的記錄組與那些填充有兩個字段(具有非默認(rèn)的值)的記錄組、以及那些僅填充有一個字段的記錄組分開進(jìn)行處理。隨著記錄的完整性降低,群成員身份決策的可靠性也下降,而分離的群經(jīng)過可輔助用戶理解這樣的影響??稍谟脩艚缑?04中為用戶102將可區(qū)別性分值不同的記錄對應(yīng)地以圖形顯示方式加以標(biāo)示。例如,可以可區(qū)別性從高至低變動的梯度規(guī)格(gradient scale)來給記錄著色,從而使用戶一眼就能看到哪些記錄可靠性較低。用戶界面104還可具有用于打開和關(guān)閉用不同可區(qū)別性范圍顯示標(biāo)記的開關(guān),從而也使用戶能夠關(guān)注給定質(zhì)量的數(shù)據(jù)。這里,可區(qū)別性在這里被用作為數(shù)據(jù)質(zhì)量的代名詞(proxy),但圖像顯示也能夠使用獨立于用來驅(qū)動群的可區(qū)別性分值而得到的數(shù)據(jù)質(zhì)量的直接測量。
[0089]分群引擎130包含候選項搜索引擎140,其從可用于比較的記錄組中識別出與每個初始或標(biāo)記化記錄匹配的候選項,稱為查詢(query)記錄。如果通過候選項搜索引擎沒有檢索到記錄,則生成新的群id并分配給該查詢記錄。將關(guān)于該新群的適當(dāng)信息存儲在分群庫170中。如果通過候選項搜索引擎檢索到記錄,則在進(jìn)行群成員身份決策之前由計分引擎150來對檢索到的記錄針對查詢記錄具體進(jìn)行計分。群成員身份引擎160確定被計分的查詢記錄的群成員身份。由變體剖析器110產(chǎn)生的變體剖析器庫115和由變體網(wǎng)絡(luò)分析器120產(chǎn)生的變體網(wǎng)絡(luò)庫126以及其他分群庫170都可由候選項搜索引擎140和計分引擎150用來輔助對候選項記錄識別和計分。
[0090]在一些實施方式中,例如在不同的分段以及使用不同分群策略的分離的分群途徑中,單個記錄可分配給多個群??墒褂枚嘀仄ヅ湔{(diào)和器165來調(diào)和所述分配以將每個記錄關(guān)聯(lián)至單個群。
[0091]在一些場景中,例如在信息不足以在可選匹配之間區(qū)分時,當(dāng)一記錄接近一個以上群的成員身份時,在已經(jīng)調(diào)和多重匹配之后還可保留有與多個群的模糊匹配。例如,假設(shè)存在兩個不同群,標(biāo)簽有名稱“頂點工業(yè)(Acme Industries)加拿大”和“頂點工業(yè)澳大利亞”。查詢記錄“頂點工業(yè)”同等匹配這兩個名稱。在沒有其他信息時,“頂點工業(yè)”應(yīng)當(dāng)分配至哪個群是模糊的且不能分辨。在這種情況下,可在用戶界面104中將模糊匹配通報并顯示給用戶102,在分群(匹配)后記錄的網(wǎng)絡(luò)的圖形顯示中可用獨特顏色來標(biāo)識涉及模糊匹配的記錄。
[0092]在一些實施方式中,群成員身份決策處理可將模糊記錄分配至可能的可選群中的一個群。對于涉及配對有模糊成員的群成員身份決策的群中的每個成員,用戶界面104可用一個顏色顯示從模糊記錄到成員身份已得到承認(rèn)的分群的配對成員的邊,并用不同的顏色顯示已經(jīng)否認(rèn)成員身份的群的對應(yīng)成員的每個邊。(例如,在圖1lD中,模糊記錄1190與匹配群1193的成員1193之間的邊用黑色顯示,而模糊記錄與不匹配群的成員1194之間的邊用灰色顯示)。這一顯示可使用戶102能夠容易地將群成員身份引擎作出的決策與接受或修改該群成員身份引擎的分配之前恰好可用的替代選擇分開。
[0093]候選項搜索引擎140的目的是通過執(zhí)行僅檢索符合最低相似性標(biāo)準(zhǔn)的記錄的搜索來減少需要與查詢記錄具體比較的記錄的數(shù)目。實質(zhì)上可用于比較的記錄組(批處理情況下分段中的所有記錄)編有索引,從而可將針對索引的搜索用作快速、低計算成本的過濾器以丟棄那些不可能匹配的記錄。分群引擎130的性能很大程度上受到候選項搜索引擎是否成功地縮小了具體要考慮的記錄組的影響。
[0094]1.3候選項搜索引擎
[0095]圖1D概要示出候選項搜索引擎140的示例的要素。從數(shù)據(jù)源記錄的組100P或標(biāo)記化記錄118P讀取查詢記錄。如果初始或標(biāo)記化記錄已經(jīng)過分段和/或分區(qū)而被并行處理,則該查詢記錄可處在分段中和/或處在并行分區(qū)中。查詢基于預(yù)定義或用戶指定的過程而定,該過程從查詢記錄的一個或多個字段或者字段組合中選擇一個或多個標(biāo)記,并且該查詢是由查詢構(gòu)造過程142從所選的標(biāo)記或所選標(biāo)記的組合中生成。在一些實施方式中,生成的查詢由查詢擴(kuò)展引擎143擴(kuò)展為包括一個或多個指定查詢的擴(kuò)展查詢。
[0096]在一些實施方式中,涉及通過計分引擎150確定群成員身份的被稱為計分字段的字段集合可通過計分引擎150所使用的計分規(guī)則找到。計分規(guī)則被指定在預(yù)定義或用戶指定的規(guī)則組中,其中一個或多個字段或者字段的組合被分別進(jìn)行相似性的比較,且隨后中間字段分值的集合被結(jié)合以計算整體記錄分值。規(guī)則組是規(guī)則的集合,通過結(jié)合輸入值、常量、參數(shù)、其他中間值、其他輸出值、以及查找一個或多個基于示例(case-based)的分配組中其他數(shù)據(jù)組而得到的值,每個規(guī)則計算一個或多個中間值或輸出值,該計算可使用內(nèi)建邏輯和數(shù)學(xué)運算、內(nèi)建函數(shù)和用戶定義函數(shù)的結(jié)合。規(guī)則組可產(chǎn)生一個或多個輸出值,其中一些可為矢量。計分規(guī)則組中的計分規(guī)則將采用從輸入數(shù)據(jù)記錄選擇的字段,且這些字段被統(tǒng)稱為計分字段。
[0097]在計分字段中共享相同值的記錄組將共享相同的群會員身份決策。計分字段去重復(fù)(deduplication)模塊144保證這樣的記錄組中僅有第一個記錄被傳遞用來計分,而后續(xù)的記錄則簡單地集成群會員身份結(jié)果。
[0098]搜索條目擴(kuò)展引擎145被應(yīng)用至全輸入數(shù)據(jù)源100中的記錄或者已有數(shù)據(jù)群記錄180的組以構(gòu)建搜索庫146。
[0099]查詢記錄被傳遞至候選項搜索引擎140的核心搜索引擎147。搜索引擎147收取每個擴(kuò)展的查詢并返回查詢記錄和識別候選項匹配記錄之間可能的候選項匹配的特有記錄標(biāo)識符的一個或多個列表。這些列表被傳送至群候選項選擇器148,其應(yīng)用預(yù)定義的規(guī)則和/或用戶指定的規(guī)則(例如,規(guī)則組)來識別符合值得投入計分引擎150詳細(xì)計分的最低標(biāo)準(zhǔn)的候選項匹配記錄的列表。在一些實施方式中,表征查詢記錄與可用記錄之間匹配的標(biāo)記組合的搜索代碼既用來促進(jìn)選擇處理還用來回溯地剖析及選擇處理。
[0100]1.4變體剖析器
[0101]圖1E概略示出變體剖析器110的示例的要素。變體剖析器110可使用多種用于生成識別變體標(biāo)記的配對的存檔(archive)的技術(shù)中的任意技術(shù),包括諸如在名稱為“管理用于近似字符串匹配的存檔(Managing an Archive for Approximate String Matching) ”的美國專利公開第2009/0182728號中描述的一種用于產(chǎn)生存檔的處理。記錄讀取自數(shù)據(jù)源100。它們在數(shù)據(jù)準(zhǔn)備模塊111中被準(zhǔn)備以用于分析,包括由標(biāo)準(zhǔn)化器112和標(biāo)記化器113進(jìn)行處理。標(biāo)準(zhǔn)化器112應(yīng)用預(yù)定義的規(guī)則和/或用戶指定的規(guī)則基于所選字段(或者指派的字段組合)的性質(zhì)和含義來對輸入的數(shù)據(jù)標(biāo)準(zhǔn)化。例如,字符串值可處理為小寫字母,而特定的標(biāo)點字符或可刪除、或可用空格字符代替、或二者兼?zhèn)?可能導(dǎo)致多重記錄)。根據(jù)字段的性質(zhì)和含義,標(biāo)記化器113基于應(yīng)用至字段中值的預(yù)定義規(guī)則和/或用戶制定規(guī)則來識別標(biāo)記的列表。例如,地址的地段線(street line)可基于空格字符而分離成單詞列表,而像“New York(紐約)”那樣可能包含表示語義單元的值的城市字段則不被分離成單詞。標(biāo)記化器113產(chǎn)生標(biāo)記化記錄118的數(shù)據(jù)組或數(shù)據(jù)流,用于由分群引擎130進(jìn)一步處理。
[0102]標(biāo)記化記錄的不同標(biāo)記也由變體剖析引擎114來剖析,包括對每個標(biāo)記的實例的數(shù)目(例如其中出現(xiàn)標(biāo)記的記錄的數(shù)目)計數(shù)。在一些實施方式中,識別其中出現(xiàn)標(biāo)記的數(shù)據(jù)源、字段、和/或語境(字段的邏輯分組)的關(guān)鍵可與標(biāo)記相關(guān)聯(lián),且標(biāo)記的實例的數(shù)目的對應(yīng)計數(shù)可得以保持。這樣能夠?qū)Σ煌?、字段、或語境中出現(xiàn)的同一標(biāo)記編制進(jìn)行分離的統(tǒng)計。在一些實施方式中,識別給定字段或語境中出現(xiàn)標(biāo)記的記錄的位置信息也與標(biāo)記相關(guān)聯(lián)。該位置信息可為位元向量(bitvector)的形式,可選地經(jīng)過壓縮,其中對于出現(xiàn)標(biāo)記的每個記錄都設(shè)置一位元。位元的順序可明確或隱含地映射至記錄的位置。
[0103]變體剖析引擎116進(jìn)而基于標(biāo)記相似性測量來識別互為變體的標(biāo)記。可以有很多標(biāo)記相似性測量。一種是基于編輯距離來比較標(biāo)記的相似性。萊文斯坦(Levenshtein)編輯距離對將一個單詞轉(zhuǎn)化為另一單詞所需的插入、刪除和替代計數(shù)。兩個單詞越相似,它們的編輯距離越小。另一種測量是基于語音相似性(例如使用探測法編碼)來比較單詞。
[0104]第三種可能性是比較共享字符的序列。通過對共享字符的數(shù)目進(jìn)行計數(shù)并除以較短字符串的長度可計算基本序列相似性分值。然后通過對序列之外的字符和字符串長度的差別從基本分值減去權(quán)重扣分來形成全序列相似性分值。例如,“eqty fnd”和“equityfund (股票基金)”分別從可能的8個字符和11個字符中共享8個字符(包括空格字符)。基本相似性分值為I。不存在序列之外的字符,且長度差為3。因此,在長度匹配權(quán)重為0.05時,序列相似性分值為1-0.05*3 = 0.85。
[0105]在一些實施方式中,變體剖析引擎114產(chǎn)生變體剖析器庫115,包括識別變體配對及其相似性分值的分值存檔以及包含源-字段-語境出現(xiàn)、關(guān)聯(lián)計數(shù)、位置信息、和變體標(biāo)記列表及它們在同一源-字段-語境中的計數(shù)的每一個中每個標(biāo)記的變體存檔。變體網(wǎng)絡(luò)116可由變體存檔計算而來,該變體存檔中每個節(jié)點為標(biāo)記且每個邊為變體標(biāo)記的配對。變體網(wǎng)絡(luò)116可圖形顯示在用戶界面104中,在這里用戶102可操控變體網(wǎng)絡(luò)116,可能包括添加邊以鏈接未被變體剖析引擎114識別為變體配對的標(biāo)記,或者刪除與僅僅是基于相似性而非語義的變體的標(biāo)記連接的邊。[0106]在一些實施方式中,可通過整合外部數(shù)據(jù)106來充實變體剖析器庫115和變體網(wǎng)絡(luò)115。外部數(shù)據(jù)106可包括由用戶提供或從第三方可獲得的同義詞和縮寫的列表。外部數(shù)據(jù)源的一個示例為姓名的文化類變體列表,包括昵稱、替代拼寫、和替代音譯。例如,這樣的數(shù)據(jù)可通過將外部數(shù)據(jù)中的所有標(biāo)記及其蘊含(entail)的變體配對添加至變體剖析器庫115和變體網(wǎng)絡(luò)116、或者通過僅添加這些數(shù)據(jù)中存在的標(biāo)記之間的配對來加以整合。在前一種情況下,與不存在于數(shù)據(jù)中的標(biāo)記相關(guān)聯(lián)的計數(shù)應(yīng)當(dāng)為零。如果這一標(biāo)記應(yīng)在將來的處理中出現(xiàn),則可增加其計數(shù),但與其他標(biāo)記的隱含鏈接將已經(jīng)存在。
[0107]1.5變體網(wǎng)絡(luò)分析器概述
[0108]圖1F概略示出變體網(wǎng)絡(luò)分析器120的示例的要素。變體網(wǎng)絡(luò)116被讀取且網(wǎng)絡(luò)分析引擎122實行網(wǎng)絡(luò)分析。在一些實施方式中,該網(wǎng)絡(luò)分析可識別變體網(wǎng)絡(luò)116內(nèi)變體標(biāo)記的連接組件的組并執(zhí)行進(jìn)一步分析,其中一些在下文加以說明。用戶102可在用戶界面104中觀察變體網(wǎng)絡(luò)116的圖形顯示,其中每個標(biāo)記顯示為一個節(jié)點,而每個標(biāo)記變體配對由一邊指示??捎帽碚鞴?jié)點和邊的信息來修飾圖形顯示,例如下文所列舉示例中的信息。用戶102可使用用戶界面104交互地修改變體網(wǎng)絡(luò)116,添加或刪除節(jié)點或邊或者編輯修飾信息。
[0109]可顯示標(biāo)記的本地鄰居。由網(wǎng)絡(luò)分析器122實行的鄰居分析可在圖形顯示中識別并標(biāo)示正標(biāo)記(可與其本地或其他鄰居中的其他標(biāo)記在統(tǒng)計上區(qū)別開的那些標(biāo)記)以及連接正標(biāo)記匹配對的邊。
[0110]每個標(biāo)記的實例的計數(shù)可在顯示器中示出,并且在一些實施方式中可由用于節(jié)點的圖標(biāo)大小來以圖形方式指示??勺R別出連接的變體沒有更高計數(shù)的標(biāo)記,連帶它們的典型鄰居(通過從最高計數(shù)的標(biāo)記開始接著是相等或更少計數(shù)的標(biāo)記的所有變體配對來形成的標(biāo)記樹),并顯示。標(biāo)記代表是被選擇來代表所選鄰居中所有標(biāo)記的標(biāo)記。標(biāo)記代表選擇器124可從每個連接組件中選擇一個或多個標(biāo)記代表,例如典型鄰居的最高計數(shù)標(biāo)記。與標(biāo)記代表關(guān)聯(lián)的典型鄰居或其他鄰居可能會重疊。
[0111]從變體剖析器庫115提取的標(biāo)記的顯著性表示哪些標(biāo)記在用作搜索項時相對更有區(qū)別性。所選標(biāo)記的顯著性是通過位于該所選標(biāo)記的本地鄰居中且與該所選標(biāo)記相關(guān)聯(lián)的變體的計數(shù)計算而來。由于變體配對標(biāo)記可具有不同的本地鄰居,所以它們的顯著性可能不同,因此將顯著性關(guān)聯(lián)至每個標(biāo)記的重要性也不同。顯著性是可在變體網(wǎng)絡(luò)的圖形顯示中用顏色漸變顯示的另一性質(zhì)。
[0112]本地鄰居的(辛普森)多樣性是與每個標(biāo)記關(guān)聯(lián)的另一個量。經(jīng)過歸一化時,辛普森多樣性反映指派標(biāo)記的變體計數(shù)分布的偏斜(skew)。未經(jīng)過歸一化的多樣性量級是隨機(jī)選取標(biāo)記的變體將具有的期望計數(shù)。如果指派標(biāo)記的第k個變體的計數(shù)為nk,則變體的總數(shù)(不包括該指派標(biāo)記)為整個k上nk的總和。多樣性為:
[0113]多樣性=〈nk〉= Σ k變體中nkPk = Σ k變體中nk2/N
[0114]其中
[0115]N =Ek變體中 nk
[0116]為變體的總計數(shù),而
[0117]Pk = nk/N
[0118]是隨機(jī)選擇的出現(xiàn)將與第k個變量相關(guān)聯(lián)的可能性。為了歸一化顯示的多樣性,除以Σ k$#+nk來得到O與I之間的量。多樣性對于識別相關(guān)標(biāo)記之間的鏈接是有用的,因為標(biāo)記的相關(guān)性隱含了低多樣性。這給出了用來識別正標(biāo)記的類似但不同的測量。
[0119]網(wǎng)絡(luò)分析的結(jié)果可存儲在網(wǎng)絡(luò)分析庫126中,在一些實施方式中包括標(biāo)記代表庫127和鄰居分析庫128。標(biāo)記及其關(guān)聯(lián)的標(biāo)記代表可存儲在標(biāo)記代表庫127中。鄰居分析庫128可包含從網(wǎng)絡(luò)分析搜集的信息,包括正標(biāo)記、標(biāo)記的變體配對、以及典型鄰居。
[0120]1.6分群認(rèn)可處理概述
[0121]圖1G概略示出分群認(rèn)可引擎190的示例的要素。用戶102可使用用戶界面104來檢查群成員身份決策。模糊的群成員身份決策(其中一個記錄與一個以上的群足夠近似而不足以成為可能的成員)可由分群引擎130加標(biāo)志并由用戶102解決。示出的引擎190的要素對應(yīng)于可由用戶輸入發(fā)起的動作。
[0122]記錄可被確認(rèn)192為給定分群的成員。將記錄的特有記錄標(biāo)識符和關(guān)聯(lián)確認(rèn)群的群id配對的決策可存儲于分群庫170的確認(rèn)或排除庫172中。如果確認(rèn)的記錄被提交給分群引擎130,通過其特有記錄標(biāo)識符(在確認(rèn)組中)出現(xiàn)在確認(rèn)或排除庫172中來證明,則確認(rèn)群的群id將被通報而無需進(jìn)一步處理。
[0123]記錄可從給定群中排除194。該決策可存儲在分群庫170的確認(rèn)或排除庫172中。如果排除的記錄又被提交給分群引擎130,則其將被阻止于所排除群的成員身份外,并且必要時將被分配給不同的群(可能是新的群)。
[0124]記錄可重映射196至其他群。尤其是,通過分配一個或多個記錄至新群可將群分197成兩個或更多個部分。在很多情況下,僅對選擇的獨特記錄重映射才是必要的,因為在重處理時,比原始分群主位記錄更類似那些記錄的記錄將跟隨重映射的記錄到其新群。多個群還可通過將一個或多個記錄重映射至已有群而融合198成一個群。同樣,在很多情況下,在重分群之前只有重映射選擇的獨特記錄才是必要的。
[0125]2 示例
[0126]2.1變體剖析器和刪除-添加過程
[0127]變體剖析器110識別變體的配對、測量它們的相似性、并將變體標(biāo)記配對及其相似性分值存儲在變體剖析器庫126中。在一些實施方式中,變體剖析器110計算所有標(biāo)記配對之間的編輯距離并存儲編輯距離(“相似性”)低于預(yù)定閾值的標(biāo)記配對。萊文斯坦編輯距離對將一個標(biāo)記改編成另一標(biāo)記所需的最低數(shù)目的插入、刪除、和/或替換計數(shù),并且是一種廣泛使用的印刷(typographical)相似性的測量法??上В容^所有標(biāo)記對的方法是低效的,因為絕大多數(shù)標(biāo)記對沒有相似性,所以付出很多計算努力可能都沒什么好處。
[0128]刪除-添加過程像萊文斯坦編輯距離那樣基于印刷變體測量標(biāo)記的相似性而設(shè),但被設(shè)計用來只比較那些相對較接近的標(biāo)記,從而節(jié)省估算很多不相關(guān)標(biāo)記的計算成本。這在名稱為“管理近似字符串匹配的存檔”的美國專利公開第2009/0182728號中有更充分的說明。
[0129]在一些實施方式中,刪除-添加過程按以下方式進(jìn)行。對于標(biāo)記字典(即標(biāo)記的目錄或列表)中的每個標(biāo)記或者一部分標(biāo)記字典(例如,給定源、字段、和/或語境),作出通過從標(biāo)記刪除單個字符的每個變體。該用于給定標(biāo)記的“刪除組”包含條目的列表,每個條目都有識別初始標(biāo)記的鍵(“標(biāo)記_鍵”)、初始標(biāo)記(“初始”)、刪除變體標(biāo)記(“刪除_變體”)、以及已經(jīng)從初始標(biāo)記中刪除的字符的位置(“刪除_位置”)。刪除組的匯聚可與標(biāo)記字典一起存儲于變體剖析器庫115中,或者可在被變體剖析引擎114用來生成也存儲于變體剖析器庫115中的變體配對后丟棄。
[0130]初始標(biāo)記可與刪除變體一起被包括在刪除組中,其刪除字符位置為O。例如,以下為標(biāo)記LONDON(倫敦)的刪除組:
【權(quán)利要求】
1.一種方法,包括: 接收數(shù)據(jù)記錄,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及 處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群,該處理包括: 識別多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段; 生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及 至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
2.如權(quán)利要求1所述的方法,其中如果兩個標(biāo)記之間的距離在一閾值以下則該兩個標(biāo)記具有變體關(guān)系。
3.如權(quán)利要求1所述的方法,其中至少一個子組包括第一節(jié)點和通過遍歷與比關(guān)聯(lián)于所述第一節(jié)點的值相等或更低的值相關(guān)聯(lián)的節(jié)點連接的邊所得到的節(jié)點。
4.如權(quán)利要求1所述的方法,其中至少一第一子組包括至少一個與一標(biāo)記關(guān)聯(lián)的節(jié)點,該標(biāo)記是由所述第一子組中其他節(jié)點表示的標(biāo)記的代表。
5.如權(quán)利要求4所述的方法,其中識別數(shù)據(jù)群以關(guān)聯(lián)于第一接收數(shù)據(jù)記錄包括用所述第一接收數(shù)據(jù)記錄的代表標(biāo)記來取代所述第一接收數(shù)據(jù)記錄中的至少一個標(biāo)記。
6.如權(quán)利要求1所述的方法,還包括識別至少一個節(jié)點,該至少一個節(jié)點與比所述第一組中其他節(jié)點相關(guān)聯(lián)的值的平均值大過多于一預(yù)定閾值的值關(guān)聯(lián)。
7.如權(quán)利要求6所述的方法,還包括確定所識別的節(jié)點中通過一個邊直接彼此連接的任意兩個節(jié)點。
8.如權(quán)利要求1所述的方法,還包括接收來自用戶的輸入或?qū)㈩A(yù)先確定的規(guī)則應(yīng)用于所述網(wǎng)絡(luò)以通過在兩個節(jié)點之間添加邊或移除兩個節(jié)點之間的邊來修改所述網(wǎng)絡(luò)。
9.如權(quán)利要求8所述的方法,還包括在用戶界面中顯示所述網(wǎng)絡(luò)的可視化表示,以及可視化地指示與所述節(jié)點關(guān)聯(lián)的所述值。
10.如權(quán)利要求9所述的方法,還包括通過所述用戶界面接收所述輸入。
11.一種計算機(jī)程序,存儲在計算機(jī)可讀存儲介質(zhì)上,所述計算機(jī)程序包括指令,該指令用于使計算機(jī)系統(tǒng): 接收數(shù)據(jù)記錄,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及 處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群,該處理包括: 識別多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段; 生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及 至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
12.—種計算機(jī)系統(tǒng),包括: 輸入裝置或端口,被配置為接收數(shù)據(jù)記錄,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及 至少一個處理器,被配置為處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群,該處理包括: 識別多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段; 生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及 至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
13.一種計算機(jī)系統(tǒng),包括: 用于接收數(shù)據(jù)記錄的裝置,所接收的數(shù)據(jù)記錄中每個都包括一個或多個字段中的一個或多個值;以及 用于處理所接收的數(shù)據(jù)記錄以識別一個或多個數(shù)據(jù)群的裝置,該處理包括: 識別多個標(biāo)記,所述標(biāo)記中每個都包括一字段或字段組合中的至少一個值或值的片段; 生成表示所識別的標(biāo)記的網(wǎng)絡(luò),所述網(wǎng)絡(luò)的節(jié)點表示標(biāo)記而所述網(wǎng)絡(luò)的每個邊表示標(biāo)記之間的變體關(guān)系;以及 至少部分基于與節(jié)點關(guān)聯(lián)的值來生成不同節(jié)點子組被加以區(qū)分的所述網(wǎng)絡(luò)的圖形表示,其中與特定節(jié)點關(guān)聯(lián)的值對該特定節(jié)點所表示的標(biāo)記在所接收的數(shù)據(jù)記錄內(nèi)出現(xiàn)的實例數(shù)目計數(shù)加以量化。
【文檔編號】G06F17/30GK104040544SQ201280067094
【公開日】2014年9月10日 申請日期:2012年11月15日 優(yōu)先權(quán)日:2011年11月15日
【發(fā)明者】阿倫·安德森 申請人:起元科技有限公司