選關(guān)鍵域以及檢測候選關(guān)鍵域之間的匹配關(guān)系的算法可以如下:
[0048]
[0049] 圖3示出了待匹配的兩個表的部分信息。經(jīng)過圖1中的步驟S101和S102的處理 之后,對圖3中的兩個表所計算出的相似度矩陣及獲得的匹配的多個關(guān)鍵域?qū)θ鐖D4所示。 從圖4可以看到,圖3中的第一表(即,左邊的表)的"公司代碼"域與第二表(即,右邊的 表)的"組織機構(gòu)代碼"域匹配,第一表的"公司名稱"域與第二表的"企業(yè)名稱"域匹配。 而第一表和第二表的其它域則由于它們之間的相似度小于(或等于)設定的閾值,所以它 們沒有成為匹配的關(guān)鍵域?qū)Α?br>[0050] 返回圖1,在圖1中的步驟S103,基于所匹配的一個或多個關(guān)鍵域?qū)?,計算除了?一個或多個關(guān)鍵域?qū)χ獾摹⒌谝槐淼拿總€剩余域與第二表的每個剩余域的相似度,以獲 得匹配的一個或多個剩余域?qū)Α?br>[0051] 可以使用與公式1類似的公式3來計算剩余域的相似度,即:
[0052]sim(opl,op2) =a2 *名稱相似度+b2 *類型相似度+(l-a2_b2) *取值相似度 (公式3)
[0053] 其中,a2和b2為系數(shù)。并且其中,名稱相似度和類型相似度與公式1中的相同。 而取值相似度則與公式1中的不同??梢园凑障旅娴姆椒ㄓ嬎愕谝槐淼拿總€剩余域與第二 表的每個剩余域的取值相似度,例如,以相似度最高的一個關(guān)鍵域?qū)Φ挠蛑底鳛殒I,并且以 兩個剩余域的域值作為值,對第一表和第二表進行映射和簡化處理。通過對于映射和簡化 處理結(jié)果中存在兩個值的每個鍵,計算這兩個值的相似度,然后將所有值的相似度相加,就 計算出了剩余域的取值相似度。以圖3為例,例如,以圖3中的相似度最高的"公司代碼" 域和"組織機構(gòu)代碼"域的域值為鍵,以剩余域"聯(lián)系地址"域和"公司地址"域的域值作為 值,對第一表和第二表進行映射和簡化處理。在映射和簡化處理中,可以發(fā)現(xiàn)例如同樣的鍵 " 13771839-8 "對應了兩個不同的域值"蘇州園區(qū)涇茂路168號"和"蘇州工業(yè)園區(qū)蘇虹路 71號"。所以可以通過將這兩個域值的交集中的字符的個數(shù)除以并集中的字符的個數(shù),來計 算這兩個值之間的相似度。當然,如果一個鍵對應兩個相同的值,則兩個相同的值的相似度 為100%。。所有鍵對應的域值的相似度的平均值,就是兩個域的取值相似度??梢杂霉? 來表示上述對兩個域的取值相似度的計算 :
[0054]
[0055] 其中,sim'(opl.value,op2.value)是一個鍵對應的域值的相似度,sim(opl. value,op2.value)是兩個域的取值相似度,N為鍵的個數(shù)。
[0056] 如果通過上述方法計算出的兩個剩余域的相似度超過指定閾值,則這兩個剩余域 匹配。
[0057] 對剩余域進行匹配的算法可以如下:
[0058]
[0059] 有時侯,在對兩個表進行域匹配的過程中,可能還需要對匹配的一個或多個關(guān)鍵 域?qū)Φ娜≈颠M行一致化處理。例如,可以通過圖5中所示的方法來進行一致化處理。
[0060] 在步驟S501,以相似度最高的一個關(guān)鍵域?qū)Φ挠蛑底鳛殒I并且以一個其余關(guān)鍵域 對的域值作為值,對第一表和第二表進行映射和簡化處理。例如,以圖3中的相似度最高的 "公司代碼"域和"組織機構(gòu)代碼"域的域值為鍵,以"公司名稱"域和"企業(yè)名稱"域的域值 作為值。
[0061] 在步驟S502,檢測映射和簡化處理結(jié)果中的每個鍵是否存在兩個值,以及這兩個 值是否存在不一致性。如果一個鍵對應多個值并且這些值不相同,則這些值不一致。以圖3 為例,以所示的"公司代碼"(也是"組織機構(gòu)代碼")的域值" 13771839-8"作為鍵,該鍵存 在兩個值"手機通訊(蘇州)有限公司"和"手機通訊有限公司",這兩個值存在不一致性。
[0062] 在步驟S503,如果存在不一致性,則根據(jù)第一表和第二表的屬性,將一個表中的對 應域值更新為另一個表中的對應域值。由于上述兩個值"手機通訊(蘇州)有限公司"和 "手機通訊有限公司"存在不一致性,所以要根據(jù)第一表和第二表的屬性,將一個表中的對 應域值更新為另一個表中的對應域值。表的屬性可以包括表優(yōu)先級、表干凈程度及表創(chuàng)建 時間中的至少一個。例如,可以通過下列公式5來計算表的屬性:
[0063]表的屬性=a3 *表優(yōu)先級+b3 *表干凈程度+c3 *表創(chuàng)建時間(公式5)
[0064] 其中,a3、b3和c3為系數(shù)。此示例為將表優(yōu)先級、表干凈程度及表創(chuàng)建時間分別 乘以系數(shù)然后求和來計算表的屬性,當然也可以通過其它方式來計算表的屬性
[0065] 例如,在圖3中,可以根據(jù)表的屬性,如果圖3中的第二表的重要程序大于第一表, 則直接使用第二表的數(shù)據(jù)更新第一表,例如將第一表中的"手機通訊(蘇州)有限公司"更 新為"手機通訊有限公司"。圖6示意性地示出了映射和簡化處理的過程。之后,與"公司 代碼"(也是"組織機構(gòu)代碼")域的域值"13771839-8"對應的"公司名稱"(也是"企業(yè)名 稱")域的域值為統(tǒng)一的"手機通訊有限公司"。
[0066] 如果關(guān)鍵域的域值一致,則通??梢蕴岣邔τ诔岁P(guān)鍵域?qū)χ獾摹⒌谝槐淼拿?個剩余域與第二表的每個剩余域的匹配的準確率。所以在對第一表的每個剩余域與第二表 的每個剩余域進行匹配之前可以先進行上述對匹配的一個或多個關(guān)鍵域?qū)Φ娜≈档囊恢?化處理,然后再進行剩余域的匹配。圖7示意性地示出了一致化處理之后再對剩余域進行 匹配的方法的流程圖。
[0067] 在步驟S701,以關(guān)鍵域的一致性處理后的域值作為鍵并且以剩余域的域值作為 值,對第一表和第二表進行映射和簡化處理。即,基于聯(lián)合的關(guān)鍵域的域值作為鍵,例如,根 據(jù)將"公司代碼"(也是"組織機構(gòu)代碼")域和"公司名稱"(也是"企業(yè)名稱")域聯(lián)合的 聯(lián)合關(guān)鍵域的域值作為鍵。
[0068] 在步驟S702,通過對于映射和簡化處理結(jié)果中存在兩個值的每個鍵,計算兩個值 的相似度,對于圖3中的示例,計算出的兩個值的相似度如圖8所示。從而計算剩余域的取 值相似度。這里的取值相似度與上述的相同。
[0069]在步驟S703,根據(jù)剩余域的名稱相似度、類型相似度以及上述算出的剩余域的取 值相似度,計算剩余域的相似度。如果計算出的兩個剩余域的相似度超過指定閾值,則這兩 個剩余域匹配。
[0070] 仍然以圖3所示的表為例,在對剩余域進行匹配之后,可以更新圖4所示的相似度 矩陣,更新后的相似度矩陣以及獲得的匹配的域?qū)θ鐖D9所示。
[0071] 根據(jù)上述本發(fā)明實施例的方法,在對兩個表進行域匹配的過程中,首先識別出關(guān) 鍵域及其匹配關(guān)系,然后利用匹配的關(guān)鍵域來對非關(guān)鍵域(剩余域)進行匹配,從而提高了 匹配的準確性。
[0072] 此外,根據(jù)上述本發(fā)明實施例的方法,在對兩個表進行域匹配的過程中,除了考慮 域名稱的相似度和域類型的相似度之外,還考慮了域取值的相似度,從而進一步提高了匹 配的準確性。
[0073] 另外,根據(jù)上述本發(fā)明實施例的方法,在對兩個表進行域匹配的過程中,采用映 射-簡化的處理方式,從而能夠加快匹配的速度。
[0074] 以下參照圖10來描述根據(jù)本發(fā)明的實施例的用于提取手勢邊緣圖像的裝置 1000〇
[0075] 圖10是示意性地示出根據(jù)本發(fā)明的一個實施例的用于在第一表和第二表之間進 行域匹配的裝置1000的框圖。其中,為了簡明起見僅僅示出了與本發(fā)明密切相關(guān)的部分。 在用于在第一表和第二表之間進行域匹配的裝置1000中,能夠執(zhí)行以上參考圖1所描述的 用于在第一表和第二表之間進行域匹配的方法。如圖10所不,用于在第一表和第二表之間 進行域匹配的裝置1000可以包括候選關(guān)鍵域確定單元1001、關(guān)鍵域?qū)Λ@得單元1002以及 剩余域?qū)Λ@得單元1003。
[0076] 候選關(guān)鍵域確定單元1001可以被配置成基于第一表和第二表的域統(tǒng)計信息,確 定第一表的候選關(guān)鍵域和第二表的候選關(guān)鍵域。關(guān)鍵域?qū)Λ@得單元1002可以被配置成分 別計算第一表的每個候選關(guān)鍵域與第二表的每個候選關(guān)鍵域的相似度,以獲得匹配的一個 或多個關(guān)鍵域?qū)?。剩余域?qū)Λ@得單元1003可以被配置成基于匹配的一個或多個關(guān)鍵域?qū)Γ?計算除了一個或多個關(guān)鍵域?qū)χ獾?、第一表的每個剩余域與第二表的每個剩余域的相似 度,以獲得匹配的一個或多個剩余域?qū)Α?br>[0077] 其中,關(guān)鍵域?qū)Λ@得單元1002可以根據(jù)候選關(guān)鍵域的名稱相似度、類型相似度以 及取值相似度,計算候選關(guān)鍵域的相似度。候選關(guān)鍵域是域值不重復、域值不為無效或空值 并且域值類型一致的域。
[0078] 以下參照圖11來描述根據(jù)本發(fā)明的實施例的用于在第一表和第二表之間進行域 匹配的裝置1000中所包括的關(guān)鍵域?qū)Λ@得單元1002的一個示例。
[0079] 圖11是示意性地示出根據(jù)本發(fā)明的實施例的用于在第一表和第二表之間進行域 匹配的裝置1000中所包括的關(guān)鍵域?qū)Λ@得單元1002的示例框圖。關(guān)鍵域?qū)Λ@得單元1002 可以包括域值集合獲取部10021、交集和并集計算部10022及取值相似度計算部10023。
[0080] 域值集合獲取部10021可以被配置成獲取第一域值集合和第二域值集合,第一域 值集合是第一表的一個候選關(guān)鍵域的域值的集合,第二域值集合是第二表的一個候選關(guān)鍵 域的域值的集合。交集和并集計算部10022可以被配置成分別計算第一域值集合和第二域 值集合的交集和并集。取值相似度計算部10023可以被配置成通過將交集中的域值的個數(shù) 除以并集中的域值的個數(shù),計算取值相似度。