欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于在第一表和第二表之間進(jìn)行域匹配的方法和裝置的制造方法

文檔序號(hào):9453068閱讀:370來源:國(guó)知局
用于在第一表和第二表之間進(jìn)行域匹配的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種用于在第一表和第二表之間進(jìn)行域匹配的方法和裝置。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)絡(luò)上會(huì)出現(xiàn)很多同質(zhì)的數(shù)據(jù)信息,但是數(shù)據(jù)結(jié)構(gòu)的表示 卻不一致。例如一些用戶數(shù)據(jù)會(huì)保存在Excel中,但是隨著數(shù)據(jù)數(shù)量的增多,數(shù)據(jù)參數(shù)的個(gè) 數(shù)有所增加,因此另外一些用戶數(shù)據(jù)會(huì)保存在數(shù)據(jù)庫(kù)中。為了獲得一個(gè)全局統(tǒng)一的數(shù)據(jù)視 圖,有必要找出這些數(shù)據(jù)源之間的對(duì)應(yīng)關(guān)系。
[0003]大多數(shù)的數(shù)據(jù)匹配只是基于數(shù)據(jù)域的元信息,例如域名稱的相似度和域類型的相 似度等。但是在有些情況下,域名稱可能會(huì)有很大的不同。例如,在Excel的一個(gè)表中可能 用"corporate"這個(gè)表頭來代表公司名稱,而在數(shù)據(jù)庫(kù)的另一個(gè)表中則用"enterprise"代 表公司名稱。在這種情況下,使用傳統(tǒng)技術(shù)在這兩個(gè)表之間進(jìn)行域匹配的結(jié)果就不理想。
[0004]針對(duì)現(xiàn)有技術(shù)中存在的缺陷,提出本申請(qǐng)。

【發(fā)明內(nèi)容】

[0005]在下文中給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理 解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān) 鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念, 以此作為稍后論述的更詳細(xì)描述的前序。
[0006]本發(fā)明的一個(gè)主要目的在于提供一種用于在第一表和第二表之間進(jìn)行域匹配的 方法和裝置,以至少克服現(xiàn)有的問題。
[0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于在第一表和第二表之間進(jìn)行域匹配的方 法,包括:基于第一表和第二表的域統(tǒng)計(jì)信息,確定第一表的候選關(guān)鍵域和第二表的候選關(guān) 鍵域;分別計(jì)算第一表的每個(gè)候選關(guān)鍵域與第二表的每個(gè)候選關(guān)鍵域的相似度,以獲得匹 配的一個(gè)或多個(gè)關(guān)鍵域?qū)?;及基于匹配的一個(gè)或多個(gè)關(guān)鍵域?qū)?,?jì)算除了一個(gè)或多個(gè)關(guān)鍵 域?qū)χ獾摹⒌谝槐淼拿總€(gè)剩余域與第二表的每個(gè)剩余域的相似度,以獲得匹配的一個(gè)或 多個(gè)剩余域?qū)Α?br>[0008]根據(jù)本發(fā)明的又一個(gè)方面,提供了一種用于在第一表和第二表之間進(jìn)行域匹配的 裝置,包括:候選關(guān)鍵域確定單兀,被配置成基于第一表和第二表的域統(tǒng)計(jì)信息,確定第一 表的候選關(guān)鍵域和第二表的候選關(guān)鍵域;關(guān)鍵域?qū)Λ@得單元,被配置成分別計(jì)算第一表的 每個(gè)候選關(guān)鍵域與第二表的每個(gè)候選關(guān)鍵域的相似度,以獲得匹配的一個(gè)或多個(gè)關(guān)鍵域 對(duì);及剩余域?qū)Λ@得單元,被配置成基于匹配的一個(gè)或多個(gè)關(guān)鍵域?qū)?,?jì)算除了一個(gè)或多個(gè) 關(guān)鍵域?qū)χ獾摹⒌谝槐淼拿總€(gè)剩余域與第二表的每個(gè)剩余域的相似度,以獲得匹配的一 個(gè)或多個(gè)剩余域?qū)Α?br>[0009]另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
[0010] 此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其 上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
[0011] 根據(jù)本發(fā)明實(shí)施例的方法和裝置,在對(duì)兩個(gè)表進(jìn)行域匹配的過程中,首先識(shí)別出 關(guān)鍵域及其匹配關(guān)系,然后利用匹配的關(guān)鍵域來對(duì)非關(guān)鍵域(剩余域)進(jìn)行匹配,從而提高 了匹配的準(zhǔn)確性。
[0012] 通過以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其它優(yōu) 點(diǎn)將更加明顯。
【附圖說明】
[0013] 參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其 它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。
[0014] 圖1是示意性地示出根據(jù)本發(fā)明的實(shí)施例的用于在第一表和第二表之間進(jìn)行域 匹配的方法的流程圖;
[0015] 圖2是示意性地示出根據(jù)本發(fā)明的實(shí)施例的用于計(jì)算取值相似度的方法的流程 圖;
[0016] 圖3示出了待匹配的兩個(gè)表的部分信息;
[0017] 圖4示出了對(duì)圖3中的兩個(gè)表所計(jì)算出的相似度矩陣及所獲得的匹配的多個(gè)關(guān)鍵 域?qū)Γ?br>[0018] 圖5是示意性地示出根據(jù)本發(fā)明的實(shí)施例的用于進(jìn)行一致化處理的方法的流程 圖;
[0019] 圖6示意性地示出了映射和簡(jiǎn)化處理的過程;
[0020] 圖7示意性地示出了在一致化處理之后再對(duì)剩余域進(jìn)行匹配的方法的流程圖;
[0021] 圖8示意性地示出了對(duì)于圖3中的示例所計(jì)算出的兩個(gè)值的相似度;
[0022] 圖9示意性地示出了更新后的相似度矩陣以及獲得的匹配的域?qū)Γ?br>[0023] 圖10是示意性地示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于在第一表和第二表之間進(jìn) 行域匹配的裝置的框圖;
[0024] 圖11是示意性地示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于在第一表和第二表之間進(jìn) 行域匹配的裝置中所包括的關(guān)鍵域?qū)Λ@得單元的示例框圖;
[0025] 圖12是示意性地示出根據(jù)本發(fā)明的另一實(shí)施例的用于在第一表和第二表之間進(jìn) 行域匹配的裝置的框圖;
[0026] 圖13是示意性地示出根據(jù)本發(fā)明的另一實(shí)實(shí)施例的用于在第一表和第二表之間 進(jìn)行域匹配的裝置中所包括的剩余域?qū)Λ@得單元的示例框圖;
[0027] 圖14示出了可以用于實(shí)施本發(fā)明的用于在第一表和第二表之間進(jìn)行域匹配的方 法和裝置的計(jì)算設(shè)備的舉例的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0028] 下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描 述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng) 當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知 的部件和處理的表示和描述。
[0029] 圖1是示意性地示出根據(jù)本發(fā)明的實(shí)施例的用于在第一表和第二表之間進(jìn)行域 匹配的方法的流程圖。以下參照?qǐng)D1來描述根據(jù)本發(fā)明的實(shí)施例的用于在第一表和第二表 之間進(jìn)行域匹配的方法。
[0030] 在圖1中的步驟S101,基于第一表和第二表的域統(tǒng)計(jì)信息,確定第一表的候選關(guān) 鍵域和第二表的候選關(guān)鍵域。候選關(guān)鍵域可以是域值不重復(fù)、域值不為無效或空值并且域 值類型一致的域。
[0031] 在每個(gè)表中,總有幾個(gè)關(guān)鍵域。例如在一個(gè)記錄個(gè)人信息的表中,關(guān)鍵域可能是 "身份證號(hào)"或是"姓名"等。在某些情況下,兩個(gè)或三個(gè)域可以聯(lián)合起來作為關(guān)鍵域。對(duì)于 表中的每條記錄,關(guān)鍵域的域值都是唯一的、不重復(fù)的。注意,這里所說的關(guān)鍵域與數(shù)據(jù)庫(kù) 中的表的主鍵不完全一致。因?yàn)樵跀?shù)據(jù)庫(kù)的表中,主鍵一般都是"id"號(hào),它的取值是自動(dòng) 增長(zhǎng)的,并且一般不代表實(shí)際意義,所以本發(fā)明在確定關(guān)鍵域時(shí)通常忽略表的主鍵。
[0032] 域統(tǒng)計(jì)信息可以包括:(1)域的取值沒有重復(fù)數(shù)據(jù);(2)域的取值不包含無效 (null)或空值;(3)域的取值的數(shù)值類型一致。域統(tǒng)計(jì)信息包括第(3)項(xiàng)"域的取值的數(shù) 值類型一致"是因?yàn)?,在Excel表的某些列中,有可能用來取代數(shù)值類型,從而這樣的域 不適合作為關(guān)鍵域。
[0033] 在圖1中的步驟S102,分別計(jì)算第一表的每個(gè)候選關(guān)鍵域與第二表的每個(gè)候選關(guān) 鍵域的相似度(即,協(xié)同相似度),以獲得匹配的一個(gè)或多個(gè)關(guān)鍵域?qū)Α?br>[0034] 可以根據(jù)候選關(guān)鍵域的名稱相似度、類型相似度以及取值相似度,計(jì)算第一表的 每個(gè)候選關(guān)鍵域與第二表的每個(gè)候選關(guān)鍵域的相似度??梢酝ㄟ^下面的公式1來計(jì)算兩個(gè) 候選關(guān)鍵域之間的相似度:
[0035] sim(cpl, cp2) = al*名稱相似度+bl*類型相似度+(l-al_bl)*取值相似度 (公式1)
[0036] 其中,cpl是利用域統(tǒng)計(jì)信息過濾后的第一表的候選關(guān)鍵域集合中的某個(gè)候選 關(guān)鍵域,cp2是利用域統(tǒng)計(jì)信息過濾后的第二表的候選關(guān)鍵域集合中的某個(gè)候選關(guān)鍵域, sim(cpl,cp2)表不cpl和cp2之間的相似度;al和bl為系數(shù),系數(shù)al、bl和(1-al-bl)分 別與名稱相似度、類型相似度及取值相似度相乘之后取和就得到了候選關(guān)鍵域cpl和cp2 之間的相似度。
[0037] 兩個(gè)候選關(guān)鍵域的名稱相似度可以通過編輯距離來計(jì)算,編輯距離算法可以參考 http://en. wikipedia. org/wiki/Levenshtein_distance〇
[0038] 兩個(gè)候選關(guān)鍵域的類型如果相同則它們的類型相似度為1,兩候選關(guān)鍵域的類型 如果不相同則它們的類型相似度為〇。
[0039] 針對(duì)第一表的一個(gè)候選關(guān)鍵域與第二表的一個(gè)候選關(guān)鍵域,可以通過圖2中的方 法來計(jì)算取值相似度。
[0040] 在步驟S201,獲取第一域值集合cvl和第二域值集合cv2,第一域值集合cvl是第 一表的一個(gè)候選關(guān)鍵域的域值的集合,第二域值集合cv2是第二表的一個(gè)候選關(guān)鍵域的域 值的集合。
[0041] 在步驟S202,分別計(jì)算第一域值集合cvl和第二域值集合cv2的交集和并集。
[0042] 在步驟S203,通過將交集中的域值的個(gè)數(shù)除以并集中的域值的個(gè)數(shù),計(jì)算取值相 似度。
[0043] 該方法可以通過下面的公式2來表示:
[0044]
[0045] 其中,sim(cvl,cv2)表示第一域值集合cvl和第二域值集合cv2的取值相似度。
[0046] 如果通過上述方法計(jì)算出的兩個(gè)候選關(guān)鍵域cpl、cp2之間的相似度 sim(cpl,cp2)大于設(shè)定的閾值,則將兩個(gè)候選關(guān)鍵域進(jìn)行匹配。
[0047] 確定候
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
林西县| 思南县| 丹凤县| 江永县| 大悟县| 龙井市| 漠河县| 交口县| 阳山县| 高要市| 阿图什市| 五指山市| 淅川县| 扶风县| 盘锦市| 罗山县| 阳信县| 防城港市| 会理县| 台中市| 涟水县| 富宁县| 固始县| 米脂县| 宜昌市| 老河口市| 五华县| 巴塘县| 龙胜| 泰和县| 台江县| 桑植县| 乌拉特前旗| 巍山| 南皮县| 丘北县| 时尚| 舒兰市| 宾阳县| 南投市| 金山区|