一種基于局部敏感哈希策略的實(shí)例匹配方法
【專利說明】-種基于局部敏感哈希策略的實(shí)例匹配方法 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語義網(wǎng)的數(shù)據(jù)融合技術(shù)領(lǐng)域。 【【背景技術(shù)】】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來。該些數(shù)據(jù)一般都來自不同的領(lǐng)域, 例如公司、學(xué)校、政府、醫(yī)院等等。但是到目前為止,該些數(shù)據(jù)大多分散在各處,并沒有一個(gè) 統(tǒng)一的標(biāo)準(zhǔn)來組織該些數(shù)據(jù),而語義網(wǎng)的提出則為數(shù)據(jù)的集成應(yīng)用打開了新的通路。
[0003] 語義網(wǎng)(SemanticWeb),是由WorldWideWeb(W3C)組織發(fā)起的一個(gè)運(yùn)動(dòng),旨在 把當(dāng)前的面向文檔的網(wǎng)絡(luò)演變?yōu)槊嫦驍?shù)據(jù)的網(wǎng)絡(luò)(webofdata),該一概念最早是由互聯(lián) 網(wǎng)創(chuàng)始人TimBerners-Lee在1998年提出的,目標(biāo)是通過給萬維網(wǎng)上的文檔添加能夠被計(jì) 算機(jī)所理解的語義,使得整個(gè)互聯(lián)網(wǎng)成為一個(gè)通用的信息交換平臺(tái)。2001年Scientific American雜志出版了由TimBerners-Lee等的一篇文章,描繪了把現(xiàn)存互聯(lián)網(wǎng)轉(zhuǎn)化為語義 網(wǎng)的愿景。2006年,對(duì)語義網(wǎng)該一偉大設(shè)想的實(shí)現(xiàn)仍在探索中。2007年一個(gè)名為L(zhǎng)inking 化en化ta(LOD)的項(xiàng)目吸引了很多的注意力,它是W主語、謂語、賓語S元組的方式來組織 數(shù)據(jù),一個(gè)實(shí)例由多個(gè)=元組進(jìn)行描述,如《算法導(dǎo)論》該本書就是一個(gè)實(shí)例,關(guān)于它的描述 例如"《算法導(dǎo)論》屬于計(jì)算機(jī)類型"、"《算法導(dǎo)論》的價(jià)格是70元",該里《算法導(dǎo)論》是主 語,"屬于"和"價(jià)格"是謂語,"計(jì)算機(jī)類型"和"70元"是賓語。目前已經(jīng)有很多數(shù)據(jù)集開 始發(fā)布在它上面,其中一項(xiàng)重要的任務(wù)就是建立數(shù)據(jù)集之間的owl:sameAs連接。
[0004] 目前為止,已經(jīng)有許多的方法來解決該個(gè)問題。該些方案中大多數(shù)都關(guān)注于如何 準(zhǔn)確并全面的檢測(cè)出匹配的實(shí)例。但是用于實(shí)例匹配的算法很多不得不對(duì)每對(duì)實(shí)例都進(jìn)行 匹配,所W它并不適用于大數(shù)據(jù)集。一些成熟的系統(tǒng),例如Si化和LIMES,都通過使用用戶 提前定義好的匹配規(guī)則來實(shí)現(xiàn)目標(biāo),該不適用于對(duì)數(shù)據(jù)集不太熟悉的用戶。而另一些系統(tǒng), 例如化M0M2013和化INT+,試圖在沒有用戶參與的條件下實(shí)現(xiàn)目標(biāo),目前有兩種方法可W 在沒有用戶參與的情況下實(shí)現(xiàn)匹配:一種是通過半監(jiān)督學(xué)習(xí)的算法來迭代優(yōu)化匹配規(guī)則, 并根據(jù)規(guī)則找出置信度高的匹配對(duì);另一種是通過非監(jiān)督學(xué)習(xí)的算法來找到候選實(shí)例對(duì), W此來減少匹配的數(shù)量;該些算法在小規(guī)模數(shù)據(jù)集上表現(xiàn)較佳,但并不能擴(kuò)展到大規(guī)模數(shù) 據(jù)集。 【
【發(fā)明內(nèi)容】
】
[0005]本發(fā)明提出了一種基于局部敏感哈希策略的實(shí)例匹配方法,解決語義網(wǎng)中快速提 取兩個(gè)數(shù)據(jù)集間描述相同事物實(shí)例的難題。Linked化ta是語義網(wǎng)的一個(gè)具體實(shí)現(xiàn),WRDF =元組作為基礎(chǔ)數(shù)據(jù)模型。RDF=元組是由主語、謂語、賓語組成的描述事物特征的框架,數(shù) 據(jù)集中的實(shí)例由多個(gè)畑FS元組組成。Linked化ta中包括大量的數(shù)據(jù)集,而且任何人都能 在其上發(fā)布新的數(shù)據(jù)集,但新發(fā)布的數(shù)據(jù)集需要與現(xiàn)存數(shù)據(jù)集存在鏈接數(shù)據(jù),即把描述相 同事物的實(shí)例標(biāo)記出來。
[0006]本發(fā)明針對(duì)現(xiàn)有數(shù)據(jù)集規(guī)模較大、來源廣泛、語義異構(gòu)的特點(diǎn),設(shè)計(jì)了基于局部敏 感哈希策略的實(shí)例匹配方法,充分利用實(shí)例的謂語和賓語對(duì)該實(shí)例的辨別性,設(shè)計(jì)并實(shí)現(xiàn) 了基于局部敏感哈希策略進(jìn)行實(shí)例匹配的方法。
[0007] 本發(fā)明提供的基于局部敏感哈希策略的實(shí)例匹配方法詳細(xì)步驟包括:
[000引第1、根據(jù)謂語的覆蓋率和辨別率找到重要謂語
[0009] 重要的謂語一般具有兩個(gè)特征:一是該謂語應(yīng)該覆蓋大多數(shù)的實(shí)例;二是該謂語 的賓語應(yīng)該存儲(chǔ)了每個(gè)實(shí)例的特殊信息,從而能夠區(qū)分不同的實(shí)例。所W,我們使用覆蓋率 和辨別率作為指標(biāo)來評(píng)估謂語的重要性水平。
[0010] 第1. 1、謂語的覆蓋率
[0011] 謂語的覆蓋率是指謂語在整個(gè)數(shù)據(jù)集所有實(shí)例中出現(xiàn)的頻率,如90%的實(shí)例都有 一個(gè)謂語r壯s:l油el來表示實(shí)例的名字,那么r壯s:l油el該個(gè)謂語的覆蓋率就是90%。
[0012] 計(jì)算方法;
[0013] 計(jì)算謂語Pk覆蓋率Cov(Pk)的方法如公式(1)所示。符號(hào)<s,Pk,〇>代表畑F
[0014] S元組的主語、謂語和賓語。X,t和D分別代表實(shí)例、S元組和數(shù)據(jù)集。
[0015]
【主權(quán)項(xiàng)】
1. 一種基于局部敏感哈希策略的實(shí)例匹配方法,解決語義網(wǎng)中快速提取兩個(gè)數(shù)據(jù)集間 描述相同事物實(shí)例的難題;Linked Data是語義網(wǎng)的一個(gè)具體實(shí)現(xiàn),以RDF三元組作為基礎(chǔ) 數(shù)據(jù)模型;RDF三元組是由主語、謂語和賓語組成的描述事物特征的框架,數(shù)據(jù)集中的實(shí)例 由多個(gè)RDF三元組組成;Linked Data中包括大量的數(shù)據(jù)集,而且任何人都能在其上發(fā)布新 的數(shù)據(jù)集,但新發(fā)布的數(shù)據(jù)集需要與現(xiàn)存數(shù)據(jù)集存在鏈接數(shù)據(jù),即把描述相同事物的實(shí)例 標(biāo)記出來,該實(shí)例匹配方法能夠在用戶不了解數(shù)據(jù)集的情況下快速提取匹配的實(shí)例對(duì); 所述實(shí)例匹配方法詳細(xì)步驟如下: 第1、根據(jù)謂語的覆蓋率和辨別率找到重要謂語 第1. 1、計(jì)算謂語的覆蓋率;謂語覆蓋率是謂語在整個(gè)數(shù)據(jù)集所有實(shí)例中出現(xiàn)的頻率; 第1. 2、計(jì)算謂語的辨別率;謂語辨別率是從數(shù)據(jù)集中辨別出某一個(gè)實(shí)例的能力; 第1. 3、計(jì)算重要謂語;重要謂語是指數(shù)據(jù)集中謂語覆蓋率和謂語辨別率都大于各自 指定閾值的謂語; 第2、匹配不同數(shù)據(jù)集間的重要謂語得到候選謂語對(duì); 第2. 1、匯總同一數(shù)據(jù)類型的謂語;對(duì)第1. 3步得到的重要謂語進(jìn)行分類,謂語的類型 是由RDF賓語的類型決定,將謂語類型劃分為四種,包括string,URI,數(shù)值和日期,對(duì)同一 類型的謂語進(jìn)行匯總,兩兩組成一個(gè)謂語對(duì); 第2. 2、計(jì)算每個(gè)謂語對(duì)匹配的置信度;對(duì)第2. 1步中每一個(gè)類型的所有謂語對(duì)分別 計(jì)算其匹配的置信度,將謂語的所有賓語放在一個(gè)集合中,然后分別計(jì)算賓語間的Jaccard 距離,也就是謂語對(duì)匹配的置信度; 第2. 3、篩選候選謂語對(duì);通過閾值來篩選所有謂語對(duì),只有當(dāng)匹配對(duì)的置信度高于閾 值時(shí),該匹配對(duì)才能加入到候選謂語匹配對(duì)進(jìn)入接下來的步驟中; 第3、根據(jù)局部敏感哈希策略提取候選實(shí)例對(duì) 第3. 1、構(gòu)建實(shí)例的向量空間模型;對(duì)RDF三元組的賓語進(jìn)行分詞,以詞語ID作為特征 值,這些特征用向量的方式來表達(dá),將整個(gè)數(shù)據(jù)集轉(zhuǎn)化為一個(gè)實(shí)例ID對(duì)應(yīng)一個(gè)特征向量V 的向量空間模型; 第3. 2、局部敏感哈希處理;采用基于Jaccard距離的局部敏感哈希函數(shù)族,隨機(jī)產(chǎn)生 η個(gè)哈希函數(shù),對(duì)第3. 1步的每個(gè)實(shí)例ID計(jì)算得到其簽名向量,簽名向量匯總在一起,整個(gè) 數(shù)據(jù)集就轉(zhuǎn)化為一個(gè)最小哈希簽名矩陣,然后通過行條化處理得到候選實(shí)例對(duì); 第4、實(shí)例匹配 設(shè)置實(shí)例匹配相似度的閾值,利用謂語匹配的置信度采用加權(quán)平均的方式計(jì)算實(shí)例匹 配的相似度,大于相似度閾值的實(shí)例對(duì)即為最終的實(shí)例匹配結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于第1步所述的覆蓋率的計(jì)算方法如公式 (1)所示:
其中,D表示數(shù)據(jù)集,X表示數(shù)據(jù)集D中的實(shí)例,t表示一個(gè)RDF三元組,s表示三元組 中的主語、Pk表示三元組中的謂語、〇表示三元組中的賓語;該公式能夠計(jì)算出謂語pk在 整個(gè)數(shù)據(jù)集D所有實(shí)例中的出現(xiàn)頻率,即數(shù)據(jù)集中包含謂語pk的實(shí)例數(shù)量與數(shù)據(jù)集中所有 實(shí)例數(shù)量的比值。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于第1步所述的辨別率的計(jì)算方法如公式 (2) 所示:
該公式描述了謂語賓語的個(gè)數(shù)與三元組個(gè)數(shù)的比值,反映了謂語對(duì)應(yīng)賓語的多樣性;D 表示數(shù)據(jù)集,X表示數(shù)據(jù)集D中的實(shí)例,t表示一個(gè)RDF三元組,s表示三元組中的主語、pk 表示三元組中的謂語、〇表示三元組中的賓語;該公式能夠計(jì)算每個(gè)謂語Pk對(duì)實(shí)例的辨別 能力,即每個(gè)謂語包含所有賓語的種類與包含所有賓語的個(gè)數(shù)的比值。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于第1步所述的重要謂語的計(jì)算方法如公式 (3) 所示: {p I p e D, Cov (p) > a MDis (ρ) > β } (3) 其中α、β由人工指定,默認(rèn)將α設(shè)置為覆蓋率Cov (pk)的平均值,將β設(shè)置為辨別 率Dis(Pk)的平均值;如果一個(gè)謂語的頻率和辨別率分別大于給定的閾值α和β,那么這 個(gè)謂語就是重要的。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于第2步所述的謂語對(duì)匹配的置信度的計(jì)算 方法如公式(4)所示:
其中R表示對(duì)賓語的處理工作,對(duì)于日期、數(shù)值類型不做任何處理,采用原來的值;對(duì) 于string和URI進(jìn)行文本處理,包括文本分詞、停用詞過濾和詞干提取。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于第3步所述的基于Jaccard距離的局部敏 感哈希函數(shù)族如公式(5)所示: hP (A) = min {P (a) I a e A} (5) 其中P是a的一個(gè)投影變換,隨機(jī)選擇η個(gè)哈希函數(shù),即η種投影變換策略。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于第4步所述的實(shí)例匹配相似度計(jì)算方法如 公式(6)所示:
Ok= {〇 IX e Dk, <s, pk, 〇> e χ} 其中A表示源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集中的已經(jīng)匹配的重要謂語所組成的謂語對(duì), conf(ps,ρτ)表示謂語&與p 配的置信度,Ok表示謂語pk相關(guān)的所有賓語組成的集合, F (0S,Ot)表示計(jì)算ps與p τ相關(guān)賓語的相似度,對(duì)于string、URI i十算兩者文本處理后所包 含的詞語TF-IDF值的余弦相似度,對(duì)于數(shù)值和日期,先將數(shù)值精確到兩位小數(shù),日期取原 始值,然后直接對(duì)比它們是否相同,若相同則為1,若不同則為0。
【專利摘要】一種基于局部敏感哈希策略的實(shí)例匹配方法。解決語義網(wǎng)中快速提取兩個(gè)數(shù)據(jù)集間描述相同事物實(shí)例的難題,本發(fā)明提出了一種新穎的通過局部敏感哈希來進(jìn)行實(shí)例匹配的方法,該方法包括:重要的謂語選擇;匹配不同數(shù)據(jù)集間的重要謂語;根據(jù)匹配的謂語提取候選實(shí)例對(duì);提煉候選集得到實(shí)例匹配結(jié)果。
【IPC分類】G06F17-30, G06F17-27
【公開號(hào)】CN104866471
【申請(qǐng)?zhí)枴緾N201510307301
【發(fā)明人】張海威, 石彬, 解曉芳, 袁曉潔
【申請(qǐng)人】南開大學(xué)
【公開日】2015年8月26日
【申請(qǐng)日】2015年6月5日