一種基于MapReduce的度量空間相似連接處理方法與流程

文檔序號(hào)：12465707閱讀：456來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)庫(kù)領(lǐng)域中度量空間下的連接處理技術(shù)，特別是涉及一種基于MapReduce的度量空間相似連接處理方法。

背景技術(shù)：

度量空間相似連接是指：在給定的度量空間中兩個(gè)數(shù)據(jù)集之間的笛卡爾積中找到所有相似性高于(或者距離小于)給定閾值的數(shù)據(jù)對(duì)。度量空間相似連接處理被廣泛地應(yīng)用在社會(huì)的各個(gè)領(lǐng)域中，其中包括重復(fù)數(shù)據(jù)檢測(cè)和刪除。

隨著以社交網(wǎng)絡(luò)、電子商務(wù)為代表的新型信息發(fā)布方式的不斷涌現(xiàn)，以及云計(jì)算、物聯(lián)網(wǎng)計(jì)算機(jī)技術(shù)的興起，數(shù)據(jù)正以前所未有的速度不斷地增長(zhǎng)和累積，隨之而來是以MapReduce為代表的各類大數(shù)據(jù)分布式系統(tǒng)蓬勃發(fā)展，大數(shù)據(jù)的時(shí)代已經(jīng)到來。在這樣一個(gè)大數(shù)據(jù)時(shí)代，傳統(tǒng)集中式的相似連接算法已經(jīng)漸漸滿足不了當(dāng)前快速地對(duì)海量數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)檢測(cè)和刪除的要求。因此，設(shè)計(jì)一個(gè)具有高可擴(kuò)展性、高效率的分布式相似連接處理方法成為了學(xué)術(shù)界與工業(yè)界的迫切需求。

針對(duì)基于MapReduce的度量空間相似連接處理方法，目前國(guó)內(nèi)外學(xué)者已經(jīng)做出了一些工作。其中，最具代表性的算法是基于球形劃分技術(shù)的MAPSS方法和基于二分超平面劃分技術(shù)的ClusterJoin方法。然而，這些方法主要有兩個(gè)缺陷：(1)這些方法隨機(jī)地選擇劃分的中心點(diǎn)，這可能導(dǎo)致數(shù)據(jù)劃分不均衡，需要對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的重劃分；(2)這些方法只關(guān)注數(shù)據(jù)劃分方案，而忽略了數(shù)據(jù)劃分完成后，對(duì)各劃分內(nèi)部數(shù)據(jù)之間進(jìn)行相似度計(jì)算時(shí)，設(shè)計(jì)剪枝策略以提高效率的方式。我們的方法很好地彌補(bǔ)了上述兩個(gè)缺陷，提升了相似連接處理的效率，高效地對(duì)重復(fù)數(shù)據(jù)進(jìn)行檢測(cè)和刪除。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于MapReduce的度量空間相似連接處理方法，該方法基于MapReduce分布式計(jì)算框架，先在Map階段對(duì)給定的數(shù)據(jù)集進(jìn)行劃分，而后在Reduce階段進(jìn)行相似性計(jì)算以得到重復(fù)數(shù)據(jù)結(jié)果，進(jìn)而進(jìn)行刪除。

為了達(dá)到上述目的，本發(fā)明所采用技術(shù)方案如下：一種基于MapReduce的度量空間相似連接處理方法，具體包括如下步驟：一種基于MapReduce的度量空間相似連接處理方法，該方法的步驟如下：

(1)對(duì)應(yīng)用中給定的度量空間數(shù)據(jù)集進(jìn)行隨機(jī)采樣，得到樣本數(shù)據(jù)；

(2)對(duì)得到的樣本數(shù)據(jù)進(jìn)行支樞點(diǎn)選擇；

(3)將應(yīng)用中給定的整個(gè)數(shù)據(jù)集(包括樣本數(shù)據(jù))從度量空間映射至向量空間；

(4)利用步驟(3)中得到的映射到向量空間的樣本數(shù)據(jù)構(gòu)建KD樹，得到相應(yīng)的空間劃分；

(5)在Map階段，根據(jù)步驟(4)中得到的空間劃分，對(duì)步驟(3)中得到的整個(gè)數(shù)據(jù)集進(jìn)行劃分；

(6)在Reduce階段對(duì)劃分后的數(shù)據(jù)進(jìn)行相似度計(jì)算，得到相似連接的處理結(jié)果。

進(jìn)一步的，所述步驟(2)具體為：

(2.1)在樣本數(shù)據(jù)中找出離群點(diǎn)作為支樞點(diǎn)的備選集合；

(2.2)根據(jù)支樞點(diǎn)的選擇目標(biāo)，對(duì)備選集合中的點(diǎn)進(jìn)行增量式的貪心選擇。

進(jìn)一步的，所述步驟(3)具體為：對(duì)于每一個(gè)在度量空間中的數(shù)據(jù)，計(jì)算與步驟(2)中得到的支樞點(diǎn)之間的距離，并以求得的距離作為向量空間中各維度的坐標(biāo)值，以得到度量空間數(shù)據(jù)在向量空間中的坐標(biāo)。

進(jìn)一步的，所述的步驟(4)具體為：對(duì)步驟(3)中得到的樣本數(shù)據(jù)，構(gòu)建KD樹，得到的KD樹中包含數(shù)據(jù)點(diǎn)個(gè)數(shù)相等的葉子節(jié)點(diǎn)，各葉子節(jié)點(diǎn)對(duì)應(yīng)的空間區(qū)域即為空間劃分的結(jié)果。

進(jìn)一步的，所述的步驟(5)在Map階段，將步驟(3)中得到的映射至向量空間后的整個(gè)數(shù)據(jù)集劃分至步驟(4)中得到的相應(yīng)空間劃分中去。

進(jìn)一步的，所述步驟(6)具體為：

(6.1)在Reduce階段，對(duì)于每個(gè)劃分，將各劃分內(nèi)部的數(shù)據(jù)在隨機(jī)選定的一個(gè)維度上，使用快速排序算法進(jìn)行排序整理；

(6.2)利用平面掃描法，對(duì)排序后的數(shù)據(jù)集進(jìn)行度量空間距離計(jì)算以驗(yàn)證結(jié)果，并結(jié)合區(qū)域過濾技術(shù)對(duì)距離計(jì)算進(jìn)行剪枝。

進(jìn)一步的，所述區(qū)域過濾技術(shù)是指：若兩個(gè)數(shù)據(jù)對(duì)象在向量空間任意維度上的差值大于給定的距離閾值，則它們不可能成為最終結(jié)果，從而可以不經(jīng)過度量空間距離計(jì)算就被剪掉。

本發(fā)明具有的有益效果是：本發(fā)明在MapReduce分布式計(jì)算框架下，充分利用了計(jì)算機(jī)數(shù)據(jù)庫(kù)領(lǐng)域中與度量空間相似連接處理相關(guān)的技術(shù)，在Map階段中保證結(jié)果正確的前提下，對(duì)數(shù)據(jù)集進(jìn)行了盡可能均勻的劃分，并在Reduce階段設(shè)計(jì)了有效的剪枝策略，進(jìn)行相似度計(jì)算；大大降低了CPU時(shí)間、網(wǎng)絡(luò)通信開銷和I/O開銷，提供了高效的相似連接處理性能，以實(shí)現(xiàn)快速地對(duì)海量數(shù)據(jù)進(jìn)行重復(fù)檢測(cè)和刪除。

附圖說明

圖1是本發(fā)明的實(shí)施步驟流程圖；

圖2為基于KD樹的空間劃分示意圖；

圖3為基于KD樹的數(shù)據(jù)劃分示意圖；

圖4為Reduce階段相似連接處理示意圖。

具體實(shí)施方式

現(xiàn)結(jié)合附圖和具體實(shí)施對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步說明：

如圖1所示，本發(fā)明具體實(shí)施過程和工作原理如下：

步驟(1)：對(duì)應(yīng)用中給定的度量空間數(shù)據(jù)集進(jìn)行隨機(jī)采樣，得到樣本數(shù)據(jù)。

步驟(2)：對(duì)得到的樣本數(shù)據(jù)進(jìn)行支樞點(diǎn)選擇；選出的支樞點(diǎn)要求保證數(shù)據(jù)在向量空間中相互之間的距離與其在原度量空間中的距離盡可能的接近，其選擇的具體步驟包括：

1)在樣本數(shù)據(jù)中找出離群點(diǎn)作為支樞點(diǎn)的備選集合；

2)根據(jù)樞紐點(diǎn)的選擇目標(biāo)，對(duì)備選集合中的點(diǎn)進(jìn)行增量式的貪心選擇。

步驟(3)：將應(yīng)用給定的整個(gè)數(shù)據(jù)集(包括樣本數(shù)據(jù))從度量空間映射至向量空間；向量空間映射的方式是對(duì)于每一個(gè)在度量空間中的數(shù)據(jù)，計(jì)算與步驟(2)中得到的支樞點(diǎn)之間的距離，并以求得的距離作為向量空間中各維度的坐標(biāo)值，得到度量空間數(shù)據(jù)在向量空間中的坐標(biāo)。

步驟(4)：利用步驟(3)中得到的樣本數(shù)據(jù)構(gòu)建KD樹，得到相應(yīng)的空間劃分；具體如下：對(duì)步驟(3)中得到的樣本數(shù)據(jù)建立KD樹，得到的KD樹中包含數(shù)據(jù)點(diǎn)個(gè)數(shù)相等的葉子節(jié)點(diǎn)，各葉子節(jié)點(diǎn)對(duì)應(yīng)的空間區(qū)域即為空間劃分的結(jié)果；下面以圖2為例對(duì)KD樹的構(gòu)建進(jìn)行說明，其中樣本數(shù)據(jù)為{q₂,o₃,q₄,o₄,o₅,q₅,o₇,q₈}：

1)在一個(gè)隨機(jī)選擇的維度上，圖2(a)中選到維度y，將所有的采樣數(shù)據(jù)進(jìn)行排序，進(jìn)而將樣本數(shù)據(jù)等分為A、B兩個(gè)節(jié)點(diǎn)，即A＝{q₂,o₃,q₄,o₄}和B＝{o₅,q₅,o₇,q₈}；

2)分別對(duì)A、B兩個(gè)節(jié)點(diǎn)進(jìn)行迭代劃分，最終得到圖2(b)所示的四個(gè)節(jié)點(diǎn)，即P₁＝{q₂,o₄},P₂＝{o₃,q₄},P₃＝{o₅,q₅}和P₄＝{o₇,q₈}；

3)最終得到各葉子節(jié)點(diǎn)對(duì)應(yīng)的空間劃分，即為圖2(b)中節(jié)點(diǎn)P₁、P₂、P₃和P₄對(duì)應(yīng)的包圍盒BB(P₁)、BB(P₂)、BB(P₃)和BB(P₄)。

步驟(5)：在Map階段，根據(jù)步驟(4)中得到的空間劃分，對(duì)步驟(3)中得到的整個(gè)數(shù)據(jù)集進(jìn)行劃分；具體如下：所述的步驟(5)在Map階段，將步驟(3)中得到的映射至向量空間后的整個(gè)數(shù)據(jù)集，劃分至相應(yīng)的步驟(4)中得到的空間劃分中去，以圖3為例，假定應(yīng)用給定的數(shù)據(jù)集為Q＝{q₁,q₂,…,q₈}、O＝{o₁,o₂,…,o₈}，具體劃分步驟如下：

1)如圖3(a)所示，將數(shù)據(jù)集Q劃分至對(duì)應(yīng)的劃分中，得到四個(gè)數(shù)據(jù)集Q的劃分P₁^Q＝{q₁,q₂},P₂^Q＝{q₃,q₄},P₃^Q＝{q₅}以及P₄^Q＝{q₆,q₇,q₈}；

2)如圖3(a)所示，在得到的劃分P_i^Q后，計(jì)算能將P_i^Q中所有數(shù)據(jù)對(duì)象包圍住的最小包圍盒MBB(P₁^Q)、MBB(P₂^Q)、MBB(P₃^Q)以及MBB(P₄^Q)；

3)計(jì)算各劃分P_i^Q的搜索范圍，劃分P_i^Q的搜索范圍為其對(duì)應(yīng)包圍盒范圍外擴(kuò)距離閾值大小對(duì)應(yīng)的區(qū)域，如圖3(b)所示，虛線所示區(qū)域即為MBB(P₂^Q)的搜索范圍SR(P₂^Q)；

4)根據(jù)得到的各個(gè)劃分的搜索范圍，將數(shù)據(jù)集O劃分至對(duì)應(yīng)劃分的搜索范圍中，如圖3(b)所示，數(shù)據(jù)集O劃分的結(jié)果為P₁^O＝{o₂},P₂^O＝{o₂,o₃,o₅,o₆},P₃^O＝{o₃,o₅}和P₄^O＝{o₃,o₆,o₇}。

步驟(6)：在Reduce階段對(duì)劃分后的數(shù)據(jù)進(jìn)行相似度計(jì)算，得到相似連接的處理結(jié)果；具體步驟包括：

1)在Reduce階段，對(duì)于每個(gè)劃分，各劃分內(nèi)部的數(shù)據(jù)在隨機(jī)選定的一個(gè)維度上，使用快速排序算法進(jìn)行排序整理，如圖4所示，對(duì)劃分P₂進(jìn)行處理時(shí)，選定了維度x對(duì)數(shù)據(jù)進(jìn)行排序；

2)利用平面掃描法，對(duì)排序后的數(shù)據(jù)集進(jìn)行度量空間距離計(jì)算以驗(yàn)證結(jié)果，并結(jié)合區(qū)域過濾技術(shù)對(duì)距離計(jì)算進(jìn)行剪枝；如圖4(a)所示，有一掃描平面從左掃描到右，現(xiàn)在掃描至數(shù)據(jù)對(duì)象q₂，需為現(xiàn)在處于掃描平面的q₂驗(yàn)證處于掃描平面右方距離閾值以內(nèi)的數(shù)據(jù)對(duì)象o₅,o₂和o₃；另外，根據(jù)區(qū)域過濾技術(shù)，如圖4(b)所示，o₅和o₃因?yàn)樘幱趒₂的搜索范圍SR(q₂)之外可以被剪去，最終只需要為q₂驗(yàn)證其與o₂的距離。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高云君;楊克宇;陳璐;陳剛;陳純
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：液體采集裝置及制作液體采集裝置的方法與流程
上一篇：用于熔融金屬的浸入裝置和方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

相似性度量相關(guān)技術(shù)

時(shí)間序列相似性度量相關(guān)技術(shù)

相似度度量相關(guān)技術(shù)

軌跡相似性度量相關(guān)技術(shù)

相似性度量方法相關(guān)技術(shù)

矩陣相似性度量相關(guān)技術(shù)

直方圖相似性度量相關(guān)技術(shù)

圖像相似性度量方法相關(guān)技術(shù)

圖像相似性度量相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于MapReduce的度量空間相似連接處理方法與流程