欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于MapReduce的度量空間相似連接處理方法與流程

文檔序號:12465707閱讀:來源:國知局

技術(shù)特征:

1.一種基于MapReduce的度量空間相似連接處理方法,其特征在于,該方法的步驟如下:

(1)對應(yīng)用中給定的度量空間數(shù)據(jù)集進(jìn)行隨機(jī)采樣,得到樣本數(shù)據(jù)。

(2)對得到的樣本數(shù)據(jù)進(jìn)行支樞點(diǎn)選擇。

(3)將應(yīng)用中給定的整個(gè)數(shù)據(jù)集(包括樣本數(shù)據(jù))從度量空間映射至向量空間。

(4)利用步驟(3)中得到的映射到向量空間的樣本數(shù)據(jù)構(gòu)建KD樹,得到相應(yīng)的空間劃分。

(5)在Map階段,根據(jù)步驟(4)中得到的空間劃分,對步驟(3)中得到的整個(gè)數(shù)據(jù)集進(jìn)行劃分。

(6)在Reduce階段對劃分后的數(shù)據(jù)進(jìn)行相似度計(jì)算,得到相似連接的處理結(jié)果。

2.根據(jù)權(quán)利要求1所述的基于MapReduce的度量空間相似連接處理方法,其特征在于:所述步驟(2)具體為:

(2.1)在樣本數(shù)據(jù)中找出離群點(diǎn)作為支樞點(diǎn)的備選集合;

(2.2)根據(jù)支樞點(diǎn)的選擇目標(biāo),對備選集合中的點(diǎn)進(jìn)行增量式的貪心選擇。

3.根據(jù)權(quán)利要求1所述的基于MapReduce的度量空間相似連接處理方法,其特征在于:所述步驟(3)具體為:對于每一個(gè)在度量空間中的數(shù)據(jù),計(jì)算與步驟(2)中得到的支樞點(diǎn)之間的距離,并以求得的距離作為向量空間中各維度的坐標(biāo)值,以得到度量空間數(shù)據(jù)在向量空間中的坐標(biāo)。

4.根據(jù)權(quán)利要求1所述的基于MapReduce的度量空間相似連接處理方法,其特征在于:所述的步驟(4)具體為:對步驟(3)中得到的樣本數(shù)據(jù),構(gòu)建KD樹,得到的KD樹中包含數(shù)據(jù)點(diǎn)個(gè)數(shù)相等的葉子節(jié)點(diǎn),各葉子節(jié)點(diǎn)對應(yīng)的空間區(qū)域即為空間劃分的結(jié)果。

5.根據(jù)權(quán)利要求1所述的基于MapReduce的度量空間相似連接處理方法,其特征在于:所述的步驟(5)在Map階段,將步驟(3)中得到的映射至向量空間后的整個(gè)數(shù)據(jù)集劃分至步驟(4)中得到的相應(yīng)空間劃分中去。

6.根據(jù)權(quán)利要求1所述的基于MapReduce的度量空間相似連接處理方法,其特征在于:所述步驟(6)具體為:

(6.1)在Reduce階段,對于每個(gè)劃分,將各劃分內(nèi)部的數(shù)據(jù)在隨機(jī)選定的一個(gè)維度上,使用快速排序算法進(jìn)行排序整理;

(6.2)利用平面掃描法,對排序后的數(shù)據(jù)集進(jìn)行度量空間距離計(jì)算以驗(yàn)證結(jié)果,并結(jié)合區(qū)域過濾技術(shù)對距離計(jì)算進(jìn)行剪枝。

7.根據(jù)權(quán)利要求6所述的基于MapReduce的度量空間相似連接處理方法,其特征在于:所述區(qū)域過濾技術(shù)是指:若兩個(gè)數(shù)據(jù)對象在向量空間任意維度上的差值大于給定的距離閾值,則它們不可能成為最終結(jié)果,從而可以不經(jīng)過度量空間距離計(jì)算就被剪掉。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
尉氏县| 铜山县| 逊克县| 运城市| 淅川县| 永和县| 绍兴市| 沅江市| 凤凰县| 台东县| 逊克县| 漳州市| 岑溪市| 海伦市| 韶山市| 哈密市| 长岛县| 周口市| 巴里| 阿克陶县| 宁阳县| 黎城县| 渑池县| 榆中县| 武冈市| 洛南县| 乌拉特后旗| 诸暨市| 宾阳县| 江阴市| 阳山县| 专栏| 宣城市| 海阳市| 集安市| 扎鲁特旗| 富民县| 西城区| 依兰县| 略阳县| 柞水县|