一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法與流程

文檔序號(hào)：11582978閱讀：182來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及移動(dòng)設(shè)備，尤其涉及一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法。
背景技術(shù)：
：：聚類分析在空間數(shù)據(jù)挖掘中扮演重要的角色?？臻g聚類分析將空間數(shù)據(jù)按其聚集特性分成若干聚簇，使得位于同一聚簇的數(shù)據(jù)具有較大的相似性，而位于不同聚簇的數(shù)據(jù)具有較大的差異性。根據(jù)不同的指導(dǎo)思想，可將聚類算法分為基于劃分的聚類、基于層次的聚類、基于密度的聚類、基于網(wǎng)格的聚類以及基于特定模型的聚類。經(jīng)典劃分式算法k－means與其改進(jìn)算法k-medoids，k-means++，通過多次迭代來確定聚簇中心并將數(shù)據(jù)歸類.算法實(shí)現(xiàn)簡單，但對(duì)噪音敏感，對(duì)非球形的聚簇的處理效果較差。隨著數(shù)據(jù)規(guī)模的激增，傳統(tǒng)的聚類算法往往由于數(shù)據(jù)量過大而無法運(yùn)行，迫切需要高速、有效、高伸縮的海量數(shù)據(jù)聚類算法。面向計(jì)算機(jī)集群gfs，bigtable和mapreduce技術(shù)為海量數(shù)據(jù)的聚類分析提供了思路。作為上述技術(shù)的開源實(shí)現(xiàn)，hadoop并行計(jì)算框架在聚類分析領(lǐng)域被廣泛應(yīng)用。由于追求高吞吐量，基于hadoop-mapreduce框架的并行聚類算法需要多次讀寫磁盤以存取中間結(jié)果，導(dǎo)致算法i/o開銷較大，具有較高的延遲，無法用于實(shí)時(shí)聚類。技術(shù)實(shí)現(xiàn)要素：本發(fā)明為克服上述的不足之處，目的在于提供一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法，本方法針對(duì)快速挖掘大規(guī)?？臻g數(shù)據(jù)的聚集特性基，基于“rdd分區(qū)--區(qū)內(nèi)并行計(jì)算--合并局部結(jié)果”思想設(shè)計(jì)，首先根據(jù)數(shù)據(jù)在空間的分布情況，自動(dòng)劃分網(wǎng)格并分配數(shù)據(jù)，使得網(wǎng)格內(nèi)數(shù)據(jù)量相對(duì)均衡，達(dá)到平衡運(yùn)算節(jié)點(diǎn)負(fù)載的目的；接著，提出一種適用于并行計(jì)算的局部密度定義，并改進(jìn)聚類中心的計(jì)算方式，解決了原始算法需要通過繪制決策圖判斷聚類中心對(duì)象的缺陷；最后，通過網(wǎng)格內(nèi)及網(wǎng)格間聚簇合并等優(yōu)化策略，實(shí)現(xiàn)了大規(guī)?？臻g數(shù)據(jù)的快速聚類處理。本發(fā)明是通過以下技術(shù)方案達(dá)到上述目的：一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法，包括如下步驟：(1)基于數(shù)據(jù)在空間的分布情況，引入空間網(wǎng)格索引生成基于網(wǎng)格rdd分區(qū)：(1.1)利用二叉索引生成空間網(wǎng)格，結(jié)合自上向下策略逐層分割空間并構(gòu)建網(wǎng)格索引，直至生成的子網(wǎng)格邊界長度不大于給定的預(yù)值；(1.2)采用map-reduce思想，統(tǒng)計(jì)各層網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象的數(shù)目，廣播索引結(jié)構(gòu)并均分待聚類數(shù)據(jù)對(duì)象到各計(jì)算節(jié)點(diǎn)，歸并網(wǎng)格內(nèi)數(shù)據(jù)量信息，得到完整的網(wǎng)格索引結(jié)構(gòu)；(1.3)遍歷索引，查找數(shù)據(jù)量小于給定值的最大網(wǎng)格，根據(jù)查找結(jié)果生成基于網(wǎng)格編號(hào)的key-valuerdd，生成基于網(wǎng)格rdd分區(qū)：(2)進(jìn)行分區(qū)內(nèi)聚類計(jì)算：以改進(jìn)的局部密度定義為依據(jù)，在得到的各個(gè)分區(qū)上并行運(yùn)行cluster_dp算法確定聚簇中心，使得數(shù)據(jù)對(duì)象具有相同的局部密度；(3)通過網(wǎng)格內(nèi)及相鄰網(wǎng)格間的聚簇合并優(yōu)化策略進(jìn)行局部結(jié)果合并，完成聚類處理。作為優(yōu)選，所述空間網(wǎng)格的定義如下：將空間s劃分為若干個(gè)互不重疊的子區(qū)域，則每一區(qū)域?yàn)橐粋€(gè)空間網(wǎng)格，記為g；其中為網(wǎng)格邊界端點(diǎn)在第k維數(shù)軸上的投影。作為優(yōu)選，所述相鄰網(wǎng)格的定義如下：對(duì)于任意存在則稱網(wǎng)格g1和g2相鄰。作為優(yōu)選，所述(1.1)具體如下；利用二叉索引生成空間網(wǎng)格，其中，索引的每個(gè)節(jié)點(diǎn)記錄網(wǎng)格的基本信息與網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象數(shù)目，采取自上向下策略逐層分割空間并構(gòu)建網(wǎng)格索引，將空間二等分，存儲(chǔ)生成的子網(wǎng)格信息于網(wǎng)格索引，并訪問新生網(wǎng)格，將新生網(wǎng)格再次二等分并存儲(chǔ)，直至生成的子網(wǎng)格邊界長度不大于給定的預(yù)值。作為優(yōu)選，所述步驟(1.3)具體為：在得到完整索引結(jié)構(gòu)后，遍歷索引，查找數(shù)據(jù)量小于給定值的最大網(wǎng)格，找到后則停止繼續(xù)往下遍歷，得到空間劃分的結(jié)果.據(jù)此結(jié)果映射數(shù)據(jù)對(duì)象，生成基于網(wǎng)格編號(hào)的key-valuerdd，利用key-valuerdd的mappartitionwithindex函數(shù)接口，自動(dòng)生成基于網(wǎng)格rdd分區(qū)。作為優(yōu)選，所述改進(jìn)的局部密度的定義為：設(shè)ρ′i為數(shù)據(jù)對(duì)象pi的改進(jìn)局部密度，則有其中，以給定數(shù)據(jù)對(duì)象pi為中心，其半徑為dc內(nèi)的k維空間稱為pi的dc鄰域.對(duì)dc鄰域內(nèi)的數(shù)據(jù)對(duì)象pj，有dist(pi,pj)<dc。作為優(yōu)選，所述在運(yùn)行cluster_dp算法時(shí)，設(shè)計(jì)輔助函數(shù)γ自動(dòng)判定聚簇中心，具體如下：已知數(shù)據(jù)對(duì)象的局部密度為ρ′i，其最小高密度距離為δi，則設(shè)：其中，max(ρ)*max(δ)為網(wǎng)格內(nèi)最大局部密度與最小高密度值的乘積；ρi為局部密度，定義為pi的dc鄰域內(nèi)數(shù)據(jù)對(duì)象的數(shù)目稱為pi的局部密度，記為ρi，公式如下：其中，作為優(yōu)選，所述的最小高密度距離δi定義為：若pj是所有局部密度高于ρi的數(shù)據(jù)對(duì)象中距離pi最近對(duì)象，則稱nn(pi)＝pj為pi的最近高密度鄰居，稱δi＝dist(pi，pj)為pi的最小高密度距離，定義公式如下：作為優(yōu)選，所述步驟(3)具體為：通過計(jì)算兩個(gè)簇間的平均局部密度，將聚簇成員標(biāo)記為核心成員與光暈，其中核心成員為聚簇的中心部分，由高密度點(diǎn)組成，是穩(wěn)定的數(shù)據(jù)對(duì)象聚集；光暈對(duì)應(yīng)聚簇外圍部分，包含低密度數(shù)據(jù)點(diǎn)，是聚簇的非穩(wěn)定部分?jǐn)?shù)據(jù)的聚集；利用核心與光暈的概念，提出網(wǎng)格間聚簇的合并策略：若鄰接網(wǎng)格中靠近網(wǎng)格邊界的數(shù)據(jù)對(duì)象分布存在如下兩種情況，則需調(diào)整數(shù)據(jù)對(duì)象所屬聚簇：(a)相鄰網(wǎng)格中近邊界處存在聚簇核心對(duì)象，并且核心對(duì)象相互靠近，則合并兩個(gè)聚簇；(b)兩鄰接網(wǎng)格的邊界處存在光暈對(duì)象，則需重新評(píng)估光暈點(diǎn)所歸屬的聚簇。作為優(yōu)選，所述重新評(píng)估光暈點(diǎn)所歸屬的聚簇的方法為：在光暈對(duì)象所在網(wǎng)格的鄰接網(wǎng)格中查找密度高于光暈對(duì)象的數(shù)據(jù)對(duì)象，并計(jì)算滿足條件的數(shù)據(jù)對(duì)象到光暈點(diǎn)的距離：若計(jì)算得出的最小距離小于當(dāng)前光暈對(duì)象的最小高密度距離，則更新光暈點(diǎn)的最近高密度鄰居與最小高密度距離，并根據(jù)更新后的最近高密度鄰居將光暈對(duì)象分配到新的聚簇中。本發(fā)明的有益效果在于：本發(fā)明方法實(shí)現(xiàn)了大規(guī)?？臻g數(shù)據(jù)的快速聚類處理，克服了聚類中延遲的問題。附圖說明圖1是本發(fā)明方法的流程示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步描述，但本發(fā)明的保護(hù)范圍并不僅限于此：實(shí)施例：在本實(shí)施例中，設(shè)d＝{p1,p2,...,pn}為待聚類數(shù)據(jù)集，其所處k維空間區(qū)域s為d的計(jì)算空間。為k維空間中的數(shù)據(jù)對(duì)象(1≤i≤n)，為pi在第k維數(shù)軸上的投影。一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法產(chǎn)生聚類的主要步驟如圖1所示，本發(fā)明的實(shí)現(xiàn)基于如下基本概念：定義1(dc鄰域)：以給定數(shù)據(jù)對(duì)象pi為中心，其半徑為dc內(nèi)的k維空間稱為pi的dc鄰域.對(duì)dc鄰域內(nèi)的數(shù)據(jù)對(duì)象pj，有dist(pi,pj)<dc。定義2(局部密度pi)：pi的dc鄰域內(nèi)數(shù)據(jù)對(duì)象的數(shù)目稱為pi的局部密度，記為ρi.有：其中定義3(最小高密度距離δi)：若pj是所有局部密度高于ρi的數(shù)據(jù)對(duì)象中距離pi最近對(duì)象，則稱nn(pi)＝pj為pi的最近高密度鄰居.稱δi＝dist(pi，pj)為pi的最小高密度距離.有：定義4(空間網(wǎng)格)：將s劃分為若干互不重疊的子區(qū)域，則每一區(qū)域?yàn)橐豢臻g網(wǎng)格，記為g.其中為網(wǎng)格邊界端點(diǎn)在第k維數(shù)軸上的投影。定義5(相鄰網(wǎng)格)：對(duì)任意存在則稱網(wǎng)格g1和g2相鄰。在本實(shí)施例中，pclusterdp總體框架pclusterdp利用rdd存儲(chǔ)數(shù)據(jù)，基于“rdd分區(qū)－區(qū)內(nèi)并行計(jì)算－合并局部結(jié)果”思想設(shè)計(jì)，借助分割s實(shí)現(xiàn)rdd分區(qū)與并行。算法總體框架如下所示：input:d:asetofpointstobeclustereds:computingspaceofddc:auserinputradiusdistancemaxpointingrid:aparameterdeterminethemaxnumberofpointsinagridoutput:c:asetofclustersmethod:/*partitioningphase*/datasetrdddexecuteaspacepartitionalgorithmtosplitssintogridsgetagridsetgusingthesplitresultforeachpointindatasetrdddomapeachpointintocorrespondgbelongtogendforgenerateapartitionedpointsrddbasedonassignedpoints/*paraellcomputingphase*/mappartition:foreachpartitioninpartitionedpointsrdddoexecuteamodifiedcluster_dpalgorithmtogeneratelocalclustersetc’endmap/*mergeingphase*/executemergelocalclustersalgorithmonc’tobuildfinalclustereddatac映射數(shù)據(jù)對(duì)象到分割后的空間網(wǎng)格g，生成基于網(wǎng)格編號(hào)的key-valuerdd。利用mappartition接口，根據(jù)網(wǎng)格編號(hào)劃分rdd，分配同區(qū)的數(shù)據(jù)對(duì)象到相同計(jì)算節(jié)點(diǎn)。各節(jié)點(diǎn)獨(dú)立運(yùn)行密度聚類算法得到基于網(wǎng)格分區(qū)的局部簇。隨后，合并相鄰網(wǎng)格中局部簇，生成最終聚類結(jié)果。在本實(shí)施例中，pclusterdp算法引入空間網(wǎng)格索引，保證網(wǎng)格內(nèi)數(shù)據(jù)量相對(duì)均衡，利用二叉索引生成空間網(wǎng)格。索引的每個(gè)節(jié)點(diǎn)記錄網(wǎng)格的基本信息(grid)與網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象數(shù)目(count)，樹根節(jié)點(diǎn)存儲(chǔ)s與d。算法采取自上向下策略，逐層分割空間并構(gòu)建網(wǎng)格索引。將s二等分，存儲(chǔ)生成的子網(wǎng)格信息于網(wǎng)格索引。隨后訪問新生網(wǎng)格，將其再次二等分并存儲(chǔ)，直到生成的子網(wǎng)格邊界長度小于等于給定的預(yù)值。對(duì)固定不變的s，網(wǎng)格索引可保存并重復(fù)使用，節(jié)省構(gòu)建索引的時(shí)間，提高算法效率。得到各層網(wǎng)格的基本信息后，統(tǒng)計(jì)各層網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象的數(shù)目。統(tǒng)計(jì)算法采用map-reduce思想設(shè)計(jì)以提高運(yùn)算速度。廣播索引結(jié)構(gòu)并均分待聚類數(shù)據(jù)對(duì)象到各計(jì)算節(jié)點(diǎn)。各節(jié)點(diǎn)各自統(tǒng)計(jì)網(wǎng)格內(nèi)的數(shù)據(jù).然后歸并網(wǎng)格內(nèi)數(shù)據(jù)量信息。具體空間劃分算法如下：得到完整索引結(jié)構(gòu)后，遍歷索引，查找數(shù)據(jù)量小于給定值的最大網(wǎng)格，一旦找到則停止繼續(xù)往下遍歷，得到空間劃分的結(jié)果.據(jù)此結(jié)果映射數(shù)據(jù)對(duì)象，生成基于網(wǎng)格編號(hào)的key-valuerdd。利用key-valuerdd的mappartitionwithindex函數(shù)接口，自動(dòng)生成基于網(wǎng)格rdd分區(qū)。在本實(shí)施例中，為平衡運(yùn)算速度與計(jì)算結(jié)果精度，實(shí)現(xiàn)并行計(jì)算，定義如下改進(jìn)的局部密度計(jì)算方式。定義4(改進(jìn)的局部密度ρ′i)：設(shè)ρ′i為數(shù)據(jù)對(duì)象pi的改進(jìn)局部密度，有公式(3)在公式(1)的基礎(chǔ)上考慮了鄰域內(nèi)數(shù)據(jù)對(duì)象的緊湊程度。對(duì)于dc鄰域內(nèi)擁有相同鄰居數(shù)的數(shù)據(jù)對(duì)象，通過計(jì)算數(shù)據(jù)對(duì)象與其鄰居間的距離擴(kuò)大局部密度的差異?？梢哉J(rèn)為，在dc鄰域范圍內(nèi)的鄰居數(shù)相同情況下，與其鄰居之結(jié)合越緊密的數(shù)據(jù)對(duì)象擁有越大的局部密度。本發(fā)明提出的局部密度定義，具體地，將局部密度的計(jì)算限制在數(shù)據(jù)對(duì)象的領(lǐng)域之內(nèi)，計(jì)算局部密度時(shí)只考慮數(shù)據(jù)對(duì)象所在網(wǎng)格分區(qū)以及其鄰接網(wǎng)格分區(qū)的對(duì)象，避免遍歷整個(gè)數(shù)據(jù)集，降低計(jì)算節(jié)點(diǎn)的工作開銷。原始cluster_dp在確定聚簇中心時(shí)，需繪制決策圖，并通過人機(jī)交互進(jìn)行判斷。為擺脫算法對(duì)決策圖的依賴和人為干預(yù)，設(shè)計(jì)輔助函數(shù)γ自動(dòng)判定聚簇中心。已知數(shù)據(jù)對(duì)象的局部密度為ρ′i，其最小高密度距離為δi，則設(shè)：其中，max(ρ)*max(δ)為網(wǎng)格內(nèi)最大局部密度與最小高密度值的乘積。由于局部密度與最小高密度距離具有不同的尺度，因此借助網(wǎng)格內(nèi)局部密度與最小高密度距離的最大值進(jìn)行簡單歸一化操作。將γi限定在[0,1]后，將其降序排列，可以看出非聚簇中心對(duì)象γ趨近0，聚簇中心對(duì)象的γ值離散分布且遠(yuǎn)離原點(diǎn)。由此，可通過預(yù)設(shè)閥值確定聚簇的中心候選對(duì)象。預(yù)設(shè)值的選取依賴實(shí)際應(yīng)用環(huán)境，選擇γ>0.2的數(shù)據(jù)對(duì)象作為聚簇中心候選對(duì)象生成局部簇，可得到較為理想的聚類結(jié)果。得到聚簇中心候選對(duì)象后，即可確定聚簇的數(shù)目，進(jìn)而將網(wǎng)格內(nèi)數(shù)據(jù)歸類到對(duì)應(yīng)的局部簇中。分區(qū)間聚簇合并策略每個(gè)rdd分區(qū)對(duì)應(yīng)一空間網(wǎng)格，對(duì)于靠近網(wǎng)格邊界的數(shù)據(jù)對(duì)象，需要在相鄰網(wǎng)格之間再次評(píng)估其聚集特性，避免由于劃分rdd造成的歸類錯(cuò)誤.通過計(jì)算兩個(gè)簇間的平均局部密度，將聚簇成員標(biāo)記為核心成員(clustercore)與光暈(clus-terhalo)。其中，核心成員為聚簇的中心部分，由高密度點(diǎn)組成，是穩(wěn)定的數(shù)據(jù)對(duì)象聚集；而光暈對(duì)應(yīng)聚簇外圍，包含低密度數(shù)據(jù)點(diǎn)，是聚簇的非穩(wěn)定部分?jǐn)?shù)據(jù)的聚集。利用核心與光暈的概念，提出網(wǎng)格間聚簇的合并方法.如果鄰接網(wǎng)格中靠近網(wǎng)格邊界的數(shù)據(jù)對(duì)象分布存在如下情況，則需調(diào)整數(shù)據(jù)對(duì)象所屬聚簇。情況1，相鄰網(wǎng)格中近邊界處存在聚簇核心對(duì)象，并且核心對(duì)象相互靠近。由于網(wǎng)格的存在，將原本應(yīng)歸為同一聚簇的數(shù)據(jù)對(duì)象分配到了不同的聚簇中，此情況下合并兩個(gè)聚簇。情況2，兩鄰接網(wǎng)格的邊界處存在光暈對(duì)象，此時(shí)需重新評(píng)估光暈點(diǎn)所歸屬的聚簇。具體調(diào)整算法如下所示。在光暈對(duì)象所在網(wǎng)格的鄰接網(wǎng)格中查找密度高于光暈對(duì)象的數(shù)據(jù)對(duì)象，并計(jì)算滿足條件的數(shù)據(jù)對(duì)象到光暈點(diǎn)的距離。若計(jì)算得出的最小距離小于當(dāng)前光暈對(duì)象的最小高密度距離，則更新光暈點(diǎn)的最近高密度鄰居與最小高密度距離，并根據(jù)更新后的最近高密度鄰居將光暈對(duì)象分配到新的聚簇中。以上的所述乃是本發(fā)明的具體實(shí)施例及所運(yùn)用的技術(shù)原理，若依本發(fā)明的構(gòu)想所作的改變，其所產(chǎn)生的功能作用仍未超出說明書及附圖所涵蓋的精神時(shí)，仍應(yīng)屬本發(fā)明的保護(hù)范圍。當(dāng)前第1頁12當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：沈曄;周天和;李思劍;任培榮
技術(shù)所有人：杭州楊帆科技有限公司
我是此專利的發(fā)明人

上一篇：一種高活性、快滲速的粉末滲鋅劑的制造方法與工藝
上一篇：一種污泥資源化利用系統(tǒng)的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

海量數(shù)據(jù)分布存儲(chǔ)技術(shù)相關(guān)技術(shù)

人臉數(shù)據(jù)集相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法與流程