本發(fā)明涉及移動(dòng)設(shè)備,尤其涉及一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法。
背景技術(shù):
::聚類分析在空間數(shù)據(jù)挖掘中扮演重要的角色??臻g聚類分析將空間數(shù)據(jù)按其聚集特性分成若干聚簇,使得位于同一聚簇的數(shù)據(jù)具有較大的相似性,而位于不同聚簇的數(shù)據(jù)具有較大的差異性。根據(jù)不同的指導(dǎo)思想,可將聚類算法分為基于劃分的聚類、基于層次的聚類、基于密度的聚類、基于網(wǎng)格的聚類以及基于特定模型的聚類。經(jīng)典劃分式算法k-means與其改進(jìn)算法k-medoids,k-means++,通過多次迭代來確定聚簇中心并將數(shù)據(jù)歸類.算法實(shí)現(xiàn)簡單,但對(duì)噪音敏感,對(duì)非球形的聚簇的處理效果較差。隨著數(shù)據(jù)規(guī)模的激增,傳統(tǒng)的聚類算法往往由于數(shù)據(jù)量過大而無法運(yùn)行,迫切需要高速、有效、高伸縮的海量數(shù)據(jù)聚類算法。面向計(jì)算機(jī)集群gfs,bigtable和mapreduce技術(shù)為海量數(shù)據(jù)的聚類分析提供了思路。作為上述技術(shù)的開源實(shí)現(xiàn),hadoop并行計(jì)算框架在聚類分析領(lǐng)域被廣泛應(yīng)用。由于追求高吞吐量,基于hadoop-mapreduce框架的并行聚類算法需要多次讀寫磁盤以存取中間結(jié)果,導(dǎo)致算法i/o開銷較大,具有較高的延遲,無法用于實(shí)時(shí)聚類。技術(shù)實(shí)現(xiàn)要素:本發(fā)明為克服上述的不足之處,目的在于提供一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法,本方法針對(duì)快速挖掘大規(guī)??臻g數(shù)據(jù)的聚集特性基,基于“rdd分區(qū)--區(qū)內(nèi)并行計(jì)算--合并局部結(jié)果”思想設(shè)計(jì),首先根據(jù)數(shù)據(jù)在空間的分布情況,自動(dòng)劃分網(wǎng)格并分配數(shù)據(jù),使得網(wǎng)格內(nèi)數(shù)據(jù)量相對(duì)均衡,達(dá)到平衡運(yùn)算節(jié)點(diǎn)負(fù)載的目的;接著,提出一種適用于并行計(jì)算的局部密度定義,并改進(jìn)聚類中心的計(jì)算方式,解決了原始算法需要通過繪制決策圖判斷聚類中心對(duì)象的缺陷;最后,通過網(wǎng)格內(nèi)及網(wǎng)格間聚簇合并等優(yōu)化策略,實(shí)現(xiàn)了大規(guī)??臻g數(shù)據(jù)的快速聚類處理。本發(fā)明是通過以下技術(shù)方案達(dá)到上述目的:一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法,包括如下步驟:(1)基于數(shù)據(jù)在空間的分布情況,引入空間網(wǎng)格索引生成基于網(wǎng)格rdd分區(qū):(1.1)利用二叉索引生成空間網(wǎng)格,結(jié)合自上向下策略逐層分割空間并構(gòu)建網(wǎng)格索引,直至生成的子網(wǎng)格邊界長度不大于給定的預(yù)值;(1.2)采用map-reduce思想,統(tǒng)計(jì)各層網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象的數(shù)目,廣播索引結(jié)構(gòu)并均分待聚類數(shù)據(jù)對(duì)象到各計(jì)算節(jié)點(diǎn),歸并網(wǎng)格內(nèi)數(shù)據(jù)量信息,得到完整的網(wǎng)格索引結(jié)構(gòu);(1.3)遍歷索引,查找數(shù)據(jù)量小于給定值的最大網(wǎng)格,根據(jù)查找結(jié)果生成基于網(wǎng)格編號(hào)的key-valuerdd,生成基于網(wǎng)格rdd分區(qū):(2)進(jìn)行分區(qū)內(nèi)聚類計(jì)算:以改進(jìn)的局部密度定義為依據(jù),在得到的各個(gè)分區(qū)上并行運(yùn)行cluster_dp算法確定聚簇中心,使得數(shù)據(jù)對(duì)象具有相同的局部密度;(3)通過網(wǎng)格內(nèi)及相鄰網(wǎng)格間的聚簇合并優(yōu)化策略進(jìn)行局部結(jié)果合并,完成聚類處理。作為優(yōu)選,所述空間網(wǎng)格的定義如下:將空間s劃分為若干個(gè)互不重疊的子區(qū)域,則每一區(qū)域?yàn)橐粋€(gè)空間網(wǎng)格,記為g;其中為網(wǎng)格邊界端點(diǎn)在第k維數(shù)軸上的投影。作為優(yōu)選,所述相鄰網(wǎng)格的定義如下:對(duì)于任意存在則稱網(wǎng)格g1和g2相鄰。作為優(yōu)選,所述(1.1)具體如下;利用二叉索引生成空間網(wǎng)格,其中,索引的每個(gè)節(jié)點(diǎn)記錄網(wǎng)格的基本信息與網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象數(shù)目,采取自上向下策略逐層分割空間并構(gòu)建網(wǎng)格索引,將空間二等分,存儲(chǔ)生成的子網(wǎng)格信息于網(wǎng)格索引,并訪問新生網(wǎng)格,將新生網(wǎng)格再次二等分并存儲(chǔ),直至生成的子網(wǎng)格邊界長度不大于給定的預(yù)值。作為優(yōu)選,所述步驟(1.3)具體為:在得到完整索引結(jié)構(gòu)后,遍歷索引,查找數(shù)據(jù)量小于給定值的最大網(wǎng)格,找到后則停止繼續(xù)往下遍歷,得到空間劃分的結(jié)果.據(jù)此結(jié)果映射數(shù)據(jù)對(duì)象,生成基于網(wǎng)格編號(hào)的key-valuerdd,利用key-valuerdd的mappartitionwithindex函數(shù)接口,自動(dòng)生成基于網(wǎng)格rdd分區(qū)。作為優(yōu)選,所述改進(jìn)的局部密度的定義為:設(shè)ρ′i為數(shù)據(jù)對(duì)象pi的改進(jìn)局部密度,則有其中,以給定數(shù)據(jù)對(duì)象pi為中心,其半徑為dc內(nèi)的k維空間稱為pi的dc鄰域.對(duì)dc鄰域內(nèi)的數(shù)據(jù)對(duì)象pj,有dist(pi,pj)<dc。作為優(yōu)選,所述在運(yùn)行cluster_dp算法時(shí),設(shè)計(jì)輔助函數(shù)γ自動(dòng)判定聚簇中心,具體如下:已知數(shù)據(jù)對(duì)象的局部密度為ρ′i,其最小高密度距離為δi,則設(shè):其中,max(ρ)*max(δ)為網(wǎng)格內(nèi)最大局部密度與最小高密度值的乘積;ρi為局部密度,定義為pi的dc鄰域內(nèi)數(shù)據(jù)對(duì)象的數(shù)目稱為pi的局部密度,記為ρi,公式如下:其中,作為優(yōu)選,所述的最小高密度距離δi定義為:若pj是所有局部密度高于ρi的數(shù)據(jù)對(duì)象中距離pi最近對(duì)象,則稱nn(pi)=pj為pi的最近高密度鄰居,稱δi=dist(pi,pj)為pi的最小高密度距離,定義公式如下:作為優(yōu)選,所述步驟(3)具體為:通過計(jì)算兩個(gè)簇間的平均局部密度,將聚簇成員標(biāo)記為核心成員與光暈,其中核心成員為聚簇的中心部分,由高密度點(diǎn)組成,是穩(wěn)定的數(shù)據(jù)對(duì)象聚集;光暈對(duì)應(yīng)聚簇外圍部分,包含低密度數(shù)據(jù)點(diǎn),是聚簇的非穩(wěn)定部分?jǐn)?shù)據(jù)的聚集;利用核心與光暈的概念,提出網(wǎng)格間聚簇的合并策略:若鄰接網(wǎng)格中靠近網(wǎng)格邊界的數(shù)據(jù)對(duì)象分布存在如下兩種情況,則需調(diào)整數(shù)據(jù)對(duì)象所屬聚簇:(a)相鄰網(wǎng)格中近邊界處存在聚簇核心對(duì)象,并且核心對(duì)象相互靠近,則合并兩個(gè)聚簇;(b)兩鄰接網(wǎng)格的邊界處存在光暈對(duì)象,則需重新評(píng)估光暈點(diǎn)所歸屬的聚簇。作為優(yōu)選,所述重新評(píng)估光暈點(diǎn)所歸屬的聚簇的方法為:在光暈對(duì)象所在網(wǎng)格的鄰接網(wǎng)格中查找密度高于光暈對(duì)象的數(shù)據(jù)對(duì)象,并計(jì)算滿足條件的數(shù)據(jù)對(duì)象到光暈點(diǎn)的距離:若計(jì)算得出的最小距離小于當(dāng)前光暈對(duì)象的最小高密度距離,則更新光暈點(diǎn)的最近高密度鄰居與最小高密度距離,并根據(jù)更新后的最近高密度鄰居將光暈對(duì)象分配到新的聚簇中。本發(fā)明的有益效果在于:本發(fā)明方法實(shí)現(xiàn)了大規(guī)??臻g數(shù)據(jù)的快速聚類處理,克服了聚類中延遲的問題。附圖說明圖1是本發(fā)明方法的流程示意圖。具體實(shí)施方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步描述,但本發(fā)明的保護(hù)范圍并不僅限于此:實(shí)施例:在本實(shí)施例中,設(shè)d={p1,p2,...,pn}為待聚類數(shù)據(jù)集,其所處k維空間區(qū)域s為d的計(jì)算空間。為k維空間中的數(shù)據(jù)對(duì)象(1≤i≤n),為pi在第k維數(shù)軸上的投影。一種基于彈性分布數(shù)據(jù)集的海量空間數(shù)據(jù)密度聚類方法產(chǎn)生聚類的主要步驟如圖1所示,本發(fā)明的實(shí)現(xiàn)基于如下基本概念:定義1(dc鄰域):以給定數(shù)據(jù)對(duì)象pi為中心,其半徑為dc內(nèi)的k維空間稱為pi的dc鄰域.對(duì)dc鄰域內(nèi)的數(shù)據(jù)對(duì)象pj,有dist(pi,pj)<dc。定義2(局部密度pi):pi的dc鄰域內(nèi)數(shù)據(jù)對(duì)象的數(shù)目稱為pi的局部密度,記為ρi.有:其中定義3(最小高密度距離δi):若pj是所有局部密度高于ρi的數(shù)據(jù)對(duì)象中距離pi最近對(duì)象,則稱nn(pi)=pj為pi的最近高密度鄰居.稱δi=dist(pi,pj)為pi的最小高密度距離.有:定義4(空間網(wǎng)格):將s劃分為若干互不重疊的子區(qū)域,則每一區(qū)域?yàn)橐豢臻g網(wǎng)格,記為g.其中為網(wǎng)格邊界端點(diǎn)在第k維數(shù)軸上的投影。定義5(相鄰網(wǎng)格):對(duì)任意存在則稱網(wǎng)格g1和g2相鄰。在本實(shí)施例中,pclusterdp總體框架pclusterdp利用rdd存儲(chǔ)數(shù)據(jù),基于“rdd分區(qū)-區(qū)內(nèi)并行計(jì)算-合并局部結(jié)果”思想設(shè)計(jì),借助分割s實(shí)現(xiàn)rdd分區(qū)與并行。算法總體框架如下所示:input:d:asetofpointstobeclustereds:computingspaceofddc:auserinputradiusdistancemaxpointingrid:aparameterdeterminethemaxnumberofpointsinagridoutput:c:asetofclustersmethod:/*partitioningphase*/datasetrdddexecuteaspacepartitionalgorithmtosplitssintogridsgetagridsetgusingthesplitresultforeachpointindatasetrdddomapeachpointintocorrespondgbelongtogendforgenerateapartitionedpointsrddbasedonassignedpoints/*paraellcomputingphase*/mappartition:foreachpartitioninpartitionedpointsrdddoexecuteamodifiedcluster_dpalgorithmtogeneratelocalclustersetc’endmap/*mergeingphase*/executemergelocalclustersalgorithmonc’tobuildfinalclustereddatac映射數(shù)據(jù)對(duì)象到分割后的空間網(wǎng)格g,生成基于網(wǎng)格編號(hào)的key-valuerdd。利用mappartition接口,根據(jù)網(wǎng)格編號(hào)劃分rdd,分配同區(qū)的數(shù)據(jù)對(duì)象到相同計(jì)算節(jié)點(diǎn)。各節(jié)點(diǎn)獨(dú)立運(yùn)行密度聚類算法得到基于網(wǎng)格分區(qū)的局部簇。隨后,合并相鄰網(wǎng)格中局部簇,生成最終聚類結(jié)果。在本實(shí)施例中,pclusterdp算法引入空間網(wǎng)格索引,保證網(wǎng)格內(nèi)數(shù)據(jù)量相對(duì)均衡,利用二叉索引生成空間網(wǎng)格。索引的每個(gè)節(jié)點(diǎn)記錄網(wǎng)格的基本信息(grid)與網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象數(shù)目(count),樹根節(jié)點(diǎn)存儲(chǔ)s與d。算法采取自上向下策略,逐層分割空間并構(gòu)建網(wǎng)格索引。將s二等分,存儲(chǔ)生成的子網(wǎng)格信息于網(wǎng)格索引。隨后訪問新生網(wǎng)格,將其再次二等分并存儲(chǔ),直到生成的子網(wǎng)格邊界長度小于等于給定的預(yù)值。對(duì)固定不變的s,網(wǎng)格索引可保存并重復(fù)使用,節(jié)省構(gòu)建索引的時(shí)間,提高算法效率。得到各層網(wǎng)格的基本信息后,統(tǒng)計(jì)各層網(wǎng)格內(nèi)數(shù)據(jù)對(duì)象的數(shù)目。統(tǒng)計(jì)算法采用map-reduce思想設(shè)計(jì)以提高運(yùn)算速度。廣播索引結(jié)構(gòu)并均分待聚類數(shù)據(jù)對(duì)象到各計(jì)算節(jié)點(diǎn)。各節(jié)點(diǎn)各自統(tǒng)計(jì)網(wǎng)格內(nèi)的數(shù)據(jù).然后歸并網(wǎng)格內(nèi)數(shù)據(jù)量信息。具體空間劃分算法如下:得到完整索引結(jié)構(gòu)后,遍歷索引,查找數(shù)據(jù)量小于給定值的最大網(wǎng)格,一旦找到則停止繼續(xù)往下遍歷,得到空間劃分的結(jié)果.據(jù)此結(jié)果映射數(shù)據(jù)對(duì)象,生成基于網(wǎng)格編號(hào)的key-valuerdd。利用key-valuerdd的mappartitionwithindex函數(shù)接口,自動(dòng)生成基于網(wǎng)格rdd分區(qū)。在本實(shí)施例中,為平衡運(yùn)算速度與計(jì)算結(jié)果精度,實(shí)現(xiàn)并行計(jì)算,定義如下改進(jìn)的局部密度計(jì)算方式。定義4(改進(jìn)的局部密度ρ′i):設(shè)ρ′i為數(shù)據(jù)對(duì)象pi的改進(jìn)局部密度,有公式(3)在公式(1)的基礎(chǔ)上考慮了鄰域內(nèi)數(shù)據(jù)對(duì)象的緊湊程度。對(duì)于dc鄰域內(nèi)擁有相同鄰居數(shù)的數(shù)據(jù)對(duì)象,通過計(jì)算數(shù)據(jù)對(duì)象與其鄰居間的距離擴(kuò)大局部密度的差異??梢哉J(rèn)為,在dc鄰域范圍內(nèi)的鄰居數(shù)相同情況下,與其鄰居之結(jié)合越緊密的數(shù)據(jù)對(duì)象擁有越大的局部密度。本發(fā)明提出的局部密度定義,具體地,將局部密度的計(jì)算限制在數(shù)據(jù)對(duì)象的領(lǐng)域之內(nèi),計(jì)算局部密度時(shí)只考慮數(shù)據(jù)對(duì)象所在網(wǎng)格分區(qū)以及其鄰接網(wǎng)格分區(qū)的對(duì)象,避免遍歷整個(gè)數(shù)據(jù)集,降低計(jì)算節(jié)點(diǎn)的工作開銷。原始cluster_dp在確定聚簇中心時(shí),需繪制決策圖,并通過人機(jī)交互進(jìn)行判斷。為擺脫算法對(duì)決策圖的依賴和人為干預(yù),設(shè)計(jì)輔助函數(shù)γ自動(dòng)判定聚簇中心。已知數(shù)據(jù)對(duì)象的局部密度為ρ′i,其最小高密度距離為δi,則設(shè):其中,max(ρ)*max(δ)為網(wǎng)格內(nèi)最大局部密度與最小高密度值的乘積。由于局部密度與最小高密度距離具有不同的尺度,因此借助網(wǎng)格內(nèi)局部密度與最小高密度距離的最大值進(jìn)行簡單歸一化操作。將γi限定在[0,1]后,將其降序排列,可以看出非聚簇中心對(duì)象γ趨近0,聚簇中心對(duì)象的γ值離散分布且遠(yuǎn)離原點(diǎn)。由此,可通過預(yù)設(shè)閥值確定聚簇的中心候選對(duì)象。預(yù)設(shè)值的選取依賴實(shí)際應(yīng)用環(huán)境,選擇γ>0.2的數(shù)據(jù)對(duì)象作為聚簇中心候選對(duì)象生成局部簇,可得到較為理想的聚類結(jié)果。得到聚簇中心候選對(duì)象后,即可確定聚簇的數(shù)目,進(jìn)而將網(wǎng)格內(nèi)數(shù)據(jù)歸類到對(duì)應(yīng)的局部簇中。分區(qū)間聚簇合并策略每個(gè)rdd分區(qū)對(duì)應(yīng)一空間網(wǎng)格,對(duì)于靠近網(wǎng)格邊界的數(shù)據(jù)對(duì)象,需要在相鄰網(wǎng)格之間再次評(píng)估其聚集特性,避免由于劃分rdd造成的歸類錯(cuò)誤.通過計(jì)算兩個(gè)簇間的平均局部密度,將聚簇成員標(biāo)記為核心成員(clustercore)與光暈(clus-terhalo)。其中,核心成員為聚簇的中心部分,由高密度點(diǎn)組成,是穩(wěn)定的數(shù)據(jù)對(duì)象聚集;而光暈對(duì)應(yīng)聚簇外圍,包含低密度數(shù)據(jù)點(diǎn),是聚簇的非穩(wěn)定部分?jǐn)?shù)據(jù)的聚集。利用核心與光暈的概念,提出網(wǎng)格間聚簇的合并方法.如果鄰接網(wǎng)格中靠近網(wǎng)格邊界的數(shù)據(jù)對(duì)象分布存在如下情況,則需調(diào)整數(shù)據(jù)對(duì)象所屬聚簇。情況1,相鄰網(wǎng)格中近邊界處存在聚簇核心對(duì)象,并且核心對(duì)象相互靠近。由于網(wǎng)格的存在,將原本應(yīng)歸為同一聚簇的數(shù)據(jù)對(duì)象分配到了不同的聚簇中,此情況下合并兩個(gè)聚簇。情況2,兩鄰接網(wǎng)格的邊界處存在光暈對(duì)象,此時(shí)需重新評(píng)估光暈點(diǎn)所歸屬的聚簇。具體調(diào)整算法如下所示。在光暈對(duì)象所在網(wǎng)格的鄰接網(wǎng)格中查找密度高于光暈對(duì)象的數(shù)據(jù)對(duì)象,并計(jì)算滿足條件的數(shù)據(jù)對(duì)象到光暈點(diǎn)的距離。若計(jì)算得出的最小距離小于當(dāng)前光暈對(duì)象的最小高密度距離,則更新光暈點(diǎn)的最近高密度鄰居與最小高密度距離,并根據(jù)更新后的最近高密度鄰居將光暈對(duì)象分配到新的聚簇中。以上的所述乃是本發(fā)明的具體實(shí)施例及所運(yùn)用的技術(shù)原理,若依本發(fā)明的構(gòu)想所作的改變,其所產(chǎn)生的功能作用仍未超出說明書及附圖所涵蓋的精神時(shí),仍應(yīng)屬本發(fā)明的保護(hù)范圍。當(dāng)前第1頁12當(dāng)前第1頁12