欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于密度峰值的高效層次聚類方法

文檔序號:9866189閱讀:1334來源:國知局
一種基于密度峰值的高效層次聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,設(shè)及一種基于密度峰值的高效層次聚類方法。
【背景技術(shù)】
[0002] 現(xiàn)實世界中隨時隨地發(fā)生著數(shù)據(jù)采集和數(shù)據(jù)生成。理解運些數(shù)據(jù),掲示它們背后 的模式和趨勢是數(shù)據(jù)挖掘、機器學(xué)習(xí)和智能信息處理的主要任務(wù)。聚類是一種用于數(shù)據(jù)分 析和解釋的通用技術(shù)和算法框架,它依照對象之間的相似性把數(shù)據(jù)組織成"簇"(或者 。類')。
[0003] 根據(jù)聚類結(jié)果的結(jié)構(gòu)區(qū)分,聚類可W分為扁平聚類(又稱劃分聚類)和層次聚類。 扁平聚類得到的結(jié)果是一種對原數(shù)據(jù)集的劃分,它只有一個層次。扁平聚類概念簡單,運行 高效,但存在一定的不足。其一,有些時候,聚類返回的結(jié)果包含很多類(例如>20類),根據(jù) Miller的"7±2"準(zhǔn)則,人們其實不能將注意力很好地分配到9個W上的對象上,因此需要構(gòu) 建成層次結(jié)構(gòu),將相似性較大的幾個類進一步合并成一個上層的類從而形成高層的聚類結(jié) 果。其二,很多情況下,數(shù)據(jù)集中蘊含的概念本身就具有層次性,單一層次的扁平聚類就不 能反應(yīng)運一客觀實際。為此,針對上述情況,有必要將扁平聚類改造成為層次聚類,W便在 一次運行后,得到多層上的聚類結(jié)果。層次聚類比扁平聚類含有更豐富的信息。一般地,層 次聚類根據(jù)構(gòu)建層次的順序(或者方向),可W分為拆分層次聚類(自頂向下)和聚合層次聚 類(自底向上)。
[0004] 現(xiàn)有的層次聚類方法主要有兩點局限:一是某些算法對數(shù)據(jù)集形狀敏感,不能很 好的解決非球形數(shù)據(jù)的聚類問題;二是某些算法效率較低,除了獲得單層聚類,還需要花費 至少〇(m2)的代價來構(gòu)建多個聚類層次。而在當(dāng)前大數(shù)據(jù)的分析中,針對數(shù)據(jù)的多樣性 (variety)和高速性(velocity ),魯棒性和效率恰恰是數(shù)據(jù)分析需要重點考慮的指標(biāo)。
[0005] 2014年6月,Ro化iguez和Laio在《Science》雜志上發(fā)表了一種基于密度峰值的聚 類方法(W下簡稱其為DPClus ),它通過定義兩個參數(shù)"局部密度"和"到更高密度最近鄰的 距離"來挑選出中屯、點,然后再將其他所有點按照一個向量NNe i gh (順e i曲[i ] = j表示第i 個對象要劃分到與j相同的類中)的指示,在〇(n)的時間復(fù)雜度上把其余點指派到相應(yīng)的聚 類。DPClus具有思想簡單,效率高,準(zhǔn)確性高,對數(shù)據(jù)形狀魯棒等優(yōu)點。但是它有兩點不足: 一是它屬于扁平聚類,只返回一層聚類結(jié)果;二是它需要人工圈定中屯、點,運樣雖然可W融 入人類直覺,但是也帶來了不便,特別是當(dāng)很多數(shù)據(jù)子集需要迭代地調(diào)用DPClus的情況下, 交互式地選取中屯、顯然是不允許的;而且,人工選取中屯、點,甚至?xí)a(chǎn)生不合理的中屯、點選 取結(jié)果。

【發(fā)明內(nèi)容】

[0006] 有鑒于此,本發(fā)明的目的在于提供一種基于密度峰值的高效層次聚類方法,該方 法可W自動選取聚類中屯、,確定聚類層次數(shù),并計算各個聚類層次的置信度。
[0007] 為達到上述目的,本發(fā)明提供如下技術(shù)方案:
[0008] -種基于密度峰值的高效層次聚類方法,包括W下步驟:步驟一:自動選取全體中 屯、點并確定不同的層次上包含哪些中屯、;步驟二:根據(jù)各層次中屯、點,進行層次聚類,完成 全部層次聚類結(jié)果的表示和輸出,包括該層聚類的共識度指標(biāo)。
[0009] 進一步,步驟一中,通過計算機程序分析降序排列的丫參數(shù)曲線,模擬人工選取中 屯、點的行為,并定義一個共識度來刻畫哪些中屯、點可能誘導(dǎo)一個合理的聚類層次。
[0010]進一步,所述丫參數(shù)定義為:丫 i = PiXSi,l y卽,它刻畫了一個數(shù)據(jù)點能夠被選 為中屯、的可能性,其取值在區(qū)間[0,+w);
[0011] 用So;rtedGamma[N]存儲降序排列的丫參數(shù)值,So;rtedGammaInd[N]存儲與丫參數(shù) 值降序排列對應(yīng)的數(shù)據(jù)點的序號(或ID);從后往前觀察降序排列的γ參數(shù)曲線,整個數(shù)據(jù) 集中絕大多數(shù)非中屯、點的丫參數(shù)取值都很小,接近于零;然后到中屯、點的地方,丫參數(shù)值會 突然增大,并且在全體的中屯、點集合內(nèi),各個中屯、點的丫參數(shù)取值也會出現(xiàn)明顯的"臺階"; 用類似于從整體中區(qū)分出中屯、點的方法,用判斷增長比例的方式識別出中屯、點中的"臺 階",每個"臺階'就對應(yīng)了層次聚類中的一個層次。
[001 ^ 進一步,在步驟二中,基于密度峰值的聚類(DPClus)的中間結(jié)果順ei曲,可W構(gòu)建 一棵樹,該樹中每個節(jié)點(根節(jié)點除外)所屬的中屯、點與其父節(jié)點所屬的中屯、相同;每個非 根節(jié)點都由其父節(jié)點"引領(lǐng)"加入到父節(jié)點所屬的簇。
[0013] 本發(fā)明的有益效果在于:
[0014] 1)自動進行中屯、點的選取,不需人工干預(yù)。使得DPClus能夠被大規(guī)模迭代調(diào)用;
[0015] 2)可W識別出數(shù)據(jù)集中的多層聚類,并用"共識度"表示出不同聚類層次的差別, 克服了 DPClus只能返回劃分聚類的局限性;
[0016] 3)對每個給定的中屯、點集合,計算其聚類結(jié)果的時間復(fù)雜度為0(m),m為中屯、點的 個數(shù)。
[0017] 4)該聚類方法對于各種數(shù)據(jù)集形狀(球形和非球形)具有魯棒性。
【附圖說明】
[0018] 為了使本發(fā)明的目的、技術(shù)方案和有益效果更加清楚,本發(fā)明提供如下附圖進行 說明:
[0019] 圖1為本發(fā)明的流程示意圖;
[0020] 圖2為實施例中的城市位置及引領(lǐng)樹示意圖;
[0021 ]圖3為實施例中運用DPClus對城市按位置聚類圖;
[0022] 圖4為實施例中引領(lǐng)樹的存儲結(jié)構(gòu)圖。
【具體實施方式】
[0023] 下面將結(jié)合附圖,對本發(fā)明的優(yōu)選實施例進行詳細的描述。
[0024] 本發(fā)明提供了一種基于密度峰值的高效層次聚類方法,該方法通過對丫參數(shù)曲線 形狀的自動分析代替了人工直覺對中屯、點進行選取。當(dāng)數(shù)據(jù)集的聚類實質(zhì)上呈現(xiàn)層次特征 時,更可W進一步識別和構(gòu)建相應(yīng)的層次聚類結(jié)果,并且標(biāo)示出每一個層次與人工識別的 共識度。由于發(fā)現(xiàn)了 DPClus中間結(jié)果的樹形結(jié)構(gòu),使得對非中屯、點的指派過程轉(zhuǎn)化為將每 個中屯、點從其父節(jié)點斷開,用子樹表示聚類結(jié)果,從而大幅提高了聚類過程的效率。
[0025] 在本實施例中,基于密度峰值的聚類(DPClus)算法具體包括W下步驟,算法中的 標(biāo)記說明如下:
[0026]
[0027]第一步:計算P和Δ,產(chǎn)生一個決策圖,選擇"P和δ都格外大"的數(shù)據(jù)點,作為中屯、 點;其中,{化,化,...,Ρν}的計算可W使用截斷核函數(shù):
[002引
(1)
[0029] 山是截斷距離;或者是高斯核函數(shù):
[0030]
(2)
[0031] 第二步:根據(jù)中屯、點和NNei曲數(shù)組的指示,把其它點指派到相應(yīng)的簇。指派規(guī)則 為:第i個點所屬的簇和第m的簇一樣,也可W形象地比喻成^是^的領(lǐng)路人,帶領(lǐng)XI加入-x, 自己的簇。
[0032] 通過分析發(fā)現(xiàn),數(shù)組順ei曲作為DPClus的中間結(jié)果,其實表示了一個樹形結(jié)構(gòu)。在 運棵樹中,每個節(jié)點(根節(jié)點除外)都被它的父節(jié)點"引領(lǐng)"加入到父節(jié)點所屬的簇,可W稱 運棵樹為"引領(lǐng)樹"。運個結(jié)構(gòu)對于本發(fā)明所介紹層次聚類的高效性非常重要。
[0033] 圖1為本發(fā)明的流程示意圖,如圖所示,本發(fā)明所述的基于密度峰值的高效層次聚 類方法,包括W下步驟:步驟一:自動選取全體中屯、點并確定不同的層次上包含哪些中屯、; 步驟二:根據(jù)各層次中屯、點,進行層次聚類,完成全部層次聚類結(jié)果的表示和輸出,包括該 層聚類的共識度指標(biāo)。
[0034] 具體來說:
[0035] 1)選擇中屯、點和確定聚類層次:
[0036] 通過計算機程序分析降序排列的丫參數(shù)曲線,模擬人工選取中屯、點的行為,并定 義一個共識度來刻畫哪些中屯、點可能誘導(dǎo)一個合理的聚類層次。
[0037] 丫參數(shù)定義為:丫 1 =化Χδι,Ι^如,它刻畫了一個數(shù)據(jù)點能夠被選為中屯、的可 能性,其取值在區(qū)間[0,+w)。用SortedGamma[N]存儲降序排列的丫參數(shù)值, SodedGammaInd[N]存儲與丫參數(shù)值降序排列對應(yīng)的數(shù)據(jù)點的序號(或ID)。從后往前觀察 降序排列的γ參數(shù)曲線,可W看
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
罗定市| 巴东县| 乐亭县| 永靖县| 炉霍县| 阜阳市| 罗田县| 怀柔区| 沙坪坝区| 内乡县| 石渠县| 腾冲县| 教育| 广宗县| 淮南市| 凌源市| 昌图县| 麻江县| 兰考县| 荃湾区| 鱼台县| 平谷区| 绥芬河市| 卓尼县| 红桥区| 勃利县| 邵东县| 和田市| 镇宁| 竹溪县| 云南省| 军事| 嘉义市| 新田县| 鸡西市| 隆德县| 雅江县| 甘谷县| 瓦房店市| 利津县| 青海省|