一種K-means聚類的初值選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及機器學(xué)習(xí)、模式分類、數(shù)據(jù)挖掘等分類領(lǐng)域,具體設(shè)及數(shù)據(jù)挖掘領(lǐng)域中 的劃分聚類方法。
【背景技術(shù)】
[0002] 聚類(clustering)是一種無監(jiān)督的數(shù)據(jù)分析方法,主要處理沒有先驗信息的數(shù) 據(jù),廣泛用于數(shù)據(jù)挖掘領(lǐng)域。
[0003] -般認為將物理或抽象的數(shù)據(jù)對象集合分成由相似的數(shù)據(jù)對象組成的多個分組 (group)或者簇(cluster)的過程被稱為聚類,參見圖1。圖1是具有4個自然簇的二維數(shù)據(jù), 每個顏色代表一個自然分組。
[0004] 由聚類所生成的分組或者簇是一組數(shù)據(jù)對象的集合,同一個分組或者簇中的數(shù)據(jù) 對象彼此相似,不同分組或者簇中的數(shù)據(jù)對象彼此相異。簇內(nèi)數(shù)據(jù)對象越相似,聚類效果越 好。
[0005] 目前發(fā)展起來的聚類方法有很多種,大抵可W分為層次聚類和劃分聚類兩種。其 中劃分聚類方法簡潔高效,伸縮性強,因而也備受青睞。K-means是劃分聚類中最典型的方 法,它在數(shù)據(jù)分析上的應(yīng)用也最為普遍。
[0006] K-means的基本原理如下:
[0007] 首先確定聚類結(jié)果需要的分組數(shù)量k;
[000引然后從規(guī)模為n(n£N)的獨立同分布數(shù)據(jù)集Χ={χ*}η*=ι隨機抽取k(2<k)個數(shù)據(jù) 對象作為聚類的初始中仙01產(chǎn)1=1,聚類中屯、對應(yīng)多維線性空間里的數(shù)據(jù)點。對于剩下的n-k個數(shù)據(jù)對象按照最小距離分類法將其一一分入與其最為相似的聚類中屯、所代表的簇中。 [0009 ]數(shù)據(jù)對象與均值中屯、的相似性是通過歐氏距離d度量:
[0010] d= I I yt-Oi I 12,(1-1)
[0011] 接下來根據(jù)η個數(shù)據(jù)對象的分組情況,可W計算出各個簇的均值中屯、(means)作為 新的聚類中屯、。通常新的中屯、會偏離初始中屯、的位置,表示聚類中屯、被更新。
[0012] 根據(jù)分類前的聚類中屯、和聚類后的聚類中屯、分別計算由重構(gòu)誤差EU)定義的目 標(biāo)函數(shù):
[0016] 通常,分類后目標(biāo)函數(shù)的值會減小,表明新的分組能使重構(gòu)誤差變小。
[0017] 按照新的聚類中屯、重新對數(shù)據(jù)對象進行分類,并對聚類中屯、進行更新。
[0018] 重新計算分類后的目標(biāo)函數(shù)值。
[0019] 如果目標(biāo)函數(shù)值不再改變,則停止迭代,否則重復(fù)上述過程。
[0020] 聚類的結(jié)果使得分組內(nèi)部的數(shù)據(jù)對象盡可能緊湊而內(nèi)聚,分組之間彼此分離。
[0021] K-means聚類的優(yōu)點很多,但也有明顯的缺點,例如它的聚類效果不穩(wěn)定,嚴重依 賴于初值的選擇。如果選定的初值碰巧來自于某一個自然分組,那么K-means很可能收斂于 局部最優(yōu),從而無法得到令人滿意的聚類,參見圖2和圖3。圖2中標(biāo)識出有兩個被選作初值 的數(shù)據(jù)對象落入了通過一簇C中,圖3是K-means在此初值上給出的一個聚類結(jié)果。因為初值 選擇不好,結(jié)果自然簇C被分裂,而自然簇B、D被合并。
【發(fā)明內(nèi)容】
[0022] 解決K-means聚類問題的主要思想就是希望選定的初值在多維空間彼此分離,距 離越大越好,W免選作初值的數(shù)據(jù)對象因距離短而落入同一個自然簇。
[0023] -個廣受業(yè)界認可的方法是通過距離約束來選擇初值。前兩個初值選擇數(shù)據(jù)集中 相距最遠的兩個數(shù)據(jù)對象,其后選擇的初值都是距離已選作初值的數(shù)據(jù)對象最遠的數(shù)據(jù)對 象。此法可W讓選作初值的數(shù)據(jù)對象彼此遠離,從而降低K-means聚類陷入局部最優(yōu)的概 率。但是運樣做也有明顯的缺點,其一,該法確定數(shù)據(jù)集中最遠的兩個數(shù)據(jù)對象需要消耗0 (η 2)級別的時間,確定其余k-2個數(shù)據(jù)對象,需要耗費的時間為0化Xn),如果2%,則該環(huán)節(jié) 的時間復(fù)雜度的下界是Ω化X2k),因為2<k?n,總的時間開銷為0(n 2),計算量特別巨大, 嚴重削弱了 K-means的伸縮性,無法應(yīng)對大數(shù)據(jù)的處理需求;其二,該法總是拒絕最優(yōu)的隨 機初值。例如,最優(yōu)的初值應(yīng)該是距離自然簇均值中屯、最近的數(shù)據(jù)對象。如果該法首先確定 了前兩個可W作為初值的數(shù)據(jù)對象,那么運兩個數(shù)據(jù)對象肯定落在簇的邊界區(qū)域,運樣才 能保證距離最遠,但也因此決定了該法不能選中距離自然簇均值中屯、最近的數(shù)據(jù)對象。
[0024] 如果第一個初值隨機選擇,其它各個初值按照與已選定數(shù)據(jù)對象最遠距離的原則 確定,那么可W把計算復(fù)雜度降下來,例如時間復(fù)雜度為Ω化X2k),但仍然很大。按照運樣 的策略簡化處理,假設(shè)第一初值非常幸運地選中了一個距離某自然簇均值中屯、最近的數(shù)據(jù) 對象,那么其它依次被選中的數(shù)據(jù)對象都很可能落在簇的邊界區(qū)域,而不會是距離其它自 然簇均值中屯、最近的數(shù)據(jù)對象。參見圖4,如果隨機選中數(shù)據(jù)對象化,它恰巧是均值中屯、,那 么根據(jù)距離約束條件,下一個被選擇的數(shù)據(jù)對象最可能是化,為了保證其距離化最大,它必 須處在自然簇的邊緣區(qū)域。實際上,隨機抽樣選中最理想初值的概率并不為零,然而該方法 選中最優(yōu)初值的可能性卻為零。
[0025] 為此,本發(fā)明設(shè)計實現(xiàn)了一種新的K-means初值選擇方法。
[0026] K-means初值隨機選擇是對樣本集的一次抽樣(sampling)。對于規(guī)模為η的獨立同 分布數(shù)據(jù)集X=lxt}Wt=i,令每個自然分組(用Gi表示第i個分組)的概率為P(Gi)。一個好的抽 樣要求樣本均勻地來自各個自然簇,樣本集中來自第i個自然簇Gi的樣本概率最好等于P (Gi),然而實際抽樣很難滿足運樣的要求。將選擇的數(shù)據(jù)對象盡可能彼此遠離,就是希望抽 取出來的樣本來自于不同的簇。因此,樣本之間的的距離遠近可W作為度量樣本集優(yōu)劣的 一個標(biāo)準(zhǔn)。令dij代表數(shù)據(jù)對象之間的歐氏距離,1 y含k,1 y非,i辛j。樣本之間距離的總 體水平可W用樣本集中樣本間的距離的總和來衡量,也可W采用距離的期望dave:
[0027]
(1-4)
[002引 其中,dij= I |xi-xj| |2。
[0029] 實際抽樣中,有些樣本間的距離明明很小,但因為個別樣本間距離偏大而造成距 離期望仍然很大,運樣的樣本集如何被發(fā)現(xiàn)并避免將其作為K-means聚類的初值呢?
[0030] 考慮到隨機抽樣中存在的運種情況,只重視距離期望dave是不夠的,為此需要引入 新的評價指標(biāo)"最小距離"。使用dmin對抽樣中存在的最小距離進行定義:
[0031] 成耐=巧戸{而I i羊々. (1-5)