基于Self-tuning的局部密度譜聚類相似度量算法
【專利摘要】本發(fā)明公開了一種基于Self-tuning的局部密度譜聚類相似度量算法,通過對相似性度量方法的分析,提出了一種基于數(shù)據(jù)鄰域的局部密度度量方法。該方法能夠自適應(yīng)的對數(shù)據(jù)的尺度規(guī)模進(jìn)行度量,處理復(fù)雜結(jié)構(gòu)的數(shù)據(jù)集聚類問題,與傳統(tǒng)的譜聚類方法和Self-tuning方法相比,具有很好的聚類效果。
【專利說明】基于Self-tuning的局部密度譜聚類相似度量算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明數(shù)據(jù)聚類分析【技術(shù)領(lǐng)域】,具體涉及一種基于Self-tuning的局部密度譜聚 類相似度量算法,可用于對數(shù)據(jù)、圖片等信息進(jìn)行聚類分析。
【背景技術(shù)】
[0002] 聚類分析是一種重要的無監(jiān)督分析方法,譜聚類則是一種新的聚類方法,基于譜 聚類好的聚類效果和完善的理論推導(dǎo),已被廣泛的應(yīng)用到數(shù)據(jù)聚類分析問題中。傳統(tǒng)的聚 類算法,如k-means算法,GMM算法等適用于凸球形的樣本空間,對于樣本空間為非凸時,算 法會陷入局部最優(yōu),但譜聚類方法能夠很好地收斂到全局最優(yōu),且在沒有對數(shù)據(jù)的原始結(jié) 構(gòu)做任何假設(shè)的情況下,無論對于常規(guī)的密集型數(shù)據(jù),還是一些任意結(jié)構(gòu)的數(shù)據(jù),譜聚類都 能夠表現(xiàn)出很好的聚類效果。
[0003] 譜聚類方法主要將數(shù)據(jù)的聚類問題轉(zhuǎn)化為圖譜的分割問題,進(jìn)而對數(shù)據(jù)進(jìn)行劃 分。在譜聚類算法中,關(guān)鍵的處理部分主要有三個:相似性度量的方法選取、拉普拉斯矩陣 的構(gòu)建和特征向量的選取。其中拉普拉斯矩陣的構(gòu)建是直接基于相似矩陣進(jìn)行操作的,相 似矩陣的好壞直接影響到最后的聚類效果,所以如何進(jìn)行相似性度量一直是譜聚類方法中 備受研究的一個話題。
[0004] 原始的譜聚類方法提出來的相似性度量是采用高斯核的方法進(jìn)行構(gòu)建,但其參數(shù) O需要根據(jù)數(shù)據(jù)的實(shí)際規(guī)模來設(shè)定,不同的O值會產(chǎn)生不同的聚類效果,波動較大,很難 找到一個最優(yōu)的值。LihiZelnik.Manor等人提出的Self-TuningSpectralClustering 方法利用局部尺度參數(shù)來代替全局的尺度參數(shù),該方法能夠很好的應(yīng)對多尺度的數(shù)據(jù),但 其構(gòu)造的相似矩陣不能夠表示出數(shù)據(jù)點(diǎn)之間的局部密度信息,導(dǎo)致在一些真實(shí)數(shù)據(jù)集上不 能達(dá)到理想的聚類效果;XianchaoZhang等人中提出了基于公共近鄰的方法來反映兩個數(shù) 據(jù)點(diǎn)之間的局部密度,并且通過全局的〇參數(shù)來表示數(shù)據(jù)之間的粘連效果,但該方法需要 手工設(shè)定參數(shù)〇來反映數(shù)據(jù)的結(jié)構(gòu)規(guī)模,波動較大,且公共近鄰半徑選取意義不明確,導(dǎo) 致在一些結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集上不能夠達(dá)到聚類的效果。
【發(fā)明內(nèi)容】
[0005] 基于以上方法的思想和存在問題,我們提出了一種改進(jìn)的譜聚類方法即基于 Self-tuning的局部密度譜聚類相似度量算法,主要解決了兩個方面的問題:(1).自適應(yīng) 的計算尺度參數(shù)〇,不需要手工設(shè)定參數(shù)的值;(2).自適應(yīng)的計算樣本數(shù)據(jù)的局部密度, 增強(qiáng)屬于同一聚類的數(shù)據(jù)點(diǎn)之間的權(quán)重值。
[0006] 在基于Self-tuning的局部密度譜聚類相似度量算法(以下簡稱SC-STLD算法) 中,相似矩陣的構(gòu)造公式如下:
[0007]
【權(quán)利要求】
1. 一種基于Self-tuning的局部密度譜聚類相似度量算法,其特征在于,該方法包括 如下步驟: (1) 假設(shè)對于N維的數(shù)據(jù)集S= {Sl,s2, ...,sM}eRmxn,其樣本個數(shù)為M,每一個樣本 Si為N維數(shù)據(jù)點(diǎn),其真實(shí)的聚類數(shù)目為C;將數(shù)據(jù)集S進(jìn)行歸一化處理,使得特征數(shù)據(jù)歸一 化到[0,1]之間,去除數(shù)據(jù)特征之間數(shù)量級的影響; (2) 計算數(shù)據(jù)集S所有數(shù)據(jù)點(diǎn)對之間的歐式距離,表示為W1,d2, ...,dn(n_1)/2}; (3) 根據(jù)步驟(2)求取的歐式距離d計算表示局部密度的半徑ε的值,該值滿足數(shù)據(jù) 點(diǎn)的平均鄰居數(shù)是總數(shù)據(jù)數(shù)的2% -3%; (4) 根據(jù)公式〇i=d(Si,sk)計算數(shù)據(jù)集S中每一個數(shù)據(jù)點(diǎn)Si的局部尺度σi,其中k 的取值為2; (5) 將步驟(3)中計算的半徑ε和步驟⑷中計算的局部尺度〇帶入公式 AL(siSj)=exp(-;.||^兄.),求解出相似矩陣A; (6) 定義對角矩陣D,使得1? =Σ;ι為7,即對角陣D主對角線元素值為相似矩陣A每一行元素的行和,其余元素值為〇 ; (7) 根據(jù)對角陣D和相似矩陣求解歸一化的拉普拉斯矩陣L,其中L=D_1/2(D-A)D_1/2 ; (8) 求解拉普拉斯矩陣L的前C個最小的特征值對應(yīng)的特征向量,組成新的特征向量空 間X= (X1,x2,...,xM}eRltxe,其中每一列對應(yīng)一個特征向量; (9) 對特征向量空間X進(jìn)行歸一化的處理,得到新的特征向量空間Y= {yi,y2,..., yM} £嚴(yán),其中%=?/0:,:4〕1/2; (10) 將Y的每一行看作一個樣本數(shù)據(jù)點(diǎn),對Y進(jìn)行κ-means聚類,將Y劃分為C個類 SihC=IC11Cy^CJ; (11) 將原數(shù)據(jù)集S的每一行和Y的每一行對應(yīng),如果yi屬于類Ci,則Si也屬于類Ci, 這樣就將數(shù)據(jù)集S劃分為C個類別。
【文檔編號】G06K9/62GK104318241SQ201410498330
【公開日】2015年1月28日 申請日期:2014年9月25日 優(yōu)先權(quán)日:2014年9月25日
【發(fā)明者】陳雷霆, 蔡洪斌, 邱航, 關(guān)亞勇, 曹躍, 崔金鐘, 盧光輝 申請人:東莞電子科技大學(xué)電子信息工程研究院