專利名稱:稀疏模糊c均值聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種稀疏模糊C均值聚類方法。
背景技術(shù):
模糊C均值聚類算法(FCM)是一種重要的聚類算法。該方法在1973年由Dunn首先提出,并在1981年由Bezdek改進。此后,F(xiàn)CM在模式識別、機器學(xué)習(xí)、數(shù)據(jù)挖掘、生物信息學(xué)等領(lǐng)域得到了非常廣泛的應(yīng)用,成為一種經(jīng)典的聚類算法。然而,近十幾年來,隨著信息技術(shù)的發(fā)展,高維數(shù)據(jù)變得越來越普遍。高維數(shù)據(jù)因其固有的特點,如信息冗余、無用信息多等,使得很多傳統(tǒng)的聚類方法(如K均值聚類、層次聚類、模糊C均值聚類等)在高維數(shù)據(jù)上的聚類效果較差,常常不能得到好的聚類結(jié)果。圖I展示了一個FCM不能得到較好的聚類結(jié)果的例子。在該例子中,數(shù)據(jù)是一個簡單的二維數(shù)據(jù)。該數(shù)據(jù)只在Xl方向上有區(qū)分能力,在x2方向上無區(qū)分能力。圖I (a)是該數(shù)據(jù)的真實分類情況。圖I (b)是FCM在該數(shù)據(jù)上的聚類結(jié)果??梢钥吹?,F(xiàn)CM在這個數(shù)據(jù)集上聚類結(jié)果較差,因為x2方向上無用的信息干擾了真正起作用的Xl方向上的信息。如果只將FCM作用于xl方向而忽略x2方向,F(xiàn)CM的聚類效果較好,如
圖1(c)所示。從這個例子中可以看到,如果高維數(shù)據(jù)中有許多無用的信息(對聚簇沒有區(qū)分能力的維度),那些無用的信息會干擾有用信息,從而使傳統(tǒng)的FCM算法聚類效果變差。另外,高維數(shù)據(jù)屬性很多,其中不乏無用信息或冗余信息,這些不利于聚類結(jié)果的解釋。
發(fā)明內(nèi)容
本發(fā)明的目的在于改進FCM在高維數(shù)據(jù)上的聚類能力,克服高維數(shù)據(jù)中無用信息對聚類信息的干擾,提出了一種稀疏模糊C均值聚類方法(SFCM),通過特征選擇來更好地對高維數(shù)據(jù)進行聚類,提高了聚類結(jié)果的可解釋性。本發(fā)明的目的通過下述技術(shù)方案實現(xiàn)稀疏模糊C均值聚類方法,包括以下步驟(I)、設(shè){x1; x2,. . . , xn}, Xi e Rp 為 η 個待聚類的點,V=Iv1, V2, , νκ}為當(dāng)前的 K個類中心,U= (Uik)為隸屬度矩陣,Uik表示Xi屬于第k類的隸屬度;(2)、將FCM算法的最小化類內(nèi)方差的目標(biāo)函數(shù)改寫為若干函數(shù)項的和的形式,其中每一函數(shù)項只跟一個屬性有關(guān);(3)、將步驟(2)得到的若干函數(shù)項的和改寫為對應(yīng)的最大化類間方差;(4)、給每一個屬性賦予一個權(quán)重Wj,P個權(quán)重值構(gòu)成權(quán)重w ;將步驟(3)中對應(yīng)的函數(shù)項乘以該權(quán)重Wp最大化類間方差的目標(biāo)函數(shù)變成一個對屬性加權(quán)后的類間方差,并給權(quán)重以LI和L2范數(shù)約束,得到加權(quán)后的函數(shù);(5)通過輪流固定隸屬度Uik和權(quán)重Wj的迭代求解步驟(4)加權(quán)后的目標(biāo)函數(shù),迭代終止時得到聚類結(jié)果和選擇出的屬性集。優(yōu)選地,步驟(2)所述若干函數(shù)項的和為
權(quán)利要求
1.稀疏模糊C均值聚類方法,其特征在于,包括以下步驟 (1)、設(shè)(X1,X2,...,xj , Xi e Rp為η個待聚類的點,V=Iv1, V2,, νκ}為當(dāng)前的K個類中心,U=(Uik)為隸屬度矩陣,Uik表不Xi屬于第k類的隸屬度; (2)、將FCM算法的最小化類內(nèi)方差的目標(biāo)函數(shù)改寫為若干函數(shù)項的和的形式,其中每一函數(shù)項只跟一個屬性有關(guān); (3)、將步驟(2)得到的若干函數(shù)項的和改寫為對應(yīng)的最大化類間方差; (4)、給每一個屬性賦予一個權(quán)重P個權(quán)重值構(gòu)成權(quán)重w;將步驟(3)中對應(yīng)的函數(shù)項乘以該權(quán)重Wp最大化類間方差的目標(biāo)函數(shù)變成一個對屬性加權(quán)后的類間方差,并給權(quán)重以LI和L2范數(shù)約束,得到加權(quán)后的函數(shù); (5)通過輪流固定隸屬度Uik和權(quán)重%的迭代求解步驟(4)加權(quán)后的目標(biāo)函數(shù),迭代終止時得到聚類結(jié)果和選擇出的屬性集。
2.根據(jù)權(quán)利要求I所述的稀疏模糊C均值聚類方法,其特征在于,步驟(2)所述若干函數(shù)項的和為
3.根據(jù)權(quán)利要求2所述的稀疏模糊C均值聚類方法,其特征在于,步驟(5)所述迭代求解的過程如下 (51)、迭代直至收斂 (511)、固定權(quán)重W,用FCM算法對下式求解隸屬度矩陣U和類中心V:
全文摘要
本發(fā)明提供了一種基于Witten的稀疏聚類框架的稀疏模糊C聚類方法;將FCM目標(biāo)函數(shù)改寫成各個函數(shù)項的和的形式,每一函數(shù)項都只跟一個屬性有關(guān);再給每一個屬性賦予一個權(quán)重,并進一步改寫為加權(quán)的各項函數(shù)和形式;對權(quán)重進行L1和L2正則化約束,通過輪流固定權(quán)重和隸屬度的迭代求解得到稀疏解。與傳統(tǒng)的FCM算法相比,本發(fā)明提高了聚類能力,比FCM更適合高維數(shù)據(jù)的聚類,可方便應(yīng)用于數(shù)據(jù)挖掘、機器學(xué)習(xí)、生物信息學(xué)等領(lǐng)域。
文檔編號G06F17/30GK102855301SQ20121029643
公開日2013年1月2日 申請日期2012年8月20日 優(yōu)先權(quán)日2012年8月20日
發(fā)明者馮國燦, 黎培興, 丘憲恩, 邱燕藝, 湯鑫 申請人:中山大學(xué)