專利名稱:基于特征權(quán)重的全局k-均值聚類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域,涉及一種聚類方法。具體地說(shuō)是提出了一種基于特征權(quán)重的全局K-均值聚類方法,用于解決聚類中常見(jiàn)的K-均值類方法的聚類結(jié)果不穩(wěn)定的問(wèn)題,在提高了方法的聚類準(zhǔn)確度的同時(shí)得到了很穩(wěn)定的聚類結(jié)果。
背景技術(shù):
聚類就是將一組數(shù)據(jù)劃分到各個(gè)類中的一個(gè)過(guò)程,從而使得類內(nèi)距離最小化,類間距離最大化,即同一類中的數(shù)據(jù)盡可能的相似,而不同類中的數(shù)據(jù)盡可能的不同。聚類在數(shù)據(jù)挖掘,統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),空間數(shù)據(jù)庫(kù)技術(shù),生物學(xué)以及市場(chǎng)營(yíng)銷中起著很重要的作用。近些年,在聚類的很多應(yīng)用領(lǐng)域中數(shù)據(jù)變得越來(lái)越復(fù)雜。一個(gè)目標(biāo)經(jīng)常會(huì)用很多個(gè)屬性特征來(lái)描述,而對(duì)于聚類而言,有些屬性起著比較重要的作用,而另外一些屬性則只有很小的作用,甚至不影響對(duì)目標(biāo)的聚類。目前很多(基于距離的)聚類方法對(duì)于這些復(fù)雜的多維數(shù)據(jù)的聚類不是很有效。這是因?yàn)镵-均值的方法采用的是單純的歐式距離度量方法,即計(jì)算每個(gè)對(duì)象到各個(gè)聚類中心的距離,離哪個(gè)聚類中心的距離最短則屬于哪一類, 很明顯這種計(jì)算方法將目標(biāo)的每個(gè)屬性對(duì)聚類的重要性簡(jiǎn)單的視為相等的,而實(shí)際上是各不相同的,所以特別當(dāng)處理的是多維復(fù)雜數(shù)據(jù)的時(shí)候,這種傳統(tǒng)的K-均值方法就不是很有效了。為了解決這個(gè)問(wèn)題,目前主要有兩種技術(shù)1.特征轉(zhuǎn)移技術(shù);2.特征權(quán)重或者特征選擇技術(shù)。一般來(lái)說(shuō),特征轉(zhuǎn)移技術(shù)對(duì)于存在大量屬性對(duì)于聚類無(wú)關(guān)的這種情況并不適應(yīng)。特征權(quán)重技術(shù)意即不同屬性對(duì)于聚類的重要性和不同目標(biāo)對(duì)于每一類所起的作用都是不同的。它主要涉及兩個(gè)方向有監(jiān)督的方法和無(wú)監(jiān)督的方法。在早期,提出了很多有監(jiān)督特征權(quán)重方法的方法。近些年來(lái),很多無(wú)監(jiān)督的特征權(quán)重方法被提了出來(lái)。因?yàn)檫@些方法很多都是基于K-均值的處理過(guò)程,所以基本都是K-均值類方法。不同的是,在K-均值的每次迭代中,都引入了計(jì)算屬性權(quán)重值的步驟來(lái)優(yōu)化權(quán)值和建立類別。我們主要研究了無(wú)監(jiān)督的特征權(quán)重技術(shù),以其中一種經(jīng)典的LAW-K-均值(局部屬性權(quán)值K-均值)方法作為代表進(jìn)行研究。LAW-K-均值方法是在K-均值基礎(chǔ)上的一種局部屬性權(quán)重方法。為了確定目標(biāo)屬于哪一類,該方法采用權(quán)重差異測(cè)試方法來(lái)對(duì)每一類的重要屬性組。之后又有一些學(xué)者對(duì)該方法進(jìn)行了一些改進(jìn)。H. Friguiand和0. Nasraoui 引入了每一個(gè)目標(biāo)屬于每一類的程度以及每一類的每一個(gè)屬性對(duì)于聚類的作用。Liping Jing,, Michael K. Ng,等人提出了一種熵權(quán)重K-均值方法,該方法采用屬性權(quán)重的熵來(lái)表示屬性對(duì)于識(shí)別每一類所起的作用。Tao ying Li和Yan Chen通過(guò)對(duì)目標(biāo)函數(shù)的修改而拓展了熵屬性權(quán)重方法。下面深入地介紹兩種主要的相關(guān)方法。LLAW-K-均值通過(guò)以上的介紹和分析,我們可以看出,LAff-K-均值方法是一種基于K-均值的方法,通過(guò)在該方法中引入局部屬性權(quán)重,使得方法的性能有了一定的提高,但是二者都是隨機(jī)的選擇初始的聚類中心,所以聚類結(jié)果的好壞依賴于初始聚類中心的選擇,所以依然存在K-均值類方法本身所固有的缺陷,即因?yàn)閷?duì)初始聚類中心敏感而導(dǎo)致其聚類結(jié)果不是很穩(wěn)定。而且,LAW-K-均值方法中屬性權(quán)重的確定也取決于初始點(diǎn)的選擇,這就使得該方法的聚類結(jié)果更易受到初始聚類中心的影響而變得更加的不穩(wěn)定。所以我們要想使聚類的效果既保持很高的準(zhǔn)確度,同時(shí)又很穩(wěn)定,就要試圖使聚類中心的選擇不再是隨機(jī)確定的, 而是根據(jù)一定的數(shù)學(xué)原理推導(dǎo)出來(lái)的合理的初始中心的選擇方法。2.全局K-均值2002年A. Likas等人提出了全局K-均值方法。該方法與K-均值方法的不同之處在于初始聚類中心點(diǎn)的選擇,但都采用K-均值進(jìn)行聚類中心的更新。全局K-均值采用一種確定性地方法而不是隨機(jī)選取來(lái)產(chǎn)生初始聚類中心,所以全局K-均值方法不依賴于任何的初始參數(shù)值。Global開(kāi)始只確定一個(gè)聚類中心,通過(guò)選取所有點(diǎn)的中心作為第一個(gè)初始的聚類中心,再通過(guò)K-均值更新,直到不再變好而停止更新,然后再選出第二個(gè)聚類中心,選取所有點(diǎn)中對(duì)應(yīng)的聚類錯(cuò)誤最小的那個(gè)點(diǎn)作為第二個(gè)聚類中心,再采用K-均值進(jìn)行更新,直到找到K個(gè)聚類中心方法就會(huì)結(jié)束。這種方法因?yàn)槠涑跏贾行倪x取的改變使得方法非常穩(wěn)定,因?yàn)樗谐跏键c(diǎn)的選擇都是根據(jù)同樣的原理,所以都是確定性的操作,得到的聚類結(jié)果有所改善的同時(shí)也非常的穩(wěn)定。通過(guò)上面的分析可以看出,LAW-K-均值方法可以得到較好的聚類結(jié)果,但是其穩(wěn)定性比較差,而全局K-均值得到的結(jié)果非常的穩(wěn)定。如果將全局K-均值初始聚類中心選取的方法引入到LAW-K-均值方法中,通過(guò)確定性的選取初始聚類中心的方法可以解決對(duì)初始點(diǎn)敏感的瓶頸問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是,針對(duì)LAW-K-均值方法使用時(shí)穩(wěn)定性比較差的不足,為了提高多維數(shù)據(jù)聚類的準(zhǔn)確度,并增強(qiáng)聚類結(jié)果的穩(wěn)定性,針對(duì)多維數(shù)據(jù)聚類的特點(diǎn),利用LAW-K-均值方法具有較好的聚類結(jié)果和全局K-均值具有結(jié)果穩(wěn)定的特點(diǎn),將兩者結(jié)合,提出了一種基于特征權(quán)重的全局K-均值聚類方法,能夠獲得更高的聚類正確率和穩(wěn)定性。本發(fā)明的技術(shù)方案是首先將數(shù)據(jù)聚為一類,其最優(yōu)聚類中心就是所有數(shù)據(jù)的質(zhì)心,接著將所有數(shù)據(jù)點(diǎn)都看成下一類聚類中心,將使得目標(biāo)函數(shù)最小的數(shù)據(jù)點(diǎn)作為下一類的初始聚類中心,再利用帶有特征權(quán)重的K-均值方法迭代更新得到聚為兩類時(shí)的最佳聚類中心,采用同樣的方法依次增加聚類中心數(shù)進(jìn)行更新迭代直到聚完K類(K為設(shè)定的聚類個(gè)數(shù))為止,這樣就完成了將所有數(shù)據(jù)點(diǎn)聚到K類的整個(gè)過(guò)程,其具體實(shí)現(xiàn)步驟如下1、輸入多維數(shù)據(jù)Xij, 1彡i彡N,1彡j彡D和聚類個(gè)數(shù)K,其中N表示數(shù)據(jù)的個(gè)數(shù), D表示數(shù)據(jù)的特征屬性個(gè)數(shù),Xij表示第i個(gè)數(shù)據(jù)點(diǎn)的第j個(gè)屬性;2、初始化聚類個(gè)數(shù)k=l 初始化第k類的特征權(quán)重值為
權(quán)利要求
1. 一種基于特征權(quán)重的全局K-均值聚類方法,其特征在于首先將數(shù)據(jù)聚為一類,其最優(yōu)聚類中心為所有數(shù)據(jù)的質(zhì)心,接著通過(guò)計(jì)算求出目標(biāo)函數(shù)最小的數(shù)據(jù)點(diǎn)并將該數(shù)據(jù)點(diǎn)作為下一類的初始聚類中心,再利用帶有特征權(quán)重的“K-均值方法”迭代更新得到聚為兩類的最佳聚類中心,采用同樣的方法依次增加聚類中心數(shù)進(jìn)行聚類,直到聚為設(shè)定的K類為止,從而完成將所有數(shù)據(jù)點(diǎn)聚為K類的整個(gè)過(guò)程,其具體實(shí)現(xiàn)步驟如下(1)輸入多維數(shù)據(jù)Xij,1 ^ i ^ N, 1 ^ j ^ D和聚類個(gè)數(shù)K,其中N表示數(shù)據(jù)的個(gè)數(shù),D 表示數(shù)據(jù)的特征屬性個(gè)數(shù),Xij表示第j個(gè)屬性的第i個(gè)數(shù)據(jù)點(diǎn);(2)初始化聚類個(gè)數(shù)k = 1初始化第k類的特征權(quán)重值為
2.根據(jù)權(quán)利要求1所述的基于特征權(quán)重的全局K-均值聚類方法,其特征在于,所述步驟1)找出的下一個(gè)類的最優(yōu)初始中心,是所有數(shù)據(jù)點(diǎn)中使目標(biāo)函數(shù)J達(dá)到最小值的數(shù)據(jù)點(diǎn),將該數(shù)據(jù)點(diǎn)作為下一個(gè)類的初始聚類中心,從而使得聚集程度最優(yōu)。
全文摘要
一種基于特征權(quán)重的全局K-均值聚類方法,其實(shí)現(xiàn)過(guò)程為首先將數(shù)據(jù)聚為一類,其最優(yōu)聚類中心為所有數(shù)據(jù)的質(zhì)心,接著通過(guò)計(jì)算求出目標(biāo)函數(shù)最小的數(shù)據(jù)點(diǎn)并將該數(shù)據(jù)點(diǎn)作為下一類的初始聚類中心,再利用帶有特征權(quán)重的K-均值方法迭代更新得到聚為兩類時(shí)的最佳聚類中心,采用同樣的方法依次增加聚類中心數(shù)進(jìn)行更新迭代直到聚完設(shè)定的K類為止,這樣就完成了將所有數(shù)據(jù)點(diǎn)聚到K類的整個(gè)過(guò)程。本發(fā)明將全局K-均值方法與帶有特征屬性的K-均值相結(jié)合,構(gòu)造了一種新的基于特征權(quán)值的全局K-均值聚類方法,聚類結(jié)果十分穩(wěn)定,通過(guò)與幾種K-均值類聚類方法的實(shí)驗(yàn)結(jié)果比較,證明本發(fā)明的聚類方法的有效性和魯棒性。
文檔編號(hào)G06F17/30GK102254020SQ20111020861
公開(kāi)日2011年11月23日 申請(qǐng)日期2011年7月22日 優(yōu)先權(quán)日2011年7月22日
發(fā)明者于昕, 劉芳, 吳建設(shè), 惠轉(zhuǎn)妮, 曹宇, 李陽(yáng)陽(yáng), 焦李成, 王爽, 王達(dá) 申請(qǐng)人:西安電子科技大學(xué)