欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于特征分析的粒子群聚類方法

文檔序號:6618848閱讀:329來源:國知局
專利名稱:一種基于特征分析的粒子群聚類方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)點聚類分析技術(shù)領(lǐng)域,尤其涉及一種基于特征分析的粒子群聚類 方法,在機器學習、數(shù)據(jù)挖掘、圖像處理、模式識別等技術(shù)領(lǐng)域都面臨需要對數(shù)據(jù)點聚類分 析的問題。
背景技術(shù)
聚類是數(shù)據(jù)挖掘的重要內(nèi)容,是無監(jiān)督學習的重要方法。為此,產(chǎn)生了大量的聚類 方法。在各種聚類優(yōu)化方法中,基于進化計算的方法由于模擬自然界“物競天擇,適者生產(chǎn)” 原則具有深刻的智能背景,越來越多地受到青睞。同為具有深刻智能背景的進化計算方法, 粒子群優(yōu)化(PSO)方法比遺傳方法(GA)簡單易于實現(xiàn)、收斂效率高,并且已經(jīng)在聚類分析 中展現(xiàn)了潛力,因此,在實際聚類問題特別是未知分布的復雜數(shù)據(jù)中得到了廣泛的應用。但是,在對線性不可分數(shù)據(jù)聚類時,粒子群聚類方法雖然能產(chǎn)生優(yōu)于其它優(yōu)化方 法的聚類結(jié)果,但產(chǎn)生這種良好聚類效果的比率不高,它只能說明粒子群聚類方法有潛力, 不具有實際應用意義。圖2示出了對于線性不可分數(shù)據(jù)環(huán)形數(shù)據(jù)(圖2(a))聚類經(jīng)典方法K-均值方法 的結(jié)果(圖2(b)),粒子群方法作為智能進化方法其典型結(jié)果如圖2(c),它們都不能得到將 內(nèi)環(huán)和外環(huán)分開的正確聚類結(jié)果。

發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明的目的在于提供一種基于特征分析的粒子群聚類方法,使其能夠在保持粒 子群方法自身優(yōu)點的基礎(chǔ)上更進一步提高其聚類效果,特別是對于線性不可分數(shù)據(jù)的聚類 效果。( 二 )技術(shù)方案為實現(xiàn)上述目的,本發(fā)明提供了一種基于特征分析的粒子群聚類方法,包括以下 步驟步驟1 將樣本空間待聚類的點集{X}通過核主分量KPCA方法投影到特征空間得 到特征點集{S},求出特征點集{S}的非零特征值及其對應的特征向量;步驟2 特征挑選,選取相應P個特征向量,將特征點集{S}變?yōu)辄c集{Y};步驟3 對點集{Y}進行數(shù)據(jù)處理,更新形成新的點集{Y};步驟4 對新的點集{Y}進行粒子群聚類。上述方案中,步驟1中所述對投影到特征空間得到的特征點集{S},應 確保點集{S}具有零均值,采用的操作是對得到的核矩陣K按下式中心化處理
K11 -K11 -去|>7.(、)^)-去Σ識7 ( )+去坌1> 00,其中,^fx、是 Xj
1、m~\丄、n-\7V m=\ ^=I'V y)
經(jīng)過核變換投影到核空間的特征點。
上述方案中,步驟2中所述的特征挑選,采用最值原則,抽取最大或最小的ρ個特 征值對應的主分量,P的大小為聚類數(shù)目K。上述方案中,步驟3中所述對點集{Y}進行數(shù)據(jù)處理,是對點集{Y}進行尺度變換 或者加權(quán)處理。上述方案中,所述對點集{Y}進行數(shù)據(jù)處理,具體包括如果點集{Y}中各數(shù)據(jù)點某一維的數(shù)值遠大于1或者遠小于1,則對該維進行相應 的尺度壓縮、拉伸變換;如果點集{Y}中數(shù)據(jù)點各維數(shù)值范圍差距過大,則對點集{Y}進行歸一化操作。上述方案中,步驟4中所述對新的點集{Y}進行粒子群聚類采用適應度函數(shù) F\ = fitness{Cl)^YYj\Yn-C,\
J η其中,Ci為第i個粒子,Cij為第i個粒子中代表第j個聚類中心的分量,Yn為樣 本集{Y}中所有屬于第j個聚類的點。上述方案中,步驟4中所述對新的點集{Y}進行粒子群聚類,具體包括輸入待聚類的特征點集Y: {yi} ^,聚類數(shù)目K ;輸出聚類劃分的結(jié)果sub ;1)、用K個聚類的中心C作為問題的解C = [i;〒;·.·^;],m, =( mu、 mi2、...、mip ),設定粒子數(shù)np,最大迭代步數(shù)maxst印,隨機產(chǎn)生np個初始解C。;2)、根據(jù)當前位置,用適應度函數(shù)= fi^essiC,) = ΣΣ||Γ — C,j計算適應值,設
/ “
置當前適應值為個體極值pbestF,當前位置為個體極值位置pbestC,根據(jù)各個粒子的個體 極值pbestF,找出全局極值gbestF和全局極值位置gbestC ;While (迭代次數(shù)< maxst印)dofor j = 1 :np ;3)、按 Vid = w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度, 并按把它限制在[-Vmax,Vmax]內(nèi);4)、按yid = yid+Vid更新自己的位置;5)、根據(jù)當前位置,對特征點集Y的各個樣本按最小距離原則分配給K個聚類中 心; 6)、計算適應 F,如果 F (j) < pbestF (j),則 pbestF (j) = F (j),pbestC (j)= C(j);end7)、比較pbestF,找出最小值作為全局極值,并更新全局極值位置。8)、CO — ClEnd。(三)有益效果本發(fā)明提供的這種基于特征分析的粒子群聚類方法,克服了當后續(xù)方法是非智能 方法時必須手動挑選合適特征的麻煩。另外,本發(fā)明對變換到特征空間的點作出進一步處 理,比如尺度變換、歸一化處理等操作,有利于后續(xù)優(yōu)化方法的應用。


圖1為本發(fā)明的聚類流程示意圖;圖2為經(jīng)典聚類方法K-均值、粒子群聚類(PSO)對線性不可分數(shù)據(jù)環(huán)形數(shù)據(jù)聚類 遇到的困境,其中圖2(a)表示待聚類的環(huán)形數(shù)據(jù),圖2(b) (c)分別為K-均值和粒子群聚類 (PSO)的聚類結(jié)果,它們都不能正確聚類。圖3為本發(fā)明的KPCA-PSO方法、同為特征空間聚類的KPCA-KM方法對環(huán)形數(shù)據(jù)的
聚類。其中圖3 (a)為環(huán)形數(shù)據(jù);圖3 (b)為本發(fā)明的KPCA-PSO方法聚類結(jié)果;圖3 (c)為KPCA-KM方法當初始聚類中心良好的正確聚類;圖3 (d)為KPCA-KM方法當初始聚類中心不好時的錯誤聚類結(jié)果。圖4為KPCA-PSO方法與幾種基于Mercer核的聚類方法對更復雜的IRIS數(shù)據(jù)聚 類的錯誤率,其中X軸的標號為7的方法為本發(fā)明的KPCA-PSO方法,標號為1-6對應的核 方法為核k-均值(KKM)、核模糊聚類(KFCM)、核確定性退火(KDA)、核蟻群聚類(KCA)、核凝 聚聚類、核可能性聚類(KPCM)。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照 附圖,對本發(fā)明進一步詳細說明。本發(fā)明提出一種基于特征分析的粒子群聚類方法,包括以下步驟首先采用核主 分量分析(KPCA)方法將待聚類的數(shù)據(jù)點集映射到特征空間,并抽取主分量,形成新的特征 空間的點集,實現(xiàn)將原空間的數(shù)據(jù)點集的聚類轉(zhuǎn)換為對特征空間的新點集聚類。然后,使用 具有智能進化特點的粒子群方法(PSO)對特征空間的點集聚類。由于粒子群方法本身就具 有智能進化特點,在方法里又結(jié)合被證明有效的核主分量分析方法揭露數(shù)據(jù)的隱含特征, 因此,聚類效果特別是對于線性不可分數(shù)據(jù)的聚類效果,比單純的粒子群方法大大提高,也 比單純的用核主分量分析方法加上其它非智能方法如經(jīng)典的K-均值方法即(KPCA-KM)效 果好。本發(fā)明中的核主分量分析(KPCA)步驟在抽取主分量時,采用的一種簡便的處理 方式,即最值抽取法,抽取最大或最小的K個特征值對應的主分量,K為聚類的數(shù)目。這樣 處理是因為(1)對應最值的特征值包含數(shù)據(jù)的主要的特征;(2)如果手動挑選合適特征,過程十分繁瑣費時,且不易推廣方法應用;(3)由于后續(xù)步驟是有智能進化特點的PSO方法,即使特征選取不是特別完美,也 能得到比較好的結(jié)果,對特征選擇具有一定的容錯性。以下結(jié)合圖1所示的方法流程示意圖說明本發(fā)明的聚類方法具體實施步驟步驟1、將樣本空間待聚類的點集{X}通過核主分量分析(KPCA)方法投影到特征 空間得到特征點集{S},求出點集{S}的非零特征值及其對應的特征向量。核主分量分析(KPCA)方法如下
6
輸入樣本集X: (Xi)Il,選取特征向量個數(shù)P,選用核函數(shù)類型及其參數(shù)值;輸出樣本集X對應的特征空間點集Y:;1)、構(gòu)造NXN核矩陣K,Kij=K (xi,xj) =<cp(xi),cp(xj)>,具體值由所選核函數(shù)
確定;2)、根據(jù)K α = λ α ,求特征值和特征向量;3)、選取ρ個特征值{λ } ,1,和對應特征向量{ }。,并且使
γI
ak ak 二 T^k=K 2、…、ρ;
N4)、為抽取測試點χ的主分量,計算投影 =Zq^x(Vx) k = 1、2.....P,其中
7=1
α ^是特征向量Cik的第j個元素。步驟2、運用最值原則,選取相應ρ個最大或最小的特征值對應的特征向量,ρ的大 小為聚類數(shù)目K,具體選用最大還是最小根據(jù)樣本集不同而區(qū)別;經(jīng)過最值挑選后,特征點 集{S}變?yōu)閧Y};步驟3、為更好地實施后續(xù)聚類方法,對{Y}做相應的數(shù)據(jù)處理,比如尺度變換、歸 一化操作,然后更新{Y}集合;具體地,如果集合{Y}中各數(shù)據(jù)點某一維的數(shù)值遠大于1或 者遠小于1,則對該維進行相應的尺度壓縮、拉伸變換;如果{Y}中數(shù)據(jù)點各維數(shù)值范圍差 距過大,則進行歸一化操作。步驟4、對新的{Y}集合應用標準粒子群聚類方法(PSO)進行聚類,具體聚類方法 包括輸入待聚類的特征點集Y: {yi} Γ=1,聚類數(shù)目K ;輸出聚類劃分的結(jié)果sub ;1)、用κ個聚類的中心C作為問題的解c =,Mj =( mn、
mi2、…、ITlip ),設定粒子數(shù)np,最大迭代步數(shù)maxst印,隨機產(chǎn)生np個初始解C。;2)、根據(jù)當前位置,用適應度函數(shù)列=·/^7^^。)二—Α 計算適應值,設
J “
置當前適應值為個體極值pbestF,當前位置為個體極值位置pbestC,根據(jù)各個粒子的個體 極值pbestF,找出全局極值gbestF和全局極值位置gbestC ;While (迭代次數(shù)< maxst印)dofor j = 1 :np ;3)、按 Vid = w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度, 并按把它限制在[-Vmax,Vmax]內(nèi);4)、按yid = yid+Vid更新自己的位置;5)、根據(jù)當前位置,對特征點集Y的各個樣本按最小距離原則分配給K個聚類中 心;6)、計算適應 F,如果 F (j) < pbestF (j),則 pbestF (j) = F (j),pbestC (j)= C(j);end7)、比較pbestF,找出最小值作為全局極值,并更新全局極值位置。
8)、CO — ClEnd。實施例人工環(huán)形數(shù)據(jù)(Ring data),數(shù)據(jù)由兩類圓形數(shù)據(jù)產(chǎn)生(半徑分別為1,2),每類有 N= 51個樣本組成,兩類數(shù)據(jù)均加上了均值μ =0,方差02 = 0.001為高斯噪聲.參見 圖3(a),圖3(b)為本發(fā)明提出的KPCA-PSO方法的典型結(jié)果,顯然它能正確區(qū)分內(nèi)環(huán)和外 環(huán)數(shù)據(jù)點,優(yōu)于圖2(c)中的單純的粒子群聚類(PSO)結(jié)果。圖3(c) (d)為核主分量分析方 法(KPCA)加上其它非智能方法(K-均值)的KPCA-KM方法的聚類結(jié)果,它受選取的初始聚 類中心影響較大,當初始中心選取較好時就能正確聚類如圖3 (c),反之得到錯誤聚類如圖 3 (d)。實驗結(jié)果顯示,本發(fā)明提出的KPCA-PSO方法即優(yōu)于單純地應用進化方法PS0,也由于 由核主分量分析(KPCA)結(jié)合其它的非進化智能方法(K-均值)得到的KPCA-KM方法。實際數(shù)據(jù)(IRIS),可以從UCI數(shù)據(jù)庫獲得。IRIS數(shù)據(jù)包含3類(IrisSetosa, Iris Versicolor and Iris Virginica),每類 50 個點,數(shù)據(jù)點為 4 維(s印allength, s印al width, petal length, petal width),其中一類與另外兩類線性可分,后面兩類互相不能線
性區(qū)分。 表 1表1數(shù)據(jù)進一步證明了(1)本發(fā)明提出的KPCA-PSO方法能夠有效地對線性不可 分數(shù)據(jù)聚類(2) KPCA-PSO方法聚類效果優(yōu)于經(jīng)典非智能進化聚類方法(KM)、單純使用智能 進化方法(PSO)、使用核主分量分析(KPCA)與非智能進化方法(KM)結(jié)合(KPCA-KM)。 表 2為進一步測試本發(fā)明提出的KPCA-PSO方法性能,使之與目前存在的另一種處理 線性不可分數(shù)據(jù)聚類技術(shù)即基于Mercer核函數(shù)的聚類方法的性能對比。由于它們都能處 理簡單的線性不可分數(shù)據(jù),如環(huán)形數(shù)據(jù),這已經(jīng)被實驗證明。因此,將它們在更復雜的數(shù)據(jù) IRIS上測試,所得結(jié)果如表2所示,顯然本發(fā)明提出的方法具有明顯的優(yōu)越性。其錯誤率條 形圖如圖4所示。
以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳 細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡 在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保 護范圍之內(nèi)。
權(quán)利要求
一種基于特征分析的粒子群聚類方法,其特征在于,包括以下步驟步驟1將樣本空間待聚類的點集{X}通過核主分量KPCA方法投影到特征空間得到特征點集{S},求出特征點集{S}的非零特征值及其對應的特征向量;步驟2特征挑選,選取相應p個特征向量,將特征點集{S}變?yōu)辄c集{Y};步驟3對點集{Y}進行數(shù)據(jù)處理,更新形成新的點集{Y};步驟4對新的點集{Y}進行粒子群聚類。
2.根據(jù)權(quán)利1所述的基于特征分析的粒子群聚類方法,其特征 在于,步驟1中所述對投影到特征空間得到的特征點集{S},應確保點 集{S}具有零均值,采用的操作是對得到的核矩陣K按下式中心化處理,其中,m(x、是 Xj 經(jīng)過核變換投影到核空間的特征點。
3.根據(jù)權(quán)利1所述的基于特征分析的粒子群聚類方法,其特征在于,步驟2中所述的特 征挑選,采用最值原則,抽取最大或最小的P個特征值對應的主分量,P的大小為聚類數(shù)目 K0
4.根據(jù)權(quán)利1所述的基于特征分析的粒子群聚類方法,其特征在于,步驟3中所述對點 集{Y}進行數(shù)據(jù)處理,是對點集{Y}進行尺度變換或者歸一化處理。
5.根據(jù)權(quán)利4所述的基于特征分析的粒子群聚類方法,其特征在于,所述對點集{Y}進 行數(shù)據(jù)處理,具體包括如果點集{Y}中各數(shù)據(jù)點某一維的數(shù)值遠大于1或者遠小于1,則對該維進行相應的尺 度壓縮、拉伸變換;如果點集{Y}中數(shù)據(jù)點各維數(shù)值范圍差距過大,則對點集{Y}進行歸一化操作。
6.根據(jù)權(quán)利1所述的基于特征分析的粒子群聚類方法,其特征在于,步驟4中所述對新 的點集{Y}進行粒子群聚類采用適應度函數(shù) 其中,Ci為第i個粒子,Cij為第i個粒子中代表第j個聚類中心的分量,Yn為樣本集 {Y}中所有屬于第j個聚類的點。
7.根據(jù)權(quán)利1所述的基于特征分析的粒子群聚類方法,其特征在于,步驟4中所述對新 的點集{Y}進行粒子群聚類,具體包括輸入待聚類的特征點集Y: {yi} ,1,,聚類數(shù)目K ; 輸出聚類劃分的結(jié)果SUb ;1)、用K個聚類的中心C作為問題的解(7二[&;冗;···;^],mt=( mn,mi2、…、rtlip ),設定粒子數(shù)np,最大迭代步數(shù)maxst印,隨機產(chǎn)生np個初始解C。;2)、根據(jù)當前位置,用適應度函數(shù) 計算適應值,設置當 前適應值為個體極值pbestF,當前位置為個體極值位置pbestC,根據(jù)各個粒子的個體極值 pbestF,找出全局極值gbestF和全局極值位置gbestC ; While (迭代次數(shù)< maxst印)dofor j = 1 :np ;3)、按Vid = w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度,并按 把它限制在[_Vmax,Vmax]內(nèi);4)、按yid= yid+Vid更新自己的位置;5)、根據(jù)當前位置,對特征點集Y的各個樣本按最小距離原則分配給K個聚類中心;6)、計算適應F,如果 F (j) <pbestF(j)JlJpbestF(j) = F(j),pbestC(j) = C(j); end7)、比較pbestF,找出最小值作為全局極值,并更新全局極值位置。8)、CO— Cl EncL
全文摘要
本發(fā)明公開了一種基于特征分析的粒子群聚類方法,包括以下步驟步驟1將樣本空間待聚類的點集{X}通過核主分量KPCA方法投影到特征空間得到特征點集{S},求出特征點集{S}的非零特征值及其對應的特征向量;步驟2特征挑選,選取相應p個特征向量,將特征點集{S}變?yōu)辄c集{Y};步驟3對點集{Y}進行數(shù)據(jù)處理,更新形成新的點集{Y};步驟4對新的點集{Y}進行粒子群聚類。本發(fā)明克服了當后續(xù)方法是非智能方法時必須手動挑選合適特征的麻煩。另外,本發(fā)明對變換到特征空間的點作出進一步處理,比如尺度變換、歸一化處理等操作,有利于后續(xù)優(yōu)化方法的應用。
文檔編號G06N3/08GK101894294SQ20091008416
公開日2010年11月24日 申請日期2009年5月20日 優(yōu)先權(quán)日2009年5月20日
發(fā)明者王徽蓉, 鄧貌, 金小賢, 魯華祥 申請人:中國科學院半導體研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
玉环县| 石门县| 芷江| 怀仁县| 许昌县| 武宁县| 叶城县| 开平市| 富平县| 于都县| 禹城市| 芦溪县| 铜山县| 通州区| 尖扎县| 香港| 扶绥县| 绥宁县| 余江县| 鄂托克前旗| 洞头县| 呈贡县| 中牟县| 长丰县| 临猗县| 台山市| 贞丰县| 鄂尔多斯市| 汾阳市| 邹平县| 乡宁县| 洛川县| 瑞安市| 若羌县| 汉源县| 浙江省| 三亚市| 延安市| 湖南省| 马尔康县| 加查县|