一種基于商空間理論的K-means聚類方法
【專利摘要】基于商空間理論的K-means聚類方法,先輸入聚類數(shù)K和數(shù)據(jù)集X,然后對數(shù)據(jù)集進(jìn)行聚類,最后輸出聚類結(jié)果。本發(fā)明聚類方法對任意形狀的類簇、有噪聲點(diǎn)都具有較好的聚類結(jié)果,在聚類效果上遠(yuǎn)勝過K-means算法,并且本發(fā)明在時間性能上遠(yuǎn)遠(yuǎn)好于MSCA算法,綜合時間性能和聚類效果,整體效果最好。
【專利說明】—種基于商空間理論的K-means聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘方法【技術(shù)領(lǐng)域】,涉及一種基于商空間理論的κ-means聚類方法。
【背景技術(shù)】
[0002]在數(shù)據(jù)挖掘領(lǐng)域中,聚類分析是一項重要的研究課題。聚類技術(shù)已經(jīng)被廣泛應(yīng)用到電信業(yè)、零售業(yè)、生物學(xué)、市場營銷等領(lǐng)域。聚類是一種無監(jiān)督的分類,其目的是用來發(fā)現(xiàn)數(shù)據(jù)集中由于對象本身特征而聚集成簇的數(shù)據(jù)點(diǎn),并且保證簇內(nèi)具有盡可能大的相似度、簇間具有盡可能大的相異度?,F(xiàn)有的聚類算法一般分為:1.以κ-means、Fuzzy κ-means、k中心點(diǎn)為代表的基于劃分的聚類算法;2.以CURE、BIRCH、ROCK為代表的基于層次的聚類算法;3.以DBSCAN、OPTICS為代表的基于密度的聚類算法;4.其他類型的聚類算法,例如基于子空間的聚類算法或者基于模型的聚類算法。
[0003]基于劃分的聚類算法K-means因為其隨機(jī)選擇初始聚類中心,以及使用梯度下降的方法來優(yōu)化目標(biāo)函數(shù)、通過局部搜索來獲得聚類結(jié)果,往往會導(dǎo)致聚類結(jié)果的不穩(wěn)定性,且有可能造成目標(biāo)函數(shù)的解落到局部極小值上。所以,為了確定K-means算法的初始聚類中心,F(xiàn)ayyad, Bradley等人提出了基于采樣的初始聚類中心算法,Ding等人提出基于k近鄰一致性的K-me an s -CP算法。
[0004]MSCA (Mult1-granularity self-learning clustering algorithm)算法是米用商空間理論,基于密度的改進(jìn)算法,其思想是通過動態(tài)計算類簇內(nèi)最大、最小距離來合成粒度,使其能以自學(xué)習(xí)的方式動態(tài)確定聚合粒度,然后通過構(gòu)造一顆聚合樹來進(jìn)行凝聚聚類。該算法可以獲得較好的聚類效果,但存在的問題是時間復(fù)雜度過高。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是提供一種基于商空間理論的K-means聚類方法,解決現(xiàn)有技術(shù)存在的時間復(fù)雜度過高的問題。
[0006]本發(fā)明的技術(shù)方案是,基于商空間理論的K-means聚類方法,先輸入聚類數(shù)K和數(shù)據(jù)集X,然后進(jìn)行聚類,最后輸出聚類結(jié)果。
[0007]本發(fā)明的特點(diǎn)還在于:
[0008]所述進(jìn)行聚類包括:
[0009]I).初始化聚類數(shù)K,對數(shù)據(jù)集X進(jìn)行預(yù)處理;
[0010]2).對數(shù)據(jù)集X的每一個維度進(jìn)行排序,并計算出初始粒度;
[0011]3).控制粒度增長函數(shù)g(t),使粒度快增長,形成粒度增長序列;
[0012]4).選擇一個分布稀疏度η最大的維度,對數(shù)據(jù)集X進(jìn)行遍歷,查找當(dāng)前粒度可聚的數(shù)據(jù)點(diǎn)與類簇;重復(fù)進(jìn)行4),直到粒度增長結(jié)束;
[0013]5).在3)產(chǎn)生的粒度增長序列中,逆序找出最大的可聚粒度,可聚粒度的數(shù)目等于聚類數(shù)K ;然后從前一個粒度開始使用粒度增長函數(shù)的慢增長階段,繼續(xù)進(jìn)行4),直到粒度增長結(jié)束,退出,進(jìn)入6);
[0014]6).對離群點(diǎn),邊界簇,和未劃分的數(shù)據(jù)點(diǎn)進(jìn)行聚類;把這些點(diǎn)劃分到與之最為接近的微簇中;
[0015]7).循環(huán)遍歷6)生成的微簇集合,對每一個微簇在3)生成的粒度增長序列中查找可以合并的最小粒度,合并查找到的兩個微簇;當(dāng)微簇的數(shù)目達(dá)到算法的輸入?yún)?shù)聚類數(shù)K時,退出循環(huán)。
[0016]數(shù)據(jù)集X在第j維的分布稀疏度為n j:[0017]
【權(quán)利要求】
1.基于商空間理論的κ-means聚類方法,其特征在于,先輸入聚類數(shù)K和數(shù)據(jù)集X,然后對數(shù)據(jù)集X進(jìn)行聚類,最后輸出聚類結(jié)果。
2.如權(quán)利要求1所述的基于商空間理論的K-means聚類方法,其特征在于,所述對數(shù)據(jù)集X進(jìn)行聚類包括: 1)初始化聚類數(shù)K,對數(shù)據(jù)集X進(jìn)行預(yù)處理; 2)對數(shù)據(jù)集X的每一個維度進(jìn)行排序,并計算出初始粒度; 3)控制粒度增長函數(shù)g(t),使粒度快增長,形成粒度增長序列; 4)選擇一個分布稀疏度η最大的維度,對數(shù)據(jù)集進(jìn)行遍歷,查找當(dāng)前粒度可聚的數(shù)據(jù)點(diǎn)與類簇;重復(fù)進(jìn)行4),直到粒度增長結(jié)束; 5)在3)產(chǎn)生的粒度增長序列中,逆序找出最大的可聚粒度,可聚粒度的數(shù)目等于聚類數(shù)K ;然后從前一個粒度開始使用粒度增長函數(shù)的慢增長階段,繼續(xù)進(jìn)行4),直到粒度增長結(jié)束,退出,進(jìn)入6); 6)對離群點(diǎn),邊界簇,和未劃分的數(shù)據(jù)點(diǎn)進(jìn)行聚類;把這些點(diǎn)劃分到與之最為接近的微簇中; 7)循環(huán)遍歷6)生成的微簇集合,對每一個微簇在3)生成的粒度增長序列中查找可以合并的最小粒度,合并查找到的兩個微簇;當(dāng)微簇的數(shù)目達(dá)到聚類數(shù)K時,退出循環(huán)。
3.如權(quán)利要求2所述的基于商空間理論的K-means聚類方法,其特征在于,數(shù)據(jù)集X在第j維的分布稀疏度為ηj:
4.如權(quán)利要求2所述的基于商空間理論的K-means聚類方法,其特征在于,粒度增長函數(shù)g(t)是以迭代次數(shù)t為參數(shù),用來控制粒度增長的函數(shù),既g(t) = δ?;式[I]為粒度的快增長階段,式[2]粒度的慢增長階段:
5.如權(quán)利要求2所述的基于商空間理論的K-means聚類方法,其特征在于,所述對離群點(diǎn),邊界簇,和未劃分的數(shù)據(jù)點(diǎn)進(jìn)行聚類的方法包括: (1)循環(huán)遍歷邊界簇和離群點(diǎn),計算這些數(shù)據(jù)點(diǎn)到各個微簇的距離; (2)選擇數(shù)據(jù)點(diǎn)到微簇距離最小的值,將數(shù)據(jù)點(diǎn)劃分到與之對應(yīng)的簇中,直到循環(huán)結(jié)束。
【文檔編號】G06F17/30GK103810261SQ201410037923
【公開日】2014年5月21日 申請日期:2014年1月26日 優(yōu)先權(quán)日:2014年1月26日
【發(fā)明者】周紅芳, 張國榮, 劉園, 郭杰, 段文聰, 王心怡, 何馨依 申請人:西安理工大學(xué)