本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)聚類的方法及裝置。
背景技術(shù):
隨著計(jì)算機(jī)與信息技術(shù)的密切結(jié)合,海量的數(shù)據(jù)在互聯(lián)網(wǎng)上快速的產(chǎn)生和傳播,金融、電信等多個(gè)行業(yè)需要從海量的數(shù)據(jù)中獲取具有潛在意義的信息,才能在瞬息萬變中把握住經(jīng)濟(jì)命脈的先機(jī),在科技的發(fā)展下,需要處理和分類的信息量與日俱增,信息獲取的速度越來越快,信息的種類也越來越復(fù)雜,如何對這些種類繁多、對象不明確、不完全的大量信息進(jìn)行有效地分類,并從中挖掘出我們需要的、有用的信息,是當(dāng)今業(yè)界重要的研究課題。
目前,可通過聚類算法實(shí)現(xiàn)這個(gè)課題,常用的k-均值聚類算法具有快速的收斂性、良好的伸縮性等優(yōu)點(diǎn),在聚類過程中通常能聚類出一較好的結(jié)果,然而該算法的聚類效果比較依賴聚類中心的初始值,同時(shí)在聚類時(shí)易陷入局部解、易受到“噪音”干擾,導(dǎo)致從海量的數(shù)據(jù)中獲取的信息不夠準(zhǔn)確、聚類的質(zhì)量不佳。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種數(shù)據(jù)聚類的方法及裝置,旨在解決聚類結(jié)果的好壞對初始聚類中心的依賴性較大,聚類過程易陷入局部最優(yōu)解、易受“噪音”干擾,導(dǎo)致聚類質(zhì)量不佳的問題。
一方面,本發(fā)明提供了一種數(shù)據(jù)聚類的方法,所述方法包括下述步驟:
接收輸入的待聚類的數(shù)據(jù)集,為所述數(shù)據(jù)集生成對應(yīng)的當(dāng)前種群,所述當(dāng)前種群中每個(gè)個(gè)體包含預(yù)設(shè)數(shù)目個(gè)聚類中心;
計(jì)算所述當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值,并根據(jù)所述所有適應(yīng)度值和所述當(dāng)前種群的自適應(yīng)指數(shù),生成所述每個(gè)個(gè)體的選擇概率;
根據(jù)所述當(dāng)前種群中每個(gè)個(gè)體中的所有聚類中心,將所述數(shù)據(jù)集中的樣本劃分到相應(yīng)的聚類中,并根據(jù)所述所有選擇概率,進(jìn)化所述當(dāng)前種群,生成下一代種群;
當(dāng)當(dāng)前進(jìn)化代數(shù)未超過預(yù)設(shè)的最大進(jìn)化代數(shù)時(shí),獲取所述當(dāng)前種群進(jìn)化為所述下一代種群時(shí)生成優(yōu)異個(gè)體的數(shù)目,并根據(jù)所述優(yōu)異個(gè)體數(shù)目,計(jì)算所述下一代種群的自適應(yīng)指數(shù),將所述下一代種群設(shè)置為所述當(dāng)前種群,跳轉(zhuǎn)至執(zhí)行計(jì)算所述當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值的操作;
當(dāng)所述當(dāng)前進(jìn)化代數(shù)超過所述最大進(jìn)化代數(shù)時(shí),根據(jù)所述下一代種群中的最優(yōu)個(gè)體,生成并輸出所述數(shù)據(jù)集的聚類。
另一方面,本發(fā)明提供了一種數(shù)據(jù)聚類的裝置,所述裝置包括:
初始化模塊,用于接收輸入的待聚類的數(shù)據(jù)集,為所述數(shù)據(jù)集生成對應(yīng)的當(dāng)前種群,所述當(dāng)前種群中每個(gè)個(gè)體包含預(yù)設(shè)數(shù)目個(gè)聚類中心;
計(jì)算模塊,用于計(jì)算所述當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值,并根據(jù)所述適應(yīng)度值和所述當(dāng)前種群的自適應(yīng)指數(shù),生成所述每個(gè)個(gè)體的選擇概率;
進(jìn)化模塊,用于根據(jù)所述當(dāng)前種群中每個(gè)個(gè)體中的所有聚類中心,將所述數(shù)據(jù)集中的樣本劃分到相應(yīng)的聚類中,并根據(jù)所述所有選擇概率,進(jìn)化所述當(dāng)前種群,生成下一代種群;
循環(huán)模塊,用于當(dāng)當(dāng)前進(jìn)化代數(shù)未超過預(yù)設(shè)的最大進(jìn)化代數(shù)時(shí),獲取所述當(dāng)前種群進(jìn)化為所述下一代種群時(shí)生成優(yōu)異個(gè)體的數(shù)目,并根據(jù)所述優(yōu)異個(gè)體數(shù)目,計(jì)算所述下一代種群的自適應(yīng)指數(shù),將所述下一代種群設(shè)置為所述當(dāng)前種群,跳轉(zhuǎn)至執(zhí)行計(jì)算所述當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值的操作;以及
聚類生成模塊,用于當(dāng)所述當(dāng)前進(jìn)化代數(shù)未超過所述最大進(jìn)化代數(shù)時(shí),根據(jù)所述下一代種群中的最優(yōu)個(gè)體,生成并輸出所述數(shù)據(jù)集的聚類。
本發(fā)明對數(shù)據(jù)集的當(dāng)前種群進(jìn)行最大進(jìn)化代數(shù)次的進(jìn)化,從最后進(jìn)化得到的最優(yōu)個(gè)體中獲取數(shù)據(jù)集的聚類中心,最后根據(jù)這些聚類中心對數(shù)據(jù)集中的樣本進(jìn)行劃分,實(shí)現(xiàn)對數(shù)據(jù)集中樣本的聚類。其中,在當(dāng)前種群生成下一代種群的進(jìn)化過程中,本發(fā)明根據(jù)當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值和當(dāng)前種群的自適應(yīng)指數(shù),確定當(dāng)前種群中每個(gè)個(gè)體的選擇概率,在根據(jù)該選擇概率對當(dāng)前種群進(jìn)行進(jìn)化生成下一代種群后,根據(jù)當(dāng)前種群進(jìn)化得到優(yōu)異個(gè)體的數(shù)目,計(jì)算下一代種群的自適應(yīng)指數(shù)。從而通過進(jìn)化使得個(gè)體的質(zhì)量在每次聚類時(shí)都有所提高,改善了聚類中心的敏感性所帶來的不足,通過進(jìn)化過程中的變異操作有效地避免了聚類過程受到“噪音”點(diǎn)的干擾,通過自適應(yīng)值的更新調(diào)整好個(gè)體被選擇的概率,有效地跳出局部最優(yōu)解,進(jìn)而有效地提高了聚類質(zhì)量。
附圖說明
圖1是本發(fā)明實(shí)施例一提供的數(shù)據(jù)聚類的方法的實(shí)現(xiàn)流程圖;
圖2是本發(fā)明實(shí)施例二提供的數(shù)據(jù)聚類的裝置的結(jié)構(gòu)示意圖;以及
圖3是本發(fā)明實(shí)施例二提供的數(shù)據(jù)聚類的裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
以下結(jié)合具體實(shí)施例對本發(fā)明的具體實(shí)現(xiàn)進(jìn)行詳細(xì)描述:
實(shí)施例一:
圖1示出了本發(fā)明實(shí)施例一提供的數(shù)據(jù)聚類的方法的實(shí)現(xiàn)流程,為了便于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,詳述如下:
在步驟s101中,接收輸入的待聚類的數(shù)據(jù)集,為數(shù)據(jù)集生成對應(yīng)的當(dāng)前種群,當(dāng)前種群中每個(gè)個(gè)體包含預(yù)設(shè)數(shù)目個(gè)聚類中心。
在本發(fā)明實(shí)施例中,待聚類的數(shù)據(jù)集由多個(gè)樣本點(diǎn)構(gòu)成。在數(shù)據(jù)集中隨機(jī)選取預(yù)設(shè)數(shù)目個(gè)樣本點(diǎn),將這些樣本點(diǎn)分別設(shè)置為聚類中心,由這些預(yù)設(shè)數(shù)目個(gè)聚類中心可構(gòu)成當(dāng)前種群中的一個(gè)個(gè)體,通過重復(fù)前述步驟即可生成當(dāng)前種群中的所有個(gè)體。
作為示例地,當(dāng)數(shù)據(jù)集中每個(gè)樣本點(diǎn)的屬性維數(shù)為d、且當(dāng)前種群中每個(gè)個(gè)體包含k個(gè)聚類中心時(shí),當(dāng)前種群中每個(gè)個(gè)體的長度為d×k,當(dāng)當(dāng)前種群大小為n時(shí),初始化后當(dāng)前種群中第i個(gè)個(gè)體可表示為xi,0=(ci,1,ci,2,…,ci,k),ci,k為當(dāng)前種群中第i個(gè)個(gè)體的第k個(gè)聚類中心。該種群編碼方式簡單,且個(gè)體的長度較短,便于從中分解出最好的聚類中心。
在步驟s102中,計(jì)算當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值,并根據(jù)所有適應(yīng)度值和當(dāng)前種群的自適應(yīng)指數(shù),生成每個(gè)個(gè)體的選擇概率。
在本發(fā)明實(shí)施例中,通過預(yù)設(shè)的目標(biāo)函數(shù)(例如,誤差平方函數(shù)),可計(jì)算得到當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值,適應(yīng)度值是用來衡量個(gè)體好壞的一個(gè)數(shù)值。在計(jì)算得到所有適應(yīng)度值后,可生成當(dāng)前種群中所有個(gè)體的優(yōu)劣等級,再根據(jù)優(yōu)劣等級和自適應(yīng)指數(shù),計(jì)算每個(gè)個(gè)體的選擇概率。
具體地,計(jì)算得到所有適應(yīng)度值后,將當(dāng)前種群中所有個(gè)體按照適應(yīng)度值的大小進(jìn)行排列,根據(jù)排列順序進(jìn)行優(yōu)劣等級劃分。例如,排在第一位的個(gè)體的優(yōu)劣等級為1,排在第二位的個(gè)體的優(yōu)劣等級為2,以此類推,當(dāng)種群的規(guī)模為n時(shí),排在最后一位的個(gè)體的優(yōu)劣等級為n。
具體地,當(dāng)個(gè)體按照適應(yīng)度值從差到好進(jìn)行排序后,優(yōu)劣等級越高的個(gè)體越優(yōu)異,此時(shí)根據(jù)優(yōu)劣等級和當(dāng)前種群的自適應(yīng)指數(shù),計(jì)算當(dāng)前種群中每個(gè)個(gè)體的選擇概率的公式為:
在步驟s103中,根據(jù)當(dāng)前種群中每個(gè)個(gè)體中的所有聚類中心,將數(shù)據(jù)集中的樣本劃分到相應(yīng)的聚類中,并根據(jù)所有選擇概率,進(jìn)化當(dāng)前種群,生成下一代種群。
在本發(fā)明實(shí)施例中,根據(jù)當(dāng)前種群中個(gè)體中的聚類中心,可對數(shù)據(jù)集中的樣本進(jìn)行劃分,具體地,可根據(jù)數(shù)據(jù)集中樣本與聚類中心之間的距離,將樣本劃分到相應(yīng)的聚類中。
其中,根據(jù)選擇概率,進(jìn)化當(dāng)前種群,生成下一代種群,可通過下述步驟實(shí)現(xiàn):
(1)根據(jù)選擇概率,在當(dāng)前種群中選擇目標(biāo)個(gè)體進(jìn)行變異和交叉,生成新個(gè)體。
具體地,根據(jù)選擇概率,在當(dāng)前種群中進(jìn)行選取不同的個(gè)體作為基向量和差分向量的末端向量,選擇優(yōu)劣等級較高的個(gè)體作為末端向量,由末端向量引導(dǎo)整個(gè)向量的走向,使得整個(gè)進(jìn)化過程處于優(yōu)異個(gè)體的引導(dǎo)中,從而有效提高進(jìn)化過程的收斂效率。
(2)將新個(gè)體的適應(yīng)度值與目標(biāo)個(gè)體的適應(yīng)度值比較,當(dāng)新個(gè)體優(yōu)于目標(biāo)個(gè)體時(shí),將新個(gè)體設(shè)置為下一代種群中的個(gè)體,并將優(yōu)異個(gè)體的數(shù)目加一,否則將目標(biāo)個(gè)體設(shè)置為下一代種群中的個(gè)體。
具體地,在進(jìn)化得到新個(gè)體后,計(jì)算新個(gè)體的適應(yīng)度值,并將新個(gè)體的適應(yīng)度值與目標(biāo)個(gè)體的適應(yīng)度值進(jìn)行比較。在每次進(jìn)化中,都將優(yōu)異個(gè)體的數(shù)目初始化為零,通過優(yōu)異個(gè)體的數(shù)目來統(tǒng)計(jì)當(dāng)前進(jìn)化過程中生成優(yōu)于原個(gè)體的新個(gè)體數(shù)目。
在步驟s104中,判斷當(dāng)前進(jìn)化代數(shù)是否超過預(yù)設(shè)的最大進(jìn)化代數(shù)。
在本發(fā)明實(shí)施例中,當(dāng)前進(jìn)化代數(shù)用來記錄當(dāng)前對種群進(jìn)化的次數(shù),最大進(jìn)化代數(shù)用來限制對種群進(jìn)化的總次數(shù),當(dāng)當(dāng)前進(jìn)化代數(shù)超過最大進(jìn)化代數(shù)時(shí),可認(rèn)為當(dāng)前種群中個(gè)體中的聚類中心以達(dá)到最優(yōu)。當(dāng)當(dāng)前進(jìn)化代數(shù)不超過最大進(jìn)化代數(shù)時(shí),執(zhí)行步驟s105,否則,執(zhí)行步驟s106。
優(yōu)選地,在計(jì)算得到當(dāng)前種群中所有個(gè)體的適宜度值時(shí),獲取所有適應(yīng)度值中的最優(yōu)適應(yīng)度值,可通過判斷該最優(yōu)適應(yīng)度值是否滿足預(yù)設(shè)的閾值(例如,不超過該預(yù)設(shè)閾值),來確定當(dāng)前的聚類中心是夠達(dá)到最優(yōu),從而有效地提高進(jìn)化過程的效率和聚類的效果。
在步驟s105中,獲取當(dāng)前種群進(jìn)化為下一代種群時(shí)生成優(yōu)異個(gè)體的數(shù)目,并根據(jù)優(yōu)異個(gè)體數(shù)目,計(jì)算下一代種群的自適應(yīng)指數(shù),將下一代種群設(shè)置為當(dāng)前種群。
在本發(fā)明實(shí)施例中,在當(dāng)前進(jìn)化代數(shù)未超過預(yù)設(shè)的最大進(jìn)化代數(shù)時(shí),通過統(tǒng)計(jì)的優(yōu)異個(gè)體數(shù)目,計(jì)算下一代種群的自適應(yīng)指數(shù),并跳轉(zhuǎn)至執(zhí)行計(jì)算當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值的操作,以對下一代種群進(jìn)行進(jìn)化。
具體地,在計(jì)算下一代種群的自適應(yīng)指數(shù)時(shí),先根據(jù)當(dāng)前種群進(jìn)化為下一代種群時(shí)的優(yōu)異個(gè)體數(shù)目,計(jì)算對應(yīng)的優(yōu)異個(gè)體比例。接著,將該優(yōu)異個(gè)體比例與預(yù)設(shè)的期望值進(jìn)行比較,根據(jù)比較結(jié)果,計(jì)算下一代種群的自適應(yīng)指數(shù)。
具體地,優(yōu)異個(gè)體比例的計(jì)算公式為:
具體地,期望值為u·sr(g),其中,u為預(yù)設(shè)參數(shù),sr(g)為進(jìn)化代數(shù)為g-1時(shí)當(dāng)前種群進(jìn)化生成的優(yōu)異個(gè)體比例。
具體地,當(dāng)優(yōu)異個(gè)體比例不小于期望值時(shí),下一代種群自適應(yīng)指數(shù)的計(jì)算公式為λ(g+1)=min(λ(g)+δ·sr(g+1),λmax),否則下一代種群自適應(yīng)指數(shù)的計(jì)算公式為λ(g+1)=max(λmin,λ(g)-δ·(1-sr(g+1))),其中,λmin、λmax、δ、u為預(yù)設(shè)參數(shù)。
在步驟s106中,根據(jù)下一代種群中的最優(yōu)個(gè)體,生成并輸出數(shù)據(jù)集的聚類。
在本發(fā)明實(shí)施例中,當(dāng)當(dāng)前進(jìn)化代數(shù)超過最大進(jìn)化代數(shù)時(shí),不再循環(huán)執(zhí)行種群的進(jìn)化操作,此時(shí)從下一代種群中獲取適應(yīng)值最優(yōu)的個(gè)體,即最優(yōu)個(gè)體,對該最優(yōu)個(gè)體進(jìn)行解碼,獲取其中所有的聚類中心,根據(jù)這些聚類中心,將數(shù)據(jù)集中的樣本劃分到相應(yīng)的聚類中去。
在本發(fā)明實(shí)施例中,根據(jù)待聚類的數(shù)據(jù)集,初始化當(dāng)前種群,根據(jù)當(dāng)前種群中個(gè)體的適應(yīng)度值,對個(gè)體劃分優(yōu)劣等級,并根據(jù)當(dāng)前種群的自適應(yīng)指數(shù),為不同的個(gè)體生成不同的選擇概率,好的個(gè)體對應(yīng)較高的選擇概率,根據(jù)生成的選擇概率,進(jìn)化當(dāng)前種群,使得好的個(gè)體去引導(dǎo)整個(gè)進(jìn)化的收斂方向,當(dāng)當(dāng)前進(jìn)化代數(shù)未超過最大進(jìn)化代數(shù)時(shí),根據(jù)當(dāng)前種群進(jìn)化到下一代種群生成的優(yōu)異個(gè)體數(shù)目,調(diào)整下一代種群的自適應(yīng)指數(shù),并根據(jù)調(diào)整后的自適應(yīng)指數(shù),更新下一代種群中不同個(gè)體的選擇概率,對下一代種群進(jìn)行進(jìn)化,直至當(dāng)前進(jìn)化代數(shù)超過最大進(jìn)化代數(shù),最后,根據(jù)最后進(jìn)化得到的當(dāng)前種群,得到數(shù)據(jù)集的聚類結(jié)果,從而通過多次的進(jìn)化,提高數(shù)據(jù)集的聚類中心的生成質(zhì)量,并根據(jù)進(jìn)化過程中生成優(yōu)異個(gè)體的數(shù)目,調(diào)節(jié)個(gè)體的選擇概率,有效地調(diào)高了進(jìn)化過程收斂到較好聚類中心的效率,避免陷入局部最優(yōu)。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,所述的存儲(chǔ)介質(zhì),如rom/ram、磁盤、光盤等。
實(shí)施例二:
圖2示出了本發(fā)明實(shí)施例二提供的數(shù)據(jù)聚類的裝置的結(jié)構(gòu),為了便于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,其中包括:
初始化模塊21,用于接收輸入的待聚類的數(shù)據(jù)集,為數(shù)據(jù)集生成對應(yīng)的當(dāng)前種群,當(dāng)前種群中每個(gè)個(gè)體包含預(yù)設(shè)數(shù)目個(gè)聚類中心;
計(jì)算模塊22,用于計(jì)算當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值,并根據(jù)適應(yīng)度值和當(dāng)前種群的自適應(yīng)指數(shù),生成每個(gè)個(gè)體的選擇概率;
進(jìn)化模塊23,用于根據(jù)當(dāng)前種群中每個(gè)個(gè)體中的所有聚類中心,將數(shù)據(jù)集中的樣本劃分到相應(yīng)的聚類中,并根據(jù)所有選擇概率,進(jìn)化當(dāng)前種群,生成下一代種群;
循環(huán)模塊24,用于當(dāng)當(dāng)前進(jìn)化代數(shù)未超過預(yù)設(shè)的最大進(jìn)化代數(shù)時(shí),獲取當(dāng)前種群進(jìn)化為下一代種群時(shí)生成優(yōu)異個(gè)體的數(shù)目,并根據(jù)優(yōu)異個(gè)體數(shù)目,計(jì)算下一代種群的自適應(yīng)指數(shù),將下一代種群設(shè)置為當(dāng)前種群,跳轉(zhuǎn)至執(zhí)行計(jì)算當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值的操作;以及
聚類生成模塊25,用于當(dāng)當(dāng)前進(jìn)化代數(shù)未超過最大進(jìn)化代數(shù)時(shí),根據(jù)下一代種群中的最優(yōu)個(gè)體,生成并輸出數(shù)據(jù)集的聚類。
優(yōu)選地,如圖3所示,初始化模塊21包括聚類中心選取模塊311、種群生成模塊312,其中:
聚類中心選取模塊311,用于在數(shù)據(jù)集中隨機(jī)預(yù)設(shè)數(shù)目個(gè)樣本點(diǎn),將預(yù)設(shè)數(shù)目個(gè)樣本點(diǎn)分別設(shè)置為聚類中心;以及
種群生成模塊312,用于將預(yù)設(shè)數(shù)目個(gè)聚類中心組合成當(dāng)前種群中的一個(gè)個(gè)體,重復(fù)隨機(jī)選取操作,生成當(dāng)前種群中的所有個(gè)體。
優(yōu)選地,如圖3所示,計(jì)算模塊22包括適應(yīng)度值計(jì)算模塊321、選擇概率計(jì)算模塊322,其中:
適應(yīng)度值計(jì)算模塊321,用于根據(jù)預(yù)設(shè)的目標(biāo)函數(shù),計(jì)算當(dāng)前種群中每個(gè)個(gè)體的適應(yīng)度值;以及
選擇概率計(jì)算模塊322,用于根據(jù)所有適應(yīng)度值,生成當(dāng)前種群中每個(gè)個(gè)體的優(yōu)劣等級,并根據(jù)所有優(yōu)劣等級和當(dāng)前種群的自適應(yīng)指數(shù),計(jì)算當(dāng)前種群中每個(gè)個(gè)體的選擇概率。
優(yōu)選地,如圖3所示,進(jìn)化模塊23包括個(gè)體進(jìn)化模塊331、新種群生成模塊332,其中:
個(gè)體進(jìn)化模塊331,用于根據(jù)選擇概率,在當(dāng)前種群中選擇目標(biāo)個(gè)體進(jìn)行變異和交叉,生成新個(gè)體;以及
新種群生成模塊332,用于將新個(gè)體的適應(yīng)度值與目標(biāo)個(gè)體的適應(yīng)度值比較,當(dāng)新個(gè)體優(yōu)于目標(biāo)個(gè)體時(shí),將新個(gè)體設(shè)置為下一代種群中的個(gè)體,并將優(yōu)異個(gè)體數(shù)目加一,否則將目標(biāo)個(gè)體設(shè)置為下一代種群中的個(gè)體。
優(yōu)選地,如圖3所示,循環(huán)模塊24包括比例計(jì)算模塊341、自適應(yīng)指數(shù)更新模塊342,其中:
比例計(jì)算模塊341,用于根據(jù)優(yōu)異個(gè)體的數(shù)目,計(jì)算當(dāng)前種群進(jìn)化為下一代種群時(shí)的優(yōu)異個(gè)體比例;以及
自適應(yīng)指數(shù)更新模塊342,用于將優(yōu)異個(gè)體比例和預(yù)設(shè)的期望值進(jìn)行比較,根據(jù)比較結(jié)果,計(jì)算下一代種群的自適應(yīng)指數(shù)。
在本發(fā)明實(shí)施例中,根據(jù)待聚類的數(shù)據(jù)集,初始化當(dāng)前種群,根據(jù)當(dāng)前種群中個(gè)體的適應(yīng)度值,對個(gè)體劃分優(yōu)劣等級,并根據(jù)當(dāng)前種群的自適應(yīng)指數(shù),為不同的個(gè)體生成不同的選擇概率,好的個(gè)體對應(yīng)較高的選擇概率,根據(jù)生成的選擇概率,進(jìn)化當(dāng)前種群,使得好的個(gè)體去引導(dǎo)整個(gè)進(jìn)化的收斂方向,當(dāng)當(dāng)前進(jìn)化代數(shù)未超過最大進(jìn)化代數(shù)時(shí),根據(jù)當(dāng)前種群進(jìn)化到下一代種群生成的優(yōu)異個(gè)體數(shù)目,調(diào)整下一代種群的自適應(yīng)指數(shù),并根據(jù)調(diào)整后的自適應(yīng)指數(shù),更新下一代種群中不同個(gè)體的選擇概率,對下一代種群進(jìn)行進(jìn)化,直至當(dāng)前進(jìn)化代數(shù)超過最大進(jìn)化代數(shù),最后,根據(jù)最后進(jìn)化得到的當(dāng)前種群,得到數(shù)據(jù)集的聚類結(jié)果,從而通過多次的進(jìn)化,提高數(shù)據(jù)集的聚類中心的生成質(zhì)量,并根據(jù)進(jìn)化過程中生成優(yōu)異個(gè)體的數(shù)目,調(diào)節(jié)個(gè)體的選擇概率,有效地調(diào)高了進(jìn)化過程收斂到較好聚類中心的效率,避免陷入局部最優(yōu)。
在本發(fā)明實(shí)施例中,數(shù)據(jù)聚類的裝置的各單元可由相應(yīng)的硬件或軟件單元實(shí)現(xiàn),各單元可以為獨(dú)立的軟、硬件單元,也可以集成為一個(gè)軟、硬件單元,在此不用以限制本發(fā)明。本發(fā)明實(shí)施例中各模塊的具體實(shí)施方式可參考前述實(shí)施例一中各步驟的描述,在此不再贅述。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。