分別獨立運行10次,得到平均值和方差。我們用黑體標注了四種算法中最好的解。
[0107] 表2本發(fā)明仿真實驗參數(shù)的設置表
[0108]
CN 105139037 A ^ y/lU 貝
[0109] 由表3可以看出,與三個對比算法(第二、三、四列結果)相比,本發(fā)明即第五列結 果在大部分基因數(shù)據(jù)集上均優(yōu)于其他三個對比算法。通過上述的仿真實驗可以看出,本發(fā) 明對在大部分數(shù)據(jù)集上都取得了不錯得效果,有效地驗證了本發(fā)明的合理性和有效性。 [0110] 簡而言之,本發(fā)明公開的一種基于最小生成樹的集成多目標進化自動聚類方法, 主要克服了現(xiàn)有技術中對高維數(shù)據(jù)集處理效果不佳的問題,本發(fā)明提出的方法運行速度 快,可有效地對各種基因數(shù)據(jù)集進行聚類分析,不需要預先設定數(shù)據(jù)集的類別數(shù),本發(fā)明通 過經(jīng)典的多目標進化算法,可有效地對各種基因數(shù)據(jù)集進行聚類分析,主要用于生物醫(yī)學 識別、腫瘤檢測等領域中存在的高維度數(shù)據(jù)的分析。
[0111] 表3 10次獨立運行的最優(yōu)CR值的均值和方差值一覽表
[0112]
CN 105139037 A ~P 10/10 頁
[0113] 表3中第一列是數(shù)據(jù)集名稱,第二列是對比算法MCLA在21個基因數(shù)據(jù)集上運行 十次得到的平均值和方差值,第三列是對比算法MOCK在21個基因數(shù)據(jù)集上運行十次得到 的平均值和方差值,第四列是對比算法MOCLE在21個基因數(shù)據(jù)集上運行十次得到的平均值 和方差值,第五列是本發(fā)明的算法MOCNCD在21個基因數(shù)據(jù)集上運行十次得到的平均值和 方差值。
【主權項】
1. 一種基于最小生成樹的集成多目標進化自動聚類方法,具體步驟如下: (1) 輸入待聚類的基因數(shù)據(jù)集; (2) 初始化: (2a)設定待聚類基因數(shù)據(jù)集的類別數(shù)區(qū)間; (2b)采用K均值算法,分別將待聚類基因數(shù)據(jù)集的類別數(shù)區(qū)間中的每一個值作為待聚 類基因數(shù)據(jù)集的類別數(shù),對確定類別數(shù)的待聚類基因數(shù)據(jù)集進行聚類,得到不同的K均值 基聚類種群; (2c)采用平均距離算法,分別將待聚類基因數(shù)據(jù)集的類別數(shù)區(qū)間中的每一個值作為待 聚類基因數(shù)據(jù)集的類別數(shù),對確定類別數(shù)的待聚類基因數(shù)據(jù)集進行聚類,得到不同的平均 距離基聚類種群; (2d)采用最大距離算法,分別將待聚類基因數(shù)據(jù)集的類別數(shù)區(qū)間中的每一個值作為待 聚類基因數(shù)據(jù)集的類別數(shù),對確定類別數(shù)的待聚類基因數(shù)據(jù)集進行聚類,得到不同的最大 距離基聚類種群; (2e)采用譜聚類算法,分別將待聚類基因數(shù)據(jù)集的類別數(shù)區(qū)間中的每一個值作為待聚 類基因數(shù)據(jù)集的類別數(shù),對確定類別數(shù)的待聚類基因數(shù)據(jù)集進行聚類,得到不同的譜聚類 基聚類種群; (2f)將K均值基聚類種群、平均距離基聚類種群、最大距離基聚類種群、譜聚類基聚類 種群合并為父代種群; (3) 設定迭代參數(shù): 將最大迭代次數(shù)設定為50次,初始迭代次數(shù)為1,迭代步長為1 ; (4) 計算簇間相似性: 按照下式,計算父代種群中所有簇之間的相似性:其中,ECS( ?)表示父代種群中任意兩個簇的簇間相似性,C1,(:2分別表示父代種群中不 同的兩個簇,|C」、|C2|分別表示簇C1和簇C2中所包含的數(shù)據(jù)點個數(shù),E表示求和操作,G 表示屬于符號,山表示父代種群簇(^中的數(shù)據(jù)點,d 2表示父代種群簇(:2中的數(shù)據(jù)點,sim(〇 表示父代種群中不同的數(shù)據(jù)點出現(xiàn)在同一個簇中的次數(shù); (5) 生成最小生成樹: (5a)采用普利姆算法,生成最小生成樹,最小生成樹中的每個節(jié)點代表父代種群中的 每個簇; (5b)將最小生成樹中任意兩個節(jié)點的簇間相似性的值賦予連接這兩個節(jié)點邊的權 值; (6) 斷開最小生成樹: (6a)將最小生成樹所有邊中權值最小的邊斷開,將整個最小生成樹分成c個子生成 樹,其中,c表示待聚類基因數(shù)據(jù)集的真實類別數(shù); (6b)采用投票法,確定每個節(jié)點表示的簇中的數(shù)據(jù)點所屬的個子生成樹; (6c)判斷最小生成樹中的所有邊是否都斷開,若是,則得到一個與父代種群規(guī)模相同 的子種群,執(zhí)行步驟(7);否則,執(zhí)行步驟(6a); (7) 合并種群: 將與父代種群規(guī)模相同的子種群與父代種群合并為二倍種群; (8) 快速非支配排序: (8a)搜索二倍種群中的被支配個體數(shù)量為O的個體,將其全部放入第一集合中,并賦 予該集合中每個個體相應的非支配序; (8b)對第一集合中個體所支配個體的子集合中的被支配個體數(shù)量為1的個體,其放入 第二集合中,賦予該集合中個體相應的非支配序; (8c)判斷二倍種群中的所有個體是否都被分級,若是,則執(zhí)行步驟(9);否則,執(zhí)行步 驟(8b); (9) 計算擁擠度: 計算二倍種群中每個個體的擁擠度,按照擁擠度的大小進行降序排列,得到擁擠度 序; (10) 生成新的父代種群: 將二倍種群中每個個體按照非支配序從小到大排列,相同的非支配序個體之間按照擁 擠度序從大到小排列,從排列好的二倍種群中選擇前一半個體組成新的父代種群; (11) 判斷迭代次數(shù)是否小于50,若是,將迭代次數(shù)加1,執(zhí)行步驟(4);否則,執(zhí)行步驟 (12); (12) 選擇最優(yōu)個體: 計算父代種群中每個個體的評價函數(shù)值,將父代種群中評價函數(shù)值最大的個體作為父 代種群中的最優(yōu)個體; (13) 計算最優(yōu)個體的精確值: 按照下式,計算父代種群中的最優(yōu)個體的精確值:其中,CR表示父代種群中最優(yōu)個體的精確值,E表示求和操作,R表示父代種群中個體 u所包含的數(shù)據(jù)點個數(shù),i表示父代種群個體u中的任意一個數(shù)據(jù)點,C表示父代種群中個 體V所包含的數(shù)據(jù)點個數(shù),j表示父代種群個體V中的任意一個數(shù)據(jù)點,u、V分別表示父代 種群中的任意兩個個體,Ii lj表示同時出現(xiàn)在簇u i和簇V i中的數(shù)據(jù)點的個數(shù),n表示輸入的 待聚類數(shù)據(jù)集的數(shù)據(jù)點個數(shù),Ii1表示只出現(xiàn)在簇U1中的數(shù)據(jù)點個數(shù),n ,表示只出現(xiàn)在簇u , 中的數(shù)據(jù)點個數(shù),U1表示父代種群中個體u中任意一個簇,V i表示父代種群中個體V中的 任意一個簇。2. 根據(jù)權利要求1所述的基于最小生成樹的集成多目標進化自動聚類方法,其特征在 于,步驟(2a)所述的待聚類基因數(shù)據(jù)集的類別數(shù)區(qū)間是指,當c>2時,待聚類基因數(shù)據(jù)集的 類別數(shù)區(qū)間為[c-2, c+2],當c < 2時,待聚類基因數(shù)據(jù)集的類別數(shù)區(qū)間為[2, c+2],其中, c表示待聚類基因數(shù)據(jù)集的真實類別數(shù)。3. 根據(jù)權利要求1所述的基于最小生成樹的集成多目標進化自動聚類方法,其特征在 于,步驟^b)中所述的投票法的具體步驟如下: 第1步,計算最小生成樹中每個節(jié)點表示的數(shù)據(jù)點出現(xiàn)在每個子生成樹中的次數(shù); 第2步,當最小生成樹中的節(jié)點表示的數(shù)據(jù)點出現(xiàn)在某個子生成樹中的次數(shù)大于或等 于2時,判定該數(shù)據(jù)點屬于該子生成樹。4. 根據(jù)權利要求1所述的基于最小生成樹的集成多目標進化自動聚類方法,其特征在 于,步驟(9)中所述二倍種群中的每個個體的擁擠度是按照下式計算得到的:其中,I (Cl1)表示二倍種群中第i個個體的擁擠度,E表示求和操作,i表示二倍種群中 的任意一個個體,G表示屬于符號,n表示二倍種群的個體數(shù)量,p (i+1)表示在目標函數(shù)取 值上大于且最接近第i個個體的個體函數(shù)值,P (i-1)表示在目標函數(shù)取值上小于且最接近 第i個個體的個體函數(shù)值。5. 根據(jù)權利要求1所述的基于最小生成樹的集成多目標進化自動聚類方法,其特征在 于,步驟(12)中所述的父代種群中每個個體的評價函數(shù)值是按照下式計算得到的: ^>(D) ^lCS(D)-IcS(D) 其中,巾(D)表示父代種群中個體D的評價函數(shù)值,D表示父代種群中的任意一個個體, 瓦玄設)表示對父代種群中個體D的類內相似性進行歸一化處理的值,@(D)表示對父代 種群中個體D的類間相似性進行歸一化處理的值。
【專利摘要】本發(fā)明提出了一種基于最小生成樹的集成多目標進化自動聚類方法,克服了現(xiàn)有技術中對高維數(shù)據(jù)集處理效果不佳的問題。其實現(xiàn)步驟是:(1)輸入待聚類的基因數(shù)據(jù)集;(2)初始化;(3)設定迭代參數(shù);(4)計算簇間相似性;(5)生成最小生成樹;(6)斷開最小生成樹;(7)合并種群;(8)快速非支配排序;(9)計算擁擠度;(10)生成新的父代種群;(11)判斷迭代次數(shù)是否小于50;(12)選擇最優(yōu)個體;(13)計算最優(yōu)個體的精確值;本發(fā)明提出的方法運行速度快,可有效地對各種基因數(shù)據(jù)集進行聚類分析,不需要預先設定數(shù)據(jù)集的類別數(shù),能夠應用于生物醫(yī)學識別、腫瘤檢測等領域中存在的高維度數(shù)據(jù)分析。
【IPC分類】G06K9/62
【公開號】CN105139037
【申請?zhí)枴緾N201510560024
【發(fā)明人】劉若辰, 焦李成, 羅婉菁, 卞仁玉, 張向榮, 李陽陽
【申請人】西安電子科技大學
【公開日】2015年12月9日
【申請日】2015年9月6日