一種基于特征辨識度和獨立性的特征選擇方法及應用
【專利摘要】本發(fā)明涉及一種基于特征辨識度與獨立性的特征選擇方法和應用,其是以特征辨識度度量特征的類間判別能力,以特征獨立性度量特征間的相關關系,計算出每個特征的重要度值,并按照降序排列,選擇重要度遠高于其余特征重要度的前k個特征構(gòu)成類別區(qū)分性能高的特征子集,在腫瘤基因表達譜數(shù)據(jù)應用中所選擇的差異表達基因子集獲得較好的時間性能和類別區(qū)分性能,本發(fā)明計算簡單,時間復雜度低,選擇效率高,為腫瘤等疾病在臨床上的診斷和判別提供參考。
【專利說明】
一種基于特征辨識度和獨立性的特征選擇方法及應用
技術(shù)領域
[0001] 本發(fā)明涉及基于特征辨識度和獨立性的特征選擇方法及其在腫瘤基因表達譜數(shù) 據(jù)中的應用,具體涉及針對生物信息學腫瘤表達譜基因數(shù)據(jù)挖掘分析的預處理技術(shù)領域, 是一種針對腫瘤基因表達譜的基因選擇方法。
【背景技術(shù)】
[0002] 含有大量冗余和無關特征的高維數(shù)據(jù)的涌現(xiàn),給機器學習和數(shù)據(jù)挖掘算法帶來巨 大挑戰(zhàn)。特征選擇在保持數(shù)據(jù)分類能力不變前提下,從原始特征集中選擇與類別高度相關、 相互間盡可能不相關且蘊含原始特征集合大部分或全部分類信息的特征構(gòu)成特征子集,使 建立在該特征子集的分類模型更精確和易理解,有較好解釋性,泛化能力好,計算效率高, 同時降低了 "維數(shù)災難"對算法的影響,使數(shù)據(jù)分析結(jié)果可視化成為可能。
[0003] 微陣列技術(shù)一次性可以獲取大量的表達基因,為腫瘤等疾病提供了全新的治療手 段。然而,基因表達譜數(shù)據(jù)具有高維小樣本特點,且存在大量冗余和不相關基因,給基因數(shù) 據(jù)集的分類分析和疾病的診斷帶來影響。特征(基因)選擇可以從成千上萬的基因中剔除冗 余和與疾病分類不相關的基因,保留具有高類別區(qū)分能力的基因,這不但可以提高疾病的 分類識別和預測的準確率,降低疾病診斷時間,減少臨床診斷費用,并可促進相應藥物的研 發(fā),具有重要的生物學意義。
[0004] 特征選擇算法研究主要包括兩部分:特征子集搜索和特征子集評估。不同特征搜 索策略導致了不同特征選擇方法。依據(jù)特征選擇過程與訓練分類模型的學習算法的依賴關 系,特征選擇算法分為Fi I ter方法和Wrapper方法兩大類。Fi I ter方法獨立于學習過程,直 接根據(jù)某種特征評價準則定義特征重要度,選擇重要特征構(gòu)成特征子集,該方法計算效率 高、泛化性能好,適用于大規(guī)模高維度空間的特征選擇任務。Re lief、CFS (Corre Iat ion based Feature Selector)和mRMR(maximal relevance-minimal redundancy)是經(jīng)典的 Fi I ter特征選擇方法。由于Fi I ter方法自身的特點,大部分基于Fi I ter方法的特征選擇方 法在評價特征重要度時,認為每個特征都是孤立的,并沒有考慮到特征間的相關或冗余關 系,如卡方檢驗、相似性度量、信息增益、混信息、Re I i ef和AUC等特征評價準則。為了改善 F i 11 er方法中的缺陷和不足,同時保留其效率高、泛化性能好的優(yōu)點,Guy ou等人提出最大 相關最小冗余的方法,Wang等人基于層次聚類的方法和Song等基于無向完全圖的方法等都 取得不錯的效果。
[0005] Wrapper方法依賴于學習過程,特征子集產(chǎn)生過程依據(jù)建立在相應特征子集的分 類模型在驗證集的性能來完成,一般會選擇到比Fi Iter方法性能更優(yōu)、規(guī)模更小的特征子 集,但需多次訓練分類模型,時間開銷大,且在小樣本數(shù)據(jù)集上易產(chǎn)生"過擬合"問題。SVM-RFE(SVM Recursive Feature Elimination)和SVM_SFS(SVM Sequential Forward Search)屬于Wrapper方法,且在基因數(shù)據(jù)集上都取得不錯分類效果。集成Fi I ter方法的高 效和Wrapper方法的準確于一起的混合特征選擇方法能得到更優(yōu)特征子集,且時間復雜度 和Fi I ter相近,是特征選擇研究的一個熱點。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明針對特征選擇方法中現(xiàn)有技術(shù)的缺陷和不足以及在高維數(shù)據(jù)中存在的時 間瓶頸問題,提出了一種基于特征辨識度和獨立性的特征選擇方法,計算時間復雜度低、選 擇效率高,尤其對高維、小樣本的基因表達譜數(shù)據(jù)具有較好的時間性能和分類效果。
[0007] 同時將該方法應用到腫瘤基因表達譜數(shù)據(jù)中,有效選擇基因子集,為醫(yī)學界提供 有效的信息參考。
[0008] 本發(fā)明為了實現(xiàn)上述目的所采用的技術(shù)方案是該基于特征辨識度與獨立性的特 征選擇方法由以下步驟組成:
[0009] (1)計算每個特征的辨識度
[0010] 根據(jù)特征權(quán)重計算方法計算出數(shù)據(jù)集〇中每個特征的權(quán)重Wi,該數(shù)據(jù)集表示為D = {父1而「_丄:^1^><",其中包含111個樣本,每個樣本的特征數(shù)為1 1,第1個特征為心,1幻<11; 利用權(quán)重Wi計算出每個特征的辨識度di Si,表達為:
[0011] disi=Wi ;
[0012] (2)計算每個特征的獨立性
[0013]根據(jù)步驟(1 )所計算的每個特征的辨識度d i s i,利用
汁算出數(shù)據(jù)集D中每個特征的獨 立性indi,其中r為特征間Pearson相關系數(shù)絕對值,fi為第i個特征,fj為第j個特征,Kj彡 11,且_]_乒;[;
[0014] (3)計算特征的重要度Score
[0015] 利用步驟(1)所得每個特征的辨識度diSl和步驟(2)所得每個特征的獨立性incU, 根據(jù)下式計算出每個特征的重要度Scorei;
[0016] Scorei = disi X indi
[0017] (4)確定特征子集
[0018] 根據(jù)每個特征的重要度Score1,對數(shù)據(jù)集D中的所有特征的重要度值降序排列,選 取其中重要度明顯高于其余特征重要度的前k個特征,l<k<n,組成包含有k個優(yōu)選特征的 特征子集。
[0019] 上述步驟(1)中特征權(quán)重計算方法具體可以選擇以下方法之一:
[0020] I )Wi Icoxon秩和檢驗方法
[0021]禾
計算出數(shù)據(jù)集D中每個特征的Wi Icoxon 秩和檢驗值,其中是判別函數(shù)和分別表示第^1和^個樣本的第乜個特征值,
成立,則;取值為1,否則取值〇;仏,見分別代表二類數(shù)據(jù)集中每類 樣本的個數(shù);
[0022] 根據(jù)所得Wilcoxon秩和檢驗值$/;,利用Wi = max[N0*Ni-S(fi),S(fi)]計算出每個 特征對應的權(quán)值Wi;
[0023] 2)D_Score 方法
[0024] 對數(shù)據(jù)集D中每個特征的權(quán)重計算方法定義為下式:
[0025]
[0026] 其中,Di表示數(shù)據(jù)集D中第fi個特征的D-Score值,即第fi個特征的權(quán)重,c為數(shù)據(jù)集 的類別個數(shù),;,別為第i個特征在整個數(shù)據(jù)集和第j'類數(shù)據(jù)集上的均值,xif為第 j'類中第V個樣本點在第i個特征的特征值,Ilf表示第j'類數(shù)據(jù)集上的樣本個數(shù);
[0027] 3)基于互信息的方法
[0028]互信息用于評價兩個特征之間或特征與類標的相關性,計算公式如下:
[0029] I(fi,Y)=H(Y)-H(Y|fi)
[0030] 其中,Y表示數(shù)據(jù)集D的類標向量;I (f i, Y)表示數(shù)據(jù)集D中每個特征與類標向量Y之 間的互信息值,即特征匕的權(quán)重;H(Y)為類標向量Y的信息熵;H(Ylf1)為在特征6取值確定 條件下類標向量Y的信息熵;
[0031] 4)基于對稱不確定性的方法
[0032] 基于對稱不確定性方法的計算公式如下:
[0033]
[0034] 其中,SU(f i,Y)表示數(shù)據(jù)集中特征f i的對稱不確定性值,即特征權(quán)重;I (f i,Y)表示 數(shù)據(jù)集D中每個特征與類標向量Y之間的互信息值;!Kf1)和H(Y)分別表示每個特征的信息 熵和類標向量的信息熵。
[0035] hi術(shù)步碟(2)中特征間Pearson相關系數(shù)絕對值r的計算方法為:
[0036]
[0037] 式⑷中,Xi,Yi表示兩個待求相關系數(shù)的特征向量,X1是特征向量Xi的均值,Y丨表 示特征向量Yi的均值。
[0038] 上述步驟(3)具體可以是:以步驟(1)所得的辨識度為橫坐標,步驟(2)的獨立性為 縱坐標,確定出每個特征在坐標軸中的位置,即構(gòu)造特征獨立性與辨識度散點圖,則每個特 征對應的重要度Score 1即為辨識度與獨立性所圍成的矩形面積,表示為:
[0039] Scorei = disi X indi〇
[0040] 上述步驟(4)具體可以是:以每個特征的重要度Score1為縱軸、特征的個數(shù)為橫軸 建立坐標,描繪出每個特征在坐標中的位置,即得到重要度值降序排列所得的特征點集,沿 著縱坐標自上而下選取前k個特征點,組成優(yōu)選特征子集。
[0041] 上述的基于特征辨識度和獨立性的特征選擇方法可以在腫瘤基因表達譜數(shù)據(jù)中 的應用,其具體的實現(xiàn)方法包括以下步驟:
[0042] (1)將腫瘤基因表達譜數(shù)據(jù)按照下式的最大最小化方法進行基因標準化,記D = {X1; X2;…;Xm} G Rmxn,其中包含m個樣本,每個樣本的基因數(shù)為n,第i個基因表示為f i,1彡i ^n;
[0043]
[0044]其中,gi,v表示第i個基因在第V個樣本上的表達值,max(gi)表示第i個基因的最大 值,min(gi)表示第i個基因的最小值;
[0045] (2)將標準化后的基因數(shù)據(jù)集劃分為訓練集和測試集,用Wilcoxon秩和檢驗方法 度量訓練集中每個基因的權(quán)值,并用K-means聚類分析,從各類簇中保留權(quán)重大于該簇平均 特征權(quán)重的基因,構(gòu)成預選擇基因子集,即{fl,f2,…,ft,"_,fl},其中,/_□
[0046] (3)根據(jù)步驟(2)的預選擇基因子集中每個基因?qū)臋?quán)重值計算出每個基因?qū)?應的辨識度,表示為:
[0047] disi=Wi ;
[0048] ( 4 )根據(jù)步驟(3 )所計算的每個基因?qū)谋孀R度d i s i,利用
十算出數(shù)據(jù)集中對應基因的獨立 性,其中r為特征間Pearson相關系數(shù)絕對值,fi為第i個基因,fj為第j個基因,KjSnjj
[0049] (5)利用步驟(3)所得每個特征的辨識度diSl和步驟(4)所得每個特征的獨立性 incU,根據(jù)下式計算出預選擇基因子集中每個基因?qū)闹匾萐core1;
[0050] Scorei = disi X indi
[0051 ] (6)依據(jù)每個基因的重要度值序列{Scorei,Score〗,…,Scoret,…,Scorei },對其 進行降序排序,得到新的基因重要度值序列{ScorepI,ScoreP2,…,Score pt,…,ScorepI },此 時對應的基因重要度序列為{心1,42,一,4*,一,仇1},選取前1^個重要度遠大于其余基因重 要度的優(yōu)選基因組成基因子集,即{f pl,fp2,fp3,…,fPk},其中M /。
[0052]上述步驟(6)之后還可以包括步驟(7),具體是:根據(jù)最終基因子集獲取降維后的 訓練數(shù)據(jù)集eiTlXi,將該訓練數(shù)據(jù)集£>& GiTxt與測試數(shù)據(jù)集Div e iT2xA,作為SVM 分類器的輸入數(shù)據(jù),測試該最終基因子集分類性能。
[0053]步驟(2)中劃分基因數(shù)據(jù)集的方法采用bootstrap方法或k-折交叉驗證法。
[0054]與已有技術(shù)相比,本發(fā)明的有益效果主要是:
[0055] (1)本發(fā)明提出的基于特征辨識度和獨立性的特征選擇方法,屬于特征選擇方法 中的Filter方法,在克服Filter方法因自身特點而沒有考慮特征間冗余和與分類分析任務 不相關特征的同時,還保留了該方法效率高的特性。
[0056] (2)本發(fā)明提出的特征選擇方法采用Wi Icoxon秩和檢驗技術(shù)度量特征權(quán)重,采用 K-means聚類技術(shù)對特征進行聚類,根據(jù)同一類簇內(nèi)特征相關性高、不同類簇內(nèi)相關性低的 特點,將部分高度冗余特征識別并刪除。一方面,可以降低冗余或噪音特征對實驗結(jié)果的影 響,另一方面,可以降低數(shù)據(jù)維度,加快特征選擇過程。
[0057] (3)本發(fā)明提出的特征選擇方法定義特征辨識度來度量特征的類別區(qū)分能力,定 義特征獨立性度量特征間的相關性,并將特征重要度在二維坐標系中以辨識度、獨立性與 坐標系所圍矩形面積來表示,使得任意維度、任意空間分布的特征重要度均可在2維空間展 不。
[0058] (4)本發(fā)明提出的特征選擇方法時間復雜度低,解決現(xiàn)有特征選擇方法的時間瓶 頸問題,尤其對高維、小樣本的基因表達譜數(shù)據(jù)具有較好的時間性能和分類效果,為腫瘤等 疾病在臨床上的診斷和判別提供參考。
【附圖說明】
[0059] 圖1為本發(fā)明特征選擇方法在實施例1中數(shù)據(jù)集上的特征對應所圍矩形面積的散 點圖表示。
[0060] 圖2為本發(fā)明特征選擇方法在實施例1中數(shù)據(jù)集上的特征重要度降序排序結(jié)果的 散點圖表示。
[0061] 圖3為本發(fā)明提出的基于特征辨識度和獨立性的特征選擇方法在腫瘤基因表達譜 數(shù)據(jù)中應用的流程圖。
[0062] 圖4為本發(fā)明特征選擇方法在CNS基因數(shù)據(jù)集上的平均分類準確率曲線圖。
[0063]圖5為本發(fā)明特征選擇方法在CNS基因數(shù)據(jù)集上的平均AUC值曲線圖。
【具體實施方式】
[0064]以下結(jié)合附圖和具體實施例對本發(fā)明技術(shù)方案作進一步說明。
[0065] 實施例1
[0066] 本實施例基于特征辨識度和獨立性的特征選擇方法由如下步驟實現(xiàn):
[0067] (1)隨機生成符合正態(tài)分布的第一類數(shù)據(jù)集D1,表示Sd1=UuXw^x iqI GRiq X5Q,隨機生成符合正態(tài)分布的第二類數(shù)據(jù)集D2,表示為D2 = {Xn; X12;…;X2Q} e R1()x5(),數(shù)據(jù)集 Di和D2都分別包含10個樣本,每個樣本有50個特征。將數(shù)據(jù)集Di和D2合并為數(shù)據(jù)集D,表示為 D = (X1;X2;…;X2q} e R2qx5q,其中包含20個樣本,分布在2個類別中,每個樣本包含有50個特 征,之后利用bootstrap方法劃分數(shù)據(jù)集,得到訓練集和測試集。
[0068] (2)計算每個特征的辨識度
[0069 ] (2.1)利用Wi I coxon秩和檢驗方法計算出數(shù)據(jù)集D中每個特征的權(quán)重Wi,具體是:
[0070]利用公j
計算出數(shù)據(jù)集D中每個特征的 Wi I coxon秩和檢驗值;其中% 是判別函數(shù),j和Iv j分別表示第V1和V個樣本在第fi 個特征值,若(又;id,;;+) S O成立,則Z(D)取值為I,否則取值ο; No,他分別代表二類數(shù) 據(jù)集中每類樣本的個數(shù),第i個特征為f1;
[0071 ] 根據(jù)所得Wilcoxon秩和檢驗值&丨:,利用Wi=max[No*Ni-S(fi),S(fi)]計算出每個 特征對應的權(quán)值Wi,I Si Sn;
[0072] (2.2)根據(jù)每個特征的權(quán)重Wi計算出每個特征對應的辨識度diSi,表達為:
[0073] disi=Wi ;
[0074] (3)計算每個特征的獨立性
[0075]根據(jù)步驟(1 )所計算的每個特征對應的辨識度d i s i,利用
計算出數(shù)據(jù)集D中每個特征的獨 立性indi,
[0076]其中:fi為第i個特征,fj為第j個特征,1彡j<n,且j辛i,r為特征間Pearson相關系 數(shù)絕對值,其具體的計算方法為:
[0077]
[0078] 式⑷中,示兩個待求相關系數(shù)的特征向量,$是特征向量&的均值,^表 示特征向量Yi的均值。
[0079] (4)計算特征的重要度Score
[0080] 以步驟(1)所得的辨識度為橫坐標,步驟(2)的獨立性為縱坐標,確定出每個特征 在坐標軸中的位置,即構(gòu)造特征獨立性與辨識度散點圖,如圖1,則每個特征對應的重要度 Score1即為辨識度與獨立性所圍成的矩形面積,表示為:
[0081] Scorei = disi X indi〇
[0082] (5)確定特征子集
[0083]以每個特征的重要度Scorei為縱軸、特征的個數(shù)為橫軸建立坐標,描繪出每個特 征在坐標中的位置,即圖2所示,即得到重要度值降序排列所得的特征點集,沿著縱坐標自 上而下選取前k個特征點,組成優(yōu)選特征子集。
[0084] 本實施例中,通過度量準則Score度量特征重要性,分類性能好的特征其得分較 高,冗余或噪音特征得分較低。將50個特征的重要度Score以其對應的辨識度、獨立性與二 維坐標系的坐標軸所圍矩形面積的散點圖表示,其效果圖如圖1所示。特征重要度的降序排 序結(jié)果在二維坐標系中的散點圖表示如圖2所示。如圖1圖2所示,50個特征中,第48,39和26 個特征具有較好的類別區(qū)分性能,以此作為最終特征子集。
[0085] 將得到的最終特征子集對應的訓練集和測試集在SVM分類器中訓練和測試,可以 得到100%完全正確分類的效果,而且當特征子集規(guī)模為1(第48個特征)和2(第48和39個特 征)時,在SVM分類器中的分類正確率為74.72 %和89.81 %,說明本發(fā)明中提供的特征選擇 方法所選擇的特征子集具有較好的分類性能。
[0086] Kruskal Wallis秩和檢驗是對Wilcoxon秩和檢驗的擴展,當對于多類的數(shù)據(jù)集 時,可以采用Kruskal Wallis秩和檢驗法計算特征權(quán)重。
[0087] 實施例2
[0088] 本實施例的步驟(2)中,數(shù)據(jù)集D中每個特征的權(quán)重W1的計算方法還可以用D-Score方法進行計算,D-Score是一種基于類內(nèi)、類間距離的特征權(quán)重計算方法,具體計算公 式如下,
[0089]
[0090] 其中,Di表示數(shù)據(jù)集D中第fi個特征的D-Score值,即第fi個特征的權(quán)重,c為數(shù)據(jù)集 的類別個數(shù),^分別為第i個特征在整個數(shù)據(jù)集和第j '類數(shù)據(jù)集上的均值,xif為第 j'類中第V個樣本點在第i個特征的特征值。
[0091] 其他的步驟與實施例1相同。
[0092] 實施例3
[0093]本實施例的步驟(2)中,數(shù)據(jù)集D中每個特征的權(quán)重Wi的計算方法還可以用基于互 信息的方法進行計算,互信息用于評價兩個特征之間或特征與類標的相關性,計算公式如 下:
[0094] I(fi,Y)=H(Y)-H(Y|fi)
[0095] 其中,Y表示數(shù)據(jù)集的類標向量;I (f i, Y)表示數(shù)據(jù)集中特征f i與類標向量Y之間的 互信息值,即特征6的權(quán)重;H(Y)為類標向量Y的信息熵;H(Ylf1)為在特征匕取值確定條件 下類標向量Y的信息熵。
[0096] 對于連續(xù)型特征來說,需提前對其進行離散化。
[0097]其他的步驟與實施例1相同。
[0098] 實施例4
[0099] 本實施例的步驟(2)中,數(shù)據(jù)集D中每個特征的權(quán)重W1的計算方法還可以用基于對 稱不確定性的方法進行計算,對稱不確定性方法可以避免在利用互信息方法計算特征權(quán)重 時會更傾向于選擇那些取值點更分散的特征,其計算公式如下:
[0100]
[0101] 其中,SU(fi,Y)表示數(shù)據(jù)集中特征fi的權(quán)重;I (fi,Y)表示數(shù)據(jù)集中特征fi與類標 向量Y之間的互信息值;Hai)和H(Y)分別表示每個特征的信息熵和類標向量的信息熵。
[0102] 其他的步驟與實施例1相同。
[0103] 上述實施例1~4所記載的基于特征辨識度和獨立性的特征選擇方法可以在腫瘤 基因表達譜數(shù)據(jù)中的應用,具體如下:
[0104] 本實施例中,將本發(fā)明提供的基于特征辨識度和獨立性的特征選擇方法應用于于 腫瘤基因表達譜數(shù)據(jù)集的分類分析中,具體應用數(shù)據(jù)集D為二類數(shù)據(jù)集,其中包括結(jié)腸癌 Colon、中樞神經(jīng)系統(tǒng)胚胎細胞瘤CNS(Central Nervous System Embryonal Tumor)、白血 病Leukemia、上皮細胞癌Carcinoma和乳腺癌Breast Cancer疾病基因數(shù)據(jù)集,各基因數(shù)據(jù) 集具體信息如表1所示。
[0105] 衷1基閔數(shù)據(jù)集信息描沭
[0108] 下面以數(shù)據(jù)集CNS為例,參見圖3,具體的實現(xiàn)步驟為:
[0109] (1)將CNS基因表達譜數(shù)據(jù)按照下式的最大最小化方法進行基因標準化,記D = {X1;X2;…;X62}eR9()x7129,其中包含90個樣本,每個樣本的基因數(shù)為7129,第i個基因表示為 fi(l彡i彡7129)。
[0110]
[0111]其中,gi,v表示第i個基因在第V個樣本上的表達值,max(gi)表示第i個基因的最大 值,min(gi)表示第i個基因的最小值;
[0112] (2)將標準化后的基因數(shù)據(jù)集使用bootstrap方法劃分為訓練集和測試集,假設訓 練集中樣本個數(shù)為mi,測試集中樣本個數(shù)為m2;用Wi Icoxon秩和檢驗方法度量訓練集中每個 基因的權(quán)值,然后用K-means聚類分析,從各類簇中保留權(quán)重大于該簇平均特征權(quán)重的基 因,構(gòu)成預選擇基因子集,即出山,~,5,~彳1},其中,?口7129 ;
[0113] (3)根據(jù)步驟(2)的預選擇基因子集中每個基因?qū)臋?quán)重值計算出每個基因?qū)?應的辨識度,表示為:
[0114] disi=Wi ;
[0115] ( 4 )根據(jù)步驟(3 )所計算的每個基因?qū)谋孀R度,利用
十算出數(shù)據(jù)集中對應基因的獨立 性,其中r為特征間Pearson相關系數(shù)絕對值,fi為第i個基因,fj為第j個基因;
[0116] (5)利用步驟(3)所得每個特征的辨識度和步驟(4)所得每個特征的獨立性,根據(jù) 下式計算出預選擇基因子集中每個基因?qū)闹匾戎担?br>[0117] Scorei = disi X indi
[0118] (6)依據(jù)每個基因的重要度值序列{Scorei,Score2,…,Scoret,…,Scorei},對其 進行降序排序,得到新的基因重要度值序列{ScorepI,ScoreP2,…,Score pt,…,ScorepI },此 時對應的基因重要度序列為{fpl,fp2,…,fPt,"_,f Pi},選取前50個具有最大Score的基因作 為最終基因子集,即{f Pl,f p2,f p3,…,f p5q },其中50 □ /。
[0119] (7)根據(jù)最終基因子集獲取降維后的訓練數(shù)據(jù)集Z^eZTix'將該訓練數(shù)據(jù)集 iTlX5<)與測試數(shù)據(jù)集e i^x5<),作為SVM分類器的輸入數(shù)據(jù),測試該最終基因子集 分類性能。
[0120]上述步驟(2)在標準化后的基因數(shù)據(jù)集還可以采用k-折交叉驗證法進行劃分,k-折交叉驗證法和bootstrap方法均屬于常規(guī)的數(shù)據(jù)集劃分方法。
[0121]為了驗證本發(fā)明的有益效果,并將本發(fā)明提供的基因選擇方法與常用的Weight、 mRMR、SVM-RFE、Re I i ef和ARCO算法進行比較,其中:
[0122] I、Weight是一種基于權(quán)重策略與K-means聚類方法的特征選擇方法,是集Filter 方法和Wrapper方法的混合特征選擇方法。
[0123] 2、mRMR方法基于理想的特征子集,不僅滿足特征和類標的相關性盡可能大,而且 滿足特征子集中的特征之間冗余度盡可能低的思想,利用互信息度量特征與類標和特征之 間的相關性來實現(xiàn)特征選擇。
[0124] 3、SVM-RFE是一種典型的Wrapper方法,利用支持向量機權(quán)重向量對特征重要性進 行評估,并從原始數(shù)據(jù)集中逐個剔除對分類器貢獻小的特征,保留下的特征即為最優(yōu)特征 子集。
[0125] 4、Relief方法假設相互靠近且同類的樣本之間應彼此相似,而相互靠近但不同類 的樣本應相當不同,是一種特征權(quán)重算法,利用各個特征和類別的相關性度量特征不同的 權(quán)重,權(quán)重小于某個閾值的特征將被移除。
[0126] 5、ARC0是基于AUC最大化與mRMR框架的特征選擇方法,使得所選特征子集中特征 不僅具有較強的分類性能,且相互之間冗余度低。
[0127] 將本發(fā)明的步驟重復運行100次,基因子集的分類性能以平均正確率和平均AUC (Area under an ROC curve ,Receiver operating characteristic curve,R0C)值來評 價,得到6種方法隨基因子集規(guī)模大小而變化的平均正確率Acc和平均AUC曲線圖,分別如圖 4和圖5所示。
[0128] 從圖4和圖5中實驗結(jié)果可以看出:本發(fā)明提供的基因選擇方法在CNS基因數(shù)據(jù)集 的應用上得到了較好的分類效果,在所選基因子集規(guī)模大于10時,本發(fā)明中的基因選擇方 法所選基因子集的分類性能最優(yōu),當所選基因子集規(guī)模小于10時,從圖4可見,本發(fā)明中基 因選擇方法所選基因子集的分類性能和對比算法We i ght、mRMR和ARCO相當,均優(yōu)于SVM-RFE 和Relief算法;從圖5可見,本發(fā)明中基因選擇方法所選基因子集的分類性能僅次于ARCO算 法。
[0129] 將本發(fā)明提供所提供特征選擇方法和其它5種方法的平均運行時間進行比較,結(jié) 果如表2所示。
[0130] 表2 6種特征選擇方法在CNS基因數(shù)據(jù)集上的平均運行時間比較
[0132] 從表2本發(fā)明中基因選擇方法和其它5種對比方法的平均時間對比可見,本發(fā)明中 基因選擇方法在CNS數(shù)據(jù)集上運行一次的平均時間僅為0.31秒,其效率性能均優(yōu)于其它對 比方法。
[0133] 綜上所述,本發(fā)明提出的特征選擇方法可以選擇出有效的特征區(qū)分子集,并且具 有較好的時間性能,尤其在腫瘤基因表達譜數(shù)據(jù)的應用中,其對應的基因子集具有較高的 分類效果和時間性能,為腫瘤等疾病的診斷研究和藥物研發(fā)提供技術(shù)支持和理解手段,具 有重要的生物學意義。
【主權(quán)項】
1. 一種基于特征辨識度與獨立性的特征選擇方法,其特征在于由W下步驟組成: (1) 計算每個特征的辨識度 根據(jù)特征權(quán)重計算方法計算出數(shù)據(jù)集D中每個特征的權(quán)重Wi,該數(shù)據(jù)集表示為D={Xi; 拉;…;Xm}erxn,其中包含m個樣本,每個樣本的特征數(shù)為n,第i個特征為利用 權(quán)重Wi計算出每個特征的辨識度di Si,表達為: disi=wi; (2) 計算每個特征的獨立性 根據(jù)步驟(1 )所計算的每個特征的辨識度d i S 1,利用計算出數(shù)據(jù)集D中每個特征的獨 立性indi,其中r為特征間Pearson相關系數(shù)絕對值,fi為第i個特征,。為第j個特征,1刮《 n,且j聲i; (3) 計算特征的重要度Score 利用步驟(1)所得每個特征的辨識度disi和步驟(2)所得每個特征的獨立性indi,根據(jù) 下式計算出每個特征的重要度Score。 Scorei = disi X indi (4) 確定特征子集 根據(jù)每個特征的重要度Scorei,對數(shù)據(jù)集D中的所有特征的重要度值降序排列,選取其 中重要度明顯高于其余特征重要度的前k個特征,l<k<n,組成包含有k個優(yōu)選特征的特征 子集。2. 根據(jù)權(quán)利要求1所述的基于特征辨識度和獨立性的特征選擇方法,其特征在于步驟 (1)中所述的特征權(quán)重計算方法具體是W下方法之一: 1. Wilcoxon秩和檢驗方法 利用計算出數(shù)據(jù)集D中每個特征的Wilcoxon秩和檢 驗值,其中x( ·)是判別函數(shù),本.ι,?和分別表示第VI和V個樣本的第fi個特征值,若 (不,W -X,.,,:)言0誠立,則x(.)取值為1,否則取值〇;N。,化分別代表二類數(shù)據(jù)集中每類樣 本的個數(shù); 根據(jù)所得胖;[1。(^〇]1秩和檢驗值》5'^^.,利用*1=max陽〇*化-5(f i), S (f i)]計算出每個特征對 應的權(quán)值Wi; 2. D-Score 方法 對數(shù)據(jù)集D中每個特征的權(quán)重計算方法定義為下式:其中,Di表示數(shù)據(jù)集D中第fi個特征的D-Score值,即第fi個特征的權(quán)重,c為數(shù)據(jù)集的類 別個數(shù),石,方'> 分別為第i個特征在整個數(shù)據(jù)集和第j '類數(shù)據(jù)集上自勺均值,成為第j '類 中第V個樣本點在第i個特征的特征值,表示第j'類數(shù)據(jù)集上的樣本個數(shù); 3) 基于互信息的方法 互信息用于評價兩個特征之間或特征與類標的相關性,計算公式如下: I(fi,Y)=H(Y)-H(Y|fi) 其中,Y表示數(shù)據(jù)集D的類標向量;I(fi,Y)表示數(shù)據(jù)集D中每個特征與類標向量Y之間的 互信息值,即特征fi的權(quán)重;H(Y)為類標向量Y的信息賭;H(Y|fi)為在特征fi取值確定條件 下類標向量Y的信息賭; 4) 基于對稱不確定性的方法 基于對稱不確定性方法的計算公式如下:\ - I / 、 / 其中,SU(fi,Y)表示數(shù)據(jù)集中特征fi的對稱不確定性值,即特征權(quán)重;I(fi,Y)表示數(shù)據(jù) 集D中每個特征與類標向量Y之間的互信息值;H(fi)和H(Y)分別表示每個特征的信息賭和 類標向量的信息賭。3. 根據(jù)權(quán)利要求1所述的基于特征辨識度和獨立性的特征選擇方法,其特征在于所述 步驟(2)中特征間化arson相關系數(shù)絕對值r的計算方法為:式(4)中,Χι,Υ康示兩個待求相關系數(shù)的特征向量是特征向量Xi的均值表示特 征向量Yi的均值。4. 根據(jù)權(quán)利要求1所述的基于特征辨識度和獨立性的特征選擇方法,其特征在于所述 步驟(3)具體是步驟(1)所得的辨識度為橫坐標,步驟(2)的獨立性為縱坐標,確定出每 個特征在坐標軸中的位置,即構(gòu)造特征獨立性與辨識度散點圖,則每個特征對應的重要度 Scorei即為辨識度與獨立性所圍成的矩形面積,表示為: Scorei = disi X indiD5. 根據(jù)權(quán)利要求1所述的基于特征辨識度和獨立性的特征選擇方法,其特征在于所述 步驟(4)具體是每個特征的重要度Scorei為縱軸、特征的個數(shù)為橫軸建立坐標,描繪出 每個特征在坐標中的位置,即得到重要度值降序排列所得的特征點集,沿著縱坐標自上而 下選取前k個特征點,組成優(yōu)選特征子集。6. 權(quán)利要求1所述的基于特征辨識度和獨立性的特征選擇方法在腫瘤基因表達譜數(shù)據(jù) 中的應用。7. 根據(jù)權(quán)利要求6所述的基于特征辨識度和獨立性的特征選擇方法在腫瘤基因表達譜 數(shù)據(jù)中的應用,其具體的實現(xiàn)方法包括W下步驟: (1) 將腫瘤基因表達譜數(shù)據(jù)按照下式的最大最小化方法進行基因標準化,記D={Xi; X2r'';Xm}eRmxn,其中包含m個樣本,每個樣本的基因數(shù)為n,第i個基因表示為其中,gi,v表示第i個基因在第V個樣本上的表達值,max(gi)表示第i個基因的最大值, min(gi)表示第i個基因的最小值; (2) 將標準化后的基因數(shù)據(jù)集劃分為訓練集和測試集,用Wilcoxon秩和檢驗方法度量 訓練集中每個基因的權(quán)值,并用K-means聚類分析,從各類簇中保留權(quán)重大于該簇平均特征 權(quán)重的基因,構(gòu)成預選擇基因子集,即也,f2,…,ft,…,fl},其中,l<<n; (3) 根據(jù)步驟(2)的預選擇基因子集中每個基因?qū)臋?quán)重值計算出每個基因?qū)?辨識度,表示為: disi=wi; (4 )根據(jù)步驟(3 )所計算的每個基因?qū)谋孀R度d i S 1,利用十算出數(shù)據(jù)集中對應基因的獨立 性,其中r為特征間化arson相關系數(shù)絕對值,fi為第i個基因,fj為第j個基因,且j 聲i; (5) 利用步驟(3)所得每個特征的辨識度disi和步驟(4)所得每個特征的獨立性indi,根 據(jù)下式計算出預選擇基因子集中每個基因?qū)闹匾萐core。 Scorei = disi X indi (6) 依據(jù)每個基因的重要度值序列{Scorei, Scores,· · ·,Scoret,· · ·,Scorei},對其進行降 序排序,得到新的基因重要度值序列 {Scorepi,Scorep2,…,Scorept,···,Scorepi},此時對應的基因重要度序列為 (fpl,fp2,…,fpt,…,fpl},選取前k個重要度遠大于其余基因重要度的優(yōu)選基因組成基 因子集,即陽1山2山3,。'山山其中1^<<1。8. 根據(jù)權(quán)利要求7所述的基于特征辨識度和獨立性的特征選擇方法在腫瘤基因表達譜 數(shù)據(jù)中的應用,其特征在于,所述步驟(6)之后還包括步驟(7),具體是: 根據(jù)最終基因子集獲取降維后的訓練數(shù)據(jù)集〇& £巧"iixt,將該訓練數(shù)據(jù)集。 與測試數(shù)據(jù)集E及"""4 :,作為SVM分類器的輸入數(shù)據(jù),測試該最終基因子集分類性能。9. 根據(jù)權(quán)利要求7所述的基于特征辨識度和獨立性的特征選擇方法在腫瘤基因表達譜 數(shù)據(jù)中的應用,其特征在于步驟(2)中劃分基因數(shù)據(jù)集的方法采用bootstrap方法或k-折交 叉驗證法。
【文檔編號】G06F19/24GK105938523SQ201610196013
【公開日】2016年9月14日
【申請日】2016年3月31日
【發(fā)明人】謝娟英, 王明釗
【申請人】陜西師范大學