欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于聚類的循環(huán)集成動態(tài)選擇方法

文檔序號:6367559閱讀:228來源:國知局
專利名稱:基于聚類的循環(huán)集成動態(tài)選擇方法
技術(shù)領(lǐng)域
基于聚類的循環(huán)集成動態(tài)選擇方法屬于數(shù)據(jù)挖掘的選擇性集成學(xué)習(xí)算法領(lǐng)域。
背景技術(shù)
作為人工智能的分支領(lǐng)域,機(jī)器學(xué)習(xí)主要參與設(shè)計和開發(fā)能夠使得計算機(jī)獨立進(jìn)行“學(xué)習(xí)”的算法和技木。目前分類器集成是機(jī)器學(xué)習(xí)和模式識別中比較活躍的領(lǐng)域。集成學(xué)習(xí)系統(tǒng)尤其是Boosting和Bagging決策樹,表現(xiàn)出比基學(xué)習(xí)系統(tǒng)更加強(qiáng)大的預(yù)測能力。目前集成分類器已在多個領(lǐng)域得到應(yīng)用,包括生物信息學(xué)、軟件重構(gòu)、人臉識別以及疾病診斷等.但是,大量的冗余基學(xué)習(xí)器會降低集成學(xué)習(xí)器的泛化性,同吋,隨著基學(xué)習(xí)器數(shù)量的增多,集成學(xué)習(xí)器預(yù)測的速度下降,存儲空間增多。正是考慮到集成學(xué)習(xí)中存在的種種問題,周志華等人首先提出了 “選擇性集成”的概念。選擇性集成學(xué)習(xí),首先通過獨立的訓(xùn)練多個基學(xué)習(xí)器,然后通過一定的選擇策略,從多個候選學(xué)習(xí)器中,選取ー些對當(dāng)前數(shù)據(jù)預(yù)測較好且各個學(xué)習(xí)器之間差異性較大的基學(xué)習(xí)器構(gòu)建集成學(xué)習(xí)器,得到更好的預(yù)測結(jié)果。 現(xiàn)有的選擇性集成學(xué)習(xí)算法主要分為4個方面?;诰垲惖姆椒?。Lazarevic和Obradovic通過基學(xué)習(xí)器得到的結(jié)果,基于歐式距離應(yīng)用K-均值聚類將基學(xué)習(xí)器進(jìn)行分組。Giacinto和Roli定義兩個基學(xué)習(xí)器之間的距離,通過層次凝聚的聚類算法來找到具有相似預(yù)測結(jié)果的基學(xué)習(xí)器子集?;谂判虻姆椒?。Bryll等人根據(jù)分類準(zhǔn)確性對特征子集進(jìn)行排序,選取秩數(shù)較高的一些子集所訓(xùn)練的基學(xué)習(xí)器構(gòu)建集成學(xué)習(xí)器。目前對基學(xué)習(xí)器排序的主要指標(biāo)包括K統(tǒng)計量、互補(bǔ)性等?;谶x擇的方法。這種方法可以根據(jù)如何對檢驗集進(jìn)行預(yù)測分為靜態(tài)選擇法和動態(tài)選擇法。靜態(tài)選擇法根據(jù)一定指標(biāo)獲得基學(xué)習(xí)器的子集進(jìn)行集成,然后對所有的檢驗集進(jìn)行預(yù)測;動態(tài)選擇法則是根據(jù)檢驗集中每個樣本的情況選擇不同的基學(xué)習(xí)器子集進(jìn)行集成,然后進(jìn)行預(yù)測。基于優(yōu)化的方法。這類方法中最具代表性的成果就是在2002年,周志華等提出的基于實值編碼遺傳算法的選擇性集成學(xué)習(xí)方法,首次從理論上證明了選擇性集成學(xué)習(xí)方法的有效性。

發(fā)明內(nèi)容
提出ー種基于聚類算法并結(jié)合循環(huán)集成的靜態(tài)選擇方法,解決基于聚類選擇策略不穩(wěn)定性和靜態(tài)選擇策略含有冗余分類器過多,導(dǎo)致耗時過大,分類精度下降的問題。本發(fā)明的特征在于,它依次含有以下步驟
步驟(I.)輸入驗證集!^,基分類器集合的Γ=(らら'.ぷふ每個基分類器q對驗證集1*_進(jìn)行預(yù)測,得到預(yù)測結(jié)果9 =其中表示第I個分類器對驗證集
中第^個實例進(jìn)行預(yù)測的結(jié)果(正確為し錯誤為ο);步驟(2.)為了避免在循環(huán)集成框架下,選入太多的冗余分類器,導(dǎo)致系統(tǒng)的整體冗余度過高,時間復(fù)雜度過大,進(jìn)而影響系統(tǒng)的整體性能的發(fā)揮,我們在循環(huán)集成進(jìn)行之前,先進(jìn)行ー輪基于KMeans聚類算法的選擇策略,篩選出差異性較大的基分類器,形成候選分類器。系統(tǒng)的聚類選擇策略按照以下步驟進(jìn)行
步驟(2. I.):設(shè)置聚類簇數(shù)!;,將(Oi,看作新的實例集,從中隨機(jī)選擇f個實例作為初始聚類中心;
步驟(2. 2.) :通過公式#ら )=ι-ρ ι< >!!5, / 4ν 4€Γ,計算每個實
例到聚類中心的距離,其中Pr ob(CJmIs, CJmIs)表示出現(xiàn)基分類器Cf5與錯分交集的概率;
步驟(2. 3.):選擇最近的聚類中心,并加入到該聚類中心所在的聚類; 步驟(2. 4.):根據(jù)新產(chǎn)生的聚類,計算該聚類新的聚類中心;
步驟(2. 5.):重復(fù)以上操作,直到每個聚類不再發(fā)生變化為止;
步驟(2. 6.):取出!:個聚類中實例對應(yīng)預(yù)測效果最好的分類器,然后形成新的候選分
類器1=(44.丨4);
步驟(3.):在開始進(jìn)行循環(huán)集成之前,為了能夠更好地保證循環(huán)集成的進(jìn)行,我們對其設(shè)置初始精度閾值_!,控制精度變化的步長I.分類器數(shù)量閾值界同時令精度閾值
θ=Ir組合序列=0,局部最優(yōu)組合序列5Upei =s ;
步驟(4.)首先判斷組合序列中基分類器的個數(shù)|:|,如果|:|超過了分類器數(shù)量的閾
值況那么就將組合序列修剪為否則就根據(jù)選擇策略,向組合序列f中
添加基分類器=
步驟(5.)利用新產(chǎn)生的組合序列I對驗證集£^!進(jìn)行集成分類,判斷集成分類得到的精度是否達(dá)到了精度閾值沒,如果達(dá)到,則返回組合序列;?,否則就采用評優(yōu)標(biāo)準(zhǔn)P,記錄下局部最優(yōu)的組合序列,需要說明的是本文所采用的評優(yōu)標(biāo)準(zhǔn)和差異性度量方式都為相互一致性度量AT。度量r按照以下步驟進(jìn)行計算
步驟(5.1.):計算每兩個基分類器Gfi和Ga的不一致度量Disi是ー種成對差異性度量方式,它的計算如下
Λ%=FTFTF.....TF'
步驟(5. 2.):將得到的每兩個基分類器之間的不一致度量DlSil,推廣到£個分類器之間,計算如下
2 ^ ^
= 7/.....r..........................i' I* L
Um 一 V 4 λ- -Φ
步驟(5. 3.):計算J;個個體基分類器在驗證集Zfa!下的平均準(zhǔn)確率,,,的計算如下Iガヱ
P=—> y j.·,
步驟(5. 4.):通過£個基分類器之間的不一致度量£fe2j|之和以及平均準(zhǔn)確率f",計算相互一致性度量如下
r =ト^^も步驟(6.):當(dāng)所計算的最高精度值無法滿足精度閾值時,系統(tǒng)就將精度閾值沒通過步長Δ51進(jìn)行調(diào)整,然后重復(fù)執(zhí)行步驟(4.)。按照上述實施方式,我們利用UCI數(shù)據(jù)集對本文中的方法進(jìn)行驗證。我們將本方法應(yīng)用于兩種靜態(tài)選擇策略一集成前序選擇(EFSS)和集成后序選擇(EBSS)并將所得結(jié)果同原先的選擇策略和單純基于KMeans的選擇策略的性能進(jìn)行比較。從表I中可以看出,經(jīng)過改進(jìn)的選擇策略所耗費的時間都小于原選擇策略的時 間,這主要是由于經(jīng)過K-Means聚類之后將部分冗余的基分類器篩選出候選子集,留下差異性相對較大的k個基分類器,通過聚類修剪獲取k個基分類器的時間消耗比起選擇策略自身小得多,因此基于聚類算法修剪的靜態(tài)選擇策略在運行時間上得到了不小提升。從表2中我們可以看出,EBSS初始化時將全部的候選分類器加入選擇隊列中,并通過不斷的判定刪除某個分類器的前后候選子集的集成性能,最終確定集成子集,由于初始子集中含有許多冗余分類器,導(dǎo)致初始子集性能較差,如果不能適當(dāng)?shù)貏h除冗余分類器,那么可能導(dǎo)致耗時過大或者性能不如基分類器等問題。通過K-Means預(yù)先進(jìn)行ー輪子集修剪,然后通過循環(huán)框架進(jìn)行集成,EBSS和EFSS的性能明顯得到提升,主要因為K-Means提取出相互之間差異較大的分類器子集,使EBSS的初始分類器子集得到了優(yōu)化,分類器數(shù)量變少,并結(jié)合改進(jìn)循環(huán)集成框架循環(huán)修剪候選子集,使得EBSS和EFSS在性能上得到進(jìn)ー步提升。綜上所述,將聚類和基于循環(huán)集成的靜態(tài)選擇策略相結(jié)合,該方法提高了聚類算法的精度同時使得集成后序選擇等靜態(tài)選擇策略耗時下降。在標(biāo)準(zhǔn)的UCI數(shù)據(jù)集與當(dāng)前的其他方法進(jìn)行了比較,均取得了更好的運行速度以及良好的分類器效果,證明了本方法的有效性。


圖I.本發(fā)明的整體流程圖。附表說明
表I.改進(jìn)策略同原選擇策略單輪耗時比較;
表2.聚類與靜態(tài)選擇相結(jié)合的策略與原策略在精確度上的比較。
具體實施例方式目前沒有選擇策略可以完全優(yōu)于其他策略,因為它們各自都存在些許不足,比如聚類算法的不穩(wěn)定性影響了其自身性能的發(fā)揮,排序算法和選擇算法大多基于全部的基分類器進(jìn)行操作需要耗費大量的時間,各種優(yōu)化算法需要花費很長的時間查找最優(yōu)解,并且缺少靈活性。根據(jù)各種方法所存在的優(yōu)點,設(shè)計ー種結(jié)合聚類和基于循環(huán)集成的靜態(tài)選擇策略減小系統(tǒng)的冗余度,降低時間復(fù)雜度,實現(xiàn)提高整體性能的目的,是本發(fā)明的主要貢獻(xiàn)。該方法的基本思想對全部的基分類器進(jìn)行獨立訓(xùn)練獲得全部基分類器的分類效果,然后系統(tǒng)通過聚類算法對基分類器進(jìn)行第一輪篩選,將篩選得到的基分類器通過基于循環(huán)集成框架下的靜態(tài)選擇策略進(jìn)行第二輪篩選,系統(tǒng)在進(jìn)入循環(huán)集成之前設(shè)置精度閾值和控制精度變化的步長。在循環(huán)集成框架下,系統(tǒng)根據(jù)特定的靜態(tài)選擇策略不斷地向基分類器組合序列中放入基分類器,為了降低直接判斷集成精度的時間復(fù)雜度,我們首先判斷基分類器進(jìn)入前后整體差異性變化情況,如果差異性增長,再進(jìn)ー步判斷集成精度。系統(tǒng)為了進(jìn)ー步避免組合序列中含有過多的 冗余基分類器,還為循環(huán)集成框架設(shè)置了分類器數(shù)量的閾值,并且記錄下具有最大差異性的組合序列,當(dāng)分類器數(shù)量超過閾值之后,就對序列進(jìn)行修剪操作,退回到差異性最大的組合序列,以上的操作是根據(jù)差異性是整體集成精度提高的關(guān)鍵要素之一。本發(fā)明的整體流程見圖I ;
為了能夠更好地進(jìn)行差異性度量,本發(fā)明采用相互一致性度量!:來衡量差異性,首先是因為非成對差異性度量在根據(jù)差異性度量結(jié)果預(yù)測系統(tǒng)性能方面比成對的差異性度量方法要好,其次因為本文模型的第二層中用到了循環(huán)集成框架,相互一致性度量!:除了考慮分類器之間的預(yù)測差異性,同時還考慮分類器的精度,這樣使得差異性度量對于組合序列中已經(jīng)存在的分類器不會那么的排斥,降低了差異性度量對于同種分類器的敏感性,增大了找出較好集成效果組合的可能性。
權(quán)利要求
1.基于聚類的循環(huán)集成動態(tài)選擇,其特征在于,該方法依次含有以下步驟 輸入驗證集Zw,基分類器集合的jT=(C1,每個基分類器驗證集Zvai進(jìn)行預(yù)測,得到預(yù)測結(jié)果^ = ( , …,其中%表示第/個分類器對驗證集中第j個實例進(jìn)行預(yù)測的結(jié)果(正確為1,錯誤為ο); 為了避免在循環(huán)集成框架下,選入太多的冗余分類器,導(dǎo)致系統(tǒng)的整體冗余度過高,時間復(fù)雜度過大,進(jìn)而影響系統(tǒng)的整體性能的發(fā)揮,我們在循環(huán)集成進(jìn)行之前,先進(jìn)行一輪基于KMeans聚類算法的選擇策略,篩選出差異性較大的基分類器,形成候選分類器; 系統(tǒng)的聚類選擇策略按照以下步驟進(jìn)行 設(shè)置聚類簇數(shù)I, 將跳… ,Of)看作新的實例集,從中隨機(jī)選擇f個實例作為初始聚類中心; 通過公式,Q = I-Proi(CjWilClZdi)jVCjiCl eT,計算每個實例到聚類中心的距離,其^hobiCJmk CJmk)表示出現(xiàn)基分類器與Gf錯分交集的概率; 選擇最近的聚類中心,并加入到該聚類中心所在的聚類; 根據(jù)新產(chǎn)生的聚類,計算該聚類新的聚類中心; 重復(fù)以上操作,直到每個聚類不再發(fā)生變化為止; 取出i個聚類中實例對應(yīng)預(yù)測效果最好的分類器,然后形成新的候選分類器在開始進(jìn)行循環(huán)集成之前,為了能夠更好地保證循環(huán)集成的進(jìn)行,我們對其設(shè)置初始精度閾值^,控制精度變化的步長Δ參分類器數(shù)量閾值同時令精度閾值沒=ξ,組合序列0,局部最優(yōu)組合序列=S ; 首先判斷組合序列中基分類器的個數(shù)|:|,如果|ι |超過了分類器數(shù)量的那么就將組合序列修剪為^__,否則就根據(jù)選擇策略,向組合序列I中添加基分類器 5f={cr;4,.—.,Φ; 利用新產(chǎn)生的組合序列對驗證集Zw進(jìn)行集成分類,判斷集成分類得到的精度是否達(dá)到了精度閾值沒,如果達(dá)到,則返回組合序列公,否則就采用評優(yōu)標(biāo)準(zhǔn)P,記錄下局部最優(yōu)的組合序列需要說明的是本文所采用的評優(yōu)標(biāo)準(zhǔn)和差異性度量方式都為相互一致性度量[; 度量Ir按照以下步驟進(jìn)行計算 步驟(5.1.):計算每兩個基分類器C^pCfjt的不一致度量|}@|,Dgjt是一種成對差異性度量方式,它的計算如下 ^hm^Nw 將得到的每兩個基分類器之間的不一致度量Disa,推廣到I;個分類器之間,計算如下
全文摘要
本發(fā)明公開了一種基于聚類的循環(huán)集成動態(tài)選擇方法,其特征在于以下步驟對全部的基分類器進(jìn)行獨立訓(xùn)練,然后系統(tǒng)通過聚類算法進(jìn)行篩選,將篩選得到的基分類器通過基于循環(huán)集成框架下的靜態(tài)選擇策略進(jìn)行選擇性集成,系統(tǒng)在進(jìn)入循環(huán)集成之前設(shè)置精度閾值和控制精度變化的步長。在循環(huán)集成框架下,系統(tǒng)根據(jù)特定的靜態(tài)選擇策略不斷地向基分類器組合序列中放入基分類器。系統(tǒng)為了避免集成過多的分類器,為循環(huán)集成框架設(shè)置了分類器數(shù)量的閾值,當(dāng)分類器數(shù)量超過閾值之后,就對序列進(jìn)行修剪操作,以上的操作是根據(jù)差異性是整體集成精度提高的關(guān)鍵要素之一。系統(tǒng)通過聚類修剪,設(shè)置閾值控制循環(huán)集成等操作來減小系統(tǒng)的冗余度,最終實現(xiàn)提高性能的目的。
文檔編號G06F17/30GK102819548SQ20121009526
公開日2012年12月12日 申請日期2012年3月31日 優(yōu)先權(quán)日2012年3月31日
發(fā)明者鄒權(quán), 邱誠 申請人:常熟市支塘鎮(zhèn)新盛技術(shù)咨詢服務(wù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
新田县| 遂昌县| 镇康县| 衡阳县| 嫩江县| 闽清县| 巴林右旗| 涿州市| 聂荣县| 林西县| 雷波县| 温宿县| 宜黄县| 涪陵区| 东丽区| 永泰县| 宜兰市| 兴海县| 石柱| 永城市| 沅江市| 澜沧| 云梦县| 沛县| 湛江市| 大港区| 吕梁市| 南召县| 隆安县| 成都市| 荔浦县| 田阳县| 福泉市| 阳原县| 高碑店市| 东海县| 郁南县| 平顺县| 广东省| 阳春市| 乐昌市|