欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分類器集成方法

文檔序號(hào):6459899閱讀:326來源:國(guó)知局
專利名稱:一種分類器集成方法
技術(shù)領(lǐng)域
本發(fā)明屬于模式識(shí)別方法,具體涉及一種通過對(duì)子分類器的集成來提高分類器的性能的方法。

背景技術(shù)
分類器集成是目標(biāo)流行的一種提高分類器性能的技術(shù)。我們知道分類器性能在模式識(shí)別中的重要性,但是有時(shí)候單個(gè)分類器的精度是有限的,而分類器集成方法正是通過集成各個(gè)分類器,構(gòu)造一個(gè)更高性能的分類器,其中常用的是自助聚集(Bagging,bootstrap aggregation)方法和增強(qiáng)法(Boosting)方法。
Bagging從訓(xùn)練集中獨(dú)立隨機(jī)選擇一定個(gè)數(shù)的數(shù)據(jù)組成自助數(shù)據(jù)集,每個(gè)自助數(shù)據(jù)集都被獨(dú)立地用于訓(xùn)練一個(gè)子分類器,最終分類結(jié)果根據(jù)這些子分類器的判決結(jié)果來投票決定。
Boosting方法在訓(xùn)練中先后產(chǎn)生一系列分類器,各個(gè)分類器所使用的訓(xùn)練集都是從總訓(xùn)練集提出來的一個(gè)子集,各個(gè)樣本是否出現(xiàn)在該子集中取決于此前產(chǎn)生過的分類器的表現(xiàn),已有分類器判斷出錯(cuò)的樣本將以較大的概率出現(xiàn)在新的訓(xùn)練子集中。這使得其后產(chǎn)生的分類器更加專注于處理對(duì)已有分類器來說較為困難的樣本區(qū)分問題。
Bagging與Boosting的區(qū)別在于Bagging的訓(xùn)練集的選擇是隨機(jī)的,各輪訓(xùn)練集之間相互獨(dú)立,而Boosting的訓(xùn)練集的選擇不是獨(dú)立的,各輪訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān);Bagging的各個(gè)預(yù)測(cè)函數(shù)沒有權(quán)重,而Boosting是有權(quán)重的;Bagging的各個(gè)預(yù)測(cè)函數(shù)可以并行生成,而Boosting的各個(gè)預(yù)測(cè)函數(shù)只能順序生成。
Bagging和Boosting都可以有效地提高分類器性能,但是在大多數(shù)的數(shù)據(jù)集中Boosting的準(zhǔn)確性比Bagging要高,而在大多數(shù)應(yīng)用中,準(zhǔn)確率比運(yùn)算速度更為重要,因?yàn)橛?jì)算機(jī)的性價(jià)比提高很快,而且數(shù)據(jù)的訓(xùn)練是離線的。因此實(shí)際中Boosting比Bagging更廣泛的應(yīng)用。
Boosting方法可以增強(qiáng)給定算法的泛化能力,但是還存在兩個(gè)缺點(diǎn)該方法需要知道子分類器學(xué)習(xí)正確率的下限,而這在實(shí)際問題中是很難做到的;其次,這一方法可能導(dǎo)致后來的分類器過分集中于少數(shù)特別困難的樣本,導(dǎo)致表現(xiàn)不穩(wěn)定。
自適應(yīng)的Boosting方法(AdaBoostAdaptive Boosting)算法的基本思想是利用多個(gè)子分類器通過一定的方法疊加起來,構(gòu)成一個(gè)分類能力很強(qiáng)的強(qiáng)分類器。AdaBoost算法是以Boosting算法為基礎(chǔ)的。AdaBoost算法不再需要預(yù)先知道子分類器的訓(xùn)練錯(cuò)誤率,而是通過動(dòng)態(tài)調(diào)節(jié)各個(gè)子分類器的權(quán)值來對(duì)基本算法的訓(xùn)練錯(cuò)誤率自動(dòng)適應(yīng),因而引起了廣泛的關(guān)注。與Boosting算法類似,AdaBoost方法根據(jù)既有分類器對(duì)總訓(xùn)練集中的各個(gè)樣本的分類情況來調(diào)整各個(gè)樣本出現(xiàn)在新訓(xùn)練子集中的概率。不同的是,AdaBoost不需要預(yù)先知道子分類器預(yù)測(cè)準(zhǔn)確率的范圍,而是自動(dòng)根據(jù)子分類器的預(yù)測(cè)準(zhǔn)確率設(shè)定相應(yīng)的權(quán)值。在使用AdaBoost訓(xùn)練的時(shí)候,訓(xùn)練錯(cuò)誤率上限是一個(gè)單調(diào)下降的函數(shù),這樣,只要基本的分類器的性能能夠穩(wěn)定的超過隨機(jī)猜想,并且循環(huán)足夠長(zhǎng)時(shí)間,就能使經(jīng)驗(yàn)錯(cuò)誤率降至任意低的水平,并有可能保證泛化錯(cuò)誤率也低于一個(gè)近似的上限。它通過建立多分類器組合使得子分類器的性能得到提升,由于其獨(dú)有的對(duì)分類器性能的自適應(yīng)和對(duì)過學(xué)習(xí)現(xiàn)象的免疫性,近年來引起了極大的關(guān)注,并已在目標(biāo)檢測(cè)中得到廣泛應(yīng)用。
AdaBoost在理論上非常有優(yōu)越性,但是AdaBoost在實(shí)際應(yīng)用中也有很多模糊的地方(1)如何選擇最好的子分類器;(2)如何更好組合這些子分類器。


發(fā)明內(nèi)容
本發(fā)明的目的是提出一種分類器集成方法,運(yùn)用更有效的分類器性能評(píng)價(jià)準(zhǔn)則選擇性能好的子分類器,減少分類器訓(xùn)練時(shí)間和循環(huán)次數(shù)。
一種分類器集成方法,具體步驟為 (1)給訓(xùn)練樣本權(quán)值賦初值; (2)對(duì)訓(xùn)練樣本進(jìn)行分類器訓(xùn)練得到C個(gè)最佳子分類器,C為訓(xùn)練次數(shù); (2.1)令訓(xùn)練周期t=1; (2.2)采用權(quán)值歸一法確定各訓(xùn)練樣本在第t輪訓(xùn)練時(shí)的權(quán)值; (2.3)針對(duì)訓(xùn)練樣本的每個(gè)特征采取預(yù)定分類器設(shè)計(jì)方法生成相應(yīng)的子分類器,從中選出最佳子分類器,并計(jì)算采用最佳子分類器對(duì)所有訓(xùn)練樣本分類產(chǎn)生的錯(cuò)誤率; (2.4)根據(jù)錯(cuò)誤率更新訓(xùn)練樣本權(quán)值; (2.5)如果t<C,t=t+1,返回步驟(2.2),否則進(jìn)入步驟(3); (3)組合C個(gè)最佳子分類器; 其特征在于, 所述步驟(2.3)采用以下兩種方式之一選出最佳子分類器 i、計(jì)算訓(xùn)練樣本的第j個(gè)特征對(duì)應(yīng)的子分類器hj的錯(cuò)誤程度 其中n表示訓(xùn)練樣本的個(gè)數(shù),xi表示訓(xùn)練樣本,

wt,i表示第t輪訓(xùn)練時(shí)的第i個(gè)樣本的權(quán)值,fj(xi)表示分類器hj對(duì)樣本xi的分類響應(yīng),θj表示分類閾值; 選出最小錯(cuò)誤程度對(duì)應(yīng)的子分類器作為最佳子分類器。
ii、計(jì)算訓(xùn)練樣本的第j個(gè)特征對(duì)應(yīng)的子分類器hj的錯(cuò)誤程度 其中n表示訓(xùn)練樣本的個(gè)數(shù),xi表示訓(xùn)練樣本,

wt,i表示第t輪訓(xùn)練時(shí)的第i個(gè)樣本的權(quán)值,fj(xi)表示分類器hj對(duì)樣本xi的分類響應(yīng),θj表示分類閾值; 計(jì)算第j個(gè)特征對(duì)應(yīng)的子分類器hj的泛化能力
,其中fj(x+)表示子分類器hj對(duì)離分類閾值θj或分類面最近的正樣本的分類響應(yīng),fj(x-)表示子分類器hj對(duì)離分類閾值θj或分類面最近的負(fù)樣本的分類響應(yīng); 計(jì)算錯(cuò)誤度總和Errorj=emj+Gj,選擇最小錯(cuò)誤度總和Errorj對(duì)應(yīng)的子分類器作為最佳子分類器。
本發(fā)明采用的分類器性能評(píng)價(jià)準(zhǔn)則能夠準(zhǔn)確地選出性能好的子分類器,子分類器性能越好,組合得到相同性能的分類器需要的子分類器數(shù)量就越少,即訓(xùn)練循環(huán)的次數(shù)和時(shí)間均越少。另外,本發(fā)明還通過反饋調(diào)整組合分類器,進(jìn)一步增強(qiáng)分類器性能。



圖1是本發(fā)明流程圖; 圖2是分層描述的分類器性能評(píng)價(jià)準(zhǔn)則示意圖; 圖3是兩組實(shí)驗(yàn)數(shù)據(jù)的分布情況,圖3(a)正負(fù)樣本為理想均勻分布,圖3(b)正負(fù)樣本為高斯分布; 圖4是使用分類器錯(cuò)誤率評(píng)價(jià)準(zhǔn)則對(duì)實(shí)驗(yàn)數(shù)據(jù)的分類性能描述,圖4(a)是對(duì)圖3(a)所示數(shù)據(jù)的分類性能描述,圖4(b)是對(duì)圖3(b)所示數(shù)據(jù)的分類性能描述; 圖5是使用錯(cuò)誤程度度量的分類器性能評(píng)價(jià)準(zhǔn)則對(duì)實(shí)驗(yàn)數(shù)據(jù)的分類器性能描述,圖5(a)是對(duì)圖3(a)所示數(shù)據(jù)的分類性能描述,圖5(b)是對(duì)圖3(b)所示數(shù)據(jù)的分類性能描述; 圖6是泛化能力的分類器性能評(píng)價(jià)準(zhǔn)則對(duì)實(shí)驗(yàn)數(shù)據(jù)的分類器性能描述,圖6(a)是對(duì)圖3(a)所示數(shù)據(jù)的分類性能描述,圖6(b)是對(duì)圖3(b)所示數(shù)據(jù)的分類性能描述; 圖7是使用分層結(jié)構(gòu)的分類器性能評(píng)價(jià)準(zhǔn)則對(duì)實(shí)驗(yàn)數(shù)據(jù)的分類器性能描述,圖7(a)是對(duì)圖3(a)所示數(shù)據(jù)的分類性能描述,圖7(b)是對(duì)圖3(b)所示數(shù)據(jù)的分類性能描述; 圖8是本發(fā)明實(shí)施例分類訓(xùn)練樣本分布示意圖; 圖9是經(jīng)過優(yōu)化的組合分類器性能與未優(yōu)化的組合分類器性能比較圖; 圖10是經(jīng)過優(yōu)化且由十個(gè)以上子分類器構(gòu)成的組合分類器性能和未優(yōu)化的組合分類器性能比較圖。

具體實(shí)施例方式 本發(fā)明步驟流程如圖1所示,現(xiàn)舉例說明 設(shè)輸入n個(gè)訓(xùn)練樣本(xi,yi),i=1,……,n,其中xi表示訓(xùn)練樣本的特征值集合,即xi={xi1,xi2,……,xiq},集合中的一個(gè)元素表示一個(gè)特征,該特征可能是數(shù)值也可能是向量,q為特征的個(gè)數(shù);

已知訓(xùn)練樣本中有m個(gè)負(fù)樣本,l個(gè)正樣本。
(1)設(shè)計(jì)子分類器步驟。根據(jù)已知訓(xùn)練樣本確定子分類器的構(gòu)造方法,訓(xùn)練樣本第j個(gè)特征生成的子分類器形式為

其中hj()表示子分類器的分類結(jié)果,只能是±1,hj()=1表示子分類器分類結(jié)果為正樣本,hj()=-1表示子分類器分類結(jié)果為負(fù)樣本;fj()為子分類器對(duì)樣本的分類響應(yīng),即當(dāng)特征為一個(gè)數(shù)值時(shí)fj()表示特征值,當(dāng)特征為一個(gè)向量時(shí)fj()表示特征到這個(gè)子分類器分類面的距離;θj為子分類器閾值,得到一個(gè)子分類器的同時(shí)就得到了θj,它隨著子分類器設(shè)計(jì)方法的不同而不同;pj取±1,當(dāng)pj=1時(shí),pjfj()<pjθj表示fj()<θj,當(dāng)pj=-1時(shí),pjfj()<pjθj表示fj()>θj。獲得分類器閾值或者分類面的子分類器可以有不同的設(shè)計(jì)方法,如神經(jīng)網(wǎng)絡(luò)方法、最小平方誤差方法(MSE)、支持向量機(jī)(SVM)和隱馬爾可夫模型(HMM)等。
(2)初始化訓(xùn)練樣本權(quán)值步驟。初始化誤差權(quán)重,w1,i表示第i個(gè)樣本的權(quán)值初始值,對(duì)于yi=-1的樣本對(duì)于yi=1的樣本此處沒有采用所有樣本置相同權(quán)值的方法,而是正負(fù)樣本各占1/2。
(3)訓(xùn)練分類器步驟。對(duì)于每個(gè)t=1,...C,其中C為訓(xùn)練的次數(shù),C越大分類器性能越好,理論上隨著C增大可以達(dá)到任意高的精度,一般情況50次左右就可以得到接近90%的正確率。
(3.1)權(quán)值歸一化,使得所有權(quán)值的和為1,wt,i表示第t輪訓(xùn)練時(shí)的第i個(gè)樣本的權(quán)值; (3.2)令j=1,...q,針對(duì)特征集合中的第j個(gè)特征按照(1)的方法生成相應(yīng)的子分類器hj,計(jì)算當(dāng)前權(quán)重的分類器性能度量,使用分層描述的分類器性能評(píng)價(jià)準(zhǔn)則評(píng)價(jià)子分類器好壞; (3.3)選擇具有最好性能的子分類器

加入到強(qiáng)分類器中去,并計(jì)算其錯(cuò)誤率

表示子分類器

對(duì)第i個(gè)樣本的分類結(jié)果; (3.4)更新每個(gè)樣本所對(duì)應(yīng)的權(quán)值 其中,wt+1,i表示第t輪訓(xùn)練更新后第i個(gè)樣本的權(quán)值;如果

對(duì)第i個(gè)樣本xi正確分類,則ei=0,反之ei=1, (4)組合分類器步驟。生成的強(qiáng)分類器為
其中最佳子分類器權(quán)值 (5)優(yōu)化分類器步驟。通過反饋的方法,調(diào)整分類器系數(shù),增強(qiáng)分類器性能。本發(fā)明使用反饋的前向神經(jīng)網(wǎng)絡(luò)方法,度量網(wǎng)絡(luò)的訓(xùn)練誤差,根據(jù)誤差調(diào)整神經(jīng)網(wǎng)絡(luò)權(quán)值,使分類器性能達(dá)到最優(yōu)。
本發(fā)明設(shè)計(jì)的子分類器形式描述如下 分類器的設(shè)計(jì)實(shí)際上是一種尋優(yōu)的策略,最小平方誤差方法是尋找平方誤差最小的分類器,F(xiàn)isher線性判別是尋找類間散度和類內(nèi)散度比例最大的分類器,神經(jīng)網(wǎng)絡(luò)是尋找誤差函數(shù)最小時(shí)的分類器,支持向量機(jī)時(shí)最大化分類間隔的分類器。但是這些分類器的設(shè)計(jì)考慮每個(gè)樣本時(shí)平等的,但是在AdaBoost框架下,樣本的權(quán)值和前面分類器的性能時(shí)密切相關(guān)的,分類器的設(shè)計(jì)應(yīng)該更專注于那些錯(cuò)分的樣本,即權(quán)值比較大的樣本,權(quán)值大小不同樣本錯(cuò)分的代價(jià)是不同的,因此本發(fā)明使用的最小平方誤差方法實(shí)現(xiàn)的,即第j個(gè)特征按照最小平方誤差方法生成相應(yīng)的子分類器hj。最小平方誤差方法中分類函數(shù)是通過分類面各分量的權(quán)值d來描述的。以mt表示當(dāng)前訓(xùn)練中采樣得到的樣本個(gè)數(shù),則當(dāng)前樣本的第j個(gè)特征為xrjsj,0<r<mt,0<sj<gj,gj為第j個(gè)特征的維數(shù)。則d={ds},0<sj<gj。第j個(gè)特征對(duì)應(yīng)的子分類器按下面方法得到 (1)設(shè)置初始分類函數(shù)d0,設(shè)置為較小的非零隨機(jī)數(shù),b={br},0<r<mt表示樣本的裕量,本發(fā)明將br均置為1; (2)輸入新的樣本; (3)第u個(gè)輸入樣本為 (4)修正分類函數(shù),按下式修正 d←d+η(u)ωu(bu-dtxuj)xuj; (5)如果分類函數(shù)的分類誤差小于一定閾值,或者迭代次數(shù)達(dá)到一定值時(shí)學(xué)習(xí)過程結(jié)束,否則轉(zhuǎn)到(2)。
η(u)控制第u次迭代中分類函數(shù)的調(diào)整幅度,本發(fā)明中采用η(u)=η(0)/(u+1),其中η(0)=0.002;ωu為第u個(gè)輸入樣本的權(quán)值;dut表示du的轉(zhuǎn)置;本發(fā)明中用迭代次數(shù)控制學(xué)習(xí)的結(jié)束,當(dāng)?shù)螖?shù)達(dá)到10000次時(shí)迭代停止。
上述算法就得到了第j個(gè)特征對(duì)應(yīng)的子分類器,對(duì)應(yīng)步驟(1)所述的子分類器設(shè)計(jì)公式

即dtxuj>0時(shí)表示第j個(gè)特征對(duì)應(yīng)的子分類器對(duì)第u個(gè)樣本分類結(jié)果為正樣本,dtxuj<0時(shí)表示第j個(gè)特征對(duì)應(yīng)的子分類器對(duì)第u個(gè)樣本分類結(jié)果為負(fù)樣本。
這樣可以保證樣本相同,對(duì)應(yīng)權(quán)值不同的情況下得到不同的分類,這樣才能保證不會(huì)總是選擇出相同的分類器,而且該算法適合特征為數(shù)值和特征為向量的情況。
本發(fā)明提出的分層描述的分類器性能評(píng)價(jià)準(zhǔn)則描述如下 分類器性能的好壞在模式分類中至關(guān)重要,因此如何描述分類器的性能直接關(guān)系到分類的好壞。在本發(fā)明中,越好的描述準(zhǔn)則保證每次循環(huán)得到的子分類器性能越好,組合得到相同性能的分類器需要的分類器數(shù)量就少,循環(huán)的次數(shù)就少,減少了訓(xùn)練的時(shí)間。
分層描述的分類器性能評(píng)價(jià)準(zhǔn)則的結(jié)構(gòu)示意圖如圖2所示。
本發(fā)明實(shí)際實(shí)施時(shí),只要找到最好的分類器,而不需要對(duì)所有的分類器性能都詳細(xì)描述,為了說明分類器的評(píng)價(jià)準(zhǔn)則,我們對(duì)每個(gè)分類器性能進(jìn)行詳細(xì)描述,而不只是找到最好的子分類器。對(duì)于不同情況的分類器性能準(zhǔn)則描述如下 (1)在很多情況下不同的子分類器的錯(cuò)誤率是不同的,使用錯(cuò)誤率性能準(zhǔn)則就可以描述分類器的性能; (2)當(dāng)有相同錯(cuò)誤率的多個(gè)子分類器時(shí),原始的錯(cuò)誤率性能準(zhǔn)則并不能很好的描述分類器的好壞,使用加入錯(cuò)誤程度的性能評(píng)價(jià)準(zhǔn)則來描述分類器的性能; (3)當(dāng)多個(gè)子分類器的加入錯(cuò)誤程度的性能評(píng)價(jià)準(zhǔn)則相同時(shí),加入泛化能力來描述分類器的性能,即使用加入錯(cuò)誤程度度量和泛化能力描述結(jié)合的分類器評(píng)價(jià)準(zhǔn)則。
這樣分層描述的分類器性能評(píng)價(jià)準(zhǔn)則的最后一層就可以完全描述子分類器的性能。
下面以簡(jiǎn)單的數(shù)據(jù)分布來說明本發(fā)明中提出的分類器性能準(zhǔn)則的優(yōu)越性。圖3顯示了兩組數(shù)據(jù)的分布情況,圖3(a)所示正負(fù)樣本為理想的均勻分布,圖3(b)正負(fù)樣本為高斯分布。其中圖3(a)中負(fù)樣本從0.1到1.1均勻分布,正樣本從0.9到1.9均勻分布;圖3(b)中負(fù)樣本為均值為0.6方差為0.1的高斯分布,正樣本為均值為1.4方差為0.1的高斯分布。
原算法中分類器的性能準(zhǔn)則是分類的錯(cuò)誤率,采用第j個(gè)特征對(duì)應(yīng)的子分類器hj對(duì)所有樣本分類的錯(cuò)誤率描述εj為 其中n表示樣本的個(gè)數(shù);xi表示訓(xùn)練樣本的特征值;yi={-1,1}對(duì)應(yīng)負(fù)樣本和正樣本;wt,i表示第t輪訓(xùn)練時(shí)的第i個(gè)樣本的權(quán)值;hj(xi)表示第j個(gè)特征對(duì)應(yīng)的分類器對(duì)第i個(gè)樣本的分類結(jié)果;yi表示第i個(gè)樣本的類別,即第i個(gè)樣本為正樣本或者負(fù)樣本。同一次循環(huán)中每個(gè)樣本的權(quán)值都是固定的,與特征無關(guān)。使用該準(zhǔn)則對(duì)上述數(shù)據(jù)的分類器性能描述如圖4所示,圖4(a),圖4(b)分別對(duì)應(yīng)中圖3(a),圖3(b)圖。
從圖4可以看出只考慮錯(cuò)誤率描述的分類器性能是比較差的,在錯(cuò)誤率相同情況可能得不到最好的分類器,圖4(a)和圖4(b)中最小錯(cuò)誤率對(duì)應(yīng)的分類器均有多個(gè),圖4(b)中非最小的錯(cuò)誤率也有多個(gè)的情況。本發(fā)明接著嘗試使用統(tǒng)計(jì)錯(cuò)誤樣本的同時(shí),加入錯(cuò)誤程度度量。第j個(gè)特征對(duì)應(yīng)的子分類器hj的加入錯(cuò)誤程度度量描述emj形式如下 其中n表示樣本的個(gè)數(shù);xi表示訓(xùn)練樣本;yi={-1,1}對(duì)應(yīng)負(fù)樣本和正樣本;wt,i表示第t輪訓(xùn)練時(shí)的第i個(gè)樣本的權(quán)值;fj(xi)表示子分類器hj對(duì)樣本xi的分類響應(yīng);θj表示分類閾值;|fj(xi)-θj|越大表示離分類閾值或者分類面距離越遠(yuǎn),則錯(cuò)誤程度越大。使用該準(zhǔn)則對(duì)原始數(shù)據(jù)的分類器性能描述如圖5所示,(a)(b)分別對(duì)應(yīng)圖3中的(a)(b)圖。
可以看出圖5(a)中找到了理想的分類器,但是圖5(b)仍然不能得到最好的分類器。因此在樣本錯(cuò)誤率相同但不為零的情況下,加入錯(cuò)誤程度度量是一個(gè)可行的方法,但是樣本錯(cuò)誤率同為零時(shí)則失效。本發(fā)明考慮了分類器的泛化能力描述,在樣本錯(cuò)誤率為零時(shí)加入分類器泛化能力的度量,而在樣本錯(cuò)誤率不為零時(shí),泛化能力描述為常數(shù),判斷準(zhǔn)則形式如下
其中Gj表示第j個(gè)特征對(duì)應(yīng)的子分類器hj泛化能力描述;fj(x+)表示離分類閾值或分類面最近的正樣本對(duì)當(dāng)前子分類器的響應(yīng);fj(x-)表示離分類閾值或分類面最近的負(fù)樣本對(duì)當(dāng)前子分類器的響應(yīng);θj表示分類閾值。當(dāng)泛化能力描述Gj越小時(shí)分類器性能越好。使用該準(zhǔn)則對(duì)原始數(shù)據(jù)的分類器性能描述如圖6所示,圖6(a),圖6(b)分別對(duì)應(yīng)圖3中的圖3(a),圖3(b)。
整個(gè)分層的分類器性能評(píng)價(jià)準(zhǔn)則最后一層的加入錯(cuò)誤程度度量和泛化能力描述結(jié)合的分類器性能評(píng)價(jià)準(zhǔn)則形式如下 Errorj=emj+Gj 其中Errorj表示第j個(gè)特征對(duì)應(yīng)的子分類器hj分層描述的最后一層的加入錯(cuò)誤程度度量和泛化能力描述結(jié)合的分類器性能,emj加入錯(cuò)誤程度度量的性能描述,Gj表示該分類器泛化能力描述。Errorj越小,其對(duì)應(yīng)的子分類器性能越好。整個(gè)分層的分類器性能評(píng)價(jià)準(zhǔn)則描述如圖7所示,圖7(a),圖7(b)分別對(duì)應(yīng)圖3中的圖3(a),圖3(b)。
從上述實(shí)驗(yàn)可以看出分層描述的分類器性能評(píng)價(jià)準(zhǔn)則能夠更好地描述分類器的性能。
最后通過反饋調(diào)整各個(gè)子分類器系數(shù),提高分類器整體的分類性能。本發(fā)明提出的通過反饋更好組合子分類器的原理如下 沒有理論可以證明AdaBoost經(jīng)典方法中依賴于獲得分類器的樣本錯(cuò)誤率的設(shè)計(jì)方法是最優(yōu)的,很明顯最優(yōu)的分類器組合方法可以減少自分類器的個(gè)數(shù)。因此需要要尋找最優(yōu)的分類器組合方法,本發(fā)明使用反饋的前向神經(jīng)網(wǎng)絡(luò)方法,度量網(wǎng)絡(luò)的誤差,根據(jù)誤差調(diào)整神經(jīng)網(wǎng)絡(luò)權(quán)值,使分類器性能達(dá)到最優(yōu)。
本發(fā)明使用的神經(jīng)網(wǎng)絡(luò)采用有監(jiān)督的學(xué)習(xí)算法,即用來學(xué)習(xí)的樣本的類別是已知的。當(dāng)依次輸入學(xué)習(xí)樣本時(shí),網(wǎng)絡(luò)以迭代方式,根據(jù)神經(jīng)元的實(shí)際輸出與期望輸出的偏差對(duì)權(quán)值進(jìn)行修正,最終得到期望的權(quán)值。實(shí)際實(shí)施中,使用單層感知器網(wǎng)絡(luò)來實(shí)現(xiàn),選擇出的子分類器作為感知器的一個(gè)神經(jīng)元。本發(fā)明組合的分類器在優(yōu)化前形式為 組合分類器權(quán)值α={αt},t=1,…,C,αt表示用于組合的最佳分類器權(quán)值。本發(fā)明使用的單層感知器網(wǎng)絡(luò)共有C個(gè)神經(jīng)元,使用該方法更新權(quán)值α具體算法如下 (1)獲取初始權(quán)值α={αt},t=1,…,C,令k=1; (2)輸入學(xué)習(xí)樣本xk; (3)計(jì)算神經(jīng)元的實(shí)際輸出。設(shè)第k次輸入的學(xué)習(xí)樣本為xk,與第t個(gè)神經(jīng)元連接的權(quán)值為αt,第t個(gè)神經(jīng)元的實(shí)際輸出為

為訓(xùn)練分類器步驟中選擇的第t個(gè)最佳子分類器對(duì)樣本xk的分類結(jié)果。
(4)更新權(quán)值。由于每個(gè)樣本只有正負(fù)樣本兩種情況,因此C個(gè)神經(jīng)元的期望輸出均為yk,權(quán)值按下式更新 (5)如果采用權(quán)值α得到正確分類結(jié)果,或者k大于或等于迭代次數(shù)時(shí)結(jié)束,否則k=k+1,轉(zhuǎn)到步驟(2)。
其中調(diào)整參數(shù)λ∈(0,1)控制權(quán)值調(diào)整的大小,若λ取值太大,算法可能出現(xiàn)振蕩;若λ取值太小,收斂速度很慢。本發(fā)明中當(dāng)k超過迭代次數(shù)2000時(shí)學(xué)習(xí)結(jié)束。
本發(fā)明使用的實(shí)驗(yàn)數(shù)據(jù)描述如下共5000個(gè)樣本,正負(fù)各2500個(gè),分布如圖8所示,每個(gè)樣本有兩個(gè)特征組成,每個(gè)特征的維數(shù)均為1。按照本發(fā)明的流程,使用最小平方誤差方法來設(shè)計(jì)子分類器,用分層的分類器性能評(píng)價(jià)準(zhǔn)則來選擇最好的分類器,然后本發(fā)明比較了優(yōu)化和沒有優(yōu)化的分類器性能經(jīng)過反饋神經(jīng)網(wǎng)絡(luò)優(yōu)化后(本發(fā)明在此實(shí)驗(yàn)中λ取0.002)分類器組合性能和沒有優(yōu)化的分類器組合性能比較如圖9所示,對(duì)應(yīng)圖8的樣本數(shù)據(jù)。圖10顯示超過十個(gè)分類器后的比較情況。
從圖9和圖10的實(shí)驗(yàn)結(jié)果可以看出,優(yōu)化后的分類器分類后錯(cuò)誤樣本數(shù)比優(yōu)化前的小,而且增加一個(gè)子分類器后增大的情況在優(yōu)化前分類器中比較明顯,優(yōu)化后的分類器則減緩了很多,理論上優(yōu)化可以完全消除這種情況。通過反饋調(diào)整分類器系數(shù)后,分類器的性能得到了提高。
權(quán)利要求
1.一種分類器集成方法,包括以下步驟
(1)給訓(xùn)練樣本權(quán)值賦初值;
(2)對(duì)訓(xùn)練樣本進(jìn)行分類器訓(xùn)練得到C個(gè)最佳子分類器,C為訓(xùn)練次數(shù);
(2.1)令訓(xùn)練周期t=1;
(2.2)采用權(quán)值歸一法確定各訓(xùn)練樣本在第t輪訓(xùn)練時(shí)的權(quán)值;
(2.3)針對(duì)訓(xùn)練樣本的每個(gè)特征采取預(yù)定分類器設(shè)計(jì)方法生成相應(yīng)的子分類器,從中選出最佳子分類器,并計(jì)算采用最佳子分類器對(duì)所有訓(xùn)練樣本分類產(chǎn)生的錯(cuò)誤率;
(2.4)根據(jù)錯(cuò)誤率更新訓(xùn)練樣本權(quán)值;
(2.5)如果t<C,t=t+1,返回步驟(2.2),否則進(jìn)入步驟(3);
(3)組合C個(gè)最佳子分類器;
其特征在于,
所述步驟(2.3)采用以下兩種方式之一選出最佳子分類器
i、計(jì)算訓(xùn)練樣本的第j個(gè)特征對(duì)應(yīng)的子分類器hj的錯(cuò)誤程度
其中n表示訓(xùn)練樣本的個(gè)數(shù),xi表示訓(xùn)練樣本,
wt,i表示第t輪訓(xùn)練時(shí)的第i個(gè)樣本的權(quán)值,fj(xi)表示分類器hj對(duì)樣本xi的分類響應(yīng),θj表示分類閾值;
選出最小錯(cuò)誤程度對(duì)應(yīng)的子分類器作為最佳子分類器。
ii、計(jì)算訓(xùn)練樣本的第j個(gè)特征對(duì)應(yīng)的子分類器hj的錯(cuò)誤程度
其中n表示訓(xùn)練樣本的個(gè)數(shù),xi表示訓(xùn)練樣本,
wt,i表示第t輪訓(xùn)練時(shí)的第i個(gè)樣本的權(quán)值,fj(xi)表示分類器hj對(duì)樣本xi的分類響應(yīng),θj表示分類閾值;
計(jì)算第j個(gè)特征對(duì)應(yīng)的子分類器hj的泛化能力
,其中fj(x+)表示子分類器hj對(duì)離分類閾值θj或分類面最近的正樣本的分類響應(yīng),fj(x-)表示子分類器hj對(duì)離分類閾值θj或分類面最近的負(fù)樣本的分類響應(yīng);
計(jì)算錯(cuò)誤度總和Errorj=emj+Gj,選擇最小錯(cuò)誤度總和Errorj對(duì)應(yīng)的子分類器作為最佳子分類器。
2.根據(jù)權(quán)利要求1所述的分類器集成方法,其特征在于,所述方法還包括步驟(4)調(diào)整組合分類器權(quán)值,具體為,
(4.1)獲取組合分類器權(quán)值α={αt},t=1,…,C,αt表示用于組合的最佳子分類器權(quán)值,令k=1;
(4.2)輸入已知類別訓(xùn)練樣本xk;
(4.3)獲取采用組合分類器對(duì)訓(xùn)練樣本xk的分類結(jié)果
(4.4)更新權(quán)值λ為調(diào)整參數(shù),
為所述步驟(2)在第t個(gè)訓(xùn)練周期內(nèi)選擇的最佳子分類器對(duì)樣本xk的分類結(jié)果,yk為所述步驟(2)在第t個(gè)訓(xùn)練周期內(nèi)選擇的最佳子分類器對(duì)樣本xk的期望分類結(jié)果;
(4.5)如果采用權(quán)值α得到正確分類結(jié)果或者k大于或等于迭代次數(shù),結(jié)束,否則k=k+1,轉(zhuǎn)到步驟(4.2)。
全文摘要
一種分類器集成方法,包括(1)初始化訓(xùn)練樣本權(quán)值;(2)對(duì)訓(xùn)練樣本進(jìn)行分類器訓(xùn)練,采用錯(cuò)誤程度和泛化能力描述的分類器性能評(píng)價(jià)準(zhǔn)則選出多個(gè)最佳子分類器;(3)組合最佳子分類器。本發(fā)明采用的分類器性能評(píng)價(jià)準(zhǔn)則能夠準(zhǔn)確地選出性能好的子分類器,子分類器性能越好,組合得到相同性能的分類器需要的子分類器數(shù)量就越少,即訓(xùn)練循環(huán)的次數(shù)和時(shí)間均越少。另外本發(fā)明還通過反饋調(diào)整組合分類器,進(jìn)一步增強(qiáng)分類器性能。
文檔編號(hào)G06K9/62GK101231702SQ200810046789
公開日2008年7月30日 申請(qǐng)日期2008年1月25日 優(yōu)先權(quán)日2008年1月25日
發(fā)明者高常鑫, 農(nóng) 桑, 王岳環(huán), 唐奇伶, 密 李, 峻 高, 笪邦友 申請(qǐng)人:華中科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
曲靖市| 海盐县| 定南县| 额敏县| 陈巴尔虎旗| 谢通门县| 澄城县| 商丘市| 施甸县| 盐边县| 宁远县| 奉贤区| 斗六市| 潢川县| 门源| 南部县| 永仁县| 孝义市| 庐江县| 沁源县| 河间市| 安西县| 龙山县| 醴陵市| 红河县| 东平县| 巴楚县| 嘉定区| 罗定市| 拉孜县| 遵化市| 宁晋县| 盐池县| 招远市| 磐安县| 屏山县| 珲春市| 宜丰县| 嘉兴市| 永靖县| 库伦旗|