本發(fā)明涉及計(jì)算機(jī)醫(yī)療應(yīng)用領(lǐng)域,具體涉及一種基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的系統(tǒng)及方法。
背景技術(shù):
智慧醫(yī)療旨在通過(guò)打造健康檔案區(qū)域醫(yī)療信息平臺(tái),利用最先進(jìn)的物聯(lián)網(wǎng)技術(shù),實(shí)現(xiàn)患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)、醫(yī)療設(shè)備之間的互動(dòng),逐步達(dá)到信息化。近年來(lái),由人工智能、醫(yī)用機(jī)器人和數(shù)字化輔助醫(yī)療技術(shù)等相結(jié)合的智能醫(yī)療技術(shù),正引領(lǐng)新一輪的醫(yī)療變革。智能醫(yī)療技術(shù)開始貫穿于診斷、手術(shù)、護(hù)理和康復(fù)等醫(yī)療的各個(gè)環(huán)節(jié)。在臨床診斷過(guò)程中,醫(yī)院一直依賴心電圖作為監(jiān)測(cè)病人心臟電活動(dòng)的儀器。由于紙張易破碎且熱敏紙字跡不穩(wěn)定、易消退,多數(shù)紙質(zhì)心電圖都遭到了不同程度的破壞。
盡管外許多研究者提出了較多針對(duì)心電波形曲線的提取和醫(yī)療診斷預(yù)測(cè)技術(shù),但由于紙質(zhì)心電圖提取的易破碎且熱敏紙字跡不穩(wěn)定、易消退,以及提取后的心電數(shù)據(jù)多是偏性,對(duì)后續(xù)機(jī)器學(xué)習(xí)的模型建立與訓(xùn)練上有很大的影響,現(xiàn)有紙質(zhì)心電圖提取和診斷預(yù)測(cè)模型包含如下幾方面缺點(diǎn):
(1)心電曲線的提取問題
臨床采集的心電圖表現(xiàn)為心電曲線和背景網(wǎng)格交錯(cuò)在一起,且紙面上會(huì)有不同程度的污損、字跡等其他干擾信息。目前的相關(guān)研究中,紙質(zhì)心電圖波形數(shù)據(jù)提取的主要瓶頸是需要人工干預(yù)。
(2)如何將提提取的波形曲線轉(zhuǎn)化為波形數(shù)據(jù)
臨床采集的心電信號(hào)由高維向量表示的,在使用計(jì)算機(jī)對(duì)心電信號(hào)分析的過(guò)程中就是對(duì)這組高維向量進(jìn)行分析。由于掃描原因會(huì)使得提取出的波形曲線的寬度大于l,所以提取的曲線是以矩陣的形式存在,而不是以向量的形式存在。如何將以矩陣形式存在的波形曲線以最大的滿意度轉(zhuǎn)換為以向量形式保存的波形數(shù)據(jù)值得研究。
(3)數(shù)據(jù)不平衡性
現(xiàn)有的smote數(shù)據(jù)平衡方法,只是在原有的基礎(chǔ)上將數(shù)據(jù)平衡,這樣做的結(jié)果只會(huì)增加數(shù)據(jù)量,對(duì)后續(xù)wrapper方法篩選冗余特征這一步驟的時(shí)間效率上產(chǎn)生負(fù)面的影響。
(4)機(jī)器學(xué)習(xí)算法的不穩(wěn)定性
決策樹算法依據(jù)信息熵理論,選擇當(dāng)前樣本集中具有最大信息增益率的屬性作為測(cè)試屬性不斷對(duì)樣本集進(jìn)行劃分,最終構(gòu)造出一棵完全決策樹。但是它是不穩(wěn)定的算法,訓(xùn)練集的小范圍變動(dòng)就可能造成分類模型的顯著變化。
技術(shù)實(shí)現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明提出了一種基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的方法,以達(dá)到準(zhǔn)確分析心電數(shù)據(jù)的目的。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
一種基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的系統(tǒng),包含有掃描模塊和數(shù)據(jù)分析處理模塊,所述掃描模塊與所述數(shù)據(jù)分析處理模塊之間通過(guò)網(wǎng)絡(luò)進(jìn)行連接,
所述掃描模塊,用于將心電圖紙的內(nèi)容掃描成心電圖像;
所述數(shù)據(jù)分析處理模塊包含有:波形矯正提取模塊、數(shù)據(jù)平衡壓縮模塊、wrapper特征選擇模塊、baggingc4.5集成模塊,所述波形矯正提取模塊,用于檢測(cè)矯正心電波形并將心電波形曲線和背景分離發(fā)展;所述數(shù)據(jù)平衡壓縮模塊,用于對(duì)心電數(shù)據(jù)進(jìn)行平滑處理和壓縮處理;所述wrapper特征選擇模塊,用于剔除心電數(shù)據(jù)中的冗余特征;所述baggingc4.5集成模塊,用于對(duì)心電數(shù)據(jù)進(jìn)行分析預(yù)測(cè),各模塊間通過(guò)數(shù)據(jù)總線進(jìn)行通信連接。一種基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的方法,通過(guò)sobel_mco篩選機(jī)制的k-means方法將紙質(zhì)心電圖提取出數(shù)字化數(shù)據(jù)集,對(duì)于得到的心電數(shù)據(jù),通過(guò)基于wrapper特征選擇的新型baggingc4.5算法進(jìn)行醫(yī)療數(shù)據(jù)分析預(yù)測(cè),將分析預(yù)測(cè)的結(jié)果反饋給用戶,具體包括如下步驟:
步驟1:紙質(zhì)心電圖數(shù)字化;
步驟2:將步驟1采集的數(shù)字化心電數(shù)據(jù),通過(guò)s-c4.5-smote數(shù)據(jù)平衡方法進(jìn)行平滑處理,從而降低數(shù)據(jù)的大小和不平衡性;
步驟3:將經(jīng)過(guò)s-c4.5-smote處理后的數(shù)據(jù)進(jìn)行wrapper特征選擇,剔除數(shù)據(jù)的冗余特征(其中算法評(píng)價(jià)器c4.5),通過(guò)這一步驟可以剔除對(duì)醫(yī)療數(shù)據(jù)分析有害的特征;
步驟4:對(duì)上述步驟獲取的醫(yī)療數(shù)據(jù)進(jìn)行bagging-c4.5方法分析預(yù)測(cè),并將分析預(yù)測(cè)的結(jié)果通過(guò)設(shè)備反饋給醫(yī)療機(jī)構(gòu)和用戶。
作為優(yōu)選的,步驟1所述紙質(zhì)心電圖數(shù)字化的具體步驟為:設(shè)定原始心電圖彩色圖像,對(duì)所述原始心電圖彩色圖像進(jìn)行邊緣檢測(cè),獲得階躍狀邊緣點(diǎn)集合,所述邊緣點(diǎn)集合包含了波形的上下輪廓以及其他點(diǎn),對(duì)所述邊緣點(diǎn)集合進(jìn)行形態(tài)學(xué)閉運(yùn)算并且填補(bǔ)波峰和尖銳波谷,保留像素點(diǎn)集合,對(duì)所述像素點(diǎn)集合進(jìn)行基于sobel_mco篩選機(jī)制的k-means算法處理,處理結(jié)果是將波形曲線和背景分離發(fā)展。
作為優(yōu)選的,步驟2所述s-c4.5-smote數(shù)據(jù)平衡方法是將步驟1提取的數(shù)字化心電數(shù)據(jù)集合進(jìn)行平衡與壓縮處理,所述s-c4.5-smote數(shù)據(jù)平衡方法集成了簡(jiǎn)單隨機(jī)抽樣法和合成少數(shù)民族抽樣法(smote)的優(yōu)點(diǎn),減少冗余特征,提高bagging學(xué)習(xí)的泛化能力。
作為優(yōu)選的,步驟3所述wrapper特征選擇是搜索策略和機(jī)器學(xué)習(xí)算法相結(jié)合,選擇出最終的算法達(dá)到較高的特征子集,有p個(gè)特征,那么就會(huì)有2p種特征組合,每種組合對(duì)應(yīng)了一個(gè)模型。
作為優(yōu)選的,步驟4所述bagging-c4.5方法是采用bagging方法對(duì)c4.5算法進(jìn)行集成,所述c4.5算法將上述步驟獲取的心電數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程按照分支屬性選擇方法,自頂向下形成決策樹分類器,內(nèi)部節(jié)點(diǎn)表示分支屬性,葉節(jié)點(diǎn)代表類,所述bagging方法為:輸入經(jīng)c4.5算法訓(xùn)練后的訓(xùn)練集,生成預(yù)測(cè)函數(shù),輸出集成預(yù)測(cè)模型。
本發(fā)明具有如下優(yōu)點(diǎn):
(1).本發(fā)明將紙質(zhì)心電圖轉(zhuǎn)化為數(shù)字化心電數(shù)據(jù),實(shí)現(xiàn)心電波形曲線和復(fù)雜背景的有效分離,進(jìn)行心電波形曲線提取。該方法先使用篩選機(jī)制進(jìn)行預(yù)處理,盡可能多的保留屬于波形曲線的像素點(diǎn),并盡可能多的排除無(wú)用點(diǎn),保留的像素點(diǎn)集合作為聚類對(duì)象。
(2).提出了一種新的數(shù)據(jù)平衡算法—s-c4.5-smote,有效的處理了醫(yī)療數(shù)據(jù)的偏性問題,并且降低了數(shù)據(jù)的大小,提高了后續(xù)wrapper特征選擇方法篩選的效率。
(3).通過(guò)引入bagging學(xué)習(xí)方法,解決了傳統(tǒng)決策樹算法的不穩(wěn)定性,并且通過(guò)wrapper特征篩選后的特征子集,解決了因?yàn)槿哂嗵卣鲙?lái)的bagging學(xué)習(xí)的泛化能力差的問題。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例公開的基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本發(fā)明實(shí)施例公開的基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的方法的流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明提供了一種基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的方法,其工作原理是通過(guò)sobel_mco(morphologicalclosedoperation)篩選機(jī)制的k-means方法用于紙質(zhì)心電圖波形曲線的提取以轉(zhuǎn)化為數(shù)字化心電數(shù)據(jù);將得到的數(shù)字化心電圖通過(guò)s-c4.5-smote和wrapper方法進(jìn)行預(yù)處理,以平衡心電數(shù)據(jù)集和篩選對(duì)診斷有害的特征;最終通過(guò)bagging-c4.5集成技術(shù)對(duì)得到的數(shù)字化心電數(shù)據(jù)進(jìn)行分析預(yù)測(cè),達(dá)到準(zhǔn)確分析心電數(shù)據(jù)的目的。
下面結(jié)合實(shí)施例和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明:
如圖1所示:基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的系統(tǒng),包含有掃描模1塊和數(shù)據(jù)分析處理模塊2,所述掃描模塊1與所述數(shù)據(jù)分析處理模塊2之間通過(guò)網(wǎng)絡(luò)進(jìn)行連接,
所述掃描模塊1,用于將心電圖紙的內(nèi)容掃描成心電圖像;
所述數(shù)據(jù)分析處理模塊2包含有:波形矯正提取模塊3、數(shù)據(jù)平衡壓縮模塊4、wrapper特征選擇模塊5、baggingc4.5集成模塊6,所述波形矯正提取模塊3,用于檢測(cè)矯正心電波形并將心電波形曲線和背景分離發(fā)展;所述數(shù)據(jù)平衡壓縮模塊4,用于對(duì)心電數(shù)據(jù)進(jìn)行平滑處理和壓縮處理;所述wrapper特征選擇模塊5,用于剔除心電數(shù)據(jù)中的冗余特征;所述baggingc4.5集成模塊6,用于對(duì)心電數(shù)據(jù)進(jìn)行分析預(yù)測(cè),各模塊間通過(guò)數(shù)據(jù)總線進(jìn)行通信連接。
如圖2所示,基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的方法,具體包括如下步驟:
步驟1:紙質(zhì)心電圖提取
將紙質(zhì)心電圖轉(zhuǎn)化為數(shù)字化心電數(shù)據(jù),設(shè)原始心電紙質(zhì)圖像為f(x,y),邊緣檢測(cè)過(guò)程中閾值為tk,邊緣檢測(cè)獲得的階躍狀邊緣點(diǎn)集合為{g(x,y)},{g(x,y)}包含了波形的上下輪廓以及其他點(diǎn)。形態(tài)學(xué)閉運(yùn)算的結(jié)構(gòu)元素定義為b。將{g(x,y)}進(jìn)行形態(tài)學(xué)閉運(yùn)算并且填補(bǔ)波峰和尖銳波谷后保留的像素點(diǎn)集合定義為{k(x,y)}。
初始化tk,b,{g(x,y)}=φ,{g(x,y)}=φ;
使用梯度算子進(jìn)行邊緣檢測(cè),梯度也就是一階導(dǎo)數(shù),設(shè)圖像為f(x,y),則圖像在(x,y),出的梯度向量如公式(1)表示:
該向量的大小即梯度值,用
設(shè)向量在(x,y)處的方向角用α表示:
圖像邊緣在(x,y)處的方向垂直于該梯度向量的方向。通常計(jì)算中為了減少計(jì)算量,使用絕對(duì)值方法近似獲得(x,y)處的梯度值,即
由上述梯度算子的公式,sobel梯度算子實(shí)現(xiàn),
(1)sobel算子模板
表格(1)為sobel梯度算子水平方向的模板和垂直方向的模板,水平方向的模板用于計(jì)算水平梯度值,垂直方向的模板用于計(jì)算垂直梯度值。箭頭所指位置為中心點(diǎn),設(shè)模板移動(dòng)過(guò)程中經(jīng)過(guò)的中心點(diǎn)用(i,j)表示,則中心點(diǎn)的八個(gè)鄰域分別表示為,(i-1,j-1),(i-1,j),(i-1,j+1),(i,j+1),(i+1,j-1),(i+1,j),(i+1,j+1),則(i,j)處的水平方向的梯度值g表示為:
gx=f(i+1,j-1)+2*f(i+1,f)+f(i+1,j+1)-[f(i-1,j-1)+2*f(i-1,f)+f(i-1,j-1)](5)
垂直方向的梯度值g表示為:
gy=f(i-1,j+1)+2*f(i,j+1)+f(i+1,j+1)+[f(i-1,j-1)+2*f(i,j-1)+f(i+1,j-1)](6)
由公式(4)可知,(i,j)處的梯度值用|gx|+|gy|近似表示。
通過(guò)公式(4)、(5)、(6),對(duì){g(x,y)}進(jìn)行形態(tài)學(xué)閉運(yùn)算,
根據(jù){k(x,y)}的二維直方圖(灰度一位置)波峰確定初始聚類中心m1,m2,...mn,按照距離最近的原則,根據(jù)簇中對(duì)象的平均值(聚類中心),將每個(gè)對(duì)象賦給最類似的簇,更新簇中的平均值,即重新計(jì)算每個(gè)簇的平均值。
據(jù)公式k-means聚類平方誤差準(zhǔn)則,即公式:
計(jì)算:若e發(fā)生變化轉(zhuǎn)到步驟2.3,若e不再發(fā)生變化則結(jié)束。
經(jīng)過(guò)基于sobel_mco篩選機(jī)制的k-means算法,可以做到聚類前的預(yù)處理,盡可能多的保留屬于波形曲線的像素點(diǎn),并盡可能多的排除無(wú)用點(diǎn),根據(jù)數(shù)據(jù)特點(diǎn)確定的聚類中心可以使得聚類過(guò)程向著預(yù)期目標(biāo)—即波形曲線和背景的分離發(fā)展。
步驟2:將步驟1提取的數(shù)字化心電數(shù)據(jù)進(jìn)行平衡處理
基于步驟1方法提取的心電數(shù)據(jù),在臨床數(shù)據(jù)分析中,得到的數(shù)據(jù)往往存在偏性,即陽(yáng)性數(shù)據(jù)和陰性數(shù)據(jù)比例不平衡。如果數(shù)據(jù)不平衡,分析得到的結(jié)論可能會(huì)產(chǎn)生偏倚。比如在判別分析中,陽(yáng)性數(shù)據(jù)如果多于陰性數(shù)據(jù),那么分類的結(jié)果會(huì)更易于偏向陽(yáng)性數(shù)據(jù),造成靈敏度度較高、特異度較低的結(jié)果。因此需要對(duì)獲得的醫(yī)療數(shù)據(jù)進(jìn)行平衡。
s-c4.5-smote是smote的改進(jìn)方法,它通過(guò)引入合成少數(shù)樣本技術(shù)和簡(jiǎn)單隨機(jī)抽樣方法來(lái)提高wrapper方法的效率。因此,為了提高bagging學(xué)習(xí)的泛化能力,冗余特征也必須盡可能的減少。
首先按照等概率進(jìn)行數(shù)據(jù)抽樣(抽樣比例1—100%),其中我們選取c4.5作為評(píng)價(jià)函數(shù)。通過(guò)比較最合適的抽樣比例,對(duì)數(shù)據(jù)集進(jìn)行抽樣,然后應(yīng)用合成少數(shù)樣本方法,每個(gè)類的數(shù)據(jù)集的大小幾乎相互平衡。其中smote的原理為:
假設(shè)有少數(shù)類樣本,每一個(gè)樣本x,搜索其k(通常取5)個(gè)少數(shù)類最近鄰樣本;若向上采樣的倍率n,則在其k個(gè)最近鄰樣本中隨機(jī)選擇n個(gè)樣本,記為y1,y2,,...,yn;在少數(shù)類樣本x與yj(j=1,2,...,n)之間進(jìn)行隨機(jī)線性插值,構(gòu)造新的少數(shù)類樣本pj。
pj=x+rand(0,1)×(yj-x),j=1,2,...n(9)
式中,rand(0,1)表示區(qū)間(0,1)內(nèi)的一個(gè)隨機(jī)數(shù)。將這些新合成的少數(shù)類樣本點(diǎn)合并到原來(lái)的數(shù)據(jù)集里即可以產(chǎn)生新的訓(xùn)練集。
通過(guò)s-c4.5-smote方法,不僅可以提高效率,并且不影響預(yù)測(cè)的準(zhǔn)確性,其步驟描述如下
輸入:數(shù)據(jù)集d,學(xué)習(xí)器c4.5。
1.數(shù)據(jù)集d中的元素總數(shù)為n
2.使用隨機(jī)數(shù)函數(shù)從1到n生成隨機(jī)數(shù)r。如果r未被標(biāo)識(shí)為未選擇,則將其標(biāo)識(shí)為已選擇并將r添加到樣本。然后重復(fù)上述步驟,直到選擇m個(gè)(采樣比)樣本。
3.數(shù)據(jù)集d用于通過(guò)c4.5算法預(yù)測(cè)采樣效果按照采樣率10%-100%,并與采樣臺(tái)配合選擇最高的效率(實(shí)驗(yàn)部分記錄在下面)以確定新的數(shù)據(jù)集d'。
4.對(duì)于新數(shù)據(jù)集d',找到每個(gè)最近鄰的k個(gè)基于過(guò)采樣率n的稀有類樣本,然后n個(gè)樣本隨機(jī)選擇。根據(jù)等式(9),n個(gè)新的罕見例子是生成使用每個(gè)樣本的罕見例子及其選擇的n個(gè)病例。
輸出:新數(shù)據(jù)集d'
步驟3:wrapper特征選擇方法篩選特征集
特征選擇是指從d維的特征f中選擇一個(gè)d維子集,該子集在f的所有維數(shù)為d的子集中使某個(gè)準(zhǔn)則函數(shù)j是最優(yōu)的。特征選擇的兩個(gè)重要方面是搜索策略和準(zhǔn)則函數(shù)。wrapper方式是考慮具體的學(xué)習(xí)算法,由分類器的結(jié)果來(lái)評(píng)價(jià)特征好壞選擇出最終的算法達(dá)到較高的特征子集,首先假如有個(gè)d特征,那么就會(huì)有2d種特征組合,每種組合對(duì)應(yīng)了一個(gè)模型。
搜索策略:前向搜索和后向搜索
初始化特征向量f為空(f=φ)
循環(huán)直到到達(dá)閾值或者循環(huán)n趟
令f等于訓(xùn)練誤差最小的fi
輸出最終訓(xùn)練誤差最小的特征向量的子集,其中評(píng)價(jià)方法使用后續(xù)的機(jī)器學(xué)習(xí)算法。
步驟4:醫(yī)療數(shù)據(jù)分析
在本發(fā)明中用于心電圖分析預(yù)測(cè)的算法是bagging-c4.5,使用bagging技術(shù)對(duì)決策樹c4.5進(jìn)行集成,可以有效的優(yōu)化c4.5的不穩(wěn)定性,提高預(yù)測(cè)效果。子分類器設(shè)計(jì)—c4.5決策樹,c4.5具有幾個(gè)優(yōu)點(diǎn):對(duì)訓(xùn)練集敏感,適合集成學(xué)習(xí);訓(xùn)練模型時(shí)不需要過(guò)多先驗(yàn)知識(shí);對(duì)需分類樣本處理較簡(jiǎn)單,有較好的時(shí)間優(yōu)勢(shì)。因此本文選擇決策樹子分類器進(jìn)行集成實(shí)現(xiàn)分類預(yù)測(cè)。
子分類器設(shè)計(jì)—c4.5決策樹,算法原理:設(shè)訓(xùn)練樣本集為s,樣本共有n類,記為c={c1c2,...,cn}。則樣本集合s的不確定程度即信息熵(entropy)如式(10)所示。
式中,pi表示訓(xùn)練樣本集合中屬于第i類的概率。若a為數(shù)據(jù)對(duì)象屬性,具有v個(gè)不同值{a1,a2,...,an},則相應(yīng)可將s劃分為v個(gè)子集{s1,s2,...,sv};其中sj由s中樣本屬性a值為aj的樣本構(gòu)成。設(shè)sij是子集sj中類ci的樣本數(shù)。根據(jù)屬性a劃分的熵為:
項(xiàng)
式中,pij表示sj中樣本屬于類ci的概率。則屬性a的信息增益為:
(gain(a)):gain(a)=i(s)-e(a)(13)
每次選擇增益值最大的屬性作分支節(jié)點(diǎn)即可。為了避免傳統(tǒng)決策樹(id3算法)屬性多值情況所占優(yōu)勢(shì),常以信息增益率(c4.5算法)作為選擇分支屬性的標(biāo)準(zhǔn)。
ratio(s,a)=gain(s,a)/split(s,a)(14)
式中,
訓(xùn)練過(guò)程按照上述分支屬性選擇方法,自頂向下形成決策樹分類器。內(nèi)部節(jié)點(diǎn)表示分支屬性,葉節(jié)點(diǎn)代表類。決策樹分類器形成后,從根到葉節(jié)點(diǎn)提取合取范式,形成分類規(guī)則
采用bagging方法對(duì)c4.5算法進(jìn)行集成,其主要思想如下:
給定一數(shù)據(jù)集l={(x1,y1),..,(xm,ym)},基礎(chǔ)學(xué)習(xí)器為h(x,l),如果輸入為x,就通過(guò)h(x,l)來(lái)預(yù)測(cè)y,現(xiàn)在,假定有一個(gè)數(shù)據(jù)集序列{lk},每個(gè)序列都由m個(gè)與l從同樣分布下得來(lái)的獨(dú)立觀察組成,任務(wù)是使用{lk}來(lái)得到一個(gè)更好的學(xué)習(xí)器,它比單個(gè)數(shù)據(jù)集學(xué)習(xí)器h(x,l)要強(qiáng),這就要使用學(xué)習(xí)器序列{h(x,lk)}。如果y是數(shù)值的,一個(gè)明顯的過(guò)程是用{h(x,lk)},在k上的平均取代h(x,l),即通過(guò)氣ha(x)=elh(x,l),其中el表示l上的數(shù)學(xué)期望,ha的下標(biāo)a表示綜合,如果h(x,l)預(yù)測(cè)一個(gè)類j∈{1,...,j},于是綜合h(x,lk)的一種方法是通過(guò)投票,設(shè)mj={k,h(x,lk)=j(luò)},使
bagging算法的偽碼描述如下:
輸入訓(xùn)練集s={(x1,y1),...,(xn,yn)},弱學(xué)習(xí)器c4.5,訓(xùn)練的最大輪數(shù)t,
輸出:集成預(yù)測(cè)模型,
(1)s'=bootstrapsampleformd”//從a中得到的數(shù)據(jù)集d”中采用boostrap方法抽取m個(gè)訓(xùn)練例組成子集s';
(2)將抽樣后的數(shù)據(jù)集在c4.5算法上學(xué)習(xí)ht:x→y0//在s'上訓(xùn)練c4.5分類器,得到第t輪的預(yù)測(cè)函數(shù)ht;
(3)若t<t,回到(1),并令t=t+1,否則轉(zhuǎn)(4);
(4)將各預(yù)測(cè)函數(shù)h1,h2,…,ht集合生成最終的預(yù)測(cè)函數(shù):
ha(x)=sign(∑hi(x))(16)
通過(guò)對(duì)c4.5分類器的集成,可以有效提高分類器的泛化能力,使預(yù)測(cè)結(jié)果更加準(zhǔn)確。
以上所述的僅是本發(fā)明所公開的基于wrapper特征選擇bagging學(xué)習(xí)處理心電圖的方法的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,本發(fā)明提供的方法除了可以應(yīng)用在心電數(shù)據(jù)上還可以應(yīng)用于其他多種醫(yī)療數(shù)據(jù),還應(yīng)當(dāng)指出,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明創(chuàng)造構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。