欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用基于分類器集成的遺傳算法進(jìn)行特征選擇的方法

文檔序號(hào):6455927閱讀:286來源:國(guó)知局
專利名稱:使用基于分類器集成的遺傳算法進(jìn)行特征選擇的方法
使用基于分類器集成的遺傳算法進(jìn)行特征選擇的方法
本申請(qǐng)要求2006年9月22日提交的序列號(hào)為60/826,593的美國(guó)臨時(shí) 申請(qǐng)的權(quán)益,上述申請(qǐng)的全部?jī)?nèi)容以引用方式并入本文中。
提供了使用遺傳算法進(jìn)行特征選擇的方法。
遺傳算法(GA)是用于作為搜索技術(shù)計(jì)算以找出優(yōu)化和搜索問題的解 決方案的一類演化算法。GA使用術(shù)語和概念來發(fā)展受到演化生物學(xué)啟發(fā)的 技術(shù),包括諸如遺傳、突變、選擇和交叉這樣的概念。
特征選擇也被稱為子集選擇或變量選擇,是一種在機(jī)器學(xué)習(xí)中使ffl的 方法。在將學(xué)習(xí)算法應(yīng)用于數(shù)據(jù)集之前,選擇可從該數(shù)據(jù)集獲得的子集。 使用特征選擇的過程,原因在于使用數(shù)據(jù)集中所有可獲得的特征在計(jì)算上 是不可行的。當(dāng)數(shù)據(jù)集具有包含大量特征的有限數(shù)據(jù)樣本時(shí)特征選擇也用 于使估計(jì)和過適應(yīng)度的問題盡量少的發(fā)生。
利用特征選擇的典型領(lǐng)域是計(jì)算機(jī)輔助診斷(CADx)。 CADx是一種 使用機(jī)器學(xué)習(xí)技術(shù)來預(yù)測(cè)醫(yī)療結(jié)果,例如將未知病變分類為惡性或良性的 方法。例如,在用于肺癌診斷的肺的計(jì)算機(jī)斷層攝影(CT)成像中,這些 輸入特征可以包括應(yīng)用于待研究的肺結(jié)節(jié)的圖像處理算法的結(jié)果。提高 CADx系統(tǒng)的診斷準(zhǔn)確度是將該技術(shù)成功引入臨床中的關(guān)鍵步驟。
由于對(duì)于每個(gè)病變可能需要計(jì)算和檢索大量的圖像特征和臨床特征, 由于不可能使用數(shù)據(jù)集中所有可獲得的特征以及當(dāng)數(shù)據(jù)集具有包含大量特 征的有限數(shù)據(jù)樣本時(shí)存在估計(jì)的問題,因而特征選擇是重要步驟。已經(jīng)證 明采用GA和支持向量機(jī)(SVM)的特征選擇是用于計(jì)算機(jī)輔助檢測(cè)(CAD; Boroczky等人,IEEE Transaction on Biomedical Engineering, 10(3), 第 》04-551頁,2006)的高效特征選擇方法。
盡管基于GA的特征選擇已證明在許多領(lǐng)域中是成功的,但是由于有 噪聲和醫(yī)學(xué)數(shù)據(jù)集小而常常發(fā)生問題和偏差。這由GA內(nèi)部的隨機(jī)分割導(dǎo)
4致,所述隨機(jī)分割會(huì)從學(xué)習(xí)數(shù)據(jù)集生成偏差訓(xùn)練數(shù)據(jù)集和偏差測(cè)試數(shù)據(jù)集。
因此,本文提供了用于執(zhí)行基于遺傳算法的特征選擇的方法。所述方 法在一個(gè)實(shí)施例中包括以下步驟將多個(gè)數(shù)據(jù)分割模式應(yīng)用于學(xué)習(xí)數(shù)據(jù)集 以建立多個(gè)分類器進(jìn)而獲得至少一個(gè)分類結(jié)果;整合來自所述多個(gè)分類器 的所述至少一個(gè)分類結(jié)果以獲得整合的準(zhǔn)確度結(jié)果;以及將所述整合的準(zhǔn) 確度結(jié)果作為用于候選特征子集的適應(yīng)度值輸出到遺傳算法,其中,執(zhí)行 基于遺傳算法的特征選擇。
一個(gè)相關(guān)實(shí)施例還包括使用所述遺傳算^^獲得所述候選特征子集。
在一個(gè)相關(guān)實(shí)施例中,所述多個(gè)數(shù)據(jù)分割模式將所述學(xué)習(xí)數(shù)據(jù)集分成 訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。學(xué)習(xí)數(shù)據(jù)集用于調(diào)節(jié)學(xué)習(xí)規(guī)則的參數(shù)。訓(xùn)練數(shù)據(jù)集 包括輸入向量(包括可獲得的特征)和應(yīng)答向量(包括己知診斷,即惡性/ 良性),并且與監(jiān)督學(xué)習(xí)方法一起使用所述訓(xùn)練數(shù)據(jù)集以便采用具有病例和 己知診斷的數(shù)據(jù)庫訓(xùn)練計(jì)算機(jī)。測(cè)試數(shù)據(jù)集包括用于測(cè)試在訓(xùn)練數(shù)據(jù)上建 立的分類器的性能的已知實(shí)例。
在另一相關(guān)實(shí)施例中,所述多個(gè)分類器選自下列的至少一個(gè)組成的組 支持向量機(jī)、決策樹、線性判別分析和神經(jīng)網(wǎng)絡(luò)。
在另一相關(guān)實(shí)施例中,建立所述多個(gè)分類器還包括使用再采樣技術(shù)從 所述學(xué)習(xí)數(shù)據(jù)集獲得多個(gè)訓(xùn)練集和多個(gè)測(cè)試集中的每一個(gè)。
在又一相關(guān)實(shí)施例中,建立所述多個(gè)分類器還包括使用多個(gè)訓(xùn)練集。
在另一實(shí)施例中,所述方法還包括組合來自所述多個(gè)分類器的分類結(jié) 果以形成組預(yù)測(cè)。
在一個(gè)相關(guān)實(shí)施例中,整合至少一個(gè)分類結(jié)果還包括計(jì)算選自下列的 組的至少一個(gè)結(jié)果平均值、加權(quán)平均值、多數(shù)投票、加權(quán)多數(shù)投票和中 值。
在另一相關(guān)實(shí)施例中,所述方法還包括采用遺傳算法以便采用所述適 應(yīng)度值重復(fù)地評(píng)價(jià)候選特征子集,從而生成新的候選特征子集,并且獲得 最佳的最終特征子集。
在一個(gè)相關(guān)實(shí)施例中,所述方法用于選自下列的至少一個(gè)的組的醫(yī)學(xué) 成像模態(tài)中CT、 MRI、 X射線和超聲。在另一實(shí)施例中,所述方法用于計(jì)算機(jī)輔助檢測(cè)(CAD)中。在一個(gè)
相關(guān)實(shí)施例中,所述方法用于選自下列的至少一個(gè)組成的組的疾病的CAD 中肺癌、乳腺癌、前列腺癌和結(jié)直腸癌。
在又一實(shí)施例中,所述方法用于計(jì)算機(jī)輔助診斷(CADx)中。在一個(gè) 相關(guān)實(shí)施例中,所述方法用于選自下列的至少一個(gè)組成的組的疾病的CADx 中肺癌、乳腺癌、前列腺癌和結(jié)直腸癌。
本文提供的方法將分類器集成方法整合到演化特征選擇過程中以改善 基于GA的特征選擇。GA采用基于多個(gè)數(shù)據(jù)分割模式的整合預(yù)測(cè)結(jié)果評(píng)價(jià) 每個(gè)特征子集,而不是評(píng)價(jià)單一數(shù)據(jù)分割模式。這特別有益于可能以其他 方式導(dǎo)致適應(yīng)度值計(jì)算有偏差的噪聲數(shù)據(jù)。
圖l是示出了數(shù)據(jù)分割對(duì)分類準(zhǔn)確度的影響的條形圖; 圖2是示出了建立多個(gè)分類器以分析數(shù)據(jù)集和獲得最佳特征子集的步 驟的流程圖。
特征選擇用于確定最佳特征子集以便建立分類器。使用基于GA和 SVM的特征選擇過程?;谧罴烟卣髯蛹⒎诸惼鳌?br> 分類器用于不同疾病的CAD和CADx中,例如用于肺癌和具有實(shí)體腫 瘤的其他類型的癌癥。在機(jī)器學(xué)習(xí)的領(lǐng)域中,分類器用于對(duì)具有類似特征 值的項(xiàng)進(jìn)行分組??赡艿姆诸惼靼⊿VM、決策樹、線性判別分析和神經(jīng) 網(wǎng)絡(luò)。SVM是線性分類器,并且由于其具有出色的有關(guān)分類器的性能而常 常被使用。決策樹是一種預(yù)測(cè)模型,其將關(guān)于一項(xiàng)的觀察映射為關(guān)于該項(xiàng) 的目標(biāo)值的結(jié)論。線性判別分析用于找出最佳地區(qū)分兩個(gè)或更多類別的對(duì) 象或事件的特征的線性組合。得到的組合用作線性分類器或用于在以后的 分類之前進(jìn)行降維。神經(jīng)網(wǎng)絡(luò)是一種非線性統(tǒng)計(jì)數(shù)據(jù)建模工具,其用于對(duì) 輸入和輸出之間的關(guān)系進(jìn)行建模和/或找出數(shù)據(jù)中的模式。
為臨床醫(yī)生提供高置信度的CADx系統(tǒng)通過提供快速和準(zhǔn)確的診斷 (假陽性和假陰性更少)改善了臨床醫(yī)生工作流。CADx系統(tǒng)可以用作第 二校對(duì)者(reader)以增加臨床醫(yī)生在其診斷中的置信度,從而使得對(duì)肺病 變(例如結(jié)節(jié))的不必要活檢顯著減少,并且使得顯著降低了不必要的治
6療延遲。此外,CADx系統(tǒng)可以便于對(duì)無癥狀患者進(jìn)行肺癌篩查,原因是 可以進(jìn)行快速、準(zhǔn)確的診斷。例如但不限定于飛利浦Brilliance系列的MSCT 掃描器提供的分辨率得到增加并且允許觀察更細(xì)微的結(jié)構(gòu),同時(shí)產(chǎn)生的供 放射科醫(yī)師判讀的圖像數(shù)據(jù)量得到增加。
在基于機(jī)器學(xué)習(xí)的CADx領(lǐng)域中,最常見的一個(gè)問題是訓(xùn)練數(shù)據(jù)通常 有噪聲。當(dāng)訓(xùn)練數(shù)據(jù)集不足夠大時(shí)噪聲尤其嚴(yán)重。這對(duì)特征選擇有效性具 有相當(dāng)大的影響。由于GA依賴隨機(jī)數(shù)據(jù)分割來評(píng)價(jià)每個(gè)代表特征子集的 染色體,因此噪聲數(shù)據(jù)提供了特征子集如何執(zhí)行的不準(zhǔn)確評(píng)價(jià)。結(jié)果,好 的特征子集會(huì)由于其在"壞的"隨機(jī)數(shù)據(jù)分割上的性能而被丟棄。這隨后 影響到是否能成功收斂到最佳特征子集。
圖l示出了采用來自129個(gè)肺癌病例的數(shù)據(jù)的實(shí)驗(yàn)結(jié)果的圖形。將隨 機(jī)選擇的數(shù)據(jù)子集用于訓(xùn)練,即,建立SVM分類器,而將剩余的數(shù)據(jù)用于 測(cè)試。這被稱為數(shù)據(jù)分割。

圖1中的結(jié)果表明當(dāng)使用不同的數(shù)據(jù)分割時(shí), 分類準(zhǔn)確度,即測(cè)試準(zhǔn)確度,明顯不同。
以前的方法典型地假設(shè)噪聲分量是從無偏差(即平均為零的)正態(tài)分 布隨機(jī)抽取的。典型地通過估計(jì)噪聲偏差和從適應(yīng)度值減去噪聲偏差來校 ^適應(yīng)度值(Miller等人,Evolutionary Computation , 1996 , 可在 http:〃leitl.org/docs/ecj96.ps.gz獲得)。適應(yīng)度值是解的質(zhì)量的客觀量度。
并非真實(shí)世界中的所有數(shù)據(jù)都具有無偏差分布,或者偏差難以估計(jì)。
為了解決這些問題,本文提供的方法使用分類器集成降低在GA演化期間 對(duì)特征子集進(jìn)行評(píng)價(jià)時(shí)噪聲的影響。
分類器集成在理論上和經(jīng)驗(yàn)上已被證明比組成集成的任何單個(gè)分類器 更準(zhǔn)確(Opitz等人,Journal of Artificial Intelligence Research,第169-198 頁,1999)。本文提供的方法使用以下變化依賴再采樣技術(shù)獲得用于建立 多個(gè)分類器的不同訓(xùn)練集,和使用多個(gè)特征子集建立多個(gè)分類器。將來自 ,個(gè)分類器的分類結(jié)果組合在一起以形成組預(yù)測(cè)。
不同于根據(jù)現(xiàn)有方法建立一個(gè)分類器(即,使用一個(gè)數(shù)據(jù)分割模式) 以評(píng)價(jià)特征子集的性能,本文提供的方法建立多個(gè)分類器,也被稱為集成, 并且整合來自這些分類器的分類結(jié)果。在該情況下,在不同數(shù)據(jù)分割上建 立幾個(gè)分類器。每個(gè)分類器將產(chǎn)生一決策,例如病變是惡性還是良性。整合方法可以是多數(shù)投票,即,由多數(shù)成員分類器選擇的預(yù)測(cè)。替代的整合
方法包括計(jì)算平均值、加權(quán)平均值或中值(Kuncheva,L丄,IEEE Transactions on Pattern Analysis and Machine Intelligence , 24(2),第281 -286頁,2002)。
由分類器集成獲得的準(zhǔn)確度比任何單一分類器更好。將由分類器集成確定 的整合準(zhǔn)確度作為用于一個(gè)特異性特征子集的適應(yīng)度值返回GA。
圖2示出了被分割成兩個(gè)集合,集合A (學(xué)習(xí)數(shù)據(jù)集)和集合B (留 作最終測(cè)試的數(shù)據(jù)集)的數(shù)據(jù)樣本。集合A經(jīng)歷數(shù)據(jù)分割,將集合A數(shù)據(jù) 分成訓(xùn)練集和測(cè)試集。應(yīng)用多個(gè)數(shù)據(jù)分割模式以建立多個(gè)分類器,即SVM。 對(duì)來自多個(gè)分類器的結(jié)果進(jìn)行整合和評(píng)價(jià)。在作為原始數(shù)據(jù)集的一部分的 測(cè)試集數(shù)據(jù)上執(zhí)行分類的準(zhǔn)確度。將作為來自每個(gè)分類器的整合結(jié)果的分 類準(zhǔn)確度的結(jié)果作為用于候選特征子集的適應(yīng)度值返回GA。適應(yīng)度值BJ以 包括特異性和靈敏度。在整合結(jié)果返回GA之后,GA確定哪些特征要被保 留/丟棄并且通過內(nèi)部突變和交叉操作生成(一個(gè)或多個(gè))新的候選特征子 集。重復(fù)GA演化過程直到到達(dá)終止條件,此時(shí)確定出最佳特征子集。
本文提供的方法可以用于若干種成像模態(tài),例如MRI、 CT、 X射線或 超聲。將本文提供的方法應(yīng)用于醫(yī)學(xué)成像模態(tài),包括用于檢測(cè)和診斷人體 中的異常病變,例如從成像系統(tǒng)即電子掃描器收集的數(shù)據(jù)的成像模態(tài)。本 文提供的方法和系統(tǒng)可以用于放射工作站,例如但不限于飛利浦Extended Brilliance工作站、飛利浦Mx8000、和飛利浦Brilliance CT掃描器系列, 或被集成到PACS系統(tǒng)中,例如但不限于StentoriSite系統(tǒng)。本文提供的發(fā) 明也用于CAD和CADx中。當(dāng)應(yīng)用于CAD和CADx時(shí),本文提供的發(fā)明 用于檢測(cè)和診斷諸如肺癌、大腸息肉、結(jié)直腸癌、前列腺癌和乳腺癌的疾 病以及其他癌性和非癌性病變。
此外將顯而易見可以在不脫離權(quán)利要求及其等價(jià)物的精神和范圍的情 況下設(shè)計(jì)本發(fā)明的其他和另外形式,以及設(shè)計(jì)除了上述特定和示范性實(shí)施 例以外的實(shí)施例,所以希望本發(fā)明的范圍包含這些等價(jià)物并且說明書和權(quán) 利要求書意在示范性的而不應(yīng)當(dāng)被理解成進(jìn)一步限制。本文引用的所有參 考文獻(xiàn)的內(nèi)容以引用方式并入本文中。
權(quán)利要求
1、一種用于執(zhí)行基于遺傳算法的特征選擇的方法,所述方法包括將多個(gè)數(shù)據(jù)分割模式應(yīng)用于學(xué)習(xí)數(shù)據(jù)集以建立多個(gè)分類器,進(jìn)而獲得至少一個(gè)分類結(jié)果;整合來自所述多個(gè)分類器的所述至少一個(gè)分類結(jié)果以獲得整合的準(zhǔn)確度結(jié)果;以及將所述整合的準(zhǔn)確度結(jié)果作為用于候選特征子集的適應(yīng)度值輸出到遺傳算法,其中,執(zhí)行基于遺傳算法的特征選擇。
2、 根據(jù)權(quán)利要求1所述的方法,還包括使用所述遺傳算法獲得所述候 選特征子集。
3、 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)數(shù)據(jù)分割模式將所述學(xué)習(xí)數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
4、 根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)分類器選自下列的至少一個(gè)組成的組支持向量機(jī)、決策樹、線性判別分析和神經(jīng)網(wǎng)絡(luò)。
5、 根據(jù)權(quán)利要求1所述的方法,其中,建立所述多個(gè)分類器還包括使用再采樣技術(shù)從所述學(xué)習(xí)數(shù)據(jù)集獲得多個(gè)訓(xùn)練集和多個(gè)測(cè)試集中的毎-個(gè)。
6、 根據(jù)權(quán)利要求1所述的方法,其中,建立所述多個(gè)分類器還包括使用多個(gè)訓(xùn)練集。
7、 根據(jù)權(quán)利要求1所述的方法,還包括組合來自所述多個(gè)分類器的分類結(jié)果以形成組預(yù)測(cè)。
8、 根據(jù)權(quán)利要求1所述的方法,其中,整合至少一個(gè)分類結(jié)果還包括計(jì)算選自下列組成的組的至少一個(gè)結(jié)果平均值、加權(quán)平均值、多數(shù)投票、 加權(quán)多數(shù)投票和中值。
9、 根據(jù)權(quán)利要求1所述的方法,還包括使用遺傳算法獲得最佳的最終 特征子集。
10、 根據(jù)權(quán)利要求1所述的方法,其中,所述方法用于選自下列的至 少一個(gè)組成的組的醫(yī)學(xué)成像模態(tài)中CT、 MRI、 X射線和超聲。
11、 根據(jù)權(quán)利要求1所述的方法,其中,所述方法用于計(jì)算機(jī)輔助檢測(cè)(CAD)中。
12、 根據(jù)權(quán)利要求11所述的方法,其中,所述方法用于選自下列的至 少一個(gè)組成的組的疾病的CAD中肺癌、乳腺癌、前列腺癌和結(jié)直腸癌。
13、 根據(jù)權(quán)利要求1所述的方法,其中,所述方法用于計(jì)算機(jī)輔助診 斷(CADx)中。
14、 根據(jù)權(quán)利要求13所述的方法,其中,所述方法用于選自下列的至 少一個(gè)組成的組的疾病的CADx中肺癌、乳腺癌、前列腺癌和結(jié)直腸癌。
全文摘要
本文提供了用于執(zhí)行基于遺傳算法的特征選擇的方法。在某些實(shí)施例中,所述方法包括以下步驟將多個(gè)數(shù)據(jù)分割模式應(yīng)用于學(xué)習(xí)數(shù)據(jù)集以建立多個(gè)分類器進(jìn)而獲得至少一個(gè)分類結(jié)果;整合來自所述多個(gè)分類器的所述至少一個(gè)分類結(jié)果以獲得整合的準(zhǔn)確度結(jié)果;以及將所述整合的準(zhǔn)確度結(jié)果作為用于候選特征子集的適應(yīng)度值輸出到遺傳算法,其中執(zhí)行基于遺傳算法的特征選擇。
文檔編號(hào)G06K9/00GK101517602SQ200780034729
公開日2009年8月26日 申請(qǐng)日期2007年9月17日 優(yōu)先權(quán)日2006年9月22日
發(fā)明者L·A·阿尼霍特里, L·博羅茨基, L·趙, M·C·C·李 申請(qǐng)人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
谷城县| 濮阳县| 铁岭市| 大港区| 玉屏| 兴化市| 隆安县| 黄冈市| 红河县| 大英县| 松溪县| 武安市| 慈溪市| 通渭县| 内江市| 壤塘县| 林甸县| 桓台县| 吴川市| 周至县| 榆社县| 浙江省| 洪洞县| 南华县| 遂溪县| 甘孜| 平昌县| 临安市| 武威市| 揭阳市| 福州市| 抚远县| 赣榆县| 秦皇岛市| 杭州市| 全椒县| 霍邱县| 南岸区| 岑巩县| 武穴市| 三穗县|