專利名稱::將系統(tǒng)數(shù)據(jù)縮放集成到基于遺傳算法的特征子集選擇中的方法和裝置的制作方法
技術(shù)領(lǐng)域:
:本申請(qǐng)的
技術(shù)領(lǐng)域:
是將系統(tǒng)數(shù)據(jù)縮放(systematicdatascaling)集成在基于遺傳算法的特征子集選擇系統(tǒng)中的方法和裝置,其中該基于遺傳算法的特征子集選擇系統(tǒng)用于數(shù)據(jù)挖掘、假陽(yáng)性減少(falsepositivereduction,FPR)、計(jì)算機(jī)輔助檢測(cè)(CAD)、計(jì)算機(jī)輔助診斷(CADx)和人工智能。
背景技術(shù):
:CAD算法已經(jīng)發(fā)展到根據(jù)多切片計(jì)算機(jī)控制斷層(multi-slicecomputedtomography,MSCT)掃描自動(dòng)識(shí)別醫(yī)學(xué)上的重要解剖特性,例如可疑病變,從而提供第二意見供放射科醫(yī)生使用。這些算法有助于癌癥的早期檢測(cè),使生存率提高。例如,肺癌是最常見的不治之癥中的一種,據(jù)預(yù)測(cè)2006年在美國(guó)將有162,460人死于肺癌(美國(guó)癌癥協(xié)會(huì),"CancerFacts&Figures2006(癌癥事實(shí)與數(shù)字2006)",亞特蘭大2006),盡管外科手術(shù)技術(shù)和療法已經(jīng)提高,但是肺癌患者的5年生存率仍然只有約15%。然而,對(duì)于在疾病仍處于局部時(shí)被檢測(cè)到的情況,生存率顯著提高到約50%。因此,可疑病變的早期檢測(cè)和診斷使得能夠較早的介入,并能夠產(chǎn)生更好的診斷和生存率。已知使用機(jī)器學(xué)習(xí)技術(shù)作為后處理步驟來(lái)排除由CAD算法誤識(shí)別為肺結(jié)節(jié)的假陽(yáng)性結(jié)構(gòu)。Mousa和Khan使用支持向量機(jī)(SVM)將肺結(jié)節(jié)與非結(jié)節(jié)分離(W.A.H.Mousa&M.A.U.Khan,"odw/ec/oswyc她'o"wA7izz."gvector膨c/w'wes,presentedatInt,lConf.OnImageProcessing,2002)。Ge等人已經(jīng)提出了一種基于3D特征的線性判別式分類器(Geetal.,gra^e"fmeAod,presentedatMedicalImaging2004:ImageProcessing,SanDiego2004》4Suzuki等人己經(jīng)提出了一種大規(guī)模的訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)(massivetrainingartificialneuralnetwork,MTANN),其能夠直接對(duì)圖像數(shù)據(jù)進(jìn)行操作,并且不需要特征提取(K.Suzukietal.,MoswVe/ra/"/"g融yc/a/wewra//w"gwo^/es/ow-c/o化compwtoitomogra/A^,30Med.PHYSICS1602-17,2003)。他們得出結(jié)論,MTANN和基于規(guī)則的/線性-識(shí)別分類器的結(jié)合可能比僅使用MTANN對(duì)FPR更有用。大多數(shù)現(xiàn)有的對(duì)FPR的工作遵循與監(jiān)督學(xué)習(xí)相同的方法以收集地面真實(shí)數(shù)據(jù)開始,使用一個(gè)或多個(gè)用戶認(rèn)為是適當(dāng)?shù)囊唤M特征來(lái)用這些數(shù)據(jù)訓(xùn)練一個(gè)分類器。雖然近來(lái)MSCT的改進(jìn)使得能夠在比以前更早的階段檢測(cè)到諸如肺癌、肝癌或乳腺癌的癌癥,但是這些方法仍然導(dǎo)致了大量必須由放射科醫(yī)生進(jìn)行解釋的數(shù)據(jù),這是一個(gè)消耗大量成本和時(shí)間的過(guò)程。CAD算法具有高敏感性,然而,它們中沒有一個(gè)運(yùn)行得具有理想的準(zhǔn)確度(即,能夠檢測(cè)到所有確實(shí)是肺結(jié)節(jié)的結(jié)構(gòu)并且只檢測(cè)到這些結(jié)構(gòu))。一些非結(jié)節(jié)結(jié)構(gòu)(如血管)經(jīng)常被錯(cuò)誤地標(biāo)記為結(jié)節(jié)。由于臨床醫(yī)生,如放射科醫(yī)生,必須檢查每個(gè)識(shí)別出的結(jié)構(gòu),所以非常希望能夠消除盡可能多的假陽(yáng)性(FP),同時(shí)保留真陽(yáng)性(TP),即結(jié)節(jié),從而避免由對(duì)假陽(yáng)性進(jìn)行不必要的檢査所導(dǎo)致的疲勞和錯(cuò)誤。這作為假陽(yáng)性減少(FPR)是已知的。與其它旨在減少誤分類的情況的總數(shù)的分類任務(wù)不同,此處的目的是在保留所有的TP的限制下(維持100%的敏感性),消除盡可能多的FP(使特異性最大化)。雖然已經(jīng)描述了假陽(yáng)性減少系統(tǒng),但是這種系統(tǒng)的目標(biāo),即在維持100%的敏感性的同時(shí)實(shí)現(xiàn)特異性最大化,仍然是難以獲得的。
發(fā)明內(nèi)容本發(fā)明的一個(gè)實(shí)施例提供了一種在數(shù)據(jù)挖掘、計(jì)算機(jī)輔助檢測(cè)、計(jì)算機(jī)輔助診斷和人工智能中提高分類準(zhǔn)確度并減少假陽(yáng)性的方法。所述方法包括使用系統(tǒng)數(shù)據(jù)縮放方法,從一組訓(xùn)練案例中選擇訓(xùn)練集。所述方法還包括使用分類方法,基于所述訓(xùn)練集來(lái)創(chuàng)建分類器,其中所述系統(tǒng)數(shù)據(jù)縮放方法和事實(shí)分類方法產(chǎn)生所述分類器,從而減少假陽(yáng)性并提高分類準(zhǔn)確性。5在一個(gè)相關(guān)實(shí)施例中,所述分類器從由支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和決策樹組成的組中進(jìn)行選擇。另一個(gè)實(shí)施例進(jìn)一步包括使用測(cè)試集對(duì)基于所述訓(xùn)練集由所述分類方法產(chǎn)生的所述分類器進(jìn)行評(píng)價(jià)。在另一實(shí)施例中,選擇訓(xùn)練集進(jìn)一步包括從所述訓(xùn)練集中去除與真結(jié)節(jié)形成Tomek鏈的假結(jié)節(jié),直到滿足一個(gè)閾值。在一個(gè)相關(guān)實(shí)施例中,相對(duì)于向下縮放因子(downscalingfactor);c來(lái)確定所述閾值,使得在系統(tǒng)數(shù)據(jù)縮放后留在所述訓(xùn)練集中的假結(jié)節(jié)的數(shù)量不超過(guò)所述訓(xùn)練集中的真結(jié)節(jié)的數(shù)量的:c倍。在一個(gè)相關(guān)實(shí)施例中,所述方法包括利用該組測(cè)試案例或其子集來(lái)驗(yàn)證所述分類器。還提供了一種當(dāng)執(zhí)行時(shí)實(shí)施上述任一方法的遺傳算法。在一個(gè)相關(guān)實(shí)施例中,該遺傳算法是CHC算法(L丄Eshelman,^&prive5^rcZiZecomZ/"加ow,inFOUNDATIONSOFGENETICALGORIGHMS265-83,G.J.E.Rawlines,ed.1991)。還提供了一種使用上述遺傳算法從特征庫(kù)中選擇特征的方法,所述方法具有以下步驟提供根據(jù)上述方法的第一遺傳算法和第二遺傳算法中的每個(gè),其中所述第一遺傳算法用來(lái)確定所述特征集的最佳大??;以及固定所述特征集的大小并使用所述第二遺傳算法來(lái)選擇特征。在一個(gè)相關(guān)實(shí)施例中,在提供所述第一遺傳算法時(shí),所述方法進(jìn)一步包括使用下列各項(xiàng)中的至少一項(xiàng)來(lái)對(duì)結(jié)果進(jìn)行分析表示不同特征子集大小的染色體出現(xiàn)的數(shù)量和平均錯(cuò)誤的數(shù)量。在進(jìn)一步的實(shí)施例中,"平均錯(cuò)誤的數(shù)量"是由所述分類器基于這些染色體所導(dǎo)致的錯(cuò)誤分類的肺結(jié)節(jié)的數(shù)量。還提供了一種當(dāng)執(zhí)行時(shí)實(shí)施上述任一方法的計(jì)算機(jī)可讀介質(zhì)。還提供了一種制造產(chǎn)品,所述制造產(chǎn)品是成像設(shè)備或假陽(yáng)性減少設(shè)備,其中所述設(shè)備是被編程以通過(guò)實(shí)施上述任一方法來(lái)分析圖像數(shù)據(jù)的計(jì)算機(jī)。在一個(gè)相關(guān)實(shí)施例中,在上述制造產(chǎn)品中,所述圖像設(shè)備從包括下列各項(xiàng)的組中選擇計(jì)算機(jī)控制斷層掃描(CT)、計(jì)算機(jī)控制軸向斷層掃描6(CAT)、多切片計(jì)算機(jī)控制斷層掃描(MSCT)、X射線斷層攝影(bodysectionroentgenography),超聲波、磁共振成像(MRI)、磁共振體層攝影(MRT)、核磁共振(NMR)、X射線、顯微鏡、熒光透視、X線斷層攝影(tomography)和數(shù)字成像。在上述制造產(chǎn)品的進(jìn)一步實(shí)施例中,所述制造產(chǎn)品是肺結(jié)節(jié)CAD系統(tǒng)。圖1是乳腺超聲掃描的CAD輸出的圖像,其中具有一個(gè)檢測(cè)到并進(jìn)行了描繪的病變。圖2是肺CT掃描的CAD輸出,其中具有兩個(gè)識(shí)別出的檢測(cè)到的病變;圖3是基于遺傳算法的特征子集選擇的框圖。圖4是使用在圖3中選擇的最佳特征子集的假陽(yáng)性減少過(guò)程的框圖。圖5示出從訓(xùn)練集中去除假陽(yáng)性的系統(tǒng)向下縮放方法的運(yùn)行效果。圖6是描述將系統(tǒng)數(shù)據(jù)縮放(系統(tǒng)向下縮放)集成到GA特征子集選擇過(guò)程的框圖。圖7是示出了對(duì)于大小為5的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。圖8是示出了對(duì)于大小為6的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。圖9是示出了對(duì)于大小為7的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。圖IO是示出了對(duì)于大小為8的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。圖11是示出了對(duì)于大小為9的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。7圖12是示出了對(duì)于大小為10的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。圖13是示出了對(duì)于大小為11的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。圖14是示出了對(duì)于大小為12的特征子集的遺傳算法的性能的圖表,其中該遺傳算法結(jié)合了隨機(jī)向下縮放、系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為2)和系統(tǒng)數(shù)據(jù)縮放(向下縮放因子為3)。具體實(shí)施例方式因此,本發(fā)明的一個(gè)目的是將系統(tǒng)數(shù)據(jù)縮放集成到遺傳算法中的候選特征子集的評(píng)價(jià)。支持向量機(jī)(SVM)是用于機(jī)器學(xué)習(xí)的相對(duì)較新的工具(B.E.Boser,I.Guyon&V.Viapnik,jfrm'w/nga/gon.f/zm々ro_p^m<3/c/oss(/ers,presentedat5thAnnualACMWorkshoponComputationalLearningTheory,Pittsburgh1992)。從19世紀(jì)90年代后期開始,SVM已經(jīng)越來(lái)越廣泛(V.N.VAPNIK,THENATUREOFSTATISTICALLEARNINGTHEORY"995);V.N.VAPNIK,STATISTICALLAERNNINGTHEORY,1998)。目前支持向量機(jī)是用于從文本到基因數(shù)據(jù)的大量分類任務(wù)的最佳執(zhí)行者之一,然而,如在此處所描述的,還存在許多問(wèn)題。SVM將分類目標(biāo)的任務(wù)處理成兩類中的一類,并假定一些樣本已經(jīng)被分類。這種類型的監(jiān)督機(jī)器學(xué)習(xí)的目的是提出一個(gè)函數(shù),其能夠"正確地"將任何新的目標(biāo)分類。SVM理論可以表示成如下形式對(duì)于大小為m的訓(xùn)練數(shù)據(jù)集k,y,),每個(gè)數(shù)據(jù)點(diǎn)由特征向量;c,e^描述,并且先驗(yàn)知識(shí)是每個(gè)、屬于兩種類型>^{-1,1}中的一個(gè)(/=1,...,附)。給定一個(gè)新的數(shù)據(jù)點(diǎn)Jc,SVM理論的目的是確定一個(gè)函數(shù)/,以使得(x,/"在某種意義上類似于所給的訓(xùn)練數(shù)據(jù)。假定可能找到一個(gè)超平面^+6=0(其中點(diǎn)表示內(nèi)積),使得所有的陽(yáng)性樣本0=1)位于平面的一側(cè),而陰性樣本(y--l)位于另一面,艮Pw.x,+62+l女口果乂-1在這種情況中,訓(xùn)練集是線性可分的。給定一個(gè)新的數(shù)據(jù)點(diǎn);c,計(jì)算w.;c+6,并且值的符號(hào)告知c是陽(yáng)性還是陰性樣本。換句話說(shuō),函數(shù)/0c^sgn(wx+6)確定任意新向量x的分類。在大多數(shù)情況中,不可能找到一個(gè)能夠整齊地分隔陽(yáng)性和陰性樣本的超平面。SVM將原始特征向量映射到(通常)更高的維度空間,在那里可以找到這樣一個(gè)超平面①x~>p(;c)這種映射①被稱為核函數(shù)。存在許多能夠分隔數(shù)據(jù)集的超平面。選擇一個(gè)超平面使得訓(xùn)練數(shù)據(jù)向量的最小距離(即,到超平面的垂直距離)最大。與超平面的這個(gè)最小距離的向量稱為支持向量。支持向量集確定了該分隔超平面。其他的向量可以被拋棄,而不需要改變解決方案,并且如果任何支持向量被去除,超平面將改變。因此找到這個(gè)超平面是一個(gè)最優(yōu)化問(wèn)題。表面上,映射到更高的維度空間可能導(dǎo)致計(jì)算問(wèn)題。然而,SVM理論表明能夠選擇核函數(shù),以使得結(jié)果函數(shù)/對(duì)于計(jì)算是有吸引力的。此處使用的術(shù)語(yǔ)"分類器"描述能夠預(yù)測(cè)一個(gè)對(duì)象屬于哪個(gè)組或類別的任何類型的方法或裝置。這個(gè)定義包括但不限于數(shù)據(jù)挖掘工具和技術(shù),如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和決策樹。此處使用的術(shù)語(yǔ)"分類方法"描述生成分類器的任何手段。這個(gè)定義包括但不限于數(shù)據(jù)挖掘工具和技術(shù),如Broser等人用于創(chuàng)建SVM,C4.5,J4.8的算法,以及APRIORI方法(B.E.Boser,I.Guyon&V.Vapnik,爿/na/w/wg"/gonY/z淤y^ro//wa/warg/"c/ayj(/^:s,presentedat5thAnnualACMWorkshoponComputationalLearningTheory,Pittsburgh1992)。此處提供的本發(fā)明的一個(gè)實(shí)施例是一個(gè)基于機(jī)器學(xué)習(xí)的FPR單元,其具有三個(gè)主要的處理部分特征提取、SVM驅(qū)動(dòng)的基于GA的特征子集選擇以及SVM分類器。特征提取單元根據(jù)CT掃描計(jì)算若干個(gè)2D和3D特征,以用于區(qū)分真結(jié)節(jié)和非結(jié)節(jié)。這些特征組成特征庫(kù),用于特征子集選擇步驟,其只在系統(tǒng)的設(shè)計(jì)階段執(zhí)行。一旦選定一個(gè)最佳的特征子集,并且根據(jù)該最佳的特征子集創(chuàng)建了一個(gè)分類器,系統(tǒng)就只包括特征提取和分類器。本發(fā)明的一個(gè)實(shí)施例使用支持向量機(jī),因?yàn)樗鼘?duì)于各種分類任務(wù),包括醫(yī)9學(xué)決策支持,有更好的性能。也可以使用其它分類器,如神經(jīng)網(wǎng)絡(luò)。為了防止不必要的計(jì)算和過(guò)擬和,并確保可靠的分類器,使用遺傳算法(GA)來(lái)選擇特征子集。包裝方法(wmpperapproach)包括與用于產(chǎn)生選擇標(biāo)準(zhǔn)的分類器相連的特征選擇算法(R.Kohavi&G.H.John,77^附wp;^^praoc/2,97ARTIFICIALINTELLIGENCE273-324,1997)。一種可能的分類器/特征選擇算法的組合是SVM,并且使用稱為CHC的GA(L丄Eshelman,7Vbwfra必/owa/Geweric及ecow6/"a"ow,inFOUNDATIONSOFGENETICALGORITHMS265-83,G.J.E.Rawlines,ed.1991)。CHC是理想的,由于它對(duì)于一大類問(wèn)題的健壯的査找特性。特征選擇方法能夠自動(dòng)確定這種特征的最佳大小和集合。通常,此處的方法包括創(chuàng)建一定數(shù)量的由多個(gè)"基因"組成的"染色體",每個(gè)基因代表一個(gè)選擇的特征(D.Schafferetal.,^Ge"幼'cJ/gorz說(shuō)mPROCEEDINGSOFTHE2005IEEESYMPOSIUMONCOMPUTATIONALINTELLIGENCEINBIO證ORMATICSANDCOMPUTATIONALBIOLOGY1,2005)。由染色體代表的特征集被用來(lái)使用與特征子集相對(duì)應(yīng)的那部分訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練SVM。根據(jù)產(chǎn)生的SVM在測(cè)試數(shù)據(jù)上執(zhí)行得怎么樣來(lái)評(píng)價(jià)染色體的適應(yīng)性。在一個(gè)實(shí)施例中,在測(cè)試集上執(zhí)行一個(gè)分級(jí)適應(yīng)性函數(shù),該分級(jí)適應(yīng)性函數(shù)基于SVM分類的真結(jié)節(jié)保留和假陽(yáng)性消除率。在替換實(shí)施例中,有可能開發(fā)和使用不同的適應(yīng)性函數(shù)。在這個(gè)過(guò)程的開始,通過(guò)隨機(jī)選擇形成染色體的特征來(lái)產(chǎn)生一組染色體。然后該算法反復(fù)地查找那些具有更高性能值(更高適應(yīng)性)的染色體。在每一代,GA評(píng)價(jià)該組中的每個(gè)染色體的適應(yīng)性,并通過(guò)兩個(gè)主要的進(jìn)化方法,突變和交叉,從適應(yīng)的染色體中產(chǎn)生新的染色體。好的染色體中的基因更傾向于被下一代保留,而具有性能較差的染色體更容易被丟棄。最終,通過(guò)這個(gè)適者生存的過(guò)程找到了高性能的特征的集合。本發(fā)明的一個(gè)目的是通過(guò)將系統(tǒng)數(shù)據(jù)縮放集成到候選特征子集的評(píng)價(jià)中來(lái)提高遺傳算法的性能。在這個(gè)實(shí)施例中,系統(tǒng)數(shù)據(jù)縮放被用來(lái)從一組訓(xùn)練案例中選擇一個(gè)訓(xùn)練集。對(duì)于每組候選特征子集,從該組訓(xùn)練案例中選擇一個(gè)訓(xùn)練集。臨界假陽(yáng)性案例被從訓(xùn)練集去除。然后訓(xùn)練集被用來(lái)產(chǎn)生一個(gè)分類器,該分類器作為遺傳算法的一部分被用來(lái)評(píng)價(jià)候選特征子集的適應(yīng)性。在另一個(gè)實(shí)施例中,臨界假陽(yáng)性可以通過(guò)Tomek鏈(Tomeklink)的概念來(lái)識(shí)另'J(G,E.A.P.A.Batista,jo/f/zeJe/zaWoro/*5fevera/A/ef/zo<isybrJa/awc/"gMac/w'we丄ear"/"g!Traz'"z,"gD她,6SIGKDDEXPLORATIONS20-29,2004)。給定真結(jié)節(jié)案例A和假結(jié)節(jié)案例B,d(A,B)為A和B之間的距離。如果沒有樣本C(它可以是真結(jié)節(jié)或假結(jié)節(jié))使得d(A,C)<d(A,B)或d(B,C)<d(A,B),則(A,B)對(duì)被稱為Tomek鏈。如果A和B形成Tomek鏈,那么A或B是噪聲或A和B都是臨界。當(dāng)Tomek鏈用在這種假陽(yáng)性減少方案中時(shí),作為一種向下縮放方法,只有假陽(yáng)性案例B被去除。圖5示出這種向下縮放方法是如何工作以保留更多的真結(jié)節(jié)的。在進(jìn)一步的實(shí)施例中,去除的假陽(yáng)性案例的數(shù)量可以被調(diào)整以更好地獲得理想的特異性或敏感性。這通過(guò)使用向下縮放因子x來(lái)實(shí)現(xiàn)。向下縮放因子(x)被定義為留在訓(xùn)練集中的假結(jié)節(jié)的數(shù)量(在去除邊界假陽(yáng)性案例后)不超過(guò)訓(xùn)練集中的真結(jié)節(jié)的數(shù)量的義倍。這個(gè)因子可以被調(diào)整。降低^能夠產(chǎn)生更好的敏感性(更差的特異性)。增加x能夠產(chǎn)生更差的敏感性(更好的特異性)。對(duì)于假陽(yáng)性減少,一個(gè)通常的目標(biāo)是能夠使特異性最大同時(shí)保持100%的敏感性的最大的因子&的值)。用實(shí)例來(lái)驗(yàn)證本發(fā)明。第一個(gè)實(shí)例比較了三種向下縮放方法隨機(jī)向下縮放、系統(tǒng)向下縮放(向下縮放因子為2)以及系統(tǒng)向下縮放(向下縮放因子為3)。首先將數(shù)據(jù)集劃分為學(xué)習(xí)集和驗(yàn)證集。學(xué)習(xí)集驗(yàn)證集真結(jié)節(jié)6722假結(jié)節(jié)483160數(shù)據(jù)劃分方法使用下面的模式。對(duì)于隨機(jī)向下縮放11<table>tableseeoriginaldocumentpage12</column></row><table>除了此處描述的數(shù)據(jù)劃分模式,下面的配置文件用于每個(gè)GA運(yùn)行,每個(gè)GA運(yùn)行包括3個(gè)獨(dú)立的實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)有最大800,000個(gè)測(cè)試。experiments=3totaltrials=800000optimumvalue=-l.OnbofB—genes=0bitspergene=0nbofI—genes=10I—genesrange=10X23options=LeNwMrandomseeds=98741520742139874012387052135099999990reportinterval坑100populationsize=50divergencesmaxn3n—perf=2___對(duì)于上表中的每個(gè)最佳特征子集,進(jìn)行驗(yàn)證,并且對(duì)于10個(gè)種子獲得"敏感性"(計(jì)算為誤分類的真陽(yáng)性的#)和"特異性"(計(jì)算為假陽(yáng)性減少的%)值并進(jìn)行平均。畫出了一定數(shù)量的散點(diǎn)圖(ROC曲線沐進(jìn)行比較(圖7一14)。對(duì)于每個(gè)子集大小畫出了一個(gè)圖。在該圖上,X軸表示敏感性(誤分類的真陽(yáng)性的井),Y軸表示特異性(假陽(yáng)性減少的X)。每個(gè)圖上有三條曲線,是由對(duì)16個(gè)向下縮放因子(1.5,1.6,1.7...3.0)的驗(yàn)證結(jié)果創(chuàng)建的。如圖中所示,除大小11和12夕卜,當(dāng)允許1-2個(gè)真結(jié)節(jié)的誤分類(這是一個(gè)合理的數(shù)量)時(shí),由"系統(tǒng)向下縮放一因子2"選擇的特征子集比由"隨機(jī)向下縮放"選擇的特征子集表現(xiàn)更好。這由這樣的事實(shí)所反應(yīng),即當(dāng)x具有1和2之間的值時(shí),因子2特征曲線在隨機(jī)特征曲線的上方。這個(gè)實(shí)例表明由該方法選擇的特征子集比之前的基于隨機(jī)數(shù)據(jù)縮放的GA特征子集選擇更好(獲得了更大的特異性)。進(jìn)一步顯而易見的是,在不脫離所附權(quán)利要求及其等價(jià)形式的精神和范圍內(nèi),可以構(gòu)想出本發(fā)明的其他和進(jìn)一步的形式,以及除了上述具體和示例性實(shí)施例之外的實(shí)施例,因此本發(fā)明的范圍意在包括這些等價(jià)形式,并且說(shuō)明書和權(quán)利要求是示例性的而不應(yīng)該作為進(jìn)一步的限定。1權(quán)利要求1、一種在數(shù)據(jù)挖掘、計(jì)算機(jī)輔助檢測(cè)、計(jì)算機(jī)輔助診斷和人工智能中提高分類準(zhǔn)確性并減少假陽(yáng)性的方法,所述方法包括使用系統(tǒng)數(shù)據(jù)縮放方法,從一組訓(xùn)練案例中選擇訓(xùn)練集;以及使用分類方法,基于所述訓(xùn)練集來(lái)創(chuàng)建分類器,其中所述系統(tǒng)數(shù)據(jù)縮放方法和事實(shí)分類方法產(chǎn)生所述分類器,從而減少假陽(yáng)性并提高分類準(zhǔn)確性。2、根據(jù)權(quán)利要求1所述的方法,其中所述分類器從由支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和決策樹組成的組中進(jìn)行選擇。3、根據(jù)權(quán)利要求1所述的方法,所述方法進(jìn)一步包括使用測(cè)試集對(duì)基于所述訓(xùn)練集由所述分類方法產(chǎn)生的所述分類器進(jìn)行評(píng)價(jià)。4、根據(jù)權(quán)利要求1所述的方法,其中選擇進(jìn)一步包括從所述訓(xùn)練集中去除與真結(jié)節(jié)形成Tomek鏈的假結(jié)節(jié),直到滿足一個(gè)閾值。5、根據(jù)權(quán)利要求4所述的方法,其中相對(duì)于向下縮放因子:c來(lái)確定所述閾值,使得在系統(tǒng)數(shù)據(jù)縮放后留在所述訓(xùn)練集中的假結(jié)節(jié)的數(shù)量不超過(guò)所述訓(xùn)練集中的真結(jié)節(jié)的數(shù)量的x倍。6、根據(jù)權(quán)利要求1所述的方法,其中所述方法進(jìn)一步包括利用該組訓(xùn)練案例或其子集來(lái)驗(yàn)證所述分類器。7、一種當(dāng)執(zhí)行時(shí)實(shí)施權(quán)利要求1所述的方法的遺傳算法。8、根據(jù)權(quán)利要求7所述的遺傳算法,其中所述遺傳算法是CHC算法。9、一種從特征庫(kù)中選擇特征的方法,所述方法包括提供根據(jù)權(quán)利要求7的第一遺傳算法和第二遺傳算法中的每個(gè),其中所述第一遺傳算法用來(lái)確定所述特征集的最佳大??;以及固定所述特征集的大小并使用所述第二遺傳算法來(lái)選擇特征。10、根據(jù)權(quán)利要求9所述的方法,其中在提供所述第一遺傳算法時(shí),所述方法進(jìn)一步包括使用下列各項(xiàng)中的至少一項(xiàng)來(lái)對(duì)結(jié)果進(jìn)行分析表示不同特征子集大小的染色體出現(xiàn)的數(shù)量和平均錯(cuò)誤的數(shù)量。11、根據(jù)權(quán)利要求10所述的方法,其中平均錯(cuò)誤的數(shù)量是誤分類的肺結(jié)節(jié)的數(shù)量。12、一種當(dāng)執(zhí)行時(shí)實(shí)施權(quán)利要求1所述的方法的計(jì)算機(jī)可讀介質(zhì)。13、一種制造產(chǎn)品,其是圖像設(shè)備或假陽(yáng)性減少設(shè)備,其中所述設(shè)備是被編程以通過(guò)實(shí)施權(quán)利要求1所述的方法來(lái)分析圖像數(shù)據(jù)的計(jì)算機(jī)。14、根據(jù)權(quán)利要求13所述的制造產(chǎn)品,其中所述圖像設(shè)備從包括下列各項(xiàng)的組中選擇計(jì)算機(jī)控制斷層掃描(CT)、計(jì)算機(jī)控制軸向斷層掃描(CAT)、多切片計(jì)算機(jī)控制斷層掃描(MSCT)、X射線斷層攝影(bodysectionroentgenography)、超聲波、磁共振成像(MRI)、磁共振體層攝影(MRT)、核磁共振(NMR)、X射線、顯微鏡、熒光透視、X線斷層攝影(tomography)和數(shù)字成像。15、根據(jù)權(quán)利要求B所述的制造產(chǎn)品,其中所述制造產(chǎn)品是肺結(jié)節(jié)CAD系統(tǒng)。全文摘要提供了訓(xùn)練系統(tǒng)的方法和裝置,該系統(tǒng)用于開發(fā)數(shù)據(jù)挖掘、假陽(yáng)性減少、計(jì)算機(jī)輔助檢測(cè)、計(jì)算機(jī)輔助診斷和人工智能的方法。一種方法包括使用系統(tǒng)數(shù)據(jù)縮放從一組訓(xùn)練案例中選擇一個(gè)訓(xùn)練集,并基于該訓(xùn)練集使用分類方法創(chuàng)建一個(gè)分類器。該分類器產(chǎn)生更少的假陽(yáng)性。該方法適用于與多種數(shù)據(jù)挖掘技術(shù),包括支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和決策樹,一起使用。文檔編號(hào)G06F19/00GK101501712SQ200780029838公開日2009年8月5日申請(qǐng)日期2007年8月2日優(yōu)先權(quán)日2006年8月11日發(fā)明者K·P·李,L·博羅茨基,L·趙申請(qǐng)人:皇家飛利浦電子股份有限公司