專利名稱:用于優(yōu)化基于基因組學(xué)的醫(yī)學(xué)診斷測試的遺傳算法的制作方法
以下內(nèi)容涉及遺傳算法。本發(fā)明特別可以應(yīng)用于基于基因組學(xué)的醫(yī)學(xué)診斷測試,并且將特別參考這方面對本發(fā)明進(jìn)行描述。更一般地說,本發(fā)明適用于優(yōu)化用于生物信息學(xué)的分類器(classifier),并且可以用于軟件代碼緊縮、神經(jīng)網(wǎng)絡(luò)開發(fā)等其他應(yīng)用。
近來,在關(guān)于人類基因組的細(xì)節(jié)以及如何用健康的和染病的對象表示基因的可獲得信息量方面已經(jīng)取得了蓬勃發(fā)展。實驗室技術(shù)現(xiàn)在可用于快速地獲得表征DNA、RNA、蛋白質(zhì)以及其他有機高分子在生物對象中的濃度的大測量組。
舉例來說,微陣列(Microarray)包括在其上放置c-DNA或者另一種結(jié)合物(binder)的小樣本“點”的載玻片或玻璃板。每一個點包括一種特定的c-DNA或者與所關(guān)心的特定高分子結(jié)合的其他結(jié)合物,并且單個微陣列可以包含幾百個、幾千個或者更多的這種點。從患者身上提取組織樣本,提取所關(guān)心的分子種類(例如DNA、RNA等等)并用一種發(fā)光信號傳導(dǎo)試劑(signalingagent)或其他標(biāo)記進(jìn)行處理,并且將其潑在該微陣列上。在一個被稱作雜合(hybridization)的處理中,所述組織內(nèi)的特定類型的高分子聚集在所述點處,其中所述點具有針對那些特定高分子的結(jié)合物。通常,使用不同標(biāo)記(例如被不同著色的發(fā)光試劑)處理的比較或參照樣本也被施加到該微陣列。例如使用激光束來激發(fā)所述標(biāo)記以便產(chǎn)生光致發(fā)光,并且測量響應(yīng)強度以表征與各個點有關(guān)的高分子的濃度。這樣,可以快速并且定量地執(zhí)行對于包含在生物樣本中的大量有機高分子(例如幾百、幾千或更多)的測定。
質(zhì)譜圖分析是另一種用于快速地測定在從患者身上抽取的樣本中的大量高分子的濃度的方法。在這個方法中,通過激光或其他機制在真空環(huán)境中電離所述樣本,并且通過離子計數(shù)器來測量所述被電離的分子片段的分子量/電荷比值的分布。根據(jù)對應(yīng)于各種高分子的已知裂片圖,可以從所述質(zhì)譜圖中導(dǎo)出各種高分子的濃度?;蛘撸鲑|(zhì)譜圖的峰值可以被用作生物信息測量數(shù)據(jù),而無需將所述質(zhì)譜圖的圖案與特定高分子相關(guān)聯(lián)。
生物信息學(xué)采用數(shù)值方法從微陣列測量、質(zhì)譜圖或者其他基因組或有機高分子測定中提取有用的生物信息。舉例來說,如果在所述微陣列或質(zhì)譜圖中的特定圖案可能與一種特定類型的癌癥極大地相關(guān)聯(lián),那么所述模式可以被用作篩選該癌癥的分類器。這樣允許利用相對無創(chuàng)的技術(shù)(例如采血或大腦脊液、采集唾液、尿、大便等等的樣本或者以其他方式獲取體液或組織樣本)來實現(xiàn)對癌癥和其他所關(guān)心的病變的早期檢測。
然而,由于可用于開發(fā)所述診斷醫(yī)學(xué)測試的大量信息,出現(xiàn)了一個問題。舉例來說,如果人們期望開發(fā)一種采用一組2500個測量(例如具有50×50的點陣列的微陣列)當(dāng)中的5個測量(例如微陣列點、質(zhì)譜圖峰值等等)的癌癥篩選測試,那么能被用于該診斷測試的可能的5樣本測量子組的搜索空間是25005=2500!2492!·5!≅8.1×1014---(1)]]>這個搜索空間太大,以至于不能利用窮舉技術(shù)來搜索。此外,等式(1)的估計假設(shè)5個測量的子組對于正在開發(fā)中的癌癥篩選測試來說是最佳的,這可能是不正確的。測量的最佳子組可能是4個測量、6個測量等等,并且通常是未知的。
在基因組診斷醫(yī)學(xué)測試的開發(fā)過程中的另一個問題是盡管測量的總數(shù)很大,但是從其中提取這些測量的患者的集合通常要小得多。舉例來說,一個典型的研究可能會使用50×50的微陣列和包括40個測試對象的測試組,其中20個對象患有所關(guān)心的癌癥,并且另外20個對象是沒有所述癌癥的核對標(biāo)準(zhǔn)(control)。產(chǎn)生了包括100,000個測量的一大組;然而,40個測試對象的較小的組規(guī)模所帶來的問題是,在所述測量數(shù)據(jù)中可能存在許多與普通人群中的所研究癌癥無關(guān)的假相關(guān)性。
遺傳算法已經(jīng)被用于所述優(yōu)化問題。在遺傳算法中,產(chǎn)生初代染色體群體,其中每一個染色體具有一組基因,該組基因指示所述測量組的一個子組。舉例來說,利用一組由50×50的微陣列產(chǎn)生的測量,每一個基因具有對應(yīng)于由所述微陣列的2500個點提供的2500個測量的一個值,該值在1到2500之間。在單個染色體中的5個所述基因適當(dāng)?shù)刂付税ㄋ?500個測量當(dāng)中的5個的特定子組。為每一個染色體優(yōu)化分類器。所述分類器利用由所述染色體指定的該基因子組將對象分類成兩個或更多分類中(比如癌癥分類和非癌癥分類)。一個質(zhì)量因數(shù)衡量所述分類器在一組患者中識別癌癥的精確度,并且被用于選擇所述染色體集合中的最適于繁殖到后代中的染色體。更進(jìn)一步地,后代染色體通過基因值的隨機或偽隨機變化而發(fā)生突變,這類似于生物學(xué)的突變過程。
雖然以生物學(xué)的進(jìn)化概念為基礎(chǔ),但是遺傳算法通常以許多方式不同于生物學(xué)的進(jìn)化過程。在Whitley的“A Genetic Algorithm Tutorial”(Statistics andComputing,vol.4,第65至85頁,1994年)中提供了對于一些遺傳算法的概述。一種魯棒的遺傳算法是由Larry Eshelman開發(fā)的跨世代精英選擇、異物種重組、災(zāi)變突變(CHC)算法。以下公開了Eshelman的CHC算法及其變型,比如2001年7月10日發(fā)布的Schaffer等人的美國專利號6,260,031;2003年4月22日發(fā)布的Mathias等人的美國專利號6,553,357;以及Eshelman的“TheCHC Adaptive Search AlgorithmHow to Have Safe Search When Engaging inNontraditional Genetic Recombination”,F(xiàn)oundation of Genetic Algorithms,GregoryRawlins(ed.),Morgan Kaufmann,San Francisco,CA,265-83(1991)。已經(jīng)發(fā)現(xiàn),遺傳算法可以高效地搜索較大空間,因此非常適合于從例如供診斷醫(yī)學(xué)測試之用的微陣列和質(zhì)譜圖之類的基因組測定中識別較小的測量子組。
然而,現(xiàn)有的遺傳算法對于生物信息學(xué)和其他應(yīng)用來說存在某些缺陷。在利用遺傳算法的優(yōu)化分類器中,必須對所要研究的每一個子組大小重新執(zhí)行所述遺傳算法。因此,舉例來說,執(zhí)行5個獨立的計算遺傳進(jìn)化形成以便跨越3個至7個測量的子組大小。此外,突變率通常較低,舉例來說大約是百分之一或更低,從而確保足夠的跨世代延續(xù)性,以便提供有意義的收斂。然而,低突變率放慢了總的發(fā)現(xiàn)速率。
更進(jìn)一步地,在生物信息學(xué)應(yīng)用中,所述測量組通常是樣本豐富而對象貧乏的(例如,把2500個測量應(yīng)用于僅有40人的測試對象集合)。所述對象貧乏的數(shù)據(jù)組導(dǎo)致收斂的可能性趨于假相關(guān),從而對于普通人群中的所研究病變沒有太高的預(yù)示性。
以下內(nèi)容設(shè)想了能夠克服如前所述的限制和其他限制的改進(jìn)的設(shè)備和方法。
根據(jù)一個方面,提供了一種用于確定分類器的方法。產(chǎn)生染色體的第一代染色體群體。每一個染色體具有(i)指定相關(guān)測量組的子組的所選數(shù)量的基因;以及(ii)已表達(dá)子組大小基因,其具有區(qū)分所述染色體的已表達(dá)和未表達(dá)基因的值。包含所述已表達(dá)子組大小基因的染色體的各基因被各自計算地遺傳進(jìn)化到不參考未表達(dá)基因評估的健康標(biāo)準(zhǔn)(fitness criterion),以便產(chǎn)生連續(xù)世代的染色體群體。選擇一種分類器,該分類器利用由所述遺傳進(jìn)化識別的染色體的已表達(dá)基因所指定的相關(guān)測量的子組。
根據(jù)另一個方面,提供一種用于確定分類器的方法。產(chǎn)生染色體的第一代染色體群體。每一個染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因。所述染色體的基因被計算地遺傳進(jìn)化,以便產(chǎn)生連續(xù)世代的染色體群體。產(chǎn)生每一個后繼世代染色體群體包含通過以下步驟從當(dāng)前染色體群體的親代染色體產(chǎn)生后代染色體(i)利用兩個親代染色體所共有的基因值來填充所述后代染色體的各基因,以及(ii)利用所述親代染色體當(dāng)中的一個或另一個所獨有的基因值來填充剩余的基因;有選擇地突變所述親代染色體當(dāng)中的一個或另一個所獨有的后代染色體的基因值,而不突變兩個親代染色體所共有的后代染色體的基因值;以及基于每一個染色體的健康狀況利用后代染色體來更新所述染色體群體,所述健康狀況是利用由該染色體的各基因指定的相關(guān)測量的子組確定的。選擇一個分類器,該分類器使用由所述遺傳進(jìn)化識別的染色體的各基因所指定的相關(guān)測量的子組。
根據(jù)另一個方面,提供一種用于確定分類器的方法。產(chǎn)生染色體的第一代染色體群體。每一個染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因。所述染色體的基因被計算地遺傳進(jìn)化,以便產(chǎn)生連續(xù)世代的染色體群體。產(chǎn)生每一個后繼世代染色體群體包含對于一組對象,在所述測量組的值中引入所選擇的仿真噪聲級;通過對當(dāng)前染色體群體的染色體進(jìn)行配對來產(chǎn)生后代染色體;有選擇地突變后代染色體的基因;以及根據(jù)每個染色體的健康狀況利用后代染色體來更新所述染色體群體,所述健康狀況被分別確定為具有所引入的仿真噪聲的對象組的測量的值。選擇一個分類器,該分類器使用由所述遺傳進(jìn)化識別的染色體的各基因所指定的相關(guān)測量的子組。
根據(jù)另一個方面,公開了一種用于確定醫(yī)學(xué)對象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試。利用由之前三段中的其中一種方法確定的醫(yī)學(xué)診斷分類器來分類對所述醫(yī)學(xué)對象的測量,其中相關(guān)的測量組表征有機高分子的濃度。
根據(jù)另一個方面,提供一種遺傳優(yōu)化方法。染色體群體的基因被計算地遺傳進(jìn)化。所述進(jìn)化包含進(jìn)化每個染色體中的多個已表達(dá)基因,以及采用一種不參考每個染色體的未表達(dá)基因而評估的健康標(biāo)準(zhǔn)。選擇通過所述遺傳進(jìn)化產(chǎn)生的優(yōu)化染色體。
一個優(yōu)點在于,對于生物信息應(yīng)用或其他應(yīng)用優(yōu)化分類器,而無需關(guān)于將被合并到該分類器中的測量的數(shù)量的先驗知識并且無需選擇將被合并到該分類器中的測量的數(shù)量。
另一個優(yōu)點在于,在基于遺傳進(jìn)化的優(yōu)化中提供了更魯棒的收斂性。
另一個優(yōu)點在于,與高突變率相結(jié)合地提供了魯棒的收斂性。
另一個優(yōu)點在于,遺傳算法收斂性對于測量組中的系統(tǒng)誤差的敏感度得到降低。
通過閱讀下面的詳細(xì)說明,許多附加的優(yōu)點和益處對于本領(lǐng)域技術(shù)人員來說將變得顯而易見。
本發(fā)明可以具體實現(xiàn)為各種組件、組件安排、各種處理操作以及處理操作安排。附圖僅僅是為了說明優(yōu)選實施例,而不應(yīng)被看作是限制本發(fā)明。
圖1示意性地示出了利用遺傳算法的優(yōu)化系統(tǒng)。
圖2示意性地示出了利用圖1的優(yōu)化系統(tǒng)開發(fā)的診斷醫(yī)學(xué)測試的一種實施方式。
圖3A和3B示意性地示出了兩個實例染色體,其中每個染色體具有16個基因,其中包含已表達(dá)的子組大小基因以及其值標(biāo)識可以用在分類器中的測量的其他基因。圖3A的染色體具有7個已表達(dá)測量基因,而圖3B的染色體具有10個已表達(dá)測量基因。
圖4A、4B、4C和4D示意性地示出了對圖3A和3B的兩個實例染色體進(jìn)行運算以便產(chǎn)生兩個后代染色體的圖1的交叉算子(crossover operator)的運算。
圖5示出了利用圖1的系統(tǒng)執(zhí)行的計算遺傳進(jìn)化優(yōu)化的散布圖。在圖5中,每個染色體的已表達(dá)子組大小基因的值被沿著縱坐標(biāo)(Y軸)繪制,并且試驗數(shù)量(對應(yīng)于時間)被沿著橫坐標(biāo)(X軸)繪制。
參考圖1,優(yōu)化系統(tǒng)8包含對于染色體群體12進(jìn)行運算的遺傳算法10。對于生物信息分類器的示例性優(yōu)化,每個染色體通常包含多個基因,其中每個基因的值指定一個特定的生物學(xué)測量。舉例來說,如果所述生物學(xué)測量作為從一組測試對象獲得的100×100點微陣列而被執(zhí)行,那么每個微陣列具有10,000個點,即10,000個測量。每個基因適當(dāng)?shù)匕粋€索引值(例如在1到10,000的閉區(qū)間內(nèi)的一個整數(shù),或者在0到9,999的閉區(qū)間內(nèi)的一個整數(shù)等等),其索引一個測量。通過隨機地或偽隨機地為每個基因分配一個在所述索引范圍內(nèi)的值(通常確保沒有索引被重復(fù)),適當(dāng)?shù)禺a(chǎn)生第一代染色體群體?;蛘?,所述分配可以不那么隨機,例如所述分配可以偏向某些基因組,其中懷疑這些基因組對于將被優(yōu)化的分類器較為有效。
為了產(chǎn)生下一代染色體群體,交叉算法20利用諸如基因復(fù)制、基因混合、基因突變等適當(dāng)操作來組合當(dāng)代群體的親代染色體,以便產(chǎn)生后代染色體。通過質(zhì)量因數(shù)來表征當(dāng)代染色體和后代染色體,以便確定每個染色體的健康狀況或可存活性。在圖1示出的生物信息分類器優(yōu)化中,關(guān)于一組學(xué)習(xí)案例22執(zhí)行優(yōu)化,所述學(xué)習(xí)案例22由交叉驗證和噪聲添加算法24劃分為訓(xùn)練案例26子組和測試案例28子組。通常,在評估每個新一代染色體群體之前執(zhí)行所述交叉驗證劃分。
對于每個染色體,通過分類器訓(xùn)練算法30關(guān)于所述訓(xùn)練案例26優(yōu)化所述分類器。舉例來說,所述分類器可以是由所述染色體的已表達(dá)基因所選擇的測量的子組的測量值的加權(quán)和,并且所述優(yōu)化可以包括優(yōu)化所述加權(quán)因子。還可以采用更復(fù)雜的分類器。在一些生物信息分類應(yīng)用中,所述學(xué)習(xí)案例22是人類測試對象的集合,他們中的一些具有所關(guān)心的病變(例如特定類型的癌癥),并且他們中的另一些不具有所關(guān)心的病變。優(yōu)化由通過染色體指定的測量的子組所定義的分類器,以使得所述分類器將其以下能力最大化將所述學(xué)習(xí)案例22分類為具有所關(guān)心的病變的個體的第一分類,以及不具有所述病變的個體的第二分類。
一旦優(yōu)化了對應(yīng)于染色體的分類器,分類器測試算法32測試所述經(jīng)優(yōu)化的分類器在把所述試驗案例28的個體分類成具有所關(guān)心的病變的第一個體分類和不具有所述病變的第二個體分類時到底多有效。一種量化所述染色體的健康狀況和可存活性的適當(dāng)質(zhì)量因數(shù)例如是由所述經(jīng)優(yōu)化的分類器產(chǎn)生的錯誤分類數(shù)量的計數(shù),或者測試案例對象的錯誤分類數(shù)量與所述試驗案例28中的個體總數(shù)的比率。
對于每個染色體重復(fù)由分類器訓(xùn)練算法30和分類器測試算法32所執(zhí)行的處理,以使得染色體群體12當(dāng)中的染色體都被分配有對應(yīng)于健康狀況或可存活性的質(zhì)量因數(shù)。根據(jù)一個或多個適當(dāng)?shù)倪x擇標(biāo)準(zhǔn),選擇算法40選擇哪些染色體存活到下一代。對于每個連續(xù)世代重復(fù)這個處理,以便計算地遺傳進(jìn)化染色體群體12,直到遺傳算法10檢測到一個或多個適當(dāng)?shù)耐V箻?biāo)準(zhǔn),所述標(biāo)準(zhǔn)例如是存活后代的數(shù)量小于一個閾值,或者人口的百分比變化小于一個閾值等等。
分類器選擇算法44檢查最終的染色體群體以便識別最健康的染色體,其被用來構(gòu)造用于所關(guān)心的病變的適當(dāng)?shù)脑\斷測試50。所述診斷測試通常識別對應(yīng)于所述最健康染色體的已表達(dá)基因的測量子組52以及采用所述測量子組52的經(jīng)優(yōu)化的分類器功能52。
參考圖2,適當(dāng)?shù)貞?yīng)用診斷醫(yī)學(xué)測試50如下。獲取在測試下的患者的測量值60。為了提高效率,通常只獲取那些被用于診斷測試50的測量結(jié)果。分類器功能評估器64關(guān)于所述測量值的子組來評估分類器功能54,以便產(chǎn)生陽性(檢測到癌癥)或陰性的(沒有癌癥)測試結(jié)果,并且通過適當(dāng)?shù)膱蟾嬖O(shè)備66(例如視頻顯示器、打印輸出等等)將其報告給醫(yī)務(wù)人員。
有利地,人們會理解,一旦如同之前參考圖1所描述的那樣開發(fā)出所述診斷醫(yī)學(xué)試驗50,其在醫(yī)院、診所或其他醫(yī)療設(shè)施中的實現(xiàn)方式就是直接明了的。舉例來說,將處理元件62、64、66適當(dāng)?shù)貙崿F(xiàn)為計算機的軟件和硬件,并且通過存儲在計算機的硬盤或其他非易失性存儲裝置上或者存儲在醫(yī)院網(wǎng)絡(luò)、因特網(wǎng)等等之上的數(shù)據(jù)來適當(dāng)?shù)乇硎舅_發(fā)的診斷測試50。一旦開發(fā)出診斷測試50,就不必在設(shè)置于醫(yī)院、診所等等的診斷測試系統(tǒng)實施方式中包含所述優(yōu)化系統(tǒng)8,相反,只設(shè)置對于測量子52的識別和分類器功能54。
在給出了所述優(yōu)化系統(tǒng)8的概述以及它在診斷醫(yī)學(xué)測試中的實例應(yīng)用之后,參考圖1并且進(jìn)一步地參考圖3A、3B、4A、4B、4C和4D對所述計算遺傳進(jìn)化優(yōu)化的各個實施例的各方面進(jìn)行更詳細(xì)的描述。
返回參考圖1并且進(jìn)一步地參考圖3A和3B,所述染色體群體12的每個染色體具有在圖3A和3B中顯示的一般形式,其中圖3A示意性地示出了一個實例染色體70,并且圖3B顯示了另一個實例染色體72。每個染色體具有固定長度的基因。在實例染色體70、72中,這個固定的長度是16個基因;然而,一般來說,所述染色體可以具有任何所選數(shù)量的基因。每個染色體的所選數(shù)量的基因被表達(dá),并且通過已表達(dá)子組大小基因80的值來標(biāo)識已表達(dá)基因的數(shù)量,其在所示出的格式中是在圖3A和3B中的從左到右排列的有序基因組中的最左邊的基因。一般來說,每個染色體可以具有由其已表達(dá)子組大小基因80的值所指定的不同數(shù)量的已表達(dá)基因。舉例來說,圖3A的染色體70具有值為7的已表達(dá)子組大小基因80,其指示7個已表達(dá)基因,而圖3B的染色體72具有值為10的已表達(dá)子組大小基因80,其指示10個已表達(dá)基因。在圖3A和3B的安排中,所述已表達(dá)基因是那些緊接在所述已表達(dá)子組大小基因80右邊的基因,并且所述已表達(dá)子組大小基因80的值標(biāo)識一個序數(shù)位置值,所述順序位置值將所述有序基因組的已表達(dá)基因和未表達(dá)基因分隔開。
因此,舉例來說,在圖3A的染色體70中,所述已表達(dá)子組大小基因80中的值7標(biāo)識在所述已表達(dá)子組大小基因80之后的第七個基因作為最后一個已表達(dá)基因,那些跟在該第七個基因之后的基因是未表達(dá)基因。類似地,在圖3B的染色體72中,所述已表達(dá)子組大小基因80中的值10標(biāo)識在所述已表達(dá)子組大小基因80之后的第十個基因作為最后一個已表達(dá)基因,那些跟在該第十個基因之后的基因是未表達(dá)基因。所述已表達(dá)子組大小基因80的值通常應(yīng)該處于1到最大基因數(shù)減1的閉區(qū)間內(nèi)(因此不計算所述已表達(dá)子組大小基因80)。因此,對于具有染色體70、72的格式的染色體來說,所述已表達(dá)子組大小基因80應(yīng)該具有處于1和15之間的一個值。對于值1,有1個已表達(dá)基因14個未表達(dá)基因;對于值“15”,有15個已表達(dá)基因而沒有未表達(dá)基因。在一些實施例中,可以更進(jìn)一步地限制這個范圍。舉例來說,人們可能期望所述分類器在不少于2個基因上進(jìn)行操作,相應(yīng)地,對于所述已表達(dá)子組大小基因的下限應(yīng)該是2。類似地,人們可能期望把已表達(dá)基因的數(shù)量限制到小于所述染色體中的基因總數(shù),從而確保在每個染色體中總是有一個或一些未表達(dá)基因。
所描述的實施例采用包含一個序數(shù)值的子組大小基因,該序數(shù)值把所述有序基因組的已表達(dá)基因和未表達(dá)基因分隔開。然而,可以用區(qū)分所述染色體的已表達(dá)基因和未表達(dá)的基因的其他表示法來實現(xiàn)所述子組大小基因。舉例來說,在一些所設(shè)想的實施例中,所述子組大小基因是二進(jìn)制掩碼表示法。對于具有16個基因(不計算所述子組大小基因)的染色體,適當(dāng)?shù)亩M(jìn)制掩碼類型子組大小基因包含對應(yīng)于所述16個基因的16個比特,每個比特具有一個指示所述對應(yīng)的基因是已表達(dá)基因還是未表達(dá)基因的二進(jìn)制值(“1”或“0”)。舉例來說,如果二進(jìn)制“1”指示已表達(dá)而二進(jìn)制“0”指示未表達(dá),那么在所述掩碼類型子組大小基因中的二進(jìn)制“1”值的數(shù)量就指示已表達(dá)基因的數(shù)量。
除了所述已表達(dá)子組大小基因80之外的每一個基因具有一個值,該值指示可能用于所述分類器中的一組可用測量的其中一個測量。舉例來說,如果對于學(xué)習(xí)案例22利用100×100點微陣列獲得所述測量組,那么每個基因可以適當(dāng)?shù)鼐哂幸粋€在1和10,000之間的值,該值索引所述微陣列的各點。在質(zhì)譜圖的情況下,所述測量組可以是所述質(zhì)譜圖的質(zhì)量/電荷比值元(bin)。在圖3A的染色體70中,在已表達(dá)子組大小基因80右邊的第一個基因具有值17,其索引所述測量組的第十七個測量;在所述已表達(dá)子組大小基因80右邊的第二個基因具有值8,其索引所述測量組的第八個測量;在所述已表達(dá)子組大小基因80右邊的第三個基因具有值10,其索引所述測量組的第十個測量;依此類推。
圖3A和3B中的染色體格式是說明性實例。本領(lǐng)域技術(shù)人員可以容易地開發(fā)其他的形式,其中已表達(dá)子組大小基因區(qū)分每個染色體的已表達(dá)基因和未表達(dá)基因。舉例來說,所述已表達(dá)子組大小基因可以被定位為最右邊的基因。通過利用其中一個基因來標(biāo)識一個染色體中的已表達(dá)基因的數(shù)量,對于每個染色體來說具有不同數(shù)量的已表達(dá)基因通常是有可能的。此外,由于所述已表達(dá)子組大小基因是所述染色體的一個基因,因此它可能受到類似于所述染色體的其他基因的遺傳進(jìn)化操作,以便優(yōu)化所述染色體中的已表達(dá)基因的數(shù)量。這種進(jìn)化基因數(shù)量的能力是有益的,因為用于特定醫(yī)學(xué)診斷測試的最佳基因數(shù)量通常不是先驗已知的。
參考圖4A、4B、4C和4D,其中描述了用于產(chǎn)生后代染色體和用于更新所述染色體群體12的每一個新世代的適當(dāng)方法。在所描述的實施例中,遺傳算法10實施Eshelman CHC遺傳算法的一個版本,其被修改成適應(yīng)每個染色體中的已表達(dá)基因的可變數(shù)量,所述可變數(shù)量由該染色體的已表達(dá)子組大小基因80闡明。這些修改包括修改所述交叉算子20以便把已表達(dá)子組大小基因80傳播到后代染色體中,該已表達(dá)子組大小基因80與其余基因?qū)儆诓煌N類。還修改了交叉算子20,以便促進(jìn)與親代染色體所共有的后代基因的表達(dá)和傳播。舉例來說,在一些實施例中不突變共有基因,并且在一些實施例中所述共有基因的位置被偏向已表達(dá)子組大小基因80,也就是說,被偏向染色體的已表達(dá)部分。此外,關(guān)于選擇算法40修改Eshelman CHC遺傳算法以便使用一個選擇標(biāo)準(zhǔn),該選擇標(biāo)準(zhǔn)被偏向于選擇具有更小數(shù)量的已表達(dá)基因的染色體而不是具有更大數(shù)量的已表達(dá)基因的染色體。因此,所述進(jìn)化驅(qū)動朝著較少數(shù)量的已表達(dá)基因的方向。
雖然為了解釋的目的描述并舉例說明了經(jīng)修改的Eshelman CHC算法,但是應(yīng)當(dāng)理解,其他的遺傳算法可以被類似地適配成在每個染色體中采用所公開的可變數(shù)量的已表達(dá)基因、偏向共有基因的表達(dá)和傳播、偏向更小數(shù)量的基因等等。
參考圖4A和4B,組合所選擇的親代以產(chǎn)生后代染色體。在Eshelman CHC算法中,每個后代染色體是從兩個親代染色體導(dǎo)出的,并且通常每一對親代染色體被用于產(chǎn)生兩個后代染色體。然而,可以使用其他交叉組合。為了解釋的目的,圖3A和3B中的染色體70、72分別被配對為親代染色體以產(chǎn)生兩個后代染色體。在產(chǎn)生后代的過程中,所述親代染色體70、72的共有基因值被復(fù)制到所述后代染色體中。對于親代染色體70、72,該組共有基因值是{5,7,8,12,13,17,19,23,25}。在圖4A中,第一個后代染色體以其出現(xiàn)在第一個親代染色體70中的次序來接收所述共有基因值,而在圖4B中,第二個后代染色體以其出現(xiàn)在第二個親代染色體72中的次序來接收所述共有基因值。
在一些實施例中,所述共有基因值被復(fù)制到后代染色體中的與親代染色體中相應(yīng)的位置處,但是偏向于已表達(dá)基因的位置。在所描述的實施例中,如在圖4A和4B中所示,通過把每一個共有基因值向左移位一個位置而獲得這個偏向,也就是說朝著所述染色體的已表達(dá)子組基因80移位一個位置。由于所述已表達(dá)基因緊挨在已表達(dá)子組大小基因80的右邊,因此這個向左移位具有把所述共有基因值偏向被表達(dá)的效果。
此外,至少在有些情況下,所述共有基因值在所述后代染色體中的排序可選地不同于所述共有基因值在所述親代染色體中的排序。在所描述的實施例中,如在圖4A和4B中所示,在所述親代染色體中的兩個或更多最左邊的基因值是共有基因值的情況下,通過執(zhí)行基因值交換來獲得這個偏向。舉例來說,在圖4A中,第一個親代染色體70的兩個最左邊的基因值17、8是共有基因值,因此它們以相反的順序8、17被復(fù)制在第一個后代染色體中。類似地,第二個親代染色體72中的兩個共有基因值23、19以相反的順序19、23被復(fù)制在第二個后代染色體中。更一般地說,如果所述親代染色體的最左邊的連續(xù)三個或更多基因值是共有基因,那么它們被左旋,其中所述親代染色體的最左邊的基因值被復(fù)制到三個或更多共有基因值的連續(xù)序列的最右端。
用于改變圖4A和4B中舉例說明的共有基因值的排序的方法就是一個實例。因為所述染色體群體12隨著向左偏移共有基因值而進(jìn)化,對于所述共有基因值來說,存在一種在有序基因序列的左邊堆積的趨向。因此所述共有基因值趨向于被表達(dá)。所述排序改變趨向于產(chǎn)生促進(jìn)進(jìn)化變異的混合,并且防止最左邊的共有基因值總是在每個后代染色體中被表達(dá)。
繼續(xù)參考圖4A和4B并且更進(jìn)一步地參考圖4C,后代染色體的那些未被共有基因值所填充的基因被親代染色體70、72當(dāng)中的一個或另一個所獨有的基因值填充。所述實例親代染色體70、72限定了包含12個獨特基因值{1,2,3,4,9,10,16,18,20,21,22,24}的獨特基因值的實例組84。隨機選擇器86選擇其中一個獨特基因值,以便填充所述后代染色體的在所述共有基因值被用盡之后所剩余的每一個基因。
隨機的突變器90在隨機或偽隨機的基礎(chǔ)上有選擇地突變所述獨特基因值。在所描述的實施例中,只有所述獨特基因值受到選擇性突變,其中所述獨特基因值被應(yīng)用于填充所述后代染色體的基因。不突變所述共有基因值。通過不突變所述共有基因值,促進(jìn)共有基因值的跨代傳播。通常來說,預(yù)期所述共有基因值往往很可能比獨特基因值更能決定健康狀況。
不突變所述共有基因值還促進(jìn)了計算遺傳進(jìn)化朝著最優(yōu)染色體的收斂。因為沒有突變所述共有基因值,所以更容易地獲得相對穩(wěn)定跨代的染色體配置。這又允許所述獨特基因值的突變率92比起對包含共有基因值的所有基因值進(jìn)行有選擇突變的情況更高。在一些實施例中,已經(jīng)發(fā)現(xiàn)所述獨特基因值的突變率大于5%是適當(dāng)?shù)?。在一些實施例中,已?jīng)發(fā)現(xiàn)所述獨特基因值的突變率在15%左右是適當(dāng)?shù)?。相反地,?dāng)共有基因值和獨特基因值兩者都被有選擇地突變時,突變率大于5%通常導(dǎo)致所述遺傳進(jìn)化的不良收斂特性。
在圖4C中,隨機選擇的獨特基因值被用于填充所述后代染色體的那些沒有用共有基因值填充的基因。然而,可以采用其他的方法。舉例來說,所述兩個親代染色體70、72的獨特基因值可以被從左到右地配對,并且被半隨機地選擇用于在所述后代之間交換。因此,圖4A的后代染色體的基因在這個方法中將從親代染色體70接收到值{10,4,21,1,22和16},而圖4B的后代染色體將從親代染色體72接收到值{20,2,18,9,3和24}。然而,那些獨特基因值的一半將被隨機地在所述后代之間成對地交換。因此,舉例來說,第三個序數(shù)位置基因值21和18、第五個序數(shù)位置基因值22和3以及第六個序數(shù)位置基因值16和24可能被隨機地在兩個后代之間交換。所述隨機突變器90還會如前所述地對所述獨特基因值進(jìn)行操作。
參考圖4D,Eshelman CHC遺傳算法被更進(jìn)一步地修改,以便為后代染色體產(chǎn)生適當(dāng)?shù)囊驯磉_(dá)子組大小基因80的值。所述實例親代染色體70、72的已表達(dá)子組大小基因80的值分別是7和10。因此,所述后代染色體的已表達(dá)子組大小基因80的值應(yīng)該位于7到10的閉區(qū)間內(nèi)。可選地,該范圍被擴展,以便提高所述遺傳進(jìn)化在達(dá)到具有更多或更少數(shù)量的已表達(dá)基因的染色體方面的有效性。在所描述的實施例中,所述范圍被增大了范圍Δx的一半,所述范圍Δx在所述兩個親代染色體70、72的已表達(dá)子組大小基因80的值之間。這個擴展值被截取以便定義一個整數(shù),并且被施加在更健康親代的已表達(dá)子組大小基因80的值的方向上。在圖4D中,假設(shè)已表達(dá)子組大小基因80的值為7的親代染色體70比已表達(dá)子組大小基因80的值為10的親代染色體72更健康。因此,所述范圍從較低值7向下擴展Δx/2=INT[(10-7)/2]=INT[1.5]=1,從而所述親代染色體70、72的已表達(dá)子組大小基因80的值定義閉區(qū)間[6,10]的范圍。每個后代染色體的已表達(dá)子組大小基因80的值被隨機地或偽隨機地從范圍[6,10]中選擇。如果親代染色體72比親代染色體70更健康,那么所述擴展將是在染色體72的已表達(dá)子組大小基因80的值10之上,從而定義范圍[7,11]以供選擇。此外,如果所述擴展超出所選擇的邊界(例如大于染色體中的基因數(shù)量,或者小于1,或者小于所選擇的已表達(dá)基因的最小數(shù)量),那么用于所述后代染色體已表達(dá)子組大小基因值的范圍被適當(dāng)?shù)亟厝 ?br>
返回參考圖1,相對于Eshelman CHC算法修改遺傳算法10的選擇算法40,以便偏向具有更小數(shù)量的已表達(dá)基因的染色體。較小數(shù)量的已表達(dá)基因?qū)?yīng)于診斷測試50中的較小的測量子組52,并且降低了過度擬合所述學(xué)習(xí)案例22的可能性。在一些實施例中,分層選擇被用于比較兩個染色體。通過下列偽代碼闡明一個這樣的選擇if(classification_errors(后代)<classification_errors(親代))then用后代替換親代if((classification_errors(后代)=classification_errors(親代))and(sss(后代)<sss(親代))) (2)then用后代替換親代if((classification_errors(后代)=classification_errors(親代))and(sss(后代)=sss(親代)))then隨機地選擇是否用后代替換親代其中,在偽代碼(2)中classification_errors()是由分類器測試算法32確定的每個染色體的健康量度,并且利用其經(jīng)優(yōu)化的分類器功能來測量由該染色體產(chǎn)生的分類錯誤的數(shù)量;sss()是所述已表達(dá)子組大小基因80的值。適當(dāng)?shù)貞?yīng)用所述偽代碼(2)如下(i)按照健康狀況對親代染色體群體的染色體進(jìn)行排序;(ii)按照健康狀況對后代染色體進(jìn)行排序;(iii)利用偽代碼(2)比較最健康的后代染色體和最不健康的親代染色體,并且在適當(dāng)情況下,在所述染色體群體中用所述后代染色體來替換所述親代染色體;以及(iv)重復(fù)操作(iii),直到不用后代替換親代(從而意味著剩余的后代中沒有一個與最不健康的親代一樣健康)。
在選擇親代染色體以用于產(chǎn)生后代的過程中,可選地采用Eshelman CHC近親交配預(yù)防機制。近親交配預(yù)防防止在過于相似的親代之間執(zhí)行交叉。通常來說,關(guān)于所述親代染色體的已表達(dá)基因來確定近親交配預(yù)防。然而,由于在所述后代染色體中的已表達(dá)子組大小基因80的值可能比親代染色體中的已表達(dá)子組大小基因80的一個或全部兩個值更大,因此對于兩個潛在親代染色體的近親交配預(yù)防適當(dāng)?shù)厥顷P(guān)于這種配對所可能獲得的后代染色體的已表達(dá)子組大小基因80的最大值而確定的。此外還可選地合并Eshelman CHC遺傳算法的其他特征,例如提供軟重啟以抵制過早的收斂。
參考圖5,其中說明了利用已表達(dá)子組大小基因80以及偏向更小數(shù)量的已表達(dá)基因的有效性。圖5示出了一個散布圖,其具有沿著縱座標(biāo)(y軸)繪制的每個染色體的已表達(dá)子組大小基因80的值,以及沿著橫坐標(biāo)(x軸)繪制的試驗數(shù)量(對應(yīng)于時間)。對于圖5中說明的運作,每個染色體的基因數(shù)量被設(shè)置為30,并且染色體群體12包含100個染色體。最初的染色體群體具有在1到30之間隨機選擇的已表達(dá)子組大小基因80的值。在遺傳進(jìn)化早期的初始區(qū)域100中,具有已表達(dá)子組大小基因80的較小值(舉例來說小于大約10-12)的染色體滅絕。由于所述基因的值在所述最初染色體群體中是隨機的,比起那些具有已表達(dá)子組大小基因80的較小值的染色體,對于那些具有已表達(dá)子組大小基因80的較大值的染色體來說,在給定染色體中存在一個或兩個優(yōu)良基因的幾率更高。因此,具有較小值的染色體在所述初始區(qū)域100中滅絕。然而,在大約1,000次試驗之后,其已表達(dá)子組大小基因80的值小于10的染色體開始重新出現(xiàn)。在1,000次試驗之后,所述基因的值不再是隨機的,而是已經(jīng)開始從在先前世代中存活下來的親代那里集成。于是,在大約40,000-50,000次試驗時,其已表達(dá)子組大小基因80的值非常大的染色體開始滅絕。在40,000-50,000次試驗之后,所述染色體群體12的染色體獲得類似的準(zhǔn)確度,因此對于已表達(dá)子組大小基因80的較小值的選擇壓力開始見效。超過50,000次試驗之后,已表達(dá)子組大小基因80的平均值快速下降,并且減少到染色體群體12中的大多數(shù)的已表達(dá)子組大小基因80的值為3或4為止。在恰好處于100,000次試驗之前的一點,經(jīng)修改的Eshelman CHC遺傳算法觸發(fā)軟重啟,這是因為所述群體已經(jīng)收斂。在所述軟重啟時,在1到30的閉區(qū)間之間的所述已表達(dá)子組大小基因80的值的整個范圍被重新引入。進(jìn)化的過程繼續(xù)并且超出圖5的邊緣,在那里再次看到類似的動態(tài)(在圖5中未示出)。
返回參考圖1,利用訓(xùn)練案例26來訓(xùn)練每個分類器,所述訓(xùn)練案例26是學(xué)習(xí)案例22的子組。在訓(xùn)練之后,在測試案例28上測試所述分類器,所述測試案例28是學(xué)習(xí)案例22的另一個子組。所述交叉驗證和噪聲添加算法24在處理染色體群體12的每個新世代之前把學(xué)習(xí)案例22重新劃分為訓(xùn)練案例26和測試案例28。利用把學(xué)習(xí)案例22劃分為訓(xùn)練案例26和試驗案例28的不同分割,重新評估從上一代存活下來的那些親代染色體及其后代染色體。因此,為了使染色體傳播幾個世代并且因此在染色體群體12中散播它的基因,該染色體的表現(xiàn)必須始終優(yōu)于平均水平,而始終如一的表現(xiàn)要求從許多不同的隨機選擇的訓(xùn)練組26的良好的一般化。把學(xué)習(xí)案例22劃分為訓(xùn)練案例26和測試案例28的分割被稱為交叉驗證。可以使用各種交叉驗證方法,例如舍去(leave-out)交叉驗證、k折(k-fold)交叉驗證等等。
繼續(xù)參考圖1,在一些實施例中,當(dāng)學(xué)習(xí)案例22被劃分為訓(xùn)練案例26和試驗案例28時,所述交叉驗證和噪聲添加算法24把所選擇的仿真噪聲級引入到被測量的測試對象的測量組的值中。仿真噪聲的引入抵消了所述分類功能對于測量誤差的相關(guān)性的可能擬合。舉例來說,如果當(dāng)測量到癌癥案例時所述測量儀器系統(tǒng)地讀取得稍高,而對于沒有癌癥的案例則稍低,則所述遺傳進(jìn)化可以收斂在這些系統(tǒng)誤差模式上。通過由所述交叉驗證和噪聲添加算法24可選地引入仿真噪聲,干擾了對于所述進(jìn)化搜索的每一代的測量。在一個方法中,根據(jù)下式添加高斯仿真噪聲x’=x+(gauss()·x·cv (3)其中x是測量值,x’是添加了仿真噪聲的測量值,cv是變異系數(shù)(即標(biāo)準(zhǔn)差除以均值x),gauss()是具有零均值和單位方差的高斯函數(shù)。在把學(xué)習(xí)案例22劃分為訓(xùn)練和測試案例26、28之前執(zhí)行仿真噪聲的引入,其中在處理染色體群體12的每一個連續(xù)世代之前執(zhí)行所述劃分。
引入仿真噪聲降低了遺傳進(jìn)化對于系統(tǒng)測量誤差的敏感度,但是也減小了所述發(fā)現(xiàn)算法找到弱模式的趨勢。對于一些生物信息測量組,已經(jīng)發(fā)現(xiàn)變異系數(shù)(cv)在所添加的仿真高斯噪聲中大于2%左右會防止收斂到較弱的生物學(xué)重要模式。
已經(jīng)結(jié)合優(yōu)選實施例描述了本發(fā)明。顯然,在閱讀和理解先前的詳細(xì)說明之后,可以想到其他的修改和變化。本發(fā)明應(yīng)當(dāng)被看作是包含所有的這些修改和變化,只要它們落在所附權(quán)利要求書或其等效表述的范圍之內(nèi)。
權(quán)利要求
1.一種用于確定分類器的方法,該方法包括產(chǎn)生染色體的第一代染色體群體,每個染色體具有(i)指定相關(guān)測量組的子組的所選數(shù)量的基因;以及(ii)已表達(dá)子組大小基因,其具有區(qū)分所述染色體的已表達(dá)和未表達(dá)基因的值;關(guān)于無需參考未表達(dá)基因而評估的健康標(biāo)準(zhǔn),計算地遺傳進(jìn)化包含所述已表達(dá)子組大小基因的所述染色體的基因,以便產(chǎn)生連續(xù)世代染色體群體;以及選擇分類器,該分類器使用由所述遺傳進(jìn)化識別的染色體的所述已表達(dá)基因所指定的相關(guān)測量的所述子組。
2.如在權(quán)利要求1中所述的方法,其中,每個染色體的基因定義有序組,并且所述已表達(dá)子組大小基因包含把該有序組中的已表達(dá)和未表達(dá)基因分隔開的序數(shù)位置值。
3.如在權(quán)利要求2中所述的方法,其中所述遺傳進(jìn)化包括通過對當(dāng)前染色體群體的所選擇的親代染色體進(jìn)行配對來產(chǎn)生后代染色體,每個后代染色體的已表達(dá)子組大小基因值處在由所述親代染色體的已表達(dá)子組大小基因值所限定的范圍之內(nèi),其中該后代染色體從所述親代染色體產(chǎn)生。
4.如在權(quán)利要求3中所述的方法,其中由所述親代染色體的已表達(dá)子組大小基因值限定的所述范圍包括以下各項的至少其中之一(i)比所述親代染色體的已表達(dá)子組大小基因值當(dāng)中的最大的一個更大的值;以及(ii)比所述親代染色體的已表達(dá)子組大小基因值當(dāng)中的最小的一個更小的值。
5.如在權(quán)利要求2中所述的方法,其中,所述有序基因組具有第一和第二末端,最靠近的第一末端的基因是已表達(dá)基因,并且所述遺傳進(jìn)化包括產(chǎn)生后代染色體,其中通過以下步驟從所述當(dāng)前染色體群體的兩個親代染色體產(chǎn)生每個后代染色體(i)使用與兩個親代染色體共有的基因值來填充所述后代染色體的基因,其中在進(jìn)行填充時利用所述兩個親代染色體當(dāng)中的所選擇的一個中的所述共有基因值的排序,并且使所述填充偏向所述后代染色體的有序基因組的第一末端;以及(ii)使用所述親代染色體當(dāng)中的一個或另一個所獨有的基因值來填充剩余的基因。
6.如在權(quán)利要求5中所述的方法,其中,使用與兩個親代染色體共有的基因進(jìn)行填充包括至少偶爾改變所述后代染色體中的所述共有基因值的排序,以使其不同于所述共有基因值在所述兩個親代染色體當(dāng)中的所選擇的一個中的排序。
7.如在權(quán)利要求1中所述的方法,其中,所述遺傳進(jìn)化包括產(chǎn)生后代染色體,所述后代染色體具有(i)從一個組中選擇的不同于已表達(dá)子組大小基因的基因值,所述組包括不同于所述親代染色體的已表達(dá)子組大小基因的所述親代染色體的基因值的集合;以及(ii)在由所述親代染色體的已表達(dá)子組大小基因值限定的范圍內(nèi)選擇的已表達(dá)子組大小基因的值。
8.如在權(quán)利要求1中所述的方法,其中,所述遺傳進(jìn)化包括產(chǎn)生后代染色體,其中通過以下步驟從所述當(dāng)前染色體群體的兩個親代染色體產(chǎn)生每個后代染色體(i)使用與兩個親代染色體共有的基因值來填充所述后代染色體的基因;以及(ii)使用所述親代染色體當(dāng)中的一個或另一個所獨有的基因值來填充剩余的基因;以及有選擇地突變所述親代染色體當(dāng)中的一個或另一個所獨有的后代染色體的基因值,而不突變與兩個親代染色體共有的后代染色體的基因值,對應(yīng)于有選擇地突變所述親代染色體當(dāng)中的一個或另一個所獨有的基因值的突變率大于5%。
9.如在權(quán)利要求1中所述的方法,其中,所述計算遺傳進(jìn)化包括從所述當(dāng)代染色體群體的所選擇的染色體組合產(chǎn)生后代染色體;以及在下面的其中一種情況下使用所選擇的后代染色體來替換所述當(dāng)代染色體群體的所選擇的染色體(i)所選擇的后代染色體比所述當(dāng)代染色體群體的所選擇的染色體更健康;或者(ii)所選擇的后代染色體與所述當(dāng)代染色體群體的所選擇的染色體一樣健康,并且所選擇的后代染色體比所述當(dāng)代染色體群體的所選擇的染色體具有更少的已表達(dá)基因。
10.如在權(quán)利要求9中所述的方法,其中所述所選擇的后代染色體是最健康的后代染色體,并且所述當(dāng)代染色體群體的所選擇的染色體是當(dāng)代染色體群體的最不健康的染色體;以及重復(fù)所述替換,直到所述最健康的后代染色體比所述當(dāng)代染色體群體的最不健康的染色體更不健康。
11.如在權(quán)利要求1中所述的方法,其中,所述健康標(biāo)準(zhǔn)指示由每個染色體的已表達(dá)基因指定的相關(guān)測量的子組的健康狀況,以用于將一組測量對象分類為兩個或更多分類,并且所述方法進(jìn)一步包括在產(chǎn)生每個連續(xù)世代染色體群體之前,在所述測量對象的測量值中引入所選擇的仿真噪聲級。
12.如在權(quán)利要求1中所述的方法,其中,所述健康標(biāo)準(zhǔn)指示由每個染色體的已表達(dá)基因指定的相關(guān)測量的子組的健康狀況,以用于將一組測量對象分類成兩個或更多分類,并且所述方法進(jìn)一步包括在產(chǎn)生每個連續(xù)世代染色體群體之前,隨機地或偽隨機地將一組測量對象劃分為訓(xùn)練組和測試組。
13.一種用于確定醫(yī)學(xué)對象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試,該方法包括利用由權(quán)利要求1的方法所確定的醫(yī)學(xué)診斷分類器對該醫(yī)學(xué)對象的測量進(jìn)行分類,其中所述相關(guān)的測量組表征有機高分子的濃度,并且所述健康標(biāo)準(zhǔn)指示由每個染色體的已表達(dá)基因指定的相關(guān)測量的子組的健康狀況,以用于將醫(yī)學(xué)對象分類成具有所關(guān)心的病變的陽性組和不具有所關(guān)心的病變的陰性組。
14.如在權(quán)利要求13中所述的方法,其中,表征醫(yī)學(xué)對象中的有機高分子濃度的所述相關(guān)測量組是以下各項的其中之一利用從所述醫(yī)學(xué)對象身上獲取的生物樣本處理的微陣列的點的一組測量;以及對于從所述醫(yī)學(xué)對象身上獲取的生物樣本測量的質(zhì)譜圖的一組信號電平。
15.一種用于確定分類器的方法,該方法包括產(chǎn)生染色體的第一代染色體群體,每個染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因;計算地遺傳進(jìn)化所述染色體的基因,以便產(chǎn)生連續(xù)世代染色體群體,產(chǎn)生每個后繼世代染色體群體包括通過以下步驟從所述當(dāng)前染色體群體的親代染色體產(chǎn)生后代染色體(i)使用與兩個親代染色體共有的基因值來填充所述后代染色體的基因,以及(ii)使用所述親代染色體當(dāng)中的一個或另一個所獨有的基因值來填充剩余的基因;有選擇地突變所述親代染色體當(dāng)中的一個或另一個所獨有的所述后代染色體的基因值,而不突變所述后代染色體的與兩個親代染色體共有的基因值;以及根據(jù)每個染色體的健康狀況,利用所述后代染色體來更新所述染色體群體,其中所述健康狀況是利用由該染色體的基因指定的相關(guān)測量的子組確定的;以及選擇分類器,該分類器使用由所述遺傳進(jìn)化識別的染色體的基因所指定的相關(guān)測量的子組。
16.如在權(quán)利要求15中所述的方法,其中,對于有選擇地突變所述親代染色體當(dāng)中的一個或另一個所獨有的基因值的突變率大于5%。
17.如在權(quán)利要求15中所述的方法,其中只有每個染色體的基因的一個子組是已表達(dá)基因,并且利用由每個染色體的已表達(dá)基因所指定的相關(guān)測量的子組來確定該染色體的健康狀況。
18.一種用于確定醫(yī)學(xué)對象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試,該方法包括利用由權(quán)利要求15的方法所確定的醫(yī)學(xué)診斷分類器對該醫(yī)學(xué)對象的測量進(jìn)行分類,其中所述相關(guān)的測量組表征有機高分子的濃度,并且所述健康標(biāo)準(zhǔn)量化由每個染色體的基因指定的相關(guān)測量的子組的有效性,以用于將醫(yī)學(xué)對象分類成具有所關(guān)心的病變的陽性組和不具有所關(guān)心的病變的陰性組。
19.一種用于確定分類器的方法,該方法包括產(chǎn)生染色體的第一代染色體群體,每個染色體具有指定相關(guān)測量組的子組的所選數(shù)量的基因;計算地遺傳進(jìn)化所述染色體的基因,以便產(chǎn)生連續(xù)世代染色體群體,產(chǎn)生每個后繼世代染色體群體包括在對應(yīng)于一組對象的測量組的值中引入所選擇的仿真噪聲級;通過對所述當(dāng)前染色體群體的染色體進(jìn)行配對而產(chǎn)生后代染色體;有選擇地突變所述后代染色體的基因;以及根據(jù)每個染色體的健康狀況,利用所述后代染色體來更新所述染色體群體,其中所述健康狀況是關(guān)于具有所引入的仿真噪聲的所述對象組的測量值而確定的;以及選擇分類器,該分類器使用由所述遺傳進(jìn)化識別的染色體的基因所指定的相關(guān)測量的子組。
20.一種用于確定醫(yī)學(xué)對象是否具有所關(guān)心的病變的醫(yī)學(xué)診斷測試,該方法包括利用由權(quán)利要求19的方法所確定的醫(yī)學(xué)診斷分類器對該醫(yī)學(xué)對象的測量進(jìn)行分類,其中所述相關(guān)的測量組表征有機高分子的濃度,并且所述健康標(biāo)準(zhǔn)量化由每個染色體的基因指定的相關(guān)測量的子組的有效性,以用于將醫(yī)學(xué)對象分類成具有所關(guān)心的病變的陽性組和不具有所關(guān)心的病變的陰性組。
21.一種基因優(yōu)化方法,包括計算地遺傳進(jìn)化染色體群體的基因,所述進(jìn)化包括進(jìn)化每個染色體中的多個已表達(dá)基因,并且采用無需參考每個染色體的未表達(dá)基因而評估的健康標(biāo)準(zhǔn);以及選擇通過所述遺傳進(jìn)化產(chǎn)生的經(jīng)優(yōu)化的染色體。
22.如在權(quán)利要求21中所述的方法,其中,所述遺傳進(jìn)化包括通過對所述當(dāng)前染色體群體的所選擇的親代染色體進(jìn)行配對而產(chǎn)生后代染色體,每個后代染色體的已表達(dá)基因的數(shù)量處于由從中產(chǎn)生該后代染色體的所述親代染色體的已表達(dá)基因的數(shù)量所限定的范圍內(nèi)。
23.如在權(quán)利要求22中所述的方法,其中,由所述親代染色體的已表達(dá)基因的數(shù)量限定的所述范圍包含以下各項的至少其中之一(i)比任何所述親代染色體中的已表達(dá)基因的最大數(shù)量更大的值;以及(ii)比任何所述親代染色體中的已表達(dá)基因的最小數(shù)量更小的值。
24.如在權(quán)利要求21中所述的方法,其中,所述遺傳進(jìn)化包括通過對所述當(dāng)前染色體群體的兩個所選擇的親代染色體進(jìn)行配對來產(chǎn)生后代染色體;以及有選擇地突變所述兩個親代染色體當(dāng)中的一個或另一個所獨有的所述后代染色體的基因,而不突變與兩個親代染色體共有的所述后代染色體的基因。
25.如在權(quán)利要求21中所述的方法,其中,所述遺傳進(jìn)化包括利用選擇標(biāo)準(zhǔn)來選擇存活到每個連續(xù)世代中的染色體,該選擇標(biāo)準(zhǔn)偏向于選擇具有較小數(shù)量的已表達(dá)基因的染色體而不是具有較大數(shù)量的已表達(dá)基因的染色體。
全文摘要
在一種遺傳優(yōu)化方法中,計算地遺傳進(jìn)化染色體群體的基因。所述進(jìn)化包括進(jìn)化每一個染色體中的多個已表達(dá)基因,以及采用一種無需參考每個染色體的未表達(dá)基因而被評估的健康標(biāo)準(zhǔn)。選擇通過所述遺傳進(jìn)化產(chǎn)生的優(yōu)化的染色體。
文檔編號G06F19/00GK1957353SQ200580004378
公開日2007年5月2日 申請日期2005年2月1日 優(yōu)先權(quán)日2004年2月10日
發(fā)明者J·D·沙菲爾, M·R·辛普森 申請人:皇家飛利浦電子股份有限公司