欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于清除遺傳數(shù)據(jù)干擾并確定染色體拷貝數(shù)的系統(tǒng)和方法

文檔序號(hào):6330553閱讀:899來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于清除遺傳數(shù)據(jù)干擾并確定染色體拷貝數(shù)的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明主要涉及為了醫(yī)學(xué)預(yù)測(cè)目的獲得、處理并使用遺傳數(shù)據(jù)的領(lǐng)域,并且,具體的說(shuō),涉及一種系統(tǒng),在該系統(tǒng)中,通過(guò)利用基因有親屬關(guān)系的個(gè)體已知的基因數(shù)據(jù)獲得更為準(zhǔn)確的目標(biāo)個(gè)體非完全測(cè)定的遺傳數(shù)據(jù),從而更為有效的識(shí)別會(huì)導(dǎo)致各種表型后果的遺傳變異,特定的非整倍體性和疾病關(guān)聯(lián)基因。
現(xiàn)有技術(shù)的介紹 在2006年,全球粗略估計(jì)進(jìn)行了800,000例體外受精(IVF)。在美國(guó)大概進(jìn)行了150,000例,大約10,000涉及到胚胎植入前的遺傳診斷(PGD)?,F(xiàn)有的胚胎植入前的遺傳診斷(PGD)技術(shù)是不穩(wěn)定的,價(jià)格昂貴且不安全性高篩選疾病相關(guān)位點(diǎn)或者非整倍體性的差錯(cuò)率在要求的10%之上,每個(gè)篩選試驗(yàn)大概要花費(fèi)5,000美元,并且夫妻不得不在試驗(yàn)非整倍體性或者篩選單細(xì)胞上疾病相關(guān)軌跡之間作出選擇,其中非整倍體性會(huì)出現(xiàn)在大約50%的體外受精胚胎中。對(duì)于既能夠可靠確定單細(xì)胞的遺傳數(shù)據(jù)又具有可承受的價(jià)格的技術(shù)存在很大的需要,該技術(shù)可以用于篩選非整倍體平行性、例如囊腫性纖維化的單基因疾病、和對(duì)復(fù)合疾病表型的敏感性,在復(fù)合疾病表型中,多倍遺傳標(biāo)記物在整個(gè)基因組有關(guān)的研究中是已知的。
目前,大多數(shù)胚胎植入前的遺傳診斷(PGD)集中在高級(jí)染色體異常方面,例如非整倍體性和平衡易位,獲得的主要結(jié)果是有效的著床并實(shí)際上獲得一個(gè)嬰兒。胚胎植入前的遺傳診斷(PGD)的另一個(gè)主要中心是用于遺傳疾病篩選,獲得的主要結(jié)果是得到一位健康的嬰兒,這個(gè)嬰兒不會(huì)受到雙親中的一個(gè)或者兩個(gè)所具有的可基因遺傳疾病的困擾。在這兩種情況下,通過(guò)排除輸入并著床在母體中的基因最適度下的胚胎而提高獲得理想結(jié)果的可能性。在現(xiàn)行的體外受精期間進(jìn)行的胚胎植入前的遺傳診斷(PGD)過(guò)程包括從早期胚胎的大約八個(gè)細(xì)胞中提取單一細(xì)胞進(jìn)行分析。從人胚胎中分離單一細(xì)胞,盡管具有較高的技術(shù)性,但是是現(xiàn)在體外受精臨床上的常規(guī)手段。已經(jīng)成功的分離了集體和裂殖細(xì)胞。更常見(jiàn)的技術(shù)是從3天大的胚胎(6或者8個(gè)細(xì)胞分裂期)中去掉單一裂殖細(xì)胞。將胚胎轉(zhuǎn)移到一種特殊的細(xì)胞培養(yǎng)基(缺少鈣和鎂的標(biāo)準(zhǔn)培養(yǎng)基)中,并使用酸性溶液、激光或者機(jī)械技術(shù)在透明帶上產(chǎn)生一個(gè)洞。然后,操作人員使用活體檢查吸量管除去具有可視核的裂殖細(xì)胞。利用各種技術(shù)測(cè)定單倍(或者有時(shí)候,多倍)裂殖細(xì)胞的DNA特點(diǎn)。因此,一個(gè)細(xì)胞中只有單一拷貝的DNA是有效的,這種DNA的直接測(cè)定是易于出錯(cuò)的,或者是有干擾的。對(duì)能夠正確或者更為準(zhǔn)確的測(cè)定這種有干擾的遺傳的技術(shù)存在很大需要。
正常人在每個(gè)二倍體細(xì)胞中具有兩組23個(gè)染色體,從父母雙方各得來(lái)一個(gè)拷貝。非整倍體性是指一種具有額外的或者錯(cuò)配的染色體和單親二體性的細(xì)胞狀態(tài),這種細(xì)胞狀態(tài)具有兩個(gè)給定的染色體,這兩個(gè)染色體都來(lái)源于父母的一方,這種細(xì)胞狀態(tài)被認(rèn)為對(duì)大多數(shù)著床失敗和流產(chǎn),已經(jīng)一些遺傳性疾病負(fù)責(zé)。盡管在個(gè)體中只有某些細(xì)胞是非整倍體,該個(gè)體被認(rèn)為顯示鑲嵌現(xiàn)象。檢測(cè)染色體的異常除了能夠增加成功妊娠的機(jī)會(huì)之外,還可以識(shí)別具有狀況的個(gè)體或者胚胎,所述狀況例如唐氏綜合癥、格來(lái)弗德氏綜合癥、和特納氏綜合癥及其他病癥。隨著母親年齡的增加,檢測(cè)染色體反常越來(lái)越重要;據(jù)估計(jì),母親年齡在35到40之間的胚胎有40%到50%是異常的,并且,年齡超過(guò)40歲時(shí),超過(guò)一半以上的胚胎有可能是異常的。導(dǎo)致非整倍體性的主要原因是在減數(shù)分裂期間的染色體不分離。母親的染色體不分離占所有染色體不分離情況的88%,其中,在減數(shù)分裂I期,有65%的染色體不分離,在減數(shù)分裂II期,有23%的染色體不分離。常見(jiàn)的人非整倍體性種類(lèi)包括減數(shù)分裂I期染色體不分離造成的三染色體性、單體性和單親二體性。在減數(shù)分裂II期染色體不分離產(chǎn)生的具體三染色體性類(lèi)型中,或者M(jìn)2三染色體性中,額外的染色體與兩個(gè)正常染色體中的一個(gè)一致。M2三染色體性尤其難以檢測(cè)。對(duì)能夠有效地并且高精度地檢查絕大多數(shù)染色體或者所有染色體中更多的或者所有的非整倍體性的方法存在需要。
染色體組型是用來(lái)預(yù)測(cè)非整倍體性和鑲嵌現(xiàn)象的傳統(tǒng)方法,這種方法被其他高處理能力、成本更加低廉的方法,例如,流細(xì)胞計(jì)數(shù)法(FC)和熒光原位雜交(FISH)所取代。目前,絕大多數(shù)產(chǎn)前檢查使用可以確定大型染色體畸變的FISH和PCR/電泳,以及其他可以確定少數(shù)SNP或者其他的基因等位查出的方法。FISH的一個(gè)優(yōu)點(diǎn)在于它比染色體組型價(jià)格更為低廉,但是該技術(shù)更為復(fù)雜并且也比較昂貴,因此通常只選擇一小部分染色體進(jìn)行試驗(yàn)(通常選擇染色體13、18、21、X、Y;有時(shí)也選擇染色體8、9、15、16、17、22);另外,F(xiàn)ISH的專(zhuān)一性水平較低。目前,使用具有出錯(cuò)率為大概10-15%的FISH進(jìn)行胚胎植入前的遺傳診斷(PGD),大概百分之七十五的胚胎植入前的遺傳診斷(PGD)測(cè)定處高水平的染色體反常性,例如,非整倍體性。對(duì)具有較高處理能力、較低花費(fèi)和更好準(zhǔn)確性的非整倍體性篩選法存在很大的需要。
根據(jù)在線(xiàn)人類(lèi)孟德?tīng)栠z傳數(shù)據(jù)庫(kù)(OMIM),已知的與遺傳基因等位有關(guān)的疾病的數(shù)量目前是389種,該數(shù)量還在穩(wěn)定的增長(zhǎng)。因此,分析胚胎DNA上與具體表型相關(guān)的多倍體位置或者位點(diǎn)變得日益重要。通過(guò)產(chǎn)前檢查進(jìn)行胚胎植入前遺傳診斷的一個(gè)明確的優(yōu)點(diǎn)在于這避免了一些一旦檢測(cè)到不受歡迎的表型可能會(huì)采取的行為而導(dǎo)致的倫理問(wèn)題的發(fā)生。對(duì)于在胚胎植入前階段針對(duì)更廣泛的胚胎基因型的方法存在需要。
在單一細(xì)胞水平下,很多先進(jìn)的技術(shù)能夠在一個(gè)或者一些位點(diǎn)診斷遺傳畸變。這包括相間染色體轉(zhuǎn)化、相反性基因組雜交、熒光PCR、微小序列和整個(gè)基因組擴(kuò)增。通過(guò)這些技術(shù)產(chǎn)生的數(shù)據(jù)的可靠性依賴(lài)于DNA制備的質(zhì)量。因此,需要更好的制備單一細(xì)胞DNA的方法來(lái)擴(kuò)增和進(jìn)行胚胎植入前的遺傳診斷(PGD),這種方法正在研究中。當(dāng)在單一細(xì)胞、少量細(xì)胞或者DNA片段上使用時(shí),所有的基因型技術(shù)都面臨完整性問(wèn)題,最顯著的是等位基因漏失(ADO)。由于雜交反應(yīng)的效率很低,這一問(wèn)題在體外受精過(guò)程中被激化,并且該技術(shù)必須快速操作從而保證胚胎的基因型處于胚胎存活最大時(shí)間極限之內(nèi)。對(duì)于在測(cè)定來(lái)自一個(gè)細(xì)胞或者少量細(xì)胞的遺傳數(shù)據(jù)過(guò)程中,尤其在存在時(shí)間限制的情況下,減少高等位基因漏失(ADO)比率的問(wèn)題的方法存在需要。
這里列出的是一組與本發(fā)明所屬領(lǐng)域相關(guān)的現(xiàn)有技術(shù)。這些現(xiàn)有技術(shù)中沒(méi)有任何一個(gè)包括或者以任何方式涉及本發(fā)明的新元素。在美國(guó)專(zhuān)利第6,489,135號(hào)中,Parrott等人提供了用于確定體外受精的胚胎的各種生物學(xué)特性的方法,包括全部胚胎的健康、著床率和增加的成功發(fā)育完全的可能性,通過(guò)分析體外受精培養(yǎng)物的培養(yǎng)基樣品的生物活性脂類(lèi)水平來(lái)確定這些特性。在美國(guó)專(zhuān)利申請(qǐng)第20040033596號(hào)中,Threadgill等人描述了一種制備同型結(jié)合細(xì)胞文庫(kù)的方法,可以有效用于分離的親本細(xì)胞中涉及點(diǎn)特異性有絲分裂染色體重組的體外表型和基因定位。在美國(guó)專(zhuān)利申請(qǐng)第5,635,366號(hào)中,Cooke等人提供了一種通過(guò)確定來(lái)自母親的生物樣品中11β-羥甾醇脫氫酶(11β-HSD)水平來(lái)預(yù)測(cè)體外受精結(jié)果的方法。在美國(guó)專(zhuān)利第7,058,517號(hào)中,Denton等人描述了一種方法,其中,將個(gè)體單倍體與一般群體的已知單倍體數(shù)據(jù)庫(kù)相比較,從而預(yù)測(cè)對(duì)于一種治療方法的臨床反應(yīng)。在美國(guó)專(zhuān)利第7,035,739號(hào)中,Schadt等人描述了一種方法,其中,該方法構(gòu)建了一種遺傳標(biāo)記地圖,并且分析了個(gè)體基因和特征,從而得到了基因-特征軌跡數(shù)據(jù),然后集中成一種識(shí)別基因相互作用途徑的方法,該方法通過(guò)多變量分析被確認(rèn)是有效地。在美國(guó)專(zhuān)利申請(qǐng)US2004/0137470 A1中,Dhallan等人描述了使用具體選擇的引物來(lái)改善擴(kuò)增速率并檢測(cè)多種相關(guān)疾病有關(guān)位點(diǎn)的方法,已經(jīng)更有效的測(cè)定缺失、存在數(shù)量和/或每種基因的量的方法。在國(guó)際專(zhuān)利申請(qǐng)WO 03/031646中,F(xiàn)indlay等人描述了一種是用遺傳標(biāo)記物改善的選擇方法使有限量遺傳物質(zhì)的擴(kuò)增產(chǎn)生更為均一的擴(kuò)增材料的方法,所述擴(kuò)增材料可以使具有較高準(zhǔn)確度的基因型。


發(fā)明內(nèi)容
這里公開(kāi)的系統(tǒng)能夠使用次要遺傳數(shù)據(jù)作為信息源清除不完全遺傳數(shù)據(jù)或者有干擾的遺傳數(shù)據(jù),并且同時(shí)使用所述遺傳數(shù)據(jù)確定染色體拷貝數(shù)。盡管公開(kāi)的內(nèi)容集中在人類(lèi)主體的遺傳數(shù)據(jù)上,并且更特異性的集中在仍未著床的胚胎或者發(fā)育中的胎兒,以及相關(guān)的個(gè)體上,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)注意到,這里公開(kāi)的方法在很大范圍內(nèi)適用于很多有機(jī)體的遺傳數(shù)據(jù)。這里描述的用于清理遺傳數(shù)據(jù)的技術(shù)主要與體外受精期間胚胎植入前診斷、結(jié)合羊膜穿刺術(shù)的產(chǎn)前檢查、外胎膜絨毛活體檢查、胎兒組織取樣、和非侵入性產(chǎn)前檢查相關(guān),其中從母系血液中分離出少量胎兒遺傳物質(zhì)。通過(guò)使用這種方法可以促進(jìn)針對(duì)可遺傳性疾病的診斷、染色體拷貝數(shù)的預(yù)測(cè)、缺陷或者反常情況增加的可能性的診斷,以及對(duì)個(gè)體各種疾病相關(guān)表型和非疾病相關(guān)表型敏感性的診斷,從而提高臨床和生活決定。本發(fā)明解決了上面提高的所有現(xiàn)有技術(shù)的缺點(diǎn)。
在本發(fā)明的一個(gè)方面,本發(fā)明利用了母親和父親遺傳數(shù)據(jù)的知識(shí)、減數(shù)分裂原理知識(shí)以及未完成的胚胎DNA測(cè)定,從而在硅中以高度的信心重建關(guān)鍵位點(diǎn)的胚胎DNA,其中所述母親和父親遺傳數(shù)據(jù)例如,二倍體組織樣品、來(lái)自父親的精液、來(lái)自母親的單倍體樣品或其他來(lái)源于母親和父親接合體的胚胎。在本發(fā)明的一個(gè)方面,來(lái)源于其他有關(guān)個(gè)體的遺傳數(shù)據(jù),例如,來(lái)源于其他胚胎、兄弟與姊妹、祖父母或者其他親屬的遺傳數(shù)據(jù)也可以被用于增加重建胚胎DNA的精確度。重要的是,應(yīng)該注意到,雙親及其他次要遺傳數(shù)據(jù)不但允許未充分測(cè)定的SNP的重建,還允許SNP或者完全沒(méi)有被測(cè)定的整個(gè)DNA區(qū)域的插入、刪除。
在本發(fā)明的一個(gè)方面,通過(guò)利用或者不利用有關(guān)個(gè)體的遺傳數(shù)據(jù),已經(jīng)重建了胎兒或者胚胎的基因數(shù)據(jù),可以使用所述胎兒或者胚胎的基因數(shù)據(jù)檢測(cè)所述細(xì)胞是否是非整倍體,即,細(xì)胞中是否存在少于或者多于兩個(gè)特定染色體。重建的數(shù)據(jù)還可用于檢測(cè)單親二體性,單親二體性是指兩個(gè)給定的染色體被呈遞,且這兩個(gè)染色體都來(lái)自于父親或者母親的情況。這可以通過(guò)建造一組DNA潛在狀態(tài)的假設(shè)、試驗(yàn)觀察在測(cè)定的數(shù)據(jù)中那種假設(shè)最有可能成為事實(shí)來(lái)完成。通過(guò)利用高處理量基因數(shù)據(jù)進(jìn)行非整倍體性篩選的記錄既能夠使來(lái)自每個(gè)胚胎的單一裂殖細(xì)胞被用于測(cè)定多重疾病相關(guān)位點(diǎn),又能夠使來(lái)自每個(gè)胚胎的單一裂殖細(xì)胞被用于篩選非整倍體性。在本發(fā)明的另一個(gè)方面,存在在一些位點(diǎn)上、經(jīng)過(guò)放大或者未被放大的遺傳物質(zhì)量的直接測(cè)定可用于檢測(cè)單體性、單親二體性、三染色體性及其他非整倍體性狀態(tài)。在這一方法背后所隱藏的觀點(diǎn)是測(cè)定在多個(gè)位點(diǎn)遺傳物質(zhì)的量可以給出一種統(tǒng)計(jì)上有顯著意義的結(jié)果。在本發(fā)明的另一個(gè)方面,通過(guò)觀察胚胎上母本與父本錯(cuò)配同型結(jié)合位點(diǎn)的比例,對(duì)SNP特定子集,即父母同型結(jié)合但是具有不同的等位基因值的位點(diǎn)進(jìn)行直接或者間接測(cè)定,這種直接或者間接的測(cè)定可用于檢測(cè)染色體異常。在這一方法背后所隱藏的觀點(diǎn)是,根據(jù)定義,父本或母本同型結(jié)合但具有不同等位基因的位點(diǎn)會(huì)在胚胎上產(chǎn)生一種雜合位點(diǎn)。在這些位點(diǎn)上等位基因的離去是隨機(jī)的,并且同型結(jié)合錯(cuò)配位點(diǎn)比率的變化只與不正確的染色體數(shù)目有關(guān)。
本領(lǐng)域普通技術(shù)人員可以認(rèn)識(shí)到,根據(jù)這里公開(kāi)的內(nèi)容,本發(fā)明公開(kāi)內(nèi)容的各種方面和實(shí)施方案可以結(jié)合或者分別實(shí)現(xiàn)。
本發(fā)明的詳細(xì)說(shuō)明和優(yōu)選的實(shí)施方案 系統(tǒng)的概念摘要 這里所公開(kāi)的系統(tǒng)的目標(biāo)是為遺傳診斷提供高度精確的基因數(shù)據(jù)。在一個(gè)個(gè)體的遺傳數(shù)據(jù)存在大量干擾或者錯(cuò)誤的情況下,這里公開(kāi)的系統(tǒng)利用目標(biāo)個(gè)體的遺傳數(shù)據(jù)與有親屬關(guān)系的個(gè)體遺傳數(shù)據(jù)之間可預(yù)料到的類(lèi)似性,來(lái)清除目標(biāo)基因組的干擾。這一過(guò)程可以通過(guò)確定有親屬關(guān)系的個(gè)體染色體的那個(gè)部分被包括在配偶子形成過(guò)程中,并且在必要時(shí)通過(guò)確定減數(shù)分裂期間已經(jīng)存在的交叉,從而預(yù)計(jì)有親屬關(guān)系的個(gè)體基因組那個(gè)部分幾乎與目標(biāo)基因組的相同部分一致來(lái)實(shí)現(xiàn)。在某些情況下,這種方法不但可用于清除目標(biāo)個(gè)體堿基對(duì)測(cè)量的干擾,而且還可以用于推斷單獨(dú)的堿基對(duì)或者未被測(cè)定的DNA的整個(gè)區(qū)域。該方法還可以用于確定目標(biāo)個(gè)體給定的染色體部分的拷貝數(shù)。另外,對(duì)于每個(gè)獲得的查出都可以計(jì)算置信度。首先提出一種高度簡(jiǎn)化的解釋?zhuān)瑸榱私忉尡景l(fā)明的概念進(jìn)行不現(xiàn)實(shí)的假定。隨后,介紹了可以被用于本技術(shù)的詳細(xì)的統(tǒng)計(jì)方法。
在本發(fā)明的一個(gè)方面,目標(biāo)個(gè)體是胚胎,對(duì)胚胎的遺傳數(shù)據(jù)應(yīng)用這里公開(kāi)的方法的目的是使醫(yī)生或者其他人能夠?qū)⒁隗w外受精期間植入的胚胎進(jìn)行一種已知的選擇。在本發(fā)明的其他方面,目標(biāo)個(gè)體是胎兒,對(duì)胎兒的遺傳數(shù)據(jù)應(yīng)用本發(fā)明公開(kāi)的方法的目的是為了使醫(yī)生或者其他人對(duì)關(guān)于該胎兒的可能的臨床決定或者其他行為進(jìn)行一種已知的選擇。
定義 SNP(單一核苷酸多形性)是指一種核苷酸,該核苷酸在同一種類(lèi)的兩個(gè)成員基因組之間可能不同。在我們使用的術(shù)語(yǔ)中,沒(méi)有對(duì)每種存在的變體出現(xiàn)頻率進(jìn)行限制。
查出SNP考慮直接和間接證據(jù)來(lái)確定具體堿基對(duì)的真實(shí)狀態(tài)。位點(diǎn)個(gè)體DNA上具體的重點(diǎn)區(qū)域,此區(qū)域涉及SNP、可能插入或者刪除的位點(diǎn)、或者其他相應(yīng)的遺傳變異位點(diǎn)。與疾病有關(guān)的SNP也可以涉及與疾病有關(guān)的位點(diǎn)。查出等位基因確定DNA具體位點(diǎn)的狀態(tài)。這包括查出SNP、或者確定該位點(diǎn)是否存在插入或者刪除、或者確定該位點(diǎn)可能存在的插入的數(shù)目、或者確定該位點(diǎn)是否存在其他的遺傳變異。正確等位基因的查出正確反映個(gè)體實(shí)際遺傳物質(zhì)的等位基因的查出。凈化遺傳數(shù)據(jù)獲得不完整的遺傳數(shù)據(jù)并糾正一些或者所有錯(cuò)誤,或者在一個(gè)或者一個(gè)以上位點(diǎn)彌補(bǔ)漏失數(shù)據(jù)。在這里公開(kāi)的內(nèi)容中,這包括使用有親緣關(guān)系的個(gè)體的遺傳數(shù)據(jù)和這里所描述的方法。增加等位基因查出的精確度凈化遺傳數(shù)據(jù)。
不完整的遺傳數(shù)據(jù)是指具有下列任一情況的遺傳數(shù)據(jù)等位基因漏失、未確定堿基對(duì)的測(cè)定、未正確堿基對(duì)測(cè)定、錯(cuò)配堿基對(duì)的測(cè)定、插入或者刪除的不確定測(cè)量、染色體部分拷貝數(shù)的不確定測(cè)量、亂真信號(hào)、錯(cuò)配測(cè)定、其他錯(cuò)誤或其結(jié)合。
有干擾的遺傳數(shù)據(jù)不完整的遺傳數(shù)據(jù),也叫做不完全的遺傳數(shù)據(jù)。
未凈化的遺傳數(shù)據(jù)測(cè)定的遺傳數(shù)據(jù)也叫做原始遺傳數(shù)據(jù),這里沒(méi)有使用任何方法來(lái)糾正得到的原始遺傳數(shù)據(jù)中干擾或者誤差的存在。
置信度查出SNP、等位基因、等位基因的統(tǒng)計(jì)學(xué)可能性,或者測(cè)定的染色體部分拷貝數(shù)正確的代表了個(gè)體的真實(shí)遺傳狀態(tài)。
親本支持(PS)是指一種名稱(chēng),這種名稱(chēng)有時(shí)可以用于這里公開(kāi)的任意方法,其中,使用有親屬關(guān)系的遺傳信息可以確定目標(biāo)個(gè)體的遺傳狀態(tài)。有時(shí),這具體的涉及等位基因查出方法,有時(shí)也涉及用于凈化遺傳數(shù)據(jù)的方法,有時(shí)涉及確定染色體部分拷貝數(shù)目的方法,并且有時(shí)也涉及這些方法的一些或者全部的結(jié)合。
查出拷貝數(shù)(CNC)是一種名稱(chēng),這種名稱(chēng)是指這里公開(kāi)的用于確定細(xì)胞中染色體部分?jǐn)?shù)目的方法。
定性CNC(也叫做qCNC)是一種名稱(chēng),這種名稱(chēng)是指這里公開(kāi)的用于確定細(xì)胞中染色體拷貝數(shù)的方法,所述細(xì)胞能夠定性測(cè)定目標(biāo)個(gè)體及其有親屬關(guān)系的個(gè)體的遺傳數(shù)據(jù)。
突變被復(fù)基因或者等位基因影響, 直系親屬母親、父親、兒子、或者女兒。
染色體區(qū)域染色體的一部分或者整個(gè)染色體。
染色體部分(Segment)染色體部分可以是一個(gè)堿基對(duì)也可以是整個(gè)染色體。部分(Section)染色體的一部分。部分(Segment)和部分(Section)可以互換使用。
染色體既可以指整個(gè)染色體,也可以指染色體的一部分。
拷貝染色體部分的拷貝數(shù)可以指相同的拷貝,也可以指染色體部分不同的拷貝,其中,染色體部分不同的拷貝包括基本上相似的位點(diǎn),并且,其中,一種或者一種以上的等位基因是不同的。注意,在非整倍體性的時(shí)候,例如,M2拷貝錯(cuò)誤時(shí),可能出現(xiàn)給定的染色體部分的一些部分拷貝相同,而相同染色體部分的其他一些拷貝不同的情況。
單倍體數(shù)據(jù)也叫做“相數(shù)據(jù)”或者“規(guī)則的遺傳數(shù)據(jù)”;是指來(lái)自二倍體或者多倍體基因組中單一染色體的數(shù)據(jù),所述二倍體或者多倍體基因組染色體指分離的母系或者父系的二倍體基因組染色體拷貝。
不規(guī)則遺傳數(shù)據(jù)對(duì)兩個(gè)或者兩個(gè)以上二倍體或者多倍體基因組染色體進(jìn)行測(cè)定而獲得的整合數(shù)據(jù),所述二倍體或者多倍體基因組染色體是指母系或者父系的二倍體基因組染色體拷貝。
“個(gè)體中的遺傳數(shù)據(jù)”、“個(gè)體的遺傳數(shù)據(jù)”、“在個(gè)體中的遺傳數(shù)據(jù)”或者“個(gè)體上的遺傳數(shù)據(jù)”這些詞語(yǔ)都指描述個(gè)體基因組方面的數(shù)據(jù)。這可以指一個(gè)或者一組位點(diǎn)、部分或者全部序列、部分或者全部染色體、或者全部基因組。
假設(shè)給定染色體組可能的拷貝數(shù)、或者給定的位點(diǎn)上可能的基因型??赡苄钥梢园ㄒ环N或一種以上因素。
目標(biāo)個(gè)體是指正在確定其遺傳數(shù)據(jù)的個(gè)體。一般的,至少少數(shù)來(lái)自目標(biāo)個(gè)體的DNA是有效的。在上下文中,目標(biāo)個(gè)體是胚胎或者胎兒。
有親屬關(guān)系的個(gè)體是指任何在基因上有關(guān)的個(gè)體,并可因此區(qū)分目標(biāo)個(gè)體的單倍體區(qū)。
平臺(tái)反應(yīng)基因測(cè)量平臺(tái),例如Taqman或者Infinium的輸入/輸出特點(diǎn)的數(shù)學(xué)表征。向線(xiàn)路中輸入的是待測(cè)定基因位點(diǎn)的真實(shí)基因型。根據(jù)設(shè)定內(nèi)容,線(xiàn)路輸出的可以使等位基因查出(定性的)或者原始數(shù)據(jù)測(cè)定值(定量的)。例如,在降低平臺(tái)的原始數(shù)據(jù)輸出從而定性基因型查出的情況下,平臺(tái)反應(yīng)由錯(cuò)誤的轉(zhuǎn)換矩陣組成,所述轉(zhuǎn)換矩陣描述了觀察到具體輸入真實(shí)基因型之后輸出基因查出的條件概率。在講平臺(tái)的輸出作為原始測(cè)定值的情況下,平臺(tái)反應(yīng)是描述具體輸入真實(shí)基因型之后數(shù)值輸出概率的條件概率密度函數(shù)。
拷貝數(shù)假設(shè)胚胎上大約有多少具體染色體部分拷貝數(shù)的假設(shè)。在一種優(yōu)選的實(shí)施方案中,該假設(shè)由一組亞假設(shè)組成,所述亞假設(shè)是關(guān)于這些染色體上有多少拷貝是由有親屬關(guān)系的個(gè)體貢獻(xiàn)給目標(biāo)個(gè)體的。
系統(tǒng)的技術(shù)性描述 等位基因查出優(yōu)選的方法 假定這里的目標(biāo)是盡可能準(zhǔn)確的估計(jì)胚胎的遺傳數(shù)據(jù),并且,其中所述估計(jì)是通過(guò)結(jié)合胚胎、父親、母親相同n SNP的測(cè)定值獲得的。注意,這里的描述涉及SNP,這可能也涉及發(fā)生遺傳變異的位點(diǎn),例如可能出現(xiàn)點(diǎn)突變、插入或者刪除的位點(diǎn)。這種等位基因查出方法是親本支持(PS)系統(tǒng)的一部分。這里描述的是一種增加目標(biāo)個(gè)體遺傳數(shù)據(jù)中等位基因查出精確度的方法,其目的是為了獲得可臨床執(zhí)行的預(yù)測(cè)。在目標(biāo)個(gè)體不是胚胎的情況下、在只能獲得父母中一位的遺傳數(shù)據(jù)的情況下、在父母的遺傳數(shù)據(jù)都無(wú)法獲得但已知其父母中的一個(gè)或者兩個(gè)的單倍體的情況下、或者在已知其他有親屬關(guān)系的個(gè)體的遺傳數(shù)據(jù)的情況下,本領(lǐng)域技術(shù)人員顯然已知該如何修飾這里所描述的方法,并且這些修飾可以結(jié)合。
以討論為目的,只考慮具有兩個(gè)等位基因值的SNP在不喪失一般性的情況下,可以假設(shè)所有SNP上的等位基因值術(shù)語(yǔ)符號(hào)A={A,C}。也可以假設(shè)在每個(gè)SNP測(cè)定值上的錯(cuò)誤都是相互獨(dú)立的。當(dāng)被測(cè)定的SNP來(lái)源于足夠遠(yuǎn)的基因區(qū)域時(shí),該假設(shè)是合理的。注意,在不改變本發(fā)明基本方案的情況下,本領(lǐng)域技術(shù)人員可以將單倍體區(qū)域的信息或者SNP測(cè)定誤差有關(guān)的其他模型技術(shù)的信息結(jié)合。
Let e=(e1,e2)是胚胎上真實(shí)且未知的有序SNP信息,e1,e2∈An。將e1定義為從父親處獲得的遺傳單倍體信息,將e2定義為從母親處獲得的遺傳單倍體信息。同時(shí),使用ei=(ei1,ei2)來(lái)表示e的i-th位點(diǎn)上有序的等位基因?qū)?。以相似的方式,let f=(f1,f2)和m=(m1,m2)分別表示父親和母親處獲得的真實(shí)且未知的有序SNP信息。另外,let g是父親單個(gè)精液上存在的真實(shí)的、未知的單倍體信息。(本領(lǐng)域技術(shù)人員可以將let g看做配合體的象征。g2不可能存在。使用下標(biāo)的表述方式是為了提醒讀者該信息是單倍體,同樣,f1和f2也是單倍體)。定義r=(f,m)也是非常方便的,從而這里存在一種信號(hào),該信號(hào)表現(xiàn)了每個(gè)e從父母信息中繼承完整的二倍體信息,也寫(xiě)作ri=(fi,mi)=((f1i,f2i),(m1i,m2i)),表示了從父親和母親i-th SNP位點(diǎn)得到的完整的有序信息。最后,是尋找的最終的e的估計(jì)值, 通過(guò)交配圖中的n維排列θ∈{1,2}n明確表示了單倍體對(duì),例如(f1,f2),如何重組從而形成一種配合體,例如e 1。將θ看做函數(shù),定義θ(f)i=θ(f1,f2)i=fθi,i,其結(jié)果是單倍體序列。為了保證這一定義更為準(zhǔn)確,let f1=ACAAACCC,letf2=CAACCACA,并且letθ=11111222。然后,θ(f1,f2)=ACAAAACA。在這個(gè)實(shí)施例中,交配圖無(wú)疑義的指出交配發(fā)生在SNP i=5和i=6之間。
通常,letθ是真實(shí)且未知的交配圖,定義了f中的e1,letΦ是真實(shí)且未知的交配圖,該交配圖確定了f中的g1。也就是說(shuō),e1=θ(f),e2=Φ(m),g1=ψ(f)。定義X=(θ,Φ,ψ)是十分方便的,從而使這里存在一個(gè)信號(hào),來(lái)表示與問(wèn)題有關(guān)的完整的交配信號(hào)。為了表達(dá)方便,使用e=X(r)作為e=(θ(f),Φ(m))的縮寫(xiě);另外,使用ei=X(ri)作為ei=X(r)i的縮寫(xiě)。
實(shí)際上,當(dāng)染色體結(jié)合時(shí),最多發(fā)生幾次交配,然而從理論上產(chǎn)生2n個(gè)可能的交配圖幾乎是肯定不可能的。在實(shí)踐過(guò)程中,由于這種極低概率的交配發(fā)生可能性為零,也對(duì)這種交配圖進(jìn)行處理,將相對(duì)小的Ω集合看做具有唯一的交配圖。例如,如果Ω被定義為衍生自最多一個(gè)交配的交配圖時(shí),|Ω|=2n。
使用一個(gè)字母來(lái)表示無(wú)序的二倍體測(cè)量值是非常方便的。所以,let B={A,B,C,X}。在這里,A和C表示他們各自的同體結(jié)合體位點(diǎn)狀態(tài),B表示雜合但是無(wú)序的軌跡狀態(tài)。注意該部分是文章僅有的使用符號(hào)B代表雜合但無(wú)序的位點(diǎn)狀態(tài)的部分。在文章中大多數(shù)其他的部分使用符號(hào)A和B代表一個(gè)位點(diǎn)處可能發(fā)生的兩種不同的等位基因值。X代表一種不可測(cè)量的位點(diǎn),例如,一種位點(diǎn)丟失。為了保證這一理論更為準(zhǔn)確,letf1=ACAAACCC,并且let f2=CAACCACA。然后,f的無(wú)干擾無(wú)序的二倍體測(cè)量值回產(chǎn)生 在即將面臨的問(wèn)題中,雖然g1上可能存在有序的單倍體測(cè)量,但只可能對(duì)e,f,m進(jìn)行無(wú)序的二倍體測(cè)定。這可以獲得有干擾的測(cè)量序列,分別表示為和定義是非常方便的,從而可以得到一種符號(hào)來(lái)表示父母數(shù)據(jù)有干擾的測(cè)量值。定義也是十分方便的,從而可以獲得一種信號(hào),來(lái)代表與問(wèn)題有關(guān)的完整的干擾測(cè)量值,這也可以寫(xiě)作表示i-th SNP上完整的測(cè)量值。(請(qǐng)注意,當(dāng)fi是有序的信息對(duì)時(shí),例如,是(A,C)時(shí),

是單一的字母,例如B。) 由于二倍體測(cè)量是無(wú)序的,沒(méi)有任何數(shù)據(jù)可以區(qū)分(f1,f2)和(f2,f1)的狀態(tài)或者區(qū)分(m1,m2)和(m2,m1)。這種不可區(qū)分的對(duì)稱(chēng)狀態(tài)對(duì)預(yù)期的問(wèn)題產(chǎn)生了多重有效的解決方法。為了消除這種對(duì)稱(chēng)并不損害一般原則,指定θ1=Φ1=1. 總之,該問(wèn)題可以通過(guò)下列組的信息{r,e,g1,X}來(lái)定義,定義e=X(r)。只有干擾測(cè)量值是可以用到的。目標(biāo)是根據(jù)

產(chǎn)生帶有估計(jì)值

的e。
本發(fā)明方法假設(shè)胚胎上具有整倍性。如何將這種方法與其他專(zhuān)利中描述的非整倍體查出方法結(jié)合使用,對(duì)本領(lǐng)域普通技術(shù)人員來(lái)講是顯而易見(jiàn)的。例如,可以首先使用非整倍體查出方法,從而確保胚胎都是具有整倍體性的,然后使用等位基因查出方法,或者可以使用非整倍體查出方法來(lái)確定有多少染色體拷貝來(lái)源于父體或者母體,然后使用等位基因查出方法。對(duì)只有一個(gè)染色體被呈遞的性染色體而言,如何將這種方法進(jìn)行修飾對(duì)本領(lǐng)域普通技術(shù)人員來(lái)講也是顯而易見(jiàn)的。
通過(guò)最大后驗(yàn)估計(jì)的解決方案 在本發(fā)明的一個(gè)實(shí)施方案中,如果可能的話(huà),對(duì)于每個(gè)n SNP位點(diǎn)使用最大后驗(yàn)估計(jì)(MAP)來(lái)確定該位置最有可能的等位基因?qū)樞?。隨后的推導(dǎo)過(guò)程使用常用的概率表達(dá)簡(jiǎn)化符號(hào)。例如,

表示,在隨機(jī)變量X取決于X′值時(shí),隨機(jī)變量ei取決于ei′值的概率和隨機(jī)變量

取決于其觀測(cè)值的概率。使用最大后驗(yàn)估計(jì)(MAP)方法,然后由表示的

的i-th部分通過(guò)下式確定 在上述等式中,(a)成立的前提是SNP獨(dú)立的加和,這是指對(duì)于給定的X,所有與SNP i有關(guān)的隨機(jī)變量有條件的獨(dú)立于所有與SNPj有關(guān)的隨機(jī)變量;(b)成立的前提是r獨(dú)立于X;(c)成立的前提是,對(duì)于給定的ri和X,ei和

是有條件的相互獨(dú)立的(具體的說(shuō),ei=X(ri));并且,(*)成立的前提是ei=X(ri),這是指P(ei’|X’,ri’)等于1或者0,且因此有效將ri’過(guò)濾成與ei’和X’一致的值。
上面最后的表達(dá)(*)包括三種概率表達(dá)式P(X′),P(r′j),和

對(duì)上述各量的計(jì)算在下面三節(jié)中討論。
交換圖概率 近來(lái)的研究記述了在任何兩個(gè)SNP位點(diǎn)間重組的概率模型。從精液研究和遺傳變異類(lèi)型的觀測(cè)表明重組率以千堿基對(duì)比例發(fā)生廣泛地的變化,許多重組發(fā)生在重組熱點(diǎn)上。NCBI數(shù)據(jù)庫(kù)中,有關(guān)人類(lèi)基因組重組率的數(shù)據(jù)在UCSC基因組注解數(shù)據(jù)庫(kù)中是公開(kāi)對(duì)外使用的。
研究者可以從人類(lèi)基因組單體型圖計(jì)劃或Perlege人單倍型計(jì)劃中使用這些數(shù)據(jù)庫(kù)。Perlegen人單倍型計(jì)劃是高密度的,人類(lèi)基因組單體型圖計(jì)劃是較高質(zhì)量的。在此領(lǐng)域擅長(zhǎng)的人員可以通過(guò)多種方法估計(jì)出這些比率,例如可逆跳馬爾科夫蒙特卡羅(MCMC)方法,這一方法在LDHat程序包中可使用。
在本發(fā)明的一種具體實(shí)施方案中,可計(jì)算出任何交換圖概率,給出任何兩個(gè)SNPs之間的的交換概率。例如,P(θ=11111222)是發(fā)生在SNPs五和六之間的交換概率的二分之一。為二分之一概率的原因是一種特殊的交換類(lèi)型具有兩種與此相關(guān)的交換圖一種為對(duì)于各個(gè)配子。另一個(gè)交換圖是θ=22222111。
X=(θ,φ,ψ),其中e1=θ(f),e2=φ(m),g1=ψ(f)。顯然,θ,φ,和ψ由獨(dú)立物理實(shí)驗(yàn)得來(lái),因此,P(X)=P(θ)P(φ)P(ψ)。進(jìn)一步假設(shè)為Pθ(·)=Pφ(·)=Pψ(·),其中實(shí)際分布Pθ(·)明顯可通過(guò)Hapmap數(shù)據(jù)確定。
等位基因概率 從數(shù)據(jù)庫(kù)例如dbSNP,使用人口頻率信息確定P(ri)=P(fi)P(mi)=P(fi1)P(fi2)P(mi1)P(mi2)。此外,正如前面提到的,選擇內(nèi)單倍體獨(dú)立的假設(shè)是合理的SNPs。即,假設(shè) 測(cè)量誤差 根據(jù)位點(diǎn)是雜合子或純合子的,測(cè)量誤差可建模為對(duì)于所有相似類(lèi)型位點(diǎn)為獨(dú)立或同樣地分布。因此 其中,在最終表述中的四種條件性概率分布中的每種都是經(jīng)驗(yàn)確定的,此外的假設(shè)為前兩種分布是相同的。例如分裂球上的無(wú)序二倍體測(cè)量的經(jīng)驗(yàn)值為pd=.5和pa=.02,其中,導(dǎo)致

的條件概率分布在表1中列出。
注意上述的條件概率分布,



根據(jù)不同的實(shí)驗(yàn)會(huì)有很大的變化,這取決于實(shí)驗(yàn)室的各種實(shí)驗(yàn)因素,例如,基因樣品質(zhì)量的不同,或全基因組擴(kuò)增效率的差別,或使用的操作方法的小的變化。因此,在比較好的具體實(shí)施方案中,這些條件概率分布在每次實(shí)驗(yàn)的基礎(chǔ)上進(jìn)行估測(cè)。在本發(fā)明的隨后章節(jié)中將集中在估計(jì)

但是熟悉此領(lǐng)域的人在閱讀完本發(fā)明書(shū)后,將明白如何使用相似的技術(shù)估計(jì)



分布能分別建模為屬于一個(gè)分布的參數(shù)家族,其中,特殊的參數(shù)值可以根據(jù)不同的實(shí)驗(yàn)而變化。如其中的一個(gè)實(shí)例,隱式模擬條件概率分布

可以參數(shù)化為等位基因脫扣參數(shù)pd和等位基因脫入?yún)?shù)pa。這些參數(shù)的值可能根據(jù)不同的實(shí)驗(yàn)有很大的變化,也可以使用標(biāo)準(zhǔn)的方法例如,最大可能性估計(jì),MAP估計(jì),或貝葉斯定理推論,來(lái)估計(jì)存在于任何單獨(dú)實(shí)驗(yàn)中這些參數(shù)的值。最大可能性估計(jì),MAP估計(jì),或貝葉斯定理推論,這些估計(jì)方法的應(yīng)用在本文其他地方也有描述。不管使用了哪種精確的方法,關(guān)鍵是找到一套參數(shù)值,這些參數(shù)值能夠最大化參數(shù)和數(shù)據(jù)的聯(lián)合概率,通過(guò)考慮在數(shù)據(jù)空間中的感興趣區(qū)域內(nèi)的所有可能的元組。如本文在他地方描述的,當(dāng)知道目的基因組的染色體拷貝數(shù),或當(dāng)不知道拷貝數(shù),但是采用不同的假設(shè)時(shí),這種方法是可行的。在后一種情況中,可以通過(guò)搜索參數(shù)和假設(shè)的組合,這種假設(shè)與已知數(shù)據(jù)有最好匹配,如在本文其他地方描述的。
值得注意的,可以通過(guò)由測(cè)定得出的特定參數(shù)確定條件概率分布,例如,定量基因型測(cè)定的幅度,能夠增加本方法的準(zhǔn)確度。這不會(huì)改變本發(fā)明的基本概念。
根據(jù)每個(gè)實(shí)驗(yàn),也可以通過(guò)非參數(shù)化的方法,估算上述的條件概率分布。近鄰方法,smoothing kernels,和類(lèi)似的非參數(shù)方法,這些方法對(duì)于熟悉此領(lǐng)域的人也是可能應(yīng)用的。盡管本發(fā)明集中在參數(shù)估算的方法,使用非參數(shù)化方法估算這些條件概率分布不會(huì)改變本發(fā)明的基本概念。通常防止誤解的說(shuō)明參數(shù)化方法可能經(jīng)受模型偏見(jiàn),但是具有低的變異性。非參數(shù)化方法趨于被正視化,但是具有高變異性。
值得注意的,熟悉該領(lǐng)域的人在讀完該發(fā)明書(shū)后,能夠清楚的知道如何使用定量信息代替顯而易見(jiàn)的等位基因分型,以達(dá)到應(yīng)用PS方法產(chǎn)生可靠的等位基因分型的目的,這不會(huì)改變本發(fā)明的本質(zhì)概念。
B因數(shù)分解等位基因方程 在本發(fā)明的首選的具體實(shí)施方案中,可以制定等位基因的算法,以便它可以更有效地執(zhí)行計(jì)算。在本節(jié)中,通過(guò)MAP的方法重新得出等位基因分型的方程,這次重組方程,使它們能反應(yīng)出計(jì)算結(jié)果的有效的計(jì)算方法。
符號(hào) X*,Y*,Z*∈{A,C}n×2是真實(shí)順序值,分別為母親,父親和胎兒。H*∈{A,C}n×h是在h精液樣本中的實(shí)際值。
B*∈{A,C}n×b×2是在b分裂球的實(shí)際順序值。
D={x,y,zB,H}是不規(guī)則測(cè)量數(shù)據(jù)組,來(lái)自父親,母親,胎兒,b分裂球和h精液樣本。是局限于i-th SNP的數(shù)據(jù)組。
r∈{A,C}4表示源于母親和父親,在特定位點(diǎn)上的順序值的4-數(shù)組的候選。是在SNP i的估算的順序胎兒值。
Q=(2+2b+h)是排除母親的,被測(cè)單倍體染色體的有效數(shù)目。有關(guān)所有檢測(cè)數(shù)據(jù)的雙親的來(lái)源的任何假設(shè)(不包括雙親自己)需要表明Q交換圖。χ∈{1,2}n×Q表示交換圖矩陣,表示假設(shè)了所有檢測(cè)數(shù)據(jù)的雙親來(lái)源,不包括雙親。值得注意,這有2nQ種不同的交換矩陣。是局限于i-th行的矩陣。注意i-th行可能有2Q種源于χ∈{1,2}Q數(shù)據(jù)組的向量值。
F(x;y,z)是(x,y,z)的函數(shù),僅x為變量的函數(shù)。分號(hào)后面的值在文中是是常數(shù),在文中這些函數(shù)將被求值。
PS方程式因數(shù)分解





不同交換矩陣χ的數(shù)目為2nQ。因此,上面第一行的強(qiáng)力應(yīng)用是O(n2nQ)。通過(guò)因數(shù)分解P(χ)和P(zi,D|χ)來(lái)探求結(jié)構(gòu),和調(diào)用以前的結(jié)果,最后行的表述可以通過(guò)O(n22Q)計(jì)算。
C非整倍體的定量檢測(cè) 在本發(fā)明的一種具體實(shí)施方案中,可以使用在本專(zhuān)利中討論的源于PS方法的定量數(shù)據(jù)輸出,檢測(cè)非整倍體。本發(fā)明揭示了利用相同概念的多種方法;這些方法學(xué)術(shù)上叫作為拷貝數(shù)分型(CNC)。解決的問(wèn)題是要確定在單一細(xì)胞中23個(gè)染色體的每個(gè)的拷貝數(shù)。使用MDA方法進(jìn)行全基因組擴(kuò)增的技術(shù),首先對(duì)細(xì)胞進(jìn)行預(yù)擴(kuò)增。然后,對(duì)擴(kuò)增的遺傳物質(zhì)采用如PCR技術(shù)進(jìn)行選擇性擴(kuò)增,PCR應(yīng)用于選自SNP的n組中的每個(gè)m=23的染色體型。
這將產(chǎn)生規(guī)則化的ct數(shù)據(jù)集{tij},i=1...n,j=1...m(ct,或CT,是指熒光信號(hào)達(dá)到設(shè)定的域值時(shí)所經(jīng)歷的循環(huán)數(shù)),這些表示在SNP i,染色體j上的值。規(guī)則化的ct值,表示在給定(i,j),由FAM和VIC(根據(jù)不同的染料,這些通道名稱(chēng)是任意的)通道得到的那些基因座的原ct值被組合生成能準(zhǔn)確反映擴(kuò)增純合子基因座的ct值。因此,不是每個(gè)基因座有兩個(gè)ct值,而是每個(gè)基因座有唯一的規(guī)則化的ct值。
目標(biāo)是確定每條染色體上拷貝數(shù)的集合{nj}。如果細(xì)胞為整倍體,對(duì)所有的j nj=2;一種例外是男性X染色體。如果對(duì)于至少一種j,nj≠2,則細(xì)胞為非整倍體;除了男性X染色體以外。
生化反應(yīng)數(shù)學(xué)模型 Ct值和染色體拷貝數(shù)之間的關(guān)系表示如下在這種表達(dá)中,nj是染色體j的拷貝數(shù)。Q是理論量,代表預(yù)擴(kuò)增遺傳物質(zhì)的起始量,其中,在SNP i,染色體j的預(yù)擴(kuò)增遺傳物質(zhì)的實(shí)際量可以通過(guò)αijnjQ計(jì)算。aij是較優(yōu)選的擴(kuò)增參數(shù),它表明通過(guò)MDA在SNP i,染色體i預(yù)擴(kuò)增的比在SNP 1,染色體1上預(yù)擴(kuò)增的量多多少。通過(guò)定義,這些優(yōu)選的擴(kuò)增參數(shù)有關(guān) βij是對(duì)于SNPI染色體j在PCR中的加倍速率。Tij是ct值。QT是ct值確定的遺傳物質(zhì)的量。T是一個(gè)符號(hào),不是指標(biāo),僅代表一種閾值。
注意到aij,βij和QT是常數(shù),而不隨不同的實(shí)驗(yàn)發(fā)生變化,是重要的。相對(duì)來(lái)說(shuō),nj和Q是變量,隨不同的實(shí)驗(yàn)變化。如果染色體1是單染色體的,Q是在染色體1的SNP1的原料量。
上面的原始方程不含有干擾項(xiàng)。通過(guò)如下改寫(xiě),它表示為 上面的方程表明ct值由于加入高斯干擾項(xiàng)Zij而被抵消。這個(gè)干擾項(xiàng)變?yōu)棣襥j2。
拷貝數(shù)的最大可能估算 在本方法的一種具體實(shí)施方案中,有關(guān)上述模型,使用最大可能性估算確定nj。參數(shù)Q使這種估算困難,除非加入其他的限制 這表明平均拷貝數(shù)是2,或,相當(dāng)?shù)模骄截悢?shù)的log值為1.通過(guò)這種附加的限制,可以解決下面的ML問(wèn)題 上面最后一行是變量lognj和logQ的線(xiàn)性關(guān)系,是具有等式限制的簡(jiǎn)單加權(quán)最小二乘問(wèn)題。該解決方案可在封閉的形式形成了拉格朗日和偏導(dǎo)數(shù)。
當(dāng)噪音方差為常數(shù)時(shí)的解決方案 為了避免不必要地復(fù)雜化說(shuō)明,設(shè)置除非另作明確說(shuō)明,否則這種假設(shè)依然存在。(通常的情況,每個(gè)σij2都是不同的,解決的方案將是加權(quán)平均值取代簡(jiǎn)單的平均數(shù),或加權(quán)最小二乘取代簡(jiǎn)單最小二乘的方法)在那些情況下,上述的線(xiàn)性系統(tǒng)可以解決為 第一個(gè)等式解釋為染色體j數(shù)量的log估算。第二個(gè)等式解釋為Qj的平均是二倍體數(shù)量的平均值,減去一個(gè)它的log值,生成的所需單倍體的數(shù)量。第三個(gè)等式可以解釋為拷貝數(shù)只是Qj/Q的比值。注意nj是‘雙差分’,因?yàn)樗荙值的差分,每個(gè)都是自身的差分值。
簡(jiǎn)單的解決方案 上述等式也揭示在較簡(jiǎn)單的建模假設(shè)的條件下問(wèn)題的解決方案例如,當(dāng)假設(shè)對(duì)于所有i和j的aij=1或假設(shè)對(duì)于所有i和j,βij=β。在最簡(jiǎn)單的情況下,當(dāng)aij=1和βij=β時(shí),解決方案簡(jiǎn)單化為 雙差分方法 在本發(fā)明的一種具體實(shí)施方案中,使用雙差分方法,可能檢測(cè)到單體性染色體。熟悉此領(lǐng)域的人能顯而易見(jiàn)的知道如何改進(jìn)此方法而檢測(cè)其他非整倍體的狀態(tài)。通過(guò)MDA預(yù)擴(kuò)增,接著進(jìn)行基因樣本的PCR,而使{tij}成為規(guī)則化的ct值。一如往常,tij是在j-th染色體的i-th SNP上的ct值。通過(guò)tj表明,其中,tj為與j-th染色體相關(guān)的ct值的向量。定義如下 如果和僅僅如果

高于某一特定閾值,其中f為代表單體性染色體的向量時(shí),標(biāo)明染色體j為單染色體的。F是匹配過(guò)濾值,它的解釋在下面做描述。
匹配過(guò)濾值f為從兩個(gè)對(duì)照試驗(yàn)得來(lái)的雙差分值。以已知的整倍體的男性基因數(shù)據(jù)和整倍體的女性遺傳物質(zhì)為開(kāi)始。假設(shè)這些原料大量存在,預(yù)擴(kuò)增可以省去。對(duì)男性和女性的遺傳物質(zhì),使用PCR擴(kuò)增在X染色體(染色體23)和染色體7上的n SNP。用{tijX},i=1...n,j∈{7,23}表示在女性上的測(cè)定,和同樣的用{tijY}表示在男性上的測(cè)定。鑒于這樣,可以通過(guò)如下結(jié)果,構(gòu)建匹配過(guò)濾值 上面等式中的t7X和t7Y是標(biāo)量,而ΔX和ΔY是向量。注意,上標(biāo)X和Y僅是符號(hào)標(biāo)記,不是指數(shù),分別代表女性和男性。不要將上標(biāo)X混淆為在X染色體上的測(cè)定。X染色體的測(cè)定是有標(biāo)23號(hào)染色體的。
下一步就要將噪音考慮進(jìn)去,了解在構(gòu)建匹配過(guò)濾值f以及構(gòu)建

中,存在哪些噪音的殘余。在這節(jié)中,考慮最簡(jiǎn)單的模型假設(shè)對(duì)所有的i和j,βij=β,和對(duì)于所有的i和j,aij=1。在這些假設(shè)的條件下,從上面的(*)中 βtij=logQT-lognj-logQ+Zij 這個(gè)等式也可以寫(xiě)成 在這樣的情況下,匹配過(guò)濾值f的i-th成分可以寫(xiě)成 值得注意的,上面的等式建立在拷貝數(shù)的變量都是已知的條件下,和 假如所有的噪音平均為0,理想的匹配過(guò)濾值為

此外,因?yàn)榭s放過(guò)濾向量不會(huì)真正的改變情況,向量1可作為匹配過(guò)濾。這等于簡(jiǎn)單利用

的成分。換句話(huà)說(shuō),如果根本的生物化學(xué)遵循簡(jiǎn)單的模型,則匹配過(guò)濾示范是不必要的。此外,可以刪除上述的噪音條件,這將只是降低本方法的準(zhǔn)確度。因此,這可以寫(xiě)成 在上面的等式中,假設(shè)即,平均拷貝數(shù)是2. 每個(gè)向量的要素都是log拷貝數(shù)的獨(dú)立測(cè)量(標(biāo)為1/β),它們由于加入噪音而被改變。噪音Zij不可避免在測(cè)量中,它是固定的。第二個(gè)噪音也不可避免,因?yàn)闇p去t是除去不便參數(shù)

所必須的。
此外,注意,如果

的每個(gè)元素是

的獨(dú)立測(cè)量,

的UMVU(一致最小方差無(wú)偏的)估算只是

元素的平均。(這種情況下,每個(gè)σij2是不同的,它將是加權(quán)平均)因此,運(yùn)用一點(diǎn)代數(shù)學(xué),對(duì)lognj的UMVU估算,可表示為 復(fù)雜模型的分析 現(xiàn)在重復(fù)前述的有關(guān)生化模型的分析,其中,βij和αij是不同的。此外,考慮到噪音,了解存在于匹配過(guò)濾f的構(gòu)建以及

的構(gòu)建中的噪音的殘余。在復(fù)雜模型下,上面的(*) 這一等式可寫(xiě)成 匹配過(guò)濾f的i-th元素表示為 在復(fù)雜模型中,等式表示為 規(guī)則化CT值的可替代的方法 在本方法的另一種具體實(shí)施方案中,可以平均CT值,而不是轉(zhuǎn)變?yōu)橹笖?shù)衡量,然后取logs,這樣將歪曲噪音,以致噪音平均不為0。首先,以已知的Q開(kāi)始,解答β。接著用已知的n_j做多重實(shí)驗(yàn),解答α。因?yàn)榉钦扼w是假定的整體集合,所以它能簡(jiǎn)單的用ML來(lái)確定最可能的n_j和Q值,然后,以此為基礎(chǔ)計(jì)算最可能的非整倍體的情況,例如,采用最偏離1的n_j值,最后推進(jìn)到它最鄰近的非整倍體鄰居。
在胚胎測(cè)量中誤差率的估算 在本發(fā)明的一種具體實(shí)施方案中,給出在胚胎DNA中的明確的潛在的真實(shí)狀態(tài),確定精確胚胎測(cè)定是可能的。在處上下文中,給出的數(shù)據(jù)包括(i)有關(guān)雙親的經(jīng)過(guò)高準(zhǔn)確度測(cè)定的SNP狀態(tài)數(shù)據(jù),和(ii)在特定分裂球中,檢測(cè)所有的SNPs,測(cè)量欠佳。
使用下列符號(hào)U-是任何特定的純合體,U是那些SNP的其他純合體,H是異質(zhì)接合體。目標(biāo)是確定在表2中的概率(pij)。例如,p11是胚胎DNA為U以及讀出為U的概率。這些概率需滿(mǎn)足下面的三種條件 p11+p12+p13+p14=1(1) p21+p22+p23+p24=1(2) p21=p23 (3) 前兩個(gè)等式很容易理解,第三個(gè)等式是說(shuō)明異質(zhì)接合體脫扣的對(duì)稱(chēng)(H應(yīng)該給出U或U的相同的平均脫扣率)。
有四種組合狀態(tài)UxU,UxU,UxH,HxH.根據(jù)特定的組合類(lèi)型,將SNPs分為上述的四類(lèi)。表3標(biāo)明這些組合,預(yù)期的胚胎狀態(tài),和特定讀數(shù)的概率(pij)。注意,表3前兩行跟表2的前兩行是一樣的,符號(hào)(pij)也和表2相同。
概率p3i和p4i可根據(jù)p1i和p2寫(xiě)出。
p31=1/2[p11+p21](4) p32=1/2[p12+p22](5) p33=1/2[p13+p23](6) p34=1/2[p14+p24](7) p41=1/4[p11+2p21+p13] (8) p42=1/2[p12+p22](9) p43=1/4[p11+2p23+p13] (10) p44=1/2[p14+p24](11) 這些可以認(rèn)為是上述(1),(2),和(3)的8組線(xiàn)性限制。如果一種向量P=[p11,p12,p13,p14,p21,....,P44]T(16×1維)被定義,那么矩陣(11×16)和向量C也可能被定義,限制項(xiàng)表示為 AP=C(12) C=[1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0]T. 特定的,A在表4中列出,其中空白格,代表值為0. 現(xiàn)在問(wèn)題可概括為需找能最大化觀測(cè)可能性的P,并有一組線(xiàn)性約束條件(AP=C)。檢測(cè)來(lái)于16種相同的類(lèi)型,如pij。這些列于表5中。產(chǎn)生一組這些16nij觀測(cè)值數(shù)據(jù)的可能性通過(guò)具有概率pij的多項(xiàng)式分布定義,跟下式成比例 注意,全函數(shù)的可能性包含多項(xiàng)系數(shù),這些多項(xiàng)系數(shù)沒(méi)被列出,假設(shè)這些系數(shù)不依賴(lài)于P,因此它們?cè)赑內(nèi),值不發(fā)生變化,其中,L為最大。接著問(wèn)題就變?yōu)檎业? 約束條件為AP=C。
注意,在(14)式中,L的ln使問(wèn)題變得更易處理(計(jì)算總數(shù)取代計(jì)算乘積)。這是個(gè)標(biāo)準(zhǔn)式,假設(shè)x值,如f(x)最大化,相同,其中l(wèi)n(f(x))是最大化。p(nj,Q,D)=P(nj)P(Q)P(Dj|Q,nj)P(Dk≠j|Q) D沒(méi)有親本信息,非整倍體的MAP檢測(cè) 在本發(fā)明的一種具體實(shí)施方案中,可以使用PS方法在不利用親本基因信息的條件下,確定給定個(gè)體的染色體片段的拷貝數(shù)。在這節(jié)中,最大后驗(yàn)估計(jì)(MAP)方法描述了,能夠?qū)⒌任换蛐畔⒎诸?lèi)為非整倍體和整倍體。這種方法不需要親本數(shù)據(jù)信息,雖然當(dāng)有親本數(shù)據(jù)信息時(shí),這種分類(lèi)能力會(huì)被提高。這種方法不需要規(guī)則化通道值。一種確定目標(biāo)個(gè)體基因組中的染色體片段的拷貝數(shù)是通過(guò)整合目標(biāo)個(gè)體的基因數(shù)據(jù)和相關(guān)個(gè)體的數(shù)據(jù)形成一種假設(shè),計(jì)算最可能假設(shè)在這里將被描述。在這描述中,這種方法將被應(yīng)用于從TaqMan定量的ct值;熟悉此領(lǐng)域的人,能夠明白如何應(yīng)用這種方法到任何平臺(tái)的任何中檢測(cè)中。這種方法將集中介紹僅在染色體X和7上的檢測(cè);同樣,熟悉此領(lǐng)域的人將明白如何應(yīng)用該方法到任何染色體數(shù)目和染色體片段的檢測(cè)。
問(wèn)題的設(shè)置 給的檢測(cè)是源于在染色體X和7上的三倍體的分裂球,目標(biāo)是成功做出這些基因的非整倍體分型。關(guān)于這些分裂球的唯一真正知道的是染色體7必須有三個(gè)拷貝。染色體X的拷貝數(shù)是未知的。
這里的策略是使用MAP估計(jì)從給定D測(cè)定的{1,2,3}選擇中,分類(lèi)染色體7的拷貝數(shù)N7.形式上如下式 不幸的是不可能計(jì)算這一概率,因?yàn)楦怕室蕾?lài)于未知的Q值。如果f和Q已知,那么將有可能解決下面問(wèn)題 實(shí)際上,Q的連續(xù)分布是未知的。然而,確定Q在二次方的范疇就足夠了,實(shí)際上,Q上的概率質(zhì)量函數(shù)(pmf)是一致的,譬如可以使用{21,22…,240}。在接下來(lái)的發(fā)展中,積分符號(hào)將被使用,如Q上的概率分布函數(shù)(pdf)是已知的,盡管,在少數(shù)Q指數(shù)值的一致的pmf將被取代。
這個(gè)討論將使用下列的符號(hào)和定義 ●N7是染色體7的拷貝數(shù)。它是極少變化的。n7表示N7的可能值。
●NX是染色體X的拷貝數(shù),nx表示Nx的可能值。
●Nj是染色體j的拷貝數(shù),其中j∈{7,X},nj代表Nj的可能值。
●D是所有測(cè)量的集合。其中一例,這一集合為在染色體X和7上的TaqMan檢測(cè),所以D={D7,DX},其中,是這個(gè)染色體上的TaqMan檢測(cè)的集合。
●tijA是染色體j的i位點(diǎn)的通道A上的ct值。同樣地,Similarly,tijC是染色體j的i位點(diǎn)的通道C上的ct值。(A只是個(gè)邏輯名稱(chēng),指在位點(diǎn)上的主要的等位基因值,C代表在位點(diǎn)上的較次要的等位基因值) ●Q表示遺傳物質(zhì)的單位量,例如,如果染色體j的拷貝數(shù)是nj,那么在染色體j的任何位點(diǎn)上的遺傳物質(zhì)的總量是njQ.。例如,三倍體,如果位點(diǎn)為AAC,那么在這個(gè)位點(diǎn)上的A-原料的量為2Q,在這個(gè)位點(diǎn)上,c-原料的量為Q,那么在該位點(diǎn)上所有組合的原料量為3Q。
●當(dāng)相關(guān)染色體的拷貝數(shù)為n時(shí),(nA,nC)表示位點(diǎn)上的無(wú)序的等位基因模式。nA是等位基因A出現(xiàn)在位點(diǎn)上的次數(shù),nC表示等位基因C出現(xiàn)在位點(diǎn)上的次數(shù)。每個(gè)的值可能是0,...,n,必須滿(mǎn)足nA+nC=n。例如,在三染色體細(xì)胞中,等位基因的集合表示為{(0,3),(1,2),(2,1),(3,0)}.等位基因模式(2,1)例如,對(duì)應(yīng)位點(diǎn)值為A2C,即,兩個(gè)染色體等位基因值為A和第三個(gè)染色體位點(diǎn)上的等位基因值為C。在二體性染色體細(xì)胞中,等位基因模式的集合為{(0,2),(1,1),(2,0)}。在單體性染色體細(xì)胞中,等位基因模式為{(0,1),(1,0)}. ●QT是從基礎(chǔ)TaqMan等式Q02βt=QT得來(lái)的(已知的)閾值。
●β是從基礎(chǔ)TaqMan等式Q02βt=QT得來(lái)的(已知的)加倍速率。
●⊥(又叫“底部”)是ct值,它解釋為“無(wú)信號(hào)” ●fZ(x)是在x的標(biāo)準(zhǔn)正態(tài)高斯pdf值。
●σ是在TaqMan ct值上的(已知的)噪音標(biāo)準(zhǔn)差。
MAP解決方案 在下面的解決方案中,做下列假設(shè) N7和Nx是獨(dú)立的。
在相鄰位點(diǎn)的等位基因值是獨(dú)立的。
目標(biāo)是闡明指定染色體的拷貝數(shù)。在這里,具體描述集中在染色體7。MAP解決方案表示為 等位基因分類(lèi)模型 方程式(*)依賴(lài)于能夠計(jì)算P(nA,nC|n7,i)和P(nA,nC|nX,i)的值。
這些值的計(jì)算是通過(guò)假定等位基因模式(nA,nC)為i.i.d(獨(dú)立的和相等地分布),其中,根據(jù)它的字母在位點(diǎn)i上出現(xiàn)的等位基因頻率。一個(gè)實(shí)例應(yīng)該充分描述這種情況。在假設(shè)A的等位基因頻率是60%,和C的等位基因頻率為40%的條件下,計(jì)算P((2,1)|n7=3)。(此外,注意P((2,1)|n7=2)=0,因此在這種情況下,配對(duì)和必須為2.)這個(gè)概率表示為 總和的方程式為 其中,pij是染色體j的在位點(diǎn)i的最小等位基因頻率。
誤差模型 方程式(*)依賴(lài)于能夠計(jì)算P(tA|Q,nA)和P(tC|Q,nC)的值。對(duì)于這個(gè),需要一種誤差模式??梢允褂孟旅娴恼`差模型
上面提到的四種情況中的每種都在此描述。在第一種情況下,沒(méi)有信號(hào)接收,雖然在位點(diǎn)上有A-遺傳物質(zhì)。那是基因脫扣的情況,它的概率為pd。在第二種情況下,信號(hào)被接受,如期望的因?yàn)橛蠥-遺傳物質(zhì)在位點(diǎn)上。這種情況的概率為沒(méi)有基因脫扣的概率乘以pdf,其為沒(méi)有基因脫扣發(fā)生的,在ct值上的分布。
(注意,嚴(yán)格的說(shuō),應(yīng)該除以存在于⊥下的,在高斯曲線(xiàn)上的概率值部分,但是這是個(gè)實(shí)踐例,可以忽略)。第三種情況,沒(méi)有信號(hào)被接受和沒(méi)有信號(hào)接受。這是指沒(méi)有發(fā)生插入的概率,1-pa。最后一種情況,即使在位點(diǎn)上沒(méi)有A-遺傳物質(zhì),信號(hào)也被接收。這是插入概率乘以當(dāng)存在插入時(shí),在ct值上的分布的pdf值。
注意在方程式的開(kāi)頭的‘2’的出現(xiàn)是因?yàn)楦咚狗植?,該分布是在脫入以⊥為中心的建模情況下產(chǎn)生的。因此,在遇到脫入,和當(dāng)方程式通過(guò)除以二分之一,即乘以2,進(jìn)行規(guī)格化時(shí),只有二分之一概率存在⊥之下。由對(duì)稱(chēng)性,P(tC|Q,nC)的誤差模型與上面的P(tA|Q,nA)誤差模型相同。熟悉此領(lǐng)域的人,能夠清楚的知道對(duì)于多種不同的基因分型平臺(tái),使用不同的誤差模型,例如,Illumina Infinium基因分型平臺(tái)。
計(jì)算考慮 在本發(fā)明的一種具體實(shí)施方案中,數(shù)學(xué)的MAP估計(jì)可以通過(guò)強(qiáng)行式實(shí)現(xiàn),如在除了Q積分的最后的MAP方程式中指定的。因?yàn)榧颖禥只會(huì)導(dǎo)致1/β的ct值的不同,方程式只在取log值時(shí),才對(duì)Q敏感。因此,為了做積分,應(yīng)該充分地在不同2次冪下,嘗試幾個(gè)Q值,并假設(shè)這些值為均一分布。例如,可以以Q=QT2-20β開(kāi)始,其中,原料量將導(dǎo)致ct值為20,接著連續(xù)二等分20次,將產(chǎn)生Q的最終值,將導(dǎo)致ct值為40。
下面介紹了在本發(fā)明其他地方描述的推導(dǎo)的重推導(dǎo),重推導(dǎo)為了說(shuō)明數(shù)學(xué)編程,重點(diǎn)略有差別。注意,下面的變量D不是真正的變量。它總是為常數(shù),設(shè)置為存在于實(shí)際問(wèn)題中的數(shù)據(jù)集的值,所以當(dāng)存在于Matlab中,它不表示引入了另一個(gè)數(shù)組維數(shù)。然而,Dj因?yàn)橹笖?shù)j的存在,它代表一種數(shù)組維數(shù)。
P(n7,Q,D)=P(n7)P(Q)P(D7|Q,n7)P(DX|Q) P(Dj,nj|Q)=P(nj)P(Dj|Q,nj)
E在具有親本信息的條件下,非整倍體的MAP檢測(cè) 在本發(fā)明的一種具體實(shí)施方案中,在給定所有染色體上在某些位點(diǎn)的多倍分裂球測(cè)定的條件下,這種公開(kāi)的方法能夠?qū)γ總€(gè)分裂球的每個(gè)染色體上的非整倍體進(jìn)行分型,其中不知道每種染色體有多少拷貝數(shù)。在這個(gè)具體實(shí)施方案中,MAP估算被應(yīng)用于闡明染色體煩擾拷貝數(shù)Nj,其中,j∈{1,2...22,X,Y},從{0,1,2,3}選擇中,給出測(cè)量值D,它包含分裂球以及親本的基因分型信息??傮w來(lái)說(shuō),讓j∈{1,2...m}where,其中m為感興趣的染色體數(shù);m=24表示所有染色體都為感興趣的。形式上,這個(gè)表示為 不幸的,這個(gè)概率將不能被計(jì)算,因?yàn)榇烁怕室蕾?lài)于未知的隨機(jī)變量Q,其中,Q表示MDA的擴(kuò)增因子。如果在Q上的分布f是已知,那么這個(gè)問(wèn)題將能由下式解決 實(shí)際上,在Q上的連續(xù)分布是未知的。然而,通過(guò)二次冪確定Q值已經(jīng)足夠,實(shí)際上在Q上的概率質(zhì)量函數(shù)是一致的,即{21,22…,240}能被使用。在接下來(lái)的發(fā)展中,將使用積分符號(hào),就像在Q上的概率質(zhì)量函數(shù)為已知,即使在實(shí)際中,在少數(shù)Q實(shí)驗(yàn)值上的一致的pmf將被代替。
這個(gè)討論將使用下面的符號(hào)和定義 ●Nα是常染色體α的拷貝數(shù),其中α{1,2,...22}。它是隨機(jī)變量。nα表示Na的可能值。
●NX是染色體X的拷貝數(shù),nX表示Nx的可能值。
●Nj是染色體j的拷貝數(shù),其中j∈{1,2...m},nj表示Nj的可能值。
●m是感興趣的染色體的拷貝數(shù),m=24時(shí),表示所有的染色體都為感興趣的染色體。
●H是非整倍體狀態(tài)的集合。h ∈H。為了這個(gè)推導(dǎo)的目的,H={父系單體性染色體,母系單體性染色體,二染色體性,t1父系三染色體性,t2父系三染色體性,t1母系三染色體性,t2母系三染色體性}。父系單體性染色體是指僅存的染色體來(lái)源于父親;父系三染色體性是指有一個(gè)附加染色體源于父親。類(lèi)型1(t1)父系三染色體性是指兩個(gè)父系染色體為姐妹染色體(每種的精確拷貝),除了發(fā)生交換,當(dāng)兩個(gè)染色體的片段都是精確拷貝時(shí)。類(lèi)型2(t2)父系三染色體性是指兩個(gè)父系染色體為互補(bǔ)染色體(來(lái)源已兩個(gè)祖父母的的獨(dú)立的染色體)。同樣的解釋可應(yīng)用于母系單體性染色體和母系三染色體性。
●D是包括在胚胎DE和在親本DF,DM上的所有檢測(cè)集合。當(dāng)在所有染色體上進(jìn)行TaqMan檢測(cè)時(shí),我們可以認(rèn)為D={D1,D2...Dm},DE={DE,1,DE,2...DE,m},其中,是在染色體j上的TaqMan測(cè)定集合。
●tE,ijA是指在染色體j的位點(diǎn)i的通道A上的ct值。同樣,tE,ijC是指在染色體j的位點(diǎn)i通道C上的ct值。(A只是邏輯名稱(chēng),代表在位點(diǎn)上的主要的等位基因值,C表示在位點(diǎn)上的最小等位基因值) ●Q代表在對(duì)單細(xì)胞基因組DNA進(jìn)行MDA后,遺傳物質(zhì)的單位量,即,如果染色j的拷貝數(shù)為nj,那么在染色體j的任何位點(diǎn)上的遺傳物質(zhì)的總量可以表示為njQ。例如,在三染色體性下,如果位點(diǎn)為AAC,那么A-原料在位點(diǎn)上的量為2Q,位點(diǎn)上C-原料的量為Q,位點(diǎn)上遺傳物質(zhì)的總和量表示為3Q。
●q是為Q值考慮的,計(jì)算步驟的數(shù)。
●N是測(cè)定的每個(gè)染色體的SNPs的數(shù)量。
●(nA,nC)表示當(dāng)當(dāng)相關(guān)基因拷貝數(shù)為n時(shí),位點(diǎn)上的無(wú)序等位基因模式。nA表示等位基因A在位點(diǎn)上的出現(xiàn)次數(shù),nC表示等位基因C在位點(diǎn)上出現(xiàn)的次數(shù)。nA和nC的值可為0,...,n,同時(shí)必須滿(mǎn)足nA+nC=n。例如,在三染色體性下,等位基因模式的集合可以為{(0,3),(1,2),(2,1),(3,0)}。等位基因模式(2,1)對(duì)應(yīng)A2C的位點(diǎn)值,即,兩個(gè)染色體具有等位基因值A(chǔ),和第三個(gè)染色體在位點(diǎn)上具有等位基因值C。在二體性下,等位基因模式集合為{(0,2),(1,1),(2,0)}。在單體性染色體下,等位基因模式集合為{(0,1),(1,0)}。
●QT是從基礎(chǔ)性TaqMan方程式Q02βt=QT得來(lái)的(已知的)閾值。I ●β是從基礎(chǔ)性TaqMan方程式Q02βt=QT得來(lái)的(已知的)加倍速率。
●⊥(又叫“底部”)是ct值,它解釋為“無(wú)信號(hào)” ●fZ(x)是在x估算的標(biāo)準(zhǔn)正態(tài)高斯pdf值。
●σ是在TaqMan ct值上的(已知的)噪音標(biāo)準(zhǔn)差。
MAP解決方法 在下面的解決方法中,將做下列假設(shè) ●Njs是相互獨(dú)立的 ●等位基因值在相鄰位點(diǎn)上是獨(dú)立的。
目標(biāo)是表明制定染色體的拷貝數(shù)。例如,染色體的MAP解決方法可表示為 這里假設(shè)Q’,Q為對(duì)親本數(shù)據(jù)是已知。
拷貝數(shù)先驗(yàn)概率 方程式(*)依賴(lài)于能夠計(jì)算P(na)和P(nx)的值,染色體拷貝數(shù)的先驗(yàn)概率的分布是不同的,這個(gè)依賴(lài)于它是常染色體還是X染色體。如果這些數(shù)據(jù)對(duì)每個(gè)染色體都可以使用,那么他們就可以被使用。如果他們不是對(duì)所有染色體都適用,或者不可靠,那么一些分布可以假設(shè)。對(duì)常染色體,先驗(yàn)概率為對(duì)于性染色體XY或XX,概率為1/2。其中,3/4是為單染色體X(相反的為Y)的概率,1/2是為對(duì)兩個(gè)染色體來(lái)說(shuō)為XX的概率,1/4是第三個(gè)染色體為Y的概率。其中,1/2是為對(duì)兩個(gè)染色體來(lái)說(shuō)為XX的概率,1/4是第三個(gè)染色體為X的概率。
非整倍體狀態(tài)的先驗(yàn)概率 等式(*)依賴(lài)于能夠計(jì)算P(h|nj)的值,這些列于表6中。在表6中使用的符號(hào)在下面作解釋
注意,熟悉此領(lǐng)域的人,在閱讀完此說(shuō)明書(shū)后,能夠知道有許多其他的方法賦值或估算先驗(yàn)概率,并不改變本專(zhuān)利的本質(zhì)概念。
沒(méi)有親本信息的等位基因分布模型 方程式(*)依賴(lài)于能夠計(jì)算P(nA,nC|nα,i)和P(nA,nC|nX,i)值。這些值可以通過(guò)假設(shè)等位基因模式(nA,nC)為獨(dú)立同分布(i.i.d)而被計(jì)算得出,其中,獨(dú)立同分布是根據(jù)在位點(diǎn)i上的它的字母(A或C)的等位基因頻率。在此舉出一個(gè)說(shuō)明性的例子。在假設(shè)A的等位基因頻率為60%,和C的最小等位基因頻率為40%的條件下,計(jì)算P((2,1)|n7=3)。(此外,注意P((2,1)|n7=2)=0,因?yàn)樵谶@種情況下,配對(duì)和必須為2)這個(gè)概率表示為 更普遍適用的方程為 其中,pij為染色體j的位點(diǎn)i上的最小等位基因頻率。
合并親本基因型的等位基因分布模型 方程式(*)依賴(lài)于能夠計(jì)算P(nA,nC|nj,h,TF,ijTM,ij)的值,這些值列于表7中。在實(shí)際的情況下,將知道雙親中,其中之一的LDO,表格內(nèi)容將需要擴(kuò)增。如果知道雙親兩者的LDO,可以使用在不知道雙親信息的等位基因分布模型章節(jié)中討論的模型。
親本真實(shí)的人口頻率 方程式(*)依賴(lài)于能夠計(jì)算P(TF,ijTM,ij)。雙親基因型的組合概率可以根據(jù)人口頻率計(jì)算。例如,P(AA,AA)=P(A)4和,和P(AC,AC)=Pheteroz2,其中Pheteroz=2P(A)P(C)是在位點(diǎn)i上,倍數(shù)染色體樣本為雜合子的概率。
誤差模型 方程式(*)依賴(lài)于能夠計(jì)算P(tA|Q,nA)和P(tC|Q,nC)值。為此,一種誤差模型是需要的??梢允褂孟铝械恼`差模型
這個(gè)誤差模型在本說(shuō)明書(shū)的其他地方也被使用,上述的四種情況在那里也做了描述。通過(guò)樸素模式匹配算法(brute-force)的MAP數(shù)學(xué)估算實(shí)施的計(jì)算因素,也在同樣的章節(jié)中描述。
計(jì)算復(fù)雜性估計(jì) 如下,重寫(xiě)方程式(*), P(nA,nC|nj,i)計(jì)算時(shí)間表示為tx,P(ti,jA|Q,nA)或P(ti,jC|Q,nC)為ty。注意,P(nA,nC|nj,i)可以預(yù)先計(jì)算,因?yàn)樗鼈兊闹挡浑S實(shí)驗(yàn)的不同而變化。
對(duì)于這里的討論,命名完整23-染色體的非整倍體篩選為一個(gè)“實(shí)驗(yàn)”。23染色體的計(jì)算表示,其中,如果nj=1,(2+tx+2*ty)*2N*m;如果nj=2,(2+tx+2*ty)*3N*m;如果nj=3,(2+tx+2*ty)*4N*m 在此的時(shí)間單位是乘或加的時(shí)間 總計(jì),表示為(2+tx+2*ty)*9N*m 一旦這些構(gòu)件被計(jì)算,總積分也可以計(jì)算,這將花時(shí)間在(2+tx+2*ty)*9N*m*q順序上。最后,比較2*m確定對(duì)nj的最佳估計(jì)。因此,總的計(jì)算復(fù)雜性為O(N*m*q)。
下面介紹了原始推導(dǎo)的重推導(dǎo),略有差別,重點(diǎn)是為了說(shuō)明數(shù)學(xué)編程。注意,下面的變量D不是真正的變量。它總是為常數(shù),設(shè)置為存在于實(shí)際問(wèn)題中的數(shù)據(jù)集的值,所以當(dāng)存在于Matlab中,它不表示引入了另一個(gè)數(shù)組維數(shù)。然而,變量Dj因?yàn)橹笖?shù)j的存在,它代表一種數(shù)組維數(shù)。
P(nj,Q,D)=P(nj)P(Q)P(Dj|Q,nj)P(Dk=j(luò)|Q) P(Dj,nj|Q)=P(nj)P(Dj|Q,nj)
E定性染色體拷貝數(shù)分型 確定在目標(biāo)個(gè)體基因組中的染色體片段的拷貝數(shù)的方法在此描述,其中,目標(biāo)個(gè)體的基因組通過(guò)整合目標(biāo)個(gè)體的基因信息和相關(guān)個(gè)體的基因信息形成一種假設(shè),并計(jì)算最可能的假設(shè),而得來(lái)。在本發(fā)明的一種具體實(shí)施方案中,非整倍體分型的方法可改為使用純粹的定性數(shù)據(jù)。有許多方法能夠解決這個(gè)問(wèn)題,其中幾種方法在此給出。熟悉此領(lǐng)域的人,能夠很容易的知道如何使用其他的方法而達(dá)到同樣的結(jié)果,這些不會(huì)改變本發(fā)明的本質(zhì)。
定性CNC的符號(hào) 1.是染色體上的SNPs數(shù)目總和 2.n是染色體的拷貝數(shù) 3.nM是通過(guò)母親提供給胎兒的拷貝數(shù)0,1,or 2. 4.nF是通過(guò)父親提供給胎兒的拷貝數(shù)0,1,or 2. 5.pd是脫扣比率,f(pd)是比率的優(yōu)先值。
6.pa是脫入比率,f(pd)是比率的優(yōu)先值。
7.c為no-call的截止閾值。
8.D=(xk,yk)是反應(yīng)在SNP k的通道X和Y上的平臺(tái)。
9.是染色體上的基因分型的集合。注意,基因分型依賴(lài)于no-call截止閾值c。
10.

是在k-th SNP上的基因分型(相對(duì)于真值)AA,AB,BB,或NC(no-call)之一。
11.給定在SNP k的基因型分型

變量

為指示變量(1或0),表示基因型

是否暗示通道X或Y“可用”。形式上,當(dāng)

包含等位基因A時(shí),和當(dāng)包含等位基因B時(shí), 12.是母系的已知基因型分型的實(shí)際序列。gM表示在某些特定位點(diǎn)上的基因型值。
13.是父系的已知基因型分型的實(shí)際序列。gF表示在某些特定位點(diǎn)上的基因型值。
14.nA,nB表示胎兒的實(shí)際A和B的拷貝數(shù)(暗指在基因座k上)。值在{0,1,2,3,4}之內(nèi)。
15.cMA,cMB是分別由母系提供給胎兒(暗指基因座k)的等位基因A和等位基因B的數(shù)量。這個(gè)值在{0,1,2}范圍,加和為小于2.同樣的,cFA,cFB是分別由父系提供給胎兒(暗指基因座k)的等位基因A和等位基因B的數(shù)量??偠灾?,這四個(gè)值精確的確定了胎兒的實(shí)際基因型。例如,如果值為(1,0)和(1,1),那么胎兒基因型為AAB。
解決方案1等位基因脫扣率和脫入率的積分 在此描述的在本發(fā)明的具體實(shí)施方案中,解決方法僅應(yīng)用到單染色體上。實(shí)際上,所有染色體間的松散耦合有助于確定等位基因脫扣率pd,但是在此描述的數(shù)學(xué)式僅用于對(duì)單染色體。熟悉此領(lǐng)域的人應(yīng)該清楚的知道隨著不同實(shí)驗(yàn)的如何對(duì)更少的,更多的,或不同的參數(shù)積分。熟悉此領(lǐng)域的人也應(yīng)該明白如何應(yīng)用該方法在同一時(shí)間處理多種染色體,同時(shí)對(duì)ADO和ADI積分。進(jìn)一步的描述在下面的解決方案3B中給出。

其他的推導(dǎo)是相同的,除了應(yīng)用于通道Y。
其他的推導(dǎo)是相同的,除了應(yīng)用于父系。
解決方案2使用ML估算最佳截止閾值c 解決方案2,變化A 在這個(gè)具體實(shí)施方案中,首先可以根據(jù)數(shù)據(jù)使用ML估算而得到最佳的截止閾值的估計(jì),接著使用c做標(biāo)準(zhǔn)貝葉斯推理,如在解決方案1中描述的。注意,如寫(xiě)出的,

的估算也包括對(duì)所有脫扣和脫入率進(jìn)行積分。然而,眾所周知,因?yàn)椋?dāng)關(guān)系到c時(shí),脫扣和脫入?yún)?shù)將被調(diào)節(jié)到它們的最佳,那么脫扣和脫入?yún)?shù)將傾向于急劇高峰值的概率,可以通過(guò)下列描述,保存計(jì)算時(shí)間 解決方案2,變化B 在這個(gè)具體實(shí)施方案中,沒(méi)必要對(duì)脫扣和脫入?yún)?shù)做二次積分。在第一行中,方程式給了所有可能的三倍數(shù)。在第二行中,僅使用了最佳三倍數(shù)執(zhí)行推論計(jì)算。
解決方案3染色體間數(shù)據(jù)整合 給定閾值和脫扣/脫入?yún)?shù),不同染色體間的數(shù)據(jù)是條件性獨(dú)立的,所以將它們整合的一個(gè)原因是在閾值和脫扣/脫入?yún)?shù)上得到更好的解決方法,其中,假設(shè)所有染色體的閾值和脫扣/脫入?yún)?shù)為常數(shù)(有好的科學(xué)依據(jù)相信他們?yōu)榇致猿?shù))。在本發(fā)明的一種具體實(shí)施方案中,給定這些觀測(cè)推論,在上述解決方案3中,可以使用簡(jiǎn)單更正的這種方法。一旦使用所有的染色體,可以估算它們的閾值和脫扣/脫入?yún)?shù),而不是獨(dú)立的估算每個(gè)染色體的閾值和脫扣/脫入?yún)?shù)。
符號(hào) 因?yàn)樗腥旧w數(shù)據(jù)被整合,使用下標(biāo)j表示染色體j-th。例如,Dj(c)是使用c作為no-call閾值的在染色體j上的基因型數(shù)據(jù)。類(lèi)似地,Mj,F(xiàn)j表示在雙親染色體j上的基因型數(shù)據(jù)。
解決方案3,變化A使用所有的數(shù)據(jù)估算閾值,脫扣/脫入率 解決方案3,變化B 理論上,這是在染色體j上的染色體拷貝數(shù)的最佳估算。
從已知樣本估算脫扣/脫入率 為了完整起見(jiàn),在這里簡(jiǎn)要的描述了脫扣和脫入率。因?yàn)槊摽酆兔撊肼蕦?duì)運(yùn)算十分重要,它有利于根據(jù)事實(shí)模型分析數(shù)據(jù)并得出事實(shí)脫扣/脫入率。注意,不存在單獨(dú)事實(shí)脫扣率它是截止閾值的函數(shù)。即,如果存在可作為事實(shí)模型的高可信度的基因數(shù)據(jù),那么可以得出MDA實(shí)驗(yàn)的脫扣/脫入率,作為截止閾值的函數(shù)。在此使用最大可能性估算。
在上述等式中,

表示使用c作為截止閾值的染色體j的在SNP k上的基因型分型,而gjk是從基因組樣本中確定的事實(shí)基因型。上述等式回答了最可能的閾值,脫扣,和脫入的三倍數(shù)。熟悉此領(lǐng)域的人能夠明白如何在沒(méi)有親本信息的條件下,使用有關(guān)目標(biāo)細(xì)胞的每個(gè)SNPs的基因型的優(yōu)先概率而實(shí)現(xiàn)此項(xiàng)方法,這將不會(huì)破壞工作的有效性,也不會(huì)改變本發(fā)明的特性。
G貝葉斯定理加精子方法 在此描述了另外一種確定目標(biāo)個(gè)體基因組中一個(gè)染色體片段拷貝數(shù)的方法。在本發(fā)明的一種具體實(shí)施方案中,源于父系精子的基因信息和交叉圖的使用能夠增強(qiáng)在此描述的方法。在整個(gè)描述中,假設(shè)一個(gè)染色體為感興趣的染色體,所有的符號(hào)都是有關(guān)此染色體。同時(shí)假設(shè)對(duì)于基因型具有固定的截止閾值。前面注釋的有關(guān)截止閾值選擇的影響,在此應(yīng)用,但是不做詳解。為了最好的定相胚胎信息,應(yīng)該同時(shí)組合源于多倍體晶胚的所有分裂球的信息。在此,為了方便說(shuō)明,假設(shè)只有一個(gè)晶胚,沒(méi)有另外的分裂球。然而,在其他章節(jié)提到的有關(guān)使用多重分裂球做等位基因分型的技術(shù),在此可以直接使用。
符號(hào) 1.n是染色體拷貝數(shù) 2.nM是由母系提供給胎兒的拷貝數(shù)0,1,or 2. 3.nF是由父系提供給胎兒的拷貝數(shù)0,1,or 2. 4.pd是脫扣率,f(pd)是此比率的預(yù)先值。
5.pa是脫入率,f(pa)是此比率的預(yù)先值 6.是在胎兒染色體上的基因型測(cè)定集。

是在k-thSNP上的基因型分型(相對(duì)于真實(shí)值)AA,AB,BB,或NC(未分型)之一.注意,胎兒可能是非整倍體,這種情況下在SNP上的基因型可以是,例如,AAB,或更者為AAAB,但是基因型測(cè)定總是上面所列四種中的一種。(注意在本說(shuō)明中的其他地方,“B”指雜合基因座。而在此使用B,不是這個(gè)意思。在此“A”和“B”是指在給定SNP上的兩種可能的等位基因值) 7.是母系的真實(shí)已知基因型序列。gkM是在k-th SNP上的基因型值。
8.是父系的真實(shí)已知基因型序列。gkF是在k-th SNP上的基因型值。
9.是源于父系的精子上的基因型測(cè)定數(shù)集。

是在k-th SNP上的基因型分型。
10.(m1,m2)是在母系上的實(shí)際但是為未知的有序?qū)伪缎托畔ⅰ1k是在第一個(gè)單倍型序列的SNP k上的等位基因值。m2k是在第二個(gè)單倍型序列的SNP k上的等位基因值。(m1,m2)∈M用于表明定相對(duì)(m1,m2)的集合,這個(gè)跟已知的基因型M相一致。同樣的,表示定相對(duì)的集合,這跟已知的母系在SNP k的基因型一致。
11.(f1,f2)是在父系上的實(shí)際但是為未知的有序?qū)伪缎托畔?。f1k是在第一個(gè)單倍型序列的SNP k上的等位基因值。f2k是在第二個(gè)單倍型序列的SNP k上的等位基因值。(f1,f2)∈F用于表明定相對(duì)(f1,f2)的集合,這個(gè)跟已知的基因型f相一致。同樣的,表示定相對(duì)的集合,這跟已知的父系在SNP k的基因型一致。
12.s1是實(shí)際但是未知的源于父親測(cè)定精子的定相單倍型信息。s1k是此單倍體序列的在SNP k上的等位基因值。可以保證這個(gè)精子是整倍體,其中,通過(guò)檢測(cè)幾個(gè)精子并選出為整倍體的一個(gè)。
13.χM={φ1,…,φnM}是交叉圖的多重集,導(dǎo)致在這個(gè)染色體上母系對(duì)胎兒的貢獻(xiàn)。相似的,χF={θ1,…,θnF}交叉圖的多重集,導(dǎo)致在這個(gè)染色體上父系對(duì)胎兒的貢獻(xiàn)。在此,染色體為非整倍體的概率已經(jīng)清楚的模擬。每個(gè)雙親可能對(duì)胎兒貢獻(xiàn)0,1或2個(gè)染色體拷貝。如果染色體為常染色體,那么整倍體的情況源于父系或母系提供了一種精確的拷貝,即,χM={φ1}和χF={θ1}。但是整倍體僅為3×3=9可能情況中的一種。剩下的八個(gè)都為不同種類(lèi)的非整倍體。例如,在源于一種M2拷貝誤差的母系三體性,也可能為χM={φ1,φ1}和χF={θ1}。在源于一種M1拷貝誤差的母系三體性的條件下,可能為χM={φ1,φ2}和χF={θ1}。(χM,χF)∈n用于表示子假說(shuō)對(duì)集(xM,xF),它與拷貝數(shù)n一致。χkM用于表示{φ1,k,…,φnM,k},限制于k-thSNP的多重集交叉圖值,對(duì)于χF有相似表示。χkM(m1,m2)用于表示等位基因值的多重集。記住φ1,k∈{1,2}。
14.ψ為交叉圖,導(dǎo)致源于父系的在精子上的測(cè)量。因此,s1=ψ(f1,f2)。注意,沒(méi)必要考慮交叉的多重集,因?yàn)榧僭O(shè)測(cè)量的精子為整倍體。ψk表示在k-th SNP上的交叉圖值。
15.記住前面兩個(gè)定義,{e1M,…,enMM}為實(shí)際但是未知單倍體系列的多重集,其中單倍體序列由在這個(gè)染色體上的母系提供給胎兒。明確的,其中,φ1是多重集χM中的1-th項(xiàng),和e1kM是在k-thSNP上的等位基因值。相似的,{e1F,…,enFF}為實(shí)際但是未知單倍體系列的多重集,其中單倍體序列由在這個(gè)染色體上的父系提供給胎兒。其中θ1是多重集χF的1-th項(xiàng),和f1kM是在k-th SNP上的等位基因值。同時(shí),可寫(xiě)為 16.表示在SNP k上的胎兒基因型檢測(cè)的可能性,其中,給定假設(shè)實(shí)際在胎兒中的潛在基因型和給定假設(shè)潛在的脫扣和脫入率。注意,χkM(m1,m2)和χkP(f1,f2)都為多重集,所以能夠表示非整倍的基因型。例如,和表示母系三染色體基因型AAB。
注意在這種方法中,對(duì)于母系或父系的測(cè)定被認(rèn)為為已知事實(shí),然而在本說(shuō)明書(shū)的其他地方,它們只代表一種檢測(cè)。因?yàn)橛H本的檢測(cè)是非常準(zhǔn)確的,把它們看似已知事實(shí),是把它們作為相對(duì)于事實(shí)的合理的近似值。在這里把它們當(dāng)作已知事實(shí)是為了證明假設(shè)是如何操作的,盡管熟悉此領(lǐng)域的人清楚地知道在本專(zhuān)利中其他地方使用的更精確的方法,可以同樣很好的被使用。
解決方法 如何計(jì)算在上面最后一個(gè)方程中出現(xiàn)的每個(gè)概率,在本說(shuō)明書(shū)中其他地方有描述。計(jì)算上述最后一個(gè)方程式中每個(gè)概率值的方法,在本說(shuō)明書(shū)的其他地方也被描述。盡管可以加入多重精子以便增加拷貝數(shù)分型的概率,實(shí)際上,一種精子就足夠。這個(gè)方程對(duì)于數(shù)量少的精子在計(jì)算上是容易地。
H使用極純合子簡(jiǎn)化的方法 在本發(fā)明的另一種具體實(shí)施方案中,可以實(shí)施一種相似的方法確定染色體的拷貝數(shù),其中該方法可以通過(guò)使用在一種簡(jiǎn)化的方法中的有限的SNPs子集。該方法為純粹的定性方法,使用雙親數(shù)據(jù),和專(zhuān)注于SNPs的一種子集,所謂的極純合子(下面做描述)。極純合子表示母系和父系在SNP上都是純合子,但是純合子是相反的或具有不同的等位基因值。因此,母系可能是AA,父系可能為BB,反之亦然。因?yàn)閷?shí)際的等位基因值是不重要的-僅表示它們相互間的關(guān)系,即,相反-母系的等位基因?yàn)镸M,那么父系的為FF。在這種情況下,如果胎兒是整倍體,那么它必須為在那個(gè)等位基因上的雜合子。然而,由于等位基因脫扣,在胎兒上的雜合的SNP不被叫做雜合子。事實(shí)上,給定有關(guān)單細(xì)胞擴(kuò)增的高脫扣率,在胎兒上的雜合的SNP更可能被叫做MM或FF,這兩種具有相同的概率。
.在這個(gè)方法中,僅關(guān)注為極純合子的那些特定染色體上的那些基因座,對(duì)于它們來(lái)說(shuō),胎兒因此為雜合子,但是雖然如此,它們被叫做純合子??梢越M成統(tǒng)計(jì)量|MM|/(|MM|+|FF|),其中,|MM|是在胎兒上的被叫做MM的這些SNPs的數(shù)目,|FF|是在胎兒上的被叫做FF的這些SNPs的數(shù)目。
在整倍體假設(shè)的條件下,|MM|)/(|MM|+|FF|)是高斯類(lèi)型,平均值為1/2,方差為1/4N,其中,N=(|MM|+|FF|)。因此,此統(tǒng)計(jì)值完全獨(dú)立于脫扣率,或,其他任何因素。由于結(jié)構(gòu)的對(duì)稱(chēng)性,在假設(shè)為整倍體的條件下的這個(gè)統(tǒng)計(jì)值分布是已知的。
在三倍體的假設(shè)下,統(tǒng)計(jì)值沒(méi)有1/2的平均值。如果,例如,胎兒為MMF三倍體,那么在胎兒中的純合子分型傾向于MM,而偏離FF,反之亦然。注意,因?yàn)橹挥须p親為純合子的基因座才被考慮,所以沒(méi)必要區(qū)分M1和M2的拷貝誤差。在所有的情況下,如果母系提供2個(gè)染色體而不是1個(gè),那么它們將為MM,無(wú)論其背后的原因,對(duì)于父系來(lái)說(shuō)情況類(lèi)似。三體性的情況下的精確平均將依賴(lài)于脫扣率,p,但是平均值都不可能大于1/3,當(dāng)p=1時(shí),極限值為1/3。在單體性的情況下,平均值為0,除非由于等位基因脫入引起的噪音。
在這個(gè)具體實(shí)施方案中,沒(méi)必要建立非整倍體情況的分布模型,但是僅需要拒絕整倍性的零假設(shè),其中,整倍性的分布是完全已知的。對(duì)于胚胎來(lái)說(shuō),在預(yù)定的顯著水平下,不能拒絕零假設(shè),那么胚胎被視為正常。
在本發(fā)明的另外一種具體實(shí)施方案中,純合基因位點(diǎn),不產(chǎn)生在胎兒上的no-call(NC),包含信息,和被包含在計(jì)算中,產(chǎn)生更多的被考慮的基因座。在另外一種具體實(shí)施方案中,那些位點(diǎn)不為純合基因,但是遵循AA|AB模式,也可以被包含在計(jì)算中,產(chǎn)生更多被考慮的基因座。熟悉此領(lǐng)域的人能清楚的知道如何修改此方法,以便使這些額外的基因座被包括在計(jì)算中。
I如應(yīng)用到等位基因分型的,PS方法實(shí)踐的還原 為了證明還原到PS方法的實(shí)踐,能應(yīng)用到清除目標(biāo)個(gè)體的基因數(shù)據(jù),和它相關(guān)的等位基因分型確信信息,廣泛的蒙特卡羅模擬被運(yùn)行。PS方法的確信數(shù)目與在這種模擬下產(chǎn)生的正確分型的觀測(cè)率是相匹配的。這些模擬的詳細(xì)內(nèi)容在單獨(dú)的文檔中給出,這樣有利于主張本發(fā)明的權(quán)利。此外,PS方法的這個(gè)方面已經(jīng)被簡(jiǎn)化到在真實(shí)的三個(gè)一組的數(shù)據(jù)中實(shí)踐(母親,父親和出生的孩子)。結(jié)果列于下表8中。TaqMan實(shí)驗(yàn)被用于測(cè)定單細(xì)胞基因型數(shù)據(jù),此數(shù)據(jù)包括源于父系的大量口腔樣本的倍數(shù)染色體的檢測(cè)(列p1,p2),源于母系(m1,m2)的大量口腔樣本的倍數(shù)染色體的檢測(cè),源于父系的三個(gè)單獨(dú)精子(h1,h2,h3)的單倍體檢測(cè),和來(lái)源于三組中出生孩子的大量口腔樣本的四個(gè)單細(xì)胞的倍數(shù)染色體檢測(cè)。注意,所有倍數(shù)染色體數(shù)據(jù)是無(wú)序的。所有的SNPs都來(lái)源于7號(hào)染色體,在CFTR基因的2Mb內(nèi),它的缺失將導(dǎo)致膀胱纖維癥。
目標(biāo)通過(guò)在測(cè)量數(shù)據(jù)上運(yùn)行PS,其中測(cè)量數(shù)據(jù)源于單個(gè)孩子口腔細(xì)胞(e1,e2),來(lái)是估算(在E1,E2)孩子的等位基因。該口腔細(xì)胞作為感興趣胎兒細(xì)胞的一種代表。因?yàn)闆](méi)有母系的單體型序列可以使用,源于孩子樣本的三個(gè)附加的單細(xì)胞-(b11,b12),(b21,b22),(b22,b23),以同樣的方式被使用,即,一旦父系的單體型可由精子確定,從其他胚胎中得到的附加分裂球被用于推斷母系的單體型。
這個(gè)過(guò)程將產(chǎn)生94一致的SNPs。這些根據(jù)ABI 7900讀數(shù)儀,具有有效的基因型分型,并在代表胚胎的孩子細(xì)胞上的基因座被挑選出。對(duì)于69SNPS的每個(gè),公開(kāi)的方法確定了在胚胎上(E1,E2),消除干擾的等位基因分型,以及與每個(gè)基因型分型相關(guān)的確定信息。
源于孩子細(xì)胞的在未清理的基因數(shù)據(jù)中的69原始等位基因分型中的29%是不正確的(列e1和e2,表8)。列(E1,E2)給出69原始等位基因分型的18PS正確的數(shù)據(jù)(列E1,E2,但是不在列‘conf’,表8),同時(shí),還有兩個(gè)錯(cuò)誤分型(2.9%的錯(cuò)誤率,列‘conf’,表8).注意,錯(cuò)誤分型的兩個(gè)SNPs有低的置信度53.8%和74.4%。這些低的置信度表示這些分型可能是錯(cuò)誤的,要么由于缺少數(shù)據(jù),或者由于在多重精子或‘分裂球’的不一致的檢測(cè)造成。在基因型分型上產(chǎn)生的置信度是PS報(bào)道的完整部分。注意,分型在染色體上的69SNPs的實(shí)證,比在實(shí)際中遇到的情況更加困難,因?yàn)樵趯?shí)際中建立在篩選雙親信息基礎(chǔ)上,僅有一個(gè)或兩個(gè)基因座的基因型被關(guān)注。在一些具體實(shí)施方案中,公開(kāi)的方法將得到在感興趣的基因座上的高準(zhǔn)確度的分型i)不斷測(cè)定單精子,直到在感興趣基因座上得到多重單倍體等位基因分型;ii)包括額外的分裂球測(cè)定;iii)整合排出極體的母系單倍體數(shù)據(jù),這個(gè)在今天胚胎植入前的基因診斷中,普遍使用的活組織檢查。熟悉該領(lǐng)域的人知道存在其他的改進(jìn)方法以便能夠增加檢測(cè)的準(zhǔn)確度,以及如何在不改變本發(fā)明本質(zhì)概念的基礎(chǔ)上,實(shí)施這些方法。
J應(yīng)用于非整倍體分型的,簡(jiǎn)化到PS方法的實(shí)踐 為了證明在此公開(kāi)的本發(fā)明的某些方面的實(shí)際操作的簡(jiǎn)化,該方法被用于在幾個(gè)單細(xì)胞集上的非整倍體的分型。在這種情況下,僅適用從基因分型平臺(tái)挑選出的數(shù)據(jù)源于雙親和胚胎的基因型信息。一種簡(jiǎn)單的基因分型計(jì)算,被稱(chēng)為“pie slice”,被使用,它顯示出在基因組信息上的大約99.9%的正確度。它在MDA數(shù)據(jù)中顯示較低的正確度,是由于在MDA中干擾的存在。當(dāng)在MDA中有相當(dāng)高的“脫扣”率時(shí),這種計(jì)算將更加準(zhǔn)確。它也關(guān)鍵性的依賴(lài)于能根據(jù)脫扣率和脫入率參數(shù)模擬出各種基因分型誤差的概率。
未知的染色體拷貝數(shù)需要被推斷得出,因?yàn)椴煌目截悢?shù)與不同的脫扣率,脫入率,和基因分型運(yùn)算相互影響。通過(guò)建立統(tǒng)計(jì)模型來(lái)明確脫扣率,脫入率,染色體拷貝數(shù),和基因型截止閾值的所有相互關(guān)系,那么就有可能通過(guò)使用標(biāo)準(zhǔn)統(tǒng)計(jì)推論方法得出未知的染色體拷貝數(shù)。
在此描述的非整倍體檢測(cè)的方法被叫做定性CNC或簡(jiǎn)稱(chēng)為qCNC,它引入基本的統(tǒng)計(jì)推論的方法,如最大可能性估計(jì),極大后驗(yàn)估計(jì),和貝葉斯推理。這些方法非常類(lèi)似,僅有細(xì)微差別。在此描述的方法與那些在前面描述的方法類(lèi)似,為了方便起見(jiàn),在這里被總結(jié)。
最大可能性(ML) X1,…,Xn~f(x;θ)。這里的Xi是獨(dú)立的,相同分布的隨機(jī)變量,根據(jù)屬于分布參數(shù)化向量θ家族的概率分布得來(lái)。例如,分布家族可能是所有高斯分布的家族,在這種情況下,θ=(μ,σ)可能是確定問(wèn)題中特定分布的平均或變化值。問(wèn)題如下θ是未知的,目標(biāo)是僅根據(jù)X1,…,Xn數(shù)據(jù)的觀測(cè)值,得到它的好的估算。最大可能性解決辦法表示為 極大后驗(yàn)估計(jì)(MAP) 假設(shè)先驗(yàn)概率f(θ),能確定實(shí)際觀察參數(shù)θ的先驗(yàn)概率,那么我們可以寫(xiě)作X1,…,Xn~f(x|θ)。MAP方程可以寫(xiě)為 注意,當(dāng)具有一致(可能不正確的)先驗(yàn)分布時(shí),ML方程相等于MAP方程。
貝葉斯推理 當(dāng)θ=(θ1,…,θd)為多維度時(shí),貝葉斯推論才適應(yīng),但是僅需要估算參數(shù)θj的子集(代表性的一個(gè))。在這種情況下,如果有先驗(yàn)參數(shù),那么就能積分出不感興趣的其他參數(shù)。在不損失通用性的條件下,假設(shè)θ1是估算所需的參數(shù)。那么貝葉斯推論可表示為 拷貝數(shù)分類(lèi) 任何一種或幾種上述方法的組合可以被用于確定拷貝數(shù)的計(jì)算,以及當(dāng)?shù)贸龅任换蚍中?,例如在清除胚胎基因信息上。在一種具體實(shí)施方案中,數(shù)據(jù)可能來(lái)于Infinium平臺(tái)測(cè)定{(xjk·yjk)},其中xjk是相對(duì)于染色體j的SNP k的在通道Y上的平臺(tái)。這種方法的有效性關(guān)鍵在于選擇的分布族,從中假設(shè)這些數(shù)據(jù)被得出。在一種具體實(shí)施方案中,這些分布通過(guò)許多參數(shù)而被參數(shù)化。這些參數(shù)負(fù)責(zé)描述例如探針效率,平臺(tái)干擾,MDA特性,例如,脫扣,脫入,和全部的擴(kuò)增平均數(shù),最后,基因參數(shù)親本的基因型,胚胎的真實(shí)但是未知的基因型,和感性興趣的參數(shù)由母系或父系提供給胚胎的染色體拷貝數(shù)。
在一種具體實(shí)施方案中,很多信息在數(shù)據(jù)處理前被舍棄。這種做法的優(yōu)勢(shì)是可能以更加堅(jiān)定的方式得到這些數(shù)據(jù)。不使用原始平臺(tái)數(shù)據(jù){(xjk,yjk)},可能通過(guò)運(yùn)行這些數(shù)據(jù)的基因型運(yùn)算法則而預(yù)處理這這些數(shù)據(jù)。這將得到基因型分型{gjk}的集合,其中,gjk∈{NC,AA,AB,BB}。NC表示“無(wú)分型”。將這些帶入上面的貝葉斯推論范例,得到 符號(hào)解釋

為分別由父系或母系提供給胚胎的染色體的估計(jì)數(shù)。對(duì)于常染色體這些數(shù)目總和應(yīng)為2,在整倍體的情況下,即,父系或母系應(yīng)該提供精確的一個(gè)染色體。
pd和pa分別為基因型的脫扣和脫入率。這些反應(yīng)了一些模型假設(shè)。已知的在一些單細(xì)胞擴(kuò)增中,一些SNPs“脫扣”,是指它們不被擴(kuò)增,結(jié)果是當(dāng)SNP基因型試圖在Infinium平臺(tái)上時(shí),它們不顯示出來(lái)。這一現(xiàn)象可以通過(guò)在每個(gè)SNP脫扣的每個(gè)等位基因在MDA相期間,獨(dú)立于概率pd而建模。同樣的,平臺(tái)也不是個(gè)完美的檢測(cè)儀器。由于檢測(cè)干擾,有時(shí)檢測(cè)儀器得到假信號(hào),假信號(hào)可以使用脫入概率模型,脫入概率在每個(gè)SNP上是獨(dú)立的,概率為pa。
Mj,F(xiàn)j是分別在母系和父系上的實(shí)際基因型。并不很完全的知道實(shí)際基因型,但是因?yàn)樵从谟H本的大量樣本的基因型被判定,就可以假設(shè)親本的實(shí)際基因型是本質(zhì)上已知的。
探針模型 在本發(fā)明的一種具體實(shí)施方案中,從一種探針變化到另一種探針的平臺(tái)反應(yīng)模型或誤差模型可以被使用,并不改變本發(fā)明的本質(zhì)性質(zhì)。由等位基因脫扣,等位基因脫入,或其他因素造成的擴(kuò)增效率和誤差率,不會(huì)在不同的探針間發(fā)生變化。在一種具體實(shí)施方案中,對(duì)于特別給定的探針,錯(cuò)誤轉(zhuǎn)移矩陣可以得出。平臺(tái)反應(yīng)模型,或誤差模型,可以與特定的探針相關(guān)或根據(jù)定量測(cè)定而被參數(shù)化,其中,定量測(cè)定的實(shí)施,以致反應(yīng)模型或者誤差模型對(duì)于那些特定的探針和測(cè)量是明確的。
基因型分型 基因型分型也需要具有固定假設(shè)的運(yùn)算法則。從平臺(tái)反應(yīng)(x、,y)到基因型g需要重要的計(jì)算。本質(zhì)上要求x/y平面的正象限被分為AA,AB,BB,和NC區(qū)域。此外,在最常規(guī)的情況下,有AAA,AAB等等區(qū)域是有用的,可以被叫作三染色體性。
在一種具體實(shí)施方案中,使用一種特殊的基因分型運(yùn)算叫作pie-slice運(yùn)算法則,因?yàn)樗鼘/y平面的正象限分為三角關(guān)系,或“pie slices”。那些(x,y)點(diǎn)落在pie slice的X軸,就被叫作AA,那些落在Y軸上的,叫作BB,在中間的被叫做AB。此外,一個(gè)小正方形被疊加,它的左下角接觸到原點(diǎn)。(x,y)點(diǎn)落到該正方形上,則被指定為NC,因?yàn)閤和y構(gòu)成值太小,因此為不可靠值。
這個(gè)小正方形的寬度叫作無(wú)分型閾值,它是基因型分型運(yùn)算的一個(gè)參數(shù)。為了脫入和脫扣模型正確的模擬與基因型分型運(yùn)算相關(guān)的錯(cuò)誤轉(zhuǎn)換矩陣,截止閾值必須調(diào)節(jié)適當(dāng)。錯(cuò)誤轉(zhuǎn)換矩陣表示對(duì)每個(gè)真實(shí)的基因型分型/指定的基因型分型對(duì),觀測(cè)的指定基因型給出真實(shí)基因型的概率。這個(gè)矩陣依賴(lài)于MDA的脫扣率和對(duì)于基因型分型運(yùn)算的無(wú)分型閾值的設(shè)定。
注意,對(duì)于多種不同的等位基因分型或基因型分型,算法可以在不改變本發(fā)明基本概念的基礎(chǔ)上被使用。例如,無(wú)分型區(qū)域可以通過(guò)許多不同的圖形被定義,除了正方形,還有例如1/4圓弧回轉(zhuǎn)曲面,無(wú)分型閾值可能隨不同的基因型分型運(yùn)算法則而發(fā)生大的改變。
非整倍體分型實(shí)驗(yàn)的結(jié)果 在此描述的實(shí)驗(yàn)證明了在此公開(kāi)的方法的還原實(shí)踐是為了正確分型單細(xì)胞的倍數(shù)性這個(gè)實(shí)證有兩部分目的第一,展示公開(kāi)的方法能正確的分型細(xì)胞的倍數(shù)性狀態(tài),并具有高的置信度,其中通過(guò)使用已知染色體拷貝數(shù)的樣本,包括整倍體和非整倍體樣本,其中非整倍體作為對(duì)照,第二,展示在此公開(kāi)的方法能夠高置信度的分型細(xì)胞的倍數(shù)性狀態(tài),其中,通過(guò)使用未知染色體拷貝數(shù)的分裂球。
為了增加置信度,能夠進(jìn)行無(wú)數(shù)SNPs檢測(cè)的IlluminaInfinium II平臺(tái)被使用。為了在PGD的背景下運(yùn)行該實(shí)驗(yàn),標(biāo)準(zhǔn)的Infinium II實(shí)驗(yàn)方案從三天減到20小時(shí)。單細(xì)胞檢測(cè)在全和加速的Infinium II實(shí)驗(yàn)方案之間比較,它們顯示了85%的一致性。提高速度的實(shí)驗(yàn)方案顯示出在基因座脫扣率(LDO)上的增加,從<1%,增加到5-10%;然而,因?yàn)闊o(wú)數(shù)的SNPs被測(cè)定和PS能夠調(diào)和等位基因脫扣,所以在LDO率上的增加,不會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成顯著的消極影響。
整個(gè)非整倍體分型方法是通過(guò)下列樣本完成的從不同家族的兩個(gè)健康孩子身上分離出的八個(gè)已知的整倍體口腔細(xì)胞,從人類(lèi)永生化三染色體細(xì)胞系分離出的十個(gè)已知的三染色體細(xì)胞,和從用于實(shí)驗(yàn)的三個(gè)晶胚中分離出的已知染色體數(shù)目的六個(gè)分裂球。每種上述細(xì)胞集的一半通過(guò)提速的20-小時(shí)實(shí)驗(yàn)方案分析,剩下一半通過(guò)標(biāo)準(zhǔn)的方案分析。注意,對(duì)于永生化的三染色體細(xì)胞,沒(méi)有親本的數(shù)據(jù)可使用。結(jié)果,對(duì)于這些細(xì)胞,一對(duì)偽親本基因組是從條件性分布中繪出它們的基因型,其中條件分布是通過(guò)觀察在大量組織樣本的每個(gè)基因座上的三染色體的基因型得出的。
在事實(shí)已知的地方,該方法能夠?qū)γ總€(gè)細(xì)胞中每個(gè)染色體的倍數(shù)性狀態(tài)進(jìn)行正確分型,并具有高的可信度。這些數(shù)據(jù)總結(jié)在下面三個(gè)表格中。每個(gè)表格的第一列給出染色體數(shù),每對(duì)顏色相匹配的列表示一個(gè)細(xì)胞的分析,左邊為拷貝數(shù),右邊為置信度。每行對(duì)應(yīng)一個(gè)特定的染色體。注意,這些表格包含的染色體的倍性信息可以用于報(bào)告中,該報(bào)告可以幫助醫(yī)生確定哪個(gè)晶胚被選擇移入準(zhǔn)母體。(注意‘1’可能來(lái)于單體性染色體和單性生殖的二體性染色體)。表9給出了八個(gè)已知整倍體口腔細(xì)胞的結(jié)果;所有的發(fā)現(xiàn)都為正確的整倍體,并具有高可信度(>0.99)。表10給出十個(gè)已知的三染色體細(xì)胞的結(jié)果(在21號(hào)染色體上的三染色體);所有都正確的發(fā)現(xiàn)為在21號(hào)染色體上的三染色體,和在所有其他染色體上的二體性,并具有高的可信度(>0.92)。表11表示從三個(gè)不同晶胚中分離的六個(gè)分裂球的結(jié)果。因?yàn)闆](méi)有真實(shí)模型存在于捐贈(zèng)的分裂球,所以需要從源于單個(gè)晶胚的分裂球之間尋找一致性,然而,在人類(lèi)晶胚中鑲嵌性的頻率和特性目前都是未知的,因此,源于共同晶胚的分裂球之間一致性的存在或缺失對(duì)指示正確的倍性確定是不必要的。第一組三個(gè)分裂球源于同一晶胚(e1),它們中的前兩個(gè)(e1b1和e1b3)在除了一種之外的所有染色體上具有相同的倍性狀態(tài)。第三個(gè)細(xì)胞(e1b6)是復(fù)雜的非整倍體。源于第二個(gè)晶胚的分裂球在所有染色體上都為單染色體的。源于第三個(gè)晶胚的分裂球?yàn)閺?fù)雜的非整倍體。注意,一些可信度低于90%。然而,如果所有的非整倍體假定的可信度組合在一起,所有染色體要么為整倍體或非整倍體,可信度超過(guò)92.8%。
J實(shí)驗(yàn)室技術(shù) 許多技術(shù)能夠應(yīng)用于為研究基因型分型的細(xì)胞和DNA片段的分離,以及后續(xù)的DNA的基因型分型。在此描述的系統(tǒng)和方法能夠應(yīng)用到任何這些技術(shù),特定的包括從母系血液或在IVF的條件下,從晶胚中的分裂球中分離細(xì)胞和DNA片段。它同樣能應(yīng)用于in silico基因組數(shù)據(jù),即,不從遺傳物質(zhì)直接測(cè)定。在本系統(tǒng)的一種具體實(shí)施方案中,這個(gè)數(shù)據(jù)可以通過(guò)如下的描述獲得。這個(gè)技術(shù)的描述不意味著是詳盡的,熟悉此領(lǐng)域的人能清楚的知道其他的實(shí)驗(yàn)室技術(shù),也能達(dá)到同樣的結(jié)果 細(xì)胞的分離 成人的倍數(shù)染色體細(xì)胞能夠通過(guò)大量組織或者血液樣本獲得。成人的倍數(shù)染色體單一細(xì)胞可以使用FACS,或熒光激活細(xì)胞分類(lèi)的方法,從全血樣本中獲得。成人的單倍體單個(gè)精子細(xì)胞可以使用FACS從精液樣本中分離得到。成人的單倍體單個(gè)卵細(xì)胞可以在IVF過(guò)程中,從收獲的卵細(xì)胞中分離得到。
從人類(lèi)晶胚分離目標(biāo)單個(gè)細(xì)胞分裂球,可以通過(guò)體外受精的臨床技術(shù),如,胚胎活檢的技術(shù)中得到。從母系血液中分離目標(biāo)胎兒細(xì)胞可以使用單克隆抗體,或其他技術(shù),如FACS或密度梯度離心的技術(shù)得到。
DNA提取,對(duì)于本申請(qǐng),可以為非標(biāo)準(zhǔn)的方法。通過(guò)文獻(xiàn)閱讀比較多種DNA提取的方法,結(jié)果發(fā)現(xiàn)在一些情況下,新型的方法,比如,添加N-月桂酰肌氨酸,能夠得到較高提取效率和產(chǎn)生最少的假陽(yáng)性。
基因組DNA的擴(kuò)增 基因組的擴(kuò)增可以通過(guò)多種方法完成,包括連接介導(dǎo)PCR(LM-PCR),簡(jiǎn)并寡核苷酸PCR(DOP-PCR),和多重置換擴(kuò)增(MDA)。在這三種方法中,DOP-PCR能可靠的從少量DNA生成大量的DNA,包括染色體的單拷貝;這個(gè)方法對(duì)于基因型分型親本倍數(shù)染色體數(shù)據(jù)是最合適的,在這里數(shù)據(jù)的真實(shí)度最關(guān)鍵。MDA是最快的方法,在數(shù)小時(shí)內(nèi),將生成百倍的DNA擴(kuò)增;這個(gè)方法對(duì)基因型分型胚胎細(xì)胞是最合適的,或者在需要短時(shí)間完成的情況下。
背景擴(kuò)增是這些方法都存在的問(wèn)題,因?yàn)槊糠N方法都將潛在的擴(kuò)增污染的DNA。非常少量的污染都將不可避免的影響實(shí)驗(yàn)和給出假數(shù)據(jù)。因此,使用干凈的實(shí)驗(yàn)環(huán)境是關(guān)鍵,前-和后-擴(kuò)增的工作流程要完全的,身體上的分開(kāi)。用于DNA擴(kuò)增的干凈的,無(wú)污染的工作流程,在工業(yè)分子生物學(xué)中,為常規(guī)程序,需要在細(xì)節(jié)上的小心仔細(xì)。
基因分型實(shí)驗(yàn)和雜交 擴(kuò)增的DNA的基因分型可以通過(guò)多種方法完成,其中包括分子轉(zhuǎn)化探針(MIPs),如,Affymetrix’s Genflex陣列,微陣列如Affymetrix’s 500K陣列或Illumina珠陣列,或SNP基因分型實(shí)驗(yàn),如,AppliedBioscience’s TaqMan實(shí)驗(yàn)。Affymetrix 500K陣列,MIPs/GenFlex,TaqMan和Illumina實(shí)驗(yàn)都需要微克的DNA量,所以使用任何工作流程基因型分型單個(gè)細(xì)胞,都需要擴(kuò)增DNA。每種技術(shù)根據(jù)它的成本,數(shù)據(jù)質(zhì)量,定量對(duì)定性數(shù)據(jù),習(xí)慣性,完成實(shí)驗(yàn)的時(shí)間和可測(cè)量的SNPs數(shù),都有多方面的折中。500K和Illumina陣列的一個(gè)優(yōu)勢(shì)是大的SNPs數(shù),這樣就能集合數(shù)據(jù),大概為250,000,相對(duì)于MIPs的順序檢測(cè)10,000SNPs,和TaqMan實(shí)驗(yàn)檢測(cè)的更少。相對(duì)于500K陣列,MIPs,TaqMan和Illumina實(shí)驗(yàn)的優(yōu)勢(shì)在于它們是固定常被使用的方法,允許使用者選擇SNPs,然而,500K陣列沒(méi)有沒(méi)有允許這樣的用戶(hù)化。
在IVF期間,胚胎植入前診斷的條件下,固有的時(shí)間限制是重要的;在這種情況下,為了周轉(zhuǎn)時(shí)間犧牲數(shù)據(jù)的質(zhì)量是有利的。盡管有其他的清除的優(yōu)勢(shì),標(biāo)準(zhǔn)的MIPs實(shí)驗(yàn)步驟是相對(duì)耗時(shí)的過(guò)程,代表性地耗時(shí)2.5到三天能完成。在MIPs中,探針對(duì)目標(biāo)DNA的退火和后擴(kuò)增雜交是顯著耗時(shí)的,任何這些時(shí)間的減少都會(huì)造成數(shù)據(jù)質(zhì)量的退化。探針對(duì)DNA樣本的退火時(shí)間為過(guò)夜(12-16小時(shí))。加上退火和擴(kuò)增前后的幾步,實(shí)驗(yàn)步驟的總標(biāo)準(zhǔn)時(shí)間達(dá)到2.5天。優(yōu)化MIPs實(shí)驗(yàn)的速度可能縮短整個(gè)實(shí)驗(yàn)過(guò)程少于36小時(shí)。500K陣列和Illumina實(shí)驗(yàn)有較快的完成時(shí)間使用標(biāo)準(zhǔn)的實(shí)驗(yàn)方法,大約1.5到兩天能得到高可靠的數(shù)據(jù)。優(yōu)化這兩種方法,估計(jì)使用500K陣列和/或Illumina實(shí)驗(yàn)做基因型分型實(shí)驗(yàn)的完成時(shí)間能縮減到少于24小時(shí)。TaqMan實(shí)驗(yàn)更快,只需要三個(gè)小時(shí)的時(shí)間。對(duì)于所有這些方法,實(shí)驗(yàn)時(shí)間的減少將導(dǎo)致數(shù)據(jù)質(zhì)量的下降,然而,這正是本發(fā)明計(jì)劃要闡述的。
自然地,在時(shí)間為關(guān)鍵要素的情況下,例如,在IVF期間,基因型分型分裂球,較快的實(shí)驗(yàn)相對(duì)較慢的實(shí)驗(yàn)具有明顯的優(yōu)越性,然而,在時(shí)間不是主要壓力的情況下,如,在IVF前,基因型分型親本DNA時(shí),其他的因素將在選擇合適方法上占支配地位。例如,存在于從一種技術(shù)到另一種技術(shù)的另一種權(quán)衡是成本相對(duì)數(shù)據(jù)質(zhì)量。對(duì)于重要的實(shí)驗(yàn),使用成本更高的技術(shù)得到高質(zhì)量的數(shù)據(jù)是有意義的,對(duì)于數(shù)據(jù)精確度不是關(guān)鍵的實(shí)驗(yàn),可以使用成本較低的技術(shù)得到質(zhì)量較低的數(shù)據(jù)。發(fā)展到能夠允許足夠快速的高通量的基因型分型的任何技術(shù),都能應(yīng)用于基因分型遺傳物質(zhì)。
同時(shí)進(jìn)行基因座擴(kuò)增和整個(gè)基因組擴(kuò)增的方法 在用少量遺傳物質(zhì)擴(kuò)增整個(gè)基因組期間,無(wú)論使用連接介導(dǎo)PCR(LM-PCR),多重置換擴(kuò)增(MDA),或其他方法,基因座的脫扣是隨機(jī)和不可避免發(fā)生的。非特定的擴(kuò)增整個(gè)基因組是理想的,但是為了確保特定位點(diǎn)被擴(kuò)增,可能需要同時(shí)擴(kuò)增目標(biāo)位點(diǎn)和全基因組。
在一種優(yōu)選的實(shí)施方案中,這種方法的基礎(chǔ)是組合標(biāo)準(zhǔn)的目標(biāo)的聚合酶鏈?zhǔn)椒磻?yīng)(PCR)來(lái)擴(kuò)增特定感興趣位點(diǎn)和任何普遍化的全基因組擴(kuò)增方法。這包括,而不限制于在通過(guò)MDA或LM-PCR普遍化擴(kuò)增前,對(duì)特定位點(diǎn)進(jìn)行預(yù)擴(kuò)增,在LM-PCR的通用PCR步驟中加入目標(biāo)PCR引物到通用引物中,和加入目標(biāo)PCR引物,來(lái)兼并在MDA中的引物。
K 注釋 如前所述,給出了本發(fā)明的有益之處,還有更多的具體化體現(xiàn),在此公開(kāi)了實(shí)現(xiàn)一種或更多種系統(tǒng),方法和特點(diǎn)。
在所有有關(guān)根據(jù)親本信息在目標(biāo)個(gè)體上確定特定定性檢測(cè)概率的情況下,在閱讀完本發(fā)明,熟悉該領(lǐng)域的人能夠清楚的知道如何使用相似的方法確定目標(biāo)個(gè)體的定量檢測(cè)概率而不是定性的。無(wú)論在什么情況下,目標(biāo)或相關(guān)個(gè)體的基因數(shù)據(jù)是定量的,閱讀完此說(shuō)明書(shū),熟悉此領(lǐng)域的人能清楚的知道如何應(yīng)用在此公開(kāi)的技術(shù)到定量數(shù)據(jù)上。
熟悉此領(lǐng)域的人能容易地明白多數(shù)參數(shù)的改變,不會(huì)改變本發(fā)明的實(shí)質(zhì)。例如,基因數(shù)據(jù)可以通過(guò)使用任何高通量的基因型分型平臺(tái)而獲得,或者從任何基因型分型的方法獲得,或者通過(guò)模擬,推斷,或任何已知的方法。多種計(jì)算的語(yǔ)言可以用來(lái)編碼運(yùn)算,如在本發(fā)明中描述的,多種計(jì)算的平臺(tái)可以用于執(zhí)行計(jì)算。例如,計(jì)算可以使用個(gè)人電腦,超型計(jì)算機(jī),大規(guī)模的平行的計(jì)算平臺(tái),或基于計(jì)算機(jī)平臺(tái)的non-silicon,來(lái)完成,就像足夠多的人用算盤(pán)武裝。
在本發(fā)明中的一些數(shù)學(xué)推導(dǎo)提出關(guān)于有限非整倍體狀態(tài)數(shù)的假設(shè)。在某些情況下,比如,單體性、二體行性和三體性明確的可以使用數(shù)學(xué)推導(dǎo)來(lái)處理。熟悉此領(lǐng)域的人清楚的知道如何使這些數(shù)學(xué)推導(dǎo)擴(kuò)大應(yīng)用于其他非整倍體的形式,例如,缺體(沒(méi)有染色體存在),quadrosomy,等等,而不改變本發(fā)明的基本概念。
當(dāng)本發(fā)明討論一條染色體時(shí),可能是指一條染色體的一個(gè)片段,當(dāng)討論一條染色體的一個(gè)片段時(shí),也可能指一條全染色體。需要重點(diǎn)指出的是處理一條染色體片段的數(shù)學(xué)推導(dǎo)和處理整個(gè)染色體片段的數(shù)學(xué)推導(dǎo)是一致的。熟悉這個(gè)領(lǐng)域的人應(yīng)該知道怎樣相應(yīng)的改變方法。
熟悉此領(lǐng)域的人清楚的知道一個(gè)相關(guān)個(gè)體是指任何有遺傳關(guān)系的個(gè)體,因此是和目標(biāo)個(gè)體共享單體型塊的個(gè)體。一些相關(guān)個(gè)體的例子包括生物學(xué)父親,生物學(xué)母,兒子,女兒,兄弟,姐妹,同父異母的兄弟,同父異母的姐妹,祖父,祖母,叔叔,姑姑,侄子,侄女,孫子,孫女,表弟,克隆,目標(biāo)個(gè)體自己和其他與目標(biāo)個(gè)體有遺傳關(guān)系的個(gè)體。術(shù)語(yǔ)“相關(guān)個(gè)體”還包括任何胚胎,胎兒,精子,卵子,分裂球,囊胚,或源于相關(guān)個(gè)體的極體。
需要特別指出的是目標(biāo)個(gè)體可能是指一個(gè)成年人,一個(gè)青少年,一個(gè)胎兒,胚胎,胚泡,一個(gè)分裂球,源于某個(gè)體的或是細(xì)胞系的一個(gè)細(xì)胞或是一組細(xì)胞,或者是任一組遺傳物質(zhì)。目標(biāo)個(gè)體可能是活著的、死了的,凍存的,或是in stasis。
也需要特別注意的是當(dāng)目標(biāo)個(gè)體為分裂球時(shí),分裂球是用于診斷胚胎的,那么就有由鑲嵌性導(dǎo)致的情況出現(xiàn),即,所分析的分裂球的基因組不與在胚胎中的所有其他細(xì)胞的基因組完全匹配。
需要特別指出的是可以使用在此公開(kāi)的方法研究癌細(xì)胞的基因型分型和/或者染色體組型分型,其中,一個(gè)或者更多癌細(xì)胞被認(rèn)為是目標(biāo)個(gè)體,患有癌癥個(gè)體的非癌的組織被認(rèn)為是相關(guān)個(gè)體?;加邪┌Y個(gè)體的非癌的組織能夠提供一套相關(guān)個(gè)體的基因型分型數(shù)據(jù),這將可以使用在此公開(kāi)的方法確定癌細(xì)胞的染色體拷貝數(shù)。
需要重點(diǎn)指出的是本文描述的方法涉及到遺傳數(shù)據(jù)的清理,因?yàn)樗谢畹幕蛟?jīng)活著的生物都包含遺傳數(shù)據(jù),這種方法同樣可應(yīng)用于任何活著的或死了的人,動(dòng)物或植物,它們從其他個(gè)體遺傳而得或被遺傳得到染色體。
重點(diǎn)注意在許多情況下,在此描述的運(yùn)算法則使用了先驗(yàn)概率,和/或初始值。在一些案例中,這些先驗(yàn)概率的選擇可能會(huì)對(duì)運(yùn)算法則的功效和/或效力有影響。熟練此領(lǐng)域的人,在閱讀完本文后,知道有許多方式可以賦值或估算出適當(dāng)?shù)南闰?yàn)概率,而不改變本專(zhuān)利的本質(zhì)概念。
需要特別指出的是胚胎基因數(shù)據(jù)能夠通過(guò)一個(gè)分裂球的擴(kuò)增的DNA測(cè)量而獲取,胚胎的基因數(shù)據(jù)可以有多種用途。例如,胚胎基因數(shù)據(jù)能用來(lái)探測(cè)非整倍體,單親的二體性,確定個(gè)體性別,以及根據(jù)顯形相關(guān)等位基因做大量的表型預(yù)測(cè)。目前,在試管嬰兒(IVF)實(shí)驗(yàn)室,由于技術(shù)的使用,在很多情況下,一個(gè)分裂球只能提供足夠的遺傳物質(zhì)用來(lái)測(cè)試一種紊亂,如非整倍體,或一種特殊的單基因疾病。因?yàn)樵诖斯_(kāi)的方法都具有共同的第一步,即測(cè)定分裂球的一大組的SNPs,無(wú)論做出什么類(lèi)型的預(yù)測(cè),醫(yī)生、父母或者其他代理人不被強(qiáng)迫選擇數(shù)量有限的紊亂來(lái)做篩選。然而,根據(jù)醫(yī)學(xué)知識(shí)的情況篩選多的基因和/或顯形的選擇是允許的。使用在此公開(kāi)的方法,確定篩選優(yōu)先基因型分型的分裂球的特定條件的一個(gè)有利條件是如果某個(gè)基因座特別相關(guān),那么更有可能與感興趣基因座共分離的較適當(dāng)?shù)囊唤MSNPs可以被選擇,從而增加感興趣的等位基因分型的可信度。
也需要重點(diǎn)指出的是可能通過(guò)分子單體型分析的方法進(jìn)行單體型的定相。因?yàn)榉蛛x遺傳物質(zhì)成單倍體型是有難度的,大部分基因型分型的方法只能測(cè)定同時(shí)單倍體型,產(chǎn)生二倍體數(shù)據(jù)。結(jié)果是,每個(gè)單倍體基因組的序列不能夠被譯解。在使用在此公開(kāi)的方法確定目標(biāo)基因組的等位基因分型和/或染色體拷貝數(shù)的情況下,知道母系的單倍體型是有幫助的。一種解決該問(wèn)題的辦法是通過(guò)測(cè)序單個(gè)DNA分子或DNA分子的克隆種群來(lái)測(cè)定單倍體型。這個(gè)方法的基礎(chǔ)是使用任何測(cè)序的辦法直接確定單倍體型狀態(tài),其中,通過(guò)直接測(cè)序單個(gè)DNA分子或DNA分子的克隆種群。這個(gè)包括,但不局限于從基因組到重組DNA構(gòu)成,克隆擴(kuò)增的DNA片段和使用傳統(tǒng)的終止物標(biāo)記法測(cè)序,分離和測(cè)序在群體中的單個(gè)分子,和使用下一代的測(cè)序方法直接對(duì)單個(gè)DNA分子或克隆的DNA種群進(jìn)行測(cè)序。
本發(fā)明的系統(tǒng),方法和技術(shù)可以被用來(lái)與胚胎檢查或產(chǎn)前檢查程序一起使用。本發(fā)明的系統(tǒng),方法和技術(shù)可以被用于提高通過(guò)體外受精的胚胎和胎兒成功植入和幫助渡過(guò)妊娠期的成功概率。此外,本發(fā)明的系統(tǒng),方法,和技術(shù)能夠降低通過(guò)植入和孕育的體外受精的方式獲得的胚胎或胎兒的產(chǎn)生特定先天性缺陷的概率。
因此,根據(jù)一些具體實(shí)施方案,本發(fā)明擴(kuò)大系統(tǒng)、方法和技術(shù)的使用,與胚胎植入前的診斷程序聯(lián)合。
根據(jù)一些具體實(shí)施方案,本發(fā)明擴(kuò)大系統(tǒng)、方法和技術(shù)的使用,與產(chǎn)前檢查程序聯(lián)。
根據(jù)一些具體實(shí)施方案,本發(fā)明的系統(tǒng)、方法和技術(shù)的使用能夠減小植入先天缺陷胚胎的可能性,其中,通過(guò)檢查從體外受精獲得的早期胚胎的至少一個(gè)細(xì)胞,確定沒(méi)有遺傳或者先天性缺陷后,將這些胚胎移入母親的子宮中。
根據(jù)一些具體實(shí)施方案,本發(fā)明的系統(tǒng)、方法和技術(shù)的使用能夠減小植入染色體異常胚胎的可能性,其中,通過(guò)檢查從體外受精獲得的早期胚胎的至少一個(gè)細(xì)胞,確定沒(méi)有染色體異常后,將這些胚胎移入母親的子宮中。
根據(jù)一些具體實(shí)施方案,本發(fā)明的系統(tǒng)、方法和技術(shù)的使用能夠增加通過(guò)體外受精胚胎植入的可能性,這樣降低攜帶先天缺陷的風(fēng)險(xiǎn)。
根據(jù)一些具體實(shí)施方案,本發(fā)明的系統(tǒng)、方法和技術(shù)的使用增加了孕育胎兒的可能性。
根據(jù)首選的具體實(shí)施方案,先天缺陷是指畸形、神經(jīng)管缺陷、染色體異常、唐氏癥(或者三體性21)、三體性18,脊柱裂,腭裂,Tay Sachs疾病,鐮狀細(xì)胞性貧血,地中海貧血癥,囊腫性纖維化,亨廷頓氏癥,和/或脆性X綜合征。染色體異常包括但不限于唐氏綜合癥(額外的染色體21),特納氏綜合癥(45X0)和克氏綜合征(男性有2X染色體)。
根據(jù)首選的具體實(shí)施方案,畸形指的是肢體畸形。肢體畸形包括,但不限于無(wú)肢畸形,先天性缺指畸形,短肢畸形,多肢,多指趾畸形,并指,多指并指,少指,短指畸形,軟骨發(fā)育不全,先天發(fā)育不全或發(fā)育不全,羊膜索綜合癥,和鎖骨顱骨發(fā)育不全。
根據(jù)首選的具體實(shí)施方案,畸形是一種先天性心臟畸形。心臟先天性畸形包括但不限于久存性動(dòng)脈導(dǎo)管,心房間隔缺損,室中隔缺損,和紫紺四聯(lián)癥。
根據(jù)首選的具體實(shí)施方案,畸形是先天的神經(jīng)系統(tǒng)的畸形。神經(jīng)系統(tǒng)的先天畸形包括但不限于,神經(jīng)管畸形(如脊柱裂,脊膜膨出,脊髓脊膜膨出,腦膨出及無(wú)腦兒),Arnold-Chiari畸形,Dandy-Walker畸形,腦積水,腦過(guò)小,megencephaly,無(wú)腦回,多小腦回,前腦無(wú)裂畸形,及胼胝體發(fā)育不全。
根據(jù)首選的具體實(shí)施方案,畸形是腸胃系統(tǒng)一種先天畸形。胃腸系統(tǒng)先天畸形包括但不限于狹窄,閉鎖和肛門(mén)閉鎖。
根據(jù)首選的具體實(shí)施方案,本發(fā)明的系統(tǒng)、方法和技術(shù)的使用能夠增加通過(guò)體外受精胚胎植入的可能性,這樣能降低易患病的體質(zhì)攜帶基因疾病的風(fēng)險(xiǎn)。
根據(jù)首選的具體實(shí)施方案,遺傳疾病是單基因或多基因的。遺傳性疾病包括但不限于布盧姆綜合征,卡納疾病,囊性纖維變性,家族性自主神經(jīng)功能異常,萊利天綜合癥,范可尼貧血(C組),高雪氏病,糖原累積病1A中,楓糖漿尿癥,粘脂糖癥IV,尼曼匹克癥,泰薩二氏病,β-地中海貧血,鐮狀細(xì)胞性貧血,α-地中海貧血,β-地中海貧血,丙型血友病,弗里德賴(lài)希氏共濟(jì)失調(diào),MCAD,青少年帕金森病,Connexin26,SMA,Rett綜合征,苯丙酮尿癥,貝克爾肌肉萎縮,杜興型肌營(yíng)養(yǎng)不良癥,易碎X綜合征,甲型血友病,早發(fā)性阿爾茨海默氏癥,乳腺癌/卵巢癌,結(jié)腸癌,糖尿病/MODY,亨廷頓病,強(qiáng)直性肌肉營(yíng)養(yǎng)不良癥,早發(fā)性帕金森病,黑斑息肉綜合征,多囊腎病,扭轉(zhuǎn)痙攣。
發(fā)明各個(gè)方面的組合 如前所述,給出了本發(fā)明的有益之處,在此公開(kāi)了更多的方面或具體實(shí)施方案以執(zhí)行一種或更多的系統(tǒng),方法和特征。下面列出的例子說(shuō)明在此公開(kāi)的本發(fā)明的各個(gè)方面可以通過(guò)多種方式組合的情形。需要著重指出的是列表不意味著是全面的。除此之外,本發(fā)明的方面、方法、特點(diǎn)和具體實(shí)施方案的很多其他組合是可能的。
在發(fā)明的一中具體實(shí)施方案中,可以組合本發(fā)明的幾個(gè)方面,例如,可以在一步中實(shí)施等位基因分型和非整倍體分型,和對(duì)這兩部分使用定量值取代定性值。熟悉此領(lǐng)域的人很容易明白如何組合相關(guān)的數(shù)學(xué)運(yùn)算,而不改變本發(fā)明的實(shí)質(zhì)。
在本發(fā)明的首選的具體實(shí)施方案中,在此公開(kāi)的方法能夠用來(lái)確定一個(gè)或更多晶胚的遺傳狀態(tài),目的是在IVF的條件下,選擇胚胎。這包括收獲準(zhǔn)母親的卵子,使用準(zhǔn)父親的精子對(duì)這些卵子進(jìn)行受精,然后生成一個(gè)或更多的晶胚。試管受精環(huán)境中的胚胎挑選,可以利用我們用披露的方法確定一個(gè)或者更多晶胚的遺傳狀態(tài)。這可能從一位準(zhǔn)媽媽處獲取卵子并且從準(zhǔn)爸爸處獲取精子,從而產(chǎn)生一個(gè)或多個(gè)晶胚。還包括進(jìn)行胚胎的活組織切片檢查以從每個(gè)晶胚中分離分裂球。還包括父親或母親的二倍體遺傳物質(zhì)的獲得,擴(kuò)增和基因型分型,以及從父系得到的一個(gè)或多個(gè)單獨(dú)精子。還包括整合母系、父系測(cè)定的雙倍體和單倍體數(shù)據(jù)和測(cè)定的感興趣胚胎的遺傳信息組成一個(gè)數(shù)據(jù)集。還包括使用在本專(zhuān)利中公開(kāi)的一種或多種統(tǒng)計(jì)學(xué)方法確定在胚胎中的最可能的遺傳物質(zhì)狀態(tài),給出測(cè)定或確定的基因數(shù)據(jù)。可能包括確定感興趣胚胎的倍數(shù)性狀態(tài)??赡馨ù_定在胚胎基因組中大量已知疾病相關(guān)等位基因的存在。可能包括關(guān)于胚胎的表型預(yù)測(cè)。可能包括形成給夫婦醫(yī)生的報(bào)告,以便為醫(yī)生提供選擇哪個(gè)晶胚植入準(zhǔn)母親的有利信息。
另外一個(gè)例子的是一位44歲受孕遇到問(wèn)題的婦女進(jìn)行試管受精(IVF)。從女方獲取卵子,由從男方獲取精子,進(jìn)行受精,產(chǎn)生了9個(gè)可生育的晶胚。從每個(gè)晶胎中獲取一個(gè)分裂球,使用用Illumina Infinium Bead Array測(cè)定分裂球的遺傳數(shù)據(jù)。同時(shí),使用Illumina Infinium Bead Array測(cè)定從雙親處獲取的組織的雙倍染色體數(shù)據(jù)。使用同樣的方法測(cè)定父親精子的單倍染色體數(shù)據(jù)。在此公開(kāi)的方法被應(yīng)用于分裂球的基因信息和雙倍體母系基因信息,而定相母系的基因信息,以便提供母系單基因型。這些數(shù)據(jù)和父系的雙倍體和單倍體數(shù)據(jù)整合,以便高準(zhǔn)確度的確定每個(gè)晶胚中的每個(gè)染色體的拷貝數(shù)計(jì)算。9個(gè)晶胚中的8個(gè)晶胚是非整倍體,剩下的一個(gè)晶胚是整倍體的?;谶@些診斷的報(bào)告被撰寫(xiě)出來(lái),并送給了醫(yī)生。報(bào)告中的數(shù)據(jù)類(lèi)似于表9、10、11中的數(shù)據(jù)。醫(yī)生和準(zhǔn)父母?jìng)儧Q定植入整倍體晶胎于母親的子宮中。
另外的一個(gè)例子是一個(gè)懷孕的婦女,她用的是捐獻(xiàn)的精子受精,并最終懷孕。她的愿望是降低她所懷胎兒患遺傳疾病的風(fēng)險(xiǎn)。她進(jìn)行了羊水診斷和分離得到胎兒細(xì)胞,組織樣本也從母親得到。因?yàn)闆](méi)有其他的晶胚,她的數(shù)據(jù)通過(guò)使用分子單倍型分型的方法被定相。胎兒和母親的遺傳物質(zhì)被適量擴(kuò)增,使用IlluminaInfinium Bead Array,對(duì)遺傳物質(zhì)進(jìn)行基因分型,在此描述的方法盡可能準(zhǔn)確地重建了胚胎的基因型。從重構(gòu)的胎兒遺傳數(shù)據(jù),預(yù)測(cè)了表型易感性,據(jù)此撰寫(xiě)報(bào)告,然后將這個(gè)報(bào)告送到這位母親的醫(yī)生那里,以便于他們決定什么樣措施是最好的。
另外的一個(gè)例子是賽馬的養(yǎng)殖者想增加冠軍賽馬的馬仔們成為冠軍的可能性。他使理想的母馬通過(guò)試管受精而懷孕,使用從種馬獲得的遺傳信息,從具有發(fā)育潛能的胚胎中清除母馬的遺傳數(shù)據(jù)。清除胚胎的遺傳數(shù)據(jù)使飼養(yǎng)者能夠選擇最可能生成理想賽馬的晶胚植入母馬中。
表1-11 表1.給出正確基因型的檢測(cè)等的位基因分型概率分布 表2.使用U和H符號(hào),在胚胎中特定等位基因分型的概率 表3.給定所有可能雙親狀態(tài),在胚胎中特定等位基因分型的條件概率 表4.約束矩陣(A). 表5.給定所有可能雙親狀態(tài),所有特定胚胎等位基因狀態(tài)的觀察的計(jì)算符 表6.非整倍體狀態(tài)(h)和相應(yīng)的P(h|nj),給定拷貝數(shù)的條件概率 表7.給定雙親基因型,非整倍體假設(shè)(H)概率 表8.應(yīng)用于染色體7上,69SNPs的PS算法結(jié)果 表9.8個(gè)已知整倍體細(xì)胞上的非整倍體分型 表10.10個(gè)已知三染色體細(xì)胞上的非整倍體分型 表11.6個(gè)分裂球的非整倍體分型
表1.給出正確基因型的檢測(cè)等的位基因分型概率分布
表2.使用U和H符號(hào),在胚胎中特定等位基因分型的概率
表3.給定所有可能雙親狀態(tài),在胚胎中特定等位基因分型的條件概率 表4.約束矩陣(A).
表5.給定所有可能雙親狀態(tài),所有特定胚胎等位基因狀態(tài)的觀察的計(jì)算符 表6.非整倍體狀態(tài)(h)和相應(yīng)的P(h|nj),給定拷貝數(shù)的條件概率
表7.給定雙親基因型,非整倍體假設(shè)(H)概率
表8.應(yīng)用于染色體7上,69SNPs的PS算法結(jié)果
表9.8個(gè)已知整倍體細(xì)胞上的非整倍體分型
表10.10個(gè)已知三染色體細(xì)胞上的非整倍體分型
表11.6個(gè)分裂球的非整倍體分型
權(quán)利要求
1.一種確定目標(biāo)個(gè)體基因組中染色體部分拷貝數(shù)的方法,該方法包括(1)創(chuàng)造一組拷貝數(shù),假設(shè)目標(biāo)個(gè)體大約有多少染色體部分的拷貝數(shù),和(ii)將來(lái)自目標(biāo)個(gè)體的遺傳信息和來(lái)自一個(gè)或一個(gè)以上有親屬關(guān)系的個(gè)體的遺傳信息整合,獲得一組數(shù)據(jù),并且(iii)估計(jì)與此數(shù)據(jù)組有關(guān)的平臺(tái)反應(yīng)特征,其中,一個(gè)試驗(yàn)中的平臺(tái)反應(yīng)可能與另一個(gè)試驗(yàn)中的平臺(tái)反應(yīng)不同,和(iv)計(jì)算每個(gè)拷貝數(shù)假設(shè)、給定的數(shù)據(jù)組和平臺(tái)反應(yīng)特征的條件概率,并且(v)根據(jù)最有可能的拷貝數(shù)假設(shè)確定所述染色體部分的拷貝數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,該方法包括(i)創(chuàng)造一組拷貝數(shù),假設(shè)目標(biāo)個(gè)體大約有多少染色體部分的拷貝數(shù),和(ii)測(cè)定目標(biāo)個(gè)體和一個(gè)或者一個(gè)以上與目標(biāo)個(gè)體有親屬關(guān)系的個(gè)體給定部分的多個(gè)位點(diǎn)上一些或者所有可能的等位基因的遺傳數(shù)據(jù),(iii)確定關(guān)于目標(biāo)個(gè)體遺傳數(shù)據(jù)測(cè)定值以及與目標(biāo)個(gè)體有親屬關(guān)系的個(gè)體遺傳數(shù)據(jù)測(cè)定值的每個(gè)假設(shè)的相對(duì)概率,并且(iv)利用于每個(gè)假設(shè)有關(guān)的相對(duì)概率確定目標(biāo)個(gè)體實(shí)際遺傳物質(zhì)最有可能的狀態(tài)。
3.根據(jù)權(quán)利要求1所述的方法,該方法包括(i)利用目標(biāo)個(gè)體不完整的遺傳測(cè)定值和與目標(biāo)個(gè)體有親屬關(guān)系的一個(gè)或一個(gè)以上個(gè)體的遺傳測(cè)定值創(chuàng)造一組關(guān)于染色體部分?jǐn)?shù)目和一致性的假設(shè),所述染色體部分是每個(gè)有親屬關(guān)系的個(gè)體貢獻(xiàn)給所述目標(biāo)個(gè)體的,和(ii)基于目標(biāo)個(gè)體遺傳數(shù)據(jù)的假設(shè),基于有親屬關(guān)系的個(gè)體在多個(gè)位點(diǎn)遺傳測(cè)量值并且給予一個(gè)試驗(yàn)與另一個(gè)試驗(yàn)可能存在差異的參數(shù),確定目標(biāo)個(gè)體遺傳測(cè)定值的概率,并且(iii)整合測(cè)量試驗(yàn)中可能變化的參數(shù)組概率,并且(iv)篩選具有最高概率的假設(shè)。
4.根據(jù)權(quán)利要求1所述的方法,其中通過(guò)篩選染色體情況完成目標(biāo)基因組中染色體數(shù)目或者染色體部分?jǐn)?shù)目的確定,所述情況選自整倍性、無(wú)染色體性、單體性、單親二體性、三染色體性、四體性、其他的非整倍體性、失衡易位、刪除、插入、鑲嵌性或其結(jié)合。
5.根據(jù)權(quán)利要求1所述的方法,其中,通過(guò)使用等位基因查出的定性技術(shù)獲得遺傳測(cè)定值。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述遺傳測(cè)定值使用參考序列的已知等位基因和定量等位基因測(cè)定法測(cè)定。
7.根據(jù)權(quán)利要求1所述的方法,其中,使用下列技術(shù)對(duì)目標(biāo)個(gè)體的遺傳物質(zhì)進(jìn)行放大聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、配位體調(diào)節(jié)的聚合酶鏈反應(yīng)、全基因組擴(kuò)增、退行性低聚核苷酸引物聚合酶鏈反應(yīng)、多位點(diǎn)置換擴(kuò)增技術(shù)、等位基因特異性擴(kuò)增及其結(jié)合。
8.根據(jù)權(quán)利要求1所述的方法,其中所述目標(biāo)個(gè)體的遺傳數(shù)據(jù)使用下列工具或者技術(shù)進(jìn)行測(cè)定分子倒置探針(MIP)、基因型微矩陣、TaqMan SNP基因型試驗(yàn)、Illumina基因型系統(tǒng)及其他基因型試驗(yàn)、熒光原位雜交(FISH)、測(cè)序法、其他高通量基因型平臺(tái)、及其結(jié)合。
9.根據(jù)權(quán)利要求1所述的方法,其中通過(guò)分析下列物質(zhì)測(cè)定目標(biāo)個(gè)體的遺傳數(shù)據(jù)一種或者一種以上來(lái)自目標(biāo)個(gè)體的二倍細(xì)胞、一種或一種以上來(lái)自目標(biāo)個(gè)體的單倍體細(xì)胞、一種或一種以上來(lái)自目標(biāo)個(gè)體的裂殖細(xì)胞、在目標(biāo)個(gè)體中發(fā)現(xiàn)的細(xì)胞外遺傳物質(zhì)、來(lái)自目標(biāo)個(gè)體的在母系血液中發(fā)現(xiàn)的細(xì)胞外遺傳物質(zhì)、來(lái)自目標(biāo)個(gè)體的在母系血液中發(fā)現(xiàn)的細(xì)胞、已知來(lái)源于目標(biāo)個(gè)體的遺傳物質(zhì)及其結(jié)合。
10.根據(jù)權(quán)利要求1所述的方法,其中通過(guò)分析下列物質(zhì)測(cè)定有親屬關(guān)系的個(gè)體的遺傳數(shù)據(jù)一種或者一種以上來(lái)自有親屬關(guān)系個(gè)體的大量二倍體組織、一種或者一種以上來(lái)自有親屬關(guān)系個(gè)體的二倍細(xì)胞、一種或一種以上來(lái)自有親屬關(guān)系個(gè)體的單倍體細(xì)胞、一種或一種以上由有親屬關(guān)系個(gè)體配偶子產(chǎn)生的胚胎、一種或一種以上裂殖細(xì)胞、例如有親屬關(guān)系的個(gè)體中發(fā)現(xiàn)的胚胎、細(xì)胞外遺傳物質(zhì)、已知來(lái)源于有親屬關(guān)系的個(gè)體的遺傳物質(zhì)及其結(jié)合。
11.根據(jù)權(quán)利要求1所述的方法,其中,確定目標(biāo)基因組中染色體部分?jǐn)?shù)目的目的是在體外受精過(guò)程中篩選胚胎。
12.根據(jù)權(quán)利要求1所述的方法,其中,確定目標(biāo)基因組中染色體部分?jǐn)?shù)目的目的是進(jìn)行出生前的遺傳診斷。
13.根據(jù)權(quán)利要求1所述的方法,其中,測(cè)定目標(biāo)個(gè)體父親精液中遺傳數(shù)據(jù)的目的是加強(qiáng)確定染色體部分拷貝數(shù)的準(zhǔn)確度。
14.根據(jù)權(quán)利要求1所述的方法,其中,通過(guò)使用二倍體遺傳數(shù)據(jù)推斷確定所述母系單倍體遺傳數(shù)據(jù),所述二倍體遺傳數(shù)據(jù)是從一種或一種以上裂殖細(xì)胞、父母的二倍體遺傳數(shù)據(jù)和父親的單倍體遺傳數(shù)據(jù)中確定的。
15.根據(jù)權(quán)利要求1所述的方法,其中本方法中使用的母系單倍體遺傳數(shù)據(jù)在不使用出生孩子的遺傳數(shù)據(jù)、不使用母親的遺傳數(shù)據(jù)并且不使用母親單倍體組織樣品的情況下已經(jīng)被確定。
16.根據(jù)權(quán)利要求1所述的方法,其中所述目標(biāo)個(gè)體是一種胚胎,并且其中,以篩選體外受精過(guò)程中傳遞的胚胎為目的進(jìn)行確定,并且,其中有親屬關(guān)系的個(gè)體選自由父親、母親、一種或者一種以上與父母相同的胚胎、一種或者一種以上來(lái)自父親的精液或其結(jié)合所組成的組中。
17.根據(jù)權(quán)利要求1所述的方法,其中,所述方法單獨(dú)進(jìn)行,或者與能夠在目標(biāo)個(gè)體多個(gè)位點(diǎn)產(chǎn)生等位基因查出的方法結(jié)合使用,并且,這兩種方法使用來(lái)自目標(biāo)個(gè)體的相同的細(xì)胞或者細(xì)胞組作為遺傳物質(zhì)源。
18.用于查出目標(biāo)個(gè)體一種或者一種以上等位基因的方法,其中所述方法包括(i)向數(shù)據(jù)組中整合在目標(biāo)個(gè)體和至少一個(gè)有親屬關(guān)系的個(gè)體中多個(gè)位點(diǎn)測(cè)定的遺傳數(shù)據(jù),和(ii)估計(jì)與數(shù)據(jù)組有關(guān)的平臺(tái)反應(yīng)的特征,其中一個(gè)試驗(yàn)的平臺(tái)反應(yīng)可以與另一個(gè)試驗(yàn)的平臺(tái)反應(yīng)不同,和(iii)基于遺傳數(shù)據(jù)和平臺(tái)反應(yīng)特征計(jì)算目標(biāo)個(gè)體最有可能的正確等位基因查出。
19.根據(jù)權(quán)利要求18所述的方法,所述方法包括(i)創(chuàng)造關(guān)于目標(biāo)個(gè)體遺傳物質(zhì)真實(shí)狀態(tài)的假設(shè),(ii)基于目標(biāo)個(gè)體遺傳數(shù)據(jù)的測(cè)量值和有親屬關(guān)系的個(gè)體遺傳數(shù)據(jù)的測(cè)量值確定每個(gè)假設(shè)的概率,和(iii)使用與每個(gè)假設(shè)有關(guān)的概率確定目標(biāo)個(gè)體實(shí)際遺傳物質(zhì)最可能的狀態(tài)。
20.根據(jù)權(quán)利要求18所述的方法,其中該方法包括(i)測(cè)定目標(biāo)個(gè)體和有親屬關(guān)系的個(gè)體多個(gè)位點(diǎn)的遺傳數(shù)據(jù),一起稱(chēng)作“遺傳測(cè)量值”,并且(ii)創(chuàng)造關(guān)于目標(biāo)個(gè)體染色體部分一種或一種以上的一組假設(shè),并且(iii)創(chuàng)造關(guān)于目標(biāo)個(gè)體和有親屬關(guān)系個(gè)體在給定的位點(diǎn)遺傳狀態(tài)的一種或者一種以上的假設(shè),和(iv)確定這些假設(shè)的聯(lián)合概率以及在給定位點(diǎn)、每個(gè)位點(diǎn)和每種假設(shè)的遺傳測(cè)量值,和(v)結(jié)合上述概率來(lái)計(jì)算目標(biāo)個(gè)體在所關(guān)心的位點(diǎn)處基于遺傳測(cè)量值的每種可能的遺傳狀態(tài),和(vi)篩選具有最大可能性的目標(biāo)個(gè)體的遺傳狀態(tài)。
21.根據(jù)權(quán)利要求18所述的方法,其中增加目標(biāo)個(gè)體遺傳數(shù)據(jù)等位基因查出精確度的目的是在體外受精過(guò)程中篩選胚胎。
22.根據(jù)權(quán)利要求18所述的方法,其中增加目標(biāo)個(gè)體遺傳數(shù)據(jù)等位基因查出精確度的目的是進(jìn)行出生前的遺傳診斷。
23.根據(jù)權(quán)利要求18所述的方法,其中通過(guò)分析下列物質(zhì)測(cè)定目標(biāo)個(gè)體的遺傳數(shù)據(jù)一種或者一種以上來(lái)自目標(biāo)個(gè)體的二倍細(xì)胞、一種或一種以上來(lái)自目標(biāo)個(gè)體的單倍體細(xì)胞、一種或一種以上來(lái)自目標(biāo)個(gè)體的裂殖細(xì)胞、在目標(biāo)個(gè)體中發(fā)現(xiàn)的細(xì)胞外遺傳物質(zhì)、來(lái)自目標(biāo)個(gè)體的在母系血液中發(fā)現(xiàn)的細(xì)胞外遺傳物質(zhì)、來(lái)自目標(biāo)個(gè)體的在母系血液中發(fā)現(xiàn)的細(xì)胞、已知來(lái)源于目標(biāo)個(gè)體的遺傳物質(zhì)及其結(jié)合。
24.根據(jù)權(quán)利要求18所述的方法,其中通過(guò)分析下列物質(zhì)測(cè)定有親屬關(guān)系的個(gè)體的遺傳數(shù)據(jù)一種或者一種以上來(lái)自有親屬關(guān)系個(gè)體的大量二倍體組織、一種或者一種以上來(lái)自有親屬關(guān)系個(gè)體的二倍細(xì)胞、一種或一種以上來(lái)自有親屬關(guān)系個(gè)體的單倍體細(xì)胞、一種或一種以上由有親屬關(guān)系個(gè)體配偶子產(chǎn)生的胚胎、一種或一種以上裂殖細(xì)胞、例如有親屬關(guān)系的個(gè)體中發(fā)現(xiàn)的胚胎、細(xì)胞外遺傳物質(zhì)、已知來(lái)源于有親屬關(guān)系的個(gè)體的遺傳物質(zhì)及其結(jié)合。
25.根據(jù)權(quán)利要求18所述的方法,其中所述目標(biāo)個(gè)體的遺傳數(shù)據(jù)使用下列技術(shù)進(jìn)行測(cè)定分子倒置探針(MIP)、基因型微矩陣、TaqMan SNP基因型試驗(yàn)、Illumina基因型系統(tǒng)及其他基因型試驗(yàn)、測(cè)序法、熒光原位雜交(FISH)、其他高通量基因型平臺(tái)、及其結(jié)合。
26.根據(jù)權(quán)利要求18所述的方法,其中所述方法不使用短串聯(lián)重復(fù)序列。
27.根據(jù)權(quán)利要求18所述的方法,其中所述方法考慮了在減數(shù)分裂期間發(fā)生DNA交叉的可能性。
28.根據(jù)權(quán)利要求18所述的方法,其中,通過(guò)使用二倍體遺傳數(shù)據(jù)推斷確定所述母系單倍體遺傳數(shù)據(jù),所述二倍體遺傳數(shù)據(jù)是從一種或一種以上裂殖細(xì)胞、父母的二倍體遺傳數(shù)據(jù)和父親的單倍體遺傳數(shù)據(jù)中確定的。
29.根據(jù)權(quán)利要求18所述的方法,其中本方法中使用的母系單倍體遺傳數(shù)據(jù)在不使用出生孩子的遺傳數(shù)據(jù)、不使用母親的遺傳數(shù)據(jù)并且不使用母親單倍體組織樣品的情況下已經(jīng)被確定。
30.根據(jù)權(quán)利要求18所述的方法,其中在移植前或者出生前進(jìn)行的關(guān)于遺傳疾病的遺傳診斷過(guò)程中完成目標(biāo)個(gè)體遺傳數(shù)據(jù)等位基因查出精確度的增加,并且,其中只使用一位患有所述遺傳疾病的有親屬關(guān)系的個(gè)體的遺傳數(shù)據(jù)。
31.根據(jù)權(quán)利要求18所述的方法,其中所述目標(biāo)個(gè)體是一種胚胎,并且其中,以篩選體外受精過(guò)程中傳遞的胚胎為目的進(jìn)行確定,并且,其中有親屬關(guān)系的個(gè)體選自由父親、母親、一種或者一種以上與父母相同的胚胎、一種或者一種以上來(lái)自父親的精液或其結(jié)合所組成的組中。
32.根據(jù)權(quán)利要求18所述的方法,其中,所述目標(biāo)個(gè)體是胎兒,并且在產(chǎn)前檢查過(guò)程中完成所述確定。
33.根據(jù)權(quán)利要求18所述的方法,其中,所述方法單獨(dú)進(jìn)行,或者與能夠在目標(biāo)個(gè)體中確定給定的染色體部分拷貝數(shù)的方法結(jié)合使用,并且,這兩種方法使用來(lái)自目標(biāo)個(gè)體的相同的細(xì)胞或者細(xì)胞組作為遺傳物質(zhì)源。
全文摘要
這里公開(kāi)了增加測(cè)定的遺傳數(shù)據(jù)精確度的系統(tǒng)和方法,在一個(gè)或者一小組細(xì)胞中,或者從零碎的DNA中,用于制造等位基因查出和用于確定非整倍性狀態(tài),其中有限數(shù)量的遺傳數(shù)據(jù)是有效的。來(lái)自目標(biāo)個(gè)體的遺傳物質(zhì)被獲得、擴(kuò)增,并且使用已知的方法測(cè)定遺傳數(shù)據(jù)。不適當(dāng)?shù)幕蛘卟徽_測(cè)定的堿基對(duì),錯(cuò)配的等位基因和錯(cuò)配區(qū)域可以使用預(yù)期的類(lèi)似物在目標(biāo)基因組和基因相關(guān)個(gè)體基因組之間重建。按照本發(fā)明的一個(gè)實(shí)施方案,使用來(lái)自雙親的一個(gè)或兩個(gè)中的較大的二倍體細(xì)胞的更為完整的遺傳數(shù)據(jù),在有或者沒(méi)有雙親的一個(gè)或兩個(gè)的單倍體遺傳數(shù)據(jù)的情況下,在多個(gè)位點(diǎn)構(gòu)建胚細(xì)胞不完全的遺傳數(shù)據(jù)。在本發(fā)明另一個(gè)實(shí)施方案中,從單個(gè)或者少量細(xì)胞中測(cè)定的遺傳數(shù)據(jù)中,在有或者沒(méi)有雙親的一個(gè)或者兩個(gè)的遺傳信息的情況下,可以確定染色體的拷貝數(shù)。在本法的另一個(gè)實(shí)施方案中,進(jìn)行這些確定從而實(shí)現(xiàn)在上下文所述的體外受精中篩選胚胎。在本發(fā)明另一個(gè)實(shí)施方案中,為了實(shí)現(xiàn)獲得表型預(yù)測(cè)的目的可以重建遺傳數(shù)據(jù)。
文檔編號(hào)G06F19/20GK101790731SQ200880016123
公開(kāi)日2010年7月28日 申請(qǐng)日期2008年3月17日 優(yōu)先權(quán)日2007年3月16日
發(fā)明者M·羅比諾威特茨, J·斯威特凱德-辛格, M·班杰維齊, D·S·約翰遜, D·科亞西, D·皮特羅, 徐晶, Z·P·德姆科 申請(qǐng)人:吉恩安全網(wǎng)絡(luò)公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
尉犁县| 满洲里市| 吉安市| 清河县| 弋阳县| 卢氏县| 新野县| 新安县| 闵行区| 馆陶县| 阜阳市| 抚顺市| 江门市| 贞丰县| 永新县| 元谋县| 青河县| 黔东| 东乌| 资溪县| 阜城县| 凤山市| 远安县| 台州市| 东乌| 克什克腾旗| 新蔡县| 辽宁省| 新晃| 湘阴县| 庄浪县| 通许县| 泗水县| 双柏县| 临沭县| 滕州市| 长岭县| 舟山市| 临泽县| 子长县| 秦安县|