利用靶向擴(kuò)增和測序的非侵入性胎兒基因組篩查的制作方法
【專利摘要】本發(fā)明提供了利用靶向擴(kuò)增和測序的非侵入性胎兒基因組篩查的方法、系統(tǒng)和裝置。選取了用于確定,例如,兩個(gè)序列(或兩組序列)的比率的失衡的一個(gè)或多個(gè)截止值??梢灾辽俨糠值鼗诤心阁w核酸序列背景的諸如母體血漿的樣品中胎兒DNA的百分比來確定所述截止值。還可以基于每一反應(yīng)的序列的平均濃度來確定該截止值。在一方面,從估計(jì)含有特定核酸序列的信息孔的比例來確定該截止值,其中該比例基于上文所述的百分比和/或平均濃度來確定。可以利用諸如序貫概率比檢驗(yàn)(SPRT)的許多不同類型的方法來確定該截止值。
【專利說明】利用靶向擴(kuò)增和測序的非侵入性胎兒基因組篩查
[0001]優(yōu)先權(quán)的要求
[0002]本申請(qǐng)要求于2007年7月23日提交的、題目為“核酸序列失衡的測定”的第60/951438號(hào)美國臨時(shí)申請(qǐng)(代理公司案卷號(hào)016285-005200US)的優(yōu)先權(quán),并且是所述臨時(shí)申請(qǐng)的正式申請(qǐng),該臨時(shí)申請(qǐng)的全部內(nèi)容通過引用的方式并入本文用于所有目的。
[0003]相關(guān)申請(qǐng)的交叉引用
[0004]本申請(qǐng)還涉及同時(shí)提交的、題目為“利用基因組測序診斷胎兒染色體非整倍性”的正式申請(qǐng)(代理公司案卷號(hào)016285-005220US),該正式申請(qǐng)的全部內(nèi)容通過引用的方式并入本文用于所有目的。
發(fā)明領(lǐng)域
[0005]本發(fā)明一般地涉及通過確定兩個(gè)不同核酸序列之間的失衡對(duì)基因型和疾病進(jìn)行的診斷檢測,更具體地,涉及通過檢測母體血液樣品對(duì)胎兒的唐氏綜合征、其它染色體非整倍性、突變和基因型的鑒定。本發(fā)明還涉及癌癥的檢測、移植的監(jiān)測和傳染病監(jiān)測。
[0006]發(fā)明背景
[0007]遺傳疾病、癌癥和其它病況通常由兩個(gè)對(duì)應(yīng)的染色體或等位基因或其它核酸序列中的失衡導(dǎo)致或產(chǎn)生兩個(gè)對(duì)應(yīng)的染色體或等位基因或其它核酸序列中的失衡。也就是說,一個(gè)序列相對(duì)于另一序列的量大于或小于正常值。通常地,正常比率恰好是50/50的比率。唐氏綜合征(21三體性 )是具有額外的染色體21失衡的這類疾病。
[0008]21三體性的常規(guī)產(chǎn)前診斷方法包括通過諸如羊膜穿刺取樣或絨毛膜絨毛取樣的侵入性操作的胎兒物質(zhì)的取樣,這引起胎兒丟失的有限風(fēng)險(xiǎn)。諸如通過超聲波掃描術(shù)和生化標(biāo)記物的篩查的無創(chuàng)性方法已經(jīng)用于在確定性的侵入性診斷方法前對(duì)孕婦進(jìn)行風(fēng)險(xiǎn)分級(jí)(risk-stratify)。然而,這些篩查方法通常測量與21三體性有關(guān)的附帶現(xiàn)象,而不是核心染色體異常,因此該篩查方法的診斷準(zhǔn)確性不是最佳的,并且具有其它劣勢,例如受孕齡影響大。
[0009]1997年發(fā)現(xiàn)的母體血漿中循環(huán)的無細(xì)胞胎兒DNA為無創(chuàng)產(chǎn)前診斷提供了新的可能性(Lo, YMD and Chiu, RWK2007Nat Rev Genet8, 71-77)。盡管這種方法已經(jīng)容易地應(yīng)用于性連鎖(Costa, JM et al.2002N Engl J Med346, 1502)和某些單基因病癥(Lo, YMDet al.1998N Engl J Med339, 1734-1738)的產(chǎn)前診斷,但是該方法在胎兒染色體非整倍性的產(chǎn)前檢測的應(yīng)用表現(xiàn)出相當(dāng)?shù)奶魬?zhàn)(Lo,YMD and Chiu, RWK2007,見上文)。首先,胎兒核酸與經(jīng)常能夠干擾分析的母體來源的核酸的高背景共同存在于母體血漿中(Lo,YMD etal.1998Am J Hum Genet62,768-775)。其次,胎兒核酸主要以無細(xì)胞形式在母體血漿中循環(huán),這使得難以獲得胎兒基因組中的基因或染色體的劑量信息。
[0010]最近實(shí)現(xiàn)了克服這些挑戰(zhàn)的明顯發(fā)展(Benachi,A&Costa, JM2007Lancet369, 440-442)。一種方法檢測母體血漿中的胎兒特異性核酸,從而克服了母體背景干擾的問題(Lo, YMD and Chiu, RWK2007,見上文)。從源自胎盤的DNA/RNA分子中的多態(tài)性等位基因的比率來推斷染色體21的劑量。然而,當(dāng)樣品含有較低量的靶向的基因時(shí),這種方法較不準(zhǔn)確,并且只能應(yīng)用于對(duì)靶向的多態(tài)性是雜合的胎兒,如果使用了一種多態(tài)性,則該靶向的多態(tài)性只是群體的子集。
[0011]Dhallan 等人(Dhal lan, R, et al.2007,見上文,Dhal lan, R, etal.2007Lancet369, 474-481)描述了通過向母體血漿中添加甲醛來富集循環(huán)的胎兒DNA比例的替代策略。通過評(píng)價(jià)對(duì)于染色體21上的單核苷酸多態(tài)性(SNP)遺傳自父親的胎兒特異性等位基因比非胎兒特異性等位基因的比率,來確定由母體血漿中胎兒貢獻(xiàn)的染色體21序列的比例。類似地計(jì)算參考染色體的SNP比率。然后通過檢測染色體21的SNP比率與參考染色體的SNP比率之間統(tǒng)計(jì)學(xué)的顯著差異來推斷胎兒染色體21的失衡,其中使用確定的小于0.05的P值來定義顯著。為了保證高群體覆蓋,祀向每個(gè)染色體多于500個(gè)的SNP。然而,對(duì)富集高比例的甲醛的有效性仍有爭議(Chung, GTY, et al.2005ClinChem51, 655-658),因此,該方法的可重復(fù)性需要進(jìn)一步的評(píng)價(jià)。此外,由于每個(gè)胎兒和母親將提供每個(gè)染色體的不同數(shù)目的SNP的信息,所以SNP比率比較的統(tǒng)計(jì)學(xué)檢驗(yàn)的效能在不同個(gè)例之間是可變的(Lo, YMD&Chiu, RffK.2007Lancet369, 1997)。而且,由于這些方法依賴于遺傳多態(tài)性的檢測,所以它們局限于對(duì)這些多態(tài)性是雜合的胎兒。
[0012]利用聚合酶鏈?zhǔn)椒磻?yīng)(PCR)以及從21三體性胎兒和整倍體胎兒獲得的羊膜細(xì)胞(amniocyte)培養(yǎng)物中的染色體21基因座和參考基因座的DNA定量,基于21三體性胎兒中染色體21的DNA序列的1.5倍的增加,Zimmermann等人(2002Clin Chem48, 362-363)能夠區(qū)分這兩組胎兒。由于DNA模板濃度的2倍差異組成了只有一個(gè)閥值循環(huán)的差別(Ct),所以1.5倍差異的鑒別已經(jīng)是常規(guī)實(shí)時(shí)PCR的極限。為了實(shí)現(xiàn)更精細(xì)程度的定量鑒別,亟需替代的策略。因此,出于這一目的,本發(fā)明的某些實(shí)施方案使用數(shù)字PCR(Vogelstein,B etal.1999Proc Natl Acad Sci USA96, 9236-9241)。
[0013]已經(jīng)開發(fā)了數(shù)字PCR來檢測核酸樣品中偏移的等位基因比率(Chang,HW etal.2002J Natl Cancer Inst94,1697-1703)。數(shù)字PCR在臨床上已經(jīng)被證實(shí)對(duì)于檢測腫瘤DNA樣品中的雜合性丟失(LOH)是有用的(Zhou, ff.et al.2002Lancet359, 219-225)。對(duì)于數(shù)字PCR結(jié)果分析,以前的研究采用了序貫概率比檢驗(yàn)(SPRT)來將實(shí)驗(yàn)結(jié)果分類為提示樣品中存在 LOH 或不存在 LOH(El Karoui et al.2006Stat Med25, 3124-3133)。在以前的研究所用的方法中,確定LOH的截止值(cutoff value)使用了 DNA中兩個(gè)等位基因的固定參考比率,該比率為2/3。由于母體血漿中胎兒核酸的量、比例和濃度是可變的,所以這些方法對(duì)于使用母體血漿中的母體核酸背景中的胎兒核酸來檢測21三體性是不合適的。
[0014]期望具有基于循環(huán)的胎兒核酸分析的胎兒21三體性(和其它失衡)檢測的無創(chuàng)檢測,特別是不依賴于遺傳多態(tài)性和/或胎兒特異性標(biāo)記物的使用的無創(chuàng)檢測。還期望具有截止值和序列記數(shù)的準(zhǔn)確測定,這能夠減少準(zhǔn)確性所需的數(shù)據(jù)孔的數(shù)目和/或母體血漿核酸分子的量,從而提供了增加的效率和成本效益。還期望該無創(chuàng)檢測具有高靈敏度和特異性以將誤診斷降至最低。
[0015]母體血漿中胎兒DNA檢測的另一應(yīng)用是單基因病癥的產(chǎn)前診斷,例如β-地中海貧血癥。然而,由于胎兒DNA只組成了母體血漿DNA的一小部分,所以這種方法被認(rèn)為只能夠檢測胎兒從其父親遺傳但是其母親沒有的突變。這種突變的實(shí)例包括導(dǎo)致β-地中海貧血癥的β-球蛋白基因的密碼子41/42的4bp缺失(Chiu RffK etal.2002Lancet, 360, 998-1000)和導(dǎo)致囊性纖維化的囊性纖維化跨膜傳導(dǎo)調(diào)節(jié)因子基因的Q890X 突變(Gonzalez-Gonzalez et al.2002Prenat Diagn, 22,946-8)。然而,由于 β-地中海貧血癥和囊性纖維化都是常染色體隱性條件的,其中在該疾病自身顯現(xiàn)前,胎兒需要繼承來自雙親中每個(gè)的突變,所以只檢測遺傳自父親的突變只會(huì)使得胎兒患有該疾病的風(fēng)險(xiǎn)從25%增加至50%。這在診斷上不是理想的。因此,當(dāng)胎兒能夠被排除具有純合疾病狀態(tài)時(shí),現(xiàn)有方法的主要診斷應(yīng)用是用于在母體血漿中不能檢測到遺傳自父親的胎兒突變的情況。然而,這種方法在診斷上的劣勢是,結(jié)論是基于父親突變的陰性檢測做出的。因此,允許從母體血漿中確定完整的胎兒基因型(純合正常、純合突變體或雜合)而沒有上文的限制的方法是非常理想的。
[0016]發(fā)明簡述
[0017]本發(fā)明的實(shí)施方案提供了用于確定在生物樣品中是否存在核酸序列失衡(例如,等位基因失衡、突變失衡或染色體失衡)的方法、系統(tǒng)和裝置。例如,選擇了用于確定兩個(gè)序列(或兩組序列)的量的比率的失衡的一個(gè)或多個(gè)截止值。
[0018]在一實(shí)施方案中,至少部分地基于諸如母體血漿或血清或尿的含有母體核酸序列背景的生物樣品中的胎兒(臨床相關(guān)的核酸)序列的百分比來確定所述截止值。在另一實(shí)施方案中,基于多個(gè)反應(yīng)中的序列的平均濃度來確定所述截止值。在一方面,從估計(jì)含有特定核酸序列的信息孔的比例來確定所述截止值,其中該比例是基于上文所述的百分比和/或平均濃度來確定的。
[0019]可以使用許多不同類型的方法來確定所述截止值,例如SPRT、假發(fā)現(xiàn)(falsediscovery)、置信區(qū)間、接收器工作特性(receiver operating characteristic) (ROC)。這種策略還在能夠做出置信分類(confident classification)前將檢測所要求的量降至最少。這種策略與模板的量通常是有限的血漿核酸分析是特別相關(guān)的。
[0020]根據(jù)一示例性·實(shí)施方案,提供了用于確定生物樣品中是否存在核酸序列失衡的方法,該方法包括:接收來自多個(gè)反應(yīng)的數(shù)據(jù),其中該數(shù)據(jù)包括:(1)表明臨床相關(guān)的核酸序列的第一量的第一組定量數(shù)據(jù);和(2)表明不同于所述臨床相關(guān)的核酸序列的背景核酸序列的第二量的第二組定量數(shù)據(jù);從這兩個(gè)數(shù)據(jù)組來確定參數(shù);從多個(gè)反應(yīng)的每一個(gè)中的參考核酸序列的平均濃度導(dǎo)出第一截止值,其中該參考核酸序列是所述臨床相關(guān)的核酸序列或所述背景核酸序列;將所述參數(shù)與所述第一截止值比較;并且,基于該比較來確定是否存在核酸序列失衡的分類。
[0021]根據(jù)另一示例性實(shí)施方案,提供了用于確定生物樣品中是否存在核酸序列失衡的方法,該方法包括:接收來自多個(gè)反應(yīng)的數(shù)據(jù),其中該數(shù)據(jù)包括:(I)表明臨床相關(guān)的核酸序列的第一量的第一組定量數(shù)據(jù);和(2)表明不同于所述臨床相關(guān)的核酸序列的背景核酸序列的第二量的第二組定量數(shù)據(jù),其中,所述臨床相關(guān)的核酸序列和所述背景核酸序列來自第一類型的細(xì)胞和來自一種或多種第二類型的細(xì)胞;從這兩個(gè)數(shù)據(jù)集來確定參數(shù);從得自核酸序列的量的測量的第一百分比導(dǎo)出第一截止值,該核酸序列來自生物樣品中所述第一類型的細(xì)胞;將所述參數(shù)與所述截止值比較;并且,基于該比較來確定是否存在核酸序列失衡的分類。
[0022]本發(fā)明的其它實(shí)施方案涉及與本文所述的方法相關(guān)的系統(tǒng)和計(jì)算機(jī)可讀取的介質(zhì)。
[0023]參照下文的發(fā)明詳述和附圖將更好地理解本發(fā)明的特性和優(yōu)勢。[0024]附圖簡述
[0025]圖1是示出數(shù)字PCR實(shí)驗(yàn)的流程圖。
[0026]圖2A示出本發(fā)明實(shí)施方案的數(shù)字RNA-SNP和RCD方法。
[0027]圖2B顯示了在癌癥中可頻繁檢測到的染色體畸變的實(shí)例的表格。
[0028]圖3示出按照本發(fā)明的實(shí)施方案用于確定唐氏綜合征的具有SPRT曲線的圖。
[0029]圖4顯示了按照本發(fā)明的實(shí)施方案利用胎兒細(xì)胞百分比來確定疾病狀態(tài)的方法。
[0030]圖5顯示了按照本發(fā)明的實(shí)施方案利用平均濃度來確定疾病狀態(tài)的方法。
[0031]圖6顯示的表格的列出了按照本發(fā)明的實(shí)施方案對(duì)于表示為每孔的平均參考模板濃度0?)的一系列模板濃度而言,21三體性樣品的預(yù)期數(shù)字RNA-SNP等位基因比率和Pro
[0032]圖7顯示的表格列出了按照本發(fā)明的實(shí)施方案對(duì)于表示為每孔的平均參考模板濃度Οτι,)的一系列模板濃度而言,21三體性樣品中的10%、25%、50%和100%的部分胎兒DNA濃度的預(yù)期Pr。
[0033]圖8顯示的圖示出了按照本發(fā)明的實(shí)施方案,數(shù)字RNA-SNP分析的0.1、0.5和1.0的m,值的SPRT曲線的差異程度。
[0034]圖9A顯示了按照本發(fā)明的實(shí)施方案在96孔數(shù)字RNA-SNP分析中比較用于分類整倍體和21三體性實(shí)例的新和舊SPRT算法的有效性的表格。
[0035]圖9B顯示了按照本發(fā)明的實(shí)施方案在384孔數(shù)字RNA-SNP分析中比較用于分類整倍體和21三體性實(shí)例的新和舊SPRT算法的有效性的表格。
[0036]圖10的表格顯示了按照本發(fā)明的實(shí)施方案,對(duì)于給定的信息計(jì)數(shù),被正確或錯(cuò)誤分類為整倍體或非整倍體以及那些不可分類的胎兒的百分比。
[0037]圖11是表格1100,顯示了按照本發(fā)明的實(shí)施方案,純(100%)胎兒DNA樣品的數(shù)字RCD分析的計(jì)算機(jī)模擬。
[0038]圖12是表格1200,顯示了按照本發(fā)明的實(shí)施方案,m,=0.5的數(shù)字RCD分析的準(zhǔn)確性的計(jì)算機(jī)模擬的結(jié)果,該數(shù)字RCD分析用于對(duì)來自具有不同部分濃度的胎兒DNA的整倍體或21三體性胎兒的樣品進(jìn)行分類。
[0039]圖13A顯示了按照本發(fā)明的實(shí)施方案,整倍體妊娠和21三體性妊娠的胎盤組織的數(shù)字RNA-SNP分析的表格1300。
[0040]圖13B顯示了按照本發(fā)明的實(shí)施方案,來自整倍體妊娠和21三體性妊娠的母體血漿的數(shù)字RNA-SNP分析的表格1350。
[0041]圖14A-14C顯示的圖示例了按照本發(fā)明實(shí)施方案得自RCD分析的截止曲線。
[0042]圖15A顯示了按照本發(fā)明的實(shí)施方案,整倍體妊娠和21三體性妊娠的胎盤組織中的數(shù)字RNA-SNP分析的表格。
[0043]圖15B顯示了按照本發(fā)明的實(shí)施方案,來自一個(gè)母體血漿樣品的12個(gè)反應(yīng)板的數(shù)字RNA-SNP數(shù)據(jù)的表格。
[0044]圖15C顯示了按照本發(fā)明的實(shí)施方案,來自整倍體妊娠和21三體性妊娠的母體血漿的數(shù)字RNA-SNP分析的表格。
[0045]圖16A顯示了按照本發(fā)明的實(shí)施方案,整倍體胎盤和18三體性胎盤的數(shù)字RNA-SNP分析的表格。[0046]圖16B顯示了按照本發(fā)明的實(shí)施方案,整倍體胎盤和18三體性胎盤的數(shù)字RNA-SNP數(shù)據(jù)的SPRT解釋。
[0047]圖17顯示了按照本發(fā)明的實(shí)施方案,整倍體妊娠和21三體性妊娠的50%胎盤/母體血液細(xì)胞DNA混合物的數(shù)字RCD分析的表格。
[0048]圖18顯示的SPRT曲線示例了按照本發(fā)明的實(shí)施方案,用于正確分類的判定邊界(decision boundary)。
[0049]圖19顯示了按照本發(fā)明的實(shí)施方案,來自整倍體妊娠和21三體性妊娠的羊水樣品的數(shù)字RCD分析的表格。
[0050]圖20顯示了按照本發(fā)明的實(shí)施方案,來自整倍體妊娠和18三體性妊娠的胎盤DNA樣品的數(shù)字RCD分析的表格(E=整倍體;T18=18三體性)。
[0051]圖21顯示了按照本發(fā)明的實(shí)施方案,整倍體妊娠和21三體性妊娠的50%胎盤/母體血液細(xì)胞DNA混合物的多重?cái)?shù)字RCD分析的表格(E=整倍體;Τ21=21三體性;U=未分類的)。
[0052]圖22A和22B顯示按照本發(fā)明的實(shí)施方案,50%整倍體或21三體性胎盤基因組DNA/50%母體血沉棕黃色層(buffy coat) DNA混合物的多重?cái)?shù)字RCD分析的表格。Unclass表示不可分類的并且T21表示21三體性。
[0053]圖23顯示了雄性和雌性配偶都攜帶相同突變的情況。
[0054]圖24A顯示按照本發(fā)明的實(shí)施方案,雌性/雄性和雄性/雄性DNA混合物的數(shù)字RMD分析的表格。
[0055]圖24B顯示了按照本發(fā)明的實(shí)施方案,25%雌性與75%雄性DNA混合物的數(shù)字RMD分析的表格。
[0056]圖25顯示了按照本發(fā)明的實(shí)施方案,模擬母體血漿樣品HbE突變的15%_50%DNA混合物的數(shù)字RMD分析的表格。
[0057]圖26A顯示了按照本發(fā)明的實(shí)施方案,模擬母體血漿樣品⑶41/42突變的5%_50%的DNA混合物的數(shù)字RMD分析的表格。
[0058]圖26B顯示了按照本發(fā)明的實(shí)施方案,模擬母體血漿樣品⑶41/42突變的20%的DNA混合物的數(shù)字RMD分析的表格。
[0059]圖27顯示了可用于本發(fā)明的實(shí)施方案的系統(tǒng)和方法的示例性計(jì)算機(jī)裝置的方框圖。
[0060]定義
[0061]本文所用的術(shù)語“生物樣品”意指取自個(gè)體(例如,諸如孕婦的人)并含有一種或多種感興趣的核酸分子的任何樣品。
[0062]術(shù)語“核酸”或“多核苷酸”意指脫氧核糖核酸(DNA)或核糖核酸(RNA)及其單鏈或雙鏈形式的聚合物。除非特別地限定,該術(shù)語包括含有天然核苷酸的已知類似物的核酸,其具有與參考核酸類似的結(jié)合特性,并且以與天然存在的核苷酸類似的方式進(jìn)行代謝。除非另外指明,特定的核酸序列還隱含地包括其保守地修飾的變體(例如,簡并密碼子取代)、等位基因、直向同源物、SNP和互補(bǔ)序列以及明確地指出的序列。具體地,簡并密碼子取代可以通過產(chǎn)生如下的序列實(shí)現(xiàn):其中一個(gè)或多個(gè)選擇的(或全部)密碼子的第三位被混合堿基和/或脫氧次黃苷殘基取代(Batzer et al., Nucleic AcidRes.19:5081(1991);Ohtsuka et al., J.Biol.Chem.260:2605-2608 (1985)和 Rossoliniet al.,Mol.Cell.Probes8:91-98 (1994))。術(shù)語核酸與基因、cDNA、mRNA、小非編碼 RNA、微RNA(miRNA)、Piwi_相互作用RNA以及基因或基因座編碼的短發(fā)夾RNA(shRNA)可交換使用。
[0063]術(shù)語“基因”表示與產(chǎn)生多肽鏈有關(guān)的DNA的片段。其可以包括編碼區(qū)之前和之后的區(qū)域(前導(dǎo)區(qū)和非轉(zhuǎn)錄尾區(qū))以及單獨(dú)的編碼片段(外顯子)之間的間插序列(內(nèi)含子)。
[0064]本文所用的術(shù)語“反應(yīng)”意指與表示感興趣的特定多核苷酸序列的存在或不存在的化學(xué)、酶或物理作用有關(guān)的任何過程?!胺磻?yīng)”的實(shí)例是諸如聚合酶鏈?zhǔn)椒磻?yīng)(PCR)的擴(kuò)增反應(yīng)?!胺磻?yīng)”的另一實(shí)例是通過合成或通過連接的測序反應(yīng)?!靶畔⒎磻?yīng)”是表明一種或多種感興趣的特定多核苷酸序列的存在的反應(yīng),并且在一種情況下,只存在一種感興趣的序列。本文所用的術(shù)語“孔”意指在有限的結(jié)構(gòu)內(nèi)的預(yù)定位置的反應(yīng),例如,PCR陣列中的孔狀小管、單元或室。
[0065]本文所用的術(shù)語“臨床相關(guān)的核酸序列”能夠指對(duì)應(yīng)于更大的基因組序列的片段的多核苷酸序列或者指更大的基因組序列自身,該多核苷酸序列的潛在失衡被檢測。一個(gè)實(shí)例是染色體21的序列。其它實(shí)例包括染色體18、13、X和Y。仍然其它的實(shí)例包括胎兒遺傳自其雙親中一個(gè)或兩個(gè)的突變的遺傳序列或遺傳多態(tài)性或拷貝數(shù)變異。仍然其它的實(shí)例包括在惡性腫瘤中突變、缺失或擴(kuò)增的序列,例如,發(fā)生了雜合性丟失或基因重復(fù)的序列。在某些實(shí)施方案中,多個(gè)臨床相關(guān)的核酸序列或該臨床相關(guān)的核酸序列等同的多個(gè)標(biāo)記物能夠用于提供檢測失衡的數(shù)據(jù)。例如,來自染色體21上的5個(gè)不連續(xù)序列的數(shù)據(jù)能夠以累加的方式用于確定可 能的染色體21失衡,從而將所需的樣品體積有效地減少至1/5。
[0066]本文所用的術(shù)語“背景核酸序列”意指與所述臨床相關(guān)的核酸序列的正常比率是已知的核酸序列,例如,I比I的比率。作為一個(gè)實(shí)例,所述背景核酸序列和所述臨床相關(guān)的核酸序列是來自相同的染色體并且由于雜合性而不同的兩個(gè)等位基因。在另一實(shí)例中,所述背景核酸序列是與另一等位基因雜合的一個(gè)等位基因,所述另一等位基因是所述臨床相關(guān)的核酸序列。而且,某些背景核酸序列和臨床相關(guān)的核酸序列的每一個(gè)可以來自不同的個(gè)體。
[0067]本文所用的術(shù)語“參考核酸序列”意指每個(gè)反應(yīng)的平均濃度是已知的或者已經(jīng)被等同地測量過的核酸序列。
[0068]本文所用的術(shù)語“過度表現(xiàn)的(overrepresented)核酸序列”意指在生物樣品中的兩個(gè)感興趣的序列(例如,臨床相關(guān)的序列和背景序列)之中豐度比另一序列更高的的核酸序列。
[0069]本文所用的術(shù)語“基于”表示“至少部分地基于”,并且意指在確定另一值時(shí)所用的一個(gè)值(或結(jié)果),例如,發(fā)生在方法的輸入和該方法的輸出的聯(lián)系中。本文所用的術(shù)語“導(dǎo)出”也意指方法的輸入和該方法的輸出的聯(lián)系,例如,當(dāng)導(dǎo)出是公式的計(jì)算時(shí)發(fā)生。
[0070]本文所用的術(shù)語“定量數(shù)據(jù)”表示從一個(gè)或多個(gè)反應(yīng)獲得并且提供一個(gè)或多個(gè)數(shù)值的數(shù)據(jù)。例如,顯示特定序列的熒光標(biāo)記物的孔的數(shù)目是定量數(shù)據(jù)。
[0071]本文所用的術(shù)語“參數(shù)”表示表征定量數(shù)據(jù)組和/或定量數(shù)據(jù)組之間的數(shù)值聯(lián)系的數(shù)值。例如,第一核酸序列的第一量與第二核酸序列的第二量之間的比率(或比率的函數(shù))是參數(shù)。[0072]本文所用的術(shù)語“截止值”表示用于在生物樣品的兩個(gè)或更多個(gè)類別狀態(tài)(例如,患病和未患病)之間進(jìn)行裁定(arbitrate)的數(shù)值。例如,如果參數(shù)大于截止值,將定量數(shù)據(jù)分為第一類(例如,患病狀態(tài)),或者如果該參數(shù)小于該截止值,則將定量數(shù)據(jù)分為另一類(例如,未患病狀態(tài))。
[0073]本文所用的術(shù)語“失衡”表示由臨床相關(guān)的核酸序列的量中至少一個(gè)截止值所定義的與參考量的任何顯著偏差。例如,該參考量能夠是3/5的比率,因此如果測量的比率是1:1,則發(fā)生了失衡。
[0074]發(fā)明詳述
[0075]本發(fā)明提供了方法、系統(tǒng)和裝置,用于確定在生物樣品中,與臨床相關(guān)的核酸序列相對(duì)于其它非臨床相關(guān)的序列的參考(例如,未患病)量比較,是否存在增加或減少(例如,染色體或等位基因失衡)。選擇一個(gè)或多個(gè)截止值來確定與參考量相比是否存在變化(即,失衡),例如,關(guān)于兩個(gè)序列(或兩組序列)的量的比率。檢測到的參考量變化可以是臨床相關(guān)的核酸序列與其它非臨床相關(guān)的序列的關(guān)系的任何偏差(上升或下降)。因此,參考狀態(tài)可以是任何比率或其它量(例如,除了 1-ι的對(duì)應(yīng)),并且表示變化的測量狀態(tài)可以是任何比率或不同于由一個(gè)或多個(gè)截止值所確定的參考量的其它量。
[0076]所述臨床相關(guān)的核酸序列和所述背景核酸序列可以來自第一類型的細(xì)胞和來自一種或多種第二類型的細(xì)胞。例如,源自胎兒/胎盤細(xì)胞的胎兒核酸序列存在于諸如母體血漿的生物樣品中,該生物樣品包含源自母體細(xì)胞的母體核酸序列的背景。因此,在一實(shí)施方案中,至少部分地基于生物樣品中所述第一類型的細(xì)胞的百分比來確定截止值。注意,可以通過任何源自胎兒的基因座來測定樣品中胎兒序列的百分比,并且不限于測量所述臨床相關(guān)的核酸序列。在另一實(shí)施方案中,至少部分地基于諸如血漿、血清、唾液或尿的生物樣品中腫瘤序列的百分比來確定截止值,該生物樣品包含源自體內(nèi)的非惡性細(xì)胞的核酸序列的背景。
·[0077]仍然在另一實(shí)施方案中,基于多個(gè)反應(yīng)中序列的平均濃度來確定截止值。在一方面,從估計(jì)含有特定核酸序列的信息孔的比例來確定所述截止值,其中該比例是基于上文所述的百分比和/或平均濃度來確定的??梢允褂迷S多不同類型的方法來確定截止值,例如,SPRT、假發(fā)現(xiàn)、置信區(qū)間、接收器工作特性(ROC)。這種策略還能夠在做出確信的分類前將檢測所要求的量降至最少。這與模板的量通常有限的血漿核酸分析是特別相關(guān)的。盡管通過數(shù)字PCR來表現(xiàn)這種策略,但是也可以使用其它方法。
[0078]數(shù)字PCR包括極端稀釋的核酸的多個(gè)PCR分析,從而大部分陽性擴(kuò)增反映了來自單個(gè)模板分子的信號(hào)。由此數(shù)字PCR允許計(jì)數(shù)單獨(dú)的模板分子。分析的PCR總數(shù)中的陽性擴(kuò)增的比例允許估計(jì)原始或未稀釋的樣品中的模板濃度。這種技術(shù)被認(rèn)為允許檢測各種遺傳現(xiàn)象(Vogelstein, B et al.1999,見上文),并且最近被用于檢測腫瘤樣品(Zhou, ff.etal.2002,見上文)和癌癥患者血漿(Chang, HW et al.2002,見上文)中的雜合性丟失。由于通過數(shù)字PCR的模板分子定量不依賴于報(bào)道染料與核酸濃度之間的劑量反應(yīng)關(guān)系,所以理論上數(shù)字PCR分析的精度應(yīng)當(dāng)高于實(shí)時(shí)PCR的精度。因此,數(shù)字PCR潛在地能夠允許鑒別靶基因座與參考基因座之間更精細(xì)程度的定量差異。
[0079]為了對(duì)此進(jìn)行檢測,我們首先評(píng)價(jià)數(shù)字PCR是否能夠測定母體血漿中來自染色體
21的胎盤轉(zhuǎn)錄物,PLAC4mRNA 的等位基因比率(Lo, YMD, et al.2007Nat Medl3, 218-223),從而區(qū)分21三體性胎兒和整倍體胎兒。這種方法被稱為數(shù)字RNA-SNP方法。我們?nèi)缓笤u(píng)價(jià)數(shù)字PCR增加的精度是否能夠允許檢測胎兒的染色體非整倍性而不依賴于遺傳多態(tài)性。我們將這種方法稱為數(shù)字相關(guān)的染色體劑量(RCD)分析。數(shù)字RNA-SNP方法依賴于多態(tài)性,但是在定量鑒別中要求較低的精度,而數(shù)字相關(guān)的染色體劑量(RCD)分析不依賴于多態(tài)性,但是對(duì)于定量鑒別要求較高的精度。
[0080]1.數(shù)字 RNA-SNP
[0081]A.概述
[0082]數(shù)字PCR能夠檢測DNA樣品中兩個(gè)等位基因的等位基因比率偏移的存在。例如,數(shù)字PCR已經(jīng)用于檢測腫瘤DNA樣品中的雜合性丟失(LOH)。假定在DNA樣品中有兩個(gè)等位基因,即A和G,并且A等位基因?qū)⒃诩?xì)胞中隨著LOH而丟失。當(dāng)在腫瘤樣品的50%的細(xì)胞中存在LOH時(shí),該DNA樣品中G:A的等位基因比率將是2:1。然而,如果在該腫瘤樣品中不存在LOHJU G:A的等位基因比率的比率將是1:1。
[0083]圖1是示出數(shù)字PCR實(shí)驗(yàn)的流程圖。在步驟110中,將DNA樣品稀釋,然后分配至單獨(dú)的孔中。注意,發(fā)明人已經(jīng)確定在原始樣品中,某些血漿核酸種類已經(jīng)被充分地稀釋。因此,如果某些模板已經(jīng)以需要的濃度存在,則不需將它們稀釋。在以前的研究中(例如,Zhou et al.2002,見上文),將DNA樣品稀釋至特定的“模板DNA”的平均濃度約是每孔的兩個(gè)模板中的一個(gè)模板0.5分子的程度。注意,術(shù)語“模板DNA”看起來意指A等位基因或G等位基因,并且沒有為這種具體的濃度提供原理闡述。
[0084]在步驟120中,在每個(gè)孔中進(jìn)行PCR過程來同時(shí)檢測A等位基因和/或G等位基因。在步驟130中,在每個(gè)孔中鑒定了標(biāo)記物(例如,通過熒光),例如,A、G、A和G或者A和G都不是。在沒有LOH的情況下,DNA樣品中的A等位基因與G等位基因的豐度將是相同的(每孔一個(gè)拷貝)。因此,孔對(duì)該A等位基因與對(duì)該G等位基因是陽性的概率是相同的。這通過對(duì)該A等位基因或?qū)υ揋等位基因是陽性的孔的數(shù)目相似反映出。然而,當(dāng)在腫瘤樣品的50%或更多的細(xì)胞中存在LOH時(shí),G等位基因和A等位基因的等位基因比率將至少是2:1。以前的方法簡單地假定,樣品是至少50%癌性的。因此,孔對(duì)G等位基因是陽性的概率將高于對(duì)A等位基因是陽性的概率。因此,對(duì)G等位基因是陽性的孔的數(shù)目將大于對(duì)A等位基因是陽性的孔的數(shù)目。
[0085]在步驟140中,為了分類數(shù)字PCR的結(jié)果,計(jì)數(shù)對(duì)每個(gè)等位基因是陽性的,但是對(duì)另一等位基因不是陽性的孔。在上文的實(shí)例中,計(jì)數(shù)了對(duì)A等位基因是陽性,但對(duì)G等位基因是陰性的孔的數(shù)目和對(duì)G等位基因是陽性,但對(duì)A等位基因是陰性的孔的數(shù)目。在一實(shí)施方案中,表現(xiàn)出較少的陽性孔的等位基因被視為參考等位基因。
[0086]在步驟150中,信息孔的總數(shù)被確定為對(duì)所述兩個(gè)等位基因的任一個(gè)是陽性的孔的數(shù)目的總和。在步驟160中 ,計(jì)算了由具有較多的陽性孔的等位基因貢獻(xiàn)的信息孔的比例(PJ (參數(shù)的實(shí)例)。Pf只對(duì)具有較多陽性孔的等位基因是陽性的孔的數(shù)目/只對(duì)一個(gè)等位基因(A或G)是陽性的孔的總數(shù)。其它實(shí)施方案能夠使用具有一個(gè)等位基因的全部孔除以具有至少一個(gè)等位基因的全部孔。
[0087]在步驟170中,確定Pr的值是否表示等位基因失衡。由于期望準(zhǔn)確度和效能,所以這一任務(wù)并非簡單的。確定失衡的一種方法使用了 Bayesian類似然方法,序貫概率比檢驗(yàn)(SPRT)。SPRT是允許隨著數(shù)據(jù)的積累比較兩種概率假設(shè)的方法。換言之,SPRT是將數(shù)字PCR結(jié)果分類為表示等位基因偏移存在或不存在的統(tǒng)計(jì)學(xué)方法。該方法具有將獲得特定統(tǒng)計(jì)功效和準(zhǔn)確度所需要分析的孔的數(shù)目減至最小的優(yōu)勢。
[0088]在示例性的SPRT分析中,將針對(duì)無效假設(shè)和備選假設(shè)來檢驗(yàn)實(shí)驗(yàn)結(jié)果。當(dāng)在樣品中有等位基因比率偏移時(shí),則接受備選假設(shè)。當(dāng)在樣品中沒有等位基因比率偏移時(shí),則接受無效假設(shè)。將該匕值與兩個(gè)截止值比較以接受無效假設(shè)或備選假設(shè)。如果沒有接受任何一個(gè)假設(shè),則將該樣品標(biāo)記為未分類的,這表示觀察到的數(shù)字PCR結(jié)果不足以以期望的統(tǒng)計(jì)學(xué)可信度將該樣品進(jìn)行分類。
[0089]通常基于在假設(shè)中給出的假定下的己固定值來計(jì)算接受無效假設(shè)或備選假設(shè)的截止值。在所述無效假設(shè)中,假定樣品沒有表現(xiàn)出等位基因比率偏移。因此,對(duì)A等位基因和G等位基因是陽性的每個(gè)孔的概率將是相同的,因此,匕的預(yù)期值將是1/2。在所述備選假設(shè)中,Pr的預(yù)期值是2/3,或者大約是0.5與2/3的中間值,例如0.585。并且,由于有限的實(shí)驗(yàn)數(shù)目,能夠選擇上限(.585+3/N)和表示為(.585-3/N)的下限。
[0090]B.唐氏綜合征的檢測
[0091]在本發(fā)明的一實(shí)施方案中,數(shù)字SNP用于從孕婦血漿中檢測胎兒唐氏綜合征。使用對(duì)胎兒/胎盤細(xì)胞特異性的標(biāo)記物可以測量染色體21中的等位基因比率。例如,為了確定觀察到的PLAC4等位基因的過度表現(xiàn)的程度是否是統(tǒng)計(jì)學(xué)顯著的,使用SPRT。
[0092]根據(jù)一示例性的實(shí)施方案,數(shù)字RNA-SNP確定了位于PLAC4mRNA的A/G SNP,rs8130833的多態(tài)性等位基因比率的失衡,該mRNA是從染色體21轉(zhuǎn)錄并被胎盤表達(dá)的。對(duì)于雜合的整倍體胎兒,A等位基因和G等位基因應(yīng)當(dāng)在胎兒基因組中被相等地表現(xiàn)(1:1基因組比率);而在21三體性中,三體的染色體21將與胎兒基因組中的一個(gè)SNP等位基因的額外拷貝有關(guān),從而獲得2:1的比率。數(shù)字PCR的目的是確定分析的樣品中的兩個(gè)PLAC4等位基因的量是 否相等。因此,A PLAC4等位基因和G PLAC4等位基因都是靶模板。設(shè)計(jì)了實(shí)時(shí)PCR測定來擴(kuò)增PLAC4mRNA,并且通過TaqMan熒光探針來鑒別這兩個(gè)SNP等位基因。分析步驟的示意圖示于圖2A中。
[0093]圖2A示出本發(fā)明實(shí)施方案的數(shù)字RNA-SNP方法200。在步驟210中,接收樣品。在步驟220中,在提取的RNA樣品中將諸如PLAC4mRNA的核酸序列定量。在一實(shí)施方案中,通過PLAC4mRNA的實(shí)時(shí)PCR來進(jìn)行這種定量。在一方面,這個(gè)步驟為操作者提供在靶標(biāo)達(dá)到數(shù)字PCR分析的“范圍”前所需的稀釋程度的概念。
[0094]在步驟230中,將樣品稀釋。在步驟240中,測量稀釋的樣品的濃度。稀釋的樣品濃度可以被證實(shí)為約I個(gè)模板/孔(即,參考序列或非參考序列或任何一個(gè)等位基因)。某些實(shí)施方案使用第IV部分所述的技術(shù)來進(jìn)行這一測量。例如,我們將稀釋的樣品分配至實(shí)時(shí)PCR分析的96個(gè)孔中來保證實(shí)現(xiàn)了可用的稀釋。如在后文中將解釋的,稀釋濃度也可以是未知的,從而省略這一步驟。
[0095]在步驟250中,在陣列的每個(gè)孔中進(jìn)行數(shù)字PCR。例如,將相同的稀釋的樣品分配至實(shí)時(shí)PCR分析的384個(gè)孔中。從PCR結(jié)果中鑒定了每個(gè)核酸序列的標(biāo)記物的量和信息孔的數(shù)目。信息孔被定義為僅對(duì)A等位基因或G等位基因是陽性,而不是對(duì)兩個(gè)等位基因都是陽性的孔。在步驟260中,計(jì)算匕的預(yù)期值。在后文中將更詳細(xì)地討論這些步驟。所述計(jì)算包括從步驟250所測定的值來確定參數(shù)。例如,可以計(jì)算每孔的實(shí)際平均模板濃度。
[0096]在步驟270中,可以進(jìn)行SPRT或其它似然比率檢驗(yàn)來確定是否存在失衡。對(duì)于整倍體情況,我們預(yù)期相等數(shù)目的A陽性孔和G陽性孔。然而,當(dāng)分析來自21三體性胎兒的模板分子時(shí),只含有一個(gè)等位基因的孔的數(shù)目將大于只含有另一等位基因的孔的數(shù)目。簡而言之,等位基因失衡對(duì)21三體性是預(yù)期的。
[0097]如上文所述的,SPRT是 Bayesian 類似然方法(Bayesian-type likelihoodmethod),該方法允許隨數(shù)據(jù)的積累比較兩個(gè)概率假設(shè)。在21三體性檢測的數(shù)字PCR分析中,當(dāng)存在等位基因失衡時(shí)(即,檢測到21三體性),則接受備選假設(shè);當(dāng)沒有等位基因失衡時(shí)(即,沒有檢測到21三體性),則接受無效假設(shè)。更多數(shù)目計(jì)數(shù)的等位基因被稱為潛在地過度表現(xiàn)的等位基因,并且將計(jì)算該等位基因在全部信息孔中的比例(Pr)。如果該已表明了足夠程度的對(duì)21三體性樣品預(yù)期的等位基因失衡,則應(yīng)用SPRT來進(jìn)行確定。
[0098]可操作地,能夠通過使用具有一對(duì)SPRT曲線的圖來應(yīng)用和解釋SPRT,構(gòu)建該SPRT曲線來定義接受或拒絕任何一個(gè)假設(shè)的概率邊界。圖3示出按照本發(fā)明的實(shí)施方案用于確定唐氏綜合征的SPRT曲線的圖。當(dāng)能做出確信的分類時(shí),SPRT曲線將對(duì)潛在過度表現(xiàn)的等位基因是陽性的信息孔的所需比例已(y-軸)對(duì)信息孔的給定的總數(shù)(X-軸)作圖。如圖3所示,上部曲線設(shè)定接受備選假設(shè)的概率邊界,而下部曲線設(shè)定接受無效假設(shè)的概率邊界。
[0099]將實(shí)驗(yàn)推導(dǎo)出的匕值與預(yù)期匕值相比較以便接受或拒絕任一假設(shè)。如果接受無效假設(shè),則將該樣品分類為從懷有整倍體胎兒的孕婦獲得的樣品。如果接受備選假設(shè),則將該樣品分類為從懷有21三體性胎兒的孕婦獲得的樣品。可選擇地,如果給定數(shù)目的信息計(jì)數(shù)的匕沒有達(dá)到疾病分類所要求的統(tǒng)計(jì)學(xué)可信度,則不能接受任何一個(gè)假設(shè)。在有更多的可用數(shù)據(jù)以前,這些情況被視為不可分類的。如果疾病分類是不可能的,則可以進(jìn)行額外的384孔板直到累積的數(shù)據(jù)可以通過SPRT來分類。
[0100]因此,對(duì)于給定水平的可信度,SPRT比其它統(tǒng)計(jì)學(xué)方法提供了更少的所需檢測量的優(yōu)勢。在實(shí)踐中,只 要積累了所需量的數(shù)據(jù),SPRT就允許接受或拒絕任何一個(gè)假設(shè),從而將不需要的額外分析降至最低。這種特性與通常以低濃度存在的血漿核酸的分析特別相關(guān),其中可用的模板的數(shù)目是有限的。除了嚴(yán)格的分類以外,所述分類還可以包括百分比準(zhǔn)確度。例如,來自與截止值比較的分類可以提供表現(xiàn)出具有某一百分比的核酸序列失衡的可能性的樣品,或者,等效地提供準(zhǔn)確至某一百分比或其它值的確定失衡。
[0101]利用母體血漿或血清中的胎兒核酸,可以應(yīng)用類似的方法來確定關(guān)于突變或遺傳多態(tài)性的胎兒基因型。應(yīng)當(dāng)記得的是,胎兒將從其母親遺傳胎兒一半的基因組。作為示例,考慮具有兩個(gè)等位基因A和B的特定遺傳基因座。如果母親是基因型為AB的雜合子,則胎兒理論上能夠具有AA、BB或AB的基因型。如果胎兒的基因型為AB,即,與母親相同,則母體血漿中將只有AB基因型的核酸(既來自母親又來自胎兒)。因此,在母體血漿中觀察到了核酸或等位基因的平衡。在另一方面,如果胎兒的基因型為AA或BB,則在母體血漿中將分別有過度表現(xiàn)的A等位基因或B等位基因的等位基因失衡。這種考慮還適用于導(dǎo)致疾病的突變(例如,導(dǎo)致囊性纖維化、β -地中海貧血癥或脊髓型肌萎縮的那些突變),在這種情況下,A能夠被考慮為野生型等位基因,而B能夠被考慮為突變體等位基因。
[0102]I1.數(shù)字 RCD
[0103]數(shù)字RNA-SNP的劣勢是,其只能應(yīng)用于被分析的SNP是雜合的個(gè)例。一個(gè)改進(jìn)是,基于循環(huán)的胎兒核酸分析的檢測胎兒21三體性或其它胎兒染色體非整倍性(例如,18三體性、13三體性和性染色體非整倍性)的無創(chuàng)檢測與遺傳多態(tài)性的使用無關(guān)將是理想的。因此,在一實(shí)施方案中,通過相對(duì)于位于參考染色體,即本研究中的染色體I上的基因座的非多態(tài)性的染色體21基因座的數(shù)字PCR分析來測定染色體劑量。從21三體性個(gè)例中區(qū)分整倍體胎兒基因組中染色體21比染色體I的比率偏離2:2的變化。在21三體性檢測的數(shù)字PCR分析中,要比較的兩個(gè)假設(shè)將是沒有染色體失衡(B卩,沒有檢測到21三體性)的無效假設(shè)和存在染色體失衡(即,檢測到了 21三體性)的備選假設(shè)。
[0104]這種方法能夠被推廣至與其它染色體非整倍性有關(guān)的其它染色體,例如,18三體性中的染色體18、13三體性中的染色體13、特納綜合征中的染色體X。另外,除了染色體1,與非整倍性無關(guān)的其它染色體也能夠用作參考染色體。通過分析在癌癥中通常部分地缺失的染色體比參考染色體的比率的變化,能夠?qū)㈩愃频姆椒☉?yīng)用于檢測癌癥。通常部分地缺失的染色體的實(shí)例包括直結(jié)腸癌中的染色體5q、肺癌中的染色體3p和鼻咽癌中的染色體9p。圖2B列出了某些導(dǎo)致序列失衡的某些常見的與癌癥有關(guān)的染色體畸變。
[0105]圖2A還示出本發(fā)明實(shí)施方案的數(shù)字RCD方法205。在步驟220-230的一實(shí)施方案中,例如,通過Nanodrop技術(shù),將提取的DNA定量,并稀釋至每孔大約一個(gè)靶模板的濃度,所述靶模板來自染色體21或標(biāo)準(zhǔn)化的染色體(例如,染色體I)的。在步驟240的一實(shí)施方案中,在384孔板中使用兩個(gè)TaqMan探針進(jìn)行數(shù)字RCD分析前,可以進(jìn)行如下證實(shí):通過分析稀釋的DNA樣品來證實(shí)約37%的水平的孔是否是陰性的,該分析只通過使用96孔格式的染色體I探針的測定來進(jìn)行。37%的顯著性將在后面的第IV部分中進(jìn)行討論。
[0106]步驟240的檢測和步驟250的結(jié)果可以用設(shè)計(jì)成擴(kuò)增存在于兩條染色體上的種內(nèi)同源序列(paralogous sequence) (Deutsch, S.et al.2004J Med Genet41, 908-915)的實(shí)時(shí)PCR測定來完成,所述染色體被通過一對(duì)TaqMan探針鑒別的平行同源序列變化所區(qū)分。在本文中,信息孔被定義為對(duì)任一染色體21或染色體I基因座是陽性的,而對(duì)這兩條染色體不都是陽性的孔。對(duì)于整倍體胎兒,對(duì)任一基因座是陽性的信息孔的數(shù)目應(yīng)當(dāng)大致相等。對(duì)于21三體性胎兒,應(yīng)當(dāng)有與染色體I陽性孔相比,染色體21陽性孔的過度表現(xiàn)。在下文的部分中描述了過度表現(xiàn)的確切比例。
[0107]II1.并入胎兒序列的百分比
[0108]上文所述的方法200和205的實(shí)施方案的劣勢在于胎兒特異性的標(biāo)記物是必需的。因此,在本發(fā)明的一實(shí)施方案中使用了非胎兒特異性的標(biāo)記物。為了使用這種非胎兒特異性的標(biāo)記物,本發(fā)明的實(shí)施方案測量了母體血漿(即,生物樣品)中胎兒DNA的部分濃度(fractional concentration)。通過這些信息,可以按照如下步驟來計(jì)算更有用的P1?值。
[0109]即便對(duì)于母體血漿中胎兒DNA的小的部分百分比,21三體性胎兒將通過釋放至母體血衆(zhòng)中的胎兒DNA的基因組當(dāng)量(genome-equivalent) (GE)貢獻(xiàn)額外劑量的染色體21序列。例如,含有50GE/ml總DNA和5GE/ml胎兒貢獻(xiàn)的DNA (即,10%胎兒DNA部分濃度)的來自整倍體妊娠的母體血漿樣品將會(huì)含有每毫升母體血漿總共100個(gè)拷貝(90個(gè)母體拷貝+10個(gè)胎兒拷貝)的染色體21序列。對(duì)于21三體性妊娠,每個(gè)胎兒GE將貢獻(xiàn)3個(gè)拷貝的染色體21,這導(dǎo)致母體血漿中總共105個(gè)拷貝/ml (90個(gè)母體拷貝+15個(gè)胎兒拷貝)的染色體21序列。因此,在10%的胎兒DNA濃度時(shí),三體妊娠母體血漿中源自染色體21的序列的量將是整倍體情況的1.05倍。因此,如果能夠開發(fā)測定這種小程度的定量差異的分析方法,將實(shí)現(xiàn)不依賴于多態(tài)性的胎兒21三體性的無創(chuàng)產(chǎn)前診斷檢測。
[0110]因此,過度表現(xiàn)的程度將取決于分析的DNA樣品中部分胎兒DNA濃度。例如,當(dāng)分析胎盤DNA時(shí),胎兒基因組中的理論RCD比率應(yīng)當(dāng)是3:2,即,1.5倍的差異。然而,如上文所述的,當(dāng)分析含有10%的胎兒母體血漿時(shí),該理論RCD比率將降至1.05。通過將只對(duì)染色體21基因座是陽性的孔的數(shù)目除以信息孔的總數(shù)來計(jì)算實(shí)驗(yàn)導(dǎo)出的己。用計(jì)算的已和理論RCD比率來對(duì)實(shí)驗(yàn)導(dǎo)出的進(jìn)行SPRT分析。
[0111]圖4表示按照本發(fā)明的實(shí)施方案,利用胎兒核酸百分比來確定疾病狀態(tài)的方法400。在步驟410中,測量了胎兒物質(zhì)的部分百分比。在一實(shí)施方案中,通過測量相對(duì)于非胎兒特異性標(biāo)記物(即,在母親和胎兒中都存在的基因序列)的胎兒特異性標(biāo)記物(例如,Y染色體,遺傳多態(tài)性標(biāo)記物(例如,SNP)、胎盤外遺傳特征(epigenetic signature))的量來確定所述部分百分比。通過實(shí)時(shí)PCR、數(shù)字PCR、測序反應(yīng)(包括大規(guī)模平行基因組測序)或任何其它定量方法來進(jìn)行實(shí)際的測量。在一方面,優(yōu)選地不使用對(duì)于本測量能夠潛在地處于等位基因失衡的基因祀標(biāo)。
[0112]在步驟420中,進(jìn)行了數(shù)字PCR或其它測量方法,包括將樣品稀釋,將該稀釋的樣品置于孔中并測量每孔中的反應(yīng)。在步驟430中,將PCR結(jié)果用于鑒定不同參考核酸序列(例如染色體或等位基因)的標(biāo)記物。在步驟440中,計(jì)算了過度表現(xiàn)的序列的實(shí)際比率(Pr)。在步驟450中,利用樣品中胎兒物質(zhì)的百分比來計(jì)算用于確定疾病狀態(tài)的截止值。在步驟460中,從該實(shí)際匕和該截止值來確定是否存在失衡。
[0113]在一實(shí)施方案中,將參考核酸序列的部分百分比并入數(shù)字RNA-SNP方法中。因此,當(dāng)研究由于癌細(xì)胞的LOH時(shí),能夠用少于50%癌細(xì)胞的腫瘤樣品來進(jìn)行這一步驟。還可以將這一步驟用于多于50%的癌細(xì)胞的樣品以獲得更準(zhǔn)確的已,并因此減少將導(dǎo)致錯(cuò)誤診斷的假陽性的數(shù)目。在另一實(shí)施方案中,將胎兒核酸百分比并入數(shù)字PCR方法中以確定胎兒是否已遺傳了父母的基因突變(例如,導(dǎo)致囊性纖維化或β_地中海貧血癥或脊髓型肌萎縮的突變)或確定來自母體血漿核酸分析的多態(tài)性。
[0114]IV.并入 毎孔的平詢濃度
[0115]以前的方法(例如,Zhou, W.et al.2002,見上文)的另一個(gè)劣勢是要求每孔的平均模板濃度(m)是每孔I個(gè)??紤]到難以獲得確切的濃度,這能夠?qū)е抡`差。而且,甚至對(duì)于每孔I個(gè)模板的確切濃度,以前的方法忽略了孔中的模板的統(tǒng)計(jì)學(xué)分布。在以前的方法,即,老的算法中,假定接受備選假設(shè)的匕的預(yù)期值是等位基因比率,因此,該匕的預(yù)期值與每孔中的模板DNA的平均濃度無關(guān)。
[0116]然而,由于稀釋樣品中模板的天然統(tǒng)計(jì)變異(statistical variation),將不會(huì)有確切的每孔I個(gè)模板。本發(fā)明的實(shí)施方案測量至少一種序列的平均濃度,然后將該平均濃度用于計(jì)算截止值,即預(yù)期的匕。在一方面,這種計(jì)算包括了統(tǒng)計(jì)學(xué)分布以確定含有不同核酸序列的孔的概率,然后將該概率用于確定預(yù)期的已。
[0117]在一實(shí)施方案中,獲取了一種參考核酸序列的平均濃度,其在一實(shí)例中是DNA樣品中較低濃度的核酸序列。在樣品不具有失衡的情況下,樣品中兩種序列的濃度將是相同的,并且任何一種都能夠被視為參考等位基因。在樣品具有,例如,LOH的情況下,在癌細(xì)胞中缺失的等位基因?qū)⒈灰暈閰⒖嫉任换?。將該參考等位基因的平均濃度表示為πν。在另一?shí)施方案中,濃度較高的序列可以被視作參考序列。Α.數(shù)字SNP:使用SPRT和數(shù)字PCR的實(shí)例
[0118]圖5顯示了按照本發(fā)明的實(shí)施方案,使用平均模板濃度來確定疾病狀態(tài)的方法500。在步驟510中,測量了不同序列的量。例如,可以通過計(jì)數(shù)如上文所解釋的數(shù)字PCR實(shí)驗(yàn)中的標(biāo)記物來進(jìn)行這一步驟。然而,可以通過其它方法來進(jìn)行這一步驟,該方法不包括擴(kuò)增步驟或者不使用熒光標(biāo)記物,但是能夠使用其它屬性,例如如同質(zhì)量的物理屬性、比旋光屬性或堿基配對(duì)屬性。
[0119]在步驟520中,測定了過度表現(xiàn)的序列的實(shí)際比例。如上文所述的,可以通過獲取只表現(xiàn)出過度表現(xiàn)的序列的孔的數(shù)目,然后將該數(shù)目除以信息孔的數(shù)目來完成這個(gè)步驟。在步驟530中,測量了至少一種序列(參考序列)的平均濃度。在一實(shí)施方案中,所述參考序列是過度表現(xiàn)的序列。在另一實(shí)施方案中,所述參考序列是過少表現(xiàn)(underrepresented)的序列??梢酝ㄟ^計(jì)數(shù)在數(shù)字PCR實(shí)驗(yàn)中對(duì)參考序列是陰性的孔的數(shù)目來進(jìn)行測量。如在下個(gè)分段中所述的,通過泊松分布(Poisson distribution)來描述陰性孔的比例與平均目標(biāo)濃度之間的關(guān)系。
[0120]在步驟540中,例如,使用泊松分布來計(jì)算對(duì)不同的序列是陽性的孔的預(yù)期量。該預(yù)期量可以是每孔的序列的概率、每孔的平均序列、含有序列的孔的數(shù)目或其它合適的量。在步驟550中,從該預(yù)期的量計(jì)算預(yù)期的P,。在步驟560中,例如,通過使用SPRT,從預(yù)期的已計(jì)算截止值。在步驟570中,確定了核酸序列失衡的分類。現(xiàn)在將描述方法500的具體方面。
[0121]1.確定序列的預(yù)期暈
[0122]一旦從步驟530知道了每孔的平均濃度(反應(yīng)或反應(yīng)混合物),就可以在步驟540中計(jì)算表現(xiàn)出該序列的孔的預(yù)期數(shù)目。這種量可以表示為%、分?jǐn)?shù)值或整數(shù)值。利用具體的實(shí)例進(jìn)行說明,假定每孔的參考模板的平均濃度OiO是每孔0.5個(gè),并且21三體性胎兒在PLAC4SNP,rs8130833的基因型是AGG。因此,參考模板是A等位基因,并且過度表現(xiàn)的模板是G等位基因。
[0123]在一實(shí)施方案中,假定A等位基因在諸如數(shù)字PCR的測量方法的孔的反應(yīng)混合物中的分布是泊松分布。在其它實(shí)施方案中,使用了其它分布函數(shù),例如二項(xiàng)分布。
[0124]泊松方程式是:,其中,n=每孔的模板分子的數(shù)目;Ρ(η)=η個(gè)模板分子在
特定的孔中的概率;并且m=特定的數(shù)字PCR實(shí)驗(yàn)中一個(gè)孔中的模板分子的平均數(shù)目。
[0125]因此,在0.5的平均A等位基因的濃度下,不含A等位基因的任何分子的任何孔的概率是:
【權(quán)利要求】
1.通過分析母體血液樣品確定胎兒非整倍性存在或缺失的方法,所述母體血液樣品包括胎兒和母體的無細(xì)胞基因組DNA,所述方法包括: 擴(kuò)增來自第一染色體的第一特異性靶基因座的DNA和擴(kuò)增來自至少一條第二染色體的第二特異性靶基因座的DNA ; 測序所述擴(kuò)增的DNA以獲得序列標(biāo)簽; 確定來自所述第一染色體的第一特異性靶基因座的序列標(biāo)簽的第一量; 確定來自所述至少一條第二染色體的第二特異性靶基因座的序列標(biāo)簽的第二量;以及比較序列標(biāo)簽的所述第一量和所述第二量,以確定所述第一染色體是否存在胎兒非整倍性。
2.如權(quán)利要求1所述的方法,其中所述擴(kuò)增DNA包括納升聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、乳液PCR、polony PCR和滾動(dòng)循環(huán)擴(kuò)增中的至少一種。
3.如權(quán)利要求1所述的方法,其中所述擴(kuò)增DNA使用正向引物和反向引物來擴(kuò)增來自特異性靶基因座的DNA。
4.如權(quán)利要求3所述的方法,其中所述擴(kuò)增來自所述特異性靶基因座的DNA產(chǎn)生由所述正向引物和所述反向引物限定長度的擴(kuò)增子。
5.如權(quán)利要求1所述的方法,其中將相同的引物對(duì)用于擴(kuò)增來自所述第一特異性靶基因座中的一個(gè)的DNA和來自所述第二特異性靶基因座中的一個(gè)的DNA。
6.如權(quán)利要求1所述的方法,其中基于比較所述第一量和所述第二量確定所述第一染色體是否存在胎兒非整倍性包括:· 確定所述生物樣品中胎兒DNA的部分濃度; 利用所述部分濃度來確定所述第一量和所述第二量之間差別的截止值,以表明所述第一染色體存在胎兒非整倍性。
7.如權(quán)利要求6所述的方法,其中確定所述生物樣品中胎兒DNA的部分濃度包括定量所述女性個(gè)體與所述胎兒之間的多態(tài)性差異。
8.如權(quán)利要求7所述的方法,其中所述定量包括: 鑒定所述女性個(gè)體是純合而胎所述兒是雜合的靶多態(tài)性位點(diǎn);以及比較所述靶多態(tài)性位點(diǎn)處胎兒特異性等位基因的量與所述靶多態(tài)性位點(diǎn)處共同等位基因的量,以確定胎兒DNA的部分濃度,所述共同等位基因不是胎兒特異性的。
9.如權(quán)利要求6所述的方法,其中確定所述生物樣品中胎兒DNA的部分濃度包括: 比較第一基因座處表現(xiàn)出胎兒特異性甲基化方式的DNA分子的量與所述第一基因座處DNA分子的總量。
10.如權(quán)利要求1所述的方法,其中確定所述第一量包括: 確定來自所述第一特異性靶基因座中的每一個(gè)的序列標(biāo)簽的量;以及 進(jìn)行所述量的加和。
11.如權(quán)利要求10所述的方法,其還包括: 在計(jì)算加和之前修正所述量。
12.如權(quán)利要求1所述的方法,其中確定所述第一量包括: 將所述序列標(biāo)簽與人基因組進(jìn)行比對(duì);以及 計(jì)數(shù)與所述第一特異性靶基因座比對(duì)的序列標(biāo)簽的數(shù)目。
13.如權(quán)利要求1所述的方法,其中比較所述第一量和所述第二量以確定所述第一染色體是否存在胎兒非整倍性包括: 確定所述第一量相對(duì)于所述第二量的比例;以及 將所述比例與參考值比較,以確定所述第一染色體是否存在胎兒非整倍性。
14.確定懷有胎兒的女性個(gè)體的生物樣品中胎兒非整倍性存在或缺失的方法,所述生物樣品包括來自所述女性個(gè)體和來自所述胎兒的無細(xì)胞基因組DNA,所述方法包括: 富集所述生物樣品中來自第一染色體的第一特異性靶基因座和至少一條第二染色體的第二特異性靶基因座的DNA,以獲得富集的樣品; 測序所述富集的樣品中的DNA分子,以獲得序列標(biāo)簽; 確定來自所述第一染色體的第一特異性靶基因座的序列標(biāo)簽的第一量; 確定來自至少一條第二染色體的第二特異性靶基因座的序列標(biāo)簽的第二量; 基于比較所述第一量和所述第二量,確定所述第一染色體是否存在胎兒非整倍性。
15.如權(quán)利要求14所述的方法,其中第一特異性靶基因座和第二特異性靶基因座中的至少一對(duì)是種內(nèi)同源的。
16.如權(quán)利要求14所述的方法,其中富集所述生物樣品包括: 利用基于雜交的技術(shù)。
17.如權(quán)利要求16所述的方法,其中所述利用基于雜交的技術(shù)包括:` 利用寡核苷酸陣列來選擇來自所述第一染色體的第一特異性靶基因座和所述至少一條第二染色體的第二特異性靶基因座的DNA。
18.如權(quán)利要求14所述的方法,其中富集所述生物培養(yǎng)包括: 擴(kuò)增來自所述第一染色體的第一特異性靶基因座和所述至少一條第二染色體的第二特異性靶基因座的DNA。
19.如權(quán)利要求18所述的方法,其中將相同的引物對(duì)用于擴(kuò)增來自所述第一特異性靶基因座中的一個(gè)的DNA和來自所述第二特異性靶基因座中的一個(gè)的DNA。
20.如權(quán)利要求14所述的方法,其中確定所述第一量包括: 將所述序列標(biāo)簽與人基因組進(jìn)行比對(duì);以及 計(jì)數(shù)與所述第一特異性靶基因座中的一個(gè)比對(duì)的序列標(biāo)簽的數(shù)目。
21.如權(quán)利要求14所述的方法,其中確定所述第一量包括: 確定來自所述第一特異性靶基因座中的每一個(gè)的序列標(biāo)簽的各自量;以及 進(jìn)行所述各自量的加和。
22.如權(quán)利要求21所述的方法,其還包括: 在計(jì)算加和之前修正所述各自量。
23.如權(quán)利要求14所述的方法,其中所述測序包括連接。
24.如權(quán)利要求14所述的方法,其中基于比較所述第一量和所述第二量以確定所述第一染色體是否存在胎兒非整倍性包括: 確定來自所述第一量和所述第二量的參數(shù),其中所述參數(shù)提供了所述第一量和所述第二量之間的相對(duì)量;以及 將所述參數(shù)與一個(gè)或多個(gè)截止值比較,以確定所述第一染色體是否存在胎兒非整倍性的分類。
25.如權(quán)利要求14所述的方法,其中基于比較所述第一量和所述第二量以確定所述第一染色體是否存在胎兒非整倍性包括: 確定所述生物樣品中胎兒DNA的部分濃度; 利用所述部分濃度來確定所述第一量和所述第二量之間差別的截止值,以表明所述第一染色體存在胎兒非整倍性。
26.如權(quán)利要求25所述的方法,其中確定所述生物樣品中胎兒DNA的部分濃度包括定量所述女性個(gè)體和所述胎兒之間的多態(tài)性差異。
27.如權(quán)利要求26所述的方法,其中所述定量包括: 鑒定所述女性個(gè)體是純合而所述胎兒是雜合的靶多態(tài)性位點(diǎn);以及比較所述靶多態(tài)性位點(diǎn)處胎兒特異性等位基因的量與所述靶多態(tài)性位點(diǎn)處共同等位基因的量,以確定胎兒DNA的部分濃度,所述共同等位基因不是胎兒特異性的。
28.如權(quán)利要求25所述的方法,其中所述胎兒是男性,并且其中確定所述生物樣品中胎兒DNA的部分濃度包括: 確定Y染色體DNA濃度。
29.如權(quán)利要求25所述的方法,其中確定所述生物樣品中胎兒DNA的部分濃度包括: 比較第一基因座處表現(xiàn)出胎兒特異性甲基化方式的DNA分子的量與所述第一基因座處DNA分子的總量。
30.如權(quán)利要求29所述的·方法,其中所述源自胎兒的DNA分子是高度甲基化的,而源自母體的DNA分子是低甲基化的。
【文檔編號(hào)】C12Q1/68GK103849684SQ201410052009
【公開日】2014年6月11日 申請(qǐng)日期:2008年7月23日 優(yōu)先權(quán)日:2007年7月23日
【發(fā)明者】盧煜明, 趙慧君, 陳君賜, 徐仲锳, 莊家俊 申請(qǐng)人:香港中文大學(xué)