本發(fā)明涉及DNA低頻突變檢測方法、用于DNA低頻突變檢測的二代測序DNA文庫構建方法及試劑盒,屬于基因檢測領域。
背景技術:
基因突變是指基因在結構上發(fā)生堿基對組成或排列順序的改變。在自然狀態(tài)下,基因發(fā)生突變的頻率很低,而低頻突變是指在DNA樣本中突變DNA比例低于1%的突變。例如,目前已經證實孕婦血漿中存在胎兒游離DNA,癌癥患者血漿中存在腫瘤特征的游離DNA(能夠檢測到腫瘤基因突變),艾滋病、肝炎等患者血漿中存在病毒DNA,即便是癌組織樣本(如FFPE)中也存在片段化且比例很低的亞克隆突變。
低頻突變DNA在樣本中的含量微少,如通過二代測序方法檢測DNA低頻突變時,這些DNA低頻突變往往無法與擴增錯誤或測序錯誤相區(qū)分,使得檢測結果中存在較高的假陽性率。由于血漿游離DNA的片段化利用常規(guī)PCR靶向富集效率差,很難通過增加上機數據量,達到極高測序深度,故會浪費大量的測序數據。因此,這種DNA低頻突變的檢測成為難題。
技術實現要素:
鑒于上述現有技術中存在的問題,本發(fā)明的目的在于提供一種能有效去除假陽性、提高目標DNA片段富集效率且減少測序數據浪費的DNA低頻 突變檢測方法、用于DNA低頻突變檢測的二代測序DNA文庫構建方法及試劑盒。
即,本發(fā)明包括:
1.一種用于DNA低頻突變檢測的二代測序DNA文庫的構建方法,其包括:
步驟A:將希望進行測序的包含低頻DNA的樣本中的DNA片段進行末端修復,得到平末端DNA片段;
步驟B:將平末端DNA片段進行3'端加A,得到3'端加A的DNA片段;
步驟C:將所述3'端加A的DNA片段進行加接頭,得到加接頭DNA片段;以及
步驟D:將所述加接頭DNA片段進行PCR擴增,得到擴增產物;
其中,所述步驟C中使用核苷酸序列如SEQ ID NO:1所示的單鏈DNA與核苷酸序列如SEQ ID NO:2所示的單鏈DNA的退火產物作為所述接頭;
所述步驟D中使用核苷酸序列如SEQ ID NO:3所示的單鏈DNA作為PCR擴增引物;且
該方法中僅在所述步驟D中進行一次PCR擴增。
2.根據項1所述的方法,其中,所述步驟D中還使用核苷酸序列如SEQ ID NO:4所示的單鏈DNA和核苷酸序列如SEQ ID NO:5所示的單鏈DNA作為PCR擴增引物。
3.根據項1或2所述的方法,其中,步驟A中的DNA片段的量為1~200ng。
4.根據項1~3中任一項所述的方法,其中,步驟A中的DNA片段的量為5~50ng。
5.根據項1~4中任一項所述的方法,其中,在所述步驟A與步驟B之間、所述步驟C與步驟D之間、和/或所述步驟D之后還包括對產物進行純化的步驟。
6.一種用于構建用于DNA低頻突變檢測的二代DNA測序文庫的試劑盒,其包含:
核苷酸序列如SEQ ID NO:1所示的單鏈DNA與核苷酸序列如SEQ ID NO:2所示的單鏈DNA,或者它們的退火產物;以及
核苷酸序列如SEQ ID NO:3所示的單鏈DNA。
7.根據項6所述的試劑盒,其還包含選自下組中的一種或兩種以上:T4DNA聚合酶、Klenow片段、Klenow緩沖液、DNA連接酶緩沖液、DNA連接酶、Taq酶、dNTP、T4多聚核苷酸激酶、以及T4多聚核苷酸激酶緩沖液。
8.根據項6或7所述的試劑盒,其用于實施項1~5中任一項所述的方法。
9.根據項6~8中任一項所述的試劑盒,其還包含核苷酸序列如SEQ ID NO:4所示的單鏈DNA、以及核苷酸序列如SEQ ID NO:5所示的單鏈DNA。
10.一種檢測DNA低頻突變的方法,其包括:
步驟A:將希望進行測序的包含低頻DNA的樣本中的DNA片段進行末端修復,得到平末端DNA片段;
步驟B:將平末端DNA片段進行3'端加A,得到3'端加A的DNA片段;
步驟C:將所述3'端加A的DNA片段進行加接頭,得到加接頭DNA片段;
步驟D:將所述加接頭DNA片段進行PCR擴增,得到擴增產物;以及
步驟E:對所述擴增產物進行二代測序,并基于測序結果進行生物信息學分析;
其中,所述步驟C中使用核苷酸序列如SEQ ID NO:1所示的單鏈DNA與核苷酸序列如SEQ ID NO:2所示的單鏈DNA的退火產物作為所述接頭;
所述步驟D中使用核苷酸序列如SEQ ID NO:3所示的單鏈DNA作為PCR擴增引物;且
該方法中僅在所述步驟D中進行一次PCR擴增。
11.根據項10所述的方法,其中,所述二代測序利用Illumina平臺進行。
12.根據項10或11所述的方法,其中,所述步驟D中還使用核苷酸序列如SEQ ID NO:4所示的單鏈DNA和核苷酸序列如SEQ ID NO:5所示的單鏈DNA作為PCR擴增引物。
13.根據項10~12中任一項所述的方法,其中,步驟A中的DNA片段的量為1~200ng。
14.根據項10~13中任一項所述的方法,其中,步驟A中的DNA片段的量為5~50ng。
15.根據項10~14中任一項所述的方法,其中,在所述步驟A與步驟B之間、所述步驟C與步驟D之間、和/或所述步驟D之后還包括對產物進行純化的步驟。
16.一種用于檢測DNA低頻突變的試劑盒,其包含:
用于構建二代測序DNA文庫的試劑,以及
用于對二代測序DNA文庫進行上機測序的試劑;
其中,所述用于構建二代DNA測序文庫的試劑包括:
核苷酸序列如SEQ ID NO:1所示的單鏈DNA與核苷酸序列如SEQ ID NO:2所示的單鏈DNA,或者它們的退火產物;以及
核苷酸序列如SEQ ID NO:3所示的單鏈DNA。
17.根據項16所述的試劑盒,其中,所述用于構建二代DNA測序文庫的試劑還包括選自下組中的至少一種或兩種以上:T4DNA聚合酶、Klenow 片段、Klenow緩沖液、DNA連接酶緩沖液、DNA連接酶、Taq酶、dNTP、T4多聚核苷酸激酶、以及T4多聚核苷酸激酶緩沖液。
18.根據項16或17所述的試劑盒,其中,所述對二代測序DNA文庫進行上機測序的試劑包括選自下組中的至少一種或兩種以上:再合成試劑、線性化P7接頭、線性化P5接頭、DNA聚合酶、dNTP、沖洗雜交液/緩沖液、100%甲酰胺(質量/體積)、用于測序的Read 2測序引物、Index i7測序引物、用于測序的Read 1測序引物、Hiseq Rapid PE Flow Cell、水、以及增強光感度/照相用試劑。
19.根據項16~18中任一項所述的試劑盒,其用于實施項10所述的方法。
20.根據項1~19中任一項6所述的試劑盒,其中,所述用于構建二代DNA測序文庫的試劑還包含核苷酸序列如SEQ ID NO:4所示的單鏈DNA、以及核苷酸序列如SEQ ID NO:5所示的單鏈DNA。
發(fā)明效果
根據本發(fā)明,提供一種能有效去除假陽性、提高目標DNA片段富集效率且減少測序數據浪費的DNA低頻突變檢測方法、用于DNA低頻突變檢測的二代測序DNA文庫構建方法及試劑盒。
發(fā)明的具體實施方式
在一個方面中,本發(fā)明提供一種用于DNA低頻突變檢測的二代測序DNA文庫的構建方法(本發(fā)明的建庫方法),其包括:
步驟A:將希望進行測序的包含DNA低頻突變的樣本中的DNA片段進行末端修復,得到平末端DNA片段;
步驟B:將平末端DNA片段進行3'端加A,得到3'端加A的DNA片段;
步驟C:將所述3'端加A的DNA片段進行加接頭,得到加接頭DNA片段;以及
步驟D:將所述加接頭DNA片段進行PCR擴增,得到擴增產物;
其中,所述步驟C中使用核苷酸序列如SEQ ID NO:1所示的單鏈DNA與核苷酸序列如SEQ ID NO:2所示的單鏈DNA的退火產物作為所述接頭;
所述步驟D中使用核苷酸序列如SEQ ID NO:3所示的單鏈DNA作為PCR擴增引物;且
本發(fā)明的建庫方法中僅在所述步驟D中進行一次PCR擴增。
所述步驟D中還使用核苷酸序列如SEQ ID NO:4所示的單鏈DNA和核苷酸序列如SEQ ID NO:5所示的單鏈DNA作為PCR擴增引物。
SEQ ID NO:1
5'-TACACTCTTTCCCTACACGACGCTCTTCCGATCT(N)nACGCAGAGTGACT-3'(其中,n為6~12的正整數,n個N彼此獨立地選自A、T、C、G)
SEQ ID NO:2
5'-GTCACTCTGCGT-3'
SEQ ID NO:3
5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(N)n(X)m-3'(其中,n為6~12的正整數,n個N彼此獨立地選自A、T、C、G;m為20-40的正整數,m個X被設計成與希望進行檢測的位點附近(距離該位點1~50bp,例如2~20bp)的正義鏈序列互補)。
SEQ ID NO:4:
5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'
SEQ ID NO:5:
5'-CAAGCAGAAGACGGCATACGAGAT(N)8GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'(其中,(N)8為標簽序列,用于區(qū)分來自不同樣本的測序數據。8個N彼此獨立地選自A、T、C、G)。作為上述標簽序列例如可以采用Illumina公司推薦的標簽序列,但也可以自行設計,本領域技術人員知曉,標簽的設計可考慮下述原則:(1)考慮到標簽序列之間的可識 別性和識別率的問題,在設計標簽時,保證了8bp標簽中,堿基差異須大于或等于3個堿基;(2)考慮到序列合成或者測序中出現的錯誤率,因此在設計標簽時避免標簽8個堿基中出現3個或3個以上的連續(xù)相同堿基;(3)考慮到測序中,相同位置的ATGC 4種堿基的含量偏倚會影響到測序質量,在設計標簽時,保證標簽混合后每個位點的GT與AC堿基的平衡。
在本說明書中,低頻突變是指在DNA樣本中突變DNA比例低于1%的突變。作為所述低頻突變DNA,可以列舉出:孕婦血漿中的胎兒游離DNA,癌癥患者血漿中的腫瘤特征的游離DNA(能夠檢測到腫瘤基因突變,艾滋病、肝炎等患者血漿中存在病毒DNA,即便是癌組織樣本(如FFPE)中也存在片段化且比例很低的亞克隆突變。
本發(fā)明的建庫方法中,對步驟A中的DNA片段的量沒有特殊限制,但需要說明的是,本發(fā)明的建庫方法可適用于微少量樣本建庫,因此,步驟A中的DNA片段的量可以為1~200ng,例如可以為5~50ng。
優(yōu)選地,本發(fā)明的建庫方法中,僅在所述步驟D中進行一次PCR擴增(可進行例如10~30個溫度循環(huán)),除此之外不再包含對加接頭DNA片段進行PCR擴增的步驟,這樣可以減少因PCR擴增引入的錯配,有效降低假陽性的發(fā)生。
優(yōu)選地,在所述步驟A與步驟B之間、所述步驟C與步驟D之間、和/或所述步驟D之后還包括對產物進行純化的步驟。所述純化步驟可以按本技術領域通常采用的方法進行,例如進行磁珠純化。對于例如FFPE樣本,可以在步驟A之前將其片段化。
在另一個方面中,本發(fā)明提供一種檢測DNA低頻突變的方法(本發(fā)明的檢測方法),該方法包括采用本發(fā)明的建庫方法構建二代測序DNA文庫,以及對所述二代測序DNA文庫進行二代測序,并基于測序結果進行生物信息學分析。在所述生物信息學分析中,可以根據reads中的與所述SEQ ID NO: 3的(N)n對應的區(qū)域的序列,判別某一突變是擴增/測序錯誤還是真正的低頻突變,從而降低檢測結果的假陽性。
優(yōu)選地,本發(fā)明的檢測DNA低頻突變的方法中的測序可以例如利用Illumina平臺(例如HiSeq 2500或NextSeq 500)進行。
在另一方面中,本發(fā)明還提供一種用于構建二代測序DNA文庫的試劑盒,其可用于實施本發(fā)明的建庫方法,其包含用于構建二代測序DNA文庫的試劑,所述用于構建二測序DNA文庫的試劑包含:
核苷酸序列如SEQ ID NO:1所示的單鏈DNA與核苷酸序列如SEQ ID NO:2所示的單鏈DNA,或者它們的退火產物;以及
核苷酸序列如SEQ ID NO:3所示的單鏈DNA作為下游引物。
優(yōu)選地,所述用于構建二代DNA測序文庫的試劑還包含選自下組中的一種或兩種以上:T4DNA聚合酶、Klenow片段、Klenow緩沖液、DNA連接酶緩沖液、DNA連接酶、Taq酶、dNTP、T4多聚核苷酸激酶、以及T4多聚核苷酸激酶緩沖液。
優(yōu)選地,所述用于構建二代測序DNA文庫的試劑還包含核苷酸序列如SEQ ID NO:3所示的單鏈DNA。
在另一方面中,本發(fā)明還提供一種用于檢測DNA低頻突變的試劑盒,其可用于實施本發(fā)明的檢測方法,其包含:
用于構建二代測序DNA文庫的試劑,以及
用于對二代測序DNA文庫進行上機測序的試劑;
其中,所述用于構建二代測序DNA文庫的試劑包括:
核苷酸序列如SEQ ID NO:1所示的單鏈DNA與核苷酸序列如SEQ ID NO:2所示的單鏈DNA,或者它們的退火產物;
核苷酸序列如SEQ ID NO:3所示的單鏈DNA;
核苷酸序列如SEQ ID NO:4所示的單鏈DNA;以及
核苷酸序列如SEQ ID NO:5所示的單鏈DNA。
優(yōu)選地,所述用于構建二代DNA測序文庫的試劑還包括選自下組中的至少一種或兩種以上:T4DNA聚合酶、Klenow片段、Klenow緩沖液、DNA連接酶緩沖液、DNA連接酶、Taq酶、dNTP、T4多聚核苷酸激酶、以及T4多聚核苷酸激酶緩沖液。
優(yōu)選地,所述對二代DNA測序文庫進行上機測序的試劑包括選自下組中的至少一種或兩種以上:再合成試劑、線性化P7接頭、線性化P5接頭、DNA聚合酶、dNTP、沖洗雜交液/緩沖液、100%甲酰胺(質量/體積)、用于測序的Read 2測序引物、Index i7測序引物、用于測序的Read 1測序引物、Hiseq Rapid PE Flow Cell、水、以及增強光感度/照相用試劑。
優(yōu)選地,所述用于構建二代測序DNA文庫的試劑還包含核苷酸序列如SEQ ID NO:4和5所示的單鏈DNA。
實施例
以下結合實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例是用于解釋本發(fā)明,并非對本發(fā)明的限定。
實施例1采用本發(fā)明的建庫方法構建二代測序DNA文庫
1.特異引物設計
設計了如下的特異引物(相當于SEQ ID NO:3所示的單鏈DNA),其中,PAJ408可用于檢測AKT1NM_001014431:c.A655C:p.T219P,PAJ410可用于檢測TP53NM_001126115:c.A733C:p.T245P,PAJ412可用于檢測PIK3CA NM_006218:c.A3140G:p.H1047R。
表1 特異引物序列
1.2DNA提取
選取兩份血漿樣本,采用磁珠法從2mL血漿中提取的游離DNA樣本(DP13AN00374、DP13AN00375)并定量取10ng游離DNA建庫,分別使用上述特異引物PAJ408、PAJ410、PAJ412來檢測AKT1NM_001014431:c.A655C:p.T219P、TP53NM_001126115:c.A733C:p.T245P、PIK3CA NM_006218:c.A3140G:p.H1047R。對于上述的兩個樣本,除了步驟1.6中使用的Index不同之外,其他操作全部相同。
1.3末端修復
配制末端修復Mix:預先從-20℃保存的試劑盒中取出所需試劑,將其置于冰上化凍并充分混勻。單個樣本配制量參見表2。
表2 末端修復反應體系
末端修復反應:向1.5mL離心管中分裝9μL Mix,根據建庫任務單向相應管中加入DNA樣本。將反應體系置于Thermomixer中20℃溫浴30分鐘。 反應結束后使用1.8×Ampure磁珠回收純化反應體系中的DNA,溶于32μL EB。
1.4末端加“A”(A-Tailing)
配制末端加“A”混合液:預先從-20℃保存的試劑盒中取出所需試劑,將其置于冰上化凍并充分混勻。單個樣本配制量參見表3。
表3 末端加“A”反應體系
末端加“A”反應:向1.5mL的離心管中分裝18μl Mix,根據建庫任務單向相應管中加入DNA。將樣本置于Thermomixer中37℃溫浴30分鐘。
1.5Adapter的連接(Adapter Ligation)
配制Adapter的連接Mix:預先從-20℃保存的試劑盒中取出所需試劑,將其置于冰上化凍并充分混勻。單個樣本配制量參見表4。
表4 Adapter的連接反應體系
所述PE Index Adapter是SEQ ID NO:1所示的單鏈DNA與SEQ ID NO:2所示的單鏈DNA的退火產物。
Adapter的連接反應:向1.5mL的離心管中分裝好32μL Mix,根據建庫任務單向相應管中加入DNA。將樣本置于Thermo mixer中20℃溫浴15分鐘。使用1.8×Ampure磁珠回收純化反應體系中的DNA,溶于30μl EB中。1.6PCR反應
配制PCR反應體系:從-20℃保存的試劑盒中取出所需試劑,將其置于冰上化凍并充分混勻。在0.2mL的PCR管中配制PCR反應體系,單個樣本配制量參見表5。
表5 PCR反應體系
Ann公共引物:
5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'
Index-41引物(對于DP13AN00374):
5'-CAAGCAGAAGACGGCATACGAGATCGTGATGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'
Index-42引物(對于DP13AN00375):
5'-CAAGCAGAAGACGGCATACGAGATGTCAGTCGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'
PCR反應:設置PCR程序,使用前需要與任務單再次核對。PCR反應的 程序如下,反應結束后,及時將樣品取出放入4℃冰箱保存并按要求退出程序或關閉儀器。
1.7PCR產物的回收純化
0.9×Ampure磁珠回收純化反應體系中的PCR產物,溶于30μL EB中。
1.8文庫定量
對文庫進行2100Bioanalyzer(Agilent)/LabChip GX(Caliper)及QPCR檢測,質檢合格。
1.9構建好的文庫用Illumina HiSeqTM2500進行PE100測序。
1.10最終獲得的生物信息學數據如下表所示:
Rawdata:上機測序產出的總數據量;
Q20和Q30:基因高通量測序中,每測一個堿基會給出一個相應的質量值,這個質量值是衡量測序準確度的。行業(yè)中Q20與Q30則表示質量值≧20或30的堿基所占百分比。Q20值是指的測序過程堿基識別(Base Calling)過程中,對所識別的堿基給出的錯誤概率是1%,即錯誤率1%,或者正確率是99%;Q30值是指的測序過程堿基識別(Base Calling)過程中,對所識別的堿基給出的錯誤概率是0.1%,即錯誤率0.1%,或者正確率是99.9%;
比對率:下機測序數據經低質量過濾后比對到參考基因組上的百分比;
靶向捕獲效率:比對到目標區(qū)域的數據量除以比對到參考基因組的數據量*100%,或者描述為比對到目標區(qū)域的數據量占比對到參考基因組數據量的百分比。
實施例2
選取一份采用磁珠法從2mL血漿中提取的游離DNA樣本(DP13AN00381),定量并分別取10ng游離DNA(分別命名為DP13AN00381-1、DP13AN00381-2、DP13AN00381-3)建庫。
對于DP13AN00381-3,像上述實施例1那樣進行操作,不同的是:步驟1.6中使用了下述Index-45來代替Index-41或Index-42。
Index-45:
5'-CAAGCAGAAGACGGCATACGAGATCAGTCGTAGTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'
對比例1
對于上述實施例2中獲得的DP13AN00381-1,像上述實施例1那樣進行操作,不同的是:
在步驟1.6中,先使用由PAJ413、PAJ414和PAJ415組成的特異引物池進行第一輪PCR,磁珠純化后,再使用由PAJ416、PAJ417和PAJ418組成的特異引物池進行第二輪PCR。
第一輪PCR特異引物序列
第一輪PCR反應體系及條件:
PCR反應的程序如下,反應結束后,及時將樣品取出放入4℃冰箱保存并按要求退出程序或關閉儀器。
0.9×Ampure磁珠回收純化反應體系中的PCR產物,溶于20μL EB中。第二輪PCR反應體系及條件:
Ann公共引物:
5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'
Index-43:
5'-CAAGCAGAAGACGGCATACGAGATAGCTGCTGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'
第二輪PCR反應程序如下:
對比例2
對于上述實施例2中獲得的DP13AN00381-3,像上述對比例1那樣進行操作,不同的是:
使用由PAJ408、PAJ410和PAJ412組成的特異引物池代替由PAJ416、PAJ417和PAJ418組成的特異引物池,且使用下述Index-44代替Index-43來進行第二輪PCR。
Index-44:
5'-CAAGCAGAAGACGGCATACGAGATCTGTCAGCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'
對于實施例2及對比例1~2,最終獲得的生物信息學數據如下表所示??芍罕景l(fā)明的方法能夠有效去除假陽性、提高目標DNA片段富集效率且減少測序數據浪費。
還需要說明的是,在可實施且不明顯違背本發(fā)明的主旨的前提下,在本說明書中作為某一技術方案的構成部分所描述的任一技術特征或技術特征的組合同樣也可以適用于其它技術方案;并且,在可實施且不明顯違背本發(fā)明的主旨的前提下,作為不同技術方案的構成部分所描述的技術特征之間也可以以任意方式進行組合,來構成其它技術方案。本發(fā)明也包含在上述情況下通過組合而得到的技術方案,并且這些技術方案相當于記載在本說明書中。
上述說明示出并描述了本發(fā)明的優(yōu)選實施例,如前所述,應當理解本發(fā)明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構想范圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域技術人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應在本發(fā)明所附權利要求的保護范圍內。
工業(yè)實用性
根據本發(fā)明,提供一種能有效去除假陽性、提高目標DNA片段富集效率且減少測序數據浪費的DNA低頻突變檢測方法、用于DNA低頻突變檢測的二代測序DNA文庫構建方法及試劑盒。