一種基因組混樣測(cè)序文庫(kù)的制備方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及分子生物學(xué)中高通量測(cè)序技術(shù)的領(lǐng)域。更具體設(shè)及一種基因組混樣測(cè) 序文庫(kù)的制備方法,它適用于所有真核生物各種樣本的重測(cè)序或者簡(jiǎn)化測(cè)序,尤其適用于 小基因多樣本數(shù)的重測(cè)序或者大基因群體的簡(jiǎn)化測(cè)序。
【背景技術(shù)】
[0002] 二代測(cè)序技術(shù)是目前現(xiàn)高通量測(cè)序研究中最常用的技術(shù)。DNA測(cè)序技術(shù)經(jīng)過(guò)30多 年的發(fā)展已經(jīng)取得重大進(jìn)展,W高通量為特點(diǎn)的第二代測(cè)序技術(shù)已經(jīng)逐步成熟并且商業(yè) 化。早期的測(cè)序技術(shù)主要依賴第一代測(cè)序,一代測(cè)序從傳統(tǒng)的化學(xué)降解法、雙脫氧鏈終止法 W及在它們的基礎(chǔ)上發(fā)展來(lái)的各種DNA測(cè)序技術(shù)統(tǒng)稱為第一代DNA測(cè)序技術(shù),其中Sanger法 因操作簡(jiǎn)便,對(duì)單個(gè)序列檢測(cè)較快且準(zhǔn)確率較高,目前仍得到廣泛的應(yīng)用。第一代測(cè)序技術(shù) 在分子生物學(xué)研究中發(fā)揮過(guò)重要的作用,如人類基因組計(jì)劃化uman Genome ProjectJGP) 主要基于第一代DNA測(cè)序技術(shù)完成。但隨著人類基因組計(jì)劃W及其他模式生物的測(cè)序工作 的完成,我們進(jìn)入了后基因組時(shí)代即功能基因組時(shí)代,傳統(tǒng)的一代測(cè)序方法已經(jīng)不能滿足 深度測(cè)序和重測(cè)序等大規(guī)模基因組高通量測(cè)序的需求,因此,人類發(fā)展出來(lái)第二代測(cè)序技 術(shù)。
[0003] 第二代測(cè)序技術(shù)主要包括羅氏454公司的GS FLX測(cè)序平臺(tái)、ABI公司的SOLiD測(cè)序 平臺(tái)和Illumina公司的Solexa Genome Analyzer測(cè)序平臺(tái)W及Solexa的升級(jí)版Hiseq測(cè)序 平臺(tái)等。第二代測(cè)序技術(shù)最顯著的特征是高通量,一次能對(duì)幾十萬(wàn)到幾百萬(wàn)條DNA分子序列 進(jìn)行測(cè)序,使得對(duì)一個(gè)物種的轉(zhuǎn)錄組測(cè)序或基因組深度測(cè)序變得方便易行。第二代測(cè)序技 術(shù)的主要原理是先將的基因組DNA進(jìn)行片段化,在兩側(cè)加上各自特異的接頭,隨后用不同的 方法產(chǎn)生幾百萬(wàn)個(gè)空間固定的PCR克隆陣列,然后進(jìn)行引物雜交和酶延伸反應(yīng),對(duì)每個(gè)延伸 反應(yīng)所滲入的巧光標(biāo)記進(jìn)行成像檢測(cè)就可獲取測(cè)序數(shù)據(jù)。454測(cè)序的特點(diǎn)是單次讀長(zhǎng)長(zhǎng)大, 但單次反應(yīng)的數(shù)據(jù)量低。SOLiD測(cè)序讀長(zhǎng)為50bp,單次反應(yīng)的數(shù)據(jù)量50G,特點(diǎn)是高通量和高 準(zhǔn)確度,但成本較高。而11 lumina公司的Solexa測(cè)序讀長(zhǎng)為雙端讀長(zhǎng)2 X 50bp,單次反應(yīng)的 數(shù)據(jù)量20G,測(cè)序成本較低,性價(jià)比高。Solexa的升級(jí)版化seq和桌面式測(cè)序儀MiseqW及 Nextseq經(jīng)過(guò)近幾年的一系列版本的發(fā)展,測(cè)序通量一致在不斷提高,其中化seq從早期 HiseqlOOO和Hiseq2000已經(jīng)發(fā)展到目前的Hiseq2500和Hisq3000/4000等,Hiseq測(cè)序平臺(tái) 單次反應(yīng)可W產(chǎn)生的數(shù)據(jù)量由300-600G已提升到1.5Tb,雙端讀長(zhǎng)也有50bp提升到了 150bp,極大的提升了測(cè)序通量,同時(shí)降低了測(cè)序價(jià)格,使得1000美金測(cè)一個(gè)人類基因組成 為了可能。
[0004] 隨著測(cè)序技術(shù)的發(fā)展,測(cè)序儀的通量也會(huì)隨之上升,測(cè)序價(jià)格也相應(yīng)降低,大規(guī)模 多樣本數(shù)的基因重測(cè)序也已實(shí)現(xiàn)。但對(duì)于一些小基因組,例如真菌基因組大小約2.5~ 81.15Mb和細(xì)胞器基因組如葉綠體基因組大小為120K~217K等,當(dāng)測(cè)序樣本數(shù)較多時(shí),測(cè)序 數(shù)據(jù)量若小于2G時(shí),若對(duì)單個(gè)文庫(kù)建單獨(dú)建庫(kù)測(cè)序,單個(gè)樣本文庫(kù)的構(gòu)建成本將超過(guò)其測(cè) 序成本。本發(fā)明專利基于Illumina公司第二代測(cè)序平臺(tái),設(shè)計(jì)了含有新的標(biāo)簽(Barcode)序 列的接頭和含索引(Index)序列的PCR引物,結(jié)合化w化gland BioLabs(肥B)公司的建庫(kù)試 劑,并對(duì)建庫(kù)流程進(jìn)行改進(jìn)和優(yōu)化,設(shè)計(jì)了 一種對(duì)多個(gè)樣本同時(shí)構(gòu)建的混合建庫(kù)方法,節(jié)約 了建庫(kù)成本,同時(shí)也提高了建庫(kù)效率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供了一種基因組混樣測(cè)序文庫(kù)的制備方法,我們將設(shè)計(jì)了多 對(duì)含有標(biāo)簽(Barcode)序列的接頭和含索引(Index)序列的PCR引物對(duì)每種打斷后的DNA片 段進(jìn)行標(biāo)記混樣和文庫(kù)構(gòu)建,運(yùn)種方式節(jié)約了建庫(kù)試劑,提高了建庫(kù)的效率。此外,本發(fā)明 專利設(shè)計(jì)兼容Illumina二代測(cè)序儀特異的接頭連接后為雙端標(biāo)簽(Barcode),增強(qiáng)了接頭 互補(bǔ)堿基數(shù),提高了連接效率,可對(duì)樣品進(jìn)行精確標(biāo)記。本發(fā)明普遍適于常規(guī)分子生物學(xué)實(shí) 驗(yàn)室進(jìn)行各種樣本的重測(cè)序或者簡(jiǎn)化測(cè)序,尤其適用于小基因多樣本數(shù)的重測(cè)序或者大基 因群體的簡(jiǎn)化測(cè)序。
[0006] 為了實(shí)現(xiàn)上述的目的,本發(fā)明采用W下技術(shù)方案:
[0007] 上述種基因組混樣測(cè)序文庫(kù)的制備方法的具體流程為:利用超聲破碎的方法,分 別對(duì)每種基因組DNA進(jìn)行打斷,打斷后的片段進(jìn)行磁珠純化,將設(shè)計(jì)特異的引物制備成接頭 (含標(biāo)簽序列)對(duì)上述純化產(chǎn)物進(jìn)行連接;分別將連接后的產(chǎn)物進(jìn)行純化和濃度測(cè)定,然后 依據(jù)所測(cè)的每種樣本的數(shù)據(jù)量進(jìn)行混樣;混樣后的產(chǎn)物進(jìn)行片段篩選,回收篩選后的片段 利用含索引(Index)序列的引物進(jìn)行PCR擴(kuò)增;對(duì)PCR產(chǎn)物進(jìn)行純化,純化后的產(chǎn)物即為上機(jī) 文庫(kù),然后對(duì)文庫(kù)濃度和片段范圍進(jìn)行檢測(cè);最終將檢測(cè)合格后的文庫(kù)利用Illumina公司 的二代測(cè)序儀進(jìn)行上機(jī)測(cè)序。
[0008] 1、一種基因組混樣測(cè)序文庫(kù)的制備方法,其流程示意圖如圖1所示,具體包括W下 步驟:
[0009] (1)對(duì)需要混樣測(cè)序樣品的基因組DNA進(jìn)行超聲打斷,打斷的插入片段為35化P。
[0010] (2)對(duì)超聲打斷的片段進(jìn)行純化,利用肥B末端修復(fù)試劑對(duì)純化產(chǎn)物進(jìn)行末端修 復(fù)。
[0011] (3)對(duì)末端修復(fù)產(chǎn)物進(jìn)行純化,利用特異的含不同標(biāo)簽(Barcode)接頭序列分別對(duì) 純化產(chǎn)物進(jìn)行連接反應(yīng),連接試劑采用肥B快速連接試劑。
[0012] 接頭的序列如下:
[0013] P5-P7-F(5'-3'):ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNN*T
[0014] P5-P7-R(5 '-3 '):/5I%os/YYYYYAGATCGGAAGAGCACACGTCTGAACTCCAGTC
[001引其中,設(shè)計(jì)的P5-P7-R引物中的五堿基序列ΥΥΥΥΥ與P5-P7-巧I物中的五堿基序列 NNW^N反向互補(bǔ),其中ΝΝΝΓ^Ν代表標(biāo)簽序列,主要用于標(biāo)記混樣各個(gè)樣本,標(biāo)簽序列見(jiàn)下表1。 此外,/5Phos/代表5 '端起始?jí)A基為憐酸基團(tuán)(-ΡΗ3)修飾,*代表硫代憐酸醋化修飾。
[0016] (4)對(duì)上述連接產(chǎn)物進(jìn)行純化,對(duì)后續(xù)需要混樣的純化產(chǎn)物逐一進(jìn)行濃度測(cè)定。
[0017] (5)參照上述純化產(chǎn)物的濃度和總量,依據(jù)所測(cè)樣本的測(cè)序量對(duì)純化產(chǎn)物進(jìn)行混 合,混合后進(jìn)行片段篩選。片段篩選采用瓊脂糖電泳和切膠回收的方法。
[001引(6)利用含索引(Index)序列的PCR引物對(duì)上述的回收片段進(jìn)行PCR擴(kuò)增,PCR產(chǎn)物 利用1.6倍體積的磁珠純化兩次,純化后的產(chǎn)物即為測(cè)序文庫(kù)。
[0019] PCR引物序列為:
[0020] F(5 '-3 '):AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC,
[0021] R巧 ' -3 '): CMGCAGMGAOGGCATAOGAGATNNNNNNGTGACTGGAGTTCAGAOGTGTGCTCTTCCGATC。
[0022] 其中,PCR引物R序列中的NNNN順代表索引(Index)序列,索引用于標(biāo)記不同的混樣 文庫(kù),不同混樣文庫(kù)選用不同的索弓1( Index)引物。本發(fā)明總共設(shè)計(jì)了 12種不同索引 (Index)接頭引物,索引(Index)信息見(jiàn)表1。
[0023] (7)純化PCR產(chǎn)物進(jìn)行純化回收即可得到測(cè)序文庫(kù)。
[0024] (8)對(duì)上述測(cè)序文庫(kù)進(jìn)行濃度和片段大小范圍檢測(cè)。將文庫(kù)濃度將檢測(cè)合格后的 文庫(kù)利用Π 1皿ina公司的二代測(cè)序儀進(jìn)行高通量測(cè)序。
[0025] 優(yōu)選的,如步驟(1)中,打斷范圍為插入片段350bp,可選用超聲打斷儀Covaris M220,占空因數(shù)(Duty factor 20%),峰值功率(Peak incident power,50W),循環(huán)破碎系 數(shù)(CyC1 es per burSt,200),持續(xù)時(shí)間65秒,工作溫度20度rC)。不同的樣品的基因組DNA 的起始量相同,起始量為100~50化g之間,打斷體系為50化。
[0026] 優(yōu)選的,如步驟(2)中,采用肥B修復(fù)試劑,體系為修復(fù)試劑0.75μ1,10倍濃度(10 X )的修復(fù)緩沖液化L,片段DNA溶液17.2化L,總體系為20化。修復(fù)條件為20度°C,60分鐘 (min) ;65°C,30min;4°C,終止化old)。
[0027] 優(yōu)選的,如步驟(3)中,設(shè)計(jì)了不同標(biāo)簽(Barcode)的特異接頭引物(共10種,表1), 采用肥B連接反應(yīng)試劑,體系為10 X T4DNA連接酶緩沖液化L,加 A連連接液3.75化,接頭(濃 度為15μΜ) 1化,連接增強(qiáng)液0.25化,修復(fù)DNA溶液1如L,總體系25化。連接條件為20°