本發(fā)明屬于分子生物學(xué)DNA遺傳標(biāo)記及DNA甲基化檢測
技術(shù)領(lǐng)域:
,具體涉及一種串聯(lián)RAD標(biāo)簽測序文庫的構(gòu)建方法。
背景技術(shù):
:近些年來,高通量測序技術(shù)的迅猛發(fā)展極大地推動了動植物基因組學(xué)研究的深度和廣度。簡化基因組技術(shù)是利用限制性內(nèi)切酶降低基因組復(fù)雜度的基因組測序分析技術(shù)。由于其使用一定大小的酶切片段所對應(yīng)的序列作為整個基因組序列的部分代表,降低了基因組的復(fù)雜性并且成本低、不依賴于參考基因組信息,這些優(yōu)勢使得對基因組信息相對匱乏的非模式生物開展組學(xué)分析成為可能,已被廣泛的應(yīng)用于遺傳圖譜構(gòu)建、數(shù)量性狀定位、群體遺傳學(xué)分析、系統(tǒng)進化分析和輔助基因組組裝等研究中。目前限制性酶切位點相關(guān)DNA測序技術(shù)(restriction-site-associatedDNAsequencing,RAD-seq)是該領(lǐng)域內(nèi)的代表性技術(shù)。但由于RAD技術(shù)建庫流程復(fù)雜,片段長度不一等,許多改進技術(shù)應(yīng)運而生。其中基于ⅡB型限制性DNA內(nèi)切酶的2b-RAD技術(shù),可產(chǎn)生等長的33bp標(biāo)簽,具有一致的擴增效率,不僅可以提高分型準(zhǔn)確率,還能通過選擇性堿基實現(xiàn)標(biāo)簽密度的靈活控制,能適用于不同的研究方向和需求,具有更為廣泛的應(yīng)用前景。其后發(fā)展的MethylRAD技術(shù)進一步將該類技術(shù)的應(yīng)用方向拓展至表觀遺傳領(lǐng)域,該技術(shù)利用甲基修飾依賴型內(nèi)切酶(Mrr-likeenzyme)可產(chǎn)生等長標(biāo)簽的特性,通過對獲取甲基化標(biāo)簽的高通量測序,實現(xiàn)全基因組范圍DNA甲基化的精確定量。隨著二代測序技術(shù)平臺的技術(shù)革新和快速發(fā)展,在相同數(shù)據(jù)量的前提下,長讀長相比短讀長具有更低的測序成本及更廣泛的應(yīng)用。已有的2b-RAD或MethylRAD技術(shù)的局限性在于,因其文庫構(gòu)建所產(chǎn)生的標(biāo)簽長度較短(~35bp),僅能被用于單端35-50bp測序,而無法被應(yīng)用于更具成本優(yōu)勢的雙末端長讀長測序(如PE100-150bp測序)。另外,在基因表達分析領(lǐng)域中應(yīng)用的基因表達系列分析技術(shù)(serialanalysisofgeneexpression,SAGE)是將轉(zhuǎn)錄本的代表標(biāo)簽連接形成長短不一的多聯(lián)體分析,但該技術(shù)無法有效控制串聯(lián)標(biāo)簽的數(shù)目以及標(biāo)簽的連接順序,并且對串聯(lián)DNA序列的分析方法也是克隆到質(zhì)粒載體中進行測序分析,并未提出在二代測序平臺上實現(xiàn)順序串聯(lián)三個以上標(biāo)簽的測序文庫構(gòu)建方案,并且測序文庫可同時實現(xiàn)SNP分型和甲基化檢測。技術(shù)實現(xiàn)要素:為解決上述難題,本發(fā)明提出了一種串聯(lián)RAD標(biāo)簽測序文庫的構(gòu)建方法,可實現(xiàn)對多個標(biāo)簽構(gòu)建串聯(lián)測序文庫,解決了2b-RAD或MethylRAD技術(shù)無法應(yīng)用于雙末端測序平臺的局限,使得標(biāo)簽測序成本大大降低,實現(xiàn)對全基因組范圍遺傳標(biāo)記和表觀遺傳變異進行高通量、低成本地篩查和檢測。為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案予以實現(xiàn)。一種串聯(lián)RAD標(biāo)簽測序文庫的構(gòu)建方法,步驟為:1)酶切:利用選定內(nèi)切酶對N個基因組DNA分別進行酶切反應(yīng),獲得N份酶切片段,所述N為大于2的整數(shù);2)接頭連接:對所述N份酶切片段分別連接接頭,即設(shè)計N對接頭組合,得到N份連接產(chǎn)物,每份酶切片段兩端連接的接頭均設(shè)計有SapI酶的酶切位點和用于實現(xiàn)標(biāo)簽串聯(lián)的特征序列以及擴增引物結(jié)合的通用序列,根據(jù)所添加的接頭決定了N組酶切片段的串聯(lián)順序;3)連接產(chǎn)物擴增:將步驟2)所得到的N份連接產(chǎn)物分別利用不同的生物素引物和普通引物組合進行PCR擴增,富集連接有接頭的酶切片段,切膠回收PCR產(chǎn)物,采用同樣的方法擴增4-8個循環(huán),擴增后得到N份富集的PCR產(chǎn)物;將所述N份富集的PCR產(chǎn)物等量混合,并進行純化;4)串聯(lián)標(biāo)簽文庫:利用SapI酶對混合并純化后的N份PCR產(chǎn)物進行酶切,切除了酶切片段兩端通用的接頭和引物序列,使接頭上帶有的特征序列保留并形成末端粘性突出,N份PCR產(chǎn)物形成了可直接串聯(lián)的標(biāo)簽,根據(jù)接頭上的特征序列互補配對,使N份標(biāo)簽文庫按照順序依次串聯(lián),得串聯(lián)長標(biāo)簽;5)串聯(lián)長標(biāo)簽富集:將所述串聯(lián)長標(biāo)簽經(jīng)凝膠純化后利用引物進行PCR擴增,引入barcode構(gòu)建串聯(lián)標(biāo)簽文庫;6)文庫測序:將所述串聯(lián)標(biāo)簽文庫利用Illunima測序平臺進行測序。為了實現(xiàn)對識別位點的上下游雙鏈產(chǎn)生切割,產(chǎn)生具有粘性末端的33-35bp長度的等長標(biāo)簽,所述步驟1)中內(nèi)切酶是IIB型限制性內(nèi)切酶、甲基修飾依賴型內(nèi)切酶中的一種或幾種。為了實現(xiàn)多個標(biāo)簽首尾依次串聯(lián),并為下一步串聯(lián)標(biāo)簽的擴增富集提供引物的結(jié)合點,步驟2)中所述接頭的設(shè)計特征在于,以5對接頭為例,五對接頭組合分別為Ada1a和Ada1b,Ada2a和Ada2b,Ada3a和Ada3b,Ada4a和Ada4b,Ada5a和Ada5b,每個接頭由兩個核苷酸片段組成,接頭Ada1a和Ada5b的序列中SapI的酶切位點設(shè)計了一個堿基的突變,不能被酶切,利用SapI酶對五種混合標(biāo)簽的PCR產(chǎn)物酶切時,酶切標(biāo)簽的兩端接頭Ada2a和Ada2b、Ada3a和Ada3b、Ada4a和Ada4b以及Ada1b和Ada5a側(cè)的接頭及引物通用序列能被SapI酶切除,使五種標(biāo)簽片段兩側(cè)帶有的三堿基特征序列形成末端粘性突出,根據(jù)特征序列的互補配對,實現(xiàn)五種標(biāo)簽首尾依次串聯(lián),即Ada1b端與Ada2a端連接,Ada2b端與Ada3a端連接,Ada3b端與Ada4a端連接,Ada4b端與Ada5a端連接,從而形成串聯(lián)標(biāo)簽,而串聯(lián)標(biāo)簽上Ada1a和Ada5b接頭端的通用序列仍然保留,為下一步串聯(lián)標(biāo)簽的擴增富集提供引物的結(jié)合點。進一步的,所述步驟2)中,構(gòu)成Ada1a的兩個核苷酸片段,其序列分別為SEQIDNO:1和SEQIDNO:2;構(gòu)成Ada1b的兩個核苷酸片段,其序列分別為SEQIDNO:3和SEQIDNO:4;構(gòu)成Ada2a的兩個核苷酸片段,其序列分別為SEQIDNO:5和SEQIDNO:6;構(gòu)成Ada2b的兩個核苷酸片段,其序列分別為SEQIDNO:7和SEQIDNO:8;構(gòu)成Ada3a的兩個核苷酸片段,其序列分別為SEQIDNO:9和SEQIDNO:10;構(gòu)成Ada3b的兩個核苷酸片段,其序列分別為SEQIDNO:11和SEQIDNO:12;構(gòu)成Ada4a的兩個核苷酸片段,其序列分別為SEQIDNO:13和SEQIDNO:14;構(gòu)成Ada4b的兩個核苷酸片段,其序列分別為SEQIDNO:15和SEQIDNO:16;構(gòu)成Ada5a的兩個核苷酸片段,其序列分別為SEQIDNO:17和SEQIDNO:18;構(gòu)成Ada5b的兩個核苷酸片段,其序列分別為SEQIDNO:19和SEQIDNO:20。為了實現(xiàn)在后續(xù)純化過程中去除SapI酶切掉的通用引物片段,獲得游離的用于串聯(lián)的標(biāo)簽片段,有效避免多余的片段干擾串聯(lián)反應(yīng),使標(biāo)簽串聯(lián)的效率更高,所述步驟3)中生物素引物和普通引物組合的選擇對應(yīng)步驟2)中的接頭組合,以5對接頭為例,接頭1連接的酶切片段使用引物Prim1和BioPrim1擴增,接頭2、3、4連接的酶切片段使用引物BioPrim1和BioPrim2擴增,接頭5連接的酶切片段使用引物BioPrim1和Prim2擴增。進一步的,所述Prim1的核苷酸序列為SEQIDNO:21;Prim2的核苷酸序列為SEQIDNO:22;BioPrim1的核苷酸序列為SEQIDNO:23;BioPrim2的核苷酸序列為SEQIDNO:24。為了使串聯(lián)標(biāo)簽文庫具有測序平臺兼容的文庫序列結(jié)構(gòu),進一步利用Barcode引物對串聯(lián)標(biāo)簽進行擴增,引入barcode構(gòu)建測序文庫,使其具有在二代測序平臺上兼容的測序引物結(jié)合位點,所述步驟5)中的引物的核苷酸序列分別為SEQIDNO:25和SEQIDNO:26。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點和積極效果是:本發(fā)明建立了串聯(lián)RAD標(biāo)簽測序文庫的構(gòu)建方法,是在2b-RAD和MethylRAD的技術(shù)基礎(chǔ)上,對接頭進行了重新設(shè)計,調(diào)整了相應(yīng)建庫實驗步驟和反應(yīng)體系,增加了一步酶切連接反應(yīng),實現(xiàn)了將2b-RAD或MethylRAD等長短標(biāo)簽的串聯(lián)形成長片段,從而適用于雙末端長讀長的測序(如IlluminaPE100-150bp測序),有效降低了建庫測序成本,其中建庫成本降低20%,測序成本降為原來的1/10。另外,所串聯(lián)的多種標(biāo)簽的組合可靈活設(shè)置,可根據(jù)使用者的需求來確定為不同樣品、不同酶或不同應(yīng)用(SNP分型或DNA甲基化水平檢測)的組合。多酶文庫的組合在降低成本的同時增加了基因組的標(biāo)簽密度,因此本發(fā)明提供了一種高效、靈活的全基因組遺傳變異和表觀遺傳變異篩查和檢測的手段。附圖說明圖1Multi-isoRAD方法的流程及原理示意圖。具體實施方式本實施例建立了串聯(lián)RAD標(biāo)簽測序文庫的構(gòu)建方法(簡稱串聯(lián)標(biāo)簽測序技術(shù),或Multi-isoRAD技術(shù)),可實現(xiàn)對多個RAD標(biāo)簽構(gòu)建串聯(lián)測序文庫,能夠應(yīng)用于雙末端測序平臺,解決了2b-RAD或MethylRAD技術(shù)的局限,使得標(biāo)簽測序成本大大降低。本實施例中串聯(lián)標(biāo)簽測序文庫的構(gòu)建方法按照以下步驟完成(以五個個體標(biāo)簽串聯(lián)為例):1)制備五份生物樣品的基因組DNA,分別進行酶切反應(yīng):提取生物的基因組DNA,于4℃冷藏保存?zhèn)溆?;對五份樣品分別利用內(nèi)切酶對基因組進行酶切反應(yīng),得到五份酶切片段,產(chǎn)生的標(biāo)簽中DNA5’端都帶有一個三堿基突出。所述內(nèi)切酶可以是IIB型限制性內(nèi)切酶和/或甲基修飾依賴型內(nèi)切酶,所述IIB型限制性內(nèi)切酶包括但不限于BsaXI、BcgI、BaeI、AguI、AlfI或CspCI;所述甲基修飾依賴型內(nèi)切酶包括但不限于FspEI、MspJI、LpnPI、AspBHI、RIaI或SgrTI。兩類酶的特性都是對識別位點的上下游雙鏈產(chǎn)生切割,產(chǎn)生具有粘性末端的33-35bp長度的等長標(biāo)簽。酶切體系為15μL,其中包含200ng基因組DNA,1U的內(nèi)切酶(NEB),1×cutsmart,在37℃下保溫45min。2)設(shè)計有粘性末端的接頭,連接標(biāo)簽:對上述五份酶切反應(yīng)分別連接接頭,每份酶切片段兩端連接的接頭均設(shè)計有SapI酶的酶切位點和用于實現(xiàn)標(biāo)簽串聯(lián)的特征序列(三堿基組合)以及擴增引物結(jié)合的通用序列。根據(jù)所添加的接頭決定了五組酶切片段的串聯(lián)順序。本實施例中所述特征序列是指三個堿基的組合,遵循的原則為接頭Ada1b上的三個堿基與接頭Ada2a的三個堿基互補配對,接頭Ada2b上的三個堿基與接頭Ada3a的三個堿基互補配對,接頭Ada3b上的三個堿基與接頭Ada4a的三個堿基互補配對,接頭Ada4b的三個堿基與接頭Ada5a的三個堿基互補配對,以保證酶切片段的順序串聯(lián),例如接頭Ada1b上的三個堿基為5'-CGA-3',接頭Ada2a的三個堿基5'-TCG-3',遵循互補配對原則。SapI的酶切識別位點為本實施例在識別位點CGAGAAG的5’端設(shè)計了三堿基的特征序列,切割后特征序列可形成5’端粘性末端突出,借助五對接頭上的粘性末端突出的互補配對串聯(lián)標(biāo)簽。由于步驟2)得到的酶切片段中DNA5’端都帶有一個三堿基突出,本實施例設(shè)計了相對應(yīng)的五對接頭,所述接頭DNA3’端帶3個兼并堿基,可以進行五組不同的連接反應(yīng),得到五份連接產(chǎn)物。五個標(biāo)簽所用接頭如表1所示。所述兼并堿基即NNN,N即為兼并堿基,代表四種堿基A、G、C、T任意一種,BsaXI酶切基因組后產(chǎn)生的標(biāo)簽帶有三個堿基隨機組合的粘性末端,因此此處的接頭設(shè)計有3個兼并堿基為了使接頭能夠與基因組中的標(biāo)簽通過粘性末端連接。連接反應(yīng)體系為20μL,其中包含10μL步驟1)中酶切片段,200UT4DNA連接酶(NEB),1×T4LigaseBuffer,4μmol/LAdaA,4μmol/LAdaB,10mmol/L三磷酸腺苷ATP,16℃連接反應(yīng)1h。表1不同標(biāo)簽使用的接頭標(biāo)簽位置AdaAAdaB1Ada1aAda1b2Ada2aAda2b3Ada3aAda3b4Ada4aAda4b5Ada5aAda5b如表1所示五對接頭分別為Ada1a和Ada1b,Ada2a和Ada2b,Ada3a和Ada3b,Ada4a和Ada4b,Ada5a和Ada5b,每個接頭由兩個核苷酸片段組成,其中構(gòu)成Ada1a的兩個核苷酸片段,其序列分別為SEQIDNO:1和SEQIDNO:2;構(gòu)成Ada1b的兩個核苷酸片段,其序列分別為SEQIDNO:3和SEQIDNO:4;構(gòu)成Ada2a的兩個核苷酸片段,其序列分別為SEQIDNO:5和SEQIDNO:6;構(gòu)成Ada2b的兩個核苷酸片段,其序列分別為SEQIDNO:7和SEQIDNO:8;構(gòu)成Ada3a的兩個核苷酸片段,其序列分別為SEQIDNO:9和SEQIDNO:10;構(gòu)成Ada3b的兩個核苷酸片段,其序列分別為SEQIDNO:11和SEQIDNO:12;構(gòu)成Ada4a的兩個核苷酸片段,其序列分別為SEQIDNO:13和SEQIDNO:14;構(gòu)成Ada4b的兩個核苷酸片段,其序列分別為SEQIDNO:15和SEQIDNO:16;構(gòu)成Ada5a的兩個核苷酸片段,其序列分別為SEQIDNO:17和SEQIDNO:18;構(gòu)成Ada5b的兩個核苷酸片段,其序列分別為SEQIDNO:19和SEQIDNO:20。五對接頭的設(shè)計特征在于:接頭序列中包含SapI的酶切位點和用于實現(xiàn)標(biāo)簽串聯(lián)的特征序列(三堿基組合)以及擴增引物結(jié)合的通用序列,但接頭Ada1a和Ada5b的序列中SapI的酶切位點設(shè)計了一個堿基的突變,不能被酶切。因此利用SapI酶(NEB)對五種混合標(biāo)簽的PCR產(chǎn)物酶切時,酶切標(biāo)簽的兩端接頭Ada2a和Ada2b、Ada3a和Ada3b、Ada4a和Ada4b以及Ada1b和Ada5a側(cè)的接頭及引物通用序列能被SapI酶切除,使五種標(biāo)簽片段兩側(cè)帶有的三堿基特征序列形成末端粘性突出,根據(jù)特征序列的互補配對,實現(xiàn)五種標(biāo)簽首尾依次串聯(lián),即Ada1b端與Ada2a端連接,Ada2b端與Ada3a端連接,Ada3b端與Ada4a端連接,Ada4b端與Ada5a端連接,從而形成串聯(lián)標(biāo)簽,而串聯(lián)標(biāo)簽上Ada1a和Ada5b接頭端的通用序列仍然保留,為下一步串聯(lián)標(biāo)簽的擴增富集提供引物的結(jié)合點。其中構(gòu)成Ada1a的兩個核苷酸序列為5'-ACACTCTTTCCCTACACGACGCTGTTCCGATCTNNN-3'(SEQIDNO:1)和5'-AGATCGGAACAGC-3'(SEQIDNO:2);Ada1b的核苷酸序列為5'-GTGACTGGAGTTCAGACGTGTGCTCTTCACGANNN-3'(SEQIDNO:3)和5'-TCGTGAAGAGCAC-3'(SEQIDNO:4);Ada2a的核苷酸序列為5'-ACACTCTTTCCCTACACGACGCTCTTCATCGNNN-3'(SEQIDNO:5)和5'-CGATGAAGAGCGT-3'(SEQIDNO:6);Ada2b的核苷酸序列為5'-GTGACTGGAGTTCAGACGTGTGCTCTTCAGCANNN-3'(SEQIDNO:7)和5'-TGCTGAAGAGCAC-3'(SEQIDNO:8);Ada3a的核苷酸序列為5'-ACACTCTTTCCCTACACGACGCTCTTCATGCNNN-3'(SEQIDNO:9)和5'-GCATGAAGAGCGT-3'(SEQIDNO:10);Ada3b的核苷酸序列為5'-GTGACTGGAGTTCAGACGTGTGCTCTTCAGACNNN-3'(SEQIDNO:11)和5'-TCGTGAAGAGCAC-3'(SEQIDNO:12);Ada4a的核苷酸序列為5'-ACACTCTTTCCCTACACGACGCTCTTCAGTCNNN-3'(SEQIDNO:13)和5'-GACTGAAGAGCGT-3'(SEQIDNO:14);Ada4b的核苷酸序列為5'-GTGACTGGAGTTCAGACGTGTGCTCTTCACAGNNN-3'(SEQIDNO:15)和5'-CTGTGAAGAGCAC-3'(SEQIDNO:16);Ada5a的核苷酸序列為5'-ACACTCTTTCCCTACACGACGCTCTTCACTGNNN-3'(SEQIDNO:17)和5'-CAGTGAAGAGCGT-3'(SEQIDNO:18);Ada5b的核苷酸序列為5'-GTGACTGGAGTTCAGACGTGTGCTGTTCCGATCTNNN-3'(SEQIDNO:19)和5'-AGATCGGAACAGC-3'(SEQIDNO:20)。3)連接產(chǎn)物擴增,富集標(biāo)簽:將步驟2)所得到的五份連接產(chǎn)物分別利用不同的生物素引物和普通引物組合進行PCR擴增,富集連接有接頭的酶切片段,擴增后得到五份富集的PCR產(chǎn)物。所述的引物組合,其核苷酸序列分別為SEQIDNO:21,SEQIDNO:22,SEQIDNO:23和SEQIDNO:24。引物組合的設(shè)計特征在于,引物組合的選擇對應(yīng)步驟2)中的接頭組合,如表2所示,接頭1連接的酶切片段使用引物Prim1和BioPrim1擴增,接頭2、3、4連接的酶切片段使用引物BioPrim1和BioPrim2擴增,接頭5連接的酶切片段使用引物BioPrim1和Prim2擴增,即能被SapI酶切掉的接頭序列在擴增時結(jié)合的引物均為生物素引物,其目的在于利用磁珠純化能夠去除SapI酶切掉的通用引物片段,獲得游離的用于串聯(lián)的標(biāo)簽片段,有效避免了多余的片段干擾串聯(lián)反應(yīng),使標(biāo)簽串聯(lián)的效率更高。PCR反應(yīng)體系均為50μL,包含18μL反應(yīng)模板,8μmol/LPrimerA引物,8μmol/LPrimerB引物,12mmol/LdNTPs(脫氧核糖核苷三磷酸)(NEB),0.8UPhusion超保真DNA聚合酶(NEB),1×HFbuffer。反應(yīng)條件均為98℃變性反應(yīng)5s,60℃退火20s,72℃延伸10s,每個反應(yīng)進行16個循環(huán)。擴增后的PCR產(chǎn)物用8%非變性聚丙烯酰胺瓊凝膠電泳檢測,擴增產(chǎn)物大小約為100bp。切膠回收PCR產(chǎn)物。將回收的產(chǎn)物再次進行擴增,方法同上,擴增4-8個循環(huán)。將五份經(jīng)多次擴增的產(chǎn)物等量混合,使用Qiagen公司的MinElutePCRkit進行純化,去除多余的引物、Phusion酶及dNTP等成分避免影響后續(xù)反應(yīng)。表2不同標(biāo)簽使用的引物標(biāo)簽位置PrimerAPrimerB1Prim1BioPrim22BioPrim1BioPrim23BioPrim1BioPrim24BioPrim1BioPrim25BioPrim1Prim2其中Prim1的核苷酸序列為5'-ACACTCTTTCCCTACACGACGCT-3'(SEQIDNO:21);Prim2的核苷酸序列為5'-GTGACTGGAGTTCAGACGTGTGCT-3'(SEQIDNO:22);BioPrim1的核苷酸序列為(biotin)5'-ACACTCTTTCCCTACACGACGCT-3'(SEQIDNO:23);BioPrim2的核苷酸序列為(biotin)5'-GTGACTGGAGTTCAGACGTGTGCT-3'(SEQIDNO:24)。4)五份標(biāo)簽文庫串聯(lián):利用SapI酶對混合并純化后的五份PCR產(chǎn)物進行酶切,切除了酶切片段兩端通用的接頭和引物序列,使接頭上帶有的三堿基特征序列保留并形成末端粘性突出,五份PCR產(chǎn)物形成了可直接串聯(lián)的標(biāo)簽,根據(jù)五對接頭上的三堿基的互補配對,使五份標(biāo)簽文庫按照順序依次串聯(lián)。酶切體系為30μL:包含10μL上述混合并純化后的PCR產(chǎn)物(含有PCR產(chǎn)物100-300ng),2USapI酶(NEB),30mmol/L三磷酸腺苷ATP,1×Tangobuffer;酶切反應(yīng)在37℃下保溫30min。在此期間進行磁珠的平衡:將磁珠(HydrophilicStreptavidinMagneticBeads,NEB)輕輕搖勻,吸出10μL至微量離心管中,放在磁力架上靜置2min,吸去上清,用20μL1×cutsmartbuffer仔細洗滌兩次,每次洗滌結(jié)束時在磁力架上靜置2min,吸去上清液,得到平衡好的磁珠備用。酶切反應(yīng)30min后,將30μL的酶切產(chǎn)物加入到上述平衡好的磁珠中,于室溫放置5min,期間不斷用移液器吹吸混勻。5min后放置于磁力架上,靜置2min,將上清轉(zhuǎn)移至新的微量離心管中,加入200U的T4DNA連接酶,16℃保溫45min,得到串聯(lián)后的標(biāo)簽文庫。利用8%非變性聚丙烯酰胺瓊凝膠電泳檢測,連接產(chǎn)物大小約為244bp,切膠回收連接產(chǎn)物。5)PCR擴增,串聯(lián)長標(biāo)簽富集,引入文庫特異性Barcode為了使串聯(lián)標(biāo)簽文庫具有測序平臺兼容的文庫序列結(jié)構(gòu),需要進一步利用Barcode引物對串聯(lián)標(biāo)簽進行擴增,引入barcode構(gòu)建測序文庫,使其具有在二代測序平臺上兼容的測序引物結(jié)合位點。PCR擴增反應(yīng)體系為50μL,包含7.5μL步驟4)中的連接產(chǎn)物,5μmol/LSlx-Primer3引物,5μmol/LSlx-IndexPrimer引物,12mmol/LdNTPs(NEB),0.8UPhusion超保真DNA聚合酶(NEB),1×HFbuffer。反應(yīng)條件為98℃變性5s,60℃退火20s,72℃延伸10s,進行4-6個循環(huán),得到PCR擴增產(chǎn)物。平行擴增兩管連接產(chǎn)物。PCR擴增產(chǎn)物用8%非變性聚丙烯酰胺凝膠電泳檢測,擴增產(chǎn)物大小約為299bp,利用Qiagen公司的MinElutePCR產(chǎn)物純化試劑盒回收純化PCR產(chǎn)物。利用Illunima公司Hiseq測序平臺測序。其中引物Primer3的核苷酸序列為5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCT-3'(SEQIDNO:25);引物IndexPrimer的核苷酸序列為5'-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3'(SEQIDNO:26),其中NNNNNN可根據(jù)不同的Barcode序列改變。6)數(shù)據(jù)分析:(1)對Illunima測序得到的原始數(shù)據(jù)進行質(zhì)量過濾,去除含有N的序列以及大于5個堿基的質(zhì)量值小于10的reads;(2)根據(jù)酶切位點所在的位置對串聯(lián)序列進行拆分,分別提取出五個樣品文庫的BsaXI標(biāo)簽序列;(3)利用已有生物信息學(xué)軟件(如開放獲取軟件Stacks、RADtyping等)對五個樣品的標(biāo)簽序列進行數(shù)據(jù)分析,獲得樣品基因組中的SNP位點或甲基化信息。本實施例建立的文庫構(gòu)建方法不僅為串聯(lián)標(biāo)簽進行二代高通量測序提供了解決方案,還能實現(xiàn)標(biāo)簽串聯(lián)數(shù)目及連接順序的可控,并且是RAD類技術(shù)中首例將等長RAD標(biāo)簽順序串聯(lián)進行測序的建庫方法。同時,所串聯(lián)的多種標(biāo)簽的組合可靈活設(shè)置,可根據(jù)使用者的需求來確定為不同樣品、不同酶或不同應(yīng)用(SNP分型或DNA甲基化水平檢測)的組合。該技術(shù)將等長RAD標(biāo)簽測序技術(shù)與目前主流的、低成本的雙末端測序方法相結(jié)合,提供了更為高效、靈活的全基因組遺傳變異和表觀遺傳變異篩查和檢測的手段。實施例1下面以蝦夷扇貝為實驗材料,對不同類型的標(biāo)簽文庫串聯(lián)測序為例詳細敘述本實施例的建庫方法,對于本實施例所用的試劑以及反應(yīng)條件等,本領(lǐng)域的技術(shù)人員可以根據(jù)本實施例的技術(shù)方案,在現(xiàn)有技術(shù)中進行選擇,而不僅限于本實施例具體實施例的限制。1、提取扇貝基因組DNA取一只蝦夷扇貝的閉殼肌約0.1克,加入到500μLSTE裂解緩沖液中,所述STE裂解緩沖液包括NaCl:100mmol/L;EDTA:1mmol/L,pH=8.0;Tris-HCl,10nmol/L,pH=8.0,剪碎,再加入50μL10%的SDS(十二烷基硫酸鈉),以及5μL蛋白酶K(20mg/mL),56℃水浴消化,至組織碎塊完全裂解,裂解液澄清。加入等體積的飽和酚(250μL)以及氯仿/異戊醇(體積比為24:1)(250μL),抽提3次,取上清液,加入等體積氯仿/異戊醇(24:1)(500μL)抽提1次,取上清液,加入1/10體積CH3COONa(3mol/L,pH5.2)(50μL)和2倍體積-20℃保存無水乙醇(1000μL),緩慢搖勻;-20℃沉淀30min,然后12000rpm離心10min,核酸將沉淀于管底。用體積濃度為70%的乙醇(1000μL)洗滌沉淀并干燥至乙醇全部揮發(fā),加入100μL無菌水以及少量(1-2μL)RNaseA(核糖核酸酶),4℃冰箱保存?zhèn)溆谩?、扇貝基因組DNA的消化選擇三種IIB型限制性內(nèi)切酶(BsaXI、BcgI、BaeI)和兩種甲基修飾依賴型內(nèi)切酶(FspEI、MspJI)酶切基因組DNA,獲得五種不同類型的酶切產(chǎn)物。酶切體系為15μL,包含200ng基因組DNA,1U的內(nèi)切酶(NEB),1×cutsmart。酶切反應(yīng)溫度為37℃,保溫45min。3、在酶切片段的兩端分別連接上接頭,作為擴增引物的結(jié)合點對五份酶切產(chǎn)物分別連接不同的接頭組合,如表3所示,獲得五份連接產(chǎn)物。連接反應(yīng)體系為20μL,包含10μL步驟2中的酶切產(chǎn)物,200UT4DNA連接酶(NEB),1×T4LigaseBuffer,4μmol/LSlx-AdaA,4μmol/LSlx-AdaB,10mmol/L三磷酸腺苷ATP。連接反應(yīng)溫度為16℃,連接1h。表3實施例1中五份酶切產(chǎn)物所連接的接頭組合標(biāo)簽位置Slx-AdaASlx-AdaB標(biāo)簽1(BsaXI)Ada1aAda1b標(biāo)簽2(BcgI)Ada2aAda2b標(biāo)簽3(BaeI)Ada3aAda3b標(biāo)簽4(FspEI)Ada4aAda4b標(biāo)簽5(MspJI)Ada5aAda5b4、將連接上接頭的酶切片段進行PCR擴增,富集標(biāo)簽對步驟3中獲得的五份連接產(chǎn)物按照表4提供的引物組合進行PCR擴增,富集酶切片段,獲得五份PCR產(chǎn)物。PCR擴增反應(yīng)體系均為50μL,包含18μL反應(yīng)模板,8μmol/LPrimerA引物,8μmol/LPrimerB引物,12mmol/LdNTPs(NEB),0.8UPhusion超保真DNA聚合酶(NEB),1×HFbuffer。反應(yīng)條件均為98℃變性5s,60℃退火20s,72℃延伸10s,進行16個循環(huán)。其中PrimerA引物為(5'-ACACTCTTTCCCTACACGACGCT-3');PrimerB引物為(5'-GTGACTGGAGTTCAGACGTGTGCT-3');表4實施例1中進行PCR擴增的引物組合標(biāo)簽位置PrimerAPrimerB標(biāo)簽1(BsaXI)Prim1BioPrim2標(biāo)簽2(BcgI)BioPrim1BioPrim2標(biāo)簽3(BaeI)BioPrim1BioPrim2標(biāo)簽4(FspEI)BioPrim1BioPrim2標(biāo)簽5(MspJI)BioPrim1Prim2五份PCR產(chǎn)物用8%非變性聚丙烯酰胺瓊凝膠電泳檢測,擴增產(chǎn)物大小約為100bp,切膠回收五份PCR產(chǎn)物。將回收的五份PCR產(chǎn)物分別再次進行擴增富集,體系如上,擴增7個循環(huán)得最終的PCR產(chǎn)物。將五份最終的PCR產(chǎn)物等體積混合,使用Qiagen公司的MinElutePCRkit進行純化,獲得一份PCR純化產(chǎn)物。5、酶切連接使用SapI酶對混合PCR產(chǎn)物進行酶切,使酶切片段形成可串聯(lián)的標(biāo)簽文庫。酶切體系為30μL:包含10μL步驟4中的PCR純化產(chǎn)物,2USapI酶(NEB),30mmol/L三磷酸腺苷ATP,1×Tangobuffer;37℃保溫30min后,將30μL的酶切產(chǎn)物加入到平衡好的磁珠中,于室溫放置5min,期間不斷用移液器吹吸混勻。5min后放置于磁力架上,靜置2min,將上清轉(zhuǎn)移至新的微量離心管中,加入200U的T4DNA連接酶,16℃保溫45min,使標(biāo)簽按照順序進行串聯(lián)。磁珠平衡步驟:將磁珠(HydrophilicStreptavidinMagneticBeads,NEB)輕輕搖勻,吸出10μL至微量離心管中,放在磁力架上靜置2min,吸去上清,用20μL1×cutsmartbuffer仔細洗滌兩次,每次洗滌結(jié)束時在磁力架上靜置2min,吸去上清液。30min后,利用8%非變性聚丙烯酰胺瓊凝膠電泳檢測串聯(lián)標(biāo)簽產(chǎn)物,連接產(chǎn)物大小約為244bp,切膠回收連接產(chǎn)物。6、PCR擴增,引入文庫特異性Barcode串聯(lián)標(biāo)簽產(chǎn)物利用引物進一步擴增,引入Barcode和Illunima平臺測序所需要的通用序列。PCR反應(yīng)體系為50μL,包含7.5μL連接產(chǎn)物,5μmol/LSlx-Primer3引物,5μmol/LSlx-IndexPrimer引物,12mmol/LdNTPs,0.8UPhusion超保真DNA聚合酶(NEB),1×HFbuffer。反應(yīng)條件為98℃變性5s,60℃退火20s,72℃延伸10s,進行7個循環(huán)。平行擴增兩管。其中Slx-Primer3引物序列為(5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCT-3');Slx-IndexPrimer引物序列為(5'-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3',其中NNNNNN可根據(jù)不同的Barcode序列改變。PCR產(chǎn)物用8%非變性聚丙烯酰胺凝膠電泳檢測,擴增產(chǎn)物大小約為299bp,利用Qiagen公司的MinElutePCR產(chǎn)物純化試劑盒回收純化PCR產(chǎn)物。利用IllunimaHiseq測序平臺測序。7、數(shù)據(jù)分析:1)對Illunima測序得到的原始數(shù)據(jù)進行質(zhì)量過濾,去除含有N的序列以及大于5個堿基的質(zhì)量值小于10的reads,測序的串聯(lián)文庫高質(zhì)量Reads所占比例在98.9%。2)根據(jù)酶切位點所在的位置對串聯(lián)序列進行拆分,分別提取出五種文庫的標(biāo)簽序列;其中BsaXI文庫含有酶切位點的標(biāo)簽提取率為90.3%;BcgI文庫含有酶切位點的標(biāo)簽提取率為93.4%;BaeI文庫含有酶切位點的標(biāo)簽提取率為90.1%;FspEI文庫含有酶切位點的標(biāo)簽提取率為90.0%;MspJI文庫含有酶切位點的標(biāo)簽提取率為92.2%,幾種類型的文庫含有酶切位點的標(biāo)簽提取率均在90%以上,表明所構(gòu)建的標(biāo)簽文庫能夠按照既定的順序依次串聯(lián)。3)利用已有生物信息學(xué)軟件對五個文庫的標(biāo)簽序列進行數(shù)據(jù)分析?;赗AD-typing軟件對2b-RAD文庫的標(biāo)簽序列進行比對后分型,獲得酶切標(biāo)簽的數(shù)目及樣品基因組中的SNP位點信息。與標(biāo)準(zhǔn)的單標(biāo)簽文庫結(jié)果相比,串聯(lián)標(biāo)簽的測序文庫獲得的標(biāo)簽種類覆蓋了基因組93.15%的單拷貝位點,其中96.02%的位點與單標(biāo)簽文庫相同,與單標(biāo)簽文庫相比分型一致率達到99.2%,對串聯(lián)標(biāo)簽中的MethylRAD甲基化文庫數(shù)據(jù)利用CD-HIT軟件對高質(zhì)量標(biāo)簽序列進行聚類分析,獲得測序文庫中的甲基化標(biāo)簽種類以及該代表標(biāo)簽的豐度,即該位點的甲基化水平信息。結(jié)果獲得基因組中FspEI甲基化標(biāo)簽130162個,覆蓋了單標(biāo)簽文庫90.6%的位點,MspJI甲基化標(biāo)簽260545個,覆蓋了單標(biāo)簽文庫91.4%的位點,兩個串聯(lián)甲基化標(biāo)簽文庫與單標(biāo)簽文庫對位點的甲基化水平定量的一致性均達到了0.90以上。綜上結(jié)果表明,2b-RAD類型文庫利用串聯(lián)標(biāo)簽測序的建庫方法能夠獲得可靠的SNP信息,MethylRAD甲基化文庫利用串聯(lián)標(biāo)簽測序的建庫方法能夠獲得全面的甲基化位點及可靠的甲基化水平信息。本實施例通過實現(xiàn)對不同類型的標(biāo)簽構(gòu)建串聯(lián)測序文庫,解決了2b-RAD或MethylRAD技術(shù)無法應(yīng)用于雙末端測序平臺的局限,使得標(biāo)簽測序成本大大降低。同時,所串聯(lián)的五種標(biāo)簽的組合可根據(jù)使用者的需求靈活設(shè)置,為研究者提供了更為高效、靈活的全基因組遺傳變異和表觀遺傳變異篩查和檢測的手段。表5本實施例中涉及的引物序列表SEQUENCELISTING<110>中國海洋大學(xué)<120>一種串聯(lián)RAD標(biāo)簽測序文庫的構(gòu)建方法<130><160>26<170>PatentInversion3.3<210>1<211>36<212>DNA<213>人工序列<400>1ACACTCTTTCCCTACACGACGCTGTTCCGATCTNNN36<210>2<211>13<212>DNA<213>人工序列<400>2AGATCGGAACAGC13<210>3<211>35<212>DNA<213>人工序列<400>3GTGACTGGAGTTCAGACGTGTGCTCTTCACGANNN35<210>4<211>13<212>DNA<213>人工序列<400>4TCGTGAAGAGCAC13<210>5<211>34<212>DNA<213>人工序列<400>5ACACTCTTTCCCTACACGACGCTCTTCATCGNNN34<210>6<211>13<212>DNA<213>人工序列<400>6CGATGAAGAGCGT13<210>7<211>35<212>DNA<213>人工序列<400>7GTGACTGGAGTTCAGACGTGTGCTCTTCAGCANNN35<210>8<211>13<212>DNA<213>人工序列<400>8TGCTGAAGAGCAC13<210>9<211>34<212>DNA<213>人工序列<400>9ACACTCTTTCCCTACACGACGCTCTTCATGCNNN34<210>10<211>13<212>DNA<213>人工序列<400>10GCATGAAGAGCGT13<210>11<211>35<212>DNA<213>人工序列<400>11GTGACTGGAGTTCAGACGTGTGCTCTTCAGACNNN35<210>12<211>13<212>DNA<213>人工序列<400>12TCGTGAAGAGCAC13<210>13<211>34<212>DNA<213>人工序列<400>13ACACTCTTTCCCTACACGACGCTCTTCAGTCNNN34<210>14<211>13<212>DNA<213>人工序列<400>14GACTGAAGAGCGT13<210>15<211>35<212>DNA<213>人工序列<400>15GTGACTGGAGTTCAGACGTGTGCTCTTCACAGNNN35<210>16<211>13<212>DNA<213>人工序列<400>16CTGTGAAGAGCAC13<210>17<211>34<212>DNA<213>人工序列<400>17ACACTCTTTCCCTACACGACGCTCTTCACTGNNN34<210>18<211>13<212>DNA<213>人工序列<400>18CAGTGAAGAGCGT13<210>19<211>37<212>DNA<213>人工序列<400>19GTGACTGGAGTTCAGACGTGTGCTGTTCCGATCTNNN37<210>20<211>13<212>DNA<213>人工序列<400>20AGATCGGAACAGC13<210>21<211>23<212>DNA<213>人工序列<400>21ACACTCTTTCCCTACACGACGCT23<210>22<211>24<212>DNA<213>人工序列<400>22GTGACTGGAGTTCAGACGTGTGCT24<210>23<211>23<212>DNA<213>人工序列<400>23(biotin)-ACACTCTTTCCCTACACGACGCT23<210>24<211><212>DNA<213>人工序列<400>24(biotin)-GTGACTGGAGTTCAGACGTGTGCT24<210>25<211>48<212>DNA<213>人工序列<400>25AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCT48<210>26<211>64<212>DNA<213>人工序列<400>26CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT64當(dāng)前第1頁1 2 3