專利名稱:利用硫代寡核苷酸探針的dna測(cè)序方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)中DNA測(cè)序領(lǐng)域,特別涉及一種利用硫代寡核苷酸探針 的DNA測(cè)序方法。
背景技術(shù):
現(xiàn)有技術(shù)人類基因組計(jì)劃和各種模式生物基因組計(jì)劃的開展和完成,對(duì)當(dāng) 代的生物學(xué)研究和醫(yī)學(xué)研究產(chǎn)生了巨大的影響。人們能夠從基因水平上認(rèn)識(shí)生命 現(xiàn)象的差異,疾病發(fā)生、發(fā)展的規(guī)律,以及藥物與生命體的相互作用。就基因序 列分析而言,后基因組時(shí)代的重點(diǎn)已由單個(gè)物種的全基因組序列測(cè)定轉(zhuǎn)移到了對(duì) 某一物種在基因組DNA序列層次上個(gè)體遺傳差異及物種間遺傳差異的比較。在基 礎(chǔ)研究方面,研究疾病基因的遺傳規(guī)律,克隆致病基因;在應(yīng)用方面,直接尋找 疾病的易感基因突變位點(diǎn),通過對(duì)于某一特定疾病的大量基因組樣本中突變基因 型的大規(guī)模鑒定和檢測(cè),可以獲得與該疾病相關(guān)基因型的信息。目前,在尋找新 的功能基因和疾病相關(guān)的突變位點(diǎn)方面,人們?nèi)匀恢饕褂贸R?guī)的Sanger DNA測(cè) 序法。這一方法存在通量低和成本高的問題。第一個(gè)人類基因組序列測(cè)定的費(fèi)用 大約為10億美元,但是盡管目前這一費(fèi)用已經(jīng)降低到大約2千萬美元以下,功能 基因組的研究進(jìn)展仍然受限于DNA測(cè)序技術(shù)。為此,美國Venter基金會(huì)在2003年 提出了 1000美元人類全基因組測(cè)序的研究目標(biāo)。2004年初,美國國立衛(wèi)生院投入 巨資支持DNA測(cè)序新技術(shù)的研究。他們的目標(biāo)是在近年內(nèi)發(fā)展10萬美元的人類全 基因組DNA測(cè)序技術(shù),并最終減低為l千美元。美國國立衛(wèi)生研究院人類基因組 研究中心主任Collins教授指出大幅度降低DNA測(cè)序的成本將會(huì)大大推動(dòng)生命科 學(xué)和醫(yī)學(xué)的研究,甚至?xí)砀锩缘淖兓?。目前國際上要完成一個(gè)哺乳動(dòng)物全 基因組的測(cè)序仍需要上千萬美元。以當(dāng)前最為先進(jìn)的ABI Prism 3730 DNA測(cè)序 儀為例,完成人類基因組中30億堿基的測(cè)序,需要150臺(tái)ABI Prism 3730 DNA測(cè) 序儀運(yùn)轉(zhuǎn)一年,其測(cè)序成本達(dá)到二千四百萬美元?,F(xiàn)在以Sanger DNA測(cè)序法為基 礎(chǔ)的,在發(fā)展高密度的毛細(xì)管陣列,以提高測(cè)序的并行性,進(jìn)而提高DNA的測(cè)序 速度這一研究思路在提高DNA測(cè)序速度和降低成本方面的改進(jìn)空間也十分有限。 目前,國際學(xué)術(shù)界已經(jīng)清醒地認(rèn)識(shí)到發(fā)展快速低成本的人類個(gè)體基因組再測(cè)序技術(shù)的重要性。美國國立衛(wèi)生院NIH的近期目標(biāo)是計(jì)劃在五年內(nèi)將DNA測(cè)序的成本 下降100倍以上,最終在10年內(nèi)使得測(cè)序成本降至1000美元。如何實(shí)現(xiàn)個(gè)體全基 因組DNA序列的快速有效低成本測(cè)定,已是當(dāng)今國際基因組科學(xué)及其應(yīng)用所面臨 的重要挑戰(zhàn)之一,也是我國生命科學(xué)和醫(yī)學(xué)發(fā)展面臨的又一次大的機(jī)遇。國家科 技部在2006年啟動(dòng)的"十一五"863"生物芯片"重點(diǎn)項(xiàng)目中對(duì)低成本快速人類全基因 組的測(cè)序技術(shù)和相關(guān)儀器的研究進(jìn)行了重點(diǎn)支持。該項(xiàng)目提出了 一萬人民幣全基 因組測(cè)序的目標(biāo)。在未來的5年中發(fā)展出相應(yīng)的DNA測(cè)序模版芯片、試劑和相關(guān) 的DNA測(cè)序儀,并爭取實(shí)現(xiàn)產(chǎn)業(yè)化。新一代DNA測(cè)序技術(shù)可以分成三大類。即 雜交測(cè)序4支術(shù)(sequenceing by hybridization , SBH)、 合成'測(cè)序(sequenceing by synthesis, SBS)技術(shù),和DNA單分子測(cè)序技術(shù)。下面我們將對(duì)目前迅速發(fā)展的 DNA測(cè)序創(chuàng)新技術(shù)進(jìn)行討論。雜交測(cè)序的優(yōu)點(diǎn)是檢測(cè)速度快,采用標(biāo)準(zhǔn)化的高密 度寡核苷酸芯片能夠大幅度降低檢測(cè)的成本。但是,由于序列相似的模板DNA和 探針DNA在形成雙螺旋結(jié)構(gòu)方面的穩(wěn)定性差別很小,容易造成信號(hào)的假陽性。另 外雜交測(cè)序方法可能無法閱讀人類基因組中大量各種重復(fù)序列。合成測(cè)序方法通 過在大量固定化的DNA測(cè)序模板上雜交結(jié)合通用的DNA引物,控制四種堿基在 DNA引物上的延伸,通過檢測(cè)延伸反應(yīng)過程或延伸堿基,實(shí)現(xiàn)高通量并行的DNA 序列信息的檢測(cè)。目前,推出商業(yè)化的合成測(cè)序儀器的公司有羅氏(Roche)公司旗 下的454 Life Sciences Corp和英國劍橋大學(xué)派生的Solexa公司。454公司的測(cè)序儀 器中使用了焦測(cè)序(pyrosequencing)技術(shù),利用合成時(shí)釋放的焦磷酸(PPi)分子的有 無和多少來進(jìn)行對(duì)所測(cè)模板序列的判讀。2007年5月底,454 Life Sciences和貝勒 醫(yī)學(xué)院人類基因組測(cè)序中心合作,使用該公司的Genome Sequencer FLX測(cè)序儀, 只用了兩個(gè)月的時(shí)間,就完成對(duì)DNA雙螺旋的發(fā)現(xiàn)者之一沃森的個(gè)體全基因組序 列測(cè)定,其測(cè)序成本不到IOO萬美元。Solexa公司采用了與454 Life Sciences不同的 合成測(cè)序原理。Solexa公司采用四種結(jié)構(gòu)新穎的可逆終止核香酸單體(reversible terminator)和擁有一系列天然酶分子所不具備性質(zhì)的新型酶分子,以及標(biāo)準(zhǔn)的微 陣列光學(xué)檢測(cè)系統(tǒng)來同時(shí)檢測(cè)陣列中那些被固定DNA鏈上的引物延伸過程。 Solexa的測(cè)序技術(shù)借助于產(chǎn)生極高密度的單分子陣列,將全基因組分析的大規(guī)模 并行處理(massively parallel processing)和" 一 管,,樣品制備(one-tube sample preparation)相結(jié)合,在降低基因組測(cè)序的成本和提高測(cè)序的效率方面取得了重要 性的突破。Solexa用這種方法對(duì)人類DNA中長度為162 kb的片段進(jìn)行了測(cè)序,并 與人類基因組計(jì)劃得到的標(biāo)準(zhǔn)參考序列進(jìn)行比較,其測(cè)序結(jié)果的準(zhǔn)確率超過 99.99%,并且發(fā)現(xiàn)了已知在這個(gè)片段中存在的全部162個(gè)常見的SNP突變位點(diǎn)。另 外,應(yīng)用生物系統(tǒng)公司(ABI)發(fā)展的SOLiD(Supported Oligo Ligation Detection)測(cè)序 技術(shù)發(fā)展也很迅速,SOLiD的測(cè)序策略與454公司和Solexa公司都有戶> 不同,SOLiD測(cè)序技術(shù)使用了 DNA連接酶進(jìn)行測(cè)序,因此有時(shí)也被稱作為連接測(cè)序 (sequenceing by ligation), 2007年6月,ABI向市場推出了使用該方法的SOLiD測(cè)序 系統(tǒng),該系統(tǒng)每運(yùn)行一次產(chǎn)生大約l Gb的堿基序列信息。目前該系統(tǒng)已經(jīng)成功的 用于對(duì)C. e/egara和E co"的再測(cè)序。在對(duì)£.0>//的再測(cè)序結(jié)果中,該方法發(fā)現(xiàn)了一 個(gè)用Sanger測(cè)序法拼接時(shí)遺漏的大重復(fù)序列。盡管合成測(cè)序方法已經(jīng)取得了重要 的進(jìn)展,但合成測(cè)序方法的閱讀長度相對(duì)較短并且測(cè)序DNA模板陣列的制備農(nóng)賴 于PCR擴(kuò)增,這不僅在測(cè)序模板的擴(kuò)增拷貝過程中容易引入復(fù)制錯(cuò)誤,而且PCR 擴(kuò)增存在明顯的偏向性,這對(duì)于有效地獲得全基因組測(cè)序模板陣列形成了重要的 技術(shù)瓶頸。發(fā)明內(nèi)容技術(shù)問題本發(fā)明的目的是提供一種利用硫代寡核普酸探針的DNA測(cè)序方 法,該方法進(jìn)一步降低DNA的測(cè)序成本,提高每一個(gè)序列的測(cè)序長度,并縮短 每個(gè)堿基的閱讀時(shí)間。通過一種含疏代核苷的測(cè)序引物,采用雜交-酶連接-酶切 割的高通量測(cè)序技術(shù),為DNA序列分析提供一種新方法,建立快速、.準(zhǔn)確、和 低成本的高通量DNA序列測(cè)定技術(shù)。技術(shù)方案本發(fā)明利用硫代寡核苷酸探針的DNA測(cè)序方法的測(cè)序步驟為硫代寡核苷酸探針的構(gòu)建硫代寡核苷酸探針序列的5,-3,端依次為錨定區(qū)、 識(shí)別區(qū)和剪切區(qū),錨定區(qū)含有n個(gè)核脊酸或堿基類似物,其中0<nSlO;識(shí)別區(qū)含 有m個(gè)核苷酸或堿基類似物,其中0<n^l0,并且識(shí)別區(qū)3'端第一個(gè)核苷酸或堿 基類似物與5'方向鄰接著的核脊酸或堿基類似物之間為疏代修飾的磷酸鍵;剪切 區(qū)含有k個(gè)核苷酸或堿基類似物,其中0<k5l0;剪切區(qū)序列上設(shè)有與識(shí)別區(qū)對(duì)應(yīng) 的標(biāo)記物;測(cè)序循環(huán)a) .利用測(cè)序定位引物與待測(cè)單鏈DNA模板進(jìn)行雜交,清洗去除多余的測(cè)序 定位引物;b) .將硫代寡核苷酸探針與步驟a所得待測(cè)單鏈DNA模板進(jìn)行雜交,在連接 酶的作用下,與待測(cè)單鏈DNA模板完全匹配的疏代寡核苷酸探針和緊鄰著測(cè)序 定位引物完成連接反應(yīng),然后清除未連接以及游離的疏代寡核普酸探針;c) .讀取標(biāo)記物的信號(hào)種類和強(qiáng)度,確定此次與識(shí)別區(qū)互補(bǔ)的待測(cè)單鏈DNA 模板的信息;d) .利用受阻于硫代修飾磷酸鍵的外切酶去除步驟c所得測(cè)序定位引物相連的 硫代寡核苷酸探針上的剪切區(qū);e) .重復(fù)上述b-d步驟2-IO次,完成該輪測(cè)序。f) .對(duì)步驟e所得產(chǎn)物進(jìn)行變性,得到初始的待測(cè)單鏈DNA模板,用3'端比 上一輪少一個(gè)核苷酸的測(cè)序定位引物重復(fù)a - e步驟;g) .重復(fù)f步驟n-l次。錨定區(qū)的5'端為磷酸基團(tuán)修飾;識(shí)別區(qū)至少一個(gè)核苷酸或堿基類似物的位置 和種類明確;錨定區(qū)與識(shí)別區(qū)內(nèi)的核苷酸或堿基類似物序列之間為正常的磷酸鍵 或硫代修飾的磷酸鍵。剪切區(qū)的核苦酸或堿基類似物序列之間為磷酸鍵。標(biāo)記物 是熒光、量子點(diǎn)、放射性同位素,標(biāo)記物的位置位于剪切區(qū)內(nèi)的核苦酸或堿基類 似物上。核苷酸為脫氧核糖核苷酸、核糖核苷酸、鎖核酸;堿基類似物是脫氧肌 苷、脫氧核糖、核糖、次黃嗓呤、曱基腺嘌呤或曱基鳥嘌呤。有益效果本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)1.本發(fā)明的最大優(yōu)點(diǎn)是實(shí)現(xiàn)了 DNA序列測(cè)定的標(biāo)記雜交序列的簡易合成以 及方便將標(biāo)記物切除,由于雜交的高通量引物是通過非常成熟的固相DNA方法 合成并純化得到,因此該方法沒有錯(cuò)誤延伸的累積效應(yīng),能夠維持DNA模板和 測(cè)序引物的量,序列的測(cè)定正確可靠。2.本發(fā)明的高通量測(cè)序引物由于確定的堿基可以置于任何已知的位置,因此 可以通過改變測(cè)序定位引物的方法先將某些特定位置堿基序列確定的方法來增加 序列測(cè)定的閱讀長度。此外,該發(fā)明均按照常規(guī)的分子生物學(xué)方法進(jìn)行,容易在 現(xiàn)有的技術(shù)上實(shí)施。
圖1是本發(fā)明中一組四個(gè)含硫代寡核苷酸探針示意圖。圖中①表示錨定區(qū), ②表示標(biāo)識(shí)區(qū),③表示剪切區(qū),s表示硫代修飾的核普,*1、 *2、 *3、 *4分別表 示4種不同標(biāo)記物。N表示隨機(jī)的核苷酸,如脫氧核糖核香酸、核糖核脊酸、鎖 核酸(locked nucleic acid, LNA)以及脫氧肌脊、脫氧核糖、核糖、次黃噪呤、 曱基腺嘌呤、曱基鳥噪呤等能正確與核苷酸形成氫鍵的其它核苦酸或者堿基類似 物基團(tuán)。圖2是本發(fā)明中 一組十六個(gè)含硫代寡核苷酸探針示意圖;圖中①表示錨定 區(qū),②表示標(biāo)識(shí)區(qū),③表示剪切區(qū),s表示硫代修飾的核苦,*1、 *2、 *3、 *4分 別表示4種不同標(biāo)記物。N表示隨機(jī)的核苷酸,如脫氧核糖核苷酸、核糖核苷 酸、鎖核酸(locked nucleic acid, LNA)以及脫氧肌苦、脫氧核糖、核糖、次黃 噪呤、曱基腺噪呤、曱基鳥。票呤等能正確與核苷酸形成氫鍵的其它核苦酸或者堿 基類似物基團(tuán)。DNA模板通過DNA擴(kuò)增后得到,并與測(cè)序定位引物(2)完成雜交,加入標(biāo)記 的一組硫代寡核香酸探針(3)完成雜交(a),在連接酶的作用下,緊鄰測(cè)序定 位引物(2)的完全配對(duì)的石克代寡核苷酸探針(3-1)與測(cè)序定位引物(2)完成連 接反應(yīng)(b),通過變性、清除未連接的疏代核苷測(cè)序引物(3-3),并掃描記錄 DNA模板本次雜交-連接列后出現(xiàn)的標(biāo)記信號(hào),實(shí)現(xiàn)對(duì)待測(cè)單鏈DNA模板的一個(gè) 堿基T的測(cè)定(c)。重復(fù)上述過程,進(jìn)行下一個(gè)堿基的測(cè)定(d)。
具體實(shí)施方式
實(shí)施例1:利用硫代寡核苷酸探針的DNA測(cè)序方法利用硫代寡核苷酸探針的DNA測(cè)序方法,測(cè)序步驟為疏代寡核苷酸探針 的構(gòu)建硫代寡核苷酸探針序列的5,-3,端依次為錨定區(qū)、識(shí)別區(qū)和剪切區(qū),錨定 區(qū)含有n個(gè)核苷酸或堿基類似物,其中0<nSlO;識(shí)別區(qū)含有m個(gè)核苷酸或堿基 類似物,其中0<m^lO,并且識(shí)別區(qū)3'端第一個(gè)核苷酸或堿基類似物與5'方向鄰 接著的核苷酸或堿基類似物之間為疏代修飾的磷酸鍵;剪切區(qū)含有k個(gè)核苷酸或 堿基類似物,其中0<kSlO;剪切區(qū)序列上設(shè)有與識(shí)別區(qū)對(duì)應(yīng)的標(biāo)記物;測(cè)序循 環(huán)a).利用測(cè)序定位引物與待測(cè)單鏈DNA才莫板進(jìn)行雜交,清洗去除多余的測(cè)序 定位引物;b).將硫代寡核苷酸探針與步驟a所得待測(cè)單鏈DNA模板進(jìn)行雜交, 在連接酶的作用下,與待測(cè)單鏈DNA模板完全匹配的硫代寡核苷酸探針和緊鄰 著測(cè)序定位引物完成連接反應(yīng),然后清除未連接以及游離的疏代寡核苦酸探針; c).讀取標(biāo)記物的信號(hào)種類和強(qiáng)度,確定此次與識(shí)別區(qū)互補(bǔ)的待測(cè)單鏈DNA模板 的信息;d).利用受阻于疏代修飾磷酸鍵的外切酶去除步驟c所得測(cè)序定位引物相 連的硫代寡核普酸探針上的剪切區(qū);e).重復(fù)上述b-d步驟2-10次,完成該輪 測(cè)序。f).對(duì)步驟e所得產(chǎn)物進(jìn)行變性,得到初始的待測(cè)單鏈DNA模板,用3,端 比上一輪少一個(gè)核苷酸的測(cè)序定位引物重復(fù)a-e步驟;g).重復(fù)f步驟n - 1次。 錨定區(qū)的5'端為磷酸基團(tuán)修飾;識(shí)別區(qū)至少一個(gè)核苷酸或堿基類似物的位置和種 類明確;錨定區(qū)與識(shí)別區(qū)內(nèi)的核苷酸或堿基類似物序列之間為正常的磷酸鍵或硫 代修飾的磷酸鍵。剪切區(qū)的核苷酸或堿基類似物序列之間為磷酸鍵。標(biāo)記物是熒 光、量子點(diǎn)、放射性同位素,標(biāo)記物的位置位于剪切區(qū)內(nèi)的核苦酸或堿基類似物 上。核苦酸為脫氧核糖核脊酸、核糖核苦酸、鎖核酸;堿基類似物是脫氧肌香、 脫氧核糖、核糖、次黃噤呤、曱基腺嘌呤或曱基鳥噤呤。實(shí)施例2:單堿基雜交-連接測(cè)序法測(cè)定人全基因組將人基因組用酶切割(或者超聲破碎)成大小為50-200堿基的片斷,利用 T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修補(bǔ)片段末端并形成5'端帶有磷酸基團(tuán)的A粘性末端,在T4連接酶的作用下將這些片段化核酸序列用一 對(duì)通用連接子(5'-p-CAG TCA GTC AGT CAG TCA G T-3'和3'-T GTC AGT CAG TCA GTC AGT C-p-5',其中p表示磷酸基團(tuán))進(jìn)行連接,其中的通用連接子的一 條寡核苷酸序列與擴(kuò)增引物的序列完全互補(bǔ),而通用連接子另一個(gè)寡核酸序列與 測(cè)序定位引物的相同。將這些連接子連接的片段化核酸序列與固定連接子互補(bǔ)序列的微珠進(jìn)行乳液 并行PCR反應(yīng),擴(kuò)增片段化的人全基因組;并將這些微珠固定到平板基片上,通 過酶切或者變性得到人全基因組測(cè)序模板。參照附圖1和圖3,將測(cè)序定位引物與人全基因組測(cè)序模板雜交,然后將標(biāo) 記四種不同標(biāo)記物的5'-NNNN-s-AIIIII"-3'、 5'-NNNN-s-GIIIir2-3'、 5'-NNNN-s-Timi"-3'、 5'-NNNN-s-Cimi,3'與人全基因組測(cè)序模板完成雜交-連接,其中, N為隨機(jī)的四種脫氧核糖核香酸,I為次黃嘌呤,s為硫代修飾,標(biāo)記物1-4分 別為cy3、 cy5、 6-FAM和ROX,并在清除未連接的標(biāo)記石危代寡核苷酸4笨針后, 進(jìn)行掃描分析,確定哪些位置的模板進(jìn)行了哪些堿基的連接反應(yīng),從而確定基因 組序列上第5個(gè)位置上堿基的序列。用外切酶III將^5克代寡核苷酸^采針中的剪切區(qū) 切除。重復(fù)上述過程,每重復(fù)一次便增加一個(gè)堿基的序列測(cè)定,直到因每個(gè)i咸基 的延伸效率導(dǎo)致不能準(zhǔn)確堿基序列為止,這樣便可以知道位置5、 10、 15、20.....等位置的堿基序列;停止該輪測(cè)序,將延伸上述測(cè)定若干個(gè)堿基序列的測(cè)序定位引物變性掉,并重新雜交3'端比上一輪少一個(gè)堿基的測(cè)序定位引物,基于同樣的道理可以測(cè)定4、 9、 14、 19.....等位置的堿基序列;將獲得的堿基種類和位置信息輸入序列拼接軟件CodonCode Aligner 2.0.1及以上版本,得到明確 的單鏈DNA模板信息。實(shí)施例3:雙堿基雜交-連接測(cè)序法測(cè)定水稻全基因組將水稻基因組用酶切割(或者超聲破碎)成大小為50-200堿基的片斷,利用 T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修補(bǔ)片段末端并形成5'端 帶有磷酸基團(tuán)的A粘性末端,在T4連接酶的作用下將這些片段化核酸序列用一 對(duì)通用連接子(5'-p-CAG TCA GTC AGT CAG TCA G T-3'和3'-T GTC AGT CAG TCA GTC AGT C-p-5',其中p表示磷酸基團(tuán))進(jìn)行連接,其中的通用連接子的一 條寡核苷酸序列與擴(kuò)增引物的序列完全互補(bǔ),而通用連接子另 一個(gè)寡核酸序列與 測(cè)序定位引物的相同。將這些連接子連接的片段化核酸序列與固定連接子互補(bǔ)序列的微珠進(jìn)行乳液 并行PCR反應(yīng),擴(kuò)增片段化的水稻全基因組;并將這些微珠固定到平板基片上, 通過酶切或者變性得到水稻全基因組測(cè)序模板。參照附圖2和圖3,將測(cè)序定位引物與水稻全基因組測(cè)序模板雜交,然后將 標(biāo)記四種不同標(biāo)記物的5'-NNNNA-s-AIim"-3' 、 5'-NNNNG-s-AIim*2-3' 、 5'陽 NNNNT-s-AIIin"-3'、 5'-NNNNC-s-AIIIII"-3'等十六條疏代寡核苦酸探針與水稻全 基因組測(cè)序模板完成雜交-連接,其中,N為隨機(jī)的四種脫氧核糖核苷酸,I為 次黃嘌呤,s為碌u代修飾,標(biāo)記物1-4分別為cy3、 cy5、 HEX和TET,并在清 除未連接的標(biāo)記^e克代寡核苦酸探針后,進(jìn)行掃描分析,確定哪些位置的模板進(jìn)行 了哪些堿基的連接反應(yīng),從而確定基因組序列上第5和6個(gè)位置上堿基的序列。 用外切酶III將疏代寡核苦酸探針中的剪切區(qū)切除。重復(fù)上述過程,每重復(fù)一次便 增加一個(gè)堿基的序列測(cè)定,直到因每個(gè)堿基的延伸效率導(dǎo)致不能準(zhǔn)確堿基序列為止,這樣便可以知道位置5和6、 lO和ll、 15和16、 20和21.....等位置的堿基序列;停止該輪測(cè)序,將延伸上述測(cè)定若干個(gè)堿基序列的測(cè)序定位引物變性 掉,并重新雜交3'端比上一輪少一個(gè)堿基的測(cè)序定位引物,基于同樣的道理可以測(cè)定4和5、 9和10、 14和15、 19和20.....等位置的堿基序列;將獲得的堿基種類和位置信息輸入序列拼接軟件CodonCode Aligner 2.0.1及以上版本,得到 明確的單鏈DNA模板信息。實(shí)施例4:單堿基雜交-連接測(cè)序法測(cè)定小鼠全基因組將小鼠基因組用酶切割(或者超聲破碎)成大小為50-200堿基的片斷,利用 T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修補(bǔ)片段末端并形成5'端 帶有磷酸基團(tuán)的A粘性末端,在T4連接酶的作用下將這些片段化核酸序列用一 對(duì)通用連接子(5'-p-CAG TCA GTC AGT CAG TCA G T備3'和3'-T GTC AGT CAG TCA GTC AGT C-p-5',其中p表示磷酸基團(tuán))進(jìn)行連接,其中的通用連接子的一 條寡核苷酸序列與擴(kuò)增引物的序列完全互補(bǔ),而通用連接子另 一個(gè)寡核酸序列與 測(cè)序定位引物的相同。將這些連接子連接的片段化核酸序列與固定連接子互補(bǔ)序列的樣吏珠進(jìn)行乳液 并行PCR反應(yīng),擴(kuò)增片段化的小鼠全基因組;并將這些微珠固定到平板基片上, 通過酶切或者變性得到小鼠全基因組測(cè)序^莫板。參照附圖1和圖3,將測(cè)序定位引物與小鼠全基因組測(cè)序模板雜交,然后將 標(biāo)記四種不同標(biāo)記物的5'-LLLL-s-AIIin"-3' 、 5'-LLLL-s-GIIIlf 2-3' 、 5'-LLLL-s-TIIIII*3-3'、 5'-LLLL-s-Cinn"-3'與小鼠全基因組測(cè)序模板完成雜交-連接,其中, L為隨機(jī)的四種鎖核酸,I為次黃噪呤,s為疏代修飾,標(biāo)記物1~4分別為cy3、 cy5、 6-FAM和ROX,并在清除未連接的標(biāo)記硫代寡核苷酸探針后,進(jìn)行掃描分 析,確定哪些位置的模板進(jìn)行了哪些堿基的連接反應(yīng),從而確定基因組序列上第 5個(gè)位置上堿基的序列。用外切酶III將硫代寡核苷酸探針中的剪切區(qū)切除。重復(fù)上述過程,每重復(fù)一次便增加一個(gè)堿基的序列測(cè)定,直到因每個(gè)堿基的延伸效率導(dǎo)致不能準(zhǔn)確堿基序列為止,這樣便可以知道位置5、 10、 15、 20.....等位置的堿基序列;停止該輪測(cè)序,將延伸上述測(cè)定若干個(gè)堿基序列的測(cè)序定位引物變 性掉,并重新雜交3'端比上一輪少一個(gè)堿基的測(cè)序定位引物,基于同樣的道理可以測(cè)定4、 9、 14、 19.....等位置的堿基序列;將獲得的M種類和位置信息輸入序列拼接軟件CodonCode Aligner 2.0.1及以上版本,得到明確的單鏈DNA模 板信息。實(shí)施例5:雙堿基雜交-連接測(cè)序法測(cè)定擬南芥全基因組將擬南芥基因組用酶切割(或者超聲破碎)成大小為50-200堿基的片斷,利 用T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修補(bǔ)片段末端并形成5, 端帶有磷酸基團(tuán)的A粘性末端,在T4連接酶的作用下將這些片段化核酸序列用 一對(duì)通用連接子(5'-p-CAG TCA GTC AGT CAG TCA G T-3'和3'-T GTC AGT CAG TCA GTC AGT C-p-5,其中p表示磷酸基團(tuán))進(jìn)行連接,其中的通用連接 子的一條寡核苷酸序列與擴(kuò)增引物的序列完全互補(bǔ),而通用連接子另 一個(gè)寡核酸 序列與測(cè)序定位引物的相同。將這些連接子連接的片段化核酸序列與固定連接子互補(bǔ)序列的微珠進(jìn)行乳液并行PCR反應(yīng),擴(kuò)增片段化的擬南芥全基因組;并將這些4鼓珠固定到平板基片 上,通過酶切或者變性得到擬南芥全基因組測(cè)序模板。參照附圖2和圖3,將測(cè)序定位引物與擬南芥全基因組測(cè)序模板雜交,然后 將標(biāo)記四種不同標(biāo)記物的5'-LLLLA-s-AIIIlf'-3' 、 5'-LLLLG-s-AIIIlf 2-3' 、 5'-LLLLT-s-AIIIII"-3' 、 5'-LLLLC-s-AIIIIIM-3'等十六條硫代寡核苷酸探針與擬南芥全 基因組測(cè)序模板完成雜交-連接,其中,L為隨機(jī)的四種鎖核酸,I為次黃噤呤, s為硫代修飾,標(biāo)記物1-4分別為cy3、 cy5、 HEX和TET,并在清除未連接的 標(biāo)記硫代寡核苷酸探針后,進(jìn)行掃描分析,確定哪些位置的模板進(jìn)行了哪些堿基 的連接反應(yīng),從而確定基因組序列上第5和6個(gè)位置上堿基的序列。用外切酶III 將硫代寡核苷酸探針中的剪切區(qū)切除。重復(fù)上述過程,每重復(fù)一次便增加一個(gè)堿 基的序列測(cè)定,直到因每個(gè)堿基的延伸效率導(dǎo)致不能準(zhǔn)確堿基序列為止,這樣便可以知道位置5和6、 lO和ll、 15和16、 20和21.....等位置的堿基序列;停止該輪測(cè)序,將延伸上述測(cè)定若干個(gè)堿基序列的測(cè)序定位引物變性掉,并重新雜 交3,端比上一輪少一個(gè)堿基的測(cè)序定位引物,基于同樣的道理可以測(cè)定4和5、 9和10、 14和15、 19和20.....等位置的堿基序列;將獲得的威基種類和位置信息輸入序列拼接軟件CodonCode Aligner 2.0.1 ,及以上版本,得到明確的單鏈DNA 模板信息。實(shí)施例6:單堿基雜交-連接測(cè)序法測(cè)定大鼠全基因組將大鼠基因組用酶切割(或者超聲破碎)成大小為50-200堿基的片斷,利用 T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修補(bǔ)片,殳末端并形成5,端 帶有磷酸基團(tuán)的A粘性末端,在T4連接酶的作用下將這些片段化核酸序列用一 對(duì)通用連接子(5'-p-CAG TCA GTC AGT CAG TCA G T-3'和3'陽T GTC AGT CAG TCA GTC AGT C-p-5',其中p表示磷酸基團(tuán))進(jìn)行連接,其中的通用連接子的一 條寡核苷酸序列與擴(kuò)增引物的序列完全互補(bǔ),而通用連接子另 一個(gè)寡核酸序列與 測(cè)序定位引物的相同。將這些連接子連接的片段化核酸序列與固定連接子互補(bǔ)序列的微珠進(jìn)行乳液 并行PCR反應(yīng),擴(kuò)增片段化的大鼠全基因組;并將這些微珠固定到平板基片上, 通過酶切或者變性得到大鼠全基因組測(cè)序模板。參照附圖1和圖3,將測(cè)序定位引物與大鼠全基因組測(cè)序模板雜交,然后將 標(biāo)記四種不同標(biāo)記物的5'-LLLL-s-ANNNNN"-3'、 5'-LLLL-s-GNNNNN*2-3'、 5'隱 LLLL-s-TNNNNN"-3'、 5'-LLLL-s-CNNNNN,3'與大鼠全基因組測(cè)序模板完成雜 交-連接,其中,L為隨機(jī)的四種鎖核酸,N為隨機(jī)的四種脫氧核糖核苷酸,s 為硫代修飾,標(biāo)記物1 ~4分別為cy3、 cy5、 6-FAM和ROX,并在清除未連接的 標(biāo)記硫代寡核芬酸探針后,進(jìn)行掃描分析,確定哪些位置的模板進(jìn)行了哪些堿基 的連接反應(yīng),從而確定基因組序列上第5個(gè)位置上堿基的序列。用外切酶III將疏 代寡核苷酸探針中的剪切區(qū)切除。重復(fù)上述過程,每重復(fù)一次便增加一個(gè)堿基的 序列測(cè)定,直到因每個(gè)堿基的延伸效率導(dǎo)致不能準(zhǔn)確堿基序列為止,這樣便可以知道位置5、 10、 15、 20.....等位置的堿基序列;停止該輪測(cè)序,將延伸上述測(cè)定若干個(gè)堿基序列的測(cè)序定位引物變性掉,并重新雜交3'端比上一輪少一個(gè)堿基的測(cè)序定位引物,基于同樣的道理可以測(cè)定4、 9、 14、 19.....等位置的g序列;將獲得的堿基種類和位置信息輸入序列拼接軟件CodonCode Aligner 2.0.1 及以上版本,得到明確的單鏈DNA模板信息。 -實(shí)施例7:雙堿基雜交-連接測(cè)序法測(cè)定棉花全基因組將棉花基因組用酶切割(或者超聲破碎)成大小為50-200堿基的片斷,利用 T4聚合酶、kelnow聚合酶、Tag聚合酶和T4磷酸激酶修補(bǔ)片段末端并形成5,端 帶有磷酸基團(tuán)的A粘性末端,在T4連接酶的作用下將這些片段化核酸序列用一 對(duì)通用連接子(5'-p-CAG TCA GTC AGT CAG TCA G T-3'和3'-T GTC AGT CAG TCA GTC AGT C-p-5',其中p表示磷酸基團(tuán))進(jìn)行連接,其中的通用連接子的一 條寡核苷酸序列與擴(kuò)增引物的序列完全互補(bǔ),而通用連接子另一個(gè)寡核酸序列與 測(cè)序定位引物的相同。將這些連接子連接的片段化核酸序列與固定連接子互補(bǔ)序列的微珠進(jìn)行乳液并行PCR反應(yīng),擴(kuò)增片段化的棉花全基因組;并將這些微珠固定到平板基片上, 通過酶切或者變性得到棉花全基因組測(cè)序模板。參照附圖2和圖3,將測(cè)序定位引物與棉花全基因組測(cè)序沖莫板雜交,然后將 標(biāo)記四種不同標(biāo)記物的5'-LLLLA-s-ANNNNN"-3'、 5'-LLLLG-s-ANNNNN"-3'、 5'-LLLLT-s-ANNNNN"-3'、 5'-LLLLC-s-ANNNNN"-3'等十六條碌u代寡核苷酸探針 與棉花全基因組測(cè)序模板完成雜交-連接,其中,L為隨機(jī)的四種鎖核酸,N為 隨機(jī)的四種脫氧核糖核苷酸,s為硫代修飾,標(biāo)記物1~4分別為cy3、 cy5、 HEX 和TET,并在清除未連接的標(biāo)記疏代寡核苷酸探針后,進(jìn)行掃描分析,確定哪些 位置的模板進(jìn)行了哪些堿基的連接反應(yīng),從而確定基因組序列上第5和6個(gè)位置 上堿基的序列。用外切酶III將硫代寡核苷酸探針中的剪切區(qū)切除。重復(fù)上述過 程,每重復(fù)一次便增加一個(gè)堿基的序列測(cè)定,直到因每個(gè)堿基的延伸效率導(dǎo)致不 能準(zhǔn)確堿基序列為止,這樣便可以知道位置5和6、 10和11、 15和16、 20和21.....等位置的堿基序列;停止該輪測(cè)序,將延伸上述測(cè)定若干個(gè)堿基序列的測(cè)序定位引物變性掉,并重新雜交3'端比上一輪少一個(gè)堿基的測(cè)序定位引物,基于同樣的道理可以測(cè)定4和5、 9和10、 14和15、 19和20.....等位置的4C^序列;將獲得的堿基種類和位置信息輸入序列拼接軟件CodonCode Aligner 2.0.1 及以上版本,得到明確的單鏈DNA模板信息.
權(quán)利要求
1.一種利用硫代寡核苷酸探針的DNA測(cè)序方法,其特征在于測(cè)序步驟為A.硫代寡核苷酸探針的構(gòu)建硫代寡核苷酸探針序列的5’-3’端依次為錨定區(qū)、識(shí)別區(qū)和剪切區(qū),錨定區(qū)含有n個(gè)核苷酸或堿基類似物,其中0<n≤10;識(shí)別區(qū)含有m個(gè)核苷酸或堿基類似物,其中0<m≤10,并且識(shí)別區(qū)3’端第一個(gè)核苷酸或堿基類似物與5’方向鄰接著的核苷酸或堿基類似物之間為硫代修飾的磷酸鍵;剪切區(qū)含有k個(gè)核苷酸或堿基類似物,其中0<k≤10;剪切區(qū)序列上設(shè)有與識(shí)別區(qū)對(duì)應(yīng)的標(biāo)記物;B.測(cè)序循環(huán)a).利用測(cè)序定位引物與待測(cè)單鏈DNA模板進(jìn)行雜交,清洗去除多余的測(cè)序定位引物;b).將硫代寡核苷酸探針與步驟a所得待測(cè)單鏈DNA模板進(jìn)行雜交,在連接酶的作用下,與待測(cè)單鏈DNA模板完全匹配的硫代寡核苷酸探針和緊鄰著測(cè)序定位引物完成連接反應(yīng),然后清除未連接以及游離的硫代寡核苷酸探針;c).讀取標(biāo)記物的信號(hào)種類和強(qiáng)度,確定此次與識(shí)別區(qū)互補(bǔ)的待測(cè)單鏈DNA模板的信息;d).利用受阻于硫代修飾磷酸鍵的外切酶去除步驟c所得測(cè)序定位引物相連的硫代寡核苷酸探針上的剪切區(qū);e).重復(fù)上述步驟b-d 2~10次,完成該輪測(cè)序。f).對(duì)步驟e所得產(chǎn)物進(jìn)行變性,得到初始的待測(cè)單鏈DNA模板,用3’端比上一輪少一個(gè)核苷酸的測(cè)序定位引物重復(fù)a-e步驟;g).重復(fù)f步驟n-1次。
2. 根據(jù)權(quán)利要求l所述的利用硫代寡核苷酸探針的DNA測(cè)序方法,其特征 在于所述錨定區(qū)的5,端為磷酸基團(tuán)修飾;識(shí)別區(qū)至少一個(gè)核脊酸或堿基 類似物的位置和種類明確;錨定區(qū)與識(shí)別區(qū)內(nèi)的核苷酸或堿基類似物序 列之間為正常的磷酸鍵或硫代修飾的磷酸鍵。
3. 根據(jù)權(quán)利要求l所述的利用疏代寡核苷酸探針的DNA測(cè)序方法,其特征 在于所述剪切區(qū)的核苦酸或堿基類似物序列之間為磷酸鍵。
4. 根據(jù)權(quán)利要求l所述的利用疏代寡核苷酸探針的DNA測(cè)序方法,其特征 在于所述標(biāo)記物是熒光、量子點(diǎn)、放射性同位素,標(biāo)記物的位置位于剪 切區(qū)內(nèi)的核香酸或堿基類似物上。
5. 根據(jù)權(quán)利要求2或3所述的利用硫代寡核苷酸探針的DNA測(cè)序方法,其 特征在于所述核苷酸為脫氧核糖核苦酸、核糖核香酸、鎖核酸;堿基類 似物是脫氧肌苷、脫氧核糖、核糖、次黃噤呤、甲基腺噤呤或甲基鳥噤 吟。
全文摘要
利用硫代寡核苷酸探針的DNA測(cè)序方法進(jìn)一步降低DNA的測(cè)序成本,提高每一個(gè)序列的測(cè)序長度,并縮短每個(gè)堿基的閱讀時(shí)間。通過一種含硫代核苷的測(cè)序引物,采用雜交-酶連接-酶切割的高通量測(cè)序技術(shù),為DNA序列分析提供一種新方法,建立快速、準(zhǔn)確、和低成本的高通量DNA序列測(cè)定技術(shù)。本發(fā)明的最大優(yōu)點(diǎn)是實(shí)現(xiàn)了DNA序列測(cè)定的標(biāo)記雜交序列的簡易合成以及方便將標(biāo)記物切除,由于雜交的高通量引物是通過非常成熟的固相DNA方法合成并純化得到,因此該方法沒有錯(cuò)誤延伸的累積效應(yīng),能夠維持DNA模板和測(cè)序引物的量,序列的測(cè)定正確可靠。
文檔編號(hào)C12N15/11GK101240341SQ20081001978
公開日2008年8月13日 申請(qǐng)日期2008年3月14日 優(yōu)先權(quán)日2008年3月14日
發(fā)明者孫蓓麗, 羅俊峰, 肖鵬峰, 超 賈, 陸祖宏 申請(qǐng)人:東南大學(xué)