專利名稱:對(duì)雜聚靶核酸序列測序的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種包括隨機(jī)傳感的對(duì)雜聚靶核酸序列測序的方法。本發(fā)明還涉及一種通過修飾用于對(duì)靶核酸序列測序的孔的一個(gè)或多個(gè)位點(diǎn)而改良所述孔的方法。
背景技術(shù):
隨機(jī)檢測是一種依賴于對(duì)分析物分子和受體之間的各個(gè)結(jié)合事件的觀察結(jié)果的傳感方法。隨機(jī)傳感器可以通過如下方式形成將納米尺寸的單孔置于絕緣膜中,并且在存在分析物分子的情況下測量電壓驅(qū)動(dòng)的穿過所述孔的離子轉(zhuǎn)運(yùn)。電流波動(dòng)的發(fā)生頻率揭示在所述孔中結(jié)合的分析物的濃度。通過其不同的電流特征——特別是電流阻斷的持續(xù)時(shí)間
和程度-可揭示分析物的種類(Braha,0.,Walker, B.,Cheley, S.,Kasianowicz, J. J.,
Song, L. , Gouaux, J. Ε. , and Bayley, H. (1997) Chem. Biol. 4,497-505 ;禾口 Bayley, H. , and Cremer, P.S. (2001)Nature 413,226-230)。形成細(xì)菌孔的毒素α-溶血素(α-HL)的基因工程改造形式已經(jīng)用于對(duì)許多類型的分子進(jìn)行隨機(jī)傳感(Bayley,H.,and Cremer, P. S. (2001)Nature 413,226-230 ;Shin, S. , H. , Luchian, Τ. , Cheley, S. , Braha, 0. , and Bayley, H. (2002) Angew. Chem. Int. Ed. 41, 3707-3709 ;禾口 Guan,X.,Gu, L. -Q.,Cheley, S.,Braha, 0.,and Bayley, H. (2005) Chem. BioChem. 6,1875-1881)。在這些研究過程中,已發(fā)現(xiàn),試圖將α-HL改造以直接結(jié)合小的有機(jī)分析物被證明是很費(fèi)力的,且鮮有成功的例子(Guan and colleague,見上文)。幸運(yùn)的是,已經(jīng)發(fā)現(xiàn)有一種不同的策略,該策略利用了非共價(jià)連接的分子銜接體,特別是環(huán)糊精(Gu, L. -Q.,Braha, 0.,Conlan, S.,Cheley, S.,and Bayley, H. (1999) Nature 398, 686-690),還有環(huán)形肽(Sanchez-Quesada, J. , Ghadiri, Μ. R. , Bayley, H. , and Braha, 0. (2000) J. Am. Chem. Soc. 122,11758-11766)和葫蘆脲(cucurbituril) (Braha, 0.,Webb, J.,Gu, L. -Q.,Kim, K.,and Bayley, H. (2005) Chem. Phys. Chem 6,889-892)。環(huán)糊精可短暫地進(jìn)入所述α-HL孔中,并產(chǎn)生很大程度但不完全的通道阻斷。有機(jī)分析物在環(huán)糊精的疏水內(nèi)部結(jié)合,它們可加強(qiáng)這種阻斷,使得分析物可被檢測(Gu,L. -Q.,Braha, 0.,Conlan, S.,Cheley, S.,and Bayley, H. (1999)Nature 398,686-690)。現(xiàn)在在大范圍應(yīng)用中需要快速且廉價(jià)的DNA或RNA測序技術(shù)?,F(xiàn)有的技術(shù)速度較慢且價(jià)格昂貴,主要是因?yàn)樗鼈円蕾囉跀U(kuò)增技術(shù)產(chǎn)生大量核酸并且需要大量專門的熒光化學(xué)物質(zhì)進(jìn)行信號(hào)檢測。隨機(jī)傳感有可能通過減少所需核苷酸和試劑的量提供快速且廉價(jià)的 DNA測序。轉(zhuǎn)移的同聚核酸序列可以被蛋白質(zhì)納米孔區(qū)分(例如Branton,D.,Deamer,D. W., Marziali, A. , Bayley, H. , Benner, S. A. , Butler, Τ. , Di Ventra, Μ. , Garaj, S. , Hibbs, Α., Huang, Χ. , et al. (2008)Nature Biotechnology 26,1146-1153)。還可以觀察到轉(zhuǎn)移單鏈 RNA 巾胃 歹[JHl]白勺$1 (Akeson, Μ. , Branton, D. , Kasianowicz, J. J. , Brandin, Ε.,& Deamer,D. W. (1999)Biophys. J. 77,3227-3233)。在固定 DNA 鏈末端的各個(gè)堿基對(duì)也可以在納米孔內(nèi)被鑒定(Winters-Hilt,S.,Vercoutere, W.,DeGuzman, V. S.,Deamer,D.,Akeson, M.,& Haussler, D. (2003) Biophys. J. 84,967-976),但不清楚可以怎樣對(duì)此修飾使之適合測序。最近,已“在處理過程中(on the fly)”觀察到各個(gè)修飾的核苷酸堿基 (Mitchell, N. & Howorka,S. (2008)Angew. Chem. Int. Ed. Engl. 47,5565-5568),但這些結(jié)構(gòu)非常巨大?,F(xiàn)在不知道使用納米孔對(duì)雜聚核酸序列測序的方法。
發(fā)明內(nèi)容
本發(fā)明人出乎意料地證明了孔可以區(qū)分核酸序列中至少四種不同核苷酸。換句話說,本發(fā)明人出乎意料地證明了孔可以用于通過隨機(jī)傳感對(duì)完整的雜聚靶核酸序列測序。本發(fā)明人還出乎意料地證明,具有兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)的孔顯示出改良的核苷酸識(shí)別。這類孔可有利地用于對(duì)核酸序列測序。如下文更詳細(xì)描述的, 在孔中存在不止一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)不僅使得可以確定核酸序列的長度,而且使得可以更有效地確定核酸序列的序列。最后,發(fā)明人出乎意料地證明,用于對(duì)核酸測序的孔可以通過修飾至少一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)而改良。如果一個(gè)孔具有的能夠區(qū)分不同核苷酸的位點(diǎn)太少,那么可以通過引入一個(gè)或多個(gè)另外的位點(diǎn)而對(duì)其進(jìn)行改良。如果一個(gè)孔具有的能夠區(qū)分不同核苷酸的位點(diǎn)太多,那么可以通過除去一個(gè)或多個(gè)所述位點(diǎn)而對(duì)其進(jìn)行改良??走€可以通過增強(qiáng)或降低一個(gè)或多個(gè)位點(diǎn)區(qū)分不同核苷酸的能力而得到改良。因此,本發(fā)明提供了一種用于對(duì)雜聚靶核酸序列測序的方法,包括(a)使所述靶序列通過跨膜孔,使得所述靶序列中的一部分核苷酸一次一個(gè)地與所述孔中至少一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)相互作用;并且 (b)測量在每個(gè)相互作用過程中通過所述孔的電流,從而確定所述靶序列的序列。本發(fā)明還提供了 -包含七個(gè)包含SEQID NO :4所示序列或其變體的亞基的跨膜蛋白孔用于對(duì)靶核酸序列測序的用途;-一種改良用于對(duì)靶核酸序列測序的跨膜孔的方法,包括(a)修飾包含一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)的跨膜孔;并且(b)確定所產(chǎn)生的孔是否包含兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn);-一種改良用于對(duì)靶核酸序列測序的跨膜孔的方法,包括(a)修飾包含多于兩個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)的跨膜孔;并且(b)確定所產(chǎn)生的孔是否包含兩個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn);-一種改良用于對(duì)靶核酸序列測序的跨膜孔的方法,包括(a)修飾包含多于一個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)的跨膜孔;并且(b)確定所產(chǎn)生的孔是否包含一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn);-一種改良用于對(duì)靶核酸序列測序的跨膜孔的方法,包括(a)修飾包含兩個(gè)或多個(gè)能夠在其中一處區(qū)分不同核苷酸的不同位點(diǎn)的跨膜孔; 并且(b)確定其他不同位點(diǎn)中的一個(gè)或者多個(gè)區(qū)分不同核苷酸的能力是否被改變;以及-使用本發(fā)明的方法改良的孔。
圖1示出α -HL孔對(duì)固定的DNA同聚物的區(qū)分。㈧圖示為通過使用生物素(黃色)_鏈酶親和素(紅色)連接而固定在α-HL孔(灰色,橫斷面)內(nèi)的同聚DNA寡核苷酸 (藍(lán)色圈,僅顯示60個(gè)核苷酸長的序列的前25個(gè)核苷酸)。所述α-HL孔可以分成每一半長大約5nm的兩半位于順側(cè)入口(cis entrance)和中央收縮區(qū)之間的上孔腔(upper vestibule),位于中央收縮區(qū)和反側(cè)出口(trans entrance)之間的14鏈跨膜反向平行的β桶。直徑1.4nm的中央收縮區(qū)由所有七個(gè)亞基的Glu-lll、Lys-147(綠色陰影)和 Met-113側(cè)鏈形成(B、C,左圖)。當(dāng)固定的多聚(dC)和多聚(dA)寡核苷酸阻斷時(shí),WT和 E111N/K147N孔的電流水平(B、C,右圖)。典型項(xiàng)(event)直方圖顯示由多聚(dC)和多聚 (dA)寡核苷酸阻斷WT和E111N/K147N孔引起的殘余電流水平。通過對(duì)數(shù)據(jù)進(jìn)行Gaussian 擬合確定每個(gè)寡核苷酸的平均殘余電流水平。圖2示出了用A5寡核苷酸探測α -HL孔對(duì)DNA的識(shí)別。㈧在原本為多聚(dC) 鏈(胞嘧啶核苷酸顯示為藍(lán)色圈)中的不同位置處(從3'生物素標(biāo)簽編號(hào))含5個(gè)連續(xù)腺嘌呤核苷酸(A5,紅圈)的5種寡核苷酸(i-v)。僅示出該40個(gè)核苷酸長的序列的前25 個(gè)核苷酸。(B,左圖)當(dāng)E111N/K147N孔被多聚(dC)寡核苷酸阻斷時(shí),從開孔電流值(孔未被DNA阻斷)逐步減少至約37%的殘余電流(Ikes)水平。(B,右圖)當(dāng)孔被不同序列的寡核苷酸阻斷時(shí)的Ikes水平(顯示了寡聚物iv和多聚(dC))。(C)寡核苷酸i-v(子圖A) 和多聚(dC) 40對(duì)WT (綠色條)和E111N/K147N(橙色條)α-HL孔的阻斷之間的殘余電流差(Δ Ikes) (AIees = Ike^v-Ikes-。指示了當(dāng)固定于α -HL孔時(shí)每個(gè)寡核苷酸的腺嘌呤 (A5)片段的可能位置(右圖)。圖3示出α-HL對(duì)單腺嘌呤核苷酸的區(qū)分。曲線圖(中圖)指示,包含單腺嘌呤核苷酸的多聚(dC)寡核苷酸(每個(gè)寡核苷酸的序列顯示于左)引起的對(duì)WT(綠色)和ElllN/ K147N(橙色)α-HL孔的阻斷和多聚(dC) 40引起的對(duì)WT (綠色)和E111N/K147N(橙色) α-HL孔的阻斷之間的殘余電流差(ΔΙΚΚ值)。R1^和R3代表所述α-HL納米孔中3個(gè)提出的識(shí)別位點(diǎn)。它們可能的位置指示于所述α-HL孔的β桶結(jié)構(gòu)域的橫截面上(右圖)。圖4示出WT和Ε111Ν/Κ147Ν α-HL孔對(duì)所有4種DNA堿基的識(shí)別。顯示了 WT (左圖)和Ε111Ν/Κ147Ν(右圖)孔的殘余電流水平的直方圖。使用了 3組4種一組的多聚(dC) 寡核苷酸,每組在一個(gè)特定位置包含單G、A、T或C核苷酸。所有實(shí)驗(yàn)均進(jìn)行至少3次,圖中顯示的結(jié)果來自代表性實(shí)驗(yàn)。(A)以SEQ ID NO :35-38測試WT和E111N/K147N孔。對(duì)每個(gè)峰進(jìn)行Gaussian擬合,每種寡核苷酸的殘余電流的平均值(和標(biāo)準(zhǔn)差)顯示于直方圖下的表中。(B)以 SEQ ID NO :39-42 測試 WT 和 E111N/K147N 孔。(C)以 SEQ ID NO 43-46 測試 WT 和 E111N/K147N 孔。圖5示出探測E111N/K147N α-HL孔對(duì)雜聚寡核苷酸中的單核苷酸的區(qū)分。以4 條僅一個(gè)位置不同(大的字母)的雜聚DNA鏈(中圖)測試Ε111Ν/Κ147Ν孔的殘余電流水平的直方圖(上圖)。對(duì)每個(gè)峰進(jìn)行Gaussian擬合,顯示了每種寡核苷酸的殘余電流的平均值(和標(biāo)準(zhǔn)差)(下圖)。圖 6 示出在含 0. ImM EDTA 的 IM KCl,25mM Tris. HCl,pH 8. 0 中 WT(方塊)和 E111N/K147N(圓圈)α -HL孔的典型電流-電壓(IV)跡線。
6
圖7示出用于生物素化DNA寡核苷酸的3‘末端的生物素-TEG連接體的化學(xué)結(jié)構(gòu)。所述結(jié)構(gòu)用ChemBioDraw Ultra 11產(chǎn)生。圖8示出多聚(dA)(方塊)或多聚(dC)(菱形)穿過的WT孔的Ikes電壓依賴性。 曲線圖的數(shù)據(jù)通過以下方式獲得對(duì)在不同施加電勢下每種寡核苷酸多次阻斷的殘余電流水平直方圖進(jìn)行Gaussian擬合,然后取平均值。顯示了與進(jìn)行Gaussians擬合相關(guān)的標(biāo)準(zhǔn)差。圖9示出兩個(gè)探頭優(yōu)于一個(gè)探頭。a)具有兩個(gè)讀取探頭R1和&的理論納米孔傳感器(綠色),它在原則上能夠比具有單個(gè)讀取探頭的裝置從DNA鏈(紅色)提取更多的序列信息。b)為了驗(yàn)證該想法,發(fā)明人假定DNA的4種堿基在讀取探頭R1可產(chǎn)生4個(gè)不同電流水平(如所示廣泛地分散)。所述水平每個(gè)可被所述第二讀取探頭&再分成4個(gè)水平 (為了顯示的目的,分散度較低),產(chǎn)生總共16個(gè)電流水平并提供有關(guān)DNA序列的冗余信肩、ο圖10示出設(shè)計(jì)的α HL納米孔在札和&處的4堿基區(qū)分。顯示了對(duì)于一個(gè)4種寡核苷酸的組(右圖),E111N/K147N/M113Y(NNY)孔的殘余電流水平直方圖(左圖)。B代表3'生物素-TEG延伸片段。每個(gè)實(shí)驗(yàn)均進(jìn)行至少3次,圖中顯示的結(jié)果來自單次實(shí)驗(yàn)。 當(dāng)所述寡核苷酸被驅(qū)動(dòng)進(jìn)入所述α -HL孔時(shí),所述取代的核苷酸位于R1 (紅)或& (綠)。 對(duì)所述直方圖中的每個(gè)峰進(jìn)行Gaussian擬合。圖11示出當(dāng)以可同時(shí)探測R1和&的寡核苷酸測試NNY孔時(shí)觀察到的預(yù)測和實(shí)驗(yàn)殘余電流水平差(AIees)0以16種寡核苷酸探測E111N/K147N/M113Y(NNY)孔,該寡核苷酸的序列是 5‘ -CCCCCCCCCCCCCCCCCCCCCCCCCCNCCCCNCCCCCCCCB-3‘,其中 N 是 A、T、G 或 C(N9N14,表5)。示出的直方圖顯示,不同寡核苷酸產(chǎn)生的阻斷相對(duì)于多聚(dC)產(chǎn)生的阻斷平均值的殘余電流水平差。多聚(dC)的電流水平被設(shè)置為0。殘余電流水平低于多聚(dC) 的阻斷的Δ Ikes值為負(fù),殘余電流水平高于多聚(dC)的阻斷的Δ Ikes值為正?;疑摼€顯示了基于表5中顯示的Δ Iees數(shù)據(jù)預(yù)測的殘余電流水平(見實(shí)施例2、。1 示記的峰值來自非特異性阻斷,在此分析中不考慮。序列表說明SEQ ID NO=I示出編碼野生型α -溶血素(α -HL)的一個(gè)亞基的多核苷酸序列。SEQ ID NO :2示出了野生型α-HL的一個(gè)亞基的氨基酸序列。氨基酸2_6、 73-75,207-209,214-216 和 219-222 構(gòu)成 a -螺旋。氨基酸 22-30、35-44、52-62、67_71、 76-91、98-103、112-123、137-148、154-159、165-172、229-235、243-261、266-271、285-286 和291-293構(gòu)成β -鏈。所有其他非末端氨基酸,即7-21、31-34、45-51、63-66、72、92-97、 104-111、124-136、149-153、160-164、173-206、210-213、217、218、223-228、236-242、 262-265,272-274和287-290構(gòu)成環(huán)區(qū)。氨基酸1和四4為末端氨基酸。SEQ ID NO :3示出了編碼a-HL E111N/K147N的一個(gè)亞基的多核苷酸序列。SEQ ID N0:4示出了 a-HL E111N/K147N的一個(gè)亞基的氨基酸序列。在野生型 a-HL中構(gòu)成α-螺旋、β _鏈和環(huán)區(qū)的相同氨基酸在此亞基中構(gòu)成相應(yīng)的區(qū)域。SEQ ID NO 5示出了來源于大腸桿菌的sbcB基因的密碼子優(yōu)化的多核苷酸序列。 其編碼大腸桿菌的核酸外切酶I (EcoExoI)。SEQ ID NO :6示出了大腸桿菌的核酸外切酶I (EcoExoI)的氨基酸序列。此酶以3,到5,方向從單鏈DNA(ssDNA)持續(xù)消化5,單磷酸核苷。氨基酸60-68、70-78、80_93、 107-119、124-128、137-148、165-172、182-211、213-221、234-241、268-286、313-324、 326-352、362-370、373-391、401-454 和 457-475 構(gòu)成 α -螺旋。氨基酸 10-18,28-26, 47-50、97-101、133-136、229-232、243-251、258-263、298-302 和 308-311 構(gòu)成 β-鏈。 所有其他非末端氨基酸 19-27、37-46、51-59、69、79、94-96、102-106、120-123、口9-132、 149-164、173-181、212、222-228、233、242、252-257、264-267、287-297、303-307、312、325、 353-361、371、372、392-400、455和456構(gòu)成環(huán)。氨基酸1_9為末端氨基酸。所述酶的整體折疊使得三個(gè)區(qū)域聯(lián)合形成字母C外形的分子,但無序分布在所述晶體結(jié)構(gòu)中的殘基 355-358有效地將此C形轉(zhuǎn)化為類0形。氨基末端(1-206)可構(gòu)成外切酶結(jié)構(gòu)域并與DnaQ 超家族具有同源性,后面的殘基(202-354)構(gòu)成SH3樣結(jié)構(gòu)域并且羧基結(jié)構(gòu)域(359-475) 伸出外切酶結(jié)構(gòu)域,形成C形分子。EcoExoI的4個(gè)酸性殘基與DnaQ超家族的活性位點(diǎn)殘基是保守的(對(duì)應(yīng)于D15、E17、D108和D186)。已經(jīng)提出,單個(gè)金屬離子被殘基D15和108 結(jié)合。DNA的水解似乎通過以活性水分子攻擊易切斷的磷酸酯進(jìn)行催化,H181為催化殘基并比對(duì)核苷酸底物。SEQ ID NO 7示出了來源于大腸桿菌的xthA基因的密碼子優(yōu)化的多核苷酸序列。 其編碼大腸桿菌的核酸外切酶III。SEQ ID NO 8示出了大腸桿菌的核酸外切酶III的氨基酸序列。此酶以3’到5’ 方向從雙鏈DNA(dsDNA)的一條鏈持續(xù)消化5’單磷酸核苷。酶在鏈上的啟動(dòng)需要大約4個(gè)核苷酸的 5,突出。氨基酸 11-13、15-25、39-41、44-49、85-89、121-139、158-160、165-174、 181-194、198-202、219-222、235-240 和 248-252 構(gòu)成 α -螺旋。氨基酸 2-7、29_33、53_57、 65-70、75-78、91-98、101-109、146-151、195-197、229-234和 241-246 構(gòu)成 β -鏈。所有其他非末端氨基酸 8-10、洸-28、;34-38、42、43、50-52、58-64、71-74、79-84、90、99、100、110-120、 140-145、152-157、161-164、175_180、203-218、223_228、247 和 253-261 構(gòu)成環(huán)。氨基酸 1 和 267和268為末端氨基酸。酶活性位點(diǎn)通過連接β「α ” β 3- β 4、β 5- β 6、β m- Q1^iv-Q11 和 β ν_ β γι 的環(huán)區(qū)(分別由氨基酸 8-10、58-64、90、110-120、152-164、175-180,223-228 和 253-261構(gòu)成)形成。單個(gè)二價(jià)金屬離子結(jié)合于殘基E34并幫助通過催化性和H259 組氨酸-天門冬氨酸對(duì)親核攻擊磷酸二酯鍵。SEQ ID NO 9示出了源于嗜熱棲熱菌(T. thermophilus)的recj基因的密碼子優(yōu)化的多核苷酸序列。其編碼嗜熱棲熱菌的RecJ酶(TthRecJ-cd)。SEQ ID NO 10示出了嗜熱棲熱菌的RecJ酶(TthRecJ-cd)的氨基酸序列。此酶以5’到3’方向從單鏈DNA持續(xù)消化5’單磷酸核苷。酶在鏈上的啟動(dòng)需要至少4個(gè)核苷酸。氨基酸 19-33、44-61、80-89、103-111、136-140、148-163、169-183、189-202、207-217、 223-240、242-252、254-287、302-318、338-350 和 365-382 形成 α -螺旋。氨基酸 36-40、 64-68、93-96、116-120、133-135、294-297、321-325、328-332、352-355 和 359-363 構(gòu)成 β _ 鏈。所有其他非末端氨基酸 34、35、41-43、62、63、69-79、90-92、97-102、112-115、 121-132、141-147、164-168、184-188、203-206、218-222、241、253、288-293、298-301、319、 320、326、327、333-337、351-358 和 364 構(gòu)成環(huán)。氨基酸 1-18 和 383-425 為末端氨基酸。 僅對(duì)嗜熱棲熱菌(Thermus thermophilus)的RecJ的核心結(jié)構(gòu)域(殘基40-463)的晶體結(jié)構(gòu)進(jìn)行了解析。為確保所述RecJ核心結(jié)構(gòu)域的翻譯和體內(nèi)表達(dá)的啟動(dòng),在其氨基末端添加一個(gè)甲硫氨酸殘基,這不包含在晶體結(jié)構(gòu)信息中。所解析的結(jié)構(gòu)示出了由長α-螺旋 (254-287)連接的兩個(gè)結(jié)構(gòu)域氨基區(qū)(2-25 和羧基區(qū)(觀8_46;3)。催化殘基(D46、D98、 H122和D18!3)與單個(gè)二價(jià)金屬離子配合以對(duì)磷酸二酯鍵進(jìn)行親核攻擊。D46和H120被認(rèn)為是催化對(duì);然而,大腸桿菌的RecJ中這些保守殘基的任一個(gè)的突變均顯示會(huì)完全破壞活性。SEQ ID NO 11示出了來源于噬菌體λ的exo (redX)基因的密碼子優(yōu)化的多核苷酸序列。其編碼噬菌體λ的核酸外切酶。SEQ ID Ν0:12示出噬菌體λ的核酸外切酶的氨基酸序列。該序列是裝配為三聚體的三個(gè)相同亞基之一。該酶以3’到5’方向高度持續(xù)消化dsDNA的一條鏈的核苷酸。 酶在鏈上的啟動(dòng)優(yōu)先需要大約4個(gè)具有5’磷酸的核苷酸的5’突出。氨基酸3-10、14-16、 22-26、34-40、52-67、75-95、135-149、152-165 和 193-216 構(gòu)成 α-螺旋。氨基酸 100-101、 106-107、114-116、120-122、127-131、169-175 和 184-190 構(gòu)成 β -鏈。所有其他非末端氨基酸 11-13、17-21、27-33、41-51、68-74、96-99、102-105、108-113、117-119、123-126、 132-134、150-151、166-168、176-183、191-192、217-222 構(gòu)成環(huán)。氨基酸 1、2 和 226 為末端氨基酸。λ核酸外切酶是同源三聚體,其形成中間具有錐形通道的環(huán)狀體,所述通道明顯在一端足夠大允許dsDNA進(jìn)入,并且在另一端只允許ssDNA離開。催化殘基未確定,但單個(gè)二價(jià)金屬離子似乎通過殘基D119、E129和L130結(jié)合在每個(gè)亞基上。SEQ ID NO :13-66示出了實(shí)施例中使用的寡核苷酸。在使用時(shí),所有寡核苷酸均具有3'生物素-TEG標(biāo)簽和連接體(圖7)。
具體實(shí)施例方式應(yīng)理解,本文公開的產(chǎn)品和方法的不同應(yīng)用可以根據(jù)本領(lǐng)域的具體需求而改變。 還應(yīng)理解,本文中使用的術(shù)語僅僅是為了描述本發(fā)明的具體實(shí)施方案,不是意欲進(jìn)行限制。此外,當(dāng)在本說明書和所附權(quán)利要求中使用時(shí),除非內(nèi)容中另外清楚地指出,否則單數(shù)形式“a”、“an”和“the”也包括復(fù)數(shù)指代對(duì)象。因此,例如,提到“a nucleotide”時(shí)包括“nucleotides”,提到“a pore”時(shí)包括兩個(gè)或多個(gè)該孔,提到“an enzyme”時(shí)包括兩種或多種這樣的酶,等等。在本文的上文和下文中引用的所有出版物、專利和專利申請(qǐng)均通過引用的方式全文納入本文。核酸測序方法本發(fā)明提供一種對(duì)雜聚靶核酸序列測序的方法。所述方法包括(a)使所述靶序列通過跨膜孔,使得所述靶序列中的一部分核苷酸一次一個(gè)地與所述孔中至少一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)相互作用;并且(b)測量在每個(gè)相互作用過程中通過所述孔的電流,從而確定所述靶序列的序列。當(dāng)核苷酸與所述孔中至少一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)相互作用時(shí),它們一次一個(gè)地被依次鑒定。因此,所述方法包括,當(dāng)核苷酸以連續(xù)方式通過跨膜孔的桶或通道時(shí),對(duì)所述靶核酸序列中的一部分核苷酸進(jìn)行隨機(jī)傳感,從而對(duì)所述靶序列測序。包含兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)的孔特別適用于該方法。為了對(duì)所述核酸有效測序,重要的是確保以連續(xù)方式鑒定所述靶核酸中的核苷酸。如下文中更詳細(xì)討論的,存在兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)可確保所述靶序列中的核苷酸被讀取至少兩次。這可提高所述測序的準(zhǔn)確性。所述方法可使用任何合適的跨膜孔插入膜中的膜/跨膜孔體系進(jìn)行。所述方法通常使用以下膜進(jìn)行(i)包含跨膜孔的人工膜;(ii)分離的包含跨膜孔的天然膜;或者 (iii)表達(dá)跨膜孔的細(xì)胞。所述方法優(yōu)選使用人工膜進(jìn)行。除用于測序的跨膜孔之外,所述膜還可包含其他跨膜蛋白和/或膜內(nèi)蛋白以及其他分子。所述膜形成離子流、核苷酸和核酸的障礙物。所述膜優(yōu)選是脂質(zhì)雙層。適合依照本發(fā)明使用的脂質(zhì)雙層可使用本領(lǐng)域已知的方法制備。例如,脂質(zhì)雙層膜可使用Montal和 Mueller (1972)的方法形成。脂質(zhì)雙層還可使用國際專利申請(qǐng)PCT/GB08/000563和PCT/ GB08/002856描述的方法形成。本發(fā)明的方法可使用由任何膜脂構(gòu)成的脂質(zhì)雙層進(jìn)行,所述膜脂質(zhì)包括但不限于磷脂、糖脂、膽固醇及其混合物。可使用國際專利申請(qǐng)PCT/GB08/000563中描述的任一種脂質(zhì)。將孔插入膜(例如脂質(zhì)雙層)的方法為本領(lǐng)域所知。上文討論了這其中的一些方法。所述方法通常在體外進(jìn)行。雜聚靶核酸序列可以使用本發(fā)明的方法對(duì)所述靶序列的全部或僅一部分測序。所述靶序列可以是任意長度。例如所述靶序列可以長至少10、至少50、至少100、至少150、至少200、至少250、 至少300、至少400或至少500個(gè)核苷酸。所述靶序列可以為較長核酸序列的一部分。例如,所述靶序列可以對(duì)應(yīng)于較長核酸序列的一段,例如一半。所述序列在所述靶序列之外的其他部分不必根據(jù)本發(fā)明進(jìn)行測序。本發(fā)明的方法中使用的靶序列是完整序列。換句話說,所述靶序列在根據(jù)本發(fā)明進(jìn)行測序之前未經(jīng)切割或消化來形成較短核苷酸序列或單個(gè)核苷酸。核酸是包含兩個(gè)或多個(gè)核苷酸的大分子。蛋白質(zhì)結(jié)合的核酸可包含任何核苷酸的任意組合。核苷酸可以是天然存在的或者人工的。核苷酸通常包含核堿基、糖和至少一個(gè)磷酸基。核堿基一般是雜環(huán)。核堿基包括但不限于嘌呤和嘧啶,并且更具體是腺嘌呤、鳥嘌呤、胸腺嘧啶和胞嘧啶。核堿基還可以是5-甲基胞嘧啶或羥甲基胞嘧啶。糖通常是戊糖。 核苷酸糖包括但不限于核糖和脫氧核糖。核苷酸通常是核糖核苷酸或脫氧核糖核苷酸。核苷酸通常包含單磷酸、二磷酸或三磷酸。磷酸可以連接在核苷酸的5’側(cè)或3’側(cè)。核苷酸包括但不限于單磷酸腺苷(AMP)、二磷酸腺苷(ADP)、三磷酸腺苷(ATP)、 單磷酸鳥苷(GMP)、二磷酸鳥苷(GDP)、三磷酸鳥苷(GTP)、單磷酸胸苷(TMP)、二磷酸胸苷 (TDP)、三磷酸胸苷(TTP)、單磷酸尿苷(UMP)、二磷酸尿苷(UDP)、三磷酸尿苷(UTP)、單磷酸胞苷(CMP)、二磷酸胞苷(CDP)、三磷酸胞苷(CTP)、環(huán)單磷酸腺苷(cAMP)、環(huán)單磷酸鳥苷(cGMP)、單磷酸脫氧腺苷(dAMP)、二磷酸脫氧腺苷(dADP)、三磷酸脫氧腺苷(dATP)、單磷酸脫氧鳥苷(dGMP)、二磷酸脫氧鳥苷(dGDP)、三磷酸脫氧鳥苷(dGTP)、單磷酸脫氧胸苷(dTMP)、二磷酸脫氧胸苷(dTDP)、三磷酸脫氧胸苷(dTTP)、單磷酸脫氧尿苷(dUMP)、二磷酸脫氧尿苷(dUDP)、三磷酸脫氧尿苷(dUTP)、單磷酸脫氧胞苷(dCMP)、二磷酸脫氧胞苷(dCDP)和三磷酸脫氧胞苷(dCTP)。所述核苷酸優(yōu)選選自AMP、TMP、GMP、CMP、UMP, dAMP、 dTMP、dGMP 禾口 dCMP。靶序列中的核苷酸通常經(jīng)磷酸二酯鍵連接在一起。所述靶核酸可以是脫氧核糖核酸(DNA)或核糖核酸(RNA)。所述靶核酸可以是現(xiàn)有技術(shù)中已知的任何合成核酸,例如肽核酸(PNA)、甘油核酸(GNA)、蘇糖核酸(TNA)、鎖核酸(LNA)或具有核苷酸側(cè)鏈的其他合成聚合物。所述靶序列可以是單鏈或雙鏈。如果所述靶序列是雙鏈,那么所述方法優(yōu)選包括使所述靶序列的僅一條鏈通過所述孔。許多孔(特別是跨膜蛋白孔)的桶或通道一般不足夠大從而無法使雙鏈核酸通過。用于從雙鏈靶序列分離出一條鏈并使之通過所述孔的方法在下文更詳細(xì)地討論。雜聚靶核酸序列包含兩個(gè)或多個(gè)(例如3、4、5、6或更多個(gè))不同核苷酸。所述靶序列優(yōu)選包含三個(gè)或更多個(gè)不同核苷酸。所述靶序列更優(yōu)選包含四個(gè)不同核苷酸。所述四個(gè)不同核苷酸優(yōu)選是組成DNA或RNA的四個(gè)不同核苷酸。具體而言,所述四個(gè)不同核苷酸優(yōu)選獨(dú)立地包含核堿基(a)腺嘌呤、(b)鳥嘌呤、(c)胸腺嘧啶或尿嘧啶和(d)胞嘧啶。所述靶序列更優(yōu)選地包含5個(gè)不同核苷酸。所述五個(gè)不同核苷酸優(yōu)選獨(dú)立地包含核堿基(a) 腺嘌呤、(b)鳥嘌呤、(c)胸腺嘧啶或尿嘧啶、(d)胞嘧啶和(e)5-甲基胞嘧啶。所述方法一般使用序列未知的靶序列進(jìn)行?;蛘撸龇椒梢允褂眯蛄腥炕虿糠忠阎蛘呷炕虿糠挚深A(yù)測的靶序列進(jìn)行。所述靶序列可以是天然存在的或人工的。例如,所述方法可用于驗(yàn)證制備的寡核苷酸的序列。所述方法一般使用獲自或提取自任何生物體或微生物體的靶序列進(jìn)行。所述生物體或微生物體一般是原核生物、真核生物或古生物,并且一般屬于如下5個(gè)界中的一個(gè)界植物界(Plantae)、動(dòng)物界(Animalia)、真菌界(Fungi)、原核生物界(Monera)和原生生物界(Protista)。所述方法一般可對(duì)獲自或提取自任何病毒的靶序列進(jìn)行。一般而言,所述靶序列是人源的,但它或者可以來自另一哺乳動(dòng)物,例如來自市售的農(nóng)場動(dòng)物如馬、牛、綿羊或豬,或者可以是寵物例如貓或狗?!阍谶M(jìn)行所述方法前將所述靶序列進(jìn)行處理,例如擴(kuò)增、離心或者穿過可濾掉不需要的分子或細(xì)胞(如紅細(xì)胞)的濾膜??稍诓杉罅⒓词褂盟霭行蛄?。在進(jìn)行所述方法之前,通常也可將所述靶序列進(jìn)行保存,優(yōu)選保存在低于-70°C下。使所述靶序列通過所述孔本發(fā)明的方法涉及使所述靶序列以受控且逐步的方式通過所述孔。所述靶序列一般被推過或拉過所述孔??梢允褂檬顾霭行蛄型ㄟ^所述孔的任何方法。所述靶序列可以從順側(cè)至反側(cè)或者從反側(cè)至順側(cè)通過所述孔。所述靶序列可以順著或逆著施加電勢通過所述孑L優(yōu)選使用核酸操作酶使所述靶序列通過所述孔。大部分DNA操作酶均適用于此用途,只要它們水解、聚合或加工核酸。所述酶可操作單鏈或雙鏈核酸。如果使用跨膜蛋白孔,那么所述酶優(yōu)選使所述靶序列的單鏈通過所述孔。如果所述靶序列是雙鏈,那么這可以通過使用可分離雙鏈核酸的兩條鏈的酶實(shí)現(xiàn)。例如,進(jìn)行性或持續(xù)性作用于雙鏈核酸的核酸外切酶可用在所述孔的順側(cè)上,以在施加電勢下送入剩下的單鏈,或者在反向電勢下從反側(cè)送入。同樣,還可以以類似的方式使用可解開雙鏈核酸的解螺旋酶。所述方法優(yōu)選包括將所述靶序列與核酸操作酶接觸,使得所述靶序列以這樣的速 率通過孔,即使得所述靶序列的一部分核苷酸一次一個(gè)地與所述孔中至少ー個(gè)能夠區(qū)分不 同核苷酸的位點(diǎn)接觸。這樣做的方法是本領(lǐng)域中公知的。所述核酸操作酶發(fā)揮功能的速率 通過相對(duì)于野生型酶的突變進(jìn)行改變。例如,可依照本發(fā)明使用具有降低或升高的最佳活 性速率的變體酶。核酸操作酶在本發(fā)明方法中的合適活性速率是每秒操作0. 5-1000個(gè)核 苷酸、毎秒操作0. 6-500個(gè)核苷酸、毎秒操作0. 7-200個(gè)核苷酸、毎秒操作0. 8-100個(gè)核苷 酸、毎秒操作0. 9-50個(gè)核苷酸或毎秒操作1-20或10個(gè)核苷酸。所述速率優(yōu)選每秒1、10、 100,500或1000個(gè)核苷酸。所述酶還優(yōu)選在0°C -100°c例如10°C -60°C的溫度下或者在室溫下保留有至少部 分活性。這使得可在包括室溫的多個(gè)溫度下對(duì)所述靶序列測序。核酸操作酶是能夠與核酸相互作用并改變其至少ー種性質(zhì)的多肽。所述酶優(yōu)選通 過確定所述核酸的方向至或使其移動(dòng)至具體位置而改變所述核酸。所述核酸操作酶優(yōu)選來源于溶核酶或核酸酶。用于酶構(gòu)建體的核酸操作酶更 優(yōu)選是酶分類(EC)組 3. 1. 11,3. 1. 13,3. 1. 14,3. 1. 15,3. 1. 16,3. 1. 21,3. 1. 22,3. 1. 25、 3. 1. 26,3. 1. 27,3. 1. 30和3. 1. 31的任一組的成員。所述核酸操作酶更優(yōu)選來源于以下酶 的任ー種 3. 1. 11.-產(chǎn)生5’ -磷酸單酯的脫氧核糖核酸外切酶。O 3. 1. 11. 1脫氧核糖核酸外切酶I。O 3. 1. 11.2脫氧核糖核酸外切酶III。〇3. 1. 11. 3脫氧核糖核酸外切酶(人誘導(dǎo)的)。O 3. 1. 11.4脫氧核糖核酸外切酶(噬菌體SP3誘導(dǎo)的)。O 3. 1. 11.5脫氧核糖核酸外切酶V。O 3. 1. 11.6脫氧核糖核酸外切酶VII。
3. 1. 13.-產(chǎn)生5’ -磷酸單酯的核糖核酸外切酶。〇3. 1. 13. 1核糖核酸外切酶II。〇3. 1. 13. 2核糖核酸外切酶H。〇3. 1. 13. 3寡核苷酸酶。〇3. 1. 13. 4Poly(A)特異的核糖核酸酶。〇3. 1. 13. 5核糖核酸酶D0 3. 1. 14.-產(chǎn)生3’ -磷酸單酯的核糖核酸外切酶。〇3. 1. 14. 1酵母核糖核酸酶。
3. 1. 15.-產(chǎn)生5’ -磷酸單酯的對(duì)核糖核酸或脫氧核糖核酸具有活性的核酸外 切酶。〇 3. 1. 15. 1 毒液核酸外切酶(Venom exonuclease)。
3. 1. 16.-產(chǎn)生3’ -磷酸單酯的對(duì)核糖核酸或脫氧核糖核酸具有活性的核酸外 切酶。〇 3. 1. 16. 1 脾核酸外切酶(Spleen exonuclease)。
3. 1. 21.-產(chǎn)生5’ -磷酸單酯的脫氧核糖核酸內(nèi)切酶。
O 3. 1.21. 1脫氧核糖核酸酶I。〇3. 1. 21. 2脫氧核糖核酸酶IV(噬菌體T(4)誘導(dǎo)的)。〇3. 1. 21. 31型位點(diǎn)特異的脫氧核糖核酸酶。〇3. 1. 21. 411型位點(diǎn)特異的脫氧核糖核酸酶。〇3. 1. 21. 5III型位點(diǎn)特異的脫氧核糖核酸酶。〇3. 1. 21. 6CC偏愛的脫氧核糖核酸內(nèi)切酶。O 3. 1.21. 7脫氧核糖核酸酶V。
3. 1.22.-不產(chǎn)生5’ -磷酸單酯的脫氧核糖核酸內(nèi)切酶。〇3. 1.22. 1脫氧核糖核酸酶II。O 3. 1.22.2 曲霉(Aspergillus)脫氧核糖核酸酶 K(I)。〇 3. 1. 22. 3 轉(zhuǎn)至條目3. 1. 21. 7。〇3. 1.22. 4交聯(lián)連接脫氧核糖核酸內(nèi)切酶(crossover junction endodeoxyribonuclease)。〇3. 1.22. 5脫氧核糖核酸酶X。
3. 1. 25.-對(duì)改變的堿基特異的位點(diǎn)特異性脫氧核糖核酸內(nèi)切酶。〇3. 1. 25. 1脫氧核糖核酸酶(嘧啶ニ聚體)。〇 3. 1. 25. 2 轉(zhuǎn)至條目4. 2. 99. 18。^3.1. .-產(chǎn)生5’ -磷酸單酯的核糖核酸內(nèi)切酶。〇 3. 1. 26. 1 多頭絨泡菌(Physarum polycephalum)核糖核酸酶。〇3. 1.沈.2核糖核酸酶a。〇3. 1.沈.3核糖核酸酶III。〇3. 1. 26. 4核糖核酸酶H。〇3. 1. 26. 5核糖核酸酶P。〇3. 1.沈.6核糖核酸酶IV。〇3. 1. 26. 7核糖核酸酶P4。〇3. 1.沈.8核糖核酸酶M5。〇3. 1. 26. 9核糖核酸酶(poly (U)特異的)。O 3. 1. 26. 10 核糖核酸酶 IX。O 3. 1. 26. 11 核糖核酸酶 Z。
3. 1. 27.-不產(chǎn)生5’ -磷酸單酯的核糖核酸內(nèi)切酶。〇3. 1.27. 1核糖核酸酶バ2)。〇3. 1. 27. 2枯草芽胞桿菌(Bacillus subtilis)核糖核酸酶。〇3. 1.27. 3 核糖核酸酶 T(I)。〇3. 1.27. 4核糖核酸酶U O)。O 3. 1.27.5胰腺核糖核酸酶。〇 3. 1. 27. 6 腸桿菌(Enterbacter)核糖核酸酶。〇3. 1.27. 7核糖核酸酶F。〇3. 1. 27. 8核糖核酸酶V。〇3. 1. 27. 9tRNA-內(nèi)含子核酸內(nèi)切酶。
〇 3. 1. 27. IOrRNA 核酸內(nèi)切酶?!?3. 1. 30.-產(chǎn)生5’ -磷酸單酯的對(duì)核糖核酸或脫氧核糖核酸具有活性的核糖核酸內(nèi)切酶。〇3. 1.30. 1 曲霉核酸酶 S(I)。〇 3. 1. 30. 2 粘質(zhì)沙雷氏菌(Serratia marcescens)核酸酶。· 3. 1. 31.-產(chǎn)生3’ -磷酸單酯的對(duì)核糖核酸或脫氧核糖核酸具有活性的核糖核酸內(nèi)切酶。〇 3. 1. 31. 1 微球菌(micrococcal)核酸酶。所述酶最優(yōu)選來源于核酸外切酶,例如脫氧核糖核酸外切酶,其切割核酸以形成單個(gè)核苷酸。脫氧核糖核酸外切酶的優(yōu)點(diǎn)在于其對(duì)單鏈和雙鏈核酸均有活性并以5’ -3' 方向或3’ -5’方向水解堿基。單個(gè)核苷酸是單核苷酸。核苷酸可以是上文詳述核苷酸的任一種。單個(gè)核苷酸是不通過任何鍵例如磷酸二酯鍵與另一個(gè)核苷酸或核酸結(jié)合的核苷酸。磷酸二酯鍵包括結(jié)合于另一個(gè)核苷酸的糖基的核苷酸的磷酸基團(tuán)之一。單個(gè)核苷酸通常是不通過任何方式與另一個(gè)至少5、至少10、至少20、至少50、至少100、至少200、至少500、至少1000或至少5000 個(gè)核苷酸的核酸序列結(jié)合的核苷酸。優(yōu)選的用于本發(fā)明的酶包括大腸桿菌的核酸外切酶I (SEQ ID NO 6)、大腸桿菌的核酸外切酶III (SEQ ID NO :8)、嗜熱棲熱菌的RecJ(SEQ ID NO 10)和噬菌體λ核酸外切酶(SEQ ID NO 12)及其變體。SEQ ID NO :12的3個(gè)相同亞基相互作用以形成三聚體核酸外切酶。所述酶最優(yōu)選基于大腸桿菌的核酸外切酶I (SEQ ID NO :6)。所述核酸操作酶優(yōu)選地包含SEQ ID NO :6、8、10和12所示的任一序列或其變體。 SEQ ID NO :6、8、10或12的變體是具有從SEQ IDNO :6、8、10或12變化而來但保留有其核酸操作能力的氨基酸序列的酶??梢允褂帽绢I(lǐng)域中已知的任何方法測定變體操作核酸的能力。例如,變體操作核酸的能力可以通過以下方式測定將所述酶與核酸接觸并測定其確定所述核酸的方向或使其移動(dòng)至具體位置的能力。所述變體可包括有助于操作核酸和/或有助于其在高鹽濃度和/或室溫下的活性的修飾。所述酶可以是由生物體例如大腸桿菌表達(dá)的天然變體。變體還可包括通過重組技術(shù)產(chǎn)生的非天然變體。在SEQ ID NO :6、8、10或12的氨基酸序列的全長上,變體優(yōu)選與該序列以氨基酸同一性計(jì)至少50%同源。更優(yōu)選地,所述變體多肽可以與SEQ ID NO :6,8, 10或12的氨基酸序列在整個(gè)序列上以氨基酸同一性計(jì)至少55%、至少60%、至少65%、至少70 %、至少75 %、至少80 %、至少85 %、至少90 %并且更優(yōu)選地至少95 %、97 %或99 %同源。對(duì)于200個(gè)或更多個(gè)例如230、250、270或280個(gè)或更多個(gè)連續(xù)氨基酸的片段,可存在至少80%例如至少85%、90%或95%的氨基酸同一性(“硬同源性(hard homology)”)??梢杂帽绢I(lǐng)域的標(biāo)準(zhǔn)方法確定同源性。例如UWGCG軟件包提供的BESTFIT程序可以用于計(jì)算同源性(例如使用它的默認(rèn)設(shè)置)(Devereux et al (1984)Nucleic Acids Research 12,p387_395)。例如,如 Altschul S. F. (1993) J Mol Evol 36:290-300; Altschul, S, F et al(1990)J Mol Biol215 :403-10 中所述,可以使用 PILEUP 和 BLAST 算法計(jì)算同源性或者對(duì)序列進(jìn)行比對(duì)(例如鑒定等價(jià)殘基或相應(yīng)的序列(一般使用它們的默認(rèn)設(shè)置))。進(jìn)行BLAST分析的軟件公眾可以從美國國家生物技術(shù)信息中心(National Center for Biotechnology Information ) (http://www. ncbi. nlm. nih. gov/)獲得。所述算法涉及到首先鑒定高分值序列對(duì)(HSP),這個(gè)步驟是通過如下方式實(shí)現(xiàn)在查詢序列中鑒定長度為W的短字段,所述短字段當(dāng)與數(shù)據(jù)庫序列中相同長度的字段比對(duì)時(shí)匹配或者滿足某些正值的閾值分?jǐn)?shù)Τ。T是指鄰近字段分值閾值(Altschul et al,見上文)。將這些初始鄰近匹配字段作為種子啟動(dòng)檢索,以發(fā)現(xiàn)包含它們的HSP。在累積比對(duì)分值能夠增加期間,在每條序列的兩個(gè)方向進(jìn)行匹配字段延伸。匹配字段在每個(gè)方向上的延伸停止的條件是所述累積比對(duì)分值從其所達(dá)到的最大值下降X量;由于一個(gè)或多個(gè)負(fù)得分殘基比對(duì)的累積, 所述累積分值降到0或小于0 ;或者達(dá)到任何一個(gè)序列的端點(diǎn)。所述BLAST算法的參數(shù)W、 T和X決定了比對(duì)的敏感度和速度。所述BLAST程序使用的默認(rèn)字段(W)為11,BL0SUM62 打分矩陣(見Henikoff and Henikoff (1992) Proc. Natl. Acad. Sci. USA 89:10915-10919) 比對(duì)⑶為50,期望值(E)為10,M = 5,N = 4,并且是進(jìn)行雙鏈比較。所述BLAST算法可進(jìn)行兩個(gè)序列之間的相似性的統(tǒng)計(jì)分析;參見例如Karlin and Altschul (1993) Proc. Natl. Acad. Sci. USA 90 :5873_5787。所述 BLAST 算法提供的一種相似性的量度是最小和概率(P(N)),所述最小和概率表示兩個(gè)氨基酸序列之間隨機(jī)出現(xiàn)匹配的概率。例如,如果一個(gè)序列與另一個(gè)序列比較中的最小和概率小于約1,優(yōu)選小于約0. 1, 更優(yōu)選小于約0. 01,并且最優(yōu)選小于約0. 001,那么第一序列被認(rèn)為與第二序列相似。除上面討論的以外,還可對(duì)SEQ ID NO :6、8、10或12的氨基酸序列進(jìn)行氨基酸置換,例如最多達(dá)1、2、3、4、5、10、20或30個(gè)置換。保守性置換可例如根據(jù)下表1進(jìn)行。表1.保守性置換第二列同一格中的氨基酸,優(yōu)選第三列同一行中的氨基酸可相互置換。
非芳香族非極性GAPILV極性、不帶電CSTMNQ極性、帶電DEHKR芳香族HFWY還可從上文描述的多肽中額外缺失SEQ ID NO :6、8、10或12的氨基酸序列的一個(gè)或多個(gè)氨基酸殘基。可以缺失最多達(dá)1、2、3、4、5、10、20或30個(gè)殘基,或者更多個(gè)。變體可為SEQ ID NO :6、8、10或12的片段。這類片段保留了核酸操作活性。片段長度可為至少50、100、200或250個(gè)氨基酸。片段優(yōu)選地包含SEQ ID NO :6、8、10或12的核酸操作結(jié)構(gòu)域??蓪⒁粋€(gè)或多個(gè)氨基酸替代地或額外地加至上述的多肽上。在SEQ ID NO :6、8、 10或12或其變體或片段的氨基酸序列的氨基端或羧基端,可提供一段延長片段。所述延長片段可以非常短,例如長度為1-10個(gè)氨基酸?;蛘?,所述延長片段可以較長,例如最多達(dá) 50或100個(gè)氨基酸??蓪⑤d體蛋白融合于亞基或變體。如上面所討論的,SEQ ID NO :6、8、10或12的變體是具有從SEQ ID N0:6、8、10或 12變化而來的氨基酸序列且保留了其操作核酸的能力的蛋白。變體一般包含SEQ ID NO 6、8、10或12中負(fù)責(zé)操作核酸的區(qū)域。SEQ ID NO :6、8、10或12的催化結(jié)構(gòu)域在上文對(duì)序列表的說明中進(jìn)行了詳細(xì)描述。SEQ ID NO :6、8、10或12的變體優(yōu)選包含所述相關(guān)催化結(jié)構(gòu)域。SEQ ID NO :6、8、10或12的變體一般在所述相關(guān)催化結(jié)構(gòu)域外包括一個(gè)或多個(gè)修飾, 例如置換、插入或刪除??蓪?duì)所述變體進(jìn)行修飾,例如通過添加組氨酸或天冬氨酸殘基以幫助其鑒定或純化,或者添加信號(hào)序列以促進(jìn)所述多肽從天然不含所述信號(hào)序列的細(xì)胞分泌。能夠使靶核酸序列通過所述孔的其他優(yōu)選的酶包括聚合酶和解螺旋酶。所述核酸操作酶可以來源于這些類型的酶中的任一種。所述聚合酶優(yōu)選為酶分類(EC)組2. 7. 7. 6、
2.7. 7. 7,2. 7. 7. 19,2. 7. 7. 48和2. 7. 7. 49的任一組的成員。所述聚合酶優(yōu)選地是依賴DNA 的DNA聚合酶、依賴RNA的DNA聚合酶、依賴DNA的RNA聚合酶或依賴RNA的RNA聚合酶。 所述解螺旋酶優(yōu)選地是酶分類(EC)組3. 6. 1.-和2. 7. 7.-的任一組的成員。所述解螺旋酶優(yōu)選地是依賴ATP的DNA解螺旋酶(EC組3. 6. 1. 8)、依賴ATP的RNA解螺旋酶(EC組
3.6. 1. 8)或不依賴ATP的RNA解螺旋酶。可將所述核酸操作酶用顯示標(biāo)記物(revealing label)標(biāo)記。所述顯示標(biāo)記物可以是使所述酶可被檢測的任何合適的標(biāo)記物。合適的標(biāo)記物包括但不限于熒光分子;放射性同位素例如125i、35s、14c ;酶;抗體;抗原;多核苷酸;以及配體例如生物素。所述核酸操作酶可分離自產(chǎn)生酶的生物體例如大腸桿菌、嗜熱棲熱菌或噬菌體, 或者可通過合成或通過重組方式制備。例如,所述核酸操作酶可通過體外翻譯和轉(zhuǎn)錄進(jìn)行合成??蓪?duì)所述核酸操作酶的氨基酸序列進(jìn)行修飾,以包括非天然氨基酸或者以增加所述蛋白的穩(wěn)定性。如果所述核酸操作酶通過合成方式產(chǎn)生,那么這類氨基酸可以在產(chǎn)生過程中引入。所述核酸操作酶還可以在合成或重組產(chǎn)生后進(jìn)行改變。所述核酸操作酶還可以使用D-氨基酸產(chǎn)生。例如,所述核酸操作酶可包含L-氨基酸和D-氨基酸的混合物。這類蛋白或肽的生產(chǎn)是本領(lǐng)域中常規(guī)的。所述核酸操作酶還可含有其他非特異性化學(xué)修飾,只要這些修飾不影響其操作核酸或結(jié)合于孔的能力。許多非特異性側(cè)鏈修飾是本領(lǐng)域中已知的,并且可對(duì)所述孔的側(cè)鏈進(jìn)行這些修飾。例如,這類修飾包括對(duì)氨基酸的還原性烷基化(按照如下方式進(jìn)行首先與醛反應(yīng),然后以妝8隊(duì)進(jìn)行還原)、以甲基乙酰亞胺(methylacetimidate)進(jìn)行脒基化 (amidination)或者以乙酸酐進(jìn)行?;?。所述核酸操作酶可以使用本領(lǐng)域中已知的標(biāo)準(zhǔn)方法產(chǎn)生。編碼核酸操作酶的多核苷酸序列可以使用本領(lǐng)域中的標(biāo)準(zhǔn)方法分離和復(fù)制。這類序列在下文有更詳細(xì)的敘述。編碼核酸操作酶的多核苷酸序列可以使用本領(lǐng)域中的標(biāo)準(zhǔn)技術(shù)在細(xì)菌宿主細(xì)胞中表達(dá)。所述核酸操作酶可以通過在細(xì)胞中以重組表達(dá)載體原位表達(dá)所述多肽而產(chǎn)生。所述表達(dá)載體任選地?cái)y帶誘導(dǎo)型啟動(dòng)子以控制所述多肽的表達(dá)。多核苷酸序列可使用本領(lǐng)域中的標(biāo)準(zhǔn)方法分離和復(fù)制??蓮漠a(chǎn)生酶的生物例如大腸桿菌、嗜熱棲熱菌或噬菌體提取染色體DNA。編碼所述酶的基因可以使用涉及特定引物的PCR來擴(kuò)增。然后,可以將所擴(kuò)增的序列納入至可復(fù)制的重組載體例如克隆載體中。所述載體可以用于在相容宿主細(xì)胞中復(fù)制所述多核苷酸。因此,可以通過如下方式制備編碼所述酶的多核苷酸序列將編碼所述酶的多核苷酸引入可復(fù)制載體中,將所述載體引入相容的宿主細(xì)胞中,并在引起所述載體復(fù)制的條件下培養(yǎng)所述宿主細(xì)胞。所述載體可以從所述宿主細(xì)胞回收。用于克隆多核苷酸的合適宿主細(xì)胞是本領(lǐng)域中已知的,并且將在下文中更詳細(xì)地?cái)⑹觥?梢詫⑺龆嗪塑账峥寺≈梁线m的表達(dá)載體中。在表達(dá)載體中,編碼構(gòu)建體的多核苷酸序列一般有效連接于能夠使所述宿主細(xì)胞表達(dá)所述編碼序列的控制序列。這類表達(dá)載體可用于表達(dá)構(gòu)建體。術(shù)語“有效連接”指一種并置關(guān)系,其中所描述的組件處于能使它們以預(yù)期的方式發(fā)揮功能的關(guān)系中?!坝行нB接”于編碼序列的控制序列以這樣的方式連接,即在與所述控制序列相適應(yīng)的條件下可實(shí)現(xiàn)所述編碼序列的表達(dá)。可以將多拷貝的相同或不同的多核苷酸引入至所述載體中。然后,可以將所述表達(dá)載體引入至合適的宿主細(xì)胞中。因此,可以通過如下方式產(chǎn)生構(gòu)建體將編碼構(gòu)建體的多核苷酸序列插入表達(dá)載體中,將所述載體引入相容的細(xì)菌宿主細(xì)胞中,并在引起所述多核苷酸序列進(jìn)行表達(dá)的條件下培養(yǎng)所述宿主細(xì)胞。重組表達(dá)的構(gòu)建體可以自組裝為所述宿主細(xì)胞膜中的孔?;蛘?,可以將以該方式產(chǎn)生的重組構(gòu)建體從所述宿主細(xì)胞分離并插入至另一膜中。當(dāng)產(chǎn)生包含本發(fā)明構(gòu)建體與至少一種不同亞基的寡聚體孔時(shí),可以將所述構(gòu)建體與不同亞基分別在不同宿主細(xì)胞中表達(dá)(如上所述),從所述宿主細(xì)胞中取出并在另外的膜例如兔細(xì)胞膜中裝配為孔。所述載體可以是例如具有復(fù)制起點(diǎn)的質(zhì)粒、病毒或噬菌體載體,其任選地具有用于表達(dá)所述多核苷酸序列的啟動(dòng)子,還任選地具有所述啟動(dòng)子的調(diào)控子。所述載體可以包含一種或多種篩選標(biāo)記基因,例如氨芐青霉素抗性基因??梢赃x擇啟動(dòng)子和其他表達(dá)調(diào)節(jié)信號(hào),以使其與這樣的宿主細(xì)胞相容,即所述表達(dá)載體是為所述宿主細(xì)胞設(shè)計(jì)的。一般使用T7、trc、lac、ara或λ ^啟動(dòng)子。所述宿主細(xì)胞一般以高水平表達(dá)所述構(gòu)建體。選擇用編碼構(gòu)建體的多核苷酸序列轉(zhuǎn)化的宿主細(xì)胞以與用于轉(zhuǎn)化所述細(xì)胞的表達(dá)載體相容。所述宿主細(xì)胞一般是細(xì)菌并優(yōu)選是大腸桿菌。具有XDE3溶素原的任何細(xì)胞,例如C41(DE3)、 BL21 (DE3)、JM109(DE3)、B834(DE3)、TUNER、0rigami 和 Origami B 均可以表達(dá)包含 T7 啟動(dòng)子的載體。核酸操作酶可通過如下方式大規(guī)模產(chǎn)生從產(chǎn)生孔的生物體或者在如下文所述的重組表達(dá)后通過任一種蛋白質(zhì)液相色譜系統(tǒng)進(jìn)行純化。一般的蛋白質(zhì)液相色譜系統(tǒng)包括 FPLC、AKTA 系統(tǒng)、Bio-Cad 系統(tǒng)、Bio-fcid BioLogic 系統(tǒng)和 Gilson HPLC 系統(tǒng)。核苷酸和孔之間的相互作用所述靶序列通過所述跨膜孔,使得所述靶序列中的一部分核苷酸一次一個(gè)地(即依次地)與所述孔中至少一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)相互作用。所述靶序列的序列可以通過以下方式確定,即鑒定所述靶序列中至少80%,至少85%,至少90%,至少95%,至少98%或至少99%的核苷酸。優(yōu)選地,所述靶序列中的所有核苷酸均與至少一個(gè)位點(diǎn)相互作用并被鑒定。 可以使所述靶序列在所述膜的任一側(cè)與所述孔接觸??梢詫⑺霭行蛄泄璉入至在所述膜的任一側(cè)上的所述孔。如果如上文所討論的使用核酸操作酶,那么所述靶序列通常與所述膜存在所述酶的一側(cè)接觸。這使得所述酶可在進(jìn)行所述方法的過程中操作所述核酸。當(dāng)所述靶核酸序列經(jīng)所述孔的桶或通道穿過所述膜時(shí),其一部分核苷酸會(huì)與所述孔中至少一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)相互作用。如下文更詳細(xì)討論的,一部分核苷酸優(yōu)選與兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)相互作用。所述核苷酸一次一個(gè)地依次與一個(gè)或多個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)相互作用。 這意味著,在任一時(shí)刻,一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)僅與所述靶序列中的一個(gè)核苷酸相互作用。如果所述孔包含兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn),那么在任一時(shí)刻, 所述不同位點(diǎn)中的每一個(gè)位點(diǎn)都將與所述靶序列中的不同核苷酸相互作用。例如,如果所述孔包含兩個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn),那么在任一時(shí)刻,所述不同位點(diǎn)將與所述靶序列中的兩個(gè)不同核苷酸相互作用。所述靶序列一次一個(gè)核苷酸地通過所述孔,并且每個(gè)核苷酸依次被鑒定。因此,在一個(gè)時(shí)間點(diǎn),所述能夠區(qū)分不同核苷酸的不同位點(diǎn)中的每一個(gè)位點(diǎn)都會(huì)與所述靶序列中的不同核苷酸相互作用。在下一時(shí)間點(diǎn),再使所述靶序列的一個(gè)核苷酸通過所述孔,所述能夠區(qū)分不同核苷酸的不同位點(diǎn)中的每一個(gè)位點(diǎn)會(huì)與同其在前一時(shí)間點(diǎn)相互作用的核苷酸相鄰的核苷酸相互作用。如果所述孔中有兩個(gè)或多個(gè)不同位點(diǎn),那么在所述靶序列通過所述孔時(shí)其中選定的核苷酸將會(huì)依次與每個(gè)不同位點(diǎn)相互作用。在每次相互作用過程中測量通過所述孔的電流,這使得可以確定與所述一個(gè)或多個(gè)位點(diǎn)相互作用的核苷酸的類型。以連續(xù)的方式鑒定所述靶序列中的一部分核苷酸使得可以確定所述靶序列的序列。所述核苷酸可以以任何方式并在任何位點(diǎn)與所述孔相互作用。所述核苷酸優(yōu)選與所述孔中一個(gè)或多個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)可逆地結(jié)合。所述核苷酸最優(yōu)選在經(jīng)所述孔穿過所述膜時(shí)與所述孔中一個(gè)或多個(gè)位點(diǎn)可逆地結(jié)合。所述核苷酸可以經(jīng)由銜接體或者與銜接體一起可逆地結(jié)合于一個(gè)或者多個(gè)所述位點(diǎn),所述銜接體有利于所述孔和核苷酸之間的相互作用。然而,所述孔優(yōu)選不包含有利于所述孔和核苷酸之間相互作用的分子銜接體。在核苷酸和所述能夠區(qū)分不同核苷酸的位點(diǎn)之間相互作用的過程中,所述核苷酸以對(duì)該核苷酸特異的方式影響流過所述孔的電流。例如,某一核苷酸將降低流經(jīng)所述孔的電流至某一程度。換言之,流過所述孔的電流對(duì)于某一核苷酸和能夠區(qū)分不同核苷酸的位點(diǎn)之間的相互作用而言是獨(dú)特的。因此,當(dāng)不同核苷酸以連續(xù)的方式移動(dòng)通過所述孔并與所述孔相互作用時(shí),流經(jīng)所述孔的電流隨每次相互作用改變。如果兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)存在于所述孔中,那么在任何時(shí)候通過所述孔的總電流將受到每個(gè)位點(diǎn)和位于每個(gè)位點(diǎn)的核苷酸之間的相互作用的影響。 存在多個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)會(huì)增加觀測到的電流水平的數(shù)目,并因此可提供更多的序列信息。例如,具有單個(gè)位點(diǎn)的孔可以對(duì)四種不同核苷酸(為了描述之目,稱為A、B、C 和D)產(chǎn)生四個(gè)電流水平。與之不同,具有兩個(gè)位點(diǎn)的孔可以產(chǎn)生十六個(gè)水平當(dāng)A在位點(diǎn) 1且A、B、C或D在位點(diǎn)2時(shí)的四個(gè)電流水平;當(dāng)B在位點(diǎn)1且A、B、C或D在位點(diǎn)2時(shí)的四個(gè)電流水平;當(dāng)C在位點(diǎn)1且A、B、C或D在位點(diǎn)2時(shí)的四個(gè)電流水平;以及當(dāng)D在位點(diǎn)1且A、B、C或D在位點(diǎn)2時(shí)的四個(gè)電流水平。選擇的核苷酸在能夠區(qū)分不同核苷酸的位點(diǎn)的停留時(shí)間將通過所述靶序列通過所述孔的方式確定。例如,如果使用核酸操作酶,那么選擇的核苷酸在能夠區(qū)分不同核苷酸的位點(diǎn)的停留時(shí)間將由所述酶將所述靶序列推過或拉過所述孔的速率確定??梢赃M(jìn)行對(duì)照實(shí)驗(yàn)來確定具體核酸序列對(duì)流經(jīng)所述孔的電流的效應(yīng)。然后,可以將對(duì)測試樣品進(jìn)行本發(fā)明的方法得到的結(jié)果與從這類對(duì)照實(shí)驗(yàn)得到的結(jié)果進(jìn)行比較,以鑒定所述靶序列。一個(gè)或多個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)如果所述孔中的位點(diǎn)能夠區(qū)分至少2種例如3種或4種不同核苷酸,那么其能夠區(qū)分不同核苷酸。所述核苷酸可以是上文討論的核苷酸的任一種。所述孔中的每個(gè)位點(diǎn)優(yōu)選能夠區(qū)分4種不同核苷酸。每個(gè)位點(diǎn)最優(yōu)選能夠區(qū)分DNA或RNA的4種核苷酸。具體而言,每個(gè)位點(diǎn)優(yōu)選能夠區(qū)分獨(dú)立包含以下核堿基的4種不同核苷酸(a)腺嘌呤、(b)鳥嘌呤、(c)胸腺嘧啶或尿嘧啶和(d)胞嘧啶。每個(gè)位點(diǎn)更優(yōu)選能夠區(qū)分獨(dú)立包含以下核堿基的 5種不同核苷酸(a)腺嘌呤、(b)鳥嘌呤、(c)胸腺嘧啶或尿嘧啶、(d)胞嘧啶和(e)5-甲基胞嘧啶。由于位點(diǎn)可與核苷酸相互作用(優(yōu)選可逆結(jié)合于核苷酸)并且所述核苷酸可以該核苷酸特異的方式影響流經(jīng)所述孔的電流,因此該位點(diǎn)通常能夠區(qū)分不同核苷酸。位點(diǎn)與選擇的核苷酸相互作用的方式將取決于多個(gè)因素,包括所述位點(diǎn)的大小、所述位點(diǎn)的構(gòu)象、 所述位點(diǎn)的電荷、所述位點(diǎn)形成氫鍵的能力以及所述位點(diǎn)形成其他分子間相互作用例如偶極子相互作用的能力。位點(diǎn)可以帶凈電荷。所述凈電荷可以為負(fù),但一般為正。位點(diǎn)可以不帶凈電荷。如上文討論的,位點(diǎn)區(qū)分不同核苷酸的能力可以通過改變所述位點(diǎn)的大小、所述位點(diǎn)的構(gòu)象和/或所述位點(diǎn)的電荷而改變。每個(gè)位點(diǎn)均優(yōu)選存在于所述孔的桶或通道中。這使得位點(diǎn)和核苷酸之間的相互作用可影響流過所述孔的電流??缒さ鞍卓字幸粋€(gè)或多個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)在下文中更詳細(xì)討論。所述孔包含至少1個(gè)例如2、3或4個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)。所述孔優(yōu)選包含2個(gè)或多個(gè)例如2、3或4或更多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)。因此,所述靶序列中的一部分核苷酸優(yōu)選一次一個(gè)地與所述孔中兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)相互作用。所述孔最優(yōu)選包含兩個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)。因此,所述靶序列中的一部分核苷酸最優(yōu)選與所述孔中兩個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)相互作用。所述靶序列中的每個(gè)核苷酸優(yōu)選一次一個(gè)地與每個(gè)位點(diǎn)特定位點(diǎn)相互作用。如果位點(diǎn)彼此分開的距離足以使選擇的核苷酸與每個(gè)位點(diǎn)的相互作用可如本文所述區(qū)分開,那么所述位點(diǎn)是不同的。不同位點(diǎn)一般彼此分開至少10、至少20、至少30、至少40或至少50埃。不同位點(diǎn)優(yōu)選彼此分開約20至約30埃。優(yōu)選地,所述兩個(gè)或多個(gè)不同位點(diǎn)各自以不同方式區(qū)分不同核苷酸。這使得有可能區(qū)分所選擇的核苷酸何時(shí)與所述兩個(gè)或多個(gè)位點(diǎn)的每一個(gè)位點(diǎn)相互作用。所述兩個(gè)或多個(gè)位點(diǎn)的差異在于,它們可以任何方式區(qū)分不同核苷酸的方式。一些位點(diǎn)可基于與每個(gè)所述核苷酸不同的空間相互作用來區(qū)分不同核苷酸。這類相互作用一般依賴于所述位點(diǎn)的大小和/或構(gòu)象。其他具有凈電荷的位點(diǎn)可基于與每個(gè)所述核苷酸不同的離子相互作用來區(qū)
19分不同核苷酸。一般而言,所述兩個(gè)或多個(gè)位點(diǎn)中的每個(gè)位點(diǎn)的差異在于,其與所述不同核苷酸的相互作用影響流過所述孔的電流的方式。優(yōu)選地,選擇的核苷酸與所述兩個(gè)或多個(gè)不同位點(diǎn)中的每一個(gè)位點(diǎn)的相互作用可導(dǎo)致不同電流流過所述孔。例如,含腺嘌呤的核苷酸與所述兩個(gè)或多個(gè)不同位點(diǎn)中的每一個(gè)位點(diǎn)的相互作用可導(dǎo)致不同電流流過所述孔。更優(yōu)選地,不同核苷酸與所述兩個(gè)或多個(gè)不同位點(diǎn)中的每個(gè)位點(diǎn)的相互作用可導(dǎo)致差異電流流過所述孔,并且所述差異電流的平均值之間的間隔在所述兩個(gè)或多個(gè)不同位點(diǎn)中的每個(gè)位點(diǎn)之間不同。這顯示于圖4中。在所述孔中存在兩個(gè)或多個(gè)能夠以不同方式區(qū)分不同核苷酸的不同位點(diǎn)可提供兩項(xiàng)優(yōu)點(diǎn)。第一,它使得可對(duì)所述靶序列中的核苷酸數(shù)目進(jìn)行計(jì)數(shù)。如果已知所述兩個(gè)或多個(gè)位點(diǎn)之間的距離以及所述靶序列通過所述孔的速率,那么有可能在選擇的核苷酸從一個(gè)位點(diǎn)移動(dòng)至另一個(gè)位點(diǎn)時(shí)對(duì)通過所述孔的核苷酸數(shù)目進(jìn)行計(jì)數(shù)。這特別有助于確定所述靶序列中具體核苷酸的連續(xù)片段的長度。使用僅具有單個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)的孔, 當(dāng)5個(gè)相同核苷酸各自依次與所述位點(diǎn)相互作用時(shí),所述5個(gè)核苷酸的連續(xù)片段將不產(chǎn)生任何電流水平的變化。將需要基于所述靶序列通過所述孔的速率來試圖預(yù)測多少個(gè)核苷酸與所述位點(diǎn)相互作用。然而,如果所述孔具有兩個(gè)能夠區(qū)分不同核苷酸的位點(diǎn),那么當(dāng)所述連續(xù)片段中的5個(gè)相同核苷酸各自依次與所述第一位點(diǎn)相互作用時(shí),下游核苷酸依次與所述第二位點(diǎn)相互作用將改變流經(jīng)所述孔的電流水平。這使得可以對(duì)依次與所述第一位點(diǎn)相互作用的相同核苷酸的數(shù)目進(jìn)行計(jì)數(shù)。第二且更重要地,所述孔中存在兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)使得所述靶核酸的序列可被更有效地確定。具有兩個(gè)可以以不同方式區(qū)分不同核苷酸的不同位點(diǎn)可確保,當(dāng)對(duì)所述靶序列測序時(shí),每個(gè)核苷酸不是只被觀測一次,而是實(shí)際上被測試兩次。這可更加確定所述靶序列中的每個(gè)位置均被觀測到,并且兩個(gè)核苷酸在每個(gè)位置合計(jì)訪問的質(zhì)量分值高于單次觀測可能得到的質(zhì)量分值。換句話說,本發(fā)明的優(yōu)選方法的關(guān)鍵優(yōu)點(diǎn)是,它使得靶序列的每個(gè)核苷酸位置可被有效測試兩次,而不必重復(fù)所述方法。這因此確保了產(chǎn)生的序列的質(zhì)量非常高,并且減少了錯(cuò)誤鑒定核苷酸訪問或者完全遺漏核苷酸的可能。所述一個(gè)或多個(gè)位點(diǎn)的修飾所述方法優(yōu)選包括使用已被修飾以改變至少一個(gè)位點(diǎn)例如2個(gè)或3個(gè)位點(diǎn)的能力的孔來區(qū)分不同核苷酸。所述孔可以被修飾以引入一個(gè)或多個(gè)例如2個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)。這可增加所述孔中能夠區(qū)分不同核苷酸的不同位點(diǎn)的數(shù)目。所述孔可以被修飾以消除一個(gè)或多個(gè)例如2個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn)。這可減少所述孔中能夠區(qū)分不同核苷酸的不同位點(diǎn)的數(shù)目。然而,必須保留所述孔可用的至少一個(gè)例如2個(gè)或3 個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)。所述孔可以被修飾以增強(qiáng)或降低一個(gè)或多個(gè)不同位點(diǎn)區(qū)分不同核苷酸的能力。例如,一個(gè)位點(diǎn)區(qū)分不同核苷酸的能力可以被增強(qiáng),而另一個(gè)不同位點(diǎn)區(qū)分不同核苷酸的能力可以被降低。這使得所述孔可被“微調(diào)”,用于對(duì)特異性靶核酸序列測序。所述孔可以以任何方式被修飾,以改變至少一個(gè)位點(diǎn)區(qū)分不同核苷酸的能力。可以進(jìn)行一個(gè)或多個(gè)例如2、3、4或5個(gè)或者更多個(gè)修飾。所述一個(gè)或多個(gè)修飾優(yōu)選會(huì)改變當(dāng)選擇的核苷酸與所述至少一個(gè)位點(diǎn)相互作用時(shí)流過所述孔的電流。所述一個(gè)或多個(gè)修飾可改變所述至少一個(gè)位點(diǎn)的大小和/或構(gòu)象,從而改變它與不同核苷酸的空間相互作用。所述一個(gè)或多個(gè)修飾可以改變所述至少一個(gè)位點(diǎn)的凈電荷。 從而改變它與不同核苷酸的離子相互作用。所述至少一個(gè)位點(diǎn)的凈電荷可以通過以下方式改變(1)引入正電荷或負(fù)電荷,⑵除去正電荷或負(fù)電荷而不是替換它,⑶以正電荷代替中性電荷或負(fù)電荷以及/或者以負(fù)電荷代替中性電荷或正電荷。所述一個(gè)或多個(gè)修飾不能以這樣的方式改變所述凈電荷,即這種改變會(huì)干擾所述靶序列通過所述孔的移位。例如,將太多正電荷引入所述孔的桶或通道可能會(huì)降低流過所述孔的電流,從而妨礙對(duì)不同核苷酸的區(qū)分?;蛘?,將太多負(fù)電荷引入所述孔的桶或通道可能會(huì)阻止所述靶序列進(jìn)入所述孑L本發(fā)明人還出乎意料地發(fā)現(xiàn),如果孔包含兩個(gè)或多個(gè)能夠區(qū)分不同核苷酸的不同位點(diǎn),那么修飾一個(gè)不同位點(diǎn)可改變另一個(gè)或其他不同位點(diǎn)區(qū)分不同核苷酸的能力。因此, 在一個(gè)優(yōu)選的實(shí)施方案中,所述孔在所述兩個(gè)或多個(gè)不同位點(diǎn)之一處被修飾,并且這會(huì)改變所述其他兩個(gè)或多個(gè)不同位點(diǎn)中的至少一個(gè)區(qū)分不同核苷酸的能力。在另一個(gè)優(yōu)選實(shí)施方案中,所述孔在所述兩個(gè)或多個(gè)不同位點(diǎn)之一處被修飾,并且這會(huì)改變所有所述其他不同位點(diǎn)區(qū)分不同核苷酸的能力。在另一個(gè)優(yōu)選實(shí)施方案中,所述孔在所述兩個(gè)或多個(gè)不同位點(diǎn)之一處被修飾,并且這會(huì)改變所有所述不同位點(diǎn)區(qū)分不同核苷酸的能力。上文描述的任何修飾均可以使用。最優(yōu)選地,所述孔在所述兩個(gè)或多個(gè)不同位點(diǎn)之一處被修飾,以增加當(dāng)選擇的核苷酸與所述兩個(gè)或多個(gè)不同位點(diǎn)的每一個(gè)相互作用時(shí)通過所述孔的電流之間的差異。必須平衡在所述兩個(gè)或多個(gè)不同位點(diǎn)的每一個(gè)處進(jìn)行修飾的效應(yīng)。例如,改變一個(gè)位點(diǎn)的凈電荷可以降低當(dāng)所述位點(diǎn)與核苷酸相互作用時(shí)流過所述孔的電流,從而使得更不容易在所述另一個(gè)或其他更遠(yuǎn)端位點(diǎn)處區(qū)分不同核苷酸?;蛘?,修飾一個(gè)位點(diǎn)以增加流經(jīng)所述孔的電流可以提高在所述另一個(gè)或其他更遠(yuǎn)端位點(diǎn)對(duì)不同核苷酸的區(qū)分。這一點(diǎn)將在下文參考跨膜蛋白孔進(jìn)行更詳細(xì)的討論。?L所述方法包括使所述靶序列通過跨膜孔。跨膜孔是這樣的孔,即該孔使得由施加電勢驅(qū)動(dòng)的離子可從膜的一側(cè)流到所述膜的另一側(cè)。所述孔使得核酸例如DNA或RNA可通過所述孔。所述孔優(yōu)選是跨膜蛋白孔??缒さ鞍卓资沁@樣的多肽或多肽集合,即該多肽或多肽集合使得由施加電勢驅(qū)動(dòng)的離子可從膜的一側(cè)流到所述膜的另一側(cè)。所述孔可以是分離的、基本上分離的、純化的或基本上純化的。如果孔完全不含任何其他組分如脂質(zhì)或其他孔,則該孔是分離的或純化的。如果孔與不干擾其預(yù)期用途的載體或稀釋劑混合,則所述孔是基本分離的。例如,如果孔以包含小于10%、小于5%、小于 2%或小于的其他組分(如脂質(zhì)或其他孔)的形式存在,則所述孔是基本分離或基本純化的。所述孔一般存在于脂質(zhì)雙層中。所述孔可以是單體或寡聚體。所述孔優(yōu)選由幾個(gè)重復(fù)亞基例如6、7或8個(gè)亞基構(gòu)成。所述孔更優(yōu)選為七聚體孔。所述孔通常包含離子可從中流過的桶或通道。所述孔的亞基通常環(huán)繞一個(gè)中心軸,并為跨膜β桶或通道或者跨膜α-螺旋束或通道提供鏈。
所述孔包含至少一個(gè)能夠區(qū)分不同核苷酸的位點(diǎn)。所述位點(diǎn)優(yōu)選在所述孔的桶或通道中。每個(gè)位點(diǎn)一般包含數(shù)個(gè)例如10、20或30個(gè)有利于與核苷酸相互作用的氨基酸。如果所述孔是寡聚體,那么每個(gè)單體可以對(duì)每個(gè)位點(diǎn)貢獻(xiàn)一個(gè)或多個(gè)例如2、3或4個(gè)氨基酸。 這些氨基酸優(yōu)選位于所述桶或通道的收縮區(qū)附近。每個(gè)位點(diǎn)一般包含一個(gè)或多個(gè)帶正電的氨基酸例如精氨酸、賴氨酸或組氨酸。這些氨基酸一般有利于所述位點(diǎn)和所述核苷酸之間的相互作用。根據(jù)本發(fā)明使用的孔可以是桶孔、α-螺旋束孔或固態(tài)(solid state) 孔。桶孔包含由鏈構(gòu)成的桶或通道。合適的桶孔包括但不限于毒素例如 α-溶血素、炭疽毒素和殺白細(xì)胞素,細(xì)菌的外膜蛋白/孔蛋白(porin)例如恥垢分枝桿菌 (Mycobacterium smegmatis)孔蛋白 A(MspA)、外膜孔蛋白 F(OmpF)、外膜孔蛋白 G(OmpG)、 外膜磷酸酯酶A和奈瑟球菌屬(Neisseria)自轉(zhuǎn)運(yùn)脂蛋白(NalP)。α-螺旋束孔包含由 α-螺旋構(gòu)成的桶或通道。合適的α-螺旋束孔包括但不限于內(nèi)膜蛋白和α外膜蛋白例如 Wza0所述孔可以是固態(tài)孔。合適的固態(tài)孔包括但不限于氮化硅孔、二氧化硅孔和石墨烯孔。其他合適的固態(tài)孔和生產(chǎn)所述固態(tài)孔的方法記載于美國專利No. 6,464,842、WO 03/003446、WO 2005/061373、美國專利 No. 7,258,838、美國專利 No. 7,466,069、美國專利 No. 7,468,271 和美國專利 No. 7,253,434。所述孔優(yōu)選來源于α -溶血素(α -HL)。野生型α -HL孔由7個(gè)相同的單體或亞基構(gòu)成(即,其是七聚體)。α-溶血素的一個(gè)野生型單體或亞基的序列示于SEQ ID NO 2。所述孔優(yōu)選包含七個(gè)包含SEQ ID NO :2中所示的序列或其變體的亞基。所述孔可以是包含七個(gè)SEQ ID NO :2或其變體的相同亞基的同七聚體?;蛘?,所述孔可以是包含兩種或多種例如2、3、4、5、6或7種不同亞基的雜七聚體。所述雜七聚體中的每個(gè)亞基都可以包含 SEQ ID NO 2或其變體。SEQ ID NO :2 的氨基酸 1、7-21、31-34、45-51、63-66、72、92_97、104-111、124-136、 149-153、160-164、173-206、210-213、217、218、223-228、236-242、262-265、272-274、 287-290和294構(gòu)成環(huán)區(qū)。SEQ ID NO 2的殘基111、113和147形成α -HL的桶或通道的收縮區(qū)的一部分。SEQ ID NO 2的變體是具有從SEQ ID NO :2變化而來但保留有其孔形成能力的氨基酸序列的亞基。變體形成孔的能力可使用本領(lǐng)域中已知的任何方法進(jìn)行測定。例如,可將所述變體與其他合適的亞基一塊插入膜中,并且可以確定它寡聚體化以形成孔的能力。 本領(lǐng)域中已知將亞基插入膜例如脂雙層的方法。例如,變體可以以純化形式懸浮于包含脂雙層的溶液中,使得它分散于所述脂雙層中,并且通過結(jié)合于所述脂質(zhì)雙層并裝配為功能狀態(tài)而插入?;蛘?,可以使用 Μ. A. Holden, H. Bayley. J. Am. Chem. Soc. 2005,127,6502-6503 和國際申請(qǐng)PCT/GB2006/001057(
發(fā)明者A·J·郝倫, D·斯托達(dá)特, G·瑪格里亞, J·H·P·貝利 申請(qǐng)人:Isis創(chuàng)新有限公司