特異識別含有5-甲基化胞嘧啶的DNA的方法技術領域本發(fā)明涉及生物技術領域,更具體地說,涉及特異識別含有5-甲基化胞嘧啶的DNA的方法。
背景技術:TALE(TranscriptionActivatorLikeEffectors,轉錄激活子樣效應因子)是植物致病菌黃單胞菌屬(Xanthomonas)的細胞內的一種蛋白質。當病原菌侵染植株時,病菌會通過其自身的III型分泌系統(tǒng)將包括TALE在內的一系列效應分子注入到植物細胞內。這些效應分子通過影響宿主細胞的信號傳遞,基因表達等方式來協(xié)助病菌進一步擴增。TALE則是這些效應分子中最大的一類,它像植物自身的轉錄激活子一樣行使功能。TALE家族蛋白一般由3個主要的功能結構域組成,N端結構域與TALE的分泌轉運有關;C端具有轉錄激活結構域和入核信號肽片段;位于TALE中部的區(qū)域是DNA結合結構域,但它的DNA結合結構域不同于其他已知的DNA結合結構域,它是由一段串聯(lián)的重復單元組成,大多數(shù)情況下每個重復單元由34個氨基酸組成,個別重復單元由33或35個氨基酸殘基組成。這34個氨基酸中除了第12和13位的氨基酸變化較大之外,其他氨基酸高度保守。這兩個不保守的氨基酸被命名為RVD(repeatvariablediresidue,重復可變雙殘基)。J.Boch等人和M.J.Moscou等(參見J.Boch,H.Scholze,S.Schornack,A.Landgraf,S.Hahn,S.Kay,T.Lahaye,A.Nickstadt,U.Bonas,BreakingthecodeofDNAbindingspecificityofTAL-typeIIIeffectors,Science,326(2009)1509-1512和M.J.Moscou,A.J.Bogdanove,AsimpleciphergovernsDNArecognitionbyTALeffectors,Science,326(2009)1501)已于2009年分別通過實驗和生物信息學研究發(fā)現(xiàn)每個重復單元中第12和13位的氨基酸(RVD)與識別的核苷酸種類有特殊的對應關系,例如:表1部分RVD與DNA堿基序列的對應關系TALE蛋白的特異DNA序列識別以及靈活的可組裝性為它們在分子生物學中的應用提供了巨大的前景,科學家們可以設計組裝任意的TALE單元去識別任意的DNA雙螺旋序列。這一特性已經被用來構造切割特異雙鏈DNA序列的DNA酶TALEN(TALEnuclease,TALE核酸酶),用于在細胞基因組中引入定點突變、定點敲除等操作(A.J.Bogdanove,D.F.Voytas,TALeffectors:customizableproteinsforDNAtargeting,Science,333(2011)1843-1846.)。在目前所有已知的報道中,TALE識別的都是沒有修飾的雙鏈DNA。
技術實現(xiàn)要素:一方面,本發(fā)明涉及檢測DNA中的胞嘧啶甲基化的方法,包括用TALE蛋白及其衍生蛋白來特異性識別DNA中的5-甲基胞嘧啶。在優(yōu)選實施方案中,采用兩種不同的TALE蛋白,分別特異性識別靶標序列中的胞嘧啶和5-甲基化胞嘧啶。在進一步優(yōu)選的實施方案中,所述方法用于檢測CpG島的甲基化。一方面,本發(fā)明涉及TALE蛋白及其衍生蛋白用于特異性識別DNA中的5-甲基化胞嘧啶的用途。另一方面,本發(fā)明涉及TALE蛋白及其衍生蛋白在制備用于特異性識別DNA中的5-甲基胞嘧啶的試劑中的用途。另一方面,本發(fā)明涉及TALE蛋白及其衍生蛋白在制備用于診斷或治療癌癥的藥物中的用途。在優(yōu)選實施方案中,所述診斷或治療是通過特異性識別DNA中的5-甲基胞嘧啶來進行的。本發(fā)明另外涉及TALE蛋白及其衍生蛋白,其用于特異性識別5-甲基胞嘧啶修飾的DNA。本發(fā)明還涉及TALE蛋白及其衍生蛋白,其用于診斷或治療癌癥。TALE蛋白可以為自然界已有的TALE蛋白以及在此基礎上通過基因方法突變、修飾、組裝獲得的保持或增強特異性識別DNA中的5-甲基胞嘧啶的TALE衍生蛋白。所述TALE衍生蛋白還包含具有TALE蛋白DNA結合結構域的重組蛋白。附圖說明圖1是dHax3的DNA結合域(dHax3截短體,標記為dHax3-Δ)與雙鏈DNA的高分辨率晶體結構(1.85埃)示意圖。左圖中的1-10表示dHax3的DNA結合域的每個重復單元,其識別右側對應的DNA序列。每個重復單元由兩個α螺旋組成,兩個螺旋分別為a和b。該結構已上傳到PDB數(shù)據(jù)庫中,代碼為:3V6T。其中dHax3(designedHax3)指經過改造的TALE蛋白Hax3。圖2表示dHax3與DNA堿基間的相互作用。A、dHax3中RVD的側鏈指向,RVD中的第一個氨基酸并沒有伸向DNA大溝內部,同時第二個氨基酸將氨基酸側鏈伸向DNA大溝;B、RVD中第一個氨基酸通過氫鍵穩(wěn)定loop區(qū)域構象,當DNA結合結構域重復單元的第一位的氨基酸為天冬酰胺(N)或者組氨酸(H)時,它們與自身所在重復序列的第八位的氨基酸主鏈上的羰基氧原子形成氫鍵相互作用,起到穩(wěn)定整個RVD所在loop構象的作用;C、RVD中第二個氨基酸與DNA堿基直接相互作用,當氨基酸殘基為天冬氨酸(D)時,天冬氨酸的羧基氧會通過氫鍵與DNA中胞嘧啶的氨基直接形成氫鍵相互作用;當氨基酸殘基為絲氨酸(S)時,絲氨酸中羥基與腺嘌呤中的N7形成直接氫鍵相互作用;當氨基酸殘基為甘氨酸(G)時,它與胸腺嘧啶甲基之間會有范德華力相互作用,但是D、如A圖所示的分子中,RVD為NG的loop構象;E、如B圖所示的分子中,RVD為NG的loop構象。圖3是胸腺嘧啶(左)與5-甲基胞嘧啶(右)結構比較圖。從圖中對比可以清楚的發(fā)現(xiàn)胸腺嘧啶(左)與5-甲基胞嘧啶(右)的唯一區(qū)別是六位上的氨基和羰基氧原子。而不論是氨基,還是羰基氧原子都可能通過范德華力與蛋白質的氨基酸殘基相互作用。圖4顯示生化實驗和晶體結構解析揭示了TALE蛋白通過NG識別5-甲基胞嘧啶。a、dHax3識別的含5-甲基胞嘧啶(5mC)的DNA序列(該序列稱為dHax3-5mC,含有3個5mC,只顯示dHax3的RVD所識別的堿基,具體序列詳見實施例)以及dHax3蛋白中的相應的RVD;b、EMSA檢測dHax3對不含5mC的DNA序列(稱為dHax3box,其與dHax3-5mC序列相同,除了5mC為C)以及dHax3對含5mC的DNA序列(dHax3-5mC)的結合能力,每個泳道中加入大約4nM的核酸探針;同時泳道0~10的樣品中加入了梯度濃度的dHax3蛋白,分別為濃度0,8nM,16nM,31.5nM,62.5nM,125nM,250nM,500nM,1000nM,2000nM,4000nM;c、dHax3的DNA結合域(dHax3-Δ)與含5mC的DNA序列(dHax3-5mC)的復合物晶體結構,顯示側鏈的堿基為5-甲基胞嘧啶,甘氨酸與5-甲基胞嘧啶形成范德華力相互作用,這種相互作用與甘氨酸與胸腺嘧啶。圖5是電泳圖,顯示了dHax3全長蛋白的純化結果。泳道標注說明:1.全菌破碎液;2.全菌破碎離心沉淀;3.全菌破碎離心上清液;4.鎳柱培養(yǎng)棄液;5.鎳柱清洗液;6.鎳柱洗脫回收液;7.鎳柱柱材;8.分子量標志物。圖6是電泳圖,顯示了dHax3截短體蛋白(dHax3-Δ)的純化結果。泳道標注說明:A.全菌破碎液;P.全菌破碎離心沉淀;S.全菌破碎離心上清液;F.鎳柱穿透液;W1.鎳柱清洗液1;W1.鎳柱清洗液2;E.鎳柱洗脫回收液;R.鎳柱柱材;M.分子量標志物。圖7顯示DNA結合實驗證明NG可以特異性識別甲基化胞嘧啶。a,用于檢測DNA結合的不同DNA探針(只顯示dHax3的RVD所識別的堿基,詳見實施例)。6T-6C表示將dHax3-box中的6個胸腺嘧啶(T)用6個胞嘧啶(C)替換;6T-6mC表示將dHax3-box中的6個胸腺嘧啶(T)用6個甲基化胞嘧啶(5mC)替換;5C-5mC表示將dHax3-box中的5個胞嘧啶(C)用5個甲基化胞嘧啶(5mC)替換;5C-5mC表示將dHax3-box中的5個胞嘧啶(C)用5個甲基化胞嘧啶(5mC)替換;5C-5T表示將dHax3-box中的5個胞嘧啶(C)用5個胸腺嘧啶(5T)替換;5C-5A表示將dHax3-box中的5個胞嘧啶(C)用5個腺嘌呤(A)替換;5C-5G表示將dHax3-box中的5個胞嘧啶(C)用5個鳥嘌呤(G)替換。b,dHax3與含有六個甲基化修飾的DNA序列(6T-6mC)具有與對照組實驗(dHax3-box)相似的結合能力。c,dHax3中的一種RVD——NG——不能結合沒有甲基化修飾的胞嘧啶(C)。d,dHax3中的一種RVD——HD——對于胞嘧啶(C)是特異性的識別,并且甲基化修飾會影響HD與胞嘧啶的識別。在EMSA實驗中,向泳道1~5、6~10、11~15、16~20中加入梯度濃度的dHax3全長蛋白,濃度分別為0、146nM、440nM、1330nM和4000nM。圖8是dHax3-NN變體的DNA結合結構域(dHax3-NN-Δ,即將dHax3的DNA結合域的第七個重復單元中的RVD(NS)通過點突變技術變成NN并將第九個重復單元中RVD(HD)通過點突變技術變成NN,以形成對兩個甲基化CpG島的識別,其具體識別序列參見實施例)結合含有兩個甲基化CpG島DNA的晶體結構示意圖。具體實施方式發(fā)明人成功解析了經過改造的TALE蛋白Hax3(在本文中稱為dHax3(designedHax3))的DNA結合結構域與dsDNA的復合物晶體結構。該結構揭示出RVD特異識別每一個DNA堿基的分子基礎,RVD中的NG依靠范德華力與胸腺嘧啶的5-甲基相互作用,胸腺嘧啶其他基團不參與反應。這一發(fā)現(xiàn)提示,TALE蛋白可能通過NG特異識別DNA雙鏈中的5-甲基胞嘧啶,因為5-甲基胞嘧啶與胸腺嘧啶具有類似的結構。發(fā)明人還成功解析了dHax3的DNA結合結構域與具有5-甲基胞嘧啶的dsDNA的復合物晶體結構。這個發(fā)現(xiàn)提供了一種新型的檢測以及干擾胞嘧啶甲基化的方法,并且可以用于以下方面:1.癌細胞CpG島的檢測因為5-甲基胞嘧啶出現(xiàn)在表觀遺傳學(epigenetics)中的一個重要修飾-DNA甲基化。DNA甲基化是指在DNA甲基化轉移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5′碳位共價鍵結合一個甲基基團。由于DNA甲基化與人類發(fā)育和腫瘤疾病的密切關系,特別是CpG島甲基化所致抑癌基因轉錄失活問題,在癌癥細胞的基因組中會出現(xiàn)一些甲基化區(qū)域,而在正常的細胞中這些甲基化現(xiàn)象并不會出現(xiàn)。由于本發(fā)明的方法能夠有效區(qū)分某一特定基因組位點上甲基化發(fā)生與否,因此可以作為一種新的癌癥細胞檢測手段。2.治療癌癥的新方法癌癥細胞的DNA甲基化抑制了很多抑癌基因的表達。由于本發(fā)明的方法能特異地重新開啟癌癥細胞中這些基因的表達,因此就可以促使癌癥細胞的凋亡。TALE本身就具有激活轉錄的功能,通過設計TALE的重復序列上的RVD,讓它特異性結合有甲基化修飾的抑癌基因上游啟動子序列,特異地開啟癌癥細胞的抑癌基因的大量表達,達到殺死癌癥細胞的目的。除非本文另有定義,本發(fā)明使用的相關科學和技術術語具有本領域普通技術人員通常理解的含義。而且,除非上下文有其它規(guī)定,單數(shù)形式的術語應當包括復數(shù),而復數(shù)形式的術語應當包括單數(shù)。通常,與本文所述的分子生物學、生物化學、結構生物學及相關使用的命名以及技術,是本領域眾所周知且普遍使用的那些。除非另有說明,下面的術語應當理解為具有下述含義:本文所用的術語“TALE蛋白”是指TranscriptionActivatorLikeEffectors,即轉錄激活子樣效應因子。TALE蛋白可以為自然界已有的TALE蛋白以及在此基礎上通過基因方法突變、修飾、組裝獲得的保持或增強DNA、或DNA-RNA雜合鏈結合能力的TALE衍生蛋白。本文所用的術語“Hax3”是指TALE蛋白家族的成員之一。Hax的全稱為“HomologofavrBs3inXanthomonas”,而Hax3是從野油菜黃單胞菌變種Armoraciae(Xanthomonascampestrispv.Armoraciae)鑒定出的3個同源蛋白之一。作為TALE蛋白家族的成員之一,它的功能與其他已知的TALE蛋白如avrBs3的功能類似(參見S.Kay,J.Boch,U.Bonas,CharacterizationofAvrBs3-likeeffectorsfromaBrassicaceaepathogenrevealsvirulenceandavirulenceactivitiesandaproteinwithanovelrepeatarchitecture,Molecularplant-microbeinteractions:MPMI,18(2005)838-848.)。本文所用的術語“dHax3”是指人工改造的Hax3(designedHax3),其基因的核苷酸序列為SEQIDNO:1,氨基酸序列可參見SEQIDNO:2(其中插入了6XHis標簽)。M.M.Mahfouz等人設計了dHax3以使其具有特異識別如下DNA序列的能力:TCCCTTTATCTCT(M.M.Mahfouz,L.Li,M.Shamimuzzaman,A.Wibowo,X.Fang,J.K.Zhu,Denovo-engineeredtranscriptionactivator-likeeffector(TALE)hybridnucleasewithnovelDNAbindingspecificitycreatesdouble-strandbreaks,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,108(2011)2623-2628.)。本文所用的術語“dHax3截短體蛋白”(“dHax3-Δ”)是指去除了N端結構域和C端結構域的dHax3截短體蛋白,其為dHax3蛋白序列230-721,具有11.5個重復單元。本文所用的術語“dHax3-NN變體”是指dHax3的一種變體,其中dHax3的DNA結合域的第七個重復單元中的RVD(NS)通過點突變技術變成NN并且第九個重復單元中RVD(HD)通過點突變技術變成NN,以形成對兩個兩個甲基化CpG島的識別,dHax3-NN如下DNA序列:TCCCTTTATCTCT。本文所用的術語“dHax3-NN-Δ”是指dHax3-NN變體的蛋白序列230-721的截短體,即保留DNA結合結構域。由于所有TALE蛋白中的RVD識別DNA堿基的分子機制相同,雖然不同的TALE蛋白存在一定序列差異性,但是涉及實施例中dHax3的RVD——NG——特異性識別胞嘧啶甲基化的能力也同樣適用于其他不同于實施例dHax3序列的其他TALE蛋白,也在本專利的保護范圍之內。實施例中所采用的各種試劑,包括緩沖液、酶、載體、試劑盒等,均可通過商業(yè)途徑購得或者按照《分子克隆實驗指南》第三版(黃培堂,科學出版社,2002)所推薦的方法配制。實施例實施例1:幾種TALE蛋白的構建以及純化1.分子克隆及表達載體構建的實驗方法如下:●PCR擴增目的基因片段50μl標準PCR反應體系組成如下表所示,如有需要可按照比例擴增體系;50μlPCR反應標準體系成功擴增目的片段后,直接使用普通DNA回收試劑盒回收擴增的目的基因片段。注意,如果是點突變的擴增基因片段需要先使用瓊脂糖凝膠電泳去除DNA模板,然后使用瓊脂糖凝膠DNA回收試劑盒回收目的基因?!裣拗菩詢惹忻柑幚頂U增片段和載體使用相同的限制性內切酶處理擴增片段和載體,從而產生相同的DNA粘性末端。50μl雙酶切反應體系成分如下表所示:50μl標準雙酶切反應體系37℃溫浴30~180min,估計反應完全后,進行凝膠電泳,使用瓊脂糖凝膠DNA回收試劑盒切膠回收DNA片段。●DNA連接使用T4DNA連接酶將酶切后的目的基因片段連入載體,16℃或室溫反應30~120min。連接體系如下表所示:10μl標準連接體系●轉化將連接產物按照下述方法轉入DH5α感受態(tài)細胞中,準備篩選陽性克?。涸谶B接產物中加入50~100μlDH5α感受態(tài)細胞,冰上放置30min;42℃熱擊90s;冰上放置2min;將所有產物加到氨芐抗性瓊脂平板上,用涂布棒涂勻,37℃倒置培養(yǎng)14-16小時。●使用菌落PCR法篩選陽性克隆在前一步得到的平板上標記4~8個菌落,使用如下體系檢驗陽性克隆:菌落PCR體系使用凝膠電泳確認結果,挑取陽性克隆,在氨芐抗性LB培養(yǎng)基中37℃、220rpm培養(yǎng)過夜。●質粒提取使用普通質粒小提試劑盒提取質粒,測序由金唯智(genewiz)生物科技有限公司完成。●重組蛋白的誘導表達為了獲得大量純化的蛋白,需要進行過量表達。現(xiàn)有的過量表達體系有大腸桿菌(E.coli)、酵母、昆蟲細胞等。不同的蛋白可能適合在不同的體系中表達。目的蛋白是革蘭氏陰性菌中的一種蛋白,所以選擇大腸桿菌作為表達體系進行蛋白表達純化。純化出性質好,純度高的蛋白質是進行生化實驗及結晶實驗的前提條件。從大腸桿菌中純化重組表達蛋白技術已經相當成熟。為了方便的使用親和層析進行純化,構建了帶有各種標簽的重組蛋白。經過比較,采用帶有組氨酸標簽的重組蛋白進行后續(xù)實驗。6個組氨酸組成的組氨酸標簽可以以配位鍵的形式結合到帶有鎳等金屬原子的柱材上。經過鎳柱親和層析和肝素親和層析純化就可以得到純度大約95%以上的蛋白。具體純化步驟如下:a.將轉有TALeffector表達質粒的BL21(DE3)或者ROSETTA(DE3)接入50ml含有氨芐青霉素或者氨芐青霉素/氯霉素雙抗的LB培養(yǎng)基,并置于37℃搖床培養(yǎng)過夜。b.將5-10ml的小瓶培養(yǎng)液轉接到1L含有抗生素的LB培養(yǎng)基于37℃搖床培養(yǎng)約3小時。當0D600=0.8~1.0時,加入0.2mM終濃度的IPTG22℃誘導表達14~16小時。c.完成誘導的大腸桿菌于4℃4400rpm離心10min,棄上清。每升培養(yǎng)液離心收集的濕菌用20ml裂菌液(25mMTris-HClpH8.0,500mMNaCl)重懸。d.超聲破菌后,14000rpm離心50min,取上清進行后續(xù)純化。e.將上清緩緩加入事先用裂菌液(25mMTris-HClpH8.0,500mMNaCl)平衡好的鎳柱中。將穿過液重復上述操作1~2次。f.加入清洗緩沖液I(25mMTris-HClpH8.0,1000mMNaCl)10ml,除去部分雜質。重復上述操作3次。g.加入清洗緩沖液II(25mMTris-HClpH8.0;100mMNaCl;10mMImidazole)10ml,進一步除去雜蛋白。h.加入洗脫緩沖液(25mMTris-HClpH8.0,50mMNaCl,300mMImidazole)10ml,將目的蛋白從鎳柱上洗脫。用考馬斯亮藍G-250檢測是否洗脫干凈,如洗脫不完全,重復上述操作。i.將洗脫下來的蛋白緩緩加入事先已用緩沖液(25mMTris-HClPH8.0,50mMNaCl)平衡好的肝素柱(heparinsepharose6FastFlow)。將穿過液重復上述操作1~2次。j.加入清洗緩沖液I(25mMTris-HClpH8.0,100mMNaCl)10ml,除去雜質。重復上述操作3次。k.加入洗脫緩沖液(25mMTris-HClpH8.0,1000mMNaCl,10mMDTT)10ml,將目的蛋白從肝素柱上洗脫。用考馬斯亮藍G-250檢測是否洗脫干凈。如洗脫不完全,重復上述操作。使用SDS-PAGE鑒定蛋白純度。1.經過上述兩步親和層析純化得到的蛋白,使用超濾濃縮管濃縮到~10mg/ml。最后使用分子篩(Superdax200)進一步純化蛋白并檢測蛋白性質,分子篩所使用的緩沖液為25mMTris-HClpH8.0,150mMNaCl,10mMDTT。使用脫鹽柱(Hiprep26/10)將dHax3(231~720)蛋白所在緩沖液置換為25mMMESpH6.0,50mMNaCl,5mMMgCl2,10mMDTT。2.dHax3及dHax3-Δ的構建與表達dHax3(designedHax3)基因通過全基因合成得到,序列如下(SEQIDNO:1):ATGGACCCAATACGAAGCAGAACGCCATCACCAGCTAGGGAACTTCTCTCTGGACCACAGCCTGATGGAGTTCAGCCAACTGCAGATCGAGGTGTTTCTCCGCCAGCCGGTGGCCCTTTAGATGGTCTCCCAGCAAGAAGAACAATGTCCCGTACCAGACTCCCAAGTCCCCCTGCCCCGTCGCCAGCCTTTTCAGCTGACTCCTTCTCTGATCTTCTTAGGCAATTTGACCCTTCTCTTTTCAATACATCCCTTTTCGATTCACTTCCTCCTTTCGGCGCACATCATACTGAGGCAGCCACCGGCGAATGGGACGAAGTCCAAAGTGGTTTAAGGGCAGCTGATGCTCCACCACCGACGATGAGAGTCGCTGTTACCGCCGCACGTCCTCCTAGAGCCAAGCCAGCCCCTAGAAGACGAGCTGCGCAACCCTCCGATGCAAGCCCTGCAGCTCAAGTAGACCTTCGAACACTAGGTTACTCCCAGCAACAACAAGAAAAAATAAAGCCAAAGGTTAGATCTACAGTTGCACAACATCACGAAGCCCTAGTCGGACACGGATTTACACATGCTCATATCGTGGCTCTTTCACAACATCCTGCAGCTCTTGGAACAGTCGCTGTCAAATATCAGGATATGATTGCTGCATTGCCAGAAGCTACTCACGAAGCTATCGTCGGAGTTGGGAAACAATGGTCAGGCGCAAGAGCATTAGAGGCGCTTCTCACCGTAGCTGGTGAATTACGAGGTCCTCCACTCCAATTGGATACTGGGCAATTATTAAAAATCGCTAAACGAGGTGGAGTCACTGCTGTCGAAGCCGTTCATGCATGGCGTAACGCTCTCACGGGCGCACCACTAAACCTTACTCCTGAACAGGTTGTCGCAATAGCTTCACATGATGGCGGAAAACAAGCTCTTGAAACAGTGCAACGTCTCCTTCCCGTCCTCTGTCAGGCTCACGGATTGACTCCTCAGCAGGTCGTCGCAATTGCATCACATGATGGAGGCAAACAAGCTTTAGAAACAGTACAAAGACTATTGCCCGTTCTTTGCCAAGCGCATGGGTTAACTCCCGAACAAGTCGTTGCCATTGCAAGTCACGACGGAGGTAAACAAGCTCTCGAAACGGTTCAAGCACTTTTACCCGTTCTCTGTCAAGCACATGGACTCACACCTGAACAAGTAGTTGCTATCGCATCGAATGGAGGTGGAAAACAAGCACTGGAAACTGTACAAAGACTTTTGCCAGTTTTATGTCAAGCGCACGGTCTTACTCCTCAACAAGTTGTCGCCATTGCCTCTAACGGTGGTGGAAAACAAGCTCTTGAAACTGTCCAGAGACTTCTGCCCGTTCTATGTCAGGCTCATGGGCTAACCCCTCAACAGGTTGTTGCAATCGCATCTAATGGAGGAGGAAAACAAGCTTTAGAAACTGTCCAACGACTACTGCCCGTTCTCTGCCAAGCACACGGACTTACCCCACAACAAGTTGTGGCAATAGCTTCTAATTCTGGTGGTAAACAAGCCCTTGAGACGGTTCAAAGACTTCTACCAGTTCTTTGTCAGGCACATGGATTGACCCCACAACAGGTCGTAGCAATCGCATCTAATGGAGGTGGTAAGCAAGCTCTAGAAACGGTACAAAGATTACTTCCCGTGCTTTGTCAAGCTCATGGACTCACTCCTCAACAAGTGGTCGCTATTGCAAGTCATGATGGTGGAAAGCAAGCACTAGAAACCGTCCAACGACTCCTTCCTGTTCTCTGTCAAGCACATGGTCTTACGCCCGAACAAGTTGTTGCTATAGCTTCGAACGGAGGTGGAAAACAAGCTCTCGAAACCGTCCAAAGGCTCCTCCCAGTACTTTGCCAAGCACATGGATTAACCCCTGAGCAAGTAGTTGCAATTGCCTCGCACGACGGAGGAAAGCAAGCATTAGAAACTGTTCAGAGACTTTTGCCTGTCCTGTGTCAAGCCCACGGTCTAACACCACAACAAGTCGTCGCAATCGCTAGTAATGGAGGAGGTAGACCTGCATTGGAGTCGATAGTCGCACAACTATCACGACCTGATCCCGCTCTTGCAGCATTGACAAACGATCATTTAGTCGCACTTGCATGTTTAGGAGGACGACCAGCACTTGATGCCGTTAAGAAAGGACTACCGCACGCCCCTGCATTGATTAAAAGAACAAACAGACGAATCCCGGAGAGAACTTCACATCGTGTAGCCGATCATGCTCAAGTCGTAAGAGTTTTGGGTTTCTTCCAATGTCATTCCCACCCAGCTCAAGCTTTTGACGATGCAATGACTCAATTTGGAATGAGTAGACATGGACTCCTGCAATTATTTCGAAGGGTCGGAGTTACAGAGCTCGAAGCCAGGTCAGGAACGCTGCCCCCCGCATCTCAACGATGGGATAGAATTCTCCAAGCCTCTGGAATGAAAAGAGCTAAACCTTCACCAACGTCCACACAAACACCAGACCAAGCTTCTCTCCACGCTTTTGCCGACTCACTAGAGAGAGATCTAGATGCACCGTCACCTATGCATGAAGGAGACCAAACAAGAGCCTCTTCAAGAAAACGTTCTCGTTCTGATAGAGCTGTCACTGGACCTTCCGCCCAACAATCTTTCGAAGTCCGAGTTCCTGAGCAACGAGATGCCCTACACCTGCCTTTGCTTTCTTGGGGAGTTAAGCGACCACGTACTAGAATTGGTGGACTACTCGATCCAGGTACACCAATGGATGCTGATCTCGTTGCTTCCTCTACCGTAGTATGGGAGCAAGACGCAGACCCCTTCGCTGGAACTGCTGACGATTTCCCAGCCTTTAACGAGGAAGAATTGGCTTGGTTAATGGAACTTCTACCGCAATGA合成的基因直接被連入pET300(invitrogen)質粒。表達出來的全長蛋白,N端有6個組氨酸標簽,用于蛋白純化時通過鎳柱的親和純化。全長蛋白序列如下(SEQIDNO:2):MHHHHHHITSLYKKAGLMDPIRSRTPSPARELLSGPQPDGVQPTADRGVSPPAGGPLDGLPARRTMSRTRLPSPPAPSPAFSADSFSDLLRQFDPSLFNTSLFDSLPPFGAHHTEAATGEWDEVQSGLRAADAPPPTMRVAVTAARPPRAKPAPRRRAAQPSDASPAAQVDLRTLGYSQQQQEKIKPKVRSTVAQHHEALVGHGFTHAHIVALSQHPAALGTVAVKYQDMIAALPEATHEAIVGVGKQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNSGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKGLPHAPALIKRTNRRIPERTSHRVADHAQVVRVLGFFQCHSHPAQAFDDAMTQFGMSRHGLLQLFRRVGVTELEARSGTLPPASQRWDRILQASGMKRAKPSPTSTQTPDQASLHAFADSLERDLDAPSPMHEGDQTRASSRKRSRSDRAVTGPSAQQSFEVRVPEQRDALHLPLLSWGVKRPRTRIGGLLDPGTPMDADLVASSTVVWEQDADPFAGTADDFPAFNEEELAWLMELLPQdHax3全長蛋白的純化圖如圖5所示(利用6×組氨酸標簽經由鎳柱親和層析純化,SDS-PAGE電泳后經考馬斯亮藍顯色)。通過蛋白質二級結構預測,發(fā)明人發(fā)現(xiàn)蛋白質的N端和C端都有一大段沒有二級結構區(qū)域。這些區(qū)域不適合蛋白質結晶,發(fā)明人于是設計了截短體蛋白(dHax3截短體,標記為dHax3-Δ),包含蛋白序列230-721)來獲得性質更加穩(wěn)定的蛋白質。dHax3截短體被克隆到pET21(Novagen)表達載體中。表達出來的dHax3截短體蛋白序列如下,其中C端含有His6標簽,用于蛋白純化時通過鎳柱的親和純化(SEQIDNO:3):MQWSGARALEALLTVAGELRGPPLQLDTGQLLKIAKRGGVTAVEAVHAWRNALTGAPLNLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQALLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNSGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPQQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPEQVVAIASNGGGKQALETVQRLLPVLCQAHGLTPEQVVAIASHDGGKQALETVQRLLPVLCQAHGLTPQQVVAIASNGGGRPALESIVAQLSRPDPALAALTNDHLVALACLGGRPALDAVKKLEHHHHHHdHax3截短體蛋白的純化圖如圖6所示(利用Histidine6標簽經由鎳柱親和層析純化,SDS-PAGE電泳后經考馬斯亮藍顯色)。3.dHax3-NN-Δ的構建與表達發(fā)明人還構建并表達了dHax3-NN-Δ蛋白用于與含有CpG島的DNA序列的共結晶實驗。表2顯示了實驗中涉及的TALE重復單元的RVD與其識別的DNA對應關系:實施例2:獲得dHax3晶體結構以及dHax3-Δ與雙鏈DNA的復合物晶體結構●單雙鏈DNA的獲得為了檢驗dHax3與單雙鏈DNA的結合能力,以及獲得蛋白質與dsDNA復合物的晶體,發(fā)明人通過化學合成的方法得到單鏈DNA(17nt):(Invitrogen&Takara)5’TGTCCCTTTATCTCTCT3’(SEQIDNO:4)3’ACAGGGAAATAGAGAGA5’(SEQIDNO:5)將合成得到的單鏈DNA溶解至1mM,等摩爾比將兩條單鏈DNA混合,85℃溫浴3min以上,緩慢降溫到22℃,此過程不得少于3個小時。為了長期保存退火的雙鏈DNA可以進行凍干超低溫保存?!駨秃衔锝Y晶的獲得將純化好的dHax3截短體蛋白(全長序列中的231-721)調整蛋白濃度在6~7mg/ml,加入摩爾比1.5∶1的退火后的雙鏈DNA,4℃孵育30min.前期的結晶條件篩選主要是基于商業(yè)化的ScreenKit,包括:Hampton公司的SaltRX,Natrix,PEG/Ion,CrystalScreen,Index;Emerald公司的WizardI,II,III;Moleculardimension的ProPlex。從上述Kit中篩選出蛋白結晶的條件,通過調節(jié)沉淀劑濃度,種類;鹽離子的濃度和種類;緩沖液的濃度和種類優(yōu)化結晶條件。使用AddtiveScreen和DetergentScreenKit對晶體進行優(yōu)化。同時對晶體進行脫水,退火等嘗試,以提高晶體的衍射質量。使用蛋白質結晶沒有規(guī)律可循,所以到目前為止仍然還是一門藝術。起始階段常用Sparsematrixscreen,即購買各公司配置的結晶條件進行篩選。大多數(shù)情況下,初篩得到的結晶條件中并不能長出衍射質量高的晶體,在接下來的實驗中,發(fā)明人又進一步對初始結晶條件的基礎上進一步細化,包括調整沉淀劑、pH緩沖液、鹽、添加還原劑、去垢劑或醇;調整結晶實驗的溫度,時間等。最后采用的結晶條件為將如下結晶母液與孵育好的蛋白核酸復合物通過1∶1的體積比混合,通過懸滴法(hangingdropvapordiffusionmethod)在18℃培養(yǎng)兩天,即可獲得晶體。結晶母液:8-10%PEG3350(w/v),12%ethanol,0.1MMESpH6.0?!駭?shù)據(jù)收集及處理使用上海同步輻射中心(SSRF)BL17U線束站或者日本SPRING-8BL41XU線束站進行數(shù)據(jù)收集。所有收集的衍射數(shù)據(jù)用HKL2000軟件進行積分計算,進一步的數(shù)據(jù)處理通過CCP4軟件實現(xiàn)。使用不結合DNA的dHax3作為置換的模式,通過分子置換的方法,解析dHax3與DNA復合物的結構。最后使用Phenix和COOT兩個軟件完成對結構的修正處理。數(shù)據(jù)處理和結構解析、修正完成之后,dHax3蛋白的結構分辨率達到dHax3蛋白與dsDNA=復合物結構達到數(shù)據(jù)收集和結構修正的統(tǒng)計數(shù)據(jù),見下表:表3dHax3晶體結構以及dHax3-Δ與雙鏈DNA的復合物晶體結構的數(shù)據(jù)收集和結構修正的統(tǒng)計數(shù)據(jù)發(fā)明人解析了dHax3-Δ與雙鏈DNA(dsDNA)的高分辨率晶體結構(1.8埃)。該結構清晰地展示了dHax3展現(xiàn)右手螺旋結構,將dsDNA包裹于整個復合體的中間。蛋白質纏繞在DNA外面,嵌入DNA的大溝(見圖1)。結構顯示位于每個重復序列中第12位氨基酸(組氨酸/天冬酰胺)并不直接與DNA直接相互作用,相反它們都會與自身所在的重復序列的第8個氨基酸(丙氨酸)的主鏈氧原子形成一個氫鍵,從而起到固定整個RVD所在環(huán)的作用。每個重復序列中的第13位氨基酸,如果是絲氨酸/天冬氨酸,那么它們與DNA中的堿基形成氫鍵直接相互作用;如果是甘氨酸,那么它與胸腺嘧啶的甲基之間形成范德華力相互作用(見圖2)。實施例3.獲得dHax3-Δ與dHax3-5mC的復合物晶體結構以及dHax3-NN-Δ與dHax3-CpG的復合物晶體結構如圖3所示,胸腺嘧啶(T)與5-甲基胞嘧啶(5mC)表示5-甲基胞嘧啶都在第五位有甲基,而此甲基是與NG識別唯一的基團,因此,NG可能識別5mC。據(jù)此,發(fā)明人設計了DNA序列dHax-5mC(圖4a)5’TCCT5mCTA5mCCTC5mC3’(SEQIDNO:6)3’AGGAGATGGAGG5’(SEQIDNO:7)為了研究dHax3-NN變體CpG島的識別能力,對發(fā)明人設計了DNA序列dHax3-CpG5’TGTCCCTT(mC)G(mC)GTCTCT3’(SEQIDNO:8)3′ACAGGGAAGCGCAGAGA5′(SEQIDNO:9)采用實施例2中所述的方法,發(fā)明人獲得并解析了兩種復合物晶體結構,數(shù)據(jù)收集和結構修正的統(tǒng)計數(shù)據(jù)如表4所示。表4dHax3-Δ與dHax3-5mC的復合物晶體結構以及dHax3-NN-Δ與dHax3-CpG的復合物晶體結構的數(shù)據(jù)收集和結構修正的統(tǒng)計數(shù)據(jù)發(fā)明人解析了dHax3蛋白與含有3個5mC的DNA的復合物結構,分辨率高達1.85埃。高分辨率的結構清晰地揭示了dHax3蛋白識別mC的分子機理(圖4c)。圖8顯示了dHax3-NN變體的DNA結合結構域與含有兩個甲基化CpG島DNA的晶體結構示意圖,其證實了dHax3-NN-Δ結合含有兩個甲基化CpG島DNA。在哺乳動物細胞中,DNA甲基化只發(fā)生在CpG島中的C上。申請人解析了TALE與含有兩個CpG島的DNA序列的晶體結構示意圖,進一步證明TALE對于甲基化修飾的DNA具有特異的識別能力。這對于TALE應用的拓展具有十分重要的意義。實施例4.凝膠阻滯實驗驗證dHax3與具有5-甲基胞嘧啶(5mC)的DNA雙鏈的結合能力●EMSA(electrophoreticmobilityshiftassay,電泳遷移率變動分析,又稱凝膠阻滯實驗)凝膠阻滯實驗是一種體外研究DNA/RNA與蛋白質相互作用的特殊的凝膠電泳技術。其基本原理為:在凝膠電泳中,由于電場的作用,小分子的核酸片段比其結合了蛋白質的核酸片段向陽極移動的速度快。因此,可標記短的核酸片段,將其與蛋白質混合,對混合物進行凝膠電泳,若目的DNA與特異性蛋白質結合,其移動的速度受到阻滯,對凝膠進行放射自顯影,就可以找到核酸結合蛋白。同時通過統(tǒng)計結合蛋白的DNA和未結合蛋白的DNA的量,可以比較準確的擬合計算出,蛋白質對核酸的結合能力(bindingaffinity)?!馜NA/DNAoligo用于凝膠阻滯實驗的DNA/DNAoligo的片段,如下表5所示:表5用于凝膠阻滯實驗的DNA/DNAoligo的片段序列1表示甲基化胞嘧啶識別序列突出顯示。●DNA/RNA末端標記按照上表設置好反應體系后,輕輕混勻,置于37℃孵育30min;使用G25預裝脫鹽層析柱出去多余的[γ-32p]-ATP,加入過量的未標記的互補鏈,退火生成雙鏈DNA或者DNA-RNA雜合雙鏈?!馜NA/RNA和蛋白相互作用體系將反應成分按上述比例加入反應體系中,混勻后4℃孵育20min;將反應好的樣品跑6%非變性膠;跑完膠用干膠儀將膠干透,放在磷屏上曝光過夜;用Typhoon9400variblescanner讀取圖像數(shù)據(jù)。通過EMSA檢測了dHax3蛋白與具有5-甲基胞嘧啶(5mC)的DNA的相互作用。結合能力沒有明顯減弱(詳見圖4b)。圖7顯示dHax3中的一種RVD——NG——不能結合沒有甲基化修飾的胞嘧啶;而dHax3中的一種RVD——HD——對于胞嘧啶(C)是特異性的識別,并且胞嘧啶的甲基化修飾會影響HD與胞嘧啶的識別。盡管在本文中參考示例性的實施方案詳細描述了本發(fā)明,但是應當理解的是,本發(fā)明不限于所述實施方案。具有本領域普通技能且可獲取本文教導的人員會認識到在本發(fā)明范圍內的其它變化、修改和實施方案。因此,本發(fā)明應與后面所述的權利要求一致地被廣義地解釋。