專利名稱:基因標(biāo)記的獲取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基因標(biāo)記的獲取方法以及基因標(biāo)記的分析方法。
背景技術(shù):
通過(guò)比較各種細(xì)胞的基因表達(dá)狀態(tài)可以賦予細(xì)胞特征。即,能夠得到通過(guò)基因的表達(dá)模式表現(xiàn)細(xì)胞狀態(tài)的細(xì)胞目錄。利用該目錄,能夠從基因的表達(dá)狀態(tài)特定細(xì)胞。相反,如果在細(xì)胞間比較基因的表達(dá)模式則還能夠找出各細(xì)胞中的特征基因。例如,如果在正常細(xì)胞和施加了人為處理的細(xì)胞之間比較基因的表達(dá)狀態(tài),則可以發(fā)現(xiàn)施加了人為處理時(shí)表達(dá)水平發(fā)生變化的基因。該基因是作為人為處理結(jié)果的表達(dá)水平發(fā)生了變化的基因。同樣,通過(guò)在患者的細(xì)胞和健康者的細(xì)胞之間比較基因的表達(dá)狀態(tài),則也能夠發(fā)現(xiàn)與疾病相關(guān)的基因。
把這樣通過(guò)比較基因的表達(dá)狀態(tài),網(wǎng)羅式地分析在處于某種狀態(tài)的細(xì)胞中表達(dá)的基因,并在細(xì)胞間比較其種類和表達(dá)水平的過(guò)程稱為基因的表達(dá)分析(expression analysis)。用于基因表達(dá)分析的方法可以使用各種方法。
例如,以下所示的方法是為了分離在cDNA文庫(kù)間表達(dá)水平有所變化的基因而開(kāi)發(fā)的方法。
差異顯示法(differencial display)消減文庫(kù)法(subtraction library)這些方法是很早以前就已經(jīng)實(shí)用化的方法。任何一個(gè)都是用來(lái)在來(lái)源不同的cDNA文庫(kù)間發(fā)現(xiàn)表達(dá)水平有所不同的基因的分析方法。在膨大的基因堿基序列信息得到積累的這幾年,利用了該堿基序列信息的更有效的基因表達(dá)分析得以實(shí)現(xiàn)。即DNA陣列法。在DNA陣列中高密度地配置有多達(dá)數(shù)萬(wàn)個(gè)的基因探針。通過(guò)使用1個(gè)DNA陣列,通過(guò)一次的實(shí)驗(yàn)操作即可了解數(shù)萬(wàn)個(gè)基因的表達(dá)狀態(tài)。人的基因種類推測(cè)有3萬(wàn)~4萬(wàn),因此DNA陣列作為強(qiáng)力推進(jìn)人的基因表達(dá)分析的工具正在廣泛普及。并且,DNA陣列被評(píng)價(jià)為在治療目標(biāo)的探索、藥劑候選化合物的開(kāi)發(fā)中是有用的(Nature Genetics volume 32 supplement pp 547-552,2002)。
但是,通常構(gòu)成DNA陣列的探針是根據(jù)已知的堿基序列信息設(shè)計(jì)的。因此,是不適于獲取未知基因的工具。并且,目前商業(yè)上所提供的DNA陣列限于基因序列信息充分積累的生物物種。例如,Affymetrics公司提供下述生物物種的DNA陣列。
擬南芥(Arabidopsis ATH1 Genome Array)線蟲(chóng)(C.elegans Genome Array)果蠅(Drosophila Genome Array)大腸桿菌(E.coli Antisense Genome Array)人(Human Genome Focus Array、其它)小鼠(Mouse Expression Set 430、其它)綠膿桿菌(P.aeruginosa Genome Array)大鼠(Rat Expression Set 230、其它)酵母(Yeast Genome S98 Array)為了利用DNA陣列進(jìn)行其它生物物種的基因表達(dá)分析,使用者必須利用測(cè)位儀等制作DNA陣列。或者必須利用定做陣列的制作服務(wù)。然而,對(duì)于基因序列表的積累不充分的生物物種,準(zhǔn)備以基因序列信息為基礎(chǔ)的DNA陣列還是困難的。
作為能夠獲得未知的基因、而且能夠進(jìn)行高度有效的基因表達(dá)分析的方法,提出了SAGE(基因表達(dá)的連續(xù)分析,Serial analysis of geneexpression)(SCIENCE,Vol.270,484-487,Oct.20,1995)。SAGE是獲取基因中固有的標(biāo)記并網(wǎng)羅式地分析標(biāo)記的堿基序列的方法。所謂的基因標(biāo)記是指可作為該基因的名片使用的基因的片斷。通常,10~20個(gè)堿基左右的連續(xù)堿基序列在不同基因之間完全一致的可能性不是那么高。例如由9個(gè)堿基構(gòu)成的片斷,理論上可以識(shí)別262144種類(49)的基因。因此,該程度長(zhǎng)度的片斷作為基因標(biāo)記是有用的。
在人基因組序列中,由18~21個(gè)堿基構(gòu)成的標(biāo)記序列的出現(xiàn)頻率和該標(biāo)記序列為基因中固有堿基序列的可能性如下計(jì)算。
18每268,435,456個(gè)堿基出現(xiàn)1次,89.43%19每1,073,741,824個(gè)堿基出現(xiàn)1次,97.24%20每4,294,967,296個(gè)堿基出現(xiàn)1次,99.3%21每17,179,869,184個(gè)堿基出現(xiàn)1次,99.83%即,理論上可以認(rèn)為18個(gè)堿基的標(biāo)記序列中以約90%或以上、20個(gè)堿基的標(biāo)記序列中以約99%或以上的概率是基因中固有的堿基序列。某基因中固有的堿基序列被稱為基因中獨(dú)特的堿基序列。另外,在基因組中其出現(xiàn)頻率被認(rèn)為是1的堿基序列被稱為基因組中的獨(dú)特的堿基序列。
在SAGE中,利用IIs型限制性酶(IIs型核酸內(nèi)切酶)的作用,生成基因標(biāo)記。在SAGE中生成標(biāo)記的IIs型限制性酶被稱為標(biāo)記酶。II型的限制性酶切割DNA識(shí)別序列的中部,與此相對(duì),IIs型限制性酶切割遠(yuǎn)離識(shí)別序列的位置。識(shí)別序列和切割位置之間的距離根據(jù)酶不同,基本是一定的。例如,Bsm FI或FokI在距離識(shí)別序列9~10個(gè)堿基的位置處切割DNA,殘留粘性末端(sticky end)。作為其它也具有同樣作用的IIs型限制性酶,已知有如下的酶(Szybalski,Gene 40169,1985)。
BbvI,BbvII,BinI,F(xiàn)okI,HgaI,HphIMboII,MnlI,SfaNI,TaqII,TthlllII另外,被稱為Mme I的IIs型限制性酶將距離識(shí)別序列(5’-TCCRAC-3’)20個(gè)堿基的位置切割(Tucholski et al,Gene Vol.157,pp.87-92,1995)。將Mme I作為標(biāo)記酶進(jìn)行利用,能夠得到20個(gè)堿基長(zhǎng)的標(biāo)記的表達(dá)分析方法也是公知的(美國(guó)專利6498013)。利用Mme I的SAGE特別也被稱為long SAGE。以下簡(jiǎn)單地歸納一般的SAGE的原理。
首先使用II型限制性酶切割cDNA并回收其片斷。II型限制性酶的識(shí)別序列為4個(gè)堿基時(shí),理論上被切割成256個(gè)堿基(44)的片斷。例如,Nla III的識(shí)別序列為4個(gè)堿基。將cDNA的5’末端或者3’末端先捕獲在固相中,就能夠容易地分別回收被切割的cDNA的5’端或者3’端的片斷?;厥盏腸DNA分為2個(gè)反應(yīng)體系,對(duì)各反應(yīng)體系分別進(jìn)行以下的操作。
在回收的cDNA切割位置上,連接物(adapter)被連接。連接物的末端配置有PCR擴(kuò)增用的引物堿基序列、中間配置有錨定酶的識(shí)別序列、在與cDNA連接的末端配置有IIs型限制性酶(標(biāo)記酶)的識(shí)別序列。在分為2個(gè)不同庫(kù)的cDNA中,含有不同堿基序列的引物的堿基序列的連接物分別與其連接。連接物連接后使IIs型的限制性酶發(fā)揮作用,IIs型限制性酶識(shí)別cDNA的末端,并切割遠(yuǎn)離此處的位置。這樣就生成了從被II型限制性酶切割的部分到被IIs型限制性酶切割的部分的片斷所構(gòu)成的標(biāo)記。所生成的標(biāo)記具有被連接的連接物。
通過(guò)IIs型限制性酶的切割而形成的標(biāo)記的粘性末端(sticky end)通過(guò)T4DNA聚合酶變成平滑末端。其后,分為上述2個(gè)反應(yīng)體系的標(biāo)記分別在平滑末端被連接。其結(jié)果是將不同引物序列配置在末端,2個(gè)標(biāo)記相向連接。2個(gè)標(biāo)記被連接的產(chǎn)物稱為雙標(biāo)記。雙標(biāo)記通過(guò)PCR被擴(kuò)增,被錨定酶切割。其結(jié)果是從PCR的擴(kuò)增產(chǎn)物中除去其兩端的引物序列。另外,除去了引物序列的雙標(biāo)記成為相互連接的雙標(biāo)記的連環(huán)體(concatemer)。如此得到的連環(huán)體被插入在測(cè)序載體中。
如果分析連環(huán)體的堿基序列,則能夠同時(shí)了解來(lái)自于多個(gè)基因的基因標(biāo)記的堿基序列。如果積累從某個(gè)cDNA文庫(kù)中得到的連環(huán)體的堿基序列信息,則在理論上就可得到構(gòu)成該文庫(kù)的cDNA的全部基因的標(biāo)記信息。將如此得到的標(biāo)記信息在細(xì)胞間進(jìn)行比較,能夠容易地進(jìn)行表達(dá)分析。
在利用DNA陣列進(jìn)行的表達(dá)分析中,堿基序列信息的積累是不可缺少的。因此,目前商業(yè)上可獲得的DNA陣列限定于人、小鼠或酵母等一部分生物物種。即,對(duì)于其它多數(shù)生物物種而言,為了進(jìn)行使用DNA陣列的基因表達(dá)分析,必須重新制作DNA陣列。另外,DNA陣列將根據(jù)已知堿基序列信息合成的探針或者克隆的cDNA作為探針使用。其結(jié)果是通常來(lái)說(shuō)發(fā)現(xiàn)未知的基因是困難的。與此相對(duì),SAGE方法中,基因的堿基序列信息的積累不充分并不會(huì)成為分析的障礙。并且,可以說(shuō)不需要探針的SAGE是對(duì)于未知基因的分離有用的技術(shù)。
但是,在目前實(shí)用化的SAGE規(guī)程中,利用限制性酶切割cDNA,在所得切割位置連接含有IIs型限制性酶識(shí)別序列的接頭。因此,在用于SAGE的限制性酶中,要求識(shí)別序列短。在識(shí)別序列長(zhǎng)的限制性酶(rare cutter)中,未切割的cDNA變多。就已知的SAGE而言,不能被限制性酶切割的cDNA不生成標(biāo)記。
例如,作為識(shí)別4個(gè)堿基的限制性酶的NlaIII等限制性酶優(yōu)選用于SAGE中。理論上,如果cDNA具有44(=256)或以上的長(zhǎng)度,則可以說(shuō)其含有至少一個(gè)NlaIII的識(shí)別序列。確切地說(shuō),256個(gè)堿基或以下的轉(zhuǎn)錄產(chǎn)物存在的可能性可能很低。但是,并非構(gòu)成文庫(kù)的所有cDNA通常都含有NlaIII的識(shí)別序列。即,即便是具有256個(gè)堿基或以上長(zhǎng)度的cDNA,也有不生成標(biāo)記的可能性。實(shí)際上,在將線蟲(chóng)的基因作為模型的SAGE評(píng)價(jià)中,報(bào)告有由于不帶有NlaIII識(shí)別序列,因此存在不生成標(biāo)記的基因(Genome Res.2003 Jun.13/6A1203-15)。
另外,經(jīng)過(guò)該工序可獲得的標(biāo)記是與構(gòu)成cDNA的堿基序列中的限制性酶識(shí)別部位鄰接的堿基序列。就未知的基因而言,無(wú)法提前預(yù)測(cè)cDNA中哪里存在限制性酶識(shí)別序列。即。通過(guò)公知的SAGE所獲得的標(biāo)記序列信息并不能預(yù)測(cè)來(lái)自于cDNA的何處。
美國(guó)專利6498013中公開(kāi)了通過(guò)捕獲cDNA的5’端或3’端,可分別得到5’端或3’端的標(biāo)記。但是通過(guò)該工序生成的標(biāo)記由鄰接于位于cDNA的5’端或3’端的限制性酶(NlaIII)的堿基序列構(gòu)成。換而言之,該標(biāo)記在cDNA中所含有的限制性酶識(shí)別位點(diǎn)中,是與位于cDNA的5’端或3’端的限制性酶(NlaIII)鄰接的堿基序列。也就是說(shuō),還不了解是占據(jù)cDNA的堿基序列何處的堿基序列。
就基因表達(dá)分析而言,構(gòu)成標(biāo)記的堿基序列來(lái)自于cDNA中的何處并不是大問(wèn)題。但是,如果能夠明確標(biāo)記的堿基序列是構(gòu)成cDNA哪個(gè)部分的堿基序列,則標(biāo)記的有用性會(huì)進(jìn)一步提高。
非專利文獻(xiàn)1Nature Genetics volume 32 supplement pp 547-552,2002非專利文獻(xiàn)2SCIENCE,Vol.270,484-487,Oct.20,1995非專利文獻(xiàn)3Szybalski,Gene 40169,1985非專利文獻(xiàn)4Tucholski et al,Gene Vol.157,pp.87-92,1995非專利文獻(xiàn)5Genome Res.2003 Jun.13/6A1203-15專利文獻(xiàn)1美國(guó)專利649801
發(fā)明內(nèi)容本發(fā)明的目的在于提供以新型原理為基礎(chǔ)的基因標(biāo)記的獲取方法以及基因標(biāo)記的分析方法。
如前所述,就目前實(shí)用化的SAGE而言,鄰接于限制性酶的識(shí)別序列的堿基序列作為標(biāo)記而生成。這使得難以理解標(biāo)記的堿基序列和cDNA全長(zhǎng)序列的關(guān)系。另外,關(guān)于不含限制性酶識(shí)別序列的cDNA還留有不生成標(biāo)記的問(wèn)題。
本發(fā)明人等認(rèn)為如果能夠不依賴于限制性酶的識(shí)別序列而生成標(biāo)記的話,則能夠解決這些問(wèn)題。例如,如果利用mRNA的5’末端生成標(biāo)記,則標(biāo)記的堿基序列應(yīng)該能夠期待各種有用性。因此,著眼于作為cDNA合成方法所利用的CAP結(jié)構(gòu),嘗試將其用于基因標(biāo)記的獲取中。結(jié)果發(fā)現(xiàn),可將mRNA的5’末端堿基序列信息作為標(biāo)記獲得,從而完成了本發(fā)明。即,本發(fā)明涉及以下的標(biāo)記獲取方法以及利用該方法獲得的標(biāo)記的用途。
一種真核細(xì)胞的基因標(biāo)記的制造方法,其含有以下工序
(1)在RNA的CAP部位上連接含有IIs型限制性酶的識(shí)別序列的RNA接頭的工序、(2)將(1)的RNA作為模板合成cDNA的工序、(3)使識(shí)別RNA接頭中所含識(shí)別序列的IIs型限制性酶作用于(2)的cDNA,從而生成基因標(biāo)記的工序。
[1]中記載的方法,其中通過(guò)以下工序合成cDNA,i)通過(guò)對(duì)RNA的任意區(qū)域退火的引物合成cDNA的第1鏈的工序、和ii)通過(guò)對(duì)以第1鏈的RNA接頭作為模板合成的區(qū)域退火的引物,合成cDNA的第2鏈,從而制成雙鏈cDNA的工序。
[2]中記載的方法,其中,對(duì)以第1鏈的RNA接頭作為模板合成的區(qū)域退火的引物具有可結(jié)合于固相的標(biāo)識(shí)、或者被固定在固相上,另外,所述方法含有通過(guò)回收所述固相來(lái)回收雙鏈cDNA的工序。
[3]中記載的方法,其中在使IIs型限制性酶作用之前或之后將固相回收。
[1]中記載的方法,其中RNA接頭含有II型限制性酶的識(shí)別序列。
[1]中記載的方法,該方法包括使基因標(biāo)記的IIs型限制性酶的切割部位與其它基因標(biāo)記的IIs型限制性酶的切割部位連接,從而生成雙標(biāo)記的工序。
[6]中記載的方法,該方法包括通過(guò)對(duì)RNA接頭退火的引物來(lái)擴(kuò)增雙標(biāo)記的工序。
[1]中記載的方法,該方法包括在基因標(biāo)記的IIs型限制性酶的切割部位上連接具有任意堿基序列的連接物,通過(guò)對(duì)RNA接頭和所述連接物退火的引物來(lái)擴(kuò)增基因標(biāo)記的工序。
一種基因標(biāo)記的連環(huán)體的制造方法,該方法包括連接多個(gè)通過(guò)[1]所記載的方法生成的基因標(biāo)記的工序。
一種基因標(biāo)記的連環(huán)體的制造方法,該方法包括連接多個(gè)通過(guò)[6]所記載的方法生成的雙標(biāo)記的工序。
一種基因標(biāo)記的堿基序列的確定方法,該方法含有確定通過(guò)[9]或[10]中所述的連環(huán)體的堿基序列的工序。
一種基因標(biāo)記的制造用試劑盒,該試劑盒含有以下要素(a)由含有IIs型限制性酶的識(shí)別序列的寡核苷酸構(gòu)成的RNA接頭、(b)用于將RNA接頭連接于RNA的CAP部位的試劑、(c)由對(duì)以RNA接頭為模板合成的cDNA退火的寡核苷酸構(gòu)成的cDNA第2鏈合成用的引物、(d)cDNA第1鏈合成用引物。
[12]中記載的試劑盒,其中cDNA第1鏈合成用引物是選自以下i)~iii)中的任一個(gè)引物,i)隨機(jī)引物、ii)寡dT引物、和iii)含有與特定mRNA互補(bǔ)的堿基序列的引物。
一種真核細(xì)胞中基因表達(dá)譜的獲取方法,該方法含有以下工序(1)通過(guò)[1]所記載的方法制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序、和(3)通過(guò)對(duì)應(yīng)所確定的堿基序列及其出現(xiàn)頻率來(lái)得到表達(dá)譜的工序。
一種基因表達(dá)譜的數(shù)據(jù)庫(kù),其中積累了通過(guò)[14]所述的方法獲得的基因表達(dá)譜信息。
一種基因表達(dá)譜的分析方法,該方法含有通過(guò)[14]所述方法獲得不同種類細(xì)胞的基因表達(dá)譜、比較基因表達(dá)譜、并選擇在細(xì)胞間表達(dá)頻率不同的基因標(biāo)記的工序。
一種基因的轉(zhuǎn)錄起始點(diǎn)的確定方法,該方法含有以下工序(1)通過(guò)[1]所述的方法制造基因標(biāo)記的工序、
(2)確定(1)的基因標(biāo)記的堿基序列的工序、和(3)將所確定的堿基序列定位于基因組的堿基序列上,并將堿基序列一致的區(qū)域作為該基因的轉(zhuǎn)錄起始點(diǎn)來(lái)鑒定的工序。
[17]所記載的方法,其特征在于,用于合成cDNA第一鏈的引物是由從特定基因的堿基序列中選擇的堿基序列構(gòu)成的,并確定該基因的轉(zhuǎn)錄起始點(diǎn)。
一種cDNA合成用引物組,該引物組包含用于合成含有通過(guò)以下工序確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、和對(duì)cDNA的任意部位退火的3’端引物,(1)通過(guò)[1]所述的方法制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序。
[19]所記載的引物組,其中3’端引物是選自下述引物中的任一個(gè),i)寡dT引物、ii)cDNA的片斷序列信息、和iii)由與cDNA的II型限制性酶識(shí)別鄰接的基因標(biāo)記的堿基序列或其互補(bǔ)序列構(gòu)成的引物。
一種全長(zhǎng)cDNA的合成方法,該方法含有以下工序a)使用用于合成含有通過(guò)以下(1)~(2)的工序確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、和由寡dT引物構(gòu)成的3’端引物,以RNA或cDNA為模板進(jìn)行互補(bǔ)鏈合成反應(yīng)的工序、(1)通過(guò)[1]所述的方法制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序;b)將合成的DNA作為全長(zhǎng)cDNA回收的工序。
一種通過(guò)[21]所述的方法能夠得到的全長(zhǎng)cDNA。
一種含有由[22]所述的全長(zhǎng)cDNA編碼的氨基酸序列的多肽。
一種識(shí)別[23]所述的多肽的抗體。
一種將[22]所述的全長(zhǎng)cDNA的編碼區(qū)域以可表達(dá)的方式保持的載體。
一種將[25]所述的載體以可表達(dá)的方式保持的轉(zhuǎn)化體。
一種[23]所述的多肽的制造方法,該方法含有培養(yǎng)[26]所述的轉(zhuǎn)化體,并回收表達(dá)產(chǎn)物的工序。
一種[23]所述的多肽的制造方法,該方法含有以下工序i)將含有功能性地連接于啟動(dòng)子的[22]所述的全長(zhǎng)cDNA的編碼區(qū)域的DNA構(gòu)成物與支持生物體外翻譯的要素相接觸的工序、和ii)回收表達(dá)產(chǎn)物的工序。
一種含有mRNA的5’末端堿基序列的cDNA的合成方法,該方法含有以下工序a)使用用于合成含有通過(guò)以下工序(1)~(2)確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、和由與目標(biāo)mRNA任意區(qū)域互補(bǔ)的堿基序列構(gòu)成的3’端引物,以RNA或cDNA為模板進(jìn)行互補(bǔ)鏈合成反應(yīng)的工序、(1)通過(guò)[1]所述的方法制造基因標(biāo)記的工序、和(2)確定(1)的基因標(biāo)記的堿基序列的工序;b)將合成的DNA作為含有mRNA的5’末端堿基序列的cDNA回收的工序。
一種確定mRNA的5’端堿基序列的方法,該方法含有確定通過(guò)[29]所述的方法回收的cDNA的堿基序列的工序。
本發(fā)明提供將mRNA的5’末端堿基序列作為基因標(biāo)記獲取的方法。mRNA的5’末端是所有真核細(xì)胞的mRNA所具有的結(jié)構(gòu)。因此,無(wú)論是什么mRNA的堿基序列,在原理上可從所有的基因中獲得標(biāo)記。另一方面,以公知的原理為基礎(chǔ)的SAGE將與限制性酶識(shí)別位點(diǎn)鄰接的區(qū)域作為標(biāo)記生成。其結(jié)果是如果構(gòu)成mRNA的堿基序列中不含限制性酶識(shí)別位點(diǎn),則不能獲得該基因的標(biāo)記。因此,在提供能夠獲取所有基因的標(biāo)記的原理方面,本發(fā)明的意義重大。
另外,根據(jù)本發(fā)明的標(biāo)記的方法,有可能也可以從mRNA的片段中獲得基因的標(biāo)記。生物試樣中含有的RNA由于各種原因常常有分解的危險(xiǎn)。因此,cDNA的獲得、或者以所得cDNA為基礎(chǔ)的各種分析結(jié)果很大程度上被mRNA的保存條件所左右。SAGE法在不能完整維持mRNA的結(jié)構(gòu)時(shí),也有不能獲得基因標(biāo)記或者標(biāo)記重現(xiàn)性消失的可能性。
但是根據(jù)本發(fā)明的方法,通過(guò)將mRNA的5’末端作為標(biāo)記獲得,即便mRNA被片斷化,只要維持了5’末端的結(jié)構(gòu),就能正確地獲得標(biāo)記。因此,很難受到mRNA的保存狀態(tài)的影響。該特征提高了基因表達(dá)分析的可靠性。
另外,通過(guò)本發(fā)明可以得到的標(biāo)記的堿基序列由mRNA的5’末端的堿基序列構(gòu)成。其結(jié)果是通過(guò)本發(fā)明得到的標(biāo)記的堿基序列信息可應(yīng)用于各種領(lǐng)域。例如,以下的用途是通過(guò)本發(fā)明的標(biāo)記首次實(shí)現(xiàn)的用途基因組中轉(zhuǎn)錄起始點(diǎn)的鑒定、全長(zhǎng)cDNA的合成用引物的提供、cDNA文庫(kù)的全長(zhǎng)率評(píng)價(jià)。
通過(guò)以已知原理為基礎(chǔ)的SAGE得到的標(biāo)記是mRNA的何處的堿基序列還不清楚。因此,不能用于這種用途。
本發(fā)明涉及含有以下工序的真核細(xì)胞的基因標(biāo)記的制造方法,(1)在RNA的CAP部位連接含有IIs型限制性酶的識(shí)別序列的RNA接頭的工序、(2)將(1)的RNA作為模板合成cDNA的工序、(3)使識(shí)別RNA接頭中所含識(shí)別序列的IIs型限制性酶作用于(2)的cDNA,從而生成由RNA的5’末端序列構(gòu)成的基因標(biāo)記的工序。
CAP結(jié)構(gòu)是存在于真核細(xì)胞或感染真核細(xì)胞的病毒的mRNA的5’末端的結(jié)構(gòu)。具體地說(shuō),7-甲基鳥(niǎo)苷介由5’-5’-3磷酸交聯(lián)而結(jié)合于mRNA的5’末端的核苷酸上,構(gòu)成CAP結(jié)構(gòu)。mRNA由CAP結(jié)構(gòu)保護(hù),避免被5’-3’核酸外切酶的活性所分解。在細(xì)胞內(nèi),完成作用的mRNA的CAP結(jié)構(gòu)由脫帽酶(decapping enzyme)除去。其結(jié)果是失去CAP結(jié)構(gòu)的mRNA被5’-3’核酸外切酶所分解(LaGradeur et al.,EMBO J,171487-1496,1998)。CAP結(jié)構(gòu)在通過(guò)RNA聚合酶II進(jìn)行的轉(zhuǎn)錄反應(yīng)的初期階段加成在RNA的5’末端上。
本發(fā)明的方法包括在該RNA的CAP結(jié)構(gòu)上連接RNA接頭的工序。本發(fā)明中,RNA可以使用來(lái)自于真核細(xì)胞的所有RNA。更具體地說(shuō),可以使用polyA(+)RNA或全部RNA。詳細(xì)言之,可以利用來(lái)自于動(dòng)物、植物、酵母或粘菌等所有在mRNA中具有CAP結(jié)構(gòu)的生物物種的細(xì)胞。
另外,來(lái)自于感染這些真核細(xì)胞的病毒的RNA也具有CAP結(jié)構(gòu)。因此,本發(fā)明中來(lái)自于真核細(xì)胞、感染真核細(xì)胞或轉(zhuǎn)錄了被導(dǎo)入的基因信息的RNA也包含在來(lái)自于真核細(xì)胞的RNA中。所謂感染真核細(xì)胞的基因的信息包括例如病毒、類病毒或者支原體之類的細(xì)胞內(nèi)寄生物的基因信息。這些基因信息可以是天然的,也可以是人工合成的。另一方面,導(dǎo)入在真核細(xì)胞中的基因的信息是指通過(guò)載體等人為導(dǎo)入的基因信息。例如,即便是原本不帶有CAP結(jié)構(gòu)的原核細(xì)胞的基因,通過(guò)以能夠轉(zhuǎn)錄的形式導(dǎo)入至真核細(xì)胞中,也能獲得CAP結(jié)構(gòu)。這樣轉(zhuǎn)錄的RNA也包含在本發(fā)明的來(lái)自于真核細(xì)胞的RNA中。
從這些細(xì)胞中提取RNA用于本發(fā)明的方法中。RNA的提取方法眾所周知。利用市售的RNA提取用試劑盒則很便利。例如,利用RNAeasy(QIAGEN)等市售試劑盒,能夠容易地獲得高純度的RNA。提取RNA時(shí),在必須破壞細(xì)胞時(shí)可以通過(guò)公知的方法進(jìn)行破壞。
本發(fā)明中,連接于CAP結(jié)構(gòu)的RNA接頭由至少含有IIs型限制性酶識(shí)別序列的寡核苷酸構(gòu)成。作為RNA接頭使用的寡核苷酸可以是DNA也可以是RNA。優(yōu)選的RNA接頭為RNA。構(gòu)成RNA接頭的堿基序列可以是含有IIs型限制性酶識(shí)別序列的任意堿基序列。但優(yōu)選IIs型限制性酶的識(shí)別序列配置在RNA接頭的3’末端。
IIs型限制性酶將其識(shí)別序列作為基準(zhǔn),將僅距離一定堿基數(shù)的位置切割。本發(fā)明的目的在于將mRNA的5’末端作為標(biāo)記獲得。因此,優(yōu)選在盡量接近于mRNA的5’末端的位置上配置識(shí)別序列。構(gòu)成RNA接頭的IIs型限制性酶的識(shí)別序列可以按照分析用的IIs型限制性酶進(jìn)行設(shè)計(jì)。例如,已經(jīng)敘述過(guò)MmeI的識(shí)別序列為5’-TCCRAC-3’(R=G或A)。因此,RNA接頭優(yōu)選在其3’末端上配置該堿基序列。另外,IIs型限制性酶的識(shí)別序列按照IIs型限制性酶將其3’端切割的方式進(jìn)行配置。
作為本發(fā)明的RNA接頭有用的堿基序列如下所示。該堿基序列除了具有配置于3’末端的IIs型限制性酶(MmeI)的識(shí)別序列(TCCRAC;大寫(xiě)),還含有作為II型限制性酶的XhoI的識(shí)別序列(cucgag;下劃線)。
5’-oligo 1(序列號(hào)1)5’-uuuggauuugcuggugcaguacaacuaggcuuaauacucgagUCCGAC-3’5’-oligo 2(序列號(hào)2)5’-uuucugcucgaauucaagcuucuaacgauguacgcucgagUCCGAC-3’所加成的XhoI位點(diǎn)可以用于標(biāo)記的連接以及向載體中的插入。并且,構(gòu)成RNA接頭的堿基序列也可作為用于標(biāo)記擴(kuò)增的引物進(jìn)行退火的區(qū)域使用。為了引物退火,用于退火的區(qū)域優(yōu)選至少由15個(gè)堿基、通常由20~50個(gè)堿基、例如由20~30個(gè)堿基構(gòu)成。另外,該構(gòu)成堿基可以按照引物的熔解溫度(Tm)通常為60~80℃、例如為65~75℃左右的方式進(jìn)行設(shè)計(jì)。用于引物退火的堿基序列是任意的。因此,例如可以使用能夠賦予上述Tm的任意堿基序列。
用于引物退火的堿基序列是任意的。而且,構(gòu)成各種限制性酶識(shí)別序列的區(qū)域以及用于使引物退火的區(qū)域也可在RNA接頭中重復(fù)。然而,當(dāng)使相對(duì)于2種RNA接頭不同的引物退火時(shí),通過(guò)按照不重復(fù)的方式進(jìn)行設(shè)計(jì),則可期待退火的特異性提高。
就本發(fā)明而言,RNA接頭連接于RNA的CAP結(jié)構(gòu)上。用于將寡核苷酸連接在CAP結(jié)構(gòu)的方法是任意的。例如寡核苷酸帽法是本發(fā)明中用于RNA接頭結(jié)合的優(yōu)選方法。寡核苷酸帽法是為了合成保持了mRNA的5’端堿基序列的cDNA而開(kāi)發(fā)的方法(Maruyama,K andSugano,S.Gene 138171-174,1994)。寡核苷酸帽法中,利用mRNA的3’末端poly(A)序列和連接于5’末端CAP結(jié)構(gòu)的RNA接頭的堿基序列,實(shí)現(xiàn)了全長(zhǎng)cDNA的獲得。由于5’端的堿基序列不完整的mRNA不保持CAP結(jié)構(gòu),因此RNA接頭不被連接。所以,就寡核苷酸帽法而言,能夠特異性地獲得全長(zhǎng)cDNA。
以下,對(duì)于寡核苷酸帽法的反應(yīng)原理進(jìn)行簡(jiǎn)單說(shuō)明。首先,利用細(xì)菌堿性磷酸酯酶(BAP)處理mRNA,水解不帶CAP結(jié)構(gòu)的RNA的5’末端的磷酸基。在此過(guò)程中,不帶CAP結(jié)構(gòu)的RNA失去了5’末端的磷酸基。即,片斷化的RNA或來(lái)自于線粒體的RNA等的5’末端上突出的磷酸基被除去。接著,使煙酸性焦磷酸酶(TAP)作用。TAP將CAP結(jié)構(gòu)的三磷酸鍵水解。結(jié)果是能夠?qū)哂蠧AP結(jié)構(gòu)特異性地賦予RNA5’末端的磷酸基。
在BAP和TAP處理過(guò)的RNA上連接RNA接頭。RNA接頭的結(jié)合如可利用T4RNA連接酶。利用T4RNA連接酶進(jìn)行的連接需要5’末端的磷酸基。因此,相對(duì)于通過(guò)TAP獲得了5’末端磷酸基的RNA,RNA接頭被特異性地連接。這樣,能夠?qū)NA接頭特異性地結(jié)合在CAP結(jié)構(gòu)上。另外,就處理RNA的反應(yīng)而言,優(yōu)選所有工序在排除了RNase的環(huán)境下進(jìn)行。
在寡核苷酸帽法中報(bào)告了幾個(gè)變異。例如已知有利用CAP結(jié)合蛋白質(zhì)柱來(lái)精制具有CAP結(jié)構(gòu)的RNA的方法(Edery,L.et al.,Mol.CellBiol.153363-3371,1995)。如果利用該方法,則能夠?qū)⒕哂蠧AP結(jié)構(gòu)的RNA捕獲在固相上。如果洗滌固相將不具有CAP結(jié)構(gòu)的RNA除去后用TAP處理,則能夠回收具有CAP結(jié)構(gòu)的RNA。這樣回收的RNA由于在5’末端具有磷酸基,因此可以直接連接RNA接頭。即、利用CAP結(jié)合蛋白質(zhì)的方法不需要BAP處理。
接著,將連接了RNA接頭的RNA作為模板合成cDNA。用于合成cDNA的方法是任意的。以下記載了用于合成cDNA的代表性方法。
通常,cDNA的合成由第1鏈的合成和第2鏈的合成2個(gè)步驟構(gòu)成。第1鏈的合成是將RNA作為模板進(jìn)行利用的逆轉(zhuǎn)錄反應(yīng)。與此相對(duì),第2鏈?zhǔn)峭ㄟ^(guò)將之前合成的第1鏈DNA作為模板的互補(bǔ)鏈合成反應(yīng)而合成。分別已知有通過(guò)引發(fā)反應(yīng)的引物而帶有特征的幾個(gè)反應(yīng)。
本發(fā)明中,cDNA的第1鏈可以通過(guò)對(duì)RNA任意區(qū)域退火的引物合成。將RNA作為模板、利用逆轉(zhuǎn)錄酶活性來(lái)合成DNA的方法是公知的。具體地說(shuō),利用來(lái)自于MMLV的逆轉(zhuǎn)錄酶(Reversetranscriptase;RT)或其變變體等、通過(guò)引物的延長(zhǎng)反應(yīng)合成第1鏈的方法是公知的。作為逆轉(zhuǎn)錄酶的變變體,市場(chǎng)上售有失去逆轉(zhuǎn)錄酶所具有的RNaseH活性的變變體(Superscript II,Gibco BRL)等。另外,如Tth DNA聚合酶那樣,在作為DNA合成酶的同時(shí),還作為催化以RNA為模板的互補(bǔ)鏈合成反應(yīng)的酶也被人們所了解。如果利用這種酶,也能夠用單一的酶合成第1鏈(RNA模板)的第2鏈(DNA模板)。接著,對(duì)于用于合成cDNA的引物進(jìn)行說(shuō)明。
在之前敘述的寡核苷酸帽法中,通常在第1鏈的合成中利用寡dT引物。由于為了合成cDNA的全長(zhǎng),必須從第1鏈的3’末端開(kāi)始合成,因此利用具有與占據(jù)mRNA的3’末端的poly(A)互補(bǔ)的堿基序列的寡dT引物。本發(fā)明中也同樣,通過(guò)利用寡dT引物,能夠?qū)⑷L(zhǎng)cDNA的5’末端作為標(biāo)記序列獲得。
與此相對(duì),就本發(fā)明而言,并非必需RNA的全長(zhǎng)。本發(fā)明中,標(biāo)記可以從含有RNA的5’末端的微小區(qū)域中獲得。因此,如果含有RNA的5’末端的區(qū)域能夠作為cDNA合成的話,則能夠獲得本發(fā)明所必需的cDNA。因此,例如可以利用能夠從RNA任意部分開(kāi)始互補(bǔ)鏈的隨機(jī)引物合成第1鏈。通過(guò)隨機(jī)引物的利用,即便是3’端的堿基序列是不完整的片斷,只要是具有CAP結(jié)構(gòu)的RNA,就可獲得標(biāo)記。從可由更廣范圍的RNA中獲得標(biāo)記的方面看,隨機(jī)引物是在基因表達(dá)分析中特別有用的引物。
而且,在第1鏈的合成中,通過(guò)利用具有與特定基因堿基序列互補(bǔ)的堿基序列的引物,還能夠選擇性地獲得特定基因的標(biāo)記。例如,對(duì)于僅清楚部分堿基序列、而5’端的堿基序列不清楚的基因,也能夠利用本發(fā)明獲得5’末端的標(biāo)記序列。為此,在第1鏈的合成中,從明確的堿基序列中選擇制成引物的堿基序列。該引物將從mRNA的明確區(qū)域至5’末端的區(qū)域作為cDNA的第1鏈生成。由于引物是從特定基因的堿基序列中選擇的,因此不能從目標(biāo)基因以外的RNA生成第1鏈。其結(jié)果也不生成標(biāo)記。
將特定的基因作為對(duì)象、通過(guò)本發(fā)明的方法獲得的基因標(biāo)記,可期待具有例如下述的有用性。首先,能夠以獲得的基因標(biāo)記的堿基序列信息為基礎(chǔ),清楚該基因的轉(zhuǎn)錄起始點(diǎn)。轉(zhuǎn)錄起始點(diǎn)是全長(zhǎng)cDNA的獲得或啟動(dòng)子的研究中重要的信息。例如,對(duì)于5’端堿基序列不清楚的cDNA,利用本發(fā)明的方法,能夠獲得5’端的cDNA?;蛘?,即便是翻譯起始點(diǎn)已被鑒定的基因,也可通過(guò)基因標(biāo)記的信息來(lái)評(píng)價(jià)其5’端非翻譯區(qū)域(5’UTR)是否完整。
而且,在編碼同一氨基酸序列的同時(shí),明確了賦予轉(zhuǎn)錄起始點(diǎn)不同的多個(gè)轉(zhuǎn)錄產(chǎn)物的基因。將某種基因作為對(duì)象、對(duì)于各種mRNA來(lái)源,只要獲得本發(fā)明的基因標(biāo)記,則能夠容易地收集該基因所有轉(zhuǎn)錄產(chǎn)物的轉(zhuǎn)錄起始點(diǎn)的信息。如果獲得多種基因標(biāo)記,則在該基因中有存在轉(zhuǎn)錄起始點(diǎn)不同的多個(gè)轉(zhuǎn)錄產(chǎn)物的可能性。即,本發(fā)明提供含有以下工序的轉(zhuǎn)錄起始點(diǎn)不同的多個(gè)轉(zhuǎn)錄產(chǎn)物的檢測(cè)方法,(1)以本發(fā)明為基礎(chǔ)獲得基因標(biāo)記的工序,其中使用對(duì)要分析的基因特異的引物作為cDNA的第1鏈合成用引物、(2)比較(1)中所得基因標(biāo)記的堿基序列的工序、和(3)多種基因標(biāo)記被檢測(cè)出時(shí),檢測(cè)轉(zhuǎn)錄起始點(diǎn)不同的多個(gè)轉(zhuǎn)錄產(chǎn)物的工序。
利用本發(fā)明中檢測(cè)出的多種基因標(biāo)記和所述基因特異的引物信息,能夠確定各轉(zhuǎn)錄產(chǎn)物的轉(zhuǎn)錄起始點(diǎn)的堿基序列。并且,以本發(fā)明為基礎(chǔ),還可以比較各轉(zhuǎn)錄產(chǎn)物的表達(dá)水平。即,本發(fā)明提供含有以下工序的比較轉(zhuǎn)錄起始點(diǎn)不同的多個(gè)轉(zhuǎn)錄產(chǎn)物的表達(dá)水平的方法,(1)以本發(fā)明為基礎(chǔ)獲得基因標(biāo)記的工序,其中使用對(duì)要分析的基因特異的引物作為cDNA的第1鏈合成用引物、
(2)比較(1)中所得基因標(biāo)記的堿基序列的工序、和(3)以各基因標(biāo)記的出現(xiàn)頻率為基礎(chǔ),作為轉(zhuǎn)錄起始點(diǎn)不同的多個(gè)轉(zhuǎn)錄產(chǎn)物的表達(dá)水平獲得的工序。
除此之外,也可以有意地將具有共同堿基序列的RNA作為cDNA合成。例如,對(duì)于構(gòu)成保存性高的蛋白質(zhì)的功能域的氨基酸序列,將其進(jìn)行編碼,則能夠以預(yù)測(cè)的堿基序列為基礎(chǔ)設(shè)計(jì)第1鏈合成用的引物。使用該引物合成的cDNA是編碼特定功能域的基因的cDNA的可能性很高。其結(jié)果是能夠有意地收集含有特定功能域的基因標(biāo)記。通過(guò)比較如此得到的基因標(biāo)記的表達(dá)水平,能夠比較具有特定功能的基因組的表達(dá)水平。
無(wú)論怎樣,本發(fā)明中所合成的cDNA的第1鏈在其3’末端具有與RNA接頭互補(bǔ)的堿基序列。因此,如果利用能夠?qū)υ搮^(qū)域退火的寡核苷酸,則能夠容易地合成cDNA的第2鏈。在合成第2鏈之前,可以通過(guò)堿水解將作為第1鏈模板的RNA除去。本發(fā)明中,第2鏈至少應(yīng)該按照含有RNA接頭中所含的IIs型限制性酶的識(shí)別序列的方式進(jìn)行合成。為此,例如可以利用能夠在比與配置于RNA接頭3’末端的IIs型限制性酶識(shí)別序列相當(dāng)?shù)膮^(qū)域更靠近3’端處開(kāi)始互補(bǔ)鏈合成的引物?;蛘?,還可以利用含有IIs型限制性酶識(shí)別序列的引物。
將DNA作為模板,通過(guò)引物延長(zhǎng)反應(yīng)合成互補(bǔ)鏈的方法是公知的。即,已知有利用模板依賴性的DNA聚合酶合成互補(bǔ)鏈的方法。作為DNA聚合酶,可以使用T4DNA聚合酶或者Taq聚合酶等。
用于cDNA合成的引物可以含有任意的堿基序列。例如可以利用在其5’末端側(cè)加成有限制性酶識(shí)別序列的引物。目前普遍進(jìn)行的是在引物的5’末端上加成用于賦予克隆位點(diǎn)的堿基序列。
本發(fā)明中,cDNA的第2鏈可以通過(guò)具有可結(jié)合于固相的標(biāo)識(shí)、或者被固定在固相上的引物來(lái)合成。通過(guò)將引物結(jié)合在固相上,能夠?qū)DNA的第2鏈捕獲在固相上。捕獲于固相上的cDNA可以容易地回收。
用于將作為引物使用的寡核苷酸結(jié)合在固相上的方法是任意的。例如,使用交聯(lián)劑使寡核苷酸的5’末端與探針共價(jià)結(jié)合的方法等是公知的(美國(guó)專利5656462)?;蛘撸梢栽跇?gòu)成寡核苷酸的堿基中導(dǎo)入生物素之類的具有結(jié)合親和性的分子。通過(guò)使生物素結(jié)合于固相化了的抗生物素蛋白,寡核苷酸被間接地捕獲于固相上。寡核苷酸中結(jié)合親和性分子的導(dǎo)入位置沒(méi)有限制。
通過(guò)第2鏈的合成而成為雙鏈的cDNA經(jīng)過(guò)IIs型限制性酶處理,生成本發(fā)明的基因標(biāo)記。該階段中,基因標(biāo)記可以在與作為RNA接頭而加成的堿基序列連接的狀態(tài)下進(jìn)行回收。為了基因標(biāo)記的回收,利用第2鏈合成用的引物所結(jié)合的固相。即,將基因標(biāo)記作為結(jié)合了的固相回收。固相可在使IIs型限制性酶作用之后、或者之前進(jìn)行回收。
并且,通過(guò)確定本發(fā)明中基因標(biāo)記的堿基序列,能夠獲得RNA的5’末端的堿基序列信息。確定基因標(biāo)記的堿基序列的方法是任意的。但是,為了有效地確定大量基因標(biāo)記的堿基序列,SAGE的原理是有用的。即,使多個(gè)基因標(biāo)記連接,制成連環(huán)體,將連環(huán)體克隆,能夠一次性地確定多個(gè)標(biāo)記的堿基序列。
可以發(fā)現(xiàn),通過(guò)標(biāo)記生成中使用的IIs型限制性酶的作用,各基因標(biāo)記的長(zhǎng)度是一定的。因此,認(rèn)為連環(huán)體是通過(guò)一定長(zhǎng)度的基因標(biāo)記的堿基序列的重復(fù)所構(gòu)成的。因此,可以從連環(huán)體的堿基序列中獲得各標(biāo)記的堿基序列信息。
作為用于連接標(biāo)記而獲得連環(huán)體的方法可以舉出幾個(gè)變異。以下闡述其例子。首先對(duì)應(yīng)用了普遍已知的SAGE原理的方法進(jìn)行說(shuō)明。在此方法中,首先將2個(gè)基因標(biāo)記相向連接獲得雙標(biāo)記(di-tag)。此時(shí),如果IIs型限制性酶導(dǎo)致的切割部分為粘性末端(sticky end)時(shí),則預(yù)先使其平滑化。為了形成平滑末端,可以使T4 DNA聚合酶發(fā)揮作用。
接著,連接多個(gè)雙標(biāo)記生成連環(huán)體。為了得到雙標(biāo)記,將同一cDNA文庫(kù)分為2庫(kù),對(duì)每組實(shí)施相同操作,由此生成基因標(biāo)記。然后,將來(lái)自于2庫(kù)的基因標(biāo)記之間相互連接,制成雙標(biāo)記。此時(shí),基因標(biāo)記在被IIs型限制性酶切割的切割部分處連接。基因標(biāo)記可通過(guò)T4 DNA連接酶等進(jìn)行酶連接。
在此得到的雙標(biāo)記具有以下結(jié)構(gòu)。
PCR→(固相)-[RNA接頭]-[標(biāo)記](méi)-[標(biāo)記](méi)-[RNA接頭]-(固相)←PCR該階段中,雙標(biāo)記可以通過(guò)PCR等擴(kuò)增方法進(jìn)行擴(kuò)增。如果使得2庫(kù)間RNA接頭的堿基序列不同,則在不同庫(kù)的標(biāo)記間連接的雙標(biāo)記被特異性地?cái)U(kuò)增,因此能夠防止標(biāo)記間的多個(gè)失衡。本發(fā)明中雙標(biāo)記的擴(kuò)增是任意的。
接著連接多個(gè)雙標(biāo)記得到連環(huán)體。為此,例如可預(yù)先在RNA接頭內(nèi)配置限制性酶的識(shí)別序列。利用限制性酶將雙標(biāo)記消化后,如果將限制性酶的切割部位連接,則能夠連接多個(gè)雙標(biāo)記。這樣得到的連環(huán)體的結(jié)構(gòu)可如下所示。
..../[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/....
即,其是將連接2個(gè)標(biāo)記的雙標(biāo)記“[Tag][Tag]”作為1個(gè)單位、且中間夾有限制性酶(錨定酶)導(dǎo)致的切割部位“/”的雙標(biāo)記連續(xù)的結(jié)構(gòu)。
并且,可以在與克隆用載體相同的限制性酶位點(diǎn)上插入連環(huán)體。這樣能夠得到將連環(huán)體作為嵌入段而包含的克隆載體。通過(guò)確定克隆載體的嵌入段的堿基序列,能夠明確其中所含標(biāo)記的堿基序列。另外,連環(huán)體的長(zhǎng)度優(yōu)選為能夠以1次的序列反應(yīng)確定堿基序列的長(zhǎng)度。例如可以舉出小于等于500bp、例如20~400bp、通常50~300bp范圍的連環(huán)體。
另外,還可以得到不是通過(guò)雙標(biāo)記、而是通過(guò)標(biāo)記單元連接的連環(huán)體。例如,在使IIs型限制性酶作用后,可在其切割部位上結(jié)合連接物。此時(shí),標(biāo)記具有以下結(jié)構(gòu)。
PCR→(固相)-[RNA接頭]-[標(biāo)記](méi)-[連接物]←PCR
如果在連接物上配置限制性酶識(shí)別序列,則與消化雙標(biāo)記的RNA接頭同樣,可以利用限制性酶將標(biāo)記的兩端切割。而且,在擴(kuò)增標(biāo)記時(shí),也可利用RNA接頭和連接物的堿基序列通過(guò)PCR進(jìn)行擴(kuò)增。無(wú)論如何都可以連接經(jīng)限制性酶處理過(guò)的標(biāo)記而制成連環(huán)體。連環(huán)體進(jìn)一步插入在克隆載體中,能夠明確其堿基序列。
通過(guò)IIs型限制性酶切割出的標(biāo)記長(zhǎng)度基本一定。但是,如果萬(wàn)一其長(zhǎng)度有所偏差,則在構(gòu)成雙標(biāo)記時(shí),往往不能鑒定正確的標(biāo)記堿基序列。如果不經(jīng)過(guò)雙標(biāo)記構(gòu)成連環(huán)體的話,則即便萬(wàn)一標(biāo)記的長(zhǎng)度不均一,也能夠正確地確定標(biāo)記的堿基序列。
本發(fā)明的基因標(biāo)記的獲取方法、以及所獲標(biāo)記的堿基序列的確定方法中所必需的各種試劑類,可以預(yù)先組合作為試劑盒來(lái)提供。
即,本發(fā)明涉及含有以下要素的基因標(biāo)記的制造用試劑盒,(a)由含有IIs型限制性酶的識(shí)別序列的寡核苷酸構(gòu)成的RNA接頭、(b)用于將RNA接頭連接于RNA的CAP部位的試劑、(c)由對(duì)以RNA接頭作為模板合成的cDNA退火的寡核苷酸所構(gòu)成的cDNA第2鏈合成用引物、(d)cDNA第1鏈合成用引物。
本發(fā)明的試劑盒可以附加地含有雙標(biāo)記或連環(huán)體制備所必需的試劑類。另外,這些構(gòu)成要素的具體構(gòu)成如上所述。
本發(fā)明的試劑盒中,作為(d)cDNA第1鏈合成用引物,可以使用例如以下i)~iii)任一個(gè)所記載的引物,i)隨機(jī)引物、ii)寡dT引物、和iii)含有與特定mRNA互補(bǔ)的堿基序列的引物。
將試樣中所含的全部mRNA作為對(duì)象制造基因標(biāo)記時(shí),利用隨機(jī)引物或寡dT引物。隨機(jī)引物是本發(fā)明中特別優(yōu)選的引物。隨機(jī)引物是指由具有數(shù)十個(gè)堿基長(zhǎng)度的不特定的堿基序列構(gòu)成的寡核苷酸的集合體。例如利用5~20、通常8~15個(gè)堿基左右長(zhǎng)度的寡核苷酸。通過(guò)將4種堿基混合物依次連接成必要的長(zhǎng)度進(jìn)行合成。理論上來(lái)說(shuō),可以認(rèn)為隨機(jī)引物含有對(duì)所有堿基序列互補(bǔ)的堿基序列。
或者,通過(guò)含有與特定mRNA互補(bǔ)的堿基序列的引物,也能夠構(gòu)成本發(fā)明的試劑盒。通過(guò)利用對(duì)特定的mRNA特異的引物,能夠特異地制造某個(gè)基因的5’標(biāo)記。比較這樣得到的標(biāo)記的堿基序列信息,如果在該堿基序列中檢測(cè)出變異時(shí),則說(shuō)明在該基因的轉(zhuǎn)錄產(chǎn)物中存在有5’末端長(zhǎng)度不同的多個(gè)變體(variant)。因此,通過(guò)含有與特定mRNA互補(bǔ)的堿基序列的引物所構(gòu)成的本發(fā)明的試劑盒,作為用于檢測(cè)特定基因的轉(zhuǎn)錄產(chǎn)物的變體的試劑盒是有用的。
例如,通過(guò)以下所述要素,能夠構(gòu)成用于實(shí)施本發(fā)明的方法的試劑盒。在各要素中還可添加對(duì)使用了各要素的反應(yīng)所優(yōu)選的緩沖液。并且,在本發(fā)明的試劑盒中還可組合用于分析基因標(biāo)記的堿基序列的軟件。
用于連接RNA接頭的要素·BAP·TAP·T4RNA連接酶·RNA接頭用于cDNA合成和分離的要素·逆轉(zhuǎn)錄酶·DNA聚合酶·dXTP·cDNA第1鏈合成用隨機(jī)引物·cDNA第2鏈合成用5’生物素化cDNA合成用引物·抗生物素蛋白結(jié)合磁珠用于生成基因標(biāo)記的要素·IIs型限制性酶用于雙標(biāo)記的生成和分析的要素
·T4DNA連接酶·基因標(biāo)記擴(kuò)增用引物·DNA聚合酶·II型限制性酶·測(cè)序用載體·用于轉(zhuǎn)化載體的宿主·用于培養(yǎng)宿主的培養(yǎng)基在分析通過(guò)本發(fā)明生成的連環(huán)體的堿基序列信息中,利用計(jì)算機(jī)軟件是有利的。例如可以將能夠?qū)嵤┮韵虏襟E的軟件用于連環(huán)體的堿基序列信息的分析中,讀取測(cè)序儀的分析數(shù)據(jù)的步驟、識(shí)別讀取的堿基序列數(shù)據(jù)的標(biāo)記以外的堿基序列信息的步驟、積累標(biāo)記的堿基序列信息的步驟。
這里,作為標(biāo)記以外的堿基序列信息,可以舉出在標(biāo)記形成過(guò)程中連接的RNA接頭、連接物等的堿基序列信息?;蛘撸袝r(shí)也有可能可以讀取來(lái)自于克隆載體的堿基序列。無(wú)論怎樣,這些堿基序列信息是預(yù)先明確的信息。并且,這些附加的堿基序列信息和標(biāo)記的堿基序列信息規(guī)則地配置在連環(huán)體上。因此,能夠機(jī)械地識(shí)別這些堿基序列和標(biāo)記的堿基序列。
接著,積累標(biāo)記的堿基序列和所識(shí)別的堿基序列信息。形成雙標(biāo)記時(shí),由于有時(shí)也讀取了反義鏈的堿基序列,因此也能合并記錄互補(bǔ)序列的信息。使用連接物不經(jīng)過(guò)雙標(biāo)記制作連環(huán)體時(shí),如果按照使連接物和RNA接頭的克隆位點(diǎn)成為不同序列的方式進(jìn)行設(shè)計(jì)的話,則能夠在單一方向上克隆。此時(shí),不需要互補(bǔ)序列的積累。
在該程序中還可帶有附加的功能。例如可以實(shí)施比較所得標(biāo)記的堿基序列、將相同堿基序列歸納為1個(gè)、并記錄其出現(xiàn)頻率的步驟。另外,還可以實(shí)施比較不同RNA來(lái)源的標(biāo)記信息、將出現(xiàn)頻率不同的標(biāo)記提取的步驟。
作為標(biāo)記信息的比較對(duì)象,還可以利用預(yù)先積累的數(shù)據(jù)庫(kù)的信息。例如,對(duì)于標(biāo)準(zhǔn)的組織或細(xì)胞株,根據(jù)本發(fā)明的方法預(yù)先積累基因標(biāo)記的信息。該信息可以在計(jì)算機(jī)互聯(lián)網(wǎng)上共用?;蛘?,也可以添加于上述試劑盒中,在商業(yè)上游通。還可以比較這樣得到的基因標(biāo)記信息和自己實(shí)驗(yàn)獲得的基因標(biāo)記信息。
通過(guò)本發(fā)明,能夠獲得作為轉(zhuǎn)錄產(chǎn)物的mRNA的5’末端堿基序列信息。5’末端堿基序列信息在基因分析中具有特別重要的意義。例如,可以將通過(guò)本發(fā)明能夠獲得的5’末端堿基序列信息用于下述用途中。
首先,本發(fā)明可以用于基因表達(dá)譜的獲得中。即,本發(fā)明涉及含有以下工序的、獲取真核細(xì)胞中基因表達(dá)譜的方法,(1)以本發(fā)明為基礎(chǔ)制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序、和(3)通過(guò)對(duì)應(yīng)所確定的堿基序列及其出現(xiàn)頻率,獲得表達(dá)譜的工序。
本發(fā)明中(1)制造基因標(biāo)記的工序可以含有以下工序。沒(méi)有特別聲明的情況下,以下的記載也同樣,所述的“以本發(fā)明為基礎(chǔ)制造基因標(biāo)記的工序”含有以下工序(A)在RNA的CAP部位連接含有IIs型限制性酶的識(shí)別序列的RNA接頭的工序、(B)將(A)的RNA作為模板合成eDNA的工序、(C)使識(shí)別RNA接頭中所含識(shí)別序列的IIs型限制性酶作用于(B)的eDNA,從而生成基因標(biāo)記的工序。
一般來(lái)說(shuō),表達(dá)譜是指伴隨表達(dá)信息的基因信息的列表。表達(dá)信息是指顯示表達(dá)水平的量化參數(shù)。基因信息通常是指用于特定基因的信息。具體地說(shuō),基因的堿基序列、基因的名稱、基因的ID號(hào)等構(gòu)成基因信息。構(gòu)成列表的基因數(shù)是任意的。并且其對(duì)象也沒(méi)有限定。根據(jù)分析的目的,積累必要基因的信息構(gòu)成表達(dá)譜。
根據(jù)本發(fā)明,能夠從具有CAP結(jié)構(gòu)的RNA中將其5’末端的堿基序列信息作為標(biāo)記信息獲得。并且,通過(guò)對(duì)照其堿基序列信息,計(jì)算相同堿基序列的數(shù)量,能夠使堿基序列信息及其出現(xiàn)頻率對(duì)應(yīng)。這樣能夠得到表達(dá)譜。
作為RNA,如果將所有RNA作為對(duì)象的話,能夠獲得將全部基因作為對(duì)象的表達(dá)譜。本發(fā)明中,將特定基因或者結(jié)構(gòu)上具有共性的一組基因作為對(duì)象,也能夠生成基因標(biāo)記。這種情況下,生成了特定基因或者一組基因的表達(dá)譜。
如果假定具有CAP結(jié)構(gòu)的mRNA是指細(xì)胞中所表達(dá)的全部mRNA,則可以說(shuō)通過(guò)本發(fā)明可得到的表達(dá)譜更加正確地反映著細(xì)胞內(nèi)的基因表達(dá)狀態(tài)。本發(fā)明中,計(jì)算堿基序列的出現(xiàn)頻率時(shí),優(yōu)選積累占據(jù)成為分析對(duì)象的堿基序列信息總數(shù)的某序列出現(xiàn)頻率的相對(duì)數(shù)。特別是在通過(guò)PCR等擴(kuò)增后的出現(xiàn)頻率信息的定量意義小。如果作為相對(duì)于總數(shù)的比進(jìn)行比較的話,可以期待更加客觀的評(píng)價(jià)。
通過(guò)本發(fā)明得到的表達(dá)譜能夠制成數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)是指將構(gòu)成表達(dá)譜的信息作為機(jī)械可讀式的數(shù)據(jù)而積累的電子數(shù)據(jù)。本發(fā)明的數(shù)據(jù)庫(kù)至少含有標(biāo)記的堿基序列信息和與其相關(guān)的出現(xiàn)頻率信息。并且,本發(fā)明的數(shù)據(jù)庫(kù)可以合并記錄各堿基序列信息的ID號(hào)、得到堿基序列信息的RNA來(lái)源。而且,還可附加與已知基因的堿基序列信息的關(guān)系、對(duì)基因組上的定位結(jié)果等信息。
本發(fā)明的表達(dá)譜的數(shù)據(jù)庫(kù)可以保存在電子媒介中。作為電子媒介,可以舉出各種光盤(pán)裝置、磁帶媒介或者閃存器等。這些電子媒介可在因互聯(lián)網(wǎng)上共用。例如,可以在互聯(lián)網(wǎng)上共有本發(fā)明的數(shù)據(jù)庫(kù)。并且,還可以介由互聯(lián)網(wǎng),在用于分析上述標(biāo)記序列的軟件中追加用于參照本發(fā)明數(shù)據(jù)庫(kù)信息的功能。或者,相反地也可以介由互聯(lián)網(wǎng)將根據(jù)本發(fā)明生成的新型表達(dá)譜信息追加在數(shù)據(jù)庫(kù)中。
利用本發(fā)明的表達(dá)譜可以實(shí)施表達(dá)譜分析。即,本發(fā)明涉及一種基因表達(dá)譜的分析方法,該方法含有以本發(fā)明為基礎(chǔ)獲得不同種類細(xì)胞的基因表達(dá)譜、比較基因表達(dá)譜、并選擇細(xì)胞間表達(dá)頻率有所不同的基因標(biāo)記的工序。獲得不同細(xì)胞間表達(dá)水平有所不同的基因的分析方法被稱為表達(dá)譜分析。通過(guò)這種分析,例如可以獲得數(shù)量眾多的與疾病等相關(guān)的基因。本發(fā)明的表達(dá)譜也可利用在這種表達(dá)譜分析中。
本發(fā)明的表達(dá)譜分析中,成為分析對(duì)象的不同細(xì)胞是指其來(lái)源不同的所有細(xì)胞。即便是來(lái)自于同一組織的細(xì)胞,在有無(wú)疾病、人種、年齡、性別等一些條件有所不同時(shí),也是來(lái)源不同的細(xì)胞。如果根據(jù)分析目的要考慮的條件有所不同的話,則是來(lái)源不同的細(xì)胞。另一方面,當(dāng)僅發(fā)現(xiàn)相對(duì)于分析目的可忽略的條件有所不同時(shí),視為同一細(xì)胞。例如,通過(guò)比較不同器官、不同組織、或來(lái)源和培養(yǎng)條件等有所不同的細(xì)胞間的表達(dá)譜,能夠選擇器官、組織或細(xì)胞間表達(dá)水平高(或者低)的基因。能夠應(yīng)用本發(fā)明的分析對(duì)象的組合示例如下。
不同組織成人的組織和胎兒的組織患者的組織和健康人的組織男性的組織和女性的組織人種不同的人的組織生長(zhǎng)環(huán)境不同的同一生物物種的組織不同細(xì)胞同一細(xì)胞、培養(yǎng)條件不同的細(xì)胞同樣培養(yǎng)條件、培養(yǎng)時(shí)間不同的細(xì)胞施加了特定處理的細(xì)胞和未施加特定處理的細(xì)胞更具體地說(shuō),通過(guò)在癌組織和正常組織之間比較表達(dá)譜,能夠獲得對(duì)癌特征性的基因標(biāo)記?;蛘撸貏e是通過(guò)比較惡性度高的癌和惡性度低的癌,能夠特定與惡性度相關(guān)的基因標(biāo)記。
通過(guò)本發(fā)明得到的基因標(biāo)記包括mRNA的5’末端的堿基序列信息。因此,能夠?qū)⒆鳛榫幋a相同蛋白質(zhì)的基因、且5’UTR結(jié)構(gòu)不同的變體作為不同轉(zhuǎn)錄產(chǎn)物反應(yīng)在表達(dá)譜中。與通過(guò)公知的SAGE能夠得到的標(biāo)記相比較,該特征是本發(fā)明的標(biāo)記所具有的一大優(yōu)點(diǎn)。另外,本發(fā)明的基因標(biāo)記的堿基序列信息本身作為全長(zhǎng)cDNA的5’端引物的堿基序列信息是有用的。因此,如果利用以通過(guò)表達(dá)譜分析所選出的標(biāo)記的堿基序列信息為基礎(chǔ)設(shè)計(jì)的引物和寡dT引物,則能夠直接合成全長(zhǎng)cDNA?;蛘?,如果組合具有與mRNA任意區(qū)域互補(bǔ)的堿基序列的引物,則能夠得到含有mRNA的5’端堿基序列的cDNA。這也是本發(fā)明的一大特征。
通過(guò)本發(fā)明能夠獲得的基因標(biāo)記含有作為轉(zhuǎn)錄產(chǎn)物的mRNA的5’末端堿基序列。因此,通過(guò)將該堿基序列定位在基因組的堿基序列上,能夠鑒定基因的轉(zhuǎn)錄起始點(diǎn)。即,本發(fā)明涉及含有以下工序的基因轉(zhuǎn)錄起始點(diǎn)的確定方法,(1)以本發(fā)明的方法為基礎(chǔ)制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序、和(3)將所確定的基因序列定位在基因組的堿基序列上,并將堿基序列一致的區(qū)域作為該基因的轉(zhuǎn)錄起始點(diǎn)來(lái)鑒定的工序。
2003年4月,國(guó)際人類基因組序列協(xié)會(huì)公布了人類基因組的破譯完成。其結(jié)果是能夠得到以99.99%的精確度覆蓋全基因組99%(28億3000萬(wàn)堿基對(duì))的人類基因組精密序列。另一方面,本發(fā)明將在細(xì)胞內(nèi)轉(zhuǎn)錄的所有mRNA的5’末端作為標(biāo)記產(chǎn)生。因此,從原理上,可以將在某細(xì)胞中轉(zhuǎn)錄的基因的幾乎所有的轉(zhuǎn)錄起始點(diǎn)定位于基因組上。被定位在基因組上的轉(zhuǎn)錄起始點(diǎn)在轉(zhuǎn)錄調(diào)節(jié)區(qū)域的獲得中是重要的信息。
例如,可以克隆轉(zhuǎn)錄起始點(diǎn)的上游1~2kb的范圍,并用于轉(zhuǎn)錄調(diào)節(jié)因子的篩選?;蛘咄ㄟ^(guò)分析該區(qū)域的堿基序列,還能夠預(yù)測(cè)轉(zhuǎn)錄調(diào)節(jié)區(qū)域。更具體地說(shuō),通過(guò)研究已知轉(zhuǎn)錄因子的識(shí)別序列所被保存的區(qū)域,能夠預(yù)測(cè)轉(zhuǎn)錄因子的結(jié)合區(qū)域。
另外,轉(zhuǎn)錄起始點(diǎn)的定位無(wú)非是基因本身的定位。也就是說(shuō),以本發(fā)明標(biāo)記的堿基序列信息的定位結(jié)果為基礎(chǔ),能夠把握基因在基因組上的物理位置關(guān)系。目前,基因的轉(zhuǎn)錄起始點(diǎn)如果不依賴于質(zhì)量高的全長(zhǎng)cDNA的堿基序列信息,則不能定位。然而如果利用通過(guò)本發(fā)明能夠得到的標(biāo)記信息,則能夠容易地定位轉(zhuǎn)錄起始點(diǎn)。這樣,可以說(shuō)通過(guò)本發(fā)明能夠得到的標(biāo)記信息具有與全長(zhǎng)cDNA的成果相匹敵的價(jià)值。
而且,通過(guò)本發(fā)明能夠得到的基因標(biāo)記的堿基序列信息可以利用在cDNA的全長(zhǎng)率評(píng)價(jià)中。與基因組的堿基序列被搞清楚相對(duì),為了在蛋白質(zhì)水平上明確細(xì)胞的作用,繼續(xù)了各種嘗試。作為其方法之一,有全長(zhǎng)cDNA的網(wǎng)絡(luò)式分析。在全長(zhǎng)cDNA的網(wǎng)絡(luò)式分析中,網(wǎng)羅地獲得在某細(xì)胞中表達(dá)的基因的全長(zhǎng),確定其結(jié)構(gòu)。此時(shí),所得cDNA的全長(zhǎng)性高成為了重要的條件。
首先,第1為了至少特定ORF,必須明確mRNA的5’端堿基序列。另外,為了鑒定轉(zhuǎn)錄起始點(diǎn),獲取直至5’末端的堿基序列是重要的。為了確認(rèn)滿足這些條件,常常評(píng)價(jià)得到的cDNA的全長(zhǎng)性。cDNA的全長(zhǎng)性是表示含有mRNA的5’末端堿基序列的cDNA占所得cDNA整體的何種程度的參數(shù)。
本發(fā)明的基因標(biāo)記提供mRNA的5’末端的堿基序列信息。因此,通過(guò)對(duì)照網(wǎng)羅式獲得的cDNA的堿基序列和從同一文庫(kù)中獲得的本發(fā)明的基因標(biāo)記的堿基序列,能夠明確各cDNA的5’末端是否含有mRNA的5’末端的堿基序列。如果基因標(biāo)記的堿基序列多數(shù)能在cDNA的堿基序列上定位時(shí),所獲cDNA的多數(shù)為全長(zhǎng)的可能性較高。相反,與基因標(biāo)記一致的堿基序列在所得cDNA中看不到時(shí),推測(cè)cDNA的全長(zhǎng)性較低。
本發(fā)明中基因標(biāo)記的堿基序列信息可以利用于含有mRNA的5’末端堿基序列的cDNA的獲得中。即,本發(fā)明涉及cDNA合成用引物組,其包含用于合成含有通過(guò)以下工序確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、和對(duì)cDNA的任意部位退火的3’端引物、(1)以本發(fā)明為基礎(chǔ)制造基因標(biāo)記的工序、和(2)確定(1)的基因標(biāo)記的堿基序列的工序。
構(gòu)成本發(fā)明的引物組的5’端引物的堿基序列含有作為標(biāo)記獲得的堿基序列或其互補(bǔ)序列。標(biāo)記作為mRNA的有義序列或反義序列而得到。因此,其互補(bǔ)序列或者標(biāo)記的堿基序列本身作為cDNA合成用的5’端引物的堿基序列被使用。由于5’端引物在5’末端開(kāi)始互補(bǔ)鏈合成,因此通過(guò)本發(fā)明的引物組合成的cDNA通常含有5’末端的堿基序列。另外,標(biāo)記序列由于是從DNA中獲得的,因此含有堿基t。與此相對(duì),RNA的5’末端序列與t相當(dāng)?shù)膲A基當(dāng)然是u。
另一方面,在構(gòu)成本發(fā)明的引物組的3’端引物中,可以利用對(duì)cDNA可退火的任意引物。通過(guò)選擇3’端引物,能夠合成各種cDNA。作為能夠利用于本發(fā)明引物組的3’端引物,例如可以舉出以下所示的引物,i)寡dT引物、ii)cDNA的片段序列信息、和iii)由與cDNA的II型限制性酶識(shí)別鄰接的基因標(biāo)記的堿基序列或其互補(bǔ)序列構(gòu)成的引物。
首先,與寡dT引物的組合在全長(zhǎng)cDNA的合成中是有用的。然后,以cDNA的片段序列信息為基礎(chǔ)設(shè)計(jì)的3’端引物作為用于獲得該cDNA的5’端區(qū)域的引物被利用。為了這種目的,可以盡量以該cDNA的5’端堿基序列為基礎(chǔ)設(shè)計(jì)3’端引物。在cDNA的片段信息中含有EST。另外,通過(guò)各種基因分析,能夠獲得cDNA的片段信息。而且嘗試了常常以片段信息為基礎(chǔ)確定全長(zhǎng)的堿基序列。例如,當(dāng)必須獲得作為DNA陣列的探針使用的EST的5’端堿基序列時(shí),利用本發(fā)明的引物組,能夠合成目標(biāo)區(qū)域?;蛘?,有時(shí)嘗試從通過(guò)PCR克隆等獲得的cDNA片斷中獲得其全長(zhǎng)。本發(fā)明中,cDNA的片段序列信息可以定義為含有與特定mRNA互補(bǔ)的堿基序列的引物。
并且,還可以將由與cDNA的II型限制性酶識(shí)別鄰接的基因標(biāo)記的堿基序列或其互補(bǔ)序列所構(gòu)成的引物作為3’端引物利用。目前實(shí)用的SAGE(SCIENCE,Vol.270,484-487,Oct.20,1995)將與cDNA中所含特定限制性酶位點(diǎn)鄰接的區(qū)域作為基因標(biāo)記生成。以該標(biāo)記的堿基序列信息為基礎(chǔ),能夠分析基因表達(dá)譜。對(duì)于同一分析對(duì)象,如果將根據(jù)已知分析方法選擇的基因標(biāo)記的堿基序列信息作為3’端的引物使用,則有可能可以合成含有相當(dāng)一部分目標(biāo)基因的cDNA。
這些引物組中,特別優(yōu)選與寡dT引物的組合作為用于合成全長(zhǎng)cDNA的引物組。全長(zhǎng)cDNA在轉(zhuǎn)錄起始點(diǎn)的定位中有用。另外,為了鑒定5’UTR結(jié)構(gòu)不同的轉(zhuǎn)錄產(chǎn)物,必須確定至少含有5’末端區(qū)域的堿基序列。而且,全長(zhǎng)cDNA通常是難以獲得的。由該背景出發(fā),利用根據(jù)本發(fā)明得到的基因標(biāo)記信息來(lái)合成全長(zhǎng)cDNA的有用性特別大。即,本發(fā)明涉及含有以下工序的全長(zhǎng)cDNA的合成方法,(a)使用用于合成含有通過(guò)以下工序確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、和由寡dT引物構(gòu)成的3’端引物,以RNA或cDNA為模板進(jìn)行互補(bǔ)鏈合成反應(yīng)的工序、(1)根據(jù)本發(fā)明的方法制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序;(b)將合成的DNA作為全長(zhǎng)cDNA回收的工序。
將從含有目標(biāo)mRNA可能性高的細(xì)胞中獲得的RNA作為模板,使用上述本發(fā)明的引物組合成cDNA?;蛘咭部蓪脑摷?xì)胞中獲得的cDNA文庫(kù)作為模板進(jìn)行利用。本領(lǐng)域技術(shù)人員可以根據(jù)所提供的引物的堿基序列信息合成cDNA。具體地說(shuō),利用RT-PCR等公知的方法,能夠由RNA合成目標(biāo)cDNA。RNA優(yōu)選使用mRNA。或者使用cDNA文庫(kù)作為模板時(shí),能夠通過(guò)PCR合成目標(biāo)cDNA。cDNA文庫(kù)也可以使用市售的文庫(kù)。
本發(fā)明涉及這樣合成的全長(zhǎng)cDNA。本發(fā)明中,全長(zhǎng)cDNA是指包括含有mRNA的CAP結(jié)構(gòu)部分的堿基序列信息和poly(A)的cDNA。本發(fā)明還涉及由根據(jù)本發(fā)明合成的全長(zhǎng)cDNA編碼的多肽。分析全長(zhǎng)cDNA的堿基序列,能夠鑒定ORF。根據(jù)所鑒定的ORF,能夠?qū)⒕幋a區(qū)域?qū)胫帘磉_(dá)載體。本發(fā)明含有能夠如此得到的表達(dá)載體??梢詫⒃摫磉_(dá)載體導(dǎo)入至適當(dāng)?shù)谋磉_(dá)體系,將由cDNA編碼的多肽作為重組體使其表達(dá),再進(jìn)行回收。
另外,本發(fā)明的全長(zhǎng)cDNA的編碼區(qū)域所編碼的多肽可通過(guò)生物體外翻譯(in vitro translation)作為重組體表達(dá)并回收。生物體外翻譯的方法是公知的。生物體外翻譯也稱為無(wú)細(xì)胞蛋白質(zhì)翻譯。即,通過(guò)使將編碼目標(biāo)氨基酸序列的DNA功能性地連接于啟動(dòng)子的構(gòu)成物(construct)接觸于支持生物體外翻譯的要素,能夠翻譯成氨基酸序列。構(gòu)成物中還可配置終止子等轉(zhuǎn)錄調(diào)控區(qū)域。支持生物體外翻譯的要素是含有RNA聚合酶、核糖核苷酸基質(zhì)、氨基酸、核糖體以及tRNA等的混合物。如果存在這些蛋白質(zhì)翻譯所必需的成分,則可不利用細(xì)胞功能,也能將DNA翻譯成蛋白質(zhì)。RNA聚合酶識(shí)別上述啟動(dòng)子,在其控制下將DNA作為模板轉(zhuǎn)錄成mRNA。轉(zhuǎn)錄中使用核糖核苷酸基質(zhì)ATP、GTP、CTP和UTP。被轉(zhuǎn)錄的mRNA在核糖體中被翻譯成多肽。
作為支持生物體外翻譯的要素,可以使用市售的體外翻譯用的試劑盒。利用了兔子網(wǎng)狀紅血球的溶解產(chǎn)物(Rabbit Reticulocyte Lysate;RRL)、小麥胚芽提取物(Wheat Germ Extract;WGE)或者大腸桿菌的溶菌產(chǎn)物等的用于無(wú)細(xì)胞蛋白質(zhì)翻譯的試劑盒在市場(chǎng)有售?;蛘撸部梢苑謩e以高純度精制轉(zhuǎn)錄、翻譯和能量再生中所必需的約30個(gè)酶類后,實(shí)現(xiàn)再構(gòu)成的體外轉(zhuǎn)錄和翻譯系統(tǒng)(Shimizu et al.(2001)NatureBiotechnology.Vol.19,p.751-755),作為試劑盒在商業(yè)上提供。
而且,本發(fā)明涉及識(shí)別該多肽的抗體??贵w例如可以通過(guò)用上述重組體、或者由選自翻譯氨基酸序列的氨基酸序列構(gòu)成的域肽對(duì)免疫動(dòng)物進(jìn)行免疫而得到。能夠從免疫動(dòng)物中回收多克隆抗體。并且,克隆免疫動(dòng)物的抗體產(chǎn)生細(xì)胞,可以得到單克隆抗體。使抗體產(chǎn)生細(xì)胞與骨髓瘤之類的細(xì)胞株融合而制成雜交瘤、用于篩選產(chǎn)生具有目標(biāo)反應(yīng)性的抗體的克隆的方法是公知的。
圖1為表示根據(jù)本發(fā)明的基因標(biāo)記的獲取方法的例子的圖。將mRNA分成兩半,將mRNA的Cap結(jié)構(gòu)酶置換成含有作為IIs型限制核酸內(nèi)切酶的MmeI和Xhol限制性酶部位的兩種合成寡核苷酸。接著,通過(guò)dT連接物引物將寡核苷酸帽mRNA變換成cDNA的第1鏈。使用PCR利用生物素結(jié)合5’引物和dT連接物引物合成第2鏈。使用在距離識(shí)別部位20bp的位置處進(jìn)行切割的MmeI,將雙鏈cDNA切割。通過(guò)使其結(jié)合于鏈霉抗生物素蛋白微珠而將5’cDNA分離后,相互連接標(biāo)記的兩庫(kù)。
圖2為與UniGene和DBTSS序列中mRNA起始部位進(jìn)行比較的5’SAGE標(biāo)記的距離的圖。距離以上游(-)和下游(+)的核苷酸(x-軸)的數(shù)目來(lái)表示。UniGene中的mRNA起始部位表示為0。5’SAGE標(biāo)記的頻率顯示于y-軸。配置每個(gè)5’SAGE標(biāo)記及其對(duì)應(yīng)基因的位置的距離越短,則表示5’標(biāo)記與已知5’轉(zhuǎn)錄起始部位基本一致。本發(fā)明人等為了研究轉(zhuǎn)錄起始部位的范圍的差,分別使用了UniGene和DBTSS數(shù)據(jù)庫(kù)。
圖3為5’SAGE標(biāo)記和3’SAGE標(biāo)記的頻率的散點(diǎn)圖。如實(shí)施例2的材料和方法的章節(jié)中所述,由5’SAGE和3’SAGE分析擊中(hit)基因組中的一個(gè)基因座的標(biāo)記。該圖中,兩個(gè)軸用對(duì)數(shù)表示。
具體實(shí)施例方式
以下根據(jù)實(shí)施例,更加具體地說(shuō)明本發(fā)明。
根據(jù)本發(fā)明,通過(guò)以下實(shí)驗(yàn)確認(rèn)能夠獲得含有mRNA的5’末端堿基序列的基因標(biāo)記。以下操作大致示于圖1。
寡核苷酸帽法寡核苷酸帽法是改變了Maruyama和Sugano(1994)的方法進(jìn)行的(Maruyama,K.,Sugano,S.,1994.Oligo-cappinga simple method toreplace the cap structure of eucaryotic mRNAs with oligoribo-nucleotides.Gene 138,171-174.)。在添加了100單位的RNasin(Promega)的總液量為100μl的100mM Tris-HCl(pH為8.0)和5mM 2-巰基乙醇的混合液中,利用1.2單位來(lái)自于細(xì)菌的堿性磷酸酯酶(BAP;TaKaRa)在37℃下將5~10μg的poly(A)+RNA處理40分鐘。進(jìn)行2次苯酚∶氯仿(1∶1)提取處理,進(jìn)行乙醇沉淀處理。在添加了100單位的RNasin的總液量為100μl的50mM乙酸鈉(pH為5.5)、1mM EDTA、5mM 2-巰基乙醇的混合液中,利用20單位的煙酸性焦磷酸酶(TAP)在37℃下將所得該poly(A)+RNA處理45分鐘。
在苯酚∶氯仿提取處理和乙醇沉淀處理后,將2~4μg的BAP-TAP處理poly(A)+RNA分為2庫(kù),使各庫(kù)分別與RNA接頭(5’-oligo 1和5’-oligo2)連接。5’-oligo 1和5’-oligo 2分別為具有以下堿基序列的RNA。任何一個(gè)RNA接頭都含有XhoI和MmeI識(shí)別序列。
5’-oligo 1/序列號(hào)15’-UUU GGA UUU GCU GGU GCA GUA CAA CUA GGC UUAAUA CUC GAG UCC GAC-3’5’-oligo 2/序列號(hào)25’-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUG UACGCU CGA GUC CGA C-3’將250單位的RNA連接酶(TaKaRa)和100單位的Rnasin用下述組成的反應(yīng)混合液達(dá)到總液量100μl,在20℃下反應(yīng)3~16小時(shí),連接RNA接頭。
50mM Tris-HCl(pH為7.5)5mM MgCl25mM 2-巰基乙醇0.5mM ATP25%PEG8000cDNA的合成cDNA的合成時(shí),合成全長(zhǎng)cDNA富集文庫(kù)和5’末端cDNA富集文庫(kù)的2種文庫(kù)。全長(zhǎng)cDNA富集文庫(kù)由使用寡dT連接物引物以poly(A)+mRNA為模板合成的cDNA構(gòu)成,是全長(zhǎng)cDNA富集的文庫(kù)。另一方面,5’末端cDNA富集文庫(kù)由在cDNA的合成中使用隨機(jī)連接物引物合成的cDNA構(gòu)成。通過(guò)隨機(jī)連接物引物的使用,從沒(méi)有poly(A)的片段也能合成cDNA。對(duì)于這2種cDNA分別嘗試獲得基因標(biāo)記。
將未連接的RNA接頭除去后,通過(guò)無(wú)RNaseH的逆轉(zhuǎn)錄酶(Superscript II,Gibco BRL)合成cDNA。為了得到全長(zhǎng)cDNA富集文庫(kù),將10pmol的dT連接物引物(序列號(hào)3)加入到含有2~4μg寡核苷酸帽poly(A)+RNA的50μl溶液中,合成cDNA。
DT連接物引物(序列號(hào)3)5’-GCG GCT GAA GAC GGC CTA TGT GGC CTT TTT TTT TTTTTT TTT-3’反應(yīng)條件按照廠家推薦的方法(42℃下培養(yǎng)1小時(shí))。
進(jìn)而,為了得到5’末端cDNA富集文庫(kù),使用10pmol的隨機(jī)連接物引物(序列號(hào)4),在12℃下培養(yǎng)1小時(shí),進(jìn)而在42℃下培養(yǎng)1小時(shí)。
隨機(jī)連接物引物(序列號(hào)4)5’-GCG GCT GAA GAC GGC CTA TGT GGC CNN NNN NC-3’cDNA的擴(kuò)增合成第1鏈cDNA后,通過(guò)使用15mM NaOH在65℃下處理1小時(shí),將RNA分解。使用100μl中含有16pmol的5’PCR引物和3’PCR引物(5’-GCG GCT GAA GAC GGC CTA TGT-3’/序列號(hào)7)的XL PCR試劑盒(Perkin-Elmer)來(lái)擴(kuò)增以1μg的寡核苷酸帽poly(A)+RNA作為模板合成的cDNA。5’PCR引物在作為RNA接頭連接了5’oligo-1的庫(kù)中使用序列號(hào)5的引物,連接了5’oligo-2的庫(kù)中使用序列號(hào)6的引物。
5’oligo 1用5’PCR引物/序列號(hào)55’生物素-GGA TTT GCT GGT GCA GTA CAA CTA GGC TTAATA-3’
5’oligo 2用5’PCR引物/序列號(hào)65’生物素-CTG CTC GAATTC AAG CTT CTAACG ATG TAG G-3’3’PCR引物(序列號(hào)7)5’-GCG GCT GAA GAC GGC CTA TGT-3’在第1鏈的合成中使用dT-連接物引物作為引物時(shí),將94℃下1分鐘、58℃下1分鐘和72℃下10分鐘的循環(huán)重復(fù)5~10次,進(jìn)行cDNA的擴(kuò)增。另外,在第1鏈的合成中使用隨機(jī)連接物引物作為引物時(shí),將94℃下1分鐘、58℃下1分鐘和72℃下2分鐘的循環(huán)重復(fù)10次,進(jìn)行cDNA的擴(kuò)增。
PCR產(chǎn)物在1次的苯酚∶氯仿(1∶1)處理后,經(jīng)過(guò)乙醇沉淀處理,利用MmeI型IIs限制性酶(University of Gdansk Center of TechnologyTransfer,Gdansk,Poland)進(jìn)行處理。限制性酶處理是在總液量為300μl的10mM HEPES、pH為8.0、2.5mM醋酸鉀、5mM醋酸鎂、2mM DTT和40μM S-腺苷基蛋氨酸混合液中使用40單位的MmeI,在37℃下進(jìn)行2.5小時(shí)。使經(jīng)限制性酶處理過(guò)的5’末端cDNA片斷與由鏈霉抗生物素蛋白包被的磁珠(Dynal,Oslo,Norway)結(jié)合。在16℃下、在16μl含有添加了4單位T4 DNA連接酶的供給緩沖液的反應(yīng)溶液中反應(yīng)2.5小時(shí),使結(jié)合于磁珠的cDNA片斷相互直接結(jié)合,得到雙標(biāo)記。
生成的雙標(biāo)記使用引物5’-GGA TTT GCT GGT GCA GTA CAACTA GGC-3’(序列號(hào)8)和5’-CTG CTC GAA TTC AAG CTT CTA ACGATG-3’(序列號(hào)9),通過(guò)PCR擴(kuò)增。利用聚丙烯酰胺凝膠電泳(PAGE)確認(rèn)PCR產(chǎn)物,通過(guò)XhoI進(jìn)行處理。將含有雙標(biāo)記的條帶切出,使其自身連接形成長(zhǎng)的連環(huán)體。將該連環(huán)體插入到pZero 1.0(Invitrogen)的XhoI部位。
通過(guò)使用了M13正向引物和M13反向引物的PCR進(jìn)行群體的篩選。含有600bp或以上嵌入段的PCR產(chǎn)物使用Big Dye terminator ver.3、利用3730ABI自動(dòng)DNA測(cè)序儀(Applied Biosystems,CA)確定序列。相對(duì)于所有的電泳圖,為了確認(rèn)有無(wú)不明確的堿基以及修改錯(cuò)讀,通過(guò)目測(cè)進(jìn)行再分析。
使用為此制作的軟件測(cè)定各標(biāo)記的出現(xiàn)頻率。將分析的結(jié)果得到的標(biāo)記的堿基序列作為搜索項(xiàng),檢索BLAST search(http//www.ncbi.nlm.nih.gov/BLAST/)和人類基因組數(shù)據(jù)庫(kù)(http//www.ncbi.nlm.nih.gov/genome/guide/human/)的數(shù)據(jù)。
將從通過(guò)隨機(jī)連接物引物合成的5’末端cDNA富集文庫(kù)中得到的3000或以上的基因標(biāo)記的堿基序列進(jìn)行分析的部分結(jié)果匯總于下。以下的結(jié)果中,接著記載了基因標(biāo)記的堿基序列的序列號(hào),用“/”將接下來(lái)的信息劃分記載。另外,在這些信息后另起一行記載有擊中已知基因的信息(GenBank Accession No.和注釋)。
基因標(biāo)記的堿基序列所得基因標(biāo)記總數(shù)中的該基因標(biāo)記的出現(xiàn)頻率基因標(biāo)記的堿基序列擊中的已知序列的位置(○擊中5’末端的序列、×并非5’末端的堿基序列)(序列號(hào)10)/ACATCTGACCTCATGGAG/27/○gi|33694637|tpg|BK000408.1|TPA人類腺病毒5型,全基因組(序列號(hào)11)/CTCTTTCCTTGCCTAACG/22/○gi|17981705|ref|NM_001007.2|人類核糖體蛋白質(zhì)S4,X-連接(RPS4X),mRNA(序列號(hào)12)/TACCTGGTTGATCCTGCC/21/×(序列號(hào)13)/CTTTTCCTGTGGCAGCAG/20/○<gi|16579884|ref|NM_000968.2|人類核糖體蛋白質(zhì)L4(RPL4),mRNA(序列號(hào)14)/CTCTTCCGCCGTCGTCGC/16/○人類真核翻譯延長(zhǎng)因子2(EEF2),mRNA的上游(序列號(hào)15)/CTCATTGAACTCGCCTGC/11/○gi|28338|emb|X04098.1|HSACTCGR人類細(xì)胞骨架γ-肌動(dòng)蛋白(ACTG1基因)的mRNA(序列號(hào)16)/CTGGTTGATCCTGCCAGT/11/×(序列號(hào)17)/CTCAGTCGCCGCTGCCAG/10/○gi|28338|emb|X04098.1|HSACTCGR人類細(xì)胞骨架γ-肌動(dòng)蛋白(ACTG1基因)的mRNA(序列號(hào)18)/CTTTCACTGCAAGGCGGC/10/○gi|18314626|gb|BC021993.1|鳥(niǎo)嘌呤核苷酸結(jié)合蛋白(G蛋白),β-多肽2-樣1(序列號(hào)19)/ACGCTGTGACAGCCACAC/9/○NM 005382的上游(序列號(hào)20)/GTGACAGCCACACGCCCC/9/×gi|35045|emb|Y00067.1|HSNFM人神經(jīng)絲蛋白亞單位M(NF-M)的基因(序列號(hào)21)/AACGGCTAGCCTGAGGAG/8/×gi|188487|gb|M59828.1|HUMMHHSP人MHC III類HSP70-1基因(HLA),全編碼序列(序列號(hào)22)/AGTAGCAGCAGCGCCGGG/8/○gi|14043071|ref|NM_031243.1|人類核內(nèi)不均一核糖核蛋白A2/B1(序列號(hào)23)/ATTCCTAGTTAAGGCGGC/8/○gi|5020073|gb|AF146651.1|AF146651人類乙二醛酶-I基因,全編碼序列(序列號(hào)24)/AATTGTGTTCGCAGCCGC/7/○gi|22027640|ref|NM_002107.2|人類H3組蛋白,家族3A(H3F3A),mRNA(序列號(hào)25)/ATATTTCTTACTCTCTCG/7/×gi|37704377|ref|NR_001564.1|X染色體上的人類染色體X失活特異性轉(zhuǎn)錄產(chǎn)物(XIST)
(序列號(hào)26)/CTCAGTCGCCGCTGCCAA/7/○gi|28338|emb|X04098.1|HSACTCGR人類細(xì)胞骨架γ-肌動(dòng)蛋白的mRNA(序列號(hào)27)/AAAACGGCCAGCCTGAGG/6/×gi|188489|gb|M59830.1|HUMMHHSP2人MHC III類HSP70-2基因(HLA),全編碼序列(序列號(hào)28)/CTCTCTTTCACTGCAAGG/6/○gi|12652914|gb|BC000214.1|鳥(niǎo)嘌呤核苷酸結(jié)合蛋白(G蛋白),β-多肽2-樣1(序列號(hào)29)/AATTTCTACGCGCACCGG/5/○gi|402305|gb|L24369.1|HUMRPS4A人類核糖體蛋白質(zhì)S4基因(序列號(hào)30)/ACCGCCGAGACCGCGTCC/5/○gi|1043878|dbj|AK025375.1|人類突變的β-肌動(dòng)蛋白的ACTB mRNA(序列號(hào)31)/AGACGCAGAGTAGATTGT/5/○gi|2315183|emb|Z82216.1|HS75N13來(lái)自于人染色體Xq21.1的克隆RP1-75N13的DNA序列(序列號(hào)32)/AGTTCGATCGGTAGCGGG/5/×gi|37540535|ref|XM_294582.2|與DNA-結(jié)合蛋白B類似的人類基因(LOC347295),mRNA(序列號(hào)33)/AGTTCTCGGGCGTACGGC/5/○gi|30581134|ref|NM_006306.2|人類染色體1-樣1的結(jié)構(gòu)維持SMCl(序列號(hào)34)/AGTTGCTTCAGCGTCCCG/5/○gi|32487|emb|X15183.1|HSHSP90R人90-kDa熱休克蛋白的mRNA(序列號(hào)35)/ATTAAACGGTTGCAGGCG/5/×gi|33239450|ref|NM_182649.1|人類增殖細(xì)胞核抗原(PCNA)轉(zhuǎn)錄變體2,mRNA(序列號(hào)36)/CCGGCCGGGGGGCGGGCG/5/○gi|55583|gb|U13369.1|HSU13369人核糖體DNA全重復(fù)單位
(序列號(hào)37)/CCTTTTGGCTCTCTGACC/5/○gi|15718688|ref|NM_001006.2|人類核糖體蛋白質(zhì)S3A(RPS3A),mRNA(序列號(hào)38)/CTCAGTACAGCTCCGGCC/5/○gi|21217408|gb|AC015849.5|人類染色體17,克隆RP11-362K1,全序列(序列號(hào)39)/CTCTTTCGGCCGCGCTGG/5/○gi|461248|dbj|D28421.1|HUMRPL80人類核糖體蛋白質(zhì)L8同源物的mRNA,5’UTR所得標(biāo)記中30個(gè)堿基序列的分析結(jié)果為73%或以上(22/30)的標(biāo)記實(shí)際上是cDNA的5’末端的堿基序列。這正驗(yàn)證了根據(jù)本發(fā)明能夠以較高概率將mRNA的5’末端堿基序列作為標(biāo)記獲得。
將利用了根據(jù)本發(fā)明的含有mRNA的5’末端堿基序列的基因標(biāo)記的基因表達(dá)分析(以下記為5’SAGE)的結(jié)果與公知的SAGE法(以下記為3’SAGE)進(jìn)行比較。
材料和方法3’-Long SAGE文庫(kù)的制作從HEK293中分離全RNA,如上所述選擇mRNA(Hashimoto,S.-i.,Suzuki,T.,Dong,H.-Y.,Yamazaki,N.& Matsushima,K.Serial analysisof gene expression in human monocytes and macrophages.Blood 94,837-844,1999)。將標(biāo)準(zhǔn)的SAGE順序如下變更進(jìn)行使用,用3μg mRNA進(jìn)行Long SAGE法(Saha,S.et al.Using the transcriptome to annotate thegenome.Nat Biotechnol 20,508-512,2002)。
即,NlaIII切割后,將接頭1A(5’-TTT GGA TTT GCT GGT GCAGTA CAA CTA GGC TTA ATA TCC GAC ATG-3’/序列號(hào)40)和接頭1B(5’-TCG GAT ATT AAG CCT AGT TGT ACT GCA CCA GCA AAT CCC7氨基修飾-3’/序列號(hào)41)相互退火,連接于全cDNA的一半,將接頭2A(5’-TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GTCCGA CAT G-3’/序列號(hào)42)和接頭2B(5’-TCG GAC GTA CAT CGT TAGAAG CTT GAA TTC GAG CAG C7氨基修飾-3’/序列號(hào)43)相互退火,連接于cDNA的剩余一半,并將含有MmeI識(shí)別部位的接頭連接于3’cDNA末端。使用MmeI型IIs限制性酶(Gdansk大學(xué)技術(shù)轉(zhuǎn)讓中心(University of Gdansk Center for Technology Transfer)、Poland、Gdansk),使接頭標(biāo)記分子從cDNA中游離出來(lái)。切割是在300μl的10mMHEPES、pH為8.0、2.5mM醋酸鉀、5mM醋酸鎂、2mM DTT和40μMS-腺苷基蛋氨酸中使用40單位的MmeI在37℃下進(jìn)行2.5小時(shí)。在16μl的供給緩沖液中含有4單位T4 DNA連接酶的反應(yīng)液中,使接頭1標(biāo)記分子和接頭標(biāo)記2分子在16℃下反應(yīng)2.5小時(shí),使它們相互直接連接。
使游離的標(biāo)記相互連接成鏈,在pZero 1.0(Invitrogen)的SphI部位克隆。使用M13正向和M13反向引物,通過(guò)聚合酶鏈?zhǔn)椒磻?yīng)法(PCR)篩選群體。對(duì)含有超過(guò)600bp插入片斷的PCR產(chǎn)物使用Big Dyeterminator ver.2進(jìn)行測(cè)序,利用3730ABI自動(dòng)DNA測(cè)序儀(AppliedBiosystems、加里福尼亞州)進(jìn)行分析。電泳圖全部通過(guò)目測(cè)進(jìn)行再次分析,研究不清楚的堿基,更正錯(cuò)讀。使用SAGE 2000軟件(version4.12),定量各標(biāo)記的存在量。除去接頭序列、其它可能的人工產(chǎn)物和重復(fù)的雙標(biāo)記后,分析各標(biāo)記。
5’-SAGE文庫(kù)的制作加入幾個(gè)變更點(diǎn)(Suzuki,Y.,Yoshitomo-Nakagawa,K.,Maruyama,K.,Suyama,A.& Sugano,S.Construction and characterization of a fulllength-enriched and a 5’-end-enriched cDNA library.Gene 200,149-156,1997),按照Maruyama和Sugano(Maruyama,K.& Sugano,S.Oligo-cappinga simple method to replace the cap structure of eukaryoticmRNAs with oligoribonucleotides.Gene 138,171-174,1994)所記載的那樣,進(jìn)行寡核苷酸帽法。
也就是說(shuō),在含有100單位RNasin(Promega)的100μl的100mMTris-HCl(pH為8.0)、5mM 2-巰基乙醇中,使用1.2單位的來(lái)自于細(xì)菌的堿性磷酸酯酶(BAP;TaKaRa)在37℃下將5~10μg的poly(A)+RNA處理40分鐘。利用苯酚∶氯仿(1∶1)提取2次并乙醇沉淀后,在含有100單位RNasin的100μl的50mM醋酸鈉(pH為5.5)、1mM EDTA、5mM 2-巰基乙醇中,使用20單位的煙酸性焦磷酸酶(TAP)在37℃下將poly(A)+RNA處理45分鐘。在苯酚∶氯仿提取并乙醇沉淀后,將2~4μg BAP-TAP處理過(guò)的poly(A)+RNA分為2庫(kù),將含有XhoI/MmeI識(shí)別部位的以下RNA接頭中的一個(gè)連接于各庫(kù)在含有100單位的RNasin的100ml的50mM Tris-HCl(pH為7.5)、5mM MgCl2、5mM 2-巰基乙醇、0.5mM ATP、25%PEG8000中,使用250單位的RNA連接酶(TaKaRa),在20℃下連接5’-oligo 1(5’-UUU GGA UUU GCU GGUGCA GUA CAA CUA GGC UUA AUA CUC GAG UCC GAC-3’/序列號(hào)1)、5’-oligo 2(5’-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUGUAC GCU CGA GUC CGA C-3’/序列號(hào)2),進(jìn)行3~16小時(shí)。
除去未連接的5’-寡核苷酸后,使用無(wú)RNaseH的逆轉(zhuǎn)錄酶(Superscript II、Gibco BRL)合成cDNA。為了制作5’末端濃縮cRNA文庫(kù),使用10pmol隨機(jī)連接物引物(5’-GCG GCT GAA GAC GGC CTATGT GGC CNN NNN NC-3’/序列號(hào)4)在12℃下培養(yǎng)1小時(shí),再在42℃下培養(yǎng)1小時(shí)。
合成第1鏈后,在15mM NaOH中在65℃下培養(yǎng)1小時(shí),由此分解RNA。使用XL PCR試劑盒(Perkin-Elmer),利用16pmol的5’(5’生物素-GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA-3’/序列號(hào)5、或5’生物素-CTG CTC GAA TTC AAG CTT CTA ACG ATG TACG-3’/序列號(hào)6)和3’(5’-GCG GCT GAA GAC GGC CTA TGT-3’/序列號(hào)7)PCR引物,以100μl的量將由1mg寡核苷酸帽poly(A)+RNA制作的cDNA擴(kuò)增。對(duì)于通過(guò)隨機(jī)連接物引物延伸了的cDNA,將擴(kuò)增循環(huán)變?yōu)?4℃下1分鐘、58℃下1分鐘、72℃下2分鐘的10個(gè)循環(huán)。將PCR產(chǎn)物使用苯酚∶氯仿(1∶1)提取一次,并進(jìn)行乙醇沉淀,利用MmeI型IIs限制性酶(Gdansk大學(xué)技術(shù)轉(zhuǎn)讓中心、Poland、Gdansk)切割。切割是在300μl的10mM HEPES、pH為8.0、2.5mM醋酸鉀、5mM醋酸鎂、2mM DTT和40μM S-腺苷基蛋氨酸中使用40單位的MmeI、在37℃下進(jìn)行2.5小時(shí)。
使切割的5’-末端cDNA片斷結(jié)合于鏈霉抗生物素蛋白包被的磁珠(Dynal、Norway、Oslo)。使結(jié)合于磁珠的cDNA片斷在16μl的供給緩沖液中含有4單位的T4DNA連接酶的反應(yīng)液中、在16℃下互相直接結(jié)合2.5小時(shí)。使用引物-5’-GGA TTT GCT GGT GCA GTA CAA CTAGGC-3’/序列號(hào)8和5’-CTG CTC GAA TTC AAG CTT CTA ACGATG-3’/序列號(hào)9進(jìn)行PCR,擴(kuò)增雙標(biāo)記。PCR產(chǎn)物用聚丙烯酰胺凝膠電泳(PAGE)進(jìn)行分析,并用XhoI切割。將含有雙標(biāo)記的條帶切出使其自身連接,制作長(zhǎng)的連環(huán)體。在pZero1.0(Invitrogen)的XhoI部位克隆該連環(huán)體。使用M13正向和M13反向引物,使用PCR篩選群體。對(duì)含有超過(guò)600bp插入片斷的PCR產(chǎn)物使用Big Dye terminator ver.3測(cè)序,利用3730ABI自動(dòng)DNA測(cè)序儀(Applied Biosystems、加里福尼亞州)進(jìn)行分析。電泳圖全部通過(guò)目測(cè)檢查進(jìn)行再次分析,研究不清楚的堿基,更正錯(cuò)讀。使用SAGE 2000軟件(version 4.12),定量各標(biāo)記的存在量。
5’SAGE標(biāo)記與對(duì)應(yīng)基因的關(guān)聯(lián)性為了評(píng)價(jià)轉(zhuǎn)錄起始點(diǎn)的鑒定中5’SAGE標(biāo)記的有效性,需要避免5’SAGE標(biāo)記與目前cDNA/EST數(shù)據(jù)庫(kù)的比對(duì)。原因在于其序列一般并不限定于從轉(zhuǎn)錄起始點(diǎn)開(kāi)始讀取。取而代之,使用http//alps.gi.k.u-tokyo.ac.jp/中公開(kāi)的比對(duì)程序ALPS,嘗試將我們的5’-標(biāo)記與可在http//genome.ucsc.edu/中利用的人類基因組序列、NCBI build 34進(jìn)行比對(duì)。在該分析中僅考慮在有義方向上一致的標(biāo)記。
接著,利用Gene Resource Locator數(shù)據(jù)庫(kù)(Honkura,T.,Ogasawara,J.,Yamada,T.& Morishita,S.The Gene Resource Locatorgene locusmaps for transcriptome analysis.Nucleic Acids Res.30,221-225,2002URLhttp//grl.gi.k.u-tokyo.ac.jp/)、UniGene(Build 162)(Wheeler,D.L.Database Resources of the National Center for Biotechnology.NucleicAcids Res.31,28-33,2003 URL ftp//ftp.ncbi.nih.gov/repository/UniGene/)等各種資源的序列的比對(duì)的數(shù)據(jù)庫(kù),檢索各5’-標(biāo)記的比對(duì)位置附近,找出對(duì)應(yīng)的轉(zhuǎn)錄物。主要的問(wèn)題點(diǎn)是,由于逆轉(zhuǎn)錄轉(zhuǎn)座和基因組重復(fù),因此導(dǎo)致1個(gè)5’-標(biāo)記與作為多個(gè)非標(biāo)碼區(qū)域的多個(gè)位置比對(duì)。該問(wèn)題通過(guò)選擇在UniGene數(shù)據(jù)庫(kù)中加有注釋的基因編碼部位而解決。3’-標(biāo)記多集中于3’-末端外顯子(exon),但5’-標(biāo)記不需要與第1=外顯子相當(dāng)。因此,在距離各5’-標(biāo)記的比對(duì)位置500bp距離的范圍內(nèi)進(jìn)行檢索。
與已知的5’轉(zhuǎn)錄起始點(diǎn)的一致由于各5’SAGE標(biāo)記比對(duì)的位置與其對(duì)應(yīng)的基因間的距離短,因此說(shuō)明5’-標(biāo)記與已知5’轉(zhuǎn)錄起始點(diǎn)基本一致。但是,為了求出距離,必須留意在5’-標(biāo)記附近由于選擇性的剪接而導(dǎo)致的多個(gè)cDNA/EST序列比對(duì)頻繁出現(xiàn)。為了解決該狀況并對(duì)距離分派固有的值,選擇了距離5’-標(biāo)記最近的比對(duì)。5’-標(biāo)記位于對(duì)應(yīng)的cDNA上游區(qū)域時(shí),定義距離為負(fù)。如果不是這樣,值為正或零。特別是,距離零表示完全一致。為了觀察整體距離的分布,求出了mRNA起始點(diǎn)的-500~+200nt的5’SAGE標(biāo)記出現(xiàn)率的總數(shù)。分別使用RefSeq、UniGene(GRL)和DBTSS數(shù)據(jù)庫(kù),觀察到了覆蓋轉(zhuǎn)錄起始點(diǎn)的范圍的差異。
結(jié)果5’SAGE法為了得到關(guān)于轉(zhuǎn)錄起始部位的全面信息,本發(fā)明人等使用寡核苷酸帽法開(kāi)發(fā)了5’SAGE。5’SAGE法能夠生成來(lái)自于轉(zhuǎn)錄物5’末端的19~20bp的標(biāo)記,將其迅速分析,并匹配于基因組序列數(shù)據(jù)。圖1顯示了5’SAGE法的策略。
基因組的定位使用該方法,本發(fā)明人等研究了在試驗(yàn)細(xì)胞株HEK293細(xì)胞中表達(dá)的25,684個(gè)轉(zhuǎn)錄物的特征,并將它們與人類基因組序列相比較。整體中的19,893個(gè)標(biāo)記與表示13,404個(gè)不同標(biāo)記的基因組序列完全匹配(表1)。
13,404個(gè)不同標(biāo)記的80%(10,706個(gè)標(biāo)記)定位于唯一的位置。在基因組中匹配于多個(gè)部位的標(biāo)記中,定位于2個(gè)基因座(loci)的標(biāo)記位為11.1%(1483個(gè)標(biāo)記)、定位于3~99個(gè)基因座(loci)的標(biāo)記為8.1%(1090個(gè)標(biāo)記)、定位于100個(gè)或以上基因座(loci)的標(biāo)記為0.9%(125個(gè)標(biāo)記)。定位于多個(gè)基因組座的標(biāo)記大部分對(duì)應(yīng)于逆轉(zhuǎn)錄轉(zhuǎn)座子要素、反復(fù)序列或假基因。
表1 SAGE標(biāo)記和基因組的實(shí)驗(yàn)對(duì)照
#使用18bp 5’SAGE標(biāo)記擊中基因組的標(biāo)記的數(shù)。定位按照材料和方法的章節(jié)所記載的那樣實(shí)施。未擊中基因組的標(biāo)記在測(cè)序了的25,684個(gè)標(biāo)記中有5,791個(gè)。相對(duì)表達(dá)水平通過(guò)用在文庫(kù)中觀察到的轉(zhuǎn)錄物標(biāo)記的總數(shù)除以不同標(biāo)記的數(shù)來(lái)確定。
##使用20bp 3’SAGE標(biāo)記擊中基因組的標(biāo)記的數(shù)。定位按照材料和方法的章節(jié)所記載的那樣實(shí)施。未擊中基因組的標(biāo)記在測(cè)序了的81,211個(gè)標(biāo)記中有27,162個(gè)。
對(duì)mRNA起始部位的定位接著,本發(fā)明人等推測(cè)5’SAGE標(biāo)記是否匹配于mRNA起始部位。本發(fā)明人等使用了包括參考序列數(shù)據(jù)庫(kù)(RefSeq)、構(gòu)建含有涉及調(diào)節(jié)區(qū)域的順式要素和選擇性剪接轉(zhuǎn)錄物信息的基因圖的GeneResource Locator(GRL)、和含有人的全長(zhǎng)cDNAs的系統(tǒng)5’末端序列的DataBase of Transcriptional Start Site(DBTSS)(Suzuki,Y.et al.DBTSSDataBase of human Transcriptional Start Sites and full-lengthcDNAs.Nucleic Acids Res 30,328-331,2002)的3個(gè)數(shù)據(jù)庫(kù)。圖2表示距離的分布,表2表示距離短的標(biāo)記的發(fā)生比例,顯示了本發(fā)明人等的5’SAGE標(biāo)記與每個(gè)數(shù)據(jù)庫(kù)的起始部位信息充分一致。定位于每個(gè)數(shù)據(jù)庫(kù)的標(biāo)記的85.8%~98.2%定位于mRNA起始部位的-500核苷酸~+200核苷酸。
特別是,5’SAGE標(biāo)記的23.5~49.3%擊中這些數(shù)據(jù)庫(kù)中定義的轉(zhuǎn)錄起始部位(TSS)的上游區(qū)域。而且,本發(fā)明人等研究了5’SAGE標(biāo)記導(dǎo)致的TSS處的核苷酸選擇性(nucleotide preference)。據(jù)報(bào)告,TSS的核苷酸是使用276個(gè)人基因中的5880個(gè)mRNA的A(47%)、G(28%)、C(14%)和T(12%)(Suzuki,Y.et al.Diverse transcriptionalinitiation revealed by fine,large-scale mapping of mRNA start sites.EMBO Rep 2,388-393,2001)。另外,本發(fā)明人等的數(shù)據(jù)對(duì)于最初的核苷酸使用顯示了非常類似的百分率A(41%)、G(32%)、C(17%)和T(10%)。綜合考慮,本發(fā)明人等的5’SAGE標(biāo)記法能夠正確鑒定TSS。數(shù)據(jù)不僅為本發(fā)明人等提供了正確的轉(zhuǎn)錄起始部位信息,而且提供了用于分析啟動(dòng)子利用的資源。意味深長(zhǎng)的是,未匹配于基因組的標(biāo)記在本研究中占5’SAGE的全測(cè)序標(biāo)記的33%。其中,未匹配于基因組的5’SAGE標(biāo)記的第一核苷酸的39%也為A。能夠看到未匹配于基因組的幾個(gè)標(biāo)記擊中基因組中具有單一的核苷酸變異或缺失的區(qū)域。
表2 各數(shù)據(jù)庫(kù)中mRNA起始部位和對(duì)應(yīng)的5’SAGE標(biāo)記的距離
如圖2所示,分析對(duì)各數(shù)據(jù)庫(kù)的基因的5’末端的定位中一致的標(biāo)記。
新型基因或未被注釋的基因的鑒定為了鑒定特征不清楚的基因,將5’SAGE標(biāo)記與基因組序列、RefSeq和EST數(shù)據(jù)庫(kù)進(jìn)行比較。在基因組中具有單一座的10,706個(gè)獨(dú)特標(biāo)記中,能夠使9,376個(gè)標(biāo)記與其對(duì)應(yīng)的UniGene EST相關(guān)聯(lián)(表3)。而且,6,418個(gè)5’SAGE的獨(dú)特標(biāo)記與DBTSS中的已知基因關(guān)聯(lián)。剩余的標(biāo)記(12.4%)匹配于已知基因的內(nèi)含子內(nèi)的區(qū)域(5.4%)或特征不清楚的區(qū)域(6.6%)。匹配于特征不清楚的區(qū)域的標(biāo)記主要擊中2個(gè)部位(1)所有特征均不清楚的區(qū)域、(2)特征不清楚的EST區(qū)域只要有關(guān)于這種基因表達(dá)的證據(jù),則應(yīng)該對(duì)用于通過(guò)把3’SAGE作為參考從而發(fā)現(xiàn)全長(zhǎng)的新型基因有用。
表3 特征不清楚的候補(bǔ)基因和外顯子的鑒定
10,706個(gè)定位于獨(dú)特的位置,9,376個(gè)與對(duì)應(yīng)的UniGene EST關(guān)聯(lián)。
SAGE是可用于得到根據(jù)轉(zhuǎn)錄物量的定量信息的非常有力的方法。表4顯示了HEK293細(xì)胞中轉(zhuǎn)錄物剖面的5’末端。表達(dá)量最多的基因作為神經(jīng)絲蛋白3(NEF3)被鑒定,其出現(xiàn)頻率為1.43%,接下來(lái)是擊中多個(gè)基因座的基因和延長(zhǎng)因子2。NEF3、70kDa熱休克蛋白1A(70kDa熱休克蛋白1A)、calreticulin(鈣網(wǎng)蛋白)和heterogeneousnuclear Ribonucleoprotein H1(核內(nèi)不均一核糖核蛋白H1)之類的幾個(gè)基因顯示了不同的標(biāo)記。幾個(gè)基因顯示了是從不同TSS轉(zhuǎn)錄來(lái)的。例如,70kDa熱休克蛋白1A是從8個(gè)不同轉(zhuǎn)錄起始部位轉(zhuǎn)錄而來(lái)的。鈣網(wǎng)蛋白是從7個(gè)不同轉(zhuǎn)錄起始部位轉(zhuǎn)錄而來(lái)的。這些結(jié)果顯示每個(gè)轉(zhuǎn)錄起始部位可能與基因表達(dá)相關(guān)。另外,表4所示堿基序列的一部分也記載在之前給出的實(shí)施例1的結(jié)果中。在表4中還含有對(duì)照所得基因標(biāo)記序列和基因組序列的結(jié)果,與此相對(duì),實(shí)施例1中未將基因標(biāo)記序列與基因組序列對(duì)照。因此,即便基因標(biāo)記的堿基序列相同,在表4的基因列中所記載的內(nèi)容有時(shí)也與實(shí)施例1所記載的注釋不同。
表4 HEK293細(xì)胞中轉(zhuǎn)錄物剖面的5’末端
將在HEK293細(xì)胞中表達(dá)的上游50的5’末端轉(zhuǎn)錄物列表。標(biāo)記序列顯示18-bp的SAGE標(biāo)記。顯示標(biāo)記及與其對(duì)應(yīng)的Unigene/EST。
5’和3’SAGE標(biāo)記表達(dá)的一致本發(fā)明人等為了確認(rèn)5’SAGE的精度,嘗試了同一細(xì)胞中mRNA的3’-Long SAGE。在3’-Long SAGE中,本發(fā)明人等研究了在HEK293細(xì)胞株中被表達(dá)的81,212個(gè)轉(zhuǎn)錄物標(biāo)記的特征。全部中54,050個(gè)標(biāo)記匹配于表示15,423個(gè)不同標(biāo)記的基因組序列(表1)。15,423個(gè)不同標(biāo)記的75%(11,613個(gè)標(biāo)記)在基因組中匹配于一個(gè)部位。而且,8,359個(gè)3’SAGE標(biāo)記與UniGene EST中已知的基因相關(guān)聯(lián)(表3)。匹配于基因組中多個(gè)部位的標(biāo)記中,匹配于2個(gè)基因座的標(biāo)記為9%(1395個(gè)標(biāo)記)、匹配于3~99個(gè)基因座的標(biāo)記為13.2%(2,039個(gè)標(biāo)記)、匹配于100個(gè)或以上基因座的標(biāo)記為2.4%(376個(gè)標(biāo)記)。匹配于基因組中多個(gè)部位的標(biāo)記的比例在5’SAGE和3’SAGE之間非常相近(表2)。另一方面,5’SAGE標(biāo)記與3’SAGE標(biāo)記相比,非常的不均勻。
Seha等也同樣指出,每個(gè)基因組顯示多于10個(gè)拷貝的標(biāo)記與每個(gè)基因組僅顯示1個(gè)拷貝的標(biāo)記相比,平均地被高度表達(dá)(Saha,S.etal.Nat Biotechnol 20,508-512,2002)。本發(fā)明人等的數(shù)據(jù)還證明了在3~99基因座/基因組中,與5’SAGE和3’SAGE文庫(kù)中的其它部分相比,相對(duì)表達(dá)水平更高。這是由于通過(guò)逆轉(zhuǎn)錄轉(zhuǎn)座的基因表達(dá)和基因復(fù)制的相關(guān)的機(jī)理。為了推測(cè)2個(gè)文庫(kù)之間的類似性程度,比較了在5’SAGE和3’-Long SAGE之間表達(dá)的基因。
5’和3’標(biāo)記由于是從5’末端和3’末端開(kāi)始隨機(jī)采取,因此預(yù)測(cè)5’標(biāo)記與特定的全長(zhǎng)cDNA序列的相關(guān)概率與3’標(biāo)記匹配于cDNA的概率一致。但是,由于全長(zhǎng)的cDNA序列或者選擇性剪接轉(zhuǎn)錄物的采集不完全,因此即便這些標(biāo)記來(lái)自于同一編碼區(qū)域,也不能簡(jiǎn)單地確定5’標(biāo)記和3’標(biāo)記之間的正確的一致。一個(gè)有希望的途徑可能是綜合共有外顯子的EST比對(duì)作為基因編碼座的簇進(jìn)行處理,并將5’和3’SAGE標(biāo)記定位于這些簇及其上游的區(qū)域,發(fā)現(xiàn)5’和3’SAGE標(biāo)記表達(dá)之間的一致。這樣,本發(fā)明人等計(jì)算與每個(gè)基因編碼區(qū)域相關(guān)的3’(橫軸)和5’標(biāo)記(縱軸)對(duì)的產(chǎn)生數(shù),并且在圖3的二維平面上表示所有的對(duì)。通過(guò)比較表達(dá)模式,發(fā)現(xiàn)大多數(shù)的基因在雙方的文庫(kù)中以類似的水平表達(dá)。但是,幾個(gè)轉(zhuǎn)錄物以顯著不同的水平表達(dá),5’SAGE和3’SAGE文庫(kù)的皮爾森相關(guān)系數(shù)為0.36,顯示了中等程度的類似性。
相關(guān)為中等程度的理由是由于5’SAGE和3’SAGE文庫(kù)中的頻率分散。如以下來(lái)源的序列那樣,關(guān)于這些標(biāo)記的出現(xiàn)有幾個(gè)可能性。
(1)5’SAGE和3’SAGE中PCR擴(kuò)增的誤差(2)推測(cè)可能在3’SAGE中占據(jù)NlaIII限制部位的少數(shù)基因(3)推測(cè)可能在5’SAGE中占據(jù)XhoI限制部位的少數(shù)基因(4)5’SAGE和3’SAGE中的mRNA的未知的剪接變異(5)與標(biāo)記擊中多個(gè)基因組座相關(guān)的注釋誤差,或者對(duì)基因組的EST注釋誤差本研究作為例子僅鑒定了HEK293細(xì)胞中被表達(dá)的基因的部分。為了詳細(xì)記述被表達(dá)的基因的概要,需要來(lái)自多種不同細(xì)胞類型和環(huán)境條件的相當(dāng)多的標(biāo)記。如果積累數(shù)據(jù),則有可能可以解決與5’和3’SAGE標(biāo)記的表達(dá)一致相關(guān)的問(wèn)題。
考察幾個(gè)研究小組報(bào)告了mRNA起始部位(Suzuki,Y.et al.Diversetranscriptional initiation revealed by fine,large-scale mapping of mRNAstart sites.EMBO Rep 2,388-393,2001)和多腺苷酸化切割部位(Pauws,E.van Kampen,A.H.,van de Graaf,S.A.,de Vijlder,J.J.&Ris-Stalpers,C.Heterogeneity in polyadenylation cleavage sites inmammalian mRNA sequencesimplications for SAGE analysis.NucleicAcids Res 29,1690-1694,2001)顯示不均一性。Shiraki等人報(bào)告了構(gòu)建時(shí)特定基因的TSS的差別(Shiraki,T.et al.Cap analysis geneexpression for high-throughput analysis of transcriptional starting pointand identification of promoter usage.Proc Natl Acad Sci USA 100,15776-15781,2003),但本發(fā)明人等的數(shù)據(jù)顯示TSS的多樣性在細(xì)胞中已經(jīng)存在。而且,本發(fā)明人等的數(shù)據(jù)通過(guò)5’SAGE和3’SAGE法而提供了關(guān)于TSS和3’末端區(qū)域的不均一性的直接證據(jù)。
例如,PPAR結(jié)合蛋白具有1個(gè)TSS和2個(gè)3’SAGE標(biāo)記部位,核糖體蛋白質(zhì)S4具有16個(gè)TSS和1個(gè)3’SAGE標(biāo)記部位,鈣網(wǎng)蛋白具有7個(gè)TSS和1個(gè)3’SAGE標(biāo)記部位。而且,選擇性的mRNA剪接與人類蛋白質(zhì)組的復(fù)雜性極為重要地相關(guān)。最近的基因組研究表明人類基因的46~60%被選擇性剪接(Modrek,B.& Lee,C.Agenomic view of alternative splicing.Nature Genetics 30,13-19,2002)。推測(cè)點(diǎn)突變的15%是由于mRNA剪接缺損而引起人類遺傳疾病(Krawczak,M.,Reiss,J.& Cooper,D.N.The mutational spectrum ofsingle base-pair substitutions in mRNA splice junctions of human genescauses and consequences.Hum Genet 90,41-54,1992)。
Zavolan等人報(bào)告了多數(shù)具有剪接型的轉(zhuǎn)錄單位,其49%含有在使用選擇性轉(zhuǎn)錄開(kāi)始時(shí)伴隨的最初外顯子的選擇性剪接的轉(zhuǎn)錄物(Zavolan,M.et al.Impact of alternative initiation,splicing andtermination on the diversity of the mRNA transcripts encoded by themouse transcriptome,Genome Res 13,1290-1300,2003)。本發(fā)明人等還發(fā)現(xiàn),過(guò)氧化物酶4(NM 006406)之類的幾個(gè)基因的各自mRNA起始部位不僅顯示了mRNA的不同的剪接變體,而且顯示了基因表達(dá)的不同的量。這說(shuō)明選擇性轉(zhuǎn)錄有經(jīng)常誘導(dǎo)選擇性剪接的可能。
最近報(bào)告了使用Cap-trapper系統(tǒng)鑒定轉(zhuǎn)錄起始點(diǎn)的新型方法(Shiraki,T.et al.Proc Natl Acad Sci USA 100,15776-1578l,2003)。但是,mRNA起始部位的定位的鑒定效率在這些方法中并不顯著。通過(guò)本發(fā)明人等的研究中記載的5’SAGE法,能夠正確定位TSS,同樣能夠確立基因表達(dá)的頻率。
綜上所述,如果利用5’SAGE法,有可能在很大程度上促進(jìn)基因組的注釋。由于5’SAGE是不依賴于基因序列的經(jīng)驗(yàn)知識(shí)的少數(shù)的高生產(chǎn)量的發(fā)現(xiàn)途徑之一,因此通過(guò)該種數(shù)據(jù),能夠立刻進(jìn)行in silico基因預(yù)測(cè)的獨(dú)立確認(rèn)和未注釋區(qū)域的鑒定。而且,5’SAGE法對(duì)于在5’UTR/啟動(dòng)子區(qū)域中發(fā)現(xiàn)SNP也是有用的。如果全面地鑒定從不同類型的特異mRNA起始部位轉(zhuǎn)錄而來(lái)的基因,則不僅能夠得到對(duì)人類基因組的功能復(fù)雜性的說(shuō)明,而且,能夠獲得對(duì)于癌、免疫和神經(jīng)疾病之類的各種障礙的診斷基礎(chǔ)的新的見(jiàn)解。
最后,如果考慮5’末端的多樣性,則為了確定基因表達(dá)的頻率,進(jìn)行5’SAGE比進(jìn)行3’SAGE更為恰當(dāng)。
綜上所述,本發(fā)明對(duì)于基因標(biāo)記的獲取是有用的?;驑?biāo)記是基因所固有的堿基序列信息。因此,在某個(gè)基因文庫(kù)中標(biāo)記的出現(xiàn)頻率反映著構(gòu)成該文庫(kù)的所有基因的表達(dá)狀態(tài)。為此,基因標(biāo)記對(duì)于基因表達(dá)分析是有用的。特別是通過(guò)本發(fā)明能夠得到的基因標(biāo)記是根據(jù)所有mRNA所具有的5’末端的結(jié)構(gòu)而生成的。因此,以通過(guò)本發(fā)明所生成的標(biāo)記為基礎(chǔ)的基因表達(dá)分析結(jié)果的可靠性更高。
另外,本發(fā)明的標(biāo)記含有mRNA的5’末端區(qū)域的堿基序列信息。因此,以通過(guò)本發(fā)明生成的標(biāo)記的堿基序列信息為基礎(chǔ),能夠鑒定基因組的轉(zhuǎn)錄起始點(diǎn)。另外,以本發(fā)明標(biāo)記的堿基序列信息為基礎(chǔ)設(shè)計(jì)的寡核苷酸可作為全長(zhǎng)cDNA的合成用引物利用。
另外,本說(shuō)明書(shū)中所引用的所有現(xiàn)有技術(shù)文獻(xiàn)都是作為參考納入本說(shuō)明書(shū)的。
序列表<110>株式會(huì)社后基因組研究所<120>基因標(biāo)記的獲取方法<130>PGI-A0301YlP<150>JP 2003-402306<151>2003-12-01<150>JP 2004-6630<151>2004-01-14<160>69<170>PatentIn version 3.1<210>1<211>48<212>RNA<213>Artificial<220>
<223>an artificially synthesized RNA linker sequence<400>1uuuggauuug cuggugcagu acaacuaggc uuaauacucg aguccgac 48<211>46<212>RNA<213>Artificial<220>
<223>an artificially synthesized RNA linker sequence<400>2uuucugcucg aauucaagcu ucuaacgaug uacgcucgag uccgac 46<210>3<211>42<212>DNA<213>Artificial<220>
<223>an artificially synthesized primer sequence<400>3gcggctgaag acggcctatg tggccttttt tttttttttt tt 42<210>4<211>32<212>DNA<213>Artificial
<220>
<223>an artificially synthesized primer sequence<220>
<221>misc_feature<222>(26)..(31)<223>″n″=a,t,g or c<400>4gcggctgaag acggcctatg tggccnnnnn nc 32<210>5<211>33<212>DNA<213>Artificial<220>
<223>an artificially synthesi zed primer sequence<220>
<221>misc_feature<222>(1)..(1)<223>Label biotin<400>5ggatttgctg gtgcagtaca actaggctta ata 33<210>6<211>31<212>DNA<213>Artificial<220>
<223>an artificially synthesized primer sequence<220>
<221>misc_feature<222>(1)..(1)<223>Label biotin<400>6ctgctcgaat tcaagcttct aacgatgtac g 31<210>7<211>21<212>DNA<213>Artificial<220>
<223>an artificially synthesized primer sequence<400>7gcggctgaag acggcctatg t 21
<210>8<211>27<212>DNA<213>Artificial<220>
<223>an artificially synthesized primer sequence<400>8ggatttgctg gtgcagtaca actaggc27<210>9<211>27<212>DNA<213>Artificial<220>
<223>an artificially synthesized primer sequence<400>9ctgctcgaat tcaagcttct aacgatg27<210>10<211>18<212>DNA<213>Homo sapiens<400>10acatctgacc tcatggag 18<210>11<211>18<212>DNA<213>Homo sapiens<400>11ctctttcctt gcctaacg 18<210>12<211>18<212>DNA<213>Homo sapiens<400>12tacctggttg atcctgcc 18<210>13<211>18<212>DNA<213>Homo sapiens<400>13
cttttcctgt ggcagcag 18<210>14<211>18<212>DNA<213>Homo sapiens<400>14ctcttccgcc gtcgtcgc 18<210>15<211>18<212>DNA<213>Homo sapiens<400>15ctcattgaac tcgcctgc 18<210>16<211>18<212>DNA<213>Homo sapiens<400>16ctggttgatc ctgccagt 18<210>17<211>18<212>DNA<213>Homo sapiens<400>17ctcagtcgcc gctgccag 18<210>18<211>18<212>DNA<213>Homo sapiens<400>18ctttcactgc aaggcggc 18<210>19<211>18<212>DNA<213>Homo sapiens<400>19acgctgtgac agccacac 18<210>20
<211>18<212>DNA<213>Homo sapiens<400>20gtgacagcca cacgcccc 18<210>21<211>18<212>DNA<213>Homo sapiens<400>21aacggctagc ctgaggag 18<210>22<211>18<212>DNA<213>Homo sapiens<400>22agtagcagca gcgccggg 18<210>23<211>18<212>DNA<213>Homo sapiens<400>23attcctagtt aaggcggc 18<210>24<211>18<212>DNA<213>Homo sapiens<400>24aattgtgttc gcagccgc 18<210>25<211>18<212>DNA<213>Homo sapiens<400>25atatttctta ctctctcg 18<210>26<211>18<212>DNA<213>Homo sapiens
<400>26ctcagtcgcc gctgccaa 18<210>27<211>18<212>DNA<213>Homo sapiens<400>27aaaacggcca gcctgagg 18<210>28<211>18<212>DNA<213>Homo sapiens<400>28ctctctttca ctgcaagg 18<210>29<211>18<212>DNA<213>Homo sapiens<400>29aatttctacg cgcaccgg 18<210>30<211>18<212>DNA<213>Homo sapiens<400>30accgccgaga ccgcgtcc 18<210>31<211>18<212>DNA<213>Homo sapiens<400>31agacgcagag tagattgt 18<210>32<211>18<212>DNA<213>Homo sapiens<400>32agttcgatcg gtagcggg 18
<210>33<211>18<212>DNA<213>Homo sapiens<400>33agttctcggg cgtacggc 18<210>34<211>18<212>DNA<213>Homo sapiens<400>34agttgcttca gcgtcccg 18<210>35<211>18<212>DNA<213>Homo sapiens<400>35attaaacggt tgcaggcg 18<210>36<211>18<212>DNA<213>Homo sapiens<400>36ccggccgggg ggcgggcg 18<210>37<211>18<212>DNA<213>Homo sapiens<400>37ccttttggct ctctgacc 18<210>38<211>18<212>DNA<213>Homo sapiens<400>38ctcagtacag ctccggcc 18<210>39<211>18<212>DNA<213>Homo sapiens
<400>39ctctttcggc cgcgctgg 18<210>40<211>45<212>DNA<213>Artificial<220>
<223>an artificially synthesized DNA linker sequence<400>40tttggatttg ctggtgcagt acaactaggc ttaatatccg acatg45<210>41<211>38<212>DNA<213>Artificial<220>
<223>an artificially synthesized DNA linker sequence<220>
<221>misc_feature<222>(38)..(38)<223>C7-amino-modified<400>41tcggatatta agcctagttg tactgcacca gcaaatcc38<210>42<211>43<212>DNA<213>Artificial<220>
<223>an artificially synthesized DNA linker sequence<400>42tttctgctcg aattcaagct tctaacgatg tacgtccgac atg 43<210>43<211>36<212>DNA<213>Artificial<220>
<223>an artificially synthesized DNA linker sequence<220>
<221>misc_feature<222>(36)..(36)<223>C7-amino-modified
<400>43tcggacgtac atcgttagaa gcttgaattc gagcag 36<210>44<211>18<212>DNA<213>Homo sapiens<400>44gctgtgacag ccacacgc 18<201>45<211>18<212>DNA<213>Homo sapiens<400>45ctttttcgca acgggttt 18<210>46<211>18<212>DNA<213>Homo sapiens<400>46cctcctcatc acacgccg 18<210>47<211>18<212>DNA<213>Homo sapiens<400>47ctttctgccc gtggacgc 18<210>48<211>18<212>DNA<213>Homo sapiens<400>48agtacagctc cggccgcc 18<210>49<211>18<212>DNA<213>Homo sapiens<400>49cacctgtttg caggctgc 18
<210>50<211>18<212>DNA<213>Homo sapiens<400>50gtccgtactg cagagccg 18<210>51<211>18<212>DNA<213>Homo sapiens<400>51atttcgtctt agccacgc 18<210>52<211>18<212>DNA<213>Homo sapiens<400>52aggcattgag gcagccag 18<210>53<211>18<212>DNA<213>Homo sapiens<400>53agtgggcgga ccgcgcgg 18<210>54<211>18<212>DNA<213>Homo sapiens<400>54cccaatttct acgcgcac 18<210>55<211>18<212>DNA<213>Homo sapiens<400>55ctcgttgcgc agtagtgc 18<210>56<211>18<212>DNA
<213>Homo sapiens<400>56gtgctgcagc cgctgccg 18<210>57<211>18<212>DNA<213>Homo sapiens<400>57catttcgtct tagccacg 18<210>58<211>18<212>DNA<213>Homo sapiens<400>58ctctttccct aagcagcc 18<210>59<211>18<212>DNA<213>Homo sapiens<400>59gactaatttg ttggcggc 18<210>60<211>18<212>DNA<213>Homo sapiens<400>60acctcattca tttctacc 18<210>61<211>18<212>DNA<213>Homo sapiens<400>61cctttctgcc cgtggacg 18<210>62<211>18<212>DNA<213>Homo sapiens<400>62agtatctgtg ggtacccg 18
<210>63<211>18<212>DNA<213>Homo sapiens<400>63caatttctac gcgcaccg 18<210>64<211>18<212>DNA<213>Homo sapiens<400>64gcacacagcc atccatcc 18<210>65<211>18<212>DNA<213>Homo sapiens<400>65agtgacgcgt attgcctg 18<210>66<211>18<212>DNA<213>Homo sapiens<400>66ctctttccag ccagcgcc 18<210>67<211>18<212>DNA<213>Homo sapiens<400>67cttttccgcc cgctcccc 18<210>68<211>18<212>DNA<213>Homo sapiens<400>68gcgtcttgtt cttgcctg 18<210>69<211>18
<212>DNA<213>Homo sapiens<400>69atatagaggc tgggggtg 18
權(quán)利要求
1.一種真核細(xì)胞的基因標(biāo)記的制造方法,其含有以下工序(1)在RNA的CAP部位連接含有IIs型限制性酶的識(shí)別序列的RNA接頭的工序、(2)以(1)的RNA為模板合成cDNA的工序、(3)使識(shí)別RNA接頭中所含有的識(shí)別序列的IIs型限制性酶作用于(2)的cDNA,從而生成基因標(biāo)記的工序。
2.如權(quán)利要求1所述的方法,其中工序(2)含有通過(guò)以下工序合成cDNA的工序(i)通過(guò)對(duì)RNA的任意區(qū)域退火的引物來(lái)合成cDNA的第1鏈的工序、和(ii)通過(guò)對(duì)以第1鏈的RNA接頭為模板合成的區(qū)域退火的引物合成cDNA的第2鏈,從而制成雙鏈cDNA的工序。
3.如權(quán)利要求2所述的方法,其中,對(duì)以第1鏈的RNA接頭為模板合成的區(qū)域退火的引物具有能夠結(jié)合于固相的標(biāo)識(shí)、或者被固定在固相上,另外,所述方法還進(jìn)一步含有通過(guò)回收所述固相來(lái)回收雙鏈cDNA的工序。
4.如權(quán)利要求3所述的方法,其中在使IIs型限制性酶作用之前或之后回收固相。
5.如權(quán)利要求1所述的方法,其中RNA接頭進(jìn)一步含有II型限制性酶的識(shí)別序列。
6.如權(quán)利要求1所述的方法,該方法進(jìn)一步含有使基因標(biāo)記的IIs型限制性酶的切割部位與其它基因標(biāo)記的IIs型限制性酶的切割部位連接,從而生成雙標(biāo)記的工序。
7.如權(quán)利要求6所述的方法,該方法進(jìn)一步含有通過(guò)對(duì)RNA接頭退火的引物來(lái)擴(kuò)增雙標(biāo)記的工序。
8.如權(quán)利要求1所述的方法,該方法進(jìn)一步含有在基因標(biāo)記的IIs型限制性酶的切割部位上連接具有任意堿基序列的連接物,通過(guò)對(duì)RNA接頭和所述連接物退火的引物來(lái)擴(kuò)增基因標(biāo)記的工序。
9.一種基因標(biāo)記的連環(huán)體的制造方法,該方法含有將多個(gè)通過(guò)權(quán)利要求1所述的方法生成的基因標(biāo)記進(jìn)行連接的工序。
10.一種基因標(biāo)記的連環(huán)體的制造方法,該方法含有將多個(gè)通過(guò)權(quán)利要求6所述的方法生成的基因標(biāo)記進(jìn)行連接的工序。
11.一種基因標(biāo)記的堿基序列的確定方法,該方法含有確定通過(guò)權(quán)利要求9或權(quán)利要求10所述的方法制造的連環(huán)體的堿基序列的工序。
12.一種基因標(biāo)記的制造用試劑盒,該試劑盒含有以下要素(a)由含有IIs型限制性酶的識(shí)別序列的寡核苷酸構(gòu)成的RNA接頭、(b)用于將RNA接頭與RNA的CAP部位連接的試劑、(c)由對(duì)以RNA接頭為模板合成的cDNA退火的寡核苷酸構(gòu)成的cDNA第2鏈合成用的引物、(d)cDNA第1鏈合成用引物。
13.如權(quán)利要求12所述的試劑盒,其中cDNA第1鏈合成用引物是選自以下i)~iii)中的任一個(gè),i)隨機(jī)引物、ii)寡dT引物、和iii)含有與特定mRNA互補(bǔ)的堿基序列的引物。
14.一種真核細(xì)胞中基因表達(dá)譜的獲取方法,該方法含有以下工序(1)通過(guò)權(quán)利要求1所述的方法制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序、和(3)通過(guò)對(duì)應(yīng)所確定的堿基序列及其出現(xiàn)頻率而得到表達(dá)譜的工序。
15.一種基因表達(dá)譜的數(shù)據(jù)庫(kù),其中積累了通過(guò)權(quán)利要求14所述的方法所獲得的基因表達(dá)譜信息。
16.一種基因表達(dá)譜的分析方法,該方法含有下述工序通過(guò)權(quán)利要求14所述的方法獲得不同種類細(xì)胞的基因表達(dá)譜,比較基因表達(dá)譜并選擇在細(xì)胞間表達(dá)頻率不同的基因標(biāo)記。
17.一種基因的轉(zhuǎn)錄起始點(diǎn)的確定方法,該方法含有以下工序(1)通過(guò)權(quán)利要求1所述的方法制造基因標(biāo)記的工序、(2)確定(1)的基因標(biāo)記的堿基序列的工序、和(3)將所確定的堿基序列定位于基因組的堿基序列上,并將堿基序列一致的區(qū)域作為該基因的轉(zhuǎn)錄起始點(diǎn)來(lái)鑒定的工序。
18.如權(quán)利要求17所述的方法,其特征在于,其中用于合成cDNA第1鏈的引物是由從特定基因的堿基序列中選擇的堿基序列構(gòu)成的,另外,所述方法包含確定該基因的轉(zhuǎn)錄起始點(diǎn)。
19.一種cDNA合成用引物組,其包含用于合成含有通過(guò)以下工序確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、以及對(duì)cDNA的任意部位退火的3’端引物,(1)通過(guò)權(quán)利要求1所述的方法制造基因標(biāo)記的工序、和(2)確定(1)的基因標(biāo)記的堿基序列的工序。
20.如權(quán)利要求19所述的引物組,其中3’端引物是選自下述引物中的任一個(gè),i)寡dT引物、ii)cDNA的片斷序列信息、和iii)由與cDNA的II型限制性酶識(shí)別鄰接的基因標(biāo)記的堿基序列或其互補(bǔ)序列構(gòu)成的引物。
21.一種全長(zhǎng)cDNA的合成方法,該方法含有以下工序a)使用用于合成含有通過(guò)以下(1)~(2)工序確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、和由寡dT引物構(gòu)成的3’端引物,以RNA或cDNA為模板進(jìn)行互補(bǔ)鏈合成反應(yīng)的工序,(1)通過(guò)權(quán)利要求1所述的方法制造基因標(biāo)記的工序、和(2)確定(1)的基因標(biāo)記的堿基序列的工序;b)將合成的DNA作為全長(zhǎng)cDNA回收的工序。
22.一種可通過(guò)權(quán)利要求21所述的方法得到的全長(zhǎng)cDNA。
23.一種含有由權(quán)利要求22所述的全長(zhǎng)cDNA編碼的氨基酸序列的多肽。
24.一種識(shí)別權(quán)利要求23所述的多肽的抗體。
25.一種將權(quán)利要求22所述的全長(zhǎng)cDNA的編碼區(qū)域以可表達(dá)的方式保持的載體。
26.一種將權(quán)利要求25所述的載體以可表達(dá)的方式保持的轉(zhuǎn)化體。
27.一種權(quán)利要求23所述的多肽的制造方法,該方法含有培養(yǎng)權(quán)利要求26所述的轉(zhuǎn)化體、并回收表達(dá)產(chǎn)物的工序。
28.一種權(quán)利要求23所述的多肽的制造方法,該方法含有以下工序i)將含有功能性地連接于啟動(dòng)子的權(quán)利要求22所述的全長(zhǎng)cDNA的編碼區(qū)域的DNA構(gòu)成物與支持生物體外翻譯的要素相接觸的工序、和ii)回收表達(dá)產(chǎn)物的工序。
29.含有mRNA的5’末端堿基序列的cDNA的合成方法,該方法含有以下工序a)使用用于合成含有通過(guò)以下工序(1)~(2)所確定的堿基序列或其互補(bǔ)序列的cDNA的5’端引物、和由與目標(biāo)mRNA的任意區(qū)域互補(bǔ)的堿基序列構(gòu)成的3’側(cè)引物,以RNA或cDNA為模板進(jìn)行互補(bǔ)鏈合成反應(yīng)的工序,(1)通過(guò)權(quán)利要求1所述的方法制造基因標(biāo)記的工序、和(2)確定(1)的基因標(biāo)記的堿基序列的工序;b)將合成的DNA作為含有mRNA的5’末端堿基序列的cDNA回收的工序。
30.一種確定mRNA的5’側(cè)堿基序列的方法,該方法含有確定通過(guò)權(quán)利要求29所述的方法回收的cDNA的堿基序列的工序。
全文摘要
本發(fā)明提供一種用于將mRNA的5’末端堿基序列作為標(biāo)記生成的方法。本發(fā)明的方法包括以將含有IIs型限制性酶識(shí)別序列的IIs接頭連接在CAP結(jié)構(gòu)上的mRNA作為模板合成cDNA的工序。通過(guò)使IIs型限制性酶作用于該cDNA,生成由mRNA的5’末端堿基序列構(gòu)成的標(biāo)記。本方法能夠不依賴于堿基序列而從所有mRNA中生成標(biāo)記。根據(jù)本發(fā)明的標(biāo)記的堿基序列信息,提供轉(zhuǎn)錄起始點(diǎn)的鑒定方法和全長(zhǎng)cDNA合成用引物。
文檔編號(hào)C12N1/19GK1914318SQ200480041239
公開(kāi)日2007年2月14日 申請(qǐng)日期2004年6月4日 優(yōu)先權(quán)日2003年12月1日
發(fā)明者橋本真一, 松島綱治, 菅野純夫 申請(qǐng)人:株式會(huì)社后基因組研究所