專利名稱:一種針對目標(biāo)生物的目標(biāo)基因建立系統(tǒng)進(jìn)化樹的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及遺傳信息分析方法,特別是涉及系統(tǒng)進(jìn)化樹的建立方法。
背景技術(shù):
在對生物進(jìn)化和系統(tǒng)分類進(jìn)行研究時,常用一種樹狀分枝的圖型來表示各種生物 之間的 親緣關(guān)系,這種樹狀分枝的圖型被稱為系統(tǒng)進(jìn)化樹(phylogenetic tree,也叫系統(tǒng) 發(fā)育樹),簡稱系統(tǒng)樹。通過比較生物大分子序列差異的數(shù)值來構(gòu)建的系統(tǒng)樹稱為分子系統(tǒng) 樹。系統(tǒng)進(jìn)化樹分枝的末端和分枝的連結(jié)點(diǎn)稱為結(jié),表示生物類群,分枝末端的結(jié)代表仍生 存的種類。系統(tǒng)進(jìn)化樹可以有時間比例,或者用結(jié)之間的分枝長度變化來表現(xiàn)序列的差異 值。系統(tǒng)進(jìn)化樹有無根樹和有根樹(rooted tree)兩種形式之分。前者只表示生物類群之 間的系統(tǒng)進(jìn)化關(guān)系,不反映進(jìn)化途徑;而后者不僅表示出生物之間的親疏,而且反映出它們 有共同的起源及進(jìn)化方向。構(gòu)建有根的系統(tǒng)進(jìn)化樹是相當(dāng)困難的,例如,連結(jié)4種生物的無 根樹只有3種可能,而有根樹則存在15種可能。構(gòu)建分子系統(tǒng)(進(jìn)化)樹,是在進(jìn)行序列測定獲得原始序列資料后,由計算機(jī)排 序,使各分子的序列同源位點(diǎn)對應(yīng),并計算出相似性或進(jìn)化距離。接著,使用計算機(jī)軟件根 據(jù)各分子序列的相似性或進(jìn)化距離構(gòu)建系統(tǒng)進(jìn)化樹。計算機(jī)分析系統(tǒng)采用進(jìn)化相關(guān)性構(gòu)建 系統(tǒng)樹時,可以有諸多方法,其中常用有最節(jié)省分析法或稱簡約法。這種方法推斷譜系的原 理是在所有可能的譜系關(guān)系中,涉及進(jìn)化改變的序列特征數(shù)最少的譜系是最可信的。因 此,在比較過程中要找到比較決定性的分子序列。這種分析方法是基于“進(jìn)化變化的發(fā)生是 沿著最短的途徑、發(fā)生最少的、變化從祖先進(jìn)化成今天所比較的生物種類”這一假設(shè)。伍斯(1981年)等提出了一個函蓋整個生命界的有根系統(tǒng)進(jìn)化樹,而后又進(jìn)行了 多次修改和補(bǔ)充,該系統(tǒng)進(jìn)化樹勾畫了生物進(jìn)化的大致輪廓。根部的結(jié)代表地球上最先出 現(xiàn)的生物,為現(xiàn)有生物的共同祖先。從該系統(tǒng)進(jìn)化樹所反映的進(jìn)化關(guān)系可以看出,真核生物 離共同祖先最遠(yuǎn),它們是進(jìn)化程度最高的生物種類。在目前的分子生物領(lǐng)域的研究中,隨著不同物種遺傳信息尤其是基因組和蛋白組 測序的快速發(fā)展,產(chǎn)生了大量的DNA和蛋白序列信息,因此非常需要一種簡便而快速的分 析方法來對這些數(shù)據(jù)進(jìn)行有效的分析,以提取其中包含的大量信息,用于對目標(biāo)生物的目 標(biāo)基因進(jìn)行研究。其中,建立系統(tǒng)進(jìn)化樹是眾多方法中最為常見的分析方法之一。目前,關(guān)于系統(tǒng)進(jìn)化樹的研究主要集中在軟件的開發(fā)及其與數(shù)據(jù)庫的接合,現(xiàn)有 的系統(tǒng)進(jìn)化樹建立方法多基于軟件功能的強(qiáng)化和多閾值優(yōu)化組合設(shè)定,而缺少從生物親緣 關(guān)系和數(shù)據(jù)庫優(yōu)化利用的角度來改進(jìn)系統(tǒng)進(jìn)化樹的建立方法。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明人提出了一種改進(jìn)的針對目標(biāo)生物的目標(biāo)基因建立系 統(tǒng)進(jìn)化樹的方法,所述方法包括如下步驟1)數(shù)據(jù)的獲??;
2)序列的比對和分析;和3)系統(tǒng)進(jìn)化樹的構(gòu)建; 其中,在所述第1)步驟中,下載所述目標(biāo)蛋白的結(jié)構(gòu)域,通過基因組或蛋白組已 經(jīng)測序完成的生物蛋白數(shù)據(jù)庫搜索獲取含有所述結(jié)構(gòu)域的序列,并使用基因組或蛋白組已 經(jīng)測序完成的生物的目標(biāo)基因搜索近緣植物的蛋白序列。在一個優(yōu)選的方案中,所述目標(biāo)生物為植物。在一個優(yōu)選的方案中,所述植物為開花植物。在一個優(yōu)選的方案中,所述開花植物為青花菜(Brassica oleraceaL. var. italica P.),并且所述近緣植物為擬南芥、大白菜和/或油菜。優(yōu)選的是,在第1)步驟中,所述結(jié)構(gòu)域從Pfam網(wǎng)站上下載。優(yōu)選的是,在第1)步驟中,所述生物蛋白數(shù)據(jù)庫為NCBI蛋白數(shù)據(jù)庫和/或開花 植物 EST 庫(The Floral Genome Project,http://fgp. bio. psu. edu/),選擇閾值為閾值 Ele^50優(yōu)選的是,所述第2)步驟采用Clustal XI. 83軟件以默認(rèn)參數(shù)進(jìn)行。優(yōu)選的是,在所述第2)步驟中,還包括手工校對修正所述結(jié)構(gòu)域兩側(cè)的比對結(jié)果 和去除缺口(gap)序列,更優(yōu)選包括統(tǒng)計保守位點(diǎn)和變異區(qū)。更優(yōu)選的是,所述第3)步驟采用MEGA4. 0軟件的鄰接法(neighbor-joining tree)構(gòu)建。由于本發(fā)明方法包括上述第1)至3)步驟,而且從物種親緣關(guān)系和基因組或蛋白 組完成測序的數(shù)據(jù)庫兩方面予以結(jié)合考慮,因此可以建立更加準(zhǔn)確的系統(tǒng)進(jìn)化樹,從而可 以為今后基因功能的驗證提供更具有價值的參考。
圖1植物CesA基因編碼氨基酸序列保守區(qū)QVLRW的多重比對結(jié)果,箭頭所示為保 守區(qū)QVLRW ;禾口圖2植物CesA基因編碼氨基酸序列鋅指結(jié)構(gòu)域的多重比對結(jié)果,箭頭所示為鋅指 結(jié)構(gòu)域。圖3纖維素合成酶基因蛋白序列的系統(tǒng)發(fā)生關(guān)系樹。
具體實施例方式實施例本研究以青花菜纖維素合成酶(CesA)基因作為目標(biāo)基因舉例說明本發(fā)明的方 法。1、數(shù)據(jù)的獲取從Pfam網(wǎng)站上下載纖維素合成酶結(jié)構(gòu)域(PF03552)的Is模型,通過HMMER2. 3. 2 的hmmsearch功能(默認(rèn)參數(shù))搜索下載到本地的擬南芥(Arabidopsis thaliana」 http//www, arabidopsis. org/)、/K 禾苗(Oryza sativa :http://rice, plantbiology. msu. edu/)、毛果楊(Populus trichocarpa :http//genome, jgi-psf. org/Poptrl 1/ Poptrl 1. home, html)、葡萄(Vitisvinifera :http://www, genoscope. ens, fr/externe/GenomeBrowser/Vitis/)蛋白質(zhì)數(shù)據(jù)庫中含有該結(jié)構(gòu)域的蛋白序列,凡是閾值E < 0. 001的 序列都認(rèn)為是該超基因家族的成員在NCBI 網(wǎng)站和開花植物 EST 庫(The Floral Genome Project, http //fgp. bio. psu. edu/)使用擬南芥的 AtCesAl、AtCesA3、AtCesA6、AtCesA8 基因和水稻的 0sCesA7、 0sCesA9, 0sCesA3基因的蛋白序列通過PSI-BLAST搜索大白菜、油菜、棉花、玉米、小麥、馬 鈴薯CesA基因的蛋白序列,凡是閾值E ( Ie-5的序列都認(rèn)為是CesA蛋白序列。2、序列比對與分析在得到的10個物種的纖維素合成酶超基因家族的氨基酸序列后,首先利用 Clustal XI. 83軟件對該蛋白家族的氨基酸序列進(jìn)行多序列比對,參數(shù)為默認(rèn)參數(shù)。然后在 此基礎(chǔ)上進(jìn)行手工校對修正結(jié)構(gòu)域兩側(cè)的比對結(jié)果,根據(jù)Pfam提供的結(jié)構(gòu)域模型去除結(jié) 構(gòu)域兩端的非同源序列,保留包含結(jié)構(gòu)域的蛋白序列,最后去除所有g(shù)ap并用MUSCLE3.6軟 件(默認(rèn)參數(shù))對其重新進(jìn)行序列比對。依據(jù)比對結(jié)果分析纖維素合成酶結(jié)構(gòu)域的分布特 點(diǎn)與排列方式,統(tǒng)計蛋白序列中的保守位點(diǎn)、變異區(qū)等參數(shù)。3、構(gòu)建系統(tǒng)進(jìn)化樹采用MEGA4. 0軟件的鄰接法(neighbor-joining tree)構(gòu)建鄰接樹模式Amino p-distance,狀態(tài) Pairwise Deletion,Bootstrap 檢驗使用 1000 次重復(fù)。4、結(jié)果與分析4. 1被子植物CesA基因的鑒定在擬南芥、水稻、楊樹、葡萄基因組中分別篩選到26、30、39、50個包含纖維素合成 酶結(jié)構(gòu)域的蛋白序列,其中部分已確定功能并加以命名。來源于NCBI數(shù)據(jù)庫的大白菜、油 菜、棉花、玉米、小麥、馬鈴薯中已經(jīng)分離出的CesA基因及其編碼的蛋白質(zhì)序列共有26個 (表 1)。表1纖維素合成酶基因的氨基酸序列
權(quán)利要求
一種針對目標(biāo)生物的目標(biāo)基因建立系統(tǒng)進(jìn)化樹的方法,所述方法包括如下步驟1)數(shù)據(jù)的獲取;2)序列的比對和分析;和3)系統(tǒng)進(jìn)化樹的構(gòu)建;其中,在第1)步驟中,下載所述目標(biāo)基因的蛋白的結(jié)構(gòu)域,通過基因組或蛋白組已經(jīng)測序完成的生物蛋白數(shù)據(jù)庫搜索獲取含有所述結(jié)構(gòu)域的序列,并使用基因組或蛋白組已經(jīng)測序完成的生物的相應(yīng)目標(biāo)基因搜索近緣植物的蛋白序列。
2.如權(quán)利要求1所述的方法,其中,在所述第1)步驟中,所述結(jié)構(gòu)域從Pfam網(wǎng)站下載。
3.如權(quán)利要求1或2所述的方法,其中,所述第2)步驟采用ClustalXl.83軟件以默認(rèn) 參數(shù)進(jìn)行。
4.如權(quán)利要求1至3任一項所述的方法,其中,在所述第2)步驟中,還包括手工校對修 正所述結(jié)構(gòu)域兩側(cè)的比對結(jié)果和去除缺口序列。
5.如權(quán)利要求1至4任一項所述的方法,其中,所述第3)步驟采用MEGA4.0軟件的鄰 接法構(gòu)建。
6.如權(quán)利要求1至5任一項所述的方法,其中,所述目標(biāo)生物為植物,優(yōu)選為被子植物。
7.如權(quán)利要求1至6任一項所述的方法,其中,所述植物為開花植物。
8.如權(quán)利要求1至8任一項所述的方法,其中,所述開花植物為青花菜(Brassica oleracea L. var. italica P.),并且所述近緣植物為擬南芥、大白菜和/或油菜。
9.如權(quán)利要求7或8所述的方法,其中,在所述第1)步驟中,所述生物蛋白數(shù)據(jù)庫為 NCBI蛋白數(shù)據(jù)庫和/或開花植物EST庫,并且選擇閾值為閾值E ^ Ie-50
全文摘要
本發(fā)明涉及一種針對目標(biāo)生物的目標(biāo)基因建立系統(tǒng)進(jìn)化樹的方法,所述方法包括如下步驟1)數(shù)據(jù)的獲取;2)序列的比對和分析;和3)系統(tǒng)進(jìn)化樹的構(gòu)建;其中,在所述第1)步驟中,下載所述目標(biāo)基因的蛋白的結(jié)構(gòu)域,通過基因組或蛋白組已經(jīng)測序完成的生物蛋白數(shù)據(jù)庫搜索獲取含有所述結(jié)構(gòu)域的序列,并使用基因組或蛋白組已經(jīng)測序完成的生物的目標(biāo)基因搜索近緣植物的蛋白序列。由于本發(fā)明方法包括上述步驟,尤其是從物種親緣關(guān)系和基因組或蛋白組完成測序的數(shù)據(jù)庫兩方面予以結(jié)合,因此可以建立更加準(zhǔn)確的系統(tǒng)進(jìn)化樹。
文檔編號G06F17/30GK101962671SQ20091015823
公開日2011年2月2日 申請日期2009年7月23日 優(yōu)先權(quán)日2009年7月23日
發(fā)明者王穎 申請人:王穎