專利名稱::蛋白質(zhì)序列特征可視化提取方法
技術(shù)領(lǐng)域:
:本發(fā)明是一種蛋白質(zhì)全序列特征可視化提取方法,涉及圖像處理、模式識別和傳統(tǒng)的蛋白質(zhì)序列分析的技術(shù),與傳統(tǒng)蛋白質(zhì)序列比對分析方法不同,能比較形象地反映蛋白質(zhì)序列的特性。
背景技術(shù):
:隨著越來越多的基因序列載入到各種生物數(shù)據(jù)庫,對這些序列進行分析已成迫切的要求,這是對生物學(xué)者的挑戰(zhàn),也是對計算機學(xué)者的挑戰(zhàn)。傳統(tǒng)的基因序列分析方法中,有相當?shù)牟糠质峭ㄟ^基因序列比對來完成的。傳統(tǒng)的基因序列比對主要通過基因?qū)R,逐一堿基比對來完成的,其中比較典型的方法是用BLAST等非常成熟的軟件來完成(http://www.ncbi.nlm.nih.gov/BLAST)。用該軟件可以比較容易地反映堿基的缺失、插入、變異。這種方法雖然可以很簡單地得到基因變異,但得到的結(jié)果并不直觀。分析這些基因序列可以從多個層次,如堿基序列、蛋白質(zhì)、基因組等,由于許多生物表型性質(zhì)以及基因調(diào)控都是由蛋白質(zhì)的氨基酸序列所決定,分析氨基酸序列有一定的優(yōu)勢。蛋白質(zhì)序列是由20種氨基酸組成的一維字符序列,要得出更多的隱含在其中的生物特性非常困難,為此人們設(shè)計了許多方法把基因序列轉(zhuǎn)換為數(shù)字信號、曲線等,再利用信號處理方法和分形理論等進行研究。其中由于可視化技術(shù)將符號轉(zhuǎn)換成幾何處理,變不可見為可見,使研究者對他們的研究工作有一個直觀的了解,給予人們新的啟示,促進了基因序列的研究。2006年Randic設(shè)計一種蛋白質(zhì)序列轉(zhuǎn)換為二維空間折線的方法,他將20個氨基酸轉(zhuǎn)換成20個不同的空間向量(Xi,Q,y^),這20個向量點平均分布在一個半徑為1的二維圓周上。在將蛋白質(zhì)序列轉(zhuǎn)換成二維空間折線時,按照氨基酸序列順序,將序列中的氨基酸各自對應(yīng)于空間的一個點,將這些點用直線連接起來所得到的二維空間折線就代表蛋白質(zhì)序列(Randic,M.,Butina,D.,Zupan,J.(2006).Novel2_Dgraphicalrepresentationofproteins.ChemicalPhysicsLetters419,528-532.)。這些空間點(xn,yn)的計算按照公式xn=(UXi,。)/^和yn=(yn+yi,。)/^。Randic設(shè)計的這種可視化方法當?shù)鞍踪|(zhì)序列比較長的時候,就變成一團亂麻很難分辨。2008年中國的姚裕華改進了Randic的設(shè)計,20個氨基酸同樣對應(yīng)20個2維空間的向量,但在分配向量的時候考慮了氨基酸的物理化學(xué)特性,具有相近物理化學(xué)性質(zhì)的氨基酸所對應(yīng)的空間向量更接近,而且這些向量的長度也各不相同。但這種方法所得到的折線由于會有重疊而丟失掉一些原來蛋白質(zhì)序列所包含的信息(Yao,Y.H.,Dai,Q.,Li,C.,He,P.A.,Nan,Y.Y.,Zhang,Y.Z.(2008).Analysisofsimilarity/dissimilarityofproteinsequences.Proteins73,864-871.)。上述方法都是將蛋白質(zhì)序列轉(zhuǎn)換成2維空間折線,2006年肖絢提出了將蛋白質(zhì)序列轉(zhuǎn)換成2維圖像的方法,該方法基于元胞自動機,首先將氨基酸序列轉(zhuǎn)換成“0”、“1”序列,選用特定的元胞自動機演化規(guī)則對編碼后的“0”、“1”序列進行演化,經(jīng)過若干次演化后形成一個“0”、“1”二維矩陣,將二維矩陣轉(zhuǎn)化為黑白圖像并進行縮放,得到蛋白質(zhì)可視化模型。這種圖像由于生成演化過程中并沒有考慮氨基酸的性質(zhì),所以得出的圖像很難用生物信息學(xué)知識來解釋。將蛋白質(zhì)序列轉(zhuǎn)換成圖像,為圖像處理技術(shù)應(yīng)用到蛋白質(zhì)序列分析提供了一種途徑,但圖像必須反映蛋白質(zhì)序列的特征,現(xiàn)有的二維空間折線的可視化方法最多只能考慮氨基酸的二種物理化學(xué)性質(zhì),如何設(shè)計出能反映多種氨基酸物理化學(xué)特性的蛋白質(zhì)可視化方法還是一個新的研究課題。
發(fā)明內(nèi)容本發(fā)明的目的在于針對傳統(tǒng)的基因序列分析方法中存在的功能分析不全面、結(jié)果不直觀等缺點,提供一種蛋白質(zhì)全序列特征可視化提前方法,可從生成的蛋白質(zhì)序列可視化圖像中得到不同基因序列具有的特征,進而分析利用其序列特征進行醫(yī)學(xué)研究。為實現(xiàn)這樣的目的,本發(fā)明提出的一種蛋白質(zhì)序列特征可視化提取方法,其特征在于依次包括如下步驟1)對蛋白質(zhì)序列中的氨基酸進行數(shù)字編碼,數(shù)字編碼模型反映了氨基酸三種理化性質(zhì),通過編碼模型將蛋白質(zhì)序列轉(zhuǎn)換成三條不同的數(shù)字序列;2)基于偏序理論構(gòu)建三個反映蛋白質(zhì)序列單個性質(zhì)的哈斯矩陣,這三個哈斯矩陣中的元素只有“0”和“1,,二個數(shù)字,再通過變換將這三個哈斯矩陣轉(zhuǎn)換成一個改進的哈斯矩陣,這個改進的哈斯矩陣中的元素由“0,,、“1,,、“2,,、“3,,、“4,,、“5,,、“6,,、“7,,八個數(shù)字構(gòu)成;3)將上述八個數(shù)字中的“0”表示黑色,“1”表示藍色,“2”表示綠色,“3”表示藍綠色,“4”表示紅色,“5”表示楊紅色,“6”表示黃色,“7”表示白色,通過可視化技術(shù),將上述改進的哈斯矩陣轉(zhuǎn)換為八種顏色的圖像,得到具有蛋白質(zhì)全序列特征的可視化圖像。根據(jù)不同考慮問題的角度,現(xiàn)有多套氨基酸數(shù)字編碼模型。采用數(shù)字編碼有以下好處①數(shù)字編碼比字符更加簡單;②數(shù)字編碼可以壓縮信息的冗余度與存儲空間;③好的數(shù)字編碼可以表示氨基酸的各種特性,如親水性、電極性等;④數(shù)字編碼具有嚴格的大小關(guān)系,具有全序性;⑤經(jīng)過數(shù)字編碼后,氨基酸序列可以利用現(xiàn)有的數(shù)字信號處理技術(shù)進行分析。與傳統(tǒng)的序列比對方法相比較,本發(fā)明方法具有全序列分析、直觀性、普適性的特點。首先本方法是對全序列進行分析,可以考慮序列間的長程相互影響作用并給出序列的本質(zhì)的排列組合特征。而傳統(tǒng)的序列分析只能通過比對得出突變的位置和內(nèi)容,并不能給出序列具有的組成特點。本方法是將蛋白質(zhì)序列轉(zhuǎn)化為二維圖像,利用人的視覺對圖像敏感的特點發(fā)現(xiàn)生成圖像的特征。而傳統(tǒng)的方法是對一維序列直接進行分析,很顯然,這是很抽象繁瑣的過程。通過不同種類的蛋白質(zhì)序列所生成的圖像得到的參數(shù),計算序列的相關(guān)性,可以明顯對蛋白質(zhì)進行分類,說明本發(fā)明的這種方法具有普適性。圖1為中心體肌動蛋白P42025可視化圖像。圖2為中心體肌動蛋白Q54179可視化圖像。圖3為乙?;D(zhuǎn)移酶P22763可視化圖像。具體實施例方式本發(fā)明以蛋白質(zhì)序列相似性為例說明其具體的實施方式。本發(fā)明從UniProt下載了三種不同的蛋白質(zhì)序列,其中二條中心體肌動蛋白,分別來自人類與粘液菌,一條乙?;D(zhuǎn)移酶,對這些不同蛋白質(zhì)序列進行可視化處理,通過圖像分析他們的相似性。表1列出了這些序列的相關(guān)信息。表1三種不同蛋白質(zhì)序列<table>tableseeoriginaldocumentpage5</column></row><table>本實施例按如下步驟進行1)氨基酸數(shù)字編碼本設(shè)計采用下列表2所示三種氨基酸數(shù)字編碼模型,分別表示氨基酸的疏水性、親水性和側(cè)鏈分子量。表2氨基酸數(shù)字編碼模型<table>tableseeoriginaldocumentpage5</column></row><table><table>tableseeoriginaldocumentpage6</column></row><table>通過上述氨基酸數(shù)字編碼模型,一個蛋白質(zhì)字符序列可轉(zhuǎn)換成三個數(shù)字序列。2)基于偏序理論構(gòu)建改進的哈斯矩陣偏序是劃分一種將不可比性關(guān)系添加到“大于”、“小于或等于”這種經(jīng)典等級關(guān)系中去的方法。由表1可知,20種氨基酸的疏水性值的順序為I>F>V>L>ff>M>A>G>C>Y>P>T>S>H>E>N>Q>D>K>R;20種氨基酸的親水性值的順序為R=K=E=D>S>Q=N>G=P>T>A=H>C>M>V>L=I>Y>F>ff;20種氨基酸的側(cè)鏈分子量的順序為ff>Y>R>F>H>M>E=K>Q>D>N>I=L>C>T>V>P>S>A>G。假設(shè)一個蛋白質(zhì)序列為S=sis2LsN,根據(jù)某個氨基酸物理化學(xué)特性,對蛋白質(zhì)序列中氨基酸進行兩兩比較,可以構(gòu)成哈斯矩陣。蛋白質(zhì)序列長度為N時,構(gòu)成的哈斯矩陣為NXN。哈斯矩陣如下<formula>formulaseeoriginaldocumentpage6</formula>其中<formula>formulaseeoriginaldocumentpage6</formula>如果有P個氨基酸物理化學(xué)特性可以比較,那么一個蛋白質(zhì)序列就可以構(gòu)成P彳哈斯矩陣,本發(fā)明根據(jù)上述的氨基酸疏水性、親水性和側(cè)鏈分子量(P=3)構(gòu)成三個哈斯矩陣表示為<formula>formulaseeoriginaldocumentpage7</formula>將上述三個表示蛋白質(zhì)序列單個物理化學(xué)特性的哈斯矩陣轉(zhuǎn)換成-陣,稱為改進的哈斯矩陣H',H'中的元素計算方法如下H'Kj二禮x+Hix2…2)+L(3)由于表示蛋白質(zhì)序列單個物理化學(xué)性質(zhì)的哈斯矩陣中只有“0”和“1”兩個數(shù)字,當P等于3時,改進的哈斯矩陣元素的組成由“0”、“1”、“2”、“3”、“4”、“5”、“6”和“7”8種數(shù)字構(gòu)成。以一個長度為6的蛋白質(zhì)序列為例MGAPFV,它相應(yīng)的改進哈斯矩陣為<formula>formulaseeoriginaldocumentpage7</formula>3)序列圖像的生成定義改進的哈斯矩陣中“0”表示黑色,“1”表示藍色,“2”表示綠色,“3”表示藍綠色,“4”表示紅色,“5”表示楊紅色,“6”表示黃色,“7”表示白色,使用可視化技術(shù),將二維矩陣轉(zhuǎn)化為一個8個灰度級的彩色圖像。從圖1、圖2和圖3三幅圖像中我們可以清楚的看到,同類蛋白質(zhì)生成的圖像時很相像,非同類的不相像的。H'權(quán)利要求一種蛋白質(zhì)序列特征可視化提取方法,其特征在于依次包括如下步驟1)對蛋白質(zhì)序列中的氨基酸進行數(shù)字編碼,通過編碼模型將蛋白質(zhì)字符序列轉(zhuǎn)換成反映蛋白質(zhì)序列理化性質(zhì)的三條不同的數(shù)字序列;2)基于偏序理論構(gòu)建三個反映蛋白質(zhì)序列單個性質(zhì)的哈斯矩陣,這三個哈斯矩陣中的元素只有“0”和“1”二個數(shù)字,再通過變換將這三個哈斯矩陣轉(zhuǎn)換成一個改進的哈斯矩陣,這個改進的哈斯矩陣中的元素由“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”八個數(shù)字構(gòu)成;3)將上述八個數(shù)字中的“0”表示黑色,“1”表示藍色,“2”表示綠色,“3”表示藍綠色,“4”表示紅色,“5”表示楊紅色,“6”表示黃色,“7”表示白色,通過可視化技術(shù),將上述改進的哈斯矩陣轉(zhuǎn)換為八種顏色的圖像,得到具有蛋白質(zhì)全序列特征的可視化圖像。全文摘要本發(fā)明涉及一種蛋白質(zhì)序列特征可視化提取方法,主要包括首先對蛋白質(zhì)序列中每個氨基酸進行數(shù)字編碼,通過編碼模型將蛋白質(zhì)字符序列轉(zhuǎn)換成反映蛋白質(zhì)序列理化性質(zhì)的三個數(shù)字序列,再基于偏序理論構(gòu)建三個哈斯矩陣,通過變換將這三個哈斯矩陣轉(zhuǎn)換成一個改進的哈斯矩陣,這個改進的哈斯矩陣中的元素由“0”、“1”、“2”、“3”、“4”、“5”、“6”、和“7”八個數(shù)字構(gòu)成,再將改進的哈斯矩陣轉(zhuǎn)換為8種顏色的圖像,得到具有蛋白質(zhì)全序列特征可視化圖形。本發(fā)明方法具有全序列分析、直觀性和普適性的特點,從生成的可視化序列圖像中可得到不同蛋白質(zhì)序列具有的特征。文檔編號G06F19/00GK101826132SQ20101010024公開日2010年9月8日申請日期2010年1月22日優(yōu)先權(quán)日2010年1月22日發(fā)明者王普,肖絢申請人:景德鎮(zhèn)陶瓷學(xué)院