專利名稱:基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是ー種用信息學(xué)科常用的核典型相關(guān)分析方法處理生物問題的方法。具體地說是ー種用信息學(xué)科常用的核典型相關(guān)分析方法進(jìn)行固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測的方法。
背景技術(shù):
長期認(rèn)為,蛋白質(zhì)的特定規(guī)則結(jié)構(gòu)是蛋白質(zhì)具有功能的基礎(chǔ),缺失特定規(guī)則結(jié)構(gòu)的蛋白質(zhì)是不具有活性的。而固有不規(guī)則結(jié)構(gòu)蛋白質(zhì)的發(fā)現(xiàn)打破了這ー觀點(diǎn)。固有不規(guī)則結(jié)構(gòu)蛋白質(zhì)不僅不是毫無用處的,恰恰在細(xì)胞中執(zhí)行著重要功能。許多癌癥都與不規(guī)則蛋白質(zhì)有夫。由于固有不規(guī)則蛋白質(zhì)發(fā)現(xiàn)比較困難,研究固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法可有效引導(dǎo)這類蛋白質(zhì)的發(fā)現(xiàn),并為生物制藥的研制提供基礎(chǔ)。由于關(guān)于固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測的研究不到十年,相應(yīng)的預(yù)測方法不是很多。整體來看,融合多特征的預(yù)測器效果要好于基于單特征的預(yù)測器。融合多特征包括決策級(jí)融合和特征級(jí)融合兩種方式。目前,可見報(bào)道的預(yù)測方法均采用決策級(jí)融合的方式(CDF it all:しonsensus prediction of intrinsically disordered proteins basedon various cumulative distribution functions, Bin Xue;Christopher J. Oldfield;A.Keith Dunker; Vladimir N. Uversky, FEBS Letters 2009; 583 (9) : 1469-1474.)。然而,相比于決策級(jí)融合,特征級(jí)融合由于利用了更多的可識(shí)別信息,因此,有著更好的識(shí)別性能。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能有效提高固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)的預(yù)測精度的基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。本發(fā)明的基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測的方法,包括下列步驟(I)提取待預(yù)測蛋白質(zhì)的結(jié)構(gòu)特征和生化特征作為識(shí)別特征,所述結(jié)構(gòu)特征指采用窗ロ法得到的蛋白質(zhì)預(yù)測位點(diǎn)周圍氨基酸的組合頻率,所述生化特征指蛋白質(zhì)預(yù)測位點(diǎn)氨基酸的Russell/Linding值、疏水性、極性和帶電性;(2)采用核典型相關(guān)分析法對(duì)所提取的特征數(shù)據(jù)進(jìn)行映射和融合,獲取更有利于蛋白質(zhì)結(jié)構(gòu)識(shí)別的特征數(shù)據(jù),核典型相關(guān)分析法的核函數(shù)采用徑向基函數(shù);(3)基于更有利于蛋白質(zhì)結(jié)構(gòu)識(shí)別的特征數(shù)據(jù),進(jìn)行蛋白質(zhì)結(jié)構(gòu)識(shí)別和預(yù)測。本發(fā)明即采用特征級(jí)融合的方式對(duì)固有不規(guī)則蛋白質(zhì)的結(jié)構(gòu)進(jìn)行預(yù)測,具體為基于核典型相關(guān)分析的方式對(duì)固有不規(guī)則結(jié)構(gòu)蛋白質(zhì)的結(jié)構(gòu)進(jìn)行預(yù)測,能取得比現(xiàn)有方法更好的預(yù)測效果。本發(fā)明的有益效果在干本發(fā)明利用核典型相關(guān)分析對(duì)固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測,在充分利用不同特征間離散度的同時(shí),也利用不同特征的相關(guān)性進(jìn)行多特征融合,使得預(yù)測精度得到有效提高。本發(fā)明有助于為固有不規(guī)則蛋白質(zhì)的發(fā)現(xiàn)和確認(rèn)提供前期依據(jù),并為生物制藥的研制提供基礎(chǔ)。
圖I基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法流程圖。
具體實(shí)施例方式下面舉例對(duì)本發(fā)明做更詳細(xì)的描述I.蛋白質(zhì)結(jié)構(gòu)特征提取I. I氨基酸的組合頻率特征當(dāng)對(duì)蛋白質(zhì)的結(jié)構(gòu)進(jìn)行研究時(shí),蛋白質(zhì)的ー級(jí)結(jié)構(gòu),即組成蛋白質(zhì)的氨基酸序列是基礎(chǔ)研究內(nèi)容。本發(fā)明首先采用窗ロ法獲取蛋白質(zhì)氨基酸序列的組合頻率特征。定義氨基酸集』=.丨んr,/)'/ひソ入//,ん(/.'紙,V./ソん。集合』中的20個(gè)字母分別對(duì)應(yīng)著20種不同的氨基酸,其中文名稱見表I。以待進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測的氨基酸位點(diǎn)為中心,取一長度為I的窗ロ,對(duì)窗口內(nèi)的每個(gè)氨基酸出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),以反映該氨基酸位點(diǎn)周圍的氨基酸對(duì)其結(jié)構(gòu)傾向性的影響。為了保證前后對(duì)稱,I 一般取為奇數(shù)。設(shè)蛋白質(zhì)序列X的長度為M,那么氨基酸的組合頻率特征可以描述為
權(quán)利要求
1.一種基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,其特征是 (1)提取待預(yù)測蛋白質(zhì)的結(jié)構(gòu)特征和生化特征作為識(shí)別特征,所述結(jié)構(gòu)特征指采用窗ロ法得到的蛋白質(zhì)預(yù)測位點(diǎn)周圍氨基酸的組合頻率,所述生化特征指蛋白質(zhì)預(yù)測位點(diǎn)氨基酸的Russell/Linding值、疏水性、極性和帶電性; (2)采用核典型相關(guān)分析法對(duì)所提取的特征數(shù)據(jù)進(jìn)行映射和融合,獲取更有利于蛋白質(zhì)結(jié)構(gòu)識(shí)別的特征數(shù)據(jù),核典型相關(guān)分析法的核函數(shù)采用徑向基函數(shù); (3)基于更有利于蛋白質(zhì)結(jié)構(gòu)識(shí)別的特征數(shù)據(jù),進(jìn)行蛋白質(zhì)結(jié)構(gòu)識(shí)別和預(yù)測。
2.根據(jù)權(quán)利要求I所述的基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,其特征是所述采用窗ロ法得到的蛋白質(zhì)預(yù)測位點(diǎn)周圍氨基酸的組合頻率的提取方法為 定義氨基酸集3 =認(rèn)(',/)プ:,れ< ,//,/,1ム耽]\^,(^_ノア,『,7},集合^4中的20個(gè)字母分別對(duì)應(yīng)著20種不同的氨基酸,以待進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測的氨基酸位點(diǎn)為中心,取一長度為I的窗ロ,對(duì)窗口內(nèi)的每個(gè)氨基酸出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),以反映該氨基酸位點(diǎn)周圍的氨基酸對(duì)其結(jié)構(gòu)傾向性的影響;1取為奇數(shù),設(shè)蛋白質(zhì)序列X的長度為M,那么氨基酸的組合頻率特征描述為
全文摘要
本發(fā)明提供的是一種基于核典型相關(guān)分析的固有不規(guī)則蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。(1)提取待預(yù)測蛋白質(zhì)的結(jié)構(gòu)特征和生化特征作為識(shí)別特征,所述結(jié)構(gòu)特征指采用窗口法得到的蛋白質(zhì)預(yù)測位點(diǎn)周圍氨基酸的組合頻率,所述生化特征指蛋白質(zhì)預(yù)測位點(diǎn)氨基酸的Russell/Linding值、疏水性、極性和帶電性;(2)采用核典型相關(guān)分析法對(duì)所提取的特征數(shù)據(jù)進(jìn)行映射和融合,獲取更有利于蛋白質(zhì)結(jié)構(gòu)識(shí)別的特征數(shù)據(jù),核典型相關(guān)分析法的核函數(shù)采用徑向基函數(shù);(3)基于更有利于蛋白質(zhì)結(jié)構(gòu)識(shí)別的特征數(shù)據(jù),進(jìn)行蛋白質(zhì)結(jié)構(gòu)識(shí)別和預(yù)測。本發(fā)明的預(yù)測精度得到有效提高,有助于為固有不規(guī)則蛋白質(zhì)的發(fā)現(xiàn)和確認(rèn)提供前期依據(jù),并為生物制藥的研制提供基礎(chǔ)。
文檔編號(hào)G06F19/16GK102779240SQ20121020588
公開日2012年11月14日 申請(qǐng)日期2012年6月21日 優(yōu)先權(quán)日2012年6月21日
發(fā)明者馮偉興, 王科俊, 董彥生, 賀波, 陳若雷 申請(qǐng)人:哈爾濱工程大學(xué)