本發(fā)明涉及G蛋白偶聯(lián)受體結(jié)構(gòu)預(yù)測(cè)技術(shù)領(lǐng)域,尤其涉及一種基于結(jié)構(gòu)拓?fù)涞腉蛋白偶聯(lián)受體跨膜螺旋三維結(jié)構(gòu)的預(yù)測(cè)方法。
背景技術(shù):2012年兩位美國(guó)科學(xué)家因在G蛋白偶聯(lián)受體(G-protein-coupledreceptors,下文簡(jiǎn)稱GPCR)的卓越研究獲得了諾貝爾化學(xué)獎(jiǎng)。研究GPCR的主要意義在于:它是人體內(nèi)最大的信號(hào)傳導(dǎo)蛋白質(zhì)超家族,可以與激素、神經(jīng)遞質(zhì)、光、氣味分子等小分子物質(zhì)發(fā)生相互作用,在細(xì)胞信號(hào)傳遞中發(fā)揮著重要作用。人類重大疾病的發(fā)生往往都與GPCR功能紊亂有關(guān)。據(jù)統(tǒng)計(jì),目前世界前200個(gè)最暢銷藥物中超過10%都是以GPCR為靶點(diǎn)。GPCR是嵌在生物膜上的一類特殊的膜蛋白,一般需要與生物膜結(jié)合才能形成穩(wěn)定的天然(Native)構(gòu)象,這使得用核磁共振(NMR,NuclearMagneticResonance)和X射線晶體衍射(X-ray)方法來獲得GPCRs的三維結(jié)構(gòu)變得異常困難。這也導(dǎo)致三維結(jié)構(gòu)的GPCRs數(shù)量遠(yuǎn)落后于序列測(cè)定的數(shù)量。目前,人類基因組大約已經(jīng)測(cè)定了800個(gè)左右的GPCR序列,解構(gòu)的目標(biāo)只有近10個(gè)。雖然用計(jì)算機(jī)方法預(yù)測(cè)GPCR的三維結(jié)構(gòu)是最理想的方法,也取得了很大的進(jìn)展,但是由于GPCR極少的先驗(yàn)知識(shí),使得這仍是一項(xiàng)極具挑戰(zhàn)性的研究。由于GPCR結(jié)構(gòu)的特殊性且稀缺解構(gòu)構(gòu)象,通用的球蛋白結(jié)構(gòu)預(yù)測(cè)方法很難直接應(yīng)用于GPCR的三維結(jié)構(gòu)預(yù)測(cè)。GPCR三維結(jié)構(gòu)預(yù)測(cè)方法通??梢苑譃槿悾和唇#╤omology-basedmodeling,也稱比較建模)、穿線法(threading)、從頭預(yù)測(cè)(denovomodeling)。同源建模方法的核心思想是通過目標(biāo)序列的同源蛋白質(zhì)來推定其三維結(jié)構(gòu),其關(guān)鍵步驟是將序列相似的模板片段,直接復(fù)制給候選結(jié)構(gòu),這樣的方法雖然簡(jiǎn)單可行,但忽視了螺旋結(jié)構(gòu)的多樣性。穿線法的核心思想是尋找和目標(biāo)序列沒有顯著性同源關(guān)系、但是具有同一折疊(fold)類型的蛋白質(zhì),并建立模塊庫。因此,用穿線法生成的跨膜螺旋區(qū)的精度主要受模板庫中螺旋模板精度的影響。Zhang等人(參見文獻(xiàn)ZhangY,DeVriesME,andSkolnickJ.Structuremodelingofallidentifiedgprotein-coupledreceptorsinthehumangenome.PLoSComputBiol,2006,2(2):88–99)是穿線法的倡導(dǎo)者與領(lǐng)軍人物。從頭預(yù)測(cè)法是從氨基酸序列出發(fā),通過GPCR的先驗(yàn)知識(shí)與規(guī)則,對(duì)目標(biāo)結(jié)構(gòu)的采樣不依賴于模板,在所有可能的空間中全范圍離散采樣,用能量函數(shù)對(duì)所有可能的結(jié)果逐一評(píng)價(jià),這樣的采樣方法無疑是耗時(shí)巨大的。Baker等人(參見文獻(xiàn)Yarov-YarovoyV,SchonbrunJ,BakerD.Multipassmembraneproteinstructurepredictionusingrosetta.Proteins,2006,62:1010–1025與文獻(xiàn)BarthP,SchonbrunJ,BakerD.Towardhigh-resolutionpredictionanddesignoftransmembranehelicalproteinstructures.ProcNatlAcadSciUSA,2007,104:15682–15687)與Goddard等人(參見文獻(xiàn)GoddardWA,KimSK,LiY,etal.Predicted3Dstructuresforadenosinereceptorsboundtoligands:Comparisontothecrystalstructure.JournalofStructuralBiology,2010,170:10–20)在使用從頭預(yù)測(cè)方法時(shí),都遇到了類似的困難。上述這些方法本質(zhì)是遇到了同一個(gè)問題:難以在七個(gè)跨膜螺旋結(jié)構(gòu)的保守性與局部多樣性之間獲得平衡,其實(shí)質(zhì)是未將兩者統(tǒng)一到一個(gè)系統(tǒng)模型中。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題是提供一種基于結(jié)構(gòu)拓?fù)涞腉蛋白偶聯(lián)受體跨膜螺旋三維結(jié)構(gòu)的預(yù)測(cè)方法,本發(fā)明方法在現(xiàn)有的并行多模板預(yù)測(cè)方法patGPCR(參見文獻(xiàn)WuH,LüQ,QuanL,etal.PatGPCR:AmultitemplateApproachforImproving3DStructurePredictionofTransmembraneHelicesofG-protein-coupledReceptors,ComputationalandMathematicalMethodsinMedicine,inpress)的框架下,跨膜螺旋的三維結(jié)構(gòu)預(yù)測(cè)為目標(biāo),建立基于結(jié)構(gòu)的拓?fù)淠P?,并利用該模型形成了四階段的結(jié)構(gòu)優(yōu)化方法,同時(shí)引入基于拓?fù)浣Y(jié)構(gòu)的能量項(xiàng)與約束,起到了優(yōu)化評(píng)判標(biāo)準(zhǔn)與剪裁采樣空間的作用。本發(fā)明方法中的跨膜螺旋三維結(jié)構(gòu)預(yù)測(cè)方法稱為TMGPCR(structuralpredictionforTransMembranehelixesofGPCR)。為解決以上技術(shù)問題,本發(fā)明采用如下技術(shù)方案:一種基于結(jié)構(gòu)拓?fù)涞腉蛋白偶聯(lián)受體跨膜螺旋三維結(jié)構(gòu)的預(yù)測(cè)方法,所述預(yù)測(cè)方法包括:(1)構(gòu)建跨膜螺旋的結(jié)構(gòu)拓?fù)淠P停合葮?gòu)建G蛋白偶聯(lián)受體的7個(gè)跨膜螺旋的幾何結(jié)構(gòu)拓?fù)淠P?,所述跨膜螺旋的幾何結(jié)構(gòu)拓?fù)淠P桶菪c螺旋之間的結(jié)構(gòu)拓?fù)洹⒙菪c膜之間的結(jié)構(gòu)拓?fù)?;?)預(yù)測(cè)所述跨膜螺旋的結(jié)構(gòu)拓?fù)淠P?,分為以下四個(gè)階段:(21)第一階段為識(shí)別跨膜螺旋區(qū)域:根據(jù)G蛋白偶聯(lián)受體的序列信息預(yù)測(cè)出可能的跨膜螺旋區(qū)域;(22)第二階段為優(yōu)化跨膜螺旋間的相對(duì)位置:通過對(duì)第j個(gè)螺旋在空間位置上的平移,利用能量函數(shù)e對(duì)G蛋白偶聯(lián)受體構(gòu)象進(jìn)行能量計(jì)算,選擇能量最小的G蛋白偶聯(lián)受體構(gòu)象,其中,1≤j≤7;(23)第三階段為優(yōu)化每個(gè)螺旋在膜內(nèi)的自轉(zhuǎn)朝向:通過對(duì)所述第j個(gè)螺旋以螺旋軸為中心軸自轉(zhuǎn)i度,利用能量函數(shù)e對(duì)G蛋白偶聯(lián)受體構(gòu)象進(jìn)行能量計(jì)算,選擇能量最小的G蛋白偶聯(lián)受體構(gòu)象;(24)第四階段為優(yōu)化每個(gè)螺旋與膜的傾斜角度:對(duì)膜平面法線與所述第j個(gè)螺旋的螺旋軸的夾角進(jìn)行優(yōu)化,利用能量函數(shù)e對(duì)G蛋白偶聯(lián)受體構(gòu)象進(jìn)行能量計(jì)算,選擇能量最小的G蛋白偶聯(lián)受體構(gòu)象;(3)Loop重建:用Loop片段插入連結(jié)所述7個(gè)螺旋,最后將G蛋白偶聯(lián)受體整體結(jié)構(gòu)進(jìn)行小幅度的優(yōu)化。優(yōu)選地,步驟(1)中所述螺旋與螺旋之間的結(jié)構(gòu)拓?fù)涫撬雎菪谒瞿て矫嫔系拇怪蓖队埃w現(xiàn)所述螺旋與螺旋之間的2D距離關(guān)系。優(yōu)選地,步驟(1)中所述螺旋與膜之間的結(jié)構(gòu)拓?fù)潴w現(xiàn)所述螺旋與所述膜平面之間的幾何關(guān)系。優(yōu)選地,步驟(21)中識(shí)別跨膜螺旋區(qū)域的方法為:綜合六種主流跨膜螺旋識(shí)別方法,將所述六種主流跨螺旋識(shí)別方法的結(jié)果的平均值作為所述識(shí)別跨膜螺旋區(qū)域,所述六種主流跨螺旋識(shí)別方法為TopPred、UniProt、TMpred、HMMTOP、TMHMM、OCTOPUS。優(yōu)選地,對(duì)步驟(22)中優(yōu)化跨膜螺旋間的相對(duì)位置引入2D位置約束,即所述7個(gè)螺旋的中心線與所述膜平面的交點(diǎn)位置約束,以文獻(xiàn)NugentT,JonesdDT.Predictingtransmembranehelixpackingarrangementsusingresiduecontactsandaforce-directedalgorithm.PLoSComputBiol,2009,6:e1000714的預(yù)測(cè)方法預(yù)測(cè)出的結(jié)果作為所述2D位置約束。優(yōu)選地,對(duì)步驟(24)優(yōu)化每個(gè)螺旋與膜的傾斜角度引入傾斜角度約束,即所述螺旋相對(duì)所述膜平面法線的傾斜角度,以滿足30度為均值、6度為方差的高斯分布作為在所述傾斜角度優(yōu)化時(shí)的約束。優(yōu)選地,所述能量函數(shù)e為用于評(píng)價(jià)跨膜螺旋之間位置合理性的能量函數(shù)E與用于評(píng)價(jià)螺旋堆積成螺旋束時(shí)的緊密程度的能量函數(shù)E′之和,即e=E+E′,所述能量函數(shù)E為Rosetta的膜環(huán)境能量函數(shù),所述能量函數(shù)E′為關(guān)于跨膜螺旋間的能量函數(shù),當(dāng)所述螺旋之間不發(fā)生碰撞時(shí),E′越小,螺旋束越緊密,形成的構(gòu)象就越合理;當(dāng)所述螺旋之間發(fā)生碰撞時(shí),所述能量函數(shù)E遠(yuǎn)遠(yuǎn)大于所述能量函數(shù)E′,所述能量函數(shù)E′相對(duì)于所述能量函數(shù)E來說可以忽略不計(jì),所述能量函數(shù)e由能量函數(shù)E進(jìn)行評(píng)價(jià)。具體地,所述能量函數(shù)E′由式(1)計(jì)算得到,Smax---(1)]]>式(1)中,S為所述螺旋與螺旋之間的結(jié)構(gòu)拓?fù)淠P椭械娜我鈨蓚€(gè)螺旋中點(diǎn)與這些中點(diǎn)的均值坐標(biāo)所構(gòu)成三角形的面積的面積和,Smin為從現(xiàn)有已知G蛋白偶聯(lián)受體中得到的面積最小值,Smax為從現(xiàn)有已知G蛋白偶聯(lián)受體中得到的面積最大值。由于采用以上技術(shù)方案,本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):本發(fā)明的預(yù)測(cè)方法針對(duì)跨膜螺旋的空間結(jié)構(gòu)特點(diǎn),建立了兼顧保守性與多樣性的結(jié)構(gòu)拓?fù)淠P停⒗迷撃P托纬闪怂碾A段的結(jié)構(gòu)優(yōu)化方法,試圖獲得采樣廣度與深度的平衡。同時(shí),引入基于結(jié)構(gòu)拓?fù)涞哪芰宽?xiàng)與約束,起到了優(yōu)化評(píng)判標(biāo)準(zhǔn)和剪裁采樣空間的作用,有效的預(yù)測(cè)了跨膜螺旋的三維結(jié)構(gòu)。本發(fā)明通過與三組經(jīng)典數(shù)據(jù)集的比較實(shí)驗(yàn)檢驗(yàn)了本發(fā)明方法預(yù)測(cè)GPCR跨膜螺旋三維結(jié)構(gòu)的有效性。附圖說明圖1為螺旋與螺旋之間的結(jié)構(gòu)拓?fù)鋱D;圖2為螺旋與膜之間的結(jié)構(gòu)拓?fù)洌粓D3為GPCR建模流程圖;圖4為本發(fā)明方法中使用的2D位置約束(CXCR4);圖5為本發(fā)明方法中使用的2D位置約束(D3);圖6為TMGPCR與Swiss的TMRMSD與TotalRMSD比較;圖7為TMGPCR的50折疊bootstrap與Swiss比較(TMRMSD比較);圖8為TMGPCR的50折疊bootstrap與Swiss比較(TotalRMSD比較)。具體實(shí)施方式下面結(jié)合附圖來進(jìn)一步闡述本發(fā)明。一種基于結(jié)構(gòu)拓?fù)涞腉蛋白偶聯(lián)受體跨膜螺旋三維結(jié)構(gòu)的預(yù)測(cè)方法,包括:(1)構(gòu)建跨膜螺旋的結(jié)構(gòu)拓?fù)淠P捅景l(fā)明方法所指的的結(jié)構(gòu)拓?fù)洌⊿tructuralTopology)有別于計(jì)算機(jī)圖論中的拓?fù)浣Y(jié)構(gòu)(Topology),結(jié)構(gòu)拓?fù)湓诒景l(fā)明方法中指GPCR三維結(jié)構(gòu)的拓?fù)?,在此?jiǎn)稱為結(jié)構(gòu)拓?fù)洹4蠖鄶?shù)的GPCR都具有類似的結(jié)構(gòu)拓?fù)洌浩邆€(gè)α跨膜螺旋(TMH,TransMembraneHelix)、一個(gè)N端、三個(gè)胞內(nèi)環(huán)(ICL,IntraCellularLoop)、三個(gè)胞外環(huán)(ECL,ExtraCellularLoop)以及一個(gè)C端。其中,七個(gè)α跨膜螺旋所構(gòu)成的螺旋束是其最主要的拓?fù)涮卣鳎瑳Q定了GPCR的整體走向,其三維結(jié)構(gòu)的預(yù)測(cè)精度直接影響受體三維結(jié)構(gòu)預(yù)測(cè)、配體對(duì)接及功能分析的準(zhǔn)確性。對(duì)于受體結(jié)構(gòu)預(yù)測(cè)的后繼問題-配體對(duì)接(LigandDocking),配體口袋(Pocket)柔性與對(duì)接柔性的模擬都與螺旋束的結(jié)構(gòu)有關(guān)。用計(jì)算機(jī)方法對(duì)GPCR的跨膜螺旋進(jìn)行預(yù)測(cè)時(shí),我們首先建立7個(gè)跨膜螺旋的幾何結(jié)構(gòu)拓?fù)淠P?,建模的重點(diǎn)是跨膜螺旋之間的幾何結(jié)構(gòu)拓?fù)涮卣鳎约翱缒ぢ菪c膜平面之間的幾何關(guān)系。此時(shí),不考慮單個(gè)螺旋內(nèi)部原子之間的相對(duì)位置,將單個(gè)螺旋視為剛體(RigidBody)。結(jié)構(gòu)拓?fù)淠P褪菍?duì)跨膜螺旋實(shí)際三維結(jié)構(gòu)的簡(jiǎn)化與歸納,通過拓?fù)淠P偷姆治?,可以設(shè)計(jì)出有效的結(jié)構(gòu)采樣策略,并協(xié)助評(píng)估不同采樣策略的性能。本發(fā)明方法中跨膜螺旋的結(jié)構(gòu)拓?fù)溆袃深悾郝菪c螺旋之間的結(jié)構(gòu)拓?fù)洌ㄈ鐖D1所示)和螺旋與膜之間結(jié)構(gòu)拓?fù)洌ㄈ鐖D2所示)。如圖1為螺旋在膜平面上的垂直投影,體現(xiàn)了螺旋與螺旋之間的2D距離關(guān)系。如圖2模型中Z表示膜的厚度,Z=2z0,其中,表示螺旋的旋轉(zhuǎn)角度,τ表示螺旋的相對(duì)膜平面法線的傾斜角度,d是螺旋中心相對(duì)于膜平面的垂直偏移。(2)基于結(jié)構(gòu)拓?fù)淠P偷念A(yù)測(cè)方法(21)預(yù)測(cè)方法流程依據(jù)對(duì)結(jié)構(gòu)拓?fù)淠P偷姆治觯景l(fā)明的跨膜螺旋的預(yù)測(cè)方法可以分為四個(gè)階段。第一階段:跨膜螺旋區(qū)域識(shí)別,根據(jù)GPCR的序列信息預(yù)測(cè)出可能的跨膜螺旋區(qū),這是進(jìn)行跨膜螺旋三維結(jié)構(gòu)預(yù)測(cè)的必要先導(dǎo)步驟;第二階段:從7個(gè)螺旋2D起點(diǎn)位置開始,建立螺旋的3D結(jié)構(gòu),并通過平移優(yōu)化螺旋間的相對(duì)位置關(guān)系;第三階段:優(yōu)化各個(gè)螺旋在膜內(nèi)的自轉(zhuǎn)朝向,即找到最佳的旋轉(zhuǎn)角度第四階段:優(yōu)化7個(gè)螺旋與膜的傾斜角度,即找到最佳的傾斜角度τ。第二、三、四階段先后對(duì)螺旋執(zhí)行平移、自轉(zhuǎn)、傾斜三種運(yùn)動(dòng),這是依據(jù)GPCR的結(jié)構(gòu)拓?fù)涠O(shè)計(jì)的,缺少了任意一種運(yùn)動(dòng),螺旋采樣都是不完整的。所采用的分階段優(yōu)化方法,不僅是采樣代價(jià)與采樣搜索空間的平衡,更是橫向搜索與縱向搜索的一種平衡,為了保持GPCR結(jié)構(gòu)預(yù)測(cè)的完整性,螺旋結(jié)構(gòu)預(yù)測(cè)完成后,用Loop片段插入連結(jié)7個(gè)螺旋,最后將整體結(jié)構(gòu)進(jìn)行小幅度的優(yōu)化,其流程如圖3所示。(22)基于結(jié)構(gòu)拓?fù)涞拇蚍趾瘮?shù)能量函數(shù)是蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)中的重要子問題,優(yōu)質(zhì)的能量函數(shù)能較準(zhǔn)確的識(shí)別近天然構(gòu)象,指導(dǎo)采樣算法向正確的方向搜索;拙劣的能量函數(shù)即使采樣到高精度構(gòu)象,也會(huì)失之交臂。本發(fā)明方法在Rosetta的能量函數(shù)基礎(chǔ)上,設(shè)計(jì)了基于拓?fù)浣Y(jié)構(gòu)的能量項(xiàng),用于評(píng)判跨膜螺旋之間位置合理性的能量項(xiàng)。Rosetta是著名的從頭預(yù)測(cè)平臺(tái),在歷屆CASP(CriticalAssessmentofTechniquesforProteinStructurePrediction)比賽中都名列前茅,他們?cè)O(shè)計(jì)了針對(duì)膜環(huán)境的能量函數(shù)(即打分函數(shù),蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域常稱為能量函數(shù)),將厚度的膜分為7層,統(tǒng)計(jì)了28個(gè)膜蛋白中各種殘基在7層中的分布概率,用此能量函數(shù)E來評(píng)估膜蛋白的三維結(jié)構(gòu)。這樣的能量函數(shù)考慮了螺旋殘基與膜之間的相對(duì)位置,但未對(duì)跨膜螺旋之間位置關(guān)系進(jìn)行評(píng)價(jià)。本發(fā)明方法在Rosetta的膜環(huán)境能量函數(shù)E上增加了一個(gè)新的、關(guān)于跨膜螺旋的能量項(xiàng)E′用于評(píng)價(jià)螺旋堆積成螺旋束時(shí)的緊密程度,即本發(fā)明方法中的用于計(jì)算G蛋白偶聯(lián)受體構(gòu)象能量的能量函數(shù)為e,且e=E+E′。一般認(rèn)為,在不發(fā)生碰撞前提下,越是緊密的螺旋束就越接近天然構(gòu)象。E′先計(jì)算圖1中任意兩個(gè)螺旋中點(diǎn)與這些中點(diǎn)的均值坐標(biāo)O所構(gòu)成三角形的面積S1,S2,…,S7的面積和S,然后通過公式(1)計(jì)算E′。其中Smin與Smax是從現(xiàn)有已知GPCR中得到的面積最小值與最大值。在不發(fā)生碰撞情況下,E′越小,螺旋束越緊密,形成的構(gòu)象就越合理;在發(fā)生碰撞時(shí),能量函數(shù)E遠(yuǎn)遠(yuǎn)大于能量函數(shù)E′,能量函數(shù)E′相對(duì)于能量函數(shù)E來說可以忽略不計(jì),能量函數(shù)e由Rosetta的膜環(huán)境能量函數(shù)E進(jìn)行評(píng)價(jià)。實(shí)際情況中各螺旋的中點(diǎn)并不在同一平面上,且可能發(fā)生三角形相交的情況,但由于公式(1)中計(jì)算的為相對(duì)量,所以這并不影響構(gòu)象評(píng)價(jià)的可靠性,式(1)如下所示,Smax---(1).]]>(23)引入約束依據(jù)上述跨膜螺旋的拓?fù)浣Y(jié)構(gòu)模型,將模型中的各種參數(shù)進(jìn)行離散化,然后按排列組合采樣,若沒有其它限制條件,無疑其采樣空間巨大,是一個(gè)典型的NP困難問題。由此在預(yù)測(cè)的各個(gè)階段,需要引入多種約束,剪裁采樣空間,從而尋求計(jì)算代價(jià)與預(yù)測(cè)質(zhì)量之間的平衡。約束數(shù)據(jù)可以來源于生化實(shí)驗(yàn)、第三方預(yù)測(cè)結(jié)果或是先驗(yàn)知識(shí)。本發(fā)明方法引入了兩種約束。第一種是2D位置約束,即7個(gè)螺旋的中心線與膜平面的交點(diǎn)位置約束。這種約束限制了7個(gè)螺旋在2D平面上的相對(duì)關(guān)系,可以避免遠(yuǎn)離這些約束點(diǎn)的無效采樣。本發(fā)明方法以Nugent等人(參見文獻(xiàn)NugentT,JonesdDT.Predictingtransmembranehelixpackingarrangementsusingresiduecontactsandaforce-directedalgorithm.PLoSComputBiol,2009,6:e1000714)的預(yù)測(cè)方法預(yù)測(cè)出的結(jié)果作為2D位置約束,該方法首先預(yù)測(cè)出脂在膜中的暴露程度、殘基與殘基和螺旋與螺旋之間的相互作用,然后用Force-Directed算法優(yōu)化膜蛋白中跨膜螺旋的二維拓?fù)浣Y(jié)構(gòu)。以GPCRDOCK2010比賽目標(biāo)CXCR4和D3為例,用Nugent等人的方法計(jì)算得到的2D位置約束,如圖3-4所示,具體螺旋坐標(biāo)值如表1所示。表1中helixnumber、CXCR4x、CXCR4Y、D3x、D3Y分別表示螺旋序號(hào)、CXCR4的x軸坐標(biāo)、CXCR4的Y軸坐標(biāo)、D3的x軸坐標(biāo)、D3的Y軸坐標(biāo)。第二種是傾斜角度約束,本發(fā)明從OMP(OrientationsofProteinsinMembranesdatabase)數(shù)據(jù)庫中獲取了傾斜角度τ的先驗(yàn)知識(shí),OMP數(shù)據(jù)庫中存放了1980個(gè)己知膜蛋白的傾斜角度等三維拓?fù)湫畔ⅲ哂薪y(tǒng)計(jì)意義。GPCR是膜蛋白家族中的一種具有7個(gè)跨膜螺旋的膜蛋白,所以O(shè)MP中的數(shù)據(jù)對(duì)GPCR具有一定的適用性。經(jīng)對(duì)OMP中數(shù)據(jù)統(tǒng)計(jì),發(fā)現(xiàn)螺旋的傾斜角度τ滿足以30度為均值,6度為方差的高斯分布約束,由此TMGPCR以此作為在螺旋傾斜角度優(yōu)化時(shí)的約束。表1CXCR4和D3的螺旋中心2D坐標(biāo)helixnumberCXCR4XCXCR4YD3XD3Y117.015-4.15114.2303.57228.3277.431-2.02612.5603-7.0412.165-8.690-0.5384-6.02011.7207.15910.9705-10.846-6.659-14.79011.98663.758-9.971-5.122-14.13072.8110.4220.4960.045(24)識(shí)別跨膜螺旋區(qū)域跨膜區(qū)域的識(shí)別雖然也是跨膜螺旋中一個(gè)必要步驟,但現(xiàn)有方法相對(duì)較成熟,所以本發(fā)明綜合了現(xiàn)有的六種主流跨膜螺旋識(shí)別方法,將這些識(shí)別結(jié)果的平均值作為本發(fā)明的識(shí)別區(qū)域。表2是以目標(biāo)CXCR4為例,用TopPred、UniProt、TMpred、HMMTOP、TMHMM、OCTOPUS進(jìn)行預(yù)測(cè)的結(jié)果,以及本發(fā)明平均后的結(jié)果和天然構(gòu)象的實(shí)際跨膜螺旋區(qū)域。表2CXCR4的跨膜區(qū)域識(shí)別方法7個(gè)跨膜區(qū)域(起始?xì)埢?hào)-終止殘基號(hào))TopPred9-29,43-63,77-97,120-140,169-189,205-225,252-272UniProt4-28,43-64,76-95,120-139,161-181,207-226,248-267TMpred4-27,43-70,79-98,120-140,169-188,205-226,251-270HMMTOP4-26,45-64,79-97,120-142,169-188,207-226,253-272TMHMM4-26,47-69,79-101,121-140,164-186,207-229,249-271OCTOPUS6-26,41-61,71-101,118-138,166-186,205-225,247-267Result6-27,43-65,76-101,119-139,166-186,206-226,250-269Native2-27,41-65,71-97,119-139,161-186,206-230,248-266(25)基于結(jié)構(gòu)拓?fù)淠P偷牟蓸优c算法在本發(fā)明的第二、三、四階段中,將7個(gè)螺旋作為獨(dú)立剛體,對(duì)這些剛體之間的相對(duì)位置進(jìn)行優(yōu)化。剛體是內(nèi)部原子相對(duì)位置保持不變,只能進(jìn)行整體移動(dòng)或旋轉(zhuǎn)的結(jié)構(gòu),這樣的移動(dòng)符合單個(gè)跨膜螺旋的內(nèi)部殘基較為穩(wěn)定,自由度較低的特點(diǎn)。以下通過算法描述第二、三、四階段的具體過程。其中,第3行是迭代優(yōu)化螺旋的結(jié)構(gòu),每次迭代以前一代的最優(yōu)構(gòu)象為初始構(gòu)象;第4行g(shù)etHelixAxis()函數(shù)以7個(gè)螺旋中的骨架原子坐標(biāo)為輸入,分別計(jì)算它們的中心軸的方向向量;第5行g(shù)etMembrane()函數(shù)將7個(gè)螺旋軸方向的均值作為膜平面的法線方向;第二階段為第6-11行,其中transferHelix(P,TM[j],RND(-5,5),RND(-5,5),RND(-5,5))函數(shù)對(duì)第j個(gè)螺旋分別沿x、y、z方向隨機(jī)(在至范圍取隨機(jī)整數(shù))平移,若平移后的構(gòu)象能量函數(shù)e打分低于原構(gòu)象的打分,則接受該構(gòu)象;第三階段為第12-17行,其中spinHelix(P,TM[j],i)函數(shù)表示對(duì)第j個(gè)螺旋以螺旋軸為中心軸自轉(zhuǎn)i度,并用能量函數(shù)e評(píng)估是否接受自轉(zhuǎn)后的構(gòu)象;第四階段為第18-23行,其中tiltGaussianHelix(P,TM[j],30,5)函數(shù)對(duì)膜平面法線與第j個(gè)螺旋軸的夾角τ進(jìn)行均值為30度和方差為6度的高斯采樣,并用能量函數(shù)e評(píng)估是否接受采樣后的構(gòu)象;第24行crossHelixes()函數(shù)執(zhí)行7個(gè)螺旋的兩兩交換,并從中選出最優(yōu)構(gòu)象。以下通過與三組經(jīng)典數(shù)據(jù)集的比較實(shí)驗(yàn),檢驗(yàn)本發(fā)明方法預(yù)測(cè)GPCR跨膜螺旋三維結(jié)構(gòu)的有效性。實(shí)驗(yàn)一與GPCRDOCK2010參賽結(jié)果比較我們考察了TMGPCR對(duì)GPCRDOCK2010參賽小組所提交構(gòu)象的優(yōu)化能力。實(shí)驗(yàn)中先將網(wǎng)上公布的提交結(jié)構(gòu)按照TMRMSD排序,從中分別按照TMRMSD均勻選取了結(jié)構(gòu),其中CXCR4的最小TMRMSD為D3的最小TMRMSD為用本發(fā)明方法優(yōu)化后所得到的最小TMRMSD分別為和在GPCRDOCK2010網(wǎng)站公布的結(jié)果中分別排名為第四和第一,如表3中所示GPCRDOCK2010中的前五名的構(gòu)象與TMGPCR產(chǎn)生的最優(yōu)構(gòu)象的TMRMSD比較。表3與GPCRDOCK2010參賽結(jié)果的TMRMSD比較實(shí)驗(yàn)二與Swiss方法的雙盲比較為了檢驗(yàn)TMGPCR預(yù)測(cè)GPCR跨膜螺旋結(jié)構(gòu)的性能,進(jìn)行了一組雙盲實(shí)驗(yàn),即在僅已知GPCR序列情況下進(jìn)行預(yù)測(cè)。雙盲方式也是GPCRDock2008/2010、CASP(TheCriticalAssessmentofproteinStructurePrediction)等計(jì)算機(jī)結(jié)構(gòu)預(yù)測(cè)比賽中采用的方法。實(shí)驗(yàn)?zāi)繕?biāo)是GPCRDock網(wǎng)站上公布的所有解構(gòu)目標(biāo),共八個(gè)。同時(shí)用這八個(gè)目標(biāo)分別在著名的同源建模服務(wù)網(wǎng)站Swiss上進(jìn)行預(yù)測(cè)。TMGPCR與Swiss使用相同的模板,每個(gè)目標(biāo)選取2-4個(gè)模板,如表4所示,Swiss預(yù)測(cè)中有三個(gè)模板沒有輸出結(jié)果。TMGPCR每個(gè)目標(biāo)平均產(chǎn)生1358.75個(gè)構(gòu)象,產(chǎn)生每個(gè)目標(biāo)平均0.32個(gè)CPU小時(shí)。TMGPCR與Swiss的結(jié)果用盒須圖進(jìn)行比較,按TMRMSD從小到大排序后取TMGPCR的前400個(gè),如圖6所示,圖中灰色與黑色分別表示TMGPCR的TMRMSD與整體RMSD(TotalRMSD)的最小值、1/4位數(shù)值、3/4位數(shù)值和最大值,標(biāo)記+與×分別表示TMGPCR結(jié)果集的中位數(shù)值與平均值,標(biāo)記○表示Swiss的結(jié)果。圖6中TMGPCR獲得的最小TMRMSD低于Swiss的目標(biāo)有五個(gè),分別是CXCR4、KOR1、D3、A2A和Beta2;兩個(gè)目標(biāo)的最小TMRMSD與Swiss結(jié)果相當(dāng),分別是HH1R和S1P1;KOR3的最小TMRMSD明顯劣于Swiss的結(jié)果。從圖6中還發(fā)現(xiàn)有四個(gè)目標(biāo)的最小TotalRMSD低于Swiss的結(jié)果KOR1、HH1R、KOR3和Beta2;兩個(gè)目標(biāo)的最小TotalRMSD與Swiss的結(jié)果相當(dāng),分別是A2A與S1P1;CXCR4和D3的最小TotalRMSD劣于Swiss的結(jié)果。這說明TMGPCR不僅提高了跨膜螺旋部分的精度,而且還利用螺旋位置的調(diào)整改善了Loop的結(jié)構(gòu)精度,從而提高了目標(biāo)的整體預(yù)測(cè)精度。隨后,考察了TMGPCR結(jié)果集的統(tǒng)計(jì)學(xué)意義。使用bioshellpackage(如參見文獻(xiàn)GrontD,KolinskiA.Bioshell-apackageoftoolsforstructuralbiologycomputations.Bioinformatics,2006,22:621–622)對(duì)TMGPCR結(jié)果集的前400個(gè)結(jié)構(gòu)進(jìn)行1%的50折疊(fold)bootstrap估計(jì),然后將bootstrap后的均值分別與Swiss的21個(gè)結(jié)果進(jìn)行TMRMSD與TotalRMSD的比較,如圖7所示,X軸表示Swiss的TMRMSD的值,Y軸表示TMGPCRbootstrap后的TMRMSD均值,所以圖右下方的點(diǎn)表示TMGPCR優(yōu)于Swiss,有16個(gè),用+表示;左上方表示TMGPCR劣于Swiss,有2個(gè),用×表示;斜線附近(均值差<0.05)則認(rèn)為兩者質(zhì)量相當(dāng),有3個(gè),用⊙表示。每個(gè)點(diǎn)的上下沿表示bootstrap后方差,方差越小TMGPCR結(jié)果的質(zhì)量越穩(wěn)定,反之則質(zhì)量越不穩(wěn)定。由于圖7與圖8的刻度比例為5:11,所以將圖8中的方差放大11/5倍,以使得兩張圖的方差寬度具有相同意義。同樣的方法比較了TMGPCR與Swiss的TotalRMSD情況,TMGPCR也具有優(yōu)勢(shì),如圖8所示。實(shí)驗(yàn)三與MODELLER方法的雙盲比較MODELLER也是一個(gè)被廣泛使用的同源建模工具,而且同時(shí)支持單模板(single-template,ST)與多模板(multiple-template,MT)建模。故本實(shí)驗(yàn)在相同的硬件與軟件平臺(tái)上開展了TMGPCR與MODELLER的性能比較實(shí)驗(yàn)。實(shí)驗(yàn)中,單模板與多模板的MODELLER分別對(duì)表4中的每個(gè)GPCR目標(biāo)產(chǎn)生1300個(gè)候選構(gòu)象,它們結(jié)果集的TMRMSD均值與方差顯示在表4的第8和第9列中。從均值來看,與單模板MODELLER(第8列)的比較TMGPCR(第6列)在八個(gè)目標(biāo)中有六個(gè)取得了優(yōu)勢(shì);與多模板MODELLER(第9列)的比較中,TMGPCR有七個(gè)目標(biāo)取得了優(yōu)勢(shì)。從方差來看,多模板MODELLER普遍方差較低,這一方面說明多模板MODELLER的穩(wěn)定性較高;另一方面也說明多模板MODELLER采樣時(shí)的多樣性不足,僅在模板的較近的空間采樣,這也可能是導(dǎo)致多模板MODELLER預(yù)測(cè)精度偏高的原因。表4八個(gè)目標(biāo)選取的模板與候選集精度比較上述表4中,(a)TMGPCR產(chǎn)生的候選集的構(gòu)象數(shù)量。(b)TMGPCR產(chǎn)生的候選集構(gòu)象的平均TMRMSD與方差。(c)ST(single-template,單模板)MODELLER產(chǎn)生的候選集構(gòu)象的平均TMRMSD與方差。(d)MT(multiple-template,多模板)MODELLER產(chǎn)生的候選集構(gòu)象的平均TMRMSD與方差。以上對(duì)本發(fā)明做了詳盡的描述,其目的在于讓熟悉此領(lǐng)域技術(shù)的人士能夠了解本發(fā)明的內(nèi)容并加以實(shí)施,并不能以此限制本發(fā)明的保護(hù)范圍,且本發(fā)明不限于上述的實(shí)施例,凡根據(jù)本發(fā)明的精神實(shí)質(zhì)所作的等效變化或修飾,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。