一種基于質(zhì)心變異策略的差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法
【專利摘要】一種基于質(zhì)心變異策略的差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,首先,根據(jù)各構(gòu)象的能量值進(jìn)行升序排列,并計(jì)算各構(gòu)象與能量最低構(gòu)象的平均能量誤差值;然后,選取部分能量較低的構(gòu)象計(jì)算質(zhì)心構(gòu)象;最后,根據(jù)平均能量誤差值判斷算法所達(dá)到的搜索狀態(tài),從而設(shè)計(jì)不同的質(zhì)心變異策略生成測(cè)試構(gòu)象,即如果平均能量誤差值大于設(shè)定的閾值,則設(shè)計(jì)DE/rand?to?centroid/1策略進(jìn)行變異,通過提取質(zhì)心構(gòu)象中的部分片段替換隨機(jī)選取的構(gòu)象中的對(duì)應(yīng)片段生成測(cè)試構(gòu)象,否則設(shè)計(jì)DE/centroid/2策略進(jìn)行變異,通過提取隨機(jī)選擇的構(gòu)象中的片段替換質(zhì)心構(gòu)象中的對(duì)應(yīng)片段生成測(cè)試構(gòu)象,從而提高算法搜索效率和預(yù)測(cè)精度。
【專利說(shuō)明】
一種基于質(zhì)心變異策略的差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種生物學(xué)信息學(xué)、智能優(yōu)化、計(jì)算機(jī)應(yīng)用領(lǐng)域,尤其涉及的是,一種 基于質(zhì)心變異策略的差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 1953年,J. Watson和F. Crick在英國(guó)《Nature》雜志上發(fā)表了DNA分子雙螺旋結(jié)構(gòu)模 型,標(biāo)志著分子生物學(xué)真正意義上的誕生;五年后,F(xiàn).Crick提出分子生物學(xué)"中心法則"的 設(shè)想,揭示了生命遺傳信息傳遞的一般規(guī)律。作為該法則的關(guān)鍵部分,從DNA到蛋白質(zhì)氨基 酸序列的三聯(lián)遺傳密碼(簡(jiǎn)稱"第一密碼")的破譯工作早在1965年就已經(jīng)全部完成;然而, 從氨基酸序列到空間結(jié)構(gòu)的折疊密碼(簡(jiǎn)稱"第二密碼")至今尚未破解。隨著2003年人類基 因組測(cè)序工作的完成,蛋白質(zhì)氨基酸序列數(shù)量激增,蛋白質(zhì)折疊密碼的理論研究成為當(dāng)前 蛋白質(zhì)工程領(lǐng)域迫切需要解決的一個(gè)關(guān)鍵問題。
[0003] 結(jié)構(gòu)基因組學(xué)利用實(shí)驗(yàn)手段來(lái)測(cè)定蛋白質(zhì)的三維結(jié)構(gòu)。X射線晶體學(xué)方法是至今 為止研究蛋白質(zhì)結(jié)構(gòu)最有效的方法,所能達(dá)到的精度是任何其他方法所不能比擬的,它的 缺點(diǎn)主要是蛋白質(zhì)的晶體難以培養(yǎng)且晶體結(jié)構(gòu)測(cè)定的周期較長(zhǎng)。多維核磁共振方法可以直 接測(cè)定蛋白質(zhì)在溶液中的構(gòu)象,但是由于對(duì)樣品的需要量大、純度要求高,目前只能測(cè)定小 分子蛋白質(zhì)。總體上,蛋白質(zhì)結(jié)構(gòu)實(shí)驗(yàn)測(cè)定方法極其費(fèi)時(shí)費(fèi)錢費(fèi)力。
[0004] 從頭預(yù)測(cè)方法被譽(yù)為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的圣杯,鑒于其重要的生物學(xué)意義和問 題的復(fù)雜性,2005年《Science》雜志將其列為當(dāng)前科學(xué)界亟待解決的100個(gè)最具挑戰(zhàn)性問題 之一。蛋白質(zhì)從頭預(yù)測(cè)方法必須考慮以下兩個(gè)因素:(1)蛋白質(zhì)結(jié)構(gòu)能量函數(shù);(2)構(gòu)象空間 搜索方法。第一個(gè)因素本質(zhì)上屬于分子力學(xué)問題,主要是為了能夠計(jì)算得到每個(gè)蛋白質(zhì)結(jié) 構(gòu)對(duì)應(yīng)的能量值。第二個(gè)因素本質(zhì)上屬于全局優(yōu)化問題,通過選擇一種合適的優(yōu)化方法,對(duì) 構(gòu)象空間進(jìn)行快速搜索,得到與某一全局最小能量對(duì)應(yīng)的構(gòu)象。其中,蛋白質(zhì)構(gòu)象空間優(yōu)化 屬于一類非常難解的NP-Hard問題。群體進(jìn)化類算法是研究蛋白質(zhì)分子構(gòu)象優(yōu)化的重要方 法,主要包括差分進(jìn)化算法(DE)、遺傳算法(GA)、粒子群算法(PS0),這些算法不僅結(jié)構(gòu)簡(jiǎn) 單,易于實(shí)現(xiàn),而且魯棒性強(qiáng),因此,經(jīng)常被用于從頭預(yù)測(cè)方法中的全局最小能量構(gòu)象搜索。 然而群體優(yōu)化算法屬于一類隨機(jī)優(yōu)化算法,現(xiàn)有蛋白質(zhì)構(gòu)象優(yōu)化方面的文獻(xiàn)主要研究如何 從一個(gè)局部最小解跳到另一個(gè)局部最小解,沒有提供一種機(jī)制有效利用群體進(jìn)化過程的智 能信息指導(dǎo)搜索,從而導(dǎo)致算法效率較低。此外,受選擇壓力和隨機(jī)采樣過程中遺傳漂變的 影響,群體中所有個(gè)體將不可避免收斂到某個(gè)吸收態(tài)。對(duì)于蛋白質(zhì)構(gòu)象這類優(yōu)化問題,該吸 收態(tài)并不一定就是全局最優(yōu)解,從而影響預(yù)測(cè)精度。
[0005] 因此,現(xiàn)有的基于群體的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法在搜索效率和預(yù)測(cè)精度方面存在著 缺陷,需要改進(jìn)。
【發(fā)明內(nèi)容】
[0006] 為了克服現(xiàn)有的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法在搜索效率和預(yù)測(cè)精度方面的不足,本發(fā)明 通過提取能量較低的構(gòu)象信息,設(shè)計(jì)質(zhì)心變異策略,同時(shí)基于片段組裝技術(shù),提出一種搜索 效率高、預(yù)測(cè)精度高的基于質(zhì)心變異策略的差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法。
[0007] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
[0008] -種基于質(zhì)心變異策略的差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,所述優(yōu)化方法包括以下 步驟:
[0009] 1)選取蛋白質(zhì)力場(chǎng)模型,即能量函數(shù)E(X);
[0010] 2)給定輸入序列信息;
[0011] 3)初始化:設(shè)置種群大小NP,交叉因子CR,最大迭代次數(shù),由輸入序列產(chǎn)生初始構(gòu) 象種群?=丨(^,€ >2,...,€^|(=(.?,...,4)#丨],2,"_,撕}},并初始化迭代次數(shù)6 = 0,其 中,N表示維數(shù),4表示第i個(gè)構(gòu)象C1的第N維元素;
[0012] 4)計(jì)算當(dāng)前種群各構(gòu)象的能量函數(shù)值E(C1),i = l,2,…,N,并根據(jù)當(dāng)前種群中各 構(gòu)象能量值對(duì)各構(gòu)象進(jìn)行升序排列;
[0013] 5)找出當(dāng)前種群中能量最低的構(gòu)象Cbe3St,并計(jì)算其他構(gòu)象的能量與C be3St的能量E (Cbest)的平均能量誤差
,如果迭代次數(shù)G = 0,則令5max=5;
[0014] 6)針對(duì)種群中的每個(gè)構(gòu)象個(gè)體少,i e {1,2,3,…,NP},令Ctarget = 6,Ctarget表示目 標(biāo)構(gòu)象個(gè)體,提取當(dāng)前種群中能量較低的構(gòu)象信息,執(zhí)行以下操作生成變異構(gòu)象C mutant:
[0015] 6.1)選取排名前 CT個(gè)構(gòu)象 =(<w,.Cct.2,…,心),?》= ?,2,···,α rand(ΝΡ/3,ΝΡ/2),rand(NP/3,ΝΡ/2)表示ΝΡ/3和ΝΡ/2之間的隨機(jī)整數(shù),表示第m個(gè)選 取構(gòu)象的第N維元素;
[0016] 6 · 2)計(jì)算所選取的 CT個(gè)構(gòu)象的質(zhì)心構(gòu)象 Ccentroid = (Xcentroid, 1,Xcentroid,2,…, Xc^ntroidA),其中,構(gòu)象Cestoid的第j維元素 2,…,N;
[0017] 6.3)設(shè)置序列長(zhǎng)度L,在1和L之間隨機(jī)生成4個(gè)整數(shù)randintl、randint2、randint3 和;randint4,其中;randintl和;randint2,;randint3和;randint4互不相同,令a = min (randintl,randint2),b = max(randintl,randint2),c = min(randint3,randint4),d = max(randint3,randint4),其中min表示取兩個(gè)數(shù)的最小值,max表示取兩個(gè)數(shù)的最大值; [0018] 6 · 4)如果δ > 〇 · 55max,則設(shè)計(jì)DE/rand-to-centroid/策略進(jìn)行變異:從當(dāng)前種群中 隨機(jī)選取兩個(gè)不同的構(gòu)象Crandl和Crand2,其中randl乒rand2 e [ 1,NP],提取質(zhì)心構(gòu)象Ccentroid 位置a到位置b的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Crandl的相同位置所對(duì)應(yīng)的二面角, 同時(shí)提取構(gòu)象C rand2位置c到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Crandl相同位置 所對(duì)應(yīng)的二面角,然后將所得C randl進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant;
[0019] 6.5)如果δ彡ο . 5δΜΧ,則設(shè)計(jì)DE/centroid/2策略進(jìn)行變異:從當(dāng)前種群中隨機(jī)選 取兩個(gè)不同的構(gòu)象Crandl和CTand2,其中rand 1辛rand2 G [ 1,NP],提取構(gòu)象CTandl位置a到位置b 的片段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)心構(gòu)象Cc^ntelld的相同位置所對(duì)應(yīng)的二面角,同時(shí)使 用C rand2上位置c到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)心構(gòu)象Cc^trcild相同位置所 對(duì)應(yīng)的二面角,然后將所得C_ told進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant;;
[0020] 7)對(duì)變異構(gòu)象Cmutant執(zhí)行交叉操作生成測(cè)試構(gòu)象Ctrial:
[0021] 7 · 1)在0和1之間隨機(jī)生成小數(shù)rand3;
[0022] 7.2)若抑11(13彡0?,則在1和1^之間隨機(jī)生成整數(shù)抑11(14,利用變異構(gòu)象(:_咖中的片 段rand4替換目標(biāo)構(gòu)象C target中對(duì)應(yīng)的片段,從而生成測(cè)試構(gòu)象Ctriai,若rand3>CR,則Ctriai 直接等于變異構(gòu)象C mutant ;
[0023] 8)計(jì)算測(cè)試構(gòu)象Ctriai的能量值E(Ctriai),如果E(C triai)-E(Ctarget)<0,表明測(cè)試構(gòu) 象優(yōu)于目標(biāo)構(gòu)象,則測(cè)試構(gòu)象C triai替換目標(biāo)構(gòu)象Ctargert;
[0024] 9)判斷是否滿足終止條件,若滿足則輸出結(jié)果并退出,否則返回步驟4)。
[0025] 進(jìn)一步,所述步驟9)中,對(duì)種群中的每個(gè)構(gòu)象個(gè)體都執(zhí)行完步驟6 )_8)以后,迭代 次數(shù)G=G+1,終止條件為迭代次數(shù)G達(dá)到步驟3)中預(yù)設(shè)的最大迭代次數(shù)。
[0026] 本發(fā)明的技術(shù)構(gòu)思為:首先,根據(jù)各構(gòu)象的能量值進(jìn)行升序排列,并計(jì)算各構(gòu)象與 能量最低構(gòu)象的平均能量誤差值;然后,選取部分能量較低的構(gòu)象計(jì)算質(zhì)心構(gòu)象;最后,根 據(jù)平均能量誤差值判斷算法所達(dá)到的搜索狀態(tài),從而設(shè)計(jì)不同的質(zhì)心變異策略生成測(cè)試構(gòu) 象,即如果平均能量誤差值大于設(shè)定的閾值,則設(shè)計(jì)DE/rand-to-centroid/Ι策略進(jìn)行變 異,通過提取質(zhì)心構(gòu)象中的部分片段替換隨機(jī)選取的構(gòu)象中的對(duì)應(yīng)片段生成測(cè)試構(gòu)象,否 則設(shè)計(jì)DE/centroid/2策略進(jìn)行變異,通過提取隨機(jī)選擇的構(gòu)象中的片段替換質(zhì)心構(gòu)象中 的對(duì)應(yīng)片段生成測(cè)試構(gòu)象,從而提高算法搜索效率和預(yù)測(cè)精度。
[0027] 本發(fā)明的有益效果表現(xiàn)在:根據(jù)能量較低的構(gòu)象計(jì)算質(zhì)心構(gòu)象,并通過提取質(zhì)心 構(gòu)象的進(jìn)化信息設(shè)計(jì)質(zhì)心變異策略生成測(cè)試構(gòu)象,從而提高預(yù)測(cè)精度;其次,根據(jù)平均能量 誤差值判斷算法所達(dá)到的搜索狀態(tài),從而設(shè)計(jì)適合對(duì)應(yīng)狀態(tài)的質(zhì)心變異策略生成測(cè)試構(gòu) 象,達(dá)到提高算法搜索效率的效果。
【附圖說(shuō)明】
[0028] 圖1是本發(fā)明中蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法的流程圖。
[0029] 圖2是本發(fā)明中的預(yù)測(cè)方法對(duì)蛋白質(zhì)4ICB預(yù)測(cè)時(shí)的構(gòu)象更新示意圖。
[0030] 圖3是本發(fā)明中的預(yù)測(cè)方法對(duì)蛋白質(zhì)4ICB預(yù)測(cè)時(shí)得到的構(gòu)象分布圖。
[0031]圖4是本發(fā)明中的預(yù)測(cè)方法對(duì)蛋白質(zhì)4ICB預(yù)測(cè)得到的三維結(jié)構(gòu)。
【具體實(shí)施方式】
[0032] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。
[0033] 參照?qǐng)D1和圖4,一種基于質(zhì)心變異策略差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,包括以下 步驟:
[0034] 1)選取蛋白質(zhì)力場(chǎng)模型,即能量函數(shù)E(X);
[0035] 2)給定輸入序列信息;
[0036] 3)初始化:設(shè)置種群大小NP,交叉因子CR,最大迭代次數(shù),由輸入序列產(chǎn)生初始構(gòu) 象種群?:{〇 1,€^,...,€^|(:^(." ...,:<;),以丨1,2,~,犯>}},并初始化迭代次數(shù)6 = 0,其 中,N表示維數(shù),< 表示第i個(gè)構(gòu)象C1的第N維元素;
[0037] 4)計(jì)算當(dāng)前種群各構(gòu)象的能量函數(shù)值E(C1),i = l,2,…,N,并根據(jù)當(dāng)前種群中各 構(gòu)象能量值對(duì)各構(gòu)象進(jìn)行升序排列;
[0038] 5)記當(dāng)前種群中能量最低的構(gòu)象Cbest,并計(jì)算其他構(gòu)象的能量與Cbest的能量E (Cbest)的平均能量誤差
,如果迭代次數(shù)G = 0,則令5max=5;
[0039] 6)針對(duì)種群中的每個(gè)構(gòu)象個(gè)體少,i e {1,2,3,…,NP},令Ctarget = 6,Ctarget表示目 標(biāo)構(gòu)象個(gè)體,提取當(dāng)前種群中能量較低的構(gòu)象信息,執(zhí)行以下操作生成變異構(gòu)象C mutant:
[0040] 6.1)選取排名前 CT 個(gè)構(gòu)象 C::lect = (x:cU,.<to2r",x:lectAf),m = rand(NP/3,NP/2),rand(NP/3,NP/2)表示NP/3和NP/2之間的隨機(jī)整數(shù),C.w表示第m個(gè)選 取構(gòu)象的第N維元素;
[0041 ] 6 · 2)計(jì)算所選取的 CT個(gè)構(gòu)象的質(zhì)心構(gòu)象 Ccentroid = (Xcentroid, 1,Xcentroid,2,…, Xc^ntroidA),其中,構(gòu)象Cestoid的第j維元素
2,…,N;
[0042] 6.3)設(shè)置序列長(zhǎng)度L,在1和L之間隨機(jī)生成4個(gè)整數(shù)randintl、randint2、randint3 和;randint4,其中;randintl和;randint2,;randint3和;randint4互不相同,令a = min (randintl,randint2),b = max(randintl,randint2),c = min(randint3,randint4),d = max(randint3,randint4),其中min表示取兩個(gè)數(shù)的最小值,max表示取兩個(gè)數(shù)的最大值;
[0043] 6·4)如果δ>0·5δmax,則設(shè)計(jì)DE/rand-to-centroid/策略進(jìn)行變異:從當(dāng)前種群中 隨機(jī)選取兩個(gè)不同的構(gòu)象C randl和Crand2,其中randl乒rand2 e [ 1,NP],提取質(zhì)心構(gòu)象Ccentroid 位置a到位置b的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Crandl的相同位置所對(duì)應(yīng)的二面角, 同時(shí)提取構(gòu)象C rand2位置c到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Crandl相同位置 所對(duì)應(yīng)的二面角,然后將所得C randl進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant;
[0044] 6.5)如果δ彡〇 . 5δΜΧ,則設(shè)計(jì)DE/centroid/2策略進(jìn)行變異:從當(dāng)前種群中隨機(jī)選 取兩個(gè)不同的構(gòu)象C randl和CTand2,其中rand 1辛rand2 G [ 1,NP],提取構(gòu)象CTandl位置a到位置b 的片段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)心構(gòu)象Cc^ntelld的相同位置所對(duì)應(yīng)的二面角,同時(shí)使 用C rand2上位置c到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)心構(gòu)象Cc^trcild相同位置所 對(duì)應(yīng)的二面角,然后將所得C_ told進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant;;
[0045] 7)為了提高種群的多樣性,對(duì)變異構(gòu)象Cmutant執(zhí)行交叉操作生成測(cè)試構(gòu)象C trial:
[0046] 7.1)在0和1之間隨機(jī)生成小數(shù)rand3;
[0047] 7.2)若抑11(13彡0?,則在1和1^之間隨機(jī)生成整數(shù)抑11(14,利用變異構(gòu)象(:_咖中的片 段rand4替換目標(biāo)構(gòu)象C target中對(duì)應(yīng)的片段,從而生成測(cè)試構(gòu)象Ctriai,若rand3>CR,則Ctriai 直接等于變異構(gòu)象C mutant ;
[0048] 8)計(jì)算測(cè)試構(gòu)象Ctriai的能量值E(Ctriai),如果E(C triai)-E(Ctarget)<0,表明測(cè)試構(gòu) 象優(yōu)于目標(biāo)構(gòu)象,則測(cè)試構(gòu)象C triai替換目標(biāo)構(gòu)象Ctargert;
[0049] 9)判斷是否滿足終止條件,若滿足則輸出結(jié)果并退出,否則返回步驟4)。
[0050] 所述步驟9)中,對(duì)種群中的每個(gè)構(gòu)象個(gè)體都執(zhí)行完步驟6)_8)以后,迭代次數(shù)G = G +1,終止條件為迭代次數(shù)G達(dá)到步驟3)中預(yù)設(shè)的最大迭代次數(shù)
[00511本實(shí)施例序列長(zhǎng)度為76的α折疊蛋白質(zhì)4ICB為實(shí)施例,一種基于質(zhì)心變異策略的 差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,其中包含以下步驟:
[0052] 1)選取Rosetta score3力場(chǎng)模型,即能量函數(shù)E(X);
[0053] 2)輸入蛋白質(zhì)4ICB的序列信息;
[0054] 3)初始化:設(shè)置種群大小NP = 50,交叉因子CR = 0.5,最大迭代次數(shù)為10000,由輸 入序列產(chǎn)生初始構(gòu)象種群Κ?._.,ΓΝ"|Γ 冬…,.< ),/_ e彳1,2,…,ΛΙΙ ?,并初始化迭 代次數(shù)G = 0,其中,Ν表示維數(shù),吟表示第i個(gè)構(gòu)象C1的第Ν維元素;
[0055] 4)計(jì)算當(dāng)前種群各構(gòu)象的能量函數(shù)值E(C1),i = l,2,…,N,并根據(jù)當(dāng)前種群中各 構(gòu)象能量值對(duì)各構(gòu)象進(jìn)行升序排列;
[0056] 5)記當(dāng)前種群中能量最低的構(gòu)象Cbest,并計(jì)算其他構(gòu)象的能量與Cbest的能量Ε (Cbest)的平均能量
,如果迭代次數(shù)G = 0,則令5max= δ;
[0057] 6)針對(duì)種群中的每個(gè)構(gòu)象個(gè)體少,i e {1,2,3,…,NP},令Ctarget = 6,Ctarget表示目 標(biāo)構(gòu)象個(gè)體,提取當(dāng)前種群中能量較低的構(gòu)象信息,執(zhí)行以下操作生成變異構(gòu)象Cmutant:
[0058] 6 · 1)選取排名前CT個(gè)構(gòu)象Cto = = 1,2,… =rand(ΝΡ/3,ΝΡ/2),rand(ΝΡ/3,ΝΡ/2)表示ΝΡ/3和ΝΡ/2之間的隨機(jī)整數(shù),表示第m個(gè) 選取構(gòu)象的第N維元素;
[0059] 6 · 2)計(jì)算所選取的 CT個(gè)構(gòu)象的質(zhì)心構(gòu)象 Ccentroid = (Xcentroid, 1,Xcentroid,2,…, Xc^ntroidA),其中,構(gòu)象Cestoid的第j維元素 2,…,N;
[0060] 6 · 3)設(shè)置序列長(zhǎng)度L = 76,在1和L之間隨機(jī)生成4個(gè)整數(shù)randintl、randint2、 瓜11(1;[1^3和瓜11(1;[1^4,其中瓜11(1;[111:1和抑11(1;[1^2,瓜11(1;[1^3和瓜11(1;[1^4互不相同,令&=111;[11 (randintl,randint2),b = max(randintl,randint2),c = min(randint3,randint4),d = max(randint3,randint4),其中min表示取兩個(gè)數(shù)的最小值,max表示取兩個(gè)數(shù)的最大值; [0061 ] 6 · 4)如果δ > 〇 · 55max,則設(shè)計(jì)DE/rand-to-centroid/策略進(jìn)行變異:從當(dāng)前種群中 隨機(jī)選取兩個(gè)不同的構(gòu)象C randl和Crand2,其中randl乒rand2 e [ 1,NP],提取質(zhì)心構(gòu)象Ccentroid 位置a到位置b的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Crandl的相同位置所對(duì)應(yīng)的二面角, 同時(shí)提取構(gòu)象C rand2位置c到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Crandl相同位置 所對(duì)應(yīng)的二面角,然后將所得C randl進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant;
[0062] 6.5)如果δ彡〇 . 5δΜΧ,則設(shè)計(jì)DE/centroid/2策略進(jìn)行變異:從當(dāng)前種群中隨機(jī)選 取兩個(gè)不同的構(gòu)象Crandl和CTand2,其中rand 1辛rand2 G [ 1,NP],提取構(gòu)象CTandl位置a到位置b 的片段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)心構(gòu)象Cc^ntelld的相同位置所對(duì)應(yīng)的二面角,同時(shí)使 用C rand2上位置c到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)心構(gòu)象Cc^trcild相同位置所 對(duì)應(yīng)的二面角,然后將所得C_ told進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant;;
[0063] 7)為了提高種群的多樣性,對(duì)變異構(gòu)象Cmutant執(zhí)行交叉操作生成測(cè)試構(gòu)象Ctriai:
[0064] 7 · 1)在0和1之間隨機(jī)生成小數(shù)rand3;
[0065] 7.2)若抑11(13彡0?,則在1和1^之間隨機(jī)生成整數(shù)抑11(14,利用變異構(gòu)象(:_咖中的片 段rand4替換目標(biāo)構(gòu)象C target中對(duì)應(yīng)的片段,從而生成測(cè)試構(gòu)象Ctriai,若rand3>CR,則Ctriai 直接等于變異構(gòu)象Cmutant;
[0066] 8)計(jì)算測(cè)試構(gòu)象Ctriai的能量值E(Ctriai),如果E(C triai)-E(Ctarget)<0,表明測(cè)試構(gòu) 象優(yōu)于目標(biāo)構(gòu)象,則測(cè)試構(gòu)象C triai替換目標(biāo)構(gòu)象Ctargert;
[0067] 9)對(duì)種群中的每個(gè)構(gòu)象個(gè)體都執(zhí)行完步驟6)-8)以后,迭代次數(shù)G = G+1,若迭代次 數(shù)G達(dá)到最大迭代次數(shù)10000,則輸出結(jié)果并退出,否則返回步驟4)。
[0068]以序列長(zhǎng)度為76的α折疊蛋白質(zhì)4ICB為實(shí)施例,運(yùn)用以上方法得到了該蛋白質(zhì)的 近天然態(tài)構(gòu)象,最小均方根偏差為2.50Α,平均均方根偏差為192 Α,預(yù)測(cè)得到的三維結(jié)構(gòu) 如圖4所示。
[0069]以上闡述的是本發(fā)明給出的一個(gè)實(shí)施例表現(xiàn)出來(lái)的優(yōu)良優(yōu)化效果,顯然本發(fā)明不 僅適合上述實(shí)施例,而且可以應(yīng)用到實(shí)際工程中的各個(gè)領(lǐng)域,同時(shí)在不偏離本發(fā)明基本精 神及不超出本發(fā)明實(shí)質(zhì)內(nèi)容所涉及內(nèi)容的前提下可對(duì)其做種種變化加以實(shí)施。
【主權(quán)項(xiàng)】
1. 一種基于質(zhì)屯、變異策略的差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,其特征在于:所述蛋白質(zhì) 結(jié)構(gòu)預(yù)測(cè)方法包括W下步驟: 1) 選取蛋白質(zhì)力場(chǎng)模型,即能量函數(shù)E(x); 2) 給定輸入序列信息; 3) 初始化:設(shè)置種群大小NP,交叉因子CR,最大迭代次數(shù),由輸入序列產(chǎn)生初始構(gòu)象種 葡并初始化迭代次數(shù)G = 0,其中,N 表示維數(shù),4表示第i個(gè)構(gòu)象C1的第N維元素; 4) 計(jì)算當(dāng)前種群各構(gòu)象的能量函數(shù)值E(Cl),i = l,2,…,N,并根據(jù)當(dāng)前種群中各構(gòu)象能 量值對(duì)各構(gòu)象進(jìn)行升序排列; 5) 找出當(dāng)前種群中能量最低的構(gòu)象Cbest,并計(jì)算其他構(gòu)象的能量與Cbest的能量E(Cbest) 的平均能量誤I如果迭代次數(shù)G = 0,則令δ?3χ=δ; 6 )針對(duì)種群中的每個(gè)構(gòu)象個(gè)體,iE {1,2,3,···, ΝΡ},令Ctarget =, Ctarget表不目t不構(gòu) 象個(gè)體,提取當(dāng)前種群中能量較低的構(gòu)象信息,執(zhí)行W下操作生成變異構(gòu)象Cmutant: 6.1) 選取排名前CT個(gè)構(gòu)象C;:細(xì)二(端ed.p喘eet,2,…,端ee,.w ),"?二1,2,…,Cr巧中CT = rand (NP/3,NP/2),rand (NP/3,NP/2)表示NP/3和NP/2之間的隨機(jī)整數(shù),輝iwuv表示第m個(gè)選取構(gòu) 象的第腺隹元素; 6.2 )計(jì)算所選取的CT個(gè)構(gòu)象的質(zhì)心、構(gòu)象Ccentroid - ( Xcentroid, 1 , Xcentroid, 2 , , Xcentroid, n) j 其中,構(gòu)象Ccentroid的第j維元素6.3) 設(shè)置序列長(zhǎng)度L,在1和L之間隨機(jī)生成4個(gè)整數(shù)randintl、randint2、randint3和 randint4,其中randintl和randint2,randint3和randint4互不相同,令a=min(randintl, randint2) ,b = max (randintl ,randint2) , c =min (randintS ,randint4) ,d = max (randint3,randint4),其中min表示取兩個(gè)數(shù)的最小值,max表示取兩個(gè)數(shù)的最大值; 6.4) 如果δ >0.5Smax,則設(shè)計(jì)DE/rand-to-centroid/策略進(jìn)行變異:從當(dāng)前種群中隨機(jī) 選取兩個(gè)不同的構(gòu)象C^nd哺(fand2,其中randl聲r(shí)and2 E [ 1,NP],提取質(zhì)屯、構(gòu)象Ccentroid位置 a到位置b的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Ctandl的相同位置所對(duì)應(yīng)的二面角,同時(shí) 提取構(gòu)象Ctand2位置C到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換構(gòu)象Ctandl相同位置所對(duì) 應(yīng)的二面角,然后將所得Ctandl進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant; 6.5) 如果δ《〇 . 5Smax,則設(shè)計(jì)DE/cen化oid/2策略進(jìn)行變異:從當(dāng)前種群中隨機(jī)選取兩 個(gè)不同的構(gòu)象CTand哺cTand2,其中randl聲r(shí)and2e [ 1,NP],提取構(gòu)象fandi位置a到位置b的片 段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)屯、構(gòu)象CcentrDid的相同位置所對(duì)應(yīng)的二面角,同時(shí)使用 Ctand2上位置C到位置d的片段的氨基酸所對(duì)應(yīng)的二面角替換質(zhì)屯、構(gòu)象Ceentrnid相同位置所對(duì) 應(yīng)的二面角,然后將所得CcentrDid進(jìn)行片段組裝得到變異構(gòu)象個(gè)體Cmutant;; 7)對(duì)變異構(gòu)象Cmutant執(zhí)行交叉操作生成測(cè)試構(gòu)象Ctrial: 7.1) 在0和1之間隨機(jī)生成小數(shù)rand3; 7.2) 若抑11(13《01?,則在1和1之間隨機(jī)生成整數(shù)^11(14,利用變異構(gòu)象山。*3。沖的片段 rand4替換目標(biāo)構(gòu)象Ctarget中對(duì)應(yīng)的片段,從而生成測(cè)試構(gòu)象Ctriai,若rand3〉CR,貝iJCtriai直 接等于變異構(gòu)象Cmutant; 8 )計(jì)算測(cè)試構(gòu)象Ctrial的能量值E ( Ctrial),如果E ( Ctrial )-E ( Ctarget) <0,表明測(cè)試構(gòu)象優(yōu) 于目標(biāo)構(gòu)象,則測(cè)試構(gòu)象Ctrial替換目標(biāo)構(gòu)象Ctarget; 9)判斷是否滿足終止條件,若滿足則輸出結(jié)果并退出,否則返回步驟4)。2.如權(quán)利要求1所述的一種基于質(zhì)屯、變異策略的雙層差分進(jìn)化蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法, 其特征在于:所述步驟9)中,對(duì)種群中的每個(gè)構(gòu)象個(gè)體都執(zhí)行完步驟6)-8)?后,迭代次數(shù)G =G+1,終止條件為迭代次數(shù)G達(dá)到步驟3)中預(yù)設(shè)的最大迭代次數(shù)。
【文檔編號(hào)】G06F19/12GK106096326SQ201610390675
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月2日 公開號(hào)201610390675.0, CN 106096326 A, CN 106096326A, CN 201610390675, CN-A-106096326, CN106096326 A, CN106096326A, CN201610390675, CN201610390675.0
【發(fā)明人】張貴軍, 周曉根, 俞旭鋒, 郝小虎, 王柳靜, 徐東偉
【申請(qǐng)人】浙江工業(yè)大學(xué)