本發(fā)明涉及生物醫(yī)學領(lǐng)域,尤其涉及一種基于多目標粒子群優(yōu)化的蛋白質(zhì)結(jié)構(gòu)預測方法。
背景技術(shù):
蛋白質(zhì)結(jié)構(gòu)指的是三級結(jié)構(gòu),即指一條多肽鏈在二級結(jié)構(gòu)或者結(jié)構(gòu)域的基礎(chǔ)上,進一步盤繞、折疊,依靠次級鍵的維系固定所形成的特定空間結(jié)構(gòu)。研究蛋白質(zhì)結(jié)構(gòu),有助于了解蛋白質(zhì)的作用,了解蛋白質(zhì)如何行使其生物功能,認識蛋白質(zhì)與蛋白質(zhì)(或其它分子)之間的相互作用,這無論是對于生物學還是對于醫(yī)學和藥學,都是非常重要的。目前通過實驗方法確定蛋白質(zhì)結(jié)構(gòu)的過程仍然非常復雜,代價較高,需要耗費大量的成本和時間。近年來數(shù)據(jù)采集技術(shù)的飛速發(fā)展產(chǎn)生了海量的生物數(shù)據(jù),因此需要發(fā)展計算性的方法來預測蛋白質(zhì)結(jié)構(gòu),彌補生物數(shù)據(jù)產(chǎn)生能力和理解速度之間的差距。
蛋白質(zhì)結(jié)構(gòu)預測優(yōu)化是指將初始的、精度不高的預測結(jié)構(gòu)通過合適的搜索優(yōu)化方法得到精度更高的蛋白質(zhì)結(jié)構(gòu)。當前蛋白質(zhì)結(jié)構(gòu)優(yōu)化的方法主要可以分為兩類:基于分子動力學模擬和蒙特卡洛模擬方法?;诜肿觿恿W模擬的優(yōu)化方法的基本原理是應(yīng)用立場函數(shù)所描述的分子內(nèi)和分子間相互作用,根據(jù)牛頓運動力學計算蛋白質(zhì)在相空間中的軌跡,搜索出力場最低態(tài)。這種方法的精確性主要依賴于力場函數(shù)的精確性和模擬時間的長短?;诿商乜迥M的基本思想是使用玻爾茲曼分布函數(shù)實現(xiàn)在能量空間的搜索,同樣也依賴于能量函數(shù)的精確性。
在蛋白質(zhì)結(jié)構(gòu)預測優(yōu)化中,不論是基于分子動力學模擬還是蒙特卡洛模擬都依賴于力場函數(shù)或能量函數(shù)的精確性,但是目前我們?nèi)狈蚀_的能量函數(shù)來有效的搜索。對于蛋白質(zhì)而言,分子的力場包含許多參數(shù)包括原子的電荷、分子間的作用勢等,由于復雜性導致目前存在的很多立場函數(shù)和能量函數(shù)沒有能夠得到廣泛的應(yīng)用。在蛋白質(zhì)結(jié)構(gòu)預測中,我們通過分子動力學模擬或者蒙特卡洛模擬等方法來搜索能量最低態(tài)的結(jié)構(gòu),而能量最低態(tài)的結(jié)構(gòu)通常是接近于原始結(jié)構(gòu)的,所以如果描述蛋白質(zhì)結(jié)構(gòu)能量的能量函數(shù)不準確,那么就難以搜索到接近于原始結(jié)構(gòu)的狀態(tài)。
技術(shù)實現(xiàn)要素:
針對上述現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種基于多目標粒子群優(yōu)化的蛋白質(zhì)結(jié)構(gòu)預測方法,采用多目標粒子群方法,針對力場函數(shù)或能量函數(shù)不準確的問題采用兩個能量函數(shù)進行多目標搜索,具有有效性高和預測準確性高的優(yōu)點。
為了實現(xiàn)上述目的,本發(fā)明提供一種基于多目標粒子群優(yōu)化的蛋白質(zhì)結(jié)構(gòu)預測方法,包括步驟:
s1:在一待預測的蛋白質(zhì)序列中選擇需要優(yōu)化的n個不同初始結(jié)構(gòu)作為n個目標粒子,并將每一所述目標粒子的位置坐標以構(gòu)象表示的形式表示,n為大于零的自然數(shù);
s2:對一更新公式進行參數(shù)設(shè)置;
s3:根據(jù)所述更新公式對三目標能量公式進行迭代,并獲得一更優(yōu)解集;
s4:處理所述最優(yōu)解集獲得一最優(yōu)解,并將所述最優(yōu)解作為所述目標粒子的預測位置。
優(yōu)選地,所述更新公式包括公式(1)和公式(2):
其中,w為慣性系數(shù),k為迭代次數(shù),c1為認知系數(shù),c2為社會系數(shù);
優(yōu)選地,所述s2步驟中,初始化每一所述目標粒子的所述更新速度為0,并對一最大迭代次數(shù)、所述慣性系數(shù)、所述認知系數(shù)和所述社會系數(shù)進行設(shè)置。
優(yōu)選地,所述目標能量公式包括rosetta能量函數(shù)、quark能量函數(shù)和charmm能量函數(shù)。
優(yōu)選地,所述s3步驟進一步包括步驟:
s31:分別利用所述目標能量公式計算獲得各所述初始粒子的一第一能量函數(shù)值、一第二能量函數(shù)值和一第三能量函數(shù)值;
s32:確定并選擇各所述目標粒子中的非支配粒子,并將所述非支配粒子加入一更優(yōu)解集;所述非支配粒子所對應(yīng)的第一能量函數(shù)值為各所述第一能量函數(shù)值中的最小值,所述非支配粒子所對應(yīng)的第二能量函數(shù)值為各所述第二能量函數(shù)值中的最小值,所述非支配粒子所對應(yīng)的第三能量函數(shù)值為各所述第三能量函數(shù)值中的最小值,且所述第一能量函數(shù)值為各所述第一能量函數(shù)值中唯一的最小值或所述第二能量函數(shù)值為各所述第二能量函數(shù)值中唯一的最小值或所述第三能量函數(shù)值為各所述第三能量函數(shù)值中唯一的最小值;
s33:根據(jù)所述公式(1)更新各所述目標粒子所對應(yīng)的所述更新速度;
s34:根據(jù)所述公式(2)更新各所述目標粒子的所述位置坐標;
s35:分別利用兩所述目標能量公式計算獲得各所述目標粒子的一所述第一能量函數(shù)值、一所述第二能量函數(shù)值和一所述第三能量函數(shù)值;
s36:確定并選擇各當前所述目標粒子中的非支配粒子,并將該非支配粒子加入所述更優(yōu)解集;
s37:判斷迭代次數(shù)是否達到所述最大迭代次數(shù);如否,返回步驟s33;如是,繼續(xù)后續(xù)步驟。
優(yōu)選地,所述s4進一步包括步驟:
s41:構(gòu)建一效用函數(shù),u=λ1f1+λ2f2+λ3f3,其中f1為所述第一能量函數(shù)值、f2為所述第二能量函數(shù)值、f3為所述第三能量函數(shù)值,λ1為第一權(quán)重、λ2為第二權(quán)重、λ3為第三權(quán)重,λ1、λ2和λ3的取值范圍分別為[0,1]且λ1+λ2+λ3=1;
s42:對λ1、λ2進行n次隨機采樣,計算所述更優(yōu)解集中每個非支配粒子所對應(yīng)的期望效用e(u);
選取數(shù)值最大的一所述期望效用所對應(yīng)的一所述非支配粒子作為所屬最優(yōu)解。
本發(fā)明由于采用了以上技術(shù)方案,使其具有以下有益效果:
對三目標能量公式進行迭代,通過多目標的優(yōu)化方法,有效改善了采用單一能量函數(shù)不精確的問題。通過改進的粒子群算法,能夠更有效地搜索。同時,本方法提高了整體檢測的準確度。
附圖說明
圖1為本發(fā)明實施例的帶有基于多目標粒子群優(yōu)化的蛋白質(zhì)結(jié)構(gòu)預測方法的流程圖。
具體實施方式
下面根據(jù)附圖1,給出本發(fā)明的較佳實施例,并予以詳細描述,使能更好地理解本發(fā)明的功能、特點。
請參閱圖1,本發(fā)明實施例的一種基于多目標粒子群優(yōu)化的蛋白質(zhì)結(jié)構(gòu)預測方法,包括步驟:
s1:在一待預測的蛋白質(zhì)序列中選擇需要優(yōu)化的n個不同初始結(jié)構(gòu)作為n個目標粒子,并將每一目標粒子的位置坐標以構(gòu)象表示的形式表示,具體表現(xiàn)形式為
s2:對一更新公式進行參數(shù)設(shè)置。
其中,s2步驟中,初始化每一目標粒子的更新速度為0,并對一最大迭代次數(shù)、慣性系數(shù)、認知系數(shù)和社會系數(shù)進行設(shè)置。
s3:根據(jù)更新公式對三目標能量公式進行迭代,并獲得一更優(yōu)解集;
目標能量公式采用目前已有的用來描述蛋白質(zhì)結(jié)構(gòu)的能量函數(shù),本實施例中,目標能量公式采用rosetta能量函數(shù)、quark能量函數(shù)和charmm能量函數(shù)。
其中,s3步驟進一步包括步驟:
s31:分別利用三目標能量公式計算獲得各初始粒子的一第一能量函數(shù)值、一第二能量函數(shù)值和一第三能量函數(shù)值;
s32:確定并選擇各目標粒子中的非支配粒子,并將非支配粒子加入一更優(yōu)解集;非支配粒子所對應(yīng)的第一能量函數(shù)值為各第一能量函數(shù)值中的最小值,非支配粒子所對應(yīng)的第二能量函數(shù)值為各第二能量函數(shù)值中的最小值,且第一能量函數(shù)值為各第一能量函數(shù)值中唯一的最小值或第二能量函數(shù)值為各第二能量函數(shù)值中唯一的最小值;
s33:根據(jù)公式(1)更新各目標粒子所對應(yīng)的更新速度:
其中,w為慣性系數(shù),k為迭代次數(shù),c1為認知系數(shù),c2為社會系數(shù);
s34:根據(jù)公式(2)更新各目標粒子的位置坐標:
s35:分別利用三目標能量公式計算獲得各目標粒子的一第一能量函數(shù)值和一第二能量函數(shù)值和一第三能量函數(shù)值;
s36:確定并選擇各當前目標粒子中的非支配粒子,并將該非支配粒子加入更優(yōu)解集;
s37:判斷迭代次數(shù)是否達到最大迭代次數(shù);如否,返回步驟s33;如是,繼續(xù)后續(xù)步驟。
s4:處理最優(yōu)解集獲得一最優(yōu)解,并將最優(yōu)解作為目標粒子的預測位置。
其中,s4進一步包括步驟:
s41:以第一能量函數(shù)值、第二能量函數(shù)值和第三能量函數(shù)值的線性和構(gòu)建一效用函數(shù),u=λ1f1+λ2f2+λ3f3,其中f1為第一能量函數(shù)值、f2為第二能量函數(shù)值、f3為第三能量函數(shù)值,λ1為第一權(quán)重、λ2為第二權(quán)重、λ3為第三權(quán)重,λ1、λ2和λ3的取值范圍分別為[0,1]且λ1+λ2+λ3=1;
s42:對λ1、λ2進行n次隨機采樣,計算更優(yōu)解集中每個非支配粒子所對應(yīng)的期望效用e(u);本實施例中,n大于等于10000;
選取數(shù)值最大的一所述期望效用所對應(yīng)的一非支配粒子作為所屬最優(yōu)解。
本發(fā)明的方法可通過一種基于多目標粒子群優(yōu)化的蛋白質(zhì)結(jié)構(gòu)預測系統(tǒng)實現(xiàn),該系統(tǒng)包括:一初始結(jié)構(gòu)表示模塊、一多目標粒子群優(yōu)化模塊和一后續(xù)決策模塊,初始結(jié)構(gòu)表示模塊與多目標粒子群優(yōu)化模塊相連,多目標粒子群優(yōu)化模塊與后續(xù)決策模塊相連。
其中,初始結(jié)構(gòu)表示模塊用于將蛋白質(zhì)結(jié)構(gòu)通用的pdb(蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)文件)表示轉(zhuǎn)化為便于計算的向量x,也即在一待預測的蛋白質(zhì)序列中選擇需要優(yōu)化的n個不同初始結(jié)構(gòu)作為n個目標粒子,并將每一目標粒子的位置坐標以構(gòu)象表示的形式表示。
多目標粒子群優(yōu)化模塊用于對預設(shè)的一更新公式進行參數(shù)設(shè)置,根據(jù)更新公式對三目標能量公式進行迭代,并獲得一更優(yōu)解集;
后續(xù)決策模塊用于處理最優(yōu)解集獲得一最優(yōu)解,并將最優(yōu)解作為目標粒子的預測位置,即從更優(yōu)解集中通過計算期望效用的方法選擇最終的輸出結(jié)構(gòu)。
以上結(jié)合附圖實施例對本發(fā)明進行了詳細說明,本領(lǐng)域中普通技術(shù)人員可根據(jù)上述說明對本發(fā)明做出種種變化例。因而,實施例中的某些細節(jié)不應(yīng)構(gòu)成對本發(fā)明的限定,本發(fā)明將以所附權(quán)利要求書界定的范圍作為本發(fā)明的保護范圍。