專利名稱:基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法
技術(shù)領域:
本發(fā)明涉及基因調(diào)控網(wǎng)絡領域,更具體地說,涉及一種基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法。
背景技術(shù):
基因調(diào)控網(wǎng)絡模型分析和重建的研究,是生物信息學研究中的一個很重要的方向,也是基因表達數(shù)據(jù)分析的一個重要手段。基因網(wǎng)絡研究的目的是通過建立基因轉(zhuǎn)錄調(diào)控網(wǎng)絡模型對某一個物種或組織中的全部基因的表達關系進行整體的模擬分析和研究,在系統(tǒng)的框架下認識生命現(xiàn)象,特別是其中涉及的復雜的分子調(diào)控過程,支配基因表達和功能的基本規(guī)則,信息流動的規(guī)律和在整體的框架下研究基因的功能,為研制和識別疾病治療中的潛在靶標提供預測工具。
通過對基因調(diào)控網(wǎng)絡的研究,有助于理解支配基因表達和功能的基本規(guī)則。理解決定哪個基因什么時候表達的機制是許多基因操作的關鍵。目前致力于發(fā)現(xiàn)聯(lián)合調(diào)控的基因的研究,實際上是用生物信息學的方法揭示基因的潛在調(diào)控機制;通過對基因調(diào)控網(wǎng)絡的研究,有助于揭示基因表達過程中的信息傳輸規(guī)律基因通過表達傳輸遺傳信息?;蛘{(diào)控網(wǎng)絡的研究可以用量化的方法從一個側(cè)面對基因表達過程中的信息進行挖掘。通過信息提取、分析、了解基因功能,理解遺傳網(wǎng)絡,弄清疾病發(fā)病機制;通過對基因調(diào)控網(wǎng)絡的研究,更有助于從整體的框架下研究基因的功能。不僅要從結(jié)構(gòu)層次上研究基因的功能,更要從網(wǎng)絡層次上發(fā)掘和認識基因的功能。基因在錯綜復雜的網(wǎng)絡關系中互相影響,協(xié)同工作,這必然蘊涵著DNA序列無法完全揭示的新功能?;驈谋磉_中展示其功能,但基因的表達是一個彼此相互作用和調(diào)控的過程。通過網(wǎng)絡研究哪種疾病與哪個基因或過程有關,在藥物設計上有很重要的意義。
現(xiàn)有技術(shù)中,基因調(diào)控網(wǎng)絡研究的模型主要有布爾模型、線性組合模型、貝葉斯模型、微分方程以及信息熵關聯(lián)網(wǎng)絡模型等。由于貝葉斯模型可以更加好的處理原始數(shù)據(jù)中的噪聲和缺失,同時又易于融入先驗知識,所以貝葉斯模型更加適合基因調(diào)控網(wǎng)絡的學習。
貝葉斯網(wǎng)絡結(jié)構(gòu)可以用有向無環(huán)圖(Directed Acyclic Graph,DAG)表示,DAG中的節(jié)點表示網(wǎng)絡的變量,邊表示變量之間的因果關系。公式表示為G=<X,E>,G表示有向無環(huán)圖,X表示變量,在基因網(wǎng)絡中可并表示基因表達水平,E表示邊。令x={x1,x2,…,xi,…,xn},其中n表示基因數(shù)量,xi表示基因i的基因表達水平。對于每一個xi,有一個條件分布P(xi|parents(xi)),這里parents(xi)表示在G中此變量直接前驅(qū)集,即父節(jié)點集。由無環(huán)圖G和條件分布P(xi|parents(xi))共同構(gòu)成貝葉斯網(wǎng)絡。根據(jù)馬爾科夫假設,即對于每一個G中的節(jié)點,在給定其所有父節(jié)點的情況下,條件獨立于其非子節(jié)點,則貝葉斯網(wǎng)絡的聯(lián)合概率分布可分解為 給定數(shù)據(jù)集D,則結(jié)構(gòu)學習的目的為找出最匹配數(shù)據(jù)的網(wǎng)絡結(jié)構(gòu)G。在基于評分的結(jié)構(gòu)學習中,即找出評分函數(shù)的最優(yōu)值。最常用的評分函數(shù)為BDe分數(shù)(Bayesian Dirichlet Equivalent),如公式(2)所示 其中Nijk為數(shù)據(jù)集D中滿足(表示xi取第k個值)且parents(xi)=j(表示節(jié)點集取第j個排列)情況下的數(shù)目。公式(2)中Nij的計算公式為N′ijk(先驗分布的指系數(shù))的計算公式為(S為等效樣本容量);N′ij的計算公式則為 貝葉斯網(wǎng)絡模型的結(jié)構(gòu)學習是指利用訓練樣本集確定網(wǎng)絡拓撲結(jié)構(gòu),這是一個NP完全問題。而K2算法是最為經(jīng)典的局部搜索算法,并被廣泛應用在貝葉斯網(wǎng)絡的結(jié)構(gòu)學習中。K2算法的主要思想是在給定數(shù)據(jù)條件下,使得得到網(wǎng)絡拓撲結(jié)構(gòu)G的可能性最大。K2算法預先選定一個節(jié)點順序,并且假定所有網(wǎng)絡結(jié)構(gòu)的先驗概率相等,一定程度上縮減了結(jié)構(gòu)候選集的規(guī)模。但是節(jié)點順序要求只有該節(jié)點之后的節(jié)點才可以作為其父節(jié)點的備選節(jié)點。K2算法按照節(jié)點順序依次為每個節(jié)點尋找父節(jié)點直到新增的父節(jié)點不能使評分函數(shù)的分值更優(yōu)。算法始終要求在最大化父節(jié)點集網(wǎng)絡分數(shù)的同時滿足嚴格遵循備選節(jié)點的條件。
粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)是J.Kennedy和R。C.Eberhart于1995年提出的,源于對鳥群覓食行為的研究,是一種較新的群智能優(yōu)化算法。由于PSO算法容易實現(xiàn)、收斂速度快、參數(shù)少等優(yōu)點,它在過去十年內(nèi)引起了眾多學者的關注。隨后出現(xiàn)了很多PSO算法的改進算法,并被應用于各個領域,如函數(shù)優(yōu)化、神經(jīng)網(wǎng)絡訓練、模糊系統(tǒng)控制、電力系統(tǒng)以及其它優(yōu)化算法的應用領域。
在粒子群算法中,每個個體稱為一個“粒子”,每個粒子代表著一個潛在的解。設在一個D維的目標搜索空間中,有m個粒子構(gòu)成一個群體,每個粒子看成是空間內(nèi)的一個點。m也被稱為群體規(guī)模,過大的m會影響算法的運算速度和收斂性。
其中第i個粒子表示為一個D維的位置矢量zi=zi1,zi2,…,ziD)。根據(jù)粒子的位置矢量zi,即可通過事先設定的適應值函數(shù)(與要解決的問題有關)計算粒子當前的適應值,即可衡量粒子位置的優(yōu)劣;在每次迭代中,賦予每個粒子一定的速度(即粒子移動的距離),設粒子i的飛行速度表示為vi=(vi1,vi2,…,vid,…,viD); 粒子迄今為止搜索到的最優(yōu)位置表示為pi=(pi1,pi2,…,pid,…,piD);整個粒子群迄今為止搜索到的最優(yōu)位置表示為pg=(pg1,pg2,…,pg,…,pgD)。
在每次迭代中,粒子根據(jù)以下式子更新速度和位置 其中i=1,2,…,m,d=1,2,…,D,k是迭代次數(shù),r1和r2為
之間的隨機數(shù),這兩個參數(shù)是用來保持群體的多樣性。慣性權(quán)重w起著權(quán)衡局部最優(yōu)能力和全局最優(yōu)能力的作用。c1和c2為學習因子,也稱加速因子,其中c1調(diào)節(jié)粒子飛向自身最好位置方向的步長,c2調(diào)節(jié)粒子飛向全局最好位置方向的步長。適當調(diào)整這兩個參數(shù),可以減少局部最小值的困擾,也會加快收斂速度。由于PSO中沒有實際的機制來控制粒子速度,因此有必要對速度的最大值進行限制,從而減少進化過程中粒子離開搜索空間的可能。在PSO中,位置zi的取值范圍限制在[zmin,zmax]。閾值vmax這個參數(shù)具有一定的重要性,值太大會導致粒子跳過最好解,但太小又導致粒子不能夠?qū)λ阉骺臻g進行充分的搜索。
速度更新公式(3)具有三部分第一項是粒子在上一次迭代中的速度;第二項是“認知”部分(Cognition Part),為當前位置和自身最好經(jīng)驗的距離,代表著粒子對自身的學習;而公式的第三項是“社會”部分(Social Part),為當前位置與群體最好經(jīng)驗之間的距離,代表著粒子間的協(xié)作??梢娏W泳哂凶晕铱偨Y(jié)和向群體中優(yōu)秀個體學習的能力,在一定程度上向自己的歷史最優(yōu)點以及群體內(nèi)歷史最優(yōu)點靠近。
現(xiàn)有技術(shù)方案的主要缺點貝葉斯網(wǎng)絡模型的結(jié)構(gòu)學習是指利用訓練樣本集確定網(wǎng)絡拓撲結(jié)構(gòu),這是一個NP完全問題。在構(gòu)建基因調(diào)控網(wǎng)絡時,現(xiàn)有的貝葉斯方法有兩個顯著缺陷,一是較低的正確率;二是較多的運算時間。而基于局部搜索算法的K2算法,在正確指定節(jié)點次序的情況下,K2算法的執(zhí)行效率和精度較高。但在很多應用中,節(jié)點順序通常是未知的。如何正確指定節(jié)點次序是NP難題,在實際使用時全憑經(jīng)驗,這成為影響算法性能的主要因素。如果K2算法預先選定一個節(jié)點順序不合適,則構(gòu)建出的網(wǎng)絡結(jié)構(gòu)正確率不高。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,提出一種基于貝葉斯網(wǎng)絡模型的基因調(diào)控網(wǎng)絡構(gòu)件方法,以提高構(gòu)建基因調(diào)控網(wǎng)絡的準確性和高效性。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是構(gòu)造一種基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,通過建立基因調(diào)控網(wǎng)絡模型對某一物種或組織中的全部基因的表達關系進行整體的模擬分析和研究,建立基因調(diào)控網(wǎng)絡模型的步驟包括 A,通過具有記憶的二進制粒子群優(yōu)化算法來識別最佳節(jié)點次序,其中通過二進制粒子群優(yōu)化算法對粒子進行速度更新后,對部分粒子速度進行變異,對搜索空間進行搜索,以跳出局部最優(yōu); B,將獲得的最佳節(jié)點次序作為K2算法的輸入,然后執(zhí)行K2算法學習貝葉斯網(wǎng)絡的結(jié)構(gòu)。
本發(fā)明中,步驟A中具體包括 A1,對粒子進行編碼,包括利用鄰接矩陣DAG表示粒子的位置和速度,每個粒子代表一個鄰接矩陣DAG; A2,確定粒子的參數(shù)值,包括確定種群規(guī)模N,確定粒子群優(yōu)化算法中的學習因子c1和c2; A3,初始化所有粒子的位置和速度; A4,計算粒子的適應值并更新記憶庫粒子; A5,更新粒子的速度,并當粒子速度接近最大限制值或最小限制值時,對速度進行變異; A6,更新粒子的位置; A7,用記憶庫中的記憶粒子替換粒子群中適應值小的粒子; A8,檢測全局極值GB并糾正回路。
本發(fā)明中,步驟B中具體包括 B1,將步驟A8中修正過的全局極值GB的值作為k2算法的輸入,并執(zhí)行K2算法。
本發(fā)明中,步驟A3中, 每個粒子的位置由以下的式子決定 其中,i=1,2...,N;j=1,2...,n,i、j隨機生成,R(0,1)表示隨機產(chǎn)生
之間的隨機數(shù); 每個粒子的速度由以下的式子決定 vij(0)=vmin+R(0,1)(vmax-vmin)(6) 其中,vij(0)隨機生成,vmax和vmin表示速度的最大最小限制值。
本發(fā)明中,步驟A4、中, 采用的評分函數(shù)為BDe分數(shù),其公式為 其中Nijk為數(shù)據(jù)集D中滿足(表示xi取第k個值)且parents(xi)=j(表示節(jié)點集取第j個排列)的情況的數(shù)目,N′ijk>0為先驗分布的指系數(shù), 如果粒子i的適應值優(yōu)于此前的個體極值PBi,則將其值設為PBi;如果最佳的PBi優(yōu)于此前的全局極值GB,則將其值設為PB; 令PBik表示第i個粒子進化k代所經(jīng)歷的最好位置,令GBk表示整個種群進化k代所經(jīng)歷的最好位置,如果k=0,則否則PBik為 i=1,2...,N 并將GBk存入記憶庫。
本發(fā)明中,步驟A5、A6中, 粒子根據(jù)以下式子更新速度 其中i=1,2,…,m,d=1,2,…,D,k是迭代次數(shù),r1和r2為
之間的隨機數(shù),w為慣性權(quán)重,c1和c2為學習因子,其中c1調(diào)節(jié)粒子飛向自身最好位置方向的步長,c2調(diào)節(jié)粒子飛向全局最好位置方向的步長; 粒子根據(jù)以下式子更新位置 本發(fā)明中,步驟A5和A6中,即在速度更新和位置更新之間,執(zhí)行如下操作 if(rand()<rmute)then vk+1=-vk+1 其中,rmute的值設為0.05。
本發(fā)明中,步驟A7中,從記憶庫中選擇M(M>0)個粒子替換粒子群中適應值排在整個粒子群中后M位的粒子,如果滿足收斂條件或達到最大迭代次數(shù),則停止計算,否則返回步驟A4。
本發(fā)明中,步驟A8中, 在更新粒子位置之后,檢測網(wǎng)絡中是否存在回路; 如不存在回路,則繼續(xù)搜索過程;如存在回路,則刪除回路中互信息最小的有向邊直到不再存在回路。
本發(fā)明中,如果某個節(jié)點的父節(jié)點數(shù)超過預先設定的最大父節(jié)點數(shù),則刪除指向其的互信息最小的有向邊直到滿足條件,互信息表示兩個節(jié)點之間的依賴程度,互信息的值越高表明兩個節(jié)點之間依賴程度越大,其計算公式為 本發(fā)明的有益效果是,發(fā)明將具有記憶的二進制粒子群優(yōu)化算法引入到基因調(diào)控網(wǎng)絡的研究中,以粒子群優(yōu)化算法為主要優(yōu)化工具,本發(fā)明收斂速度快(特別是在進化初期),運算簡單、易于實現(xiàn)等優(yōu)點,為研究基因轉(zhuǎn)錄水平的調(diào)控提供線索,更精確的表示出基因調(diào)控網(wǎng)絡的結(jié)構(gòu),并且對研究生物學、醫(yī)學、藥學等諸多領域具有重要的理論意義和實用價值。
下面將結(jié)合附圖及實施例對本發(fā)明作進一步說明,附圖中 圖1是粒子結(jié)構(gòu)示意圖; 圖2是本發(fā)明所述基因調(diào)控網(wǎng)絡構(gòu)件方法的流程圖。
具體實施例方式 為使對本發(fā)明的結(jié)構(gòu)特征及所達成的功效有更進一步的了解與認識,用以較佳的實施例及附圖配合詳細的說明,說明如下 本發(fā)明所要解決的技術(shù)問題是如何在無先驗知識下,即無節(jié)點序的情況下的構(gòu)建基于貝葉斯網(wǎng)絡模型的基因調(diào)控網(wǎng)絡。為了提高構(gòu)建基因調(diào)控網(wǎng)絡的準確性和高效性,將一種具有記憶的二進制粒子群優(yōu)化算法和K2算法結(jié)合。首先基于粒子群優(yōu)化算法獲得最佳節(jié)點次序,并將獲得最佳節(jié)點次序作為K2算法的輸入,然后執(zhí)行K2算法學習貝葉斯網(wǎng)絡的結(jié)構(gòu)。
本發(fā)明主要是通過具有記憶的二進制粒子群優(yōu)化算法來識別最佳的節(jié)點次序,作為K2算法的輸入,然后執(zhí)行K2算法學習貝葉斯網(wǎng)絡的結(jié)構(gòu)。具體步驟如下 ①粒子編碼 基因調(diào)控網(wǎng)絡可以使用鄰接矩陣(Adjacency matrix)(DAG)表示。鄰接矩陣C是一個n×n階矩陣,其元素值只能取0或1,矩陣元素Cij=1表示節(jié)點i是節(jié)點i的父節(jié)點,Cij=0表示節(jié)點j與節(jié)點i無父子關系。本發(fā)明中,粒子位置用鄰接矩陣表示,每個粒子代表一個DAG。粒子的速度表示粒子的飛行方向及距離,其數(shù)學形式和粒子位置的形式保持一致。因此粒子速度同樣用鄰接矩陣表示,如圖1所示。
②確定參數(shù)值 確定種群規(guī)模N,確定學習因子c1和c2。并令進化代數(shù)k=0,c1=c2=1.3,w依照循環(huán)次數(shù)從1.8線性下降到0.2。
③初始化所有粒子的位置和速度 每個粒子的位置由以下的式子決定 其中,i=1,2,...,N;j=1,2...,n,i、j隨機生成,R(0,1)表示隨機產(chǎn)生
之間的隨機數(shù)。
每個粒子的速度由以下的式子決定 vij(0)=vmin+R(0,1)(vmax-vmin)(6) 隨機生成,其中vmax和vmin表示速度的最大最小限制值,通常設為[-4,4]。
④計算粒子的適應值并更新記憶庫粒子 本發(fā)明的算法中采用的評分函數(shù)(適應值)為BDe分數(shù)(Bayesian DirichletEquivalent),如公式(7)所示 其中Nijk為數(shù)據(jù)集D中滿足(表示xi取第k個值)且parents(xi)=j(表示節(jié)點集取第j個排列)的情況的數(shù)目,N′ijk>0為先驗分布的指系數(shù), 如果粒子i的適應值優(yōu)于此前的個體極值PBi,則將其值設為PBi;如果最佳的PBi優(yōu)于此前的全局極值GB,則將其值設為PB。令PBik表示第i個粒子進化k代所經(jīng)歷的最好位置,令GBk表示整個種群進化k代所經(jīng)歷的最好位置。
如果k=0,則否則 i=1,2,...,N(9) 并將GBk存入記憶庫。
⑤更新粒子的速度 參照公式(3)對粒子速度更新。
⑥粒子速度變異 為了跳出局部最優(yōu)解,在粒子速度接近vmax或vmin時,對速度進行變異,不參照PB或GB的值改變速度的方向,增強群體的全局搜索能力,跳出局部最優(yōu)解。因此在速度更新和位置更新之間,執(zhí)行如下操作 if(rand()<rmute)then vk+1=-vk+1(10) 其中,rmute的值設為0.05。
⑦粒子位置更新 由于粒子用鄰接矩陣表示,PSO的更新公式中的四則運算不再適用。因此采用二進制PSO算法。在二進制PSO算法中,每個粒子被編碼為一個二進制向量。在二進制粒子中,速度定義了粒子的每個位置賦值為1的概率,通過轉(zhuǎn)換函數(shù)將速度轉(zhuǎn)換到區(qū)間
。粒子位置更新公式如下 ⑧用記憶庫中的記憶粒子替換粒子群中適應值小的粒子 從記憶庫中選擇M(M>0)個粒子,來替換粒子群中那些適應值排在整個粒子群中后M位的粒子。
如果滿足收斂條件或達到最大迭代次數(shù),則停止計算,否則返回第④步。
⑨檢測GB并糾正回路 在位置更新之后,檢測網(wǎng)絡中是否存在回路。如不存在回路,則繼續(xù)搜索過程,如存在回路,則刪除回路中互信息最小的有向邊直到不再存在回路。同時在結(jié)構(gòu)學習中,通常設定父節(jié)點的個數(shù)是受限的。因此在新算法中,如果某個節(jié)點的父節(jié)點數(shù)超過預先設定的最大父節(jié)點數(shù),則刪除指向其的互信息最小的有向邊直到滿足條件。
互信息表示兩個節(jié)點之間的依賴程度,互信息的值越高表明兩個節(jié)點之間依賴程度越大。其計算公式如公式(13)所示。
⑩將修正過的GB的值作為k2算法的輸入,并執(zhí)行K2算法。
本發(fā)明將具有記憶的二進制粒子群優(yōu)化算法引入到基因調(diào)控網(wǎng)絡的研究中,以粒子群優(yōu)化算法為主要優(yōu)化工具,本發(fā)明收斂速度快(特別是在進化初期),運算簡單、易于實現(xiàn)等優(yōu)點,為研究基因轉(zhuǎn)錄水平的調(diào)控提供線索,更精確的表示出基因調(diào)控網(wǎng)絡的結(jié)構(gòu),并且對研究生物學、醫(yī)學、藥學等諸多領域具有重要的理論意義和實用價值。
最后應說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實施例對本發(fā)明進行了詳細說明,本領域的普通技術(shù)人員應當理解,可以對本發(fā)明的技術(shù)方案進行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應涵蓋在本發(fā)明的權(quán)利要求范圍當中。
權(quán)利要求
1.一種基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,通過建立基因調(diào)控網(wǎng)絡模型對某一物種或組織中的全部基因的表達關系進行整體的模擬分析和研究,其特征在于,建立基因調(diào)控網(wǎng)絡模型的步驟包括
A,通過具有記憶的二進制粒子群優(yōu)化算法來識別最佳節(jié)點次序,其中通過二進制粒子群優(yōu)化算法對粒子進行速度更新后,對部分粒子速度進行變異,對搜索空間進行搜索,以跳出局部最優(yōu);
B,將獲得的最佳節(jié)點次序作為K2算法的輸入,然后執(zhí)行K2算法學習貝葉斯網(wǎng)絡的結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟A中具體包括
A1,對粒子進行編碼,包括利用鄰接矩陣DAG表示粒子的位置和速度,每個粒子代表一個鄰接矩陣DAG;
A2,確定粒子的參數(shù)值,包括確定種群規(guī)模N,確定粒子群優(yōu)化算法中的學習因子c1和c2;
A3,初始化所有粒子的位置和速度;
A4,計算粒子的適應值并更新記憶庫粒子;
A5,更新粒子的速度,并當粒子速度接近最大限制值或最小限制值時,對速度進行變異;
A6,更新粒子的位置;
A7,用記憶庫中的記憶粒子替換粒子群中適應值小的粒子;
A8,檢測全局極值GB并糾正回路。
3.根據(jù)權(quán)利要求2所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟B中具體包括
B1,將步驟A8中修正過的全局極值GB的值作為k2算法的輸入,并執(zhí)行K2算法。
4.根據(jù)權(quán)利要求2所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟A3中,
每個粒子的位置由以下的式子決定
其中,i=1,2,...,N;j=1,2...,n,i、j隨機生成,R(0,1)表示隨機產(chǎn)生
之間的隨機數(shù);
每個粒子的速度由以下的式子決定
vij(0)=vmin+R(0,1)(vmax-vmin) (6)
其中,vij(0)隨機生成,vmax和vmin表示速度的最大最小限制值。
5.根據(jù)權(quán)利要求2所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟A4、中,
采用的評分函數(shù)為BDe分數(shù),其公式為
其中Nijk為數(shù)據(jù)集D中滿足(表示xi取第k個值)且parents(xi)=j(表示節(jié)點集取第j個排列)的情況的數(shù)目,N′ijk>0為先驗分布的指系數(shù),
如果粒子i的適應值優(yōu)于此前的個體極值PBi,則將其值設為PBi;如果最佳的PBi優(yōu)于此前的全局極值GB,則將其值設為PB;
令PBik表示第i個粒子進化k代所經(jīng)歷的最好位置,令GBk表示整個種群進化k代所經(jīng)歷的最好位置,如果k=0,則否則PBik為
i=1,2,...,N
并將GBk存入記憶庫。
6.根據(jù)權(quán)利要求2所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟A5、A6中,
粒子根據(jù)以下式子更新速度
其中i=1,2,…,m,d=1,2,…,D,k是迭代次數(shù),r1和r2為
之間的隨機數(shù),w為慣性權(quán)重,c1和c2為學習因子,其中c1調(diào)節(jié)粒子飛向自身最好位置方向的步長,c2調(diào)節(jié)粒子飛向全局最好位置方向的步長;
粒子根據(jù)以下式子更新位置
7.根據(jù)權(quán)利要求2所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟A5和A6中,即在速度更新和位置更新之間,執(zhí)行如下操作
if(rand()<rmute)then vk+1=-vk+1
其中,rmute的值設為0.05。
8.根據(jù)權(quán)利要求2所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟A7中,從記憶庫中選擇M(M>0)個粒子替換粒子群中適應值排在整個粒子群中后M位的粒子,如果滿足收斂條件或達到最大迭代次數(shù),則停止計算,否則返回步驟A4。
9.根據(jù)權(quán)利要求2所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,步驟A8中,
在更新粒子位置之后,檢測網(wǎng)絡中是否存在回路;
如不存在回路,則繼續(xù)搜索過程;如存在回路,則刪除回路中互信息最小的有向邊直到不再存在回路。
10.根據(jù)權(quán)利要求9所述的基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,其特征在于,如果某個節(jié)點的父節(jié)點數(shù)超過預先設定的最大父節(jié)點數(shù),則刪除指向其的互信息最小的有向邊直到滿足條件,互信息表示兩個節(jié)點之間的依賴程度,互信息的值越高表明兩個節(jié)點之間依賴程度越大,其計算公式為
全文摘要
本發(fā)明涉及一種基于貝葉斯網(wǎng)絡的基因調(diào)控網(wǎng)絡構(gòu)建方法,通過建立基因調(diào)控網(wǎng)絡模型對某一物種或組織中的全部基因的表達關系進行整體的模擬分析和研究,建立基因調(diào)控網(wǎng)絡模型的步驟包括A,通過具有記憶的二進制粒子群優(yōu)化算法來識別最佳節(jié)點次序,其中通過二進制粒子群優(yōu)化算法對粒子進行速度更新后,對部分粒子速度進行變異,對搜索空間進行搜索,以跳出局部最優(yōu);B,將獲得的最佳節(jié)點次序作為K2算法的輸入,然后執(zhí)行K2算法學習貝葉斯網(wǎng)絡的結(jié)構(gòu)。本發(fā)明收斂速度快,運算簡單、易于實現(xiàn)等優(yōu)點,為研究基因轉(zhuǎn)錄水平的調(diào)控提供線索,更精確的表示出基因調(diào)控網(wǎng)絡的結(jié)構(gòu),并且對研究生物學、醫(yī)學、藥學等諸多領域具有重要的理論意義和實用價值。
文檔編號G06N3/12GK101763528SQ200910239028
公開日2010年6月30日 申請日期2009年12月25日 優(yōu)先權(quán)日2009年12月25日
發(fā)明者紀震, 杜智華, 儲穎, 周家銳 申請人:深圳大學