一種啟發(fā)式代謝共表達(dá)網(wǎng)絡(luò)的構(gòu)建方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及代謝組學(xué)網(wǎng)絡(luò)領(lǐng)域,尤其設(shè)及一種啟發(fā)式代謝共表達(dá)網(wǎng)絡(luò)的構(gòu)建方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 代謝物是生物體內(nèi)完成代謝過(guò)程的小分子有機(jī)化合物總稱,包含了豐富的生理狀 態(tài)信息。代謝組學(xué)基于對(duì)代謝物的整體系統(tǒng)性研究,可有效掲示生理現(xiàn)象背后的真實(shí)機(jī)理, 并更為全面地展示生命體的動(dòng)態(tài)狀態(tài)。因此獲得了越來(lái)越多的重視,被廣泛應(yīng)用于諸多科 研與實(shí)用領(lǐng)域中。而另一方面,傳統(tǒng)機(jī)器學(xué)習(xí)方法往往難W應(yīng)對(duì)代謝組學(xué)特征高維度、小樣 本、高噪聲的數(shù)據(jù)特點(diǎn)。使用創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)描述代謝物間的相互關(guān)聯(lián),并W此進(jìn)行準(zhǔn)確、 穩(wěn)定的分析,是代謝組學(xué)未來(lái)發(fā)展的重要方向。
[0003] 已有的代謝組學(xué)網(wǎng)絡(luò)描述方法主要包括兩類:
[0004] 其一是全基因代謝網(wǎng)絡(luò)重構(gòu)方法。其W基因表達(dá)信息為基礎(chǔ),通過(guò)獲取其可能產(chǎn) 生的蛋白質(zhì)列表,捜索ECXEnzyme Commission Number)數(shù)據(jù)庫(kù)得到對(duì)應(yīng)的蛋白酶,并根據(jù) 代謝途徑(Pathway)數(shù)據(jù)庫(kù)取得所有可能的化學(xué)反應(yīng),使用連接算法組合為包含高假陽(yáng)性 的代謝網(wǎng)絡(luò)草圖。而后根據(jù)在特定條件下的實(shí)驗(yàn)表達(dá)信息,對(duì)草圖進(jìn)行修正與剪裁,最終獲 得較為準(zhǔn)確的網(wǎng)絡(luò)結(jié)構(gòu)。
[0005] 其二是代謝網(wǎng)絡(luò)的共表達(dá)構(gòu)建方法(Metabolic Co-expression Network)。直接 評(píng)估不同代謝物特征在各實(shí)驗(yàn)條件下的表達(dá)差異,通過(guò)計(jì)算相關(guān)性參數(shù)(Correlation Coefficient)形成權(quán)值矩陣。而后人為設(shè)定或使用適應(yīng)性算法確定切分闊值,對(duì)矩陣進(jìn)行 簡(jiǎn)化,最終映射為網(wǎng)絡(luò)結(jié)構(gòu)。
[0006] -般認(rèn)為,代謝共表達(dá)網(wǎng)絡(luò)可更為有效地描述未知的生理關(guān)聯(lián)信息,且對(duì)先驗(yàn)知 識(shí)要求較低,更適合于非針對(duì)性代謝組學(xué)研究,是發(fā)掘與分析代謝組學(xué)新知識(shí)的有力工具。 但在生物數(shù)據(jù)中,其相關(guān)性參數(shù)的計(jì)算往往有著較大誤差,且人為設(shè)定的切分闊值缺乏理 論依據(jù),導(dǎo)致最終結(jié)果難W令人滿意。針對(duì)運(yùn)一問(wèn)題,近年來(lái)提出了基于特征選擇的共表達(dá) 網(wǎng)絡(luò)構(gòu)建方法,獲得了學(xué)術(shù)界的廣泛重視。
[0007] 現(xiàn)有的全基因代謝網(wǎng)絡(luò)重構(gòu)方法,其缺點(diǎn)在于:
[000引第一,其包含了現(xiàn)有數(shù)據(jù)庫(kù)中所有可能的代謝反應(yīng),具有極高的假陽(yáng)性。盡管實(shí)驗(yàn) 數(shù)據(jù)可部分消除此類網(wǎng)絡(luò)連接,但若要對(duì)其進(jìn)行準(zhǔn)確修正,所需的樣本量過(guò)高,成本較高。
[0009] 第二,其嚴(yán)重依賴于現(xiàn)有的基因表達(dá)、酶催化及代謝途徑等先驗(yàn)知識(shí)。而此類知 識(shí),特別是代謝組學(xué)相關(guān)的數(shù)據(jù)庫(kù)仍有著大量信息缺失。導(dǎo)致所構(gòu)建的網(wǎng)絡(luò)具有高假陰性。 此外,其網(wǎng)絡(luò)完全基于現(xiàn)有知識(shí),難W用于新生物信息的發(fā)掘。
[0010] 現(xiàn)有的代謝共表達(dá)網(wǎng)絡(luò)構(gòu)建方法,其缺點(diǎn)在于:
[00川第一,基于相關(guān)性參數(shù)的方法,如F>earson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)等,其參數(shù) 計(jì)算所需樣本量較高,在生物實(shí)驗(yàn)中往往難W滿足。導(dǎo)致所估計(jì)的相關(guān)程度有所偏差,構(gòu)造 網(wǎng)絡(luò)的魯棒性不佳。且人為設(shè)定切分闊值并無(wú)理論支撐,容易再次引入誤差,影響分析結(jié) 果。
[0012]第二,現(xiàn)有算法僅能估計(jì)兩兩特征(Pairwise Features)間的關(guān)聯(lián)信息。而在真實(shí) 生命體中,多個(gè)代謝物往往會(huì)相互連接形成功能模塊,整體對(duì)生理過(guò)程進(jìn)行調(diào)控?,F(xiàn)有方法 并不能有效描述運(yùn)一特點(diǎn)。
[0013] 第=,現(xiàn)有基于特征選擇的網(wǎng)絡(luò)構(gòu)建方法一般使用確定性捜索方法,對(duì)于相同數(shù) 據(jù)集僅能獲得唯一的特征子集。而對(duì)于高維代謝組學(xué)數(shù)據(jù),此類解往往不是最優(yōu)的。此類方 法也無(wú)法通過(guò)多次運(yùn)行程序捜索更佳的結(jié)果。
[0014] 因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
【發(fā)明內(nèi)容】
[0015] 鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種啟發(fā)式代謝共表達(dá)網(wǎng)絡(luò)的 構(gòu)建方法及系統(tǒng),旨在解決現(xiàn)有的構(gòu)建方法準(zhǔn)確性低、穩(wěn)定性差、成本高等問(wèn)題。
[0016] 本發(fā)明的技術(shù)方案如下:
[0017] -種啟發(fā)式代謝共表達(dá)網(wǎng)絡(luò)的構(gòu)建方法,其中,包括步驟:
[0018] A、對(duì)原始的代謝特征數(shù)據(jù)集護(hù)進(jìn)行正規(guī)化預(yù)處理,使其中所有M個(gè)代謝特征矢量 在每個(gè)維度上都具有0均值及單位方差:
[0019]
[0020] F=化;m=l,2,…,M}為預(yù)處理后的代謝特征數(shù)據(jù)集,分別為第m個(gè)原始的代 謝特征矢量護(hù)m的均值與方差;
[0021] B、設(shè)定特征選擇總運(yùn)行次數(shù)為K,初始化運(yùn)行計(jì)數(shù)器k = l;
[0022] C、構(gòu)造多模優(yōu)化的進(jìn)化種群ps,將其所包含的每個(gè)尋優(yōu)個(gè)體XiEps初始化為范圍 R=[0,l]內(nèi)均勻分布的M維隨機(jī)矢量;
[0023] D、設(shè)定算法迭代總次數(shù)為G,初始化迭代計(jì)數(shù)器g = l;
[0024] E、計(jì)算進(jìn)化種群PS中每個(gè)尋優(yōu)個(gè)體的共享適應(yīng)度函數(shù)值;
[0025] F、在計(jì)算所有尋優(yōu)個(gè)體的共享適應(yīng)度函數(shù)值后,使用啟發(fā)式計(jì)算智能算法優(yōu)化進(jìn) 化種群PS;
[00%] G、更新迭代計(jì)數(shù)器肖=肖+1,若肖祐,則返回步驟E;否則本次優(yōu)化結(jié)束,進(jìn)入步驟H; [0027] H、對(duì)于優(yōu)化后進(jìn)化種群PS中的每個(gè)尋優(yōu)個(gè)體Xi,將其映射為選擇矢量Si;
[002引I、構(gòu)造對(duì)稱的共表達(dá)權(quán)值矩陣Wk=Iwp,q}MXM,其中對(duì)角線元素 Wp,P為所有Si中代謝 特征矢章獻(xiàn)說(shuō)中的次擲.n EM:
[0029]
[0030] 其余元素 wp,q則為Si中代謝特征矢量Fp與Fq被同時(shí)選中的次數(shù),p,qeM,p辛q:
[0031 ] Wp, q - 2 ie I ps I Sp n Sq ; Sp , Sq £ Si ;
[0032] J、更新運(yùn)行計(jì)數(shù)器k = k+l,若k<K,則返回步驟C,否則特征選擇完成,進(jìn)入步驟K;
[0033] K、對(duì)每次運(yùn)行所獲得的共表達(dá)權(quán)值矩陣進(jìn)行平均,并計(jì)算其對(duì)應(yīng)的概率,得到最 終的共表達(dá)權(quán)值矩陣為Q ={ Up, q}MXM,其中I PS I為進(jìn)化種群PS中的尋優(yōu)個(gè)體總數(shù):
[0034]
[0035] L、將每次特征選擇中最終輸出的每個(gè)Si視作優(yōu)化算法對(duì)于代謝特征數(shù)據(jù)集空間 的一次采樣,其SmESi服從概率Pm的伯努利分布,則Wp,P即為服從B( Ips I ,Pm)二次分布的隨 機(jī)變量;
[0036] M、將最終的共表達(dá)權(quán)值矩陣視作組合學(xué)習(xí)投票方法的穩(wěn)態(tài)結(jié)果;
[0037] N、使用最終的共表達(dá)權(quán)值矩陣中的對(duì)角線元素 COp,P作為節(jié)點(diǎn)P的重要性權(quán)重,其 余任意《p,q,P辛q作為節(jié)點(diǎn)Fp與Fq之間的連接權(quán)重,構(gòu)建全連通加權(quán)網(wǎng)絡(luò)G,而后移除其中權(quán) 重小于闊值Qt的節(jié)點(diǎn)與邊,形成該原始的代謝特征數(shù)據(jù)集護(hù)的代謝共表達(dá)網(wǎng)絡(luò);
[0038] 0、輸出所述代謝共表達(dá)網(wǎng)絡(luò)作為結(jié)果。
[0039] 所述的啟發(fā)式代謝共表達(dá)網(wǎng)絡(luò)的構(gòu)建方法,其中,所述步驟E具體包括:
[0040] EU設(shè)若輸入個(gè)體為Xi= {xm;m=l,2, ...,M},其各維度上均為R范圍內(nèi)的實(shí)數(shù)值, 將其二值化為離散的選擇矢量Si= {sm;m= 1,2,. . .,M}:
[0041]
[0042] E2、對(duì)于Si中任意第m個(gè)選擇值Sm,若其值為1,則選擇對(duì)應(yīng)代謝特征矢量Fm包含于 所構(gòu)造的特征子集Fs中,否則Fm將不會(huì)被選中;
[0043] Fs={Fm;m= 1,2,---,1,Sm=H ;
[0044] E3、計(jì)算Fs中多變量的近似互信息值作為原始適應(yīng)度函數(shù)值;
[0045] E4、定義稀疏適應(yīng)度函數(shù)值為矢量Xi的1范數(shù):
[0046] fspr. (Xi) = IlXiIIi;
[0047] E5、計(jì)算當(dāng)前個(gè)體Xi的總體適應(yīng)度函數(shù)值為:
[004引 f (Xi) =fraw(Xi)+Mspr. (Xi);
[0049] 其中A為拉格朗日乘數(shù);
[0050] E6、若每個(gè)尋優(yōu)個(gè)體的總體適應(yīng)度函數(shù)值都已計(jì)算,則轉(zhuǎn)至步驟E7,否則轉(zhuǎn)至步驟 El;
[0051] E7、計(jì)算各尋優(yōu)個(gè)體的共享適應(yīng)度函數(shù)值:
[0化2]
[0053] 其中r為聚集半徑,e為驅(qū)散因子。
[0054] 所述的啟發(fā)式代謝共表達(dá)網(wǎng)絡(luò)的構(gòu)建方法,其中,所述步驟E3具體包括:
[0055] E31、設(shè)若C為F的N個(gè)樣本所對(duì)應(yīng)的類標(biāo)矢量,則Fs的互信息計(jì)算為:
[0056] I(Fs;C) =H(Fs)-H(Fs I C) =H(Fs)- 2cecp(c化(Fs I C);
[0057] 其中P (C)表示類標(biāo)C的出現(xiàn)概率,H()表示變量的賭;
[005引E32、使用Fs中的N個(gè)樣本作為節(jié)點(diǎn),其相互歐氏距離作為邊的權(quán)值,構(gòu)造最小生成 樹(shù),貝化Y (Fs)為此最小生成樹(shù)的邊權(quán)值總和:
[0化9]
[0060]其中丫為接近于0的正值常數(shù);
[0061 ] E33、計(jì)算Fs的多變量互信息為:
[0062] Iappx'(Fs;C)=k(Fs)-I:cecp(cAY(Fs|c);
[0063] 從而原始適應(yīng)度函數(shù)值定義為:
[0064] fraw(Xi)=-Iappx'(Ps;G)。
[0065] -種啟發(fā)式代謝共表達(dá)網(wǎng)絡(luò)的構(gòu)建系統(tǒng),其中,包括:
[0066] 正規(guī)化模塊,用于對(duì)原始的代謝特征數(shù)據(jù)集護(hù)進(jìn)行正規(guī)化預(yù)處理,使其中所有M個(gè) 代謝特征矢量在每個(gè)維度上都具有0均值及單位方差:
[0067]
[006引 F=化;m=l,2,…,M}為預(yù)處理后的代謝特征數(shù)據(jù)集,分別為第m個(gè)原始的代 謝特征矢量護(hù)m的均值與方差;
[0069] 運(yùn)行計(jì)數(shù)器初始化模塊,用于設(shè)定特征選擇總運(yùn)行次數(shù)為K,初始化運(yùn)行計(jì)數(shù)器k =1;
[0070] 進(jìn)化種群構(gòu)造模塊,用于構(gòu)造多模優(yōu)化的進(jìn)化種群PS,將其所包含的每個(gè)尋優(yōu)個(gè) 體XiEps初始化為范圍R= [0,1 ]內(nèi)均勻分布的M維隨機(jī)矢量;
[0071 ]迭代計(jì)數(shù)器初始化模塊,用于設(shè)定算法迭代總次數(shù)為G,初始化迭代計(jì)數(shù)器g = 1;
[0072] 適應(yīng)度函數(shù)值計(jì)算模塊,用于計(jì)算進(jìn)化種群PS中每個(gè)尋優(yōu)個(gè)體的共享適應(yīng)度函數(shù) 值;
[0073] 種群優(yōu)化模塊,用于在計(jì)算所有尋優(yōu)個(gè)體的共享適應(yīng)度函數(shù)值后,使用啟發(fā)式計(jì) 算智能算法優(yōu)化進(jìn)化種群PS;
[0074] 迭代計(jì)數(shù)器更新模塊,用于更新迭代計(jì)數(shù)器旨=旨+1,若旨<6,則返回適應(yīng)度函數(shù)值 計(jì)算模塊;否則本次優(yōu)化結(jié)束,進(jìn)入映射模塊;
[007