置構(gòu)建的訓(xùn)練樣本集;
[0016] 步驟5、對于步驟4擴(kuò)展特征空間后的每個訓(xùn)練樣本集,使用遺傳算法進(jìn)行特征子 集的選擇,同時選取出與訓(xùn)練樣本集對應(yīng)的亞葉綠體位置最相關(guān)的氨基酸組成特征和其他 亞葉綠體位置特征,去除無關(guān)和冗余的氨基酸組成特征和其他亞葉綠體位置特征,從而得 到與每個亞葉綠體位置相對應(yīng)的最優(yōu)擴(kuò)展特征子空間;
[0017] 步驟6、基于步驟5所得的針對每個亞葉綠體位置的最優(yōu)擴(kuò)展特征子空間,分別訓(xùn) 練一個支持向量機(jī)(SVM)預(yù)測器;
[0018] 步驟7、基于步驟3和步驟6所得的兩組支持向量機(jī)(SVM)預(yù)測器,對待預(yù)測蛋白質(zhì) 進(jìn)行蛋白質(zhì)亞葉綠體多位置預(yù)測。
[0019] 優(yōu)選地,在步驟1中,采用偽氨基酸組成(PseAAC)方法,抽取出待預(yù)測的蛋白質(zhì)序 列和訓(xùn)練數(shù)據(jù)集中所有蛋白質(zhì)序列的特征向量,該特征由一個20+ξ · λ維的特征向量構(gòu)成, 其中,前20維是傳統(tǒng)的氨基酸組成,而后ξ · λ維表示氨基酸序列間的序列順序信息,ξ為使 用的氨基酸指數(shù)的數(shù)量,λ為指定的蛋白質(zhì)序列中的最大相關(guān)層數(shù)。
[0020] 優(yōu)選地,在步驟2中,分別為每個亞葉綠體位置構(gòu)建新的訓(xùn)練樣本集,其步驟如下:
[0021 ] (1)假設(shè)原始訓(xùn)練樣本集Τ包含Ν個蛋白質(zhì),分布在Μ個亞葉綠體位置,把該數(shù)據(jù)集 分為Μ個子集,如式(1)所示:
[0022] T = TiUT2U---UTiU---UTM (1)
[0023] 其中,子集Ti,i = l,2,…,Μ表示屬于同一個亞葉綠體位置i的Ni個蛋白質(zhì)樣本集 合,符號U表示集合并運(yùn)算,由于蛋白質(zhì)的多亞葉綠體位置特性,因此N<^+N2+…+rii;
[0024] (2)對每一個亞葉綠體位置i,假設(shè)Tri+表示屬于亞葉綠體位置i的蛋白質(zhì)樣本集 合,而Trr則表示不屬于亞葉綠體位置i的蛋白質(zhì)樣本集合,集合Tri+和Trr可由式(2)構(gòu)造 得出,即:
[0025]
(2)
[0026] 其中,(ρ,+1)表示蛋白質(zhì)P屬于亞葉綠體位置i,而(ρ,-1)表示蛋白質(zhì)P不屬于亞葉 綠體位置i;
[0027] (3)對每一個亞葉綠體位置i,通過式(3)可得它的訓(xùn)練樣本集Tri,即:
[002引 Tri = Tri+UTrr (3)
[0029] 其中,Tri和原始訓(xùn)練樣本集T包含完全相同的N個蛋白質(zhì),區(qū)別只是Tri把原來的N 個蛋白質(zhì)依據(jù)是否屬于亞葉綠體位置i分成了屬于位置i的正樣本子集Tri+和不屬于位置i 的負(fù)樣本子集Trr。
[0030] 優(yōu)選地,在步驟4中,把其他亞葉綠體位置對蛋白質(zhì)樣本的歸屬值追加到蛋白質(zhì)樣 本的特征向量中,W擴(kuò)展蛋白質(zhì)樣本的特征空間,其步驟如下:
[0031] (1)假設(shè)亞葉綠體位置i的訓(xùn)練樣本集化1的第k個蛋白質(zhì)樣本為Pk,其特征向量表 示為式(4)所示:
[0032]
(4)
[0033] 其中,D表示由偽氨基酸組成(PseAAC)方法抽取的特征向量的維數(shù);
[0034] (2)把除了亞葉綠體位置iW外的其他亞葉綠體位置對于該蛋白質(zhì)樣本pk的歸屬 值追加到該蛋白質(zhì)樣本Pk的特征向量中,如式巧)所示:
[0035]
(5)
[0036] 其中,前D維特征托(/二1,2,...,0')是蛋白質(zhì)樣本的偽氨基酸組成,而后1-1維新加 入的特征餐,m=l,2,…,1-14+1,-,,1表示除了亞葉綠體位置1^外的其他亞葉綠體位置 對于該蛋白質(zhì)樣本化的歸屬值,即,如果該蛋白質(zhì)化屬于亞葉綠體位置m(m=l,2,…,i-1,i+ 1,…,Μ),則巧(巧=1,2,..'乂- 1,? + :l,·..,始)=1,否則,學(xué)(腳=1,2,..·,? - y + 心..,Μ) = -1。
[0037] 優(yōu)選地,在步驟5中,使用遺傳算法進(jìn)行特征子集的選擇,同時選取出與每個亞葉 綠體位置最相關(guān)的氨基酸組成特征和其他亞葉綠體位置特征,從而得到與每個亞葉綠體位 置相對應(yīng)的最優(yōu)擴(kuò)展特征子空間,其采用遺傳算法選擇最優(yōu)擴(kuò)展特征子空間的關(guān)鍵是需要 確定個體的表示形式及其適應(yīng)度函數(shù):
[0038] (1)個體(individual)表示:種群中的個體采用η維布爾向量的形式進(jìn)行表示,η = (D+M-1) XΜ。具體來說,該η維布爾向量被分成Μ組,每組對應(yīng)一個亞葉綠體位置,每組又由2 部分組成,第1部分表示偽氨基酸組成特征(D維),第2部分表示擴(kuò)展的其他亞葉綠體位置特 征(Μ-1維),對于給定的個體h,h(s)取值為1表示選擇特征空間中的第S個特征,反之,h(s) 取值為0表示去除特征空間中的第S個特征;
[0039] (2)適應(yīng)度函數(shù)(fitness化nction):給定個體h,其適應(yīng)度采用如下方式進(jìn)行計 算。首先,基于個體h提供的特征選擇指示信息,選取出與每個亞葉綠體位置相關(guān)的偽氨基 酸組成特征和其他亞葉綠體位置特征,然后,使用10倍(10-fold)交叉驗(yàn)證的方式確定個體 的適應(yīng)度,適應(yīng)度采用多標(biāo)記絕對精度來衡量。
[0040] 優(yōu)選地,在步驟7中,基于步驟3和步驟6所得的兩組支持向量機(jī)(SVM)預(yù)測器,對待 預(yù)測蛋白質(zhì)樣本進(jìn)行蛋白質(zhì)亞葉綠體多位置預(yù)測,其步驟如下:
[0041] (1)把由步驟1所得的待預(yù)測蛋白質(zhì)樣本的特征向量輸入到步驟3所得的一組支持 向量機(jī)(SVM)預(yù)測器中,得到Μ個中間預(yù)測結(jié)果,即:
[0042] 目1,目2,,目μΕ {-1 ,+1} (6)
[0043] 其中,θι表示第1個亞葉綠體位置的歸屬,如果θι = + 1,則表示待預(yù)測蛋白質(zhì)樣本被 預(yù)測位于第1個亞葉綠體位置,否則被預(yù)測不位于第1個亞葉綠體位置,02表示第2個亞葉綠 體位置的歸屬,如果θ2 =+1,則表示待預(yù)測蛋白質(zhì)樣本被預(yù)測位于第2個亞葉綠體位置,否 則被預(yù)測不位于第2個亞葉綠體位置,W此類推;
[0044] (2)把上述所得的Μ個中間預(yù)測結(jié)果作為待預(yù)測蛋白質(zhì)樣本的亞葉綠體位置的估 計值,根據(jù)步驟4擴(kuò)展蛋白質(zhì)樣本的特征空間,得到Μ個擴(kuò)展后的特征向量,每一個擴(kuò)展后的 特征向量對應(yīng)一個亞葉綠體位置;
[0045] (3)根據(jù)步驟5特征選擇的結(jié)果,去除與每個亞葉綠體位置無關(guān)和冗余的氨基酸組 成特征和其他亞葉綠體位置特征,僅保留與其最相關(guān)的氨基酸組成和位置特征,得到Μ個最 優(yōu)擴(kuò)展特征子集;
[0046] (4)把上述所得的Μ個最優(yōu)擴(kuò)展特征子集輸入到步驟6所得的對應(yīng)的Μ個支持向量 機(jī)(SVM)預(yù)測器中,得到Μ個最終預(yù)測結(jié)果,即:
[0047]
(7)
[004引其中,0;α = 1,2,...,Μ)表示第j個亞葉綠體位置的歸屬,即,如果0:=+1,則待預(yù) 測蛋白質(zhì)樣本被預(yù)測位于第j個亞葉綠體位置,否則被預(yù)測不位于第j個亞葉綠體位置。
[0049] 相比于現(xiàn)有技術(shù)的缺點(diǎn)和不足,本發(fā)明具有W下有益效果:
[0050] (1)采用多標(biāo)記建模技術(shù)對同時包含單亞葉綠體位置和多亞葉綠體位置的蛋白質(zhì) 數(shù)據(jù)集進(jìn)行有效建模,能夠同時預(yù)測出蛋白質(zhì)的多個亞葉綠體位置;
[0051] (2)通過融合位置間關(guān)系和位置相關(guān)特征,既有效建模了蛋白質(zhì)的多位置特性,又 顯著降低了特征維數(shù)和去除冗余噪聲,大幅度提高蛋白質(zhì)亞葉綠體多位置預(yù)測的精度。
【附圖說明】
[0052] 圖1是本發(fā)明蛋白質(zhì)亞葉綠體多位置預(yù)測方法的系統(tǒng)結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0053] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,W下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,并 不用于限定本發(fā)明。
[0054] 作為可選的方式,在步驟1中,對于待預(yù)測的蛋白質(zhì)序列和訓(xùn)練數(shù)據(jù)集,基于蛋白 質(zhì)的氨基酸序列信息,采用偽氨基酸組成(PseAAC)方法,抽取出待預(yù)測的蛋白質(zhì)序列和訓(xùn) 練數(shù)據(jù)集中所有蛋白質(zhì)序列的特征向量,從而構(gòu)成待預(yù)測樣本集和訓(xùn)練樣本集。偽氨基酸 組成特征由一個(20+ξ · λ)維的特征向量構(gòu)成,其中,前20維是傳統(tǒng)的氨基酸組成,而后ξ · λ維表示氨基酸序列間的序列順序信息,ξ為使用的氨基酸指數(shù)的數(shù)量,λ為指定的蛋白質(zhì)序 列中的最大相關(guān)層數(shù)。
[0055] 在本發(fā)明中,把參數(shù)ξ和λ的值分別設(shè)定為6和50,其中,6種用于計算序列間的相關(guān) 因子的氨基酸指數(shù)分別為:(1化ydrophobicity,(2化ydrophilicity,(3)mass,(4)ρΚ (al地a-COOH),(5)ρΚ(畑3),(6)pl(at 25°C)。對于最大相關(guān)層數(shù)λ,需要注意的是λ必須小 于訓(xùn)練集中最短蛋白質(zhì)序列的長度。在本發(fā)明所采用的訓(xùn)練集中,最短序列的長度為51個 氨基酸殘基,故而把最大相關(guān)層數(shù)λ的值設(shè)置為50。由此可得,偽氨基酸組成(PseAAC)特征 的維數(shù)為20+6X50 = 320。之所W把λ設(shè)置為最大可設(shè)的值,沒有手動調(diào)優(yōu),是因?yàn)楸景l(fā)明可 W自動從中選取最優(yōu)的特征子集。
[0056] 作為可選的方式,在步驟2中,基于步驟1所構(gòu)建的原始訓(xùn)練樣本集,分別為每個亞 葉綠體位置構(gòu)建新的訓(xùn)練樣本集。在每個亞葉綠體位置所對應(yīng)的新訓(xùn)練樣本集中,把屬于 該亞葉綠體位置的蛋白質(zhì)標(biāo)記為正樣本,不屬于該亞葉綠體位置的蛋白質(zhì)標(biāo)記為負(fù)樣本, 其步驟如下:
[0057] (1)假設(shè)原始訓(xùn)練樣本集Τ包含Ν個蛋白質(zhì),分布在Μ個亞葉綠體位置,把該數(shù)據(jù)集 分為Μ個子集,在本發(fā)明中,Μ=5,如