KrW算法 是蛋白質(zhì)多位置預(yù)測領(lǐng)域的最新算法,與該算法進(jìn)行比較可W顯示出本專利方法的優(yōu)勢。 評價指標(biāo)采用蛋白質(zhì)多位置預(yù)測領(lǐng)域常用的111^0:、1111?1?6、11111^:、111巧1和40:。在表2中,我 們很容易發(fā)現(xiàn),本專利方法要明顯優(yōu)于AL-謂N算法,其中,對于最嚴(yán)格的總精度AC巧旨標(biāo),本 專利方法達(dá)到了近似56 %的精度,比AL-K順?biāo)惴ㄌ岣吡私?2個百分點。
[009引表2本專利方法與AkK順?biāo)惴ǖ男阅鼙容^
[0099]
[0100] 為了進(jìn)一步顯示本專利方法對同時位于多個亞葉綠體位置的蛋白質(zhì)的預(yù)測效果, 表3給出了本專利方法與AkK順?biāo)惴▽碛胁煌瑪?shù)量亞葉綠體位置的蛋白質(zhì)的預(yù)測性能。 從表3可W看出,本專利方法明顯優(yōu)于AL-KrW算法。具體地,對于有兩個亞葉綠體位置的蛋 白質(zhì)來說,本專利方法完全正確預(yù)測了將近半數(shù)的蛋白質(zhì),而AkK順?biāo)惴ㄟB1個蛋白質(zhì)也沒 有預(yù)測正確。運(yùn)表明,在蛋白質(zhì)亞葉綠體多位置預(yù)測任務(wù)中,本專利方法具有比AkK順?biāo)惴?更強(qiáng)大的能力。
[0101] 表3本專利方法與AL-K順?biāo)惴▽碛胁煌瑪?shù)量亞葉綠體位置的蛋白質(zhì)的預(yù)測性能 比較
[0102]
[0103] W上所述僅為本發(fā)明的較佳實施例而已,并不用W限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項】
1. 一種蛋白質(zhì)亞葉綠體多位置預(yù)測方法,其特征在于,包括以下步驟: 步驟1、對于待預(yù)測的蛋白質(zhì)序列和訓(xùn)練數(shù)據(jù)集,基于蛋白質(zhì)的氨基酸序列信息,采用 偽氨基酸組成方法,抽取出待預(yù)測的蛋白質(zhì)序列和訓(xùn)練數(shù)據(jù)集中所有蛋白質(zhì)序列的特征向 量,從而構(gòu)成待預(yù)測樣本集和訓(xùn)練樣本集; 步驟2、基于步驟1所構(gòu)建的原始訓(xùn)練樣本集,分別為每個亞葉綠體位置構(gòu)建新的訓(xùn)練 樣本集;在每個亞葉綠體位置所對應(yīng)的新訓(xùn)練樣本集中,把屬于亞葉綠體位置的蛋白質(zhì)標(biāo) 記為正樣本,不屬于亞葉綠體位置的蛋白質(zhì)標(biāo)記為負(fù)樣本; 步驟3、基于步驟2所構(gòu)建的針對每個亞葉綠體位置的新訓(xùn)練樣本集,分別訓(xùn)練一個支 持向量機(jī)預(yù)測器; 步驟4、對于步驟2構(gòu)建的每個亞葉綠體位置所對應(yīng)的新訓(xùn)練樣本集的每個蛋白質(zhì)樣 本,除了新訓(xùn)練樣本集所對應(yīng)的亞葉綠體位置以外,把其他亞葉綠體位置對于該蛋白質(zhì)樣 本的歸屬值追加到蛋白質(zhì)樣本的特征向量中,蛋白質(zhì)樣本屬于某亞葉綠體位置,歸屬值設(shè) 為1,否則設(shè)為-1,以擴(kuò)展蛋白質(zhì)樣本的特征空間,基于上述規(guī)則,分別更新每個亞葉綠體位 置構(gòu)建的訓(xùn)練樣本集; 步驟5、對于步驟4擴(kuò)展特征空間后的每個訓(xùn)練樣本集,使用遺傳算法進(jìn)行特征子集的 選擇,同時選取出與訓(xùn)練樣本集對應(yīng)的亞葉綠體位置最相關(guān)的氨基酸組成特征和其他亞葉 綠體位置特征,去除無關(guān)和冗余的氨基酸組成特征和其他亞葉綠體位置特征,從而得到與 每個亞葉綠體位置相對應(yīng)的最優(yōu)擴(kuò)展特征子空間; 步驟6、基于步驟5所得的針對每個亞葉綠體位置的最優(yōu)擴(kuò)展特征子空間,分別訓(xùn)練一 個支持向量機(jī)預(yù)測器; 步驟7、基于步驟3和步驟6所得的兩組支持向量機(jī)預(yù)測器,對待預(yù)測蛋白質(zhì)進(jìn)行蛋白質(zhì) 亞葉綠體多位置預(yù)測。2. 如權(quán)利要求1所述的蛋白質(zhì)亞葉綠體多位置預(yù)測方法,其特征在于,采用偽氨基酸組 成方法,抽取出待預(yù)測的蛋白質(zhì)序列和訓(xùn)練數(shù)據(jù)集中所有蛋白質(zhì)序列的特征向量,待預(yù)測 樣本集和訓(xùn)練樣本集由一個20+ξ · λ維的特征向量構(gòu)成,其中,前20維是傳統(tǒng)的氨基酸組 成,而后ξ · λ維表示氨基酸序列間的序列順序信息,ξ為使用的氨基酸指數(shù)的數(shù)量,λ為指定 的蛋白質(zhì)序列中的最大相關(guān)層數(shù)。3. 如權(quán)利要求1所述的蛋白質(zhì)亞葉綠體多位置預(yù)測方法,其特征在于,在所述步驟2中, 分別為每個亞葉綠體位置構(gòu)建新的訓(xùn)練樣本集,其步驟如下: (1) 假設(shè)原始訓(xùn)練樣本集Τ包含Ν個蛋白質(zhì),分布在Μ個亞葉綠體位置,把該數(shù)據(jù)集分為Μ 個子集,如式(1)所示: T = TiUT2U ··· UTiU ··· UTm (1) 其中,子集= …,Μ表示屬于同一個亞葉綠體位置1的化個蛋白質(zhì)樣本集合,符 號U表示集合并運(yùn)算,由于蛋白質(zhì)的多亞葉綠體位置特性,因此Ν〈Νι+Ν2+…+Νμ ; (2) 對每一個亞葉綠體位置i,假設(shè)表示屬于亞葉綠體位置i的蛋白質(zhì)樣本集合,而 則表示不屬于亞葉綠體位置i的蛋白質(zhì)樣本集合,集合和R可由式(2)構(gòu)造得出, 即:其中,(p,+ l)表示蛋白質(zhì)p屬于亞葉綠體位置i,而(p,-l)表示蛋白質(zhì)p不屬于亞葉綠體 位置i; (3)對每一個亞葉綠體位置i,通過式(3)可得它的訓(xùn)練樣本集ΤΓι,即:其中,ΤΓι和原始訓(xùn)練樣本集Τ包含完全相同的Ν個蛋白質(zhì),區(qū)別只是Trifc原來的Ν個蛋 白質(zhì)依據(jù)是否屬于亞葉綠體位置i分成了屬于位置i的正樣本子集和+和不屬于位置i的負(fù) 樣本子集Df、4.如權(quán)利要求1所述的蛋白質(zhì)亞葉綠體多位置預(yù)測方法,其特征在于,在所述步驟4中, 把其他亞葉綠體位置對蛋白質(zhì)樣本的歸屬值追加到蛋白質(zhì)樣本的特征向量中,以擴(kuò)展蛋白 質(zhì)樣本的特征空間,其步驟如下: (1) 假設(shè)亞葉綠體位置i的訓(xùn)練樣本集ΤΓι的第k個蛋白質(zhì)樣本為pk,其特征向量表示為 式(4)所示:其中,D表示由偽氨基酸組成方法抽取的特征向量的維數(shù); (2) 把除了亞葉綠體位置i以外的其他亞葉綠體位置對于該蛋白質(zhì)樣本pk的歸屬值追加 到該蛋白質(zhì)樣本Pk的特征向量中,如式(5)所示:其中,前D維特征乂,j = l,2,…,D是蛋白質(zhì)樣本的偽氨基酸組成,而后M-1維新加入的 特征C,m=l,2,…,i-l,i+l,···,M表示除了亞葉綠體位置i以外的其他亞葉綠體位置對于 該蛋白質(zhì)樣本Pk的歸屬值,如果該蛋白質(zhì)Pk屬于亞葉綠體位置m,則4? =1,否則,.4? =:-1,〇5. 如權(quán)利要求1所述的蛋白質(zhì)亞葉綠體多位置預(yù)測方法,其特征在于,在所述步驟5中, 使用遺傳算法進(jìn)行特征子集的選擇,同時選取出與每個亞葉綠體位置最相關(guān)的偽氨基酸組 成特征和其他亞葉綠體位置特征,從而得到與每個亞葉綠體位置相對應(yīng)的最優(yōu)擴(kuò)展特征子 空間,其采用遺傳算法選擇最優(yōu)擴(kuò)展特征子空間的關(guān)鍵是需要確定個體的表示形式及其適 應(yīng)度函數(shù): (1) 個體表示:種群中的個體采用η維布爾向量的形式進(jìn)行表示,n =(D+M-1) X Μ,具體 來說,該η維布爾向量被分成Μ組,每組對應(yīng)一個亞葉綠體位置,每組又由2部分組成,第1部 分表示偽氨基酸組成特征,即D維,第2部分表示擴(kuò)展的其他亞葉綠體位置特征,即Μ-1維,對 于給定的個體h,h (s)取值為1表示選擇特征空間中的第s個特征,反之,h (s)取值為0表示去 除特征空間中的第s個特征; (2) 適應(yīng)度函數(shù):給定個體h,其適應(yīng)度采用如下方式進(jìn)行計算:首先,基于個體h提供的 特征選擇指示信息,選取出與每個亞葉綠體位置相關(guān)的偽氨基酸組成特征和其他亞葉綠體 位置特征,然后,使用10倍交叉驗證的方式確定個體的適應(yīng)度,適應(yīng)度采用多標(biāo)記絕對精度 來衡量。6. 如權(quán)利要求1所述的蛋白質(zhì)亞葉綠體多位置預(yù)測方法,其特征在于,在所述步驟7中, 基于步驟3和步驟6所得的兩組支持向量機(jī)預(yù)測器,對待預(yù)測蛋白質(zhì)樣本進(jìn)行蛋白質(zhì)亞葉綠 體多位置預(yù)測,其步驟如下: (1) 把由步驟1所得的待預(yù)測蛋白質(zhì)樣本的特征向量輸入到步驟3所得的一組支持向量 機(jī)預(yù)測器中,得到Μ個中間預(yù)測結(jié)果,即: θι,θ2,…,ΘΜΕ {-1,+1} (6) 其中,表示第1個亞葉綠體位置的歸屬,如果θ1 =+ι,則表示待預(yù)測蛋白質(zhì)樣本被預(yù)測 位于第1個亞葉綠體位置,否則被預(yù)測不位于第1個亞葉綠體位置,θ2表示第2個亞葉綠體位 置的歸屬,如果θ2 = + 1,則表示待預(yù)測蛋白質(zhì)樣本被預(yù)測位于第2個亞葉綠體位置,否則被 預(yù)測不位于第2個亞葉綠體位置,以此類推; (2) 把上述所得的Μ個中間預(yù)測結(jié)果作為待預(yù)測蛋白質(zhì)樣本的亞葉綠體位置的估計值, 根據(jù)步驟4擴(kuò)展蛋白質(zhì)樣本的特征空間,得到Μ個擴(kuò)展后的特征向量,每一個擴(kuò)展后的特征 向量對應(yīng)一個亞葉綠體位置; (3) 根據(jù)步驟5特征選擇的結(jié)果,去除與每個亞葉綠體位置無關(guān)和冗余的氨基酸組成特 征和其他亞葉綠體位置特征,僅保留與其最相關(guān)的氨基酸組成和位置特征,得到Μ個最優(yōu)擴(kuò) 展特征子集; (4) 把上述所得的Μ個最優(yōu)擴(kuò)展特征子集輸入到步驟6所得的對應(yīng)的Μ個支持向量機(jī)預(yù) 測器中,得到Μ個最終預(yù)測結(jié)果,即:其中,6,j = 1,2,,…,Μ表示第j個亞葉綠體位置的歸屬,即,如果< =+1,則待預(yù)測蛋 白質(zhì)樣本被預(yù)測位于第j個亞葉綠體位置,否則被預(yù)測不位于第j個亞葉綠體位置。
【專利摘要】本發(fā)明公開了一種蛋白質(zhì)亞葉綠體多位置預(yù)測的方法,步驟為:抽取出蛋白質(zhì)序列的偽氨基酸組成特征,分別為每個亞葉綠體位置訓(xùn)練一個支持向量機(jī)分類器;把亞葉綠體位置對于蛋白質(zhì)樣本的歸屬值追加到蛋白質(zhì)的特征向量中,使用亞葉綠體位置來擴(kuò)展蛋白質(zhì)樣本的特征空間;在擴(kuò)展后的蛋白質(zhì)特征空間中,利用遺傳算法分別為每個亞葉綠體位置選取最優(yōu)的擴(kuò)展特征子集;基于每個亞葉綠體位置的最優(yōu)擴(kuò)展特征子集,分別訓(xùn)練一個支持向量機(jī)分類器;基于所得兩組支持向量機(jī)分類器對待預(yù)測蛋白質(zhì)進(jìn)行蛋白質(zhì)亞葉綠體多位置預(yù)測。本發(fā)明能夠同時預(yù)測出蛋白質(zhì)的多個亞葉綠體位置,且通過融合位置間關(guān)系和位置相關(guān)特征大幅度地提高了蛋白質(zhì)亞葉綠體多位置預(yù)測的精度。
【IPC分類】G06F19/18, G06F19/24
【公開號】CN105447340
【申請?zhí)枴緾N201510782419
【發(fā)明人】王曉, 張秋聞, 趙進(jìn)超, 王榕, 張偉偉, 郭瑞
【申請人】鄭州輕工業(yè)學(xué)院
【公開日】2016年3月30日
【申請日】2015年11月12日