一種可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法
【專利摘要】本發(fā)明公開了一種可在細(xì)菌全基因組水平預(yù)測外膜蛋白的方法,該方法為:利用分組重量編碼算法,計算蛋白質(zhì)序列特征,采用特征選擇技術(shù)提取特征向量,建立基于支持向量機(jī)的分類器,對外膜蛋白質(zhì)和非外膜蛋白質(zhì)進(jìn)行分類,通過web服務(wù)器,接受用戶輸入的蛋白質(zhì)序列,預(yù)測其是否為一個外膜蛋白。本發(fā)明為細(xì)菌基因組內(nèi)外膜蛋白質(zhì)的計算機(jī)篩選提供了有效工具,在訓(xùn)練數(shù)據(jù)集上區(qū)分外膜蛋白質(zhì)和非外膜蛋白的敏感性、特異性、總預(yù)測精度和馬氏相關(guān)系數(shù)分別達(dá)到95.2%、96.1%、95.9%和0.874,在13個物種基因組內(nèi)預(yù)測外膜蛋白質(zhì)的結(jié)果中體現(xiàn)出極高的敏感性,可應(yīng)用于新的細(xì)菌基因組外膜蛋白質(zhì)的篩選、鑒定和功能研究。
【專利說明】
一種可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于預(yù)測革蘭陰性菌外膜蛋白質(zhì)的技術(shù)領(lǐng)域,尤其涉及一種可在細(xì)菌全基 因組水平預(yù)測其外膜蛋白質(zhì)的方法。
【背景技術(shù)】
[0002] 革蘭陰性細(xì)菌外膜上分布大量beta-barrel形狀的跨膜蛋白質(zhì),其中的一些蛋白 質(zhì)是細(xì)菌入侵宿主細(xì)胞的功能蛋白,也是宿主免疫系統(tǒng)清除細(xì)菌的靶向識別蛋白,介導(dǎo)多 種疾病的產(chǎn)生,同時也能激活機(jī)體的免疫機(jī)制來對抗細(xì)菌的感染。
[0003] 當(dāng)前,在新的細(xì)菌基因組內(nèi)鑒定外膜蛋白主要通過實驗完成。
[0004] 然而,使用實驗方法對外膜蛋白進(jìn)行鑒定,需要耗費大量的人力物力,成本高,效 率低。一個新的細(xì)菌基因組往往編碼幾千個蛋白質(zhì),使用傳統(tǒng)實驗方法對其中的外膜蛋白 質(zhì)進(jìn)行一一鑒定,是一件極其困難的事情。因此,使用計算機(jī)來進(jìn)行生物信息學(xué)預(yù)測,可自 動化實現(xiàn),速度快,成本低,是解決在細(xì)菌全基因組內(nèi)鑒別外膜蛋白質(zhì)的有效途徑。
[0005] 因此,如何建立一種準(zhǔn)確快速的生物信息學(xué)預(yù)測和識別算法,成為當(dāng)前這一領(lǐng)域 需要解決的主要問題。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種可在細(xì)菌全基因組水平預(yù)測其外膜蛋白質(zhì)的方法,旨 在解決目前在新的細(xì)菌基因組內(nèi)鑒定外膜蛋白主要通過實驗完成,造成耗費大量的人力物 力,成本高,效率低的問題。
[0007] 本發(fā)明是這樣實現(xiàn)的,一種可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,該可 在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法為:
[0008] 利用分組重量編碼算法,計算蛋白質(zhì)序列特征,提取特征向量,建立基于支持向量 機(jī)的分類器,對外膜蛋白質(zhì)和非外膜蛋白質(zhì)進(jìn)行分類,通過web服務(wù)器,接受用戶輸入的蛋 白質(zhì)序列,預(yù)測用戶輸入的蛋白質(zhì)序列是否為一個外膜蛋白。
[0009] 進(jìn)一步,該可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法具體包括以下步驟:
[0010] 步驟一、用戶登錄web服務(wù)器主頁,在文本框內(nèi)輸入待預(yù)測的細(xì)菌蛋白質(zhì)序列;
[0011] 步驟二、服務(wù)器JSP程序獲取用戶輸入的蛋白序列,并在前臺生成結(jié)果輸出頁,不 斷刷新;
[0012] 步驟三、JSP程序建立結(jié)果保存目錄,并調(diào)用Matlab來運(yùn)行核心預(yù)測程序,計算蛋 白質(zhì)序列分組重量編碼特征和氨基酸組成特征;
[0013]步驟四、Matlab程序?qū)⒍囝愄卣饕罁?jù)預(yù)設(shè)方式進(jìn)行選擇和組合,產(chǎn)生一個蛋白質(zhì) 特征向量;
[0014]步驟五、Matlab程序調(diào)用libSVM程序,使用事先訓(xùn)練好的模型,預(yù)測蛋白質(zhì)是外膜 蛋白的似然率;
[0015]步驟六、根據(jù)SVM預(yù)測結(jié)果判斷其是否為一個外膜蛋白,以HTML格式保存到結(jié)果目 錄;
[0016] 步驟七、負(fù)責(zé)結(jié)果輸出的JSP程序不斷查詢結(jié)果保存目錄,確認(rèn)結(jié)果文件是否生 成;
[0017] 步驟八、一旦結(jié)果生成,則JSP程序?qū)⒌鞍仔蛄泻团袛嘟Y(jié)果均顯示在前臺網(wǎng)頁。
[0018] 進(jìn)一步,所述分組重量編碼算法即EBGW算法為:
[0019] 蛋白質(zhì)序列視為20種氨基酸殘基組成的字符串,從氨基酸的疏水性、電荷性質(zhì)方 面分為四組:中性非極性氨基酸61 = {6,六,¥兒,1,^,¥};中性極性氨基酸62={〇,15, !',¥,(:};酸性帶負(fù)電荷的氨基酸63={〇3};堿性帶正電荷的氨基酸64={11,1(,1?},兩兩組 合,組合方式為:{G1,G2}和 s3,…,sn是一條長度為n的蛋白質(zhì)序列,通過定義以下三個映射,將序列A轉(zhuǎn)化為三條0-1進(jìn) 制序列:
[0020] Ti(n) = Si(s1),Si(s2)H.Si(sn)(i = l,2,3)
[0021] 其中, .,、(1 //s,-e [Gl,G2})
[0022] &⑷=|〇 ^ £ 陽,;? = (1,2,…tt)
[0023] S2(Sj)^〇 if;je[G2>G4]\j-^-n) ,、fl i/> e{Gl,6'4}) . _
[0024] ~⑷=|() ^ e = (l,2,.n)
[0025] 記(i = l,2,3),稱T1,T2,T3分別為序列A的1-特征序列、2-特征序列、3-特征序列, 對于任意一條特征序列,定義該序列中"1"出現(xiàn)的次數(shù)為該序列的重量,重量是與序列長度 相關(guān)的一個量,進(jìn)一步定義正規(guī)重量為該序列中"1"出現(xiàn)的頻率,對于長度為n的特征序列 T,其正規(guī)重量為W(n)=p/n,其中p為序列中"1"出現(xiàn)的次數(shù),取一個正整數(shù)L,將特征序列T 劃分為L條長度遞增的子序列,記為7\U?/L」XA=1, 2 . , L),實中[*」表示取整運(yùn)算;分別 計算每條子序列的正規(guī)重量,記為砂U?/l」(^=i,2 ... 得到一個L維的向量,將長度為 n的蛋白質(zhì)序列編碼成為一個L維的向量,將T1,T2,T3三條特征序列向量組合在一起,得到一 個3L維的向量,記為[W1,W2,W3 ] = [W1,W2,…,W3L],稱3L維的向量為序列分組重量特征向量; 計算蛋白質(zhì)A序列中20種氨基酸的含量,得到一個20維的向量,其中h表示第i種氨基酸殘 基在序列中的含量,為氨基酸組成特征向量;將分組重量特征和氨基酸組成特征進(jìn)行組合, 將一條蛋白質(zhì)序列編碼為一個3L+20維的向量:
[0026] X=[W1,W2,…,W3L,fl,f2,…,f20] 〇
[0027]進(jìn)一步,所述分組重量編碼算法即EBGW算法中對于一條蛋白質(zhì)序列,分組重量編 碼特征反映不同性質(zhì)的殘基在序列不同區(qū)域出現(xiàn)的頻率,氨基酸組成特征反映不同類型的 殘基在整個序列中出現(xiàn)的頻率。
[0028]進(jìn)一步,計算蛋白質(zhì)序列特征的web服務(wù)器后臺JSP程序,將用戶輸入的蛋白質(zhì)序 列輸入matlab腳本程序,matlab腳本程序依據(jù)分組重量編碼算法,采用預(yù)先設(shè)定的參數(shù),從 蛋白質(zhì)序列中計算160維分組重量編碼特征,并同時計算氨基酸組成特征,將二類特征進(jìn)行 不同方式的組合,得到一個組合的特征向量。
[0029] 進(jìn)一步,所述提取特征向量方法為:使用F-score得分和反向特征選擇算法挑選有 效特征,將挑選出來的有效特征轉(zhuǎn)換成一個多維特征向量。
[0030] 進(jìn)一步,所述建立基于支持向量機(jī)(SVM)的分類器,對外膜蛋白質(zhì)和非外膜蛋白質(zhì) 進(jìn)行分類的方法為:利用libSVM3.12建立基于SVM的分類器并將多維的特征向量輸入,SVM 分類器包括利用數(shù)據(jù)挖據(jù)技術(shù)建立的外膜蛋白和非外膜蛋白訓(xùn)練數(shù)據(jù)集,以及根據(jù)SVM算 法建立并使用訓(xùn)練數(shù)據(jù)訓(xùn)練好的分類模型,核函數(shù),參數(shù)。
[0031] 進(jìn)一步,所述使用F-score得分來篩選有效特征方法為:對于一個給定的m維訓(xùn)練 向量Xk,k = 1,2,…,m,若陽性和陰性的訓(xùn)練樣本數(shù)量分別為n+和n-,則第i個特征的F-score值計算公式為:
[0033] 這里,分別為第i個特征值的均值、正樣本均值、負(fù)樣本均值,xk>1(+)表 示第k個陽性樣本的第i個特征值,Xk>1?表示第k個陰性樣本的第i個特征值,分子指出陽性 數(shù)據(jù)集和陰性數(shù)據(jù)集之間的差別,而分母指出兩個數(shù)據(jù)集中每兩個數(shù)據(jù)之間的差別。
[0034] 進(jìn)一步,所述使用反向特征選擇算法挑選有效特征方法為:進(jìn)行有效特征選擇時, 使用反向選擇方法,首先使用全部特征來訓(xùn)練分類模型,每次進(jìn)行選擇時,在當(dāng)前特征向量 中去掉F-score值最小的特征并重新進(jìn)行訓(xùn)練和測試;測試中分類效果包括分類效果提高 和分類效果降低,分類效果提高則舍棄當(dāng)前特征值,分類效果降低則保留當(dāng)前特征值,重復(fù) 這一步驟,直到預(yù)測性能無法繼續(xù)提高,以此時的結(jié)果作為最終選擇。
[0035]進(jìn)一步,所述根據(jù)SVM算法建立并使用訓(xùn)練數(shù)據(jù)訓(xùn)練好的分類模型,核函數(shù),參數(shù) 中分類模型的構(gòu)建方法為:
[0036] 首先收集樣本序列,并采用BLAST算法去除冗余序列,得到外膜蛋白質(zhì)序列和非外 膜蛋白質(zhì)序列作為訓(xùn)練數(shù)據(jù)集,去除冗余序列后的每一條蛋白質(zhì)序列之間的序列相似度不 超過25 %,訓(xùn)練SVM分類模型時,SVM核函數(shù)選擇RBF核函數(shù),懲罰因子參數(shù)使用網(wǎng)格搜索和 十倍交叉驗證測試來確定,SVM分類模型使用libSVM中的SVMtrain程序進(jìn)行訓(xùn)練,使用敏感 性、特異性、總預(yù)測精度和馬氏相關(guān)系數(shù)綜合評價預(yù)測性能,最終從測試結(jié)果中選擇馬氏相 關(guān)系數(shù)最優(yōu)的特征組合方式和模型參數(shù),將性能最優(yōu)的模型作為最終模型輸出保存。
[0037] 本發(fā)明是生物信息學(xué)方法在細(xì)菌外膜蛋白質(zhì)預(yù)測領(lǐng)域的一個應(yīng)用,其核心思想是 提出了一種結(jié)合分組重量編碼和氨基酸組成的蛋白質(zhì)序列特征挖掘方法,并結(jié)合機(jī)器學(xué)習(xí) 算法設(shè)計了高度準(zhǔn)確的預(yù)測模型和算法。已知細(xì)菌外膜蛋白質(zhì)普遍具有由beta折疊構(gòu)成的 筒形結(jié)構(gòu),這一特別的結(jié)構(gòu)形成的基礎(chǔ)在于其序列能夠形成8~22條反平行的beta折疊,如 果能夠提取其中的序列特征,并依此建立序列分類算法,就可以在各類蛋白質(zhì)序列中識別 這類外膜蛋白質(zhì)。本發(fā)明基于上述思想,將信息學(xué)中使用的分組重量編碼技術(shù)(EBGW)應(yīng)用 于蛋白質(zhì)序列信息提取,計算EBGW和氨基酸組成兩類特征,并且設(shè)計了一種基于F-Score方 程的特征選擇方法,通過該方法從組合特征向量中選擇最有效的特征子集;此外,采用在模 式識別和機(jī)器學(xué)習(xí)領(lǐng)域表現(xiàn)出優(yōu)異性能的支持向量機(jī)算法來建立分類模型,采用R0C曲線 確定最佳分組數(shù)量,采用網(wǎng)格搜索確定最佳SVM核函數(shù)和參數(shù);使用數(shù)據(jù)庫檢索和文獻(xiàn)挖掘 方法建立標(biāo)準(zhǔn)訓(xùn)練和測試數(shù)據(jù)集,使用BLAST同源比對技術(shù)去除數(shù)據(jù)冗余,使用敏感性、特 異性、預(yù)測精度和馬氏相關(guān)系數(shù)等多個指標(biāo)來衡量預(yù)測性能,通過大量性能測試建立優(yōu)化 好的SVM分類模型,可以對任意未知的蛋白質(zhì)序列進(jìn)行預(yù)測,給出其是一個外膜蛋白質(zhì)的似 然率。該程序通過web服務(wù)器的方式,接受用戶輸入的細(xì)菌基因組蛋白質(zhì)序列,預(yù)測其是否 為一個外膜蛋白,并且具有很高的預(yù)測準(zhǔn)確度。
[0038] 建立了包含208條外膜蛋白、879條非外膜蛋白的無冗余訓(xùn)練數(shù)據(jù)集,在訓(xùn)練數(shù)據(jù) 集上使用十倍交叉驗證測試檢驗本發(fā)明的性能,結(jié)果顯示,該方法區(qū)分外膜蛋白質(zhì)和非外 膜蛋白之的敏感性、特異性、總預(yù)測精度和馬氏相關(guān)系數(shù)分別達(dá)到95.2%、96.1%、95.9% 和0.874,預(yù)測性能超過了國內(nèi)外研究者提出的其它方法。此外,使用該預(yù)測工具在13個物 種全基因組蛋白質(zhì)中進(jìn)行進(jìn)行計算和預(yù)測,在革蘭陰性菌基因組內(nèi),據(jù)估計大約有1.5%到 3%的蛋白質(zhì)為外膜蛋白。模型在4個革蘭陰性菌基因組中預(yù)測的外膜蛋白的比例與這一估 計相符,這其中包括52條包含在208個訓(xùn)練樣本中的外膜蛋白,以及212條新預(yù)測到的外膜 蛋白。還在具備外膜結(jié)構(gòu)的聚球藍(lán)藻細(xì)菌基因組內(nèi)預(yù)測到21個外膜蛋白,表明預(yù)測模型的 敏感性比較高。在不存在外膜蛋白質(zhì)的2個古細(xì)菌和4個革蘭陽性菌基因組內(nèi),一共預(yù)測到 0.24%的外膜蛋白(37/15616),這一比例遠(yuǎn)低于在革蘭陰性菌中的數(shù)量,表明預(yù)測模型具 有很好的特異性。此外,在真核物種中的預(yù)測結(jié)果顯示該預(yù)測模型也能夠發(fā)現(xiàn)其中的外膜 蛋白,如在酵母中預(yù)測到了6個陽性結(jié)果,其中4個為已知的線粒體外膜蛋白,其中包括兩個 VDAC異構(gòu)體蛋白。此外,在人類基因組中預(yù)測到31個外膜蛋白,其中13個為已知的線粒體外 膜蛋白,18個為假陽性結(jié)果,表明在與細(xì)菌差異較大的人類基因組內(nèi),預(yù)測模型的特異性降 低,但是仍然保持了較好的敏感性。
[0039] 本發(fā)明可以廣泛應(yīng)用于鑒定細(xì)菌外膜蛋白質(zhì)的相關(guān)研究。細(xì)菌外膜蛋白質(zhì)是參與 細(xì)菌致病的重要分子,是眾多抗菌藥物的作用靶標(biāo)。利用本發(fā)明及其提供的web預(yù)測服務(wù) 器,可以快速預(yù)測新的細(xì)菌基因組內(nèi)的外膜蛋白質(zhì),獲得一個數(shù)據(jù)量很小的外膜蛋白質(zhì)候 選對象,用于實驗鑒定或者其他用途,從而加速細(xì)菌基因組外膜蛋白質(zhì)的鑒定過程。
【附圖說明】
[0040] 圖1是本發(fā)明提供的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法具體步驟流程 圖。
[0041] 圖2是本發(fā)明提供的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的算法流程圖。
【具體實施方式】
[0042] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明 進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于 限定本發(fā)明。
[0043] 下面結(jié)合附圖對本發(fā)明的應(yīng)用原理作進(jìn)一步描述。
[0044] -種可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,該可在細(xì)菌全基因組水平預(yù) 測外膜蛋白質(zhì)的方法為:
[0045] 利用分組重量編碼算法,計算蛋白質(zhì)序列特征,提取特征向量,建立基于支持向量 機(jī)的分類器,對外膜蛋白質(zhì)和非外膜蛋白質(zhì)進(jìn)行分類,通過web服務(wù)器,接受用戶輸入的蛋 白質(zhì)序列,預(yù)測用戶輸入的蛋白質(zhì)序列是否為一個外膜蛋白。
[0046]如圖1所示:該可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法具體包括以下步驟: [0047] S101:用戶登錄web服務(wù)器主頁,在文本框內(nèi)輸入待預(yù)測的細(xì)菌蛋白質(zhì)序列;
[0048] S102:服務(wù)器JSP程序獲取用戶輸入的蛋白序列,并在前臺生成結(jié)果輸出頁,不斷 刷新;
[0049] S103:JSP程序建立結(jié)果保存目錄,并調(diào)用Matlab來運(yùn)行核心預(yù)測程序,計算蛋白 質(zhì)序列分組重量編碼特征、氨基酸組成特征;
[0050] S104:Matlab程序?qū)⒍囝愄卣饕罁?jù)預(yù)設(shè)方式進(jìn)行選擇和組合,產(chǎn)生一個蛋白質(zhì)特 征向量;
[0051 ] S105:Matlab程序調(diào)用libSVM程序,使用事先訓(xùn)練好的模型,預(yù)測蛋白質(zhì)是外膜蛋 白的似然率;
[0052] S106:根據(jù)SVM預(yù)測結(jié)果判斷其是否為一個外膜蛋白,以HTML格式保存到結(jié)果目 錄;
[0053] S107:負(fù)責(zé)結(jié)果輸出的JSP程序不斷查詢結(jié)果保存目錄,確認(rèn)結(jié)果文件是否生成;
[0054] S108:-旦結(jié)果生成,則JSP程序?qū)⒌鞍仔蛄泻团袛嘟Y(jié)果均顯示在前臺網(wǎng)頁。
[0055] 進(jìn)一步,所述分組重量編碼算法即EBGW算法為:
[0056]蛋白質(zhì)序列視為20種氨基酸殘基組成的字符串,從氨基酸的疏水性、電荷性質(zhì)方 面分為四組:中性非極性氨基酸61 = {6,六,¥兒,1,^,¥};中性極性氨基酸62={〇,15, !',¥,(:};酸性帶負(fù)電荷的氨基酸63={〇3};堿性帶正電荷的氨基酸64={11,1(,1?},兩兩組 合,組合方式為:{G1,G2}和 s3,…,sn是一條長度為n的蛋白質(zhì)序列,通過定義以下三個映射,將序列A轉(zhuǎn)化為三條0-1進(jìn) 制序列:
[0057] T^n) = Si(si) ,Si(s2) ? ? ? Si(sn)(i = 1,2,3)
[0058] 其中, …、(1 if s. e{Cl,G2})
[_噸H。"E陽小m) /、 f 1 if Si G
[0060] i/s;e(G2(G4}j /-(U-n) ,、fl i/&e{Cl,G4}) _] ^.e{G2,G3}j) = (U-i)
[0062]記(i = l,2,3),稱T1,T2,T3分別為序列A的1-特征序列、2-特征序列、3-特征序列, 對于任意一條特征序列,定義該序列中"1"出現(xiàn)的次數(shù)為該序列的重量,重量是與序列長度 相關(guān)的一個量,進(jìn)一步定義正規(guī)重量為該序列中"1"出現(xiàn)的頻率,對于長度為n的特征序列 T,其正規(guī)重量為W(n)=p/n,其中p為序列中"1"出現(xiàn)的次數(shù),取一個正整數(shù)L,將特征序列T 劃分為L條長度遞增的子序列,記為T(LA77/L」)(X:=U 2 , L),其中L*」表示取整運(yùn)算;分別 計算每條子序列的正規(guī)重量,記為沙U?/L」(hl,2 ...,U),得到一個L維的向量,將長度為 n的蛋白質(zhì)序列編碼成為一個L維的向量,將T1,T2,T3三條特征序列向量組合在一起,得到一 個3L維的向量,記為[W1,W2,W3 ] = [W1,W2,…,W3L],稱3L維的向量為序列分組重量特征向量; [0063]計算蛋白質(zhì)A序列中20種氨基酸的含量,得到一個20維的向量,其中h表示第i種 氨基酸殘基在序列中的含量,為氨基酸組成特征向量;將分組重量特征和氨基酸組成特征 進(jìn)行組合,將一條蛋白質(zhì)序列編碼為一個3L+20維的向量:
[0064] X=[W1,W2,…,W3L,fl,f2,…,f20] 〇
[0065]進(jìn)一步,所述分組重量編碼算法即EBGW算法中對于一條蛋白質(zhì)序列,分組重量編 碼特征反映不同性質(zhì)的殘基在序列不同區(qū)域出現(xiàn)的頻率,氨基酸組成特征反映不同類型的 殘基在整個序列中出現(xiàn)的頻率。
[0066]進(jìn)一步,計算蛋白質(zhì)序列特征的web服務(wù)器后臺JSP程序,將用戶輸入的的蛋白質(zhì) 序列輸入matlab程序,matlab程序依據(jù)分組重量編碼算法,采用預(yù)先設(shè)定的參數(shù),從蛋白質(zhì) 序列中計算160維分組重量編碼特征,并同時計算氨基酸組成特征,將二類特征進(jìn)行不同方 式的組合,得到一個組合的特征向量。
[0067] 進(jìn)一步,所述提取特征向量方法為:使用F-score得分和反向特征選擇算法挑選有 效特征,將挑選出來的有效特征轉(zhuǎn)換成一個多維特征向量。
[0068] 進(jìn)一步,所述建立基于支持向量機(jī)的分類器,對外膜蛋白質(zhì)和非外膜蛋白質(zhì)進(jìn)行 分類的方法為:利用1 ibSVM3.12建立基于支持向量機(jī)的SVM分類器并將特征向量輸入,SVM 分類器包括利用數(shù)據(jù)挖據(jù)技術(shù)建立的外膜蛋白和非外膜蛋白訓(xùn)練數(shù)據(jù)集,以及根據(jù)SVM算 法建立并使用訓(xùn)練數(shù)據(jù)訓(xùn)練好的分類模型,核函數(shù),參數(shù)。
[0069] 進(jìn)一步,所述使用F-score得分來篩選有效特征方法為:對于一個給定的m維訓(xùn)練 向量Xk,k = 1,2,…,m,若陽性和陰性的訓(xùn)練樣本數(shù)量分別為n+和n-,則第i個特征的F-score值計算公式為:
[0071] 這里,分別為第i個特征值的均值、正樣本均值、負(fù)樣本均值,Xk>1(+)表 示第k個陽性樣本的第i個特征值,Xk>1?表示第k個陰性樣本的第i個特征值,分子指出陽性 數(shù)據(jù)集和陰性數(shù)據(jù)集之間的差別,而分母指出兩個數(shù)據(jù)集中每兩個數(shù)據(jù)之間的差別。
[0072] 進(jìn)一步,所述使用反向特征選擇算法挑選有效特征方法為:進(jìn)行有效特征選擇時, 使用反向選擇方法,首先使用全部特征來訓(xùn)練分類模型,每次進(jìn)行選擇時,在當(dāng)前特征向量 中去掉F-score值最小的特征并重新進(jìn)行訓(xùn)練和測試;測試中分類效果包括分類效果提高 和分類效果降低,分類效果提高則舍棄當(dāng)前特征值,分類效果降低則保留當(dāng)前特征值,重復(fù) 這一步驟,直到預(yù)測性能無法繼續(xù)提高,以此時的結(jié)果作為最終選擇。
[0073]進(jìn)一步,所述根據(jù)SVM算法建立并使用訓(xùn)練數(shù)據(jù)訓(xùn)練好的分類模型,核函數(shù),參數(shù) 中分類模型的構(gòu)建方法為:
[0074]使用數(shù)據(jù)庫搜索、序列比對和文獻(xiàn)挖掘手段收集樣本序列,并采用BLAST算法去除 冗余序列,得到208個外膜蛋白質(zhì)序列,879條非外膜蛋白質(zhì)序列作為訓(xùn)練數(shù)據(jù)集,其中的每 一條蛋白質(zhì)序列之間的序列相似度不超過25%,訓(xùn)練SVM分類模型時,SVM核函數(shù)選擇RBF核 函數(shù),懲罰因子參數(shù)使用網(wǎng)格搜索和十倍交叉驗證測試來確定,SVM分類模型使用libSVM中 的SVMtrain程序進(jìn)行訓(xùn)練,使用敏感性、特異性、總預(yù)測精度和馬氏相關(guān)系數(shù)綜合評價預(yù)測 性能,最終從測試結(jié)果中選擇馬氏相關(guān)系數(shù)最優(yōu)的特征組合方式和模型參數(shù),將性能最優(yōu) 的模型作為最終模型輸出保存。
[0075] 在訓(xùn)練數(shù)據(jù)集上使用時十倍交叉驗證測試檢驗本發(fā)明的性能,結(jié)果顯示,該方法 區(qū)分外膜蛋白質(zhì)和非外膜蛋白之的敏感性、特異性、總預(yù)測精度和馬氏相關(guān)系數(shù)分別達(dá)到 95.2%、96.1 %、95.9%和0.874,預(yù)測性能超過了國內(nèi)外研究者提出的其它方法。此外,使 用該預(yù)測工具在13個物種全基因組蛋白質(zhì)中進(jìn)行進(jìn)行計算和預(yù)測,結(jié)果如下表所示。在革 蘭陰性菌基因組內(nèi),據(jù)估計大約有1.5%到3%的蛋白質(zhì)為外膜蛋白。模型在4個革蘭陰性菌 基因組中預(yù)測的外膜蛋白的比例與這一估計相符,這其中包括52個包含在208個訓(xùn)練樣本 中的外膜蛋白,以及212條新預(yù)測到的外膜蛋白。還在具備外膜結(jié)構(gòu)的聚球藍(lán)藻細(xì)菌基因組 內(nèi)預(yù)測到21個外膜蛋白,表明預(yù)測模型的敏感性比較高。在不存在外膜蛋白質(zhì)的2個古細(xì)菌 和4個革蘭陽性菌基因組內(nèi),一共預(yù)測到0.24%的外膜蛋白(37/15616),這一比例遠(yuǎn)低于在 革蘭陰性菌中的預(yù)測結(jié)果,表明預(yù)測模型具有很好的特異性。此外,在真核物種中的預(yù)測結(jié) 果顯示該預(yù)測模型也能夠發(fā)現(xiàn)其中的外膜蛋白,如在酵母中預(yù)測到了 6個陽性結(jié)果,其中4 個為已知的線粒體外膜蛋白,其中包括兩個VDAC異構(gòu)體蛋白。此外,在人類基因組中預(yù)測到 31個外膜蛋白,其中13個為已知的線粒體外膜蛋白,18個為假陽性結(jié)果,表明在與細(xì)菌差異 較大的人類基因組內(nèi),預(yù)測模型的特異性降低,但是仍然保持了較好的敏感性。
[0076] 表1在13個物種基因組內(nèi)預(yù)測外膜蛋白的結(jié)果
[0079] 下面結(jié)合總體設(shè)計及具體實施例對本發(fā)明的應(yīng)用原理作進(jìn)一步描述。
[0080] 二、總體設(shè)計
[0081] 2. lweb預(yù)測服務(wù)器的工作環(huán)境
[0082] 該web服務(wù)器操作系統(tǒng)為CentOS Linux 5 ? 11,JSP支持環(huán)境為apache-tomcat-8.0.30。網(wǎng)頁代碼使用JSP和HTML編寫,核心程序使用matlab編寫,程序內(nèi)集成LibSVM3.12, Matlab編譯版本為R201 lb。該web服務(wù)器主要內(nèi)容包括:介紹web服務(wù)器的基本功能和應(yīng)用 背景知識的Read Me、下載本算法所使用的訓(xùn)練數(shù)據(jù)集的Data、引用參考文獻(xiàn)信息的 Citation和提供聯(lián)系方式的Contacts。
[0083] 2.3程序運(yùn)行原理
[0084]服務(wù)器后臺的JSP程序,將前臺網(wǎng)頁提交的蛋白質(zhì)序列輸入matlab程序,該程序依 據(jù)預(yù)先設(shè)定的參數(shù),使用EBGW算法,從蛋白質(zhì)序列中計算160維分組重量編碼特征,并同時 計算氨基酸組成特征,使用特征選擇算法挑選有效特征,將這些特征轉(zhuǎn)換成一個特征向量, 將該特征向量輸入支持向量機(jī)分類器(利用libSVM3.12建立的分類器,包括根據(jù)訓(xùn)練數(shù)據(jù) 集建立的分類模型,核函數(shù),參數(shù)等),SVM分類器將輸出判別結(jié)果,保存到本地磁盤。最后, JSP網(wǎng)頁不斷查詢該數(shù)據(jù)保存目錄,一旦結(jié)果計算完畢,則將預(yù)測結(jié)果輸出到前臺網(wǎng)頁。用 戶通過前臺網(wǎng)頁可以查看蛋白質(zhì)是否預(yù)測為一個外膜蛋白質(zhì)。
[0085]三、程序使用說明
[0086] 3.1主要功能
[0087] 該程序可以對輸入的革蘭陰性細(xì)菌基因組蛋白質(zhì)序列,對其進(jìn)行分組重量編碼, 并自動提取特征子集,利用內(nèi)置的支持向量機(jī)算法判別其是否為一個外膜蛋白質(zhì)。一次可 以輸入一個不小于50個氨基酸殘基的蛋白質(zhì)序列。該方法不需要任何已知的蛋白質(zhì)結(jié)構(gòu)或 功能信息,是一種應(yīng)用非常方便的Denovo預(yù)測方法。
[0088] 3.2預(yù)測性能
[0089]預(yù)測細(xì)菌基因組內(nèi)外膜蛋白質(zhì)的敏感性達(dá)到95.2%,總體準(zhǔn)確率達(dá)到95.9%,優(yōu) 于國內(nèi)外已經(jīng)報道的其他預(yù)測算法。
[0090] 3.3使用方法和步驟
[0091] 1)登陸web服務(wù)器。該程序的web服務(wù)器網(wǎng)址:
[0092] http://202.202.232.206/EBGW_0MP;
[0093] 或者:http://bioinfo.tmmu.edu.cn/EBGW_OMP,,
[0094] 主頁除了序列輸入文本框意外,還包括四個方面功能:
[0095] 1.Read Me:介紹了本工具的基本功能和應(yīng)用背景知識。
[0096] 2. Data:可以下載本算法所使用的訓(xùn)練數(shù)據(jù)集。
[0097] 3.Citation:引用參考文獻(xiàn)信息
[0098] 4.Contacts:本項目的聯(lián)系方式。
[0099] 2)輸入蛋白質(zhì)序列,
[0100] 進(jìn)入主頁,在頁面上的文本框內(nèi)輸入待預(yù)測的蛋白質(zhì)序列(要求僅僅輸入序列,不 包含其他任何信息)。輸入序列以后,點擊"Submit"即可完成提交。等待服務(wù)器計算完成,預(yù) 測結(jié)果將顯示在該網(wǎng)頁上。期間,網(wǎng)頁會自動刷新。
[0101] 3)計算
[0102] 提交的序列將轉(zhuǎn)到服務(wù)器后臺,完成序列特征計算和SVM分類器判別,用戶需要等 待結(jié)果計算完成。
[0103] 4)預(yù)測結(jié)果查看
[0104]計算完成以后,在網(wǎng)頁上會自動顯示預(yù)測結(jié)果的鏈接,點擊鏈接即可查看預(yù)測結(jié) 果。
[0105]其中,"Your input sequence"顯示用戶輸入的蛋白質(zhì)序列;在蛋白質(zhì)序列信息后 面一行提不了預(yù)測結(jié)果,例如"The protein is an Outer Membrane Protein"表面該蛋白 質(zhì)預(yù)測為一個外膜蛋白;若提不"The protein is NOT an Outer Membrane Protein",則 提示該蛋白質(zhì)預(yù)測為一個非外膜蛋白質(zhì)。
[0106] 3.4程序文件說明
[0107] predict, jsp:后臺獲取蛋白質(zhì)序列并提交到計算程序的JSP程序;
[0108] result, jsp:后臺獲取預(yù)測結(jié)果發(fā)送到前臺網(wǎng)頁顯示的JSP程序;
[0109] 11131:1313(30(16目錄:計算程序的核心11131:1313代碼;其中核心程序為6匕8¥&&_ predict. m,其功能為計算蛋白質(zhì)序列特征并調(diào)用1 ibSVM進(jìn)行預(yù)測;
[0110] libSVM 目錄:libSVM3.12程序;
[0111] dataset目錄:由實驗驗證的細(xì)菌外膜蛋白質(zhì)和非外膜蛋白質(zhì)序列構(gòu)成的訓(xùn)練數(shù) 據(jù)集。
[0112] 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項】
1. 一種可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,該可在細(xì)菌全基 因組水平預(yù)測外膜蛋白質(zhì)的方法為: 利用分組重量編碼算法,計算蛋白質(zhì)序列特征,提取特征向量,建立基于支持向量機(jī)的 分類器,對外膜蛋白質(zhì)和非外膜蛋白質(zhì)進(jìn)行分類,通過web服務(wù)器,接受用戶輸入的細(xì)菌基 因組編碼的蛋白質(zhì)序列,預(yù)測用戶輸入的蛋白質(zhì)序列是否為一個外膜蛋白。2. 如權(quán)利要求1所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,該 可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法具體包括以下步驟: 步驟一、用戶登錄web服務(wù)器主頁,在文本框內(nèi)輸入待預(yù)測的細(xì)菌蛋白質(zhì)序列; 步驟二、服務(wù)器JSP程序獲取用戶輸入的蛋白序列,并在前臺生成結(jié)果輸出頁,不斷刷 新; 步驟三、JSP程序建立結(jié)果保存目錄,并調(diào)用Matlab來運(yùn)行核心預(yù)測程序,計算蛋白質(zhì) 序列分組重量編碼特征、氨基酸組成特征; 步驟四、Matlab程序?qū)⒍囝愄卣饕罁?jù)預(yù)設(shè)方式進(jìn)行特征選擇和組合,產(chǎn)生一個蛋白質(zhì) 特征向量; 步驟五、Matlab程序調(diào)用libSVM程序,使用事先訓(xùn)練好的模型,預(yù)測蛋白質(zhì)是外膜蛋白 的似然率; 步驟六、根據(jù)SVM預(yù)測結(jié)果判斷其是否為一個外膜蛋白,以HTML格式保存到結(jié)果目錄; 步驟七、負(fù)責(zé)結(jié)果輸出的JSP程序不斷查詢結(jié)果保存目錄,確認(rèn)結(jié)果文件是否生成; 步驟八、一旦結(jié)果生成,則JSP程序?qū)⒌鞍仔蛄泻团袛嘟Y(jié)果均顯示在前臺網(wǎng)頁。3. 如權(quán)利要求1所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,所 述分組重量編碼算法即EBGW算法為: 蛋白質(zhì)序列視為20種氨基酸殘基組成的字符串,從氨基酸的疏水性、電荷性質(zhì)方面分 為四組:中性非極性氨基酸61 = {6,4,¥兒,1,^,¥};中性極性氨基酸62={〇^,5,1',¥, C};酸性帶負(fù)電荷的氨基酸G3= {D,E};堿性帶正電荷的氨基酸G4= {H,K,R},兩兩組合,組 合方式為:{G1,G2}和 sn是一條長度為η的蛋白質(zhì)序列,通過定義以下三個映射,將序列A轉(zhuǎn)化為三條0-1進(jìn)制序 列: τΗη)=8?(3?),8?(82)···8?(8η) (i = l,2,3) 其中,記(i = l,2,3),稱T1,!'2,!'3分別為序列A的1-特征序列、2-特征序列、3-特征序列,對于 任意一條特征序列,定義該序列中"Γ出現(xiàn)的次數(shù)為該序列的重量,重量是與序列長度相關(guān) 的一個量,進(jìn)一步定義正規(guī)重量為該序列中"Γ出現(xiàn)的頻率,對于長度為η的特征序列T,其 正規(guī)重量為W(n)=p/n,其中p為序列中"Γ出現(xiàn)的次數(shù),取一個正整數(shù)L,將特征序列T劃分 為L條長度遞增的子序列,記為丁([如/[」貼=1,2 ...,L),其中L·」表示取整運(yùn)算;分別計算 每條子序列的正規(guī)重量,記為機(jī)A7i/L」(A'=1,2 ...,L),得到一個L維的向量,將長度為η的 蛋白質(zhì)序列編碼成為一個L維的向量,將Τ1,Τ2,Τ3三條特征序列向量組合在一起,得到一個 3L維的向量,記為[W1,W2,W3 ] = [W1,W2,…,W3L],稱3L維的向量為序列分組重量特征向量;計 算蛋白質(zhì)Α序列中20種氨基酸的含量,得到一個20維的向量,其中h表示第i種氨基酸殘基 在序列中的含量,為氨基酸組成特征向量;將分組重量特征和氨基酸組成特征進(jìn)行組合,將 一條蛋白質(zhì)序列編碼為一個3L+20維的向量: X= [wi ,W2 , ,W3L,fl ,f2 , ··· ,f2〇] 〇4. 如權(quán)利要求3所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,所 述分組重量編碼算法即EBGW算法中對于一條蛋白質(zhì)序列,分組重量編碼特征反映不同性質(zhì) 的殘基在序列不同區(qū)域出現(xiàn)的頻率,氨基酸組成特征反映不同類型的殘基在整個序列中出 現(xiàn)的頻率。5. 如權(quán)利要求1所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于, web服務(wù)器后臺的JSP程序,將用戶輸入的的蛋白質(zhì)序列輸入mat lab腳本程序,mat lab腳本 程序依據(jù)分組重量編碼算法,采用預(yù)先設(shè)定的參數(shù),從蛋白質(zhì)序列中計算160維分組重量編 碼特征,并同時計算氨基酸組成特征,將二類特征進(jìn)行不同方式的組合,得到一個組合的特 征向量。6. 如權(quán)利要求1所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,所 述提取特征向量方法為:使用F-score得分和反向特征選擇算法挑選有效特征,將挑選出來 的有效特征轉(zhuǎn)換成一個多維的特征向量。7. 如權(quán)利要求1所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,所 述建立基于支持向量機(jī)的分類器,對外膜蛋白質(zhì)和非外膜蛋白質(zhì)進(jìn)行分類的方法為: 利用1 ibSVM3.12建立基于支持向量機(jī)的SVM分類器并將多維特征向量輸入,SVM分類器 包括外膜蛋白和非外膜蛋白訓(xùn)練數(shù)據(jù)集,以及根據(jù)SVM算法建立并使用訓(xùn)練數(shù)據(jù)集訓(xùn)練好 的分類模型、核函數(shù)、參數(shù)。8. 如權(quán)利要求6所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,所 述使用F-score得分篩選有效特征方法為: 對于一個給定的m維訓(xùn)練向量Xk,k=l,2,…,m,若陽性和陰性的訓(xùn)練樣本數(shù)量分別為n+ 和η-,貝lj第i個特征的F-score值計算公式為:這里,分別為第i個特征值的均值、正樣本均值、負(fù)樣本均值,Xk>1(+)表示第 k個陽性樣本的第i個特征值,表示第k個陰性樣本的第i個特征值,分子指出陽性數(shù)據(jù) 集和陰性數(shù)據(jù)集之間的差別,而分母指出兩個數(shù)據(jù)集中每兩個數(shù)據(jù)之間的差別。9. 如權(quán)利要求6所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于,所 述使用反向特征選擇算法挑選有效特征方法為: 進(jìn)行有效特征選擇時,使用反向選擇方法,首先使用全部特征來訓(xùn)練分類模型,每次進(jìn) 行選擇時,在當(dāng)前特征向量中去掉F-score值最小的特征并重新進(jìn)行訓(xùn)練和測試;測試中分 類效果包括分類效果提高和分類效果降低,測試中分類效果為分類效果提高時則舍棄當(dāng)前 特征值,測試中分類效果為分類效果降低時則保留當(dāng)前特征值,重復(fù)這一步驟,直到預(yù)測性 能無法繼續(xù)提高,以此時的結(jié)果作為最終選擇。10.如權(quán)利要求7所述的可在細(xì)菌全基因組水平預(yù)測外膜蛋白質(zhì)的方法,其特征在于, 所述根據(jù)SVM算法建立并使用訓(xùn)練數(shù)據(jù)訓(xùn)練好的分類模型,核函數(shù),參數(shù)中分類模型的構(gòu)建 方法為: 首先從公開的數(shù)據(jù)庫和文獻(xiàn)中收集樣本序列,并采用BLAST算法去除冗余序列,得到外 膜蛋白質(zhì)序列和非外膜蛋白質(zhì)序列作為訓(xùn)練數(shù)據(jù)集,去除冗余序列后的每一條蛋白質(zhì)序列 之間的序列相似度不超過25%,訓(xùn)練SVM分類模型時,SVM核函數(shù)選擇RBF核函數(shù),懲罰因子 參數(shù)使用網(wǎng)格搜索和十倍交叉驗證測試來確定,SVM分類模型使用libSVM中的SVMtrain程 序進(jìn)行訓(xùn)練,使用敏感性、特異性、總預(yù)測精度和馬氏相關(guān)系數(shù)綜合評價預(yù)測性能,最終從 測試結(jié)果中選擇馬氏相關(guān)系數(shù)最優(yōu)的特征組合方式和模型參數(shù),將性能最優(yōu)的模型作為最 終模型輸出保存。
【文檔編號】G06F19/18GK105930687SQ201610228308
【公開日】2016年9月7日
【申請日】2016年4月11日
【發(fā)明人】鄒凌云, 陳抗, 鐘蔚
【申請人】中國人民解放軍第三軍醫(yī)大學(xué)