欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種蛋白質(zhì)亞葉綠體多位置預(yù)測方法

文檔序號:9687801閱讀:908來源:國知局
一種蛋白質(zhì)亞葉綠體多位置預(yù)測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于蛋白質(zhì)亞細(xì)胞位置定位預(yù)測領(lǐng)域,尤其設(shè)及一種融合位置間關(guān)系與位 置相關(guān)特征的蛋白質(zhì)亞葉綠體多位置預(yù)測方法。
【背景技術(shù)】
[0002] 葉綠體(Chloroplast)是大部分綠色植物細(xì)胞中的細(xì)胞器,也存在于某些真核生 物體中,如海藻。葉綠體的主要功能是執(zhí)行光合作用,吸收存儲(chǔ)太陽的光能,轉(zhuǎn)化成化學(xué)能, 并且釋放氧氣。除了光合作用外,它們也負(fù)責(zé)合成植物所需的幾乎所有脂肪酸和參與植物 的免疫反應(yīng)。位于葉綠體中的蛋白質(zhì)在運(yùn)些生物過程中起到十分重要的作用,并且在不同 的生物過程中扮演不同的角色,具有不同的功能。由于運(yùn)些葉綠體蛋白質(zhì)的功能和它們的 亞葉綠體位置有十分密切的關(guān)系,因此首先識(shí)別出它們的亞葉綠體位置對于了解它們的功 能很有幫助。
[0003] 過去,研究人員主要專注于在細(xì)胞級別預(yù)測蛋白質(zhì)的位置,提出了大量的方法。運(yùn) 些方法分別從W下4個(gè)方面推進(jìn)了該領(lǐng)域的發(fā)展:
[0004] (1)不斷拓寬了細(xì)胞位置的覆蓋范圍,使亞細(xì)胞位置預(yù)測工具的實(shí)用性大大增強(qiáng)。 最早的一些工作僅覆蓋很少的位置信息。例如,化kashima等人(Nakashima,H. ,Nishikawa, Κ.Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies. Journal of Molecular Biology,1994, 238(1): 54-61)的研究僅僅覆蓋了2個(gè)位置信息,Cedano等人(Cedano,J.,Aloy,P.,P' erez-Pons,J.A.,et al.Relation between amino acid composition and cellular location of proteins.Journal of Molecular Biology, 1997,266:594-600)的工作覆蓋了5個(gè)位置 信息。隨著越來越多的蛋白質(zhì)數(shù)據(jù)可用,位置數(shù)量已經(jīng)增加到了 22個(gè)。
[0005] (2)大大提高了預(yù)測的準(zhǔn)確率。研究人員主要從兩個(gè)方面入手,一是從蛋白質(zhì)序列 中提取具有高度判別能力的特征,二是選用和開發(fā)泛化能力強(qiáng)大的分類器。對于特征提取, 首先采用的是氨基酸組成,然后畑〇u(Chou,K.C.Prediction of protein cellular attributes using pseudo-amino acid composition.Proteins: Structure.Function, and Bioinformatics,2001,43(3): 246-255)又提出了偽氨基酸組成,加入了序列順序影 響。此后,基于畑OU的偽氨基酸組成概念,大量的變體被開發(fā)出來,比如,考慮序列進(jìn)化信 息,功能域組成,基因本體信息。除了提取特征W外,大量的機(jī)器學(xué)習(xí)方法被應(yīng)用到該領(lǐng)域, 最常用的有kNN及其變體,SVM等。
[0006] (3)由于不同物種間蛋白質(zhì)序列和細(xì)胞位置間的差異,比如,葉綠體只存在于植物 細(xì)胞中,而人類等其他動(dòng)物細(xì)胞中卻沒有,因此,有必要為不同的物種開發(fā)??诘念A(yù)測器, W避免得到無意義的預(yù)測結(jié)果。目前,已經(jīng)出現(xiàn)不少的物種專有的預(yù)測器,W化OU和化en開 ^^tlCel l-Ploc(Chou ,Κ. C. , Shen ,Η. B . Cel 1-PLoc : a package of Web servers for predicting subcellular localization of proteins in various organisms.Nature Protocols ,2008,3(2) :153-162)最為著名。
[0007] (4)研究表明,有大量的蛋白質(zhì)定位于多個(gè)細(xì)胞位置,參與執(zhí)行不同的生物功能, 運(yùn)些蛋白質(zhì)對于制藥工程和基礎(chǔ)研究有很重要的意義。因此,開發(fā)出能夠預(yù)測多個(gè)細(xì)胞位 置的方法將十分必要。已經(jīng)有一些方法可W用于預(yù)測蛋白質(zhì)的多亞細(xì)胞位置。
[0008] 隨著對細(xì)胞中細(xì)胞器研究的深入,研究人員發(fā)現(xiàn)了大量的細(xì)胞器亞結(jié)構(gòu),比如,細(xì) 胞核中包含核染色質(zhì)(chromatin)、異染色質(zhì)化eterochromatin),核被膜(nuclear envelope)、核仁(nucleolus)等亞結(jié)構(gòu);線粒體中包含內(nèi)膜(inner membrane)、外膜(outer membrane)等亞結(jié)構(gòu);葉綠體中包含基質(zhì)(shoma)、類囊體(Thylakoid)等亞結(jié)構(gòu)。為了更加 深入了解蛋白質(zhì)的功能,很有必要確定蛋白質(zhì)在細(xì)胞器級別的具體位置。從最近發(fā)布的 化1口'〇1邸/5*133斗'〇1數(shù)據(jù)庫(的16日36 2013_05)了解到,共有14,408個(gè)葉綠體蛋白質(zhì),標(biāo) 注有亞葉綠體位置的蛋白質(zhì)有7,367個(gè),占到總?cè)~綠體蛋白質(zhì)的7,367/14,408 = 51.1 %,而 運(yùn)些亞葉綠體位置標(biāo)注中,經(jīng)過實(shí)驗(yàn)驗(yàn)證的共有6,955個(gè),占到總?cè)~綠體蛋白質(zhì)的6,955/ 14,408 = 48.3%,也就是說,大概一半W上的葉綠體蛋白質(zhì)都沒有明確的亞結(jié)構(gòu)信息標(biāo)注。 細(xì)胞器是相對于細(xì)胞來說更微觀的結(jié)構(gòu)單位,因而實(shí)驗(yàn)確定蛋白質(zhì)的亞細(xì)胞器位置將更加 困難和耗時(shí)。隨著葉綠體蛋白組項(xiàng)目的快速發(fā)展,葉綠體蛋白質(zhì)的數(shù)量和它們的功能之間 的差距將越來越大。為了彌補(bǔ)運(yùn)一差距,同時(shí)由于實(shí)驗(yàn)測定亞細(xì)胞器級的位置更加困難,十 分有必要開發(fā)計(jì)算預(yù)測方法來預(yù)測蛋白質(zhì)的亞葉綠體位置。
[0009] 近年來,已經(jīng)有一些預(yù)測方法可W預(yù)測蛋白質(zhì)的亞-亞細(xì)胞位置,比如,亞細(xì)胞核 位置的預(yù)測(Shen,H.B. ,Chou,K.C.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition.Biochemical and Biophysical Research Communications,2005,337(3): 752-756 ),亞線粒體位置的識(shí)別(Zeng,Y.H.,加 o,Y.Z.,Xiao, R.Q.,et al. Using the augmented chou's pseudo amino acid composition for predicting protein submitochondria locations based on auto covariance 曰ppro曰ch.Journ曰1 of Theoretical Biology,2009,259(2):366-372)。具體到亞葉綠體位置預(yù)測,第一個(gè)工作由 Du等人(Du,P. ,C曰o,S. ,Li,Y.SubChlo:predictin邑 protein subchloropl曰st locations with pseudo-amino acid composition and the evidence-theoretic K-nearest nei曲bo;r(ET-K順)algorithm. Journal of Theoretical Biology,2009,261(2) :330-335) 于2009年完成。他們開發(fā)了一個(gè)基于偽氨基酸組成和ET-K順?biāo)惴ǖ膩喨~綠體位置預(yù)測器。 此后,又有一些其他的研究人員在該領(lǐng)域做了一定的工作。但是,現(xiàn)有的工作都存在W下一 個(gè)重大的缺點(diǎn),即已有工作的預(yù)測方法只能對僅包含單亞葉綠體位置的蛋白質(zhì)數(shù)據(jù)集進(jìn)行 建模,無法對同時(shí)包含單亞葉綠體位置的蛋白質(zhì)和多亞葉綠體位置的蛋白質(zhì)數(shù)據(jù)集進(jìn)行有 效地建模,進(jìn)而導(dǎo)致已有工作的預(yù)測模型只能對待測蛋白質(zhì)預(yù)測出一個(gè)亞葉綠體位置,而 目前已知存在大量的蛋白質(zhì)同時(shí)有多個(gè)亞葉綠體位置,因此,迫切需要設(shè)計(jì)出能夠同時(shí)預(yù) 測出蛋白質(zhì)的多個(gè)亞葉綠體位置的預(yù)測方法。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的無法同時(shí)預(yù)測蛋白質(zhì)的多個(gè)亞葉綠體位置 的缺點(diǎn),提出一種融合位置間關(guān)系與位置相關(guān)特征的蛋白質(zhì)亞葉綠體多位置預(yù)測方法。
[0011] 本發(fā)明是運(yùn)樣實(shí)現(xiàn)的,一種融合位置間關(guān)系與位置相關(guān)特征的蛋白質(zhì)亞葉綠體多 位置預(yù)測方法,包括w下步驟:
[0012] 步驟1、對于待預(yù)測的蛋白質(zhì)序列和訓(xùn)練數(shù)據(jù)集,基于蛋白質(zhì)的氨基酸序列信息, 采用偽氨基酸組成(PseAAC)方法,抽取出待預(yù)測的蛋白質(zhì)序列和訓(xùn)練數(shù)據(jù)集中所有蛋白質(zhì) 序列的特征向量,從而構(gòu)成待預(yù)測樣本集和訓(xùn)練樣本集;
[0013] 步驟2、基于步驟1所構(gòu)建的原始訓(xùn)練樣本集,分別為每個(gè)亞葉綠體位置構(gòu)建新的 訓(xùn)練樣本集。在每個(gè)亞葉綠體位置所對應(yīng)的新訓(xùn)練樣本集中,把屬于該亞葉綠體位置的蛋 白質(zhì)標(biāo)記為正樣本,不屬于該亞葉綠體位置的蛋白質(zhì)標(biāo)記為負(fù)樣本;
[0014] 步驟3、基于步驟2所構(gòu)建的針對每個(gè)亞葉綠體位置的新訓(xùn)練樣本集,分別訓(xùn)練一 個(gè)支持向量機(jī)(SVM)預(yù)測器;
[0015] 步驟4、對于步驟2構(gòu)建的每個(gè)亞葉綠體位置所對應(yīng)的新訓(xùn)練樣本集的每個(gè)蛋白質(zhì) 樣本,除了該新訓(xùn)練樣本集所對應(yīng)的亞葉綠體位置W外,把其他亞葉綠體位置對于該蛋白 質(zhì)樣本的歸屬值追加到該蛋白質(zhì)樣本的特征向量中,蛋白質(zhì)樣本屬于某亞葉綠體位置,歸 屬值設(shè)為1,否則設(shè)為-1,W擴(kuò)展蛋白質(zhì)樣本的特征空間,基于此規(guī)則,分別更新每個(gè)亞葉綠 體位
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
郧西县| 轮台县| 望江县| 西丰县| 库伦旗| 双桥区| 霍山县| 大姚县| 庆元县| 宝应县| 吉隆县| 桓仁| 北安市| 通榆县| 罗江县| 内江市| 鲁山县| 乐都县| 昌邑市| 安新县| 西安市| 鱼台县| 华坪县| 紫金县| 秦安县| 印江| 吉木萨尔县| 襄垣县| 玉龙| 和田市| 阜城县| 雅安市| 温州市| 保德县| 兰坪| 呼和浩特市| 内江市| 治县。| 舞阳县| 友谊县| 宁海县|