欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種蛋白質(zhì)模板庫的擴(kuò)充方法及裝置的制造方法

文檔序號(hào):9810885閱讀:535來源:國(guó)知局
一種蛋白質(zhì)模板庫的擴(kuò)充方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,更具體地說,涉及一種蛋白質(zhì)模板庫的擴(kuò)充方法及裝置。
【背景技術(shù)】
[0002]在生命活動(dòng)中,蛋白質(zhì)扮演著關(guān)鍵性的角色,由于通過實(shí)驗(yàn)手段獲取蛋白質(zhì)三維結(jié)構(gòu)的難度和成本很大,因此發(fā)展出了各種蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法。蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法主要分為從頭預(yù)測(cè)和基于模板預(yù)測(cè)兩種類別。相對(duì)來說,基于模板的方法準(zhǔn)確率比較高,這種方法把已知結(jié)構(gòu)的蛋白質(zhì)作為模板,通過序列比對(duì)的方式,參考已知蛋白質(zhì)結(jié)構(gòu)來預(yù)測(cè)未知蛋白質(zhì)結(jié)構(gòu),但存在的一個(gè)問題是難以從模板庫中識(shí)別未知結(jié)構(gòu)序列的遠(yuǎn)程同源序列,制約了預(yù)測(cè)準(zhǔn)確率的提升。遠(yuǎn)程同源序列的識(shí)別,一方面需要有高效精準(zhǔn)的識(shí)別算法,另一方面需要有足夠數(shù)量的模板序列供識(shí)別算法選擇,而目前普遍采用的蛋白質(zhì)序列模板庫中的數(shù)據(jù)都是通過實(shí)驗(yàn)手段測(cè)得結(jié)構(gòu)的蛋白質(zhì)序列,相對(duì)于所有待預(yù)測(cè)序列而言,規(guī)模很小。截止2015年11月,蛋白數(shù)據(jù)庫集UniProtKB中包含的蛋白質(zhì)序列(注釋+未注釋)有5500萬余條,而蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫roBCprotein data bank)中僅包含11萬余個(gè)蛋白質(zhì)結(jié)構(gòu),因此已知結(jié)構(gòu)的序列僅占整個(gè)序列的0.2%不到。基于模板的方法要根據(jù)0.2%不到的已知結(jié)構(gòu)序列來預(yù)測(cè)剩余近99.8 %序列的結(jié)構(gòu),難度可想而知。
[0003]因此,如何擴(kuò)充蛋白質(zhì)模板庫,增加模板庫中蛋白質(zhì)序列的數(shù)量,從而提高蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的精度是現(xiàn)在需要解決的問題。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于提供一種蛋白質(zhì)模板庫的擴(kuò)充方法及裝置,以擴(kuò)充蛋白質(zhì)模板庫,增加模板庫中蛋白質(zhì)序列的數(shù)量,從而提高蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的精度。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供了如下技術(shù)方案:
[0006]—種蛋白質(zhì)模板庫的擴(kuò)充方法,包括:
[0007]從已知結(jié)構(gòu)的原始蛋白質(zhì)模板庫中選擇初始蛋白質(zhì)樣本,并通過序列對(duì)比算法去除所述初始蛋白質(zhì)樣本中相似度較高的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為蛋白質(zhì)樣本;
[0008]通過蛋白質(zhì)分子設(shè)計(jì)算法,設(shè)計(jì)與所述蛋白質(zhì)樣本相對(duì)應(yīng)的蛋白質(zhì)序列,并將設(shè)計(jì)的蛋白質(zhì)序列加入所述原始蛋白質(zhì)模板庫,生成初始擴(kuò)充蛋白質(zhì)模板庫;
[0009]通過序列對(duì)比算法去除所述初始擴(kuò)充蛋白質(zhì)樣本中相似度較高的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為擴(kuò)充蛋白質(zhì)模板庫。
[0010]優(yōu)選的,所述通過蛋白質(zhì)分子設(shè)計(jì)算法,設(shè)計(jì)與所述蛋白質(zhì)樣本相對(duì)應(yīng)的蛋白質(zhì)序列,包括:
[0011]將所述蛋白質(zhì)樣本作為輸入,采用蛋白質(zhì)分子設(shè)計(jì)算法Evodesign對(duì)所述蛋白質(zhì)樣本中的每個(gè)蛋白質(zhì)序列進(jìn)行設(shè)計(jì),生成與每個(gè)蛋白質(zhì)序列相對(duì)應(yīng)的多個(gè)蛋白質(zhì)序列。
[0012]優(yōu)選的,所述從已知結(jié)構(gòu)的原始蛋白質(zhì)模板庫中選擇初始蛋白質(zhì)樣本,包括:
[0013]從已知結(jié)構(gòu)的PDB數(shù)據(jù)庫中選取若干個(gè)折疊作為所述初始蛋白質(zhì)樣本,并根據(jù)所述蛋白質(zhì)樣本的編號(hào),從所述TOB數(shù)據(jù)庫中下載所述蛋白質(zhì)序列。
[0014]優(yōu)選的,通過序列對(duì)比算法去除所述初始蛋白質(zhì)樣本中相似度較高的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為蛋白質(zhì)樣本,包括:
[0015]通過序列對(duì)比算法BLAST去除所述初始蛋白質(zhì)樣本中相似度大于預(yù)定閾值的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為蛋白質(zhì)樣本。
[0016]優(yōu)選的,將最終保留的蛋白質(zhì)序列作為擴(kuò)充蛋白質(zhì)模板庫之后,還包括:
[0017]獲取目標(biāo)蛋白質(zhì)序列;
[0018]利用PS1-BLAST算法在所述擴(kuò)充蛋白質(zhì)模板庫中搜索與所述目標(biāo)蛋白質(zhì)序列相對(duì)應(yīng)的同源蛋白質(zhì)序列,并獲得所述目標(biāo)蛋白質(zhì)序列和所述同源蛋白質(zhì)序列的對(duì)比結(jié)果;
[0019]將所述對(duì)比結(jié)果作為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)軟件包Modeller的輸入,采用多模板的方式預(yù)測(cè)所述目標(biāo)蛋白質(zhì)序列的結(jié)構(gòu)。
[0020]一種蛋白質(zhì)模板庫的擴(kuò)充裝置,包括:
[0021 ]選擇模塊,用于從已知結(jié)構(gòu)的原始蛋白質(zhì)模板庫中選擇初始蛋白質(zhì)樣本;
[0022]第一去除模塊,用于通過序列對(duì)比算法去除所述初始蛋白質(zhì)樣本中相似度較高的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為蛋白質(zhì)樣本;
[0023]設(shè)計(jì)模塊,用于通過蛋白質(zhì)分子設(shè)計(jì)算法,設(shè)計(jì)與所述蛋白質(zhì)樣本相對(duì)應(yīng)的蛋白質(zhì)序列,并將設(shè)計(jì)的蛋白質(zhì)序列加入所述原始蛋白質(zhì)模板庫,生成初始擴(kuò)充蛋白質(zhì)模板庫;
[0024]第二去除模塊,用于通過序列對(duì)比算法去除所述初始擴(kuò)充蛋白質(zhì)樣本中相似度較尚的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為擴(kuò)充蛋白質(zhì)申吳板庫。
[0025]優(yōu)選的,所述設(shè)計(jì)模塊通過蛋白質(zhì)分子設(shè)計(jì)算法,設(shè)計(jì)與所述蛋白質(zhì)樣本相對(duì)應(yīng)的蛋白質(zhì)序列,具體包括:
[0026]將所述蛋白質(zhì)樣本作為輸入,采用蛋白質(zhì)分子設(shè)計(jì)算法Evodesign對(duì)所述蛋白質(zhì)樣本中的每個(gè)蛋白質(zhì)序列進(jìn)行設(shè)計(jì),生成與每個(gè)蛋白質(zhì)序列相對(duì)應(yīng)的多個(gè)蛋白質(zhì)序列。
[0027]優(yōu)選的,所述選擇模塊具體用于:
[0028]從已知結(jié)構(gòu)的PDB數(shù)據(jù)庫中選取若干個(gè)折疊作為所述初始蛋白質(zhì)樣本,并根據(jù)所述蛋白質(zhì)樣本的編號(hào),從所述TOB數(shù)據(jù)庫中下載所述蛋白質(zhì)序列。
[0029]優(yōu)選的,所述第一去除模塊具體用于:
[0030]通過序列對(duì)比算法BLAST去除所述初始蛋白質(zhì)樣本中相似度大于預(yù)定閾值的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為蛋白質(zhì)樣本。
[0031]優(yōu)選的,還包括:
[0032]獲取模塊,用于獲取目標(biāo)蛋白質(zhì)序列;
[0033]同源蛋白質(zhì)序列獲取模塊,用于利用PS1-BLAST算法在所述擴(kuò)充蛋白質(zhì)模板庫中搜索與所述目標(biāo)蛋白質(zhì)序列相對(duì)應(yīng)的同源蛋白質(zhì)序列,并獲得所述目標(biāo)蛋白質(zhì)序列和所述同源蛋白質(zhì)序列的對(duì)比結(jié)果;
[0034]蛋白質(zhì)序列結(jié)構(gòu)預(yù)測(cè)模塊,用于將所述對(duì)比結(jié)果作為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)軟件包Mode 11 er的輸入,采用多模板的方式預(yù)測(cè)所述目標(biāo)蛋白質(zhì)序列的結(jié)構(gòu)。
[0035]通過以上方案可知,本發(fā)明實(shí)施例提供的一種蛋白質(zhì)模板庫的擴(kuò)充方法及裝置,包括:從已知結(jié)構(gòu)的原始蛋白質(zhì)模板庫中選擇初始蛋白質(zhì)樣本,并通過序列對(duì)比算法去除所述初始蛋白質(zhì)樣本中相似度較高的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為蛋白質(zhì)樣本;通過蛋白質(zhì)分子設(shè)計(jì)算法,設(shè)計(jì)與所述蛋白質(zhì)樣本相對(duì)應(yīng)的蛋白質(zhì)序列,并將設(shè)計(jì)的蛋白質(zhì)序列加入所述原始蛋白質(zhì)模板庫,生成初始擴(kuò)充蛋白質(zhì)模板庫;通過序列對(duì)比算法去除所述初始擴(kuò)充蛋白質(zhì)樣本中相似度較高的蛋白質(zhì)序列,將最終保留的蛋白質(zhì)序列作為擴(kuò)充蛋白質(zhì)模板庫,可見,在本實(shí)施例中,通過對(duì)篩選的蛋白質(zhì)樣本進(jìn)行設(shè)計(jì),能擴(kuò)充現(xiàn)有蛋白質(zhì)模板庫,增加模板庫中蛋白質(zhì)序列的數(shù)量,從而提高蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的精度及準(zhǔn)確率。
【附圖說明】
[0036]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0037]圖1為本發(fā)明實(shí)施例公開的一種蛋白質(zhì)模板庫的擴(kuò)充方法流程示意圖;
[0038]圖2為本發(fā)明實(shí)施例公開的一種蛋白質(zhì)模板庫的擴(kuò)充裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0039]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
方山县| 论坛| 广灵县| 汤阴县| 乐业县| 临海市| 哈尔滨市| 丰顺县| 东丽区| 竹溪县| 东光县| 商城县| 聂荣县| 长宁区| 林芝县| 化德县| 塔河县| 阿鲁科尔沁旗| 双辽市| 缙云县| 苏州市| 弋阳县| 英德市| 龙游县| 康定县| 东明县| 绥宁县| 南郑县| 苏尼特右旗| 泰州市| 朔州市| 泰和县| 高雄县| 郯城县| 玛多县| 工布江达县| 四会市| 阿鲁科尔沁旗| 分宜县| 云浮市| 石楼县|