欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫的制作方法

文檔序號:9489639閱讀:1287來源:國知局
一種蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫,屬于生物信息學(xué)領(lǐng)域。
【背景技術(shù)】
[0002] 從1940年確定蛋白質(zhì)結(jié)構(gòu)中含有有規(guī)則的螺旋和片狀結(jié)構(gòu)以來,結(jié)構(gòu)生物化學(xué) 家一直在繼續(xù)努力解讀蛋白質(zhì)三維折疊結(jié)構(gòu)。到目前為止(2015年),全球共享的蛋白質(zhì)數(shù) 據(jù)庫(PDB)已經(jīng)積累了將近十二萬以上的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)^目前對蛋白質(zhì)空間三維 構(gòu)象的解析只局限于二級結(jié)構(gòu)和一些簡單鏈接^^'^^^''對于大約仙^左右的 無不規(guī)則的三級結(jié)構(gòu)的解析基本上處于空白 14'15'16。目前全球蛋白質(zhì)數(shù)據(jù)庫對已知蛋白結(jié) 構(gòu)的解析只局限到二級結(jié)構(gòu),對無規(guī)則的三級結(jié)構(gòu)只能用直線段表示。完全解讀蛋白質(zhì)結(jié) 構(gòu),包括了解蛋白質(zhì)的三級結(jié)構(gòu),對于蛋白質(zhì)的生物功能和活性,以及生物醫(yī)藥研究和藥物 設(shè)計具有重要意義。
[0003] 蛋白質(zhì)的三維空間結(jié)構(gòu)可以通過X射線晶體學(xué)或者核磁共振技術(shù)來測定的。如何 直接從一個蛋白質(zhì)三維圖像或者原始數(shù)據(jù)提取信息是十分困難的問題。如何從蛋白質(zhì)數(shù)據(jù) 庫已經(jīng)積累的大量數(shù)據(jù)中提取信息就是一個更困難的問題。蛋白結(jié)構(gòu)生物化學(xué)家所面臨的 關(guān)鍵問題之一是如何完整地描述蛋白質(zhì)的折疊構(gòu)象。另外,蛋白質(zhì)的氨基酸序列和空間構(gòu) 象和其生物功能密切相關(guān)。如何將蛋白質(zhì)的氨基酸序列和空間構(gòu)象和其生物功能相關(guān)起 來,也是一個很有意義的課題。由于蛋白結(jié)構(gòu)的復(fù)雜性,完全理解某個蛋白結(jié)構(gòu)已經(jīng)不是容 易的課題。目前蛋白質(zhì)數(shù)據(jù)庫(PDB)已經(jīng)積累了豐富的數(shù)據(jù),如何從大量的蛋白數(shù)據(jù)中提 取和發(fā)現(xiàn)有意義的信息支持生物醫(yī)藥研究面臨巨大的挑戰(zhàn)。為了解決這些問題,發(fā)明人在 專利ZL200880003164. 2中用27個蛋白質(zhì)折疊形狀碼來描述蛋白質(zhì)中連續(xù)的五個氨基酸的 結(jié)構(gòu)。在此基礎(chǔ)上,依據(jù)全球蛋白數(shù)據(jù)庫(PDB)的全部數(shù)據(jù),本發(fā)明建立了一個全新的蛋白 質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫(PSF-PDB)。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供的蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫,包含四條蛋白結(jié)構(gòu)指紋。蛋白質(zhì)結(jié)構(gòu)的指 紋(PSF)是將蛋白質(zhì)的結(jié)構(gòu)信息轉(zhuǎn)化為由字符串組成的指紋表示。主要有四條指紋:氨基 酸序列,蛋白質(zhì)折疊形狀碼,物理化學(xué)性質(zhì)和向量偶合組成。
[0005] 1.氨基酸序列
[0006] 蛋白質(zhì)是由20個氨基酸的不同排序組成的多肽生物分子。蛋白質(zhì)由幾十個甚至 到上千個氨基酸排序組成。蛋白質(zhì)的每個殘基可以由單字母的氨基酸表示。構(gòu)成指紋代表 其一級結(jié)構(gòu)。
[0007] 2.蛋白質(zhì)折疊形狀碼(PFSC)
[0008] 在專利ZL200880003164. 2中,發(fā)明人開發(fā)的蛋白質(zhì)折疊形狀碼(PFSC),為描述蛋 白結(jié)構(gòu)指紋創(chuàng)立了基礎(chǔ)。通過數(shù)學(xué)推導(dǎo)得到一組27向量,這組向量能夠覆蓋任何五個連續(xù) 氨基酸殘基所有可能的折疊形狀。用26英文字母加上符號形成27蛋白質(zhì)折疊形狀碼 (PFSC),與27個向量一一對應(yīng)。因此,任何已知具有三維結(jié)構(gòu)的蛋白質(zhì)可以轉(zhuǎn)化為一維的PFSC字母表示。對于蛋白質(zhì)結(jié)構(gòu),PFSC碼的表達可以從N-端開始至C-端結(jié)束,涵蓋每5 個氨基酸的折疊構(gòu)象,沒有任何遺漏和缺失,包括二級結(jié)構(gòu)片段和三級結(jié)構(gòu)片段。最重要的 特點是,所有27PFSC向量具有相關(guān)性,可以對蛋白質(zhì)構(gòu)象的相似性進行定量評價。
[0009] 3.物理化學(xué)性質(zhì)
[0010] 每一個氨基酸殘基的主要性能取決于側(cè)鏈的功能。側(cè)鏈的性質(zhì)大致分為七類,如 疏水性,酸性或堿性和其他特殊功能基團,并且每個屬性由單字母代表其功能。物理化性質(zhì) 用7個字符分別表示。極性用N表示,電性S,酸性A,堿性B,芳香性0,親水性H,憎水性P。
[0011] 4.向量偶合
[0012] 每5個氨基酸的肽段形成折疊構(gòu)象。每個肽段的兩端可以分別具有不同的折疊特 征,螺旋折疊用a表示,片狀折疊用b表示,無規(guī)則折疊用*表示。因此可定義9種向量:a- >a,b->b,a->b,b一>a, *->a,a一>*, *一>b,b一>*,*一>*。相鄰的兩個向量共用四個 氨基酸形成向量親合。例如,V折疊碼的向量是b-〉a,A折疊碼的向量是a-〉a。a表示螺 旋特征,b表示片狀特征。VA兩個向量偶合即b-〉aa-〉a。這個向量偶合說明V向量的C 端是螺旋特征,A向量的N端也是螺旋特征,這兩個向量很好的共用之間的4個氨基酸。再 舉例說明,BVA折疊碼的連接,用向量表示為b->bb一>aa一>a。
[0013] 本發(fā)明的蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫,還可以包括一條指紋:支鏈幾何空間。每一個氨 基酸殘基的側(cè)鏈空間大小不相同,而且空間旋轉(zhuǎn)柔性不相同。采用單字母代表氨基酸殘基 的側(cè)鏈空間的性質(zhì)。大的側(cè)鏈用L表示,小側(cè)鏈S,非常小側(cè)鏈T,不能旋轉(zhuǎn)H。
[0014] 所述蛋白質(zhì)折疊形狀碼,為27個,對應(yīng)27個描述五個連續(xù)氨基酸殘基的折疊形狀 的向量。
[0015] 在蛋白質(zhì)結(jié)構(gòu)的指紋(PSF)基礎(chǔ)上,我們將全球共享蛋白數(shù)據(jù)庫(PDB)中超過 十一萬蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)全部轉(zhuǎn)化為蛋白質(zhì)結(jié)構(gòu)的指紋(PSF),構(gòu)建了全球唯一蛋白結(jié)構(gòu)指 紋數(shù)據(jù)庫(PSF-PDB)。
[0016] 對于每一個蛋白質(zhì)結(jié)構(gòu),全球共享蛋白數(shù)據(jù)庫(PDB)中通常需要數(shù)千行的數(shù)據(jù)來 表示,到目前(2015年7月)為止,11萬蛋白結(jié)構(gòu)在計算機需要大約63兆(G)的儲存空間, 數(shù)據(jù)量大,檢索困難。在本發(fā)明提供的蛋白結(jié)構(gòu)指紋數(shù)據(jù)庫中,每一個蛋白只有要四行或五 行文字描述,計算機總共只需要大約0.325兆(G)的儲存空間,儲存空間壓縮到二百分之 一。因此,大大減少了數(shù)據(jù)儲存量,加快了檢索速度,擺脫必須依賴超級大型計算機或者大 量計算機組合資源的局面,可以實現(xiàn)個人電腦運作。
【附圖說明】
[0017] 圖1,蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫格式:只有五行的數(shù)據(jù)。
[0018] 圖2,舒尼替尼藥物蛋白結(jié)合靶點區(qū):高通量篩選過程中,對蛋白指紋相似性的定 量評分。
[0019] 圖3,舒尼替尼藥物蛋白結(jié)合靶點區(qū):依據(jù)蛋白指紋對比評分實現(xiàn)高通量篩選。
【具體實施方式】
[0020] 本發(fā)明提供的蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫,包含四條表示蛋白結(jié)構(gòu)指紋的字符串,由 氨基酸序列,蛋白質(zhì)折疊形狀碼,物理化學(xué)性質(zhì)和向量偶合組成。
[0021] 1)氨基酸序列,由表示組成蛋白質(zhì)的氨基酸的字母串組成,代表其一級結(jié)構(gòu);
[0022] 2)蛋白質(zhì)折疊形狀碼
[0023] 所述蛋白質(zhì)折疊形狀碼,為27個,由26英文字母加上"$"符號組成,對應(yīng)27個描 述五個連續(xù)氨基酸殘基的折疊形狀的向量;
[0024] 3)物理化學(xué)性質(zhì)
[0025] 表示每一個氨基酸殘基側(cè)鏈的物理化性質(zhì),用7個字符分別表示,極性用N表示, 電性S,酸性A,堿性B,芳香性0,親水性H,憎水性P;
[0026] 4)向量偶合
[0027] 每5個連續(xù)氨基酸形成的肽段的兩端分別具有不同的折疊特征,螺旋折疊用a表 示,片狀折疊用b表示,無規(guī)則折疊用*表示,定義9種向量:a->a,b->b,a->b,b- >a,*一〉a,a- >*,*一〉b,b- >*,*一>*來描述每個肽段的折疊特征,相鄰的兩個肽段共用 四個氨基酸形成向量耦合。
[0028] 還可以包括一條結(jié)構(gòu)指紋:支鏈幾何空間。表示每一個氨基酸殘基的側(cè)鏈空間大 小,大的側(cè)鏈用L表示,小側(cè)鏈S,非常小側(cè)鏈T,不能旋轉(zhuǎn)Η;
[0029] 2)中的蛋白質(zhì)折疊形狀碼,對應(yīng)27個描述五個連續(xù)氨基酸殘基的折疊形狀的向 量。如同在專利ZL200880003164. 2中描述,所述向量通過以下方法構(gòu)建:
[0030]Α)取蛋白質(zhì)中每五個連續(xù)的氨基酸作為一個基本單元;
[0031]Β)計算每個基本單元中的第一個二面角,該二面角是第一,第二,第三個氨基酸決 定的平面與第二、第三、第四個氨基酸決定的平面的夾角;該二面角為al,a2,a3所確定的 范圍之一;
[0032] C)計算每個基本單元中的第二個二面角,該二面角是第二、第三、第四個氨基酸決 定的平面與第三、第四、第五個氨基酸決定的平面的夾角,該二面角為bl,b2,b3所確定的 范圍之一;
[0033] D)計算每個基本單元中的第一與第五個氨基酸之間的伸張距離,所述伸張距離為 cl,c2,c3所確定的范圍之一;
[0034]E)依據(jù)步驟B,C,D得到的數(shù)值確定每個基本單元的向量。
[0035]所述al從 0。~130。,a2 從 130。~-130。,a3 從-130。~0。;bl從 0。~ 130°,b2 從 130° ~-130°,b3 從-130° ~0°;cl從 0 ~7.0 埃,c2 從 4.0 ~17 埃,c3 大于12埃。
[0036] 蛋白質(zhì)三維空間結(jié)構(gòu)原始數(shù)據(jù)需要數(shù)百行到千行的數(shù)據(jù)描述一個蛋白結(jié)構(gòu)。而采 用本發(fā)明蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫只需要5行指紋數(shù)據(jù)就描述蛋白結(jié)構(gòu)特征。如圖1所示。 因此,對數(shù)十萬個蛋白結(jié)構(gòu),蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫儲存空間得到減少,更重要的是可以大 大節(jié)省時間,對蛋白大數(shù)據(jù)實現(xiàn)高通量檢索。
[0037] 另外一個例子說明如何運用蛋白質(zhì)結(jié)構(gòu)指紋數(shù)據(jù)庫對蛋白大數(shù)據(jù)實現(xiàn)高通量篩 選,可以通過指紋相似性分?jǐn)?shù),對蛋白空間結(jié)構(gòu)進行歸一化的定量評估。這些依據(jù)蛋白原始 數(shù)據(jù)或者圖像分析根本做不到。圖2顯示高通量篩選過程中,對舒尼替尼藥物蛋白結(jié)合靶 點區(qū)的蛋白指紋相似性進行定量評分。圖3顯示依據(jù)蛋白指紋相似性評分,實現(xiàn)藥物靶標(biāo) 的高通量篩選。
[0038] 本發(fā)明將全球共享蛋白
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
和静县| 都昌县| 诸城市| 台中市| 乌兰察布市| 上杭县| 威信县| 崇阳县| 朝阳区| 延寿县| 临西县| 共和县| 翁源县| 北流市| 新昌县| 望江县| 甘肃省| 灌云县| 长寿区| 边坝县| 苏尼特左旗| 郸城县| 白银市| 太和县| 浮梁县| 江山市| 聂拉木县| 铜梁县| 治多县| 宜章县| 河东区| 孝感市| 青龙| 余干县| 靖西县| 比如县| 和平区| 湛江市| 太谷县| 温泉县| 绥芬河市|