一種藥物靶標(biāo)的高通量檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種藥物靶標(biāo)的高通量檢索方法,屬于生物信息學(xué)領(lǐng)域。
【背景技術(shù)】
[0002] 盡管大多數(shù)藥物具有較高的選擇性,任何藥物進(jìn)入人體或者動(dòng)物體內(nèi)都具有與多 個(gè)蛋白結(jié)合的潛在能力。傳統(tǒng)方法是通過體外和體內(nèi)的生物實(shí)驗(yàn)的方法檢測(cè)和預(yù)測(cè)藥物的 蛋白靶標(biāo)。從設(shè)計(jì)到實(shí)施這些實(shí)驗(yàn),都需要消耗大量的時(shí)間和資源U'3。生物醫(yī)藥研究已經(jīng) 認(rèn)識(shí)到,運(yùn)用計(jì)算機(jī)和大數(shù)據(jù)的方法可以為這些生物實(shí)驗(yàn)提高先導(dǎo)信息。這樣可以避免研 究彎路,節(jié)約大量的時(shí)間和研究成本。到目前為止,全球共享的蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)已經(jīng)積 累了大約110, 〇〇〇以上的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù),許多蛋白質(zhì)和配位體分子相互結(jié)合形成復(fù) 合物。因此蛋白數(shù)據(jù)庫(kù)中包含數(shù)百個(gè)藥物分子和數(shù)千個(gè)其它化學(xué)分子 4'5??梢赃\(yùn)用這些信 息來發(fā)現(xiàn)藥物新靶標(biāo),理解藥物的作用機(jī)理,支持新藥研發(fā),開拓已知藥物的多功效,以及 開發(fā)檢測(cè)疾病分子的試劑等等 6。
[0003] 藥物分子與蛋白質(zhì)受體相互作用的靶點(diǎn)區(qū)域通常像一個(gè)口袋,被稱為結(jié)合口袋。 結(jié)合口袋往往用分子模型來表示圍繞藥物分子周圍的狀態(tài),包括空腔的大小,空間構(gòu)象和 物理化學(xué)性質(zhì)。研究藥物結(jié)合口袋的狀態(tài)可以運(yùn)用各種工具在計(jì)算機(jī)上直接操作可視的分 子模型。此外,藥物的結(jié)合口袋可以通過圖像展示,或者通過文字詳細(xì)描述,這也是目前最 為廣泛流行的方式。具有挑戰(zhàn)性的任務(wù)是如何開發(fā)有效的工具來描述藥物結(jié)合口袋的特 征。這些方法大致分為三類。首先,在結(jié)合藥物的氨基酸序列尋找模式的基礎(chǔ)上,直接找到 一些方法。例如,Sheinerman等人運(yùn)用CSA數(shù)據(jù)庫(kù)提供了兩到六個(gè)殘基從酶的催化殘基的 主題模板7。研究了八個(gè)激酶抑制劑的序列變異,并觀察到每個(gè)抑制劑的所有高親和力的目 標(biāo)有類似的殘基在特定的位置重要的結(jié)合。然而,在另一方面,一些研究發(fā)現(xiàn),許多小分子 抑制多個(gè)激酶和共享小的整體序列相似性m'11"11。其次,一些方法采用了表面上的貢獻(xiàn),根 據(jù)每個(gè)原子的范德瓦爾斯半徑,目前的結(jié)合口袋,這可能是定量測(cè)量的幾何形狀的結(jié)合口 袋 12'13'14〇第三,一些方法提出的結(jié)合藥物的物理化學(xué)性質(zhì)。cavbase應(yīng)用pseudospheres 代表參與分子結(jié)合口袋的原子的位置和理化性質(zhì)15'16。靜電表面的有效位置圖,其疏水性和 靜電勢(shì)的表面上的補(bǔ)丁的曲率表示。這些方法確實(shí)能描述藥物結(jié)合口袋,但它們很難適用 于對(duì)大量的蛋白質(zhì)數(shù)據(jù)庫(kù)中的結(jié)構(gòu)篩選。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術(shù)問題是提供一種藥物靶標(biāo)的高通量檢索方法。
[0005] 發(fā)明人在之前專利ZL200880003164. 2中,開發(fā)了蛋白質(zhì)折疊形狀碼(PFSC),為描 述蛋白結(jié)構(gòu)指紋創(chuàng)立了基礎(chǔ)。通過數(shù)學(xué)推導(dǎo)得到一組27向量,這組向量能夠覆蓋任何五個(gè) 連續(xù)氨基酸殘基所有可能的折疊形狀。用26英文字母加上符號(hào)形成27蛋白質(zhì)折疊形 狀碼(PFSC),與27個(gè)向量一一對(duì)應(yīng)。因此,任何已知具有三維結(jié)構(gòu)的蛋白質(zhì)可以轉(zhuǎn)化為一 維的PFSC字母表示。對(duì)于蛋白質(zhì)結(jié)構(gòu),PFSC碼的表達(dá)可以從N-端開始至C-端結(jié)束,涵蓋 每5個(gè)氨基酸的折疊構(gòu)象,沒有任何遺漏和缺失,包括二級(jí)結(jié)構(gòu)片段和三級(jí)結(jié)構(gòu)片段。最重 要的特點(diǎn)是,所有27PFSC向量具有相關(guān)性,可以對(duì)蛋白質(zhì)構(gòu)象的相似性進(jìn)行定量評(píng)價(jià)。
[0006] 在蛋白質(zhì)折疊形狀碼的基礎(chǔ)上17,發(fā)明人新近開發(fā)的藥物靶標(biāo)檢索技術(shù)(PBSDD) 可以高通量檢索蛋白質(zhì)數(shù)據(jù)庫(kù),發(fā)現(xiàn)藥物的多蛋白靶標(biāo)。
[0007] 本發(fā)明的藥物靶標(biāo)的高通量檢索方法,包括如下步驟:
[0008] 1)以藥物和標(biāo)靶的復(fù)合體為參考,定義藥物結(jié)合口袋:首先,定義距離藥物分子 的每一個(gè)原子3埃的殘基片段,接著,根據(jù)氫鍵相互作用或范德瓦爾斯相互作用,定義關(guān)鍵 殘基片段,每一個(gè)殘基片段需要含有一個(gè)關(guān)鍵殘基片段,關(guān)鍵殘基片段的長(zhǎng)度等于五個(gè)氨 基酸;
[0009] 2)將結(jié)合口袋中的所有片段用蛋白質(zhì)的結(jié)構(gòu)指紋表示(PSF),蛋白質(zhì)的結(jié)構(gòu)指紋 包括氨基酸序列,蛋白質(zhì)折疊形狀碼,物理化學(xué)性質(zhì)和向量偶合;
[0010] 3)輸入數(shù)字化的藥物結(jié)合口袋,檢索全球已知蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù),進(jìn)行指紋比對(duì)和 定量評(píng)估,然后按照指紋相似性從高到低排列;
[0011] 4)選擇蛋白折疊碼的相似性分?jǐn)?shù)和氨基酸物理化性質(zhì)的相似性得分同時(shí)處于前 2千名的結(jié)構(gòu)蛋白為可能靶點(diǎn)區(qū),分析和預(yù)測(cè)藥物的可能靶標(biāo)蛋白。
[0012] 步驟1)中所述的藥物和標(biāo)靶的復(fù)合體,是藥物和已知標(biāo)靶的復(fù)合體,也可以是藥 物與通過軟件篩選出的標(biāo)靶的復(fù)合體。
[0013] 所述蛋白質(zhì)折疊形狀碼,對(duì)應(yīng)27個(gè)描述五個(gè)連續(xù)氨基酸殘基的折疊形狀的向量。 如同在專利ZL200880003164. 2中描述,所述向量通過以下方法構(gòu)建:
[0014]A)取蛋白質(zhì)中每五個(gè)連續(xù)的氨基酸作為一個(gè)基本單元;
[0015]B)計(jì)算每個(gè)基本單元中的第一個(gè)二面角,該二面角是第一,第二,第三個(gè)氨基酸決 定的平面與第二、第三、第四個(gè)氨基酸決定的平面的夾角;該二面角為al,a2,a3所確定的 范圍之一;
[0016]C)計(jì)算每個(gè)基本單元中的第二個(gè)二面角,該二面角是第二、第三、第四個(gè)氨基酸決 定的平面與第三、第四、第五個(gè)氨基酸決定的平面的夾角,該二面角為bl,b2,b3所確定的 范圍之一;
[0017] D)計(jì)算每個(gè)基本單元中的第一與第五個(gè)氨基酸之間的伸張距離,所述伸張距離為 cl,c2,c3所確定的范圍之一;
[0018]E)依據(jù)步驟B,C,D得到的數(shù)值確定每個(gè)基本單元的向量。
[0019]所述al從 0。~130。,a2 從 130。~-130。,a3 從-130。~0。;bl從 0。~ 130°,b2 從 130° ~-130°,b3 從-130° ~0°;cl從 0 ~7.0 埃,c2 從 4.0 ~17 埃,c3 大于12埃。
[0020] 步驟2)中所述物理化學(xué)性質(zhì)表示每一個(gè)氨基酸殘基側(cè)鏈的物理化性質(zhì),用7個(gè)字 符分別表示,極性用N表示,電性S,酸性A,堿性B,芳香性0,親水性H,憎水性P;
[0021] 步驟2)中所述向量耦合,每5個(gè)連續(xù)氨基酸形成的肽段的兩端分別具有不同的折 疊特征,螺旋折疊用a表示,片狀折疊用b表示,無規(guī)則折疊用*表示,定義9種向量:a- >a,b->b,a->b,b一>a, *一>a,a一>*, *一>b,b一>*,*一>* 來描述每個(gè)肽段的折疊特征, 相鄰的兩個(gè)肽段共用四個(gè)氨基酸形成向量耦合。例如,V折疊碼的向量是b-〉a,A折疊碼 的向量是a->a。a表示螺旋特征,b表示片狀特征。VA兩個(gè)向量偶合即b->aa一>a。這 個(gè)向量偶合說明V向量的C端是螺旋特征,A向量的N端也是螺旋特征,這兩個(gè)向量很好的 共用之間的4個(gè)氨基酸。
[0022] 對(duì)大量蛋白結(jié)構(gòu)數(shù)據(jù)進(jìn)行檢索,相似性的定量評(píng)價(jià)是至關(guān)重要的。對(duì)大量蛋白質(zhì) 結(jié)構(gòu)比對(duì),需要一個(gè)統(tǒng)一的相似性的評(píng)分標(biāo)準(zhǔn)。關(guān)于氨基酸序列比對(duì),已經(jīng)有許多方法可以 很好地定量評(píng)估其相似性。最困難的是關(guān)于蛋白質(zhì)三維空間結(jié)構(gòu)相似性的定量評(píng)估。蛋 白質(zhì)折疊結(jié)構(gòu)對(duì)齊(PFSA)提供了一種比較蛋白質(zhì)結(jié)構(gòu)的相似性得分方法。每一個(gè)蛋白質(zhì) 采用蛋白折疊形狀碼來表達(dá)空間構(gòu)象。蛋白質(zhì)折疊形狀碼對(duì)齊后,對(duì)每一個(gè)對(duì)應(yīng)的蛋白折 疊碼進(jìn)行比對(duì)。如果蛋白折疊碼相同得2分,如果蛋白折疊碼相似得1分(定義每個(gè)蛋白 折疊碼與其空間上相鄰近的蛋白折疊碼相似,如圖6所示,蛋白折疊碼"A"與其相鄰近的 "H,D,V,L,Y,P"相似,蛋白質(zhì)折疊碼"B"與其相鄰近的"E,G,V,J,M,S"相似",詳細(xì)打分情況 見圖5),如果蛋白折疊碼不相同或相似得0分。然后將分?jǐn)?shù)加合進(jìn)行歸一化處理,將總分值 (PFSA-S)數(shù)值規(guī)范在一和零之間。運(yùn)用PFSA相似性分?jǐn)?shù)(PFSA-S)標(biāo)記相似性。相同的 蛋白質(zhì)結(jié)構(gòu)其PFSA-S數(shù)值是一。相似性較高的片段得分較高,沒有任何相似性數(shù)值為零。 接著,根據(jù)氨基酸物理化性質(zhì)進(jìn)行相似性估計(jì)和打分。蛋白折疊碼的相似性分?jǐn)?shù)和氨基酸 物理化性質(zhì)的相似性得分分別獨(dú)立處理。全球蛋白數(shù)據(jù)庫(kù)的十二萬蛋白結(jié)構(gòu)可以產(chǎn)生將近 五百萬的指紋。檢索之后只保留高分?jǐn)?shù)段的一萬個(gè)指紋。在高分?jǐn)?shù)段中,蛋白折疊碼的相 似性分?jǐn)?shù)和氨基酸物理化性質(zhì)的相似性得分同時(shí)處于前2千名的結(jié)構(gòu)蛋白可以確認(rèn)為可 能靶點(diǎn)區(qū)。向量耦合可以幫助進(jìn)一步分析篩選。
[0023]氨基酸物理化性質(zhì)的相似性估計(jì)和打分按如下步驟來進(jìn)行:首先對(duì)氨基酸的側(cè)鏈 極性、側(cè)鏈電荷數(shù)、酸堿性、芳香性以及親疏水性等5個(gè)屬性按照如下公式來打分:
[0024]
[0025] 其中,PC⑴-S指每個(gè)氨基酸屬性的得分,IDR指相同氨基酸的殘基數(shù),IDP:指性 質(zhì)相同但氨基酸不同的殘基數(shù),ANP指不同性質(zhì)且氨基酸不相同的殘基數(shù)。然后使用以下 公式對(duì)得到的5個(gè)PC(i)_S得分取平均值取得到氨基酸物理化性質(zhì)相似性得分。
[0026]
[0027]本發(fā)明具有的有益效果在于:
[0028] 1.將藥物結(jié)合靶點(diǎn)轉(zhuǎn)化為數(shù)字化的蛋白結(jié)構(gòu)指紋表達(dá)。這樣為開發(fā)計(jì)算機(jī)編碼方 法,儲(chǔ)存,分析數(shù)據(jù),評(píng)估藥物靶標(biāo)創(chuàng)造了基礎(chǔ)條件。
[0029] 2.可以對(duì)藥物結(jié)合蛋白靶點(diǎn)進(jìn)行定量化評(píng)估。這和目前對(duì)蛋白結(jié)合靶點(diǎn)的描述停 留在圖形化展示和文字定性上完全不同。
[0030] 3.對(duì)藥物蛋白靶點(diǎn)的定量化評(píng)估提供了統(tǒng)一的評(píng)估方法,過程具有普遍適用性, 產(chǎn)生的結(jié)果數(shù)據(jù)先后一致性。解決了蛋白不同參數(shù)不同,不同人不同處理方法的問題。
[0031] 4.實(shí)現(xiàn)了通過高通量篩選蛋白數(shù)據(jù)發(fā)現(xiàn)藥物靶標(biāo)的可能。由于該方法的建立,極 大地加速了對(duì)大數(shù)據(jù)庫(kù)的檢索。對(duì)全球共享的蛋白數(shù)據(jù)庫(kù)的檢索,其它方法在超級(jí)計(jì)算機(jī) 運(yùn)作需要幾年時(shí)間完成。同樣工作量,采用我們的結(jié)構(gòu)指紋檢索技術(shù)在個(gè)人計(jì)算機(jī)上大約 需要12小時(shí)。因此,藥物蛋白結(jié)構(gòu)靶點(diǎn)指紋技術(shù)使充分運(yùn)用全球蛋白數(shù)據(jù)庫(kù)中已經(jīng)積累的 大量數(shù)據(jù)變?yōu)楝F(xiàn)實(shí)。
[0032] 5.不僅僅適用于藥物分子蛋白靶標(biāo)的預(yù)測(cè),還可以用于任何小分子化合物的蛋白 靶標(biāo)篩選用于支持藥物研發(fā)設(shè)計(jì),以及針對(duì)疾病的檢測(cè)分子開發(fā)。
【附圖說明】
[0033] 圖1,舒尼替尼藥物分子的靶點(diǎn)蛋白結(jié)構(gòu)指紋定義。
[0034]圖2,運(yùn)用相似性分?jǐn)?shù)為判據(jù),篩選出相似性高的蛋白靶標(biāo)進(jìn)行分析。
[0035] 圖3,對(duì)于篩選蛋白結(jié)構(gòu)的蛋白折疊碼對(duì)齊比對(duì)。
[0036] 圖4,對(duì)于篩選蛋白結(jié)構(gòu)的蛋白三維結(jié)構(gòu)空間比對(duì)。
[0037] 圖5,PFSA打分矩陣。
[0038] 圖6, 27個(gè)PFSC碼空間分布圖