本發(fā)明屬于生物醫(yī)學(xué)、計(jì)算化學(xué)和人工智能領(lǐng)域,尤其涉及一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法。
背景技術(shù):
1、設(shè)計(jì)具有特定性質(zhì)的藥物是現(xiàn)代藥物開(kāi)發(fā)中不可或缺的重要部分。各種傳統(tǒng)計(jì)算方法如虛擬篩選和組合庫(kù),被用于在廣闊的化學(xué)空間中搜索候選藥物,但這些方法的效果受到化合物數(shù)據(jù)庫(kù)覆蓋范圍和合成方案多樣性的限制。而且,潛在的類(lèi)藥物分子的數(shù)量估計(jì)在1060到10100之間,探索這個(gè)幾乎無(wú)限的化學(xué)空間是一個(gè)十分艱巨的任務(wù)。此外,仍有許多潛在的藥物分子未被記錄在現(xiàn)有數(shù)據(jù)庫(kù)中,從而限制了傳統(tǒng)方法結(jié)果的多樣性。因此,基于深度學(xué)習(xí)進(jìn)行藥物設(shè)計(jì)的方法備受關(guān)注。
2、近年來(lái),深度學(xué)習(xí),特別是生成模型,包括循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)、transformer、流模型(flow)、變分自動(dòng)編碼器(vae)和擴(kuò)散模型(diffusion?model)等,已成為藥物設(shè)計(jì)中十分重要的工具。通過(guò)學(xué)習(xí)分子結(jié)構(gòu)的特征和分布,這些模型可以生成與訓(xùn)練數(shù)據(jù)相似或具有特定靶標(biāo)和性質(zhì)的新分子。一些一維(1d)或二維(2d)分子生成方法在化學(xué)結(jié)構(gòu)的有效性或物理化學(xué)性質(zhì)的優(yōu)化方面取得了可接受的結(jié)果,但它們基于1d的簡(jiǎn)化分子線性輸入規(guī)范(smiles)或2d分子圖數(shù)據(jù),無(wú)法有效利用三維(3d)空間信息,而3d空間信息在確定分子特性方面起著至關(guān)重要的作用。因此,已經(jīng)有一些基于3d信息生成分子的方法被提出。例如,一些方法使用結(jié)合口袋的3d上下文信息進(jìn)行基于結(jié)構(gòu)的配體設(shè)計(jì),明確考慮了包括靶蛋白在內(nèi)的化學(xué)信息,以在蛋白質(zhì)結(jié)合口袋內(nèi)生成新的配體分子。
3、但是,目前的分子生成方法仍存在一定不足。特別是大多數(shù)基于深度學(xué)習(xí)的分子生成方法只能設(shè)計(jì)針對(duì)單一靶點(diǎn)的藥物。然而,許多疾病,特別是多基因疾病,表現(xiàn)出復(fù)雜的病理機(jī)制,涉及多個(gè)基因和生物途徑。雖然聯(lián)合療法可以提供一些解決方案,但多藥理學(xué)方法具有不可替代的優(yōu)勢(shì),例如更優(yōu)越的藥代動(dòng)力學(xué)和安全性、更低可能的獲得性耐藥和藥物相互作用風(fēng)險(xiǎn)以及更簡(jiǎn)化的治療方案。因此,針對(duì)單一靶點(diǎn)的藥物可能不足以治療這些復(fù)雜的疾病,需要采用全面的多靶點(diǎn)方法進(jìn)行有效的干預(yù)和治療。然而,由于候選藥物的多種特性難以被同時(shí)考慮,生成針對(duì)多個(gè)特定靶點(diǎn)、具有所需特性的高質(zhì)量藥物仍然是藥物發(fā)現(xiàn)的長(zhǎng)期目標(biāo)。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問(wèn)題,本發(fā)明提出了一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,以解決上述現(xiàn)有技術(shù)存在的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,包括:
3、獲取分子數(shù)據(jù)、蛋白質(zhì)靶點(diǎn)及其對(duì)應(yīng)配體數(shù)據(jù),其中蛋白質(zhì)靶點(diǎn)數(shù)據(jù)為期望生成的分子可以靶向的兩個(gè)蛋白質(zhì)靶點(diǎn);
4、基于蛋白質(zhì)靶點(diǎn)和對(duì)應(yīng)蛋白質(zhì)靶點(diǎn)的配體數(shù)據(jù),構(gòu)建化合物-靶標(biāo)評(píng)分模塊;
5、將所述分子數(shù)據(jù)輸入到深度學(xué)習(xí)模型中,訓(xùn)練所述深度學(xué)習(xí)模型,其中,所述深度學(xué)習(xí)模型通過(guò)擴(kuò)散模型結(jié)合kan構(gòu)建,并基于所述化合物-靶標(biāo)評(píng)分模塊,優(yōu)化所述深度學(xué)習(xí)模型;
6、基于優(yōu)化后的所述深度學(xué)習(xí)模型,獲取特定性質(zhì)分子。
7、可選的,獲取所述分子數(shù)據(jù)包括:
8、獲取初始數(shù)據(jù)集;
9、對(duì)所述初始數(shù)據(jù)集進(jìn)行特征提取,獲取特征數(shù)據(jù);
10、在所述特征數(shù)據(jù)中添加噪聲,獲取所述分子數(shù)據(jù)。
11、可選的,構(gòu)建所述化合物-靶標(biāo)評(píng)分模塊包括:
12、獲取化合物-靶標(biāo)評(píng)分模塊的標(biāo)簽;
13、利用所述化合物-靶標(biāo)評(píng)分模塊的標(biāo)簽對(duì)所述化合物-靶標(biāo)評(píng)分模塊進(jìn)行訓(xùn)練,獲取所述化合物-靶標(biāo)評(píng)分模塊。
14、可選的,獲取化合物-靶標(biāo)評(píng)分模塊的標(biāo)簽的方法為:
15、根據(jù)所述蛋白質(zhì)靶點(diǎn)和對(duì)應(yīng)蛋白質(zhì)靶點(diǎn)的配體數(shù)據(jù)中的ic50值計(jì)算出配體效率作為化合物-靶標(biāo)評(píng)分模塊的標(biāo)簽;
16、所述計(jì)算的方法為:
17、
18、其中,n是非氫原子的數(shù)量,e為配體效率。
19、可選的,所述深度學(xué)習(xí)模型包括:原子元素類(lèi)型去噪模塊、原子位置去噪模塊和化學(xué)鍵去噪模塊;
20、所述原子元素類(lèi)型去噪模塊,用于從噪聲中恢復(fù)原子元素類(lèi)型;
21、所述原子位置去噪模塊,用于從噪聲中恢復(fù)原子位置信息;
22、所述化學(xué)鍵去噪模塊,用于從噪聲中恢復(fù)化學(xué)鍵類(lèi)型。
23、可選的,基于所述化合物-靶標(biāo)評(píng)分模塊,優(yōu)化所述深度學(xué)習(xí)模型包括:
24、s1、利用所述化合物-靶標(biāo)評(píng)分模塊中的評(píng)分函數(shù),對(duì)所述第一分子數(shù)據(jù)進(jìn)行評(píng)分,保留預(yù)設(shè)分?jǐn)?shù)的分子;
25、s2、利用所述預(yù)設(shè)分?jǐn)?shù)的分子,對(duì)所述深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,獲取第二分子數(shù)據(jù);
26、s3、重復(fù)s1-s2,直至所述分子數(shù)據(jù)的分?jǐn)?shù)達(dá)標(biāo),完成所述深度學(xué)習(xí)模型的優(yōu)化。
27、可選的,所述評(píng)分函數(shù)包括:配體效率、sa、mw、logp和qed。
28、可選的,所述配體效率和qed分?jǐn)?shù)的計(jì)算方法為:
29、
30、所述sa分?jǐn)?shù)的計(jì)算方法為:
31、
32、其中,sle是由化合物-靶標(biāo)評(píng)分模塊預(yù)測(cè)的配體效率,sqed是原始qed分?jǐn)?shù),ssa是原始sa分?jǐn)?shù),μ和σ是用于歸一化的閾值均值和標(biāo)準(zhǔn)差,sle'是配體效率的標(biāo)準(zhǔn)化得分,sqed'是原始qed分?jǐn)?shù)的標(biāo)準(zhǔn)化得分,ssa'是原始sa分?jǐn)?shù)的標(biāo)準(zhǔn)化得分;
33、所述mw和logp分?jǐn)?shù)的計(jì)算方法為:
34、
35、其中,smw'是原始mw分?jǐn)?shù)的標(biāo)準(zhǔn)化得分,slogp'是原始logp分?jǐn)?shù)的標(biāo)準(zhǔn)化得分,β是指數(shù)衰減率,bl是目標(biāo)分?jǐn)?shù)區(qū)間的下限,bu是目標(biāo)分?jǐn)?shù)區(qū)間的上限,smw是原始mw分?jǐn)?shù),slogp是原始logp分?jǐn)?shù)。
36、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:
37、本發(fā)明基于擴(kuò)散模型來(lái)理解分子的三維結(jié)構(gòu),并在擴(kuò)散模型中使用kan代替mlp,提升了模型的性能。相比于mlp,kan可以在更少參數(shù)的情況下實(shí)現(xiàn)更高的準(zhǔn)確率。
38、本發(fā)明通過(guò)強(qiáng)化學(xué)習(xí)技術(shù)對(duì)深度學(xué)習(xí)模型生成的分子進(jìn)行優(yōu)化,以使生成的分子具有針對(duì)多個(gè)靶點(diǎn)的能力和所需的分子屬性。在強(qiáng)化學(xué)習(xí)過(guò)程中,配體效率、sa、qed、logp和mw被用作生成具有所需性質(zhì)的多靶標(biāo)化合物的評(píng)分標(biāo)準(zhǔn),其中配體效率是使用額外的化合物-靶標(biāo)評(píng)分模塊預(yù)測(cè)的。
39、相較于已有技術(shù),本發(fā)明在從頭生成分子測(cè)試中展現(xiàn)了卓越的、有競(jìng)爭(zhēng)力的性能。更重要的是,本發(fā)明可以生成針對(duì)多靶標(biāo)的、具有特定性質(zhì)的3d分子,為多藥理學(xué)化合物的發(fā)現(xiàn)和多基因疾病的治療做出了貢獻(xiàn)。
1.一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,獲取所述分子數(shù)據(jù)包括:
3.根據(jù)權(quán)利要求1所述的一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,構(gòu)建所述化合物-靶標(biāo)評(píng)分模塊包括:
4.根據(jù)權(quán)利要求3所述的一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,獲取化合物-靶標(biāo)評(píng)分模塊的標(biāo)簽的方法為:
5.根據(jù)權(quán)利要求1所述的一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,所述深度學(xué)習(xí)模型包括:原子元素類(lèi)型去噪模塊、原子位置去噪模塊和化學(xué)鍵去噪模塊;
6.根據(jù)權(quán)利要求1所述的一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,基于所述化合物-靶標(biāo)評(píng)分模塊,優(yōu)化所述深度學(xué)習(xí)模型包括:
7.根據(jù)權(quán)利要求6所述的一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,所述評(píng)分函數(shù)包括:配體效率、sa、mw、logp和qed。
8.根據(jù)權(quán)利要求7所述的一種針對(duì)多靶標(biāo)生成具有特定性質(zhì)的分子的方法,其特征在于,所述配體效率和qed分?jǐn)?shù)的計(jì)算方法為: