一種分子逆合成路線規(guī)劃方法及規(guī)劃系統(tǒng)

文檔序號(hào)：40522323發(fā)布日期：2024-12-31 13:31閱讀：9來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本發(fā)明屬于分子逆合成，涉及一種分子逆合成路線規(guī)劃方法及規(guī)劃系統(tǒng)。

背景技術(shù)：

1、分子逆合成是一項(xiàng)非常重要的工作，特別是在藥物合成和其他相關(guān)領(lǐng)域中。它的目標(biāo)是識(shí)別從目標(biāo)產(chǎn)品到原始反應(yīng)物的逆合成路線。逆合成過(guò)程包括單步逆合成和多步逆合成。單步逆合成涉及將目標(biāo)產(chǎn)物分解成一個(gè)或多個(gè)可以用來(lái)合成它的分子。多步逆合成則將一個(gè)已分解的分子作為新的目標(biāo)產(chǎn)物，并重復(fù)單步逆合成過(guò)程，直到找到一個(gè)存在于原料數(shù)據(jù)集中或可以通過(guò)簡(jiǎn)單合成獲得的分子。

2、近年來(lái)，transformer模型已成為人工智能領(lǐng)域的關(guān)鍵技術(shù)。它在各種任務(wù)中展現(xiàn)了卓越的性能，例如機(jī)器翻譯和計(jì)算機(jī)視覺(jué)。在分子逆合成任務(wù)中，這可以被視為一個(gè)機(jī)器翻譯問(wèn)題，transformer架構(gòu)在單步逆合成過(guò)程中取得了實(shí)質(zhì)性進(jìn)展，為這一領(lǐng)域帶來(lái)了重要突破。

3、多步逆合成路線的規(guī)劃受到了重大關(guān)注。這種方法通常利用搜索算法，如蒙特卡洛樹(shù)搜索(monte?carlo?tree?search)和a*算法等。在這一過(guò)程中，單步逆合成模型起著至關(guān)重要的作用，其質(zhì)量極大地影響了多步搜索的有效性。單步模型從數(shù)據(jù)集中學(xué)習(xí)反應(yīng)規(guī)則，隨后在多步搜索框架內(nèi)，迭代調(diào)用單步模型以推理和識(shí)別最合適的模擬路線。這一迭代過(guò)程提高了多步逆合成的整體質(zhì)量和效率。還有學(xué)者采用了蒙特卡洛樹(shù)搜索(mcts)作為多步搜索算法，以及transformer架構(gòu)作為單步逆合成模型來(lái)規(guī)劃逆合成路線。這種方法有效地預(yù)測(cè)了不同目標(biāo)產(chǎn)品的可行路線。mcts是一種因其強(qiáng)大的搜索能力而聞名的搜索算法，適用于復(fù)雜問(wèn)題。然而，mcts的效率取決于問(wèn)題的復(fù)雜性和所需的模擬次數(shù)。另一方面，transformer架構(gòu)在不同數(shù)據(jù)集上都表現(xiàn)良好。

4、總體來(lái)說(shuō)，多步搜索過(guò)程在調(diào)用單步模型后，可以搜索逆合成路線，解決有機(jī)分子的自動(dòng)逆合成路徑規(guī)劃問(wèn)題。

5、目前已有方法將演化算法(ea)應(yīng)用于分子逆合成問(wèn)題的開(kāi)創(chuàng)性應(yīng)用，為該領(lǐng)域引入了創(chuàng)新方法。雖然這種方法顯著推進(jìn)了演化算法在分子合成中的應(yīng)用，但它也突出顯示了亟需進(jìn)一步改進(jìn)的領(lǐng)域。首先，該方法結(jié)合了單步模型與多步搜索算法，其中單步模型的輸出被離散編碼，但遺傳算子被連續(xù)編碼。在演化算法框架內(nèi)，這種編碼方法可能沒(méi)有完全利用算法的潛在效率。其次，個(gè)體評(píng)價(jià)函數(shù)依賴(lài)于每個(gè)個(gè)體內(nèi)元素的概率值及葉節(jié)點(diǎn)與原料數(shù)據(jù)庫(kù)分子之間的相似性來(lái)驅(qū)動(dòng)種群迭代?？紤]到這些概率是基于先前標(biāo)記條件的transformer模型輸出生成的，該評(píng)價(jià)函數(shù)可能更受益于分子合成的原理，而不是transformer的輸出概率值。此外，數(shù)據(jù)庫(kù)中原始分子與葉節(jié)點(diǎn)上更復(fù)雜的分枝分子之間的分子復(fù)雜性差異往往導(dǎo)致相似性評(píng)分較低，這可能阻礙有效的種群迭代。最后，該方法定義了一個(gè)龐大的搜索空間，在此空間內(nèi)，許多節(jié)點(diǎn)對(duì)應(yīng)于無(wú)效的分子表達(dá)式，顯著影響搜索的效率。如：專(zhuān)利cn114822703a公開(kāi)了一種分子逆合成方法，首先將目標(biāo)分子作為根節(jié)點(diǎn)，然后對(duì)該節(jié)點(diǎn)進(jìn)行擴(kuò)展，得到第二節(jié)點(diǎn)，以此類(lèi)推，通過(guò)遞歸遍歷的方式搜索整個(gè)搜索空間，從而確定目標(biāo)分子的逆合成路徑，提高了化合物分子逆合成預(yù)測(cè)的準(zhǔn)確性。

技術(shù)實(shí)現(xiàn)思路

1、為了解決上述技術(shù)的不足，本發(fā)明提供一種分子逆合成路線規(guī)劃方法，包括以下步驟：

2、步驟1：通過(guò)已有的數(shù)據(jù)集訓(xùn)練一個(gè)端到端的transformer模型，所述transformer模型用于實(shí)現(xiàn)單步逆合成；

3、步驟2：根據(jù)逆合成問(wèn)題特征設(shè)計(jì)編碼策略；

4、步驟3：根據(jù)所述編碼策略初始化種群，個(gè)體數(shù)量為n；

5、步驟4：構(gòu)建概率模型，概率模型的輸入為種群，輸出為一個(gè)概率模型；

6、步驟5：通過(guò)概率模型對(duì)種群進(jìn)行采樣，得到n個(gè)新的解；

7、步驟6：將原始種群與得到的新解放在一塊，通過(guò)f(x)進(jìn)行評(píng)估，得到分?jǐn)?shù)最高的前n個(gè)解，如果滿足個(gè)體的最后一個(gè)元素在原料庫(kù)中，保存當(dāng)前路線；

8、步驟7：將這個(gè)n個(gè)解構(gòu)建概率模型，重復(fù)步驟4，直到種群收斂或者達(dá)到最大迭代次數(shù)停止。

9、本發(fā)明步驟1中，所述數(shù)據(jù)集來(lái)自數(shù)據(jù)集uspto_50k、uspto_mit和pistachio。

10、本發(fā)明所述單步逆合成過(guò)程中，分子表達(dá)式使用smiles表達(dá)式表示。

11、優(yōu)選地，若有多個(gè)反應(yīng)物，由句點(diǎn)('.')分隔；占位符<rx_t>代表第t類(lèi)型的反應(yīng)。

12、本發(fā)明步驟2中，所述編碼策略即種群中每個(gè)個(gè)體使用兩個(gè)數(shù)組進(jìn)行編碼，第一個(gè)數(shù)組表示從跟節(jié)點(diǎn)到葉子節(jié)點(diǎn)中的單步模型輸出的排序，第二個(gè)數(shù)組表示第一個(gè)數(shù)組中每個(gè)元素可能選擇的分支情況。

13、本發(fā)明多步逆合成過(guò)程建模為在一個(gè)具有q層的k叉樹(shù)中的樹(shù)搜索問(wèn)題；所述多步逆合成過(guò)程包括多個(gè)單步反應(yīng)，目標(biāo)是找到從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的可行路徑；樹(shù)的根節(jié)點(diǎn)是目標(biāo)產(chǎn)物，通過(guò)單步模型逐漸向下擴(kuò)展成一個(gè)k叉樹(shù)；搜索樹(shù)將向下擴(kuò)展q層，最后一層的葉節(jié)點(diǎn)代表逆合成中的終端反應(yīng)物。

14、本發(fā)明通過(guò)單步模型擴(kuò)展搜索樹(shù)時(shí)，將無(wú)效節(jié)點(diǎn)移除。

15、本發(fā)明步驟4中，根據(jù)變異方式中的公式構(gòu)建概率模型：

16、變異方式：概率模型的構(gòu)建，第i個(gè)維度的變量有k個(gè)不同的結(jié)果，該結(jié)果出現(xiàn)的次數(shù)被定義為ci,j，j∈[0,k-1]；其中，ci,j表示第i個(gè)變量中j出現(xiàn)的次數(shù)，被定義為：

17、

18、其中,表示第i個(gè)變量中第m個(gè)個(gè)體的數(shù)值，n表示種群中個(gè)體的數(shù)量；是一個(gè)指示函數(shù)，被定義為：

19、

20、第t代的概率矩陣被定義為：

21、

22、其中,τ表示一個(gè)極小值，概率模型構(gòu)建成：

23、

24、其中,α表示衰減系數(shù)，被定義為：

25、

26、其中,t表示當(dāng)前迭代次數(shù)，tmax表示最大迭代次數(shù)；新解x通過(guò)概率模型pi,j進(jìn)行采樣；對(duì)概率矩陣進(jìn)行歸一化，保證每列概率之和等于1，使矩陣適合作為隨機(jī)抽樣中的概率分布；概率模型被定義為：

27、

28、本發(fā)明在生成新的方案之后，新解將與當(dāng)前的解進(jìn)行組合，然后通過(guò)評(píng)估函數(shù)f(x)計(jì)算它們的相似性，選出前n個(gè)個(gè)體進(jìn)入下一輪迭代，這一過(guò)程將持續(xù)進(jìn)行，直到滿足停止標(biāo)準(zhǔn)或達(dá)到最大迭代次數(shù)。

29、基于以上方法，本發(fā)明還提出了一種分子逆合成路線規(guī)劃系統(tǒng)，包括：存儲(chǔ)器和處理器；所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序，當(dāng)所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)，實(shí)現(xiàn)上述的方法。

30、本發(fā)明還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)上述的方法。

31、與現(xiàn)有技術(shù)相比，本發(fā)明針對(duì)多分支分子逆合成問(wèn)題進(jìn)行建模，將該問(wèn)題建模為一個(gè)樹(shù)搜索問(wèn)題。然后通過(guò)演化算法對(duì)該優(yōu)化問(wèn)題進(jìn)行編碼，選擇適合的編碼策略，并設(shè)計(jì)匹配的遺傳算子，并采用一定的剪枝技術(shù)減小搜索空間，提高了多步搜索算法的效率。該發(fā)明具有可遷移、可學(xué)習(xí)的特性。該發(fā)明創(chuàng)新的利用了問(wèn)題信息進(jìn)行編碼，創(chuàng)新的利用了與編碼方式匹配的遺傳算子，創(chuàng)新的在該應(yīng)用問(wèn)題上使用了剪枝技術(shù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張焱,郝昊,何曉,周愛(ài)民
技術(shù)所有人：華東師范大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：后澆帶止水鋼板的制作方法
上一篇：一種激光切割機(jī)用除塵器的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開(kāi)發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類(lèi)的抗腫瘤藥物的合成和活性評(píng)價(jià)及糖類(lèi)疫苗的研制 2.功能糖類(lèi)的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開(kāi)發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評(píng)價(jià) 3.中藥組方配伍機(jī)制研究
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分子逆合成路線規(guī)劃方法及規(guī)劃系統(tǒng)