本發(fā)明屬于分子逆合成,涉及一種分子逆合成路線規(guī)劃方法及規(guī)劃系統(tǒng)。
背景技術(shù):
1、分子逆合成是一項(xiàng)非常重要的工作,特別是在藥物合成和其他相關(guān)領(lǐng)域中。它的目標(biāo)是識(shí)別從目標(biāo)產(chǎn)品到原始反應(yīng)物的逆合成路線。逆合成過(guò)程包括單步逆合成和多步逆合成。單步逆合成涉及將目標(biāo)產(chǎn)物分解成一個(gè)或多個(gè)可以用來(lái)合成它的分子。多步逆合成則將一個(gè)已分解的分子作為新的目標(biāo)產(chǎn)物,并重復(fù)單步逆合成過(guò)程,直到找到一個(gè)存在于原料數(shù)據(jù)集中或可以通過(guò)簡(jiǎn)單合成獲得的分子。
2、近年來(lái),transformer模型已成為人工智能領(lǐng)域的關(guān)鍵技術(shù)。它在各種任務(wù)中展現(xiàn)了卓越的性能,例如機(jī)器翻譯和計(jì)算機(jī)視覺(jué)。在分子逆合成任務(wù)中,這可以被視為一個(gè)機(jī)器翻譯問(wèn)題,transformer架構(gòu)在單步逆合成過(guò)程中取得了實(shí)質(zhì)性進(jìn)展,為這一領(lǐng)域帶來(lái)了重要突破。
3、多步逆合成路線的規(guī)劃受到了重大關(guān)注。這種方法通常利用搜索算法,如蒙特卡洛樹(shù)搜索(monte?carlo?tree?search)和a*算法等。在這一過(guò)程中,單步逆合成模型起著至關(guān)重要的作用,其質(zhì)量極大地影響了多步搜索的有效性。單步模型從數(shù)據(jù)集中學(xué)習(xí)反應(yīng)規(guī)則,隨后在多步搜索框架內(nèi),迭代調(diào)用單步模型以推理和識(shí)別最合適的模擬路線。這一迭代過(guò)程提高了多步逆合成的整體質(zhì)量和效率。還有學(xué)者采用了蒙特卡洛樹(shù)搜索(mcts)作為多步搜索算法,以及transformer架構(gòu)作為單步逆合成模型來(lái)規(guī)劃逆合成路線。這種方法有效地預(yù)測(cè)了不同目標(biāo)產(chǎn)品的可行路線。mcts是一種因其強(qiáng)大的搜索能力而聞名的搜索算法,適用于復(fù)雜問(wèn)題。然而,mcts的效率取決于問(wèn)題的復(fù)雜性和所需的模擬次數(shù)。另一方面,transformer架構(gòu)在不同數(shù)據(jù)集上都表現(xiàn)良好。
4、總體來(lái)說(shuō),多步搜索過(guò)程在調(diào)用單步模型后,可以搜索逆合成路線,解決有機(jī)分子的自動(dòng)逆合成路徑規(guī)劃問(wèn)題。
5、目前已有方法將演化算法(ea)應(yīng)用于分子逆合成問(wèn)題的開(kāi)創(chuàng)性應(yīng)用,為該領(lǐng)域引入了創(chuàng)新方法。雖然這種方法顯著推進(jìn)了演化算法在分子合成中的應(yīng)用,但它也突出顯示了亟需進(jìn)一步改進(jìn)的領(lǐng)域。首先,該方法結(jié)合了單步模型與多步搜索算法,其中單步模型的輸出被離散編碼,但遺傳算子被連續(xù)編碼。在演化算法框架內(nèi),這種編碼方法可能沒(méi)有完全利用算法的潛在效率。其次,個(gè)體評(píng)價(jià)函數(shù)依賴(lài)于每個(gè)個(gè)體內(nèi)元素的概率值及葉節(jié)點(diǎn)與原料數(shù)據(jù)庫(kù)分子之間的相似性來(lái)驅(qū)動(dòng)種群迭代??紤]到這些概率是基于先前標(biāo)記條件的transformer模型輸出生成的,該評(píng)價(jià)函數(shù)可能更受益于分子合成的原理,而不是transformer的輸出概率值。此外,數(shù)據(jù)庫(kù)中原始分子與葉節(jié)點(diǎn)上更復(fù)雜的分枝分子之間的分子復(fù)雜性差異往往導(dǎo)致相似性評(píng)分較低,這可能阻礙有效的種群迭代。最后,該方法定義了一個(gè)龐大的搜索空間,在此空間內(nèi),許多節(jié)點(diǎn)對(duì)應(yīng)于無(wú)效的分子表達(dá)式,顯著影響搜索的效率。如:專(zhuān)利cn114822703a公開(kāi)了一種分子逆合成方法,首先將目標(biāo)分子作為根節(jié)點(diǎn),然后對(duì)該節(jié)點(diǎn)進(jìn)行擴(kuò)展,得到第二節(jié)點(diǎn),以此類(lèi)推,通過(guò)遞歸遍歷的方式搜索整個(gè)搜索空間,從而確定目標(biāo)分子的逆合成路徑,提高了化合物分子逆合成預(yù)測(cè)的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)的不足,本發(fā)明提供一種分子逆合成路線規(guī)劃方法,包括以下步驟:
2、步驟1:通過(guò)已有的數(shù)據(jù)集訓(xùn)練一個(gè)端到端的transformer模型,所述transformer模型用于實(shí)現(xiàn)單步逆合成;
3、步驟2:根據(jù)逆合成問(wèn)題特征設(shè)計(jì)編碼策略;
4、步驟3:根據(jù)所述編碼策略初始化種群,個(gè)體數(shù)量為n;
5、步驟4:構(gòu)建概率模型,概率模型的輸入為種群,輸出為一個(gè)概率模型;
6、步驟5:通過(guò)概率模型對(duì)種群進(jìn)行采樣,得到n個(gè)新的解;
7、步驟6:將原始種群與得到的新解放在一塊,通過(guò)f(x)進(jìn)行評(píng)估,得到分?jǐn)?shù)最高的前n個(gè)解,如果滿足個(gè)體的最后一個(gè)元素在原料庫(kù)中,保存當(dāng)前路線;
8、步驟7:將這個(gè)n個(gè)解構(gòu)建概率模型,重復(fù)步驟4,直到種群收斂或者達(dá)到最大迭代次數(shù)停止。
9、本發(fā)明步驟1中,所述數(shù)據(jù)集來(lái)自數(shù)據(jù)集uspto_50k、uspto_mit和pistachio。
10、本發(fā)明所述單步逆合成過(guò)程中,分子表達(dá)式使用smiles表達(dá)式表示。
11、優(yōu)選地,若有多個(gè)反應(yīng)物,由句點(diǎn)('.')分隔;占位符<rx_t>代表第t類(lèi)型的反應(yīng)。
12、本發(fā)明步驟2中,所述編碼策略即種群中每個(gè)個(gè)體使用兩個(gè)數(shù)組進(jìn)行編碼,第一個(gè)數(shù)組表示從跟節(jié)點(diǎn)到葉子節(jié)點(diǎn)中的單步模型輸出的排序,第二個(gè)數(shù)組表示第一個(gè)數(shù)組中每個(gè)元素可能選擇的分支情況。
13、本發(fā)明多步逆合成過(guò)程建模為在一個(gè)具有q層的k叉樹(shù)中的樹(shù)搜索問(wèn)題;所述多步逆合成過(guò)程包括多個(gè)單步反應(yīng),目標(biāo)是找到從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的可行路徑;樹(shù)的根節(jié)點(diǎn)是目標(biāo)產(chǎn)物,通過(guò)單步模型逐漸向下擴(kuò)展成一個(gè)k叉樹(shù);搜索樹(shù)將向下擴(kuò)展q層,最后一層的葉節(jié)點(diǎn)代表逆合成中的終端反應(yīng)物。
14、本發(fā)明通過(guò)單步模型擴(kuò)展搜索樹(shù)時(shí),將無(wú)效節(jié)點(diǎn)移除。
15、本發(fā)明步驟4中,根據(jù)變異方式中的公式構(gòu)建概率模型:
16、變異方式:概率模型的構(gòu)建,第i個(gè)維度的變量有k個(gè)不同的結(jié)果,該結(jié)果出現(xiàn)的次數(shù)被定義為ci,j,j∈[0,k-1];其中,ci,j表示第i個(gè)變量中j出現(xiàn)的次數(shù),被定義為:
17、
18、其中,表示第i個(gè)變量中第m個(gè)個(gè)體的數(shù)值,n表示種群中個(gè)體的數(shù)量;是一個(gè)指示函數(shù),被定義為:
19、
20、第t代的概率矩陣被定義為:
21、
22、其中,τ表示一個(gè)極小值,概率模型構(gòu)建成:
23、
24、其中,α表示衰減系數(shù),被定義為:
25、
26、其中,t表示當(dāng)前迭代次數(shù),tmax表示最大迭代次數(shù);新解x通過(guò)概率模型pi,j進(jìn)行采樣;對(duì)概率矩陣進(jìn)行歸一化,保證每列概率之和等于1,使矩陣適合作為隨機(jī)抽樣中的概率分布;概率模型被定義為:
27、
28、本發(fā)明在生成新的方案之后,新解將與當(dāng)前的解進(jìn)行組合,然后通過(guò)評(píng)估函數(shù)f(x)計(jì)算它們的相似性,選出前n個(gè)個(gè)體進(jìn)入下一輪迭代,這一過(guò)程將持續(xù)進(jìn)行,直到滿足停止標(biāo)準(zhǔn)或達(dá)到最大迭代次數(shù)。
29、基于以上方法,本發(fā)明還提出了一種分子逆合成路線規(guī)劃系統(tǒng),包括:存儲(chǔ)器和處理器;所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)上述的方法。
30、本發(fā)明還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述的方法。
31、與現(xiàn)有技術(shù)相比,本發(fā)明針對(duì)多分支分子逆合成問(wèn)題進(jìn)行建模,將該問(wèn)題建模為一個(gè)樹(shù)搜索問(wèn)題。然后通過(guò)演化算法對(duì)該優(yōu)化問(wèn)題進(jìn)行編碼,選擇適合的編碼策略,并設(shè)計(jì)匹配的遺傳算子,并采用一定的剪枝技術(shù)減小搜索空間,提高了多步搜索算法的效率。該發(fā)明具有可遷移、可學(xué)習(xí)的特性。該發(fā)明創(chuàng)新的利用了問(wèn)題信息進(jìn)行編碼,創(chuàng)新的利用了與編碼方式匹配的遺傳算子,創(chuàng)新的在該應(yīng)用問(wèn)題上使用了剪枝技術(shù)。