本發(fā)明屬于圖機(jī)器學(xué)習(xí),具體涉及一種基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、對(duì)化學(xué)分子進(jìn)行分類可以判斷它們是否具有誘變性、抗癌活性、毒性等性質(zhì)。把原子和化學(xué)鍵分別視為圖中的節(jié)點(diǎn)和邊,可以將化學(xué)分子結(jié)構(gòu)建模為拓?fù)鋱D。利用圖分類方法對(duì)化學(xué)分子進(jìn)行分類,有助于分析和預(yù)測(cè)分子的生物活性和安全性,從而在藥物開發(fā)和化學(xué)研究中發(fā)揮重要作用。圖分類方法可以提高化學(xué)分子篩選效率,為新藥的發(fā)現(xiàn)和開發(fā)提供了可靠的理論依據(jù)。
2、一種主流的圖分類方法是利用圖神經(jīng)網(wǎng)絡(luò)來(lái)提取圖的結(jié)構(gòu)信息,將其轉(zhuǎn)化為低維向量表示,從而進(jìn)行圖分類?,F(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)方法將節(jié)點(diǎn)及其鄰域構(gòu)成的根子樹作為節(jié)點(diǎn)的結(jié)構(gòu)信息進(jìn)行傳遞和聚合。然而,化學(xué)分子中原子和鍵的連接方式是多種多樣的,樹結(jié)構(gòu)僅能表示鏈狀結(jié)構(gòu),而無(wú)法充分描述環(huán)狀結(jié)構(gòu)、交聯(lián)結(jié)構(gòu)、網(wǎng)狀結(jié)構(gòu)、籠狀結(jié)構(gòu)等復(fù)雜連接方式。
3、設(shè)計(jì)有效的圖神經(jīng)網(wǎng)絡(luò)方法,使其能夠?qū)⒒瘜W(xué)分子圖中多種多樣的結(jié)構(gòu)信息轉(zhuǎn)化為圖的低維表示,可以顯著提升化學(xué)分子分類的準(zhǔn)確性。這將對(duì)化學(xué)分子的研究和新藥開發(fā)產(chǎn)生深遠(yuǎn)影響。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)化學(xué)分子圖結(jié)構(gòu)信息利用不足的問(wèn)題,本發(fā)明提供了一種基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類方法、設(shè)備及介質(zhì)。
2、為了達(dá)到上述目的,本發(fā)明采用了下列技術(shù)方案:
3、一種基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類方法,包括以下步驟:
4、步驟1,獲取化學(xué)分子數(shù)據(jù)以原子作為節(jié)點(diǎn),化學(xué)鍵作為邊,構(gòu)建每個(gè)化學(xué)分子的化學(xué)分子圖,得到化學(xué)分子數(shù)據(jù)集;
5、步驟2,構(gòu)建基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類模型,包括結(jié)構(gòu)增強(qiáng)、子圖表示、圖分類三個(gè)部分;
6、步驟3,訓(xùn)練并優(yōu)化基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類模型,進(jìn)行模型性能評(píng)估和對(duì)比分析。
7、進(jìn)一步,所述步驟2中基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類模型的構(gòu)建具體是:
8、對(duì)化學(xué)分子圖g的每個(gè)節(jié)點(diǎn)v,采用其k跳鄰居節(jié)點(diǎn)的導(dǎo)出子圖作為節(jié)點(diǎn)v的根子圖對(duì)每個(gè)根子圖進(jìn)行結(jié)構(gòu)增強(qiáng)和子圖表示;池化所有根子圖的表示得到化學(xué)分子圖的表示并進(jìn)行化學(xué)分子分類;
9、結(jié)構(gòu)增強(qiáng)部分包括對(duì)根子圖從節(jié)點(diǎn)特征和邊特征兩方面進(jìn)行增強(qiáng);
10、子圖表示部分包括聚合子圖內(nèi)信息和聚合子圖間信息對(duì)根子圖中的節(jié)點(diǎn)進(jìn)行表示,對(duì)節(jié)點(diǎn)表示進(jìn)行平均池化得到根子圖的表示;
11、圖分類部分包括對(duì)化學(xué)分子圖g的所有根子圖表示進(jìn)行求和池化得到化學(xué)分子圖g的向量表示,用圖分類器對(duì)化學(xué)分子圖g的表示進(jìn)行分類,預(yù)測(cè)相應(yīng)化學(xué)分子的性質(zhì)。
12、進(jìn)一步,所述步驟2中對(duì)根子圖的節(jié)點(diǎn)特征進(jìn)行增強(qiáng)具體是:
13、計(jì)算根子圖中節(jié)點(diǎn)a的d1步隨機(jī)游走返回概率表示為:
14、
15、其中,表示從根子圖中的節(jié)點(diǎn)a開始經(jīng)過(guò)d步隨機(jī)游走返回a的概率;
16、然后使用線性層將節(jié)點(diǎn)a在根子圖上的d1步隨機(jī)游走返回概率編碼為節(jié)點(diǎn)a對(duì)應(yīng)于根子圖的隱藏表示向量
17、同理,計(jì)算節(jié)點(diǎn)a在原圖g上的d2步隨機(jī)游走返回概率編碼進(jìn)而得到節(jié)點(diǎn)a對(duì)應(yīng)于原化學(xué)分子圖g的隱藏表示向量是將與初始節(jié)點(diǎn)特征xa進(jìn)行拼接,得到根子圖中節(jié)點(diǎn)a的增強(qiáng)節(jié)點(diǎn)特征表示通過(guò)使用多步隨機(jī)游走返回概率增強(qiáng)根子圖的節(jié)點(diǎn)特征,能夠度量化學(xué)分子中圈結(jié)構(gòu)的影響。
18、進(jìn)一步,所述步驟2中對(duì)根子圖的邊特征進(jìn)行增強(qiáng)具體是:
19、對(duì)根子圖中邊ab的特征進(jìn)行增強(qiáng),計(jì)算邊ab上的l步結(jié)構(gòu)系數(shù)作為邊權(quán)重,根子圖中邊ab的l步結(jié)構(gòu)系數(shù)的計(jì)算公式為:
20、
21、其中,表示在根子圖中的邊ab的第l步結(jié)構(gòu)系數(shù),表示根子圖中端點(diǎn)a和b的公共l跳鄰居,表示中由導(dǎo)出的子圖所對(duì)應(yīng)的邊集合,λ>0。
22、進(jìn)一步,所述步驟2中聚合子圖內(nèi)信息具體是:
23、首先在化學(xué)分子圖g的每個(gè)根子圖中添加節(jié)點(diǎn),使其頂點(diǎn)集邊集不變,新增節(jié)點(diǎn)w的特征為新增節(jié)點(diǎn)為孤立點(diǎn),則根子圖的鄰接矩陣av為:
24、
25、對(duì)av按行歸一化為對(duì)于每個(gè)節(jié)點(diǎn)第t+1層的特征向量表示為:
26、
27、其中,γ(t)是一個(gè)可學(xué)習(xí)的標(biāo)量參數(shù),mlp(t+1)表示第t+1層的多層感知機(jī),表示根子圖中節(jié)點(diǎn)a的鄰居集合。
28、進(jìn)一步,所述步驟2中聚合子圖間信息具體是:
29、令化學(xué)分子圖g中與根節(jié)點(diǎn)v最短路徑距離為k的節(jié)點(diǎn)集為稱節(jié)點(diǎn)的根子圖為的一個(gè)鄰居子圖,則根子圖中節(jié)點(diǎn)a聚合的鄰居子圖間信息表示為:
30、
31、通過(guò)聚合子圖內(nèi)信息和子圖間信息,得到節(jié)點(diǎn)a在第t+1次迭代后的表示:
32、
33、在t次迭代后,對(duì)子圖中節(jié)點(diǎn)表示進(jìn)行平均池化得到子圖的表示:
34、
35、進(jìn)一步,所述步驟2中圖分類部分,對(duì)化學(xué)分子圖g的所有根子圖表示進(jìn)行求和池化得到化學(xué)分子圖g的向量表示:
36、
37、用圖分類器對(duì)化學(xué)分子圖g的向量表示hg進(jìn)行分類,預(yù)測(cè)相應(yīng)化學(xué)分子的性質(zhì)。
38、進(jìn)一步,所述步驟3中訓(xùn)練并優(yōu)化基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類模型具體包括以下步驟:
39、步驟3.1,將化學(xué)分子數(shù)據(jù)集平均分成10份,每次取其中1份做測(cè)試集,用剩余9份做訓(xùn)練集;
40、步驟3.2,將化學(xué)分子訓(xùn)練集中的化學(xué)分子圖輸入基于結(jié)構(gòu)增強(qiáng)的化學(xué)分子圖分類模型中,得到各化學(xué)分子圖的分類預(yù)測(cè)值,使用交叉熵?fù)p失函數(shù)計(jì)算預(yù)測(cè)值與標(biāo)簽值的差異,交叉熵?fù)p失函數(shù)loss的計(jì)算公式如下:
41、
42、其中,m表示化學(xué)分子的數(shù)量,n表示化學(xué)分子類別數(shù),yji表示第j個(gè)化學(xué)分子真實(shí)標(biāo)簽值的第i個(gè)分量,表示第j個(gè)化學(xué)分子預(yù)測(cè)值的第i個(gè)分量;
43、在獲得訓(xùn)練損失后,使用adam優(yōu)化器來(lái)優(yōu)化模型參數(shù);
44、步驟3.3,訓(xùn)練結(jié)束后,固定模型參數(shù),使用測(cè)試集進(jìn)行預(yù)測(cè),計(jì)算圖分類的準(zhǔn)確率。
45、一種處理設(shè)備,包括:
46、至少一個(gè)存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序;
47、至少一個(gè)處理器,能執(zhí)行所述存儲(chǔ)器所存儲(chǔ)的一個(gè)或多個(gè)程序,在一個(gè)或多個(gè)程序被處理器執(zhí)行時(shí),使得所述處理器能實(shí)現(xiàn)上述的方法。
48、一種可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)計(jì)算機(jī)程序被處理器執(zhí)行時(shí)能實(shí)現(xiàn)上述的方法。
49、與現(xiàn)有技術(shù)相比本發(fā)明具有以下優(yōu)點(diǎn):
50、通過(guò)將多步結(jié)構(gòu)系數(shù)注入鄰域聚合框架中,可以靈活地量化節(jié)點(diǎn)周圍的局部結(jié)構(gòu),可以捕獲不同類別的局部結(jié)構(gòu)信息,包括不同圈結(jié)構(gòu)的信息;在化學(xué)分子中圈結(jié)構(gòu)是重要的子結(jié)構(gòu),通過(guò)使用多步隨機(jī)游走返回概率增強(qiáng)節(jié)點(diǎn)特征,可以有效地量化圈結(jié)構(gòu)的影響以及節(jié)點(diǎn)的局部子結(jié)構(gòu)信息和全局信息;子圖gnn可以設(shè)計(jì)為靈活地處理不同大小和形狀的子圖,這使得它們能夠適應(yīng)各種不同的圖結(jié)構(gòu)和應(yīng)用場(chǎng)景;由于原圖中的同一節(jié)點(diǎn)會(huì)出現(xiàn)在不同的子圖中,可以使用鄰居子圖來(lái)捕獲不同子圖視角下同一節(jié)點(diǎn)的視圖,我們可以充分利用這一豐富的上下文信息來(lái)進(jìn)一步增強(qiáng)子圖的表示,實(shí)現(xiàn)得到化學(xué)分子更好的表示,進(jìn)而提升化學(xué)分子分類準(zhǔn)確性。