本技術(shù)涉及生物制藥,特別涉及一種抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法、抗體結(jié)構(gòu)預(yù)測方法及設(shè)備。
背景技術(shù):
1、抗體結(jié)構(gòu)預(yù)測是生物信息學(xué)和計算生物學(xué)領(lǐng)域的一個重要研究方向,對于理解抗體功能、設(shè)計新型治療性抗體以及疫苗開發(fā)等方面具有重要意義。近年來,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,特別是深度學(xué)習(xí)方法的應(yīng)用,抗體結(jié)構(gòu)預(yù)測領(lǐng)域取得了顯著進展?,F(xiàn)有的抗體結(jié)構(gòu)預(yù)測模型普遍采用大規(guī)模神經(jīng)網(wǎng)絡(luò)模型,這就是使得神經(jīng)網(wǎng)絡(luò)具有大量網(wǎng)絡(luò)參數(shù)需要進行訓(xùn)練,導(dǎo)致訓(xùn)練過程中需要大量gpu資源并且需要大量時間進行訓(xùn)練,這嚴重影響了研究效率和模型迭代速度。另外,經(jīng)過訓(xùn)練的抗體結(jié)構(gòu)預(yù)測模型訓(xùn)練很大的存儲空間來保存模型參數(shù)和中間計算結(jié)果,使其使用受到硬件資源限制。
2、因而現(xiàn)有技術(shù)還有待改進和提高。
技術(shù)實現(xiàn)思路
1、本技術(shù)要解決的技術(shù)問題在于,針對現(xiàn)有技術(shù)的不足,提供一種抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法、抗體結(jié)構(gòu)預(yù)測方法及設(shè)備。
2、為了解決上述技術(shù)問題,本技術(shù)第一方面提供了一種抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法具體包括:
3、獲取抗體樣本的氨基酸序列的氨基酸編碼序列,并基于所述氨基酸編碼序列確定所述抗體樣本的氨基酸序列的高維向量表示;
4、將所述高維向量表示輸入初始抗體結(jié)構(gòu)預(yù)測模型中的特征提取模塊,通過所述特征提取模塊中的注意力單元確定注意力編碼矩陣;
5、根據(jù)所述高維向量表示和所述注意力編碼矩陣,通過所述特征提取模塊中的第一線性單元確定第一表示向量;
6、根據(jù)所述注意力編碼矩陣和所述第一表示向量,通過所述特征提取模塊中的第二線性單元確定第二表示向量;
7、基于所述第一表示向量和所述第二表示向量,對初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊進行訓(xùn)練,以得到抗體結(jié)構(gòu)預(yù)測模型。
8、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述獲取抗體樣本的氨基酸序列的氨基酸編碼序列,具體包括:
9、對所述抗體樣本的氨基酸序列中的每個氨基酸進行編碼,得到氨基酸編碼序列。
10、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述基于所述氨基酸編碼序列確定所述抗體樣本的氨基酸序列的高維向量表示具體為:
11、將所述氨基酸編碼序列輸入所述初始抗體結(jié)構(gòu)預(yù)測模型中的語言模型,通過所述語言模型輸出所述抗體樣本的氨基酸序列的高維向量表示。
12、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述第一表示向量的向量維度和第二表示向量的向量維度均小于所述高維向量表示的向量維度。
13、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述將所述高維向量表示輸入初始抗體結(jié)構(gòu)預(yù)測模型中的特征提取模塊,通過所述特征提取模塊中的注意力單元確定注意力編碼矩陣具體包括:
14、將所述高維向量表示輸入所述注意力單元中的第一注意力編碼器,通過所述第一注意力編碼器輸出中間注意力編碼矩陣;
15、將所述中間注意力編碼矩陣輸入所述注意力單元中的第二注意力編碼器,通過所述第二注意力編碼器輸出注意力編碼矩陣。
16、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述根據(jù)所述高維向量表示和所述注意力編碼矩陣,通過所述特征提取模塊中的第一線性單元確定第一表示向量具體包括:
17、將所述高維向量表示與所述注意力編碼矩陣進行融合,得到第一融合矩陣;
18、將所述第一融合矩陣輸入所述第一線性單元中的第一線性層,通過所述第一線性層輸出中間高維向量表示;
19、將所述中間高維向量表示輸入所述第一線性單元中的第二線性層,通過所述第二線性層輸出第一表示向量。
20、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述根據(jù)所述注意力編碼矩陣和所述第一表示向量,通過所述特征提取模塊中的第二線性單元確定第二表示向量具體包括:
21、將所述注意力編碼矩陣和所述第一表示向量進行融合,得到第二融合矩陣;
22、將所述第二融合矩陣輸入所述第二線性單元中的第三線性層,通過所述第三線性層輸出第二表示向量。
23、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述基于所述第一表示向量和所述第二表示向量,對初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊進行訓(xùn)練,以得到抗體結(jié)構(gòu)預(yù)測模型具體包括:
24、將所述第一表示向量和所述第二表示向量輸入所述初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊,通過所述等變注意力模塊確定所述抗體樣本的預(yù)測抗體結(jié)構(gòu);
25、基于所述預(yù)測抗體結(jié)構(gòu)和所述抗體樣本的真實抗體結(jié)構(gòu)對所述初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊進行訓(xùn)練,以得到抗體結(jié)構(gòu)預(yù)測模型。
26、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述將所述第一表示向量和所述第二表示向量輸入所述初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊,通過所述等變注意力模塊確定所述抗體樣本的預(yù)測抗體結(jié)構(gòu)具體包括:
27、獲取所述抗體樣本的初始抗體結(jié)構(gòu),其中,所述初始抗體結(jié)構(gòu)包括所述抗體樣本的氨基酸序列中的每個氨基酸的初始三維坐標;
28、將所述初始抗體結(jié)構(gòu)、所述第一表示向量和所述第二表示向量輸入所述等變注意力模塊中的等變注意力單元,通過所述等變注意力單元確定注意力權(quán)重矩陣;
29、基于將所述注意力權(quán)重矩陣以及所述初始抗體結(jié)構(gòu),通過所述等變注意力模塊中的第三線性單元確定每個氨基酸的預(yù)測三維坐標,以得到所述抗體樣本的預(yù)測抗體結(jié)構(gòu)。
30、所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法,其中,所述基于所述預(yù)測抗體結(jié)構(gòu)和所述抗體樣本的真實抗體結(jié)構(gòu)對所述初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊進行訓(xùn)練,以得到抗體結(jié)構(gòu)預(yù)測模型具體包括:
31、基于所述預(yù)測抗體結(jié)構(gòu)和所述抗體樣本的真實抗體結(jié)構(gòu)構(gòu)建幀對齊點誤差損失函數(shù);
32、基于所述幀對齊點誤差損失函數(shù)對所述初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊進行訓(xùn)練,以得到抗體結(jié)構(gòu)預(yù)測模型。
33、本技術(shù)第二方面提供了一種抗體結(jié)構(gòu)預(yù)測方法,其使用基于上述抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法所構(gòu)建的抗體結(jié)構(gòu)預(yù)測模型,所述的抗體結(jié)構(gòu)預(yù)測方法具體包括:
34、獲取待預(yù)測抗體的氨基酸序列,并確定所述氨基酸序列的氨基酸編碼序列;
35、將所述氨基酸編碼序列輸入所述抗體結(jié)構(gòu)預(yù)測模型,通過所述抗體結(jié)構(gòu)預(yù)測模型確定所述待預(yù)測抗體的預(yù)測抗體結(jié)構(gòu),其中,所述預(yù)測抗體結(jié)構(gòu)包括所述預(yù)測抗體的氨基酸序列中的每個氨基酸的預(yù)測三維坐標。
36、本技術(shù)第三方面提供了一種抗體結(jié)構(gòu)預(yù)測模型的構(gòu)建裝置,其中,所述的抗體結(jié)構(gòu)預(yù)測模型的構(gòu)建裝置具體包括:
37、獲取模塊,用于獲取抗體樣本的氨基酸序列的氨基酸編碼序列,并基于所述氨基酸編碼序列確定所述抗體樣本的氨基酸序列的高維向量表示;
38、控制模塊,用于將所述高維向量表示輸入初始抗體結(jié)構(gòu)預(yù)測模型中的特征提取模塊,通過所述特征提取模塊中的注意力單元確定注意力編碼矩陣;根據(jù)所述高維向量表示和所述注意力編碼矩陣,通過所述特征提取模塊中的第一線性單元確定第一表示向量;根據(jù)所述注意力編碼矩陣和所述第一表示向量,通過所述特征提取模塊中的第二線性單元確定第二表示向量;
39、訓(xùn)練模塊,用于基于所述第一表示向量和所述第二表示向量,對初始抗體結(jié)構(gòu)預(yù)測模型中的等變注意力模塊進行訓(xùn)練,以得到抗體結(jié)構(gòu)預(yù)測模型。
40、本技術(shù)第四方面提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)如上任一所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法中的步驟。
41、本技術(shù)第五方面提供了一種終端設(shè)備,其包括:處理器和存儲器;
42、所述存儲器上存儲有可被所述處理器執(zhí)行的計算機可讀程序;
43、所述處理器執(zhí)行所述計算機可讀程序時實現(xiàn)如上任一所述的抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練方法中的步驟。
44、有益效果:
45、(1)、本技術(shù)通過線性單元來進行特征提取,由于減少了抗體結(jié)構(gòu)預(yù)測模型的模型參數(shù),因此一方面提高了抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練速度,另一方面可以減少抗體結(jié)構(gòu)預(yù)測模型所需的存儲空間。
46、(2)、本技術(shù)通過將高維向量表示轉(zhuǎn)換為兩個低維的第一表示向量和第二表示向量,可以減少后續(xù)基于第一表示向量和第二表示向量確定預(yù)測抗體結(jié)構(gòu)的計算量,從而可以提高抗體結(jié)構(gòu)預(yù)測模型的訓(xùn)練速度。
47、(3)、本技術(shù)通過減少模型參數(shù)和計算量,降低了抗體結(jié)構(gòu)預(yù)測模型在推理階段所需要的存儲空間和計算資源,從而可以降低抗體結(jié)構(gòu)預(yù)測模型對硬件資源的要求,避免了硬件資源對抗體結(jié)構(gòu)預(yù)測模型使用的限制。