欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多任務(wù)圖神經(jīng)網(wǎng)絡(luò)的分子屬性預(yù)測方法

文檔序號:40568360發(fā)布日期:2025-01-03 11:28閱讀:10來源:國知局
一種基于多任務(wù)圖神經(jīng)網(wǎng)絡(luò)的分子屬性預(yù)測方法

本發(fā)明屬于圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域,具體涉及一種基于多任務(wù)圖神經(jīng)網(wǎng)絡(luò)的分子屬性預(yù)測方法,多任務(wù)同時進(jìn)行,構(gòu)建圖神經(jīng)網(wǎng)絡(luò),優(yōu)化原子性質(zhì)預(yù)測表現(xiàn)。


背景技術(shù):

1、盡管傳統(tǒng)的深度學(xué)習(xí)方法被應(yīng)用在提取歐氏空間數(shù)據(jù)的特征方面取得了巨大的成功,但許多實際應(yīng)用場景中的數(shù)據(jù)是從非歐式空間生成的,傳統(tǒng)的深度學(xué)習(xí)方法在處理非歐式空間數(shù)據(jù)上的表現(xiàn)卻仍難以使人滿意。例如,在電子商務(wù)中,一個基于圖(graph)的學(xué)習(xí)系統(tǒng)能夠利用用戶和產(chǎn)品之間的交互來做出非常準(zhǔn)確的推薦,但圖的復(fù)雜性使得現(xiàn)有的深度學(xué)習(xí)算法在處理時面臨著巨大的挑戰(zhàn)。這是因為圖是不規(guī)則的,每個圖都有一個大小可變的無序節(jié)點,圖中的每個節(jié)點都有不同數(shù)量的相鄰節(jié)點,導(dǎo)致一些重要的操作(例如卷積)在圖像(image)上很容易計算,但不再適合直接用于圖。此外,現(xiàn)有深度學(xué)習(xí)算法的一個核心假設(shè)是數(shù)據(jù)樣本之間彼此獨立。然而,對于圖來說,情況并非如此,圖中的每個數(shù)據(jù)樣本(節(jié)點)都會有邊與圖中其他實數(shù)據(jù)樣本(節(jié)點)相關(guān),這些信息可用于捕獲實例之間的相互依賴關(guān)系。得益于其在非歐幾里得空間數(shù)據(jù)中的表現(xiàn),圖網(wǎng)絡(luò)研究方法正逐漸吸引著研究人員的關(guān)注。傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)將歐幾里得空間結(jié)構(gòu)化數(shù)據(jù)作為輸入,這也是其在計算機(jī)視覺領(lǐng)域兒有著優(yōu)異表現(xiàn)的原因之一。但現(xiàn)實生活中往往存在著非歐幾里得的數(shù)據(jù),例如社交網(wǎng)絡(luò)數(shù)據(jù)、零售網(wǎng)絡(luò)數(shù)據(jù)以及生物網(wǎng)絡(luò)數(shù)據(jù)。以筆者所處的腦神經(jīng)信息領(lǐng)域來說,目前常用的腦神經(jīng)影像分析手段都是基于體素的形態(tài)學(xué)分析,但人腦的不同區(qū)域往往存在著相互關(guān)聯(lián)和影響,以此為基礎(chǔ)構(gòu)建出的腦網(wǎng)絡(luò)往往能反映出更深層次的大腦活動機(jī)理。而正如其他網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)數(shù)據(jù),腦網(wǎng)絡(luò)通常以連接矩陣的形式表示,無法通過直觀的手段將其向量化,作為機(jī)器學(xué)習(xí)模型的輸入。而圖網(wǎng)絡(luò)分析方法的出現(xiàn)打破了這種僵局。圖在很多領(lǐng)域都有應(yīng)用。隨著圖形的普及,學(xué)習(xí)圖形的有效表示并將其應(yīng)用于解決下游任務(wù)尤為重要。gnn遵循一種消息傳遞方案,其中節(jié)點嵌入是通過聚合和轉(zhuǎn)換其相鄰節(jié)點的嵌入來獲得的。所以gnns應(yīng)用于許多數(shù)據(jù)分析包括節(jié)點分類,鏈接預(yù)測和推薦系統(tǒng)。它們在節(jié)點分類、鏈接預(yù)測等圖數(shù)據(jù)挖掘任務(wù)中表現(xiàn)出了卓越的性能,并且突破性地應(yīng)用到了現(xiàn)實生活中的許多領(lǐng)域,比如:推薦系統(tǒng)、金融風(fēng)險、生物醫(yī)療等。

2、本發(fā)明就生物醫(yī)療領(lǐng)域進(jìn)行了具體的探索,如今在生物領(lǐng)域許多新材料的發(fā)現(xiàn)和設(shè)計很大程度依賴于從他們本身的分子結(jié)構(gòu)預(yù)測分子相關(guān)的屬性,現(xiàn)如今就有許多基于物理的計算方法來建模和預(yù)測,諸如根據(jù)第一原理的密度泛函理論(dft),根據(jù)材料在原子尺度上的行為量子蒙特卡羅(qmc)和分子動力學(xué)等。但是這些作為預(yù)測分子材料性質(zhì)的工具過于昂貴,在計算等方面需要花費(fèi)大量的資源,因此需要一種新的工具。此時數(shù)據(jù)驅(qū)動建模技術(shù)的到來提供了新的方法來生成廉價和準(zhǔn)確的數(shù)據(jù)材料特性預(yù)測,有助于快速篩選大型材料搜索空間以進(jìn)行選擇具有理想性能的潛在候選材料。其中dft的背景技術(shù)如下:

3、原則上,物質(zhì)和分子的結(jié)構(gòu)完全由量子力學(xué)決定,特別是由薛定諤方程決定,它制約著電子波函數(shù)的行為。這些是描述在空間的一個特定位置找到一個特定電子的概率的數(shù)學(xué)小工具。但是,由于所有的電子都相互作用,從這種第一性原理出發(fā)計算結(jié)構(gòu)或分子軌道是計算上的一個噩夢。為了解決這個問題,研究人員(從藥理學(xué)家到電池工程師,其工作都依賴于發(fā)現(xiàn)或開發(fā)新分子)幾十年來一直依賴一套稱為密度函數(shù)理論(dft)的技術(shù)來預(yù)測分子的物理特性。該理論并不試圖對單個電子進(jìn)行建模,而是旨在計算電子的負(fù)電荷在整個分子中的整體分布。電子結(jié)構(gòu)理論的經(jīng)典方法,特別是hartree-fock方法和后hartree-fock方法,是基于復(fù)雜的多電子波函數(shù)的。密度泛函理論的主要目標(biāo)就是用電子密度取代波函數(shù)做為研究的基本量。因為多電子波函數(shù)有3n個變量(n為電子數(shù),每個電子包含三個空間變量),而電子密度僅是三個變量的函數(shù),無論在概念上還是實際上都更方便處理。密度泛函理論最普遍的應(yīng)用是通過kohn-sham方法實現(xiàn)的。在kohn-sham?dft的框架中,最難處理的多體問題(由于處在一個外部靜電勢中的電子相互作用而產(chǎn)生的)被簡化成了一個沒有相互作用的電子在有效勢場中運(yùn)動的問題。這個有效勢場包括了外部勢場以及電子間庫侖相互作用的影響,例如,交換相關(guān)作用。處理交換相關(guān)作用是ksdft中的難點。目前并沒有精確求解交換相關(guān)能exc的方法。最簡單的近似求解方法為局域密度近似(lda近似)。lda近似使用均勻電子氣來計算體系的交換能(均勻電子氣的交換能是可以精確求解的),而相關(guān)能部分則采用對自由電子氣進(jìn)行擬合的方法來處理。

4、但這種方法有其局限性,而且對某些類型的分子,甚至像氯化鈉這樣簡單的分子,都會給出錯誤的結(jié)果。而且,盡管dft計算比那些從基本量子理論出發(fā)的計算效率高得多,但它們?nèi)匀缓苈闊?,而且往往需要超級計算機(jī)。因此,在過去十年中,理論化學(xué)家們越來越多地開始嘗試使用機(jī)器學(xué)習(xí),特別是研究物質(zhì)的化學(xué)反應(yīng)性質(zhì)或其導(dǎo)熱能力等性質(zhì)。本發(fā)明針對傳統(tǒng)理論出現(xiàn)的問題進(jìn)行改進(jìn),將其與圖神經(jīng)網(wǎng)絡(luò)結(jié)合應(yīng)用。


技術(shù)實現(xiàn)思路

1、針對現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于多任務(wù)圖神經(jīng)網(wǎng)絡(luò)的分子屬性預(yù)測方法,在圖神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上搭建多任務(wù)模型,并應(yīng)用到針對分子結(jié)構(gòu)的預(yù)測。

2、一種基于多任務(wù)圖神經(jīng)網(wǎng)絡(luò)的分子屬性預(yù)測方法,包括步驟如下:

3、步驟一:根據(jù)場景確定分子屬性預(yù)測任務(wù)。分子屬性預(yù)測的任務(wù)種類繁多,大致可以分為兩類:圖級別的屬性預(yù)測和節(jié)點級別的屬性預(yù)測,而具體任務(wù)的選擇需要根據(jù)場景和需求來確定。

4、步驟二:根據(jù)確定的任務(wù)選擇相關(guān)訓(xùn)練數(shù)據(jù)并進(jìn)行預(yù)處理。公開的數(shù)據(jù)集都擁有較好的泛用性,同時利用字典將數(shù)據(jù)中的能量數(shù)據(jù)和原子力場數(shù)據(jù)區(qū)分開來,分別進(jìn)行圖神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

5、步驟三:針對每個任務(wù)搭建使用圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

6、步驟四:結(jié)合所有任務(wù),組成多任務(wù)圖神經(jīng)網(wǎng)絡(luò)(hydragnn),確定全局目標(biāo)損失函數(shù)。

7、步驟五:基于步驟二預(yù)處理后的數(shù)據(jù)對多任務(wù)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最優(yōu)的圖神經(jīng)網(wǎng)絡(luò)模型。

8、進(jìn)一步的,步驟三具體方法如下:

9、對于圖神經(jīng)網(wǎng)絡(luò)的卷積層,采用圖數(shù)據(jù)的形式,描述為點和邊之間的關(guān)系,可形式化為:

10、g=(v,ε)

11、其中v表示節(jié)點的設(shè)置,ε表示為節(jié)點之間連接的邊的設(shè)置。其中邊表示為(u,v)∈ε,表示連接了節(jié)點u和v。同時圖的拓?fù)浣Y(jié)構(gòu)通過圖的鄰接矩陣來描述,鄰接矩陣表達(dá)為a(adjacency?matrix),為一個n×n的矩陣,其中n為圖數(shù)據(jù)的節(jié)點個數(shù)。鄰接矩陣的描述遵循以下規(guī)則:

12、

13、圖卷積神經(jīng)網(wǎng)絡(luò)的核心則是消息傳遞機(jī)制,也就是在每一層中更新節(jié)點的特征屬性并傳遞給下一層,能夠表示為以下兩個公式:

14、

15、為了進(jìn)一步增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)的圖表示能力,加入節(jié)點的度豐富相關(guān)屬性,節(jié)點的度能夠表示為:

16、

17、針對圖級別的任務(wù),需要加入讀出層以獲得分子級別的預(yù)測結(jié)果,讀出層選擇全局平均池化層、全局求和池化層以及全局最大最小池化層中的任意一種,其選擇和參數(shù)配置根據(jù)具體的任務(wù)確定。針對節(jié)點級別的任務(wù),無需要加入讀出層,直接通過全連接層輸出結(jié)果。

18、進(jìn)一步的,步驟四具體方法如下:

19、將上述步驟中得到的具有全連接層的多個圖神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,得到多任務(wù)圖神經(jīng)網(wǎng)絡(luò),用于多任務(wù)學(xué)習(xí);每個任務(wù)的預(yù)測量與單獨的損失函數(shù)相關(guān)聯(lián),并且在多任務(wù)圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練期間最小化的全局目標(biāo)損失函數(shù)是這些單獨損失函數(shù)的線性組合。假設(shè)存在t個任務(wù),且單個任務(wù)i的公式是任務(wù)輸入x的空間維度集合,是預(yù)測的分子性質(zhì)yi的空間維度集合,單個任務(wù)可形式化為:

20、yi=fi(x),i=1,...,t

21、利用其中分子性質(zhì)yi的相關(guān)性,使用公式替換描述出所有任務(wù)中輸入和輸出的關(guān)系:

22、

23、其中w是可學(xué)習(xí)的權(quán)重,用于分配每個任務(wù)之間合理的權(quán)重比例。由此對單個任務(wù)的形式進(jìn)行轉(zhuǎn)換:

24、ypredict,i=fiwi(x),i=1,...,t

25、其中,ypredict,i是單個任務(wù)的預(yù)測值,wi是第i個任務(wù)的權(quán)重。

26、則多任務(wù)圖神經(jīng)網(wǎng)絡(luò)的整體損失函數(shù)能夠表示為多個任務(wù)損失函數(shù)之間的線性組合即全局目標(biāo)損失函數(shù),公式表達(dá)如下:

27、

28、其中,ytrue,i為真實值,αi是與任務(wù)i單獨相關(guān)的損失函數(shù)的可學(xué)習(xí)權(quán)重。其中每個任務(wù)在整體多任務(wù)圖神經(jīng)網(wǎng)絡(luò)中所占的比例通過深度學(xué)習(xí)自適應(yīng)分配,以獲得整體網(wǎng)絡(luò)模型達(dá)到最優(yōu)狀態(tài)的任務(wù)權(quán)重分配情況。

29、進(jìn)一步的,步驟五具體方法如下:

30、將構(gòu)建的多任務(wù)圖神經(jīng)網(wǎng)絡(luò)搭配步驟二預(yù)處理后的化學(xué)分子相關(guān)的數(shù)據(jù)進(jìn)行預(yù)測訓(xùn)練,將統(tǒng)一的原子特征(包括原子的空間坐標(biāo)以及電荷數(shù)量屬性)輸入到多任務(wù)圖神經(jīng)網(wǎng)絡(luò)中,分別進(jìn)行節(jié)點級別的學(xué)習(xí)和圖級別的學(xué)習(xí),即分別對各個任務(wù)進(jìn)行預(yù)測。將預(yù)測結(jié)果和真實值進(jìn)行比較得到相應(yīng)的損失函數(shù)并進(jìn)行線性組合,形成總的損失函數(shù)即全局目標(biāo)損失函數(shù),作為多任務(wù)圖神經(jīng)網(wǎng)絡(luò)的損失函數(shù)進(jìn)行迭代訓(xùn)練。在多次迭代后獲得最優(yōu)的圖神經(jīng)網(wǎng)絡(luò)模型,通過最優(yōu)的圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分子屬性預(yù)測。

31、本發(fā)明有益效果如下:

32、1、本發(fā)明有效的多任務(wù)訓(xùn)練思想遷移到圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型中。

33、2、本發(fā)明針對分子結(jié)構(gòu)相關(guān)的圖數(shù)據(jù)保持良好的學(xué)習(xí)效率,在預(yù)測分子結(jié)構(gòu)全局或者局部性質(zhì)上有良好的表現(xiàn)。

34、3、本發(fā)明提升了分子結(jié)構(gòu)的預(yù)測速度和效率,相比較傳統(tǒng)方法有著較大提升,是深度學(xué)習(xí)和分子結(jié)構(gòu)預(yù)測的良好融合。

35、機(jī)器學(xué)習(xí)的一個優(yōu)勢是,雖然需要大量的計算能力來訓(xùn)練模型,但這個過程只需要做一次。然后可以在普通的筆記本電腦上進(jìn)行個別預(yù)測,與每次都要從頭開始計算相比,大大降低了計算成本。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大石桥市| 湾仔区| 柘城县| 通州区| 庆阳市| 罗城| 临海市| 娄底市| 荥经县| 康保县| 聂拉木县| 额济纳旗| 东莞市| 彭州市| 阜宁县| 武冈市| 东兰县| 大渡口区| 资源县| 观塘区| 内江市| 涞水县| 仙桃市| 贡觉县| 饶阳县| 北海市| 荥阳市| 聂拉木县| 准格尔旗| 澄江县| 长寿区| 都安| 子长县| 龙门县| 龙泉市| 石首市| 阳山县| 崇明县| 栾川县| 永德县| 洪洞县|