本發(fā)明涉及一種基于多模態(tài)融合的對(duì)化學(xué)物發(fā)育毒性預(yù)測(cè)的方法,同時(shí)涉及相應(yīng)的基于多模態(tài)融合的對(duì)化學(xué)物發(fā)育毒性預(yù)測(cè)的裝置,屬于人工智能輔助預(yù)測(cè)化學(xué)物毒性領(lǐng)域,屬于計(jì)算機(jī)科學(xué)、毒理學(xué)、化學(xué)信息學(xué)、生物信息學(xué)的多學(xué)科交叉研究。
背景技術(shù):
1、迄今為止,人類(lèi)社會(huì)發(fā)現(xiàn)及生產(chǎn)了大量的化學(xué)物質(zhì),以pubchem(https://pubchem.ncbi.nlm.nih.gov/)為例,該網(wǎng)站截至2024/05/15已經(jīng)收錄了1.18億種化合物,3.18億種物質(zhì)。然而,有毒性試驗(yàn)結(jié)果報(bào)道的化合物數(shù)量小于30萬(wàn),在浩如煙海的化合物群中,可謂九牛一毛。合成化學(xué)品給現(xiàn)代生活帶來(lái)了便利,為社會(huì)發(fā)展做出了巨大貢獻(xiàn)。食品添加劑、化妝品原料、醫(yī)藥、農(nóng)藥、有機(jī)中間體等是商業(yè)上常用的化學(xué)品類(lèi)別,是工業(yè)、農(nóng)業(yè)和日常生活中不可或缺的化學(xué)品。根據(jù)聯(lián)合國(guó)全球化學(xué)品展望ii,預(yù)計(jì)未來(lái)幾十年化學(xué)品銷(xiāo)售將持續(xù)增長(zhǎng)。然而,接觸化學(xué)混合物被視為對(duì)人類(lèi)健康的主要威脅之一。
2、大多數(shù)毒性/毒代動(dòng)力學(xué)預(yù)測(cè)模型都是基于qsar概念,即將結(jié)構(gòu)或特征信息進(jìn)行轉(zhuǎn)換將化學(xué)品轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的數(shù)字向量。這可以使用分子描述符和分子指紋來(lái)完成,從而進(jìn)一步進(jìn)行機(jī)器學(xué)習(xí)建模。數(shù)據(jù)庫(kù)包含從學(xué)術(shù)出版物收集的實(shí)驗(yàn)活動(dòng)數(shù)據(jù)和/或描述符值,而計(jì)算機(jī)程序通常從現(xiàn)有的嵌入式模型生成值。
3、基于人工智能的毒性預(yù)測(cè)模型,化學(xué)數(shù)據(jù)庫(kù)、分子描述符、指紋圖譜和模型算法的使用都是模型開(kāi)發(fā)中的重要因素。隨著信息技術(shù)的發(fā)展,多模態(tài)的方法走進(jìn)科學(xué)研究的視野之中,多模態(tài)深度學(xué)習(xí)被提出,并且由于其高度的非線(xiàn)性,已經(jīng)證明了其在表示多模態(tài)數(shù)據(jù)方面的優(yōu)勢(shì)。倘若以多模態(tài)融合為計(jì)算毒理學(xué)預(yù)測(cè)模型提供新的突破口,可以推動(dòng)智能系統(tǒng)向更加智能化的方發(fā)展。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明所要解決的首要技術(shù)問(wèn)題在于提供一種基于多模態(tài)融合的對(duì)化學(xué)物發(fā)育毒性預(yù)測(cè)的方法。
2、本發(fā)明所要解決的另一技術(shù)問(wèn)題在于提供一種基于多模態(tài)融合的對(duì)化學(xué)物發(fā)育毒性預(yù)測(cè)的裝置。
3、為了實(shí)現(xiàn)上述目的,本發(fā)明采用下述的技術(shù)方案:
4、根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種化學(xué)物發(fā)育毒性預(yù)測(cè),包括如下步驟:
5、步驟s1、獲取待預(yù)測(cè)的化學(xué)物的smiles式;
6、步驟s2、裝置調(diào)用內(nèi)部文件計(jì)算出該化學(xué)物3個(gè)模態(tài)的數(shù)據(jù),包括分子機(jī)構(gòu)、生物活性和批量的關(guān)鍵分子對(duì)接活性;
7、步驟s3、將計(jì)算好的3個(gè)模態(tài)數(shù)據(jù)輸入預(yù)先訓(xùn)練好的發(fā)育毒性預(yù)測(cè)模型中;
8、步驟s4、發(fā)育毒性預(yù)測(cè)模型預(yù)測(cè)的結(jié)果為該化學(xué)物存在發(fā)育毒性的概率值;
9、更進(jìn)一步的,本發(fā)明通過(guò)以下步驟可以實(shí)現(xiàn)對(duì)化學(xué)物發(fā)育毒性的細(xì)分預(yù)測(cè):
10、步驟s5、若預(yù)測(cè)概率值大于0.5,進(jìn)一步調(diào)用自編函數(shù)對(duì)批量的關(guān)鍵分子對(duì)接數(shù)據(jù)進(jìn)行離散化處理,獲取值為1變量對(duì)應(yīng)的基因;
11、步驟s6、對(duì)獲取的基因序列進(jìn)行富集分析,富集分析結(jié)果作為細(xì)分預(yù)測(cè)結(jié)果。優(yōu)選的,并輸出效果圖。
12、其中較優(yōu)地,計(jì)算所需數(shù)據(jù)時(shí),做如下處理:
13、步驟s21、通過(guò)hpo表型數(shù)據(jù)庫(kù)檢索出關(guān)鍵的與人類(lèi)發(fā)育疾病表型相關(guān)的基因,使用alpha?fold預(yù)測(cè)出一系列對(duì)應(yīng)的蛋白質(zhì)結(jié)構(gòu)的pdbqt文件,通過(guò)去除配體、加氫等處理,保存在相應(yīng)的裝置內(nèi);
14、步驟s22、根據(jù)待測(cè)化學(xué)物smiles式,使用python等相關(guān)庫(kù),計(jì)算出該化學(xué)物的3d分子機(jī)構(gòu)(化學(xué)結(jié)構(gòu)可以用一組數(shù)值來(lái)表征,這些數(shù)值被稱(chēng)為分子指紋或描述符。它們可能表征分子的屬性,例如log?p、分子量、氫鍵供體、受體、可旋轉(zhuǎn)鍵等,這些屬性可以與分子的實(shí)驗(yàn)證據(jù)聯(lián)系起來(lái);對(duì)于分子表征的每個(gè)層次,可以計(jì)算數(shù)百或數(shù)千個(gè)結(jié)構(gòu)特征。有各種各樣的分子描述符和指紋,編碼結(jié)構(gòu)、拓?fù)?、幾何、靜電、量子化學(xué)、熱力學(xué)、碎片特征等),并抽象提取出數(shù)千個(gè)特征,此為第1個(gè)模態(tài)數(shù)據(jù);
15、步驟s23、根據(jù)待測(cè)化學(xué)物smiles式,使用python等相關(guān)庫(kù),計(jì)算出化學(xué)物的生物活性數(shù)據(jù)(本發(fā)明中使用的生物活性數(shù)據(jù)由chemical?checker工具計(jì)算。chemicalchecker將小分子相似性原理擴(kuò)展到生物學(xué)的各個(gè)層面。cc將數(shù)據(jù)分為五個(gè)級(jí)別,從化合物的化學(xué)性質(zhì)到臨床結(jié)果,復(fù)雜性不斷增加。以通用矢量格式表達(dá)生物活性數(shù)據(jù),獲得25個(gè)cc空間的向量的詳細(xì)信息),提取出數(shù)千個(gè)特征,此為第2個(gè)模態(tài)數(shù)據(jù);
16、步驟s24、根據(jù)待測(cè)化學(xué)物smiles式,調(diào)用python等相關(guān)庫(kù),計(jì)算出該化學(xué)物的3d分子結(jié)構(gòu),并進(jìn)行去配體加氫處理,生成pbdqt文件。調(diào)用autodock?vina程序包進(jìn)行批量的分子對(duì)接,生成一個(gè)對(duì)接活性序列,共計(jì)1k左右的特征,此為第3個(gè)模態(tài)數(shù)據(jù)。
17、其中較優(yōu)地,計(jì)算第1個(gè)模態(tài)數(shù)據(jù)時(shí):
18、步驟221、該模態(tài)特征作為50×50的矩陣保存,所有數(shù)值向中心填充,邊緣以隨機(jī)噪聲填充。
19、其中較優(yōu)地,計(jì)算第2個(gè)模態(tài)數(shù)據(jù)時(shí):
20、步驟231、該模態(tài)特征作為25×128的矩陣保存。
21、其中較優(yōu)地,計(jì)算第3個(gè)模態(tài)數(shù)據(jù)時(shí):
22、步驟241、本發(fā)明預(yù)先額外訓(xùn)練了一個(gè)基于gene?cards數(shù)據(jù)庫(kù)文本數(shù)據(jù)挖掘的lda主題模型進(jìn)行基因分類(lèi);
23、步驟242、根據(jù)步驟241的基因分類(lèi)模型,將第3個(gè)模態(tài)的數(shù)據(jù)拆分成數(shù)個(gè)序列保存。
24、其中較優(yōu)地,對(duì)于計(jì)算得來(lái)的3個(gè)模態(tài)的數(shù)據(jù),我們做如下處理:
25、對(duì)于在本研究中計(jì)算獲得的原始特征數(shù)據(jù)依次進(jìn)行異常值處理、重編碼、標(biāo)準(zhǔn)化、重采樣。
26、步驟s3數(shù)據(jù)輸入前標(biāo)準(zhǔn)化至0-1之間,防止不同變量間的量綱差異引起的誤差
27、其中較優(yōu)地,所述發(fā)育毒性預(yù)測(cè)模型經(jīng)過(guò)如下步驟得到:
28、步驟s41、獲得多組化學(xué)物smiles號(hào)與發(fā)育毒性結(jié)局,每一組數(shù)據(jù)均按照上述方法計(jì)算出3個(gè)模態(tài)的數(shù)據(jù)。并且將這些數(shù)據(jù)整合成相應(yīng)格式進(jìn)行建模。
29、步驟s42、獲得多組有或無(wú)發(fā)育毒性數(shù)據(jù)訓(xùn)練預(yù)先設(shè)計(jì)的模型結(jié)構(gòu)進(jìn)行訓(xùn)練,進(jìn)一步進(jìn)行調(diào)參優(yōu)化,得到最優(yōu)的發(fā)育毒性預(yù)測(cè)模型。
30、其中較優(yōu)地,發(fā)育毒性預(yù)測(cè)模型采用多模態(tài)融合的方法,同時(shí)使用了dropout層進(jìn)行正則化。通過(guò)調(diào)整中間層的節(jié)點(diǎn)數(shù)降低了模型復(fù)雜度。最后一個(gè)dense層用sigmoid激活函數(shù)輸出一個(gè)概率,用于二分類(lèi)問(wèn)題:
31、第一個(gè)模態(tài)數(shù)據(jù)傳入后,使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)的結(jié)構(gòu);
32、第二個(gè)模態(tài)數(shù)據(jù)傳入后,使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)的結(jié)構(gòu);
33、第三個(gè)模態(tài)數(shù)據(jù)傳入后,使用注意力機(jī)制(transformer)的結(jié)構(gòu);
34、最后一個(gè)網(wǎng)絡(luò)層,包含1個(gè)節(jié)點(diǎn),使用sigmoid激活函數(shù),用于二分類(lèi)問(wèn)題的輸出。
35、其中較優(yōu)地,所述發(fā)育毒性預(yù)測(cè)模型在做出預(yù)測(cè)后,使用shapley方法計(jì)算各個(gè)結(jié)構(gòu)特征的shap值并進(jìn)行可視化。
36、其中較優(yōu)地,所述發(fā)育毒性預(yù)測(cè)模型在做出預(yù)測(cè)后,存在后續(xù)處理與細(xì)分預(yù)測(cè)的功能:
37、步驟s51、當(dāng)模型預(yù)測(cè)值大于0.5時(shí),自動(dòng)對(duì)第三個(gè)模態(tài)的數(shù)據(jù)按照某一設(shè)定好的閾值進(jìn)行離散化處理,并返回對(duì)應(yīng)的基因序列。
38、步驟s61、根據(jù)s51返回的基因序列,進(jìn)行富集分析,對(duì)可能受影響的通路進(jìn)行細(xì)分預(yù)測(cè)。
39、根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種基于多模態(tài)融合的對(duì)化學(xué)物發(fā)育毒性預(yù)測(cè)及細(xì)分預(yù)測(cè)的裝置,包括處理器和存儲(chǔ)器,所述處理器讀取所述存儲(chǔ)器中的計(jì)算機(jī)程序,結(jié)果展示于顯示器上,用于執(zhí)行以下操作:
40、獲得待采集數(shù)據(jù),該待采集數(shù)據(jù)僅包括待預(yù)測(cè)化學(xué)物的smiles式。
41、將所述smiles輸入到整個(gè)裝置的接收界面中;
42、所述發(fā)育毒性預(yù)測(cè)模型的輸出結(jié)果為化學(xué)物發(fā)育毒性風(fēng)險(xiǎn)概率,以及風(fēng)險(xiǎn)結(jié)構(gòu)特征排序、富集分析結(jié)果細(xì)分預(yù)測(cè)展現(xiàn)于顯示器上。
43、本發(fā)明的有益效果
44、本發(fā)明所提供的化學(xué)物發(fā)育毒性預(yù)測(cè)的方法及裝置,僅僅通過(guò)化學(xué)物的smiles式,為預(yù)測(cè)發(fā)育毒性預(yù)測(cè)及細(xì)分預(yù)測(cè)提供了更廣更豐富的相關(guān)特征,大大提高了預(yù)測(cè)精度和效率,一方面可以有效輔助對(duì)新型化學(xué)物的發(fā)育毒性鑒定與管理,另一方面有效節(jié)省實(shí)驗(yàn)人員的時(shí)間于精力。