本發(fā)明涉及人工智能技術(shù)、信息提取,尤其涉及一種挖掘文獻來源毒性效應(yīng)測試信息的方法。
背景技術(shù):
1、化合物毒性效應(yīng)信息在環(huán)境科學(xué)、毒理學(xué)、藥學(xué)等領(lǐng)域發(fā)揮著重要的作用,有助于風(fēng)險評估、機理解釋、活性預(yù)測等。目前,可公開獲取的化合物毒性效應(yīng)數(shù)據(jù)庫十分有限,主要有實施體外高通量篩查測試的機構(gòu)或項目(如tox21、博德研究所、斯克利普斯研究所分子篩查中心)及人工整理的文獻來源信息(如chembl)。其中,后者由于高昂的人力和時間成本,所覆蓋的效應(yīng)與化合物受限。
2、因此,需要一種使用文本挖掘工具自動化提取文獻信息以供更為全面信息的可行方法。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種挖掘文獻來源毒性效應(yīng)測試信息的方法,包括:
2、根據(jù)目標(biāo)毒性效應(yīng)的相關(guān)名詞從文獻庫中獲取多份相關(guān)文獻;
3、將多份相關(guān)文獻進行預(yù)處理得到多份目標(biāo)毒性效應(yīng)語料,其中多份目標(biāo)毒性效應(yīng)語料包括第一語料集;;
4、將預(yù)設(shè)好的信息挖掘規(guī)則加入大語言模型;
5、將多份目標(biāo)毒性效應(yīng)語料輸入大語言模型,以便大語言模型基于信息挖掘規(guī)則對多份目標(biāo)毒性效應(yīng)語料分別進行信息挖掘;
6、通過大語言模型輸出針對第一語料集包括多個預(yù)設(shè)挖掘項的挖掘結(jié)果,其中,多個預(yù)設(shè)挖掘項包括測試化合物、實驗對象類型、暴露時長、效應(yīng)和結(jié)果;
7、根據(jù)針對暴露時長設(shè)置的預(yù)設(shè)閾值,對挖掘結(jié)果進行篩選,得到目標(biāo)結(jié)果。
8、根據(jù)本發(fā)明的實施例,通過提示詞工程設(shè)定信息挖掘規(guī)則,其中,信息挖掘規(guī)則包括角色提示規(guī)則、輸入文本規(guī)則、任務(wù)描述規(guī)則、細致規(guī)則和易錯提示規(guī)則。
9、根據(jù)本發(fā)明的實施例,通過提示詞工程設(shè)定信息挖掘規(guī)則包括:
10、根據(jù)目標(biāo)毒性效應(yīng)的領(lǐng)域設(shè)定角色提示規(guī)則;
11、根據(jù)與目標(biāo)毒性效應(yīng)語料對應(yīng)的文本格式設(shè)定輸入文本規(guī)則;
12、根據(jù)多個預(yù)設(shè)挖掘項和預(yù)設(shè)的目標(biāo)輸出格式設(shè)定任務(wù)描述規(guī)則;
13、針對每個預(yù)設(shè)挖掘項設(shè)定細致規(guī)則;
14、根據(jù)利用大語言模型生成的歷史挖掘記錄中的錯誤記錄設(shè)定易錯提示規(guī)則。
15、根據(jù)本發(fā)明的實施例,多個預(yù)設(shè)挖掘項還包括細胞或模式動物信息、暴露方法、證據(jù)類型、暴露濃度、檢測組織或器官。
16、根據(jù)本發(fā)明的實施例,將多份相關(guān)文獻進行預(yù)處理得到多份目標(biāo)毒性效應(yīng)語料包括:
17、對多份相關(guān)文獻進行數(shù)據(jù)清洗,用以去除圖表內(nèi)容、空格、頁眉、頁腳、旁注和頁碼,得到多份清洗文獻;
18、對多份清洗文獻進行數(shù)據(jù)規(guī)整化,用以保留題目、摘要、方法和結(jié)果的相關(guān)章節(jié),得到多份規(guī)整文獻;
19、根據(jù)預(yù)設(shè)的化合物名稱、效應(yīng)種類、實驗對象種類和暴露條件,對多份規(guī)整文獻中的包括方法和結(jié)果的相關(guān)章節(jié)進行進一步篩選和保留,得到方法結(jié)果章節(jié),用以提高目標(biāo)毒性效應(yīng)信息的密度;
20、將多份規(guī)整文獻中的題目和摘要的相關(guān)章節(jié),以及方法結(jié)果章節(jié)按照多份相關(guān)文獻的原始順序進行拼接,得到多份目標(biāo)毒性效應(yīng)語料。
21、根據(jù)本發(fā)明的實施例,根據(jù)針對暴露時長設(shè)置的預(yù)設(shè)閾值,對挖掘結(jié)果進行篩選,得到目標(biāo)結(jié)果包括:
22、基于預(yù)設(shè)表達格式,將挖掘結(jié)果中的測試化合物的數(shù)值進行歸一化處理,得到參考數(shù)據(jù),其中,預(yù)設(shè)表達格式包括inchikey格式或smiles格式;
23、根據(jù)預(yù)設(shè)閾值,將參考數(shù)據(jù)進行分類,得到多個用于代表多種染毒程度的多個數(shù)據(jù)子集;
24、根據(jù)參考數(shù)據(jù)和多個數(shù)據(jù)子集得到目標(biāo)結(jié)果。
25、根據(jù)本發(fā)明的實施例,通過大語言模型輸出針對第二語料集的提示信息,提示信息用于提示:對第二語料集中的目標(biāo)毒性效應(yīng)語料沒有挖掘出包含多個預(yù)設(shè)挖掘項的挖掘結(jié)果。
26、根據(jù)本發(fā)明的實施例,隨機選擇多份相關(guān)文獻中的n個相關(guān)文獻組成第一評估集;
27、確定n個相關(guān)文獻的真實挖掘結(jié)果,其中,真實挖掘結(jié)果包括具有真實挖掘結(jié)果和無真實挖掘結(jié)果;
28、根據(jù)n個相關(guān)文獻的真實挖掘結(jié)果、大語言模型挖掘結(jié)果確定大語言模型算法的精確率、召回率和f1值,其中精確率、召回率和f1值用以表征大語言模型的算法性能。
29、根據(jù)本發(fā)明的實施例,隨機選擇多份相關(guān)文獻中的n個相關(guān)文獻組成第一評估集包括:
30、根據(jù)式(1)確定第一評估集中多個相關(guān)文獻的最少數(shù)量n,其中n為正整數(shù);
31、???(1)
32、其中,在式(1)中,1-α為根據(jù)預(yù)期大語言模型算法表現(xiàn)預(yù)設(shè)的目標(biāo)置信水平,z為預(yù)設(shè)的目標(biāo)置信水平對應(yīng)的z分?jǐn)?shù),e為預(yù)設(shè)的目標(biāo)誤差范圍,σ為根據(jù)歷史數(shù)據(jù)中第一評估集規(guī)模確定的總體標(biāo)準(zhǔn)差估計值。
33、根據(jù)本發(fā)明的實施例,根據(jù)式(2)確定第二評估集的最少數(shù)量m;
34、???(2);
35、其中,在式(2)中,π為根據(jù)歷史數(shù)據(jù)中第二評估集規(guī)模確定的總體比例估計值,1-α為根據(jù)預(yù)期大語言模型算法表現(xiàn)預(yù)設(shè)的目標(biāo)置信水平,z為預(yù)設(shè)的目標(biāo)置信水平對應(yīng)的z分?jǐn)?shù),e為預(yù)設(shè)的目標(biāo)誤差范圍;
36、根據(jù)最少數(shù)量m和真實挖掘結(jié)果為無結(jié)果的相關(guān)文獻組成第二評估集;
37、確定第二評估集中相關(guān)文獻屬于第二語料集的相關(guān)文獻數(shù)量;
38、根據(jù)屬于第二語料集的最少數(shù)量m和返回所述提示信息的數(shù)量得到大語言模型進行信息挖掘的假陽性率,其中假陽性率用以表征真實挖掘結(jié)果為無結(jié)果但具有挖掘結(jié)果的概率。
39、根據(jù)本發(fā)明的實施例,通過對目標(biāo)毒性效應(yīng)的相關(guān)文獻進行收集和預(yù)處理,得到目標(biāo)毒性語料提高信息密度,從而可以通過大語言模型和針對目標(biāo)毒性效應(yīng)設(shè)定的挖掘規(guī)則進行信息挖掘,通過使用大語言模型自動化地處理大量文獻,模型可以識別復(fù)雜的模式和關(guān)系,顯著減少人工閱讀和數(shù)據(jù)提取的時間和勞動強度,同時可以根據(jù)需要調(diào)整挖掘規(guī)則,可以靈活地適應(yīng)不同的研究需求或關(guān)注點,而且可以保證在不同文獻中應(yīng)用相同的挖掘標(biāo)準(zhǔn)和規(guī)則,從而提高挖掘結(jié)果的一致性和可比性。
1.一種挖掘文獻來源毒性效應(yīng)測試信息的方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,還包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述通過提示詞工程設(shè)定信息挖掘規(guī)則包括:
4.根據(jù)權(quán)利要求1所述的方法,其中,
5.根據(jù)要求1所述的方法,其中,所述將所述多份相關(guān)文獻進行預(yù)處理得到多份目標(biāo)毒性效應(yīng)語料包括:
6.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)針對暴露時長設(shè)置的預(yù)設(shè)閾值,對挖掘結(jié)果進行篩選,得到目標(biāo)結(jié)果包括:
7.根據(jù)權(quán)利要求1所述的方法,還包括:
8.根據(jù)權(quán)利要求7所述的方法,其中,還包括:
9.根據(jù)權(quán)利要求8所述的方法,其中,所述隨機選擇所述多份相關(guān)文獻中的n個相關(guān)文獻組成第一評估集包括:
10.根據(jù)權(quán)利要求8所述方法,其中,還包括: