本發(fā)明涉及化學(xué)信息學(xué),尤其涉及一種從期刊論文提取化學(xué)反應(yīng)信息的方法。
背景技術(shù):
1、化學(xué)反應(yīng)及其相關(guān)的反應(yīng)物、產(chǎn)物、反應(yīng)條件、產(chǎn)物特性等信息是藥物化學(xué)、材料化學(xué)和生物化學(xué)等領(lǐng)域的最重要的基礎(chǔ)知識之一。通過掌握這些知識,可幫助相關(guān)人員推斷出反應(yīng)機理、設(shè)計并優(yōu)化合成路線、預(yù)測反應(yīng)的主要產(chǎn)物以及可能的副產(chǎn)物,從而高效地合成目標(biāo)化合物,如藥物、天然產(chǎn)物、新化合物和新材料。
2、化學(xué)反應(yīng)及相關(guān)信息的最主要來源是期刊文獻(xiàn),但這些信息在期刊文獻(xiàn)中的呈現(xiàn)形式多樣,多模態(tài)且高度非結(jié)構(gòu)化,包括圖片、表格、文本等形式。高效而準(zhǔn)確地從期刊文獻(xiàn)中提取化學(xué)反應(yīng)及相關(guān)信息可為相關(guān)學(xué)科和領(lǐng)域的發(fā)展和應(yīng)用提供強有力的支持。
3、目前對期刊文獻(xiàn)化學(xué)反應(yīng)信息的提取有兩類方法:一是基于專家知識的人工提?。欢腔谌斯ぶ悄艿淖詣犹崛?。人工提取的方法主要依賴領(lǐng)域?qū)<业闹R和理解,其優(yōu)點是能夠保證信息的高度準(zhǔn)確性,但缺點是效率極低,需要耗費大量的時間和人力成本。人工提取是目前主流化學(xué)反應(yīng)信息數(shù)據(jù)庫所采用的主要方法,包括scifinder、reaxys等。與人工提取相對應(yīng)的是近期發(fā)展起來的基于人工智能的自動提取方法。這類自動提取方法基于大數(shù)據(jù)和人工智能技術(shù),在部分標(biāo)注數(shù)據(jù)的基礎(chǔ)上建立智能算法,從而實現(xiàn)化學(xué)反應(yīng)信息的自動提取。例如專利cn115481627a公開了一種化學(xué)反應(yīng)信息提取方法,該方法基于語義識別化學(xué)反應(yīng)中的反應(yīng)信息,并通過圖片識別比對相應(yīng)的化學(xué)式結(jié)構(gòu)。該方法充分利用了期刊中的全文文本信息,但無法解析化學(xué)反應(yīng)示意圖中的邏輯信息。實際上,專業(yè)人員更習(xí)慣于首先查看化學(xué)反應(yīng)的示意圖及其附屬圖表,這是因為從化學(xué)反應(yīng)示意圖和附屬圖表中可以快速準(zhǔn)確地識別出化學(xué)反應(yīng)的常用信息,包括反應(yīng)物、產(chǎn)物、反應(yīng)條件等。此外,化學(xué)反應(yīng)示意圖及附屬的圖表的信息密度遠(yuǎn)高于文本信息,因此開發(fā)基于化學(xué)反應(yīng)示意圖及附屬圖表的化學(xué)反應(yīng)信息智能提取方法更具實用價值。
技術(shù)實現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)的不足,提供一種從期刊論文提取化學(xué)反應(yīng)信息的方法,基于化學(xué)反應(yīng)示意圖及附屬圖表,實現(xiàn)從期刊文獻(xiàn)中提取化學(xué)反應(yīng)信息。
2、為解決上述技術(shù)問題,本發(fā)明所采取的技術(shù)方案是:一種從期刊論文提取化學(xué)反應(yīng)信息的方法,針對期刊論文中化學(xué)反應(yīng)式示意圖及其附屬的圖表,將提取流程進(jìn)行工序化分解,具體包括反應(yīng)信息單元提取、反應(yīng)信息模態(tài)分割、化學(xué)反應(yīng)式解析、表格解析、文本解析、反應(yīng)信息整合、數(shù)據(jù)存儲多個工序,包括以下步驟:
3、步驟1:從期刊文件中提取反應(yīng)信息單元;所述反應(yīng)信息單元為期刊文件中的包含至少一個化學(xué)反應(yīng)的完整的論文圖及其附屬的表格和條件說明文本;
4、步驟2:針對反應(yīng)信息單元進(jìn)行反應(yīng)信息模態(tài)分割;
5、將步驟1中提取的反應(yīng)信息單元自動分割為化學(xué)反應(yīng)式、表格和條件說明文本三類圖片信息;
6、步驟3:對步驟2分割出的化學(xué)反應(yīng)式圖片、表格圖片和條件說明文本圖片分別進(jìn)行解析;
7、步驟3.1:化學(xué)反應(yīng)式解析;
8、將步驟2分割出的化學(xué)反應(yīng)式圖片進(jìn)行解析,識別出其中的反應(yīng)物、產(chǎn)物、箭頭、反應(yīng)條件、連接符、分子標(biāo)簽信息,并且將以圖片形式表達(dá)的分子結(jié)構(gòu)圖識別為機器可讀的格式;
9、步驟3.2:表格解析;
10、將步驟2分割出的表格圖片進(jìn)行解析,根據(jù)自定義詞條匹配反應(yīng)條件和備注信息;
11、步驟3.3:文本解析;
12、將步驟2分割出的條件說明文本圖片進(jìn)行解析,根據(jù)自定義詞典匹配反應(yīng)條件和備注信息;
13、步驟4:反應(yīng)信息整合;
14、將步驟3中所解析出的信息整合為完整的化學(xué)反應(yīng)信息;整合的化學(xué)反應(yīng)信息包括:反應(yīng)物、產(chǎn)物、溶劑、催化劑、試劑、分子標(biāo)簽、反應(yīng)溫度、反應(yīng)時間、產(chǎn)率和備注信息;
15、步驟5:數(shù)據(jù)存儲;
16、將步驟1-步驟4所提取、分割、解析以及整合的反應(yīng)信息以優(yōu)化的方式存儲,方便后續(xù)的使用和更新。
17、優(yōu)選地,所述步驟1從期刊文件中提取的具體方法為:
18、步驟s11:將包含化學(xué)反應(yīng)信息的期刊文件的所有頁面均轉(zhuǎn)為圖片格式;
19、步驟s12:人工標(biāo)注出圖片中反應(yīng)信息單元的位置,從而建立反應(yīng)信息單元提取的初始訓(xùn)練集;
20、步驟s13:利用標(biāo)注的反應(yīng)信息單元圖片數(shù)據(jù)建立反應(yīng)信息單元提取機器學(xué)習(xí)模型;
21、步驟s14:利用反應(yīng)信息單元提取機器學(xué)習(xí)模型自動提取新的期刊圖片中的反應(yīng)信息單元;
22、步驟s15:對反應(yīng)信息單元提取機器學(xué)習(xí)模型提取的結(jié)果進(jìn)行抽檢,將提取錯誤的圖片人工重新標(biāo)注后加入訓(xùn)練集;
23、步驟s16:利用更新后的訓(xùn)練數(shù)據(jù)持續(xù)更新迭代反應(yīng)信息單元提取機器學(xué)習(xí)模型,直至人工抽檢錯誤率低于設(shè)定閾值。
24、優(yōu)選地,所述步驟2反應(yīng)信息模態(tài)分割的具體方法為:
25、步驟s21:人工標(biāo)注出步驟1中提取的反應(yīng)信息單元圖片中化學(xué)反應(yīng)式、表格、文本的位置,從而建立反應(yīng)信息模態(tài)分割的初始訓(xùn)練集;
26、步驟s22:利用標(biāo)注的反應(yīng)信息模態(tài)圖片數(shù)據(jù)建立反應(yīng)信息模態(tài)機器學(xué)習(xí)模型;
27、步驟s23:利用反應(yīng)信息模態(tài)機器學(xué)習(xí)模型自動分割未標(biāo)注的反應(yīng)信息單元圖片中的反應(yīng)信息模態(tài);
28、步驟s24:人工對反應(yīng)信息模態(tài)機器學(xué)習(xí)模型分割的結(jié)果進(jìn)行抽檢,將分割錯誤的圖片人工重新標(biāo)注后加入反應(yīng)信息模態(tài)分割的訓(xùn)練集;
29、步驟s25:利用更新后的反應(yīng)信息模態(tài)分割的訓(xùn)練數(shù)據(jù)持續(xù)更新迭代反應(yīng)信息模態(tài)機器學(xué)習(xí)模型,直至人工抽檢錯誤率低于設(shè)定閾值。
30、優(yōu)選地,步驟3.1所述化學(xué)反應(yīng)式解析包括化學(xué)反應(yīng)子項識別、化學(xué)反應(yīng)式識別和分子結(jié)構(gòu)識別三個子過程;
31、其中,化學(xué)反應(yīng)子項識別的目的是識別化學(xué)反應(yīng)式圖片中反應(yīng)物、產(chǎn)物、箭頭、反應(yīng)條件、連接符和分子標(biāo)簽所在的位置;
32、所述化學(xué)反應(yīng)式識別的目的是確定化學(xué)反應(yīng)子項識別中識別出的分子屬性,即:反應(yīng)物、產(chǎn)物、反應(yīng)條件和分子標(biāo)簽;
33、所述分子結(jié)構(gòu)識別的目的是將化學(xué)反應(yīng)子項識別中識別出的分子結(jié)構(gòu)圖片轉(zhuǎn)化為機器可讀的格式。
34、優(yōu)選地,所述化學(xué)反應(yīng)子項識別的具體方法為:
35、(1)人工標(biāo)注出步驟2中分割的化學(xué)反應(yīng)式圖片中分子、箭頭、反應(yīng)條件、標(biāo)簽、連接符的位置,從而建立化學(xué)反應(yīng)子項識別的初始訓(xùn)練集;
36、(2)利用標(biāo)注的化學(xué)反應(yīng)子項圖片數(shù)據(jù)建立反應(yīng)子項識別機器學(xué)習(xí)模型;
37、(3)利用化學(xué)反應(yīng)子項識別機器學(xué)習(xí)模型自動識別分割的化學(xué)反應(yīng)式圖片中的反應(yīng)子項;
38、(4)人工對化學(xué)反應(yīng)子項識別機器學(xué)習(xí)模型自動識別的結(jié)果進(jìn)行校對,并將識別錯誤的圖片人工重新標(biāo)注后加入化學(xué)反應(yīng)子項識別的訓(xùn)練集;
39、(5)利用更新后的化學(xué)反應(yīng)子項識別的訓(xùn)練數(shù)據(jù)持續(xù)更新迭代反應(yīng)子項識別機器學(xué)習(xí)模型,直至人工校對錯誤率低于設(shè)定閾值。
40、優(yōu)選地,所述化學(xué)反應(yīng)式的識別過程根據(jù)分子與箭頭的相對位置,采用如下基于規(guī)則的方法進(jìn)行識別:
41、1)每個箭頭代表一個化學(xué)反應(yīng);
42、2)位于箭頭起點方向的分子為反應(yīng)物,位于箭頭終點方向的分子為產(chǎn)物,其他位于箭頭垂直方向的文本為反應(yīng)條件;
43、3)符號“+”前后或上下的分子具有相同的屬性;
44、4)根據(jù)距離最近原則,定義每個分子標(biāo)簽所屬的分子;
45、人工對根據(jù)上述規(guī)則識別的反應(yīng)式進(jìn)行校對,并根據(jù)校對結(jié)果修正判定規(guī)則,直至人工校對錯誤率低于設(shè)定閾值。
46、優(yōu)選地,所述分子結(jié)構(gòu)識別的具體方法為:
47、(a)人工繪制出化學(xué)反應(yīng)子項識別中識別出的分子結(jié)構(gòu)圖,從而建立分子結(jié)構(gòu)識別初始訓(xùn)練集;
48、(b)利用人工繪制的分子結(jié)構(gòu)圖數(shù)據(jù)建立分子結(jié)構(gòu)識別機器學(xué)習(xí)模型;
49、(c)利用分子結(jié)構(gòu)識別機器學(xué)習(xí)模型自動識別新的分子結(jié)構(gòu)圖;
50、(d)人工對識別的結(jié)果進(jìn)行校對,并將校正錯誤的結(jié)果進(jìn)行人工修改或重新繪制后加入分子結(jié)構(gòu)識別訓(xùn)練集;
51、(e)利用更新后的分子結(jié)構(gòu)識別訓(xùn)練數(shù)據(jù)持續(xù)更新迭代分子結(jié)構(gòu)識別機器學(xué)習(xí)模型,直至人工校對錯誤率低于設(shè)定閾值。
52、優(yōu)選地,步驟3.2所述表格解析的目的是將步驟2中識別出的圖片格式的表格識別為機器可讀的格式,該識別過程的具體方法為:
53、步驟s321)采用開源的表格解析機器學(xué)習(xí)模型對表格圖片進(jìn)行解析;
54、步驟s322)人工對表格解析的結(jié)果進(jìn)行抽檢,將抽檢錯誤的表格人工重新標(biāo)注后加入表格解析訓(xùn)練集;
55、步驟s323)利用更新后的表格解析訓(xùn)練數(shù)據(jù)持續(xù)更新迭代表格解析機器學(xué)習(xí)模型,直至人工抽檢錯誤率低于設(shè)定閾值。
56、優(yōu)選地,步驟3.3所述文本解析的目的是將步驟2中識別出的圖片格式的條件說明文本識別為機器可讀的格式,該識別過程的具體方法為:
57、步驟s331:采用開源的文本解析機器學(xué)習(xí)模型對條件說明文本圖片進(jìn)行解析;
58、步驟s332:人工對文本解析的結(jié)果進(jìn)行抽檢,將錯誤的條件說明文本圖片人工重新標(biāo)注后加入文本解析訓(xùn)練集;
59、步驟s333:利用更新后的文本解析訓(xùn)練數(shù)據(jù)持續(xù)更新迭代文本解析機器學(xué)習(xí)模型,直至人工抽檢錯誤率低于設(shè)定閾值。
60、優(yōu)選地,所述步驟4反應(yīng)信息整合的目的是將上述所有流程提取解析的化學(xué)反應(yīng)信息按照設(shè)定的數(shù)據(jù)類別進(jìn)行整合,具體方法為:
61、步驟s41:將步驟3.1中提取分子結(jié)構(gòu)圖按照所解析的屬性分別整合為反應(yīng)物、產(chǎn)物、溶劑、催化劑和試劑這些反應(yīng)信息;
62、步驟s42:將步驟3.1中識別的文本信息和步驟3.3中解析的文本信息合并處理,采用開源的語義解析模型,根據(jù)自定義字典自動提取匹配得溶劑、催化劑、試劑、分子標(biāo)簽、反應(yīng)溫度、反應(yīng)時間和產(chǎn)率信息;將未匹配上的信息歸入備注信息;
63、步驟s43:將步驟3.3中解析的表格信息整合為反應(yīng)條件信息;通過創(chuàng)建表頭字典,建立表頭與反應(yīng)信息屬性的對應(yīng),自動提取匹配的溶劑、催化劑、試劑、分子標(biāo)簽、反應(yīng)溫度、反應(yīng)時間和產(chǎn)率信息;將未匹配的信息歸入備注信息;
64、步驟s44:對反應(yīng)信息整合的結(jié)果進(jìn)行抽檢,并將錯誤結(jié)果進(jìn)行修正;
65、步驟s45:根據(jù)修正的反應(yīng)信息整合數(shù)據(jù),重新執(zhí)行步驟s41-步驟s44,直至抽檢錯誤率低于設(shè)定閾值。
66、采用上述技術(shù)方案所產(chǎn)生的有益效果在于:本發(fā)明提供的一種從期刊論文提取化學(xué)反應(yīng)信息的方法,可高效且準(zhǔn)確的提取期刊論文中與化學(xué)反應(yīng)相關(guān)的反應(yīng)物、產(chǎn)物、反應(yīng)條件、產(chǎn)率、備注等信息。該方法針對期刊論文中化學(xué)反應(yīng)式示意圖及其附屬的圖表,將提取流程進(jìn)行工序化分解,具體包括反應(yīng)信息單元提取、反應(yīng)信息模態(tài)分割、化學(xué)反應(yīng)式解析、表格解析、文本解析、反應(yīng)信息整合、數(shù)據(jù)存儲等工序。每個工序包括自動預(yù)處理和人機交互兩個處理環(huán)節(jié):自動預(yù)處理采用基于機器學(xué)習(xí)或基于機理的模型對任務(wù)進(jìn)行自動處理,人機交互進(jìn)行人工檢驗和模型更新。