本技術(shù)涉及大數(shù)據(jù),尤其涉及一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在學(xué)術(shù)論文中,數(shù)據(jù)的“可用性”是國(guó)際fair數(shù)據(jù)原則中的重要組成部分,對(duì)于共享數(shù)據(jù)和數(shù)據(jù)應(yīng)用至關(guān)重要。特別是在海量生物醫(yī)學(xué)論文中,大量的研究都依賴于數(shù)據(jù)的使用和分析,這些數(shù)據(jù)通常被稱為科學(xué)論文關(guān)聯(lián)數(shù)據(jù)。然而,并非所有論文都規(guī)范地引用數(shù)據(jù)或說明數(shù)據(jù)的使用情況,特別是在標(biāo)注和解釋數(shù)據(jù)的可獲取性和可用性方面存在不足。
2、為了提高論文關(guān)聯(lián)數(shù)據(jù)的可獲取性和可用性,國(guó)際上的elsevier、springer、willey、taylor&francis和sage等五大出版集團(tuán)制定了不同級(jí)別的數(shù)據(jù)政策,并在論文中要求撰寫數(shù)據(jù)可用性聲明(data?availability?statement,das)。這些出版集團(tuán)要求旗下期刊根據(jù)不同的數(shù)據(jù)政策對(duì)論文中的數(shù)據(jù)可用性進(jìn)行規(guī)定。
3、然而,由于不同出版集團(tuán)的數(shù)據(jù)可用性聲明存在差異,缺乏統(tǒng)一的分級(jí)標(biāo)準(zhǔn)、描述方式和格式,這導(dǎo)致科學(xué)文獻(xiàn)中關(guān)于數(shù)據(jù)引用信息的整合困難,也使論文中的數(shù)據(jù)可用性無法得到準(zhǔn)確的分類。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決論文中的數(shù)據(jù)可用性無法得到準(zhǔn)確分類的問題。
2、第一方面,本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類方法,所述方法包括:
3、獲取待分類論文文本;
4、對(duì)所述待分類論文文本進(jìn)行數(shù)據(jù)處理,提取論文數(shù)據(jù)可用性聲明文本,所述論文數(shù)據(jù)可用性聲明文本為論文中用于描述論文數(shù)據(jù)可用性的文本;
5、將所述論文數(shù)據(jù)可用性聲明文本作為數(shù)據(jù)可用性分類模型的輸入,得到可用性分類結(jié)果;其中,所述數(shù)據(jù)可用性分類模型用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列,并對(duì)所述向量序列進(jìn)行卷積操作,得到所述論文數(shù)據(jù)可用性聲明文本的文本特征,根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中,得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果。
6、在一種可能的實(shí)現(xiàn)方式中,所述數(shù)據(jù)可用性分類模型包括第一模塊和第二模塊;
7、所述第一模塊用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列;
8、所述第二模塊用于對(duì)所述向量序列進(jìn)行卷積操作,得到所述論文數(shù)據(jù)可用性聲明文本的文本特征,根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中,得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果。
9、在一種可能的實(shí)現(xiàn)方式中,所述對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列,包括:
10、對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行切分獲得多個(gè)句子文本序列;
11、對(duì)各所述句子文本序列依次進(jìn)行分詞、去除停用詞和詞嵌入處理,得到多個(gè)詞嵌入向量,所述詞嵌入向量與所述句子文本序列一一對(duì)應(yīng);
12、基于自注意力機(jī)制和位置編碼對(duì)所述多個(gè)詞嵌入向量進(jìn)行處理,得到所述向量序列。
13、在一種可能的實(shí)現(xiàn)方式中,所述對(duì)所述向量序列進(jìn)行卷積操作,得到所述論文數(shù)據(jù)可用性聲明文本的文本特征,包括:
14、通過卷積核對(duì)所述向量序列進(jìn)行卷積操作,提取所述論文數(shù)據(jù)可用性聲明文本的多個(gè)局部特征;
15、對(duì)所述多個(gè)局部特征進(jìn)行空間下采樣,并將所述多個(gè)局部特征聚合為所述文本特征。
16、在一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中,得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果,包括:
17、通過全連接層的激活函數(shù)將所述文本特征映射到所述預(yù)設(shè)分類合集中,得到所述可用性分類結(jié)果,所述全連接層中的神經(jīng)元數(shù)量與所述預(yù)設(shè)分類合集中的類別數(shù)量相同。
18、在一種可能的實(shí)現(xiàn)方式中,所述預(yù)設(shè)分類合集包括數(shù)據(jù)完全不公開、需通過聯(lián)系作者或者向數(shù)據(jù)倉(cāng)儲(chǔ)提出申請(qǐng)獲得、數(shù)據(jù)已在文中或在附件中提供、數(shù)據(jù)部分包含在文中以及數(shù)據(jù)完全公開于公共數(shù)據(jù)倉(cāng)儲(chǔ)。
19、在一種可能的實(shí)現(xiàn)方式中,所述數(shù)據(jù)可用性分類模型的訓(xùn)練方法為:
20、獲取帶有數(shù)據(jù)可用性分類標(biāo)簽的樣本文本,所述樣本文本為論文數(shù)據(jù)可用性聲明文本;
21、利用待訓(xùn)練模型對(duì)所述樣本文本進(jìn)行數(shù)據(jù)可用性分類,得到數(shù)據(jù)可用性分類結(jié)果;
22、根據(jù)所述數(shù)據(jù)可用性分類結(jié)果以及所述數(shù)據(jù)可用性分類標(biāo)簽,對(duì)所述待訓(xùn)練模型進(jìn)行參數(shù)優(yōu)化,得到所述數(shù)據(jù)可用性分類模型;所述待訓(xùn)練模型用于對(duì)所述樣本文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列,并對(duì)所述向量序列進(jìn)行卷積操作,得到所述樣本文本的文本特征,根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中,得到所述樣本文本的所述數(shù)據(jù)可用性分類結(jié)果。
23、第二方面,本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類裝置,所述裝置包括:
24、獲取模塊,用于獲取待分類論文文本;
25、處理模塊,用于對(duì)所述待分類論文文本進(jìn)行數(shù)據(jù)處理,提取論文數(shù)據(jù)可用性聲明文本,所述論文數(shù)據(jù)可用性聲明文本為論文中用于描述論文數(shù)據(jù)可用性的文本;
26、分類模塊,用于將所述論文數(shù)據(jù)可用性聲明文本作為數(shù)據(jù)可用性分類模型的輸入,得到可用性分類結(jié)果;其中,所述數(shù)據(jù)可用性分類模型用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列,并對(duì)所述向量序列進(jìn)行卷積操作,得到所述論文數(shù)據(jù)可用性聲明文本的文本特征,根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中,得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果。
27、在一種可能的實(shí)現(xiàn)方式中,所述數(shù)據(jù)可用性分類模型包括第一模塊和第二模塊;
28、所述第一模塊用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列;
29、所述第二模塊用于對(duì)所述向量序列進(jìn)行卷積操作,得到所述論文數(shù)據(jù)可用性聲明文本的文本特征,根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中,得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果
30、在一種可能的實(shí)現(xiàn)方式中,所述第一模塊具體用于:
31、對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行切分獲得多個(gè)句子文本序列;
32、對(duì)各所述句子文本序列依次進(jìn)行分詞、去除停用詞和詞嵌入處理,得到多個(gè)詞嵌入向量,所述詞嵌入向量與所述句子文本序列一一對(duì)應(yīng);
33、基于自注意力機(jī)制和位置編碼對(duì)所述多個(gè)詞嵌入向量進(jìn)行處理,得到所述向量序列。
34、在一種可能的實(shí)現(xiàn)方式中,所述第二模塊具體用于:通過卷積核對(duì)所述向量序列進(jìn)行卷積操作,提取所述論文數(shù)據(jù)可用性聲明文本的多個(gè)局部特征;
35、對(duì)所述多個(gè)局部特征進(jìn)行空間下采樣,并將所述多個(gè)局部特征聚合為所述文本特征。
36、在一種可能的實(shí)現(xiàn)方式中,所述第二模塊具體用于通過全連接層的激活函數(shù)將所述文本特征映射到所述預(yù)設(shè)分類合集中,得到所述可用性分類結(jié)果,所述全連接層中的神經(jīng)元數(shù)量與所述預(yù)設(shè)分類合集中的類別數(shù)量相同。
37、在一種可能的實(shí)現(xiàn)方式中,所述預(yù)設(shè)分類合集包括數(shù)據(jù)完全不公開、需通過聯(lián)系作者或者向數(shù)據(jù)倉(cāng)儲(chǔ)提出申請(qǐng)獲得、數(shù)據(jù)已在文中或在附件中提供、數(shù)據(jù)部分包含在文中以及數(shù)據(jù)完全公開于公共數(shù)據(jù)倉(cāng)儲(chǔ)。
38、在一種可能的實(shí)現(xiàn)方式中,所述數(shù)據(jù)可用性分類模型的訓(xùn)練方法為:
39、獲取帶有數(shù)據(jù)可用性分類標(biāo)簽的樣本文本,所述樣本文本為論文數(shù)據(jù)可用性聲明文本;
40、利用待訓(xùn)練模型對(duì)所述樣本文本進(jìn)行數(shù)據(jù)可用性分類,得到數(shù)據(jù)可用性分類結(jié)果;
41、根據(jù)所述數(shù)據(jù)可用性分類結(jié)果以及所述數(shù)據(jù)可用性分類標(biāo)簽,對(duì)所述待訓(xùn)練模型進(jìn)行參數(shù)優(yōu)化,得到所述數(shù)據(jù)可用性分類模型;所述待訓(xùn)練模型用于對(duì)所述樣本文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列,并對(duì)所述向量序列進(jìn)行卷積操作,得到所述樣本文本的文本特征,根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中,得到所述樣本文本的所述數(shù)據(jù)可用性分類結(jié)果。
42、第三方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器用于存儲(chǔ)指令或代碼,所述處理器用于執(zhí)行所述指令或代碼,以使所述計(jì)算機(jī)設(shè)備執(zhí)行前述第一方面中任一項(xiàng)所述的論文數(shù)據(jù)可用性分類方法。
43、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有代碼,當(dāng)所述代碼被運(yùn)行時(shí),運(yùn)行所述代碼的設(shè)備實(shí)現(xiàn)前述第一方面中任一項(xiàng)所述的論文數(shù)據(jù)可用性分類。
44、本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。在執(zhí)行所述方法時(shí),先獲取待分類論文文本,并對(duì)待分類論文文本進(jìn)行前期的數(shù)據(jù)處理,提取到論文數(shù)據(jù)可用性聲明文本;然后,將論文數(shù)據(jù)可用性聲明文本輸入數(shù)據(jù)可用性分類模型;通過數(shù)據(jù)可用性分類模型對(duì)論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理得到向量序列,并對(duì)向量序列進(jìn)行卷積操作得到文本特征,進(jìn)而根據(jù)文本特征映射到預(yù)設(shè)分類合集中,輸出該待分類論文文本中數(shù)據(jù)可用性的分類結(jié)果,實(shí)現(xiàn)了對(duì)論文中的數(shù)據(jù)可用性進(jìn)行分類,為后續(xù)根據(jù)數(shù)據(jù)可用性分類構(gòu)建數(shù)據(jù)庫(kù)提供基礎(chǔ)。