一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

文檔序號(hào)：40574326發(fā)布日期：2025-01-03 11:38閱讀：16來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及大數(shù)據(jù)，尤其涉及一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。

背景技術(shù)：

1、在學(xué)術(shù)論文中，數(shù)據(jù)的“可用性”是國(guó)際fair數(shù)據(jù)原則中的重要組成部分，對(duì)于共享數(shù)據(jù)和數(shù)據(jù)應(yīng)用至關(guān)重要。特別是在海量生物醫(yī)學(xué)論文中，大量的研究都依賴于數(shù)據(jù)的使用和分析，這些數(shù)據(jù)通常被稱為科學(xué)論文關(guān)聯(lián)數(shù)據(jù)。然而，并非所有論文都規(guī)范地引用數(shù)據(jù)或說明數(shù)據(jù)的使用情況，特別是在標(biāo)注和解釋數(shù)據(jù)的可獲取性和可用性方面存在不足。

2、為了提高論文關(guān)聯(lián)數(shù)據(jù)的可獲取性和可用性，國(guó)際上的elsevier、springer、willey、taylor&francis和sage等五大出版集團(tuán)制定了不同級(jí)別的數(shù)據(jù)政策，并在論文中要求撰寫數(shù)據(jù)可用性聲明(data?availability?statement，das)。這些出版集團(tuán)要求旗下期刊根據(jù)不同的數(shù)據(jù)政策對(duì)論文中的數(shù)據(jù)可用性進(jìn)行規(guī)定。

3、然而，由于不同出版集團(tuán)的數(shù)據(jù)可用性聲明存在差異，缺乏統(tǒng)一的分級(jí)標(biāo)準(zhǔn)、描述方式和格式，這導(dǎo)致科學(xué)文獻(xiàn)中關(guān)于數(shù)據(jù)引用信息的整合困難，也使論文中的數(shù)據(jù)可用性無法得到準(zhǔn)確的分類。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)，旨在解決論文中的數(shù)據(jù)可用性無法得到準(zhǔn)確分類的問題。

2、第一方面，本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類方法，所述方法包括：

3、獲取待分類論文文本；

4、對(duì)所述待分類論文文本進(jìn)行數(shù)據(jù)處理，提取論文數(shù)據(jù)可用性聲明文本，所述論文數(shù)據(jù)可用性聲明文本為論文中用于描述論文數(shù)據(jù)可用性的文本；

5、將所述論文數(shù)據(jù)可用性聲明文本作為數(shù)據(jù)可用性分類模型的輸入，得到可用性分類結(jié)果；其中，所述數(shù)據(jù)可用性分類模型用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列，并對(duì)所述向量序列進(jìn)行卷積操作，得到所述論文數(shù)據(jù)可用性聲明文本的文本特征，根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中，得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果。

6、在一種可能的實(shí)現(xiàn)方式中，所述數(shù)據(jù)可用性分類模型包括第一模塊和第二模塊；

7、所述第一模塊用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列；

8、所述第二模塊用于對(duì)所述向量序列進(jìn)行卷積操作，得到所述論文數(shù)據(jù)可用性聲明文本的文本特征，根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中，得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果。

9、在一種可能的實(shí)現(xiàn)方式中，所述對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列，包括：

10、對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行切分獲得多個(gè)句子文本序列；

11、對(duì)各所述句子文本序列依次進(jìn)行分詞、去除停用詞和詞嵌入處理，得到多個(gè)詞嵌入向量，所述詞嵌入向量與所述句子文本序列一一對(duì)應(yīng)；

12、基于自注意力機(jī)制和位置編碼對(duì)所述多個(gè)詞嵌入向量進(jìn)行處理，得到所述向量序列。

13、在一種可能的實(shí)現(xiàn)方式中，所述對(duì)所述向量序列進(jìn)行卷積操作，得到所述論文數(shù)據(jù)可用性聲明文本的文本特征，包括：

14、通過卷積核對(duì)所述向量序列進(jìn)行卷積操作，提取所述論文數(shù)據(jù)可用性聲明文本的多個(gè)局部特征；

15、對(duì)所述多個(gè)局部特征進(jìn)行空間下采樣，并將所述多個(gè)局部特征聚合為所述文本特征。

16、在一種可能的實(shí)現(xiàn)方式中，所述根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中，得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果，包括：

17、通過全連接層的激活函數(shù)將所述文本特征映射到所述預(yù)設(shè)分類合集中，得到所述可用性分類結(jié)果，所述全連接層中的神經(jīng)元數(shù)量與所述預(yù)設(shè)分類合集中的類別數(shù)量相同。

18、在一種可能的實(shí)現(xiàn)方式中，所述預(yù)設(shè)分類合集包括數(shù)據(jù)完全不公開、需通過聯(lián)系作者或者向數(shù)據(jù)倉(cāng)儲(chǔ)提出申請(qǐng)獲得、數(shù)據(jù)已在文中或在附件中提供、數(shù)據(jù)部分包含在文中以及數(shù)據(jù)完全公開于公共數(shù)據(jù)倉(cāng)儲(chǔ)。

19、在一種可能的實(shí)現(xiàn)方式中，所述數(shù)據(jù)可用性分類模型的訓(xùn)練方法為：

20、獲取帶有數(shù)據(jù)可用性分類標(biāo)簽的樣本文本，所述樣本文本為論文數(shù)據(jù)可用性聲明文本；

21、利用待訓(xùn)練模型對(duì)所述樣本文本進(jìn)行數(shù)據(jù)可用性分類，得到數(shù)據(jù)可用性分類結(jié)果；

22、根據(jù)所述數(shù)據(jù)可用性分類結(jié)果以及所述數(shù)據(jù)可用性分類標(biāo)簽，對(duì)所述待訓(xùn)練模型進(jìn)行參數(shù)優(yōu)化，得到所述數(shù)據(jù)可用性分類模型；所述待訓(xùn)練模型用于對(duì)所述樣本文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列，并對(duì)所述向量序列進(jìn)行卷積操作，得到所述樣本文本的文本特征，根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中，得到所述樣本文本的所述數(shù)據(jù)可用性分類結(jié)果。

23、第二方面，本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類裝置，所述裝置包括：

24、獲取模塊，用于獲取待分類論文文本；

25、處理模塊，用于對(duì)所述待分類論文文本進(jìn)行數(shù)據(jù)處理，提取論文數(shù)據(jù)可用性聲明文本，所述論文數(shù)據(jù)可用性聲明文本為論文中用于描述論文數(shù)據(jù)可用性的文本；

26、分類模塊，用于將所述論文數(shù)據(jù)可用性聲明文本作為數(shù)據(jù)可用性分類模型的輸入，得到可用性分類結(jié)果；其中，所述數(shù)據(jù)可用性分類模型用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列，并對(duì)所述向量序列進(jìn)行卷積操作，得到所述論文數(shù)據(jù)可用性聲明文本的文本特征，根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中，得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果。

27、在一種可能的實(shí)現(xiàn)方式中，所述數(shù)據(jù)可用性分類模型包括第一模塊和第二模塊；

28、所述第一模塊用于對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列；

29、所述第二模塊用于對(duì)所述向量序列進(jìn)行卷積操作，得到所述論文數(shù)據(jù)可用性聲明文本的文本特征，根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中，得到所述論文數(shù)據(jù)可用性聲明文本的所述可用性分類結(jié)果

30、在一種可能的實(shí)現(xiàn)方式中，所述第一模塊具體用于：

31、對(duì)所述論文數(shù)據(jù)可用性聲明文本進(jìn)行切分獲得多個(gè)句子文本序列；

32、對(duì)各所述句子文本序列依次進(jìn)行分詞、去除停用詞和詞嵌入處理，得到多個(gè)詞嵌入向量，所述詞嵌入向量與所述句子文本序列一一對(duì)應(yīng)；

33、基于自注意力機(jī)制和位置編碼對(duì)所述多個(gè)詞嵌入向量進(jìn)行處理，得到所述向量序列。

34、在一種可能的實(shí)現(xiàn)方式中，所述第二模塊具體用于：通過卷積核對(duì)所述向量序列進(jìn)行卷積操作，提取所述論文數(shù)據(jù)可用性聲明文本的多個(gè)局部特征；

35、對(duì)所述多個(gè)局部特征進(jìn)行空間下采樣，并將所述多個(gè)局部特征聚合為所述文本特征。

36、在一種可能的實(shí)現(xiàn)方式中，所述第二模塊具體用于通過全連接層的激活函數(shù)將所述文本特征映射到所述預(yù)設(shè)分類合集中，得到所述可用性分類結(jié)果，所述全連接層中的神經(jīng)元數(shù)量與所述預(yù)設(shè)分類合集中的類別數(shù)量相同。

37、在一種可能的實(shí)現(xiàn)方式中，所述預(yù)設(shè)分類合集包括數(shù)據(jù)完全不公開、需通過聯(lián)系作者或者向數(shù)據(jù)倉(cāng)儲(chǔ)提出申請(qǐng)獲得、數(shù)據(jù)已在文中或在附件中提供、數(shù)據(jù)部分包含在文中以及數(shù)據(jù)完全公開于公共數(shù)據(jù)倉(cāng)儲(chǔ)。

38、在一種可能的實(shí)現(xiàn)方式中，所述數(shù)據(jù)可用性分類模型的訓(xùn)練方法為：

39、獲取帶有數(shù)據(jù)可用性分類標(biāo)簽的樣本文本，所述樣本文本為論文數(shù)據(jù)可用性聲明文本；

40、利用待訓(xùn)練模型對(duì)所述樣本文本進(jìn)行數(shù)據(jù)可用性分類，得到數(shù)據(jù)可用性分類結(jié)果；

41、根據(jù)所述數(shù)據(jù)可用性分類結(jié)果以及所述數(shù)據(jù)可用性分類標(biāo)簽，對(duì)所述待訓(xùn)練模型進(jìn)行參數(shù)優(yōu)化，得到所述數(shù)據(jù)可用性分類模型；所述待訓(xùn)練模型用于對(duì)所述樣本文本進(jìn)行預(yù)處理并轉(zhuǎn)換為向量序列，并對(duì)所述向量序列進(jìn)行卷積操作，得到所述樣本文本的文本特征，根據(jù)所述文本特征映射到預(yù)設(shè)分類合集中，得到所述樣本文本的所述數(shù)據(jù)可用性分類結(jié)果。

42、第三方面，本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)設(shè)備，所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器，所述存儲(chǔ)器用于存儲(chǔ)指令或代碼，所述處理器用于執(zhí)行所述指令或代碼，以使所述計(jì)算機(jī)設(shè)備執(zhí)行前述第一方面中任一項(xiàng)所述的論文數(shù)據(jù)可用性分類方法。

43、第四方面，本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)中存儲(chǔ)有代碼，當(dāng)所述代碼被運(yùn)行時(shí)，運(yùn)行所述代碼的設(shè)備實(shí)現(xiàn)前述第一方面中任一項(xiàng)所述的論文數(shù)據(jù)可用性分類。

44、本技術(shù)實(shí)施例提供了一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。在執(zhí)行所述方法時(shí)，先獲取待分類論文文本，并對(duì)待分類論文文本進(jìn)行前期的數(shù)據(jù)處理，提取到論文數(shù)據(jù)可用性聲明文本；然后，將論文數(shù)據(jù)可用性聲明文本輸入數(shù)據(jù)可用性分類模型；通過數(shù)據(jù)可用性分類模型對(duì)論文數(shù)據(jù)可用性聲明文本進(jìn)行預(yù)處理得到向量序列，并對(duì)向量序列進(jìn)行卷積操作得到文本特征，進(jìn)而根據(jù)文本特征映射到預(yù)設(shè)分類合集中，輸出該待分類論文文本中數(shù)據(jù)可用性的分類結(jié)果，實(shí)現(xiàn)了對(duì)論文中的數(shù)據(jù)可用性進(jìn)行分類，為后續(xù)根據(jù)數(shù)據(jù)可用性分類構(gòu)建數(shù)據(jù)庫(kù)提供基礎(chǔ)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳思竹,周佳茵,錢慶,胡萬飛,段一凡
技術(shù)所有人：中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

一種論文數(shù)據(jù)可用性分類方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)