一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)的制作方法

文檔序號：40513251發(fā)布日期：2024-12-31 13:22閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)的制作方法

本發(fā)明涉及文獻(xiàn)管理，具體涉及一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)。

背景技術(shù)：

1、文獻(xiàn)管理是指對學(xué)術(shù)文獻(xiàn)的收集、整理、分析、存儲和引用等一系列活動的總稱，它是學(xué)術(shù)研究過程中不可或缺的一部分。

2、傳統(tǒng)的文獻(xiàn)管理方法多依賴于人工分類、標(biāo)注和檢索，這種方式在面對海量文獻(xiàn)數(shù)據(jù)時(shí)顯得力不從心。文獻(xiàn)信息的快速增長使得研究人員和學(xué)生難以高效地收集、整理、分析和利用這些資源。同時(shí)，傳統(tǒng)的文獻(xiàn)管理系統(tǒng)往往缺乏智能化處理功能，無法自動提取文獻(xiàn)中的關(guān)鍵信息，不能夠?qū)崿F(xiàn)精確的分類，進(jìn)一步地也無法根據(jù)用戶的個性化需求進(jìn)行精準(zhǔn)推薦。

3、因此，亟需一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)來解決上述問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)：解決了因傳統(tǒng)的文獻(xiàn)管理方法多依賴于人工分類、標(biāo)注和檢索，導(dǎo)致文獻(xiàn)管理系統(tǒng)往往缺乏智能化處理功能，無法自動提取文獻(xiàn)中的關(guān)鍵信息，不能夠?qū)崿F(xiàn)精確的分類的技術(shù)問題。

2、本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn)：

3、一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)，系統(tǒng)包括文獻(xiàn)信息獲取模塊、文獻(xiàn)標(biāo)題自動分寫模塊、文獻(xiàn)標(biāo)題詞性標(biāo)注模塊、文獻(xiàn)命名實(shí)體識別模塊和文獻(xiàn)分類模塊；

4、文獻(xiàn)信息獲取模塊用于獲取文獻(xiàn)信息，其中，文獻(xiàn)信息包括文獻(xiàn)標(biāo)題；

5、文獻(xiàn)標(biāo)題自動分寫模塊用于對文獻(xiàn)標(biāo)題預(yù)測分寫標(biāo)注序列：將文獻(xiàn)標(biāo)題所對應(yīng)的句子轉(zhuǎn)換為x＝(x1，x2,...，xn)，xi代表第i個字符的索引值，i＝1,2...n，將x輸入到字符查詢表，通過查詢將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量，將低維實(shí)數(shù)向量組成輸入句lx(x)，并將lx(x)輸入到雙向lstm網(wǎng)絡(luò)中，輸出分寫標(biāo)注序列；

6、文獻(xiàn)標(biāo)題詞性標(biāo)注模塊用于對文獻(xiàn)標(biāo)題預(yù)測詞性標(biāo)注序列：將文獻(xiàn)標(biāo)題所對應(yīng)的句子經(jīng)過fasttext詞嵌入技術(shù)轉(zhuǎn)換為輸入向量，并將輸入向量輸入到雙向lstm網(wǎng)絡(luò)中，輸出詞性標(biāo)注序列；

7、文獻(xiàn)命名實(shí)體識別模塊用于對文獻(xiàn)標(biāo)題進(jìn)行命名實(shí)體標(biāo)注；

8、文獻(xiàn)分類模塊用于基于含有分寫標(biāo)注序列和詞性標(biāo)注序列且經(jīng)過命名實(shí)體標(biāo)注的文獻(xiàn)標(biāo)題進(jìn)行文獻(xiàn)歸類。

9、進(jìn)一步地，將x輸入到字符查詢表，通過查詢將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量具體包括以下過程：

10、通過fasttext詞嵌入技術(shù)基于字符查詢表將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量：

11、將構(gòu)成單詞的字符序列拆分為n-gram的集合，加上原有的單詞，構(gòu)成模型訓(xùn)練的基本輸入單位，其中，fasttext模型中用n-gram集合中的子序列的向量之和代表一個單詞，通過公式對每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量ut：

12、

13、其中，zj代表xi經(jīng)過詞向量矩陣的查表運(yùn)算得到的n-gram向量，j＝1,2...m，m經(jīng)過詞向量矩陣的查表運(yùn)算得到的n-gram向量的個數(shù)。

14、進(jìn)一步地，將lx(x)輸入到雙向lstm網(wǎng)絡(luò)中，輸出分寫標(biāo)注序列具體包括以下過程：

15、通過lstm網(wǎng)絡(luò)的crf層預(yù)測分寫標(biāo)注序列：

16、schar(i)＝f(wouthi+bout)；

17、

18、其中，schar(i)表示xi經(jīng)過雙向lstm網(wǎng)絡(luò)得到的分寫標(biāo)注的概率分布，wout、bout分別為全連接層的映射矩陣和偏置向量，f為softmax函數(shù)，azy表示分寫標(biāo)注狀態(tài)的轉(zhuǎn)移矩陣，s(x，y1，θ)表示考慮標(biāo)注狀態(tài)轉(zhuǎn)移概率和雙向lstm預(yù)測的分寫標(biāo)注概率時(shí)，輸入字符序列x對應(yīng)的一種候選標(biāo)注序列y1的分值，其中θ表示模型參數(shù)；

19、從所有候選標(biāo)注路徑中取分值s(x，y1，θ)最大的路徑作為分寫標(biāo)注序列。

20、進(jìn)一步地，將輸入向量輸入到雙向lstm網(wǎng)絡(luò)中，輸出詞性標(biāo)注序列包括以下過程：

21、通過lstm網(wǎng)絡(luò)的crf層預(yù)測詞性標(biāo)注序列：

22、ssylla(i)＝f(wouthi+bout)；

23、

24、其中，ssylla(i)表示輸入向量經(jīng)過雙向lstm網(wǎng)絡(luò)得到的詞性標(biāo)注的概率分布，wout、bout分別為全連接層的映射矩陣和偏置向量，f為softmax函數(shù)，azx表示分寫詞性標(biāo)注的轉(zhuǎn)移矩陣，s(x，y2，δ)表示考慮標(biāo)注狀態(tài)轉(zhuǎn)移概率和雙向lstm預(yù)測的分寫標(biāo)注概率時(shí)，輸入向量對應(yīng)的一種候選標(biāo)注序列y2的分值，其中δ表示模型參數(shù)；

25、從所有候選標(biāo)注路徑中取分值s(x，y2，δ)最大的路徑作為詞性標(biāo)注序列。

26、進(jìn)一步地，對文獻(xiàn)標(biāo)題進(jìn)行命名實(shí)體標(biāo)注具體包括以下過程：

27、給定文獻(xiàn)標(biāo)題輸入句w＝(w1，w2,...，wn)，wi表示文獻(xiàn)標(biāo)題輸入句w中第i個形態(tài)素，其中，表示構(gòu)成形態(tài)素wi的第g個音節(jié)；

28、將文獻(xiàn)標(biāo)題輸入句w經(jīng)過fasttext詞嵌入技術(shù)處理得到低維實(shí)數(shù)向量表示的音節(jié)表示第i個形態(tài)素中的第g個音節(jié)的向量；

29、將輸入到雙向lstm網(wǎng)絡(luò)中，得到前向lstm網(wǎng)絡(luò)最后一個狀態(tài)和后向lstm網(wǎng)絡(luò)最后一個狀態(tài)

30、

31、和分別表示前向狀態(tài)和后向狀態(tài)運(yùn)算；

32、將進(jìn)行拼接為一個向量γi：

33、其中，*表示拼接運(yùn)算；

34、將γi輸入到全連接網(wǎng)絡(luò)，并通過一個softmax函數(shù)輸出該形態(tài)素的命名實(shí)體標(biāo)簽。

35、進(jìn)一步地，將γi輸入到全連接網(wǎng)絡(luò)，并通過一個softmax函數(shù)輸出該形態(tài)素的命名實(shí)體標(biāo)簽具體包括以下過程：

36、pv(t)＝softmax(wxγi+bx)；

37、pv(t)表示利用形態(tài)素中的音節(jié)序列預(yù)測的命名實(shí)體標(biāo)簽的概率分布，wx、bx表示可訓(xùn)練參數(shù)；

38、目標(biāo)函數(shù)為：

39、其中，tlk表示第l個形態(tài)素的第k種命名實(shí)體標(biāo)簽，若第l個形態(tài)素的命名實(shí)體屬于第k種命名實(shí)體類別，則tlk為1，否則，tlk為0，表示第l個形態(tài)素屬于第k種命名實(shí)體類別的概率，n為形態(tài)素的個數(shù)，c為命名實(shí)體類別的個數(shù)。

40、進(jìn)一步地，基于含有分寫標(biāo)注序列和詞性標(biāo)注序列且經(jīng)過命名實(shí)體標(biāo)注的文獻(xiàn)標(biāo)題進(jìn)行文獻(xiàn)歸類具體包括以下過程：

41、步驟一，解析標(biāo)注信息：

42、分寫標(biāo)注區(qū)分標(biāo)題中的不同子句或短語；

43、詞性標(biāo)注提供每個詞在句子中扮演的語法角色；

44、命名實(shí)體標(biāo)注指出文本中重要的實(shí)體；

45、步驟二，提取關(guān)鍵信息：

46、利用命名實(shí)體標(biāo)注直接識別出標(biāo)題中的關(guān)鍵實(shí)體；

47、結(jié)合詞性標(biāo)注，識別出標(biāo)題中的動詞短語、名詞短語；

48、步驟三，構(gòu)建分類體系：

49、根據(jù)文獻(xiàn)所屬的研究領(lǐng)域、研究類型、應(yīng)用對象構(gòu)建分類體系；

50、步驟四，文獻(xiàn)歸類：

51、將解析和提取出的關(guān)鍵信息與分類體系進(jìn)行匹配，確定文獻(xiàn)標(biāo)題所屬的類別。

52、進(jìn)一步地，將解析和提取出的關(guān)鍵信息與分類體系進(jìn)行匹配，確定文獻(xiàn)標(biāo)題所屬的類別具體包括以下步驟：

53、關(guān)鍵詞匹配：將提取出的關(guān)鍵詞與分類體系中的各個類別標(biāo)簽進(jìn)行匹配；其中，在匹配過程中基于關(guān)鍵詞在標(biāo)題中的上下文信息，以及它們與標(biāo)題中其他詞匯的關(guān)系進(jìn)行匹配；

54、權(quán)重分配：在匹配過程中，不同的關(guān)鍵信息分配不同的權(quán)重；

55、確定類別：根據(jù)關(guān)鍵信息與分類體系的匹配結(jié)果，確定文獻(xiàn)標(biāo)題所屬的類別。

56、相比于現(xiàn)有方案，本發(fā)明實(shí)現(xiàn)的有益效果：

57、一方面，本發(fā)明能夠基于文獻(xiàn)的標(biāo)題，對文獻(xiàn)進(jìn)行分類、標(biāo)注和檢索，提升文獻(xiàn)管理系統(tǒng)智能化處理功能，實(shí)現(xiàn)精確的分類，提高文獻(xiàn)管理效率。

58、另一方面，本發(fā)明提高文獻(xiàn)檢索效率、優(yōu)化文獻(xiàn)整理與分類、支持深度分析與挖掘、提升文獻(xiàn)引用與寫作效率。

59、第三方面，本發(fā)明能夠?qū)崿F(xiàn)在線協(xié)作和社交分享的功能，團(tuán)隊(duì)成員可以隨時(shí)隨地上傳數(shù)據(jù)分析附件，多人實(shí)時(shí)協(xié)同編輯，減少了版本沖突，加速了數(shù)據(jù)分析過程。提升文獻(xiàn)管理的效率與成果傳播。

60、第四方面，本發(fā)明能夠?qū)崿F(xiàn)權(quán)限分級管理功能，把團(tuán)隊(duì)成員的權(quán)限分為三種類型：可編輯、可上傳、可查看，方便團(tuán)隊(duì)靈活、精細(xì)地管理文獻(xiàn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：任間,穆衛(wèi)平
技術(shù)所有人：廣州銳競信息科技有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：連接結(jié)構(gòu)的制作方法
上一篇：一種防眩光學(xué)模組的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)的制作方法