欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)的制作方法

文檔序號:40513251發(fā)布日期:2024-12-31 13:22閱讀:10來源:國知局
一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)的制作方法

本發(fā)明涉及文獻(xiàn)管理,具體涉及一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)。


背景技術(shù):

1、文獻(xiàn)管理是指對學(xué)術(shù)文獻(xiàn)的收集、整理、分析、存儲和引用等一系列活動的總稱,它是學(xué)術(shù)研究過程中不可或缺的一部分。

2、傳統(tǒng)的文獻(xiàn)管理方法多依賴于人工分類、標(biāo)注和檢索,這種方式在面對海量文獻(xiàn)數(shù)據(jù)時(shí)顯得力不從心。文獻(xiàn)信息的快速增長使得研究人員和學(xué)生難以高效地收集、整理、分析和利用這些資源。同時(shí),傳統(tǒng)的文獻(xiàn)管理系統(tǒng)往往缺乏智能化處理功能,無法自動提取文獻(xiàn)中的關(guān)鍵信息,不能夠?qū)崿F(xiàn)精確的分類,進(jìn)一步地也無法根據(jù)用戶的個性化需求進(jìn)行精準(zhǔn)推薦。

3、因此,亟需一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)來解決上述問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng):解決了因傳統(tǒng)的文獻(xiàn)管理方法多依賴于人工分類、標(biāo)注和檢索,導(dǎo)致文獻(xiàn)管理系統(tǒng)往往缺乏智能化處理功能,無法自動提取文獻(xiàn)中的關(guān)鍵信息,不能夠?qū)崿F(xiàn)精確的分類的技術(shù)問題。

2、本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):

3、一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng),系統(tǒng)包括文獻(xiàn)信息獲取模塊、文獻(xiàn)標(biāo)題自動分寫模塊、文獻(xiàn)標(biāo)題詞性標(biāo)注模塊、文獻(xiàn)命名實(shí)體識別模塊和文獻(xiàn)分類模塊;

4、文獻(xiàn)信息獲取模塊用于獲取文獻(xiàn)信息,其中,文獻(xiàn)信息包括文獻(xiàn)標(biāo)題;

5、文獻(xiàn)標(biāo)題自動分寫模塊用于對文獻(xiàn)標(biāo)題預(yù)測分寫標(biāo)注序列:將文獻(xiàn)標(biāo)題所對應(yīng)的句子轉(zhuǎn)換為x=(x1,x2,...,xn),xi代表第i個字符的索引值,i=1,2...n,將x輸入到字符查詢表,通過查詢將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量,將低維實(shí)數(shù)向量組成輸入句lx(x),并將lx(x)輸入到雙向lstm網(wǎng)絡(luò)中,輸出分寫標(biāo)注序列;

6、文獻(xiàn)標(biāo)題詞性標(biāo)注模塊用于對文獻(xiàn)標(biāo)題預(yù)測詞性標(biāo)注序列:將文獻(xiàn)標(biāo)題所對應(yīng)的句子經(jīng)過fasttext詞嵌入技術(shù)轉(zhuǎn)換為輸入向量,并將輸入向量輸入到雙向lstm網(wǎng)絡(luò)中,輸出詞性標(biāo)注序列;

7、文獻(xiàn)命名實(shí)體識別模塊用于對文獻(xiàn)標(biāo)題進(jìn)行命名實(shí)體標(biāo)注;

8、文獻(xiàn)分類模塊用于基于含有分寫標(biāo)注序列和詞性標(biāo)注序列且經(jīng)過命名實(shí)體標(biāo)注的文獻(xiàn)標(biāo)題進(jìn)行文獻(xiàn)歸類。

9、進(jìn)一步地,將x輸入到字符查詢表,通過查詢將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量具體包括以下過程:

10、通過fasttext詞嵌入技術(shù)基于字符查詢表將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量:

11、將構(gòu)成單詞的字符序列拆分為n-gram的集合,加上原有的單詞,構(gòu)成模型訓(xùn)練的基本輸入單位,其中,fasttext模型中用n-gram集合中的子序列的向量之和代表一個單詞,通過公式對每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量ut:

12、

13、其中,zj代表xi經(jīng)過詞向量矩陣的查表運(yùn)算得到的n-gram向量,j=1,2...m,m經(jīng)過詞向量矩陣的查表運(yùn)算得到的n-gram向量的個數(shù)。

14、進(jìn)一步地,將lx(x)輸入到雙向lstm網(wǎng)絡(luò)中,輸出分寫標(biāo)注序列具體包括以下過程:

15、通過lstm網(wǎng)絡(luò)的crf層預(yù)測分寫標(biāo)注序列:

16、schar(i)=f(wouthi+bout);

17、

18、其中,schar(i)表示xi經(jīng)過雙向lstm網(wǎng)絡(luò)得到的分寫標(biāo)注的概率分布,wout、bout分別為全連接層的映射矩陣和偏置向量,f為softmax函數(shù),azy表示分寫標(biāo)注狀態(tài)的轉(zhuǎn)移矩陣,s(x,y1,θ)表示考慮標(biāo)注狀態(tài)轉(zhuǎn)移概率和雙向lstm預(yù)測的分寫標(biāo)注概率時(shí),輸入字符序列x對應(yīng)的一種候選標(biāo)注序列y1的分值,其中θ表示模型參數(shù);

19、從所有候選標(biāo)注路徑中取分值s(x,y1,θ)最大的路徑作為分寫標(biāo)注序列。

20、進(jìn)一步地,將輸入向量輸入到雙向lstm網(wǎng)絡(luò)中,輸出詞性標(biāo)注序列包括以下過程:

21、通過lstm網(wǎng)絡(luò)的crf層預(yù)測詞性標(biāo)注序列:

22、ssylla(i)=f(wouthi+bout);

23、

24、其中,ssylla(i)表示輸入向量經(jīng)過雙向lstm網(wǎng)絡(luò)得到的詞性標(biāo)注的概率分布,wout、bout分別為全連接層的映射矩陣和偏置向量,f為softmax函數(shù),azx表示分寫詞性標(biāo)注的轉(zhuǎn)移矩陣,s(x,y2,δ)表示考慮標(biāo)注狀態(tài)轉(zhuǎn)移概率和雙向lstm預(yù)測的分寫標(biāo)注概率時(shí),輸入向量對應(yīng)的一種候選標(biāo)注序列y2的分值,其中δ表示模型參數(shù);

25、從所有候選標(biāo)注路徑中取分值s(x,y2,δ)最大的路徑作為詞性標(biāo)注序列。

26、進(jìn)一步地,對文獻(xiàn)標(biāo)題進(jìn)行命名實(shí)體標(biāo)注具體包括以下過程:

27、給定文獻(xiàn)標(biāo)題輸入句w=(w1,w2,...,wn),wi表示文獻(xiàn)標(biāo)題輸入句w中第i個形態(tài)素,其中,表示構(gòu)成形態(tài)素wi的第g個音節(jié);

28、將文獻(xiàn)標(biāo)題輸入句w經(jīng)過fasttext詞嵌入技術(shù)處理得到低維實(shí)數(shù)向量表示的音節(jié)表示第i個形態(tài)素中的第g個音節(jié)的向量;

29、將輸入到雙向lstm網(wǎng)絡(luò)中,得到前向lstm網(wǎng)絡(luò)最后一個狀態(tài)和后向lstm網(wǎng)絡(luò)最后一個狀態(tài)

30、

31、和分別表示前向狀態(tài)和后向狀態(tài)運(yùn)算;

32、將進(jìn)行拼接為一個向量γi:

33、其中,*表示拼接運(yùn)算;

34、將γi輸入到全連接網(wǎng)絡(luò),并通過一個softmax函數(shù)輸出該形態(tài)素的命名實(shí)體標(biāo)簽。

35、進(jìn)一步地,將γi輸入到全連接網(wǎng)絡(luò),并通過一個softmax函數(shù)輸出該形態(tài)素的命名實(shí)體標(biāo)簽具體包括以下過程:

36、pv(t)=softmax(wxγi+bx);

37、pv(t)表示利用形態(tài)素中的音節(jié)序列預(yù)測的命名實(shí)體標(biāo)簽的概率分布,wx、bx表示可訓(xùn)練參數(shù);

38、目標(biāo)函數(shù)為:

39、其中,tlk表示第l個形態(tài)素的第k種命名實(shí)體標(biāo)簽,若第l個形態(tài)素的命名實(shí)體屬于第k種命名實(shí)體類別,則tlk為1,否則,tlk為0,表示第l個形態(tài)素屬于第k種命名實(shí)體類別的概率,n為形態(tài)素的個數(shù),c為命名實(shí)體類別的個數(shù)。

40、進(jìn)一步地,基于含有分寫標(biāo)注序列和詞性標(biāo)注序列且經(jīng)過命名實(shí)體標(biāo)注的文獻(xiàn)標(biāo)題進(jìn)行文獻(xiàn)歸類具體包括以下過程:

41、步驟一,解析標(biāo)注信息:

42、分寫標(biāo)注區(qū)分標(biāo)題中的不同子句或短語;

43、詞性標(biāo)注提供每個詞在句子中扮演的語法角色;

44、命名實(shí)體標(biāo)注指出文本中重要的實(shí)體;

45、步驟二,提取關(guān)鍵信息:

46、利用命名實(shí)體標(biāo)注直接識別出標(biāo)題中的關(guān)鍵實(shí)體;

47、結(jié)合詞性標(biāo)注,識別出標(biāo)題中的動詞短語、名詞短語;

48、步驟三,構(gòu)建分類體系:

49、根據(jù)文獻(xiàn)所屬的研究領(lǐng)域、研究類型、應(yīng)用對象構(gòu)建分類體系;

50、步驟四,文獻(xiàn)歸類:

51、將解析和提取出的關(guān)鍵信息與分類體系進(jìn)行匹配,確定文獻(xiàn)標(biāo)題所屬的類別。

52、進(jìn)一步地,將解析和提取出的關(guān)鍵信息與分類體系進(jìn)行匹配,確定文獻(xiàn)標(biāo)題所屬的類別具體包括以下步驟:

53、關(guān)鍵詞匹配:將提取出的關(guān)鍵詞與分類體系中的各個類別標(biāo)簽進(jìn)行匹配;其中,在匹配過程中基于關(guān)鍵詞在標(biāo)題中的上下文信息,以及它們與標(biāo)題中其他詞匯的關(guān)系進(jìn)行匹配;

54、權(quán)重分配:在匹配過程中,不同的關(guān)鍵信息分配不同的權(quán)重;

55、確定類別:根據(jù)關(guān)鍵信息與分類體系的匹配結(jié)果,確定文獻(xiàn)標(biāo)題所屬的類別。

56、相比于現(xiàn)有方案,本發(fā)明實(shí)現(xiàn)的有益效果:

57、一方面,本發(fā)明能夠基于文獻(xiàn)的標(biāo)題,對文獻(xiàn)進(jìn)行分類、標(biāo)注和檢索,提升文獻(xiàn)管理系統(tǒng)智能化處理功能,實(shí)現(xiàn)精確的分類,提高文獻(xiàn)管理效率。

58、另一方面,本發(fā)明提高文獻(xiàn)檢索效率、優(yōu)化文獻(xiàn)整理與分類、支持深度分析與挖掘、提升文獻(xiàn)引用與寫作效率。

59、第三方面,本發(fā)明能夠?qū)崿F(xiàn)在線協(xié)作和社交分享的功能,團(tuán)隊(duì)成員可以隨時(shí)隨地上傳數(shù)據(jù)分析附件,多人實(shí)時(shí)協(xié)同編輯,減少了版本沖突,加速了數(shù)據(jù)分析過程。提升文獻(xiàn)管理的效率與成果傳播。

60、第四方面,本發(fā)明能夠?qū)崿F(xiàn)權(quán)限分級管理功能,把團(tuán)隊(duì)成員的權(quán)限分為三種類型:可編輯、可上傳、可查看,方便團(tuán)隊(duì)靈活、精細(xì)地管理文獻(xiàn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
灌阳县| 肇东市| 淳化县| 辽中县| 台中县| 阿拉善右旗| 方正县| 大竹县| 祥云县| 法库县| 山阳县| 屯门区| 公安县| 金沙县| 阿克陶县| 绥化市| 门源| 资溪县| 贵南县| 故城县| 射阳县| 镇雄县| 玉环县| 介休市| 乌恰县| 宕昌县| 洪湖市| 阜平县| 新竹市| 宝丰县| 金堂县| 邳州市| 栖霞市| 信宜市| 伊宁县| 公安县| 大邑县| 冀州市| 元江| 迁安市| 景泰县|