本發(fā)明涉及文獻(xiàn)管理,具體涉及一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)。
背景技術(shù):
1、文獻(xiàn)管理是指對學(xué)術(shù)文獻(xiàn)的收集、整理、分析、存儲和引用等一系列活動的總稱,它是學(xué)術(shù)研究過程中不可或缺的一部分。
2、傳統(tǒng)的文獻(xiàn)管理方法多依賴于人工分類、標(biāo)注和檢索,這種方式在面對海量文獻(xiàn)數(shù)據(jù)時(shí)顯得力不從心。文獻(xiàn)信息的快速增長使得研究人員和學(xué)生難以高效地收集、整理、分析和利用這些資源。同時(shí),傳統(tǒng)的文獻(xiàn)管理系統(tǒng)往往缺乏智能化處理功能,無法自動提取文獻(xiàn)中的關(guān)鍵信息,不能夠?qū)崿F(xiàn)精確的分類,進(jìn)一步地也無法根據(jù)用戶的個性化需求進(jìn)行精準(zhǔn)推薦。
3、因此,亟需一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng)來解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng):解決了因傳統(tǒng)的文獻(xiàn)管理方法多依賴于人工分類、標(biāo)注和檢索,導(dǎo)致文獻(xiàn)管理系統(tǒng)往往缺乏智能化處理功能,無法自動提取文獻(xiàn)中的關(guān)鍵信息,不能夠?qū)崿F(xiàn)精確的分類的技術(shù)問題。
2、本發(fā)明的目的可以通過以下技術(shù)方案實(shí)現(xiàn):
3、一種基于數(shù)據(jù)分析的文獻(xiàn)管理系統(tǒng),系統(tǒng)包括文獻(xiàn)信息獲取模塊、文獻(xiàn)標(biāo)題自動分寫模塊、文獻(xiàn)標(biāo)題詞性標(biāo)注模塊、文獻(xiàn)命名實(shí)體識別模塊和文獻(xiàn)分類模塊;
4、文獻(xiàn)信息獲取模塊用于獲取文獻(xiàn)信息,其中,文獻(xiàn)信息包括文獻(xiàn)標(biāo)題;
5、文獻(xiàn)標(biāo)題自動分寫模塊用于對文獻(xiàn)標(biāo)題預(yù)測分寫標(biāo)注序列:將文獻(xiàn)標(biāo)題所對應(yīng)的句子轉(zhuǎn)換為x=(x1,x2,...,xn),xi代表第i個字符的索引值,i=1,2...n,將x輸入到字符查詢表,通過查詢將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量,將低維實(shí)數(shù)向量組成輸入句lx(x),并將lx(x)輸入到雙向lstm網(wǎng)絡(luò)中,輸出分寫標(biāo)注序列;
6、文獻(xiàn)標(biāo)題詞性標(biāo)注模塊用于對文獻(xiàn)標(biāo)題預(yù)測詞性標(biāo)注序列:將文獻(xiàn)標(biāo)題所對應(yīng)的句子經(jīng)過fasttext詞嵌入技術(shù)轉(zhuǎn)換為輸入向量,并將輸入向量輸入到雙向lstm網(wǎng)絡(luò)中,輸出詞性標(biāo)注序列;
7、文獻(xiàn)命名實(shí)體識別模塊用于對文獻(xiàn)標(biāo)題進(jìn)行命名實(shí)體標(biāo)注;
8、文獻(xiàn)分類模塊用于基于含有分寫標(biāo)注序列和詞性標(biāo)注序列且經(jīng)過命名實(shí)體標(biāo)注的文獻(xiàn)標(biāo)題進(jìn)行文獻(xiàn)歸類。
9、進(jìn)一步地,將x輸入到字符查詢表,通過查詢將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量具體包括以下過程:
10、通過fasttext詞嵌入技術(shù)基于字符查詢表將每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量:
11、將構(gòu)成單詞的字符序列拆分為n-gram的集合,加上原有的單詞,構(gòu)成模型訓(xùn)練的基本輸入單位,其中,fasttext模型中用n-gram集合中的子序列的向量之和代表一個單詞,通過公式對每個xi轉(zhuǎn)化為固定長度的低維實(shí)數(shù)向量ut:
12、
13、其中,zj代表xi經(jīng)過詞向量矩陣的查表運(yùn)算得到的n-gram向量,j=1,2...m,m經(jīng)過詞向量矩陣的查表運(yùn)算得到的n-gram向量的個數(shù)。
14、進(jìn)一步地,將lx(x)輸入到雙向lstm網(wǎng)絡(luò)中,輸出分寫標(biāo)注序列具體包括以下過程:
15、通過lstm網(wǎng)絡(luò)的crf層預(yù)測分寫標(biāo)注序列:
16、schar(i)=f(wouthi+bout);
17、
18、其中,schar(i)表示xi經(jīng)過雙向lstm網(wǎng)絡(luò)得到的分寫標(biāo)注的概率分布,wout、bout分別為全連接層的映射矩陣和偏置向量,f為softmax函數(shù),azy表示分寫標(biāo)注狀態(tài)的轉(zhuǎn)移矩陣,s(x,y1,θ)表示考慮標(biāo)注狀態(tài)轉(zhuǎn)移概率和雙向lstm預(yù)測的分寫標(biāo)注概率時(shí),輸入字符序列x對應(yīng)的一種候選標(biāo)注序列y1的分值,其中θ表示模型參數(shù);
19、從所有候選標(biāo)注路徑中取分值s(x,y1,θ)最大的路徑作為分寫標(biāo)注序列。
20、進(jìn)一步地,將輸入向量輸入到雙向lstm網(wǎng)絡(luò)中,輸出詞性標(biāo)注序列包括以下過程:
21、通過lstm網(wǎng)絡(luò)的crf層預(yù)測詞性標(biāo)注序列:
22、ssylla(i)=f(wouthi+bout);
23、
24、其中,ssylla(i)表示輸入向量經(jīng)過雙向lstm網(wǎng)絡(luò)得到的詞性標(biāo)注的概率分布,wout、bout分別為全連接層的映射矩陣和偏置向量,f為softmax函數(shù),azx表示分寫詞性標(biāo)注的轉(zhuǎn)移矩陣,s(x,y2,δ)表示考慮標(biāo)注狀態(tài)轉(zhuǎn)移概率和雙向lstm預(yù)測的分寫標(biāo)注概率時(shí),輸入向量對應(yīng)的一種候選標(biāo)注序列y2的分值,其中δ表示模型參數(shù);
25、從所有候選標(biāo)注路徑中取分值s(x,y2,δ)最大的路徑作為詞性標(biāo)注序列。
26、進(jìn)一步地,對文獻(xiàn)標(biāo)題進(jìn)行命名實(shí)體標(biāo)注具體包括以下過程:
27、給定文獻(xiàn)標(biāo)題輸入句w=(w1,w2,...,wn),wi表示文獻(xiàn)標(biāo)題輸入句w中第i個形態(tài)素,其中,表示構(gòu)成形態(tài)素wi的第g個音節(jié);
28、將文獻(xiàn)標(biāo)題輸入句w經(jīng)過fasttext詞嵌入技術(shù)處理得到低維實(shí)數(shù)向量表示的音節(jié)表示第i個形態(tài)素中的第g個音節(jié)的向量;
29、將輸入到雙向lstm網(wǎng)絡(luò)中,得到前向lstm網(wǎng)絡(luò)最后一個狀態(tài)和后向lstm網(wǎng)絡(luò)最后一個狀態(tài)
30、
31、和分別表示前向狀態(tài)和后向狀態(tài)運(yùn)算;
32、將進(jìn)行拼接為一個向量γi:
33、其中,*表示拼接運(yùn)算;
34、將γi輸入到全連接網(wǎng)絡(luò),并通過一個softmax函數(shù)輸出該形態(tài)素的命名實(shí)體標(biāo)簽。
35、進(jìn)一步地,將γi輸入到全連接網(wǎng)絡(luò),并通過一個softmax函數(shù)輸出該形態(tài)素的命名實(shí)體標(biāo)簽具體包括以下過程:
36、pv(t)=softmax(wxγi+bx);
37、pv(t)表示利用形態(tài)素中的音節(jié)序列預(yù)測的命名實(shí)體標(biāo)簽的概率分布,wx、bx表示可訓(xùn)練參數(shù);
38、目標(biāo)函數(shù)為:
39、其中,tlk表示第l個形態(tài)素的第k種命名實(shí)體標(biāo)簽,若第l個形態(tài)素的命名實(shí)體屬于第k種命名實(shí)體類別,則tlk為1,否則,tlk為0,表示第l個形態(tài)素屬于第k種命名實(shí)體類別的概率,n為形態(tài)素的個數(shù),c為命名實(shí)體類別的個數(shù)。
40、進(jìn)一步地,基于含有分寫標(biāo)注序列和詞性標(biāo)注序列且經(jīng)過命名實(shí)體標(biāo)注的文獻(xiàn)標(biāo)題進(jìn)行文獻(xiàn)歸類具體包括以下過程:
41、步驟一,解析標(biāo)注信息:
42、分寫標(biāo)注區(qū)分標(biāo)題中的不同子句或短語;
43、詞性標(biāo)注提供每個詞在句子中扮演的語法角色;
44、命名實(shí)體標(biāo)注指出文本中重要的實(shí)體;
45、步驟二,提取關(guān)鍵信息:
46、利用命名實(shí)體標(biāo)注直接識別出標(biāo)題中的關(guān)鍵實(shí)體;
47、結(jié)合詞性標(biāo)注,識別出標(biāo)題中的動詞短語、名詞短語;
48、步驟三,構(gòu)建分類體系:
49、根據(jù)文獻(xiàn)所屬的研究領(lǐng)域、研究類型、應(yīng)用對象構(gòu)建分類體系;
50、步驟四,文獻(xiàn)歸類:
51、將解析和提取出的關(guān)鍵信息與分類體系進(jìn)行匹配,確定文獻(xiàn)標(biāo)題所屬的類別。
52、進(jìn)一步地,將解析和提取出的關(guān)鍵信息與分類體系進(jìn)行匹配,確定文獻(xiàn)標(biāo)題所屬的類別具體包括以下步驟:
53、關(guān)鍵詞匹配:將提取出的關(guān)鍵詞與分類體系中的各個類別標(biāo)簽進(jìn)行匹配;其中,在匹配過程中基于關(guān)鍵詞在標(biāo)題中的上下文信息,以及它們與標(biāo)題中其他詞匯的關(guān)系進(jìn)行匹配;
54、權(quán)重分配:在匹配過程中,不同的關(guān)鍵信息分配不同的權(quán)重;
55、確定類別:根據(jù)關(guān)鍵信息與分類體系的匹配結(jié)果,確定文獻(xiàn)標(biāo)題所屬的類別。
56、相比于現(xiàn)有方案,本發(fā)明實(shí)現(xiàn)的有益效果:
57、一方面,本發(fā)明能夠基于文獻(xiàn)的標(biāo)題,對文獻(xiàn)進(jìn)行分類、標(biāo)注和檢索,提升文獻(xiàn)管理系統(tǒng)智能化處理功能,實(shí)現(xiàn)精確的分類,提高文獻(xiàn)管理效率。
58、另一方面,本發(fā)明提高文獻(xiàn)檢索效率、優(yōu)化文獻(xiàn)整理與分類、支持深度分析與挖掘、提升文獻(xiàn)引用與寫作效率。
59、第三方面,本發(fā)明能夠?qū)崿F(xiàn)在線協(xié)作和社交分享的功能,團(tuán)隊(duì)成員可以隨時(shí)隨地上傳數(shù)據(jù)分析附件,多人實(shí)時(shí)協(xié)同編輯,減少了版本沖突,加速了數(shù)據(jù)分析過程。提升文獻(xiàn)管理的效率與成果傳播。
60、第四方面,本發(fā)明能夠?qū)崿F(xiàn)權(quán)限分級管理功能,把團(tuán)隊(duì)成員的權(quán)限分為三種類型:可編輯、可上傳、可查看,方便團(tuán)隊(duì)靈活、精細(xì)地管理文獻(xiàn)。