本發(fā)明涉及數(shù)字化加工,尤其涉及一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)今的數(shù)字化時(shí)代,知識(shí)管理和信息處理的效率至關(guān)重要。傳統(tǒng)的知識(shí)庫(kù)構(gòu)建方法往往依賴于人工輸入和整理,這不僅耗時(shí)耗力,而且容易出錯(cuò)。因此,開(kāi)發(fā)一種自動(dòng)化的、基于先進(jìn)技術(shù)的知識(shí)庫(kù)構(gòu)建方法顯得尤為重要。
2、通過(guò)結(jié)合圖像處理和自然語(yǔ)言處理技術(shù),使得從各種文本和圖像資料中提取信息、整理信息成為可能。首先利用圖像識(shí)別技術(shù)對(duì)文本資料進(jìn)行圖片截選和分類(lèi),然后通過(guò)語(yǔ)義分析將圖像轉(zhuǎn)化為文本數(shù)據(jù),提取關(guān)鍵信息。接著,通過(guò)標(biāo)記整理單元對(duì)信息進(jìn)行有效組織和關(guān)聯(lián),利用關(guān)鍵詞分類(lèi)單元對(duì)提取的信息進(jìn)行進(jìn)一步篩選和整理。
3、這種方法在各種場(chǎng)景中都非常有用,特別是在需要快速?gòu)拇罅繑?shù)據(jù)中提取和整理信息的研究、商業(yè)和教育領(lǐng)域。通過(guò)自動(dòng)化和數(shù)字化處理,它不僅提高了工作效率,還減少了人為錯(cuò)誤,提高了數(shù)據(jù)處理的質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述現(xiàn)有存在的問(wèn)題,提出了本發(fā)明。
2、因此,本發(fā)明解決的技術(shù)問(wèn)題是:如何提高從原始文本和圖像資料中提取、整理和分類(lèi)信息的效率和準(zhǔn)確性,如何增強(qiáng)知識(shí)庫(kù)中信息的豐富性和相關(guān)性。
3、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案,一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法,包括:
4、基于圖像識(shí)別模型利用框選單元3,對(duì)文本資料進(jìn)行圖片截選和分類(lèi),選擇或生成標(biāo)準(zhǔn)模板,進(jìn)行編號(hào)標(biāo)記;基于語(yǔ)義分析模型利用數(shù)據(jù)化處理單元4,將截選圖片轉(zhuǎn)化為文本數(shù)據(jù),并提取圖片中的關(guān)鍵信息;利用標(biāo)記整理單元5,對(duì)標(biāo)題空間和填充空間進(jìn)行主從關(guān)聯(lián),并對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展;基于語(yǔ)義處理模型利用關(guān)鍵詞分類(lèi)單元6,對(duì)關(guān)鍵詞進(jìn)行篩選,并對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)法檢查和語(yǔ)義理解,存入到知識(shí)庫(kù)中;對(duì)知識(shí)庫(kù)進(jìn)行持續(xù)更新,根據(jù)反饋對(duì)文本數(shù)據(jù)進(jìn)行優(yōu)化。
5、作為本發(fā)明所述的一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的一種優(yōu)選方案,其中:所述對(duì)文本資料進(jìn)行圖片截選和分類(lèi)包括利用框選單元3設(shè)置標(biāo)準(zhǔn)模板,并將標(biāo)準(zhǔn)模板在拍攝截面上進(jìn)行映射,生成拍攝邊框,預(yù)留標(biāo)題空間和填充空間,利用標(biāo)題空間和填充空間對(duì)文本資料進(jìn)行對(duì)照矯正,在標(biāo)準(zhǔn)文本上獲取若干組填充文本,對(duì)填充文本進(jìn)行圖片截選后,對(duì)截選圖片依次進(jìn)行編號(hào)標(biāo)記;
6、利用圖像識(shí)別模型,對(duì)截選圖片進(jìn)行分類(lèi),根據(jù)圖片的類(lèi)別,自動(dòng)選擇合適的標(biāo)準(zhǔn)模板,或者生成新的模板,步驟如下:
7、將截選圖片輸入到圖像識(shí)別模型中,經(jīng)過(guò)卷積層和池化層的處理,提取圖片中的特征向量;將特征向量輸入到全連接層中,經(jīng)過(guò)激活函數(shù)和softmax函數(shù)的處理,輸出圖片的類(lèi)別概率分布;
8、所述圖像識(shí)別模型表示為:
9、
10、其中,x(l)i,j,k表示第l層的輸入特征圖,w(l)m,n,p,k表示第l層的卷積核參數(shù),表示第l層的偏置參數(shù),表示第l層的卷積輸出,f表示激活函數(shù),表示第l層的激活輸出,表示第l層的池化輸出,m,n,p表示卷積核的尺寸,max表示最大值運(yùn)算;
11、根據(jù)概率分布,選擇概率最大的類(lèi)別作為圖片的識(shí)別結(jié)果,從預(yù)設(shè)的標(biāo)準(zhǔn)模板庫(kù)中,選擇與圖片類(lèi)別相匹配的標(biāo)準(zhǔn)模板;
12、若沒(méi)有與圖片類(lèi)別相匹配的標(biāo)準(zhǔn)模板,或者圖片類(lèi)別不明確,則利用圖片模板生成模型對(duì)圖片進(jìn)行遷移,生成新的模板。
13、作為本發(fā)明所述的一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的一種優(yōu)選方案,其中:所述圖片模板生成模型表示為:
14、g(z)=cnn(z)
15、d(x)=cnn(x)
16、
17、其中,z表示隨機(jī)噪聲向量,x表示真實(shí)圖片,g(z)表示生成器生成的圖片,d(x)表示判別器對(duì)真實(shí)圖片的判別概率,d(g(z))表示判別器對(duì)生成圖片的判別概率,cnn表示卷積神經(jīng)網(wǎng)絡(luò),表示生成器和判別器的損失函數(shù),表示期望值,pdata(x)表示真實(shí)圖片的分布,pz(z)表示噪聲向量的分布;
18、圖片模板生成模型的步驟包括將圖片輸入到生成器中,經(jīng)過(guò)卷積層和反卷積層的處理,生成新的模板;
19、將新的模板和預(yù)設(shè)的標(biāo)準(zhǔn)模板一起輸入到判別器中,經(jīng)過(guò)卷積層和全連接層的處理,輸出圖片的真假概率分布;
20、根據(jù)概率分布,計(jì)算生成器和判別器的損失函數(shù),利用反向傳播算法更新生成器和判別器的參數(shù),使生成器能夠生成更真實(shí)的圖片,判別器能夠更好地區(qū)分真假圖片;
21、直到生成器和判別器達(dá)到平衡,即生成器生成的圖片能夠騙過(guò)判別器,判別器無(wú)法區(qū)分真假圖片;將生成器生成的圖片作為新的模板,用于框選截圖。
22、作為本發(fā)明所述的一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的一種優(yōu)選方案,其中:所述提取圖片中的關(guān)鍵信息包括利用數(shù)據(jù)化處理單元(4)將截選圖片轉(zhuǎn)化為文本數(shù)據(jù),根據(jù)編號(hào)標(biāo)記,將文本數(shù)據(jù)依次填充至對(duì)應(yīng)填充空間中,獲取文本數(shù)據(jù);
23、利用語(yǔ)義分析模型,對(duì)截選圖片進(jìn)行語(yǔ)義分析,提取圖片中的關(guān)鍵信息,將這些信息作為文本數(shù)據(jù)的補(bǔ)充,表示為:
24、h(l)=f(w(l)x(l-1)+b(l))
25、
26、
27、其中,x(l)表示第l層的輸入特征圖,h(l)表示第l層的隱藏特征圖,表示第l層的輸出特征圖,w(l)表示第l層的權(quán)重參數(shù),b(l)表示第l層的偏置參數(shù),f表示激活函數(shù),x表示真實(shí)圖片的像素類(lèi)別分布,表示預(yù)測(cè)圖片的像素類(lèi)別分布,表示語(yǔ)義分割的損失函數(shù),log表示對(duì)數(shù)運(yùn)算,∑表示求和運(yùn)算;
28、語(yǔ)義分析步驟包括將截選圖片輸入到ssn模型中,經(jīng)過(guò)編碼器的處理,提取圖片中的高維特征向量;將特征向量輸入到解碼器中,經(jīng)過(guò)反卷積層和上采樣層的處理,恢復(fù)圖片的原始尺寸,輸出圖片的像素類(lèi)別分布;根據(jù)像素類(lèi)別分布,對(duì)圖片進(jìn)行分割,將圖片劃分為若干個(gè)區(qū)域,每個(gè)區(qū)域?qū)?yīng)一個(gè)語(yǔ)義類(lèi)別,根據(jù)分割結(jié)果,對(duì)每個(gè)區(qū)域進(jìn)行語(yǔ)義分析,提取區(qū)域中的關(guān)鍵信息,作為文本數(shù)據(jù)的補(bǔ)充。
29、作為本發(fā)明所述的一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的一種優(yōu)選方案,其中:所述對(duì)標(biāo)題空間和填充空間進(jìn)行主從關(guān)聯(lián)包括利用標(biāo)記整理單元5對(duì)標(biāo)題空間和填充空間進(jìn)行主從關(guān)聯(lián),建立填充空間對(duì)應(yīng)截選圖片的編號(hào)標(biāo)記與標(biāo)題空間的主從關(guān)聯(lián),根據(jù)標(biāo)準(zhǔn)模板在標(biāo)題空間中填充標(biāo)記名稱(chēng),作為關(guān)鍵詞;
30、利用知識(shí)圖譜,對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展包括將關(guān)鍵詞作為查詢條件,從gdb中檢索與關(guān)鍵詞相關(guān)的實(shí)體和關(guān)系,構(gòu)建子圖,子圖是由若干個(gè)節(jié)點(diǎn)和邊組成的圖,節(jié)點(diǎn)表示實(shí)體,邊表示關(guān)系,對(duì)子圖進(jìn)行分析,提取子圖中的重要信息,將這些信息作為關(guān)鍵詞的補(bǔ)充,對(duì)子圖進(jìn)行擴(kuò)展,根據(jù)子圖中的實(shí)體和關(guān)系,從gdb中檢索更多的相關(guān)實(shí)體和關(guān)系,生成更多的子圖,將這些子圖中的實(shí)體和關(guān)系作為相關(guān)詞匯,作為知識(shí)庫(kù)的檢索條件。
31、作為本發(fā)明所述的一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的一種優(yōu)選方案,其中:所述對(duì)關(guān)鍵詞進(jìn)行篩選包括利用關(guān)鍵詞分類(lèi)單元6對(duì)關(guān)鍵詞進(jìn)行篩選,獲取對(duì)應(yīng)從屬編號(hào)標(biāo)記下截選圖片對(duì)應(yīng)的文本數(shù)據(jù),并根據(jù)時(shí)間順序?qū)ξ谋緮?shù)據(jù)進(jìn)行排序,生成時(shí)間-文本數(shù)據(jù),存入到知識(shí)庫(kù)2中進(jìn)行存儲(chǔ);
32、利用語(yǔ)義處理模型,對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)法檢查和語(yǔ)義理解,對(duì)文本數(shù)據(jù)中的錯(cuò)誤或不清晰的表述進(jìn)行糾正或提示,表示為:
33、
34、其中,表示第l層的輸入特征向量,表示第l層的前向隱藏特征向量,表示第l層的后向隱藏特征向量,表示第l層的雙向隱藏特征向量,yt表示輸出特征向量,wy表示權(quán)重參數(shù),by表示偏置參數(shù),f表示激活函數(shù),y表示真實(shí)的語(yǔ)法和語(yǔ)義標(biāo)簽,表示預(yù)測(cè)的語(yǔ)法和語(yǔ)義標(biāo)簽,表示自然語(yǔ)言處理的損失函數(shù),log表示對(duì)數(shù)運(yùn)算,∑表示求和運(yùn)算,[;]表示向量拼接運(yùn)算;
35、所述語(yǔ)義處理的步驟是包括將文本數(shù)據(jù)分詞,將每個(gè)詞轉(zhuǎn)化為詞向量,將詞向量輸入到birnn模型中,經(jīng)過(guò)前向rnn和后向rnn的處理,提取文本數(shù)據(jù)中的上下文特征向量;將特征向量輸入到全連接層中,經(jīng)過(guò)激活函數(shù)和softmax函數(shù)的處理,輸出文本數(shù)據(jù)的語(yǔ)法和語(yǔ)義標(biāo)簽,根據(jù)語(yǔ)法和語(yǔ)義標(biāo)簽,對(duì)文本數(shù)據(jù)進(jìn)行語(yǔ)法檢查和語(yǔ)義理解,對(duì)文本數(shù)據(jù)中的錯(cuò)誤或不清晰的表述進(jìn)行糾正或提示。
36、作為本發(fā)明所述的一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的一種優(yōu)選方案,其中:所述根據(jù)反饋對(duì)文本數(shù)據(jù)進(jìn)行優(yōu)化包括將知識(shí)庫(kù)作為環(huán)境,將優(yōu)化器作為智能體,定義優(yōu)化器的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),狀態(tài)是知識(shí)庫(kù)中的文本數(shù)據(jù),動(dòng)作是對(duì)文本數(shù)據(jù)進(jìn)行優(yōu)化,獎(jiǎng)勵(lì)是用戶的反饋和評(píng)價(jià);利用深度q網(wǎng)絡(luò)實(shí)現(xiàn)優(yōu)化器的學(xué)習(xí)。
37、本發(fā)明的另外一個(gè)目的是提供一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的系統(tǒng),其能通過(guò)知識(shí)圖譜和深度學(xué)習(xí)提高從原始文本和圖像資料中提取、整理和分類(lèi)信息的效率和準(zhǔn)確性,如何增強(qiáng)知識(shí)庫(kù)中信息的豐富性和相關(guān)性。
38、為解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建系統(tǒng),包括文本轉(zhuǎn)化系統(tǒng)1和知識(shí)庫(kù)2;
39、所述文本轉(zhuǎn)化系統(tǒng)1包括框選單元3、數(shù)據(jù)化處理單元4、標(biāo)記整理單元5和關(guān)鍵詞分類(lèi)單元6,所述框選單元3分別與數(shù)據(jù)化處理單元4和標(biāo)記整理單元5對(duì)接,所述數(shù)據(jù)化處理單元4和標(biāo)記整理單元5均與關(guān)鍵詞分類(lèi)單元6對(duì)接;
40、所述框選單元3包括模板參考模塊7、對(duì)照矯正模塊8和框選標(biāo)號(hào)模塊9,所述模板參考模塊7與對(duì)照矯正模塊8對(duì)接,所述對(duì)照矯正模塊8與框選標(biāo)號(hào)模塊9對(duì)接;
41、所述模板參考模塊7用于設(shè)置標(biāo)準(zhǔn)模板,并將標(biāo)準(zhǔn)模板在拍攝截面上進(jìn)行映射,生成拍攝邊框,預(yù)留標(biāo)題空間和填充空間;
42、所述對(duì)照矯正模塊8用于利用標(biāo)題空間和填充空間對(duì)文本資料進(jìn)行對(duì)照矯正,在標(biāo)準(zhǔn)文本上獲取若干組填充文本;
43、所述框選標(biāo)號(hào)模塊9用于對(duì)填充文本進(jìn)行圖片截選后,對(duì)截選圖片依次進(jìn)行編號(hào)標(biāo)記;
44、所述數(shù)據(jù)化處理單元4包括光學(xué)字符識(shí)別模塊10和對(duì)照填充模塊11,所述光學(xué)字符識(shí)別模塊10與對(duì)照填充模塊11對(duì)接;
45、所述光學(xué)字符識(shí)別模塊10用于將截選圖片轉(zhuǎn)化為文本數(shù)據(jù);
46、所述對(duì)照填充模塊11用于根據(jù)編號(hào)標(biāo)記,將文本數(shù)據(jù)依次填充至對(duì)應(yīng)填充空間中,獲取文本數(shù)據(jù);
47、所述標(biāo)記整理單元5包括模塊編號(hào)對(duì)照模塊12和標(biāo)記定義模塊13,所述模塊編號(hào)對(duì)照模塊12與標(biāo)記定義模塊13對(duì)接;
48、所述關(guān)鍵詞分類(lèi)單元6包括關(guān)鍵詞篩選模塊14和時(shí)間排序模塊15,所述關(guān)鍵詞篩選模塊14與時(shí)間排序模塊15對(duì)接;
49、所述關(guān)鍵詞篩選模塊14用于對(duì)關(guān)鍵詞進(jìn)行篩選,獲取對(duì)應(yīng)從屬編號(hào)標(biāo)記下截選圖片對(duì)應(yīng)的文本數(shù)據(jù);
50、所述時(shí)間排序模塊15用于根據(jù)時(shí)間順序?qū)ξ谋緮?shù)據(jù)進(jìn)行排序,生成時(shí)間-文本數(shù)據(jù),并將時(shí)間-文本數(shù)據(jù)傳輸?shù)街R(shí)庫(kù)2。
51、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的步驟。
52、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)一種基于標(biāo)準(zhǔn)數(shù)字化加工的知識(shí)庫(kù)構(gòu)建方法的步驟。
53、本發(fā)明的有益效果:通過(guò)高效的圖像識(shí)別、深入的語(yǔ)義分析、精確的數(shù)據(jù)處理和智能的反饋學(xué)習(xí)機(jī)制,構(gòu)建了一個(gè)動(dòng)態(tài)、準(zhǔn)確、且用戶友好的數(shù)字化知識(shí)庫(kù)不僅加快了信息處理的速度,而且提高了知識(shí)庫(kù)的質(zhì)量和實(shí)用性。