本發(fā)明涉及在線教育平臺的知識圖譜補全方法,更特別地說,是指一種面向在線增量學(xué)習(xí)場景的知識圖譜補全方法。
背景技術(shù):
1、知識圖譜是由谷歌公司首先提出的,被互聯(lián)網(wǎng)公司用來從語義角度組織網(wǎng)絡(luò)數(shù)據(jù),從而提供智能搜索服務(wù)的大型知識庫。形式上,它是一個用圖數(shù)據(jù)結(jié)構(gòu)表示的知識載體,描述客觀世界的事物及其關(guān)系,其中節(jié)點代表客觀世界的事物,邊代表事物之間的關(guān)系。知識圖譜技術(shù)發(fā)展至今,其內(nèi)涵已經(jīng)遠遠超出了語義網(wǎng)絡(luò)的范圍,在不同應(yīng)用場景下出現(xiàn)了如在線教育知識圖譜體系的大數(shù)據(jù)時代知識工程,這是傳統(tǒng)知識工程在大數(shù)據(jù)時代的延續(xù)。
2、在互聯(lián)網(wǎng)時代,人類在與自然和社會的交互中產(chǎn)生了異常龐大的數(shù)據(jù),它們以文字、圖片、音頻、視頻等各種模態(tài)存在,如何讓計算機自動閱讀、分析、理解這些海量、繁雜、泛濫的數(shù)據(jù),從中挖掘有價值的信息,為用戶提供精準(zhǔn)的信息服務(wù),是構(gòu)建下一代信息服務(wù)的核心目標(biāo)之一。
3、在線教育顧名思義,是以網(wǎng)絡(luò)為介質(zhì)的教學(xué)方式,通過網(wǎng)絡(luò),學(xué)員與教師即使相隔萬里也可以開展教學(xué)活動;此外,借助網(wǎng)絡(luò)課件,學(xué)員還可以隨時隨地進行學(xué)習(xí),真正打破了時間和空間的限制。對于工作繁忙,學(xué)習(xí)時間不固定的職場人而言網(wǎng)絡(luò)遠程教育是最方便不過的學(xué)習(xí)方式。目前在線教育的形式較多,各個網(wǎng)校資源參差不齊。為了促進在線教育健康發(fā)展,大幅提升在線教育的基礎(chǔ)設(shè)施建設(shè)水平,互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等現(xiàn)代信息技術(shù)在教育領(lǐng)域的應(yīng)用更加廣泛、在線教育模式更加完善,資源和服務(wù)更加豐富。
4、隨著深度學(xué)習(xí)和圖神經(jīng)網(wǎng)絡(luò)研究的深入,在線教育知識圖譜作為一種特別的異構(gòu)圖逐漸成為研究的熱門領(lǐng)域。由于知識圖譜具有豐富的語義內(nèi)容和可供推理的知識特性,知識圖譜由多個實體和關(guān)系構(gòu)成,實體之間通過關(guān)系連接并傳遞信息。其表示方式在表示結(jié)構(gòu)化數(shù)據(jù)上非常有效,可以表達比同構(gòu)圖更豐富的語義信息,但其多維結(jié)構(gòu)和潛在的符號性質(zhì)使得基于知識圖譜的操作變得困難。
5、在線教育知識圖譜嵌入技術(shù)的存在就是為了解決上述問題。知識圖譜嵌入將知識圖譜中的實體映射至連續(xù)的向量空間中,同時將關(guān)系視為實體在向量空間中的轉(zhuǎn)換方式。這種嵌入方式簡化了基于知識圖譜的操作,同時保留了元素的固有信息,為多種基于知識圖譜的技術(shù)提供了簡便的數(shù)據(jù)處理基礎(chǔ),如知識圖譜補全、關(guān)系提取、實體分類和實體解析等。
6、盡管當(dāng)前的在線教育知識圖譜嵌入方法取得了顯著成效,但對于動態(tài)演化的圖譜數(shù)據(jù)仍缺乏有效解決方案?,F(xiàn)有的嵌入方法受孤立學(xué)習(xí)范式的限制,無法有效保留歷史知識與經(jīng)驗。因此,當(dāng)在線教育知識圖譜中圖譜結(jié)構(gòu)或內(nèi)容發(fā)生變化時,主流的離線訓(xùn)練方法只能重新訓(xùn)練全部實體、關(guān)系和三元組,需要大量的訓(xùn)練時間和資源。僅使用更新數(shù)據(jù)進行模型訓(xùn)練,往往導(dǎo)致在線教育知識圖譜中舊數(shù)據(jù)上的性能顯著下降,即出現(xiàn)災(zāi)難性遺忘問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的之一是提出一種面向在線增量學(xué)習(xí)場景的在線教育知識圖譜訓(xùn)練方法,即生成式erc_vae模型的構(gòu)建方法。構(gòu)建過程中,首先引入基于影響力因子采樣的經(jīng)驗回放方法,旨在有效地采樣和保留在線教育平臺的原有知識圖譜中實體與關(guān)系形成的三元組信息;然后將三元組信息用于持續(xù)輸入任務(wù)的訓(xùn)練,以減輕知識圖譜中災(zāi)難性遺忘的技術(shù)問題;最終得到面向在線增量學(xué)習(xí)場景的在線教育知識圖譜表示學(xué)習(xí)模型,簡稱為生成式erc_vae模型。
2、本發(fā)明的目的之二是提出一種面向在線增量學(xué)習(xí)場景的知識圖譜補全方法,是將生成式erc_vae模型引入到在線教育知識圖譜中進行對基準(zhǔn)知識圖譜的補全。在在線教育平臺的使用場景下,通過嵌入遷移的方式,運用已有實體學(xué)習(xí)新任務(wù)中引入新元素,并根據(jù)知識蒸餾方法將老師模型學(xué)到的知識傳遞給學(xué)生模型,使模型在歷史任務(wù)上獲得經(jīng)驗的同時學(xué)習(xí)新知識。這實現(xiàn)了平滑過渡從舊知識到新任務(wù)的目標(biāo)。此外,通過采用基于生成式模型采樣三元組的方法,引入生成式模型捕獲歷史圖譜中的三元組的概率分布,以改善知識蒸餾策略,并促進歷史嵌入和當(dāng)前任務(wù)嵌入之間的平滑過渡。新提出的增量學(xué)習(xí)框架有助于在線教育平臺更好地適應(yīng)知識圖譜中圖譜結(jié)構(gòu)動態(tài)變化的需求,提升在線教育知識圖譜的在線學(xué)習(xí)效果,因而在在線教育平臺的知識表示學(xué)習(xí)領(lǐng)域具有廣闊的應(yīng)用前景。
3、本發(fā)明技術(shù)方案達到的技術(shù)效果:
4、在第一部分中,通過使用vae模型與知識圖譜表示模型相結(jié)合的方式,讓方法能更好地捕獲到知識圖譜中隱含的拓?fù)湫畔?,為增量學(xué)習(xí)提供更多的學(xué)習(xí)內(nèi)容。
5、在第二部分的步驟三中,通過將梯度信息轉(zhuǎn)換為重要性信息和影響力因子,識別出歷史知識圖譜中具有高影響力的三元組作為增量學(xué)習(xí)過程中用到的歷史三元組(記為緩沖區(qū)),提高了模型對歷史知識保留的敏銳度。在步驟四中,通過表示模型與知識蒸餾方法相結(jié)合的方式,將隱含在歷史參數(shù)中的信息通過蒸餾給增量任務(wù),以提高增量任務(wù)中知識圖譜補全的表現(xiàn);在步驟四中,通過vae模型的采樣,額外獲取了與拓?fù)浣Y(jié)構(gòu)相關(guān)的信息,并蒸餾傳遞給增量任務(wù),以提高增量任務(wù)中知識圖譜補全的表現(xiàn)。
1.一種構(gòu)建面向在線增量學(xué)習(xí)場景的融合多信息的知識圖譜表示學(xué)習(xí)模型erc-vae的方法,其特征在于包括有下列構(gòu)建步驟:
2.一種面向在線增量學(xué)習(xí)場景的知識圖譜補全方法,其特征在于含有下列步驟: