本發(fā)明涉及人工智能領(lǐng)域的多模態(tài)學(xué)習,尤其涉及一種多模態(tài)實體識別模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、多模態(tài)實體識別(multimodal?entity?recognition)是人工智能領(lǐng)域中的一個重要方向,旨在通過結(jié)合不同類型的數(shù)據(jù)源(如語音和文本)來識別和理解數(shù)據(jù)中的實體。這種方法可以應(yīng)用于各種場景,例如虛擬助手、自動語音識別系統(tǒng)以及多模態(tài)信息檢索等。
2、隨著深度學(xué)習的快速發(fā)展,研究者們逐漸意識到,僅依賴單一模態(tài)的數(shù)據(jù)往往無法充分理解復(fù)雜的現(xiàn)實世界信息。因此,多模態(tài)學(xué)習(multimodal?learning)逐漸興起,旨在通過融合不同模態(tài)的數(shù)據(jù)來增強模型的感知能力。語音和文本作為最常見的兩種模態(tài),在許多應(yīng)用場景中經(jīng)常被結(jié)合使用,例如語音指令的理解和自然語言處理(nlp)任務(wù)。
3、多模態(tài)學(xué)習面臨的主要挑戰(zhàn)在于如何高效地融合不同模態(tài)的特征,并在融合過程中保留各自的獨特信息。未來的發(fā)展方向可能包括更加智能的模態(tài)融合技術(shù)、更高效的序列標注算法,以及在更大規(guī)模的數(shù)據(jù)集上進行訓(xùn)練以提高模型的泛化能力。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種多模態(tài)實體識別模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì),旨在解決現(xiàn)有技術(shù)難以有效融合語音和文本特征,導(dǎo)致多模態(tài)實體識別的準確性不足的技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種多模態(tài)實體識別模型訓(xùn)練方法,所述多模態(tài)實體識別模型訓(xùn)練方法包括以下步驟:
3、獲取語音數(shù)據(jù)與文本數(shù)據(jù),將所述語音數(shù)據(jù)通過分幀處理及傅里葉變換得到語音特征,通過多層transformer編碼器對所述語音特征進行編碼,得到語音特征向量;
4、將所述文本數(shù)據(jù)經(jīng)過詞嵌入與位置嵌入處理得到文本嵌入特征,通過transformer解碼器處理所述文本嵌入特征,得到文本特征向量;
5、通過ctc層處理所述語音特征向量得到語音實體向量,通過crf層處理所述文本特征向量得到文本實體向量,將所述文本實體向量和所述語音實體向量作為輸入,通過對比學(xué)習方法訓(xùn)練初始模型,得到目標多模態(tài)實體識別模型。
6、可選地,通過文本實體向量、語音實體向量以及對比學(xué)習方法訓(xùn)練初始模型,得到目標多模態(tài)實體識別模型,包括:
7、所述文本實體向量與所述語音實體向量服從高斯分布,計算所述文本實體向量與語音實體向量中屬于相同實體標簽的兩個token之間的差異程度;
8、分別計算從第一個token到第二個token以及從第二個token到第一個token的特征向量之間的差異值,取兩個方向上的差異值的平均值,以衡量對稱差異度;
9、在對比學(xué)習過程中,最小化同標簽token對的差異度,最大化不同標簽token對的差異度,合并crf損失和ctc損失得到總損失函數(shù);
10、通過反向傳播算法優(yōu)化初始模型的參數(shù),直到總損失函數(shù)收斂,完成初始模型的訓(xùn)練,得到目標多模態(tài)實體識別模型。
11、可選地,在計算所述文本實體向量與語音實體向量中屬于相同實體標簽的兩個token之間的差異程度之前,還包括:
12、對所述文本實體向量與語音實體向量進行標準化處理,通過主成分分析算法將處理后的文本實體向量與語音實體向量的維度降至目標維度范圍內(nèi),得到低維度的文本實體向量與語音實體向量,用于計算相同實體標簽的兩個token之間的對稱差異度。
13、可選地,通過反向傳播算法優(yōu)化初始模型的參數(shù),包括:
14、通過反向傳播算法計算總損失函數(shù)相對于每個模型參數(shù)的梯度,根據(jù)每個模型參數(shù)的梯度應(yīng)用自適應(yīng)學(xué)習率算法對每個模型參數(shù)的學(xué)習率進行動態(tài)調(diào)整,使用自適應(yīng)學(xué)習率調(diào)整后的學(xué)習率對每個模型參數(shù)進行更新優(yōu)化。
15、可選地,在得到目標多模態(tài)實體識別模型之后,還包括:
16、獲取待預(yù)測數(shù)據(jù),將所述待預(yù)測數(shù)據(jù)輸入所述目標多模態(tài)實體識別模型,通過所述目標多模態(tài)實體識別模型的crf層輸出目標實體預(yù)測結(jié)果。
17、可選地,通過多層transformer編碼器對所述語音特征進行編碼,得到語音特征向量,包括:
18、所述多層transformer編碼器為6層transformer編碼器,每一層transformer編碼器包括多頭注意力機制、第一次殘差連接與歸一化、前饋神經(jīng)網(wǎng)絡(luò)、第二次殘差連接與歸一化,通過所述6層transformer編碼器對所述語音特征進行編碼,得到所述語音特征向量。
19、可選地,將所述文本數(shù)據(jù)經(jīng)過詞嵌入與位置嵌入處理得到文本嵌入特征,包括:
20、將所述文本數(shù)據(jù)中的每個詞轉(zhuǎn)換為固定維度的向量表示即詞嵌入向量;
21、通過正弦和余弦函數(shù)生成每個詞的位置編碼,為每個詞嵌入向量添加位置編碼,得到所述文本嵌入特征。
22、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種多模態(tài)實體識別模型訓(xùn)練裝置,所述多模態(tài)實體識別模型訓(xùn)練裝置包括:
23、語音處理與編碼模塊,用于獲取語音數(shù)據(jù)與文本數(shù)據(jù),將所述語音數(shù)據(jù)通過分幀處理及傅里葉變換得到語音特征,通過多層transformer編碼器對所述語音特征進行編碼,得到語音特征向量;
24、文本處理與解碼模塊,用于將所述文本數(shù)據(jù)經(jīng)過詞嵌入與位置嵌入處理得到文本嵌入特征,通過transformer解碼器處理所述文本嵌入特征,得到文本特征向量;
25、特征融合與模型訓(xùn)練模塊,用于通過ctc層處理所述語音特征向量得到語音實體向量,通過crf層處理所述文本特征向量得到文本實體向量,將所述文本實體向量和所述語音實體向量作為輸入,通過對比學(xué)習方法訓(xùn)練初始模型,得到目標多模態(tài)實體識別模型。
26、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種多模態(tài)實體識別模型訓(xùn)練設(shè)備,所述多模態(tài)實體識別模型訓(xùn)練設(shè)備包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的多模態(tài)實體識別模型訓(xùn)練程序,所述多模態(tài)實體識別模型訓(xùn)練程序被所述處理器執(zhí)行時實現(xiàn)如上述所述的多模態(tài)實體識別模型訓(xùn)練方法的步驟。
27、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種計算機存儲介質(zhì),所述存儲介質(zhì)上存儲有多模態(tài)實體識別模型訓(xùn)練程序,所述多模態(tài)實體識別模型訓(xùn)練程序被處理器執(zhí)行時實現(xiàn)如上所述的多模態(tài)實體識別模型訓(xùn)練方法的步驟。
28、本發(fā)明涉及人工智能領(lǐng)域,公開了一種多模態(tài)實體識別模型訓(xùn)練方法,通過獲取語音數(shù)據(jù)與文本數(shù)據(jù),分別對語音數(shù)據(jù)和文本數(shù)據(jù)進行特征處理。語音數(shù)據(jù)經(jīng)過分幀處理及傅里葉變換得到語音特征,并通過編碼器進行編碼,生成語音特征向量;文本數(shù)據(jù)則通過詞嵌入與位置嵌入生成文本嵌入特征,隨后通過解碼器處理生成文本特征向量。語音特征向量經(jīng)過ctc層處理生成語音實體向量,文本特征向量經(jīng)過crf層處理生成文本實體向量。通過對文本實體向量、語音實體向量以及對比學(xué)習方法進行訓(xùn)練,優(yōu)化初始模型,獲得目標多模態(tài)實體識別模型。本發(fā)明通過將語音數(shù)據(jù)和文本數(shù)據(jù)同時處理,多模態(tài)實體識別模型能夠捕捉不同模態(tài)之間的互補信息,提升模型對實體的識別能力。