本發(fā)明涉及對話情感識別,具體地,涉及一種基于跨模態(tài)特征互補和有向圖學習的多模態(tài)對話情感識別方法。
背景技術:
1、在人機交互中,機器能夠感知和識別人類的情感,可以促進情感溝通,增進機器對用戶情感需求的理解,推動更加智能化和個性化的情感互動。對話中的情感識別(emotionrecognition?in?conversation,erc)是情感識別領域的一個重要研究方向,其致力于識別和理解言語交流中表達的情感。erc強調(diào)對話語境是各個模態(tài)復雜的相互作用,包括口語,面部表情,肢體語言以及對話中可能交換的文本信息。伴隨著人工智能的迅速發(fā)展,erc的應用正在擴展到對話生成、推薦系統(tǒng)、意見挖掘和醫(yī)療診斷等領域。
2、在日常的對話中,情感往往在語境之間流動,這表明當前的情感受到語境的影響。因此,許多現(xiàn)有的erc方法側重于建模對話上下文信息,捕捉長距離范圍的對話上下文依賴關系。如congcn(成分圖卷積網(wǎng)絡)通過構建異構圖來建模上下文信息和說話者信息的依賴關系;mmgcn(多模態(tài)圖卷積網(wǎng)絡)將三種模態(tài)的話語節(jié)點同時集成到一個gnn(圖神經(jīng)網(wǎng)絡)中對多模態(tài)信息和長距離上下文依賴信息進行建模,但會帶來額外的噪聲;cogmen(基于上下文化圖神經(jīng)網(wǎng)絡的多模態(tài)情感識別架構)通過對說話者自我和說話者之間的依賴關系建立有向圖結構,再利用圖卷積網(wǎng)絡捕獲依賴關系。
3、然而,由于不同模態(tài)之間的特征變化和數(shù)據(jù)分布的差異,不同模態(tài)具有獨特的特征,在圖中融合不同模態(tài)可能會產(chǎn)生多模態(tài)信息的沖突,并受到數(shù)據(jù)異質性問題的困擾,并且上述方法以簡單的形式直接連接各個模態(tài)特征進行融合,忽略各模態(tài)之間的相互作用,導致模態(tài)信息丟失、模態(tài)融合不充分。
技術實現(xiàn)思路
1、為了解決現(xiàn)有erc方法中多模態(tài)數(shù)據(jù)融合中的沖突和異構性、以及忽略各模態(tài)之間的相互作用,導致模態(tài)信息丟失、模態(tài)融合不充分的問題,本實施例提供了一種基于跨模態(tài)特征互補和有向圖學習的多模態(tài)對話情感識別方法,所述方法包括:獲取視頻對話數(shù)據(jù),對所述視頻對話數(shù)據(jù)進行特征提取,獲得第一特征;對所述第一特征進行編碼,獲得第二特征;基于所述第二特征構建跨模態(tài)異構圖,基于所述跨模態(tài)異構圖獲得注意力權重;基于所述注意力權重對所述跨模態(tài)異構圖進行更新,獲得最終跨模態(tài)異構圖,提取所述最終跨模態(tài)異構圖的互補特征信息,基于所述互補特征信息,對所述最終跨模態(tài)異構圖的特征進行融合獲得增強特征;基于所述增強特征構建多模態(tài)有向圖;基于所述多模態(tài)有向圖獲得情感特征,將所述情感特征傳輸至預訓練情感分類器進行預測,獲得預測情感結果。
2、本發(fā)明原理:通過對編碼后的各模態(tài)構建包含兩個模態(tài)的跨模態(tài)異構圖,通過協(xié)同注意力機制,學習不同模態(tài)間的交互信息,使每個模態(tài)都包含其他兩種模態(tài)的互補信息,對涉及同一模態(tài)的特征進行融合,獲得更全面的互補信息,從而得到各模態(tài)加強的特征表示,有效緩解多模態(tài)數(shù)據(jù)融合中的沖突和異質性問題;基于增強后的各模態(tài)構建基于說話者關系的多模態(tài)有向圖,對于圖中不同時間順序發(fā)生的節(jié)點之間的相互作用進行不同的處理,采用滑動窗口控制當前節(jié)點的過去節(jié)點和未來節(jié)點,減少模態(tài)信息丟失,節(jié)點之間關聯(lián)更緊密,使模態(tài)融合更充分;捕捉有向圖中說話者之間和說話者內(nèi)部的上下文依賴關系,有效捕捉對話語境中話語級的跨模態(tài)交互和時間依賴關系,提高對話情感識別的準確率。
3、進一步地,所述第一特征包括第一文本模態(tài)特征、第一視頻模態(tài)特征和第一音頻模態(tài)特征,獲得所述第一特征的具體步驟包括:對所述視頻對話數(shù)據(jù)中的音頻序列進行特征提取,獲得所述第一音頻模態(tài)特征;對所述視頻對話數(shù)據(jù)中的面部表情變化和手勢變化進行特征提取,獲得所述第一視頻模態(tài)特征;對所述視頻對話數(shù)據(jù)中每個單詞的單詞向量進行特征提取,獲得所述第一文本模態(tài)特征;基于所述第一文本模態(tài)特征、所述第一視頻模態(tài)特征和所述第一音頻模態(tài)特征,獲得所述第一特征。
4、進一步地,所述第二特征包括第二文本模態(tài)特征、第二視頻模態(tài)特征和第二音頻模態(tài)特征,獲得所述第二特征的具體步驟包括:基于規(guī)范化層和全連接層對所述第一視頻模態(tài)特征和第一音頻模態(tài)特征進行編碼,分別獲得所述第二視頻模態(tài)特征和所述第二音頻模態(tài)特征;基于規(guī)范化層和雙向lstm層對所述第一文本模態(tài)特征進行編碼,獲得所述第二文本模態(tài)特征;基于所述第二文本模態(tài)特征、所述第二視頻模態(tài)特征和所述第二音頻模態(tài)特征,獲得所述第二特征。
5、進一步地,所述跨模態(tài)異構圖包括第一跨模態(tài)異構圖、第二跨模態(tài)異構圖和第三跨模態(tài)異構圖,構建跨模態(tài)異構圖的具體步驟包括:基于所述第二特征,獲取文本模態(tài)的第一節(jié)點、視頻模態(tài)的第二節(jié)點和音頻模態(tài)的第三節(jié)點;基于所述第一節(jié)點和所述第二節(jié)點獲得第一節(jié)點集合和第一連接邊集合;基于所述第一節(jié)點集合和所述第一連接邊集合構建所述第一跨模態(tài)異構圖;基于所述第一節(jié)點和所述第三節(jié)點獲得第二節(jié)點集合和第二連接邊集合;基于所述第二節(jié)點集合和所述第二連接邊集合構建所述第二跨模態(tài)異構圖;基于所述第二節(jié)點和所述第三節(jié)點獲得第三節(jié)點集合和第三連接邊集合;基于所述第三節(jié)點集合和所述第三連接邊集合構建所述第三跨模態(tài)異構圖;基于所述第一跨模態(tài)異構圖、所述第二跨模態(tài)異構圖和所述第三跨模態(tài)異構圖,獲得所述跨模態(tài)異構圖。
6、進一步地,獲得最終跨模態(tài)異構圖的具體步驟包括:獲取所述跨模態(tài)異構圖中第四節(jié)點的鄰居節(jié)點,基于所述注意力權重對所述鄰居節(jié)點進行聚合,獲得聚合結果,基于所述聚合結果對所述第四節(jié)點進行更新,獲得第五節(jié)點;基于所述第五節(jié)點對所述跨模態(tài)異構圖進行更新,獲得所述最終跨模態(tài)異構圖。將鄰居節(jié)點聚合特征和自身節(jié)點特征結合起來更新其特征表示,模態(tài)融合的更充分,特征表示更豐富。
7、進一步地,互補特征信息包括:視頻模態(tài)轉換為文本模態(tài)的第一互補特征,文本模態(tài)轉換為視頻模態(tài)的第二互補特征;音頻模態(tài)轉換為文本模態(tài)的第三互補特征,文本模態(tài)轉換為音頻模態(tài)的第四互補特征;視頻模態(tài)轉換為音頻模態(tài)的第五互補特征,音頻模態(tài)轉換為視頻模態(tài)的第六互補特征。
8、進一步地,獲得增強特征的具體步驟包括:基于所述互補特征信息和所述最終跨模態(tài)異構圖,將涉及同一模態(tài)的節(jié)點的特征進行融合,獲得所述增強特征。圖中的每個節(jié)點都可以接收一個附加模態(tài)的補充信息,并且將剩余模態(tài)進一步融合到當前的特征中,在完成兩個模態(tài)間的交互后,對涉及同一模態(tài)的特征進行融合,從而獲得更全面的互補信息。
9、進一步地,構建多模態(tài)有向圖的具體步驟包括:基于所述增強特征獲得話語節(jié)點,基于所述話語節(jié)點獲得話語邊和所述話語邊的關系類型,所述話語節(jié)點包括文本話語節(jié)點、視頻話語節(jié)點和音頻話語節(jié)點,話語邊包括不同模態(tài)的話語節(jié)點之間的外部邊和同一模態(tài)的話語節(jié)點之間的內(nèi)部邊,所述邊的關系類型包括外部邊類型和內(nèi)部邊類型;基于所述話語節(jié)點的時間順序,控制所述話語節(jié)點的m個過去話語節(jié)點和n個未來話語節(jié)點,獲得所述多模態(tài)有向圖,m和n均表示大于或等于1的整數(shù)。構建基于說話者關系的有向圖結構,用于捕捉對話中話語之間的時間順序關系以及不同發(fā)言者之間的交互關系;對于圖中不同時間順序發(fā)生的節(jié)點之間的相互作用進行不同的處理,采用滑動窗口控制當前節(jié)點的過去節(jié)點和未來節(jié)點,減少模態(tài)信息丟失,節(jié)點之間關聯(lián)更緊密,使模態(tài)融合更充分。
10、進一步地,獲得情感特征的具體步驟包括:提取所述話語節(jié)點中內(nèi)部節(jié)點之間和相鄰所述話語節(jié)點之間的依賴關系,獲得第三特征;基于所述第三特征,提取所述多模態(tài)有向圖的局部信息和全局信息,獲得第四特征;將所述第四特征進行鄰居采樣和聚合,獲得所述情感特征。利用多模態(tài)圖中話語和模態(tài)之間的交互和變化,從節(jié)點特征中提取豐富的表示,提高節(jié)點的表示。
11、依賴關系是指一個節(jié)點的變更將會影響到另一個節(jié)點的關系。
12、進一步地,獲得第三特征的第一計算公式為:
13、
14、其中,表示第三特征,ωtop和ωt均表示可學習參數(shù),表示話語節(jié)點的特征,pt(i)表示在關系t∈r下節(jié)點的鄰居索引的集合,|pt(i)|表示歸一化常數(shù),表示節(jié)點的鄰居節(jié)點的特征,η表示三種不同的模態(tài),包括文本模態(tài)、視頻模態(tài)和音頻模態(tài),i和m均表示序號。
15、本發(fā)明提供的一個或多個技術方案,至少具有如下技術效果或優(yōu)點:
16、1.通過對編碼后的各模態(tài)構建包含兩個模態(tài)的跨模態(tài)異構圖,通過協(xié)同注意力機制,學習不同模態(tài)間的交互信息,使每個模態(tài)都包含其他兩種模態(tài)的互補信息,對涉及同一模態(tài)的特征進行融合,獲得更全面的互補信息,從而得到各模態(tài)加強的特征表示,有效緩解多模態(tài)數(shù)據(jù)融合中的沖突和異質性問題。
17、2.基于增強后的各模態(tài)構建基于說話者關系的多模態(tài)有向圖,對于圖中不同時間順序發(fā)生的節(jié)點之間的相互作用進行不同的處理,采用滑動窗口控制當前節(jié)點的過去節(jié)點和未來節(jié)點,減少模態(tài)信息丟失,節(jié)點之間關聯(lián)更緊密,使模態(tài)融合更充分。
18、3.捕捉多模態(tài)有向圖中說話者之間和說話者內(nèi)部的上下文依賴關系,有效捕捉對話語境中話語級的跨模態(tài)交互和時間依賴關系,提高對話情感識別的準確率。