本發(fā)明涉及多模態(tài)領(lǐng)域,具體提出了一種基于權(quán)重策略的文本音頻多模態(tài)情感識(shí)別方法。
背景技術(shù):
1、情感涉及主觀經(jīng)歷、生理反應(yīng)和行為反應(yīng),其主要特點(diǎn)是產(chǎn)生過(guò)程復(fù)雜、表達(dá)形式多樣,如何對(duì)其進(jìn)行識(shí)別卻是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。隨著社交媒體和虛擬社交空間的廣泛應(yīng)用,人們?cè)谌粘=涣髦挟a(chǎn)生了大量的文本和音頻數(shù)據(jù),這兩種模態(tài)都承載著豐富的情感信息。然而,單模態(tài)情感識(shí)別存在魯棒性不足、識(shí)別率不高的情況,結(jié)合更多數(shù)據(jù)源的多模態(tài)情感識(shí)別可以使情感的識(shí)別更加準(zhǔn)確。
2、單模態(tài)情感識(shí)別主要依賴于單一類型的數(shù)據(jù)源,例如僅使用文本或僅使用音頻來(lái)識(shí)別情感。這種方法的局限性在于它容易受到數(shù)據(jù)質(zhì)量和單一特征維度的影響。例如,在文本情感識(shí)別中,如果文本數(shù)據(jù)質(zhì)量較差或表達(dá)不明確,識(shí)別的準(zhǔn)確性將大打折扣;而在音頻情感識(shí)別中,背景噪音、說(shuō)話者的音調(diào)變化等因素也可能導(dǎo)致識(shí)別結(jié)果的不準(zhǔn)確。因此,單模態(tài)情感識(shí)別在復(fù)雜環(huán)境下的魯棒性和準(zhǔn)確性存在較大的挑戰(zhàn)。
3、在語(yǔ)音情感識(shí)別領(lǐng)域,使用單一模型來(lái)識(shí)別一個(gè)人的情緒可以產(chǎn)生較高的準(zhǔn)確性。然而,語(yǔ)音中的歧義仍然是語(yǔ)音情感識(shí)別系統(tǒng)中的一個(gè)問(wèn)題。對(duì)言語(yǔ)情感的誤解在言語(yǔ)情感識(shí)別中普遍存在。鑒于存在的這一問(wèn)題,目前已經(jīng)引入了多模態(tài)語(yǔ)音情感識(shí)別系統(tǒng)。其中一種方法是利用韻律短語(yǔ)自動(dòng)標(biāo)記器從基于支持向量機(jī)的言語(yǔ)/非言語(yǔ)聲音檢測(cè)器中提取言語(yǔ)和非言語(yǔ)片段,利用卷積神經(jīng)網(wǎng)絡(luò)提取每個(gè)片段的情感和聲音特征,并將它們組合在一起形成一個(gè)基于cnn的通用特征向量。還有一種方法是采用模塊化和適應(yīng)性強(qiáng)的雙??蚣躨emonet,該框架基于預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行語(yǔ)音情感識(shí)別。
4、大多數(shù)現(xiàn)有的情緒識(shí)別算法只關(guān)注日常言語(yǔ)中通常存在的有限范圍的非語(yǔ)言噪音。相比之下,本研究考慮了話語(yǔ)中的語(yǔ)言和非語(yǔ)言聲音,以便在現(xiàn)實(shí)的對(duì)話環(huán)境中進(jìn)行情感識(shí)別。同時(shí),當(dāng)前多模態(tài)情感識(shí)別仍存在諸多問(wèn)題,如模態(tài)特征提取不充分,各模態(tài)間特征融合效果不佳。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有情感識(shí)別技術(shù)中存在的魯棒性不足和識(shí)別率不高的問(wèn)題,本發(fā)明提供一種結(jié)合文本和音頻數(shù)據(jù)的高效情感識(shí)別算法,通過(guò)多模態(tài)數(shù)據(jù)融合,提升情感識(shí)別的準(zhǔn)確性,能夠更準(zhǔn)確地監(jiān)測(cè)和分析的情感變化,提供早期預(yù)警和個(gè)性化支持,從而提升生活滿意度和心理健康水平。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
3、一種基于權(quán)重策略的文本音頻多模態(tài)情感識(shí)別方法,包括以下步驟:
4、步驟1:采用基于ernie模型的文本處理方法。通過(guò)知識(shí)化的語(yǔ)言表征方法,捕獲文本中的語(yǔ)義信息。
5、步驟2:設(shè)計(jì)多注意力機(jī)制的文本情感識(shí)別模型,通過(guò)多層注意力機(jī)制捕獲文本中的重要情感信息,動(dòng)態(tài)調(diào)整不同部分的權(quán)重,突出關(guān)鍵情感詞匯和短語(yǔ),輸出文本的情感分類結(jié)果。
6、步驟3:對(duì)原始音頻數(shù)據(jù)進(jìn)行預(yù)處理,包括降噪、分段、歸一化等步驟,以便于后續(xù)的特征提取。
7、步驟4:將步驟3中得到的數(shù)據(jù)進(jìn)行梅爾頻率倒譜系數(shù)特征以及gammatone頻率倒譜系數(shù)特征的提取。對(duì)mfcc和gfcc特征進(jìn)行歸一化處理,消除不同特征維度之間的量綱差異。接著,將歸一化后的mfcc和gfcc特征進(jìn)行拼接,形成一個(gè)更高維的特征向量,輸出音頻的情感分類結(jié)果。
8、步驟5:設(shè)計(jì)一種基于深度學(xué)習(xí)的權(quán)重策略,通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)文本和音頻特征的融合權(quán)重。該策略能夠調(diào)整不同模態(tài)特征的權(quán)重,以最優(yōu)組合實(shí)現(xiàn)情感識(shí)別。
9、進(jìn)一步,所述步驟1的過(guò)程如下:
10、步驟1.1:將加載的ernie模型和詞匯表傳遞給ernie分詞器。分詞器初始化包括設(shè)置模型參數(shù)和準(zhǔn)備輸入輸出接口,以便有效地處理輸入文本。分詞器使用內(nèi)部的分詞算法和語(yǔ)義理解能力,將文本分割為一系列基本單元(tokens)。ernie分詞器處理完成后,生成一個(gè)tokenized的輸出序列。該序列包含了文本中的每個(gè)基本單元,每個(gè)單元對(duì)應(yīng)一個(gè)token。
11、進(jìn)一步地,ernie模型的輸入是經(jīng)過(guò)預(yù)處理后的token序列{t1,t2,…,tn},對(duì)于每一個(gè)給定的token?ti,其嵌入向量可以表示為etoken(ti)。這些詞嵌入向量與段落嵌入esegment、位置嵌入eposition和知識(shí)嵌入eknowledge進(jìn)行相加,生成輸入向量x=etoken+esegment+eposition+eknowledge。
12、步驟1.2:利用知識(shí)圖譜和外部語(yǔ)義資源識(shí)別文本中的實(shí)體,如人名、地名、專有名詞等。這一步可以利用現(xiàn)有的實(shí)體識(shí)別工具或模型,標(biāo)注出文本中的實(shí)體。隨機(jī)選擇部分實(shí)體和詞匯進(jìn)行掩碼處理,用特殊標(biāo)記[mask]替換,被掩碼的位置需要模型來(lái)預(yù)測(cè)。
13、進(jìn)一步地,將識(shí)別出來(lái)的實(shí)體和專有名詞等嵌入到語(yǔ)言模型的表示中,從而增強(qiáng)語(yǔ)言表征的語(yǔ)義能力。對(duì)于每個(gè)token?ti和每個(gè)實(shí)體ej,使用相似度度量計(jì)算其關(guān)聯(lián)度是token?ti的向量表示,是實(shí)體ej的向量表示。
14、根據(jù)歸一化后的關(guān)聯(lián)矩陣k,生成每個(gè)token的知識(shí)嵌入向量。通過(guò)加權(quán)求和的方式得到知識(shí)嵌入向量通過(guò)上述計(jì)算步驟和公式,ernie模型可以將token與知識(shí)圖譜實(shí)體之間的關(guān)聯(lián)度嵌入到token的表示中,增強(qiáng)語(yǔ)言表示的語(yǔ)義信息。通過(guò)全連接層對(duì)文本進(jìn)行進(jìn)一步處理,輸出最終的情感分類結(jié)果。
15、進(jìn)一步,所述步驟2具體包括:
16、步驟2.1:設(shè)計(jì)多注意力機(jī)制的文本情感識(shí)別模型,通過(guò)多層注意力機(jī)制捕獲文本中的重要情感信息。通過(guò)查詢矩陣q、鍵矩陣k和值的矩陣v,映射得到查詢的權(quán)重矩陣鍵的權(quán)重矩陣值的權(quán)重矩陣通過(guò)鍵的權(quán)重矩陣的列數(shù)得到鍵向量k的維度dk,根據(jù)這些矩陣得到每個(gè)注意力頭h的輸出
17、步驟2.2:多層注意力機(jī)制通過(guò)堆疊多個(gè)注意力頭,形成多層結(jié)構(gòu),以便在不同抽象層次上捕獲文本中的情感信息。利用用來(lái)調(diào)整和映射隱藏層輸出到最終輸出的權(quán)重矩陣w0,得到多層注意力機(jī)制的輸出為多個(gè)注意力頭的加權(quán)和multihead(q,k,v)=concat(head1,…,headh)w0。
18、在注意力機(jī)制輸出后添加一個(gè)分類層,通過(guò)分類層的權(quán)重矩陣wcls,分類層的偏置bcls,得到y(tǒng)text=softmax(wcls·multihead(q,k,v)+bcls),生成文本的情感分類結(jié)果。
19、進(jìn)一步,所述步驟3具體包括:通過(guò)使用頻域?yàn)V波器和時(shí)域?yàn)V波器,去除音頻信號(hào)中的背景噪聲。將長(zhǎng)時(shí)間的音頻數(shù)據(jù)分割成短時(shí)間片段,這些片段通常稱為幀(frames),以便于后續(xù)對(duì)每個(gè)幀進(jìn)行頻譜分析和特征提取。對(duì)每個(gè)音頻幀進(jìn)行幅度歸一化處理,確保所有幀的振幅范圍在統(tǒng)一的數(shù)值范圍[-1,1]內(nèi)。
20、進(jìn)一步,所述步驟4具體包括:
21、步驟4.1:從預(yù)處理后的音頻數(shù)據(jù)中計(jì)算mfcc特征,用于表示音頻信號(hào)的頻譜信息。利用音頻信號(hào)在第m個(gè)頻帶中第n個(gè)時(shí)間窗口中的幅度x(m,n),通過(guò)離散余弦變換得到
22、使用gammatone濾波器組計(jì)算gfcc特征,類似于mfcc,但在頻譜分析上有所不同,通過(guò)gammatone濾波器后的頻帶能量y(m,n),通過(guò)離散余弦變換得到
23、步驟4.2:對(duì)mfcc和gfcc特征進(jìn)行歸一化,消除它們之間的尺度差異,通過(guò)其各自的原始特征向量f,特征均值μ,特征標(biāo)準(zhǔn)差σ,得到規(guī)劃處理后的
24、將歸一化后的mfcc和gfcc特征按照特定順序拼接成一個(gè)更高維度的特征向量fcombined=[fmfcc,fgfcc],該向量包含了mfcc和gfcc特征的所有信息。
25、在拼接后的特征向量后添加一個(gè)分類層,通過(guò)分類層的權(quán)重矩陣wcls_audio,分類層的偏置bcls_audio,得到y(tǒng)audio=softmax(wcls_audio·fcombined+bcls_audio),生成音頻的情感分類結(jié)果。
26、進(jìn)一步,所述步驟5的具體過(guò)程如下:通過(guò)神經(jīng)網(wǎng)絡(luò)架構(gòu),設(shè)計(jì)一種權(quán)重策略,使其能夠自動(dòng)學(xué)習(xí)和調(diào)整文本和音頻特征的融合權(quán)重。
27、步驟5.1:模型對(duì)文本信息進(jìn)行處理后得到預(yù)測(cè)結(jié)果實(shí)際標(biāo)簽為y。通過(guò)交叉熵來(lái)衡量預(yù)測(cè)值與實(shí)際標(biāo)簽之間的差異,從而得到文本特征的損失n是樣本數(shù)量,yi是第i個(gè)樣本的實(shí)際標(biāo)簽,是模型預(yù)測(cè)的第i個(gè)樣本的文本特征的輸出,∈是一個(gè)很小的常數(shù),用于數(shù)值穩(wěn)定性。
28、對(duì)于音頻信息,模型的預(yù)測(cè)結(jié)果為實(shí)際標(biāo)簽為y。通過(guò)交叉熵來(lái)衡量預(yù)測(cè)值與實(shí)際標(biāo)簽之間的差異,從而得到音頻特征的損失
29、進(jìn)一步地,得到融合特征的損失
30、融合權(quán)重策略通過(guò)優(yōu)化損失函數(shù)來(lái)實(shí)現(xiàn),α,β,γ是權(quán)重系數(shù)。
31、步驟5.2:利用深度學(xué)習(xí)模型,將文本特征和音頻特征進(jìn)行非線性變換和加權(quán)求和,針對(duì)得到的文本特征ftext和音頻特征faudio,利用文本特征的權(quán)重矩陣wtext,音頻特征的權(quán)重矩陣waudio,得到最終的融合特征表示ffinal=σ(wtextftext+waudiofaudio+b)。通過(guò)融合特征表示yfusion=softmax(wcls_fusion·ffinal+bcls_final),生成最終的情感分類結(jié)果。
32、采用上述技術(shù)方案所產(chǎn)生的有益效果在于:
33、本發(fā)明通過(guò)基于ernie模型的文本處理方法和多注意力機(jī)制的設(shè)計(jì),能夠更精確地捕獲文本中的語(yǔ)義和情感信息,從而提升文本情感識(shí)別的準(zhǔn)確性和魯棒性。同時(shí),結(jié)合音頻預(yù)處理和mfcc以及gfcc特征提取,有效降低音頻數(shù)據(jù)的噪聲影響,提高音頻情感識(shí)別的穩(wěn)定性。最重要的是,利用深度學(xué)習(xí)模型設(shè)計(jì)的權(quán)重策略,實(shí)現(xiàn)了文本和音頻特征的優(yōu)化融合,使多模態(tài)信息能夠互補(bǔ)并得到充分利用,顯著提升了整體情感識(shí)別系統(tǒng)的性能和應(yīng)用價(jià)值。