本發(fā)明涉及多模態(tài)知識(shí)圖譜,尤其涉及一種基于多模態(tài)知識(shí)圖譜的社交媒體與在線文本數(shù)據(jù)的智能化實(shí)時(shí)情緒測(cè)評(píng)方法。
背景技術(shù):
1、情緒識(shí)別是指利用計(jì)算機(jī)技術(shù)對(duì)人的情緒狀態(tài)進(jìn)行識(shí)別與判斷。情緒識(shí)別對(duì)于改善人機(jī)交互體驗(yàn),特別是人力資源管理、電商客戶服務(wù)、以及推動(dòng)個(gè)性化推薦等方面具有重要意義。在實(shí)際應(yīng)用中,基于社交媒體開(kāi)展情緒在線測(cè)評(píng)面臨著多樣化、復(fù)雜化、動(dòng)態(tài)化等諸多挑戰(zhàn)。
2、目前對(duì)于社交媒體進(jìn)行情緒測(cè)評(píng)的研究主要基于對(duì)話文本。對(duì)話情緒識(shí)別通過(guò)為每個(gè)對(duì)話話語(yǔ)分配一個(gè)情緒標(biāo)簽,以實(shí)現(xiàn)文本分類(lèi)。然而,對(duì)話文本通常是非正式的,具有主題切換頻繁,且上下文信息動(dòng)態(tài)變化等特點(diǎn)。因此,對(duì)話情緒識(shí)別需要結(jié)合多種相關(guān)信息,以進(jìn)一步補(bǔ)充和完善語(yǔ)義信息。語(yǔ)音信息作為社交媒體的又一重要信息來(lái)源,可用于對(duì)話信息的補(bǔ)充,實(shí)現(xiàn)多模態(tài)間的跨模態(tài)信息交互與補(bǔ)充,以進(jìn)一步來(lái)提高信息關(guān)聯(lián)度并提升測(cè)評(píng)的準(zhǔn)確性和魯棒性。
3、當(dāng)前主流的情緒測(cè)評(píng)方法多采用數(shù)學(xué)模型或機(jī)器學(xué)習(xí)算法。這些方法通常通過(guò)人工提取特征,易于實(shí)現(xiàn)和解釋。但受限于數(shù)據(jù)集的質(zhì)量和覆蓋度,難以充分利用上下文語(yǔ)義信息,對(duì)于測(cè)試數(shù)據(jù)分布偏移問(wèn)題的泛化性較差。知識(shí)圖譜是一種用于表示和存儲(chǔ)結(jié)構(gòu)化知識(shí)的圖形知識(shí)庫(kù),包括知識(shí)抽取、知識(shí)融合、知識(shí)推理等操作。通過(guò)將不同類(lèi)型的實(shí)體和關(guān)系轉(zhuǎn)化成低維度的數(shù)值向量形式,從而有效降低計(jì)算復(fù)雜度,便于梳理各個(gè)實(shí)體之間復(fù)雜的語(yǔ)義關(guān)系,緩解數(shù)據(jù)稀疏性問(wèn)題,從而增強(qiáng)模型的泛化能力并兼顧模型的可解釋性。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有情緒識(shí)別方法的不足,本發(fā)明的目的在于提供一種基于多模態(tài)知識(shí)圖譜的社交媒體與在線文本數(shù)據(jù)的智能化實(shí)時(shí)情緒測(cè)評(píng)方法,通過(guò)多模態(tài)知識(shí)圖譜建模對(duì)話文本、語(yǔ)音和面部表情,達(dá)到情緒智能化實(shí)時(shí)測(cè)評(píng)的目的。
2、為了達(dá)到上述目的,本發(fā)明采用如下的技術(shù)方案:
3、一種基于多模態(tài)知識(shí)圖譜的社交媒體與在線文本數(shù)據(jù)的智能化實(shí)時(shí)情緒測(cè)評(píng)方法,其特征在于,包括以下步驟:
4、s1:獲取社交媒體的多模態(tài)數(shù)據(jù)并進(jìn)行數(shù)據(jù)清洗與預(yù)處理,其中,所述多模態(tài)數(shù)據(jù)包括對(duì)話文本、語(yǔ)音和面部表情;
5、s2:基于單模態(tài)數(shù)據(jù)的特點(diǎn),分別基于bert-bilstm、ast及resnet-50預(yù)訓(xùn)練模型針對(duì)對(duì)話文本、語(yǔ)音和面部表情的單模態(tài)特征提取;
6、s3:構(gòu)建以文本為中心的多模態(tài)融合模型,考慮多模態(tài)間的共享情感語(yǔ)義信息,通過(guò)其重復(fù)的情感信息增強(qiáng)模態(tài)內(nèi)部關(guān)鍵情感信息的表達(dá),充分利用私有情感語(yǔ)義信息源自于各模態(tài)數(shù)據(jù)的獨(dú)有性特性,通過(guò)來(lái)自不同模態(tài)的私有情感語(yǔ)義信息以有效地實(shí)現(xiàn)跨模態(tài)情感信息互補(bǔ);
7、s4:采用自底向上的方式,構(gòu)建多模態(tài)知識(shí)圖譜,基于社會(huì)認(rèn)知理論,采用deepfm算法分析用戶行為并生成用戶特征,依托k-bert模型捕獲外部知識(shí)層特征;
8、s5:基于transformerencoder結(jié)構(gòu),實(shí)現(xiàn)跨模態(tài)情感信息交互與特征融合,輸入softmax層完成多模態(tài)情緒感知的識(shí)別,實(shí)現(xiàn)對(duì)話文本、語(yǔ)音信息、面部表情及外部知識(shí)層的整合互聯(lián),以此進(jìn)行智能化實(shí)時(shí)情緒測(cè)評(píng)。
9、在s1中,獲取社交媒體的多模態(tài)數(shù)據(jù)并進(jìn)行數(shù)據(jù)清洗與預(yù)處理,包括以下步驟:
10、通過(guò)設(shè)計(jì)媒體客戶端自動(dòng)化工具授權(quán),后臺(tái)實(shí)時(shí)采集聊天記錄并進(jìn)行數(shù)據(jù)處理和分析;采用自適應(yīng)dbscan與k-means組合算法對(duì)采集數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行清洗;同時(shí)考慮后臺(tái)數(shù)據(jù)量龐大,聚類(lèi)時(shí)長(zhǎng)會(huì)隨著數(shù)據(jù)集中數(shù)量的增加而延長(zhǎng);通過(guò)將原始數(shù)據(jù)集進(jìn)行隨機(jī)切片處理,拆分成多個(gè)子數(shù)據(jù)集進(jìn)行運(yùn)算,最后將聚類(lèi)結(jié)果進(jìn)行加權(quán)平均獲取最終結(jié)果,進(jìn)而降低運(yùn)算時(shí)間提高效率;然后,將組合清洗后的異常數(shù)據(jù)剔除并通過(guò)隨機(jī)森林算法對(duì)剔除值進(jìn)行填補(bǔ)。所述方法在高效存儲(chǔ)數(shù)據(jù)的同時(shí)保障數(shù)據(jù)質(zhì)量,優(yōu)化數(shù)據(jù)清洗工作,從而實(shí)現(xiàn)高效多源異構(gòu)數(shù)據(jù)清洗工作。
11、在s2中,基于bert-bilstm、ast及resnet-50預(yù)訓(xùn)練模型的對(duì)話文本、語(yǔ)音和面部表情的單模態(tài)特征提取,包括以下步驟:
12、對(duì)于對(duì)話文本數(shù)據(jù),使用bert-bilstm編碼從話語(yǔ)中提取上下文信息,對(duì)于語(yǔ)音數(shù)據(jù),使用ast編碼提取特征,對(duì)于面部表情,使用resnet-50預(yù)訓(xùn)練模型進(jìn)行特征提取,公式如下:
13、xt=bert-bilstm(text)
14、xa=ast(audio)
15、xp=resnet-50(picture)
16、其中,xt∈rl1×768,xt表示提取的文本特征向量序列,xa∈rl2×768,xa表示提取的語(yǔ)音特征向量序列,xp∈rl3×2048,xp表示提取的面部表情特征向量序列;r為實(shí)數(shù)序列,l1;l2;l3分別為文本、語(yǔ)音與人臉表情圖像序列長(zhǎng)度。
17、在s3中,構(gòu)建多模態(tài)融合模型,考慮多模態(tài)間的共享情感語(yǔ)義信息,通過(guò)其重復(fù)的情感信息增強(qiáng)模態(tài)內(nèi)部關(guān)鍵情感信息的表達(dá),充分利用私有情感語(yǔ)義信息源自于各模態(tài)數(shù)據(jù)的獨(dú)有性特性,通過(guò)來(lái)自不同模態(tài)的私有情感語(yǔ)義信息以有效地實(shí)現(xiàn)跨模態(tài)情感信息互補(bǔ),構(gòu)建多模態(tài)融合模型的具體方法:
18、共享情感語(yǔ)義計(jì)算模塊使用對(duì)話文本信號(hào)與語(yǔ)音信號(hào)的共享情感語(yǔ)義信息,來(lái)增強(qiáng)文本關(guān)鍵情感信息的表達(dá);
19、計(jì)算文本信息序列t=[t1,t2,…,tlt]的注意力權(quán)重wight={w1,w2,…,wlt},并將其從大到小進(jìn)行排列。其中,文本信息序列體現(xiàn)的語(yǔ)義情感量化后以鍵值對(duì)的形式表達(dá),公式如下:
20、
21、其中,wi表示文本信息序列第ti項(xiàng)的歸一化注意力權(quán)重;key代表語(yǔ)義情感鍵值對(duì);
22、計(jì)算文本序列中每個(gè)單詞對(duì)語(yǔ)音特征向量序列xa和面部表情特征向量序列xp的相似分?jǐn)?shù)st→i;i∈{a,p},使用softmax函數(shù)計(jì)算注意力權(quán)重,利用跨模態(tài)共享掩碼矩陣獲得共享情感語(yǔ)義特征向量ci,并將特征按文本維度進(jìn)行拼接,利用自注意力機(jī)制層挖掘其中重要情感信息特征并進(jìn)行關(guān)鍵特征強(qiáng)化得到fm;然后送入lstm中添加時(shí)序信息并得到最終的文本情感特征ft,公式如下:fm=self_attention([ca;cp;xt])
23、ft=lstm(fm)
24、其中,fm表示拼接后的情感信息特征;ca和cp分別表示來(lái)自語(yǔ)音和面部表情的共享情感語(yǔ)義特征向量;ft表示具有時(shí)序信息的文本情感特征,ft∈r1×d;d為lstm網(wǎng)絡(luò)隱層輸出維度;
25、私有情感語(yǔ)義計(jì)算關(guān)注語(yǔ)音模態(tài)與人臉表情模態(tài)內(nèi)部的情感信息,采用encoder-decoder的框架結(jié)構(gòu),通過(guò)預(yù)訓(xùn)練模型編碼獲得特征序列后,送入decoder模塊,解碼重組特征序列獲得私有語(yǔ)義情感特征;
26、利用自注意力機(jī)制層挖掘面部表情和語(yǔ)音內(nèi)部的重要情感特征以增加關(guān)鍵情感特征的權(quán)重,基于線性矩陣獲得自注意力機(jī)制的輸入,通過(guò)lstm整合面部表情,得到高級(jí)情感特征序列xi’attention并添加時(shí)序信息,獲取面部表情與語(yǔ)音模態(tài)內(nèi)部的私有情感語(yǔ)義特征fi,公式如下:
27、
28、fi=lstm(xi'attention)
29、其中,xi’attention表示面部表情與語(yǔ)音高級(jí)情感特征序列;fi表示面部表情與語(yǔ)音模態(tài)內(nèi)部的私有情感語(yǔ)義特征;queryi’為面部表情和語(yǔ)音高級(jí)情感特征序列中的特征元素;keyi’和valuei’為特征元素對(duì)應(yīng)的語(yǔ)義情感信息鍵值對(duì);作用為避免梯度在反方向傳播時(shí)偏導(dǎo)數(shù)為0。
30、在s4中,針對(duì)情緒實(shí)時(shí)測(cè)評(píng)過(guò)程中數(shù)據(jù)多元異構(gòu)、數(shù)據(jù)間難以互補(bǔ)融合的問(wèn)題,提出構(gòu)建多模態(tài)知識(shí)圖譜的方法,采用自底向上的構(gòu)建方式,基于社會(huì)認(rèn)知理論,采用deepfm算法分析用戶行為從而生成用戶特征,依托k-bert模型捕獲外部知識(shí)層特征,具體如下:
31、采用deepfm算法分析連續(xù)型特征的轉(zhuǎn)換及數(shù)據(jù)稀疏導(dǎo)致的學(xué)習(xí)效率問(wèn)題,對(duì)連續(xù)型變量進(jìn)行離散化處理,采用one-hot編碼進(jìn)行轉(zhuǎn)換,deepfm算法用于提取低階特征組合,通過(guò)特征的內(nèi)積衡量其相關(guān)性,dnn模型學(xué)習(xí)高階特征組合,并與deepfm共享embedding嵌入層,增強(qiáng)特征交互,進(jìn)一步捕捉用戶交互屬性特征;
32、通過(guò)k-bert模型進(jìn)行知識(shí)增強(qiáng),將知識(shí)圖譜集成到語(yǔ)言表示中,以提升k-bert模型的可解釋性,在知識(shí)層,k-bert模型利用知識(shí)查詢匹配圖譜中的實(shí)體,并將三元組信息注入文本,形成富有背景知識(shí)的句子樹(shù),嵌入層采用預(yù)訓(xùn)練語(yǔ)言模型bert-bilstm將句子樹(shù)的語(yǔ)義信息映射到向量空間,獲得token嵌入,句子樹(shù)采用soft-position嵌入,按照主干連續(xù)編號(hào)和支節(jié)逐步編號(hào)的方式編寫(xiě),segment嵌入用于標(biāo)記每個(gè)句子的劃分,視覺(jué)層引入可見(jiàn)矩陣以控制詞與詞之間的聯(lián)系,判斷它們是否在同一分支上;最后,將嵌入表示與可見(jiàn)矩陣傳入由多個(gè)mask-self-attention塊堆疊組成的mask-transformer編碼層,生成包含豐富語(yǔ)義信息的外部知識(shí)層特征向量表示,實(shí)現(xiàn)對(duì)文本的深入理解。
33、在s5中,所述的基于transformerencoder結(jié)構(gòu),實(shí)現(xiàn)跨模態(tài)情感信息交互與特征融合,輸入softmax層完成多模態(tài)情緒感知的識(shí)別,實(shí)現(xiàn)對(duì)話文本、語(yǔ)音信息、面部表情及外部知識(shí)層的整合互聯(lián),以此進(jìn)行智能化實(shí)時(shí)情緒測(cè)評(píng),具體如下:
34、在融合機(jī)制中,將獲得的強(qiáng)化文本特征ft,語(yǔ)音、面部私有情感語(yǔ)義特征fa和fp,構(gòu)成一個(gè)新的特征序列m={ft,fa,fp},模態(tài)融合模塊基于多頭自注意力機(jī)制并優(yōu)化transformerencoder結(jié)構(gòu);在多個(gè)不同的子空間進(jìn)行跨模態(tài)信息交互后,得到模態(tài)特征序列ftemp1,將模態(tài)特征序列ftemp1送入前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行非線性映射,得到模態(tài)特征序列ftemp2,f’為新特征序列,f’={ft’,fa’,fp’},公式如下:
35、ftemp1=multihead?self_attention(m)
36、ftemp2=max(0,ftemp1w1+b1)w2+b2
37、f′=layer?norm(ftemp1+ftemp2)
38、式中,ftemp1表示初始多模態(tài)特征序列;m為包含文本、語(yǔ)音和面部私有情感語(yǔ)義特征的序列;ftemp2表示擬合數(shù)據(jù)特征分布后的多模態(tài)特征序列;w1,w2為線性變換矩陣;b1,b2為偏置;f’表示三模態(tài)充分融合后的新特征序列,ft’,fa’和fp’分別為fi’中的文本、語(yǔ)音和面部情感語(yǔ)義特征;
39、將f’送入全連接層,再將知識(shí)層、用戶層與外部知識(shí)層的特征向量進(jìn)行contact融合,得到最終向量z,將z輸入至多頭注意力機(jī)制中進(jìn)行學(xué)習(xí),采用softmax層實(shí)現(xiàn)文本分類(lèi),以此輸出情感預(yù)測(cè)結(jié)果z,公式如下:z=linear[concat(ft′,fa′,fp′)]。
40、和現(xiàn)有技術(shù)相比較,本發(fā)明具備如下優(yōu)點(diǎn):
41、1.本發(fā)明針對(duì)采集的原始數(shù)據(jù)中存在異常值的問(wèn)題進(jìn)行處理,設(shè)計(jì)了基于自適應(yīng)dbscan與k-means組合算法的數(shù)據(jù)清理模型。將原始數(shù)據(jù)集進(jìn)行隨機(jī)切片得到多個(gè)子數(shù)據(jù)集,并將聚類(lèi)結(jié)果進(jìn)行加權(quán)平均獲取最終結(jié)果。該設(shè)計(jì)環(huán)節(jié)可降低識(shí)別時(shí)間,并顯著提升后續(xù)單模態(tài)識(shí)別的效率和準(zhǔn)確性。
42、2.本發(fā)明基于成熟高效的單模態(tài)特征提取方法。選用bert-bilstm、ast及resnet-50預(yù)訓(xùn)練模型進(jìn)行對(duì)話文本、語(yǔ)音和面部表情的單模態(tài)特征提取,保證了所提取的模態(tài)特征的可靠性和精度。
43、3.本發(fā)明構(gòu)建了共享-私有信息的智能化情緒測(cè)評(píng)方法。通過(guò)增強(qiáng)重復(fù)情感信息和利用私有信息的獨(dú)特性,促進(jìn)跨模態(tài)情感信息的互補(bǔ),從而提高情緒測(cè)評(píng)的準(zhǔn)確性。此外,自底向上的基于多模態(tài)知識(shí)圖譜以進(jìn)行情緒實(shí)時(shí)測(cè)評(píng)。