本發(fā)明具體是一種對英語口語進行情感診斷的方法,本發(fā)明的方法只適合英語口語的情感診斷,不適合其他的情感診斷。
背景技術(shù):
1、在智能客服、口語教學(xué)各種應(yīng)用場景中,語音情感診斷都發(fā)揮著顯著作用。英語口語情感診斷旨在通過識別和分析英語口語中的語音情感特征,來分析說話者的英語口語情感狀態(tài)?,F(xiàn)有的口語情感診斷存在情感診斷信度與效度差的問題。為了解決上述問題,本發(fā)明提出了一種包括英語口語頻率特征、英語口語可視特征、英語口語波形特征的英語口語情感診斷方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明的一種英語口語情感診斷方法包括:英語口語預(yù)處理模塊、英語口語情感診斷模塊,總體處理流程圖如圖1所示。
2、本發(fā)明的英語口語預(yù)處理模塊的處理流程是:第一,讀取待診斷英語口語,增強英語口語信號;第二,將增強后的英語口語信號按照十五毫秒時間間隔進行切分,形成多個較短的英語口語段,得到英語口語波形特征;第三,將每個英語口語段的信號從時域轉(zhuǎn)換為頻域,分析每段英語口語的頻率成分,得到每段英語口語信號頻譜并進行旋轉(zhuǎn)與映射,再對經(jīng)過旋轉(zhuǎn)與映射的多段語音頻譜進行拼接,得到英語口語可視特征;第四,對旋轉(zhuǎn)與映射后的每段英語口語信號頻譜進行模擬人類語音處理,對經(jīng)過模擬人類語音處理的英語口語信號頻譜進行頻譜特征篩選;第五,對篩選出的英語口語信號頻譜特征進行維度縮減數(shù)值化處理,將維度縮減數(shù)值化處理后的英語口語頻譜特征進行轉(zhuǎn)換;第六,分析英語口語頻譜特征在不同時間點上的變化,捕捉到英語口語頻譜特征的動態(tài)特性,輸出英語口語頻率特征。
3、本發(fā)明的英語口語情感診斷模塊的處理流程是:第一,讀取英語口語預(yù)處理模塊得到的英語口語頻率特征、英語口語可視特征和英語口語波形特征;第二,將英語口語頻率特征輸入到雙向流動控制單元,利用英語口語雙向情感特征向量計算公式(1),得到英語口語雙向情感特征向量;第三,將英語口語可視特征輸入到卷積特征學(xué)習(xí)網(wǎng)絡(luò)單元,利用英語口語卷積情感特征向量計算公式(2),得到英語口語卷積情感特征向量;第四,將英語口語波形特征輸入到語音表征學(xué)習(xí)器,利用英語口語表征情感特征向量計算公式(3),得到英語口語表征情感特征向量;第五,將英語口語雙向情感特征向量、英語口語卷積情感特征向量與英語口語表征情感特征向量進行拼接運算,生成英語口語雙向-卷積-表征情感特征向量;第六,利用英語口語情感概率最大值計算公式(4),對英語口語雙向-卷積-表征情感特征向量,進行英語口語情感概率最大值計算,得到英語口語情感概率最大值。第七,讀取英語口語情感提取模塊得到的英語口語情感概率最大值;第八,利用英語口語情感診斷結(jié)果計算公式(5),判斷出英語口語情感診斷結(jié)果,輸出英語口語情感診斷結(jié)果。
4、本發(fā)明診斷方法的計算公式定義:
5、(1)英語口語雙向情感特征向量計算公式
6、英語口語雙向情感特征向量=雙向流動控制單元英語口語頻率特征(1)
7、在公式(1)中,英語口語頻率特征是一種描述英語口語語音頻率數(shù)值的特征,雙向流動控制單元是通過梅爾標(biāo)度對英語口語頻率特征進行深層次的處理。
8、(2)英語口語卷積情感特征向量計算公式
9、英語口語卷積情感特征向量=卷積特征學(xué)習(xí)網(wǎng)絡(luò)英語口語可視特征(2)
10、在公式(2)中,英語口語可視特征是一種反映英語口語一段時間內(nèi)語音頻率變化的語音頻率圖特征,卷積特征學(xué)習(xí)網(wǎng)絡(luò)是對英語口語可視特征進行卷積編碼處理。
11、(3)英語口語表征情感特征向量計算公式
12、英語口語表征情感特征向量=語音表征學(xué)習(xí)器英語口語波形特征(3)
13、在公式(3)中,英語口語波形特征是一種反映英語口語情感的波形數(shù)值,語音表征學(xué)習(xí)器是對英語口語波形特征進行情感波形學(xué)習(xí)處理。
14、(4)英語口語情感概率最大值計算公式
15、
16、在公式(4)中,e表示自然對數(shù)函數(shù)的底數(shù),i表示第i個情感類別,一共有四種情感類別:憤怒、悲傷、自然、快樂,英語口語雙向情感特征向量、英語口語卷積情感特征向量和英語口語表征情感特征向量分別由公式(1)(2)(3)計算得到。
17、(5)英語口語情感診斷結(jié)果計算公式
18、
19、在公式(5)中,利用公式(4)中得到的英語口語情感概率最大值,與情感類別區(qū)間進行匹配,得到英語口語情感診斷結(jié)果,情感類別為:憤怒、悲傷、自然、快樂,情感類別區(qū)間取值為[0,1]。
20、本發(fā)明的方法的具體處理步驟
21、本發(fā)明分析方法的英語口語預(yù)處理模塊、英語口語情感診斷模塊和英語口語情感診斷模塊處理方法的步驟如下所述。
22、如圖2所示,所述的英語口語發(fā)音預(yù)處理模塊處理流程的步驟如下:
23、p201開始;
24、p202讀取待診斷英語口語,增強英語口語信號;
25、p203將增強后的英語口語信號按照十五毫秒時間間隔進行切分,形成多個較短的英語口語段,得到英語口語波形特征;
26、p204將每個英語口語段的信號從時域轉(zhuǎn)換為頻域,分析每段英語口語的頻率成分,得到每段英語口語信號頻譜并進行旋轉(zhuǎn)與映射,再對經(jīng)過旋轉(zhuǎn)和映射的多段頻譜進行拼接,得到英語口語可視特征;
27、p205對旋轉(zhuǎn)與映射后的每段英語口語信號頻譜進行模擬人類語音處理,對經(jīng)過模擬人類語音處理的英語口語信號頻譜進行頻譜特征篩選;
28、p206對篩選出的英語口語信號頻譜特征進行維度縮減數(shù)值化處理,將維度縮減數(shù)值化處理后的英語口語頻譜特征進行轉(zhuǎn)換;
29、p207分析英語口語頻譜特征在不同時間點上的變化,捕捉到英語口語頻譜特征的動態(tài)特性,輸出英語口語頻率特征;
30、p208結(jié)束。
31、如圖3所示,所述的英語口語情感診斷模塊處理流程的步驟如下:
32、p301開始;
33、p302讀取英語口語預(yù)處理模塊得到的英語口語頻率特征、英語口語可視特征和英語口語波形特征;
34、p303將英語口語頻率特征輸入到雙向流動控制單元,利用英語口語雙向情感特征向量計算公式(1),得到英語口語雙向情感特征向量;
35、p304將英語口語可視特征輸入到卷積特征學(xué)習(xí)網(wǎng)絡(luò)單元,利用英語口語卷積情感特征向量計算公式(2),得到英語口語卷積情感特征向量;
36、p305將英語口語波形特征輸入到語音表征學(xué)習(xí)器,利用英語口語表征情感特征向量計算公式(3),得到英語口語表征情感特征向量;
37、p306將英語口語雙向情感特征向量、英語口語卷積情感特征向量與英語口語表征情感特征向量進行拼接運算,生成英語口語雙向-卷積-表征情感特征向量;
38、p307利用英語口語情感概率最大值計算公式(4),對英語口語雙向-卷積-表征情感特征向量,進行英語口語情感概率最大值計算,得到英語口語情感概率最大值;
39、p308讀取得到的英語口語情感概率最大值;
40、p309利用英語口語情感診斷結(jié)果計算公式(5),判斷出英語口語情感診斷結(jié)果,輸出英語口語情感診斷結(jié)果;
41、p310結(jié)束。