一種基于說話人標準化變換的語音情感特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種語音情感特征選擇方法,尤其涉及一種基于語音軌跡模型的語音 情感特征選擇方法,屬于語音情感識別技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的快速發(fā)展和各種智能終端的興起,現(xiàn)有的人機交互系統(tǒng)正面臨日 益嚴峻的考驗。為了克服人機交互的障礙,使人機交互更為方便、自然,機器的情感智能正 日益受到各領(lǐng)域研究者的重視。語音作為現(xiàn)今人機交互中極具發(fā)展?jié)摿Φ母咝Ы换ッ浇椋?攜帶著豐富的情感信息。語音情感識別作為情感智能的重要研究課題,在遠程教學、輔助 測謊、自動遠程電話服務中心以及臨床醫(yī)學,智能玩具,智能手機等方面有著廣闊的應用前 景,吸引了越來越多研究機構(gòu)與研究學者的廣泛關(guān)注。
[0003] 為了提高語音情感識別的精度和魯棒性,提取充分反映說話人情感狀態(tài)的語音情 感特征至關(guān)重要。從原始語音數(shù)據(jù)中提取有效的情感信息,剔除情感無關(guān)的說話人身份信 息等冗余信息是提高語音情感識別系統(tǒng)魯棒性的重點和難點。
[0004] 作為一種新興的語音分析技術(shù),語音片段軌跡模型因其在語音信號處理中的靈活 性和有效性,越來越得到研究者的廣泛重視。對于分類問題,建立語音片段軌跡模型,量化 語音表達因素與特征表現(xiàn)的相關(guān)性,進而對語音中說話人進行標準化,降低了說話人身份、 語音內(nèi)容等無關(guān)信息對于語音特征表現(xiàn)的影響,選擇出含有較多情感信息的語音特征。這 種基于語音表達因素與特征表現(xiàn)的相關(guān)性特征提取思想和方法在語音情感識別研究中具 有重要的意義。
【發(fā)明內(nèi)容】
[0005] 技術(shù)問題:本發(fā)明提供一種能夠提高語音情感識別的魯棒性,降低了說話人身份、 語音內(nèi)容等無關(guān)信息對于語音特征表現(xiàn)的影響,可以選擇出含有較多情感信息語音特征的 基于說話人標準化變換的語音情感特征選擇方法。
[0006] 技術(shù)方案:本發(fā)明的基于說話人標準化變換的語音情感特征選擇方法,包括以下 步驟:
[0007] 步驟1 :對情感語音片段數(shù)字化后的數(shù)字語音信號X進行預處理,得到有效語音幀 集合,對所述有效語音幀集合中每個語音片段X'提取一個D維的特征A,得到一個特征矩 陣C:
[0009] 其中,K為有效語音幀幀長,A表示語音片段提取的特征,D表示特征A的維數(shù),Cni, t表示特征矩陣中一個元素,Ct表示特征矩陣中一個列向量,其中t為特征矩陣中列標,t= 1,2, . . .,D,m為特征矩陣中行標,m= 1,2, . . .,K;
[0010] 步驟2 :把所述特征矩陣C轉(zhuǎn)換為一個軌跡模型方程:C=ZB+E,其中B表示軌跡 參數(shù)矩陣,E表示殘差向量矩陣,Z表示負責將語音片段的時間度量歸一化的設計矩陣;
[0011] 然后構(gòu)建行數(shù)為K,列數(shù)為軌跡模型展開階次J加1的設計矩陣Z,其中元素
[0012] 步驟3 :對每個語音片段,利用最大似然估計來計算軌跡參數(shù)矩陣Bq:
[0013] Bq= (ZrqZq) 1ZrqCq (2)
[0014] 其中,q為語音片段編號,Zq,Cq分別為第q個語音片段的設計矩陣和特征矩陣, Z'q為Zq的轉(zhuǎn)置矩陣;
[0015] 然后計算每個語音片段的殘差協(xié)方差矩陣Eq:
[0017] Kq是第q個語音片段的幀數(shù);
[0018] 步驟4 :對說話人進行標準化:
[0019] 選取語音庫中發(fā)音最標準的說話人作為參考標準,其語音片段Xraf的聲學特征用 軌跡模型表示為{Braf,Eraf,K},需要標準化的其他說話人語音片段,即需要變換的語音片 段&的聲學特征用軌跡模型表示為{BpEpK},其中Braf表示參考語音片段X的平均軌 跡向量,E 表示參考語音片段X的殘差協(xié)方差矩陣,B1表示需要變換語音片段Xi的平 均軌跡向量,Ei表示參考語音片段Xi的殘差協(xié)方差矩陣;
[0020] 首先根據(jù)下式進行白化轉(zhuǎn)換:
表示白化變換后的數(shù)據(jù),即X1解相關(guān)數(shù)據(jù);
[0023] 然后根據(jù)下式進行說話人標準化:
[0025] Xn表示Xi利用參考語音片段X標準化后的數(shù)據(jù),V"f,Draf分別表示EM對應的 特征向量矩陣和特征值矩陣;
[0026] 步驟5 :計算各個影響語音表達的因素在語音表達中與聲學特征的相關(guān)性,包括: 標準化后情感因素與聲學特征的相關(guān)性、標準化后說話人因素與聲學特征的相關(guān)性;
[0027] 步驟6 :相關(guān)性比較:將所有聲學特征中,與情感因素的相關(guān)性大于與標準化后的 說話人因素相關(guān)性的特征作為語音情感識別特征。
[0028] 進一步的,本發(fā)明方法中,所述步驟1中的預處理包括如下步驟:
[0029] 步驟I. 1 :對數(shù)字語音信號X按下式進行預加重,得到預加重后的語音信號X5
[0030] x(H) =x(?) - (-1),o<s<j^-i
[0031] 其中反表示數(shù)字語音信號X的離散點序號,F(xiàn)為數(shù)字語音信號X的長度,和 1)分別表示數(shù)字語音信號X在第瓦和1個離散點上的值,尤_表示預加重后的語 音信號f第i個離散點上的值,x(-l) = 0 ;
[0032] 步驟1. 2 :采用交疊分段的方法對預加重后的語音信號.Z進行分幀,前一幀起點 與后一幀起點的距離稱為幀移,此處幀移取8ms,即在采樣率Fs= 16kHz下取128點,每一 幀長取16ms,即取256點,龍經(jīng)過分幀得到語音幀集
[0033] Xjt, (?)== + 128(^- -1)^ 0<?< 255,1<K
[0034] 其中為語音幀集合中的第k'個語音幀,n表示語音幀離散點序號,k'為語音 幀序號,K'為語音幀總幀數(shù),且滿足:
[0037] 步驟1. 3:對各語音幀^,1彡k'彡K',選擇窗口長度為256點的漢明窗w進行 加窗處理,得到加窗語音幀Xk,為:
[0038] xA- (w) = X^. ( ?) w(? ) 0 < ? < 255,1 < Aj <K
[0039]其中xk, (n)、.%?)._、、w(n)分別表示xk,、%、,w在第n個離散點上的值,窗口長度 為256點的漢明窗函數(shù)為:
[0041]步驟1. 4:對各加窗語音幀xk,,1彡k'彡K',計算短時能量Ek,和短時過零率 Zk-:
[0044] 其中Ek,表示加窗語音幀Xk,的短時能量,Zk,表示Xk,的短時過零率,xk,(n) 為加窗語音幀xk,在第n個采樣點上的值,xk, (n-1)為xk,在第n-1個采樣點上的值,sgn[xk, (n)]、sgn[xk, (n-1)]分別為xk, (n)、xk, (n-1)的符號函數(shù),即:
[0046]步驟1. 5:確定短時能量閾值tE和短時過零率閾值tz:
[0049] 其中K'為語音幀總幀數(shù);
[0050] 步驟1. 6 :對各加窗語音幀,首先用短時能量作第一級判別,將短時能量值大于閾 值&的加窗語音幀標記為一級判別有效語音幀,將幀序號最小的一級判別有效語音幀作 為當前有效語音幀集合的起始幀,將幀序號最大的一級判別有效語音幀作為當前有效語音 幀集合的結(jié)束幀,然后用短時過零率作第二級判別,即對當前有效語音幀集合,以起始幀為 起點,按照幀序號由大到小的順序逐幀判別,將短時過零率大于閾值tz的加窗語音幀標記 為有效語音幀,并且以結(jié)束幀為起點按照幀序號由小到大的順序逐幀判別,將短時過零率 大于閾值&的加窗語音幀標記為有效語音幀,將兩級判別后得到的有效語音幀集合記為 {sk}i KK,其中k為有效語音幀序號,K為有效語音幀總幀數(shù),Sk為有效語音幀集合中的第 k個有效語音幀。
[0051]進一步的,本發(fā)明方法中,所述步驟5中的標準化后情感因素與聲學特征的相關(guān) 性根據(jù)下式計算:
[0053] 其中E&為上述標準化后的數(shù)據(jù)Xn的殘差協(xié)方差矩陣;
[0054] 其中E表示影響語音情感表達中的情感因素的集合,為影響語音情感表達中的 情感因素,即集合E中的元素,tr(〇表示某個矩陣的跡,P(fJ表示對應情感的語音樣本在 語音庫中出現(xiàn)的概率,tr(EA|fJ表示對應情感的語音樣本中聲學特征A的總的變化性;
[0055]所述標準化后說話人因素與聲學特征的相關(guān)性根據(jù)下式計算:
[0057] 其中Sp表示影響語音情感表達中的中的說話人因素的集合,fSp為影響語音情感 表達中的說話人因素,即集合Sp中的元素,有F= {E,Sp},F(xiàn)為影響語音情感表達中的因素 的集合,P(fSp)表示對應說話人的語音樣本在語音庫中出現(xiàn)的概率,tr(EA|fSp)表示對應 說話人的語音樣本中聲學特征A的總的變化性。
[0058]本發(fā)明能夠利用語音片段軌跡模型,量化語音表達因素與特征表現(xiàn)的相關(guān)性,利 用說話人標準化方法,降低了說話人身份、語音內(nèi)容等無關(guān)信息對于語音特征表現(xiàn)的影響, 選擇出含有較多情感信息的語音特征。
[0059]有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點: