一種基于說話人標準化變換的語音情感特征選擇方法

文檔序號：9351145閱讀：636來源：國知局

一種基于說話人標準化變換的語音情感特征選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種語音情感特征選擇方法，尤其涉及一種基于語音軌跡模型的語音情感特征選擇方法，屬于語音情感識別技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的快速發(fā)展和各種智能終端的興起，現(xiàn)有的人機交互系統(tǒng)正面臨日益嚴峻的考驗。為了克服人機交互的障礙，使人機交互更為方便、自然，機器的情感智能正日益受到各領(lǐng)域研究者的重視。語音作為現(xiàn)今人機交互中極具發(fā)展?jié)摿Φ母咝Ы换ッ浇椋?攜帶著豐富的情感信息。語音情感識別作為情感智能的重要研究課題，在遠程教學、輔助測謊、自動遠程電話服務中心以及臨床醫(yī)學，智能玩具，智能手機等方面有著廣闊的應用前景，吸引了越來越多研究機構(gòu)與研究學者的廣泛關(guān)注。
[0003] 為了提高語音情感識別的精度和魯棒性，提取充分反映說話人情感狀態(tài)的語音情感特征至關(guān)重要。從原始語音數(shù)據(jù)中提取有效的情感信息，剔除情感無關(guān)的說話人身份信息等冗余信息是提高語音情感識別系統(tǒng)魯棒性的重點和難點。
[0004] 作為一種新興的語音分析技術(shù)，語音片段軌跡模型因其在語音信號處理中的靈活性和有效性，越來越得到研究者的廣泛重視。對于分類問題，建立語音片段軌跡模型，量化語音表達因素與特征表現(xiàn)的相關(guān)性，進而對語音中說話人進行標準化，降低了說話人身份、語音內(nèi)容等無關(guān)信息對于語音特征表現(xiàn)的影響，選擇出含有較多情感信息的語音特征。這種基于語音表達因素與特征表現(xiàn)的相關(guān)性特征提取思想和方法在語音情感識別研究中具有重要的意義。

【發(fā)明內(nèi)容】

[0005] 技術(shù)問題：本發(fā)明提供一種能夠提高語音情感識別的魯棒性，降低了說話人身份、語音內(nèi)容等無關(guān)信息對于語音特征表現(xiàn)的影響，可以選擇出含有較多情感信息語音特征的基于說話人標準化變換的語音情感特征選擇方法。
[0006] 技術(shù)方案：本發(fā)明的基于說話人標準化變換的語音情感特征選擇方法，包括以下步驟：
[0007] 步驟1 :對情感語音片段數(shù)字化后的數(shù)字語音信號X進行預處理，得到有效語音幀集合，對所述有效語音幀集合中每個語音片段X'提取一個D維的特征A，得到一個特征矩陣C:
[0009] 其中，K為有效語音幀幀長，A表示語音片段提取的特征，D表示特征A的維數(shù)，Cni, t表示特征矩陣中一個元素，Ct表示特征矩陣中一個列向量，其中t為特征矩陣中列標，t= 1，2, . . .，D，m為特征矩陣中行標，m= 1，2, . . .，K;
[0010] 步驟2 :把所述特征矩陣C轉(zhuǎn)換為一個軌跡模型方程：C=ZB+E，其中B表示軌跡參數(shù)矩陣，E表示殘差向量矩陣，Z表示負責將語音片段的時間度量歸一化的設計矩陣；
[0011] 然后構(gòu)建行數(shù)為K，列數(shù)為軌跡模型展開階次J加1的設計矩陣Z，其中元素
[0012] 步驟3 :對每個語音片段，利用最大似然估計來計算軌跡參數(shù)矩陣Bq:
[0013] Bq= (ZrqZq) 1ZrqCq (2)
[0014] 其中，q為語音片段編號，Zq，Cq分別為第q個語音片段的設計矩陣和特征矩陣， Z'q為Zq的轉(zhuǎn)置矩陣；
[0015] 然后計算每個語音片段的殘差協(xié)方差矩陣Eq:
[0017] Kq是第q個語音片段的幀數(shù)；
[0018] 步驟4 :對說話人進行標準化：
[0019] 選取語音庫中發(fā)音最標準的說話人作為參考標準，其語音片段Xraf的聲學特征用軌跡模型表示為{Braf，Eraf，K}，需要標準化的其他說話人語音片段，即需要變換的語音片段&的聲學特征用軌跡模型表示為{BpEpK}，其中Braf表示參考語音片段X的平均軌跡向量，E 表示參考語音片段X的殘差協(xié)方差矩陣，B1表示需要變換語音片段Xi的平均軌跡向量，Ei表示參考語音片段Xi的殘差協(xié)方差矩陣；
[0020] 首先根據(jù)下式進行白化轉(zhuǎn)換：
表示白化變換后的數(shù)據(jù)，即X1解相關(guān)數(shù)據(jù)；
[0023] 然后根據(jù)下式進行說話人標準化：
[0025] Xn表示Xi利用參考語音片段X標準化后的數(shù)據(jù)，V"f，Draf分別表示EM對應的特征向量矩陣和特征值矩陣；
[0026] 步驟5 :計算各個影響語音表達的因素在語音表達中與聲學特征的相關(guān)性，包括：標準化后情感因素與聲學特征的相關(guān)性、標準化后說話人因素與聲學特征的相關(guān)性；
[0027] 步驟6 :相關(guān)性比較：將所有聲學特征中，與情感因素的相關(guān)性大于與標準化后的說話人因素相關(guān)性的特征作為語音情感識別特征。
[0028] 進一步的，本發(fā)明方法中，所述步驟1中的預處理包括如下步驟：
[0029] 步驟I. 1 :對數(shù)字語音信號X按下式進行預加重，得到預加重后的語音信號X5
[0030] x(H) =x(?) - (-1),o<s<j^-i
[0031] 其中反表示數(shù)字語音信號X的離散點序號，F(xiàn)為數(shù)字語音信號X的長度，和 1)分別表示數(shù)字語音信號X在第瓦和1個離散點上的值，尤_表示預加重后的語音信號f第i個離散點上的值，x(-l) = 0 ;
[0032] 步驟1. 2 :采用交疊分段的方法對預加重后的語音信號.Z進行分幀，前一幀起點與后一幀起點的距離稱為幀移，此處幀移取8ms，即在采樣率Fs= 16kHz下取128點，每一幀長取16ms，即取256點，龍經(jīng)過分幀得到語音幀集
[0033] Xjt, (?)== + 128(^- -1)^ 0<?< 255,1<K
[0034] 其中為語音幀集合中的第k'個語音幀，n表示語音幀離散點序號，k'為語音幀序號，K'為語音幀總幀數(shù)，且滿足：
[0037] 步驟1. 3:對各語音幀^，1彡k'彡K'，選擇窗口長度為256點的漢明窗w進行加窗處理，得到加窗語音幀Xk,為：
[0038] xA- (w) = X^. ( ?) w(? ) 0 < ? < 255,1 < Aj <K
[0039]其中xk, (n)、.％?)._、、w(n)分別表示xk,、％、,w在第n個離散點上的值，窗口長度為256點的漢明窗函數(shù)為：
[0041]步驟1. 4:對各加窗語音幀xk,，1彡k'彡K'，計算短時能量Ek,和短時過零率 Zk-：
[0044] 其中Ek，表示加窗語音幀Xk，的短時能量，Zk，表示Xk，的短時過零率，xk，（n) 為加窗語音幀xk,在第n個采樣點上的值，xk, (n-1)為xk,在第n-1個采樣點上的值，sgn[xk, (n)]、sgn[xk, (n-1)]分別為xk, (n)、xk, (n-1)的符號函數(shù)，即：
[0046]步驟1. 5:確定短時能量閾值tE和短時過零率閾值tz:
[0049] 其中K'為語音幀總幀數(shù)；
[0050] 步驟1. 6 :對各加窗語音幀，首先用短時能量作第一級判別，將短時能量值大于閾值&的加窗語音幀標記為一級判別有效語音幀，將幀序號最小的一級判別有效語音幀作為當前有效語音幀集合的起始幀，將幀序號最大的一級判別有效語音幀作為當前有效語音幀集合的結(jié)束幀，然后用短時過零率作第二級判別，即對當前有效語音幀集合，以起始幀為起點，按照幀序號由大到小的順序逐幀判別，將短時過零率大于閾值tz的加窗語音幀標記為有效語音幀，并且以結(jié)束幀為起點按照幀序號由小到大的順序逐幀判別，將短時過零率大于閾值&的加窗語音幀標記為有效語音幀，將兩級判別后得到的有效語音幀集合記為 {sk}i KK，其中k為有效語音幀序號，K為有效語音幀總幀數(shù)，Sk為有效語音幀集合中的第 k個有效語音幀。
[0051]進一步的，本發(fā)明方法中，所述步驟5中的標準化后情感因素與聲學特征的相關(guān) 性根據(jù)下式計算：
[0053] 其中E&為上述標準化后的數(shù)據(jù)Xn的殘差協(xié)方差矩陣；
[0054] 其中E表示影響語音情感表達中的情感因素的集合，為影響語音情感表達中的情感因素，即集合E中的元素，tr(〇表示某個矩陣的跡，P(fJ表示對應情感的語音樣本在語音庫中出現(xiàn)的概率，tr(EA|fJ表示對應情感的語音樣本中聲學特征A的總的變化性；
[0055]所述標準化后說話人因素與聲學特征的相關(guān)性根據(jù)下式計算：
[0057] 其中Sp表示影響語音情感表達中的中的說話人因素的集合，fSp為影響語音情感表達中的說話人因素，即集合Sp中的元素，有F= {E，Sp}，F(xiàn)為影響語音情感表達中的因素的集合，P(fSp)表示對應說話人的語音樣本在語音庫中出現(xiàn)的概率，tr(EA|fSp)表示對應說話人的語音樣本中聲學特征A的總的變化性。
[0058]本發(fā)明能夠利用語音片段軌跡模型，量化語音表達因素與特征表現(xiàn)的相關(guān)性，利用說話人標準化方法，降低了說話人身份、語音內(nèi)容等無關(guān)信息對于語音特征表現(xiàn)的影響，選擇出含有較多情感信息的語音特征。
[0059]有益效果：本發(fā)明與現(xiàn)有技術(shù)相比，具有以下優(yōu)點：

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃永明;吳奧;章國寶;
技術(shù)所有人：東南大學;
我是此專利的發(fā)明人

上一篇：單通道音樂人聲分離中的多種特定樂器強化分離方法
上一篇：一種基于模式識別Hi-Fi音質(zhì)檢測方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于說話人標準化變換的語音情感特征選擇方法