專利名稱:一種基于支持向量機(jī)的語(yǔ)音情感識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音識(shí)別方法,特別涉及一種語(yǔ)音情感識(shí)別系統(tǒng)及方法。
背景技術(shù):
語(yǔ)音情感自動(dòng)識(shí)別技術(shù)主要包括兩個(gè)問題一是采用語(yǔ)音信號(hào)中的何種特征作為情感識(shí)別,也就是情感特征提取的問題,一是如何將特定的語(yǔ)音數(shù)據(jù)進(jìn)行分類,也就是模式識(shí)別的問題。
在本發(fā)明之前,目前主要使用的情感特征是韻律特征及其衍生參數(shù),如持續(xù)時(shí)間、語(yǔ)速、振幅、基音頻率、共振峰等。其中,基音頻率和共振峰頻率是重要的情感參數(shù),但是由于人和人之間存在的個(gè)體差異性(聲道的易變性、聲道特征、單詞發(fā)音音調(diào)等)目前存在的方法都難以實(shí)現(xiàn)基音和共振峰的精確檢測(cè),單純的使用全局基音均值、共振峰均值等常見的衍生參數(shù)難以實(shí)現(xiàn)較高的情感識(shí)別率。并且這些參數(shù)主要體現(xiàn)的是人體的聲門和聲道的特征,因此和人的生理構(gòu)造有著密切的關(guān)系,在不同的個(gè)體上顯現(xiàn)出較強(qiáng)的相異性。這種差異在不同的性別上尤其明顯。在過去的文獻(xiàn)中,這些在不考慮情感因素情況下的聲學(xué)參數(shù)性別差異已得到充分的研究,然而針對(duì)不同性別下的特征參數(shù)在情感狀態(tài)下的影響,則較少有文獻(xiàn)給予專門研究。在已有的各種識(shí)別方法中,具體而言,矢量分割型馬氏距離判法、主元分析法過于簡(jiǎn)單,不足于取得好的識(shí)別率;神經(jīng)網(wǎng)絡(luò)法雖然具有高度的非線性和極強(qiáng)的分類能力,但是隨著網(wǎng)絡(luò)的增大所需學(xué)習(xí)時(shí)間增加很快,另外局部極小問題也是一個(gè)不足之處;隱馬爾可夫法(HMM)在建立和訓(xùn)練時(shí)間上較長(zhǎng),應(yīng)用于實(shí)際還需要解決計(jì)算復(fù)雜度過高的問題。另外,雖然上述方法在實(shí)驗(yàn)環(huán)境下有一定的識(shí)別率,但主要是根據(jù)已有的語(yǔ)音庫(kù)樣本使訓(xùn)練集的性能最優(yōu),而實(shí)際中環(huán)境往往訓(xùn)練集有較大的差異。
發(fā)明內(nèi)容
本發(fā)明的目的就在于上述現(xiàn)有技術(shù)的缺陷,設(shè)計(jì)、研究一種基于支持向量機(jī)的全局與時(shí)序結(jié)構(gòu)特征相結(jié)合的語(yǔ)音情感識(shí)別方法。
本發(fā)明的技術(shù)方案是一種基于支持向量機(jī)的語(yǔ)音情感識(shí)別方法,其主要技術(shù)步驟為建立特征提取分析模塊、SVM訓(xùn)練模塊、SVM識(shí)別模塊;特征提取分析模塊包括全局結(jié)構(gòu)特征參數(shù)提取、時(shí)序結(jié)構(gòu)特征參數(shù)提??;首先對(duì)原始語(yǔ)音信號(hào)預(yù)加重、分幀,然后分別進(jìn)行全局結(jié)構(gòu)特征提取、時(shí)序結(jié)構(gòu)特征提??;(1)全局結(jié)構(gòu)特征參數(shù)提取(1-1)將原始語(yǔ)音信號(hào)經(jīng)高通濾波器預(yù)處理,提取發(fā)音持續(xù)時(shí)間、語(yǔ)速參數(shù);(1-2)分幀,加窗;(1-3)應(yīng)用短時(shí)分析技術(shù),分別提取各幀語(yǔ)句主要特征參數(shù)基音頻率軌跡、振幅、共振峰頻率軌跡;(1-4)提取上述特征參數(shù)的衍生參數(shù)平均基音頻率,最高基音頻率、基音頻率平均變化率、平均振幅曲線、振幅動(dòng)態(tài)范圍、最高第一共振峰頻率曲線、第一共振峰平均變化率、最高第二共振峰頻率;(2)時(shí)序結(jié)構(gòu)特征參數(shù)提取(2-1)將原始語(yǔ)音信號(hào)分幀后,經(jīng)由24個(gè)等帶寬的濾波器組成的美爾標(biāo)度頻率濾波器組濾波,每幀信號(hào)以一個(gè)能量系數(shù)向量表示;(2-2)計(jì)算頻帶能量累積量,用當(dāng)前幀的美爾標(biāo)度濾波器組的平均能量與各個(gè)美爾標(biāo)度濾波器的能量做差值,求得所有差值的絕對(duì)值的加權(quán)和,得到頻帶能量累積量;Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>(式1)t表示當(dāng)前幀,Ei(t)為第i個(gè)美標(biāo)度濾波器的能量, E(t)為美爾標(biāo)度濾波器組的平均能量,αi為第i個(gè)濾波器的權(quán)重系數(shù);(2-3)根據(jù)頻帶能量累積量峰值來(lái)判定元音位置或元音區(qū)間,并用簡(jiǎn)化能量累積量的分布來(lái)確定元音的位置,Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示當(dāng)前幀,Ei(t)為第i個(gè)美標(biāo)度濾波器的能量, E(t)為美標(biāo)度濾波器組的平均能量,αi為第i個(gè)濾波器的權(quán)重系數(shù),RecLF為低頻部分(300~1000Hz)對(duì)應(yīng)的Rec值、RecHF為高頻部分(1000~3200Hz)對(duì)應(yīng)的Rec值,根據(jù)Rec值的分布,利用峰值確定元音的位置,Rec值作為判別元音的標(biāo)準(zhǔn)必須滿足兩個(gè)條件當(dāng)前語(yǔ)音段必須長(zhǎng)于15ms,低頻和高頻的能量分布必須均衡,即滿足下式RecLFRecHF≥0.5]]>(式3)Δt≥15msΔt為當(dāng)前幀的長(zhǎng)度;
(2-4)采用短時(shí)分析方法,按照性別分別計(jì)算情感語(yǔ)句各元音區(qū)間的基音軌跡、3個(gè)共振峰軌跡、振幅能量軌跡;(2-5)計(jì)算情感語(yǔ)句各元音區(qū)間的最高基音頻率、該基音頻率所對(duì)應(yīng)幀的振幅能量、各元音區(qū)間的最高振幅能量、該振幅所對(duì)應(yīng)幀的基音頻率、各元音區(qū)間的持續(xù)時(shí)間以及前3個(gè)共振峰頻率;(2-6)采用均值補(bǔ)齊方法規(guī)整元音,即選取情感語(yǔ)句中元音個(gè)數(shù)最多的句子為基準(zhǔn),對(duì)于元音個(gè)數(shù)少的語(yǔ)句在尾部用全句平均值代替、補(bǔ)齊參數(shù)向量;將提取的全局結(jié)構(gòu)特征參數(shù)、時(shí)序結(jié)構(gòu)特征參數(shù)規(guī)整到相同的空間,得到支持向量機(jī)的輸入矢量;(3)支持向量機(jī)的訓(xùn)練單個(gè)支持向量機(jī)是一個(gè)二分模式的分類器,對(duì)SVM的訓(xùn)練是在訓(xùn)練樣本中尋找支持向量xi(=1,2,…,n)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;SVM的訓(xùn)練步驟(3-1)從情感語(yǔ)句庫(kù)中選取高興、生氣、悲傷、恐懼、驚訝五種情感語(yǔ)句作為訓(xùn)練樣本;(3-2)選擇其中一種情感作為識(shí)別目標(biāo),對(duì)于第i條情感語(yǔ)句,抽取其特征參數(shù)構(gòu)成一個(gè)特征參數(shù)向量,采用符號(hào)函數(shù)作為判決函數(shù),如果這條語(yǔ)句屬于該類情感,則令SVM輸出參數(shù)yi=1,否則yi=-1;(3-3)利用訓(xùn)練樣本的特征參數(shù)向量和SVM輸出參數(shù)作為訓(xùn)練集,核函數(shù)是高斯(徑向基)函數(shù),采用已有的分解算法對(duì)該情感的支持向量機(jī)進(jìn)行訓(xùn)練,得到該訓(xùn)練集的支持向量xi(i=1,2,…,n)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;(3-4)高興、生氣、悲傷、恐懼、驚訝五種情感分別訓(xùn)練五個(gè)支持向量機(jī);(4)情感識(shí)別(4-1)單個(gè)情感識(shí)別提取待識(shí)別語(yǔ)句的特征矢量輸入到步驟(3)已訓(xùn)練好的支持向量機(jī)中,經(jīng)輸出判別函數(shù)(符號(hào)函數(shù))對(duì)該語(yǔ)句進(jìn)行判別,如果yj=1則該語(yǔ)句屬于該類情感,則該語(yǔ)句為該類情感,否則不屬于該類情感;(4-2)多情感識(shí)別采用One-Against-All支持向量機(jī)對(duì)高興、生氣、悲傷、恐懼、驚訝五種情感進(jìn)行識(shí)別,與步驟(3)中建立的五個(gè)支持向量機(jī)對(duì)應(yīng),對(duì)每一個(gè)支持向量機(jī),采用具有連續(xù)輸出的函數(shù)作為軟判決函數(shù),將具有最大輸出值的類別作為最終的輸出;yjk=1Σx∈svαikyik(K(xik,x))+b>1Σx∈svαjkyik(K(xik,x))+b-1≤Σx∈svαikyik(K(xik,x))+b≤1-1Σx∈svαikyik(K(xik,x))+b<-1]]>(式4)j為測(cè)試語(yǔ)句的標(biāo)號(hào),k為不同的情感,K(xik,x)為待識(shí)別語(yǔ)句x與第k種情感的第i個(gè)支持向量xik的核函數(shù)。在計(jì)算出每個(gè)樣本相對(duì)于不同情感的判別結(jié)果后,識(shí)別情感為使(式4)取得最大值的k值。
本發(fā)明的優(yōu)點(diǎn)和效果在于1.通過對(duì)情感語(yǔ)句的特征參數(shù)提取與分析,將參數(shù)從全局結(jié)構(gòu)特征擴(kuò)充至?xí)r序結(jié)構(gòu),增加了特征參數(shù)的有效性;2.充分考慮了男女性別不同對(duì)特征參數(shù)的影響,在參數(shù)提取上加入性別規(guī)整;進(jìn)一步提高參數(shù)有效性;3.利用支持向量機(jī)(SVM)對(duì)未知集合的識(shí)別錯(cuò)誤率最小這一特點(diǎn),提供一個(gè)實(shí)用的、性能優(yōu)良的高識(shí)別率語(yǔ)音情感識(shí)別系統(tǒng),即利用最少的支持向量,在錯(cuò)分樣本和算法復(fù)雜度之間尋找折衷,獲得最好的語(yǔ)音識(shí)別;4.從單個(gè)SVM的二分模式情感識(shí)別擴(kuò)充至多個(gè)SVM結(jié)合的多模式多情感識(shí)別;5.在多模式多情感識(shí)別上,SVM的判決函數(shù)采用具有連續(xù)輸出的函數(shù),進(jìn)一步降低了誤識(shí)率。
本發(fā)明的其他優(yōu)點(diǎn)和效果將在下面繼續(xù)描述。
圖1——語(yǔ)音情感識(shí)別系統(tǒng)框圖。
圖2——特征提取分析模塊流程圖。
圖3——利用簡(jiǎn)化能量累計(jì)量(Rec)進(jìn)行元音分割圖(A)、(B)、(C)。
圖4——5個(gè)支持向量機(jī)子網(wǎng)絡(luò)訓(xùn)練圖。
圖5——支持向量機(jī)子網(wǎng)絡(luò)原理示意圖。
圖6——支持向量機(jī)情感識(shí)別圖。
圖7——使用SVM的情感識(shí)別結(jié)果(%)圖。
圖8——使用PCA的情感識(shí)別結(jié)果(%)圖。
圖9——采用最大可分性分析PCA的情感識(shí)別結(jié)果(%)圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明所述的技術(shù)方案作進(jìn)一步的闡述。
如圖1所示,是語(yǔ)音情感識(shí)別系統(tǒng)框圖,主要分為3大塊特征提取分析模塊、SVM訓(xùn)練模塊和SVM識(shí)別模塊。整個(gè)系統(tǒng)執(zhí)行過程可分為訓(xùn)練過程和識(shí)別過程。訓(xùn)練過程包括特征提取分析、SVM訓(xùn)練;識(shí)別過程包括特征提取分析、SVM識(shí)別。
一.特征提取分析模塊1.全局結(jié)構(gòu)特征參數(shù)選擇及性別規(guī)整全局結(jié)構(gòu)特征參數(shù)包括語(yǔ)句發(fā)音持續(xù)時(shí)間、語(yǔ)速、平均基音頻率、最高基音頻率、基音頻率的平均變化率、平均振幅、振幅的動(dòng)態(tài)范圍、最高第一共振峰頻率、第一共振峰平均變化率、最高第二共振峰頻率。
首先,根據(jù)圖2中的全局結(jié)構(gòu)特征參數(shù)提取流程將待提取特征語(yǔ)句進(jìn)行預(yù)加重處理,具體實(shí)施包括高通濾波、語(yǔ)句開始端點(diǎn)與結(jié)束端點(diǎn)的檢測(cè);然后提取全句的語(yǔ)句發(fā)音持續(xù)時(shí)間、語(yǔ)速這兩個(gè)特征;然后對(duì)語(yǔ)句分幀加窗,采用短時(shí)分析技術(shù),按照男女性別,分別求出各幀基音、第一共振峰、第二共振峰、振幅,然后將各幀所得參數(shù)匯總,分別得到語(yǔ)句的基音軌跡、共振峰軌跡、振幅軌跡語(yǔ)速、語(yǔ)句發(fā)音持續(xù)時(shí)間;在以往的試驗(yàn)中發(fā)現(xiàn),基音和共振峰及其衍生參數(shù)主要體現(xiàn)的是人體的聲門和聲道的特征,和人的生理構(gòu)造有著密切的關(guān)系,在不同的個(gè)體上顯現(xiàn)出較強(qiáng)的相異性,這種差異在不同的性別上尤其明顯。為了更好的消除性別差異對(duì)特征參數(shù)造成的影響,需要對(duì)基音和共振峰參數(shù)進(jìn)行性別規(guī)整,將特征參數(shù)按照男女性別劃分為不同的性別集合,以基音為例,將各個(gè)情感語(yǔ)句的基音軌跡按照性別分為女性集合與男性集合,然后分別計(jì)算各個(gè)集合的均值(μi)、方差(σi),然后利用(式5)將參數(shù)規(guī)整到相同的空間s′=s-uiσi]]>(式5)最后提取衍生參數(shù)即平均基音頻率,最高基音頻率、基音頻率平均變化率、平均振幅曲線、振幅動(dòng)態(tài)范圍、最高第一共振峰頻率曲線、第一共振峰平均變化率、最高第二共振峰頻率;得到上述全部全局特征參數(shù)。
2.時(shí)序結(jié)構(gòu)特征參數(shù)選擇、性別規(guī)整及元音數(shù)目規(guī)整情感語(yǔ)句時(shí)序結(jié)構(gòu)特征的選取是本文方法的特點(diǎn)之一。雖然無(wú)聲部分和清音本身對(duì)情感識(shí)別是有貢獻(xiàn)的,但是通過分析觀察發(fā)現(xiàn)情感特征的變化主要反映在有聲部分尤其是元音部分的特征變化上,因此需要從從語(yǔ)句中分割出各元音區(qū)間。
分幀加窗后根據(jù)美(Mel)標(biāo)度頻率濾波器進(jìn)行濾波。這組濾波器在頻率的美(Mel)坐標(biāo)上是等帶寬的。采用24個(gè)濾波器的濾波器組,這樣每幀信號(hào)可以用一個(gè)能量系數(shù)向量表示。采用一個(gè)簡(jiǎn)單的距離測(cè)量標(biāo)準(zhǔn)來(lái)計(jì)算頻帶能量累積量(Sbec),計(jì)算如式(1)所示。
Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>式(1)t表示當(dāng)前幀,Ei(t)為第i個(gè)美標(biāo)度濾波器的能量, E(t)為美標(biāo)度濾波器組的平均能量,αi為第i個(gè)濾波器的權(quán)重系數(shù)。
通常由于存在共振峰以及間隙,元音具有較高的Sbec值。從一段語(yǔ)音的Sbec值分布,就可以根據(jù)峰值來(lái)判定元音的位置。用Sbec檢測(cè)元音時(shí),存在著一個(gè)主要缺點(diǎn),就是在清音幀出現(xiàn)Sbec峰值時(shí),也判為元音。因此在判別標(biāo)準(zhǔn)不再采用Sbec,而是采用簡(jiǎn)化能量累積量(Rec),計(jì)算如式(2)所示Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示當(dāng)前幀,Ei(t)為第i個(gè)美標(biāo)度濾波器的能量, E(t)為美標(biāo)度濾波器組的平均能量,αi為第i個(gè)濾波器的權(quán)重系數(shù),RecLF為低頻部分(300~1000Hz)對(duì)應(yīng)的Rec值、RecHF為高頻部分(1000~3200Hz)對(duì)應(yīng)的Rec值,根據(jù)Rec值的分布,利用峰值確定元音的位置。這里每個(gè)Rec值作為判別元音的標(biāo)準(zhǔn)必須滿足當(dāng)前語(yǔ)音段必須長(zhǎng)于15ms;低頻和高頻的能量分布必須均衡。即就是式(3)所要求滿足的條件。
RecLFRecHF≥0.5]]>(式3)Δt≥15ms圖3即為利用上述方法得到的元音區(qū)間分割,(A)為語(yǔ)音信號(hào)波形,(B)為Rec曲線,(C)為元音分割。
確定元音區(qū)間后,根據(jù)短時(shí)分析技術(shù)分別計(jì)算情感語(yǔ)句元音區(qū)間的基音軌跡、振幅軌跡、共振峰頻率軌跡,然后進(jìn)行性別規(guī)整,方法類同于全局結(jié)構(gòu)特征參數(shù)的性別規(guī)整。然后提取最高基音頻率、該基頻所對(duì)應(yīng)幀的振幅能量、各元音區(qū)間的最高振幅能量、該振幅所對(duì)應(yīng)幀的基音頻率、各元音區(qū)間的持續(xù)時(shí)間以及前3個(gè)共振峰頻率的平均值、前3個(gè)共振峰頻率的變化率共11種特征參數(shù)。最后,考慮到不同語(yǔ)句的元音個(gè)數(shù)不可能相同,在訓(xùn)練階段必須對(duì)元音數(shù)目不同的語(yǔ)句進(jìn)行規(guī)整。選取訓(xùn)練用情感語(yǔ)料中元音個(gè)數(shù)最多的句子作為基準(zhǔn),對(duì)于元音個(gè)數(shù)較少的語(yǔ)句的參數(shù)向量在尾部用全句的平均值代替補(bǔ)齊。最終得到時(shí)序結(jié)構(gòu)特征參數(shù)。
在系統(tǒng)的執(zhí)行過程中,特征提取分析是必不可少的。在訓(xùn)練過程中,訓(xùn)練樣本的特征提取分析可以直接按照?qǐng)D2所示流程進(jìn)行。在識(shí)別過程中,待識(shí)別語(yǔ)句的特征提取分析同樣按照?qǐng)D2流程進(jìn)行,需要注意的是其中的性別規(guī)整和元音數(shù)目規(guī)整采用訓(xùn)練過程中產(chǎn)生的參數(shù)。性別規(guī)整如語(yǔ)句是女聲,則按照前面訓(xùn)練過程中性別規(guī)整時(shí)的女聲的均值(μi)、方差(σi),利用(式5)將參數(shù)規(guī)整到相同的空間,男聲同理。元音數(shù)目規(guī)整采用訓(xùn)練過程中元音規(guī)整的個(gè)數(shù)進(jìn)行規(guī)整。
二.支持向量機(jī)(SVM)模塊1.支持向量機(jī)(SVM)的訓(xùn)練單個(gè)的SVM本質(zhì)上是一個(gè)二分模式的分類器,判決函數(shù)為y=f(x)=sign(Σi=1nαiyiK(xi,x)+b)]]>=sign(Σ∀xi∈SVnαiyiK(xi,x)+b)]]>(式6)支持向量機(jī)子網(wǎng)絡(luò)原理示意圖如圖5所示,其中K(xi,x)(i=1,2,…,N)為核函數(shù),x為待分類樣本,訓(xùn)練樣本集為(xi,yi)(i=1,2,…,n)。xi為訓(xùn)練樣本,yi是xi的類標(biāo)記。SV是支持向量集,是訓(xùn)練樣本集的一個(gè)子集,n為訓(xùn)練樣本個(gè)數(shù),N為支持向量個(gè)數(shù)。SVM的訓(xùn)練就是尋找支持向量集xi(i=1,2,…,N)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b。b的具體計(jì)算可由(式7)求得 (式7)訓(xùn)練前,從情感語(yǔ)音庫(kù)中選取高興、生氣、悲傷、驚訝、恐懼五種情感語(yǔ)句,經(jīng)過特征提取分析模塊,得到各自特征參數(shù)向量作為SVM訓(xùn)練樣本。訓(xùn)練時(shí),首先選擇其中一種情感作為識(shí)別目標(biāo),對(duì)于第i條情感語(yǔ)句,采用符號(hào)函數(shù)作為判決函數(shù),如果這條語(yǔ)句屬于該類情感,則yi為1,否則為-1。利用訓(xùn)練樣本的特征參數(shù)向量和類標(biāo)號(hào)作為訓(xùn)練樣本集,選用符合Mercer條件的高斯函數(shù)為核函數(shù),采用分解算法對(duì)該情感的支持向量機(jī)進(jìn)行訓(xùn)練,其思想是通過循環(huán)迭代解決對(duì)偶尋優(yōu)問題將原問題分解成更易于處理的若干子問題,即設(shè)法減小尋優(yōu)算法要解決問題的規(guī)模,按照某種迭代策略,通過反復(fù)求解子問題,最終使結(jié)果收斂到原問題的最優(yōu)解。這是目前SVM訓(xùn)練算法一般采用的途徑,當(dāng)支持向量數(shù)目遠(yuǎn)小于訓(xùn)練樣本數(shù)目時(shí),算法效率較高。最后得到該訓(xùn)練集關(guān)于某種情感的的支持向量集xi(i=1,2,…,N)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b。5種情感分別訓(xùn)練5個(gè)SVM,圖4是訓(xùn)練5個(gè)SVM分別對(duì)應(yīng)5種情感。
2.情感識(shí)別情感識(shí)別可大致分為兩種某條語(yǔ)句是否是某種情感(二分模式識(shí)別);某條語(yǔ)句是哪一種情感(多模式識(shí)別)。對(duì)前者的識(shí)別可以用一個(gè)SVM實(shí)現(xiàn),采用符號(hào)函數(shù)作為判決函數(shù),對(duì)后者則需要多個(gè)SVM結(jié)合實(shí)現(xiàn)。從識(shí)別的精度出發(fā),本發(fā)明采用的是“One-Against-All”的SVM網(wǎng)絡(luò),并采用具有連續(xù)輸出的軟判決函數(shù),從識(shí)別的精度角度看該法更具優(yōu)勢(shì)。
當(dāng)識(shí)別問題是判斷某條語(yǔ)句是否是某種情感時(shí),如判斷語(yǔ)句“今天是晴天”是否為“高興”,首先將語(yǔ)句經(jīng)過特征提取分析模塊得到特征參數(shù)向量x,選擇SVM1進(jìn)行識(shí)別,求得y1=Σ∀xi∈SVnαiyiK(xi,x)+b,]]>根據(jù)(式6)求SVM1的輸出y,y為1則該語(yǔ)句情感為“高興”,y為-1則該語(yǔ)句情感不是“高興”。
當(dāng)識(shí)別問題是多模式識(shí)別問題,需要利用前面已經(jīng)構(gòu)造好的5個(gè)支持向量機(jī)(SVM)。如判斷語(yǔ)句“今天是晴天”是哪一種情感,首先將語(yǔ)句經(jīng)過特征提取分析模塊得到特征參數(shù)向量x,然后將x分別輸入5個(gè)SVM中去,計(jì)算Σ∀xi∈SVNαikyikK(xik,x)+b,]]>并按照式(4)做如下處理yjk=1Σx∈svαikyik(K(xik,x))+b>1Σx∈svαjkyik(K(xik,x))+b-1<Σx∈svαikyik(K(xik,x)+b-1Σx∈svαikyik(K(xik,x))+b<-1]]>(式4)最后選擇具有最大輸出值的類別所對(duì)應(yīng)的情感作為判別結(jié)果,如圖6所示。
多模式識(shí)別不同于二分模式識(shí)別的最大特點(diǎn)采用了(式4)所示的具有連續(xù)輸出的函數(shù)作為判別函數(shù),而二分模式采用的是(式6)所示的符號(hào)函數(shù)。這是因?yàn)檎Z(yǔ)音情感的劃分本身就是一個(gè)模糊的分類,真正的語(yǔ)音情感識(shí)別往往是依靠判別語(yǔ)音中不同情感成分的強(qiáng)弱來(lái)決定。一般認(rèn)為某種情感成分在語(yǔ)音中較突出時(shí),即認(rèn)為該語(yǔ)音信號(hào)屬于此類情感。而符號(hào)函數(shù)是不能完全體現(xiàn)情感的這種模糊性的。因此(式4)所示函數(shù)從識(shí)別精度上看更具優(yōu)勢(shì)。
三.識(shí)別系統(tǒng)的評(píng)價(jià)如圖7、8、9所示,是本發(fā)明實(shí)施數(shù)據(jù)提供的結(jié)合全局結(jié)構(gòu)特征與時(shí)序結(jié)構(gòu)特征的并考慮到性別差異的SVM方法同傳統(tǒng)PCA方法以及進(jìn)行最大可分性變換的PCA方法進(jìn)行對(duì)比的結(jié)果。該結(jié)果說明,使用此種方法對(duì)語(yǔ)音情感進(jìn)行識(shí)別效率大大高于現(xiàn)有技術(shù)的識(shí)別方法。結(jié)合前面二分模式的情感識(shí)別結(jié)果,可以知道在不同情感之間的分類界并不是一個(gè)線性超平面,而SVM可以利用核空間影射將低維空間的非線性分類問題轉(zhuǎn)化為高維特征空間的線性分類問題,而使非線性問題得到解決。
本發(fā)明請(qǐng)求保護(hù)的范圍并不僅僅局限于本具體實(shí)施方式
的描述。
權(quán)利要求
1.一種基于支持向量機(jī)的語(yǔ)音情感識(shí)別方法,其步驟為建立特征提取分析模塊、SVM訓(xùn)練模塊、SVM識(shí)別模塊;特征提取分析模塊包括全局結(jié)構(gòu)特征參數(shù)提取、時(shí)序結(jié)構(gòu)特征參數(shù)提取;首先對(duì)原始語(yǔ)音信號(hào)預(yù)加重、分幀,然后分別進(jìn)行全局結(jié)構(gòu)特征提取、時(shí)序結(jié)構(gòu)特征提??;(1)全局結(jié)構(gòu)特征參數(shù)提取(1-1)將原始語(yǔ)音信號(hào)經(jīng)高通濾波器預(yù)處理,提取發(fā)音持續(xù)時(shí)間、語(yǔ)速參數(shù);(1-2)分幀,加窗;(1-3)應(yīng)用短時(shí)分析技術(shù),分別提取各幀語(yǔ)句主要特征參數(shù)基音頻率軌跡、振幅、共振峰頻率軌跡;(1-4)提取上述特征參數(shù)的衍生參數(shù)平均基音頻率,最高基音頻率、基音頻率平均變化率、平均振幅曲線、振幅動(dòng)態(tài)范圍、最高第一共振峰頻率曲線、第一共振峰平均變化率、最高第二共振峰頻率;(2)時(shí)序結(jié)構(gòu)特征參數(shù)提取(2-1)將原始語(yǔ)音信號(hào)分幀后,經(jīng)由24個(gè)等帶寬的濾波器組成的美爾標(biāo)度頻率濾波器組濾波,每幀信號(hào)以一個(gè)能量系數(shù)向量表示;(2-2)計(jì)算頻帶能量累積量,用當(dāng)前幀的美爾標(biāo)度濾波器組的平均能量與各個(gè)美爾標(biāo)度濾波器的能量做差值,求得所有差值的絕對(duì)值的加權(quán)和,得到頻帶能量累積量;Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>(式1)t表示當(dāng)前幀,Ei(t)為第i個(gè)美標(biāo)度濾波器的能量, E(t)為美爾標(biāo)度濾波器組的平均能量,αi為第i個(gè)濾波器的權(quán)重系數(shù);(2-3)根據(jù)頻帶能量累積量峰值來(lái)判定元音位置或元音區(qū)間,并用簡(jiǎn)化能量累積量的分布來(lái)確定元音的位置,Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示當(dāng)前幀,Ei(t)為第i個(gè)美標(biāo)度濾波器的能量, E(t)為美標(biāo)度濾波器組的平均能量,αi為第i個(gè)濾波器的權(quán)重系數(shù),RecLF為低頻部分(300~1000Hz)對(duì)應(yīng)的Rec值、RecHF為高頻部分(1000~3200Hz)對(duì)應(yīng)的Rec值,根據(jù)Rec值的分布,利用峰值確定元音的位置,Rec值作為判別元音的標(biāo)準(zhǔn)必須滿足兩個(gè)條件當(dāng)前語(yǔ)音段必須長(zhǎng)于15ms,低頻和高頻的能量分布必須均衡,即滿足下式RecLFRecHF≥0.5]]>Δt≥15ms (式3)Δt為當(dāng)前幀的長(zhǎng)度;(2-4)采用短時(shí)分析方法,按照性別分別計(jì)算情感語(yǔ)句各元音區(qū)間的基音軌跡、3個(gè)共振峰軌跡、振幅能量軌跡;(2-5)計(jì)算情感語(yǔ)句各元音區(qū)間的最高基音頻率、該基音頻率所對(duì)應(yīng)幀的振幅能量、各元音區(qū)間的最高振幅能量、該振幅所對(duì)應(yīng)幀的基音頻率、各元音區(qū)間的持續(xù)時(shí)間以及前3個(gè)共振峰頻率;(2-6)采用均值補(bǔ)齊方法規(guī)整元音,即選取情感語(yǔ)句中元音個(gè)數(shù)最多的句子為基準(zhǔn),對(duì)于元音個(gè)數(shù)少的語(yǔ)句在尾部用全句平均值代替、補(bǔ)齊參數(shù)向量;將提取的全局結(jié)構(gòu)特征參數(shù)、時(shí)序結(jié)構(gòu)特征參數(shù)規(guī)整到相同的空間,得到支持向量機(jī)的輸入矢量;(3)支持向量機(jī)的訓(xùn)練單個(gè)支持向量機(jī)是一個(gè)二分模式的分類器,對(duì)SVM的訓(xùn)練是在訓(xùn)練樣本中尋找支持向量xi(i=1,2,…,n)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;SVM的訓(xùn)練步驟(3-1)從情感語(yǔ)句庫(kù)中選取高興、生氣、悲傷、恐懼、驚訝五種情感語(yǔ)句作為訓(xùn)練樣本;(3-2)選擇其中一種情感作為識(shí)別目標(biāo),對(duì)于第i條情感語(yǔ)句,抽取其特征參數(shù)構(gòu)成一個(gè)特征參數(shù)向量,采用符號(hào)函數(shù)作為判決函數(shù),如果這條語(yǔ)句屬于該類情感,則令SVM輸出參數(shù)yi=1,否則yi=-1;(3-3)利用訓(xùn)練樣本的特征參數(shù)向量和SVM輸出參數(shù)作為訓(xùn)練集,核函數(shù)是高斯(徑向基)函數(shù),采用已有的分解算法對(duì)該情感的支持向量機(jī)進(jìn)行訓(xùn)練,得到該訓(xùn)練集的支持向量xi(i=1,2,…,N)、支持向量權(quán)值系數(shù)ai和偏移系數(shù)b;(3-4)高興、生氣、悲傷、恐懼、驚訝五種情感分別訓(xùn)練五個(gè)支持向量機(jī);(4)情感識(shí)別(4-1)單個(gè)情感識(shí)別提取待識(shí)別語(yǔ)句的特征矢量輸入到步驟(3)已訓(xùn)練好的支持向量機(jī)中,經(jīng)輸出判別函數(shù)(符號(hào)函數(shù))對(duì)該語(yǔ)句進(jìn)行判別,如果yj=1則該語(yǔ)句屬于該類情感,則該語(yǔ)句為該類情感,否則不屬于該類情感;(4-2)多情感識(shí)別采用One-Against-All支持向量機(jī)對(duì)高興、生氣、悲傷、恐懼、驚訝五種情感進(jìn)行識(shí)別,與步驟(3)中建立的五個(gè)支持向量機(jī)對(duì)應(yīng),對(duì)每一個(gè)支持向量機(jī),采用具有連續(xù)輸出的函數(shù)作為軟判決函數(shù),將具有最大輸出值的類別作為最終的輸出,yik=1Σx∈svαikyik(K(xik,x))+b>1Σx∈svαikyik(K(xik,x))+b-1≤Σx∈svαikyik(K(xik,x))+b≤1-1Σx∈svαikyik(K(xik,x))+b<-1]]>(式4)j為測(cè)試語(yǔ)句的標(biāo)號(hào),k為不同的情感,K(xik,x)為待識(shí)別語(yǔ)句x與第k種情感的第i個(gè)支持向量xik的核函數(shù),在計(jì)算出每個(gè)樣本相對(duì)于不同情感的判別結(jié)果后,識(shí)別情感為使(式4)取得最大值的k值。
2.根據(jù)權(quán)利要求1所述的一種基于支持向量機(jī)的語(yǔ)音情感識(shí)別方法,其特征在于可以在步驟(1-4)、(2-5)之前加入特征參數(shù)關(guān)于性別的規(guī)整,即按男、女性別,將得到的每個(gè)信號(hào)樣本的特征參數(shù)劃分為不同的性別集合,分別計(jì)算各個(gè)集合的均值(μi)、方差(σi),利用(式5)將參數(shù)規(guī)整到相同的空間。s′=s-uiσi]]>(式5)
全文摘要
本發(fā)明涉及一種語(yǔ)音情感識(shí)別系統(tǒng)及方法。本發(fā)明采取特征提取分析模塊、SVM訓(xùn)練模塊和SVM識(shí)別模塊;訓(xùn)練過程包括特征提取分析、SVM訓(xùn)練;識(shí)別過程包括特征提取分析、SVM識(shí)別。特征提取分析有全局結(jié)構(gòu)特征參數(shù)選擇及性別規(guī)整、時(shí)序結(jié)構(gòu)特征參數(shù)選擇、性別規(guī)整及元音數(shù)目規(guī)整;支持向量機(jī)(SVM)有支持向量機(jī)訓(xùn)練、對(duì)高興、生氣、悲傷、恐懼、驚訝五種情感進(jìn)行識(shí)別。解決了矢量分割型馬氏距離判法、主元分析法、神經(jīng)網(wǎng)絡(luò)法、隱馬爾可夫法等的各自缺陷。本發(fā)明加強(qiáng)了特征參數(shù)的有效性,加入性別規(guī)整,用最少支持向量,在錯(cuò)分樣本和算法復(fù)雜度之間獲得最好的語(yǔ)音識(shí)別,在單個(gè)SVM及多個(gè)SVM結(jié)合的多模式具有連續(xù)輸出函數(shù),降低誤識(shí)率。
文檔編號(hào)G10L15/28GK1975856SQ20061009730
公開日2007年6月6日 申請(qǐng)日期2006年10月30日 優(yōu)先權(quán)日2006年10月30日
發(fā)明者趙力, 王治平, 趙艷, 鄭文明 申請(qǐng)人:鄒采榮