專利名稱:一種兒童語音情感識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別,特別是涉及到基于兒童語音的語音情感識別方法。
背景技術(shù):
目前市場上的針對兒童的智能電子產(chǎn)品可以播放歌曲、語句也可以通過應(yīng)答模式進(jìn)行簡單的對話,但是這種電子產(chǎn)品和學(xué)習(xí)機(jī)所發(fā)出的聲音都十分的機(jī)械、單調(diào)和不自然,使得它們只能作為水冷的工具,人性化功能較差,而不能被孩子們完全接受,現(xiàn)有電子產(chǎn)品的應(yīng)答模式也不能根據(jù)兒童的情緒變化和不同性格的兒童做出相應(yīng)的情感和風(fēng)格的調(diào)整,只能用機(jī)械的聲音播放預(yù)先設(shè)定好的答案,因此人機(jī)交互效果不佳。
而當(dāng)前針對語音情感識別的研究中雖然有在語音識別過程中進(jìn)行情感識別
以及在語音合成中加入情感信息的方法,如申請?zhí)枮?1116524.3,名為"具有情感的語音-語音翻譯系統(tǒng)和方法"的中國專利公開了一種具有情感的語音-語音翻譯系統(tǒng),包括語音識別裝置,用于對語言A的語音表示進(jìn)行識別,形成語言A的文本表示;機(jī)器翻譯裝置,用于將語言A的文本表示翻譯成語言B的文本表示;文本——語音生成裝置,用于根據(jù)語言B的文本表示生成語言B的語音表示,所述具有情感的語音——語音翻譯系統(tǒng)的特征在于還包括情感表述參數(shù)檢測裝置,用于從語言A的語音表示中提取情感表述參數(shù);以及情感表述參數(shù)映射裝置,用于將情感表述參數(shù)檢測裝置提取的情感表述參數(shù)從語言A映射到語言B,并將映射結(jié)果作用于文本一一語音生成裝置,使其產(chǎn)生可以傳達(dá)情感的語音輸出。但是,該方法只是從語言A中提取表示情感的參數(shù)并將之機(jī)械地映射到目標(biāo)語言B,而并不對語音所攜帶的情感信息的類型做出分析和判斷。并且其使用的情感識別方法是基于文本以及根據(jù)文本進(jìn)行分詞后對以詞匯為單位的語音數(shù)據(jù)進(jìn)行判斷。情感識別的方式很受局限,效果也很有限。
并且,語音識別中的分類技術(shù)中,如被廣泛采用的各種基于神經(jīng)網(wǎng)絡(luò)的分類器,其訓(xùn)練過程需要大量具有已知情感類別的語音樣本,而現(xiàn)有技術(shù)中對于
5訓(xùn)練樣本的獲取方式為令專業(yè)的演義人士按照預(yù)定情感類別進(jìn)行"表演",或者在公眾場所隨機(jī)采集,再加上采集者對于發(fā)音者情感類別的判斷。這種采樣方式一者使樣本的分布廣泛性受到很大影響,因?yàn)閷I(yè)演員的數(shù)量有限,且故
意做作出來的"表演"與真實(shí)情感流露的語音是有差距的;二者上述語音采樣基本都取自成人,而成年人的感情比較復(fù)雜,往往在一句話中包涵了多種情感,這些情感交織在一起,給分類造成困難,也不利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
再者,現(xiàn)有技術(shù)中在進(jìn)行語音情感分析時(shí), 一般首先進(jìn)行分幀假設(shè),即采用長度有限的窗函數(shù)來截取語音信號形成分析幀,從而將語音信號分割成一幀幀加過窗的短時(shí)信號,然后再把每一個(gè)短時(shí)語音幀看作平穩(wěn)隨機(jī)過程,之后按幀從數(shù)據(jù)區(qū)提取數(shù)據(jù)進(jìn)行處理提取特征參數(shù),從而得出由每一幀參數(shù)組成的語音特征參數(shù)的時(shí)間序列。根據(jù)所述時(shí)間序列進(jìn)行分類器訓(xùn)練或用于識別。基于分幀假設(shè)的方法一方面增加了算法的復(fù)雜性,使識別速度緩慢,另一方面由于每個(gè)個(gè)體的語速和發(fā)音特性之間的差別,基于時(shí)間窗分幀往往會破壞語音與語義的整體配合關(guān)系,從而不利于語音識別,特別是不利于與語義相關(guān)度較大的情感識別。
同時(shí),現(xiàn)有技術(shù)中也并沒有專門針對兒童特有的聲音特點(diǎn)和感情特征進(jìn)行研究,并專門進(jìn)行兒童語音情感分析和情感語音合成的方法。
發(fā)明內(nèi)容
因此,本發(fā)明要解決的問題是克服現(xiàn)有兒童智能電子產(chǎn)品的上述缺陷,提供一種新的基于兒童語音的情感識別和合成技術(shù),使得面向兒童的智能電子產(chǎn)品可以具有高度的人性化、智能化,更容易被兒童所接受。
為解決上述問題,本發(fā)明提供了一種兒童語音情感識別方法,其包括訓(xùn)練語音庫建立、分類器訓(xùn)練和情感識別,其特征在于,所述分類器訓(xùn)練包括以下步驟
(S10)提取兒童語音情感特;f正,該步驟包括 '
前端處理對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處理在內(nèi)的預(yù)處理;之后對經(jīng)過預(yù)處理的情感語句做HHT變換,獲得情感語音的Hilbert諳;
根據(jù)所述情感語音的Hilbert譜進(jìn)行以下特征提取音強(qiáng)特征提取、語調(diào)特征提取、音色特征提取和節(jié)奏特征提取,獲得情感特征;(S20)對提取到的情感特征進(jìn)行降維,獲得不同情感空間的四元特征; (S30)四元特征情感轉(zhuǎn)換計(jì)算,對訓(xùn)練語音庫樣本集都做上述計(jì)算,得到
一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影,從而構(gòu)成情感特征投
影集;
(S40)用所述情感特征投影集中的數(shù)據(jù)進(jìn)行SVM/HMM混合系統(tǒng)分類訓(xùn)練。
本發(fā)明的有益效果在于,對兒童語音中的情感進(jìn)行了理想分類,對活潑、 羞澀的兒童,分別制定了一套兒童情感語音識別與合成系統(tǒng)。構(gòu)造了基于兒童 語音情感識別的SVM/HMM混合系統(tǒng),既可以對靜態(tài)數(shù)據(jù)進(jìn)行分類,又可以對動 態(tài)數(shù)據(jù)進(jìn)行建模。可以對兒童語音進(jìn)行實(shí)時(shí)的自動情感識別。不對語音進(jìn)行短 時(shí)平穩(wěn)假設(shè),從長時(shí).間上把握情感特性,更符合情感在語音中的分布特性。從 聲音三要素響度、音色、音調(diào)著手,加之語速特征,提取了有效的情感特征。 統(tǒng)計(jì)了自然情感特征映射到其他不同情感空間中的聚類狀態(tài)模型,進(jìn)行建立情 感一對多映射模型。提高了合成語音的自然度,讓機(jī)器發(fā)出的聲音具有情感, 提高人機(jī)交互效果。
該基于兒童語音的情感識別和合成技術(shù),可以自動通過不同性格的兒童聲 音中所帶的情感進(jìn)行識別,并可以根據(jù)文語轉(zhuǎn)換系統(tǒng)文本上所標(biāo)注的情感標(biāo)簽, 自動的對不帶感情的語音從音強(qiáng)、音色、語調(diào)、語速上進(jìn)行相應(yīng)的情感修正, 最終合成帶有感情色彩的情感語句。
圖1是本發(fā)明語音情感識別方法的流程示意圖2是本發(fā)明語音情感識別方法的情感特征提取示意圖3是本發(fā)明語音情感識別方法的HHT變換方法示意圖4是本發(fā)明語音情感識別方法用于訓(xùn)練或識別的切換示意圖。
x 具體實(shí)施例方式
本發(fā)明的語音情感識別方法包括建立語音數(shù)據(jù)庫,進(jìn)行情感分類器訓(xùn)練和 語音情感識別三個(gè)部分,如圖1到圖4所示。
其中,語音庫的建立主要是針對兒童的語音進(jìn)行,包括語音采集和分類。一般來說,嬰兒從1歲左右開始學(xué)會說話,之后隨著年齡的增長人的聲音 會發(fā)生變化,并出現(xiàn)一個(gè)由童音向成人聲音過渡的階段,即"變聲期",每個(gè)個(gè)體
"變聲期,,出現(xiàn)的時(shí)間不同,大多在12至17歲之間,持續(xù)時(shí)間為六個(gè)月至一 年。聲帶在"變聲期"會有很大變化,因此本發(fā)明所述的兒童是指進(jìn)入變聲期 以前的男孩或女孩。同時(shí),為了保證釆樣的可靠性,太小的孩子會有發(fā)音不清 的問題,因此,較佳地是針對3-11歲的兒童進(jìn)行語音采集,采集的內(nèi)容可曰常 會話(包括普通話和地方方言)。采集方式可以是讓兒童在特定語境下按情感 類別進(jìn)行主動表達(dá),但更好的方式是在兒童自然生活的過程中進(jìn)行采集。
之后,要對采集的語音信息進(jìn)行分類,建立情感語音數(shù)據(jù)庫。建立語音庫 之初,對采集后的數(shù)據(jù)進(jìn)行分類要由人工來完成,這在現(xiàn)有技術(shù)中任何基于學(xué) 習(xí)的分類和識別方法中都需如此。由于在兒童期,男女聲音差別不大,都是童 音,因此不需要對性別進(jìn)行分類,但是根據(jù)發(fā)明人的多年研究,不同性格特征 的兒童在情感表達(dá)中語音起伏的差別卻很大,因此首先將兒童分為活潑性格和 羞澀性格兩類,并以此為基礎(chǔ)進(jìn)行情感語音數(shù)據(jù)庫的第一級分類,將其分為活 潑兒童情感語音數(shù)據(jù)子庫和羞澀兒童情感語音數(shù)據(jù)子庫。
之后,分別對活潑兒童情感語音數(shù)據(jù)子庫和羞澀兒童情感語音數(shù)據(jù)子庫中 的語音數(shù)據(jù)進(jìn)行情感分類。例如,可將兒童情感分為驚奇、驕傲、興奮、快 樂、心虛、傷心、厭惡、焦急、恐懼、生氣、平靜(自然)共11類。要說明的 是,此分類僅作為本發(fā)明的一較佳實(shí)施例,但并不以此為限。
在從語音數(shù)據(jù)庫中提取語音信息時(shí),首先進(jìn)行性格類型判斷,在從活潑兒 童情感語音數(shù)據(jù)子庫和羞澀兒童情感語音數(shù)據(jù)子庫中獲取語音數(shù)據(jù)后,分別給 語音數(shù)據(jù)添加不同的性格標(biāo)簽,如圖l所示,分別添加標(biāo)簽K1、 K2,之后分別 針對具有不同標(biāo)簽的不同性格的兒童分別進(jìn)行分類器訓(xùn)練。而在語音情感識別 的過程中,則可以首先對一條待識別語音進(jìn)行性格判斷,然后根據(jù)判斷出的兒 童性格類型用訓(xùn)練好的系統(tǒng)進(jìn)行相應(yīng)的識別。
情感分類器的訓(xùn)練是根據(jù)語音數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行',并可在之后的識別過 程中進(jìn)行不斷修正,所述語音數(shù)據(jù)庫亦可動態(tài)調(diào)整。情感分類器的訓(xùn)練包括以 下步驟
S10:提取兒童語音情感特征因?yàn)檎Z音情感在一句話中是連續(xù)變化的,因進(jìn)行分幀,而是將整句語音的采樣值作為一個(gè)時(shí)間序列進(jìn)行分析;但對于語音 較長的語句,可以按照韻律規(guī)律劃分成多個(gè)語音段。情感可以從聲音的大小(響 度)、基音曲線(語調(diào))、聲門特征(音色)和語速表現(xiàn)出來,因此從這四方 面提取情感特征,具體的提取過程包括
(S11)前端處理首先對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處 理在內(nèi)的預(yù)處理;之后對經(jīng)過預(yù)處理的情感語句做HHT (Hilbert-Huang變換) 變換,在Huang變換部分,把語音分解成一系列能量降序、頻率降序、波長變 長的固有模態(tài)(IMF),只選取包含情感信息的前P個(gè)固有模態(tài),隨后對這P 個(gè)IMF做Hilbert變換,并由此導(dǎo)出作為時(shí)域函數(shù)的瞬時(shí)幅值(能量)和瞬時(shí)頻 率,從而得到各個(gè)IMF的時(shí)間-頻率-幅值分布,即情感語音的Hilbert譜;
(S12 )音強(qiáng)特征提取對情感語音的IMF計(jì)算Teager能量算子(TEO ), 然后取模,提取幅度信息,用來表征響度特征;
(S13 )語調(diào)特征提取對Hilbert譜計(jì)算Teager能量算子(TEO ),取模 后,根據(jù)設(shè)定的幅度域值確定出濁音段與清音段,隨后對無聲段和清音段進(jìn)行 插值,得到基音曲線全局變化趨勢,用來表征語調(diào)特征;
(514) 聲門(音色)特征提取從濁音段估計(jì)聲門波導(dǎo)數(shù)信號,由牛頓-高斯型非線性估計(jì)方法獲得7個(gè)殘出組成的分段函數(shù)的LF模型表示聲門波導(dǎo)數(shù) 的粗糙部分,然后從聲門波導(dǎo)數(shù)估計(jì)值中減去次粗糙結(jié)構(gòu),得到精細(xì)結(jié)構(gòu)分量, 對精細(xì)分量做HHT變換,提取沒有被一般的聲門波形狀所表現(xiàn)的特征;
(515) 節(jié)奏特征提取對情感語音的IMF計(jì)算語速,用以表征語速信息; S20:對提取到的情感特征進(jìn)行降維,例如采用KPCA(核主元分析)方法,
對所提取的不同情感的4部分特征分別進(jìn)行降維,選取累計(jì)量大于滿意數(shù)值的 前M階累計(jì)量作為不同情感的訓(xùn)練特征,這不同情感對應(yīng)的4部分訓(xùn)練特征, 命名為不同情感空間的四元特征; S30:四元特征情感轉(zhuǎn)換計(jì)算,
(1) 同一句話中,自然情感狀態(tài)的四元特征為基準(zhǔn)(Ie)在各個(gè)情感空間 i中的四元特征的投影值,每四元特征都有M階;
(2) 對所有的訓(xùn)練庫樣本集都做上述計(jì)算,得到一系列的自然情感狀態(tài)的 四元特征在情感空間i上的投影,作為情感特征投影集;
S40:用SVM/HMM混合系統(tǒng)對訓(xùn)練特征進(jìn)行訓(xùn)練。SVM是很好的靜態(tài)分類器,HMM則可以對動態(tài)數(shù)據(jù)進(jìn)行建模,其中SVM的核函數(shù)選擇不加限制, 因?yàn)樗麄兊男Ч篌w相同,只是識別速度略有不同,隨后用Gauss函數(shù)模型化 后驗(yàn)概率,把SVM的分類距離映射為HMM中Viterbi算法所需要的后驗(yàn)概率, 例如
!7/) =-"(//"^- (1)
K/"/"l)A+K/V"2)A+…+戶(/7"ll);7u
/是SVM距離,y是分類標(biāo)簽,值為l到ll(代表ll種情緒驚奇、驕傲、 興奮、快樂、心虛、傷心、厭惡、恐懼、生氣、焦急、平靜)。由式依次可以分 別計(jì)算出第1情感的戶(//少=0。每個(gè)類的條件概率P(/7少W)都被模型化為一個(gè) Gauss .函數(shù),式中
p(/7"0-^^exp—(, ') , / = 1廣、11 (2)
S50:用不同情感的四元特征和情感特征投影集對SVM/HMM混合系統(tǒng)進(jìn) 行訓(xùn)練,并依次得到四元特征和情感特征投影集對應(yīng)的聚類狀態(tài)模型及各自的 決策樹;
S60:用訓(xùn)練好的識別系統(tǒng)完成對實(shí)時(shí)輸入的兒童語音的情感識別。
下面對各個(gè)步驟進(jìn)行詳細(xì)說明,參見圖2、圖3。 <HHT變換之Huang變換>
其中,步驟S11的前端處理中,預(yù)處理的方法中可包括利用FIR低通濾波 器進(jìn)行濾波,以濾除信號中的高次諧波和隨機(jī)干擾成分,被濾除的成分是奇異 模態(tài),從而避免了隨后EMD篩選中因奇異模態(tài)影響造成的模態(tài)混疊,以便在被 篩選出的模態(tài)信號中得到完整的有用信號。預(yù)處理的實(shí)現(xiàn)方法亦可使用現(xiàn)有技 術(shù)語音識別方法中的預(yù)處理通用方法,例如,普通PC機(jī)的聲卡即可用于實(shí)現(xiàn)預(yù) 處理。設(shè)對每條(句)語音信號,預(yù)處理后得到原始語音信號時(shí)間序列義(O, HHT變換首先對語音情感信號進(jìn)行EMD(經(jīng)驗(yàn)?zāi)B(tài)分析,Empirical Mode Decomposition)分解,把非平穩(wěn)的語音情感信號X(O分解成為六個(gè)平穩(wěn)的IMF(固 有模態(tài)函數(shù),Intrinsic Mode Functions )窄帶信號分量。關(guān)于HHT變換的詳細(xì)內(nèi) 容可參見文獻(xiàn)[l]: Norden E. Huang, Zheng Shen, Steven R. Long, The empirical mode decomposition & the Hilbert spectrum for nonlinear and non-stationary time series analysis, Proceed of the Royal Society of London Series A: Mathematical
10and Physical Sciences, 454:903-995, 1998。 EMD分解基于如下假設(shè)
(1) 語音情感信號至少有兩個(gè)極值, 一 個(gè)極大值和 一 個(gè)極小值;
(2) 語音情感信號特征時(shí)間尺度是由極值間的時(shí)間間隔確定的;
(3) 如果語音情感信號中缺乏極值點(diǎn),但存在缺陷點(diǎn),可通過微分、分解、 再積分的方法獲得IMF。
根據(jù)IMF提取的標(biāo)準(zhǔn),本發(fā)明的一個(gè)實(shí)施例中,分別根據(jù)語音情感信號的 極大值和極小值使用三次樣條插值來實(shí)現(xiàn)EMD分解。具體步驟如下
(1) 確定語音情感信號的局部極大值X皿和局部極小值y^。
(2) 分別根據(jù)Xmax和Imin做三次樣條插值確定原始語音情感信號的上包 絡(luò)和下包絡(luò),這樣在上下包絡(luò)之間是原始語音情感信號X(f)。
(3) 根據(jù)上下包絡(luò),求出原始語音情感信號X(O的局部均值mn(O,原始語音 情感信號與局部均值的差值記為& =-m (f)。
(4) 以&代替義(,),重復(fù)以上步驟(1)到(3),直到/^一與/^之間的方差 小于一設(shè)定值即認(rèn)為/^是一IMF分量,令&=\4, "0 = ^(0-9, ^(0 = 5(0。
(5) 重復(fù)以上步驟(1)到(4),直到^或、比預(yù)定值小;或者剩余"/)變成 單調(diào)函數(shù)時(shí),原始信號的EMD分解結(jié)束。
最后得到
邵)=1>'")""(。 (3)
這樣,獲得了 "個(gè)IMF模式分量c,0)和剩余信號(0。分解得到的IMF模式 分量代表了原始情感信號中包含的不同時(shí)間尺度的特征信號,并且都是窄帶信 號,使得瞬時(shí)頻率具有了真實(shí)的物理意義,因此可以利用EMD分解作為語音情 感識別用新的情感特征。
語音情感信號分解出來的第一個(gè)IMF是振幅最大、,頻率最高、波長最短的 波動,依次下去的各內(nèi)在模函數(shù),振幅逐漸變小、頻率逐漸變低、波長越來越 長,這種變化趨勢一直延續(xù)到頻率已經(jīng)很低最后一個(gè)IMF。而一般來說,最后 一個(gè)IMF要比倒數(shù)第二個(gè)IMF的波動振幅大,這種異?,F(xiàn)象是EMD中經(jīng)常會 出現(xiàn)的情況,但它只可能出現(xiàn)在較低頻的部分,不會影響整體的變化趨勢。
11語音情感信號分解出來的IMF的這種分布狀況,是由IMF的本性決定的, 它總是把最主要的信號先提取出來,也就是說,由EMD方法分解出來的頭幾個(gè) IMF,集中了原序列中最顯著的信息。實(shí)際上,由實(shí)驗(yàn)統(tǒng)計(jì)數(shù)據(jù)上分析來看,從 第六個(gè)IMF開始,波動的振幅基本上都小于4mm,依EMD方法的本性而言, 只要有多余1個(gè)波的波動存在,EMD就能夠把它提取出來。對于具體的語音情 感信號,這些振幅很小、頻率極低、波長很大的波動可能是事實(shí)存在的物理現(xiàn) 象,也可能是由于數(shù)據(jù)采樣率不夠高造成的噪聲信號?;谝陨蠋c(diǎn)考慮,本 發(fā)明優(yōu)選只提取前六個(gè)IMF用作語音情感分析,有效的避免了這種異常。
應(yīng)用于語音情感識別中的Hilbert-Huang變換方法分析質(zhì)量很大程度上取決 于EMD分解的質(zhì)量。而EMD分解由于釆用三次樣條插值來獲得信號的瞬時(shí)平 均,使得這種方法存在特殊的邊緣效應(yīng),嚴(yán)重的會影響整個(gè)信號。因此,優(yōu)選 地,要在HHT分解過程中,使用 一定手段抑制EMD分解由于采用三次樣條插 值所產(chǎn)生的邊緣效應(yīng)。
三次樣條曲線具有光滑的一次微分和連續(xù)的二次微分特點(diǎn)。由于所分析的 語音情感信號的有限長度、情感信號的兩端點(diǎn)不能確定是極值,那么在進(jìn)行三 次樣條插值的時(shí)候,必然使得信號的上下包絡(luò)在信號的兩端附近嚴(yán)重扭曲。在 情感信號的高頻分量部分,由于時(shí)間尺度小,極值間的距離小,端部的邊緣效 應(yīng)僅局限在信號兩端很小的部分。但對于低頻分量,由于其時(shí)間尺度大,極值 間的距離大,端部的邊緣效應(yīng)就傳播到情感信號的內(nèi)部,特別是原始語音情感 信號比較短的時(shí)候,會嚴(yán)重影響EMD分解的質(zhì)量,使得分解出來的IMF分量 沒有實(shí)際的物理意義。對于單分量信號端部效應(yīng)的影響較小、對于多分量復(fù)雜 信號,特別是需要作多次前述EMD分解步驟前三步的時(shí)候,邊緣效應(yīng)會放大, 嚴(yán)重淹沒信號的端部特征。
根據(jù)三次樣條插值的特點(diǎn),必須在極大值和極小值數(shù)據(jù)集兩端增加極大值 和極小值點(diǎn)。但是,由于原始情感語音信號的兩端點(diǎn)可能不是極值點(diǎn),必須進(jìn) 行合理的預(yù)測。為此,就必須在每次平滑過程中正確的確定添加極值點(diǎn)的位置 和振幅。
確定的方法是根據(jù)原始語音情感信號的極大值和極小值數(shù)據(jù)集的規(guī)律,預(yù) 測附加的極值點(diǎn)。例如一種預(yù)測極值點(diǎn)的方法是根據(jù)原始語音情感信號的極 大值和極小值數(shù)據(jù)集,用其左右四分之一的數(shù)據(jù)的間距均值和兩端點(diǎn)幅值或全局統(tǒng)計(jì)平均幅值,分別定出極大值和極小值數(shù)據(jù)集的左右兩端需增加的極值點(diǎn) 的位置和幅值,并確保所構(gòu)成的新的極大值和極小值數(shù)據(jù)集的最大間距大于等 于原始語音情感信號的長度。
<HHT變換之Hilbert變換>
Hilbert變換是一種線性變換,可以用線性系統(tǒng)描述,當(dāng)輸入信號是平穩(wěn)隨 機(jī)過程時(shí),輸出信號也應(yīng)該是平穩(wěn)隨機(jī)過程;Hilbert變換強(qiáng)調(diào)局部屬性,用它 可以得到瞬時(shí)頻率,這就避免了用Fourier變換時(shí)為擬合原語音情感信號序列而 產(chǎn)生的許多多余的、事實(shí)上并不存在的高、低頻成分。對IMF進(jìn)行Hilbert變換 的如下,設(shè)J(f)為一IMF分量,貝'〗
&)=丄£, (4) ^ "卜r
式中,積分在f"處為奇點(diǎn),運(yùn)算中取其柯西主值,并記為
》o丄尸r^U (5)
;r 上00 f — 7 定義/(f)的解析信號z(,)為
z(0"(0 + i》(04)e, (6)
(7)
,二arctan巡 (8) 朋
式(7)和(8)是極坐標(biāo)系中的表達(dá)形式,他們明確地表達(dá)了瞬時(shí)振幅和瞬時(shí)相 位,很好地反映了數(shù)據(jù)的瞬時(shí)性。在此基礎(chǔ)上定義瞬時(shí)頻率為
,, (9) 欲
由上看出,經(jīng)過Hilbert變換得到的振幅和頻率都是時(shí)間的函數(shù),如果把振 幅顯示在頻率-時(shí)間平面上,就可以得到Hilbert譜。
關(guān)于Hilbert變換的算法實(shí)現(xiàn)在現(xiàn)有技術(shù)中有許多成熟的方法,在此不再贅
、 、
述。上述敘述只是為了說明其原理,以利于對本發(fā)明的思想有更好的理解。
通過Hilbert變換求得模態(tài)信號的瞬時(shí)頻率,即可求得前六個(gè)模態(tài)信號的瞬
時(shí)時(shí)頻分布和能量分布,從而可把其作為特征向量,用于情感識別中SVM的訓(xùn)
練和識別。
<情感特征提取和情感空間的建立>本發(fā)明的情感特征提取主要包括以下四個(gè)特征
(S12 )音強(qiáng)特征提取對情感語音的IMF計(jì)算Teager能量算子(TEO ), 然后取模,提取幅度信息,用來表征響度特征;
其中,Teager能量算子的定義公式為^[s(")]=尸(")—+ _ 1), 其中,^(*)為Teager能量算子,為待計(jì)算的采樣信號序列。
(S13 )語調(diào)特征提取對所述IMF的Hilbert譜計(jì)算Teager能量算子(TEO ), 取模后,根據(jù)設(shè)定的幅度域值確定出濁音段與清音段,之后對無聲段和清音段 進(jìn)行插值,得到基音曲線全局變化趨勢,用來表征語調(diào)特征;
(514) 聲門(音色)特征提取從濁音段估計(jì)聲門波導(dǎo)數(shù)信號,由牛頓-高斯型非線性估計(jì)方法獲得分段函數(shù)的LF ( Liljencrants-Fant)模型表示聲門波 導(dǎo)數(shù)(glottal flow derivative)的粗糙部分,例如,但并不局限乎此,可取7個(gè) 殘出組分的分段函數(shù)的LF,然后從聲門波導(dǎo)數(shù)估計(jì)值中減去次粗糙結(jié)構(gòu),得到 精細(xì)結(jié)構(gòu)分量,對精細(xì)分量做HHT變換,提取沒有被一般的聲門波形狀所表現(xiàn) 的特征;
(515) 節(jié)奏特征提取對情感語音的IMF計(jì)算語速,用以表征語速信息。 其中,Teager能量算子的定義,運(yùn)算以及特性可以參見文獻(xiàn)[2]: J.F.Kaiser,
"On a Simple Algorithm to Calculate the 、Energy' of a Signal", ICASSP-90, pp.381-384, 1990。以及參考文獻(xiàn)[3]: J.F.Kaiser, Some Useful Properties of Teager's Energy Operator", ICASSP-93, Vol.3, pp.149-152, 1993。本領(lǐng)域技術(shù)人員根據(jù) 上述文獻(xiàn)以及現(xiàn)有技術(shù)的其它公開,當(dāng)可實(shí)現(xiàn)上述算法。
設(shè)上述提取到的四種特征分別為音強(qiáng)特征Tp語調(diào)特征T2,音色特征T3 和節(jié)奏特征丁4。依次對語音庫中每種情感的每條語句獲取其特征7f 。其中,i 表示第i個(gè)特征,k表示該語句屬于第k種情感。
由于這樣得到的每種特征的維度較高,因此在步驟S20中對提取到的情感
、 、
特征進(jìn)行降維,可以使用采用主元分析方法,如KPCA (核主元分析)或PCA (主元分析)方法,對所提取的不同情感的部分特征分別進(jìn)行降維,選取累計(jì) 量大于滿意數(shù)值的前M階累計(jì)量作為不同情感的訓(xùn)練特征,其中所述"滿意數(shù) 值"可以根據(jù)實(shí)際應(yīng)用情況而選定。降維后的不同情感語句對應(yīng)的4部分特征, 共同構(gòu)成一個(gè)特征向量,記為不同情感空間的四元特征。S30:四元特征情感轉(zhuǎn)換計(jì)算,由上述說明可知,每一句語音中,自然情感 狀態(tài)的四元特征對應(yīng)情感空間i的一個(gè)向量。設(shè)每四元特征都有M階;將之變 換為基準(zhǔn)(Ie)在各個(gè)情感空間i中的四元特征的投影值。對所有的訓(xùn)練庫樣本 集都做上述計(jì)算,則可得到一系列的自然情感狀態(tài)的四元特征在情感空間i上的 投影,記為歸一化四元特征,將這些投影的集合記為情感特征投影集。
<SVM/HMM混合系統(tǒng)對進(jìn)行分類訓(xùn)練>
首先,針對SVM/HMM混合系統(tǒng)的特點(diǎn),進(jìn)行步驟S40,用SVM/HMM混 合系統(tǒng)對訓(xùn)練特征進(jìn)行預(yù)處理。其中SVM (支持向量機(jī))的核函數(shù)選擇不加限 制,例如可選sigmoid函數(shù),隨后用Gauss函數(shù)模型化后驗(yàn)概率,把SVM的分 類距離映射為HMM中Viterbi算法所需要的后驗(yàn)概率,例如
f■//) =-^ZZ^-_ (1)
/是四元特征向量的SVM距離,y是分類標(biāo)簽,值為1到ll(代表11種情 緒驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、恐懼、生氣、焦急、平靜)。 由式依次可以分別計(jì)算出第i情感的= /)。每個(gè)類的條件概率; (/7y = /)都 被才莫型化為一個(gè)Gauss函數(shù),式中
K/V"'〕-"T^exp—(/-f')2 , z、l,…,H (2)
S50:用不同情感的四元特征和情感特征投影集對SVM/HMM混合系統(tǒng)進(jìn) 行訓(xùn)練,并依次得到四元特征和情感特征投影集對應(yīng)的聚類狀態(tài)模型及各自的 決策樹。關(guān)于SVM/HMM混合系統(tǒng)及其訓(xùn)練方法,在現(xiàn)有技術(shù)中有諸多論述, 上述僅為其一種實(shí)施方式,本發(fā)明的此步驟的核心思想為使用SVM/HMM混合 系統(tǒng)作為分類器,而該SVM/HMM混合系統(tǒng)分類器的任何現(xiàn)有實(shí)現(xiàn)方法均可應(yīng) 用于此,而不會超出本發(fā)明的范圍。
<兒童語音的情感識別〉
分類器訓(xùn)練好之后,即可以投入使用,進(jìn)行步驟S60:用訓(xùn)練好的識別系統(tǒng) 完成對實(shí)時(shí)輸入的兒童語音的情感識別。
參見圖4,對兒童語音進(jìn)行情感識別的方法為對于每一條待識別的情感語 音,同樣進(jìn)行預(yù)處理HHT變換和特征提取,從而獲得歸一化四元特征;之后對 所述歸一化四元特征進(jìn)行預(yù)處理,使之映射到SVM/HMM混合系統(tǒng)所需的HMM后驗(yàn)概率,之后根據(jù)所述歸一化四元特征和后驗(yàn)概率應(yīng)用訓(xùn)練好的SVM/HMM 混合系統(tǒng)進(jìn)行分類。其中,對于待識別語音的數(shù)據(jù)處理方法與上述步驟S10至 S40相同,不再贅述。
此外,本發(fā)明的算法還可以進(jìn)行逆向應(yīng)用,即用于兒童情感語音的合成。 此時(shí)首先根據(jù)上述情感特征投影集進(jìn)行聚類,得出每一種情感的聚類狀態(tài)模型, 對每一條具體兒童語音的情感合成包括以下步驟
對于一待合成的情感語句,首先在文語系統(tǒng)中檢測情感標(biāo)簽i,所述情感標(biāo) 簽i可以是預(yù)先指定,亦可以是通過語義分析方法進(jìn)行判斷獲??;
構(gòu)造該語句的中性語音,并根據(jù)本發(fā)明的方法從中性語音中提取歸一化四 元特征;
通過情感特征投影集對應(yīng)的聚類狀態(tài)模型,把自然情感的歸一化四元特征
投影到情感空間i中去;
用映射后的歸一化四元特征合成情感標(biāo)簽指定的情感語句。 以上對本發(fā)明的描述是說明性的,而非限制性的,本專業(yè)技術(shù)人員理解,
在權(quán)利要求限定的精神與范圍之內(nèi)可對其進(jìn)行許多修改、變化或等效,但是它
們都將落入本發(fā)明的保護(hù)范圍內(nèi)。
1權(quán)利要求
1、一種兒童語音情感識別方法,包括訓(xùn)練語音庫建立、分類器訓(xùn)練和情感識別,其特征在于,所述分類器訓(xùn)練包括以下步驟(S10)提取兒童語音情感特征,該步驟包括前端處理對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處理在內(nèi)的預(yù)處理;之后對經(jīng)過預(yù)處理的情感語句做HHT變換,獲得情感語音的Hilbert譜;根據(jù)HHT變換和所述情感語音的Hilbert譜進(jìn)行以下特征提取音強(qiáng)特征提取、語調(diào)特征提取、音色特征提取和節(jié)奏特征提取,獲得情感特征;(S20)對提取到的情感特征進(jìn)行降維,獲得不同情感空間的四元特征;(S30)四元特征情感轉(zhuǎn)換計(jì)算,對訓(xùn)練語音庫樣本集都做上述計(jì)算,得到一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影,從而構(gòu)成情感特征投影集;(S40)用所述情感特征投影集中的數(shù)據(jù)進(jìn)行SVM/HMM混合系統(tǒng)分類訓(xùn)練。
2、 根據(jù)權(quán)利要求1所述的兒童語音情感識別方法,其特征在于,所述訓(xùn)練語音庫建立是針對變聲期之前的兒童進(jìn)行語音信息采樣,并將兒童語音分為來自活潑性格和羞澀性格兒童兩類,針對不同性格的兒童分別進(jìn)行分類器訓(xùn)練和情感識別。
3、 根據(jù)權(quán)利要求2所述的兒童語音情感識別方法,其特征在于,所述訓(xùn)練語音庫的建立是將兒童語音分為驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、焦急、恐懼、生氣、平靜ll類情感。
4、 根據(jù)權(quán)利要求1所述的兒童語音情感識別方法,其特征在于,所述步驟S10中對經(jīng)過預(yù)處理的情感語句做HHT變換的步驟包括對情感語句進(jìn)行EMD分解,得到一系列能量降序、頻率降序、波長變長的固有模態(tài),并提取其前P個(gè)固有模態(tài);i對所述P個(gè)固有模態(tài)做Hilbert變換,獲得作為時(shí)域函數(shù)的瞬時(shí)幅值和瞬時(shí)頻率,從而得到各個(gè)固有模態(tài)的時(shí)間-頻率-幅值分布,其記為情感語音的Hilbert語。
5、 根據(jù)權(quán)利要求4所述的兒童語音情感識別方法,其特征在于,所述EMD分解取前6個(gè)固有模態(tài),即所述P為6。
6、 根據(jù)權(quán)利要求4所述的兒童語音情感識別方法,其特征在于,所述EMD分解采用三次樣條插值來獲得信號的瞬時(shí)平均,并在極大值和極小值數(shù)據(jù)集兩端增加極大值和極小值點(diǎn),其方法為根據(jù)原始語音情感信號的極大值和極小值數(shù)據(jù)集,用其左右四分之一的數(shù)據(jù)的間距均值和兩端點(diǎn)幅值或全局統(tǒng)計(jì)平均幅值,分別定出極大值和極小值數(shù)據(jù)集的左右兩端需增加的極值點(diǎn)的位置和幅值,其中,所構(gòu)成的新的極大值和極小值數(shù)據(jù)集的最大間距大于等于原始語音情感信號的長度。
7、 根據(jù)權(quán)利要求1所述的兒童語音情感識別方法,其特征在于,所述音強(qiáng)特征提取方法為對情感語音的固有模態(tài)計(jì)算Teager能量算子,然后取模,提取幅度信息,用來表征音強(qiáng)特征;所述語調(diào)特征提取方法為對情感語音的固有模態(tài)的Hilbert譜計(jì)算Teager能量算子,取模后,根據(jù)設(shè)定的幅度域值確定出濁音段與清音段,之后對無聲段和清音段進(jìn)行插值,得到基音曲線全局變化趨勢,用來表征語調(diào)特征;所述音色特征提取方法為從所述濁音段估計(jì)聲門波導(dǎo)數(shù)信號,由牛頓-高斯型非線性估計(jì)方法獲得分段函數(shù)的LF模型表示聲門波導(dǎo)數(shù)的粗糙部分,然后從聲門波導(dǎo)數(shù)估計(jì)值中減去次粗糙結(jié)構(gòu),得到精細(xì)結(jié)構(gòu)分量,對精細(xì)分量做HHT變換,提取沒有被一般的聲門波形狀所表現(xiàn)的特征,作為音色特征;所述節(jié)奏特征提取方法為對情感語音的固有模態(tài)計(jì)算語速,用以表征節(jié)奏特征。
8、 根據(jù)權(quán)利要求1所述的的兒童語音情感識別方法,其特征在于,所述情感識別包括以下步驟對待識別的語音信息重復(fù)步驟(S10)到(S30),以獲得該語音信息的四元情感特征,將所述四元情感特征輸入所述SVM/HMM混合系統(tǒng)分類器,以獲得情感分類。
9、 根據(jù)權(quán)利要求1所述的的兒童語音情感識別方法,其特征在于,所述方法還包括一語音合成步驟,所述語音合成步驟包括、 、根據(jù)所述情感特征投影集進(jìn)行聚類,得出每一種情感的聚類狀態(tài)模型;對于一待合成的情感語句,獲得其情感標(biāo)簽i,所述情感標(biāo)簽i可以是預(yù)先指定,亦可以是通過語義分析方法進(jìn)行判斷獲?。粯?gòu)造所述情感語句的中性語音,并進(jìn)行步驟(S10)到(S30)以獲取其四元特征;通過情感特征投影集對應(yīng)的聚類狀態(tài)模型,把自然情感的四元特征投影到情感空間i中去;用映射后的四元特征合成情感標(biāo)簽指定的情感語句。
全文摘要
一種兒童語音情感識別方法,包括訓(xùn)練語音庫建立、分類器訓(xùn)練和情感識別,所述分類器訓(xùn)練包括提取兒童語音情感特征,該步驟包括對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處理在內(nèi)的預(yù)處理;之后對經(jīng)過預(yù)處理的情感語句做HHT變換,獲得情感語音的Hilbert譜;根據(jù)所述情感語音的Hilbert譜進(jìn)行音強(qiáng)特征提取、語調(diào)特征提取、音色特征提取和節(jié)奏特征提取,獲得情感特征;對提取到的情感特征進(jìn)行降維,獲得不同情感空間的四元特征;對訓(xùn)練語音庫樣本集都做上述計(jì)算,得到一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影,從而構(gòu)成情感特征投影集;用所述情感特征投影集中的數(shù)據(jù)進(jìn)行SVM/HMM混合系統(tǒng)分類訓(xùn)練。
文檔編號G10L15/06GK101685634SQ20081014884
公開日2010年3月31日 申請日期2008年9月27日 優(yōu)先權(quán)日2008年9月27日
發(fā)明者徐錫濤, 李立志, 賈曉光, 郭亮杰, 韓笑蕾 申請人:上海盛淘智能科技有限公司