一種兒童語音情感識別方法

文檔序號：2831014閱讀：381來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種兒童語音情感識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識別，特別是涉及到基于兒童語音的語音情感識別方法。
背景技術(shù)：
目前市場上的針對兒童的智能電子產(chǎn)品可以播放歌曲、語句也可以通過應(yīng)答模式進(jìn)行簡單的對話，但是這種電子產(chǎn)品和學(xué)習(xí)機(jī)所發(fā)出的聲音都十分的機(jī)械、單調(diào)和不自然，使得它們只能作為水冷的工具，人性化功能較差，而不能被孩子們完全接受，現(xiàn)有電子產(chǎn)品的應(yīng)答模式也不能根據(jù)兒童的情緒變化和不同性格的兒童做出相應(yīng)的情感和風(fēng)格的調(diào)整，只能用機(jī)械的聲音播放預(yù)先設(shè)定好的答案，因此人機(jī)交互效果不佳。
而當(dāng)前針對語音情感識別的研究中雖然有在語音識別過程中進(jìn)行情感識別
以及在語音合成中加入情感信息的方法，如申請?zhí)枮?1116524.3,名為"具有情感的語音-語音翻譯系統(tǒng)和方法"的中國專利公開了一種具有情感的語音-語音翻譯系統(tǒng)，包括語音識別裝置，用于對語言A的語音表示進(jìn)行識別，形成語言A的文本表示；機(jī)器翻譯裝置，用于將語言A的文本表示翻譯成語言B的文本表示；文本——語音生成裝置，用于根據(jù)語言B的文本表示生成語言B的語音表示，所述具有情感的語音——語音翻譯系統(tǒng)的特征在于還包括情感表述參數(shù)檢測裝置，用于從語言A的語音表示中提取情感表述參數(shù);以及情感表述參數(shù)映射裝置，用于將情感表述參數(shù)檢測裝置提取的情感表述參數(shù)從語言A映射到語言B，并將映射結(jié)果作用于文本一一語音生成裝置，使其產(chǎn)生可以傳達(dá)情感的語音輸出。但是，該方法只是從語言A中提取表示情感的參數(shù)并將之機(jī)械地映射到目標(biāo)語言B，而并不對語音所攜帶的情感信息的類型做出分析和判斷。并且其使用的情感識別方法是基于文本以及根據(jù)文本進(jìn)行分詞后對以詞匯為單位的語音數(shù)據(jù)進(jìn)行判斷。情感識別的方式很受局限，效果也很有限。
并且，語音識別中的分類技術(shù)中，如被廣泛采用的各種基于神經(jīng)網(wǎng)絡(luò)的分類器，其訓(xùn)練過程需要大量具有已知情感類別的語音樣本，而現(xiàn)有技術(shù)中對于
5訓(xùn)練樣本的獲取方式為令專業(yè)的演義人士按照預(yù)定情感類別進(jìn)行"表演"，或者在公眾場所隨機(jī)采集，再加上采集者對于發(fā)音者情感類別的判斷。這種采樣方式一者使樣本的分布廣泛性受到很大影響，因?yàn)閷I(yè)演員的數(shù)量有限，且故
意做作出來的"表演"與真實(shí)情感流露的語音是有差距的；二者上述語音采樣基本都取自成人，而成年人的感情比較復(fù)雜，往往在一句話中包涵了多種情感，這些情感交織在一起，給分類造成困難，也不利于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
再者，現(xiàn)有技術(shù)中在進(jìn)行語音情感分析時(shí)，一般首先進(jìn)行分幀假設(shè)，即采用長度有限的窗函數(shù)來截取語音信號形成分析幀，從而將語音信號分割成一幀幀加過窗的短時(shí)信號，然后再把每一個(gè)短時(shí)語音幀看作平穩(wěn)隨機(jī)過程，之后按幀從數(shù)據(jù)區(qū)提取數(shù)據(jù)進(jìn)行處理提取特征參數(shù)，從而得出由每一幀參數(shù)組成的語音特征參數(shù)的時(shí)間序列。根據(jù)所述時(shí)間序列進(jìn)行分類器訓(xùn)練或用于識別。基于分幀假設(shè)的方法一方面增加了算法的復(fù)雜性，使識別速度緩慢，另一方面由于每個(gè)個(gè)體的語速和發(fā)音特性之間的差別，基于時(shí)間窗分幀往往會破壞語音與語義的整體配合關(guān)系，從而不利于語音識別，特別是不利于與語義相關(guān)度較大的情感識別。
同時(shí)，現(xiàn)有技術(shù)中也并沒有專門針對兒童特有的聲音特點(diǎn)和感情特征進(jìn)行研究，并專門進(jìn)行兒童語音情感分析和情感語音合成的方法。

發(fā)明內(nèi)容
因此，本發(fā)明要解決的問題是克服現(xiàn)有兒童智能電子產(chǎn)品的上述缺陷，提供一種新的基于兒童語音的情感識別和合成技術(shù)，使得面向兒童的智能電子產(chǎn)品可以具有高度的人性化、智能化，更容易被兒童所接受。
為解決上述問題，本發(fā)明提供了一種兒童語音情感識別方法，其包括訓(xùn)練語音庫建立、分類器訓(xùn)練和情感識別，其特征在于，所述分類器訓(xùn)練包括以下步驟
(S10)提取兒童語音情感特;f正，該步驟包括 '
前端處理對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處理在內(nèi)的預(yù)處理；之后對經(jīng)過預(yù)處理的情感語句做HHT變換，獲得情感語音的Hilbert諳；
根據(jù)所述情感語音的Hilbert譜進(jìn)行以下特征提取音強(qiáng)特征提取、語調(diào)特征提取、音色特征提取和節(jié)奏特征提取，獲得情感特征；(S20)對提取到的情感特征進(jìn)行降維，獲得不同情感空間的四元特征； (S30)四元特征情感轉(zhuǎn)換計(jì)算，對訓(xùn)練語音庫樣本集都做上述計(jì)算，得到
一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影，從而構(gòu)成情感特征投
影集；
(S40)用所述情感特征投影集中的數(shù)據(jù)進(jìn)行SVM/HMM混合系統(tǒng)分類訓(xùn)練。
本發(fā)明的有益效果在于，對兒童語音中的情感進(jìn)行了理想分類，對活潑、羞澀的兒童，分別制定了一套兒童情感語音識別與合成系統(tǒng)。構(gòu)造了基于兒童語音情感識別的SVM/HMM混合系統(tǒng)，既可以對靜態(tài)數(shù)據(jù)進(jìn)行分類，又可以對動態(tài)數(shù)據(jù)進(jìn)行建模。可以對兒童語音進(jìn)行實(shí)時(shí)的自動情感識別。不對語音進(jìn)行短時(shí)平穩(wěn)假設(shè)，從長時(shí).間上把握情感特性，更符合情感在語音中的分布特性。從聲音三要素響度、音色、音調(diào)著手，加之語速特征，提取了有效的情感特征。統(tǒng)計(jì)了自然情感特征映射到其他不同情感空間中的聚類狀態(tài)模型，進(jìn)行建立情感一對多映射模型。提高了合成語音的自然度，讓機(jī)器發(fā)出的聲音具有情感，提高人機(jī)交互效果。
該基于兒童語音的情感識別和合成技術(shù)，可以自動通過不同性格的兒童聲音中所帶的情感進(jìn)行識別，并可以根據(jù)文語轉(zhuǎn)換系統(tǒng)文本上所標(biāo)注的情感標(biāo)簽，自動的對不帶感情的語音從音強(qiáng)、音色、語調(diào)、語速上進(jìn)行相應(yīng)的情感修正，最終合成帶有感情色彩的情感語句。

圖1是本發(fā)明語音情感識別方法的流程示意圖2是本發(fā)明語音情感識別方法的情感特征提取示意圖3是本發(fā)明語音情感識別方法的HHT變換方法示意圖4是本發(fā)明語音情感識別方法用于訓(xùn)練或識別的切換示意圖。
x 具體實(shí)施例方式
本發(fā)明的語音情感識別方法包括建立語音數(shù)據(jù)庫，進(jìn)行情感分類器訓(xùn)練和語音情感識別三個(gè)部分，如圖1到圖4所示。
其中，語音庫的建立主要是針對兒童的語音進(jìn)行，包括語音采集和分類。一般來說，嬰兒從1歲左右開始學(xué)會說話，之后隨著年齡的增長人的聲音會發(fā)生變化，并出現(xiàn)一個(gè)由童音向成人聲音過渡的階段，即"變聲期"，每個(gè)個(gè)體
"變聲期，，出現(xiàn)的時(shí)間不同，大多在12至17歲之間，持續(xù)時(shí)間為六個(gè)月至一年。聲帶在"變聲期"會有很大變化，因此本發(fā)明所述的兒童是指進(jìn)入變聲期以前的男孩或女孩。同時(shí)，為了保證釆樣的可靠性，太小的孩子會有發(fā)音不清的問題，因此，較佳地是針對3-11歲的兒童進(jìn)行語音采集，采集的內(nèi)容可曰常會話(包括普通話和地方方言)。采集方式可以是讓兒童在特定語境下按情感類別進(jìn)行主動表達(dá)，但更好的方式是在兒童自然生活的過程中進(jìn)行采集。
之后，要對采集的語音信息進(jìn)行分類，建立情感語音數(shù)據(jù)庫。建立語音庫之初，對采集后的數(shù)據(jù)進(jìn)行分類要由人工來完成，這在現(xiàn)有技術(shù)中任何基于學(xué) 習(xí)的分類和識別方法中都需如此。由于在兒童期，男女聲音差別不大，都是童音，因此不需要對性別進(jìn)行分類，但是根據(jù)發(fā)明人的多年研究，不同性格特征的兒童在情感表達(dá)中語音起伏的差別卻很大，因此首先將兒童分為活潑性格和羞澀性格兩類，并以此為基礎(chǔ)進(jìn)行情感語音數(shù)據(jù)庫的第一級分類，將其分為活潑兒童情感語音數(shù)據(jù)子庫和羞澀兒童情感語音數(shù)據(jù)子庫。
之后，分別對活潑兒童情感語音數(shù)據(jù)子庫和羞澀兒童情感語音數(shù)據(jù)子庫中的語音數(shù)據(jù)進(jìn)行情感分類。例如，可將兒童情感分為驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、焦急、恐懼、生氣、平靜(自然)共11類。要說明的是，此分類僅作為本發(fā)明的一較佳實(shí)施例，但并不以此為限。
在從語音數(shù)據(jù)庫中提取語音信息時(shí)，首先進(jìn)行性格類型判斷，在從活潑兒童情感語音數(shù)據(jù)子庫和羞澀兒童情感語音數(shù)據(jù)子庫中獲取語音數(shù)據(jù)后，分別給語音數(shù)據(jù)添加不同的性格標(biāo)簽，如圖l所示，分別添加標(biāo)簽K1、 K2，之后分別針對具有不同標(biāo)簽的不同性格的兒童分別進(jìn)行分類器訓(xùn)練。而在語音情感識別的過程中，則可以首先對一條待識別語音進(jìn)行性格判斷，然后根據(jù)判斷出的兒童性格類型用訓(xùn)練好的系統(tǒng)進(jìn)行相應(yīng)的識別。
情感分類器的訓(xùn)練是根據(jù)語音數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行'，并可在之后的識別過程中進(jìn)行不斷修正，所述語音數(shù)據(jù)庫亦可動態(tài)調(diào)整。情感分類器的訓(xùn)練包括以下步驟
S10:提取兒童語音情感特征因?yàn)檎Z音情感在一句話中是連續(xù)變化的，因進(jìn)行分幀，而是將整句語音的采樣值作為一個(gè)時(shí)間序列進(jìn)行分析；但對于語音較長的語句，可以按照韻律規(guī)律劃分成多個(gè)語音段。情感可以從聲音的大小(響度)、基音曲線(語調(diào))、聲門特征(音色)和語速表現(xiàn)出來，因此從這四方面提取情感特征，具體的提取過程包括
(S11)前端處理首先對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處理在內(nèi)的預(yù)處理；之后對經(jīng)過預(yù)處理的情感語句做HHT (Hilbert-Huang變換) 變換，在Huang變換部分，把語音分解成一系列能量降序、頻率降序、波長變長的固有模態(tài)(IMF),只選取包含情感信息的前P個(gè)固有模態(tài)，隨后對這P 個(gè)IMF做Hilbert變換，并由此導(dǎo)出作為時(shí)域函數(shù)的瞬時(shí)幅值(能量)和瞬時(shí)頻率，從而得到各個(gè)IMF的時(shí)間-頻率-幅值分布，即情感語音的Hilbert譜；
(S12 )音強(qiáng)特征提取對情感語音的IMF計(jì)算Teager能量算子(TEO ), 然后取模，提取幅度信息，用來表征響度特征；
(S13 )語調(diào)特征提取對Hilbert譜計(jì)算Teager能量算子(TEO ),取模后，根據(jù)設(shè)定的幅度域值確定出濁音段與清音段，隨后對無聲段和清音段進(jìn)行插值，得到基音曲線全局變化趨勢，用來表征語調(diào)特征；
(514) 聲門(音色)特征提取從濁音段估計(jì)聲門波導(dǎo)數(shù)信號，由牛頓-高斯型非線性估計(jì)方法獲得7個(gè)殘出組成的分段函數(shù)的LF模型表示聲門波導(dǎo)數(shù) 的粗糙部分，然后從聲門波導(dǎo)數(shù)估計(jì)值中減去次粗糙結(jié)構(gòu)，得到精細(xì)結(jié)構(gòu)分量，對精細(xì)分量做HHT變換，提取沒有被一般的聲門波形狀所表現(xiàn)的特征；
(515) 節(jié)奏特征提取對情感語音的IMF計(jì)算語速，用以表征語速信息； S20:對提取到的情感特征進(jìn)行降維，例如采用KPCA(核主元分析)方法，
對所提取的不同情感的4部分特征分別進(jìn)行降維，選取累計(jì)量大于滿意數(shù)值的前M階累計(jì)量作為不同情感的訓(xùn)練特征，這不同情感對應(yīng)的4部分訓(xùn)練特征，命名為不同情感空間的四元特征； S30:四元特征情感轉(zhuǎn)換計(jì)算，
(1) 同一句話中，自然情感狀態(tài)的四元特征為基準(zhǔn)(Ie)在各個(gè)情感空間 i中的四元特征的投影值，每四元特征都有M階；
(2) 對所有的訓(xùn)練庫樣本集都做上述計(jì)算，得到一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影，作為情感特征投影集；
S40:用SVM/HMM混合系統(tǒng)對訓(xùn)練特征進(jìn)行訓(xùn)練。SVM是很好的靜態(tài)分類器，HMM則可以對動態(tài)數(shù)據(jù)進(jìn)行建模，其中SVM的核函數(shù)選擇不加限制，因?yàn)樗麄兊男Ч篌w相同，只是識別速度略有不同，隨后用Gauss函數(shù)模型化后驗(yàn)概率，把SVM的分類距離映射為HMM中Viterbi算法所需要的后驗(yàn)概率，例如
!7/) =-"(//"^- (1)
K/"/"l)A+K/V"2)A+…+戶(/7"ll);7u
/是SVM距離，y是分類標(biāo)簽，值為l到ll(代表ll種情緒驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、恐懼、生氣、焦急、平靜)。由式依次可以分別計(jì)算出第1情感的戶(//少=0。每個(gè)類的條件概率P(/7少W)都被模型化為一個(gè) Gauss .函數(shù)，式中
p(/7"0-^^exp—(, ') ， / = 1廣、11 (2)
S50:用不同情感的四元特征和情感特征投影集對SVM/HMM混合系統(tǒng)進(jìn) 行訓(xùn)練，并依次得到四元特征和情感特征投影集對應(yīng)的聚類狀態(tài)模型及各自的決策樹；
S60:用訓(xùn)練好的識別系統(tǒng)完成對實(shí)時(shí)輸入的兒童語音的情感識別。
下面對各個(gè)步驟進(jìn)行詳細(xì)說明，參見圖2、圖3。 <HHT變換之Huang變換>
其中，步驟S11的前端處理中，預(yù)處理的方法中可包括利用FIR低通濾波器進(jìn)行濾波，以濾除信號中的高次諧波和隨機(jī)干擾成分，被濾除的成分是奇異模態(tài)，從而避免了隨后EMD篩選中因奇異模態(tài)影響造成的模態(tài)混疊，以便在被篩選出的模態(tài)信號中得到完整的有用信號。預(yù)處理的實(shí)現(xiàn)方法亦可使用現(xiàn)有技術(shù)語音識別方法中的預(yù)處理通用方法，例如，普通PC機(jī)的聲卡即可用于實(shí)現(xiàn)預(yù) 處理。設(shè)對每條(句)語音信號，預(yù)處理后得到原始語音信號時(shí)間序列義(O， HHT變換首先對語音情感信號進(jìn)行EMD(經(jīng)驗(yàn)?zāi)B(tài)分析，Empirical Mode Decomposition)分解，把非平穩(wěn)的語音情感信號X(O分解成為六個(gè)平穩(wěn)的IMF(固有模態(tài)函數(shù)，Intrinsic Mode Functions )窄帶信號分量。關(guān)于HHT變換的詳細(xì)內(nèi) 容可參見文獻(xiàn)[l]: Norden E. Huang, Zheng Shen， Steven R. Long, The empirical mode decomposition & the Hilbert spectrum for nonlinear and non-stationary time series analysis, Proceed of the Royal Society of London Series A: Mathematical
10and Physical Sciences, 454:903-995, 1998。 EMD分解基于如下假設(shè)
(1) 語音情感信號至少有兩個(gè)極值，一個(gè)極大值和一個(gè)極小值；
(2) 語音情感信號特征時(shí)間尺度是由極值間的時(shí)間間隔確定的；
(3) 如果語音情感信號中缺乏極值點(diǎn)，但存在缺陷點(diǎn)，可通過微分、分解、再積分的方法獲得IMF。
根據(jù)IMF提取的標(biāo)準(zhǔn)，本發(fā)明的一個(gè)實(shí)施例中，分別根據(jù)語音情感信號的極大值和極小值使用三次樣條插值來實(shí)現(xiàn)EMD分解。具體步驟如下
(1) 確定語音情感信號的局部極大值X皿和局部極小值y^。
(2) 分別根據(jù)Xmax和Imin做三次樣條插值確定原始語音情感信號的上包絡(luò)和下包絡(luò)，這樣在上下包絡(luò)之間是原始語音情感信號X(f)。
(3) 根據(jù)上下包絡(luò)，求出原始語音情感信號X(O的局部均值mn(O,原始語音情感信號與局部均值的差值記為& =-m (f)。
(4) 以&代替義(,)，重復(fù)以上步驟(1)到(3),直到/^一與/^之間的方差小于一設(shè)定值即認(rèn)為/^是一IMF分量，令&=\4, "0 = ^(0-9, ^(0 = 5(0。
(5) 重復(fù)以上步驟(1)到(4),直到^或、比預(yù)定值小；或者剩余"/)變成單調(diào)函數(shù)時(shí)，原始信號的EMD分解結(jié)束。
最后得到
邵)=1>'")""(。 (3)
這樣，獲得了 "個(gè)IMF模式分量c,0)和剩余信號(0。分解得到的IMF模式分量代表了原始情感信號中包含的不同時(shí)間尺度的特征信號，并且都是窄帶信號，使得瞬時(shí)頻率具有了真實(shí)的物理意義，因此可以利用EMD分解作為語音情感識別用新的情感特征。
語音情感信號分解出來的第一個(gè)IMF是振幅最大、，頻率最高、波長最短的波動，依次下去的各內(nèi)在模函數(shù)，振幅逐漸變小、頻率逐漸變低、波長越來越長，這種變化趨勢一直延續(xù)到頻率已經(jīng)很低最后一個(gè)IMF。而一般來說，最后一個(gè)IMF要比倒數(shù)第二個(gè)IMF的波動振幅大，這種異?，F(xiàn)象是EMD中經(jīng)常會出現(xiàn)的情況，但它只可能出現(xiàn)在較低頻的部分，不會影響整體的變化趨勢。
11語音情感信號分解出來的IMF的這種分布狀況，是由IMF的本性決定的，它總是把最主要的信號先提取出來，也就是說，由EMD方法分解出來的頭幾個(gè) IMF,集中了原序列中最顯著的信息。實(shí)際上，由實(shí)驗(yàn)統(tǒng)計(jì)數(shù)據(jù)上分析來看，從第六個(gè)IMF開始，波動的振幅基本上都小于4mm，依EMD方法的本性而言，只要有多余1個(gè)波的波動存在，EMD就能夠把它提取出來。對于具體的語音情感信號，這些振幅很小、頻率極低、波長很大的波動可能是事實(shí)存在的物理現(xiàn) 象，也可能是由于數(shù)據(jù)采樣率不夠高造成的噪聲信號?；谝陨蠋c(diǎn)考慮，本發(fā)明優(yōu)選只提取前六個(gè)IMF用作語音情感分析，有效的避免了這種異常。
應(yīng)用于語音情感識別中的Hilbert-Huang變換方法分析質(zhì)量很大程度上取決于EMD分解的質(zhì)量。而EMD分解由于釆用三次樣條插值來獲得信號的瞬時(shí)平均，使得這種方法存在特殊的邊緣效應(yīng)，嚴(yán)重的會影響整個(gè)信號。因此，優(yōu)選地，要在HHT分解過程中，使用一定手段抑制EMD分解由于采用三次樣條插值所產(chǎn)生的邊緣效應(yīng)。
三次樣條曲線具有光滑的一次微分和連續(xù)的二次微分特點(diǎn)。由于所分析的語音情感信號的有限長度、情感信號的兩端點(diǎn)不能確定是極值，那么在進(jìn)行三次樣條插值的時(shí)候，必然使得信號的上下包絡(luò)在信號的兩端附近嚴(yán)重扭曲。在情感信號的高頻分量部分，由于時(shí)間尺度小，極值間的距離小，端部的邊緣效應(yīng)僅局限在信號兩端很小的部分。但對于低頻分量，由于其時(shí)間尺度大，極值間的距離大，端部的邊緣效應(yīng)就傳播到情感信號的內(nèi)部，特別是原始語音情感信號比較短的時(shí)候，會嚴(yán)重影響EMD分解的質(zhì)量，使得分解出來的IMF分量沒有實(shí)際的物理意義。對于單分量信號端部效應(yīng)的影響較小、對于多分量復(fù)雜信號，特別是需要作多次前述EMD分解步驟前三步的時(shí)候，邊緣效應(yīng)會放大，嚴(yán)重淹沒信號的端部特征。
根據(jù)三次樣條插值的特點(diǎn)，必須在極大值和極小值數(shù)據(jù)集兩端增加極大值和極小值點(diǎn)。但是，由于原始情感語音信號的兩端點(diǎn)可能不是極值點(diǎn)，必須進(jìn) 行合理的預(yù)測。為此，就必須在每次平滑過程中正確的確定添加極值點(diǎn)的位置和振幅。
確定的方法是根據(jù)原始語音情感信號的極大值和極小值數(shù)據(jù)集的規(guī)律，預(yù) 測附加的極值點(diǎn)。例如一種預(yù)測極值點(diǎn)的方法是根據(jù)原始語音情感信號的極大值和極小值數(shù)據(jù)集，用其左右四分之一的數(shù)據(jù)的間距均值和兩端點(diǎn)幅值或全局統(tǒng)計(jì)平均幅值，分別定出極大值和極小值數(shù)據(jù)集的左右兩端需增加的極值點(diǎn) 的位置和幅值，并確保所構(gòu)成的新的極大值和極小值數(shù)據(jù)集的最大間距大于等于原始語音情感信號的長度。
<HHT變換之Hilbert變換>
Hilbert變換是一種線性變換，可以用線性系統(tǒng)描述，當(dāng)輸入信號是平穩(wěn)隨機(jī)過程時(shí)，輸出信號也應(yīng)該是平穩(wěn)隨機(jī)過程；Hilbert變換強(qiáng)調(diào)局部屬性，用它可以得到瞬時(shí)頻率，這就避免了用Fourier變換時(shí)為擬合原語音情感信號序列而產(chǎn)生的許多多余的、事實(shí)上并不存在的高、低頻成分。對IMF進(jìn)行Hilbert變換的如下，設(shè)J(f)為一IMF分量，貝'〗
&)=丄￡， (4) ^ "卜r
式中，積分在f"處為奇點(diǎn)，運(yùn)算中取其柯西主值，并記為
》o丄尸r^U (5)
;r 上00 f — 7 定義/(f)的解析信號z(,)為
z(0"(0 + i》(04)e, (6)
(7)
,二arctan巡 (8) 朋
式(7)和(8)是極坐標(biāo)系中的表達(dá)形式，他們明確地表達(dá)了瞬時(shí)振幅和瞬時(shí)相位，很好地反映了數(shù)據(jù)的瞬時(shí)性。在此基礎(chǔ)上定義瞬時(shí)頻率為
,， (9) 欲
由上看出，經(jīng)過Hilbert變換得到的振幅和頻率都是時(shí)間的函數(shù)，如果把振幅顯示在頻率-時(shí)間平面上，就可以得到Hilbert譜。
關(guān)于Hilbert變換的算法實(shí)現(xiàn)在現(xiàn)有技術(shù)中有許多成熟的方法，在此不再贅
、、
述。上述敘述只是為了說明其原理，以利于對本發(fā)明的思想有更好的理解。
通過Hilbert變換求得模態(tài)信號的瞬時(shí)頻率，即可求得前六個(gè)模態(tài)信號的瞬
時(shí)時(shí)頻分布和能量分布，從而可把其作為特征向量，用于情感識別中SVM的訓(xùn)
練和識別。
<情感特征提取和情感空間的建立>本發(fā)明的情感特征提取主要包括以下四個(gè)特征
(S12 )音強(qiáng)特征提取對情感語音的IMF計(jì)算Teager能量算子(TEO ), 然后取模，提取幅度信息，用來表征響度特征；
其中，Teager能量算子的定義公式為^[s(")]=尸(")—+ _ 1), 其中，^(*)為Teager能量算子，為待計(jì)算的采樣信號序列。
(S13 )語調(diào)特征提取對所述IMF的Hilbert譜計(jì)算Teager能量算子(TEO ), 取模后，根據(jù)設(shè)定的幅度域值確定出濁音段與清音段，之后對無聲段和清音段進(jìn)行插值，得到基音曲線全局變化趨勢，用來表征語調(diào)特征；
(514) 聲門(音色)特征提取從濁音段估計(jì)聲門波導(dǎo)數(shù)信號，由牛頓-高斯型非線性估計(jì)方法獲得分段函數(shù)的LF ( Liljencrants-Fant)模型表示聲門波導(dǎo)數(shù)(glottal flow derivative)的粗糙部分，例如，但并不局限乎此，可取7個(gè) 殘出組分的分段函數(shù)的LF,然后從聲門波導(dǎo)數(shù)估計(jì)值中減去次粗糙結(jié)構(gòu)，得到精細(xì)結(jié)構(gòu)分量，對精細(xì)分量做HHT變換，提取沒有被一般的聲門波形狀所表現(xiàn) 的特征；
(515) 節(jié)奏特征提取對情感語音的IMF計(jì)算語速，用以表征語速信息。其中，Teager能量算子的定義，運(yùn)算以及特性可以參見文獻(xiàn)[2]: J.F.Kaiser,
"On a Simple Algorithm to Calculate the 、Energy' of a Signal", ICASSP-90, pp.381-384， 1990。以及參考文獻(xiàn)[3]: J.F.Kaiser, Some Useful Properties of Teager's Energy Operator", ICASSP-93, Vol.3， pp.149-152, 1993。本領(lǐng)域技術(shù)人員根據(jù) 上述文獻(xiàn)以及現(xiàn)有技術(shù)的其它公開，當(dāng)可實(shí)現(xiàn)上述算法。
設(shè)上述提取到的四種特征分別為音強(qiáng)特征Tp語調(diào)特征T2，音色特征T3 和節(jié)奏特征丁4。依次對語音庫中每種情感的每條語句獲取其特征7f 。其中，i 表示第i個(gè)特征，k表示該語句屬于第k種情感。
由于這樣得到的每種特征的維度較高，因此在步驟S20中對提取到的情感
、、
特征進(jìn)行降維，可以使用采用主元分析方法，如KPCA (核主元分析)或PCA (主元分析)方法，對所提取的不同情感的部分特征分別進(jìn)行降維，選取累計(jì) 量大于滿意數(shù)值的前M階累計(jì)量作為不同情感的訓(xùn)練特征，其中所述"滿意數(shù) 值"可以根據(jù)實(shí)際應(yīng)用情況而選定。降維后的不同情感語句對應(yīng)的4部分特征，共同構(gòu)成一個(gè)特征向量，記為不同情感空間的四元特征。S30:四元特征情感轉(zhuǎn)換計(jì)算，由上述說明可知，每一句語音中，自然情感狀態(tài)的四元特征對應(yīng)情感空間i的一個(gè)向量。設(shè)每四元特征都有M階；將之變換為基準(zhǔn)(Ie)在各個(gè)情感空間i中的四元特征的投影值。對所有的訓(xùn)練庫樣本集都做上述計(jì)算，則可得到一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影，記為歸一化四元特征，將這些投影的集合記為情感特征投影集。
<SVM/HMM混合系統(tǒng)對進(jìn)行分類訓(xùn)練>
首先，針對SVM/HMM混合系統(tǒng)的特點(diǎn)，進(jìn)行步驟S40,用SVM/HMM混合系統(tǒng)對訓(xùn)練特征進(jìn)行預(yù)處理。其中SVM (支持向量機(jī))的核函數(shù)選擇不加限制，例如可選sigmoid函數(shù)，隨后用Gauss函數(shù)模型化后驗(yàn)概率，把SVM的分類距離映射為HMM中Viterbi算法所需要的后驗(yàn)概率，例如
f■//) =-^ZZ^-_ (1)
/是四元特征向量的SVM距離，y是分類標(biāo)簽，值為1到ll(代表11種情緒驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、恐懼、生氣、焦急、平靜)。由式依次可以分別計(jì)算出第i情感的= /)。每個(gè)類的條件概率； (/7y = /)都被才莫型化為一個(gè)Gauss函數(shù)，式中
K/V"'〕-"T^exp—(/-f')2 , z、l,…,H (2)
S50:用不同情感的四元特征和情感特征投影集對SVM/HMM混合系統(tǒng)進(jìn) 行訓(xùn)練，并依次得到四元特征和情感特征投影集對應(yīng)的聚類狀態(tài)模型及各自的決策樹。關(guān)于SVM/HMM混合系統(tǒng)及其訓(xùn)練方法，在現(xiàn)有技術(shù)中有諸多論述，上述僅為其一種實(shí)施方式，本發(fā)明的此步驟的核心思想為使用SVM/HMM混合系統(tǒng)作為分類器，而該SVM/HMM混合系統(tǒng)分類器的任何現(xiàn)有實(shí)現(xiàn)方法均可應(yīng) 用于此，而不會超出本發(fā)明的范圍。
<兒童語音的情感識別〉
分類器訓(xùn)練好之后，即可以投入使用，進(jìn)行步驟S60:用訓(xùn)練好的識別系統(tǒng) 完成對實(shí)時(shí)輸入的兒童語音的情感識別。
參見圖4,對兒童語音進(jìn)行情感識別的方法為對于每一條待識別的情感語音，同樣進(jìn)行預(yù)處理HHT變換和特征提取，從而獲得歸一化四元特征；之后對所述歸一化四元特征進(jìn)行預(yù)處理，使之映射到SVM/HMM混合系統(tǒng)所需的HMM后驗(yàn)概率，之后根據(jù)所述歸一化四元特征和后驗(yàn)概率應(yīng)用訓(xùn)練好的SVM/HMM 混合系統(tǒng)進(jìn)行分類。其中，對于待識別語音的數(shù)據(jù)處理方法與上述步驟S10至 S40相同，不再贅述。
此外，本發(fā)明的算法還可以進(jìn)行逆向應(yīng)用，即用于兒童情感語音的合成。此時(shí)首先根據(jù)上述情感特征投影集進(jìn)行聚類，得出每一種情感的聚類狀態(tài)模型，對每一條具體兒童語音的情感合成包括以下步驟
對于一待合成的情感語句，首先在文語系統(tǒng)中檢測情感標(biāo)簽i，所述情感標(biāo) 簽i可以是預(yù)先指定，亦可以是通過語義分析方法進(jìn)行判斷獲??；
構(gòu)造該語句的中性語音，并根據(jù)本發(fā)明的方法從中性語音中提取歸一化四元特征；
通過情感特征投影集對應(yīng)的聚類狀態(tài)模型，把自然情感的歸一化四元特征
投影到情感空間i中去；
用映射后的歸一化四元特征合成情感標(biāo)簽指定的情感語句。以上對本發(fā)明的描述是說明性的，而非限制性的，本專業(yè)技術(shù)人員理解，
在權(quán)利要求限定的精神與范圍之內(nèi)可對其進(jìn)行許多修改、變化或等效，但是它
們都將落入本發(fā)明的保護(hù)范圍內(nèi)。
1權(quán)利要求
1、一種兒童語音情感識別方法，包括訓(xùn)練語音庫建立、分類器訓(xùn)練和情感識別，其特征在于，所述分類器訓(xùn)練包括以下步驟(S10)提取兒童語音情感特征，該步驟包括前端處理對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處理在內(nèi)的預(yù)處理；之后對經(jīng)過預(yù)處理的情感語句做HHT變換，獲得情感語音的Hilbert譜；根據(jù)HHT變換和所述情感語音的Hilbert譜進(jìn)行以下特征提取音強(qiáng)特征提取、語調(diào)特征提取、音色特征提取和節(jié)奏特征提取，獲得情感特征；(S20)對提取到的情感特征進(jìn)行降維，獲得不同情感空間的四元特征；(S30)四元特征情感轉(zhuǎn)換計(jì)算，對訓(xùn)練語音庫樣本集都做上述計(jì)算，得到一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影，從而構(gòu)成情感特征投影集；(S40)用所述情感特征投影集中的數(shù)據(jù)進(jìn)行SVM/HMM混合系統(tǒng)分類訓(xùn)練。
2、根據(jù)權(quán)利要求1所述的兒童語音情感識別方法，其特征在于，所述訓(xùn)練語音庫建立是針對變聲期之前的兒童進(jìn)行語音信息采樣，并將兒童語音分為來自活潑性格和羞澀性格兒童兩類，針對不同性格的兒童分別進(jìn)行分類器訓(xùn)練和情感識別。
3、根據(jù)權(quán)利要求2所述的兒童語音情感識別方法，其特征在于，所述訓(xùn)練語音庫的建立是將兒童語音分為驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、焦急、恐懼、生氣、平靜ll類情感。
4、根據(jù)權(quán)利要求1所述的兒童語音情感識別方法，其特征在于，所述步驟S10中對經(jīng)過預(yù)處理的情感語句做HHT變換的步驟包括對情感語句進(jìn)行EMD分解，得到一系列能量降序、頻率降序、波長變長的固有模態(tài)，并提取其前P個(gè)固有模態(tài);i對所述P個(gè)固有模態(tài)做Hilbert變換，獲得作為時(shí)域函數(shù)的瞬時(shí)幅值和瞬時(shí)頻率，從而得到各個(gè)固有模態(tài)的時(shí)間-頻率-幅值分布，其記為情感語音的Hilbert語。
5、根據(jù)權(quán)利要求4所述的兒童語音情感識別方法，其特征在于，所述EMD分解取前6個(gè)固有模態(tài)，即所述P為6。
6、根據(jù)權(quán)利要求4所述的兒童語音情感識別方法，其特征在于，所述EMD分解采用三次樣條插值來獲得信號的瞬時(shí)平均，并在極大值和極小值數(shù)據(jù)集兩端增加極大值和極小值點(diǎn)，其方法為根據(jù)原始語音情感信號的極大值和極小值數(shù)據(jù)集，用其左右四分之一的數(shù)據(jù)的間距均值和兩端點(diǎn)幅值或全局統(tǒng)計(jì)平均幅值，分別定出極大值和極小值數(shù)據(jù)集的左右兩端需增加的極值點(diǎn)的位置和幅值，其中，所構(gòu)成的新的極大值和極小值數(shù)據(jù)集的最大間距大于等于原始語音情感信號的長度。
7、根據(jù)權(quán)利要求1所述的兒童語音情感識別方法，其特征在于，所述音強(qiáng)特征提取方法為對情感語音的固有模態(tài)計(jì)算Teager能量算子，然后取模，提取幅度信息，用來表征音強(qiáng)特征；所述語調(diào)特征提取方法為對情感語音的固有模態(tài)的Hilbert譜計(jì)算Teager能量算子，取模后，根據(jù)設(shè)定的幅度域值確定出濁音段與清音段，之后對無聲段和清音段進(jìn)行插值，得到基音曲線全局變化趨勢，用來表征語調(diào)特征；所述音色特征提取方法為從所述濁音段估計(jì)聲門波導(dǎo)數(shù)信號，由牛頓-高斯型非線性估計(jì)方法獲得分段函數(shù)的LF模型表示聲門波導(dǎo)數(shù)的粗糙部分，然后從聲門波導(dǎo)數(shù)估計(jì)值中減去次粗糙結(jié)構(gòu)，得到精細(xì)結(jié)構(gòu)分量，對精細(xì)分量做HHT變換，提取沒有被一般的聲門波形狀所表現(xiàn)的特征，作為音色特征；所述節(jié)奏特征提取方法為對情感語音的固有模態(tài)計(jì)算語速，用以表征節(jié)奏特征。
8、根據(jù)權(quán)利要求1所述的的兒童語音情感識別方法，其特征在于，所述情感識別包括以下步驟對待識別的語音信息重復(fù)步驟(S10)到(S30),以獲得該語音信息的四元情感特征，將所述四元情感特征輸入所述SVM/HMM混合系統(tǒng)分類器，以獲得情感分類。
9、根據(jù)權(quán)利要求1所述的的兒童語音情感識別方法，其特征在于，所述方法還包括一語音合成步驟，所述語音合成步驟包括、、根據(jù)所述情感特征投影集進(jìn)行聚類，得出每一種情感的聚類狀態(tài)模型；對于一待合成的情感語句，獲得其情感標(biāo)簽i,所述情感標(biāo)簽i可以是預(yù)先指定，亦可以是通過語義分析方法進(jìn)行判斷獲?。粯?gòu)造所述情感語句的中性語音，并進(jìn)行步驟(S10)到(S30)以獲取其四元特征；通過情感特征投影集對應(yīng)的聚類狀態(tài)模型，把自然情感的四元特征投影到情感空間i中去；用映射后的四元特征合成情感標(biāo)簽指定的情感語句。
全文摘要
一種兒童語音情感識別方法，包括訓(xùn)練語音庫建立、分類器訓(xùn)練和情感識別，所述分類器訓(xùn)練包括提取兒童語音情感特征，該步驟包括對模擬語音信號進(jìn)行包括采樣和去噪等基本信號處理在內(nèi)的預(yù)處理；之后對經(jīng)過預(yù)處理的情感語句做HHT變換，獲得情感語音的Hilbert譜；根據(jù)所述情感語音的Hilbert譜進(jìn)行音強(qiáng)特征提取、語調(diào)特征提取、音色特征提取和節(jié)奏特征提取，獲得情感特征；對提取到的情感特征進(jìn)行降維，獲得不同情感空間的四元特征；對訓(xùn)練語音庫樣本集都做上述計(jì)算，得到一系列的自然情感狀態(tài)的四元特征在情感空間i上的投影，從而構(gòu)成情感特征投影集；用所述情感特征投影集中的數(shù)據(jù)進(jìn)行SVM/HMM混合系統(tǒng)分類訓(xùn)練。
文檔編號G10L15/06GK101685634SQ20081014884
公開日2010年3月31日申請日期2008年9月27日優(yōu)先權(quán)日2008年9月27日
發(fā)明者徐錫濤, 李立志, 賈曉光, 郭亮杰, 韓笑蕾申請人:上海盛淘智能科技有限公司

完整全部詳細(xì)技術(shù)資料下載