一種小型說(shuō)話人情感識(shí)別系統(tǒng)的制作方法
【專(zhuān)利摘要】一種小型說(shuō)話人情感識(shí)別系統(tǒng),首先建立了一個(gè)小型的情感語(yǔ)音庫(kù),將其中一部分語(yǔ)音做訓(xùn)練樣本,用于構(gòu)建參考模板;另一部分做測(cè)試樣本,用于后續(xù)的情感識(shí)別實(shí)驗(yàn),然后對(duì)已獲得語(yǔ)音庫(kù)中的語(yǔ)音進(jìn)行預(yù)處理,對(duì)預(yù)處理之后的語(yǔ)音信號(hào)進(jìn)行情感參數(shù)的提取工作,情感參數(shù)包括基音頻率、共振峰、梅爾頻率倒譜系數(shù)及其相關(guān)統(tǒng)計(jì)參數(shù)。之后是進(jìn)行語(yǔ)音情感識(shí)別實(shí)驗(yàn),將訓(xùn)練語(yǔ)音的情感參數(shù)用基于支持向量機(jī)的情感分類(lèi)器進(jìn)行分類(lèi),之后再用其對(duì)測(cè)試語(yǔ)音進(jìn)行預(yù)測(cè),判斷其屬于何種情感。
【專(zhuān)利說(shuō)明】一種小型說(shuō)話人情感識(shí)別系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及的是一種語(yǔ)音情感識(shí)別系統(tǒng),特別涉及一種小型說(shuō)話人情感識(shí)別系統(tǒng)。
[0002]
【背景技術(shù)】
語(yǔ)音是人與人之間交流的重要手段,聲音是信息的載體,人們可以通過(guò)聲音來(lái)獲得其中的信息,其中自然包括情感信息。語(yǔ)音是人類(lèi)相互交流的一種重要工具,也是傳遞情感的一種重要媒介。語(yǔ)音信號(hào)所包含的不止是文字信息,同時(shí)還夾雜著人的情感。同樣是一句話,其中可以包含不同的情感,而情感不同,那么這句話的意思就有可能發(fā)生變化,如果計(jì)算機(jī)無(wú)法從操作者的語(yǔ)音中獲得其情感,那么就不可能達(dá)到最佳的交流效果,甚至有可能會(huì)對(duì)操作者的意思產(chǎn)生誤解,從而產(chǎn)生誤動(dòng)作,給操作者帶來(lái)不便。
[0003]語(yǔ)音信號(hào)處理是一個(gè)重要的研究領(lǐng)域,至今已有很長(zhǎng)的研究歷史,而語(yǔ)音信號(hào)的情感研究則是一個(gè)新興領(lǐng)域,但它是一個(gè)綜合了多類(lèi)學(xué)科的研究課題。其中主要包含了生理學(xué)、心理學(xué)、以及信號(hào)處理等重要學(xué)科。同時(shí)該課題的研究成果一語(yǔ)音情感識(shí)別系統(tǒng)具有相當(dāng)寬廣的應(yīng)用前景,具體可以應(yīng)用在:
1、遠(yuǎn)程網(wǎng)絡(luò)教學(xué),在遠(yuǎn)程網(wǎng)絡(luò)教學(xué)系統(tǒng)中可以加入情感識(shí)別系統(tǒng),通過(guò)判斷學(xué)習(xí)者的情感表達(dá)是否得體,可以讓學(xué)習(xí)者更好的提高帶有豐富情感的朗讀能力。
[0004]2、用于刑偵領(lǐng)域,情感識(shí)別系統(tǒng)可以制作成一個(gè)測(cè)謊儀,利用其推斷測(cè)試者的語(yǔ)言真實(shí)程度。隨著技術(shù)的不斷提高,可以不斷完善測(cè)謊儀的功能并將其用于現(xiàn)實(shí)中,因此情感識(shí)別系統(tǒng)對(duì)于刑偵領(lǐng)域來(lái)說(shuō)也具有相當(dāng)重要的實(shí)際意義。
[0005]3、娛樂(lè)游戲,目前大多數(shù)游戲都是通過(guò)文字來(lái)傳達(dá)信息,而如果在游戲中加語(yǔ)音的情感識(shí)別及表達(dá)則可以豐富信息的傳遞方式,同時(shí)也更能吸引玩家。通過(guò)這種新穎的方式可以在一定程度上緩解玩家在游戲過(guò)程中的疲勞度,玩家也能同時(shí)獲得聽(tīng)覺(jué)與視覺(jué)上的享受,增加了游戲的可玩程度。
[0006]
【發(fā)明內(nèi)容】
本發(fā)明的目的是提供一種利用一個(gè)小型的情感語(yǔ)音庫(kù)利用其作為語(yǔ)音做訓(xùn)練樣本,用于構(gòu)建參考模板,對(duì)每種情感的識(shí)別率進(jìn)行統(tǒng)計(jì)的人情感識(shí)別系統(tǒng)。
[0007]本發(fā)明的目的是這樣實(shí)現(xiàn)的:本發(fā)明的第一步工作是在閱讀了國(guó)內(nèi)外大量資料的基礎(chǔ)上建立了一個(gè)小型的情感語(yǔ)音庫(kù),將其中一部分語(yǔ)音做訓(xùn)練樣本,用于構(gòu)建參考模板;另一部分做測(cè)試樣本,用于后續(xù)的情感識(shí)別實(shí)驗(yàn)。第二步是對(duì)已獲得語(yǔ)音庫(kù)中的語(yǔ)音進(jìn)行預(yù)處理,其步驟主要包括預(yù)加重、加窗分幀以及語(yǔ)音端點(diǎn)檢測(cè)。第三步是對(duì)預(yù)處理之后的語(yǔ)音信號(hào)進(jìn)行情感參數(shù)的提取工作,情感參數(shù)包括基音頻率、共振峰、梅爾頻率倒譜系數(shù)及其相關(guān)統(tǒng)計(jì)參數(shù)。用軟件對(duì)參數(shù)的提取進(jìn)行仿真實(shí)驗(yàn),得到不同情感類(lèi)型的各個(gè)參數(shù)的分布范圍,并對(duì)結(jié)果進(jìn)行簡(jiǎn)要的分析。第四步是進(jìn)行語(yǔ)音情感識(shí)別實(shí)驗(yàn),將訓(xùn)練語(yǔ)音的情感參數(shù)用基于支持向量機(jī)的情感分類(lèi)器進(jìn)行分類(lèi),之后再用其對(duì)測(cè)試語(yǔ)音進(jìn)行預(yù)測(cè),判斷其屬于何種情感。實(shí)驗(yàn)之后對(duì)每種情感的識(shí)別率進(jìn)行統(tǒng)計(jì),對(duì)最終的統(tǒng)計(jì)結(jié)果進(jìn)行分析。最后,為整個(gè)系統(tǒng)設(shè)計(jì)了一個(gè)簡(jiǎn)單的人機(jī)界面,該界面可以完成輸入測(cè)試語(yǔ)音、顯示系統(tǒng)對(duì)該語(yǔ)音的識(shí)別結(jié)果以及對(duì)結(jié)果進(jìn)行清空的功能。
[0008]自己錄制一個(gè)小規(guī)模的漢語(yǔ)情感語(yǔ)音庫(kù),庫(kù)中語(yǔ)音的情感分為四類(lèi):喜悅、憤怒、悲傷、驚奇。錄制者為6人均為男生,每人對(duì)4個(gè)語(yǔ)音文本分別用4種情感進(jìn)行朗讀,每種情感朗讀4遍,總共獲得384個(gè)樣本作為實(shí)驗(yàn)用情感語(yǔ)音庫(kù)。采用SVM的方法對(duì)情感進(jìn)行分類(lèi),其中SVM采用“一對(duì)一”方法來(lái)解決多分類(lèi)的問(wèn)題。最后分別用語(yǔ)音的韻律特征包括基音及共振峰的相關(guān)參數(shù)、語(yǔ)音特征MFCC相關(guān)參數(shù)及兩者結(jié)合作為情感特征做了識(shí)別,并對(duì)識(shí)別結(jié)果進(jìn)行了分析對(duì)比。實(shí)驗(yàn)中,在用全部11個(gè)參數(shù)進(jìn)行識(shí)別時(shí),最終所得到的4種情感的平均識(shí)別率為79.15%,悲傷的識(shí)別率最高為83.3%。同時(shí)發(fā)現(xiàn),喜悅與憤怒這兩種情感之間最容易發(fā)生誤識(shí)別現(xiàn)象。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0009]圖1為語(yǔ)首情感識(shí)別流程圖。
【具體實(shí)施方式】
[0010]下面結(jié)合附圖舉例對(duì)本發(fā)明做更詳細(xì)地描述:
實(shí)施例1
結(jié)合圖1,圖1為語(yǔ)音情感識(shí)別流程圖。1、情感語(yǔ)音庫(kù)的獲取。由于目前語(yǔ)音情感識(shí)別都是針對(duì)他國(guó)語(yǔ)言而言的,漢語(yǔ)在這方面的研究則開(kāi)展的相對(duì)較少,找不到一個(gè)專(zhuān)門(mén)用于情感識(shí)別的漢語(yǔ)情感語(yǔ)音庫(kù)。因此進(jìn)行識(shí)別研究之前的準(zhǔn)備工就是自己錄制一個(gè)小規(guī)模的漢語(yǔ)的情感語(yǔ)音庫(kù),然后基于該語(yǔ)音庫(kù)進(jìn)行后續(xù)研究。2、語(yǔ)音信號(hào)的預(yù)處理。由于語(yǔ)音信號(hào)的特點(diǎn),對(duì)于語(yǔ)音庫(kù)中的語(yǔ)音信號(hào)并不能直接提取其中的情感特征參數(shù),必須先進(jìn)行一步前端處理,包括預(yù)加重、加窗分幀及端點(diǎn)檢測(cè)。3、情感特征參數(shù)的提取。預(yù)處理之后則是提取信號(hào)中的情感特征參數(shù),其中主要包括兩種類(lèi)別,一類(lèi)是聲學(xué)特征參數(shù),包括12階MFCC參數(shù)和共振峰參數(shù)。另一類(lèi)是韻律特征參數(shù),包括語(yǔ)音的基音頻率,短時(shí)能量,平均過(guò)零率等參數(shù)。并在此基礎(chǔ)上進(jìn)行了細(xì)化,最終選取了基音頻率平均值、最大值、最小值,第一共振峰平均值、最大值,以及MFCC的第10個(gè)、11個(gè)、12個(gè)參數(shù)作為情感特征參數(shù)。4、情感分類(lèi)器的設(shè)計(jì)。本發(fā)明采用了基于支持向量機(jī)(Support Vector Machine)的語(yǔ)音情感分類(lèi)器的設(shè)計(jì),由于目前的svm都只適用于二分類(lèi),而如果要實(shí)現(xiàn)多分類(lèi),則需要在每?jī)蓚€(gè)樣本間設(shè)計(jì)一個(gè)svm,在需要對(duì)未知樣本進(jìn)行分類(lèi)時(shí),則要通過(guò)投票來(lái)最終確定其類(lèi)別。這就是所謂的“一對(duì)一”法。
【權(quán)利要求】
1.一種小型說(shuō)話人情感識(shí)別系統(tǒng),其特征在于:本發(fā)明的第一步工作是在閱讀了國(guó)內(nèi)外大量資料的基礎(chǔ)上建立了一個(gè)小型的情感語(yǔ)音庫(kù),將其中一部分語(yǔ)音做訓(xùn)練樣本,用于構(gòu)建參考模板;另一部分做測(cè)試樣本,用于后續(xù)的情感識(shí)別實(shí)驗(yàn);第二步是對(duì)已獲得語(yǔ)音庫(kù)中的語(yǔ)音進(jìn)行預(yù)處理,其步驟主要包括:預(yù)加重、加窗分幀以及語(yǔ)音端點(diǎn)檢測(cè);第三步是對(duì)預(yù)處理之后的語(yǔ)音信號(hào)進(jìn)行情感參數(shù)的提取工作,情感參數(shù)包括基音頻率、共振峰、梅爾頻率倒譜系數(shù)及其相關(guān)統(tǒng)計(jì)參數(shù);用軟件對(duì)參數(shù)的提取進(jìn)行仿真實(shí)驗(yàn),得到不同情感類(lèi)型的各個(gè)參數(shù)的分布范圍,并對(duì)結(jié)果進(jìn)行簡(jiǎn)要的分析;第四步是進(jìn)行語(yǔ)音情感識(shí)別實(shí)驗(yàn),將訓(xùn)練語(yǔ)音的情感參數(shù)用基于支持向量機(jī)的情感分類(lèi)器進(jìn)行分類(lèi),之后再用其對(duì)測(cè)試語(yǔ)音進(jìn)行預(yù)測(cè),判斷其屬于何種情感;實(shí)驗(yàn)之后對(duì)每種情感的識(shí)別率進(jìn)行統(tǒng)計(jì),對(duì)最終的統(tǒng)計(jì)結(jié)果進(jìn)行分析;最后,為整個(gè)系統(tǒng)設(shè)計(jì)了一個(gè)簡(jiǎn)單的人機(jī)界面,該界面可以完成輸入測(cè)試語(yǔ)音、顯示系統(tǒng)對(duì)該語(yǔ)音的識(shí)別結(jié)果以及對(duì)結(jié)果進(jìn)行清空的功能。
2.根據(jù)權(quán)利要求1所述的一種小型說(shuō)話人情感識(shí)別系統(tǒng),其特征在于:錄制一個(gè)小規(guī)模的漢語(yǔ)情感語(yǔ)音庫(kù),庫(kù)中語(yǔ)音的情感分為四類(lèi):喜悅、憤怒、悲傷、驚奇;采用3穩(wěn)的方法對(duì)情感進(jìn)行分類(lèi),其中3穩(wěn)采用“一對(duì)一”方法來(lái)解決多分類(lèi)的問(wèn)題;最后分別用語(yǔ)音的韻律特征包括基音及共振峰的相關(guān)參數(shù)、語(yǔ)音特征即⑶相關(guān)參數(shù)及兩者結(jié)合作為情感特征做識(shí)別。
【文檔編號(hào)】G10L25/63GK104464756SQ201410750977
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】馮秀霞 申請(qǐng)人:黑龍江真美廣播通訊器材有限公司