專利名稱:測試英文口語韻律水平的方法
技術領域:
本發(fā)明涉及人工智能行業(yè)語音信號處理與模式識別技術領域,尤其涉及一種測試英文口語韻律水平的方法。
背景技術:
韻律是針對言語這一人類的行為提出來的,言語交流的媒介是聲音,所以說者要傳達的信息以及聽者能夠聽到的信息都包含在聲波中。在計算機輔助語言學習中,韻律表現好比語言學習者表達境界“信、達、雅”中的“雅”,是言語中最高級的一環(huán),它通過復雜的物理和聲學模式在言語上進行作用,以表征說話者的語氣、態(tài)度、意圖和情感等超音段特性。可以說,學習者在表達過程中,只是會讀并不一定代表對語言已經掌握,而真正對所述內容的融會貫通在很大程度上取決于其韻律的表現程度。韻律水平測試是計算機輔助自動口語測試系統(tǒng)中的一個重要組成部分,本發(fā)明所述的韻律測試和以往針對語音合成領域的韻律生成和測試是有著本質區(qū)別的。以往針對語音合成領域的韻律生成和測試,其所關注的是如何有效提高所合成出語音的韻律性和自然度。而本發(fā)明的韻律測試則是關注測試人群的真實口語發(fā)音的韻律掌握水平。本發(fā)明更為關注口語水平較高的測試人群,即在內容表達比較完整、發(fā)音準確度較高以及流利程度較高的口語測試人群中,通過對韻律水平的測試,達到進一步“好中取優(yōu)”之目的。韻律感知的基本聲學相關物是基頻、時長和能量,而從人感知的角度來看,通常從語調和節(jié)奏兩個方面去衡量某個句子或段落的韻律水平。語調主要反映主觀聽感中的“抑” 和“揚”,在聲學特征層面,則是通過語音中的基頻隨時間的變化,去反映語調、語氣和情感的變化。節(jié)奏則包括重音、停頓、語流控制等層面,重音主要反映主觀聽感中對表達內容的輕重、偏頗和加重,英語是一種典型的重音節(jié)奏語言,正是依靠這種重音變化才在聽覺上帶來強烈的節(jié)奏感。停頓主要反映主觀聽感節(jié)奏中的錯落感,多由意群、語義或內容轉換的間隙而產生。語流控制則主要反映主觀聽感節(jié)奏中對整個語流中各音段時長的宏觀分布的總體把握情況。從人機通訊的角度來看,言語交際實質上就是一個對于說者是編碼、對于聽者是解碼的過程,而韻律測試正是利用機器對言語進行自動化解碼過程的重要一環(huán)。而從語音心理學角度來說,對于人在感知上為什么會覺得一段語音的韻律比另一段好,至今并沒有形成普遍的認識和共識。目前,面向語音合成任務的韻律分析的研究較多,而針對教育測量目標的韻律測試的研究相對較少,但其應用需求呈現遞增趨勢?,F有的韻律測試方法普遍采用直接使用單純的基頻、時長和能量特征的方式,沒有對特征本身進行深入加工,也沒有針對性地引入與韻律表現、韻律產生以及韻律影響相關聯的多知識源模型。而教育測量和模式識別領域的大量研究實踐表明,單純籠統(tǒng)地使用韻律特征很難進一步提高測試性能
發(fā)明內容
(一)要解決的技術問題為解決上述的一個或多個問題,本發(fā)明提供了一種測試英文口語韻律水平的方法,以使用多知識源信息進行細化并融合的策略取得更佳的測試效果,提高測試的客觀性和準確性。( 二 )技術方案根據本發(fā)明的一個方面,提供了一種測試英語口語韻律水平的方法。該方法包括 步驟A,對原始英語語音信號進行預處理;步驟B,在進行預處理后的原始英語語音信號中提取用于韻律測試的多知識源特征參數,多知識源特征參數包括韻律表現特征;韻律產生特征;韻律影響特征;步驟C,由多知識源特征參數獲取原始英語語音的韻律水平測試分數。 優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟A包括步驟Al,對原始英語語音信號進行有效語音段檢測,濾除噪音段和過長的停頓段,保留有效語音段信號;步驟A2, 對有效語音段信號進行分幀處理;步驟A3,使用語音識別器對進行分幀處理后的有效語音段信號和對應文本進行自動對齊,獲得音素、音節(jié)、單詞和句子的邊界點信息。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟A2中,以25ms為幀長度,IOms為幀間隔。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B中在進行預處理后的原始英語語音信號中提取用于韻律測試的韻律表現特征包括步驟Bla,提取各語音幀的基音頻率和能量,形成基頻序列和能量序列,計算基頻序列的基頻平均值和基頻方差值,計算能量序列的能量平均值和能量方差值。將基頻平均值、基頻方差值、能量平均值、能量方差值作為4維韻律特征;步驟Blb,提取各輔音段時長、各元音段時長、各音節(jié)段時長以及各單詞停頓段時長,分別計算輔音段平均時長和輔音段時長方差,分別計算元音段平均時長和元音段時長方差,分別計算音節(jié)段平均時長和音節(jié)段時長方差,分別計算單詞停頓段平均時長和單詞停頓段時長方差。將輔音段平均時長、輔音段時長方差、元音段平均時長、元音段時長方差、音節(jié)段平均時長、音節(jié)段時長方差、單詞停頓段平均時長、單詞停頓段時長方差作為8維韻律特征;步驟Blc,將步驟Bla提取出的4維韻律特征和步驟Blb提取出的8維韻律特征拼接為一起,作為基于韻律表現知識源的12維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B中在進行預處理后的原始英語語音信號中提取用于韻律測試的韻律產生特征包括步驟B2a,提取各語音幀的基頻序列,并對該基頻序列進行魯棒性處理;步驟B2b,以經過魯棒性處理后的基頻序列為對象, 提取出對應的重讀部件,提取源于重讀部件的階躍個數、平均階躍時間、階躍時間方差,形成共3維韻律特征;步驟B2c,以經過魯棒性處理后的基頻序列為對象,提取出對應的基準基頻,提取源于基準基頻的基準基頻特征;步驟B2d,以經過魯棒性處理后的基頻序列為對象,提取出對應的短語部件,提取源于短語部件的沖激個數、平均沖激幅度、沖激幅度方差, 形成共3維韻律特征;步驟B2e,將步驟B2b提取出的3維韻律特征、步驟B2c提取出的1維基準基頻特征、步驟B2d提取出的3維韻律特征進行拼接,作為基于韻律產生模型的7維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B2a中對已經提取出的基頻序列進行魯棒性處理包括對已經提取出的基頻序列去除半頻和倍頻干擾;對去除半頻和倍頻干擾后的基頻序列進行平滑操作;對進行平滑操作后的基頻序列進行風格化處理。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B2b包括對經過魯棒性處理的基頻序列進行高通濾波,利用梯度法自動提取出其中曲率變化劇烈的極大值和極小值部分;計算高通濾波后的基頻序列的曲率劇烈變化部分的數量,作為基頻序列的階躍個數特征;計算高通濾波后的基頻序列的曲率劇烈變化部分的平均持續(xù)時間和方差變化,作為基頻序列的平均階躍時間和階躍時間方差特征;將上述提取出的階躍個數、平均階躍時間、階躍時間方差作為源于重讀部件的3維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B2d包括用步驟Bh處理后的基頻序列減去步驟B2c提取出的基準基頻,形成反映短語部件的基頻序列曲線;計算反映短語部件的基頻序列中的曲率劇烈變化部分的數量,作為基頻序列的沖激個數特征;計算反映短語部件的基頻序列中的曲率劇烈變化部分的平均沖激幅度和幅度方差,作為基頻序列的平均沖激幅度和沖激幅度方差特征;將上述提取出的沖激個數、平均沖激幅度、沖激幅度方差作為源于短語部件的3維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B中在進行預處理后的原始英語語音信號中提取用于韻律測試的韻律影響特征包括步驟B3a,由公式一提取輔音段基頻PVI特征、元音段基頻PVI特征、音節(jié)段基頻PVI特征,形成共3維基于基頻 PVI的韻律特征;步驟B3b,由公式一提取輔音段時長PVI特征、元音段時長PVI特征、 音節(jié)段時長PVI特征,形成共3維基于時長PVI的韻律特征,其中,公式一的表達式為
權利要求
1.一種測試英語口語韻律水平的方法,其特征在于,包括 步驟A,對原始英語語音信號進行預處理;步驟B,在預處理后的原始英語語音信號中提取用于韻律測試的多知識源特征參數,該多知識源特征參數包括韻律表現特征、韻律產生特征和韻律影響特征;步驟C,由所述多知識源特征參數獲取所述原始英語語音的韻律水平測試分數。
2.根據權利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟A包括步驟Al,對原始英語語音信號進行有效語音段檢測,濾除噪音段和過長的停頓段,保留有效語音段信號;步驟A2,對有效語音段信號進行分幀處理;步驟A3,使用語音識別器對進行分幀處理后的有效語音段信號和對應文本進行自動對齊,獲得音素、音節(jié)、單詞和句子的邊界點信息。
3.根據權利要求2所述的測試英語口語韻律水平的方法,其特征在于,所述步驟A2中, 以25ms為幀長度,IOms為幀間隔。
4.根據權利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B中在預處理后的原始英語語音信號中提取用于韻律測試的韻律表現特征包括步驟Bla,提取各語音幀的基音頻率和能量,形成基頻序列和能量序列,計算基頻序列的基頻平均值和基頻方差值,計算能量序列的能量平均值和能量方差值;將基頻平均值、基頻方差值、能量平均值、能量方差值作為4維韻律特征;步驟Blb,提取各輔音段時長、各元音段時長、各音節(jié)段時長以及各單詞停頓段時長,分別計算輔音段平均時長和輔音段時長方差,分別計算元音段平均時長和元音段時長方差, 分別計算音節(jié)段平均時長和音節(jié)段時長方差,分別計算單詞停頓段平均時長和單詞停頓段時長方差;將輔音段平均時長、輔音段時長方差、元音段平均時長、元音段時長方差、音節(jié)段平均時長、音節(jié)段時長方差、單詞停頓段平均時長、單詞停頓段時長方差作為8維韻律特征;步驟Blc,將步驟Bla提取出的4維韻律特征和步驟Blb提取出的8維韻律特征拼接為一起,作為基于韻律表現知識源的12維韻律表現特征。
5.根據權利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B中在進行所述預處理后的原始英語語音信號中提取用于韻律測試的韻律產生特征包括步驟B2a,提取各語音幀的基頻序列,并對該基頻序列進行魯棒性處理; 步驟B2b,以經過魯棒性處理后的基頻序列為對象,提取出對應的重讀部件,提取源于重讀部件的階躍個數、平均階躍時間、階躍時間方差,形成共3維韻律特征;步驟B2c,以經過魯棒性處理后的基頻序列為對象,提取出對應的基準基頻,提取源于基準基頻的基準基頻特征;步驟B2d,以經過魯棒性處理后的基頻序列為對象,提取出對應的短語部件,提取源于短語部件的沖激個數、平均沖激幅度、沖激幅度方差,形成共3維韻律特征;步驟B2e,將步驟B2b提取出的3維韻律特征、步驟B2c提取出的1維基準基頻特征、步驟B2d提取出的3維韻律特征進行拼接,作為基于韻律產生模型的7維韻律產生特征。
6.根據權利要求5所述的測試英語口語韻律水平的方法,其特征在于,所述步驟似3中對已經提取出的基頻序列進行魯棒性處理包括 對已經提取出的基頻序列去除半頻和倍頻干擾; 對去除半頻和倍頻干擾后的基頻序列進行平滑操作; 對進行平滑操作后的基頻序列進行風格化處理。
7.根據權利要求5所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B2b包括對經過魯棒性處理的基頻序列進行高通濾波,利用梯度法自動提取出其中曲率變化劇烈的極大值和極小值部分;計算高通濾波后的基頻序列的曲率劇烈變化部分的數量,作為基頻序列的階躍個數特征;計算高通濾波后的基頻序列的曲率劇烈變化部分的平均持續(xù)時間和方差變化,作為基頻序列的平均階躍時間和階躍時間方差特征;將上述提取出的階躍個數、平均階躍時間、階躍時間方差作為源于重讀部件的3維韻律產生特征。
8.根據權利要求5所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B2d包括用步驟Bh處理后的基頻序列減去步驟B2c提取出的基準基頻,形成反映短語部件的基頻序列曲線;計算反映短語部件的基頻序列中的曲率劇烈變化部分的數量,作為基頻序列的沖激個數特征;計算反映短語部件的基頻序列中的曲率劇烈變化部分的平均沖激幅度和幅度方差,作為基頻序列的平均沖激幅度和沖激幅度方差特征;將上述提取出的沖激個數、平均沖激幅度、沖激幅度方差作為源于短語部件的3維韻律產生特征。
9.根據權利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B中在進行所述預處理后的原始英語語音信號中提取用于韻律測試的韻律影響特征包括步驟B3a,由公式一提取輔音段基頻PVI特征、元音段基頻PVI特征、音節(jié)段基頻PVI特征,形成共3維基于基頻PVI的韻律特征;步驟B3b,由公式一提取輔音段時長PVI特征、元音段時長PVI特征、音節(jié)段時長PVI特征,形成共3維基于時長PVI的韻律影響特征,其中,公式一的表達式為:Ρ^ = ιοοχΣ;; Xk-Xk+l L-1),連續(xù)語音段分為 、xk + xk+\)' ^ I和xk+1兩個部分,并分別代表第k個和第k+Ι個語音段的基頻值或時長值,m代表連續(xù)語音段的數目;這里的語音段是輔音段、元音段或音節(jié)段。
10.根據權利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟C之前還包括步驟C' 1,收集語音數據訓練樣本作為開發(fā)集,并對所述語音數據訓練樣本進行人工韻律分數的標注;步驟C' 2,選擇韻律分數擬合器模型;步驟 C' 3,將各個語音數據訓練樣本的多知識源特征參數作為所述韻律分數擬合器模型的前端輸入參數,將各個語音數據訓練樣本的人工韻律分數作為韻律分數擬合器模型的后端輸出結果;步驟C' 4,利用所述韻律分數擬合器模型所對應的模型訓練算法,訓練所述韻律分數擬合器模型,獲取所述韻律分數擬合器模型的模型參數;所述步驟C包括將所述原始英語語音信號對應的多知識源特征參數輸入訓練后的韻律分數擬合器,從而獲取所述原始英語語音的韻律水平評價測試分數。
11.根據權利要求10所述的測試英語口語韻律水平的方法,其特征在于,所述韻律分數擬合器模型為以下模型中的一種混合高斯模型、支撐向量機模型、多層感知器網絡模型。
全文摘要
本發(fā)明公開了一種測試英文口語韻律水平的方法。該方法包括步驟A,對原始英語語音信號進行預處理;步驟B,在進行預處理后的原始英語語音信號中提取用于韻律測試的多知識源特征參數,該多知識源特征參數包括韻律表現特征、韻律產生特征和韻律影響特征;步驟C,由多數多知識源特征參數獲取所述原始英語語音的韻律水平測試分數。本發(fā)明測試英文口語韻律水平的方法,以使用多知識源信息進行細化并融合的策略取得更佳的測試效果,提高測試的客觀性和準確性。
文檔編號G10L11/00GK102426834SQ201110252779
公開日2012年4月25日 申請日期2011年8月30日 優(yōu)先權日2011年8月30日
發(fā)明者徐波, 李宏言, 李鵬, 柯登峰, 王士進, 陳振標, 高鵬 申請人:中國科學院自動化研究所