本發(fā)明涉及語音評測領(lǐng)域,特指一種基于語音相似度的語音評測方法及系統(tǒng)。
背景技術(shù):
語音信號處理技術(shù)是語音處理和語音識別領(lǐng)域中的一個重要分支,也是現(xiàn)今語音識別和語音評價系統(tǒng)的主要核心技術(shù)。隨著科技的發(fā)展,語音信號處理技術(shù)已深入到各個領(lǐng)域,包括語言學習以及語音自動評分,而在語言學習和自動評分中,運用語音信號處理的目的是將最新的語音技術(shù)于當前的教學和學習方法結(jié)合,建立輔助語言學習的系統(tǒng)或者語音智能評分系統(tǒng)。
對于語音評測的研究,目前大多數(shù)的評測方法或系統(tǒng)均專注于如何提高語音評測的準確性,即提高評測結(jié)果的準確度,以實現(xiàn)對發(fā)音質(zhì)量的公正、客觀、高效的評測。但是評測結(jié)果是否準確對學習者的語言學習并沒有提供直接的幫助,其僅能更為客觀的反應(yīng)學習者目前的口語水平,不能提高口語水平和語言學習效果。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供一種基于語音相似度的評測方法及系統(tǒng),解決現(xiàn)有的評測系統(tǒng)不能為學習者的語言學習提供直接幫助和不能提高口語水平及語言學習效果的問題。
實現(xiàn)上述目的的技術(shù)方案是:
本發(fā)明提供了一種基于語音相似度的語音評測方法,包括如下步驟:
提供訓練數(shù)據(jù)集,所述訓練數(shù)據(jù)集包括訓練參照語音數(shù)據(jù)、與所述訓練參照語音數(shù)據(jù)對應(yīng)的訓練模仿語音數(shù)據(jù)以及所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)的相似度評分值;
利用所述訓練數(shù)據(jù)集對動態(tài)時間規(guī)整算法和支持向量順序回歸算法進行算法訓練,以獲得相似度評分模型;
提供參照語音信息;
錄制模仿朗讀所述參照語音信息的模仿語音信息;
提取所述參照語音信息中的參照語音特征序列集和所述模仿語音信息中的模仿語音特征序列集;以及
向所述相似度評分模型輸入所述參照語音特征序列集和所述模仿語音特征序列集,獲得所述模仿語音信息和所述參照語音信息的相似度評分值并輸出。
本發(fā)明提出了一種語音相似度的評測方法,能夠直觀的為學習者給出相似度的評分,為語言學習的模仿學習方法提供了有效的反饋,能夠促進學習者在語言學習中反復模仿練習,以提高學習者的語言學習水平和學習效果,進而為學習者的語音學習提供直接的幫助。本發(fā)明的語音相似度的評測方法在對發(fā)音正確性進行考核的基礎(chǔ)上,增加了對發(fā)音模仿程度的評估,可幫助用戶有針對性的進行模仿練習,提高發(fā)音水平。
本發(fā)明基于語音相似度的語音評測方法的進一步改進在于,所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)包括語音內(nèi)容特征序列、語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列;
進行算法訓練包括:
利用所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)中的語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列對所述動態(tài)時間規(guī)整算法進行算法訓練,以使得通過所述動態(tài)時間規(guī)整算法獲得所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)之間的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離;
利用所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)中的語音內(nèi)容特征序列、所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)的相似度評分值、所獲得的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離對所述支持向量順序回歸算法進行算法訓練。
本發(fā)明基于語音相似度的語音評測方法的進一步改進在于,在進行算法訓練時,為所述動態(tài)時間規(guī)整算法設(shè)定以時間幀順序依序進行計算的約束條件。
本發(fā)明基于語音相似度的語音評測方法的進一步改進在于,提取所述參照語音信息中的參照語音特征序列集和所述模仿語音信息中的模仿語音特征序列集,包括:
對所述參照語音信息進行語音識別以獲得對應(yīng)的語音內(nèi)容特征序列、語音停頓特征序列以及語音時長特征序列并加入到參照語音特征序列集中;
對所述模仿語音信息進行語音識別以獲得對應(yīng)的語音內(nèi)容特征序列、語音停頓特征序列以及語音時長特征序列并加入到模仿語音特征序列集中。
本發(fā)明基于語音相似度的語音評測方法的進一步改進在于,提取所述參照語音信息中的參照語音特征序列集和所述模仿語音信息中的模仿語音特征序列集,還包括:
對所述參照語音信息進行基頻提取以獲得對應(yīng)的語音音調(diào)特征序列并加入到參照語音特征序列集中;
對所述參照語音信息進行能量提取以獲取對應(yīng)的語音重讀特征序列并加入到參照語音特征序列集中;
對所述模仿語音信息進行基頻提取以獲得對應(yīng)的語音音調(diào)特征序列并加入到模仿語音特征序列集中;
對所述模仿語音信息進行能量提取以獲取對應(yīng)的語音重讀特征序列并加入到模仿語音特征序列集中。
本發(fā)明還提供了一種基于語音相似度的語音評測系統(tǒng),包括:
數(shù)據(jù)存儲模塊,用于存儲參照語音信息;
語音播報模塊,與所述數(shù)據(jù)存儲模塊連接,用于播報所述數(shù)據(jù)存儲模塊中存儲的參照語音信息;
語音獲取模塊,用于錄制模仿朗讀所述語音播報模塊播報的參照語音信息的模仿語音信息;
特征提取模塊,與所述語音播報模塊和所述語音獲取模塊連接,用于對所述語音播報模塊所播報的參照語音信息和所述語音獲取模塊所獲取的模仿語音信息進行特征提取,以獲得對應(yīng)的參照語音特征序列集和模仿語音特征序列集;以及
評分模塊,與所述特征提取模塊連接,所述評分模塊接收所述特征提取模塊獲得的參照語音特征序列集和模仿語音特征序列集,并計算得出所述模仿語音信息和所述參照語音信息的相似度評分值。
本發(fā)明基于語音相似度的語音評測系統(tǒng)的進一步改進在于,所述評分模塊內(nèi)建立有相似度評分模型,所述相似度評分模型通過訓練數(shù)據(jù)集對動態(tài)時間規(guī)整算法和支持向量順序回歸算法進行算法訓練而建立,所述訓練數(shù)據(jù)集包括訓練參照語音數(shù)據(jù)、與所述訓練參照語音數(shù)據(jù)對應(yīng)的訓練模仿語音數(shù)據(jù)以及所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)的相似度評分值;
所述評分模塊將所述的參照語音特征序列集和模仿語音特征序列集后輸入到所述相似度評分模塊以獲得所述模仿語音信息和所述參照語音信息的相似度評分值。
本發(fā)明基于語音相似度的語音評測系統(tǒng)的進一步改進在于,所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)包括語音內(nèi)容特征序列、語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列;
通過所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)中的語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列對所述動態(tài)時間規(guī)整算法進行算法訓練,以使得通過所述動態(tài)時間規(guī)整算法獲得所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)之間的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離;
通過所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)中的語音內(nèi)容特征序列、所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)的相似度評分值、所獲得的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離對所述支持向量順序回歸算法進行算法訓練,從而于所述評分模塊內(nèi)建立了相似度評分模型。
本發(fā)明基于語音相似度的語音評測系統(tǒng)的進一步改進在于,所述動態(tài)時間規(guī)整算法在進行算法訓練時,設(shè)定有以時間幀順序依序進行算法訓練的約束條件。
本發(fā)明基于語音相似度的語音評測系統(tǒng)的進一步改進在于,所述特征提取模塊包括語音識別子模塊、基頻提取子模塊、能量提取子模塊以及序列緩存子模塊;
所述序列緩存子模塊內(nèi)存儲有參照語音特征序列集和模仿語音特征序列集;
所述語音識別子模塊用于對所述參照語音信息進行語音識別以獲得對應(yīng)的語音內(nèi)容特征序列、語音停頓特征序列以及語音時長特征序列并寫入到所述參照語音特征序列集中;還用于對所述模仿語音信息進行語音識別以獲得對應(yīng)的語音內(nèi)容特征序列、語音停頓特征序列以及語音時長特征序列并寫入到所述模仿語音特征序列集中;
所述基頻提取子模塊用于對所述參照語音信息進行基頻提取以獲得對應(yīng)的語音音調(diào)特征序列并寫入到所述參照語音特征序列集中;還用于對所述模仿語音信息進行基頻提取以獲得對應(yīng)的語音音調(diào)特征序列并寫入到模仿語音特征序列集中;
所述能量提取子模塊用于對所述參照語音信息進行能量提取以獲取對應(yīng)的語音重讀特征序列并寫入到所述參照語音特征序列集中;還用于對所述模仿語音信息進行能量提取以獲取對應(yīng)的語音重讀特征序列并寫入到模仿語音特征序列集中。
附圖說明
圖1為本發(fā)明基于語音相似度的語音評測系統(tǒng)的系統(tǒng)圖。
圖2為本發(fā)明基于語音相似度的語音評測方法及系統(tǒng)的相似度評測流程圖。
圖3為本發(fā)明基于語音相似度的語音評測方法及系統(tǒng)中特征提取的流程圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明。
本發(fā)明提供了一種基于語音相似度的語音評測方法及系統(tǒng),實現(xiàn)了自動化的相似度評分。為模仿學習提供幫助,對于語言學習來講,模仿學習對語言發(fā)音練習具有顯著的幫助效果,但是目前現(xiàn)有的評測系統(tǒng)都僅是針對發(fā)音質(zhì)量進行公正客觀的評測,而不能直觀的為發(fā)音模仿程度給出評估結(jié)果,對于模仿學習方法沒有直接幫助。而本發(fā)明的基于語音相似度的語音評測方法及系統(tǒng),針對語音韻律特征,感知兩條語音相似程度,給出相似度評分,能夠給學習者的模仿學習提供有效直觀的反饋,為語言學習提供了一種新的學習方法,即模仿練習學習。有效的提高學習者的發(fā)音水平和學習效果。下面結(jié)合附圖對本發(fā)明基于語音相似度的語音評測方法及系統(tǒng)進行說明。
如圖1所示,本發(fā)明的基于語音相似度的語音評測系統(tǒng)包括有數(shù)據(jù)存儲模塊11、語音播報模塊12、語音獲取模塊13、特征提取模塊14、評分模塊15,數(shù)據(jù)存儲模塊11與語音播報模塊12連接,語音播報模塊12和語音獲取模塊13與特征提取模塊14連接,特征提取模塊14與評分模塊15連接。
數(shù)據(jù)存儲模塊11用于存儲參照語音信息,在數(shù)據(jù)存儲模塊11中建立有用于發(fā)音練習的發(fā)音練習數(shù)據(jù)庫,該發(fā)音練習數(shù)據(jù)庫中存儲復數(shù)個參照語音信息,該參照語音信息為音頻格式,可通過音頻播放器進行播放,以供學習者進行模仿。
語音播報模塊12與數(shù)據(jù)存儲模塊11連接,該語音播報模塊12用于播報數(shù)據(jù)存儲模塊11中存儲的參照語音信息給學習者,學習者通過聆聽播報的參照語音信息而進行模仿發(fā)音練習。
語音獲取模塊13用于錄制模仿朗讀語音播報模塊12播報的參照語音信息的模仿語音信息,該語音播報模塊12在播報完成后形成錄制獲取指令發(fā)送給語音獲取模塊13,以啟動語音獲取模塊13,語音獲取模塊13錄制學習者的朗讀聲音形成模仿語音信息。該語音獲取模塊13可以為麥克風,能夠錄制來自學習者的語音。
特征提取模塊14用于對語音播報模塊12所播報的參照語音信息進行特征提取,還對語音獲取模塊13所獲取的模仿語音信息進行特征提取,以獲得對應(yīng)參照語音信息的參照語音特征序列集和對應(yīng)模仿語音信息的模仿語音特征序列集,該參照語音特征序列集和模仿語音特征序列集中包括有語音韻律特征,通過對兩個語音韻律特征進行分析比對就能夠得到兩條語音信息的相似度評分值。
評分模塊15接收特征提取模塊獲得的參照語音特征序列集合模仿語音特征序列集,并計算得出模仿語音信息和參照語音信息的相似度評分值。該得到的相似度評分值直接反饋給模仿學習者,對模仿學習者的模仿練習起到評估的作用,可幫助學習者有針對性的進行模仿練習,且通過模仿練習使得學習者的發(fā)音越來越像參照語音(標準發(fā)音或者老師的發(fā)音),有效提高了發(fā)音水平,為發(fā)音練習提供了新的模仿學習方法。
評分模塊內(nèi)建立有相似度評分模型,該相似度評分模型用于在輸入模仿語音特征序列集和參照語音特征序列集后,輸出模仿語音信息和參照語音信息的相似度評分值。評分模塊在接收到參照語音特征序列集合模仿語音特征序列集后,將參照語音特征序列集合模仿語音特征序列集輸入到相似度評分模型中,就能夠獲得模仿語音信息和參照語音信息的相似度評分值。
該相似度評分模型通過訓練數(shù)據(jù)集對動態(tài)時間規(guī)整算法(DTW,Dynamic Time Warping)和支持向量順序回歸算法(SVOR,Support Vector Ordinal Regression)進行算法訓練而建立,訓練數(shù)據(jù)集包括有訓練參照語音數(shù)據(jù)、與訓練參照語音數(shù)據(jù)對應(yīng)的訓練模仿語音數(shù)據(jù)以及訓練參照語音數(shù)據(jù)和模仿語音數(shù)據(jù)的相似度評分值,該訓練參照語音數(shù)據(jù)和模仿語音數(shù)據(jù)的相似度評分值為人工標注,利用訓練數(shù)據(jù)集進行算法訓練以獲得相似度評分模型。在進行算法訓練時,訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)包括有語音內(nèi)容特征序列、語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列,其中的語音內(nèi)容特征序列是指語音數(shù)據(jù)中的文本內(nèi)容,即以單詞為單位的識別結(jié)果文本序列;語音音調(diào)特征序列指人發(fā)音語調(diào)的變化情況,音調(diào)特征序列包括標準化的基頻序列、風格化的基頻序列、標準化基頻序列的一階差分、以及風格化基頻序列的一階差分,語音音調(diào)特征序列通過基頻提取來實現(xiàn),該基頻提取是指對每一幀語音提取其基頻信息;語音時長特征序列指單詞或音節(jié)的發(fā)音時間長短情況,語音時長特征序列包括單詞絕對發(fā)音時長序列和單詞相對發(fā)音時長序列,單詞絕對發(fā)音時長序列指識別結(jié)果中每個單詞發(fā)音時長所構(gòu)成的序列,單詞相對發(fā)音時長序列指每個單詞發(fā)音時長占總發(fā)音時長的比例的序列;語音停頓特征序列是指發(fā)音和靜音交錯情況,即靜音和發(fā)音間隔時長序列,因為一條語音是由靜音段和發(fā)音段交錯組成的,將每個靜音段也當作一個單詞(SIL,silence,靜音),計算其持續(xù)時間當作時長,與每個單詞的發(fā)音時長共同構(gòu)成一個序列;語音重讀特征序列是指哪些單詞為了突出強調(diào)而重讀,重讀的聲音具有較大的力度和音量,語音重讀特征序列包括能量序列和能量序列的一階差分。利用訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)中的語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列對所述動態(tài)時間規(guī)整算法進行算法訓練,以使得通過所述動態(tài)時間規(guī)整算法獲得所述訓練參照語音數(shù)據(jù)和所述訓練模仿語音數(shù)據(jù)之間的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離,由于語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列都是時間序列,可用“距離”來衡量兩個序列的相似度,采用動態(tài)時間規(guī)整算法從兩個不同長度序列中找到相似的匹配點,從而計算匹配點的距離即獲得了兩個序列的距離。為了提高動態(tài)時間規(guī)整算法的魯棒性,為動態(tài)時間規(guī)整算法設(shè)定約束條件,令動態(tài)時間規(guī)整算法以時間幀順序依序進行算法訓練,避免動態(tài)時間規(guī)整算法在查找匹配點時返回已遍歷過的時間幀進行查找。約束了動態(tài)時間規(guī)整算法的連續(xù)性和單調(diào)性,提高了算法的魯棒性。對于訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)中的語音內(nèi)容特征序列的內(nèi)容距離,可通過兩者的直接比對而獲得。利用訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)中的語音內(nèi)容特征序列、訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)的相似度評分值、所獲得的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離對支持向量順序回歸算法進行算法訓練,該支撐向量順序回歸算法作為分數(shù)映射模型,針對兩個序列的距離給出合適的相似度評分值。通過對動態(tài)時間規(guī)整算法和支持向量順序回歸算法的算法訓練,在評分模塊內(nèi)建立相似度評分模型。
該相似度評分模型通過相似度特征提取和相似度得分計算得到相似度評分值,其中的相似度特征提取是基于從音頻和語音識別結(jié)果中提取出各個語音特征序列,進一步提取相似度相關(guān)特征,具體包括從模仿語音信息和參照語音信息中分別提取出所有語音特征序列,該所有語音特征序列包括語音內(nèi)容特征序列、語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列;計算模仿語音信息和參照語音信息的語音內(nèi)容特征序列之間的Levenshtein距離,作為一維特征;對于其他序列特征,均采用DTW計算模仿語音信息和參照語音信息的最小匹配距離,設(shè)參照語音信息的特征序列為R,模仿語音信息的特征序列為U,則DTW動態(tài)規(guī)劃目標函數(shù)為:Gi,j=di,j+min{Gi,j-1,Gi-1,j,Gi-1,j-1+di,j}
其中i為參照語音特征序列的下標,j為模仿語音信息語音特征序列的下標,Gi,j為累積距離,di,j=|Ri-Uj|
每一對特征序列均可得到一個最小匹配距離,作為一維相似度特征,這樣一共得到10維相似度特征。
相似度得分計算,在相似度特征和專家打分之間建立一種對應(yīng)關(guān)系,通過訓練以得到相似度得分計算的模型,該模型可以是任何一種回歸、分類模型。常用的線性回歸模型對于相似度特別高或者特別差的樣本不能準確表達,因此我們采用SVOR模型,可以克服線性回歸的缺點。
特征提取模塊14包括語音識別子模塊、基頻提取子模塊、能量提取子模塊以及序列緩存子模塊;序列緩存子模塊內(nèi)存儲有參照語音特征序列集和模仿語音特征序列集;語音識別子模塊用于對參照語音信息進行語音識別,識別出語音內(nèi)的文本內(nèi)容、語音中單詞音素邊界,從而獲得對應(yīng)該參照語音信息的語音內(nèi)容特征序列、語音停頓特征序列和語音時長特征序列,語音內(nèi)容特征序列為以單詞為單位的識別結(jié)果文本序列;語音停頓特征序列包括靜音、發(fā)音間隔時長序列;語音時長特征序列包括單詞絕對發(fā)音時長序列和單詞相對發(fā)音時長序列,可通過如下公式計算:
其中D為單詞絕對發(fā)音時長序列,D′為單詞相對發(fā)音時長序列,N為識別結(jié)果中單詞總個數(shù)。語音停頓特征序列通過語音識別檢測出哪些語音段是發(fā)音段,哪些語音段是靜音段,這種發(fā)音段和靜音段交錯代表了人說話的節(jié)奏,即語音停頓特征序列,語音時長特征序列利用語音識別技術(shù)和強制切分算法,可以獲得單詞和音素的起止時間點,進一步計算出單詞和音素的發(fā)音時間長度。語音識別子模塊將獲得的對應(yīng)該參照語音信息的語音內(nèi)容特征序列、語音停頓特征序列和語音時長特征序列寫入到序列緩存子模塊中的參照語音特征序列集中。語音識別子模塊還用于對模仿語音信息進行語音識別以獲得對應(yīng)的語音內(nèi)容特征序列、語音停頓特征序列以及語音時長特征序列并寫入到模仿語音特征序列集中?;l提取子模塊用于對參照語音信息進行基頻提取以獲得對應(yīng)的語音音調(diào)特征序列并寫入到參照語音特征序列集中,利用基頻提取技術(shù)從語音中獲得基頻曲線,以代表語音音調(diào)特征序列。基頻提取子模塊還用于對模仿語音信息進行基頻提取以獲得對應(yīng)的語音音調(diào)特征序列并寫入到模仿語音特征序列集中?;l提取是指對每一幀語音提取其基頻信息,算法采用基于自相關(guān)的基頻提取算法,該算法計算速度快,得到基頻準確穩(wěn)定。根據(jù)語音的特點,頻率區(qū)間設(shè)為60Hz至600Hz。提取出的基頻需要進行如下后處理:提取出來的基頻存在一些錯誤點,基于自相關(guān)的基頻提取算法會出現(xiàn)倍頻和半頻錯誤,基頻序列中大部分是準確的,以此為基準可以修正提取結(jié)構(gòu)的倍頻和半頻錯誤。提取出的基頻曲線不是連續(xù)光滑的,還需要對其進行插值和平滑。插值算法采用線性插值,平滑算法采用3階巴特沃斯低通濾波器。人耳對聲音頻率的感知是對數(shù)均勻的,因此需要先將基頻F0轉(zhuǎn)至對數(shù)域,即Semitone(半音程),
其中Fref為參考頻率,一般參考頻率取20Hz。標準化基頻序列是為了消除不同人群固有的基頻差異,使其具有可比性。這里采用Z-score標準化:
其中F0為基頻序列中一點,μ為基頻序列的均值,σ為基頻序列的方差。發(fā)音的最小單位是音節(jié)。風格化基頻序列是在標準化的基礎(chǔ)上,按語音識別結(jié)果中的音節(jié)邊界信息切分基頻序列,每個切分片段取其中位數(shù),再將其連接成一個新的序列。風格化不考慮每個音節(jié)內(nèi)部的基頻變化細節(jié),只關(guān)心語音基頻變化的整體趨勢?;l序列本身的相對變化也是描述音調(diào)編號的重要特征,因此分別取標準化基頻序列的一階差分、風格化基頻序列的一階差分作為兩個特征序列。能量提取子模塊用于對參照語音信息進行能量提取以獲得對應(yīng)的語音重讀特征序列并寫入到參照語音特征序列集中,重讀特征可從語音中提取能量變化曲線,能量代表人說話的力度和音量,分析能量曲線可獲得哪些單詞是強度重讀的,哪些是非重讀的。能量提取子模塊還用于對模仿語音信息進行能力提取以獲取對應(yīng)的語音重讀特征序列并寫入到模仿語音特征序列集中。能量提取是指對每一幀語音提取其能量:
其中E為一幀語音的能量,A為音頻振幅序列,N為幀長。能量序列本身的相對變化也是描述重讀編號的重要特征,因此取能量序列的一階差分作為一個特征序列。
下面對本發(fā)明提供的一種基于語音相似度的語音評測方法進行說明。
本發(fā)明基于語音相似度的語音評測方法,包括如下步驟:
提供訓練數(shù)據(jù)集,該訓練數(shù)據(jù)集包括訓練參照語音數(shù)據(jù)、與訓練參照語音數(shù)據(jù)對應(yīng)的訓練模仿語音數(shù)據(jù)以及訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)的相似度評分值;該訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)的相似度評分值根據(jù)人工標注獲得;
利用訓練數(shù)據(jù)集對動態(tài)時間規(guī)整算法和支持向量順序回歸算法進行算法訓練,以獲得相似度評分模型;
如圖1所示,執(zhí)行步驟S101,參照語音信息。提供參照語音信息;并將參照語音信息播放給學習者聆聽以供其模仿練習;
執(zhí)行步驟S102,模仿語音信息。錄制模仿朗讀參照語音信息的模仿語音信息;在學習者模仿朗讀參照語音信息時對該模仿語音信息進行錄制獲?。?/p>
執(zhí)行步驟S103和步驟S104,特征提取。提取參照語音信息中的參照語音特征序列集和模仿語音信息中的模仿語音特征序列集;
執(zhí)行步驟S105至步驟S109,向相似度評分模型輸入?yún)⒄照Z音特征序列集和模仿語音特征序列集,獲得模仿語音信息和參照語音信息的相似度評分值并輸出。
作為本發(fā)明的一較佳實施方式,訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)包括語音內(nèi)容特征序列、語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列;其中的語音內(nèi)容特征序列是指語音數(shù)據(jù)中的文本內(nèi)容,語音音調(diào)特征序列指人發(fā)音語調(diào)的變化情況,語音時長特征序列指單詞或音節(jié)的發(fā)音時間長短情況,語音停頓特征序列是指發(fā)音和靜音交錯情況,語音重讀特征序列是指哪些單詞為了突出強調(diào)而重讀,重讀的聲音具有較大的力度和音量。
利用訓練數(shù)據(jù)集進行算法訓練包括:
利用訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)中的語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列對動態(tài)時間規(guī)整算法進行算法訓練,以使得通過動態(tài)時間規(guī)整算法獲得訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)之間的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離,結(jié)合圖1中步驟S105和步驟S107所示;由于語音音調(diào)特征序列、語音時長特征序列、語音停頓特征序列以及語音重讀特征序列都是時間序列,可用“距離”來衡量兩個序列的相似度,采用動態(tài)時間規(guī)整算法從兩個不同長度序列中找到相似的匹配點,從而計算匹配點的距離即獲得了兩個序列的距離。為了提高動態(tài)時間規(guī)整算法的魯棒性,為動態(tài)時間規(guī)整算法設(shè)定以時間幀順序依序進行計算的約束條件,令動態(tài)時間規(guī)整算法以時間幀順序依序進行算法訓練,避免動態(tài)時間規(guī)整算法在查找匹配點時返回已遍歷過的時間幀進行查找。約束了動態(tài)時間規(guī)整算法的連續(xù)性和單調(diào)性,提高了算法的魯棒性。
利用訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)中的語音內(nèi)容特征序列、訓練參照語音數(shù)據(jù)和訓練模仿語音數(shù)據(jù)的相似度評分值、所獲得的語音音調(diào)距離、語音時長距離、語音停頓距離以及語音重讀距離對支持向量順序回歸算法進行算法訓練。該支撐向量順序回歸算法作為分數(shù)映射模型,針對兩個序列的距離給出合適的相似度評分值。
作為本發(fā)明的一較佳實施方式,提取參照語音信息中的參照語音特征序列集,包括:
如圖3所示,執(zhí)行步驟S201,參照語音信息。提供參照語音信息進行特征提取。執(zhí)行步驟S202,語音識別,對參照語音信息進行語音識別。執(zhí)行步驟S205,通過語音識別輸出參照語音信息的語音內(nèi)容特征序列,語音停頓特征序列以及語音時長特征序列并加入到參照語音特征序列集總。語音識別子模塊用于對參照語音信息進行語音識別,識別出語音內(nèi)的文本內(nèi)容、語音中單詞音素邊界,從而獲得對應(yīng)該參照語音信息的語音內(nèi)容特征序列、語音停頓特征序列和語音時長特征序列,語音停頓特征序列通過語音識別檢測出哪些語音段是發(fā)音段,哪些語音段是靜音段,這種發(fā)音段和靜音段交錯代表了人說話的節(jié)奏,即語音停頓特征序列,語音時長特征序列利用語音識別技術(shù)和強制切分算法,可以獲得單詞和音素的起止時間點,進一步計算出單詞和音素的發(fā)音時間長度。執(zhí)行步驟S203,基頻提取,對參照語音信息進行基頻提取,執(zhí)行步驟S206,通過基頻提取輸出參照語音信息的語音音調(diào)特征序列并加入到參照語音特征序列集中。利用基頻提取技術(shù)從語音中獲得基頻曲線,以代表語音音調(diào)特征序列。執(zhí)行步驟S204,能量提取,對參照語音信息進行能量提取,執(zhí)行步驟S207,通過能量提取輸出參照語音信息的語音重讀特征序列并加入到參照語音特征序列集中。重讀特征可從語音中提取能量變化曲線,能量代表人說話的力度和音量,分析能量曲線可獲得哪些單詞是強度重讀的,哪些是非重讀的。
作為本發(fā)明的一較佳實施方式,提取模仿語音信息中的模仿語音特征序列集,包括:對模仿語音信息進行語音識別以獲得對應(yīng)的語音內(nèi)容特征序列、語音停頓特征序列以及語音時長特征序列并加入到模仿語音特征序列集中;對模仿語音信息進行基頻提取以獲得對應(yīng)的語音音調(diào)特征序列并加入到模仿語音特征序列集中;對模仿語音信息進行能量提取以獲取對應(yīng)的語音重讀特征序列并加入到模仿語音特征序列集中。
本發(fā)明基于語音相似度的語音評測方法及系統(tǒng)的有益效果為:
本發(fā)明的語音相似度的評測方法及系統(tǒng),能夠直觀的為學習者給出相似度的評分,為語言學習的模仿學習方法提供了有效的反饋,能夠促進學習者在語言學習中反復模仿練習,以提高學習者的語言學習水平(口語水平)和學習效果,進而為學習者的語音學習提供直接的幫助。本發(fā)明的語音相似度的評測方法在對發(fā)音正確性進行考核的基礎(chǔ)上,增加了對發(fā)音模仿程度的評估,可幫助用戶有針對性的進行模仿練習,提高發(fā)音水平。
以上結(jié)合附圖實施例對本發(fā)明進行了詳細說明,本領(lǐng)域中普通技術(shù)人員可根據(jù)上述說明對本發(fā)明做出種種變化例。因而,實施例中的某些細節(jié)不應(yīng)構(gòu)成對本發(fā)明的限定,本發(fā)明將以所附權(quán)利要求書界定的范圍作為本發(fā)明的保護范圍。