專利名稱:一種非母語語音識別系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別系統(tǒng)及方法,特別涉及基于混合模型狀態(tài)修正的非母語語 音識別系統(tǒng)及方法。
背景技術(shù):
隨著現(xiàn)代社會信息的全球化,非母語語音識別成為語音識別技術(shù)領(lǐng)域研究熱點 之一。對非母語的語音識別相對母語的語音識別而言,識別性能將會大幅度降低, 特別是對于有著嚴重口音的說話人。如何在保證語音識別系統(tǒng)在僅有少量非母語訓(xùn) 練數(shù)據(jù)的前提下,對帶有不同程度口音的非母語語音識別性能的提高是非母語語音 識別研究的重點。
文獻(Bohn, O.-S., Flege, J.E., "The production of new and similar vowels by adult German learners of English."岡Stud. Second Lang. Acquis. 14, 131-158, 1992.)指出,
非母語說話人在進行目標語言發(fā)音時,可能會用說話人自身的母語發(fā)音進行替代, 或者產(chǎn)生出有說話人母語發(fā)音特點和目標語言發(fā)音特點相結(jié)合的發(fā)音。這個結(jié)論啟 發(fā)我們,說話人自身的母語語言訓(xùn)練數(shù)據(jù),可能對說話人非母語語音識別有幫助, 特別是針對那些發(fā)音口音較重的語音數(shù)據(jù)。
當前,說話人自適應(yīng)技術(shù)(如MAP、 MLLR)已廣泛的應(yīng)用于處理非母語語音 識另U中(Z. V/ang, T. Schultz, A. Waibel, "Comparison of acoustic model adaptation techniques on non-native speech" [C], Proc. ICASSP 2003.)。這類方法主要是通過對少 量非母語語音數(shù)據(jù)進行自適應(yīng),使得母語發(fā)音聲學(xué)模型能夠在一定程度上逼近非母 語的發(fā)音特點。在這些方法中,自適應(yīng)數(shù)據(jù)和測試數(shù)據(jù)的相似性是決定識別性能好 壞的關(guān)鍵因素。盡管自適應(yīng)技術(shù)在提高非母語語音識別性能上有貢獻,但通過自適 應(yīng)以后的模型在非母語語音識別中的性能相比母語語音模型在母語語音識別的性 能,仍然較低。文獻(J. Humphries, P. Woodland, and D. Pearce. "Using accent-specific pronunciation modeling for robust speech recognition." [C] In Proc. ICSLP ,96, pages 2324-2327, Philadelphia, PA, October 1996.)研究了自適應(yīng)算法的局限性,指出導(dǎo)致非 母語語音識別率低的主要原因來自于說話人母語語系中無法涵蓋的非母語語言發(fā) 音。如何使非母語語音聲學(xué)模型較好的模擬出這類語言發(fā)音是非母語語音識別研究 工作的重點。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于狀態(tài)修正的非母語語音識 別系統(tǒng)及方法,該系統(tǒng)及方法通過不同模型間的狀態(tài)映射,利用說話人母語的聲學(xué) 模型在狀態(tài)級別上對非母語聲學(xué)模型進行修正,從而得到更為符合非母語發(fā)音特點 的模型。
為了實現(xiàn)上述目的,本發(fā)明提出的一種非母語語音識別系統(tǒng),包括 一非母語語音接口,用于采集非母語語音數(shù)據(jù),并將該非母語語音數(shù)據(jù)送入非
母語狀態(tài)強制對齊模塊和母語狀態(tài)解碼模塊。
一母語模型模塊,用于向母語狀態(tài)解碼模塊和非母語狀態(tài)修正模型解碼模塊提
供母語聲學(xué)模型。
一非母語模型模塊,用于向非母語狀態(tài)強制對齊模塊和非母語狀態(tài)修正模型解 碼模塊提供非母語聲學(xué)模型。
一母語狀態(tài)解碼模塊,用于根據(jù)標準母語聲學(xué)模型對非母語語音數(shù)據(jù)進行解碼, 得到母語語音狀態(tài)級分段信息,即母語語音狀態(tài)解碼信息,并將母語語音狀態(tài)級分 段信息送入母語與非母語狀態(tài)相似度矩陣計算模塊。
一非母語狀態(tài)強制對齊模塊,用于根據(jù)非母語聲學(xué)模型將非母語語音數(shù)據(jù)進行 強制對齊,得到非母語語音狀態(tài)級分段信息,即非母語語音狀態(tài)參考信息,并將非 母語語音狀態(tài)級分段信息送入母語與非母語狀態(tài)相似度矩陣計算模塊。
一母語與非母語狀態(tài)相似度矩陣計算模塊,用于將母語語音狀態(tài)級分段信息和 非母語語音狀態(tài)級分段信息在時間上對齊,當母語語音狀態(tài)與非母語語音狀態(tài)的重 合時間大于預(yù)先設(shè)定的門限值時,認為這兩個狀態(tài)出現(xiàn)一次"同現(xiàn)",統(tǒng)計出所有的 "同現(xiàn)"情況,并計算得到非母語語音狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣,并 將該相似度矩陣信息送入母語與非母語狀態(tài)映射表計算模塊。
一母語與非母語狀態(tài)映射表計算模塊,用于根據(jù)相似度矩陣計算得到狀態(tài)映射
表。及
一非母語狀態(tài)修正模型解碼模塊,用于在語音識別的解碼過程中,用狀態(tài)映射 表中找到的母語聲學(xué)模型狀態(tài)修正相應(yīng)的非母語聲學(xué)模型狀態(tài),得到修正后的非母 語聲學(xué)模型;最終利用該修正后的非母語聲學(xué)模型完成非母語語音識別。
其中,所述非母語語音狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣通過以下公式得
到Zcount(tjs》
n=]
其中,M^分別為中文和英文的狀態(tài)數(shù)量;As"M^)為相似度矩陣;A"為矩 陣的第產(chǎn)行/列元素;tj為非母語語音狀態(tài),s'為母語語音狀態(tài);As't(m'n), Z=l……M, 7=1……W; count (t」|S')是母語語音狀態(tài)s'和非母語語音狀態(tài)tj之 間的"同現(xiàn)"出現(xiàn)次數(shù)。
其中,所述狀態(tài)映射表通過以下方式得到
如果A"矩陣中浐行Z列元素是/列的第n大元素,則狀態(tài)""是狀態(tài)/的第 n候選修正狀態(tài);例如如果A'J矩陣中產(chǎn)行/列元素是矩陣中,列的最大元素, 這意味著來自相應(yīng)語言的狀態(tài)產(chǎn)和狀態(tài)戶最為相似,狀態(tài)產(chǎn)是狀態(tài)/的第一候選 修正狀態(tài)。如果"行,列元素是,列的第二大元素,那么狀態(tài)"是狀態(tài)/的第二 候選修正狀態(tài)。如此類推,每個非母語語言的狀態(tài)都能在矩陣中找到母語語言的n 個候選修正狀態(tài)(1KM)。
其中,所述非母語狀態(tài)修正模型解碼模塊在語音識別解碼過程中,對于觀察值 A ,用n個候選狀態(tài)修正以后的非母語狀態(tài)"的觀察概率^"")變?yōu)?br>
p fc (ot) = ,* (ot )tor + (1 - ,嚴(ot )咖
/=1
其中,"表示非母語狀態(tài)的修正權(quán)重,^是相應(yīng)第產(chǎn)個候選狀態(tài),"是候選數(shù); /V"L和分別表示非母語狀態(tài)/和母語狀態(tài)產(chǎn)在觀察值^下的原始觀
察概率。
本發(fā)明提供的一種非母語語音識別方法,包括如下步驟
(1) 非母語語音接口采集一定數(shù)量的非母語語音數(shù)據(jù),用于得到模型狀態(tài)映射表。
(2) 非母語狀態(tài)強制對齊模塊用非母語聲學(xué)模型對非母語語音數(shù)據(jù)進行強制對 齊,得到非母語語音狀態(tài)級分段信息,即非母語語音狀態(tài)參考信息。
(3) 母語狀態(tài)解碼模塊用標準母語聲學(xué)模型對非母語語音數(shù)據(jù)進行解碼,得到
母語語音狀態(tài)級分段信息,即母語語音狀態(tài)解碼信息。
(4) 母語與非母語狀態(tài)相似度矩陣計算模塊將得到的非母語語音狀態(tài)級分段信
息和母語語音狀態(tài)級分段信息在時間上對齊,當某兩個狀態(tài)的重合時間大于預(yù)先設(shè) 定的門限值時,這兩個狀態(tài)出現(xiàn)一次"同現(xiàn)"。
(5) 母語與非母語狀態(tài)相似度矩陣計算模塊統(tǒng)計出所有的"同現(xiàn)"情況并計算
7得到非母語語音狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣。
(6) 母語與非母語狀態(tài)映射表計算模塊根據(jù)該相似度矩陣得到狀態(tài)映射表。
(7) 非母語狀態(tài)修正模型解碼模塊根據(jù)得到的狀態(tài)映射表,在語音識別的解碼 過程中,用映射表中找到的母語聲學(xué)模型狀態(tài)修正相應(yīng)的非母語聲學(xué)模型狀態(tài),得 到修正后的非母語聲學(xué)模型。
本發(fā)明的優(yōu)點在于
(1) 本發(fā)明的非母語語音識別系統(tǒng)及方法使非母語聲學(xué)模型更適應(yīng)帶有母語口 音的非母語語音特點。
(2) 本發(fā)明的非母語語音識別系統(tǒng)及方法,采用不同模型間的狀態(tài)映射,利用 說話人母語的聲學(xué)模型在狀態(tài)級別上對非母語聲學(xué)模型進行修正,解碼器根據(jù)得到 的狀態(tài)映射表實現(xiàn)非母語語音識別?;旌夏P蜖顟B(tài)修正的非母語語音識別系統(tǒng)對非 母語語音的識別率與未采用該方法修正過的識別系統(tǒng)相比較;并且在不增加任何非 母語語音訓(xùn)練數(shù)據(jù),僅依靠標準母語訓(xùn)練數(shù)據(jù)的前提下,對帶有母語口音的非母語 語音的識別情況相對未采用該方法修正過的識別系統(tǒng)有了明顯提高;同時系統(tǒng)識別 語音的速度并未明顯下降。
(3) 本發(fā)明的非母語語音識別系統(tǒng)及方法實現(xiàn)了利用母語聲學(xué)模型對非母語聲 學(xué)模型的修正,提高系統(tǒng)對非母語語音的識別性能。相比語音自適應(yīng)技術(shù),基于混 合模型狀態(tài)的修正方法不需要增加更多的非母語訓(xùn)練數(shù)據(jù)。由于用于修正的母語聲 學(xué)模型的規(guī)??梢钥刂圃诤苄〉姆秶拚蟮哪P驮谟嬎闼俣壬弦膊粫忻黠@增 加。我們進行了大量實網(wǎng)數(shù)據(jù)的測試,結(jié)果顯示在識別性能方面,由于該系統(tǒng)在狀 態(tài)級別上的映射信息是基于解碼器輸出的狀態(tài)序列情況進行統(tǒng)計得到的,這種準則 較為直接,基本能真實的反映出兩種語言狀態(tài)間的相似程度。與未使用該方法的系 統(tǒng)相比,基于混合模型狀態(tài)修正的非母語語音識別系統(tǒng)對非母語語音的識別錯誤率 相對下降可達到5-10%。
圖1本發(fā)明的基于混合模型狀態(tài)修正算法的非母語語音識別系統(tǒng)及方法的基本 原理框圖2本發(fā)明的非母語語音識別系統(tǒng)的流程框圖3本發(fā)明的具體實施例母語語音狀態(tài)與非母語語音狀態(tài)之間的"同現(xiàn)"說明圖。
具體實施例方式
下面結(jié)合附圖對本發(fā)明的具體實施方式
做進一步詳細描述
圖1是基于混合模型狀態(tài)修正算法的非母語語音識別系統(tǒng)的基本原理框圖,它 描述了混合模型狀態(tài)修正算法的核心組成成分,主要由幾個部分構(gòu)成非母語語音、 母語/非母語聲學(xué)模型、強制對齊、解碼、狀態(tài)映射表生成以及非母語狀態(tài)修正模型 的解碼。圖2是基于混合模型狀態(tài)修正算法的非母語語音識別系統(tǒng)的具體實施流程 框圖。
本發(fā)明涉及的混合模型狀態(tài)修正算法的非母語語音識別的核心技術(shù)在于狀態(tài)映 射表的獲取(如圖2所示的模塊1到7)?;旌夏P蜖顟B(tài)修正算法是一種新型的基于 相似度矩陣的狀態(tài)映射算法,通過對同現(xiàn)次數(shù)的統(tǒng)計,得到兩種語言狀態(tài)間的對應(yīng) 關(guān)系,利用該關(guān)系確定用于修正的狀態(tài)對。
本發(fā)明的系統(tǒng)包括 一非母語語音接口,用于采集非母語語音數(shù)據(jù),并將該非 母語語音數(shù)據(jù)送入非母語狀態(tài)強制對齊模塊和母語狀態(tài)解碼模塊。
一母語模型模塊,用于向母語狀態(tài)解碼模塊和非母語狀態(tài)修正模型解碼模塊提 供母語聲學(xué)模型。
一非母語模型模塊,用于向非母語狀態(tài)強制對齊模塊和非母語狀態(tài)修正模型解 碼模塊提供非母語聲學(xué)模型。
一母語狀態(tài)解碼模塊,用于根據(jù)標準母語聲學(xué)模型對非母語語音數(shù)據(jù)進行解碼, 得到母語語音狀態(tài)級分段信息,即母語語音狀態(tài)解碼信息,并將母語語音狀態(tài)級分 段信息送入母語與非母語狀態(tài)相似度矩陣計算模塊。
一非母語狀態(tài)強制對齊模塊,用于根據(jù)非母語聲學(xué)模型將非母語語音數(shù)據(jù)進行 強制對齊,得到非母語語音狀態(tài)級分段信息,即非母語語音狀態(tài)參考信息,并將非 母語語音狀態(tài)級分段信息送入母語與非母語狀態(tài)相似度矩陣計算模塊。
一母語與非母語狀態(tài)相似度矩陣計算模塊,用于將母語語音狀態(tài)級分段信息和 非母語語音狀態(tài)級分段信息在時間上對齊,當母語語音狀態(tài)與非母語語音狀態(tài)的重 合時間大于預(yù)先設(shè)定的門限值時,認為這兩個狀態(tài)出現(xiàn)一次"同現(xiàn)",統(tǒng)計出所有的 "同現(xiàn)"情況,并計算得到非母語語音狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣,并 將該相似度矩陣信息送入母語與非母語狀態(tài)映射表計算模塊。
一母語與非母語狀態(tài)映射表計算模塊,用于根據(jù)相似度矩陣計算得到狀態(tài)映射
表。及
一非母語狀態(tài)修正模型解碼模塊,用于在語音識別的解碼過程中,用狀態(tài)映射 表中找到的母語聲學(xué)模型狀態(tài)修正相應(yīng)的非母語聲學(xué)模型狀態(tài),得到修正后的非母語聲學(xué)模型;最終利用該修正后的非母語聲學(xué)模型完成非母語語音識別。 本發(fā)明的具體計算流程如下(如圖2)
第一步,非母語狀態(tài)參考答案選擇一定量的非母語語音數(shù)據(jù)(非母語語音接 口 1),這些數(shù)據(jù)用于生成母語對非母語的相似度矩陣。用非母語聲學(xué)模型(非母語 模型模塊2)對這些數(shù)據(jù)進行強制對齊(Forced-alignment),得到非母語狀態(tài)序列, 同時記錄下每個狀態(tài)的時間信息(非母語狀態(tài)強制對齊模塊4)。
第二步,母語狀態(tài)識別結(jié)果:用母語聲學(xué)模型(母語模型模塊3)對第一步中的 非母語語音數(shù)據(jù)進行解碼(Decode),得到母語狀態(tài)序列,同時記錄下每個狀態(tài)的時 間信息(母語狀態(tài)解碼模塊5)。
第三步,"同現(xiàn)"準則通過第一步和第二步,在同一批非母語語音數(shù)據(jù)上,分
別得到了非母語和母語的狀態(tài)序列以及相應(yīng)的時間段信息,根據(jù)這兩個狀態(tài)序列在
時間軸上的位置關(guān)系,可以定義兩個狀態(tài)的"同現(xiàn)"現(xiàn)象。在計算"同現(xiàn)"前,首
先定義一個"同現(xiàn)"矩陣,該矩陣為(母語語言狀態(tài)個數(shù)*非母語語言狀態(tài)個數(shù))的
矩陣,每個元素位置上記錄了對應(yīng)行和列的狀態(tài)之間的"同現(xiàn)"次數(shù)。在本發(fā)明所
述方法的實驗中,定義當兩個狀態(tài)在時間段上重疊的時間占到非母語語言狀態(tài)持續(xù)
時間一半時,算作一次"同現(xiàn)"。當非母語語言狀態(tài)產(chǎn)和母語語言狀態(tài)/出現(xiàn)一次
"同現(xiàn)"時,在對應(yīng)同現(xiàn)矩陣的產(chǎn)行/列的位置上加l記錄。如圖3所示,母語語
音狀態(tài)"aa_native"和非母語語音狀態(tài)"ae—normative"之間出現(xiàn)的一次"同現(xiàn)"。
第四步,狀態(tài)相似度矩陣計算(母語與非母語狀態(tài)相似度矩陣計算模塊6):若 設(shè)定M,W分別為母語語言和非母語語言狀態(tài)個數(shù),As,t(M^)為從同現(xiàn)矩陣派生出來
的相似度矩陣,矩陣元素記錄了母語語言和非母語語言狀態(tài)之間的相似度情況。A" 為矩陣產(chǎn)行/列的元素,設(shè)定tj為非母語語言狀態(tài),s'為母語語言狀態(tài),兩者之間 的相似度計算為
一 count(tjlSi) Zcount(tjs,)
" (1) 其中, e As,t(M,N), /=1……m,"……7v。
第五步,得到相似度矩陣后,根據(jù)該矩陣得到狀態(tài)映射表(母語與非母語狀態(tài) 映射表計算模塊7)。如果A'j矩陣中產(chǎn)行,列元素是矩陣中/列的最大元素,這 意味著來自相應(yīng)語言的狀態(tài)產(chǎn)和狀態(tài)產(chǎn)最為相似,狀態(tài)產(chǎn)是狀態(tài)/的第一候選修正 狀態(tài)。如果"行,列元素是/列的第二大元素,那么狀態(tài)"是狀態(tài)Z的第二候選 修正狀態(tài)。如此類推,每個非母語語言的狀態(tài)都能在矩陣中找到母語語言的n個候
10選修正狀態(tài)(n<M)。
到此,我們基于混合模型狀態(tài)修正算法,得到了母語語言和非母語語言狀態(tài)間 的映射信息。
第六步,接下來根據(jù)得到的狀態(tài)間的映射關(guān)系,在解碼過程中用母語聲學(xué)模型 對非母語聲學(xué)模型進行修正(非母語狀態(tài)修正模型解碼模塊8)。根據(jù)第五步得到的 狀態(tài)映射表,在語音識別的解碼過程中,對于觀察值"',用n個候選狀態(tài)修正以后 的非母語狀態(tài)Z的觀察概率^V")變?yōu)?br>
;V (0() = ,, (。' L+(1—"《,* (。t )腳
M (2) 這里a表示非母語狀態(tài)的修正權(quán)重,"々是相應(yīng)第"個候選狀態(tài),"是候選數(shù)。 /V和^"),分別表示非母語狀態(tài)/和母語狀態(tài)產(chǎn)在觀察值A(chǔ)下的原始觀 察概率。
本發(fā)明的特點(1)使非母語聲學(xué)模型更適應(yīng)帶有母語口音的非母語語音特點 (2)提出一種新型基于混合模型狀態(tài)修正的非母語語音識別方法,(3)在僅依靠標 準母語聲學(xué)模型的前提下,提高系統(tǒng)對非母語語音的識別性能。
在進行基于給定語法的帶有中文口音的英文實網(wǎng)數(shù)據(jù)測試中顯示,基于混合模 型狀態(tài)修正算法的非母語語音識別系統(tǒng)在帶有中文口音的英文測試集上的錯誤率相 對未使用該方法的非母語語音識別系統(tǒng)下降5%-10% (相對值);計算速度相對于未 使用該方法的非母語語音識別系統(tǒng)降低20%-25% (相對值)。
權(quán)利要求
1、一種非母語語音識別系統(tǒng),其特征在于,所述系統(tǒng)包括一非母語語音接口,用于采集非母語語音數(shù)據(jù),并將該非母語語音數(shù)據(jù)送入非母語狀態(tài)強制對齊模塊和母語狀態(tài)解碼模塊;一母語模型模塊,用于向母語狀態(tài)解碼模塊和非母語狀態(tài)修正模型解碼模塊提供母語聲學(xué)模型;一非母語模型模塊,用于向非母語狀態(tài)強制對齊模塊和非母語狀態(tài)修正模型解碼模塊提供非母語聲學(xué)模型;一母語狀態(tài)解碼模塊,用于根據(jù)標準母語聲學(xué)模型對非母語語音數(shù)據(jù)進行解碼,得到母語語音狀態(tài)級分段信息,即母語語音狀態(tài)解碼信息,并將母語語音狀態(tài)級分段信息送入母語與非母語狀態(tài)相似度矩陣計算模塊;一非母語狀態(tài)強制對齊模塊,用于根據(jù)非母語聲學(xué)模型將非母語語音數(shù)據(jù)進行強制對齊,得到非母語語音狀態(tài)級分段信息,即非母語語音狀態(tài)參考信息,并將非母語語音狀態(tài)級分段信息送入母語與非母語狀態(tài)相似度矩陣計算模塊;一母語與非母語狀態(tài)相似度矩陣計算模塊,用于將母語語音狀態(tài)級分段信息和非母語語音狀態(tài)級分段信息在時間上對齊,當母語語音狀態(tài)與非母語語音狀態(tài)的重合時間大于預(yù)先設(shè)定的門限值時,認為這兩個狀態(tài)出現(xiàn)一次“同現(xiàn)”,統(tǒng)計出所有的“同現(xiàn)”情況,并計算得到非母語語音狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣,并將該相似度矩陣信息送入母語與非母語狀態(tài)映射表計算模塊;一母語與非母語狀態(tài)映射表計算模塊,用于根據(jù)相似度矩陣計算得到狀態(tài)映射表;及一非母語狀態(tài)修正模型解碼模塊,用于在語音識別的解碼過程中,用狀態(tài)映射表中找到的母語聲學(xué)模型狀態(tài)修正相應(yīng)的非母語聲學(xué)模型狀態(tài),得到修正后的非母語聲學(xué)模型;最終利用該修正后的非母語聲學(xué)模型完成非母語語音識別。
2、 根據(jù)權(quán)利要求1所述的非母語語音識別系統(tǒng),其特征在于,所述非母語語音 狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣通過以下公式得到<formula>formula see original document page 2</formula>其中,M,W分別為中文和英文的狀態(tài)數(shù)量;As,"M^)為相似度矩陣; "為矩 陣的第產(chǎn)行/列元素;tj為非母語語音狀態(tài),s'為母語語音狀態(tài);As,t(m'n), z=l……^, 乂=1……iV; count (、 |sO是母語語音狀態(tài)Sj和非母語語音狀態(tài)tj之 間的"同現(xiàn)"出現(xiàn)次數(shù)。
3、 根據(jù)權(quán)利要求1所述的非母語語音識別系統(tǒng),其特征在于,所述狀態(tài)映射表 通過以下方式得到如果A"矩陣中^行,列元素是,列的第n大元素,則狀態(tài)Z是狀態(tài)/的第 n候選修正狀態(tài);每個非母語語言的狀態(tài)都能在矩陣中找到母語語言的n個候選修正 狀態(tài),其中,n<M。
4、 根據(jù)權(quán)利要求1所述的非母語語音識別系統(tǒng),其特征在于,所述非母語狀態(tài) 修正模型解碼模塊在語音識別解碼過程中,對于觀察值0',用n個候選狀態(tài)修正以 后的非母語狀態(tài)Z的觀察概率^"")變?yōu)?A) = (ot )tor+(i - "々/v (。t )卿其中,"表示非母語狀態(tài)的修正權(quán)重,"々是相應(yīng)第"個候選狀態(tài),"是候選數(shù); 和分別表示非母語狀態(tài)"和母語狀態(tài)產(chǎn)在觀察值^下的原始觀察概率。
5、 一種非母語語音識別方法,包括如下步驟(1) 非母語語音接口釆集一定數(shù)量的非母語語音數(shù)據(jù),用于得到模型狀態(tài)映射表;(2) 非母語狀態(tài)強制對齊模塊用非母語聲學(xué)模型對非母語語音數(shù)據(jù)進行強制對 齊,得到非母語語音狀態(tài)級分段信息,即非母語語音狀態(tài)參考信息;(3) 母語狀態(tài)解碼模塊用標準母語聲學(xué)模型對非母語語音數(shù)據(jù)進行解碼,得到 母語語音狀態(tài)級分段信息,即母語語音狀態(tài)解碼信息;(4) 母語與非母語狀態(tài)相似度矩陣計算模塊將得到的非母語語音狀態(tài)級分段信 息和母語語音狀態(tài)級分段信息在時間上對齊,當某兩個狀態(tài)的重合時間大于預(yù)先設(shè)定的門限值時,這兩個狀態(tài)出現(xiàn)一次"同現(xiàn)";(5) 母語與非母語狀態(tài)相似度矩陣計算模塊統(tǒng)計出所有的"同現(xiàn)"情況并計算 得到非母語語音狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣;(6) 母語與非母語狀態(tài)映射表計算模塊根據(jù)該相似度矩陣得到狀態(tài)映射表;(7) 非母語狀態(tài)修正模型解碼模塊根據(jù)得到的狀態(tài)映射表,在語音識別的解碼 過程中,用映射表中找到的母語聲學(xué)模型狀態(tài)修正相應(yīng)的非母語聲學(xué)模型狀態(tài),得 到修正后的非母語聲學(xué)模型。
6、 根據(jù)權(quán)利要求5所述的非母語語音識別方法,其特征在于,所述非母語語音 狀態(tài)對應(yīng)于母語語音狀態(tài)的相似度矩陣通過以下公式得到-count(tjlSj) Zcount(tn|Si)n=l其中,M,W分別為中文和英文的狀態(tài)數(shù)量;As,t(M'W)為相似度矩陣;、j為矩 陣的第產(chǎn)行/列元素;tj為非母語語音狀態(tài),Si為母語語音狀態(tài);As,t(m'n), z=l……^, "1……count (tj |s')是母語語音狀態(tài)s'和非母語語音狀態(tài)tj之 間的"同現(xiàn)"出現(xiàn)次數(shù)。
7、 根據(jù)權(quán)利要求5所述的非母語語音識別方法,其特征在于,所述狀態(tài)映射表 通過以下方式得到如果A"矩陣中^行Z列元素是"列的第n大元素,則狀態(tài)^是狀態(tài)/的第 n候選修正狀態(tài);每個非母語語言的狀態(tài)都能在矩陣中找到母語語言的n個候選修正 狀態(tài),其中,n<M。
8、 根據(jù)權(quán)利要求5所述的非母語語音識別方法,其特征在于,所述非母語狀態(tài) 修正模型解碼模塊在語音識別解碼過程中,對于觀察值^,用n個候選狀態(tài)修正以 后的非母語狀態(tài)^的觀察概率"?(A)變?yōu)?<formula>formula see original document page 4</formula>其中,"表示非母語狀態(tài)的修正權(quán)重,"々是相應(yīng)第"個候選狀態(tài), 〃是候選數(shù);々")'。f和;v"),分別表示非母語狀態(tài)/和母語狀態(tài)產(chǎn)在觀察值^下的原始觀察概率。
全文摘要
本發(fā)明涉及一種基于混合模型狀態(tài)修正的非母語語音識別系統(tǒng)及方法。該系統(tǒng)包括非母語語音接口、母語模型模塊、非母語模型模塊、母語狀態(tài)解碼模塊、非母語狀態(tài)強制對齊模塊、母語與非母語狀態(tài)相似度矩陣計算模塊、母語與非母語狀態(tài)映射表計算模塊及非母語狀態(tài)修正模型解碼模塊,該系統(tǒng)及方法通過不同模型間的狀態(tài)映射,利用說話人母語的聲學(xué)模型在狀態(tài)級別上對非母語聲學(xué)模型進行修正,從而得到更為符合非母語發(fā)音特點的模型。該系統(tǒng)及方法有如下優(yōu)點在不增加任何非母語語音訓(xùn)練數(shù)據(jù),僅依靠說話人母語訓(xùn)練數(shù)據(jù)的前提下,相對未采用該方法修正過的識別系統(tǒng)的識別性能有明顯提高;同時系統(tǒng)識別語音的速度并未明顯降低,具有很高的實用性。
文檔編號G10L15/06GK101650943SQ20081023989
公開日2010年2月17日 申請日期2008年12月19日 優(yōu)先權(quán)日2008年12月19日
發(fā)明者張晴晴, 潘接林, 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司