專利名稱:用于特殊領(lǐng)域或方言的語音識別器的制作方法
1本發(fā)明背景1.1發(fā)明領(lǐng)域本發(fā)明涉及語音識別系統(tǒng),特別是,本發(fā)明涉及一種用于生成自適應(yīng)語音識別器的生成器此外,本發(fā)明還涉及一種生成該自適應(yīng)語音識別器的方法,所述方法由所述生成器執(zhí)行。
1.2現(xiàn)有技術(shù)說明和缺陷語音識別系統(tǒng)二十多年來使用Hidden Markov模型捕獲聲學(xué)子字單元,例如音素或子音素前后關(guān)系的統(tǒng)計特性。在例如L.Rabiner在1989年的IEEE學(xué)報Vol.77(2),pp.257-285上發(fā)表的題為“HiddenMarkov模型及在語音識別中的選擇應(yīng)用教程”,或X.Huang和Y.Ariki以及M.Jack1990年在Edinburgh的Edinburgh大學(xué)雜志的信息技術(shù)叢書中發(fā)表的題為“用于語音別識的Hidden Markov模型”中可找到對該主題的概述。
Hidden Markov模型是工作在有限狀態(tài)集S={s1,…,sN}的隨機自動機并允許觀察每個時間t,t=1,2,…,Ta被占用的狀態(tài)。它是由多元組HMM=(π,A,B)定義的,其中初始狀態(tài)向量∏=[∏i]=[P(S(1)=Si)], 1≤i≤N(1)給出HMM在t=1時占據(jù)狀態(tài)Si的可能性,以及[A]=[aij]=[P(S(t+1)=Sj|S(t)=Si)], 1≤i,j≤N,(2)給出從狀態(tài)Si轉(zhuǎn)換到Sj的可能性,假設(shè)第一級時間不變處理。在離散HMM的情況下,從有限字母O={O1,…,OL}得出觀察結(jié)果O1,和B=[bkl]=[p(O1|S(t)=Sk)], 1≤k≤N,1≤l≤L, (3)是給出狀態(tài)Sk中觀察到O1的可能性的隨機矩陣。
對于當(dāng)今現(xiàn)有技術(shù)中提供大詞匯量連續(xù)語音識別系統(tǒng)的(半)連續(xù)HMM,該觀察是(連續(xù)評估的)特征矢量C,并由該可能性密度函數(shù)定義該輸出可能性B=[bkl]=[P(C1|S(t)=Sk)], 1≤k≤N, 1≤l≤L, (4)通常由Nk高斯的混合逼近該特征矢量的實際分布P(C1|Sk)p(C1|Sk)=Σi=1NkωikN(C1|μik,Σik)------(5)]]>=Σi=1Nkωik·|2ΠΣik|-1/2·exp(-(C1-μik)TΣik-1(C1μik)/2);------(6)]]>在識別器訓(xùn)練期間,從大量錄制的語音數(shù)據(jù)估算該混合分量加權(quán)ω,平均值μ,和協(xié)方差矩陣∑。解決該問題的一種熟知過程是EM算法(例如由A.Dempster和N.Laird以及D.Rubin在1977年的皇家統(tǒng)計社會雜志,叢書B(方法學(xué))的Vol.39(1),pp.1-38中發(fā)表的“通過EM算法來自不完整數(shù)據(jù)的最大似然”一文中所說明的),通常利用正向-反向算法估算Markov模型參數(shù)∏,A,B(例如由L.Rabiner在1989年的IEEE學(xué)報Vol.77(2),pp.257-285中發(fā)表的“Hidden Markov模型及在語音識別中的選擇應(yīng)用教程”一文中說明的)。
L.Bahl,S.Balakrishnan-Aiyer,J.Bellegarda,M.Franz,P.Gopalakrishnan,D.Nahamoo,M.Novak,M.Padmanabhan,M.Picheny和S.Roukos在1995年底特律的有關(guān)聲學(xué)、語音、和信號處理的IEEE國際會議的會刊上的PP.41-44發(fā)表的“有關(guān)ARPA華爾街日報任務(wù)的IBM大詞匯連續(xù)語音識別系統(tǒng)的性能”,或L.Bahl,P.deSouza,P.Gopalakrishnan,D.Nahamoo和M.Picheny在1993年Minneapolis的有關(guān)聲學(xué)、語音、和信號處理的IEEE國際會議的會刊上發(fā)表的“用于連續(xù)語音識別的前后相關(guān)的矢量量化”中描述了訓(xùn)練任意語言的語音識別器的某些細節(jié)。由于它提供了本發(fā)明的基礎(chǔ),下面簡要概述該過程。該算法假設(shè)存在標(biāo)記訓(xùn)練語音資料庫和與講話者無關(guān)的識別器,能夠用來計算所講的話與語音信號之間的初始校準。在按幀計算逆頻特征(cepstral feature)與其第一和第二級衍生字之后,將維特比算法用于選擇與該發(fā)音匹配最好的語音基本形式。在Viterbi,A.J.,于1967年的有關(guān)信息理論的IEEE論文集Vol.13,pp.260-269發(fā)表的用于卷積碼的誤差界和漸近優(yōu)化解碼算法一文中可找到維特比算法的概述。
由于聲學(xué)特性矢量在不同的前后關(guān)系中表現(xiàn)出明顯變化,識別導(dǎo)致特定變化的語音前后關(guān)系是很重要的。為此,根據(jù)在特性矢量中觀察的變化使標(biāo)記訓(xùn)練數(shù)據(jù)通過將前后關(guān)系分成同級別的雙擇判決網(wǎng)絡(luò)(binary decision network)。使用多維高斯混合模型模擬屬于由該判決網(wǎng)絡(luò)的終端節(jié)點(葉子)表示的每一級的特性矢量。這些模型用作一組前后相關(guān)的連續(xù)參數(shù)HMM的初始觀察密度,并通過運行在經(jīng)過幾次迭代之后收斂到局部最佳的正向-后向算法進一步精選。前后相關(guān)的HMM和高斯的總數(shù)都由上邊界的規(guī)范限定并取決于訓(xùn)練數(shù)據(jù)的數(shù)量和內(nèi)容。
估算模型參數(shù)和相關(guān)的前后關(guān)系所需的大量數(shù)據(jù)以及需要運行一些正向-后向迭代這兩者使語音識別器的訓(xùn)練耗費很多處理時間。此外,如果講話人的發(fā)音與識別器訓(xùn)練期間的那些觀察不同,他們必須面對識別準確性的大幅下降。這可能是由采集的數(shù)據(jù)與任務(wù)領(lǐng)域之間的不匹配所引起的聲學(xué)模型訓(xùn)練不充分造成的。這可能是大部分市場上可買到的語音識別產(chǎn)品(像例如IBM ViaVoice,Dragon Naturally Speaking,Kurzweill)即使不強迫,至少是推薦新用戶朗讀大約50-250個句子的注冊正文,以便重新估算與講話人有關(guān)的模型參數(shù)的主要原因。
對于重新估算處理,在識別器訓(xùn)練期間采用例如象高斯混合觀察的最大歸納估算這樣的講話人自適應(yīng)技術(shù)(MAP自適應(yīng)),例如參見J.Gauvain和C.Lee在1994年的IEEE論文集,語音和音頻處理Vol.2(2),pp.291-298上發(fā)表的題為“Markov鏈的多元高斯觀察的最大歸納估算”,或最大似然線性識別MLLR自適應(yīng)),例如參見C.Leggetter和P.Woodland在1995年的計算機語音和語言Vol.9,pp.171-185上發(fā)表的“用于連續(xù)密度Hidden Markov模型的講話人自適應(yīng)的最大似然線性回歸”一文。
1.3本發(fā)明的目的為了解決以上問題,本發(fā)明的目的是減少個人最終用戶訓(xùn)練努力和改進與講話人無關(guān)的識別準確性。
本發(fā)明進一步的目的是改進開發(fā)新的自適應(yīng)語音識別器的便易性和快捷性。
2發(fā)明概要和優(yōu)點本發(fā)明的目的是由獨立權(quán)利要求解決的。
本發(fā)明的目的由權(quán)利要求1解決。
根據(jù)本申請描述的自適應(yīng)語音識別器的生成器基于一種明確但任意的基本語言的基本語音識別器201。該生成器還包括用于生成所述自適應(yīng)語音識別器的附加語音數(shù)據(jù)語音資料庫202。所述附加語音數(shù)據(jù)語音資料庫包括一批特殊領(lǐng)域的語音數(shù)據(jù)和/或特殊方言語音數(shù)據(jù)。此外,所述生成器包括利用講話人自適應(yīng)技術(shù)重新估算基本語音識別器的聲學(xué)模型參數(shù)的重新估算裝置203。用于生成自適應(yīng)語音識別器的所述重新估算裝置利用所述附加語音數(shù)據(jù)語音資料庫。
因此,本發(fā)明提出的技術(shù)實現(xiàn)了明顯減少個人最終用戶的訓(xùn)練努力,為特殊領(lǐng)域和方言的講話人提高了與講話人無關(guān)的識別準確性,和在特殊環(huán)境中為語音識別器迅速開發(fā)新數(shù)據(jù)文件。此外,還改善了非方言講話人的識別速度。
然而,在過去,講話人自適應(yīng)技術(shù)通常應(yīng)用于個人終端用戶語音數(shù)據(jù)并因此生成與講話人有關(guān)的語音識別器,在本發(fā)明中,它們應(yīng)用于從一些講話人采集特殊方言和/或領(lǐng)域的訓(xùn)練數(shù)據(jù)。這樣特別是(但不僅僅是)對給定方言和領(lǐng)域改進了與講話人無關(guān)的識別并減少個人終端用戶按他們的需要定制識別器所需的投資。
本發(fā)明另一重要方面是減少生成特殊語音識別器的努力而市場上可買到的其他工具包從定義子字單元和/或HMM拓撲結(jié)構(gòu)開始,并因此需要量相當(dāng)大的訓(xùn)練數(shù)據(jù),本方案從已經(jīng)訓(xùn)練的通用語音識別器開始。
如果在集成語音識別器中處理方言和/或特殊領(lǐng)域,所描述的方案提供可升級的(scalable)識別準確性。由于本發(fā)明與特殊方言和/或特殊領(lǐng)域完全無關(guān),可將它們以任何可能的組合合并。
此外,附加數(shù)據(jù)量(附加語音數(shù)據(jù)語音資料庫)非常適中。僅需要很少的針對特定領(lǐng)域或方言的附加數(shù)據(jù),除此之外,其價格較低并且容易采集。
最后,本發(fā)明使得明顯減少了該識別器預(yù)先訓(xùn)練所需的時間。因此,允許在特殊環(huán)境或組合環(huán)境迅速開發(fā)新數(shù)據(jù)文件。
權(quán)利要求2實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,可通過不監(jiān)督或監(jiān)督采集所述附加語音數(shù)據(jù)語音資料庫。
根據(jù)這種教導(dǎo),向這種教導(dǎo)的使用者提供了有關(guān)如何設(shè)置附加語音數(shù)據(jù)語音資料庫的完全的靈活性。
權(quán)利要求3實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述聲學(xué)模型是Hidden-Markov模型(HMM)。
因此,該教導(dǎo)可應(yīng)用于HMM技術(shù)。
因此,可用該教導(dǎo)進一步改進在語音識別領(lǐng)域最成功的技術(shù)之一-HMM方案。
權(quán)利要求4實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述講話人自適應(yīng)技術(shù)是最大后驗自適應(yīng)(MAP)或最大似然線性回歸自適應(yīng)(MLLR)。
這些方案還允許處理僅有少量訓(xùn)練數(shù)據(jù)可供使用的情況。特別是用這些講話人自適應(yīng)技術(shù)在自適應(yīng)語音識別器的識別準確性和生成速度方面達到了很好的自適應(yīng)結(jié)果。
權(quán)利要求5實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的該附加實施例,引入了用于任選地平滑重新估算聲學(xué)模型參數(shù)的平滑裝置204。
實驗表明附加平滑進一步改善了識別準確性和自適應(yīng)速度。特別是在有限的訓(xùn)練數(shù)據(jù)的情況下,這些改進特別重要。
權(quán)利要求6、7和8實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述平滑裝置執(zhí)行貝葉斯定理的平滑。充分的實驗表明平滑系數(shù)K在1至500的范圍可實現(xiàn)良好的效果。特別建議平滑系數(shù)在20至60的范圍內(nèi)。
權(quán)利要求9實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,建議設(shè)置用于任選迭代所述重新估算裝置的運算和任選迭代所述平滑裝置的運算的迭代裝置205。該迭代可基于所述重新估算的特殊方言或領(lǐng)域的聲學(xué)模型參數(shù)或基于所述基本語言聲學(xué)模型參數(shù)。
該描述允許逐步生成最佳自適應(yīng)語音識別器的方案。
權(quán)利要求10實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述迭代裝置使用改進的附加語音數(shù)據(jù)語音資料庫和/或所述迭代裝置使用新平滑系數(shù)值K。
通過該描述,可能對迭代處理有大量可選擇的影響。依據(jù)所述附加語音數(shù)據(jù)語音資料庫的特性,迭代處理可基于擴大的或改進的附加語音數(shù)據(jù)語音資料庫。例如,改變的平滑系數(shù)允許根據(jù)訓(xùn)練數(shù)據(jù)的狹窄度幫助該生成處理。
權(quán)利要求11實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述自適應(yīng)語音識別器與講話人無關(guān)。
該方案同時提供可生成已適合于特數(shù)領(lǐng)域和/或方言或領(lǐng)域和/或方言集合但仍與講話人無關(guān)的自適應(yīng)語音識別器的優(yōu)點。然而,可進一步使所述自適應(yīng)語音識別器人格化,以得到與講話人有關(guān)的語音識別器。因此,同時具有專業(yè)化和靈活性。
權(quán)利要求12解決了本發(fā)明的目的。
提出使用用于確定的但任意的基本語言的基本語音識別器201生成自適應(yīng)語音識別器的方法。所述方法包括提供附加語音數(shù)據(jù)語音資料庫的第一步驟202。所述附加語音數(shù)據(jù)語音資料庫包括一批特殊領(lǐng)域語音數(shù)據(jù)和/或特殊方言語音數(shù)據(jù)。此外,所述方法包括使用所述附加語音數(shù)據(jù)語音資料庫利用講話人自適應(yīng)技術(shù),重新估算所述基本語音識別器的聲學(xué)模型參數(shù)的第二步驟203。
權(quán)利要求12的描述所達到的優(yōu)點已通過權(quán)利要求1討論。
權(quán)利要求13實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述方法包括用于平滑重新估算的聲學(xué)模型參數(shù)的任選第三步驟204。
實驗表明附加平滑進一步改善了識別準確性和自適應(yīng)速度。特別是在訓(xùn)練數(shù)據(jù)量有限的情況下,這些改進特別重要。進一步的優(yōu)點參考上面通過權(quán)利要求6,7,和討論的好處。
權(quán)利要求14實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述方法通過提供改進的附加語音數(shù)據(jù)語音資料庫迭代所述第一步驟和根據(jù)所述重新估算聲學(xué)模型參數(shù)或根據(jù)所述基本聲學(xué)模型參數(shù)迭代所述第二和第三步驟的任選第四步驟205。
該描述所具有的優(yōu)點參考上面權(quán)利要求9討論的好處。
權(quán)利要求15實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述聲學(xué)模型是HiddenMarkov模型(HMM)。此外,講明所述講話人自適應(yīng)技術(shù)是最大歸納自適應(yīng)(MAP)或最大似然線性回歸自適應(yīng)(MLLR)。另外,建議進行貝葉斯平滑。
上面已通過權(quán)利要求3、4和權(quán)利要求6、7和8討論了該方案的優(yōu)點。
權(quán)利要求16實現(xiàn)了其它優(yōu)點。
根據(jù)所提出發(fā)明的另一個實施例,所述自適應(yīng)語音識別器與講話人無關(guān)。
與上面的權(quán)利要求11一起討論與該描述有關(guān)的優(yōu)點。
4附圖的簡要說明
圖1是反映從與講話人無關(guān)的基本語言的語音識別器具體生成與講話人有關(guān)的語音識別器的現(xiàn)有技術(shù)自適應(yīng)處理的整體結(jié)構(gòu)的示意圖。
圖2是反映根據(jù)本發(fā)明從與講話人無關(guān)的基本語言語音識別器具體生成改進的與講話人無關(guān)的語音識別器的自適應(yīng)處理的整體結(jié)構(gòu)的示意圖。所述改進的與講話人無關(guān)的語音識別器可以是定制生成改進的與講話人有關(guān)的語音識別器的基礎(chǔ)。
圖3給出基線識別器(VV)、標(biāo)準訓(xùn)練過程(VV-S)、和scalascefastboot方法(VV-G)對講德語的測試者歸一到基線識別器(VV)的誤差率的誤差率比較結(jié)果。
在整個說明書中的教導(dǎo)不限于特定語言、特定方言或特定使用領(lǐng)域。如果提到特定語言、特定方言或特定領(lǐng)域,應(yīng)將其解釋為僅是一個例子,而不是限定本發(fā)明的范圍。
此外,如果該說明書中引用了一種方言/領(lǐng)域,可將此解釋為特殊的方言/領(lǐng)域或方言/領(lǐng)域的組合。
4.1介紹對于給定語言,例如Hidden Markov模型的基本語音識別器的訓(xùn)練需要采集大量用于檢測相關(guān)的語音前后關(guān)系的一般語音數(shù)據(jù)和適當(dāng)?shù)墓浪懵晫W(xué)模型參數(shù)。然而,如果講話人的發(fā)音與訓(xùn)練語音資料庫中給出的那些明顯不同,可觀察到識別準確性明顯降低。因此,市場上能買到的語音識別器通過實施圖1描繪的人格化的處理將聲學(xué)參數(shù)的估算部分地施加到個人終端用戶。
以與講話人無關(guān)并且不是任何專業(yè)領(lǐng)域的基本語言的語音識別器101開始。個人用戶必須閱讀另外輸入到重新估算處理102的預(yù)定義的注冊正本103。在該重新估算處理中,利用根據(jù)現(xiàn)有技術(shù)可使用的講話人自適應(yīng)技術(shù)自適應(yīng)該基礎(chǔ)聲學(xué)模型的參數(shù)。該生成處理的結(jié)果從與講話人有關(guān)的語音識別器輸出。
本發(fā)明描述了一種利用改進的識別準確性訓(xùn)練語音識別器的快速自舉(即預(yù)先)過程;即,本發(fā)明根據(jù)基本語言的一般語音識別器提出了一種用于附加自適應(yīng)的與講話人無關(guān)的語音識別的生成處理。
根據(jù)本發(fā)明的描述,通過語言方言的顯式建模和在建模處理中正交地積累特殊領(lǐng)域的訓(xùn)練數(shù)據(jù)可明顯改善識別系統(tǒng)的準確性和速度。本發(fā)明的架構(gòu)允許沿這兩個方向改善識別系統(tǒng)。本發(fā)明利用了對于特殊方言,例如奧地利的德語或加拿大的法語,其語音的前后關(guān)系在基本語言(分別是德語或法語)中相似,而其聲學(xué)模型參數(shù)因不同的發(fā)音而明顯不同這一事實。同樣,通過把本發(fā)明應(yīng)用到來自目標(biāo)領(lǐng)域的有限量的聲學(xué)數(shù)據(jù)可更準確地估算未對特殊領(lǐng)域很好訓(xùn)練的聲學(xué)模型(例如,基本領(lǐng)域辦公函件,特殊領(lǐng)域放射學(xué))。
通過大量終端用戶對其進行方言和/或特殊領(lǐng)域的預(yù)先訓(xùn)練,可極大提高該識別系統(tǒng)的性能,并減小按其需要定制識別器的投資。
根據(jù)本發(fā)明,還能夠減少對Hidden Markov模型參數(shù)的計算的訓(xùn)練過程。此外,能夠使用貝葉斯平滑技術(shù),以便更好地利用少量的方言或特殊領(lǐng)域訓(xùn)練數(shù)據(jù),并對基本語音(或領(lǐng)域)中的特殊方言實現(xiàn)可升級的識別準確性。
因此,根據(jù)這些技術(shù),本發(fā)明實現(xiàn)了減少個人終端用戶的訓(xùn)練努力,對特殊領(lǐng)域和方言的講話人改善了與講話人無關(guān)的識別準確性,和在特殊環(huán)境中為語音識別器迅速開發(fā)新數(shù)據(jù)文件。
本發(fā)明(在剩余部分中稱為快速引導(dǎo)(fastboot))采用講話人自適應(yīng)技術(shù)的結(jié)果,例如高斯混合觀察(MAP自適應(yīng))的最大后驗估算或最大似然線性回歸(MLLR自適應(yīng)),在識別準確性方面,對方言講話人比對使用識別器訓(xùn)練期間觀察的發(fā)音的講話人產(chǎn)生了明顯大得多的改善。根據(jù)該描述,該方案不僅對方言講話人產(chǎn)生了改善的與講話人無關(guān)的識別準確性。這些技術(shù)把HMM的輸出可能性B移到了講話人特定的聲學(xué)空間,因此它可以達到O由HMM的輸出可能性捕獲方言與基本語言之間的主要區(qū)別,O基本語言的訓(xùn)練參數(shù)已經(jīng)通過正向-反向算法為特殊方言的重新估算提供了良好的初始值,和O可省略來自方言數(shù)據(jù)的明顯的前后關(guān)系重新估算以實現(xiàn)快速訓(xùn)練過程。
圖2中描繪了本發(fā)明的基本描述,描述了附加講話人自適應(yīng)技術(shù)應(yīng)用于預(yù)先訓(xùn)練,即在對特殊用戶將語音識別器人格化之前,語音識別器針對基本語言中的方言或特殊領(lǐng)域的訓(xùn)練。
參考圖2,本發(fā)明建議以用于基本語言的基本語音識別器201開始。為了最終生成自適應(yīng)語音識別器,設(shè)置附加語音數(shù)據(jù)語音資料庫202;本發(fā)明建議使用不可與字典等量齊觀的實際語音數(shù)據(jù)。該附加語音數(shù)據(jù)語音資料庫可包括任何采集的特殊領(lǐng)域的語音數(shù)據(jù)和/或特殊方言的語音數(shù)據(jù)?;菊Z言的語音識別器可已經(jīng)用于未監(jiān)督的附加語音數(shù)據(jù)采集。
生成處理包括使用附加語音數(shù)據(jù)語音資料庫通過可供使用的講話人自適應(yīng)技術(shù)中的一種,重新估算203所述基本語音識別器的聲學(xué)模型參數(shù),從而生成改進的自適應(yīng)語音識別器,該語音識別器減少了個人終端用戶可能的訓(xùn)練努力,同時為特殊領(lǐng)域和/或方言講話人改善了與講話人無關(guān)的識別準確性。
任選地,本發(fā)明描述了應(yīng)用重新估算的聲學(xué)模型參數(shù)的進一步平滑204。貝葉斯平滑是用于此目的的有效平滑技術(shù)。已利用范圍從1至500的平滑系數(shù)K達到了關(guān)于貝葉斯平滑的良好效果(見下文關(guān)于平滑方案更詳細的說明)。特別是平滑系數(shù)k在20至60的范圍產(chǎn)生了極好的效果。
任選地,本說明書建議迭代205上面提到的重新估算聲學(xué)模型參數(shù)的生成處理和平滑。該迭代能以先前運行的重新估算聲學(xué)模型參數(shù)或基本聲學(xué)模型參數(shù)為基礎(chǔ)。該迭代能以判斷生成的自適應(yīng)語音識別器是否表現(xiàn)出足夠的識別改善為基礎(chǔ)。為達到所希望的識別改善,迭代步驟可以以例如改進的附加語音數(shù)據(jù)語音資料庫和/或新平滑系數(shù)值k的使用為基礎(chǔ)。
最后,該處理導(dǎo)致了用于方言和/或特殊領(lǐng)域的自適應(yīng)與講話人無關(guān)的語音識別器的生成。
然而,過去,講話人自適應(yīng)技術(shù)通常應(yīng)用于個人終端用戶語音數(shù)據(jù)并因此在與講話人有關(guān)的語音識別器中生成,在本發(fā)明中,將它們應(yīng)用于從幾個講話人采集方言和/或特殊領(lǐng)域的訓(xùn)練數(shù)據(jù)。這樣允許改善特別是(但不僅僅是)對給定的方言和領(lǐng)域與講話人無關(guān)的識別,并減少個人終端用戶按其需要定制識別器的投資。
本發(fā)明的另一個重要方面是減少了用于生成特殊語音識別器的努力而其它市場上可買到的工具包從定義子字單元和/或HMM拓撲結(jié)構(gòu)開始,因而需要相當(dāng)大量的訓(xùn)練數(shù)據(jù),本方案從已經(jīng)訓(xùn)練的普通語音識別器開始。
對于進一步的識別改善,本發(fā)明建議將貝葉斯平滑任選地應(yīng)用到重新估算的參數(shù)。特別是,建議使用基本語言系統(tǒng)(用上標(biāo)b區(qū)分)的平均μbi、變量Γbi和混合分量加權(quán)ωbi,以便根據(jù)下面的方程式通過貝葉斯平滑和聯(lián)系用于特殊方言參數(shù)μdi,Γdi和ωdi(例如參見J.Gauvain和C.Lee在1994年的IEEE論文集,語音和音頻處理,vol.2(2),pp.291-298上發(fā)表的題為″Markov鏈的多變量高斯混合觀察的最大歸納估算″一文)μid=ΣtCi(t)xt+αiμibCi+αi------(7)]]>Γid=Yi+αi(Γib+μibμib,T)Ci+αi-μidμid,T------(8)]]>Yi=ΣiCi(t)xxtT------(9)]]>ωid=Ci+αiΣm∈M(Cm+αm),αj=k·wjb------(10)]]>在此,ci=ΣtCi(t)]]>是在時間t從所有觀察的方言數(shù)據(jù)xt計算的第i個高斯的所有歸納可能性Ci(t)之和,N表示混合分量的總數(shù),M是屬于作為第i個高斯的相同語音前后關(guān)系的高斯的集合。常數(shù)k被稱為平滑系數(shù);它允許優(yōu)化識別準確性并取決于方言訓(xùn)練數(shù)據(jù)的相關(guān)量。
4.3本發(fā)明實施例的例子1997年,IBM語音系統(tǒng)以6種不同的語言發(fā)布了第一個連續(xù)語音識別軟件ViaVoice。例如通過數(shù)百小時仔細閱讀連續(xù)的句子來訓(xùn)練德語識別器。僅從不到一千個講德語的本地人(約50%男性,50%女性)采集了語音。
為了測試本發(fā)明的目的,采集了20個不同的講德語的人(10女,10男)和20個奧地利本地講德語的人(10女,10男)。所有講話人從被認為是連續(xù)語音識別最重要的應(yīng)用之一的辦公函件領(lǐng)域閱讀相同的中度復(fù)雜的測試正文。
對于兩組講話人,圖3比較了用基線識別器達到的與相關(guān)的講話人無關(guān)的誤差率圖3表示基線識別器(VV),標(biāo)準訓(xùn)練過程(VV-S),和可升級fastboot方法(VV-G)對講德德語的測試者歸一到基線識別器(VV)的誤差率的誤差率比較結(jié)果。奧地利講話人的誤差率增加百分之五十以上,表明需要改善方言講話人的識別準確性。因此,對于后續(xù)產(chǎn)品ViaVoice Gold(VV-G),僅從約100個奧地利本地的講話人(約50%女性,50%男性)采集了小于50小時的語音,并應(yīng)用根據(jù)本發(fā)明的識別器的預(yù)先訓(xùn)練的fastboot方案。圖3把利用fastboot方法(VV-G)所達到的結(jié)果與如果將兩個訓(xùn)練語音資料庫匯集在一起可應(yīng)用的標(biāo)準訓(xùn)練過程(VV-S)比較。很明顯,fastboot方法優(yōu)于標(biāo)準過程并對方言講話人產(chǎn)生了30%的改進。如果需要基本語言和方言(或與該方向正交,基本領(lǐng)域和特殊領(lǐng)域)的集成識別器,不同平滑系數(shù)值的結(jié)果表明該識別準確性是可升級的,這是一個重要特性。此外,由于普通識別器(VV-S)的匯集訓(xùn)練語音資料庫約比奧地利訓(xùn)練語音資料庫大7倍,并且標(biāo)準訓(xùn)練過程通常必須計算4-5次正向-反向迭代,fastboot方法至少快了25倍。因此,用我們的發(fā)明能夠快速開發(fā)用于特殊方言或領(lǐng)域的語音識別器。
4.4該描述進一步的優(yōu)點上面給出的本發(fā)明和其實施例證明了下面進一步的優(yōu)點·fastboot方案對方言講話人明顯減少了與講話人無關(guān)的誤差率。此外,還改善了無方言的講話人的識別率。
·如果在集成語音識別器中處理方言和/或特殊領(lǐng)域,fastboot方案提供了可升級的識別準確性。
·fastboot方案僅使用很少的幾個低價的附加特殊領(lǐng)域或方言數(shù)據(jù)并且很容易采集。
·fastboot方案減少了識別器的預(yù)先訓(xùn)練的時間,因此允許在特殊領(lǐng)域中為識別器迅速開發(fā)新數(shù)據(jù)文件。
5縮寫HMM Hidden Markov Model Hidden Markov模型MAP maximum a posteriori adaptation 最大后驗自適應(yīng)MLLR maximum likelihood linear regression adaptation最大似然線性回歸適應(yīng)
權(quán)利要求
1.一種自適應(yīng)語音識別器的生成器,包括用于基本語音的基本語音識別器(201),其特征在于包括用于生成所述自適應(yīng)語音識別器的附加語音數(shù)據(jù)語音資料庫(202)以及所述附加語音數(shù)據(jù)語音資料庫包括一批特殊領(lǐng)域語音數(shù)據(jù)和/或特殊方言語音數(shù)據(jù),和所述生成器包括使用所述附加語音數(shù)據(jù)語音資料庫通過講話人自適應(yīng)技術(shù)重新估算所述基本語音識別器的聲學(xué)模型參數(shù)的重新估算裝置(203)。
2.根據(jù)權(quán)利要求1所述的生成器,其中通過不監(jiān)督或監(jiān)督的采集來提供所述附加語音數(shù)據(jù)語音資料庫。
3.根據(jù)上面任何一個權(quán)利要求所述的生成器,其中所述聲學(xué)模型是Hidden Markov模型(HMM)。
4.根據(jù)權(quán)利要求3所述的生成器,其中所述講話人自適應(yīng)技術(shù)是最大后驗自適應(yīng)(MAP)或其中所述講話人自適應(yīng)技術(shù)是最大似然線性回歸自適應(yīng)(MLLR)。
5.根據(jù)權(quán)利要求4所述的生成器,進一步包括用于任選地平滑重新估算的聲學(xué)模型參數(shù)的平滑裝置(204)。
6.根據(jù)權(quán)利要求5所述的生成器,其中所述平滑裝置執(zhí)行貝葉斯平滑。
7.根據(jù)權(quán)利要求6所述的生成器,其中平滑系數(shù)K的范圍是從1至500。
8.根據(jù)權(quán)利要求6所述的生成器,其中平滑系數(shù)K的范圍是從20至60。
9.根據(jù)上面任何一個權(quán)利要求所述的生成器,進一步包括根據(jù)所述重新估算的特殊方言或領(lǐng)域的聲學(xué)模型參數(shù)或根據(jù)所述基本語言聲學(xué)模型參數(shù)用于任選迭代所述重新估算裝置的運算和任選迭代所述平滑裝置的運算的迭代裝置(205)。
10.根據(jù)權(quán)利要求9所述的生成器,其中所述迭代裝置使用改進的附加語音數(shù)據(jù)語音資料庫和/或其中所述迭代裝置使用新平滑系數(shù)值K。
11.根據(jù)上面任何一個權(quán)利要求所述的生成器,其中所述自適應(yīng)語音識別器與講話人無關(guān)。
12.一種使用用于基本語言的基本語音識別器(201)生成自適應(yīng)語音識別器的方法,所述方法包括提供附加語音數(shù)據(jù)語音資料庫的第一步驟(202),所述附加語音數(shù)據(jù)語音資料庫包括一批特殊領(lǐng)域語音數(shù)據(jù)和/或特殊方言語音數(shù)據(jù),和所述方法包括使用所述附加語音數(shù)據(jù)語音資料庫利用講話人自適應(yīng)技術(shù),重新估算所述基本語音識別器的聲學(xué)模型參數(shù)的第二步驟(203)。
13.根據(jù)權(quán)利要求12所述的生成自適應(yīng)語音識別器的方法,所述方法包括用于平滑重新估算的聲學(xué)模型參數(shù)的任選第三步驟(204)。
14.根據(jù)權(quán)利要求12或13所述的生成自適應(yīng)語音識別器的方法,所述方法包括任選的第四步驟(205),用于通過提供改進的附加語音數(shù)據(jù)語音資料庫迭代所述第一步驟,和用于根據(jù)所述重新估算聲學(xué)模型參數(shù)或根據(jù)所述基本聲學(xué)模型參數(shù)迭代所述第二和第三步驟。
15.根據(jù)權(quán)利要求12至14所述的生成自適應(yīng)語音識別器的方法,其中所述聲學(xué)模型是Hidden Markov模型(HMM),和其中所述講話人自適應(yīng)技術(shù)是最大歸納自適應(yīng)(MAP)或其中所述講話人自適應(yīng)技術(shù)最大似然線性回歸自適應(yīng)(MLLR),和其中執(zhí)行貝葉斯平滑。
16.根據(jù)權(quán)利要求12至15所述的生成自適應(yīng)語音識別器的方法,其中所述自適應(yīng)語音識別器與講話人無關(guān)。
全文摘要
本發(fā)明涉及用于生成自適應(yīng)與講話人無關(guān)的語音識別器的生成器和方法。自適應(yīng)語音識別器的生成器基于任意基本語言的基本語音識別器。該生成器還包括用于生成所述自適應(yīng)語音識別器的附加語音數(shù)據(jù)語音資料庫。所述附加語音數(shù)據(jù)語音資料庫包括一批特殊領(lǐng)域語音數(shù)據(jù)和/或特殊方言語音數(shù)據(jù)。所述生成器包括利用講話人自適應(yīng)技術(shù)重新估算語言或基本語音識別器的特殊領(lǐng)域聲學(xué)模型參數(shù)的重新估算裝置。用于生成自適應(yīng)語音識別器的所述重新估算裝置使用所述附加語音數(shù)據(jù)語音資料庫。本發(fā)明提出用于平滑重新估算的聲學(xué)模型參數(shù)的平滑裝置。給出貝葉斯平滑的平滑系數(shù)的有利范圍。還建議迭代該自適應(yīng)處理。
文檔編號G10L15/07GK1298533SQ99805299
公開日2001年6月6日 申請日期1999年4月21日 優(yōu)先權(quán)日1998年4月22日
發(fā)明者沃克費斯徹爾, 高雨青, 米切爾·A·皮柴尼, 塞格佛瑞德昆茲麥 申請人:國際商業(yè)機器公司