專利名稱:語音分析系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音分析系統(tǒng),該系統(tǒng)用于處理存在不同形式失真的語音。該發(fā)明特別(盡管不是排它性的)涉及雙向電話對話中對字、語言或說話者的識(shí)別。
本發(fā)明提出的問題的一方面將通過電話系統(tǒng)中使用的自動(dòng)語音識(shí)別技術(shù)來舉例說明。在這種系統(tǒng)中,系統(tǒng)性能常常由于電話聽筒的位置引起的語音信號(hào)的變化或電話聽筒、電話線以及交換機(jī)特性的影響而嚴(yán)重降低??梢試L試通過使用某種自動(dòng)增益控制(AGC)來校正該問題。不幸的是,這可能是難以實(shí)現(xiàn)的。例如,在雙向電話對中,其中的裝置由兩線配置連接,互相對話的說話者語音信號(hào)的強(qiáng)度之間常常存在明顯的差別。通過使用更復(fù)雜的技術(shù),就可能截取本地交換機(jī)處的呼叫,并可能獲得來自每個(gè)電話裝置的不同信號(hào)。盡管這種方法給出了一些改進(jìn),它并沒有提到反向信道回聲的難題,這種反向信道回聲是由于對話一方的語音與對話另一方的話音相互混雜而產(chǎn)生的。
問題并不局限于語音電平的差值。許多語音識(shí)別系統(tǒng)嘗試以某種方式適應(yīng)各個(gè)說話者或麥克風(fēng)的特性。如果說話者特性變化頻繁,補(bǔ)償就變的特別困難。
已知很多通過對失真或說話者特性進(jìn)行補(bǔ)償來改進(jìn)識(shí)別性能的方法。在有時(shí)被稱為“濾波器組分析”的處理過程中,當(dāng)前的語音識(shí)別系統(tǒng)將輸入信號(hào)從時(shí)域波形轉(zhuǎn)換成頻域的連續(xù)矢量。這些矢量然后與語音信號(hào)的模型相匹配。在某些系統(tǒng)中,在與語音模型匹配之前,這些矢量會(huì)經(jīng)歷某種變換。在變換和匹配之前通過對這些矢量施加某種形式的補(bǔ)償,就有可能抵消信號(hào)失真和說話者的影響。存在一些已知的用于確定適當(dāng)補(bǔ)償?shù)姆椒?。其中一種是Sadaoki Furui在"Cepstral Analysis Technique for Automatic SpeakerVerification" IEEE Trans Acoustics,Speech and Signalprocessing,29(2)254-272,April 1981中描述的方法。它涉及將整個(gè)對話期間由濾波器組分析獲得的數(shù)據(jù)平均以獲得信號(hào)的長時(shí)譜特性,并在數(shù)據(jù)再次通過時(shí)進(jìn)行失真補(bǔ)償。補(bǔ)償后的數(shù)據(jù)然后被傳送給語音識(shí)別設(shè)備用來與語音模型匹配。
當(dāng)這種方法應(yīng)用于失真形式變化的多說話者語音信號(hào)或單說話者語音信號(hào)時(shí),存在兩個(gè)主要問題。首先,因?yàn)閷φ麄€(gè)對話過程進(jìn)行單一校正,它對說話者特性頻繁變化的對話過程是極不適當(dāng)?shù)摹_@種情況會(huì)發(fā)生于電話對話或其它對話過程中。其次,在識(shí)別開始之前,有必要處理整個(gè)對話過程以獲得適當(dāng)?shù)男U?,這對于實(shí)時(shí)應(yīng)用來說是極不合適的。
一種優(yōu)選的方法是使用一種有時(shí)稱為譜型調(diào)整(SSA)的技術(shù)。使用這種技術(shù)的識(shí)別系統(tǒng)提供有關(guān)將要在每個(gè)瞬時(shí)被識(shí)別的信號(hào)的期望譜特性的信息,并且將該值與信號(hào)中等價(jià)的實(shí)際譜特性相比以給出一個(gè)差值。該差值在一些連續(xù)的信號(hào)上被平均(時(shí)間平均)以提供校正項(xiàng)。
在"Iterative Self-Learning Speaker and ChannelAdaptation under various Intial Conditions",Proc IEEEICASSP[11]pages 712-715中,Yun Xin Zhao描述了這種類型的系統(tǒng)。其中數(shù)據(jù)是在逐句的基礎(chǔ)上被處理的。輸入信號(hào)經(jīng)過濾波器組分析并創(chuàng)建連續(xù)的矢量,每個(gè)矢量表明在一些頻段上信號(hào)能量的變化。通過與語音模型狀態(tài)相匹配,這些矢量被處理。矢量被匹配的模型狀態(tài)的參數(shù)被用來為該矢量預(yù)測一個(gè)值,該值是根據(jù)該模型而被預(yù)期的。矢量和預(yù)期值之間的差值被計(jì)算出來,并且與前面矢量從句子中得到的差值做時(shí)間平均,以確定每個(gè)句子所經(jīng)歷的平均失真。為一個(gè)句子確定的SSA參數(shù)被用來處理下一個(gè)句子。
不幸的是,在存在兩個(gè)或多個(gè)說話者或失真形式的情況下Zhao的方法并不適用,因?yàn)樗鼤?huì)導(dǎo)致從其中一個(gè)說話者語音獲得的SSA參數(shù)或服從某種特殊形式失真的SSA參數(shù)被應(yīng)用于另一個(gè)說話者或另一種失真形式。
本發(fā)明的一個(gè)目標(biāo)是給出一種語音分析系統(tǒng),該系統(tǒng)被安排來抵消多種形式的失真。
本發(fā)明給出一種語音分析系統(tǒng)用來處理經(jīng)過失真的語音,該系統(tǒng)包括用于修正從語音中獲得的數(shù)據(jù)矢量以補(bǔ)償這種失真的補(bǔ)償裝置,用來將修正后的數(shù)據(jù)矢量與模型匹配的匹配裝置,以及用來根據(jù)數(shù)據(jù)矢量獲取用于補(bǔ)償裝置的失真補(bǔ)償值的獲取裝置。該系統(tǒng)的特征在于a)補(bǔ)償裝置被安排來通過以多個(gè)補(bǔ)償值修正每個(gè)數(shù)據(jù)矢量來對多種形式的失真進(jìn)行補(bǔ)償,從而為各種形式的失真分別給出相應(yīng)的一組經(jīng)過補(bǔ)償?shù)男拚龜?shù)據(jù)矢量。
b)匹配裝置被安排來指明每組中表現(xiàn)出最大的匹配概率的修正后的數(shù)據(jù)矢量,并指明其被補(bǔ)償?shù)哪欠N失真形式。
c)獲取裝置被安排來在每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量基礎(chǔ)上獲取補(bǔ)償值,其中的補(bǔ)償值是補(bǔ)償裝置在補(bǔ)償某種形式的失真中所用的,這種失真形式是修正數(shù)據(jù)矢量已經(jīng)被補(bǔ)償?shù)哪欠N失真形式。
本發(fā)明的優(yōu)越之處在于不同失真形式之間進(jìn)行不同補(bǔ)償,使得正確語音分析的概率得到提高。
本發(fā)明可以被安排來分析來自多個(gè)語音源的語音,其中每個(gè)語音源都與一種失真形式相關(guān),其中a)補(bǔ)償裝置被安排來給出每組中的修正數(shù)據(jù)矢量,這些矢量被針對與各個(gè)語音源相關(guān)的失真而補(bǔ)償。
b)匹配裝置被安排來將模型劃分成與語音和非語音相關(guān)的類別,并被安排來指明與每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量相關(guān)的模型類別。
c)獲取裝置被安排來根據(jù)與語音分類模型相關(guān)的修正數(shù)據(jù)矢量獲得補(bǔ)償值。
本發(fā)明的系統(tǒng)可以被安排來更新匹配裝置中的非語音模型。在考慮到以前的匹配和語音識(shí)別條件的前提下,匹配裝置可以被安排來識(shí)別出每一組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量,以便在數(shù)據(jù)矢量序列上評(píng)估匹配概率。
獲取裝置可以被安排來通過在每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量的貢獻(xiàn)以及與之匹配的模型和以前得到的類似類型的貢獻(xiàn)上進(jìn)行平均來獲得補(bǔ)償值。這種平均操作可以由無限脈沖響應(yīng)濾波裝置實(shí)現(xiàn)。
在其狀態(tài)具有匹配概率分布的語音模型以及對于與之匹配的矢量相關(guān)的估計(jì)值的基礎(chǔ)上,匹配裝置可以被安排來實(shí)現(xiàn)隱馬爾可夫模型匹配;估計(jì)值可以是各個(gè)概率分布的均值;獲取裝置可以被安排來采用估計(jì)值來獲取補(bǔ)償值,每個(gè)模型可以有一個(gè)或多個(gè)狀態(tài)。
獲取裝置和補(bǔ)償裝置可以被安排來一起避免進(jìn)行與語音源不相關(guān)的補(bǔ)償。匹配裝置可以采用與各種類型的聲學(xué)數(shù)據(jù)源相關(guān)的不同類別的模型,其中的數(shù)據(jù)源例如有語音和噪聲源,并且表明不會(huì)對應(yīng)于噪聲源的匹配來獲得補(bǔ)償值。它們還可以被安排來調(diào)整語音模型以提高與數(shù)據(jù)矢量的一致性。
在一個(gè)實(shí)施方案中,本發(fā)明的系統(tǒng)包括用于產(chǎn)生數(shù)據(jù)矢量的裝置,其中的數(shù)據(jù)矢量具有表示在各個(gè)頻率段上以對數(shù)表示的平均值的元素。其中a)補(bǔ)償裝置被安排來通過將一組與各種形式失真相關(guān)的補(bǔ)償矢量加入每個(gè)數(shù)據(jù)矢量來給出一組修正后的數(shù)據(jù)矢量。
b)結(jié)合與同樣模型類別相關(guān)的以前的類似分布,獲取裝置被安排來根據(jù)每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量的第一分布獲取修正的補(bǔ)償矢量,并從與之匹配的模型中獲得估計(jì)矢量本發(fā)明可以包括用于將每個(gè)修正后的數(shù)據(jù)矢量傳送到匹配裝置的各自的通道。
另一方面,本發(fā)明給出一種方法用來分析經(jīng)過失真的語音,該方法包括以下步驟a)修正語音數(shù)據(jù)矢量來補(bǔ)償失真。
b)將修正后的數(shù)據(jù)矢量與模型匹配。
c)獲得并應(yīng)用失真補(bǔ)償。
特征在于I)步驟(a)包括將多個(gè)補(bǔ)償值施加給每個(gè)數(shù)據(jù)矢量以給出針對各個(gè)失真形式被補(bǔ)償?shù)南鄳?yīng)一組修正的數(shù)據(jù)矢量。
II)步驟(b)包括識(shí)別每一組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量以及被補(bǔ)償?shù)氖д嫘问健?br>
III)步驟(c)包括根據(jù)每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量獲取用于補(bǔ)償值,用于補(bǔ)償該矢量被補(bǔ)償?shù)哪欠N形式的失真。
本發(fā)明的系統(tǒng)可以被用于語音識(shí)別或者用于其它的分析目的,例如語言辯識(shí),說話者年齡,性別或其它特征的識(shí)別和評(píng)估。該系統(tǒng)還可被用來檢測在某一瞬時(shí),眾多說話者中哪一個(gè)正在講話。
為了本發(fā)明能夠被更完整地理解,其實(shí)施方案將結(jié)合附圖,僅通過示例被描述。
圖1是本發(fā)明的語音分析系統(tǒng)的方框圖。
圖2圖解說明了用于圖1系統(tǒng)的語音模型狀態(tài)。
參考圖1,本發(fā)明的語音分析系統(tǒng)由10來表示。系統(tǒng)10引入兩個(gè)電話12A和12B通過連接到線路14而被復(fù)用在一起。線路14被連接到一個(gè)模-數(shù)轉(zhuǎn)換器(A/D)16,該轉(zhuǎn)換器被連接到濾波器組分析器18。分析器18利用20ms的漢明窗實(shí)現(xiàn)400點(diǎn)的離散傅立葉變換(DFT)以處理非-無限信號(hào)樣本的一般問題。它將傅立葉分量組合起來獲得26個(gè)分組。在這26個(gè)分組上,以近似mel的尺度(即感覺上是線性的),可為26個(gè)頻率段的每一個(gè)獲得一個(gè)均值,并產(chǎn)生對數(shù)幅度值。因此這一過程模擬了在26個(gè)信道上具有對數(shù)輸出的一組帶通濾波器。來自分析器18的輸出被傳送給緩沖存儲(chǔ)器20并被傳送給并行排列的第一和第二補(bǔ)償單元22A和22B,這兩個(gè)單元每一個(gè)都提供譜形調(diào)整(SSA)。SSA補(bǔ)償單元22A和22B是數(shù)字加法器。它們被連接到模型匹配計(jì)算機(jī)24,從而在26處給出系統(tǒng)輸出。
匹配計(jì)算機(jī)24也被連接到差值計(jì)算器28;該計(jì)算器接收來自緩沖存儲(chǔ)器20的第二輸入,緩沖存儲(chǔ)器20本身通過線路30接收來自匹配計(jì)算機(jī)24的定時(shí)信息。來自差值計(jì)算器28的輸出通過線路32作為第一輸入傳送給第一解復(fù)用裝置34,該解復(fù)用裝置通過線路36接收來自匹配計(jì)算機(jī)的內(nèi)容為模型類別標(biāo)識(shí)的第二輸入。解復(fù)用裝置34有兩個(gè)輸出38和40,第一輸出38被連接到第二解復(fù)用裝置42,第二輸出40沒有被連接。第二解復(fù)用裝置42通過線路44接收來自計(jì)算機(jī)24的內(nèi)容為匹配模型類別標(biāo)識(shí)的第二輸入。第二解復(fù)用裝置42具有第一和第二輸出46A和46B。第一輸出46A被連接到與第一SSA參數(shù)存儲(chǔ)器50A和第一補(bǔ)償單元22A串聯(lián)的第一濾波器組48A。類似的,第二輸出46B被連接到與第二SSA參數(shù)存儲(chǔ)器50B和第二補(bǔ)償單元22B串聯(lián)的第二濾波器組48B。48A和48B中的每一個(gè)都是一個(gè)包括26個(gè)無限脈沖響應(yīng)(IIR)濾波器的陣列。
識(shí)別系統(tǒng)10按下述方式操作。當(dāng)兩個(gè)說話者通過兩個(gè)電話12A和12B對話時(shí),模擬語音信號(hào)出現(xiàn)在線路14上。該信號(hào)被A/D轉(zhuǎn)換器16數(shù)字化,該轉(zhuǎn)換器采樣該信號(hào)并以20KHz的速率給出數(shù)字輸出信號(hào),每個(gè)信號(hào)都帶有一個(gè)時(shí)間幀號(hào)碼i,表明在時(shí)刻ti它被采樣。在任何瞬時(shí),信號(hào)可能產(chǎn)生于其中一個(gè)電話12A或12B或者同時(shí)產(chǎn)生于兩者,或者它可能在語音信號(hào)間隙包括噪聲。數(shù)字化的信號(hào)從轉(zhuǎn)換器16傳送到濾波器組分析器18,在此,它們被用于計(jì)算連續(xù)的400點(diǎn)的離散傅立葉變換(DFT)。每次DFT都是400點(diǎn)的一個(gè)組,每個(gè)點(diǎn)表示在其上進(jìn)行的DFT的400個(gè)頻率中的一個(gè)頻率上的譜幅度。每組點(diǎn)被分散到26個(gè)子組中,并被相加以給出每個(gè)子組的和,每個(gè)和被取對數(shù)以給出26個(gè)頻率間段上以對數(shù)計(jì)的平均能量。分析器18是26個(gè)模擬帶通濾波器組的數(shù)字等價(jià)物。經(jīng)過分析器18變換的每個(gè)輸出都是一個(gè)具有26個(gè)分量的矢量,每個(gè)分量表示在各個(gè)頻率間段上的能量對數(shù)值,該值是通過對相關(guān)的傅立葉變換系數(shù)求平均得到的。
各個(gè)數(shù)據(jù)矢量是來自分析器18的間隔為10ms的連續(xù)輸出。在時(shí)刻ti來自分析器18的第i個(gè)數(shù)據(jù)矢量輸出被定義為Oi。如同所描述的,該輸出可能產(chǎn)生于電話12A或12B中的一個(gè)或來自這兩者的組合,或者是來自噪聲。這些數(shù)據(jù)矢量被傳送給緩沖存儲(chǔ)器20。該存儲(chǔ)器存儲(chǔ)最近獲得的500個(gè)數(shù)據(jù)矢量,每個(gè)矢量都有一個(gè)對應(yīng)于產(chǎn)生時(shí)間ti的地址號(hào)碼。該地址號(hào)碼為以模500表示的時(shí)間幀號(hào)碼i,即地址500+i=地址i,這樣當(dāng)時(shí)間幀號(hào)碼超過500時(shí),緩沖存儲(chǔ)器20中最早的記錄會(huì)被最近的記錄覆蓋。
每個(gè)數(shù)據(jù)矢量Oi也被傳送給補(bǔ)償單元22A和22B,兩個(gè)補(bǔ)償單元分別使用以對數(shù)形式存儲(chǔ)在各自的參數(shù)存儲(chǔ)器50A和50B中的26個(gè)參數(shù)PAj和PBj(j=0到25)來進(jìn)行變換。這些參數(shù)的產(chǎn)生將在后面解釋。補(bǔ)償單元22A和22B將各自存儲(chǔ)器50A和50B的內(nèi)容加入當(dāng)前的數(shù)據(jù)矢量Oi以產(chǎn)生各自的補(bǔ)償數(shù)據(jù)矢量OiA和OiB。這種加法是對數(shù)量的加法,對應(yīng)于兩個(gè)矢量的標(biāo)量積。補(bǔ)償單元22A和22B以及它們各自的參數(shù)存儲(chǔ)器50A和50B定義兩個(gè)獨(dú)立的信道用來將與不同數(shù)據(jù)源(電話12A和電話12B)相關(guān)的修正數(shù)據(jù)矢量傳送到匹配計(jì)算機(jī)24。也有可能的是使用一個(gè)單獨(dú)的信道,在該信道中,與不同數(shù)據(jù)源相關(guān)的修正數(shù)據(jù)矢量被復(fù)用,以后再在匹配計(jì)算機(jī)24中分離。存儲(chǔ)器50A或50B中的每組參數(shù)PAi或PBj對應(yīng)于補(bǔ)償值的當(dāng)前估計(jì)值,其中的補(bǔ)償值適用于抵消與分別來自電話12A和12B的語音信號(hào)相關(guān)的失真。兩個(gè)存儲(chǔ)器50A和50B通常包含不同的參數(shù)組,因此盡管是從同一個(gè)濾波器組的輸出處得到的,被補(bǔ)償?shù)氖噶縊iA和OiB通常是不同的。
在補(bǔ)償之后,補(bǔ)償后的數(shù)據(jù)矢量OiA和OiB,連同它們的時(shí)間幀號(hào)碼i都被傳送給模型匹配計(jì)算機(jī)24。計(jì)算機(jī)24完成將要參考圖2描述的過程,該圖(使示例成為可能)給出一個(gè)更為簡單的兩維模型空間(與該例中的26維相反)。模型匹配計(jì)算機(jī)24完成在以前技術(shù)中已知的那種傳統(tǒng)的隱馬爾可夫匹配算法。例如在語音識(shí)別的標(biāo)準(zhǔn)課本"Speech Synthesis and Recognition",J N Holmes,VanNostrand Reinhold(UK)1988,特別是第七章和第八章中可見的。計(jì)算機(jī)24采用傳統(tǒng)的電話語音的隱馬爾可夫模型(HMM)。每個(gè)模型對應(yīng)于一個(gè)字或字的一個(gè)部分(子字);每個(gè)模型都有一些狀態(tài),并對應(yīng)于一個(gè)聲音序列。例如,在用于數(shù)字0到9的數(shù)字識(shí)別器中,可以使用每個(gè)模型十個(gè)狀態(tài)。狀態(tài)由單變量的高斯概率分布來表示。其中的高斯概率分布與模型空間的維數(shù)相同。即,該分布具有以下形式Csexp(-((x0-μs,0)/2σs,0)2…-((xk-μs,k)/2σs,k)2…((x25-μs,25)/2σs,25)2)(2)其中Cs為模型狀態(tài)的常數(shù),μs,k和σs,k(k=0…25)分別是26維模型空間中模型狀態(tài)S的概率分布的平均和標(biāo)準(zhǔn)偏差的26個(gè)分量。xk是定義該空間的變量。每個(gè)模型狀態(tài)都與一個(gè)分類相關(guān),根據(jù)該模型是人類語音聲音模型還是產(chǎn)生于其它源頭(例如,猛烈的關(guān)門聲,電話裝置引入的噪聲等等)的噪聲模型,該分類可以是語音或非語音。
圖2是兩維模型空間的說明,該圖中與前面26維空間的元素等價(jià)的特征以“(2)”結(jié)尾。該圖給出了三個(gè)二維模型狀態(tài),S1(2),S2(2),S3(2),每個(gè)狀態(tài)都是一個(gè)由等高線,例如60表示的概率分布。這些模型狀態(tài)分別具有最可能的值或估計(jì)值μs1(2)μs2(2)μs3 (2),每個(gè)估計(jì)值都是其相關(guān)的由等高線定義的分布的峰值。圖中還給出了OiA(2)和OiB(2),26維補(bǔ)償數(shù)據(jù)矢量OiA和OiB的二維等價(jià)物。補(bǔ)償數(shù)據(jù)矢量與模型狀態(tài)之間的匹配概率由模型狀態(tài)在該矢量受到以前匹配過程條件限制的位置的概率分布幅度來表明。當(dāng)被補(bǔ)償?shù)臄?shù)據(jù)矢量與模型狀態(tài)的峰值一致時(shí),這種概率最大,除非限制條件強(qiáng)制指定了其它值。在圖2的簡化的二維情況中,對概率的考慮可能表明,如果不會(huì)與以前矢量Oi-mA(2)(其中m=1,2…)的匹配所表示的相反的話,數(shù)據(jù)矢量OiA(2)應(yīng)該與模型狀態(tài)S1(2)匹配,而矢量OiB(2)應(yīng)該與模型狀態(tài)S3(2)匹配。
這兩種匹配之間的質(zhì)量被作了比較,即,取消后綴(2)來表示26維的數(shù)值,那麼OiA和S1之間的匹配是好于還是壞于OiB和S3之間的匹配?換句話說,在前面匹配過程所施加的限制的前提下,在OiA處的模型狀態(tài)S1的概率分布的幅度大于在OiB處的模型狀態(tài)S3的概率分布的幅度嗎?兩種匹配中較好的一種被采用,在下面的討論中,這一匹配被認(rèn)為是后者(S3)(在以前技術(shù)中基于HMM的識(shí)別系統(tǒng)中,對于任何一個(gè)由分析器18產(chǎn)生的數(shù)據(jù)矢量Oi,只為之處理一個(gè)被補(bǔ)償?shù)臄?shù)據(jù)矢量,因此,不會(huì)進(jìn)行最佳匹配質(zhì)量的比較。)一旦計(jì)算機(jī)24已經(jīng)識(shí)別出矢量OiA和OiB中的哪一個(gè)與模型狀態(tài)達(dá)到最佳匹配,它就計(jì)算一個(gè)估計(jì)矢量i,該值為模型狀態(tài)的最大概率值。對于單元高斯模型,矢量i等于被匹配模型狀態(tài)的平均值。
計(jì)算機(jī)24輸出下面信息a)最佳匹配的模型狀態(tài)(示例中為S3)的標(biāo)識(shí),該標(biāo)識(shí)在26輸出;b)26維矢量i(在示例中對于模型狀態(tài)S3有μs3),該值是根據(jù)被匹配模型得到的估計(jì)值;即對應(yīng)于最可能匹配于被匹配的模型狀態(tài)的數(shù)據(jù)矢量;該矢量被傳送給差值計(jì)算器28;c)存儲(chǔ)在緩沖存儲(chǔ)器20的第i個(gè)數(shù)據(jù)矢量Oi的地址(即以模500表示的時(shí)間幀號(hào)碼i);d)最佳匹配的模型狀態(tài)的類別,即非語音或語音;輸出數(shù)字0或1以分別表明計(jì)算機(jī)24已經(jīng)匹配到非語音或語音,該輸出被第一解復(fù)用裝置34接收。
d)最佳匹配矢量的標(biāo)識(shí),即數(shù)據(jù)矢量失真的標(biāo)識(shí);當(dāng)計(jì)算機(jī)24匹配到語音時(shí),它輸出數(shù)字0或1來表明較好的匹配是與被補(bǔ)償矢量OiA或OiB的匹配,這些矢量反過來又表明系統(tǒng)已經(jīng)斷定矢量失真分別與電話A或電話B相關(guān);這種表示由第二解復(fù)用裝置42接收。
矢量i被傳送給差值計(jì)算器28。同時(shí),緩沖存儲(chǔ)器20從計(jì)算機(jī)24接收數(shù)據(jù)矢量Oi的存儲(chǔ)器地址,根據(jù)該地址可以獲得被補(bǔ)償?shù)氖噶縊iA和OiB。對應(yīng)于該地址,矢量Oi被輸出到差值計(jì)算器28用來與i比較。差值計(jì)算器28計(jì)算這些模型和數(shù)據(jù)矢量之間的差值來產(chǎn)生差值矢量Di。該矢量表示語音信號(hào)在時(shí)刻ti經(jīng)歷的失真過程的一個(gè)瞬時(shí)估計(jì)值。
差值矢量Di被傳送給第一解復(fù)用裝置34,同時(shí),解復(fù)用裝置還接收以數(shù)字1或0表示的模型類別的標(biāo)志;在這些數(shù)字中,1表示模型匹配計(jì)算機(jī)24已經(jīng)識(shí)別了一個(gè)語音信號(hào),0表示識(shí)別了一個(gè)非語音信號(hào),即無聲段或噪聲。如果模型類別是數(shù)字1,第一解復(fù)用裝置34將差值矢量Di從計(jì)算器28傳送到第二解復(fù)用裝置42。如果該數(shù)字為0,差值矢量Di出現(xiàn)在該解復(fù)用裝置的第二輸出端40處,該輸出端沒有被連接。這給出了對應(yīng)于將要從失真校正過程中除去的非語音信號(hào)(在該例中是不希望的)的信息。如果需要,這種信息當(dāng)然能被用于其它目的,如同將要在后面描述的。
第二解復(fù)用裝置42接收輸入數(shù)字0或1,它表示與模型矢量相關(guān)的信號(hào)源的標(biāo)志;數(shù)字0或1表示分別與被補(bǔ)償矢量OiA或OiB的匹配程度。當(dāng)接收到數(shù)字0時(shí),第二解復(fù)用裝置42將差值矢量Di傳送給第一濾波器組48A;對應(yīng)于數(shù)字1,差值矢量Di傳送給第二濾波器組48B。
濾波器組48A和48B都是一個(gè)包括26個(gè)無限脈沖響應(yīng)濾波器的陣列。差值矢量Di對應(yīng)于單個(gè)數(shù)據(jù)矢量Oi而獲得,它表示可校正失真在時(shí)刻ti的瞬時(shí)估計(jì)值,其中的失真是由于麥克風(fēng)、線路特性以及類似語音聲音的隨機(jī)特性造成的差值共同引起的。第一解復(fù)用裝置34給出根據(jù)非語音聲音計(jì)算出來的差值矢量,在這些矢量到達(dá)濾波器組48A和48B之前,它們將在校正過程中被除去,第二解復(fù)用裝置42將每個(gè)差值矢量分別傳送到與電話12A和12B相關(guān)的濾波器組48A和48B,其中的電話分別與標(biāo)識(shí)出的模型矢量相關(guān)。
濾波器組48A和48B具有相同的0.5秒的時(shí)間常數(shù)。它們在幾個(gè)字的長度上提供短時(shí)平均(例如大約3個(gè)字或1.5秒)。這會(huì)抵消隨機(jī)變化的效果以及字的誤識(shí)或在尋跡由于可校正的失真引起的長時(shí)變化時(shí),電話12A和12B同時(shí)發(fā)聲的效果。對應(yīng)于每個(gè)差值矢量Di的接收,會(huì)產(chǎn)生一個(gè)輸出補(bǔ)償矢量Ci,該值為Di與以前差值矢量的以時(shí)間指數(shù)方式消失的貢獻(xiàn)的平均。最近50個(gè)差值矢量Di-49到Di對補(bǔ)償矢量Ci起到主導(dǎo)作用。
來自第一濾波器組48A的補(bǔ)償矢量輸出被傳送到第一參數(shù)存儲(chǔ)器50A,來自第二濾波器組48B的補(bǔ)償矢量輸出被傳送到第二參數(shù)存儲(chǔ)器50B,兩者都替換存儲(chǔ)器中以前的值以實(shí)現(xiàn)更新。每個(gè)補(bǔ)償矢量的元素都給出參數(shù)組,在SSA補(bǔ)償單元22A或22B中,這些參數(shù)被加入數(shù)據(jù)矢量中以實(shí)現(xiàn)譜形調(diào)整。參數(shù)存儲(chǔ)器50A和50B一直保持其值不變直到它們響應(yīng)分別來自電話12A和12B的語音信號(hào)標(biāo)志而被更新。
在產(chǎn)生匹配過程中存在較短的延遲。在本發(fā)明的一個(gè)實(shí)施方案中,元件18到50B由計(jì)算機(jī)集中實(shí)現(xiàn),用來從語音信號(hào)獲得更新參數(shù)的時(shí)間間隔為0.5秒,或者平均一個(gè)字的時(shí)間。因此,這補(bǔ)償了效果逐字變化的失真。在提供補(bǔ)償方面,一般的以前技術(shù)的系統(tǒng)要比本發(fā)明的系統(tǒng)慢的多,而且不能處理相對短的失真。前面提到的Zhao的文獻(xiàn)中要求整個(gè)的句子用來分析。在該例中,所采用的變換提供對平均信號(hào)值變化的補(bǔ)償,以及對信號(hào)信道和麥克風(fēng)特性引入的線性失真的補(bǔ)償。
本發(fā)明可以被調(diào)整來適應(yīng)例如會(huì)議電話的應(yīng)用,在這種應(yīng)用中存在多于兩個(gè)的電話或說話者。這涉及到系統(tǒng)10通過等價(jià)于22A,48A,50A的附加單元被擴(kuò)展以及提高解復(fù)用裝置性能。三方會(huì)議電話將需要三個(gè)補(bǔ)償單元22A,22B和22C,三個(gè)參數(shù)存儲(chǔ)器50A,50B,和50C,以及三個(gè)濾波器組48A,48B和48C。補(bǔ)償單元22A到22C中的每一個(gè)都將其輸出傳送給模型匹配計(jì)算機(jī)24,該計(jì)算機(jī)將被重新編程以確定三個(gè)補(bǔ)償矢量OiA,OiB和OiC中的哪一個(gè)與模型狀態(tài)的匹配性最好。來自計(jì)算機(jī)24的輸出44將會(huì)是三個(gè)值之一,0,1,2,解復(fù)用裝置將本用來由此從三個(gè)輸出46A,46B和46C中選擇一個(gè)。
本發(fā)明將引入對來自電話12A和12B(或被拾取)的非語音噪聲的適應(yīng)方法。在這種情況中,匹配計(jì)算機(jī)24包括兩個(gè)模型狀態(tài)用來尋跡背景噪聲。這些模型狀態(tài)分別與來自電話12A和12B的噪聲相關(guān)。它們的參數(shù)按下述方式被根據(jù)估計(jì)的當(dāng)前噪聲值來調(diào)整。來自解復(fù)用裝置34的非語音(噪聲)差值矢量輸出被計(jì)算機(jī)24用來為電話12A和12B估計(jì)背景噪聲大小。計(jì)算機(jī)24對來自電話12A和12B的噪聲求差。根據(jù)非語音差值矢量,計(jì)算機(jī)24分別計(jì)算電話12A和12B的非語音模型參數(shù)的變化。以這種方法產(chǎn)生的每個(gè)電話的當(dāng)前噪聲估計(jì)值被與該電話的50個(gè)以前的估計(jì)值做平均以提供對匹配誤差的靈敏度,其中的匹配誤差是計(jì)算機(jī)24采用的算法造成的。
權(quán)利要求
1.一種語音分析系統(tǒng),用來分析經(jīng)歷失真的語音,該系統(tǒng)包括補(bǔ)償裝置(22A和22B)用來修正從語音中獲得的數(shù)據(jù)矢量以補(bǔ)償失真,該系統(tǒng)還包括匹配裝置(24)用來將修正后的數(shù)據(jù)矢量與模型匹配,以及獲取裝置(28)用來根據(jù)數(shù)據(jù)矢量來獲得失真補(bǔ)償值以用于補(bǔ)償裝置(22A和22B),該系統(tǒng)的特征在于a)補(bǔ)償裝置(22A和22B)被安排來通過用多個(gè)補(bǔ)償值修正數(shù)據(jù)矢量來補(bǔ)償多種形式的失真,以便為各種形式的失真提供相應(yīng)一組被補(bǔ)償?shù)男拚龜?shù)據(jù)矢量;b)匹配裝置(24)被安排來指明在每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量,并指明已經(jīng)被補(bǔ)償?shù)氖д嫘问?;c)獲取裝置(28)被安排來在每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量的基礎(chǔ)上獲取補(bǔ)償值以用于補(bǔ)償裝置(22A和22B)來補(bǔ)償修正數(shù)據(jù)矢量被補(bǔ)償?shù)哪欠N形式的失真。
2.權(quán)利要求1的系統(tǒng),其特征在于它被安排來分析來自多個(gè)語音源的語音,其中的每個(gè)語音源都與相應(yīng)形式的失真相關(guān),其中a)補(bǔ)償裝置(22A和22B)被安排來在每一組中提供修正的數(shù)據(jù)矢量,這些矢量針對與各個(gè)語音源相關(guān)的失真被補(bǔ)償;b)匹配裝置24被安排來將模型劃分成與語音和非語音相關(guān)的類別,并指明與每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量相關(guān)的模型類別,c)獲取裝置(28)被安排來根據(jù)與每個(gè)語音類別模型相關(guān)的修正數(shù)據(jù)矢量來獲得補(bǔ)償值。
3.根據(jù)權(quán)利要求2的系統(tǒng),其特征在于它被安排來修正匹配裝置中的非語音模型。
4.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于它被安排來從多個(gè)語音源中識(shí)別語音,其中每個(gè)語音源都與某種失真形式相關(guān)。
5.根據(jù)權(quán)利要求1或4的系統(tǒng),其特征在于它被安排來從噪聲中辨別語音并在補(bǔ)償過程中忽略噪聲數(shù)據(jù)。
6.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于匹配裝置(24)被安排來識(shí)別出在考慮了前面匹配過程的每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量,以便在數(shù)據(jù)矢量序列上評(píng)估匹配概率。
7.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于獲取裝置(28)被安排來通過將每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量與它所匹配的模型的分布平均,以及與此類似的當(dāng)前和以前模型分布的平均來獲取一個(gè)補(bǔ)償值。
8.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于數(shù)據(jù)矢量為語音信號(hào)作為頻率函數(shù)的表示。
9.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于匹配裝置(24)被安排來實(shí)現(xiàn)隱馬爾可夫模型匹配,獲取裝置(28)被安排來在模型狀態(tài)概率分布最大值的輔助下產(chǎn)生補(bǔ)償值。
10.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于包括用來產(chǎn)生數(shù)據(jù)矢量的裝置(18),其中的數(shù)據(jù)矢量包括表示在各個(gè)頻率間段上的平均值的元素,其中a)補(bǔ)償裝置(22A和22B)被安排來通過將每個(gè)數(shù)據(jù)矢量與一組補(bǔ)償矢量中的每一個(gè)做標(biāo)量積來提供一組修正的數(shù)據(jù)矢量,其中的補(bǔ)償矢量與相應(yīng)形式的失真相關(guān),b)獲取裝置(28)被安排來結(jié)合與同類失真相關(guān)的前面得到的類似數(shù)據(jù),根據(jù)每組中表現(xiàn)出最大匹配可能的修正數(shù)據(jù)矢量獲取一個(gè)更新的補(bǔ)償矢量,并根據(jù)與之匹配的模型獲取一個(gè)估計(jì)矢量。
11.根據(jù)權(quán)利要求10的系統(tǒng),其特征在于每種形式的失真都與某個(gè)用來將修正數(shù)據(jù)矢量傳送到匹配裝置的信道相關(guān),其中的修正數(shù)據(jù)矢量針對那種失真形式被補(bǔ)償。
12.根據(jù)權(quán)利要求1的系統(tǒng),其特征在于它被安排來避免實(shí)現(xiàn)與語音不相關(guān)的補(bǔ)償。
13.根據(jù)權(quán)利要求12的系統(tǒng),其特征在于匹配裝置(24)采用分別與語音和噪聲相關(guān)的模型類別,并被安排來指明在該模型類別下,每組中表現(xiàn)出最大匹配可能的數(shù)據(jù)矢量,獲取裝置(28)和補(bǔ)償裝置(22A和22B)被安排來一起避免實(shí)現(xiàn)與噪聲模型類別相關(guān)的補(bǔ)償。
14.一種用來分析經(jīng)過失真的語音的方法,包括以下步驟a)修正語音數(shù)據(jù)矢量來補(bǔ)償失真。b)將修正后的數(shù)據(jù)矢量與模型匹配。c)獲得并應(yīng)用失真補(bǔ)償。特征在于I.步驟(a)包括將多個(gè)補(bǔ)償值施加給每個(gè)數(shù)據(jù)矢量以給出針對各個(gè)失真形式被補(bǔ)償?shù)囊唤M修正的數(shù)據(jù)矢量。II.步驟(b)包括識(shí)別每一組中具有最大匹配概率的修正數(shù)據(jù)矢量以及其被補(bǔ)償?shù)氖д嫘问?。III.步驟(c)包括根據(jù)每組中具有最大匹配概率的修正數(shù)據(jù)矢量獲取補(bǔ)償值用于補(bǔ)償該矢量被補(bǔ)償?shù)哪欠N失真形式。
15.根據(jù)權(quán)利要求14的用于分析語音的方法,其特征在于失真形式與多個(gè)語音源和噪聲相關(guān)。
全文摘要
一種語音分析系統(tǒng)(10),采用一種濾波器組分析器(18),該分析器為來自兩個(gè)說話者的語音信號(hào)產(chǎn)生連續(xù)的頻率數(shù)據(jù)矢量。根據(jù)每個(gè)數(shù)據(jù)矢量,單元(22A和22B)產(chǎn)生一組修正后的數(shù)據(jù)矢量,這些矢量被針對與各個(gè)說話者相關(guān)的不同形式的失真而補(bǔ)償。計(jì)算機(jī)(24)將修正后的數(shù)據(jù)矢量與隱馬爾可夫模型的狀態(tài)相匹配。它識(shí)別出在每組中表現(xiàn)出最大匹配概率的修正數(shù)據(jù)矢量、在其中被匹配的模型狀態(tài)、相關(guān)的失真形式以及模型類別,即語音或噪聲。被匹配的模型狀態(tài)有一個(gè)均值,給出其相關(guān)數(shù)據(jù)矢量的估計(jì)值。該估計(jì)值與和它相關(guān)的數(shù)據(jù)矢量相比較,在無限響應(yīng)濾波器組(48A或48B)中,它們的差值與其它和類似形式失真相關(guān)的值平均以給出對這種失真形式的補(bǔ)償。平均差值矢量為與各個(gè)說話者相關(guān)的多種形式的失真提供補(bǔ)償值。
文檔編號(hào)G10L15/065GK1251193SQ9880363
公開日2000年4月19日 申請日期1998年2月26日 優(yōu)先權(quán)日1997年3月25日
發(fā)明者R·W·塞里斯 申請人:英國國防部