專利名稱:使用本征話音技術(shù)使說話者規(guī)范化并使其與環(huán)境相適應(yīng)的制作方法
與相關(guān)申請的交叉參照這是序列號(hào)為09/070,208、標(biāo)題為“基于本征話音的說話者和環(huán)境適應(yīng)”的美國專利申請及序列號(hào)為09/070,054標(biāo)題為“用于在本征話音空間中尋求適應(yīng)說話者模型的最大似然方法”的美國專利申請的部分繼續(xù)申請。
本發(fā)明一般涉及語音識(shí)別,并特別涉及說話者適應(yīng),從而修改語音識(shí)別模型參數(shù)以便更好地識(shí)別新的說話者語音。
語音識(shí)別系統(tǒng)可以是說話者相關(guān)的或說話者無關(guān)的。通過給出由個(gè)人發(fā)出的大量詞語例子(這些例子稱為“訓(xùn)練數(shù)據(jù)”)說話者相關(guān)系統(tǒng)受到訓(xùn)練,以便理解單獨(dú)的個(gè)人說的是什么。說話者相關(guān)系統(tǒng)對(duì)于它們所針對(duì)訓(xùn)練的個(gè)人可能是很精確,而對(duì)于其它每一個(gè)人是不精確的。說話者無關(guān)系統(tǒng)設(shè)計(jì)為由講應(yīng)用語言的任何人使用;一般來說,他們就來自許多不同的人的數(shù)據(jù)受到訓(xùn)練。對(duì)不在訓(xùn)練數(shù)據(jù)內(nèi)說話者進(jìn)行識(shí)別,說話者無關(guān)系統(tǒng)的錯(cuò)誤率,與可比的說話者相關(guān)系統(tǒng)對(duì)系統(tǒng)被訓(xùn)練的說話者進(jìn)行識(shí)別的錯(cuò)誤率相比大約為二到三倍高。
為了改進(jìn)性能,許多語音識(shí)別系統(tǒng)包括用于進(jìn)行說話者適應(yīng)的裝置,從而語音識(shí)別系統(tǒng)在使用中被調(diào)節(jié)以降低錯(cuò)誤率。在當(dāng)前的技術(shù)文獻(xiàn)中所描述的基本有三種說話者適應(yīng)方法。它們是(1)說話者規(guī)范化(也稱為“變換”)--對(duì)由新的說話者特征向量產(chǎn)生的數(shù)字化信號(hào)的觀測被變換,以便更接近來自說話者相關(guān)系統(tǒng)為其被訓(xùn)練的基準(zhǔn)說話者的觀測。在某些情形下,變換以相反方向進(jìn)行基準(zhǔn)模式被變換而更加接近于來自新的說話者數(shù)據(jù)。
(2)說話者分簇--使用新的說話者的觀測,以便選擇訓(xùn)練說話者的簇;每一簇與只對(duì)這一簇中的說話者訓(xùn)練的隱藏馬爾科夫模型(HMM)完全集相關(guān)。一旦選擇到最適合該說話者的簇,則使用僅來自這一簇的HMM進(jìn)行識(shí)別。
(3)模型適應(yīng)--更新一定的HMM參數(shù)以反映適應(yīng)數(shù)據(jù)的各方面。兩個(gè)最普遍的模型適應(yīng)技術(shù)是極大后驗(yàn)估計(jì)(MAP)及極大似然線性回歸(MLLR)。
雖然已經(jīng)證明這些適應(yīng)技術(shù)每一個(gè)都是有益的,但每一個(gè)都有某些缺陷。一般來說,比較有效的適應(yīng)技術(shù)傾向于需要可觀的計(jì)算資源,并還要求對(duì)說話者個(gè)人方面很多的訓(xùn)練。
本發(fā)明帶來了全新的技術(shù),使用這種技術(shù)可進(jìn)行說話者規(guī)范化及說話者與環(huán)境適應(yīng)。該技術(shù)使最初的說話者無關(guān)識(shí)別系統(tǒng)能夠快速獲得對(duì)新的說話者及接近說話者相關(guān)系統(tǒng)的新的聲音環(huán)境的性能水平,而無需對(duì)每一新的說話者大量的訓(xùn)練數(shù)據(jù)。我們稱我們的技術(shù)為“本征話音適應(yīng)”。我們已經(jīng)發(fā)現(xiàn)本征話音適應(yīng)能夠用于各種不同的場合,這些場合將通過某些特定的例子說明。
一般來說,本征話音適應(yīng)涉及能夠大大改進(jìn)進(jìn)行說話者與環(huán)境適應(yīng)的速度和效率的先進(jìn)的維數(shù)降低。維數(shù)降低是指高維空間到低維空間的映射。可使用各種不同的技術(shù)實(shí)現(xiàn)維數(shù)降低。這些技術(shù)包括主成分分析(PCA),線性鑒別分析(LDA),因素分析(FA),單值分解(SVD)及其它使用基于方差的降低準(zhǔn)則的變換。
與文獻(xiàn)種描述的其它適應(yīng)技術(shù)不同,我們的本征話音適應(yīng)技術(shù)把維數(shù)降低用于完全說話者模型集,以便找到覆蓋這些說話者模型空間的基向量。作為說明,使用維數(shù)降低在脫機(jī)步驟分析大量收集的說話者模型,以產(chǎn)生我們稱為“本征話音向量”或“本征話音”的本征向量集合。這一脫機(jī)步驟計(jì)算上是相當(dāng)密集的,雖然只需要進(jìn)行一次。這之后,每次使用語音識(shí)別系統(tǒng)時(shí),對(duì)從新的說話者獲得的適應(yīng)數(shù)據(jù)進(jìn)行計(jì)算上耗費(fèi)不大的操作,以獲得由本征話音覆蓋的空間中的向量。這一新的向量對(duì)新的說話者給出了適應(yīng)模型。
本發(fā)明的能力的一部分從訓(xùn)練說話者的收集集合及識(shí)別系統(tǒng)要對(duì)得其適應(yīng)新的個(gè)別說話者的本征話音表示導(dǎo)出。換言之,在維數(shù)降低步驟形成的本征空間表示所有的訓(xùn)練說話者集合的語音特性。定義這一n維空間的各本征向量每一個(gè)包含不同的信息,并例如能夠表示為有序的列表或陣列的成員。
使用本發(fā)明大大降低了計(jì)算負(fù)擔(dān),因?yàn)楸菊飨蛄渴钦坏模试S通過解一組線性方程式進(jìn)行計(jì)算機(jī)能夠易于進(jìn)行的隨后的計(jì)算。
能夠以數(shù)種不同的方式實(shí)現(xiàn)把新的說話者放入本征空間內(nèi)。雖然能夠使用簡單的幾何投影,把新的說話者放入本征空間中,但我們已經(jīng)研發(fā)了一種我們稱為極大似然本征話音分解(MLED)這樣一種改進(jìn)的技術(shù),用于把新的向量放入由本征話音覆蓋的空間。極大似然技術(shù)涉及基于來自新的說話者的觀測數(shù)據(jù)并還基于如何構(gòu)造隱藏馬爾科夫模型的知識(shí)而構(gòu)造概率函數(shù)。使用這一概率函數(shù),通過取導(dǎo)數(shù)并求局部極大值而獲得極大似然向量。這樣這一極大似然向量被固有地約束到由本征話音覆蓋的空間內(nèi),并在該空間內(nèi)成為對(duì)給出可用的輸入語音數(shù)據(jù)新的說話者良好的表示。
當(dāng)使用精確的說話者相關(guān)模型良好的訓(xùn)練集合作為維數(shù)降低的基礎(chǔ)時(shí),我們的本征話音適應(yīng)技術(shù)給出出色的結(jié)果。因而根據(jù)本發(fā)明的一個(gè)方面,在使用輔助的適應(yīng)技術(shù)使維數(shù)降低之前可獲得說話者相關(guān)模型并使之加強(qiáng)。這類技術(shù)包括極大A后驗(yàn)估計(jì)(MAP)及其它基于變換的方法,諸如極大似然線性回歸(MLLR)。
根據(jù)本發(fā)明的另一方面,本征話音適應(yīng)技術(shù)用來開發(fā)初始適應(yīng)模型,并且這一模型后來使用諸如上述那些輔助技術(shù)進(jìn)而被改進(jìn)。通過首先使用MLED技術(shù)并然后使用這些輔助適應(yīng)技術(shù)之一,可以獲得最好的結(jié)果。
到此所討論的本征話音適應(yīng)技術(shù)已經(jīng)涉及施加給訓(xùn)練說話者集合的維數(shù)降低。本發(fā)明的另一方面涉及將維數(shù)降低應(yīng)用于從諸如MLLR這種基于變換的適應(yīng)技術(shù)所得到的變換矩陣。這種方法中,使用每一訓(xùn)練說話者估計(jì)來自說話者無關(guān)模型(例如使用MLLR)的變換矩陣集合。然后對(duì)于每一訓(xùn)練說話者的變換矩陣集合向量化(轉(zhuǎn)換為高維超向量)。然后對(duì)超向量集合應(yīng)用維數(shù)降低技術(shù)以產(chǎn)生我們稱為“本征變換向量”或“本征變換”的低維本征向量集合。
為了快速適應(yīng)新的說話者,系統(tǒng)假設(shè)新的說話者的變換矩陣位于由本征變換覆蓋的子空間中,并對(duì)說話者無關(guān)模型施加結(jié)果變換。
維數(shù)降低跳躍到本征空間提供了相當(dāng)?shù)撵`活性及計(jì)算上的經(jīng)濟(jì)性。例如我們發(fā)現(xiàn),統(tǒng)計(jì)處理技術(shù)可用于低維本征空間本身。因而,根據(jù)本發(fā)明的另一方面,諸如貝葉斯估計(jì)這樣的統(tǒng)計(jì)過程可在本征空間中執(zhí)行,以便作為更好定位新的說話者處于本征空間中處何的方法。關(guān)于說話者空間什么區(qū)域密集或稀疏分布的先驗(yàn)知識(shí)(例如來自訓(xùn)練說話者)用來加細(xì)在本征空間內(nèi)何處定位新的說話者的估計(jì)。
實(shí)際上,這里所述的本征話音適應(yīng)技術(shù)將允許基于很短的、并潛在不完整的訓(xùn)練周期的鹵棒性適應(yīng)模型的構(gòu)成。這樣這些技術(shù)有助于在不能獲得大量適應(yīng)數(shù)據(jù)的場合的說話者和環(huán)境適應(yīng)應(yīng)用。例如,這些技術(shù)將能在語音可用交互式市場系統(tǒng)中很好地工作,其中新的說話者通過電話響應(yīng)系統(tǒng)導(dǎo)航提示,并且在說話者通過系統(tǒng)導(dǎo)航提交定單時(shí)系統(tǒng)自動(dòng)地適應(yīng)新的說話者。
為了更完整理解本發(fā)明、其目的和先進(jìn)性,請參照以下說明和附圖。
圖1示出了有助于理解本發(fā)明的示例性隱藏馬爾科夫模型(HMM);圖2是表示如何由多個(gè)訓(xùn)練說話者構(gòu)造本征空間的數(shù)據(jù)流程圖;圖3是表示根據(jù)本發(fā)明如何使用本征話音構(gòu)造適應(yīng)模型的數(shù)據(jù)流程圖;圖4是本征空間簡化(二維的)說明,比較投影運(yùn)算與本發(fā)明的MLED極大似然運(yùn)算;圖5是表示根據(jù)本發(fā)明來自新說話者的觀測數(shù)據(jù)如何通過本征空間變換為適應(yīng)模型的數(shù)據(jù)結(jié)構(gòu)圖示;圖6是表示本發(fā)明的極大似然本征空間適應(yīng)過程的流程圖;圖7是表示用于基于變換矩陣定義本征空間的維數(shù)降低過程數(shù)據(jù)流程圖;圖8是用于理解貝葉斯估計(jì)技術(shù)的框圖;圖9是總結(jié)說明書中所述各種本征話音適應(yīng)技術(shù)的數(shù)據(jù)流程圖。
為了更好地理解本發(fā)明的說話者適應(yīng)技術(shù),對(duì)語音識(shí)別系統(tǒng)基本的理解是有幫助的。當(dāng)前大多數(shù)語音識(shí)別器采用隱藏馬爾科夫模型(HMM)表示語音。隱藏馬爾科夫模型是涉及狀態(tài)圖的建模方法。任何語音單元(諸如短語、詞、半詞、音素等)都能夠以包含在該模型中的所有知識(shí)源被建模。HMM表示產(chǎn)生離散區(qū)間可觀測的輸出序列一種未知的過程,輸出是某些有限的字母成員(對(duì)應(yīng)于語音單元預(yù)定的集合)。這些模型被稱為“隱藏的”,因?yàn)楫a(chǎn)生可觀測輸出的狀態(tài)序列是未知的。
如圖1所示,HMM 10由狀態(tài)集合(S1,S2,…S5)、定義圖1中箭頭所示的某些狀態(tài)對(duì)之間的轉(zhuǎn)移的向量以及概率數(shù)據(jù)集合來表示。特別地,隱藏馬爾科夫模型包括與轉(zhuǎn)移向量相關(guān)的轉(zhuǎn)移概率集合12及與每一狀態(tài)觀測的輸出相關(guān)的輸出概率集合14。對(duì)模型從一個(gè)狀態(tài)到另一狀態(tài)按規(guī)則間隔、離散區(qū)間定時(shí)。按時(shí)鐘時(shí)間,模型可以從其當(dāng)前狀態(tài)變?yōu)閷?duì)其轉(zhuǎn)移向量存在的任何狀態(tài)。如圖所示,轉(zhuǎn)移可從給定的狀態(tài)返回到自身。
轉(zhuǎn)移概率表示當(dāng)對(duì)模型計(jì)時(shí)時(shí)從一個(gè)狀態(tài)向另一狀態(tài)轉(zhuǎn)移將發(fā)生的似然率。于是如圖1所示,每一轉(zhuǎn)移與一概率值(0與1之間)相聯(lián)系。處于任意狀態(tài)的所有概率之和等于1。舉例來說,在轉(zhuǎn)移概率表格12中給出了示例性轉(zhuǎn)移概率值集合。應(yīng)當(dāng)理解,在一有效的實(shí)施例中,這些值將由訓(xùn)練數(shù)據(jù)產(chǎn)生,其限制是處于任意狀態(tài)的所有概率之和等于1。
每次進(jìn)行轉(zhuǎn)移時(shí),可以把模型設(shè)想為發(fā)出或輸出其字母表的一個(gè)成員。在圖1所示的實(shí)施例中,假設(shè)基于音素的語音單元。這樣在輸出概率表14中定義的符號(hào)對(duì)應(yīng)于標(biāo)準(zhǔn)英語中找到的音素。在每一轉(zhuǎn)移時(shí)發(fā)出哪一個(gè)字母表成員取決于輸出概率值或訓(xùn)練期間學(xué)習(xí)的函數(shù)。這樣發(fā)出的輸出表示觀測的序列(基于訓(xùn)練數(shù)據(jù)),并且每一字母表成員有一被發(fā)出的概率。
在對(duì)語音建模中,通常實(shí)際的作法是把輸出作為與離散字母表符號(hào)序列相對(duì)的連續(xù)向量序列。這需要輸出概率表示為與單個(gè)數(shù)值相對(duì)的連續(xù)概率函數(shù)。這樣,HMM常常基于包括一個(gè)或多個(gè)高斯分布的概率函數(shù)。當(dāng)使用多個(gè)高斯函數(shù)時(shí),如在16處所示,它們一般相加地混合在一起以定義一復(fù)合的概率分布。
無論表示為單一高斯函數(shù)還是表示高斯函數(shù)的混合,概率分布能夠由多個(gè)參數(shù)描述。如同轉(zhuǎn)移概率值(表12)那樣,這些輸出概率參數(shù)可能包含浮點(diǎn)數(shù)。參數(shù)表18標(biāo)識(shí)一般用來基于來自訓(xùn)練說話者的觀測數(shù)據(jù)表示概率密度函數(shù)(pdf)。由圖1中高斯函數(shù)16的方程式所示,要進(jìn)行建模的觀測向量O的概率密度函數(shù)是乘以高斯密度N的每一混合分量的混合系數(shù)的疊代和,其中高斯密度具有平均向量uj,以及從倒譜或?yàn)V波器組系數(shù)語音參數(shù)計(jì)算的協(xié)方差矩陣Uj。
隱藏馬爾科夫模型識(shí)別器實(shí)現(xiàn)的細(xì)節(jié)從一個(gè)應(yīng)用到另一應(yīng)用可以有很大變化。圖1所示的HMM例子只是要解釋隱藏馬爾科夫模型是如何構(gòu)造的,并不是作為對(duì)本發(fā)明范圍的限制。就此而言,有許多各種不同的隱藏馬爾科夫建模概念。正如從以下說明能夠更允分理解那樣,本發(fā)明的本征話音適應(yīng)技術(shù)能夠很好地適用于每一種不同的隱藏馬爾科夫模型變形,以及其它基于參數(shù)的語音建模系統(tǒng)。
構(gòu)造本征話音空間構(gòu)造表示多個(gè)訓(xùn)練說話者的本征空間的過程示于圖2。說明假設(shè)訓(xùn)練說話者20的數(shù)目T提供了本征空間將在其上構(gòu)造的一訓(xùn)練數(shù)據(jù)22語料庫。最好有合理的大量說話者(數(shù)量級(jí)100到200)提供訓(xùn)練數(shù)據(jù)。然后這些訓(xùn)練數(shù)據(jù)用來訓(xùn)練如24所示的說話者相關(guān)(SD)模型。在步驟24對(duì)每一說話者構(gòu)造一模型,每一模型表示要由識(shí)別系統(tǒng)理解的聲音單元的整個(gè)庫存。根據(jù)以上由圖1提供的說明,每一模型可以是HMM的一個(gè)集合,對(duì)每一聲音單元一個(gè)HMM。這表示在圖2中26處。
在訓(xùn)練集合表示精確的說話者相關(guān)模型時(shí)可以得到出色的結(jié)果。因而,如果需要,可以使用輔助的適應(yīng)技術(shù)加強(qiáng)說話者相關(guān)模型。這種技術(shù)包括極大A后驗(yàn)估計(jì)(MAP)及其它基于變換的方法,諸如極大似然線性回歸(MLLR)。這一可選的輔助適應(yīng)處理示于圖2中27處。當(dāng)構(gòu)造大詞匯量應(yīng)用時(shí),其中對(duì)給定的說話者每個(gè)參數(shù)訓(xùn)練數(shù)據(jù)量可能是低的,這樣加強(qiáng)說話者相關(guān)模型特別占優(yōu)勢。
在來自T個(gè)說話者的所有訓(xùn)練數(shù)據(jù)已經(jīng)用于訓(xùn)練相應(yīng)的說話者相關(guān)模型之后,在28處構(gòu)造T個(gè)超向量的集合。這樣對(duì)T個(gè)說話者每一個(gè)將有一個(gè)超向量30。每一說話者的超向量包括對(duì)應(yīng)于該說話者隱藏馬爾科夫模型的參數(shù)18至少一部分的參數(shù)(一般是浮點(diǎn)數(shù))的一有序列表。對(duì)應(yīng)于聲音單元的參數(shù)包含在給定的說話者超向量中。參數(shù)可以按任何方便的順序組織。順序是不重要的;然而,一旦采用了一種順序,則必須對(duì)所有的T個(gè)說話者遵循該順序。
然后有序的隱藏馬爾科夫模型參數(shù)被連接起來以形成超向量。選擇哪些HMM參數(shù)包含在超向量中可取決于可用的處理能力。我們發(fā)現(xiàn),從高斯均值構(gòu)造超向量給出良好的結(jié)果。如果可使用較大的處理能力,則超向量也可以包含其它HMM參數(shù),諸如轉(zhuǎn)移概率(圖1,表12)或協(xié)方差矩陣參數(shù)(圖1,參數(shù)18)。當(dāng)然,如果隱藏馬爾科夫模型產(chǎn)生離散輸出(與概率密度相反),那么這些輸出值可用來組成超向量。
在對(duì)每一訓(xùn)練說話者已經(jīng)構(gòu)造了超向量之后,在步驟32進(jìn)行維數(shù)降低。維數(shù)降低是通過把高維空間映射到低維空間而實(shí)現(xiàn)的??墒褂酶鞣N不同的技術(shù)實(shí)現(xiàn)維數(shù)降低。這些技術(shù)包括主成分分析(PCA),線性鑒別分析(LDA)、因素分析(FA)、獨(dú)立成分分析(ICA)、單值分解(SVD)及其它使用基于方差的降低準(zhǔn)則的變換。
更具體來說,實(shí)現(xiàn)本發(fā)明中使用的維數(shù)降低技術(shù)的類型定義如下。考慮從用于語音識(shí)別的說話者相關(guān)模型獲得的T個(gè)訓(xùn)練超向量的集合。設(shè)這些超向量的每一個(gè)有維數(shù)V;這樣,我們能夠把每一超向量標(biāo)記為X=[x1,x2,…xV]^T(V*1向量)??紤]可施加到超向量(即施加到任何維數(shù)V的向量)以產(chǎn)生新的維數(shù)E的向量(E小于或等于T,訓(xùn)練超向量數(shù)目)的線性變換M;每一被變換的向量能夠標(biāo)記為W=[w1,w2,…wE]^T。以某種方法從T個(gè)訓(xùn)練超向量集合計(jì)算M的參數(shù)值。
這樣,我們有了線性變換W=M*X。M有維數(shù)E*V,而W有維數(shù)E*1,其中E<=T;對(duì)于T個(gè)訓(xùn)練超向量的特定集合,M將是常數(shù)??捎檬褂脦追N維數(shù)降低技術(shù)從T個(gè)訓(xùn)練超向量集合計(jì)算線性變換M,使得W有維數(shù)E<=T。
例子包含主成分分析,獨(dú)立成分分析,線性鑒別分析、因素分析及單值分解。在輸入向量是從說話者相關(guān)建模推導(dǎo)的訓(xùn)練超向量,且M用來進(jìn)行實(shí)現(xiàn)上述技術(shù)的特定情形下,本發(fā)明可以使用尋找這種固定線性變換M的任何方法(不只是列出的方法)實(shí)現(xiàn)。
如在34處那樣,對(duì)T個(gè)超向量維數(shù)降低產(chǎn)生T個(gè)本征向量。這樣,如果已經(jīng)使用了120個(gè)訓(xùn)練說話者,則系統(tǒng)將產(chǎn)生120個(gè)本征向量。這些本征向量定義我們稱之為本征話音空間或本征空間的東西。
形成本征話音空間的本征向量包含不同的信息;它們每一個(gè)表示不同的維,通過這些維可以區(qū)分不同的說話者。原始訓(xùn)練集合中每一超向量能夠表示為這些本征向量的線性組合。本征向量按它們在對(duì)數(shù)據(jù)建模中的重要性來排序第一個(gè)本征向量比第二個(gè)重要,第二個(gè)比第三個(gè)重要,等等。至此我們對(duì)這一技術(shù)的經(jīng)驗(yàn)表明,第一本征向量好象對(duì)應(yīng)于性別維。
既然在步驟32產(chǎn)生了極大T個(gè)本征向量,實(shí)際上能夠拋棄這些向量中的幾個(gè),而只保留前N個(gè)本征向量。這樣在步驟36我們可選地抽取T個(gè)本征向量中的N個(gè),在步驟38組成減少參數(shù)的本征空間。能夠舍棄較高階的本征向量,是因?yàn)樗鼈儼谡f話者之中進(jìn)行鑒別的較次要信息。降低本征話音空間到少于訓(xùn)練說話者總數(shù),提供了能夠有助于在以有限的存儲(chǔ)器和處理器資源構(gòu)造實(shí)用系統(tǒng)時(shí)的內(nèi)在的數(shù)據(jù)壓縮。
進(jìn)行適應(yīng)一旦構(gòu)造了本征話音空間,能夠易于實(shí)現(xiàn)說話者規(guī)范化、說話者適應(yīng)或環(huán)境適應(yīng)。雖然構(gòu)造本征空間計(jì)算上有些煩瑣,并一般是脫機(jī)進(jìn)行的,但在新的說話者正在使用系統(tǒng)時(shí)適應(yīng)還是能夠進(jìn)行的比較簡單的計(jì)算操作。參見圖3,在步驟42使用來自新的說話者40的語音以訓(xùn)練說話者相關(guān)模型,構(gòu)造HMM集合44(每一聲音單元一個(gè))。說話者相關(guān)模型能夠或者以監(jiān)視模式訓(xùn)練,其中訓(xùn)練系統(tǒng)事先知道訓(xùn)練語音的內(nèi)容,或者以非監(jiān)視模式訓(xùn)練,其中語音識(shí)別系統(tǒng)使用說話者無關(guān)模型確定適應(yīng)語音的內(nèi)容。
對(duì)這一新的說話者訓(xùn)練的說話者相關(guān)模型通常至少在開始很不適用于進(jìn)行識(shí)別。然而,模型卻可能用來構(gòu)造超向量。在步驟46構(gòu)造超向量,使得強(qiáng)制超向量(超向量48)落入先前從訓(xùn)練說話者生成的本征話音空間38。以強(qiáng)加的約束構(gòu)造超向量48,使得用于識(shí)別的HMM模型必須是構(gòu)成本征話音空間38的本征話音的線性組合。
說話者相關(guān)模型44用來估算將組成對(duì)新的說話者適應(yīng)模型的系數(shù)的線性組合。這樣在步驟50,基于超向量48構(gòu)造新的HMM集合以產(chǎn)生適應(yīng)模型52。如果需要,可以在54進(jìn)行可選的疊代過程,以便從適應(yīng)的模型52構(gòu)造新的超向量,并此后構(gòu)造HMM的另一集合,從該集合可構(gòu)造進(jìn)一步的適應(yīng)模型。
圖4以二維空間示出約束新的說話者語音模型處于本征空間38內(nèi)的過程。如上所述,本征空間是階數(shù)等于通過維數(shù)降低而產(chǎn)生的本征向量數(shù)的多維空間。
圖4中為了簡化表示只示出兩維,但是應(yīng)當(dāng)理解,本征空間38的階一般比兩維高得多。
新的說話者是通過數(shù)據(jù)點(diǎn)60圖示出的。數(shù)據(jù)點(diǎn)60將對(duì)應(yīng)于圖3中所示的超向量48。注意,60處新的說話者位于本征空間38之外。如上所討論,適應(yīng)過程涉及在本征空間內(nèi)尋找表示對(duì)這一新的說話者良好適應(yīng)模型的點(diǎn)。適應(yīng)模型基于由新的說話者發(fā)出的輸入語音,但約束處于本征空間38內(nèi)。
用于在本征空間內(nèi)置位新的說話者的一個(gè)簡單技術(shù)要使用線條62所示的簡單投影運(yùn)算。投影運(yùn)算在本征空間內(nèi)尋找盡可能靠近本征空間之外對(duì)應(yīng)于新的說話者輸入語音的點(diǎn)。這樣的簡單投影將把新的說話者置位于本征空間38內(nèi)的點(diǎn)64。應(yīng)當(dāng)記住,這些點(diǎn)實(shí)際上是從其能夠重新組成HMM集合的超向量。
投影運(yùn)算是不能保證本征空間中的點(diǎn)對(duì)新的說話者是優(yōu)化的比較粗糙的技術(shù)。此外,投影運(yùn)算要求新的說話者的超向量包含數(shù)據(jù)的完全集合,以便表示該說話者HMM的整個(gè)集合。這一要求引起相當(dāng)大的實(shí)用上的限制。當(dāng)使用投影約束新的說話者到本征空間時(shí),該說話者必須提供足夠的輸入語音,以使在數(shù)據(jù)中表示出所有的語音單元。例如,如果指定隱藏馬爾科夫模型表示英語語言中所有的音素,則在能夠使用簡單投影技術(shù)之前,訓(xùn)練說話者必須提供所有音素的例子。在很多應(yīng)用中這一限制完全是不實(shí)際的。
極大似然本征話音分解(MLED)技術(shù)本發(fā)明的極大似然技術(shù)是為了解決上述簡單投影的兩缺陷。本發(fā)明的極大似然技術(shù)在本征空間38內(nèi)尋找表示對(duì)應(yīng)于隱藏馬爾科夫模型的超向量的點(diǎn)66,該隱藏馬爾科夫模型具有產(chǎn)生由新的說話者提供的語音的最大概率。為了示例,極大似然過程由圖4中的線條68表示。
而簡單的投影運(yùn)算把所有的超向量成員作為具有同等重要性對(duì)待,最大似然技術(shù)是基于從實(shí)際適應(yīng)數(shù)據(jù)引起的概率的,使信息越多的數(shù)據(jù)權(quán)重越重。與簡單投影技術(shù)不同,即使新的說話者沒有提供完全的訓(xùn)練數(shù)據(jù)集合(即對(duì)某些聲音單元的數(shù)據(jù)缺失),極大似然技術(shù)仍將有效。實(shí)際上,極大似然技術(shù)把構(gòu)造超向量的上下文考慮在內(nèi),即從涉及一定模型比另外的模型更可能產(chǎn)生由新說話者提供的輸入語音的概率的隱藏馬爾科夫模型進(jìn)行構(gòu)造。
實(shí)際上,極大似然技術(shù)將在本征空間內(nèi)選擇與新的說話者輸入語音最一致的超向量,而不論實(shí)際上究竟有多少輸入語音可得。為了說明,假設(shè)新的說話者是Alabama的當(dāng)?shù)厝四贻p女性。在收到來自這一說話者發(fā)出的一些音節(jié)時(shí),極大似然技術(shù)將在本征空間內(nèi)選擇表示與說話者的當(dāng)?shù)谹labama女性口音一致的所有音素(即使那些在輸入語音中還沒有表示的音素)的點(diǎn)。
圖5表示極大似然技術(shù)如何工作。來自新的說話者的語音輸入用來構(gòu)造超向量70。如上所述,超向量包括對(duì)應(yīng)于倒譜系數(shù)等語音參數(shù)的連接列表。在所示的實(shí)施例中,這些參數(shù)為表示從對(duì)應(yīng)于新說話者的隱藏馬爾科夫模型集合抽取的高斯均值的浮點(diǎn)數(shù)。其它的HMM參數(shù)也可使用。在圖示中,這些HMM均值作為如72處的點(diǎn)示出。當(dāng)以數(shù)據(jù)完全分布時(shí),超向量70將對(duì)每一HMM均值包含對(duì)應(yīng)于由HMM模型表示的每一聲音單元的浮點(diǎn)數(shù)。為了進(jìn)行說明,這里假設(shè)音素“ah”的參數(shù)出現(xiàn),而音素“iy”的參數(shù)缺失。
本征空間38由本征向量74、76和78的集合表示。對(duì)應(yīng)于來自新說話者的觀測數(shù)據(jù)的超向量70可在本征空間中由每一本征向量乘以標(biāo)記為W1,W2,…Wn的對(duì)應(yīng)的本征值表示。這些本征值起初是未知的。極大似然技術(shù)尋找這些未知本征值的值。如將以下更充分說明那樣,通過尋找將能在本征空間中最佳表示新說話者的優(yōu)化解選擇這些值。
在使本征值與對(duì)應(yīng)的本征空間38的本征向量相乘并對(duì)結(jié)果乘積求和之后,產(chǎn)生一個(gè)適應(yīng)模型80。由于輸入語音的超向量(超向量70)可能已有某些缺失的參數(shù)值(例如“yi”參數(shù)),表示適應(yīng)模型的超向量80以數(shù)值完全分布。此即本發(fā)明的一個(gè)好處。此外,超向量80中的值表示優(yōu)化解,即它在本征空間中具有表示新說話者的極大似然值。
各本征值W1,W2,…Wn可看作為構(gòu)成極大似然向量,這里稱為極大似然向量。圖5在82處圖示出向量。如圖示所示,極大似然向量82組成本征值W1,W2,…Wn的集合。
圖6中示出使用極大似然技術(shù)進(jìn)行適應(yīng)的過程。來自新說話者組成觀測數(shù)據(jù)的語音用來構(gòu)造如100處所示的HMM集合。然后HMM集合102用于構(gòu)成如104處所示的超向量。如圖所示,超向量106構(gòu)成從HMM模型102抽取的HMM參數(shù)的連續(xù)的列表。
使用超向量106,在108構(gòu)造概率函數(shù)Q。當(dāng)前優(yōu)選的實(shí)施例采用一種概率函數(shù),該函數(shù)表示對(duì)HMM模型102的預(yù)定集合產(chǎn)生被觀測數(shù)據(jù)的概率。如果函數(shù)包含的不只是概率項(xiàng)P,而且還有這項(xiàng)的對(duì)數(shù)logP,則易于進(jìn)行概率函數(shù)Q的后繼操作。
然后在步驟110通過分別對(duì)每一本征值W1,W2,…Wn取概率函數(shù)的導(dǎo)數(shù),得到概率函數(shù)最大值。例如,如果本征空間維數(shù)為100,這一系統(tǒng)計(jì)算概率函數(shù)Q的100個(gè)導(dǎo)數(shù),置每一個(gè)為零并對(duì)各個(gè)W求解。雖然這好象是很大的計(jì)算量,但是比傳統(tǒng)的MAP或MLLR技術(shù)進(jìn)行一般所需的成千次的計(jì)算在計(jì)算耗費(fèi)上要小得多。
這樣獲得的Ws結(jié)果集合表示標(biāo)識(shí)本征空間中對(duì)應(yīng)于極大似然點(diǎn)的點(diǎn)所需的本征值。這樣,Ws的集合構(gòu)成本征空間中極大似然向量。就此而言,每一本征向量(圖5中的本征向量74、76和78)定義了一組正交向量或坐標(biāo),本征值乘以該坐標(biāo)而定義約束在本征空間內(nèi)的點(diǎn)。在112示出的這一極大似然向量用來構(gòu)造對(duì)應(yīng)于本征空間中最優(yōu)點(diǎn)(圖4中的點(diǎn)66)的超向量114。然后在步驟116超向量114可用來構(gòu)造對(duì)新說話者的適應(yīng)模型118。
在本發(fā)明的極大似然結(jié)構(gòu)的上下文中,我們希望使觀測O=o1…oT的似然關(guān)于模型λ最大化。這可通過疊代求輔助函數(shù)Q的最大值(以下)進(jìn)行,其中λ是疊代處的當(dāng)前模型,而
是估計(jì)的模型。我們有Q(λ,λ^)=ΣΘ∈statesP(O,θ|λ)log[P(O,θ|λ^)]]]>作為最初的逼近,我們可希望只對(duì)均值進(jìn)行最大化。在概率P由HMM集合給出的場合下,我們獲得以下結(jié)果Q(λ,λ^)=const-12P(O|λ)ΣstatesinλSλΣmixtganssinSMsΣtimetT{γm(s)(t)[nlog(2π)+log|Cm(s)|+h(ot,m,s)]}]]>其中h(ot,m,s)=(ot-μ^m(s))TCm(s)-1(ot-μ^m(s))]]>并設(shè)ot為時(shí)間t處的特征向量Cm(s)-1為狀態(tài)s的混合高斯逆協(xié)方差μ^m(S)為對(duì)狀態(tài)s的逼近的適應(yīng)均值,混合分量mγm(s)(t)為P(使用混合高斯m|λsot)設(shè)新說話者的HMM的高斯均值位于本征空間中。設(shè)這一空間是由均值超向量μj覆蓋的空間,j=1…E,
其中μm(s)(j)表示在本征向量(本征模型)j的狀態(tài)s下混合高斯m的均值向量。
然后我需要μ^=Σj=1Ewjμ-j]]>μj為正交的,且Wj是我們的說話者模型的本征值。這里我們假設(shè),可對(duì)任何新的說話者建模為被觀測的說話者數(shù)據(jù)庫的線性組合。然后μ^m(s)=Σj=1Ewjμ-m(s)(j)]]>s是M的混合高斯值中的λ、m的狀態(tài)。由于我們需要使Q最大化,我們只需設(shè)定(原文P29公式3)(注意,因?yàn)楸菊飨蛄渴钦坏?,?amp;PartialD;wi∂wj=0,i≠j..)]]>因而我們有∂Q∂we=0=ΣstatesinλSλΣmixtganssinSMsΣtimetT{∂∂weγm(s)(t)h(ot,s)},e=1...E.]]>計(jì)算以上的導(dǎo)數(shù),我們有0=ΣsΣmΣtγm(s)(t){-μ-m(s)T(e)Cm(s)-1ot+Σj=1Ewjμ-m(s)T(j)Cm(s)-1μ-m(s)(e)]]>由此我們求得線性方程式組
在本征空間求得說話者模型之后的輔助適應(yīng)上述的本征話音適應(yīng)技術(shù)發(fā)展了對(duì)新的說話者的初始適應(yīng)模型。如果需要,然后可使用輔助適應(yīng)技術(shù)進(jìn)一步改進(jìn)這一模型,以便進(jìn)一步細(xì)化適應(yīng)模型。適用的輔助適應(yīng)技術(shù)包括極大A后驗(yàn)估計(jì)(MAP)及其它基于變換的方法,諸如極大似然線性回歸(MLLR)。在至今的實(shí)驗(yàn)中我們發(fā)現(xiàn),如圖所示,最好的結(jié)果常常是通過首先采用MLED技術(shù)并然后采用這些輔助適應(yīng)技術(shù)之一而獲得的。
本征話音技術(shù)試圖估計(jì)新的說話者在本征空間中的位置。然而,除非新的說話者也是訓(xùn)練的說話者,否則他或她不大可能精確位于這一子空間中。如果新的說話者接近本征話音空間中被估計(jì)的位置,則本征話音技術(shù)很有效,但是不可能總是這樣。于是一般來說,僅僅使用本征話音技術(shù)不大可能對(duì)新的說話者提供“真正”的模型。本征話音技術(shù)不能表示出新的說話者特有的音素(即在訓(xùn)練的說話者之中沒有看到的)。本征話音技術(shù)的優(yōu)點(diǎn)在于,它們能快速對(duì)新的說話者提供合理的逼近模型。
另一方面,MAP和其它諸如MLLR基于變換的方法頗為能夠求得對(duì)新的說話者“真正”的模型;但是它們?nèi)绻麖恼f話者無關(guān)模型開始(通常的方法),這些方法達(dá)到模型是緩慢的。MLED或某些其它本征話音技術(shù),后跟諸如MAP或其它諸如MLLR這種基于變換的方法的輔助處理,提供了兩方面的最佳效果對(duì)新的說話者合理良好模型的快速估計(jì),后跟向“真正”模型的收斂。
把維數(shù)降低用于變換矩陣諸如MLLR這種基于變換的輔助適應(yīng)技術(shù),也能夠?qū)S數(shù)降低提供原始資料。這種情形下,對(duì)與維數(shù)降低模型參數(shù)相反的維數(shù)降低變換矩陣進(jìn)行本征話音適應(yīng)。
在到此所呈現(xiàn)的例子中,說話者模型用來構(gòu)造超向量,并然后使這些超向量維數(shù)降低以產(chǎn)生本征空間。在根據(jù)本發(fā)明一個(gè)方面的另外的技術(shù)中,使訓(xùn)練的說話者數(shù)據(jù)通過變換過程,并然后使用產(chǎn)生的變換矩陣產(chǎn)生本征空間。
為了說明參見圖7,其中在130處的T個(gè)說話者提供訓(xùn)練數(shù)據(jù)132,并然后通過基于變換的適應(yīng)技術(shù),諸如MLLR,對(duì)這些訓(xùn)練數(shù)據(jù)進(jìn)行運(yùn)算,以便在134處估計(jì)變換矩陣,每一說話者一個(gè)。這產(chǎn)生如136處所示的每一說話者一個(gè)的一組變換矩陣W1。這組變換矩陣將施加到表示每一說話者的說話者模型137。
然后這組變換矩陣在步驟138用來構(gòu)造T個(gè)超向量140。類似于前面的例子中連接說話者模型參數(shù)的方式,這些超向量可通過連接變換矩陣參數(shù)構(gòu)造。然后在步驟142進(jìn)行維數(shù)降低,產(chǎn)生T個(gè)“本征變換”向量的本征空間144。如果需要,如146處所示,該過程可以可選地抽取T個(gè)本征變換的子集N。這一結(jié)果得到N個(gè)本征變換的本征空間148。
為了快速適應(yīng)新的說話者,系統(tǒng)假設(shè)對(duì)該新的說話者適當(dāng)?shù)淖儞QWi位于由這些本征變換覆蓋的子空間中。系統(tǒng)使用簡單投影或其它諸如上述MLED技術(shù)這樣的技術(shù)估計(jì)本征變換適當(dāng)?shù)木€性組合。這一結(jié)果是對(duì)新的說話者的一個(gè)本征變換向量,這向量可用于說話者無關(guān)模型,以便達(dá)到對(duì)新的說話者適應(yīng)的模型。
在本征空間內(nèi)使用貝葉斯估計(jì)來自訓(xùn)練的說話者通過維數(shù)降低處理的數(shù)據(jù)定義了本征空間的分界和邊界。一般來說,訓(xùn)練的說話者本身不是在本征空間中均勻分布的。而是有一概率分布,本征空間內(nèi)某些區(qū)域稀疏分布,而其它區(qū)域稠密分布。由于這一概率分布來源于訓(xùn)練的說話者并在訓(xùn)練之后即被得知,故在本征空間中益使用貝葉斯估計(jì)。
貝葉斯估計(jì)即考慮(原有的訓(xùn)練說話者)先驗(yàn)的概率分布,又考慮來自新的說話者的觀測數(shù)據(jù)。形式上,假設(shè)對(duì)說話者模型λ先驗(yàn)的概率分布為g(λ)。對(duì)新的說話者給出觀測O,貝葉斯估計(jì)試圖求得使以下關(guān)系式最大化的λL(O|λ)*g(λ)即我們使用關(guān)于說話者空間什么區(qū)域?yàn)槊芗蛳∈璺植歼@樣的先驗(yàn)的知識(shí)(從訓(xùn)練的說話者推測),來加細(xì)我們的估計(jì)∧帽λ^]]>即在這空間中新的說話者的位置。這樣的貝葉斯估計(jì)涉及使用新的觀測數(shù)據(jù)調(diào)和先驗(yàn)概率分布,其中對(duì)新的估計(jì)尋求極大概率。
有幾種方法在本征空間中進(jìn)行貝葉斯估計(jì)。以下將討論這些方法中的一些方法,但是這一討論并不是要包括所有的方法。
一項(xiàng)技術(shù)使用以上討論的MLED技術(shù)在本征話音空間中估計(jì)新說話者,其中w是在以下等式中定義的本征話音權(quán)重向量w=[L(O|λ^)*A+τI]-1*[τv+L(O|λ^)*b]]]>在以上等式中Aw=b是解方程獲得MLED估計(jì)?!拿笔菍?duì)新說話者模型(例如說話者無關(guān)模型)初始估計(jì),v是從先驗(yàn)概率對(duì)數(shù)的一階導(dǎo)數(shù)獲得的向量,τ是時(shí)間因子。時(shí)間因子τ對(duì)說話者就時(shí)間的可變性建模-具體的本征維數(shù)時(shí)間變化越多,在該維先驗(yàn)概率上放置的權(quán)重越大。
在本征話音空間中結(jié)合先驗(yàn)概率并進(jìn)行貝葉斯估計(jì)的另一方法是使用這種數(shù)據(jù)到低維本征空間的投影估計(jì)高維數(shù)據(jù)的高斯密度。如果x是從類別Ω畫出的觀測向量,而E是通過選擇前K個(gè)本征向量獲得的本征空間,這前K個(gè)本征向量是從對(duì)來自Ω的訓(xùn)練數(shù)據(jù)進(jìn)行維數(shù)降低導(dǎo)出的,這時(shí)以下等式成立P^(x|Ω)=PE(x|Ω)*P-E(x|Ω)]]>在以上等式中本征空間E中的單高斯密度由以下項(xiàng)表示PE(x|Ω)在對(duì)偶空間即在與本征空間正交的空間中單一高斯分布由以下項(xiàng)表示PE-(x|Ω)]]>能夠僅使用到E的投影和殘差從訓(xùn)練數(shù)據(jù)向量集完全估計(jì)這兩項(xiàng)。
計(jì)入先驗(yàn)概率的一個(gè)簡單、近似的方法是假設(shè)每一本征維大體是獨(dú)立的。然后每一維能夠劃分為小的數(shù)目的簇,每一簇具有單一高斯輸出分布及先驗(yàn)概率(從訓(xùn)練的說話者計(jì)算)。然后適應(yīng)涉及基于從新的說話者的觀測,在每一維中選擇最可能的分布。這一方法在訓(xùn)練數(shù)據(jù)中有高置信度并在來自新說話者的數(shù)據(jù)中有較低置信度的情形下是有吸引力的。
另外,訓(xùn)練的說話者能夠劃分為本征話音空間中有限數(shù)目的輸出分布,每一帶有先驗(yàn)概率。然后適應(yīng)在于找到與新的觀測最佳匹配的簇。這一技術(shù)在先驗(yàn)概率上比新的觀測數(shù)據(jù)放置更多的權(quán)重。
圖8總結(jié)了施加于本征話音空間的基本貝葉斯估計(jì)技術(shù)。參見圖8,訓(xùn)練數(shù)據(jù)產(chǎn)生在150所示的模型∧。這些模型對(duì)應(yīng)于本征空間152。模型在本征空間中不是均勻分布,而是有稠密分布區(qū)域及稀疏分布區(qū)域。這已經(jīng)以“拓?fù)洹眻D的形式示出。這些模型∧具有在154圖示的概率分布,并在156由概率函數(shù)g(∧)示出。
新的說話者160提供在162圖示的觀測數(shù)據(jù)O。概率分布156和觀測值O在貝葉斯方程164中相乘,且這一乘積用來尋找使貝葉斯方程164最大化的新的說話者模型∧。注意,方程164包括與遇到的觀測值O的概率相關(guān)的給出模型∧參數(shù)的第一項(xiàng);以及與原始訓(xùn)練數(shù)據(jù)的概率分布相關(guān)的第二項(xiàng)。這樣,第一項(xiàng)表示新的說話者而第二項(xiàng)表示先驗(yàn)概率。
環(huán)境適應(yīng)雖然到此對(duì)本發(fā)明作為說話者適應(yīng)技術(shù)已經(jīng)進(jìn)行了說明,該技術(shù)可易于擴(kuò)展到環(huán)境適應(yīng)。例如許多語音識(shí)別系統(tǒng)對(duì)環(huán)境條件,諸如麥克風(fēng)位置、空間聲學(xué)、背景噪聲及音頻信號(hào)信道質(zhì)量是相當(dāng)敏感的。本征向量能夠用來對(duì)不同的說話環(huán)境建模,這正如它們用來對(duì)不同的說話者建模那樣。
在大多數(shù)情形下,希望協(xié)調(diào)說話者適應(yīng)和環(huán)境適應(yīng)的需要。為了做到這點(diǎn),我們只需保證在環(huán)境廣泛的變化中記錄訓(xùn)練的說話者。為了獲得良好的性能,訓(xùn)練的說話者數(shù)目和記憶的本征話音數(shù)目可能需要比對(duì)于安靜環(huán)境中本征話音適應(yīng)必須的數(shù)目大。否則,過程與上述相同。
為了產(chǎn)生適應(yīng)環(huán)境而不是說話者的說話者無關(guān)系統(tǒng),適應(yīng)與上述技術(shù)稍微不同的變形。首先,訓(xùn)練E個(gè)說話者無關(guān)模型,其中E是訓(xùn)練數(shù)據(jù)中不同環(huán)境數(shù)。E個(gè)模型的每一個(gè)對(duì)相同的環(huán)境中許多不同的說話者訓(xùn)練。理想地,E個(gè)不同的記錄環(huán)境將盡可能多樣化。然后,本征話音過程如上述進(jìn)行。這種情形下,本征話音向量將表示環(huán)境之間的變化成分。這樣,第一本征向量可能或可能不象說話者適應(yīng)例子中所作的表示性別維。
所提供的本征話音技術(shù)總結(jié)本發(fā)明的本征話音適應(yīng)技術(shù)能夠用于各種不同的場合。它們可單獨(dú)使用或與以上概述的其它適應(yīng)技術(shù)一同使用。圖9總結(jié)了本征話音適應(yīng)技術(shù)的某些可能的應(yīng)用和實(shí)現(xiàn)。參見圖9,訓(xùn)練的說話者200對(duì)用來產(chǎn)生說話者模型204的初始集合的模型構(gòu)造器202提供輸入。在這點(diǎn)可采取幾種不同的方法。
如206所示,可對(duì)說話者模型204進(jìn)行維數(shù)降低,以便產(chǎn)生本征空間208。
另外,可使用輔助適應(yīng)過程210加細(xì)說話者模型204,以產(chǎn)生加細(xì)的或加強(qiáng)的模型集合212。如以上所指出,輔助適應(yīng)過程能夠?qū)崿F(xiàn)MAP估計(jì)或其它諸如MLLR基于變換的方法。然后維數(shù)降低206可施加到這些加強(qiáng)的模型上,基于訓(xùn)練的說話者200加強(qiáng)的模型產(chǎn)生本征空間208。
諸如新的說話者214這樣的新的說話者的適應(yīng)是通過適應(yīng)過程216進(jìn)行的,該過程通過任何上述技術(shù)把新的說話者放置到本征空間208中。當(dāng)前優(yōu)選的實(shí)施例使用極大似然技術(shù)MLED用于將新的說話者放置到本征空間。
如上所討論,本征空間內(nèi)每一向量對(duì)應(yīng)于一說話者模型。這樣向本征空間放置新的說話者214的結(jié)果是得到本征空間中表示對(duì)這新的說話者適應(yīng)模型的向量。圖9中,這一適應(yīng)模型在218處標(biāo)記。
如果需要,如220處所示,新的說話者214到本征空間中的放置能夠通過貝葉斯估計(jì)加強(qiáng)。貝葉斯估計(jì)使用來自訓(xùn)練的說話者200關(guān)于說話者空間區(qū)域哪些是密集的或哪些是稀疏分布的這樣的先驗(yàn)概率知識(shí),且這一知識(shí)用來加細(xì)在該空間內(nèi)在哪里放置新的說話者的估計(jì)。
在適應(yīng)模型218已經(jīng)產(chǎn)生之后,可對(duì)其進(jìn)行輔助適應(yīng)過程222以產(chǎn)生在224所示的更為加細(xì)的適應(yīng)模型。輔助適應(yīng)過程222能夠采用MAP估計(jì)或諸如MLLR某些基于變換的方法。與使用過程216結(jié)合使用輔助適應(yīng)過程222提供了雙重優(yōu)點(diǎn)適應(yīng)過程216快速達(dá)到對(duì)新的說話者適應(yīng)模型的估計(jì);適應(yīng)過程222對(duì)估計(jì)加細(xì)以找到最佳適應(yīng)模型。
到此在這一總結(jié)討論中,已經(jīng)對(duì)說話者模型204進(jìn)行維數(shù)降低步驟?;貞浧鹁S數(shù)降低過程涉及使用諸如隱藏馬爾科夫模型參數(shù)這樣的適當(dāng)模型參數(shù)形成對(duì)每一訓(xùn)練的說話者相連的超向量。然而維數(shù)降低不限于說話者模型。維數(shù)降低還能夠用于使用其它說話者適應(yīng)技術(shù)產(chǎn)生的變換矩陣,諸如在210所示的輔助適應(yīng)過程。
于是,圖9還示出維數(shù)降低技術(shù)的替代使用。輔助適應(yīng)過程210作為其運(yùn)算的副產(chǎn)品產(chǎn)生變換矩陣。這些變換矩陣示于圖9中226處。例如,輔助適應(yīng)過程210可以是諸如MLLR基于變換的運(yùn)算,這種運(yùn)算從一說話者無關(guān)(SI)模型產(chǎn)生一組變換矩陣Wi。然后把對(duì)每一訓(xùn)練的說話者的這一組矩陣如通過連接向量化,以產(chǎn)生高維超向量。然后在步驟228進(jìn)行維數(shù)降低以產(chǎn)生對(duì)應(yīng)于一組“本征變換”向量的本征空間230。
為了適應(yīng)新的說話者,諸如說話者232,適應(yīng)過程234假設(shè)對(duì)該新的說話者適當(dāng)?shù)淖儞QWi位于由本征變換覆蓋的子空間(本征空間230)中。例如使用MLED方法,已經(jīng)估計(jì)了本征變換的適當(dāng)?shù)木€性組合,然后系統(tǒng)把產(chǎn)生的變換Wi施加到說話者無關(guān)模型,以產(chǎn)生對(duì)新的說話者適應(yīng)模型236。
在重新查看圖9時(shí),請記住,圖9是要總結(jié)這一文獻(xiàn)中其它地方所描述的數(shù)個(gè)不同的本征話音適應(yīng)技術(shù)。這樣,圖9中的解釋只是要表示這些技術(shù)在各種場合中的應(yīng)用。根據(jù)本發(fā)明給出的實(shí)現(xiàn)可以使用這里所示的某些過程,但是不是完全必須的。此外,圖9不是要包括一切。在所附權(quán)利要求中所述本發(fā)明范圍內(nèi)還可生成許多其它組合。
雖然對(duì)本發(fā)明就其當(dāng)前優(yōu)選實(shí)施例進(jìn)行了說明,但是應(yīng)當(dāng)理解,本發(fā)明能夠適用于各種不同的應(yīng)用。于是,上述的例子是要說明本發(fā)明的概念,而不是限制所附權(quán)利要求的范圍。
權(quán)利要求
1.用于進(jìn)行說話者適應(yīng)或規(guī)范化的方法,該方法包括以下步驟通過對(duì)所述訓(xùn)練的說話者提供一組模型,構(gòu)造表示多個(gè)訓(xùn)練說話者的本征空間,并對(duì)所述模型組進(jìn)行維數(shù)降低,以產(chǎn)生定義所述本征空間的一組基向量;產(chǎn)生適應(yīng)模型,使用來自新的說話者的輸入語音以訓(xùn)練所述適應(yīng)模型,同時(shí)使用所述基向量組約束所述適應(yīng)模型,使所述適應(yīng)模型位于所述本征空間內(nèi)。
2.權(quán)利要求1的方法,其中通過連接從所述模型組抽取的多個(gè)模型參數(shù),并通過對(duì)所述模型參數(shù)進(jìn)行線性變換,進(jìn)行所述維數(shù)降低。
3.權(quán)利要求1的方法,其中通過從由主成分分析、線性鑒別分析、因素分析、獨(dú)立成分分析、及單值分解組成的組選擇的變換過程進(jìn)行所述維數(shù)降低。
4.權(quán)利要求1的方法,其中用于所述訓(xùn)練說話者的所述模型定義多個(gè)模型參數(shù),且構(gòu)造本征空間的所述步驟包括連接用于所述多個(gè)訓(xùn)練說話者的所述模型參數(shù)以便構(gòu)造一組超向量,并對(duì)所述超向量進(jìn)行線性維數(shù)降低變換從而產(chǎn)生所述基向量。
5.權(quán)利要求4的方法,其中用于每一所述訓(xùn)練說話者的所述模型對(duì)應(yīng)于一組不同的語音單元,且其中每一超向量作為對(duì)應(yīng)于按預(yù)定順序分類的所述語音單元的模型參數(shù)的連接來定義。
6.權(quán)利要求4的方法,其中所述模型參數(shù)為倒譜系數(shù)。
7.權(quán)利要求1的方法,其中進(jìn)行維數(shù)降低的所述步驟產(chǎn)生一組數(shù)目等于訓(xùn)練說話者數(shù)目的基向量。
8.權(quán)利要求1的方法,其中所述進(jìn)行維數(shù)降低的步驟產(chǎn)生基向量的有序列表,并且其中構(gòu)造本征空間的所述步驟包括放棄所述有序列表的預(yù)定部分,以降低所述本征空間階數(shù)。
9.權(quán)利要求1的方法,其中約束所述說話者相關(guān)模型的所述步驟通過向所述本征空間投影所述輸入語音進(jìn)行。
10.一種進(jìn)行說話者適應(yīng)或規(guī)范化的方法,該方法包括步驟通過對(duì)所述訓(xùn)練的說話者提供一組模型,構(gòu)造表示多個(gè)訓(xùn)練說話者的本征空間,并對(duì)所述模型組進(jìn)行維數(shù)降低,以產(chǎn)生定義所述本征空間的一組基向量;產(chǎn)生適應(yīng)模型,使用來自新的說話者的輸入語音以便在定義所述適應(yīng)模型的本征空間中找出極大似然向量,使所述適應(yīng)模型位于所述本征空間內(nèi)。
11.權(quán)利要求10的方法,其中產(chǎn)生極大似然向量的所述步驟包括定義表示對(duì)預(yù)定的一組模型產(chǎn)生觀測數(shù)據(jù)的概率的概率函數(shù),其中所述輸入語音提供所述觀測數(shù)據(jù);以及最大化所述概率函數(shù)以找出所述極大似然向量。
12.權(quán)利要求10的方法,其中所述適應(yīng)模型通過使極大似然向量系數(shù)乘以所述基向量從極大似然向量導(dǎo)出。
13.權(quán)利要求12的方法,其中所述極大化步驟通過以下進(jìn)行把所述極大似然向量表示為一組本征值變量;對(duì)于所述本征值變量取所述概率函數(shù)的一階導(dǎo)數(shù);以及當(dāng)所述一階導(dǎo)數(shù)等于零時(shí),求出所述本征值變量對(duì)應(yīng)的值。
14.一種進(jìn)行說話者適應(yīng)或規(guī)范化的方法,該方法包括步驟把多個(gè)訓(xùn)練說話者表示為一組說話者模型,所述模型定義多個(gè)參數(shù);通過調(diào)節(jié)所述模型的至少某些所述參數(shù)強(qiáng)化所述說話者模型以定義一組強(qiáng)化的說話者模型;通過對(duì)所述強(qiáng)化模型組進(jìn)行維數(shù)降低,以產(chǎn)生一組定義所述本征空間的基向量,而構(gòu)造表示所述多個(gè)訓(xùn)練說話者的本征空間;產(chǎn)生適應(yīng)模型,使用來自新的說話者的輸入語音以便訓(xùn)練所述適應(yīng)模型,同時(shí)使用所述基向量組約束所述適應(yīng)模型,使得所述適應(yīng)模型位于所述本征空間內(nèi)。
15.權(quán)利要求14的方法,其中使用極大后驗(yàn)估計(jì)進(jìn)行所述強(qiáng)化步驟。
16.權(quán)利要求14的方法,其中使用基于變換的估計(jì)過程進(jìn)行所述強(qiáng)化步驟。
17.權(quán)利要求14的方法,其中使用極大似然線性回歸估計(jì)進(jìn)行所述強(qiáng)化步驟。
18.權(quán)利要求14的方法,其中產(chǎn)生所述適應(yīng)模型的所述步驟包括使用來自所述新的說話者的輸入語音以產(chǎn)生極大似然向量并訓(xùn)練所述適應(yīng)模型,同時(shí)使用所述基向量組和所述極大似然向量約束所述適應(yīng)模型,使得所述適應(yīng)模型位于所述本征空間內(nèi)。
19.一種進(jìn)行說話者適應(yīng)或規(guī)范化的方法,該方法包括步驟通過對(duì)所述訓(xùn)練說話者提供一組模型而構(gòu)造表示多個(gè)訓(xùn)練說話者的本征空間,并對(duì)所述模型組進(jìn)行維數(shù)降低,以產(chǎn)生一組定義所述本征空間的基向量;產(chǎn)生適應(yīng)模型,使用來自新的說話者的輸入語音以便訓(xùn)練所述適應(yīng)模型,同時(shí)使用所述基向量組約束所述適應(yīng)模型,使得所述適應(yīng)模型位于所述本征空間內(nèi);通過從所述適應(yīng)模型抽取模型參數(shù)而強(qiáng)化所述適應(yīng)模型,并基于來自所述新的說話者的輸入語音調(diào)節(jié)至少某些所述參數(shù)。
20.權(quán)利要求19的方法,其中使用極大后驗(yàn)估計(jì)進(jìn)行所述強(qiáng)化步驟。
21.權(quán)利要求19的方法,其中使用基于變換的估計(jì)過程進(jìn)行所述強(qiáng)化步驟。
22.權(quán)利要求19的方法,其中使用極大似然線性回歸估計(jì)進(jìn)行所述強(qiáng)化步驟。
23.權(quán)利要求19的方法,其中產(chǎn)生所述適應(yīng)模型的所述步驟包括使用來自所述新的說話者的輸入語音以產(chǎn)生極大似然向量并訓(xùn)練所述適應(yīng)模型,同時(shí)使用所述基向量組和所述極大似然向量約束所述適應(yīng)模型,使得所述適應(yīng)模型位于所述本征空間內(nèi)。
24.權(quán)利要求23的方法,其中使用極大后驗(yàn)估計(jì)進(jìn)行所述強(qiáng)化步驟。
25.權(quán)利要求23的方法,其中使用基于變換的估計(jì)過程進(jìn)行所述強(qiáng)化步驟。
26.權(quán)利要求23的方法,其中使用極大似然線性回歸估計(jì)進(jìn)行所述強(qiáng)化步驟。
27.一種進(jìn)行說話者適應(yīng)或規(guī)范化的方法,該方法包括步驟把多個(gè)訓(xùn)練說話者表示為第一組變換矩陣,以及變換矩陣所適用的模型;通過對(duì)所述第一組變換矩陣進(jìn)行維數(shù)降低而構(gòu)造表示多個(gè)訓(xùn)練說話者的本征空間,以產(chǎn)生一組定義所述本征空間的基向量;使用來自新的說話者的輸入語音產(chǎn)生第二組變換矩陣,同時(shí)使用所述基向量組約束所述第二組變換矩陣,使得所述第二組位于所述本征空間內(nèi)。
28.權(quán)利要求27的方法,其中所述第一組變換矩陣是通過極大似然線性回歸產(chǎn)生的。
29.權(quán)利要求27的方法,還包括使所述第一組變換矩陣每一個(gè)向量化以定義一組超向量,并對(duì)所述超向量進(jìn)行維數(shù)降低以定義所述本征空間。
30.權(quán)利要求27的方法,還包括使用來自新說話者的輸入語音產(chǎn)生所述第二組變換矩陣,以產(chǎn)生極大似然向量,使用所述極大似然向量確定所述本征空間內(nèi)的位置。
31.一種進(jìn)行說話者適應(yīng)或規(guī)范化的方法,該方法包括步驟通過對(duì)所述訓(xùn)練說話者提供一組第一模型而構(gòu)造表示多個(gè)訓(xùn)練說話者的本征空間,并對(duì)所述第一模型組進(jìn)行維數(shù)降低,以產(chǎn)生一組定義所述本征空間的基向量;產(chǎn)生適應(yīng)模型,使用來自新的說話者的輸入語音以便訓(xùn)練所述適應(yīng)模型,同時(shí)使用所述基向量組約束所述適應(yīng)模型,使得所述適應(yīng)模型位于所述本征空間內(nèi),其中所述第一模型定義第一概率分布,且所述輸入語音定義觀測數(shù)據(jù),且其中所述適應(yīng)模型是這樣產(chǎn)生的,使得所述觀測數(shù)據(jù)和所述第一概率分布的乘積最大化。
32.權(quán)利要求31的方法,還包括向所述第一概率分布及所述第二概率分布施加置信因子,以反映由所述分布提供的信息置信度對(duì)時(shí)間如何變化。
全文摘要
對(duì)相當(dāng)大數(shù)目的訓(xùn)練說話者訓(xùn)練一組說話者相關(guān)模型或適應(yīng)模型,每一說話者一個(gè)模型,并按預(yù)定的順序抽取模型參數(shù)以構(gòu)造一組超向量,每一說話者一個(gè)。然后對(duì)超向量組進(jìn)行維數(shù)降低以產(chǎn)生定義一本征空間的一組本征向量。如果需要,可以減少向量數(shù)目以達(dá)到數(shù)據(jù)壓縮。此后,一新的說話者提供適應(yīng)數(shù)據(jù),從這些適應(yīng)數(shù)據(jù)構(gòu)造一超向量,基于極大似然估計(jì)把這一超向量約束在本征話音空間中。
文檔編號(hào)G10L15/14GK1253353SQ9911839
公開日2000年5月17日 申請日期1999年9月3日 優(yōu)先權(quán)日1998年9月4日
發(fā)明者羅蘭德·庫恩, 帕特里克·貴恩, 吉恩-克勞德·瓊克瓦 申請人:松下電器產(chǎn)業(yè)株式會(huì)社