專(zhuān)利名稱(chēng):一種結(jié)合高層描述信息和模型自適應(yīng)的說(shuō)話(huà)人轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音合成中說(shuō)話(huà)人轉(zhuǎn)換的方法,具體是通過(guò)高層韻律描述信息和模型自適應(yīng)方法使語(yǔ)音合成系統(tǒng)可以合成多音色、多風(fēng)格的語(yǔ)音。
背景技術(shù):
隨著語(yǔ)音合成技術(shù)的飛速發(fā)展,合成語(yǔ)音的音質(zhì)和自然度都有了很大的提高,人們已經(jīng)不再滿(mǎn)足一個(gè)語(yǔ)音合成系統(tǒng)僅可合成單一音色、單一風(fēng)格的語(yǔ)音的情形。為了使語(yǔ)音合成系統(tǒng)可以合成出多種音色、多種風(fēng)格的語(yǔ)音,如果使用傳統(tǒng)的語(yǔ)音合成技術(shù),則需要錄制多個(gè)說(shuō)話(huà)人的不同發(fā)音風(fēng)格的音庫(kù),然而音庫(kù)的錄制是一個(gè)成本非常大且需要很長(zhǎng)的時(shí)間才能完成的工作。為了實(shí)現(xiàn)具有多表現(xiàn)力的語(yǔ)音合成系統(tǒng),同時(shí)又不至于錄制更多更大的音庫(kù),說(shuō)話(huà)人轉(zhuǎn)換技術(shù)被提出和廣泛研究。
目前應(yīng)用較為廣泛的說(shuō)話(huà)人轉(zhuǎn)換方法有基于碼本映射(Codebook Mapping)的方法和基于混合高斯模型(Gaussian Mixture Model)的方法。碼本映射和基于混合高斯模型的說(shuō)話(huà)人轉(zhuǎn)換方法,一般都需要目標(biāo)說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)和原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)在文本上相對(duì)應(yīng),這樣就可以利用原始說(shuō)話(huà)人與目標(biāo)說(shuō)話(huà)人的聲學(xué)參數(shù)之間的對(duì)應(yīng)關(guān)系,在參數(shù)空間建立起由原始說(shuō)話(huà)人到目標(biāo)說(shuō)話(huà)人之間的一對(duì)一的映射。不過(guò),要求文本和目標(biāo)說(shuō)話(huà)人語(yǔ)音對(duì)應(yīng)增加了實(shí)際系統(tǒng)的使用難度。同時(shí),采用這兩種方法轉(zhuǎn)換得到的目標(biāo)說(shuō)話(huà)人的合成語(yǔ)音中,往往普遍的存在頻譜不連續(xù)的現(xiàn)象,造成了合成語(yǔ)音音質(zhì)的降低。
基于隱馬爾可夫模型(Hidden Markov Model)的方法也是一種較為廣泛應(yīng)用的說(shuō)話(huà)人轉(zhuǎn)換方法?;陔[馬爾可夫模型的說(shuō)話(huà)人轉(zhuǎn)換方法,在進(jìn)行參數(shù)生成的時(shí)候充分考慮了語(yǔ)音參數(shù)的動(dòng)態(tài)特征,可以生成較為平滑的語(yǔ)音頻譜,很好的解決合成語(yǔ)音中的不連續(xù)現(xiàn)象。但一般的基于隱馬爾可夫模型的說(shuō)話(huà)人轉(zhuǎn)換方法,在進(jìn)行模型自適應(yīng)調(diào)整時(shí),只是簡(jiǎn)單的使用數(shù)據(jù)驅(qū)動(dòng)的方法對(duì)原始說(shuō)話(huà)人的聲學(xué)模型進(jìn)行綁定,忽略了語(yǔ)音特征的高層描述信息,導(dǎo)致一些完全不相關(guān)的模型卻進(jìn)行相同的調(diào)整,造成了合成語(yǔ)音中目標(biāo)說(shuō)話(huà)人的特征不明顯、音質(zhì)下降等問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的就是提出一種結(jié)合高層描述信息和模型自適應(yīng)的基于隱馬爾可夫模型的說(shuō)話(huà)人轉(zhuǎn)換方法,提高合成語(yǔ)音的音質(zhì),增強(qiáng)合成語(yǔ)音中目標(biāo)說(shuō)話(huà)人的特征,使語(yǔ)音合成系統(tǒng)可以合成多種音色、多種風(fēng)格的語(yǔ)音。
一種結(jié)合高層描述信息和模型自適應(yīng)的說(shuō)話(huà)人轉(zhuǎn)換方法,其特征是包括訓(xùn)練階段和合成階段,在訓(xùn)練階段,首先,使用原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù),訓(xùn)練得到原始說(shuō)話(huà)人頻譜、基頻和時(shí)長(zhǎng)隱馬爾可夫模型;然后,使用結(jié)合高層描述信息和最大似然線(xiàn)性回歸的自適應(yīng)方法,分別對(duì)訓(xùn)練得到的原始說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)模型進(jìn)行自適應(yīng)調(diào)整,從而得到目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)參數(shù)的隱馬爾可夫模型;合成階段則是根據(jù)得到的目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)模型,采用考慮參數(shù)動(dòng)態(tài)特征的參數(shù)生成算法,相應(yīng)的生成目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)參數(shù),并將其輸入到參數(shù)合成器中,由參數(shù)合成器合成出最終的目標(biāo)說(shuō)話(huà)人的語(yǔ)音。具體實(shí)現(xiàn)步驟為(1)、訓(xùn)練階段的具體實(shí)現(xiàn)過(guò)程如下1)對(duì)原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)進(jìn)行分幀處理以及語(yǔ)音參數(shù)分析和提取,得到原始說(shuō)話(huà)人每一幀語(yǔ)音的線(xiàn)譜頻率和基頻參數(shù);并對(duì)每一幀的線(xiàn)譜頻率參數(shù)計(jì)算其動(dòng)態(tài)參數(shù),即一階差分、二階差分參數(shù),由線(xiàn)譜頻率參數(shù)及其一階差分、二階差分參數(shù)作為原始說(shuō)話(huà)人的頻譜參數(shù);使用多空間概率分布隱馬爾可夫模型對(duì)頻譜和基頻參數(shù)進(jìn)行建模,從而得到原始說(shuō)話(huà)人的頻譜和基頻的隱馬爾可夫模型;2)使用1)中訓(xùn)練得到的原始說(shuō)話(huà)人的頻譜和基頻隱馬爾可夫模型,對(duì)原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)進(jìn)行隱馬爾可夫模型狀態(tài)切分,從而得到了原始說(shuō)話(huà)人的時(shí)長(zhǎng)參數(shù),進(jìn)而訓(xùn)練得到原始說(shuō)話(huà)人的隱馬爾可夫時(shí)長(zhǎng)模型;3)充分考慮合成系統(tǒng)中能夠提供的對(duì)于語(yǔ)音單元的高層描述信息,如上下文相關(guān)的韻律信息,這些高層描述信息可以有效輔助建立原始說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的聲學(xué)參數(shù)的映射關(guān)系;根據(jù)最大似然準(zhǔn)則,利用語(yǔ)音單元的高層描述信息,分別為原始說(shuō)話(huà)人的各聲學(xué)狀態(tài)的頻譜模型建立一棵上下文相關(guān)的決策樹(shù);具體做法是,在使用決策樹(shù)對(duì)原始說(shuō)話(huà)人的某一狀態(tài)的頻譜模型進(jìn)行聚類(lèi)的過(guò)程中,每個(gè)節(jié)點(diǎn)分裂時(shí),總是選擇可以使?fàn)顟B(tài)輸出似然值的增加值最大的問(wèn)題,對(duì)該節(jié)點(diǎn)中的所有頻譜模型進(jìn)行決策分類(lèi);4)將3)中生成的各狀態(tài)頻譜模型的決策樹(shù)合并為一棵決策樹(shù),實(shí)際上就是在一個(gè)根節(jié)點(diǎn)下掛載著3)中得到的各狀態(tài)的決策樹(shù),在使用這棵決策樹(shù)進(jìn)行模型綁定時(shí),首先通過(guò)決策問(wèn)題將不同狀態(tài)的模型分開(kāi),然后對(duì)應(yīng)每個(gè)狀態(tài)的頻譜模型則可以使用3)中得到的各狀態(tài)的決策樹(shù)對(duì)原始說(shuō)話(huà)人的相應(yīng)狀態(tài)的頻譜模型進(jìn)行綁定;5)使用參數(shù)分析算法,對(duì)目標(biāo)說(shuō)話(huà)人的語(yǔ)音進(jìn)行分析,提取目標(biāo)說(shuō)話(huà)人的頻譜參數(shù)(線(xiàn)譜頻率及其一階差分、二階差分參數(shù)),采用自頂向下(Top-Down)或自底向上(Bottom-Up)的方式遍歷4)中生成的決策樹(shù);對(duì)于那些有足夠的數(shù)據(jù)并且是葉子節(jié)點(diǎn)或者其所有子節(jié)點(diǎn)均沒(méi)有足夠的數(shù)據(jù)來(lái)進(jìn)行調(diào)整的節(jié)點(diǎn)作為一個(gè)回歸節(jié)點(diǎn)。
6)對(duì)5)中得到的各回歸節(jié)點(diǎn)中的模型進(jìn)行線(xiàn)性調(diào)整,主要是通過(guò)求得表征原始說(shuō)話(huà)人頻譜模型與目標(biāo)說(shuō)話(huà)人頻譜模型之間映射關(guān)系的回歸矩陣來(lái)實(shí)現(xiàn)的;這樣便得到了目標(biāo)說(shuō)話(huà)人的頻譜模型;7)對(duì)于原始說(shuō)話(huà)人的基頻模型,采用與頻譜模型相同的如上3)、4)、5)、6)中所述的調(diào)整方法,進(jìn)而得到目標(biāo)說(shuō)話(huà)人的基頻模型;8)由得到的目標(biāo)說(shuō)話(huà)人的頻譜和基頻模型對(duì)目標(biāo)語(yǔ)音進(jìn)行隱馬爾可夫模型狀態(tài)切分,得到用于訓(xùn)練的目標(biāo)說(shuō)話(huà)人的時(shí)長(zhǎng)數(shù)據(jù);9)采用與頻譜和基頻相同的模型調(diào)整方法,對(duì)原始說(shuō)話(huà)人的狀態(tài)時(shí)長(zhǎng)模型進(jìn)行調(diào)整,從而得到目標(biāo)說(shuō)話(huà)人的時(shí)長(zhǎng)模型;(2)、合成階段具體采用如下的方法1)按照對(duì)輸入文本分析的結(jié)果,找得對(duì)應(yīng)的目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)模型序列。
2)對(duì)這些模型使用考慮語(yǔ)音參數(shù)動(dòng)態(tài)特征的參數(shù)生成方法,具體方法為根據(jù)最大似然準(zhǔn)則,最大化輸出概率p(O|λ)=ΣallQp(O,Q|λ),]]>其中0為語(yǔ)音參數(shù)矢量(包括靜態(tài)參數(shù)和動(dòng)態(tài)參數(shù)),Q為狀態(tài)高斯序列指出每個(gè)高斯屬于哪個(gè)狀態(tài),λ為訓(xùn)練階段得到的目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)隱馬爾可夫模型,假設(shè)在P(Q|λ)最大的條件下,上述最大化輸出概率等同于最大化,logP(O|Q,λ)=-12OTU-1O+OTU-1M+K,]]>其中U為相應(yīng)高斯模型的協(xié)方差矩陣組成的對(duì)角矩陣,M為由相應(yīng)高斯模型的均值序列組成的矩陣,O=WC,其中C為語(yǔ)音靜態(tài)參數(shù)矢量,W為由靜態(tài)參數(shù)生成包括靜態(tài)特征和動(dòng)態(tài)特征的參數(shù)矢量的計(jì)算矩陣,則可以通過(guò)∂logP(WC|λQ)∂C=0]]>求得最終生成的語(yǔ)音靜態(tài)參數(shù)為C=(WTU-1W)-1WTU-1MT,按照這種考慮語(yǔ)音動(dòng)態(tài)特征的參數(shù)生成算法,分別生成目標(biāo)說(shuō)話(huà)人的線(xiàn)譜頻率、基頻和時(shí)長(zhǎng)參數(shù);3)將生成的線(xiàn)譜頻率、基頻和時(shí)長(zhǎng)參數(shù)輸入到線(xiàn)譜參數(shù)合成器,合成出目標(biāo)說(shuō)話(huà)人的語(yǔ)音。
發(fā)明的效果語(yǔ)音高層描述信息的使用,避免了一些完全不相關(guān)的模型卻使用相同的回歸矩陣進(jìn)行調(diào)整所造成的合成語(yǔ)音的音質(zhì)降低。同時(shí),也增強(qiáng)了合成語(yǔ)音中目標(biāo)說(shuō)話(huà)人的特征。
結(jié)合高層描述信息和模型自適應(yīng)的說(shuō)話(huà)人轉(zhuǎn)換方法,使語(yǔ)音合成系統(tǒng)可以合成出多個(gè)說(shuō)話(huà)人的語(yǔ)音,同時(shí)又不增加太大的成本和音庫(kù)的存儲(chǔ)空間,合成系統(tǒng)建立的周期也大大縮短。
結(jié)合高層描述信息和模型自適應(yīng)的說(shuō)話(huà)人轉(zhuǎn)換方法,也可以幫助合成系統(tǒng)合成出不同風(fēng)格,如不同的情感、不同年齡、不同發(fā)音方式的語(yǔ)音。
術(shù)語(yǔ)解釋語(yǔ)音合成(Text-To-Speech)又稱(chēng)為文語(yǔ)轉(zhuǎn)化。它涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理、多媒體等多種學(xué)科,是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。語(yǔ)音合成技術(shù)解決的主要問(wèn)題是如何將電子化文本的文字信息轉(zhuǎn)化為能夠播放的聲音信息。近代語(yǔ)音合成技術(shù)是隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的發(fā)展而發(fā)展起來(lái)的,目的是讓計(jì)算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語(yǔ)音。
說(shuō)話(huà)人轉(zhuǎn)換(Voice Conversion)它是近年來(lái)語(yǔ)音合成領(lǐng)域中的一個(gè)研究熱點(diǎn),主要是對(duì)一個(gè)人(原始說(shuō)話(huà)人)的語(yǔ)音進(jìn)行處理,使它聽(tīng)起來(lái)像另一個(gè)人(目標(biāo)說(shuō)話(huà)人)說(shuō)出來(lái)的一樣。它可以應(yīng)用商業(yè)、軍事、娛樂(lè)等多個(gè)領(lǐng)域。
語(yǔ)音特征的高層描述信息主要是指自然語(yǔ)音中一些上下文相關(guān)的信息,如前后音素環(huán)境、在韻律層次中的位置等。各種語(yǔ)音參數(shù)如頻譜參數(shù)、基頻參數(shù)都和高層描述信息有很大的相關(guān)性。
隱馬爾可夫模型(Hidden Markov Model)馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見(jiàn),外界只能看到各個(gè)時(shí)刻的輸出值。用HMM刻畫(huà)語(yǔ)音信號(hào)需做出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。
圖1本發(fā)明的系統(tǒng)工作流程框圖。
圖2上下文相關(guān)的決策樹(shù)。
具體實(shí)施例方式
參見(jiàn)附圖,結(jié)合高層描述信息和模型自適應(yīng)的說(shuō)話(huà)人轉(zhuǎn)換方法,包括訓(xùn)練階段和合成階段,1、訓(xùn)練階段的具體實(shí)現(xiàn)過(guò)程如下1)原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)進(jìn)行分幀處理以及語(yǔ)音參數(shù)分析和提取,得到原始說(shuō)話(huà)人每一幀語(yǔ)音的線(xiàn)譜頻率和基頻參數(shù)。并對(duì)每一幀的線(xiàn)譜頻率參數(shù)計(jì)算其動(dòng)態(tài)參數(shù),即一階差分、二階差分參數(shù),由線(xiàn)譜頻率參數(shù)及其一階差分、二階差分參數(shù)作為原始說(shuō)話(huà)人的頻譜參數(shù)。使用多空間概率分布隱馬爾可夫模型對(duì)頻譜和基頻參數(shù)進(jìn)行建模,采用的是5狀態(tài)的隱馬爾可夫模型,從而得到原始說(shuō)話(huà)人的頻譜和基頻的隱馬爾可夫模型。
2)使用1)中訓(xùn)練得到的原始說(shuō)話(huà)人的頻譜和基頻隱馬爾可夫模型,對(duì)原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)進(jìn)行隱馬爾可夫模型狀態(tài)切分,從而得到了原始說(shuō)話(huà)人的時(shí)長(zhǎng)參數(shù),進(jìn)而訓(xùn)練得到原始說(shuō)話(huà)人的時(shí)長(zhǎng)模型。
3)充分考慮合成系統(tǒng)中能夠提供的對(duì)于語(yǔ)音單元的高層描述信息,如上下文相關(guān)的韻律信息,這些高層描述信息可以有效輔助建立原始說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的聲學(xué)參數(shù)的映射關(guān)系。根據(jù)最大似然準(zhǔn)則,分別為原始說(shuō)話(huà)人的各狀態(tài)的頻譜模型建立一棵上下文相關(guān)的決策樹(shù)。具體做法是,在使用決策樹(shù)對(duì)原始說(shuō)話(huà)人的各狀態(tài)模型進(jìn)行聚類(lèi)的過(guò)程中,每個(gè)節(jié)點(diǎn)分裂時(shí),總是選擇可以使?fàn)顟B(tài)輸出似然值的增加值最大的問(wèn)題,對(duì)該節(jié)點(diǎn)中的所有模型進(jìn)行決策分類(lèi)。
4)將3)中生成的各狀態(tài)頻譜模型的決策樹(shù)合并為一棵決策樹(shù),也就是首先通過(guò)決策問(wèn)題將不同狀態(tài)的模型分開(kāi),然后對(duì)應(yīng)每個(gè)狀態(tài)則使用3)中得到的各狀態(tài)的回歸樹(shù),并由這棵決策樹(shù)對(duì)原始說(shuō)話(huà)人的頻譜模型進(jìn)行綁定。
5)提取目標(biāo)說(shuō)話(huà)人的頻譜參數(shù)(線(xiàn)譜頻率及其一階差分、二階差分參數(shù)),采用自頂向下(Top-Down)或自底向上(Bottom-Up)的方式遍歷4)中生成的決策樹(shù)。對(duì)于那些有足夠的數(shù)據(jù)并且是葉子節(jié)點(diǎn)或者其所有子節(jié)點(diǎn)均沒(méi)有足夠的數(shù)據(jù)來(lái)進(jìn)行調(diào)整的節(jié)點(diǎn)作為一個(gè)回歸節(jié)點(diǎn)。
6)對(duì)5)中得到的各回歸節(jié)點(diǎn)中的模型進(jìn)行線(xiàn)性調(diào)整,主要是求得表征原始說(shuō)話(huà)人頻譜模型與目標(biāo)說(shuō)話(huà)人頻譜模型之間映射關(guān)系的回歸矩陣。這樣便得到了目標(biāo)說(shuō)話(huà)人的頻譜模型。
7)對(duì)于原始說(shuō)話(huà)人的基頻模型,采用與頻譜模型相同的自適應(yīng)調(diào)整方法,進(jìn)而得到目標(biāo)說(shuō)話(huà)人的基頻模型。
8)由自適應(yīng)得到的目標(biāo)說(shuō)話(huà)人的頻譜和基頻模型對(duì)目標(biāo)語(yǔ)音進(jìn)行隱馬爾可夫模型狀態(tài)切分,得到用于自適應(yīng)的目標(biāo)說(shuō)話(huà)人的時(shí)長(zhǎng)數(shù)據(jù)。
9)采用與頻譜和基頻相同的自適應(yīng)方法,對(duì)原始說(shuō)話(huà)人的狀態(tài)時(shí)長(zhǎng)模型進(jìn)行自適應(yīng)調(diào)整,從而得到目標(biāo)說(shuō)話(huà)人的時(shí)長(zhǎng)模型。
2、合成階段具體采用如下的方法1)按照輸入文本分析的結(jié)果,生成原始說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)參數(shù)。
2)對(duì)這些參數(shù)使用考慮語(yǔ)音參數(shù)動(dòng)態(tài)特征的參數(shù)生成方法,根據(jù)最大似然準(zhǔn)則,由訓(xùn)練階段得到的目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)隱馬爾可夫模型,分別生成目標(biāo)說(shuō)話(huà)人的線(xiàn)譜頻率、基頻和時(shí)長(zhǎng)參數(shù)。
3)將生成的線(xiàn)譜頻率、基頻和時(shí)長(zhǎng)參數(shù)輸入到線(xiàn)譜參數(shù)合成器,合成出目標(biāo)說(shuō)話(huà)人的語(yǔ)音。
權(quán)利要求
1.一種結(jié)合高層描述信息和模型自適應(yīng)的說(shuō)話(huà)人轉(zhuǎn)換方法,其特征是包括訓(xùn)練階段和合成階段,在訓(xùn)練階段,首先,使用原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù),訓(xùn)練得到原始說(shuō)話(huà)人頻譜、基頻和時(shí)長(zhǎng)隱馬爾可夫模型;然后,使用結(jié)合高層描述信息和最大似然線(xiàn)性回歸的自適應(yīng)方法,分別對(duì)訓(xùn)練得到的原始說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)模型進(jìn)行自適應(yīng)調(diào)整,從而得到目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)參數(shù)的隱馬爾可夫模型;合成階段則是根據(jù)得到的目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)模型,采用考慮參數(shù)動(dòng)態(tài)特征的參數(shù)生成算法,相應(yīng)的生成目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)參數(shù),并將其輸入到參數(shù)合成器中,由參數(shù)合成器合成出最終的目標(biāo)說(shuō)話(huà)人的語(yǔ)音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于具體實(shí)現(xiàn)步驟為(1)、訓(xùn)練階段的具體實(shí)現(xiàn)過(guò)程如下1)對(duì)原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)進(jìn)行分幀處理以及語(yǔ)音參數(shù)分析和提取,得到原始說(shuō)話(huà)人每一幀語(yǔ)音的線(xiàn)譜頻率和基頻參數(shù);并對(duì)每一幀的線(xiàn)譜頻率參數(shù)計(jì)算其動(dòng)態(tài)參數(shù),即一階差分、二階差分參數(shù),由線(xiàn)譜頻率參數(shù)及其一階差分、二階差分參數(shù)作為原始說(shuō)話(huà)人的頻譜參數(shù);使用多空間概率分布隱馬爾可夫模型對(duì)頻譜和基頻參數(shù)進(jìn)行建模,從而得到原始說(shuō)話(huà)人的頻譜和基頻的隱馬爾可夫模型;2)使用1)中訓(xùn)練得到的原始說(shuō)話(huà)人的頻譜和基頻隱馬爾可夫模型,對(duì)原始說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)進(jìn)行隱馬爾可夫模型狀態(tài)切分,從而得到了原始說(shuō)話(huà)人的時(shí)長(zhǎng)參數(shù),進(jìn)而訓(xùn)練得到原始說(shuō)話(huà)人的隱馬爾可夫時(shí)長(zhǎng)模型;3)充分考慮合成系統(tǒng)中能夠提供的對(duì)于語(yǔ)音單元的高層描述信息,如上下文相關(guān)的韻律信息,這些高層描述信息可以有效輔助建立原始說(shuō)話(huà)人和目標(biāo)說(shuō)話(huà)人的聲學(xué)參數(shù)的映射關(guān)系;根據(jù)最大似然準(zhǔn)則,利用語(yǔ)音單元的高層描述信息,分別為原始說(shuō)話(huà)人的各聲學(xué)狀態(tài)的頻譜模型建立一棵上下文相關(guān)的決策樹(shù);具體做法是,在使用決策樹(shù)對(duì)原始說(shuō)話(huà)人的某一狀態(tài)的頻譜模型進(jìn)行聚類(lèi)的過(guò)程中,每個(gè)節(jié)點(diǎn)分裂時(shí),總是選擇可以使?fàn)顟B(tài)輸出似然值的增加值最大的問(wèn)題,對(duì)該節(jié)點(diǎn)中的所有頻譜模型進(jìn)行決策分類(lèi);4)將3)中生成的各狀態(tài)頻譜模型的決策樹(shù)合并為一棵決策樹(shù),實(shí)際上就是在一個(gè)根節(jié)點(diǎn)下掛載著3)中得到的各狀態(tài)的決策樹(shù),在使用這棵決策樹(shù)進(jìn)行模型綁定時(shí),首先通過(guò)決策問(wèn)題將不同狀態(tài)的模型分開(kāi),然后對(duì)應(yīng)每個(gè)狀態(tài)的頻譜模型則可以使用3)中得到的各狀態(tài)的決策樹(shù)對(duì)原始說(shuō)話(huà)人的相應(yīng)狀態(tài)的頻譜模型進(jìn)行綁定;5)使用參數(shù)分析算法,對(duì)目標(biāo)說(shuō)話(huà)人的語(yǔ)音進(jìn)行分析,提取目標(biāo)說(shuō)話(huà)人的頻譜參數(shù)(線(xiàn)譜頻率及其一階差分、二階差分參數(shù)),采用自頂向下(Top-Down)或自底向上(Bottom-Up)的方式遍歷4)中生成的決策樹(shù);對(duì)于那些有足夠的數(shù)據(jù)并且是葉子節(jié)點(diǎn)或者其所有子節(jié)點(diǎn)均沒(méi)有足夠的數(shù)據(jù)來(lái)進(jìn)行調(diào)整的節(jié)點(diǎn)作為一個(gè)回歸節(jié)點(diǎn);6)對(duì)5)中得到的各回歸節(jié)點(diǎn)中的模型進(jìn)行線(xiàn)性調(diào)整,主要是通過(guò)求得表征原始說(shuō)話(huà)人頻譜模型與目標(biāo)說(shuō)話(huà)人頻譜模型之間映射關(guān)系的回歸矩陣來(lái)實(shí)現(xiàn)的;這樣便得到了目標(biāo)說(shuō)話(huà)人的頻譜模型;7)對(duì)于原始說(shuō)話(huà)人的基頻模型,采用與頻譜模型相同的如上3)、4)、5)、6)中所述的調(diào)整方法,進(jìn)而得到目標(biāo)說(shuō)話(huà)人的基頻模型;8)由得到的目標(biāo)說(shuō)話(huà)人的頻譜和基頻模型對(duì)目標(biāo)語(yǔ)音進(jìn)行隱馬爾可夫模型狀態(tài)切分,得到用于訓(xùn)練的目標(biāo)說(shuō)話(huà)人的時(shí)長(zhǎng)數(shù)據(jù);9)采用與頻譜和基頻相同的模型調(diào)整方法,對(duì)原始說(shuō)話(huà)人的狀態(tài)時(shí)長(zhǎng)模型進(jìn)行調(diào)整,從而得到目標(biāo)說(shuō)話(huà)人的時(shí)長(zhǎng)模型;(2)、合成階段具體采用如下的方法1)按照對(duì)輸入文本分析的結(jié)果,找得對(duì)應(yīng)的目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)模型序列;a)對(duì)這些模型使用考慮語(yǔ)音參數(shù)動(dòng)態(tài)特征的參數(shù)生成方法,具體方法為根據(jù)最大似然準(zhǔn)則,最大化輸出概率p(O|λ)=ΣallQp(O,Q|λ),]]>其中0為語(yǔ)音參數(shù)矢量(包括靜態(tài)參數(shù)和動(dòng)態(tài)參數(shù)),Q為狀態(tài)高斯序列指出每個(gè)高斯屬于哪個(gè)狀態(tài),λ為訓(xùn)練階段得到的目標(biāo)說(shuō)話(huà)人的頻譜、基頻和時(shí)長(zhǎng)隱馬爾可夫模型,假設(shè)在P(Q|λ)最大的條件下,上述最大化輸出概率等同于最大化,logP(O|Q,λ)=-12OTU-1O+OTU-1M+K,]]>其中U為相應(yīng)高斯模型的協(xié)方差矩陣組成的對(duì)角矩陣,M為由相應(yīng)高斯模型的均值序列組成的矩陣,O=WC,其中C為語(yǔ)音靜態(tài)參數(shù)矢量,W為由靜態(tài)參數(shù)生成包括靜態(tài)特征和動(dòng)態(tài)特征的參數(shù)矢量的計(jì)算矩陣,則可以通過(guò)∂logP(WC|λQ)∂C=0]]>求得最終生成的語(yǔ)音靜態(tài)參數(shù)為C=(WTU-1W)-1WTU-1MT,按照這種考慮語(yǔ)音動(dòng)態(tài)特征的參數(shù)生成算法,分別生成目標(biāo)說(shuō)話(huà)人的線(xiàn)譜頻率、基頻和時(shí)長(zhǎng)參數(shù);2)將生成的線(xiàn)譜頻率、基頻和時(shí)長(zhǎng)參數(shù)輸入到線(xiàn)譜參數(shù)合成器,合成出目標(biāo)說(shuō)話(huà)人的語(yǔ)音。
全文摘要
本發(fā)明公開(kāi)了一種結(jié)合高層描述信息和模型自適應(yīng)的說(shuō)話(huà)人轉(zhuǎn)換方法,包括原始說(shuō)話(huà)人聲學(xué)模型的訓(xùn)練,使用結(jié)合高層描述信息和最大似然線(xiàn)性回歸的自適應(yīng)方法對(duì)原始說(shuō)話(huà)人聲學(xué)模型進(jìn)行調(diào)整,以及由自適應(yīng)得到的目標(biāo)說(shuō)話(huà)人模型進(jìn)行參數(shù)生成并合成目標(biāo)語(yǔ)音三個(gè)主要階段。使用本發(fā)明中的說(shuō)話(huà)人轉(zhuǎn)換方法,可以提高合成語(yǔ)音的音質(zhì),增強(qiáng)合成語(yǔ)音中目標(biāo)說(shuō)話(huà)人的特征,實(shí)現(xiàn)具有多表現(xiàn)力的語(yǔ)音合成系統(tǒng)。
文檔編號(hào)G10L13/00GK1835074SQ200610039680
公開(kāi)日2006年9月20日 申請(qǐng)日期2006年4月7日 優(yōu)先權(quán)日2006年4月7日
發(fā)明者秦龍, 凌震華, 王仁華 申請(qǐng)人:安徽中科大訊飛信息科技有限公司