專利名稱:基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音轉(zhuǎn)換技術(shù),是一種結(jié)合語音識別和語音合成技術(shù),實現(xiàn)變換一個 說話人的聲音,使其聽起來像另外某個特定的說話人聲音的技術(shù),尤其涉及一種基于信號 時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法。
背景技術(shù):
語音轉(zhuǎn)換技術(shù)是語音信號處理領(lǐng)域近年來新興的研究分支,涵蓋了語音識別和語 音合成等領(lǐng)域的內(nèi)容,擬在保持語義內(nèi)容不變的情況下,通過改變一個特定說話人(被稱 為源說話人)的話音個性特征,使他(或她)說的話被聽者認為是另一個特定說話人(被稱 為目標說話人)說的話。語音轉(zhuǎn)換的主要任務(wù)包括提取代表說話人個性的特征參數(shù)并進行 數(shù)學變換,然后將變換后的參數(shù)重構(gòu)成語音。在這過程中,既要保持重構(gòu)語音的聽覺質(zhì)量, 又要兼顧轉(zhuǎn)換后的個性特征是否準確。
經(jīng)過多年的發(fā)展,語音轉(zhuǎn)換領(lǐng)域已經(jīng)涌現(xiàn)出一些高效實用的算法,其中以高斯混 合模型為代表的統(tǒng)計轉(zhuǎn)換方法目前已儼然成為了該領(lǐng)域公認的標準。但是這類算法亦存在 某些弊端,例如人為假設(shè)數(shù)據(jù)滿足獨立同分布的條件,并在特征轉(zhuǎn)換的過程中強制轉(zhuǎn)換方 式以逐幀的次序進行。這種忽略了幀間參數(shù)相關(guān)性的做法雖然極大的簡化了問題,降低了 求解難度,但是卻違背了語音信號存在強相關(guān)性的事實,導致模型描述信號時變特性的能 力下降,最終影響語音轉(zhuǎn)換的效果。
針對上述問題,目前已存在一些應對方案。例如,比較典型的是利用“差分特征參 數(shù)”的思想。所謂“差分特征參數(shù)”是指在進行高斯混合模型建模時,將原先的聯(lián)合特征矢 量擴展成包含一階差分的特征矢量。這樣一來,幀間參數(shù)的漸變特性就被吸收進了新的特 征參數(shù),從而在一定程度上彌補了該模型缺乏對動態(tài)特性建模的缺陷。另一方面,為了徹底 避免高斯混合模型固有的獨立性假設(shè)的缺陷,一些新的語音轉(zhuǎn)換方案開始采用隱馬爾可夫 模型作為基本映射模型。該模型的主要特點是可以精確地控制信號的時序特征,并且在物 理層面上與語音信號的產(chǎn)生和轉(zhuǎn)變有著莫大的聯(lián)系。發(fā)明內(nèi)容
發(fā)明目的為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于信號時序特征 建模的高質(zhì)量語音轉(zhuǎn)換方法,通過混合式卡爾曼濾波器,給出了模型利用原始數(shù)據(jù)更新自 身參數(shù)的算法;并在平行數(shù)據(jù)的條件下,將語音信號中包含的語義信息哈說話人個性信息 分別賦予模型的隱層和顯層,是一種在保持語義信息不便的條件下,靈活轉(zhuǎn)換說話人個性息的方法。
技術(shù)方案為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為
基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,針對源和目標的平行數(shù)據(jù),考慮 對其時序特征進行建模和跟蹤,利用混合式卡爾曼濾波器,并在期望最大化準則下估計模 型結(jié)構(gòu)參數(shù),最終利用該模型映射語音的特征參數(shù)集合,實現(xiàn)高質(zhì)量的語音轉(zhuǎn)換效果;具體包括如下步驟
(I)采用語音分析模型對原始語音信號進行分析;
(2)從分析得到的參數(shù)中提取與音素相關(guān)的特征參數(shù)集合;
(3)對源和目標的特征參數(shù)集合進行歸一化操作,實現(xiàn)參數(shù)集合的對齊;
(4)將對齊的參數(shù)集合分別用作混合式卡爾曼濾波器的輸入和輸出,實現(xiàn)模型參數(shù)的訓練和估計;
(5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數(shù),基于特征參數(shù)映射方法映射任意的語音信號參數(shù);
(6)對轉(zhuǎn)換后的特征參數(shù)進行反變換操作,即進行參 數(shù)內(nèi)插和相位補償,最后用語音合成模型合成為高質(zhì)量的語音;
上述步驟中,步驟(I) (4)為訓練步驟,步驟(5) (6)為轉(zhuǎn)換步驟;所述混合式卡爾曼濾波器的結(jié)構(gòu)為在經(jīng)典的卡爾曼濾波器結(jié)構(gòu)上新增一個隱層,所述隱層用于描述時序信號狀態(tài)之間的漸變效果。
所述混合式卡爾曼濾波器,由于隱層能夠使得每個時刻的觀察變量均有可能處于不同的狀態(tài),對每個時刻觀察到的變量通過計算狀態(tài)概率、觀測概率以及與之對應的后驗概率,獲得對不同時刻的觀察變量數(shù)據(jù)底層屬性的分類知識;利用獲得的分類知識,設(shè)計變量轉(zhuǎn)移規(guī)則,用以描述信號隨時間變化的特征;利用貝葉斯推理,使模型參數(shù)的估計存在不確定性,即保留了每種狀態(tài)的后驗概率,從而形成了所謂的混合度。該混合式爾曼濾波器克服了經(jīng)典卡爾曼濾波器在跟蹤快變時序信號時出現(xiàn)的發(fā)散式困難,使得結(jié)果更加精確。
所述步驟(I)中的語音分析模型的工作過程包括如下步驟
(al)對語音信號進行固定時長的分幀,用互相關(guān)法對基音頻率進行估計;
(a2)在濁音信號部分設(shè)置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區(qū)域;再利用最小二乘算法估計得到離散的諧波幅度值和相位值;
(a3)在清音階段,利用經(jīng)典的線性預測分析法對其進行分析,從而得到線性預測系數(shù)。
與步驟(I)中的語音分析模型相對應的,步驟¢)中的語音合成模型的工作過程包括如下步驟
(bl)將濁音部分信號的離散的諧波幅度和相位值用作正弦信號的幅度值和相位值,并進行疊加;運用內(nèi)插技術(shù)和相位補償技術(shù)使得重構(gòu)信號在時域波形上不產(chǎn)生失真;
(b2)將清音部分信號的白噪聲信號通過一個全極點濾波器,即可得到近似重構(gòu)信號;
(b3)將濁音部分信號和清音部分信號進行疊加,即得到重構(gòu)的語音信號。
所述步驟(2)包括從離散的諧波幅度值中估計出適用于語音轉(zhuǎn)換任務(wù)的線譜頻率系數(shù)工作過程,該工作過程包括如下步驟
(bl)對離散的諧波幅度求取平方;
(b2)根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對應關(guān)系,得到關(guān)于線性預測系數(shù)的托普里茨矩陣方程,求解該方程;
(b3)將線性預測系數(shù)轉(zhuǎn)換為目標線譜頻率系數(shù)。
所述步驟(3)中實現(xiàn)參數(shù)集合的對齊的對其準則為對于兩個不等長的特征參數(shù)序列,利用動態(tài)規(guī)劃的思想將其中一者的時間軸非線性的映射到另一者的時間軸上,從而 實現(xiàn)一對應的匹配關(guān)系;在現(xiàn)參數(shù)集合的對齊的過程中,通過迭代優(yōu)化一個預設(shè)的累積失 真函數(shù),并限制搜索區(qū)域,最終獲得時間匹配函數(shù)。
所述步驟(5)中的特征參數(shù)映射方法包括如下步驟
(Cl)充分利用平行數(shù)據(jù)的包含相同語義信息和不同說話人個性特征信息的特點, 在假設(shè)隱層狀態(tài)變量代表語義信息的基礎(chǔ)上,保證源和目標各自的混合式卡爾曼濾波器的 隱層結(jié)構(gòu)處于共享狀態(tài);接著在期望最大化準則下估計觀測層變量的統(tǒng)計特性;
(c2)在步驟(Cl)的基礎(chǔ)上,比較源和目標模型結(jié)構(gòu)的差異性,將這種差異性視為 說話人不同個性的一種體現(xiàn);
(c3)結(jié)合卡爾曼濾波器描述時變信號的能力,將這種差異性從源的特征空間映射 到目標的特征空間,從而完成參數(shù)的轉(zhuǎn)換過程。
有益效果本發(fā)明提供的基于信號時序特征的高質(zhì)量語音轉(zhuǎn)換方法,充分利用了 語音信號參數(shù)間的強烈相關(guān)性,通過模擬參數(shù)隨時間變化的物理過程,構(gòu)造了一種新型的 混合式卡爾曼濾波器,并將其用于語音轉(zhuǎn)換的參數(shù)映射過程,設(shè)計了一套特殊的、將卡爾曼 濾波器參數(shù)與語音信號物理屈性相關(guān)聯(lián)的轉(zhuǎn)換算法,實現(xiàn)說話人個性特征的變換。
圖1為混合式卡爾曼濾波器結(jié)構(gòu);
圖2為本發(fā)明涉及的系統(tǒng)訓練框圖3為本發(fā)明涉及的系統(tǒng)轉(zhuǎn)換框圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明作更進一步的說明。
基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,針對源和目標的平行數(shù)據(jù),考慮 對其時序特征進行建模和跟蹤,利用混合式卡爾曼濾波器,并在期望最大化準則下估計模 型結(jié)構(gòu)參數(shù),最終利用該模型映射語音的特征參數(shù)集合,實現(xiàn)高質(zhì)量的語音轉(zhuǎn)換效果;具體 包括如下步驟
(I)采用語音分析模型對原始語音信號進行分析;
(2)從分析得到的參數(shù)中提取與音素相關(guān)的特征參數(shù)集合;
(3)對源和目標的特征參數(shù)集合進行歸一化操作,實現(xiàn)參數(shù)集合的對齊;
(4)將對齊的參數(shù)集合分別用作混合式卡爾曼濾波器的輸入和輸出,實現(xiàn)模型參 數(shù)的訓練和估計;
(5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數(shù),基于特征參數(shù)映射方法 映射任意的語音信號參數(shù);
(6)對轉(zhuǎn)換后的特征參數(shù)進行反變換操作,即進行參數(shù)內(nèi)插和相位補償,最后用語 音合成模型合成為高質(zhì)量的語音;
上述步驟中,步驟(I) (4)為訓練步驟,步驟(5) (6)為轉(zhuǎn)換步驟;所述混合 式卡爾曼濾波器的結(jié)構(gòu)為在經(jīng)典的卡爾曼濾波器結(jié)構(gòu)上新增一個隱層,所述隱層用于描述 時序信號狀態(tài)之間的漸變效果。
本案是針對高斯混合模型在語音轉(zhuǎn)換中存在的問題,提出一種新的解決方案,本案有兩個關(guān)鍵點一是設(shè)計了一種混合式的卡爾曼濾波器,并給出了模型利用原始數(shù)據(jù)更新自身參數(shù)的算法;二是在平行數(shù)據(jù)的條件下,將語音信號中包含的語義信息和說話人個性信息分別賦予模型的隱層和顯層,提出了一種在保持語義信息不變的條件下,靈活轉(zhuǎn)換說話人個性信息的方法。
混合式卡爾曼濾波器結(jié)構(gòu)如圖1所示。其中,加陰影的圓形表示觀測變量,白色的方形表示隱變量。從圖中可以明顯看到混合式卡爾曼濾波器有兩個隱層,其中一層(以變量Z= Iz1, z2,-zt, ···}表示)用來描述狀態(tài)變量所屈的類別,是本發(fā)明的創(chuàng)新點之一。 SShX=UyX2,…,xt,···}用來表示連續(xù)的狀態(tài)變量,Y = {ypy^…,yt,···}則表示觀測變量本身。整個過程可以用下式表示
xt = Atxt_1+wt (I)
yt = Btxt+vt(2)
其中
At e {Am, m = 1,2,…M},B, e {Bm, m = 1,2,…Μ} (3)
wt e {wm, m = 1,2,…Μ},ν, e {vm, m = 1,2,…Μ}
聯(lián)合(1)-(3)式說明所有的參數(shù)均有M個類別。在每個時刻,該模型會從M個候選類別中預測出當前過程應該屬于哪個類別,然后用該類別的模型參數(shù)擬合數(shù)據(jù)。假設(shè)Wm 和Vm均服從均值為0,協(xié)方差分別為Qm和Rm的多維高斯分布,則整個未知模型參數(shù)集合可以表示為θ = {θ1,Θ2,…,Om,... ΘΜ},其中 Om= {Am,Bm,Qm,Rm}。
在本發(fā)明中,混合式卡爾曼濾波器的模型參數(shù)是通過期望最大化方法估計出來的,即將目標函數(shù)定義為
權(quán)利要求
1.基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,其特征在于針對源和目標的平行數(shù)據(jù),考慮對其時序特征進行建模和跟蹤,利用混合式卡爾曼濾波器,并在期望最大化準則下估計模型結(jié)構(gòu)參數(shù),最終利用該模型映射語音的特征參數(shù)集合,實現(xiàn)高質(zhì)量的語音轉(zhuǎn)換效果;具體包括如下步驟 (1)采用語音分析模型對原始語音信號進行分析; (2)從分析得到的參數(shù)中提取與音素相關(guān)的特征參數(shù)集合; (3)對源和目標的特征參數(shù)集合進行歸一化操作,實現(xiàn)參數(shù)集合的對齊; (4)將對齊的參數(shù)集合分別用作混合式卡爾曼濾波器的輸入和輸出,實現(xiàn)模型參數(shù)的訓練和估計; (5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數(shù),基于特征參數(shù)映射方法映射任意的語音信號參數(shù); (6)對轉(zhuǎn)換后的特征參數(shù)進行反變換操作,即進行參數(shù)內(nèi)插和相位補償,最后用語音合成模型合成為高質(zhì)量的語音; 上述步驟中,步驟(I) (4)為訓練步驟,步驟(5) (6)為轉(zhuǎn)換步驟;所述混合式卡爾曼濾波器的結(jié)構(gòu)為在經(jīng)典的卡爾曼濾波器結(jié)構(gòu)上新增ー個隱層,所述隱層用于描述時序信號狀態(tài)之間的漸變效果。
2.根據(jù)權(quán)利要求1所述的基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,其特征在于所述步驟(I)中的語音分析模型的工作過程包括如下步驟 (al)對語音信號進行固定時長的分幀,用互相關(guān)法對基音頻率進行估計; (a2)在濁音信號部分設(shè)置ー個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區(qū)域;再利用最小ニ乘算法估計得到離散的諧波幅度值和相位值; (a3)在清音階段,利用經(jīng)典的線性預測分析法對其進行分析,從而得到線性預測系數(shù)。
3.根據(jù)權(quán)利要求2所述的基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,其特征在于所述步驟(2)包括從離散的諧波幅度值中估計出適用于語音轉(zhuǎn)換任務(wù)的線譜頻率系數(shù)工作過程,該工作過程包括如下步驟 (bl)對離散的諧波幅度求取平方; (b2)根據(jù)功率譜密度函數(shù)和自相關(guān)函數(shù)的一一對應關(guān)系,得到關(guān)于線性預測系數(shù)的托普里茨矩陣方程,求解該方程; (b3)將線性預測系數(shù)轉(zhuǎn)換為目標線譜頻率系數(shù)。
4.根據(jù)權(quán)利要求1所述的基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,其特征在于所述步驟(3)中實現(xiàn)參數(shù)集合的對齊的對其準則為對于兩個不等長的特征參數(shù)序列,利用動態(tài)規(guī)劃的思想將其中一者的時間軸非線性的映射到另ー者的時間軸上,從而實現(xiàn)一一對應的匹配關(guān)系;在現(xiàn)參數(shù)集合的對齊的過程中,通過迭代優(yōu)化ー個預設(shè)的累積失真函數(shù),并限制捜索區(qū)域,最終獲得時間匹配函數(shù)。
5.根據(jù)權(quán)利要求1所述的基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,其特征在于所述步驟(5)中的特征參數(shù)映射方法包括如下步驟 (Cl)充分利用平行數(shù)據(jù)的包含相同語義信息和不同說話人個性特征信息的特點,在假設(shè)隱層狀態(tài)變量代表語義信息的基礎(chǔ)上,保證源和目標各自的混合式卡爾曼濾波器的隱層結(jié)構(gòu)處于共享狀態(tài);接著在期望最大化準則下估計觀測層變量的統(tǒng)計特性;(c2)在步驟(cl)的基礎(chǔ)上,比較源和目標模型結(jié)構(gòu)的差異性,將這種差異性視為說話人不同個性的一種體現(xiàn); (c3)結(jié)合卡爾曼濾波器描述時變信號的能力,將這種差異性從源的特征空間映射到目標的特征空間,從而完成參數(shù)的轉(zhuǎn)換過程。
6.根據(jù)權(quán)利要求2所述的基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,其特征在于所述步驟(6)中的語音合成模型的工作過程包括如下步驟 (bl)將濁音部分信號的離散的諧波幅度和相位值用作正弦信號的幅度值和相位值,并進行疊加;運用內(nèi)插技術(shù)和相位補償技術(shù)使得重構(gòu)信號在時域波形上不產(chǎn)生失真; (b2)將清音部分信號的白噪聲信號通過ー個全極點濾波器,即可得到近似重構(gòu)信號; (b3)將濁音部分信號和清音部分信號進行疊加,即得到重構(gòu)的語音信號。
全文摘要
本發(fā)明公開了一種基于信號時序特征建模的高質(zhì)量語音轉(zhuǎn)換方法,針對源和目標的平行數(shù)據(jù),考慮對其時序特征進行建模和跟蹤,利用混合式卡爾曼濾波器,并在期望最大化準則下估計模型結(jié)構(gòu)參數(shù),最終利用該模型映射語音的特征參數(shù)集合,實現(xiàn)高質(zhì)量的語音轉(zhuǎn)換效果。本發(fā)明提供的基于信號時序特征的高質(zhì)量語音轉(zhuǎn)換方法,充分利用了語音信號參數(shù)間的強烈相關(guān)性,通過模擬參數(shù)隨時間變化的物理過程,構(gòu)造了一種新型的混合式卡爾曼濾波器,并將其用于語音轉(zhuǎn)換的參數(shù)映射過程,設(shè)計了一套特殊的、將卡爾曼濾波器參數(shù)與語音信號物理屬性相關(guān)聯(lián)的轉(zhuǎn)換算法,實現(xiàn)說話人個性特征的變換。
文檔編號G10L15/06GK103035236SQ20121049046
公開日2013年4月10日 申請日期2012年11月27日 優(yōu)先權(quán)日2012年11月27日
發(fā)明者徐寧, 鮑靜益, 湯一彬 申請人:河海大學常州校區(qū)