專利名稱:基于語音生成模型的變分貝葉斯語音增強(qiáng)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于語音生成模型的變分貝葉斯語音增強(qiáng)方法,可廣泛應(yīng)用于語音通訊和語音識別等方面,屬于語音信號處理領(lǐng)域。
背景技術(shù):
實(shí)際的語音采集設(shè)備和語音采集環(huán)境下不能得到純凈的語音,語音會被各種背景噪聲污染,因此在語音通訊和語音識別等應(yīng)用中,將語音增強(qiáng)作為一個(gè)預(yù)處理環(huán)節(jié)是很重要的,增強(qiáng)后的語音可以更好的保證后續(xù)語音處理的準(zhǔn)確性。
為提高語音質(zhì)量,現(xiàn)有的語音增強(qiáng)方法主要有以下幾種第一種方法是閾值法,其基本原理認(rèn)為信號中幅值絕對值較小的部分主要是噪聲,通過一種線性或者非線性壓縮函數(shù)進(jìn)一步壓縮這部分信號達(dá)到語音增強(qiáng)的目的。此算法的主要缺點(diǎn)是壓縮噪聲的同時(shí)也壓縮了很多有用的語音信息。
第二種方法是譜減法,假設(shè)噪聲是平穩(wěn)的或者是慢時(shí)變的加性噪聲,并且假設(shè)語音信號和噪聲是相互獨(dú)立的條件下,從含噪語音的功率譜中減去噪聲的功率譜,從而得到較為純凈的語音頻譜。但是,這個(gè)方法有一個(gè)眾所周知的缺點(diǎn)就是增強(qiáng)后的語音信號中存在稱為“音樂”噪聲的不自然音,進(jìn)而使人耳主觀感覺不舒服。
第三種方法是基于語音生成模型的增強(qiáng)算法,這種算法由于“純凈”語音模型的參數(shù)無法準(zhǔn)確估計(jì),所以只能采用從含噪信號中直接估計(jì)模型參數(shù),如果模型估計(jì)不準(zhǔn)確,增強(qiáng)后語音可懂度變差。因此從含噪聲的語音中準(zhǔn)確的估計(jì)模型參數(shù)和模型階數(shù)是這一方法的關(guān)鍵。Gannot等(S.Gannot,D.Burshteinand E.Weinstein,Iterative and Sequential Kalman Filter-Based Speech EnhancementAlgorithms,IEEE Trans.Speech and Audio Processing,vol.6,No.4,July l998,pp.373-385.)提出一種基于卡爾曼濾波的增強(qiáng)算法,用最大似然法估計(jì)語音生成模型參數(shù),但是這種方法不能估計(jì)模型階數(shù),只能用其他方法或者先驗(yàn)知識來確定模型階數(shù),并且參數(shù)初始值的估計(jì)對結(jié)果影響很大。Vermaak等(J.Vermaak,C.Andrieu,A.Doucet and S.J.Godsill,Partical Methods for Bayesian Modeling andEnhancement of Speech Signals,IEEE Trans.Speech and Audio Processing,Vol.10,No.3,2002,pp.173-185.)提出用馬爾可夫鏈蒙特卡羅方法估計(jì)語音生成模型參數(shù),用卡爾曼濾波器估計(jì)純凈的語音信號。但是,這種方法也不能估計(jì)模型階數(shù),并且計(jì)算量很大,不適用于很多場合。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提出一種基于語音生成模型的變分貝葉斯語音增強(qiáng)方法,能夠自動選擇語音生成模型的階數(shù),并且能避免參數(shù)估計(jì)過程中產(chǎn)生過擬合現(xiàn)象,使模型的估計(jì)更準(zhǔn)確,語音增強(qiáng)的效果更好。
為實(shí)現(xiàn)這一目的,本發(fā)明采用的技術(shù)方案考慮到變分貝葉斯方法是最近幾年發(fā)展起來的一種貝葉斯近似方法,其原理是用未知變量和參數(shù)的近似后驗(yàn)分布來逼近它們的真實(shí)分布,使貝葉斯方法能解析實(shí)現(xiàn),它能學(xué)習(xí)模型結(jié)構(gòu)和模型參數(shù)。因此,本發(fā)明充分利用變分貝葉斯方法在學(xué)習(xí)參數(shù)過程中避免過擬合的優(yōu)點(diǎn)和模型選擇的能力,來準(zhǔn)確估計(jì)語音生成模型的參數(shù)和階數(shù),以更好的達(dá)到語音增強(qiáng)的目的。本發(fā)明首先建立含噪語音模型和語音生成模型的狀態(tài)空間方程,然后表達(dá)含噪過程和語音生成過程的概率分布。根據(jù)變分貝葉斯方法,用近似后驗(yàn)分布來逼近語音生成模型的參數(shù)和純凈語音信號的概率分布。最后,得到這些近似后驗(yàn)分布的參數(shù)的更新等式,循環(huán)迭代更新等式直到算法收斂。自動模型選擇是將語音生成模型的階數(shù)作為變分貝葉斯方法的代價(jià)函數(shù)的自變量,最小的代價(jià)函數(shù)值對應(yīng)的階數(shù),即是最優(yōu)的模型階數(shù)。由這個(gè)最優(yōu)的階數(shù)計(jì)算得到的語音信號是最佳的結(jié)果。
本發(fā)明的基于語音生成模型的變分貝葉斯語音增強(qiáng)方法主要包括以下幾個(gè)步驟1、將含噪語音信號表達(dá)為純凈語音信號和噪聲相加的形式,建立含噪語音模型,用一個(gè)自回歸過程來表示語音生成模型,并建立含噪語音模型和語音生成模型對應(yīng)的狀態(tài)空間方程。
2、選定含噪語音模型的噪聲為高斯分布,語音生成模型的驅(qū)動噪聲也為高斯分布,根據(jù)這兩個(gè)高斯分布及含噪語音模型和語音生成模型對應(yīng)的狀態(tài)空間方程,得出狀態(tài)向量和觀測向量的概率分布,由先驗(yàn)知識確定語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的先驗(yàn)分布。
3、根據(jù)變分貝葉斯方法的代價(jià)函數(shù),并根據(jù)狀態(tài)向量和觀測向量的概率分布,以及語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的先驗(yàn)分布,用變分期望最大化算法求出狀態(tài)向量、語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的近似后驗(yàn)分布。
4、用變分卡爾曼平滑算法估計(jì)狀態(tài)向量的近似后驗(yàn)分布參數(shù)的更新等式,通過變分期望最大化算法的變分最大化來推導(dǎo)語音生成模型的權(quán)重系數(shù)和所有高斯分布逆方差的近似后驗(yàn)分布參數(shù)的更新等式。
5、在預(yù)先確定的語音生成模型階數(shù)范圍內(nèi)選擇一個(gè)初始階數(shù)值,將含噪語音信號和初始階數(shù)值帶入由步驟4推導(dǎo)的參數(shù)更新等式中,反復(fù)迭代計(jì)算代價(jià)函數(shù),直到代價(jià)函數(shù)從一步到下一步的變化的絕對值不大于某個(gè)事先確定的閾值,將此時(shí)的代價(jià)函數(shù)及與之對應(yīng)的狀態(tài)向量的近似后驗(yàn)分布參數(shù)保存。
6、在預(yù)先確定的語音生成模型階數(shù)范圍內(nèi)依次改變模型階數(shù)的值,用新的階數(shù)值代替步驟5中的初始階數(shù)值,重復(fù)步驟5,得到一組與各模型階數(shù)對應(yīng)的代價(jià)函數(shù)和狀態(tài)向量的近似后驗(yàn)分布參數(shù)。
7、在得到的所有代價(jià)函數(shù)中,最小的代價(jià)函數(shù)對應(yīng)的階數(shù)就是最優(yōu)的模型階數(shù),由這個(gè)最優(yōu)模型階數(shù)所對應(yīng)的狀態(tài)向量的近似后驗(yàn)分布參數(shù)計(jì)算得到的語音信號就是最優(yōu)的結(jié)果。
本發(fā)明充分利用變分貝葉斯學(xué)習(xí)模型參數(shù)和結(jié)構(gòu)的優(yōu)點(diǎn),更加準(zhǔn)確地估計(jì)語音生成模型的參數(shù)和階數(shù),提高了語音增強(qiáng)效果。
本發(fā)明提出的基于語音生成模型的變分貝葉斯語音增強(qiáng)方法,可廣泛應(yīng)用于語音通訊和語音識別等方面,具有相當(dāng)?shù)膶?shí)用價(jià)值。
具體實(shí)施例方式
為了更好地理解本發(fā)明的技術(shù)方案,以下作進(jìn)一步的詳細(xì)描述。
1.含噪語音信號xt表達(dá)為純凈語音信號st和噪聲nt相加的形式,建立含噪語音模型如下xt=st+nt(1)下標(biāo)t是時(shí)間。語音生成模型用一個(gè)自回歸過程來表示st=wVTsVt(p)+et---(2)]]>wV=w1,w2LwpT]]>是自回歸模型的權(quán)重系數(shù),sVt(p)=[st-1,L,st-p]]]>是和t時(shí)刻語音值有關(guān)的過去的p個(gè)值,p是模型的階數(shù)。et是自回歸模型的驅(qū)動噪聲。根據(jù)上述的含噪語音模型(1)和語音生成模型(2),建立狀態(tài)空間方程如下sVt=AsVt-1+Bet---(3)]]>xt=CsVt+nt---(4)]]>sVt@stst-1Lst-p+1T]]>是p維的狀態(tài)向量,含噪語音信號xt是觀測向量,A@wVTI[p-1]0p-1×1]]>是p×p的狀態(tài)轉(zhuǎn)移矩陣,B=CT@[10L0]T,I[p-1]是(p-1)×(p-1)單位陣。
2.噪聲nt選為高斯分布,表示為p(nt)=G(nt|0,γ)。自回歸模型的驅(qū)動噪聲et也選為高斯分布,表示為p(et)=G(et|0,β)。G(y|a,b)表示隨機(jī)變量y滿足均值為a,逆方差為b的高斯分布。根據(jù)(3),狀態(tài)向量 的概率分布如下式p(sVt|sVt-1,wV,β)=G(sVt|AsVt-1,β)---(5)]]>根據(jù)(4),觀測向量的概率分布可以被寫作p(xt|sVt,γ)=G(xt|st,γ)---(6)]]>自回歸模型的權(quán)重系數(shù)服從一個(gè)零均值的高斯先驗(yàn)分布p(wV|α)=G(wV|0,αI[p])---(7)]]>
所有高斯分布的逆方差服從Gamma先驗(yàn)分布p(α|H)=Gamma(δ|b(α),c(α))(8)p(β|H)=Gamma(β|b(β),c(β))(9)p(γ|H)=Gamma(γ|b(γ),c(γ))(10)3.用X表示觀測向量的集合{x1,x2,…,xT},用S表示狀態(tài)向量的集合 用θ表示語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的集合 變分貝葉斯方法的原理就是用一個(gè)近似后驗(yàn)分布Q(S,θ)來逼近p(S,θ|X),在實(shí)際中用的代價(jià)函數(shù)是CKL=⟨logQ(S,θ)p(X,S,θ)⟩Q=⟨logQ(S)Q(θ)p(X,S,θ)⟩Q---(11)]]><·>Q表示在概率分布Q(·)下的期望。根據(jù)變分貝葉斯方法的代價(jià)函數(shù)(11),并根據(jù)狀態(tài)向量和觀測向量的概率分布(5)-(6),以及語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的先驗(yàn)分布(7)-(10),用變分期望最大化算法可以得到狀態(tài)向量、語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的近似后驗(yàn)分布如下Q(sVt)=G(sVt|mVt(s),Vt(s))---(12)]]>Q(wV)=G(wV|μV(w),Σ(w))---(13)]]>Q(α)=Gamma(α|b(α),c(α))(14)Q(β)=Gamma(β|b(β),c(β))(15)Q(γ)=Gamma(γ|b(γ),c(γ))(16)4.用變分卡爾曼平滑算法求狀態(tài)向量的近似后驗(yàn)分布(12)中的參數(shù)。一個(gè)序列集合{xt0,xt0+1,L,xt1}用{x}t0t1來表示,首先定義條件期望mVt|τ=E(sVt|{x}1τ)]]>和條件協(xié)方差矩陣Vt|τ=Var(sVt|{x}1τ),]]>初始值mV0|0=mV0]]>和V0|0=V0,對t=1,L,T,以下是卡爾曼濾波前向遞歸過程mVt|t-1=A‾mVt-1|t-1---(17)]]>Vt|t-1=AVt-1|t-1AT+P (18)Kt=Vt|t-1CT(CVt|t-1CT+(⟨γ⟩Q)-1)-1---(19)]]>mVt|t=mVt|t-1+Kt(xt-CmVt|t-1)---(20)]]>Vt|t=Vt|t-1-KtCVt|t-1(21)這里A‾@⟨wV⟩QTI[p-1]0p-1×1,P=β‾01×p-10p-1×p,]]>β=(〈β〉Q)-1,p(sVt|{x}1t)=G(sVt|mVt|t,Vt|t)]]>是狀態(tài)向量 的卡爾曼濾波分布。繼續(xù)進(jìn)行卡爾曼平滑算法,用對應(yīng)的卡爾曼濾波值初始化 和VT|T,對t=T-1,L,0,接著進(jìn)行后向遞歸過程如下Qt=Vt|tA‾TVt+1|t-1---(22)]]>mVt|T=mVt|t+Qt(mVt+1|T-mVt+1|t)---(23)]]>Vt|T=Vt|t+Qt(Vt+1|T-Vt+1|t)QtT---(24)]]>因此,我們得到Q(sVt)=G(sVt|mVt(s),Vt(s))]]>參數(shù)的更新等式為mVt(s)=mVt|T]]>和Vt(s)=[Vt|T]-1.]]>用變分期望最大化算法的變分最大化推導(dǎo)語音生成模型的權(quán)重系數(shù)和所有高斯分布逆方差的近似后驗(yàn)分布參數(shù)的更新等式如下Σ(w)=⟨αI[p]⟩Q+Σt=1T⟨βsVt(p)sVt(p)T⟩Q---(25)]]>μV(w)=[Σ(w)]-1[Σt=1T⟨βstsVt(p)⟩Q]---(26)]]>c‾(α)=c(α)+p2---(27)]]>b‾(α)=b(α)+12⟨wVTwV⟩Q---(28)]]>
c‾(β)=c(β)+T2---(29)]]>b‾(β)=b(β)+12⟨(st-wVTsVt(p))2⟩Q---(30)]]>c‾(γ)=c(γ)+T2---(31)]]>b‾(γ)=b(γ)+12Σt=1T⟨(xt-st)2⟩Q---(32)]]>5.在預(yù)先確定的語音生成模型階數(shù)范圍內(nèi)選擇一個(gè)初始階數(shù)值P1,將實(shí)際的含噪信號xt和初始階數(shù)值p1帶入由步驟4推導(dǎo)的參數(shù)的更新等式(17)-(32)中,反復(fù)迭代計(jì)算(11)式的代價(jià)函數(shù),直到代價(jià)函數(shù)從一步到下一步的變化的絕對值不大于某個(gè)事先確定的閾值停止,將此時(shí)的代價(jià)函數(shù)及與之對應(yīng)的狀態(tài)向量的近似后驗(yàn)分布參數(shù) 保存;6.在預(yù)先確定的語音生成模型階數(shù)范圍內(nèi)依次改變模型階數(shù)的值,用新的階數(shù)值p代替步驟5中的初始階數(shù)值P1,重復(fù)步驟5,得到一組與各模型階數(shù)對應(yīng)的代價(jià)函數(shù)和狀態(tài)向量的近似后驗(yàn)分布參數(shù);7.在得到的所有代價(jià)函數(shù)中,最小的代價(jià)函數(shù)對應(yīng)的p值就是最優(yōu)的模型階數(shù),由這個(gè)最優(yōu)模型階數(shù)所對應(yīng)的狀態(tài)向量的近似后驗(yàn)分布參數(shù) 計(jì)算得到的語音信號s^t=CmVt(s)]]>就是最好的結(jié)果。
權(quán)利要求
1.一種基于語音生成模型的變分貝葉斯語音增強(qiáng)方法,其特征在于包括如下具體步驟1)將含噪語音信號表達(dá)為純凈語音信號和噪聲相加的形式,建立含噪語音模型,用一個(gè)自回歸過程來表示語音生成模型,并建立含噪語音模型和語音生成模型對應(yīng)的狀態(tài)空間方程;2)選定含噪語音模型的噪聲為高斯分布,語音生成模型的驅(qū)動噪聲也為高斯分布,根據(jù)這兩個(gè)高斯分布及含噪語音模型和語音生成模型對應(yīng)的狀態(tài)空間方程,得出狀態(tài)向量和觀測向量的概率分布,由先驗(yàn)知識確定語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的先驗(yàn)分布;3)根據(jù)變分貝葉斯方法的代價(jià)函數(shù),并根據(jù)狀態(tài)向量和觀測向量的概率分布,以及語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的先驗(yàn)分布,用變分期望最大化算法求出狀態(tài)向量、語音生成模型的權(quán)重系數(shù)和所有高斯分布的逆方差的近似后驗(yàn)分布;4)用變分卡爾曼平滑算法估計(jì)狀態(tài)向量的近似后驗(yàn)分布參數(shù)的更新等式,通過變分期望最大化算法的變分最大化來推導(dǎo)語音生成模型的權(quán)重系數(shù)和所有高斯分布逆方差的近似后驗(yàn)分布參數(shù)的更新等式;5)在預(yù)先確定的語音生成模型階數(shù)范圍內(nèi)選擇一個(gè)初始階數(shù)值,將含噪語音信號和初始階數(shù)值帶入由步驟4)推導(dǎo)的參數(shù)更新等式中,反復(fù)迭代計(jì)算代價(jià)函數(shù),直到代價(jià)函數(shù)從一步到下一步的變化的絕對值不大于某個(gè)事先確定的閾值,將此時(shí)的代價(jià)函數(shù)及與之對應(yīng)的狀態(tài)向量的近似后驗(yàn)分布參數(shù)保存;6)在預(yù)先確定的語音生成模型階數(shù)范圍內(nèi)依次改變模型階數(shù)的值,用新的階數(shù)值代替步驟5)中的初始階數(shù)值,重復(fù)步驟5),得到一組與各模型階數(shù)對應(yīng)的代價(jià)函數(shù)和狀態(tài)向量的近似后驗(yàn)分布參數(shù);7)在得到的所有代價(jià)函數(shù)中,最小的代價(jià)函數(shù)對應(yīng)的階數(shù)就是最優(yōu)的模型階數(shù),由這個(gè)最優(yōu)模型階數(shù)所對應(yīng)的狀態(tài)向量的近似后驗(yàn)分布參數(shù)計(jì)算得到的語音信號就是最優(yōu)的結(jié)果。
全文摘要
本發(fā)明涉及一種基于語音生成模型的變分貝葉斯語音增強(qiáng)方法,首先建立含噪語音模型和語音生成模型的狀態(tài)空間方程,然后表達(dá)含噪過程和語音生成過程的概率分布。根據(jù)變分貝葉斯方法,用近似后驗(yàn)分布來逼近語音生成模型的參數(shù)和純凈語音的概率分布,最后,得到這些近似后驗(yàn)分布的參數(shù)更新等式,循環(huán)迭代更新等式直到算法收斂。自動模型選擇是將語音生成模型的階數(shù)作為變分貝葉斯方法的代價(jià)函數(shù)的自變量,最小的代價(jià)函數(shù)值對應(yīng)的階數(shù),即是最優(yōu)的模型階數(shù),由這個(gè)最優(yōu)階數(shù)計(jì)算得到的語音信號即最佳結(jié)果。本發(fā)明充分利用變分貝葉斯學(xué)習(xí)模型參數(shù)和結(jié)構(gòu)的優(yōu)點(diǎn),能準(zhǔn)確地估計(jì)語音生成模型的參數(shù)和階數(shù),提高了語音增強(qiáng)效果。
文檔編號G10L15/20GK1870136SQ20061002833
公開日2006年11月29日 申請日期2006年6月29日 優(yōu)先權(quán)日2006年6月29日
發(fā)明者黃青華, 楊杰, 薛云峰 申請人:上海交通大學(xué)