專利名稱:一種基于Haar小波提升的特征波形分解與重構(gòu)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音編碼領(lǐng)域,尤其是低速率的特征波形內(nèi)插語音編碼算法,主要是一種基于Haar小波提升的特征波形分解與重構(gòu)方法。
背景技術(shù):
低速率的語音編碼領(lǐng)域,編碼速率在4kbit/s以下的眾多語音編碼算法中,波形內(nèi)插語音編碼算法極具潛力,受到普遍關(guān)注。它是瑞典皇家理工學(xué)院的W.B.Kleijin博士在90年代提出的,先后于1991和1994年提出了原型波形內(nèi)插(PWI,Prototype Waveform Interpolation)和特征波形內(nèi)插(CWI,CharacteristicWaveform Interpolation)編碼算法,其中CWI算法對(duì)清濁音進(jìn)行統(tǒng)一模型編碼,是后來低碼率的波形內(nèi)插語音編碼方面的研究重點(diǎn)。我國(guó)授權(quán)公開號(hào)為CN1371512A的專利“增強(qiáng)型波形內(nèi)插編碼器”公開了一種基于CWI算法利用合成分析方法進(jìn)行編碼參數(shù)量化的4kbps低速率波形內(nèi)插編碼器。
一般的特征波形內(nèi)插編碼的基本原理是根據(jù)內(nèi)插的基音周期從線性預(yù)測(cè)殘差信號(hào)中按一定時(shí)間間隔提取出特征波形序列,形成漸變的特征波表面,通過特征波形分解將特征波表面分為快漸變波(REW,Rapidly Evolving Waveform)和慢漸變波(SEW,Slowly Evolving Waveform),分別代表類噪聲成分和準(zhǔn)周期成分,利用人耳對(duì)它們不同的聽覺感知特性分別進(jìn)行降采樣量化編碼,解碼端重構(gòu)特征波形,并通過內(nèi)插的方式獲得中間未提取的特征波,由內(nèi)插后基音軌跡得到相位軌跡,用于從二維特征表面得到一維的合成語音信號(hào)。W.B.Kleijin提出的CWI算法具體過程可以參考W.B.Kleijin和K.K.Paliwal的語音編碼與合成(Elsevier Science B.V.第五章,pp1750207,(1995))。
特征波形的分解和重構(gòu)及分解參數(shù)的量化是特征波形編碼算法的重要環(huán)節(jié),本發(fā)明便是針對(duì)這一環(huán)節(jié)提出了一種基于Haar小波提升的特征波形分解與重構(gòu)方法,在能夠獲得較為滿意的音質(zhì)基礎(chǔ)上,使得特征波形編碼算法的波形分解過程運(yùn)算復(fù)雜度降低,內(nèi)存空間消耗減少,且不引入算法延遲,有利于實(shí)際應(yīng)用。
傳統(tǒng)的波形分解方法是對(duì)功率歸一化后的離散時(shí)間傅里葉級(jí)數(shù)表示的特征波序列,首先使用線性相位FIR低通濾波器從特征波表面分離出慢漸變波,剩余部分則為快漸變波,然后將分解后的DTFS系數(shù)轉(zhuǎn)化為極坐標(biāo)表示,對(duì)慢漸變波幅度譜以較低采樣率和較高量化精度編碼傳輸,對(duì)快漸變波幅度譜以較高采樣率和較低量化精度編碼傳輸,量化技術(shù)上多采用變維矢量量化,運(yùn)算復(fù)雜度較高,而線性相位濾波過程將引入一幀的編碼延遲。1998年,Eddie L.T.Choy的論文“4kb/s波形內(nèi)插語音編碼器”中基于這種傳統(tǒng)的特征波形分解方法實(shí)現(xiàn)了一種低速率的CWI編碼器。
為了能夠?qū)μ卣鞑ㄆ矫孢M(jìn)行多分辨率分析,實(shí)現(xiàn)靈活、高效的編解碼處理,澳大利亞伍倫貢大學(xué)Whiper實(shí)驗(yàn)室的Chong等研究者利用基音同步小波變換將特征波表面分解為一系列不同分辨率的波形表面,對(duì)各個(gè)波形表面根據(jù)不同感覺特性進(jìn)行變維矢量量化編碼,適合于高質(zhì)量的語音存儲(chǔ)及可分級(jí)編碼。但是很大的缺點(diǎn)是編解碼的總延遲比較大,基于B樣條的雙正交小波濾波過程運(yùn)算復(fù)雜度較高,用于實(shí)時(shí)通信較為困難。
Whisper實(shí)驗(yàn)室的Lukasiak等人將奇異值分解理論用于特征波形分解,用不同個(gè)數(shù)的奇異值可以多尺度、靈活的重構(gòu)特征波表面,對(duì)當(dāng)前幀的特征波表面進(jìn)行分解不需要額外的算法延遲。但奇異值分解涉及到矩陣變換和計(jì)算奇異值、奇異矢量而具有非常高的計(jì)算復(fù)雜度,且分解后產(chǎn)生了大量的待量化參數(shù),需要比較多的比特?cái)?shù)進(jìn)行量化,當(dāng)比特率很低時(shí),會(huì)丟失特征波表面的很多細(xì)節(jié)信息。
此外,國(guó)內(nèi)研究人員徐金標(biāo)等人提出在每一幀內(nèi)對(duì)特征波的離散傅里葉系數(shù)求均值,這個(gè)均值向量代表了語音信號(hào)的慢變化成分,對(duì)應(yīng)慢漸變波,然后用原始特征波譜減去均值得到快漸變波譜。這種求均值分解特征波的方法簡(jiǎn)單、直接,但是并不能夠獲得高效的編碼結(jié)果。
發(fā)明內(nèi)容
本發(fā)明要解決波形內(nèi)插語音編碼算法中的特征波形分解與重構(gòu)過程存在的問題,提供了一種基于Haar小波提升的特征波形分解與重構(gòu)方法,涉及到特征波形內(nèi)插語音編碼算法的編碼端特征波形分解過程和解碼端特征波形重構(gòu)過程,以及分解參數(shù)的量化。
本發(fā)明解決其技術(shù)問題所用的技術(shù)方案這種基于Haar小波提升的特征波形分解與重構(gòu)方法,是在特征波形內(nèi)插算法中的編碼端,首先將當(dāng)前分析幀內(nèi)提取的待分解的特征波形表示成頻域的幅度譜和相位譜形式,一般情況是對(duì)歸一化后的離散時(shí)間傅里葉級(jí)數(shù)表示的特征波通過直角坐標(biāo)到極坐標(biāo)的變換獲得;然后用離散余弦變換矩陣將不同維數(shù)的幅度譜矢量轉(zhuǎn)換為相同維數(shù)的離散余弦變換系數(shù)矢量,之后對(duì)離散余弦變換系數(shù)矢量表示的特征波序列采用基于Haar小波變換的提升方案進(jìn)行多級(jí)波形分解,對(duì)分解得到的各級(jí)的細(xì)節(jié)部分和最后一級(jí)分解的概貌部分,進(jìn)行不同方式的量化編碼傳輸;在解碼端,將解量化的各級(jí)離散余弦變換系數(shù)矢量采用基于Haar小波變換的提升方案進(jìn)行多級(jí)波形重構(gòu),重構(gòu)得到的特征波序列再通過離散余弦變換的逆矩陣得到相應(yīng)的幅度譜矢量,最后與適當(dāng)?shù)南辔蛔V結(jié)合恢復(fù)出對(duì)應(yīng)原始待分解的特征波形。
本發(fā)明用到的技術(shù)方案中涉及到用Haar小波變換的提升方案進(jìn)行特征波的多級(jí)分解與重構(gòu),該過程采用原位運(yùn)算,每級(jí)分解針對(duì)上一級(jí)分解得到的概貌信號(hào)依次進(jìn)行分裂、預(yù)測(cè)和更新三個(gè)步驟,每級(jí)重構(gòu)過程包括反更新、反預(yù)測(cè)和合并三個(gè)步驟,重構(gòu)過程的每個(gè)步驟都是分解過程每個(gè)步驟的逆變換。
本發(fā)明用到的技術(shù)方案中涉及到分解參數(shù)的量化和解量化,建議采用的方法是根據(jù)人耳對(duì)不同分辨率下信號(hào)的感知特性不同,對(duì)概貌部分要求較高的頻率分辨率,其特征波序列采用反離散余弦變換后的感知加權(quán)矢量量化方法,首先通過離散余弦逆變換矩陣將待量化的矢量和碼本中的碼字反變換到相應(yīng)的幅度譜矢量,然后根據(jù)感知加權(quán)均方誤差最小的原則搜索最佳碼字;對(duì)分解得到的各級(jí)細(xì)節(jié)部分的頻率分辨率要求不高,采用較少比特的一般矢量量化方法或矩陣矢量量化即可。
本發(fā)明用到的技術(shù)方案中涉及到相位譜的恢復(fù)問題,建議采用的方法是相位譜在編碼端不傳輸,而在解碼端通過濁音度標(biāo)志選擇適當(dāng)?shù)南辔荒P汀F渲?,濁音度?biāo)志表示了當(dāng)前分析幀的周期性強(qiáng)弱,在編碼端由基音周期增益和相位譜矢量間距的均值共同決定,若濁音度較大,則解碼端采用固定相位譜(取自于基頻較低的老年男子語音的濁音區(qū)),若濁音度較小,則采用隨機(jī)相位。
本發(fā)明的另一個(gè)方面,提供了一種在編碼速率要求較低的場(chǎng)合下,特征波形的表示上分配更少的編碼比特的方法根據(jù)小波變換的壓縮特性,Haar小波分解的最后一級(jí)的概貌部分和細(xì)節(jié)部分能夠恢復(fù)出原始特征波序列的大部分能量,解碼端可以忽略其它幾級(jí)分解的細(xì)節(jié)部分,只需要進(jìn)行一級(jí)提升重構(gòu)過程,而未恢復(fù)的特征波通過線性內(nèi)插的方式獲得。如此可以獲得較低的編碼速率,且能夠保持可接受的編碼質(zhì)量。
本發(fā)明有益的效果是采用Haar小波變換簡(jiǎn)單,易于實(shí)現(xiàn),雖然其頻域特性不及支撐長(zhǎng)度較大的其它雙正交小波,但對(duì)于波形內(nèi)插編碼算法來說也可以獲得較好的音質(zhì),且其具有最簡(jiǎn)單的小波提升方案,只需對(duì)當(dāng)前分析幀操作,不引入算法延遲,同時(shí)提升方案能夠在時(shí)域?qū)崿F(xiàn)小波變換的原位運(yùn)算,可以節(jié)省內(nèi)存空間。這種基于Haar小波提升的特征波形分解和重構(gòu)過程有利于波形內(nèi)插編碼算法的實(shí)時(shí)應(yīng)用,且能夠在較低碼率下得到較好的合成語音音質(zhì)。
圖1為本發(fā)明一種基于Haar小波提升的特征波形分解與重構(gòu)方法的系統(tǒng)組成框圖;圖2為Haar小波提升方案下的特征波三級(jí)分解及重構(gòu)實(shí)現(xiàn)框圖;圖3所示為Haar小波提升方案下的一級(jí)分解具體實(shí)現(xiàn)過程;圖4所示為Haar小波提升方案下的一級(jí)重構(gòu)具體實(shí)現(xiàn)過程;圖5為Haar小波提升方案下的分解過程原位運(yùn)算示意圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步介紹。本發(fā)明主要針對(duì)特征波形內(nèi)插語音編碼算法中的特征波形分解和重構(gòu)過程實(shí)施的方法,適用于任何需要對(duì)特征波表面進(jìn)行分解和重構(gòu)的特征波形內(nèi)插語音編碼算法。
例如特征波形內(nèi)插語音編碼算法對(duì)輸入的窄帶8kHz采樣的語音進(jìn)行編解碼處理,特征波的提取速率設(shè)置為400Hz,即對(duì)20ms的一幀語音提取8個(gè)特征波形。當(dāng)前分析幀經(jīng)過預(yù)處理,線性預(yù)測(cè)分析和基音周期估計(jì)后,根據(jù)內(nèi)插后的基音周期從預(yù)測(cè)殘差中每隔2.5ms提取一個(gè)特征波形,特征波用離散時(shí)間傅里葉級(jí)數(shù)(DTFS)表示,經(jīng)過對(duì)齊操作和功率歸一化后DTFS系數(shù)輸入到如圖1所示的基于Haar小波提升的特征波形分解和重構(gòu)系統(tǒng)中。
圖1所示本發(fā)明的方法包括對(duì)編碼端(1)和解碼端(2)的處理以及分解參數(shù)的量化(3)。編碼端包括特征波的DTFS表示(10)、直角坐標(biāo)到極坐標(biāo)系轉(zhuǎn)換(11)、離散余弦變換(12)、特征波的多級(jí)分解過程(13)及濁音度標(biāo)志的判斷(14);解碼端包括特征波的多級(jí)重構(gòu)過程(23)、離散余弦反變換(22)、極坐標(biāo)到直角坐標(biāo)系轉(zhuǎn)換(21),特征波DTFS表示的恢復(fù)(20)及相位譜的選擇(24)。各個(gè)步驟的實(shí)施細(xì)節(jié)如圖1所示,編碼端特征波形的離散時(shí)間傅里葉級(jí)數(shù)(DTFS)系數(shù)(10)從直角坐標(biāo)系轉(zhuǎn)換到極坐標(biāo)系下的幅度譜和相位譜(11),而在解碼端則通過極坐標(biāo)到直角坐標(biāo)的轉(zhuǎn)換(21)恢復(fù)特征波的離散時(shí)間傅里葉級(jí)數(shù)系數(shù)(20)a)從當(dāng)前分析幀的語音信號(hào)提取出的特征波形用離散時(shí)間傅里葉級(jí)數(shù)表示,并進(jìn)行對(duì)齊和功率歸一化,設(shè)歸一化后的離散時(shí)間傅里葉級(jí)數(shù)系數(shù)(10)為Aij和Bij,其中i代表第i個(gè)特征波提取點(diǎn),i=1,2,...,I,I為一幀內(nèi)提取的特征波的個(gè)數(shù),j代表離散時(shí)間傅里葉級(jí)數(shù)系數(shù)矢量的第j維,j=1,2,...,P(i)/2,P(i)是每個(gè)特征波提取點(diǎn)的基音周期(即時(shí)域特征波形的長(zhǎng)度),符號(hào)表示向下取整,則DTFS系數(shù)從直角坐標(biāo)轉(zhuǎn)換到極坐標(biāo)系(11)下的幅度譜為 極坐標(biāo)系下的相位譜為 b)解碼端通過極坐標(biāo)到直角坐標(biāo)(21)的轉(zhuǎn)換恢復(fù)特征波的離散時(shí)間傅里葉級(jí)數(shù)的表示(20),極坐標(biāo)到直角坐標(biāo)的轉(zhuǎn)換為Aji=Cji×cos(θji)Bji=Cji×sin(θji)如圖1所示的濁音度標(biāo)志由基音周期增益和相位譜間距的均值進(jìn)行判斷(14),這一判斷過程的具體步驟為a)當(dāng)前幀提取的每個(gè)特征波形的相位譜維數(shù)不同,由每個(gè)特征波的基音周期P(i)決定,首先把一幀內(nèi)每個(gè)特征波的相位譜調(diào)整到相同維數(shù),設(shè)最大基音周期為Pmax,則每個(gè)特征波相位譜θi通過補(bǔ)零的方式將長(zhǎng)度調(diào)整到Pmax/2。
b)定義兩個(gè)相位θ1和θ2之間的距離為D21=[cos(θ2)-cos(θ1)]2+[sin(θ2)-sin(θ1)]2則補(bǔ)零調(diào)整維數(shù)后兩個(gè)相鄰特征波相位譜序列 和 之間的距離為
c)相位譜間距D的均值為ED=Σi=2IDi,i-1I-1]]>其中I為一幀內(nèi)提取的特征波形的個(gè)數(shù)。
d)基音周期增益按照如下表達(dá)式求解g=min{Σi=0L-T-1s(n)s(n+T)Σm=0L-T-1s2(m)Σk=0L-T-1s2(k+T),1.0}]]>其中,s為特征波形內(nèi)插語音編碼算法的一幀語音信號(hào),L為分析幀長(zhǎng),T是當(dāng)前幀估計(jì)得到的最佳基音周期。
e)由基音周期增益和相位譜間距的均值判斷當(dāng)前幀的濁音度標(biāo)志v,方法是與預(yù)先設(shè)定的門限值比較,其判斷的邏輯準(zhǔn)則如下If(g<0.7和ED>20)或g<0.4或ED>30v=0;Elsev=1;其中v=0表示當(dāng)前幀信號(hào)的周期性較弱,亦即濁音度較弱,v=1表示當(dāng)前幀信號(hào)的周期性較強(qiáng),亦即濁音度較強(qiáng)。
如圖1所示,解碼端每個(gè)特征波的相位譜由濁音度標(biāo)志v決定,選擇固定相位或隨機(jī)相位(24)當(dāng)v=0時(shí),相位譜由隨機(jī)相位替代;當(dāng)v=1時(shí),相位譜取自于一個(gè)基頻較低的老年男子語音濁音區(qū)的固定相位譜。
如圖1所示編碼端的離散余弦變換用于將不同維數(shù)的特征波幅度譜矢量變換到相同維數(shù)(12),解碼端通過離散余弦逆變換矩陣反變換到原始特征波幅度譜對(duì)應(yīng)的維數(shù)(22),操作細(xì)節(jié)如下a)設(shè)X為M×N的離散余弦變換矩陣,N為第i個(gè)特征波幅度譜矢量Ci的維數(shù),且有N=P(i)/2,M為調(diào)整后的維數(shù),并設(shè)置M=Pmin/2,Pmin為最小基音周期,則離散余弦變換矩陣中的元素為Xm,n=(2N)2Zmcos((2(n-1)+1)π(m-1)2N),m=1,2,...,M;n=1,2,...,N]]>其中,當(dāng)m≠1時(shí)Zm=1;當(dāng)m=1時(shí)Zm=。
b)通過離散余弦變換矩陣,將每個(gè)N維的特征波幅度譜Ci變換到相同的維數(shù)M,變換過程(12)如下設(shè)C為N×1列矩陣,代表一個(gè)N維的特征波幅度譜Ci,設(shè)變換后的矩陣為C′,則變換的表達(dá)式為C′=X×C,C′為M×1的列矩陣,代表當(dāng)前特征波幅度譜Ci對(duì)應(yīng)的M維的離散余弦變換系數(shù)矢量C′i。
c)反變換過程(22)通過離散余弦逆變換矩陣,將M維的特征波離散余弦變換系數(shù)矢量反變換到N維的特征波幅度譜矢量。首先獲得當(dāng)前幀第i個(gè)提取點(diǎn)的基音周期P(i),從而有N=P(i)/2,然后計(jì)算離散余弦逆變換矩陣Y=X-1,Y為N×M的矩陣,則反變換公式為C=Y(jié)×C′。
圖1中編碼端的Haar小波提升分解模塊(13)和解碼端的Haar小波提升重構(gòu)模塊(23),對(duì)于每幀提取8個(gè)特征波的情況最多可以進(jìn)行三級(jí)分解與重構(gòu),實(shí)現(xiàn)框圖如圖2所示三級(jí)Haar小波分過程(130、131、132)和三級(jí)Haar小波重構(gòu)過程(232、231、230)。如圖3所示為一級(jí)Haar小波提升的分解過程(130),對(duì)給定的信號(hào)sj(對(duì)應(yīng)特征波形幅度譜的離散余弦變換系數(shù)序列C′i),將其分解為概貌信號(hào)sj+1和細(xì)節(jié)信號(hào)dj+1,其提升方案實(shí)現(xiàn)包括三個(gè)步驟,即分裂(split)、預(yù)測(cè)(predict)和更新(update)a)分裂(1310)該步驟將原信號(hào)sj分為兩個(gè)部分,考慮到信號(hào)間的相關(guān)性,將信號(hào)按其序號(hào)的奇、偶分為兩個(gè)子集evenj+1(偶數(shù)序列s2l)和oddj+1(奇數(shù)序列s2l+1),該分解方法表示為(evenj+1,oddj+1)=Split(sj)。
b)預(yù)測(cè)(1311)如果原信號(hào)sj具有局部相關(guān)性,則子集evenj+1和oddj+1也具有相關(guān)性,可以用一個(gè)子集來預(yù)測(cè)另一個(gè)。對(duì)一般情況,定義預(yù)測(cè)算子P,則預(yù)測(cè)過程寫為dj+1=oddj+1-P(evenj+1)。
式中,P(evenj+1)表示用evenj+1的值的某個(gè)組合來預(yù)測(cè)oddj+1的值。預(yù)測(cè)誤差dj+1表示了信號(hào)的細(xì)節(jié)信息,當(dāng)信號(hào)的相關(guān)性較大時(shí),預(yù)測(cè)將非常有效。在Haar小波變換下,預(yù)測(cè)是非常簡(jiǎn)單的,即令dj+1,l=sj,2l+1-sj,2l。
c)更新(1312)如圖所示sj+1是經(jīng)分解得到的概貌信號(hào),sj+1的一個(gè)重要性質(zhì)是其均值應(yīng)該等于原信號(hào)sj的均值,并且不隨著j變化,所以需要用細(xì)節(jié)子集dj+1來更新偶序號(hào)子集evenj+1,即sj+1=evenj+1+U(dj+1),式中算子U表示dj+1的某種組合。在Haar小波的情況下,有sj+1=evenj+1+dj+1/2。
若對(duì)分解得到的概貌信號(hào)sj+1再進(jìn)行以上三個(gè)步驟的分解,那么就可以得到原信號(hào)的一個(gè)多級(jí)分解(130~132)。
如圖4所示,為一級(jí)Haar小波提升的重構(gòu)過程(230),用提升方案實(shí)現(xiàn)小波分解的最大優(yōu)點(diǎn)是將小波變換分解成了幾個(gè)簡(jiǎn)單的基本步驟,且每個(gè)步驟都能很容易找到它的逆變換。重構(gòu)的過程就是分解的逆過程,也包含三個(gè)步驟,即反預(yù)測(cè)、反更新和合并(merge)a)反更新(2310)給定概貌信號(hào)sj+1和細(xì)節(jié)信號(hào)dj+1,由下式恢復(fù)出偶序號(hào)序列evenj+1=sj+1-U(dj+1)。
b)反預(yù)測(cè)(2311)用反更新計(jì)算得出的evenj+1和給定的dj+1,可通過下式預(yù)測(cè)出奇序號(hào)序列oddj+1=dj+1+P(evenj+1)。
c)合并(2312)通過反更新和反預(yù)測(cè)步驟,分別獲得偶序號(hào)序列和奇序號(hào)序列,將它們合并即可恢復(fù)出原始信號(hào)sj,記作sj=Merge(evenj+1,oddj+1)。
對(duì)于Haar小波變換,有最簡(jiǎn)便的提升算法形式P=1,U=1/2。分解和重構(gòu)過程均采用原位運(yùn)算,節(jié)省內(nèi)存空間,如圖5所示。
如圖1所示的分解參數(shù)的量化和解量化過程(3)根據(jù)人耳的聽覺感知特性對(duì)各級(jí)分解得到的概貌和細(xì)節(jié)部分進(jìn)行不同方式的矢量量化。對(duì)分解得到的各級(jí)離散余弦變換系數(shù)的量化精度的程度大小為s3>d3>d2>d1。所用到的碼本訓(xùn)練方法為L(zhǎng)BG算法,每級(jí)信號(hào)的量化方式如下a)對(duì)于第三級(jí)分解得到的概貌部分s3,量化方法采用反離散余弦變換后的感知加權(quán)矢量量化方法。首先將待量化的矢量和碼本中的碼字用離散余弦逆變換矩陣進(jìn)行反變換得到對(duì)應(yīng)的幅度譜矢量,對(duì)反變換后的矢量用感知加權(quán)均方誤差最小的原則進(jìn)行碼本搜索,得到待量化矢量的最佳碼字。此量化過程如下假設(shè)x為待量化的M維行矢量,y為碼本中的碼字M維行矢量,分別通過離散余弦逆變換N×M矩陣Y進(jìn)行反變換后得到N維行矢量x’和y’
x′=(Y×xT)T;y′=(Y×yT)T(符號(hào)T表示矩陣的轉(zhuǎn)置)碼本搜索原則為感知加權(quán)均方誤差最小,定義感知加權(quán)均方誤差為d(x′,y′)=(x′-y′)TW(x′-y′)其中W是感知加權(quán)矩陣,為N×N的對(duì)角陣,其中對(duì)角線的元素wnn是由下式在基頻整數(shù)倍上計(jì)算得到w(z)=1N|GA(z/γ1)A^(z)A(z/γ2)|]]>G是線性預(yù)測(cè)殘差信號(hào)的功率,A(z)是線性預(yù)測(cè)多項(xiàng)式, 是量化的線性預(yù)測(cè)多項(xiàng)式。加權(quán)系數(shù)可以取γ1=0.94,γ2=0.6。z=ej2πn/P(i),n=1,2,,,N,N是輸入信號(hào)帶寬內(nèi)諧波個(gè)數(shù),P(i)是當(dāng)前分析幀第i個(gè)提取點(diǎn)特征波的基音周期,N=P(i)/2。非加權(quán)情況下則有wnn=1。
c)對(duì)于每級(jí)分解得到的細(xì)節(jié)部分d3,d2,d1可以采用較少比特的一般的矢量量化方法和矩陣矢量量化方法。
例如特征波提取速率為400Hz,即每20ms幀提取8個(gè)特征波形。則第一級(jí)分解的細(xì)節(jié)部分d1更新速率為200Hz,第二級(jí)分解的細(xì)節(jié)部分d2更新速率為100Hz,第三級(jí)分解得到的細(xì)節(jié)部分d3和概貌部分s3的更新速率為50Hz。對(duì)d1每幀4個(gè)離散余弦變換系數(shù)序列共同用10比特的矩陣矢量量化,d2每幀2個(gè)離散余弦變換系數(shù)序列共同用8比特的矩陣矢量量化,d3每幀1個(gè)離散余弦變換系數(shù)序列則用8比特的一般矢量量化方法。對(duì)于概貌部分s3每幀用10比特的反離散余弦變換后的感知加權(quán)矢量量化。對(duì)各級(jí)分解所得的概貌及細(xì)節(jié)部分完全進(jìn)行編碼量化需要的總比特為36比特,特征波形分解參數(shù)的碼率為1.8kbit/s,此時(shí)特征波形內(nèi)插編碼算法可以得到較為滿意的合成音質(zhì)。
在編碼速率要求較低的場(chǎng)合,可以只對(duì)概貌部分s3和細(xì)節(jié)部分d3進(jìn)行量化編碼便可以恢復(fù)特征波的大部分能量,此時(shí)的解碼端只需要進(jìn)行對(duì)應(yīng)最后一級(jí)小波分解的第一級(jí)小波重構(gòu)過程,其它未恢復(fù)的特征波由一級(jí)重構(gòu)后的特征波序列通過線性內(nèi)插的方式獲得,如此可以獲得更低的編碼速率,且能夠保持可接受的編碼質(zhì)量。
權(quán)利要求
1.一種基于Haar小波提升的特征波形分解與重構(gòu)方法,其特征在于對(duì)特征波形內(nèi)插語音編碼算法中當(dāng)前分析幀提取得到的特征波序列進(jìn)行操作,在進(jìn)行特征波形分解之前,首先將特征波的離散時(shí)間傅里葉級(jí)數(shù)(DTFS)系數(shù)由直角坐標(biāo)系轉(zhuǎn)化為極坐標(biāo)系表示的幅度譜和相位譜,對(duì)特征波的幅度譜序列用離散余弦變換(DCT)矩陣變換到相同維數(shù)的離散余弦變換系數(shù)序列,然后進(jìn)行Haar小波提升方案下的特征波形分解(對(duì)應(yīng)編碼端)與特征波形重構(gòu)(對(duì)應(yīng)解碼端),解碼端相位譜的恢復(fù)通過當(dāng)前幀的濁音度標(biāo)志來選擇固定或隨機(jī)相位,濁音度標(biāo)志由當(dāng)前幀的基音周期增益和相位譜間距的均值判斷得到。
2.如權(quán)利要求1所述的基于Haar小波提升的特征波形分解與重構(gòu)方法,其特征在于所述的Haar小波變換的提升方案采用原位運(yùn)算,每級(jí)特征波分解過程包括分裂、預(yù)測(cè)和更新,每級(jí)特征波重構(gòu)過程包括反更新、反預(yù)測(cè)和合并。
3.如權(quán)利要求1所述的基于Haar小波提升的特征波形分解與重構(gòu)方法,其特征在于,該方法的主要步驟有a)當(dāng)前分析幀內(nèi)提取的特征波形的離散時(shí)間傅里葉級(jí)數(shù),在進(jìn)行波形分解之前由直角坐標(biāo)系轉(zhuǎn)換到極坐標(biāo)系下的幅度譜和相位譜;b)計(jì)算一幀內(nèi)提取的特征波形序列的相位譜之間的距離,進(jìn)而得到相位譜間距的均值統(tǒng)計(jì)量;c)由基音周期增益和相位譜間距的均值共同決定當(dāng)前幀的濁音度標(biāo)志;d)將不同維數(shù)的特征波幅度譜通過離散余弦變換矩陣變換到相同維數(shù);e)對(duì)變換得到的特征波離散余弦變換系數(shù)序列運(yùn)用Haar小波提升的分解算法進(jìn)行多級(jí)特征波形分解;f)對(duì)各級(jí)分解得到的概貌和細(xì)節(jié)部分的離散余弦變換系數(shù)采用不同的量化方法,其中最后一級(jí)分解得到的概貌部分用反離散余弦變換后的感知加權(quán)矢量量化方法;g)解碼端對(duì)解量化的離散余弦變換系數(shù)運(yùn)用Haar小波提升的重構(gòu)算法進(jìn)行多級(jí)特征波形重構(gòu);h)波形重構(gòu)后,通過離散余弦逆變換矩陣變換得到特征波幅度譜;i)特征波相位譜根據(jù)濁音度標(biāo)志選擇固定相位譜或隨機(jī)相位譜;j)將恢復(fù)得到的每個(gè)特征波形的幅度譜和相位譜相結(jié)合,由極坐標(biāo)系轉(zhuǎn)換到直角坐標(biāo)系下的離散時(shí)間傅里葉級(jí)數(shù)系數(shù);k)在編碼速率要求較低的場(chǎng)合,僅傳輸最后一級(jí)分解的概貌和細(xì)節(jié)部分,而忽略其它各級(jí)分解的細(xì)節(jié)部分。
4.如權(quán)利3要求所述的方法,其特征在于,編碼端當(dāng)前分析幀提取的特征波形進(jìn)行相位對(duì)齊和功率歸一化后,其離散時(shí)間傅里葉級(jí)數(shù)系數(shù)在進(jìn)行波形分解之前從直角坐標(biāo)系轉(zhuǎn)換到極坐標(biāo)系下的幅度譜和相位譜,波形分解只對(duì)特征波幅度譜進(jìn)行,而在解碼端則通過極坐標(biāo)到直角坐標(biāo)的轉(zhuǎn)換恢復(fù)特征波的離散時(shí)間傅里葉級(jí)數(shù)的表示。
5.如權(quán)利要求3所述的方法,其特征在于,對(duì)當(dāng)前幀的特征波相位譜序列首先通過補(bǔ)零的方式變換到相同維數(shù),然后求其相互間的距離,并對(duì)這些相位譜間距求均值統(tǒng)計(jì)量作為濁音度標(biāo)志判斷的參量之一,其中兩個(gè)相鄰的N維特征波相位譜序列 和 之間的距離定義為Di,i-1=Σj=1N{[cos(θ^ji)-cos(θ^ji-1)]2+[sin(θ^ji)-sin(θ^ji-1)]2}]]>
6.如權(quán)利要求3所述的方法,其特征在于,編碼端當(dāng)前分析幀的濁音度標(biāo)志由基音周期增益和相位譜間距的均值共同決定;解碼端當(dāng)前幀的相位信息由濁音度標(biāo)志選擇固定相位譜或隨機(jī)相位譜。令g為當(dāng)前幀的基音周期增益,ED為當(dāng)前幀提取的相位譜間距的均值,則判斷濁音度標(biāo)志v的邏輯準(zhǔn)則如下If(g<0.7和ED>20)或g<0.4或ED>30v=0;Elsev=1;其中v=0表示當(dāng)前幀信號(hào)的周期性較弱,亦即濁音度較弱,此時(shí)相位譜由隨機(jī)相位替代;v=1表示當(dāng)前幀信號(hào)的周期性較強(qiáng),亦即濁音度較強(qiáng),此時(shí)相位譜取自于一個(gè)基頻較低的老年男子語音濁音區(qū)的固定相位譜。
7.如權(quán)利要求3所述的方法,其特征在于,每個(gè)特征波幅度譜矢量的維數(shù)不同(由每個(gè)提取點(diǎn)的基音周期決定),通過離散余弦變換矩陣變換到相同維數(shù),波形分解過程對(duì)離散余弦變換系數(shù)序列進(jìn)行,解碼端通過離散余弦逆變換矩陣反變換到原始特征波幅度譜對(duì)應(yīng)的維數(shù),其變換過程可以用矩陣的方式表述為正變換C′=X×C;逆變換C=Y(jié)×C′其中,C為N×1的列矩陣,代表一個(gè)N維的特征波幅度譜,C′為M×1的列矩陣,代表當(dāng)前特征波幅度譜對(duì)應(yīng)的M維的離散余弦變換系數(shù)矢量,X為M×N的離散余弦變換矩陣,矩陣中的元素為Xm,n=(2N)2Zmcos((2(n-1)+1)π(m-1)2N),m=1,2,...,M;n=1,2,...,N]]>其中,當(dāng)m≠1時(shí)Zm=1;當(dāng)m=1時(shí)Zm=。離散余弦逆變換矩陣Y=X-1,Y為N×M的矩陣。
8.如權(quán)利要求3或2所述的方法,其特征在于,用Haar小波提升方案對(duì)變換得到的特征波形離散余弦變換系數(shù)序列進(jìn)行多級(jí)波形分解,并采用原位運(yùn)算,每級(jí)分解過程包括分裂、預(yù)測(cè)和更新三個(gè)步驟。分裂過程是將當(dāng)前幀提取的特征波序列按照提取序號(hào)的奇、偶分為偶數(shù)序列和奇數(shù)序列兩個(gè)子集;預(yù)測(cè)過程是用偶數(shù)序列子集來預(yù)測(cè)奇數(shù)序列子集,得到的預(yù)測(cè)誤差便是分解的細(xì)節(jié)部分;更新過程是用預(yù)測(cè)得到的細(xì)節(jié)部分來更新偶數(shù)序列子集得到原特征波序列的概貌部分。用表達(dá)式表述Haar小波提升的分解過程為設(shè)sj為當(dāng)前幀提取的特征波序列,首先分裂為偶數(shù)序列s2l和奇數(shù)序列s2l+1;預(yù)測(cè)得到原序列的細(xì)節(jié)部分為dj+1,l=sj,2l+1-sj,2l;更新得到原序列的概貌部分為sj+1=evenj+1+dj+1/2。對(duì)分解得到的概貌信號(hào)sj+1再進(jìn)行以上三個(gè)步驟的分解,就得到原信號(hào)的一個(gè)多級(jí)分解。分解過程采用原位運(yùn)算。
9.如權(quán)利要求3所述的方法,其特征在于,對(duì)離散余弦變換系數(shù)序列進(jìn)行多級(jí)小波提升分解后得到概貌部分和細(xì)節(jié)部分進(jìn)行不同方式的量化,對(duì)最后一級(jí)分解得到的概貌部分特征波的離散余弦變換系數(shù)矢量采用較高精度的感知加權(quán)矢量量化方法,而對(duì)細(xì)節(jié)部分的特征波序列則采用較少比特的一般的矢量量化方法或矩陣矢量量化方法。在概貌部分的量化中,首先將待量化的矢量和碼本中的碼字用離散余弦逆變換矩陣進(jìn)行反變換得到對(duì)應(yīng)的幅度譜矢量,對(duì)反變換后的矢量用感知加權(quán)均方誤差最小的原則進(jìn)行碼本搜索,得到待量化矢量的最佳碼字。碼本搜索原則為感知加權(quán)均方誤差最小,假設(shè)x′和y′分別是經(jīng)過離散余弦逆變換后的待量化的特征波矢量和碼本中的碼字,則定義感知加權(quán)均方誤差為d(x′,y′)=(x′-y′)TW(x′-y′)其中W是感知加權(quán)矩陣,為N×N的對(duì)角陣,其對(duì)角線元素wnn是由下式在基頻整數(shù)倍上計(jì)算得到w(z)=1N|GA(z/γ1)A^(z)A(z/γ2)|]]>其中G是線性預(yù)測(cè)殘差信號(hào)的功率,A(z)是線性預(yù)測(cè)多項(xiàng)式, 是量化的線性預(yù)測(cè)多項(xiàng)式。z=ej2πn/P(i),n=1,2,,,N,N是輸入信號(hào)帶寬內(nèi)諧波個(gè)數(shù),P(i)是當(dāng)前分析幀第i個(gè)提取點(diǎn)特征波的基音周期,
10.根據(jù)權(quán)利要求3所述的方法,其特征在于,在解碼端對(duì)解量化后的離散余弦變換系數(shù)進(jìn)行Haar小波提升的特征波形重構(gòu),并采用原位運(yùn)算,每級(jí)重構(gòu)過程包括反更新、反預(yù)測(cè)和合并三個(gè)步驟,重構(gòu)過程的每個(gè)步驟都是分解過程每個(gè)步驟的逆變換。對(duì)于Haar小波提升的重構(gòu)過程,對(duì)應(yīng)于權(quán)利要求8中的分解過程,兼用表達(dá)式表述為反更新對(duì)解量化得到的特征波序列的概貌信號(hào)sj+1和細(xì)節(jié)信號(hào)dj+1,由式子evenj+1=sj+1-dj+1/2恢復(fù)出偶序號(hào)序列;反預(yù)測(cè)用反更新計(jì)算得出的evenj+1和給定的dj+1,通過式子oddj+1=dj+1+evenj+1預(yù)測(cè)出奇序號(hào)序列;合并通過反更新和反預(yù)測(cè)步驟,分別獲得偶序號(hào)序列和奇序號(hào)序列,將它們合并即可恢復(fù)出原始的特征波序列sj。
11.根據(jù)權(quán)利要求3所述的方法,其特征在于,在編碼速率要求較低的場(chǎng)合,只用最后一級(jí)分解的概貌和細(xì)節(jié)部分恢復(fù)特征波表面,而忽略其它幾級(jí)小波分解的細(xì)節(jié)部分,此時(shí)的解碼端只進(jìn)行對(duì)應(yīng)最后一級(jí)小波分解的重構(gòu)過程,其它未恢復(fù)的特征波由一級(jí)重構(gòu)后的特征波序列通過線性內(nèi)插的方式獲得。
全文摘要
本發(fā)明涉及一種基于Haar小波提升的特征波形分解與重構(gòu)方法,屬于語音編碼領(lǐng)域,主要用于波形內(nèi)插(WI)語音編碼算法。當(dāng)前分析幀提取的特征波形在進(jìn)行分解之前,首先將其離散時(shí)間傅里葉級(jí)數(shù)(DTFS)的幅度譜轉(zhuǎn)化為離散余弦變換(DCT)系數(shù),然后用Haar小波變換的提升方案實(shí)現(xiàn)特征波的多級(jí)分解與重構(gòu),對(duì)各級(jí)分解參數(shù)進(jìn)行不同方式的量化編碼,并利用相位譜間距的均值和基音周期增益判斷當(dāng)前幀的濁音度標(biāo)志,以決定解碼端選擇固定相位譜或隨機(jī)相位譜。Haar小波提升方法能夠降低特征波形分解與重構(gòu)過程的運(yùn)算復(fù)雜度和內(nèi)存空間,且不引入算法延遲,可使波形內(nèi)插編碼算法在較低速率上獲得較為滿意的合成音質(zhì)。
文檔編號(hào)G10L19/00GK1920950SQ20061015264
公開日2007年2月28日 申請(qǐng)日期2006年9月25日 優(yōu)先權(quán)日2006年9月25日
發(fā)明者王晶, 趙勝輝, 匡鏡明 申請(qǐng)人:北京理工大學(xué)