綜合分析語音編碼器中噪聲隱蔽電平適應性修改方法

文檔序號：2819897閱讀：212來源：國知局

專利名稱：綜合分析語音編碼器中噪聲隱蔽電平適應性修改方法
技術領域：
本發(fā)明涉及應用綜合分析技術的語音編碼。
綜合分析語音編碼方法通常包括以下步驟—對按逐次幀數(shù)字化的P階語音信號進行線性預測分析，以便判定確定短期綜合濾波器的參數(shù)；—對確定施加到短期綜合濾波器上的激勵信號的激勵參數(shù)進行判定，以便產(chǎn)生表示語音信號的合成信號，其中至少一些激勵參數(shù)是以至少一個感覺加權濾波器通過對語音信號與合成信號之間的差的濾波所產(chǎn)生誤差信號的能量進行最小化而判定的；以及—產(chǎn)生確定短期綜合濾波器的參數(shù)及激勵參數(shù)的量化數(shù)值。
通過線性預測所得到的短期綜合濾波器的參數(shù)表示聲域的傳遞函數(shù)和輸入信號的頻譜特性。
對于施加到短期綜合濾波器的激勵信號有各種能夠在各級綜合分析編碼器之間進行區(qū)分的建模方法。在很多流行的編碼器中，激勵信號包含由長期綜合型濾波器或者由自適應代碼薄技術所綜合的長期成分，該成分使得能夠發(fā)掘諸如元音這樣的由于聲帶振動而產(chǎn)生的語音的長期周期性。在CELP編碼器(″Code ExcitedLinear Prediction″，見M.R.Schroeder和B.C.Atal″Code-Excited Linear Prediction(CELP)High Quality Speech at VetyLow Bit Rates″，proc.ICASSP’85，Trampa，1985年3月，第937-940頁)中，剩余激勵是通過一個從統(tǒng)計代碼薄所抽取以及由一個增益所放大的波形模示的。CELP編碼器使得能夠在通常的電話頻帶中把所需的數(shù)字位率從64kbit/s(普通的PCM編碼器)減少到16kbit/s(LD-CELP編碼器)，甚至對于最近的大多數(shù)編碼器減少到8kbit/s，而不會降低語音的質量?，F(xiàn)在這些編碼器通常用于電話傳輸，但是它們提供了許多其它的用途諸如存儲，寬帶電話或者衛(wèi)星傳輸。在可使用本發(fā)明的綜合分析編碼器的其它例子中要特別提到MP-LPC編碼器(Multi-Pulse Linear PredictiveCoding，見B.S.Atal和J.R.Remde″A New Model of LPCExcitation for Producing Natural-Souding Speech at Low BitRates″，Proc.ICASSP’82，巴黎，1982年5月，第1卷，第614-617頁)，其中剩余激勵由帶有指定給它的各自增益的可變位脈沖模示，以及VSELP編碼器(Vector-Sum Excited Linear Predic-tion，見I.A.Gerson和M.A.Jasiuk，″Vector-Sum Excited Lin-ear Prediction (VSELP)Speech Coding at 8kbits/s″，Proc.ICASSP’90 Albuquerque，1990年4月，第l卷，第461-464頁)，其中激勵是由從各個代碼薄所抽取的脈沖向量的線性組合模示的。
編碼器對使合成信號與原始語音信號之間的感覺上的加權誤差最小化的“閉環(huán)”過程中的剩余激勵進行評價。已經(jīng)知道感覺加權可根據(jù)直接極小化均方差來顯著改進合成語音的主觀感覺。短期感覺加權之要點是在極小化的誤差準則的范圍以內減小其中信號電平比較高的語音頻譜區(qū)域的重要性。換言之，如果其頻譜，即一個優(yōu)先平坦部分(priori flat)，被成形使得它能夠在格式區(qū)域之內比在格式之間的區(qū)域內接收到更多的噪聲，則由聽覺器所感覺到的噪聲被減小。為了達到這一點，短期感覺加權濾波器常常具有形式為W(z)＝A(z)/A(z/γ)的傳遞函數(shù)，其中A(z)=1-Σi=1Paiz-i]]>系數(shù)ai為線性預測分析步驟中獲得的線性預測系數(shù)，γ表示0與1之間的一個頻譜擴張系數(shù)。這一加權公式是由B.S.Atal與M.R.Schroeder提出的″Predictive Coding of Speech Signals andSubjective Error Criteria″，IEEE Trans.on Acoustics，Speech，and Signal Processing，Vol.ASSP-27，No.3，1979年6月，第247-254頁。對于γ＝1，則沒有掩蔽對合成信號進行方差的極小化。如果γ＝0，則是全掩蔽對剩余進行極小化，并且編碼噪聲具有和語音信號同樣的頻譜包絡。
廣義來說在于為感覺加權濾波器選擇一個形式為W(z)＝A(z/γ1)/A(z/γ2)的傳遞函數(shù)，γ1，γ2表示頻譜擴張系數(shù)，使得0≤γ2≤γ1≤1。見J.H.Chen和A.Gersho″Real-Time Vector APC Speech Coding at4800 Bps with Adaptive Postfiltering″，Proc.ICASSP’87，1987年4月，第2185-2188頁。應當注意，當γ1＝γ2時，沒有掩蔽，而當γ1＝1并且γ2＝0時，為全掩蔽。頻譜擴張系數(shù)γ1與γ2確定所需的噪聲掩蔽水平。太弱的掩蔽使得固定粒狀量化噪聲成為可感覺到的。而過強的掩蔽則影響格式的形狀，這時失真變得高度可聽到。
在最強有力的當前的編碼器中，也通過涉及感覺加權濾波器的閉環(huán)過程對于每一幀或者子幀確定包含LTP延時和可能的相位(分數(shù)延時)或者一組系數(shù)(多抽頭LTP濾波器)的長期預測器的參數(shù)。
在一些編碼器中，發(fā)掘語音信號短期模型并規(guī)定噪聲格式分布的感覺加權濾波器W(z)被補充以一個諧波加權濾波器，該濾波器在對應于諧波的峰值中增加噪聲的能量并在這些峰值之間減小該能量，和/或被補充以一個斜率校正濾波器，用于防止在高頻下，特別是在寬帶應用中非掩蔽噪聲的出現(xiàn)。本發(fā)明主要是關于短期感覺加權濾波器W(z)的。
短期感覺濾波器頻譜擴張系數(shù)γ、或γ1與γ2的選擇通常是借助于主觀測試進行優(yōu)化的。繼而這一選擇被固定。然而，本申請人已經(jīng)觀察到，頻譜擴張系數(shù)的優(yōu)化值可能根據(jù)輸入信號的頻譜特性而經(jīng)受相當大的變化。因而所作的選擇構成了一種或多或少滿意的折衷辦法。
本發(fā)明的目的是為了通過對感覺加權濾波器進行較好的特征刻劃，提高被編碼信號的主觀質量。另一目的是為了使編碼器的性能對于各種類型的輸入信號更為均勻。又一目的是為了使這種改進并不需要明顯的更多的復雜性。
于是本發(fā)明關系到開始時指出的類型的綜合分析語音編碼方法，其中感覺加權濾波器具有如前所示的一般公式W(z)＝A(z/γ1)/A(z/γ2)，并且其中基于在線性預測分析步驟中所獲得的頻譜參數(shù)對頻譜擴張系數(shù)γ1，γ2中至少一個系數(shù)的數(shù)值作適應性修改。
使得感覺加權濾波器的系數(shù)γ1與γ2具有適應性，有可能為輸入信號的各種頻譜特性而優(yōu)化編碼噪聲掩蔽電平，這些頻譜特性可能依賴拾取的聲音特性，話音的各種特性或者強背景噪聲的出現(xiàn)(例如移動無線電話中的汽車噪聲)而有顯著的變化。增加了所感覺到的主觀質量并使得編碼性能對于各種類型的輸入更為均勻。
基于其對頻譜擴張系數(shù)中至少一個系數(shù)的數(shù)值作適應性修改的頻譜參數(shù)最好包括表示語音信號頻譜的整體斜率的至少一個參數(shù)。語音頻譜在低頻(大約基頻范圍是從成年男低音的60Hz起到童音的500Hz)下平均具有更多的能量，因而一般是一下降的斜率。然而，成年的男低音將具有多得多的被衰減的高頻，因而具有一個較大斜率的頻譜。由聲音拾取系統(tǒng)所施加的前置濾波對這一斜率有很大影響。通常的電話手機進行高通前置濾波，稱為IRS，這相當大地降低了這一斜率的作用。然而，在一些更近期的裝置中通過對比所進行的“線性”輸入保留了低頻的全部重要性。弱掩蔽(γ1與γ2之間小的差距)與信號的斜率相比太多地降低了感覺濾波器的斜率。如果信號在高頻具有小的能量，則高頻的噪聲電平余留得大而變得大于信號自身。耳朵感覺到高頻未掩蔽的噪聲，所有這種噪聲由于常常具有諧波特性而造成更多的煩擾。濾波器斜率簡單的校正不適于滿意地對于能量差建模。對考慮語音頻譜的總體斜率頻譜擴張系數(shù)作適應性修改，能夠使這一問題得到較好的處理。
最好是借以對頻譜擴張系數(shù)中至少一個系數(shù)作適應性修改的頻譜參數(shù)還包括至少一個表示短期綜合濾波器(LPC)的諧振特性的參數(shù)。在電話頻帶中語音信號具有多達四個或者五個格式?？虅濐l譜輪廓的這些“凸起”一般是相當圓滑的。然而，LPC分析可能導致接近不穩(wěn)定的濾波器。這時對應于LPC濾波器的頻譜包含在小帶寬范圍內具有大能量的相當顯著的高峰。掩蔽越大，則噪聲頻譜越是接近LPC頻譜。可是，噪聲分布中能量高峰的出現(xiàn)是很麻煩的。這將在相當大的能量區(qū)域內產(chǎn)生格式電平的失真，在這些區(qū)域中造成的破壞是明顯可感覺到的。這時本發(fā)明有可能在LPC濾波器的諧振特性增加時降低掩蔽電平。
當短期綜合濾波器由線性頻譜參數(shù)或者頻率(LSP或者LSF)表示時，則借以對γ1與/或γ2的數(shù)值進行適應性修改的表示短期綜合濾波器諧振特性的參數(shù)可能是兩個順序的線譜頻率之間的最小距離。
本發(fā)明的其它特點和優(yōu)點將在以下較佳的但是并非限定性的示范性實施方式的參照附圖的說明中顯現(xiàn)，這些附圖是—

圖1和2是能夠實現(xiàn)本發(fā)明CELP解碼器以及CELP編碼器的示意性布局；—圖3是估算感覺加權過程的流程圖；以及—圖4是函數(shù)log[(l-r)/(l+r)]的曲線圖。
以下就其在CELP型語音編碼器的應用對本發(fā)明進行說明。然而應當明白，本發(fā)明也可用于其它類型的綜合分析編碼器(MP-LPC，VSELP…)。
CELP編碼器和CELP解碼器中實現(xiàn)的語音綜合過程示于圖1中。激勵產(chǎn)生器10響應指數(shù)k，傳送屬于預定編碼薄的一激勵代碼Ck。放大器12以激勵增益β放大這一激勵代碼，所得的信號經(jīng)受長期綜合濾波器14的作用。從濾波器14所輸出的信號u又經(jīng)受短期綜合濾波器16的作用，來自該濾波器的輸出，構成在此當作綜合語音信號的信號。當然，正如語音編碼領域中所熟知的，其它濾波器，例如后置濾波器，也可以解碼器的電平實現(xiàn)。
上述信號是以例如等于8kHz的采樣速率由例如16位字所表示的數(shù)字信號。綜合濾波器14，16為一般的純遞歸濾波器。長期綜合濾波器14通常具有形式為1/B(z)的傳遞函數(shù)，其中B(z)＝1-Gz-T。延時T和增益G構成可由該編碼器適應地確定的長期預測(LTP)參數(shù)。短期綜合濾波器16的LPC參數(shù)在該編碼器由語音信號的線性預測確定。于是濾波器16的傳遞函數(shù)的形式為1/A(z)，其中A(z)=1-Σi=1Paiz-i]]>在p(通常p≈10)階的線性預測的情形下，ai表示第i個線性預測系數(shù)。
這里，“激勵信號”指施加到短期綜合濾波器14的信號u(n)。這一激勵信號包含一個LTP成分G.u(n-T)和一個剩余成分，或者新息序列，βCk(n)。在綜合分析編碼器中，刻劃剩余成分以及任選LTP成分的參數(shù)是應用感覺加權濾波器在閉環(huán)中估算的。
圖2表示CELP編碼器的布局。語音信號s(n)是一個數(shù)字信號，例如由處理被放大的和被濾波的話筒22的輸出信號的模/數(shù)轉換器20提供。信號s(n)作為其本身被分為L個樣本的子幀，或者激勵幀的∧個樣本的相繼幀而被數(shù)字化(例如∧＝240，L＝40)。
LPC、LTP及EXC參數(shù)(指標k及激勵增益β)分別通過三個分析模塊24、26及28以編碼器電平獲得。然后這些參數(shù)按已知的方式以有效的數(shù)字傳輸為目的而被量化，之后經(jīng)受多路復用器30的作用，以形成從該編碼器輸出的信號。這些參數(shù)還供給模塊32，以計算該編碼器的一些濾波器的原始狀態(tài)。這一模塊32主要包括如圖1中所表示的解碼鏈。如同該解碼器，模塊32是基于量化的LPC、LTP及EXC參數(shù)工作的。如果LPC參數(shù)的內插計算如通常那樣在解碼器進行，則類似的內插計算是由模塊32執(zhí)行的。模塊32以編碼器電平給出了該解碼器的綜合濾波器14、16的早期狀態(tài)的消息，這些狀態(tài)是基于綜合及激勵參數(shù)在考慮子幀之前確定的。
在編碼過程的第一步驟中，短期分析模塊24通過分析語音信號s(n)的短期相關性而確定LPC參數(shù)(短期綜合濾波器的系數(shù)ai)。這一確定例如是∧個樣本的每個幀進行一次，其方式是要適應語音信號頻譜內容的變化。LPC分析方法在本技術界是熟知的。例如可參考工作″Digital Processing of Speech Signals″by L.R.Rabiner和R.W.Shafer，Prentice-Hall Int.，1978。這一工作特別描述了Durbin算法，該算法包含以下步驟—在包含當前幀的，以及如果該幀的長度小(例如為20到30ms)可能還包括早期樣本的分析窗口上估算語音信號s(n)的自相關R(i)(0≤i＜p)R(i)=Σn=1M-1s*(n)·s*(n-i)]]>其中M≥∧以及s*(n)＝s(n)·f(n)，f(n)表示長度M的窗口函數(shù)，例如矩形函數(shù)或者Hamming函數(shù)；
—系數(shù)ai的遞歸估算E(0)＝R(0)對于i從1到p，計算ri=[R(i)-Σj=1i-1aj(i-1).R(i-j)]/E(i-1)]]>ai(i)＝riE(i)＝(1-ri2)·E(i-1)對于j從1到i-1計算aj(i)＝aj(i-1)-ri·ai-j(i-1)系數(shù)ai取為等于在最后迭代中獲得的ai(p)。量E(p)是殘余預測誤差的能量。處于-1與1之間的系數(shù)ri，稱為反射系數(shù)。它們常常由對數(shù)-面積-比率LARi＝LAR(ri)表示，函數(shù)LAR由LAR(r)＝log10[(l-r)/(l+r)]定義。
LPC參數(shù)的量化可直接對于參數(shù)ai，對于反射參數(shù)ri或者對于對數(shù)-面積-比率LARi進行。另一可能性是量化線譜參數(shù)(LSP代表“線譜對”，或者LSF代表“線譜頻率”)。被規(guī)范到0與π之間的p個線譜頻率ωi(1≤i≤p)使得復數(shù)1，exp(jω2)，exp(jω4)，…，exp(jωp)，為多項式P(z)＝A(z)-z-(p+1)A(z-1)的根，以及復數(shù)exp(jω1)，exp(jω3)，…，exp(jωp-1)，與-1為多項式Q(z)＝A(z)+z-(p+1)A(z-1)的根。量化可對于規(guī)范化的頻率或者對于它們的余弦進行。
模塊24可根據(jù)Durbin經(jīng)典算法進行LPC分析，該算法曾在上面引證以定義實現(xiàn)本發(fā)明中有用的量值ri，LARi及ωi。使用另一些在比較近期研究的提供相同結果的算法則有優(yōu)越性，特別是Levinson的分割算法(見″A new Efficient Algorithm to Computethe LSP Parameters for Speech Coding″，by S.Saoudi，J.M.Boucher和A.Le Guyader，Signal Processing，第28卷，1992年，第201-212頁)，或者使用Chebyshev多項式(見″The Coputationof Line Spectrum Frequencies Using Chebyshey Polinomials″，byP.Kabal and R.P.Ramachandran，IEEE Trans.on Acoustics，Speech，and Signal processing，Vol.ASSP-34，No.6，第1419-1426頁，1986年12月)。
編碼的下一個步驟在于確定長期預測LTP參數(shù)。這些參數(shù)是例如L個樣本的每一個子幀確定一次。減法器34從語音信號s(n)減去短期綜合濾波器16的響應到零輸入信號。這一響應由濾波器36使用傳遞函數(shù)1/A(z)確定，其系數(shù)由模塊24所確定的LPC參數(shù)給出，并且其初始狀態(tài)由模塊32提供，使它們對應于綜合信號的最后p個樣本。來自減法器34的輸出信號經(jīng)受感覺加權濾波器38的作用，該濾波器的作用是加重其中誤差最能夠感覺出的頻譜部分，即格式之間的區(qū)域。
感覺加權濾波器的傳遞函數(shù)W(z)具有一般形式W(z)＝A(z/γ1)/A(z/γ2)，其中γ1及γ2為頻譜擴張系數(shù)，使0≤γ2≤γ1≤1。本發(fā)明基于由LPC分析模塊24所確定的頻譜參數(shù)提出動態(tài)地適應γ1與γ2的數(shù)值。這一適應是由模塊39進行的以便根據(jù)進一步描述的處理過程估算感覺加權。
感覺加權濾波器可被看作是p階全極點濾波器序列中的順序，其傳遞函數(shù)為1/A(z/γ2)=1/[Σi=0pbiz-i]]]>其中b0＝1及bi＝-aiγ2i對于0＜i≤p，并可作為p階全零濾波器的順序，其傳遞函數(shù)為A(z/γ1)=Σi=0pciz-i]]>其中c0＝1及ci＝-aiγ1i對于0＜i≤p。模塊39這樣對于每一幀計算出系數(shù)bi與ci并將它們提供給濾波器38。
由模塊26所進行的閉環(huán)LTP分析在于按普通方式對每一子幀選擇延時T，該延時使得下面規(guī)范化的相關函數(shù)達到最大值[Σn=0L-1x′(n).yT(n)]2/[Σn=0L-1[yT(n)]2]]]>其中x’(n)表示在相關子幀期間從濾波器38輸出的信號，而yT(n)表示卷積乘積u(n-T)*h’(n)。以上表達式中，h’(0)，h’(1)，…，h’(L-1)表示被加權的綜合濾波器的脈沖響應，傳遞函數(shù)為W(z)/A(z)。這一脈沖響應h’是基于由模塊39所提供的系數(shù)bi及ci以及對于子幀確定的LPC參數(shù)，通過用于計算脈沖響應的模塊40而獲得的，如果必要則是在量化和內插之后進行。樣本u(n-T)是由模塊32提供的長期綜合濾波器14的較早狀態(tài)。就小于子幀的長度的延時T來說，遺漏的樣本u(n-T)是通過基于較早的樣本的內插或者是從語音信號而獲得的。延時T為整數(shù)或者分數(shù)，是從一個例如20到143個樣本的范圍的指定窗口選擇的。為了減小閉環(huán)搜索范圍，并因而減小要計算的卷積yT(n)的數(shù)目，例如可首先每一幀一次地確定樣品的一個開環(huán)延時T’，并然后對于每一子幀在T’左右的降低了的區(qū)間中選擇閉環(huán)延時。開環(huán)搜索更是只在于對可能是由反向濾波器以傳遞函數(shù)A(z)濾波的語音信號s(n)的自相關函數(shù)，確定使它成為最大的延時T’。一旦延時T已經(jīng)確定，則長期預測增益G通過以下公式獲得G=[Σn=0L-1x′(n).yT(n)]/[Σn=0L-1[yT(n)]2]]]>為了搜索與子幀相關的CELP激勵，首先由減法器42從信號x’(n)中減去由模塊26對于優(yōu)化的延時T所計算的信號GyT(n)。所得到的信號x(n)經(jīng)受背向(backward)濾波器44作用，該濾波器提供由以下公式給出的信號D(n)D(n)=Σi=nL-1x(i).h(i-n)]]>其中h(0)，h(1)，…，h(L-1)表示由綜合濾波器與加權濾波器形成的合成濾波器的脈沖響應，這一響應是由模塊40計算的。換言之，該合成濾波器具有傳遞函數(shù)W(z)/[A(z)·B(z)]。于是在矩陣表示法中，我們有
D＝(D(0)，D(1)，…，D(L-1))＝x·H其中x＝(x(0)，x(1)，…，x(L-1))以及向量D構成一個用于激勵搜索模塊28的目標向量。這一模塊28從編碼薄確定一個使規(guī)范化的相關pk2/αk2最大化的編碼字，其中Pk＝D·CkTαk2＝Ck·HT·H·CkT＝Ck·U·CkT優(yōu)化的指標k已經(jīng)被確定，激勵增益β取作等于β＝Pk/αk2。
參見圖1，CELP解碼器包括一個接收由編碼器輸出的二進制流的多路分解器8。EXC激勵參數(shù)和LPT以及LPC綜合參數(shù)的量化數(shù)值提供給產(chǎn)生器10，放大器12以及濾波器14，16，以便重構合成信號，該信號例如在被放大并然后施加到揚聲器19之前，可通過轉換器18轉換為模擬信號以便存儲原始語音。
借以對系數(shù)γ1和γ2進行適應修改的頻譜參數(shù)一方面包括主要的兩個反射系數(shù)r1＝R(1)/R(0)以及r2＝[R(2)-r1R(1)]/[(1-r12)R(0)]，它們表示語音頻譜的整體斜率；而另一方面包括線譜頻率，其分布表示短期綜合濾波器的諧振特性。當兩個線譜頻率之間的最小距離dmin降低時，短期綜合濾波器的諧振特性增加。頻率ωi按升序(0＜ω1＜ω2＜…ωp＜π)獲得，我們有dmin=min1≤i<p(ωi+1-ωi)]]>通過在上面引證的Durbin算法的第一迭代停機，由傳遞函數(shù)1/(1-r1·z-1)產(chǎn)生語音頻譜的粗近似值。因而在第一反射系數(shù)r1趨近1時，綜合濾波器的整體斜率(通常為負值)在絕對值上趨于增加。如果通過增加迭代而繼續(xù)分析到2階，就以帶有傳遞函數(shù)1/[1-(r1-r1r2)·z-1-r2·z-2)]的2階濾波器達到不很粗糙的模式。當其極點趨向單位圓，即r1趨向1而r2趨向-1時，這-2階濾波器的低頻諧振特性增加。因而可斷定，在r1趨向1而r2趨向-1時，語音頻譜在低頻具有相對大的能量(或者另一說法，相對大的負整體斜率)。
眾所周知，語音頻譜中的格式峰值導致幾個線譜頻率(2或者3)擁擠在一起，而該頻譜的平坦部分是對應于這些頻率的均勻分布的。因而在距離dmin降低時，LPC濾波器的諧振特性增加。
一般說來，在綜合濾波器的低通特性增加時(r1趨向1而r2趨向-1)，和/或在綜合濾波器的諧振特性降低(dmin增加)時，采用較大的掩蔽(r1與r2之間較大的間隙)。
圖3表示由模塊39在每一幀所進行的用來估算感覺加權的操作的示例性的流程圖。
在每一幀，模塊39接收來自模塊24的LPC參數(shù)ai，ri(或者LARi)以及ωi(1≤i≤p)。在步驟50，模塊39通過對于ωi+1-ωi，其中1≤i＜p，的最小化估算兩個相繼線譜頻率之間的極小距離dmin。
基于表示幀上的整體頻譜斜率的參數(shù)(r1與r2)，模塊39在N個級別P0，P1，…，PN-1中進行幀的分級。在圖3的例子中，N＝2。P1級對應于語音信號s(n)在低頻相對高能的情形(r1相對接近1而r2相對接近-1)。因而，一般在P1級比在P0級采用較大的掩蔽。
為了避免級之間過于頻繁的變換，基于r1與r2的數(shù)值引入了一些頻滯?？蛇@樣規(guī)定要從每一幀選擇P1級，則該幀r1要大于正閾值T1而r2要小于負閾值-T2，而要從每一幀選擇P0級則該幀r1要小于另一個正閾值T1’(T1’＜T1)而r2要大于另一個負閾值-T2’(T2’＜T2)。如果給定反射系數(shù)在±1附近的靈敏度，則這一頻滯比較容易在對數(shù)-面積-比率LAP的域中看到(見圖4)，其中閾值T1，T1’，-T2，-T2’分別對應于閾值-S1，-S1’，S2，S2’。
在初始化時，默認的級例如為掩蔽最小的級(P0)。
在步驟52，模塊39檢查前面的幀是在P0級還是在P1之下來到的。如果前面的幀為P0級，則模塊39在54測試條件{LAR1＜-S1以及LAR2＞S2}，或者如果模塊24供給反射系數(shù)r1與r2取代對數(shù)-面積-比率LAPL1，AP2，則測試等價條件{r1＞T1與r2＜-T2}。如果LAR1＜-S1以及LAR2＞S2，則進行到P1級的轉換(步驟56)。如果測試54顯示LAR1≥-S1或LAR2≤S2，則當前幀保持在P0級(步驟58)。
如果步驟52顯示，前面的幀為P1級，模塊39在60測試條件{LAR1＞-S1’或者LAR2＜S2’}，或者如果模塊24供給反射系數(shù)r1與r2取代對數(shù)-面積-比率LAR1，LAR2，則測試等價條件{r1＜T1’或r2＞-T2’}。如果LAR1＞-S1’或者LAR2＜S2’，則進行到P0級的轉換(步驟56)。如果測試60顯示LAR1≤-S1’以及LAR2≥S2’，則當前幀保持在P1級(步驟56)。
在圖3所示的例子中，兩個頻譜擴張系數(shù)中的較大者r1在P0，P1級中各級中都具有不變的數(shù)值，其中，并且另一個頻譜擴張系數(shù)r2為線譜頻率之間最小距離dmin的下降仿射函數(shù)在P0級為r2＝-λ0·dmin+μ0，并在P1級為r2＝-λ1·dmin+μ1，其中λ0≥λ1≥0以及μ1≥μ0≥0。r2的數(shù)值也可以是有界限的以避免劇烈的變化在級P0為Δmin，0≤r2≤Δmax，0，以及在級P1為Δmin，1≤r2≤Δmax，1。根據(jù)當前幀所取的級，模塊39在步驟56或者58指定r1與r2的數(shù)值，然后在步驟62計算感覺加權因子的系數(shù)bi及ci。
如前所述，模塊24在其范圍內計算LPC參數(shù)的∧個樣本的幀，常常被細分為用于確定激勵信號的L個樣本的子幀。一般說來，LPC參數(shù)的內插在子幀范圍進行。在這種情形下，建議最好對于每一個子幀或者激勵幀都借助于內插的LPC參數(shù)執(zhí)行圖3的過程。
本申請人已經(jīng)在以8kbit/s操作的代數(shù)編碼薄CELP編碼器的情形下測試過用于對系數(shù)r1與r2進行適應性修改的過程，為此按每10ms幀(∧＝80)計算LPC參數(shù)。這些幀中的每一個被分為用于搜索激勵信號的兩個5ms子幀(L＝40)。對于一個幀所獲得的LPC濾波器被用于這些子幀中的第二個。對于第一個子幀，在這一濾波器與前面的幀所獲得的濾波器之間的一個LSF域中進行內插。以子幀的速率施加用于適應性地修改掩蔽電平的過程，對用于第一子幀的LSFωi以及反射系數(shù)r1與r2進行內插。圖3所示的過程已經(jīng)以按以下數(shù)值應用S1＝1.74；S1’＝1.52；S2＝0.65；S2’＝0.43； λ0＝0；μ0＝0.6； λ1＝6；μ1＝1；Δmin，1＝0.4，Δmax，1＝0.7，頻率ωi規(guī)范化為0與π之間。
這一適應性過程具有可忽略的額外的復雜性并對于編碼器沒有重大的結構修改，已經(jīng)使得有可能看到被編碼語音的主觀質量的有效改進。
申請人還利用在8到16kbits/s之間的可變位速率下施加到一個(低延時)LD-CELP編碼器的圖3的過程，還獲得了可稱道的結果。其斜率級別與前面的情形相同，其中 λ0＝4；μ0＝1；Δmin，0＝0.6；Δmax，0＝0.8； λ1＝6；μ1＝1；Δmin，1＝0.2；Δmax，1＝0.7。
權利要求
1.綜合分析語音編碼方法，包括以下步驟—對按相繼幀數(shù)字化的P階語音信號(s(n))進行線性預測分析，以便判定定義短期綜合濾波器(16)的參數(shù)；—對定義施加到短期綜合濾波器上的激勵信號的激勵參數(shù)進行判定，以便產(chǎn)生表示語音信號的合成信號，其中至少一些激勵參數(shù)是以至少一個感覺加權濾波器通過對語音信號與合成信號之間的差的濾波所產(chǎn)生的誤差信號的能量進行最小化而判定的，該感覺加權濾波器的傳遞函數(shù)形式為W(z)＝A(z/γ1)/A(z/γ2)，其中A(z)=1-Σi=1Paiz-i]]>系數(shù)ai是在線性預測分析步驟中所獲得的線性預測系數(shù)，γ1與γ2表示頻譜擴張系數(shù)，使得0≤γ2≤γ1≤1；以及—產(chǎn)生定義短期綜合濾波器的參數(shù)及激勵參數(shù)的量化數(shù)值，其特征在于，基于在線性預測分析步驟中所獲得的頻譜參數(shù)，對至少一個頻譜擴張系數(shù)的數(shù)值進行適應性修改。
2.根據(jù)權利要求1的方法，其特征在于，借以對頻譜擴張系數(shù)中至少一個系數(shù)的數(shù)值作適應性修改的頻譜參數(shù)包括，表示語音信號頻譜的整體斜率的至少一個參數(shù)(r1，r2)，并包括表示短期綜合濾波器(16)的諧振特性的至少一個參數(shù)(dmin)。
3.根據(jù)權利要求2的方法，其特征在于，所述表示頻譜整體斜率的參數(shù)包括在線性預測分析期間所確定的第一和第二反射系數(shù)(r1，r2)。
4.根據(jù)權利要求2或3的方法，其特征在于，所述表示諧振特性的參數(shù)是相繼線譜頻率之間的距離的最小值(dmin)。
5.根據(jù)權利要求2到4任何之一的方法，其特征在于，數(shù)個等級(P0，P1)之中的語音信號的幀的分級是基于表示頻譜整體斜率的單個參數(shù)或者多個參數(shù)(r1，r2)進行的，并在于，對于每一級采用兩個頻譜擴張系數(shù)的數(shù)值使得在短期綜合濾波器(16)的諧振特性上升時，它們的差值γ1-γ2下降。
6.根據(jù)權利要求3或5的方法，其特征在于，提供了基于第一反射系數(shù)r1＝R(1)/R(0)和第二反射系數(shù)r2＝[R(2)-r1R(1)]/[(1-r12)R(0)]的數(shù)值而選擇的兩個級別，R(j)表示用于j個樣本的一個延時的語音信號的自相關函數(shù)；在于第一級(P1)是選自這樣的每一個幀，其第一反射系數(shù)(r1)大于第一正閾值(T1)并且第二反射系數(shù)(r2)小于第一負閾值(-T2)；和在于第二級(P0)是選自這樣的每一個幀，其第一反射系數(shù)(r1)小于第二正閾值(T1’)，該第二正閾值(T1’)小于第一正閾值，或者第二反射系數(shù)(r2)大于第二負閾值(-T2’)，該第二負閾值(-T2’)絕對值小于第一負閾值(-T2)絕對值。
7.根據(jù)權利要求4或5的方法，其特征在于，在每一級(P0，P1)之中，頻譜擴張系數(shù)的最大值γ1被固定，而頻譜擴張系數(shù)的最小值γ2是兩個相繼線譜頻率之間的距離的最小值(dmin)的一個下降仿射函數(shù)。
全文摘要
在應用帶有傳遞函數(shù)W(z)＝A(z/γ
文檔編號G10L19/12GK1138183SQ9610587
公開日1996年12月18日申請日期1996年5月16日優(yōu)先權日1995年5月17日
發(fā)明者史蒂芬·普羅斯特申請人:法國電信公司

完整全部詳細技術資料下載