專利名稱:用于對采樣音頻信號的幀進行編碼和解碼的音頻編碼器和解碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及來源編碼,特別涉及音頻來源編碼,其中,音頻信號由具有不同的編碼 算法的兩個不同的音頻編碼器來處理。
背景技術(shù):
在低比特率音頻及語音編碼技術(shù)的上下文中,傳統(tǒng)上采用若干不同的編碼技術(shù), 來達成這種信號的低比特率編碼,這種信號在給定比特率下具有最佳可能主觀質(zhì)量。一般 音樂/聲音信號的編碼器目的在于,根據(jù)掩蔽閾值曲線,形成量化誤差的頻譜形狀(及時間 形狀),來優(yōu)化主觀質(zhì)量,該掩蔽閾值曲線是利用感知模型(“感知音頻編碼”)根據(jù)輸入信 號來估計的。另一方面,當極低比特率下的語音編碼基于人類語音的產(chǎn)生模型,即,采用線 性預(yù)測編碼(LPC)來對人類聲道的共振效應(yīng)進行建模連同殘差激勵信號的高效編碼時,已 經(jīng)顯示效率非常高。由于這兩種不同方法,一般音頻編碼器,例如MPEG-I層3 (MPEG =運動圖像專家 組)或MPEG-2/4高級音頻編碼(AAC)由于缺乏對語音來源模型的開發(fā),因而通常無法如同 專用的基于LPC的語音編碼器一樣,對于極低數(shù)據(jù)速率下的語音信號也發(fā)揮良好效果。相 反地,基于LPC的語音編碼器當應(yīng)用于一般音樂信號時,無法實現(xiàn)動聽結(jié)果,原因在于其不 能根據(jù)掩蔽閾值值曲線而靈活地形成編碼失真的頻譜包絡(luò)。后文將描述一種構(gòu)想,其將基 于LPC的編碼及感知音頻編碼的優(yōu)點組合到單個框架中,因此描述可有效用于一般音頻信 號及語音信號二者的統(tǒng)一音頻編碼。傳統(tǒng)上,感知音頻編碼器使用基于的濾波器組的方法,來高效地編碼音頻信號,并 且根據(jù)掩蔽曲線的估值而形成量化失真。第16a圖示出了單聲感知編碼系統(tǒng)的基本方塊圖。分析濾波器組1600用來將時 域采樣映射成子采樣頻譜分量。依據(jù)頻譜分量的數(shù)目,系統(tǒng)也稱作為子帶編碼器(少數(shù)子 帶,例如32個)或變換編碼器(大量頻率線,例如512條)。感知(“心理聲學(xué)”)模型1602 用來估計實際時間相關(guān)掩蔽閾值值。頻譜(“子帶”或“頻域”)分量經(jīng)過量化及編碼1604, 使得量化噪聲隱藏于實際傳輸?shù)男盘栂?,而解碼后不可被感知。這可以通過隨時間和頻率 改變頻譜值的量化粒度來實現(xiàn)。除了輔助信息之外,將已量化且已經(jīng)熵編碼頻譜系數(shù)或子帶值輸入比特流格式化 器1606,比特流格式化器1606提供適合于傳輸或儲存的已編碼音頻信號。方塊1606的輸 出比特流可以經(jīng)由因特網(wǎng)傳輸,或可以儲存于任何機器可讀取數(shù)據(jù)載體上。在解碼器側(cè)上,解碼器輸入接口 1610接收已編碼的比特流。方塊1610將已熵編 碼且已量化的頻譜/子帶值與輔助信息分離。將已編碼頻譜值輸入到置于1610與1620之 間的熵解碼器中,例如霍夫曼解碼器,這種熵解碼器的輸出信號是已量化的頻譜值。將這些 已量化的頻譜值輸入到再量化器中,再量化器如第16圖中1620所指示,執(zhí)行“逆”量化。將 方塊1620的輸出輸入到合成濾波器組1622中,合成濾波器組1622執(zhí)行合成濾波,包括頻率/時間變換且典型地執(zhí)行時域混疊消除操作,例如交疊和加法,和/或合成側(cè)加窗操作來 最終獲得輸出音頻信號。傳統(tǒng)上,有效語音編碼基于線性預(yù)測編碼(LPC),對人類聲帶的共振效果進行建 模,并且基于殘差激勵信號的有效編碼。LPC參數(shù)及激勵參數(shù)二者從編碼器傳輸至解碼器。 第17a圖和第17b圖示出了本原理。第17a圖指示基于線性預(yù)測編碼的編碼/解碼系統(tǒng)的編碼器側(cè)。將語音輸入輸入 到LPC分析器1701中,LPC分析器1701在其輸出處提供LPC濾波器系數(shù)?;谶@些LPC濾 波器系數(shù),調(diào)整LPC濾波器1703。LPC濾波器輸出頻譜白化的音頻信號,也稱作為“預(yù)測誤 差信號”。將該頻譜白化音頻信號輸入到殘差/激勵編碼器1705,殘差/激勵編碼器1705 產(chǎn)生激勵參數(shù)。因此,語音輸入信號一方面被編碼成激勵參數(shù),而另一方面被編碼成LPC系 數(shù)。在第17b圖所示解碼器側(cè)上,激勵參數(shù)輸入激勵解碼器1707,激勵解碼器1707產(chǎn) 生激勵信號,將該激勵信號輸入到LPC合成濾波器中。使用所傳輸?shù)腖PC濾波器系數(shù)來調(diào) 整LPC合成濾波器。如此,LPC合成濾波器1709產(chǎn)生重構(gòu)或合成的語音輸出信號。隨著時間的經(jīng)過,關(guān)于殘差(激勵)信號的有效且感知上動聽的呈現(xiàn)提出了多種 方法,諸如多脈沖激勵(MPE)、規(guī)則脈沖激勵(RPE)、以及代碼激勵線性預(yù)測(CELP)。線性預(yù)測編碼試圖基于觀察特定數(shù)目的過去值作為過去觀察的線性組合,來產(chǎn)生 序列目前采樣值的估計。為了減少輸入信號的冗余,編碼器LPC濾波器將其頻譜包絡(luò)中的 輸入信號“白化”,即,信號的頻譜包絡(luò)的反相模型。相反地,解碼器LPC合成濾波器是信號 的頻譜包絡(luò)的模型。特別,已知眾所周知的自動回歸(AR)線性預(yù)測分析利用全極點近似值 來對信號的頻譜包絡(luò)進行建模。典型地,窄帶語音編碼器(即,具有8kHz采樣率的語音編碼器)采用具有8至12 階之間的LPC濾波器。由于LPC濾波器的本質(zhì),均勻頻率分辨率在全頻率范圍上有效。著 并不與感知頻率標度相對應(yīng)。為了組合傳統(tǒng)基于LPC/CELP編碼(用于語音信號的質(zhì)量為最佳)與傳統(tǒng)基于濾 波器組的感知音頻編碼辦法(用于音樂信號的質(zhì)量為最佳)的強度,已經(jīng)提出了這些架 構(gòu)之間的組合編碼。在AMR-WB+(AMR-WB =自適應(yīng)多速率寬帶)編碼器中,B. Bessette, R.Lefebvre, R.Salami,"UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES, ”,Proc. IEEE ICASSP 2005,301-304 頁 2005 年,兩種交錯編碼核對 LPC 殘差 信號進行操作。一種基于ACELP(ACELP =代數(shù)代碼激勵線性預(yù)測),因此對于語音信號的編 碼非常有效。另一種編碼核是基于TCX(TCX =變換編碼激勵),即,基于濾波器組的編碼方 法類似傳統(tǒng)音頻編碼技術(shù),以便實現(xiàn)音樂信號的良好質(zhì)量。依據(jù)輸入信號的特性,短時間段 選擇兩種編碼模式之一來傳輸LPC殘差信號。這樣,將80毫秒持續(xù)時間的幀拆分成40毫 秒或20毫秒的子幀,其中在兩種編碼模式之間作判定。AMR-WB+ (AMR-ffB+ =擴充自適應(yīng)性多速率寬帶編碼解碼器),例如參考3GPP (3GPP =第三代伙伴計劃)技術(shù)說明書號碼26.四0,版本6. 3. 0,2005年6月可以在兩種實質(zhì)上不 同的模式ACELP與TCX之間切換。在ACELP模式中,時域信號由代數(shù)代碼激勵來編碼。在 TCX模式中,使用快速傅立葉變換(FFT =快速傅立葉變換),并且基于向量量化編碼,來編 碼LPC加權(quán)信號(由該信號在解碼器處導(dǎo)出激勵信號)的頻譜值。
通過嘗試和解碼兩個選項且比較獲得的信噪比(SNR =信噪比),可以判定使用哪 一個模式。此種情況也稱作為閉環(huán)判定,原因在于有閉合控回路,分別評估編碼性能和/或 效率,及然后通過丟棄另一個而選擇有較佳SNR的一個。眾者周知對音頻和語音編碼應(yīng)用,沒有加窗的塊變換是不可行的。因此對TCX模 式,利用具有1/8交疊的低交疊窗對進行加窗。該交疊區(qū)是必要的,以便淡出先前塊或幀, 同時淡入下一個塊或幀,例如用來抑制連續(xù)音頻幀中因不相關(guān)量化噪聲所造成的偽像。這 樣,與非臨界采樣可比的開銷保持合理地低量,且閉環(huán)判定所需解碼重構(gòu)當前幀的至少7/8 的采樣。在TCX模式中,AMR-WB+導(dǎo)入1/8的開銷,即,要編碼的頻譜值數(shù)目比輸入采樣數(shù) 目高1/8。這產(chǎn)生增加數(shù)據(jù)開銷的缺點。此外,由于連續(xù)幀的1/8陡峭交疊區(qū),對應(yīng)帶通濾 波器的頻率響應(yīng)是有缺陷的。為了對連續(xù)幀的代碼開銷和交疊作更進一步說明,第18圖示出了窗參數(shù)的定義。 第18圖所示窗在左手側(cè)有上升沿部分,表示為“L”,也稱作為左交疊區(qū);中心區(qū)表示為“1”, 也稱作為1區(qū)或旁路部分;以及下降沿部分,表示為“R”,也稱作為右交疊區(qū)。此外,第18圖 示出了指示幀內(nèi)理想重構(gòu)區(qū)“PR”的箭頭。第18圖示出了指示變換核的長度的箭頭,表示 為 “T”。第19圖示出了 AMR-WB+窗序列的視圖,在底部示出了根據(jù)第18圖的窗參數(shù)表。第 19圖頂部所示窗序列為ACELP、TCX20 (用于20毫秒持續(xù)時間的幀)、TCX20、TCX40 (用于40 毫秒持續(xù)時間的幀)、TCX80 (用于80毫秒持續(xù)時間的幀)、TCX20、TCX20、ACELP、ACELP。根據(jù)該窗序列,可以看到變化的交疊區(qū),該交疊區(qū)與正好交疊了中心部分M的 1/8。在第19圖底部的表也示出了變換長度“T”始終比新理想重構(gòu)的采樣“PR”區(qū)大1/8。 此外,應(yīng)注意,不僅對ACELP至TCX變化為如此,對TCXx至TCXx (此處“X”指示任意長度的 TCX幀)變換亦如此。如此,在每個塊中,導(dǎo)入1/8開銷,S卩,永遠不會達到臨界采樣。當從TCX切換至ACELP時,在交疊區(qū)中從FFT-TCX幀丟棄窗采樣,例如在第19圖 頂部以1900標記的區(qū)所示。當從ACELP切換至TCX時,同樣如第19圖頂部以虛線1910指 示的加窗零輸入響應(yīng)(Z^=零輸入響應(yīng))在編碼器處被移除以用于加窗,而在解碼器處被 加入以用于恢復(fù)。當從TCX切換至TCX幀時,加窗采樣用于交叉衰減。由于可以以不同方 式對TCX幀進行量化,連續(xù)幀之間量化誤差或量化噪聲可以不同和/或無關(guān)。當從一個幀 切換至下一幀而無交叉衰減時,可能出現(xiàn)顯著偽像,需要交叉衰減來實現(xiàn)特定質(zhì)量。從第19圖底部的表可以看到,交叉衰減區(qū)隨著幀長度的增加而增加。第20圖提 供另一個表,示意AMR-WB+中可能的轉(zhuǎn)變的不同窗。當從TCX轉(zhuǎn)變至ACELP時,可以拋棄交 疊采樣。當從ACELP轉(zhuǎn)變至TCX時,來自ACELP的零輸入響應(yīng)在編碼器處被移除,并在解碼 器處增加以用于恢復(fù)。AMR-WB+的顯著缺點為始終導(dǎo)入1/8開銷。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種音頻編碼的更有效的構(gòu)想。該目的可以通過根據(jù)權(quán)利要求1所述的音頻編碼器、根據(jù)權(quán)利要求14所述的用于音頻編碼的方法、根據(jù)權(quán)利要求16所述的音頻解碼器、以及根據(jù)權(quán)利要求25所述的用于音 頻解碼的方法來實現(xiàn)。本發(fā)明的實施例基于以下發(fā)現(xiàn)如果例如使用時間混疊導(dǎo)入變換用于TCX編碼, 則可以執(zhí)行更有效的編碼。時間混疊導(dǎo)入變換允許實現(xiàn)臨界采樣,而同時仍能夠在相鄰幀 之間交叉衰減。例如,在一個實施例中,修改的離散余弦變換(MDCT =修改的離散余弦變 換)用于將交疊時域幀變換至頻域。由于該特定變換對于2N個時域采樣產(chǎn)生N個頻域采 樣,則即使時域幀較低50%,仍可以維持臨界采樣。在解碼器或時間混疊導(dǎo)入逆變換處,交 疊和加法級適合于組合時間混疊交疊采樣與逆變換的時域采樣,因而可以進行時域混疊消 除(TDAC=時域混疊消除)。實施例可以使用在利用低交疊窗的切換頻域和時域編碼(例如AMR-WB+)的上下 文中。實施例可以使用MDCT替代非臨界采樣的濾波器組。這樣,基于例如MDCT的臨界采 樣特性可以有利地降低因非臨界采樣導(dǎo)致的開銷。此外,可能有較長的交疊,而不會導(dǎo)入額 外開銷。實施例可以提供優(yōu)點,基于較長的交疊,可更平滑地進行交叉衰減,換言之可以在 解碼器處提高聲音質(zhì)量。在一個詳細實施例中,在AMR-WB+TCX模式中FFT可以由MDCT來代替,同時保持 AMR-WB+的功能,尤其是,基于閉環(huán)或開環(huán)判定的ACELP模式與TCX模式之間的切換。實施例 針對ACELP幀后的第一個TCX幀可以使用非臨界采樣方式的MDCT,隨后針對所有后續(xù)TCX 幀可以使用臨界采樣方式的MDCT。實施例可以使用類似未經(jīng)修改AMR-WB+、具有低交疊窗 的MDCT,保持閉環(huán)判定的特征,但具有較長的交疊。這可以提供與未經(jīng)修改的TCX窗相比更 佳的頻率響應(yīng)的優(yōu)勢。
將使用
本發(fā)明的實施例的細節(jié),在附圖中 第1圖示出了音頻編碼器的實施例; 第圖示出了用于時域混疊導(dǎo)入變換的實施例的方程; 第3a圖示出了音頻編碼器的另一個實施例; 第北圖示出了音頻編碼器的另一個實施例; 第3c圖示出了音頻編碼器的又一個實施例; 第3d圖示出了音頻編碼器的又一個實施例; 第如圖示出了用于濁音語音的時域語音信號的采樣; 第4b圖示意了濁音語音信號采樣的頻譜; 第fe圖示意了清音語音的采樣的時域信號; 第恥圖示出了清音語音信號的采樣的頻譜; 第6圖示出了合成分析CELP的實施例;
第7圖示意了提供短期預(yù)測信息和預(yù)測誤差信號的編碼器側(cè)ACELP級; 第8a圖示出了音頻編碼器的實施例; 第8b圖示出了音頻編碼器的另一個實施例; 第8c圖示出了音頻編碼器的另一個實施例; 第9圖示出了窗函數(shù)的實施例;
第10圖示出了窗函數(shù)的另一個實施例;第11圖示出了現(xiàn)有技術(shù)窗函數(shù)和實施例的窗函數(shù)的圖示和延遲圖;第12圖示意了窗參數(shù);第13a圖示出了窗函數(shù)序列和對應(yīng)的窗參數(shù)表;第13b圖示出了基于MDCT的實施例可能轉(zhuǎn)變;第14a圖示出了實施例中可能轉(zhuǎn)變的表;第14b圖示意了根據(jù)一個實施例的從ACELP轉(zhuǎn)變至TCX80的轉(zhuǎn)變窗;第14c圖示出了根據(jù)一個實施例的從TCXx幀至TCX20幀至TCXx幀的轉(zhuǎn)變窗的實 施例;第14d圖示意了根據(jù)一個實施例的從ACELP至TCX20的轉(zhuǎn)變窗的實施例;第14e圖示出了根據(jù)一個實施例的從ACELP至TCX40的轉(zhuǎn)變窗的實施例;第14f圖示意了根據(jù)一個實施例由TCXx幀轉(zhuǎn)變至TCX80幀至TCXx幀的轉(zhuǎn)變窗的 實施例;第15圖示意了根據(jù)一個實施例的ACELP至TCX80的轉(zhuǎn)變;第16圖示意了傳統(tǒng)編碼器和解碼器示例;第17a,b圖示意了 LPC編碼和解碼;第18圖示意了現(xiàn)有技術(shù)交叉衰減窗;第19圖示意了現(xiàn)有技術(shù)的AMR-WB+窗序列;第20圖示意了 AMR-WB+中用于在ACELP和TCX之間傳輸?shù)拇啊?br>
具體實施例方式在下文中,將詳細描述本發(fā)明的實施例。應(yīng)注意,下列實施例不應(yīng)限制本發(fā)明的范 圍,反而應(yīng)視為多個不同實施例之中可能的實現(xiàn)或?qū)崿F(xiàn)方式。第1圖示出了適合于編碼采樣音頻信號幀來獲得編碼幀的音頻編碼器10,其中, 幀包含多個時域音頻采樣。音頻編碼器10包含預(yù)測編碼分析級12用于測定與合成濾波 器的系數(shù)有關(guān)的信息;以及基于音頻采樣幀的預(yù)測域幀,例如該預(yù)測域幀可以基于激勵幀, 該預(yù)測域幀可以包含LPC域信號的采樣或加權(quán)采樣,由此可以獲得合成濾波器的激勵信 號。換言之,在實施例中,預(yù)測域幀可以基于激勵幀,激勵幀包含合成濾波器的激勵信號的 采樣。在實施例中,預(yù)測域幀可以與激勵幀的濾波版本相對應(yīng)。例如感知濾波可應(yīng)用于激 勵幀,來獲得預(yù)測域幀。在其它實施例中,高通濾波或低通濾波可以應(yīng)用于激勵幀,來獲得 預(yù)測域幀。又一實施例中,預(yù)測域幀可以直接與激勵幀相對應(yīng)。音頻編碼器10進一步包含時間混疊導(dǎo)入變換器14,時間混疊導(dǎo)入變換器14用于 將交疊預(yù)測域幀變換至頻域而獲得預(yù)測域幀頻譜,其中,該時間混疊導(dǎo)入變換器14適合于 以臨界采樣方式變換交疊預(yù)測域幀。音頻編碼器10進一步包含冗余減少編碼器16,冗余減 少編碼器16用于編碼該預(yù)測域幀頻譜,來獲得基于系數(shù)的已編碼幀以及已編碼預(yù)測域幀 頻譜。冗余減少編碼器16可以適用于使用霍夫曼編碼或熵編碼,以便編碼預(yù)測域幀頻 譜和/或與系數(shù)有關(guān)的信息。在實施例中,時間混疊導(dǎo)入變換器14可以適于變換交疊預(yù)測域幀,使得預(yù)測域幀頻譜采樣的平均數(shù)目等于預(yù)測域幀中采樣的平均數(shù)目,從而實現(xiàn)臨界采樣變換。此外,時間 混疊導(dǎo)入變換器14可以適于根據(jù)修改的離散余弦變換(MDCT =修改的離散余弦變換),來 變換交疊預(yù)測域幀。在下文中,通過第圖所示意的方程進一步詳細說明MDCT。修改的離散余弦 變換(MDCT)為基于IV型離散余弦變換(DCT-IV =離散余弦變換型IV)的傅立葉相關(guān)變 換,具有額外重迭性質(zhì),即,被設(shè)計成在大型數(shù)據(jù)集合的連續(xù)塊上執(zhí)行,其中,后續(xù)塊是交疊 的,使得例如一個塊的后半部分與下一個塊的前半部分一致。除了 DCT的能量精簡質(zhì)量之 外,此種交疊使得MDCT對于信號壓縮應(yīng)用特別具有吸引力,原因在于有助于避免因塊邊界 所造成的偽像。因此,例如,在MP3 (MP3 = MPEG2/4層3)、AC-3 (AC-3 =杜比音頻編碼解碼 器3)、Ogg Vorbis,以及AAC(AAC =高級音頻編碼)中采用DMCT以用于音頻壓縮。MDCT由Princen、Johnson和Bradley于1洲7年提出,遵循更早期(I986年)由 Princen及Bradley開發(fā)MDCT的時域混疊消除(TDAC)基本原理的工作,容后進一步詳述。 也存在有基于離散正弦變換的類似變換,亦即MDST,及其它不常用的基于不同類型DCT或 DCT/DST(DST =離散正弦變換)組合的MDCT,這也可用于時間混疊導(dǎo)入變換器14的實施 例。在MP3中,MDCT不能直接應(yīng)用于音頻信號,而是應(yīng)用于32頻帶多相正交濾波器 (PQF=多相正交濾波器)組的輸出。該MDCT的輸出由混疊減少公式進行后處理,來減少 PQF濾波器組的典型混疊。濾波器組與MDCT的這種組合稱作為混合濾波器組或子帶MDCT。 另一方面,AAC通常使用純粹MDCT ;只有(很少使用的)MPEG-4 AAC-SSR變型(Sony公司) 在MDCT之前使用四頻帶PQF組。ATRAC (ATRAC =自適應(yīng)變換音頻編碼)在MDCT之前使用 堆疊的正交鏡像濾波器(QMF)。至于重迭變換,MDCT與其它傅立葉相關(guān)變換相比有點不尋常,原因在于其輸出是 輸入的一半(而非相等)。具體地,MDCT為線性函數(shù)F :R2N->RN,此處R表示實數(shù)集合。2N 個實數(shù)&,...,X2n^1根據(jù)第加圖的公式變換成N個實數(shù)&,...,Xm 0在該變換之前的歸一化系數(shù)(此處為1),為任意慣用的系數(shù),在相應(yīng)處理之間不 同。只有后文MDCT與IMDCT的歸一化乘積是受限制的。逆MDCT稱作為IMDCT。由于有不同數(shù)目的輸入和輸出,最初可能認為MDCT應(yīng)該是 不可逆的。然而,通過增加隨后交疊塊的交疊的IMDCT,使得消除誤差,獲取原始數(shù)據(jù),可實 現(xiàn)理想的可逆性;本技術(shù)稱作為時域混疊消除(TDAC)。IMDCT根據(jù)第沘圖的公式將N個實數(shù))(。,...,Xn^1變換成2N個實數(shù)yQ,. . .,y2N_lt) 類似DCT-IV的正交變換,逆變換與正相變換具有相同形式。在有一般窗歸一化的加窗MDCT的情況下(參見后文),在IMDCT之前的歸一化系 數(shù)可以乘以2,亦,即變成2/N。雖然MDCT公式的直接應(yīng)用要求0 (N2)次運算,但可如同于快速傅立葉變換(FFT), 通過遞歸地將計算分解為簡單計算,而只以0 (N log N)復(fù)雜度來計算。也可以經(jīng)過與其它 變換(典型為DFT (FFT)或DCT)組合O(N)前處理步驟及后處理步驟來計算MDCT。同樣,如 下所述,針對DCT-IV的任何算法即刻提供運算一致尺寸的MDCT的IMDCT的方法。在典型信號壓縮應(yīng)用中,使用窗函數(shù)Wn (n = 0,... 2N-1)來進一步提高變換特性, 該窗函數(shù)在前述MDCT公式和IMDCT公式中乘以^和yn,以便讓該函數(shù)在那些點處平滑變成零,以避免η = 0和η = 2Ν邊界處的不連續(xù)。換言之,在MDCT之前且在IMDCT之后,對 數(shù)據(jù)加窗。原則上,χ和1能夠具有不同的窗函數(shù),窗函數(shù)也可以從一個塊到下一個塊而變 化,特別對組合不同尺寸的數(shù)據(jù)塊的情況尤為如此,但為簡化起見,首先考慮相等尺寸的塊 的相同窗函數(shù)的情況。變換保持可逆,即,針對對稱窗Wn = w2N+n,可進行TDAC,只要w滿足根據(jù)第2c圖 的 Princen-Bradley 條件。常見多種不同窗函數(shù),在用于MP3和MPEG-2 AAC的第2d圖以及在用于Vorbis的 第2e圖中給出了示例。AC-3使用導(dǎo)出的Kaiser-Bessel (KBD =導(dǎo)出的Kaiser-Bessel) 窗,MPEG-4 AAC也可以使用KBD窗。注意應(yīng)用于MDCT的窗與用于其它類型信號分析的窗不同,原因在于其必須滿足 Princen-Bradley條件。該差異的理由之一在于,針對MDCT (分析濾波器)和IMDCT (合成 濾波器)兩次應(yīng)用MDCT窗。觀察定義可以看出,對于偶數(shù)N,MDCT實質(zhì)上等于DCT-IV,其中,輸入信號位移 N/2, 一次變換兩個數(shù)據(jù)N塊。通過該更小心檢驗此種相等情況,容易導(dǎo)出類似TDAC的重要 特性。為了定義與DCT-IV的精確關(guān)系,必須實現(xiàn)DCT-IV與交錯偶/奇邊界條件相對應(yīng), 其左邊界為偶數(shù)(約為η = -1/2),其右邊界為奇數(shù)(約為η = Ν-1/2),以此類推(替代關(guān) 于DFT的周期性邊界)。這遵照第2f圖示出了的恒等式。因此,如果其輸入為長度N的數(shù) 組X,可設(shè)想將該數(shù)組擴充至(X、iK、-XjK、...)等,其中,如表示與χ順序相反??紤]有2N個輸入和N個輸出的MDCT,其中,可以將輸入劃分成四個塊(a、b、c、d), 每個塊大小為Ν/2。如果這些塊位移Ν/2(根據(jù)MDCT定義中的+Ν/2項),則(b、c、d)擴充 超過N個DCT-IV輸入的末端,因此根據(jù)上述邊界條件(b、c、d)被必須“折疊”。因此,2N個輸入(a、b、c、d)的 MDCT 恰等于 N 個輸入的 DCT-IV (-cK_d、a_bK),其 中R表示如前述的逆。這樣,任何計算DCT-IV的算法則一般可應(yīng)用于MDCT。類似地,如前述的IMDCT公式恰為DCT-IV的1/2 (本身的逆),其中輸出位移N/2 且擴充(經(jīng)由邊界條件)至長度2N。逆DCT-IV簡單回到前文說明的輸入(-cK-d、a-bE)。 當經(jīng)由邊界條件位移和擴充時,獲得第2g圖所示結(jié)果。因此,IMDCT輸出的一半為冗余。現(xiàn)在了解TDAC如何操作。假設(shè)運算后續(xù)50 %交疊的2N塊(c、d、e、f)的MDCT。 則類似前文IMDCT將獲得(-CfcUd-c^e+f^eZf)/^。當這與一半交疊的先前IMDCT結(jié)果 相加時,相反的各項互相抵消,獲得簡單(c、d),恢復(fù)原始數(shù)據(jù)?,F(xiàn)在已經(jīng)明白“時域混疊消除” 一詞的起源。使用擴充超過邏輯DCT-IV邊界的 輸入數(shù)據(jù),以與引起超過尼奎斯特(Nyquist)頻率的頻率混疊至較低頻的相同方式混疊數(shù) 據(jù),但該混疊發(fā)生于時域而非發(fā)生于頻域。因此組合c-dK等,在相加時對于要消除的組合 具有精確的正號。對于奇數(shù)N(實際上很少使用),N/2并非整數(shù),因此MDCT不是簡單的DCT-IV位移 置換。此種情況下,半個采樣的額外位移表示MDCT/IMDCT變成等于DCT-II1/11,而分析系 類似前文。以上,已經(jīng)對普通MDCT證實TDAC特性,示出了在它們一半交疊部分中加上后續(xù)塊 的IMDCT可以恢復(fù)原始數(shù)據(jù)。這種加窗MDCT的逆特性的導(dǎo)出只略微較復(fù)雜。
由前文回想,當對(a, b,c,d)和(c,d,e,f)進行MDCT、IMDCT,且對它們一半交疊 部分進行相加,獲得(c+dK,cE+d)/2+(c-dE, d-cE)/2 = (c,d),即原始數(shù)據(jù)。現(xiàn)在假設(shè)將MDCT輸入和IMDCT輸出乘以長度2N的窗函數(shù)。如前文說明,假設(shè)對稱 窗函數(shù),因此具有形式(W,z, zK,wK),此處《和2為長度-N/2向量,R表示如前述的逆。則 Princen-Bradley條件可寫成W2 + 4 = (1,1,),乘法和加法逐元素進行,或相等地w%+Z2= (1,1,...)對w和ζ取反。因此,替代對(a、b、c、d)進行MDCT,對(wa、zb、zKc、wEd)進行MDCT,全部乘法逐 元素進行。當對上述進行IMDCT且再次與窗函數(shù)相乘(逐元素)時,后N半部分結(jié)果如第 2h圖所示。注意不再進行與1/2的乘法,原因在于在加窗情況下,IMDCT歸一化相差2倍。類 似地,(c,d,e, f)的加窗MDCT和IMDCT在前N半部分獲得根據(jù)第2i圖所示結(jié)果。當這兩 半部分加在一起時,獲得第2j圖的結(jié)果,恢復(fù)原始數(shù)據(jù)。第3a圖示出了音頻編碼器10的另一個實施例。在第3a圖所示實施例中,時間混 疊導(dǎo)入變換器14包含加窗濾波器17,對交疊預(yù)測域幀應(yīng)用窗函數(shù);以及變換器18,用于 將加窗交疊預(yù)測域幀轉(zhuǎn)換成預(yù)測域頻譜。根據(jù)前述的多個窗函數(shù)可設(shè)想的,其中部分函數(shù) 如后進一步詳細說明。第: 圖示出了音頻編碼器10的另一個實施例。在第: 圖所示實施例中,時間混 疊導(dǎo)入變換器14包含處理器19 用于檢測事件,且若檢測到事件時提供窗序列信息,并且 加窗濾波器17適于根據(jù)窗序列信息應(yīng)用窗函數(shù)。例如,可以依據(jù)從采樣音頻信號幀分析得 的特定信號特性發(fā)生事件。例如可以根據(jù)信號、音調(diào)、瞬變等自相關(guān)特性,應(yīng)用不同的窗長 度或不同的窗邊緣等。換言之,因采樣音頻信號幀的不同性質(zhì),可能發(fā)生不同事件,處理器 19可依據(jù)該音頻信號幀的特性而提供不同的窗序列。后文將說明窗序列的序列及參數(shù)的進 一步細節(jié)。第3c圖示出了音頻編碼器10的另一個實施例。在第3d圖所示實施例中,預(yù)測域 幀不僅提供給時間混疊導(dǎo)入變換器14同時也提供給碼簿編碼器13,碼簿編碼器13適于基 于預(yù)定碼簿來編碼預(yù)測域幀,從而獲得碼簿編碼幀。此外,第3c圖所示實施例包含判定 器,用于基于編碼效率獨立判定使用碼簿編碼幀還是編碼幀來獲得最終編碼幀。第3c圖所 示實施例也稱作閉合情況。在這種情況下,判定器15能夠從兩個分支獲得編碼幀,一個分 支基于變換,而另一個分支基于碼簿。為了確定編碼效率度量,判定器可以解碼來自二個分 支的編碼幀,然后經(jīng)由評估來自不同分支的誤差統(tǒng)計,而確定編碼效率度量。換言之,判定器15適于進行與編碼過程相反的操作,即針對兩個分支進行全解 碼。已經(jīng)對幀進行完全解碼之后,判定器15適于比較已解碼采樣與原始采樣,如第3c圖以 虛線箭頭指示。在第3c圖所示實施例中,還向判定器15提供預(yù)測域幀,利用該預(yù)測域幀使 得能夠?qū)碜匀哂鄿p少編碼器16的編碼幀進行解碼,也可以對來自碼簿編碼器13的碼簿 編碼幀進行解碼,且將結(jié)果與先前已編碼的預(yù)測域幀相比較。在一個實施例中,經(jīng)由比較差 異,可以確定例如信噪比或統(tǒng)計誤差或最小誤差等編碼效率度量。在一些實施例中,也與相應(yīng)碼率有關(guān),即編碼幀所需的比特數(shù)目。然后判定器15適于基于該編碼效率度量,選擇來 自冗余減少編碼器16的編碼幀或碼簿編碼幀作為最終編碼幀。第3d圖示出了音頻編碼器10的另一個實施例。在第3d圖所示實施例中,存在耦 合至判定器15的開關(guān)20,開關(guān)20用于基于編碼效率度量在時間混疊導(dǎo)入變換器14與碼 簿編碼器13之間切換預(yù)測域幀。判定器15適于基于采樣音頻信號的幀來確定編碼效率度 量,以便確定開關(guān)20的位置,即,使用具有時間混疊導(dǎo)入變換器14和冗余減少編碼器16的 基于變換的編碼分支,或使用具有碼簿編碼器13的基于碼簿的編碼分支。如前文說明,編 碼效率度量可以基于采樣音頻信號幀的特性來確定,即,音頻特性的本身,例如該幀是更像 音調(diào)還是更像噪聲。第3d圖所示實施例的配置也稱作為開環(huán)組態(tài)配置,原因在于判定器15可以基于 輸入幀進行判定,而無須得知相應(yīng)編碼分支的結(jié)果。在又一實施例中,判定器可以基于預(yù)測 域幀進行判定,如第3d圖以虛線箭頭指示。換言之,在一個實施例中,判定器15可能并非 基于采樣音頻信號幀進行判定,反而基于預(yù)測域幀進行判定。后文將舉例說明判定器15的判斷過程??傮w上,經(jīng)由應(yīng)用信號處理操作,可以在 音頻信號的脈沖狀部分與穩(wěn)態(tài)信號的穩(wěn)態(tài)部分之間區(qū)別,其中測量脈沖狀特性,也測量穩(wěn) 態(tài)狀特性。這種測量例如可經(jīng)由分析音頻信號的波形進行。為了達成此項目的,可進行任 何基于變換的處理或LPC處理或任何其它處理。一種直觀方式是確定該部分是否為脈沖 狀,例如觀察時域波形,且確定此時域波形在規(guī)則間隔還是在或不規(guī)則間隔具有波峰,規(guī)則 間隔的波峰甚至更適合于語音狀編碼器,即碼簿編碼器。注意,甚至在語音內(nèi)部可區(qū)別濁音 部分和清音部分。碼簿編碼器13對于濁音信號部分或濁音幀更有效,其中,包含時間混疊 導(dǎo)入變換器14和冗余減少編碼器16的基于變換的分支更適合于清音幀。通?;谧儞Q的 編碼也更適合于穩(wěn)態(tài)信號,而非語音信號。示例性地,分別參考第如和4b圖、第fe和第恥圖。舉例說明討論脈沖狀信號節(jié) 段或信號部分及穩(wěn)態(tài)信號節(jié)段或信號部分??傮w上,判定器15適于基于不同標準判定例如 穩(wěn)態(tài)、瞬變、頻譜白度等。后文將示出示例標準作為實施例的一部分。具體地,說明于第如 圖的時域和第4b圖的頻域中示出了濁音語音,并且討論作為脈沖狀信號部分的示例,而結(jié) 合第fe和恥圖討論作為穩(wěn)態(tài)信號部分的示例的清音語音節(jié)段。語音通常可分類為濁音、清音或混合。在第如、仙、如和恥圖中示出了采樣的濁音 節(jié)段和清音節(jié)段的時域和頻域圖。濁音語音在時域中為準周期性,而在頻域為諧波結(jié)構(gòu)的; 而清音語音為類似于隨機的且寬帶。此外,濁音節(jié)段的能量通常高于清音節(jié)段的能量。濁 音語音的短期頻譜以其精細和共振峰結(jié)構(gòu)表征。精細諧波結(jié)構(gòu)是語音的準周期性的結(jié)果, 且可歸因于聲帶的振動。共振峰結(jié)構(gòu)也稱作為頻譜包絡(luò),是由于聲音來源與聲道交互作用 的結(jié)果。聲道包含咽及口腔。“適合”池音語音的短期頻譜的頻譜包絡(luò)的形狀與聲道和由于 聲門脈沖導(dǎo)致頻譜傾斜(6分貝/八音度)的傳輸特性相關(guān)聯(lián)。頻譜包絡(luò)由一組稱作為共振峰得波峰表征。共振峰為聲道的共振模式。一般聲道 有3至5個低于5kHz的共振峰。通常出現(xiàn)低于3kHz的前三個共振峰的振幅和位置就語音 的合成和感知而言相當重要。較高共振峰對寬帶和清音語音的呈現(xiàn)相當重要。語音的特性 與物理語音產(chǎn)生系統(tǒng)相關(guān),說明如下。以振動聲帶產(chǎn)生的準周期性聲門空氣脈沖激勵聲道, 產(chǎn)生濁音語音。周期性脈沖的頻率稱作為基本頻率或音高。強制空氣通過聲道的狹窄部分產(chǎn)生清音語音。鼻音是由于鼻道與聲道的聲學(xué)耦合的結(jié)果,而爆破音由突然間減少堆積于 聲道閉合處后方的空氣壓而產(chǎn)生。因此,音頻信號的穩(wěn)態(tài)部分可為如第fe圖所示時域的穩(wěn)態(tài)部分或于頻率的穩(wěn)態(tài) 部分,由于時域的穩(wěn)態(tài)部分并未示出了持久重復(fù)脈沖,故系與第如圖所示脈沖狀部分不 同。如后詳述,穩(wěn)態(tài)部分與脈沖狀部分之間的差異也使用LPC方法進行,該方法對聲道和聲 道的激勵建模。當考慮信號的頻域時,脈沖狀信號示出了各個單獨共振峰的主要表現(xiàn),即第 4b圖的主要峰,而穩(wěn)態(tài)頻譜具有如第恥圖所示的寬頻譜;或在諧波信號的情況下,具有相 當連續(xù)的本底噪聲,本底噪聲具有主峰,表示例如音樂信號中可能出現(xiàn)的特殊音調(diào),但不具 有如第4b圖中的脈沖狀信號的彼此間規(guī)則距離。此外,脈沖狀部分及穩(wěn)態(tài)部分可能以定時方式發(fā)生,即表示時間上音頻信號的一 部分為穩(wěn)態(tài),而時間上音頻信號的另一部分為脈沖狀。備選或此外,信號的特性在不同頻帶 可能不同。如此,音頻信號是穩(wěn)態(tài)還是脈沖狀的確定也可以頻率選擇進行,使得特定頻帶或 若干個頻帶被視為穩(wěn)態(tài),而其它頻帶被視為脈沖狀。此種情況下,音頻信號的特定時間部分 包括脈沖狀部分或穩(wěn)態(tài)部分?;仡^參考第3d圖所示實施例,判定器15可以分析音頻幀、預(yù)測域幀或激勵信號, 以便確定其是脈沖狀(即,更適合于碼簿編碼器13),還是穩(wěn)態(tài)(即更適于基于變換的編碼 分支)。隨后將就第6圖討論合成分析的CELP編碼器。CELP編碼器的細節(jié)也參考“Speech Coding :A tutorial review,,,Andreas Spaniers, IEEE 會議,84 卷,第 10 期,1994 年 10 月,1541-1582頁。第6圖所示CELP編碼器包括長期預(yù)測組件60和短期預(yù)測組件62。此 外,使用以64指示的碼簿。在66處實現(xiàn)感知加權(quán)濾波器W(Z),在68處提供誤差最小化控 制器。s(n)為輸入音頻信號。在被感知加權(quán)后,將加權(quán)的信號輸入到減法器69中,減法器 69計算加權(quán)合成信號(方塊66的輸出)與實際加權(quán)預(yù)測誤差信號Sw(η)間的誤差。通常短期預(yù)測A(Z)由LPC分析級計算,容后詳述。依據(jù)該信息,長期預(yù)測包 括長期預(yù)測增益b和延遲T (也稱作為音高增益和音高延遲)。CELP算法則使用例如高斯 序列的碼簿編碼激勵或預(yù)測域幀。ACELP算法則,其中“A”表示具有特定代數(shù)設(shè)計的碼簿的 “代數(shù)”。碼簿含有或多或少個向量,其中每個向量具有根據(jù)采樣數(shù)目的長度。增益因子g 縮放激勵向量,而激勵采樣由長期合成濾波器和短期合成濾波器來濾波。選擇“最優(yōu)“向量, 使得最小化感知加權(quán)均方誤差。CELP的搜索過程根據(jù)第6圖示例說明的合成分析方案變得 顯而易見。須注意,第6圖只示例說明分析合成CELP的示例,該實施例不限于第6圖所示 結(jié)構(gòu)。在CELP中,長期預(yù)測器經(jīng)常實施為含有前激勵信號的自適應(yīng)碼簿。長期預(yù)測延遲 和增益由自適應(yīng)碼簿索引和增益表示,也通過最小化均方加權(quán)誤差來選擇。在此種情況下, 激勵信號由兩個增益縮放的向量相加所組成,一個向量來自自適應(yīng)碼簿而另一個向量來自 固定碼簿。AMR-WB+的感知加權(quán)濾波器基于LPC濾波器,因此感知加權(quán)信號為LPC域信號形 式。在AMR-WB+中使用的變換域編碼器中,變換應(yīng)用于已加權(quán)信號。在解碼器處,通過由反 合成和加權(quán)濾波器所組成的濾波器對已解碼加權(quán)信號進行濾波,獲得激勵信號。重構(gòu)的TCX目標x(n)可以通過零態(tài)逆加權(quán)合成濾波器來濾波A(Z)Cl-OZ-1)//ikz/λ))來找出可應(yīng)用于合成濾波器的激勵信號。注意在濾波中使用每子幀或每幀的插值 LP濾波器。一旦確定激勵,可以通過合成濾波器1/人濾波激勵信號,以及然后例如通過濾波 器1/(1-0. 68Z-1)濾波去加重而重構(gòu)該信號。注意激勵也可用來更新ACELP自適應(yīng)碼簿,允 許在后續(xù)幀中從TCX切換至ACELP。還應(yīng)注意,TCX合成的長度可以由TCX幀長度給出(不 含交疊)對1、2或3的mod[]分別為256、512或IOM采樣。隨后將根據(jù)第7圖的實施例,在相應(yīng)實施例中使用判定器15中的LPC分析及LPC 合成,討論預(yù)測編碼分析級12的實施例功能。第7圖示例說明LPC分析塊12的實施例的進一步細節(jié)。將音頻信號輸入到濾波 器確定塊,該濾波器確定塊確定濾波器信息A(Z),即與合成濾波器的系數(shù)有關(guān)的信息。對信 息進行量化,且輸出作為解碼器所需的短期預(yù)測信息。在減法器786中,輸入信號的當前采 樣,減去當前采樣的預(yù)測值,使得對于該采樣,在線784處產(chǎn)生預(yù)測誤差信號。注意預(yù)測誤 差信號也稱作為激勵信號或激勵幀(通常在編碼之后)。在第8a圖中示出了用于解碼編碼幀來獲得采樣音頻信號幀的音頻解碼器80的實 施例,其中幀包含多個時域采樣。音頻解碼器80包含冗余獲取解碼器82,冗余獲取解碼器 82用于解碼已編碼幀來獲得與合成濾波器的系數(shù)有關(guān)的信息和預(yù)測域幀頻譜,或預(yù)測頻譜 域幀。音頻解碼器80進一步包含時間混疊導(dǎo)入逆變換器84,用于將預(yù)測頻譜域幀變換至?xí)r 域而獲得交疊預(yù)測域幀,其中,時間混疊導(dǎo)入逆變換器84適于根據(jù)連續(xù)的預(yù)測域幀頻譜確 定交疊預(yù)測域幀。此外,音頻解碼器80包含交疊/加法組合器86,用于組合交疊預(yù)測域幀 而用于以臨界采樣方式獲得預(yù)測域幀。該預(yù)測域幀由基于LPC的加權(quán)信號組成。交疊/加 法組合器86也包括轉(zhuǎn)換器,用于將預(yù)測域幀轉(zhuǎn)換為激勵幀。音頻解碼器80進一步包含預(yù) 測合成級88,用以基于系數(shù)和激勵幀來確定合成幀。交疊/加法組合器86適于組合交疊預(yù)測域幀,使得預(yù)測域幀的采樣的平均數(shù)目等 于該預(yù)測域幀頻譜的采樣的平均數(shù)。在實施例中,反相時間混疊導(dǎo)入逆變換器84適于根據(jù) 前述細節(jié),根據(jù)IMDCT,將預(yù)測域幀頻譜變換至?xí)r域。在方塊86中,通常在“交疊/加法組合器”之后,在實施例中可選地存在“激勵恢 復(fù)”,第8a_c圖以括號中所示。在實施例中,交疊/加法可以在LPC加權(quán)域中進行,然后可 以通過逆加權(quán)合成濾波器進行濾波,將加權(quán)信號轉(zhuǎn)換成激勵信號。此外,在實施例中,預(yù)測合成級88適于基于線性預(yù)測,即LPC來確定幀。在第8b圖 中示出了音頻解碼器80的另一個實施例。第8b圖所示的音頻解碼器80示出了類似于第 8a圖所示音頻解碼器80的組件,然而,在實施例中,第8b圖所示時間混疊導(dǎo)入逆變換器84 進一步包含轉(zhuǎn)換器84a,用于將預(yù)測域幀頻譜轉(zhuǎn)換成轉(zhuǎn)換交疊預(yù)測域幀;加窗濾波器84b, 用于對轉(zhuǎn)換交疊預(yù)測域幀應(yīng)用加窗函數(shù)而獲得交疊預(yù)測域幀。第8c圖示出了具有類似于第8b圖所示的組件的音頻解碼器80的另一個實施例。 在第8c圖所示實施例中,時間混疊導(dǎo)入逆變換器84進一步包含處理器84c,用于檢測事 件,以及如果檢測到事件為加窗濾波器84b提供窗序列信息,并且加窗濾波器84b適于根據(jù)窗序列信息應(yīng)用加窗函數(shù)。該事件可為由編碼幀或任何輔助信息所導(dǎo)出的或所提供的指
7J\ ο在音頻編碼器10和音頻解碼器80的實施例中,相應(yīng)加窗濾波器17和84適于根 據(jù)窗序列信息應(yīng)用加窗函數(shù)。第9圖示出了一般矩形窗,其中該窗序列信息包含第一零 部分,其中該窗掩蔽采樣;第二旁路部分,其中幀(即預(yù)測域幀或交疊預(yù)測域幀)的采樣可 未經(jīng)修改地通過;以及第三零部分,其中再次掩蔽幀結(jié)束處的采樣。換言之,可應(yīng)用加窗函 數(shù),該加窗函數(shù)在第一零部分中抑制幀的多個采樣,在第二旁路部分通過采樣,然后在第三 零部分中抑制幀結(jié)束處的采樣。在上下文中,遏止也表示在窗的旁路部分的起點和/或結(jié) 束處附加零序列。第二旁路部分可使得加窗函數(shù)簡單具有1值,即采樣未經(jīng)修改而通過,即 加窗函數(shù)通過該幀的采樣切換。第10圖示出了加窗序列或加窗函數(shù)的另一個實施例,其中該加窗序列進一步包 含第一零部分與第二旁路部分之間的上升沿,及第二旁路部分與第三零部分之間的下降 沿。上升沿部分也視為淡入部分,而下降沿部分可視為淡出部分。在實施例中,第二旁路部 分包含絲毫也不修改LPC域幀的采樣的序列。換言之,基于MDCT的TCX可從算術(shù)解碼器請求多個量化頻譜系數(shù),lg,其系由最后 模式的mod□及l(fā)ast_lpd_mode值確定。這二值也定義將應(yīng)用于逆MDCT的窗長度和形狀。 窗可由三個部分組成,L個采樣的左側(cè)交疊部分、M個采樣的中間部分、以及R個采樣的右側(cè) 交疊部分。為了獲得長2*lg的MDCT窗,可在左側(cè)天界ZL個零及在右側(cè)添加觀個零。下表示出了針對若干實施例的根據(jù)last_lpd_m0de和mod[]的頻譜系數(shù)的數(shù)目
權(quán)利要求
1.一種適于編碼采樣音頻信號的幀來獲得編碼幀的音頻編碼器(10),其中,幀包括多 個時域音頻采樣,所述音頻編碼器包括預(yù)測編碼分析級(12),用于基于音頻采樣的幀確定與合成濾波器的系數(shù)有關(guān)的信息以 及預(yù)測域幀;時間混疊導(dǎo)入變換器(14),用于將交疊預(yù)測域幀變換到頻域,來獲得預(yù)測域幀頻譜,其 中,所述時間混疊導(dǎo)入變換器(14)適于以臨界采樣方式變換交疊預(yù)測域幀;以及冗余減少編碼器(16),用于編碼預(yù)測域幀頻譜來基于系數(shù)和編碼預(yù)測域幀頻譜獲得編 碼幀。
2.如權(quán)利要求1所述的音頻編碼器(10),其中,預(yù)測域幀基于包括用于合成濾波器的 激勵信號的采樣的激勵幀。
3.如權(quán)利要求1或2之一所述的音頻編碼器(10),其中,時間混疊導(dǎo)入變換器(14)適 于變換交疊預(yù)測域幀,使得預(yù)測域幀頻譜的采樣的平均數(shù)等于預(yù)測域幀的采樣的平均數(shù)。
4.如權(quán)利要求1至3中任一項所述的音頻編碼器(10),其中,時間混疊導(dǎo)入變換器 (14)適于根據(jù)修改的離散余弦變換(MDCT)來變換交疊預(yù)測域幀。
5.如權(quán)利要求1至4中任一項所述的音頻編碼器(10),其中,時間混疊導(dǎo)入變換器 (14)包括加窗濾波器(17),用于對交疊預(yù)測域幀應(yīng)用加窗函數(shù);以及轉(zhuǎn)換器(18),用于將 加窗的交疊預(yù)測域幀轉(zhuǎn)換成預(yù)測域幀頻譜。
6.如權(quán)利要求5所述的音頻編碼器(10),其中,時間混疊導(dǎo)入變換器(14)包括處理 器(19),用于檢測事件;以及如果檢測到所述事件,則提供窗序列信息,并且所述加窗濾波 器(17)適于根據(jù)所述窗序列信息應(yīng)用所述加窗函數(shù)。
7.如權(quán)利要求6所述的音頻編碼器(10),其中,所述窗序列信息包括第一零部分、第二 旁路部分以及第三零部分。
8.如權(quán)利要求7所述的音頻編碼器(10),其中,所述窗序列信息包括在第一零部分與 第二旁路部分之間的上升沿部分,以及在第二旁路部分與第三零部分之間的下降沿部分。
9.如權(quán)利要求8所述的音頻編碼器(10),其中,第二旁路部分包括1的序列,不修改 預(yù)測域幀頻譜的采樣。
10.如權(quán)利要求1至9中任一項所述的音頻編碼器(10),其中,預(yù)測編碼分析級(12) 適于基于線性預(yù)測編碼(LPC)來確定與系數(shù)有關(guān)的信息。
11.如權(quán)利要求1至10中任一項所述的音頻編碼器(10),還包括碼簿編碼器(13), 用于基于預(yù)定的碼簿來編碼預(yù)測域幀,從而獲得碼簿編碼預(yù)測域幀。
12.如權(quán)利要求11所述的音頻編碼器(10),還包括判定器(15),用于基于編碼效率 度量判定使用碼簿編碼預(yù)測域幀還是編碼預(yù)測域幀,來獲得最終編碼幀。
13.如權(quán)利要求12所述的音頻編碼器(10),還包括耦接至判定器(15)的開關(guān)(20), 用于基于編碼效率度量,在時間混疊導(dǎo)入變換器(14)與碼簿編碼器(13)之間切換預(yù)測域 幀。
14.一種用于編碼采樣音頻信號的幀來獲得編碼幀的方法,其中,幀包括多個時域音頻 采樣,所述方法包括以下步驟基于音頻采樣的幀確定與合成濾波器的系數(shù)有關(guān)的信息;基于音頻采樣的幀確定預(yù)測域幀;以導(dǎo)入時間混疊的臨界采樣方式,將交疊預(yù)測域幀變換到頻域來獲得預(yù)測域幀頻譜;以及編碼預(yù)測域幀頻譜,來基于所述系數(shù)和編碼預(yù)測域幀頻譜獲得編碼幀。
15.一種計算機程序,具有當在計算機或處理器上運行時用于執(zhí)行如權(quán)利要求14所述 的方法的程序代碼。
16.一種用于對編碼幀進行解碼來獲得采樣音頻信號的幀的音頻解碼器(80),其中, 幀包括多個時域音頻采樣,所述音頻解碼器包括冗余獲取解碼器(82),用于對編碼幀進行解碼來獲得與合成濾波器的系數(shù)有關(guān)的信息 以及預(yù)測域幀頻譜;時間混疊導(dǎo)入逆變換器(84),用于將預(yù)測域幀頻譜變換到時域來獲得交疊預(yù)測域幀, 其中,所述時間混疊導(dǎo)入逆變換器(84)適于根據(jù)連續(xù)的預(yù)測域幀頻譜確定交疊預(yù)測域幀; 交疊/加法組合器(86),用來以臨界采樣方式組合交疊預(yù)測域幀,來獲得預(yù)測域幀;以及預(yù)測合成級(88),用于基于所述系數(shù)和預(yù)測域幀確定音頻采樣的幀。
17.如權(quán)利要求16所述的音頻解碼器(80),其中,交疊/加法組合器(86)適于組合交 疊預(yù)測域幀,使得預(yù)測域幀的采樣的平均數(shù)等于預(yù)測域幀頻譜的采樣的平均數(shù)。
18.如權(quán)利要求16或17中任一項所述的音頻解碼器(80),其中,時間混疊導(dǎo)入變換器 (84)適于根據(jù)修改的離散余弦逆變換(IMDCT)將預(yù)測域幀頻譜變換到時域。
19.如權(quán)利要求16至18中任一項所述的音頻解碼器(80),其中,預(yù)測合成級(88)適 于基于線性預(yù)測編碼(LPC)來確定音頻采樣的幀。
20.如權(quán)利要求16至19中任一項所述的音頻解碼器(80),其中,時間混疊導(dǎo)入逆變換 器(84)還包括轉(zhuǎn)換器(8 ),用于將預(yù)測域幀頻譜變換成變換的交疊預(yù)測域幀;以及加窗 濾波器(84b),用于對轉(zhuǎn)換的交疊預(yù)測域幀應(yīng)用加窗函數(shù),以獲得交疊預(yù)測域幀。
21.如權(quán)利要求20所述的音頻解碼器(80),其中,時間混疊導(dǎo)入逆變換器(84)包括 處理器(8 ),用于檢測事件;以及如果檢測到所述事件,則向加窗濾波器(84b)提供窗序 列信息,并且所述加窗濾波器(84b)適于根據(jù)窗序列信息應(yīng)用加窗函數(shù)。
22.如權(quán)利要求20或21中任一項所述的音頻解碼器(80),其中,所述窗序列信息包括 第一零部分、第二旁路部分以及第三零部分。
23.如權(quán)利要求22所述的音頻解碼器(80),其中,所述窗序列信息包括在第一零部 分與第二旁路部分之間的上升沿部分,以及在第二旁路部分與第三零部分之間的下降沿部 分。
24.如權(quán)利要求23所述的音頻解碼器(80),其中,該第二旁路部分包括1的序列,用 于修改預(yù)測域幀的采樣。
25.一種用于對編碼幀進行解碼來獲得采樣音頻信號的幀的方法,其中,幀包括多個時 域音頻采樣,所述方法包括以下步驟對編碼幀進行解碼來獲得與合成濾波器的系數(shù)有關(guān)的信息以及預(yù)測域幀頻譜; 將預(yù)測域幀頻譜變換到時域,來根據(jù)連續(xù)的預(yù)測域幀頻譜獲得交疊預(yù)測域幀; 以臨界采樣方式組合交疊預(yù)測域幀來獲得預(yù)測域幀;以及 基于所述系數(shù)以及預(yù)測域幀來確定幀。
26. 一種計算機程序產(chǎn)品,用于當所述計算機程序運行在計算機或處理器上時執(zhí)行如 權(quán)利要求25所述的方法。
全文摘要
一種適于編碼采樣音頻信號的幀來獲得編碼幀的音頻編碼器,其中,框包括多個時域音頻采樣。音頻編碼器(10)包括預(yù)測編碼分析級(12),用于基于音頻采樣的幀來確定與分析濾波器的系數(shù)有關(guān)的信息以及預(yù)測域幀。音頻編碼器(10)還包括時間混疊導(dǎo)入變換器(14),用于將交疊預(yù)測域幀變換到頻域來獲得預(yù)測域幀頻譜,其中時間混疊導(dǎo)入變換器(14)適于以臨界采樣方式變換交疊預(yù)測域幀。此外,音頻編碼器(10)包括冗余減少編碼器(16),用于基于所述系數(shù)和編碼預(yù)測域幀頻譜,來編碼預(yù)測域幀頻譜,從而獲得編碼幀。
文檔編號G06F17/14GK102089758SQ200980127089
公開日2011年6月8日 申請日期2009年6月4日 優(yōu)先權(quán)日2008年7月11日
發(fā)明者伯恩哈德·格瑞, 布魯諾·貝塞特, 拉爾夫·蓋格爾, 杰拉爾德·舒勒, 紀堯姆·??怂? 菲利普·古爾奈, 馬克斯·諾伊恩多夫, 馬庫斯·馬特拉斯 申請人:弗勞恩霍夫應(yīng)用研究促進協(xié)會, 沃伊斯亞吉公司