專利名稱:用以使用混疊切換方案將音頻信號編碼/解碼的裝置與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻編碼,更特別地,涉及低比特率音頻編碼方案。
背景技術(shù):
在現(xiàn)有技術(shù)中,已知頻域編碼方案,諸如MP3或AAC。這些頻域編碼器基于時域/ 頻域變換;隨后是量化級,其中使用來自心理聲學(xué)模塊的信息控制量化誤差;及編碼級,其 中使用碼表對該已量化的頻譜系數(shù)及相對應(yīng)輔助信息進行熵編碼。另一方面,存在極為適合用于語音處理的編碼器,諸如AMR-WB+,在3GPP TS 沈.290對此進行了說明。這種語音編碼方案執(zhí)行時域信號的線性預(yù)測濾波。這種LP濾波 是由該輸入的時域信號的線性預(yù)測分析所導(dǎo)出。然后,所得的LP濾波系數(shù)經(jīng)量化/編碼, 并作為輔助信息傳輸。該方法稱作為線性預(yù)測編碼(LPC)。在濾波器的輸出端,使用ACELP 編碼器的合成-分析級,或另外地,使用變換編碼器,對預(yù)測殘留信號或預(yù)測誤差信號(也 稱作為激勵信號)進行編碼,該變換編碼器使用具有重疊的傅立葉變換。ACELP編碼與變換 編碼激勵編碼(也稱作為TCX編碼)間的判定是使用閉環(huán)或開環(huán)算法進行的。組合AAC編碼方案及頻帶復(fù)制技術(shù)的頻域音頻編碼方案(諸如高效率-AAC編碼 方案)也可與借助于術(shù)語“MPEG環(huán)繞”一詞而已知的聯(lián)合立體聲編碼工具或多聲道編碼工 具組合。另一方面,語音編碼器(諸如AMR-WB+)也有高頻加強級及立體聲功能。頻域編碼方案的優(yōu)點在于,其對于音樂信號,以低比特率顯示高質(zhì)量,但問題在于 低比特率的語音信號的質(zhì)量。語音編碼方案即使以低比特率也對語音信號顯示高質(zhì)量,但對音樂信號,以低比 特率顯示的質(zhì)量不佳。頻域編碼方案經(jīng)常使用所謂的MDCT(MDCT =修改型離散余弦變換)。MDCT最初 在 J. Princen, A. Bradley 的“Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation (基于時域混疊抵消的分析/合成濾波器組設(shè)計)”,IEEE Trans. ASSP,ASSP-34(5) :1153-1161,1986 中進行了說明。MDCT 或MDCT 濾波器組廣泛用于 近代且有效的音頻編碼器。這種信號處理提供下列優(yōu)點各處理塊間的平滑交叉衰減即使各個處理塊的信號有不同變化(例如由于頻譜 系數(shù)的量化),但由于窗口化重疊/加法操作,故不會因塊之間的突然轉(zhuǎn)換,造成遮蔽偽像。臨界采樣濾波器組的輸出端的頻譜值的數(shù)目等于其輸入端的時域輸入值與必須 傳輸?shù)念~外開銷值的數(shù)目。MDCT濾波器組提供高頻率選擇性及編碼增益。利用時域混疊抵消技術(shù),可實現(xiàn)這些重大性質(zhì)。時域混疊抵消是通過對兩相鄰已 窗口化信號進行重疊相加而在合成時進行的。如果在MDCT的分析級與合成級間未施加量 化,則獲得原始信號的完美重建。但該MDCT是用于特別適合音樂信號的編碼方案的。如前文所述,這些頻域編碼方案對于語音信號在低比特率下具有較低的質(zhì)量,而特別適配的語 音編碼器與頻域編碼方案相比,在相似的比特率下具有較高質(zhì)量,甚至對于相同質(zhì)量具有 顯著更低的比特率。語音編碼技術(shù)(諸如定義于“Extended Adaptive Multi-Rate-Wideband (AMR-WB+) codec (延伸的適應(yīng)性多速率-寬帶(AMR-WB+)編碼解碼 器),3GPP TS 26. 290 V6. 3. 0,2005-06,技術(shù)規(guī)范”的所謂的AMR-WB+編碼解碼器)并未應(yīng) 用MDCT,因此無法由MDCT的優(yōu)異性質(zhì)獲得任何優(yōu)勢,特別地,MDCT 一方面仰賴臨界采樣處 理,而另一方面仰賴由一個塊至另一個塊的跨越。因此,通過MDCT所得的由一個塊至另一 個塊的跨越就比特率而言不會有任何犧牲,因此尚未在語音編碼器中獲得MDCT的臨界采 樣性質(zhì)。當(dāng)將語音編碼器及音頻編碼器組合于單一混合編碼方案中時,仍然存在以下問 題如何以低比特率及高質(zhì)量獲得由一種編碼模式至另一種編碼模式的切換。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種改良式編碼/解碼構(gòu)想。本目的是通過如權(quán)利要求1的用于編碼音頻信號的裝置、如權(quán)利要求8的用于解 碼已編碼音頻信號的裝置、如權(quán)利要求14的已編碼音頻信號、如權(quán)利要求15的用于編碼音 頻信號的方法、如權(quán)利要求16的用于解碼已編碼音頻信號的方法、或如權(quán)利要求17的計算 機程序達成。本發(fā)明的一個方面在于應(yīng)用混合編碼方案,其中應(yīng)用特別適合某些信號并操作于 一個域的第一編碼模式,并且,共同使用特別適合其它信號并操作于不同域的另一編碼模 式。在本編碼/解碼構(gòu)想中,由一個編碼模式至另一個編碼模式的臨界采樣切換為可能在 于,在編碼器端,已經(jīng)由一次窗口化操作所產(chǎn)生的音頻采樣的同一個塊是以不同方式處理 的。特別地,音頻信號的該塊的混疊部的處理方式是在將與窗口的混疊部相關(guān)的子塊窗口 化之后,將該子塊由一個域變換至另一域;而在對相同窗口化操作所得的不同子塊使用分 析窗口窗口化之前,將該不同子塊由一域變換至另一域。已處理的第一子塊及已處理的第二子塊隨后使用相同塊變換規(guī)則變換成又一域, 來獲得該音頻信號的已變換的第一塊,其然后可使用眾所周知的數(shù)據(jù)壓縮算法(諸如量 化、熵編碼等)中的任一種進一步進行處理。在解碼器端,基于處理了該塊的混疊部還是該塊的其它另一部,以不同方式再度 處理此塊?;殳B部是在進行合成窗口化之前被變換到目標域的,而另一部是在變換至目標 域之前接受合成窗口化處理的。此外,為了獲得臨界采樣性質(zhì),進行時域混疊抵消,其中在 另一已編碼的音頻信號塊的混疊部變換至目標域之后組合該音頻數(shù)據(jù)的窗口化混疊部及 該另一已編碼塊的窗口化混疊部,因此獲得與該第一塊的混疊部相對應(yīng)的已解碼音頻信 號。有鑒于此,一個窗口確實存在有兩個子塊/部分。一個部分/子塊(混疊子塊)具有 混疊分量,其與在不同域中編碼的第二塊重疊;及第二子塊/部分(另一子塊)可具有或可 未具有混疊分量,其與第二塊或不同于第二塊的一塊重疊。優(yōu)選地,引入彼此相對應(yīng)但在不同域中編碼的某些部分的混疊可優(yōu)異地用于通過 以不同方式處理音頻采樣的同一個已窗口化塊內(nèi)部的混疊部及另一部,而獲得由一種編碼模式至另一種編碼模式的臨界采樣切換。此點與基于分析窗口及合成窗口的現(xiàn)有技術(shù)處理相反,原因在于至目前為止,通 過應(yīng)用分析窗口所得的完整數(shù)據(jù)塊接受相同處理。但根據(jù)本發(fā)明,已窗口化塊的混疊部是 以與本塊的另一部不同的方式處理的。當(dāng)使用特定開始/停止窗口時,另一部可包含非混疊部。另外,另一部包含與相鄰 窗口化處理所得的部分重疊的混疊部。然后,另一(混疊)部與在當(dāng)前幀的另一(混疊) 部相同的域中處理的鄰近幀的混疊部重疊,而混疊部與在當(dāng)前幀的混疊部不同的域中處理 的鄰近幀的混疊部重疊。依據(jù)不同的實現(xiàn),另一部及混疊部共同形成對音頻采樣的塊應(yīng)用窗口函數(shù)的完整 結(jié)果。另一部可完全不含混疊,或可完全混疊,或可包括一混疊子部及一無混疊子部。此外, 可任意選擇這些子部的順序以及混疊部和另一部的順序。在切換音頻編碼方案的較佳實施例中,輸入信號的相鄰分段可在兩個不同 域中處理。舉例而言,AAC在信號域計算MDCT,而MTPC (Sean A. Ramprashad,"The Multimode Transform predictive Coding Paradigm(多模式變換預(yù)測編碼范例)”,IEEE Transaction on Speech and Audio Processing,第 11 卷,第 2 其月,2003 年 3 月)在 LPC 殘 留域計算MDCT。由于MDCT的使用,當(dāng)重疊區(qū)具有時域混疊分量時特別成問題。事實上,由 一個編碼器轉(zhuǎn)換至另一個編碼器時,時域混疊無法抵消,原因在于它們是在兩個不同域中 產(chǎn)生的。一種解決方案是以無混疊的交叉衰減窗口化信號進行轉(zhuǎn)換。然后,已切換的編碼 器不再經(jīng)過臨界采樣,并產(chǎn)生信息的開銷。實施例允許通過抵消由于操作于兩個不同域所 計算的時域混疊分量,而維持臨界采樣的優(yōu)點。在本發(fā)明的較佳實施例中,順序提供兩個開關(guān),其中,第一開關(guān)在使用頻域編碼器 在頻譜域進行編碼和在LPC域進行編碼(亦即在LPC分析級的輸出端處理該信號)之間進 行判定。第二開關(guān)設(shè)置用于在LPC域切換,以便在LPC域?qū)υ揕PC域信號(諸如使用ACELP 編碼器)進行編碼;或在LPC頻譜域?qū)υ揕PC域信號進行編碼,這需要用于將該LPC域信號 變換至LPC頻譜域的變換器,由于LPC頻譜域展現(xiàn)出LPC已濾波信號的頻譜而非時域信號 的頻譜,故LPC頻譜域與頻譜域不同。第一開關(guān)在兩個處理分支之間進行判定,此處一個分支主要是由宿(sink)模型 及/或心理聲學(xué)模型(亦即,通過聽覺遮蔽)激勵;而另一分支主要是由源(source)模型 及分段SNR計算激勵。舉例而言,一個分支具有頻譜域編碼器,而另一個分支具有基于LPC 的編碼器(諸如語音編碼器)。源模型通常為語音處理,因此通常使用LPC。第二開關(guān)再度在兩個處理分支之間進行判定,但是在與該“外部(outer) ”第一分 支域不同的域。再次,一個“內(nèi)部(inner)”分支主要是由源模型或SNR計算激勵,而另一個 “內(nèi)部”分支可由宿模型及/或心理聲學(xué)模型(亦即,通過遮蔽或至少包括頻率/頻譜域編 碼方面)來激勵。舉例而言,一個“內(nèi)部”分支具有頻域編碼器/頻譜變換器,而另一個分 支具有在另一域(諸如LPC域)進行編碼的編碼器,其中這種編碼器例如是CELP或ACELP 量化器/定標器,其處理輸入信號而未作頻譜變換。又一較佳實施例是一種音頻編碼器,包含第一信息宿導(dǎo)向的編碼分支,諸如頻譜 域編碼分支;第二信息源或SNR導(dǎo)向編碼分支,諸如LPC域編碼分支;及用于在該第一編碼 分支與該第二編碼分支間切換的開關(guān),其中,該第二編碼分支包含變換器,用于變換成與時域不同的特定域,諸如LPC分析級,以產(chǎn)生激勵信號;其中,該第二編碼分支進一步包含特 定域(諸如LPC域)處理分支及特定頻譜域(諸如LPC頻譜域)處理分支;及用于在該特 定域編碼分支與該特定頻譜域編碼分支間切換的另一開關(guān)。本發(fā)明的又一個實施例是一種音頻解碼器,包含第一域,諸如頻譜域解碼分支; 第二域,諸如用于對第二域的信號(諸如激勵信號)進行解碼的LPC域解碼分支;及第三 域,諸如用于對第三域(諸如LPC頻譜域)的信號(諸如激勵信號)進行解碼的LPC頻譜 解碼器分支,其中,該第三域是通過執(zhí)行從第二域的頻率變換獲得的,其中,設(shè)置用于第二 域信號及第三域信號的第一開關(guān),及其中,設(shè)置用于在該第一域解碼器與針對第二域或第 三域的解碼器間切換的第二開關(guān)。
隨后將就附圖來說明本發(fā)明的較佳實施例,附圖中圖IA是用于對音頻信號進行編碼的較佳裝置或方法的示意代表圖;圖IB是由MDCT-TCX轉(zhuǎn)換至AAC的示意代表圖;圖IC是由AAC轉(zhuǎn)換至MDCT-TCX的示意代表圖;圖ID是本發(fā)明的構(gòu)想的較佳實施例作為流程圖的示例說明;圖2是用于示例說明發(fā)生于本發(fā)明的實施例的四個不同域及其關(guān)系的示意代表 圖;圖3A是示例說明用于對音頻信號進行解碼的本發(fā)明的裝置/方法的方案;圖;3B是根據(jù)本發(fā)明的實施例的解碼方案的進一步示例說明;圖4A示意了諸如應(yīng)用于兩種編碼模式的MDCT的混疊變換的細節(jié);圖4B示意了與圖4A的窗口函數(shù)類似但具有混疊部及非混疊部的窗口函數(shù);圖5是在諸如AAC-MDCT編碼模式的一種編碼模式中編碼器及解碼器的示意代表 圖;圖6是在AMR-WB+中的TCX編碼的上下文中,在諸如LPC域的不同域應(yīng)用MDCT的 編碼器及解碼器的代表圖;圖7是在AAC與AMR-WB+間轉(zhuǎn)換的窗口的特定序列;圖8A是在由TCX模式切換至AAC模式的上下文中,用于編碼器及解碼器的較佳實 施例的代表圖;圖8B是用于示意由AAC轉(zhuǎn)換至TCX的編碼器及解碼器的較佳實施例;圖9A是可應(yīng)用本發(fā)明的較佳混合切換編碼方案的方框圖;圖9B是示例說明在圖9A的控制器中執(zhí)行的處理的流程圖;圖IOA是在混合切換編碼方案中的解碼器的較佳實施例;圖IOB是用于示例說明在圖IOA的轉(zhuǎn)換控制器中執(zhí)行的過程的流程圖;圖IlA示意了其中優(yōu)選地應(yīng)用本發(fā)明的編碼器的較佳實施例;及圖IlB示意了其中優(yōu)選地應(yīng)用本發(fā)明的較佳解碼器。
具體實施例方式圖IlA標示意了具有兩個級聯(lián)開關(guān)的本發(fā)明的一個實施例。單聲信號、立體聲信號、或多聲道信號被輸入開關(guān)200。開關(guān)200由判定級300控制。判定級接收輸入模塊200 的信號,作為輸入信號。另外,判定級300也接收輔助信息,該輔助信息被含括于該單聲信 號、立體聲信號、或多聲道信號中,或至少是與這些信號關(guān)聯(lián),此處存在有信息,而該信息例 如是在最初產(chǎn)生該單聲信號、立體聲信號、或多聲道信號時生成的。判定級300激勵開關(guān)200,以便將信號饋送至圖IlA的上分支示意出的頻率編碼部 400,或饋送至圖IlA的下分支示意出的LPC域編碼部500。頻域編碼部的關(guān)鍵組件是頻譜 變換模塊411,該模塊411操作用于將公共預(yù)處理級輸出信號(容后詳述)變換至頻譜域。 頻譜域變換模塊可包括MDCT算法、QMF、FFT算法、小波分析或濾波器組,諸如具有某個數(shù)目 的濾波器組聲道的經(jīng)臨界采樣(critically sampled)的濾波器組,此處濾波器組中的子頻 帶信號可為實值信號或復(fù)值信號。使用頻譜音頻編碼器421對頻譜變換模塊411的輸出進 行編碼,這可包括如由AAC編碼方案所已知的處理模塊。通常,分支400中的處理是基于感官模型或信息宿模型的處理。如此,該分支對接 收聲音的人類聽覺系統(tǒng)進行建模。相反地,分支500中的處理用于產(chǎn)生激勵域、殘留域或 LPC域的信號。大致上,分支500中的處理為語音模型或信息產(chǎn)生模型的處理。對于語音信 號,該模型為產(chǎn)生聲音的人類語音/聲音產(chǎn)生系統(tǒng)的模型。但若欲編碼來自要求不同聲音 產(chǎn)生模型的不同源的聲音,則分支500中的處理可不同。對于下編碼分支500,關(guān)鍵組件為LPC裝置510,其輸出用于控制LPC濾波器的特 性的LPC信息。這種LPC信息被傳輸至解碼器。LPC級510輸出信號是由激勵信號及/或 加權(quán)信號所組成的LPC域信號。LPC裝置通常輸出LPC域信號,其可為LPC域的任一信號,諸如激勵信號或加權(quán) (TCX)信號,或通過將LPC濾波系數(shù)應(yīng)用于音頻信號所產(chǎn)生的任何其它信號。此外,LPC裝 置也可決定這些系數(shù),還可量化/編碼這些系數(shù)。判定級的判定可以是信號適應(yīng)性判定,因此判定級執(zhí)行音樂/語音鑒別,且控制 開關(guān)200,以使得音樂信號被輸入上分支400,而語音信號被輸入下分支500。在一個實施例 中,判定級將其判定信息饋入輸出比特流,以使得解碼器可使用該判定信息來執(zhí)行正確的 解碼操作。這種解碼器示意于圖11B。由頻譜音頻編碼器421所輸出的信號在傳送后被輸入 頻譜音頻解碼器431。頻譜音頻解碼器431的輸出被輸入時域變換器440。同理,圖IlA的 LPC域編碼分支500的輸出被解碼器端接收且由組件536及537處理,以獲得LPC激勵信 號。該LPC激勵信號被輸入LPC合成級M0,該級540接收由相對應(yīng)的LPC分析級510所產(chǎn) 生的LPC信息作為另一輸入。時域變換器440的輸出及/或LPC合成級540的輸出被輸入 開關(guān)600。開關(guān)600是通過開關(guān)控制信號控制的,該開關(guān)控制信號例如是由判定級300所產(chǎn) 生,或由外部提供,例如由原始單聲信號、立體聲信號或多聲道信號的形成器所提供。開關(guān) 600的輸出是完整單聲信號、立體聲信號或多聲道信號。輸入開關(guān)200及判定級300的輸入可以是單聲信號、立體聲信號或多聲道信號,或 通稱為音頻信號。依據(jù)可由開關(guān)200的輸入信號導(dǎo)出的或由任何外部源(諸如輸入級200 的信號隱含的原始音頻信號的產(chǎn)生器)導(dǎo)出的判定,開關(guān)在頻率編碼分支400與LPC編碼 分支500間切換。頻率編碼分支400包含頻譜變換級411及隨后連接的量化/編碼級421。 量化/編碼級包括由近代頻域編碼器(諸如AAC編碼器)已知的任一項功能。此外,可通過心理聲學(xué)模塊控制量化/編碼級421的量化操作,該心理聲學(xué)模塊產(chǎn)生心理聲學(xué)信息,諸 如頻率上的心理聲學(xué)遮蔽閾值,此處此項信息被輸入級421。在LPC編碼分支,開關(guān)輸出信號經(jīng)由LPC分析級510處理而產(chǎn)生LPC輔助信息及 LPC域信號。激勵編碼器包含另一開關(guān)521,該開關(guān)用于在LPC域的量化/編碼操作5 或 處理LPC頻譜域的數(shù)值的量化/編碼級527間切換LPC域信號的進一步處理。為了達成此 項目的,設(shè)置頻譜變換器527。依據(jù)特定設(shè)定值而定,例如說明于AMR-WB+技術(shù)規(guī)范,以開環(huán) 方式或閉環(huán)方式控制開關(guān)521。針對閉環(huán)控制模式,編碼器還步包括用于LPC域信號的逆量化器/編碼器、用于 LPC頻譜域信號的逆量化器/編碼器、及用于該逆量化器/編碼器的輸出的頻譜逆變換器。 第二編碼分支的處理分支中的已編碼且再度已解碼的信號被輸入開關(guān)控制裝置。在該開關(guān) 控制裝置中,這兩個輸出信號彼此比較及/或與目標函數(shù)比較,或計算目標函數(shù),該目標函 數(shù)的計算可基于兩個信號的失真的比較,使得具有較低失真的信號被用于判定開關(guān)521須 采取哪一種位置。可選地,當(dāng)兩個分支提供非恒定比特率時,可選擇用于提供較低比特率的 分支,即使此分支的信號與噪聲之比低于另一分支的信號與噪聲之比??蛇x地,目標函數(shù)可 使用各個信號的信號與噪聲之比及各個信號的比特率及/或額外標準,作為輸入,來找出 針對特定目的的最佳判定。例如,如果目的是比特率須盡可能地低,則目標函數(shù)極其仰賴由 逆量化器/編碼器及頻譜逆變換器輸出的兩個信號的比特率。但當(dāng)主要目的是對某個比特 率具有最佳質(zhì)量時,開關(guān)控制將拋棄高于容許比特率的各信號;而當(dāng)兩個信號低于容許比 特率時,開關(guān)控制將選擇具有較佳信號與噪聲之比(亦即具有較小的量化/編碼失真)的 信號。如前文說明,根據(jù)本發(fā)明的解碼方案示意于圖11B。針對三種可能的輸出信號中 的每一種,存在特定解碼/再量化級431、536或537。當(dāng)級431輸出頻譜(也稱作為“時頻 譜”(時域信號的頻譜),且被使用頻率/時間變換器440變換至?xí)r域)時,級536輸出LPC 域信號,級537接收該LPC域信號的頻譜(也稱作為“LPC譜”)。為了確定輸入開關(guān)532的 輸入信號皆是LPC域的,在LPC域設(shè)置頻率/時間變換器537。開關(guān)532的輸出數(shù)據(jù)被使用 LPC合成級540變換回時域,該LPC合成級540是經(jīng)由編碼器端所產(chǎn)生的且所傳輸?shù)腖PC信 息而控制的。然后,在模塊540之后,兩個分支具有時域信息,該時域信息根據(jù)開關(guān)控制信 號切換,以便最終獲得音頻信號,諸如單聲信號、立體聲信號或多聲道信號,這取決于輸入 圖IlA的編碼方案的信號。因此,圖IlA示意了根據(jù)本發(fā)明的較佳編碼方案。連接至開關(guān)200輸入端的公共預(yù) 處理方案包含環(huán)繞/聯(lián)合立體聲模塊101,其產(chǎn)生聯(lián)合立體聲參數(shù)及單聲輸出信號,作為輸 出信號,該單聲輸出信號是通過將具有兩個或多個聲道的輸入信號下混頻而產(chǎn)生的。大致 上,模塊101的輸出端的信號也可為具有多個聲道的信號,但由于模塊101的下混頻功能, 模塊101的輸出端的聲道數(shù)目將少于輸入模塊101的聲道的數(shù)目。替代模塊101或除了模塊101之外,公共預(yù)處理方案可包含帶寬延伸級102。在圖 IlA的實施例中,模塊101的輸出被輸入帶寬延伸級102,在圖IlA的編碼器中,帶寬延伸級 102在其輸出端輸出一帶限信號,諸如低頻帶信號或低通信號。優(yōu)選的,此信號也經(jīng)過下采 樣(例如通過因子2的下采樣)。此外,針對輸入模塊102的信號的高頻帶,產(chǎn)生帶寬延伸 參數(shù),諸如頻譜包絡(luò)參數(shù)、反相濾波參數(shù)、噪聲本底參數(shù)等(如由MPEG-4的HE-AAC簡介所知的),且將其轉(zhuǎn)發(fā)至比特流復(fù)用器800。優(yōu)選地,判定級300接收輸入模塊101或輸入模塊102的信號,以便在音樂模式 或語音模式間作判定。在音樂模式中選擇上編碼分支400,而在語音模式選擇下編碼分支 500。優(yōu)選地,判定級還控制聯(lián)合立體聲模塊101及/或帶寬延伸模塊102,來將這些模塊 的功能調(diào)整以適合特定信號。如此,當(dāng)判定級判定輸入信號的某個時間部分具有第一模式 (諸如音樂模式)時,模塊101及/或模塊102的特定特性可由判定級300控制??蛇x地, 當(dāng)判定級300判定信號是語音模式或一般而言是第二 LPC域模式時,模塊101及102的特 定特性將根據(jù)判定級的輸出而控制。優(yōu)選地,編碼分支400的頻譜變換是使用MDCT操作進行的,MDCT操作又優(yōu)選地為 時間翹曲的MDCT操作,此處強度或一般而言為翹曲強度被控制在零翹曲強度與高翹曲強 度間。在零翹曲強度中,模塊411的MDCT操作是本領(lǐng)域已知的直接式MDCT操作。時間翹 曲強度連同時間翹曲輔助信息可被傳輸/輸入比特流復(fù)用器800,作為輔助信息。在LPC編碼分支,LPC域編碼器可包括ACELP核心526,其計算音高增益、音高滯后 及/或碼本信息,諸如碼本指數(shù)及增益。由3GPP TS^. 290已知的TCX模式引起變換域的 感官加權(quán)信號的處理。傅立葉已變換且已加權(quán)的信號被使用帶有噪聲因數(shù)量化的分割多速 率格狀量化(代數(shù)VQ)而量化。以10對、512、或256個采樣窗口計算變換。通過反相加權(quán) 濾波器對該已量化且已加權(quán)的信號進行反相濾波,恢復(fù)激勵信號。在第一編碼分支400中,頻譜變換器優(yōu)選地包含特別調(diào)整的MDCT操作,其具有某 些窗口功能、接著是量化/熵編碼級,該級可包含單一向量量化級,但優(yōu)選地為類似于頻域 編碼分支中的量化器/編碼器(亦即圖IlA的項目421)的組合式標量量化器/熵編碼器。在第二編碼分支中,存在LPC模塊510,接著是開關(guān)521,再度接著是ACELP模塊 526 或 TCX 模塊 527。ACELP 被描述于 3GPP TS 26. 190,TCX 被描述于 3GPP TS 26.290。通 常,ACELP模塊5 接收LPC激勵信號。TCX模塊527接收加權(quán)信號。在TCX中,變換施加至通過基于LPC的加權(quán)濾波器對輸入信號進行濾波而得的已 加權(quán)信號。本發(fā)明的較佳實施例使用的加權(quán)濾波器由α-Α^/γυ/α-μζ—1)表示。如此, 已加權(quán)信號為LPC域信號,其變換至LPC頻譜域。由ACELP模塊5 處理的信號為激勵信 號,且與由模塊527處理的信號不同,但兩個信號皆在LPC域。激勵信號是通過分析濾波器 (l-A(z/y))對輸入信號進行濾波獲得的。在圖IlB的解碼器端,在模塊537的頻譜逆變換之后,施加加權(quán)濾波器的倒數(shù),亦 即(l-yzl/d-Ab/Y))。任選地,信號可額外通過(l-A(z))濾波來進入LPC激勵域。
如此,經(jīng)由?―廣,)、、(1 - 40))濾波,來自TCF1模塊537的信號可由加權(quán)域變換至
激勵域,然后用于模塊536。在最后編碼被選擇用于下一個幀的情況下,該典型濾波是在 AMR-WB+中在反相TCX (537)末端進行的,用于饋送ACELP的適應(yīng)性碼本。雖然圖IlA的項目510示意了單一模塊,但模塊510也可輸出不同信號,只要這些 信號是在LPC域即可。模塊510的實際模式(諸如激勵信號模式或加權(quán)信號模式)可取決 于實際切換狀態(tài)??蛇x地,模塊510可具有兩個并聯(lián)處理裝置。如此,模塊510的輸出端的 LPC域可表示LPC激勵信號或LPC加權(quán)信號或任何其它LPC域信號。在圖Ila或圖lib的第二編碼分支(ACELP/TCX)中,優(yōu)選地在編碼前通過濾波器1-0. 68Z—1對信號進行預(yù)加強。在圖IlB中的ACELP/TCX解碼器處,使用濾波器1/ (1-0. 68Z-1)對已合成的信號進行解除加強。預(yù)加強可構(gòu)成LPC模塊510的一部分,此處在 分析與量化之前,對信號進行預(yù)加強。同理,解除加強可構(gòu)成LPC合成模塊LPr1S^的一部 分。在較佳實施例中,第一開關(guān)200(參考圖11A)是經(jīng)由開環(huán)判定控制的,而第二開關(guān) 是經(jīng)由閉環(huán)判定控制的。舉例而言,可能存在下述情況在第一處理分支,第一 LPC域表示LPC激勵信 號;而在第二處理分支,第二 LPC域表示LPC加權(quán)信號。換言之,第一 LPC域信號是通過 (l-A(z))濾波而變換至LPC殘留域獲得的;而第二 LPC域信號是通過濾波器(1-Α(ζ/γ))/ (l-μζ-1)而變換至LPC加權(quán)信號獲得的。在較佳模式中,μ等于0.68。圖IlB示意了與圖IlA的編碼方案相對應(yīng)的解碼方案。圖IlA中由比特流復(fù)用器 800產(chǎn)生的比特流被輸入比特流解復(fù)用器900。依據(jù)例如由模式檢測模塊601從比特流導(dǎo) 出的信息,解碼器端開關(guān)600被控制用于將來自上分支的信號或來自下分支的信號轉(zhuǎn)發(fā)至 帶寬延伸模塊701。帶寬延伸模塊701接收來自比特流解復(fù)用器900的輔助信息,并基于此 輔助信息及模式判定601的輸出,基于由開關(guān)600輸出的低頻帶而重建高頻帶。模塊701產(chǎn)生的全頻帶信號被輸入聯(lián)合立體聲/環(huán)繞處理級702,其重建兩個立 體聲聲道或數(shù)個多聲道。通常模塊702將輸出比輸入本模塊更多的聲道。依據(jù)應(yīng)用用途而 定,輸入模塊702的信號甚至可以包括兩個聲道,諸如立體聲模式,并且甚至可以包括更多 個聲道,只要本模塊的輸出具有比本模塊的輸入更多個聲道即可。已經(jīng)顯示開關(guān)200在兩個分支間切換,故只有一個分支接收信號進行處理,而另 一分支并未接收信號來處理。但在另一個可選實施例中,開關(guān)也可以配置在例如頻域編碼 器421及LPC域編碼器510、521、526、527之后,表示兩個分支400、500并行處理相同信號。 但為了不致于使比特率加倍,只有由這些編碼分支400或500中的一個輸出的信號被選擇 用于寫入輸出比特流。然后判定級操作,使得寫入比特流的信號最小化某個代價函數(shù),此處 該代價函數(shù)可以是所產(chǎn)生的比特率、或所產(chǎn)生的感官失真、或比特率/失真的組合代價函 數(shù)。因此在該模式中或在附圖所示的模式中,判定級也可以在閉環(huán)模式下操作,以便確保最 后只有對給定感官失真有最低比特率、或?qū)o定比特率有最低感官失真的編碼分支輸出被 寫入該比特流。在有二個開關(guān)的實施例中,亦即第一開關(guān)200及第二開關(guān)521,優(yōu)選地,第一開關(guān) 的時間分辨率低于第二開關(guān)的時間分辨率。換言之,通過開關(guān)操作而切換的輸入第一開關(guān) 的輸入信號塊大于在LPC域操作的第二開關(guān)所切換的塊。舉例而言,頻域/LPC域開關(guān)200 可切換長IOM個采樣的塊,而第二開關(guān)521可切換各自有256個或512個采樣的塊。大致上用于第一編碼分支400的音頻編碼算法反映出音頻宿情況且對其進行建 模。音頻信息的宿通常為人耳。人耳可被建模為頻率分析器。因此,第一編碼分支輸出已 編碼的頻譜信息。優(yōu)選地,第一編碼分支進一步包括心理聲學(xué)模型,用于額外施加心理聲學(xué) 遮蔽閾值。在量化音頻頻譜值時使用這種心理聲學(xué)遮蔽閾值,此處優(yōu)選地進行量化以使得 通過量化隱藏于心理聲學(xué)遮蔽閾值下方的頻譜音頻值而導(dǎo)入量化噪聲。第二編碼分支表示信息源模型,反映出音頻聲音的產(chǎn)生。因此,信息源模型包括語 音模型,其由LPC分析級反映,亦即通過將時域信號變換至LPC域、且隨后處理該LPC殘留信號(亦即激勵信號)而反映。但另一種聲音源模型是表示某種樂器或任何其它聲音產(chǎn)生 器(諸如存在于實際世界的特定聲音源)的聲音源模型。不同聲音源模型間的選擇可在有 數(shù)個聲音源模型可用時進行,例如基于SNR計算,亦即基于計算來選出哪一個源模型最適 合用于編碼音頻信號的某個時間部分及/或頻率部分。但優(yōu)選地,編碼分支間的切換是在 時域進行的,換言之,某個時間部分是使用一種模型編碼的,而中間信號的某個不同時間部 分是使用另一個編碼分支編碼的。信息源模型以某些參數(shù)表示。關(guān)于語音模型,當(dāng)考慮諸如AMR-WB+的現(xiàn)代語音編 碼器時,參數(shù)為LPC參數(shù)及已編碼的激勵參數(shù)。AMR-WB+包含ACELP編碼器及TCX編碼器。 這種情況下,已編碼激勵參數(shù)可為整體增益、噪聲本底、及可變長度碼。圖IlA的音頻輸入信號是存在于第一域,該域例如可為時域,但也可為任何其它 域,諸如頻域、LPC域、LPC頻譜域或任何其它域。通常由一個域變換至另一個域是通過諸如 眾所周知的時間/頻率變換算法或頻率/時間變換算法中的任一者的變換算法進行的。由時域到例如LPC域的另一種變換是對時域信號進行LPC濾波,結(jié)果導(dǎo)致LPC殘 留信號或激勵信號。任何其它濾波操作產(chǎn)生已濾波信號,其在變換可用作變換算法(視情 況而定)之前,對相當(dāng)大量信號采樣有影響。因此,使用基于LPC的加權(quán)濾波器來加權(quán)音頻 信號是又一種變換,其產(chǎn)生LPC域的信號。在時間/頻率變換中,在變換前對單一頻譜值的 修改將對全部時域值有影響。類似地,任何時域采樣的修改將對各個頻域采樣有影響。同 理,由于LPC濾波器的長度,在LPC域情況中激勵信號采樣的修改將在LPC濾波之前對相當(dāng) 大量的采樣有影響。同理,LPC變換前的采樣修改將對通過此LPC變換所得的多個采樣有 影響,原因在于LPC濾波器特有的記憶效應(yīng)。圖IA示意了用于編碼音頻信號10的裝置的較佳實施例。該音頻信號優(yōu)選地被導(dǎo) 入具有諸如圖IlA中400的第一編碼分支的編碼裝置,用于在第三域?qū)υ撘纛l信號進行編 碼,第三域例如可為直接(straightforward)頻域。該編碼器還可包含用于基于第四域來 對該音頻信號進行編碼的第二編碼分支,該第四域例如為圖IlA的TCX模塊527所得的LPC 頻域。優(yōu)選地,本發(fā)明裝置包含窗口化器11,用于使用具有分析窗口形狀的第一分析窗 口來窗口化第一域的該音頻信號的第一塊,該分析窗口具有如在圖8A及圖8B或其它圖所 討論的混疊部(諸如Lk或、及如圖5或其它圖所示意的非混疊部(諸如Mk)。該裝置還包含處理器12,用于處理與該分析窗口的混疊部相關(guān)聯(lián)的該音頻信號的 第一子塊,通過在對第一子塊窗口化之后,將該子塊從第一域(諸如信號域或直接時域)變 換至第二域(諸如LPC域)來獲得已處理的第一子塊;以及用于處理與該分析窗口的另一 部相關(guān)聯(lián)的該音頻信號的第二子塊,通過在對第二子塊窗口化之前,將該第二子塊從第一 域(諸如直接時域)變換至第二域(諸如LPC域)來獲得已處理的第二子塊。本發(fā)明裝置 還包含變換器13,用于使用相同的塊變換規(guī)則,將該已處理的第一子塊及已處理的第二子 塊由第二域變換至第四域(諸如LPC頻域)來獲得已變換的第一塊。然后,此已變換的第 一塊可在另一處理級14被進一步處理,來進行數(shù)據(jù)壓縮。優(yōu)選地,進一步處理還接收與該第一塊重疊的第一域的音頻信號的第二塊作為輸 入,其中第一域(諸如時域)的音頻信號的第二塊是使用第二分析窗口在第三域(亦即直 接頻域)處理的。這種第二分析窗口具有混疊部,該混疊部與第一分析窗口的混疊部相對應(yīng)。第一分析窗口的混疊部及第二分析窗口的混疊部優(yōu)選地與窗口化之前的原始音頻信號 的相同音頻采樣相關(guān),這些部分經(jīng)過時域混疊抵消,亦即解碼器端的重疊-加法過程。圖IB示意了當(dāng)進行從在第四域(例如LPC頻域)編碼的塊變換至第三域(諸如 頻域)時發(fā)生的情況。在一個實施例中,第四域為MDCT-TCX域,第三域為AAC域。施加在 于MDCT-TCX域編碼的音頻信號的窗口具有混疊部20及非混疊部21。該相同塊(在圖IB 中稱為“第一塊”)可具有或可不具有又一混疊部22。對于非混疊部亦為真。其可存在或 可不存在。在另一域(諸如AAC域)編碼的該音頻信號的第二塊包含相對應(yīng)的混疊部23,視 情況而定,此第二塊可包括另一部,諸如非混疊部或混疊部,在圖IB中指示為24。因此,圖 IB示意了音頻信號的重疊處理,使得窗口化之前第一塊的混疊部20中的音頻采樣與窗口 化之前第二塊的相對應(yīng)混疊部23的音頻采樣相同。如此,第一塊的音頻采樣是經(jīng)由將分析 窗口施加至屬于音頻采樣流的音頻信號而獲得;第二塊是經(jīng)由將第二分析窗口施加至多個 音頻采樣而獲得,這些多個音頻采樣包括第二塊的相對應(yīng)混疊部23的采樣及另一部M的 采樣。因此,混疊部20的音頻采樣為與混疊部20相關(guān)聯(lián)的音頻信號的第一塊,音頻信號的 另一部21的音頻采樣與同該另一部21相關(guān)聯(lián)的音頻信號的第二子塊相對應(yīng)。圖IC示意了如圖IB的類似情況,但是由AAC(亦即第三域)轉(zhuǎn)換至MDCT-TCX域 (亦即第四域)。圖IB與圖IC間的差異大致上為圖IB的混疊部20包括在時間上出現(xiàn)在另一部 21的音頻采樣之后的采樣;而圖IC中,混疊部20的音頻采樣在時間上是出現(xiàn)在另一部21 的音頻采樣之前。圖ID示意了使用音頻采樣的同一個窗口化塊的第一子塊及第二子塊中的音頻采 樣進行的步驟的細節(jié)代表圖。大致上,窗口有遞增部及遞減部,依據(jù)窗口形狀而定,可有或 無相對恒定的中部。在第一步驟30,進行塊形成操作,其中從音頻采樣流取得某個數(shù)目的音頻采樣。特 定而言,塊形成操作30將定義哪些音頻采樣屬于圖IB及圖IC中的第一塊及哪些音頻采樣
屬于第二塊?;殳B部20的音頻采樣在步驟31a經(jīng)窗口化。但重要的是,在較佳實施例中,非混 疊部(亦即于第二子塊)的音頻采樣在步驟32變換至第二域,亦即LPC域。然后,在轉(zhuǎn)變 第二子塊的音頻采樣后,進行窗口化操作31b。窗口化操作31b所得的音頻采樣形成采樣, 這些采樣輸入至第四域的塊變換操作,這在圖ID中示意為項目35。模塊31a、31b的窗口化操作可包括或可未包括如就圖8A、8B、9A、10A所討論的折 疊操作。優(yōu)選地,窗口化操作31a、31b額外包含折疊操作。但在模塊33中,混疊部被變換至第二域(諸如LPC域)。如此,要變換至第四域 (指示于34)的采樣塊完成,模塊34組成一個數(shù)據(jù)塊,該一個數(shù)據(jù)塊被輸入一個塊變換操 作,諸如時間/頻率操作。因于在優(yōu)選實施例中,第二域為LPC域,故步驟35的塊變換操作 的輸出將在第四域,亦即LPC頻域。由塊變換35所產(chǎn)生的此塊是已轉(zhuǎn)換的第一塊36,其然 后首先在步驟37處理,以便應(yīng)用任一種數(shù)據(jù)壓縮,例如包含在AMR-WB+編碼器中施加至TCX 數(shù)據(jù)的數(shù)據(jù)壓縮操作。當(dāng)然,所有其它數(shù)據(jù)壓縮操作也可在模塊37進行。因此,模塊37與 圖IA的項目14相對應(yīng),圖ID的模塊35與圖IA圖的項目13相對應(yīng),及窗口化操作相當(dāng)于圖ID的31b及31a,與圖IA的項目11相對應(yīng),對另一部及混疊部而言不同的變換與窗口化 間的順序調(diào)度是由圖IA的處理器12進行的。圖ID示意了其中另一部是由圖IB或圖IC的非混疊子部21及混疊子部22所組 成的情況。可選地,另一部可只包括混疊部而不含非混疊部。在這種情況下,圖IB及圖IC 的21不存在,而22將由該塊的邊界延伸至混疊部20的邊界。總而言之,另一部/另一子 塊是以相同方式處理(而與完全無混疊或完全混疊或具有混疊子部或非混疊子部無關(guān)), 但該處理方式與混疊子塊的處理方式不同。圖2示意了在本發(fā)明的較佳實施例中發(fā)生的不同域的綜論。通常音頻信號將在第一域40,例如為時域。但本發(fā)明實際上應(yīng)用于將在兩個不 同域?qū)σ纛l信號進行編碼時的情況,并應(yīng)用于必須以比特率最佳化方式(亦即使用臨界采 樣)進行由一個域切換至另一個域時的全部情況。在較佳實施例中,第二域為LPC域41。由第一域變換至第二域?qū)⑼ㄟ^如圖2指示 的LPC濾波器/變換進行。在較佳實施例中,第三域為直接頻域42,這是通過眾所周知的時間/頻率變換的 任一種方式獲得的,該時間/頻率變換是諸如DCT (離散余弦變換)、DST (離散正弦變換)、 傅立葉變換或快速傅立葉變換或任何其它時間/頻率變換。相對應(yīng)地,由第二域變換至第四域43 (諸如LPC頻域,或一般而言的,關(guān)于第二域 41的頻域)也可通過諸如DCT、DST、FT、FFT的眾所周知的時間/頻率變換算法中的任一者獲得。然后,將圖2與圖IlA或圖IlB作比較,模塊421的輸出將具有第三域的信號。此 外,模塊5 的輸出將具有第二域的信號,模塊527的輸出將包含第四域的信號。輸入開關(guān) 200的其它信號(或一般而言,輸入判定級300或環(huán)繞/聯(lián)合立體聲級101的其它信號)將 在第一域,諸如時域。圖3A示意了用于對具有音頻數(shù)據(jù)的已編碼第一塊50的編碼音頻信號進行解碼的 本發(fā)明裝置的較佳實施例,此處,已編碼塊具有混疊部及另一部。本發(fā)明的解碼器還包含處 理器51,用于處理該混疊部,通過將該混疊部變換至目標域,以執(zhí)行合成窗口化,來獲得已 窗口化混疊部52 ;以及用于在將另一部變換至目標域之前,執(zhí)行該另一部的合成窗口化。因此,在解碼器端,屬于同一個窗口的塊的各部分是以不同方式處理。類似處理應(yīng) 用于編碼器端,以允許不同域間切換的臨界采樣開關(guān)。本發(fā)明解碼器還包含時域混疊抵消器53,用于在已編碼第二塊的混疊部變換至目 標域之后,組合第一塊的已窗口化混疊部(亦即輸入5 與音頻數(shù)據(jù)的已編碼第二塊的已 窗口化混疊部,來獲得已解碼音頻信號55,其與第一塊的混疊部相對應(yīng)。已編碼第二塊的已 窗口化混疊部經(jīng)由M而輸入時域混疊抵消器53。優(yōu)選地,時域混疊抵消器53被實現(xiàn)為重疊/加法裝置,例如施加50%的重疊。這 意味著,一個塊的合成窗口的結(jié)果與音頻數(shù)據(jù)的相鄰已編碼塊的合成窗口處理結(jié)果重疊, 此處,此重疊優(yōu)選地包含該塊的50%。這意味著,在前塊的合成已窗口化音頻數(shù)據(jù)的第二部 以逐一采樣方式被加至已編碼音頻數(shù)據(jù)的在后第二塊的第一部,故最終,已解碼音頻數(shù)據(jù) 為兩個相鄰塊的相對應(yīng)已窗口化采樣之和。在其它實施例中,重疊范圍可多于或少于50%。 這種時域混疊抵消器的組合特征提供了由一個塊至下一個塊的連續(xù)交叉衰減,完全消除了出現(xiàn)在任何基于塊的變換編碼方案中的任何遮蔽偽像。由于實際上不同域的混疊部可通過 本發(fā)明組合,所以獲得了由一個域的塊至另一個域的塊的臨界采樣切換操作。與進行由一個塊至另一個塊的硬切換的不含任何交叉衰減的開關(guān)編碼器相比較, 本發(fā)明的過程改良了音頻質(zhì)量,原因在于,硬切換無可避免地將導(dǎo)致塊邊界的遮蔽偽像,諸 如可聽聞的爆裂或任何其它非期望的雜音。但與確實將去除塊邊界的這種非期望的尖銳雜音的非臨界采樣交叉衰減相比較, 本發(fā)明不會因切換導(dǎo)致任何數(shù)據(jù)率增加。在先前技術(shù)中,當(dāng)相同音頻信號經(jīng)由第一編碼分 支編碼為第一塊、且經(jīng)由第二編碼分支編碼為第二塊時,若在不引入混疊的情況下處理,則 在二個編碼分支編碼的采樣量將耗用比特率。但根據(jù)本發(fā)明,在塊邊界引入混疊。但這種 混疊引入是通過采樣減少而獲得的,結(jié)果導(dǎo)致可能通過時域混疊抵消器53應(yīng)用交叉衰減 操作,而不會有比特率增高或非臨界采樣切換的損失。在最佳實施例中,進行真正臨界采樣切換。但在某些情況下,也存在低效實施例, 其中只引入某個量的混疊,而允許一定量的比特率開銷。但由于實際上使用且組合混疊部, 雖言如此,全部這些低效實施例總是優(yōu)于帶有交叉衰減的完全無混疊轉(zhuǎn)換;或就質(zhì)量方面 而言優(yōu)于由一個編碼分支硬切換至另一個編碼分支。在該上下文中,須了解,TCX中的非混疊部仍然產(chǎn)生臨界采樣的已編碼采樣。添加 TCX中的非混疊部不會對臨界采樣造損害,但是危害轉(zhuǎn)換質(zhì)量(較低切換)及頻譜呈示質(zhì)量 (較低能量壓縮)。有鑒于此,優(yōu)選地,使TCX中的非混疊部盡可能地小或甚至接近于零,故 該另一部完全混疊,而不具有不含混疊的子部。隨后將討論圖;3B來示意圖3A的過程的較佳實施例。在步驟56,進行處于例如第四域的該已編碼的第一塊的解碼器處理。這種解碼器 處理可為熵解碼,諸如霍夫曼解碼,或與圖IA的模塊14在編碼器端的額外處理操作相對應(yīng) 的算術(shù)解碼。在步驟57,進行如步驟57所指示的完整第一塊的頻率/時間變換。根據(jù)圖 2,步驟57的該過程獲得第二域的完整第一塊。現(xiàn)在,根據(jù)本發(fā)明,第一塊的各部分以不同 方式處理。特定而言,混疊部(亦即步驟57的輸出的第一子塊)將在使用合成窗口進行窗 口化操作前變換至目標域。這由變換步驟58a及窗口化步驟59a的順序指示。如59b指示 的,第二子塊(亦即無混疊子塊)按原樣(亦即未經(jīng)圖3B的項目58a的變換操作)使用合 成窗口而窗口化。模塊59a或59b的窗口化操作可包含或可未包含折疊(展開)操作。但 優(yōu)選地,窗口化操作包含折疊(展開)操作。依據(jù)與另一部相對應(yīng)的第二子塊實際上是混疊子塊還是非混疊子塊,進行如59b 指示的變換至目標域的操作,而在第二子塊為非混疊子塊的情況下,不進行TDAC操作/組 合操作。但當(dāng)?shù)诙訅K為混疊子塊時,在步驟59b變換至目標域的變換操作之前,進行與另 一個塊的相對應(yīng)部的TDAC操作,亦即組合操作60b,以算出第二塊的已解碼音頻信號。在另一分支,亦即對于第一子塊相對應(yīng)的混疊部,步驟59a的窗口化操作結(jié)果被 輸入組合級60a。該組合級60a還接收第二塊的混疊部作為輸入信號,該第二塊亦即已經(jīng)在 其它域(例如圖2的實例中的AAC域)編碼的塊。然后,模塊60a的輸出組成第一子塊的 已解碼音頻信號。比較圖3A與圖:3B,顯然組合操作60a是與圖3A的模塊53進行的處理相對應(yīng)。此 外,處理器51進行的變換操作及窗口化操作就變換操作而言是與項目58a、58b相對應(yīng),而就窗口化操作而言是與59a及59b相對應(yīng),此處圖3A的處理器51進一步確保維持混疊部 與另一部(亦即第二子塊)的正確順序。在較佳實施例中,施用修改型離散余弦變換(MDCT)來獲得由一個域的編碼操作 切換至不同的另一域的編碼操作的臨界采樣。但也可施用所有其它變換。但因MDCT為較 佳實施例,將就圖4A及圖4B討論MDCT的進一步細節(jié)。圖4A示意了窗口 70,其具有朝左的遞增部及朝右的遞減部,此處可將此窗口劃分 成為四部分a、b、c、及d。由該圖可知,窗口 70在示出的50%重疊/加法情況下只有混疊 部。特定而言,具有由零至N采樣的第一部是與前一個窗口 69的第二部相對應(yīng),延伸于窗 口 70的采樣N至采樣2N間的第二半個部分與窗口 71的第一部重疊,窗口 71在所示實施 例中為窗口 i+Ι,而窗口 70為窗口 i??梢奙DCT操作為折疊操作與隨后變換操作及特別為接著DCT操作的級聯(lián),此處應(yīng) 用IV型DCT (DCT-IV)。特定而言,經(jīng)由將折疊塊的第一部N/2計算為-cK-d,及折疊輸出的 第二部N/2采樣計算為a_bK,此處R為倒序,獲得折疊操作。如此,折疊操作獲得N個輸出 值,而接收2N個輸入值。也在圖4A以方程式形式示意了解碼器端的相對應(yīng)的展開操作。大致上,對(a, b,c, d)的MDCT操作恰好獲得與如圖4A指示的(-cR-d, a-bE)的 DCT-IV相同的輸出值。相對應(yīng)地且使用展開操作,IMDCT操作獲得施加至DCT-IV逆變換的輸出的展開操 作的輸出。因此,經(jīng)由在解碼器端執(zhí)行折疊操作,引入了時間混疊。然后使用需要N個輸入值 的DCT-IV塊變換,將折疊操作結(jié)果變換至頻域。在解碼器端,使用DCT-IV—1操作,將N個輸入值變換回時域,這種逆變換操作的輸 出改變?yōu)檎归_操作,而獲得2N個輸出值,但這些輸出值為混疊輸出值。為了移除已經(jīng)由折疊操作引入并在展開操作之后仍然存在的混疊,需要通過圖3A 的時域混疊抵消器53進行重疊/加法操作。因此,當(dāng)展開操作的結(jié)果與重疊半數(shù)的先前IMDCT結(jié)果相加時,在圖4A底部的方 程式中,反相項抵消,而只獲得例如b及d,如此恢復(fù)了原始數(shù)據(jù)。為了對已窗口化的MDCT獲得TDAC,存在有一種要求,被稱作為“普林生-布拉利 (Princen-Bradley) ”條件,表示對于時域混疊抵消器中組合的相對應(yīng)采樣的窗口系數(shù)升至 平方,從而針對各個采樣獲得一單位(1)。圖4A示意了例如對長窗口或短窗口、在AAC-MDCT中應(yīng)用的窗口序列;圖4D示意 了不同的窗口函數(shù),其除了混疊部之外,還具有非混疊部。圖4D示意了分析窗口函數(shù)72具有零部 及d2、具有混疊部72a、72b并具有非混 疊部72c。延伸在c2、Cl1上的混疊部72b具有隨后窗口 73的相對應(yīng)混疊部,以7 指示。相 對應(yīng)地,窗口 73還包含非混疊部73a。將圖4B與圖4A比較,顯然,由于窗口 72有零部 、 Cl1或窗口 73有零部C1,兩個窗口獲得非混疊部,并且混疊部的窗口函數(shù)比圖4A更陡峭。有 鑒于此,在圖4B中,混疊部7 對應(yīng)于Lk,非混疊部72c對應(yīng)于Mk部,及混疊部72b對應(yīng)于Rk。
當(dāng)折疊函數(shù)施用于通過窗口 72而窗口化的采樣塊時,獲得如圖4B所示的情況。延 伸在前N/4個采樣上的左部具有混疊。延伸在N/2個采樣上的第二部不含混疊,原因在于 折疊操作是應(yīng)用于具有零值的窗口部分,最后N/4個采樣再度具有混疊。由于折疊操作,故 折疊操作的輸出值數(shù)目等于N,而輸入值數(shù)目為2N,但實際上,因使用窗口 72進行窗口化操 作,本實施例的N/2個值被設(shè)定為零?,F(xiàn)在將DCT IV應(yīng)用于折疊操作的結(jié)果,但重要的是,由一個編碼模式轉(zhuǎn)換至另一 個編碼模式的混疊部72是以與非混疊部不同的方式處理,盡管這兩個部分是屬于音頻采 樣的同一塊,重要的是,這兩個部分被輸入圖IA中由變換器30所執(zhí)行的相同塊變換操作。圖4B還示意了窗口 72、73、74的窗口序列,此處窗口 73為由確實存在有非混疊部 的情況轉(zhuǎn)換至只存在有混疊部的情況的轉(zhuǎn)換窗口。這是由非對稱地形成窗口函數(shù)形狀而獲 得的。窗口 73的右部是類似于圖4A的窗口序列中窗口的右部,而左部具有非混疊部及相 對應(yīng)的零部(位于q)。因此,圖4B示意了當(dāng)欲使用完全重疊窗口進行AAC時,由MDCT-TCX 至AAC的轉(zhuǎn)換;或可選地,示意了當(dāng)窗口 74以完全重疊方式窗口化TCX數(shù)據(jù)塊時、由AAC至 MDCT-TCX的轉(zhuǎn)換,當(dāng)并無理由由一種模式切換至另一種模式時,此乃一方面為MDCT-TCX的 常規(guī)操作,另一方面為MDCT-AAC的常規(guī)操作。因此,窗口 73被稱為“開始窗口”或“停止窗口”,其額外具有的較佳特性為本 窗口長度是與至少一個鄰近窗口的長度相等,因此當(dāng)一塊被設(shè)定為具有與窗口系數(shù)相等數(shù) 目,亦即圖4D或圖4A的實例中的2η個采樣時,維持一般塊格柵(raster)或幀格柵。隨后,就圖5討論編碼器端及解碼器端的AAC-MDCT過程。在窗口化操作80中,應(yīng)用如81示意的窗口函數(shù)。該窗口函數(shù)具有兩個混疊部Lk 及&及非混疊部Mk。因此,窗口函數(shù)81類似于圖4B的窗口函數(shù)72。應(yīng)用該窗口函數(shù)至相 對應(yīng)的多數(shù)音頻采樣,結(jié)果產(chǎn)生具有對應(yīng)于IVlk的混疊子塊及對應(yīng)于Mk的非混疊子塊的 音頻采樣的已窗口化塊。如圖4B所指示的,執(zhí)行以82示意的折疊操作,獲得N個輸出,表示Lk部、&部減 少成具有較少數(shù)采樣。然后如結(jié)合圖4A的MDCT方程式所討論的,執(zhí)行DCT IV 83。通過任何可利用的數(shù) 據(jù)壓縮器(諸如量化器84)或任何其它執(zhí)行眾所周知的AAC工具的裝置,進一步處理MDCT 輸出。在解碼器端,執(zhí)行逆處理85。然后,通過DCr1IV 86,執(zhí)行由第三域變換至第一域。 然后如圖4A所討論的,執(zhí)行展開操作87。然后在模塊88,執(zhí)行合成窗口化操作,項目89a及 89b共同執(zhí)行時域混疊抵消。項目89b為應(yīng)用采樣延遲的延遲裝置,以便獲得如結(jié)合 圖4A所討論的重疊;加法器89執(zhí)行音頻信號的當(dāng)前部分的組合,諸如當(dāng)前窗口輸出的第一 部Lk與前一個窗口的最末部Rlri的組合。如90所指示的,結(jié)果產(chǎn)生無混疊部Lk及Mk。須 注意,Mk由一開始即為無混疊,但通過裝置89a、89b的處理已經(jīng)抵消了混疊部Lk中的混疊。在較佳實施例中,AAC-MDCT也可施加以只有混疊部的窗口,如圖4A所指示的,但 對一種編碼模式至另一種編碼模式的切換,優(yōu)選地,應(yīng)用具有混疊部并具有非混疊部的AAC 窗口。本發(fā)明的實施例是用于在AAC與AMR_WB+[4]間切換的切換音頻編碼。如圖5所述,AAC使用MDCT。AAC極為適合用于音樂信號。當(dāng)在先前處理中檢測得到輸入信號為音樂或由使用者標示為音樂時,切換編碼使用AAC。輸入信號幀k是通過尺寸為Lk、Mk& &的三部分窗口而窗口化。在將信號變換至 執(zhí)行量化的頻域之前,MDCT引入時域混疊分量。在加上大小Rlri = Lk的重疊前一個窗口化 信號之后,若引入了任何量化誤差,則可恢復(fù)原始信號幀的頭Lk+Mk采樣。時域混疊被抵消。隨后,就圖6討論本發(fā)明的TCX-MDCT過程。與圖5的編碼器相反,變換至第二域是由項目92執(zhí)行。項目92為產(chǎn)生LPC殘留 信號或加權(quán)信號的LPC變換器,該加權(quán)信號可使用如由TCX處理已知的加權(quán)濾波器,經(jīng)由對 LPC殘留信號進行加權(quán)而計算出。當(dāng)然,該TCX信號也可使用單一濾波器計算,通過對時域 信號濾波,獲得TCX信號,該TCX信號是LPC域的信號或概括言而言是第二域的信號。因此, 第一域/第二域變換器92在其輸出端提供輸入窗口化裝置80的信號。除了變換器92的 外,圖6的編碼器中的過程是類似圖5的編碼器中的過程。當(dāng)然,在圖5及圖6的模塊84 可應(yīng)用不同的數(shù)據(jù)壓縮算法,當(dāng)比較AAC編碼工具與TCX編碼工具時,這是顯而易見的。在解碼器端,執(zhí)行如結(jié)合圖5討論的相同步驟,但這些步驟并非對直接頻域(第三 域)的已編碼信號執(zhí)行,而是對在第四域(亦即LPC頻域)所產(chǎn)生的已編碼信號執(zhí)行。因此,圖6中裝置89a、89b的重疊加法過程是在第二域執(zhí)行的,而非如圖5所示在 第一域執(zhí)行的。AMR-WB+是基于語音編碼ACELP及基于變換的編碼TCX。對IOM個采樣的各個超 幀而言,AMR-WB+是用閉環(huán)判定在TCX與ACELP的17種不同的組合間作選擇。使用kgSNR 客觀評估,根據(jù)閉環(huán)判定選出最佳者。AMR-WB+適合用于語音及語音/音樂信號。原先的 TCX的DFT由MDCT置換來享有其重要性質(zhì)。然后,AMR-WB+的TCX等于MPTC編碼,但量化 除外,量化仍然存在。當(dāng)輸入信號被檢測或被標示為語音或語音/音樂時,由已切換的音頻 編碼器使用修改型AMR-WB+。TCX-MDCT并非直接對信號域執(zhí)行MDCT,而是在基于LPC系數(shù)通過分析濾波器W (ζ) 對該信號濾波后執(zhí)行MDCT。濾波器被稱作為加權(quán)分析濾波器,允許TCX同時白化該信號且 按照符合心理聲學(xué)理論的基于共振峰(formant)的曲線來對量化噪聲進行整形。圖5示意的處理是對直接AAC-MDCT模式執(zhí)行的,不使用圖4A的完全重疊窗口切 換至TCX模式或任何其它模式。但當(dāng)檢測到轉(zhuǎn)換時,應(yīng)用特定窗口,該窗口為用于轉(zhuǎn)換至其 它編碼模式的AAC開始窗口,或為用于由其它編碼模式轉(zhuǎn)換至AAC模式的AAC停止窗口,如 圖7所示。AAC停止窗口 93具有混疊部(示于93b)及非混疊部(示于93a),亦即在圖中 示為窗口 93的水平部分。相對應(yīng)地,AAC停止窗口 94被示為具有混疊部94b及非混疊部 94a。在AMR-WB+部中,應(yīng)用類似于圖4B的窗口 72的窗口,此處該窗口具有混疊部7 及非 混疊部72c。雖然圖7示出有單一 AMR-WB+窗口,可看作開始/停止窗口,但可存在多個優(yōu) 選具有50 %重疊的窗口,因此可類似于圖4A的窗口。通常AMR-WB+中的TCX不使用50 % 重疊。只采用小量重疊,以能夠使用特有的矩形窗口,亦即0%重疊,敏捷地切換至ACELP/ 從ACELP切換。但當(dāng)進行轉(zhuǎn)換時,如圖7的左中位置所示的,應(yīng)用AMR-WB+開始窗口 ;當(dāng)判定欲執(zhí) 行由AMR-WB+切換至AAC時,應(yīng)用AMR-WB+停止窗口。開始窗口在左側(cè)具有混疊部,而停止 窗口在右側(cè)具有混疊部,此處這些混疊部示于72a,及此處這些混疊部與示于9 或94b的 鄰近AAC開始/停止窗口的混疊部相對應(yīng)。
在圖7的1 個采樣的兩個重疊區(qū)進行特殊處理。為了抵消AAC的時域混疊, AMR-WB+分段的第一個幀及最后一個幀被強制變成TCX而非ACELP。這可通過在閉環(huán)判定 中對kgSNR分數(shù)進行偏移來進行。此外,特別地,如圖8A所示來處理TCX-MDCT的前1 個采樣,此處Lk = 128。如圖8B所示來處理AMR-WB+的最末1 個采樣,此處& = 128。圖8A示意了混疊部&朝非混疊部右側(cè)的處理,用于由TCX轉(zhuǎn)換至AAC ;圖8B示意 了混疊部Lk朝非混疊部左側(cè)的特殊處理,用于由AAC轉(zhuǎn)換至TCX。該處理與圖6相似,但加 權(quán)操作(亦即由第一域變換至第二域)的位置不同。特定而言,圖6中,變換是在窗口化之 前進行;而圖8B中,變換92是于窗口化80 (及折疊8 之后進行,亦即以“TDA”指示的時 域混疊引入操作。再度,在解碼器端,進行如圖6的相當(dāng)類似的處理步驟;但再度,混疊部的反相加 權(quán)位置是位于窗口化88之前(及展開87之前),而在圖8A以86指示的由第一域變換至第 二域之后。因此,根據(jù)本發(fā)明的較佳實施例,如圖IA或圖IB所指示地處理TCX的轉(zhuǎn)換窗口的 混疊部,而根據(jù)圖6處理該窗口的非混疊部。任何AAC-MDCT窗口的處理維持相同,除了轉(zhuǎn)換時選擇開始窗口或停止窗口之外。 但在其它實施例中,TCX處理維持相同,AAC-MDCT窗口的混疊部與非混疊部相比較以不同 方式處理。此外,視情況而定,兩個窗口(亦即AAC窗口或TCX窗口)的兩個混疊部可以以與 其非混疊部不同的方式處理。但在較佳實施例中,優(yōu)選地AAC處理就照現(xiàn)在的樣子進行;原 因在于由圖5顯然易知,在重疊-加法過程之后AAC處理已經(jīng)在信號域;以及針對TCX轉(zhuǎn) 換窗口,對非混疊部是如圖6的上下文所示地處理,而對混疊部是如圖8A或圖8B所示地處理。接著討論圖9A,其中圖IA的處理器12示為控制器98。圖9A中具有與圖IlA的各項相對應(yīng)的附圖標記的裝置具有類似的功能而不再討 論。特別地,圖9A示出的控制器98如圖9B所示地進行操作。在步驟98a,檢測到轉(zhuǎn) 換,此處此轉(zhuǎn)換是由判定級300指示。然后控制器98啟動而偏移開關(guān)521,使得開關(guān)521選 擇替代(2b)。然后由控制器98執(zhí)行步驟98b。特別地,控制器進行操作而取混疊部的數(shù)據(jù),不將 該數(shù)據(jù)直接饋至LPC 510,而在LPC濾波器510之前,將該數(shù)據(jù)直接饋至TDA模塊527a,未 通過LPC濾波器加權(quán)。然后由控制器98取得此數(shù)據(jù)并加權(quán),然后在已經(jīng)通過控制器98輸 出端的加權(quán)濾波器加權(quán)后,饋至DCT模塊527b。控制器98的加權(quán)濾波器在信號分析后使 用在LPC模塊510計算出的LPC系數(shù)。LPC模塊可饋至ACELP或TCX,此外,執(zhí)行LPC分析 來獲得LPC系數(shù)。MDCT裝置的DCT部分527b是由TDA裝置527a及DCT裝置527b組成。 控制器98輸出端的加權(quán)濾波器具有與LPC模塊510的濾波器及可能存在的額外加權(quán)濾波 器(諸如AMR-WB+TCX處理中的感官濾波器)相同的特性。如此,在步驟98b,照此順序進行 TDA-、LPC-、及 DCT 處理。另一部分的數(shù)據(jù)饋入LPC模塊510,及隨后如圖9A的正常信號路徑所示,饋至MDCT模塊527a、527b。在這種情況下,TCX加權(quán)濾波器并未明示于圖9A,原因在于其屬于 LPC 模塊 510。如前述,如圖8A指示,混疊部的數(shù)據(jù)在模塊527a窗口化,在模塊527內(nèi)部產(chǎn)生的 已窗口化數(shù)據(jù)在控制器輸出端經(jīng)LPC濾波,然后LPC濾波結(jié)果被應(yīng)用至MDCT模塊527的變 換部527b。用于加權(quán)由LPC裝置510所產(chǎn)生的LPC殘留信號的TCX加權(quán)濾波器未顯示在圖 9A中。此外,如結(jié)合圖8A所討論的,裝置527a包括窗口化級80及折疊級82 ;裝置527b包 括DCT IV級83。然后DCT IV級83/527b接收處理后的混疊部及相對應(yīng)處理后的另一部 分,進行公共的MDCT操作,隨后如圖9B中步驟98d所指示地,進行模塊5 中的數(shù)據(jù)壓縮。 因此,在就圖9A所討論的有線編碼器或軟件控制編碼器的情況下,如圖9D所指示的,控制 器98在不同模塊510與527a、527b間進行數(shù)據(jù)調(diào)度。在解碼器端,除了圖IlB所指示的模塊之外,設(shè)置轉(zhuǎn)換控制器99,如前文說明。轉(zhuǎn)換控制器99的功能將就圖IOB進行討論。一旦如圖IOB的步驟99a所摘述,轉(zhuǎn)換控制器99檢測到轉(zhuǎn)換,在數(shù)據(jù)解壓縮器 537a的數(shù)據(jù)解壓縮后,整個幀被饋至MDCr1級537b。此過程指示于圖IOB的步驟99b。然 后如步驟99c所指示,在進行TDAC處理之前,混疊部被直接饋至LPCT1級。但混疊部并未接 受完整“MDCT”處理,而如圖8B所示,只接受由第四域至第二域的反相變換。在圖8B的DCr1IV級86/級537b之后,混疊部被饋至圖IOA的額外LPC—1級537d, 確保由第二域變換至第一域,隨后,在模塊537c進行圖8B的展開操作87及窗口化操作88。 因此,在級86的DCT1操作后,轉(zhuǎn)換控制器99接收來自模塊537b的數(shù)據(jù),然后將此數(shù)據(jù)饋 至LPCT1模塊537d。然后本過程的輸出信號被饋入模塊537d來進行展開87及窗口化88。 然后混疊部的窗口化結(jié)果被轉(zhuǎn)發(fā)至TDAC模塊440b,以便執(zhí)行與AAC-MDCT塊的相對應(yīng)混疊 部的重疊-加法操作。有鑒于此,混疊塊的處理順序為537a中的數(shù)據(jù)解壓縮,537b中的 DCT1,537d中的反相LPC及反相TCX感官加權(quán)(共同表示反相加權(quán)),537c中的TDA—1處理 及然后440b中的重疊及加法。雖言如此,當(dāng)忽略與模塊99連接的箭頭時,幀的其余部分在540中的TDAC及反相 濾波/加權(quán)之前被饋至窗口化級,如就圖6所討論且如圖IOA的正常信號流程圖指示。有鑒于此,步驟99c獲得TDAC 440b后混疊部的已解碼音頻信號;步驟99d獲得 TDAC 537c的LPC域及模塊MO的反相加權(quán)后的剩余部分/另一部的已解碼音頻信號。依據(jù)某些實施要求而定,本發(fā)明的實施例可以以硬件或軟件實施。該實施例可使 用數(shù)字存儲媒體,例如軟盤、DVD、CD、ROM、PROM、EPROM、EEPROM、或閃存進行,這些數(shù)字存儲 媒體有電可讀控制信號儲存于其上,與可變成計算機系統(tǒng)協(xié)力合作(或可協(xié)力合作)而進 行各種方法。根據(jù)本發(fā)明的若干實施例包含具有電可讀控制信號的數(shù)據(jù)載體,這些控制信號可 與可變成計算機系統(tǒng)協(xié)力合作,而執(zhí)行如此處所述的方法之一。大致上,本發(fā)明的實施例可實施為帶有程序代碼的計算機程序產(chǎn)品,當(dāng)該計算機 程序產(chǎn)品在計算機上運轉(zhuǎn)時,該程序代碼可操作用以執(zhí)行這些方法之一。程序代碼例如可 儲存于機器可讀取載體上。其它實施例包含儲存于機器可讀取載體上的用于執(zhí)行此處所述方法之一的計算 機程序。
換言之,因此本發(fā)明的實施例為一種計算機程序,具有一程序代碼,當(dāng)該計算機程 序于計算機上運轉(zhuǎn)時,用于執(zhí)行此處所述的方法之一。因此本發(fā)明的又一實施例為一種數(shù)據(jù)載體(或數(shù)字存儲媒體或計算機可讀取媒 體),包含記錄于其上的用于執(zhí)行此處所述方法之一的計算機程序。因此本發(fā)明的又一實施例為一種表示該計算機程序的數(shù)據(jù)流或信號序列,用于執(zhí) 行此處所述方法之一。該數(shù)據(jù)流或信號序列例如可配置成通過數(shù)據(jù)通信連接(例如因特 網(wǎng))傳送。又一實施例包含一種處理裝置,例如計算機或可變成邏輯裝置,其被配置成或適 合執(zhí)行此處所述方法之一。又一實施例包含一種計算機,其上安裝用于執(zhí)行此處所述方法之一的計算機程序。在若干實施例中,可變成邏輯裝置(例如現(xiàn)場可編程柵極陣列)可用于執(zhí)行部分 或全部此處所述的方法功能。在若干實施例中,現(xiàn)場可編程柵極陣列可與微處理器協(xié)力合 作來執(zhí)行此處所述方法之一。前文說明的實施例僅供舉例說明本發(fā)明的原理。須了解,本領(lǐng)域技術(shù)人員顯然易 知前文說明的配置及細節(jié)的修改及變化。因此本發(fā)明的范圍僅受隨附的權(quán)利要求所限,而 非受此處實施例的說明及解釋表示的特定細節(jié)所限。
權(quán)利要求
1.一種用于編碼音頻信號的裝置,包含用于使用分析窗口將該音頻信號的第一塊窗口化的窗口化器(12),該分析窗口具有混 疊部(Lk, Rk)及另一部(Mk);處理器(12),用于通過在窗口化該音頻信號的第一子塊00)之后將該音頻信號的第 一子塊變換至與該音頻信號所在的域不同的域來處理與混疊部相關(guān)聯(lián)的該音頻信號的第 一子塊,以獲得已處理的第一子塊;及用于通過在窗口化第二子塊(21)之前將第二子塊變 換至所述不同的域來處理與該另一部相關(guān)聯(lián)的該音頻信號的第二子塊而獲得已處理的第 二子塊;及變換器(13),用于使用相同塊變換規(guī)則,將該已處理的第一子塊及該已處理的第二子 塊由所述不同的域變換至另一域而獲得已變換的第一塊,其中該裝置被配置用于使用數(shù)據(jù)壓縮算法進一步處理(14)該已變換的第一塊。
2.如權(quán)利要求1所述的裝置,其被配置成使用第二分析窗口(7 處理該音頻信號的與 第一塊重疊的第二塊,所述第二分析窗口具有與該第一分析窗口的混疊部(72b)相對應(yīng)的 混疊部(73b)。
3.如權(quán)利要求1或2所述的裝置,其中該音頻信號所在的域為時域;所述不同的域為 LPC域;與該音頻信號的第一塊重疊的該音頻信號的第二塊所編碼的第三域為頻域;以及 該變換器(1 被配置用于進行變換的所述另一域為LPC頻域,及其中該處理器(1 包含用于由第一域變換至第二域的LPC濾波器;或其中該變換器 (13)包含用于將輸入數(shù)據(jù)變換至該輸入數(shù)據(jù)的頻域的基于傅立葉的變換算法,諸如DCT、 DST、FFT、或 DFT。
4.如前述權(quán)利要求中任一項所述的裝置,其中該窗口化器(11)包含用于將輸入值折 疊而獲得輸出值的折疊函數(shù)(8 ,輸出值的數(shù)目小于輸入值的數(shù)目,其中該折疊函數(shù)將時 間混疊引入輸出值。
5.如前述權(quán)利要求中任一項所述的裝置,其中該窗口化器(11)操作用于執(zhí)行窗口化 來獲得用于隨后執(zhí)行的折疊函數(shù)(8 的輸入值。
6.如前述權(quán)利要求中任一項所述的裝置,其中該裝置包含用于在頻域編碼音頻信號的 第一編碼分支G00),及用于基于不同頻域編碼音頻信號的第二編碼分支(500),其中該第二編碼分支具有用于在另一頻域編碼該音頻信號的第一子分支(527,5 ), 及用于在另一域編碼該音頻信號的第二子分支(5 );該裝置進一步包含判定級(300),用 于判定音頻數(shù)據(jù)塊是使用該第一編碼分支還是該第二編碼分支的第一子分支或第二子分 支所產(chǎn)生的數(shù)據(jù)而呈現(xiàn)于輸出比特流,及其中該控制器(98)被配置成用于控制判定級(300)以在進行由第一編碼分支轉(zhuǎn)換至 第二編碼分支或由第二編碼分支轉(zhuǎn)換至第一編碼分支時判定有利于該第一子分支。
7.如前述權(quán)利要求中任一項所述的裝置,其中該另一部包含非混疊部(Mk)及附加混疊 部或與該音頻信號的鄰近塊的相對應(yīng)混疊部重疊的混疊部。
8.一種用于解碼具有已編碼第一音頻數(shù)據(jù)塊的已編碼音頻信號的裝置,該已編碼塊具 有混疊部及另一部,該裝置包含處理器(51),用于通過在執(zhí)行合成窗口化(88)之前將該混疊部變換(86)至目標域, 處理該混疊部(Lk,Rk),來獲得已窗口化的混疊部,以及用于在執(zhí)行變換(98)至該目標域之前,執(zhí)行該另一部的合成窗口化(88);及時域混疊抵消器(53),用于在將該音頻數(shù)據(jù)的已編碼第一塊的混疊部變換(91)至目 標域之后,將該已窗口化混疊部與音頻數(shù)據(jù)的已編碼第二塊的已窗口化混疊部組合,以獲 得與該第一塊的混疊部相對應(yīng)的已解碼音頻信號。
9.如權(quán)利要求8所述的裝置,其中該處理器(51)包含用于將該混疊部由第四域變換至 第二域的變換器(86);及該處理器進一步包含用于將呈現(xiàn)于第二域的混疊部變換至第一 域的變換器(91),其中該變換器(86)操作用于執(zhí)行基于塊的頻率時間變換算法。
10.如權(quán)利要求8或9所述的裝置,其中該處理器(12)操作用于執(zhí)行展開操作(87), 以用于獲得具有大于輸入該展開操作(87)的輸入值數(shù)目的數(shù)值數(shù)目的輸出數(shù)據(jù)。
11.如權(quán)利要求8、9或10中任一項所述的裝置,其中該處理器(12)操作用于使用合成 窗口化函數(shù)(88),該合成窗口化函數(shù)(88)與在產(chǎn)生該已編碼音頻信號時所使用的分析窗 口函數(shù)相關(guān)。
12.如前述權(quán)利要求8至11中任一項所述的裝置,其中該已編碼音頻信號包含編碼模 式指示符,指示用于該已編碼第一塊及該已編碼第二塊的編碼模式,其中該裝置進一步包含轉(zhuǎn)換控制器(99),用于當(dāng)該編碼模式指示符指示編碼模式時, 控制該處理器(1 由第一編碼模式改變成不同的第二編碼模式,或反之亦然;以及當(dāng)未以 信號通知兩個編碼塊間的編碼模式改變時,用于控制該處理器(1 針對整個編碼塊執(zhí)行 相同操作。
13.如前述權(quán)利要求8至12中任一項所述的裝置,其中第一編碼模式及第二編碼模式 包含熵解碼級、解量化級、包含展開操作的頻率-時間變換級、及合成窗口化級,其中該時域混疊抵消器(53)包含加法器(89a),用于將由該合成窗口化級(88)所得的 已編碼塊的相對應(yīng)混疊部相加,這些相對應(yīng)混疊部是通過該音頻信號的重疊處理(89b)獲 得的,及其中在該第一編碼模式中,該時域混疊抵消器(5 被配置用來將由合成窗口化所得 的各塊部分相加而獲得目標域的已解碼信號,作為該加法(89a)的輸出,及其中在該第二編碼模式中,該加法(89a)的輸出由該處理器(1 處理,以執(zhí)行該加法 的輸出變換(91)至該目標域。
14.一種包含音頻信號的已編碼第一塊及該音頻信號的重疊的已編碼第二塊的已編碼 音頻信號,該音頻信號的已編碼第一塊包含混疊部及另一部,該混疊部在窗口化(80)該混 疊部之后已經(jīng)由第一域變換至第二域,并且該另一部在窗口化(80)該第二子塊之前已經(jīng) 由該第一域變換至第二域,其中該第二子塊已經(jīng)使用相同塊變換規(guī)則變換至第四域,及其中已經(jīng)通過將音頻采樣的重疊塊窗口化(80)及通過將已窗口化塊變換至第三域, 產(chǎn)生了已編碼第二塊,其中該已編碼第二塊具有與音頻采樣的已編碼第一塊的混疊部相對 應(yīng)的混疊部。
15.一種編碼音頻信號的方法,包含使用分析窗口將該音頻信號的第一塊窗口化(11),該分析窗口具有混疊部(Lk,Rk)及 另一部(Mk);經(jīng)由將該音頻信號的第一子塊00)變換至與該域不同的域來處理(1 與混疊部相關(guān) 聯(lián)的該音頻信號的該第一子塊,其中該音頻信號在窗口化第一子塊之后獲得已處理的第一子塊;通過在窗口化第二子塊之前,將該第二子塊變換至不同域,來處理與該另一部相 關(guān)聯(lián)的該音頻信號的第二子塊,獲得已處理的第二子塊;使用相同塊變換規(guī)則,將該已處理的第一子塊及該已處理的第二子塊由所述不同的域 變換(1 至另一域來獲得已變換的第一塊;及使用數(shù)據(jù)壓縮算法,進一步處理(14)該已變換的第一塊。
16.一種解碼具有音頻數(shù)據(jù)的已編碼第一塊的已編碼音頻信號的方法,該已編碼塊具 有混疊部及另一部,該方法包含通過在執(zhí)行合成窗口化(88)之前,將該混疊部(Lk,&)變換(86)至目標域,處理(51) 該混疊部來獲得已窗口化混疊部;在變換(98)至該目標域之前,對該另一部進行合成窗口化(88);及 在該音頻數(shù)據(jù)的已編碼第一塊的混疊部變換(91)至目標域之后,組合(5 該已窗口 化混疊部與該音頻數(shù)據(jù)的已編碼第二塊的已窗口化混疊部來獲得時域混疊抵消,而獲得與 該第一塊的混疊部相對應(yīng)的已解碼音頻信號。
17.一種計算機程序,具有程序代碼,用于當(dāng)在計算機上運行時,執(zhí)行如權(quán)利要求15所 述的編碼方法或如權(quán)利要求16所述的解碼方法。
全文摘要
一種用于編碼音頻信號的裝置,包含窗口化器(11),用于使用具有混疊部及另一部的分析窗口來窗口化該音頻信號的第一塊。該裝置進一步包含處理器(12),用于通過將該第一子塊窗口化之后,將該子塊由一域變換至一不同域來處理與該混疊部相關(guān)聯(lián)的該音頻信號的第一子塊而獲得已處理的第一子塊;以及用于通過在窗口化該第二子塊之前,將該第二子塊由該域變換至該不同域來處理與該另一部相關(guān)聯(lián)的該音頻信號的第二子塊而獲得已處理的第二子塊。此外,該裝置包含變換器,用于使用相同塊變換規(guī)則,將該已處理的第一子塊及該已處理的第二子塊由該不同域變換至又一個不同域來獲得已變換的第一塊,然后該塊可使用眾所周知的數(shù)據(jù)壓縮算法中的任一者壓縮。如此,由于出現(xiàn)在不同域的混疊部彼此匹配,故可獲得兩種編碼模式間的臨界采樣的切換。
文檔編號G10L19/04GK102089812SQ200980127114
公開日2011年6月8日 申請日期2009年6月17日 優(yōu)先權(quán)日2008年7月11日
發(fā)明者延斯·希斯費爾德, 拉爾夫·蓋格爾, 斯特凡·拜爾, 杰拉爾德·舒勒, 熱雷米·勒康特, 紀堯姆·??怂? 馬庫斯·馬特拉斯 申請人:弗勞恩霍夫應(yīng)用研究促進協(xié)會