用于降低時域解碼器中的量化噪聲的裝置和方法
【技術領域】
[0001] 本公開涉及聲音處理領域,更具體地,本公開涉及降低聲音信號中的量化噪聲。
【背景技術】
[0002] 現(xiàn)有技術的傳統(tǒng)編解碼器在大約8kbps的比特速率處表現(xiàn)出質量非常良好的干 凈語音信號,并且在16kbps的比特速率處接近透明。為了在低比特速率處維持該高語音質 量,通常使用多模編碼方案。通常輸入信號被分為反映其特性的不同類別。不同類別包括例 如嗓音語音(voiced speech)、非嗓音語音(unvoiced speech)、嗓音進攻(voiced onset) 等。編解碼器隨后使用針對這些類別優(yōu)化的不同編碼模式。
[0003] 基于語音模式的編解碼器通常不能很好地呈現(xiàn)(render)例如音樂的通常音頻信 號。因此,一些部署的語音編解碼器不能高質量地表示音樂,尤其在低比特速率處。當部署 編解碼器時,由于比特流被標準化并且對比特流的任何修改將打破編解碼器的互操作性的 事實,難以修改編碼器。
[0004] 因此,存在改進基于語音模式的編解碼器(例如基于線性預測(LP)編解碼器)的 音樂內(nèi)容呈現(xiàn)的需要。
【發(fā)明內(nèi)容】
[0005] 根據(jù)本公開,提供一種用于降低在由時域解碼器解碼的時域激勵中包含的信號中 的量化噪聲的裝置。所述裝置包括將解碼后的時域激勵轉換為頻域激勵的轉換器。還包括 產(chǎn)生用于取回在量化噪聲中丟失的頻譜信息的加權掩模的掩模構造器。所述裝置還包括頻 域激勵的修改器,通過應用加權掩模增大頻譜動態(tài)。所述裝置還包括將修改的頻域激勵轉 換為修改的時域激勵的轉換器。
[0006] 本公開還涉及一種用于降低在由時域解碼器解碼的時域激勵中包含的信號中的 量化噪聲方法。解碼后的時域激勵被時域解碼器轉換為頻域激勵。產(chǎn)生加權掩模用于取回 在量化噪聲中丟失的頻譜信息。通過應用加權掩模修改頻域激勵以增大頻譜動態(tài)。修改的 頻域激勵被轉換為修改的時域激勵。
[0007] 上述和其他特征在閱讀下列參考附圖僅通過示例給出的其示意性實施例的非限 制性描述時變得更加清楚。
【附圖說明】
[0008] 將參考附圖僅通過示例描述本公開的實施例,其中:
[0009] 圖1是示出根據(jù)實施例的用于降低在由時域解碼器解碼的時域激勵中包含的信 號中的量化噪聲的方法的操作的流程圖;
[0010] 圖2a和2b (統(tǒng)稱為圖2)是具有用于降低音樂信號和其他聲音信號中的量化噪聲 的頻域后處理能力的解碼器的簡化示意圖;以及
[0011] 圖3是形成圖2的解碼器的硬件組件的示例配置的簡化框圖。
【具體實施方式】
[0012] 本公開的各種方面一般通過降低音樂信號中的量化噪聲來解決改進基于語音模 式的編解碼器(例如基于線性預測(LP)的編解碼器)的音樂內(nèi)容呈現(xiàn)的問題中的一個或 多個。應記住的是本公開的教導也可以應用于其他聲音信號,例如除了音樂之外的通用音 頻信號。
[0013] 對解碼器的修改可以改進接收器側的感知質量。本公開公開一種在解碼器側實現(xiàn) 用于音樂信號和其他聲音信號的頻域后處理,其降低解碼后的合體(synthesis)的頻譜中 的量化噪聲的。后處理可以在沒有任何額外的編碼延遲的情況下實現(xiàn)。
[0014] 這里使用的頻譜諧波之間的量化噪聲的頻域移除和頻域后處理的原理基于 Vaillancourt等的、2009年09月11日的PCT專利公布W02009/109050A1 (在下文中為 "Vaillancourt' 050"),其公開通過引用合并于此。一般地,對解碼后的合體應用這種頻域 后處理,并且這種頻域后處理需要增加處理延遲以便包括重疊并且增加處理以得到顯著的 質量增益。此外,使用傳統(tǒng)頻域后處理能力,由于有限的頻率分辨率,增加的延遲越短(即 變換窗口越短),后處理效果越差。根據(jù)本公開,頻域后處理實現(xiàn)更高的頻率分辨率(使用 更長的頻率變換),而不對合體增加延遲。此外,利用過去幀頻率能量中存在的信息來創(chuàng)建 應用于當前幀頻譜的加權掩模,以取回,即增強,在編碼噪聲中丟失的頻譜信息。為了在不 對合體增加延遲的情況下實現(xiàn)該后處理,在該示例中,使用對稱的梯形窗口。其中心在窗口 是平的(flat)的當前幀(其具有值為1的固定值),并且外推被用于創(chuàng)建未來信號。雖然 后處理一般可能被直接應用于任何編解碼器的合成信號,但是本公開引入示意性實施例, 其中后處理被應用于在編碼激勵線性預測(CELP)編解碼器的架構中的激勵信號,其被描 述在標題為"Adaptive Multi-Rate - Wideband(AMR-WB) "的、第三代合作伙伴項目(3GPP) 的技術規(guī)范(TS) 26. 190中,3GPP網(wǎng)站上可獲取該技術規(guī)范,且通過引用將其全部內(nèi)容合并 于此。對激勵信號而非合成信號進行工作的優(yōu)點在于由后處理引入的任何潛在不連續(xù)性被 隨后應用CELP合成濾波器而平滑掉。
[0015] 在本公開中,具有12. 8kHz的內(nèi)采樣頻率的AMR-WB用于示例目的。然而,本公開 可以應用于其中由通過合成濾波器(例如LP合成(synthesis)濾波器)濾波的激勵信號 獲得合體的其他低比特速率語音解碼器。其也可以應用于其中使用時域和頻域激勵的組合 對音樂進行編碼的多模式編解碼器上。下面總結后濾波器的操作。然后是使用AMR-WB的 示意性實施例的詳細描述。
[0016] 首先,與在其公開通過引用合并于此的Jelinek等的、2003年12月11日的 PCT專利公開W02003/102921、Vaillancourt等的、2007年07月05日的PCT專利公開 W02007/073604A1、以及Vaillancourt等名下的、2012年11月01日提交的PCT國際申請 PCT/CA2012/001011 (在下文中為" Vai 1 lancourt ' 011")中公開的類似,對完整比特流進行 解碼并且通過第一級分類器處理當前幀合體。出于本公開的目的,該第一級分類器分析幀 并且將非活動(INACTIVE)幀和例如對應于活動非嗓音語音的幀的非嗓音(UNVOICED)幀分 開。使用第二級分類器分析在第一級中沒有被分類為非活動幀或非嗓音幀的全部幀。第二 級分類器決定是否應用后處理以及應用到何種程度。當不應用后處理時,僅更新與后處理 有關的存儲器。
[0017] 對于沒有被第一級分類器分類為非活動幀或活動非嗓音語音幀的全部幀,使用過 去的解碼后的激勵、當前幀解碼的激勵和未來激勵的外推形成向量。過去的解碼后的激勵 和外推的激勵的長度相同并且取決于頻率變換的期望分辨率。在該示例中,使用的頻率變 換的長度是640個樣本。使用過去和外推的激勵創(chuàng)建向量允許增大頻率分辨率。在本示例 中,過去的和外推的激勵的長度相同,但是后濾波器不一定需要窗口對稱來高效地工作。
[0018] 然后,使用第二級分類器分析連結的激勵(包括過去的解碼后的激勵、當前幀解 碼后的激勵和未來激勵的外推)的頻率表示的能量穩(wěn)定性,以確定存在音樂的可能性。在 該示例中,在兩級處理中進行存在音樂的確定。然而,音樂檢測可以以不同方式進行,例如 可能在頻率變換之前的單個操作中進行,或甚至在編碼器中確定并且在比特流中傳送。
[0019] 與在Vaillancourt'050中類似,通過估計每個頻率點(bin)的信噪比(SNR)以及 通過根據(jù)其SNR對每一個頻率點(bin)應用增益來降低諧波間量化噪聲。然而,在本公開 中,與在Vaillancourt' 050中教導的不同地完成噪聲能量估計。
[0020] 然后,使用取回在編碼噪聲中丟失的信息并且進一步增大頻譜的動態(tài)的額外處 理。該處理以能量頻譜的〇和1之間的標準化開始。然后,常數(shù)偏移被加到標準化后的能 量頻譜。最后,對修改的能量頻譜的每一個頻率點應用8的冪。通過平均函數(shù)沿頻率軸從 低頻到高頻處理得到的縮放后的能量頻譜。最后,逐點進行頻譜在時間上的長期平滑處理。
[0021] 處理的該第二部分導致其中波峰對應于重要的頻譜信息并且波谷對應于編碼噪 聲的掩模。隨后使用該掩模,通過稍微增大波峰區(qū)域處的頻譜點幅度同時衰減在波谷中的 點幅度,從而增大峰谷比,來濾除噪聲和增大頻譜動態(tài)。使用高頻分辨率完成這兩個操作, 而不對輸出合體增加延遲。
[0022] 在增強連結的激勵向量的頻率表示之后(其噪聲降低并且其頻譜動態(tài)增大),進 行逆頻率變換以創(chuàng)建連結的激勵的增強版本。在本公開中,對應于當前幀的變換窗口的部 分是基本上平的,并且僅應用于過去的和外推的激勵信號的窗口的部分需要被錐形化。這 使得可以在逆變換之后消除增強的激勵的當前幀。該上一操縱類似于在當前幀的位置處將 時域增強的激勵與矩形窗口相乘。雖然在沒有增加重要的塊假象(artifact)的情況下在 合成域中不能完成該操作,但是這可以可替換地在激勵域中完成,因為LP合成濾波器有助 于對從一個塊到另一個塊的轉變進行平滑處理,如Vaillancourt' 011中所示。
[0023] 示例AMR-WB實施例的描沭
[0024] 這里描述的后處理應用于LP合成濾波器的解碼后的激勵,用于如音樂或回響語 音的信號。可以通過向解碼器發(fā)送分類信息作為AMR-WB比特流的一部分的編碼器用信號 通知關于信號(語音、音樂和回響語音等)的性質的決定和關于應用后處理的決定。如果 不是這種情況,則可替換地可以在解碼器側上完成信號分類。取決于復雜度和分類可靠性 權衡,合成濾波器可以可選地應用于當前激勵以得到臨時合體和更好的分類分析。在該配 置中,如果分類導致應用后濾波的類別,則覆寫合體。為了使得增加的復雜度最小化,還可 以在過去的幀合體上完成分類,并且在后處理之后,應用一次合成濾波器。
[0025] 現(xiàn)在參考附圖,圖1是示出根據(jù)實施例的用于降低在由時域解碼器解碼的時域激 勵中包含的信號中的量化噪聲的方法的操作的流程圖。圖1中,序列10包括可以以可變順 序執(zhí)行的多個操作,所述操作中的一些可以同時執(zhí)行,所述操作中的一些是可選的。在操作 12處,時域解碼器取回并解碼由編碼器產(chǎn)生的比特流,比特流包括以參數(shù)的形式的、可用于 重建時域激勵的時域激勵信息。對此,時域解碼器可以通過輸入接口接收比特流或從存儲 器讀取比特流。在操作16處,時域解碼器將解碼后的時域激勵轉換為頻域激勵。在操作 16處將激勵信號從時域轉換為頻域之前,可以在操作14處外推未來的時域激勵,使得時域 激勵到頻域激勵的轉換變?yōu)闊o延遲的。也就是說,在不需要額外延遲的情況下,進行更好的 頻率分析。為此,過去的、當前的和預測的未來的時域激勵信號可以在轉換為頻域之前被連 結。在操作18處,時域解碼器隨后產(chǎn)生用于取回在量化噪聲中丟失的頻譜信息的加權掩 模。在操作20處,時域解碼器修改頻域激勵以通過加權掩模的應用來增大頻譜動態(tài)。在操 作22處,時域解碼器將修改的頻域激勵轉換為修改的時域激勵。時域解碼器可以隨后在操 作24處產(chǎn)生修改的時域激勵的合體并且在操作26處從解碼的時域激勵的合體和修改的時 域激勵的合體中的一個生成聲音信號。
[0026] 可以使用若干可選特征修改圖1中示出的方法。例如,解碼后的時域激勵的合體 可以被分類為第一組激勵類別和第二組激勵類別中的一個,其中第二組激勵類別包括非活 動或非嗓音類別,而第一組激勵類別包括其他類