瞬態(tài)音頻信號(hào)分量的編碼的制作方法

文檔序號(hào)：2834626閱讀：279來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：瞬態(tài)音頻信號(hào)分量的編碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及編碼以及解碼音頻信號(hào)。
現(xiàn)參見

圖1，在美國(guó)公開申請(qǐng)No.2001/0032087A1中描述了參數(shù)編碼方案，具體而言是正弦編碼器。在該編碼器(1)中，從信道10提供的輸入音頻信號(hào)x(t)被分成多個(gè)(重疊)段或幀，一般長(zhǎng)20ms。通常每段由連續(xù)的編碼級(jí)11、13和14分解為瞬態(tài)(CT)、正弦(CS)和噪聲(CN)分量(還可能導(dǎo)出輸入音頻信號(hào)的其它分量，例如諧波合成，但是這些與本發(fā)明的目的不相關(guān))。
編碼器第一級(jí)包括瞬態(tài)編碼器11，其包括瞬態(tài)檢測(cè)器(TD)110、瞬態(tài)分析器(TA)111以及瞬態(tài)合成器(TS)112。檢測(cè)器110估算是否存在瞬態(tài)信號(hào)分量及其位置。此信息被饋給瞬態(tài)分析器111。如果瞬態(tài)信號(hào)分量的位置被確定，則瞬態(tài)分析器111試圖提取瞬態(tài)信號(hào)分量(的主要部分)。它通過(guò)采用例如若干(少量)的正弦分量，將形狀函數(shù)匹配于最好在所估算的開始位置處開始的信號(hào)段，并確定形狀函數(shù)之下的內(nèi)容。該信息被包含在瞬態(tài)碼CT中。
瞬態(tài)碼CT被提供給瞬態(tài)合成器112。所合成的瞬態(tài)信號(hào)分量在減法器16從輸入信號(hào)x(t)中減去，結(jié)果為信號(hào)x2。
信號(hào)x2被提供給正弦編碼器13，其中，在正弦分析器(SA)130中對(duì)其進(jìn)行分析，而正弦分析器(SA)130確定了(確定性的)正弦分量。正弦編碼的最終結(jié)果是正弦編碼CS，而在PCT專利申請(qǐng)No.WO00/79519A1中，提供了說(shuō)明常規(guī)生成示范性正弦編碼CS的更為詳細(xì)的示例。
正弦信號(hào)分量由正弦合成器(SS)131從用正弦編碼器生成的正弦碼CS中來(lái)重構(gòu)。該信號(hào)在減法器17中從到正弦編碼器13的輸入信號(hào)x2中被減去，結(jié)果為剩余的信號(hào)x3，而信號(hào)x3缺少(巨大的)瞬態(tài)信號(hào)分量和(主要的)確定性正弦分量。
假定剩余的信號(hào)x3主要包括噪聲，并且噪聲分析器14產(chǎn)生表示該噪聲的噪聲編碼CN，例如在PCT專利申請(qǐng)No.WO01/89086A1中所描述的那樣。
在多路復(fù)用器15中，組成包括碼CT、CS和CN的音頻流AS。
在瞬態(tài)編碼器11中，如果發(fā)生在時(shí)間上被定位的事件，例如響板或踏鈸(high-hats)的沖擊(attack)，則音頻信號(hào)的一部分被標(biāo)記為瞬態(tài)。
在美國(guó)公開申請(qǐng)No.2001/0032087A1中，用專用瞬態(tài)窗口(即Meixner窗)窗口化的若干正弦曲線對(duì)瞬態(tài)建模。在圖2中，示出了音頻信號(hào)(實(shí)線)的估算Meixner窗口(虛線)。瞬態(tài)估算過(guò)程包括三個(gè)步驟-瞬態(tài)位置估算音頻信號(hào)中的瞬態(tài)位置由瞬態(tài)檢測(cè)器110確定；-瞬態(tài)包絡(luò)估算在Meixner瞬態(tài)情況下，描述瞬態(tài)時(shí)間包絡(luò)的Meixner窗由瞬態(tài)分析器111估算；-正弦內(nèi)容估算利用估算的Meixner窗，分析器111估算若干正弦曲線來(lái)描述瞬態(tài)。正弦曲線由頻率和三個(gè)復(fù)數(shù)的、多項(xiàng)式幅度來(lái)表示。
在7個(gè)正弦曲線用于Meixner瞬態(tài)的實(shí)現(xiàn)中，瞬態(tài)模型所需的比特率范圍一般在0.5與2.0kbit/s之間，取決于音頻信號(hào)中檢測(cè)到的瞬態(tài)的數(shù)量。
通過(guò)利用如上所述的瞬態(tài)建模，就獲得了包含瞬態(tài)選段(excerpt)的良好音頻質(zhì)量。然而，音頻質(zhì)量可通過(guò)增加用于對(duì)瞬態(tài)建模的正弦曲線的數(shù)量來(lái)改善。在此情形下，瞬態(tài)的沖擊被更好地定義，并且獲得了瞬態(tài)的更多“真實(shí)感”。例如，可以發(fā)現(xiàn)，通過(guò)正弦曲線的數(shù)量從7增加到25，可以獲得好的結(jié)果。
參見圖3，分別示出了由7個(gè)正弦曲線(虛線)和25個(gè)正弦曲線(實(shí)線)建模的瞬態(tài)的頻譜。由25個(gè)正弦曲線建模的瞬態(tài)頻譜類似于原始瞬態(tài)頻譜，然而由7個(gè)正弦曲線建模的瞬態(tài)在頻譜中具有一些清晰的洞，盡管這7個(gè)正弦曲線模擬了頻譜中重要的峰值。
然而，利用25個(gè)正弦曲線，瞬態(tài)模型11所需要的比特率(從使用7個(gè)正弦曲線的2kbit/s)顯著增加到約6kbit/s。瞬態(tài)部分比特率的此增加必須被存儲(chǔ)在編碼器的正弦和/或噪聲建模元件13、14中，因此降低了總的音頻質(zhì)量。
根據(jù)本發(fā)明，提供根據(jù)權(quán)利要求1的方法。
本發(fā)明通過(guò)將噪聲分量的參數(shù)包括在瞬態(tài)描述中，擴(kuò)展了目前的瞬態(tài)模型。因此，代替僅僅使用正弦的是，正弦和噪聲都用于描述瞬態(tài)。
在優(yōu)選實(shí)施例中，由正弦和噪聲建模的瞬態(tài)時(shí)間間隔可以不同。
瞬態(tài)噪聲分量的參數(shù)導(dǎo)致了比特率的較小增加，但卻提高了瞬態(tài)的感覺(perceptual)質(zhì)量。
因此，本發(fā)明反而降低了由附加正弦曲線所需的比特率，同時(shí)保持了音頻質(zhì)量。這是因?yàn)楦郊诱仪€沒有對(duì)頻譜中的清晰峰值建模，正如原始正弦曲線那樣，相反，附加正弦曲線或多或少地填補(bǔ)了原始正弦曲線之間的間隙。在時(shí)域中，由附加正弦描述的信號(hào)是類噪聲，從而已經(jīng)發(fā)現(xiàn)頻譜的這些部分用噪聲參數(shù)建模更加有效。
現(xiàn)在參見附圖通過(guò)示例，將描述本發(fā)明的實(shí)施例，其中圖1是音頻編碼器的框圖；圖2示出了用于響板選段(實(shí)線)的瞬態(tài)包絡(luò)(虛線)的示例；圖3分別示出了由7個(gè)正弦曲線(虛線)和25個(gè)正弦曲線(實(shí)線)建模的瞬態(tài)頻譜的示例。
圖4示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用噪聲擴(kuò)展的瞬態(tài)頻譜的示例(虛線)，其與由25個(gè)正弦曲線(實(shí)線)建模的瞬態(tài)頻譜相比；圖5示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例建模的瞬態(tài)分量；圖6是音頻解碼器的框圖；以及圖7是根據(jù)本發(fā)明優(yōu)選實(shí)施例的瞬態(tài)合成器的詳圖。
根據(jù)本發(fā)明的優(yōu)選實(shí)施例，替代地，通過(guò)定位的(localized)突發(fā)噪聲對(duì)上述附加(18)正弦曲線建模，而該突發(fā)噪聲具有與附加正弦相同的能量。突發(fā)噪聲被置于瞬態(tài)的開始，而且固定的時(shí)間窗口用于成形突發(fā)噪聲。只有突發(fā)噪聲的能量必須在已編碼的信號(hào)(AS)的瞬態(tài)編碼(CT)內(nèi)傳輸，所以僅僅稍微增加了實(shí)現(xiàn)本實(shí)施例所需的比特率。圖4示出了瞬態(tài)的頻譜，其中突發(fā)噪聲已經(jīng)被附加到由7個(gè)正弦曲線(虛線)建模的頻譜。可以發(fā)現(xiàn)，該頻譜可以與由25正弦曲線(實(shí)線)建模的頻譜進(jìn)行比較。
更具體而言，在優(yōu)選實(shí)施例的編碼器中，瞬態(tài)分析器111以常規(guī)方式使用眾多正弦曲線(例如25個(gè))來(lái)估算Meixner瞬態(tài)并對(duì)瞬態(tài)建模。該信號(hào)用th來(lái)標(biāo)注，并且(在44.1kHz采樣速率)具有長(zhǎng)度U＝720個(gè)采樣。最相關(guān)的正弦曲線(例如7個(gè))被用于生成另一瞬態(tài)信號(hào)t1。對(duì)最相關(guān)的正弦曲線的選擇，例如可以利用基于能量的費(fèi)用(cost)函數(shù)或任何其他的常規(guī)標(biāo)準(zhǔn)。在任何情況下，信號(hào)t1然后從信號(hào)th中減去，以便提供差值信號(hào)d＝th-t1，用于生成突發(fā)噪聲。
突發(fā)噪聲被置于瞬態(tài)的開始，并且優(yōu)選地，具有比該瞬態(tài)更短的長(zhǎng)度L。在優(yōu)選實(shí)施例中，(在44.1kHZ采樣速率)L＝150采樣。差值信號(hào)根據(jù)下列函數(shù)來(lái)窗口化dw(n)＝d(n)w0(n)，for n＝1，...，L，其中w0是窗，具有漸弱斜率，其被定義為w0(n)=1,forn=1,...,L/20.5(1+cos(2π(n-L/2)/L)),forn=L/2+1,...L]]>漸弱是漢寧(Hanning)窗的第二部分。然而，可對(duì)于窗給出不同的定義。
窗口化的段dw的能量量度如下E=l/LΣn=1ldw(n)2]]>并且，能量E連同包含信號(hào)t1的正弦曲線參數(shù)一起被量化，并作為瞬態(tài)碼CT的一部分被發(fā)送到解碼器。因此，涉及差值信號(hào)d的(附加)正弦曲線的信息被丟棄，并用突發(fā)噪聲參數(shù)替代。
信號(hào)th由合成器112進(jìn)行合成，如同在常規(guī)編碼器中那樣，并且信號(hào)th從輸入信號(hào)x(t)中減去(16)，以便生成剩下的信號(hào)x2，信號(hào)x2象以前一樣在正弦分析模塊13中被饋給。可替換地，瞬態(tài)碼CT在從輸入信號(hào)x(t)中被減去之前，可由合成器112合成，如同在解碼器(下面說(shuō)明)中一樣，以便生成剩下的信號(hào)x2。
按照這種方式，可通過(guò)音頻編碼器的正弦曲線模塊13和噪聲模塊14，對(duì)瞬態(tài)部分更好地建模。
現(xiàn)在參見圖6，根據(jù)本發(fā)明的優(yōu)選實(shí)施例的解碼器一般具有與美國(guó)公開申請(qǐng)No.2001/0032087A1的解碼器相同的形式。這里，音頻流AS’，例如由根據(jù)圖1的編碼器生成的，從諸如數(shù)據(jù)總線、天線系統(tǒng)、存儲(chǔ)介質(zhì)等之類的信道獲得。音頻流AS在解復(fù)用器30中被解復(fù)用，以獲得碼CT、CS和CN。這些碼被分別提供給瞬態(tài)合成器31、正弦合成器32和噪聲合成器33。
在本發(fā)明的優(yōu)選實(shí)施例中，在瞬態(tài)合成器31中，包含原始正弦的信號(hào)t1的參數(shù)用于在圖7合成器TSS中重構(gòu)正弦曲線。然后，根據(jù)Meixner函數(shù)的參數(shù)b、ξ，以常規(guī)方式窗口化(MDW)該信號(hào)。
同時(shí)，重構(gòu)已編碼的能量值，結(jié)果是能量。白噪聲發(fā)生器(WNG)提供長(zhǎng)度為L(zhǎng)的高通濾波器噪聲段。優(yōu)選地，高通濾波器具有300Hz的截止頻率，以便避免通過(guò)噪聲進(jìn)行超低頻率的建模。利用窗口w來(lái)窗口化(WDW)已濾波的噪聲信號(hào)，優(yōu)選地，窗口w是長(zhǎng)度L的漢寧窗。然而，其他窗也可以(例如，非對(duì)稱的漢寧窗)。
該窗口化噪聲信號(hào)用rw表示。此信號(hào)通過(guò)增益g1比例縮放，g1根據(jù)下列等式來(lái)計(jì)算gt=E^l/LΣn=1Lrw(n)2]]>最終生成的能量突發(fā)，在加法器39中被添加上瞬態(tài)的合成正弦分量，因而完成了瞬態(tài)信號(hào)yT的合成，信號(hào)yT在被添加了信號(hào)y(t)的其他合成分量時(shí)，可以象以前一樣進(jìn)行處理。
在圖5中，示出了已建模的瞬態(tài)的正弦和噪聲分量。上面的跡線示出了瞬態(tài)的時(shí)間信號(hào)。第二條跡線示出了已建模的瞬態(tài)正弦分量，而下面的跡線示出了置于在瞬態(tài)起始處的突發(fā)噪聲。應(yīng)該看到，大多數(shù)瞬態(tài)被正弦分量描述，然而在瞬態(tài)的重要沖擊中，添加了噪聲分量。
返回參見圖6，正弦碼CS用于生成信號(hào)yS，如指定段上的正弦和所描述的。同時(shí)，噪聲碼CN被饋給噪聲合成器NS33，其主要是濾波器，具有近似于噪聲頻譜的頻率響應(yīng)。NS33通過(guò)噪聲碼CN濾除白噪聲信號(hào)，生成重構(gòu)的噪聲yN。
總信號(hào)y(t)包括瞬態(tài)信號(hào)yT和任意幅度分解(g)的生成物之和，以及正弦信號(hào)yS和噪聲信號(hào)yN之和。音頻播放器包含兩個(gè)加法器36和37，以便計(jì)算對(duì)應(yīng)信號(hào)的和。總信號(hào)被提供給輸出單元35，例如揚(yáng)聲器。
本發(fā)明可被用于音頻編碼器中，其中，瞬態(tài)通過(guò)窗口化正弦曲線來(lái)描述。
權(quán)利要求
1.一種編碼(1)音頻信號(hào)(x(t))的方法，包括步驟-估算(110)音頻信號(hào)的瞬態(tài)信號(hào)分量的位置；-用第一組多個(gè)正弦分量對(duì)所述瞬態(tài)信號(hào)分量的第一部分(t1)建模(111)；-估算瞬態(tài)信號(hào)分量的第一部分(t1)和瞬態(tài)信號(hào)分量之間的差值(d)；-用所述差值的能量量度(E)對(duì)所述差值建模(111)；以及-將所述量度(E)包含在音頻流(AS)中。
2.如權(quán)利要求1所述的方法，其中，對(duì)所述第一部分建模的步驟包括-用第二組多個(gè)正弦分量(tb)對(duì)所述瞬態(tài)信號(hào)分量建模；以及-按照標(biāo)準(zhǔn)從所述第二組多個(gè)正弦分量中選擇所述第一組多個(gè)正弦分量。
3.如權(quán)利要求2所述的方法，其中，所述標(biāo)準(zhǔn)與正弦分量的能量有關(guān)。
4.如權(quán)利要求2所述的方法，其中，所述估算步驟還包括從用所述第二組多個(gè)正弦分量建模的瞬態(tài)中減去用所述第一組多個(gè)正弦分量建模的瞬態(tài)，以便提供所述差值(d)。
5.如權(quán)利要求4所述的方法，其中，所述估算步驟還包括在時(shí)域中窗口化所述差值，以使差值漸弱。
6.如權(quán)利要求5所述的方法，其中，所述窗口在時(shí)間上小于所述瞬態(tài)信號(hào)分量。
7.如權(quán)利要求5所述的方法，其中，對(duì)所述差值建模的所述步驟包括確定所述窗口化的差值(d(w))的能量。
8.一種解碼音頻流(AS)的方法，包括-讀取包括一個(gè)或多個(gè)瞬態(tài)碼(CT)的已編碼的音頻流(AS’)，每個(gè)瞬態(tài)碼(CT)包括第一組多個(gè)正弦分量和能量量度(E)；-用所述第一組多個(gè)正弦分量合成(TSS)瞬態(tài)信號(hào)分量的第一部分；-合成(WNG)所述瞬態(tài)信號(hào)分量時(shí)間周期的噪聲；-根據(jù)所述能量量度(E)修改(g)所述合成的噪聲；以及-將所述合成的第一部分和所述修改的噪聲相加，以生成音頻信號(hào)(y(t))的合成瞬態(tài)分量(yT)。
9.如權(quán)利要求8所述的方法，還包括高通濾波所述合成噪聲的步驟。
10.如權(quán)利要求8所述的方法，還包括窗口化(WDW)所述合成噪聲的步驟，以使所述噪聲在所述時(shí)間周期上漸弱。
11.如權(quán)利要求8所述的方法，其中，所述修改步驟包括通過(guò)所述能量量度比例縮放(g)所述合成的噪聲。
12.一種包括一個(gè)或多個(gè)瞬態(tài)碼(CT)的音頻流(AS)，每個(gè)瞬態(tài)碼(CT)包括第一組多個(gè)正弦分量和能量量度(E)，正弦分量代表音頻信號(hào)瞬態(tài)分量的第一部分(t1)，能量量度(E)代表瞬態(tài)信號(hào)分量的第一部分(t1)和相應(yīng)瞬態(tài)信號(hào)分量之間的差值(d)。
13.一種音頻編碼器(1)，包括-分析器(110)，用于估算音頻信號(hào)的瞬態(tài)信號(hào)分量的位置；-第一建模元件(111)，用于用第一組多個(gè)正弦分量對(duì)所述瞬態(tài)信號(hào)分量的第一部分(t1)建模；-用于估算瞬態(tài)信號(hào)分量的第一部分(t1)和瞬態(tài)信號(hào)分量之間差值(d)的裝置；-第二建模元件(111)，用于用所述差值的能量量度(E)對(duì)所述差值建模；以及-比特流發(fā)生器，被安排成將所述量度(E)包含在音頻流(AS)中。
14.一種音頻播放器(3)，包括-用于讀取包括一個(gè)或多個(gè)瞬態(tài)碼(CT)的已編碼的音頻流(AS’)的裝置，每個(gè)瞬態(tài)碼(CT)包括第一組多個(gè)正弦分量和能量量度(E)；-合成器(TSS)，用于用所述第一組多個(gè)正弦分量合成瞬態(tài)信號(hào)分量的第一部分；-合成器(WNG)，用于合成所述瞬態(tài)信號(hào)分量時(shí)間周期的噪聲；-用于根據(jù)所述能量量度(E)修改(g)所述合成的噪聲的裝置；以及-加法器，用于將所述合成的第一部分和所述修改的噪聲相加，以生成音頻信號(hào)(y(t))的合成瞬態(tài)分量(yT)。
15.一種包括根據(jù)權(quán)利要求13的音頻編碼器和根據(jù)權(quán)利要求14的音頻播放器的音頻系統(tǒng)。
全文摘要
公開了一種編碼(1)音頻信號(hào)(x(t))的方法。估算(110)音頻信號(hào)的瞬態(tài)信號(hào)分量的位置。用第一組多個(gè)正弦分量對(duì)所述瞬態(tài)信號(hào)分量的第一部分(ti)建模(111)。估算瞬態(tài)信號(hào)分量的第一部分(ti)和瞬態(tài)信號(hào)分量之間的差值(d)。用所述差值的能量量度(E)對(duì)所述差值建模；并將所述量度(E)包含在音頻流(AS)中。
文檔編號(hào)G10L19/093GK1849649SQ200480025823
公開日2006年10月18日申請(qǐng)日期2004年8月26日優(yōu)先權(quán)日2003年9月9日
發(fā)明者A·J·格里特斯, A·C·鄧布林克申請(qǐng)人:皇家飛利浦電子股份有限公司

完整全部詳細(xì)技術(shù)資料下載