欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

提供時(shí)間扭曲激活信號(hào)以及使用該時(shí)間扭曲激活信號(hào)對(duì)音頻信號(hào)編碼的制作方法

文檔序號(hào):2833647閱讀:281來源:國知局
專利名稱:提供時(shí)間扭曲激活信號(hào)以及使用該時(shí)間扭曲激活信號(hào)對(duì)音頻信號(hào)編碼的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻編碼和解碼,并且具體地針對(duì)具有諧波或語音內(nèi)容的、可受到時(shí)間扭曲處理的音頻信號(hào)的編碼/解碼。
背景技術(shù)
在下文中,將給出對(duì)時(shí)間扭曲音頻編碼的領(lǐng)域的簡要說明,該編碼的概念可結(jié)合本發(fā)明的一些實(shí)施例一起應(yīng)用。近年來,技術(shù)上的發(fā)展可將音頻信號(hào)變換為頻域表示,并且例如考慮到感知屏蔽閾值,可以對(duì)該頻域表示進(jìn)行有效地編碼。如果發(fā)送編碼頻譜系數(shù)組的塊長度很長,且如果僅相當(dāng)小數(shù)目的頻譜系數(shù)遠(yuǎn)在該全局屏蔽閾值之上,同時(shí)很大數(shù)目的頻譜系數(shù)在該全局屏蔽閾值附近或之下并可能因而被忽略(或以最小碼長進(jìn)行編碼)時(shí),該音頻信號(hào)編碼的概念特別有效。例如,基于余弦或基于正弦的調(diào)制的重疊變換通常由于它們的能量壓縮性質(zhì)而用于源編碼的應(yīng)用。即,對(duì)于具有恒定基本頻率(音調(diào))的諧音而言,它們將信號(hào)能量濃縮于小數(shù)目的頻譜分量(子頻帶)中,這導(dǎo)致了有效的信號(hào)表示。大體而言,應(yīng)當(dāng)將信號(hào)的(基本)音調(diào)理解為可與該信號(hào)頻譜相區(qū)別的最低主頻率。在普通語音模型中,該音調(diào)是由人類喉嚨調(diào)制的激勵(lì)信號(hào)的頻率。如果僅一個(gè)單一基本頻率存在,該頻譜將極其簡單,僅包括該基本頻率及泛音??梢愿咝У貙?duì)這種頻譜編碼。然而,對(duì)于具有變化音調(diào)的信號(hào),對(duì)應(yīng)于每個(gè)諧波分量的能量散布于若干變換系數(shù)上,因而導(dǎo)致編碼效率的減少。為了克服編碼效率的減少,在不均勻時(shí)間網(wǎng)格上對(duì)要編碼的音頻信號(hào)有效地重新采樣。在隨后的處理中,對(duì)通過不均勻重新采樣所獲得的采樣位置就好像它們表示均勻時(shí)間網(wǎng)格上的值一樣進(jìn)行處理。該操作一般由短語“時(shí)間扭曲”來表示??扇Q于該音調(diào)的時(shí)間變化來有利地選擇采樣時(shí)間,使得該音頻信號(hào)的時(shí)間扭曲版本中的音調(diào)變化小于該音頻信號(hào)的原始版本(時(shí)間扭曲前)中的音調(diào)變化。該音調(diào)變化也可用短語“時(shí)間扭曲輪廓”表示。在音頻信號(hào)的時(shí)間扭曲之后,將該音頻信號(hào)的時(shí)間扭曲版本轉(zhuǎn)換為頻域。該依賴于音調(diào)的時(shí)間扭曲具有如下效果時(shí)間扭曲音頻信號(hào)的頻域表示一般地顯示出將能量壓縮成遠(yuǎn)遠(yuǎn)小于該原始音頻信號(hào)(未被時(shí)間扭曲)的頻域表示的頻譜分量數(shù)目。在解碼器側(cè),將該時(shí)間扭曲音頻信號(hào)的頻域表示轉(zhuǎn)換回時(shí)域,使得該時(shí)間扭曲音頻信號(hào)的時(shí)域表示在解碼器側(cè)可用。然而,在解碼器側(cè)重建時(shí)間扭曲音頻信號(hào)的時(shí)域表示中,不包括該編碼器側(cè)輸入音頻信號(hào)的原始音調(diào)變化。因此,通過對(duì)時(shí)間扭曲音頻信號(hào)的解碼器側(cè)重建時(shí)域表示進(jìn)行重新采樣,來應(yīng)用另一時(shí)間扭曲。為了在解碼器處獲得對(duì)編碼器側(cè)輸入音頻信號(hào)的良好重建,需要解碼器側(cè)時(shí)間扭曲至少近似編碼器側(cè)時(shí)間扭曲的反操作。為了獲得恰當(dāng)?shù)臅r(shí)間扭曲,需要讓允許調(diào)整解碼器側(cè)時(shí)間扭曲的信息在解碼器處可用。因?yàn)橐话阋髮⑦@種信息從音頻信號(hào)編碼器傳輸至音頻信號(hào)解碼器,需要將該發(fā)送所需的比特率保持為小,同時(shí)仍允許在解碼器側(cè)可靠重建所需的時(shí)間扭曲信息。鑒于上述討論,需要?jiǎng)?chuàng)建一種概念,其允許有效應(yīng)用音頻編碼器中時(shí)間扭曲概念的比特率。

發(fā)明內(nèi)容
本發(fā)明的目的是創(chuàng)建以下概念基于在時(shí)間扭曲音頻信號(hào)編碼器或時(shí)間扭曲音頻信號(hào)解碼器中可用的信息,來增強(qiáng)由編碼音頻信號(hào)所提供的聽覺印象。由根據(jù)權(quán)利要求1所述的用于基于音頻信號(hào)的表示來提供時(shí)間扭曲激活信號(hào)的時(shí)間扭曲激活信號(hào)提供器、根據(jù)權(quán)利要求12所述的用于對(duì)輸入音頻信號(hào)編碼的音頻信號(hào)編碼器、根據(jù)權(quán)利要求14所述的用于提供時(shí)間扭曲激活信號(hào)的方法、根據(jù)權(quán)利要求15所述的用于提供輸入音頻信號(hào)的編碼表示的方法、或根據(jù)權(quán)利要求16所述的計(jì)算機(jī)程序來達(dá)成該目的。本發(fā)明的另一目的是提供一種增強(qiáng)的音頻編碼/解碼方案,該方案提供較高的質(zhì)量或較低的比特率。由根據(jù)權(quán)利要求17、26、32、37所述的音頻編碼器、根據(jù)權(quán)利要求20所述的音頻解碼器、根據(jù)權(quán)利要求23、30、35或37所述的音頻編碼方法、根據(jù)權(quán)利要求24所述的解碼方法、或根據(jù)權(quán)利要求25、31、36或43所述的計(jì)算機(jī)程序來達(dá)成該目的。根據(jù)本發(fā)明的實(shí)施例與用于時(shí)間扭曲MDCT變換編碼器的方法相關(guān)。一些實(shí)施例僅與編碼器工具相關(guān)。然而,其它實(shí)施例還與解碼器工具相關(guān)。本發(fā)明的實(shí)施例創(chuàng)建時(shí)間扭曲激活信號(hào)提供器,其用于基于音頻信號(hào)的表示來提供時(shí)間扭曲激活信號(hào)。該時(shí)間扭曲激活信號(hào)提供器包括能量壓縮信息提供器,被配置為提供能量壓縮信息,該信息描述音頻信號(hào)的時(shí)間扭曲變換頻譜表示中的能量壓縮。該時(shí)間扭曲激活信號(hào)提供器還包括比較器,該比較器被配置為將能量壓縮信息與參考值相比較,且取決于比較結(jié)果來提供時(shí)間扭曲激活信號(hào)。該實(shí)施例基于如下發(fā)現(xiàn)如果音頻信號(hào)的時(shí)間扭曲變換頻譜表示由于將能量濃縮于一個(gè)或多個(gè)頻譜區(qū)域(或頻譜線)而包括充分壓縮的能量分布,則從編碼音頻信號(hào)的比特率減少的意義上來說,音頻信號(hào)編碼器中的時(shí)間扭曲功能性的使用一般帶來增強(qiáng)。這是由于如下的事實(shí)通過將模糊頻譜(例如音頻幀的模糊頻譜)變換為具有一個(gè)或多個(gè)可辨別波峰的頻譜,且因此變換為具有比原始(未時(shí)間扭曲)音頻信號(hào)的頻譜更高的能量壓縮的頻譜,則成功的時(shí)間扭曲帶來減少比特率的效果。關(guān)于此問題,應(yīng)理解音頻信號(hào)幀(在該幀中音頻信號(hào)的音調(diào)顯著地變化)包括模糊頻譜。音頻信號(hào)的時(shí)間變化音調(diào)具有如下效果在音頻信號(hào)幀上執(zhí)行的時(shí)域到頻域的變換導(dǎo)致信號(hào)能量在頻域,具體地在較高頻域,上的模糊分布。因此,這種原始(未時(shí)間扭曲)音頻信號(hào)的頻譜表示包括低能量壓縮,且一般在該頻譜的較高頻率部分不顯示頻譜波峰,或僅在頻譜中較高頻率部分顯示相對(duì)小的頻譜波峰。相對(duì)地,如果時(shí)間扭曲成功(就提供該編碼效率的增強(qiáng)而言),該原始音頻信號(hào)的時(shí)間扭曲產(chǎn)生具有相對(duì)較高且清晰的波峰的頻譜(具體地在該頻譜的較高頻率部分中)的時(shí)間扭曲音頻信號(hào)。這是由于以下事實(shí)將具有時(shí)間變化音調(diào)的音頻信號(hào)變換為具有較小音調(diào)變化或甚至近似恒定音調(diào)的時(shí)間扭曲音頻信號(hào)。因此,該時(shí)間扭曲音頻信號(hào)的頻譜表示(可以將其視為該音頻信號(hào)的時(shí)間扭曲變換頻譜表示)包括一個(gè)或多個(gè)清晰頻譜波峰。換言之,通過成功的時(shí)間扭曲操作來減少該原始音頻信號(hào)(具有在時(shí)間上變化的音調(diào))頻譜的模糊,使得該音頻信號(hào)的時(shí)間扭曲變換頻譜表示包括比原始音頻信號(hào)的頻譜更高的能量壓縮。然而,時(shí)間扭曲在增強(qiáng)編碼效率中并不總是成功。例如,如果輸入音頻信號(hào)包括大的噪聲分量,或如果所提取的時(shí)間扭曲輪廓不精確,則時(shí)間扭曲不增強(qiáng)編碼效率。鑒于該情況,由能量壓縮信息提供器提供的能量壓縮信息就減少比特率而言是判定該時(shí)間扭曲是否成功的有價(jià)值指示符。本發(fā)明的實(shí)施例創(chuàng)建時(shí)間扭曲激活信號(hào)提供器,用于基于音頻信號(hào)的表示提供時(shí)間扭曲激活信號(hào)。該時(shí)間扭曲激活提供器包括兩個(gè)時(shí)間扭曲表示提供器,所述兩個(gè)時(shí)間扭曲標(biāo)識(shí)提供器被配置為使用不同的時(shí)間扭曲輪廓信息來提供該相同音頻信號(hào)的兩個(gè)時(shí)間扭曲表示。因此,該時(shí)間扭曲表示提供器可以用相同的方式配置(在結(jié)構(gòu)上或功能上),且使用相同音頻信號(hào)但是不同的時(shí)間扭曲輪廓信息。該時(shí)間扭曲激活信號(hào)提供器還包括兩個(gè)能量壓縮信息提供器,所述兩個(gè)能量壓縮信息提供器被配置為基于第一時(shí)間扭曲表示提供第一能量壓縮信息,且基于第二時(shí)間扭曲表示提供第二能量壓縮信息。該能量壓縮信息提供器可以用相同方式配置,但是使用不同的時(shí)間扭曲表示。此外,該時(shí)間扭曲激活信號(hào)提供器包括比較器,以將兩個(gè)不同能量壓縮信息進(jìn)行比較,且提供取決于比較結(jié)果的時(shí)間扭曲激活信號(hào)。在優(yōu)選實(shí)施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的頻譜平坦度度量,該頻譜平坦度度量描述該音頻信號(hào)的時(shí)間扭曲變換頻譜表示。已發(fā)現(xiàn)如果時(shí)間扭曲將輸入音頻信號(hào)變換為表不該輸入音頻信號(hào)的時(shí)間扭曲版本的較不平坦的時(shí)間扭曲頻譜時(shí),就減少比特率而言,時(shí)間扭曲是成功的。因此,頻譜平坦度度量可以用于判定在不執(zhí)行全頻譜編碼處理的情況下,應(yīng)當(dāng)激活還是停用時(shí)間扭曲。在優(yōu)選實(shí)施例中,該能量壓縮信息提供器被配置為計(jì)算該時(shí)間扭曲變換功率頻譜的幾何平均與該時(shí)間扭曲變換功率頻譜的算術(shù)平均的商,以獲得頻譜平坦度度量。已發(fā)現(xiàn)該商是非常適于描述通過時(shí)間扭曲來獲得的可能比特率節(jié)約的頻譜平坦度度量。在另一優(yōu)選實(shí)施例中,該能量壓縮信息提供器被配置為當(dāng)與時(shí)間扭曲變換頻譜表示的較低頻率部分相比時(shí),強(qiáng)調(diào)時(shí)間扭曲變換頻譜表示的較高頻率部分,以獲得該能量壓縮信息。該概念基于如下發(fā)現(xiàn)時(shí)間扭曲在較高頻率范圍上一般比在較低頻率范圍上具有更大的影響。因此,為了確定使用頻譜平坦度度量的時(shí)間扭曲的有效性,主要評(píng)估該較高頻率范圍是恰當(dāng)?shù)?。此外,典型的音頻信號(hào)顯示諧波內(nèi)容(包括基本頻率的諧波),其隨頻率的增加在強(qiáng)度上衰減。當(dāng)與時(shí)間扭曲變換頻譜表示的較低頻率部分相比時(shí),強(qiáng)調(diào)該時(shí)間扭曲變換頻譜表示的較高頻率部分也有助于補(bǔ)償該頻譜線隨頻率增加的這種典型衰減??偠灾瑢?duì)頻譜的較高頻率部分的強(qiáng)調(diào)導(dǎo)致了能量壓縮信息的可靠性增加,并因此允許更可靠地提供時(shí)間扭曲激活信號(hào)。在另一優(yōu)選實(shí)施例中,能量壓縮信息提供器被配置為提供頻譜平坦度的多個(gè)逐頻帶度量,且被配置為計(jì)算頻譜平坦度的多個(gè)逐頻帶度量的平均值,以獲得該能量壓縮信息。已發(fā)現(xiàn)逐頻帶頻譜平坦度度量的考慮導(dǎo)致了與時(shí)間扭曲是否有效減少編碼音頻信號(hào)比特率的特別可靠信息。首先,一般以逐頻帶方式來執(zhí)行對(duì)時(shí)間扭曲變換頻譜表示的編碼,使得頻譜平坦度的該逐頻帶度量的組合非常適于該編碼,且因此以良好精確度表示可獲得的比特率增強(qiáng)。此外,頻譜平坦度度量的逐頻帶計(jì)算實(shí)質(zhì)上消除了能量壓縮信息對(duì)諧波分布的依賴性。例如,即使較高頻帶包括相對(duì)小的能量(小于較低頻帶的能量),該較高頻帶可能仍然在感知上是相關(guān)的。然而,如果不以逐頻帶方式來計(jì)算該頻譜平坦度度量,則在該較高頻帶上的時(shí)間扭曲的積極影響(從該頻譜線的模糊的減少的意義上說)可能僅因該較高頻帶上的能量小而被認(rèn)為是小的。相對(duì)地,通過應(yīng)用逐頻帶計(jì)算,可以用恰當(dāng)?shù)臋?quán)重來考慮時(shí)間扭曲的積極影響,因?yàn)樵撝痤l帶頻譜平坦度度量獨(dú)立于各自頻帶中的絕對(duì)能量。在另一優(yōu)選實(shí)施例中,該時(shí)間扭曲激活信號(hào)提供器包括參考值計(jì)算器,所述參考值計(jì)算器被配置為計(jì)算頻譜平坦度度量,以獲得該參考值,該度量描述音頻信號(hào)的未時(shí)間扭曲的頻譜表示。因此,可基于輸入音頻信號(hào)的未時(shí)間扭曲(或“未扭曲的”)版本的頻譜平坦度與輸入音頻信號(hào)的時(shí)間扭曲版本的頻譜平坦度的比較來提供該時(shí)間扭曲激活信號(hào)。在另一優(yōu)選實(shí)施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的感知熵度量,該度量描述音頻信號(hào)的時(shí)間扭曲變換頻譜表示。此概念基于下述發(fā)現(xiàn)時(shí)間扭曲變換頻譜表示的感知熵是對(duì)編碼該時(shí)間扭曲變換頻譜所需要的比特?cái)?shù)目(或比特率)的良好估計(jì)。因此,甚至由于如果使用時(shí)間扭曲,則必須對(duì)附加時(shí)間扭曲信息編碼,該時(shí)間扭曲變換頻譜表示的感知熵度量是是否可通過時(shí)間扭曲來預(yù)期比特率減少的良好度量。在另一優(yōu)選實(shí)施例中,該能量壓縮信息提供器被配置為提供作為能量壓縮信息的自相關(guān)度量,該度量描述音頻信號(hào)的時(shí)間扭曲表示的自相關(guān)。該概念基于如下發(fā)現(xiàn)可以基于時(shí)間扭曲(或不均勻重新采樣)的時(shí)域信號(hào)來測量(或至少估計(jì))時(shí)間扭曲的效率(就減少比特率而言)。已發(fā)現(xiàn)如果時(shí)間扭曲時(shí)域信號(hào)包括由自相關(guān)度量反映的相對(duì)高度的周期性,則時(shí)間扭曲是有效率的。相對(duì)地,如果時(shí)間扭曲時(shí)域信號(hào)不包括顯著的周期性,則可以推斷該時(shí)間扭曲是無效率的。該發(fā)現(xiàn)基于如下事實(shí)有效時(shí)間扭曲將變化頻率(不包括周期性)的正弦信號(hào)的一部分變換為接近恒定頻率(包括高度的周期性)的正弦信號(hào)的一部分。相對(duì)地,如果時(shí)間扭曲不能提供具有高度周期性的時(shí)域信號(hào),那么可預(yù)期時(shí)間扭曲也不提供可證明其應(yīng)用可行的顯著比特率節(jié)約。在優(yōu)選實(shí)施例中,該能量壓縮信息提供器被配置為確定音頻信號(hào)的時(shí)間扭曲表示的歸一化自相關(guān)函數(shù)的絕對(duì)值之和(對(duì)多個(gè)延遲值),以獲得該能量壓縮信息。已發(fā)現(xiàn)在估計(jì)時(shí)間扭曲的效率上不要求對(duì)自相關(guān)峰值的計(jì)算復(fù)雜的確定。而是,已發(fā)現(xiàn)對(duì)(大)范圍的自相關(guān)延遲值上的自相關(guān)的求和評(píng)估也產(chǎn)生非??煽康慕Y(jié)果。這是由于如下事實(shí)時(shí)間扭曲實(shí)際上將變化頻率的多個(gè)信號(hào)分量(例如,基本頻率及其諧波)變換為周期性信號(hào)分量。因此,這種時(shí)間扭曲信號(hào)的自相關(guān)在多個(gè)自相關(guān)延遲值處顯示波峰。因此,求和形式是從自相關(guān)提取能量壓縮信息的計(jì)算上高效率的方式。在另一優(yōu)選實(shí)施例中,該時(shí)間扭曲激活信號(hào)提供器包括參考值計(jì)算器,所述參考值計(jì)算器被配置為基于音頻信號(hào)的未時(shí)間扭曲頻譜表示,或基于音頻信號(hào)的未時(shí)間扭曲時(shí)域表示,來計(jì)算參考值。在該情況中,比較器一般被配置為使用能量壓縮信息及參考值形成比值,該能量壓縮信息描述音頻信號(hào)的時(shí)間扭曲變換頻譜的能量壓縮。該比較器也被配置為將該比值與一個(gè)或多個(gè)閾值進(jìn)行比較,以獲得時(shí)間扭曲激活信號(hào)。已發(fā)現(xiàn)在未時(shí)間扭曲情況中的能量壓縮信息與在時(shí)間扭曲情況中的能量壓縮信息之間的比率允許產(chǎn)生計(jì)算上高效率但仍充分可靠的時(shí)間扭曲激活信號(hào)。本發(fā)明的另一優(yōu)選實(shí)施例創(chuàng)建音頻信號(hào)編碼器,用于對(duì)輸入音頻信號(hào)編碼,以獲得該輸入音頻信號(hào)的編碼表示。音頻信號(hào)編碼器包括時(shí)間扭曲變換器,被配置為基于輸入音頻信號(hào),提供時(shí)間扭曲變換頻譜表示。該音頻信號(hào)編碼器還包括如上所述的時(shí)間扭曲激活信號(hào)提供器。該時(shí)間扭曲激活信號(hào)提供器被配置為接收輸入音頻信號(hào),且提供能量壓縮信息,使得該能量壓縮信息描述該輸入音頻信號(hào)的時(shí)間扭曲變換頻譜表示中的能量壓縮。該音頻信號(hào)編碼器還包括控制器,被配置為取決于時(shí)間扭曲激活信號(hào),向時(shí)間扭曲變換器選擇性地提供發(fā)現(xiàn)的非恒定(變化)時(shí)間扭曲輪廓部分或時(shí)間扭曲信息,或標(biāo)準(zhǔn)恒定(不變)時(shí)間扭曲輪廓部分或時(shí)間扭曲信息。這樣,有可能選擇性地接受或拒絕由該輸入音頻信號(hào)的編碼音頻信號(hào)表示推導(dǎo)出的發(fā)現(xiàn)的非恒定時(shí)間扭曲輪廓部分。該概念基于下述發(fā)現(xiàn)將時(shí)間扭曲信息引入該輸入音頻信號(hào)的編碼表示并不總是有效,因?yàn)橐笙喈?dāng)可觀數(shù)目的比特用于編碼該時(shí)間扭曲信息。此外,已發(fā)現(xiàn)由時(shí)間扭曲激活信號(hào)提供器計(jì)算出的能量壓縮信息是判定將該發(fā)現(xiàn)的變化(非恒定)時(shí)間扭曲估計(jì)部分還是標(biāo)準(zhǔn)(不變、恒定)時(shí)間扭曲輪廓提供給時(shí)間扭曲變換器是否有利的一種計(jì)算上高效率的度量。已注意到當(dāng)該時(shí)間扭曲變換器包括重疊變換時(shí),可在兩個(gè)或更多隨后的變換塊的計(jì)算中使用發(fā)現(xiàn)的時(shí)間扭曲輪廓部分。具體地,已發(fā)現(xiàn)為了能做出時(shí)間扭曲是否允許比特率的節(jié)約的判定,并無必要使用新發(fā)現(xiàn)的變化時(shí)間扭曲輪廓部分對(duì)該輸入音頻信號(hào)的時(shí)間扭曲變換頻譜表示版本進(jìn)行完全編碼,以及并無必要使用標(biāo)準(zhǔn)(不變)時(shí)間扭曲輪廓部分對(duì)該輸入音頻信號(hào)的時(shí)間扭曲變換頻譜表示版本進(jìn)行完全編碼。而是,已發(fā)現(xiàn)對(duì)輸入音頻信號(hào)的時(shí)間扭曲變換頻譜表示的能量壓縮的評(píng)估形成了該判定的可靠基礎(chǔ)。因此,可以將所需的比特率保持為小。在又一優(yōu)選實(shí)施例中,該音頻信號(hào)編碼器包括輸出接口,被配置為取決于時(shí)間扭曲激活信號(hào),選擇性地包括時(shí)間扭曲輪廓信息,該信息將發(fā)現(xiàn)的變化時(shí)間扭曲輪廓表示為該音頻信號(hào)的編碼表示。因此,可獲得高效的音頻信號(hào)編碼,而不管該輸入信號(hào)是否非常適合于時(shí)間扭曲。根據(jù)本發(fā)明的另一實(shí)施例創(chuàng)建一種基于音頻信號(hào)來提供時(shí)間扭曲激活信號(hào)的方法。該方法實(shí)現(xiàn)時(shí)間扭曲激活信號(hào)提供器的功能,且可由本文中與時(shí)間扭曲激活信號(hào)提供器相關(guān)描述的任何特征及功能來補(bǔ)充。根據(jù)本發(fā)明的另一實(shí)施例創(chuàng)建一種用于對(duì)輸入音頻信號(hào)編碼,以獲得輸入音頻信號(hào)的編碼表示的方法。該方法可由本文中與音頻信號(hào)編碼器相關(guān)描述的任何特征及功能來補(bǔ)充。根據(jù)本發(fā)明的另一實(shí)施例創(chuàng)建一種用于執(zhí)行本文所述方法的計(jì)算機(jī)程序。根據(jù)本發(fā)明的第一方面,一種音頻信號(hào)分析,有利地使用音頻信號(hào)是具有諧波特性還是語音特性,用于控制編碼器側(cè)和/或解碼器側(cè)的噪聲填充處理。在使用時(shí)間扭曲功能的系統(tǒng)中易于獲得該音頻信號(hào)分析,因?yàn)闀r(shí)間扭曲功能一般包括音調(diào)追蹤器和/或信號(hào)分類器,用于區(qū)分語音與音樂,和/或區(qū)分有發(fā)音語音與無發(fā)音語音。因?yàn)樵撔畔⒃谶@種上下文中可用而不需任何此外的成本,因此可用的信息有利地用于控制該噪聲填充特征,使得尤其對(duì)于語音信號(hào),可減少諧波線之間的噪聲填充,或具體地對(duì)于語音信號(hào),甚至消除諧波線之間的噪聲填充。甚至在獲得強(qiáng)諧波內(nèi)容但是語音檢測器沒有直接檢測到語音的情況中,噪聲填充的減少仍然將導(dǎo)致更高的感知質(zhì)量。雖然該特征在無論如何也執(zhí)行諧波/語音分析的系統(tǒng)中特別有用,且因此該信息可用且不需任何附加成本,甚至當(dāng)必須將特定信號(hào)分析器插入該系統(tǒng)中時(shí),對(duì)基于信號(hào)具有諧波還是語音特性的信號(hào)分析的噪聲填充方案的控制也是附加有用的,因?yàn)樵鰪?qiáng)質(zhì)量而比特率沒有增加,或換言之,比特率減少而質(zhì)量沒有損失,因此當(dāng)減少可從編碼器發(fā)送至解碼器的噪聲填充級(jí)別本身時(shí),減少了用于對(duì)該噪聲填充級(jí)別編碼所需的比特。在本發(fā)明另一方面中,信號(hào)分析結(jié)果,即信號(hào)是諧波信號(hào)還是語音信號(hào),用于控制音頻編碼器的窗口函數(shù)處理。已發(fā)現(xiàn)在語音信號(hào)或諧波信號(hào)開始的情況中,簡單編碼器將從長窗口切換至短窗口的可能性是很高的。然而這些短窗口具有對(duì)應(yīng)地減少的頻譜解析度,另一方面,該頻率解析度將減少強(qiáng)諧波信號(hào)的編碼增益,且因此增加對(duì)這種信號(hào)部分編碼所需的比特?cái)?shù)目。鑒于此,當(dāng)檢測到語音或諧波信號(hào)開始時(shí),在本方面中定義的本發(fā)明使用比短窗口更長的窗口。備選地,選擇具有與該長窗口大致相似長度的但具有更短重疊的窗口,以有效地減少前回聲。大體上,音頻信號(hào)的時(shí)幀具有諧波還是語音特性的信號(hào)特性用于選擇針對(duì)該時(shí)幀的窗口函數(shù)。根據(jù)本發(fā)明的另一方面,基于底層信號(hào)是基于時(shí)間扭曲操作還是在線性域中來控制TNS(時(shí)域噪聲修整)工具。一般地,已通過時(shí)間扭曲操作來處理的信號(hào)將具有強(qiáng)諧波內(nèi)容。否則,與時(shí)間扭曲級(jí)相關(guān)聯(lián)的音調(diào)追蹤器將不會(huì)輸出有效音調(diào)輪廓,且在缺少這種有效音調(diào)輪廓時(shí),對(duì)與音頻信號(hào)的該時(shí)幀將停用時(shí)間扭曲功能。然而,諧波信號(hào)將一般不適于經(jīng)受TNS處理。當(dāng)由TNS級(jí)處理的信號(hào)具有相當(dāng)平坦的頻譜時(shí),TNS處理特別有用且產(chǎn)生比特率/質(zhì)量上的重要增益。然而,當(dāng)該信號(hào)的外觀是音調(diào)的(tonal),即非平坦的,如同在具有諧波內(nèi)容或有發(fā)音內(nèi)容的頻譜的情況中,則將減少由TNS工具提供的質(zhì)量/比特率上的增益。因此,不使用該TNS工具的發(fā)明性修改,時(shí)間扭曲部分一般不由TNS處理,但是會(huì)在不使用TNS濾波的情況下來處理。另一方面,TNS的噪聲修整特征仍然提供增強(qiáng)的質(zhì)量,特別是在信號(hào)在振幅/功率上變化的情況中。在諧波信號(hào)或語音信號(hào)的開始存在,以及實(shí)施了塊切換特征使得維持長窗口或者至少長于短窗口的窗口、而非該起始的情況中,該幀的時(shí)域噪聲修整特征的激活將導(dǎo)致語音開始周圍的噪聲的濃縮,這有效地減少可能由于在隨后的編碼器處理中發(fā)生的幀量化而在語音開始之前發(fā)生的前回聲。根據(jù)本發(fā)明的另一方面,由音頻編碼設(shè)備中的量化器/熵編碼器來處理可變數(shù)目的線,以計(jì)入可變帶寬,通過執(zhí)行具有可變時(shí)間扭曲特性/扭曲輪廓的時(shí)間扭曲操作來引入該可變帶寬。當(dāng)該時(shí)間扭曲操作導(dǎo)致增加了時(shí)間扭曲幀中包括的幀時(shí)間(以線性)時(shí),減少了單一頻率線的帶寬,且,對(duì)于恒定總帶寬,在未時(shí)間扭曲情況下將增加要處理的頻率線數(shù)目。另一方面,當(dāng)時(shí)間扭曲操作導(dǎo)致在該時(shí)間扭曲域中音頻信號(hào)的實(shí)際時(shí)間相對(duì)于在線性域中的音頻信號(hào)塊長度減少時(shí),增加了單一頻率線的頻率帶寬,且因此在未時(shí)間扭曲情況下,必須減少由源編碼器處理的線數(shù)目,以具有減少的帶寬變化或最好沒有帶寬變化。


隨后通過附圖來描述優(yōu)選實(shí)施例,其中圖1示出了根據(jù)本發(fā)明的實(shí)施例的時(shí)間扭曲激活信號(hào)提供器的示意框圖;圖2a示出了根據(jù)本發(fā)明的實(shí)施例的音頻信號(hào)編碼器的示意框圖;圖2b示出了根據(jù)本發(fā)明的實(shí)施例的時(shí)間扭曲激活信號(hào)提供器的另一示意框圖;圖3a示出了音頻信號(hào)的未時(shí)間扭曲版本的頻譜的圖形表示;圖3b示出了音頻信號(hào)的時(shí)間扭曲版本的頻譜的圖形表示;圖3c示出了針對(duì)不同頻帶的頻譜平坦度度量的個(gè)別計(jì)算的圖形表示;圖3d示出了僅考慮頻譜的較高頻帶部分的頻譜平坦度度量的計(jì)算的圖形表示;圖3e示出了使用頻譜表示的頻譜平坦度度量的計(jì)算的圖形表示,在該頻譜表示中,相對(duì)于較低頻率部分強(qiáng)調(diào)了較高頻率部分;圖3f示出了根據(jù)本發(fā)明的另一實(shí)施例的能量壓縮信息提供器的示意框圖;圖3g示出了在時(shí)域中具有時(shí)間上可變音調(diào)的音頻信號(hào)的圖形表示;圖3h示出了圖3g的音頻信號(hào)的時(shí)間扭曲(不均勻重新采樣的)版本的圖形表示;圖3i示出了根據(jù)圖3g的音頻信號(hào)的自相關(guān)函數(shù)的圖形表示;圖3j不出了根據(jù)圖3h的首頻/[目號(hào)的自相關(guān)函數(shù)的圖形表不;圖3k示出了根據(jù)本發(fā)明另一實(shí)施例的能量壓縮信息提供器的示意框圖;圖4a示出了用于基于音頻信號(hào)來提供時(shí)間扭曲激活信號(hào)的方法的流程圖;圖4b示出了根據(jù)本發(fā)明的實(shí)施例的用于對(duì)輸入音頻信號(hào)編碼,以獲得該輸入音頻信號(hào)的編碼表示的方法的流程圖;圖5a示出了具有創(chuàng)造性方面的音頻編碼器的優(yōu)選實(shí)施例;圖5b示出了具有創(chuàng)造性方面的音頻解碼器的優(yōu)選實(shí)施例;圖6a不出了本發(fā)明的噪聲填充方面的優(yōu)選實(shí)施例;圖6b示出了定義由噪聲填充級(jí)別操縱器所執(zhí)行的控制操作的表格;圖7a示出了根據(jù)本發(fā)明的用于執(zhí)行基于時(shí)間扭曲的塊切換的優(yōu)選實(shí)施例;圖7b示出了影響窗口函數(shù)的備選實(shí)施例;圖7c示出了用于基于時(shí)間扭曲信息來說明窗口函數(shù)的另一備選實(shí)施例;圖7d示出了在有發(fā)音啟動(dòng)處的正常AAC行為的窗口序列;圖7e示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例獲得的備選窗口序列;圖8a示出了 TNS(時(shí)域噪聲整修)工具的基于時(shí)間扭曲的控制的優(yōu)選實(shí)施例;圖Sb示出了定義圖8a中閾值控制信號(hào)產(chǎn)生器中所執(zhí)行的控制步驟的表格;圖9a_9e示出了不同的時(shí)間扭曲特性以及在解碼器側(cè)時(shí)間扭曲操作之后發(fā)生的對(duì)音頻信號(hào)的帶寬上的對(duì)應(yīng)影響;圖1Oa示出了用于控制編碼處理器中的線的數(shù)目的控制器的優(yōu)選實(shí)施例;圖1Ob示出了針對(duì)采樣率要丟棄/添加的線的數(shù)目之間的依賴性;圖11示出了線性時(shí)間尺度與扭曲時(shí)間尺度之間的比較;圖12a示出了在帶寬擴(kuò)展的上下文中的實(shí)施;以及圖12b示出了表,該表示出了在時(shí)間扭曲域中的本地采樣率與頻譜系數(shù)的控制之間的依賴性。
具體實(shí)施例方式圖1示出了根據(jù)本發(fā)明的實(shí)施例的時(shí)間扭曲激活信號(hào)提供器的示意框圖。該時(shí)間扭曲激活信號(hào)提供器100被配置為接收音頻信號(hào)的表示110,且基于該表示110提供時(shí)間扭曲激活信號(hào)112。時(shí)間扭曲激活信號(hào)提供器100包括能量壓縮信息提供器120,被配置為提供能量壓縮信息122,該信息122描述該音頻信號(hào)的時(shí)間扭曲變換頻譜表示的能量的壓縮。時(shí)間扭曲激活信號(hào)提供器100還包括比較器130,被配置為將能量壓縮信息122與參考值132作比較,以取決于該比較的結(jié)果提供時(shí)間扭曲激活信號(hào)112。如上所述,已發(fā)現(xiàn)能量壓縮信息是允許對(duì)時(shí)間扭曲是否帶來比特節(jié)約的計(jì)算上高效率估計(jì)的有價(jià)值信息。已發(fā)現(xiàn)比特節(jié)約的存在性與該時(shí)間扭曲是否導(dǎo)致能量壓縮的問題密切相關(guān)。圖2a示出了根據(jù)本發(fā)明的實(shí)施例的音頻信號(hào)編碼器200的示意框圖。音頻信號(hào)編碼器200被配置為接收輸入音頻信號(hào)210 (也以a(t)標(biāo)明),且基于該輸入音頻信號(hào)210提供該輸入音頻信號(hào)210的編碼表示212。音頻信號(hào)編碼器200包括時(shí)間扭曲變換器220,被配置為接收輸入音頻信號(hào)210 (可在時(shí)域中表示該信號(hào)),且基于輸入音頻信號(hào)210提供該輸入音頻信號(hào)210的時(shí)間扭曲變換頻譜表示222。音頻信號(hào)編碼器200還包括時(shí)間扭曲分析器284,被配置為分析輸入音頻信號(hào)210,且基于該輸入音頻信號(hào)210,提供時(shí)間扭曲輪廓信息286 (例如絕對(duì)或相對(duì)時(shí)間扭曲輪廓信息)。音頻信號(hào)編碼器200還包括切換機(jī)制,例如具有受控開關(guān)240的形式的切換機(jī)制,以判定是發(fā)現(xiàn)的時(shí)間扭曲輪廓信息286還是標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息288用于進(jìn)一步的處理。因此,該切換機(jī)制240被配置為取決于時(shí)間扭曲激活信息,選擇性地將發(fā)現(xiàn)的時(shí)間扭曲輪廓信息286或標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息288作為新時(shí)間扭曲輪廓信息242提供給例如時(shí)間扭曲變換器220用于進(jìn)一步的處理。應(yīng)注意,時(shí)間扭曲變換器220可例如針對(duì)音頻幀的時(shí)間扭曲來使用新時(shí)間扭曲輪廓信息242 (例如新時(shí)間扭曲輪廓部分),且此外使用之前獲得的時(shí)間扭曲信息(例如一個(gè)或多個(gè)之前獲得的時(shí)間扭曲輪廓部分)。該可選的頻譜后處理可包括例如時(shí)域噪聲整修和/或噪聲填充分析。音頻信號(hào)編碼器200還包括量化器/編碼器260,被配置為接收頻譜表示222 (可選地由頻譜后處理250來處理),且量化及編碼該變換頻譜表示222。為此,量化器/編碼器260可與感知模型270耦合,且從感知模型270接收感知關(guān)聯(lián)信息272,以考慮感知屏蔽且根據(jù)人類感知以不同的頻率槽來調(diào)整量化精確度。音頻信號(hào)編碼器200還包括輸出接口 280,被配置為基于由量化器/編碼器260所提供的已量化且編碼的頻譜表示262,提供該音頻信號(hào)的編碼表示212。音頻信號(hào)編碼器200還包括時(shí)間扭曲激活信號(hào)提供器230,被配置為提供時(shí)間扭曲激活信號(hào)232。時(shí)間扭曲激活信號(hào)232例如可用于控制切換機(jī)制240,以判定新發(fā)現(xiàn)時(shí)間扭曲輪廓信息286還是標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息288用于進(jìn)一步的處理步驟中(例如由時(shí)間扭曲變換器220)。此外,時(shí)間扭曲激活信息232可用于開關(guān)280中,以判定輸入音頻信號(hào)210的編碼表示212是否包括已選擇的新時(shí)間扭曲輪廓信息242 (從新發(fā)現(xiàn)時(shí)間扭曲輪廓信息286及標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息中選擇的)。一般地,如果已選擇時(shí)間扭曲輪廓信息描述非恒定(變化)時(shí)間扭曲輪廓,則時(shí)間扭曲輪廓信息僅被包括在該音頻信號(hào)的編碼表示212中。同樣,編碼表示212可包括時(shí)間扭曲激活信息232其本身,例如具有指示該時(shí)間扭曲激活或停用的一比特旗標(biāo)的形式。為了利于理解,應(yīng)注意時(shí)間扭曲變換器220 —般包括分析加窗器220a、重新采樣器或“時(shí)間扭曲器”220b及頻譜域變換器(或時(shí)間/頻率轉(zhuǎn)換器)220c。然而,視實(shí)施而定,可將時(shí)間扭曲器220b放置于在信號(hào)處理方向上的分析加窗器220a之前。然而,在一些實(shí)施例中可將時(shí)間扭曲及時(shí)域到頻譜域變換結(jié)合在單一單元中。在下文中,將描述關(guān)于時(shí)間扭曲激活信號(hào)提供器230的操作的細(xì)節(jié)。應(yīng)注意時(shí)間扭曲激活信號(hào)提供器230可等效于時(shí)間扭曲激活信號(hào)提供器100。時(shí)間扭曲激活信號(hào)提供器230優(yōu)選地被配置為接收時(shí)域音頻信號(hào)表示210 (也以a(t)標(biāo)明)、新發(fā)現(xiàn)時(shí)間扭曲輪廓信息286,及標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息288。時(shí)間扭曲激活信號(hào)提供器230也被配置為使用時(shí)域音頻信號(hào)210、新發(fā)現(xiàn)時(shí)間扭曲輪廓信息286及標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息288,來獲得描述由于新發(fā)現(xiàn)時(shí)間扭曲輪廓信息286而產(chǎn)生的能量壓縮的能量壓縮信息,且基于該能量壓縮信息來提供時(shí)間扭曲激活信號(hào)232。圖2b示出了根據(jù)本發(fā)明的實(shí)施例的時(shí)間扭曲激活信號(hào)提供器234的示意框圖。時(shí)間扭曲激活信號(hào)提供器234在一些實(shí)施例中可發(fā)揮時(shí)間扭曲激活信號(hào)提供器230的作用。時(shí)間扭曲激活信號(hào)提供器234被配置為接收輸入音頻信號(hào)210,及兩個(gè)時(shí)間扭曲輪廓信息286與288,且基于它們來提供時(shí)間扭曲激活信號(hào)234p。時(shí)間扭曲激活信號(hào)234p可發(fā)揮時(shí)間扭曲激活信號(hào)232的作用。時(shí)間扭曲激活信號(hào)提供器包括兩個(gè)相同的時(shí)間扭曲表示提供器234a、234g,被配置為分別接收輸入音頻信號(hào)210及時(shí)間扭曲輪廓信息286與288,且基于它們分別提供兩個(gè)時(shí)間扭曲表示234e及234k。時(shí)間扭曲激活信號(hào)提供器234還包括兩個(gè)相同的能量壓縮信息提供器234f及2341,被配置為分別接收時(shí)間扭曲表示234e及234k,且基于它們分別提供能量壓縮信息234m及234η。時(shí)間扭曲激活信號(hào)提供器還包括比較器2340,被配置為接收能量壓縮信息234m及234η,且基于它們提供時(shí)間扭曲激活信號(hào)234ρ0為了利于理解,應(yīng)注意時(shí)間扭曲表示提供器234a與234g —般包括(可選)相同的分析加窗器234b及234h、相同的重新采樣器或時(shí)間扭曲器234c及234i,及(可選)相同的頻譜域變換器234d及234 j。在下文中,將討論用于獲得能量壓縮信息的不同概念。事先將做介紹以說明典型音頻信號(hào)上的時(shí)間扭曲效果。在下文中,將參考圖3a及3b來描述音頻信號(hào)上時(shí)間扭曲的效果。圖3a示出了音頻信號(hào)的頻譜的圖形表示。橫坐標(biāo)301描述頻率,縱坐標(biāo)302描述該音頻信號(hào)的強(qiáng)度。曲線303描述了與頻率f相關(guān)的非時(shí)間扭曲音頻信號(hào)的強(qiáng)度。圖3b示出了圖3a中表示的音頻信號(hào)的時(shí)間扭曲版本的頻譜的圖形表示。同樣,橫坐標(biāo)306描述頻率,縱坐標(biāo)307描述該音頻信號(hào)的扭曲版本的強(qiáng)度。曲線308描述該音頻信號(hào)的時(shí)間扭曲版本的強(qiáng)度對(duì)頻率。從圖3a與3b的圖形表示的比較可看出,該音頻信號(hào)的未時(shí)間扭曲(“未扭曲”)版本包括模糊頻譜,具體地在較高頻域中。相對(duì)地,該輸入音頻信號(hào)的時(shí)間扭曲版本包括具有清晰可區(qū)分的頻譜波峰的頻譜,甚至在較高頻域中。此外,甚至可在該輸入音頻信號(hào)的時(shí)間扭曲版本的較低頻譜域中看到頻譜波峰的中等銳化。應(yīng)注意圖3b中所示的輸入音頻信號(hào)的時(shí)間扭曲版本的頻譜可由例如量化器/編碼器260以比圖3a所示的未扭曲輸入音頻信號(hào)的頻譜更低的比特率來量化及編碼。這是由于如下事實(shí):模糊頻譜一般包括很大數(shù)目的感知相關(guān)頻譜系數(shù)(即相對(duì)很小數(shù)目的被量化為零或被量化為很小值的頻譜系數(shù)),同時(shí)如圖3所示的“不那么平坦的”頻譜一般包括較大數(shù)目被量化為零或被量化為很小值的頻譜系數(shù)??梢杂帽缺涣炕癁檩^高值的頻譜系數(shù)更少的比特來對(duì)被量化為零或被量化為很小值的頻譜系數(shù)進(jìn)行編碼,使得可使用比圖3a的頻譜更少的比特對(duì)圖3b的頻譜編碼。然而,還應(yīng)注意到時(shí)間扭曲的使用不總是導(dǎo)致時(shí)間扭曲信號(hào)的編碼效率的顯著增強(qiáng)。因此,在一些情況中,對(duì)時(shí)間扭曲信息(例如時(shí)間扭曲輪廓)編碼所需的價(jià)格(在比特率的意義上)可能超出用于對(duì)時(shí)間扭曲變換頻譜編碼的節(jié)約(在比特率的意義上)(當(dāng)與編碼非時(shí)間扭曲變換頻譜相比較時(shí))。在此情況中,優(yōu)選地使用標(biāo)準(zhǔn)(不變)時(shí)間扭曲輪廓提供該音頻信號(hào)的編碼表示,以控制該時(shí)間扭曲變換。因此,可忽略任何時(shí)間扭曲信息(即時(shí)間扭曲輪廓信息)的發(fā)送(除指示該時(shí)間扭曲的停用的旗標(biāo)之外),從而保持該比特率很低。在下文中,將參考圖3c_3k來描述用于對(duì)時(shí)間扭曲激活信號(hào)112、232、234p的可靠且計(jì)算上高效率的計(jì)算的不同概念。然而,在此之前,將簡短概括該創(chuàng)造性概念的背景。基本假定是對(duì)具有變化音調(diào)的諧波信號(hào)應(yīng)用時(shí)間扭曲使得該音調(diào)恒定,且使該音調(diào)恒定增強(qiáng)了通過隨后的時(shí)間頻率變換所獲得的頻譜的編碼,因?yàn)閮H有限數(shù)目的重要的線保留(參見圖3b),而不是若干頻譜容量上不同諧波的模糊(參見圖3a)。然而,即使當(dāng)檢測到音調(diào)變化時(shí),可忽略(例如,如果在諧波信號(hào)下有強(qiáng)噪聲,或如果該變化太小以至較高諧波的模糊沒有問題)編碼增益上的增強(qiáng)(即所節(jié)約的比特的數(shù)量),或編碼增益上的增強(qiáng)可少于需要將時(shí)間扭曲輪廓傳輸至解碼器的比特的數(shù)量,或可簡單地是錯(cuò)的。在這些情況中,優(yōu)選地拒絕由時(shí)間扭曲輪廓編碼器產(chǎn)生的變化時(shí)間扭曲輪廓(例如286),而相反使用有效的一比特信令,以信號(hào)方式發(fā)送標(biāo)準(zhǔn)(不變)時(shí)間扭曲輪廓。本發(fā)明的范圍包括創(chuàng)建一種判定已獲得的時(shí)間扭曲輪廓部分是否提供足夠的編碼增益(例如足以補(bǔ)償時(shí)間扭曲輪廓編碼所需的開銷的編碼增益)的方法。如上所述,時(shí)間扭曲的最重要的方面是較少數(shù)目線的頻譜能量壓縮(參見圖3a及3b)。它們示出了能量壓縮還對(duì)應(yīng)于“不那么平坦的”的頻譜(參見圖3a及3b),因?yàn)樵黾恿嗽擃l譜的波峰與波谷之間的差。將該能量濃縮于較少的線處,所述較少的線在具有比之前更少能量的線之間。圖3a與3b示出了具有強(qiáng)諧波及音調(diào)變化的幀的未扭曲頻譜(圖3a)與同一幀的時(shí)間扭曲版本的頻譜(圖3b)的示意性示例。鑒于該情況,已發(fā)現(xiàn)將頻譜平坦度度量用作該時(shí)間扭曲效率的可能的度量是有利的??衫缤ㄟ^功率頻譜的幾何平均除以功率頻譜的算術(shù)平均來計(jì)算該頻譜平坦度。例如,可根據(jù)如下公式來計(jì)算該頻譜平坦度(也以“平坦度”簡短地標(biāo)明):.Σ.'ν ,χ(")
N在上式中,χ(η)表示容量號(hào)碼η的大小。此外,在上式中,N表示該頻譜平坦度度量的計(jì)算所考慮到的頻譜容量的總數(shù)目。在本發(fā)明的實(shí)施例中,可使用時(shí)間扭曲變換頻譜表示234e、234k來執(zhí)行作為能量壓縮信息的“平坦度”的上述計(jì)算,使得可以保持如下關(guān)系:X (η) = IX Itw (η)在該情況中,N可以等于由頻譜域變換器234d、234j提供的頻譜線的數(shù)目,|Xtw(n)是時(shí)間扭曲變換頻譜表示234e、234k。盡管該頻譜度量是用于提供該時(shí)間扭曲激活信號(hào)的有用的量,類似于信號(hào)對(duì)噪聲比(SNR)度量,該頻譜平坦度度量的一個(gè)缺點(diǎn)是如果應(yīng)用于整個(gè)頻譜,則其強(qiáng)調(diào)具有較高能量的部分。通常,諧波頻譜具有特定的頻譜傾斜,意指大部分能量濃縮于頭幾個(gè)部分音調(diào),然后隨頻率的增加而減少,導(dǎo)致該度量中較高部分的代表性不足。這在一些實(shí)施例中是不想要的,由于需要增強(qiáng)這些較高部分的質(zhì)量,因?yàn)樗鼈冏兊米钅:?參見圖3a)。在下文中,將討論該頻譜平坦度度量的關(guān)聯(lián)性的增強(qiáng)的若干可選概念。在根據(jù)本發(fā)明的實(shí)施例中,選擇一種與所謂的“分段式SNR”度量相似的方法,導(dǎo)致逐頻帶頻譜平坦度度量。在一定數(shù)目的頻帶中(例如分別地)執(zhí)行該頻譜平坦度度量的計(jì)算,且采用主要部分(或平均)。不同頻帶可具有相等的帶寬。然而,優(yōu)選地,這些帶寬將遵循感知尺度,如關(guān)鍵頻帶,或?qū)?yīng)于例如所謂的“高級(jí)音頻編碼”(也稱為AAC)的擴(kuò)縮因子頻帶。將在下文中參考圖3c來簡短解釋上述概念,圖3c示出了針對(duì)不同頻帶的頻譜平坦度度量的單獨(dú)計(jì)算的圖形表示。如圖所示,可將該頻譜分為不同的頻帶311、312、313,它們可具有相等的帶寬或可具有不同的帶寬。例如,針對(duì)第一頻帶311,可使用例如上文給出的“平坦度”公式來計(jì)算第一頻譜平坦度度量。在該計(jì)算中,可以考慮第一頻帶的頻率槽(游動(dòng)變量η可采用第一頻帶的頻率槽的頻率槽索引),且可以考慮該第一頻帶311的寬度(可變N可采用以第一頻帶的頻率槽為單位的寬度)。因此,獲得針對(duì)第一頻帶311的平坦度度量。相似地,可考慮到第二頻帶312的頻率槽及第二頻帶的寬度來計(jì)算針對(duì)第二頻帶312的平坦度度量。此外,可以用相同方法來計(jì)算附加頻帶如第三頻帶312的平坦度度量。隨后,可以計(jì)算針對(duì)不同頻帶311、312、313的平坦度度量的平均值,且該平均值可用作能量壓縮信息。另一方法(用于該時(shí)間扭曲激活信號(hào)的導(dǎo)出的增強(qiáng))是將該頻譜平坦度度量僅應(yīng)用于特定頻率。圖3d示出了這種方法。如圖所示,針對(duì)該頻譜坦平度度量的計(jì)算,僅考慮在頻譜的高頻部分316中的頻率槽。針對(duì)該頻譜平坦度度量的計(jì)算忽略該頻譜的低頻部分。針對(duì)該頻譜平坦度度量的計(jì)算,可以逐頻帶的考慮高頻部分316。備選地,針對(duì)該頻譜平坦度度量的計(jì)算,可以作為整體地考慮全部高頻部分316。綜上所述,可以將頻譜平坦度的減少(由時(shí)間扭曲的應(yīng)用引起的)視為該時(shí)間扭曲的效果的第一度量。例如,時(shí)間扭曲激活信號(hào)提供器100、230、234(或其比較器130、234ο)可使用標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息,將時(shí)間扭曲變換頻譜表示234e的頻譜平坦度度量與時(shí)間扭曲變換頻譜表示234k的頻譜平坦度度量進(jìn)行比較,且基于所述比較來判定該時(shí)間扭曲激活信號(hào)是有效還是無效的。例如,當(dāng)與沒有時(shí)間扭曲的情況相比時(shí),如果該時(shí)間扭曲導(dǎo)致頻譜平坦度度量的充分減少,則通過時(shí)間扭曲激活信號(hào)的恰當(dāng)設(shè)置來激活該時(shí)間扭曲。
除上述方法以外,針對(duì)該頻譜平坦度的計(jì)算,可相對(duì)于低頻部分來強(qiáng)調(diào)該頻譜的高頻部分(例如通過恰當(dāng)?shù)臄U(kuò)縮)。圖3c示出了時(shí)間扭曲變換頻譜的圖形表示,在該時(shí)間扭曲變換頻譜中,相對(duì)于低頻部分強(qiáng)調(diào)了高頻部分。因此,補(bǔ)償了該頻譜中的高頻部分的代表性不足。因此如圖3e所示,可在完成擴(kuò)縮的、其中相對(duì)于低頻率槽強(qiáng)調(diào)了高頻率槽的頻譜上計(jì)算平坦度度量。就比特節(jié)約而言,編碼效率的典型度量將是感知熵,可以用一種如以下文獻(xiàn)所述的方式來定義感知熵,使得其與對(duì)特定頻譜進(jìn)行編碼所需的比特實(shí)際數(shù)目很好的聯(lián)系起來:3GPP TS 26.403V7.0.0:3rdGeneration Partnership Project ;Technical Specification Group Servicesand System Aspects ;General audio codecaudio processing functions ;Enhanced aacPlus general audio codec ;Encoderspecification AAC part:Section 5.6.1.1.3Relation between bit demand andperceptual entropy。所以,該感知熵的減少是時(shí)間扭曲的效率的另一度量。圖3f示出了能量壓縮信息提供器325,可取代能量壓縮信息提供器120、234f、2341,且可用在時(shí)間扭曲激活信號(hào)提供器100、290、234中。能量壓縮信息提供器325被配置為接收該音頻信號(hào)的表示,例如,以時(shí)間扭曲變換頻譜表示234e、234k的形式,也以|X |tw標(biāo)明。能量壓縮信息提供器325還被配置為提供感知熵信息326,可取代能量壓縮信息122、234m、234n。能量壓縮信息提供器325包括波形因子計(jì)算器327,被配置為接收時(shí)間扭曲變換頻譜表示234e、234k,且基于它們來提供波形因子信息328,該波形因子信息328可與頻帶相關(guān)聯(lián)。能量壓縮信息提供器325還包括頻帶能量計(jì)算器329,被配置為基于時(shí)間扭曲頻譜表示234e、234k來計(jì)算頻·帶能量信息en(n) (330)。能量壓縮信息提供器325還包括線數(shù)目估計(jì)器331,被配置為對(duì)具有索引η的頻帶提供線的估計(jì)數(shù)目的信息nl (332)。此外,能量壓縮信息提供器325包括感知熵計(jì)算器333,被配置為基于頻帶能量信息330及線的估計(jì)數(shù)目的信息332,計(jì)算感知熵信息326。例如,波形因子計(jì)算器327可被配置為根據(jù)下述公式來計(jì)算波形因子:
權(quán)利要求
1.一種用于基于音頻信號(hào)的表不(110 ;234e ;234k)來提供時(shí)間扭曲激活信號(hào)(112 ;232 ;234p)的時(shí)間扭曲激活信號(hào)提供器(100 ;230 ;234),所述時(shí)間扭曲激活信號(hào)提供器包括:能量壓縮信息提供器(120 ;234f ;2341 ;325 ;370),被配置為提供能量壓縮信息(122 ;234m ;234n ;326 ;374),所述能量壓縮信息描述所述音頻信號(hào)的時(shí)間扭曲變換頻譜表示(222)的能量壓縮;以及比較器(130 ;234o),被配置為將所述能量壓縮信息(122 ;234m ;234n ;326 ;374)與參考值相比較,以及被配置為取決于比較結(jié)果提供時(shí)間扭曲激活信號(hào)(112 ;232 ;234p)。
2.根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(100;230;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341)被配置為提供作為所述能量壓縮信息(122 ;234m ;234η)的頻譜平坦度度量,所述頻譜平坦度度量描述所述音頻信號(hào)的時(shí)間扭曲變換頻譜表示(234e ;234k)。
3.根據(jù)權(quán)利要求2所述的時(shí)間扭曲激活信號(hào)提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341)被配置為計(jì)算所述音頻信號(hào)的時(shí)間扭曲變換功率頻譜(234e ;234k)的幾何平均與所述音頻信號(hào)的時(shí)間扭曲變換功率頻譜(234e ;234k)的算術(shù)平均的商,以獲得所述頻譜平坦度度量。
4.根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341)被配置為:與所述時(shí)間扭曲變換頻譜表示(234e ;234k)的較低頻率部分相比時(shí),強(qiáng)調(diào)所述時(shí)間扭曲變換頻譜表示(234e ;234k)的較高頻率部分,以獲得所述能量壓縮信息(122 ;234m ;234n)。
5.根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234m;234η)被配置為獲得頻譜平坦度的多個(gè)逐頻帶度量,以及被配置為計(jì)算所述頻譜平坦 度的多個(gè)逐頻帶度量的平均值,以獲得所述能量壓縮信息(122,234m ;234n)。
6.根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(100;230 ;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;325)被配置為提供作為所述能量壓縮信息(122 ;234m ;234η)的感知熵(pe)度量,所述感知熵(pe)度量描述所述音頻信號(hào)的時(shí)間扭曲變換頻譜表示(234e ;234k)。
7.根據(jù)權(quán)利要求6所述的時(shí)間扭曲激活信號(hào)提供器(100;230 ;234 ;235),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;325)被配置為基于擴(kuò)縮因子頻帶的波形因子信息(ffac(n)),計(jì)算所述音頻信號(hào)的時(shí)間扭曲變換頻譜表示(234e;234k)的一個(gè)或多個(gè)擴(kuò)縮因子頻帶的非零線的估計(jì)數(shù)目(nl),以及被配置為將非零線的所述估計(jì)數(shù)目(nl)與在考察的擴(kuò)縮因子頻帶的能量度量相乘,來計(jì)算所考察的所述擴(kuò)縮因子頻帶的感知熵(326)度量。
8.根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(100;230;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;370)被配置為提供作為所述能量壓縮信息的自相關(guān)度量(374),所述自相關(guān)度量(374)描述所述音頻信號(hào)的時(shí)間扭曲時(shí)域表示(234e ;234k)的自相關(guān)。
9.根據(jù)權(quán)利要求8所述的時(shí)間扭曲激活信號(hào)提供器(100;230;234),其中,所述能量壓縮信息提供器(120 ;234f ;2341 ;370)被配置為確定所述音頻信號(hào)的時(shí)間扭曲表示(234e ;234k)的歸一化自相關(guān)函數(shù)的絕對(duì)值之和,以獲得所述能量壓縮信息。
10.根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(100;230),其中,所述時(shí)間扭曲激活信號(hào)提供器包括參考值計(jì)算器,所述參考值計(jì)算器被配置為基于所述音頻信號(hào)的未扭曲頻譜表示(210)、或基于所述音頻信號(hào)的未扭曲時(shí)域表示(210),來計(jì)算所述參考值;以及其中,所述比較器被配置為使用描述所述音頻信號(hào)的時(shí)間扭曲變換頻譜表示的能量壓縮的能量壓縮信息(122)以及所述參考值,來形成比值,以及被配置為將所述比值與一個(gè)或多個(gè)閾值進(jìn)行比較,以獲得作為比較結(jié)果的所述時(shí)間扭曲激活信號(hào)。
11.根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(230;234),其中,所述時(shí)間扭曲激活信號(hào)提供器包括參考值計(jì)算器,所述參考值計(jì)算器被配置為基于輸入信號(hào)的時(shí)間扭曲表示(210)來計(jì)算所述參考值,所述輸入信號(hào)(210)的時(shí)間扭曲表示(210)是使用標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息(288)來進(jìn)行時(shí)間扭曲的;以及其中,所述比較器被配置為使用描述所述音頻信號(hào)的時(shí)間扭曲表示的能量壓縮的所述能量壓縮信息(234e)以及所述參考值,來形成比值,以及被配置為將所述比值與一個(gè)或多個(gè)閾值進(jìn)行比較,以獲得作為比較結(jié)果的所述時(shí)間扭曲激活信號(hào)。
12.一種用于對(duì)輸入音頻信號(hào)(210)編碼以獲得所述輸入音頻信號(hào)的編碼表示(212)的音頻信號(hào)編碼器(200),所述音頻信號(hào)編碼器包括:時(shí)間扭曲變換器(220),被配置為基于所述輸入音頻信號(hào)(210),使用時(shí)間扭曲輪廓來提供時(shí)間扭曲變換頻譜表示(222);根據(jù)權(quán)利要求1所述的時(shí)間扭曲激活信號(hào)提供器(100 ;230 ;234),其中,所述時(shí)間扭曲激活信號(hào)提供器被配置為接收所述輸入音頻信號(hào)(210),以及被配置為提供所述時(shí)間扭曲激活信號(hào)(112 ;232 ;234p);以及控制器(240),被配置為取決于所述時(shí)間扭曲激活信號(hào)(112 ;232 ;234p),選擇性地向所述時(shí)間扭曲變換器(220)提供描述非恒定時(shí)間扭曲輪廓部分的新發(fā)現(xiàn)的時(shí)間扭曲輪廓信息(286),或提供描述恒定時(shí)間扭曲輪廓部分的標(biāo)準(zhǔn)時(shí)間扭曲輪廓信息(288),以描述由所述時(shí)間扭曲變換器(220)所使用的時(shí)間扭曲輪廓。
13.根據(jù)權(quán)利要求12所述的音頻信號(hào)編碼器,其中,所述音頻信號(hào)編碼器包括輸出接(280),所述輸出接(280)被配置為將所述時(shí)間扭曲變換頻譜表示(222)包括在所述音頻信號(hào)的編碼表示(212)中,以及被配置為取決于所述時(shí)間扭曲激活信號(hào)(232)選擇性地將時(shí)間扭曲輪廓信息包括在所述音頻信號(hào)的編碼表示(212)中。
14.一種基于音頻信號(hào)提供時(shí)間扭曲激活信號(hào)的方法(400),所述方法包括:提供(410)描述所述音頻信號(hào)的時(shí)間扭曲變換頻譜表示的能量壓縮的能量壓縮信息;將所述能量壓縮信息與參考值相比較(420);以及取決于比較結(jié)果來提供(430)所述時(shí)間扭曲激活信號(hào)。
15.一種用于對(duì)輸入音頻信號(hào)編碼以獲得所述輸入音頻信號(hào)的編碼表示的方法(450),所述方法包括:提供(470)根據(jù)權(quán)利要求14的時(shí)間扭曲激活信號(hào),其中,能量壓縮信息描述所述輸入音頻信號(hào)的時(shí)間扭曲變換頻譜表示的能量壓縮;以及取決于所述時(shí)間扭曲激活信號(hào),選擇性地提供(480)所述輸入音頻信號(hào)的時(shí)間扭曲變換頻譜表示的描述或所述輸入音頻信號(hào)的非時(shí)間扭曲變換頻譜表示的描述,以將其包括在所述輸入音頻信號(hào)的編碼表示中。
16.一種計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)上運(yùn)行時(shí),用于執(zhí)行權(quán)利要求14或15所述的方法 。
全文摘要
音頻編碼器包括窗口函數(shù)控制器(504)、加窗器(502)、具有最終質(zhì)量檢查功能的時(shí)間扭曲器(506)、時(shí)間/頻率轉(zhuǎn)換器(508)、TNS級(jí)(510)或量化器編碼器(512),由時(shí)間扭曲分析器(516)或信號(hào)分類器(520)獲得的信號(hào)分析結(jié)果來控制所述窗口函數(shù)控制器(504)、所述時(shí)間扭曲器(506)、所述TNS級(jí)(510)或附加的噪聲填充分析器(524)。此外,解碼器使用取決于音頻信號(hào)的諧波或語音特性的經(jīng)操縱的噪聲填充估計(jì)來應(yīng)用噪聲填充操作。
文檔編號(hào)G10L21/04GK103077722SQ20121049131
公開日2013年5月1日 申請(qǐng)日期2009年7月6日 優(yōu)先權(quán)日2008年7月11日
發(fā)明者斯特凡·拜爾, 薩沙·迪施, 拉爾夫·蓋格爾, 紀(jì)堯姆·福克斯, 馬克斯·諾伊恩多夫, 杰拉爾德·舒勒, 貝恩德·埃德勒 申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
唐海县| 黄石市| 印江| 仙桃市| 天水市| 垦利县| 佛学| 垫江县| 忻州市| 正阳县| 衡水市| 五常市| 汾西县| 横峰县| 新乐市| 财经| 岐山县| 苍梧县| 永康市| 四川省| 阆中市| 文昌市| 缙云县| 绥江县| 饶河县| 佳木斯市| 台湾省| 吉安县| 锦州市| 荆门市| 堆龙德庆县| 鹤庆县| 玉龙| 汉源县| 礼泉县| 桑植县| 大名县| 抚顺市| 海口市| 波密县| 额敏县|