專(zhuān)利名稱(chēng)::聲音合成的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及聲音的合成。更特別的是,本發(fā)明涉及用于使參數(shù)集合表示的聲音合成的設(shè)備和方法,每個(gè)參數(shù)集合包括表示聲音正弦分量的正弦參數(shù)以及表示其它分量的其它參數(shù)。
背景技術(shù):
:利用參數(shù)集合表示聲音是公知的。過(guò)去常常利用所謂的參數(shù)編碼技術(shù)來(lái)有效地編碼由一系列參數(shù)表示的聲音。合適的解碼器能夠利用該一系列參數(shù)基本上重建原始的聲音。該一系列參數(shù)可以分成多個(gè)集合,每個(gè)集合對(duì)應(yīng)于諸如(人類(lèi)的)揚(yáng)聲器或者樂(lè)器之類(lèi)的單獨(dú)聲音源(聲道)。流行的MIDI(樂(lè)器數(shù)字接口)協(xié)議可以使音樂(lè)由樂(lè)器的指令集合表示出來(lái)。每個(gè)指令分配給特定的樂(lè)器。每種樂(lè)器能夠使用一個(gè)或多個(gè)聲道(稱(chēng)作MIDI"音,,)??梢酝瑫r(shí)使用的聲道數(shù)量稱(chēng)作多音級(jí)或者多音。能夠有效地發(fā)送和/或存儲(chǔ)該MIDI指令。合成器通常使用預(yù)先確定的定音數(shù)據(jù),例如聲音庫(kù)或者音色數(shù)據(jù)。在聲音庫(kù)中,存儲(chǔ)了作為聲音數(shù)據(jù)的樂(lè)器聲音樣本,而音色數(shù)據(jù)限定發(fā)聲器的控制參數(shù)。MIDI指令使該合成器從聲音庫(kù)中檢索聲音數(shù)據(jù),并且合成由這些數(shù)據(jù)表示的聲音。如常規(guī)波表合成的情況一樣,這些聲音數(shù)據(jù)可以是實(shí)際的聲音樣本,即數(shù)字化聲音(波形)。然而,聲音樣本通常需要大的存儲(chǔ)空間,在比較小的設(shè)備中是不可行的,尤其是在諸如移動(dòng)(蜂窩)電話(huà)之類(lèi)的手持消費(fèi)設(shè)備中??蛇x的是,可以由參數(shù)表示聲音樣本,這些參數(shù)可以包括振幅、頻率、相位和/或包絡(luò)線(xiàn)狀參數(shù),并且這些參數(shù)可以重建聲音樣本。存儲(chǔ)聲音樣本的參數(shù)通常比存儲(chǔ)實(shí)際的聲音樣本需要小得多的存儲(chǔ)空間。然而,聲音合成的計(jì)算量繁重。特別是在必須同時(shí)(多音)合成表示不同聲道(MIDI"音")的不同參數(shù)集合時(shí)。計(jì)算量通常隨著所要合成的聲道(音)的數(shù)量而線(xiàn)性增加。這使得難以在手持設(shè)備中使用這些技術(shù)。2004年5月柏林(德國(guó))音頻工程協(xié)會(huì)會(huì)議論文集No.6063,由M.Szczerba、W.Oomen和M.KleinMiddelink撰寫(xiě)的論文《基于參數(shù)音頻編碼的波表合成(ParametricAudioCodingBasedWavetableSynthesis)》披露了一種SSC(正弦編碼)波表合成器。SSC編碼器將音頻輸入分解成瞬態(tài)、正弦波和噪聲分量,并且針對(duì)這些分量中的每個(gè)分量生成參數(shù)表示。將這些參數(shù)表示存儲(chǔ)在聲音庫(kù)中。該SSC解碼器(合成器)使用該參數(shù)表示來(lái)重建原始的音頻輸入。為了重建該正弦分量,該論文提出了將每個(gè)正弦波的能量語(yǔ)收集到信號(hào)的譜線(xiàn)圖像中,然后利用單一反轉(zhuǎn)傅立葉變換合成該正弦波。這種重建過(guò)程的計(jì)算量仍然相當(dāng)大,尤其是在必須同時(shí)合成大量聲道的正弦波時(shí)。在許多現(xiàn)代聲音系統(tǒng)中,能夠使用64個(gè)聲道并且設(shè)想更多的聲道。這使得已知的配置不再適合于計(jì)算能力有限的較小設(shè)備中。另一方面,對(duì)于手持消費(fèi)設(shè)備中聲音合成的要求越來(lái)越高,例如移動(dòng)電話(huà)。如今的消費(fèi)者希望其手持設(shè)備能夠產(chǎn)生寬范圍的聲音,例如不同的鈴聲。
發(fā)明內(nèi)容因此,本發(fā)明的目的是克服現(xiàn)有技術(shù)的這些及其它問(wèn)題,并且提供一種用于合成聲音正弦分量的設(shè)備和方法,該設(shè)備和方法會(huì)更加有效并且減小了計(jì)算量。相應(yīng)地,本發(fā)明提供了一種用于合成包含正弦分量的聲音的設(shè)備,該i殳備包括-選擇裝置,利用感知相關(guān)值從多個(gè)頻帶的每一個(gè)中選擇有限數(shù)量的正弦分量,以及-合成裝置,僅合成選定的正弦分量。通過(guò)僅合成選定的正弦分量,可以實(shí)現(xiàn)計(jì)算量的顯著減小,同時(shí)基本上保持合成后聲音的質(zhì)量。選定并合成的有限數(shù)量的正弦分量?jī)?yōu)選比可獲得的數(shù)量小的多,例如1600中的110個(gè),但是實(shí)際選定的數(shù)量通常取決于該設(shè)備的計(jì)算能力、所希望的聲音質(zhì)量和/或所關(guān)心的頻帶內(nèi)可獲得的正弦成分的數(shù)量。所要進(jìn)行選擇的頻帶數(shù)量還可以變化。優(yōu)選的是,在所有可獲得的頻帶中進(jìn)行選擇程序,從而實(shí)現(xiàn)最大可能的減少。然而,還可以在一個(gè)或僅僅少數(shù)頻帶中選擇有限數(shù)量的正弦分量。該頻帶的寬度還可以從幾赫茲變化到幾千赫茲。該感知相關(guān)值優(yōu)選包括各個(gè)正弦成分的振幅和/或能量。任意的感知相關(guān)值可以基于心理聲學(xué)模型,該模型考慮到參數(shù)(例如振幅、能量和/或相位)對(duì)于人耳的感知相關(guān)性。這種心理聲學(xué)模型本身可以是公知的。該感知相關(guān)值還可以包括各個(gè)正弦分量的位置。表示聲源在(二維)平面或者(三維)空間中的位置的位置信息可以與一部分或者全部正弦分量相關(guān),并且可以包含在選擇決定中??梢岳胇^知的^支術(shù)收集位置信息,并且該位置信息可以包括坐標(biāo)(X,Y)或者(A,L)的集合,其中A是角度,L是距離。當(dāng)然,三維位置信息應(yīng)包括坐標(biāo)(X,Y,Z)或者(A1,A2,L)的集合。盡管其它標(biāo)度也是可以的,例如線(xiàn)性標(biāo)度或者Bark標(biāo)度,但是優(yōu)選基于感知相關(guān)標(biāo)度的頻帶,例如ERB標(biāo)度。在本發(fā)明的設(shè)備中,優(yōu)選由參數(shù)表示正弦分量。這些參數(shù)可以包括振幅、頻率和/或相位信息。在一些實(shí)施例中,還由參數(shù)表示其它成分,例如瞬態(tài)和噪聲。這些參數(shù)可以包括振幅參數(shù)和/或頻率參數(shù),并且可以基于量化值。也就是說(shuō),可以將量化的振幅和/或頻率值用作參數(shù),或者可以用于由這些值獲得參數(shù)。這樣就無(wú)需解量化任何量化值。進(jìn)一步優(yōu)選的是,將所有有源音的參數(shù)收集在一起。由選擇程序?qū)⑺杏性匆舻乃姓也紤]在內(nèi)。不進(jìn)行音的選擇(如常規(guī)合成器中那樣做的),而對(duì)正弦分量進(jìn)行選擇。這樣做的優(yōu)點(diǎn)是不必降低音,并且可以在不增加計(jì)算量的情況下獲得更高的多音。該設(shè)備可以包括根據(jù)包含在參數(shù)集合中的感知相關(guān)值選擇參數(shù)集合的選擇部件。如果相關(guān)參數(shù)是預(yù)定的,也就是說(shuō)該參數(shù)是在編碼器處確定的,則該選擇部件特別有效。在這些實(shí)施例中,編碼器可以生成比特流,在該比特流中插有感知相關(guān)值。優(yōu)選的是,該感知相關(guān)值包含在其各自的參數(shù)集合中,而這些參數(shù)集合反過(guò)來(lái)可以作為比特流來(lái)發(fā)送。作為替換,或者在此基礎(chǔ)上繼續(xù),該設(shè)備可以包括才艮據(jù)由該設(shè)備的決定部件生成的感知相關(guān)值選擇參數(shù)集合的選擇部件,該決定部件根據(jù)包含在這些集合中的參數(shù)生成所述感知相關(guān)值。本發(fā)明還提供了一種消費(fèi)裝置,其包括如上所述的合成設(shè)備。本發(fā)明的消費(fèi)裝置優(yōu)選但不并不一定是便攜的,更優(yōu)選的是手持的,并且其可以由移動(dòng)(蜂窩)電話(huà)、CD播放器、DVD播放器、固態(tài)播放器(例如MP:3播放器)、PDA(個(gè)人數(shù)字助理)或者任何其它適當(dāng)?shù)难b置構(gòu)成。本發(fā)明還提供了一種合成包含正弦分量的聲音的方法,該方法包括以下步驟-利用感知相關(guān)值從多個(gè)頻帶的每一個(gè)頻帶中選擇有限數(shù)量的正弦分量,以及-僅合成選定的正弦分量。該感知相關(guān)值可以包括各個(gè)正弦分量的振幅、相位和/或能量。本發(fā)明的方法還可以包括針對(duì)沒(méi)有選擇的正弦分量的能量損失補(bǔ)償選定正弦分量的增益的步驟。本發(fā)明還提供了一種計(jì)算機(jī)程序產(chǎn)品,其用于實(shí)施上述的方法。計(jì)算機(jī)程序產(chǎn)品可以包括存儲(chǔ)在光學(xué)或磁性載體(例如CD或DVD)上或者存儲(chǔ)在遠(yuǎn)程服務(wù)器上并且可以從遠(yuǎn)程服務(wù)器上下載(例如通過(guò)互聯(lián)網(wǎng))的計(jì)算機(jī)可執(zhí)行指令集合。參照以下的實(shí)例性實(shí)施例,對(duì)本發(fā)明做進(jìn)一步闡述,其中圖1示意性表示了根據(jù)本發(fā)明的正弦合成設(shè)備。圖2示意性表示了本發(fā)明中使用的表示聲音的參數(shù)集合。圖3更詳細(xì)地示意性表示了圖l設(shè)備的選擇部件。圖4示意性表示了根據(jù)本發(fā)明的正弦分量的選擇。圖5示意性表示了包括本發(fā)明設(shè)備的聲音合成設(shè)備。圖6示意性表示了音頻編碼設(shè)備。具體實(shí)施例方式圖1中僅僅是以非限定性實(shí)例的方式表示了正弦分量合成設(shè)備1,該設(shè)備包括選擇單元2和合成單元3。根據(jù)本發(fā)明,該選擇單元2接收正弦分量參數(shù)SP,選擇有限數(shù)量的正弦分量參數(shù),并且將這些選定的參數(shù)SP,傳遞到合成單元3。該合成單元3僅使用選定的正弦分量參數(shù)SP,來(lái)按照常規(guī)方式合成正弦分量。如圖2所示,該正弦分量參數(shù)SP可以是聲音參數(shù)集合SbS2........Sn的一部分。在所示實(shí)例中,該集合Si(i-l……N)包括表示瞬態(tài)聲音分量的瞬態(tài)參數(shù)TP、表示正弦聲音分量的正弦參數(shù)SP以及表示噪聲聲音分量的噪聲參數(shù)NP??梢岳萌缟纤龅腟SC編碼器或者任何其它的適當(dāng)編碼器生成該集合S"可以理解,某些編碼器不能生成瞬態(tài)參數(shù)(TP)或者噪聲參數(shù)(NP)。每個(gè)集合Si可以表示單一的有源聲道(或者M(jìn)IDI系統(tǒng)中的"音,,)。圖3更詳細(xì)地表示了正弦分量參數(shù)的選擇,該圖示意表示了設(shè)備l的選擇單元2的實(shí)施例。圖3的示例性選擇單元2包括決定部件21和選擇部件22。決定部件21和選擇部件22均接收正弦參數(shù)SP。然而,該決定部件21僅需要接收選擇決定所依據(jù)的適當(dāng)組成參數(shù)。適當(dāng)?shù)慕M成參數(shù)是增益gi。在優(yōu)選實(shí)施例中,gi是由集合Si(參見(jiàn)圖2)表示的正弦分量的增益(振幅)??梢岳孟鄳?yīng)的MIDI增益放大每個(gè)增益gi,從而生成組合增益(每個(gè)聲道),該增益可以用作選擇決定所依據(jù)的參數(shù)。然而,不使用增益,還能夠使用由這些參數(shù)獲得的能量值。該決定部件21決定將使用哪些參數(shù)進(jìn)行正弦分量合成。該決定是利用最優(yōu)化原則做出的,例如找5個(gè)最大增益gi,假設(shè)將選擇5個(gè)正弦波中的最大正弦波??梢愿鶕?jù)總頻帶能量或者整個(gè)頻帶中正弦波的總數(shù),預(yù)先確定每個(gè)頻帶將要選擇的實(shí)際正弦波數(shù)量,或者也可以由其它因素確定該數(shù)量。例如,如果一個(gè)頻帶中的正弦波數(shù)量小于預(yù)定數(shù)值,則其它頻帶能夠使用更多的可轉(zhuǎn)移分量。將與選定集合相對(duì)應(yīng)的集合數(shù)(例如2、3、12、23和41)提供到選擇部件22。將該選擇部件22設(shè)置為選擇由決定部件"表示的集合的正弦分量參數(shù)。對(duì)其余集合的正弦分量參數(shù)不進(jìn)行處理。因此,僅將有限數(shù)量的正弦分量參數(shù)傳遞到合成單元(圖1中的3),并且隨后進(jìn)行合成。相應(yīng)的,比較于合成全部正弦分量,該合成單元的計(jì)算量已經(jīng)顯著減本發(fā)明人已經(jīng)發(fā)現(xiàn),用于合成的正弦分量參數(shù)的數(shù)量能夠顯著減少,而聲音質(zhì)量沒(méi)有大幅損失。選定集合的數(shù)量可以比較少,例如總共l600(64個(gè)聲道,每個(gè)聲道25個(gè)正弦波)個(gè)中的110個(gè),即大約6.9%。一般而言,選定集合的數(shù)量應(yīng)當(dāng)至少為總數(shù)的約5.0%,以防止任何可感知的聲音質(zhì)量的損失,優(yōu)選至少6.0%。如果進(jìn)一步減少選定集合的數(shù)量,合成聲音的質(zhì)量會(huì)逐漸降低,但是對(duì)于某些用途而言,仍然是可以接受的。由決定部件21作出的包括哪些集合以及不包括哪些集合的決定是根據(jù)感知值、例如正弦分量的振幅(電平)作出的。還可以利用其它的感知值,即影響聲音感知的值,例如能量值和/或包絡(luò)值。還可以使用位置信息,從而允許根據(jù)正弦分量的(相對(duì))位置來(lái)選擇正弦分量。相應(yīng)地,正弦分量的選擇除了包括表示例如各個(gè)正弦分量的振幅、能量等的感知相關(guān)值之外,還可以包括(空間)位置信息(注意,可以將位置信息視為附加感知相關(guān)值)。可以利用公知技術(shù)收集位置信息。對(duì)于某些而不是全部正弦分量而言,可以具有相關(guān)的位置信息,可以將"中性"位置信息分配給不具有位置信息的部分。為了確定感知相關(guān)值,可以使用量化的頻率、振幅和/或其它參數(shù),從而消除對(duì)解量化的需求。這將在后面更詳細(xì)的進(jìn)行闡述??梢岳斫猓ǔT诿總€(gè)時(shí)間單位內(nèi)對(duì)集合Si(圖2)和正弦分量進(jìn)行選擇和合成,例如每個(gè)時(shí)幀或者子幀。因此,該正弦分量參數(shù)以及其它參數(shù)可以?xún)H涉及某個(gè)時(shí)間單位。時(shí)間單位、例如時(shí)幀可以部分重疊。圖4所示的示例性曲線(xiàn)圖40示意性地表示了所要合成的聲道(或"音")的頻率分布。將正弦分量的振幅A表示為頻率f的函數(shù)。盡管為了清楚說(shuō)明僅表示了3個(gè)正弦分量(在&、f2和f3),但是實(shí)際上正弦分量的數(shù)量可以更多,通常為在任意給定時(shí)刻每個(gè)聲道25個(gè)正弦分量。當(dāng)某些用途中存在64個(gè)聲道時(shí),需要合成64x2S-1600個(gè)正弦分量,這對(duì)于較小和廉價(jià)的設(shè)備而言是明顯不可行的,例如手持消費(fèi)設(shè)備。根據(jù)本發(fā)明,將該頻率分布細(xì)分成頻帶41。在本實(shí)例中,表示了6個(gè)頻帶,但是可以理解頻帶多一些或少一些都是可以的,例如單一頻帶、2個(gè)頻帶、3個(gè),10個(gè)或20個(gè)。盡管每個(gè)頻帶41原本包含多個(gè)正弦分量,例如10個(gè)或20個(gè),但是某些頻帶41可以根本不包含正弦分量,而其它頻帶可以包含50個(gè)或更多的正弦分量。根據(jù)本發(fā)明,將每個(gè)頻帶的正弦分量數(shù)量減少到某個(gè)有限數(shù)量,例如3個(gè)、4個(gè)或5個(gè)。所選定的實(shí)際數(shù)量可以取決于該頻帶中原本存在的正弦分量數(shù)量、該頻帶的寬度(頻率范圍)、頻帶的總數(shù)和/或該一個(gè)或多個(gè)頻帶中正弦分量的感知相關(guān)值。在圖4的實(shí)例中,假設(shè)在每個(gè)頻帶中原本存在多于3個(gè)的正弦分量,而將要選擇的是3個(gè)最相關(guān)的(即具有最大感知相關(guān)值)。在圖4中的一個(gè)示例性頻帶中,在頻率fbf2和f3處示出了選定的正弦分量42。根據(jù)本發(fā)明,僅選擇了這3個(gè)正弦分量,并且將其用于合成聲音。所關(guān)心的頻帶中的任何其它正弦成分均不用于合成,并且可以刪除。然而,可以將廢棄的正弦分量用于增益補(bǔ)償。也就是說(shuō),可以計(jì)算由于刪除正弦分量而造成的能量損失,并且將其用于提高所選定的正弦分量的能量。由于這種能量補(bǔ)償,聲音的總能量基本上沒(méi)有受到選擇程序的影響。能夠如下進(jìn)行能量補(bǔ)償。首先,計(jì)算頻帶41中全部(選定的和廢棄的)正弦分量的能量。在選擇了所要合成的正弦分量(圖4實(shí)例中頻率fl、f2和f3處的正弦分量)之后,計(jì)算廢棄的正弦分量與選定的正弦分量的能量比。然后,將該能量比用于按比例地提高所選定的正弦成分的能量。因此,該頻帶的總能量不受選擇的影響。相應(yīng)地,可以包含在圖3的選擇部件22中的增益補(bǔ)償裝置例如可以包括第一和第二加法單元,用于將廢棄的和選定的正弦分量的能量值分別相加,還包括比例單元,用于確定廢棄的和選定的正弦分量的能量比,以及標(biāo)度單元,用于標(biāo)度選定的正弦分量的能量或振幅值。如上所述,頻帶41的數(shù)量可以改變。在優(yōu)選實(shí)施例中,這些頻帶基于ERB(等價(jià)常規(guī)帶寬)標(biāo)度。應(yīng)當(dāng)注意,ERB標(biāo)度是本領(lǐng)域公知的。取代ERB標(biāo)度,可以使用Bark標(biāo)度或者類(lèi)似的標(biāo)度。這表示每個(gè)ERB頻帶中選擇有限數(shù)量的正弦波。如上所述,可以在編碼器中進(jìn)行頻率和振幅的量化,該編碼器將聲音分解成正弦分量,這些正弦分量反過(guò)來(lái)又可以由參數(shù)表示。例如,可以利用以下公式,將作為浮點(diǎn)值獲得的頻率轉(zhuǎn)變?yōu)镋RB(等價(jià)矩形<formula>formulaseeoriginaldocumentpage11</formula>(1)其中f是聲道ch的子幀sf中第n個(gè)正弦波的頻率(單位弧度),并且fn[sf][ch[n是每個(gè)ERB具有91.2個(gè)表達(dá)電平的ERB標(biāo)度中的(整數(shù))表達(dá)電平(rl)(注意,括號(hào)表示四舍五入運(yùn)算),并且其中<formula>formulaseeoriginaldocumentpage11</formula>(2)如果值sa等于聲道ch的子幀中第n個(gè)正弦波的振幅,則轉(zhuǎn)化為表達(dá)電平,編碼器在對(duì)數(shù)標(biāo)度上以0.187SdB的最大振幅誤差量化浮點(diǎn)振幅。由以下公式計(jì)算(整數(shù))表達(dá)電平sarl[sf<formula>formulaseeoriginaldocumentpage11</formula>(3)其中sab=1.0218。注意,通過(guò)試驗(yàn)確定該值以及以上使用的值91.2和其它值,并且本發(fā)明不限于這些特定的值,而也可以使用其它值。發(fā)送和/或存儲(chǔ)將要利用本發(fā)明的合成設(shè)備合成的量化值fri和arl。根據(jù)本發(fā)明,可以將這些量化值用于正弦分量的選擇??梢匀缦聦?shí)現(xiàn)這些量化值的解量化??梢岳靡韵鹿綄⒘炕l率轉(zhuǎn)變?yōu)榻饬炕?絕對(duì))頻率fq(弧度)<formula>formulaseeoriginaldocumentpage11</formula>根據(jù)以下公式將解碼值轉(zhuǎn)變?yōu)榻饬炕?線(xiàn)性)振幅值saq:<formula>formulaseeoriginaldocumentpage12</formula>(6)其中sab=1.0218是對(duì)應(yīng)于(U875dB的最大誤差的對(duì)數(shù)量化基數(shù)。避免所有頻率和振幅的解量化可以很大程度上減少合成設(shè)備的計(jì)算復(fù)雜性。相應(yīng)地,在本發(fā)明的優(yōu)選實(shí)施例中,設(shè)置用于選擇量化的正弦分量的選擇裝置(圖1中的選擇部件22和/或決定部件21)。通過(guò)對(duì)量化值進(jìn)行選擇,僅需要解量化選定的值,并且相當(dāng)大地減少了解量化運(yùn)算的數(shù)量。圖5示意性地表示了其中可以應(yīng)用于本發(fā)明的聲音合成器。該合成器5包括噪聲合成器51、正弦合成器52和瞬態(tài)合成器53。加法器54把輸出信號(hào)(合成瞬態(tài)、正弦波和噪聲)相加,從而形成合成的音頻輸出信號(hào)。該正弦合成器52優(yōu)選包括如上所述的設(shè)備。該合成器5比現(xiàn)有技術(shù)的合成器更有效,原因在于其僅合成有限數(shù)量的正弦分量,而不會(huì)損害聲音質(zhì)量。例如,已經(jīng)發(fā)現(xiàn)將正弦波的最大數(shù)量從1600個(gè)限制到IIO個(gè)不會(huì)影響聲音質(zhì)量。該合成器5可以是音頻(聲音)解碼器(未示出)的一部分。該音頻解碼器可以包括用于多路分解輸入比特流并且分離出瞬態(tài)參數(shù)(TP)、正弦參數(shù)(SP)和噪聲參數(shù)(NP)的集合的多路分解器。圖6中僅通過(guò)非限定性實(shí)例方式表示的音頻編碼設(shè)備6以3個(gè)階段對(duì)音頻信號(hào)s(n)進(jìn)行編碼。在第一階段中,利用瞬態(tài)參數(shù)提取(TPE)單元61編碼音頻信號(hào)s(n)中的任意瞬態(tài)信號(hào)分量。將這些參數(shù)提供給多路復(fù)用(MUX)單元68和瞬態(tài)合成(TS)單元62。當(dāng)多路復(fù)用單元68適當(dāng)?shù)亟M合并多路復(fù)用用于發(fā)送到解碼器、例如圖5的設(shè)備5的參數(shù)時(shí),該瞬態(tài)合成單元62重建所編碼的瞬態(tài)。在第一組合單元。處,將這些重建的瞬態(tài)從原始音頻信號(hào)s(n)中減去,從而形成中間信號(hào),從該中間信號(hào)中基本上去除了瞬態(tài)。在第二階段中,利用正弦參數(shù)提取(SPE)單元64編碼中間信號(hào)中的任意正弦信號(hào)分量(即正弦和余弦)。將所生成的參數(shù)提供給多路復(fù)用單元68以及正弦合成(SS)單元65。在第二組合單元66處,將由正弦合成單元65重建的正弦波從中間信號(hào)中減去,從而產(chǎn)生剩余信號(hào)。在第三階段中,利用時(shí)間/頻率包絡(luò)數(shù)據(jù)提取(TFE)單元67編碼剩余信號(hào)。注意,將該剩余信號(hào)假設(shè)為噪聲信號(hào),這是因?yàn)樵诘谝缓偷诙A段中去除了瞬態(tài)和正弦波。相應(yīng)地,時(shí)間/頻率包絡(luò)數(shù)據(jù)提取(TFE)單元67由適當(dāng)?shù)脑肼晠?shù)表示剩余的噪聲。1999年由美國(guó)斯坦福大學(xué)的S.N.Levine發(fā)表的論文《數(shù)據(jù)壓縮的音頻表達(dá)和壓縮域處理(AudioRepresentationforDataCompressionandCompressedDomainProcessing)》的第5章中陳述了現(xiàn)有才支術(shù)的噪聲建模和編碼技術(shù)的概況,本文中引入該論文的全部?jī)?nèi)容。多路復(fù)用(MUX)單元68對(duì)全部三個(gè)階段生成的參數(shù)進(jìn)行適當(dāng)組合和多路復(fù)用,該單元還可以對(duì)參數(shù)進(jìn)4亍附加的編碼,例如Huffman編碼或者時(shí)間差分編碼,從而減少發(fā)送所需的帶寬。注意,參數(shù)提取(即編碼)單元61、64和67可以對(duì)所提取的參數(shù)進(jìn)行量化。可選的是或此外,可以在多路復(fù)用(MUX)單元68中進(jìn)行量化。還應(yīng)當(dāng)注意,s(n)是數(shù)字信號(hào),n表示樣本數(shù)量,并且將集合Si(n)作為數(shù)字信號(hào)進(jìn)行發(fā)送。然而,相同的概念也適用于模擬信號(hào)。在MUX單元68中進(jìn)行了組合和多路復(fù)用(以及可選的是編碼和/或量化)之后,經(jīng)由發(fā)送媒質(zhì)發(fā)送這些參數(shù),例如衛(wèi)星鏈路、玻璃纖維光纜、銅纜和/或任何其它適當(dāng)?shù)拿劫|(zhì)。音頻編碼設(shè)備6還包括相關(guān)性探測(cè)器(RD)69。該相關(guān)性探測(cè)器69接收預(yù)定的參數(shù),例如正弦增益&(如圖3所示),并且確定其聲學(xué)(感知)相關(guān)性。將所生成的相關(guān)值反饋到多路復(fù)用器68,在該多路復(fù)用器中,將這些相關(guān)值插入集合Si(n)中,從而形成輸出比特流。然后解碼器可以利用包含在這些集合中的相關(guān)值選擇適當(dāng)?shù)恼覅?shù),而不必確定其感知相關(guān)性。因此,該解碼器能夠更簡(jiǎn)單并更快捷。盡管圖6所示的相關(guān)性探測(cè)器(RD)69與多路復(fù)用器68相連,但是換一種方式,該相關(guān)性探測(cè)器69還可以直接連接到正弦參數(shù)提取(SPE)單元64。相關(guān)性探測(cè)器69的操作類(lèi)似于圖3所示的決定部件21的操作。圖6所示的音頻編碼設(shè)備6具有3個(gè)階段。然而,該音頻編碼設(shè)備6還可以由少于3個(gè)階段構(gòu)成,例如僅生成正弦波和噪聲參數(shù)的2個(gè)階段,或者生成附加參數(shù)的多于3個(gè)階段。因此能夠設(shè)想到不存在單元61、62和63的實(shí)施例。圖6的音頻編碼設(shè)備6優(yōu)選可以設(shè)置為生成能夠由如圖l所示的合成設(shè)備進(jìn)行解碼(合成)的音頻參數(shù)。本發(fā)明的合成設(shè)備可以用于便攜設(shè)備,尤其可以用于手持消費(fèi)設(shè)備,例如蜂窩電話(huà)、PDA(個(gè)人數(shù)字助理)、手表、游戲設(shè)備、固態(tài)音頻播放器、電子樂(lè)器、數(shù)字電話(huà)應(yīng)答機(jī)、便攜CD和/或DVD播放器等等。本發(fā)明基于以下理解,即能夠在不損害聲音質(zhì)量的情況下顯著減少所要合成的正弦分量數(shù)量。本發(fā)明得益于以下進(jìn)一步的理解,即當(dāng)將感知相關(guān)值用作選擇標(biāo)準(zhǔn)時(shí),可以獲得最有效的正弦分量選擇。應(yīng)當(dāng)注意,本文中使用的任何術(shù)語(yǔ)不應(yīng)構(gòu)成對(duì)本發(fā)明范圍的限定。尤其是,詞語(yǔ)"包括"和"包含,,并不意味著排除了未具體表述的任何元件。單個(gè)(電路)元件可以利用多個(gè)(電路)元件或者其它等價(jià)物構(gòu)成。本領(lǐng)域技術(shù)人員可以理解,本發(fā)明不限于以上所述的實(shí)施例,并且可以在不背離所附權(quán)利要求書(shū)限定的本發(fā)明范圍的情況下進(jìn)行各種4務(wù)改和添加。權(quán)利要求1.一種用于合成包含正弦分量的聲音的設(shè)備(1),該設(shè)備包括-選擇裝置(2),用于利用感知相關(guān)值從多個(gè)頻帶(41)的每一個(gè)中選擇有限數(shù)量的正弦分量,以及-合成裝置(3),僅合成選定的正弦分量。2.根據(jù)權(quán)利要求1所述的設(shè)備,其中該感知相關(guān)值包括各個(gè)正弦分量的振幅、能量和/或位置。3.根據(jù)權(quán)利要求1所述的設(shè)備,其中該正弦分量分別與多個(gè)聲道之一相關(guān),并且其中該感知相關(guān)值包括各個(gè)聲道的包絡(luò)。4.根據(jù)權(quán)利要求l所述的設(shè)備,其中該正弦分量由參數(shù)(SP)表示。5.根據(jù)權(quán)利要求5所述的設(shè)備,其中該參數(shù)包括振幅參數(shù)和/或頻率參數(shù),這些參數(shù)基于量化的值。6.根據(jù)權(quán)利要求l所述的設(shè)備,其中該頻帶(41)基于感知相關(guān)標(biāo)度,例如ERB標(biāo)度。7.根據(jù)權(quán)利要求1所述的設(shè)備,進(jìn)一步包括增益補(bǔ)償裝置,其用于針對(duì)任意廢棄的正弦分量的任意能量損失補(bǔ)償選定的正弦分量的增益。8.根據(jù)權(quán)利要求1所述的設(shè)備,包括選擇部件(22),用于根據(jù)包含在參數(shù)集合中的感知相關(guān)值選擇參數(shù)集合。9.一種消費(fèi)設(shè)備,例如移動(dòng)電話(huà)、游戲設(shè)備、音頻播放器或者電話(huà)應(yīng)答機(jī),其包括根據(jù)權(quán)利要求1_8中任一項(xiàng)所述的合成設(shè)備(1)。10.—種合成包含正弦分量的聲音的方法,該方法包括以下步驟-利用感知相關(guān)值從多個(gè)頻帶(41)的每一個(gè)頻帶中選擇有限數(shù)量的正弦分量,以及-僅合成選定的正弦分量。11.根據(jù)權(quán)利要求IO所述的方法,其中該感知相關(guān)值包括各個(gè)正弦分量的振幅、能量和/或位置。12.根據(jù)權(quán)利要求10所述的方法,其中該正弦分量分別與多個(gè)聲道之一相關(guān),并且其中該感知相關(guān)值包括各個(gè)聲道的包絡(luò)。13.根據(jù)權(quán)利要求10所述的方法,其中該正弦分量由參數(shù)(SP)表示。14.根據(jù)權(quán)利要求10所述的方法,進(jìn)一步包括針對(duì)任意廢棄的正弦分量的任意能量損失補(bǔ)償選定的正弦分量的增益的步驟。15.根據(jù)權(quán)利要求13所述的方法,其中每個(gè)參數(shù)集合都包含感知相關(guān)值。16.—種計(jì)算機(jī)程序產(chǎn)品,其用于實(shí)施根據(jù)權(quán)利要求10-l5中任一項(xiàng)所述的方法。全文摘要一種用于合成包含正弦分量的聲音的設(shè)備(1),該設(shè)備包括選擇裝置(2),其利用感知相關(guān)值從多個(gè)頻帶(41)的每一個(gè)中選擇有限數(shù)量的正弦分量,以及合成裝置(3),其僅合成選定的正弦分量。該頻帶可以基于ERB。該感知相關(guān)值可以包括各個(gè)正弦分量的振幅和/或各個(gè)聲道的包絡(luò)。文檔編號(hào)G10L13/04GK101116136SQ200680004591公開(kāi)日2008年1月30日申請(qǐng)日期2006年2月1日優(yōu)先權(quán)日2005年2月10日發(fā)明者A·J·格里茨,A·W·J·烏門(mén),M·克萊恩米德林克,M·施克澤爾巴申請(qǐng)人:皇家飛利浦電子股份有限公司