用于對音頻場景中聲源的廣度進(jìn)行編碼和解碼的方法

文檔序號：2821422閱讀：426來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于對音頻場景中聲源的廣度進(jìn)行編碼和解碼的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于對音頻信號的表示描述(presentationdiscription)進(jìn)行編碼和解碼、尤其是用于描述被編碼為按照MPEG-4音頻標(biāo)準(zhǔn)的音頻對象的聲源的表示的方法和設(shè)備。
背景技術(shù)：
如MPEG-4音頻標(biāo)準(zhǔn)ISO/IEC(國際標(biāo)準(zhǔn)化組織/國際電工委員會)14496-32001和MPEG-4系統(tǒng)標(biāo)準(zhǔn)14496-12001中定義的MPEG-4通過支持音頻對象的表示(presentation)來促進(jìn)多種應(yīng)用。為了結(jié)合音頻對象，附加信息-所謂的場景描述-確定空間和時(shí)間上的位置，并且和已編碼的音頻對象一起被發(fā)送。
為了重放，利用場景描述分別對音頻對象解碼并組合，以便制備單一聲軌(soundtrack)，然后向聽眾播放該單一聲軌。
為了提高效率，MPEG-4系統(tǒng)標(biāo)準(zhǔn)ISO/IEC 14496-12001定義了一種以二進(jìn)制表示對場景描述進(jìn)行編碼的方法，即所謂的場景描述二進(jìn)制格式(BIFS)。相應(yīng)地，利用所謂的AudioBIFS來描述音頻場景。
場景描述是分層地構(gòu)成的，并且能夠被表示為圖形，其中圖形的葉節(jié)點(diǎn)形成分離的對象，并且其它節(jié)點(diǎn)描述一些處理過程，例如定位、縮放、效果等?？梢岳脠鼍懊枋龉?jié)點(diǎn)內(nèi)的參數(shù)來控制分離對象的外觀和行為。

發(fā)明內(nèi)容
本發(fā)明基于對以下事實(shí)的認(rèn)識。上述的MPEG-4音頻標(biāo)準(zhǔn)不能描述具有某一尺寸的聲源，如合唱團(tuán)、管弦樂隊(duì)、大海或雨，而只能描述點(diǎn)源，例如飛行的昆蟲或單個(gè)樂器。然而，根據(jù)收聽測試，聲源的廣度顯然是聽得見的。
因此，本發(fā)明要解決的問題是克服上述缺點(diǎn)。通過權(quán)利要求1中公開的編碼方法和權(quán)利要求8中公開的相應(yīng)解碼方法，來解決該問題。
原則上，本發(fā)明的方法包括產(chǎn)生與聲源的音頻信號鏈接的聲源的參數(shù)描述，其中描述非點(diǎn)聲源的廣度(wideness)是借助于參數(shù)描述來描述的，并且用多個(gè)去相關(guān)的點(diǎn)聲源來定義非點(diǎn)聲源的表示。
原則上，本發(fā)明的解碼方法包括接收與和聲源的參數(shù)描述鏈接的聲源相對應(yīng)的音頻信號。評價(jià)聲源的參數(shù)描述以確定非點(diǎn)聲源的廣度，并將不同位置的多個(gè)去相關(guān)點(diǎn)聲源分配給非點(diǎn)聲源。
這允許以一種簡單且向后兼容的方式來描述具有某一尺寸的聲源的廣度。特別是，利用單聲道信號來重放具有廣闊聲音感覺的聲源是可能的，由此導(dǎo)致低比特率的音頻信號被發(fā)送。應(yīng)用的例子是管弦樂隊(duì)的單聲道發(fā)送，該管弦樂隊(duì)沒有被耦合到固定的擴(kuò)音器布局并允許將它放置在期望的位置。
在各個(gè)從屬權(quán)利要求中公開了本發(fā)明的有利附加實(shí)施例。

參考附圖來描述本發(fā)明的示范性實(shí)施例，其中圖1顯示了用于描述聲源的廣度的節(jié)點(diǎn)的一般功能；圖2顯示了線聲源的音頻場景；圖3顯示了利用相對于聽眾的孔徑角(opening angle)來控制聲源的寬度的例子；以及圖4顯示了具有用來代表更復(fù)雜音頻源的形狀的組合的示范性場景。
具體實(shí)施例方式
圖1顯示了用于描述聲源的廣度的節(jié)點(diǎn)ND的一般功能的例圖，該節(jié)點(diǎn)ND以下也被稱為音頻空間擴(kuò)散節(jié)點(diǎn)(AudioSpatialDiffusenessnode)或音頻擴(kuò)散節(jié)點(diǎn)(AudioDiffuseness node)。
該音頻空間擴(kuò)散節(jié)點(diǎn)ND接收由一個(gè)或多個(gè)通道組成的音頻信號AI，并且將在去相關(guān)之后產(chǎn)生具有和輸出一樣的通道數(shù)的DECan音頻信號AO。按照MPEG-4，該音頻輸入對應(yīng)于所謂的子(Child)，子(child)被定義為連接到上級分支，并且能夠在不改變其它任何節(jié)點(diǎn)的情況下被插入音頻子樹的每一個(gè)分支中的分支。
diffuseSelect字段DIS允許控制對擴(kuò)散算法的選擇。因此，在幾個(gè)音頻空間擴(kuò)散節(jié)點(diǎn)的情況下，每一個(gè)節(jié)點(diǎn)都能夠應(yīng)用不同的擴(kuò)散算法，由此產(chǎn)生不同的輸出，并確保各自輸出的去相關(guān)。擴(kuò)散節(jié)點(diǎn)實(shí)際上能夠產(chǎn)生N個(gè)不同信號，但是只能將一個(gè)實(shí)信號傳遞到由diffuseSelect字段選擇的節(jié)點(diǎn)的輸出。然而，也有可能信號擴(kuò)散節(jié)點(diǎn)產(chǎn)生多個(gè)實(shí)信號，并將多個(gè)實(shí)信號放在節(jié)點(diǎn)的輸出處。如果需要，可以將類似指示去相關(guān)強(qiáng)度DES的字段的其它字段加到節(jié)點(diǎn)上。例如，可以用互相關(guān)函數(shù)來測量該去相關(guān)強(qiáng)度。
表1顯示了建議的音頻空間擴(kuò)散節(jié)點(diǎn)的可能語義。可以分別借助于addChildren字段或removeChildren字段將子(children)加到節(jié)點(diǎn)上或從節(jié)點(diǎn)刪除子(children)。children字段包含所連接的子的標(biāo)識符(ID)，即引用。diffuseSelect字段和decorreStrength字段被定義為標(biāo)量32位整數(shù)值。numChan字段定義節(jié)點(diǎn)的輸出處的通道數(shù)。phaseGroup字段描述節(jié)點(diǎn)的輸出信號是否一起被歸合為相位相關(guān)的。

表1建議的AudioSpatialDiffuseness節(jié)點(diǎn)的可能語義然而，這只是建議的節(jié)點(diǎn)的一個(gè)實(shí)施例，不同和/或附加的字段是可能的。
在numChan大于1，即多通道音頻信號的情況下，應(yīng)該分別使每個(gè)通道擴(kuò)散。
為了用多個(gè)去相關(guān)的點(diǎn)聲源來表示非點(diǎn)聲源，必須定義去相關(guān)的多個(gè)點(diǎn)聲源的數(shù)量和位置。這可以通過自動(dòng)地或手動(dòng)地，并且通過確切數(shù)量的點(diǎn)源的顯式位置參數(shù)或類似給定形狀內(nèi)的點(diǎn)聲源的密度的相對參數(shù)來實(shí)現(xiàn)。此外，可以通過利用每一個(gè)點(diǎn)源的密度或方向以及利用如ISO/IEC 14496-1中定義的音頻延遲和音頻效果節(jié)點(diǎn)，來操作表示。
圖2描述了線聲源LSS的音頻場景的例子。定義了3個(gè)點(diǎn)聲源S1、S2和S3以代表線聲源LSS，其中以笛卡兒坐標(biāo)給出各個(gè)位置。聲源S1位于(-3，0，0)，聲源S2位于(0，0，0)，聲源S3位于(3，0，0)。為了使聲源去相關(guān)，在用符號DS＝1、2或3表示的各個(gè)AudioSpatialDiffuseness節(jié)點(diǎn)ND1、ND2或ND3中選擇不同的擴(kuò)散算法。
表2顯示了該例子的可能語義。定義了具有三個(gè)聲音對象POS1、POS2和POS3的歸組。POS1的歸一化密度為0.9，POS2和POS3的歸一化密度為0.8。利用在該情況下為3維向量的‘location’字段來訪問它們的位置。POS1位于原點(diǎn)(0，0，0)，并且POS2和POS3分別位于在x方向相對于原點(diǎn)的-3和3個(gè)單位處。節(jié)點(diǎn)的‘spatialize’字段被設(shè)置為‘true(真)’，表示必須取決于‘location’字段中的參數(shù)來使聲音空間化。使用了單通道音頻信號，如numchan 1所指示，并且在各個(gè)音頻空間擴(kuò)散節(jié)點(diǎn)中選擇了不同的擴(kuò)散算法，如diffuseSelect1、2或3所指示。在第一AudioSpatialDiffuseness節(jié)點(diǎn)中定義了AudioSource BEACH，它是單通道音頻信號、并且可以在url 100處找到。第二和第三AudioSpatialDiffuseness節(jié)點(diǎn)使用相同的AudioSourceBEACH。這允許降低MPEG-4播放器中的計(jì)算能力，因?yàn)閷⒁丫幋a的音頻數(shù)據(jù)轉(zhuǎn)換成脈沖碼調(diào)制(PCM)輸出信號的音頻解碼器僅僅必須執(zhí)行編碼一次。為此，MPEG-4播放器的提供者傳遞場景樹以識別相同的音頻源。

表2用使用單一音頻源的三個(gè)點(diǎn)源代替的線聲源的例子根據(jù)進(jìn)一步的實(shí)施例，在音頻空間擴(kuò)散節(jié)點(diǎn)內(nèi)定義了基本形狀。有利的形狀選擇包括例如盒、球和圓柱。所有這些節(jié)點(diǎn)都可以具有l(wèi)ocation、size和rotation字段，如表3所示。

表3如果size字段的一個(gè)向量元素被設(shè)置為零，則體積將成為平面，形成了壁或盤。如果兩個(gè)向量元素為零，則產(chǎn)生線。
描述3維坐標(biāo)系統(tǒng)中的大小或形狀的另一種方法是利用相對于聽眾的孔徑角(opening angle)來控制聲音的寬度。角度具有以位置為中心的在0...2π范圍內(nèi)變化的水平分量‘widthHorizontal’和垂直分量‘widthVertical’。widthHorizontal分量的定義一般地顯示在圖3中。聲源位于位置L。為達(dá)到良好的效果，必須用至少兩個(gè)揚(yáng)聲器L1和L2包圍該位置。坐標(biāo)系統(tǒng)和聽眾位置被取為用于立體聲或5.1重放系統(tǒng)的典型配置，其中聽眾位置應(yīng)該處于由揚(yáng)聲器布置給定的所謂悅耳點(diǎn)。widthVertical以90度的x-y旋轉(zhuǎn)關(guān)系類似于widthHorizontal。
此外，可以組合上述基本形狀以制作更復(fù)雜的形狀。圖4顯示了具有兩個(gè)音頻源的場景，即位于聽眾L的前面的合唱隊(duì)以及在聽眾L的左邊、右邊和后面鼓掌的聽眾。合唱團(tuán)由一個(gè)聲音球(SoundSphere)C組成，并且聽眾由與音頻擴(kuò)散節(jié)點(diǎn)相連的三個(gè)聲音盒(SoundBox)A1、A2和A3組成。
圖4的場景的BIFS例子看上去如表4所示。如location字段和各個(gè)字段中給出的size和intensity字段一起定義的，來決定代表合唱團(tuán)的聲音球(SoundSphere)的音頻源的位置。children字段APPLAUSE被定義為第一聲音盒(SoundBox)的音頻源，并且被重新用作第二和第三聲音盒(SoundBox)的音頻源。此外，在該情況下，信號的各個(gè)聲音盒(SoundBox)的diffuseSelect字段信號被傳遞到輸出。

表4在2維場景的情況下，仍然假定聲音將是3維的。因此，建議使用第二組SoundVolume(音量)節(jié)點(diǎn)，其中用名為‘depth’的單一浮點(diǎn)字段來代替z軸，如表5所示。

表權(quán)利要求
1.一種用于對音頻信號的表示描述進(jìn)行編碼的方法，所述方法包括步驟產(chǎn)生聲源的參數(shù)描述；將所述聲源的參數(shù)描述與所述聲源的音頻信號鏈接；其特征在于，借助于所述參數(shù)描述(ND1、ND2、ND3)來描述非點(diǎn)聲源(LSS)的廣度；以及用多個(gè)去相關(guān)的點(diǎn)聲源(S1、S2、S3)來定義所述非點(diǎn)聲源的表示。
2.根據(jù)權(quán)利要求1所述的方法，其中將分離的聲源編碼為分離的音頻對象，并且通過具有與分離的音頻對象相對應(yīng)的第一節(jié)點(diǎn)和描述音頻對象表示的第二節(jié)點(diǎn)的場景描述，來描述聲音場景中的聲源的布置，以及，第二節(jié)點(diǎn)描述非點(diǎn)聲源的廣度，并用多個(gè)去相關(guān)的點(diǎn)聲源來定義所述非點(diǎn)聲源的表示。
3.根據(jù)權(quán)利要求1或2所述的方法，其中將幾種去相關(guān)算法(DIS)之一和/或所述多個(gè)去相關(guān)的點(diǎn)聲源的去相關(guān)強(qiáng)度(DES)分配給所述非點(diǎn)聲源。
4.根據(jù)權(quán)利要求1至3中任一權(quán)利要求所述的方法，其中定義了近似于所述非點(diǎn)聲源的形狀。
5.根據(jù)權(quán)利要求4所述的方法，其中通過3維坐標(biāo)系統(tǒng)中的參數(shù)來給出被定義的形狀的大小。
6.根據(jù)權(quán)利要求5所述的方法，其中通過具有垂直和水平分量的孔徑角來給出被定義的形狀的大小。
7.根據(jù)權(quán)利要求4至6中任一權(quán)利要求所述的方法，其中將復(fù)雜形狀的非點(diǎn)聲源分成每一種都近似于所述非點(diǎn)聲源一部分的幾種形狀(A1、A2、A3)。
8.一種用于對音頻信號的表示描述進(jìn)行解碼的方法，所述方法包括步驟接收與和所述聲源的參數(shù)描述鏈接的聲源相對應(yīng)的音頻信號；其特征在于，評價(jià)所述聲源的參數(shù)描述(ND1、ND2、ND3)以確定非點(diǎn)聲源(LSS)的廣度；以及將不同位置的多個(gè)去相關(guān)點(diǎn)聲源(S1、S2、S3)分配給所述非點(diǎn)聲源。
9.根據(jù)權(quán)利要求8所述的方法，其中分別對代表分離的聲源的音頻對象進(jìn)行解碼，并且利用具有與分離的音頻對象相對應(yīng)的第一節(jié)點(diǎn)和描述音頻對象處理的第二節(jié)點(diǎn)的場景描述，從被解碼的音頻對象組成單聲軌，以及，第二節(jié)點(diǎn)描述非點(diǎn)聲源的廣度，并借助于發(fā)出去相關(guān)信號的所述多個(gè)去相關(guān)點(diǎn)聲源來定義所述非點(diǎn)聲源的表示。
10.根據(jù)權(quán)利要求8或9所述的方法，其中將不同去相關(guān)算法(DIS)之一應(yīng)用于所述非點(diǎn)聲源的音頻信號，并且/或者根據(jù)被分配給所述非點(diǎn)聲源的相應(yīng)指示來選擇所述多個(gè)去相關(guān)點(diǎn)聲源的去相關(guān)強(qiáng)度(DES)。
11.根據(jù)權(quán)利要求8至10中任一權(quán)利要求所述的方法，其中以近似于所述非點(diǎn)聲源的形狀來排列所述多個(gè)去相關(guān)點(diǎn)聲源。
12.根據(jù)權(quán)利要求11所述的方法，其中利用3維坐標(biāo)系統(tǒng)中的參數(shù)來確定被定義的形狀的大小。
13.根據(jù)權(quán)利要求12所述的方法，其中利用具有垂直和水平分量的孔徑角來確定被定義的形狀的大小。
14.根據(jù)權(quán)利要求11至13中任一權(quán)利要求所述的方法，其中將幾種形狀(A1、A2、A3)組合起來以產(chǎn)生復(fù)雜形狀的非點(diǎn)聲源的近似。
15.一種用于執(zhí)行根據(jù)權(quán)利要求1至14中任一權(quán)利要求所述的方法的設(shè)備。
全文摘要
公開了一種用于對音頻信號的表示描述進(jìn)行編碼和解碼的方法，以產(chǎn)生一種用于描述非點(diǎn)聲源的參數(shù)描述，并使該參數(shù)描述與所述聲源的音頻信號鏈接。通過不同位置的多個(gè)去相關(guān)點(diǎn)聲源來定義所述非點(diǎn)聲源的表示。不同擴(kuò)散算法被應(yīng)用以確保各個(gè)輸出的去相關(guān)。根據(jù)進(jìn)一步實(shí)施例，定義了幾種分布式不相關(guān)聲源的基本形狀，例如盒子、球和圓柱。也可以用相對于聽眾的孔徑角來定義聲源的寬度。此外，可以將基本形狀組合起來以制作更復(fù)雜的形狀。
文檔編號G10L19/00GK1973318SQ200380101325
公開日2007年5月30日申請日期2003年10月10日優(yōu)先權(quán)日2002年10月14日
發(fā)明者延斯·斯皮勒, 于爾根·施密特申請人:湯姆森許可貿(mào)易公司

完整全部詳細(xì)技術(shù)資料下載