用于高聲道計(jì)數(shù)的多聲道音頻的基于多元組的矩陣混合的制作方法
【專利摘要】提供了基于多元組的空間矩陣化編解碼器和方法,其用于減少高聲道計(jì)數(shù)(七個(gè)或更多個(gè)聲道)的多聲道音頻的聲道數(shù)(以及因此減小位速率),通過(guò)啟用空間準(zhǔn)確性與基本音頻質(zhì)量之間的折中來(lái)優(yōu)化音頻質(zhì)量,并且將音頻信號(hào)格式轉(zhuǎn)換成回放環(huán)境配置。最初的N聲道計(jì)數(shù)通過(guò)利用多元組平移法則空間矩陣混合到較低數(shù)量的聲道而被減少到M個(gè)聲道。多元組平移法則包括二元組、三元組和四元組平移法則。例如,利用四元組平移法則,N個(gè)聲道中的一個(gè)可以被下混到M個(gè)聲道中的四個(gè),以創(chuàng)建四元組聲道。空間信息以及音頻內(nèi)容被包含在多元組聲道中。在上混期間,利用對(duì)應(yīng)的多元組平移法則從多元組聲道中提取出下混的聲道。然后,提取出的聲道在回放環(huán)境中的任意位置被呈現(xiàn)。
【專利說(shuō)明】用于高聲道計(jì)數(shù)的多聲道音頻的基于多元組的矩陣混合
[0001] 對(duì)相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求于2014年11月26日提交的標(biāo)題為"MULTIPLET-BA沈D MATRIX MIXING FOR HIGH-CHAN肥L COUNT MULTICHAN肥L AUDI爐的美國(guó)專利申請(qǐng)14/555,324的權(quán)益,該申 請(qǐng)是于2013年11月27日提交的標(biāo)題為"MULTI化ET-BAS抓MATRIX MIXING FOR HIGH- CHAN肥L COUNT MULTICHAN肥L AUDI爐的美國(guó)臨時(shí)專利申請(qǐng)序列No.61/909,841和于2014 年7月30 日提交的標(biāo)題為"MATRIX DECODER WUH C0NSTANT-P0肥R PAIRWISE PANNIN護(hù)的 美國(guó)專利申請(qǐng)序列No . 14/447,516的非臨時(shí)申請(qǐng),所有運(yùn)些的全部?jī)?nèi)容都通過(guò)引用被結(jié)合 于此。
【背景技術(shù)】
[0003] 許多音頻再現(xiàn)系統(tǒng)能夠記錄、發(fā)送和回放同步的多聲道音頻,有時(shí)被稱為"環(huán)繞 聲"。雖然娛樂(lè)音頻W簡(jiǎn)單的單聲道系統(tǒng)開(kāi)始,但是它很快就發(fā)展成雙聲道(立體聲)和高聲 道計(jì)數(shù)的格式(環(huán)繞聲),W努力捕捉收聽(tīng)者沉浸的令人信服的空間形象和感覺(jué)。環(huán)繞聲是 用于通過(guò)使用多于兩個(gè)音頻聲道增強(qiáng)音頻信號(hào)的再現(xiàn)的技術(shù)。內(nèi)容在多個(gè)離散的音頻聲道 上被輸送,并利用卿趴(或揚(yáng)聲器)的陣列再現(xiàn)。附加的音頻聲道或者"環(huán)繞聲道"為收聽(tīng)者 提供身臨其境的聽(tīng)覺(jué)體驗(yàn)。
[0004] 環(huán)繞聲系統(tǒng)通常具有定位在收聽(tīng)者周圍的揚(yáng)聲器,W便給收聽(tīng)者W聲音定位和包 絡(luò)感。僅具有少數(shù)聲道的許多環(huán)繞聲系統(tǒng)(諸如5.1格式)具有定位在圍繞收聽(tīng)者的360度弧 的特定位置的揚(yáng)聲器。運(yùn)些揚(yáng)聲器也被布置成使得所有揚(yáng)聲器都在彼此和收聽(tīng)者的耳朵相 同的平面內(nèi)。許多更高聲道計(jì)數(shù)的環(huán)繞聲系統(tǒng)(諸如7.等等)還包括被定位在收聽(tīng) 者耳朵的平面上方的高度或高程(elevation)揚(yáng)聲器,W給予音頻內(nèi)容高度感。運(yùn)些環(huán)繞聲 配置常常包括提供附加的低頻低音音頻的離散的低頻效果化FE)聲道,W補(bǔ)充其它主音頻 聲道中的低音音頻。因?yàn)檫\(yùn)個(gè)LFE聲道僅需要其它音頻聲道的帶寬的一部分,所W它被指定 為r聲道,其中X是包括零的任何正整數(shù)(諸如在5.1或7.1環(huán)繞聲中)。
[0005] 在理想的情況下,環(huán)繞聲音頻被混合到離散的聲道中并且那些聲道通過(guò)向收聽(tīng)者 回放而保持離散。但是,在現(xiàn)實(shí)中,存儲(chǔ)和傳輸限制決定了環(huán)繞聲音頻的文件大小被減小W 最小化存儲(chǔ)空間和傳輸帶寬。而且,與具有多于兩個(gè)聲道的音頻內(nèi)容相比,雙聲道音頻內(nèi)容 通常與更多種的廣播和再現(xiàn)系統(tǒng)兼容。
[0006] 矩陣化被開(kāi)發(fā)W解決運(yùn)些需求。矩陣化設(shè)及將具有多于兩個(gè)離散音頻聲道的原始 信號(hào)"下混"成雙聲道音頻信號(hào)。超過(guò)兩個(gè)聲道的附加聲道根據(jù)預(yù)先確定的處理被下混W生 成包括來(lái)自所有音頻聲道的信息的雙聲道下混。附加的音頻聲道可W稍后利用"上混"處理 從雙聲道下混中提取并合成,使得原始聲道混合可W恢復(fù)到某種程度的近似。上混接收雙 聲道音頻信號(hào)作為輸入并生成更大數(shù)量的聲道W用于回放。運(yùn)種回放是原始信號(hào)的音頻聲 道的可接受的近似。
[0007] 幾種上混技術(shù)使用恒定功率平移(panning)。"平移"的概念得自運(yùn)動(dòng)畫(huà)面并且具 體而言是單詞"全景圖(panorama)"。全景圖是指在每個(gè)方向上都具有給定區(qū)域的完整視覺(jué) 視圖。在音頻領(lǐng)域中,音頻可在立體聲場(chǎng)中平移W使得音頻被感知為定位在物理空間中,使 得表演中的所有聲音都在其合適的位置和維度被收聽(tīng)者聽(tīng)到。對(duì)于音樂(lè)錄音,通常的做法 是將樂(lè)器放在它們?cè)谡鎸?shí)舞臺(tái)上將被物理放置的地方。例如,舞臺(tái)左側(cè)的樂(lè)器向左平移并 且舞臺(tái)右側(cè)的樂(lè)器向右平移。運(yùn)個(gè)想法設(shè)法在回放過(guò)程中為收聽(tīng)者復(fù)制現(xiàn)實(shí)生活中的表 演。
[000引因?yàn)檩斎胍纛l信號(hào)分布在音頻聲道中,所W恒定功率平移跨音頻聲道維持恒定的 信號(hào)功率。雖然恒定功率平移很普遍,但是目前的下混和上混技術(shù)努力保留和恢復(fù)在原始 混音中存在的精確平移行為和定位。此外,一些技術(shù)容易產(chǎn)生偽像,并且全都具有有限的能 力來(lái)分開(kāi)在時(shí)間和頻率上重疊但是源自不同空間方向的獨(dú)立信號(hào)。
[0009] 例如,一些流行的上混技術(shù)使用壓控放大器來(lái)將兩個(gè)輸入聲道規(guī)格化到大致相同 的水平。然后,運(yùn)兩個(gè)信號(hào)W特設(shè)方式被組合W產(chǎn)生輸出聲道。但是,由于運(yùn)種特設(shè)的辦法, 最終的輸出難W實(shí)現(xiàn)期望的平移行為并且包括串?dāng)_問(wèn)題并且最多近似離散的環(huán)繞聲音頻。
[0010] 其它類型的上混技術(shù)只在幾個(gè)平移位置精確,而在遠(yuǎn)離那些位置的地方不精確。 作為示例,一些上混技術(shù)定義有限數(shù)量的平移位置,在運(yùn)些位置,上混導(dǎo)致精確和可預(yù)測(cè)的 行為。顯性矢量分析被用來(lái)在處于精確平移位置點(diǎn)的有限數(shù)量的反矩陣化系數(shù)的預(yù)定義集 合之間進(jìn)行插值。落在運(yùn)些點(diǎn)之間的任何平移位置都使用插值來(lái)找到反矩陣化系數(shù)值。由 于運(yùn)種插值,落在精確點(diǎn)之間的平移位置會(huì)是不精確的并且不利地影響音頻質(zhì)量。
【發(fā)明內(nèi)容】
[0011] 本
【發(fā)明內(nèi)容】
的提供是為了 W簡(jiǎn)化的形式介紹下面在【具體實(shí)施方式】中進(jìn)一步描述 的概念的選擇。本
【發(fā)明內(nèi)容】
并不意在識(shí)別要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不意 在被用來(lái)限制要求保護(hù)的主題的范圍。
[0012] 基于多元組(multiplet)的空間矩陣化編解碼器和方法的實(shí)施例減少了高聲道計(jì) 數(shù)(屯個(gè)或更多個(gè)聲道)的多聲道音頻的聲道計(jì)數(shù)(W及因此減小位速率)。此外,編解碼器 和方法的實(shí)施例通過(guò)啟用空間準(zhǔn)確性與基本音頻質(zhì)量之間的折中來(lái)優(yōu)化音頻質(zhì)量,并將音 頻信號(hào)格式轉(zhuǎn)換成回放環(huán)境配置。運(yùn)部分地是通過(guò)確定目標(biāo)位速率和該位速率將支持的聲 道(或存留聲道(surviving channel))的數(shù)量來(lái)實(shí)現(xiàn)的。其余的聲道(非存留聲道)被下混 到存留聲道的多元組上。運(yùn)可W是一對(duì)聲道(或二元組(doublet))、聲道的S元組 (triplet)、聲道的四元組(qua化uplet)或聲道的任何更高階多元組。
[0013] 例如,第五非存留聲道可被下混到四個(gè)其它存留聲道上。在上混期間,第五聲道從 四個(gè)其它聲道中被提取出來(lái)并在回放環(huán)境中被呈現(xiàn)(render)。那編碼的四個(gè)聲道W各種方 式被進(jìn)一步配置和組合,用于與現(xiàn)有解碼器的向后兼容,然后利用有損或無(wú)損位速率壓縮 進(jìn)行壓縮。解碼器具有編碼的四個(gè)編碼音頻聲道W及相關(guān)的元數(shù)據(jù),從而使得能夠正確地 解碼回原始的源揚(yáng)聲器布局(諸如11.X布局)。
[0014] 為了讓解碼器正確地解碼聲道減少的信號(hào),解碼器必須被告知在編碼過(guò)程中使用 的布局、參數(shù)和系數(shù)。例如,如果編碼器將11.2聲道基本混合編碼成7.1聲道減少的信號(hào),貝U 描述原始布局、聲道減少的布局、有貢獻(xiàn)的下混聲道W及下混系數(shù)的信息將被發(fā)送到解碼 器,W便使得能夠正確解碼回原始的11.2聲道計(jì)數(shù)布局。運(yùn)種類型的信息是在位流的數(shù)據(jù) 結(jié)構(gòu)中提供的。當(dāng)運(yùn)種性質(zhì)的信息被提供并用來(lái)重構(gòu)原始信號(hào)時(shí),編解碼器在元數(shù)據(jù)模式 下工作。
[0015] 編解碼器和方法也可W被用作用于傳統(tǒng)內(nèi)容的盲上混合器,W便創(chuàng)建匹配回放環(huán) 境的收聽(tīng)布局的輸出聲道布局。盲上混用例中的區(qū)別在于,編解碼器基于布局和信號(hào)假設(shè) 而不是已知的編碼處理來(lái)配置信號(hào)處理模塊。因此,當(dāng)它不具有或不使用明確的元數(shù)據(jù)信 息時(shí),編解碼器在盲模式下工作。
[0016] 本文描述的基于多元組的空間矩陣化編解碼器和方法是嘗試W運(yùn)樣一種方式解 決當(dāng)混合、輸送和再現(xiàn)具有多個(gè)聲道的多聲道音頻時(shí)發(fā)生的多個(gè)相關(guān)問(wèn)題,該方式使得對(duì) 于混合或呈現(xiàn)技術(shù)的向后兼容性和靈活性給予適當(dāng)考慮。本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,眾多 空間布置對(duì)于聲音源、麥克風(fēng)或揚(yáng)聲器是可能的;并且最終消費(fèi)者擁有的揚(yáng)聲器是藝術(shù)家、 工程師或娛樂(lè)影音的分銷商無(wú)法完全可預(yù)見(jiàn)的。編解碼器和方法的實(shí)施例還解決了要實(shí)現(xiàn) 在數(shù)據(jù)帶寬、聲道計(jì)數(shù)和質(zhì)量之間的對(duì)大聲道計(jì)數(shù)更可行的功能和實(shí)用的折中的需求。
[0017] 基于多元組的空間矩陣化編解碼器和方法被設(shè)計(jì)為減少聲道計(jì)數(shù)(W及因此減小 位速率),通過(guò)啟用空間準(zhǔn)確性與基本音頻質(zhì)量之間的折中來(lái)優(yōu)化音頻質(zhì)量,并且將音頻信 號(hào)格式轉(zhuǎn)換到回放環(huán)境配置。相應(yīng)地,編解碼器和方法的實(shí)施例使用矩陣化和離散聲道壓 縮的組合來(lái)創(chuàng)建并回放來(lái)自具有M個(gè)聲道(和LFE聲道)的基本混合的具有N個(gè)聲道的多聲道 混合,其中N大于M并且其中N和M都大于二。當(dāng)N大時(shí),例如在10至50的范圍內(nèi)并且包括高度 聲道W及環(huán)繞聲道;W及當(dāng)期望提供諸如5.1或7.1環(huán)繞混合的向后兼容的基本混合時(shí),運(yùn) 種技術(shù)特別有利。
[0018] 給定包括基本聲道(諸如5.1或7.1)和附加聲道的聲音混合,本發(fā)明使用基于按 對(duì)、=元組W及四元組的矩陣規(guī)則的組合,W便W運(yùn)樣一種方式將附加聲道混合到基本聲 道中,該方式將允許互補(bǔ)的上混,所述上混能夠清晰明確地恢復(fù)附加聲道,連同用于每個(gè)附 加聲道的空間既定聲音源的令人信服的錯(cuò)覺(jué)。使傳統(tǒng)解碼器能夠解碼基本混合,而通過(guò)編 解碼器和方法的實(shí)施例使較新的解碼器能夠執(zhí)行分離附加聲道(諸如高度聲道)的上混。
[0019] 應(yīng)當(dāng)注意,依賴于特定的實(shí)施例,備選實(shí)施例是可能的,并且本文所討論的步驟和 元素可W改變、添加或消除。在不背離本發(fā)明的范圍的情況下,運(yùn)些備選實(shí)施例包括可W被 使用的備選步驟和備選元素,W及可W做出的結(jié)構(gòu)變化。
【附圖說(shuō)明】
[0020] 現(xiàn)在參考附圖,在附圖中相同的附圖標(biāo)記在全文表示對(duì)應(yīng)的部分:
[0021 ]圖1是示出術(shù)語(yǔ)"源"、"波形"與"音頻對(duì)象"之間的差別的圖。
[0022] 圖2是術(shù)語(yǔ)"聲床混合"、"對(duì)象"和"基本混合"之間的差別的圖示。
[0023] 圖3是在與收聽(tīng)者耳朵同一平面內(nèi)具有L個(gè)揚(yáng)聲器并且在比收聽(tīng)者耳朵高的高度 環(huán)周圍設(shè)置了 P個(gè)揚(yáng)聲器的內(nèi)容創(chuàng)建環(huán)境揚(yáng)聲器布局的概念的圖示。
[0024] 圖4是示出基于多元組的空間矩陣化編解碼器和方法的實(shí)施例的一般概述的框 圖。
[0025] 圖5是示出圖4中所示的基于多元組的空間矩陣化編碼器的非傳統(tǒng)實(shí)施例的細(xì)節(jié) 的框圖。
[0026] 圖6是示出圖4中所示的基于多元組的空間矩陣化解碼器的非傳統(tǒng)實(shí)施例的細(xì)節(jié) 的框圖。
[0027] 圖7是示出圖4中所示的基于多元組的空間矩陣化編碼器的向后兼容實(shí)施例的細(xì) 節(jié)的框圖。
[0028] 圖8是示出圖4中所示的基于多元組的空間矩陣化解碼器的向后兼容實(shí)施例的細(xì) 節(jié)的框圖。
[0029] 圖9是示出圖5和圖7中所示的基于多元組的矩陣下混系統(tǒng)的示例性實(shí)施例的細(xì)節(jié) 的框圖。
[0030] 圖10是示出圖6和圖8中所示的基于多元組的矩陣上混系統(tǒng)的示例性實(shí)施例的細(xì) 節(jié)的框圖。
[0031] 圖11是示出圖4中所示的基于多元組的空間矩陣化編解碼器和方法的實(shí)施例的一 般操作的流程圖。
[0032] 圖12示出了對(duì)于正弦/余弦平移法則作為平移角度(0)的函數(shù)的平移權(quán)重。
[0033] 圖13示出了對(duì)應(yīng)于中屯、輸出聲道的同相曲線圖的平移行為。
[0034] 圖14示出了對(duì)應(yīng)于中屯、輸出聲道的異相曲線圖的平移行為。
[0035] 圖15示出了對(duì)應(yīng)于左環(huán)繞輸出聲道的同相曲線圖的平移行為。
[0036] 圖16示出了對(duì)應(yīng)于下混方程的兩個(gè)特定角度,其中左環(huán)繞和右環(huán)繞聲道被離散地 編碼和解碼。
[0037] 圖17示出了對(duì)應(yīng)于修改的左輸出聲道的同相曲線圖的平移行為。
[0038] 圖18示出了對(duì)應(yīng)于修改的左輸出聲道的異相曲線圖的平移行為。
[0039] 圖19是示出信號(hào)源S到聲道S元組上的平移的圖。
[0040] 圖20是示出已被平移到S元組上的非存留第四聲道的提取的圖。
[0041] 圖21是示出信號(hào)源S到聲道四元組上的平移的圖。
[0042] 圖22是示出已被平移到四元組上的非存留第四聲道的提取的圖。
[0043] 圖23是回放環(huán)境和擴(kuò)展的呈現(xiàn)技術(shù)的圖示。
[0044] 圖24示出了利用擴(kuò)展的呈現(xiàn)技術(shù)在單位球體上和在單位球體中的音頻源的呈現(xiàn)。
[0045] 圖25-圖28是規(guī)定用于輸入布局中在存留布局中不存在的任何揚(yáng)聲器的矩陣多元 組的映射的查找表。
【具體實(shí)施方式】
[0046] 在W下基于多元組的空間矩陣化編解碼器和方法的實(shí)施例的描述中,對(duì)附圖進(jìn)行 了參考。運(yùn)些附圖W說(shuō)明的方式示出了基于多元組的空間矩陣化編解碼器和方法的實(shí)施例 可W被如何實(shí)踐的具體示例。應(yīng)當(dāng)理解,在不背離要求保護(hù)的主題的范圍的情況下,可W使 用其它實(shí)施例并且可W進(jìn)行結(jié)構(gòu)改變。
[0047] I.術(shù)語(yǔ)
[0048] W下是本文檔中使用的一些基本術(shù)語(yǔ)和概念。應(yīng)當(dāng)注意,運(yùn)些術(shù)語(yǔ)和概念中的一 些可能具有與在它們和其它音頻技術(shù)一起使用時(shí)所具有的含義稍微不同的含義。
[0049] 本文檔討論基于聲道的音頻和基于對(duì)象的音頻二者。音樂(lè)或音軌傳統(tǒng)上是通過(guò)W 下操作來(lái)創(chuàng)建:在錄音棚中將多個(gè)不同的聲音混合到一起,決定那些聲音應(yīng)當(dāng)在哪里被聽(tīng) 到,W及創(chuàng)建要在揚(yáng)聲器系統(tǒng)中的每個(gè)單獨(dú)揚(yáng)聲器上播放的輸出聲道。在運(yùn)種基于聲道的 音頻中,聲道意味著既定的、標(biāo)準(zhǔn)的揚(yáng)聲器配置。如果使用不同的揚(yáng)聲器配置,則聲音不能 在它們預(yù)期去往的地方或者W正確的再現(xiàn)水平結(jié)束。
[0050]在基于對(duì)象的音頻中,所有不同的聲音與描述聲音應(yīng)當(dāng)怎樣被再現(xiàn)(包括其在= 維(3D)空間中的位置)的信息或元數(shù)據(jù)組合。然后輪到回放系統(tǒng)來(lái)為給定的揚(yáng)聲器系統(tǒng)呈 現(xiàn)對(duì)象W使得對(duì)象如預(yù)期的那樣被再現(xiàn)并放在正確的位置。對(duì)于基于對(duì)象的音頻,音樂(lè)或 音軌在具有不同數(shù)量的揚(yáng)聲器或具有相對(duì)于收聽(tīng)者處于不同位置的揚(yáng)聲器的系統(tǒng)上應(yīng)當(dāng) 聽(tīng)起來(lái)是基本相同的。運(yùn)種方法有助于保留藝術(shù)家的真正意圖。
[0051 ]圖1是示出術(shù)語(yǔ)"源"、"波形"和"音頻對(duì)象"之間的差別的圖。如圖1中所示,術(shù)語(yǔ) "源"被用來(lái)指表示聲床混合的一個(gè)聲道或一個(gè)音頻對(duì)象的聲音的單個(gè)聲波。當(dāng)源被分配= 維空間中的特定位置時(shí),那個(gè)聲音及其在3D空間中的位置的組合被稱為"波形"。當(dāng)波形與 其它元數(shù)據(jù)(諸如聲道集合、音頻展現(xiàn)層次結(jié)構(gòu)等等)組合并存儲(chǔ)在增強(qiáng)的位流的數(shù)據(jù)結(jié)構(gòu) 中時(shí)創(chuàng)建"音頻對(duì)象"(或"對(duì)象。"增強(qiáng)的位流"不僅包含音頻數(shù)據(jù)而且包含空間數(shù)據(jù)和其 它類型的元數(shù)據(jù)。"音頻展現(xiàn)"是最終從基于多元組的空間矩陣化解碼器的實(shí)施例出來(lái)的音 頻。
[0052] 短語(yǔ)"增益系數(shù)"是音頻信號(hào)的水平被調(diào)整W增加或減小其音量的量。術(shù)語(yǔ)"呈現(xiàn)" 指示將給定的音頻分發(fā)格式轉(zhuǎn)換為正被使用的特定回放揚(yáng)聲器配置的處理。給定回放系統(tǒng) 和環(huán)境的參數(shù)和限制,呈現(xiàn)嘗試盡可能接近原始空間聲學(xué)空間地重建回放空間聲學(xué)空間。
[0053] 當(dāng)環(huán)繞或升高的揚(yáng)聲器從回放環(huán)境中的揚(yáng)聲器布置中缺失時(shí),則意在用于運(yùn)些缺 失的揚(yáng)聲器的音頻對(duì)象可W被重映射到回放環(huán)境中物理存在的其它揚(yáng)聲器。為了啟用運(yùn)個(gè) 功能,可W定義在回放環(huán)境中使用但不與輸出聲道直接關(guān)聯(lián)的"虛擬揚(yáng)聲器"。相反,它們的 信號(hào)通過(guò)使用下混映射被重新路由到物理?yè)P(yáng)聲器聲道。
[0054] 圖2是術(shù)語(yǔ)"聲床混合"、"對(duì)象"和"基本混合"之間的差別的圖示。"聲床混合"和 "基本混合"都是指基于聲道的音頻混合(諸如5.1、7.1、11.1,等等),其可^或者作為聲道 或者作為基于聲道的對(duì)象被包含在增強(qiáng)的位流中。運(yùn)兩個(gè)術(shù)語(yǔ)之間的差別在于聲床混合不 包含任何包含在位流中的音頻對(duì)象?;净旌习琖基于聲道的形式為標(biāo)準(zhǔn)揚(yáng)聲器布局 (諸如5.1、7.1,等等)展現(xiàn)的完整音頻展現(xiàn)。在基本混合中,所展現(xiàn)的任何對(duì)象都被混入聲 道混合。運(yùn)在圖2中示出,該圖示出了基本混合包括聲床混合和任何音頻對(duì)象二者。
[0055] 如本文檔中所使用的,術(shù)語(yǔ)"多元組"是指具有平移到其上的信號(hào)的多個(gè)聲道的分 組。例如,一種類型的多元組是"二元組",由此信號(hào)被平移到兩個(gè)聲道上。類似地,另一種類 型的多元組是元組",由此信號(hào)被平移到=個(gè)聲道上。當(dāng)信號(hào)被平移到四個(gè)聲道上時(shí),結(jié) 果所得的多元組被稱為"四元組"。多元組可W包括信號(hào)被平移到其上的兩個(gè)或更多個(gè)(包 括五個(gè)聲道、六個(gè)聲道、屯個(gè)聲道,等等)聲道的分組。為了教學(xué)目的,本文檔只討論二元組、 =元組和四元組的情況。但是,應(yīng)當(dāng)注意的是,本文所教導(dǎo)的原理可W被擴(kuò)展到包含五個(gè)或 更多個(gè)聲道的多元組。
[0056] 基于多元組的空間矩陣化編解碼器和方法的實(shí)施例或其各方面被用在用于輸送 和記錄多聲道音頻的系統(tǒng)中,尤其是當(dāng)大量的聲道要被發(fā)送或記錄時(shí)。如本文檔中所使用 的,"高聲道計(jì)數(shù)的"多聲道音頻意味著存在屯個(gè)或更多個(gè)音頻聲道。例如,在一個(gè)運(yùn)樣的系 統(tǒng)中,大量聲道被記錄并假設(shè)被配置在已知的回放幾何形狀中,該回放幾何形狀具有設(shè)置 在收聽(tīng)者周圍耳朵水平的L個(gè)聲道,設(shè)置在高度環(huán)(設(shè)置得比耳朵水平高)周圍的P個(gè)聲道, W及可選地位于收聽(tīng)者之上的頂點(diǎn)(zenith)處或頂點(diǎn)附近的中屯、聲道(其中L和P是大于1 的正整數(shù))。
[0057]圖3是內(nèi)容創(chuàng)建環(huán)境揚(yáng)聲器(或聲道)布局300的概念的圖示,該布局300在與收聽(tīng) 者的耳朵同一平面內(nèi)具有L個(gè)揚(yáng)聲器并且在比收聽(tīng)者的耳朵高的高度環(huán)周圍設(shè)置有P個(gè)揚(yáng) 聲器。如圖3中所示,收聽(tīng)者100在收聽(tīng)混合到內(nèi)容創(chuàng)建環(huán)境揚(yáng)聲器布局300上的內(nèi)容。內(nèi)容 創(chuàng)建環(huán)境揚(yáng)聲器布局300是11.1布局,具有可選的頭頂揚(yáng)聲器305。包含與收聽(tīng)者的耳朵同 一平面內(nèi)的L個(gè)揚(yáng)聲器的L平面310包括左揚(yáng)聲器315、中屯、揚(yáng)聲器320、右揚(yáng)聲器325、左環(huán)繞 揚(yáng)聲器330和右環(huán)繞揚(yáng)聲器335。所示的11.1布局還包括低頻效果化FE或"低音炮")揚(yáng)聲器 340"L平面310還包括環(huán)繞后左揚(yáng)聲器345和環(huán)繞后右揚(yáng)聲器350。收聽(tīng)者的耳朵355中的每 個(gè)也位于L平面310中。
[005引P(或高度)平面360包含左前高度揚(yáng)聲器365和右前高度揚(yáng)聲器370dP平面360還包 括左環(huán)繞高度揚(yáng)聲器375和右環(huán)繞高度揚(yáng)聲器380??蛇x的頭頂揚(yáng)聲器305被示為位于P平面 360中。作為替代,可選的頭頂揚(yáng)聲器305可W位于P平面360上方在內(nèi)容創(chuàng)建環(huán)境的頂點(diǎn)處。 L平面310和P平面360隔開(kāi)距離d。
[0059] 雖然在圖3中示出了 11.1內(nèi)容創(chuàng)建環(huán)境揚(yáng)聲器布局300(連同可選的頭頂揚(yáng)聲器 305-起),但是基于多元組的空間矩陣化編解碼器和方法的實(shí)施例可W被一般化W使得內(nèi) 容可W在包含屯個(gè)或更多個(gè)音頻聲道的高聲道計(jì)數(shù)環(huán)境中被混合。而且,應(yīng)當(dāng)注意的是,在 圖3中,內(nèi)容創(chuàng)建環(huán)境揚(yáng)聲器布局300中的揚(yáng)聲器W及收聽(tīng)者的頭部和耳朵不相互成比例。 特別地,收聽(tīng)者的頭部和耳朵W更大的比例示出W說(shuō)明每個(gè)揚(yáng)聲器和收聽(tīng)者的耳朵在與L 平面310同一水平面中的概念。
[0060] P平面360中的揚(yáng)聲器可W根據(jù)各種常規(guī)的幾何形狀布置,并且假設(shè)的幾何形狀對(duì) 于混合工程師或唱片藝術(shù)家/工程師是已知的。根據(jù)基于多元組的空間矩陣化編解碼器和 方法的實(shí)施例,(L+P)聲道計(jì)數(shù)通過(guò)新穎的矩陣混合方法減少到較低的聲道數(shù)(例如,(L+P) 個(gè)聲道被映射到僅L個(gè)聲道上)。然后,減少計(jì)數(shù)的聲道通過(guò)保留減少計(jì)數(shù)的聲道的離散性 質(zhì)的已知方法被編碼和壓縮。
[0061] 關(guān)于解碼,編解碼器和方法的實(shí)施例的操作依賴于解碼器的能力。在傳統(tǒng)的解碼 器中,其中混合有P個(gè)聲道的減少計(jì)數(shù)化)的聲道被再現(xiàn)。在更先進(jìn)的解碼器中,(L+P)個(gè)聲 道的完全協(xié)同可W通過(guò)上混并將每個(gè)路由到(L+P)個(gè)揚(yáng)聲器中對(duì)應(yīng)的一個(gè)來(lái)恢復(fù)。
[0062] 根據(jù)本發(fā)明,上混和下混操作(矩陣化/反矩陣化)二者包括多元組平移法則(諸如 按對(duì)、=元組和四元組平移法則)的組合W便在再現(xiàn)時(shí)將感知到的聲音源放成接近地對(duì)應(yīng) 于唱片藝術(shù)家或工程師預(yù)期的假設(shè)位置。矩陣化操作(聲道布局減少)可W在W下方面應(yīng)用 到聲床混合聲道:(a)增強(qiáng)的位流的聲床混合加對(duì)象組成;(b)增強(qiáng)的位流的僅基于聲道的 組成。此外,矩陣化操作可W應(yīng)用到靜止對(duì)象(不四處移動(dòng)的對(duì)象)并且在反矩陣化之后仍 然實(shí)現(xiàn)充分的對(duì)象分離,運(yùn)將允許對(duì)單個(gè)對(duì)象的獨(dú)立的水平修改和呈現(xiàn);或(C)對(duì)基于聲道 的對(duì)象應(yīng)用矩陣化操作。
[006引 II.系統(tǒng)概述
[0064]基于多元組的空間矩陣化編解碼器和方法的實(shí)施例通過(guò)將某些聲道平移到其余 聲道的多元組上來(lái)減少高聲道計(jì)數(shù)的多聲道音頻和位速率。運(yùn)用來(lái)通過(guò)啟用空間準(zhǔn)確性與 基本音頻質(zhì)量之間的折中來(lái)優(yōu)化音頻質(zhì)量。編解碼器和方法的實(shí)施例還將音頻信號(hào)格式轉(zhuǎn) 換到回放環(huán)境配置。
[0065] 圖4是示出基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例的一般概述的 框圖。參照?qǐng)D4,編解碼器400包括基于多元組的空間矩陣化編碼器410和基于多元組的空間 矩陣化解碼器420。最初,音頻內(nèi)容(諸如音樂(lè)曲目)在內(nèi)容創(chuàng)建環(huán)境430中被創(chuàng)建。運(yùn)種環(huán)境 430可W包括多個(gè)麥克風(fēng)435(或其它聲音捕獲設(shè)備)W記錄音頻源。作為替代,音頻源可W 已經(jīng)是數(shù)字信號(hào),使得沒(méi)有必要使用麥克風(fēng)來(lái)記錄源。無(wú)論創(chuàng)建聲音的方法是什么,每個(gè)音 頻源都被混入作為內(nèi)容創(chuàng)建環(huán)境430的輸出的最終的混合。
[0066] 內(nèi)容創(chuàng)建者選擇最能代表創(chuàng)建者的空間意圖的N.X基本混合,其中N表示常規(guī)的聲 道數(shù)并且X表示低頻聲道數(shù)。而且,N是大于1的正整數(shù),并且X是非負(fù)整數(shù)。例如,在11.1環(huán)繞 系統(tǒng)中,N=Il并且X = I。運(yùn)當(dāng)然受限于聲道的最大數(shù),使得N+x《MAX,其中MAX是表示容許 聲道的最大數(shù)的正整數(shù)。
[0067] 在圖4中,最終的混合是N.X混合440,使得每個(gè)音頻源被混入N+X個(gè)聲道中。然后最 終的N.X混合440利用基于多元組的空間矩陣化編碼器410被編碼和下混。編碼器410通常位 于具有一個(gè)或多個(gè)處理設(shè)備的計(jì)算設(shè)備上。編碼器410將最終的N.X混合編碼和下混成具有 M個(gè)常規(guī)聲道和X個(gè)低頻聲道的M. X混合450,其中M是大于1的正整數(shù)并且M小于N。
[0068] M.X 450下混通過(guò)輸送環(huán)境460輸送W供收聽(tīng)者消費(fèi)。幾個(gè)輸送選項(xiàng)可供選擇,包 括通過(guò)網(wǎng)絡(luò)465流化輸送。作為替代,M.X 450下混可被記錄在介質(zhì)470(諸如光盤(pán))上W供收 聽(tīng)者消費(fèi)。此外,有許多其它未在運(yùn)里列舉的可用來(lái)輸送M.X 450下混的輸送選項(xiàng)。
[0069] 輸送環(huán)境的輸出是M.r流475,其被輸入到基于多元組的空間矩陣化解碼器420。解 碼器420解碼和上混M.r流475W獲得重構(gòu)的N.X內(nèi)容480。解碼器420的實(shí)施例通常位于具有 一個(gè)或多個(gè)處理設(shè)備的計(jì)算設(shè)備上。
[0070] 解碼器420的實(shí)施例從存儲(chǔ)在M.r流475中的壓縮音頻提取PCM音頻。所使用的解碼 器420基于哪種音頻壓縮方案被用來(lái)壓縮數(shù)據(jù)。幾種類型的音頻壓縮方案可W在M.r流中使 用,包括有損壓縮、低位速率編碼W及無(wú)損壓縮。
[0071] 解碼器420解碼M.r流475的每個(gè)聲道并將其擴(kuò)展成由N.X輸出480表示的離散輸出 聲道。運(yùn)種重構(gòu)的N.X輸出480在包括回放揚(yáng)聲器(或聲道)布局的回放環(huán)境485中被再現(xiàn)。回 放揚(yáng)聲器布局可W或可W不與內(nèi)容創(chuàng)建揚(yáng)聲器布局相同。圖4中所示的回放揚(yáng)聲器布局是 11.2布局。在其它實(shí)施例中,回放揚(yáng)聲器布局可W是耳機(jī),使得揚(yáng)聲器僅僅是在回放環(huán)境 485中聲音似乎是來(lái)自該揚(yáng)聲器的虛擬揚(yáng)聲器。例如,收聽(tīng)者100可W通過(guò)耳機(jī)收聽(tīng)重構(gòu)的 N.X混合。在運(yùn)種情況下,揚(yáng)聲器不是實(shí)際的物理?yè)P(yáng)聲器,但聲音似乎是源自回放環(huán)境485中 對(duì)應(yīng)于例如11.2環(huán)繞聲揚(yáng)聲器配置的不同的空間位置。
[00。] 編碼器的后向不兼容的實(shí)施例
[0073]圖5是示出圖4中所示的基于多元組的空間矩陣化編碼器410的非傳統(tǒng)實(shí)施例的細(xì) 節(jié)的框圖。在運(yùn)些非傳統(tǒng)實(shí)施例中,編碼器410不編碼內(nèi)容W使得傳統(tǒng)解碼器維持向后兼容 性。而且,編碼器410的實(shí)施例利用包含在位流中的各種類型的元數(shù)據(jù)連同音頻數(shù)據(jù)。如圖5 中所示,編碼器410包括基于多元組的矩陣混合系統(tǒng)500W及壓縮和位流填充模塊510。來(lái)自 內(nèi)容創(chuàng)建環(huán)境430的輸出包括N. X脈碼調(diào)制(PCM)聲床混合520(其包含基于聲道的音頻信 息)W及基于對(duì)象的音頻信息,該基于對(duì)象的音頻信息包括對(duì)象PCM數(shù)據(jù)530和關(guān)聯(lián)的對(duì)象 元數(shù)據(jù)540。應(yīng)當(dāng)注意,在圖5-圖8中,空屯、箭頭指示時(shí)域數(shù)據(jù)而實(shí)屯、箭頭指示空間數(shù)據(jù)。例 如,從N.X PCM聲床混合520到基于多元組的矩陣混合系統(tǒng)500的箭頭是空屯、箭頭并且指示 時(shí)域數(shù)據(jù)。從內(nèi)容創(chuàng)建環(huán)境430到對(duì)象PCM 530的箭頭是實(shí)屯、箭頭并且指示空間數(shù)據(jù)。
[0074] N.X PCM聲床混合520被輸入到基于多元組的矩陣混合系統(tǒng)500。系統(tǒng)500處理N.X PCM聲床混合520(如W下詳細(xì)說(shuō)明的)并將N.X PCM聲床混合的聲道計(jì)數(shù)減少到M.X PCM聲 床混合550。此外,系統(tǒng)500輸出各類信息,包括M.X布局元數(shù)據(jù)560,其是關(guān)于M.X PCM聲床混 合550的空間布局的數(shù)據(jù)。系統(tǒng)500還輸出關(guān)于原始聲道布局和矩陣化元數(shù)據(jù)570的信息。原 始聲道布局是關(guān)于原始聲道在內(nèi)容創(chuàng)建環(huán)境430中的布局的空間信息。矩陣化元數(shù)據(jù)包含 關(guān)于在下混期間使用的不同系數(shù)的信息。特別地,它包含關(guān)于聲道如何被編碼成下混的信 息W使得解碼器知道上混的正確方法。
[0075] 如在圖5中所示,對(duì)象PCM 530、對(duì)象元數(shù)據(jù)540、M.X PCM聲床混合550、M.X布局元 數(shù)據(jù)560W及原始聲道布局和矩陣化元數(shù)據(jù)570全都被輸入到壓縮和位流填充模塊510。模 塊510取得運(yùn)個(gè)信息,將其壓縮,并將其打包成M. X增強(qiáng)位流580。位流之所W被稱為增強(qiáng)的 是因?yàn)槌艘纛l數(shù)據(jù)之外它還包含空間和其它類型的元數(shù)據(jù)。
[0076] 基于多元組的矩陣混合系統(tǒng)500的實(shí)施例通過(guò)檢查諸如總可用位速率、每聲道最 小位速率、離散的音頻聲道等等變量來(lái)減少聲道計(jì)數(shù)?;谶\(yùn)些變量,系統(tǒng)500取得原始N個(gè) 聲道并將其下混成M個(gè)聲道。數(shù)M依賴于數(shù)據(jù)速率。作為示例,如果N等于22個(gè)原始聲道并且 可用的位速率是500千位/秒,則系統(tǒng)500可W確定M必須是8W便實(shí)現(xiàn)位速率和編碼內(nèi)容。運(yùn) 意味著僅有足夠的帶寬來(lái)編碼8個(gè)音頻聲道。運(yùn)8個(gè)聲道然后將被編碼和發(fā)送。
[0077] 解碼器420將知道運(yùn)8個(gè)聲道來(lái)自原始的22個(gè)聲道,并且我們將運(yùn)8個(gè)聲道上混回 22個(gè)聲道。當(dāng)然,為了實(shí)現(xiàn)位速率,會(huì)丟失某種程度的空間保真度。例如,假設(shè)每個(gè)聲道給定 的最小位速率是32千位/聲道。如果總位速率是128位/秒,則4個(gè)聲道可W W32千位/聲道被 編碼。在另一個(gè)示例中,假設(shè)到編碼器410的輸入是11.1基本混合,給定的位速率是128千 位/秒,且每個(gè)聲道的最小位速率是32千位/秒。運(yùn)意味著,編解碼器400和方法將取得那11 個(gè)原始聲道并將它們下混成4個(gè)聲道,發(fā)送運(yùn)4個(gè)聲道,并且在解碼側(cè)將那4個(gè)聲道上混回11 個(gè)聲道。
[007引解碼器的后向不兼容實(shí)施例
[0079] M.X增強(qiáng)位流580被輸送到包含解碼器420的接收設(shè)備W用于呈現(xiàn)。圖6是示出圖4 中所示基于多元組的空間矩陣化解碼器的非傳統(tǒng)實(shí)施例的細(xì)節(jié)的框圖。在運(yùn)些非傳統(tǒng)實(shí)施 例中,解碼器420不保留與W前類型的位流的向后兼容并且不能對(duì)它們進(jìn)行解碼。如圖6中 所示,解碼器420包括基于多元組的矩陣上混系統(tǒng)600、解壓縮和位流解包模塊610、延遲模 塊620、對(duì)象包含呈現(xiàn)引擎630W及下混器和揚(yáng)聲器重映射模塊640。
[0080] 如圖6中所示,到解碼器420的輸入是M.X增強(qiáng)位流580。解壓縮和位流解包模塊610 然后將位流580解包和解壓縮回PCM信號(hào)(包括聲床混合和音頻對(duì)象)和關(guān)聯(lián)的元數(shù)據(jù)。來(lái)自 模塊610的輸出是M. X PCM聲床混合645。此外,原始(N. X)聲道布局和矩陣化元數(shù)據(jù)650 (包 括矩陣化系數(shù))、對(duì)象PCM 655 W及對(duì)象元數(shù)據(jù)660從模塊610輸出。
[0081 ] M.X PCM聲床混合645由基于多元組的矩陣上混系統(tǒng)600處理并上混?;诙嘣M 的矩陣上混系統(tǒng)600在下面進(jìn)一步討論。系統(tǒng)600的輸出是N.X PCM聲床混合670,其與原始 布局處于相同的聲道(或揚(yáng)聲器)布局配置。N.X PCM聲床混合670由下混器和揚(yáng)聲器重映射 模塊640處理W便將N.X聲床混合670映射到收聽(tīng)者的回放揚(yáng)聲器布局。例如,如果N = 22并 且M=Il,則運(yùn)22個(gè)聲道將由編碼器410下混成11個(gè)聲道。然后解碼器420將取得該11個(gè)聲道 并將它們上混回22個(gè)聲道。但是,如果收聽(tīng)者僅具有5.1回放揚(yáng)聲器布局,則模塊640將下混 那22個(gè)聲道并將它們重映射到回放揚(yáng)聲器布局W供收聽(tīng)者回放。
[0082] 下混器和揚(yáng)聲器重映射模塊640負(fù)責(zé)使存儲(chǔ)在位流580中的內(nèi)容適應(yīng)給定的輸出 揚(yáng)聲器配置。從理論上講,音頻可W對(duì)任何任意回放揚(yáng)聲器布局格式化?;胤艙P(yáng)聲器布局由 收聽(tīng)者或系統(tǒng)選擇?;谶\(yùn)種選擇,解碼器420選擇需要被解碼的聲道集合并且確定是否必 須執(zhí)行揚(yáng)聲器重映射和下混。輸出揚(yáng)聲器布局的選擇是利用應(yīng)用編程接口(API)調(diào)用執(zhí)行 的。
[0083] 當(dāng)預(yù)期的回放揚(yáng)聲器布局不匹配回放環(huán)境485(或收聽(tīng)空間)的實(shí)際回放卿趴布局 時(shí),音頻展現(xiàn)的整體印象可能會(huì)受到損害。為了優(yōu)化在多種流行的揚(yáng)聲器配置中的音頻展 現(xiàn)質(zhì)量,M.X增強(qiáng)位流可W包含卿趴重映射系數(shù)。
[0084] 對(duì)于下混器和揚(yáng)聲器重映射模塊640的實(shí)施例存在兩種操作模式。第一是"直接模 式",由此解碼器420配置空間重映射器W在給定的輸出揚(yáng)聲器配置之上盡可能接近地產(chǎn)生 原始編碼的聲道布局。第二是"非直接模式",由此解碼器的實(shí)施例將會(huì)把內(nèi)容轉(zhuǎn)換成選擇 的輸出聲道配置,而不管源配置如何。
[00化]對(duì)象PCM 655被延遲模塊620延遲W使得在M.X PCM聲床混合645被基于多元組的 矩陣上混系統(tǒng)600處理時(shí)存在某種程度的延遲。延遲模塊620的輸出是延遲的對(duì)象PCM 680。 運(yùn)個(gè)延遲的對(duì)象PCM680和對(duì)象元數(shù)據(jù)660相加并通過(guò)對(duì)象包含呈現(xiàn)引擎630呈現(xiàn)。
[0086] 對(duì)象包含呈現(xiàn)引擎630和對(duì)象去除呈現(xiàn)引擎(在下面討論)是用于執(zhí)行基于3D對(duì)象 的音頻呈現(xiàn)的主引擎。運(yùn)些呈現(xiàn)引擎的主要工作是向基本混合添加或從中減去登記的音頻 對(duì)象。每個(gè)對(duì)象都附帶規(guī)定其在3D空間中的位置的信息,包括其方位、高度、距離、增益W及 規(guī)定該對(duì)象是否應(yīng)當(dāng)被允許抓取到最近的揚(yáng)聲器位置的標(biāo)志。對(duì)象呈現(xiàn)執(zhí)行必要的處理W 便將對(duì)象放在所指示的位置。呈現(xiàn)引擎支持點(diǎn)和擴(kuò)展源二者。點(diǎn)源聽(tīng)起來(lái)就好像是來(lái)自空 間中一個(gè)特的定點(diǎn),而擴(kuò)展源聽(tīng)起來(lái)具有"度寬"、"高度"或者兩者都有。
[0087] 呈現(xiàn)引擎使用球面坐標(biāo)系表示。如果內(nèi)容創(chuàng)建環(huán)境430中的創(chuàng)作工具將房間表示 為鞋盒,則從同屯、盒子到同屯、球W及返回來(lái)的變換可W在創(chuàng)作工具中的hood下執(zhí)行。W運(yùn) 種方式,源在墻上的放置映射到源在單位球上的放置。
[0088] 來(lái)自下混器和揚(yáng)聲器重映射模塊的聲床混合和來(lái)自對(duì)象包含呈現(xiàn)引擎630的輸出 被組合W提供N.X音頻展現(xiàn)690"N.X音頻展現(xiàn)690從解碼器420輸出并在回放揚(yáng)聲器布局(未 示出)上回放。
[0089] 應(yīng)當(dāng)注意,解碼器420的一些模塊可W是可選的。例如,如果N=M,則基于多元組的 矩陣上混系統(tǒng)600是不需要的。類似地,如果N=M,則下混和揚(yáng)聲器重映射模塊640是不需要 的。并且,如果在M.X增強(qiáng)位流中不存在對(duì)象并且信號(hào)僅僅是基于聲道的信號(hào),則對(duì)象包含 呈現(xiàn)引擎630是不需要的。
[0090] 編碼器的向后兼容實(shí)施例
[0091] 圖7是示出圖4中所示的基于多元組的空間矩陣化編碼器410的傳統(tǒng)實(shí)施例的細(xì)節(jié) 的框圖。在運(yùn)些傳統(tǒng)實(shí)施例中,編碼器410編碼內(nèi)容W使得傳統(tǒng)解碼器維持向后兼容性。許 多部件與向后不兼容實(shí)施例是相同的。具體而言,基于多元組的矩陣混合系統(tǒng)500仍然將 N.X PCM聲床混合520下混成M.X PCM聲床混合550。編碼器410取得對(duì)象PCM 530和對(duì)象元數(shù) 據(jù)540并將它們混合到M. X PCM聲床混合550中W創(chuàng)建嵌入式下混。運(yùn)種嵌入式下混可由傳 統(tǒng)解碼器解碼。在運(yùn)些向后兼容的實(shí)施例中,嵌入式下混包括M.X聲床混合和對(duì)象二者W創(chuàng) 建傳統(tǒng)解碼器可W解碼的傳統(tǒng)下混。
[0092] 如圖7中所示,編碼器410包括對(duì)象包含呈現(xiàn)引擎700和下混嵌入器710。為了向后 兼容性的目的,存儲(chǔ)在音頻對(duì)象中的任何音頻信息也被混入M.X聲床混合550中W創(chuàng)建傳統(tǒng) 解碼器可W使用的基本混合。如果解碼器系統(tǒng)可W呈現(xiàn)對(duì)象,則對(duì)象必須從基本混合中去 除W使得它們不會(huì)被加倍再現(xiàn)。解碼的對(duì)象被呈現(xiàn)到專用于運(yùn)個(gè)目的的適當(dāng)聲床混合并且 然后被從基本混合減去。
[0093] 對(duì)象PCM 530和對(duì)象元數(shù)據(jù)540被輸入到引擎700并與M.X PCM聲床混合550混合。 結(jié)果去往創(chuàng)建嵌入式下混的下混嵌入器710。運(yùn)種嵌入式下混、下混元數(shù)據(jù)720、M.X布局元 數(shù)據(jù)560、原始聲道布局和矩陣化元數(shù)據(jù)570、對(duì)象PCM 530W及對(duì)象元數(shù)據(jù)540被壓縮和位 流填充模塊510壓縮并打包成位流。輸出是向后兼容的M. X增強(qiáng)位流580。
[0094] 解碼器的向后兼容實(shí)施例
[00M]向后兼容的M.X增強(qiáng)位流580被輸送到包含解碼器420的接收設(shè)備W供呈現(xiàn)。圖8是 示出圖4中所示的基于多元組的空間矩陣化解碼器420的向后兼容實(shí)施例的細(xì)節(jié)的框圖。在 運(yùn)些向后兼容的實(shí)施例中,解碼器420與先前類型的位流保持向后兼容性W便使解碼器420 能夠?qū)λ鼈冞M(jìn)行解碼。
[0096] 除了存在對(duì)象去除部分之外,解碼器420的向后兼容實(shí)施例類似于圖6中所示的非 向后兼容實(shí)施例。運(yùn)些向后兼容的實(shí)施例處理編解碼器的傳統(tǒng)問(wèn)題,其中期望的是提供傳 統(tǒng)解碼器仍可W解碼的位流。在運(yùn)些情況下,解碼器420從嵌入式下混去除對(duì)象并且然后上 混W獲得原始上混。
[0097] 如圖8中所示,解壓縮和位流解包模塊610輸出原始聲道布局和矩陣化系數(shù)650、對(duì) 象PCM 655W及對(duì)象元數(shù)據(jù)660。模塊610的輸出還撤消嵌入式下混的嵌入式下混800W獲得 M.X PCM聲床混合645。運(yùn)基本上彼此分開(kāi)了聲道和對(duì)象。
[0098] 在編碼后,新的、較小的聲道布局可能仍然具有太多聲道存儲(chǔ)在被傳統(tǒng)解碼器使 用的位流的一部分中。在運(yùn)些情況下,如W上參照?qǐng)D7所指出的,執(zhí)行附加的嵌入式下混W 確保來(lái)自在較舊的解碼器中不被支持的聲道的音頻包括在向后兼容的混合中。存在的額外 聲道被下混到向后兼容的混合中并被單獨(dú)發(fā)送。當(dāng)位流對(duì)于將支持比向后兼容的混合更多 聲道的揚(yáng)聲器輸出格式被解碼時(shí),來(lái)自額外聲道的音頻被從混合中去除并且代替地使用離 散的聲道。撤消嵌入式下混800的運(yùn)種操作在上混之前發(fā)生。
[0099] 模塊610的輸出還包括M.X布局元數(shù)據(jù)SIOdM.X布局元數(shù)據(jù)810和對(duì)象PCM 655被對(duì) 象去除呈現(xiàn)引擎820用來(lái)將去除的對(duì)象呈現(xiàn)到M.X PCM聲床混合645中。對(duì)象PCM 655還通過(guò) 延遲模塊620并進(jìn)入對(duì)象包含呈現(xiàn)引擎630。引擎630取得對(duì)象元數(shù)據(jù)660、延遲的對(duì)象PCM 655并將對(duì)象和N.X聲床混合670呈現(xiàn)成用于在回放揚(yáng)聲器布局(未示出)上回放的N.X音頻 展現(xiàn)690。
[0…0] III.系統(tǒng)細(xì)節(jié)
[0101] 現(xiàn)在將討論基于多元組的空間矩陣化編解碼器和方法的實(shí)施例的部件的系統(tǒng)細(xì) 節(jié)。應(yīng)當(dāng)注意,W下僅詳細(xì)描述模塊、系統(tǒng)和編解碼器可W被實(shí)現(xiàn)的少數(shù)幾種方式。根據(jù)圖9 和圖10中所示的,許多變體是可能的。
[0102] 圖9是示出圖5和圖7中所示基于多元組的矩陣下混系統(tǒng)500的示例性實(shí)施例的細(xì) 節(jié)的框圖。如圖9中所示,N. X PCM聲床混合520被輸入到系統(tǒng)500。該系統(tǒng)包括如下的單獨(dú)模 塊:該單獨(dú)模塊確定輸入聲道將下混到的聲道數(shù)W及哪些輸入聲道是存留聲道和哪些是非 存留聲道。存留聲道是被保留的聲道并且非存留聲道是被下混到存留聲道的多元組上的輸 入聲道。
[0103] 系統(tǒng)500還包括混合系數(shù)矩陣下混器910。圖9中的空屯、箭頭指示信號(hào)是時(shí)域信號(hào)。 下混器910取得存留聲道920并且在不處理的情況下傳遞它們。非存留聲道基于接近性被下 混到多元組上。特別地,一些非存留聲道可W被下混到存留對(duì)(或二元組)930上。一些非存 留聲道可W被下混到存留聲道的存留S元組940上。一些非存留聲道可W被下混到存留聲 道的存留四元組950上。運(yùn)可W對(duì)任何Y的多元組繼續(xù),其中Y是大于2的正整數(shù)。例如,如果Y =8,則非存留聲道可被下混到存留聲道的存留八元組上。運(yùn)在圖9中由省略號(hào)960示出。應(yīng) 當(dāng)注意,多元組的一些、全部或任何組合可W被用來(lái)下混N. X PCM聲床混合520。
[0104] 從下混器910得到的結(jié)果M.X下混進(jìn)入響度規(guī)格化模塊980。規(guī)格化處理在下面更 詳細(xì)地討論。N.X PCM聲床混合520被用來(lái)規(guī)格化M.X下混并且輸出是規(guī)格化的M.X PCM聲床 混合550。
[0105] 圖10是示出圖6和圖8中所示的基于多元組的矩陣上混系統(tǒng)600的示例性實(shí)施例的 細(xì)節(jié)的框圖。在圖10中,粗箭頭表示時(shí)域信號(hào)并且虛線箭頭表示子帶域信號(hào)。如圖10中所 示,M.X PCM聲床混合645被輸入到系統(tǒng)600dM.X PCM聲床混合645被過(guò)采樣分析濾波器組 1000處理W獲得被下混到存留聲道Y-元組的各種非存留聲道。在第一遍中,對(duì)Y元組1010執(zhí) 行空間分析W獲得諸如在非存留聲道的空間中的半徑和角度之類的空間信息。接下來(lái),從 存留聲道1015的Y-元組提取非存留聲道。然后,運(yùn)個(gè)首先被重新捕獲的聲道Cl被輸入到子 帶功率規(guī)格化模塊1020。然后,在運(yùn)一遍中所設(shè)及的聲道被重新平移1025。
[0106] 如由省略號(hào)1030所指示的,運(yùn)些遍繼續(xù)通過(guò)Y個(gè)多元組當(dāng)中的每一個(gè)。然后,運(yùn)些 遍依次繼續(xù)直到Y(jié)-多元組當(dāng)中的每一個(gè)已被處理。圖10示出了對(duì)四元組1040執(zhí)行空間分析 W獲得諸如在被下混到四元組的非存留聲道的空間中的半徑和角度之類的空間信息。接下 來(lái),從存留聲道1045的四元組提取非存留聲道。然后,提取出的聲道C(Y-3)被輸入到子帶功 率規(guī)格化模塊1020。然后,運(yùn)一遍中所設(shè)及的聲道被重新平移1050。
[0107] 在下一遍中,對(duì)=元組1060執(zhí)行空間分析W獲得諸如在被下混到=元組的非存留 聲道的空間中的半徑和角度之類的空間信息。接下來(lái),從存留聲道1065的=元組提取非存 留聲道。然后,提取出的聲道C(Y-2)被輸入到模塊1020。然后,運(yùn)一遍中所設(shè)及的聲道被重 新平移1070。類似地,在最后一遍中,對(duì)二元組1080執(zhí)行空間分析W獲得諸如在被下混到二 元組的非存留聲道的空間中的半徑和角度之類的空間信息。接下來(lái),從存留聲道1085的二 元組提取非存留聲道。然后,提取出的聲道C(Y-I)被輸入到模塊1020。然后,運(yùn)一遍中所設(shè) 及的聲道被重新平移1090。
[0108] 然后,每個(gè)聲道被模塊1020處理W獲得N.X上混。運(yùn)個(gè)N. X上混由過(guò)采樣合成濾波 器組1095處理W將它們組合成N.X PCM聲床混合670。如圖6和圖8中所示,N.X PCM聲床混合 然后被輸入到下混器和揚(yáng)聲器重映射模塊640。
[0…9] IV.操作概述
[0110]基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例是減少聲道計(jì)數(shù)(并因此 減小位速率)、通過(guò)啟用空間準(zhǔn)確性與基本音頻質(zhì)量之間的折中來(lái)優(yōu)化音頻質(zhì)量并且將音 頻信號(hào)格式轉(zhuǎn)換成回放環(huán)境配置的空間編碼和解碼技術(shù)。
[0111]編碼器410和解碼器420的實(shí)施例有兩個(gè)主要用例。第一個(gè)用例是元數(shù)據(jù)用例,其 中基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例被用來(lái)將高聲道計(jì)數(shù)音頻信號(hào)編 碼成較低數(shù)量的聲道。此外,運(yùn)個(gè)用例包括較低數(shù)量的聲道的解碼W便恢復(fù)原始高聲道計(jì) 數(shù)音頻的準(zhǔn)確近似。第二個(gè)用例是盲上混用例,其執(zhí)行標(biāo)準(zhǔn)單聲道、立體聲或多聲道布局 (諸如5.1或7.1)中的傳統(tǒng)內(nèi)容到由水平和升高的聲道位置組成的3D布局的盲上混。
[01。] 元數(shù)據(jù)用例
[0113] 用于編解碼器400和方法的實(shí)施例的第一個(gè)用例是作為位速率減小工具。其中編 解碼器400和方法可W用于位速率減小的一個(gè)示例場(chǎng)景是每聲道可用的位速率低于由編解 碼器400支持的每聲道的最小位速率的情況。在運(yùn)種場(chǎng)景中,編解碼器400和方法的實(shí)施例 可被用來(lái)減少編碼的聲道的數(shù)量,從而對(duì)存留聲道啟用更高的位速率分配。運(yùn)些聲道需要 W足夠高的位速率進(jìn)行編碼W防止在反矩陣化之后偽像的掲露。
[0114] 在運(yùn)種場(chǎng)景中,編碼器410可W依賴于下列因素當(dāng)中的一個(gè)或多個(gè)對(duì)位速率減小 使用矩陣化。一個(gè)因素是離散聲道編碼所需的每聲道的最小位速率(指定為MinBR_Discr)。 另一個(gè)因素是矩陣式聲道編碼所需的每聲道的最小位速率(指定為MinBR_Mtrx)。還有一個(gè) 因素是總的可用位速率(指定為BR_Tot)。
[0115] 編碼器410是否參與(當(dāng)(M<N)時(shí)矩陣化或者當(dāng)(M = N)時(shí)不矩陣化)是基于W下公 式?jīng)Q定的:
[0116]
[0117] 此外,原始聲道布局和描述矩陣化過(guò)程的元數(shù)據(jù)在位流中攜帶。而且,MinBR_Mhx 的值被選擇為足夠高(對(duì)于每種相應(yīng)的編解碼器技術(shù))W防止在反矩陣化之后偽像的掲露。
[0118] 在解碼器420側(cè),執(zhí)行上混僅僅是將格式帶至原始的N.X布局或N.X布局的某個(gè)適 當(dāng)子集。上混對(duì)于進(jìn)一步的格式轉(zhuǎn)換是需要的。假設(shè)在原始N.X布局中攜帶的空間分辨率是 預(yù)期的空間分辨率,因此任何進(jìn)一步的格式轉(zhuǎn)換都將僅僅包括下混和可能的揚(yáng)聲器重映 射。在僅僅基于聲道的流的情況下,存留的M.X布局可W被直接使用(不應(yīng)用反矩陣化)作為 用于在解碼器側(cè)得出期望下混K. xW<M)的起點(diǎn)(M、N是整數(shù),N大于M)。
[0119] 其中編解碼器400和方法可被用于位速率減小的另一示例場(chǎng)景是當(dāng)原始高聲道計(jì) 數(shù)布局具有高空間準(zhǔn)確性(諸如22.2)并且可用位速率足W離散地編碼所有聲道但不足W 充分提供近乎透明的基本音頻質(zhì)量水平時(shí)。在運(yùn)種場(chǎng)景中,編解碼器400和方法的實(shí)施例可 被用來(lái)通過(guò)稍微犧牲空間準(zhǔn)確性來(lái)優(yōu)化整體性能,但作為回報(bào)允許基本音頻質(zhì)量的提高。 運(yùn)是通過(guò)W下操作來(lái)實(shí)現(xiàn)的:將原始布局轉(zhuǎn)換成具有較少聲道、足夠的空間準(zhǔn)確性(諸如 11.2)的布局并且將所有位池分配給存留聲道W便在對(duì)空間準(zhǔn)確性沒(méi)有大的影響的同時(shí)將 基本音頻質(zhì)量帶至更高的水平。
[0120] 在運(yùn)個(gè)示例中,編碼器410使用矩陣化作為工具W通過(guò)稍微犧牲空間準(zhǔn)確性來(lái)優(yōu) 化整體質(zhì)量,但作為回報(bào)允許基本音頻質(zhì)量的提高。存留聲道被選擇成W最小數(shù)量的編碼 聲道保留原始空間準(zhǔn)確性。此外,原始聲道布局和描述矩陣化過(guò)程的元數(shù)據(jù)在流中被攜帶。
[0121] 編碼器410選擇可W足夠高W允許將對(duì)象包括到存留布局W及進(jìn)一步下混嵌入中 的每聲道的位速率。而且,或者M(jìn).X或者關(guān)聯(lián)的嵌入式下混可W在5.1/7.1系統(tǒng)上可直接回 放。
[0122] 運(yùn)個(gè)示例中的解碼器420使用上混僅僅是將格式帶到原始N.X布局或N.X布局的某 個(gè)適當(dāng)子集。不需要進(jìn)一步的格式轉(zhuǎn)換。假設(shè)原始N.X布局中攜帶的空間分辨率是預(yù)期的空 間分辨率,由此任何進(jìn)一步的格式轉(zhuǎn)換將僅僅包括下混和可能的揚(yáng)聲器重映射。
[0123] 對(duì)于上述場(chǎng)景,本文描述的編碼和方法可W W對(duì)象加基本混合格式應(yīng)用到基于聲 道的格式或基本混合聲道。對(duì)應(yīng)的解碼操作將把聲道減少的布局帶回到原始高聲道計(jì)數(shù)布 局。
[0124] 為了讓聲道減少的信號(hào)被適當(dāng)?shù)亟獯a,本文描述的解碼器420必須被告知在編碼 過(guò)程中使用的布局、參數(shù)和系數(shù)。編解碼器400和方法定義用于從編碼器410向解碼器420傳 送運(yùn)種信息的位流語(yǔ)法。例如,如果編碼器410將22.2聲道基本混合編碼成11.2聲道減少的 信號(hào),則描述原始布局、聲道減少的布局、有貢獻(xiàn)的下混聲道和下混系數(shù)的信息將被發(fā)送到 解碼器420W便使得能夠正確解碼回原始的22.2聲道計(jì)數(shù)布局。
[01巧]盲上混用例
[0126] 用于編解碼器400和方法的實(shí)施例的第二用例是執(zhí)行傳統(tǒng)內(nèi)容的盲上混。運(yùn)個(gè)能 力允許編解碼器400和方法將傳統(tǒng)內(nèi)容轉(zhuǎn)換為3D布局,其包括匹配回放環(huán)境485的卿趴位置 的水平和升高的聲道。盲上混可W對(duì)標(biāo)準(zhǔn)布局(諸如單聲道、立體聲、5.1、7.1和其它)執(zhí)行。
[0127] 總體概述
[01%]圖11是示出圖4中所示的基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例 的一般操作的流程圖。操作W選擇M個(gè)聲道包括在下混的輸出音頻信號(hào)中開(kāi)始(方框1100)。 如上所述,運(yùn)種選擇是基于期望的位速率的。應(yīng)當(dāng)注意,N和M是非零正整數(shù)并且N大于M。
[0129] 接下來(lái),N個(gè)聲道利用多元組平移法則的組合被下混并編碼成M個(gè)聲道,W獲得包 含M個(gè)多元組編碼的聲道的PCM聲床混合(方框1110)。然后,該方法經(jīng)網(wǎng)絡(luò)W等于或低于期 望的位速率的位速率發(fā)送PCM聲床混合(方框1120) JCM聲床混合被接收并分離成多個(gè)M個(gè) 多元組編碼的聲道(方框1130)。
[0130] 然后,該方法利用多元組平移法則的組合上混并解碼M個(gè)多元組編碼的聲道當(dāng)中 每一個(gè),W便從M個(gè)多元組編碼的聲道提取N個(gè)聲道并獲得具有N個(gè)聲道的結(jié)果輸出音頻信 號(hào)(方框1140)。運(yùn)個(gè)結(jié)果輸出音頻信號(hào)在具有回放聲道布局的回放環(huán)境中被呈現(xiàn)(方框 1150)。
[0131] 編解碼器400和方法的實(shí)施例或者其各方面用在用于多聲道音頻的輸送和記錄的 系統(tǒng)中,尤其是當(dāng)大量聲道(超過(guò)7個(gè))要被發(fā)送或記錄時(shí)。例如,在一個(gè)運(yùn)樣的系統(tǒng)中,多個(gè) 聲道被記錄并且假設(shè)在已知的回放幾何形狀中進(jìn)行配置,該幾何形狀具有圍繞收聽(tīng)者設(shè)置 在耳朵水平的L個(gè)聲道、設(shè)置在高于耳朵水平的高度環(huán)周圍設(shè)置的P個(gè)聲道W及可選地在收 聽(tīng)者上方的頂點(diǎn)處或其附近的中屯、聲道(其中L和P是大于1的任意整數(shù))"P個(gè)聲道可W根據(jù) 各種常規(guī)的幾何形狀進(jìn)行布置,并且假設(shè)的幾何形狀對(duì)于混合工程師或唱片藝術(shù)家/工程 師是已知的。根據(jù)本發(fā)明,L加P聲道計(jì)數(shù)通過(guò)矩陣混合的新穎方法減小到更小數(shù)量的聲道 (例如L+P個(gè)映射到僅L個(gè))。然后,減少計(jì)數(shù)的聲道通過(guò)保留減少計(jì)數(shù)的聲道的離散性質(zhì)的 已知方法被編碼和壓縮。
[0132] 關(guān)于解碼,系統(tǒng)的操作依賴于解碼器的能力。在傳統(tǒng)解碼器中,其中混合有P個(gè)聲 道的減少計(jì)數(shù)化)的聲道被再現(xiàn)。在根據(jù)本發(fā)明的更高級(jí)的解碼器中,L+P個(gè)聲道的完全協(xié) 同可W通過(guò)上混并且將每一個(gè)路由到L+P個(gè)揚(yáng)聲器中對(duì)應(yīng)的一個(gè)來(lái)恢復(fù)。
[0133] 根據(jù)本發(fā)明,上混和下混操作(矩陣化/反矩陣化)二者包括按對(duì)、=元組和優(yōu)選地 四元組平移法則的組合W便在再現(xiàn)時(shí)將感知到的聲音源放成接近地對(duì)應(yīng)于唱片藝術(shù)家或 工程師預(yù)期的假設(shè)位置。
[0134] 矩陣化操作(聲道布局減少)可W在W下方面應(yīng)用到聲床混合聲道:a)流的聲床混 合+對(duì)象組成;或b)流的僅基于聲道的組成。
[0135] 此外,矩陣化操作可W應(yīng)用到靜止對(duì)象(不四處移動(dòng)的對(duì)象)并且在反矩陣化之后 仍然實(shí)現(xiàn)充分的對(duì)象分離,運(yùn)將允許對(duì)單個(gè)對(duì)象的水平修改。
[0136] V.操作細(xì)節(jié)
[0137] 現(xiàn)在將討論基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例的操作細(xì)節(jié)。
[0138] V.A.下混體系架構(gòu)
[0139] 在基于多元組的矩陣下混系統(tǒng)500的示例性實(shí)施例中,系統(tǒng)500接受N聲道的音頻 信號(hào)并且輸出M聲道的音頻信號(hào),其中N和M是整數(shù)并且N大于M。系統(tǒng)500可W利用內(nèi)容創(chuàng)建 環(huán)境(原始)聲道布局、下混聲道布局W及描述每個(gè)原始聲道將對(duì)每個(gè)下混聲道做貢獻(xiàn)的混 合權(quán)重的混合系數(shù)的知識(shí)來(lái)進(jìn)行配置。例如,混合系數(shù)可W由尺寸為MXN的矩陣C來(lái)定義, 其中行對(duì)應(yīng)于輸出聲道并且列對(duì)應(yīng)于輸入聲道,諸如:
[0140]
[0141 ] #一化出輸倆I由-態(tài)紐Rfifi而W々夫后如下執(zhí)行下混操作.
[0142]
[0143] 其中xjn]是輸入音頻信號(hào)的第j個(gè)聲道,其中l(wèi)《j《N,yi[n]是輸出音頻信號(hào)的第 i個(gè)聲道,其中并且CU是對(duì)應(yīng)于矩陣C的ij條目的混合系數(shù)。
[0144] 響度規(guī)格化
[0145] 系統(tǒng)500的一些實(shí)施例還包括響度規(guī)格化模塊980(在圖9中示出)。響度規(guī)格化處 理被設(shè)計(jì)為將感知到的下混信號(hào)的響度規(guī)格化為原始信號(hào)的響度。雖然矩陣C的混合系數(shù) 通常被選擇為保留單個(gè)原始信號(hào)分量的功率,例如,標(biāo)準(zhǔn)的正弦/余弦平移法則將保留單個(gè) 分量的功率,但是對(duì)于更復(fù)雜的信號(hào)材料,功率保留特性將不會(huì)保持。因?yàn)橄禄焯幚碓诜?域而不是功率域中組合音頻信號(hào),所W結(jié)果得到的下混信號(hào)的信號(hào)功率是不可預(yù)測(cè)的并且 是依信號(hào)而定的。此外,由于響度是更相關(guān)的感知特性,因此可能期望保留感知到的下混音 頻信號(hào)的響度而不是信號(hào)功率。
[0146] 響度規(guī)格化處理通過(guò)比較輸入響度與下混響度的比來(lái)執(zhí)行。輸入響度經(jīng)由W下等 式來(lái)估計(jì):
[0147]
[014引其中,Lin是輸入響度的估計(jì)山[n]是頻率加權(quán)濾波器,諸如在ITU-R BS. 1770-3響 度測(cè)量標(biāo)準(zhǔn)中所描述的"K"頻率加權(quán)濾波器,并且(*)表示卷積。
[0149] 如可W觀察到的,輸入響度本質(zhì)上是頻率加權(quán)輸入聲道的均方根(RMS)量度,其中 頻率加權(quán)被設(shè)計(jì)為提高與人類的響度感知的相關(guān)性。同樣,輸出響度是經(jīng)由W下等式估計(jì) 的:
[0150]
[0151] 其中Lout是輸出響度估計(jì)。
[0152] 現(xiàn)在,輸入和輸出感知響度二者的估計(jì)都已計(jì)算出,我們可W經(jīng)由W下規(guī)格化等 式來(lái)規(guī)格化下混音頻信號(hào)W使得下混信號(hào)的響度將大致等于原始信號(hào)的響度:
[0153]
[0154] 在W上等式中,可W觀察到響度規(guī)格化處理致使W輸入響度與輸出響度之比縮放 所有的下混聲道。
[01巧]靜態(tài)下混
[0156] 對(duì)于給定的輸出聲道yi[n]的靜態(tài)下混:
[0157] Yi [n] = Ci, 1X1 [n]+Ci,巧2 [n]+----hci'NXN[n]
[0158] 其中xjn]是輸入聲道并且CiJ是用于輸出聲道i和輸入聲道j的下混系數(shù)。
[0159] 每聲道響度規(guī)格化
[0160] 利用每聲道響度規(guī)格化的動(dòng)態(tài)下混:
[0161] Yi^ [n] = di[n] ? yi[n]
[0162] 其中di[n]是依聲道而定的增益,給出如下
[0163]
[0164] 并且LU)是諸如在BS. 1770中定義的響度估計(jì)函數(shù)。
[0165] 直觀地,隨時(shí)間變化的每聲道增益可W被看作每個(gè)輸入聲道的累加響度(通過(guò)適 當(dāng)?shù)南禄煜禂?shù)加權(quán))與每個(gè)靜態(tài)下混聲道的響度之比。
[01W 總響度規(guī)格化
[0167]利用總響度規(guī)格化的動(dòng)態(tài)下混:
[016引 yi"[n] = g[n] ? yi' [n]
[0169]其中g(shù)[n]是獨(dú)立于聲道的增益,給出如下
[0170]
[0171] 直觀地,隨時(shí)間變化的獨(dú)立于聲道的增益可W被看作輸入聲道的累加響度與下混 聲道的累加響度之比。
[017。V.B.上混體系架構(gòu)
[0173] 在圖6中所示的基于多元組的矩陣上混系統(tǒng)600的示例性實(shí)施例中,系統(tǒng)600接受M 聲道音頻信號(hào)并輸出N聲道音頻信號(hào),其中M和N是整數(shù)并且N大于M。在一些實(shí)施例中,系統(tǒng) 600將W與如由下混器處理的原始聲道布局相同的輸出聲道布局為目標(biāo)。在一些實(shí)施例中, 上混處理在頻域中執(zhí)行,其中包括分析和合成濾波器組。在頻域中執(zhí)行上混處理允許對(duì)多 個(gè)頻帶進(jìn)行單獨(dú)處理。單獨(dú)處理多個(gè)頻帶允許上混器處理其中不同頻帶從聲場(chǎng)中不同位置 同時(shí)發(fā)出的情況。但是,應(yīng)當(dāng)注意,還有可能對(duì)寬帶時(shí)域信號(hào)執(zhí)行上混處理。
[0174] 在輸入音頻信號(hào)被轉(zhuǎn)換為頻域表示后,對(duì)剩余聲道已經(jīng)遵循本文先前描述的四元 組數(shù)學(xué)框架進(jìn)行矩陣化的任何四元組聲道集合執(zhí)行空間分析。基于四元組空間分析,再次 遵循先前描述的四元組框架從四元組集合提取輸出聲道。提取的聲道對(duì)應(yīng)于在下混系統(tǒng) 500中被原始矩陣化到四元組集合上的剩余聲道。然后,再次遵循先前描述的四元組框架, 四元組集合基于提取的聲道被適當(dāng)?shù)刂匦缕揭啤?br>[0175] 在已經(jīng)執(zhí)行四元組處理之后,下混聲道被傳遞到=元組處理模塊,在那里,對(duì)剩余 聲道已經(jīng)遵循本文先前描述的=元組數(shù)學(xué)框架進(jìn)行矩陣化的任何=元組聲道集合執(zhí)行空 間分析。基于=元組空間分析,再次遵循先前描述的=元組框架從=元組集合提取輸出聲 道。提取的聲道對(duì)應(yīng)于在下混系統(tǒng)500中被原始矩陣化到=元組集合的剩余聲道。然后,再 次遵循先前描述的=元組框架,=元組集合基于提取的聲道被適當(dāng)?shù)刂匦缕揭啤?br>[0176] 在已經(jīng)執(zhí)行=元組處理之后,下混聲道被傳遞到按對(duì)處理模塊,在那里,對(duì)剩余聲 道已經(jīng)遵循本文先前描述的按對(duì)數(shù)學(xué)框架進(jìn)行矩陣化的任何=元組聲道集合執(zhí)行空間分 析?;诎磳?duì)空間分析,再次遵循先前描述的按對(duì)框架從按對(duì)集合提取輸出聲道。提取的聲 道對(duì)應(yīng)于在下混系統(tǒng)500中被原始矩陣化到按對(duì)集合的剩余聲道。然后,再次遵循先前描述 的按對(duì)框架,按對(duì)集合基于提取出的聲道被適當(dāng)?shù)刂匦缕揭啤?br>[0177] 在運(yùn)個(gè)時(shí)候,N聲道輸出信號(hào)已經(jīng)生成(在頻域中)并且由所有從四元組、=元組和 按對(duì)集合提取的聲道W及重新平移的下混聲道組成。在將聲道轉(zhuǎn)換回時(shí)域之前,上混系統(tǒng) 600的一些實(shí)施例可W執(zhí)行子帶功率規(guī)格化,其被設(shè)計(jì)為將每個(gè)輸出子帶內(nèi)的總功率規(guī)格 化到每個(gè)輸入下混子帶的總功率。每個(gè)輸入下混子帶的總功率可W被估計(jì)為:
[017 引
[0179] 其中Yi[m,k]是頻域中的第i個(gè)輸入下混聲道,Pin[m,k]是子帶總下混功率估計(jì),m 是時(shí)間索引(有可能由于濾波器組結(jié)構(gòu)而被抽?。⑶襨是子帶索引。
[0180] 類似地,每個(gè)輸出子帶的總功率可W被估計(jì)為:
[0181]
[0182] 其中&[m,k]是頻域中的第j個(gè)輸出聲道并且PDut[m,k]是子帶總輸出功率估計(jì)。
[0183] 現(xiàn)在輸入和輸出子帶功率二者的估計(jì)都已經(jīng)計(jì)算出,我們可W經(jīng)由W下規(guī)格化等 式規(guī)格化輸出音頻信號(hào)W使得每個(gè)子帶的輸出信號(hào)的功率將大致等于每個(gè)子帶的輸入下 混信號(hào)的功莖?
[0184]
[0185] 在W上的等式中,可W觀察到,子帶功率規(guī)格化處理致使W每個(gè)子帶的輸入功率 與輸出功率之比縮放所有輸出聲道。如果上混器不在頻域中執(zhí)行,則代替類似于在下混體 系架構(gòu)中描述的子帶功率規(guī)格化處理,可W執(zhí)行響度規(guī)格化處理。
[0186] 一旦所有輸出聲道都已經(jīng)被生成并且子帶功率已被規(guī)格化,頻域輸出聲道就被發(fā) 送到將頻域聲道轉(zhuǎn)換回時(shí)域聲道的合成濾波器組模塊。
[0187] V.C.混合、平移和上混法則
[0188] 依賴于揚(yáng)聲器的配置,根據(jù)編解碼器400和方法的實(shí)施例的實(shí)際矩陣下混和互補(bǔ) 上混是利用按對(duì)、=元組W及優(yōu)選地還有四元組混合法則的組合來(lái)執(zhí)行的。換句話說(shuō),如果 在記錄/混合中,特定的揚(yáng)聲器通過(guò)下混要被消除或虛擬化,則確定位置是否是如下情況: a)在一對(duì)存留揚(yáng)聲器之間的線段上或其附近,b)在由3個(gè)存留聲道/揚(yáng)聲器定義的=角形 內(nèi),或C)在由四個(gè)聲道揚(yáng)聲器定義的四邊形內(nèi),每個(gè)揚(yáng)聲器位于一個(gè)頂點(diǎn)處。
[0189] 例如,運(yùn)最后一種情況對(duì)于矩陣化設(shè)置在頂點(diǎn)的高度聲道是有利的。還應(yīng)當(dāng)注意, 在編解碼器400和方法的其它實(shí)施例中,如果原始和下混聲道布局的幾何形狀需要,則矩陣 化可W被擴(kuò)展超出四元組聲道集合,諸如擴(kuò)展成五元組或六元組。
[0190] 在編解碼器400和方法的一些實(shí)施例中,每個(gè)音頻聲道中的信號(hào)被過(guò)濾到多個(gè)子 帶中,例如感知相關(guān)的頻帶,諸如"Bark帶"。運(yùn)可W有利地通過(guò)正交鏡像濾波器的帶或通過(guò) 多相濾波器來(lái)實(shí)現(xiàn),隨后可選地進(jìn)行抽取W減少在每個(gè)子帶中所需的樣本數(shù)(在本領(lǐng)域中 已知)。在濾波后,應(yīng)當(dāng)在音頻聲道的每個(gè)禪合集合(對(duì)、=元組或四元組)中的每個(gè)感知顯 著的子帶中獨(dú)立地執(zhí)行矩陣下混分析。然后,子帶的每個(gè)禪合集合優(yōu)選地通過(guò)W下闡述的 等式和方法進(jìn)行分析和處理W提供適當(dāng)?shù)南禄?,通過(guò)在解碼器的每個(gè)子帶聲道集合中執(zhí)行 互補(bǔ)的上混,可W從該適當(dāng)?shù)南禄旎謴?fù)原始的離散子帶聲道集合。
[0191] 根據(jù)編解碼器400和方法的實(shí)施例,W下討論闡述用于將N個(gè)聲道下混(和互補(bǔ)的 上混)成M個(gè)聲道(反之亦然)的優(yōu)選方法,其中剩余聲道當(dāng)中每一個(gè)被混合到聲道對(duì)(二元 組)、=元組或四元組。無(wú)論是在每個(gè)子帶中還是在寬帶信號(hào)聲道中混合,相同的等式和原 理可適用。
[0192] 在解碼器上混的情況下,操作的次序是重要的,因?yàn)椋鶕?jù)編解碼器400和方法的 優(yōu)選實(shí)施例,非常優(yōu)選地首先處理四元組集合、然后=元組集合、然后聲道對(duì)。運(yùn)可W擴(kuò)展 到有Y-多元組的情況W使得最大的多元組被首先處理,接下來(lái)是下一個(gè)最大的多元組,W 此類推。首先處理具有最大聲道數(shù)的聲道集合允許上混器分析最廣泛和最普遍的聲道關(guān) 系。通過(guò)在=元組或按對(duì)集合之前處理四元組集合,上混器可W準(zhǔn)確地分析跨包括在四元 組集合中的所有聲道共同的相關(guān)信號(hào)分量。在最廣泛的聲道關(guān)系經(jīng)由四元組處理被分析和 處理之后,下一個(gè)最廣泛的聲道關(guān)系可W經(jīng)由=元組處理被分析和處理。最有限的聲道關(guān) 系(按對(duì)關(guān)系)被最后處理。如果S元組或按對(duì)集合碰巧在四元組集合之前被處理,則雖然 一些有意義的聲道關(guān)系可W跨=元組或按對(duì)聲道被觀察到,但是那些觀察到的聲道關(guān)系將 只是實(shí)際聲道關(guān)系的子集。
[0193] 作為示例,考慮一個(gè)場(chǎng)景,其中原始音頻信號(hào)的給定聲道(稱其為聲道A)被下混到 四元組集合上。在上混器處,四元組處理將能夠跨四元組集合分析聲道A的共同信號(hào)分量并 提取原始音頻聲道A的近似。任何后續(xù)的=元組或按對(duì)處理將如預(yù)期的那樣被執(zhí)行,并且沒(méi) 有進(jìn)一步的分析或提取將對(duì)聲道A信號(hào)分量執(zhí)行,因?yàn)樗鼈円呀?jīng)被提取了。相反,如果=元 組處理在四元組處理之前被執(zhí)行(并且=元組集合是四元組集合的子集),則=元組處理將 跨=元組集合分析聲道A的共同信號(hào)分量并將音頻信號(hào)提取到不同的輸出聲道(即,不是輸 出聲道A)。然后,如果四元組處理在=元組處理之后被執(zhí)行,則原始音頻聲道A將不能夠被 提取,因?yàn)閮H聲道A信號(hào)分量的一部分將仍然跨四元組聲道集合存在(即,聲道A信號(hào)分量的 一部分已經(jīng)在=元組處理期間被提?。?。
[0194] 如上面所解釋的,首先處理四元組集合、接著處理=元組集合、接著最后處理按對(duì) 集合是優(yōu)選的處理順序。應(yīng)當(dāng)注意的是,雖然W上討論處理按對(duì)(二元組)、=元組和四元組 集合,但是任何數(shù)量的集合都是可能的。對(duì)于按對(duì)集合,形成線,對(duì)于=元組集合,形成=角 形,并且對(duì)于四元組集合,形成正方形。但是,其它類型的多邊形也是可能的。
[01巧]V.D.按對(duì)矩陣化例
[0196] 根據(jù)編解碼器400和方法的實(shí)施例,當(dāng)非存留(或剩余)聲道的位置位于由兩個(gè)存 留聲道(或存留聲道中對(duì)應(yīng)的子帶)的位置限定的二元組之間時(shí),如下所述的,要被下混的 聲道應(yīng)當(dāng)根據(jù)一組二元組(或按對(duì))聲道關(guān)系進(jìn)行矩陣化。
[0197] 基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例計(jì)算左和右聲道之間的聲 道間水平差。運(yùn)個(gè)計(jì)算在下面詳細(xì)示出。而且,編解碼器400和方法使用聲道間水平差來(lái)計(jì) 算估計(jì)的平移角度。此外,聲道間相位差由該方法利用左和右輸入聲道來(lái)計(jì)算。運(yùn)個(gè)聲道間 相位差確定左和右輸入聲道之間的相對(duì)相位差,該相對(duì)相位差指示雙聲道輸入音頻信號(hào)的 左和右f目號(hào)是同相還是異相。
[0198] 編解碼器400和方法的一些實(shí)施例利用平移角度(0)來(lái)從雙聲道下混確定下混處 理和隨后的上混處理。而且,一些實(shí)施例采用正弦/余弦平移法則。在運(yùn)些情況下,雙聲道下 混是作為平移角度的函數(shù)來(lái)計(jì)算的:
[0199]
[0200]
[0201] 其中Xi是輸入聲道,L和R是下混聲道,0是平移角度(在0和1之間規(guī)格化),并且平 移權(quán)重的極性由輸入聲道Xi的位置確定。在傳統(tǒng)的矩陣化系統(tǒng)中,位于收聽(tīng)者前面的輸入 聲道利用同相信號(hào)分量被下混(換句話說(shuō),與平移權(quán)重具有相等的極性)并且位于收聽(tīng)者后 面的輸出聲道利用異相信號(hào)分量被下混(換句話說(shuō),與平移權(quán)重具有相反的極性)是很常見(jiàn) 的。
[0202] 圖12示出了對(duì)于正弦/余弦平移法則作為平移角度(0)的函數(shù)的平移權(quán)重。第一曲 線圖1200表示用于右聲道的平移權(quán)重(Wr)。第二曲線圖1210表示用于左聲道的權(quán)重(Wl)。作 為示例并且參照?qǐng)D12,中屯、聲道可W使用0.5的平移角度,從而得到下混函數(shù):
[0203] 1 = 0.707 ? C
[0204] R = O.707 ? C
[0205] 為了從雙聲道下混合成附加的音頻聲道,平移角度的估計(jì)(或估計(jì)的平移角度,表 示為:|)可W從聲道間水平差(表示為ICLD)來(lái)計(jì)算。令I(lǐng)CLD被定義為:
[0206]
[0207] 假設(shè)信號(hào)分量是利用正弦/余弦平移法則經(jīng)由強(qiáng)度平移生成的,則KLD可W表示 為平移角原化計(jì)的巧#:
[020引
[0209] 然后,平移角度估計(jì)可W表示為ICLD的函數(shù):
[0210]
[0211] 下列角度和與差恒等式將貫穿剩余的推導(dǎo)被使用:
[0212] sin(a ± 目)=Sin(Q)COS(目)±cos(a)sin(B)
[0213]
[0214] 而且,下面的推導(dǎo)假設(shè)5.1環(huán)繞聲輸出配置。但是,運(yùn)種分析可W容易地應(yīng)用到附 加的聲道。
[0215] 中屯、聲道合成
[0216] 中屯、聲道是利用W下等式從雙聲道下混生成的:
[0217] C = aL+bR
[0218] 其中a和b系數(shù)是基于平移角度估計(jì)I確定的,W實(shí)現(xiàn)某些預(yù)定義的目標(biāo)。
[0219] 同相分量
[0220] 對(duì)于中屯、聲道的同相分量,期望的平移行為在圖13中示出。圖13示出了對(duì)應(yīng)于由 下式給出的同相曲線圖1300的平移行為:
[0221]
[0222] 代入用于同相分量的期望的中屯、聲道平移行為和假設(shè)的正弦/余弦下混函數(shù)產(chǎn) 生:
[0223]
[0224] 利用角度和恒等式,反矩陣化系數(shù),包括第一反矩陣化系數(shù)(表示為a)和第二反矩 陣化系擲(親元責(zé)M .而獻(xiàn)推導(dǎo)為:
[0225]
[0226] 帷7]異相分量
[0228] 對(duì)于中屯、聲道的異相分量,期望的平移行為在圖14中示出。圖14示出了對(duì)應(yīng)于由 下式給出的異相曲線圖1400的平移行為:
[0229] C = O
[0230] 代入用于異相分量的期望的中屯、聲道平移行為和假設(shè)的正弦/余弦下混函數(shù)得 出:
[0231]
[0232] 利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[0233]
[0234]
[0端]環(huán)繞蘆道合成
[0236] 環(huán)繞聲道是利用W下等式從雙聲道下混生成的:
[0237] Ls = aL-bR
[0238] Rs = aR-bL
[0239] 其中Ls是左環(huán)繞聲道并且Rs是右環(huán)繞聲道。
[0240] 而且,a和b系數(shù)是基于估計(jì)的平移角度參確定的,W實(shí)現(xiàn)某些預(yù)先定義的目標(biāo)。
[0241] 同相分量
[0242] 用于左環(huán)繞聲道的同相分量的理想平移行為在圖15中示出。圖15示出了對(duì)應(yīng)于由 下式給出的同相曲線圖1500的平移行為:
[0243] Ls = O
[0244] 代入用于同相分量的期望的左環(huán)繞聲道平移行為和假設(shè)的正弦/余弦下混函數(shù)得 出:
[0245]
[0246] 利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[0247;
[0248;
[0249] 異相分量
[0250] 對(duì)用于異相分量的左環(huán)繞聲道的目標(biāo)是實(shí)現(xiàn)如由圖16中的異相曲線圖1600所示 的平移行為。圖16示出了對(duì)應(yīng)于下混等式的兩個(gè)特定角度,其中左環(huán)繞和右環(huán)繞聲道被離 散地編碼和解碼(運(yùn)些角度在圖16中的異相曲線圖1600上大約為0.25和0.75(對(duì)應(yīng)于45°和 135°))。運(yùn)些角度被稱為:
[0巧1] 0LS =左環(huán)繞編碼角度(約0.25)
[0巧2] 0RS =右環(huán)繞編碼角度(約0.75)
[0253]由于期望的輸出的分段行為,用于左環(huán)繞聲道的a和b系數(shù)經(jīng)由分段函數(shù)生成。對(duì) 于心用于左環(huán)繞聲道的期望平移行為對(duì)應(yīng)于: 9
[0 巧 4]
[0255] 代入用于異相分量的期望左環(huán)繞聲道平移行為和假設(shè)的正弦/余弦下混函數(shù)得 出:
[0 巧 6]
[0257]利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[0巧引
[0 巧9]
[0260] 左環(huán)繞聲道的期望平移行為對(duì)應(yīng)于:
[0261]
[0262]代入用于異相分量的期望的左環(huán)繞聲道平移行為和假設(shè)的正弦/余弦下混函數(shù)得 出:
[0%3:
[0264]利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[02 化]
[0%6]
[0267] 對(duì)于用于左環(huán)繞聲道的期望平移行為對(duì)應(yīng)于:
[0% 引 Ls = O
[0269] 代入用于異相分量的期望的左環(huán)繞聲道平移行為和假設(shè)的正弦/余弦下混函數(shù)得 出:
[0270]
[0271] 利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[0272]
[0273]
[0274] 用于右環(huán)繞聲道生成的a和b系數(shù)與如上所述的用于左環(huán)繞聲道生成的那些類似 地計(jì)算。
[0275] 修改的左聲道和修改的右聲道合成
[0276] 左聲道和右聲道利用W下等式被修改W去除(或者全部或者部分)在中屯、和環(huán)繞 聲道中生成的那些分量:
[0277] 1/ =aL-bR
[027引 R/ =aR-bL
[0279] 其中a和b系數(shù)是基于平移角度估計(jì)確定的,W實(shí)現(xiàn)某些預(yù)定義的目標(biāo),并且L ' 是修改的左聲道并且R'是修改的右聲道。
[0280] 同相分量
[0281] 用于同相分量的修改的左聲道的目標(biāo)是實(shí)現(xiàn)如由圖17中的同相曲線圖1700所示 的平移行為。在圖17中,0.5的平移角度0對(duì)應(yīng)于離散的中屯、聲道。由于期望的輸出的分段行 為,用于修改的左聲道的a和b系數(shù)經(jīng)由分段函數(shù)生成。
[0282] 對(duì)于用于修改的左聲道的期望平移行為對(duì)應(yīng)于:
[0283]
[0284] 代入用于同相分量的期望的修改的左聲道平移行為和假設(shè)的正弦/余弦下混函數(shù) 得出:
[0285]
[0286] 利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[0287]
[028引
[0289] 對(duì)于用于修改的左聲道的期望平移行為對(duì)應(yīng)于:
[0290] L' =0
[0291] 代入用于同相分量的期望的修改的左聲道平移行為和假設(shè)的正弦/余弦下混函數(shù) 得出:
[0292]
[0293] 利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[0294]
[0295]
[0巧6] 異相分量
[0297] 用于異相分量的修改的左聲道的目標(biāo)是實(shí)現(xiàn)如由圖18中的異相曲線圖1800所示 的平移行為。在圖18中,平移角度0 = 0LS對(duì)應(yīng)于用于左環(huán)繞聲道的編碼角度。由于期望的輸 出的分段行為,用于修改的左聲道的a和b系數(shù)經(jīng)由分段函數(shù)生成。
[0298] 對(duì)于>用于修改的左聲道的期望平移行為對(duì)應(yīng)于:
[0299]
[0302] 利用角度和恒等式,a和b系數(shù)可W被推導(dǎo)為:
[0300] 代入用于異相分量的期望的修改的左聲道平移行為和假設(shè)的正弦/余弦下混函數(shù) 得出:
[0301]
[0303]
[0304]
[03化]對(duì)于S心用于于修改的左聲道的期望平移行為對(duì)應(yīng)于:
[0306] L' =0。
O[0309] 肅I巧角原巧巧等式,a和b系數(shù)可W被推導(dǎo)為:
[0307] 代入用于異相分量的期望的修改的左聲道平移行為和假設(shè)的正弦/余弦下混函數(shù) 得出:
[030引
[0310]
[0311]
[0312] 用于修改的右聲道生成的a和b系數(shù)與如上所述的用于修改的左聲道生成的那些 類似地計(jì)算。
[0313] 系數(shù)插值
[0314] 上面給出的聲道合成推導(dǎo)是基于對(duì)同相或者異相的源內(nèi)容實(shí)現(xiàn)期望的平移行為。 源內(nèi)容的相對(duì)相位差可W通過(guò)被定義為
:的聲道間相位差 (ICPD)特性來(lái)確定,其中*表示復(fù)共輛。
[0315] ICPD值在范圍[-1,1]中被界定,其中值-1指示分量是異相的并且值1指示分量是 同相的。然后,ICTO特性可被用來(lái)確定最終的a和b系數(shù),W便在利用線性插值的聲道合成等 式中使用。但是,代替直接插值a和b系數(shù),應(yīng)當(dāng)注意的是,所有的a和b系數(shù)是利用平移角度 估計(jì)I的S角函數(shù)生成的。
[0316] 因此線性插值是對(duì)=角函數(shù)的角度自變量執(zhí)行的。W運(yùn)種方式執(zhí)行線性插值有兩 個(gè)主要優(yōu)點(diǎn)。首先,它對(duì)任何平移角度和ICPD值保留了 a2+b2 = l特性。其次,它減少了所需的 S角函數(shù)的調(diào)用的次數(shù)從而減少了處理要求。
[0317] 巧度捕估伸巧規(guī)格化到范圍[0,1 ]的修改的ICro值,其被計(jì)算為:
[031 引
[0319] 中屯、輸出聲道
[0320] 中屯、輸出聲道是利用修改的ICro值生成的,該中屯、輸出聲道被定義為:
[0321] C = aL+bR
[0322] 其中
[0323] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0324] b = cos(ICPD' ? a+(l-ICPD' ) ? 0)。
[0325] W上正弦函數(shù)的自變量的第一項(xiàng)表示第一反矩陣化系數(shù)的同相分量,而第二項(xiàng)表 示異相分量。因此,a表示同相系數(shù)并且e表示異相系數(shù)。同相系數(shù)和異相系數(shù)一起被稱為相 位系數(shù)。
[0326] 對(duì)于每個(gè)輸出聲道,編解碼器400和方法的實(shí)施例基于估計(jì)的平移角度計(jì)算相位 系數(shù)。對(duì)于中屯、輸出聲道,同相系數(shù)和異相系數(shù)如下給出:
[0327]
[032引
[0:3例左環(huán)繞輸出聲道
[0330] 左環(huán)繞輸出聲道是利用修改的ICTO值生成的,其被定義為:
[0331] Ls = aL-bR
[0332] 其中
[0333] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0334] b = cos(ICPD' ? a+(l-ICPD' ) ? (6)
[03對(duì)并且
[0336]
[0337]
[0338] 注意,一些S角恒等式和相位纏繞(wrapping)特性被應(yīng)用W便將a和e系數(shù)簡(jiǎn)化成 上面給出的等式。
[0扣9] 右環(huán)繞輸出聲道
[0340] 右環(huán)繞輸出聲道是利用修改的ICTO值生成的,其被定義為:
[0341] Rs = aR-bL [0;342]其中
[0;343] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0344] b = cos(ICPD' ? a+(l-ICPD' ) ? (6)
[0345] 并日
[0;346]
[0;347]
[0348] 應(yīng)當(dāng),除了代替I.利用0.…??)作為平移角度,類似于左環(huán)繞聲道地生成用于右環(huán) 繞聲道的a和e系數(shù)。
[0349] 修改的左輸出聲道
[0350] 修改的左輸出聲道是利用修改的ICro值如下生成的:
[0;351] =aL-bR
[0352] 其中
[0;353] a = sin(ICPD' ?日+(I-ICPD' )? 0)
[0;354] b = cos( ICPD' ? a+( I-ICPD' )? 0)
[0355] 并日
[0356]
[0357]
[0娜]修改的右輸出聲道
[0359] 修改的右輸出聲道是利用修改的ICTO值如下生成的:
[0360] R' =aR-bL
[0361] 其中
[0362] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0363] b = cos(ICPD' ? a+(l-ICPD' ) ? (6)
[0364] 並曰
[03 化]
[0366]
[0367] 注意,除了代替款利用知…#)作為平移角度,類似于左聲道地生成用于右聲道的a 和e系數(shù)。
[0368] 上面討論的主題是用于從雙聲道下混生成中屯、、左環(huán)繞、右環(huán)繞、左和右聲道的系 統(tǒng)。但是,通過(guò)定義附加的平移行為,該系統(tǒng)可W容易地被修改為生成其它附加的音頻聲 道。
[03~]V.E.立元組矩陣化例
[0370]根據(jù)編解碼器400和方法的實(shí)施例,當(dāng)非存留(或剩余)聲道的位置位于由S個(gè)存 留聲道(或存留聲道中對(duì)應(yīng)的子帶)的位置限定的=角形內(nèi)時(shí),如下所述的,要被下混的聲 道應(yīng)當(dāng)根據(jù)一組=元組聲道關(guān)系來(lái)矩陣化。
[0巧1] 下混例
[0372] 非存留聲道被下混到構(gòu)成=角形的=個(gè)存留聲道上。在數(shù)學(xué)上,信號(hào)S被幅度平移 到聲道S元組C1/C2/C3上。圖19是示出信號(hào)源S平移到聲道S元組上的圖。參照?qǐng)D19,對(duì)于位 于聲道Cl和C2之間的信號(hào)源S,假設(shè)聲道C1/C2/C3是根據(jù)下列信號(hào)模型生成的:
[0373]
[0374]
[0375]
[0376] 其中r是信號(hào)源離原點(diǎn)的距離(規(guī)格化到范圍[0,1])并且0是信號(hào)源在聲道Cl和C2 之間的角度(規(guī)格化到范圍[0,1 ])。注意,W上用于聲道C1/C2/C3的聲道平移權(quán)重被設(shè)計(jì)為 保持當(dāng)其平移到C1/C2/C3上時(shí)的信號(hào)S的功率。
[0;377] 上混例
[0378] 當(dāng)上混S元組時(shí),目標(biāo)是通過(guò)從輸入的S元組C1/C2/C3創(chuàng)建四個(gè)輸出聲道ClVCsV C3VC4來(lái)獲得被下混到=元組上的非存留聲道。圖20是示出已被平移到=元組上的非存留 第四聲道的提取的圖。參照?qǐng)D20,第四輸出聲道C4的位置被假設(shè)為在原點(diǎn),而其它=個(gè)輸出 聲道(VAVAV的位置被假設(shè)為與輸入聲道C1/C2/C袖同?;诙嘣M的空間矩陣化解碼 器420的實(shí)施例生成四個(gè)輸出聲道W使得原始信號(hào)分量S的空間位置和信號(hào)能量被保留。
[0379] 聲源S的原始位置不被發(fā)送到基于多元組的空間矩陣化解碼器420的實(shí)施例,并且 它只能從輸入聲道C1/C2/C3自己估計(jì)。解碼器420的實(shí)施例能夠適當(dāng)?shù)厣捎糜赟的任意位 置的四個(gè)輸出聲道。對(duì)于本節(jié)的剩余部分,可W假設(shè)原始信號(hào)分量S具有單位能量(即,Is =1) W簡(jiǎn)化推導(dǎo)而不失一般性。
[0380] 從聲道能量推導(dǎo)^和j;估計(jì)
[0381] 令
[0382]
[0383]
[0384] 聲道能量比
[0385] W下的能量比將貫穿本節(jié)的剩余部分被使用:
[0386]
[0387] 運(yùn)S個(gè)能量比在范圍[0,I ]中并且總和為I。
[03則 C4聲道合成
[0389] 輸出聲道C4將經(jīng)由下面的等式生成:
[0390] C4=aCi+bC2+cC3
[0391] 其中a、b和C系數(shù)將基于估計(jì)的角度I和半徑f來(lái)確定。
[0392] 目梳是;
[0393]
[0394]
[0395]
[0396]
[0397]
[039引
[0399]
[0400]
[0401]
[0402]
[0403]
[0404]
[0405]
[0406] 此外,最終的a、b和C系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0407]
[040引
[0409]
[0410] Cl VC2聲道合成
[0411] 輸出聲道(VAVAV將從輸入聲道C1/C2/C3生成W使得已經(jīng)在輸出聲道C沖生成 的信號(hào)分量從輸入聲道C1/C2/C3中被適當(dāng)?shù)?去除'。
[04。] (V聲道合成
[0413] 令
[0414] C/ =aCi-bC2-cC3 [041引目標(biāo)是:
[0422] W上代入得出:
[0416]
[0417]
[0418]
[0419]
[0420]
[0421]
[042;
[042^
[0426] 最終的a、b和C系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[042t
[0437] 令b =化'并且c = dc',其中:
[0427]
[0428]
[0429]
[0430]
[0431]
[0432]
[0433]
[0434]
[0435]
[0436]
[0438]
[0439]
[0440]
[0441]
[0442]
[0443]
[0444] 最終的a、b和C系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0445]
[0446]
[0447]
[044引
[0449]
[0450]
[0451]
[0452]
[0453] 令a系數(shù)等于:
[0454]
[0462] 最終的a、b和C系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0455]
[0456]
[0457]
[045引
[0459]
[0460]
[0461]
[0463]
[0464]
[04 化]
[0466] 立元組聲道間相位差(ICPD)
[0467] 可W從底層的(underlying)按對(duì)ICPD值計(jì)算S元組的聲道間相位差(ICPD)空間 特性:
[0468]
[0469] 其中底層按對(duì)ICTO值是利用下面的等式計(jì)算的:
[0470]
[0471]注意,=元組信號(hào)模型假設(shè)聲源已被幅度平移到=元組聲道上,運(yùn)意味著=個(gè)聲 道完全相關(guān)。S元組ICPD測(cè)量可被用來(lái)估計(jì)S個(gè)聲道的總相關(guān)性。當(dāng)S元組聲道完全相關(guān) (或接近完全相關(guān))時(shí),=元組框架可W被用來(lái)生成具有高度可預(yù)測(cè)結(jié)果的四個(gè)輸出聲道。 當(dāng)=元組聲道不相關(guān)時(shí),可能期望使用不同的框架或方法,因?yàn)椴幌嚓P(guān)的=元組聲道違反 假設(shè)的信號(hào)模型,運(yùn)可能導(dǎo)致不可預(yù)測(cè)的結(jié)果。 陶]V.F.四元組矩陣化例
[0473] 根據(jù)編解碼器400和方法的實(shí)施例,當(dāng)某些對(duì)稱條件占優(yōu)勢(shì)(prevail)時(shí),剩余聲 道(或聲道子帶)可W有利地被認(rèn)為位于四邊形內(nèi)。在運(yùn)種情況下,編解碼器400和方法的實(shí) 施例包括根據(jù)W下描述的四元組例關(guān)系集合的下混(和互補(bǔ)的上混)。
[0474] 下混例
[0475] 非存留聲道被下混到構(gòu)成四邊形的四個(gè)存留聲道上。在數(shù)學(xué)上,信號(hào)源S被幅度平 移到聲道四元組C1/C2/C3/C4上。圖21是示出信號(hào)源S平移到聲道四元組上的圖。參照?qǐng)D21, 對(duì)于位于聲道Cl和C2之間的信號(hào)源S,假設(shè)聲道C1/C2/C3/C4是根據(jù)下列信號(hào)模型生成的:
[0476]
[0477]
[0478]
[0479]
[0480] 其中r是信號(hào)源離原點(diǎn)的距離(規(guī)格化到范圍[0,1])并且0是信號(hào)源在聲道Cl和C2 之間的角度(規(guī)格化到范圍[0,1 ])。注意,W上用于聲道C1/C2/C3/C4的聲道平移權(quán)重被設(shè)計(jì) 為當(dāng)其平移到C1/C2/C3/C4上時(shí)保留信號(hào)S的功率。
[0481 ] 上混例
[048^ 當(dāng)上混四元組時(shí),目標(biāo)是通過(guò)從輸入四元組01八2八3八4創(chuàng)建五個(gè)輸出聲道山/ C2VC3VC4VC5來(lái)獲得被下混到四元組上的非存留聲道。圖22是示出已被平移到四元組上 的非存留第五聲道的提取的圖。參照?qǐng)D22,第五輸出聲道Cs的位置被假設(shè)為在原點(diǎn),而其它 四個(gè)輸出聲道C1VC2VC3VC4/的位置被假設(shè)為與輸入聲道C1/C2/C3/C4相同。基于多元組的 空間矩陣化解碼器420的實(shí)施例生成五個(gè)輸出聲道W使得原始信號(hào)分量S的空間位置和信 號(hào)能量被保留。
[0483] 聲源S的原始位置不被發(fā)送到解碼器420的實(shí)施例,并且只能從輸入聲道C1/C2/C3/ C4自己估計(jì)。解碼器420的實(shí)施例必須能夠?qū)τ赟的任何任意位置適當(dāng)?shù)厣晌鍌€(gè)輸出聲 道。
[0484] 對(duì)于本節(jié)的剩余部分,可W假設(shè)原始信號(hào)分量S具有單位能量(換句話說(shuō),Isl =1) W簡(jiǎn)化推導(dǎo)而不失一般性。解碼器首先從聲道能量Ci2/C22/C32/C4 2推導(dǎo)巧Pi:
[0485:
[0486] 注意,在上述等式中使用C3和C4聲道的最小能量(換句話說(shuō),min(C32,C42似處理當(dāng) 輸入四元組C1/C2/C3/C4打破先前識(shí)別出的信號(hào)模型假設(shè)的情況。信號(hào)模型假設(shè)C3和C4的能 量水平將彼此相等。但是,如果對(duì)任意輸入信號(hào)情況不是運(yùn)樣并且C3和C4不相等,則可能期 望跨輸出聲道Cl VC2VC3VC4 VCs限制輸入信號(hào)的重新平移。運(yùn)可W通過(guò)合成最小輸出聲道 Cs并盡可能類似于其對(duì)應(yīng)的輸入聲道C1/C2/C3/C4地保留輸出聲道C/AVAV/C/來(lái)實(shí)現(xiàn)。 在本節(jié)中,對(duì)C3和C4聲道最小功能的使用嘗試實(shí)現(xiàn)運(yùn)個(gè)目標(biāo)。
[0487] 聲道能量比
[0488] 下而的能音比將貫穿本節(jié)的剩余部分使用:
[0489]
[0490] 運(yùn)四個(gè)能量比在范圍[0,1 ]中并且總和為1。
[0491 ] Cs聲道合成
[0492] 輸出聲道Cs將通過(guò)下面的等式來(lái)生成:
[0493] C5 = aCi+bC2+cC3+dC4
[0494] 其中a、b、c和d系數(shù)將基于估計(jì)的角度I郝半徑f來(lái)確定。
[04巧]目標(biāo):
[0496]
[0497]
[0498]
[0499]
[0如0]
[0如4] 求解e產(chǎn)生;
[0如 1 ]
[0如 2]
[0如 3]
[0如5]
[0如6] 巧沁。K。新rl完撒縣.
[0如 7;
[0如 8;
[0如9;
[0510;
[0511] 此外,最終的a、b、c和d系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0512] a=2]i 迎 in(]i3,li4)
[0513] b =化2min(]i3,li4)
[0514] c = 2min(]i3,ii 皿 in(]i3,ii4)
[0515] d = 2min(]i3,li4)min(ii3,ii4)
[化W 打VC2VC3VC/聲道合成
[0517] 輸出聲道C1VC2VC3VC/將從輸入聲道C1/C2/C3/C4生成W使得已經(jīng)在輸出聲道Cs 中生成的信號(hào)分量將從輸入聲道C1/C2/C3/C4被適當(dāng)?shù)?去除'。
[051引(V聲道合成 [0519] C/ =aCi-bC2-cC3-dC4
[0520]目標(biāo);
[化3日]求解e產(chǎn)生;
[化 21]
[0522]
[0523]
[0524]
[0525]
[0526]
[0527]
[052引
[0529]
[0531]
[0532] 最終的a、b、c和d系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0533]
[0534]
[0535]
[0536]
[0537]
[053引
[0539]
[0540]
[0541]
[0542]
[0543]
[0544]
[0545]
[0546]
[0547]
[054引
[0549]
[0550]
[0551] 最終的a、b、c和d系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0552]
[0553]
[0554]
[0555]
[0就]C3^聲道合成
[0 巧 7] C3' =aC3-bC 廣 cC2-dC4
[0巧引 目標(biāo);
[0559]
[化 60]
[0570]最終的a、b、c和d系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0561]
[0562]
[0563]
[化 64]
[化化]
[0566]
[0567]
[056引 [化 69]
[0571]
[0572]
[0573]
[0574]
[化巧]C/聲道合成
[0576] C4' =aC 廣 bC 廣 cC2-dC3
[0577] 日標(biāo),
[057引
[0579]
[化 80]
[0581]
[0582]
[0583]
[化 84]
[化85] W上代入得出:
[0586]
[0587]
[化8引
[0589] 最終的a、b、c和d系數(shù)可W被簡(jiǎn)化為僅由聲道能量比組成的表達(dá)式:
[0590]
[0591]
[0592]
[0593]
[化94] 四元組聲道間相位差(ICPD)
[05M]可W從底層按對(duì)ICro值計(jì)算四元組的聲道間相位差(ICPD)空間特性:
[0596]
[0597] 其中底層按對(duì)ICTO值利用下面的等式計(jì)算:
[059引
[0599]注意,四元組信號(hào)模型假設(shè)聲源已被幅度平移到四元組聲道上,運(yùn)意味著四個(gè)聲 道完全相關(guān)。四元組ICPD測(cè)量可W被用來(lái)估計(jì)四個(gè)聲道的總相關(guān)性。當(dāng)四元組聲道完全相 關(guān)(或接近完全相關(guān))時(shí),四元組框架可W被用來(lái)生成具有高度可預(yù)測(cè)結(jié)果的五個(gè)輸出聲 道。當(dāng)四元組聲道不相關(guān)時(shí),可能期望使用不同的框架或方法,因?yàn)椴幌嚓P(guān)的四元組聲道違 反了假設(shè)的信號(hào)模型,運(yùn)可能導(dǎo)致不可預(yù)測(cè)的結(jié)果。
[0600] V.G.擴(kuò)展的呈現(xiàn)
[0601] 編解碼器400和方法的實(shí)施例利用基于矢量的幅度平移(VBAP)技術(shù)的新穎擴(kuò)展來(lái) 經(jīng)揚(yáng)聲器陣列呈現(xiàn)音頻對(duì)象波形。傳統(tǒng)的VBAP技術(shù)利用在單位球體上任意數(shù)量的任意放置 的卿趴創(chuàng)建=維聲場(chǎng)。單位球體上的半球在收聽(tīng)者上方創(chuàng)建圓頂。利用VBAP,可被創(chuàng)建的最 可定位的聲音來(lái)自構(gòu)成某個(gè)=角形布置的最多3個(gè)聲道。如果碰巧聲音來(lái)自位于兩個(gè)揚(yáng)聲 器之間的線上的點(diǎn),則VBAP將只使用那兩個(gè)揚(yáng)聲器。如果假定聲音是來(lái)自揚(yáng)聲器所在的位 置,貝VBAP將只使用一個(gè)揚(yáng)聲器。所Wvbap使用最多3個(gè)揚(yáng)聲器和最少1個(gè)揚(yáng)聲器來(lái)再現(xiàn)聲 音?;胤怒h(huán)境可能具有3個(gè)W上的揚(yáng)聲器,但VBAP技術(shù)僅利用那些揚(yáng)聲器當(dāng)中的3個(gè)再現(xiàn)聲 音。
[0602] 由編解碼器400和方法的實(shí)施例使用的擴(kuò)展呈現(xiàn)技術(shù)將離開(kāi)單位球體的音頻對(duì)象 呈現(xiàn)到該單位球體內(nèi)的任意點(diǎn)。例如,假設(shè)利用=個(gè)揚(yáng)聲器創(chuàng)建=角形。通過(guò)擴(kuò)展在沿一條 線的點(diǎn)定位源的傳統(tǒng)VBAP方法并且將那些方法擴(kuò)展到使用=個(gè)揚(yáng)聲器,源可W位于由那= 個(gè)揚(yáng)聲器構(gòu)成的=角形內(nèi)的任意地方。呈現(xiàn)引擎的目標(biāo)是找到增益陣列,該增益陣列在沿 著由該幾何形狀創(chuàng)建的3D矢量的正確位置創(chuàng)建聲音,同時(shí)到相鄰的揚(yáng)聲器的泄漏量最小。
[0603] 圖23是回放環(huán)境485和擴(kuò)展的呈現(xiàn)技術(shù)的圖示。收聽(tīng)者100位于單位球體2300內(nèi)。 應(yīng)當(dāng)注意的是,雖然只示出了單位球體2300的一半(半球),但是擴(kuò)展的呈現(xiàn)技術(shù)支持整個(gè) 單位球體2300上和其中的呈現(xiàn)。圖23還示出了所使用的球體坐標(biāo)系x-y-z,包括徑向距離r、 方位角q和極角j。
[0604] 多元組和球體應(yīng)當(dāng)覆蓋位流中所有波形的位置。如果需要,則運(yùn)個(gè)想法可W擴(kuò)展 到四個(gè)或更多個(gè)揚(yáng)聲器,從而創(chuàng)建在其中工作的矩形或其它多邊形,W準(zhǔn)確地實(shí)現(xiàn)在單位 球體2300的半球上的空間中的正確位置。
[0605] DTS-UHD呈現(xiàn)引擎執(zhí)行點(diǎn)的3D平移并且將源擴(kuò)展到任意卿趴布局。點(diǎn)源聽(tīng)起來(lái)就 好像是來(lái)自空間中一個(gè)特定的點(diǎn),而擴(kuò)展源是具有"寬度"和/或"高度"的聲音。對(duì)源的空間 擴(kuò)展的支持是通過(guò)覆蓋擴(kuò)展聲音的區(qū)域的虛擬源的建模貢獻(xiàn)來(lái)完成的。
[0606] 圖24示出了利用擴(kuò)展的呈現(xiàn)技術(shù)在單位球體2300上和其中的音頻源的呈現(xiàn)。音頻 源可W位于運(yùn)個(gè)單位球體2300上或其中的任意地方。例如,通過(guò)使用擴(kuò)展的呈現(xiàn)技術(shù),第一 音頻源可W位于單位球體2400上,而第二音頻源2410和第=音頻源可W位于單位球體內(nèi)。
[0607] 擴(kuò)展的呈現(xiàn)技術(shù)呈現(xiàn)圍繞收聽(tīng)者100的單位球體2300上的點(diǎn)或擴(kuò)展源。但是,對(duì)于 在單位球體2300內(nèi)部的點(diǎn)源,源必須從單位球體2300移開(kāi)。擴(kuò)展的呈現(xiàn)技術(shù)使用=種方法 將對(duì)象移開(kāi)單位球體2300。
[060引第一,一旦波形利用VBAP(或類似)的技術(shù)被定位在單元球體2300上,其關(guān)于定位 在單位球體2300的中屯、處的源交叉衰落(cross-fade), W便沿半徑r拉入聲音。系統(tǒng)中的所 有揚(yáng)聲器都被用來(lái)執(zhí)行交叉衰落。
[0609] 第二,對(duì)于升高的源,聲音在垂直平面中被擴(kuò)展W便給予收聽(tīng)者100其正在移近的 印象。只使用垂直延伸聲音所需的揚(yáng)聲器。第=,對(duì)于在可W或可W不具有零升高的水平面 中的源,聲音被再次水平擴(kuò)展W給出它正在向收聽(tīng)者100移近的印象。唯一活動(dòng)的揚(yáng)聲器是 進(jìn)行擴(kuò)展所需的那些揚(yáng)聲器。
[0610] V.H.存留聲道的示例性選擇
[0611] 給出輸入布局的類別,存留聲道的選擇的個(gè)數(shù)(M) W及下述規(guī)則W唯一的方式指 定每個(gè)非存留聲道的矩陣化,而不管實(shí)際的輸入布局如何。圖22-圖25是規(guī)定用于輸入布局 中在存留布局中不存在的任何揚(yáng)聲器的矩陣多元組的查找表。
[0612] 注意,W下規(guī)則適用于圖25-圖28。輸入布局被分成5類:
[0613] 1.沒(méi)有高度聲道的布局;
[0614] 2.只在前面具有高度聲道的布局;
[0615] 3.具有包圍高度聲道的布局(兩個(gè)高度揚(yáng)聲器之間的間隔不>180°);
[0616] 4.具有包圍高度聲道和頭頂聲道的布局;
[0617] 5.具有包圍高度聲道、頭頂聲道和收聽(tīng)者平面之下的聲道的布局。
[0618] 此外,每個(gè)非存留聲道在一對(duì)存留聲道之間被按對(duì)矩陣化。在一些場(chǎng)景中,=元 組、四元組或更大的存留聲道組可被用于矩陣化單個(gè)非存留聲道。而且,在任何可能的時(shí) 候,一對(duì)存留聲道被用于矩陣化一個(gè)且只有一個(gè)非存留聲道。
[0619] 如果高度聲道在輸入聲道布局中存在,則至少一個(gè)高度聲道將在存留聲道之間存 在。在任何適當(dāng)?shù)臅r(shí)候,每個(gè)卿趴環(huán)中應(yīng)當(dāng)使用至少3個(gè)包圍存留聲道(適用于收聽(tīng)者平面 環(huán)和升高的平面環(huán))。
[0620] 當(dāng)不需要對(duì)象包含或嵌入式下混時(shí),存在所提出的方法的優(yōu)化的其它可能性。首 先,非存留聲道(在運(yùn)種場(chǎng)景中,其中N-M個(gè)將被稱為"準(zhǔn)存留聲道")可W利用非常有限的帶 寬進(jìn)行編碼(比如,F(xiàn)c = 3曲Z)。其次,高于Fc的"準(zhǔn)存留聲道"中的內(nèi)容應(yīng)當(dāng)被矩陣化到選擇 的存留聲道上。第=,"準(zhǔn)存留的聲道"的低頻帶和存留聲道的所有頻帶被編碼并打包到流 中。
[0621] 上述優(yōu)化允許對(duì)空間準(zhǔn)確性的最小影響,同時(shí)仍然顯著較小位速率。為了管理解 碼器MIPS,需要對(duì)用于反矩陣化的時(shí)間-頻率表示進(jìn)行仔細(xì)選擇W使得解碼器子帶樣本可 被插入到反矩陣合成濾波器組中。另一方面,由于反矩陣化低于Fc不適用,因此用于反矩陣 化的所需頻率分辨率的放松是可能的。
[06。] V.I.更多信息
[0623] 在上面的討論中,應(yīng)當(dāng)認(rèn)識(shí)到,"重新平移"是指上混操作,通過(guò)該操作超過(guò)下混聲 道(N〉M)的離散聲道編號(hào)從每個(gè)聲道集合中的下混恢復(fù)。優(yōu)選地,運(yùn)針對(duì)每個(gè)集合在多個(gè)感 知臨界子帶的每一個(gè)中執(zhí)行。
[0624] 應(yīng)當(dāng)認(rèn)識(shí)到的是,當(dāng)聲道幾何形狀被唱片藝術(shù)家或工程師假設(shè)時(shí)(顯式地或經(jīng)由 軟件或硬件隱式地)W及當(dāng)另外地幾何形狀和假設(shè)的聲道配置和下混參數(shù)通過(guò)相同的方式 被傳送到解碼器/接收器時(shí),根據(jù)運(yùn)種方法的最佳或接近最佳結(jié)果將得到最佳近似。換句話 說(shuō),如果原始記錄使用22聲道離散混合,基于根據(jù)上述矩陣化方法被下混到7.1聲道下混的 某種麥克風(fēng)/揚(yáng)聲器幾何形狀,則運(yùn)些假設(shè)應(yīng)當(dāng)通過(guò)某些方式被傳送到接收器/解碼器W允 許互補(bǔ)的上混。
[0625] -種方法將是在文件頭中傳送假設(shè)的原始幾何形狀和下混配置(22,在配置中具 有高度聲道X--下混到常規(guī)布置中的7.1)。運(yùn)要求僅最小量的數(shù)據(jù)帶寬和不經(jīng)常的實(shí)時(shí)更 新。例如,參數(shù)可W被多路復(fù)用到現(xiàn)有音頻格式中的保留字段。其它方法是可用的,包括云 存儲(chǔ)、網(wǎng)站訪問(wèn)、用戶輸入,等等。
[06%]在編解碼器400和方法的一些實(shí)施例中,上混系統(tǒng)600(或解碼器)意識(shí)到原始音頻 信號(hào)和聲道減少的音頻信號(hào)二者的混合系數(shù)和聲道布局。聲道布局和混合系數(shù)的知識(shí)允許 上混系統(tǒng)600準(zhǔn)確地將聲道減少的音頻信號(hào)解碼回原始音頻信號(hào)的適當(dāng)近似。沒(méi)有聲道布 局和混合系數(shù)的知識(shí),上混器將無(wú)法確定目標(biāo)輸出聲道布局或生成原始音頻聲道的適當(dāng)近 似所需的正確解碼器功能。
[0627] 作為示例,原始音頻信號(hào)可W包括對(duì)應(yīng)于W下聲道位置的15個(gè)聲道:1)中屯、,2)左 前,3)右前,4)左側(cè)環(huán)繞,5)右側(cè)環(huán)繞,6)左后環(huán)繞,7)右后環(huán)繞,8)中屯、向左,9)中屯、向右, 10)中屯、局,11)左局,12)右局,13)中屯、局后,14)左后局,和15)右后局。由于帶寬限制(或一 些其它動(dòng)機(jī)),可能期望將運(yùn)個(gè)高聲道計(jì)數(shù)的音頻信號(hào)減小成包括8個(gè)聲道的聲道減少的音 頻信號(hào)。
[0628] 下混系統(tǒng)500可被配置成將原始的15個(gè)聲道編碼為包括W下聲道位置的8聲道音 頻f目號(hào):1)中屯、,2)左前,3)右前,4)左環(huán)繞,5)右環(huán)繞,6)左局,7)右局,和8)中屯、局后。下混 系統(tǒng)500還可被配置成在下混原始的15聲道音頻信號(hào)時(shí)使用W下混合系數(shù):
[0629]
[0630] 其中最上面的行對(duì)應(yīng)于原始聲道,最左邊的列對(duì)應(yīng)于下混合聲道,并且數(shù)字系數(shù) 對(duì)應(yīng)于每個(gè)原始聲道有助于每個(gè)下混聲道的混合權(quán)重。
[0631] 對(duì)于W上示例場(chǎng)景,為了讓上混系統(tǒng)600最佳地或者接近最佳地解碼來(lái)自聲道減 少的信號(hào)的原始音頻信號(hào)的近似,上混系統(tǒng)600可W具有原始和下混聲道布局的知識(shí)(即, 分別為 C、化、。3、1^55、1?55、1^51?、1?51?、1^〇(:、1?〇(:、邸、^、畑、(:皿、1皿、畑1?和(:、化^1?、1^5、1?5、1山 RH、CHR)和在下混過(guò)程中使用的混合系數(shù)(即,上述混合系數(shù)矩陣)。利用運(yùn)種信息的知識(shí), 上混系統(tǒng)600可W利用W上闡述的矩陣化/反矩陣化數(shù)學(xué)框架準(zhǔn)確地確定每個(gè)輸出聲道所 需要的解碼功能,因?yàn)樗耆庾R(shí)到所使用的實(shí)際下混配置。例如,上混系統(tǒng)600將知道從 下混的LS和RS聲道解碼輸出LSRS聲道,并且它還將知道LS和RS聲道之間將暗示離散LSR聲 道輸出的相對(duì)聲道水平(即,分別0.924和0.383)。
[0632] 如果上混系統(tǒng)600無(wú)法獲得關(guān)于原始和聲道減少的音頻信號(hào)的混合系數(shù)的信息W 及相關(guān)聲道布局,例如,如果數(shù)據(jù)聲道不可用于從下混系統(tǒng)500向上混器發(fā)送運(yùn)種信息或者 如果接收到的音頻信號(hào)是其中運(yùn)種信息不確定或未知的傳統(tǒng)或非下混信號(hào),則它仍然有可 能通過(guò)使用試探法選擇用于上混系統(tǒng)600的合適的解碼功能來(lái)執(zhí)行滿意的上混。在運(yùn)些"盲 上混"情況下,有可能使用聲道減少的布局和目標(biāo)上混布局的幾何形狀來(lái)確定合適的解碼 功能。
[0633] 作為示例,用于給定輸出聲道的解碼功能可W通過(guò)比較輸出聲道相對(duì)于一對(duì)輸入 聲道之間的最近線段的位置來(lái)確定。例如,如果給定的輸出聲道直接位于一對(duì)輸入聲道之 間,則可W確定將來(lái)自那對(duì)的等強(qiáng)度共同信號(hào)分量提取到輸出聲道中。同樣,如果給定的輸 出聲道位于更靠近其中一個(gè)輸入聲道,則解碼功能可W結(jié)合運(yùn)種幾何形狀并且為較近聲道 給予更大強(qiáng)度。作為替代,有可能使用關(guān)于音頻信號(hào)的記錄、混合或生產(chǎn)技術(shù)的假設(shè)來(lái)確定 合適的解碼功能。例如,作出關(guān)于某些聲道之間的關(guān)系的假設(shè)可能是合適的,諸如假設(shè)高度 聲道部件可W諸如在電影中的"天橋"效果期間跨7.1音頻信號(hào)的前和后聲道對(duì)(即,kLsr 和R-Rsr)被平移。
[0634] 還應(yīng)當(dāng)認(rèn)識(shí)到,在下混系統(tǒng)500和上混系統(tǒng)600中使用的音頻聲道不一定符合預(yù)期 用于特定揚(yáng)聲器位置的實(shí)際揚(yáng)聲器饋送信號(hào)。編解碼器400和方法的實(shí)施例也適用于所謂 的"對(duì)象音頻"格式,其中音頻對(duì)象對(duì)應(yīng)于獨(dú)立存儲(chǔ)并伴隨諸如空間位置、增益、均衡、混響、 擴(kuò)散等等的元數(shù)據(jù)信息發(fā)送的區(qū)別聲音信號(hào)。通常,對(duì)象音頻格式將包括需要同時(shí)從編碼 器發(fā)送到解碼器的許多同步的音頻對(duì)象。
[0635] 在數(shù)據(jù)帶寬有限的場(chǎng)景中,由于需要單獨(dú)地編碼每個(gè)區(qū)別音頻對(duì)象波形,因此眾 多同時(shí)音頻對(duì)象的存在會(huì)造成問(wèn)題。在運(yùn)種情況下,編解碼器400和方法的實(shí)施例可適用于 減少需要被編碼的音頻目標(biāo)波形的數(shù)目。例如,如果在基于對(duì)象的信號(hào)中存在N個(gè)音頻對(duì) 象,則編解碼器400和方法的實(shí)施例的下混過(guò)程可被用來(lái)將對(duì)象的數(shù)量減少至M,其中N大于 M。然后,壓縮方案可W編碼那M個(gè)對(duì)象,從而需要比原始N個(gè)對(duì)象將會(huì)需要的數(shù)據(jù)帶寬更小 的數(shù)據(jù)帶寬。
[0636] 在解碼器側(cè),上混處理可被用來(lái)恢復(fù)原始N個(gè)音頻對(duì)象的近似。然后,呈現(xiàn)系統(tǒng)可 W利用伴隨的元數(shù)據(jù)信息將那些音頻對(duì)象呈現(xiàn)成基于聲道的音頻信號(hào),在基于聲道的音頻 信號(hào)中每個(gè)聲道對(duì)應(yīng)于實(shí)際回放環(huán)境中的揚(yáng)聲器位置。例如,常見(jiàn)的呈現(xiàn)方法是基于矢量 的幅度平移或VBAP。
[0637] VI.替代實(shí)施例和示例性操作環(huán)境
[0638] 與本文所述的那些不同的許多其它變體根據(jù)本文檔將是清楚的。例如,依賴于實(shí) 施例,本文所述的任何方法和算法的某些動(dòng)作、事件或功能可W W不同的順序來(lái)執(zhí)行,可W 被添加、合并或完全漏掉(諸如,不是所有描述的動(dòng)作或事件對(duì)于方法和算法的實(shí)踐都是必 須的)。而且,在某些實(shí)施例中,動(dòng)作或事件可W同時(shí)執(zhí)行,諸如通過(guò)多線程處理、中斷處理 來(lái)執(zhí)行或者通過(guò)多個(gè)處理器或處理器核屯、或者在其它并行體系架構(gòu)上,而不是順序地執(zhí) 行。此外,不同的任務(wù)或過(guò)程可W由可W-起發(fā)揮作用的不同機(jī)器和計(jì)算系統(tǒng)來(lái)執(zhí)行。
[0639] 結(jié)合本文公開(kāi)的實(shí)施例描述的各種說(shuō)明性邏輯塊、模塊、方法和算法過(guò)程和序列 可被實(shí)現(xiàn)為電子硬件、計(jì)算機(jī)軟件或兩者的組合。為了清楚地說(shuō)明硬件和軟件的運(yùn)種可互 換性,各種說(shuō)明性部件、塊、模塊和過(guò)程操作已經(jīng)在上面就其功能性一般地進(jìn)行了描述。運(yùn) 種功能被實(shí)現(xiàn)為硬件還是軟件依賴于強(qiáng)加到整個(gè)系統(tǒng)上的特定應(yīng)用和設(shè)計(jì)限制。所描述的 功能可W對(duì)每個(gè)特定的應(yīng)用W不同的方式來(lái)實(shí)現(xiàn),但是運(yùn)種實(shí)現(xiàn)決定不應(yīng)當(dāng)被解釋為造成 從本文檔的范圍的背離。
[0640] 聯(lián)系本文公開(kāi)的實(shí)施例描述的各種說(shuō)明性邏輯塊和模塊可W由機(jī)器實(shí)現(xiàn)或執(zhí)行, 諸如通用處理器、處理設(shè)備、具有一個(gè)或多個(gè)處理設(shè)備的計(jì)算設(shè)備、數(shù)字信號(hào)處理器(DSP)、 專用集成電路(ASIC)、現(xiàn)場(chǎng)可編程口陣列(FPGA)或其它可編程邏輯器件、離散口或晶體管 邏輯、離散硬件部件或者被設(shè)計(jì)為執(zhí)行本文描述的功能的其任意組合。通用處理器和處理 設(shè)備可W是微處理器,但在備選方案中,處理器可W是控制器、微控制器或狀態(tài)機(jī)、它們的 組合,等等。處理器也可W被實(shí)現(xiàn)為諸如DSP和微處理器的組合之類的計(jì)算設(shè)備的組合、多 個(gè)微處理器、與DSP核屯、結(jié)合的一個(gè)或多個(gè)微處理器或者任何其它此類配置。
[0641] 本文描述的基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例可在多種類型 的通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置中進(jìn)行操作。一般而言,計(jì)算環(huán)境可W包括任何類型的 計(jì)算機(jī)系統(tǒng),包括但不限于基于一個(gè)或多個(gè)微處理器的計(jì)算機(jī)系統(tǒng)、大型計(jì)算機(jī)、數(shù)字信號(hào) 處理器、便攜式計(jì)算設(shè)備、個(gè)人組織器、設(shè)備控制器、器具中的計(jì)算引擎、移動(dòng)電話、臺(tái)式計(jì) 算機(jī)、移動(dòng)計(jì)算機(jī)、平板計(jì)算機(jī)、智能電話W及具有嵌入式計(jì)算機(jī)的器具,運(yùn)僅僅是舉了幾 例。
[0642] 運(yùn)種計(jì)算設(shè)備通??蒞在具有至少某個(gè)最小計(jì)算能力的設(shè)備中找到,包括但不限 于個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式計(jì)算設(shè)備、膝上型或移動(dòng)計(jì)算機(jī)、諸如手機(jī)和PDA的通 信設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型 計(jì)算機(jī)、大型計(jì)算機(jī)、音頻或視頻媒體播放器,等等。在一些實(shí)施例中,計(jì)算設(shè)備將包括一個(gè) 或多個(gè)處理器。每個(gè)處理器可W是專用微處理器,諸如數(shù)字信號(hào)處理器(DSP)、非常長(zhǎng)指令 字(VLIW)或其它微控制器,或者可W是具有一個(gè)或多個(gè)處理核屯、的常規(guī)中央處理單元 (CPU),包括多核CPU中基于專用圖形處理單元(GPU)的核屯、。
[0643] 聯(lián)系本文公開(kāi)的實(shí)施例描述的方法、過(guò)程或算法的處理動(dòng)作可W直接體現(xiàn)在硬件 中、在由處理器執(zhí)行的軟件模塊中,或者在運(yùn)兩者的任意組合中。軟件模塊可W包含在能夠 由計(jì)算設(shè)備訪問(wèn)的計(jì)算機(jī)可讀介質(zhì)中。計(jì)算機(jī)可讀介質(zhì)既包括易失性又包括非易失性介 質(zhì),或者是可移動(dòng)的、或者是不可移動(dòng)的,或者是其某種組合。計(jì)算機(jī)可讀介質(zhì)被用來(lái)存儲(chǔ) 信息,諸如計(jì)算機(jī)可讀或計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。作為示例而 非限制,計(jì)算機(jī)可讀介質(zhì)可W包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。
[0644] 計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,計(jì)算機(jī)或機(jī)器可讀介質(zhì)或存儲(chǔ)設(shè)備,諸如藍(lán)光盤(pán) (BD)、數(shù)字多功能盤(pán)(DVD)、壓縮盤(pán)(CD)、軟盤(pán),帶式驅(qū)動(dòng)器、硬驅(qū)、光驅(qū)、固態(tài)存儲(chǔ)器設(shè)備、 RAM存儲(chǔ)器、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、閃速存儲(chǔ)器或其它存儲(chǔ)器技術(shù)、磁帶 盒、磁帶、磁盤(pán)存儲(chǔ)或其它磁存儲(chǔ)設(shè)備,或者可被用來(lái)存儲(chǔ)期望的信息并可被一個(gè)或多個(gè)計(jì) 算設(shè)備訪問(wèn)的任何其它設(shè)備。
[0645] 軟件模塊可W駐留在RAM存儲(chǔ)器、快閃存儲(chǔ)器、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存 儲(chǔ)器、寄存器、硬盤(pán)、可移動(dòng)盤(pán)、CD-ROM,或任何其它形式的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、 媒體,或本領(lǐng)域中已知的物理計(jì)算機(jī)儲(chǔ)存器。示例性存儲(chǔ)介質(zhì)可W禪合到處理器,使得處理 器可W從存儲(chǔ)介質(zhì)讀取信息,并將信息寫(xiě)入到其中。在備選方案中,存儲(chǔ)介質(zhì)可W是處理器 的組成部分。處理器和存儲(chǔ)介質(zhì)可W駐留在專用集成電路(ASIC)中。ASIC可W駐留在用戶 終端中。作為替代,處理器和存儲(chǔ)介質(zhì)可W作為離散元件駐留在用戶終端中。
[0646] 如在本文檔中所使用的,短語(yǔ)"非臨時(shí)性"是指"持久或長(zhǎng)壽的"。短語(yǔ)"非臨時(shí)性計(jì) 算機(jī)可讀介質(zhì)"包括任何和所有計(jì)算機(jī)可讀介質(zhì),具有過(guò)渡性傳播信號(hào)的唯一例外。作為示 例而非限制,運(yùn)包括非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),諸如寄存器存儲(chǔ)器、處理器高速緩存和隨機(jī) 存取存儲(chǔ)器(RAM)。
[0647] 諸如計(jì)算機(jī)可讀或計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊等等信息的保持也可 W通過(guò)使用多種通信介質(zhì)來(lái)編碼一個(gè)或多個(gè)調(diào)制的數(shù)據(jù)信號(hào)、電磁波(諸如載波波)或其它 傳輸機(jī)制或通信協(xié)議,并且包括任何有線或無(wú)線信息輸送機(jī)制。一般而言,運(yùn)些通信介質(zhì)指 的是其一個(gè)或多個(gè)特征W運(yùn)樣一種方式被設(shè)置或改變的信號(hào),使得在信號(hào)中編碼信息或指 令。例如,通信介質(zhì)包括有線介質(zhì),諸如有線網(wǎng)絡(luò)或攜帶一個(gè)或多個(gè)調(diào)制的數(shù)據(jù)信號(hào)的直接 連線連接,W及無(wú)線介質(zhì),諸如聲學(xué)、射頻(RF)、紅外線、激光,W及用于發(fā)送、接收,或兩者 一個(gè)或多個(gè)調(diào)制的數(shù)據(jù)信號(hào)或電磁波的其它無(wú)線介質(zhì)。W上所述的任意組合也應(yīng)當(dāng)包括在 通信介質(zhì)的范圍內(nèi)。
[0648] 另外,體現(xiàn)本文描述的基于多元組的空間矩陣化編解碼器400和方法的各種實(shí)施 例的一個(gè)或任意組合,或者其部分,可W從計(jì)算機(jī)或機(jī)器可讀介質(zhì)或存儲(chǔ)設(shè)備W及形式為 計(jì)算機(jī)可執(zhí)行指令或其它數(shù)據(jù)結(jié)構(gòu)的通信介質(zhì)的任何期望的組合存儲(chǔ)、接收、發(fā)送或讀取。
[0649] 本文描述的基于多元組的空間矩陣化編解碼器400和方法的實(shí)施例可W在由計(jì)算 設(shè)備執(zhí)行的計(jì)算機(jī)可執(zhí)行指令,諸如程序模塊,的一般上下文中進(jìn)一步描述。一般而言,程 序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、部件、數(shù)據(jù)結(jié)構(gòu),等 等。本文描述的實(shí)施例還可W在其中任務(wù)由一個(gè)或多個(gè)遠(yuǎn)程處理設(shè)備執(zhí)行的分布式計(jì)算環(huán) 境中,或者在通過(guò)一個(gè)或多個(gè)通信網(wǎng)絡(luò)鏈接的一個(gè)或多個(gè)設(shè)備的云,當(dāng)中實(shí)踐。在分布式計(jì) 算環(huán)境中,程序模塊可W位于包括介質(zhì)存儲(chǔ)設(shè)備的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。更進(jìn)一 步,上述指令可W部分或全部地被實(shí)現(xiàn)為硬件邏輯電路,其可W或可W不包括處理器。
[0650] 除非另有說(shuō)明或者如所使用的W其它方式在上下文中被理解,否則本文所使用的 條件性語(yǔ)言,諸如除其它之外還有"能夠"、"可能"、"可、"例如"等,一般意在傳達(dá)某些實(shí) 施例包括,而其它實(shí)施例不包括,某些特征、元件和/或狀態(tài)。因此,運(yùn)種條件語(yǔ)言一般不意 在暗示特征、元件和/或狀態(tài)W任何方式是一個(gè)或多個(gè)實(shí)施例所需的或者一個(gè)或多個(gè)實(shí)施 例必需包括用于在有或沒(méi)有作者輸入或提示的情況下決定運(yùn)些特征、元件和/或狀態(tài)包括 在或者要在任何特定實(shí)施例中執(zhí)行的邏輯。術(shù)語(yǔ)"包括"、"具有"等是同義的并且W開(kāi)放的 方式被包含性地使用,并且不排除附加的元件、特征、動(dòng)作、操作,等等。而且,術(shù)語(yǔ)"或者"是 在其包含的意義上(而不是在其排他的意義上)使用的,使得在用于,例如,連接元件的列表 時(shí),術(shù)語(yǔ)"或"是指列表中的一個(gè)、一些或所有元素。
[0651] 雖然W上詳細(xì)描述已經(jīng)示出、描述并指出了如應(yīng)用到各種實(shí)施例的新穎特征,但 是應(yīng)當(dāng)理解,在不背離本公開(kāi)內(nèi)容的精神的情況下,可W進(jìn)行所示出的設(shè)備或算法的形式 和細(xì)節(jié)的各種省略、替換和變化。如將認(rèn)識(shí)到的,本文描述的本發(fā)明的某些實(shí)施例可W在不 提供本文闡述的所述特征和優(yōu)點(diǎn)的形式中體現(xiàn),因?yàn)橐恍┨卣骺蒞與其它特征分開(kāi)使用或 實(shí)踐。
[0652]而且,雖然本主題已經(jīng)在特定于結(jié)構(gòu)特征和方法動(dòng)作的語(yǔ)言中進(jìn)行了描述,但是 應(yīng)當(dāng)理解,在所附權(quán)利要求書(shū)中定義的主題不必限于上述具體特征或動(dòng)作。相反,上述具體 特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求書(shū)的示例形式被公開(kāi)的。
【主權(quán)項(xiàng)】
1. 一種由一個(gè)或多個(gè)處理設(shè)備執(zhí)行的用于發(fā)送具有N個(gè)聲道的輸入音頻信號(hào)的方法, 包括: 基于期望的位速率選擇用于下混的輸出音頻信號(hào)的Μ個(gè)聲道,其中N和Μ是非零正整數(shù) 并且Ν大于Μ; 利用一個(gè)或多個(gè)處理設(shè)備W及多元組平移法則的組合將Ν個(gè)聲道下混并編碼成Μ個(gè)聲 道W獲得包含Μ個(gè)多元組編碼的聲道的脈碼調(diào)制PCM聲床混合; W等于或低于期望的位速率的位速率發(fā)送PCM聲床混合; 分離多個(gè)Μ個(gè)多元組編碼的聲道; 利用一個(gè)或多個(gè)處理設(shè)備W及多元組平移法則的組合上混并解碼Μ個(gè)多元組編碼的聲 道中的每一個(gè)W從Μ個(gè)多元組編碼的聲道提取Ν個(gè)聲道并獲得具有Ν個(gè)聲道的結(jié)果輸出音頻 信號(hào);W及 在具有回放聲道布局的回放環(huán)境中呈現(xiàn)結(jié)果輸出音頻信號(hào)。2. 如權(quán)利要求1所述的方法,其中下混和編碼進(jìn)一步包括使用四元組平移法則將Ν個(gè)聲 道中的一個(gè)下混并編碼到Μ個(gè)聲道中的四個(gè)上W獲得四元組編碼的聲道。3. 如權(quán)利要求1所述的方法,其中下混和編碼進(jìn)一步包括使用四元組平移法則將Ν個(gè)聲 道中的一個(gè)下混和編碼到Μ個(gè)聲道中的四個(gè)上W獲得四元組編碼的聲道,結(jié)合使用Ξ元組 平移法則將Ν個(gè)聲道中的一個(gè)下混并編碼到Μ個(gè)聲道中的Ξ個(gè)上W獲得Ξ元組編碼的聲道。4. 如權(quán)利要求3所述的方法,其中在四元組編碼的聲道中使用的四個(gè)Μ個(gè)聲道中的至少 一些與在Ξ元組編碼的聲道中使用的Ξ個(gè)Μ個(gè)聲道相同。5. 如權(quán)利要求1所述的方法,還包括: 在具有內(nèi)容創(chuàng)建環(huán)境聲道布局的內(nèi)容創(chuàng)建環(huán)境中混合音頻內(nèi)容;W及 將內(nèi)容創(chuàng)建環(huán)境聲道布局和包含Μ個(gè)多元組編碼的聲道的PCM聲床混合多路復(fù)用到位 流中并且W等于或低于期望的位速率的位速率發(fā)送該位流。6. 如權(quán)利要求1所述的方法,還包括: 分類輸入音頻信號(hào)的Ν個(gè)聲道的內(nèi)容創(chuàng)建環(huán)境聲道布局W獲得用于內(nèi)容創(chuàng)建環(huán)境聲道 布局的分類;W及 基于分類和查找表將提取出的多元組編碼的聲道映射到回放聲道布局。7. 如權(quán)利要求6所述的方法,還包括將內(nèi)容創(chuàng)建環(huán)境聲道布局分類成W下五類中的一 個(gè)或多個(gè):(a)沒(méi)有高度聲道的布局;(b)僅在前面具有高度聲道的布局;(C)具有包圍高度 聲道的布局;(d)具有包圍高度聲道和頭頂聲道的布局;(e)具有包圍高度聲道、頭頂聲道和 收聽(tīng)者耳朵的平面之下的聲道的布局。8. 如權(quán)利要求1所述的方法,還包括利用W下特性選擇M,其中,MinBR_Mtrx是矩陣化的聲道編碼所需的每聲道的最小位速率,BR_Tot是總的可 用位速率,并且MinBR_Discr是離散聲道編碼所需的每聲道的最小位速率。9. 如權(quán)利要求1所述的方法,還包括W輸入響度與輸出響度之比來(lái)縮放Μ個(gè)聲道中的每 一個(gè)W實(shí)現(xiàn)響度規(guī)格化。10. 如權(quán)利要求9所述的方法,其中響度規(guī)格化是每聲道響度規(guī)格化,并且還包括: 將給定的輸出聲道定義為yi[n]; 將每聲道響度規(guī)格化定義為 ji [n]=di[n] · yi[n] 其中di[n]是依聲道而定的增益,給出如下并且LU)是響度估計(jì)函數(shù)。11. 如權(quán)利要求10所述的方法,其中響度規(guī)格化也是總響度規(guī)格化,并且還包括: 將總響度規(guī)格化定義為: yi"[n]=g[n] · yi' [η] 其中g(shù)[n]是獨(dú)立于聲道的增益,給出如下12. -種由計(jì)算設(shè)備執(zhí)行的用于矩陣下混具有N個(gè)聲道的音頻信號(hào)的方法,包括: 選擇N個(gè)聲道中哪些是存留聲道W及哪些是非存留聲道W使得存留聲道總共是Μ個(gè)聲 道,其中Ν和Μ是非零正整數(shù)并且Ν大于Μ; 利用計(jì)算設(shè)備和多元組平移法則將非存留聲道中的每個(gè)下混到存留聲道的多元組上 W獲得平移權(quán)重,下混進(jìn)一步包括: 利用二元組平移法則將一些非存留聲道下混到存留聲道二元組上; 利用Ξ元組平移法則將一些非存留聲道下混到存留聲道Ξ元組上; 利用四元組平移法則將一些非存留聲道下混到存留聲道四元組上;及 將存留聲道二元組、Ξ元組和四元組編碼并多路復(fù)用到具有Μ個(gè)聲道的位流中并且發(fā) 送該位流W供在回放環(huán)境中呈現(xiàn)。13. 如權(quán)利要求12所述的方法,其中四元組平移權(quán)重是基于W下項(xiàng)生成的:(a)信號(hào)源S 距離回放環(huán)境中的原點(diǎn)的距離r;和(b)信號(hào)源S在存留聲道四元組中的第一聲道和第二聲 道之間的角度9。14. 如權(quán)利要求13所述的方法,還包括利用W下等式生成用于存留聲道四元組Ci,C2,C3 和C4的平移權(quán)重:15. -種由計(jì)算設(shè)備執(zhí)行的用于矩陣上混具有Μ個(gè)聲道的音頻信號(hào)的方法,包括: 將Μ個(gè)聲道分離成二元組聲道、Ξ元組聲道和四元組聲道; 利用計(jì)算設(shè)備和四元組平移法則從四元組聲道提取第一聲道; 在提取第一聲道之后,利用Ξ元組平移法則從Ξ元組聲道提取第二聲道; 在提取第二聲道之后,利用二元組平移法則從二元組聲道提取第Ξ聲道; 將第一聲道、第二聲道、第Ξ聲道和Μ個(gè)聲道多路復(fù)用到一起W獲得具有Ν個(gè)聲道的輸 出信號(hào);W及 在回放環(huán)境中呈現(xiàn)輸出信號(hào)。16. 如權(quán)利要求15所述的方法,其中提取第一聲道進(jìn)一步包括獲得第一聲道作為四元 組聲道的四個(gè)聲道的和,每個(gè)聲道由系數(shù)加權(quán)。17. 如權(quán)利要求16所述的方法,還包括利用W下等式獲得第一聲道C5, C己=aCi+bC2+cC3+dC4 其中a、b、c和d系數(shù)由W下等式給出,其中!是C5在Cl和C2之間的估計(jì)角度,并且f是C5距離回放環(huán)境中的原點(diǎn)的距離。18. 如權(quán)利要求15所述的方法,還包括: 定義回放環(huán)境中收聽(tīng)者周圍的假想單位球體,其中收聽(tīng)者處于該單位球體的中屯、; 在該單位球體上定義假想的球面坐標(biāo)系,包括半徑距離r、方位角q和極角j; W及 將第一聲道重新平移到該單位球體內(nèi)的位置。19. 如權(quán)利要求18所述的方法,還包括: 利用呈現(xiàn)技術(shù)在單位球體上定位第一聲道;W及 利用回放環(huán)境中的所有揚(yáng)聲器關(guān)于位于單位球體中屯、的源使第一聲道交叉衰落W便 沿著徑向距離r拉入第一聲道。20. 如權(quán)利要求15所述的方法,還包括從音頻信號(hào)中提取闡述被用來(lái)混合在音頻信號(hào) 中編碼的音頻內(nèi)容的揚(yáng)聲器布局的內(nèi)容創(chuàng)建環(huán)境揚(yáng)聲器布局。
【文檔編號(hào)】H04S3/02GK105981411SQ201480072584
【公開(kāi)日】2016年9月28日
【申請(qǐng)日】2014年11月26日
【發(fā)明人】J·湯普森, Z·菲左
【申請(qǐng)人】Dts(英屬維爾京群島)有限公司