采用再混音能力增強音頻的制作方法

文檔序號：2830464閱讀：433來源：國知局

專利名稱：采用再混音能力增強音頻的制作方法
技術領域：
本申請的主題一般涉及音頻信號處理。
背景許多消費音頻設備(例如，立體聲、媒體播放器、移動電話、游戲控制臺等)允許用戶使用對均衡(例如，低音、高音)、音量、聲室效應等的控制來修改立體聲音頻信號。然而這些修改是應用于整個音頻信號而不是組成該音頻信號的個別音頻對象(例如，樂器)的。例如，用戶不能在不影響整首歌曲的前提下個別地修改歌曲中吉它、鼓聲或唱音的立體聲移位(panning)或增益。
已經提出在解碼器處提供混音靈活性的技術。這些技術依賴于兩耳線索編碼(BCC)、參數(shù)或空間音頻解碼器來生成混音解碼器輸出信號。然而這些技術中沒有一個直接編碼立體聲混音(例如，經專業(yè)混音的音樂)以允許后向兼容性而不折損音質。
已經提出空間音頻編碼技術用于使用聲道間線索(例如，能級差、時間差、相位差、相干性)來表示立體聲或多聲道音頻聲道。聲道間線索作為“輔助信息”被傳送給解碼器以用來生成多聲道輸出信號。然而，這些常規(guī)空間音頻編碼技術具有若干缺陷。例如，這些技術中的至少一部分要求向解碼器傳送每個音頻對象的單獨信號，即使該音頻對象在解碼器處將不作修改。這種要求導致編碼器和解碼器處不必要的處理。另一缺陷是對或者立體聲(或多聲道)音頻信號或音頻源信號的編碼器輸入的限制，從而導致解碼器處再混音的靈活性降低。最后，這些常規(guī)技術中的至少一部分要求解碼器處復雜的解相關處理，使得這些技術不適于一些應用或設備。
概要可修改與立體聲或多聲道音頻信號的一個或多個對象(例如，樂器)相關聯(lián)的一個或多個屬性(例如，移位、增益等)以提供再混音能力。
在一些實現(xiàn)中，一種方法包括獲取具有對象集的第一多聲道音頻信號；獲得輔助信息，該輔助信息的至少部分表示第一多聲道音頻信號與表示要被再混音的對象的一個或多個源信號之間的關系；獲取混音參數(shù)集；以及使用輔助信息和混音參數(shù)集生成第二多聲道音頻信號。
在一些實現(xiàn)中，一種方法包括獲取具有對象集的音頻信號；獲取表示對象的子集的源信號子集；以及從源信號子集生成輔助信息，該輔助信息的至少部分表示音頻信號與源信號子集之間的關系。
在一些實現(xiàn)中，一種方法包括獲取多聲道音頻信號；使用表示源信號集在音場上的所需聲向的所需源能級差來確定源信號集的增益因子；使用該多聲道音頻信號來估計源信號集的直達聲向的子帶功率；以及通過修改作為直達聲向和所需聲向的函數(shù)直達聲向的子帶功率來估計該源信號集中至少部分源信號的子帶功率。
在一些實現(xiàn)中，一種方法包括獲取混音音頻信號；獲取用于對混音音頻信號再混音的混音參數(shù)集；如果輔助信息可用，則使用輔助信息和混音參數(shù)集對混音音頻信號再混音；如果輔助信息不可用，則從混音音頻信號生成盲參數(shù)集；以及使用這些盲參數(shù)和混音參數(shù)集生成再混音音頻信號。
在一些實現(xiàn)中，一種方法包括獲取包括語音源信號的混音音頻信號；獲取指定對語音源信號中一個或多個進行所需增強的混音參數(shù)；從混音音頻信號生成盲參數(shù)集；從盲參數(shù)和所述混音參數(shù)生成參數(shù)；以及向混音信號應用這些參數(shù)以根據混音參數(shù)增強這一個或多個語音源信號。
在一些實現(xiàn)中，一種方法包括生成用于接收指定混音參數(shù)的輸入的用戶界面；通過用戶界面獲取混音參數(shù)；獲得包括源信號的第一音頻信號；獲取輔助信息，該輔助信息的至少一部分表示第一音頻信號與一個或多個源信號之間的關系；以及使用輔助信息和混音參數(shù)對這一個或多個源信號再混音以生成第二音頻信號。
在一些實現(xiàn)中，一種方法包括獲取具有對象集的第一多聲道音頻信號；獲取輔助信息，該輔助信息的至少一部分表示第一多聲道音頻信號與表示要被再混音的對象子集的一個或多個源信號之間的關系；獲取混音參數(shù)集；以及使用輔助信息和混音參數(shù)集生成第二多聲道音頻信號。
在一些實現(xiàn)中，一種方法包括獲取混音音頻信號；獲取用于對混音音頻信號再混音的混音參數(shù)集；使用混音音頻信號和混音參數(shù)集生成再混音參數(shù)；以及通過使用n×n矩陣將再混音參數(shù)應用于混音音頻信號來生成再混音音頻信號。
公開了用于以再混音能力增強音頻的其它實現(xiàn)，包括針對系統(tǒng)、方法、裝置、計算機可讀介質和用戶界面的實現(xiàn)。
附圖描述

圖1A是用于編碼要在解碼器處再混音的立體聲信號加對應各對象的M個源信號的編碼系統(tǒng)的實現(xiàn)的框圖。
圖1B是用于編碼要在解碼器處再混音的立體聲信號加對應各對象的M個源信號的過程的實現(xiàn)的流程圖。
圖2示出用于分析和處理立體聲信號和M個源信號的時-頻圖形表示。
圖3A是用于使用原始立體聲信號加輔助信息估計再混音的立體聲信號的再混音系統(tǒng)的實現(xiàn)的框圖。
圖3B是用于使用圖3A的再混音系統(tǒng)估計經再混音的立體聲信號的過程的實現(xiàn)的流程圖。
圖4示出屬于索引為b的分區(qū)的短時傅立葉變換(STFT)系數(shù)的索引i。
圖5示出將均勻STFT譜的譜系數(shù)分組以模擬人體聽覺系統(tǒng)的不均勻頻率分辨率。
圖6A是圖1中編碼系統(tǒng)與常規(guī)立體聲音頻編碼器相組合的實現(xiàn)的框圖。
圖6B是使用圖1中的編碼系統(tǒng)與常規(guī)立體聲音頻編碼器相組合的編碼過程的實現(xiàn)的流程圖。
圖7A是圖3A的再混音系統(tǒng)與常規(guī)立體聲音頻解碼器相組合的實現(xiàn)的框圖。
圖7B是使用與立體聲音頻解碼器相組合的圖7A中再混音系統(tǒng)的再混音過程的實現(xiàn)的流程圖。
圖8A是實現(xiàn)全盲輔助信息生成的編碼系統(tǒng)的實現(xiàn)的框圖。
圖8B是使用圖8A中編碼系統(tǒng)的編碼過程的實現(xiàn)的流程圖。
圖9示出用于合需源能級差Li＝L dB的示例增益函數(shù)f(M)。
圖10是使用部分盲生成技術的輔助信息生成過程的實現(xiàn)的示圖。
圖11是用于向具有再混音能力的音頻設備提供立體聲信號和M個源信號和/或輔助信息的客戶機/服務器架構的實現(xiàn)的框圖。
圖12示出具有再混音能力的媒體播放器的用戶界面的實現(xiàn)。
圖13示出將空間音頻對象(SAOC)解碼和再混音解碼相組合的解碼系統(tǒng)的實現(xiàn)。
圖14A示出個別對話音量(SDV)的一般混音模型。
圖14B示出將SDV和再混音技術相組合的系統(tǒng)的實現(xiàn)。
圖15示出圖14B中所示的均衡-混音渲染器的實現(xiàn)。
圖16示出參照圖1-15所述的再混音技術的分發(fā)系統(tǒng)的實現(xiàn)。
圖17A示出用于提供再混音信息的各種比特流實現(xiàn)的要素。
圖17B示出用于生成圖17A中所示的比特流的再混音編碼器接口的實現(xiàn)。
圖17C示出用于接收由圖17B中所示的編碼器接口生成的比特流的再混音解碼器接口的實現(xiàn)。
圖18是包括用于生成特定對象信號的附加輔助信息以提供經改善的再混音性能的擴展的系統(tǒng)的實現(xiàn)的框圖。
圖19是圖18中所示的再混音渲染器的實現(xiàn)的框圖。
具體描述 I.再混音立體聲信號圖1A是用于編碼要在解碼器處再混音的立體聲信號加對應各對象的M個源信號的編碼系統(tǒng)100的實現(xiàn)的框圖。在一些實現(xiàn)中，編碼系統(tǒng)100一般包括濾波器編組陣列102、輔助信息生成器104以及編碼器106。
A.原始及所需的再混音信號時間離散立體聲音頻信號的兩個聲道被標示為

和

其中n是時間索引。假定該立體聲信號可被表示為其中I是該立體聲信號(例如，MP3)中所包含的源信號(例如，樂器)的數(shù)目，而

是源信號。因子ai和bi確定每個源信號的增益和振幅移位。假定所有源信號是相互獨立的。源信號可能不全是純源信號。相反，這些源信號中的一部分也可包含混響和/或其它音效信號分量。在一些實現(xiàn)中，在[1]中延遲di可被引入到原始混合音頻信號中以幫助與再混音參數(shù)的時間對準在一些實現(xiàn)中，編碼系統(tǒng)100提供或生成用于修改原始立體聲音頻信號(下文也被稱為“立體聲信號”)以使得M個源信號以不同的增益因子被“再混音”到該立體聲信號中的信息(下文也被稱為“輔助信息”)。該所需的經修改的立體聲信號可被表示為其中ci和di是要被再混音的M個源信號(即，具有索引1、2、...、M的源信號)的新增益因子(下文也被稱為“混音增益”或“混音參數(shù)”)。
編碼系統(tǒng)100的目標是在僅給定原始立體聲信號和少量輔助信息(例如，與該立體聲信號波形中所含的信息相比較小)的情況下提供或生成用于再混音立體聲信號的信息。編碼系統(tǒng)100所提供或生成的這種輔助信息可被用于解碼器中以在[1]的給定原始立體聲信號下感性地模擬[2]的所需經修改的立體聲信號。采用該編碼系統(tǒng)100，輔助信息生成器204生成用于將原始立體聲信號再混音的輔助信息，而解碼器系統(tǒng)300(圖3A)使用該輔助信息和原始立體聲信號生成所需的再混音立體聲音頻信號。
B.編碼器處理再次參照圖1A，原始立體聲信號和M個源信號作為輸入被提供給濾波器編組陣列102。原始立體聲信號也被直接從編碼器102輸出。在一些實現(xiàn)中，直接從編碼器102輸出的立體聲信號可被延遲以與輔助信息比特流同步。在其它實現(xiàn)中，立體聲信號輸出可在解碼器處與輔助信息同步。在一些實現(xiàn)中，編碼系統(tǒng)100因變于時間和頻率來適應性修改信號統(tǒng)計數(shù)據。因此，為了分析和合成，該立體聲信號和M個源信號以時-頻表示的形式處理，如參照圖4和5所述。
圖1B是用于編碼要在解碼器處再混音的立體聲信號加對應各對象的M個源信號的過程108的實現(xiàn)的流程圖。輸入立體聲信號和M個源信號被分解成數(shù)個子帶(110)。在一些實現(xiàn)中，該分解是用濾波器編組陣列來實現(xiàn)的。對于每個子帶，如下更全面地描述的對這M個源信號估計增益因子(112)。對于每個子帶，如下所述地對這M個源信號計算出短時功率估計(114)。估計出的增益因子和子帶功率可被量化并編碼以生成輔助信息(116)。
圖2示出用于分析和處理立體聲信號和M個源信號的時-頻圖形表示。該圖形的y軸表示頻率且被劃分為多個不均勻子帶202。x軸表示時間且被劃分為多個時隙204。圖2中每個虛線框表示相應的子帶和時隙對。因此，對于給定的時隙204，對應時隙204的一個或多個子帶202可作為組206來處理。在一些實現(xiàn)中，子帶202的寬度是基于與人體聽覺系統(tǒng)相關聯(lián)的感知限度來選擇的，如參照圖4和5所述。
在一些實現(xiàn)中，輸入立體聲信號和M個輸入源信號被濾波器編組陣列102分解成多個子帶202。每個中心頻率處的子帶202可類似地進行處理。在特定頻率上的立體聲音頻輸入信號的子帶對被標示為x1(k)和x2(k)，其中k是子帶信號的下采樣時間索引。類似地，M個輸入源信號的對應子帶信號被標示為s1(k)、s2(k)、...、sM(k)。注意，為了簡單標記起見，在該示例中已省略各子帶的索引。參照下采樣，為了效率可使用具有較低采樣率的子帶信號。通常濾波器編組和STFT實際具有欠采樣信號(或譜系數(shù))。
在一些實現(xiàn)中，用于再混音索引為i的源信號所必需的輔助信息包括增益因子ai和bi，以及每個子帶中因變于時間的子帶信號的功率估計E{si2(k)}。增益因子ai和bi可被給出(如果已知該立體聲信號的知識)或估計出。對于許多立體聲信號，ai和bi是靜態(tài)的。如果ai和bi因變于時間k而變化，則這些增益因子可因變于時間作出估計。并不必要使用子帶功率的平均或估計來生成輔助信息。相反，在一些實現(xiàn)中可使用實際子帶功率Si2作為功率估計。
在一些實現(xiàn)中，可使用單極點平均化來估計短時子帶功率，其中E{si2(k)}可被計算為其中a∈
決定指數(shù)衰減估計窗的時間常數(shù)，且fs標示子帶采樣頻率。T的適當值可以是例如40毫秒。在以下等式中，E{.}一般標示短時平均化。
在一些實現(xiàn)中，輔助信息ai和bi以及E{si2(k)}中的部分或全部可在與立體聲信號相同的介質上提供。例如，音樂發(fā)行商、錄音工作室、錄音藝術家等可在壓縮盤(CD)、數(shù)字視頻盤(DVD)、閃存驅動等上提供輔助信息與相應立體聲信號。在一些實現(xiàn)中，部分或全部輔助信息可通過將輔助信息嵌入立體聲信號的比特流中或在單獨比特流中傳送輔助信息來在網絡(例如，因特網、以太網、無線網絡)上提供。
如果ai和bi沒有給出，則可以估計出這些因子。由于

ai可被計算為類似地，bi可被計算為如果ai和bi是時間自適應的，則E{.}運算符表示短時平均化運算。另一方面，如果增益因子ai和bi是靜態(tài)的，則增益因子可通過考慮整體立體聲信號來計算出。在一些實現(xiàn)中，對于每個子帶可獨立地估計出ai和bi。注意，在[5]和[6]中，源信號si是獨立的，但一般而言源信號si與立體聲聲道x1和x2不是獨立的，因為si被包含在立體聲聲道x1和x2中。
在一些實現(xiàn)中，每個子帶的短時功率估計和增益因子被量化并由編碼器106編碼以形成輔助信息(例如，低比特率比特流)。注意，這些值可以不直接量化和編碼，而是可首先被轉換成更適合量化和編碼的其它值，如參照圖4和5所述。在一些實現(xiàn)中，當使用常規(guī)音頻編碼器來高效地編碼該立體聲音頻信號時，E{si2(k)}可相對于輸入立體聲音頻信號的子帶功率被歸一化，從而使得編碼系統(tǒng)100相對于變化較為穩(wěn)健，如參照圖6-7所述。
C.解碼器處理圖3A是用于使用原始立體聲信號加輔助信息來估計再混音立體聲信號的再混音系統(tǒng)300的實現(xiàn)的框圖。在一些實現(xiàn)中，該再混音系統(tǒng)300一般包括濾波器編組陣列302、解碼器304、再混音模塊306以及逆濾波器編組陣列308。
再混音立體聲信號的估計可在數(shù)個子帶中獨立地執(zhí)行。輔助信息包括子帶功率E{si2(k)}與增益因子ai和bi-M個源信號以這些因子被包含在立體聲信號中。所需再混音立體聲信號的新增益因子或混音增益由ci和di表示?；煲粼鲆鎐i和di可由用戶通過音頻設備的用戶界面指定，諸如參照圖12所述的。
在一些實現(xiàn)中，輸入立體聲信號被濾波器編組陣列302分解成多個子帶，其中特定頻率上的子帶對被標示為x1(k)和x2(k)。如圖3A中所示，輔助信息被解碼器304解碼，從而針對要再混音的M個源信號的每一個生成包含在輸入立體聲信號中的增益因子ai和bi以及針對每個子帶的功率估計E{si2(k)}。輔助信息的解碼參照圖4和5更具體地進行描述。
給定輔助信息，再混音立體聲信號的相應子帶對可由再混音模塊306估計為該再混音立體聲信號的混音因子ci和di的函數(shù)。逆濾波器編組陣列308被應用于估計出的子帶對以提供再混音時域立體聲信號。
圖3B是使用圖3A的再混音系統(tǒng)來估計再混音立體聲的再混音過程310的實現(xiàn)的流程圖。輸入立體聲信號被分解成多個子帶對(312)。為這些子帶對解碼輔助信息(314)。各子帶對使用輔助信息和混音增益進行再混音(318)。在一些實現(xiàn)中，混音增益是由用戶提供的，如參照圖12所述。或者，混音增益可由應用、操作系統(tǒng)等程序化地提供?；煲粼鲆孢€可通過網絡(例如，因特網、以太網、無線網絡)來提供，如參照圖11所述。
D.再混音過程在一些實現(xiàn)中，再混音立體聲信號可使用最小均方估計在數(shù)學意義上進行近似。任選地，可使用感知因素來修正該估計。
式[1]和[2]分別對于子帶對x1(k)和x2(k)、以及y1(k)和y2(k)仍成立。在這種情形下，源信號用源子帶信號si(k)來代替。
立體聲信號的子帶對由下式給出且再混音立體聲信號的子帶對為給定原始立體聲信號的子帶對x1(k)和x2(k)，具有不同增益的立體聲信號的子帶對被估計為原始左右立體聲子帶對的線性組合，其中w11(k)、w12(k)、w21(k)以及w22(k)是實數(shù)值加權因子。
估計誤差被定義如下可計算出每個頻率上子帶在每個時刻k的權重w11(k)、w12(k)、w21(k)以及w22(k)，以使得均方誤差E{e12(k)}和E{e22(k)}被最小化。為了計算w11(k)和w12(k)，注意到當誤差e1(k)與x1(k)和x2(k)正交時E{e12(k)}被最小化，即 E{(y1-w11x1-w12x2)x1}＝0 E{(y1-w11x1-w12x2)x2}＝0.(11) 注意，為了標記方便起見略去了時間索引k。
重寫這些方程得到增益因子是該線性方程系的解當在給定解碼器輸入立體聲信號子帶對的情況下可直接估計出E{x12}、E{x22}以及E{x1x2}時，E{x1y1}和E{x2y2}可使用輔助信息(E{s12}、ai、bi)以及所需的再混音立體聲信號的混音增益ci和di估計出類似地，可計算w21(k)和w22(k)，得到且當左右子帶信號相干或者接近相干時，即當接近1時，則權重的解是不唯一或病態(tài)的。因此，如果φ大于特定閾值(例如，0.95)，則權重是如以下計算出的， w12＝w21＝0，在φ＝1的假設下，等式[18]是滿足[12]和其它兩個權重的類似正交性方程系的不唯一解之一。注意，[17]中的相干性被用來判斷x1和x2彼此的相似程度。如果相干性為0，則x1和x2彼此獨立。如果相干性為1，則x1和x2是相似的(但可能有不同的能級)。如果x1和x2非常相似(相干性接近1)，則兩個聲道Wiener計算(四個權重計算)是病態(tài)的。該閾值的示例范圍是約0.4到約1.0。
通過將計算出的子帶信號轉換到時域獲得的結果再混音立體聲信號聽起來與將真實地用不同混音增益ci和di混音的立體聲信號(在下文該信號被標示為“所需信號”)相類似。一方面，在數(shù)學上這要求計算出的子帶信號與真實不同地混音的子帶信號相類似。在一定程度上就是這種情形。由于估計是在感知促動的子帶域中執(zhí)行的，因此對相似度的要求沒有那么強。只要感知相關定位線索(例如，能級差和相干性線索)充分相似，計算出的再混音立體聲信號將聽起來與所需信號相似。
E.任選能級差線索的調節(jié) 在一些實現(xiàn)中，如果使用本文所述的處理，可獲得良好結果。然而，為了確保重要的能級差定位線索與所需信號的能級差線索緊密相似，可應用對子帶的后定標以“調節(jié)”能級差線索來確保它們與所需信號的能級差線索相匹配。
為了修正[9]中最小平方子帶信號估計，考慮子帶功率。如果該子帶功率正確，則重要空間線索能級差也將正確。所需信號[8]左子帶功率為且來自[9]的估計的子帶功率為因此，為了讓

具有和y1(k)相同的功率，必須將其乘以類似地，

被乘以以具有和所需子帶信號y2(k)相同的功率。
II.輔助信息的量化和編碼 A.編碼如先前小節(jié)中所述，用于再混音索引為i的源信號所必需的輔助信息是因子ai和bi，以及每個子帶中因變于時間的功率E{s12(k)}。在一些實現(xiàn)中，增益因子ai和bi的相應增益和能級差值可以dB計算如下在一些實現(xiàn)中，增益和能級差值被量化并經霍夫曼編碼。例如，可分別使用具有2dB量化器步長大小的均勻量化器和一維霍夫曼編碼器來量化和編碼?？墒褂闷渌阎牧炕骱途幋a器(例如，向量量化器)。
如果ai和bi具有時間不變性，且假定輔助信息可靠地到達解碼器處，則相應的經編碼的值僅需要傳送一次。否則，可以定期時間間隔或響應于觸發(fā)器事件(例如，每當經編碼的值改變時)來傳送ai和bi。
為了對立體聲信號的定標以及由于立體聲信號的編碼而造成的功率損耗/增益具有穩(wěn)健性，在一些實現(xiàn)中子帶功率E{s12(k)}并不直接被編碼為輔助信息。相反，可使用關于立體聲信號定義的度量使用相同估計窗/時間常數(shù)來計算各種信號的E{.}會是有利的。將輔助信息定義為相對功率值[24]的一個優(yōu)勢在于可根據需要在解碼器處使用與在編碼器處不同的估計窗/時間常數(shù)。同時，輔助信息與立體聲信號之間的時間失配的效應與源功率將作為絕對值傳送時的情形相比被降低。為了量化和編碼Ai(k)，在一些實現(xiàn)中使用步長大小例如為2dB的均勻量化器以及一維霍夫曼編碼器。結果比特率可以小到每要再混音的音頻對象約3kb/s(千比特每秒)。
在一些實現(xiàn)中，當對應于要在解碼器處被再混音的對象的輸入源信號為靜默時能夠降低比特率。編碼器的編碼模式可檢測到該靜默對象，并隨后向解碼器傳送指示該對象靜默的信息(例如，每幀單個比特)。
B.解碼給定經霍夫曼解碼(量化)的值[23]和[24]，用于再混音所需的值可被計算如下 18 III.實現(xiàn)細節(jié) A.時-頻處理在一些實現(xiàn)中，基于STFT(短期傅立葉變換)的處理被用于參照圖1-3所述的編碼/解碼系統(tǒng)?？墒褂闷渌鼤r-頻變換來實現(xiàn)所需結果，包括但并不限于正交鏡像濾波(QMF)濾波器編組、修正離散余弦變換(MDCT)、小波濾波器編組等。
為了分析處理(例如，前向濾波器編組操作)，在一些實現(xiàn)中，N個樣本的幀在被應用N點離散傅立葉變換(DFT)或快速傅立葉變換(FFT)之前可被乘以窗口。在一些實現(xiàn)中，可使用以下正弦窗
如果處理塊大小與DFT/FFT大小不同，則在一些實現(xiàn)中可使用0填充來實際具有小于N的窗口。所述分析處理可以例如每N/2個樣本(等于窗口跳躍大小)地重復，從而得到50％的窗口重疊。也可使用其它窗口函數(shù)和百分比重疊以實現(xiàn)所需結果。
為了從STFT譜域變換到時域，可向譜應用逆DFT或FFT。得到的結果被再次乘以[26]中所述的窗口，并且與窗口相乘得到的相鄰信號塊被組合并加上重疊以獲得連續(xù)時域信號。
在一些情形下，STFT的均勻譜分辨率可能不能較好地適應人體感知。在這種情形下，與個別地處理每個STFT頻率系數(shù)相反，可將STFT系數(shù)“分組”以使得一個組具有等效矩形帶寬(ERB)近兩倍的帶寬，這是空間音頻處理的合適頻率分辨率。
圖4示出STFT系數(shù)當中屬于索引為b的分區(qū)的索引i。在一些實現(xiàn)中，僅考慮譜的前N/2+1個譜系數(shù)，因為譜是對稱的。STFT系數(shù)當中屬于索引為b的分區(qū)的索引為i∈{Ab-1，Ab-1+1，...，Ab}，其中A0＝0，如圖4所示。由各分區(qū)的譜系數(shù)表示的信號對應于編碼系統(tǒng)所使用的感知驅動子帶分解。因此，在每個這種分區(qū)內，所述處理被聯(lián)合應用于該分區(qū)內的STFT系數(shù)。
圖5示例性地示出對均勻STFT譜的譜系數(shù)的分組以模擬人體聽覺系統(tǒng)的非均勻頻率分辨率。在圖5中，對應采樣率為44.1kHz的N＝1024以及分區(qū)數(shù)目B＝20，其中每個分區(qū)具有近似2ERB的帶寬。注意，由于奈奎斯特頻率上的截止，最后一個分區(qū)小于兩個ERB。
B.統(tǒng)計數(shù)據的估計給定兩個STFT系數(shù)xi(k)和xj(k)，可迭代地估計用于計算再混音立體聲音頻信號所需的值E{xi(k)xj(k)。在該情形下，子帶采樣頻率fs是在其上計算STFT譜的瞬時頻率。為了獲得每個感知分區(qū)(而不是每個STFT系數(shù))的估計，估計值可在被進一步使用之前在分區(qū)內進行平均。
先前小節(jié)中所述的處理可被應用于每個分區(qū)，就像該分區(qū)是一個子帶一樣。可使用例如重疊譜窗口實現(xiàn)分區(qū)之間的平滑以避免頻率上的突發(fā)處理變化，由此減少偽跡。
C.與常規(guī)音頻編碼器相組合圖6A是圖1A中編碼系統(tǒng)100與常規(guī)立體聲音頻編碼器相組合的實現(xiàn)的框圖。在一些實現(xiàn)中，組合編碼系統(tǒng)600包括常規(guī)編碼器602、推薦編碼器604(例如，編碼系統(tǒng)100)以及比特流組合器606。在所示示例中，立體聲音頻輸入信號由常規(guī)音頻編碼器602(例如，MP3、AAC、MPEG環(huán)繞等)編碼并由推薦編碼器604分析以提供輔助信息，如先前參照圖1-5所述。兩個結果比特流由比特流組合器606組合以提供后向兼容的比特流。在一些實現(xiàn)中，組合結果比特流包括將低比特率輔助信息(例如，增益因子ai和bi與子帶功率E{si2(k)}))嵌入到該后向兼容比特流中。
圖6B是使用圖1A中的編碼系統(tǒng)100與常規(guī)立體聲音頻編碼器相組合的編碼過程608的實現(xiàn)的流程圖。輸入立體聲信號被使用常規(guī)立體聲音頻編碼器進行編碼(610)。使用圖1A的編碼系統(tǒng)100從該立體聲信號和M個源信號生成輔助信息(612)。生成包括經編碼的立體聲信號和輔助信息的一個或多個后向兼容比特流(614)。
圖7A是圖3A的再混音系統(tǒng)300與常規(guī)立體聲音頻解碼器相組合以提供組合系統(tǒng)700的實現(xiàn)的框圖。在一些實現(xiàn)中，組合系統(tǒng)700一般包括比特流解析器702、常規(guī)音頻解碼器704(例如，MP3、AAC)以及推薦解碼器706。在一些實現(xiàn)中，該推薦編碼器706是圖3A的再混音系統(tǒng)300。
在所示示例中，比特流被分解為立體聲音頻比特流和包含推薦解碼器706提供再混音能力所需要的輔助信息的比特流。立體聲信號被常規(guī)音頻解碼器704解碼并饋送至推薦解碼器706，后者因變于從比特流和用戶輸入獲得的輔助信息(例如，混音增益ci和di)來修改該立體聲信號。
圖7B是使用圖7A的組合系統(tǒng)700的再混音過程708的一個實現(xiàn)的流程圖。接收自編碼器的比特流被解析以提供經編碼的立體聲信號比特流和輔助信息比特流(710)。經編碼的立體聲信號被使用常規(guī)音頻解碼器解碼(712)。示例解碼器包括MP3、AAC(包括AAC的各種標準化型)、參數(shù)化立體聲、譜帶復制(SBR)、MPEG環(huán)繞、或其任意組合。經解碼的立體聲信號被使用該輔助信息和用戶輸入(例如，ci和di)進行再混音。
IV.多聲道音頻信號的再混音在一些實現(xiàn)中，先前小節(jié)中所述的編碼和再混音系統(tǒng)100、300可被擴展以再混音多聲道音頻信號(例如，5.1環(huán)繞信號)。此后，立體聲信號和多聲道信號也指“多聲道”信號。本領域中普通技術人員將理解如何針對多聲道編碼/解碼方案——即針對兩個以上的信號x1(k)，x2(k)，x3(k)，...，xC(k)重寫[7]到[22]，其中C是混音信號的音頻聲道的數(shù)目。
多聲道情形中的式[9]變?yōu)? … 具有C個方程的類似于[11]的等式可被導出并求解以確定權重，如先前所述。
在一些實現(xiàn)中，某些聲道可被保留不作處理。例如，對于5.1環(huán)繞，兩個后聲道可被保留不作處理，而僅對左前聲道、右前聲道和中間聲道應用再混音。在這種情形下，可向前聲道應用三聲道再混音算法。
從所公開的再混音方案得到的音頻質量取決于所執(zhí)行的修改的性質。對于相對較弱的修改，例如從0dB到15dB的移位變化或10dB的增益修改，結果音頻質量可比常規(guī)技術所實現(xiàn)的質量要高。同樣，所公開的推薦再混音方案的質量會比常規(guī)再混音方案的質量要高，因為立體聲信號僅是作必要的修改以實現(xiàn)所需的再混音。
本文所公開的再混音方案相比于常規(guī)技術具有若干優(yōu)勢。首先，其允許對給定的立體聲或多聲道音頻信號中少于對象總數(shù)的對象進行再混音。這是通過因變于給定的立體聲音頻信號加該立體聲音頻信號中表示M個對象的M個源信號估計輔助信息來實現(xiàn)的，這些信息能用于解碼器處的再混音。所公開的再混音系統(tǒng)因變于輔助信息以及因變于用戶輸入(所需再混音)來處理給定的立體聲信號以生成與經真實不同混音的立體聲信號感知上相類似的立體聲信號。
V.基本再混音方案的增強 A.輔助信息預處理當子帶相對于毗鄰子帶被衰減得過多時，可發(fā)生音頻偽跡。因此，需要限制最大衰減。此外，由于立體聲信號和對象源信號統(tǒng)計數(shù)據在編碼器和解碼器處是分別獨立地測量的，所以測得的立體聲信號子帶功率與對象信號子帶功率之間的比例(如輔助信息所表示)可能與實際有所偏差。為此，輔助信息可以使其在物理上不可能，例如再混音信號的信號功率[19]會變成負數(shù)。以上兩個問題可如下所述地來解決。
左右再混音信號的子帶功率為其中PSi等于[25]中給出的經量化和編碼的子帶功率估計，后者是因變于輔助信息計算出的。再混音信號的子帶功率可被限制為使其絕不會低于原始立體聲信號的子帶功率E{x12}超過LdB。類似地，E{y22}被限制為不低于E{x22}超過LdB。該結果可用以下運算來實現(xiàn) 1.根據式[28]計算左右再混音信號子帶功率。
2.如果E{y12}＜QE{x12}，則調節(jié)輔助信息計算值PSi以使得E{y12}＝QE{x12}成立。為了限制E{y12}的功率絕不會低于E{x12}超過AdB，Q可被設成Q＝10-A/10。則

可通過乘以以下值來調節(jié) 3.如果E{y22}＜QE{x22}，則調節(jié)輔助信息計算值

以使得E{y22}＝QE{x22}成立。
這可通過將PSi乘以以下值來實現(xiàn) 4.

的值被設成經調節(jié)的

并計算出權重w11(k)、w12(k)、w21(k)以及w22(k)。
B.在使用四個或兩個權重之間進行決策對于許多情形，兩個權重[18]足以計算左右再混音信號子帶[9]。在一些情形下，通過使用四個權重[13]和[15]可實現(xiàn)更佳的結果。使用兩個權重意味著，為了生成左輸出信號僅使用左原始信號，對于右輸出信號也是如此。因此，需要四個權重的情形是在一側的對象被再混音到另一側時。在這種情形下，可預期使用四個權重將是有利的，因為原始僅在一側(例如，在左聲道)的信號在再混音之后主要將在另一側(例如，在右聲道)。因此，可使用四個權重以允許信號從原始左聲道流向經再混音的右聲道，反之亦然。
當計算四個權重的最小平方問題是病態(tài)時，權重的量級可較大。類似地，當使用上述一側到另一側的再混音時，僅使用兩個權重時的權重量級可能較大。由該發(fā)現(xiàn)所驅動，在一些實現(xiàn)中，可使用以下標準來決定是使用四個還是兩個權重。
如果A＜B，則使用四個權重，否則使用兩個權重。A和B分別是對四個和兩個權重的權重量級的度量。在一些實現(xiàn)中，A和B計算如下。為了計算A，首先根據[13]和[15]計算四個權重，然后設A＝ω112+ω122+ω212+w222。為了計算B，可根據[18]計算權重，然后計算B＝w112+w222。
C.在需要時改善衰減度當源要被完全移除時，例如在卡拉OK應用中移除主聲音軌時，其混音增益為ci＝0和di＝0。然而，當用戶選擇零混音增益時，所實現(xiàn)的衰減度可受到限制。因此，為了改善衰減，從輔助信息獲得的相應源信號的源子帶功率值

在被用來計算權重w11(k)、w12(k)、w21(k)和w22(k)之前，可用大于1的值(例如，2)定標。
D.通過權重平滑改善音頻質量已經觀察到所公開的再混音方案可能會在所需信號中引入偽跡，特別是在音頻信號是音調的或平穩(wěn)的時候。為了改善音頻質量，在每個子帶，可計算平穩(wěn)性/音調度量。如果平穩(wěn)性/音調超過特定閾值TON0，則在時間上對估計權重進行平滑。平滑運算如下所述對于每個子帶，在時間索引k，被應用于計算輸出子帶的權重如下獲得 ·如果TON(k)＞TON0，則其中

和

是經平滑的權重，而w11(k)、w12(k)、w21(k)和w22(k)是如先前所述計算出的未經平滑的權重。
·否則 E.堂音/混響控制本文所述的再混音技術以混音增益ci和di的形式提供用戶控制。這對應于針對每個對象確定增益Gi和振幅移位Li(方向)，其中增益和移位完全由ci和di決定，在一些實現(xiàn)中，可能希望除了源信號的增益和振幅移位之外還控制立體聲混音的其它特征。在以下描述中，描述用于修改立體聲音頻信號的堂音(ambience)的程度的技術。對該解碼器任務不使用輔助信息。
在一些實現(xiàn)中，[44]中給出的信號模型可被用來修改立體聲信號的堂音的程度，其中n1和n2的子帶功率被假設相等，即，可再次假設s、n1和n2是相互獨立的。給定這些假設，相干性[17]可被寫成這對應于具有變量PN(k)的二次方程，該二次方程的解為物理上可能的解是均方根前為負號的那個解，因為PN(k)必須小于或等于E{x12(k)}+E{x22(k)}。
在一些實現(xiàn)中，為了控制左右堂音，可關于兩個對象應用再混音技術一個對象是左側上索引為i1且子帶功率E{si12(k)}＝PN(k)的源，即ai1＝1且bi1＝0。另一對象是右側上索引為i2且子帶功率E{si22(k)}＝PN(k)的源，即ai2＝0且bi2＝1。為了改變堂音的量，用戶可選擇ci1＝di1＝10ga/20且ci2＝di1＝0，其中ga是以dB計的堂音增益。
F.不同輔助信息在一些實現(xiàn)中，經修改的或不同的輔助信息可被用在所公開的在比特率方面更加高效的再混音方案中。例如，在[24]中，Ai(k)可具有任意值。對原始源信號si(n)的能級也有依存性。因此，為了獲得所需范圍內的輔助信息，源輸入信號的能級將需要調整。為了避免該調整并移除輔助信息對原始源信號能級的依存性，在一些實現(xiàn)中，源子帶功率不僅可如[24]中那樣相對于立體聲信號子帶功率進行歸一化，還可考慮混音增益這對應于將用立體聲信號歸一化的包含在立體聲信號中的源功率(而非直接地源功率)用作為輔助信息?；蛘?，可使用像以下形式的歸一化該輔助信息也更具效率，因為Ai(k)可僅取小于或等于0dB的值。注意，可對應子帶功率E{si2(k)}求解[39]和[40]。
G.立體聲源信號/對象本文所述的再混音方案可容易地擴展成處理立體聲源信號。從輔助信息的角度，立體聲源信號就類似兩個單聲道源信號地進行處理一個僅被混音到左聲道而另一個僅被混音到右聲道。即，左源聲道i具有非零的左增益因子ai和為零的右增益因子bi+1。增益因子ai和bi+1可用[6]來估計。輔助信息可以如同立體聲源將是兩個單聲道源那樣進行傳送。一些信息需要被傳送至解碼器以向解碼器指示哪些源是單聲道源而哪些是立體聲源。
關于解碼器處理和圖形用戶界面(GUI)，一種可能性是在解碼器處類似于單聲道源信號地呈現(xiàn)立體聲源信號。即，立體聲源信號具有類似于單聲道源信號的增益和移位控制。在一些實現(xiàn)中，非再混音立體聲信號的GUI的增益和移位控制與增益因子之間的關系可被選擇成 GAIN0＝0dB， (41) 即，GUI可初始地被設為這些值。用戶所選的GAIN(增益)和PAN(移位)與新增益因子之間的關系可被選擇成可針對可被用作再混音增益(ci+1＝0且di＝0)的ci和di+1求解方程[42]。所述功能集類似于對立體聲放大器的“平衡”控制。源信號的左右聲道的增益在不引入串音的情況下進行修改。
VI.輔助信息的盲生成 A.輔助信息的全盲生成在所公開的再混音方案中，編碼器接收立體聲信號和表示要在解碼器處被再混音的對象的數(shù)個源信號。用于在解碼器處再混音索引為i的源信號所需的輔助信息是從增益因子ai和bi以及子帶功率E{si2(k)}確定的。在給定源信號時的情形下輔助信息的確定在先前小節(jié)中有所描述。
盡管容易獲得立體聲信號(因為這對應于當今現(xiàn)有的產品)，但獲得對應于要在解碼器處被再混音的對象的源信號可能是較為困難的。因此，需要即使對象的源信號不可用也能生成用于再混音的輔助信息。在以下描述中，描述用于僅從立體聲信號生成輔助信息的全盲生成技術。
圖8A是實現(xiàn)全盲輔助信息生成的編碼系統(tǒng)800的實現(xiàn)的框圖。編碼系統(tǒng)800一般包括濾波器編組陣列802、輔助信息生成器804以及編碼器806。立體聲信號被濾波器編組陣列802接收，后者將立體聲信號(例如，左聲道和右聲道)分解為子帶對。子帶對被輔助信息生成器804接收，后者使用所需的源能級差Li和增益函數(shù)f(M)從子帶對生成輔助信息。注意，濾波器編組陣列802或輔助信息生成器804都未對源信號操作。輔助信息完全是從輸入的立體聲信號、所需的源能級差Li和增益函數(shù)f(M)導出的。
圖8B是使用圖8A中編碼系統(tǒng)的編碼過程808的實現(xiàn)的流程圖。輸入立體聲信號被分解為子帶對(810)。對于每個子帶，使用所需的源能級差值Li對每個所需源信號確定增益ai和bi(812)。對于直達聲源信號(例如，音場中中心移位的源信號)，所需源能級差為Li＝0dB。給定Li，計算出增益因子其中A＝10Li/10。注意ai和bi已經被計算為使得ai2+bi2＝1。該條件并不是必需的，而是在Li的量級較大時防止ai或bi較大的任意選擇。
接著，使用子帶對和混音增益估計直達聲的子帶功率(814)。為了計算直達聲子帶功率，可假定每個時刻的每個輸入信號左子帶和右子帶可被寫成 x1＝as+n1， x2＝bs+n2，(44) 其中a和b是混音增益，s表示所有源信號的直達聲而n1和n2表示獨立的環(huán)境聲。
可假定a和b是其中B＝E{x22(k)}/E(x12(k)}。注意a和b可被計算成使得與s一起被包含在x2和x1中的能級差與x2和x1之間的能級差相同。直達聲的以dB計的能級差為M＝log10B。
可根據[44]中給出的信號模型計算直達聲子帶功率E{s2(k)}。在一些實現(xiàn)中，使用以下方程系 E{x1(k)x2(k)}＝abE{s2(k)}. 已在[46]中假定[34]中的s、n1和n2是相互獨立的，[46]中的左側量可被測量且a和b是可用的。因此，[46]中的三個未知量是E{s2(k)}、E{n12(k)}以及E{n22(k)}。直達聲子帶功率E{s2(k)}可如下給出直達聲子帶功率也可被寫成相干性[17]的函數(shù)，在一些實現(xiàn)中，所需源子帶功率E{si2(k)}的計算可分兩步驟執(zhí)行首先，計算直達聲子帶功率E{s2(k)}，其中s表示[44]中所有源的直達聲(例如，中心移位的)。然后，通過根據直達聲方向(由M表示)和所需聲向(由所需源能級差L表示)修改直達聲子帶功率E{s2(k)}來計算所需源子帶功率E{si2(k)} 其中f(.)是增益函數(shù)，其因變于方向返回僅對于所需源方向才接近1的增益因子。作為最后步驟，增益因子和子帶功率E{si2(k)}可被量化和編碼以生成輔助信息(818)。
圖9示出用于合需源能級差Li＝LdB的示例增益函數(shù)f(M)。注意，方向性的程度可以通過選擇f(M)以具有合需方向附近較寬或較窄的峰值Lo來控制。對于在中心的合需源，可使用Lo＝6dB的峰值寬度。
注意，采用上述全盲技術，可確定給定源信號si的輔助信息(ai、bi、E{si2(k)})。
B.輔助信息的盲生成和非盲生成之間的組合上述全盲生成技術在特定情形下可能受到限制。例如，如果兩個對象在立體聲音場上具有相同位置(方向)，則不可能盲生成關于這一個或兩個對象的輔助信息。
全盲生成輔助信息的一種替換方案是輔助信息的部分盲生成。部分盲技術生成與原始對象波形粗略對應的對象波形。這可以通過例如讓歌手或音樂家演奏/再現(xiàn)該特定對象信號來實現(xiàn)?；蛘呖蔀榇瞬捎肕IDI數(shù)據并令合成器生成該對象信號。在一些實現(xiàn)中，“粗略”對象波形與要關于其生成輔助信息的立體聲信號時間對準。那么，輔助信息可使用作為盲輔助信息生成與非盲輔助信息生成的組合的過程來生成。
圖10是使用部分盲生成技術的輔助信息生成過程1000的實現(xiàn)的示圖。過程1000通過獲取輸入立體聲信號和M個“粗略”源信號開始(1002)。接著，對這M個“粗略”源信號確定增益因子ai和bi(1004)。在每個子帶的每個時隙中，對每個“粗略”源信號確定子帶功率的第一短時估計E{si2(k)}(1006)。使用對輸入立體聲信號應用的全盲生成技術對每個“粗略”源信號確定子帶功率的第二短時估計Ehat{si2(k)}。
最后，向估計出的子帶功率應用將第一和第二子帶功率估計相組合并返回可實際用于輔助信息計算的最終估計的函數(shù)(1010)。在一些實現(xiàn)中，該函數(shù)F()由下式給出 VI.架構、用戶界面、比特流語法 A.客戶機/服務器架構圖11是用于向具有再混音能力的音頻設備提供立體聲信號和M個源信號和/或輔助信息的客戶機/服務器架構1100的實現(xiàn)的框圖。架構1100僅是示例。其它架構也是可能的，包括具有更多或更少組件的架構。
架構1100一般包括具有儲存庫1104(例如，MySQLTM)和服務器1106(例如，WindowsTM NT、Linux服務器)的下載服務1102。儲存庫1104可存儲各種類型的內容，包括專業(yè)混音的立體聲信號以及對應該立體聲信號中的對象和各種效果(例如，混響)的相關聯(lián)源信號。立體聲信號能以包括MP3、PCM、AAC等各種標準化格式來存儲。
在一些實現(xiàn)中，源信號被存儲在儲存庫1104中并且可供下載到音頻設備1110。在一些實現(xiàn)中，經預處理的輔助信息被存儲在儲存庫1104中并可供下載到音頻設備1110。經預處理的輔助信息可由服務器1106使用參照圖1A、6A和8A所述的編碼方案中的一種或多種來生成。
在一些實現(xiàn)中，下載服務1102(例如，網站、音樂商店)通過網絡1108(例如，因特網、內聯(lián)網、以太網、無線網絡、對等網絡)與音頻設備1110通信。音頻設備1110可以是能夠實現(xiàn)所公開的再混音方案的任何設備(例如，媒體播放器/記錄器、移動手機、個人數(shù)字助理(PDA)、游戲控制臺、機頂盒、電視接收機、媒體中心等)。
B.音頻設備架構在一些實現(xiàn)中，音頻設備1110包括一個或多個處理器或處理器核1112、輸入設備1114(例如，點擊輪、鼠標、操縱桿、觸摸屏)、輸出設備1120(例如，LCD)、網絡接口1118(例如，USB、火線、以太網、網絡接口卡、無線收發(fā)機)以及計算機可讀介質1116(例如，存儲器、硬盤、閃存驅動器)。這些組件中的部分或全部可通過通信信道1112(例如，總線、橋路)發(fā)送和/或接收信息。
在一些實現(xiàn)中，計算機可讀介質1116包括操作系統(tǒng)、音樂管理器、音頻處理器、再混音模塊以及音樂庫。操作系統(tǒng)負責管理音頻設備1110的基本管理和通信任務，包括文件管理、存儲器訪問、總線爭用、控制外圍設備、用戶界面管理、功率管理等。音樂管理器可以是管理音樂庫的應用。音頻處理器可以是用于播放音樂文件(例如，MP3、CD音頻等)的常規(guī)音頻處理器。再混音模塊可以是實現(xiàn)參照圖1-10所述的再混音方案的功能集的一個或多個軟件組件。
在一些實現(xiàn)中，服務器1106編碼立體聲信號并生成輔助信息，如參照圖1A、6A和8A所述。該立體聲信號和輔助信息通過網絡1108被下載到音頻設備1110。再混音模塊解碼該信號和輔助信息并基于通過輸入設備1114(例如，鍵盤、點擊輪、觸摸顯示器)接收到的用戶輸入提供再混音能力。
C.用于接收用戶輸入的用戶界面圖12是具有再混音能力的媒體播放器1200的用戶界面1202的實現(xiàn)。用戶界面1202還可被適應性地修改以適用于其它設備(例如，移動電話、計算機等)。用戶界面并不限于所示配置或格式，還可包括不同類型的用戶界面元素(例如，導航控制、觸摸面)。
用戶可通過突出顯示用戶界面1202上的恰當項來進入設備1200的“再混音”模式。在該示例中，假定用戶已從音樂庫中選擇歌曲并希望改變主聲音軌的移位設置。例如，用戶可能想要聽到更多左音頻聲道中的主聲。
為了獲得對所需移位控件的訪問，用戶可導航一系列子菜單1204、1206和1208。例如，用戶可使用輪1210滾動經過子菜單1204、1206和1208上的項。用戶可通過點擊按鈕1212選擇突出顯示的菜單項。子菜單1208提供對主聲音軌的所需移位控制的訪問。用戶隨后可在該歌曲正在播放時按需操控滑動塊(例如，使用輪1210)以調節(jié)主聲的移位。
D.比特流語法在一些實現(xiàn)中，參照圖1-10所述的再混音方案可被包括在現(xiàn)行或未來的音頻編碼標準(例如，MPEG-4)中。用于現(xiàn)行或未來編碼標準的比特流語法可包括可被具有再混音能力的解碼器用來確定如何處理該比特流以允許用戶進行再混音的信息。這種語法可被設計成提供與常規(guī)編碼方案的后向兼容性。例如，包括在比特流中的數(shù)據結構(例如，分組報頭)可包括指示用于再混音的輔助信息(例如，增益因子、子帶功率)的可用性的信息(例如，一個或多個比特或標志)。
本說明書中所述的公開及其它實施例和功能操作——包括本說明書中公開的結構及其等效結構——可以數(shù)字電路、或以計算機軟件、固件、或硬件來實現(xiàn)，或者可以它們中一個或多個的組合來實現(xiàn)。所公開的及其它的實施例可被實現(xiàn)為一個或多個計算機程序產品，即在計算機可讀介質上編碼以供數(shù)據處理裝置執(zhí)行或控制數(shù)據處理裝置的操作的計算機程序指令的一個或多個模塊。計算機可讀介質可以是機器可讀存儲設備、機器可讀存儲襯底、存儲器件、影響機器可讀傳播信號的合成物、或者它們當中一種或多種的組合。術語“數(shù)據處理裝置”涵蓋用于處理數(shù)據的所有裝置、設備、和機器，包括例如可編程處理器、計算機、或多個處理器或計算機。除硬件之外，裝置還可包括為所討論的計算機程序創(chuàng)建執(zhí)行環(huán)境的代碼，例如構成處理器固件、協(xié)議棧、數(shù)據庫管理系統(tǒng)、操作系統(tǒng)、或它們當中一個或多個的組合的代碼。傳播信號是人工生成的信號，例如被生成以編碼要傳輸?shù)胶线m接收機裝置的信息的由機器生成的電、光、或電磁信號。
計算機程序(也被稱為程序、軟件、軟件應用、腳本、或代碼)可以任何形式的編程語言——包括編譯和解釋語言——編寫，并且可以任何形式采用，包括作為單機程序或作為適用于計算環(huán)境的模塊、組件、子例程、或其它單元。計算機程序不必對應文件系統(tǒng)中的文件。程序可被存儲在保存有其它程序或數(shù)據(例如，存儲在標記語言文檔中的一個或多個腳本)的文件的一部分中，被存儲在專用于所討論的程序的單個文件中、或者被存儲在多個協(xié)作文件中(例如，存儲代碼的一個或多個模塊、子程序、或部分的文件)。計算機程序可被用來在位于一個地點的一臺計算機上或位于一個地點或通過通信網絡跨多個地點分布和互連的多臺計算機上執(zhí)行。
本說明書中所述的過程和邏輯流可由執(zhí)行一個或多個計算機程序的一個或多個可編程處理器來執(zhí)行以通過對輸入數(shù)據進行運算并生成輸出來執(zhí)行功能。過程和邏輯流還可由專用邏輯電路執(zhí)行，且裝置也可被實現(xiàn)為這些專用邏輯電路，例如FPGA(現(xiàn)場可編程門陣列)或ASIC(專用集成電路)。
作為示例，適于執(zhí)行計算機程序的處理器包括通用和專用微處理器、以及任何種類的數(shù)字計算機的任意一個或多個處理器。一般而言，處理器將從只讀存儲器或隨機存取存儲器或兩者中接收指令和數(shù)據。計算機的基本元件是用于執(zhí)行指令的處理器以及用于存儲指令和數(shù)據的一個或多個存儲器設備。一般而言，計算機還將包括諸如磁盤、磁-光盤、或光盤等用于存儲數(shù)據的一個或多個海量存儲設備，或者可操作性地耦合以從/向這些設備接收/傳送數(shù)據。然而，計算機無需具有這些設備。適于存儲計算機程序指令和數(shù)據的計算機可讀介質包括所有形式的非易失性存儲器、介質和存儲設備，作為示例，包括諸如EPROM、EEPROM和閃存設備等半導體存儲設備，諸如內部硬盤或可移動盤等磁盤，磁-光盤，以及CD-ROM和DVD-ROM盤。處理器和存儲器可用專用邏輯電路來補充或可被納入到專用邏輯電路中。
為了提供與用戶的交互，所公開的實施例可在計算機上實現(xiàn)，該計算機可具有諸如CRT(陰極射線管)或LCD(液晶顯示器)監(jiān)視器等用于向用戶顯示信息的顯示設備、以及諸如鼠標或跟蹤球等用戶可借其來向計算機提供輸入的鍵盤和定點設備。其它類型的設備也可被用來提供與用戶的交互，例如提供給用戶的反饋可以是任意形式的感官反饋，例如視覺反饋、聽覺反饋、或觸覺反饋，而來自用戶的輸入可以包括聲學、語音、或觸覺輸入等任意形式接收。
所公開的實施例可在計算系統(tǒng)中實現(xiàn)，該計算系統(tǒng)包括諸如數(shù)據服務器等后端組件、諸如應用服務器的中間件組件、或者諸如具有用戶可通過其與本文所公開的實現(xiàn)交互的圖形用戶界面或Web瀏覽器的客戶端計算機的前端組件，或者可包括一個或多個這種后端、中間件、或前端組件的任意組合。該系統(tǒng)的組件可通過數(shù)字數(shù)據通信的任意形式或介質進行互連，例如通過通信網絡互連。通信網絡的示例包括局域網(“LAN”)和諸如因特網等廣域網(“WAN”)。
計算系統(tǒng)可包括客戶機和服務器?？蛻魴C和服務器一般彼此遠離且通常通過通信網絡交互?？蛻魴C與服務器的關系通過在各自計算機上運行的計算機程序發(fā)生并彼此具有客戶機-服務器關系。
VII.使用再混音技術的系統(tǒng)示例圖13示出將空間音頻對象解碼(SAOC)和再混音解碼相組合的解碼系統(tǒng)1300的實現(xiàn)。SAOC是用于處理多聲道音頻的音頻技術，其允許對已編碼聲音對象的交互操控。
在一些實現(xiàn)中，系統(tǒng)1300包括混音信號解碼器1301、參數(shù)生成器1302和再混音渲染器1304。參數(shù)生成器1302包括盲估計器1308、用戶-混音參數(shù)生成器1310和再混音參數(shù)生成器1306。再混音參數(shù)生成器1306包括均衡-混音參數(shù)生成器1312和上-混音參數(shù)生成器1314。
在一些實現(xiàn)中，系統(tǒng)1300提供兩種音頻過程。在第一過程中，編碼系統(tǒng)提供的輔助信息被再混音參數(shù)生成器1306用來生成再混音參數(shù)。在第二過程中，盲參數(shù)由盲估計器1308生成并被再混音參數(shù)生成器1306用來生成再混音參數(shù)。盲參數(shù)和全盲或部分盲生成過程可由盲估計器1308執(zhí)行，如參照圖8A和8B所述。
在一些實現(xiàn)中，再混音參數(shù)生成器1306接收輔助信息或盲參數(shù)以及來自用戶-混音參數(shù)生成器1310的一組用戶混音參數(shù)。用戶-混音參數(shù)生成器1310接收最終用戶指定的混音參數(shù)(例如，GAIN、PAIN)并將該混音參數(shù)轉換成適于再混音參數(shù)生成器1306的再混音處理的格式(例如，轉換成增益ci和di+1)。在一些實現(xiàn)中，用戶-混音參數(shù)生成器1310提供允許用戶指定所需混音參數(shù)的用戶界面，諸如如參照圖12所述的媒體播放器用戶界面1200。
在一些實現(xiàn)中，再混音參數(shù)生成器1306可處理立體聲和多聲道音頻信號兩者。例如，均衡-混音參數(shù)生成器1312可生成用于立體聲聲道目標的再混音參數(shù)，而上-混音參數(shù)生成器1314可生成用于多聲道目標的再混音參數(shù)?；诙嗦暤酪纛l信號的再混音參數(shù)生成參照小節(jié)IV進行描述。
在一些實現(xiàn)中，再混音渲染器1304接收用于立體聲目標信號或多聲道目標信號的再混音參數(shù)。均衡-混音渲染器1316將立體聲再混音參數(shù)應用于直接接收自混音信號解碼器1301的原始立體聲信號以基于由用戶-混音參數(shù)生成器1310所提供的由用戶指定的格式化立體聲混音參數(shù)來提供所需的再混音立體聲信號。在一些實現(xiàn)中，立體聲再混音參數(shù)可使用立體聲再混音參數(shù)的nxn矩陣(例如，2x2矩陣)應用于原始立體聲信號。上-混音渲染器1318將多聲道再混音參數(shù)應用于直接接收自混合信號解碼器1301的原始多聲道信號以基于由用戶混音參數(shù)生成器1310提供的由用戶指定的格式化多聲道混音參數(shù)來提供所需的再混音多聲道信號。在一些實現(xiàn)中，效果生成器1320生成將分別由均衡-混音渲染器1316或上-混音渲染器應用于原始立體聲或多聲道信號的效果信號(例如，混響)。在一些實現(xiàn)中，上-混音渲染器1318接收原始立體聲信號并除應用再混音參數(shù)之外將該立體聲信號轉換(或上-混音)成多聲道信號以生成再混音多聲道信號。
系統(tǒng)1300可處理具有各種聲道配置的音頻信號，從而允許系統(tǒng)1300被納入現(xiàn)有音頻編碼方案(例如，SA0C、MEPG、AAC、參數(shù)化立體聲)中，同時維持與這些音頻編碼方案的后向兼容性。
圖14A示出個別對話音量(SDV)的一般混音模型。SDV是在題為“Separate Dialogue Volume(個別對話音量)”的美國臨時專利申請No.60/884,594中描述的經改善的對話增強技術。在SDV的一種實現(xiàn)中，立體聲信號被記錄和混音成使得對于每個源，該信號以特定的方向線索(例如，能級差、時間差)相干地進入左信號聲道和右信號聲道，而反射/混響的獨立信號進入各聲道以確定聽覺事件寬度和聽眾包封線索。參照圖14A，因子a決定聽覺事件出現(xiàn)的方向，其中s是直達聲而n1和n2是側向反射。信號s模擬來自由因子a決定的方向的定位聲。獨立信號n1和n2對應反射/混響聲——常被標示為環(huán)境聲或堂音。所述場景是對具有一個音頻源的立體聲信號的感知驅動分解， x1(n)＝s(n)+n1 x2(n)＝as(n)+n2，(51) 以捕獲該音頻源和堂音的定位。
圖14B示出將SDV與再混音技術相組合的系統(tǒng)1400的實現(xiàn)。在一些實現(xiàn)中，系統(tǒng)1400包括濾波器編組1402(例如，STFT)、盲估計器1404、均衡-混音渲染器1406、參數(shù)生成器1408以及逆濾波器編組1410(例如，逆STFT)。
在一些實現(xiàn)中，SDV下混音信號被接收并由濾波器編組1402分解成子帶信號。下混音信號可以是由[51]給出的立體聲信號x1、x2。子帶信號X1(i，k)、X2(i，k)被直接輸入到均衡-混音渲染器1406或輸入到輸出盲參數(shù)A、PS、PN的盲估計器1404。這些參數(shù)的計算在題為“Separate Dialogue Volume(個別對話音量)”的美國臨時專利申請No.60/884,594中描述。盲參數(shù)被輸入到參數(shù)生成器1408，后者從盲參數(shù)和用戶指定的混音參數(shù)g(i，k)(例如，中心增益、中心寬度、截止頻率、干度)生成均衡-混音參數(shù)w11～w22。均衡-混音參數(shù)的計算在小節(jié)I中描述。均衡-混音參數(shù)被均衡-混音渲染器1406應用于子帶信號以提供經渲染的輸出信號y1、y2。均衡-混音渲染器1406的經渲染的輸出信號被輸入到逆濾波器編組1410，后者將該已渲染輸出信號轉換成基于用戶所指定的混音參數(shù)的所需SDV立體聲信號。
在一些實現(xiàn)中，系統(tǒng)1400還可使用如參照圖1-12所述的再混音技術來處理音頻信號。在再混音模式下，濾波器編組1402接收諸如[1]和[27]中描述的信號的立體聲或多聲道信號。信號被濾波器編組1402分解成子帶信號X1(i，k)、X2(i，k)并被直接輸入到均衡-渲染器1406和用于估計盲參數(shù)的盲估計器1404。盲參數(shù)與在比特流中接收到的輔助信息ai、bi、Psi一起被輸入到參數(shù)生成器1408中。參數(shù)生成器1408將盲參數(shù)和輔助信息應用于子帶信號以生成經渲染的輸出信號。經渲染的輸出信號被輸入到逆濾波器編組1410，后者生成所需的再混音信號。
圖15示出圖14B中所示的均衡-混音渲染器1406的實現(xiàn)。在一些實現(xiàn)中，下混音信號X1被定標模塊1502和1504定標，而下混音信號X2被定標模塊1506和1508定標。定標模塊1502用均衡-混音參數(shù)w11對下混音信號X1定標，定標模塊1504用均衡-混音參數(shù)w21對下混音信號X1定標，定標模塊1506用均衡-混音參數(shù)w12對下混音信號X2定標，而定標模塊1508用均衡-混音參數(shù)w22對下混音信號X2定標。定標模塊1502和1506的輸出被累加以提供第一經渲染輸出信號y1，而定標模塊1504和1508被累加以提供第二經渲染輸出信號y2。
圖16示出參照圖1-15所述的再混音技術的分發(fā)系統(tǒng)1600的實現(xiàn)。在一些實現(xiàn)中，內容供應商1602使用包括如先前參照圖1A所述用于生成輔助信息的再混音編碼器1606的創(chuàng)作工具1604。輔助信息可以是一個或多個文件的一部分和/或包括在比特流送服務的比特流中。再混音文件可具有獨特的文件擴展名(例如，文件名.rmx)。單個文件可包括原始混音音頻信號和輔助信息。或者，該原始混音音頻信號和輔助信息可作為分組、數(shù)據束、數(shù)據包或其它合適容器中的單獨文件進行分發(fā)。在一些實現(xiàn)中，為幫助用戶習知該技術和/或出于市場目的，再混音文件可與預設的混音參數(shù)一起分發(fā)。
在一些實現(xiàn)中，原始內容(例如，原始混音音頻文件)、輔助信息和任選的預設混音參數(shù)(“再混音信息”)可被提供給服務供應商1608(例如，音樂門戶)或被置于物理介質上(例如，CD-ROM、DVD、媒體播放器、閃存)。服務器供應商1608可操作一個或多個服務器1610以提供該再混音信息的全部或部分和/或包含該再混音信息的全部或部分的比特流。再混音信息可被存儲在儲存庫1612中。服務供應商1608還可提供虛擬環(huán)境(例如，社會團體、門戶、布告板)以共享用戶生成的混音參數(shù)。例如，由用戶在混音就緒設備1616(例如，媒體播放器、移動手機)上生成的混音參數(shù)可被存儲在混音參數(shù)文件中，該文件可被上傳到服務供應商1608以與其他用戶共享。混音參數(shù)文件可具有獨特的擴展名(例如，文件名.rms)。在所示示例中，用戶使用再混音播放器A生成混音參數(shù)文件并將該混音參數(shù)文件上傳到服務供應商1608，其中該文件隨后被操作再混音播放器B的用戶下載。
系統(tǒng)1600可使用任何已知的數(shù)字權限管理方案和/或保護原始內容和再混音信息的其它已知安全方法來實現(xiàn)。例如，操作再混音播放器B的用戶可能需要單獨下載原始內容并在用戶能夠訪問或使用再混音播放器B所提供的再混音特征之前得到許可證。
圖17A示出用于提供再混音信息的比特流的基本要素。在一些實現(xiàn)中，單個集成比特流1702可被提供給再混音使能設備，其包括混音音頻信號(Mixed_Obj BS)(混音_對象比特流)、增益因子和子帶功率(Ref_Mix_ParaBS)(參考_混音_參數(shù) 比特流)以及用戶指定混音參數(shù)(User_Mix_Para BS)(用戶_混音_參數(shù) 比特流)。在一些實現(xiàn)中，再混音信息的多個比特流可以單獨地遞送至再混音使能設備。例如，混音音頻信號可在第一比特流1704中遞送，而增益因子、子帶功率和用戶指定的混音參數(shù)可在第二比特流1706中遞送。在一些實現(xiàn)中，混音音頻信號、增益因子和子帶功率、以及用戶指定的混音參數(shù)可在三個單獨的比特流1708、1710和1712中遞送。這些單獨的比特流可以相同或不同的比特率進行遞送。這些比特流可根據需要使用節(jié)省帶寬和確保穩(wěn)健性的各種已知技術來處理，包括比特交織、熵編碼(例如，霍夫曼編碼)、糾錯等。
圖17B示出再混音編碼器1714的比特流接口。在一些實現(xiàn)中，再混音編碼器接口1714的輸入可包括混音對象信號、個體對象或源信號以及編碼器選項。編碼器接口1714的輸出可包括混音音頻信號比特流、包括增益因子和子帶功率的比特流、以及包括預設混音參數(shù)的比特流。
圖17C示出再混音解碼器1716的比特流接口。在一些實現(xiàn)中，再混音解碼器接口1716的輸入可包括混音音頻信號比特流、包括增益因子和子帶功率的比特流、以及包括預設混音參數(shù)的比特流。解碼器接口1716的輸出可包括再混音音頻信號、上混音渲染器比特流(例如，多聲道信號)、盲再混音參數(shù)、以及用戶再混音參數(shù)。
編碼器和解碼器接口的其他配置也是可能的。圖17B和17C中所示的接口配置可被用來定義應用程序接口(API)以允許再混音使能設備處理再混音信息。圖17B和17C中所示的接口是示例，其它配置也是可能的，包括部分地取決于設備而具有不同數(shù)目和類型的輸入和輸出的各種配置。
圖18是包括用于生成特定對象信號的附加輔助信息以提供經改善的再混音信號感知質量的擴展的示例系統(tǒng)1800的框圖。在一些實現(xiàn)中，系統(tǒng)1800包括(在編碼側)混音信號編碼器1808和增強型再混音編碼器1802，后者包括再混音編碼器1804和信號編碼器1806。在一些實現(xiàn)中，系統(tǒng)1800包括(在解碼側)混音信號解碼器1810、再混音渲染器1814和參數(shù)生成器1816。
在編碼器側，混音音頻信號被混音信號編碼器1808(例如，mp3編碼器)編碼并被發(fā)送到解碼側。對象信號(例如，主聲、吉它、鼓或或其它樂器)被輸入到如先前參照圖1A和3A所述生成輔助信息(例如，增益因子和子帶功率)的再混音編碼器1804。另外，感興趣的一個或多個對象信號被輸入到信號編碼器1806(例如，mp3編碼器)以產生附加輔助信息。在一些實現(xiàn)中，對準信息被輸入到信號編碼器1806以分別將混音信號編碼器1808和信號編碼器1806的輸出信號對準。對準信息可包括時間對準信息、所使用的編解碼器的類型、目標比特率、比特分配信息或策略等。
在解碼器側，混音信號編碼器的輸出被輸入到混音信號解碼器1810(例如，mp3解碼器)?；煲粜盘柦獯a器1810的輸出和編碼器輔助信息(例如，編碼器生成的增益因子、子帶功率、附加輔助信息)被輸入到參數(shù)生成器1816，后者將這些參數(shù)結合控制參數(shù)(例如，用戶指定的混音參數(shù))一起使用以生成再混音參數(shù)和附加再混音數(shù)據。再混音參數(shù)和附加再混音數(shù)據可被再混音渲染器1814用來渲染再混音音頻信號。
附加再混音數(shù)據(例如，對象信號)被再混音渲染器1814用來將特定對象再混音在原始混音音頻信號中。例如，在卡拉OK應用中，表示主聲的對象信號可被增強型再混音編碼器1802用來生成附加輔助信息(例如，經編碼的對象信號)。該信號可被參數(shù)生成器1816用來生成附加再混音數(shù)據，后者又可被再混音渲染器1814用來將該主聲再混音在原始混音音頻信號中(例如，抑制或衰減該主聲)。
圖19是圖18中所示的再混音渲染器1814的示例的框圖。在一些實現(xiàn)中，下混音信號X1、X2被分別輸入到組合器1904、1906。下混音信號X1、X2可以是例如原始混音音頻信號的左聲道和右聲道。組合器1904、1906將該下混音信號X1、X2與參數(shù)生成器1816提供的附加再混音數(shù)據相組合。在卡拉OK示例中，組合可包括在再混音之前將主聲對象信號從下混信號X1、X2中減去以衰減或抑制再混音音頻信號中的主聲。
在一些實現(xiàn)中，下混音信號X1(例如，原始混音音頻信號的左聲道)與附加數(shù)據(例如，主聲對象信號的左聲道)相組合并由定標模塊1906a和1906b定標，而下混音信號X2(例如，原始混音音頻信號的右聲道)與附加再混音數(shù)據(例如，主聲對象信號的右聲道)相組合并由定標模塊1906c和1906d定標。定標模塊1906a用均衡-混音參數(shù)w11將下混音信號X1定標，定標模塊1906b用均衡-混音參數(shù)w21將下混音信號X1定標，定標模塊1906c用均衡-混音參數(shù)w12將下混音信號X2定標，而定標模塊1906d用均衡-混音參數(shù)w22將下混音信號X2定標。定標可使用線性代數(shù)諸如使用nxn(例如，2x2)矩陣來實現(xiàn)。定標模塊1906a和1906c的輸出被累加以提供第一經渲染輸出信號Y2，而定標模塊1906b和1906d的輸出被累加以提供第二經渲染輸出信號Y2。
在一些實現(xiàn)中，可實現(xiàn)用戶界面中的控件(例如，開關、滑動塊、按鈕)以在原始立體聲混音、“卡拉OK”模式和/或“阿卡貝拉”模式之間移動。因變于該控件位置，組合器1902控制原始立體聲信號與由附加輔助信息獲得的信號之間的線性組合。例如，對于卡拉OK模式，從附加輔助信息獲得的信號可被從立體聲信號中減去。之后可應用再混音處理以移除量化噪聲(在立體聲和/或其它信號為有損編碼的情況下)。為了部分地移除聲樂，通過該附加輔助信息獲得的信號中僅一部分需要被減去。為了僅播放聲樂，組合器1902選擇通過附加輔助信息獲得的信號。為了播放具有一定背景音樂的聲樂，組合器1902將立體聲信號的定標版與通過附加輔助信息獲得的信號相加。
盡管本說明書包含許多細節(jié)，這些不應被理解為對所要求保護的范圍的限制，而是對特定實施例所特有的特征的描述。在各單獨實施例的背景下在本說明書中描述的特定特征也可在單個實施例的組合中實現(xiàn)。相反，在單個實施例的背景中描述的各種特征也可單獨在多個實施例中實現(xiàn)或在任意合適的子組合中實現(xiàn)。此外，盡管特征在以上被描述為以特定組合起作用且甚至最初如此要求保護，但來自所要求保護的組合的一個或多個特征在一些情形下可從該組合中去除，而所要求保護的組合可涉及子組合或子組合的變形。
類似地，盡管在附圖中以特定次序描述各操作，但這不應被理解為要求以所示的特定次序或以順序來執(zhí)行這些操作，或者要求執(zhí)行所有示出操作來實現(xiàn)所需結果。在特定環(huán)境下，多任務處理和并行處理會是有利的。此外，上述各實施例中各種系統(tǒng)組件的分離不應被理解為在所有實施例中要求這種分離，而應理解所述程序組件和系統(tǒng)一般可被一起集成在單個軟件產品中或被打包在多個軟件產品中。
本說明書中描述的主題的特定實施例已被描述。其它實施例在以下權利要求的范圍內。例如，權利要求中陳述的動作可以不同次序來執(zhí)行并仍能實現(xiàn)所需結果。作為一個示例，附圖中描繪的過程不一定要求所示的特定次序或者順序來實現(xiàn)所需結果。
作為另一示例，小節(jié)5A中描述的輔助信息的預處理對再混音信號的子帶功率提供下限以防止與[2]中給出的信號模型相矛盾的負值。然而，該信號模型不僅表示再混音信號的正功率，還表示原始立體聲信號與再混音立體聲信號之間的正叉積，即E{x1y1}、E{x1y2}、E{x2y1}和E{x2y2}。
從兩個權重情形開始，為了防止叉積E{x1y1}和E{x2y2}變?yōu)樨?，[18]中定義的權重被限于特定閾值以使得它們絕不會小于AdB。
然后，叉積通過考慮以下條件進行限制，其中sqrt表示平方根而Q被定義為Q＝10^-A/10 ·如果If E{x1y1}＜Q＊E{x12}，則叉積被限于E{x1y1}＝Q＊E{x12}。
·如果E{x1，y2}＜Q＊sqrt(E{x12}E{x22})，則叉積被限于E{x1y2}＝Q＊sqrt(E{x12}E{x22})。
·如果E{x2，y1}＜Q＊sqrt(E{x12}E{x22})，則叉積被限于E{x2y1}＝Q＊sqrt(E{x12}E{x22})。
·如果E{x2y2}＜Q＊E{x22}，則叉積被限于E{x2y2}＝Q＊E{x22}。
權利要求
1.一種方法，包括
獲取具有對象集的第一多聲道音頻信號；
獲取輔助信息，所述輔助信息的至少一部分表示所述第一多聲道音頻信號與表示要被再混音的對象的一個或多個源信號之間的關系；
獲取混音參數(shù)集；以及
使用所述輔助信息和所述混音參數(shù)集生成第二多聲道音頻信號。
2.如權利要求1所述的方法，其特征在于，獲取所述混音參數(shù)集進一步包括
接收指定所述混音參數(shù)集的用戶輸入。
3.如權利要求1所述的方法，其特征在于，生成第二多聲道音頻信號包括
將所述第一多聲道音頻信號分解成第一子帶信號集；
使用所述輔助信息和所述混音參數(shù)集估計與所述第二多聲道音頻信號相對應的第二子帶信號集；以及
將所述第二子帶信號集轉換成所述第二多聲道音頻信號。
4.如權利要求3所述的方法，其特征在于，估計第二子帶信號集進一步包括
解碼所述輔助信息以提供與所述要被再混音的對象相關聯(lián)的增益因子和子帶功率估計；
基于所述增益因子、子帶功率估計和所述混音參數(shù)集確定一個或多個權重集；以及
使用至少一個權重集估計所述第二子帶信號集。
5.如權利要求4所述的方法，其特征在于，確定一個或多個權重集進一步包括
確定第一權重集的量級；以及
確定第二權重集的量級，其中所述第二權重集包括與所述第一權重集不同數(shù)目的權重。
6.如權利要求5所述的方法，其特征在于，還包括
將所述第一權重集與所述第二權重集的量級作比較；以及
基于所述比較結果選擇所述第一權重集和第二權重集之一用于估計所述第二子帶信號集。
7.如權利要求4所述的方法，其特征在于，確定一個或多個權重集進一步包括
確定使所述第一多聲道音頻信號與所述第二多聲道音頻信號之間的差異最小化的權重集。
8.如權利要求4所述的方法，其特征在于，確定一個或多個權重集進一步包括
形成線性方程系，其中所述方程系中的每個方程是乘積的和，且每個乘積是通過將子帶信號與權重相乘而形成的；
通過求解所述線性方程系來確定所述權重。
9.如權利要求8所述的方法，其特征在于，所述線性方程系是使用最小平方估計來求解的。
10.如權利要求9所述的方法，其特征在于，所述線性方程系的解提供由下式給出的第一權重w11
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y1是所述第二多聲道音頻信號的聲道。
11.如權利要求10所述的方法，其特征在于，所述線性方程系的解提供由下式給出的第二權重w12
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y1是所述第二多聲道音頻信號的聲道。
12.如權利要求11所述的方法，其特征在于，所述線性方程系的解提供由下式給出的第三權重w21
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y2是所述第二多聲道音頻信號的聲道。
13.如權利要求12所述的方法，其特征在于，所述線性方程系的解提供由下式給出的第四權重w22
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y2是所述第二多聲道音頻信號的聲道。
14.如權利要求4所述的方法，其特征在于，還包括
調節(jié)與所述第二子帶信號集相關聯(lián)的一個或多個能級差線索以匹配與所述第一子帶信號集相關聯(lián)的一個或多個能級差線索。
15.如權利要求4所述的方法，其特征在于，還包括
限制所述第二多聲道音頻信號的子帶功率估計不低于所述第一多聲道音頻信號超過閾值。
16.如權利要求4所述的方法，其特征在于，還包括
在使用所述子帶功率估計確定所述一個或多個權重集之前用大于1的值對所述子帶功率估計定標。
17.如權利要求1所述的方法，其特征在于，獲取所述第一多聲道音頻信號進一步包括
接收包括經編碼多聲道音頻信號的比特流；以及
解碼所述經編碼多聲道音頻信號以獲取所述第一多聲道音頻信號。
18.如權利要求4所述的方法，其特征在于，還包括
將所述一個或多個權重集在時間上進行平滑。
19.如權利要求18所述的方法，其特征在于，還包括
控制所述一個或多個權重集在時間上的平滑以減少音頻失真。
20.如權利要求18所述的方法，其特征在于，還包括
基于音調或平穩(wěn)性度量將所述一個或多個權重集在時間上進行平滑。
21.如權利要求18所述的方法，其特征在于，還包括
確定所述第一多聲道音頻信號的音調或平穩(wěn)性度量是否超過閾值；以及
在所述度量超過所述閾值的情況下將所述一個或多個權重集在時間上進行平滑。
22.如權利要求1所述的方法，其特征在于，還包括
將所述第一多聲道音頻信號與所述輔助信息同步。
23.如權利要求1所述的方法，其特征在于，生成所述第二多聲道音頻信號還包括
針對所述第一多聲道音頻信號的音頻聲道子集來再混音對象。
24.如權利要求1所述的方法，其特征在于，還包括
使用所述子帶功率估計和所述混音參數(shù)集來修改所述第一多聲道音頻信號的堂音的程度。
25.如權利要求1所述的方法，其特征在于，獲取混音參數(shù)集進一步包括
獲取用戶指定的增益和移位值；以及
從所述增益和移位值以及所述輔助信息確定所述混音參數(shù)集。
26.一種方法，包括
獲取具有對象集的音頻信號；
獲取表示所述對象的源信號；以及
從所述源信號生成輔助信息，所述輔助信息的至少一部分表示所述音頻信號與所述源信號之間的關系。
27.如權利要求26所述的方法，其特征在于，生成輔助信息進一步包括
獲取一個或多個增益因子；
將所述音頻信號和所述源信號的子集分別分解成第一子帶信號集和第二子帶信號集；
對于所述第二子帶信號集中的每個子帶信號
估計所述子帶信號的子帶功率；以及
從所述一個或多個增益因子和子帶功率生成輔助信息。
28.如權利要求26所述的方法，其特征在于，生成輔助信息進一步包括
將所述音頻信號和所述源信號的子集分別分解成第一子帶信號集和第二子帶信號集；
對于所述第二子帶信號集中的每個子帶信號
估計所述子帶信號的子帶功率；以及
獲取一個或多個增益因子；以及
從所述一個或多個增益因子和子帶功率生成輔助信息。
29.如權利要求27或28所述的方法，其特征在于，獲取一個或多個增益因子進一步包括
使用所述子帶功率和來自所述第一子帶信號集的對應子帶信號估計一個或多個增益因子。
30.如權利要求27或28所述的方法，其特征在于，從一個或多個增益因子和子帶功率生成輔助信息進一步包括
量化并編碼所述子帶功率以生成輔助信息。
31.如權利要求27或28所述的方法，其特征在于，子帶的寬度基于人體聽覺。
32.如權利要求27或28所述的方法，其特征在于，分解所述音頻信號和源信號子集進一步包括
將所述音頻信號和源信號子集的樣本乘以窗函數(shù)；以及
對所述窗口樣本應用時頻變換以生成所述第一和第二子帶信號集。
33.如權利要求27或28所述的方法，其特征在于，分解所述音頻信號和源信號子集進一步包括
使用時頻變換處理所述音頻信號和源信號子集以產生譜系數(shù)；以及
將所述譜系數(shù)分組為數(shù)個分區(qū)以表示人體聽覺系統(tǒng)的不均勻頻率分辨率。
34.如權利要求33所述的方法，其特征在于，至少一個組具有等效矩形帶寬(ERB)近兩倍的帶寬。
35.如權利要求33所述的方法，其特征在于，所述時頻變換是來自包括以下各項的變換組的變換短時傅立葉變換(STFT)、正交鏡像濾波器編組(QMF)、修正離散余弦變換(MDCT)以及小波濾波器編組。
36.如權利要求27或28所述的方法，其特征在于，估計子帶信號的子帶功率進一步包括
對所述對應源信號進行短時平均化。
37.如權利要求36所述的方法，其特征在于，對所述對應源信號進行短時平均化進一步包括
使用指數(shù)衰減估計窗對所述對應源信號進行單極點平均化。
38.如權利要求27或28所述的方法，其特征在于，還包括
將所述子帶功率關于所述音頻信號的子帶信號功率歸一化。
39.如權利要求27或28所述的方法，其特征在于，估計子帶功率進一步包括
使用所述子帶功率的度量作為所述估計。
40.如權利要求27所述的方法，其特征在于，還包括
因變于時間地估計所述一個或多個增益因子。
41.如權利要求27或28所述的方法，其特征在于，量化和編碼進一步包括
從所述一個或多個增益因子確定增益和能級差；
量化所述增益和能級差；以及
編碼所述經量化的增益和能級差。
42.如權利要求27或28所述的方法，其特征在于，量化和編碼進一步包括
計算定義所述子帶功率關于所述音頻信號的子帶功率和所述一個或多個增益因子的因子；
量化所述因子；以及
編碼所述經量化的因子。
43.一種方法，包括
獲取具有對象集的音頻信號；
獲取表示所述對象的子集的源信號子集；以及
從所述源信號子集生成輔助信息。
44.一種方法，包括
獲取多聲道音頻信號；
使用表示源信號集在音場上的所需聲向的所需源能級差來確定所述源信號集的增益因子；
使用所述多聲道音頻信號來估計所述源信號集的直達聲向的子帶功率；以及
通過修改作為所述直達聲向和所需聲向的函數(shù)的所述直達聲向的子帶功率來估計所述源信號集中至少部分源信號的子帶功率。
45.如權利要求44所述的方法，其特征在于，所述函數(shù)是聲向的函數(shù)，其返回僅對于所需聲向情形才約為1的增益因子。
46.一種方法，包括
獲取混音音頻信號；
獲取用于對所述混音音頻信號再混音的混音參數(shù)集；
如果輔助信息可用，則
使用所述輔助信息和所述混音參數(shù)集對所述混音音頻信號再混音；
如果輔助信息不可用，則
從所述混音音頻信號生成盲參數(shù)集；以及
使用所述盲參數(shù)和所述混音參數(shù)集生成再混音音頻信號。
47.如權利要求46所述的方法，其特征在于，還包括
從所述盲參數(shù)或所述輔助信息生成再混音參數(shù)；以及
如果所述再混音參數(shù)是從所述輔助信息生成的，則
從所述再混音參數(shù)和所述混音信號生成所述再混音音頻信號。
48.如權利要求46所述的方法，其特征在于，還包括
對所述混音音頻信號上混音，以使所述再混音音頻信號具有比所述混音音頻信號更多的聲道。
49.如權利要求46所述的方法，其特征在于，還包括
向所述再混音音頻信號添加一個或多個效果。
50.一種方法，包括
獲取包括語音源信號的混音音頻信號；
獲取指定對所述語音源信號中一個或多個進行所需增強的混音參數(shù)；
從所述混音音頻信號生成盲參數(shù)集；以及
從所述盲參數(shù)和所述混音參數(shù)生成再混音參數(shù)；以及
向所述混音信號應用所述再混音參數(shù)以根據所述混音參數(shù)增強所述一個或多個語音源信號。
51.一種方法，包括
生成用于接收指定混音參數(shù)的輸入的用戶界面；
通過所述用戶界面獲取混音參數(shù)；
獲取包括源信號的第一音頻信號；
獲取輔助信息，所述輔助信息的至少一部分表示所述第一音頻信號與一個或多個源信號之間的關系；以及
使用所述輔助信息和所述混音參數(shù)對所述一個或多個源信號再混音以生成第二音頻信號。
52.如權利要求51所述的方法，其特征在于，還包括
從網絡資源接收所述第一音頻信號或輔助信息。
53.如權利要求51所述的方法，其特征在于，還包括
從計算機可讀介質接收所述第一音頻信號或輔助信息。
54.一種方法，包括
獲取具有對象集的第一多聲道音頻信號；
獲取輔助信息，所述輔助信息的至少一部分表示所述第一多聲道音頻信號與表示要被再混音的對象子集的一個或多個源信號之間的關系；
獲取混音參數(shù)集；以及
使用所述輔助信息和所述混音參數(shù)集生成第二多聲道音頻信號。
55.如權利要求54所述的方法，其特征在于，獲取所述混音參數(shù)集進一步包括
接收指定所述混音參數(shù)集的用戶輸入。
56.如權利要求54所述的方法，其特征在于，生成第二多聲道音頻信號包括
將所述第一多聲道音頻信號分解成第一子帶信號集；
使用所述輔助信息和所述混音參數(shù)集估計與所述第二多聲道音頻信號相對應的第二子帶信號集；以及
將所述第二子帶信號集轉換成所述第二多聲道音頻信號。
57.如權利要求56所述的方法，其特征在于，估計第二子帶信號集進一步包括
解碼所述輔助信息以提供與所述要被再混音的對象相關聯(lián)的增益因子和子帶功率估計；
基于所述增益因子、子帶功率估計和所述混音參數(shù)集確定一個或多個權重集；以及
使用至少一個權重集估計所述第二子帶信號集。
58.如權利要求57所述的方法，其特征在于，確定一個或多個權重集進一步包括
確定第一權重集的量級；以及
確定第二權重集的量級，其中所述第二權重集包括與所述第一權重集不同數(shù)目的權重。
59.如權利要求58所述的方法，其特征在于，還包括
將所述第一權重集與第二權重集的量級作比較；以及
基于所述比較結果選擇所述第一權重集和第二權重集之一用于估計所述第二子帶信號集。
60.一種方法，包括
獲取混音音頻信號；
獲取用于對所述混音音頻信號再混音的混音參數(shù)集；
使用所述混音音頻信號和所述混音參數(shù)集生成再混音參數(shù)；以及
通過使用n×n矩陣將所述再混音參數(shù)應用于所述混音音頻信號來生成再混音音頻信號。
61.一種方法，包括
獲取具有對象集的音頻信號
獲取表示所述對象的源信號；以及
從所述源信號生成輔助信息，所述輔助信息的至少一部分表示所述音頻信號與所述源信號之間的關系；
編碼包括至少一個源信號的至少一個信號；以及
向解碼器提供所述音頻信號、所述輔助信息以及所述經編碼的源信號。
62.一種方法，包括
獲取混音音頻信號；
獲取與所述混音音頻信號中的對象相關聯(lián)的經編碼源信號；
獲取用于對所述混音音頻信號再混音的混音參數(shù)集；
使用所述經編碼源信號、所述混音音頻信號和所述混音參數(shù)集生成再混音參數(shù)；以及
通過向所述混音音頻信號應用所述再混音參數(shù)來生成再混音音頻信號。
63.一種裝置，包括
解碼器，可配置用于接收輔助信息和用于從所述輔助信息獲取再混音參數(shù)，其中所述輔助信息的至少一部分表示第一多聲道音頻信號與用以生成所述第一多聲道音頻信號的一個或多個源信號之間的關系。
接口，可配置用于獲取混音參數(shù)集；以及
耦合至所述解碼器和所述接口的再混音模塊，所述再混音模塊可配置用于使用所述輔助信息和所述混音參數(shù)集對所述源信號再混音以生成第二多聲道音頻信號。
64.如權利要求63所述的裝置，其特征在于，所述混音參數(shù)集是由用戶通過所述接口指定的。
65.如權利要求63所述的裝置，其特征在于，還包括
至少一個濾波器編組，可配置用于將所述第一多聲道音頻信號分解成第一子帶信號集。
66.如權利要求65所述的裝置，其特征在于，所述再混音模塊使用所述輔助信息和所述混音參數(shù)集估計對應所述第二多聲道音頻信號的第二子帶信號集，并將所述第二子帶信號集轉換成第二多聲道音頻信號。
67.如權利要求66所述的裝置，其特征在于，所述解碼器解碼所述輔助信息以提供與所述要被再混音的源信號相關聯(lián)的增益因子和子帶功率估計，且所述再混音模塊基于所述增益因子、子帶功率估計和所述混音參數(shù)集確定一個或多個權重集，并使用至少一個權重集估計所述第二子帶信號集。
68.如權利要求67所述的裝置，其特征在于，所述再混音模塊通過確定第一權重集的量級和確定第二權重集的量級來確定一個或多個權重集，所述第二權重集包括與所述第一權重集不同數(shù)目的權重。
69.如權利要求68所述的裝置，其特征在于，所述再混音模塊將所述第一權重集與第二權重集的量級作比較，并基于所述比較結果選擇所述第一權重集和第二權重集之一用于估計所述第二子帶信號集。
70.如權利要求67所述的裝置，其特征在于，所述再混音模塊通過確定使所述第一多聲道音頻信號與所述第二多聲道音頻信號之間的差異最小化的權重集來確定一個或多個權重集。
71.如權利要求67所述的裝置，其特征在于，所述再混音模塊通過求解線性方程系來確定一個或多個權重集，其中所述方程系中的每個方程是乘積的和，且每個乘積是通過將子帶信號與權重相乘而形成的。
72.如權利要求71所述的裝置，其特征在于，所述線性方程系是使用最小平方估計來求解的。
73.如權利要求72所述的裝置，其特征在于，所述線性方程系的解提供由下式給出的第一權重w11
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y1是所述第二多聲道音頻信號的聲道。
74.如權利要求73所述的裝置，其特征在于，所述線性方程系的解提供由下式給出的第二權重w12
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y1是所述第二多聲道音頻信號的聲道。
75.如權利要求74所述的裝置，其特征在于，所述線性方程系的解提供由下式給出的第三權重w21
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y2是所述第二多聲道音頻信號的聲道。
76.如權利要求75所述的裝置，其特征在于，所述線性方程系的解提供由下式給出的第四權重w22
其中E{.}標示短時平均化，x1和x2是所述第一多聲道音頻信號的聲道，而y2是所述第二多聲道音頻信號的聲道。
77.如權利要求67所述的裝置，其特征在于，所述再混音模塊調節(jié)與所述第二子帶信號集相關聯(lián)的一個或多個能級差線索以匹配與所述第一子帶信號集相關聯(lián)的一個或多個能級差線索。
78.如權利要求67所述的裝置，其特征在于，所述再混音模塊限制所述第二多聲道音頻信號的子帶功率估計不低于所述第一多聲道音頻信號的子帶功率估計超過閾值。
79.如權利要求67所述的裝置，其特征在于，所述再混音模塊在使用所述子帶功率估計確定所述一個或多個權重集之前用大于1的值對所述子帶功率估計定標。
80.如權利要求63所述的裝置，其特征在于，所述解碼器接收包括經編碼多聲道音頻信號的比特流；并解碼所述經編碼多聲道音頻信號以獲取所述第一多聲道音頻信號。
81.如權利要求67所述的裝置，其特征在于，所述再混音模塊將所述一個或多個權重集在時間上進行平滑。
82.如權利要求81所述的裝置，其特征在于，所述再混音模塊控制所述一個或多個權重集在時間上的平滑以減少音頻失真。
83.如權利要求81所述的裝置，其特征在于，所述再混音模塊基于音調或平穩(wěn)性度量將所述一個或多個權重集在時間上進行平滑。
84.如權利要求81所述的裝置，其特征在于，所述再混音模塊確定所述第一多聲道音頻信號的音調或平穩(wěn)性度量是否超過閾值；并在所述度量超過所述閾值的情況下將所述一個或多個權重集在時間上進行平滑。
85.如權利要求63所述的裝置，其特征在于，所述解碼器將所述第一多聲道音頻信號與所述輔助信息同步。
86.如權利要求63所述的裝置，其特征在于，所述再混音模塊針對所述第一多聲道音頻信號的音頻聲道子集來再混音源信號。
87.如權利要求63所述的裝置，其特征在于，所述再混音模塊使用所述子帶功率估計和所述混音參數(shù)集來修改所述第一多聲道音頻信號的堂音的程度。
88.如權利要求63所述的裝置，其特征在于，所述接口獲取用戶指定增益和移位值；并從所述增益和移位值以及所述輔助信息確定所述混音參數(shù)集。
89.一種裝置，包括
接口，可配置用于獲取具有對象集的音頻信號和表示所述對象的源信號；以及
耦合至所述接口的輔助信息生成器，可配置用于從所述源信號生成輔助信息，所述輔助信息的至少一部分表示所述音頻信號與所述源信號之間的關系。
90.如權利要求89所述的裝置，其特征在于，還包括
至少一個濾波器編組，可配置用于將所述音頻信號和所述源信號的子集分別分解成第一子帶信號集和第二子帶信號集。
91.如權利要求90所述的裝置，其特征在于，對于所述第二子帶信號集中的每個子帶信號，所述輔助信息生成器估計所述子帶信號的子帶功率，并從所述一個或多個增益因子和子帶功率生成所述輔助信息。
92.如權利要求90所述的方法，其特征在于，對于所述第二子帶信號集中的每個子帶信號，所述輔助信息生成器估計所述子帶信號的子帶功率，獲取一個或多個增益因子，并從所述一個或多個增益因子和子帶功率生成所述輔助信息。
93.如權利要求92所述的裝置，其特征在于，所述輔助信息生成器使用所述子帶功率和來自所述第一子帶信號集的對應子帶信號估計一個或多個增益因子。
94.如權利要求93所述的裝置，其特征在于，還包括
耦合至所述輔助信息生成器的編碼器，可配置用于量化并編碼所述子帶功率以生成所述輔助信息。
95.如權利要求90的裝置，其特征在于，子帶的寬度基于人體聽覺。
96.如權利要求90所述的裝置，其特征在于，所述至少一個濾波器編組分解所述音頻信號和源信號子集包括將所述音頻信號和源信號子集的樣本乘以窗函數(shù)，并對所述窗口樣本應用時頻變換以生成所述第一和第二子帶信號集。
97.如權利要求90所述的裝置，其特征在于，所述至少一個濾波器編組使用時頻變換來處理所述音頻信號和源信號子集以產生譜系數(shù)，并將所述譜系數(shù)分組為數(shù)個分區(qū)以表示人體聽覺系統(tǒng)的不均勻頻率分辨率。
98.如權利要求97所述的裝置，其特征在于，至少一個組具有等效矩形帶寬(ERB)近兩倍的帶寬。
99.如權利要求97所述的裝置，其特征在于，所述時頻變換是來自包括以下各項的變換組的變換短時傅立葉變換(STFT)、正交鏡像濾波器編組(QMF)、修正離散余弦變換(MDCT)以及小波濾波器編組。
100.如權利要求93所述的裝置，其特征在于，所述輔助信息生成器計算所述對應源信號的短時平均。
101.如權利要求100所述的裝置，其特征在于，所述短時平均是所述對應源信號的單極點平均并且是使用指數(shù)衰減估計窗計算出的。
102.如權利要求92所述的裝置，其特征在于，所述子帶功率被關于所述音頻信號的子帶信號功率進行歸一化。
103.如權利要求92的裝置，其特征在于，所述估計子帶功率進一步包括
使用所述子帶功率的度量作為所述估計。
104.如權利要求92所述的裝置，其特征在于，所述一個或多個增益因子是因變于時間進行估計的。
105.如權利要求94所述的裝置，其特征在于，所述編碼器從所述一個或多個增益因子確定增益和能級差，量化所述增益和能級差，并將所述經量化的增益和能級差編碼。
106.如權利要求94所述的裝置，其特征在于，所述編碼器計算定義所述子帶功率關于所述音頻信號的子帶功率和所述一個或多個增益因子的因子，量化所述因子，并編碼所述經量化的因子。
107.一種裝置，包括
接口，可配置用于獲取具有對象集的音頻信號和表示所述對象的子集的源信號子集；以及
輔助信息生成器，可配置用于從所述源信號子集生成輔助信息。
108.一種裝置，包括
接口，可配置用于獲取多聲道音頻信號；以及
輔助信息生成器，可配置用于使用表示源信號集在音場上的所需聲向的所需源能級差來確定所述源信號集的增益因子，使用所述多聲道音頻信號來估計所述源信號集的直達聲向的子帶功率，以及通過修改作為所述直達聲向和所需聲向的函數(shù)的所述直達聲向的子帶功率來估計所述源信號集中至少部分源信號的子帶功率。
109.如權利要求108所述的裝置，其特征在于，所述函數(shù)是聲向的函數(shù)，其返回僅對于所需聲向情形才約為1的增益因子。
110.一種裝置，包括
參數(shù)生成器，可配置用于獲取混音音頻信號和用于對所述混音音頻信號再混音的混音參數(shù)集，并用于確定輔助信息是否可用；以及
耦合至所述參數(shù)生成器的再混音渲染器，可配置用于在輔助信息可用的情況下使用所述輔助信息和所述混音參數(shù)集對所述混音音頻信號再混音，而在輔助信息不可用的情況下接收盲參數(shù)集，并使用所述盲參數(shù)和所述混音參數(shù)集生成再混音音頻信號。
111.如權利要求110所述的裝置，其特征在于，所述再混音參數(shù)生成器從所述盲參數(shù)或所述輔助信息生成再混音參數(shù)，且如果所述再混音參數(shù)是從所述輔助信息生成的，則再混音渲染器從所述再混音參數(shù)和所述混音信號生成所述再混音音頻信號。
112.如權利要求110所述的裝置，其特征在于，所述再混音渲染器進一步包括
上-混音渲染器，可配置用于對所述混音音頻信號上混音以使所述再混音音頻信號具有比所述混音音頻信號更多的聲道。
113.如權利要求110所述的裝置，其特征在于，還包括
耦合至所述再混音渲染器的效果處理器，可配置用于向所述再混音音頻信號添加一個或多個效果。
114.一種裝置，包括
接口，可配置用于獲取包括語音源信號的混音音頻信號和指定對所述語音源信號中一個或多個進行所需增強的混音參數(shù)；
耦合至所述接口的再混音參數(shù)生成器，可配置用于從所述混音音頻信號生成盲參數(shù)集，并用于從所述盲參數(shù)和所述混音參數(shù)生成參數(shù)；以及
再混音渲染器，可配置用于向所述混音信號應用所述參數(shù)以根據所述混音參數(shù)增強所述一個或多個語音源信號。
115.一種裝置，包括
用戶界面，可配置用于接收指定至少一個混音參數(shù)的輸入；以及
再混音模塊，可配置用于使用輔助信息和所述至少一個混音參數(shù)對一個或多個源信號再混音以生成第二音頻信號。
116.如權利要求115所述的裝置，其特征在于，還包括
網絡接口，可配置用于從網絡資源接收第一音頻信號或輔助信息。
117.如權利要求115所述的裝置，其特征在于，還包括
接口，可配置用于從計算機可讀介質接收第一音頻信號或輔助信息。
118.一種裝置，包括
接口，可配置用于獲取具有對象集的第一多聲道音頻信號，獲取輔助信息，所述輔助信息的至少一部分表示所述第一多聲道音頻信號與表示要被再混音的對象子集的一個或多個源信號之間的關系；以及
耦合至所述接口的再混音模塊，可配置用于使用所述輔助信息和混音參數(shù)集生成第二多聲道音頻信號。
119.如權利要求118所述的裝置，其特征在于，所述混音參數(shù)集是由用戶指定的。
120.如權利要求118所述的裝置，其特征在于，還包括
至少一個濾波器編組，可配置用于將所述第一多聲道音頻信號分解成第一子帶信號集，其中所述再混音模塊被耦合至所述至少一個濾波器編組，并可配置用于使用所述輔助信息和所述混音參數(shù)集估計與所述第二多聲道音頻信號相對應的第二子帶信號集且將所述第二子帶信號集轉換成所述第二多聲道音頻信號。
121.如權利要求120所述的裝置，其特征在于，還包括解碼器，
可配置用于解碼所述輔助信息以提供與所述要被再混音的對象相關聯(lián)的增益因子和子帶功率估計，其中所述再混音模塊基于所述增益因子、子帶功率估計和所述混音參數(shù)集確定一個或多個權重集，并使用至少一個權重集估計所述第二子帶信號集。
122.如權利要求121所述的裝置，其特征在于，所述再混音模塊通過確定第一權重集的量級和確定第二權重集的量級來確定一個或多個權重集，其中所述第二權重集包括與所述第一權重集不同數(shù)目的權重。
123.如權利要求122所述的裝置，其特征在于，所述再混音模塊將所述第一權重集與第二權重集的量級作比較，并基于所述比較結果選擇所述第一權重集和第二權重集之一用于估計所述第二子帶信號集。
124.一種裝置，包括
接口，可配置用于獲取用于對混音音頻信號再混音的混音參數(shù)集；以及
耦合至所述接口的再混音模塊，可配置用于使用所述混音音頻信號和所述混音參數(shù)集生成再混音參數(shù)，并通過使用n×n矩陣將所述再混音參數(shù)應用于所述混音音頻信號來生成再混音音頻信號。
125.一種裝置，包括
接口，可配置用于獲取具有對象集的音頻信號和獲取表示所述對象的源信號；
耦合至所述接口的輔助信息生成器，可配置用于從所述源信號子集生成輔助信息，所述輔助信息的至少一部分表示所述音頻信號與所述源信號子集之間的關系；以及
耦合至所述輔助信息生成器的編碼器，可配置用于編碼包括至少一個對象信號的至少一個信號，并向解碼器提供所述音頻信號、所述輔助信息以及所述經編碼的對象信號。
126.一種裝置，包括
接口，可配置用于獲取混音音頻信號和獲取與所述混音音頻信號中的對象相關聯(lián)的經編碼源信號；以及
耦合至所述接口的再混音模塊，可配置用于使用所述經編碼源信號、所述混音音頻信號和所述混音參數(shù)集生成再混音參數(shù)，并通過將所述再混音參數(shù)應用于所述混音音頻信號來生成再混音音頻信號。
127.一種其上存儲有指令的計算機可讀介質，所述指令在由處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取具有對象集的第一多聲道音頻信號；
獲取輔助信息，所述輔助信息的至少一部分表示所述第一多聲道音頻信號與表示要被再混音的對象的一個或多個源信號之間的關系；
獲取混音參數(shù)集；以及
使用所述輔助信息和所述混音參數(shù)集生成第二多聲道音頻信號。
128.如權利要求127所述的計算機可讀介質，其特征在于，生成第二多聲道音頻信號包括
將所述第一多聲道音頻信號分解成第一子帶信號集；
使用所述輔助信息和所述混音參數(shù)集估計與所述第二多聲道音頻信號相對應的第二子帶信號集；以及
將所述第二子帶信號集轉換成所述第二多聲道音頻信號。
129.如權利要求128所述的計算機可讀介質，其特征在于，估計第二子帶信號集進一步包括
將所述輔助信息解碼以提供與所述要被再混音的對象相關聯(lián)的增益因子和子帶功率估計；
基于所述增益因子、子帶功率估計和所述混音參數(shù)集確定一個或多個權重集；以及
使用至少一個權重集估計所述第二子帶信號集。
130.一種其上存儲有指令的計算機可讀介質，所述指令在由處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取具有對象集的音頻信號；
獲取表示所述對象的源信號；以及
從所述源信號生成輔助信息，所述輔助信息的至少一部分表示所述音頻信號與所述源信號之間的關系。
131.如權利要求130所述的計算機可讀介質，其特征在于，生成輔助信息進一步包括
獲取一個或多個增益因子；
將所述音頻信號和所述源信號子集分別分解成第一子帶信號集和第二子帶信號集；
對于所述第二子帶信號集中的每個子帶信號
估計所述子帶信號的子帶功率；以及
從所述一個或多個增益因子和子帶功率生成輔助信息。
132.如權利要求131所述的計算機可讀介質，其特征在于，生成輔助信息進一步包括
將所述音頻信號和所述源信號的子集分別分解成第一子帶信號集和第二子帶信號集；
對于所述第二子帶信號集中的每個子帶信號
估計所述子帶信號的子帶功率；以及
獲取一個或多個增益因子；以及
從所述一個或多個增益因子和子帶功率生成輔助信息。
133.一種其上存儲有指令的計算機可讀介質，所述指令在由處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取具有對象集的音頻信號；
獲取表示所述對象的子集的源信號子集；以及
從所述源信號子集生成輔助信息。
134.一種其上存儲有指令的計算機可讀介質，所述指令在由處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取多聲道音頻信號；
使用表示源信號集在音場上的所需聲向的所需源能級差來確定所述源信號集的增益因子；
使用所述多聲道音頻信號來估計所述源信號集的直達聲向的子帶功率；以及
通過修改作為所述直達聲向和所需聲向的函數(shù)的所述直達聲向的子帶功率來估計所述源信號集中至少部分源信號的子帶功率。
135.如權利要求134所述的計算機可讀介質，其特征在于，所述函數(shù)是聲向的函數(shù)，其返回僅對于所需聲向情形才約為1的增益因子。
136.一種系統(tǒng)，包括
處理器；以及
耦合至所述處理器且包括指令的計算機可讀介質，所述指令在由所述處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取具有對象集的第一多聲道音頻信號；
獲取輔助信息，所述輔助信息的至少一部分表示所述第一多聲道音頻信號與表示要被再混音的對象的一個或多個源信號之間的關系；
獲取混音參數(shù)集；以及
使用所述輔助信息和所述混音參數(shù)集生成第二多聲道音頻信號。
137.如權利要求136所述的系統(tǒng)，其特征在于，生成第二多聲道音頻信號包括
將所述第一多聲道音頻信號分解成第一子帶信號集；
使用所述輔助信息和所述混音參數(shù)集估計與所述第二多聲道音頻信號相對應的第二子帶信號集；以及
將所述第二子帶信號集轉換成所述第二多聲道音頻信號。
138.如權利要求137所述的系統(tǒng)，其特征在于，估計第二子帶信號集進一步包括
解碼所述輔助信息以提供與所述要被再混音的對象相關聯(lián)的增益因子和子帶功率估計；
基于所述增益因子、子帶功率估計和所述混音參數(shù)集確定一個或多個權重集；以及
使用至少一個權重集估計所述第二子帶信號集。
139.一種系統(tǒng)，包括
處理器；以及
耦合至所述處理器且包括指令的計算機可讀介質，所述指令在由所述處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取具有對象集的音頻信號；
獲取表示所述對象的源信號；以及
從所述源信號生成輔助信息，所述輔助信息的至少一部分表示所述音頻信號與所述源信號之間的關系。
140.如權利要求139所述的系統(tǒng)，其特征在于，生成輔助信息進一步包括
獲取一個或多個增益因子；
將所述音頻信號和所述源信號子集分別分解成第一子帶信號集和第二子帶信號集；
對于所述第二子帶信號集中的每個子帶信號
估計所述子帶信號的子帶功率；以及
從所述一個或多個增益因子和子帶功率生成輔助信息。
141.如權利要求140所述的系統(tǒng)，其特征在于，生成輔助信息進一步包括
將所述音頻信號和所述源信號的子集分別分解成第一子帶信號集和第二子帶信號集；
對于所述第二子帶信號集中的每個子帶信號
估計所述子帶信號的子帶功率；以及
獲取一個或多個增益因子；以及
從所述一個或多個增益因子和子帶功率生成輔助信息。
142.一種系統(tǒng)，包括
處理器；以及
耦合至所述處理器且包括指令的計算機可讀介質，所述指令在由所述處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取具有對象集的音頻信號；
獲取表示所述對象的子集的源信號子集；以及
從所述源信號子集生成輔助信息。
143.一種系統(tǒng)，包括
處理器；以及
耦合至所述處理器且包括指令的計算機可讀介質，所述指令在由所述處理器執(zhí)行時致使所述處理器執(zhí)行操作，包括
獲取多聲道音頻信號；
使用表示源信號集在音場上的所需聲向的所需源能級差來確定所述源信號集的增益因子；
使用所述多聲道音頻信號來估計所述源信號集的直達聲向的子帶功率；以及
通過修改作為所述直達聲向和所需聲向的函數(shù)的所述直達聲向的子帶功率來估計所述源信號集中至少部分源信號的子帶功率。
144.如權利要求143所述的系統(tǒng)，其特征在于，所述函數(shù)是聲向的函數(shù)，其返回僅對于所需聲向情形才約為1的增益因子。
145.一種系統(tǒng)，包括
用于獲取具有對象集的第一多聲道音頻信號的裝置；
用于獲取輔助信息的裝置，所述輔助信息的至少一部分表示所述第一多聲道音頻信號與表示要被再混音的對象的一個或多個源信號之間的關系；
用于獲取混音參數(shù)集的裝置；以及
用于使用所述輔助信息和所述混音參數(shù)集生成第二多聲道音頻信號的裝置。
全文摘要
可修改與立體聲或多聲道音頻信號的一個或多個對象(例如，樂器)相關聯(lián)的一個或多個屬性(例如，移位、增益等)以提供再混音能力。
文檔編號G10L19/008GK101690270SQ200780015023
公開日2010年3月31日申請日期2007年5月4日優(yōu)先權日2006年5月4日
發(fā)明者C·法勒, 吳賢午, 鄭亮源申請人:Lg電子株式會社

完整全部詳細技術資料下載