專利名稱:聲道轉換的制作方法
技術領域:
本發(fā)明涉及音頻信號處理。特別是,本發(fā)明涉及表示一個聲場的M個輸入聲道至表示同一聲場的N個輸出聲道的轉換,其中每個聲道是表示由一個方向抵達的聲頻的單個音頻流,M和N是正整數(shù),且M至少為2。
背景技術:
雖然人類只有兩只耳朵,但我們能聽出實際三維的聲音,這依賴于多個定位提示,例如頭部相關的轉換函數(shù)(HRTF)和頭部運動。所以完全逼真的聲音再現(xiàn)要求保留并再現(xiàn)全三維聲場,或者至少需要被感覺的提示。不幸的是,聲音記錄技術不適應于獲取三維聲場,也不適應二維平面聲音的獲取,甚至不適應一維直線聲音的獲取。當前的聲音記錄技術只適合于獲取、保存和表現(xiàn)零維的離散聲道。
自從Edison發(fā)明聲音記錄以來關于改進逼真度的努力大多集中于克服其原始的模擬式紋道受調的圓柱體/圓盤媒體的缺陷。這些缺陷包括有限且不平坦的頻率響應,噪聲,失真,抖晃,速度精度,磨損,污垢和復制損害。雖然已有一些對于局部改進的零散努力,包括電子放大,磁帶記錄,減小噪音以及價格比某些汽車還高的放音機,但是各聲道質量的傳統(tǒng)問題在直到研發(fā)了一般的數(shù)字記錄,尤其是引入音頻光盤(CD)之前證明沒有最終解決。自研發(fā)了數(shù)字記錄特別是CD以來,除了進一步擴展數(shù)字記錄的質量到24比特/96kHz(千赫茲)取樣的一些努力之外,在聲音再現(xiàn)研究方面的主要努力集中于降低為保持各聲道質量所需之數(shù)據(jù)量—大都采用感知編碼器,以及提高空間逼真度。這后一個問題是本文的主題。
改進空間逼真度的努力已沿著兩條路線進行試圖傳送整個聲場的感知提示,以及試圖傳送實際的原始聲場的一個近似。采用前一方法的系統(tǒng)實例包括雙聲道記錄和基于兩個揚聲器的虛擬環(huán)繞聲系統(tǒng)。這些系統(tǒng)存在多個不幸的缺陷,尤其是在可靠地定位某些方向上的聲音方面,以及要求使用耳機或在單個的固定的聽位置上收聽方面。
無論是在一間居室中還是諸如電影院這樣的營業(yè)場所,為了再現(xiàn)立體聲給多位聽眾,唯一可行的方法是嘗試來近似實際的原始聲場。如果給定聲音記錄的離散信道特性,這是不會令人驚奇的目前大多數(shù)努力包括可謂保守地增加再現(xiàn)聲道的數(shù)量。表示性系統(tǒng)包括50年代早期的移動-單聲道三揚聲器電影膠片音軌,常規(guī)立體聲,60年代的四聲道立體聲,70毫米電影膠片上的五聲道離散磁性音軌,70年代采用矩陣的杜比環(huán)繞聲,90年代的AC-3 5.1聲道環(huán)繞聲和近來的環(huán)繞-EX6.1聲道環(huán)繞聲?!癉olby”(杜比)、“Pro Logic”和“Surround EX”(環(huán)繞-EX)是Dolby實驗室特許公司的商標。在不同程度上,這些系統(tǒng)提供比單聲道再現(xiàn)改善了的空間再現(xiàn)。然而大量聲道的混音導致更多時間和費用負擔在內容制作者身上,并且導致的感受典型的是幾個分散的離散聲道中的一個,而不是一個連續(xù)的聲場。Dolby的Pro Logic解碼被描述在美國專利4,799,260中,該專利全部內容在此作為參考。AC-3的詳細內容描述在先進電視系統(tǒng)委員會(ATSC)1995年12月20日公布的文檔A/52“數(shù)字音頻壓縮標準(AC-3)”中(可在互聯(lián)網(wǎng)的萬維網(wǎng)網(wǎng)址www.atsc.org/Standards/A52/a-52.doc得到)。也可見1999年7月22日的勘誤表(可在互聯(lián)網(wǎng)的萬維網(wǎng)網(wǎng)址www.dolby.com/tech/ATSC err.pdf得到)。
本發(fā)明的基礎概述在一個無信源的波介質中重建一個任意分布的基礎由一個高斯定理提供,此定理規(guī)定在某個區(qū)域內的波場完全由沿區(qū)域邊界的壓力分布確定。這意味著,在一間居室的范圍內重建音樂廳中的聲場原理上可如此實現(xiàn)在音樂廳內設置居室,墻是隔音的,然后通過在墻的外側配置無限個極小話筒而使墻變成聲學上透明的,每個話筒信號經(jīng)適當放大后連接到一個在居室墻內的對應揚聲器。通過在話筒和揚聲器之間插入一個適當?shù)挠涗浢襟w,一個圓滿的—可能是不切實際的—精確三維聲音再現(xiàn)系統(tǒng)被實現(xiàn)了。剩下的設計工作是使此系統(tǒng)變?yōu)閷嵱玫摹?br>
邁向實用化的第一步可通過注意到感興趣的信號是頻帶受限的—上限約20kHz,并應用空間取樣定理來完成,空間取樣定理是更常用的時域取樣定理的變型。后者是說,如果一個連續(xù)的限帶的時域波形以至少兩倍于信源最高頻率的速率被離散地取樣,則不丟失信息??臻g取樣定理出于相同的考慮,它規(guī)定空間取樣間隔必須至少為最短波長密度的兩倍密度,以避免信息的丟失。因為20kHz的波長在空氣中約為3/8英寸,這意味著一個精確的三維聲音系統(tǒng)可用間隔不大于3/16英寸的話筒和揚聲器的陣列實現(xiàn)。擴展到一個典型的9英尺×12英尺房間的所有表面,這產(chǎn)生大約2.5百萬個聲道,這對于無限個而言是明顯的改進,但目前仍是不實際的??墒?,它建立了利用作為空間取樣的離散聲道陣列的基本方法,根據(jù)該方法,應用適當?shù)膬炔蹇梢栽偕晥觥?br>
一旦聲場被表征,原理上這是可能的一個解碼器產(chǎn)生最佳信號饋給任一輸出揚聲器。饋送到這樣一個解碼器的聲道在本文件不同地方被稱為“基本”、“被傳送的”和“輸入”聲道,并且位置不對應于基本的聲道中的一個聲道的位置的任何輸出信道將被稱為一個“中間”聲道。一個輸出聲道也可以有一個與一個基本輸入聲道相一致的位置。
所以要求減少離散聲道空間取樣或基本聲道的數(shù)目。實現(xiàn)這一點可以基于以下事實在1500Hz(赫茲)以上聽覺不再跟隨各個周期,而只跟隨臨界頻帶包絡。這允許聲道間隔與1500Hz相對應,大約為3英寸。這將減小9英尺×12英尺房間的聲道總數(shù)到大約6000個,相比于前面的配置,有效地減少了約2.49百萬個聲道。
在任何情況下,理論上可借助于心理聲學的定位極限而進一步縮減空間取樣聲道數(shù)。對于居中的聲音,水平的分辨力極限約為1度的弧,對應的垂直分辨力極限約為5度。如果這個密度適當?shù)財U展在一個球面上,結果將仍然是數(shù)百到數(shù)千個聲道。
發(fā)明內容
按照本發(fā)明,一個處理將表示一個聲場的M個輸入聲道轉換為表示同一聲場的N個輸出聲道,其中每個聲道是表示由一個方向抵達的聲音的單個音頻流,M和N是正整數(shù),且M至少為2。一組或多組輸出聲道被產(chǎn)生,每一組有一個或多個輸出聲道。每一組與兩個或更多的空間上相鄰的輸入聲道相聯(lián)系,并且一組中的每個輸出聲道由一個處理產(chǎn)生,此處理包括確定兩個或更多個輸入聲道的相關性度量和兩個或更多個輸入聲道的電平相互關系。
在本發(fā)明的一個方面,多組輸出聲道被聯(lián)系于多于兩個的輸入聲道,并且其處理按照分級次序確定與每組輸出聲道聯(lián)系的那些輸入聲道的相關性,使得每組或多組按照輸入聲道的個數(shù)被排序,這些輸入聲道被聯(lián)系于這組輸出聲道(一個或多個)。輸入聲道的最大數(shù)目對應最高階次,處理過程根據(jù)其分級次序依序處理各組。此外按照本發(fā)明的一個方面,處理過程考慮對較高階次的組處理的結果。
本發(fā)明的放音或解碼方面假設M個表示由一個方向抵達的聲音的輸入聲道中每一個由每個源方向的一個被動-矩陣的最近-相鄰的幅度-跟隨編碼產(chǎn)生(即一個源方向是被假設主要映射最鄰近的基本聲道(一個或多個)),而不需要附加側鏈信息(側鏈或輔助信息的利用是可選的),從而它與現(xiàn)有混音的技術、控制臺和格式兼容。雖然這些源信號可以通過直接使用一個被動編碼矩陣產(chǎn)生,大多數(shù)常用的記錄方法固有產(chǎn)生這些源信號(所以,構成一個“有效編碼矩陣”)。本發(fā)明的放音或解碼方面也與自然記錄的源信號大都兼容,例如用5個實際的定向話筒記錄的信號,因為允許某些可能的時延,從中間方向抵達的聲音傾向于主要映射到最鄰近的話筒(在一個水平陣列中,明確地映射到最鄰近的一對話筒中)。
按照本發(fā)明的一個解碼器或解碼處理可以被實現(xiàn)為相連的處理模塊或模塊功能(以后稱為“解碼模塊”)的網(wǎng)格,每一個解碼模塊被用于從與該解碼模塊相聯(lián)的兩個或更多的空間上最鄰近的基本聲道產(chǎn)生一個或多個輸出聲道(或者產(chǎn)生可用于產(chǎn)生一個或多個輸出聲道的控制信號)。輸出聲道體現(xiàn)關聯(lián)到具體解碼模塊的空間上最鄰近的基本信道中音頻信號的相對比例。如下面更詳細解釋的那樣,在模塊共享節(jié)點和存在解碼模塊分級的意義上解碼模塊互相松散耦合。模塊按照與其相聯(lián)系的基本聲道的數(shù)目被分級排序(具有最多數(shù)目相關基本聲道的一個模塊或多個模塊有最高階次)。一個管理程序功能如此管理這些模塊公共節(jié)點信號被公平地共享,并且較高階次的解碼器模塊可以影響較低階次模塊的輸出。
每個解碼器模塊可以有效地包括一個矩陣,使得它直接產(chǎn)生輸出信號,或者每個解碼器模塊可產(chǎn)生控制信號,這些控制信號與其它解碼器模塊產(chǎn)生的控制信號一起被用于改變一個可變矩陣的系數(shù)或改變輸入到一個固定矩陣的或從一個固定矩陣輸出的比例因子,以產(chǎn)生所有的輸出信號。
解碼器模塊模仿人耳的工作,力求給出感覺透明的再現(xiàn)。每個解碼器模塊可被實現(xiàn)為或者寬頻帶的或者多頻帶的結構或功能,在后者情況下或者用一個連續(xù)的濾波器組,或者用一個塊結構,例如采用諸如在每個頻帶上做相同實質處理的一個基于變換的處理器。
雖然基礎發(fā)明一般涉及M個輸入聲道至N個輸出聲道的空間轉換,其中M和N是正整數(shù),且M至少為2,該發(fā)明的另一內容是通過合宜地依靠虛擬映像,接收N個輸出聲道的揚聲器數(shù)量可減小到一個實用的數(shù)值,即在未放置揚聲器的空間位置上形成感覺到的聲像。虛擬映像最普通的應用是通過在聲道之間移動一個單聲信號立體再現(xiàn)兩個揚聲器之間的一個映像的軌跡。虛擬映像對于具有少量聲道的群再現(xiàn)來說不被認為是一種可行的方法,因為它要求收聽者與兩個揚聲器等距離或近似等距。例如,在電影院中左前方和右前方的揚聲器對于大多數(shù)聽眾獲得一個中央聲像的有用的幻像而言相距太遠了,因此作為許多對話源的中央聲道是重要的,一個物理的中央揚聲器被使用。
然而,當揚聲器的密度被增大時,對大多數(shù)聽眾來說,至少對于平滑移動的范圍,可在任何一對揚聲器之間出現(xiàn)虛擬映像的位置將可達到;揚聲器足夠時,揚聲器之間的間隙不再能被感知。這樣的一個陣列具有對比前面推出的二百萬的陣列幾乎不能區(qū)分的潛力。
為了測試本發(fā)明的效果,我們開發(fā)了一個水平陣列,每面墻上5個揚聲器,考慮公用的角落揚聲器,總共16個,加上以大約45度的垂直角置于收聽者上方的一圈6個揚聲器,再加上直接在收聽者上方的單個揚聲器,共23個,加上一個超重低音揚聲器(LFE聲道),總計24個,所有聲道都由用于24聲道放音的一臺PC(個人計算機)饋給。雖然按現(xiàn)在的說法這個系統(tǒng)可被叫作23.1聲道系統(tǒng),為了簡單,這里它將被稱為一個24聲道系統(tǒng)。
圖1是一個頂視圖,它簡示出符合上面所述測試安排的一個理想化的解碼結構。5個水平廣范圍的基本聲道作為外國上的方塊1’、3’、5’、9和13’被示出。一個垂直聲道被示作中心處的虛線方塊23’,該聲道可能由5個廣范圍的基本聲道通過相關或所產(chǎn)生的混響而導出,或者單獨提供。23個寬范圍輸出聲道由相應數(shù)字1-23標出的實心圓示出。外圓上16個輸出聲道在一個水平面上,內圓上6個輸出聲道在水平面上方45度。輸出聲道23直接在一個或多個聽眾上方。5個兩輸入解碼模塊由外圓上箭頭24-28示出,它們連接在每一對水平基本聲道之間。5個附加的兩輸入垂直解碼模塊由箭頭29-33示出,連接垂直聲道到水平聲道中的每一個。被升高的中央靠后的聲道即輸出聲道21由一個三輸入解碼模塊導出,它由輸出聲道21與基本聲道9、13和23之間的箭頭示出。所以每個模塊與相應的一對或三個空間上最鄰近的基本聲道相關聯(lián)。雖然圖1中示出的解碼模塊有3個、4個或5個輸出聲道,但一個解碼模塊可有任意合理個數(shù)的輸出聲道。一個輸出聲道可定位于一個或多個基本聲道中間或在與一個基本聲道相同的位置上。所以在圖1例中,每一個基本聲道位置上也有一個輸出聲道。每個輸入聲道被兩個或三個解碼模塊共享。
如將要討論的,本發(fā)明的設計目標是放音處理器應能原則上工作于任意個數(shù)的揚聲器及其排列結構,24聲道的陣列將用來作為一個說明例,但不是按照本發(fā)明取得一個令人信服的連續(xù)被感知的聲場所需要的密度和排列結構的唯一例子。
能夠應用大的且可以由用戶選擇的放音聲道個數(shù)這一要求提出了離散聲道個數(shù)問題和/或其它信息,這些必須被傳達給放音處理器,以便它至少作為一個選項導出上面描述的24個聲道。顯然,一種可能的方法是簡單地傳送24個離散信道,但除了信息生產(chǎn)者必須混合這樣多個獨立的聲道可能是很麻煩的,并且傳送如此多的聲道對于傳輸媒體也可能是麻煩的之外,最好不這樣,因為24聲道結構只是許多可能中的一種,并且需要能由一個公共的傳送信號陣列產(chǎn)生較多或較少的放音聲道。
再生輸出聲道的一個途徑是應用正式的空間內插,為每個輸出產(chǎn)生一個被傳送聲道的固定加權和,假設這些聲道的密度足夠大,大到能夠允許這樣做。然而,這將需要數(shù)以千計到數(shù)以百萬計的被傳送聲道,相當于用數(shù)百個抽頭的FIR濾波器實現(xiàn)單個信號的時域內插。被傳送聲道減少到實用數(shù)量需要應用心理聲學原理和由足夠少的聲道更積極的動態(tài)內插,但仍然沒有回答以下問題為了產(chǎn)生一個完好的聲場感覺需要多個聲道。
這個問題被幾年前本發(fā)明人完成的、并最近被其它人重復的一個實驗回答了。至少較早實驗的基礎是觀察到傳統(tǒng)的兩聲道雙耳記錄能再現(xiàn)真實的左/右聲像分布,但是導致不穩(wěn)定的前/后位置確定,部分因為所用HRTF的不完善,并且沒有頭部運動提示。為避開此缺陷,一個雙-雙耳(4聲道)記錄被實現(xiàn),它用相距對應人頭部尺寸的兩對定向話筒。一對話筒面朝前,另一對面朝后。得到的記錄在靠近頭部隔開的4個揚聲器上放音,以減輕聲學交叉耦合效應。此結構從每一對揚聲器給出真實的左/右定時和幅度定位提示,話筒和揚聲器的對應的離散位置給出清楚的前/后信息。此結果是一個非常令人信服的環(huán)繞聲放音,只是缺少高度信息的適當表現(xiàn)。最近其它人的實驗加進一個中央正前聲道和兩個高度聲道,給出了同樣的真實感,甚至可能由于加進了高度信息而改善了。
所以,從心理聲學考慮和實驗提供的證據(jù)兩方面,看來相關的感覺信息可以在大概4至5個“類似雙耳”的水平聲道,再加上一個或多個垂直聲道中被傳遞。然而,雙耳聲道對的信號交叉饋送特性使得它們不適合于直接給一組揚聲器放音,因為在中間頻率范圍和在低頻只有非常小的隔離度。因而與在編碼器引入交叉饋送(像對一個雙耳對所做的那樣)以只需在解碼器取消它相比,這是更為簡單的和更加直接的保持聲道相互隔離并從最近的被傳送聲道混合輸出聲道信號。這樣做不僅可以通過同樣個數(shù)的揚聲器而不用解碼器來直接放音,如果需要,還對少數(shù)聲道用一個被動矩陣解碼器進行可選用的下混,而且它基本對應于現(xiàn)有的5.1聲道的標準排列結構,至少在水平面上是對應的。它也廣泛兼容于自然記錄,例如可用5個實際的定向話筒實施的記錄,因為允許某些可能的時延,由中間方向抵達的聲音將傾向于主要映射到最近的話筒(在水平陣列中,尤其是映射到最近的一對話筒)。
所以,從感覺的角度看,這應是可能的一個聲道轉換解碼器接受一個標準的5.1聲道節(jié)目,并通過任意個數(shù)的水平排列的揚聲器—包括前述24聲道陣列中的16個水平揚聲器—實現(xiàn)有說服力的放音。通過附加一個垂直聲道,就像有時為一個數(shù)字電影系統(tǒng)所建議的那樣,可以對全部24聲道陣列饋送分別導出的、感覺有效的信號,這些信號一起產(chǎn)生一個在大多數(shù)收聽位置上感覺到的連續(xù)聲場。當然,如果在編碼現(xiàn)場可以得到精細結構的源聲道,關于它們的附加信息可被用來有效地改變編碼矩陣定標因子,以預補償解碼器的局限性,或者可以簡單地包括進來作為附加的側鏈(輔助)信息,可能類似于用在AC-3(Dolby Digital)多聲道編碼中的耦合坐標,但是在感覺上這樣的附加信息應是不必要的;并且實際上,包含這種信息的要求是不需要的。聲道轉換解碼器的所需工作不局限于用5.1聲道的信源工作,并可以用較少或較多的聲道,但是至少有理由相信,可靠的性能可從5.1聲道信源獲得。
剩下的未回簽的一個問題是如何由被傳送聲道的稀疏陣列提取中間的輸出聲道。本發(fā)明的一個方面所建議的解決方案是再利用虛擬映象的概念,但是稍微作些變化。先前已注意到,虛擬映像對于用稀疏的揚聲器陣列進行群放音是不適用的,因為它要求收聽者與每個揚聲器的距離近似相等。但是它經(jīng)過改造可對不規(guī)則地就座的一個收聽者給出中間幻像聲道的感覺,這是對于那些振幅已經(jīng)在最近的實際輸出聲道之間移動的信號。所以在本發(fā)明的一個方面中建議聲道轉換解碼器包括一系列模塊化的內插信號處理器,每個處理器有效模仿一個最佳就座的收聽者,并且每個以模仿人類聽覺系統(tǒng)的方法工作,以由振幅移動的信號提取那些將形成虛擬映像的成份,并將它們饋給實際的揚聲器;揚聲器最好足夠密地排列,使得自然的虛擬映象能充滿在揚聲器之間剩余的間隙中。
一般,每個解碼模塊由最鄰近的被傳送基本聲道導出其輸入,例如,對于一個天幕式(在頂上的)揚聲器陣列,可以是3個或更多的基本聲道。產(chǎn)生與多于兩個的基本聲道有關系的輸出聲道的一種方法可以是進行一系列成對的操作,例如,某些成對解碼模塊的輸出饋給其它模塊的輸入。然而,這有兩個缺點。一個缺點是級聯(lián)解碼模塊引入多個級聯(lián)的時間常數(shù),導致某些輸出聲道比其它聲道反應更快,從而引起聲音位置假象。第二個缺點是成對相關只能沿著一對聲道之間直線安插中間的或導出的輸出聲道;三個或更多基本聲道的應用超出了這個限制。因此,通常成對相關的一個擴展已被開發(fā),用于相關三個或更多的輸出信號,這個技術在下面被說明。
人耳中的水平定位主要基于兩個定位提示兩耳間振幅差和兩耳間時間差。后者僅對于時間上近似對準的—差+600微秒左右—信號對有效。實際效果是幻像的中間映像將只出現(xiàn)在對應于一個具體的左/右振幅差的位置上,假定在兩個真實聲道中公共的信號成份是相關的或者近似相關的(注兩個信號可以有+1到-1之間的交叉相關值。完全相關的信號(相關值=1)有相同波形且時間上對準,但是可以有不同的幅度,對應于偏離中心的映像位置)。當一個信號對的相關值低于1時,感覺到的映像將展寬,直到對于兩個不相關的信號,將不存在中間映像,只有分離的且不同的左和右映像。負的相關通常被耳朵處理為類似于不相關的信號對,雖然這兩個映像可在更寬范圍內擴展。相關被實現(xiàn)在一個臨界頻帶基礎上,且在約1500Hz以上,臨界頻帶信號包絡被用來代替信號本身,以節(jié)省人類計算需求(MIPS)。
垂直定位更復雜一點,依賴于HRTF頂提示和水平提示隨頭部運動的動態(tài)調制,但是最終的效應類似于水平定位相對于移動的振幅、交叉相關以及相應感覺到的映像位置和匯合。然而垂直空間分辨力精度低于水平分辨力,并且為了適當?shù)膬炔逍阅埽恍枰敲疵艿幕韭暤狸嚵小?br>
利用定向的處理器—它模仿人耳的工作—的好處是信號處理的任何不完善或限制應能通過人耳的類似的不完善和限制在感覺上掩飾掉,從而允許下述可能性系統(tǒng)被感覺與原來的完全連續(xù)的放音幾乎沒有區(qū)別。
雖然本發(fā)明被設計能有效地應用于不管多或少的輸出聲道可用的情形(包括不解碼而由與輸入聲道同樣多的揚聲器進行的放音,以及被動的下混到較少的聲道,包括單聲,立體聲和兼容Lt/Rt的環(huán)繞聲),最好力求使用多的和有點隨意的、然而實用的個數(shù)的放音聲道/揚聲器,并且使用類似或更少個數(shù)的編碼聲道,包括現(xiàn)有的5.1聲道環(huán)繞聲道,以及可能的下一代11或12聲道數(shù)字電影聲道作為源材料。
本發(fā)明的實施要求體現(xiàn)四個原理誤差遏制,優(yōu)勢保持,恒定功率和同步平滑。
誤差遏制的概念是在給定的解碼錯誤可能性下,每個源的解碼后位置應該在合理的意義下接近其真實的預期方向。這規(guī)定了解碼策略中一定程度的保守性。存在更為積極的解碼,它們伴隨著錯誤事件中可能更大的空間上的不一致,通常推薦接受較小精度的解碼,以換取確保的空間遏制。甚至在更高精度的解碼有把握被應用的情況下,如果存在著動態(tài)信號條件要求解碼器在積極的和保守的方式之間接合以生成人造聲像的可能,應用更高精度的解碼可能是不明智的。
優(yōu)勢保持是誤差遏制的一個更為有約束力的變種,它要求單個的良好確定的優(yōu)勢信號應能被解碼器只移動到最鄰近的那些輸出聲道中。這個條件對于保持優(yōu)勢信號的映像匯合是必要的,并且有利于感覺出矩陣解碼器的離散性。當一個信號是占優(yōu)勢的時候,它被從其它輸出聲道中抑制掉,方法是或者從相關基本信號中減去它,或者直接使其它輸出聲道的矩陣系數(shù)互補于用于產(chǎn)生優(yōu)勢信號的矩陣系數(shù)(“反優(yōu)勢系數(shù)/信號”)。
恒定功率解碼不僅要求總的解碼輸出功率等于輸入功率,而且要求在傳送的基本陣列中被編碼的每個聲道和定向信號的輸入/輸出功率相等。這使增益變化產(chǎn)生的假象最小。
同步平滑意味著對系統(tǒng)施加與信號相關的平滑時間常數(shù),并且要求如果一個解碼模塊中的任一平滑網(wǎng)絡被切換到快速時間常數(shù)模式,在此模塊中的所有其它平滑網(wǎng)絡同樣被切換。這是為了避免新占優(yōu)的定向信號呈現(xiàn)緩慢衰落/離開以前的優(yōu)勢方向。
圖1是一個示意圖,示出一個理想化的解碼器安排結構的俯視圖。
具體實施例方式
解碼模塊因為編碼任一源方向被假設為主要映射到最鄰近的聲道上,聲道轉換解碼是基于一系列半自動的解碼模塊,它們在通常的意義上再生輸出聲道,尤其是中間輸出聲道,每一個輸出聲道通常由所有被傳送聲道的一個子集,以類似于人耳的方法求出。
以類似于人耳的方法,解碼模塊的工作基于幅度比和交叉相關的結合,幅度比用于確定標稱的當前主方向,交叉相關用于確定映像的相對寬度。
應用由幅度比和交叉相關求出的控制信號,處理器產(chǎn)生輸出聲道的聲音信號。因為這最好基于線性關系實現(xiàn),以避免產(chǎn)生失真,解碼器形成包含有感興趣信號的基本聲道的加權和。(像下面解釋的那樣,也可要求在計算加權和中也包括非鄰近的基本聲道)。這個有限的但動態(tài)的內插方式更常被稱為矩陣化。如果在信源中,需要的信號被映射(振幅移動)到最鄰近的M個基本聲道中,則是一個M:N矩陣解碼的問題。換言之,輸出聲道表示輸入聲道相對比例。
特別是在兩輸入解碼模塊的情況中,它很象有源的2:N矩陣解碼器涉及的問題,例如新型號的Dolby Pro Logic矩陣解碼器,它具有成對的解碼模塊輸入端對應于Lt/Rt編碼信號。
注意2:N矩陣解碼器的輸出有時稱為基本聲道。然而在本文中用“基本”來稱呼聲道轉換解碼器的輸入聲道。
然而,在現(xiàn)有技術的自主2:N解碼器與本發(fā)明解碼模塊的工作之間至少有一個有意義的區(qū)別。前者除了用左/右幅度指示左/右位置,這一點也是聲道轉換解碼器的假設,它們還用相互聲道的相位指示前/后位置,特別是基于Lt/Rt編碼聲道的和/差比。
這種自主2:N解碼器結構有兩個問題。一個問題是,例如完全相關的(前方的),但是偏離中心的信號將導致和/差比小于無限大,從而不正確地指示一個不完全在前方的位置(類似于完全反相關的偏離中心的背后信號)。結果是一個有點變形的解碼空間。第二個缺點是,位置映射是多對一的,引入固有的解碼錯誤。例如在一個4:2:4矩陣系統(tǒng)中,一對沒有前-入或背-入的非相關的左-入和右-入信號將映射與信號相同的純凈的,非相關的Lt/Rt對,也可映射一個沒有左-入/右-入的非相關的前-入/后-入對,或者映射所有4個不相關輸入的內容。解碼器面對一個不相關的Lt/Rt對沒有選擇,而“放松此矩陣”,即用一個被動矩陣分配聲音到所有輸出聲道上。不可能解碼為一個同時只有左-出/右-出,或只有前-出/背-出的信號陣列。
根本的問題在于,在N:2:N矩陣系統(tǒng)中應用相互聲道的相位來編碼前/后位置,這不同于人耳的工作,人耳不用相位來判別前/后位置。本發(fā)明最好用至少三個不在一條直線上的基本聲道來工作,使得前/后位置由基本聲道的設定方向指示,而不是根據(jù)它們的相對相位或極性給出不同的方向,這樣,一對不相關的或反-相關的聲道轉換的基本信號明確地解碼為分離的基本-輸出聲道信號,沒有中間信號,也沒有“后方的”方向被指示。(此外,這避免了自主2:N解碼器中令人遺憾的“中心聚集”效應,其中不相關的左-入和右-入信號以減小了的分離度被放音,因為解碼器饋送這兩個信號的和及差給中心和周圍的聲道。)當然,原則上可以通過用一個N:M聲道轉換系統(tǒng)與一個2:N解碼器-N=4或5-級聯(lián)來在空間上擴展一個Lt/Rt信號,但是在此情況下,2:N解碼器的任何局限性—例如中心聚集—將被帶到倍增的聲道輸出上,也可以組合這些功能到一個設計來接收2聲道Lt/Rt信號的聲道轉換解碼器,并且在此情況下改變其特性以解釋負的相關信號為具有后方的定向,保持其它的處理不變。然而,甚至在此情況下仍然存在由只有兩個被傳送的聲道所導致的解碼模糊。
所以,每個解碼模塊,尤其是具有兩個輸入聲道的解碼模塊類似于現(xiàn)有有源2:N解碼器,具有前/后檢測禁用或變更的,任意個數(shù)的輸出聲道。當然數(shù)字上不可能用矩陣從較少個數(shù)的聲道唯一地產(chǎn)生較多個數(shù)的聲道,因為這基于解N個具有M個未知數(shù)的線性方程,而M大于N。所以期望的是,解碼模塊在存在多個自主的源方向信號時可能有時呈現(xiàn)不太好的聲道復原。然而人類聽覺系統(tǒng)受使用兩耳的局限,將承受同樣的,允許系統(tǒng)被感覺為離用的極限,甚至用所有聲道工作時也如此。當其它聲道被靜音時分離的聲道質量仍然是要考慮的,這是為了照顧到坐在一個揚聲器近處的收聽者。
人耳的工作肯定是與頻率有關的,但是大多數(shù)聲像在所有頻率上被相關,而且根據(jù)作為寬帶系統(tǒng)的Pro logic解碼器成功的經(jīng)驗性實驗,可以預期一個寬頻帶的聲道轉換系統(tǒng)可能在某些應用中也有令人滿意的性能。多頻帶聲道轉換解碼器應該也是可能的,采用在逐個頻帶的基礎上類似的處理,并在每個情況下應用相同的編碼信號,單個頻帶的個數(shù)和帶寬可作為一個自由參數(shù)留給解碼器實現(xiàn)者。雖然多頻帶處理可能比寬帶處理要求更高的MIPS,如果輸入信號被分成數(shù)據(jù)塊,并且處理基于塊實現(xiàn),則計算需求量可能不太高。
在說明可被本發(fā)明解碼模塊使用的算法之前,首先給出對共享節(jié)點的考慮。
共享節(jié)點如果解碼模塊所用的基本聲道組都是獨立的,則解碼模塊本身應是獨立的,自主的實體。然而通常不是這種情況。一個給定的被傳遞聲道通常將與兩個或更多的相鄰基本聲道一起被分離的輸出信號享用。如果獨立的解碼模塊被用來解碼此陣列,每一個將被相鄰聲道的輸出信號影響,導致可能是嚴重的錯誤。在功能上,兩個相鄰解碼模塊的輸出信號將“拉”向—或移向—另一個,因為公共基本節(jié)點包含兩個信號,使電平增加。如果—這里經(jīng)常發(fā)生的情況—信號是動態(tài)的,互作用的量將大到導致與信號有關的動態(tài)定位誤差大到令人不愉快。這個問題在ProLogic和其它有源的2:N解碼中不存在,因為它們只有單個的分離的聲道對作為解碼器輸入。
所以,補償“共享節(jié)點”效應是必要的。一個可能的方法是,在試圖再生一個共享公共節(jié)點的相鄰解碼模塊的輸出信號之前,從公共節(jié)點中減去一個已再生的信號。這通常是不可能的,因而改用以下方法每個解碼模塊預測出現(xiàn)在共輸入聲道上的公共輸出信號能量,并且一個管理程序通知每個模塊它的相鄰模塊的輸出信號能量估計。
公共能量的成對計算例如,假設基本聲道對A/B包含一個公共信號X以及單獨的不相關的信號Y和ZA=0.707X+YR=0.707X+Z其中定標因子0.707=0.5]]>提供了一個功率對最鄰近基本聲道保持映射。
RMS能量(A)=∫A2∂t=A2‾=(0.707X+Y)2‾=(0.5X2+0.707XY+Y2)‾]]>=0.5X2‾+0.707XY‾+Y2‾]]>因為X和Y不相關,XY=0,所以A2‾=0.5X2‾+Y2‾.]]>即,因為X和Y不相關,基本聲道A中的總能量是信號X和Y的能量和。類似地B2‾=0.5X2‾+Z2‾]]>因為X,Y和Z是不相關的,A和B的平均交叉乘積為AB‾=0.5X2‾]]>這樣,在一個輸出信號被兩個相鄰的基本聲道—它們也可包含獨立的,不相關的信號—均分享用的情況下,信號的平均交叉一乘積等于公共信號分量在每個聲道中的能量。如果公共信號不是均分地被共享,即它偏向一個基本聲道,平均交叉乘積將是A和B中公共分量的能量之間的幾何平均,由此,單獨聲道公共能量估計能通過用聲道振幅比的平方根進行歸一化而求出。實時的時間平均用一個具有適當?shù)南陆禃r間常數(shù)的有漏泄積分器計算,以反映前進中的活動性。時間常數(shù)平滑可用非線性的上升和下降時間選件來精心完善,并且在多頻帶系統(tǒng)中,可用頻率來定標。
更高階的公共能量計算為了求出具有三個或更多個輸入的解碼模塊的公共能量,必須形成所有輸入信號的平均交叉-乘積。簡單地進行輸入的成對處理將不能區(qū)分每對輸入與所有輸入公共的信號之間的分離的輸出信號。
例如,考慮三個基本聲道A,B和C,它們分別由不相關的信號W,Y,Z和公共的信號X組成A=X+WB=X+YC=X+Z如果平均交叉乘積被計算,像在第二階計算中那樣,所有包含W,Y和Z的組合的項將被消去,剩下X3的平均ABC‾=X3‾]]>不幸的是,如果X是平均值為零的時間信號,則其立方的平均也是零。不像X2的平均,對任何非零的X值,X2均為正數(shù),X3與X有相同的符號,從而正和負的貢獻部分將抵消掉。顯然,這對于X的任何奇次冪同樣成立,X的奇次冪對應于奇數(shù)個模塊輸入,但是指數(shù)大于2的偶指數(shù)也能導致錯誤的結果;例如具有分量(X,X,-X,-X)的4個輸入與(X,X,X,X)將有相同的乘積/平均值。
上述問題可以用變形的平均乘積技術解決。在做平均之前,每個乘積的符號通過取乘積的絕對值而去除。乘積的每一項的符號被檢查。如果它們都相同,乘積的絕對值被送去進行平均,如果任一符號不同于其它的,乘積的絕對值的負值被平均。因為可能的同符號組合的個數(shù)不等于可能的不同符號組合的個數(shù),一個加權因子被施加于變負的絕對值乘積進行補償,此加權因子由同符號組合個數(shù)與不同符號組合個數(shù)的比值構成。例如一個三輸入模塊在8個可能中有兩個同符號的可能情況,剩下的六個可能情況是不同符號的,因此定標因子為2/6=1/3。此補償當而且僅當一個解碼模塊的所有輸入存在公共的信號分量時才導致積分的或相加的乘積增大。
然而,為了不同階模塊的平均可以比較,它們全體必須有相同的量綱。一個常規(guī)的二階相關包含兩輸入乘法的平均,因而量綱為能量或功率。所以在更高階相關中被平均的項必須也改變?yōu)橛泄β柿烤V。對于一個第K階相關,各個乘積絕對值必須在平均之前變?yōu)槠渲笖?shù)為2/k的冪。
當然,與階次無關,如果需要,模塊的各個輸入節(jié)點的能量可計算為相應節(jié)點信號的平方的平均,并且不需要首先提升到其k次冪,再減小到一個二階量。
共享的節(jié)點相鄰電平通過應用基本聲道信號的平均平方和變形的交叉乘積,可以估計出公共的輸出聲道信號能量大小,上面的例子涉及單個內插處理器,但是如果A/B(/C)節(jié)點的一個或多個是與另一個具有其自已的與任何其它信號不相關的公共信號分量的另一個模塊共同的,則上面計算的平均交叉-乘積應不受影響,使得計算固有地不存在聲像率引應效。(注如果兩個輸出信號不是相關的,它們將傾向于拉近解碼器,但是在人耳中會有一類似的效應,重新使系統(tǒng)工作對人類聽覺仍保持忠實。)一旦每個解碼模塊已計算出在其每一基本聲道上的估計的公共輸出聲道信號,管理程序功能可告知相鄰模塊每個其它的公共能量,在那一點處,輸出聲道信號的產(chǎn)生像下面所述那樣進行。由一個模塊在一個節(jié)點上所應用的公共能量的計算必須考慮不同階模塊可能重疊的多層結構,并且從共享同一節(jié)點的任一低階模塊估計的公共能量中減去一個高階模塊的公共能量。
例如,假設有兩個相鄰的表示兩個水平方向的基本聲道A和B,以及一個表示垂直方向的基本聲道C,并進一步假設存在一個表示一個在內部的方向(即在A,B和C的限制內的一個方向)的信號能量為X2的中間的或導出的輸出聲道。輸入為(A,B,C)的三輸入模塊的公共能量將是X2,但是兩輸入模塊(A,B),(B,C)和(A,C)的公共能量也應是X2。如果A所連接的模塊(A,B,C),(A,B)和(A,C)的公共能量簡單地相加,將得到3X2,而不是X2。為了正確地計算公共節(jié)點能量,每個高階模塊的公共能量首先從每個重疊的低階模塊估計的公共能量中減去,從而高階模塊(A,B,C)的公共能量X2從兩個兩輸入模塊的公共能量估計中被減去,在每個情況下得到0,并且得到節(jié)點A處的凈公共能量估計等于X2+0+0=X2。
輸出聲道信號產(chǎn)生如前所述,以一個線性方法由傳送的聲道再生輸出聲道全體的處理基本上是一個矩陣方法,即形成基本聲道的加權和,以求出輸出聲道信號。矩陣定標因子的最佳選擇一般是與信號無關的。確實,如果當前活動的輸出聲道的個數(shù)等于被傳送聲道(但表示不同的方向)的個數(shù),使得系統(tǒng)是嚴格受制約的,則數(shù)學上可以計算出有效編碼矩陣的逆矩陣并還原分離的源信號原型。甚至于如果活動的輸出聲道個數(shù)大于基本聲道個數(shù),可能仍然可以計算出一個偽逆矩陣。
不幸的是,此方法存在問題,計算量需求—特別是基于多頻帶處理,并且面向高精度浮點實現(xiàn)—并是一個最重要的因素。即使中間信號被假設是位于最鄰近的基本聲道間,有效編碼矩陣的數(shù)學逆陣或偽-逆矩陣一般對每個輸出聲道有來自所有基本聲道的貢獻,這是由于節(jié)點共享效應。如果在解碼中有任何不完善—實際上這是不可避免的,一個基本聲道信號可能由一個空間上與它相距較遠的輸出聲道再生,這是非常不合乎要求的。此外,偽逆矩陣計算傾向于產(chǎn)生最小RMS能量解,這大大擴展了聲音范圍,給出最小的分離度;這是與本發(fā)明相當不相容的。
因此,為了實現(xiàn)一個實用的容錯解碼器—在其中有固有的空間解碼誤差,與用于信號檢測的相同模塊結構被用于信號產(chǎn)生。
下面詳述一個解碼模塊再生輸出信號的產(chǎn)生過程。注意連接于模塊的每個輸出聲道的有效位置被假設由振幅比確定,這些振幅是定位信號到其物理位置所需的,即對應于比方向的有效矩陣編碼系數(shù)的比值。為了避開被零除的問題,比值被典型地計算為一個聲道的矩陣系數(shù)除以此輸入聲道的矩陣系數(shù)(通常為1)全體的RMS和得到的商。例如,在一個輸入為L和R的兩輸入模塊中所用的能量比應是L能量除以L和R能量之和(“L-比值”),它有0至1的取值范圍。如果兩輸入解碼模塊具有5個輸出聲道,有效編碼矩陣系數(shù)對為(1.0,0)、(0.89,0.45)、(0.71,0.71)、(0.45,0.89)和(0,0.1),相應的L-比值是1.0,0.89,0.71,0.45和0,因為每對定標固子有一個1.0的RMS和。
從解碼模塊的每個輸入節(jié)點(基本聲道)的信號能量中減去被相鄰解碼模塊取走的任何節(jié)點共離信號,得到歸一化的輸入信號功率電平,用于計算的余數(shù)。
優(yōu)勢方向指示被計算為基本方向被相對能量加權的矢量和。對于一個兩輸入模塊,它簡化為歸一化輸入信號功率電平的L-比值。
包括優(yōu)勢方向在其中的輸出聲道通過將上一步驟中的優(yōu)勢方向L-比值與輸出聲道的L-比值進行比較而確定。例如,如果上述五輸出解碼模塊輸入的L-比值為0.75,則第二和第三輸出聲道包括了優(yōu)勢方向,因為0.89>0.75>0.71。
映射優(yōu)勢信號到最鄰近的涵蓋聲道的移動定標因子由聲道的反-優(yōu)勢信號電平的比值計算得到。與特定輸出聲道相聯(lián)系的反-優(yōu)勢信號是當對應的解碼模塊輸入信號用輸出聲道的反-優(yōu)勢矩陣定標因子變換的結果。一個輸出聲道的反-優(yōu)勢矩陣定標因子是RMS和等于1的那些定標因子,它們在單個優(yōu)勢信號被定位到該輸出聲道上時導致零輸出。如果輸出聲道的編碼矩陣定標因子為(A,B),則此聲道的反-優(yōu)勢定標因子是(B,-A)。
證明如果單個優(yōu)勢信號被定位于具有編碼定標因子(A,B)的輸出聲道上,則信號必須有振幅(KA,KB),其中K是信號的總振幅,于是,對于此聲道,反-優(yōu)勢信號是(KA*B-KB*A)=0。
因此,如果一個優(yōu)勢信號由兩輸入模塊輸入信號(x(t),y(t))組成,它具有歸一化為RMS=1的輸入振幅(X,Y),產(chǎn)生的優(yōu)勢信號為dom(t)=Xx(t)+Yy(t)。如果這個信號的位置被包括在矩陣定標因子分別為(A,B)和(C,D)的輸出聲道之間,對于矩陣定標因子為(A,B)的聲道定標dom(t)的優(yōu)勢信號定標因子是SF(A,B)=sqrt((DX-CY)/((DX-CY)+(BX-AY))),而對于矩陣定標因子為(C,D)的聲道,相應的優(yōu)勢信號定標因子為
SF(C,D)=sqrt((BX-AY)/((DX-CY)+(BX-AY))),當優(yōu)勢方向從一個輸出聲道向另一輸出聲道移去時,這兩個定標因子以相反方向在0與1之間移去,且具有不變的功率和。
反-優(yōu)勢信號用適當?shù)膶λ蟹?優(yōu)勢聲道定標的增蓋被計算和定位。反-優(yōu)勢信號是一個沒有任何優(yōu)勢信號的矩陣變換信號。如果解碼模塊的輸入為(x(t),y(t)),其歸一化振幅為(X,Y),優(yōu)勢信號是Xx(t)+Yy(t),反-優(yōu)勢信號是Yx(t)-Xy(t),與非-優(yōu)勢輸出聲道的位置無關。
除了優(yōu)勢/反-優(yōu)勢信號分布外,第二個信號分布用“被動”矩陣計算,它基于已經(jīng)討論過的,被定標以維持功率的輸出聲道矩陣定標因子。
解碼模塊輸入信號的交叉相關被計算為輸入信號的平均交叉乘積除以歸一化輸入電平的乘積的平方根。
現(xiàn)在回到產(chǎn)生過程的說明,最終輸出被計算為優(yōu)勢信號和被動信號分布的一個加權的交叉衰落和,其中用解碼模塊的輸入信號交叉相關推出交叉衰落因子。對于相關值=1,只使用優(yōu)勢/反-優(yōu)勢分布。當相關值減小時,輸出信號陣列通過對被動分布的交叉衰減被展寬,以實現(xiàn)在一個低的正相關值上,典型地為0.2至0.4,取決于連接到解碼模塊的輸出信道個數(shù)。當相關值進一步減小,趨于零時,被動振幅輸出分布逐漸向外彎曲,減小輸出信號電平,以模仿人耳對這些信號的響應。
垂直處理至今所描述的用以從相鄰基本聲道產(chǎn)生輸出聲道信號的大多數(shù)處理與輸出和基本聲道的方向無關。然而由于人耳的水平定向性,人類聽覺定位傾向于在垂直方向上比水平方向上有較小的對相互聲道相關性的敏感度。為保持人耳工作的真實感,這可能是需要的在用垂直一定向的輸入聲道內插處理器中削弱相關約束,例如在使用它之前用一個彎曲函數(shù)處理相關信號。然而有可能用與水平聲道相同的處理將不帶來任何聽覺的惡化,這樣將簡化整個解碼器的結構。
嚴格講,垂直信號包括從上方和下方來的聲音,并且所描述的解碼器結構應同樣好地對它們工作,但是實際中通常沒有自然聲來自下方,因而其處理和聲道可被消去而不損害所感覺的系統(tǒng)空間保真度。
此概念在應用聲道轉換到現(xiàn)有5.1聲道環(huán)繞聲材料時可能有實際意義,當然此材料沒有垂直聲道。然而,它可以包含垂直信息,例如飄在頭頂上的,它們的記錄跨在多個或全部水平聲道。所以,應該可以從這些源材料中提取一個虛擬的垂直聲道,方法是考慮非-相鄰聲道或聲道組之間的相關性。如果存在上述相關性,它們通常將表示來自收聽者上方,而不是下方的垂直信息的存在。在某些情況下,也可以由一個混響發(fā)生器導出虛擬的垂直信息,可能關鍵在于所用收聽環(huán)境模型。一旦虛擬的垂直聲道從5.1聲道信源被提取或導出,至較大個數(shù)聲道-例如前面描述的24聲道結構—的擴展可以象提供了一個真實的垂直聲道那樣進行。
定向記憶關于解碼模塊控制產(chǎn)生的操作,如上所述,它類似于諸如Pro Logic的解碼器的一個2N自主解碼器的工作,本發(fā)明的一個方面是在處理中唯一的“記憶”是在平滑網(wǎng)絡中,此網(wǎng)絡產(chǎn)生基本控制信號。在任一時刻,只存在一個優(yōu)勢方向和一個輸入相關值,而信號產(chǎn)生直接根據(jù)這些信號進行。
然而,特別是在復雜的聲學環(huán)境下(如原型的雞尾酒會),人耳呈現(xiàn)出一定程度的位置記憶,或者慣性,一個短暫的來自某給定方向的被明確定位的優(yōu)勢聲音將導致其它的來自非專一的方向的不能明確定位的那些聲音被感覺到來自同一個源。
可在解碼模塊中(實際上同樣在Pro Logic解碼中)模仿這個效應,方法是增加一個顯式機構來保存最新的優(yōu)勢方向軌跡,并在方向上模糊的信號條件期間,加權輸出信號分布,使其指向最新的優(yōu)勢方向。這可以改進由復雜信號陣列所感覺到的再生離散性和穩(wěn)定性。
修改的相關和選擇的聲道混合如前所述,每個解碼模塊的輸出分布確定是基于其輸入信號的同時的交叉相關,這可能在某些情況下低估了輸出信號內容量。例如,這將隨一個自然記錄的信號出現(xiàn),在此信號中非-中心方向有略微不同的抵達時間和不相等的振幅,這導致相關值減小。如果應用大間距的話筒,相應有更大的聲道間時延,上述效應可能更嚴重。為了補償此效應,相關性計算可擴展到覆蓋信道間時延的一個范圍,這以略為更高的處理MIPS要求為代價。因為聽覺神經(jīng)細胞絕沒有約1毫秒的有效時間常數(shù),更加真實的相關值可以通過首先用一個具有1毫秒時間常數(shù)的平滑器對被檢測聲音進行平滑來獲得。
此外,如果一個信息生產(chǎn)者有一個具有強不相關聲道的現(xiàn)有5.1聲道節(jié)目,通過輕微混合相鄰聲道,從而增加相關性,可以在用聲道轉換解碼器進行處理時提高分布的均勻性,此方法將導致聲道轉換解碼模塊在其中間輸出聲道之間提供更均勻的分布。這種混音也可做成有選擇性的,例如保留中心前方聲道信號不被混音,以保持對話音軌的緊致性。
音量壓縮/擴展當編碼處理包括混合較大個數(shù)的聲道為較小個數(shù)聲道時,如果不提供某些形式的增益補償,則編碼后信號有可能被限幅。這個問題對于傳統(tǒng)的矩陣編碼同樣存在,但是對聲道轉換有更大的可能出現(xiàn),因為被混合為一個給定輸出聲道的聲道數(shù)更大。為避免在這種情況下的限幅,由編碼器給出一個總的增益定標因子,并在已編碼的比特流中傳送到解碼器。通常這個值為0dB,但是它可以被編碼器設置為一個非零的衰減值,以避免限幅,解碼器提供一個等效的補償增益量。
如果解碼器被用來處理一個現(xiàn)有的多聲道,它沒有這個定標因子節(jié)目(例如,一個現(xiàn)有的5.1聲道軌跡),它應該選用固定的定標因子為一個假設的值(大約0dB),或者基于信號電平和/或動態(tài)范圍應用一個擴展函數(shù),或應用可能利用的元數(shù)據(jù),例如一個對話規(guī)范值,來調節(jié)解碼器增益。
本發(fā)明及其各個方面可以實現(xiàn)在模擬電路中,或者更可能作為軟件功能實現(xiàn)在數(shù)字信號處理器、編程的通用數(shù)字計算機和/或專用數(shù)字計算機中。模擬與數(shù)字信號流之間的接口可實現(xiàn)在合適的硬件中和/或作為功能實現(xiàn)在軟件和/或固件中。
權利要求
1.將表示一個聲場的M個輸入聲道轉換為表示同一聲場的N個輸出聲道的方法,其中每個聲道是表示由一個方向抵達的聲音的單個音頻流,M和N是正整數(shù),且M至少為2,該方法包括產(chǎn)生一組或多組輸出聲道,每組有一個或多個輸出聲道,其中每一組被聯(lián)系于兩個或更多的空間上相鄰的輸入聲道,并且一組中的每個輸出聲道由一個處理產(chǎn)生,此處理包括確定兩個或更多輸入聲道的相關性度量和兩個或更多輸入聲道的電平相互關系。
2.如權利要求1所述的方法,其特征在于,有一組輸出聲道聯(lián)系于兩個輸入聲道。
3.如權利要求1所述的方法,其特征在于,一個或多個所述輸出聲道組被聯(lián)系于多于兩個的輸入聲道。
4.如權利要求1所述的方法,其特征在于,一個或多個輸出聲道組比一個或多個其它輸出聲道組聯(lián)系于更多的輸入聲道,并且所述的處理按照一個分級次序確定每組輸出聲道相聯(lián)系的輸入聲道的相關性,使得每個組或多個組按照其輸出聲道所聯(lián)系的輸入聲道的個數(shù)被排序,最多的輸入聲道個數(shù)具有最高的階次,并且所述處理按照這些組的分級次序順序處理它們。
5.如權利要求4所述的方法,其特征在于,所述處理考慮對較高階次的組的處理結果。
6.如權利要求1所述的方法,其特征在于,所述的確定兩個或更多輸入聲道的相關性度量和兩個或更多輸入聲道的電平相互關系在頻率域中實現(xiàn)。
7.如權利要求1所述的方法,其特征在于,所述處理采用非線性的時間常數(shù)。
8.如權利要求1或3至8中任一項所述的方法,其特征在于,有三個或更多的輸入聲道表示不在一條直線上的方向。
全文摘要
本發(fā)明涉及將表示一個聲場的M個輸入聲道轉換為表示同一聲場的N個輸出聲道的方法,其中每個聲道是表示由一個方向抵達的聲音的單個音頻流,M和N是正整數(shù),且M至少為2,該方法產(chǎn)生一組或多組輸出聲道,每組有一個或多個輸出聲道。每一組被聯(lián)系于兩個或更多的空間上相鄰的輸入聲道,并且一組中的每個輸出聲道由一個處理產(chǎn)生,此處理包括確定兩個或更多輸入聲道的相關性度量和兩個或更多輸入聲道的電平相互關系。
文檔編號H04S7/00GK1524399SQ02804662
公開日2004年8月25日 申請日期2002年2月7日 優(yōu)先權日2001年2月7日
發(fā)明者馬克·富蘭克林·戴維斯, 馬克 富蘭克林 戴維斯 申請人:多爾拜實驗特許公司