為3d音頻提供增強(qiáng)的導(dǎo)引降混性能的裝置及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種音頻信號(hào)處理,特別是涉及一種裝置及方法能實(shí)現(xiàn)增強(qiáng)的降混 (downmix),特別是用于實(shí)現(xiàn)3D音頻的增強(qiáng)的導(dǎo)引降混性能。
【背景技術(shù)】
[0002] 日益增多的擴(kuò)音器被使用來(lái)達(dá)到聲音的空間再生。當(dāng)傳統(tǒng)的環(huán)繞音效再生(如 5. 1系統(tǒng))被限制于單一平面時(shí),新的通道格式與升級(jí)的擴(kuò)音器一起已被納入3D音頻再生 的領(lǐng)域。
[0003] 需要再生于擴(kuò)音器上的信號(hào)過(guò)去習(xí)慣于直接對(duì)應(yīng)于特定的擴(kuò)音器,并可以離散或 參數(shù)的方式儲(chǔ)存及傳送??梢哉f(shuō),對(duì)于這種格式而言,該等信號(hào)對(duì)應(yīng)于一音效再生系統(tǒng),該 系統(tǒng)已清楚定義擴(kuò)音器的數(shù)量及位置。據(jù)此,在傳送或儲(chǔ)存一音頻信號(hào)之前,就需要對(duì)該再 生格式有一定的了解。
[0004] 然而,已有不在此原則中的一些例外。例如,多通道音頻信號(hào)(例如5個(gè)環(huán)繞音效 通道或例如,5. 1環(huán)繞音效通道)必需被降混以在雙通道的立體擴(kuò)音器的設(shè)定之上再生,因 此也就存在一些規(guī)則以將5環(huán)繞通道再生于具有雙擴(kuò)音器的立體聲系統(tǒng)。
[0005] 此外,當(dāng)立體聲通道被引入時(shí),就需要一規(guī)則以通過(guò)單一單聲道擴(kuò)音器再生成兩 立體聲通道的音頻內(nèi)容。
[0006] 既然格式的數(shù)量以及需要設(shè)定擴(kuò)音器位置的機(jī)會(huì)越來(lái)越多,就使得在傳送或儲(chǔ)存 之前考慮再生系統(tǒng)的擴(kuò)音器設(shè)定顯得更為不可能。據(jù)此,就有需要將輸入音頻信號(hào)適配到 實(shí)際的擴(kuò)音器設(shè)定。
[0007] 有不同的方法可用于將環(huán)繞音效降混至雙通道立體聲。仍廣泛使用的是通常稱作 ITU降混的具有靜態(tài)降混系數(shù)的時(shí)域降混[5]。其他時(shí)域降混技術(shù)一部分使用動(dòng)態(tài)調(diào)整的 降混系數(shù)一應(yīng)用于矩陣環(huán)繞技術(shù)的編碼器(encoders of matrix surround techniques) [6],[7]。
[0008] 在[3]中,公開了直接音源混合于被降混至雙通道立體全景(stereo panorama) 的后通道,可能由于屏蔽(masking)或者另外掩蔽的其他音源而無(wú)法被分別出來(lái)。
[0009] 在空間音頻編碼(SAC)技術(shù)發(fā)展的過(guò)程中,頻率選擇性的降混算法作為編碼器之 一部分而被介紹[8],[9]。特別的是,當(dāng)將能量等化(energy equalization)應(yīng)用于所得 到的聲音通道時(shí),可降低聲音彩色化(sound colorization)并維持音源定位的聲級(jí)平衡及 穩(wěn)定性。能量等化也應(yīng)用于其他降混系統(tǒng)中[9],[10],[12]。
[0010] 在后通道只包含環(huán)境音效(如混響)的情況中,環(huán)境影響(如混響、寬敞影響)的 減少可在ITU降混中通過(guò)減弱多通道信號(hào)的后通道得到解決[5]。若后通道也包含直接音 效(direct sound),那這樣的減弱是不合適的,因?yàn)楹笸ǖ赖闹苯硬糠忠矔?huì)在降混中被減 弱。因此,就需要一種更高級(jí)的環(huán)境減弱算法。
[0011] 音頻編譯碼器(如AC-3、HE-AAC)可提供在音頻串流上傳送所謂的元數(shù)據(jù) (metadata)的裝置(means,手段),其包含用于從5音頻通道降混到2音頻通道(立體聲) 的降混系數(shù)。在所得到的立體聲信號(hào)中,被選擇音頻通道的數(shù)量(如中間、后通道)通過(guò)傳 送的增益值來(lái)控制。雖然這些系數(shù)可能為時(shí)間變量,但其通常可在一程序(program,節(jié)目) 的項(xiàng)目的期間內(nèi)維持恒定。
[0012] 應(yīng)用于"Logic7"矩陣系統(tǒng)中的解決方案是引進(jìn)一信號(hào)調(diào)適方法,其在只有后通 道被完全認(rèn)定為環(huán)境因素(ambience)的情況下才會(huì)減弱后通道,這可以通過(guò)比較前通道 與后通道的功率而達(dá)到。此方法有一假設(shè),即當(dāng)后通道只包含環(huán)境因素時(shí),其功率顯著較 前通道的功率小。并且當(dāng)前通道的功率相較于后通道越大時(shí),后通道在降混的過(guò)程中被減 少的功率越多。上述假設(shè)在一些環(huán)繞產(chǎn)生(surround productions),特別是帶著標(biāo)準(zhǔn)內(nèi)容 (classical content)的情況下可為真,但該假設(shè)對(duì)于其他信號(hào)則為假。
[0013] 因此,將更容易理解,設(shè)想提供一種音頻信號(hào)處理的改進(jìn)的概念。
【發(fā)明內(nèi)容】
[0014] 本發(fā)明之一目的在于提供一種音頻信號(hào)處理的改進(jìn)的概念。本發(fā)明的目的通過(guò)依 據(jù)權(quán)利要求1的一種裝置、通過(guò)依據(jù)權(quán)利要求13的一種系統(tǒng)、通過(guò)依據(jù)權(quán)利要求14的一種 方法以及通過(guò)依據(jù)權(quán)利要求15的一種計(jì)算機(jī)程序而達(dá)到。
[0015] 提供一種用于從三個(gè)或更多音頻輸入通道(channel,頻道)產(chǎn)生兩個(gè)或更多音頻 輸出通道的裝置。裝置包含一接收接口,其用于接收該三個(gè)或更多音頻輸入通道及用于接 收側(cè)邊信息(side information)。此外,裝置包含一降混器,其用于依據(jù)側(cè)邊信息以將該三 個(gè)或更多音頻輸入通道降混而得到該兩個(gè)或更多音頻輸出通道。音頻輸出通道的數(shù)量小于 音頻輸入通道的數(shù)量。側(cè)邊信息是指三個(gè)或更多音頻輸入通道中的至少一個(gè)的特征,或指 記錄于一個(gè)或多個(gè)音頻輸入通道內(nèi)的一個(gè)或多個(gè)音波的特征,或指發(fā)出被記錄于一個(gè)或多 個(gè)音頻輸入通道內(nèi)的一個(gè)或多個(gè)音波的的音源的特征。
[0016] 基于本概念的實(shí)施例,一同傳送側(cè)邊信息與音頻信號(hào),以導(dǎo)引格式轉(zhuǎn)換的過(guò)程,該 格式轉(zhuǎn)換是從輸入音頻信號(hào)的格式轉(zhuǎn)換為再生系統(tǒng)的格式。
[0017] 根據(jù)實(shí)施例,降混器可被配置為通過(guò)依據(jù)側(cè)邊信息調(diào)整該三個(gè)或更多音頻輸入通 道中的至少兩個(gè)音頻輸入通道以得到一組調(diào)整音頻通道,并通過(guò)將所述一組調(diào)整音頻通道 中的各調(diào)整音頻通道進(jìn)行組合而得到所述音頻輸出通道,產(chǎn)生該兩個(gè)或更多音頻輸出通道 中的各音頻輸出通道。
[0018] 在一實(shí)施例中,降混器可例如被配置為通過(guò)依據(jù)側(cè)邊信息調(diào)整該三個(gè)或更多音頻 輸入通道中的各音頻輸入通道以得到一組調(diào)整音頻通道,并通過(guò)將所述一組調(diào)整音頻通道 中的各調(diào)整音頻通道進(jìn)行組合而得到所述音頻輸出通道,產(chǎn)生該兩個(gè)或更多音頻輸出通道 中的各音頻輸出通道。
[0019] 根據(jù)實(shí)施例,降混器可例如被配置為通過(guò)依據(jù)一個(gè)或多個(gè)音頻輸入通道中的音頻 輸入通道并依據(jù)側(cè)邊信息而決定一權(quán)重并通過(guò)將所述權(quán)重應(yīng)用于所述音頻輸入通道而產(chǎn) 生所述一組調(diào)整音頻通道中的各調(diào)整音頻通道,以產(chǎn)生該兩個(gè)或多個(gè)音頻輸出通道中的各 音頻輸出通道。
[0020] 在一實(shí)施例中,側(cè)邊信息可指三個(gè)或更多音頻輸入通道中的各音頻輸入通道的環(huán) 境因素的量。降混器可被被配置為依據(jù)三個(gè)或更多音頻輸入通道中的各音頻輸入通道的環(huán) 境因素的量來(lái)降混該三個(gè)或更多音頻輸入通道以得到該兩個(gè)或更多音頻輸出通道。
[0021] 根據(jù)另一實(shí)施例,側(cè)邊信息可指三個(gè)或更多音頻輸入通道中的各音頻輸入通 道的擴(kuò)散性(diffuseness)或三個(gè)或更多音頻輸入通道中的各音頻輸入通道的方向性 (directivity)。降混器可被配置為依據(jù)三個(gè)或更多音頻輸入通道中的各音頻輸入通道的 擴(kuò)散性或三個(gè)或更多音頻輸入通道中的各音頻輸入通道的方向性而降混該三個(gè)或更多音 頻輸入通道以得到該兩個(gè)或更多音頻輸出通道。
[0022] 在又一實(shí)施例中,側(cè)邊信息可指聲音到達(dá)的方向。降混器可被配置為依據(jù)聲音的 到達(dá)方向來(lái)降混該三個(gè)或更多音頻輸入通道以得到該兩個(gè)或更多音頻輸出通道。
[0023] 在一實(shí)施例中,兩個(gè)或更多音頻輸出通道中的各音頻輸出通道可為操縱一擴(kuò)音器 用的一擴(kuò)音器通道。
[0024] 根據(jù)實(shí)施例,裝置可被配置為將兩個(gè)或更多音頻輸出通道中的各音頻輸出通道饋 送至一組兩個(gè)或更多擴(kuò)音器中的一擴(kuò)音器。降混器可被配置為依據(jù)一第一組的三個(gè)或更多 假想擴(kuò)音器位置中的各假想擴(kuò)音器位置以及依據(jù)一第二組的兩個(gè)或更多實(shí)際擴(kuò)音器位置 中的各實(shí)際擴(kuò)音器位置來(lái)降混該三個(gè)或更多音頻輸入通道以得到該兩個(gè)或更多音頻輸出 通道。第二組兩個(gè)或更多實(shí)際擴(kuò)音器位置中的各實(shí)際擴(kuò)音器位置可指一組兩個(gè)或更多擴(kuò)音 器中的擴(kuò)音器的位置。
[0025] 在一實(shí)施例中,三個(gè)或更多音頻輸入通道中的各音頻輸入通道可被指分配給第一 組三個(gè)或更多假想擴(kuò)音器位置的假想擴(kuò)音器位置。兩個(gè)或更多音頻輸出通道中的各音頻輸 出通道可被分配給第二組兩個(gè)或更多實(shí)際擴(kuò)音器位置中的一實(shí)際擴(kuò)音器位置。降混器可被 配置為依據(jù)三個(gè)或更多音頻輸入通道中的至少二個(gè)音頻輸入通道、依據(jù)三個(gè)或更多音頻輸 入通道中的所述至少二個(gè)音頻輸入通道中的各音頻輸入通道的假想擴(kuò)音器位置以及依據(jù) 所述音頻輸出通道的實(shí)際擴(kuò)音器位置而產(chǎn)生兩個(gè)或更多音頻輸出通道中的各音頻輸出通 道。
[0026] 根據(jù)實(shí)施例,三個(gè)或更多音頻輸入通道中的各音頻輸入通道包含三個(gè)或更多音頻 物體中的音頻物體的音頻信號(hào)。側(cè)邊信息包含三個(gè)或更多音頻物體中的各音頻物體的音頻 物體位置,該音頻物體位置是指該音頻物體的一位置。降混器被配置為依據(jù)三個(gè)或更多音 頻物體中的各音頻物體的音頻物體位置來(lái)降混該三個(gè)或更多音頻輸入通道而得到該兩個(gè) 或更多音頻輸出通道。
[0027] 在一實(shí)施例中,降混器被配置為依據(jù)側(cè)邊信息來(lái)降混四個(gè)或更多音頻輸入通道而 得到三個(gè)或更多音頻輸出通道。
[0028] 此外,提供一種系統(tǒng),該系統(tǒng)包含一編碼器,用于對(duì)三個(gè)或更多未處理的音頻通道 進(jìn)行編碼而得到三個(gè)或更多已編碼音頻通道,并且用于將額外信息編碼在該三個(gè)或更多未 處理音頻通道上而得到側(cè)邊信息。此外,系統(tǒng)包含根據(jù)上述實(shí)施方式的裝置,該裝置用于接 收該三個(gè)或更多已編碼音頻通道作為三個(gè)或更多音頻輸入通道,并用于接收側(cè)邊信息,并 用于依據(jù)側(cè)邊信息而從該三個(gè)或更多音頻輸入通道產(chǎn)生兩個(gè)或更多音頻輸出通道。
[0029] 另外,提供一種用于從三個(gè)或更多音頻輸入通道產(chǎn)生兩個(gè)或更多音頻輸出通道的 方法。此方法包含:
[0030] -接收三個(gè)或更多音頻輸入通道及接收側(cè)邊信息,以及:
[0031] -依據(jù)側(cè)邊信息來(lái)降混該三個(gè)或更多音頻輸入通道以得到該兩個(gè)或更多音頻輸出 通道。
[0032] 音頻輸出通道的數(shù)量小于音頻輸入通道的數(shù)量。音頻輸入通道包含一音源所發(fā)出 的聲音的記錄,且其中,側(cè)邊信息是指該聲音