公開了與立體(volumetric)音頻元素的渲染相關(guān)的實(shí)施例。
背景技術(shù):
1、空間音頻渲染是一種用于在擴(kuò)展現(xiàn)實(shí)(xr)場景(例如,虛擬現(xiàn)實(shí)(vr)、增強(qiáng)現(xiàn)實(shí)(ar)或混合現(xiàn)實(shí)(mr)場景)內(nèi)呈現(xiàn)音頻的過程,以便給聽眾聲音來自場景內(nèi)特定位置并且具有特定非零大小和形狀(即,具有“空間范圍”或簡稱為“范圍(extent)”)的物理源的印象。可以通過耳機(jī)揚(yáng)聲器或其他揚(yáng)聲器進(jìn)行呈現(xiàn)。如果通過耳機(jī)揚(yáng)聲器進(jìn)行呈現(xiàn),則所使用的處理稱為雙耳渲染,并且使用可以確定聲音來自哪個(gè)方向的人類空間聽覺的空間提示。該提示涉及雙耳間時(shí)間延遲(itd)、雙耳間等級(level)差(ild)和/或頻譜差。
2、在現(xiàn)實(shí)生活中,我們經(jīng)常感知到聲音,該聲音實(shí)際上是位于特定表面上或特定體積或區(qū)域內(nèi)的許多聲源產(chǎn)生的聲波的總和。從概念上講,可以將這樣的表面、體積或區(qū)域視為具有空間異質(zhì)特征的單個(gè)音頻元素(即,在其空間范圍內(nèi)具有特定量的空間源變化的音頻元素)。這種音頻元素的子類是空間異質(zhì)音頻元素,對于空間異質(zhì)音頻元素,感知到的異質(zhì)空間特征沿著3d空間中的某些路徑不會變化非常大。以下是幾個(gè)示例:1)人群聲音(到達(dá)聽眾的兩個(gè)耳朵的來自在空間中定義的體積內(nèi)彼此靠近站著的許多個(gè)體的聲音的總和);2)河流聲音(到達(dá)聽眾的兩個(gè)耳朵的從河流表面發(fā)出的所有水濺聲波的總和);3)海灘聲音(到達(dá)聽眾兩個(gè)耳朵的海浪撞擊海灘的海岸線所產(chǎn)生的所有聲波的總和;4)噴泉聲音(到達(dá)聽眾兩個(gè)耳朵的水流撞擊噴泉水面所產(chǎn)生的所有聲波的總和);以及5)繁忙的高速公路聲音(到達(dá)聽眾兩個(gè)耳朵的來自許多汽車的聲音的總和)。
3、在河流聲音的情況中,對于正在河邊行走的聽眾來說,聲音的感知特征將不會顯著地改變。對于正沿著海灘邊或在人群周圍行走的聽眾來說,情況也是如此。
4、表示這些類型的聲音的現(xiàn)有方法包括用于修改單聲道音頻對象的感知大小的功能,其通常由與對象相關(guān)聯(lián)的附加元數(shù)據(jù)(例如,“大小”、“擴(kuò)展”或“擴(kuò)散度”參數(shù))控制。
5、一種這樣的已知方法是在音頻元素周圍的位置處創(chuàng)建單聲道音頻元素的多個(gè)副本。這種布置創(chuàng)建了具有特定大小的空間上同質(zhì)對象的感覺。例如,在mpeg-h?3d音頻標(biāo)準(zhǔn)的“對象擴(kuò)展”和“對象發(fā)散”特征(參見參考文獻(xiàn)[1]的8.4.4.7和18.1)以及ebu音頻定義模型(adm)標(biāo)準(zhǔn)的“對象發(fā)散”特征(參見參考文獻(xiàn)[2]的7.3.6)中都使用了這一概念。
6、如參考文獻(xiàn)[3]中所述,使用單聲道音頻源的這一想法已得到進(jìn)一步發(fā)展,其中,聲音對象的面積-體積幾何形狀被投射到聽眾周圍的球體上,并使用一對頭部相關(guān)(hr)濾波器將聲音渲染給聽眾,該對頭部hr濾波器被評估為覆蓋球體上的對象的幾何投影的所有hr濾波器的積分。對于球形體積源,該積分具有解析解。然而,對于任意面積-體積源幾何體,通過使用所謂的蒙特卡羅射線采樣對球體上所投影的源表面進(jìn)行采樣來評估該積分。
7、另一種渲染方法除了渲染單聲道音頻信號外,還渲染空間擴(kuò)散分量,這創(chuàng)建了稍微擴(kuò)散對象的感覺,與原始單聲道音頻元素相比,該對象沒有明顯的pin-point位置。例如,該概念用于mpeg-h?3d音頻標(biāo)準(zhǔn)的“對象擴(kuò)散”特征(參見參考文獻(xiàn)[3])和ebu?adm的“對象擴(kuò)散”特征(參見參考文獻(xiàn)[2]的7.4)。
8、上述兩種方法的組合也是已知的。例如,ebu?adm的“對象范圍”特征將單聲道音頻元素的多個(gè)副本的創(chuàng)建與擴(kuò)散分量的添加相組合(參見參考文獻(xiàn)[2]的7.3.7)。
技術(shù)實(shí)現(xiàn)思路
1、目前存在某些挑戰(zhàn)。例如,在立體音頻元素(即具有范圍的音頻元素)表示如此多的個(gè)體源以至于個(gè)體源基本上表現(xiàn)為一個(gè)大型復(fù)合源的情況下,音頻元素的渲染可以基于立體行為,其中,例如,距離增益(即所渲染的音頻元素的相對等級作為收聽距離的函數(shù))是基于其范圍的大小來計(jì)算的;但是如果立體音頻元素表示聲源,該聲源由于其在音頻元素上的空間分布,將被預(yù)期表現(xiàn)為個(gè)體源,在音頻元素的范圍內(nèi)具有它們自己的特定位置,那么預(yù)期的行為是點(diǎn)源的集合的行為,其中,距離增益函數(shù)遵循反距離定律1/r。因此,增益函數(shù)的這個(gè)選擇取決于特定的音頻元素以及它所代表的聲源的類型。
2、在某些情況下,內(nèi)容創(chuàng)建者可以通過明確設(shè)置控制期望的渲染行為的音頻元素的元數(shù)據(jù)的渲染參數(shù)來決定應(yīng)當(dāng)應(yīng)用什么期望的渲染行為。在其他情況下,優(yōu)選的是,渲染器自動選擇用于音頻元素的最適合的渲染參數(shù),或者預(yù)處理步驟可以設(shè)置該參數(shù),以便渲染器使用合適的增益函數(shù)。然而,目前沒有可用的此類自動渲染方法。
3、因此,在一個(gè)方面中,提供了一種用于渲染音頻元素(例如包括兩個(gè)或更多個(gè)音頻信號的立體音頻元素)的方法。在一個(gè)實(shí)施例中,該方法包括獲得與立體音頻元素相關(guān)聯(lián)的距離增益模型渲染參數(shù)。該方法進(jìn)一步包括基于距離增益模型渲染參數(shù)的值,從兩個(gè)或更多個(gè)候選距離增益模型的集合選擇距離增益模型。該方法進(jìn)一步包括使用所選擇的距離增益模型來渲染立體音頻元素。
4、在另一個(gè)實(shí)施例中,該方法包括獲得音頻元素(例如,立體音頻元素)的空間音頻值s,其中,s指示立體音頻元素的空間音頻密度。該方法進(jìn)一步包括基于所獲得的空間音頻值選擇用于立體音頻元素的一個(gè)或多個(gè)渲染選項(xiàng)。該方法進(jìn)一步包括使用所選擇的渲染選項(xiàng)渲染立體音頻元素。
5、在另一個(gè)方面,提供了一種由編碼器執(zhí)行的方法。該方法包括獲得針對立體音頻元素的空間音頻值s,其中,s指示音頻元素的空間音頻密度。該方法進(jìn)一步包括以下兩個(gè)步驟中的至少一個(gè)步驟:(1)基于所獲得的空間音頻值選擇用于立體音頻元素的一個(gè)或多個(gè)渲染選項(xiàng)或(2)處理用于立體音頻元素的元數(shù)據(jù)(例如,存儲元數(shù)據(jù)、發(fā)送元數(shù)據(jù)等),其中,元數(shù)據(jù)包括以下中的至少一個(gè):i)標(biāo)識所選擇的渲染選項(xiàng)的信息和/或ii)空間音頻值。
6、在另一個(gè)方面,提供了一種計(jì)算機(jī)程序,該計(jì)算機(jī)程序包括指令,當(dāng)該指令由裝置的處理電路執(zhí)行時(shí),該指令使該裝置執(zhí)行本文所述的方法中的任何方法。在一個(gè)實(shí)施例中,提供了一種包含該計(jì)算機(jī)程序的載體,其中,該載體是電子信號、光信號、無線電信號和計(jì)算機(jī)可讀存儲介質(zhì)中的一個(gè)。在另一個(gè)方面,提供了一種裝置,該裝置被配置為執(zhí)行本文所述的方法中的任何方法。該裝置可以包括存儲器和耦合到該存儲器的處理電路。
7、本文公開的實(shí)施例的優(yōu)點(diǎn)是,它們使得能夠根據(jù)表示音頻元素的音頻信號的空間特性,自動選擇用于音頻元素的合適的渲染行為(例如,增益函數(shù))。該方法的分析步驟可以在渲染器內(nèi)在運(yùn)行時(shí)間時(shí)執(zhí)行,也可以作為在運(yùn)行時(shí)間渲染之前的預(yù)處理步驟執(zhí)行。
1.一種用于渲染包括兩個(gè)或更多個(gè)音頻信號的立體音頻元素的方法(800),所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,
3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,s指示所述立體音頻元素的空間稀疏性。
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其中,
6.根據(jù)權(quán)利要求5所述的方法,其中,所述元數(shù)據(jù)進(jìn)一步包括第一擴(kuò)散參數(shù),所述第一擴(kuò)散參數(shù)指示所述元數(shù)據(jù)是否進(jìn)一步包括第二擴(kuò)散參數(shù)。
7.根據(jù)權(quán)利要求5所述的方法,其中,所述元數(shù)據(jù)進(jìn)一步包括指示所述立體音頻元素的擴(kuò)散度的擴(kuò)散參數(shù)。
8.一種用于渲染立體音頻元素的方法(200),包括:
9.根據(jù)權(quán)利要求8所述的方法,其中,獲得s包括:使用所述立體音頻元素的音頻信號或所述音頻信號的一部分來計(jì)算s。
10.根據(jù)權(quán)利要求8所述的方法,其中,獲得s包括:接收包括s的元數(shù)據(jù)。
11.根據(jù)權(quán)利要求8-10中任一項(xiàng)所述的方法,其中,所述一個(gè)或多個(gè)所選擇的渲染選項(xiàng)中的一個(gè)渲染選項(xiàng)是從候選距離增益模型的集合中選擇的距離增益模型。
12.根據(jù)權(quán)利要求11所述的方法,其中,選擇距離增益模型包括或由以下組成:將距離增益模型渲染參數(shù)設(shè)置為標(biāo)識所述距離增益模型的特定值。
13.根據(jù)權(quán)利要求11所述的方法,其中,選擇所述距離增益模型包括:
14.根據(jù)權(quán)利要求13所述的方法,其中,確定s是否滿足所述條件包括:將s與閾值進(jìn)行比較。
15.根據(jù)權(quán)利要求8-14中任一項(xiàng)所述的方法,其中,所述一個(gè)或多個(gè)所選擇的渲染選項(xiàng)中的一個(gè)渲染選項(xiàng)是所選擇的加權(quán)因子值s_wfactor。
16.根據(jù)權(quán)利要求8-15中任一項(xiàng)所述的方法,其中,
17.根據(jù)權(quán)利要求16所述的方法,其中,計(jì)算針對所述音頻幀的歸一化分?jǐn)?shù)包括:計(jì)算針對所述音頻幀的分?jǐn)?shù)和計(jì)算針對所述音頻幀的相對能量值,其中,所述歸一化分?jǐn)?shù)等于所述分?jǐn)?shù)和所述相對能量值的乘積。
18.一種由編碼器(102)執(zhí)行的方法(300),包括:
19.根據(jù)權(quán)利要求18所述的方法,其中,獲得s包括:使用所述立體音頻元素的音頻信號或所述音頻信號的一部分來計(jì)算s。
20.根據(jù)權(quán)利要求18-19中任一項(xiàng)所述的方法,其中,
21.根據(jù)權(quán)利要求18-20中任一項(xiàng)所述的方法,其中,
22.根據(jù)權(quán)利要求21所述的方法,其中,選擇距離增益模型包括或由以下組成:將距離增益模型渲染參數(shù)設(shè)置為標(biāo)識所述距離增益模型的特定值。
23.根據(jù)權(quán)利要求21所述的方法,其中,選擇所述距離增益模型包括:
24.根據(jù)權(quán)利要求23的方法,其中,確定s是否滿足所述條件包括:將s與閾值進(jìn)行比較。
25.根據(jù)權(quán)利要求18-24中任一項(xiàng)所述的方法,其中,
26.根據(jù)權(quán)利要求18-25中任一項(xiàng)所述的方法,其中,
27.根據(jù)權(quán)利要求26中的方法,其中,計(jì)算針對所述音頻幀的所述歸一化分?jǐn)?shù)包括:計(jì)算針對所述音頻幀的分?jǐn)?shù)和計(jì)算針對所述音頻幀的相對能量值,其中,所述歸一化分?jǐn)?shù)等于所述分?jǐn)?shù)和所述相對能量值的乘積。
28.一種包括指令(744)的計(jì)算機(jī)程序(743),當(dāng)由裝置(700)的處理電路(702)執(zhí)行所述指令(744)時(shí),所述指令(744)使所述裝置執(zhí)行前述權(quán)利要求中任一項(xiàng)所述的方法。
29.一種包含權(quán)利要求28的計(jì)算機(jī)程序的載體,其中,所述載體是電子信號、光信號、無線電信號和計(jì)算機(jī)可讀存儲介質(zhì)(742)中的一個(gè)。
30.一種用于渲染包括兩個(gè)或更多個(gè)音頻信號的音頻元素的裝置(700),所述裝置被配置為執(zhí)行包括以下操作的方法:
31.根據(jù)權(quán)利要求30所述的裝置,其中,所述裝置進(jìn)一步被配置為執(zhí)行權(quán)利要求2-7中任一項(xiàng)所述的方法。
32.一種用于渲染立體音頻元素的裝置(700),所述裝置被配置為執(zhí)行包括以下操作的方法:
33.根據(jù)權(quán)利要求32所述的裝置,其中,所述裝置進(jìn)一步被配置為執(zhí)行權(quán)利要求9-17中任一項(xiàng)所述的方法。
34.一種編碼裝置(700),所述編碼裝置被配置為執(zhí)行包括以下操作的方法:
35.根據(jù)權(quán)利要求34所述的裝置,其中,所述裝置進(jìn)一步被配置為執(zhí)行權(quán)利要求19-27中任一項(xiàng)所述的方法。