本文件涉及用于用戶生成內(nèi)容(ugc)的捕獲和自適應(yīng)渲染的方法、裝置和系統(tǒng)。本文件特別涉及移動(dòng)設(shè)備上的ugc內(nèi)容創(chuàng)建,該ugc內(nèi)容創(chuàng)建使得在回放期間能夠進(jìn)行自適應(yīng)渲染,并且涉及回放期間的自適應(yīng)渲染。
背景技術(shù):
1、最近,ugc已成為在可變環(huán)境中分享個(gè)人時(shí)刻的趨勢(shì)。ugc多由移動(dòng)設(shè)備記錄。由于消費(fèi)者硬件限制、系統(tǒng)性能要求、捕獲方式的多樣性以及回放環(huán)境,大多數(shù)此類內(nèi)容都會(huì)有聲音偽影。
2、為了克服硬件限制和記錄環(huán)境帶來的音質(zhì)問題,可以增強(qiáng)ugc音頻以獲得更好的收聽體驗(yàn)。利用當(dāng)時(shí)可用的信息,可以在捕獲期間或捕獲之后立即以實(shí)時(shí)方式來應(yīng)用某些音頻增強(qiáng)。這種增強(qiáng)可以直接應(yīng)用于音頻流并且以實(shí)時(shí)方式來生成增強(qiáng)的音頻流。然后,可以在無需回放設(shè)備上特定軟件支持的情況下渲染增強(qiáng)的音頻。由此,ugc內(nèi)容創(chuàng)建者可以在不付出額外努力的情況下提高其內(nèi)容的音頻質(zhì)量,并確保這種增強(qiáng)能在最大程度上對(duì)其內(nèi)容消費(fèi)者可得。
3、然而,對(duì)于進(jìn)一步增強(qiáng)的音頻質(zhì)量,還有一些依賴實(shí)時(shí)可用信息之外的額外信息的音頻增強(qiáng)。此外,捕獲之后的實(shí)時(shí)增強(qiáng)可能無法與端到端的內(nèi)容處理和用戶體驗(yàn)相兼容。
4、因此,亟需用于ugc捕獲和自適應(yīng)渲染的改進(jìn)技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)一個(gè)方面,提供了一種處理與用戶生成內(nèi)容相關(guān)的音頻數(shù)據(jù)的方法。例如,該方法可以由移動(dòng)設(shè)備來執(zhí)行。該方法可以包括獲得音頻數(shù)據(jù)。獲得音頻數(shù)據(jù)可以包括或相當(dāng)于通過合適的捕獲設(shè)備來捕獲音頻數(shù)據(jù)。捕獲設(shè)備可以是移動(dòng)設(shè)備的一部分,或者可以連接/可連接到移動(dòng)設(shè)備。進(jìn)一步地,捕獲設(shè)備可以是例如雙聲道(binaural)捕獲設(shè)備,其可以記錄至少兩個(gè)聲道記錄。該方法可以進(jìn)一步包括對(duì)音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)以獲得增強(qiáng)的音頻數(shù)據(jù)。該方法可以進(jìn)一步包括基于逐幀音頻增強(qiáng)的一個(gè)或多個(gè)(例如,多個(gè))處理參數(shù)來生成增強(qiáng)的音頻數(shù)據(jù)的元數(shù)據(jù)。該方法還可以進(jìn)一步包括將增強(qiáng)的音頻數(shù)據(jù)與生成的元數(shù)據(jù)一起輸出。
2、如上所述進(jìn)行配置,所提出的方法可以提供適合于由回放設(shè)備直接回放的增強(qiáng)的音頻數(shù)據(jù),而無需由回放設(shè)備進(jìn)行進(jìn)一步的音頻處理。另一方面,該方法還提供增強(qiáng)的音頻數(shù)據(jù)的上下文元數(shù)據(jù)。該上下文元數(shù)據(jù)使得可以恢復(fù)原始音頻,以便通過具有不同(例如,更好)處理能力的回放設(shè)備進(jìn)行額外的/另外的音頻增強(qiáng),或以便使用編輯工具進(jìn)行音頻編輯。由此,根據(jù)設(shè)備的硬件能力、回放環(huán)境、用戶特定的設(shè)置等,可以以自適應(yīng)的方式在回放設(shè)備處執(zhí)行渲染。換句話說,提供上下文元數(shù)據(jù)允許將特定捕獲和渲染硬件的特性、特定環(huán)境、用戶偏好等納入考慮的從捕獲到回放的端到端內(nèi)容處理,,從而實(shí)現(xiàn)音頻數(shù)據(jù)和收聽體驗(yàn)的最佳增強(qiáng)。
3、在一些實(shí)施例中,對(duì)音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)可以包括應(yīng)用以下各項(xiàng)中的至少一項(xiàng):噪音管理、響度管理、音色管理以及峰值限制。例如,這里噪音管理可以涉及去噪。例如,響度管理可以涉及水平調(diào)整和/或動(dòng)態(tài)范圍控制。
4、通過這樣的處理,增強(qiáng)的音頻數(shù)據(jù)適合于由回放設(shè)備直接重放,而無需在回放設(shè)備處進(jìn)行額外的音頻處理。因此,由所提出的方法生成的ugc特別適用于由處理能力通常有限的移動(dòng)設(shè)備進(jìn)行消費(fèi),例如,在流式傳輸框架中用于沒有用于讀取元數(shù)據(jù)的特定軟件支持的設(shè)備。另一方面,如果流式傳輸框架中的設(shè)備具有用于讀取元數(shù)據(jù)的特定軟件支持,則可以讀取元數(shù)據(jù)和增強(qiáng)的音頻數(shù)據(jù),可以使用元數(shù)據(jù)從增強(qiáng)的音頻數(shù)據(jù)生成/恢復(fù)原始音頻,并且可以基于原始音頻生成進(jìn)一步增強(qiáng)的音頻。
5、在一些實(shí)施例中,一個(gè)或多個(gè)處理參數(shù)可以包括在逐幀音頻增強(qiáng)期間應(yīng)用的頻帶增益和/或全頻帶增益。頻帶增益或全頻帶增益可以包括音頻數(shù)據(jù)的每一幀的相應(yīng)增益。進(jìn)一步地,頻帶增益或全頻帶增益可以包括所應(yīng)用的每種類型的增強(qiáng)處理的相應(yīng)增益。元數(shù)據(jù)可以包括實(shí)際增益或其指示。
6、因此,在一些實(shí)施例中,一個(gè)或多個(gè)處理參數(shù)可以包括以下各項(xiàng)中的至少一項(xiàng):用于噪音管理的頻帶增益、用于響度管理的全頻帶增益、用于音色管理的頻帶增益以及用于峰值限制的全頻帶增益。了解到這些增益,接收增強(qiáng)的音頻數(shù)據(jù)的設(shè)備(例如,回放設(shè)備、編輯設(shè)備)可以在必要時(shí)逆轉(zhuǎn)在捕獲之后應(yīng)用的任何增強(qiáng)處理,以隨后應(yīng)用不同的音頻增強(qiáng)和/或音頻編輯。
7、在一些實(shí)施例中,可以以實(shí)時(shí)方式來應(yīng)用逐幀音頻增強(qiáng)。即,逐幀音頻增強(qiáng)可以是實(shí)時(shí)逐幀音頻增強(qiáng)。以這種方式生成的增強(qiáng)的音頻數(shù)據(jù)將特別適合于流式傳輸應(yīng)用等。
8、在一些實(shí)施例中,可以進(jìn)一步基于對(duì)音頻數(shù)據(jù)的多個(gè)幀的分析的結(jié)果來生成元數(shù)據(jù)。在一些實(shí)施例中,對(duì)音頻數(shù)據(jù)的多個(gè)幀的分析可以產(chǎn)生音頻數(shù)據(jù)的長(zhǎng)期統(tǒng)計(jì)數(shù)據(jù)。例如,長(zhǎng)期統(tǒng)計(jì)數(shù)據(jù)可以是基于文件的統(tǒng)計(jì)數(shù)據(jù)。另外或可替代地,對(duì)音頻數(shù)據(jù)的多個(gè)幀的分析可以產(chǎn)生音頻數(shù)據(jù)的一個(gè)或多個(gè)音頻特征。
9、在一些實(shí)施例中,音頻數(shù)據(jù)的音頻特征可以涉及以下各項(xiàng)中的至少一項(xiàng):音頻數(shù)據(jù)的內(nèi)容類型、音頻數(shù)據(jù)的捕獲環(huán)境的指示、音頻數(shù)據(jù)的信噪比、音頻數(shù)據(jù)的整體響度以及音頻數(shù)據(jù)的頻譜形狀。例如,音頻數(shù)據(jù)的整體響度可以涉及文件響度。例如,頻譜形狀可以涉及頻譜包絡(luò)。
10、在元數(shù)據(jù)中包括這樣的額外信息使得接收增強(qiáng)的音頻數(shù)據(jù)和元數(shù)據(jù)的任何設(shè)備能夠執(zhí)行可能無法實(shí)時(shí)實(shí)現(xiàn)的更復(fù)雜的音頻增強(qiáng)和/或執(zhí)行適應(yīng)特定使用情況、環(huán)境等的音頻增強(qiáng)。
11、在一些實(shí)施例中,元數(shù)據(jù)可以包括基于逐幀音頻增強(qiáng)的一個(gè)或多個(gè)處理參數(shù)來生成的第一元數(shù)據(jù)和基于分析音頻數(shù)據(jù)的多個(gè)幀的結(jié)果來生成的第二元數(shù)據(jù)。然后,該方法可以進(jìn)一步包括編譯第一元數(shù)據(jù)和第二元數(shù)據(jù)以獲得經(jīng)編譯的元數(shù)據(jù)來作為用于輸出的元數(shù)據(jù)(上下文元數(shù)據(jù))。例如,第一元數(shù)據(jù)可以被稱為增強(qiáng)元數(shù)據(jù)。例如,第二元數(shù)據(jù)可以被稱為長(zhǎng)期元數(shù)據(jù)。
12、根據(jù)另一方面,提供了一種處理與用戶生成內(nèi)容相關(guān)的音頻數(shù)據(jù)的方法。該方法可以包括獲得音頻數(shù)據(jù)。該方法可以進(jìn)一步包括獲得音頻數(shù)據(jù)的元數(shù)據(jù)。其中,元數(shù)據(jù)可以包括第一元數(shù)據(jù),第一元數(shù)據(jù)指示音頻數(shù)據(jù)的先前(更早的;例如,捕獲側(cè))逐幀音頻增強(qiáng)的一個(gè)或多個(gè)處理參數(shù)。獲得音頻數(shù)據(jù)和元數(shù)據(jù)可以包括或相當(dāng)于接收包括音頻數(shù)據(jù)和元數(shù)據(jù)的比特流,包括例如從存儲(chǔ)介質(zhì)取得音頻數(shù)據(jù)和元數(shù)據(jù)。該方法可以進(jìn)一步包括使用一個(gè)或多個(gè)處理參數(shù)來對(duì)音頻數(shù)據(jù)應(yīng)用恢復(fù)處理,以至少部分地逆轉(zhuǎn)先前的逐幀音頻增強(qiáng),從而獲得原始音頻數(shù)據(jù)。該方法還可以進(jìn)一步包括對(duì)原始音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)以獲得增強(qiáng)的音頻數(shù)據(jù)。另外或可替代地,該方法可以包括對(duì)原始音頻數(shù)據(jù)應(yīng)用編輯處理以獲得經(jīng)編輯的音頻數(shù)據(jù)。
13、通過恢復(fù)原始音頻數(shù)據(jù),重放/編輯設(shè)備可以根據(jù)其處理能力、用戶偏好、回放環(huán)境、長(zhǎng)期統(tǒng)計(jì)數(shù)據(jù)等來應(yīng)用音頻增強(qiáng)或音頻編輯。由此,可以實(shí)現(xiàn)端到端內(nèi)容處理和最佳用戶體驗(yàn)。另一方面,如果處理能力不足以進(jìn)行音頻增強(qiáng),則可以直接渲染接收到的增強(qiáng)的音頻數(shù)據(jù),而無需額外處理。
14、在一些實(shí)施例中,對(duì)音頻數(shù)據(jù)應(yīng)用恢復(fù)處理包括應(yīng)用以下各項(xiàng)中的至少一項(xiàng):背景音恢復(fù)、響度恢復(fù)、峰值恢復(fù)以及音色恢復(fù)。這里,應(yīng)當(dāng)理解,根據(jù)“噪音”和“背景音”的定義,噪音管理/噪音抑制可以將背景音抑制為噪音。例如,如果語音是主要興趣,腳步聲可能屬于噪音,但是如果被認(rèn)為是音景的一部分,腳步聲可能屬于背景音。因此,在恢復(fù)處理中,參考“背景音”恢復(fù)來逆轉(zhuǎn)或部分逆轉(zhuǎn)噪音管理。
15、在一些實(shí)施例中,一個(gè)或多個(gè)處理參數(shù)可以包括在先前的逐幀音頻增強(qiáng)期間應(yīng)用的頻帶增益和/或全頻帶增益。因此,在一些實(shí)施例中,該一個(gè)或多個(gè)處理參數(shù)可以包括以下各項(xiàng)中的至少一項(xiàng):先前的噪音管理的頻帶增益、先前的響度管理的全頻帶增益、先前的峰值限制的全頻帶增益以及先前的音色管理的頻帶增益。
16、在一些實(shí)施例中,元數(shù)據(jù)可以進(jìn)一步包括第二元數(shù)據(jù),第二元數(shù)據(jù)指示音頻數(shù)據(jù)的長(zhǎng)期統(tǒng)計(jì)數(shù)據(jù)和/或指示音頻數(shù)據(jù)的一個(gè)或多個(gè)音頻特征。音頻數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)和/或音頻數(shù)據(jù)的音頻特征可以基于先前的逐幀音頻增強(qiáng)之前或之后的音頻,或者,如果適用,甚至可以針對(duì)兩個(gè)連續(xù)的先前的逐幀音頻增強(qiáng)之間的音頻數(shù)據(jù)。
17、在一些實(shí)施例中,音頻數(shù)據(jù)的音頻特征可以涉及以下各項(xiàng)中的至少一項(xiàng):音頻數(shù)據(jù)的內(nèi)容類型、音頻數(shù)據(jù)的捕獲環(huán)境的指示、先前的逐幀音頻增強(qiáng)之前的音頻數(shù)據(jù)的信噪比、先前的逐幀音頻增強(qiáng)之前的音頻數(shù)據(jù)的整體響度以及先前的逐幀音頻增強(qiáng)之前的音頻數(shù)據(jù)的頻譜形狀。
18、在一些實(shí)施例中,可以基于第二元數(shù)據(jù)來對(duì)原始音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)。由此,可以應(yīng)用比實(shí)時(shí)增強(qiáng)更復(fù)雜的音頻增強(qiáng)處理,從而改善聽覺體驗(yàn)。
19、在一些實(shí)施例中,對(duì)原始音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)可以包括應(yīng)用以下各項(xiàng)中的至少一項(xiàng):噪音管理、響度管理、峰值限制以及音色管理。
20、根據(jù)另一方面,提供了一種用于處理與用戶生成內(nèi)容相關(guān)的音頻數(shù)據(jù)的裝置。該裝置可以包括處理模塊,用于對(duì)音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)以獲得增強(qiáng)的音頻數(shù)據(jù),并且用于輸出增強(qiáng)的音頻數(shù)據(jù)。該裝置可以進(jìn)一步包括分析模塊,用于基于逐幀音頻增強(qiáng)的一個(gè)或多個(gè)處理參數(shù)來生成增強(qiáng)的音頻數(shù)據(jù)的元數(shù)據(jù),并且用于輸出元數(shù)據(jù)。另外,該裝置可以進(jìn)一步包括用于捕獲音頻數(shù)據(jù)的捕獲模塊。
21、在一些實(shí)施例中,處理模塊可以被配置為對(duì)音頻數(shù)據(jù)應(yīng)用以下各項(xiàng)中的至少一項(xiàng):噪音管理、響度管理、峰值限制以及音色管理。
22、在一些實(shí)施例中,該一個(gè)或多個(gè)處理參數(shù)可以包括在逐幀音頻增強(qiáng)期間應(yīng)用的頻帶增益和/或全頻帶增益。
23、在一些實(shí)施例中,該一個(gè)或多個(gè)處理參數(shù)可以包括以下各項(xiàng)中的至少一項(xiàng):用于噪音管理的頻帶增益、用于響度管理的全頻帶增益、用于峰值限制的全頻帶增益以及用于音色管理的頻帶增益。
24、在一些實(shí)施例中,處理模塊可以被配置為以實(shí)時(shí)方式來應(yīng)用逐幀音頻增強(qiáng)。
25、在一些實(shí)施例中,分析模塊可以被配置為進(jìn)一步基于分析音頻數(shù)據(jù)的多個(gè)幀的結(jié)果來生成元數(shù)據(jù)。在一些實(shí)施例中,對(duì)音頻數(shù)據(jù)的多個(gè)幀的分析可以產(chǎn)生音頻數(shù)據(jù)的長(zhǎng)期統(tǒng)計(jì)數(shù)據(jù)。在一些實(shí)施例中,對(duì)音頻數(shù)據(jù)的多個(gè)幀的分析可以產(chǎn)生音頻數(shù)據(jù)的一個(gè)或多個(gè)音頻特征。
26、在一些實(shí)施例中,音頻數(shù)據(jù)的音頻特征可以涉及以下各項(xiàng)中的至少一項(xiàng):音頻數(shù)據(jù)的內(nèi)容類型、音頻數(shù)據(jù)的捕獲環(huán)境的指示、音頻數(shù)據(jù)的信噪比、音頻數(shù)據(jù)的整體響度以及音頻數(shù)據(jù)的頻譜形狀。
27、在一些實(shí)施例中,分析模塊可以被配置為基于逐幀音頻增強(qiáng)的一個(gè)或多個(gè)處理參數(shù)來生成第一元數(shù)據(jù)并且基于分析音頻數(shù)據(jù)的多個(gè)幀的結(jié)果來生成第二元數(shù)據(jù)。分析模塊可以被進(jìn)一步配置為編譯第一元數(shù)據(jù)和第二元數(shù)據(jù),從而獲得經(jīng)編譯的元數(shù)據(jù)來作為用于輸出的元數(shù)據(jù)。
28、根據(jù)另一方面,提供了一種用于處理與用戶生成內(nèi)容相關(guān)的音頻數(shù)據(jù)的裝置。該裝置可以包括用于接收音頻數(shù)據(jù)和音頻數(shù)據(jù)的元數(shù)據(jù)的輸入模塊。其中,元數(shù)據(jù)可以包括第一元數(shù)據(jù),第一元數(shù)據(jù)指示音頻數(shù)據(jù)的先前的逐幀音頻增強(qiáng)的一個(gè)或多個(gè)處理參數(shù)。該裝置可以進(jìn)一步包括處理模塊,用于使用一個(gè)或多個(gè)處理參數(shù)來對(duì)音頻數(shù)據(jù)應(yīng)用恢復(fù)處理,以至少部分地逆轉(zhuǎn)先前的逐幀音頻增強(qiáng),從而獲得原始音頻數(shù)據(jù)。該裝置還可以進(jìn)一步包括渲染模塊和編輯模塊中的至少一個(gè)。渲染模塊可以是用于對(duì)原始音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)以獲得增強(qiáng)的音頻數(shù)據(jù)的模塊。編輯模塊可以是用于對(duì)原始音頻數(shù)據(jù)應(yīng)用編輯處理以獲得經(jīng)編輯的音頻數(shù)據(jù)的模塊。
29、在一些實(shí)施例中,處理模塊可以被配置為對(duì)音頻數(shù)據(jù)應(yīng)用以下各項(xiàng)中的至少一項(xiàng):背景音恢復(fù)、響度恢復(fù)、峰值恢復(fù)以及音色恢復(fù)。
30、在一些實(shí)施例中,一個(gè)或多個(gè)處理參數(shù)可以包括在先前的逐幀音頻增強(qiáng)期間應(yīng)用的頻帶增益和/或全頻帶增益。因此,在一些實(shí)施例中,一個(gè)或多個(gè)處理參數(shù)可以包括以下各項(xiàng)中的至少一項(xiàng):先前的噪音管理的頻帶增益、先前的響度管理的全頻帶增益、先前的峰值限制的全頻帶增益以及先前的音色管理的頻帶增益。
31、在一些實(shí)施例中,元數(shù)據(jù)可以進(jìn)一步包括第二元數(shù)據(jù),第二元數(shù)據(jù)指示音頻數(shù)據(jù)的長(zhǎng)期統(tǒng)計(jì)數(shù)據(jù)和/或指示音頻數(shù)據(jù)的一個(gè)或多個(gè)音頻特征。
32、在一些實(shí)施例中,音頻數(shù)據(jù)的音頻特征可以涉及以下各項(xiàng)中的至少一項(xiàng):音頻數(shù)據(jù)的內(nèi)容類型、音頻數(shù)據(jù)的捕獲環(huán)境的指示、先前的逐幀音頻增強(qiáng)之前的音頻數(shù)據(jù)的信噪比、先前的逐幀音頻增強(qiáng)之前的音頻數(shù)據(jù)的整體響度以及先前的逐幀音頻增強(qiáng)之前的音頻數(shù)據(jù)的頻譜形狀。
33、在一些實(shí)施例中,渲染模塊可以被配置為基于第二元數(shù)據(jù)來對(duì)原始音頻數(shù)據(jù)應(yīng)用逐幀音頻增強(qiáng)。
34、在一些實(shí)施例中,渲染模塊可以被配置為對(duì)原始音頻數(shù)據(jù)應(yīng)用以下各項(xiàng)中的至少一項(xiàng):噪音管理、響度管理、峰值限制以及音色管理。
35、根據(jù)另一方面,提供了一種用于處理與用戶生成內(nèi)容相關(guān)的音頻數(shù)據(jù)的裝置。該裝置可以包括處理器和存儲(chǔ)器,該存儲(chǔ)器耦接到處理器并且存儲(chǔ)用于處理器的指令。該處理器可以被配置為執(zhí)行根據(jù)前述方面及其實(shí)施例的方法的所有步驟。
36、根據(jù)進(jìn)一步方面,描述了一種計(jì)算機(jī)程序。該計(jì)算機(jī)程序可以包括可執(zhí)行指令,該可執(zhí)行指令用于當(dāng)在由計(jì)算設(shè)備執(zhí)行時(shí)執(zhí)行貫穿本公開概述的方法或方法步驟。
37、根據(jù)另一方面,描述了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。該存儲(chǔ)介質(zhì)可以存儲(chǔ)計(jì)算機(jī)程序,該計(jì)算機(jī)程序適于在處理器上執(zhí)行并且用于當(dāng)在處理器上執(zhí)行時(shí)執(zhí)行貫穿本公開概述的方法或方法步驟。
38、應(yīng)當(dāng)注意,如在本公開中概述的方法和系統(tǒng)(包括其優(yōu)選實(shí)施例)可以獨(dú)立使用,或者與本文檔中公開的其他方法和系統(tǒng)結(jié)合使用。此外,本公開中概述的方法和系統(tǒng)的所有方面可以任意組合。特別地,權(quán)利要求的特征可以以任意方式彼此組合。
39、將理解,裝置特征和方法步驟可以以多種方式互換。特別地,如技術(shù)人員將理解的,所公開的(多種)方法的細(xì)節(jié)可以由對(duì)應(yīng)的裝置實(shí)現(xiàn),并且反之亦然。此外,上述關(guān)于(多種)方法(以及,例如其步驟)的任何陳述均應(yīng)理解為同樣適用于對(duì)應(yīng)的裝置(以及,例如,其框、級(jí)、單元),并且反之亦然。