本發(fā)明涉及無線通信系統(tǒng),并且更具體地說,涉及用于處理增強(qiáng)三維(3D)音頻和視頻數(shù)據(jù)的方法和裝置,并且更具體地說,涉及處理增強(qiáng)3D音頻/視頻數(shù)據(jù),以利用MPEG文件格式(MPEGfileformat)執(zhí)行用信號(hào)通知基于3D視頻深度來控制3D音頻深度的深度關(guān)聯(lián)信息的方法和裝置。
背景技術(shù):
:隨著三維(3-Dimensional,3D)電視(TV)的廣泛使用,基于存儲(chǔ)介質(zhì)的3D視頻內(nèi)容和基于數(shù)字廣播的3D視頻內(nèi)容傳輸已經(jīng)快速得到廣泛使用。另外,基于3D效果的3D音頻內(nèi)容不僅被廣泛應(yīng)用于視頻內(nèi)容而且應(yīng)用于音頻內(nèi)容。隨著數(shù)字技術(shù)的日益增長的開發(fā),用戶已經(jīng)連續(xù)請(qǐng)求更精確的音頻/視頻(A/V)體驗(yàn)。為最大化響應(yīng)于用戶需求的A/V體驗(yàn)(experience),已經(jīng)出現(xiàn)應(yīng)用了能夠應(yīng)用于普通家庭影院系統(tǒng)(HomeTheaterSystem,HTS)的立體聲(stereosound)和環(huán)繞聲(surroundsound)技術(shù)的先進(jìn)聲音系統(tǒng)(advancedsoundsystem)。因?yàn)榇蟛糠諸V或HTS具有兩個(gè)揚(yáng)聲器,所以通常使用立體聲系統(tǒng)來向用戶提供聲音體驗(yàn)。然而,因?yàn)楦叨?high-end)HTS具有兩個(gè)或更多個(gè)揚(yáng)聲器,所以環(huán)繞聲系統(tǒng)已經(jīng)被廣泛用于向用戶提供更柔和且精確的聲音體驗(yàn)。近來,已經(jīng)密集討論了在3D聲音空間內(nèi)再現(xiàn)方向和距離以生成3D聲音效果,由此提供3D聲音的3D音頻技術(shù)。在該3D音頻技術(shù)中,聲音再現(xiàn)被控制的最佳聽音位置(acousticsweetspot),即,用戶可以聽到最佳聲音的位置或范圍,可以是3D空間和用戶可聽聲音的某些部分。另外,3D視頻技術(shù)和3D音頻技術(shù)可以分別應(yīng)用至內(nèi)容,并且針對(duì)同時(shí)應(yīng)用了3D視頻技術(shù)和3D音頻技術(shù)的3D內(nèi)容的需求在快速增加。即,盡管針對(duì)利用傳統(tǒng)3D視頻技術(shù)和傳統(tǒng)3D音頻技術(shù)來獨(dú)立地應(yīng)用3D視頻效果和3D音頻效果的3D內(nèi)容的需求在增加,但針對(duì)通過在3D視頻效果與3D音頻效果之間的同步而獲取的3D內(nèi)容的需求在更快速增加。技術(shù)實(shí)現(xiàn)要素:技術(shù)問題本發(fā)明的目的是,提供處理增強(qiáng)3D音頻/視頻數(shù)據(jù),其利用MPEG文件格式來執(zhí)行用信號(hào)通知深度信息,以響應(yīng)于3D視頻的深度來生成3D音頻效果,使得3D視頻效果與3D音頻效果同步的方法和裝置。技術(shù)解決方案本發(fā)明的目的可以通過提供一種增強(qiáng)(enhanced)三維(3D)音頻/視頻(A/V)處理方法來實(shí)現(xiàn),該方法包括以下步驟:生成包括視頻內(nèi)容和音頻內(nèi)容的三維(3-Dimensional,3D)內(nèi)容;生成構(gòu)成所述視頻內(nèi)容的視頻幀的深度信息,以及生成包括生成的所述3D內(nèi)容和所述深度信息的3D增強(qiáng)信號(hào)。所述深度信息被用于生成要應(yīng)用至所述音頻內(nèi)容的3D音頻效果,所述深度信息包括幀標(biāo)識(shí)信息、深度級(jí)(depthlevel)信息以及深度范圍(depthrange)信息。所述幀標(biāo)識(shí)信息指示用于標(biāo)識(shí)每個(gè)視頻幀的幀號(hào)碼,所述深度級(jí)信息指示要應(yīng)用至每個(gè)視頻幀的3D效果的程度,并且所述深度范圍信息指示所述深度級(jí)的總級(jí)數(shù)。根據(jù)本發(fā)明的另一方面,一種增強(qiáng)(enhanced)三維(3-Dimensional,3D)音頻/視頻(A/V)處理方法,該方法包括以下步驟:處理包括3D內(nèi)容的三維(3D)增強(qiáng)信號(hào),該3D內(nèi)容被構(gòu)造成具有視頻內(nèi)容和音頻內(nèi)容;從處理的所述3D增強(qiáng)信號(hào)獲取構(gòu)成所述視頻內(nèi)容的視頻幀的深度信息;根據(jù)所獲取的所述深度信息生成3D音頻效果;以及基于所生成的所述3D音頻效果生成3D音頻內(nèi)容。所述深度信息被用于生成要應(yīng)用至所述音頻內(nèi)容的3D音頻效果,所述深度信息包括幀標(biāo)識(shí)信息、深度級(jí)(depthlevel)信息以及深度范圍(depthrange)信息。所述幀標(biāo)識(shí)信息指示用于標(biāo)識(shí)每個(gè)視頻幀的幀號(hào)碼,所述深度級(jí)信息指示要應(yīng)用至每個(gè)視頻幀的3D效果的程度,并且所述深度范圍信息指示所述深度級(jí)的總級(jí)數(shù)。有益效果如根據(jù)上面的描述明顯的是,該增強(qiáng)3DA/V裝置可以利用基于3D視頻深度的信令信息來生成3D聲音效果,使得其可以提供3D視頻數(shù)據(jù)和3D音頻數(shù)據(jù)被正確同步的3D內(nèi)容。根據(jù)本發(fā)明,該增強(qiáng)3DA/V裝置可以利用基于3D視頻深度的信令信息來生成3D聲音效果,從而降低裝置設(shè)計(jì)的復(fù)雜性。根據(jù)本發(fā)明,當(dāng)發(fā)送基于3D視頻深度的信令信息時(shí),該增強(qiáng)3DA/V裝置去除冗余信息,并且發(fā)送除了該冗余信息以外的剩余信息,從而獲取較高的發(fā)送效率。附圖說明圖1是例示音頻系統(tǒng)的發(fā)展過程的概念圖。圖2是例示增強(qiáng)3D音頻/視頻(A/V)處理裝置的概念圖。圖3是例示根據(jù)本發(fā)明的實(shí)施方式的深度表的概念圖。圖4是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的深度表的概念圖。圖5是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的深度表的概念圖。圖6是例示根據(jù)本發(fā)明的實(shí)施方式的3D聲音空間的概念圖。圖7是例示根據(jù)本發(fā)明的實(shí)施方式的視頻幀的概念圖。圖8是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的視頻幀的概念圖。圖9是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的視頻幀的概念圖。圖10是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的視頻幀的概念圖。圖11是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的視頻幀的概念圖。圖12是例示根據(jù)本發(fā)明的實(shí)施方式的增強(qiáng)3DA/V處理裝置的框圖。圖13是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的增強(qiáng)3DA/V處理裝置的框圖。圖14是例示根據(jù)本發(fā)明的實(shí)施方式的增強(qiáng)3DA/V處理方法的流程圖。圖15是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的增強(qiáng)3DA/V處理方法的流程圖。具體實(shí)施方式下面,對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行詳細(xì)說明。其示例在附圖中進(jìn)行了例示。下面參照附圖給出的詳細(xì)描述旨在說明本發(fā)明的示例性實(shí)施方式,而非示出可以根據(jù)本發(fā)明實(shí)現(xiàn)的唯一實(shí)施方式。盡管該說明書中的部件的大多數(shù)術(shù)語已經(jīng)考慮到其在本說明書中的功能而從本領(lǐng)域中廣泛使用的普通術(shù)語中選擇,但這些術(shù)語可以根據(jù)本發(fā)明或本領(lǐng)域技術(shù)人員的習(xí)慣或者新技術(shù)的引入來改變。一些術(shù)語已經(jīng)由本申請(qǐng)人任意選擇,并且他們的含義若需要?jiǎng)t在下面的描述中加以說明。由此,本說明書中使用的術(shù)語應(yīng)當(dāng)基于本說明書的總體內(nèi)容與該術(shù)語的實(shí)際含義一起而非它們的簡單名稱或含義來解釋。隨著數(shù)字技術(shù)的日益發(fā)展,用戶需要更好的音頻/視頻(A/V)體驗(yàn)(experience)。為最大化響應(yīng)于用戶請(qǐng)求的A/V體驗(yàn),已經(jīng)出現(xiàn)應(yīng)用了能夠應(yīng)用于普通家庭影院系統(tǒng)(HomeTheaterSystem,HTS)的立體聲(stereosound)和環(huán)繞聲(surroundsound)技術(shù)的先進(jìn)聲音系統(tǒng)(advancedsoundsystem)。因?yàn)榇蟛糠諸V或HTS具有兩個(gè)揚(yáng)聲器,所以通常使用立體聲系統(tǒng)來向用戶提供聲音體驗(yàn)。然而,因?yàn)楦叨薍TS具有兩個(gè)或更多個(gè)揚(yáng)聲器,所以環(huán)繞聲系統(tǒng)已經(jīng)被廣泛用于向用戶提供更柔和且優(yōu)美的聲音體驗(yàn)。近來,已經(jīng)密集討論了在3D聲音空間內(nèi)再現(xiàn)聲源的方向和距離來生成3D音頻效果的3D音頻技術(shù)。在該3D音頻技術(shù)中,聲音再現(xiàn)被控制的最佳聽音位置(acousticsweetspot),即,用戶可以聽到最佳聲音的位置或范圍,可以是3D空間和用戶可聽聲音的某些部分。另外,隨著技術(shù)的日益發(fā)展,3D視頻技術(shù)和3D音頻技術(shù)可以分別應(yīng)用至內(nèi)容,并且針對(duì)同時(shí)應(yīng)用了3D視頻技術(shù)和3D音頻技術(shù)的3D內(nèi)容的需求在快速增加。即,盡管針對(duì)利用傳統(tǒng)3D視頻技術(shù)和傳統(tǒng)3D音頻技術(shù)來獨(dú)立地應(yīng)用3D視頻效果和3D音頻效果的3D內(nèi)容的需求在增加,但針對(duì)通過在3D視頻效果與3D音頻效果之間的同步而獲取的3D內(nèi)容的需求在更快速增加。在這種情況下,假定3D音頻數(shù)據(jù)的深度(depth)與3D視頻數(shù)據(jù)的深度正確地同步,可以向用戶提供優(yōu)美的增強(qiáng)3DA/V體驗(yàn)。因此,本發(fā)明提供了所述增強(qiáng)3D增強(qiáng)3DA/V處理方法和裝置,以利用MPEG文件格式來執(zhí)行用信號(hào)通知用于響應(yīng)于的3D視頻數(shù)據(jù)的深度控制3D音頻的深度所需的深度信息。圖1是例示音頻系統(tǒng)的發(fā)展過程的概念圖。參照?qǐng)D1,該音頻系統(tǒng)已經(jīng)從雙通道立體音頻系統(tǒng)演進(jìn)至3D音頻/視頻(A/V)系統(tǒng)。下面,對(duì)圖1所示發(fā)展過程的詳細(xì)描述進(jìn)行詳細(xì)描述。圖1的(a)是例示立體音頻系統(tǒng)的概念圖。圖1的(b)是環(huán)繞音頻系統(tǒng)的概念圖。圖1的(c)是例示由本發(fā)明提出的增強(qiáng)3D音頻系統(tǒng)的概念圖。該立體音頻系統(tǒng)可以經(jīng)由包括在普通TV或HTS中的兩個(gè)揚(yáng)聲器向用戶提供音頻,如圖1的(a)所示。該環(huán)繞音頻系統(tǒng)可以經(jīng)由兩個(gè)或更多個(gè)揚(yáng)聲器向用戶提供音頻,如圖1的(b)所示。該環(huán)繞音頻系統(tǒng)通過在立體音頻系統(tǒng)中使用的兩個(gè)通道來提供基本音頻,通過安裝至該音頻系統(tǒng)的前側(cè)、橫側(cè),以及后表面的附加揚(yáng)聲器來提供附加音頻,從而實(shí)現(xiàn)立體聲音效果。圖1的(c)所示的增強(qiáng)3D音頻/視頻(AV)系統(tǒng)可以具有圍繞用戶的多個(gè)通道,并且可以利用從視頻內(nèi)容獲取的深度信息來生成要應(yīng)用至在3D聲音空間中提供的3D音頻數(shù)據(jù)的3D音頻效果。該3D聲音空間是為提供3D音頻數(shù)據(jù)而建立的區(qū)域,并且可以根據(jù)多個(gè)深度級(jí)劃分成多個(gè)音頻點(diǎn)。每個(gè)音頻點(diǎn)都可以被限定為包括在3D聲音空間中的特定位置。響應(yīng)于每個(gè)深度級(jí)處理的3D音頻數(shù)據(jù)可以提供給每個(gè)音頻點(diǎn)。另外,應(yīng)用至每個(gè)音頻點(diǎn)的3D音頻效果可以被限定為聲音深度級(jí)。另外,該聲音深度級(jí)可以根據(jù)上述3D視頻數(shù)據(jù)的深度信息來確定。因此,獲取視頻內(nèi)容的深度信息,以生成與3D聲音空間的音頻點(diǎn)相對(duì)應(yīng)的3D音頻效果,從而可以利用針對(duì)與當(dāng)前視頻內(nèi)容相對(duì)應(yīng)的3D音頻效果,向用戶提供高質(zhì)量3D音頻/視頻(AV)體驗(yàn)。增強(qiáng)3D音頻/視頻(A/V)系統(tǒng)可以使用兩個(gè)通道,并且還可以使用兩個(gè)或更多個(gè)通道。圖2是例示增強(qiáng)3D音頻/視頻(A/V)處理裝置的概念圖。參照?qǐng)D2,增強(qiáng)3D音頻/視頻(AV)處理裝置可以包括視頻引擎210和音頻引擎220。視頻引擎210可以包括深度圖模塊211和深度分析模塊212,并且音頻引擎220可以包括聲音濾波模塊221和3D聲音效果生成模塊222。下面,對(duì)圖2所示的上述模塊進(jìn)行詳細(xì)描述。包括在視頻引擎210中的深度圖模塊211可以從3D視頻流中提取關(guān)于用于傳送3D視頻內(nèi)容的左視圖像(leftviewimage)的左側(cè)幀(leftframe)與用于傳送3D視頻內(nèi)容的右視圖像(rightviewimage)的右側(cè)幀(rightframe)兩者的深度圖(depthmap)。一般來說,3D視頻內(nèi)容利用立體視覺的原理向用戶的眼睛提供立體(stereo)效果。人類通過因他們的眼睛之間的彼此隔開大約65mm的距離而造成的雙眼視差(binocularparallax)來感測距離,使得3D圖像使得右眼和左眼都分別觀看關(guān)聯(lián)的左視圖像和右視圖像,從而產(chǎn)生立體效果和透視效果。因此,左側(cè)幀和右側(cè)幀可以針對(duì)該立體效果而配對(duì)。該深度(depth)可以指示立體效果,即,3D效果的量,并且可以通過特定數(shù)字化數(shù)值單位來表示,并且還可以根據(jù)設(shè)計(jì)者的意圖而改變。根據(jù)實(shí)施方式的相同或不同深度的配對(duì)幀(即,幀對(duì))可以被分配給相應(yīng)幀。深度圖模塊211可以提取關(guān)于被分配給每個(gè)幀的深度的信息,可以生成指示與每個(gè)幀相對(duì)應(yīng)的深度信息的深度圖,并且可以提取包括在3D視頻流中的深度圖。深度分析模塊212可以分解所生成的深度圖或所提取的深度圖,并由此,確定相應(yīng)對(duì)的幀的代表視頻深度級(jí)。此后,視頻引擎210可以向音頻引擎220發(fā)送由深度分析模塊212確定的視頻深度級(jí)。包括在音頻引擎220中的聲音濾波模塊221可以對(duì)音頻濾波。此后,3D聲音效果生成模塊222可以生成或確定能夠指示濾波后的音頻中的3D效果的3D音頻效果(或3D聲音效果)。3D音頻效果的聲深度級(jí)可以根據(jù)上述視頻深度級(jí)來確定,使得3D音頻深度級(jí)可以與3D視頻深度級(jí)同步。圖2所示的增強(qiáng)3DA/V處理裝置具有下列缺點(diǎn)。首先,裝置設(shè)計(jì)所必需的高開發(fā)成本和高生產(chǎn)成本會(huì)遭遇一些問題。根據(jù)上述增強(qiáng)3DA/V處理裝置,視頻引擎210可以確定3D視頻深度級(jí),并且音頻引擎220可以生成與所確定的3D視頻深度級(jí)相對(duì)應(yīng)的3D音頻效果。因此,設(shè)計(jì)能夠確定3D視頻深度級(jí)的視頻引擎可能需要高開發(fā)成本和高生產(chǎn)成本。第二,增加設(shè)計(jì)復(fù)雜性會(huì)導(dǎo)致裝置設(shè)計(jì)方面的某些問題。一般來說,用于實(shí)時(shí)處理高質(zhì)量3D視頻數(shù)據(jù)的視頻引擎設(shè)計(jì)需要比音頻引擎更高的復(fù)雜性。因此,用于在視頻引擎與音頻引擎之間實(shí)時(shí)同步的裝置就裝置設(shè)計(jì)而言可能要求附加復(fù)雜性。最后,低準(zhǔn)確性和低滿意度還可能導(dǎo)致不希望的問題。當(dāng)前3D內(nèi)容不總是需要包括與通過3D視頻分析結(jié)果獲取的深度級(jí)同步的3D音頻效果。因此,盡管增強(qiáng)3DA/V處理裝置以高設(shè)計(jì)復(fù)雜性和高生產(chǎn)成本來開發(fā),但因?yàn)橛糜谡{(diào)節(jié)3D音頻效果的深度級(jí)具有低準(zhǔn)確性,該3D音頻內(nèi)容可以具有比3D視頻內(nèi)容低的質(zhì)量,。而且,因?yàn)閼?yīng)用至3D視頻內(nèi)容的3D效果可變,所以每個(gè)視頻幀的深度級(jí)的準(zhǔn)確性會(huì)劣化。為了致力于解決上述問題,本發(fā)明提供通過MPEG文件格式來用信號(hào)通知能夠支持增強(qiáng)3DA/V內(nèi)容的深度信息的方法。能夠構(gòu)成上述3D內(nèi)容的視頻圖像和音頻數(shù)據(jù)可以按不同方式(諸如運(yùn)動(dòng)圖像專家組(MovingPicutureExpertsGroup,MPEG))壓縮編碼。例如,用于構(gòu)成3D視頻內(nèi)容的圖像和用于構(gòu)成3D音頻內(nèi)容的音頻數(shù)據(jù)可以利用MPEG或H.264/AVC(AdvancedVideoCoding,高級(jí)視頻編碼)方案來壓縮編碼。在這種情況下,接收器可以按MPEG或H.264/AVC方案的逆序解碼視頻圖像和音頻數(shù)據(jù),使得其可以獲取3D內(nèi)容。MPEG文件格式可以被用于傳送構(gòu)成根據(jù)MPEG方案壓縮的3D內(nèi)容的視頻和音頻流,并且可以指示包括其它附加數(shù)據(jù)的多媒體容器格式。更詳細(xì)地說,MPEG文件格式可以包括具有實(shí)際A/V流的數(shù)據(jù)的媒體數(shù)據(jù)容器(mediadatacontainer),和具有為再現(xiàn)與內(nèi)容相關(guān)聯(lián)的信息或文件所需的特定信息的元數(shù)據(jù)容器(metadatacontainer)。在本發(fā)明中,該媒體數(shù)據(jù)容器在下面被稱為媒體數(shù)據(jù)盒(mediadatabox),而該元數(shù)據(jù)容器在下面被稱為元數(shù)據(jù)盒(metadatabox)。每個(gè)盒都可以包括子盒或子原子(subatom),其每個(gè)都可以被標(biāo)識(shí)。該媒體數(shù)據(jù)容器可以以幀為單位來存儲(chǔ)A/V流的數(shù)據(jù)。該媒體數(shù)據(jù)容器可以包括A/V流的A/V軌道(track)和樣本表盒(sampletablebox)。該A/V樣本可以是用于接近以幀為單位存儲(chǔ)的A/V流的存取單元(accessunit)。每個(gè)A/V樣本都可以指示視頻幀和音頻幀中的每個(gè)的數(shù)據(jù)。在本發(fā)明中,為便于描述,術(shù)語“樣本”在下面被稱為幀。另外,A/V軌道可以指示一組A/V樣本。樣本表盒可以包括包含在每個(gè)軌道中的每個(gè)樣本的定時(shí)(timing)點(diǎn)和針對(duì)物理布局(Physicallayout)的索引(index)。因此,該3D內(nèi)容發(fā)送/提供單元(即,3D內(nèi)容發(fā)送器)可以通過MPEG文件格式來執(zhí)行用信號(hào)通知上述深度信息,該3D內(nèi)容接收器可以檢測通過MPEG文件格式用信號(hào)通知的深度相關(guān)信息,可以確定3D聲音深度,以生成3D音頻效果,并且可以向用戶提供增強(qiáng)3D內(nèi)容。即,如可以從圖2看出,該視頻深度級(jí)未實(shí)時(shí)提取或處理,并且3D音頻效果可以利用包括在MPEG文件格式中的深度信息來生成,使得可以提供更高質(zhì)量的增強(qiáng)3D內(nèi)容。下面,對(duì)根據(jù)該實(shí)施方式的用于通過MPEG文件格式來發(fā)送上述深度信息的用信號(hào)通知方法進(jìn)行詳細(xì)描述。根據(jù)該實(shí)施方式的深度信息可以包括在上述樣本表盒中,并且可以根據(jù)設(shè)計(jì)者意圖而變。具體來說,根據(jù)一個(gè)實(shí)施方式的深度信息可以包括視頻幀的、用于調(diào)節(jié)3D音頻效果的聲音深度級(jí)的深度級(jí)(depthlevel)信息或者深度范圍(depthrange)信息,并且可以根據(jù)設(shè)計(jì)者意圖而變。根據(jù)一個(gè)實(shí)施方式的深度信息可以每視頻軌道而用信號(hào)通知。在這種情況下,該深度信息可以包括“num_depth_levels”信息。該“num_depth_levels”信息可以指示用于調(diào)節(jié)3D音頻效果的聲音深度的深度級(jí)(depthlevel)數(shù),并且可以與針對(duì)每個(gè)視頻幀限定的深度級(jí)數(shù)相同。該深度級(jí)值可以包括1至9的總計(jì)9個(gè)級(jí)別值。該“num_depth_levels”信息可以根據(jù)1~9的相同深度級(jí)而分別分配1、2、4、8、16、32、64、128,以及256。另外,“num_depth_levels”可以指示與每個(gè)視頻軌道相對(duì)應(yīng)的深度級(jí)數(shù)。根據(jù)一個(gè)實(shí)施方式的“num_depth_levels”信息可以被包含在上述樣本表盒中所包括的樣本條目元素“VisualSampleEntry”或“AudioSampleEntry”中,并且可以包括在該樣本表盒中所包括的子盒“DepthLevelsFor3DAVBox”中。術(shù)語“DepthLevelsFor3DAVBox”還可以根據(jù)設(shè)計(jì)者意圖而改變成另一個(gè),而且“DepthLevelsFor3DAVBox”可以包括在上述樣本條目元素“VisualSampleEntry”或“AudioSampleEntry”中,并且還可以根據(jù)設(shè)計(jì)者意圖而改變。下面的表1示出了其中“num_depth_levels”信息通過“VisualSampleEntry”作為句法(syntax)用信號(hào)通知的示例性情況。下面的表2示出了其中“num_depth_levels”信息通過“AudioSampleEntry”作為句法用信號(hào)通知的示例性情況。表1[表1]表2[表2]classAudioSampleEntry(codingname)extendsSampleEntry(codingname){constunsignedint(32)[2]reserved=0;templateunsignedint(16)channelcount=2;templateunsignedint(16)samplesize=16;unsignedint(16)pre_defined=0;unsignedint(4)num_depth_levels;constunsignedint(8)reserved=0:templateunsignedint(32)samplerate={defaultsamplerateofmedia}<<16;}下面的表3示出了其中“num_depth_levels”信息通過“DepthLevelsFor3DAVBox”作為句法用信號(hào)通知的示例性情況。如上所述,“DepthLevelsFor3DAVBox”可以包括在上述樣本條目元素“VisualSampleEntry”或“AudioSampleEntry”中,而且還可以包括在另一樣本條目元素“MetadataSampleEntry”中。在表3中,“DepthLevelsFor3DAVBox”包括在“VisualSampleEntry”中。表3[表3]根據(jù)一個(gè)實(shí)施方式的深度信息可以針對(duì)每個(gè)視頻樣本(即,針對(duì)每個(gè)視頻幀)而用信號(hào)通知。在這種情況下,該深度信息可以包括“depth_level_per_video_frame”信息。該“depth_level_per_video_frame”信息可以指示在每個(gè)視頻幀中限定的深度級(jí)信息,并且可以被用于確定應(yīng)用至與視頻幀相對(duì)應(yīng)的音頻內(nèi)容的3D音頻效果的聲音深度。更詳細(xì)地說,該“depth_level_per_video_frame”信息可以被構(gòu)造成包括在從0至“num_depth_levels-1”值(value)的范圍中的值中的任一個(gè),其指示在從“num_depth_levels”信息減去值1時(shí)所獲取的結(jié)果。即,“depth_level_per_video_frame”信息可以被構(gòu)造成與“num_depth_levels–1”值的范圍相對(duì)應(yīng)的值中的任一個(gè)。如果“depth_level_per_video_frame”信息被構(gòu)造成零(0),則與對(duì)應(yīng)幀相對(duì)應(yīng)的3D音頻效果的聲音深度級(jí)可以被限定為與最靠近電視機(jī)(TV)或者觀看3D聲音空間內(nèi)的TV的用戶定位的音頻點(diǎn)相對(duì)應(yīng)的3D聲音深度級(jí)。另外,如果“depth_level_per_video_frame”信息用“num_depth_levels–1”指示,則與對(duì)應(yīng)幀相對(duì)應(yīng)的3D音頻效果的聲音深度級(jí)可以被限定為與離TV或者該用戶最遠(yuǎn)的音頻點(diǎn)相對(duì)應(yīng)的3D聲音深度級(jí)。下面的表4示出了充任句法的“depth_level_per_video_frame”信息根據(jù)本發(fā)明的另一個(gè)實(shí)施方式包括在“DepthFor3DAVBox”中的示例性情況。表4[表4]表4所示樣本計(jì)數(shù)(samplecount)值可以從包括在元數(shù)據(jù)容器中的樣本尺寸盒(samplesizebox)導(dǎo)出。如上所述,3D內(nèi)容發(fā)送器/提供方可以利用表1至表4所示MPEG文件格式的句法來用信號(hào)通知“num_depth_levels”信息和“depth_level_per_video_frame”信息,并且3D內(nèi)容接收器可以檢測包括在表1至表4所示MPEG文件格式的句法中的“num_depth_levels”信息和“depth_level_per_video_frame”信息,使得其可以確定3D聲音深度。然而,“depth_level_per_video_frame”信息值需要針對(duì)每個(gè)樣本來限定,而且包括在該句法中的“depth_level_per_video_frame”信息的量可能導(dǎo)致不希望的問題。因此,為了減小每個(gè)樣本的“depth_level_per_video_frame”信息值,和執(zhí)行有效的用信號(hào)通知,本發(fā)明提供一種用于指示其中將樣本分組的每樣本組的深度信息的用信號(hào)通知方法。在這種情況下,上述“num_depth_levels”信息和“depth_level_per_video_frame”信息可以分別通過兩個(gè)“DepthLevelsGroupFor3DAV”來用信號(hào)通知。下面的表5示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的句法,并且示出了“num_depth_levels”信息和“depth_level_per_video_frame”信息分別通過“DepthLevelsGroupFor3DAVBox”用信號(hào)通知,以指示針對(duì)其中將樣本分組的每個(gè)樣本組的深度信息的示例性情況。表5[表5]如表5所示,兩個(gè)“DepthLevelsGroupFor3DAVextendsFullBox”單元中的每個(gè)都可以包括“entry_count”信息和“group_description_index”信息。該“entry_count”信息可以指示用于任務(wù)處理的條目的數(shù)量,并且可以具有整數(shù)值。另外,該“groupdescription_index”信息可以指示表示包括在當(dāng)前組中的樣本的同一樣本組條目,并且可以具有整數(shù)值。該“group_description_index”信息可以包括在元數(shù)據(jù)容器的“SampleToGroupBox”中。另外,如表5所示,“DepthLevelsGroupFor3DAVextendsFullBox”可以包括包括在每個(gè)樣本組中的“num_depth_levels”信息,并且包括在每個(gè)樣本組中的“num_depth_levels”信息可以與包括在3D視頻數(shù)據(jù)組中的所有樣本的其它“num_depth_levels”信息相同。另外,因?yàn)椤癲epth_level_per_video_frame”信息包括在“DepthLevelsGroupFor3DAVextendsFullBox”中,所以同一“depth_level_per_video_frame”信息值可以應(yīng)用至包括在每個(gè)樣本組中的樣本。如上所述,根據(jù)一個(gè)實(shí)施方式的深度信息可以通過同一樣本表盒的樣本條目組元等來用信號(hào)通知。下面,對(duì)根據(jù)一個(gè)實(shí)施方式的、用于通過包括在樣本表中的盒來用信號(hào)通知各種深度信息的方法進(jìn)行詳細(xì)描述。表6示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的句法,并且示出了這樣的示例性情況,即,深度信息通過樣本表盒的“DepthLevelsGroupFor3DAVBox”用信號(hào)通知。表6[表6]參照表6,該深度信息可以包括:“entry_counter”信息、“sample_index”信息、“depth_level”信息,以及“depth_range”信息。該“entry_counter”信息可以指示包括在稍后要描述的深度表中的條目的數(shù)量,并且可以具有整數(shù)值。該“sample_index”信息可以指示包括在當(dāng)前視頻軌道中的每個(gè)樣本。即,“sample_index”信息可以指示每個(gè)幀的索引號(hào),并且可以具有整數(shù)值。該“depth_range”信息可以指示被用于調(diào)節(jié)3D聲音深度的深度級(jí)的總級(jí)數(shù)。盡管“depth_range”信息和“num_depth_levels”信息具有不同的名稱,但它們可以發(fā)送相同信息。換句話說,“depth_range”信息可以指示深度級(jí)的范圍。因此,如果“depth_range”信息被構(gòu)造成零(0),則“depth_level”信息無意義。該“深度級(jí)”信息被用于生成要向與視頻幀相對(duì)應(yīng)的音頻內(nèi)容應(yīng)用的3D音頻效果。更詳細(xì)地說,3D音頻效果的聲深度級(jí)可以根據(jù)“depth_level”信息來確定?!癲epth_level”信息可以指示每個(gè)視頻幀的深度級(jí)。盡管“depth_level”信息和“depth_level_per_video_frame”信息具有不同的名稱,但它們可以發(fā)送相同信息。因此,該“depth_level”信息可以被構(gòu)造成,包括在從0至“depth_range–1”值的范圍中的值中的任一個(gè),其指示在從“depth_range”信息減去值1時(shí)所獲取的結(jié)果。即,“depth_level”信息可以被構(gòu)造成與“depth_range–1”值的范圍相對(duì)應(yīng)的值中的任一個(gè)。如果“depth_level”信息被構(gòu)造成零(0),則與對(duì)應(yīng)幀相對(duì)應(yīng)的3D音頻效果的聲音深度級(jí)可以被限定為與最靠近電視機(jī)(TV)或者觀看3D聲音空間內(nèi)的TV的用戶定位的音頻點(diǎn)相對(duì)應(yīng)的3D聲音深度級(jí)。另外,如果“depth_level”信息用“depth_range–1”指示,則與對(duì)應(yīng)幀相對(duì)應(yīng)的3D音頻效果的聲音深度級(jí)可以被限定為與離TV或者該用戶最遠(yuǎn)的音頻點(diǎn)相對(duì)應(yīng)的3D聲音深度級(jí)。即,該3D聲音深度級(jí)可以對(duì)應(yīng)于上述“深度級(jí)”信息,并且根據(jù)相應(yīng)音頻點(diǎn)可以具有相同或不同值。如表6所示,“sample_index”信息、“depth_level”信息,以及““depth_range”信息可以位于緊接著“entrycounter”信息定位的for-loop中,并且可以在響應(yīng)于“entry_counter”信息值一個(gè)接一個(gè)地增加而限定的每個(gè)條目中限定。根據(jù)表6的實(shí)施方式的句法可以提供包括包括在視頻軌道中的3D視頻樣本的深度級(jí)和深度范圍的深度表。下面,對(duì)該深度表進(jìn)行詳細(xì)描述。圖3是例示根據(jù)本發(fā)明的實(shí)施方式的深度表的概念圖。圖3所示深度表可以通過表6的句法來提供。圖3的(a)的深度表可以包括:“sample_index”信息、“decoding_time”信息、“depth_range”信息,以及“depth_level”信息。該“decoding_time”信息可以指示解碼根據(jù)“sample_index”信息標(biāo)識(shí)的每個(gè)幀的具體時(shí)間。即,圖3的(a)的深度表可以提供包括在視頻軌道中的相應(yīng)幀的解碼時(shí)間信息、深度范圍信息以及深度級(jí)信息。圖3的(b)所示深度表可以包括:“entry_counter”information”、“sample_index”、“depth_range”信息,以及“depth_level”信息。即,圖3的(b)的深度表可以提供按每個(gè)條目處理的幀的深度范圍信息(depth_range)和深度級(jí)信息(depth_level)。圖3的(b)的深度表可以根據(jù)圖3的(a)的深度表來獲取。圖3的(b)所示深度表可以被生成并從發(fā)送器發(fā)送,并且還可以利用圖3的(a)所示深度表通過接收器來生成。上述描述可以根據(jù)設(shè)計(jì)者意圖而變。下面,對(duì)圖3的(a)所示深度表進(jìn)行詳細(xì)描述。如圖3的(a)所示,該深度表的第一行可以包括用于標(biāo)識(shí)包括在視頻軌道中的幀的“sample_index”樣本索引信息值,第二行至第四行可以分別包括“decoding_time”信息值、“depth_range”信息值,以及“depth_level”信息值。分別包括在第二、第三,以及第四行中的“decoding_time”信息值、“depth_range”信息值,以及“depth_level”信息值可以在第一行的每個(gè)幀中限定。更詳細(xì)地說,如圖3的(a)的深度表中所示,具有“sample_index”信息值1的幀1對(duì)應(yīng)于對(duì)應(yīng)視頻軌道的第一幀,使得幀1可以具有“decoding_time”信息值零(0)。另外,幀1的深度范圍根據(jù)圖3的(a)的深度表設(shè)置成16,并且?guī)?的深度級(jí)對(duì)應(yīng)于值3。另外,如圖3的(a)的深度表中所示,具有“sample_index”信息值2的幀2在解碼第一幀(幀1)之后解碼,使得幀2的“decoding_time”信息值可以設(shè)置成10。如圖3的(a)的深度表中所示,幀2的深度范圍可以設(shè)置成16,并且?guī)?的深度級(jí)可以設(shè)置成3。下面,對(duì)圖3的(b)深度表進(jìn)行詳細(xì)描述。如圖3的(b)所示,該深度表的第一行可以指示“entry_counter”信息、“sample_index”信息、“depth_range”信息,以及“depth_level”信息以標(biāo)識(shí)每一列。圖3的(b)的深度表的第一行可以包括“entry_counter”信息值,并且第二列至第四列可以分別包括“sample_index”信息值、“depth_range”信息值,以及“depth_level”信息值。如圖3的(a)所示,從第一幀開始的相應(yīng)幀被順序地處理,使得與條目1相對(duì)應(yīng)的幀可以是具有“sample_index”信息值1的幀。因此,如圖3的(b)的深度表中所示,如果“entry_counter”信息值被構(gòu)造成“1”時(shí),“sample_index”信息值可以被構(gòu)造成1。因此,具有該“sample_index”信息值的幀的深度范圍被構(gòu)造成16,并且該幀的深度級(jí)被構(gòu)造成3,使得圖3的(b)的深度表的“depth_range”信息值可以用16指示,并且“depth_level”信息值可以用3來指示。按相同方式,因?yàn)榕c第二條目相對(duì)應(yīng)的幀是具有“sample_index”信息值2的幀,所以如果“entry_counter”信息值被構(gòu)造成“2”時(shí),“sample_index”信息值可以用2指示,“depth_range”信息值可以用16指示,并且“depth_level”信息值可以用3指示。另外,因?yàn)閹目倲?shù)為12,所以圖3的(b)的深度表的條目數(shù)可以設(shè)置成12。因此,該接收器利用圖3所示深度表,不僅可以獲取關(guān)于每條目每一幀的深度范圍的信息,而且可以獲取關(guān)于每條目每一幀的深度級(jí)的信息,可以根據(jù)所獲取信息解碼視頻幀,而且同時(shí)可以生成與每個(gè)幀的深度范圍和深度級(jí)相對(duì)應(yīng)的3D聲音效果,使得可以每幀生成同步3D音頻。然而,圖3所示深度表包括關(guān)于所有幀的深度信息。如果包括在一個(gè)視頻軌道中的幀的數(shù)量增加,則深度表的容量可以增加。具體來說,即使一些幀具有相同的深度范圍和相同的深度級(jí),也存在冗余信息,從而降低發(fā)送效率。為了減小深度表的容量并且增大發(fā)送效率,根據(jù)本發(fā)明的用信號(hào)通知方法可以去除具有相同深度范圍和相同深度級(jí)的幀的冗余信息,可以通過分離句法發(fā)送“depth_range”信息和“depth_level”信息,并且可以提供獨(dú)立深度表。表7示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的句法,并且示出了這樣的示例性情況,即,深度級(jí)信息通過樣本表盒中包括的“DepthLevelsGroupFor3DAVBox”用信號(hào)通知。表7[表7]盡管表7所示句法按和表6的句法相同的方式包括“entry_counter”信息、“sample_index”信息,以及“depth_level”信息,但表7的句法可以不包括“depth_range”信息,而是按不同于表6的方式包括“sample_offset”信息。和表6中相同的信息將從表7中省略,而且同樣,在下面對(duì)“sample_offset”信息的詳細(xì)描述進(jìn)行詳細(xì)描述。“sample_offset”信息可以指示表示包括在視頻軌道中的多個(gè)幀當(dāng)中的、向其應(yīng)用相同深度級(jí)的連續(xù)幀的數(shù)量的偏移。因此,向其應(yīng)用相同深度級(jí)的連續(xù)幀的“sample_index”信息值和“sample_offset”信息值可以從1起順序地增加,并且稍后,給出其詳細(xì)描述。按和表6的句法的相同的方式,根據(jù)另一實(shí)施方式的表7所示的句法可以提供包括在視頻軌道中的3D視頻樣本的深度級(jí)的深度表。下面,對(duì)該深度表進(jìn)行詳細(xì)描述。圖4是例示根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的深度表的概念圖。表7的句法可以提供如上所述圖4中所示深度表。圖4的(a)所示深度表包括:“sample_index”信息值、“decoding_time”信息值、“sample_offset”信息值,以及“depth_level”信息值。即,圖4的(a)所示深度表可以提供包括在視頻軌道中的所有樣表的解碼收集信息,向其應(yīng)用相同深度級(jí)的連續(xù)幀的偏移信息,以及該連續(xù)幀的深度級(jí)信息。圖4的(b)所示深度表可以包括:“entry_counter”信息值、“sample_index”信息值、“sample_off...當(dāng)前第1頁1 2 3