用于3d視頻的視圖間運動預(yù)測的制作方法
【專利說明】用于3D視頻的視圖間運動預(yù)測
[0001]本申請案主張2012年9月13日申請的第61/700,765號美國臨時申請案及2012年10月2日申請的第61/709,013號美國臨時申請案的益處,所述兩個申請案的全部內(nèi)容以引用的方式并入本文中。
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及視頻譯碼。
【背景技術(shù)】
[0003]數(shù)字視頻能力可并入到廣泛范圍的裝置中,包含數(shù)字電視、數(shù)字直播系統(tǒng)、無線廣播系統(tǒng)、個人數(shù)字助理(PDA)、膝上型或桌上型計算機、平板計算機、電子書閱讀器、數(shù)碼相機、數(shù)字記錄裝置、數(shù)字媒體播放器、視頻游戲裝置、視頻游戲控制臺、蜂窩式或衛(wèi)星無線電電話(所謂的“智能電話”)、視頻電話會議裝置、視頻流式傳輸裝置及其類似者。數(shù)字視頻裝置實施視頻譯碼技術(shù),例如由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分高級視頻譯碼(AVC)所定義的標準、目前正在開發(fā)的高效率視頻譯碼(HEVC)標準及這些標準的擴展中所描述的視頻譯碼技術(shù)。視頻裝置可通過實施此些視頻譯碼技術(shù)而更有效地發(fā)射、接收、編碼、解碼及/或存儲數(shù)字視頻信息。
[0004]視頻譯碼技術(shù)包含空間(圖片內(nèi))預(yù)測和/或時間(圖片間)預(yù)測以減少或移除視頻序列中固有的冗余。對于基于塊的視頻譯碼來說,視頻切片(即,視頻幀或視頻幀的一部分)可以分割成視頻塊,視頻塊還可被稱作樹塊、譯碼單元(CU)及/或譯碼節(jié)點。使用相對于同一圖片中的相鄰塊中的參考樣本的空間預(yù)測對圖片的經(jīng)幀內(nèi)譯碼(I)切片中的視頻塊進行編碼。圖片的經(jīng)幀間譯碼(P或B)切片中的視頻塊可使用相對于同一圖片中的相鄰塊中的參考樣本的空間預(yù)測或相對于其它參考圖片中的參考樣本的時間預(yù)測。圖片可被稱作幀,且參考圖片可被稱作參考幀。
[0005]空間或時間預(yù)測產(chǎn)生用于待譯碼塊的預(yù)測性塊。殘余數(shù)據(jù)表示待譯碼原始塊與預(yù)測性塊之間的像素差。經(jīng)幀間譯碼塊是根據(jù)指向形成預(yù)測性塊的參考樣本塊的運動向量及指示經(jīng)譯碼塊與預(yù)測性塊之間的差的殘余數(shù)據(jù)來編碼。經(jīng)幀內(nèi)譯碼塊是根據(jù)幀內(nèi)譯碼模式及殘余數(shù)據(jù)來編碼。為了進一步壓縮,可以將殘余數(shù)據(jù)從像素域變換到變換域,從而產(chǎn)生殘余變換系數(shù),接著可以對殘余變換系數(shù)進行量化。可掃描最初布置成二維陣列的經(jīng)量化變換系數(shù),以便產(chǎn)生變換系數(shù)的一維向量,且可應(yīng)用熵譯碼以實現(xiàn)更多壓縮。
【發(fā)明內(nèi)容】
[0006]一般來說,本發(fā)明描述用于改進多視圖及3D視頻譯碼中的運動預(yù)測的譯碼效率的技術(shù)。
[0007]在本發(fā)明的一個實例中,一種對視頻數(shù)據(jù)進行解碼的方法包括:導(dǎo)出用于當(dāng)前塊的一或多個視差向量,所述視差向量是從相對于所述當(dāng)前塊的相鄰塊導(dǎo)出;將視差向量轉(zhuǎn)換成經(jīng)視圖間預(yù)測的運動向量候選者及視圖間視差運動向量候選者中的一或多者;將一或多個經(jīng)視圖間預(yù)測的運動向量候選者及一或多個視圖間視差運動向量候選者添加到用于運動向量預(yù)測模式的候選者列表;及使用候選者列表對當(dāng)前塊進行解碼。
[0008]在本發(fā)明的另一實例中,一種對視頻數(shù)據(jù)進行解碼的方法包括:導(dǎo)出用于當(dāng)前塊的一或多個視差向量,所述視差向量是從相對于所述當(dāng)前塊的相鄰塊導(dǎo)出;將視差向量轉(zhuǎn)換成經(jīng)視圖間預(yù)測的運動向量及/或視圖間視差運動向量中的一者;將經(jīng)視圖間預(yù)測的運動向量及/或視圖間視差運動向量添加到用于運動向量預(yù)測模式的候選者列表;及使用候選者列表對當(dāng)前塊進行解碼。
[0009]本發(fā)明的技術(shù)進一步包含基于添加的經(jīng)視圖間預(yù)測的運動向量與候選者列表中的其它候選運動向量的比較修剪候選者列表。
[0010]本發(fā)明還描述經(jīng)配置以進行所揭示方法及技術(shù)的設(shè)備、裝置及計算機可讀媒體。
[0011]一或多個實例的細節(jié)陳述于附圖及以下描述中。其它特征、目標及優(yōu)勢將從描述及附圖和從權(quán)利要求書中顯而易見。
【附圖說明】
[0012]圖1是說明可利用本發(fā)明的幀間預(yù)測技術(shù)的實例視頻編碼及解碼系統(tǒng)的框圖。
[0013]圖2是說明用于多視圖視頻的實例解碼次序的概念圖。
[0014]圖3是說明用于多視圖視頻的實例預(yù)測結(jié)構(gòu)的概念圖。
[0015]圖4展示可用于合并模式及AMVP模式兩者的候選塊的實例集合。
[0016]圖5是說明用于3D視頻的紋理及深度值的概念圖。
[0017]圖6是說明經(jīng)視圖間預(yù)測的運動向量候選者的實例導(dǎo)出過程的概念圖。
[0018]圖7是說明可實施本發(fā)明的幀間預(yù)測技術(shù)的視頻編碼器的實例的框圖。
[0019]圖8是說明可實施本發(fā)明的幀間預(yù)測技術(shù)的視頻解碼器的實例的框圖。
[0020]圖9是展示根據(jù)本發(fā)明的技術(shù)的實例編碼過程的流程圖。
[0021]圖10是展示根據(jù)本發(fā)明的技術(shù)的實例編碼過程的流程圖。
[0022]圖11是展示根據(jù)本發(fā)明的技術(shù)的實例解碼過程的流程圖。
[0023]圖12是展示根據(jù)本發(fā)明的技術(shù)的實例解碼過程的流程圖。
【具體實施方式】
[0024]為了在視頻中廣生二維效果,可同時或幾乎同時展不場景的兩個視圖(例如,左眼視圖及右眼視圖)。可從略微不同的水平位置俘獲(或產(chǎn)生,例如作為計算機生成的圖形)對應(yīng)于場景的左眼視圖及右眼視圖的同一場景的兩個圖片,所述水平位置表示觀察者的左眼及右眼之間的水平視差。通過同時或幾乎同時顯示這兩個圖片,以使得左眼視圖圖片被觀察者的左眼感知到,及右眼視圖圖片被觀察者的右眼感知到,觀察者可體驗到三維視頻效果。在一些其它狀況下,垂直視差可用以創(chuàng)造三維效果。
[0025]一般來說,本發(fā)明描述用于對多視圖視頻數(shù)據(jù)及/或多視圖紋理加上深度視頻數(shù)據(jù)進行譯碼及處理的技術(shù),其中紋理信息通常描述圖片的明度(亮度或強度)及色度(顏色,例如藍色調(diào)及紅色調(diào))。深度信息可由深度圖表示,其中向深度圖的個別像素指派指示是在屏幕處、在屏幕的相對前方還是在屏幕的相對后方顯示紋理圖片的對應(yīng)像素的值??稍谑褂眉y理及深度信息合成圖片時將這些深度值轉(zhuǎn)換成視差值。
[0026]本發(fā)明描述用于改進多視圖及/或多視圖加上深度(例如,3D-HEVC)視頻譯碼中的視圖間預(yù)測的效率及質(zhì)量的技術(shù)。確切地說,本發(fā)明提出用于在使用視差向量填充運動向量預(yù)測候選者列表時改進用于視圖間運動預(yù)測的運動向量預(yù)測的質(zhì)量的技術(shù)。
[0027]圖1是說明可利用本發(fā)明的技術(shù)的實例視頻編碼及解碼系統(tǒng)10的框圖。如圖1中所示,系統(tǒng)10包含源裝置12,所述源裝置提供將在稍后時間由目的地裝置14解碼的經(jīng)編碼視頻數(shù)據(jù)。確切地說,源裝置12經(jīng)由計算機可讀媒體16將視頻數(shù)據(jù)提供到目的地裝置14。源裝置12和目的地裝置14可包括多種多樣的裝置中的任一者,包含桌上型計算機、筆記型(即,膝上型)計算機、平板計算機、機頂盒、電話手持機(例如所謂的“智能”電話)、所謂的“智能”平板電腦、電視機、相機、顯示裝置、數(shù)字媒體播放器、視頻游戲控制臺、視頻流式傳輸裝置或類似者。在一些狀況下,源裝置12和目的地裝置14可能經(jīng)裝備以用于無線通信。
[0028]目的地裝置14可經(jīng)由計算機可讀媒體16接收待解碼的經(jīng)編碼視頻數(shù)據(jù)。計算機可讀媒體16可包括能夠使經(jīng)編碼視頻數(shù)據(jù)從源裝置12移動到目的地裝置14的任何類型的媒體或裝置。在一個實例中,計算機可讀媒體16可包括使得源裝置12能夠?qū)崟r將經(jīng)編碼的視頻數(shù)據(jù)直接發(fā)射到目的地裝置14的通信媒體??筛鶕?jù)例如無線通信協(xié)議等通信標準來調(diào)制經(jīng)編碼視頻數(shù)據(jù),且將其發(fā)射到目的地裝置14。通信媒體可包括任何無線或有線通信媒體,例如射頻(RF)頻譜或一或多個物理傳輸線。通信媒體可形成基于包的網(wǎng)絡(luò)(例如,局域網(wǎng)、廣域網(wǎng)或全球網(wǎng)絡(luò),例如因特網(wǎng))的部分。通信媒體可包含路由器、交換器、基站或任何其它可以用于促進從源裝置12到目的地裝置14的通信的設(shè)備。
[0029]在一些實例中,經(jīng)編碼數(shù)據(jù)可從輸出接口 22輸出到存儲裝置。類似地,可以通過輸入接口從存儲裝置存取經(jīng)編碼數(shù)據(jù)。存儲裝置可包含多種分布式或本地存取式數(shù)據(jù)存儲媒體中的任一者,例如硬盤驅(qū)動器、藍光光盤、DVD、CD-ROM、快閃存儲器、易失性或非易失性存儲器或用于存儲經(jīng)編碼視頻數(shù)據(jù)的任何其它合適的數(shù)字存儲媒體。在另一實例中,存儲裝置可以對應(yīng)于文件服務(wù)器或另一可存儲源裝置12產(chǎn)生的經(jīng)編碼視頻的中間存儲裝置。目的地裝置14可經(jīng)由流式傳輸或下載從存儲裝置存取所存儲的視頻數(shù)據(jù)。文件服務(wù)器可以是任何類型的能夠存儲經(jīng)編碼的視頻數(shù)據(jù)并且將經(jīng)編碼的視頻數(shù)據(jù)發(fā)射到目的地裝置14的服務(wù)器。實例文件服務(wù)器包含網(wǎng)絡(luò)服務(wù)器(例如,用于網(wǎng)站)、FTP服務(wù)器、網(wǎng)絡(luò)附接存儲(NAS)裝置或本地磁盤驅(qū)動器。目的地裝置14可通過任何標準數(shù)據(jù)連接(包含因特網(wǎng)連接)來存取經(jīng)編碼視頻數(shù)據(jù)。此可包含無線信道(例如,W1-Fi連接)、有線連接(例如,DSL、電纜調(diào)制解調(diào)器等)或適合于存取存儲于文件服務(wù)器上的經(jīng)編碼視頻數(shù)據(jù)的兩者的組合。經(jīng)編碼視頻數(shù)據(jù)從存儲裝置的發(fā)射可能是流式傳輸、下載傳輸或其組合。
[0030]本發(fā)明的技術(shù)不必限于無線應(yīng)用或設(shè)置。所述技術(shù)可以應(yīng)用于支持多種多媒體應(yīng)用中的任一者的視頻譯碼,例如空中協(xié)議電視廣播、有線電視發(fā)射、衛(wèi)星電視發(fā)射、因特網(wǎng)流式視頻發(fā)射(例如,動態(tài)自適應(yīng)HTTP流式傳輸(DASH))、經(jīng)編碼到數(shù)據(jù)存儲媒體上的數(shù)字視頻,存儲在數(shù)據(jù)存儲媒體上的數(shù)字視頻的解碼,或其它應(yīng)用。在一些實例中,系統(tǒng)10可經(jīng)配置以支持單向或雙向視頻發(fā)射,以支持例如視頻流式傳輸、視頻重放、視頻廣播及/或視頻電話等應(yīng)用。
[0031]在圖1的實例中,源裝置12包含視頻源18、深度估計單元19、視頻編碼器20及輸出接口 22。目的地裝置14包含輸入接口 28、視頻解碼器30、基于深度圖像的呈現(xiàn)(DIBR)單元31及顯示裝置32。在其它實例中,源裝置和目的地裝置可包含其它組件或布置。舉例來說,源裝置12可從外部視頻源18 (例如外部相機)接收視頻數(shù)據(jù)。同樣,目的地裝置14可以與外部顯示裝置介接,而不是包含集成顯示裝置。
[0032]圖1的所說明的系統(tǒng)10僅為一個實例。本發(fā)明的技術(shù)可由任何數(shù)字視頻編碼及/或解碼裝置執(zhí)行。盡管本發(fā)明的技術(shù)大體上由視頻編碼裝置來執(zhí)行,但所述技術(shù)還可通過視頻編碼器/解碼器(通常被稱作“編解碼器”)執(zhí)行。此外,本發(fā)明的技術(shù)還可由視頻預(yù)處理器來執(zhí)行。源裝置12及目的裝置14僅為這些譯碼裝置的實例,其中源裝置12產(chǎn)生用于發(fā)射到目的裝置14的經(jīng)譯碼視頻數(shù)據(jù)。在一些實例中,裝置12、14可以大體上對稱的方式操作以使得裝置12、14中的每一者包含視頻編碼和解碼組件。因此,系統(tǒng)10可支持視頻裝置12、14之間的單向或雙向視頻發(fā)射,例如用于視頻流式傳輸、視頻重放、視頻廣播或視頻電話。
[0033]源裝置12的視頻源18可包含視頻俘獲裝置,例如攝像機、含有先前所俘獲視頻的視頻檔案和/或用于從視頻內(nèi)容提供者接收視頻的視頻饋送接口。作為另一替代方案,視頻源18可產(chǎn)生基于計算機圖形的數(shù)據(jù)作為源視頻,或直播視頻、存檔視頻與計算機產(chǎn)生的視頻的組合。在一些狀況下,如果視頻源18為攝像機,那么源裝置12及目的裝置14可形成所謂的相機電話或視頻電話。然而,如上文所提及,本發(fā)明中所描述的技術(shù)可大體上適用于視頻譯碼,且可應(yīng)用于無線和/或有線應(yīng)用。在每一狀況下,可由視頻編碼器20來編碼經(jīng)俘獲的、經(jīng)預(yù)先俘獲的或計算機產(chǎn)生的視頻。經(jīng)編碼視頻信息可接著通過輸出接口 22輸出到計算機可讀媒體16上。
[0034]視頻源18可將視頻數(shù)據(jù)的多個視圖提供到視頻編碼器20。舉例來說,視頻源18可對應(yīng)于相機陣列,所述相機各自具有相對于所拍攝的特定場景的唯一水平位置?;蛘?,視頻源18可例如使用計算機圖形產(chǎn)生來自不同水平相機視角的視頻數(shù)據(jù)。深度估計單元19可經(jīng)配置以確定對應(yīng)于紋理圖像中的像素的深度像素的值。舉例來說,深度估計單元19可表示聲音導(dǎo)航與測距(聲納)單元、光檢測與測距(激光雷達)單元或能夠在記錄場景的視頻數(shù)據(jù)時實質(zhì)上同時直接確定深度值的其它單元。
[0035]另外或替代地,深度估計單元19可經(jīng)配置以通過比較在實質(zhì)上相同時間從不同水平相機視角俘獲的兩個或兩個以上圖像來間接計算深度值。通過計算圖像中的實質(zhì)上類似像素值之間的水平視差,深度估計單元19可粗略估計場景中的各種對象的深度。在一些實例中,深度估計單元19可在功能上與視頻源18集成。舉例來說,在視頻源18產(chǎn)生計算機圖形圖像時,深度估計單元19可例如使用用以呈現(xiàn)紋理圖像的像素及對象的z坐標提供用于圖形對象的實際深度圖。
[0036]計算機可讀媒體16可包含瞬時媒體,例如無線廣播或有線網(wǎng)絡(luò)發(fā)射,或存儲媒體(也就是說,非暫時性存儲媒體),例如硬盤、快閃驅(qū)動器、壓縮光盤、數(shù)字視頻光盤、藍光光盤或其它計算機可讀媒體。在一些實例中,網(wǎng)絡(luò)服務(wù)器(未圖示)可以從源裝置12接收經(jīng)編碼的視頻數(shù)據(jù),并且例如經(jīng)由網(wǎng)絡(luò)發(fā)射將經(jīng)編碼的視頻數(shù)據(jù)提供到目的地裝置14。類似地,媒體生產(chǎn)設(shè)施(例如光盤沖壓設(shè)施)的計算裝置可以從源裝置12接收經(jīng)編碼的視頻數(shù)據(jù)并且生產(chǎn)容納經(jīng)編碼的視頻數(shù)據(jù)的光盤。因此,在各種實例中,計算機可讀媒體16可以理解為包含各種形式的一或多個計算機可讀媒體。
[0037]目的地裝置14的輸入接口28從計算機可讀媒體16接收信息。計算機可讀媒體16的信息可包含由視頻編碼器20定義的語法信息,所述語法信息也被視頻解碼器30使用,其包含描述塊及其它經(jīng)譯碼單元(例如GOP)的特性及/或處理的語法元素。顯示裝置32向用戶顯示經(jīng)解碼的視頻數(shù)據(jù),且可包括多種顯示裝置中的任一者,例如陰極射線管(CRT)、液晶顯示器(IXD)、等離子體顯示器、有機發(fā)光二極管(OLED)顯示器或另一類型的顯示裝置。在一些實例中,顯示裝置32可包括能夠同時或?qū)嵸|(zhì)上同時顯示兩個或兩個以上視圖例如以向觀察者產(chǎn)生3D視覺效果的裝置。
[0038]目的地裝置14的DIBR單元31可使用從視頻解碼器30接收的經(jīng)解碼視圖的紋理及深度信息呈現(xiàn)合成視圖。舉例來說,DIBR單元31可依據(jù)對應(yīng)深度圖中的像素的值確定紋理圖像的像素數(shù)據(jù)的水平視差。DIBR單元31接著可通過使紋理圖像中的像素向左或向右偏移所確定的水平視差而產(chǎn)生合成圖像。以此方式,顯示裝置32可以任何組合顯示可對應(yīng)于經(jīng)解碼視圖及/或合成視圖的一或多個視圖。根據(jù)本發(fā)明的技術(shù),視頻解碼器30可將深度范圍及相機參數(shù)的原始及更新精度值提供到DIBR單元31,所述DIBR單元31可使用深度范圍及相機參數(shù)來恰當(dāng)?shù)睾铣梢晥D。
[0039]盡管圖1中未展示,但在一些方面中,視頻編碼器20及視頻解碼器30可各自與音頻編碼器及解碼器集成,且可包含適當(dāng)?shù)亩嗦窂?fù)用器-多路分用器(MUX-DEMUX)單元或其它硬件及軟件,以處理對共同數(shù)據(jù)流或單獨數(shù)據(jù)流中的音頻與視頻兩者的編碼。如果適用,MUX-DEMUX單元可符合ITU H.223多路復(fù)用器協(xié)議或例如用戶數(shù)據(jù)報協(xié)議(UDP)等其它協(xié)議。
[0040]視頻編碼器20及視頻解碼器30可以根據(jù)視頻譯碼標準(例如,目前正在開發(fā)的高效率視頻譯碼(HEVC)標準)操作,并且可以符合HEVC測試模型(HM)。或者,視頻編碼器20及視頻解碼器30可根據(jù)例如或者被稱作MPEG-4第10部分高級視頻譯碼(AVC)的ITU-TH.264標準等其它專屬或工業(yè)標準或此些標準的擴展(例如ITU-T H.264/AVC的MVC擴展)操作。確切地說,本發(fā)明的技術(shù)涉及基于高級編解碼器的多視圖及/或3D視頻譯碼。一般來說,本發(fā)明的技術(shù)可應(yīng)用于多種不同視頻譯碼標準中的任一者。舉例來說,這些技術(shù)可應(yīng)用于ITU-T H.264/AVC(高級視頻譯碼)的多視圖視頻譯碼(MVC)擴展,應(yīng)用于即將到來的HEVC標準的3D視頻(3DV)擴展(例如,3D-HEVC)或其它譯碼標準。
[0041]即將到來的HEVC標準的新近草案描述于布洛斯(B1ss)等人的文件HCTVC-J1003 “高效率視頻譯碼(HEVC)文本規(guī)范草案8 (High Efficiency VideoCoding(HEVC)Text Specificat1n Draft 8) ”(ITU-T SG16WP3 及 IS0/IEC JTC1/SC29/WGll的視頻譯碼聯(lián)合合作小組(JCT-VC),第10次會議:瑞典斯德哥爾摩,2012年7月11日到2012年7月12日)中,所述文件從2013年6月7日起可從http://phenix.1nt-evry.fr/jet/doc_end_user/documents/1Stockholm/wglI/JCTVC-J1003-v8.zip 下載到。出于說明的目的,本發(fā)明的技術(shù)主要是關(guān)于HEVC的3DV擴展進行描述的。然而,應(yīng)理解這些技術(shù)同樣可應(yīng)用于用于對用以產(chǎn)生三維效果的視頻數(shù)據(jù)進行譯碼的其它標準。
[0042]ITU-T H.264/MPEG-4 (AVC)標準是由 ITU-T 視頻譯碼專家組(VCEG)連同 IS0/IEC動畫專家組(MPEG)制定以作為被稱為聯(lián)合視頻小組(JVT)的集體伙伴關(guān)系的產(chǎn)品。在一些方面中,本發(fā)明中所描述的技術(shù)可應(yīng)用于通常符合H.264標準的裝置。ITU-T研宄組在2005年3月在ITU-T推薦H.264 “用于通