專利名稱:用于視頻編碼的多維毗鄰塊預(yù)測的制作方法
技術(shù)領(lǐng)域:
本文所闡述內(nèi)容涉及數(shù)字視頻處理,且更特定來說涉及視頻序列的編碼。
背景技術(shù):
數(shù)字視頻功能可并入到各種各樣的裝置中,包括數(shù)字電視、數(shù)字直播系統(tǒng)、無線 通信裝置、個人數(shù)字助理(PDA)、膝上型計算機、桌上型計算機、數(shù)字攝像機、數(shù)字 記錄裝置、蜂窩式電話或衛(wèi)星無線電電話及類似裝置。數(shù)字視頻裝置可在創(chuàng)建、修改、 傳輸、存儲、記錄及播放全動態(tài)視頻序列方面提供對常規(guī)模擬視頻系統(tǒng)的顯著改善。
人們已制訂了許多不同的視頻編碼標準用于對數(shù)字視頻序列進行編碼。舉例來 說,移動圖像專家組(MPEG)已開發(fā)許多標準,包括MPEG-1、 MPEG-2及MPEG-4。 其它標準包括國際電信聯(lián)盟(ITU) H.263標準、位于加利福尼亞州庫比提諾的蘋果計算 機(Apple Computer of C叩ertino California)開發(fā)的QuickTimeTM技術(shù)、位于華盛頓雷 德蒙的微軟公司(Microsoft Corporation of Redmond, Washington)開發(fā)的WindowsTM視 頻、英特爾公司開發(fā)的Indeo 、來自華盛頓西雅圖的真實網(wǎng)絡(luò)公司(RealNetworks, Inc. of Seattle, Washington)的RealVideoTM及速伯瑪公司(SuperMac, Inc.)開發(fā)的Cinepak 。 包括ITU H.264標準及許多私有標準的新標準繼續(xù)浮現(xiàn)并演進。
許多視頻編碼標準通過以壓縮方式對數(shù)據(jù)進行編碼而允許改善的視頻序列傳輸 速率。壓縮可減小針對視頻幀的有效傳輸而需要傳輸?shù)臄?shù)據(jù)總量。舉例來說,大多數(shù) 視頻編碼標準利用圖形及視頻壓縮技術(shù),其設(shè)計成利于在比不使用壓縮技術(shù)可實現(xiàn)的 更窄帶寬上傳輸視頻及圖像。
舉例來說,MPEG標準以及ITU H.263及ITU H.264標準支持利用連貫視頻幀之 間的相似性(稱作時間或幀間相關(guān))來提供幀間壓縮的視頻編碼技術(shù)。所述幀間壓縮 技術(shù)通過將視頻幀的基于像素的表示轉(zhuǎn)換為運動表示來利用跨越幀的數(shù)據(jù)冗余。此外, 某些視頻編碼技術(shù)可利用幀內(nèi)的相似性(稱作空間或幀內(nèi)相關(guān))來進一步壓縮視頻幀。
為支持壓縮,數(shù)字視頻裝置包括用于壓縮數(shù)字視頻序列的編碼器及用于解壓縮數(shù) 字視頻序列的解碼器。在許多情形下,所述編碼器與解碼器形成集成編碼器/解碼器(CODEC),其對界定視頻圖像序列的幀內(nèi)的像素塊進行操作。舉例來說,在國際電信 聯(lián)盟(ITU)R264標準中,所述編碼器通常將將要傳輸?shù)囊曨l幀劃分為可包含16x16像 素陣列的稱作"宏塊"(MB)的視頻塊。ITU R264標準支持16x16視頻塊、16x8視頻 塊、8x16視頻塊、8x8視頻塊、8x4視頻塊、4x8視頻塊及4x4視頻塊。其它標準可 支持不同大小的視頻塊。
對于視頻幀中的每一視頻塊,編碼器搜索一個或一個以上緊接在前視頻幀(或后 續(xù)幀)的相似大小視頻塊以識別最相似的視頻塊,其稱作"最佳預(yù)測塊"。將當前視頻 塊與其它幀的視頻塊相比較的過程通常稱作運動估計。 一旦識別視頻塊的"最佳預(yù)測 塊",那么解碼器可對所述當前視頻塊與所述最佳預(yù)測塊之間的差異進行編碼。對所述 當前視頻塊與所述最佳預(yù)測塊之間的差異進行編碼的此過程包括稱作運動補償?shù)倪^ 程。運動補償包含創(chuàng)建差異塊的過程,所述差異塊指示將要編碼的當前視頻塊與所述 最佳預(yù)測塊之間的差異。運動補償通常是指使用運動向量提取所述最佳預(yù)測塊且然后 從輸入塊中減去所述最佳預(yù)測塊以產(chǎn)生差異塊的動作。
在運動補償已創(chuàng)建差異塊之后,通常實施一系列額外編碼步驟以對所述差異塊進 行編碼。這些額外編碼步驟可取決于所使用的編碼標準。舉例來說,在依從MPEG-4 的編碼器中,所述額外編碼步驟可包括8x8離散余弦變換、隨后是標量量化、隨后是 光柵至鋸齒形重排序、隨后是游程編碼、隨后是哈夫曼(Huffman)編碼??蓪⒔?jīng)編 碼的差異塊連同運動向量一起傳輸,所述運動向量指示來自前一幀(或后一幀)的哪 一視頻塊用于編碼。解碼器接收所述運動向量及所述經(jīng)編碼的差異塊,且對所接收的 信息進行解碼以重構(gòu)視頻序列。
極其需要簡化并改善所述編碼過程。為此,已開發(fā)各種各樣的編碼技術(shù)。因為運 動估計是視頻編碼中運算最密集的過程之一,因此,對運動估計的改善可提供對視頻 編碼過程的顯著改善。
需要在運算運動向量中找到更高效且更準確的方法。
發(fā)明內(nèi)容
本揭示內(nèi)容闡述可改善視頻編碼的運動估計技術(shù)。特定來說,本揭示內(nèi)容提出一 種用以處理幀中的視頻塊的非常規(guī)方法。用于改善運動估計的技術(shù)闡述于下文中。在 一個實施例中,闡述一種使用二維管線來產(chǎn)生當前視頻塊的準確運動估計參數(shù)的運動 估計器。所述二維管線在所述準確的運動估計參數(shù)的產(chǎn)生之前使用先前計算的相關(guān)的 毗鄰視頻塊的運動估計參數(shù),所述相關(guān)的毗鄰視頻塊包括與所述當前視頻塊在同一行 上的前一視頻塊。舉例來說,所述運動估計參數(shù)為運動向量、運動向量預(yù)測值及模式 決策。
所揭示的運動估計技術(shù)可通過將用以提取像素的引擎/模塊、實施整數(shù)像素搜索的 引擎/模塊及以乒乓(pingpong)方式在至少兩個視頻塊行上實施更精細分數(shù)及空間搜素的引擎/模塊管線化來改善編碼。在所述乒部分期間,處理來自第一塊行的兩個視頻 塊,而另一視頻塊行上的同時處理正在發(fā)生。在所述乓部分期間,處理來自第二塊行 的兩個視頻塊,同時在第一塊行上另一視頻塊正被處理。由于僅可在分數(shù)及空間引擎/ 模塊完成對所有毗鄰視頻塊的處理之后獲得的準確運動向量預(yù)測值(MVP),此乒乓方
式的處理允許整數(shù)搜索引擎/模塊運算并輸出與成本相關(guān)的更準確運動向量。MVP是 對所需運動向量的初步估計且通常基于先前針對毗鄰視頻塊計算的運動向量來運算。 在其中僅順序處理一個視頻塊行的技術(shù)中,MVP可能是估計而不是實際值。僅使用所 述估計限制可用于運動估計的準確性。使用所揭示技術(shù)的一個優(yōu)點是在計算運動估計 中使用所有更精細的分辨率實際值。另一優(yōu)點是使用二維管線解決在處理另一行的部 分之前需要等待一個整行被處理的問題。因此,使用二維管線的此乒乓方式的處理減 小通信總線上的帶寬。用以更新搜索區(qū)域的對外部存儲器的刷新數(shù)目也可顯著地減小。 本揭示內(nèi)容中的實施例提出對失真測量的運算。所述實施例闡述一種方法,其包
含基于先前針對鄰近將要編碼的當前視頻塊的視頻塊計算的運動向量來運算運動向
量預(yù)測值;及在對用于對所述當前視頻塊進行編碼的預(yù)測視頻塊的搜索中使用所述運 動向量預(yù)測值。所述實施例進一步闡述一種使用所有實際運動向量預(yù)測值以使對失真 測量的運算降到最低的方法。
本文所述的這些及其它技術(shù)可以硬件、軟件、固件或其任一組合實施于數(shù)字視頻 裝置中。如果實施于軟件中,那么可將所述技術(shù)引導(dǎo)到包含程序碼的計算機可讀媒體, 當所述程序碼執(zhí)行時會實施本文所述的一種或一種以上編碼技術(shù)。各個實施例的額外 細節(jié)論述于附圖及以下闡述中。根據(jù)本說明書及圖式并根據(jù)權(quán)利要求書,將明了其它 特征、目的及優(yōu)點。
圖1A是圖解說明其中源數(shù)字視頻裝置將經(jīng)編碼的位流傳輸?shù)浇邮諗?shù)字視頻裝置 的實例性系統(tǒng)的方塊圖。
圖1B是可如本文實施例中所闡述地那樣使用的兩個CODEC的方塊圖。
圖2是可用于圖1A或圖1B中所圖解說明的數(shù)字視頻裝置的基本數(shù)字視頻編碼 器的實例性方塊圖。
圖3是對圖像的兩個部分行的實例性圖解說明。
圖4是圖解說明在兩個視頻塊行上進行運動估計及運動向量預(yù)測的過程的實例性 流程圖。
圖5是對在部分圖像行上應(yīng)用的ME管線的實例性圖解說明。
圖6是對在兩個部分圖像行上應(yīng)用的ME管線的實例性圖解說明。
具體實施方式
本揭示內(nèi)容闡述用以計算運動向量(MV)及運動向量預(yù)測值(MVP)兩者的多維技
術(shù),其有助于可用于改善視頻編碼的運動估計技術(shù)。雖然所述技術(shù)通常闡述于運動估 計的整個過程的背景下,但應(yīng)了解可在各種情景中個別使用所述技術(shù)中的一者或一者 以上。通?;谙惹搬槍ε徱曨l塊計算的(例如)作為已記錄的鄰接視頻塊的運動
向量的中值的運動向量來運算MVP。然而,其它數(shù)學(xué)函數(shù)可替代用于運算MVP,例 如運動向量或毗鄰視頻塊的平均或可能更復(fù)雜的數(shù)學(xué)函數(shù)。
圖1A是圖解說明其中源裝置112a經(jīng)由通信鏈路113將經(jīng)編碼的位流傳輸?shù)浇邮?裝置114a的實例性系統(tǒng)100的方塊圖。源裝置112a及接收裝置114a兩者均可以是數(shù) 字視頻裝置。特定來說,源裝置112a按照在視頻編碼中利用運動估計的視頻標準(例 如MPEG-4標準,ITU H.263標準,ITU H.264標準或各種各樣的其它標準中的任一者) 對視頻數(shù)據(jù)進行編碼。如下文更詳細地闡述,系統(tǒng)100的裝置112a、 114a中的一者或 其兩者實施運動估計及補償技術(shù)以改善視頻編碼過程。
通信鏈路113可包含無線鏈路、物理傳輸線、光纖、基于包的網(wǎng)絡(luò)(例如,局域 網(wǎng)、廣域網(wǎng)或全球網(wǎng)絡(luò)(例如,因特網(wǎng))、公共交換電話網(wǎng)絡(luò)(PSTN))或能夠轉(zhuǎn)移數(shù) 據(jù)的任何其它通信鏈路。通信鏈路113可耦合到存儲媒體(例如,CD、 DVD等)。因 此,通信鏈路113表示用于將視頻數(shù)據(jù)從源裝置112a傳輸?shù)浇邮昭b置114a的任何適 當通信媒體或可能不同網(wǎng)絡(luò)與鏈路的集合。
源裝置112a可包括視頻捕獲裝置115 (例如,視頻攝像機)以捕獲視頻序列并將 所捕獲的序列存儲于存儲器116中??稍陲@示器117上觀看所述視頻序列。特定來說, 視頻捕獲裝置115可包括電荷耦合裝置(CCD)、電荷注入裝置、光電二極管陣列、互 補金屬氧化物半導(dǎo)體(CMOS)裝置或能夠捕獲視頻圖像或數(shù)字視頻序列的任何其它 光敏裝置。
再例如,視頻捕獲裝置115可以是視頻轉(zhuǎn)換器,其將模擬視頻數(shù)據(jù)(例如)從電 視機、錄像機、攝像放像機或另一視頻裝置轉(zhuǎn)換為數(shù)字視頻數(shù)據(jù)。在某些實施例中, 源裝置112a可經(jīng)配置以經(jīng)由通訊鏈路115傳輸實時視頻序列。在所述情形下,接收裝 置114a可接收所述實時視頻序列并向用戶顯示所述視頻序列。另一選擇為,源裝置 112a可捕獲并編碼將要作為視頻數(shù)據(jù)文件(即,非實時)發(fā)送到接收裝置114a的視頻 序列。因此,源裝置112a及接收裝置114a可在(例如)移動無線網(wǎng)絡(luò)中支持例如視 頻剪輯回放、視頻郵件或視頻會議等應(yīng)用。裝置112a及114a可包括未在圖1A中具體 圖解說明的各種其它元件。
此外,源裝置112a可以是能夠編碼并傳輸視頻數(shù)據(jù)的任何數(shù)字視頻裝置。源裝 置112a還可以是用以對序列進行編碼的視頻編碼器118,及用以經(jīng)由通信鏈路115將 經(jīng)編碼的位流傳輸?shù)皆囱b置114a的發(fā)射器120。視頻編碼器118可包括(例如)各種 硬件、軟件或固件或執(zhí)行可編程軟件模塊以控制如本文所述的視頻編碼技術(shù)的一個或 一個以上數(shù)字信號處理器(DSP)??商峁┫嚓P(guān)聯(lián)的存儲器及邏輯電路以支持DSP控 制所述視頻編碼技術(shù)。如將要闡述,如果使用運動向量預(yù)測值(MVP)的準確值,那么視頻編碼器118可實施地更好。
接收裝置114a可采取能夠接收并解碼視頻數(shù)據(jù)的任何數(shù)字視頻裝置的形式。舉 例來說,接收裝置114a可包括接收器122以(例如)經(jīng)由中間鏈路、路由器、其它網(wǎng) 絡(luò)設(shè)備及相似物從發(fā)射器120接收經(jīng)編碼的數(shù)字視頻序列。接收裝置114a還可包括用 于對位流進行解碼的視頻解碼器124及用于向用戶顯示所述經(jīng)解碼位流的序列的顯示 器裝置126。然而,在某些實施例中,接收裝置114a可不包括集成顯示器裝置114a。 在所述情形下,接收裝置114a可充當接收器,其將所接收的視頻數(shù)據(jù)進行解碼以驅(qū)動 離散顯示器裝置(例如,電視機或監(jiān)視器)。
源裝置112a及接收裝置114a的實例性裝置包括位于計算機網(wǎng)絡(luò)上的服務(wù)器、工 作站或其它桌上型運算裝置及移動運算裝置(例如,膝上型計算機或個人數(shù)字助理 (PDA))。其它實例包括數(shù)字電視廣播衛(wèi)星及接收裝置(例如,數(shù)字電視、數(shù)字攝像機、 數(shù)字視頻攝像機或其它數(shù)字記錄裝置)、數(shù)字視頻電話(例如,具有視頻功能的移動電 話、具有視頻功能的直接雙向通信裝置、其它無線視頻裝置)及類似裝置。
在某些情形下,源裝置112b及接收裝置114b可各自包括如圖1B中所示的用于 對數(shù)字視頻數(shù)據(jù)進行編碼及解碼的編碼器/解碼器(CODEC)。特定來說,源裝置112a 與接收裝置114a 二者均可包括發(fā)射器及接收器以及存儲器及顯示器。下文略述的許多 編碼技術(shù)闡述于包括編碼器的數(shù)字視頻裝置的背景中。然而,應(yīng)了解,所述編碼器可 形成CODEC的部分。在所述情形下,CODEC可實施于硬件、軟件、固件、DSP、微 處理器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、離散硬件組件或其各 種組合中。
源裝置112a或源裝置112b內(nèi)的視頻編碼器118對視頻幀序列內(nèi)的像素塊進行操 作以對視頻數(shù)據(jù)進行編碼。舉例來說,視頻編碼器U8可執(zhí)行運動估計及運動補償技 術(shù),在所述技術(shù)中將要傳輸?shù)囊曨l幀被劃分為像素塊(稱作視頻塊)。出于圖解說明的 目的,所述視頻塊可包含任意大小的塊,且可在既定視頻序列中有所變化。作為實例, ITU H.264標準支持16x16視頻塊、16x8視頻塊、8x16視頻塊、8x8視頻塊、8x4視 頻塊、4x8視頻塊及4x4視頻塊。較小視頻塊在視頻編碼中的使用可在編碼中產(chǎn)生更 好的壓縮,且可特定用于包括較高水平的細節(jié)的視頻幀位置。
視頻塊中的每一像素可由界定像素的視覺特性(例如,以色度及亮度的值表示的 色彩及強度)的n個位(例如,8個位)的值表示。然而,經(jīng)常僅在亮度組件上實施 運動估計,因為人類視覺對亮度的改變比對色度更敏感。相應(yīng)地,出于運動估計的目 的,所述整個n個位的值可將既定像素的亮度量化。然而,本揭示內(nèi)容的原理并不受 限于像素的格式,且可擴展成與更簡單的更少位像素格式或更復(fù)雜的更多位像素格式 一同使用。
對于視頻幀中的每一視頻塊,源裝置112a或112b的視頻編碼器118通過搜索已 傳輸?shù)囊粋€或一個以上先前視頻幀(或后續(xù)視頻幀)的存儲在存儲器116中的視頻塊 以識別相似視頻塊,其稱作預(yù)測視頻塊。在某些情形下,所述預(yù)測視頻塊可包含來自所述前一或后一視頻幀的"最佳預(yù)測塊",但本揭示內(nèi)容并不受限于所述方面。視頻編 碼器118實施運動補償以創(chuàng)建指示將要編碼的當前視頻塊與所述最佳預(yù)測塊之間的差 異的差異塊。運動補償通常是指使用運動向量提取所述最佳預(yù)測塊且然后從輸入塊中 減去所述最佳預(yù)測塊以產(chǎn)生差異塊的動作。
在運動補償過程已創(chuàng)建差異塊之后,通常實施一系列額外編碼步驟以對差異塊進 行編碼。這些額外編碼步驟可取決于所使用的編碼標準。
一旦經(jīng)編碼,可將經(jīng)編碼的差異塊連同運動向量或經(jīng)編碼的運動向量一起傳輸, 所述運動向量或經(jīng)編碼的運動向量識別來自前一幀(或后一幀)的用于編碼的視頻塊。 通過此種方式,不是將每一幀作為獨立的圖像進行編碼,而是視頻編碼器118對鄰接 幀之間的差異進行編碼。所述技術(shù)可顯著地減小準確表示視頻序列中的每一幀所需的 數(shù)據(jù)量。
所述運動向量可界定相對于正被編碼的視頻塊的左上角的像素位置,但也可使用 運動向量的其它格式。通過使用運動向量對視頻塊進行編碼,可顯著地減小傳輸視頻 數(shù)據(jù)流所需的帶寬。
在某些情形下,視頻編碼器118除可支持幀間編碼外,還可支持幀內(nèi)編碼。幀內(nèi)
編碼利用幀內(nèi)的相似性(稱作空間或幀內(nèi)相關(guān))來進一步壓縮視頻幀。幀內(nèi)壓縮通常
基于用于壓縮靜止圖像的紋理編碼,例如離散余弦變換(DCT)編碼。幀內(nèi)壓縮經(jīng)常 結(jié)合幀間壓縮使用,但也可在某些實施方案中用作替代方案。
接收裝置114a的接收器122可接收呈運動向量形式的經(jīng)編碼視頻數(shù)據(jù)及指示正 被編碼視頻塊與在運動估計中所使用的最佳預(yù)測塊之間的經(jīng)編碼差異的經(jīng)編碼差異 塊。然而,在某些情形下,不是發(fā)送運動向量,而是傳輸所述運動向量與MVP之間 的差異。在任何情形下,解碼器124可實施視頻解碼以產(chǎn)生經(jīng)由顯示器裝置126向用 戶顯示的視頻序列。接收裝置114a的解碼器124還可實施為如圖1B中所示的編碼器 /解碼器(CODEC)。在所述情形下,源裝置112b與接收裝置114b兩者均能夠?qū)?shù)字視
頻序列進行編碼、傳輸、接收及解碼。
圖2圖解說明可用于圖1A或圖1B的裝置中的實例性視頻編碼器。可將來自視 頻序列的幀或部分幀放置于視頻解碼器118 (其可以是CODEC 24的部分)內(nèi)部的輸 入幀緩沖器242中??蓪碜暂斎霂彌_器242的輸入幀解析為塊(所述視頻塊可以 是任何大小,但標準正方形視頻塊大小是4x4、 8x8或16x16)并被發(fā)送到視頻塊緩沖 器243。視頻塊緩沖器243通常將視頻塊發(fā)送到減法器244。減法器244從開關(guān)246 的輸出減去視頻塊x。開關(guān)246可在編碼的幀內(nèi)編碼與幀間編碼預(yù)測模式之間切換。 如果開關(guān)246啟用幀間編碼預(yù)測模式,那么通過紋理編碼器247壓縮來自x的所得差 異及來自不同(前一或后一)幀的視頻塊。如果開關(guān)246啟用幀內(nèi)編碼預(yù)測模式,那 么通過紋理編碼器247壓縮來自x的所得差異及來自同一幀中的前一視頻塊的預(yù)測值。
紋理編碼器247具有將輸入x (所述視頻塊或差異塊)從像素域變換為空間頻域 的DCT塊248。在所述空間頻域中,數(shù)據(jù)由DCT塊系數(shù)表示。DCT塊系數(shù)表示在視頻塊中所檢測的空間頻率的數(shù)目及度數(shù)。在運算DCT之后,DCT塊系數(shù)可由量化器 250在被稱為"塊量化"過程中量化。DCT塊系數(shù)(來自所述視頻塊或差異視頻塊) 的量化移除來自所述塊的部分空間冗余。在此"塊量化"過程期間,有時可通過將經(jīng) 量化的DCT塊系數(shù)與閾值相比較來移除其它空間冗余。此比較可在量化器250或另一 比較器塊(未顯示)內(nèi)部發(fā)生。如果經(jīng)量化DCT塊系數(shù)的量值小于所述閾值,那么棄 用所述系數(shù)或?qū)⑵湓O(shè)定為零值。
在塊量化之后,可將所得輸出發(fā)送到兩個分離結(jié)構(gòu)(l)紋理解碼器265,及(2) 熵編碼器255。紋理解碼器265包含有助于重構(gòu)視頻塊或幀的產(chǎn)生的解量化器266;其 將與編碼預(yù)測模式一起使用。熵編碼器255產(chǎn)生用于傳輸或存儲的位流。熵編碼器255 可包含接收經(jīng)塊量化的輸出的掃描儀256并重新排序所述輸出以使可變長度編碼器 (VLC) 258進行更高效編碼。VLC 258可采用游程及哈夫曼編碼技術(shù)的用途以產(chǎn)生經(jīng) 編碼的位流。將所述經(jīng)編碼的位流發(fā)送到輸出緩沖器260。可將所述位流發(fā)送到速率 控制器262。在維持基本質(zhì)量的同時,速率控制器262預(yù)算量化器250所使用的量化
位的數(shù)目。熵編碼被視為無損壓縮形式。無損壓縮意味著如果正被編碼的數(shù)據(jù)由熵解 碼器解碼那么所述數(shù)據(jù)可完全恢復(fù)而不會破壞所述經(jīng)編碼數(shù)據(jù)。熵編碼器255實施無
損壓縮。
有損壓縮意指作為編碼的結(jié)果,輸入x將不產(chǎn)生x的相同拷貝,即使所述經(jīng)編 碼的輸入未遭破壞。經(jīng)重構(gòu)的輸入已"丟失"其部分信息。紋理編碼器247實施有損 壓縮。典型視頻編碼器118通常具有本地紋理解碼器265以幫助幀間編碼及幀內(nèi)編碼 預(yù)測模式兩者的補償。解量化器266、反DCT 268與開關(guān)246的發(fā)送到加法器269的 輸出一起工作以對紋理編碼器247的輸出進行解碼并重構(gòu)進入紋理編碼器247的輸入 x。經(jīng)重構(gòu)的輸入y看似x但并非就是x。 一般視頻"解碼器"通常包含解量化器266、 反DCT 687及開關(guān)246的發(fā)送到加法器269的輸出的功能性。
可將經(jīng)重構(gòu)的輸入發(fā)送到存儲器緩沖器281。存儲器緩沖器281內(nèi)部可存在兩個 存儲器緩沖器(l)經(jīng)重構(gòu)新幀緩沖器282;及(2)經(jīng)重構(gòu)舊幀緩沖器284。經(jīng)重構(gòu)新幀 緩沖器282存儲當前處理的經(jīng)重構(gòu)幀(或部分幀)。經(jīng)重構(gòu)舊幀緩沖器284存儲過去處 理的經(jīng)重構(gòu)幀。所述過去處理的經(jīng)重構(gòu)幀用作(經(jīng)重構(gòu))參考幀。所述經(jīng)重構(gòu)參考幀 可以是在輸入幀緩沖器242的當前幀之前或之后的幀。當前幀(或來自當前幀的視頻 塊)或當前幀與所述經(jīng)重構(gòu)參考幀(或來自差異塊的視頻塊)之間的差異是"當前" 正被編碼的幀或差異。在當前幀已完成編碼之后且在提取來自輸入幀緩沖器242的輸 入中的將要編碼的下一幀之前,通過具有經(jīng)重構(gòu)新幀緩沖器282的內(nèi)容的拷貝來更新 經(jīng)重構(gòu)舊幀緩沖器284。
經(jīng)重構(gòu)新幀緩沖器282可發(fā)送其接收的經(jīng)重構(gòu)視頻塊以用于空間預(yù)測器286。經(jīng) 重構(gòu)舊幀緩沖器284將過去處理的經(jīng)重構(gòu)視頻塊發(fā)送到MEC(運動估計及補償塊)287 。 MEC塊包含運動估計器88及運動補償器290。運動估計器288產(chǎn)生運動向量(MV) 92 及運動向量預(yù)測值(MVP) 294,其可由運動補償器290用來補償來自除正被編碼的幀以外的其它幀的差異。MV 292也可由熵編碼器255使用。在某些標準(例如,ITU H.264)中,空間預(yù)測器286的輸出用于幀內(nèi)預(yù)測模式且反饋回至減法器244與加法器 269兩者。在某些標準(例如,MPEG-4或JPEG)中,不存在空間預(yù)測器286。
圖3圖解說明任何圖像或幀的兩個部分塊行。作為實例,假設(shè)塊行N-1及N為 塊行3及塊行4。在塊行3 330中有九個視頻塊。出于圖解說明的目的,可在本揭示內(nèi) 容的整個說明書中使用16x16的塊。因此,宏塊(MB) 331-339在行3 330中,且在行 4 340中有九個MB 341-749。將所述MB繪制成顯示塊行編號及相對于第M個宏塊的 位置兩者。M指當前宏塊。通常在塊行4之前處理塊行3。在本揭示內(nèi)容中,處理塊 行意指處理如在行3 330及行4 340中所略述的宏塊行。 一般來說,其還可意指處理任 何大小的視頻塊行。
當在各種標準(例如,H.264、 MPEG-4及H.263等)中相對于宏塊(MB) 345計 算運動向量時,可能需要預(yù)先知曉MB模式及毗鄰MB 344、 MB 335及MB 336 (或 當MB 336不可用時,MB 334)的運動向量。舉例來說,在H.264中,P幀的INTER 模式可以是INTER 16x16、 INTER 16x8、 INTER 8x16、 INTER 8x8。如果其是INTER 8x8模式,那么可進行進一步分割以選擇INTER 8x4、 INTER 4x8或INTER 4x4模式。 所述模式不僅取決于類型(INTER),而且還取決于大小。還可存在INTRA模式及SKIP 模式。雖然存在調(diào)用SKIP模式的其它條件,但可調(diào)用SKIP模式的一個條件是當MV 等于MVP時。
舉例來說,運動估計通常比任何其它視頻編碼過程需要更大量的運算資源。為 此,極其需要以減小運算復(fù)雜性且還幫助改善壓縮比的方式實施運動估計。本文所述 運動估計技術(shù)可通過使用以多個空間分辨率實施搜索的搜索方案來推進這些目標,從 而減小運算復(fù)雜性而準確性無任何損失。此外,提出了成本函數(shù)(還稱作失真測量), 其包括將運動向量編碼的成本。運動估計器還可使用搜索空間的多個候選位置以改善 視頻編碼的準確性,且所述多個候選者周圍的搜索區(qū)域可編程,從而使所述過程可在 幀速率及圖像大小方面升級。最后,運動估計器還可組合許多小正方形視頻塊(例如 4x4視頻塊)的成本函數(shù)以獲得各個更大塊形狀(例如,4x8視頻塊、8x4視頻塊、8x8 視頻塊、8x16視頻塊、16x8視頻塊、16x16視頻塊等等)的成本。對于許多操作及運 算,運動向量預(yù)測值(MVP)用于增加偏離所述運動向量預(yù)測值的運動向量的成本因素。 所述MVP還可提供額外初始運動向量,其可用于(尤其)在多級搜索的高分辨率級 界定搜索。至少部分取決于運動向量預(yù)測值的失真測量值的計算是所述成本因素的部 分。失真測量值還可幫助將對不同運動向量進行編碼所需位的數(shù)目量化。
圖4是描述貫穿幀可如何進行運動估計的過程的實例性流程圖。首先起始設(shè)置程 序400。作為所述設(shè)置的部分,將參考(過去或未來)幀載入402存儲器。舉例來說, 所述存儲器可以是本地存儲器或脫機存儲器候選RAM。然后,將當前幀載入404存儲 器。舉例來說,所述存儲器還可以是本地存儲器的部分或脫機存儲器編碼RAM。此后 是在塊行中選擇當前宏塊M。然后,在所述當前宏塊M周圍識別406搜索空間。 一旦已從參考幀識別408搜索空間,那么在當前幀中的兩個視頻塊行上處理410 2-D級管 線的動作發(fā)生。此是對經(jīng)由l-D級管線一次僅顧及處理一個視頻塊行的當前技術(shù)的改 善。在實施每一2-D級管線動作之后,決策塊412檢査是否已到達兩個塊行的末端。 如果還未到達所述兩個塊行的末端(NO),那么刷新414所述參考幀中的搜索空間,且 2-D級管線的在當前幀的兩個塊行上的處理410繼續(xù)。如果已到達兩個塊行的末端 (YES),那么決策塊416實施另一檢查。決策塊416檢査其是否是當前幀中的最后兩個 塊行的末端。如果其不是當前幀中的最后兩個塊行的末端(NO),那么實施遞增到下兩 個塊行(418)的動作,且2-D級管線的在當前幀的兩個塊行上的處理410繼續(xù)。如果 是當前幀中的最后兩個塊行的末端(YES),那么對當前幀的處理結(jié)束。
運動估計(ME)涉及通過至少兩個引擎處理視頻塊。第一引擎為提取引擎(FE),且 可從存儲器提取將要編碼的視頻塊。第二引擎使用失真度量以找到使失真降到最低的 相似匹配塊。第二引擎為整數(shù)搜索引擎(ISE),且可采用其中隨著搜索的進行以更精細 分辨率實施搜索的層次搜索。還可存在第三引擎(分數(shù)及空間搜索引擎(FSE)),其可 使用更精細分辨率搜索以找到使失真降到最低的相似匹配塊。FSE可以或可不將第二 引擎的結(jié)果用作開始點。出于實例性目的,通過三個引擎(提取引擎(FE)、整數(shù)搜索 引擎(ISE)以及分數(shù)及空間搜索引擎(FSE))進行運動估計技術(shù)這三個引擎以順序方式 處理視頻塊。通常,為使處理延遲降到最低,將所述三個引擎管線化于三個級上。也 就是說,F(xiàn)E、 ISE及FSE全部在三級管線中并行操作。舉例來說,在級1期間,F(xiàn)E 從存儲器提取當前宏塊M,而同時通過整數(shù)像素錨定點定位在宏塊M-l的角落的ISE 嘗試從參考(過去或未來)幀找到最匹配的宏塊。仍在級1期間,與所述FE及ISE 引擎同時操作的定位在宏塊M-2中的分數(shù)像素錨定點處的FSE嘗試從參考(過去或 未來)幀找到最匹配的宏塊。完成一個視頻塊的完全處理(以產(chǎn)生運動向量)需要三 個級。在三個級的末端,將存在所實施的三個提取、三個整數(shù)搜索及所實施的三個分 數(shù)及空間搜索。通常, 一維(1D)三級管線在一個視頻塊行上順序操作。直到整個視頻 塊行已完全處理,第二塊行中的處理才會發(fā)生。
圖5圖解說明1D三級管線的概念例示。如圖所見,行3 330的大部分正被處理。 在圖5的左上角,三個引擎中的兩者在3,M-3MB管線520的級1501期間運行。FE 對宏塊3, M-3 332進行操作,且ISE對宏塊3, M-4 331進行操作。3, M-3 MB管線 520的級2 502及3, M—3 MB管線520的級3 503在FSE在3, M—3 MB (宏塊)332 上完成之后完成運動向量的產(chǎn)生。如先前所提及, 一般來說,在每一級實施一個提取、 一個整數(shù)搜索以及一個分數(shù)及空間搜索。除3, M-4宏塊331的初始提取之外,圖3 的行3 330中的所有宏塊(MB)在圖5中處理。對于1-D管線521-527,下一管線的級1 還是前一管線的級2。下一管線的級2是前一管線的級3。因此,級502-510在管線中 可以是級l、級2或級3,此取決于哪一管線當前正操作。 一般來說,使用1D管線處 理N個宏塊(即,視頻塊)需要N+2個級。
對于既定宏塊,1D管線技術(shù)限制當前ISE無法使用對其有利的前一運動塊的FSE結(jié)果。舉例來說,當FE提取編碼數(shù)據(jù)且更新MB 335的存儲器時,ISE忙于MB 334 的整數(shù)搜索且FSE正實施MB 333的分數(shù)搜索及空間估計。關(guān)于1D管線的內(nèi)在問題 是ISE不知道其左鄰MB的模式及最終運動向量(MV)且因此不能夠獲得對運動向量預(yù) 測值(MVP)的準確估計。因此,運動向量運算可能略有偏差。因此,通過使用1D管線 技術(shù),運動估計(產(chǎn)生MV)與模式?jīng)Q策(產(chǎn)生MVP)之間存在相互依賴性。
一種解決運動估計與模式?jīng)Q策之間的相互依賴性的運動估計技術(shù)圖解說明于圖6 中。圖6是圖解說明三級二維(2D)管線、運動估計技術(shù)的實例性圖表,所述運動估計 技術(shù)允許ISE預(yù)先知曉所有相關(guān)的毗鄰MB模式及MV。在圖6中,兩個視頻塊行以 乒乓方式處理。在所述乒部分期間,處理來自第一視頻塊行的兩個視頻塊,而另一視 頻塊行上的同時處理正在發(fā)生。在所述乓部分期間,處理來自第二視頻塊行的兩個視 頻塊,而在第一視頻塊行上正處理另一視頻塊。
在圖6的左上角,圖解說明3,M-OMB2D管線621的級1 601。FE對宏塊3, M-O 335進行操作且ISE對宏塊4, M-3 342進行操作,而FSE對宏塊3, M-1 334進行操作。 在3, M-0 MB 2D管線621的級2 602期間,F(xiàn)E對宏塊4,M-2 343進行操作,且ISE 對宏塊3,M-0 335進行操作,而FSE對宏塊4,M-3 342進行操作。在3,M-0MB2D 管線621的級3 603期間,F(xiàn)E對宏塊3,M+l 336進行操作,且ISE對宏塊4, M-2 343 進行操作,而FSE對宏塊3, M-0 335進行操作。在3, M-0 MB 2D管線621的完成之 后,F(xiàn)SE之后的運動向量產(chǎn)生在3, M-0 MB 335上完成??扇缟鲜鍪褂眉?02-609以 完成2D管線622-627。每個"兵/乓"(參見圖6)表示一個行上的FE/FSE操作,而另 一行上有ISE。所述乒乓術(shù)語與行之間的角色切換相關(guān)聯(lián)。舉例來說,在所述"乒" 期間,F(xiàn)E/FSE對行3進行操作,且ISE對行4進行操作。在所述"乓"期間,F(xiàn)E/FSE 對行4進行操作,且ISE對行3進行操作。
使用2D管線的優(yōu)點是來自至少兩個不同行但緊密鄰近(在此實例中,水平位置) 的兩個宏塊可共享大多數(shù)搜索區(qū)域。由于所述乓可再使用來自乒的搜索區(qū)域,因此將 需要較少提取。此乒乓方式的處理減小通信總線上的帶寬。用以更新搜索區(qū)域的對外 部存儲器的刷新數(shù)目也可顯著地減小。用以更新搜索區(qū)域的對外部存儲器的刷新數(shù)目 也可顯著地減小。
此外,宏塊345可使用來自相關(guān)的毗鄰宏塊344、 335及334 (或336,如果334 不可用)的模式?jīng)Q策。模式?jīng)Q策的使用意指來自所述相關(guān)的毗鄰宏塊中的每一者的運 動向量預(yù)測值可有助于產(chǎn)生對運動向量的準確估計。在無2D乒乓管線的情形下,來 自毗鄰宏塊344的準確運動向量預(yù)測值可能在宏塊345的運動向量產(chǎn)生的運算中不可 用。因此,所述二維管線解決運動估計視頻塊與模式?jīng)Q策之間的相互依賴性。
上文已闡述了許多不同實施例。所述技術(shù)可通過改善運動估計而能夠改善視頻編 碼。所述技術(shù)可實施于硬件、軟件、固件或其任何組合中。如果實施于軟件中,那么 可將所述技術(shù)引導(dǎo)到包含程序碼的計算機可讀媒體,當所述程序碼在對視頻序列進行 編碼的裝置中執(zhí)行時會實施上文提及的一種或一種以上方法。在所述情形下,所述計算機可讀媒體可包含隨機存取存儲器(RAM),例如同步動態(tài)隨機存取存儲器 (SDRAM)、只讀存儲器(ROM)、非易失性隨機存取存儲器(NVRAM)、電可擦可 編程只讀存儲器(EEPROM)、 FLASH存儲器及類似存儲器。
所述程序碼可以計算機可讀指令的形式存儲在存儲器上。在所述情形下,處理器 (例如DSP)可執(zhí)行存儲在存儲器中的指令以執(zhí)行本文所述的一種或一種以上技術(shù)。 在某些情形下,所述技術(shù)可由調(diào)用各種硬件組件(例如,運動估計器)來加速編碼過 程的DSP執(zhí)行。在其它情形下,所述視頻編碼器可實施為微處理器、 一個或一個以上 專用集成電路(ASIC)、 一個或一個以上現(xiàn)場可編程門陣列(FPGA)或某些其它硬件 -軟件組合。這些及其它實施例均在以下權(quán)利要求書的范圍內(nèi)。
權(quán)利要求
1. 一種具有運動估計器的裝置,所述運動估計器使用二維管線來產(chǎn)生當前視頻塊的準確運動向量、運動向量預(yù)測值及模式?jīng)Q策,所述二維管線在所述當前視頻塊的所述準確運動向量、運動向量預(yù)測值及模式?jīng)Q策的所述產(chǎn)生之前使用相關(guān)的毗鄰視頻塊的已完成運動向量、運動向量預(yù)測值及模式?jīng)Q策計算,所述相關(guān)的毗鄰視頻塊包括與所述當前視頻塊在同一視頻塊行上的前一視頻塊。
2、 如權(quán)利要求1所述的裝置,其中所述二維管線包含在整數(shù)搜索引擎對另一視頻塊行進行操作的同時,使用對一視頻塊行進行操作的提取引擎及分數(shù)空間搜索引擎。
3、 如權(quán)利要求1所述的裝置,其中所述二維管線涉及處理所述管線中的至少兩 個級。
4、 如權(quán)利要求1所述的裝置,其中所述視頻塊為宏塊、8x8的塊、8x4的塊、4x8 的塊、4x4的塊或2x2的塊。
5、 一種在包括運動估計器的裝置中實施二維管線處理以產(chǎn)生當前視頻塊的準確 運動估計參數(shù)的方法,所述二維管線處理包括在所述當前視頻塊的所述準確運動估計 參數(shù)的所述產(chǎn)生之前識別先前計算的毗鄰視頻塊的運動估計參數(shù),所述毗鄰視頻塊包 括與所述當前視頻塊在同一視頻塊行上的前一視頻塊。
6、 如權(quán)利要求5所述的方法,其中所述運動估計參數(shù)為來自所述當前視頻塊的 運動向量、與所述當前視頻塊相關(guān)聯(lián)的運動向量預(yù)測值及模式?jīng)Q策。
7、 如權(quán)利要求5所述的方法,其中所述二維管線處理包含在整數(shù)搜索引擎對另 一視頻塊行進行操作的同時,使用對一視頻塊行進行操作的提取引擎及分數(shù)空間搜索 引擎。
8、 如權(quán)利要求5所述的方法,其中所述二維管線處理涉及所述管線中的至少兩 個級。
9、 如權(quán)利要求5所述的方法,其中所述視頻塊為宏塊、8x8的塊、8x4的塊、4x8 的塊、4x4的塊或2x2的塊。
10、 一種具有運動估計器的裝置,所述運動估計器包括用于實施二維管線處理以 產(chǎn)生當前視頻塊的準確運動估計參數(shù)的裝置,所述二維管線處理具有用于在所述當前 視頻塊的所述準確運動估計參數(shù)的所述產(chǎn)生之前識別先前計算的相關(guān)的毗鄰視頻塊的 運動估計參數(shù)的裝置,所述相關(guān)的毗鄰視頻塊包括與所述當前視頻塊在同一視頻塊行 上的前一視頻塊。
11、 如權(quán)利要求10所述的裝置,其中所述運功估計參數(shù)是來自所述當前視頻塊 的運動向量、與所述當前視頻塊相關(guān)聯(lián)的運動向量預(yù)測值及模式?jīng)Q策。
12、 如權(quán)利要求10所述的裝置,其中所述二維管線處理包含在整數(shù)搜索引擎對 另一視頻塊行進行操作的同時,使用對一視頻塊行進行操作的提取引擎及分數(shù)空間搜索引擎。
13、 如權(quán)利要求10所述的裝置,其中所述二維管線處理涉及所述管線中的至少 兩個級。
14、 如權(quán)利要求10所述的裝置,其中所述視頻塊為宏塊、8x8的塊、8x4的塊、 4x8的塊、4x4的塊或2x2的塊。
15、 一種包含計算機可讀媒體的計算機程序產(chǎn)品,所述計算機可讀媒體上存儲有 在被執(zhí)行時產(chǎn)生當前視頻塊的運動向量的指令,所述計算機程序產(chǎn)品包含用于以下操 作的指令集實施二維管線處理以產(chǎn)生當前視頻塊的準確運動估計參數(shù),所述二維管線處理進 一步包括用于在所述當前視頻塊的所述準確運動估計參數(shù)的所述產(chǎn)生之前識別先前計 算的毗鄰視頻塊的運動估計參數(shù)的指令,所述毗鄰視頻塊包括與所述當前視頻塊在同 一行上的前一視頻塊。
16、 如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述運動估計參數(shù)為來自所述 當前視頻塊的運動向量、與所述當前視頻塊相關(guān)聯(lián)的運動向量預(yù)測值及模式?jīng)Q策。
17、 如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述二維管線處理包含在整數(shù) 搜索引擎對另一視頻塊行進行操作的同時,使用對一視頻塊行進行操作的提取引擎及分數(shù)空間搜索引擎。
18、 如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述二維管線處理涉及所述管 線中的至少兩個級。
19、 如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述視頻塊為宏塊、8x8的塊、 8x4的塊、4x8的塊、4x4的塊或2x2的塊。
20、 一種視頻編碼方法,其包含基于先前針對鄰近將要編碼的當前視頻塊的視頻塊所計算的運動向量來運算運 動向量預(yù)測值;使用所述運動向量預(yù)測值搜索用于對所述當前視頻塊進行編碼的預(yù)測 塊;及通過使用二維管線處理至少兩個視頻塊行來計算至少一個運動向量預(yù)測值及至 少一個運動向量。
21、 如權(quán)利要求20所述的方法,其進一步包含產(chǎn)生指示將要編碼的所述當前視 頻塊與最佳預(yù)測塊之間的差異的差異塊。
22、 如權(quán)利要求21所述的方法,其進一步包含向用于對所述當前視頻塊進行編 碼的所述預(yù)測視頻塊識別運動向量,包括計算至少部分取決于所述運動向量預(yù)測值的 失真測量值。
23、 如權(quán)利要求22所述的方法,其中所述失真測量值對編碼不同運動向量所需 的位數(shù)目進行量化。
24、 如權(quán)利要求20所述的方法,其進一步包含在各級中以不同的空間分辨率實 施搜索以向用于對所述當前視頻塊進行編碼的所述最佳預(yù)測塊識別運動向量。
25、 如權(quán)利要求20所述的裝置,其中所述二維管線包含在整數(shù)搜索引擎對另一 視頻塊行進行操作的同時,使用對一視頻塊行進行操作的提取引擎及分數(shù)空間搜索引 擎。
26、 一種視頻編碼裝置,其包含運動估計器,其向用于對當前視頻塊進行編碼的最佳預(yù)測塊識別運動向量,包括計算至少部分取決于與不同運動向量相關(guān)聯(lián)的數(shù)據(jù)量的失真測量值;運動補償器,其產(chǎn)生指示將要編碼的所述當前視頻塊與所述預(yù)測視頻塊之間的差 異的差異塊;及通過在至少兩個視頻塊行上使用二維管線來計算至少一個運動向量預(yù)測值及至 少一個運動向量。
27、 如權(quán)利要求26所述的視頻編碼裝置,其中所述運動估計器在各級中以不同 的空間分辨率實施搜索以向用于對所述當前視頻塊進行編碼的所述最佳預(yù)測塊識別所 述運動向量。
28、 如權(quán)利要求26所述的視頻編碼裝置,其中所述視頻編碼裝置基于先前針對 鄰近將要編碼的所述當前視頻塊的視頻塊計算的運動向量來運算運動向量預(yù)測值,其 中所述運動向量預(yù)測值界定所述級中至少一者中的搜索且還用于計算所述失真測量 值。
全文摘要
所闡述的運動估計技術(shù)及視頻編碼裝置使用二維管線來產(chǎn)生當前視頻塊的準確運動估計參數(shù)。所述二維管線在所述當前視頻塊的準確運動向量、運動向量預(yù)測值及模式?jīng)Q策產(chǎn)生之前使用先前計算的相關(guān)的毗鄰視頻塊的運動估計參數(shù),所述相關(guān)的毗鄰視頻塊包括與所述當前視頻塊在同一行上的前一視頻塊。所述二維管線的使用允許在運動向量的運算中根據(jù)先前不可用的毗鄰視頻塊進行準確的運動向量預(yù)測。提取引擎、整數(shù)搜索引擎以及分數(shù)及空間搜索引擎這三個引擎可用于所述二維管線中。當所述提取引擎以及分數(shù)及空間搜索引擎對一個行進行操作時,所述整數(shù)搜索引擎對另一行進行操作。
文檔編號H04N7/26GK101305615SQ200680041688
公開日2008年11月12日 申請日期2006年9月22日 優(yōu)先權(quán)日2005年9月22日
發(fā)明者拉戈哈文德拉·C·納加拉杰, 凱 王, 納倫德拉納特·馬拉亞特 申請人:高通股份有限公司