專利名稱:用于多層視頻編碼和解碼的方法和設備的制作方法
技術(shù)領(lǐng)域:
符合本發(fā)明的設備和方法涉及視頻壓縮方法,并更具體地,涉及用于有效消除視頻幀內(nèi)的冗余度的預測方法、以及利用該預測方法的視頻壓縮方法和設備。
背景技術(shù):
隨著包括因特網(wǎng)的信息通信技術(shù)的發(fā)展,視頻通信以及文本和語音通信已得到顯著增長。傳統(tǒng)文本通信不能滿足用戶的各種需求,并由此可提供例如文本、畫面、和音樂的各種類型信息的多媒體服務已得到增長。然而,由于多媒體數(shù)據(jù)量通常很大,所以多媒體數(shù)據(jù)需要大容量存儲介質(zhì)和寬傳輸帶寬。因此,為了傳輸包括文本、視頻和音頻的多媒體數(shù)據(jù),壓縮編碼方法是必不可少的。
數(shù)據(jù)壓縮的基本原理是去除數(shù)據(jù)冗余度??赏ㄟ^去除其中在圖像中重復同一顏色或?qū)ο蟮目臻g冗余度、其中在活動圖像中的相鄰幀之間存在微小變化或在音頻中重復同一聲音的時間冗余度、或考慮到人的視力及其對于高頻變化的有限感知的精神視覺(mental visual)冗余度,而壓縮數(shù)據(jù)。
越來越多的注意力正集中到比MPEG-4編碼提供顯著改進的壓縮效率的H.264或先進視頻編碼(AVC)上。作為被設計為改進壓縮效率的一種方案的H.264使用定向幀內(nèi)預測,來去除幀內(nèi)的空間相似性。
定向幀內(nèi)預測涉及通過使用當前子塊的上邊和左邊的像素沿預定方向復制像素而預測該當前子塊的值,并僅對該當前子塊和預測值之間的差值進行編碼。
在H.264中,基于先前編碼的塊而生成當前塊的預測塊,并最終對當前塊和預測塊之間的差值進行編碼。對于亮度(luma)分量,對于每一4×4或16×16宏塊生成預測塊。對于每一4×4luma塊,存在9種預測模式。對于每一16×16塊,4種預測模式是可用的。
與H.264兼容的視頻編碼器在可用預測模式之中選擇使得當前塊和預測塊之間的差值最小化的每一塊的預測模式。
對于4×4塊的預測,H.264使用9種預測模式,包括8種定向預測模式0、1、和3-8,還包括利用圖1所示8個相鄰像素的平均值的DC預測模式2。
圖2示出了用于解釋這9種預測模式的為預測樣本A到M貼標簽(labeling)的示例。在該情況下,使用先前解碼的樣本A到M來形成預測塊(包括a到p的區(qū)域)。如果樣本E、F、G和H不可用,則樣本D將被復制到他們的位置處,以實際上形成樣本E、F、G和H。
現(xiàn)在將參考圖3更全面地描述圖1所示這9種預測模式。
對于模式0(垂直)和模式1(水平),通過從上邊的樣本A、B、C和D以及從左邊的樣本I、J、K和L分別進行外插,而形成預測塊的像素。對于模式2(DC),由上邊和左邊樣本A、B、C、D、I、J、K和L的平均值來預測預測塊的所有像素。
對于模式3(對角左下),通過從右上角到左下角沿45度角進行內(nèi)插,而形成預測塊的像素。對于模式4(對角右下),通過從左上角到右下角沿45度角進行外插,而形成預測塊的像素。對于模式5(垂直右),通過從上緣向下緣稍微向右漂移沿大約26.6度角(寬度/高度=1/2)進行外插,而形成預測塊的像素。
在模式6(水平下)中,通過從左緣向右緣稍微向下漂移沿大約26.6度角進行外插,而形成預測塊的像素。在模式7(垂直左),通過從上緣向下緣稍微向左漂移沿大約26.6度角(寬度/高度=1/2)進行外插,而形成預測塊的像素。在模式8(水平上)中,通過從左緣向右緣稍微向上漂移沿大約26.6度角(寬度/高度=2/1)進行外插,而形成預測塊的像素。
在每一模式中,箭頭指明導出預測像素的方向。可由參考樣本A到M的加權(quán)平均值來形成預測塊的樣本。例如,可由以下等式(1)來預測樣本dd=round(B/4+C/2+D/4) ...(1)其中round()是將值四舍五入為整數(shù)值的函數(shù)。
存在四種預測模式0、1、2和3,來預測宏塊的16×16luma分量。在模式0和模式1中,通過從上邊樣本H和從左邊樣本V分別進行外插,而形成預測塊的像素。在模式2中,由上邊和左邊樣本H和V的平均值來計算預測塊的像素。最后,在模式3中,利用擬合到上邊和左邊樣本H和V的線性“plane”函數(shù),而形成預測塊的像素。模式3更適于具有平滑變化的亮度的區(qū)域。
和試圖改進視頻編碼效率一起,正對于支持可伸縮性的視頻編碼方法進行積極研究,該可伸縮性就是根據(jù)各種網(wǎng)絡環(huán)境調(diào)整所傳輸?shù)囊曨l數(shù)據(jù)的分辨率、幀速率、和信噪比(SNR)的能力。
用于可伸縮視頻編碼的運動圖像專家組(MPEG)-21 PART-13標準正在進行當中。具體來說,多層視頻編碼方法被廣泛認為是有前途的技術(shù)。例如,比特流可包括多層,即具有不同分辨率或幀速率的基本層(1/4公用中間格式(QCIF))、增強層1(公用中間格式(CIF))、和增強層2(2CIF)。
因為現(xiàn)有定向幀內(nèi)預測不基于多層結(jié)構(gòu),所以對于每一層獨立執(zhí)行幀內(nèi)預測中的定向搜索以及編碼。由此,為了在多層環(huán)境下兼容采用基于H.264的定向幀內(nèi)預測,仍然存在改進需要。
對于每一層獨立使用幀內(nèi)預測的效率很低,因為不能利用每一層中的幀內(nèi)預測模式之間的相似性。例如,當在基本層中使用垂直幀內(nèi)預測模式時,很可能將在當前層中使用沿垂直方向或相鄰方向的幀內(nèi)預測。然而,因為最近提出了具有多層結(jié)構(gòu)、同時使用基于H.264定向幀內(nèi)預測的框架,所以迫切需要開發(fā)利用每一層中幀內(nèi)預測模式之間的相似性的有效編碼技術(shù)。
多層視頻編碼使得能夠使用這樣的預測,即,使用來自與當前幀相同的時間位置處的下一層的紋理信息,下面稱為“基本層(BL)預測”模式、以及幀內(nèi)預測模式。BL預測模式主要展示適度的預測性能,而幀內(nèi)預測模式不穩(wěn)定地示出好或差的性能。由此,傳統(tǒng)H.264標準提出了這樣的方案,包括對于每一宏塊選擇幀內(nèi)預測模式和BL預測模式之間的較好預測模式,并利用所選擇的預測模式對宏塊進行編碼。
假設在幀內(nèi)存在圖像,并且該圖像被分段為其中BL預測模式更合適的陰影區(qū)域和其中幀內(nèi)預測模式更合適的非陰影區(qū)域。在圖4中,虛線和實線分別指明4×4塊之間的邊界以及宏塊之間的邊界。
發(fā)明內(nèi)容
技術(shù)問題當應用傳統(tǒng)H.264所提出的方案時,如圖5所示,圖像被分段為宏塊10a和宏塊10b,其中宏塊10a被選擇為利用BL預測模式進行編碼,而宏塊10b被選擇為利用幀內(nèi)預測模式進行編碼。然而,該方案不適于圖4所示在宏塊中具有詳細(detailed)邊緣的圖像,因為宏塊包括其中幀內(nèi)預測模式更合適的區(qū)域和其中BL預測模式更合適的區(qū)域。由此,對于每一宏塊選擇兩種模式之一不能確保好編碼性能。
技術(shù)方案本發(fā)明提供了一種對于小于宏塊的區(qū)域選擇幀內(nèi)預測模式和BL預測模式中的較好預測模式的方法。
本發(fā)明還提供了一種將BL預測模式合并到傳統(tǒng)幀內(nèi)預測模式中的修改的(modified)幀內(nèi)預測模式。
本發(fā)明還提供了一種利用與上述時間預測相同的選擇方案、對于每一運動塊、選擇用于計算時間殘差的模式和BL預測模式中的較好預測模式的方法。
對于本領(lǐng)域技術(shù)人員來說,一旦瀏覽了以下描述,本發(fā)明的上述方面以及其他方面、特征和優(yōu)點將變得清楚。
根據(jù)本發(fā)明的一個方面,提供了一種用于基于多層結(jié)構(gòu)編碼視頻的方法,包括利用當前幀內(nèi)編碼塊的相鄰幀內(nèi)編碼塊的圖像,對該當前幀內(nèi)編碼塊執(zhí)行幀內(nèi)預測,以獲得預測殘差;利用與該當前幀內(nèi)編碼塊對應的底層(lowerlayer)區(qū)域的圖像,對該當前幀內(nèi)編碼塊執(zhí)行預測,以獲得預測殘差;選擇所述兩種預測殘差之中的提供較高編碼效率的預測殘差;和對所選擇的預測殘差進行編碼。
根據(jù)本發(fā)明的一個方面,提供了一種用于基于多層結(jié)構(gòu)解碼視頻的方法,包括對于每一幀內(nèi)編碼塊提取修改的幀內(nèi)預測模式和紋理數(shù)據(jù);根據(jù)該紋理數(shù)據(jù)生成幀內(nèi)編碼塊的殘留圖像;根據(jù)該修改的幀內(nèi)預測模式,利用先前重構(gòu)的相鄰幀內(nèi)編碼塊或先前重構(gòu)的底層圖像,而生成當前幀內(nèi)編碼塊的預測塊;和將該預測塊與該殘留圖像相加,并重構(gòu)當前幀內(nèi)編碼塊的圖像。
根據(jù)本發(fā)明的另一方面,提供了一種用于基于多層結(jié)構(gòu)編碼視頻的方法,包括利用與當前運動塊對應的參考幀的區(qū)域的圖像,對該當前運動塊執(zhí)行時間預測,以獲得預測殘差;利用與該當前運動塊對應的底層區(qū)域的圖像,對該當前運動塊執(zhí)行預測,以獲得預測殘差;選擇所述兩種預測殘差之中的提供較高編碼效率的那個預測殘差;和對所選擇的預測殘差進行編碼。
根據(jù)本發(fā)明的另一方面,提供了一種用于基于多層結(jié)構(gòu)解碼視頻的方法,包括提取用于每一運動塊的選定模式、運動數(shù)據(jù)、和紋理數(shù)據(jù);根據(jù)該紋理數(shù)據(jù)生成該運動塊的殘留圖像;根據(jù)該選定模式,而選擇與該運動塊對應的先前重構(gòu)的參考幀的區(qū)域的圖像或者先前重構(gòu)的底層圖像;和將所選擇的圖像與該殘留圖像相加,并重構(gòu)該運動塊的圖像。
根據(jù)本發(fā)明的另一方面,提供了一種多層視頻編碼器,包括配置為利用當前幀內(nèi)編碼塊的相鄰幀內(nèi)編碼塊的圖像、對該當前幀內(nèi)編碼塊執(zhí)行幀內(nèi)預測以獲得預測殘差的單元;配置為利用與該當前幀內(nèi)編碼塊對應的底層區(qū)域的圖像、對該當前幀內(nèi)編碼塊執(zhí)行預測以獲得預測殘差的單元;配置為選擇所述兩種預測殘差之中的提供較高編碼效率的預測殘差的單元;和配置為對所選擇的預測殘差進行編碼的單元。
根據(jù)本發(fā)明的另一方面,提供了一種多層視頻解碼器,包括配置為對于每一幀內(nèi)編碼塊提取修改的幀內(nèi)預測模式和紋理數(shù)據(jù)的單元;配置為根據(jù)該紋理數(shù)據(jù)生成幀內(nèi)編碼塊的殘留圖像的單元;配置為根據(jù)該修改的幀內(nèi)預測模式、利用先前重構(gòu)的相鄰幀內(nèi)編碼塊或先前重構(gòu)的底層圖像、而生成當前幀內(nèi)編碼塊的預測塊的單元;和配置將該預測塊與該殘留圖像相加并重構(gòu)當前幀內(nèi)編碼塊的圖像的單元。
通過參考附圖詳細描述本發(fā)明的說明性的而非限制性的示范實施例,本發(fā)明的以上和其他特征和優(yōu)點將變得更明顯,其中圖1示出了傳統(tǒng)H.264幀內(nèi)預測模式;圖2示出了用于解釋圖1所示幀內(nèi)預測模式的為預測樣本貼標簽的示例;圖3是圖1所示幀內(nèi)預測模式的詳細圖;圖4示出了輸入圖像的示例;圖5示出了根據(jù)傳統(tǒng)技術(shù)的對于每一宏塊選擇兩個模式之一的結(jié)果;圖6示出了根據(jù)本發(fā)明示范實施例的對于每一宏塊選擇兩個模式之一的結(jié)果;圖7是根據(jù)本發(fā)明示范實施例的修改的幀內(nèi)預測模式的示意圖;圖8是根據(jù)本發(fā)明示范實施例的視頻編碼器的方框圖;圖9示出了在修改的幀內(nèi)預測模式中用作參考的區(qū)域;
圖10示出了通過選擇用于每一幀內(nèi)編碼塊的最佳預測模式而創(chuàng)建宏塊的示例;圖11是根據(jù)本發(fā)明示范實施例的視頻解碼器的方框圖;圖12示出了分級可變尺寸塊匹配(HVSBM)的示例;圖13示出了通過選擇用于每一運動塊的模式而構(gòu)造的宏塊;圖14是根據(jù)本發(fā)明示范實施例的視頻編碼器的方框圖;和圖15是根據(jù)本發(fā)明示范實施例的視頻解碼器的方框圖。
具體實施例方式
現(xiàn)在將參考其中示出了本發(fā)明的示范實施例的附圖來更全面地描述本發(fā)明。通過參考以下對示范實施例和附圖的詳細描述,可更容易地理解本發(fā)明的優(yōu)點和特征及其實現(xiàn)方法。然而,本發(fā)明可以以許多不同的形式實施,并不應被解釋為限于這里闡明的實施例。相反,提供這些實施例,使得該公開更全面和完整并向本領(lǐng)域技術(shù)人員全面?zhèn)鬟_本發(fā)明的概念,并且本發(fā)明將僅由所附權(quán)利要求限定。說明書中的相同附圖標記始終表示相同元件。
現(xiàn)在將參考其中示出了本發(fā)明的優(yōu)選實施例的附圖來更全面地描述本發(fā)明。
圖6示出了根據(jù)本發(fā)明示范實施例的對于每一幀內(nèi)編碼塊(例如4×4塊)選擇幀內(nèi)預測模式和BL預測模式之間的較好預測模式的結(jié)果。參考圖6,與圖5所示傳統(tǒng)H.264提出的方案不同,本發(fā)明的示范實施例可實現(xiàn)比宏塊更小的區(qū)域的模式選擇。用于該選擇的區(qū)域可具有適于執(zhí)行幀內(nèi)預測模式的尺寸。
在傳統(tǒng)幀內(nèi)預測模式中,亮度分量利用4×4和16×16塊尺寸模式,而色度分量利用8×8塊尺寸模式。本發(fā)明的示范實施例可應用4×4和8×8模式,而不應用其中16×16塊與宏塊具有相同尺寸的16×16模式。其后,將假設4×4模式用于幀內(nèi)預測,來描述本發(fā)明的示范實施例。
假設對于每一4×4塊選擇幀內(nèi)預測模式和BL預測模式之一,可添加BL預測模式作為傳統(tǒng)幀內(nèi)預測模式的一種子模式。以這種方式,將BL預測模式合并到傳統(tǒng)幀內(nèi)預測模式中的幀內(nèi)預測模式其后被稱為根據(jù)本發(fā)明示范實施例的“修改的幀內(nèi)預測模式”。
表1示出了修改的幀內(nèi)預測模式的子模式。
表1
如表1所示,修改的幀內(nèi)預測模式包括BL預測模式,代替?zhèn)鹘y(tǒng)幀內(nèi)預測模式中的作為模式2的DC模式,因為可在非定向的DC模式中表示的幀內(nèi)編碼塊可利用BL預測模式而充分好地預測。此外,包括BL預測模式的修改的預測模式可防止由于添加新模式而導致的開銷。
圖7中示意性圖示了修改的幀內(nèi)預測模式。所述修改的幀內(nèi)預測模式包括8個定向模式和1個BL預測模式。在該情況下,由于BL預測模式可被認為具有(朝向基本層)的向下方向,所以,該修改的幀內(nèi)預測模式一共包括9個定向模式。
作為選擇,當不能通過BL預測模式預測DC模式時,可將BL預測模式添加到傳統(tǒng)幀內(nèi)預測模式上,作為下表2中所示模式“9”。下面描述的本發(fā)明的示范實施例假設修改后的幀內(nèi)預測模式包括表1所示子模式。
表2
圖8是根據(jù)本發(fā)明第一示范實施例的視頻編碼器1000的方框圖。參考圖8,該視頻編碼器1000主要包括基本層編碼器100和增強層編碼器200。現(xiàn)在將描述增強層編碼器200的配置。
塊分割器(partitioner)210將輸入幀分段為多個幀內(nèi)編碼塊。盡管每一幀內(nèi)編碼塊可具有小于宏塊的尺寸,但是將假設每一幀內(nèi)編碼塊具有4×4像素的尺寸,來描述本發(fā)明的示范實施例。所述多個幀內(nèi)編碼塊然后被饋送到減法器205中。
預測塊發(fā)生器220利用從逆空間變換器251接收的重構(gòu)增強層塊和由基本層編碼器100提供的重構(gòu)基本層圖像,來對于修改的幀內(nèi)預測模式的每一子模式,生成與當前塊關(guān)聯(lián)的預測塊。當利用重構(gòu)增強層塊生成預測塊時,使用圖3所示計算處理。在該情況下,由于DC模式被替換為BL預測模式,所以可從幀內(nèi)預測模式的子模式中排除DC模式。當利用重構(gòu)基本層圖像生成預測塊時,該重構(gòu)基本層圖像可被直接用作預測塊,或者可在用作預測塊之前被上采樣為增強層的分辨率。
參考示出了在修改的幀內(nèi)預測模式中用作參考的區(qū)域的圖9,預測塊發(fā)生器220利用其先前重構(gòu)的相鄰增強層塊33、34、35和36(特別是,關(guān)于與當前幀內(nèi)編碼塊相鄰的塊的像素的信息),而生成用于每一預測模式0、1、和3到8的當前幀內(nèi)編碼塊的預測塊32。對于預測模式2,(當基本層與增強層具有相同分辨率時,)將先前重構(gòu)的基本層圖像31直接用作預測塊,(當基本層與增強層具有不同分辨率時,)在將先前重構(gòu)的基本層圖像31用作預測塊之前,將其上采樣為增強層的分辨率。當然,本領(lǐng)域技術(shù)人員容易理解的是,可在將重構(gòu)的基本層圖像用作預測塊之前執(zhí)行解塊處理,以降低塊偽像(artifact)。
減法器205從自塊分割器210接收的當前幀內(nèi)編碼塊中減去由預測塊發(fā)生器220產(chǎn)生的預測塊,由此去除當前幀內(nèi)編碼塊中的冗余度。
然后,當預測塊和當前幀內(nèi)編碼塊之間的差值經(jīng)過空間變換器231和量化器232時,其被有損耗地編碼,并然后由熵編碼單元233無損耗地編碼。
空間變換器231對由減法器205去除了時間冗余度的幀執(zhí)行空間變換,以創(chuàng)建變換系數(shù)。離散余弦變換(DCT)或小波變換技術(shù)可用于空間變換。當DCT用于空間變換時,創(chuàng)建DCT系數(shù),而當使用小波變換時,產(chǎn)生小波系數(shù)。
量化器232對空間變換器231獲得的變換系數(shù)執(zhí)行量化,以創(chuàng)建量化系數(shù)。這里,量化是將用任意實數(shù)表示的變換系數(shù)表示為有限數(shù)目比特的方法。已知量化技術(shù)包括標量量化、矢量量化等。通過將變換系數(shù)除以映射到該系數(shù)的量化表的值并將該結(jié)果四舍五入為整數(shù)值,而執(zhí)行簡單的標量量化技術(shù)。
當小波變換用于空間變換時,主要使用嵌入量化。嵌入量化利用空間冗余度,并涉及將閾值降低一半,并對比該閾值大的變換系數(shù)進行編碼。嵌入量化技術(shù)的示例包括嵌入零樹小波(EZW)、分級樹中的集合分割(SPIHT)、和嵌入零塊編碼(EZBC)。
熵編碼單元233將量化器232生成的量化系數(shù)和模式選擇器240選擇的預測模式無損耗地編碼為增強層比特流??刹捎美缁舴蚵幋a、算術(shù)編碼、和可變長度編碼的各種編碼方案,用于無損耗編碼。
模式選擇器240對于修改的幀內(nèi)預測模式的每一子模式比較熵編碼單元所獲得的結(jié)果,并選擇提供最高編碼效率的預測模式。這里,通過給定比特率的圖像質(zhì)量來測量編碼效率?;谒俾适д?RD)優(yōu)化的成本函數(shù)主要用于估計圖像質(zhì)量。因為較低成本意味著更高編碼效率,所以模式選擇器240在修改的幀內(nèi)預測模式的子模式中選擇提供最小成本的預測模式。
通過等式(2)計算成本函數(shù)中的成本CC=E+λB ...(2)其中E和B分別表示原始信號和通過對編碼比特進行解碼所重構(gòu)的信號之間的差值、以及執(zhí)行每一預測模式所需的比特數(shù),而λ是用于控制E和B的比率的拉格朗日系數(shù)。
盡管比特數(shù)B可被定義為紋理數(shù)據(jù)所需的比特數(shù),但是更精確的是,將其定義為每一預測模式及其對應的紋理數(shù)據(jù)兩者所需的比特數(shù)。這是因為熵編碼的結(jié)果可能不與分配給每一預測模式的模式編號相同。特別是,由于傳統(tǒng)H.264也僅對相鄰幀內(nèi)編碼塊的預測模式進行估計所保存的結(jié)果進行編碼,而不對預測模式進行編碼,所以編碼結(jié)果可根據(jù)估計效率而變化。
模式選擇器240選擇用于每一幀內(nèi)編碼塊的預測模式。換言之,模式選擇器確定用于圖10所示宏塊10中的每一幀內(nèi)編碼塊的最佳預測模式。這里,利用BL預測模式對陰影塊進行編碼,而利用傳統(tǒng)定向幀內(nèi)預測模式對非陰影塊進行編碼。
使用修改的幀內(nèi)預測模式的幀內(nèi)編碼塊的數(shù)目的整數(shù)倍可以與宏塊尺寸的大小相同。然而,可對于通過任意分割幀而獲得的區(qū)域執(zhí)行修改的幀內(nèi)預測模式。
接收由模式選擇器240通過比較和選擇所選擇的預測模式的熵編碼單元233輸出與所選擇的預測模式對應的比特流。
為了支持閉環(huán)編碼以便降低由于編碼器和解碼器之間的失配引起的漂移誤差,視頻編碼器1000包括逆量化器252和逆空間變換器251。
逆量化器252對量化器232所量化的系數(shù)執(zhí)行逆量化。逆量化是量化器232已執(zhí)行的量化的逆操作。
逆空間變換器251對逆量化的結(jié)果執(zhí)行逆空間變換,以重構(gòu)然后被發(fā)送到預測塊發(fā)生器220的當前幀內(nèi)編碼塊。
下采樣器110將輸入幀下采樣為基本層的分辨率。下采樣器可以是MPEG下采樣器、小波下采樣器、或其他。
基本層編碼器110將下采樣的基本層幀編碼為基本層比特流,同時對編碼結(jié)果進行解碼。將與增強層中的當前幀內(nèi)編碼塊對應的通過解碼重構(gòu)的基本層幀的區(qū)域的紋理信息傳送到預測塊發(fā)生器220。當然,當基本層與增強層具有不同分辨率時,應當在將紋理信息傳送到預測塊發(fā)生器220之前,由上采樣器120對紋理信息執(zhí)行上采樣處理??衫门c下采樣處理相同或不同的技術(shù)來執(zhí)行上采樣處理。
盡管基本層編碼器100可以以與增強層編碼器200相同的方式工作,但是基本層編碼器100也可利用傳統(tǒng)幀內(nèi)預測、時間預測、和其他預測處理來編碼和/或解碼基本層幀。
圖11是根據(jù)本發(fā)明第一示范實施例的視頻解碼器2000的方框圖。視頻解碼器2000主要包括基本層解碼器300和增強層解碼器400?,F(xiàn)在將描述增強層解碼器400的配置。
熵解碼單元411執(zhí)行作為熵編碼的逆操作的無損耗解碼,以提取每一幀內(nèi)編碼塊的修改的幀內(nèi)預測模式和紋理數(shù)據(jù),它們?nèi)缓蠓謩e被饋送到預測塊發(fā)生器420和逆量化器412。
逆量化器412對從熵解碼單元411接收的紋理數(shù)據(jù)執(zhí)行逆量化。逆量化是視頻編碼器(圖8的1000)的量化器(圖8的232)已執(zhí)行的量化的逆操作。例如,可通過將紋理數(shù)據(jù)乘以其量化表(與視頻編碼器1000中使用的相同)的映射值而執(zhí)行逆標量量化。
逆空間變換器413執(zhí)行逆空間變換,以根據(jù)逆量化之后獲得的系數(shù)而重構(gòu)殘留塊。例如,當在視頻編碼器1000處將小波變換用于空間變換時,逆空間變換器413執(zhí)行逆小波變換。當DCT用于空間變換時,逆空間變換器413執(zhí)行逆DCT。
預測塊發(fā)生器420利用從加法器215輸出的當前幀內(nèi)編碼塊的先前重構(gòu)的相鄰幀內(nèi)編碼塊和基本層解碼器300重構(gòu)的與當前幀內(nèi)編碼塊對應的基本層圖像,根據(jù)熵解碼單元411提供的預測模式,而生成預測塊。例如,對于模式0、1、和3到8,利用相鄰幀內(nèi)編碼塊生成預測塊。對于模式2,利用基本層圖像生成預測塊。
加法器215將預測塊和逆空間變換器413重構(gòu)的殘留塊相加,由此重構(gòu)當前幀內(nèi)編碼塊的圖像。將加法器215的輸出饋送到預測塊發(fā)生器420和塊合并器430,塊合并器430然后合并所重構(gòu)的殘留塊以重構(gòu)幀。
其間,基本層解碼器300從基本層比特流重構(gòu)基本層幀。與增強層中的當前幀內(nèi)編碼塊對應的通過解碼重構(gòu)的基本層幀的區(qū)域的紋理信息被提供到預測塊發(fā)生器420。當然,當基本層與增強層具有不同分辨率時,在將紋理信息傳送到預測塊發(fā)生器420之前,必須由上采樣器310對紋理信息執(zhí)行上采樣處理。
盡管基本層解碼器300可以以與增強層解碼器400相同的方式工作,但是基本層解碼器300也可利用傳統(tǒng)幀內(nèi)預測、時間預測、和其他預測處理來編碼和/或解碼基本層幀。
上面已參考其中添加BL預測模式作為幀內(nèi)預測模式的一種子模式的第一實施例,而描述了本發(fā)明。在另一示范實施例(第二實施例)中,可在時間預測處理中包括BL預測模式,這將在下面進行描述。參考圖12,傳統(tǒng)H.264使用分級可變尺寸塊匹配(HVSBM),來去除每一宏塊中的時間冗余度。
將宏塊10分割為四種模式的子塊16×16、8×16、16×8、和8×8模式。每一8×8子塊還可被分離為4×8、8×4、或4×4模式(如果不分離,則使用8×8模式)。由此,對于每一宏塊10,允許最大7種組合的子塊。
提供最小成本的構(gòu)成宏塊10的子塊組合被選擇為最佳組合。當將宏塊10分離為更小區(qū)域時,塊匹配的精度增加,并且運動數(shù)據(jù)(運動矢量、子塊模式等)量一起增加。由此,選擇子塊的最佳組合,以實現(xiàn)塊匹配精度和運動數(shù)據(jù)量之間的最佳折衷。例如,不包含復雜改變的簡單背景圖像可使用大尺寸子塊模式,而具有復雜和詳細邊緣的圖像可使用小尺寸子塊模式。
本發(fā)明第二示范實施例的特征在于,對于包括最佳子塊組合的宏塊10中的每一子塊,確定是應用計算時間殘差的模式還是應用BL預測模式。在圖13中,I 11和BL 12分別表示要使用時間殘差編碼的子塊和要使用BL預測模式編碼的子塊。
等式(2)中所示RD成本函數(shù)用于選擇每一子塊的最佳模式。當Ci和Cb分別表示當使用時間殘差和當使用BL預測模式時需要的成本,Ei和Bi分別表示當使用時間殘差時原始信號和重構(gòu)信號之間的差值、以及對由時間預測生成的運動數(shù)據(jù)和由時間殘差獲得的紋理信息進行編碼所需的比特數(shù),而Eb和Bb分別表示當使用BL預測模式時原始信號和重構(gòu)信號之間的差值、以及對表明BL預測模式的信息和利用該BL預測模式獲得的紋理信息進行編碼所需的比特數(shù)時,成本Ci和Cb由等式(2)定義Ci=Ei+λBiCb=Eb+λBb...(2)通過選擇為每一子塊提供Ci和Cb中的較小一個的方法,可獲得圖13所示重構(gòu)的宏塊。
盡管H.264標準使用HVSBM來執(zhí)行時間預測(包括運動估計和運動補償),但是例如MPEG的其他標準可使用固定尺寸塊匹配。該第二實施例集中于對于每一塊選擇BL預測模式或計算當前塊和參考幀中的對應塊之間的殘差的模式,而不管宏塊被分割為可變尺寸塊還是固定尺寸塊。下面將作為計算運動矢量的基本單位的可變尺寸塊或固定尺寸塊稱為“運動塊”。
圖14是根據(jù)本發(fā)明第二示范實施例的視頻編碼器3000的方框圖。參考圖14,視頻編碼器3000主要包括基本層編碼器100和增強層編碼器500。現(xiàn)在將描述增強層編碼器500的配置。
運動估計器290利用參考幀對當前幀執(zhí)行運動估計,以獲得運動矢量。可利用HVSBM或固定尺寸塊匹配算法(BMA)對于每一宏塊執(zhí)行運動估計。在BMA中,將給定運動塊中的像素與參考幀中的搜索區(qū)域中的像素作比較,并將具有最小誤差的位移確定為運動矢量。運動估計器290將例如作為運動估計結(jié)果獲得的運動矢量、運動塊類型、和參考幀編號的運動數(shù)據(jù)發(fā)送到熵編碼單元233。
運動補償器280利用運動矢量對參考幀執(zhí)行運動補償,并生成運動補償后的幀。運動補償后的幀是包括與當前幀中的塊對應的參考幀中的塊的虛擬幀,并被傳送到切換單元295。
切換單元295接收從運動補償器280接收的運動補償后的幀和由基本層編碼器100提供的基本層幀,并以運動塊為基礎(chǔ)而將幀的紋理發(fā)送到減法器205。當然,當基本層與增強層具有不同分辨率時,在將基本層編碼器100生成的基本層幀傳送到切換單元195之前,必須對其執(zhí)行上采樣處理。
減法器205從輸入幀中的預定運動塊(當前運動塊)中減去從切換單元295接收的紋理,以便去除當前運動塊中的冗余度。也就是說,減法器205計算當前運動塊和運動補償后的幀中的其對應運動塊之間的差值(下面稱為“第一預測殘差”),并計算當前運動塊和基本層幀中的其對應區(qū)域之間的差值(下面稱為“第二預測殘差”)。
第一和第二預測殘差經(jīng)過空間變換器231和量化器232時被有損耗地編碼,并然后由熵編碼單元233無損耗地編碼。
模式選擇器270選擇熵編碼單元233所編碼的第一和第二預測殘差中的提供較高編碼效率的那個預測殘差。例如,可將參考等式(2)描述的方法用于該選擇。因為對于每一運動塊計算第一和第二預測殘差,所以模式選擇器270對于所有運動塊反復執(zhí)行該選擇。
接收該模式選擇器270通過比較和選擇所選擇的結(jié)果(由索引0或1表示)的熵編碼單元233輸出與所選擇的結(jié)果對應的比特流。
為了支持閉環(huán)編碼以便降低由于編碼器和解碼器之間的失配引起的漂移誤差,視頻編碼器3000包括逆量化器252、逆空間變換器251、和加法器251。加法器215將逆空間變換器251重構(gòu)的殘留幀疊加到運動補償器280所輸出的運動補償后的幀上,以重構(gòu)然后被發(fā)送到運動估計器290的參考幀。
因為下采樣器110、上采樣器120、和基本層編碼器100與圖8所示第一示范實施例中的對應部件執(zhí)行相同的操作,所以將不給出它們的描述。
圖15是根據(jù)本發(fā)明第二實施例的視頻解碼器4000的方框圖。參考圖15,視頻解碼器4000主要包括基本層解碼器300和增強層解碼器600。
熵解碼單元411執(zhí)行作為熵編碼的逆操作的無損耗解碼,從而提取用于每一運動塊的選定模式、運動數(shù)據(jù)、和紋理數(shù)據(jù)。該選定模式意味著指明從時間殘差(“第三預測殘差”)和當前運動塊與基本層幀中的對應區(qū)域之間的殘差(“第四預測殘差”)中選擇的結(jié)果的索引(0或1),所述第三預測殘差和第四預測殘差是由視頻編碼器3000對于每一運動塊計算的。
熵解碼單元411將該選定模式、運動數(shù)據(jù)、和紋理數(shù)據(jù)分別提供到切換單元450、運動補償器440、和逆量化器412。逆量化器412對從熵解碼單元411接收的紋理數(shù)據(jù)執(zhí)行逆量化。逆量化是增強層編碼器(圖14的500)的該量化器(圖14的232)已執(zhí)行的量化的逆操作。
逆空間變換器413執(zhí)行逆空間變換,以對于每一運動塊根據(jù)逆量化之后獲得的系數(shù)而重構(gòu)殘留圖像。
運動補償器440利用從熵解碼單元411接收的運動數(shù)據(jù)對先前重構(gòu)的視頻幀執(zhí)行運動補償,并生成運動補償后的幀,該幀中的與當前運動塊對應的圖像(第一圖像)被提供到切換單元450。
基本層解碼器300根據(jù)基本層比特流重構(gòu)基本層幀,并將與當前運動塊對應的基本層幀的圖像(第二圖像)發(fā)送到切換單元450。當然,當必要時,可在將第二圖像傳送到切換單元450之前,由上采樣器310執(zhí)行上采樣處理。
切換單元450根據(jù)熵解碼單元411提供的選定模式而選擇第一和第二圖像之一,并將所選擇的圖像提供到加法器215作為預測塊。
加法器215將逆空間變換器413所重構(gòu)的殘留圖像與切換單元450所選擇的預測塊相加,以重構(gòu)當前運動塊的圖像。重復執(zhí)行以上處理,以重構(gòu)每一運動塊的圖像,由此重構(gòu)一幀。
本發(fā)明允許非常適于輸入視頻的特性的多層視頻編碼。本發(fā)明還改善多層視頻編解碼器的性能。
在圖8、11、14和15中,各種功能組件意味著,但是不限于,執(zhí)行特定任務的軟件或硬件組件,例如現(xiàn)場可編程門陣列(FPGA)或特定用途集成電路(ASIC)。這些組件可以有利地配置為駐留在可尋址存儲介質(zhì)上,并被配置為在一個或多個處理器上運行。這些組件和模塊中提供的功能可合并為更少的組件和模塊、或進一步分離為其他組件和模塊。
產(chǎn)業(yè)上的可利用性如上所述,根據(jù)本發(fā)明,可以以更適于輸入視頻特性的方式執(zhí)行基于多層視頻編碼的編碼視頻的方法。另外,本發(fā)明提供了視頻編解碼器的改善性能。
在推斷詳細描述的過程中,本領(lǐng)域普通技術(shù)人員將理解,可對這些優(yōu)選實施例進行許多修改和變形,而實質(zhì)上不脫離本發(fā)明的原理。所以,所公開的本發(fā)明的示范實施例僅用于一般描述意義,而非為了限制的目的。
權(quán)利要求
1.一種用于基于多層結(jié)構(gòu)編碼視頻的方法,包括利用當前幀內(nèi)編碼塊的相鄰幀內(nèi)編碼塊的圖像,對該當前幀內(nèi)編碼塊執(zhí)行幀內(nèi)預測,以獲得預測殘差;利用與該當前幀內(nèi)編碼塊對應的底層區(qū)域的圖像,對該當前幀內(nèi)編碼塊執(zhí)行預測,以獲得預測殘差;選擇所述兩種預測殘差之中的提供較高編碼效率的預測殘差;和對所選擇的預測殘差進行編碼。
2.根據(jù)權(quán)利要求1的方法,其中根據(jù)8種定向幀內(nèi)預測模式執(zhí)行該幀內(nèi)預測。
3.根據(jù)權(quán)利要求1的方法,其中該幀內(nèi)編碼塊具有4×4像素的尺寸。
4.根據(jù)權(quán)利要求2的方法,其中利用9種幀內(nèi)預測模式執(zhí)行該幀內(nèi)預測,所述9種幀內(nèi)預測模式是8種定向幀內(nèi)預測模式加上在利用底層圖像執(zhí)行預測時所使用的預測模式。
5.根據(jù)權(quán)利要求1的方法,其中該底層區(qū)域的圖像是通過解碼重構(gòu)的、與當前幀內(nèi)編碼塊對應的底層幀的區(qū)域的圖像。
6.根據(jù)權(quán)利要求1的方法,其中該相鄰幀內(nèi)編碼塊的圖像是通過對該相鄰幀內(nèi)編碼塊進行解碼重構(gòu)的圖像。
7.根據(jù)權(quán)利要求1的方法,其中該編碼效率是由基于速率失真的成本函數(shù)確定的。
8.根據(jù)權(quán)利要求1的方法,其中對所選擇的預測殘差進行編碼的步驟包括對所選擇的預測殘差執(zhí)行空間變換,以創(chuàng)建變換系數(shù);對該變換系數(shù)進行量化,以生成量化系數(shù);和對該量化系數(shù)進行無損耗地編碼。
9.一種用于基于多層結(jié)構(gòu)解碼視頻的方法,包括對于每一幀內(nèi)編碼塊提取修改的幀內(nèi)預測模式和紋理數(shù)據(jù);根據(jù)該紋理數(shù)據(jù)生成幀內(nèi)編碼塊的殘留圖像;根據(jù)該修改的幀內(nèi)預測模式,利用先前重構(gòu)的相鄰幀內(nèi)編碼塊或先前重構(gòu)的底層圖像,而生成當前幀內(nèi)編碼塊的預測圖像;和將該預測圖像與該殘留圖像相加,并重構(gòu)當前幀內(nèi)編碼塊的圖像。
10.根據(jù)權(quán)利要求9的方法,其中所述根據(jù)該紋理數(shù)據(jù)生成殘留圖像的步驟包括對紋理數(shù)據(jù)進行逆量化,并對逆量化的結(jié)果執(zhí)行逆空間變換。
11.根據(jù)權(quán)利要求9的方法,其中所述修改的幀內(nèi)預測模式包括8種定向幀內(nèi)預測模式和用于根據(jù)對應底層區(qū)域執(zhí)行預測的預測模式。
12.一種用于基于多層結(jié)構(gòu)編碼視頻的方法,包括利用與當前運動塊對應的參考幀的區(qū)域的圖像,對該當前運動塊執(zhí)行時間預測,以獲得第一預測殘差;利用與該當前運動塊對應的底層區(qū)域的圖像,對該當前運動塊執(zhí)行預測,以獲得第二預測殘差;選擇所述第一和第二預測殘差之中的提供較高編碼效率的那個預測殘差;和對所選擇的預測殘差進行編碼。
13.根據(jù)權(quán)利要求12的方法,其中該運動塊是通過分級可變尺寸塊匹配(HVSBM)生成的。
14.根據(jù)權(quán)利要求12的方法,其中該運動塊是通過固定尺寸塊匹配生成的。
15.根據(jù)權(quán)利要求12的方法,其中該編碼效率是由基于速率失真的成本函數(shù)確定的。
16.根據(jù)權(quán)利要求12的方法,其中該底層區(qū)域的圖像是通過解碼重構(gòu)的、與當前幀內(nèi)編碼塊對應的底層幀的區(qū)域的圖像。
17.根據(jù)權(quán)利要求12的方法,其中該參考幀是通過在與當前運動塊不同的時間位置對幀進行編碼、并對所編碼的幀進行解碼所獲得的幀。
18.一種用于基于多層結(jié)構(gòu)解碼視頻的方法,包括提取用于每一運動塊的選定模式、運動數(shù)據(jù)、和紋理數(shù)據(jù);根據(jù)該紋理數(shù)據(jù)生成該運動塊的殘留圖像;根據(jù)該選定模式,而在與該運動塊對應的先前重構(gòu)的參考幀的區(qū)域的圖像和先前重構(gòu)的底層圖像之中選擇一個圖像;和將所選擇的圖像與該殘留圖像相加,并重構(gòu)該運動塊的圖像。
19.根據(jù)權(quán)利要求18的方法,其中所述根據(jù)該紋理數(shù)據(jù)生成殘留圖像的步驟包括對紋理數(shù)據(jù)進行逆量化,并對逆量化的結(jié)果執(zhí)行逆空間變換。
20.一種視頻編碼器,包括配置為利用當前幀內(nèi)編碼塊的相鄰幀內(nèi)編碼塊的圖像、對該當前幀內(nèi)編碼塊執(zhí)行幀內(nèi)預測以獲得預測殘差的單元;配置為利用與該當前幀內(nèi)編碼塊對應的底層區(qū)域的圖像、對該當前幀內(nèi)編碼塊執(zhí)行預測以獲得預測殘差的單元;配置為選擇所述兩種預測殘差之中的提供較高編碼效率的預測殘差的單元;和配置為對所選擇的預測殘差進行編碼的單元。
21.一種視頻解碼器,包括配置為對于每一幀內(nèi)編碼塊提取修改的幀內(nèi)預測模式和紋理數(shù)據(jù)的單元;配置為根據(jù)該紋理數(shù)據(jù)生成幀內(nèi)編碼塊的殘留圖像的單元;配置為根據(jù)該修改的幀內(nèi)預測模式、利用先前重構(gòu)的相鄰幀內(nèi)編碼塊或先前重構(gòu)的底層圖像、而生成當前幀內(nèi)編碼塊的預測圖像的單元;和配置將該預測圖像與該殘留圖像相加并重構(gòu)當前幀內(nèi)編碼塊的圖像的單元。
22.一種視頻編碼器,包括配置為利用與當前運動塊對應的參考幀的區(qū)域的圖像、對該當前運動塊執(zhí)行時間預測以獲得第一預測殘差的單元;配置為利用與該當前運動塊對應的底層區(qū)域的圖像、對該當前運動塊執(zhí)行預測以獲得第二預測殘差的單元;配置為選擇所述第一和第二預測殘差之中的提供較高編碼效率的那個預測殘差的單元;和配置為對所選擇的預測殘差進行編碼的單元。
23.一種視頻解碼器,包括配置為提取用于每一運動塊的選定模式、運動數(shù)據(jù)、和紋理數(shù)據(jù)的單元;配置為根據(jù)該紋理數(shù)據(jù)生成該運動塊的殘留圖像的單元;配置為根據(jù)該選定模式、而在與該運動塊對應的先前重構(gòu)的參考幀的區(qū)域的圖像和先前重構(gòu)的底層圖像之中選擇一個圖像的單元;和配置為將所選擇的圖像與該殘留圖像相加并重構(gòu)該運動塊的圖像的單元。
全文摘要
提供了視頻壓縮方法,并更具體地,提供了有效消除視頻幀內(nèi)的冗余度的預測方法、以及利用該預測方法的視頻壓縮方法和設備。提供了一種用于基于多層結(jié)構(gòu)編碼視頻的方法,包括利用當前幀內(nèi)編碼塊的相鄰幀內(nèi)編碼塊的圖像,對該當前幀內(nèi)編碼塊執(zhí)行幀內(nèi)預測,以獲得預測殘差;利用與該當前幀內(nèi)編碼塊對應的底層區(qū)域的圖像,對該當前幀內(nèi)編碼塊執(zhí)行預測,以獲得預測殘差;選擇所述兩種預測殘差之中的提供較高編碼效率的預測殘差;和對所選擇的預測殘差進行編碼。
文檔編號H04N7/24GK101069429SQ200580041621
公開日2007年11月7日 申請日期2005年11月18日 優(yōu)先權(quán)日2004年12月3日
發(fā)明者韓宇鎮(zhèn), 車尚昌, 河昊振 申請人:三星電子株式會社