專利名稱:知曉對象的視頻編碼策略的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及知曉對象(obje ct-aware)的視頻編碼。
背景技術(shù):
在許多視頻編碼應用中,必須在限制比特率的情況下對視頻進行編碼,例如,50-400kbps對于傳送到移動設(shè)備而言是典型的。用低比特率來編碼視頻導致可視信息的丟失,并且因此,影響其主觀質(zhì)量或觀看體驗。在這種存在丟失的編碼條件下,通過減少在顯著或重要區(qū)域中的質(zhì)量損失可提升主觀質(zhì)量。在某些系統(tǒng)中,諸如圖I中所示的對象高亮系統(tǒng),檢測到感興趣的對象或區(qū)域,并且,通過預處理和/或使用知曉對象的編碼器來更好地保留重要的對象,其編碼后的質(zhì)量被提升。由于對于觀看者而言,能夠清晰地看到視頻中感興趣的對象(諸如,在足球視頻中的球或球員)是重要的,因此要這樣做。典型的知曉對象的編碼器能夠接收關(guān)于視頻中的各種對象或區(qū)域的信息并使用該信息以便更好地保留重要的對象,并且因此,提升用戶的觀看體驗。這種編碼器通常通過利用對象信息來工作,以便引導諸如資源分配和模式判決之類的編碼操作。存在多種能夠保留對象的方法,但是,針對給定的視頻,選擇一個方法可能不產(chǎn)生針對整個視頻的最佳對象保留。如此,存在對如下對象保留方法的需要該方法具有足夠的反映性(reflexible)以最佳地保留整個視頻。
發(fā)明內(nèi)容
提供了一種知曉對象的視頻編碼方法,該方法包括如下步驟接收具有多個幀的視頻序列;選擇至少兩幀;確定所選幀中的每一個中的至少一個感興趣的對象的全部區(qū)域;將全部區(qū)域與閾值區(qū)域相比較;將至少兩幀中每一個分類為低對象加權(quán)幀或高對象加權(quán)幀,該低對象加權(quán)幀是具有超過閾值區(qū)域的全部區(qū)域的幀,該高對象加權(quán)幀是具有未超過閾值區(qū)域的全部區(qū)域的幀;以及根據(jù)一種編碼模式來對每個低對象加權(quán)幀進行編碼,并且,根據(jù)不同的編碼模式來對每個高對象加權(quán)幀進行編碼。該方法還包括確定幀中哪些宏塊包含所述至少一個感興趣的對象;確定所述至少兩幀中的每一個的初始QP ;對所述低對象加權(quán)幀的初始QP應用偏移;以及響應于應用步驟,增加對包含在所述至少一個感興趣的對象中的宏塊的比特分配。另外的步驟可包括針對那些連續(xù)的高對象加權(quán)幀,從幀處的時間掩蔽效應量來確定(106)每幀的QP偏移貢獻(AQPMasking);將Λ QPfcking與從幀類型所獲得的QP偏移貢獻(AQPType)相組合(110);以及利用如下比特率來編碼連續(xù)的高對象加權(quán)幀(114),該比特率是通過利用與從幀類型所獲得的QP偏移貢獻(AQPType)相組合所算出的△ QPMasking來獲得;計算(102)連續(xù)的高對象加權(quán)幀的幀復雜度;基于連續(xù)的高對象加權(quán)幀的每個GOP的GOP邊界和GOP編碼圖樣來選擇(104)幀類型;以及基于幀類型來計算(106)每幀的QP偏移貢獻(AQPType),其中,所述從幀處的時間掩蔽效應量來確定(106)每中貞的QP偏移貢獻(AQPMasking)的步驟是利用Δ QPMasking (n) = a · CompIltlasking(n)來執(zhí)行的,其中,ComplMasking (η)包括被計算為高對象加權(quán)幀的預定大小的窗口中的當前幀的鄰近幀的均值的幀的時間掩蔽復雜度。該方法還包括如下步驟在所有高對象加權(quán)幀上計算(108)平均AQPilasking ;歸一化(110) Λ QPilasking ;以及計算(110)最終的每幀AQP ;利用所計算的最終的每幀AQP來計算(112)所分配的比特預算和速率控制。所述計算高對象加權(quán)幀的每幀的幀復雜度(102)的步驟可通過利用前向幀間預測來執(zhí)行。知曉對象的視頻編碼方法的另一實施例包括如下步驟接收具有多個幀的視頻序列;選擇至少兩幀;確定所選幀中的每一個中的至少一個感興趣的對象的全部區(qū)域;將全部區(qū)域與閾值區(qū)域相比較;將至少兩幀中每一個分類為低對象加權(quán)幀或高對象加權(quán)的幀;根據(jù)一種編碼模式來對每個低對象加權(quán)幀進行編碼,并且,根據(jù)不同的編碼模式來對每個高對象加權(quán)幀進行編碼;針對那些連續(xù)的高對象加權(quán)幀,從幀處的時間掩蔽效應量來確 定(106)每幀的QP偏移貢獻(AQPMasking);將AQPilasking與從幀類型所獲得的QP偏移貢獻(Δ QPlype)相組合(110);以及利用比特率來編碼(114)連續(xù)的高對象加權(quán)幀,該比特率通過利用與從幀類型所獲得的QP偏移貢獻(AQPType)相組合所算出的AQPfcking來獲得;確定幀中哪個宏塊包含所述至少一個感興趣的對象;確定所述至少兩幀中的每一個的初始QP ;以及針對所述低對象加權(quán)幀,將偏移應用到所述初始QP,使得包含在所述至少一個感興趣的對象中的宏塊的比特分配增加。該方法的其他實施例可包括如下步驟接收具有多個幀的視頻序列;選擇至少兩幀;確定所選幀中的每一個中的至少一個感興趣的對象的全部區(qū)域;將全部區(qū)域與閾值區(qū)域相比較;將至少兩幀中每一個分類為低對象加權(quán)幀或高對象加權(quán)幀;根據(jù)一種編碼模式來對每個低對象加權(quán)幀進行編碼,并且,根據(jù)不同的編碼模式來對每個高對象加權(quán)幀進行編碼;針對所述低對象加權(quán)幀的多于一個編碼模式,確定原始宏塊像素和編碼后的宏塊像素之間的絕對差之和(SAD);選擇在所述低對象加權(quán)幀的絕對差之和確定步驟中具有比至少另一個編碼模式的絕對差之和更低的絕對差之和的編碼模式;以及根據(jù)在選擇步驟中所選出的各自編碼模式來對所述低對象加權(quán)幀進行編碼。此處,這些實施例可包括在絕對差之和確定步驟中應用編碼器權(quán)重陣列,使得對象像素比非對象像素被指派更大的權(quán)重。本發(fā)明的其他實施例包括一種用于編碼視頻序列的編碼器,其中,該編碼器被適配為包括用于確定視頻幀中的感興趣的對象的區(qū)域的部件;用于設(shè)定模式選擇閾值區(qū)域的部件;用于比較對象區(qū)域和多個幀的閾值區(qū)域的部件;用于響應于比較部件來選擇編碼模式的部件,其中,選擇部件被適配為針對不同幀選擇不同的編碼模式;以及用于編碼的部件,其中,編碼部件被適配為用所述不同的編碼模式來對所述不同幀進行編碼。確定部件可確定組成所述感興趣的對象的像素數(shù)。所述選擇部件可針對具有超過所述閾值區(qū)域的像素數(shù)的區(qū)域的幀使用感知量化參數(shù)偏移確定,所述編碼部件用響應于所述感知量化參數(shù)偏移確定的編碼模式來對幀進行編碼。所述選擇部件能可替換地使用天真QP偏移確定,其中,所述選擇部件被適配為確定具有未超過閾值的像素數(shù)的區(qū)域的所述至少兩幀中的每一個的初始QP,針對所述至少兩幀將偏移應用到所述初始QP,以及響應于所述偏移以增加包含在所述至少一個感興趣的對象中的宏塊的比特分配,所述編碼部件用響應于所述偏移的編碼模式來對具有未超過閾值幀的像素數(shù)的區(qū)域的所述至少兩幀進行編碼。所述選擇部件還可使用天真QP偏移確定,其中,所述選擇部件被適配為確定具有未超過閾值的像素數(shù)的區(qū)域的所述至少兩幀中的每一個的初始QP,針對所述至少兩幀將偏移應用到所述初始QP,以及響應于所述偏移以增加包含在所述至少一個感興趣的對象中的宏塊的比特分配,所述編碼部件用響應于所述偏移的編碼模式來對具有未超過閾值幀的像素數(shù)的區(qū)域的所述至少兩幀進行編碼。
現(xiàn)將通過示例并參照附圖來描述本發(fā)明圖I是本發(fā)明中所使用的用于增強所構(gòu)造的數(shù)字視頻中的對象的可視性的系統(tǒng)的框圖;圖2示出了圖I的系統(tǒng)所提供的近似對象定位;圖3是根據(jù)本發(fā)明的對象高亮顯示的流程圖;圖4在(a)和(b)中示出了對象友好的宏塊(MB)的示例,并且,在(C)中示出了“不友好” MB的示例;圖5是本發(fā)明中所使用的利用基于全局優(yōu)化的R-QP模型的幀級比特分配中的感知幀級QP偏移的對整個視頻片段的編碼處理的示例性流程圖;以及圖6是本發(fā)明中所使用的能夠?qū)崿F(xiàn)比特分配的示例性標準視頻編碼器的框圖。
具體實施例方式本發(fā)明涉及通過混合方法來改進對象保留,該混合方法包括量化參數(shù)(QP)偏移,加權(quán)失真度量和感知量化(QP)偏移。本發(fā)明適用于各種類型的知曉對象的編碼器,并且,可涉及減小組成重要對象或區(qū)域的宏塊的QP或量化步長,并且,還可涉及減少組成不重要對象或區(qū)域的宏塊的QP或量化步長。在發(fā)明的實施例中,方法保留視頻中的重要對象。基于某些標準,編碼器例如可使用相關(guān)宏塊(MB)的QP偏移、加權(quán)失真度量和感知QP偏移(或其組合)。介紹了一種新型的加權(quán)失真度量,其允許對象息來影響編碼模式判決。圖I示出了適用于本發(fā)明的實施例的對象高亮顯示系統(tǒng)。具體地,根據(jù)本發(fā)明所構(gòu)造的對象增強系統(tǒng)可將所有組件布置在發(fā)送機10中,或者對象增強組件可在接收機20中。在可執(zhí)行對象高亮顯示的處理鏈中存在三個階段(I)預處理,在編碼(即,壓縮)階段之前,對象在發(fā)送機10中被增強;(2)編碼,通過對關(guān)于對象和其位置的信息的提煉,包括對象的感興趣的區(qū)域在發(fā)送機10中被給予特殊的處理;以及(3)后處理,通過利用通過比特流作為元數(shù)據(jù)從發(fā)送機10發(fā)送的關(guān)于對象和其位置的邊信息,在解碼后,對象在接收機20中被增強。根據(jù)本發(fā)明所構(gòu)造的對象增強系統(tǒng)可被布置以僅在以上所標識的階段中的一個中提供對象聞売顯不,或在以上所標識的階段中的兩個中提供對象聞売顯不,或在以上所標識的所有三個階段中提供對象高亮顯示。 用于增強數(shù)字圖片中的對象的可視性的圖I的系統(tǒng)包括用于提供包括感興趣的對象的輸入視頻的部件。包括將要增強其可視性的對象的數(shù)字圖片的來源可以是具有慣常構(gòu)造和操作的電視相機,并且,其由箭頭12所示。圖I的系統(tǒng)還包括用于存儲代表感興趣的對象的性質(zhì)和特征的信息(例如,對象模板)并響應于視頻輸入和代表對象的性質(zhì)和特征的信息而開發(fā)標識并定位對象的對象定位信息的部件。在圖I中標識為對象定位模塊14的這種部件包括用于逐幀地掃描輸入視頻以在具有類似于所存儲的代表感興趣的對象的性質(zhì)和特征的信息的性質(zhì)和特征的圖片中標識對象(即,對象是什么)并定位該對象(即,對象在哪里)的部件。對象定位模塊14可以是具有慣常構(gòu)造和操作的單元,其逐幀掃描輸入視頻的數(shù)字圖片并比較所掃描的輸入視頻的數(shù)字圖片的扇區(qū)和代表感興趣的對象的性質(zhì)和特征的所存儲的信息,以便當從對特定扇區(qū)的掃描所開發(fā)出的信息類似于代表對象的性質(zhì)和特點的所存儲的信息時,通過數(shù)字圖片的網(wǎng)格坐標來標識并定位感興趣的對象。一般而言,在標識和定位感興趣的對象時,對象定位模塊14實現(xiàn)以下方法中的一個或多個
對象追蹤-對象追蹤器的目標是定位視頻中的運動對象。通常,給定來自之前幀的運動對象的歷史,追蹤器估計當前幀中的對象參數(shù)(例如,位置,大小)。追蹤方式例如可基于模板匹配、光學流、卡爾曼濾波器、均值漂移分析、隱馬爾科夫模型和粒子濾波器。 對象檢測-對象檢測的目標是基于關(guān)于對象的現(xiàn)有知識來檢測圖像或視頻幀中的對象的存在和位置。對象檢測方法一般利用自上而下和自下而上方式的組合。在自上而下方式中,對象檢測方法是基于從對檢測到的對象的認知所導出的規(guī)則的。在自下而上方式中,對象檢測方法將對象與低級結(jié)構(gòu)特征或模式相關(guān)聯(lián),并且然后,通過搜索這些特征或模式來定位對象。 對象分割-在該方式中,圖像或視頻被分解為組成“對象”,其可包括語義實體或可視結(jié)構(gòu),諸如,色潰(color patch)。該分解一般基于對象的運動、顏色和紋理屬性。對象分割具有若干應用,其包括緊致視頻編碼、自動和半自動基于內(nèi)容的描述、影片后期制作和場景詮釋。具體地,分割通過提供對場景的基于對象的描述來簡化了對象定位問題。圖2示出了由對象定位模塊14所提供的近似對象定位。例如,用戶在對象所位于的區(qū)域周圍畫橢圓來近似定位該對象。最終,可提煉近似對象定位信息(即,橢圓的中心點、長軸和短軸參數(shù))。理想情況下,對象定位模塊14運行在全自動模式中。但是,在實踐中,可能需要某些手動幫助來校正系統(tǒng)所做出的錯誤,或者至少為系統(tǒng)定義要定位的重要的對象。增強非對象區(qū)域可導致觀看者被分散注意力并錯過真實的動作。為了避免或最小化該問題,如上所述,用戶可在對象周圍畫橢圓,并且,系統(tǒng)隨后從所指定的位置追蹤對象。如果在幀中成功定位了對象,則對象定位模塊14輸出對應的橢圓參數(shù)(即,中心點、長軸和短軸)。理想情況下,該邊界橢圓的輪廓將與對象的輪廓一致。但是,當參數(shù)可能僅是近似的并且結(jié)果橢圓并未緊密包含對象并且應用了對象增強時,可能出現(xiàn)兩個問題。首先,對象可能未被完全增強,因為橢圓并未包含整個對象。其次,非對象區(qū)域可能被增強。因為這兩種結(jié)果都是不希望的,因此,在這種情形下在增強之前提煉對象區(qū)域是有用的。以下更加詳細地考慮了對對象定位信息的提煉。圖I中的系統(tǒng)還包括用于響應于視頻輸入和從對象定位模塊14所接收的對象定位信息來開發(fā)包含感興趣的對象和對象所位于的區(qū)域的數(shù)字圖片部分的增強視頻的部件。在圖I中被標識為對象增強模塊16的這種部件可以是慣常構(gòu)造和操作的單元,其通過向該區(qū)域應用慣常的圖像處理操作來增強包含感興趣的對象的數(shù)字圖片的區(qū)域的可視性。逐幀從對象定位模塊14接收的對象定位信息包括感興趣的對象所位于的具有預定大小的區(qū)域的網(wǎng)格坐標。另外,如上所述,對象增強有助于降低在編碼階段期間的對象劣化,該編碼階段在增強階段之后,并且,以下描述了 該編碼階段。至此,圖I中的系統(tǒng)的操作對應于上述操作的預處理模式。當增強對象時,通過在感興趣的對象所位于的區(qū)域中應用圖像處理操作來提升對象的可視性??裳刂鴮ο筮吔?例如,邊緣銳化)、在對象內(nèi)部(例如,紋理增強)并甚至可能在對象外部(例如,對比增加、模糊對象區(qū)域的外部)來應用這些操作。例如,一種更加關(guān)注對象的方式是銳化對象內(nèi)的并沿著對象輪廓的邊緣。這使得對象中的細節(jié)更加可見,并且,還使得對象從背景中突出出來。另外,更加銳化的邊緣易于更好地幸免于編碼。另一種可能是例如通過迭代地應用平滑、銳化和對象提煉操作(并不必以該次序來進行)來放大對象。在圖3中以更加簡化的示圖使出的對象高亮顯示系統(tǒng)在輸入視頻305中檢測重要的對象310,通過合適的預處理315來執(zhí)行對象增強,并且,具有保留對象的知曉對象的編碼器320。該知曉對象的編碼器利用來自對象定位模塊的對象信息,以便在編碼處理期間更好地保留感興趣的對象。視頻幀的對象信息由“編碼器權(quán)重陣列”W(x,y)來表示,其為值序列,每個值針對幀中的每個像素(X,y) ο更重要的對象的組成像素具有更大的權(quán)重。通常,背景像素權(quán)重可被設(shè)置為O。為了更好地保留對象,可在知曉對象的視頻編碼器中使用若干方法。這些保留方法可以是天真QP偏移、加權(quán)失真度量和感知QP偏移。天真QP偏移方法通常涉及利用編碼器權(quán)重陣列,使得可以確定幀中的哪些宏塊(MB)包括感興趣的對象。取決于MB中的對象權(quán)重和對象像素數(shù),可以應用合適的偏移來減少MB的QP。這將更多比特分配給這些MB,其導致更好的感知質(zhì)量。加權(quán)失真度量涉及使得編碼器針對每個MB做出若干模式判決(諸如,內(nèi)/間/跳/直接編碼)和圖4中所示的MB分割方法(16X16、8X8、4X4等)。這些判決基于速率-失真(R-D)折衷,其中,速率對應于所分配的比特數(shù),而失真是對編碼保真度的度量。失真一般被計算為原始MB像素值和編碼后的MB像素值之間的絕對差之和(SAD)。為了更好地保留對象,該處理反之使用加權(quán)SAD,其中,對象像素處的差異比非對象像素被加權(quán)更高(即,與大于I的值相乘)。對象像素權(quán)重是從編碼器權(quán)重陣列獲得的。像素(X,y)的權(quán)重由W(x, y)+l所給出。通過在對象像素處強調(diào)失真,加權(quán)失真度量導致更好的對象保留,因為R-D優(yōu)化試圖選擇最小化整個MB失真的模式。感知QP偏移方法可被特征描述為感知幀級QP偏移方式。當將要保留的對象跨越許多MB時,感知QP偏移特別有用。本質(zhì)上,感知QP偏移在參考幀(I幀和P幀)中產(chǎn)生更好的質(zhì)量,并且隨后,產(chǎn)生更好的整體編碼效率。感知QP偏移的前提是以下關(guān)系QP1 < QPp < QPb.(I)其中,QPpQPp和QPb分別表示I幀、P幀和B幀的QP。速率控制與恒定幀QP和幀的最終QP的公式是所假定的恒定QP(即,對所有幀都是相同的)與該幀的特定QP偏移之和。在該情形中,每個幀類型的優(yōu)選QP偏移等同于AQP1 < Δ QPp < Δ QPb.(2)其中,Λ QP1、Λ QPp和Δ QPb分別表示I幀、P中貞和B中貞的QP偏移。幀級QP偏移計算 的另一重要因素是人類視覺系統(tǒng)(HVS)的時間或運動掩蔽效應?;旧?人眼隊高運動幀的質(zhì)量劣化比對低運動幀的質(zhì)量劣化更加不敏感。如此,由于其更高的時間掩蔽效應,與低運動幀相比,更小的QP應當被應用到高運動幀中,而相同的感知質(zhì)量水平仍可在編碼后的視頻中感知到。該方式試圖有效地從幀處的時間掩蔽效應量來計算每幀的QP偏移貢獻,并且然后,適當?shù)貙碜悦繋腝P偏移貢獻與來自幀類型的原始QP偏移貢獻相組合。結(jié)果的幀級QP偏移考慮幀類型和時間掩蔽效應二者,并且因此更加全面。該方式調(diào)整了離線視頻編碼中的整個視頻剪輯或序列的幀比特分配(FBA)。盡管如此,該方式一般還適用于在線實時視頻編碼,取決于所涉及的前看時間(look-ahead time),其具有各種程度的質(zhì)量提升。大量的實驗已經(jīng)表明,為了確保來自離線視頻編碼中的全局優(yōu)化FBA的顯著的可視質(zhì)量提升,將時間掩蔽效應考慮到每幀QP偏移中是比考慮幀類型因素更加必要和關(guān)鍵的。大多數(shù)用于在線或離線視頻編碼的速率控制機制僅在FBA中考慮幀類型因素,而根本不考慮來自HVS掩蔽效應的任何影響。因此,在離線編碼情形中,即便在平均峰值信噪比(PSNR)中所測量的目標編碼效率可經(jīng)由基于幀類型的每幀QP偏移在在線編碼上顯著提升,仍舊無法觀察到顯著的感知質(zhì)量提升。已經(jīng)發(fā)現(xiàn),由于對序列的所有幀的比特分配的全局優(yōu)化,與器在在線編碼中的情形相比,高運動幀被用更多的比特來分配和編碼。在在線編碼情形中,比特首先被分配到每個GOP (圖片群組),并且,為了確保恒定的比特率(CBR),GOP所分配的比特僅與所涉及的幀數(shù)(即,GOP大小)成正比,而不受其不同的編碼復雜度(例如,高運動或低運動等)影響。因此,在離線編碼情形中,給定更多比特,與其在在線編碼中相比,高運動幀被用更高的PSNR編碼。在另一方面,由于比特總量是相同的,因此,低運動幀被用更低的PSNR編碼。在該情形中,PSNR變化確實被極大地減少了。但是,更加恒定的PSNR并不意味著更加恒定的感知質(zhì)量。由于HVS時間掩蔽效應,高運動幀PSNR增益比低運動幀PSNR下降更加難感知到。因此,整體的感知質(zhì)量通常比在線編碼差。如此,該方式認定在整個剪輯的全局FBA中考慮時間掩蔽效應對于感知質(zhì)量增強而言是必要和關(guān)鍵的。值得注意的是涉及考慮時間掩蔽的FBA的特定方式通常具有潛在的速率模型,該速率模型或者是基于分類的,或者是基于幀復雜度的,其并不如針對速率控制所廣泛采用的R-QP建模方式那樣準確和通用。另外,廣泛采用的考慮時間掩蔽的方式并不是經(jīng)由FBA中的每幀QP偏移的,并且因此,不能被應用于基于R-QP模型的速率控制解決方案。因此,感知幀級QP偏移方式實際上是由于時間掩蔽所帶來的QP偏移部分(由△QPMasking表示)與由于幀類型所帶來的部分(由AQPtw6表示)的適當?shù)慕M合。該機制對于在實時單通編碼上呈現(xiàn)在線多通編碼的顯著感知質(zhì)量提升是關(guān)鍵的。帶有幀復雜度度量的時間掩蔽效應被定義如下Cmpl = Rrnv + MAD{lnter _ pred _ residue_MBs)(3)Cmpl = max (0. 1,Comp I-2)(4)
其中,Cmpl表示幀的復雜度。[表示幀的每個MB的平均MV編碼比特。 萬表示幀中的所有MB上的預測殘余的平均絕對差均值(MAD)。因此,它們的和確實表示當前幀的運動強度,其還等同表示編碼復雜度和幀間變化。(3)中的簡單求和形式經(jīng)由大量實驗從好的試探法中導出。在編碼器中,[、M4Z)和由此的Cmpl都是基于原始的輸入幀在對幀進行編碼之前計算的,并且, Ζ 萬僅占有Luma分量。該計算在簡化的編碼處理之后,其包括僅檢查16X16間和16X16內(nèi)模式,并且,僅搜索整數(shù)運動向量。從(3)所計算的幀的復雜度經(jīng)由⑷被進一步限制。當復雜度低于O. I時,由于內(nèi)在的圖像噪聲,預測殘余將被看作是存在的,并且因此,可將最低復雜度設(shè)置為O. 1,其還用作防止可能的“除以零”錯誤。另外,即便沒有運動向量差,(3)中的最小平均運動向量比特I仍舊是2。因此,該部分總被移除。注意,這里,針對每幀,僅經(jīng)由前向幀間預測來計算幀復雜度,因為幀顯示或觀看次序遵循前向方向。即,針對任意幀,不管其幀類型是什么(即,I幀、P幀或B幀),將僅利 用(3)中所計算的幀復雜度來測量器運動強度以及由此的運動掩蔽效應。如可從以下方程(10)中看出的,最終的QP偏移實際上是由于時間掩蔽(由
△QPMasking表示)所導致的QP偏移部分和由于幀類型(由AQPType表示)所導致的部分的適當?shù)慕M合。該機制對于在實時單通編碼上呈現(xiàn)離線多通編碼的顯著感知質(zhì)量提升是關(guān)鍵的。該機制涉及以下計算 針對巾貞 η,計算 Δ QPltlasking
IΤΙ+ΚCompluasking (η) = ——· X Compl(i).(5)
ΖΛ + 11-,卜K 如果幀η是場景變更幀,不進行(5),而是Com/>/WajW 4 (η) = —i— miniCompl^.Complin))+ ^CompliiU (6)
Λ + I ^iwj+1JΔ QPMasking (n) = a · ComplMasking (n)(7)^QPuasung =去 ΣΔυ·)(8)
* 1=1AQPM0skifts (tt) = min{AQPMasking Jtax, max(AQPwoihng ,^QPMasking (n)—厶βΡ細))⑶此處,K = I. 2K+1 = 3是窗口大小。Complmax = 40. a = O. 5。N表示視頻剪輯中的總巾貞數(shù)。A QPlfesking. Iimx — 8,A QPMasking. min — 針對巾貞n,計算Λ QPlype 如果是I幀
權(quán)利要求
1.一種方法,包括如下步驟 從具有多個幀的視頻序列選擇至少兩幀; 確定所選幀中的每一個中的至少一個感興趣的對象的全部區(qū)域; 將每個全部區(qū)域與閾值區(qū)域相比較; 將具有超過所述閾值區(qū)域的全部區(qū)域的每個所選幀分類為低對象加權(quán)幀; 將具有未超過所述閾值區(qū)域的全部區(qū)域的每個所選幀分類為高對象加權(quán)幀;以及根據(jù)第一編碼模式來對每個低對象加權(quán)幀進行編碼,并且,根據(jù)不同的編碼模式來對每個高對象加權(quán)幀進行編碼。
2.根據(jù)權(quán)利要求I所述的方法,包括 確定幀中哪些宏塊包含所述至少一個感興趣的對象; 確定所述至少兩幀中的每一個的初始QP ; 向所述低對象加權(quán)幀的初始QP應用偏移;以及 響應于應用步驟,增加對包含在所述至少一個感興趣的對象中的宏塊的比特分配。
3.根據(jù)權(quán)利要求I所述的方法,包括 針對那些連續(xù)的高對象加權(quán)幀,從幀處的時間掩蔽效應量來確定(106)每幀的QP偏移貝獻(Δ QPllasking); 將AQPlasking與從幀類型所獲得的QP偏移貢獻(AQPthJ相組合(Iio);以及利用如下比特率來編碼(114)連續(xù)的高對象加權(quán)幀,該比特率是通過利用與從幀類型所獲得的QP偏移貢獻(AQPType)相組合所算出的AQPilasking來獲得。
4.根據(jù)權(quán)利要求3所述的方法,還包括如下步驟 計算(102)連續(xù)的高對象加權(quán)幀的幀復雜度; 基于連續(xù)的高對象加權(quán)幀的每個GOP的GOP邊界和GOP編碼圖樣來選擇(104)幀類型; 計算(106)基于幀類型的每幀QP偏移貢獻(Λ QPlype)。
5.根據(jù)權(quán)利要求4所述的方法,還包括如下步驟 在所有高對象加權(quán)幀上計算(108)平均AQPMasking; 歸一化(110) AQPMasking;以及 計算(110)最終的每幀AQP。
6.根據(jù)權(quán)利要求5所述的方法,還包括 利用所計算的最終的每幀AQP來計算(112)所分配的比特預算和速率控制。
7.根據(jù)權(quán)利要求3所述的方法,其中,所述從幀處的時間掩蔽效應量來確定(106)每幀的QP偏移貢獻(AQPilasking)的步驟是利用Λ QPMasking (n) = a · ComplMasking (η)來執(zhí)行的,其中,ComplMasking (η)包括被計算為高對象加權(quán)幀的預定大小的窗口中的當前幀的鄰近幀的均值的幀的時間掩蔽復雜度。
8.根據(jù)權(quán)利要求4所述的方法,其中,所述計算(102)高對象加權(quán)幀的每幀的幀復雜度的步驟是通過利用前向幀間預測來執(zhí)行的。
9.根據(jù)權(quán)利要求3所述的方法,包括 確定幀中哪些宏塊包含所述至少一個感興趣的對象; 確定所述至少兩幀中的每一個的初始QP ;向所述低對象加權(quán)幀的初始QP應用偏移,使得對包含在所述至少一個感興趣的對象中的宏塊的比特分配增加。
10.根據(jù)權(quán)利要求4所述的方法,包括 確定幀中哪些宏塊包含所述至少一個感興趣的對象; 確定所述至少兩幀中的每一個的初始QP ; 向所述低對象加權(quán)幀的初始QP應用偏移,使得對包含在所述至少一個感興趣的對象中的宏塊的比特分配增加。
11.根據(jù)權(quán)利要求I所述的方法,包括 針對所述低對象加權(quán)幀的多于一個編碼模式,確定原始宏塊像素和編碼后的宏塊像素之間的絕對差之和(SAD); 選擇在所述低對象加權(quán)幀的絕對差之和確定步驟中具有比至少另一個編碼模式的絕對差之和更低的絕對差之和的編碼模式; 根據(jù)在選擇步驟中所選出的各個編碼模式來對所述低對象加權(quán)幀進行編碼。
12.根據(jù)權(quán)利要求11所述的方法,包括 在絕對差之和確定步驟中應用編碼器權(quán)重陣列,使得對象像素比非對象像素被指派更大的權(quán)重。
13.一種用于編碼視頻序列的編碼器,所述編碼器包括 用于確定視頻幀中的感興趣的對象的區(qū)域的裝置; 用于設(shè)定模式選擇閾值區(qū)域的裝置; 用于比較多個幀的對象區(qū)域和閾值區(qū)域的裝置; 用于響應于比較裝置來選擇編碼模式的裝置,其中,選擇裝置被適配為針對不同幀選擇不同的編碼模式;以及 用于編碼的裝置,其中,該編碼裝置被適配為用所述不同的編碼模式來對所述不同幀進行編碼。
14.根據(jù)權(quán)利要求13所述的編碼器,其中 所述確定裝置確定組成所述感興趣的對象的像素數(shù); 所述選擇裝置針對具有超過所述閾值區(qū)域的像素數(shù)的區(qū)域的幀使用感知量化參數(shù)偏移確定;并且 所述編碼裝置用響應于所述感知量化參數(shù)偏移的編碼模式來對幀進行編碼。
15.根據(jù)權(quán)利要求14所述的編碼器,其中 所述確定裝置確定組成所述感興趣的對象的像素數(shù); 所述選擇裝置使用天真QP偏移確定,其中,所述選擇裝置被適配為確定具有未超過閾值的像素數(shù)的區(qū)域的至少兩幀中的每一個的初始QP,對所述至少兩幀的初始QP應用偏移,以及響應于所述偏移而增加對包含在所述至少一個感興趣的對象中的宏塊的比特分配;并且 所述編碼裝置用響應于所述偏移的編碼模式來對具有未超過閾值幀的像素數(shù)的區(qū)域的所述至少兩幀進行編碼。
16.根據(jù)權(quán)利要求13所述的編碼器,其中 所述確定裝置確定組成所述感興趣的對象的像素數(shù);所述選擇裝置使用天真QP偏移確定,其中,所述選擇裝置被適配為確定具有未超過閾值的像素數(shù)的區(qū)域的至少兩幀中的每一個的初始QP,對所述至少兩幀的初始QP應用偏移,以及響應于所述偏移而增加對包含在所述至少一個感興趣的對象中的宏塊的比特分配;并且 所述編碼裝置用響應于所述偏移的編碼模式來對具有未超過閾值幀的像素數(shù)的區(qū)域的所述至少兩幀進行編碼。
全文摘要
提供了一種知曉對象的視頻編碼方法,該方法包括如下步驟接收具有多個幀的視頻序列;選擇至少兩幀;確定所選幀中的每一個中的至少一個感興趣的對象的全部區(qū)域;將全部區(qū)域與閾值區(qū)域相比較;將至少兩幀中每一個分類為低對象加權(quán)幀或高對象加權(quán)幀,該低對象加權(quán)幀是具有超過閾值區(qū)域的全部區(qū)域的幀,該高對象加權(quán)幀是具有未超過閾值區(qū)域的全部區(qū)域的幀;以及根據(jù)一種編碼模式來對每個低對象加權(quán)幀進行編碼,并且,根據(jù)不同的編碼模式來對每個高對象加權(quán)幀進行編碼。
文檔編號G06T7/00GK102656886SQ201080057028
公開日2012年9月5日 申請日期2010年12月8日 優(yōu)先權(quán)日2009年12月14日
發(fā)明者張冬青, 斯塔拉姆·巴加瓦蒂, 杰瑟斯·巴肯斯-帕勞, 瓊·利亞奇 申請人:湯姆遜許可證公司