本發(fā)明大體上涉及視頻處理領(lǐng)域。更準(zhǔn)確地說,本發(fā)明涉及用于生成視頻序列關(guān)于參考幀的運(yùn)動場(motion field)的方法和設(shè)備。
背景技術(shù):
本節(jié)意在向讀者介紹技術(shù)的各種方面,其可能與下面描述的和/或要求保護(hù)的本發(fā)明的各種方面有關(guān)。相信該討論有助于向讀者提供背景信息以便更好地理解本發(fā)明的各種方面。因此,應(yīng)當(dāng)理解的是,要從該角度來閱讀這些陳述,而不是作為對現(xiàn)有技術(shù)的承認(rèn)。
在視頻編輯應(yīng)用的領(lǐng)域中,已知對由操作者在視頻序列中選擇的參考幀進(jìn)行編輯、并將信息從參考幀傳播到后續(xù)幀的方法。對參考幀的選擇是手動的并且以某種方式是隨機(jī)的。因此,由操作者對用于修改和編輯的參考幀進(jìn)行的自動且受控的選擇將是期望的。
此外,對信息的傳播需要參考幀與序列的其他幀之間的運(yùn)動對應(yīng)性。
生成運(yùn)動場的第一種方法在于進(jìn)行所考慮的幀(即,參考幀與當(dāng)前幀)之間的直接匹配。然而,在對遠(yuǎn)幀(distant frames)進(jìn)行尋址時(shí),運(yùn)動范圍通常很大,并且估計(jì)可能對(例如,周期性圖像圖案內(nèi)的)模糊對應(yīng)性非常敏感。
第二種方法在于通過基本光流場的順序級聯(lián)獲得運(yùn)動估計(jì)。這些基本光流場可以在連續(xù)幀之間計(jì)算,并且是相對精確的。然而,該策略對運(yùn)動誤差非常敏感,因?yàn)橐粋€有誤差的運(yùn)動矢量就足以使級聯(lián)的運(yùn)動矢量有誤。其特別在級聯(lián)涉及大量基本矢量時(shí)變得非常關(guān)鍵。此外,這種先進(jìn)的密集運(yùn)動跟蹤器以逐幀的方式順序地處理序列,并且通過設(shè)計(jì)將視頻中消失(遮擋(occlusion))且再現(xiàn)的特征與不同的跟蹤相關(guān)聯(lián),因此丟失長期運(yùn)動信號的重要信息。因此,沿著序列或有誤差的運(yùn)動對應(yīng)性的遮擋產(chǎn)生了在遠(yuǎn)幀之間的傳遞質(zhì)量的問題。換句話說,良好跟蹤的長度取決于場景內(nèi)容。
在“Towards Longer Long-Range Motion Trajectories”(2012年英國機(jī)器視覺會議)中,Rubinstein等人公開了一種算法,其使關(guān)于不同的起始幀估計(jì)的、被稱為“跟蹤片段(tracklets)”的短軌跡重新相互關(guān)聯(lián),并將它們鏈接以形成長程運(yùn)動表現(xiàn)。為此,Rubinstein等人傾向于投入更長的長程運(yùn)動軌跡。如果它們看起來像是連接跟蹤片段,特別是由遮擋所切割的跟蹤片段,則該方法保持受制于稀疏的運(yùn)動軌跡。
國際專利申請WO2013107833公開了一種在參考幀與視頻序列的其他幀的每一個之間生成長期運(yùn)動場的方法。參考幀例如是視頻序列的第一幀。該方法在于參考幀與當(dāng)前幀之間的順序運(yùn)動估計(jì),該當(dāng)前幀是鄰近于參考幀的相繼的幀,然后下一個,依此類推。該方法依賴于假設(shè)被預(yù)計(jì)算的各個輸入的基本運(yùn)動場。這些運(yùn)動場以良好的質(zhì)量將序列中的多對幀鏈接,因?yàn)閹g運(yùn)動范圍被假設(shè)為與運(yùn)動估計(jì)器性能相兼容。當(dāng)前幀與參考幀之間的當(dāng)前運(yùn)動場估計(jì)依賴于(參考幀與在當(dāng)前幀之前的幀之間的)先前估計(jì)的運(yùn)動場以及將當(dāng)前幀鏈接到先前處理的幀的基本運(yùn)動場:通過將基本運(yùn)動場與先前估計(jì)的運(yùn)動場級聯(lián)而建立各種運(yùn)動候選。然后,將這些各種候選場合并以形成當(dāng)前輸出運(yùn)動場。該方法是良好的順序選擇,但是無法避免在一些像素中可能的漂移。那么,一旦誤差被引入運(yùn)動場中,則它可能在順序處理期間被傳遞到接下來的場。
可以通過對一對遠(yuǎn)幀之間的密集運(yùn)動估計(jì)應(yīng)用組合多步積分以及統(tǒng)計(jì)選擇來解決該限制,在Conze等人在標(biāo)題為“dense motion estimation between distant frames:combinatorial multi-step integration and statistical selection”的文章(發(fā)表于2013年IEEE圖像處理國際會議)中提出的方法中已經(jīng)描述了該組合多步積分以及統(tǒng)計(jì)選擇。該手段的目標(biāo)是考慮由所考慮的幀之間的多個多步基本光流矢量的組合而組成的大集合。每個組合給出對應(yīng)的運(yùn)動候選。通過統(tǒng)計(jì)選擇對所有這些候選的空間冗余的研究相比于用于位移場選擇任務(wù)的經(jīng)典光流假設(shè)提供了更加魯棒的指示。另外,在積分期間僅考慮多步基本光流矢量的所有可能的組合中的隨機(jī)選擇的子集。應(yīng)用于多對幀,該組合積分允許獲得時(shí)間上不高度相關(guān)的作為結(jié)果的位移場。
然而,基于流融合的方法需要輸入的一組基本運(yùn)動場來建立各種運(yùn)動場候選,并需要優(yōu)化函數(shù)來選擇可能非常復(fù)雜且計(jì)算量大的最佳候選者。
因此,需要兩個幀之間的運(yùn)動估計(jì)的方法,其將得益于經(jīng)典運(yùn)動估計(jì)器具有較高的誤差率的長期運(yùn)動估計(jì)的順序處理的簡單性以及組合多步流融合的精確性。
換句話說,對視頻編輯應(yīng)用的高度需要的功能是能夠確定沿著序列的一組參考幀,例如以便跟蹤由操作者定義的區(qū),或者傳遞由該操作者最初分配給該區(qū)的信息。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對一種處理視頻序列的方法,其中,使用分別通過視頻中的另一幀或另一幀中的區(qū)域?qū)σ粋€幀或一個區(qū)域的表現(xiàn)的質(zhì)量進(jìn)行評價(jià)的質(zhì)量度量,來選擇第一參考幀或者將新的參考幀引入非常長期的密集運(yùn)動估計(jì)中。
在第一方面,本發(fā)明針對一種由處理器進(jìn)行的用于生成視頻序列關(guān)于參考幀的運(yùn)動場的方法,其中,對視頻序列的每個當(dāng)前幀,所述方法包括確定當(dāng)前幀與參考幀之間的運(yùn)動場,以及代表所確定的運(yùn)動場的質(zhì)量的質(zhì)量度量,所述質(zhì)量度量得自所確定的運(yùn)動場。在所述質(zhì)量度量在質(zhì)量閾值之下的情況下,所述方法還包括在先前的當(dāng)前幀的群中選擇新的參考幀以使新的參考幀與參考幀之間的先前生成的運(yùn)動場的質(zhì)量度量在質(zhì)量閾值之上,以及通過確定當(dāng)前幀與新的參考幀之間的運(yùn)動場,并且將當(dāng)前幀與新的參考幀之間的所確定的運(yùn)動場與新的參考幀與參考幀之間的先前生成的運(yùn)動場級聯(lián),來迭代對當(dāng)前幀與參考幀之間的運(yùn)動場的確定。
有利地,基于質(zhì)量度量對新的參考幀的這種插入,通過將所有生成的多參考位移矢量中的具有良好質(zhì)量的位移矢量組合,避免運(yùn)動漂移并增強(qiáng)單個參考幀的估計(jì)事宜。此外,不像多步流融合,該方法與確定運(yùn)動場的任何方法相兼容,尤其是針對短期位移,并且無需設(shè)置的預(yù)計(jì)算的運(yùn)動場。有利地,僅確定當(dāng)前幀與參考幀或新的參考幀之間的運(yùn)動場。從鄰近參考幀的幀開始,對屬于視頻序列的連續(xù)當(dāng)前幀順序地迭代該方法。
根據(jù)第一變型例,不一致性值是參考幀中的第一像素與參考幀中的與逆運(yùn)動矢量的端點(diǎn)對應(yīng)的點(diǎn)之間的距離,逆運(yùn)動矢量起始于源自第一像素的運(yùn)動矢量進(jìn)入當(dāng)前幀的端點(diǎn)。有利地,質(zhì)量度量是參考幀的一組像素的不一致性值的平均值的函數(shù)。
根據(jù)第二變型例,在參考幀中的第一像素與參考幀中的與逆運(yùn)動矢量的端點(diǎn)對應(yīng)的點(diǎn)之間的距離在閾值之上的情況下,設(shè)置二進(jìn)制的不一致性值(設(shè)置為1),逆運(yùn)動矢量起始于源自第一像素的運(yùn)動矢量進(jìn)入當(dāng)前幀的端點(diǎn)。在所述距離在閾值之下的情況下,重置所述二進(jìn)制的不一致性值(設(shè)置為1)。有利地,質(zhì)量度量是參考幀的一組像素中其二進(jìn)制不一致性值被重置(設(shè)置為0)的像素的比例;或者換句話說,質(zhì)量度量與“一致的像素”的數(shù)量成正比。
根據(jù)第三變型例,運(yùn)動補(bǔ)償絕對差是源自參考幀中的第一像素的運(yùn)動矢量進(jìn)入當(dāng)前幀的端點(diǎn)的色彩或亮度分別與參考幀中的第一像素的色彩或亮度之間的絕對差。有利地,質(zhì)量度量是參考幀的一組像素的運(yùn)動補(bǔ)償絕對差的平均值的函數(shù)。
根據(jù)第四變型例,質(zhì)量度量包括基于參考幀的一組像素的運(yùn)動補(bǔ)償絕對差的平均值的峰值信噪比。
根據(jù)第五變型例,質(zhì)量度量包括不一致性值的函數(shù)與運(yùn)動補(bǔ)償絕對差的函數(shù)的加權(quán)和。有利地,質(zhì)量度量是對參考幀的一組像素所計(jì)算的加權(quán)和的平均值的函數(shù)。
根據(jù)進(jìn)一步的有利特性,用于確定質(zhì)量度量的該組像素被包括在參考幀的感興趣的區(qū)域中。
根據(jù)進(jìn)一步的有利特性,在先前的當(dāng)前幀的群中選擇新的參考幀包括選擇最接近當(dāng)前幀的先前的當(dāng)前幀。
根據(jù)另一有利特性,對于用戶選擇的第一幀的區(qū)域,所述方法還包括確定包括與參考幀的用戶選擇區(qū)域相對應(yīng)的當(dāng)前幀的區(qū)域中的多個像素的尺寸度量;以及在所述質(zhì)量度量高于質(zhì)量閾值并且所述尺寸度量高于尺寸閾值的情況下,選擇新的參考幀作為當(dāng)前幀并將尺寸閾值設(shè)置為所確定的尺寸度量,并且使用所述新的參考幀來迭代對當(dāng)前幀與參考幀之間的運(yùn)動場的確定。該尺寸度量用作在質(zhì)量度量之上的用戶選擇區(qū)域的分辨率度量。
有利地,所述方法從對第一幀(對應(yīng)于參考幀)的用戶初始選擇開始,序列中的可能的更精細(xì)的表現(xiàn)通過第一參考幀(對應(yīng)于新的參考幀)自動確定,并響應(yīng)于質(zhì)量表現(xiàn)度量。有利地,僅對于來迭代所述方法。
根據(jù)進(jìn)一步的有利特性,尺寸閾值被初始化為所述第一幀(對應(yīng)于參考幀)的所述用戶選擇區(qū)域中的多個像素。
根據(jù)進(jìn)一步的有利特性,確定代表第一幀與當(dāng)前幀之間的所確定的運(yùn)動場的質(zhì)量的質(zhì)量度量還包括確定在當(dāng)前幀中可見的第一幀的所述用戶選擇區(qū)域的多個像素。
在第二方面,本發(fā)明針對一種計(jì)算機(jī)可讀存儲介質(zhì),其存儲計(jì)算機(jī)可執(zhí)行以進(jìn)行所公開的方法的程序指令。
在第三方面,本發(fā)明針對一種設(shè)備,包括至少一個處理器以及耦合到所述至少一個處理器的存儲器,其中,所述存儲器存儲程序指令,其中,所述程序指令由所述至少一個處理器可執(zhí)行以進(jìn)行所公開的方法。
針對該方法所描述的任何特性或變型例與意在處理所公開的方法的設(shè)備、以及與存儲程序指令的計(jì)算機(jī)可讀存儲介質(zhì)相兼容。
附圖說明
現(xiàn)在將參照附圖,通過非限制的示例來描述本發(fā)明的優(yōu)選特征,附圖中:
圖1圖示了根據(jù)第一優(yōu)選實(shí)施例的方法的步驟;
圖2圖示了根據(jù)質(zhì)量度量的變型例的不一致性;
圖3圖示了根據(jù)質(zhì)量度量的變型例的遮擋檢測;
圖4圖示了根據(jù)第二優(yōu)選實(shí)施例的方法的步驟;以及
圖5圖示了根據(jù)本發(fā)明的特定實(shí)施例的設(shè)備。
具體實(shí)施方式
本發(fā)明的突出的思想是考慮質(zhì)量測量,該質(zhì)量測量分別通過視頻中的另一幀或另一幀中的區(qū)域?qū)σ粋€幀或一個區(qū)域的表現(xiàn)的質(zhì)量進(jìn)行評價(jià)。在第一優(yōu)選實(shí)施例中,使用這樣的質(zhì)量測量來在視頻序列中將新的參考幀引入非常長期的密集運(yùn)動估計(jì)中。代替僅依賴于一個單個參考幀,其背后的基本思想是每次運(yùn)動估計(jì)處理失敗時(shí)沿著序列插入新的參考幀,并且然后關(guān)于這些新的參考幀中的每一個應(yīng)用運(yùn)動估計(jì)器。其實(shí),新的參考幀取代用于圖像處理算法(諸如運(yùn)動場估計(jì))的先前的參考幀。有利地,基于質(zhì)量度量的對新的參考幀的這種插入通過將所有生成的多參考位移矢量中的具有良好質(zhì)量的位移矢量進(jìn)行組合來避免運(yùn)動漂移并且增強(qiáng)單個參考幀的估計(jì)事宜(estimation issue)。在第二優(yōu)選實(shí)施例中,使用這樣的質(zhì)量測量來選擇視頻序列中的第一參考幀,其中由用戶選擇的幀中的目標(biāo)區(qū)被更好地表現(xiàn)。
應(yīng)當(dāng)注意的是,“參考幀”術(shù)語是模糊的。在用戶交互的觀點(diǎn)中的參考幀與被認(rèn)為是算法工具的參考幀應(yīng)當(dāng)是分離的。在例如視頻編輯的背景下,用戶將在一個單個參考幀中插入紋理/徽標(biāo)(logo),并運(yùn)行下文中描述的多參考幀算法。根據(jù)本發(fā)明插入的新的參考幀是進(jìn)行更好的運(yùn)動估計(jì)而無需任何用戶交互的算法方式。為此,在第二實(shí)施例中,用戶所選擇的幀被稱為第一幀,即使最初用作對第一參考幀的搜索中的參考幀。
圖1圖示了根據(jù)第一優(yōu)選實(shí)施例的方法的步驟。在該實(shí)施例中,我們假設(shè)序列的參考幀與當(dāng)前幀之間的運(yùn)動估計(jì)被順序地處理:從參考幀之后的第一幀開始,然后逐步地遠(yuǎn)離它,從當(dāng)前幀至當(dāng)前幀。簡單地說,質(zhì)量度量針對每個當(dāng)前幀評價(jià)當(dāng)前幀與參考幀之間的對應(yīng)性的質(zhì)量。當(dāng)質(zhì)量達(dá)到質(zhì)量閾值時(shí),在先前處理的當(dāng)前幀中選擇新的參考幀(例如,前一個當(dāng)前幀)。從現(xiàn)在起,關(guān)于該新的參考幀來執(zhí)行和評估運(yùn)動估計(jì)。在處理接下來的當(dāng)前幀時(shí),可以沿著序列引入其他新的參考幀。最終,通過將當(dāng)前幀的運(yùn)動矢量與直到到達(dá)第一參考幀的各對參考幀之間計(jì)算出的連續(xù)運(yùn)動矢量級聯(lián)來獲得當(dāng)前幀關(guān)于第一參考幀的運(yùn)動矢量。在優(yōu)選的變型例中,以間隔[0,1]來歸一化并定義質(zhì)量度量,其中最佳質(zhì)量對應(yīng)于1。根據(jù)該約定,在質(zhì)量度量在質(zhì)量閾值之上時(shí)達(dá)到質(zhì)量標(biāo)準(zhǔn)。
現(xiàn)在描述視頻序列的當(dāng)前幀的處理方法的迭代。當(dāng)前幀被初始化為參考幀的兩個相鄰幀之一(如果參考幀既不是第一個也不是最后一個),然后下一個當(dāng)前幀是當(dāng)前幀的相鄰幀。
在第一步驟10中,確定當(dāng)前幀與參考幀之間的運(yùn)動場。對于包括參考幀和當(dāng)前幀的每對幀以及對于當(dāng)前幀的每個像素,運(yùn)動場包括參考幀中的對應(yīng)點(diǎn)(被稱為運(yùn)動矢量端點(diǎn))。這種對應(yīng)由當(dāng)前幀的第一像素與參考幀中的對應(yīng)點(diǎn)之間的運(yùn)動矢量來表現(xiàn)。在該點(diǎn)在攝像機(jī)視場之外或被遮擋的特定情況下,這種對應(yīng)點(diǎn)不存在。
在第二步驟11中,對于包括參考幀和當(dāng)前幀的一對幀,評價(jià)代表所確定的運(yùn)動場的質(zhì)量的質(zhì)量度量,并將其與運(yùn)動質(zhì)量閾值相比較。使用圖2根據(jù)不同變型例來評價(jià)質(zhì)量度量。
在第一變型例中,質(zhì)量度量是參考幀的一組像素的不一致值的平均值的函數(shù)。不一致值是參考幀21中的第一像素XA與對應(yīng)于逆運(yùn)動矢量23的端點(diǎn)的參考幀21中的點(diǎn)22之間的距離20,逆運(yùn)動矢量23是始于源自第一像素XA的運(yùn)動矢量25進(jìn)入當(dāng)前幀24的端點(diǎn)XB。其實(shí),質(zhì)量測量依賴于參考幀與當(dāng)前幀之間估計(jì)的向前和向后運(yùn)動場二者。向前23(相應(yīng)地,向后25)運(yùn)動場例如是指將參考幀21(相應(yīng)地,當(dāng)前幀24)的像素鏈接到當(dāng)前幀24(相應(yīng)地,參考幀21)的運(yùn)動場。這兩個運(yùn)動場(一般被稱為直接運(yùn)動場和逆運(yùn)動場)的一致性是它們的內(nèi)在質(zhì)量的良好指標(biāo)。用下式給出兩個運(yùn)動場之間的不一致值:
其中:
在該式中,是像素的2D位置,而與當(dāng)前幀中的運(yùn)動矢量的端點(diǎn)相對應(yīng)。在細(xì)化時(shí),由于所估計(jì)的運(yùn)動通常具有子像素分辨率,所以該后者位置不與像素相對應(yīng)。因此,經(jīng)由來自2D表現(xiàn)中的四個相鄰像素26所附的矢量的雙線性插值來估計(jì)
在第二變型例中,對不一致值進(jìn)行二值化。參考幀21中的第一像素XA與對應(yīng)于逆運(yùn)動矢量23的端點(diǎn)的參考幀21中的點(diǎn)22之間的距離在不一致閾值之上的情況下,設(shè)置二進(jìn)制的不一致值(例如為值1),逆運(yùn)動矢量23始于源自第一像素XA的運(yùn)動矢量25進(jìn)入當(dāng)前幀24的端點(diǎn)XB。在該距離在不一致閾值之下的情況下,重置二進(jìn)制的不一致性值(例如設(shè)置為0)。質(zhì)量度量包括二進(jìn)制的不一致值被重置的參考幀21的一組像素中的多個歸一化的像素。
在第三變型例中,使用代表參考幀21的第一像素XA可以被當(dāng)前幀中的匹配點(diǎn)XB多么精確地重構(gòu)的匹配成本(matching cost)來估計(jì)質(zhì)量度量。在源自參考幀21中的第一像素XA的運(yùn)動矢量25的進(jìn)入當(dāng)前幀24的端點(diǎn)XB與參考幀21中的第一像素XA之間計(jì)算運(yùn)動補(bǔ)償絕對差。該差例如是指RGB色彩方案中的像素的亮度值的差。然而,該變型例與代表如上詳述的視頻中的像素的任何值相兼容。在該變型例中,質(zhì)量度量是參考幀的一組像素的運(yùn)動補(bǔ)償絕對差的平均值的函數(shù)。經(jīng)典的測量是可以例如用下式定義的匹配成本:
在這種情況下,參考幀中的像素xA的匹配成本與在該像素處的值和在當(dāng)前幀中的點(diǎn)(其中與關(guān)于分配給像素xA的當(dāng)前幀的運(yùn)動矢量25相對應(yīng))處的值之間的絕對差的3個色彩通道RGB(對應(yīng)于IC)上的總和相對應(yīng)。
在第四變型例中,質(zhì)量度量是當(dāng)前幀的一組像素的峰值信噪比的函數(shù)。讓我們考慮參考幀的一組N個像素xA。為了計(jì)算峰值信噪比(PSNR),我們通過如下估計(jì)均方誤差(MSE)來開始:
其中,關(guān)于分配給當(dāng)前像素xA的當(dāng)前幀與運(yùn)動矢量相對應(yīng)。
然后,PSNR被如下計(jì)算:
在另一變型例中,通過當(dāng)前幀評價(jià)第一幀的表現(xiàn)的質(zhì)量一定要考慮的重要信息是第一幀的像素?cái)?shù),由于第一幀中觀察到的場景點(diǎn)在當(dāng)前幀中被遮擋或由于場景點(diǎn)在當(dāng)前幀中的攝像機(jī)視場之外,因而第一幀在當(dāng)前幀中不具有對應(yīng)性。存在檢測這樣的像素的技術(shù)。例如,圖3圖示了該方法,其在于通過將當(dāng)前幀32的運(yùn)動場33投射到第一幀31上并標(biāo)記與幀31中的端點(diǎn)最接近的像素來檢測第一幀的不具有當(dāng)前幀中的對應(yīng)性的可能像素(被稱為被遮擋的像素),然后對幀31中的未標(biāo)記的像素進(jìn)行識別。幀31中被標(biāo)記的遮擋像素(即,在幀32中被遮擋的幀31的像素)越多,幀32對于幀31而言就越不具有代表性。
在第五變型例中,定義全局質(zhì)量度量以便評價(jià)當(dāng)前幀怎樣精確地由參考幀全局地良好地表現(xiàn)。例如,該全局質(zhì)量可以由對具有閾值之下的成本匹配的像素?cái)?shù)進(jìn)行計(jì)數(shù)、或者對“一致的”(即,不一致距離在不一致性閾值之下的,如第二變型例,即具有被設(shè)置為0的二進(jìn)制的不一致性值)像素?cái)?shù)進(jìn)行計(jì)數(shù)而產(chǎn)生。
然后,可以得出關(guān)于可見像素(即未被遮擋的像素)的總數(shù)的比例。此外,在參考幀中的當(dāng)前幀的可見像素的比例本身可以是當(dāng)前幀怎樣由參考幀所表現(xiàn)的程度的相關(guān)參數(shù)。
在僅使用不一致性值來測量運(yùn)動質(zhì)量的變型例中,并且在引入不一致性閾值來區(qū)分一致的和不一致的運(yùn)動矢量的情況下,運(yùn)動質(zhì)量度量是:
取決于應(yīng)用,質(zhì)量度量的變型例是:
其中N是圖像中的像素的數(shù)量。
根據(jù)另一變型例,這些“全局”度量還可以在由操作者指示的感興趣的特定區(qū)域上計(jì)算。
根據(jù)另一變型例,代替由閾值化產(chǎn)生的二進(jìn)制的不一致性值,可以引入權(quán)重。例如,可以通過成本匹配的、或者不一致性距離的負(fù)指數(shù)函數(shù)來給出該權(quán)重。因此,我們提出當(dāng)前幀中的運(yùn)動場關(guān)于參考幀的以下質(zhì)量測量:
優(yōu)選以間隔[0,1]來定義質(zhì)量度量,其中最佳質(zhì)量對應(yīng)于1。然而,本發(fā)明不限于該約定。在該背景下,對于f()和g()的可能的解決方案可以是:
和
N是在該質(zhì)量估計(jì)中所考慮的像素?cái)?shù)。
一旦公開質(zhì)量度量的變型例,則現(xiàn)在描述當(dāng)前幀迭代的處理方法的進(jìn)一步的步驟。
因此,在第二步驟11中,在代表所確定的運(yùn)動場(即,當(dāng)前幀與參考幀之間的向前或向后的運(yùn)動場)的質(zhì)量的質(zhì)量度量(例如屬于[0,1])在質(zhì)量閾值之下的情況下,在步驟12中在具有質(zhì)量閾值之上的質(zhì)量度量的先前的當(dāng)前幀的群中確定新的參考幀。因此,在步驟13中通過將當(dāng)前幀和新的參考幀之間的運(yùn)動場(相應(yīng)地矢量)、與新的參考幀和參考幀之間的運(yùn)動場(相應(yīng)地矢量)級聯(lián)(或求和),來確定當(dāng)前幀和參考幀之間的“去往參考(to-the-reference)”運(yùn)動場(相應(yīng)地矢量)。因此,在步驟13中通過將參考幀和新的參考幀之間的運(yùn)動場(相應(yīng)地矢量)、與新的參考幀和當(dāng)前幀之間的運(yùn)動場(相應(yīng)地矢量)級聯(lián)(或求和),來確定參考幀和當(dāng)前幀之間的“源自參考(from-the-reference)”運(yùn)動場(相應(yīng)地矢量)。在變型例中,質(zhì)量度量一在質(zhì)量閾值之下,就將序列處理中的前一個當(dāng)前幀選擇為新的參考幀。然后,新的各對幀被考慮為將該新的參考幀與接下來的(尚未處理的)當(dāng)前幀進(jìn)行分組。然后,通過運(yùn)動場(相應(yīng)地矢量)的級聯(lián)來獲得這些幀與參考幀之間的對應(yīng)性。
該方法可被執(zhí)行為沿著時(shí)間軸在任何方向上從第一幀順序地開始。
在先前的幀中選擇新的參考幀的變型例中,對關(guān)于所有先前選擇的新的參考幀的直接運(yùn)動估計(jì)進(jìn)行評價(jià),以便檢查它們中之一是否可以作為用于當(dāng)前幀的良好的參考幀。實(shí)際上,取決于場景中的運(yùn)動,可能發(fā)生已被放棄的先前的參考幀再次變?yōu)檫\(yùn)動估計(jì)的良好候選。如果沒有參考幀是合適的,則其他先前處理的當(dāng)前幀被測試作為用于當(dāng)前幀的可能的新的參考幀。
而在第一實(shí)施例的另一變型例中,用于確定質(zhì)量度量的該組像素被包括在參考幀的感興趣的區(qū)域中。
在感興趣的區(qū)在當(dāng)前幀中被部分遮擋的情況下,質(zhì)量度量僅涉及可見部分。另一方面,對新的參考幀的選擇需要候選的新的參考幀包含當(dāng)前幀中可見的參考區(qū)的所有像素。在感興趣的區(qū)的可見部分的尺寸在閾值之下時(shí),則在當(dāng)前幀與參考幀之間執(zhí)行直接運(yùn)動估計(jì),以便可能地選擇另一參考。實(shí)際上,可能發(fā)生感興趣的區(qū)被暫時(shí)遮擋并且在一些幀之后再次變得可見。
對于第一實(shí)施例,現(xiàn)在描述視頻序列的一組當(dāng)前幀的全局處理方法。
讓我們關(guān)注對軌跡沿著N+1個RGB圖像{In}n∈[0,...,N]的序列的估計(jì),其中被考慮為參考幀。從的格點(diǎn)開始,并通過一組源自參考位移矢量來定義。這些位移矢量從像素(它們被分配給的像素)開始并指向序列的每個其他幀n。在實(shí)踐中,通過對分配給每個位移矢量的二進(jìn)制的不一致性值的研究,來估計(jì)的質(zhì)量。如果這些矢量之一是不一致的,則該處理在先于匹配事宜的時(shí)刻自動添加新的參考幀并運(yùn)行上述過程。
讓我們假設(shè)在IN之前、更準(zhǔn)確地是在(fail0≤N)處,對的估計(jì)所涉及的長期密集運(yùn)動估計(jì)失敗。我們提出在處(即在先于跟蹤失敗并且對其而言已精確估計(jì)的時(shí)刻)引入新的參考幀。
一旦插入該新的參考幀(被稱為),我們就運(yùn)行從與每個后續(xù)幀In(其中n∈[ref1+1,...,N])之間的位置(在下)開始的新的運(yùn)動估計(jì)。因此,我們獲得一組位移矢量這些估計(jì)允許獲得我們想要校正的新版本的位移矢量:實(shí)際上,這些位移矢量的每個初始估計(jì)都可以由通過將關(guān)于所估計(jì)的與我們剛才關(guān)于所計(jì)算的級聯(lián)而獲得的矢量來取代:
矢量可以經(jīng)由空間雙線性插值來計(jì)算。
如果該得到的新版本的例如在(其中fail0<fail1<N)處再次失敗,則我們在處插入新的參考幀并且我們進(jìn)行從開始的長期估計(jì)器。因此,我們能夠獲得如下的對位移矢量(其中n∈[ref2+1,...,N])的新的估計(jì):
每次再次失敗的時(shí)候我們應(yīng)用完全相似的處理,直到序列的末尾。有利地,在我們依賴于比初始參考幀更接近當(dāng)前幀的參考幀時(shí),位移選擇標(biāo)準(zhǔn)(包括明亮度恒定假設(shè))更加有效。尤其在強(qiáng)色彩變化的情況下,可以更加容易地進(jìn)行匹配。因此,相比于經(jīng)典的單個參考幀的方法,該多參考幀運(yùn)動估計(jì)得以增強(qiáng)。
無論標(biāo)準(zhǔn)如何,一定要根據(jù)質(zhì)量需求來設(shè)置運(yùn)動質(zhì)量閾值,以確定從什么時(shí)刻需要新的參考幀。如前所述,在不涉及整個圖像時(shí),僅關(guān)注感興趣的區(qū)域的本地評估可以是相關(guān)的。在這種情況下,運(yùn)動估計(jì)處理的質(zhì)量高度取決于考慮的區(qū),并且研究整個圖像的運(yùn)動矢量質(zhì)量會嚴(yán)重影響參考幀插入處理。
根據(jù)需要對去往參考位移矢量的估計(jì)的特定情況(這種特定情況例如適于紋理插入和傳播),似乎難以將從每個幀In開始的該多參考幀處理應(yīng)用到用以計(jì)算的事宜。因此,保持了根據(jù)對源自參考方向的處理,并且因而關(guān)于源自參考位移矢量的質(zhì)量來決定對新的參考幀的引入。盡管去往參考位移矢量可以得益于對這些新的參考幀的引入。如果我們返回到已插入和的先前示例,則可以通過考慮以下級聯(lián)而對從In(其中n∈[ref2+1,...,N])的格點(diǎn)xn開始的不精確位移矢量細(xì)化:
為了確保源自參考位移矢量的質(zhì)量評估與去往參考位移矢量的有效質(zhì)量之間的某種相關(guān)性,我們提出在先前描述的用于插入新的參考幀的標(biāo)準(zhǔn)中選擇相應(yīng)位移矢量不一致的像素的百分比。我們通過以下的事實(shí)來解釋該選擇:該標(biāo)準(zhǔn)中涉及的不一致性處理向前-向后不一致性并且因而同時(shí)針對源自參考位移矢量和去往參考位移矢量二者的質(zhì)量。
圖4圖示了根據(jù)第二優(yōu)選實(shí)施例的方法的步驟。在該實(shí)施例中,對于視頻序列的第一幀的用戶選擇區(qū)域確定第一參考幀。例如,給定視頻序列,用戶任意地或根據(jù)要求具體特性的特定應(yīng)用來選擇特定幀。在現(xiàn)有技術(shù)中,該用戶選擇的幀被用作用于任何圖像處理算法的參考幀。例如,如果用戶將其注意力關(guān)注在其想要編輯的特定區(qū),則其可能需要該區(qū)在參考幀中完全可見。另一方面,用戶在幀中選擇的區(qū)域可能在另一幀中具有更好的分辨率。實(shí)際上,不確定操作者沿著視頻序列選擇出具有最精細(xì)的分辨率的區(qū)域的表現(xiàn)。因此,本發(fā)明有利地允許從該初始選擇開始,在序列中確定可能的更精細(xì)的表現(xiàn)。這通過識別其他幀中的相應(yīng)區(qū)域、關(guān)于參考區(qū)域的尺寸評價(jià)其尺寸來完成。在變型例中,區(qū)域的尺寸由其像素?cái)?shù)來定義。
現(xiàn)在描述用于在視頻序列的當(dāng)前幀中確定第一參考幀的處理方法的迭代。參考幀被初始化為第一幀(由用戶選擇),并且尺寸閾值被初始化為用戶選擇的第一幀中的區(qū)域的尺寸。然后,下一個當(dāng)前幀是當(dāng)前幀的相鄰幀。
在第一步驟40中,確定第一幀與當(dāng)前幀之間的運(yùn)動場。有利地,在用作參考幀的第一幀與序列的其他當(dāng)前幀之間估計(jì)向前和向后的運(yùn)動場。這些運(yùn)動場允許識別序列的幀中的用戶選擇的區(qū)域。在變型例中,運(yùn)動場估計(jì)受限于參考幀的選擇區(qū)域。經(jīng)由像素方式的或基于塊的運(yùn)動估計(jì)來獲得該估計(jì)。得到的密集運(yùn)動場給出第一幀的像素與每一個其他當(dāng)前幀中的像素/點(diǎn)之間的對應(yīng)性。在運(yùn)動具有子像素分辨率的情況下,將對應(yīng)于第一幀的給出的像素Xa的當(dāng)前幀中的像素識別為與像素XA所附的運(yùn)動矢量的端點(diǎn)最接近的一個。結(jié)果是,對應(yīng)于第一幀中的第一區(qū)域RA的當(dāng)前幀中的區(qū)域RB被定義為關(guān)于第一區(qū)域的像素所附的運(yùn)動矢量的端點(diǎn)是最接近的像素的一組像素。
在第二步驟41中,對代表第一幀A與當(dāng)前幀B之間的所確定的運(yùn)動場的質(zhì)量的質(zhì)量度量進(jìn)行估計(jì)。根據(jù)有利特性,針對通過其一組像素XA定義的第一區(qū)域RA來處理該估計(jì)。為了提供用于各幀之間的對比的相關(guān)信息,運(yùn)動場應(yīng)當(dāng)可靠。出于該目的,使用例如上述變型例之一來得出運(yùn)動質(zhì)量度量。注釋為QD(RA,B)的該測量受限于操作者在第一幀A中選擇的感興趣的區(qū)RA。在優(yōu)選的變型例中,在質(zhì)量度量OD(RA,B)在質(zhì)量閾值之上時(shí),其指示與區(qū)域RA相對應(yīng)的當(dāng)前幀B中的區(qū)域RB被良好地識別。
根據(jù)變型例,運(yùn)動質(zhì)量的另一相關(guān)參數(shù)是在當(dāng)前幀B中可見(既未被遮擋也未在當(dāng)前幀之外)的第一區(qū)域RA的像素的比例。注釋為OD(RA,B)的該比例也必須在可見性閾值之上。有利地,可見性閾值接近1以便區(qū)域RA的大多數(shù)像素在當(dāng)前幀B中可見,以能夠考慮RA可由RB表現(xiàn)。
在第三步驟42中,對包括與第一幀的用戶選擇區(qū)域相對應(yīng)的當(dāng)前幀的區(qū)域中的多個像素的尺寸度量進(jìn)行估計(jì)。有利地,該特性允許對相應(yīng)區(qū)域RA和RB二者的分辨率的比較。出于該目的,變型例在于直接比較區(qū)域的尺寸,即,其像素?cái)?shù)(被稱為NA和NB):如果NA>NB,則第一區(qū)域RA具有比區(qū)域RB更好的分辨率,否則所識別的區(qū)域RB是更好地表現(xiàn)操作者最初選擇的區(qū)RA的良好候選。
在第四步驟43中,測試上述這兩個度量。在質(zhì)量度量高于質(zhì)量閾值的情況下,并且在尺寸度量高于尺寸閾值的情況下,將第一參考幀設(shè)置為當(dāng)前幀,并且以尺寸度量來更新尺寸閾值。
然后,對序列的每個后續(xù)的當(dāng)前幀順序地迭代這些步驟。
本領(lǐng)域技術(shù)人員還將理解的是,該方法可以由諸如包括或不包括圖形處理單元的PC、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)、PDA、移動電話的設(shè)備而非常容易地實(shí)現(xiàn),無需專用裝置。根據(jù)不同變型例,針對方法所描述的特征被實(shí)現(xiàn)在軟件模塊或硬件模塊中。圖5圖示了根據(jù)本發(fā)明的特定實(shí)施例的用于處理視頻序列的設(shè)備。該設(shè)備是意在處理視頻比特流的任何設(shè)備。設(shè)備400包括意在實(shí)現(xiàn)本發(fā)明的實(shí)施例的物理部件,例如處理器(CPU或GPU)501、數(shù)據(jù)存儲器(RAM、HDD)502、程序存儲器(ROM)503、人機(jī)接口(MMI)504或者適于為用戶顯示信息和/或輸入數(shù)據(jù)或參數(shù)的專用應(yīng)用(例如,允許用戶選擇并編輯幀的鍵盤、鼠標(biāo)、觸摸屏…)、以及可選地用于在硬件中實(shí)現(xiàn)任何功能的模塊505。有利地,數(shù)據(jù)存儲器502存儲代表視頻序列的比特流、與視頻序列相關(guān)聯(lián)的密集運(yùn)動場的多個組、由處理器501可執(zhí)行以實(shí)現(xiàn)在此所描述的方法的步驟的程序指令。如前所揭示的,密集運(yùn)動估計(jì)的生成有利地例如在GPU中或由專用硬件模塊505預(yù)計(jì)算。有利地,處理器501被配置為在處理器所附的顯示設(shè)備504上顯示所處理的視頻序列。在變型例中,處理器501是耦合到顯示設(shè)備的圖形處理單元,允許并行處理視頻序列從而減少計(jì)算時(shí)間。在另一變型例中,處理方法在網(wǎng)絡(luò)云中(即,在通過網(wǎng)絡(luò)接口連接的分布式處理器中)實(shí)現(xiàn)。
在本說明書以及(在適當(dāng)情況下的)權(quán)利要求書和附圖中公開的每個特征可以獨(dú)立地或者以任何適當(dāng)?shù)慕M合來提供。被描述為在軟件中實(shí)現(xiàn)的特征還可以在硬件中實(shí)現(xiàn),反之亦然。在權(quán)利要求書中出現(xiàn)的附圖標(biāo)號僅作為圖示,并且應(yīng)當(dāng)對權(quán)利要求的范圍不具有限制效果。
在本發(fā)明的另一方面,可以經(jīng)由任何合適的計(jì)算機(jī)可讀存儲介質(zhì)來向設(shè)備500提供程序指令。計(jì)算機(jī)可讀存儲介質(zhì)可以采取計(jì)算機(jī)可讀程序產(chǎn)品的形式,該計(jì)算機(jī)可讀程序產(chǎn)品體現(xiàn)在一個或多個計(jì)算機(jī)可讀介質(zhì)中,并且具有由計(jì)算機(jī)可執(zhí)行的在其上體現(xiàn)的計(jì)算機(jī)可讀程序代碼。如在此所使用的計(jì)算機(jī)可讀存儲介質(zhì)被認(rèn)為是非臨時(shí)性存儲介質(zhì),其被賦予在其中存儲信息的固有能力以及提供從其中取回信息的固有能力。計(jì)算機(jī)可讀存儲介質(zhì)可以是例如(但不限于)電子的、磁性的、光學(xué)的、電磁的、紅外的、或半導(dǎo)體的系統(tǒng)、裝置或設(shè)備,或者前述的任何合適的組合。要理解的是,如本領(lǐng)域普通技術(shù)人員容易理解的那樣,在提供可以應(yīng)用本原理的計(jì)算機(jī)可讀存儲介質(zhì)的更具體的示例的同時(shí),以下僅僅是示例性的而非詳盡列表:便攜式計(jì)算機(jī)盤;硬盤;隨機(jī)存取存儲器(RAM);只讀存儲器(ROM);可擦除可編程只讀存儲器(EPROM或閃速存儲器);便攜式壓縮盤只讀存儲器(CD-ROM);光學(xué)存儲設(shè)備;磁存儲設(shè)備;或者前述的任何適當(dāng)組合。
當(dāng)然,本發(fā)明不限于先前描述的實(shí)施例。