專利名稱:一種平面視頻轉(zhuǎn)立體視頻技術(shù)中的深度序列生成方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機多媒體技術(shù)領(lǐng)域,特別涉及一種將普通平面視頻轉(zhuǎn)為立體視頻的技術(shù)。技術(shù)背景立體視頻,相對于現(xiàn)在廣為應(yīng)用的平面視頻,可以給用戶提供視頻中場景的深度信息, 使用戶能夠通過視頻看到與真實世界幾乎完全一致的景象,產(chǎn)生巨大的真實感和臨場感。 由于這一巨大優(yōu)勢,立體視頻正在全世界范圍內(nèi),并且在多個行業(yè)中得到越來越多的推廣 和青睞。例如,根據(jù)2006年的統(tǒng)計,中國12個中心城市已有大約1500臺的立體顯示器, 其中一些被布置在大型購物場所和娛樂場所,播放事先制作好的廣告或其他宣傳視頻,給 人以很強的視覺沖擊力,吸引觀眾的眼球。隨著立體視頻技術(shù)的發(fā)展,立體視頻的片源制作也越來越受到人們的關(guān)注。同樣來自 2006年的統(tǒng)計,l秒鐘的立體視頻素材的制作費用約為530美元。從這一數(shù)字可以看出立 體視頻素材的制作具有重大的經(jīng)濟價值。立體視頻素材的制作,首先要依賴于人眼對立體的感知。人眼看世界之所以有立體感, 是因為左眼和右眼看世界的視角有少許不同,因而同一場景在兩眼視網(wǎng)膜上的成像存在視 差(disparity,即成像位置差別)。根據(jù)這一原理,立體視頻素材與平面視頻素材相比, 最大的不同是它必須包含兩個普通二維視頻序列,分別稱為左視圖序列和右視圖序列。兩 個序列必須通過一定的顯示技術(shù),單獨地被用戶的左眼和右眼觀測,才能實現(xiàn)立體感知。 同時,只有這兩個視頻序列中的場景與真實情況下人的兩眼所能觀測到場景相一致,在能 達到最好的立體視頻效果,微小的偏差一旦被人言察覺,都會給用戶帶來不適的感覺。由于以上苛刻的要求,立體視頻的片源制作成為立體視頻領(lǐng)域的主要難題之一。同時 由于直接獲取兩路立體視頻對硬件設(shè)備的精度要求很高,難以實現(xiàn),研究將平面視頻轉(zhuǎn)為 立體視頻的技術(shù),以其豐富的平面視頻素材,良好的平面視頻兼容性,正在越來越多的受 到人們的重視。平面視頻轉(zhuǎn)為立體視頻,首先要求獲取原序列(平面視頻)每幀的深度信息,得到深 度序列,深度序列由一張張與原序列中視頻幀對應(yīng)的深度圖(d印th map)組成;其次利 用深度序列,將原序列變形(war卯ing)得到一路新的視頻序列。這一序列與原序列一起, 構(gòu)成了立體視頻的左右視圖序列。由深度序列合成另一路視頻序列的方法簡要介紹如下視頻序列是由一幀一幀的圖像 順序的排列組成的。每一張圖像又是由一個個像素組成,每一個像素都通過它的像素值表 現(xiàn)一個相應(yīng)的顏色,這些像素排列成一個二維平面,就是圖像。而要獲得的深度序列中的 像素值并不表示顏色,而表示對應(yīng)的原序列中,圖像像素所表示的空間點到攝像機的距離。 根據(jù)投影幾何原理,空間中的點在人的兩眼視網(wǎng)膜上成像的視差唯一地由空間點的深度決 定,且二者成反比關(guān)系,即離觀察點越遠的點的視差值越小,無窮遠點的視差為O。因此,一旦獲得了平面視頻序列對應(yīng)的深度序列,就可以利用深度與視差的關(guān)系得到滿足兩眼位 置關(guān)系的另一視角的視頻序列,再經(jīng)一定的平滑處理,兩路視頻就能通過一定的立體顯示 技術(shù)實現(xiàn)強烈且真實的三維效果。由于以上的由原序列和深度序列合成新序列的方法己經(jīng)比較成熟,如何由原序列獲得 深度序列成為二維轉(zhuǎn)三維中至關(guān)重要的技術(shù)。目前已經(jīng)有一些方法嘗試解決這一問題1,利用顏色信息求深度。此類方法嘗試在一張圖像上,利用圖像的遮擋、陰影、紋 理等等發(fā)掘深度信息;2,利用運動信息求深度。針對運動的場景,利用視頻編碼中基于塊的運動矢量作為 運動信息,根據(jù)運動矢量的大小確定對應(yīng)塊在三維空間中的深度;3,聯(lián)合利用顏色和運動求深度。同時利用了圖像的顏色和視頻序列中的運動確定深 度。這類方法目前還比較少。其中一種提出的算法利用單幀圖像的顏色信息進行分割,同 時利用累積幀差獲得運動信息。然而這種方法將導(dǎo)致算法的非實時性以及對人工介入的依 賴。本發(fā)明的方法中采用的相關(guān)技術(shù)介紹如下1. 光流算法光流算法需要輸入視頻中相鄰兩幀圖像,通過分析兩幀圖像的差別,估計前一幀圖像 中像素在后一幀圖像上對應(yīng)的像素位置,進而估計出前一陣圖像中像素的二維運動。2. 最小鑒別信息原理求解一個未知概率密度函數(shù),在已知一個參考概率密度函數(shù)的情況下,首先定義它們 之間的鑒別信息,用來度量兩個概率密度函數(shù)的差別。之后,根據(jù)具體情況,獲得默寫約 束,在滿足這些約束的情況下,通過最小化鑒別信息求解未知概率密度函數(shù)。發(fā)明內(nèi)容本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種平面視頻轉(zhuǎn)立體視頻技術(shù)中的 深度序列生成方法,在沒有人工介入的情況下,全自動的實現(xiàn)對一個視頻序列的每一幀的 深度圖的獲取,從而得到原視頻序列的深度序列,可以很好地實現(xiàn)平面視頻轉(zhuǎn)立體視頻技 術(shù)。本發(fā)明提出的一種平面視頻轉(zhuǎn)立體視頻技術(shù)中的深度序列生成方法,其特征在于,包 括以下步驟1) 基于光流算法提取原二維視頻序列中每一幀的像素二維運動,獲得該每一幀的運動 強度圖;2) 利用最小鑒別信息原理將原二維視頻序列中每一幀圖像的顏色信息與所述運動強度 圖融合,獲得用于對視頻圖像進行分割的運動顏色區(qū)分圖;3) 根據(jù)運動顏色區(qū)分圖的亮度對該圖進行分割,并對分割的每個區(qū)域賦予不同的深度 值,得到每一幀圖像的深度圖,將所有幀圖像的深度圖組成深度序列。本發(fā)明的特點及有益效果本發(fā)明實現(xiàn)了一種全自動的二維視頻對應(yīng)深度序列生成方法,對自動的實現(xiàn)二維視頻 轉(zhuǎn)三維視頻有重大的意義。在視頻分割方面,本發(fā)明充分地發(fā)掘顏色信息和運動信息,并 利用最小鑒別信息將它們?nèi)诤显谝黄穑狗指畹慕Y(jié)果準確可靠;在深度判定方面,本發(fā)明 通過算法設(shè)計,使得三條深度判決準則得以保證,深度判決結(jié)果符合視頻場景中物體的真 實深度關(guān)系。此技術(shù)可以在普通PC機或工作站等硬件系統(tǒng)上實現(xiàn)。
圖1為本發(fā)明方法總體流程圖。圖2為本發(fā)明方法中像素遍歷順序示意圖。圖3為本實施例的運動強度圖。圖4為本實施例的運動顏色信息融合圖。圖5為本實施例的深度圖。
具體實施方式
本發(fā)明提出的全自動的平面視頻轉(zhuǎn)立體視頻的方法結(jié)合附圖及實施例詳細說明如下 本發(fā)明提出的平面視頻轉(zhuǎn)立體視頻技術(shù)中的深度序列生成方法,如圖l所示,包括以 下步驟-1) 基于光流算法提取原二維視頻序列中每一幀的像素二維運動,獲得該每一幀的運動 強度圖,具體包括以下步驟-11) 首先,利用光流算法計算所述視頻序列中每一幀的每個像素的二維運動矢量;12) 其次,為每個像素的二維運動矢量計算一個置信度Q (用以表征該矢量在刻畫像 素二維運動上的準確程度),該置信度Q計算的公式為20', _/) H +1, _/) — — 1,川+1 W, _/ +1) — _/ — 1) I ( 1 )其中2"力表示坐標為o',力的像素的置信度,/(/,_/)表示坐標為(/,y)的像素的亮度(根據(jù)光流算法的理論,對于視頻幀中紋理豐富的區(qū)域,光流計算較準確;對紋理不豐富的區(qū)域, 計算較不準確。公式(1)通過計算像素所在區(qū)域的顏色變化程度定量的表示出紋理的豐 富程度及光流結(jié)果的準確性。);13) 再次,根據(jù)設(shè)定置信度閾值r。(當視頻幀整體顏色變化范圍較大時,可以選擇較大的閾值,保證不會將低紋理區(qū)域誤認—為高紋理區(qū)域;當視頻幀整體顏色變化范圍較小時, 可以選擇較小的閾值,保證不會將高紋理區(qū)域誤認為低紋理區(qū)域。 一般閾值的選取的范圍在2到io之間)對獲得的每個像素的運動矢量進行判斷,對置信度低于該閾值r(,的運動矢量用其周圍高置信度的運動矢量替換; 一13)最后,對各像素的運動矢量進行平滑處理,將運動矢量的大小轉(zhuǎn)化為對應(yīng)像素的 像素值,獲得每一幀的運動強度圖;2) 利用最小鑒別信息原理將原二維視頻序列中每一幀圖像的顏色信息與所述運動強 度圖融合,獲得用于對視頻圖像進行分割的運動顏色區(qū)分圖;將原視頻幀圖像的顏色轉(zhuǎn)化為亮度,即得到該視頻幀的黑白圖像。將此黑白圖像與對 應(yīng)的運動強度圖通過最小鑒別信息原理進行融合,得到一張新的圖像,稱為運動顏色區(qū)分圖。(在運動顏色區(qū)分圖上,原視頻中像素顏色的差別和運動的差別被聯(lián)合最大化,因此可以根據(jù)運動顏色區(qū)分圖實現(xiàn)對原視頻分割。)具體包括以下步驟(21)利用鑒別信息表示運動強度圖和待求的運動顏色區(qū)分圖的差別運動強度圖, 運動顏色區(qū)分圖和黑白圖像,通過公式(2)的形式構(gòu)造三個對應(yīng)的概率密度函數(shù)/^ = ,,^) = ,,^ = #^ ②|>(o Z/w Sw),-=i f=i /=i其中,Ar(0,/(0和g(0分別表示運動強度圖,運動顏色區(qū)分圖和黑白圖像第i個像素的像 素值,針對總像素數(shù)為M的視頻幀中的所有像素求和。對于某一幀視頻,其運動強度圖和 黑白圖像并不滿足所有像素像素值之和相同。通過對黑白圖像的每個像素都乘以一個系數(shù)S,可以使這一要求獲得滿足2> (3)'■=
/=1此時,黑白圖像的新的像素值;(/)與原來像素值的關(guān)系可以表示為;(/) = "g(/) (4)根據(jù)公式(2),運動強度圖和運動顏色區(qū)分圖對應(yīng)的概率密度函數(shù)之間的鑒別信息的表達 式為(連續(xù)情況為積分,離散情況為求和)
<formula>formula see original document page 6</formula> (5)再設(shè)定需要求解的運動顏色區(qū)分圖與運動強度圖也滿足總像素值相同,即<formula>formula see original document page 6</formula>的情況下,表示運動強度圖和運動顏色區(qū)分圖之間的差別的鑒別信息為<formula>formula see original document page 6</formula> (7) (從鑒別信息的表達式中可以看出,鑒別信息實際上是度量兩個隨機變量差異度的一個指標,當兩個隨機變量無差別時,鑒別信息為0,隨著差異的增大,鑒別信息逐漸增大。) (22)同時根據(jù)最小化運動顏色區(qū)分圖與運動強度圖的鑒別信息和運動顏色區(qū)分圖與黑白圖像的差別,得到最優(yōu)化目標函數(shù)<formula>formula see original document page 6</formula>(8),=i其中,;i作為經(jīng)驗參數(shù),需要事先設(shè)定。當義比較大時,最終得到的運動顏色區(qū)分圖將與 運動強度圖更相近,當義較小時,最終得到的運動顏色區(qū)分圖將與黑白圖像更相近。因此當場景中物體運動強烈,運動信息更可靠時,選擇較大的;i;當場景中物體間顏色差別較 大,顏色信息更可靠時,選擇較小的;i。 一般;i取在ioo到iooo之間。(23)求解最優(yōu)化目標函數(shù),得到運動顏色區(qū)分圖利用導(dǎo)數(shù)為o的性質(zhì)求解優(yōu)化函數(shù)的最小值,得到方程如下'l+log/(l)-log柳 l+log/(2)-log*(2)(9)、l + log/(W2)-1og"W2)」式(9)實際上有M個非線性方程,可利用二分法求解出/,即運動顏色區(qū)分圖。3)根據(jù)運動顏色區(qū)分圖的亮度對其進行分割,并對分割得到的每個區(qū)域賦予不同的 深度值,得到每一幀圖像的深度圖,將所有幀圖像的深度圖組成深度序列,具體包括以下步驟(31) 根據(jù)場景深度常識,設(shè)計深度判決的三條準則a.處于圖像邊緣處的物體往往是不被關(guān)注的物體,具有較大的深度值;處于圖像中心的物體通常則是視頻所關(guān)注的物體,深度值較小。b.對于場景中的同一個物體,可以近似認為具有相同的深度值。c.場景中除了物體還有背景,對于以某個物體,如墻壁,建筑等為背景的場景(一類場景),背景應(yīng)為相同的深度值,且此深度值應(yīng)大于場景中的所有物體;而對于以海洋,,木地為背景的場 景(二類場景),背景的深度應(yīng)當有漸變的效果,通常越靠近圖像下方的像素,深度值越 小。(32) 根據(jù)運動顏色區(qū)分圖的亮度對該圖進行分割(即將圖像中的各物體從背景中劃分出來),并利用深度判決準則對分割區(qū)域賦以不同的深度值,獲得每一幀深度圖即按照從圖像邊緣到圖像中心的順序遍歷運動顏色區(qū)分圖的每一個像素,如圖2所示的從1到 6……。每遍歷到一個像素,則考察它的鄰域,如果有亮度接近的像素(是否接近,根據(jù) 亮度差是否大于閾值7;決定,其取值的大小與運動顏色區(qū)分圖的所有像素亮度范圍有關(guān), 當范圍較大時,閾值應(yīng)較大,反之應(yīng)較小, 一般取0.5到5之間。),則把它們都放入同一 個隊列;再以同樣的考察方式依次遍歷新加入隊列中的像素,以此類推,直到?jīng)]有像素能加入隊列為止。如果隊列中的像素個數(shù)超過閾值7; (7;表示物體最少占據(jù)的像素數(shù),當圖像中物體較大時,7;應(yīng)取得較大,反之則較小, 一般的取100到5000之間),則認為這些像素值相近的像素表示同一個物體,因此將它們賦以一個新的深度值。每檢測出一個新 的物體,都要用一個更小的深度對其賦值,以保證圖像中間物體的深度值較小。如果隊列 中的像素個數(shù)無法超過閾值7;,則認為這些像素屬于背景或鄰近的已檢測出的物體,因此 對他們賦予相應(yīng)的已有深度值。最后,通過檢測背景(包含圖像邊緣像素最多的隊列), 對背景像素的深度值根據(jù)上述深度判決的第三條準則(需要事先判斷視頻屬于哪種場景)進行新的賦值;(33) 對視頻中的每一幀得到的深度圖,聯(lián)成整個原始視頻序列所對應(yīng)的深度序列。 本發(fā)明的一個實施例使用的視頻序列為"Akko&Koyo"序列(日本名古屋大學拍攝)。首先,對序列中某一幀(如圖3a)利用光流算法計算每個像素的二維運動矢量,直接提取 像素的光流模值得到最初運動強度圖(如圖3b);其次,根據(jù)公式(1),為每個像素的二 維運動矢量計算一個置信度Q;再次,設(shè)定置信度閾值7^為5,對于Q小于5的運動矢量, 用其周圍Q大于等于5的運動矢量取代;最后,對所有像素的運動矢量進行平滑處理,得 到最終該幀的運動強度圖(如圖3c)。本實施例具體包括以下步驟1) 基于光流算法提取原二維視頻序列中每一幀的像素二維運動,獲得該幀的運動強度圖2) 利用最小鑒別信息原理將原二維視頻序列中每一幀圖像的顏色信息與該幀的所述運動強度圖融合,獲得用于對視頻圖像進行分割的每一幀的運動顏色區(qū)分圖直接將該幀的RGB顏色值轉(zhuǎn)化為亮度值,得到該幀的黑白圖像(如圖4a),同時利用 上一步得到的該幀的運動強度圖(如圖4b)利用下述方法合成該幀的運動顏色區(qū)分圖(如 圖4c)。首先,利用鑒別信息表示運動強度圖和待求的運動顏色區(qū)分圖的差別。令該視頻幀的 運動強度圖和黑白圖像滿足公式(3),解得s,將s乘以黑白圖像的每一個像素值,將結(jié) 果作為黑白圖像新的像素值,等待后續(xù)工作使用。同時利用公式(7)表示待求的運動顏 色區(qū)分圖與運動強度圖的鑒別信息。其次,同時根據(jù)最小化運動顏色區(qū)分圖與運動強度圖的鑒別信息賴運動顏色區(qū)分圖與 黑白圖像的差別,得到最優(yōu)化目標函數(shù)。根據(jù)公式(8)列出待優(yōu)化的函數(shù),參數(shù)A取為 500。最后,求解目標函數(shù),得到運動顏色區(qū)分圖。對形如公式(9)的非線性方程組用二 分法求解,將解得的/作為運動顏色區(qū)分圖的像素值,合成運動顏色區(qū)分圖。3) 根據(jù)每一幀的顏色運動區(qū)分圖的亮度對其進行分割,并對分割得到的的每個區(qū)域 賦予不同的深度值,得到每一幀圖像的深度圖,將所有的深度圖組成深度序列設(shè)定閾值7)為3,閾值7;為500,并判斷此序列為一類場景。按照從圖像邊緣到圖像中 心的順序遍歷上一步獲得的運動顏色區(qū)分圖的每一個像素,如圖2所示。每遍歷到一個像 素,則考察它的鄰域,如果鄰居像素與該像素的亮度差小于7;,則把它們都放入同一個隊 列;再以同樣的考察方式依次遍歷新加入隊列中的像素,以此類推,直到?jīng)]有像素能加入隊列為止。如果隊列中的像素個數(shù)超過7;,則將它們賦以一個新的深度值。每檢測出一個 新的物體,都要用一個更小的深度對其賦值。如果隊列中的像素個數(shù)無法超過閾值7;,則對他們賦予當前的已有深度值。最后,檢測包含圖像邊緣像素最多的隊列,對這里像素賦以相同的并且是最深的深度。得到合成的深度圖(如圖5a),對比的示出原視頻幀(如圖 5b)。實現(xiàn)本實施例方法的硬件PC配置CPU: Intel Pentium4 2.4GHz內(nèi)存 512M 操作系統(tǒng) Windows XP
權(quán)利要求
1. 一種平面視頻轉(zhuǎn)立體視頻技術(shù)中的深度序列生成方法,其特征在于,包括以下步驟1)基于光流算法提取原二維視頻序列中每一幀的像素二維運動,獲得該每一幀的運動強度圖;2)利用最小鑒別信息原理將原二維視頻序列中每一幀圖像的顏色信息與所述運動強度圖融合,獲得用于對視頻圖像進行分割的運動顏色區(qū)分圖;3)根據(jù)運動顏色區(qū)分圖的亮度對該圖進行分割,并對分割的每個區(qū)域賦予不同的深度值,得到每一幀圖像的深度圖,將所有幀圖像的深度圖組成深度序列。
2、 如權(quán)利要求l所述的方法,其特征在于,所述步驟l)中獲得每一幀的運動強度圖為11) 首先利用光流算法計算所述視頻序列中每一幀的每個像素的二維運動矢量;12) 其次為每個像素的二維運動矢量計算一個置信度Q,再次根據(jù)設(shè)定的置信度閾值7^對獲得的每個像素的運動矢量進行判斷,對置信度Q低于該閾值7^的運動矢量用其周圍高置信度的運動矢量替換,該置信度閾值^的取值范圍為2-10;13) 最后對各像素的運動矢量進行平滑處理,將運動矢量的大小轉(zhuǎn)化為對應(yīng)像素的像素值,獲得每一幀的運動強度圖。 '
3、 如權(quán)利要求l所述的方法,其特征在于,所述步驟2)中獲得運動顏色區(qū)分圖包括以下步驟(21) 利用鑒別信息表示所述運動強度圖和待求的運動顏色區(qū)分圖的差別;(22) 將原視頻幀圖像的顏色轉(zhuǎn)化為亮度,得到該視頻幀的黑白圖像,同時根據(jù)最小化 該鑒別信息和運動顏色區(qū)分圖與黑白圖像的差別,利用經(jīng)驗參數(shù)得到最優(yōu)化目標函數(shù),所述經(jīng)驗參數(shù);i的選擇范圍為ioo-iooo;(23) 求解最優(yōu)化目標函數(shù),得到運動顏色區(qū)分圖。
4、 如權(quán)利要求l所述的方法,其特征在于,所述步驟3)中獲取視頻深度序列包括如下步驟(31) 根據(jù)場景深度常識,得到深度判決準則;(32) 根據(jù)運動顏色區(qū)分圖的亮度對該圖進行分割,并利用所述深度判決準則、亮度相 近閾值7)和分割區(qū)域像素數(shù)量閾值7;對分割區(qū)域賦以不同的深度值,獲得每一幀深度圖; 所述亮度相近閾值7;的取值范圍為0.5-5,新物體像素數(shù)量閾值;的取值范圍為100-5000;(33)將得到的每一幀深度圖聯(lián)成深度序列。
全文摘要
本發(fā)明涉及一種平面視頻轉(zhuǎn)立體視頻技術(shù)中的深度序列生成方法,屬于計算機多媒體技術(shù)領(lǐng)域,特別涉及將普通平面視頻轉(zhuǎn)為立體視頻的技術(shù)。該方法包括基于光流算法提取原二維視頻序列中每一幀的像素二維運動,獲得該幀的運動強度圖;利用最小鑒別信息原理將原二維視頻序列中每一幀圖像的顏色信息與所述運動強度圖融合,獲得用于對視頻圖像進行分割的運動顏色區(qū)分圖;根據(jù)運動顏色區(qū)分圖的亮度對該圖進行分割,并對分割后的每個區(qū)域賦予不同的深度值,得到每一幀圖像的深度圖;將所有幀圖像的深度圖組成深度序列。本發(fā)明的優(yōu)點是聯(lián)合運用視頻序列的空間時間信息,且分割和深度判決準確可靠。
文檔編號H04N13/00GK101271578SQ20081010368
公開日2008年9月24日 申請日期2008年4月10日 優(yōu)先權(quán)日2008年4月10日
發(fā)明者楓 徐, 戴瓊海, 謝旭東 申請人:清華大學