專利名稱:用于產(chǎn)生視頻概要的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及基于圖像和視頻的再現(xiàn)(rendering),其中新的圖像和 視頻通過(guò)組合場(chǎng)景的多個(gè)原始圖像的部分建立。具體地,本發(fā)明涉及這種 為了視頻摘要或概要的目的的技術(shù)。
已有技術(shù)
以下列出了認(rèn)為與本發(fā)明的背景有關(guān)的已有技術(shù)引用,并且其內(nèi)容在 此通過(guò)引用被并入。另外的引用在上述的美國(guó)臨時(shí)申請(qǐng)?zhí)?0/736,313和 60/759,044中被提到,以及其內(nèi)容在此通過(guò)引用被并入。引用的承認(rèn)在此 不應(yīng)被推斷為意味著這些引用以任何方式與在此公開(kāi)的本發(fā)明的可專利 性相關(guān)。每個(gè)引用由包括在方括號(hào)內(nèi)的數(shù)字識(shí)別,并且因此在整個(gè)說(shuō)明書(shū) 中由包括在方括號(hào)內(nèi)的數(shù)字表示已有技術(shù)。 A. Agarwala, M. Dontcheva, M. Agrawala, S. Drucker, A. Colburn, B. Curless, D. Salesin, and M. Cohen, /她racf/ve d妙a/ / /^o附ow啤e. In SIGGRAPH, pages 204-302, 2004.
A. Agarwala, K. C. Zheng, C. Pal, M. Agrawala, M. Cohen, B. Curless, D. Salesin, and R. Szeliski.尸a"ora/m'c vz' sfe/ fextwmy. In SIGGRAPH, pages 821-827, 2005.
J. Assa, Y. Caspi, and D. Cohen誦Or. Action synopsis: "/Wow a油to嫌/o". In SIGGRAPH, pages 667-676, 2005.
O. Boiman and M. Irani. z'r/rgw/an'"ay /" z'/w"ges a"t/ z力
幽o. In ICCV, pages I: 462-469, Beijing, 2005.
A. M. Ferman and A. M. Tekalp.她他ca/e co她加e;c加"/o" a"<i , v/cfeo /wfifex/'"g. Proc. Of SPIE, 3229: 23-31, 1997.
M. Irani, P. Anandan, J. Bergen, R. Kumar, and S. Hsu. ^ c/ewf q/" v/fifeo se^e"ces o <i Ae/r a/7/3/z'c加'0肌 Signal Processing: Image Communication, 8(4): 327-351, 1996.
C. Kim and J. Hwang.爿w /"^grar^d sc力e加e ybr oZy'eC-Z)o ei/ v/cfeo "6對(duì)rafc"ow. In ACM Multimedia, pages 303-311, New York, 2000.
S. Kirkpatrick, C. D. Gdatt, and M. P. Vecchi. C^//w/z<3"o" ■S7'/ww/"toia朋eWwg. Science, 4598(13): 671-680, 1983.
V. Kolmogorov and R. Zabih.附W ewergyy^wc"'o"s c朋/m'm.附&ed v/ac她? In ECCV, pages 65-81, 2002.
Y. Li, T. Zhang, and D. Tretter.爿w overWew 0/ v/deo "torac"'ow tec/2m々w" Technical Report HPL-2001-191, HP Laboratory, 2001.
J. Oh, Q. ^Wen, J. lee, and S. Hwang. Mtifeo a^5tr"cricw. In S. Deb, editor, Video Data Mangement and Information Retrieval, pages 321-346. Idea Group Inc. and IRM Press, 2004.
C. Pal and N. Jojic. /她rac"ve mow ages o/ s/ "/^ /or z'/i(5kn."g sw/wwahzz'Mg secwr//^ v/cfeo. In Video Proceedings of CVPR05, page II: 1192,2005.
A. Pope, R. Kumar, H. Sawhney, and C. wan. Video abstraction: Swwwar/z/"g wcfeo cow&wf》r r&n'eva/ vz、wfl/z'z""o". In signals, Systems and Computers, pages 915-919, 1998.
WO2006/048875 Mef/ od 》r 5/ ario-^附/wraf/ v/deo
pub. May 11,2006 by S. Peleg, A. Rav畫(huà)Acha and D. Lischinski.其對(duì)應(yīng)于2005年11月2日遞交的USSN 10/556,601.
A. M. Smith and T. Kanade. PWeo ■sAr/wTM&g c/2aracfe/^za"'0w CAIVD, pages 61-70, 1998.
A. Stefanidis, R Partsinevelos, P. Agouris, and P. Doucette. 5"w加附i7"/z/wg vi/ieo <5fcrAzse& /w &e <io7Wfir/w. In DE乂A
Workshop, pages 906-912, 2000.
H. Zhong, J. Shi, and M. Visontai. Z)她W"g w"w幼"/ "c"v砂w'cfeo. In CVPR, pages 819-826, 2004.
X. Zhu, X. Wu,丄Fan, A. K. Elmagarmid, and W. G. Aref. Exp/or/"g v/^feo cow&wf sfn/cfMre /z/erorc/H'ca/ sw/w/war/zaf/ow. Multimedia Syst., 10(2): 98-115,2004.
J. Barron, D. Fleet, S. Beauchemin and T. Burkitt..尸e/^ rma"ce fec/ m々M饑volume 92, pages 236-242.
V. Kwatra, A. SchMl, I. Essa, G. Turk and A. Bobick. Graptof ,extwres: Z附age awaf v/cfeo ,f/ies/s ws/wg graph c她.In Siggraph, pates 227-286, July 2003.
C. Kim and J. Hwang, Fast and Automatic Video Object Segmentation and Tracking for Content-Based Applications, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 12, No. 2, February 2002, pp 122-129.
美國(guó)專利6,655,003.
背景技術(shù):
視頻概要(synopsis)(或摘要(abstraction))是旨在實(shí)現(xiàn)視頻瀏覽和 檢索的時(shí)間緊湊的表示。
有兩種用于視頻概要的主要方法。在一種方法中, 一組顯著的圖像(關(guān) 鍵幀)從原始視頻序列中選擇。所選擇的關(guān)鍵幀是最好地表示視頻的幀 [7,18]。在另一種方法中,選擇了短視頻序列的集合[15]。第二種方法較不 緊湊,但是提供場(chǎng)景動(dòng)態(tài)的更好的效果。在關(guān)于視頻摘要的綜合調(diào)查中描 述了那些方法(以及其它的方法)[lO,ll〗。
在上面的兩種方法中,全部幀被用作基本構(gòu)建塊。 一個(gè)不同的方法共 同使用鑲嵌圖像以及用于視頻索引的一些元數(shù)據(jù)(meta-data) [6,13,12]。 在這種方法中,靜態(tài)概要圖像包括來(lái)自不同時(shí)間的物體。
基于物體的方法也是已知的,其中物體從輸入視'頻中提取[7,5,16]。然 而,這些方法使用用于識(shí)別顯著的關(guān)鍵幀的物體檢測(cè),并且沒(méi)有合并來(lái)自 不同時(shí)間間隔的活動(dòng)。
使用疊加的最小切割(min-cut)來(lái)產(chǎn)生單個(gè)全景圖像[l]以及使用疊加 的最小切割來(lái)產(chǎn)生全景電影[2]的方法在本領(lǐng)域中也是已知的。在這兩種方 法中,具有指數(shù)復(fù)雜性(在輸入幀的數(shù)量方面)的問(wèn)題是近似的,并且因 此它們更適合于少量的幀。本領(lǐng)域中的有關(guān)工作與使用最小切割來(lái)組合兩 段電影有關(guān)[20]。
WO2006/048875 [14]公開(kāi)了 一種用于在視頻中操縱時(shí)間流的方法和系 統(tǒng)。第一動(dòng)態(tài)場(chǎng)景的視頻幀的第一序列被轉(zhuǎn)換為描述第二動(dòng)態(tài)場(chǎng)景的視頻 幀的第二序列,以1更在一方面,對(duì)于第一動(dòng)態(tài)場(chǎng)景中的至少一個(gè)特征,視 頻幀的第一序列的相應(yīng)部分以不同于視頻幀的第一序列的周?chē)糠值乃?率采樣;并且所采樣的部分被復(fù)制到第二序列的對(duì)應(yīng)幀中。這允許改變動(dòng) 態(tài)場(chǎng)景中特征的時(shí)間同步。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一個(gè)方面,提供了一種計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法
用于將第一動(dòng)態(tài)場(chǎng)景的視頻幀的第一序列轉(zhuǎn)換為描述第二動(dòng)態(tài)場(chǎng)景的至
少兩個(gè)視頻幀的第二序列,所述方法包括
(a) 獲得所述第一序列中的視頻幀的子集,所述視頻幀的子集顯示包 括位于相應(yīng)的;c、;;坐標(biāo)的多個(gè)像素的至少一個(gè)物體的運(yùn)動(dòng);
(b) 從所述子集選擇在所述第一動(dòng)態(tài)場(chǎng)景中顯示至少一個(gè)物體的非 空間重疊外只見(jiàn)的部分;以及
(c) 將來(lái)自至少3個(gè)不同的輸入幀的部分復(fù)制到所述第二序列的至 少兩個(gè)連續(xù)幀而不改變^f象素在所述物體中相應(yīng)的義、少坐標(biāo),并
且使得所述第二序列的至少 一個(gè)幀包括出現(xiàn)在第 一序列中的不 同幀處的至少兩個(gè)部分。
根據(jù)本發(fā)明的第二個(gè)方面,提供了一種用于將第一動(dòng)態(tài)場(chǎng)景的視頻幀 的第一序列轉(zhuǎn)換到描述第二動(dòng)態(tài)場(chǎng)景的至少2個(gè)視頻幀的第二序列的系 統(tǒng),所述系統(tǒng)包括
第一存儲(chǔ)器,其用于存儲(chǔ)所述第一序列中的視頻幀的子集,所述視頻 幀的子集顯示包括位于相應(yīng)的x、;;坐標(biāo)的多個(gè)像素的至少一個(gè)物體的運(yùn)動(dòng)。
選擇單元,其耦合到所述第一存儲(chǔ)器,用于從所述子集中選擇顯示所 述第一動(dòng)態(tài)場(chǎng)景中至少一個(gè)物體的非空間重疊外觀的部分,
幀生成器,其用于將來(lái)自至少3個(gè)不同的輸入幀的所述部分復(fù)制到所 述第二序列的至少兩個(gè)連續(xù)幀而不改變所述像素在所述物體中相應(yīng)的;c、;; 坐標(biāo),并且使得所述第二序列的至少一個(gè)所述幀包括出現(xiàn)在所述第一序列 中的不同幀的至少兩個(gè)部分,以及
第二存儲(chǔ)器,其用于存儲(chǔ)所述第二序列的幀。
根據(jù)第三個(gè)方面,本發(fā)明還包括可觸知地體現(xiàn)描述動(dòng)態(tài)場(chǎng)景的輸出視 頻幀的序列的數(shù)據(jù)載體,所述輸出視頻幀的至少兩個(gè)連續(xù)幀包括多個(gè)像 素,所述多個(gè)像素具有相應(yīng)的jc、 y坐標(biāo)并且來(lái)源于來(lái)自至少3個(gè)不同的輸 入幀的物體的部分而不改變所述^象素在所述物體中相應(yīng)的x、 y坐標(biāo),并且 使得所述輸出視頻幀的至少一個(gè)包括出現(xiàn)在不同的輸入幀處的至少兩個(gè)
部分
以前的視頻摘要方法(i)視頻概要本身是表示場(chǎng)景的動(dòng)態(tài)的視頻。(ii) 為了盡可能多地減少時(shí)空冗余,在活動(dòng)之間的相對(duì)定時(shí)可以改變。
作為例子,考慮在圖l被表示為時(shí)空體積的示意性視頻片斷。視頻從 在地面上行走的人開(kāi)始,并且一段不活動(dòng)的時(shí)間以后,鳥(niǎo)正在天上飛。不 活動(dòng)的幀在大多數(shù)視頻摘要方法中被省略。視頻概要通過(guò)同時(shí)播放人和 鳥(niǎo),是實(shí)質(zhì)上更緊湊的。當(dāng)在空間位置沒(méi)有其它活動(dòng)發(fā)生時(shí),這通過(guò)將事 件從其原始時(shí)間間隔轉(zhuǎn)移到另 一個(gè)時(shí)間間隔而產(chǎn)生圖像區(qū)域的最佳使用。 這種處理緩和了最初出現(xiàn)在[14]中的事件的時(shí)間順序連貫性。
本發(fā)明也介紹了 一種使用對(duì)馬爾可夫隨機(jī)場(chǎng)(Markov Random Field ) [9]的最優(yōu)化來(lái)產(chǎn)生概要視頻的低層次方法。
本發(fā)明提供的選擇之一是顯示單個(gè)物體的多個(gè)動(dòng)態(tài)外觀的能力。這種 效果是用在移動(dòng)物體的傳統(tǒng)視頻概要[6,1]中的"頻閃(stroboscopic )"圖片 的概括。介紹了用于完成此的兩個(gè)不同的方案。在第一個(gè)方案中,物體在 不同時(shí)刻的快照呈現(xiàn)在輸出視頻中,以便提供在從開(kāi)始位置到結(jié)束位置的 整個(gè)視頻中物體進(jìn)程的指示。在第二個(gè)方案中,物體沒(méi)有限定的起始或結(jié) 束位置而是隨機(jī)地和不可預(yù)知地運(yùn)動(dòng)。在這種情況下,物體在不同時(shí)刻的 快照再次呈現(xiàn)在輸出視頻中,但是這次給出了比實(shí)際存在的物體更多的增 加的物體的印象。兩種方案的共同點(diǎn)在于,在不同時(shí)刻從輸出^L頻拍^l的 多個(gè)快照以避免空間重疊的方式被復(fù)制到輸出視頻,且沒(méi)有來(lái)自無(wú)助于感 興趣的物體的動(dòng)態(tài)發(fā)展的輸入視頻數(shù)據(jù)的復(fù)制。
在本發(fā)明的上下文和所附權(quán)利要求中,術(shù)語(yǔ)"視頻"在其最廣泛的術(shù) 語(yǔ)方面是與"電影"同義的,僅僅假定它作為適合于后處理的計(jì)算機(jī)圖像 文件是可訪問(wèn)的,并且包括任何種類(lèi)的電影文件,例如數(shù)字的、模擬的。 才聶像機(jī)優(yōu)選地在固定的位置,這意味著它可旋轉(zhuǎn)和縮^C一但不經(jīng)歷平移運(yùn) 動(dòng),如在迄今為止提議的技術(shù)中進(jìn)行的。與例如在美國(guó)專利6,665,003[22] 以及貫注于顯示立體圖像的其它引用中處理的靜態(tài)場(chǎng)景相對(duì)比,與本發(fā)明 有關(guān)的場(chǎng)景是動(dòng)態(tài)的,上述立體圖像的顯示沒(méi)有描繪動(dòng)態(tài)場(chǎng)景,在動(dòng)態(tài)場(chǎng)
景中連續(xù)幀具有空間和時(shí)間的連續(xù)性。根據(jù)本發(fā)明的一個(gè)方面,我們將這 種問(wèn)題用公式表示為單個(gè)最小切割問(wèn)題,其可以通過(guò)在圖上找到最大流而
在多項(xiàng)式時(shí)間中解決[5]。
為了描述本發(fā)明,將使用由我們稱為"時(shí)空體積(space-time volume)" 的結(jié)構(gòu)以建立動(dòng)態(tài)全景視頻。時(shí)空體積可通過(guò)沿著時(shí)間軸連續(xù)堆疊所有的 幀由圖像的輸入序列構(gòu)成。然而,應(yīng)理解,只要涉及到實(shí)際的實(shí)現(xiàn),就實(shí) 際上沒(méi)有必要例如通過(guò)在時(shí)間上實(shí)際堆疊動(dòng)態(tài)源場(chǎng)景的2D幀來(lái)構(gòu)造時(shí)空 體積。更一般地,源幀是纟皮單獨(dú)地處理以構(gòu)造目標(biāo)幀,但是它將有助于涉 及到時(shí)空體積的理解,好像它是物理構(gòu)造而不是概念上的構(gòu)造。
為了理解本發(fā)明并觀察它在實(shí)踐中如何實(shí)現(xiàn),現(xiàn)在參考附圖僅作為非 限制性的例子描述優(yōu)選的實(shí)施方式,其中
圖l是圖形表示,其顯示了本發(fā)明的通過(guò)同時(shí)播放時(shí)間上轉(zhuǎn)移的特征 來(lái)產(chǎn)生緊湊的視頻概要的方法;
圖2a和2b是示意性表示,其描迷了根據(jù)本發(fā)明產(chǎn)生的視頻概要;
圖3a、 3b和3c是圖形表示,其顯示了根據(jù)本發(fā)明的時(shí)間重排的實(shí)施
例;
圖4是圖形表示,其顯示了使用圖3b中描述的動(dòng)態(tài)頻閃效應(yīng)的視頻 概要的單個(gè)幀;
圖5a、 5b和5c是圖形表示,其顯示了當(dāng)短的概要可描述較長(zhǎng)的序列 且沒(méi)有活動(dòng)損失亦沒(méi)有頻閃效應(yīng)時(shí)的實(shí)施例。
圖6是圖形表示,其顯示了根據(jù)本發(fā)明的全景視頻概要的進(jìn)一步實(shí)施
例;
圖7a、 7b和7c是圖形表示,其顯示了來(lái)自街道監(jiān)視的視頻概要的細(xì)
節(jié);
圖8a和8b是圖形表示,其顯示了來(lái)自圍墻監(jiān)視的視頻概要的細(xì)節(jié);
圖9是圖形表示,其顯示了根據(jù)本發(fā)明的進(jìn)一步的實(shí)施方式的電影的 增加的活動(dòng)密度;
圖IO是用來(lái)產(chǎn)生圖IO所示的電影的過(guò)程的示意圖ll是方塊圖,其顯示了根據(jù)本發(fā)明的系統(tǒng)的主要功能;以及
圖12是流程圖,其顯示了根據(jù)本發(fā)明執(zhí)行的基本操作。
具體實(shí)施方式
1.活動(dòng)檢測(cè)
本發(fā)明假設(shè)每個(gè)輸入像素以其"重要"程度被標(biāo)注。雖然從現(xiàn)在起我 們將使用"重要"程度作為活動(dòng)程度,但是很明顯,根據(jù)所需要的應(yīng)用對(duì) "重要性"可使用任何其它測(cè)量標(biāo)準(zhǔn)。重要性(或活動(dòng))程度的評(píng)估是假 設(shè)的并且本身不是本發(fā)明的特征。它可以使用各種用于檢測(cè)不規(guī)則性 [4,17]、運(yùn)動(dòng)物體檢測(cè)以及物體追蹤的方法之一實(shí)現(xiàn)??蛇x地,它可基于識(shí) 別算法,例如臉部檢測(cè)。
作為例子,可以選擇筒單的和通常使用的活動(dòng)指示器,其中如果輸入
像素/(Xy力與時(shí)間中值在位置"力的顏色差大于給定的閾值,那么輸入像 素/(Xy力被標(biāo)為"活動(dòng)的"?;顒?dòng)的像素由特征函數(shù)定義<formula>formula see original document page 13</formula>
為了從活動(dòng)指示器中清除噪聲,中值過(guò)濾器在繼續(xù)概要處理前應(yīng)用于
盡管使用連續(xù)的活動(dòng)測(cè)量是可能的,但是發(fā)明人專心于二進(jìn)制情況。 可以使用以下詳細(xì)描述中的幾乎所有等式以僅僅很小的變化[4,n,i]來(lái)使 用連續(xù)的活動(dòng)測(cè)量。
我們描述了兩種用于視頻概要的計(jì)算的不同實(shí)施方式。 一種方法(部 分2 )使用圖形表示以及使用圖形切割的代價(jià)函數(shù)(cost function)的最優(yōu) 化。另一種方法(部分3)使用物體分割和追蹤。
2.通過(guò)能量最小化的視頻概要
使輸入視頻序列的W個(gè)幀被表示在3D時(shí)空體積/(jcjU)中,其中(義,力 是該像素的空間坐標(biāo),且1SGA^是幀數(shù)。
我們希望產(chǎn)生具有以下性質(zhì)的視頻概要S(x,W):
*視頻概要S應(yīng)實(shí)質(zhì)上短于原始視頻/。
*來(lái)自原始視頻的最大量的"活動(dòng)"應(yīng)出現(xiàn)在概要視頻中。
*在^L頻4既要中的物體運(yùn)動(dòng)應(yīng)與其在原始^L頻中的運(yùn)動(dòng)相似。
*視頻概要應(yīng)看起來(lái)良好,并且應(yīng)避免明顯的接縫或破碎的物體。
具有以上性質(zhì)的視頻概要S用映射M生成,給概要S中的每個(gè)坐標(biāo) (;cj力分配來(lái)自7的源像素的坐標(biāo)。我們集中于像素的時(shí)間偏移,保持空間 位置固定。因此,任何概要像素S(Xy力可來(lái)自于輸入像素7Cc,乂M(;cj;,0)。 時(shí)間偏移M通過(guò)解決能量最小化問(wèn)題獲得,其中代價(jià)函數(shù)由下式給出
<formula>formula see original document page 14</formula> ( 1)
其中五。(AO表示活動(dòng)損失,而&(均表示接縫兩端的不連續(xù)性?;顒?dòng)損失是 沒(méi)有出現(xiàn)在視頻概要S中的輸入視頻/中的活動(dòng)像素的數(shù)量,
<formula>formula see original document page 14</formula> (2)
不連續(xù)的代價(jià)&被定義為在概要視頻中的時(shí)空鄰居和在輸入視頻中
的對(duì)應(yīng)鄰居之間的接縫兩端的顏色差之和(類(lèi)似的公式可以在[l]中找到) S 2JS((W) + S)-/((義,;;,MCx,:M)) +《)112 (3)
其中e,是表示6個(gè)時(shí)空鄰居的6個(gè)單位矢量。
圖2a和2b是描述時(shí)空操作的示意性圖示,該操作通過(guò)最小化代價(jià)函 數(shù)來(lái)產(chǎn)生短視頻概要,其中運(yùn)動(dòng)物體的運(yùn)動(dòng)由圖中的"活動(dòng)條"描述。上 部分表示原始視頻,而下部分表示視頻概要。具體地,在圖2a中,較短視 頻概要S通過(guò)包括大多數(shù)活動(dòng)像素由輸出視頻/產(chǎn)生。為了確保平滑,當(dāng) 在S中的像素J對(duì)應(yīng)于/中的像素萬(wàn)時(shí),其"交叉邊界(cross border ),,鄰 居應(yīng)該是類(lèi)似的。找到最佳的M極小化(3)是非常大的最優(yōu)化問(wèn)題。在
圖2b中顯示了近似的解決方案,其中在概要視頻中的連續(xù)像素被限制為 來(lái)自于連續(xù)的輸入像素。
注意,代價(jià)函數(shù)五(M)(等式l)對(duì)應(yīng)于3D馬爾可夫隨機(jī)場(chǎng)(MRF), 其中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于在輸出電影的3D體積中的像素,并且可被賦以對(duì)應(yīng) 于輸入幀的任何時(shí)間值。在節(jié)點(diǎn)上的權(quán)由活動(dòng)代價(jià)確定,而在節(jié)點(diǎn)之間的 邊緣根據(jù)不連續(xù)的代價(jià)確定。代價(jià)函數(shù)因此可由類(lèi)似于迭代的圖像切割[9] 的算法最小化。
2.1.使用2D圖形的受限制的解決方案
允許在視頻概要中的每個(gè)像素來(lái)自于任何時(shí)間的等式1的最優(yōu)化是大 規(guī)模的問(wèn)題。例如,被概括為5秒鐘的視頻概要的3分鐘的輸入視頻導(dǎo)致 具有大約225個(gè)節(jié)點(diǎn)的圖像,每個(gè)節(jié)點(diǎn)具有5400個(gè)標(biāo)簽。
對(duì)于在水平路徑上運(yùn)動(dòng)的動(dòng)態(tài)結(jié)構(gòu)或物體的情況顯示在[2]中,3D MRF可通過(guò)將該問(wèn)題簡(jiǎn)化為1D問(wèn)題而被有效地解決。在這項(xiàng)工作中,我 們處理以更一般的方式運(yùn)動(dòng)的物體,因此我們使用不同的限制。在視頻概 要S中的連續(xù)像素被限制為來(lái)自于輸入視頻/的連續(xù)像素。在這種限制下, 3D圖形簡(jiǎn)化為2D圖形,其中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于在概要電影中的空間位置。 每個(gè)節(jié)點(diǎn)A4x,力的標(biāo)簽確定顯示在S的第一幀中的J中的幀數(shù)"如圖2b
所示。如果A/(Jd,力)-M:JC2^),則在S中的兩個(gè)鄰近位置(^力)和(JC2^2)之
間存在接縫,并且沿著接縫的不連續(xù)代價(jià)五X(qián)竭是對(duì)5"中的所有幀在此空 間位置的顏色差的總和。
<formula>formula see original document page 15</formula> (4)其中?,F(xiàn)在是描述4個(gè)空間鄰居的4個(gè)單位矢量。
每個(gè)節(jié)點(diǎn)的標(biāo)簽的數(shù)量是iv-A:,其中7V和〖分別是在輸入和輸出視頻
中的幀數(shù)。每個(gè)像素的活動(dòng)損失是
<formula>formula see original document page 15</formula>
3.基于物體的概要
如較早描述的用于動(dòng)態(tài)視頻概要的低層次方法限于滿足局部性質(zhì),例 如避免明顯的接縫。當(dāng)物體可被檢測(cè)到時(shí),較高層次的基于物體的性質(zhì)可 被合并。例如,避免頻閃效應(yīng)需要在體積中4企測(cè)和追蹤每個(gè)物體。這部分 描述了一種用于動(dòng)態(tài)視頻概要的基于物體的方法的實(shí)現(xiàn)。在文獻(xiàn)(例如 [7,5,16])中存在幾種基于物體的視頻摘要方法,并且這些方法全部使用檢 測(cè)的物體來(lái)選擇顯著幀(significantframe)。與這些方法不同,為了更好地 利用空間和時(shí)間,本發(fā)明在時(shí)間上轉(zhuǎn)移物體,并且建立從來(lái)沒(méi)有在輸入序 列中出現(xiàn)的新概要幀。
在一個(gè)實(shí)施方式中,如上所述,通過(guò)比較每個(gè)像素與時(shí)間中值并且確 定該差值的閾值來(lái)檢測(cè)運(yùn)動(dòng)物體。這跟隨有使用空間中值過(guò)濾器的噪聲清 除,以及跟隨有將時(shí)空連接的部分分組在一起。應(yīng)認(rèn)識(shí)到,在文獻(xiàn)中有許 多可用在該任務(wù)中的物體檢測(cè)和追蹤的其他方法(例如,[7, 17, 21])。 物體檢測(cè)和追蹤的每個(gè)過(guò)程產(chǎn)生一組物體,其中每個(gè)物體6由其特征函數(shù) 表示
圖3a、 3b和3c是圖形表示,其顯示了根據(jù)本發(fā)明的時(shí)間重排的實(shí)施 例。每個(gè)圖的上部分表示原始視頻,而下部分表示視頻概要,其中運(yùn)動(dòng)物 體的運(yùn)動(dòng)由圖中的"活動(dòng)條"表示。圖3a顯示了在不同時(shí)間記錄、被轉(zhuǎn)移 到視頻概要中的同一時(shí)間間隔的兩個(gè)物體。圖3b顯示了在一段長(zhǎng)的時(shí)間 期間運(yùn)動(dòng)的單個(gè)物體分成具有較短時(shí)間間隔的片斷,片斷然后同時(shí)被播 放,產(chǎn)生動(dòng)態(tài)頻閃效應(yīng)。圖3c顯示了當(dāng)物體體積分成片斷時(shí),物體的交叉 不干擾概要。
從每個(gè)物體中,通過(guò)選擇物體出現(xiàn)的幀的子集而產(chǎn)生片斷。這種片斷 可表示可選地在不同釆樣率下獲得的不同的時(shí)間間隔。
視頻概要S釆用以下操作根據(jù)輸入視頻/構(gòu)造
(1)從輸入視頻/中提取物體LA。
(2) 從原始物體中選擇一組非重疊片斷S。
(3) 將時(shí)間偏移M應(yīng)用到每個(gè)選定的片斷,產(chǎn)生更短的視頻概要, 同時(shí)避免在物體之間的閉塞(occlusion)并實(shí)現(xiàn)無(wú)縫的縫合。這在圖1和 圖3a至3c中被解釋。圖4是圖形表示,其顯示了使用如圖3b所描述的動(dòng) 態(tài)頻閃效應(yīng)的視頻概要的單個(gè)幀的實(shí)施例。
上面的操作(2)和(3)是相互關(guān)聯(lián)的,因?yàn)槲覀兿Mx擇片斷并且 在時(shí)間上移動(dòng)它們來(lái)獲得短而無(wú)縫的視頻概要。應(yīng)認(rèn)識(shí)到,上面的操作(2) 和(3)不需要是完美的。當(dāng)我們說(shuō)"非重疊的片斷"時(shí),可允許小的重 疊,而當(dāng)我們說(shuō)"避免閉塞"時(shí),在時(shí)間偏移的物體之間的小的重疊可被 允許但應(yīng)被最小化,以便得到具有視覺(jué)吸引力的視頻。
在基于物體的表示中,在作為結(jié)杲的概要中的像素可具有多個(gè)源(來(lái) 自不同的物體),并且因此我們?cè)黾雍筇幚聿襟E,其中所有的物體神皮縫合 在一起。背景圖像通過(guò)獲取序列的所有幀的像素中值而產(chǎn)生。所選定的物 體然后可使用與在每個(gè)幀和中間圖像的像素值之間的距離(在RGB空間 中)成比例的權(quán)而被調(diào)和。該縫合機(jī)制類(lèi)似于在[6]中使用的機(jī)制。
我們將映射到單個(gè)概要像素(義,;U) ES的所有像素的集合定義為 src(Xy力,并且我們將在物體(或片斷)中的(活動(dòng))像素的數(shù)量表示為
我們?nèi)缓蠖x測(cè)量片斷5的子集選擇和時(shí)間偏移Af的代價(jià)的能量函 數(shù)。代價(jià)包括活動(dòng)損失&、處罰長(zhǎng)概要視頻的對(duì)物體五。和項(xiàng)A之間的閉 塞的處罰(penalty):
其中
<formula>formula see original document page 17</formula> (7)
3.1.具有預(yù)定長(zhǎng)度的視頻概要
我們現(xiàn)在描述由較長(zhǎng)視頻構(gòu)造預(yù)定長(zhǎng)度f(wàn)的短概要視頻的情況。在這 個(gè)方案中,每個(gè)物體被分割成長(zhǎng)度《的重疊和連續(xù)的片斷。所有的片斷被 時(shí)間偏移以在/=1時(shí)刻開(kāi)始,并且讓我們決定哪個(gè)片斷包4套在4見(jiàn)頻扭克要中。 很明顯,在這個(gè)方案中, 一些物體可不出現(xiàn)在概要視頻中。
我們首先定義在所有片斷對(duì)之間的閉塞代價(jià)。使6,和~是具有出現(xiàn)時(shí) 間/,.和Z/的兩個(gè)片斷,并且使每個(gè)片斷的支持由其特征函數(shù)/(如在等式5 中)表示。
在這兩個(gè)片斷之間的代價(jià)定義為在被偏移到時(shí)刻/=1之后的兩個(gè)片斷 之間的顏色差的總和。
v(AA)= z (/"少,"()-/"乂"。))2'
對(duì)于概要視頻,我們選擇最小化等式6中的代價(jià)的片斷B的部分集合, 其中&現(xiàn)在是常數(shù)并且閉塞代價(jià)由下式給出
為了避免顯示同 一 時(shí)空像素兩次(這是可接受的但是浪費(fèi)的),我們對(duì) 在原始電影中交叉的片斷6,和~設(shè)定v(6,,/v)=w。另外,如果頻閃效應(yīng)是
不期望有的,它可通過(guò)對(duì)從同一個(gè)物體采樣的所有6,和~設(shè)定v(&,^)-w 而被避免。
模擬退火(simulated annealing) [8]用來(lái)最小化能量函數(shù)。每個(gè)狀態(tài)描述 了包括在概要中的片斷的子集,并且鄰近的狀態(tài)設(shè)置成片斷被去除、增加 或用其他片斷代替的集合。
在片斷選擇后,長(zhǎng)度K的概要電影通過(guò)將所有偏移的片斷粘貼到一起 而構(gòu)建。在圖4中給出了使用這種方法的來(lái)自視頻概要的一個(gè)幀的實(shí)施例。
3.2.無(wú)損視頻概要
對(duì)于一些應(yīng)用,例如視頻監(jiān)視,我們可能更喜歡較長(zhǎng)的概要視頻,但 其中保證所有的活動(dòng)出現(xiàn)。在這種情況中,目的不是如在前面的部分中實(shí) 現(xiàn)的那樣選擇一組物體片斷,而更確切地是找到物體片斷的緊湊的時(shí)間重 排。
再次,我們采用模擬退火來(lái)最小化能量。在這種情況中,狀態(tài)對(duì)應(yīng)于 所有片斷的一組時(shí)間偏移,并且兩個(gè)狀態(tài)被定義為鄰居,如果其時(shí)間偏移
僅僅對(duì)單個(gè)片斷不同。有兩個(gè)在這種情況中應(yīng)該注意的問(wèn)題
*出現(xiàn)在第一幀或最后一幀中的物體片斷應(yīng)該在概要視頻中如此保 留;(否則它們可能突然出現(xiàn)或消失)。我們注意每個(gè)狀態(tài)將通過(guò)相 應(yīng)地固定所有這些物體的時(shí)間偏移來(lái)滿足這個(gè)限制。
*輸入視頻的時(shí)間排列一般是能量函數(shù)的局部最小化,并且因此不是 對(duì)開(kāi)始退火處理的優(yōu)先選擇。我們用更短的視頻開(kāi)始我們的模擬退 火,其中所有的物體重疊。
圖5a、 5b和5c是圖形表示,其顯示了當(dāng)短概要可描述較長(zhǎng)的序列而 沒(méi)有活動(dòng)損失以及沒(méi)有頻閃效應(yīng)時(shí)這種方法的實(shí)施例。3個(gè)物體可被時(shí)間 偏移以同時(shí)播放。具體地,圖5a描述了原始視頻(頂部)和^L頻概要(底 部)的示意性時(shí)空?qǐng)D示。圖5b描述了來(lái)自原始視頻的3個(gè)幀;如從圖5a 中看到的,在原始視頻中,每個(gè)人單獨(dú)地出現(xiàn),但在視頻概要中,所有3 個(gè)人可一起出現(xiàn)。圖5c描述了來(lái)自同時(shí)顯示所有3個(gè)人的概要視頻的一個(gè) 幀。
4.全景視頻概要
當(dāng)視頻攝像機(jī)掃描場(chǎng)景時(shí),通過(guò)使用全景鑲嵌可除去很多冗余。然而, 現(xiàn)有方法構(gòu)建了單個(gè)全景圖像,其中失去了場(chǎng)景動(dòng)態(tài)。有限的動(dòng)態(tài)可由頻 閃圖像[6,1,3]表示,其中運(yùn)動(dòng)物體顯示在沿著其路徑的幾個(gè)位置。
全景概要^f見(jiàn)頻可通過(guò)同時(shí)顯示在場(chǎng)景的不同時(shí)間不同區(qū)域發(fā)生的行為 而產(chǎn)生??傻玫较喈?dāng)大的濃縮,因?yàn)閷?duì)每個(gè)物體的活動(dòng)的持續(xù)時(shí)間-故限制 在它被攝像機(jī)觀察的時(shí)間。特別的情況是當(dāng)攝像機(jī)追蹤例如圖6所示的奔
跑的雌獅等的物體時(shí)。當(dāng)攝像機(jī)追蹤奔跑的雌獅時(shí),概要視頻是背景的全 景鑲嵌,并且前景包括奔跑的雌獅的幾個(gè)動(dòng)態(tài)復(fù)制。在這種情況中,僅僅 通過(guò)允許頻閃效應(yīng)可得到短的^L頻相克要。
構(gòu)建全景視頻概要以類(lèi)似于普通視頻概要的方式完成,具有使所有的 幀對(duì)準(zhǔn)一些參考幀的初步階段。在對(duì)準(zhǔn)之后,物體的圖像坐標(biāo)從全局坐標(biāo) 系統(tǒng)中取得,所述全局坐標(biāo)系統(tǒng)可以是輸入圖像之一的坐標(biāo)系統(tǒng)。
為了能夠處理視頻,即使在運(yùn)動(dòng)物體的分割不完美時(shí),我們處罰了閉 塞而不是完全阻止它們。該閉塞處罰實(shí)現(xiàn)了物體的時(shí)間布置中的靈活性, 即使在分割不完美時(shí),并且物體的像素可包括一些背景。
可以增加另外的項(xiàng),其將概要視頻的時(shí)間排序朝著輸入視頻的排序偏置。
由于大量的可能性,對(duì)所有可能的片斷選集萬(wàn)以及時(shí)間偏移M最小化
上面的能量是非常消耗的。然而,該問(wèn)題可通過(guò)限制解決方案而顯著地按 比例減小。兩個(gè)受限的方案在以下部分中描述。
5.監(jiān)視實(shí)施例
對(duì)于視頻概要的有趣的應(yīng)用可以是獲取存儲(chǔ)的監(jiān)視視頻。當(dāng)在視頻中 檢查某些事件變得必要時(shí),其可使用視頻概要非常快地完成。
如上所述,圖5顯示了視頻概要在將所有活動(dòng)濃縮至短時(shí)間段而不損 失任何活動(dòng)方面的能力的實(shí)施例。這使用從監(jiān)控咖啡站的攝像機(jī)中收集的 視頻來(lái)完成。從真實(shí)的監(jiān)視攝像機(jī)給出了兩個(gè)另外的實(shí)施例。圖8a、 8b 和8c是圖形表示,其顯示了來(lái)自街道監(jiān)視的視頻概要的細(xì)節(jié)。圖8a顯示 了來(lái)自原始視頻(22秒)的典型幀。圖8b描迷了來(lái)自顯示濃縮活動(dòng)的視 頻概要電影(2秒)的幀。圖8c描述了來(lái)自顯示甚至更濃縮活動(dòng)的更短的 視頻概要(0.7秒)的幀。在這些圖中顯示的圖像來(lái)源于由觀察城市街道 的攝像機(jī)拍攝的視頻,行人偶而越過(guò)視場(chǎng)。他們中的許多可以被收集到非 常濃縮的概要中。
圖8a和8b是圖形表示,其顯示了來(lái)自圍墻監(jiān)視的視頻概要的細(xì)節(jié)。 在圍墻附近有非常少的活動(dòng),并且有時(shí)我們可以看到朝著*~欄爬行的士
兵。視頻概要顯示了同時(shí)爬行和步行的士兵的所有情況,或可選地通過(guò)頻 閃地播》文視頻而使得概要視頻更短。
6. 通過(guò)視頻概要的視頻索引
視頻概要可用于視頻索引,為使用者提供有效和直觀的鏈接以訪問(wèn)視 頻中的行為。這可通過(guò)將指針與每個(gè)概要像素相關(guān)聯(lián)而實(shí)現(xiàn),指針指向原 始視頻中對(duì)應(yīng)物體的出現(xiàn)。在視頻概要中,視頻的信息被投影到"活動(dòng)的 空間"中,其中只有活動(dòng)重要,不管其時(shí)間情境(盡管我們?nèi)匀槐A艨臻g 情境)。因?yàn)榛顒?dòng)被集中在短的時(shí)間段內(nèi),在視頻中的具體活動(dòng)可以被容 易地獲取。
從前面的描迷中應(yīng)該清楚,當(dāng)視頻攝像機(jī)掃描動(dòng)態(tài)場(chǎng)景時(shí),在輸入視 頻中區(qū)域變得可見(jiàn)的絕對(duì)"時(shí)序時(shí)間"不是場(chǎng)景動(dòng)態(tài)的一部分。在每個(gè)區(qū) 域的可見(jiàn)時(shí)間段期間的"局部時(shí)間"對(duì)于描述場(chǎng)景中的動(dòng)態(tài)更相關(guān),并在 構(gòu)建動(dòng)態(tài)鑲嵌時(shí)應(yīng)凈皮保留。上述的實(shí)施方式呈現(xiàn)了本發(fā)明的第一個(gè)方面。 根據(jù)第二個(gè)方面,我們現(xiàn)在將顯示如何建立無(wú)縫全景鑲嵌,其中在圖像之 間的縫合盡可能多地避免了來(lái)自場(chǎng)景中物體的切斷部分,即使當(dāng)這些物體 可能運(yùn)動(dòng)時(shí)。
7. 利用3D最小切割建立全景圖像
使... 乂jv是輸入序列的幀。我們假設(shè)使用 一種現(xiàn)有的方法使序列對(duì)準(zhǔn) 單個(gè)參考幀。為了簡(jiǎn)單,我們假設(shè)所有幀在對(duì)準(zhǔn)之后具有相同尺寸(在攝 像機(jī)的視場(chǎng)之外的像素將被標(biāo)記為無(wú)效的)。還假設(shè)攝像機(jī)是順時(shí)針搖攝 的。(不同的運(yùn)動(dòng)可以按類(lèi)似的方式處理)。
使尸(x,力是構(gòu)建的全景圖像。對(duì)于在P中的每個(gè)像素(x,力,我們需要 選擇幀M(jc,力,該像素從其取得。(也就是說(shuō),如果Af(xj—A:,那么 P(Xv^/"jcj;)。)明顯地,在攝像機(jī)是順時(shí)針搖攝的假設(shè)下,左列必須從第 一幀取得,而右列必須從最后一幀取得。(可選擇其它的邊界條件來(lái)產(chǎn)生 具有更小視場(chǎng)的全景圖像)。
我們的目的是產(chǎn)生無(wú)縫的全景圖像。為了這么做,我們將試圖避免在 物體內(nèi)的縫合,特別是它們?cè)谶\(yùn)動(dòng)時(shí)。我們使用接縫分?jǐn)?shù)(seam score),類(lèi)似于由[l]使用的分?jǐn)?shù),而不是(近似地)解決NP-hard問(wèn)題,我們將找 到對(duì)限制更多的問(wèn)題的最佳解決方案。
8. 將問(wèn)題用公式表示為能量最小化問(wèn)題
與以前公式的主要不同是我們的縫合代價(jià),由以下公式定義
五禍(W乂乂)-"nil"")-;(")ll2+^A"',力-4h4(乂,乂)112
fc=minM2 2 (10)
其中
此代價(jià)在假設(shè)幀的分配是連續(xù)的情況下是合理的,這意味著如果(jc,力 和0c;;O是鄰近的像素,則它們的源幀M(x,力和M(jc0O是接近的。此代價(jià) 的主要優(yōu)點(diǎn)是它允許我們將該問(wèn)題作為對(duì)圖的最小切割問(wèn)題來(lái)解決。
我們將最小化的能量函數(shù)是
+ Z (1 -歸d(jc, y, A/(;c,力) Z) (11 )
其中
Mjc,力是在(x,力附近的像素。
五(Xy,義;y)是對(duì)每個(gè)鄰近像素的縫合代價(jià),如等式l中所述的。 r"/械jc,;^)是10/"jc,力是有效像素(即,在攝像機(jī)的視場(chǎng)內(nèi))。 D是非常大的數(shù)字(代表無(wú)限)。
9. 建立單個(gè)全景
我們接下來(lái)顯示如何將2D多標(biāo)簽問(wèn)題(其具有指數(shù)復(fù)雜性)變換為 3D二進(jìn)制問(wèn)題(其具有多項(xiàng)式復(fù)雜性,并且實(shí)際上可被快速解決)。對(duì)于 每個(gè)^f象素(Xy)以及輸入幀&,我們定義二進(jìn)制變量^c,乂A:),當(dāng)且僅當(dāng)
m(x,y)<=k時(shí)等于l (M(x,y)是像素(x,y)的源幀)。顯然,6(x,y,N)=1。
注意,對(duì)每個(gè)1<=k<=N)給定b(x,y,k),我們可將M(r,力確定為b(x,y,k)=1 的最小k。我們寫(xiě)出能量項(xiàng),其最小化將給出無(wú)縫全景。對(duì)于每個(gè)鄰近的 像素(x,y)和(x',y')且對(duì)于每個(gè)k我們對(duì)b(x,y,k)b(x',y',k)的賦值 (assignment)增力口誤差項(xiàng)
<formula>formula see original document page 23</formula> (該誤差項(xiàng)是對(duì)稱的)。
我們還對(duì)Z)(jc,;^)-1但6(x,乂A:+l)-0的賦值增加無(wú)限處罰。(因?yàn)?M(jc,;;)《A:但M(jcj) 〉A(chǔ):是不可能的)。
最后,如果/"jc,力是無(wú)效像素,則我們可通過(guò)將無(wú)限處罰賦予賦值 如果A>1, b(x,y,k)-l Ab(x,y,k+1)=0或A^l的,來(lái)避免選擇這個(gè)像 素。(這些賦值暗指A/(Xy)-A:)。
上面的所有項(xiàng)都在3D柵格中的變量對(duì)上,并且因此我們可描述為對(duì) 3D 二進(jìn)制MRF最小化能量函數(shù),并且使用最小切割[9]在多項(xiàng)式時(shí)間中最 小化它。
10.使用4D最小切割建立全景電影
為了建立全景電影(長(zhǎng)度為丄),我們必須建立全景圖像的序列。獨(dú)立 地構(gòu)建每個(gè)全景圖像是不合適的,因?yàn)闆](méi)有加強(qiáng)時(shí)間連貫性。另一種方式 是以作為第一幀的初始鑲嵌圖像開(kāi)始,并且對(duì)連續(xù)的鑲嵌圖像,從用于前 面鑲嵌的連續(xù)幀中取出每個(gè)像素(Ml(x,y))=M(x,y)+l)。這個(gè)可能性類(lèi)似于上 面參考附圖的圖2描述的可能性。
根據(jù)本發(fā)明的第二個(gè)方面,我們改為使用不同的公式,其給予縫合從 一個(gè)全景幀變化為另一個(gè)的機(jī)會(huì),這對(duì)于成功地縫合運(yùn)動(dòng)物體非常重要。
我們構(gòu)建由以前描述的3D圖的丄個(gè)實(shí)例組成的4D圖<formula>formula see original document page 23</formula>為了加強(qiáng)時(shí)間連貫性,我們對(duì)每個(gè)l<1的賦值b(x,y,N,l)=1給予無(wú)限處 罰,以及對(duì)每個(gè)l>1的賦值b(x,y,1,l)=0給予無(wú)限處罰。
另外,對(duì)于每個(gè)(;c,;^,/) (1《/《Z-l,l《hA^-l),我們對(duì)賦值Z)(jc,>^,/)=1 #Z)(jcj^+1,/+1),設(shè)定代價(jià)函數(shù)
<formula>formula see original document page 24</formula> (12)
(對(duì)于k=N-1,我們僅僅使用代價(jià)函數(shù)的左項(xiàng))。該代價(jià)促進(jìn)顯示在作為結(jié) 果的電影中的(時(shí)間)連續(xù)像素(除非例如這些像素在背景中)。
該方法的變形是在連續(xù)幀處不將每個(gè)像素(x,y)連接到同 一個(gè)像素,而 是根據(jù)在像素(M,v)處的光流(optical flow)連接到對(duì)應(yīng)的像素(jc+i^+v)。 可以例如在[19]中找到計(jì)算光流的合適的方法。使用光流更好地處理運(yùn)動(dòng) 物體的情況。
再次,我們可利用對(duì)4D圖的最小切割來(lái)最小化能量函數(shù),并且二進(jìn) 制解決方案定義了減少縫合問(wèn)題的全景電影。
11.實(shí)踐改進(jìn)
可能需要大量的存儲(chǔ)器來(lái)保存4D圖。我們因此使用既減少存儲(chǔ)器要 求又減少算法的運(yùn)行時(shí)間的幾個(gè)改進(jìn)
*如上所述,能量可被最小化而沒(méi)有明確地保存無(wú)效像素的頂點(diǎn)。頂 點(diǎn)的數(shù)量因此減少到輸入視頻中像素的數(shù)量乘以輸出視頻中幀的 數(shù)量。
*不是解決輸出視頻中的每一幀,我們可只解決一組采樣的輸出幀, 并且將縫合函數(shù)插入其間。此改進(jìn)基于在場(chǎng)景中的運(yùn)動(dòng)不是非常大 的假設(shè)。
*我們可將每個(gè)像素限制為僅僅來(lái)自輸入幀的部分組。這對(duì)從視頻中 取得的幀的序列特別有意義,其中在每對(duì)連續(xù)幀之間的運(yùn)動(dòng)非常 小。在這種情況中,我們通過(guò)對(duì)每個(gè)像素采樣這組源幀而不失去很 多。但是以一致的方式采樣源幀是合理的。例如,如果幀A:是在第 /個(gè)輸出幀中的像素(x,力的可能源,那么A+l幀應(yīng)是在第/+1個(gè)輸 出幀中像素(x,y)的可能源幀。
*我們使用多分辨率框架(例如在[2]中完成的),其中找到了對(duì)低分
辨率圖像(在模糊化和子釆樣后)的粗略的解決方案,并且該解決 方案僅僅在邊界內(nèi)被改進(jìn)。
12. 使興趣分?jǐn)?shù)(interest score)與視頻聯(lián)合
我們現(xiàn)在描述一種用于根據(jù)興趣分?jǐn)?shù)來(lái)組合視頻的方法。有幾種應(yīng)用, 例如建立具有更密集(或更稀疏)的活動(dòng)的電影,或甚至按用戶特定的方 式控制場(chǎng)景。
在[14]中描述的動(dòng)態(tài)全景可以認(rèn)為是特別的情況,其中同一個(gè)電影的 不同部分被組合來(lái)得到具有較大視場(chǎng)的電影在這種情況中,我們根據(jù)在 每個(gè)時(shí)間的每個(gè)像素的"可見(jiàn)度"定義了興趣分?jǐn)?shù)。更一般地,組合同一 個(gè)電影的不同部分可以用在其它的情況中。例如,為了使電影中的活動(dòng)更 密集,我們可以將電影中動(dòng)作發(fā)生的不同部分組合為具有大量動(dòng)作的新電 影。以上參考圖1至8描述的實(shí)施方式描述了最大化活動(dòng)的特別情況,并 且使用不同的方法。
應(yīng)被處理的兩個(gè)問(wèn)題是
1. 如何將電影組合為"好看的"電影。例如,我們想要避免縫合問(wèn)題。
2. 最大化興趣分?jǐn)?shù)。
我們通過(guò)描述可祐 使用的不同分?jǐn)?shù)來(lái)開(kāi)始,并且然后描述用來(lái)組合電 影的方案。
可以用作電影的興趣函數(shù)的一個(gè)主要特征是像素的"重要"程度。在 我們的實(shí)施方式中,我們考慮像素中的"活動(dòng)"來(lái)表示其重要性,但是重 要性的其它測(cè)量標(biāo)準(zhǔn)也是適合的?;顒?dòng)程度的評(píng)估本身不是本發(fā)明的特 征,并且可以使用如上面在第一部分中提到的(活動(dòng)^r測(cè))多種方法之一 來(lái)實(shí)現(xiàn)。
13. 其它分?jǐn)?shù)
可以使用其它分?jǐn)?shù)來(lái)組合電影
*可見(jiàn)度分?jǐn)?shù)當(dāng)攝像機(jī)移動(dòng)時(shí),或如果我們?cè)噲D填充視頻中的洞時(shí), 存在不可見(jiàn)的像素。我們可處罰(不必具有無(wú)限分?jǐn)?shù))無(wú)效像素。
以這種方式,我們可鼓勵(lì)填充洞(或增加視場(chǎng)),但可能更喜歡不 填充洞,或如果它導(dǎo)致劣質(zhì)的縫合則使用較小的視場(chǎng)。
*方向活動(dòng)測(cè)量可以用方向測(cè)量代替。例如,與垂直移動(dòng)的區(qū)域相 比,我們可能更喜歡水平移動(dòng)的區(qū)域。
*使用者指定使用者可以指定喜歡的興趣函數(shù),例如顏色、質(zhì)地等 等。另外,使用者可用不同的分?jǐn)?shù)手動(dòng)指定區(qū)域(或時(shí)間片)。例 如,通過(guò)畫(huà)面具,其中l(wèi)表示期望最大量的活動(dòng),而0表示期望沒(méi) 有活動(dòng),使用者可控制在場(chǎng)景中的動(dòng)態(tài),即發(fā)生在指定的地點(diǎn)。
14.算法
我們使用類(lèi)似于由[20]使用的方法的具有以下變化的方法
*我們?yōu)橐獜囊粋€(gè)電影或另一個(gè)選擇的每個(gè)像素添加興趣分?jǐn)?shù)。該分 數(shù)可使用來(lái)自每個(gè)電影的每個(gè)像素的邊緣被添加到終端頂點(diǎn)(源和 匯(sink)),并且在這些邊緣中的權(quán)是興趣分?jǐn)?shù)。
*我們(可選地)計(jì)算在每個(gè)連續(xù)的幀對(duì)之間的光流。然后,為了加 強(qiáng)連貫性,我們可根據(jù)光流((Xy力到<formula>formula see original document page 26</formula>,用鄰居 之間的邊緣代替在時(shí)間鄰居((Xy力到(X)U+l))之間的邊緣。這加強(qiáng) 了在縫合的電影之間的過(guò)渡,因?yàn)樗膭?lì)縫合跟隨較不明顯的流。
*當(dāng)決定組合電影的哪些部分(或哪些電影)時(shí),我們應(yīng)不僅考慮縫 合代價(jià),而且考慮興趣分?jǐn)?shù)。例如,當(dāng)建立具有更密集的活動(dòng)程度 的電影時(shí),我們選擇最大化分?jǐn)?shù)的一組電影S:<formula>formula see original document page 26</formula>
圖9b是圖形表示,其將此效應(yīng)展示為增加的活動(dòng)密度的電影,在圖 9a中顯示來(lái)自該電影的原始幀。當(dāng)多于兩個(gè)的電影被組合時(shí),我們使用迭 代方法,其中在每次迭代中,新的電影^皮組合到作為結(jié)果的電影中。為了 正確地這么做,我們應(yīng)考慮由以前的迭代產(chǎn)生的舊的接縫和分?jǐn)?shù)。盡管沒(méi) 有興趣分?jǐn)?shù),該方案由[20]描述。圖9b顯示了來(lái)自作為結(jié)果的視頻的一個(gè)
采樣幀。
圖IO是過(guò)程的示意圖。在這個(gè)實(shí)施例中,視頻與本身的時(shí)間偏移的版 本組合。該組合使用根據(jù)以上所述的標(biāo)準(zhǔn)的最小切割,即,最大化興趣分 數(shù)同時(shí)最小化縫合代價(jià)來(lái)實(shí)現(xiàn)。
現(xiàn)在參考圖11,其顯示了根據(jù)本發(fā)明的系統(tǒng)10的方塊圖,用于將由 攝像機(jī)11拍攝的第一動(dòng)態(tài)場(chǎng)景的視頻幀的第一序列轉(zhuǎn)換為描述第二動(dòng)態(tài) 場(chǎng)景的至少兩個(gè)視頻幀的第二序列。所述系統(tǒng)包括用于存儲(chǔ)在第 一序列中
的視頻幀的子集的第一存儲(chǔ)器12,該視頻幀的子集顯示包括位于相應(yīng)的x、 y坐標(biāo)的多個(gè)像素的至少一個(gè)物體的運(yùn)動(dòng)。選擇單元13耦合到第一存儲(chǔ)器 12,用于從子集中選擇在第一動(dòng)態(tài)場(chǎng)景中顯示至少一個(gè)物體的非空間重疊 外觀的部分。幀生成器14將來(lái)自至少3個(gè)不同的輸入幀的部分復(fù)制到第 二序列的至少兩個(gè)連續(xù)幀而不改變?cè)谖矬w中的像素的相應(yīng)的jc、 _y坐標(biāo),并 且使得第二序列的至少一個(gè)幀包括出現(xiàn)在第一序列中的不同幀處的至少 兩個(gè)部分。第二序列的幀存儲(chǔ)在第二存儲(chǔ)器15中,用于隨后的處理或由 顯示單元16顯示。幀生成器14可包括用于使至少兩個(gè)部分在復(fù)制到第二 序列之前空間地彎曲的彎曲單元17。
系統(tǒng)10可實(shí)際上由具有圖形卡或工作站的適當(dāng)編程的計(jì)算^L以及適 當(dāng)?shù)耐鈬O(shè)備實(shí)現(xiàn),如在本領(lǐng)域中都^皮公知的。
在系統(tǒng)10中,所述至少3個(gè)不同的輸入幀可在時(shí)間上連續(xù)。系統(tǒng)IO 還可包括耦合到第一存儲(chǔ)器的可選的對(duì)準(zhǔn)單元18,用于預(yù)先對(duì)準(zhǔn)視頻幀的 第一序列。在這種情況中,攝像機(jī)11將耦合到對(duì)準(zhǔn)單元18,以便在第一 存儲(chǔ)器12中存儲(chǔ)預(yù)先對(duì)準(zhǔn)的視頻幀。對(duì)準(zhǔn)單元18通過(guò)下列步驟操作
計(jì)算在第一序列中的幀之間的圖像運(yùn)動(dòng)參數(shù);
使在第一序列中的視頻幀彎曲,以便在第一動(dòng)態(tài)場(chǎng)景中的靜止物體在 視頻中是靜止的。
同樣,系統(tǒng)10也可包括耦合到選擇單元13的可選的時(shí)間片^:生成器 19,用于通過(guò)"時(shí)間波前(time front)"表面掃描對(duì)準(zhǔn)的時(shí)空體積,并且產(chǎn) 生時(shí)間片段的序列。
這些可選的特征沒(méi)有被詳細(xì)地描述,因?yàn)樵谶M(jìn)行了引用的上述
WO2006/048875中完整地描述了它們以及術(shù)語(yǔ)"時(shí)間波前"和"時(shí)間片段"。
為了完整性起見(jiàn),圖12是流程圖,其顯示了根據(jù)本發(fā)明由系統(tǒng)10執(zhí) 行的基本操作。
15.討論
視頻概要被提議為一種用于將視頻中的活動(dòng)濃縮為非常短的時(shí)間段的 方法。此濃縮的表示可實(shí)現(xiàn)對(duì)視頻序列中的活動(dòng)的有效訪問(wèn)。介紹了兩種 方法 一種方法使用低層次的圖形最優(yōu)化(graphoptimization),其中在概 要視頻中的每個(gè)像素是該圖形中一個(gè)節(jié)點(diǎn)。這種方法具有直接從輸入視頻 得到概要視頻的好處,但是該解決方案的復(fù)雜性可能非常高??蛇x的方法 是首先檢測(cè)運(yùn)動(dòng)物體并且對(duì)檢測(cè)的物體執(zhí)行最優(yōu)化。盡管在第二種方法中 需要運(yùn)動(dòng)分割的預(yù)備步驟,但是它快得多,并且基于物體的限制是可能的。 在作為結(jié)果的視頻概要中的活動(dòng)比在任何普通視頻中的活動(dòng)濃縮得更多, 并且觀看這種概要對(duì)于無(wú)經(jīng)驗(yàn)的觀看者可能看起來(lái)難以使用。但是當(dāng)目的 是在短時(shí)間內(nèi)觀察很多信息時(shí),視頻概要提供這個(gè)目的。應(yīng)對(duì)得到動(dòng)態(tài)頻 閃的可能性給予特別的注意。盡管允許視頻概要的長(zhǎng)度進(jìn)一步減少,但是 動(dòng)態(tài)頻閃可能需要使用者進(jìn)一步適應(yīng)。確實(shí)需要一些訓(xùn)練來(lái)實(shí)現(xiàn)表示較長(zhǎng) 活動(dòng)時(shí)間的單個(gè)物體的多個(gè)空間出現(xiàn)。盡管我們?cè)敿?xì)描述了對(duì)于動(dòng)態(tài)視頻 概要的特別實(shí)現(xiàn),但許多擴(kuò)展是筒單直接的。例如,活動(dòng)指示器可以是連 續(xù)的,而不是利用二進(jìn)制"活動(dòng),,指示器。連續(xù)的活動(dòng)可擴(kuò)展可用于建立 概要視頻的選擇,例如通過(guò)基于物體的活動(dòng)水平控制顯示的物體的速度。 視頻概要也可以應(yīng)用于由許多鏡頭組成的長(zhǎng)電影。理論上,由于閉塞(或 不連續(xù))處罰,我們的算法不結(jié)合來(lái)自不同場(chǎng)景的部分。在這種情況中, 用于單個(gè)鏡頭的簡(jiǎn)單背景模式必須用可調(diào)節(jié)的背景估算器代替??蓱?yīng)用在 長(zhǎng)電影中的另 一方法是使用用于鏡頭邊界檢測(cè)的已有方法,并且對(duì)每個(gè)鏡 頭單獨(dú)地建立視頻概要。
也應(yīng)理解,根據(jù)本發(fā)明的系統(tǒng)可以是適當(dāng)編程的計(jì)算機(jī)。同樣,本發(fā) 明設(shè)想計(jì)算機(jī)可讀的計(jì)算機(jī)程序用于執(zhí)行本發(fā)明的方法。本發(fā)明還i殳想機(jī) 器可讀存儲(chǔ)器,其可觸知地包括由用于執(zhí)行本發(fā)明的方法的機(jī)器可執(zhí)行的 指令的程序。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,其用于將第一動(dòng)態(tài)場(chǎng)景的視頻幀的第一序列轉(zhuǎn)換為描述第二動(dòng)態(tài)場(chǎng)景的至少兩個(gè)視頻幀的第二序列,所述方法包括(a)獲得所述第一序列中的視頻幀的子集,所述視頻幀的子集顯示包括位于相應(yīng)的x、y坐標(biāo)的多個(gè)像素的至少一個(gè)物體的運(yùn)動(dòng);(b)從所述子集選擇在所述第一動(dòng)態(tài)場(chǎng)景中顯示所述至少一個(gè)物體的非空間重疊外觀的部分;以及(c)將來(lái)自至少3個(gè)不同的輸入幀的所述部分復(fù)制到所述第二序列的至少兩個(gè)連續(xù)幀而不改變所述像素在所述物體中的相應(yīng)的x、y坐標(biāo),并且使得所述第二序列的至少一個(gè)所述幀包括出現(xiàn)在所述第一序列中的不同幀處的至少兩個(gè)部分。
2. 如權(quán)利要求1所述的方法,其中所述至少兩個(gè)部分與共同的物體 有關(guān)。
3. 如權(quán)利要求1或2所述的方法,其中所述從所述子集選擇部分包 括確定興趣分?jǐn)?shù)。
4. 如權(quán)利要求3所述的方法,其中所述興趣分?jǐn)?shù)是活動(dòng)的測(cè)量。
5. 如權(quán)利要求1至4中任一項(xiàng)所述的方法,其中所述第二序列包括 在所述第 一動(dòng)態(tài)場(chǎng)景中所有感興趣的物體。
6. 如權(quán)利要求1至4中任一項(xiàng)所述的方法,其中也出現(xiàn)在所述第二 序列中的所述第 一動(dòng)態(tài)場(chǎng)景中的 一定數(shù)量的感興趣的物體是在最大化所 述數(shù)量同時(shí)保持所述第二序列的視覺(jué)吸引力之間的折衷。
7. 如權(quán)利要求1至6中任一項(xiàng)所述的方法,其中所述第一動(dòng)態(tài)場(chǎng)景 由在固定位置的攝像機(jī)拍攝。
8. 如權(quán)利要求7所述的方法,其中所述攝像機(jī)相對(duì)于在所迷固定位 置的軸旋轉(zhuǎn),并且所述jc、 y坐標(biāo)是全局坐標(biāo)。
9. 如權(quán)利要求1至8中任一項(xiàng)所述的方法,其中所述第一序列的所 述至少3個(gè)不同的幀在時(shí)間上是連續(xù)的。
10. 如權(quán)利要求1至9中任一項(xiàng)所述的方法,其包括使所述部分的至 少兩個(gè)在復(fù)制到所述第二序列以前空間地彎曲。
11. 如權(quán)利要求1至10中任一項(xiàng)所述的方法,其中所迷選擇的部分在 所述第一動(dòng)態(tài)場(chǎng)景中是空間上連續(xù)的。
12. 如權(quán)利要求1至11中任一項(xiàng)所述的方法,其包括通過(guò)下列步驟預(yù) 先對(duì)準(zhǔn)視頻幀的所述第 一序列,以便產(chǎn)生對(duì)準(zhǔn)的時(shí)空體積(a) 計(jì)算在所述第一序列中的幀之間的圖像運(yùn)動(dòng)參數(shù);(b) 使在所述第一序列中的所述視頻幀彎曲,以便在所述第一動(dòng)態(tài) 場(chǎng)景的靜止物體在所述視頻中是靜止的。
13. 如權(quán)利要求1至12中任一項(xiàng)所述的方法,其中至少一個(gè)所述選 擇的部分與快速移動(dòng)的物體有關(guān)。
14. 如權(quán)利要求12所述的方法,其中選擇圖像片段包括通過(guò)"時(shí)間 波前"表面掃描所述對(duì)準(zhǔn)的時(shí)空體積,并且產(chǎn)生時(shí)間片段的序列。
15. 如權(quán)利要求1至14中任一項(xiàng)所述的方法,其中在所述第一視頻 序列中同時(shí)出現(xiàn)的兩個(gè)事件在不同的時(shí)間顯示在所述第二視頻序列中。
16. 如權(quán)利要求1至15中任一項(xiàng)所述的方法,其用于視頻概要。
17. 如權(quán)利要求16所述的方法,其用來(lái)監(jiān)視。
18. 如權(quán)利要求16所述的方法,其用來(lái)增加電影的活動(dòng)密度。
19. 如權(quán)利要求16所述的方法,其用于視頻索引。
20. 如權(quán)利要求19所述的方法,其包括對(duì)在所述第二序列中的每個(gè) 像素維持指向所述第一序列中的對(duì)應(yīng)像素的指針。
21. —種數(shù)據(jù)載體,其可觸知地包括描述動(dòng)態(tài)場(chǎng)景的輸出視頻幀的序 列,所述輸出視頻幀的至少兩個(gè)連續(xù)幀包括多個(gè)像素,所述多個(gè)像素具有 相應(yīng)的x、 y坐標(biāo)并且來(lái)源于來(lái)自至少3個(gè)不同輸入幀的物體的部分而不 改變像素在所述物體中的相應(yīng)的jc、 y坐標(biāo),并且使得所述輸出視頻幀的至少一個(gè)包括出現(xiàn)在不同輸入幀處的至少兩個(gè)部分。
22. —種系統(tǒng)(IO),其用于將第一動(dòng)態(tài)場(chǎng)景的視頻幀的第一序列轉(zhuǎn) 換到描述第二動(dòng)態(tài)場(chǎng)景的至少兩個(gè)視頻幀的第二序列,所述系統(tǒng)包括第一存儲(chǔ)器(12),其用于存儲(chǔ)在所述第一序列中的視頻幀的子集, 所述^L頻幀的子集顯示包4舌位于相應(yīng)的jc、少坐標(biāo)的多個(gè)^f象素的至少一個(gè)物 體的運(yùn)動(dòng),選擇單元(13),其耦合到所述第一存儲(chǔ)器,用于從所述子集中選擇 在所述第一動(dòng)態(tài)場(chǎng)景中顯示所述至少一個(gè)物體的非空間重疊外觀的部分,幀生成器(14),其用于將所述部分從至少3個(gè)不同的輸入幀中復(fù)制 到所述第二序列的至少兩個(gè)連續(xù)幀而不改變所述像素在所述物體中相應(yīng) 的x、;;坐標(biāo),并且使得所述第二序列的至少一個(gè)所述幀包括出現(xiàn)在所述第 一序列的不同幀處的至少兩個(gè)部分,以及第二存儲(chǔ)器(15),其用于存儲(chǔ)所述第二序列的幀。
23. 如權(quán)利要求22所述的系統(tǒng),其還包括耦合到所述第二存儲(chǔ)器用 于顯示所述第二動(dòng)態(tài)場(chǎng)景的顯示裝置(16)。
24. 如權(quán)利要求22或23所述的系統(tǒng),其中所述至少3個(gè)不同的輸入 幀在時(shí)間上是連續(xù)的。
25. 如權(quán)利要求22至24中任一項(xiàng)所述的系統(tǒng),其中所述幀生成器包 括用于使至少兩個(gè)所述部分在復(fù)制到所述第二序列之前空間地彎曲的彎 曲單元(17)。
26. 如權(quán)利要求22至25中任一項(xiàng)所述的系統(tǒng),其還包括耦合到所述 第 一存儲(chǔ)器用于通過(guò)下列步驟預(yù)先對(duì)準(zhǔn)視頻幀的所述第一序列的對(duì)準(zhǔn)單 元(18):(a) 計(jì)算在所述第一序列的幀之間的圖像運(yùn)動(dòng)參數(shù);(b) 使在所述第一序列中的所述視頻幀彎曲,以使在所述第一動(dòng)態(tài) 場(chǎng)景中的靜止物體在所述視頻中是靜止的。
27. 如權(quán)利要求22至26中任一項(xiàng)所述的系統(tǒng),其包括時(shí)間片段生成器(19),所述時(shí)間片段生成器(19)耦合到所述選擇單元,用于由"時(shí) 間波前"表面掃描所述對(duì)準(zhǔn)的時(shí)空體積,并且生成時(shí)間片段序列。
28. —種計(jì)算機(jī)程序,其包括當(dāng)所述程序在計(jì)算機(jī)上運(yùn)行時(shí)執(zhí)行權(quán)利 要求1至20中任一項(xiàng)所述的方法的計(jì)算機(jī)程序代碼裝置。
29. 如權(quán)利要求28所述的計(jì)算機(jī)程序,其體現(xiàn)在計(jì)算機(jī)可讀媒介中。
全文摘要
一種計(jì)算機(jī)實(shí)現(xiàn)的方法和系統(tǒng)將第一動(dòng)態(tài)場(chǎng)景的視頻幀的第一序列轉(zhuǎn)換到描述第二動(dòng)態(tài)場(chǎng)景的至少兩個(gè)視頻幀的第二序列。在第一序列中獲得顯示具有位于相應(yīng)的x、y坐標(biāo)的多個(gè)像素的至少一個(gè)物體的運(yùn)動(dòng)的視頻幀的子集,以及從子集中選擇在第一動(dòng)態(tài)場(chǎng)景中顯示至少一個(gè)物體的非空間重疊外觀的部分。所述部分從至少3個(gè)不同的輸入幀復(fù)制到第二序列的至少兩個(gè)連續(xù)的幀而不改變像素在物體中的相應(yīng)的x、y坐標(biāo),并且使得第二序列的至少一個(gè)幀包括出現(xiàn)在第一序列中的不同幀處的至少兩個(gè)部分。
文檔編號(hào)G06F17/30GK101366027SQ200680048754
公開(kāi)日2009年2月11日 申請(qǐng)日期2006年11月15日 優(yōu)先權(quán)日2005年11月15日
發(fā)明者亞歷山大·萊弗-阿佳, 施繆爾·潘萊格 申請(qǐng)人:耶路撒冷希伯來(lái)大學(xué)伊森姆研究發(fā)展公司