專利名稱:分析視頻素材的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻素材的分析。
本發(fā)明提供了一種處理視頻素材的方法,該方法包括將素材分為多 個時間部分,并對每一個時間部分執(zhí)行以下處理
(i) 確定該部分的音軌是否包含了足夠進(jìn)行分析的語音;
(ii) 如果是,則基于對該語音的分析來為該部分生成元數(shù)據(jù);
(iii) 如果不是,則通過將其幀與所存儲的幀進(jìn)行比較來分析該部分, 并將與一個或更多個類似的存儲幀相關(guān)聯(lián)存儲的元數(shù)據(jù)指派給該部分。
下面參照附圖,通過示例的方式來描述本發(fā)明的一些實(shí)施方式,其
中
圖1是用于分析視頻素材的設(shè)備的框圖; 圖2是該設(shè)備的詳細(xì)操作的流程圖。
下面要描述的設(shè)備用于對視頻素材進(jìn)行分類??梢园凑珍浵窆?jié)目 (videogmm)分析的方式來描述,錄像節(jié)目也就是錄像帶、盒式錄像帶 或通常錄制有電影或電視節(jié)目的視頻盤(例如DVD)。然而也可以適用 于其他介質(zhì)(例如賽璐珞膠片)上的視覺素材,假設(shè)它可以被掃描而轉(zhuǎn) 換成為視頻信號。
還可能涉及片段(segment)、場景(scene)和鏡頭(shot)。首先給 出這些術(shù)語的解釋,隨后給出其他術(shù)語的解釋。這些是解釋而不是定義, 因?yàn)樗鼈冎械囊恍┻€沒有廣泛一致的定義。 一段視頻節(jié)目(或者,通俗 地說, 一段"視頻")是一段語義上有意義的視頻流序列,例如一部完整 的電影或電視節(jié)目。 一個鏡頭是代表一個動作的連續(xù)視頻幀的圖像序列, 所述一個動作看上去來自攝像機(jī)的單個操作。換句話說,它是攝像機(jī)從 開始記錄圖像的時刻到停止記錄圖像的時間所生成的圖像序列。場景更 難定義,因?yàn)樗?jīng)常涉及到鏡頭的語義。場景通常涉及一組通過場所 (location)或戲劇事件(dramatic incident)統(tǒng)一的連續(xù)鏡頭。例如,我們可以看到許多連續(xù)的鏡頭(由不同的攝像機(jī)獲取的)共享了類似的視 覺內(nèi)容,因?yàn)樗鼈儺a(chǎn)生于相同的環(huán)境,例如一個會議室或戰(zhàn)場。 一般地, 一個視頻場景基本上是一個故事單元,展示了相同的對象并且能夠完整 地展現(xiàn)一個事件。場景改變檢測是將一種視頻數(shù)據(jù)分成多個物理鏡頭的 操作。視頻片段涉及一個或更多個語義相關(guān)的場景。 一般地說,視頻片 段比視頻場景的持續(xù)時間要長。例如,兩個人正在無人島上建造遮蔽處。 一個場景可能展示了一個人正在搜尋樹枝;另一個場景可能展示了另一 個人正在制造各式的繩索;第三個場景展示了他們一起架起遮蔽處。所 有這些場景可以被看成一個視頻片段。關(guān)鍵幀涉及那些對定義一個動作而言非常重要的幀。在動畫中,關(guān) 鍵幀是繪制的。它們被稱為"幀"是因?yàn)樗鼈儠r間上的位置是用一條膠片 上的幀來衡量的。關(guān)鍵幀的序列定義了觀察者將會看到的動作,而關(guān)鍵 幀在膠片(或視頻)上的位置定義了動作的定時。因?yàn)樵谝幻氲目缍壬?只有兩個或三個關(guān)鍵幀不會造成動作的幻覺,所以剩余幀被填充了更多 繪圖,稱為"中間幀"。在視頻中,關(guān)鍵幀是用來表明信號改變的開始或 結(jié)束的幀。例如,關(guān)鍵幀可以被設(shè)置為表明音頻漸強(qiáng)或漸弱到一定水平 的點(diǎn)。圖1示出了適當(dāng)?shù)脑O(shè)備。處理器1能夠訪問存儲器2和磁盤存儲器 3。通過DVD驅(qū)動器4或者視頻釆集卡5來提供視頻輸入。邏輯上來講, 存儲器3中的存儲區(qū)域如下31——包含操作系統(tǒng)軟件;32— 包含具有用于執(zhí)行下面將要描述的方法的指令的程序;33——包含伴隨有元數(shù)據(jù)的視頻片段的參考數(shù)據(jù)庫;34——用于存儲該方法所生成的數(shù)據(jù)。圖2的流程圖中概況示出了該設(shè)備的操作。首先,在步驟20,使用視頻分割算法將視頻節(jié)目分為多個片段。這 可以通過使用已知的針對鏡頭、關(guān)鍵幀和場景分割的算法來執(zhí)行。這些 種類的分割通常是基于像素特征或者隨后幀中的像素之間的不同。 一些 分割算法是開發(fā)對象檢測的開始。以下文獻(xiàn)中描述了其中一種算法LijieLiu, Guoliang Fan: Combined Key-Frame Extraction and Object-Based Video Segmentation, IEEE Transactions on Circuits and Systems for video tehnology, Vol 12, No 7, July, 2005, pp 869-884。還有一篇視頻分割算法的 評論D.S.Zhang and G.J丄u: Segmentation of Moving Objects in Image Sequence: A Review; Journal of Circuits, Systems, and Signal Processing, Volume 20, Number 2/March, 2001, pp. 142-183.在步驟21中,通過對每一個片段所伴隨的音軌進(jìn)行語音到文本算法 而對其進(jìn)行檢查。該步驟可以使用商業(yè)可獲得的語音-文本軟件例如英國 劍橋的Virage公司的Videologger。然后(22)測試該分析的輸出。如果 有文本輸出,或者文本輸出滿足一個設(shè)定閾值,則在步驟23對該文本進(jìn) 行分析;另一方面,如果沒有文本輸出,或者沒有文本滿足該閾值,則 該片段被認(rèn)定為無聲并且控制進(jìn)行到步驟24。步驟23包含對文本的分析,以便對該片段加注釋,g卩,為該片段指 派元數(shù)據(jù)。為了對視聽素材進(jìn)行分類而在音軌上應(yīng)用語音到文本技術(shù)是 眾所周知的,因此并不進(jìn)行詳細(xì)的描述。參見,例如美國專利6833865 和美國專利申請2001/0018693 。在步驟24中,已經(jīng)確定該片段不包含用于注釋目的的語音值,因此 圖片內(nèi)容的分析由識別片段的關(guān)鍵幀開始。用于該目的的工具是商業(yè)上 可獲得的。參見,例如Kobla,V., Doermann, D. and Faloutsos,C. Developing High-Level Representations of Video Clips using Video Trails, Proceedings of the SPIE Conference on Storage and Retrieval for Image and Video Databases Vi, pages 81-92, 1998,其描述了用于關(guān)鍵幀提取的被稱為"MERIT"的軟 件。該算法的細(xì)節(jié)將在本文中給出。可選地,我們可以使用下述算法來分割視頻和提取關(guān)鍵幀。將每一 個視頻幀與它的下一個視頻幀進(jìn)行比較,然后計(jì)算視頻幀的相似度來確 定場景是否發(fā)生了改變。改變可以通過像素之間的差異或者語義的改變 (例如新的對象)來衡量。差異是否大到足以被視為改變依賴于一些預(yù) 設(shè)的閾值。如果存在改變,則認(rèn)為會表現(xiàn)為剪切(cut)。這樣,視頻就被 分為多個鏡頭,我們將每個鏡頭的第一幀取為關(guān)鍵幀。下一個步驟需要訪問己經(jīng)注釋的數(shù)據(jù)庫,該實(shí)施例中的視頻片段存 儲在存儲器3中所分配的區(qū)域33中。這些元數(shù)據(jù)是連同它們的元數(shù)據(jù)(也 就是關(guān)鍵字和摘要文本) 一起存儲的,元數(shù)據(jù)或是手工注釋的,或是通 過文本到語音軟件從與它們關(guān)聯(lián)的音頻自動生成的。當(dāng)我們開始注釋被 視為無聲的視頻片段時,假設(shè)在存儲器中存在這樣的視頻片段的集合。如果需要,可以將在步驟23中經(jīng)過重新處理的片段添加到該數(shù)據(jù)庫中,盡管這并不是強(qiáng)制性的。存儲在數(shù)據(jù)庫中的片段的關(guān)鍵幀同樣被標(biāo)記(或者,可選地,只存儲關(guān)鍵幀,而忽略其他幀)。從而,在步驟25中,基 于關(guān)鍵幀的相似度,將所考慮的片段與數(shù)據(jù)庫中的一個或多個片段進(jìn)行 匹配。一種可以用來計(jì)算幀相似度的已知技術(shù)是顏色索引。 一個實(shí)施例如下首先從RGB顏色模型到HSV顏色模型來轉(zhuǎn)換幀(如果必要的話)。 然后為了更快計(jì)算和減少亮度加權(quán)而對HSV顏色軸進(jìn)行如下量化H: 16色,S: 16色,V: 8色。之后通過計(jì)算每一種顏色在視頻幀中出現(xiàn)的 次數(shù),將該顏色從3維映射到1維從而構(gòu)造顏色直方圖。顏色直方圖之 后被歸一化,從而使它的總面積等于1。對于每一個視頻幀來構(gòu)造顏色直 方圖。然后通過顏色直方圖的交集(intersection)來計(jì)算兩個視頻幀的相 似度。如果發(fā)現(xiàn)交集大于0.7,則認(rèn)為兩個視頻幀是相似的?;谥狈綀D的圖像通過顏色空間中的顏色分布來表現(xiàn)一幅圖像的特性。顏色空間被定義為根據(jù)強(qiáng)度值來描述顏色的模型。通常,顏色空間定義了一維到四維空間。 一個顏色分量,或者說一個顏色通道是其中--個維度。在以下文獻(xiàn)中,顏色直方圖交集或者距離被提議用于顏色圖像檢索M. J. Swain and D. H. Ballard, "Color indexing, International Journalof Computer Vision,7:l 1991 "。直方圖h和g的交集由下式給出<formula>formula see original document page 6</formula>
其中,lhl和lg餘出了每個直方圖的大小,等于采樣數(shù),a,b,C表示三 個顏色通道(R, QB或H, S, V), A,B, C表示a,b, c各自值的總和。直方圖檢索通過其顏色分布,或直方圖來表征一副圖像。然而,具有相似 顏色分布的圖像可能沒有語義上的相似性。但是它在大多數(shù)情況下給出 了比較好的結(jié)果。步驟26:在關(guān)鍵幀匹配的基礎(chǔ)上,確定"無聲"片段是否與數(shù)據(jù)庫中 的其中一個片段相匹配。如果該無聲片段只有一個關(guān)鍵幀并且數(shù)據(jù)庫中 的片段也只有一個關(guān)鍵幀,那么如果幀匹配則片段也匹配。然而,如果 兩個片段具有一個以上的關(guān)鍵幀,并且可能兩個片段具有不同數(shù)量的關(guān) 鍵幀,則情況就會變得更加復(fù)雜。適于確定兩個片段是否匹配的一個算 法的例子如下-令(k,, k2,..., kj為片段Sl ("無聲"片段)的關(guān)鍵幀,{ f,, f2,..., fm }為片段S2 (數(shù)據(jù)庫中的片段)的關(guān)鍵幀。如果下面的公式大于0.7,則S1與S2匹配t^^,其中如果ki與S2中的所有幀都匹配則In(ki,S2)為1。 否則,為0。在步驟27中,檢查數(shù)據(jù)庫中找到多少片段與正在分析的片段相匹配0:沒有找到匹配,片段不能被注釋;1:如果數(shù)據(jù)庫中只有一個片段匹配,則(步驟28)將該片段的元 數(shù)據(jù)從數(shù)據(jù)庫中復(fù)制并且添加到正在分析的片段中;大于1:在這種情況下,需要分析數(shù)據(jù)庫中的兩個或更多個元數(shù)據(jù) 集從而導(dǎo)出針對正在分析的當(dāng)前片段的單個數(shù)據(jù)集;控制進(jìn)行到步驟28。步驟29:分析這些元數(shù)據(jù),以生成針對正在分析的片段的元數(shù)據(jù)。 這些元數(shù)據(jù)集合可以是重復(fù)的或者可以進(jìn)行合并(或者根據(jù)所用本體論 (ontology)而進(jìn)行特制)。因此,元數(shù)據(jù)的分析是一個清理(cleaning) 過程。該過程如下-28丄移除重復(fù)的關(guān)鍵字或關(guān)鍵短語。28.2. 可以根據(jù)術(shù)語密度對步驟28.1中的關(guān)鍵字和/或關(guān)鍵短語集作 進(jìn)一步修剪(pnme)。即,使具有相似含義的數(shù)據(jù)集成為一簇。28.3. 特殊化更優(yōu)選地,系統(tǒng)使用本體論來組織關(guān)鍵字和/或關(guān)鍵短語,當(dāng)表現(xiàn)該概念的特征的關(guān)鍵字和/或關(guān)鍵短語的集合是從步驟28.2獲得的元數(shù)據(jù)的子集時, 一個更加明確的本體論概念與該片段相關(guān)聯(lián)。 每一個本體論的概念都關(guān)聯(lián)有關(guān)鍵字或關(guān)鍵短語集合或以此為特性。如果在步驟28.2所獲得的片段的關(guān)鍵字和短語中找到了一個概念的所有這些關(guān)鍵字或關(guān)鍵短語,那么該片段與該概念相關(guān)聯(lián)。一旦該片段的注釋完成并且存儲了結(jié)果(步驟28),則如果(30) 還存在其他沒有被處理的片段,就從步驟21開始重復(fù)該過程。否則,過 程在步驟31終止。如果整個視頻都需要元數(shù)據(jù),那么這是所有片段的元數(shù)據(jù)的集合, 雖然移除了所有重復(fù)的部分。一旦一個片段(或者,根據(jù)具體情況可能是一段視頻)己經(jīng)被指派 了元數(shù)據(jù),則如果愿意,就可以使用傳統(tǒng)的基于本體論的分類技術(shù)來進(jìn) 行索引。
權(quán)利要求
1、一種處理視頻素材的方法,該方法包括將所述素材分成多個時間部分,并對每一個時間部分執(zhí)行以下操作(i)確定該部分的音軌是否包含足夠進(jìn)行分析的語音;(ii)如果包含,則基于對該語音的分析來為該部分生成元數(shù)據(jù);(iii)如果不包含,則通過將其幀與存儲幀進(jìn)行比較來分析該部分,并將與一個或更多個類似的存儲幀相關(guān)聯(lián)存儲的元數(shù)據(jù)指派給該部分。
2、 根據(jù)權(quán)利要求1所述的方法,其中對幀進(jìn)行比較的步驟包括從所 考慮的部分中提取關(guān)鍵幀,并且將這些關(guān)鍵幀與存儲部分的關(guān)鍵幀進(jìn)行 比較。
3、 根據(jù)權(quán)利要求2所述的方法,其中如果所考慮的部分中的滿足與 存儲部分的幀的相似度判據(jù)的比例超過一個閾值,則所考慮的部分被視 為與存儲部分相似。
4、 根據(jù)權(quán)利要求l、 2或3所述的方法,該方法還包括如果比較 步驟識別了多個存儲部分,則獲取與每個識別部分相關(guān)聯(lián)存儲的元數(shù)據(jù) 并組合所述元數(shù)據(jù),包括消除重復(fù)的或相似的項(xiàng),從而生成針對所考慮 的部分的單個元數(shù)據(jù)集。
全文摘要
將視頻素材分為多個時間片段。對每一個片段進(jìn)行檢查以確定該片段的音軌是否包含足以進(jìn)行分析的語音,如果是,則基于對該語音的分析來生成元數(shù)據(jù)。如果不是,則通過將其幀與已經(jīng)指派了元數(shù)據(jù)的存儲片段中的幀進(jìn)行比較來對該片段進(jìn)行分析。然后將與一個或更多個相似的存儲片段相關(guān)聯(lián)存儲的元數(shù)據(jù)指派給所考慮的片段。
文檔編號G11B27/28GK101657858SQ200880004710
公開日2010年2月24日 申請日期2008年2月7日 優(yōu)先權(quán)日2007年2月13日
發(fā)明者內(nèi)德·阿扎米, 湛 崔, 格里·米歇爾·迪卡泰爾 申請人:英國電訊有限公司