專利名稱:將附加內(nèi)容插入視頻的方法和裝置的制作方法
技術領域:
本發(fā)明涉及一種視頻的使用,特別是將附加內(nèi)容插入視頻的使用。
背景技術:
多媒體通訊領域經(jīng)過過去十多年的迅猛發(fā)展,其大幅度的改進令實時計算機輔助數(shù)字效果得以引用到視頻演示方面。例如,將廣告圖像/視頻字幕插入所選的視頻播放畫面。插入的廣告分以一種觀點保留的方式植入,從而讓觀眾看起來原始視頻情景的一部分。
這種插入廣告的普遍應用在運動竟賽的播放視頻中。因為這種賽事經(jīng)常在運動場中進行,這種運動場是熟知的可以預見的比賽環(huán)境,存在一個已知區(qū)城,在這個區(qū)域攝像鏡頭從一個固定的位置捕捉賽事的攝像背景。這種區(qū)域包括廣告圍欄、看臺、觀眾席等地方。
半自動系統(tǒng)利用上述實際情況確定將廣告輸入所選的視頻的背景區(qū)域。通過將物理地線模式透視存儲映射到視頻圖像坐標來提供廣告插入。然后廣告商購買視頻中的空間將他們的廣告插入所選的圖像區(qū)域??蛇x擇地,一個或多個創(chuàng)作站用于影響視頻的輸入從而指定用于虛擬廣告的圖像區(qū)域。
美國專利US 5,808,695,
公開日1998年9月15日,發(fā)明人Rosser等人,專利題目為“Method of Tracking Scene Motion for Live VideoInsertion Systems”描述了一種在系列播放視頻圖像中從一個圖像場到另一個圖像場追蹤運動的方法,就是為了插入標記。競技場中靜態(tài)區(qū)域通常是明確的,通過視頻演示,追蹤這些區(qū)域,維持它們的對應的實況插入的圖像坐標。當目標區(qū)域需要是視覺上的不同以便方便運動追蹤時,這就需要大量的手工校準來識別這些目標區(qū)域。同時也決不可能將插入圖像相對固定到原始視頻內(nèi)容的移動圖像中從而讓觀眾對插入圖像的印象深刻。
美國專利US 5,731,846,
公開日1998年3月24日,發(fā)明人Kreitman等人,專利題目為“Method and System for Perspectively Distortingan Image and Implanting Same into a Video Stream”描述了將4色查找表(LUT)組合,在視頻情景中獲取不同的插入對象的圖像移植方法及裝置。通過選擇運動場(內(nèi)部運動場)重要部分的目標區(qū)域,插入的圖像顯示出來,闖入觀眾的視線空間。
美國專利US 6,292,227,
公開日1998年9月18日,發(fā)明人Wilf等人,專利題目為“Method and Apparatus for Automatic ElectronicReplacement of Billboards in a Video Image”描述了將廣告圍欄自動移入視頻圖像的裝置。利用依賴攝像傳感器硬件設置的精細的校準,記錄了廣告圍欄的圖像位置,并且一般指定一個色度彩色表面。在實況攝像來回移動時,獲取廣告欄圖像位置,利用色度鍵控技術將虛擬廣告移入廣告圍欄中。
已知的系統(tǒng)需要大的工作量來識別廣告插入的適合的目標區(qū)域。一旦識別了,這些區(qū)域就固定了且不可能在其它新的區(qū)域插入了。由于廣告欄位置是觀眾發(fā)現(xiàn)廣告信息的最自然的區(qū)域,廣告欄因而被識別。透視映射也用來嘗試作為實況廣告信息。這些效果集中體現(xiàn)在精細的手工校對上。
在廣告商連續(xù)爭取更高的廣告效力與終端觀眾觀賞興趣之間存在一種需求的沖突。很清楚,通過利用現(xiàn)行的3D圖像技術在適合的位置(如廣告欄)上進行真實的虛擬廣告植入是一種折衷。然而,在視頻圖像畫面內(nèi)只有這么多廣告欄。這就造成了廣告商催促更多的廣告植入的空間。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一個部分,提供了一種在視頻流的視頻片段內(nèi)插入附加的內(nèi)容的方法,其中視頻片段包括一系列視頻幀。該方法包括接收視頻片段,確定畫面內(nèi)容,確定插入的適宜性以及插入的附加內(nèi)容。確定一個畫面內(nèi)容就是確定視頻片段的至少一個幀的畫面內(nèi)容。確定附加內(nèi)容的插入的適宜性是基于所確定的畫面內(nèi)容。插入附加內(nèi)容就是根據(jù)所確定的適宜性將附加內(nèi)容插入視頻片段的幀。
根據(jù)本發(fā)明的另一部分,提供一種在視頻流的視頻片段內(nèi)插入進一步內(nèi)容的方法,其中視頻片段包括一系列視頻幀。該方法包括接收視頻流,在視頻流內(nèi)確定靜態(tài)空間區(qū)域,以及將進一步內(nèi)容插入所探測的靜態(tài)空間區(qū)域。
根據(jù)本發(fā)明的第三個部分,提供一種根據(jù)上述各個方法所使用的視頻集成裝置。
根據(jù)本發(fā)明的第四個部分,提供一種將附加內(nèi)容插入視頻流的視頻片段的視頻集成裝置,其中視頻片段包括一系列視頻幀。該裝置包括接收視頻片段部件,用于確定畫面內(nèi)容的部件,用于確定至少一個幀第一參考值(first measure)的部件,以及用于插入附加內(nèi)容的部件。確定畫面內(nèi)容的部件確定視頻片段至少一個幀的畫面內(nèi)容?;谒_定的畫面內(nèi)容,確定至少一個幀第一參考值(first measure)的部件確定指示插入附加內(nèi)容的適宜性的至少一個幀的至少一個第一參考值。根據(jù)確定的至少一個第一參考值,用于插入的部件將附加的內(nèi)容插入視頻片段的幀中。
根據(jù)本發(fā)明的第五部分,提供一種將下一內(nèi)容插入視頻流的視頻片段的視頻集成裝置,其中視頻片段包括一系列視頻幀。該裝置包括接收視頻流的部件,在視頻流內(nèi)探測靜態(tài)空間區(qū)域的部件,以及將下一內(nèi)容插入所探測靜態(tài)空間區(qū)域的部件。
根據(jù)本發(fā)明的第六部分敘述了根據(jù)第一或第二部分所述方法使用本發(fā)明第四或第五部分所述的裝置。
根據(jù)本發(fā)明的第七個部分,提供一種將附加內(nèi)容插入視頻流的視頻片段的計算機程序產(chǎn)品,其中該視頻片段包括一系列視頻幀。計算機程序產(chǎn)品包括計算機可用的媒介以及計算機可讀的程序代碼,其記錄在計算機可讀媒介中,按照第一或第二部分所述方法進行操作。
根據(jù)本發(fā)明的第八個部分,提供一種將附加內(nèi)容插入視頻流的視頻片段的計算機程序產(chǎn)品,其中該視頻片段包括一系列視頻幀。計算機程序產(chǎn)品包括計算機可用的媒介以及計算機可讀的程序代碼,其記錄在計算機可讀媒介中。當計算機可讀程序代碼載入計算機上,其可以將計算機編譯成第三部分到第六部分所述的裝置。
利用上述各個部分,通過執(zhí)行基于實時內(nèi)容的視頻畫面處理識別在用于植入的視頻中的適合位置,提供一種將虛擬廣告或其它虛擬內(nèi)容插入視頻演示的系列幀的方法和裝置。這些位置既對應于視頻演示的時間片段又對應于通常認為與視頻演示的觀眾不太相關的圖像畫面內(nèi)的區(qū)域。本發(fā)明提供的方法和裝置利用了非侵擾的手段將附加內(nèi)容并入視頻演示中,使得通信信道更加容易提高視頻的互動性。
本發(fā)明結合所附的附圖,通過非限定性的實施例來進一步地描述。
圖1為本發(fā)明布置的環(huán)境概略圖;圖2為視頻內(nèi)容插入相關簡略流程圖;圖3為插入系統(tǒng)實施結構的簡略圖;圖4說明在何時何地進行視頻內(nèi)容插入的處理流程圖;圖5A到圖5L為視頻幀及其各自的FRVM的實施例;圖6A到圖6B為兩個視頻幀及其區(qū)域的RRVM;圖7為進行生成確定FRVM屬性的程序的實施例流程圖;圖8為確定是否存在一個新的鏡頭典型方法的流程圖;圖9為生成鏡頭屬性的各種屬性的流程圖;圖10為確定根據(jù)比賽中斷探測片段的FRVM的流程圖;圖11為用于確定當前視頻幀是否為賽場圖像的詳細步驟流程圖;
圖12為說明確定何時中場入鏡的處理流程圖;圖13為詳細是否基于中場比賽設定一個FRVM的流程圖;圖14為計算音頻幀的音頻屬性的流程圖;圖15顯示如何用音頻屬性確定FRVM;圖16為基于同源區(qū)域探測進行插入計算的流程圖;圖17為基于靜態(tài)區(qū)域探測進行插入計算的流程圖;圖18為說明探測靜態(tài)區(qū)域處理的流程圖;圖19為說明用于在中場畫面中動態(tài)插入典型處理的流程圖;圖20為說明進行內(nèi)容插入的步驟流程圖;圖21為說明在球門周圍動態(tài)插入的插入計算流程圖;以及圖22為實施本發(fā)明各個部分的計算機系統(tǒng)的簡略圖。
具體實施例方式
本發(fā)明的各個實施例提供了基于內(nèi)容的視頻解析,其能夠追蹤視頻演示的過程,并且為視頻的時間片段(幀或幀序列)分配一個第一觀眾相關參考值(FRVM),并且在適合插入的視頻各個幀找出空間片段(區(qū)域)。
以播放足球視頻為例子,并參照下文對足球例子的簡單說明,就不難總結出觀眾的眼球集中在靠近球周圍的地方。對于圖像的區(qū)域,觀眾與內(nèi)容的相關性下降了,觀眾的目光越在球的周圍集中。同樣,不難判斷報像鏡頭集中在與比賽就沒有關系的群眾中時,場景與觀眾的相關性就較小,例如球員替補的場景。相比于高度總體運動、后場球員或者比賽靠近球門線的場景,群眾場景和球員替補的場景對于比賽就顯得不是很重要了。
本發(fā)明的實施例提供了將內(nèi)容插入視頻演示的系統(tǒng)、方法以及軟件。然而,實施例并不是對本發(fā)明的具體限定,而排除了實施或使用在本發(fā)明的其它方法、軟件。該系統(tǒng)為內(nèi)容的植入確定一個合適的目標區(qū)域而相對不會打擾終端觀眾。只要由該系統(tǒng)確定的目標區(qū)域是不會打擾終端觀眾的,這些目標區(qū)域可以出現(xiàn)在圖像的任何位置。
圖1為本發(fā)明一個實施例布置的環(huán)境概略圖。圖1包括整個系統(tǒng)10的某個位置的示意演示,從攝像機拍攝一個賽事到終端觀眾看到圖像的屏目。
圖1中顯示的系統(tǒng)10的相對位置包括相關賽事發(fā)生的比賽地點12,中央播放室14,本地播放發(fā)行者16以及觀眾位置18。
一個或多個攝像機20設置在裁判位置12。拍攝如足球賽(作為說明書敘述的實施例)的運動賽事的典型結構中,播放攝像機圍繞足球場地的幾個外圍看點安裝。例如,這種結構通常最小程度包括位于俯瞰場地中心線的攝像機,提供場地正面看臺視角。在比賽過程中,這個攝像頭從中心位置傾斜或移動。攝像機也可以沿著場地兩側或底線安裝在角落里或靠近場地的位置,以使能夠近鏡頭捕獲比賽活動。從攝像機20輸入的各個視頻被送到選擇播放攝像鏡頭的中央播放室14,選擇播放攝像鏡頭一般由播放導演來完成。然后,所選擇的視頻被送到本地發(fā)行點16,發(fā)行點16在地理上與播放室14以及比賽地點12存在距離,例如,不同的城市或者甚至不同的國家。
在本地的播放發(fā)行者16中,進行附加視頻處理插入本地授權使用的內(nèi)容(典型的為廣告)。在本地播放發(fā)行者16內(nèi)設置了視頻集成裝置的相關軟件和系統(tǒng),并且選擇適合內(nèi)容插入的目標區(qū)域。然后最終的視頻被發(fā)送到觀眾位置18,通過電視、計算監(jiān)視器或其它顯示裝置來觀看。
此處詳細描述的大部分特征將在這個實施例中本地播放發(fā)行者16的視頻集成裝置內(nèi)出現(xiàn)。雖然此處描述的視頻集成裝置在本地播放發(fā)行者16內(nèi),但其也可以在播放室14內(nèi)或所需要的其它地方。本地播放發(fā)行者16可以是本地播放站或者甚至可以是互聯(lián)網(wǎng)服務供應商。
圖2為顯示根據(jù)實施例視頻內(nèi)容插入使用的視頻處理算法簡略圖,這個處理算法在圖1的系統(tǒng)中本地播放發(fā)行者16中的視頻集成裝置內(nèi)發(fā)生。
視頻信號流通過該裝置接收(步驟S102)。當收到原始視頻信號流時,處理裝置進行分割(步驟S104)來獲取同源視頻片段,這些視頻片段在時間和空間上都是同源的。同源視頻片段于通常稱為“鏡頭”是對應的。每一個鏡頭為從同一攝像機連續(xù)輸入的幀集合。對于足球,鏡頭長度一般為約5或6秒鐘,不可能低于1秒的長度。該系統(tǒng)確定各個視頻片段插入內(nèi)容的適宜性,以及識別那些適合的片段(步驟S106)。識別這種片段的處理等于回答了“何時插入”的問題。對于那些適合內(nèi)容插入的視頻片段,該系統(tǒng)也確定內(nèi)容插入的視頻幀內(nèi)的空間區(qū)域,以及識別適合的區(qū)域(步驟S108)識別這些區(qū)域也就等于回答了“在哪里插入”的問題。然后,內(nèi)容選擇及插入在適合的區(qū)域中發(fā)生(步驟S110)。
圖3為插入系統(tǒng)實施結構的簡略圖。在幀級處理模塊22(硬件或軟件處理器,一元或非一元都可以)接收視頻幀,該模塊確定每一幀的圖像屬性(如RGB直方圖、總體運動、主色、音頻能量、垂直場地線的存在、橢圓場地標志等)。
幀及其在幀級處理模塊22中生成的關聯(lián)的圖像屬性進入先進先出(FIFO)緩沖器24中,在現(xiàn)面播放之前,在該緩沖器中,對這種幀及關聯(lián)圖像屬性進行處理用于插入時,現(xiàn)面及關聯(lián)圖像屬性經(jīng)過輕微的延時。緩沖級處理模塊26(硬件或軟件處理器,一元或非一元的都可以)接收在緩沖器24中幀的屬性記錄,基于輸入屬性,生成并更新為新的屬性,并且在幀離開緩沖器24以前將插入內(nèi)容插入到所選擇的幀中。
幀級處理與緩沖級處理之間的處理區(qū)別總的來說是原始數(shù)據(jù)處理與元數(shù)據(jù)處理的區(qū)別。因為緩沖級處理依賴于統(tǒng)計集合,所以緩沖級處理更為迅速。
緩沖器24提供視頻內(nèi)容上下關系(context)以幫助插入的確定。通過屬性記錄和內(nèi)容上下關系,在緩沖級處理模塊26內(nèi)確定觀眾相關參考值FRVM。緩沖級處理模塊26調(diào)用輸入緩沖器24的每一個幀并且在一幀的時間內(nèi)進行每個幀的相關處理。插入確定可以一幀一幀來確定或者以滑動視窗為基礎的整個片段來確定或者以一個鏡頭來確定,在這些情況中,在片段內(nèi)所有幀都可以插入,不需要對每個幀進行進一步的處理。
確定“何時”以及“何地”插入內(nèi)容的判斷處理程序(步驟S106-S108)將參照圖4的流程圖作更詳細的描述。
作為分割(圖2的步驟S104)的結果,收到了下一個視頻片段。從片段的初始視頻畫面提取一組視覺特征(步驟S124)。從這組視覺特征,以及利用從學習處理中獲得的參數(shù)中,系統(tǒng)確定一個第一觀眾相關參考值(步驟S126),其為一幀的觀眾相關參考值(FRVM),并且比較第一參考值與第一閾值(步驟S128),其中該閾值為一幀的閾值。如果超出該幀的閾值,這就表示當前幀(以及整個當前鏡頭)與觀眾太相關了,從而不能干擾觀眾,因此不適合內(nèi)容的插入。如果沒有超出第一閾值,系統(tǒng)繼續(xù)確定該幀內(nèi)的空間同源區(qū)域(步驟S130),其中再次使用學習處理程序中獲得的參數(shù),就有可能插入內(nèi)容。如果發(fā)現(xiàn)較低的觀眾相關性的空間同源區(qū)域以及持續(xù)足夠的時間,系統(tǒng)繼續(xù)進行內(nèi)容選擇和插入(圖2的步驟S110)。如果該幀不適合(步驟S128)或沒有適合適的區(qū)域(步驟S132),然后整個視頻片段落選了,并且系統(tǒng)返回到步驟S122獲取下一個視頻片段,從下一個視頻片段的初始幀中提取各個特征。
當視頻集成裝置收到視頻各幀時,分析各幀對于內(nèi)容插入的可行性。該判斷處理通過一參數(shù)數(shù)據(jù)組進行,其中參數(shù)數(shù)據(jù)組包括關鍵重要判斷參數(shù)以及判斷所需的閾值。
借助于脫機訓練處理,利用同一主題類型的訓練視頻演示(如供系統(tǒng)訓練使用的足球比賽,供系統(tǒng)訓練使用的橄欖球比賽以及供系統(tǒng)訓練使用的閱兵式)得到參數(shù)組。訓練視頻演示的分割和相關的標記通過人工觀看視頻來進行。從訓練視頻中的各幀中提取特征,基于這些特征以及分割及相關標記,利會相關學習算法,系統(tǒng)學會了統(tǒng)計,例如視頻片段持續(xù)時間,可使用的視頻片段百分比,等等。這些數(shù)據(jù)統(tǒng)一放入一個參數(shù)數(shù)據(jù)組以在實際使用中利用。
例如,參數(shù)組可以指定某一個比賽場的彩色統(tǒng)計的閾值。然后系統(tǒng)使用該閾值將視頻畫面分割成比賽場地和非比賽場地的區(qū)域。在視頻畫面內(nèi)確定比賽活躍區(qū)方面這是一個有利的第一步驟。一般地人們都接受這樣的事實,非比賽活躍區(qū)對于終端觀眾來說不是焦點區(qū)域,所以這些區(qū)域的屬性為較小相關參考值。雖然系統(tǒng)依賴于經(jīng)過脫機處理訓練的參數(shù)組的精確性,但系統(tǒng)相對于基于內(nèi)容的統(tǒng)計數(shù)字執(zhí)行其自己的標準,其中,統(tǒng)計數(shù)字從要插入內(nèi)容的實際視頻的視頻各幀中收集而來。在引導指令處理或初始化步驟中,沒有內(nèi)容插入。引導指令持續(xù)的時間并不長,而且考慮到整個視頻演示的時間,只占觀看內(nèi)容觀時間的微小部分。該系統(tǒng)自己的標準基于與以前比賽相比較的基礎上的,例如口哨吹響時,或者之前,當觀從更想要看到屏目上顯示的內(nèi)容。
在一個視頻片段內(nèi),只要在一幀內(nèi)有適合的區(qū)域被指定用于內(nèi)容插入,那么就將內(nèi)容植入該區(qū)域,一般要停留幾秒鐘曝光。該系統(tǒng)基于脫機學習處理,確定插入內(nèi)容的曝光持續(xù)時間。連續(xù)的同源視頻片段的視頻幀保持視覺上的同源性。這樣,如果在一個幀內(nèi)目標區(qū)域被視為非打擾的且適合內(nèi)容插入的,目標區(qū)域很有可能在剩下視頻片段是相同的,從而在整個插入內(nèi)容曝光的幾秒鐘持續(xù)時間目標區(qū)域是相同的。同樣的原因,如果發(fā)現(xiàn)不適合插入的區(qū)域,整個視頻片段就落選了。
在圖4中顯示的計算步驟系列(如上討論)起始于一個新的視頻片段(例如,攝像鏡頭的改變)內(nèi)的第一幀??蛇x擇地,所使用的該幀可以為視頻片段的其它幀,例如,靠近片段中間的幀。進一步,在另一個可替代的實施例中,如果視頻片段足夠的長,在序列中幾個時間間隔的單個幀用來確定是否適合進行內(nèi)容插入。
如果內(nèi)容有多種可能性,還存在一個“插入什么”的問題,這就依賴于目標區(qū)域。這個實施例的視頻集成裝置也包括確定適合幾何尺寸的插入內(nèi)容以及/或指定目標區(qū)域位置的選擇系統(tǒng)。根據(jù)系統(tǒng)確定的目標區(qū)域的幾何特性,然后將適合的內(nèi)容形式植入。例如,如果選擇了一個小的目標區(qū)域,然后可以插入一個圖形標識。如果系統(tǒng)確定整個水平區(qū)域是適合的,然后插入活動的文字字幕。如果系統(tǒng)選擇了大尺寸的目標區(qū)域,將插入縮小版的視頻。屏目不同的區(qū)域也可以吸引不同的廣告費,所以插入的內(nèi)容也要基于廣告的重要性以及付費的水平來選擇。
圖5A到5L顯示足球比賽的示頻幀的例子。在每個視頻幀里的內(nèi)容顯示了比賽的過程,并且給出插入幀的FRVM。例如,描述靠近球門比賽的視頻幀將具有高的FRVM,而描述在中場的比賽視頻幀具有低的FRVM。同樣,顯示球員的特寫鏡頭或觀眾時的視頻幀具有低的FRVM?;趦?nèi)容的圖像/視頻分析技術用于從圖像中確定比賽的主位推進,從而確定片段的FRVM。主位推進并不僅僅是當前片段的分析結果,而且也依賴于前面片段的分析。在這個例子中,F(xiàn)RVM值為從1到10,1為最小相關性,10為最大相關性。
在圖5A中,中場比賽幀的FRVM=5;在圖5B中,球員特寫鏡頭,表示比賽中斷的FRVM=4;在圖5C中,正常后場比賽的幀的FRVM=6;在圖5D中,顯示了跟蹤視頻片段部分的幀,跟蹤帶球的球員,其FRVM=7;在圖5E中,比賽畫面為球門區(qū)域的FRVM=10;在圖5F中,比賽畫面為球門區(qū)域兩側的FRVM=8;在圖5G中,裁判特寫鏡頭,表示比賽中斷或犯規(guī),F(xiàn)RVM=3;在圖5H中,教練特寫鏡頭,F(xiàn)RVM=3;在圖5I中,群眾特寫鏡頭,F(xiàn)RVM=1;在圖5J中,比賽向球門區(qū)靠近的畫面,F(xiàn)RVM=9;在圖5K中,球員受傷的特寫鏡頭,F(xiàn)RVM=2;在圖5L中,比賽重新開始的FRVM=10。
表1列出了各種視頻片段分類及其的FRVM舉例。
表1-FRVM表
表中的值由系統(tǒng)使用分配FRVM,可以通過操作員進行現(xiàn)場,甚至在播放期間調(diào)節(jié)。在各個分類中調(diào)節(jié)FRVM作用是改進內(nèi)容插入的出現(xiàn)率。例如,如果操作員表1中所有的FRVM設為0,則表面所有類型的視頻片段都是低相關觀眾參考值,然后在演示期間,系統(tǒng)將找出更多具有經(jīng)過門限比較的FRVM的視頻片段的情況,最終有更多內(nèi)容插入的情況。在比賽進間進行中需要一個播放員,但仍是要求播放員顯示更多的廣告內(nèi)容(例如,如果合同要求顯示廣告的最低次數(shù)或最低總時間)。通過直接改變FRVM表,播放員改變了虛擬內(nèi)容插入的出現(xiàn)率。表1中的值也可以用作區(qū)別同一賽事的免費播放(高FRVM)與付費播放(低FRVM)的方式。表1中不同的值將用作同一播放輸入到不同的播放頻道。
判斷視頻片段是否適合于內(nèi)容插入通過將一幀的FRVM與定義的閾值比較來確定。例如,僅僅在FRVM等于或低于6時才能插入。改變閾值也可以作為改變廣告出現(xiàn)量的方式。當視頻片段被認為適合于內(nèi)容插入時,分析一個或更多的視頻幀來探測實際內(nèi)容插入的空間區(qū)域。
圖6A和圖6B顯示對于觀眾一般具有低的相關性的區(qū)域。在確定哪個區(qū)域可以被考慮插入中,不同區(qū)域可以分配不同的相關觀眾參考值(RRVM),例如0或1(1為相關)或者更選在大約0到5之間。
圖6A和圖6B為兩個不同低FRVM的畫面。圖6A為在中場(FRVM=5)的比賽全景,以及圖6B為球員(FRVM=4)的特寫。一般不需要確定高FRVM的畫面的空間同源區(qū),因為這些幀不會有內(nèi)容插入。在圖6A中,當比賽在場地全面展開時,場地32的區(qū)域?qū)τ谟^眾有高的相關性,RRVM=5。然而,非場地區(qū)域34對于觀眾有低的相關性,RRVM=0,兩個靜態(tài)標識36、38出現(xiàn)在非場地區(qū)域34上。圖6B中,場地區(qū)域的空場地部分具有低的或最小RRVM(如0),同時有兩個靜態(tài)標識36、38的區(qū)域。中間的球員自身具有一個高的RRVM,甚至可能是一個最大的RRVM(如5)。群眾的RRVM比空場地部分略高(如1)。在這個例子中,插入被強迫進行植入到右下角的空場地部分40。這是因為這個區(qū)域一般會認為插入的幀的適合部分。插入可以位置那些預期周圍沒有太大變化的地方。進一步,雖然在同一幀中其它的位置也可以插入,但許多播放者或觀眾只喜歡在一個時間內(nèi)的屏目上進行一次插入。
判斷用于內(nèi)容插入的適合的視頻幀(何時插入)〔圖2的步驟S106〕在確定當前視頻對于插入的可行性中,關于當前原始內(nèi)容的主題處理,一個基本的標準就是當前幀的相關參考值。為了達到目的,系統(tǒng)使用業(yè)內(nèi)人士熟知的基于內(nèi)容的視頻處理技術。這種熟知的技術在“AnOverview of Multi-modal Techniques for the Characterization ofSport Programmes”,N.Adami,R.Leonardi,P.Migliorati,Proc.SPIE-VCIP’03,pp.1296-1306,8-11 July,2003,Lugano,Switzerland,and“Applications of Video Content Analysis andRetrieval”,N.Dimitrova,H-J Zhang,B.Shahraray,I.Sezan,T.Huang,A.Zakhor,IEEE Multimedia,Vol.9,No.3,Jul-Sept.2002,pp.42-55這些文獻中的描述。
圖7為各種處理的實施例的流程圖,在幀級和緩沖級處理器中進行,生成視頻幀序列的FRVM。
霍夫變換基線探測技術,霍夫變換用于探測主要的線方向(步驟S142)。發(fā)果一個幀表示一個鏡頭的變化,可以確定RGB空間色彩直方圖,同時也確定賽場及非賽場區(qū)域(步驟S144)??傮w運動是在連續(xù)的幀之間確定(步驟S146),也可以基于編碼的移動失量,在單個的幀上確定。基于連續(xù)的幀或片段(步驟S148),聲頻分析技術用于追蹤聲音的音調(diào)以及評論員的興奮水平。該幀分類為賽場/非賽場畫面(步驟S150)。確定一個最小平方吻合來探測橢圓的存在(步驟S152)。根據(jù)播放賽事的,也可以有其它的操作或替代步驟。
信號可以從攝像機那里提供,也可以分別提供,或者被編碼到幀上,表示它們當前拍攝鏡頭和傾斜角以及縮放。因為這些參數(shù)就賽場部分和看臺部分而言限定了屏幕上出現(xiàn)什么,這些參數(shù)都是非常有利于幫助系統(tǒng)識別幀中的內(nèi)容。
各種操作的輸出集中在一起分析,來確定分割及當前視頻片段類別以及比賽的主位推進(步驟S154)?;诋斍耙曨l片段類別以及比賽的主位推進,系統(tǒng)利用表1中視頻片段每個分類的值,分配一個FRVM。
例如,當霍夫變換基線探測技術顯示相關線方向,以及空間彩色直方圖顯示相關場地或非場地區(qū)域時,這個可以表示球門的存在。如果這與評論員的興奮程度組合在一起,系統(tǒng)可以視為正在進行的是球門情節(jié)。這一視頻片段與終端觀眾是最相關的,并且系統(tǒng)將給出該片段一個高的FRVM(如9或10),因此控制內(nèi)容插入?;舴蜃儞Q和橢圓的最小平方吻合對于這種中場畫面明確的確定是非常有利的,其中對每一個過程都有一個較好的理解,而且是基于內(nèi)容的圖像分析的先進技術。
如果前面視頻片段為球門情節(jié),通過基于內(nèi)容圖像分析技術的組合,系統(tǒng)下一步可以探測到比賽場地的變化。音頻流的強度平靜了,全場攝像移動也放慢了,拍攝鏡頭此進集中在非場地鏡頭,例如球員的特寫鏡頭(FRVM=3)。然后系統(tǒng)把這些看作內(nèi)容插入的時機。
下面介紹涉及到應用生成FRVM的處理的各種方法。實施例并不是限定在任何或所有的這些方法上,也可以利用其它的技術。
圖8為確定當前畫面是否為一個新鏡頭的第一幀,從而有利于幀流的分割的典型方法的流程圖。對于一個引入的視頻流,系統(tǒng)計算同一個RGB直方圖(步驟S202)(在幀級處理器內(nèi))。RGB直方圖送往與畫面本身關聯(lián)的緩沖器中。在逐幀的基礎上,緩沖級處理器統(tǒng)計地將單個直方圖與前面各幀的平均直方圖比較(因為最后的新鏡頭被確定已經(jīng)開始,所以用全部的幀進行平均)(步驟S204)。如果比較的結果是明顯的不同(步驟S206),如25%的直方圖中的棒圖顯示有25%或更高的變化,然后基于當前幀的RGB直方圖,重設平均值(步驟S208)。然后,當前幀被給定一個鏡頭變化幀的屬性(步驟S210)。對于下一個輸入的幀,將與新設定的“平均值”進行比較。如果比較結果是沒有明顯的不同(步驟S206),然后,基于前面的平均值以及當前幀的RGB直方圖,重新計算平均值(步驟S212)。對于下一幀輸入,將與新的平均值進行比較。
一旦系統(tǒng)確定了鏡頭從哪開始從哪結束,就可以在緩沖器內(nèi)確定逐個鏡頭的鏡頭屬性。緩沖級處理模塊比較一個鏡頭內(nèi)的圖像,并計算出鏡頭級屬性。生成的鏡頭屬性序列表示視頻進程的密切及理論的視圖。這些可以被用來輸入動態(tài)學習模塊用于比賽中斷探測。
圖9和圖10涉及到比賽中斷探測。圖9為顯示生成各種附加幀屬性的流程圖,該屬性用于確定生成在比賽中斷探測中使用的鏡頭屬性。對于每一幀,總體移動(步驟S220),主色(如在RGB直方圖中一種顏色的棒高至少是其它顏色棒高的兩倍)(步驟S222以及音頻能量(步驟S224)在幀級處理器中計算。然后這些結果送到與幀相關聯(lián)的緩沖器中。
對于引進的幀,緩沖級處理器確定一個目前為止鏡頭的總體運動平均值(步驟S226),目前為止鏡頭的主色平均值(平均RGB)(步驟S228)以及目前為止鏡頭音頻能量(步驟S230)。三個平均值用于更新當前鏡頭屬性,在這個例子中變成了更新的屬性(步驟S232)。如果當前幀為鏡頭的最后一幀(步驟S234),當前鏡頭屬性被寫入當前鏡頭的鏡頭屬性記錄器之前,已量化為具體的屬性值(步驟S236)。如果當前幀不是鏡頭的最后一幀(步驟S234),下一幀被用于更新鏡頭屬性值。
圖10為確定比賽中斷探測片段的FRVM流流程圖。如通過圖9所例舉的方法來確定的例子,各個量化鏡頭屬性在圖10中具體表示出來了,在這個實施例中每個鏡頭的單個字母為三個。一系列鏡頭字母(在這個例子列舉了5個)內(nèi)的固定鏡頭屬性數(shù)量的滑行視窗輸入隱馬爾可夫模型(HMM)42中,基于在先模型的訓練,對視窗中間鏡頭的比賽中斷識別。如果中斷被分類了(步驟S242),更新視窗中間鏡頭的鏡頭屬性來顯示為比賽中斷鏡頭以及鏡頭的FRVM被相應的設置了(步驟S244),然后繼續(xù)處理下一個鏡頭(步驟S246)如果中斷沒有被分類(步驟S242),中間鏡頭的FRVM沒有變化,然后繼續(xù)進行下一個鏡頭的處理(步驟S246)。
參照圖10描述的比賽中斷探測處理需要一個保留至少三個鏡頭的緩沖器,并且存儲了HMM,該存儲器保留兩個在前鏡頭的所有相關信息??商娲?,緩沖器可以有至少駐留5個鏡頭那么長,如圖10所示。緩沖器太長的不利因素是使得緩沖器變得十分龐大。即使鏡頭長度限定在6秒鐘,緩沖器的長度也得至少18秒,然而4秒鐘左右將是優(yōu)選的最大長度。
在可替代的實施例中,利用連續(xù)HMM,更短的緩沖器長度是可能的,沒有一個明確的最小長度。鏡頭限定在約3秒鐘的長度;HMM從緩沖器中的每個第三個幀中提取特征,在確定比賽中斷方面,在似乎比賽中斷時,緩沖器內(nèi)的每一幀設定一個FRVM。這種方法的不利之處就是限制了鏡頭的長度,實際上HMM需要一個較大的訓練組。
圖11為幀級處理器的詳細步驟的流程圖,用于確定是否當前視頻幀為一個賽場圖像,其發(fā)生在圖7的步驟S150。通過對整個視頻進行二次抽樣成為許多非重疊的區(qū)塊例如32×32這種區(qū)塊,從幀首先得到的降低分辨率的圖像(步驟S250)。每個區(qū)塊的顏色分配經(jīng)過檢查并量化成綠色區(qū)塊或非綠色區(qū)塊(例子)(步驟S252),并產(chǎn)生一個屏蔽(此例中為綠色和非綠色)。綠色閾值從參數(shù)集(前面已述)中獲取。每個區(qū)塊進行色彩量化成綠色/非綠色,這就形成的原始視頻幀中主色的粗略色彩表示(CCR)。這個操作的目的就是尋找場地的全景視頻幀。這種尋找的幀的二次取樣粗略表示將展示突出的綠色區(qū)塊。確定綠色(非綠色)區(qū)塊連成的大塊就是要確立一個綠色斑點(或非綠色斑點)(步驟S254)。該系統(tǒng)通過計算綠色斑點與整個視頻幀的相對大小判斷是否這個視頻幀為賽場景色(步驟S256),將所得到的比值與預定義的第三門限比較(也可通過脫機學習處理得到)(步驟S258)。如果該比值比第三門限高時,該幀視為場地情景。如果該比值低于第三閾值,該幀視為非場地情景。
很明顯將有或多或少的步驟與此處描述的順序不同但并不脫離本發(fā)明。例如,在圖7的場地/非場地分類步驟S150中,硬編碼色彩門限能夠用于進行場地/非場地的分離,而不是應用上述提到的綠色場地色彩門限。輔助的常規(guī)也可以用于處理學習參數(shù)數(shù)據(jù)組的錯配以及在當前視頻流上確定的可視特征。上述假定突出草的色調(diào)的例子中,選擇了綠色。對于不同的色調(diào)類型或不同的色調(diào)干燥環(huán)境,可以變化顏色,如冰、水泥、柏油路表面等。
如果確定一個幀為場地情景,然后幀的圖像屬性被更新為反映場地情景的屬性。另外,圖像屬性可以用以后圖像屬性來更新,用于判斷是否當前幀為中場比賽。用于判斷中場比賽的屬性為垂直場地線的出現(xiàn),伴隨有坐標,總體運動以及橢圓場地標記。
圖12為顯示在幀級處理中生成的用于確定中場比賽的各種附加圖像屬性的流程圖。緩沖級處理器判斷是否當前幀為一個場地情景(例如圖11所描述)(步驟S260),如果該幀不是一個場情景,系統(tǒng)進行下一幀作相同的判斷。如果該幀為場地情景,系統(tǒng)判斷幀中垂直線的存在(步驟S262),計算該幀的總體運動(步驟S264),并判斷橢圓場地標記的存在(步驟S266)。該幀的屬性被相應地更新(步驟S268)并發(fā)送到緩沖器中。如果為場地情景,有一個橢圓存在以及垂直直線存在,這表示中場情景。如果該幀被視為中場情景,然后,系統(tǒng)確定一個FRVM,如果適合,接著進行內(nèi)容插入。
圖13為描述確定是否設定一個基于中場比賽的FRVM的流程圖。一旦確定為場地情景,基于圖像屬性是否有橢圓及垂直直線的存在,可以確定該幀為中場比賽畫面。如果總體運動在左邊,被正確探測為線條的橢圓和垂直直線不向左移動,總體運動屬性也可以用來仔細檢查橢圓及垂直直線。基于連續(xù)幀,緩沖級處理器判斷是否中間幀為中場幀(步驟S270)。連續(xù)中場幀整理成鄰近的序列(步驟S272)。計算各個序列的間隙長度(步驟S274)。如果兩個序列的間隙長度低于預設的閾值(如三幀),合并兩個相鄰的序列(步驟S276)。確定每個最終的單個序列(步驟S278)并且與下一個閾值比較(步驟S280)(如兩秒左右)。如果該序列被視為足夠長了,各幀被設定為中場比賽幀(和/或整個序列被設定為中場比賽序列)并且為整個序列的長度(視窗)設定相應的每個幀的FRVM(步驟S282)。然后,該程序?qū)ふ蚁乱粋€幀(步驟S284)。如果該序列沒有足夠的長,不設定具體的屬性,序列中不同幀的FRVM不受影響。程序?qū)ふ蚁乱粋€幀(步驟S284)。
其它場地拍攝鏡頭可以以類似的方式合并成序列。然而,如果情景為中場,將會有比其它場景的序列更低的FRVM。
音頻也可以用來確定FRVM。圖14為一個計算單頻幀的音頻屬性的流程圖。對于引入的音頻幀,在幀級處理器中計算音頻能量(響度水平)(步驟S290)。此外,要為每個音頻幀計算一個梅爾倒頻譜系數(shù)(MFCC)(步驟S292)。基于MFCC特征,判斷是否當前音頻幀是有聲的或無聲的(步驟S294)。如果該幀為有聲的,則計算音調(diào)(步驟S296)并且基于音頻能量、有聲/無聲的判斷及音調(diào),更新音頻屬性(步驟S298)。如果該幀為無聲的,音頻屬性只基于音頻能量及有聲/無聲判斷來更新。
圖15為音頻屬性如何用在判斷FRVM中的流程圖。音頻幀從其屬性上確定為低的解說(LC)或沒有解說(步驟S302)。LC音頻幀被分割成LC幀鄰近的序列(步驟S304),也就是說那些幀為無聲音的,有聲音但低音調(diào)的,或者低響度的。計算各個LC序列的間隙長度(步驟S306)。如果間隙兩個LC序列的之間的間隙長度低于預設的閾值(如半秒鐘左右),合并兩個相鄰的序列(步驟S308)。判斷每個最后的單個LC序列的長度(步驟S310)并且與下一個閾值(如2秒左右)相比較(步驟S310)。如果序列被視為足夠長,與這些音頻幀相關聯(lián)的圖像幀的屬性用低的解說幀的因子來更新并且為整個長度的LC序列(視窗)相應設定FRVM(步驟S312)。然后程序進行到下一幀(步驟S312)。如果序列沒有足夠的長,與圖像幀關聯(lián)的FRVM不發(fā)生變化,并且程序進行到下一幀(步驟S314)。
有時,單一的幀或鏡頭生成或具有不同的FRVM值。根據(jù)取得的與鏡頭相關聯(lián)的各種判斷的優(yōu)先性,來應用FRVM。這樣,當在正常的比賽過程中,如球門周圍時的圖像被考慮為非常相關的,比賽中斷判斷將是優(yōu)先的。
在內(nèi)容插入的視頻幀內(nèi)確定適合的空間區(qū)域(在哪里插入)〔圖2的步驟S108〕在視頻片段被判斷為適合于內(nèi)容的插入后,系統(tǒng)需要知道向哪里植入新的內(nèi)容。當新的內(nèi)容被植入其中時,這些涉及識別位于視頻幀內(nèi)的空間區(qū)域,這使得對終端的觀眾的最小(可接受)的視覺打擾。這些的實現(xiàn)通過將視頻幀分割成同源空間區(qū)域,并且將內(nèi)容插入認為是低RRVM的空間區(qū)域,例如比預定義門限低的區(qū)域。
前面描述的圖6A和圖6B說明了在建議的適合的空間區(qū)域?qū)⑿碌膬?nèi)容插入原始視頻幀將不會打擾對終端觀眾。這些空間區(qū)域稱為“死區(qū)”。
圖16為基于恒定彩色區(qū)域進行同源區(qū)域探測的流程圖,這些區(qū)域一般給定一個低的RRVM。在緩沖器的幀與這些區(qū)域RRVM相關聯(lián)的FRVM。當幀屬性表示總的同源幀(如鏡頭)的序列。幀流被分成具有低于第一門限的FRVM的連續(xù)序列,這些序被選擇了(步驟S320)。對于當前序列,對是否該序列對于插入有足夠長(如至少2秒左右)進行判斷(步驟S322)。如果當前序列不是足夠長,程序回到步驟S320。如果當前序列是足夠的長,通過將全部的視頻幀二次抽樣為許多非重疊的區(qū)塊如32×32的區(qū)塊,從一幀中獲得一個降低的分辨離圖像。然后,檢查每個區(qū)塊內(nèi)色彩的分配將其量化(步驟S324)。所用的色彩門限從參數(shù)數(shù)據(jù)組(前述)中獲得。在對每個區(qū)塊進行色彩量化后,這就形成了在原始視頻幀中主色的粗略的色彩表示類型(CCR)。這些初始步驟將幀分成同源區(qū),并且色彩區(qū)域C的連續(xù)交集/c(如斑點)被確定了(步驟S326)。選擇最大交集/c(如最大斑點)(步驟S328)。判斷插入內(nèi)容的高和寬從而確定是否有足夠的鄰近的色彩大塊(步驟S330)。如果有足夠大的色彩塊,相關的交集/c被固定到當前同源序列內(nèi)所有幀要插入的區(qū)域,并且所有的這些幀內(nèi)的大區(qū)塊進行內(nèi)容插入(步驟S332)。如果沒有足夠大的交集區(qū)域,視頻片段的內(nèi)容插入的步驟將不會發(fā)生(步驟S334)并且系統(tǒng)等待下一個視頻片段進行插入可能發(fā)生的判斷。
上述描述表示選擇的是色彩的最大區(qū)塊。這通常根據(jù)圖像色彩如何被定義。在足球比賽中,主要的顏色是綠色。因此,程序簡單將每個部分定義為綠色或非綠色。進一步,所選的區(qū)域的顏色可能是重要的。對于某些類型的插入,插入僅僅固定在特定的區(qū)域,例如音調(diào)/非音調(diào)。對于音調(diào)的插入,僅僅是綠色面積的大小是重要的。對于在群眾畫面的插入,僅僅是非綠色面積的大小是重要的。
在本發(fā)明優(yōu)選的實施例中,系統(tǒng)識別視頻幀中靜態(tài)不變區(qū)域,這些區(qū)域可以對應于一些靜態(tài)TV標識或比分/時間條。這些數(shù)據(jù)需要固定到原始內(nèi)容中以提供最小組的可替代信息,這些信息可能不適合于大多數(shù)觀眾。特別地,靜態(tài)TV標識的植入是可視水印的一種形式,水印方式是播放者通常用作媒體版權以及鑒定的目的。然而這種信息與商業(yè)運作有關,不會提高對終端觀眾的視頻價值。許多人發(fā)現(xiàn)這些都是惱火的也是障礙。
探測這種迭加在視頻演示的靜態(tài)人工圖像的位置以及使用這些作為可替換的內(nèi)容插入的目標區(qū)域?qū)τ谟^眾而言實際上是可以接受的,從而不會侵擾本已有限的視頻觀看空間。系統(tǒng)試圖查找這些區(qū)域以及其它與視頻演示主題內(nèi)容低相關性的區(qū)域。系統(tǒng)把這些區(qū)域看成對終端群眾是非侵擾的,并且因此將這些區(qū)域看成內(nèi)容插入的適合備選目標區(qū)域。
圖17為基于恒定靜態(tài)區(qū)域進行靜態(tài)區(qū)域探測的流程圖,其中靜態(tài)區(qū)域一般給定一個較低的RRVM。幀流被分割成具有低于第一閾值的FRVM的連續(xù)幀序列(步驟S340)。序列的長度都保持在緩沖器時間長度之內(nèi)。當序列通過緩沖器時,在幀內(nèi)的靜態(tài)區(qū)域被探測到了,最后逐幀累積結果(步驟S342)。一旦幀內(nèi)的靜態(tài)區(qū)域被探測到了,就要判斷序列是否已知完成(步驟S344)。如果序列還沒有完成,判斷當前序列的開始已經(jīng)到達緩沖器的末端(步驟S346)。如果仍有沒有探測到靜態(tài)區(qū)域序列內(nèi)的幀時,序列的第一幀也沒有到達緩沖器的末端,就捕獲下一幀進行靜態(tài)區(qū)域的探測(步驟S348)。如果當前序的開始到達了緩沖器的末端(步驟S346),然后如果序列有足夠用于內(nèi)容插入的長度(如至少2秒左右),到這點的序列長度將被確定(步驟S350)。如果當前序列到這點不是足夠長,當前序列放棄態(tài)區(qū)域插入的目的(步驟S352)。一旦在步驟S344確定序列的所有幀的靜態(tài)區(qū)域或者在步驟S350確定緩沖器的末端已經(jīng)到達但序列已經(jīng)足夠的長了,將確定適合的插入圖像并插入靜態(tài)區(qū)域(步驟S354)。
在這個特定的程序中對于插入的同源區(qū)域計算將作為一個單獨處理來實施,其通過關健段及信號機在FIFO緩沖器中進行存取。計算時間被限定到第一圖像(FRVM序列)離開緩沖器播放之前在緩沖器中保留的時間。在序列開始離開緩沖器開始之前,如果沒有發(fā)現(xiàn)靜態(tài)區(qū)域的適合長度序列,將放棄全部的計算,沒有圖像插入。否則,新的圖像被插入到當前FRVM序列內(nèi)每一幀的相同靜態(tài)區(qū)域,在這個實施例中,之后這些相同的幀不會進一步為插入進行處理。
圖18為說明探測靜態(tài)區(qū)域程序的流程圖,例如可用在圖17的程序的步驟S342,其中很可能TV標識和其它人工圖像植入到當前視頻演示上。系統(tǒng)表征了系列視頻幀的每個象素,這些視頻幀具有由兩原理構成的可視特征或者特性,兩原理為直接邊緣長度變化(步驟S360)以及RGB強度變化(步驟S362)。像素被如此特征化的幀被記錄在預先定義長度如5秒的延時視窗上。像素特性在連續(xù)幀之間的變化被記錄了,并且其中間及偏移以及相互關系被確定了并且將其與預先定義的閾值進行比較(步驟S364)。如果變化大于預先定義的閾值,然后像素被當前登記為非靜態(tài)。否則,登記為靜態(tài)。在這樣的幀序列建立了屏蔽。
經(jīng)過最后X個幀都沒有變化的每個像素(僅僅是檢測而不是必需要X鄰近幀)被視為靜態(tài)區(qū)域。在這種情況下,X為一個視為適合于判斷區(qū)域是否為靜態(tài)的數(shù)量。其基于人想要一個像素在同樣的非靜態(tài)區(qū)域停留的時間長短,以及用于該目的的連續(xù)幀之間的間隙的長短。例如在各幀這間有5秒的延時,X應該為6(全部時間為30秒)。在有屏目顯示的時鐘的情況下,時鐘幀可以固定停留,但是時鐘值本身是變化的。基于時鐘幀內(nèi)部的平均(間隙填充)確定,這仍看作是靜態(tài)的。
為了保證象素靜態(tài)狀態(tài)登記的實時性,連續(xù)周期地分析每一像素來確定是否其發(fā)生變化。原因是這些靜態(tài)標識在不同的視頻演示片段中取消,并可能稍后出現(xiàn)。不同的靜態(tài)標識也可能在不同的位置出現(xiàn)。因此,系統(tǒng)維持視頻幀中出現(xiàn)靜態(tài)人工圖像位置的最當前設置。
圖19為說明用于在中場幀中動態(tài)插入典型程序流程圖。該程序與中場(非激烈)比賽的FRVM計算一前一后,每一幀中垂直中場線(如果有的話)X坐標位置在FRVM計算中都已經(jīng)記錄了。在圖像中的第一場地線表示最頂部場地邊界,其將比賽場地與外圍分開。通常這個邊界線廣告板放置的地方。當獲得了插入確認,在序列中的每個幀將在其動態(tài)的位置的插入?yún)^(qū)(IR)插入。因此,這個序列不再進行處理了。在1幀的時間內(nèi)完成區(qū)域的計算。
基于更新的圖像屬性,幀流被分割成連續(xù)序列的中場幀(步驟S307)其具有低于閾值的FRVM。確定是否當前序列對于內(nèi)容的插入足夠的長(如至少2秒左右)(步驟S372)。如果序列不夠長,在步驟S370中選擇下一序列。如果序列足夠的長,對于每一幀,中場線的X坐標變成插入?yún)^(qū)域(IR)的X坐標(步驟S374)。對于當前幀i,找到第一場地線(FLi)(步驟S376)。對于序列的每幀,完成IR的X坐標的確定以及第一場地線(FLi)(步驟S378,S380)。確定逐幀中場地線位置的變化是否圓滑,也就是說判斷是否有大的FL變化(步驟S382)。如果變化是不圓滑的(有較大差值),基于中場比賽動態(tài)插入,在當前序列中沒有進行插入(步驟S384)。如果變化是圓滑的(差值不大),那么每幀/IR的Y坐標變?yōu)镕li(步驟S386)。然后,相關圖像插入幀的IR(步驟S388)。
如果序列是足夠長,當幀僅僅被給出中場比賽幀的屬性,步驟S372,確定是否序列是足夠的長,不是必需的,如圖13所說明的程序。這一步驟在其它地也不是必要的,如當幀或鏡頭的值或?qū)傩曰谶m合插入的最小序列長度的情況。
圖20為說明根據(jù)可替代的實施例進行內(nèi)容插入步驟的流程圖。降低分辨率的圖像首先通過將整個視頻幀二次取樣形成許多非重疊區(qū)塊如32×32的區(qū)塊從幀中(步驟S402)。在每個區(qū)塊中的顏色分配被檢查然后量化,在此例中量化成綠色區(qū)塊或非綠色區(qū)塊(步驟S404)。所使用的色彩門限參數(shù)數(shù)據(jù)組(前述)中。每個區(qū)塊色彩量化成綠色/非綠色之后,就形成了原始視頻幀中主色的粗略的色彩表示(CCR)類型。這與圖11所述的粗略的色彩表示(CCR)類型的程序相同。這些初始步驟將幀分割成綠色和非綠色同源區(qū)(步驟S406)。每個鄰近非綠色斑點的水平投影被確定了(步驟S408)并且確定了是否有足夠的鄰近非綠色大區(qū)塊,考慮其在長和寬面適合內(nèi)容插入(步驟S410)。如果沒有這種非綠的鄰近大區(qū)塊,那么這個視頻片段的插入將不會發(fā)生并且系統(tǒng)等待下一可能發(fā)生插入的視頻片段。如果非綠的鄰近區(qū)塊足夠大,那么在此大區(qū)塊中發(fā)生內(nèi)容插入。
在圖20顯示的實施例中,假設該幀已知為中場情景,內(nèi)容將在適合的目標區(qū)域的任意位置進行插入,而且中場情景在場地中心線的位置,中心線在視線之內(nèi)。這樣,利用利用中心垂直場地線作為指導,虛擬內(nèi)容集中在最頂部非綠色斑點內(nèi)X向(步驟S412)上寬度同向以及在Y向(步驟S414)上高度同向上。插入的內(nèi)容與視頻幀上理想的圖像重疊(步驟S416)。這種插入也考慮視頻幀內(nèi)的靜態(tài)圖像區(qū)域。利用靜態(tài)區(qū)域屏蔽(例如由圖18所述的程序生成的),系統(tǒng)知道了對應于視頻幀內(nèi)靜態(tài)區(qū)域的像素位置。在這些位置上的原始像素將不會由對應的插入圖像的像素重寫。最終結果就是慮擬內(nèi)容出現(xiàn)在靜態(tài)圖像的后面,因此不可能出現(xiàn)后面插入的內(nèi)容。因此,這可能出現(xiàn),就好象在看臺上的觀眾閃耀著一面標語。
在圖20的流程圖中,內(nèi)容被插入中場情景中群眾區(qū)域內(nèi)。可替代地或附加地,系統(tǒng)可以在中場或其它的靜態(tài)區(qū)域上插入圖像?;诖_定的靜態(tài)區(qū)域,如圖18所描的例子,確定潛在的插入位置。基于靜態(tài)區(qū)域的長寬比,與那些想要的圖像插入相比,選擇一個靜態(tài)區(qū)域。計算所選擇的靜態(tài)區(qū)域的大小并且調(diào)整插入圖像的大小以適合靜態(tài)區(qū)。插入的圖像重疊在所選擇的靜態(tài)區(qū)域,大小正好覆蓋該區(qū)域。例如,不同的標識可能重疊在TV標識上。在靜態(tài)區(qū)域的重疊可以是臨時的重疊或者一直在整個視頻演示中重疊。進一步,這種重疊可以與其它的重疊一起,例如,在群眾區(qū)的重疊。當中場動態(tài)重疊移動時,其將出現(xiàn)在在靜態(tài)區(qū)域重疊插入的后面通過。
圖21為說明在球門周圍動態(tài)插入?yún)^(qū)域計算的流程圖。球門坐標被定位了,圖像插入頂部。這種排列就是使球門移動時,插入圖像隨著球門移動,在畫面上固定位置出現(xiàn)。
幀流被分割(步驟S420)成連續(xù)的幀序列,其FRVM低于某速算閾值,每個序列不會比緩沖器長度長。在這些幀內(nèi),探測球門(步驟S422)(基于場地/非場地判斷,線判斷等)。如果球門的探測位置出現(xiàn)的幀顯示相對于圍繞幀周圍的位置發(fā)生跳躍,則暗示不正常,通常叫“逸出”。如果球門在幀內(nèi)沒有被探測到,則被為是逸出幀,并且那些所探測的位置從位置列表中除去(步驟S424)。在當前序列內(nèi),分隔幀系列的間隙顯示球門被探測到了(步驟S246),間隙可以為3或更多幀,間隙為球門沒有被探測到的地(或者處理為還沒有被探測)。由探測間隙分割的兩個或多個幀系列中,最長幀系列顯示門被發(fā)現(xiàn)了(步驟S428),并且確定了是否最長系列對于插入(如至少2秒左右長)有足夠的長(步驟S430)。如果序列不是足夠的長,整個當前序列放棄球門插入的目的(步驟S432)。然而,如果序列足夠的長,球門的坐標插補在系列的每個幀內(nèi)進行,這些幀是球門被探測到的地(或者探測了而且類似處理了)(步驟S434),并且插入內(nèi)容插入到在最長系列的每個幀的(移動)區(qū)域。
在圖16、17、19和21所描述的典型程序中所有都涉及了基于FRVM的插入。很清楚,關系到素材的插入的不同程序能夠以進行不同插入的同一幀結束,或者與可替代插入的幀相沖突。因此,需要有一個與插入類型相關聯(lián)的優(yōu)先順序,一些充許合并的,一些是不允許合并的。優(yōu)先的順序從RRVM集內(nèi)。RRVM可以為固定的或者用戶根據(jù)環(huán)境和經(jīng)驗進行改進。標記也可以用來確定是否在一個幀內(nèi)允許多于一種插入的類型。例如,在(i)同源區(qū)插入,(ii)在靜態(tài)區(qū)插入,(iii)在中場動態(tài)插入以及(iv)球門區(qū)動態(tài)插入之間的可能性,(ii)靜態(tài)區(qū)插入可以被首先判斷并且可以發(fā)生插入的任何其它類型。然而,其它的類型為相互排拆的,應有優(yōu)先順序(iii)在中場動態(tài)插入,(iv)球門區(qū)動態(tài)插入,(i)同源區(qū)插入。
以上的描述中,在不同的流程圖中執(zhí)行各種步驟(如在圖9和圖12中計算總體運動以及在圖16和圖17中利用小于或等閾值的FRVM分割的幀的連續(xù)序列)。這并不意味著系統(tǒng)在執(zhí)行幾個這些程序中,同一步驟將必需被執(zhí)行好幾次。利用元數(shù)據(jù),一次生成的屬性可以用在其它程序中。這樣,總體移動可以被一次到并且使用數(shù)次。同樣地,序列的分割可以發(fā)生一次,接下來的處理并行發(fā)生。
本發(fā)明可以用于多媒體通信視頻編輯以及互動多媒體應用。本發(fā)明的實施例允許在植入內(nèi)容的法及裝置面有改進,例如將廣告插入所選的視頻演示的幀序列。通常,所插入是廣告。但是,也可以是其它的素材,例如新聞的標題。
上述的系統(tǒng)可以用來執(zhí)行虛擬廣告以實時式植入,而不會打擾觀看體驗或最小程度的打擾。例如,植入的廣告不應強行闖入在足球比賽期間球員進行的情景。
本發(fā)明的實施例能夠?qū)V告植入到流行的情景中,而其仍然為終端觀眾提供現(xiàn)實的情景,以使廣告作為情景的一部分出現(xiàn)。一旦選擇了植入的目的區(qū)域,廣告可以有選擇性地選取插入。在不同的地理地區(qū)看到同一視頻播放的觀眾可以看到不同的廣告,以及以當?shù)貎?nèi)容相關的廣告商業(yè)和產(chǎn)品。
實施例包括將內(nèi)容自動插入視頻演示的自動系統(tǒng)。機器學習法被用來自動識別適合的幀及植入的視頻演示的區(qū)域,并且自動將虛擬內(nèi)容選擇并插入識別的視頻演示的區(qū)域或幀中。用于植入的視頻演示的適合幀和區(qū)域的識別包括將視頻演示分割成幀或視頻片段的步驟;判斷并計算每幀或視頻片段的有特點的特征如色彩、結構、形狀以及運動等;以及通過比交計算的特征參數(shù)與學習程序中所的參數(shù)識別植入的區(qū)域或幀。參數(shù)可以從脫機學習程序中,包括步驟從類似視頻演示中收集訓練數(shù)據(jù)(從類似結構的視頻演示記錄中);從這些訓練樣例中提取特征;以及通過將學習算法如隱馬爾可夫模型、神經(jīng)網(wǎng)絡、以及支持向量機理等應用到訓練數(shù)據(jù)中來判斷參數(shù)。
一旦識別相關的幀和區(qū)域,區(qū)域的幾何信息和內(nèi)容插入時間持續(xù)被用于確定內(nèi)容插入的最適合的類型。所插入的內(nèi)容可能是活動的、靜態(tài)的圖標、文字字幕、視頻插入等。
視頻演示的基于內(nèi)容的分析被用于在與視頻的主題較低相關的視頻演示內(nèi)分割若干部分。這些部分可以是時間的分割,與特別的幀或情景相對應,這些部分本身是在視頻幀內(nèi)的空間區(qū)域。
選擇視頻內(nèi)低相關性的情景。這在用于內(nèi)容插入的視頻演示中提供了分配目標區(qū)域的靈活性。本發(fā)明的實施例可以完全自動化,以實時式運行,因此,可以應用在視頻隨選以及播放應用中。同時本發(fā)明可以更好地適合于現(xiàn)場播放,其也可以用于記錄播放中。
實施例的系統(tǒng)和方法可以在計算機系統(tǒng)500中實施,圖22中示意。其也可能作為軟件來實施,如在計算機系統(tǒng)500內(nèi)執(zhí)行的計算機程序,并且指示計算機系統(tǒng)500執(zhí)行實施例方法。
計算機系統(tǒng)500包括計算模塊502、輸入模塊如鍵盤504及鼠標,以及多個輸出設備如顯示器508和打印機510。
計算模塊502與播放站14的輸入端通過適合的線如ISDN線及收發(fā)器512連接。收發(fā)器512也將計算機連接到本地播放裝置514(如果發(fā)送器和/或互聯(lián)網(wǎng)或LAN)來輸出完整的信號。
實施例中的計算模塊502包括一個處理器518、一個隨機存取存儲器(RAM)520以及一個只讀存儲器(ROM)522,ROM含有參數(shù)的嵌入結構。計算模塊502也包括許多輸入/輸出(I/O)接口,例如與顯示器508相連的I/O接口524,以及與鍵盤504相連的I/O接口526。
計算模塊502的組件典型的是通過內(nèi)部連結總線528來進行通信,通信方式對于內(nèi)業(yè)人員來說是熟知的。
典型為計算機系統(tǒng)500的用戶提供的應用程序編寫在數(shù)據(jù)存儲媒介如CD-ROM或軟盤上,利用對應的數(shù)據(jù)存儲設備550的數(shù)據(jù)存儲媒介驅(qū)動器進行讀出,或者通過網(wǎng)絡提供。應用程序被讀出并由處理器518進行控制執(zhí)行。程序數(shù)據(jù)的中間存儲可以利用RAM520來完成。
在前述的式中,描述了在視頻中進行附加內(nèi)容插入的法及裝置。此處只敘述了數(shù)個例子。然后對于業(yè)內(nèi)人士來說在本發(fā)明的精神下進行的各種替換及改進都沒有背離本發(fā)明權利要求的范圍。
權利要求
1.一種在視頻流的視頻片段內(nèi)插入附加的內(nèi)容的方法,視頻片段包括一系列視頻幀,該方法包括接收視頻片段;確定視頻片段的至少一個幀的畫面內(nèi)容;基于所確定的畫面內(nèi)容,確定附加內(nèi)容的插入的適宜性;根據(jù)所確定的適宜性將附加內(nèi)容插入視頻片段的幀中。
2.根據(jù)權利要求1所述的方法,其中,確定用于插入內(nèi)容的幀的適宜性包括為至少一幀確定至少一個第一參考值以顯示插入附加內(nèi)容至該幀的適宜性;以及根據(jù)所確定的至少一個第一參考值插入附加內(nèi)容。
3.根據(jù)權利要求2所述的方法,其中,相對于確定的畫面內(nèi)容的至少一個第一參考值可由操作員定義。
4.根據(jù)權利要求2或3所述的方法,其中,表示附加內(nèi)容插入的適宜性的至少一個第一參考值包括將附加內(nèi)容插入其中的幀的適宜性的參考值。
5.根據(jù)權利要求2-4任意一項所述的方法,其中,如果第一參考值在第一閾值的第一側,則該幀被確定為適合于在其中插入附加內(nèi)容。
6.根據(jù)權利要求5所述的方法,其中,如果第一參考值在第一閾值的第二側,則該幀被確定為不適合在其中插入附加內(nèi)容。
7.根據(jù)前述任意一項權利要求所述的方法,進一步包括判斷在視頻片段的幀內(nèi)至少一個預定類型的空間區(qū)域是否存在;以及根據(jù)判斷存在的預定類型的空間區(qū)域,將附加內(nèi)容插入視頻幀中。
8.根據(jù)權利要求7所述的方法,其中,預定類型的空間區(qū)域的判斷是基于所確定的視頻片段至少一幀的畫面內(nèi)容來進行的。
9.根據(jù)前述任意一項權利要求所述的方法,其中,幀用于插入的適宜性是基于幀對觀眾的相關性的判斷來確定的。
10.根據(jù)權利要求9所述的方法,當依賴于至少權利要求2,其中至少一個第一參考值包括至少一幀的一個第一相關觀眾參考值。
11.根據(jù)權利要求10所述的方法,其中,第一相關觀眾參考值從表中輸出,同時畫面內(nèi)容輸入到表中。
12.根據(jù)前述任意一項權利要求所述的方法,進一步包括確定視頻片段令人興奮的程度,并且基于所確定的令人興奮的程度來確定幀用于附加內(nèi)容的插入的適宜性。
13.根據(jù)權利要求12所述的方法,當依賴于至少權利要求2,其中,第一相關觀眾參考值從畫面內(nèi)容中以及從視頻片段令人興奮的程度的判斷中獲得。
14.根據(jù)權利要求13所述的方法,當依賴于至少權利要求11,其中,視頻片段令人興奮的程度的判斷包括對表的進一步輸入。
15.根據(jù)權利要求12-14任一權利要求所述的方法,其中視頻片段令人興奮的程度的判斷包括在視頻流中追蹤前面的視頻片段的內(nèi)容。
16.根據(jù)權利要求12-15任一權利要求所述的方法,其中視頻片段令人興奮的程度的判斷包括分析與視頻片段相關的音頻。
17.根據(jù)權利要求12-16任一權利要求所述的方法,其中視頻片段令人興奮的程度的判斷包括在視頻流內(nèi)分析前面視頻片段相關的音頻。
18.根據(jù)前述任意一項權利要求所述的方法,進一步包括通過分析與當前視頻片段主題相同的視頻片段,預先學習多個參數(shù),并且利用預先學習的參數(shù)來判斷幀用于附加內(nèi)容的插入的適宜性。
19.根據(jù)權利要求18所述的方法,當依賴于至少權利要求2,其中,預先學習的參數(shù)用來判斷至少一個第一參考值。
20.根據(jù)權利要求7或8所述的方法,當依賴于至少權利要求7時,根據(jù)權利要求9-19任意一項所述的方法,進一步包括通過分析與當前視頻相同主題的視頻片段,預先學習多個參數(shù),并利用預先學習的參數(shù)判斷至少一個預定類型的空間區(qū)域的存在。
21.根據(jù)權利要求18-20的任意一項所述的方法,進一步包括基于視頻流較前的部分,從而修改參數(shù)的使用,所述較前的部分指在當前視頻片段之前的部分。
22.根據(jù)權利要求21所述的方法,其中,確定視頻片段的至少一幀的畫面內(nèi)容以及確定幀的插入的適宜性包括執(zhí)行基于內(nèi)容的視頻分析以及經(jīng)修改的參數(shù)來識別視頻片段內(nèi)適合用于插入附加內(nèi)容的幀和區(qū)域。
23.根據(jù)前述任意一項權利要求所述的方法,進一步包括在插入附加內(nèi)容前,選擇要插入的附加內(nèi)容。
24.根據(jù)權利要求23所述的方法,其中插入的附加內(nèi)容的選擇是基于插入附加內(nèi)容的空間區(qū)域的大小和/或長寬比。
25.根據(jù)前述任意一項權利要求所述的方法,進一步包括在視頻流內(nèi)探測靜態(tài)空間區(qū)域,并且將進一步內(nèi)容插入探測到的靜態(tài)空間區(qū)域。
26.根據(jù)權利要求25所述的方法,其中,如果插入到探測到的靜態(tài)空間區(qū)域的進一步內(nèi)容和附加內(nèi)容重疊,進一步內(nèi)容固定到附加內(nèi)容的重疊部分。
27.在視頻流的視頻片段內(nèi)插入進一步內(nèi)容的方法,視頻片段包括視頻幀系列,該方法包括接收視頻流;在視頻流中探測靜態(tài)空間區(qū)域;以及將進一步內(nèi)容插入所探測到的靜態(tài)空間區(qū)域。
28.根據(jù)權利要求25-27所述的方法,其中,探測靜態(tài)空間區(qū)域包括對視頻流中幀序列內(nèi)的像素特性進行取樣以及平均化,從而決定在幀序列中的像素是否為靜態(tài)。
29.根據(jù)權利要求28所述的方法,其中平均步驟包括生成一個延時移動平均值。
30.根據(jù)權利要求25-27任意一項所述的方法,其中探測靜態(tài)空間區(qū)域包括在延時視窗中內(nèi)視頻流的幀序列的圖像坐標進行像素特性取樣,像素特性包括方向的邊緣強度以及像素RGB的強度;在各幀之間相同坐標上進行移動平均過濾像素特性來在延時視窗上提供一個變化偏移。
31.根據(jù)前述任意一項權利要求所述的方法,其中確定畫面內(nèi)容包括確定在幀內(nèi)一種或多種主色;確定在幀內(nèi)一種或多種主色相同的相互連接區(qū)域的大??;以及比較確定的大小與相關預定的閾值。
32.根據(jù)權利要求31所述的方法,其中在幀內(nèi)確定一種或多種主色包括將綠色或非綠色的區(qū)域分類,并將最大尺寸的相互連接的綠色區(qū)域和相關預定的閾值比較,確定該幀是否有賽場情景。
33.根據(jù)前述任意一項權利要求所述的方法,其中視頻流為現(xiàn)場直播。
34.根據(jù)前述任意一項權利要求所述的方法,其中視頻流為比賽的播放。
35.根據(jù)權利要求34所述的方法,其中,比賽為英式足球比賽。
36.根據(jù)前述任意一項權利要求所述的方法,進一步包括將帶有附加內(nèi)容的視頻流發(fā)送給觀眾。
37.根據(jù)前述任一權利要求所使用視頻集成裝置。
38.一種視頻集成裝置,用于將附加內(nèi)容插入視頻流的視頻片段,其中視頻片段包括一系列視頻幀。該裝置包括接收視頻片段部件;確定視頻片段的至少一幀的畫面內(nèi)容的部件;基于所確定的畫面內(nèi)容而確定至少一幀用于插入附加內(nèi)容的適宜性的部件;根據(jù)所確定的適宜性而將附加內(nèi)容插入視頻片斷的幀中的部件。
39.一種視頻集成裝置,用于將附加內(nèi)容插入視頻流的視頻片段,其中視頻片段包括一系列視頻幀。該裝置包括接收視頻流部件;在視頻流內(nèi)探測靜態(tài)空間區(qū)域的部件;以及將下一內(nèi)容插入所探測到的靜態(tài)空間區(qū)域的部件。
40.根據(jù)權利要求38或39所述的裝置,可按照權利要求1-36所述的方法使用。
41.計算機程序產(chǎn)品,用于將附加內(nèi)容插入視頻流的視頻片段中,視頻片段包括一系列視頻幀,計算機程序產(chǎn)品包括計算機可用媒介;計算機可讀程序代碼,其記錄在計算機可用媒介內(nèi),根據(jù)權利要求1-36的任意一項來使用。
42.計算機程序產(chǎn)品,用于將附加內(nèi)容插入視頻流的視頻片段中,視頻片段包括一系列視頻幀,計算機程序產(chǎn)品包括計算機可用媒介;計算機可讀程序代碼,其記錄在計算機可用媒介內(nèi),當下載到計算機時,可以將計算機作為按照權利要求37-40所述的裝置。
全文摘要
通過執(zhí)行基于內(nèi)容的實時幀處理來在視頻中識別適合植入的位置而將廣告或其它虛擬內(nèi)容插入視頻演示的幀序列的方法及裝置。這些位置對應于視頻演示內(nèi)的時間片段,也對應于通常被認為對視頻觀眾較低相關性的圖像畫面內(nèi)的區(qū)域。本發(fā)明的方法和裝置允許用非打擾的方法將附加的虛擬內(nèi)容合并到視頻演示中,推動了附加通信頻道從而大幅提高視頻的互動性。
文檔編號H04N7/24GK1728781SQ20051008458
公開日2006年2月1日 申請日期2005年8月1日 優(yōu)先權日2004年7月30日
發(fā)明者尹光華, 徐常勝, 林如暉, 余新國 申請人:新加坡科技研究局