用于識別視頻內容和記錄視頻的裝置、方法和計算機產品的制作方法

文檔序號：6756320閱讀：191來源：國知局

專利名稱：用于識別視頻內容和記錄視頻的裝置、方法和計算機產品的制作方法
技術領域：
本發(fā)明涉及識別視頻內容的技術以及記錄視頻的技術。
背景技術：
編程記錄設備在預定時間記錄節(jié)目的視頻圖像。該編程記錄設備對根據(jù)視頻圖像的各種特征而記錄的視頻內容進行識別，并根據(jù)這些特征來識別所記錄的節(jié)目是否延時。如果延時，則改變記錄的起始和結束。
典型的傳統(tǒng)編程記錄設備包括視頻內容識別單元；節(jié)目信息設定單元，其設定與要記錄的節(jié)目相關的信息；以及記錄時間控制單元，其將由視頻內容識別單元識別的內容與由節(jié)目信息設定單元設定的信息進行比較，并對記錄的起始和結束進行控制。視頻內容識別單元包括特征檢測單元，其檢測圖像信號的特征；知識庫單元，其包含與圖像內容的特征相關的知識庫；以及特征驗證單元，其將檢測到的特征與知識庫進行比較。
例如，在日本特開公報No.H6-309733中公開了這種傳統(tǒng)技術。
然而，在該傳統(tǒng)的編程記錄設備中，必須預先準備包含與視頻圖像內容的特征相關的知識庫的知識庫單元。結果，難以提供與新節(jié)目相關的視頻圖像內容的特征數(shù)據(jù)。因此，根據(jù)視頻圖像內容來進行特征檢測的準確度變低，導致無法記錄新節(jié)目。
例如，假設對于棒球比賽的轉播設置了編程記錄。當知識庫單元接收到新的視頻圖像信號時，例如，當從不同的體育場轉播棒球比賽、棒球隊的制服發(fā)生變化、或者轉播該比賽的電視臺的畫面編排發(fā)生變化等時，這些信號不會被識別為預定要進行記錄的棒球轉播的視頻圖像內容。結果，沒有進行記錄。
提高準確度的一種方法是更新知識庫單元的內容。但是，隨著當前多頻道廣播的趨勢，所涉及的數(shù)據(jù)量和數(shù)據(jù)更新的頻度將變得非常大，知識庫單元的參數(shù)數(shù)據(jù)量也將增加。參數(shù)數(shù)據(jù)的增加導致更高的錯誤檢測的概率，這降低了檢測的準確度。

發(fā)明內容
本發(fā)明的目的是解決傳統(tǒng)技術中的至少這些問題。
根據(jù)本發(fā)明一個方面的用于識別視頻內容的一種裝置包括分割單元，其根據(jù)多個剪輯點(cut point)將多個圖像幀分割成多個視頻鏡頭(shot)集合，每一個剪輯點都表示畫面的改變；相似視頻鏡頭提取單元，其從這些視頻鏡頭集合中提取與各個視頻鏡頭相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對各個視頻鏡頭的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；以及代表性視頻鏡頭確定單元，其將最大計數(shù)視頻鏡頭作為表示視頻內容的代表性視頻鏡頭。
根據(jù)本發(fā)明另一方面的一種記錄裝置包括視頻內容識別裝置，用于識別由多個圖像幀構成的視頻的內容；記錄信息輸入單元，其接收記錄信息的輸入，該記錄信息包括想要記錄的節(jié)目的播放日期、播放起始時間和播放持續(xù)時間；記錄單元，用于記錄節(jié)目的視頻；以及記錄控制單元，其對記錄單元進行控制，并對在由記錄信息輸入單元輸入的記錄信息中設定的節(jié)目的視頻進行記錄。該視頻內容識別裝置包括分割單元，其根據(jù)多個剪輯點將多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；相似視頻鏡頭提取單元，其從這些視頻鏡頭集合中提取與各個視頻鏡頭相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對各個視頻鏡頭的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；以及代表性視頻鏡頭確定單元，其將最大計數(shù)視頻鏡頭作為代表視頻內容的代表性視頻鏡頭。該視頻內容識別裝置根據(jù)描繪節(jié)目內容的圖像幀序列，來確定代表在記錄信息中設定的節(jié)目的視頻內容的代表性視頻鏡頭。記錄控制單元根據(jù)由視頻內容識別裝置進行的代表性視頻鏡頭確定的結果，終止在記錄信息中設定的記錄。
根據(jù)本發(fā)明另一方面的一種記錄裝置包括視頻內容識別裝置，用于識別由多個圖像幀構成的視頻的內容；記錄信息輸入單元，其接收記錄信息的輸入，該記錄信息包括想要記錄的節(jié)目的播放日期、播放起始時間和播放持續(xù)時間；記錄單元，其記錄節(jié)目的視頻；以及記錄控制單元，其對記錄單元進行控制，并對在由記錄信息輸入單元輸入的記錄信息中設定的節(jié)目的視頻進行記錄。該視頻內容識別裝置包括分割單元，其根據(jù)多個剪輯點將多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；相似視頻鏡頭提取單元，其從這些視頻鏡頭中提取與各個視頻鏡頭相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對各個視頻鏡頭的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；代表性視頻鏡頭確定單元，其將最大計數(shù)視頻鏡頭作為代表視頻內容的代表性視頻鏡頭；以及視頻內容識別單元，其識別第二圖像幀序列的視頻內容是否與代表性視頻鏡頭的視頻內容相似。該分割單元將第二圖像幀序列分割成包括由多個剪輯點限定的多個圖像幀在內的第二視頻鏡頭集合，每一個剪輯點都表示畫面的變化。該視頻內容識別單元根據(jù)該代表性視頻鏡頭的視頻鏡頭和該第二視頻鏡頭集合，來識別第二圖像幀序列的視頻內容是否與代表性視頻鏡頭的視頻內容相似。該視頻內容識別裝置根據(jù)描繪節(jié)目內容的第一圖像幀序列確定在記錄信息中設定的代表節(jié)目的視頻內容的代表性視頻鏡頭。如果視頻內容識別裝置能夠確定代表在記錄信息中設定的節(jié)目的代表性視頻鏡頭，則該記錄控制單元對在經過在記錄信息中設定的節(jié)目的播放持續(xù)時間之后的預定時間段內輸入的第二圖像幀序列進行記錄。
根據(jù)本發(fā)明另一方面的一種記錄裝置包括視頻內容識別裝置，用于識別由多個圖像幀構成的視頻的內容；記錄信息輸入單元，其接收記錄信息的輸入，該記錄信息包括想要記錄的節(jié)目的播放日期、播放起始時間和播放持續(xù)時間；記錄單元，其記錄節(jié)目的視頻；以及記錄控制單元，其對記錄單元進行控制，并對在由記錄信息輸入單元輸入的記錄信息中設定的節(jié)目的視頻進行記錄。該視頻內容識別裝置包括分割單元，其根據(jù)多個剪輯點將多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的改變；相似視頻鏡頭提取單元，其從這些視頻鏡頭中提取與各個視頻鏡頭相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對各個視頻鏡頭的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；以及代表性視頻鏡頭確定單元，其將最大計數(shù)視頻鏡頭作為代表視頻內容的代表性視頻鏡頭。此外，該記錄信息輸入單元還接收與想要記錄的節(jié)目之前的節(jié)目相關的節(jié)目信息的輸入。該視頻內容識別裝置根據(jù)描繪先前節(jié)目內容的圖像幀序列，確定代表在記錄信息中設定的節(jié)目的視頻內容的代表性視頻鏡頭。該記錄控制單元根據(jù)由該視頻內容識別裝置進行的代表性視頻鏡頭確定的結果，來終止在記錄信息中設定的記錄。
根據(jù)本發(fā)明另一方面的一種識別視頻內容的方法包括根據(jù)多個剪輯點將多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；從這些視頻鏡頭集合中提取與各個視頻鏡頭相似的相似視頻鏡頭；對各個視頻鏡頭的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；以及將該最大計數(shù)視頻鏡頭作為代表該視頻內容的代表性視頻鏡頭。
根據(jù)本發(fā)明另一方面的一種記錄視頻的方法包括輸入記錄信息，該記錄信息包括想要記錄的節(jié)目的播放日期、播放起始時間和播放持續(xù)時間；開始記錄該節(jié)目的視頻；根據(jù)多個剪輯點將該視頻的多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；從這些視頻鏡頭集合中提取與各個視頻鏡頭相似的相似視頻鏡頭；對各個視頻鏡頭的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭數(shù)量最大的最大計數(shù)視頻鏡頭；將最大計數(shù)視頻鏡頭作為代表性視頻鏡頭；以及根據(jù)該代表性視頻鏡頭終止該記錄。
根據(jù)本發(fā)明另一方面的一種計算機可讀記錄介質存儲一計算機程序，該計算機程序使計算機執(zhí)行根據(jù)本發(fā)明的識別視頻內容的上述方法。
根據(jù)本發(fā)明另一方面的一種計算機可讀記錄介質存儲一計算機程序，該計算機程序使計算機執(zhí)行根據(jù)本發(fā)明的記錄視頻的上述方法。
將具體提出本發(fā)明的其它目的、特征和優(yōu)點，或者本發(fā)明的其它目的、特征和優(yōu)點將通過結合附圖閱讀本發(fā)明的以下詳細說明而變得明了。

圖1是根據(jù)本發(fā)明一實施例的視頻內容識別裝置和記錄裝置的硬件結構；圖2是輸入到視頻內容識別裝置和記錄裝置中的圖像幀序列；圖3是視頻內容識別裝置和記錄裝置的功能結構框圖；圖4是用于說明圖3所示的特征信息數(shù)據(jù)庫的內容的示意圖；圖5是由圖3所示的相似視頻鏡頭提取單元進行的提取操作的示例；圖6是由圖3所示的圖表創(chuàng)建單元創(chuàng)建的圖表的示例；圖7是由圖3所示的圖表創(chuàng)建單元創(chuàng)建的圖表的另一示例；圖8是根據(jù)第一操作示例的代表性視頻鏡頭評估處理的流程圖；圖9是根據(jù)第二操作示例的代表性視頻鏡頭評估處理的流程圖；圖10是根據(jù)第三操作示例的記錄處理的流程圖；圖11是圖10所示的視頻內容識別處理的詳細流程圖；圖12表示在根據(jù)第三操作示例的記錄處理過程中的視頻鏡頭的分布；圖13是根據(jù)第四操作示例的記錄處理的流程圖；以及圖14是根據(jù)第五操作示例的記錄處理的流程圖。
具體實施例方式
下面參照

用于識別視頻內容的裝置、方法和計算機程序的示例性實施例，以及用于記錄視頻的裝置、方法和計算機產品。
接下來說明根據(jù)本發(fā)明一實施例的視頻內容識別裝置和記錄裝置的硬件結構。圖1是根據(jù)本發(fā)明一實施例的視頻內容識別裝置和記錄裝置的硬件結構。
該視頻內容識別裝置和記錄裝置包括中央處理單元(CPU)101、只讀存儲器(ROM)102、隨機存取存儲器(RAM)103、硬盤驅動器(HDD)104、硬盤(HD)105、播放器/記錄器106、可拆卸記錄介質107、圖像/聲音輸入接口108、接收天線109、圖像/聲音輸出接口110、顯示器111、揚聲器(或耳機)112、數(shù)據(jù)輸入接口113、遙控114、鍵盤/鼠標115、通信接口116、以及連接所有上述部分的總線100。
CPU101控制整個視頻內容識別裝置和記錄裝置。ROM102存儲程序，例如啟動程序。CPU101使用RAM103作為工作區(qū)。HDD104在CPU101的控制下從HD105讀取數(shù)據(jù)以及將數(shù)據(jù)寫入HD105。HD105在HDD104的控制下存儲寫入其中的數(shù)據(jù)。
播放器/記錄器106在CPU101的控制下從記錄介質107播放數(shù)據(jù)，或者將數(shù)據(jù)記錄在記錄介質107上。記錄介質107可以從播放器/記錄器106拆除。在播放器/記錄器106的控制下，可以從記錄介質107讀取數(shù)據(jù)或者將數(shù)據(jù)寫入記錄介質107。記錄介質的示例包括光盤(CD)、可刻錄光盤(CD-R)、只讀光盤(CD-ROM)、數(shù)字多功能光盤(DVD)、數(shù)字多功能可刻錄光盤(DVD-R)、DVD+R、可重寫DVD(DVD-RW)、DVD+RW、磁光盤(MO)、閃存卡、錄像帶、HD105等。
圖像/聲音輸入I/F108輸入由接收天線109接收的圖像和聲音。圖像/聲音輸出I/F110連接到顯示圖像的顯示器111和輸出聲音的揚聲器(或耳機)112。顯示器111顯示各種類型的數(shù)據(jù)，例如圖標、光標、菜單、窗口、文本、圖像等。顯示器111例如可以是陰極射線管(CRT)、薄膜晶體管(TFT)液晶顯示器、等離子體顯示器等。
數(shù)據(jù)輸入I/F113輸入通過遠程控制114和鍵盤/鼠標115輸入的數(shù)據(jù)，該遙控114配備有用于輸入文本、數(shù)字和指令等的多個鍵?？梢暂斎氲臄?shù)據(jù)例如為電源開/關、頻道設定、與編程記錄相關的信息等。通信I/F116輸入來自網絡117的各種數(shù)據(jù)，例如圖像數(shù)據(jù)、聲音數(shù)據(jù)、電子節(jié)目指南數(shù)據(jù)等。網絡117的示例包括局域網(LAN)、廣域網(WAN)、因特網等。
接下來說明輸入到視頻內容識別裝置和記錄裝置中的圖像幀序列。圖2是輸入到視頻內容識別裝置和記錄裝置中的視頻幀序列。
從圖1所示的圖像/聲音輸入I/F108或通信I/F依次輸入描繪特定視頻內容的圖像幀序列200。圖像幀序列200的視頻內容描繪了棒球轉播。該圖像幀序列200由多個視頻鏡頭Si(i＝1到n)構成。視頻鏡頭Si由兩個剪輯點Ci(i＝1到n+1)之間的一組連續(xù)圖像幀構成，其中剪輯點Ci代表畫面的顯著變化。
例如，由連續(xù)圖像幀序列f1到fj構成的視頻鏡頭Si是由位于中間的攝像機拍攝的。由圖像幀序列fj+1到fk構成的后續(xù)視頻鏡頭Si+1是由位于其它地方的攝像機拍攝的。下一個視頻鏡頭Si+2表示商業(yè)節(jié)目。
接下來說明根據(jù)本發(fā)明的視頻內容識別裝置和記錄裝置的功能性結構。圖3是視頻內容識別裝置和記錄裝置的功能結構框圖。
記錄裝置300包括圖像幀輸入單元301、視頻內容識別裝置302、記錄信息輸入單元303、記錄單元304和記錄控制單元305。圖像幀輸入單元301接收例如連續(xù)圖像幀序列200的輸入。可以通過圖1所示的圖像/聲音輸入I/F108或通信I/F116來實現(xiàn)圖像幀輸入單元301的功能。
接下來說明視頻內容識別裝置302的功能性結構。視頻內容識別裝置302包括分割單元320、特征信息創(chuàng)建單元321、特征信息數(shù)據(jù)庫322、過濾單元323、相似視頻鏡頭提取單元324、最大計數(shù)視頻鏡頭提取單元325、代表性視頻鏡頭確定單元326、評估單元327和視頻內容識別單元328。
分割單元320將從圖像幀輸入單元301輸入的圖像幀序列分割成由多個剪輯點(在該剪輯點處，視頻內容發(fā)生變化)限定的多個圖像幀構成的多個視頻鏡頭。具體地，分割單元320將圖2所示的圖像幀序列200分割成多個視頻鏡頭Si。
分割單元320包括邊緣檢測單元331、行為分析單元332、色彩分析單元333和剪輯點查找單元334。邊緣檢測單元331檢測從圖像幀輸入單元301輸入的一系列圖像幀中的每一個圖像幀中的對象的邊緣。該對象的示例包括圖2中的圖像幀f1中的球員、裁判、球場、擋球網等。
行為分析單元332通過將由邊緣檢測單元331檢測到的圖像幀的邊緣與另一圖像幀的邊緣進行比較來分析對象的行為。例如，在圖2的視頻鏡頭Si中，諸如球員和裁判的動態(tài)對象的邊緣部分或全部移動。另一方面，諸如球場或擋球網的靜態(tài)對象不會移動。
當超過剪輯點Ci+1時，當這些對象(其邊緣被邊緣檢測單元331檢測到)明顯變化為下一視頻鏡頭Si+1中的對象時，行為信息會發(fā)生顯著變化。當利用運動圖像專家組(MPEG)壓縮格式來壓縮影片時，行為分析單元332通過圖像幀和運動矢量對視頻鏡頭S的行為進行分析。
色彩分析單元333對各個圖像幀中的色彩進行分析。具體地，色彩分析單元333計算采用YUV格式的各個圖像幀的色彩信息，Y表示亮度信號，U表示亮度信號和紅色分量之間的差異，V表示亮度信號和藍色分量之間的差異。在視頻鏡頭Si中，因為在各個圖像幀中顯示了相同的對象，所以色彩信息變化不大。但是，對于下一視頻鏡頭Si+1，色彩信息變化明顯。
剪輯點查找單元334將兩個連續(xù)的圖像幀進行比較，并識別剪輯點C，該剪輯點C表示視頻內容發(fā)生變化的點。具體地，當兩個連續(xù)的圖像幀在色彩信息或行為信息方面的差異超過了預定閾值時，剪輯點查找單元334識別這兩個幀之間的剪輯點C。
例如，剪輯點查找單元334比較連續(xù)圖像幀fj與fj+1的色彩信息和行為信息，如果該差異超過了預設閾值，則確定視頻鏡頭S從視頻鏡頭Si改變到視頻鏡頭Si+1。剪輯點查找單元334識別剪輯點Ci+1之前的圖像幀fj，作為視頻鏡頭Si的最后一幀，并將剪輯點Ci+1之后的圖像幀fj+1作為視頻鏡頭Si+1的第一幀。
由此，通過識別剪輯點C，將從圖像幀輸入單元301輸入的圖像幀序列200分割成多個視頻鏡頭S，該多個視頻鏡頭S由通過多個剪輯點C(表示畫面發(fā)生變化的點)限定的圖像幀序列構成。CPU101通過執(zhí)行存儲在諸如圖1所示的ROM102、RAM103、HD105等的記錄介質中的程序來實現(xiàn)分割單元320的功能。
特征信息創(chuàng)建單元321創(chuàng)建表示由分割單元320分割的各個視頻鏡頭S的特征的特征信息。特征信息數(shù)據(jù)庫322存儲由特征信息創(chuàng)建單元321創(chuàng)建的特征信息。圖4是特征信息數(shù)據(jù)庫322的內容表。
具體地，該特征信息包括塊信息，其包括各個視頻鏡頭S的第一幀和最后一幀；各個視頻鏡頭的色彩信息，其通過對視頻鏡頭中的所有圖像幀的色彩信息進平均而獲得；以及各個視頻鏡頭的行為信息，其通過對視頻鏡頭中的所有圖像幀的行為信息進行平均而獲得。CPU101通過執(zhí)行存儲在諸如圖1所示的ROM102、RAM103、HD105等的記錄介質中的程序來實現(xiàn)特征信息創(chuàng)建單元321的功能?？梢酝ㄟ^如圖1所示的ROM102、RAM103、HD105等來實現(xiàn)特征信息數(shù)據(jù)庫322的功能。
返回到圖3，過濾單元323從存儲在特征信息數(shù)據(jù)庫322中的特征信息中過濾出與商業(yè)節(jié)目相對應的視頻鏡頭Si+2的特征信息。具體地，由于來自轉播攝像機的視頻鏡頭S的圖像幀的數(shù)量可能遠遠大于任何其它節(jié)目或商業(yè)節(jié)目，所以過濾單元323對圖像幀的數(shù)量設置一預定閾值，如果視頻鏡頭S中的圖像幀的數(shù)量少于該預設閾值，則過濾掉與該視頻鏡頭S相關的特征信息。將該視頻鏡頭S計算為最后幀號與第一幀號之間的差值。CPU101通過執(zhí)行存儲在諸如圖1所示的ROM102、RAM103、HD105等的記錄介質中的程序來實現(xiàn)過濾單元323的功能。
相似視頻鏡頭提取單元324提取與由分割單元320分割的各個視頻鏡頭相似的視頻鏡頭S。具體地，相似視頻鏡頭提取單元324通過存儲在特征信息數(shù)據(jù)庫322中的各個視頻鏡頭S的特征信息來計算一個視頻鏡頭S與其余視頻鏡頭S之間的相似度。該相似度例如可以為包含在進行比較的兩個視頻鏡頭的特征信息中的色彩信息的差異。
該相似度還可以為包含在進行比較的兩個視頻鏡頭的特征信息中的行為信息的差異。另選地，該相似度可以為進行比較的視頻鏡頭的色彩信息和行為信息的差異的總和。相似視頻鏡頭提取單元324提取處于預定相似度之內的視頻鏡頭S，作為相似視頻鏡頭Sr。CPU101通過執(zhí)行存儲在諸如圖1所示的ROM102、RAM103、HD105等的記錄介質中的程序來實現(xiàn)相似視頻鏡頭提取單元324的功能。
接下來說明由相似視頻鏡頭提取單元324進行的提取操作的更具體的示例。圖5是由相似視頻鏡頭提取單元324進行的提取操作的更具體的示例。相似視頻鏡頭提取單元324將連續(xù)的視頻鏡頭序列S分割成多個塊E。接下來，相似視頻鏡頭提取單元324從各個塊E中的視頻鏡頭S中提取相互相似的視頻鏡頭S。例如，相似視頻鏡頭提取單元324從塊E1中的視頻鏡頭Sa到Se中提取相互相似的視頻鏡頭Sb和Sd。
相似視頻鏡頭提取單元324計算從任何給定塊E(例如塊E1)中提取的視頻鏡頭(例如Sb和Sd)與從其余塊E中提取的視頻鏡頭S之間的相似度。相似視頻鏡頭提取單元324對從各塊E中提取的各個視頻鏡頭S，提取相似視頻鏡頭Sr。
然后，當提取相似視頻鏡頭Sr時，可以通過將視頻鏡頭S的連續(xù)序列分割成多個塊E來過濾掉不與任何其它視頻鏡頭S相似的視頻鏡頭S。因此，對于具有大量視頻鏡頭S的節(jié)目(例如超過一個小時的節(jié)目)，可以提高提取相似視頻鏡頭Sr的速度。
最大計數(shù)視頻鏡頭提取單元325提取最大計數(shù)視頻鏡頭Srm，其具有由相似視頻鏡頭提取單元324提取的相似視頻鏡頭Sr的最大數(shù)量。如果存在多個所提取的最大計數(shù)視頻鏡頭Srm，則可以提取這些最大視頻鏡頭Srm中的任何一個。CPU101可以通過執(zhí)行存儲在圖1所示的ROM102、RAM103、HD105等中的程序來實現(xiàn)最大計數(shù)視頻提取單元325的功能。
代表性視頻鏡頭確定單元326包括第一代表性視頻鏡頭確定單元341和第二代表性視頻鏡頭確定單元342。第一代表性視頻鏡頭確定單元341將表示視頻內容的代表性視頻鏡頭SD作為由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm。
基于評估單元327的評估結果，第二代表性視頻鏡頭確定單元342將表示視頻的視頻內容的代表性視頻鏡頭SD作為最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm。CPU101可以通過執(zhí)行存儲在圖1所示的ROM102、RAM103、HD105等中的程序，來實現(xiàn)代表性視頻鏡頭確定單元326的功能。
評估單元327根據(jù)與由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm相似的視頻鏡頭S的數(shù)量以及由分割單元320分割的視頻鏡頭S的數(shù)量，來評估由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm是否與第一代表性視頻鏡頭單元341確定的代表性視頻鏡頭SD相對應。具體地，評估單元327包括出現(xiàn)比率計算單元343、比率比較單元344、和比較結果評估單元345。
出現(xiàn)比率計算單元343利用由分割單元320分割的視頻鏡頭S的數(shù)量以及與由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm相似的視頻鏡頭S的數(shù)量，來計算出現(xiàn)比率。例如，如果由分割單元320分割的視頻鏡頭S的數(shù)量為N，而與由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm相似的視頻鏡頭S的數(shù)量為M，則出現(xiàn)比率為P＝M/N。
比率比較單元344將由出現(xiàn)比率計算單元343計算的出現(xiàn)比率P與預定的出現(xiàn)比率Q進行比較。比較結果評估單元345根據(jù)比率比較單元344的比較結果，評估由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm是否與由第一代表性視頻鏡頭確定單元341確定的代表性視頻鏡頭SD相對應。
具體地，如果出現(xiàn)比率P大于預定出現(xiàn)比率Q，則比較結果評估單元345確定由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm與由第一代表性視頻鏡頭確定單元341確定的代表性視頻鏡頭SD相對應。否則，比較結果評估單元345確定由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm不與由第一代表性視頻鏡頭確定單元341確定的代表性視頻鏡頭SD相對應。
將該評估結果輸出到第二代表性視頻鏡頭確定單元342。如果由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm與由第一代表性視頻鏡頭確定單元341確定的代表視頻鏡頭SD相對應，則第二代表性視頻鏡頭確定單元342將由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm作為代表性視頻鏡頭SD。
換言之，第二代表性視頻鏡頭確定單元342支持(uphold)第一代表性視頻鏡頭確定單元341的判定。如果由最大計數(shù)視頻鏡頭提取單元325提取的最大計數(shù)視頻鏡頭Srm不與由第一代表性視頻鏡頭確定單元341確定的代表性視頻鏡頭SD相對應，則第二代表性視頻鏡頭確定單元342不將最大計數(shù)視頻鏡頭Srm作為代表性視頻鏡頭SD。CPU101可以通過執(zhí)行存儲在圖1所示的ROM102、RAM103、HD105等中的程序來實現(xiàn)評估單元327的功能。
因此，如果代表性視頻鏡頭確定單元326可以從連續(xù)的視頻鏡頭S序列中確定代表性視頻鏡頭SD，則將該視頻內容作為代表性視頻鏡頭SD的重復描述的視頻鏡頭或者與該代表性視頻鏡頭SD相似的視頻鏡頭。這種類型的視頻內容的一些示例例如包括棒球、網球、排球、相撲、職業(yè)摔跤、馬拉松、馬拉松接力賽等。
另一方面，如果代表性視頻鏡頭確定單元326不能從連續(xù)的視頻鏡頭S序列中確定代表性視頻鏡頭SD，則將該視頻內容作為與代表性視頻鏡頭SD中的視頻鏡頭不相似的描繪視頻鏡頭。這種視頻內容一些示例為電視劇、新聞、各種節(jié)目、動畫等，其中的屏幕變化遠比體育賽事的轉播頻繁。因此，可以根據(jù)是否能夠確定代表性視頻鏡頭SD來確定當前是否正在播放體育賽事。
視頻內容識別單元328在確定代表視頻鏡頭SD之后，根據(jù)代表性視頻鏡頭SD的視頻鏡頭S以及由分割單元320分割的新視頻鏡頭S來識別視頻內容。具體地，視頻內容識別單元328識別在確定代表性視頻鏡頭SD之后輸入的新圖像幀序列是否具有與代表性視頻鏡頭SD的視頻內容相似的視頻內容。視頻內容識別單元328包括相似度計算單元351、鏡頭計數(shù)查找單元352、圖表創(chuàng)建單元353、鏡頭計數(shù)比較單元354和評估結果輸出單元355。
相似度計算單元351計算代表性視頻鏡頭SD的視頻鏡頭與由分割單元320分割的新視頻鏡頭S之間的相似度。具體地，當在確定代表性視頻鏡頭SD之后輸入了新圖像幀序列200時，分割單元320將圖像幀序列200分割成多個新的視頻鏡頭S。特征信息創(chuàng)建單元321為這些新視頻鏡頭S創(chuàng)建特征信息，并將特征信息存儲在特征信息數(shù)據(jù)庫322中。
相似度計算單元351通過存儲在特征信息數(shù)據(jù)庫322中的特征信息，來計算代表性視頻鏡頭SD的視頻鏡頭與新視頻鏡頭S之間的相似度。該相似度例如可以為包含在進行比較的兩個視頻鏡頭的特征信息中的色彩信息的差異。該相似度還可以為包含在進行比較的兩個視頻鏡頭的特征信息中的行為信息的差異。另選地，該相似度可以為進行比較的兩個視頻鏡頭的色彩信息和行為信息兩者的差異的總和。相似視頻鏡頭提取單元324提取處于預定相似度之內的視頻鏡頭S，作為相似視頻鏡頭Sr。
鏡頭計數(shù)查找單元352對于由相似度計算單元351計算的各個相似度，查找新視頻鏡頭S的鏡頭計數(shù)值。圖表創(chuàng)建單元353創(chuàng)建表示鏡頭計數(shù)查找單元352的檢測結果的圖表。接下來說明由圖表創(chuàng)建單元353創(chuàng)建的圖表。圖6和圖7是由圖表創(chuàng)建單元353創(chuàng)建的圖表的示例。
在圖6和圖7中，以直方圖和相關函數(shù)的形式表示與代表性視頻鏡頭SD相比較的多個視頻鏡頭S的相似度以及各個相似度的鏡頭計數(shù)。圖6的曲線圖表示棒球轉播的視頻內容。圖7的曲線圖表示電視劇的視頻內容。X軸表示新視頻鏡頭S的相似度，Y軸表示各個相似度的新視頻鏡頭的鏡頭計數(shù)。代表性視頻鏡頭SD的視頻計數(shù)和相似度被設置為‘0’。
在圖6所示的曲線圖中，對于相似度‘6000’可以看到峰值(鏡頭計數(shù)‘44’)。與該峰值相對應的相似度為相關函數(shù)的最大值。從該峰值開始，隨著相似度的增加，鏡頭計數(shù)開始下降，并在相似度‘15000’處到達最小值。從相似度‘15000’開始，鏡頭計數(shù)又開始增加。另一方面，在圖7所示的曲線圖中，鏡頭計數(shù)隨著相似度的增加而增加。換言之，相關函數(shù)穩(wěn)定地增加。
圖3所示的鏡頭計數(shù)比較單元354根據(jù)由圖表創(chuàng)建單元353創(chuàng)建的曲線圖形狀，將預定鏡頭計數(shù)和與低于預定相似度的任何隨機相似度相對應的鏡頭計數(shù)進行比較。根據(jù)比較結果，鏡頭計數(shù)比較單元354確定在確定代表性視頻鏡頭之后輸入的新圖像幀序列的視頻內容是否與代表性視頻鏡頭SD的視頻內容相似。
為了使用圖6所示的曲線圖進行更具體的說明，假設預定相似度為‘15000’，即，如果相似度為‘15000’或更小，則新圖像幀序列的視頻內容與代表性視頻鏡頭SD相似，而如果相似度為‘16000’或更大，則不相似。并且，假設預定鏡頭計數(shù)為‘20’，則在小于‘15000’的相似度中，與‘20’或更大的鏡頭計數(shù)相對應的相似度為‘6000’、‘7000’和‘8000’。
可以根據(jù)是否存在與低于預定鏡頭計數(shù)或相似度的鏡頭計數(shù)相對應的相似度來判斷新圖像幀序列的視頻內容是否與代表性視頻鏡頭SD的視頻內容相似。另選地，可以計算與大于預定鏡頭計數(shù)的鏡頭計數(shù)相對應的相似度的總和，或者這些鏡頭計數(shù)本身的總和，并將各個總和與預設閾值進行比較，以確定新圖像幀序列的視頻內容是否與代表性視頻鏡頭SD的視頻內容相似。
假設在上面給出的示例中，假定該確定基于是否存在與預定鏡頭計數(shù)‘20’相對應的相似度，則由于找到了三個相似度，即‘6000’、‘7000’和‘8000’，所以鏡頭計數(shù)比較單元354將該新圖像幀序列的視頻內容識別為與代表性視頻鏡頭SD的視頻內容相似。
評估結果輸出單元355創(chuàng)建與鏡頭計數(shù)比較單元354的評估結果相關的信息(下文中稱為“評估結果信息”)，并將該評估結果信息輸出到記錄控制單元305。CPU101可以通過執(zhí)行存儲在圖1所示的ROM102、RAM103、HD105等中的程序來實現(xiàn)視頻內容識別單元328的功能。
返回到圖3，記錄信息輸入單元303接收與任何給定節(jié)目相關的記錄信息，例如包括播放日期、播放起始時間、播放頻道和播放持續(xù)時間。G-code(注冊商標)和電子節(jié)目指南為記錄信息的示例。電子節(jié)目指南可以包括節(jié)目列表以及與這些節(jié)目相關的信息，例如它們的播放日期、播放起始時間、播放頻道和播放持續(xù)時間、播放是否可能延長、如果可能延長則延長的持續(xù)時間等。
除了G-code(注冊商標)和電子節(jié)目指南之外，用戶還可以直接利用操作鍵或數(shù)值鍵直接輸入任意節(jié)目的記錄信息?？梢酝ㄟ^數(shù)據(jù)輸入I/F113或通信I/F116，由圖1所示的遙控114、鍵盤/鼠標115(還有未示出的輸入鍵)來實現(xiàn)記錄信息輸入單元303的功能。
記錄單元304在預定記錄介質上記錄節(jié)目。記錄單元304還重放記錄在記錄介質上的視頻?？梢酝ㄟ^圖1所示的播放器/記錄器106來實現(xiàn)記錄單元304的功能。可以通過圖1所示的記錄介質107或HD105來實現(xiàn)記錄介質的功能。
記錄控制單元305控制記錄單元304，并記錄與由記錄信息輸入單元303輸入的記錄信息相對應的節(jié)目。具體地，記錄控制單元305以在記錄信息中規(guī)定的播放日期的播放起始時間啟動記錄單元304，并且在整個播放持續(xù)時間內，對記錄信息中規(guī)定的播放頻道的視頻(或者更為具體地為圖像幀序列200)進行記錄。
記錄控制單元305控制記錄單元304，并根據(jù)代表性視頻鏡頭確定單元326的確定結果以及視頻內容識別單元的識別結果繼續(xù)記錄、暫停記錄、或者擦除記錄在記錄介質上的視頻數(shù)據(jù)。在諸如下雨的壞天氣使棒球比賽中斷的情況下，播放頻道切換到其它節(jié)目，直到比賽繼續(xù)進行。由此，在棒球轉播的記錄過程中，如果代表性視頻鏡頭確定單元326可以確定代表性視頻鏡頭SD，則記錄控制單元305根據(jù)代表性視頻鏡頭確定單元326的確定結果，確定繼續(xù)進行轉播，并由此控制記錄單元304繼續(xù)進行記錄。
另一方面，如果代表性視頻鏡頭確定單元326不能確定代表性視頻鏡頭SD，則記錄控制單元305確定轉播暫停，并由此控制記錄單元304暫停記錄操作。記錄控制單元305還可以控制記錄單元304擦除所記錄的視頻。CPU101可以通過執(zhí)行存儲在圖1所示的ROM102、RAM103、HD105等中的程序來實現(xiàn)記錄控制單元305的功能。
接下來說明該實施例的第一操作示例?，F(xiàn)將說明根據(jù)第一操作示例的涉及由視頻內容識別裝置302進行的代性表視頻鏡頭評估處理的步驟。圖8是根據(jù)第一操作示例的代表性視頻鏡頭評估處理的流程圖。
當輸入了預定時間段的連續(xù)圖像幀序列200(步驟S801的‘是’)時，在圖像幀200中識別出將圖像幀200分割成多個視頻鏡頭S的多個剪輯點C(步驟S802)。創(chuàng)建表示各個視頻鏡頭S的特征的特征信息(步驟S803)。對各個視頻鏡頭S的特征信息進行過濾處理(步驟S804)。
從各個視頻鏡頭S的特征信息中提取與各個視頻鏡頭S相似的視頻鏡頭(相似視頻鏡頭Sr)(步驟S805)。找到相似視頻鏡頭Sr的鏡頭計數(shù)，并提取具有最大相似視頻鏡頭Sr的計數(shù)值的視頻鏡頭(最大計數(shù)視頻鏡頭Srm)(步驟S806)。將最大計數(shù)視頻鏡頭Srm作為描繪預定時間段的連續(xù)圖像幀序列200的視頻內容的代表性視頻鏡頭SD(步驟S807)。
根據(jù)第一操作示例，可以根據(jù)具有實際播放的視頻內容的圖像幀序列200來確定代表性視頻鏡頭SD。即使沒有預先提供要進行識別的節(jié)目的視頻，該記錄裝置也可以識別從差不多沒有變化的攝像角度播放的節(jié)目的視頻。
接下來說明本實施例的第二操作示例。該第二操作示例與根據(jù)第一操作示例的代表性視頻鏡頭SD的提高評估準確度的處理相關。圖9是根據(jù)第二操作示例，由視頻內容識別裝置302進行的代表性視頻鏡頭確定處理的流程圖。步驟S801到S807與圖8的相同，因此不再贅述。
一旦在步驟S807將最大計數(shù)視頻鏡頭Srm(暫時)確定為代表性視頻鏡頭SD，則對表示作為相似最大計數(shù)視頻鏡頭Srm的視頻鏡頭S的鏡頭計數(shù)的出現(xiàn)比率P(步驟S901)進行計算。將所計算的出現(xiàn)比率P與預設的預定出現(xiàn)比率Q進行比較(步驟S902)。
如果P大于或等于Q(步驟S903的‘是’)，則認為最大計數(shù)視頻鏡頭Srm與代表性視頻鏡頭SD相對應，并且將代表性視頻鏡頭SD確定(實際確定)為最大計數(shù)視頻鏡頭Srm(步驟S904)。但是，如果P小于Q(步驟S903的‘否’)，則認為最大計數(shù)視頻鏡頭Srm不與代表性視頻鏡頭SD相對應，并且不將最大計數(shù)視頻鏡頭Srm確定為代表性視頻鏡頭SD(步驟S905)，由此，使步驟S807中進行的確定(暫時確定)無效。
根據(jù)第二操作示例，僅當與最大計數(shù)視頻鏡頭Srm相似的多個視頻鏡頭的鏡頭計數(shù)的出現(xiàn)比率P大于預定值時才認為最大計數(shù)視頻鏡頭Srm與代表性視頻鏡頭SD相對應。由此，記錄裝置高準確度地將正在播放的視頻識別為從差不多沒有變化的攝像角度拍攝的視頻。
接下來說明本實施例的第三操作示例?，F(xiàn)將說明根據(jù)第三操作示例的記錄裝置300的記錄處理。圖10是根據(jù)第三操作示例的記錄裝置300的記錄處理的流程圖。要進行記錄的節(jié)目為棒球轉播，其播放可能超過預定的播放結束時間。
輸入與棒球轉播相關的記錄信息(步驟S1001的‘是’)。當?shù)搅擞涗浧鹗紩r間時(步驟S1002的‘是’)，開始棒球轉播的記錄(步驟S1003)。接下來，進行代表性視頻鏡頭SD的確定處理(步驟S1004)。在圖8和圖9所示的流程圖中說明了代表性視頻鏡頭確定處理，因此不再贅述。
如果在步驟S1004之后，確定了代表性視頻鏡頭(步驟S1005的‘是’)，則根據(jù)記錄起始時間和播放持續(xù)時間計算的規(guī)定記錄結束時間延長預定時間段T(例如5分鐘)的兩倍，即，將記錄結束時間延長2T(步驟S1006)。當在預定播放結束時間之后經過預定時間段T(步驟S1007的‘是’)時，則執(zhí)行視頻內容識別處理(步驟S1008)。稍后說明視頻內容識別處理。
如果在經延長的時間段(即，預定時間段T)內輸入的連續(xù)圖像幀序列的視頻內容與代表性視頻鏡頭SD的視頻內容相同(步驟S1009的‘是’)，則將已延長了一次的記錄結束時間進一步延長預定時間段T(步驟S1010)。然后處理返回到步驟S1007。
如果在步驟S1009，沒有將連續(xù)圖像幀序列的視頻內容識別為與代表性視頻鏡頭SD的視頻內容相似(步驟S1009的‘否’)，則當在規(guī)定記錄結束時間之后經過了預定時間段T(步驟S1011的‘是’)時，結束棒球轉播的記錄(步驟S1012)。由此，即使延長了棒球轉播的播放，也可以將該節(jié)目記錄到結束。
如果在步驟S1005中，不能確定代表性視頻鏡頭SD(步驟S1005的‘否’)，則表示例如由于下雨等原因而使棒球轉播發(fā)生了中斷，并代替該轉播而播放另一節(jié)目。因此，結束記錄(步驟S1012)。該記錄的結束可以僅僅是停止記錄。如果記錄介質為錄像帶，則可以在記錄結束后將該錄像帶倒帶到開始記錄的位置。如果該記錄介質是可重寫的，例如DVD+RW或DVD-RW，則可以擦除所記錄的視頻。由此，可以使用戶的編輯工作更為高效。
接下來說明圖10所示的視頻內容識別處理(步驟S1008)。圖11是視頻內容識別處理的流程圖。當輸入了預定時間段T的連續(xù)圖像幀序列200(步驟S1101的‘是’)時，在圖像幀200中識別將這些圖像幀分割成多個視頻鏡頭S的多個剪輯點C(步驟S1102)。為各個所分割的視頻鏡頭S創(chuàng)建特征信息(步驟S1103)。對這些視頻鏡頭S的特征信息進行過濾處理(步驟S1104)。
根據(jù)各個視頻鏡頭S的特征信息計算代表性視頻鏡頭SD與各個所分割的視頻鏡頭S之間的相似度(步驟S1105)。為各個所計算的相似度查找鏡頭計數(shù)(步驟S1106)。根據(jù)這些相似度以及各個相似度的鏡頭計數(shù)，創(chuàng)建直方圖，該直方圖表示各個相似度的鏡頭計數(shù)的分布(參見圖6和圖7)(步驟S1107)。
根據(jù)所創(chuàng)建的直方圖，確定在預定時間段T輸入的連續(xù)圖像幀序列200的視頻內容是否與代表性視頻鏡頭SD的視頻內容相同(步驟S1108)。與該確定結果相關的信息為該視頻內容的識別結果。
因此，根據(jù)視頻內容識別處理，可以將表示已播放的節(jié)目的視頻內容的代表性視頻鏡頭SD與當前正在播放的節(jié)目的視頻內容進行比較。由此，可以識別是否在繼續(xù)播放具有差不多沒有變化的攝像角度的特定節(jié)目(例如棒球轉播)。
接下來說明在所經過的時間段中進行的記錄處理中的視頻鏡頭S的出現(xiàn)分布。圖12是在記錄處理中，在所經過的時間段中的視頻鏡頭的出現(xiàn)分布的曲線圖。在圖12所示的曲線圖中，示出了棒球轉播的多個視頻鏡頭S，其播放可能被延長。
在圖12中，X軸表示所經過的時間，Y軸表示與代表性視頻鏡頭SD的相似度。用于確定視頻鏡頭S是否與代表性視頻鏡頭SD相似的相似度閾值為‘14000’。因此，如果相似度為‘14000’或更小，則視頻鏡頭S與代表視頻鏡頭SD相似。
如果棒球轉播的播放起始時間為19:00，并且播放持續(xù)時間為110分鐘，則估算預定播放結束時間為20:50。根據(jù)從19:00到19:10輸入的圖像幀序列來確定代表性視頻鏡頭SD。在該時間段確定的代表性視頻鏡頭SD是由位于中間的攝像機拍攝的視頻鏡頭(作為棒球轉播的主體)，例如圖2所示的視頻鏡頭Si。
當確定了代表性視頻鏡頭SD時，在19:10之后，根據(jù)代表性視頻鏡頭SD中確定的視頻鏡頭S與預設的預定時間段(例如，10分鐘的持續(xù)時間)的視頻鏡頭之間的相似度，來確定棒球轉播是否繼續(xù)。在圖12所示的曲線圖中，相似度小于‘14000’的視頻鏡頭S甚至在20:50之后出現(xiàn)，這表示棒球轉播被延長。由于在21:15之后沒有出現(xiàn)相似度小于‘14000’的視頻鏡頭S，這表示棒球轉播在21:15結束。
接下來說明該實施例的第四操作示例。現(xiàn)將說明根據(jù)第四操作示例的記錄裝置300的記錄處理中所涉及的步驟。具體地，說明在一節(jié)目(該節(jié)目可能被延長為超過預定播放結束時間，并且其視頻是以差不多沒有變化的攝像角度拍攝的)之后的另一節(jié)目的記錄處理的步驟。圖13是根據(jù)第四操作示例的記錄裝置300的記錄處理的流程圖。在該示例中將棒球轉播作為可能延長的前一節(jié)目。
當輸入了與要進行記錄的節(jié)目相關的記錄信息(步驟S1301的‘是’)時，確定是否輸入了與先前的棒球轉播相關的信息(步驟S1302)。如果沒有輸入與先前的棒球轉播相關的信息(步驟S1302的‘否’)，則處理直接進行到步驟S1314。
如果輸入了與先前的棒球轉播相關的信息(步驟S1302的‘是’)，則在播放起始時間(步驟S1303的‘是’)，接收描繪棒球轉播的視頻內容的圖像幀序列，并進行代表性視頻鏡頭確定處理(步驟S1304)。在圖8和圖9所示的流程圖中說明了該代表性視頻鏡頭確定處理，因此這里不再贅述。
如果在步驟S1304的最后確定了代表性視頻鏡頭SD(步驟S1305的‘是’)，則棒球轉播的播放結束時間延長預定時間段T(例如，5分鐘)的兩倍，即，播放結束時間延長2T(步驟S1306)。當在規(guī)定記錄結束時間之后經過了該預定時間段(步驟1307的‘是’)時，進行視頻內容識別處理(步驟S1308)。圖11所示的流程圖中說明了視頻內容識別處理，因此這里不再贅述。
如果在經延長的時間段內(即，預定時間段T內)輸入的連續(xù)圖像幀序列的視頻內容與代表性視頻鏡頭SD的相同(步驟S1309的‘是’)，則使已延長一次的播放結束時間進一步延長預定時間段T(步驟S1310)。然后處理返回到步驟S1307。
如果在步驟S1309，將圖像幀序列的視頻內容識別為不與代表性視頻鏡頭SD的視頻內容相似(步驟S1309的‘否’)，則當在預定播放結束時間之后經過了預定時間段T(步驟S1311的‘是’)時，計算棒球轉播延長的時間段(步驟S1312)?？梢愿鶕?jù)所延長的播放結束時間與預定的播放結束時間之間的差值來計算延長時間段。
將延長時間段加到要進行記錄的節(jié)目的記錄起始時間和播放持續(xù)時間上，由此修改要進行記錄的節(jié)目的記錄信息(步驟S1313)。在按照經修改的記錄信息的記錄起始時間處(步驟S1314的‘是’)，開始記錄在記錄信息中設定的節(jié)目(步驟S1315)。由此，即使延長了前一節(jié)目，也可以通過僅計算前一節(jié)目的延長時間段來由始至終完整地記錄所期望的節(jié)目。
如果在步驟S1305，不能確定代表性視頻鏡頭SD(步驟S1305的‘否’)，則其表示由于下雨等原因而使棒球轉播發(fā)生了中斷，并代替該轉播而播放以變化的攝像視角度拍攝的另一節(jié)目。由此，在按照步驟S1301中輸入的記錄信息的記錄起始時間(步驟S1314)，開始記錄在記錄信息中設定的節(jié)目。
由此，即使要進行記錄的節(jié)目之前的節(jié)目可能超過規(guī)定的播放結束時間，也可以由始至終完整地記錄所期望的節(jié)目，而不考慮前一節(jié)目是否被延長或者所延長的時間段。
接下來說明根據(jù)該實施例的第五操作示例?，F(xiàn)將說明根據(jù)第五操作示例的記錄裝置300的記錄處理的步驟。這里所述的記錄處理包括延遲記錄起始時間，以只記錄實際節(jié)目。例如，在圖12的曲線圖所示的棒球轉播中，棒球轉播的開始兩分鐘通常拍攝不想記錄的鏡頭，例如棒球場、記分板、現(xiàn)場報道、解說員、以前比賽的簡述和精彩場面等鏡頭。即使播放了投球鏡頭，該投球鏡頭中也可能疊加有散布在該投球鏡頭中的文字，例如節(jié)目的標題。因此，對于從播放起始時間19:00到19:02的兩分鐘，進行代表性視頻鏡頭(投球鏡頭)確定處理。圖14是記錄裝置300的另一記錄處理(稍后說明的步驟S1403)的流程圖。
輸入了與棒球轉播相關的記錄信息(步驟S1401的‘是’)。在記錄起始時間(步驟S1402的‘是’)，執(zhí)行代表性視頻鏡頭確定步驟(步驟S1403)。在圖8和圖9所示的流程圖中說明了代表性視頻鏡頭SD的確定步驟，因此這里不再贅述。如果沒有確定代表性視頻鏡頭(步驟S1404的‘否’)，則再次執(zhí)行代表性視頻鏡頭SD的確定處理(步驟S1403)。如果確定了代表性視頻鏡頭(步驟S1404的‘是’)，則開始進行記錄(步驟S1405)。
根據(jù)本操作示例，直到確定代表性視頻鏡頭之后才開始進行記錄。因此，可以避免記錄無關緊要的鏡頭，而只記錄實際節(jié)目。結果，用戶可以直接開始觀看記錄的節(jié)目(棒球轉播)，而無需繁瑣地快進到節(jié)目的開始。
根據(jù)視頻內容識別裝置302和記錄裝置300，由于可以從要進行識別的視頻鏡頭S本身中提取代表性視頻鏡頭SD，所以不必預先提供用于進行識別的數(shù)據(jù)。因此，可以回避用于進行視頻識別的數(shù)據(jù)以及由此導致的數(shù)據(jù)維護。
由于代表性視頻鏡頭SD是從要進行識別的視頻鏡頭S本身提取的，所以即使比賽地點、球隊制服或電視臺的畫面編排發(fā)生了變化，也仍然可以進行識別，這提高了檢測的準確度。
通過執(zhí)行準備程序(ready program)，可以將個人計算機或工作站用于實現(xiàn)根據(jù)本發(fā)明實施例的視頻內容識別方法和和記錄方法。該計算機可以從諸如硬盤、軟盤、CD-ROM、MO、DVD等的計算機可讀記錄介質加載該程序。該程序也可以通過諸如因特網的網絡發(fā)布。
本申請通過引用將于2004年1月20日在日本提交的日本優(yōu)先權文件2004-012404的全部內容并入本文。
雖然為了完全和清楚的公開，根據(jù)具體實施例說明了本發(fā)明，但是所附權利要求并不限于此，而是應當理解為包含落入在此提出的基本教示之內的本領域的技術人員可以想到的所有改進和另選構造。
權利要求
1.一種裝置，該裝置用于識別由多個圖像幀構成的視頻的內容，該裝置包括分割單元，其基于多個剪輯點將所述多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；相似視頻鏡頭提取單元，其從所述多個視頻鏡頭集合中提取與這些視頻鏡頭中的每一個相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；以及代表性視頻鏡頭確定單元，其將所述最大計數(shù)視頻鏡頭作為代表所述視頻的內容的代表性視頻鏡頭。
2.根據(jù)權利要求1所述的視頻內容識別裝置，還包括評估單元，其根據(jù)與所述最大計數(shù)視頻鏡頭相似的相似視頻鏡頭的計數(shù)以及第一視頻鏡頭集合的計數(shù)，來評估由所述最大計數(shù)視頻鏡頭提取單元提取的所述最大計數(shù)視頻鏡頭是否與由所述代表性視頻鏡頭確定單元確定的所述代表性視頻鏡頭相對應；以及第二代表性視頻鏡頭確定單元，其根據(jù)所述評估單元的評估結果，將所述代表性視頻鏡頭作為所述最大計數(shù)視頻鏡頭。
3.根據(jù)權利要求2所述的視頻內容識別裝置，其中所述評估單元包括出現(xiàn)比率計算單元，其計算與所述最大計數(shù)視頻鏡頭相似的相似視頻鏡頭的鏡頭計數(shù)與所述第一視頻鏡頭集合的鏡頭計數(shù)之間的出現(xiàn)比率；以及出現(xiàn)比率比較單元，其將由所述出現(xiàn)比率計算單元計算的出現(xiàn)比率與預定出現(xiàn)比率進行比較，并且所述評估單元根據(jù)所述出現(xiàn)比率比較單元的比較結果，來評估所述最大計數(shù)視頻鏡頭是否與所述代表性視頻鏡頭相對應。
4.根據(jù)權利要求1所述的視頻內容識別裝置，還包括視頻內容識別單元，其識別第二圖像幀序列的視頻內容是否與所述代表性視頻鏡頭的視頻內容相似，其中所述分割單元將所述第二圖像幀序列分割成包括由多個剪輯點限定的多個圖像幀的第二視頻鏡頭集合，每一個剪輯點都表示畫面的變化，并且所述視頻內容識別單元根據(jù)所述代表性視頻鏡頭的視頻鏡頭和所述第二視頻鏡頭集合，來識別所述第二圖像幀序列的視頻內容是否與所述代表性視頻鏡頭的視頻內容相似。
5.根據(jù)權利要求4所述的視頻內容識別裝置，其中所述視頻內容識別單元包括相似度計算單元，其計算所述代表性視頻鏡頭的視頻鏡頭與所述第二視頻鏡頭集合中的每一個視頻鏡頭的相似度；鏡頭計數(shù)查找單元，其對由所述相似度計算單元計算的各個相似度查找所述第二視頻鏡頭集合的計數(shù)；并且所述視頻內容識別單元根據(jù)所述鏡頭計數(shù)查找單元的結果，識別所述第二視頻鏡頭集合的視頻內容是否與所述代表性視頻鏡頭的視頻內容相似。
6.根據(jù)權利要求5所述的視頻內容識別裝置，其中所述視頻內容識別單元還包括圖表創(chuàng)建單元，其創(chuàng)建表示所述鏡頭計數(shù)查找單元的結果的曲線圖，并且所述視頻內容識別單元根據(jù)由所述圖表創(chuàng)建單元創(chuàng)建的曲線圖的形狀，來識別所述第二視頻鏡頭集合的視頻內容是否與所述代表性視頻鏡頭的視頻內容相似。
7.根據(jù)權利要求6所述的視頻內容識別裝置，其中所述視頻內容識別單元還包括鏡頭計數(shù)比較單元，其根據(jù)由所述圖表創(chuàng)建單元創(chuàng)建的圖表，將與低于預定相似度的相似度相對應的鏡頭計數(shù)與預定鏡頭計數(shù)進行比較，并且所述視頻內容識別單元根據(jù)所述鏡頭計數(shù)比較單元的比較結果，來識別所述第二視頻鏡頭集合的視頻內容是否與所述代表性視頻鏡頭的視頻內容相似。
8.一種記錄裝置，其包括視頻內容識別裝置，用于識別由多個圖像幀構成的視頻的內容，所述視頻內容識別裝置包括分割單元，其根據(jù)多個剪輯點將所述多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；相似視頻鏡頭提取單元，其從所述多個視頻鏡頭集合中提取與所述多個視頻鏡頭中的每一個相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；以及代表性視頻鏡頭確定單元，其將所述最大計數(shù)視頻鏡頭作為代表所述視頻的內容的代表性視頻鏡頭；記錄信息輸入單元，其接收記錄信息的輸入，所述記錄信息包括要進行記錄的節(jié)目的播放日期、播放起始時間和播放持續(xù)時間；記錄單元，其記錄節(jié)目的視頻；以及記錄控制單元，其對所述記錄單元進行控制，并對在由所述記錄信息輸入單元輸入的記錄信息中設定的節(jié)目的視頻進行記錄，其中所述視頻內容識別裝置根據(jù)描繪所述節(jié)目的內容的所述圖像幀序列，來確定代表在所述記錄信息中設定的節(jié)目的視頻內容的代表性視頻鏡頭，并且所述記錄控制單元根據(jù)由所述視頻內容識別裝置進行的代表性視頻鏡頭確定的結果，來終止在所述記錄信息中設定的記錄。
9.一種記錄裝置，其包括視頻內容識別裝置，用于識別由多個圖像幀組成的視頻的內容，所述視頻內容識別裝置包括分割單元，其根據(jù)多個剪輯點將所述多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；相似視頻鏡頭提取單元，其從所述多個視頻鏡頭集合中提取與所述多個視頻鏡頭中的每一個相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)值最大的最大計數(shù)視頻鏡頭；代表性視頻鏡頭確定單元，其將所述最大計數(shù)視頻鏡頭作為表示所述視頻的內容的代表性視頻鏡頭；以及視頻內容識別單元，其識別第二圖像幀序列的視頻內容是否與所述代表性視頻鏡頭的視頻內容相似，其中所述分割單元將所述第二圖像幀序列分割成包括由多個剪輯點限定的多個圖像幀的第二視頻鏡頭集合，每一個剪輯點都表示畫面的變化，并且所述視頻內容識別單元根據(jù)所述代表性視頻鏡頭的視頻鏡頭以及所述第二視頻鏡頭集合，來識別所述第二圖像幀序列的視頻內容是否與所述代表性視頻鏡頭的視頻內容相似；記錄信息輸入單元，其接收記錄信息的輸入，所述記錄信息包括要進行記錄的節(jié)目的播放日期、播放起始時間和播放持續(xù)時間；記錄單元，其記錄節(jié)目的視頻；以及記錄控制單元，其對所述記錄單元進行控制，并對在由所述記錄信息輸入單元輸入的記錄信息中設定的節(jié)目的視頻進行記錄，其中所述視頻內容識別單元根據(jù)描繪所述節(jié)目的內容的第一圖像幀序列，來確定代表在所述記錄信息中設定的節(jié)目的視頻內容的代表性視頻鏡頭，并且如果所述視頻內容識別裝置能夠確定代表在所述記錄信息中設定的節(jié)目的代表性視頻鏡頭，則所述記錄控制單元記錄所述第二圖像幀序列，所述第二圖像幀序列是在所述記錄信息中設定的節(jié)目的播放持續(xù)時間之后的預定時間段內輸入的。
10.根據(jù)權利要求9所述的記錄裝置，其中所述視頻內容識別裝置根據(jù)在經過所述播放持續(xù)時間之后的預定時間段內由所述記錄控制單元記錄的所述第二圖像幀序列的視頻鏡頭，以及根據(jù)代表在所述記錄信息中設定的節(jié)目的代表性視頻鏡頭的視頻鏡頭，來識別所述第二圖像幀序列的視頻內容，并且所述記錄控制單元根據(jù)描繪所述第二圖像幀序列的視頻內容的識別結果，將在所述記錄信息中設定的節(jié)目的記錄進一步延長一預定時間段。
11.根據(jù)權利要求10所述的記錄裝置，其中如果描繪所述第二圖像幀序列的視頻內容與所述代表性視頻鏡頭的視頻內容不同，則所述記錄控制單元終止記錄在所述記錄信息中設定的節(jié)目。
12.一種記錄裝置，其包括視頻內容識別裝置，用于識別由多個圖像幀構成的視頻的內容，所述視頻內容識別裝置包括分割單元，其基于多個剪輯點將所述多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；相似視頻鏡頭提取單元，其從所述多個視頻鏡頭集合中提取與所述多個視頻鏡頭中的每一個相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)最大的最大計數(shù)視頻鏡頭；以及代表性視頻鏡頭確定單元，其將所述最大計數(shù)視頻鏡頭作為代表所述視頻的內容的代表性視頻鏡頭；記錄信息輸入單元，其接收記錄信息的輸入，所述記錄信息包括要進行記錄的節(jié)目的播放日期、播放起始時間和播放持續(xù)時間；記錄單元，其記錄節(jié)目的視頻；以及記錄控制單元，其對所述記錄單元進行控制，并記錄在由所述記錄信息輸入單元輸入的記錄信息中設定的節(jié)目的視頻，其中所述記錄信息輸入單元還接收與要進行記錄的節(jié)目之前的節(jié)目相關的節(jié)目信息的輸入，所述視頻內容識別裝置根據(jù)描繪由所述記錄信息輸入單元輸入的節(jié)目內容的圖像幀序列，來確定代表性視頻鏡頭，該代表性視頻鏡頭代表要進行記錄的節(jié)目之前的節(jié)目的視頻內容，并且所述記錄控制單元根據(jù)由所述視頻內容識別裝置進行的代表性視頻鏡頭確定的結果，來改變所述記錄信息。
13.一種識別由多個圖像幀構成的視頻的內容的方法，包括基于多個剪輯點將多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；從所述多個視頻鏡頭集合中提取與所述多個視頻鏡頭中的每一個相似的相似視頻鏡頭；對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)最大的最大計數(shù)視頻鏡頭；并且使所述最大計數(shù)視頻鏡頭作為代表所述視頻的內容的代表性視頻鏡頭。
14.一種記錄由多個圖像幀構成的視頻的方法，包括輸入記錄信息，該記錄信息包括要進行記錄的節(jié)目的播放日期、播放起始時間及播放持續(xù)時間；開始記錄所述節(jié)目的視頻；基于多個剪輯點將所述視頻的多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；從所述多個視頻鏡頭集合中提取與所述視頻鏡頭中的每一個相似的相似視頻鏡頭；對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭數(shù)最大的最大計數(shù)視頻鏡頭；使所述最大計數(shù)視頻鏡頭作為代表性視頻鏡頭；并且根據(jù)所述代表性視頻鏡頭終止所述記錄。
15.一種計算機可讀記錄介質，其存儲一計算機程序，該計算機程序用于識別由多個圖像幀構成的視頻的內容，其中所述計算機程序使計算機執(zhí)行基于多個剪輯點將所述多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；從所述多個視頻鏡頭集合中提取與所述多個視頻鏡頭中的每一個相似的相似視頻鏡頭；對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭計數(shù)最大的最大計數(shù)視頻鏡頭；以及使所述最大計數(shù)視頻鏡頭作為代表所述視頻的內容的代表性視頻鏡頭。
16.一種計算機可讀記錄介質，其存儲一計算機程序，該計算機程序用于識別由多個圖像幀構成的視頻的內容，其中所述計算機程序使計算機執(zhí)行輸入記錄信息，該記錄信息包括要進行記錄的節(jié)目的播放日期、播放起始時間及播放持續(xù)時間；開始記錄所述節(jié)目的視頻；基于多個剪輯點將所述視頻的多個圖像幀分割成多個視頻鏡頭集合，每一個剪輯點都表示畫面的變化；從所述多個視頻鏡頭集合中提取與所述多個視頻鏡頭中的每一個相似的相似視頻鏡頭；對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭數(shù)最大的最大計數(shù)視頻鏡頭；使所述最大計數(shù)視頻鏡頭作為代表性視頻鏡頭；以及根據(jù)所述代表性視頻鏡頭終止所述記錄。
全文摘要
用于識別視頻內容和記錄視頻的裝置、方法和計算機產品。一種裝置，用于識別由多個圖像幀構成的視頻的內容，該裝置包括分割單元，其基于表示畫面的變化的多個剪輯點將多個圖像幀分割成多個視頻鏡頭集合；相似視頻鏡頭提取單元，其從這些視頻鏡頭集合中提取與所述多個視頻鏡頭中的每一個相似的相似視頻鏡頭；最大計數(shù)視頻鏡頭提取單元，其對所述多個視頻鏡頭中的每一個的相似視頻鏡頭的數(shù)量進行計數(shù)，并提取相似視頻鏡頭的計數(shù)最大的最大計數(shù)視頻鏡頭；以及代表性視頻鏡頭確定單元，其將最大計數(shù)視頻鏡頭作為代表視頻內容的代表性視頻鏡頭。
文檔編號G11B27/10GK1645357SQ20051000242
公開日2005年7月27日申請日期2005年1月20日優(yōu)先權日2004年1月20日
發(fā)明者堀內直明, 莪山真一申請人:日本先鋒公司

完整全部詳細技術資料下載