專利名稱:用于生成音頻/可視數(shù)據(jù)流的概要的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于生成音頻/可視數(shù)據(jù)流的概要的方法和設(shè)備。
背景技術(shù):
正如不斷增長的體育頻道的數(shù)量所反映的,觀看廣播體育賽事已變得日益普及。 但是,巨大數(shù)量的可用內(nèi)容使得用戶不可能觀看所有的內(nèi)容。一種現(xiàn)有的解決方案是給用戶提供顯示主要亮點(diǎn)(highlight)的賽事的概要?,F(xiàn) 有的概要系統(tǒng)通常以選擇視頻序列中與預(yù)定義時(shí)間間隔相適合的最佳片段(segment)為 目標(biāo)。例如,如果用戶請求5分鐘的概要,則該系統(tǒng)檢測哪些是與5分鐘的那個(gè)概要相適合 的最佳片段。一種非常流行觀看的運(yùn)動(dòng)是網(wǎng)球,并且即使具有通常不超過三或四場同時(shí)廣播的 比賽,比賽的數(shù)量(尤其在第一輪競賽期間)也是足夠高的,以致阻止用戶觀看所有的比 賽。而且,網(wǎng)球的結(jié)構(gòu)對(duì)應(yīng)于交替序列的連續(xù)對(duì)打(rally)和暫停(break),其經(jīng)常充滿著 商業(yè)廣告節(jié)目。結(jié)果,用戶希望能夠觀看亮點(diǎn)而不是整場比賽,特別地,用戶希望能夠觀看 那些有趣的、引人注目的或?qū)τ谧罱K結(jié)果是重要的連續(xù)對(duì)打。US 2007/(^92112公開了一種在網(wǎng)球比賽的膠片(film)中搜索亮點(diǎn)的方法。在膠 片中檢測多個(gè)長視場鏡頭(long-field view shot),并且長視場鏡頭的音頻能量用于確定 屬于這些亮點(diǎn)的所希望的長視場鏡頭。例如,音頻能量用于在長視場鏡頭期間識(shí)別歡呼,以 確定亮點(diǎn)。但是,從US 2007/(^92112的方法中不可能確定最重要的(例如,最有趣的)亮 點(diǎn)。進(jìn)一步,用于識(shí)別歡呼的音頻能量并不是特別準(zhǔn)確的,因?yàn)樗锌赡馨ú恍枰脑?聲,諸如解說員的畫外音或由運(yùn)動(dòng)員發(fā)出的例如尖叫、球擊中之類的聲音。
發(fā)明內(nèi)容
本發(fā)明設(shè)法提供一種方法,籍此生成包括音頻/可視數(shù)據(jù)流中的最重要亮點(diǎn)的概 要。本發(fā)明進(jìn)一步尋求改善檢測最重要亮點(diǎn)的精確度。根據(jù)本發(fā)明的一個(gè)方面,這利用生成音頻/可視數(shù)據(jù)流的概要的方法來實(shí)現(xiàn),該 數(shù)據(jù)流包括具有音頻和可視特性的多個(gè)連續(xù)幀,該方法包括以下步驟檢測音頻/可視數(shù) 據(jù)流的多個(gè)鏡頭;確定音頻/可視數(shù)據(jù)流的多個(gè)片段,每一個(gè)片段包括該數(shù)據(jù)流中具有相 似可視特性的多個(gè)鏡頭;選擇所確定的多個(gè)片段中的片段;對(duì)于該數(shù)據(jù)流中的選擇片段的 每一個(gè)鏡頭,提取在該鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻;基于所提取的音頻來選 擇至少一個(gè)鏡頭;以及生成概要,以包括所選擇的至少一個(gè)鏡頭。根據(jù)本發(fā)明的另一個(gè)方面,這也利用用于生成音頻/可視數(shù)據(jù)流的概要的設(shè)備來 實(shí)現(xiàn),該數(shù)據(jù)流包括具有音頻和可視特性的多個(gè)連續(xù)幀,該設(shè)備包括鏡頭檢測器,用于檢 測音頻/可視數(shù)據(jù)流的多個(gè)鏡頭;確定裝置,用于確定音頻/可視數(shù)據(jù)流的多個(gè)片段,每一 個(gè)片段包括該數(shù)據(jù)流中具有相似可視特性的多個(gè)鏡頭;第一選擇器,用于選擇所確定的多4個(gè)片段中的片段;提取器,用于對(duì)于該數(shù)據(jù)流的選擇片段的每一個(gè)鏡頭、提取在該鏡頭結(jié)束 之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻;第二選擇器,用于基于所提取的音頻來選擇至少一個(gè)鏡 頭;以及概要生成器,用于生成概要,以包括所選擇的至少一個(gè)鏡頭。這樣,由于有趣的鏡頭被從原始的音頻/可視數(shù)據(jù)流中識(shí)別并分離出來,由此形 成概要,所以用戶觀看該概要(例如,亮點(diǎn),諸如網(wǎng)球亮點(diǎn))的體驗(yàn)被充實(shí)。有利地,該概要 將取決于數(shù)據(jù)流中的每個(gè)鏡頭是多么有趣。進(jìn)一步,鏡頭是“多么有趣”的標(biāo)準(zhǔn)能夠被適應(yīng) (修改)。該適應(yīng)能夠降低或提高閾值,以便獲得相應(yīng)更小或更大的概要。這種控制能夠以 非常簡單的方式提供給用戶。作為這種控制的結(jié)果,所生成的概要包括音頻/可視數(shù)據(jù)流 中最重要的(例如,最有趣的)亮點(diǎn)。因此,所檢測到的事件(賽事)在更加定制格式的概 要中進(jìn)行組合和呈現(xiàn)。進(jìn)一步,通過僅提取緊跟隨在鏡頭之后的幀的音頻并且基于那個(gè)音 頻的電平來選擇鏡頭,準(zhǔn)確地檢測重要的亮點(diǎn)。換句話說,在該數(shù)據(jù)流的選擇片段的鏡頭期 間的音頻被忽略。這消除在音頻讀取中可能由于諸如講解員的話音或運(yùn)動(dòng)員發(fā)出的聲音之 類的不需要噪聲而引起的任何錯(cuò)誤。進(jìn)一步,通過提取在鏡頭之后的音頻并且基于那個(gè)音 頻的電平來選擇鏡頭,捕獲對(duì)于重要事件的觀眾響應(yīng)的自然延遲。例如,這種方法在與網(wǎng)球 相關(guān)使用時(shí)是特別有效的,這是因?yàn)榻谷巳涸诒荣愡M(jìn)行期間發(fā)出噪聲,并且只能在每一 分已比賽完成之后,即,在每次連續(xù)對(duì)打之后作出反應(yīng)。檢測音頻/可視數(shù)據(jù)流的多個(gè)鏡頭的步驟可以包括以下步驟將數(shù)據(jù)流的每一個(gè) 幀的可視特性與該數(shù)據(jù)流的各自后續(xù)幀的可視特性進(jìn)行比較;以及檢測多個(gè)鏡頭,每一個(gè) 鏡頭包括多個(gè)連續(xù)幀,其中對(duì)于這多個(gè)連續(xù)幀來說,所比較的可視特性是相似的。例如,當(dāng) 連續(xù)幀的可視特性從長視場鏡頭改變到短視場鏡頭時(shí),這通過分析連續(xù)幀的可視特性的變 化而提供有效的確定正集中于同一事件上的鏡頭的方式。包含相似的可視特性的幀有可能 具有相同的視野鏡頭(view shot),并因此能夠容易地被確定。這樣,鏡頭之間的轉(zhuǎn)換被識(shí) 別,從而提供簡單的卻有效的檢測數(shù)據(jù)流中的不同鏡頭的方式。確定音頻/可視數(shù)據(jù)流中的多個(gè)片段的步驟可以包括以下步驟比較數(shù)據(jù)流的每 一個(gè)鏡頭的可視特性;以及確定包括多個(gè)鏡頭的多個(gè)片段,其中對(duì)于所述多個(gè)鏡頭,所比較 的可視特性是相似的。結(jié)果,包含相似可視特性的鏡頭定義這些片段。這使得某些事件能 夠被確定為亮點(diǎn)。例如,當(dāng)重要事件存在于該數(shù)據(jù)流中時(shí),包括重要事件的鏡頭有可能包括 相同的可視特性,這是因?yàn)橹匾录⒈欢鄠€(gè)視覺上相似的鏡頭所覆蓋。例如,在網(wǎng)球比賽 中,重要事件可以是連續(xù)對(duì)打,并且包括連續(xù)對(duì)打的鏡頭的可視特性有可能是相似的。當(dāng)連 續(xù)對(duì)打結(jié)束時(shí),可視特性有可能在特定鏡頭中改變,并因此這個(gè)鏡頭不被包括在該片段中。 這使得數(shù)據(jù)流的重要事件能夠以簡單卻有效的方式來確定??梢曁匦钥梢园ㄏ铝兄械闹辽僖粋€(gè)主色,色彩結(jié)構(gòu),色彩布局,色調(diào)直方圖,亮 度直方圖,邊緣直方圖,平均直方圖變化和平均像素變化。例如,在兩個(gè)連續(xù)幀之間的直方 圖的變化表示這些幀的可視特性的改變,并因此能夠容易確定包括相同事件的幀(即,具 有相同可視特性的幀)。選擇所確定的多個(gè)片段中的片段的步驟包括以下步驟選擇所確定的多個(gè)片段中 最長的片段。結(jié)果,最有趣的片段、例如包含所有網(wǎng)球連續(xù)對(duì)打的片段能夠與不太有趣的片 段區(qū)分開來??梢曁匦砸部梢园ǘ鄠€(gè)連續(xù)幀中的每一個(gè)幀的內(nèi)容,并且該方法可以進(jìn)一步包括以下步驟檢測和分析多個(gè)連續(xù)幀中的每一個(gè)的內(nèi)容。這允許更精細(xì)確定有趣的幀。例 如,可以檢測和分析在這些幀中出現(xiàn)的球場邊線(court line),以便能夠更精確確定重要 的片段。作為選擇,可以檢測和分析球的運(yùn)動(dòng),以提取最有趣的片段。根據(jù)一個(gè)實(shí)施例,提取在鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻的步驟包括以 下步驟對(duì)于該數(shù)據(jù)流中的選擇片段的每一個(gè)鏡頭,計(jì)算對(duì)于預(yù)定義頻帶、在鏡頭結(jié)束之后 出現(xiàn)的多個(gè)連續(xù)幀的音頻功率;以及基于所提取的音頻來選擇至少一個(gè)鏡頭的步驟包括以 下步驟選擇至少一個(gè)鏡頭,其中對(duì)于預(yù)定義頻帶、在該鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀的 音頻功率超過閾值。該預(yù)定義頻帶可以被預(yù)定義為整個(gè)頻譜或頻譜的一部分。作為以這種方式對(duì)所提取的音頻進(jìn)行頻率過濾的結(jié)果,更好地分析音頻/可視數(shù) 據(jù)流中不同類型的音頻的影響。例如,低頻帶傳送總的音頻功率,具有略高頻率的頻帶通常 傳送有關(guān)人聲的信息(例如,解說員的話音),而具有甚至更高頻率的頻帶傳送與觀眾發(fā)出 的一般噪聲有關(guān)的信息。根據(jù)可供選擇的實(shí)施例,提取在鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻的步驟 包括以下步驟在該數(shù)據(jù)流的第一預(yù)定長度上計(jì)算該數(shù)據(jù)流的音頻功率的第一移動(dòng)平均 值;在該數(shù)據(jù)流的第二預(yù)定長度上計(jì)算該數(shù)據(jù)流的音頻功率的第二移動(dòng)平均值;其中該數(shù) 據(jù)流的第一預(yù)定長度不同于該數(shù)據(jù)流的第二預(yù)定長度;以及比較第一和第二移動(dòng)平均值。選擇至少一個(gè)鏡頭的步驟可以包括以下步驟選擇其中在第一平均值與第二平均 值之間的差超過閾值的每一個(gè)鏡頭。這樣,該亮點(diǎn)檢測算法更加獨(dú)立于廣播、事件、觀眾、解說員等等的特征。例如,對(duì) 于每一個(gè)頻帶(或選擇地,對(duì)于整個(gè)音頻譜)的音頻功率通常在運(yùn)行窗口上進(jìn)行計(jì)算,其中 該運(yùn)行窗口對(duì)持續(xù)某個(gè)持續(xù)時(shí)間的一組音頻幀進(jìn)行分析。但是,該音頻功率通常與廣播、事 件、觀眾、解說員等等的特征有關(guān)。例如,如果體育場滿座,那么整個(gè)音頻電平或功率將遠(yuǎn)遠(yuǎn) 高于在體育場半滿時(shí)的音頻電平或功率,但是這不一定就意味著該比賽是不太有趣的。第 二平均窗口標(biāo)準(zhǔn)化音頻,以致該亮點(diǎn)檢測算法更加獨(dú)立于這樣的特征。該閾值可以是預(yù)定閾值。該數(shù)據(jù)流可以代表球拍運(yùn)動(dòng),并且所確定的多個(gè)片段可以對(duì)應(yīng)于連續(xù)對(duì)打。這樣, 例如,用戶有可能將網(wǎng)球比賽記錄在他的個(gè)人錄像機(jī)上。該設(shè)備隨后能夠呈現(xiàn)最令人感興 趣的連續(xù)對(duì)打,并且跳過那些沒有獲得觀眾注意并因此有可能被認(rèn)為是沒有高度興趣的連 續(xù)對(duì)打。進(jìn)一步,該技術(shù)能夠提供貫穿各個(gè)連續(xù)對(duì)打的導(dǎo)航,并且跳過在連續(xù)對(duì)打之間的商 業(yè)廣告和暫停,或提供實(shí)際比賽的得分,并且跳過并不屬于實(shí)際網(wǎng)球比賽的記錄的開頭和 結(jié)尾。
為了更全面理解本發(fā)明,現(xiàn)在參考結(jié)合附圖所進(jìn)行的以下描述,其中圖1是用于生成音頻/可視數(shù)據(jù)流的概要的設(shè)備的簡化示意圖;和圖2是用于生成音頻/可視數(shù)據(jù)流的概要的方法的流程圖。
具體實(shí)施例方式參考圖1,該設(shè)備100包括用于將音頻/可視數(shù)據(jù)流輸入到鏡頭檢測器110的輸 入端102。鏡頭檢測器110的輸出(端)連接到確定裝置112。確定裝置112的輸出連接 到第一選擇器113的輸入。第一選擇器113的輸出連接到提取器114的輸入。提取器114 的輸出連接到第二選擇器116的輸入。第二選擇器116的輸出連接到概要生成器118的輸 入。概要生成器118經(jīng)由輸出端120將概要輸出至諸如電視或其他顯示裝置的顯示器?,F(xiàn)在,將參考圖2來詳細(xì)描述圖1的設(shè)備的操作。音頻/可視數(shù)據(jù)流在輸入端102 上被接收(步驟20 并被輸入到鏡頭檢測器110。該音頻/可視數(shù)據(jù)流包括具有音頻和可 視特性的多個(gè)連續(xù)幀。該音頻/可視數(shù)據(jù)流可以是或在本地存儲(chǔ)器上可得到的、從廣播信 道中接收的或從因特網(wǎng)中下載的,并且例如,該音頻/可視數(shù)據(jù)流可以代表球拍運(yùn)動(dòng),諸如 網(wǎng)球、羽毛球、壁球、乒乓球等等。鏡頭檢測器110檢測該音頻/可視數(shù)據(jù)流的多個(gè)鏡頭(步驟204)。這是通過鏡頭 檢測器110將該音頻/可視數(shù)據(jù)流中的每一個(gè)幀的可視特性與該數(shù)據(jù)流中的相對(duì)后續(xù)幀的可 視特性進(jìn)行比較并確定包括多個(gè)連續(xù)幀的多個(gè)鏡頭來實(shí)現(xiàn)的,其中對(duì)于所述多個(gè)連續(xù)幀,所 比較的可視特性是相似的。換句話說,鏡頭檢測器110使用這些幀的可視特性來檢測連續(xù)幀 的可視特性的突變。例如,可視特性的突變可以是原始色空間的直方圖的設(shè)置(set)的突變, 諸如原始的YCbCr色空間(在視頻系統(tǒng)中使用的色空間家族,其中Y是亮度分量,而Cb和Cr 是藍(lán)色和紅色的色度分量)的突變??梢曁匦缘耐蛔儗?duì)應(yīng)于該數(shù)據(jù)流中的鏡頭之間的轉(zhuǎn)換。鏡頭檢測器110將檢測到的該音頻/可視數(shù)據(jù)流中的多個(gè)鏡頭輸出至確定裝置 112。確定裝置112確定該音頻/可視數(shù)據(jù)流的多個(gè)片段,每一個(gè)片段包括該數(shù)據(jù)流中 具有相似可視特性的多個(gè)鏡頭(步驟206),這多個(gè)鏡頭未必全都是連續(xù)的。換句話說,確定 裝置112將視覺上相似的鏡頭聚集在一起,以形成片段。例如,如果在該數(shù)據(jù)流的兩個(gè)鏡頭 的可視特性之間的差低于預(yù)定值,則確定裝置112將這兩個(gè)鏡頭聚集在一起,以形成片段。例如,可視特性是下列至少之一主色,色彩結(jié)構(gòu),色彩布局,色調(diào)直方圖,亮度直 方圖,邊緣直方圖,平均直方圖變化和平均像素變化??梢曁匦砸部梢园恳粋€(gè)鏡頭的內(nèi) 容,并且確定裝置112可以檢測和分析多個(gè)鏡頭之中的每一個(gè)鏡頭的內(nèi)容。例如,該內(nèi)容包 括在這些幀中檢測到的球場邊線、在這些幀中檢測到的網(wǎng)球下落、在這些幀中檢測到的面 部或其他任何內(nèi)容。確定裝置112將所確定的多個(gè)片段輸出到第一選擇器113。第一選擇器113選擇所確定的多個(gè)片段中的一個(gè)片段(步驟208)。例如,第一選 擇器113選擇所確定的多個(gè)片段中最長的片段。這樣,第一選擇器113選擇具有相似鏡頭 的最大群集。在一些實(shí)例中,最長的片段可以指示更有趣的片段或更多事的片段。在該數(shù) 據(jù)流代表球拍運(yùn)動(dòng)的情況下,例如,所選擇的片段可以對(duì)應(yīng)于連續(xù)對(duì)打,這是因?yàn)榕c連續(xù)對(duì) 打相對(duì)應(yīng)的鏡頭在視覺上是非常相似的,并且這也是在球拍運(yùn)動(dòng)的廣播中最頻繁出現(xiàn)的鏡 頭。第一選擇裝置113將選擇的片段輸出至提取器114。提取器114為該數(shù)據(jù)流中的選擇片段的每一個(gè)鏡頭提取在該鏡頭結(jié)束之后出現(xiàn) 的多個(gè)連續(xù)幀中的音頻(步驟210)。該提取器114在這些鏡頭期間忽略該音頻。換句話說,提取器114提取在所選擇的片段的鏡頭之間的間隔中的音頻功率特征。通過提取在這 些鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻,提取器114僅提取在每一個(gè)間隔的開始與延 長的末尾之間的音頻。例如,這捕獲觀眾響應(yīng)中的自然延遲。在一個(gè)實(shí)施例中,提取器114通過為該數(shù)據(jù)流中的選擇片段的每個(gè)鏡頭計(jì)算對(duì)于 預(yù)定義頻帶、在該鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀的音頻功率來提取音頻。該預(yù)定義頻帶 可以被預(yù)定義為頻譜的某一部分(例如,l_5kHz的頻帶)。在這種情況下,提取器114僅計(jì) 算對(duì)于該頻譜的那個(gè)部分、在該鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻。通過以這種方 式對(duì)所提取的音頻進(jìn)行頻率過濾,更好地分析該音頻/可視數(shù)據(jù)流中不同類型的音頻的影 響。例如,低頻帶傳送總的音頻功率,具有略高頻率的頻帶通常傳送有關(guān)人聲的信息(例 如,解說員的話音),而具有甚至更高頻率的頻帶傳送有關(guān)由觀眾發(fā)出的一般噪聲的信息。 作為選擇,該頻帶可以被預(yù)定義成整個(gè)頻譜(即,所有的頻率)。在這種情況中,提取器114 計(jì)算對(duì)于整個(gè)頻譜(即,對(duì)于所有的頻率)、在該鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中的音 頻。這個(gè)計(jì)算的音頻是整體音頻功率。提取器114將所提取的音頻輸出到第二選擇器116。第二選擇器116根據(jù)所提取的音頻來選擇至少一個(gè)鏡頭(步驟21 。例如,第二 選擇器116選擇至少一個(gè)鏡頭,其中對(duì)于預(yù)定義頻帶、在該至少一個(gè)鏡頭結(jié)束之后出現(xiàn)的 多個(gè)連續(xù)幀的音頻功率超過閾值。這樣,確定激起更強(qiáng)烈響應(yīng)的鏡頭。這些鏡頭最有可能是觀眾或解說員更感興趣 的。該閾值可以是預(yù)先確定的,并且能夠由用戶設(shè)置或者響應(yīng)于用戶的響應(yīng)而自動(dòng)地被調(diào) 節(jié)到所希望的電平,以包括更多或更少的有趣亮點(diǎn)。在可供選擇的實(shí)施例中,提取器114通過在該數(shù)據(jù)流的兩個(gè)不同長度上計(jì)算音頻 功率的兩個(gè)移動(dòng)平均值來提取該音頻。換句話說,提取器114在該數(shù)據(jù)流的第一預(yù)定長度 上計(jì)算該數(shù)據(jù)流的音頻功率的第一移動(dòng)平均值,并且在該數(shù)據(jù)流的第二預(yù)定長度上計(jì)算該 數(shù)據(jù)流的音頻功率的第二移動(dòng)平均值。該數(shù)據(jù)流的第一預(yù)定長度不同于該數(shù)據(jù)流的第二預(yù) 定長度。例如,提取器114為該數(shù)據(jù)流的短窗口(例如,1秒)計(jì)算第一移動(dòng)平均值,并且為 該數(shù)據(jù)流的長窗口(例如,20秒)計(jì)算第二移動(dòng)平均值。第二平均窗口一般大于第一平均 窗口(通常,10的級(jí)數(shù)(order)),并且捕獲該音頻的“整體”特征。因此,提取器114處理 在該數(shù)據(jù)流的選擇間隔中的音頻功率特征,以便例如將觀眾對(duì)網(wǎng)球比賽的球場上的事件的 響應(yīng)進(jìn)行分類。提取器114隨后比較第一和第二移動(dòng)平均值。提取器114向第二選擇器116輸出對(duì)于每一個(gè)鏡頭所比較的音頻功率的第一和第二移動(dòng)平均值。第二選擇器116選擇其中在第一移動(dòng)平均值和第二移動(dòng)平均值之間的差超過閾 值的每一個(gè)鏡頭。換句話說,通過將為第一窗口計(jì)算的音頻功率和為第二窗口計(jì)算的音頻 功率進(jìn)行比較,選擇器116檢測超出一般特性的音頻功率的任何突然的增加。如果第一移 動(dòng)平均值與第二移動(dòng)平均值之間的差超過閾值,則觀眾的響應(yīng)被認(rèn)為是反映亮點(diǎn)的響應(yīng)。 同樣,該閾值可以被預(yù)先確定,并且能夠由用戶設(shè)置或響應(yīng)于用戶的響應(yīng)而被自動(dòng)地調(diào)節(jié) 到所希望的電平,以包括更多或更少有趣的亮點(diǎn)。第二選擇器116將選擇的至少一個(gè)鏡頭輸出到概要生成器118中。該概要生成器 118生成概要,以包括所選擇的至少一個(gè)鏡頭(步驟214),并且經(jīng)由輸出端120輸出該概要,以便通過例如電視或其他顯示裝置來顯示。雖然本發(fā)明的實(shí)施例已在附圖中圖解示出并在以上詳細(xì)描述中進(jìn)行了描述,但是 將明白,本發(fā)明并不限于所公開的實(shí)施例,而能夠在不脫離在隨后的權(quán)利要求書中所陳述 的本發(fā)明的范圍的情況下進(jìn)行眾多修改。對(duì)于本領(lǐng)域技術(shù)人員來說,顯然的將是“裝置”旨在包括任何的在操作中再現(xiàn)或 被設(shè)計(jì)為再現(xiàn)特定功能的硬件(例如,單獨(dú)的或集成的電路或電子部件)或軟件(例如,程 序或程序的部分),不管其是單獨(dú)地還是與其他功能相結(jié)合來再現(xiàn)特定功能,不管其是孤立 還是與其他部件協(xié)作來再現(xiàn)特定功能。本發(fā)明能夠借助于包括若干不同部件的硬件以及借 助于適當(dāng)編程的計(jì)算機(jī)來實(shí)施。在列舉了若干裝置的設(shè)備權(quán)利要求中,這些裝置中的若干 裝置可以利用同一個(gè)硬件項(xiàng)來實(shí)現(xiàn)?!坝?jì)算機(jī)程序產(chǎn)品”將被理解成表示存儲(chǔ)在諸如軟盤之 類的計(jì)算機(jī)可讀介質(zhì)上的、可經(jīng)由諸如因特網(wǎng)之類的網(wǎng)絡(luò)下載的或以其他任何方式可銷售 的任何軟件產(chǎn)品。
權(quán)利要求
1.一種生成音頻/可視數(shù)據(jù)流的概要的方法,所述數(shù)據(jù)流包括具有音頻和可視特性的 多個(gè)連續(xù)幀,該方法包括以下步驟檢測(204)音頻/可視數(shù)據(jù)流的多個(gè)鏡頭;確定(206)所述音頻/可視數(shù)據(jù)流的多個(gè)片段,每一個(gè)片段包括所述數(shù)據(jù)流中具有相 似可視特性的多個(gè)所述鏡頭;選擇(208)所述確定的多個(gè)片段中的片段;對(duì)于所述數(shù)據(jù)流中的所述選擇片段的每一個(gè)鏡頭,提取(210)在所述鏡頭結(jié)束之后出 現(xiàn)的多個(gè)連續(xù)幀中的音頻;基于所提取的音頻來選擇(21 至少一個(gè)所述鏡頭;以及生成(214)概要,以包括所述選擇的至少一個(gè)所述鏡頭。
2.根據(jù)權(quán)利要求1的方法,其中基于所提取的音頻來選擇(212)至少一個(gè)所述鏡頭的 步驟包括以下步驟選擇至少一個(gè)所述鏡頭,其中在所述至少一個(gè)所述鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中 所提取的音頻超過預(yù)定閾值。
3.根據(jù)權(quán)利要求1的方法,其中檢測(204)音頻/可視數(shù)據(jù)流的多個(gè)鏡頭的步驟包括 以下步驟將所述數(shù)據(jù)流中的每一個(gè)幀的可視特性與所述數(shù)據(jù)流中的各自后續(xù)幀的可視特性進(jìn) 行比較;以及檢測多個(gè)鏡頭,每一個(gè)鏡頭包括多個(gè)連續(xù)幀,其中對(duì)于所述多個(gè)連續(xù)幀,所比較的可視 特性是相似的。
4.根據(jù)權(quán)利要求1的方法,其中確定(206)音頻/可視數(shù)據(jù)流的多個(gè)片段的步驟包括 以下步驟比較所述數(shù)據(jù)流的每一個(gè)鏡頭的可視特性;以及確定包括多個(gè)所述鏡頭的多個(gè)片段,其中對(duì)于所述多個(gè)所述鏡頭,所比較的可視特性 是相似的。
5.根據(jù)權(quán)利要求1的方法,其中選擇(208)所述確定的多個(gè)片段中的片段的步驟包括 以下步驟選擇所述確定的多個(gè)片段中最長的片段。
6.根據(jù)權(quán)利要求1的方法,其中可視特性包括所述鏡頭中的每一個(gè)的內(nèi)容,并且該方 法還包括以下步驟檢測和分析所述鏡頭中的每一個(gè)的內(nèi)容。
7.根據(jù)權(quán)利要求1的方法,其中提取(210)在所述鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中 的音頻的步驟包括以下步驟對(duì)于所述數(shù)據(jù)流中的所述選擇片段的每一個(gè)鏡頭,計(jì)算對(duì)于預(yù)定義頻帶、在所述鏡頭 結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀的音頻功率;以及其中基于所提取的音頻來選擇(21 至少一個(gè)所述鏡頭的步驟包括以下步驟選擇至少一個(gè)所述鏡頭,其中對(duì)于所述預(yù)定義頻帶、在所述鏡頭結(jié)束之后出現(xiàn)的所述 多個(gè)連續(xù)幀的音頻功率超過閾值。
8.根據(jù)權(quán)利要求7的方法,其中預(yù)定義頻帶被預(yù)定義為整個(gè)頻譜。
9.根據(jù)權(quán)利要求7的方法,其中預(yù)定義頻帶被預(yù)定義為頻譜的一部分。
10.根據(jù)權(quán)利要求1的方法,其中提取(210)在所述鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中 的音頻的步驟包括以下步驟在所述數(shù)據(jù)流的第一預(yù)定長度上計(jì)算所述數(shù)據(jù)流的音頻功率的第一移動(dòng)平均值; 在所述數(shù)據(jù)流的第二預(yù)定長度上計(jì)算所述數(shù)據(jù)流的音頻功率的第二移動(dòng)平均值; 其中所述數(shù)據(jù)流的所述第一預(yù)定長度不同于所述數(shù)據(jù)流的所述第二預(yù)定長度;以及 比較所述第一和第二移動(dòng)平均值。
11.根據(jù)權(quán)利要求10的方法,其中選擇(21 至少一個(gè)所述鏡頭的步驟包括以下步驟選擇其中在所述第一平均值與所述第二平均值之間的差超過閾值的每一個(gè)鏡頭。
12.根據(jù)權(quán)利要求1的方法,其中所述數(shù)據(jù)流代表球拍運(yùn)動(dòng),并且所述選擇片段對(duì)應(yīng)于 連續(xù)對(duì)打。
13.一種計(jì)算機(jī)程序產(chǎn)品,包括多個(gè)程序代碼部分,用于執(zhí)行根據(jù)任一前述權(quán)利要求的方法。
14.一種用于生成音頻/可視數(shù)據(jù)流的概要的設(shè)備(100),所述數(shù)據(jù)流包括具有音頻和 可視特性的多個(gè)連續(xù)幀,該設(shè)備包括鏡頭檢測器(110),用于檢測音頻/可視數(shù)據(jù)流的多個(gè)鏡頭;確定裝置(112),用于確定所述音頻/可視數(shù)據(jù)流的多個(gè)片段,每一個(gè)片段包括所述數(shù) 據(jù)流中具有相似可視特性的多個(gè)所述鏡頭;第一選擇器(113),用于選擇所述確定的多個(gè)片段中的片段;提取器(114),用于為所述數(shù)據(jù)流中的所述選擇片段的每一個(gè)鏡頭、提取在所述鏡頭結(jié) 束之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻;第二選擇器(116),用于基于所提取的音頻來選擇至少一個(gè)所述鏡頭;以及 概要生成器(118),用于生成概要,以包括所述選擇的至少一個(gè)所述鏡頭。
全文摘要
提供生成音頻/可視數(shù)據(jù)流的概要的方法,該數(shù)據(jù)流包括多個(gè)具有音頻和可視特性的連續(xù)幀。檢測音頻/可視數(shù)據(jù)流的多個(gè)鏡頭(步驟204)。確定音頻/可視數(shù)據(jù)流的多個(gè)片段(步驟206),每一個(gè)片段包括該數(shù)據(jù)流中具有相似可視特性的多個(gè)鏡頭。選擇所確定的多個(gè)片段中的片段(步驟208)。對(duì)于所述數(shù)據(jù)流中的所述選擇片段的每一個(gè)鏡頭,提取在所述鏡頭結(jié)束之后出現(xiàn)的多個(gè)連續(xù)幀中的音頻(步驟210)?;谒崛〉囊纛l,選擇至少一個(gè)鏡頭(步驟212)。生成概要,以包括所選擇的至少一個(gè)鏡頭(步驟214)。
文檔編號(hào)G11B27/02GK102057433SQ200980121725
公開日2011年5月11日 申請日期2009年6月2日 優(yōu)先權(quán)日2008年6月9日
發(fā)明者M·帕斯特爾納克, P·方塞卡 申請人:皇家飛利浦電子股份有限公司