專利名稱:利用內(nèi)容分析來概括音樂視頻的方法和設(shè)備的制作方法
本申請要求了于2003年4月14日提交的美國臨時申請?zhí)枮?0/462,777的權(quán)益;并且涉及于1999年11月17日提交的名為“VideoStream Classifiable Symbol Isolation Method and System(可分類視頻流的符號分離方法和系統(tǒng))”的序列號為09/441,943的美國專利申請,將上述兩篇申請在此引入以供參考。
本發(fā)明涉及視頻概括技術(shù),更特別地,涉及用于索引和概括音樂視頻的方法和設(shè)備。
音樂視頻節(jié)目在許多電視頻道上是可得到的,該頻道包括Fuse、VH1、MTV和MTV2。盡管許多普及的網(wǎng)站、諸如WWW.buymusic.com允許用戶瀏覽并獲取單首歌曲的音頻部分,但是錄像機及其它基于視頻的應(yīng)用僅僅允許用戶獲取整個節(jié)目,該整個節(jié)目包括具有多個音樂視頻的節(jié)目。目前沒有自動獲取單個音樂視頻的方法。因此,如果觀眾錄下包括一個或多個音樂視頻的整個節(jié)目,則所述記錄也將包括所有非音樂視頻部分、諸如廣告和解說。為了觀看音樂視頻,觀眾必須向前快進記錄經(jīng)過非音樂視頻部分,直到到達所期望的音樂視頻部分。另外,視頻回放裝置的大量的記錄容量被用來記錄不必要的資料、諸如廣告及其它談話。
內(nèi)容分析方法已經(jīng)被提出或建議以便提供對節(jié)目的特定部分、諸如高光部分的高級訪問。已為包括新聞、運動和電影的許多類型的節(jié)目開發(fā)出了視頻概括方法。例如“InforMedia Project”是創(chuàng)建主要基于語音識別、自然語言理解和字幕文本的每個視頻的簡短簡介的數(shù)字視頻庫系統(tǒng)。參見A.Hauptmann和M.Smith所著的“Text,Speech,and Vision for Video SegmentationThe Informedia Project”(人工智能美國協(xié)會(AAAI),1995年秋季關(guān)于用于集成語言和視覺的計算模型的討論會(1995年))。
然而,在音樂分析和檢索領(lǐng)域內(nèi)的研究已經(jīng)主要集中在音頻方面上。例如,B.Logan和S.Chu在2000年關(guān)于Acoustics,Speech andSignal Processing的國際會議上發(fā)表的“Music SummarizationUsing Key Phrases”公開了用于在選擇流行音樂以供產(chǎn)生音頻縮略的過程中查找關(guān)鍵短語的算法。作為一篇音頻新產(chǎn)品的測量的申請,J.Foote于1999年11月發(fā)表的“Visualizing Music and Audio UsingSelf Similarity”(Proc.ACM Multimedia′99,77-80)介紹了音頻“梗概(gisting)”。音頻新產(chǎn)品分數(shù)是基于相似性矩陣的,所述相似性矩陣根據(jù)從音頻中提取的特征來比較音頻的幀。因此,盡管音樂內(nèi)容分析是研究的活躍領(lǐng)域,但是仍需要有改進的技術(shù)以供進行音樂視頻的分析和概括。還需要有在多媒體數(shù)據(jù)流中分段音樂視頻并且準(zhǔn)備包括相關(guān)音樂視頻信息的每個音樂視頻的概要的方法和設(shè)備。
總體上,提供了一種用于在多媒體流中利用內(nèi)容分析來分段和概括音樂視頻的方法和設(shè)備。依照本發(fā)明,在多媒體流中通過估計與多媒體流相關(guān)的多個內(nèi)容特征來分段音樂視頻。多個內(nèi)容特征包括至少兩個以下特征面部存在特征;電視正文存在特征;彩色直方圖特征;音頻特征、照相機剪輯特征;以及對從至少一個音樂視頻的副本中獲得的關(guān)鍵詞的分析。利用諸如貝葉斯置信網(wǎng)絡(luò)(Bayesian BeliefNetwork)之類的模式識別引擎或一個或多個視頻分段規(guī)則來處理多個內(nèi)容特征,以便在多媒體流中識別音樂視頻。
根據(jù)本發(fā)明的一個方面,面部存在特征估計多媒體流中的面部顯示中的模式。最初,將幾個可能的面部類型標(biāo)記的其中之一分配給每個圖像幀。然后,根據(jù)所分配的面部類型標(biāo)記來集群圖像幀,并且在面部類型標(biāo)記簇中分析模式以便檢測視頻邊界。根據(jù)本發(fā)明的另一方面,彩色直方圖特征估計多媒體流的彩色內(nèi)容中的模式。為每個圖像幀獲取彩色直方圖,然后,根據(jù)該直方圖來集群圖像幀。在直方圖簇中分析模式以便檢測視頻邊界。照相機剪輯特征估計多媒體流中的照相機剪輯和運動中的模式。公開音頻特征以便估計多媒體流的音頻內(nèi)容中的模式。例如,可以分別如通過正在升高的音量和正在降低的音量所指示的那樣,估計多媒體流的音量以便檢測歌曲的開始和結(jié)束。
根據(jù)本發(fā)明的另一方面,在至少一個音樂視頻中檢測到合唱。訪問與所接收到的多媒體流的音樂視頻相關(guān)聯(lián)的副本并且根據(jù)副本中的單詞的重復(fù)來檢測合唱。例如,可以從隱藏式(closed)字幕信息中獲取副本。所提取出的合唱可以用來自動生成音樂視頻的概要。所產(chǎn)生的概要能夠依照用戶偏好而被展現(xiàn)給用戶,并且可以用來依照用戶偏好檢索出音樂視頻。
將參考下列詳細說明和附圖來獲得對本發(fā)明更徹底的理解以及本發(fā)明進一步的特征和優(yōu)點。
圖1舉例說明了其中能夠操作本發(fā)明的示例性的常規(guī)視頻顯示系統(tǒng);圖2舉例說明了根據(jù)本發(fā)明一個實施例的、用于在圖1的示例性視頻顯示系統(tǒng)中索引和概括音樂視頻的系統(tǒng);圖3舉例說明了包含結(jié)合了本發(fā)明特征的音樂視頻概要過程的存儲器;圖4舉例說明了包含與本發(fā)明的實施例一起使用的音樂視頻概要塊的存儲器;圖5是舉例說明結(jié)合了本發(fā)明特征的音樂索引和概括過程的示例性實施方式的流程圖;圖6是結(jié)合了本發(fā)明特征的示例性面部特征分析過程的流程圖;圖7是結(jié)合了本發(fā)明特征的示例性照相機變化分析過程的流程圖;圖8是結(jié)合了本發(fā)明特征的示例性彩色直方圖分析過程的流程圖;圖9是結(jié)合了本發(fā)明特征的示例性音頻特征分析過程的流程圖;圖10舉例說明了結(jié)合了本發(fā)明特征的示例性貝葉斯置信網(wǎng)絡(luò);圖11是描述視頻分段過程的示例性實施方式的流程圖;圖12提供了由本發(fā)明監(jiān)視的各種特征的示例性時線圖像;圖13是合唱檢測過程的示例性實施方式的流程圖;和圖14示出了能用于從視頻中查找元素以便自動產(chǎn)生概要的貝葉斯置信網(wǎng)絡(luò)。
圖1舉例說明了根據(jù)本發(fā)明一個實施例的示例性視頻回放裝置150和電視機105。視頻回放裝置150從外部源那里接收輸入電視信號,所述外部源諸如是電纜電視業(yè)務(wù)供應(yīng)商、本地天線、因特網(wǎng)業(yè)務(wù)供應(yīng)商(ISP)、DVD或VHS磁帶播放機。視頻回放裝置150將電視信號從觀眾選擇的頻道傳輸?shù)诫娨暀C105??梢杂捎脩羰謩拥剡x擇頻道或者可以利用用戶預(yù)先編程的記錄裝置來自動地選擇頻道??商鎿Q地,可以根據(jù)來自于用戶的個人觀看歷史中的節(jié)目簡檔的信息,通過記錄裝置來自動地選擇頻道和視頻節(jié)目。盡管本發(fā)明是在示例性的電視接收器的環(huán)境中描述的,但是本領(lǐng)域的技術(shù)人員將認識到,可以容易地修改本發(fā)明的示例性實施例以供任何類型的視頻顯示系統(tǒng)使用。
在記錄模式中,視頻回放裝置150可以解調(diào)輸入射頻(RF)電視信號以便產(chǎn)生基帶視頻信號,所述基帶視頻信號被記錄和存儲在位于視頻回放裝置150內(nèi)或連接到視頻回放裝置150的存儲介質(zhì)上。在播放模式中,視頻回放裝置150從存儲介質(zhì)中讀取用戶所選擇的已存儲的基帶視頻信號(即,節(jié)目)并將該信號傳輸?shù)诫娨暀C105。視頻回放裝置150可以包括能夠接收數(shù)字信號、記錄數(shù)字信號、與數(shù)字信號相交互和播放數(shù)字信號的這類錄像機。
視頻回放裝置150可以包括使用記錄磁帶、或使用硬盤、或使用固態(tài)存儲器、或使用任何其它類型的記錄設(shè)備的這類錄像機。如果視頻回放裝置150是盒式磁帶錄像機(VCR),則視頻回放裝置150將輸入電視信號存儲到盒式磁帶并從盒式磁帶中檢索出輸入電視信號。如果視頻回放裝置150是基于盤驅(qū)動的裝置、諸如ReplayTVTM記錄器或TiVOTM記錄器,則視頻回放裝置150將輸入電視信號存儲到計算機磁性硬盤而非盒式磁帶并從計算機磁性硬盤而非盒式磁帶中檢索出輸入電視信號,并且從硬盤中檢索出已存儲的電視信號。在其它實施例中,視頻回放裝置150可以進行存儲和從本地讀/寫(R/W)數(shù)字化視頻光盤(DVD)或讀/寫(R/W)光盤(CD-RW)進行檢索。本地存儲介質(zhì)可以是固定的(例如,硬盤驅(qū)動器)或可以是可拆卸的(例如,DVD、CD-ROM)。
視頻回放裝置150包括從用戶操作的遙控裝置125那里接收命令(諸如頻道上調(diào)、頻道下調(diào)、音量上調(diào)、音量下調(diào)、記錄、播放、快進(FF)、反向倒帶等等)的紅外線(IR)傳感器160。電視機105是包括屏幕110、紅外線(IR)傳感器115和一個或多個手動控件120(由虛線所示)的常規(guī)電視。IR傳感器115還從用戶所操作的遙控裝置125那里接收命令(諸如音量上調(diào)、音量下調(diào)、通電、斷電)。
應(yīng)當(dāng)注意的是,視頻回放裝置150不限于從特定類型的源接收特定類型的輸入電視信號。如上所述,外部源可以是電纜業(yè)務(wù)供應(yīng)商、常規(guī)的RF廣播天線、圓盤式衛(wèi)星電視天線、因特網(wǎng)連接,或是另一個本地存儲裝置、諸如DVD播放機或VHS磁帶播放機。在一些實施例中,視頻回放裝置150甚至可以不必能進行記錄,但是可能局限于播放從可拆卸的DVD或CD-ROM中檢索出的電視信號。因此,輸入信號可以是數(shù)字信號、模擬信號或網(wǎng)際協(xié)議(IP)分組。
然而,為了在解釋本發(fā)明的原理時簡單和清楚起見,下述說明書應(yīng)該總體上涉及這樣的實施例,其中視頻回放裝置150從電纜業(yè)務(wù)供應(yīng)商那里接收輸入電視信號(模擬的和/或數(shù)字的)。盡管如此,本領(lǐng)域的技術(shù)人員將理解本發(fā)明的原理可以容易地適合于與無線廣播電視信號、本地存儲系統(tǒng)、包含MPEG數(shù)據(jù)的IP分組的輸入流等等一起使用。當(dāng)在電視105的屏幕110上顯示音樂視頻時,音樂視頻的起始通常在視頻圖像的底部顯示文本字幕180(電視正文)。文本字幕180通常包含歌曲的名稱、唱片的名稱、藝術(shù)家或創(chuàng)建組的名稱、版本的日期及其它類似的信息。文本字幕180還通常被顯示在音樂視頻的末尾處。文本字幕180將還被稱為電視正文塊180。音樂視頻概要控制器270能夠訪問全部已存儲的音樂視頻概要文件360的列表190,并能夠在電視105的屏幕110上顯示該列表190。也就是說,列表190顯示(1)已經(jīng)在多媒體數(shù)據(jù)流中檢測出的所有音樂視頻的音樂視頻概要文件,并顯示(2)記錄的每個音樂視頻的藝術(shù)家或創(chuàng)建組的身份。利用遙控裝置125和IR傳感器160,用戶向音樂視頻概要控制器270發(fā)送“播放音樂視頻概要”控制信號以便選擇下一個要播放列表190中的哪一個音樂視頻概要文件。照此,用戶選擇播放音樂視頻概要文件的順序。
圖2更詳細地舉例說明了根據(jù)本發(fā)明一個實施例的示例性視頻回放裝置150。視頻回放裝置150包括IR傳感器160、視頻處理器210、MPEG2編碼器220、硬盤驅(qū)動器230、MPEG2解碼器/NTSC編碼器240和錄像機(VR)控制器250。視頻回放裝置150還包括包含幀抓取器265的視頻單元260、包含隱藏式字幕解碼器275的音樂視頻概要控制器270以及存儲器280。幀抓取器265從MPEG2解碼器/NTSC編碼器240的輸出中捕獲并存儲視頻幀。隱藏式字幕解碼器265對MPEG2解碼器/NTSC編碼器240的NTSC輸出信號中的隱藏式字幕文本進行解碼。盡管隱藏式字幕解碼器275在圖2中被示出位于音樂視頻概要控制器270之內(nèi),但是隱藏式字幕解碼器275不是必需位于音樂視頻概要控制器270之內(nèi)。
VR控制器250指揮視頻回放裝置150的全部操作,其包括觀看模式、記錄模式、播放模式、快進(FF)模式、反向倒帶模式及其它類似的功能。音樂視頻概要控制器270依照本發(fā)明的原理來指揮音樂視頻概要的創(chuàng)建、存儲和播放。
在觀看模式中,VR控制器250使來自于電纜業(yè)務(wù)供應(yīng)商的輸入電視信號被解調(diào)并被視頻處理器210處理,并且被傳輸?shù)诫娨暀C105,同時將視頻信號存儲或不存儲在硬盤驅(qū)動器230上(或從硬盤驅(qū)動器230中檢索出視頻信號)。視頻處理器210包含射頻(RF)前端電路,其用于從電纜業(yè)務(wù)供應(yīng)商那里接收輸入電視信號,調(diào)諧成用戶選擇的頻道,并將所選擇的RF信號轉(zhuǎn)換成適合于在電視機105上顯示的基帶電視信號(例如,超視頻信號)。視頻處理器210還能夠在播放模式期間(在視頻單元260的視頻緩沖器265中進行緩沖之后)從MPEG2解碼器/NTSC編碼器240中接收常規(guī)的NTSC信號并將基帶電視信號傳輸?shù)诫娨暀C105。
在記錄模式中,VR控制器250使輸入電視信號被存儲在硬盤驅(qū)動器230上。在VR控制器250的控制下,MPEG2編碼器220從電纜業(yè)務(wù)供應(yīng)商那里接收輸入模擬電視信號并將接收到的RF信號轉(zhuǎn)換成MPEG2格式以供存儲在硬盤驅(qū)動器230上??商鎿Q地,如果視頻回放裝置150被耦合到傳輸MPEG2數(shù)據(jù)的源,則輸入MPEG2數(shù)據(jù)可以繞過MPEG2編碼器220并直接被存儲在硬盤驅(qū)動器230上。
在播放模式中,VR控制器250指揮硬盤驅(qū)動器230將所存儲的電視信號(即,節(jié)目)流動到MPEG2解碼器/NTSC編碼器240,所述MPEG2解碼器/NTSC編碼器240將來自于硬盤驅(qū)動器230的MPEG2數(shù)據(jù)轉(zhuǎn)換成例如視頻處理器210傳輸?shù)诫娨暀C105的超視頻(S-Video)信號。
應(yīng)當(dāng)注意的是,用于MPEG2編碼器220和MPEG2解碼器/NTSC編碼器240的MPEG2標(biāo)準(zhǔn)的選擇僅僅是作為舉例說明。在本發(fā)明的可選實施例中,MPEG編碼器和解碼器可以遵循MPEG-1、MPEG-2和MPEG-4標(biāo)準(zhǔn)中的一個或多個,或遵循一個或多個其它類型的標(biāo)準(zhǔn)。
為了說明本申請和隨后的權(quán)利要求,將硬盤驅(qū)動器230定義成包含既可讀又可寫的任何大容量存儲裝置,該大容量存儲裝置包括但不限于用于讀/寫數(shù)字化視頻光盤(DVD-RW)、可重寫CD-ROM、VCR磁帶等等的常規(guī)磁盤驅(qū)動器和光盤驅(qū)動器。實際上,硬盤驅(qū)動器230不必被固定于常規(guī)意義上,所述常規(guī)意義就是它永久地被嵌入視頻回放裝置150中。而是,硬盤驅(qū)動器230包括專用于視頻回放裝置150以供存儲所記錄的視頻節(jié)目的任何大容量存儲裝置。因此,硬盤驅(qū)動器230可以包括附裝的外設(shè)驅(qū)動器或可移動的磁盤驅(qū)動器(不論是嵌入的還是附裝的),比如具有幾個讀/寫DVD或可重寫CD-ROM的投幣式自動電唱機(未示出)。正如在圖2中示意性地舉例說明的那樣,這種類型的可移動磁盤驅(qū)動器能夠接收和讀取可重寫CD-ROM盤235。
此外,在本發(fā)明的一個有利實施例中,硬盤驅(qū)動器230可以包括視頻回放裝置150可經(jīng)由網(wǎng)絡(luò)連接(例如,網(wǎng)際協(xié)議(IP)連接)而訪問和控制的外部大容量存儲裝置,例如包括用戶的家庭個人計算機(PC)中的磁盤驅(qū)動器或位于用戶的因特網(wǎng)業(yè)務(wù)供應(yīng)商(ISP)處的服務(wù)器上的磁盤驅(qū)動器。
VR控制器250從與視頻處理器210所接收的視頻信號有關(guān)的視頻處理器210中獲取信息。當(dāng)VR控制器250判定視頻回放裝置150正在接收視頻節(jié)目時,VR控制器250判斷該視頻節(jié)目是否是已被選擇將要記錄的一個視頻節(jié)目。如果該視頻節(jié)目將被記錄,則VR控制器250就按先前所描述的方式使該視頻節(jié)目記錄在硬盤驅(qū)動器230上。如果該視頻節(jié)目不是將被記錄,則VR控制器250就按先前所描述的方式使視頻處理器210對該視頻節(jié)目進行處理并且將其傳輸?shù)诫娨暀C105。
在本發(fā)明的示例性實施例中,存儲器280可以包括隨機存取存儲器(RAM)或隨機存取存儲器(RAM)和只讀存儲器(ROM)的組合。存儲器280可以包括非易失性隨機存取存儲器(RAM)、諸如快閃存儲器。在電視機105的一個可替換的有利實施例中,存儲器280可以包括大容量存儲數(shù)據(jù)裝置、諸如硬盤驅(qū)動器(未示出)。存儲器280還可以包括讀取讀/寫DVD或可重寫CD-ROM的附裝的外設(shè)驅(qū)動器或可移動磁盤驅(qū)動器(不論是嵌入的還是附裝的)。正如在圖2中示意性地舉例說明的那樣,這種類型的可移動磁盤驅(qū)動器能夠接收和讀取可重寫的CD-ROM盤285。
圖3舉例說明了包含本發(fā)明的音樂視頻概要計算機軟件300的存儲器280的所選部分。存儲器280包含操作系統(tǒng)接口程序310、音樂視頻分段應(yīng)用程序320、音樂視頻識別應(yīng)用程序330、音樂視頻概括應(yīng)用程序340、音樂視頻概要塊350和音樂視頻概要文件360。音樂視頻概要控制器270和音樂視頻概要計算機軟件300共同包括能夠?qū)崿F(xiàn)本發(fā)明的音樂視頻概要控制系統(tǒng)。操作系統(tǒng)接口程序310對音樂視頻概要計算機軟件300與VR控制器250和音樂視頻概要控制器270的操作系統(tǒng)之間的操作進行協(xié)調(diào)。
圖4舉例說明了作為本發(fā)明的有利實施例的一部分的一組音樂視頻概要塊350。本發(fā)明的音樂視頻概要控制器270存儲它獲取關(guān)于音樂視頻概要塊(例如,音樂視頻概要塊410)中的音樂視頻的信息。如圖4中所示,該組音樂視頻概要塊350包括N個音樂視頻概要塊(410、470、...、480),其中N為整數(shù)。圖4中所示的示例性的音樂視頻概要塊410舉例說明了每個音樂視頻概要塊可以包含的信息的類型。示例性音樂視頻概要塊410分別包含了標(biāo)題、唱片、藝術(shù)家、錄音室和版本日期塊420、430、440、450和460。這些類目都是說明性的而非窮舉的。也就是說,其它類型的信息(未示出)也可被存儲在本發(fā)明的音樂視頻概要塊當(dāng)中。
假定音樂視頻概要控制器270接收包含音樂視頻的多媒體數(shù)據(jù)流。正如將在下面更充分描述的那樣,音樂視頻概要控制器270能夠(1)在多媒體數(shù)據(jù)流中分段音樂視頻并將它們與多媒體數(shù)據(jù)流的其余部分分開,(2)識別每個分段后的音樂視頻并獲取關(guān)于作為每個音樂視頻的主體的歌曲的信息,(3)為包含文本、音頻和視頻分段的每個音樂視頻創(chuàng)建音樂視頻概要文件,(4)存儲音樂視頻概要文件,以及(4)響應(yīng)于用戶請求,按照用戶所選擇的順序顯示音樂視頻概要文件。
在一個實施例中,音樂視頻概要控制器270通過查找每個音樂視頻的首尾來在多媒體數(shù)據(jù)流中分段音樂視頻。根據(jù)本發(fā)明的一個方面,音樂視頻是利用諸如面部的存在或面部的識別這類的一個或多個圖像特征或者諸如音頻分類技術(shù)這類的一個或多個音頻特征來分段的,以便從非音樂成分到音樂成分地檢測音頻成分上的變化,這通常認為是新歌曲的開始。在進一步的變形中,分段過程采用超直方圖(或彩色群集技術(shù))來檢測彩色上的變化、諸如從暗圖像到亮圖像的變化,這也可認為是新歌曲的開始。
在又一個變形中,音樂視頻概要控制器270執(zhí)行音樂視頻分段應(yīng)用程序320中的計算機指令以搜索音樂視頻首尾處的電視正文塊180。當(dāng)兩個電視正文塊180相同時,那么它們之間的視頻部分代表由這兩個電視正文塊180識別的音樂視頻。當(dāng)音樂視頻被顯示在電視105的屏幕110上時,音樂視頻的開始通常在視頻圖像的底部顯示文本字幕180。文本字幕180通常包含歌曲的名稱、唱片的名稱、藝術(shù)家或創(chuàng)建組的名稱、版本的日期及其它類似的信息。文本字幕180還通常顯示于音樂視頻的末尾。文本字幕180還將被稱為電視正文塊180。
當(dāng)音樂視頻概要控制器270分段新的音樂視頻時,那么音樂視頻概要控制器270執(zhí)行音樂視頻識別應(yīng)用程序330中的計算機指令以便例如從電視正文塊180中提取識別音樂視頻的信息。音樂視頻概要控制器270可以利用如下申請中公開的方法來獲取電視正文塊180的文本,所述申請是由Lalitha Agnihotri、Nevenka Dimitrova和HermanElenbass在1999年11月17日提交的名為“Video StreamClassifiable Symbol Isolation Method and System(可分類視頻流的符號分離法和系統(tǒng))”的序列號為09/441,943的美國專利申請。
音樂視頻概要控制器270可以訪問存儲器280中的數(shù)據(jù)庫(未示出)(或者可以訪問位于因特網(wǎng)上的數(shù)據(jù)庫)以查找歌曲、唱片、藝術(shù)家或唱片公司的一覽表,以便與音樂視頻概要控制器270從電視正文塊180中獲取的信息進行比較。音樂視頻概要控制器270在其中一個音樂視頻概要塊350當(dāng)中存儲它獲取關(guān)于存儲器280中的音樂視頻的信息。針對每個獨立的音樂視頻的音樂視頻信息被存儲在獨立的音樂視頻概要塊(例如,音樂視頻概要塊410)當(dāng)中。
在某些情況下,音樂視頻概要控制器270可能不能定位或識別任何電視正文塊180。在這種情況下,音樂視頻概要控制器270可以將歌曲的少數(shù)幾行的副本與歌曲歌詞的副本的數(shù)據(jù)庫進行比較,以便找到文本匹配。音樂視頻概要控制器270選擇代表歌曲的少數(shù)幾行的文本的“搜索串”。在一個實施例中,“搜索串”文本可以從隱藏式字幕解碼器275中獲得。接著,音樂視頻概要控制器270訪問存儲器280中的歌曲歌詞(未示出)的數(shù)據(jù)庫(或者訪問位于諸如WWW.lyrics.com之類的因特網(wǎng)上的歌曲歌詞的數(shù)據(jù)庫)以便查找歌曲歌詞的一覽表。然后,音樂視頻概要控制器270將該“搜索串”文本與歌曲歌詞的數(shù)據(jù)庫中的副本進行比較以便查找歌曲的身份。在歌曲的身份已得到確定之后,能夠容易地從數(shù)據(jù)庫中訪問藝術(shù)家的名稱及其它信息。下面將參照圖7更充分地描述音樂視頻概要控制器270通過將“搜索串”文本與歌曲歌詞的數(shù)據(jù)庫相比較來搜索并定位音樂視頻信息的方法。
正如前面提到的那樣,音樂視頻概要控制器270獲取音樂視頻信息并在音樂視頻概要塊350中存儲該音樂信息。然后,對于每個音樂視頻概要塊(例如,音樂視頻概要塊410),音樂視頻概要控制器270訪問歌曲歌詞并根據(jù)歌曲歌詞來識別歌曲的“合唱”。通常,歌曲的合唱被識別為歌曲歌詞的數(shù)據(jù)庫中的合唱??商鎿Q地,也可以選擇重復(fù)若干次的歌曲歌詞的一部分作為歌曲的合唱。這可以通過利用隱藏式字幕解碼器275或者通過比較部分音頻軌道以找出相似的音頻模式來實現(xiàn)。根據(jù)本發(fā)明的另一方面,音樂視頻的合唱部分是在不需要訪問獨立的數(shù)據(jù)庫的情況下通過分析往往表示合唱的重復(fù)短語的相關(guān)副本來識別的。例如,可以從隱藏式字幕信息中獲取副本。
對于多數(shù)聽眾而言,歌曲的“合唱”比歌曲的頭幾行更能識別歌曲的特性。音樂視頻概要控制器270能繼而將歌曲歌詞的副本中的合唱與對應(yīng)于合唱的多媒體文件的音頻和視頻部分相匹配。然后,音樂視頻概要控制器270將對應(yīng)于合唱的多媒體文件的音頻和視頻部分的拷貝放在音樂視頻概要文件360當(dāng)中。
音樂視頻概要控制器270在存儲器280中存儲每個音樂視頻的每個音樂視頻概要文件360。響應(yīng)于接收用戶請求,音樂視頻概要控制器270能夠訪問特定的音樂視頻概要文件360并通過電視105來播放音樂視頻概要文件360(包括音頻和視頻部分)??商鎿Q地,音樂視頻概要控制器270能夠訪問全部已存儲的音樂視頻概要文件360的列表190并在電視105的屏幕110上顯示該列表190。也就是,列表190顯示(1)所有已經(jīng)在多媒體數(shù)據(jù)流中檢測出的音樂視頻的音樂視頻概要文件;和(2)所記錄的每個音樂視頻的藝術(shù)家或創(chuàng)建組的身份。列表190可選地根據(jù)用戶偏好被呈現(xiàn)以個性化該列表中存在的信息內(nèi)容。使用遙控裝置125和IP傳感器160,用戶將“播放音樂視頻概要”控制信號發(fā)送給音樂視頻概要控制器270以便選擇下一個播放列表190中的哪一個音樂視頻概要文件。照此,用戶選擇播放音樂視頻概要文件的順序。
圖5是提供本發(fā)明用來索引和概括音樂視頻的技術(shù)概述的流程圖500。如圖5中所示,所述方法在步驟510,音樂視頻概要控制器270最初將所接收到的包含音樂視頻507的多媒體流505分成它的音頻、視頻和副本成分。然后,在步驟520,音樂視頻概要控制器270從音頻、視頻和副本成分中提取許多特征,如在下面進一步論述的那樣。例如,可以從隱藏式字幕信息中獲取副本,其中利用軟件為每個文本行插入時間戳。此時,所有特征包括有時間戳的、無任何歌曲邊界指示的數(shù)據(jù)流。
初始的歌曲邊界是在步驟530中按照進一步在下面結(jié)合圖10和11所論述的方式,利用視覺、聽覺和文本特征加以確定的。此后,利用初始的邊界和副本信息,在步驟540中確定合唱位置和合唱關(guān)鍵短語,正如進一步在下面結(jié)合圖13論述的那樣。在步驟545和550,根據(jù)合唱信息,利用來自于Web站點的信息來確定例如標(biāo)題、藝術(shù)家名稱、風(fēng)格和歌曲的歌詞。
然后,在步驟560,例如利用一個或多個所獲取的歌曲歌詞、音頻分類、視覺景色邊界(根據(jù)彩色信息)和重疊文本來確定歌曲邊界。本發(fā)明考慮到Web站點上的歌詞和副本中的歌詞不總是絕對匹配。根據(jù)歌詞,利用初始邊界信息和歌詞來調(diào)整歌曲的邊界??商鎿Q地,如果副本信息是不可用的,則可以在所提取的電視正文上利用光學(xué)字符識別(OCR)技術(shù)來分析標(biāo)題頁以便找出視頻信息、諸如藝術(shù)家名稱、歌曲標(biāo)題、年代和記錄標(biāo)記信息,并且可以使用Web信息來核對來自于OCR步驟的輸出。利用這一信息,能夠從Web站點中獲取歌曲的歌詞并且可以利用文本信息來執(zhí)行合唱檢測方法。(這里所涉及的是這些已下載的歌詞沒有時間戳并且存在對準(zhǔn)的問題。)優(yōu)選地,所述副本是利用語音到文本的音頻分析而獲得的。在一個變形中,已下載的副本和利用語音到文本生成器而產(chǎn)生的副本可以被綜合起來以獲得更準(zhǔn)確的副本。
在具有每個歌曲的邊界和視聽特征的情況下,繼而分別在步驟565和570利用確定最佳代表性的幀和歌曲概要的最佳視頻剪輯來概括歌曲,正如在下面結(jié)合圖14所論述的那樣。最佳代表性的幀包括來自于藝術(shù)家的特寫、具有歌曲信息、藝術(shù)家、標(biāo)記、唱片和年代的標(biāo)題圖像。在步驟575,在歌曲概要庫中存儲歌曲概要。在步驟580中,用戶例如能夠利用基于Web的音樂視頻檢索應(yīng)用程序來訪問節(jié)目概要。
依照本發(fā)明的音樂視頻概括是基于單個歌曲的識別和概括來進行的。在節(jié)目級,概要包括歌曲的列表。在下一級,每個歌曲包括標(biāo)題、藝術(shù)家以及代表該歌曲的所選多媒體元素。
邊界檢測音樂視頻概括包括兩種類型的邊界檢測。首先,必須自動地檢測歌曲邊界。爾后,必須檢測合唱的邊界。正如上面結(jié)合圖5所論述的那樣,本發(fā)明利用視覺、音頻和副本特征來執(zhí)行邊界檢測。視覺特征包括電視正文的存在、面部檢測(和/或識別)、不連續(xù)的剪輯和彩色直方圖。
利用電視正文的存在進行的邊界檢測對于詳細論述的采用電視正文的存在的邊界檢測的適用技術(shù),例如參見N.Dimitrova等人所著的名為“MPEG-7 VideoTextDescription Scheme for Superimposed Text(重疊文本的MPEG-7電視正文描述方案)”(Int′1 Signal Processing and ImageCommunications Journal(國際信號處理和圖像通信雜志),2000年9月),或參見于2002年6月20日提交的名為“System and Method forIndexing and Summarizing Music Videos(用于索引和概括音樂視頻的系統(tǒng)和方法)”的序列號為10/176,239的美國專利申請(代理人檔案號US020206),將上述每一篇都引入于此作為參考。
電視正文的檢測提供了檢測邊界的可靠方法,因為諸如藝術(shù)家和標(biāo)題之類的電視正文信息是按照使人容易閱讀和識別的方式而出現(xiàn)在每個音樂視頻的起始和末尾處的。因此,電視正文存在于歌曲的起始處能幫助勾劃歌曲之間的邊界。例如,通過確保文本框包含歌曲的歌曲標(biāo)題信息或者確保在諸如屏幕的左下部分之類的給定位置上找到文本框,能夠改善電視正文檢測性能??梢詫⒏枨臉?biāo)題頁用作歌曲早已開始的一個指示符,以便確定歌曲的開始。
利用面部檢測(或識別)進行的邊界檢測根據(jù)本發(fā)明的一個方面,能夠根據(jù)圖像幀中的面部的檢測來識別歌曲的可能邊界。圖6是結(jié)合了本發(fā)明特征的示例性面部特征分析過程600的流程圖。如圖6所示,在步驟610,面部特征分析過程600最初給每個圖像幀分配幾種可能的面部類型標(biāo)記的其中一個。例如,面部特征分析過程600可以根據(jù)幀是否主要由肩部拍攝(S)、全身拍攝(F)、面部特寫鏡頭(C)或多人(M)組成來給每個幀分配標(biāo)記。已分配的面部類型標(biāo)記的示例性時線圖像被包括在圖12中,如下所述。然后,在步驟620,根據(jù)已分配的面部類型標(biāo)記來群集圖像幀。最后,在步驟630,在面部類型標(biāo)記的簇中分析模式以檢測視頻邊界。程序控制繼而終止。下面進一步結(jié)合圖10和11來論述在步驟630中所執(zhí)行的模式分析。
照此,隨著時間的過去,面部特征分析過程600將尋找同類的圖像序列模式(假定這些幀是相同的視頻的部分)。脫離這樣的模式將假定新的視頻或非視頻資料已經(jīng)開始。對于執(zhí)行面部檢測和標(biāo)記的適用技術(shù)的詳細論述,例如參見N.Dimitrova等人所著的名為“VideoClassification Using Object Tracking(利用目標(biāo)跟蹤進行視頻分類),International Journal of Image and Graphics(圖像與圖形的國際性刊物)”(圖像和視頻數(shù)據(jù)庫方面的專刊,第1卷,第3期(2001年8月)),將該篇引入于此作為參考。
盡管面部對于查找主要的表演藝術(shù)家而言是相當(dāng)重要的,但是應(yīng)當(dāng)注意的是,音樂視頻是執(zhí)行視頻面部檢測的有挑戰(zhàn)性的一類。面部存在由于例如特技效果和用各種顏色加亮的緣故而可能不會在視頻中完全被檢測出來。另外,面部往往是處于對角線或水平位置中的,例如當(dāng)表演者正在跳舞或睡眠時。
在其它變形中,面部識別也可以任選地被執(zhí)行,以便按眾所周知的方式根據(jù)每個幀中識別的藝術(shù)家來分配身份標(biāo)記。圖像序列中新藝術(shù)家的出現(xiàn)表示新視頻的開始。面部識別的性能可以任選地通過使用包含受歡迎的或期待的藝術(shù)家的面部圖像的數(shù)據(jù)庫而得以改善。
利用不連續(xù)剪輯(照相機變化)進行的邊界檢測根據(jù)本發(fā)明的一個方面,歌曲的可能邊界能夠根據(jù)在圖像序列方面變化的照相機的模式的檢測來加以識別。圖7是結(jié)合了本發(fā)明特征的示例性照相機變化分析過程700的流程圖。如圖7中所示,在步驟710,照相機變化分析過程700最初確定視頻序列中的照相機剪輯的頻率。對于用于確定照相機剪輯的頻率的適用技術(shù)的詳細論述,例如參見名為“Significant Scene Detection and Frame Filtering fora Visual Indexing System(用于視覺索引系統(tǒng)的顯著場景檢測和幀過濾)”的美國專利No.6137544,將該篇引入于此作為參考。
爾后,在步驟730,照相機變化分析過程700分析照相機剪輯頻率數(shù)據(jù)中的模式以便檢測視頻邊界。下面進一步結(jié)合圖10和11來論述在步驟730所執(zhí)行的模式分析。應(yīng)當(dāng)注意剪輯變化在音樂視頻中是非常頻繁的。事實上,我們的數(shù)據(jù)顯示平均剪輯距離在商業(yè)廣告時間比在歌曲期間更高。這是很不尋常的,因為對于多數(shù)的其它風(fēng)格來說,商業(yè)廣告時間呈現(xiàn)出比節(jié)目更低的剪輯距離。在進一步的變形中,可以提供附加的照相機變化標(biāo)記以表征照相機運動的類型、諸如拍攝全景、俯仰運動和變焦距。
利用彩色直方圖進行的邊界檢測根據(jù)本發(fā)明的另一方面,能夠根據(jù)彩色變化特征來識別歌曲的可能邊界。在示例性實施例中采用超直方圖方法來推論呈現(xiàn)相似顏色的幀族。圖8是結(jié)合了本發(fā)明特征的示例性彩色直方圖分析過程800的流程圖。如圖8所示,在步驟810,彩色直方圖分析過程800最初獲取每個圖像幀的彩色直方圖。通常,彩色直方圖能夠被認為是表征對應(yīng)幀的彩色組分的標(biāo)記圖(signature)。然后,在步驟820,根據(jù)直方圖來群集圖像幀(如圖12所示)。最后,在步驟830,在直方圖簇中分析模式以檢測視頻邊界。程序控制繼而終止。下面進一步結(jié)合圖10和11來論述在步驟830所執(zhí)行的模式分析。在群集階段考慮的圖像幀的歷史例如可以限于一分鐘,因為任何具有相似顏色的先前幀可以不必是相關(guān)的。
照此,隨著時間的過去,彩色直方圖分析過程800將尋找同類的圖像序列模式(假定這些幀是相同的視頻的部分)。脫離這樣的模式將假定新的視頻或非視頻資料已經(jīng)開始。例如,由于電影的風(fēng)格,給定歌曲在視頻里自始至終可能都具有主色。另外,每個歌曲之間的商業(yè)廣告時間將通常呈現(xiàn)不同的主色。彩色直方圖允許呈現(xiàn)相似顏色的幀族被識別出來。通常,隨著新的歌曲出現(xiàn),調(diào)色板變化和新歌曲的幀都被群集到新的族中。因此,彩色直方圖法在檢測音樂視頻的可能開始和結(jié)尾時是有用的。
對于彩色直方圖的更詳細論述,例如參見L.Agnihotri andN.Dimitrova所著的“Video Clustering Using Superhistograms inLarge Video Archives(在大視頻檔案文件中利用超直方圖進行視頻群集)”(Visual 2000,法國里昂(2000年11月)),或者N.Dimitrova等人所著的“Superhistograms for Video Representation(用于視頻表示的超直方圖)”(IEEE ICIP,1999年,日本神戶(1999年)),將這兩篇文獻引入于此作為參考。
利用音頻特征進行的邊界檢測根據(jù)本發(fā)明的另一方面,能夠根據(jù)音頻特征來識別歌曲的可能邊界。圖9是結(jié)合了本發(fā)明特征的示例性音頻特征分析過程900的流程圖。如圖9所示,在步驟910,音頻特征分析過程900最初將幾種可能音頻類型標(biāo)記的其中一種分配給每個音頻幀。應(yīng)當(dāng)注意,音頻幀的持續(xù)時間可能不同于圖像幀的持續(xù)時間。例如,音頻特征分析過程900可以根據(jù)音頻幀是否主要包含下列內(nèi)容來給每個音頻幀分配標(biāo)記1)音樂,2)語音,3)帶有背景音樂的語音,4)多個人交談,5)噪音,6)帶有噪音的語音,7)靜音,8)正在升高的音量或9)正在降低的音量。然后,在步驟920,根據(jù)已分配的音頻類型標(biāo)記來群集音頻幀。最后,在步驟930,在音頻類型標(biāo)記簇中分析模式以檢測視頻邊界。程序控制繼而終止。下面進一步結(jié)合圖10和11來論述在步驟930所執(zhí)行的模式分析。例如,模式分析可以在歌曲的首尾處尋找靜音或正在升高的音量以指示歌曲的開始,或?qū)ふ艺诮档偷囊袅恳灾甘靖枨哪┪病?br>
照此,隨著時間的過去,音頻特征分析過程900將尋找同類的音頻序列模式(假定這些音頻幀是相同的視頻的部分)。脫離這樣的模式將假定新的視頻或非視頻資料已經(jīng)開始。對于用于執(zhí)行音頻分段和分類的適用技術(shù)的詳細論述,例如參見D.Li等人所著的“Classification of General Audio Data for Content-BasedRetrieval(基于內(nèi)容的檢索的普通音頻數(shù)據(jù)的分類)”(PatternRecognition Letters 2000(2000年)),將該篇文獻引入于此作為參考。
利用副本特征進行的邊界檢測根據(jù)本發(fā)明的另一方面,能夠根據(jù)例如可以從隱藏式字幕信息中獲取的音頻副本來識別歌曲的可能邊界。通常,在文本副本中利用關(guān)鍵詞分析(或自相關(guān)分析)來識別段落。特別是,獲得并分析單詞的直方圖以便檢測新的歌曲。一套新的關(guān)鍵詞的識別將假定新的視頻或非視頻資料已經(jīng)開始。對于用于執(zhí)行副本“段落”的適用技術(shù)的詳細論述,例如參見N.Stokes等人所著的“Segmenting Broadcast NewsStreams Using Lexical Chains(利用詞匯鏈來分段廣播的新聞節(jié)目流)”(Proc.of Starting Artificial Intelligence ResearchersSymposium(STAIRS)(2002年)),將該篇文獻引入于此作為參考。
利用低級特征進行的邊界檢測除了上述特征之外,本發(fā)明還可以直接使用直接從內(nèi)容導(dǎo)出的許多低級的特征、諸如每個圖像幀中的邊緣的數(shù)目或形狀或局部和全局運動,并且監(jiān)視任何模式并在這些低級特征中脫離這樣的模式。另外,也可以分析低級音頻特征、諸如嘜耳頻率倒譜系數(shù)(Mel FrequencyCepstral Coefficient)(MFCC)、線性預(yù)測系數(shù)(LPC)、間距變化、帶寬、音量和音調(diào)。
對視覺、音頻和副本特征的分析正如先前所示的,本發(fā)明利用視覺、音頻和副本特征來執(zhí)行邊界檢測,這在上面已經(jīng)結(jié)合圖5至9作了描述。在圖10中所示的一個示例性實施例中,利用諸如貝葉斯置信網(wǎng)絡(luò)(BBN)1000之類的模式識別引擎來監(jiān)控視覺、音頻和副本特征,以便將視頻流分段成單獨的視頻。在圖11中所示的可替換的實施例中,利用基于規(guī)則的試探過程1100來處理視覺、音頻和副本特征以便將視頻流分段成單獨的視頻。通常,這兩個示例性實施例都根據(jù)上述論述的所有不同特征、利用近似邊界來分段視頻。
圖10舉例說明了結(jié)合了本發(fā)明特征的示例性貝葉斯置信網(wǎng)絡(luò)1000。貝葉斯置信網(wǎng)絡(luò)1000監(jiān)控視覺、音頻和副本特征以便將視頻流分段成單獨的視頻。通常,貝葉斯置信網(wǎng)絡(luò)已被用于識別復(fù)雜的模式并且用于學(xué)習(xí)和識別預(yù)定義的活動。貝葉斯置信網(wǎng)絡(luò)1000是利用視頻序列來訓(xùn)練的,所述視頻序列早已按照已知的方式被標(biāo)記有分段信息。
如圖10中所示,貝葉斯置信網(wǎng)絡(luò)1000包括具有多個狀態(tài)1010-1至101O-N的第一層1010,每一層都與本發(fā)明所監(jiān)控的不同特征相關(guān)聯(lián)。每個狀態(tài)的輸入都是經(jīng)過給定窗口的平均特征值。例如,對于面部存在特征,所述輸入例如可以是與前20個第二窗口相比,經(jīng)過當(dāng)前的20個第二窗口,在每個圖像中是否存在面部數(shù)目上的變化。同樣,對于彩色直方圖特征,所述輸入例如可以是在當(dāng)前的窗口是否檢測出了新的簇。
貝葉斯置信網(wǎng)絡(luò)1000包括根據(jù)與狀態(tài)相關(guān)聯(lián)的單個特征來為每個對應(yīng)狀態(tài)確定當(dāng)前時窗是否對應(yīng)于與視頻的起始或末尾相關(guān)聯(lián)的轉(zhuǎn)變Ptrans的概率的第二層1020。例如,概率Pfacechng表示面部變化特征數(shù)據(jù)所表明的面部變化的概率。在末級1030中,貝葉斯置信網(wǎng)絡(luò)1000利用應(yīng)用貝葉斯推斷以根據(jù)跨每個被監(jiān)控的特征的概率來判斷是否存在歌曲間斷。在進一步的變形中,可以采用神經(jīng)網(wǎng)絡(luò)或自回歸移動平均(ARMA)技術(shù)來預(yù)測歌曲邊界。
用于判斷當(dāng)前時窗是否對應(yīng)于在狀態(tài)1030下的分段的條件概率可以按如下來計算。
上述等式給出了用于計算條件概率的一般情況。對于在圖10中給出的模型,所述概率可以按如下來計算 其中v是電視正文,f是面部,a是不連續(xù)剪輯,c是顏色,t是副本,而a是有關(guān)音頻的分析。
圖11是描述視頻分段過程1100的示例性實施方式的流程圖。正如先前所示的,視頻分段過程1100利用基于規(guī)則的試探技術(shù)來處理視覺、音頻和副本特征以便將視頻流分段成單獨的視頻。如圖11中所示,在步驟1110,視頻分段過程1100最初估計被監(jiān)控的視頻、音頻和副本特征值。爾后,在步驟1120,視頻分段過程1100將一個或多個預(yù)定義的視頻分段規(guī)則1115應(yīng)用于所述特征值。例如,給定的應(yīng)用程序可以定義視頻分段規(guī)則,若電視正文存在和彩色直方圖特征兩者的概率值都超出預(yù)定義的閾值則規(guī)定應(yīng)該被識別的視頻分段。在進一步的示例中,視頻分段規(guī)則能夠規(guī)定若電視正文存在和至少N個其它被監(jiān)控的特征的概率值超出預(yù)定義的閾值則視頻分段應(yīng)該被識別。
在步驟1130,執(zhí)行測試以便判斷是否檢測出了新的視頻。如果在步驟1130判定新的視頻尚未被檢測出,則程序控制返回到步驟1110以便按上述方式繼續(xù)監(jiān)控圖像流。然而如果在步驟1130判定新的視頻已被檢測出,則在步驟1140就識別新的視頻分段。程序控制能繼而終止或返回到步驟1110以便視情況而定按照上述方式繼續(xù)監(jiān)視圖像流。
由貝葉斯置信網(wǎng)絡(luò)1000或視頻分段過程1100執(zhí)行的監(jiān)控特征的處理能夠認定這樣的事實,即副本比視覺流和音頻流更遲開始。從視覺的角度,在歌曲開始之后通常出現(xiàn)幾秒的電視正文標(biāo)題頁也被獲取。利用歌曲的視覺彩色邊界和音頻域中的音樂分類的開始來對準(zhǔn)開始邊界。
圖12提供了已分配的面部類型標(biāo)記1210、彩色直方圖簇1220和電視正文存在1230的示例性時線圖像。如圖12所示,對準(zhǔn)每個被監(jiān)控的特征的特征數(shù)據(jù),以便檢測視頻分段。本發(fā)明采用貝葉斯置信網(wǎng)絡(luò)1000或視頻分段過程1100以便根據(jù)由每個單獨的特征表明的轉(zhuǎn)變時期來識別兩個視頻之間的或視頻和非視頻資料之間的轉(zhuǎn)變1240。
合唱檢測為了確定歌曲的合唱,早先的研究已經(jīng)集中于音樂音頻特征。為了在歌曲中查找重復(fù)的分段而使用的常見手段就是執(zhí)行自相關(guān)分析。在流行歌曲中重復(fù)合唱至少兩次。通常在多數(shù)的歌曲中重復(fù)三次或更多次。
根據(jù)本發(fā)明的其它特征,歌曲的合唱是利用副本(隱藏式字幕信息)來檢測的。通常,合唱是通過檢測包含重復(fù)的單詞的歌曲部分來識別的。應(yīng)當(dāng)注意,隱藏式字幕不是理想的,而是例如可能包含排字錯誤或刪節(jié)。圖13是合唱檢測過程1300的示例性實施方式的流程圖。如圖13所示的和下文中論述的那樣,合唱檢測過程1300在步驟1310中通過對隱藏式字幕執(zhí)行關(guān)鍵短語檢測、在步驟1320中執(zhí)行潛在的合唱檢測、在步驟1330中執(zhí)行合唱候選確認以及在步驟1340中執(zhí)行無規(guī)律的合唱檢測和后分析來識別合唱分段。最后,在步驟1350執(zhí)行自相關(guān)分析以識別任何合唱。
關(guān)鍵短語識別(步驟1310)合唱包含最經(jīng)常重復(fù)的歌曲中的歌詞。通過檢測和群集所述短語,能夠識別出合唱分段的臨時位置。為了選擇包含合唱的潛在部分,對出現(xiàn)在歌曲中的短語的計數(shù)標(biāo)記(tally)(計數(shù)值)進行編譯。這些短語是取自副本的并且代表電視屏幕上的整行文本或者已用諸如逗號或句點之類的分隔符分開的行的部分。對于每個新的短語,判斷所述短語是否存在于計數(shù)標(biāo)記中并且對于該短語將計數(shù)器增加。否則,為新的短語創(chuàng)建新的收集器并且對于那個收集器將計數(shù)器初始化為一。對每首歌曲的全部文本都重復(fù)這個過程。在歌曲的末尾,把重復(fù)的短語指定為關(guān)鍵短語。
候選合唱檢測(步驟1320)合唱分段的潛在候選是那些包含兩次或多次出現(xiàn)關(guān)鍵短語的分段。為了查找這些分段,識別在其上出現(xiàn)每個關(guān)鍵短語的時間戳。對于關(guān)鍵短語的每個時間戳,標(biāo)明潛在的合唱。如果這種潛在的合唱是在另一個合唱的n秒范圍之內(nèi),則就合并它們。根據(jù)許多歌曲的檢驗,假定合唱很少超過30秒長(n=30)。
合唱候選確認(步驟1330)只有那些包含兩個或多個關(guān)鍵短語的候選才被選為合唱。如果選擇了超過三個合唱,則按如下定義的具有最大密度的關(guān)鍵短語的三個合唱被確定密度=合唱中關(guān)鍵短語的數(shù)量/合唱的持續(xù)時間無規(guī)律的合唱檢測和后分析(步驟1340)對于所述概括,只需要正確地確定一次合唱。將向用戶顯現(xiàn)的“關(guān)鍵合唱”識別出??紤]到不同合唱的持續(xù)時間(15-30秒并不罕見),在歌曲之內(nèi)存在很大的不定性。這種不定性給預(yù)測合唱的位置和長度帶來挑戰(zhàn)。選擇三個合唱中具有中間長度的合唱。第一個合唱可能優(yōu)選是其余的合唱以便也使“引導(dǎo)(lead)”隨著第一個合唱一起進入歌曲中。同樣,合唱在歌曲內(nèi)的放置是可變的。最終的合唱分析被用來選擇與其它合唱具有合理距離的合唱。
自相關(guān)分析(步驟1350)在音頻內(nèi)容分析中,研究人員已經(jīng)使用了自相關(guān)以便找出合唱。例如參見J.Foote所著的“Visualizing Music and Audio Using SelfSimilarity(利用自相似性的可視化音樂和音頻)”(Proc.ACMMultimedia′99,77-80,佛羅里達州奧蘭多(1999年11月)),將該篇文獻引入于此作為參考。本發(fā)明在副本上使用自相關(guān)分析來可視化歌曲的結(jié)構(gòu)。為了查找自相關(guān)函數(shù),在二維空間中編排副本中的所有單詞并依據(jù)兩個維度上的單詞是否相同來用1和0填充矩陣。然后,對角地投影這個矩陣以便確定在這個角度上的峰值,所述峰值現(xiàn)在指示合唱出現(xiàn)在歌曲中的什么地方。
音樂視頻概要音樂視頻概要包含來源于不同媒介(音頻、視頻和副本)中的視頻的內(nèi)容元素。在示例性的實施方式中,采用貝葉斯置信網(wǎng)絡(luò)來捕獲音樂視頻的普通內(nèi)容元素以及音樂事件的轉(zhuǎn)變并且捕獲組合的結(jié)構(gòu)。BBN能用來將歌曲建模成例如那些具有樂器加詩句(V)和合唱(C)事件的歌曲。給定歌曲中的音樂事件的順序例如可能是VVCVCC。然而,許多歌曲可能具有更復(fù)雜的結(jié)構(gòu)、諸如合唱和詩句之間的橋接部分,而且在許多歌曲中甚至沒有重復(fù)的合唱,而是整首歌曲是一個單獨的整體詩句。利用BBN解決手段,即使丟失其中一個音樂事件,也仍然能夠獲得一個合理的概要。
圖14示出了能用來對用于從構(gòu)成概要的視頻中查找元素的功能進行建模的貝葉斯置信網(wǎng)絡(luò)1400。用于確定重要分段的條件概率可以按如下來計算。
上述等式給出了用于計算條件概率的一般情況。對于圖14中給出的模型,所述概率可以按如下來計算 其中 因為在示例性的實施例中有四個媒介元素,所以m的值為四(4)。取決于能夠采取的概率的值的數(shù)量,n的值針對每個媒介元素而變化。例如,P(標(biāo)題)的值可以是取決于用文本覆蓋的圖像的百分率、以0.1為步長的0和1之間的值。因此,在這里n是10??梢韵胂?,在雙親節(jié)點中還能夠包括諸如運動、音頻-紋理和領(lǐng)導(dǎo)樂器/歌手高亮顯示(highlight)之類的附加特征。
選擇標(biāo)準(zhǔn)為每個媒介元素決定了將出現(xiàn)在概要中的內(nèi)容。所述概要是來自于按如下定義的選擇函數(shù)的輸出。
音樂視頻的概要是包含所有上述選擇函數(shù)的輸出的集合 除了來源于視頻的這些元素之外,還能夠添加高級信息、諸如藝術(shù)家、標(biāo)題和唱片之類的。這種高級信息例如能夠從因特網(wǎng)中被提取出來以完成概要。
當(dāng)然,貝葉斯置信網(wǎng)絡(luò)僅僅是一種用來對概要的重要元素的選擇進行建模的方法。人們可以考慮應(yīng)用如H.Sundaram等人所著的“AUtility Framework for the Automatic Generation of Audio-Visual Skims(用于自動生成視聽瀏覽的實用性構(gòu)架)”(ACMMultimedia 2002,Juan Les Pin(2002年12月1-5日))中所述的Sundaram的利用最大化構(gòu)架,或者如Yu-Fei Ma等人所著的“A UserAttention Model for Video Summarization(視頻概括的用戶注意力模型)”(ACM Multimedia 2002,Juan Les Pin(2002年12月1-5日))中所述的Ma的針對概括的用戶注意力模型。這些模型都是用于概括的再生模型。他們對算法的設(shè)計者決定的什么是重要的進行建模。無人監(jiān)督的機器學(xué)習(xí)技術(shù)能夠被應(yīng)用于音樂視頻可視化和概括以便查找固有的結(jié)構(gòu)模式和高亮顯示部分。
可以為所顯示的用戶界面和信息類型而個性化概要。用戶能夠選擇他們想要接收進來的概要的接口類型以及所展現(xiàn)的概要的特定內(nèi)容。諸如更少的信息或更多的信息以及信息的放置之類的差別可以根據(jù)用戶設(shè)置加以變更。用戶還可以選擇什么應(yīng)該被包含在概要中。用戶能夠填寫簡略調(diào)查以表示他們想要看的信息類型。
正如在本領(lǐng)域中已知的那樣,這里所論述的方法和設(shè)備可以以產(chǎn)品來發(fā)布,所述產(chǎn)品本身包括其中包含有計算機可讀代碼裝置的計算機可讀介質(zhì)。計算機可讀程序代碼裝置是可結(jié)合計算機系統(tǒng)來操作的,從而實現(xiàn)所有或一些步驟以執(zhí)行這里所述的方法或創(chuàng)建這里所述的設(shè)備。計算機可讀介質(zhì)可以是可記錄介質(zhì)(例如,軟盤、硬盤、光盤或存儲卡)或者可以是傳輸介質(zhì)(例如,包括光導(dǎo)纖維的網(wǎng)絡(luò)、萬維網(wǎng)、電纜或使用時分多路訪問、碼分多路訪問的無線信道或其它射頻信道)。任何能夠存儲信息的適用于與計算機系統(tǒng)一起使用的已知或已開發(fā)的介質(zhì)都可以使用。計算機可讀代碼裝置是允許計算機讀取指令和數(shù)據(jù)的任何機構(gòu)、諸如磁性介質(zhì)上的磁性變化或光盤表面上的高度變化。
在此描述的計算機系統(tǒng)和服務(wù)器中的每一個都包含將配置相關(guān)的處理器來實施這里公開的方法、步驟和功能的存儲器。存儲器往往是分布式的或局部的,并且處理器往往是分布式或單獨的。存儲器往往被實施為電學(xué)的、磁性的或光學(xué)的存儲器,或是這些或其它類型的存儲裝置的任意組合。此外,術(shù)語“存儲器”應(yīng)被足夠廣泛地解釋成包含任何能夠從相關(guān)處理器所訪問的可編址空間中的地址中讀取的信息或?qū)懭氲缴鲜龅刂分械男畔ⅰ@眠@個定義,網(wǎng)絡(luò)上的信息仍然在存儲器內(nèi),因為相關(guān)的處理器能夠從所述網(wǎng)絡(luò)中檢索出所述信息。
將要理解的是,在這里所示的和所描述的實施例和變形僅僅是為了說明本發(fā)明的原理,而本領(lǐng)域的技術(shù)人員在不脫離本發(fā)明的范圍和精神的情況下可以實施各種修改。
權(quán)利要求
1.一種用于在多媒體流(505)中分段音樂視頻(507)的方法,所述方法包括接收包含至少一個音樂視頻(507)的多媒體流(505);通過估計與所述多媒體流(505)相關(guān)的多個內(nèi)容特征(1210,1220,1230),從所述多媒體流(505)中分段出所述至少一個音樂視頻(507);以及識別所述至少一個音樂視頻(507)。
2.如權(quán)利要求1所述的方法,進一步包括產(chǎn)生所述至少一個音樂視頻(507)的概要(410)的步驟。
3.如權(quán)利要求1所述的方法,其中根據(jù)個性化偏好來向用戶展現(xiàn)所述至少一個音樂視頻(507)的所述概要(410)。
4.如權(quán)利要求1所述的方法,其中用戶可以根據(jù)個性化偏好來檢索所述至少一個音樂視頻(507)。
5.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)是利用模式識別引擎(1000)來處理的,以便識別所述至少一個音樂視頻(507)。
6.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)是利用貝葉斯置信網(wǎng)絡(luò)(1000)來處理的,以便識別所述至少一個音樂視頻(507)。
7.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)是利用一個或多個視頻分段規(guī)則(1115)來處理的,以便識別所述至少一個音樂視頻(507)。
8.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)包括面部存在特征以便估計所述多媒體流(505)中的面部的表示中的模式。
9.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)包括判斷電視正文何時出現(xiàn)在所述多媒體流(505)中的電視正文存在特征。
10.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)包括彩色直方圖特征以便估計所述多媒體流(505)的彩色內(nèi)容中的模式。
11.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)包括照相機剪輯特征以便估計所述多媒體流(505)中的照相機剪輯和運動中的模式。
12.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)包括對從所述至少一個音樂視頻(507)的副本中獲得的關(guān)鍵詞的分析。
13.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)包括對直接地從所述多媒體流中導(dǎo)出的低級特征的分析。
14.如權(quán)利要求13所述的方法,其中所述低級特征包括許多邊緣或形狀或局部或全局運動中的一個或多個。
15.如權(quán)利要求1所述的方法,其中所述多個內(nèi)容特征(1210,1220,1230)包括音頻特征。
16.如權(quán)利要求15所述的方法,其中所述音頻特征估計所述多媒體流(505)的音量。
17.如權(quán)利要求15所述的方法,其中所述音頻特征估計嘜耳頻率倒譜系數(shù)(MFCC)、線性預(yù)測系數(shù)(LPC)或間距帶寬中的變化、音量或音調(diào)中的一個或多個。
18.如權(quán)利要求1所述的方法,進一步包括從外部源中獲取所述至少一個音樂視頻的識別信息的步驟。
19.一種用于檢測至少一個音樂視頻(507)中的合唱的方法,包括下列步驟接收包含所述至少一個音樂視頻(507)的多媒體流(505);訪問與所述至少一個音樂視頻(507)相關(guān)聯(lián)的副本;和根據(jù)所述副本中的單詞的重復(fù)來檢測所述合唱。
20.如權(quán)利要求19所述的方法,其中所述副本是從隱藏式字幕信息中獲得的。
21.如權(quán)利要求19所述的方法,其中所述合唱用于自動生成所述至少一個音樂視頻(507)的概要(410)。
22.如權(quán)利要求19所述的方法,進一步包括檢測和群集所述重復(fù)的單詞的步驟。
23.如權(quán)利要求19所述的方法,其中所述檢測步驟進一步是基于與所述多媒體流相關(guān)的附加內(nèi)容特征進行的。
24.如權(quán)利要求19所述的方法,進一步包括從外部源中獲取所述至少一個音樂視頻的識別信息的步驟。
25.一種用于在多媒體流(505)中分段音樂視頻(507)的設(shè)備,所述設(shè)備包括存儲器(280);和至少一個控制器(270),其被耦合到該存儲器(280),可操作用于接收包含至少一個音樂視頻(507)的多媒體流(505);將與所述多媒體流(505)相關(guān)的多個內(nèi)容特征(1210,1220,1230)應(yīng)用于模式識別引擎(1000)以便從所述多媒體流(505)中分段所述至少一個音樂視頻(507);以及識別所述至少一個音樂視頻(507)。
26.如權(quán)利要求25所述的設(shè)備,其中所述模式識別引擎(1000)是貝葉斯置信網(wǎng)絡(luò)。
27.如權(quán)利要求25所述的設(shè)備,其中所述模式識別引擎(1000)是神經(jīng)網(wǎng)絡(luò)。
28.如權(quán)利要求25所述的設(shè)備,其中所述模式識別引擎(1000)采用自回歸移動平均技術(shù)。
29.如權(quán)利要求25所述的設(shè)備,其中所述多個內(nèi)容特征(1210,1220,1230)包括下列特征中的至少兩個面部存在特征;電視正文存在特征;彩色直方圖特征;照相機剪輯特征;以及對從所述至少一個音樂視頻(507)的副本中獲得的關(guān)鍵詞的分析。
30.一種用于在多媒體流(505)中分段音樂視頻(507)的設(shè)備,所述設(shè)備包括存儲器(280);和至少一個控制器(270),其被耦合到該存儲器(280),可操作用于接收包含至少一個音樂視頻(507)的多媒體流(505);將與所述多媒體流(505)相關(guān)的多個內(nèi)容特征(1210,1220,1230)應(yīng)用于一個或多個視頻分段規(guī)則(1115)以便從所述多媒體流(505)中分段所述至少一個音樂視頻(507);以及識別所述至少一個音樂視頻(507)。
31.如權(quán)利要求30所述的設(shè)備,其中所述多個內(nèi)容特征(1210,1220,1230)包括下列特征中的至少兩個面部存在特征;電視正文存在特征;彩色直方圖特征;照相機剪輯特征;以及對從所述至少一個音樂視頻(507)的副本中獲得的關(guān)鍵詞的分析。
32.如權(quán)利要求30所述的設(shè)備,其中所述一個或多個視頻分段規(guī)則(1115)定義所述多個內(nèi)容特征(1210,1220,1230)的閾值以判斷何時已經(jīng)發(fā)生視頻分段。
全文摘要
提供了一種用于利用內(nèi)容分析在多媒體流(505)中分段和概括音樂視頻(507)的方法和設(shè)備。音樂視頻(507)是通過估計與多媒體流相關(guān)的多個內(nèi)容特征而在多媒體流(505)中被分段的。多個內(nèi)容特征包括下列中的至少兩個特征面部存在特征;電視正文存在特征;彩色直方圖特征;音頻特征;照相機剪輯特征;以及對從至少一個音樂視頻的副本中獲得的關(guān)鍵詞的分析。利用模式識別引擎(1000)來處理所述多個內(nèi)容特征,所述模式識別引擎諸如是貝葉斯置信網(wǎng)絡(luò)、或者利用一個或多個視頻分段規(guī)則(1115),以在多媒體流(505)中識別音樂視頻(507)。利用該音樂視頻(507)的副本(T),根據(jù)副本中的單詞的重復(fù),在至少一個音樂視頻(507)中檢測合唱。可以將所提取出的合唱用于音樂視頻(507)的概要的自動生成。
文檔編號H04H60/58GK1774717SQ200480009909
公開日2006年5月17日 申請日期2004年4月2日 優(yōu)先權(quán)日2003年4月14日
發(fā)明者L·阿格尼霍特里, N·迪米特羅瓦, J·肯德 申請人:皇家飛利浦電子股份有限公司