專利名稱:用于編輯圖像/視頻數(shù)據(jù)的圖像/視頻數(shù)據(jù)編輯設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明的實(shí)施例涉及靜止圖像和視頻數(shù)據(jù)編輯領(lǐng)域,具體地,涉及通過將圖像或 視頻數(shù)據(jù)與適當(dāng)?shù)囊纛l數(shù)據(jù)組合來生成圖像或視頻聲軌。
背景技術(shù):
靜止圖像和視頻相機(jī)經(jīng)常被通常缺少技能和時(shí)間來向個(gè)人靜止圖像畫廊或自制 視頻添加合適的聲軌的業(yè)余愛好者使用。本發(fā)明的一個(gè)目的是提供一種使得用戶可以以較少的精力和時(shí)間支出來創(chuàng)建可 變而有意思的圖像或視頻聲軌的視頻編輯設(shè)備和方法。該目的通過權(quán)利要求中所要求保護(hù) 的主題來實(shí)現(xiàn)。在從屬權(quán)利要求中限定了更高級(jí)的實(shí)施例。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供一種操作視頻編輯設(shè)備100的方法,該方法包括獲 取第一視頻數(shù)據(jù)集,所述第一視頻數(shù)據(jù)集描述第一視頻中的第一場(chǎng)景;在所述視頻編輯設(shè) 備100處,在描述多個(gè)第二視頻中所包含的第二場(chǎng)景的第二視頻數(shù)據(jù)集中,識(shí)別第三視頻 數(shù)據(jù)集,所述第三視頻數(shù)據(jù)集描述與所述第一場(chǎng)景具有最高相似度的第三場(chǎng)景;評(píng)估第一 音頻數(shù)據(jù)集,所述第一音頻數(shù)據(jù)集描述與所述第三場(chǎng)景相關(guān)聯(lián)的第一聲軌;以及組合所述 第一視頻數(shù)據(jù)集和基于所述第一音頻數(shù)據(jù)集中的至少一個(gè)第一音頻數(shù)據(jù)集的新音頻數(shù)據(jù) 集,以生成包括所述第一視頻數(shù)據(jù)集和所述新音頻數(shù)據(jù)集的媒體輸出數(shù)據(jù)集。根據(jù)本發(fā)明的另一個(gè)方面,提供一種視頻編輯設(shè)備,包括存儲(chǔ)單元120 ;和處理 器單元101,所述處理器單元101與所述存儲(chǔ)單元120連接并被配置為從所述存儲(chǔ)單元 120獲取第一視頻數(shù)據(jù)集和第二視頻數(shù)據(jù)集,所述第一視頻數(shù)據(jù)集描述第一視頻中的第一 場(chǎng)景,所述第二視頻數(shù)據(jù)集描述多個(gè)第二視頻中所包含的第二場(chǎng)景;在所述第二視頻數(shù)據(jù) 集中識(shí)別第三視頻數(shù)據(jù)集,所述第三視頻數(shù)據(jù)集描述與所述第一場(chǎng)景具有最高相似度的第 三場(chǎng)景;評(píng)估第一音頻數(shù)據(jù)集,所述第一音頻數(shù)據(jù)集描述被指派給所述第三場(chǎng)景的第一聲 軌;組合所述第一視頻數(shù)據(jù)集和基于所述第一音頻數(shù)據(jù)集中的至少一個(gè)第一音頻數(shù)據(jù)集的 新音頻數(shù)據(jù)集,以生成包含所述第一視頻數(shù)據(jù)集和所述新音頻數(shù)據(jù)集的媒體輸出數(shù)據(jù)。根據(jù)本發(fā)明的另一個(gè)方面,提供一種一種視頻編輯系統(tǒng)200,包括如上所述的視 頻編輯設(shè)備100,以及至少一個(gè)另外的網(wǎng)絡(luò)裝置,所述另外的網(wǎng)絡(luò)裝置被配置為提供視頻數(shù) 據(jù)庫210,視頻數(shù)據(jù)庫210以可由所述視頻編輯設(shè)備100訪問的方式提供包括所述第二視頻 數(shù)據(jù)集中的至少一些第二視頻數(shù)據(jù)集,其中,所述視頻編輯設(shè)備100和所述另外的網(wǎng)絡(luò)裝 置經(jīng)由通信網(wǎng)絡(luò)299相連接。
從以下結(jié)合附圖的實(shí)施例描述中,本發(fā)明的細(xì)節(jié)將變得更加明顯。各個(gè)實(shí)施例的特征可以相互組合,除非它們相互排斥。圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的視頻編輯設(shè)備的示意圖。圖2是根據(jù)另一實(shí)施例的涉及根據(jù)圖1的視頻編輯設(shè)備和遠(yuǎn)程視頻和音樂數(shù)據(jù)庫 的視頻編輯系統(tǒng)的示意圖。圖3是圖示出根據(jù)另一實(shí)施例用于編輯靜止圖像或視頻數(shù)據(jù)的方法的簡(jiǎn)化流程 圖。圖4是涉及數(shù)據(jù)庫內(nèi)容的用于圖示出包括合適數(shù)據(jù)庫的識(shí)別的一種編輯視頻數(shù) 據(jù)的方法的示意圖。圖5是涉及數(shù)據(jù)庫內(nèi)容的用于圖示出根據(jù)一個(gè)實(shí)施例為靜止圖像/視頻數(shù)據(jù)中出 現(xiàn)的某種類型的物體提供某種類型的音樂的一種編輯視頻數(shù)據(jù)的方法的示意圖。圖6是用于圖示出根據(jù)本發(fā)明另一實(shí)施例的視頻編輯過程中的合適數(shù)據(jù)庫的使 用的示意圖。
具體實(shí)施例方式圖1圖示出自動(dòng)地組合第一視頻數(shù)據(jù)集和合適的音頻數(shù)據(jù)集以提供用于第一視 頻數(shù)據(jù)集的聲軌的視頻編輯設(shè)備100。例如,合適的音頻數(shù)據(jù)集可以表示一首完整的樂曲、 一首樂曲的片段、自然噪聲或人工聲音。合適的音頻數(shù)據(jù)集可以與第一視頻數(shù)據(jù)集中原來 包含的原始音頻數(shù)據(jù)集相組合。例如,合適的音頻數(shù)據(jù)集可以描述被添加到由原始音頻數(shù) 據(jù)集表示的語音上的背景音樂。根據(jù)其它實(shí)施例,合適的音頻數(shù)據(jù)集完全替換原始音頻數(shù) 據(jù)集。視頻編輯設(shè)備100可以是具有視頻編輯軟件的個(gè)人計(jì)算機(jī)或具有視頻編輯功能 的消費(fèi)裝置,例如,電視機(jī)、卡帶式錄像機(jī)(VCR)、數(shù)字通用盤(DVD)記錄儀、藍(lán)光解碼器、靜 止圖像相機(jī)、攝像機(jī)或存儲(chǔ)視頻或圖像數(shù)據(jù)的任意其它消費(fèi)電子裝置。視頻編輯設(shè)備100 可以包含用于與其它電子裝置通信的一個(gè)或多個(gè)接口單元130以及一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ) 介質(zhì)讀取器140,例如硬盤(HD) ,DVD驅(qū)動(dòng)器、藍(lán)光驅(qū)動(dòng)器或計(jì)算機(jī),視頻編輯設(shè)備100經(jīng)由 它們接收媒體輸入數(shù)據(jù),所述媒體輸入數(shù)據(jù)描述一個(gè)靜止圖像、包含多個(gè)靜止圖像的靜止 圖像畫廊、包含一個(gè)場(chǎng)景的視頻剪輯或包含多個(gè)場(chǎng)景的電影。媒體輸入數(shù)據(jù)可以是具有或 沒有音頻信息的圖像或視頻數(shù)據(jù)。如果適用,處理器單元110可以將表示所要編輯的視頻數(shù)據(jù)的媒體輸入數(shù)據(jù)分割 成多個(gè)第一視頻數(shù)據(jù)集,其中每個(gè)第一視頻數(shù)據(jù)集描述媒體輸入數(shù)據(jù)中的第一場(chǎng)景。例如, 第一場(chǎng)景可以是一個(gè)靜止圖像、示出在相同背景前或變化的背景前的同一物體或人物的靜 止圖像序列、包含相同背景的靜止圖像序列、專業(yè)或業(yè)余電影中的一個(gè)場(chǎng)景或者示出在相 同背景前的相同物體和人物的場(chǎng)景序列。第一視頻數(shù)據(jù)集可以臨時(shí)存儲(chǔ)在視頻編輯設(shè)備 100的存儲(chǔ)單元120的第一部分121中。多個(gè)第二視頻數(shù)據(jù)集可用于視頻編輯設(shè)備100。第二視頻數(shù)據(jù)集可以本地地或遠(yuǎn) 程地或者既本地又遠(yuǎn)程地提供。例如,視頻編輯設(shè)備100可以包括第一視頻數(shù)據(jù)庫,第一視 頻數(shù)據(jù)庫包含第二視頻數(shù)據(jù)集中的全部或一些。第一視頻數(shù)據(jù)庫可被存儲(chǔ)在可由數(shù)據(jù)存儲(chǔ) 介質(zhì)讀取器140讀取的數(shù)據(jù)存儲(chǔ)介質(zhì)上,或者存儲(chǔ)在可經(jīng)由接口單元130訪問的數(shù)據(jù)存儲(chǔ) 介質(zhì)上。根據(jù)一個(gè)實(shí)施例,接口單元130可以是這樣的通信端口,視頻編輯設(shè)備100可以經(jīng)由該通信端口來訪問可經(jīng)由萬維網(wǎng)訪問的第二視頻數(shù)據(jù)庫。第二視頻數(shù)據(jù)集可以表示完整的靜止圖像或業(yè)余視頻或?qū)I(yè)剪輯或電影的完整 場(chǎng)景。根據(jù)其它實(shí)施例,第二視頻數(shù)據(jù)集僅僅(exclusively)包括壓縮的與內(nèi)容相關(guān)的信 息,壓縮內(nèi)容相關(guān)信息描述在可經(jīng)由數(shù)據(jù)存儲(chǔ)介質(zhì)讀取器140或經(jīng)由接口單元130訪問的 介質(zhì)上可獲得的第二視頻數(shù)據(jù)集的內(nèi)容。第二視頻數(shù)據(jù)集可以臨時(shí)存儲(chǔ)在存儲(chǔ)單元120的 第二部分122中。處理器單元110可以是被配置為執(zhí)行程序存儲(chǔ)器160中所存儲(chǔ)的程序代碼的微控 制器。處理器單元Iio從存儲(chǔ)單元120獲取第一視頻數(shù)據(jù)集和第二視頻數(shù)據(jù)集,第一視頻 數(shù)據(jù)集描述由媒體輸入數(shù)據(jù)表示的第一視頻中的第一場(chǎng)景,并且第二視頻數(shù)據(jù)集描述可經(jīng) 由接口單元130或數(shù)據(jù)存儲(chǔ)介質(zhì)讀取器140訪問的多個(gè)第二視頻中所包含的第二場(chǎng)景。在第二視頻數(shù)據(jù)集中,處理器單元110識(shí)別第三視頻數(shù)據(jù)集,第三視頻數(shù)據(jù)集描 述與第一場(chǎng)景具有最高相似度的第三場(chǎng)景。相似度可以基于有關(guān)運(yùn)動(dòng)向量、色彩、邊緣直方 圖和鏡頭邊界的頻率的視頻分析并基于涉及所要編輯的視頻中存在的噪聲類型和數(shù)量、語 音和背景音樂的音頻分析來確定。每個(gè)第二視頻數(shù)據(jù)集包含被指派給各個(gè)場(chǎng)景的音頻軌道 片段。音頻軌道片段可以表示一首樂曲、語音或自然或人工的背景噪聲。被指派給第三場(chǎng) 景的音頻軌道片段的內(nèi)容由第一音頻數(shù)據(jù)集(例如是第一首樂曲)表示。根據(jù)一個(gè)實(shí)施例,以下,僅單個(gè)與第一場(chǎng)景具有最高相似度的場(chǎng)景被識(shí)別為單個(gè) 的第三場(chǎng)景,之后,僅相應(yīng)的音頻數(shù)據(jù)集被評(píng)估。根據(jù)其它實(shí)施例,以下,某個(gè)數(shù)目(例如,3 個(gè)、10個(gè)或更多)的第三場(chǎng)景被識(shí)別,之后,多個(gè)第一音頻數(shù)據(jù)集被評(píng)估。一旦已找到一個(gè) 或多個(gè)相似場(chǎng)景,這個(gè)或這些場(chǎng)景的聲軌就被分析以確定用于生成相似聲軌或從音樂數(shù)據(jù) 庫中選擇一個(gè)聲軌的標(biāo)準(zhǔn)。例如,在可被存儲(chǔ)在可經(jīng)由接口單元130或數(shù)據(jù)存儲(chǔ)介質(zhì)讀取器140訪問的一個(gè) 或多個(gè)音樂數(shù)據(jù)庫中的多個(gè)第二音頻數(shù)據(jù)集中,與一個(gè)或多個(gè)第一音頻數(shù)據(jù)集具有最高相 似度的第三音頻數(shù)據(jù)集被識(shí)別。音頻數(shù)據(jù)之間的相似度可以基于信號(hào)處理技術(shù)或人工指派 的標(biāo)簽來確定。例如,如果第一音頻數(shù)據(jù)集表示第一首樂曲,則第三音頻數(shù)據(jù)集可以表示 具有相同作曲者或翻譯者,或相同或相似樂器、音樂流派、節(jié)拍樣式(beat pattern)、拍子 (tempo)、節(jié)奏(rhythm)或時(shí)域、頻譜或逆頻特征的第三首樂曲,或者,第一和第三首樂曲 可以在對(duì)一首樂曲的個(gè)人感知進(jìn)行刻畫的特色聲學(xué)特征方面一致,其中,特色聲學(xué)特征可 以是多個(gè)物理簽名(signature)的組合?;诘谌纛l數(shù)據(jù)集,處理器單元110為第一音頻數(shù)據(jù)集確定新的聲軌。例如, 第三音頻數(shù)據(jù)集中的一個(gè)音頻數(shù)據(jù)集(要么是與第一音頻數(shù)據(jù)集具有最高相似度的一個(gè) 音頻數(shù)據(jù)集,要么是由用戶選擇的一個(gè)音頻數(shù)據(jù)集)被與第一視頻數(shù)據(jù)集相組合,以生成 包含第一視頻數(shù)據(jù)集和該音頻軌道中的第三音頻數(shù)據(jù)集的媒體輸出數(shù)據(jù)集。根據(jù)另一實(shí)施 例,處理器單元110可以自動(dòng)生成與第三音頻數(shù)據(jù)集在對(duì)聲音的個(gè)人感知進(jìn)行刻畫的特征 方面一致的新的音頻數(shù)據(jù)集。例如,如果第三音頻數(shù)據(jù)集描述一首樂曲,則處理器單元110 例如可以創(chuàng)作在拍子、樂器和節(jié)奏上與之一致的另一首樂曲。視頻編輯設(shè)備100可以在屏幕150上顯示由媒體輸出數(shù)據(jù)集描述的視頻,可以將 媒體輸出數(shù)據(jù)集存儲(chǔ)在數(shù)據(jù)存儲(chǔ)介質(zhì)寫入單元中所布置的數(shù)據(jù)存儲(chǔ)介質(zhì)上,或者可以經(jīng)由 接口單元130輸出媒體輸出數(shù)據(jù)集。如果媒體輸入數(shù)據(jù)包含多于一個(gè)第一視頻數(shù)據(jù)集,則處理器單元110可以針對(duì)表示下一場(chǎng)景、下一相似場(chǎng)景序列、下一相似靜止圖像序列或下 一靜止圖像的下一視頻數(shù)據(jù)集重復(fù)該過程。根據(jù)其它實(shí)施例,包含第一新音頻數(shù)據(jù)集的同 一首樂曲可被應(yīng)用于完整的媒體輸入數(shù)據(jù)。視頻編輯設(shè)備100可以在不向預(yù)定視頻內(nèi)容類別(例如運(yùn)動(dòng)、浪漫、動(dòng)作等等)指 派媒體輸入數(shù)據(jù)情況下,生成合適的聲軌,并且在沒有訓(xùn)練模型的情況下進(jìn)行。圖2涉及視頻編輯系統(tǒng)200,視頻編輯系統(tǒng)200包括如圖1中所示的第一視頻編輯 設(shè)備100和提供一個(gè)或多個(gè)第二視頻數(shù)據(jù)庫210-240的至少一個(gè)另外的網(wǎng)絡(luò)裝置,其中每 個(gè)第二視頻數(shù)據(jù)庫210-240都以可由第一視頻編輯設(shè)備100訪問的方式包括第二視頻數(shù)據(jù) 集的至少一部分。第一視頻編輯設(shè)備100和另外的網(wǎng)絡(luò)裝置可以經(jīng)由通信網(wǎng)絡(luò)299或者經(jīng) 由包括遠(yuǎn)程元件的諸如萬維網(wǎng)之類的網(wǎng)絡(luò)來連接,通信網(wǎng)絡(luò)299可以是有線或無線的局域 網(wǎng),例如,家庭網(wǎng)絡(luò)。另外,視頻編輯系統(tǒng)200可以包括一個(gè)或多個(gè)音樂數(shù)據(jù)庫四0,例如,商 業(yè)供應(yīng)商的服務(wù)器或其它用戶的計(jì)算機(jī)。相應(yīng)地,視頻數(shù)據(jù)庫210-240可以提供專業(yè)電影,專業(yè)圖像畫廊、私人視頻和私人 圖像畫廊。根據(jù)其它實(shí)施例,第一視頻編輯設(shè)備100和第二視頻數(shù)據(jù)庫210-240被指派給 共享相同資源(例如相同的視頻和/或音樂數(shù)據(jù)庫)的同一用戶群組。例如,在第一視頻編輯設(shè)備100上進(jìn)行處理(dispose)的用戶可以共享同一群組 的其它用戶在其上進(jìn)行處理的另外的網(wǎng)絡(luò)裝置中的視頻數(shù)據(jù)庫210-240的內(nèi)容,并且其它 用戶中的每個(gè)用戶,例如在第二視頻編輯設(shè)備101上進(jìn)行處理的用戶,可以訪問第一視頻 編輯設(shè)備100的用戶在其上進(jìn)行處理的第一視頻數(shù)據(jù)庫250。根據(jù)另一實(shí)施例,視頻編輯系統(tǒng)200包括至少一個(gè)處理器單元,例如,第一視頻編 輯設(shè)備的處理器單元,所述處理器單元評(píng)估視頻數(shù)據(jù)庫210-250以識(shí)別具有相似音樂偏好 的相似用戶。根據(jù)一個(gè)實(shí)施例,視頻編輯系統(tǒng)200中的參與者中僅一個(gè)參與者被配置為確 定相似用戶并且將結(jié)果發(fā)送給其它參與者。根據(jù)其它實(shí)施例,被指派給視頻數(shù)據(jù)庫210-250 的另外的網(wǎng)絡(luò)裝置中的每個(gè)網(wǎng)絡(luò)裝置都被配置為至少確定那些提供包括如下數(shù)據(jù)庫的參 與的網(wǎng)絡(luò)裝置210-250,所述數(shù)據(jù)庫包含滿足各個(gè)用戶的音樂偏好的聲軌。為此,各個(gè)處理器單元分別在各自的本地第一視頻數(shù)據(jù)庫中的視頻數(shù)據(jù)集中識(shí)別 第一特色視頻數(shù)據(jù)集,并在遠(yuǎn)程第二視頻數(shù)據(jù)庫中的視頻數(shù)據(jù)集中識(shí)別與該第一特色視頻 數(shù)據(jù)集具有最高相似度的第二特色視頻數(shù)據(jù)集。例如,被指派給第一用戶的處理器單元在 第一和第二用戶的視頻數(shù)據(jù)庫中識(shí)別運(yùn)動(dòng)視頻。然后,視頻編輯設(shè)備將第一特色視頻數(shù)據(jù) 集的聲軌的特色特征與第二特色視頻數(shù)據(jù)集的聲軌的特色特征相比較。在特色特征彼此明 顯不同時(shí),相應(yīng)的視頻數(shù)據(jù)庫被從類似視頻場(chǎng)景的搜索中排除。結(jié)果,當(dāng)?shù)谝挥脩粝胍?運(yùn)動(dòng)視頻或另一視頻添加聲軌時(shí),不考慮這樣的第二視頻數(shù)據(jù)庫中所包含的第二視頻數(shù)據(jù) 集,所述第二視頻數(shù)據(jù)塊包含具有與第一特色視頻數(shù)據(jù)的特色聲軌特征不相匹配的特色聲 軌特征的第二特色視頻數(shù)據(jù)集。圖3中的簡(jiǎn)化流程示出用于編輯靜止圖像和視頻數(shù)據(jù)集的方法。該方法可以 在根據(jù)圖1的視頻編輯設(shè)備或根據(jù)圖2的視頻編輯系統(tǒng)處被執(zhí)行。數(shù)據(jù)源提供例如描述一 個(gè)靜止圖像、靜止圖像序列、包括一個(gè)或多個(gè)場(chǎng)景的專業(yè)電影或業(yè)余視頻電影的媒體輸入 數(shù)據(jù)。從媒體輸入數(shù)據(jù)獲得一個(gè)或多個(gè)第一視頻數(shù)據(jù)集。例如,電影或視頻剪輯可以被分 段成場(chǎng)景的序列,其中,每個(gè)場(chǎng)景被指派給第一視頻數(shù)據(jù)集。每個(gè)第一視頻數(shù)據(jù)集描述來自通常被典型用戶應(yīng)用相同聲軌的媒體輸入數(shù)據(jù)的片段,所述相同聲軌可以是自然背景噪聲 或一首樂曲或兩者的組合。例如,在呈現(xiàn)靜止圖像序列時(shí),一個(gè)視頻數(shù)據(jù)集可以被指派給恰 好一個(gè)靜止圖像或被指派給在背景中出現(xiàn)相同人物或物體的連續(xù)靜止圖像序列或具有基 本相同的背景的連續(xù)靜止圖像序列。對(duì)于電影或視頻剪輯,每個(gè)第一視頻數(shù)據(jù)集可以表示 兩個(gè)剪切(cut)之間的視頻片段或背景中出現(xiàn)相同人物或主要物體的片段。在已經(jīng)獲得描述第一視頻中的第一場(chǎng)景的第一視頻數(shù)據(jù)集之后,在描述可能被包 含在多個(gè)第二視頻中的第二場(chǎng)景的多個(gè)第二視頻數(shù)據(jù)集中,第三視頻數(shù)據(jù)集被識(shí)別,其中, 第三視頻數(shù)據(jù)集描述與第一場(chǎng)景具有最高相似度的第三場(chǎng)景??梢越柚硎久總€(gè)第二場(chǎng)景 與第一場(chǎng)景之間的相似度的相似度值來為每個(gè)第二場(chǎng)景確定相似度。相似度值可以僅僅 基于視頻分析、僅僅基于音頻分析或基于兩者的組合來確定。視頻分析可以包括對(duì)運(yùn)動(dòng)、 色彩、邊緣直方圖、鏡頭邊界的頻率和內(nèi)容的分析。音頻分析可以基于背景噪聲的數(shù)量和類 型、語音、說話人和媒體輸入數(shù)據(jù)中所包含的音樂。然后,描述與第三場(chǎng)景相關(guān)聯(lián)的第一聲軌的第一音頻數(shù)據(jù)集被評(píng)估。換而言之,一 旦發(fā)現(xiàn)相似場(chǎng)景,該場(chǎng)景的聲軌就被分析。例如,描述與第一聲軌具有最高相似度的那個(gè)第 三聲軌的那個(gè)第三音頻數(shù)據(jù)集的特色音頻特征被確定。根據(jù)其它實(shí)施例,與第一聲軌具有 最高相似度的多個(gè)聲軌的特色音頻特征基于信號(hào)處理或人工指派的標(biāo)簽被確定?;诘谌纛l數(shù)據(jù)集,用于第一視頻數(shù)據(jù)集的合適的新音頻數(shù)據(jù)集被確定。例如, 第三視頻數(shù)據(jù)集中的一個(gè)第三音頻數(shù)據(jù)集被自動(dòng)地或者通過用戶提示被選作新的音頻數(shù) 據(jù)集。所選擇的第三音頻數(shù)據(jù)集被與第一視頻數(shù)據(jù)集相組合以生成包括第一視頻數(shù)據(jù)和第 三音頻數(shù)據(jù)集的媒體輸出數(shù)據(jù)集。根據(jù)另一實(shí)施例,處理器單元110可以自動(dòng)生成新的音 頻數(shù)據(jù)集以使得其在對(duì)聲音的個(gè)人感知進(jìn)行刻畫的特征方面與第三音頻數(shù)據(jù)集一致。例 如,如果第三音頻數(shù)據(jù)集描述一首樂曲,則例如,在拍子、樂器和節(jié)奏上與之一致的另一首 樂曲可被創(chuàng)作。新的音頻數(shù)據(jù)集可以表示自然背景噪聲或一首樂曲。新的音頻數(shù)據(jù)集可以完全替 換第一視頻數(shù)據(jù)集的原始聲軌,或者其可以與之組合。例如,該方法提供原始聲軌的分析。 如果該方法在原始聲軌中檢測(cè)到語音,則新的音頻數(shù)據(jù)可以作為安靜的背景音樂被添加以 使得語音仍可以聽得見。如果該方法在原始聲軌中檢測(cè)到音樂,則該方法可以規(guī)定根本不 添加新的音頻數(shù)據(jù)。如果該方法僅檢測(cè)到噪聲,則當(dāng)新的音頻數(shù)據(jù)被添加時(shí),噪聲可以被 保留、以衰減方式保留或者被刪除。如果該方法檢測(cè)到語音和類似于風(fēng)或發(fā)動(dòng)機(jī)的背景噪 聲,則當(dāng)新的音頻數(shù)據(jù)被添加時(shí),背景噪聲可以例如使用估計(jì)的噪聲譜通過差譜(spectra subtraction)來減小。第二視頻數(shù)據(jù)集可以被包含在具有之前編輯的視頻的個(gè)人專輯中或者被包含在 由與視頻編輯設(shè)備通信的其它用戶提供的數(shù)據(jù)庫或者提供專業(yè)電影、特別是用戶喜歡的電 影的數(shù)據(jù)庫中。該方法可以以沒有任何其它用戶交互的完全自動(dòng)的方式執(zhí)行,或者以需要 最少量用戶交互的半自動(dòng)方式執(zhí)行。在每種情況中,都可以避免將視頻或圖像指派到預(yù)先 定義的類別的復(fù)雜并且通常容易出錯(cuò)的語義分析。根據(jù)另一實(shí)施例,該方法使用協(xié)同過濾技術(shù),其中,分別地,在第一視頻數(shù)據(jù)庫 (例如用戶數(shù)據(jù)庫)中的視頻數(shù)據(jù)集中,第一特色視頻數(shù)據(jù)集被識(shí)別,并且在第二視頻數(shù)據(jù) 庫中的視頻中,與第一特色視頻數(shù)據(jù)集具有最高相似度的第二特色視頻數(shù)據(jù)集被識(shí)別。第一特色視頻數(shù)據(jù)集例如可以是描述某種運(yùn)動(dòng)的視頻數(shù)據(jù)集。然后,被指派給第一特色視頻 集的聲軌的特色特征被與被指派給第二特色視頻數(shù)據(jù)集的聲軌的特色特征相比較。如果其 特色聲軌特征與第一特色視頻數(shù)據(jù)集的特色聲軌特征沒有很好地匹配的第二視頻數(shù)據(jù)集 被識(shí)別,則包含這樣的第二視頻數(shù)據(jù)集的第二視頻數(shù)據(jù)庫被排除在識(shí)別與第一視頻數(shù)據(jù)集 中的第一場(chǎng)景類似的第三場(chǎng)景的搜索算法之外。以這種方式,該系統(tǒng)識(shí)別相似的用戶并且 可以將聲軌的搜索限制在已被識(shí)別為共享相同偏好或具有相似偏好的用戶的那些用戶上。除了承襲(take over)確定聲學(xué)感知的元素外,該方法還將例如場(chǎng)景轉(zhuǎn)變、或放 慢、快進(jìn)、偽彩色或軟聚焦效果之類的視覺效果從第三場(chǎng)景承襲到第一場(chǎng)景中。根據(jù)圖4中所示的實(shí)施例,第一用戶401使用識(shí)別編輯設(shè)備并且在第一數(shù)據(jù)庫410 上進(jìn)行處理。第一數(shù)據(jù)庫410包含這樣的特色視頻數(shù)據(jù)集,該特色視頻數(shù)據(jù)集包含被添加 了說唱音樂的滑雪視頻和被添加了搖滾音樂的騎自行車視頻。第二用戶402在第二數(shù)據(jù) 庫420上進(jìn)行處理,第二數(shù)據(jù)庫420包含涉及滑雪、騎自行車和風(fēng)景的特色視頻數(shù)據(jù)集。第 二用戶402已經(jīng)向滑雪視頻添加了古典音樂,并且向騎自行車和風(fēng)景視頻兩者添加了爵士 樂。第三用戶403在第三視頻數(shù)據(jù)庫430上進(jìn)行處理,第三視頻數(shù)據(jù)庫430包含涉及滑雪、 騎自行車和風(fēng)景的視頻。第三用戶403已經(jīng)向滑雪視頻添加了搖滾音樂、向騎自行車視頻 添加了說唱音樂、并向風(fēng)景視頻添加了古典音樂。第一用戶401想要讓聲軌自動(dòng)添加到例如表示風(fēng)景靜止圖像畫廊的媒體輸入數(shù) 據(jù)上。在第二視頻數(shù)據(jù)庫420和第三視頻數(shù)據(jù)庫430兩者中,風(fēng)景視頻可以被識(shí)別為與風(fēng)景 靜止圖像類似。然而,使用協(xié)同過濾,該系統(tǒng)將認(rèn)識(shí)到第二用戶402的偏好與第一用戶401 的偏好并沒有很好地匹配,而第三用戶403的音樂偏好與第一用戶401的偏好更匹配。該 系統(tǒng)從對(duì)類似場(chǎng)景的搜索中排除第二視頻數(shù)據(jù)庫420并且將分析第三視頻數(shù)據(jù)庫430中的 風(fēng)景視頻的聲軌。然后,該系統(tǒng)將在音樂數(shù)據(jù)庫中搜索與形成在第三視頻數(shù)據(jù)庫430中所 包含的風(fēng)景視頻的聲軌的這首古典樂曲具有最高相似度的一首樂曲。圖5涉及另一實(shí)施例,根據(jù)該實(shí)施例,關(guān)于人物或物體的外觀來分析第一和第二 場(chǎng)景。相似性則基于第一場(chǎng)景中出現(xiàn)的人物和物體與第二場(chǎng)景中出現(xiàn)的人物和物體之間的 相似性來確定。以這種方式,相似的或相同的一首樂曲(“主題”)可應(yīng)用于不同視頻或靜 止圖像畫廊中的同一人物。例如,用戶想要對(duì)其中出現(xiàn)第一動(dòng)物種類的第一場(chǎng)景515自動(dòng)選擇或生成聲軌。 于是,該系統(tǒng)在視頻數(shù)據(jù)庫520中搜索出現(xiàn)類似或相同動(dòng)物種類的場(chǎng)景或圖像,視頻數(shù)據(jù) 庫520可以是用戶的視頻數(shù)據(jù)庫或遠(yuǎn)程視頻數(shù)據(jù)庫。在涉及人物而不是動(dòng)物的實(shí)施例中, 可以使用人臉和/或語音識(shí)別來確定相似性。根據(jù)圖5中所示的實(shí)施例,所存儲(chǔ)的視頻數(shù)據(jù)集521、522被識(shí)別為涉及相同動(dòng)物 種類。第一存儲(chǔ)的視頻數(shù)據(jù)集521中所包含的聲軌包含第一首樂曲P0M1,并且第二存儲(chǔ)的 視頻數(shù)據(jù)集522中所包含的聲軌包含第二首樂曲P0M2。該系統(tǒng)在音樂數(shù)據(jù)庫590中搜索可 獲得的并且與兩首樂曲(例如,第一首樂曲、第二首樂曲或與第一和第二首樂曲二者類似 的另一首樂曲)具有最高相似度的那些首樂曲。圖6給出根據(jù)另一實(shí)施例的視頻編輯系統(tǒng)600的概念的概覽。用戶可以記錄新的 個(gè)人視頻(610)。如果適用,但不是必需的,視頻編輯系統(tǒng)600將新的個(gè)人視頻分成被指派 給各個(gè)場(chǎng)景的視頻數(shù)據(jù)集。然后,該系統(tǒng)600從多個(gè)本地或遠(yuǎn)程視頻數(shù)據(jù)庫621至6M中所包含的其它視頻中的相似場(chǎng)景中獲得有關(guān)聲軌的信息(620)。該系統(tǒng)可以搜索并獲取與所 找到的相似場(chǎng)景中的聲軌類似的音樂(630)。音樂可以從多個(gè)本地和/或遠(yuǎn)程數(shù)據(jù)庫690 之一中獲得。然后,該系統(tǒng)600基于從音樂數(shù)據(jù)庫690獲得的音樂來生成用于新記錄的個(gè) 人視頻的聲軌。所獲得的音樂可以是可在音樂數(shù)據(jù)庫690獲得的相似的一首樂曲或新創(chuàng)作 的一首樂曲。向靜止圖像畫廊或視頻添加音樂可以被完全自動(dòng)化。根據(jù)其它實(shí)施例,可以 向用戶呈現(xiàn)與其偏好完全一致的少數(shù)幾首選擇的樂曲并且用戶可以以舒適的方式來選擇 其中一首。 根據(jù)一個(gè)實(shí)施例,在第二視頻數(shù)據(jù)庫中搜索相似場(chǎng)景之前,具有相似音樂偏好的 用戶被識(shí)別。為此,被指派給已經(jīng)記錄了新的個(gè)人視頻的用戶的第一視頻數(shù)據(jù)庫615的內(nèi) 容被與可獲得的視頻數(shù)據(jù)庫621至6M的內(nèi)容相比較。包含不滿足用戶偏好的聲軌的視頻 數(shù)據(jù)集的視頻數(shù)據(jù)庫被標(biāo)記并且不在其中搜索相似場(chǎng)景。
權(quán)利要求
1.一種操作視頻編輯設(shè)備(100)的方法,該方法包括獲取第一視頻數(shù)據(jù)集,所述第一視頻數(shù)據(jù)集描述第一視頻中的第一場(chǎng)景; 在所述視頻編輯設(shè)備(100)處,在描述多個(gè)第二視頻中所包含的第二場(chǎng)景的第二視頻 數(shù)據(jù)集中,識(shí)別第三視頻數(shù)據(jù)集,所述第三視頻數(shù)據(jù)集描述與所述第一場(chǎng)景具有最高相似 度的第三場(chǎng)景;評(píng)估第一音頻數(shù)據(jù)集,所述第一音頻數(shù)據(jù)集描述與所述第三場(chǎng)景相關(guān)聯(lián)的第一聲軌;以及組合所述第一視頻數(shù)據(jù)集和基于所述第一音頻數(shù)據(jù)集中的至少一個(gè)第一音頻數(shù)據(jù)集 的新音頻數(shù)據(jù)集,以生成包括所述第一視頻數(shù)據(jù)集和所述新音頻數(shù)據(jù)集的媒體輸出數(shù)據(jù)集。
2.根據(jù)權(quán)利要求1所述的方法,還包括在多個(gè)第二音頻數(shù)據(jù)集中識(shí)別第三音頻數(shù)據(jù)集,所述第三音頻數(shù)據(jù)集表示與所述第一 聲軌具有最高相似度的第三聲軌,其中所述新音頻數(shù)據(jù)集是所述第三音頻數(shù)據(jù)集中的一個(gè)第三音頻數(shù)據(jù)集。
3.根據(jù)權(quán)利要求2所述的方法,其中,識(shí)別所述第三音頻數(shù)據(jù)集包括 確定所述第一音頻數(shù)據(jù)集和所述第二音頻數(shù)據(jù)集中的特色聲學(xué)特征;以及基于所述特色聲學(xué)特征來確定所述第一音頻數(shù)據(jù)集和所述第二音頻數(shù)據(jù)集之間的最 高相似度。
4.根據(jù)權(quán)利要求1所述的方法,其中所述新音頻數(shù)據(jù)集是在對(duì)一段聲音的個(gè)人感知進(jìn)行刻畫的聲學(xué)特征方面與所述第一 音頻數(shù)據(jù)集一致的新生成的音頻數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1所述的方法,其中,識(shí)別所述第三視頻數(shù)據(jù)集包括 為每個(gè)第二場(chǎng)景確定表示與所述第一場(chǎng)景的相似度的相似度值;以及 選擇具有最高相似度值的第二場(chǎng)景作為所述第三場(chǎng)景。
6.根據(jù)權(quán)利要求1所述的方法,其中在所述視頻編輯設(shè)備(100)的用戶在其上進(jìn)行處理的第一視頻數(shù)據(jù)庫(250)中提供所 述第二視頻數(shù)據(jù)集。
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的方法,其中在所述用戶未在其上進(jìn)行處理的至少一個(gè)第二視頻數(shù)據(jù)庫O10-240)中提供所述第 二視頻數(shù)據(jù)集,其中在經(jīng)由通信網(wǎng)絡(luò)(四9)連接到所述視頻編輯裝置(100)的遠(yuǎn)程存儲(chǔ)設(shè) 備中提供每個(gè)第二視頻數(shù)據(jù)庫010-240)。
8.根據(jù)權(quán)利要求7所述的方法,其中所述第一視頻集被包含在具有第一內(nèi)容特色的第一視頻數(shù)據(jù)庫O50)中,并且其中每 個(gè)第二視頻數(shù)據(jù)庫(210140)具有第二內(nèi)容特色,并且其中該方法還包括從對(duì)所述第三場(chǎng)景的識(shí)別中排除具有與所述第一內(nèi)容特色不相匹配的第二內(nèi)容特色 的第二視頻數(shù)據(jù)庫O10-240)中所包含的第二視頻。
9.根據(jù)權(quán)利要求8所述的方法,還包括在所述視頻編輯設(shè)備(100)處確定所述第一內(nèi)容特色和所述第二內(nèi)容特色。
10.根據(jù)權(quán)利要求8或9所述的方法,還包括在所述第一視頻數(shù)據(jù)庫O50)中的視頻數(shù)據(jù)集中,識(shí)別第一特色視頻數(shù)據(jù)集,并且,在 每個(gè)第二視頻數(shù)據(jù)庫O10-240)中的視頻中,識(shí)別與所述第一特色視頻數(shù)據(jù)集具有最高相 似度的第二特色視頻數(shù)據(jù)集;將所述第一特色視頻數(shù)據(jù)集的聲軌的特色聲學(xué)特征與所述第二特色視頻數(shù)據(jù)集的聲 軌的特色聲學(xué)特征相比較;以及從對(duì)所述第三場(chǎng)景的識(shí)別中排除這樣的第二視頻數(shù)據(jù)庫O10-240)中包含的第二視 頻數(shù)據(jù)集該第二視頻數(shù)據(jù)庫(210140)包含具有與所述第一特色視頻數(shù)據(jù)集的特色聲學(xué) 特征不相匹配的特色聲學(xué)特征的第二特色視頻數(shù)據(jù)集。
11.根據(jù)權(quán)利要求1所述的方法,其中確定所述相似度值包括分析所述第一場(chǎng)景和所述第二場(chǎng)景來識(shí)別其中出現(xiàn)的人物或物體并且基于所述第一 場(chǎng)景和所述第二場(chǎng)景中人物和物體的外觀來確定所述相似度值。
12.一種視頻編輯設(shè)備(100),包括 存儲(chǔ)單元(120);和處理器單元(101),所述處理器單元(101)與所述存儲(chǔ)單元(120)連接并被配置為 從所述存儲(chǔ)單元(120)獲取第一視頻數(shù)據(jù)集和第二視頻數(shù)據(jù)集,所述第一視頻數(shù)據(jù) 集描述第一視頻中的第一場(chǎng)景,所述第二視頻數(shù)據(jù)集描述多個(gè)第二視頻中所包含的第二場(chǎng)景;在所述第二視頻數(shù)據(jù)集中識(shí)別第三視頻數(shù)據(jù)集,所述第三視頻數(shù)據(jù)集描述與所述第一 場(chǎng)景具有最高相似度的第三場(chǎng)景;評(píng)估第一音頻數(shù)據(jù)集,所述第一音頻數(shù)據(jù)集描述被指派給所述第三場(chǎng)景的第一聲軌; 組合所述第一視頻數(shù)據(jù)集和基于所述第一音頻數(shù)據(jù)集中的至少一個(gè)第一音頻數(shù)據(jù)集 的新音頻數(shù)據(jù)集,以生成包含所述第一視頻數(shù)據(jù)集和所述新音頻數(shù)據(jù)集的媒體輸出數(shù)據(jù)。
13.根據(jù)權(quán)利要求11所述的視頻編輯設(shè)備,其中所述處理器單元(101)還被配置為 在多個(gè)第二音頻數(shù)據(jù)集中,識(shí)別第三音頻數(shù)據(jù)集,所述第三音頻數(shù)據(jù)集描述與所述第一聲軌具有最高相似度的第三聲軌;以及選擇所述第三音頻數(shù)據(jù)集中的一個(gè)第三音頻數(shù)據(jù)集作為所述新音頻數(shù)據(jù)集。
14.一種視頻編輯系統(tǒng)000),包括權(quán)利要求12所述的視頻編輯設(shè)備(100),以及至少一個(gè)另外的網(wǎng)絡(luò)裝置,所述另外的網(wǎng)絡(luò)裝置被配置為提供視頻數(shù)據(jù)庫010),所述 視頻數(shù)據(jù)庫O10)以可由所述視頻編輯設(shè)備(100)訪問的方式包括所述第二視頻數(shù)據(jù)集中 的至少一些第二視頻數(shù)據(jù)集,其中,所述視頻編輯設(shè)備(100)和所述另外的網(wǎng)絡(luò)裝置經(jīng)由 通信網(wǎng)絡(luò)(四9)相連接。
15.根據(jù)權(quán)利要求14所述的視頻編輯系統(tǒng),還包括 處理器單元(110),所述處理器單元(110)被配置為在所述第一視頻數(shù)據(jù)庫O50)中的視頻數(shù)據(jù)集中,識(shí)別第一特色視頻數(shù)據(jù)集,并且,在 每個(gè)第二視頻數(shù)據(jù)庫O10-240)中,識(shí)別與所述第一特色視頻數(shù)據(jù)集具有最高相似度的第 二特色視頻數(shù)據(jù)集;將所述第一特色視頻數(shù)據(jù)集的聲軌的特色聲學(xué)特征與所述第二特色視頻數(shù)據(jù)集的聲 軌的特色聲學(xué)特征相比較;以及從對(duì)所述第三場(chǎng)景的識(shí)別中排除這樣的第二視頻數(shù)據(jù)庫O10-240)中包含的第二視 頻數(shù)據(jù)集該第二視頻數(shù)據(jù)庫(210140)包含具有與所述第一特色視頻數(shù)據(jù)集的特色聲學(xué) 特征不相匹配的特色聲學(xué)特征的第二特色視頻數(shù)據(jù)集。
全文摘要
本發(fā)明公開了用于編輯圖像/視頻數(shù)據(jù)的圖像/視頻數(shù)據(jù)編輯設(shè)備和方法。在視頻編輯設(shè)備(100)中,第一視頻數(shù)據(jù)集描述第一視頻中的第一場(chǎng)景。在描述多個(gè)第二視頻中所包含的第二場(chǎng)景的第二視頻數(shù)據(jù)集中,表示與第一場(chǎng)景具有最高相似度的第三場(chǎng)景的第三視頻數(shù)據(jù)集被識(shí)別。評(píng)估與第三場(chǎng)景相關(guān)聯(lián)的音頻數(shù)據(jù)集。在多個(gè)第二音頻數(shù)據(jù)集中,描述與第一聲軌具有最高相似度的聲軌的音頻數(shù)據(jù)集被識(shí)別。第三音頻數(shù)據(jù)集中的一個(gè)第三音頻數(shù)據(jù)集可與第一視頻數(shù)據(jù)集相組合以生成媒體輸出數(shù)據(jù)集,其中,音頻軌道根據(jù)用戶的偏好被添加到視頻數(shù)據(jù)集。
文檔編號(hào)G11B27/02GK102103877SQ20101061012
公開日2011年6月22日 申請(qǐng)日期2010年12月22日 優(yōu)先權(quán)日2009年12月22日
發(fā)明者亞那·埃格尹克 申請(qǐng)人:索尼公司