專利名稱:用于本征與非本征視聽數(shù)據(jù)的綜合分析的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及本征(intrinsic)和非本征(extrinsic)視聽信息的綜合分析,并且特別地本發(fā)明涉及例如電影中的特性(feature)與電影中未出現(xiàn)的但是例如通過因特網(wǎng)可獲得的特性的分析和相關(guān)。
背景技術(shù):
對電影感興趣的人們多年來不得不查閱書籍、印刷雜志或者印刷的大百科全書,以獲得有關(guān)具體電影的附加信息。隨著因特網(wǎng)的出現(xiàn),許多因特網(wǎng)站涉足于電影相關(guān)資料。一個示例是Internet Movie Database(因特網(wǎng)電影數(shù)據(jù)庫)(http//www.imdb.com),這是對于大量的電影提供大量的各種附加信息的非常詳盡和精致的網(wǎng)站。即使因特網(wǎng)為訪問附加電影信息提供了方便,仍然必須由用戶通過因特網(wǎng)在可獲得的海量信息中設(shè)法實現(xiàn)其目的。
隨著Digital Versatile Disk(數(shù)字通用光盤)(DVD)媒介的出現(xiàn),與電影相關(guān)的附加信息通??梢栽贒VD電影的基本菜單上以菜單格式獲得。時??色@得訪談、可選的電影場景、擴展的演職員表、各種瑣事等。進一步,DVD格式便于場景瀏覽、情節(jié)概要、不同場景的書簽等。即使附加信息在許多DVD上可獲得,但是該附加信息是由電影的制作者選擇的,進一步,該附加信息受到DVD盤上可用空間的限制,并且其是靜態(tài)信息。
可獲得的電影數(shù)量和涉及各種電影、演員、導(dǎo)演等的可獲得的附加信息量是巨大的,并且用戶遭受“信息過載”。對電影感興趣的人們經(jīng)常努力解決有關(guān)他們可以如何準(zhǔn)確地找到他們所想要的東西,以及如何發(fā)現(xiàn)他們喜歡的新事物的問題。為了解決這一問題,人們已經(jīng)開發(fā)了各種用于搜索和分析視聽數(shù)據(jù)的系統(tǒng)和方法??色@得不同類型的這樣的系統(tǒng),例如用于自動概述的系統(tǒng),這樣的系統(tǒng)描述在US申請2002/0093591中。另一類型的系統(tǒng)是用于基于例如被選圖像數(shù)據(jù)例如電影中演員的圖像而進行目標(biāo)搜索的系統(tǒng),這樣的系統(tǒng)描述在US申請2003/0107592中。
本發(fā)明人已經(jīng)認識到,能夠集成本征和非本征視聽數(shù)據(jù)(諸如,集成在DVD電影上的視聽數(shù)據(jù)和在因特網(wǎng)上發(fā)現(xiàn)的附加信息)的系統(tǒng)是具有益處的,并因此設(shè)計了本發(fā)明。
發(fā)明內(nèi)容
本發(fā)明試圖提供用于分析視聽數(shù)據(jù)的改進系統(tǒng)。更好地,本發(fā)明單獨地或組合地緩和或減輕一個或更多個上述缺陷。
因此,在第一方面,提供用于本征和非本征視聽信息的綜合分析的系統(tǒng),該系統(tǒng)包括本征內(nèi)容分析器,該本征內(nèi)容分析器通信(communicatively)連接至視聽源,該本征內(nèi)容分析器適于搜索該視聽源,以查找本征數(shù)據(jù),并適于使用抽取算法來抽取本征數(shù)據(jù),非本征內(nèi)容分析器,該非本征內(nèi)容分析器通信連接至非本征信息源,該非本征內(nèi)容分析器適于搜索該非本征信息源,并適于使用檢索算法來檢索非本征數(shù)據(jù),其中本征數(shù)據(jù)和非本征數(shù)據(jù)相關(guān),從而提供多源數(shù)據(jù)結(jié)構(gòu)。
視聽系統(tǒng)例如適于家庭使用的視聽系統(tǒng)可以含有處理裝置,其能夠?qū)σ暵犘畔⑦M行分析。能夠預(yù)想任何類型的視聽系統(tǒng),例如這樣的系統(tǒng)包含DigitalVersatile Disk(DVD)單元或能夠顯示流式視頻的單元,該視頻例如是MPEG格式的視頻,或者任何其他類型的適合于通過數(shù)據(jù)網(wǎng)絡(luò)傳輸?shù)母袷?。該視聽系統(tǒng)也可以是適合于或者通過衛(wèi)星或者通過電纜接收和顯示視聽內(nèi)容例如電視和電影的“置頂”盒類型系統(tǒng)。該系統(tǒng)包含用于向用戶呈現(xiàn)視聽內(nèi)容(即,本征內(nèi)容)的裝置,或者用于輸出能使視聽內(nèi)容呈現(xiàn)給用戶的信號的裝置。形容詞“本征的”應(yīng)當(dāng)被寬泛地解釋。本征內(nèi)容可以是能夠從電影源的信號中抽取的內(nèi)容。本征內(nèi)容可以是視頻信號、音頻信號、從信號中抽取的文本等。
該系統(tǒng)包含本征內(nèi)容分析器。該本征內(nèi)容分析器典型地是能夠分析視聽數(shù)據(jù)的處理裝置,該本征內(nèi)容分析器通信連接至視聽源,例如連接至電影源。該本征內(nèi)容分析器通過使用抽取算法搜索該視聽源,并從中抽取數(shù)據(jù)。
該系統(tǒng)也包含非本征內(nèi)容分析器。形容詞“非本征的”應(yīng)當(dāng)被寬泛地解釋。非本征內(nèi)容是不包含在本征內(nèi)容中,或者不可能從中抽取,或者只是難以從本征內(nèi)容中提取的內(nèi)容。非本征內(nèi)容可以典型地是例如電影劇本、情節(jié)串連圖板、評論、分析等的內(nèi)容。非本征信息源可以是因特網(wǎng)站、包含相關(guān)數(shù)據(jù)的數(shù)據(jù)載體等。
該系統(tǒng)也包含用于相關(guān)多源數(shù)據(jù)結(jié)構(gòu)中的本征和非本征數(shù)據(jù)的裝置。指導(dǎo)該相關(guān)的規(guī)則可以是抽取和/或檢索算法的一部分。相關(guān)算法也可以是現(xiàn)有的,該相關(guān)算法對多源數(shù)據(jù)結(jié)構(gòu)中的本征和非本征數(shù)據(jù)進行相關(guān)。多源數(shù)據(jù)結(jié)構(gòu)可以是低級數(shù)據(jù)結(jié)構(gòu),其例如通過數(shù)據(jù)指針來相關(guān)不同類型的數(shù)據(jù)。多源數(shù)據(jù)結(jié)構(gòu)可能對于系統(tǒng)的用戶是不可按入的,但對于系統(tǒng)的供應(yīng)商是可接入的。多源數(shù)據(jù)結(jié)構(gòu)通常被格式化為高級信息結(jié)構(gòu),該高級信息結(jié)構(gòu)被呈現(xiàn)給系統(tǒng)的用戶。
本征內(nèi)容可以使用合適的抽取算法從視聽源中進行抽取,非本征內(nèi)容可以從非本征信息源中進行檢索。非本征數(shù)據(jù)的檢索可以基于所抽取的數(shù)據(jù),然而非本征數(shù)據(jù)的檢索也可以基于提供給檢索算法的數(shù)據(jù),而與本征內(nèi)容無關(guān)。
抽取和/或檢索算法以與許多電子設(shè)備天生具有固定功能的同樣方式可以是系統(tǒng)的一部分。然而,模塊可以可選地提供抽取和/或檢索算法。利用模塊來提供這些算法可能是有優(yōu)勢的,因為不同的用戶例如對于電影可能有不同的偏愛和喜好,并因此可以提供較大的靈活性。該模塊可以是硬件模塊例如電子模塊,舉例來說,適于插入插槽(slot),但是,該模塊也可以是軟件模塊,例如數(shù)據(jù)載體上的數(shù)據(jù)文件,或通過網(wǎng)絡(luò)連接可以提供的數(shù)據(jù)文件。
該系統(tǒng)可以支持能夠由用戶提供查詢的功能,該查詢可以被提供至抽取和/或檢索算法,從而根據(jù)該查詢來抽取本征和/或非本征數(shù)據(jù)。提供這一功能由于視聽數(shù)據(jù)中風(fēng)格和內(nèi)容的多樣性而是有其優(yōu)勢的。因此,可以提供具有較大靈活性的系統(tǒng)。該查詢可以是語義的查詢,即,該查詢可以使用查詢語言來表示。該查詢可以從查詢表中選擇,舉例來說,與遙控器上的查詢按鈕相連選擇該查詢,該查詢按鈕在被按下時向用戶提供可能已制好的可能查詢的列表。
視聽源可以是電影,以及其中被抽取的本征數(shù)據(jù)可以包含但不限于文本的、音頻和/或視頻的特性。
非本征信息源可以連接至因特網(wǎng)并且可以通過因特網(wǎng)被訪問。非本征信息源可以是例如通用的因特網(wǎng)站點,如Internet Movie Database,然而非本征信息源也可以是專用的因特網(wǎng)站點,例如帶有向本發(fā)明的系統(tǒng)提供附加信息的特定目的的因特網(wǎng)站點。
非本征信息源可以是電影劇本。定稿的電影經(jīng)常偏離電影劇本。電影制作過程通?;谠紕”荆⑶移浒姹疽不谇楣?jié)串連圖板的發(fā)展。使用這個信息就像使用電影的秘訣。不可能或難以從視聽內(nèi)容抽取的高級語義信息可以使用視聽信號處理和電影劇本與相關(guān)電影分析的分析來自動地抽取。這是有優(yōu)勢的,因為外部信息源可能包含有電影的數(shù)據(jù),而該數(shù)據(jù)完全不能通過視聽分析來抽取,或者如果能被抽取的話,其可靠性也是非常低的。
非本征內(nèi)容分析器可以包含關(guān)于電影劇本語法的知識,以及其中使用劇本語法利用從劇本中抽取的信息來檢索非本征數(shù)據(jù)。電影劇本的實際內(nèi)容通常采用規(guī)則格式。利用此格式的知識,例如是否場景將發(fā)生在里面或外面、位置、一天中的時間等信息可以被抽取。這樣的信息僅僅基于本征數(shù)據(jù)的抽取是不可能的,或者如果有可能的話,也只可能獲得非常低的確定性。
任何電影的一個重要方面是電影中人物的身份。這樣的信息可以通過將電影內(nèi)容和劇本相關(guān)而獲得,因為電影劇本列出在特定場景中出現(xiàn)的所有人物。通過使用劇本語法,在場景中人物的身份可以被提取。從劇本中提取的身份可以例如與音頻和/或視頻身份標(biāo)記(器)進行組合,例如,以區(qū)分場景中的若干人物??梢詮膭”局刑崛〉娜魏翁匦钥梢杂糜诔尸F(xiàn)給用戶的電影分析中。其他可以被抽取和被呈現(xiàn)給用戶的可能性是語義場景描繪與描述抽取、電影結(jié)構(gòu)分析、情感(情緒)場景分析、位置/時間/設(shè)置檢測、服裝分析、人物輪廓、對話分析、流派/亞流派檢測、導(dǎo)演風(fēng)格檢測等。
本征和非本征數(shù)據(jù)的相關(guān)可以是時間相關(guān),并且結(jié)果可以是多源數(shù)據(jù)結(jié)構(gòu),其中本征數(shù)據(jù)中反映的特性與非本征數(shù)據(jù)中反映的特性是時間相關(guān)的。本征和非本征數(shù)據(jù)中反映的特性包含但不限于文本、視頻和/或視頻特性。
時間相關(guān)可以通過劇本中的對話與電影中對白(spoken text)的對準(zhǔn)而獲得。電影中的對白可以包含在封閉字幕(closed caption)中,其可以從副標(biāo)題中抽取,可以使用語音識別系統(tǒng)來抽取,或可以使用不同的方式來提供。但是一旦提供電影中的對白,這個對白可以與劇本中的對話相比較和相匹配。時間相關(guān)可以提供電影的時間標(biāo)記的抄本。這個比較和匹配通過使用例如自相似性矩陣來獲得。
如上所述,高級信息結(jié)構(gòu)可以根據(jù)多源數(shù)據(jù)結(jié)構(gòu)來生成。高級信息結(jié)構(gòu)在可以用戶和系統(tǒng)的不同功能之間提供接口(界面)。高級信息結(jié)構(gòu)可以對應(yīng)于例如出現(xiàn)在許多電子裝置中的用戶接口(界面)。
高級信息結(jié)構(gòu)可以存儲于存儲媒體中,這是具有優(yōu)勢的,因為根據(jù)本征和非本征信息,可能需要顯著的數(shù)據(jù)核查來抽取高級信息結(jié)構(gòu)。進一步,可以生成更新的高級信息結(jié)構(gòu),其中更新的高級信息結(jié)構(gòu)是根據(jù)多源數(shù)據(jù)結(jié)構(gòu)更新的已有的高級數(shù)據(jù)結(jié)構(gòu)。例如,在用戶只需要有限分析的場合下,這可能是具有優(yōu)勢的?;蛘?,例如在非本征信息源已被更新的場合下,并且希望根據(jù)非本征信息源更新高級信息結(jié)構(gòu)。
內(nèi)容分析可以包含利用檢索算法獲得的結(jié)果。內(nèi)容分析和檢索算法可以是動態(tài)算法,以適應(yīng)于基于檢索的非本征數(shù)據(jù)動態(tài)地包含附加功能。因此,內(nèi)容分析和檢索算法可以是開放的算法,其能夠不斷地學(xué)習(xí)和更新初始分類(將新的分類引入系統(tǒng)中)。附加功能可以通過在來自本征數(shù)據(jù)的特性組上使用從非本征數(shù)據(jù)中獲得的標(biāo)簽在此系統(tǒng)部署在用戶的家中之后該系統(tǒng)的操作期間訓(xùn)練檢索算法而獲得。
來自本征數(shù)據(jù)的特性組可以是特定的數(shù)據(jù)組,例如可以是電影的說話者,其中使用本發(fā)明,例如從說話者ID(身份)的標(biāo)簽中知道說話者ID。用戶可以例如選擇在訓(xùn)練中使用的數(shù)據(jù)組,該數(shù)據(jù)組的選擇視用戶的方便而為。根據(jù)本發(fā)明,該數(shù)據(jù)組也可以由系統(tǒng)的供應(yīng)商來提供??梢允褂蒙窠?jīng)網(wǎng)絡(luò)獲得訓(xùn)練,即,檢索算法例如可以包含或連接至神經(jīng)網(wǎng)絡(luò)。
可以使用至少一個電影劇本來執(zhí)行訓(xùn)練。因此,訓(xùn)練可以通過選擇數(shù)據(jù)組為至少一個劇本來執(zhí)行。這對于能夠訓(xùn)練系統(tǒng)以支持新特性是有益的,因為例如新演員出現(xiàn),未知的演員可能變得流行,人們的喜好是不同的,等等。以這種方式,可以提供更靈活和強有力的系統(tǒng)。系統(tǒng)的訓(xùn)練也可以是盲訓(xùn)練,以便于視頻理解中客體和語義概念的分類。
多源數(shù)據(jù)結(jié)構(gòu)用于在電影中提供自動的基本事實識別,這可以用于視聽內(nèi)容上的確定基準(zhǔn)點(benchmarking)算法。電影中的自動標(biāo)記也可以基于多源數(shù)據(jù)結(jié)構(gòu)獲得,這對于自動地能夠處理電影內(nèi)容是有利的。
另一個應(yīng)用是使用劇本中的文本描述和使用來自視頻內(nèi)容的視聽特性的視聽場景內(nèi)容理解??梢蕴峁┻@樣的系統(tǒng),其被訓(xùn)練為把低級和中級音頻/視頻/特性賦予場景的文字描述??梢允褂肧upport Vector Machine(支持矢量機)或Hidden-Markov Model(隱式馬爾可夫模型)來完成訓(xùn)練。分類可以只基于音頻/視頻/文本特性。
通過使用劇本中的文本描述,可以獲得自動場景內(nèi)容理解。這樣的理解可能不能從電影自身中抽取。
根據(jù)本發(fā)明的第二個方面,提供用于綜合分析本征和非本征視聽信息的方法,該方法包含以下步驟搜索本征數(shù)據(jù)視聽源,以查找數(shù)據(jù),并使用抽取算法來抽取本征數(shù)據(jù),搜索非本征信息源,并基于被抽取的本征數(shù)據(jù),使用檢索算法來檢索非本征數(shù)據(jù),相關(guān)本征數(shù)據(jù)和非本征數(shù)據(jù),從而提供多源數(shù)據(jù)結(jié)構(gòu)。
該方法可以進一步包含根據(jù)多源數(shù)據(jù)結(jié)構(gòu)生成高級信息結(jié)構(gòu)的步驟。
本發(fā)明的這些和其他方面、特性和/或優(yōu)勢從隨后描述的實施例中將是清楚的,并將結(jié)合這些實施例進行闡述。
現(xiàn)在,將參考附圖詳細闡述本發(fā)明的首選實施例,其中附圖1是本發(fā)明的一個實施例的高級結(jié)構(gòu)圖表,附圖2是本發(fā)明的另一個實施例的方框圖,這個實施例是結(jié)合附圖1所述的實施例的一個子實施例,附圖3是劇本和封閉字幕對準(zhǔn)的示意圖示,和附圖4是電影中說話者識別的示意圖示。
具體實施例方式
附圖1闡述了本發(fā)明的最優(yōu)實施例的高級圖表。在附圖2中提供根據(jù)這個高級圖表的一個具體實施例。
表1
出現(xiàn)在附圖1中的圖表100闡述了用于根據(jù)本發(fā)明綜合分析非本征和本征視聽信息的模型。各個組成部分的名稱在表1中提供。在圖中,本征視聽信息以電視(電影)片101為例,即,以數(shù)據(jù)載體如DVD盤上的故事(正)片為例。本征信息是諸如可以從視聽信號中抽取的信息,即從圖像數(shù)據(jù)、音頻數(shù)據(jù)和/或抄本數(shù)據(jù)(以副標(biāo)題或封閉字幕或圖文電視抄本的形式)中提取的信息。非本征視聽信息在此以對于電影劇本102的非本征訪問為例,例如通過因特網(wǎng)連接103訪問。進一步,非本征信息也可以是情節(jié)串連圖板、出版的書籍、電影中的附加場景、電影的末尾、例如對導(dǎo)演和/或演職員、電影評論家的訪談等。這樣的信息能通過因特網(wǎng)連接103而獲得。這些進一步的非本征信息可能希望劇本102經(jīng)歷高級結(jié)構(gòu)語法分析116。方框102中對電影劇本的強調(diào)是一個示例,任何類型的非本征信息并且特別地上述的非本征信息的類型原則上可以有效地插入圖表的方框102中。
作為第一步驟,使用本征內(nèi)容分析器,處理本征信息。本征內(nèi)容分析器可以是計算機程序,其適于搜索和分析電影的本征內(nèi)容。視頻內(nèi)容可以沿著三條路徑(104,105,106)來處理。沿著路徑1,從信號中抽取對白,該對白通常利用副標(biāo)題104來表示。抽取包含語音至文本轉(zhuǎn)換、從MPEG的用戶數(shù)據(jù)中的封閉字幕抽取、和/或從視頻信號或網(wǎng)頁中的圖文電視抽取。輸出是時間標(biāo)記的抄本107。沿著路徑2,處理音頻105。音頻處理步驟包含音頻特性抽取,隨后是音頻分段和分類。Mel Cepstral Frequency Coefficients(嘜耳倒頻譜頻率系數(shù))(MFCC)108可以用于檢測說話者轉(zhuǎn)變110以及形成情感語境確定的一部分。mel-scale(嘜耳標(biāo)度)是頻率裝倉(binning)方法,其基于耳朵的頻率分辨率。通過以mel標(biāo)度使用頻率裝倉,計算MFCC,以參數(shù)化語音。MFCC是良好的耳朵鑒別指示器(符)。因此,通過執(zhí)行均衡,利用倒頻譜域中的減法,與頻譜域中的乘法相反,MFCC能用于補償失真信道。音調(diào)109也可以形成情感語境確定的一部分,而音調(diào)也可以用于相對于語音、音樂和音響(聲音)效果112的分段。說話者轉(zhuǎn)變檢測110、情感音頻語境111和語音/音樂/SFX分段112通過聲音模型和情感模型被耦合到演員識別2和場景描述3的基于音頻分類。沿著路徑3,分析視頻圖像信號106。這個可視處理包含可視特性抽取,如彩色直方圖113、面部檢測114、圖文電視檢測115、高亮度檢測、語氣(基調(diào))分析等。面部檢測通過面部模型被耦合到基于面部的演員識別4。彩色直方圖是代表色值(在選擇的彩色空間中)及其在圖像中的出現(xiàn)頻率的直方圖。
作為第二步驟,使用非本征內(nèi)容分析器處理非本征信息。非本征內(nèi)容分析器可以適于基于抽取的本征數(shù)據(jù)搜索非本征信息。非本征信息可以象電影標(biāo)題那樣簡單,然而,所抽取的本征數(shù)據(jù)也可以是涉及電影的復(fù)雜的一組數(shù)據(jù)。非本征內(nèi)容分析器可以包含劇本語法分析、情節(jié)串連圖板分析、圖書語法分析、附加視聽材料如訪談、宣傳片尾(電影預(yù)告片)等的分析的模型。輸出是數(shù)據(jù)結(jié)構(gòu),其對有關(guān)場景、演職員心境(基調(diào))等的高級信息進行編碼。例如,在電影劇本102上執(zhí)行高級結(jié)構(gòu)語法分析116。例如,根據(jù)通過因特網(wǎng)訪問的信息,例如查閱基于因特網(wǎng)的數(shù)據(jù)庫,比如Internet Movie Database,確定人物117,并且這些人物與演員進行相互參照。場景位置118和場景描述119用于基于文本的場景描述1中,并且對話120與時間標(biāo)記的抄本相關(guān),以獲得基于文本的時間標(biāo)記的劇本?;谖谋镜臅r間標(biāo)記劇本將根據(jù)用于基于文本的場景描述1中的對話的時間標(biāo)記而提供場景的大致邊界。
在建立人物名字和演員120、基于文本場景描述1、基于文本時間標(biāo)記劇本121、基于音頻的演員識別2、基于音頻的場景描述3和基于面部的演員識別之間的相互參照之后,可以執(zhí)行多源對準(zhǔn)。因此,本征和非本征數(shù)據(jù)可以進行相關(guān),以得到多源數(shù)據(jù)結(jié)構(gòu)。一些外部文件如劇本不包含時間信息,通過相關(guān)非本征和本征數(shù)據(jù),從本征視聽信號中抽取的時間標(biāo)記信息可以與從外部源中提供的信息進行對準(zhǔn)。輸出是非常詳細的多源數(shù)據(jù)結(jié)構(gòu),其包含可從非本征和本征源中獲得的信息的超集。
使用多源數(shù)據(jù)結(jié)構(gòu),可以生成高級信息結(jié)構(gòu)。在當(dāng)前實施例中,高級信息結(jié)構(gòu)由三部分組成演員ID的超級模型5,壓縮的描繪概要8和場景邊界檢測與描述,其可以提供語義場景描述9。演員ID的超級模型除了來自多源數(shù)據(jù)結(jié)構(gòu)的人物識別之外還可以包含視聽人物識別。因此,可以向用戶呈現(xiàn)電影中出現(xiàn)的所有演員的列表,并且例如通過選擇演員,可以向用戶呈現(xiàn)有關(guān)這個演員的附加信息,例如該演員參演的其他影片或其他的有關(guān)特定演員或人物的信息。壓縮描繪概要模塊可以包含描繪點和故事與次要故事弧(arc)。這些是電影中最令人感興趣的點,這個高級信息對于電影概要是非常重要的。用戶因此可以獲得不同類型的描繪(情節(jié))概要,而這一般不是DVD上所提供的那種類型,或者用戶可以選擇該用戶所感興趣的概要的類型。在語義場景檢測中,建立用于場景和場景邊界的拍攝。用戶可以被呈現(xiàn)場景和電影劇本中的對應(yīng)場景的完整列表,例如,以便比較導(dǎo)演對于不同場景的劇本的解釋,或者允許用戶定位包含特定人物的場景。
在隨后的實施例中,焦點在于電影劇本與電影的對準(zhǔn)。
幾乎所有的長篇電影都需要借助于電影劇本來產(chǎn)生,電影劇本提供了電影故事、環(huán)境、對話和活動的統(tǒng)一描述-并且給電影制作者、演員和工作人員提供了創(chuàng)作其對生活的藝術(shù)創(chuàng)新版本的開始點。對于那些參與電影的基于內(nèi)容分析的人來說,劇本是當(dāng)前用于獲得影片中的重要語義目標(biāo)的文本描述的未利用資源。這不僅有利于旁路(繞過)語義間隙(例如,將視聽信號轉(zhuǎn)變成一系列文本描述符)的問題,還有助于使所述描述直接源于影片制作者。劇本可用于數(shù)千的電影,并且其遵循半常規(guī)格式化標(biāo)準(zhǔn),并因此是可靠的數(shù)據(jù)源。
將劇本用作基于內(nèi)容分析的捷徑中遇到的困難是雙重的。首先,在劇本文本中的文本和電影中的時間周期(期間)之間不存在固有的相關(guān)性。為了對抗這個限制,將劇本中對話的行(臺詞)與從電影DVD中抽取的時間標(biāo)記封閉字幕流進行對準(zhǔn)。其他所面臨的阻礙在于,在許多情況下,劇本在制作電影之前完成,所以對話臺詞或整個場景可以被添加、刪除、修改或改變位置。此外,封閉字幕的文本通常只是與屏幕上人物所說出的對話大致相近。為了克服這些影響,使用對于場景/對話修改是魯棒的對準(zhǔn)方法是必不可少的。我們的經(jīng)驗表明,只有大約60%的對話臺詞能在電影中被時間標(biāo)記。然而,利用對準(zhǔn)過程發(fā)現(xiàn)的時間標(biāo)記對話可以被用作統(tǒng)計模型的標(biāo)簽,其能夠估計沒有被發(fā)現(xiàn)的描述符。這相當(dāng)于是自主式(獨立)、無人監(jiān)督的過程,用于電影的自動視頻內(nèi)容分析的語義目標(biāo)(對象)以及帶有制作它的“技巧”的視頻材料的貼標(biāo)簽。
我們在此必須指出,劇本的替代(物)是電影分鏡頭劇本手稿(continuity)(腳本)。電影分鏡頭劇本手稿在電影的所有工作完成之后撰寫。術(shù)語電影分鏡頭劇本手稿時常在兩個語境中采用-首先,電影的逐個拍攝的分鏡頭劇本,其除了來自劇本的信息之外,還包含攝像機布置和運動。此外,電影分鏡頭劇本手稿也可以指電影對話的確切抄本。這兩種形式都可以由封閉字幕機構(gòu)使用。雖然來自特定電影的電影分鏡頭劇本手稿可以被印刷出售,但是對于公眾來說,一般不能在線獲得這些手稿。這激發(fā)了對于拍攝手稿即劇本的分析,盡管其存在缺陷。
劇本沒有更為廣泛地用于基于內(nèi)容的分析中的一個原因是因為出現(xiàn)在劇本中的對話、動作和場景描述并沒有與之相關(guān)的時間標(biāo)記。這妨礙了將電影的特定分段分配給一段文本的效力。另一個電影抄本、封閉字幕的源具有電影中對白的文本,但它不包含說出每句臺詞的人物的身份,封閉字幕也不擁有難以從視頻信號中抽取的場景描述。通過對準(zhǔn)劇本的對話和電影封閉字幕的文本,我們獲得了最佳效果。
其次,臺詞和場景經(jīng)常是不完整的、剪切的或位置改變的。為了面對場景是穩(wěn)固的,可以一次一個場景地重新排序劇本與封閉字幕的對準(zhǔn)。這也減輕了具有完全自相似性矩陣的存儲器-密集創(chuàng)作(工作)。
最后,由于不可能在劇本中對于每句對話找到相關(guān)物,必須采用從時間標(biāo)記劇本中抽取的信息、與電影的多峰(模式)分段(音頻/視頻流,封閉字幕,來自外部網(wǎng)站例如imdb.com的信息)組合,以創(chuàng)建事件的統(tǒng)計模型。這些事件可以是影片之間或影片內(nèi)部的事件,并許諾提供場景的文本描述的能力,這些描述不是利用對準(zhǔn)流明確發(fā)現(xiàn)的。
劇本對準(zhǔn)的一個重要方面是說話者的識別。已訪問在任何特定時間說話的人物將允許基于聲音存在提供對于有關(guān)演員的外部數(shù)據(jù)的鏈接以及電影內(nèi)部查詢的應(yīng)用。有關(guān)影片對話的無人監(jiān)督的說話者識別是非常困難的問題,因為語音特性受說話者的情緒變化、在不同的實際或模仿位置中不同的聽覺條件變化(例如,“房間音調(diào)”)的影響,同樣受聲道、環(huán)境噪音和背景中的大型活動的影響。
我們的解決方案是提供來自對準(zhǔn)的時間標(biāo)記作為“黑盒子(black box)”分類符(器)的標(biāo)記示例,了解在不同的環(huán)境和情緒下聲音的特點。實際上,通過擁有大量的來自對準(zhǔn)的訓(xùn)練數(shù)據(jù),我們可以“讓數(shù)據(jù)說話(let the data do thetalking)”,并且我們的方法純粹是不受監(jiān)督的,因為一旦劇本和電影音頻以機器可讀形式被捕捉,則不需要任何人工預(yù)先處理。
在電影主要的拍攝結(jié)束之后,編輯器(者)可以利用考慮或可以不考慮劇本的方式裝配不同的拍攝鏡頭。有時,在名字協(xié)調(diào)、分鏡頭劇本或制片廠政策方面,場景將被剪切,或者有可能的話,拾取所需要的鏡頭。舉一個極端例子,電影Double Indemnity的結(jié)尾被留在剪切房間地上,其中主人公位于毒氣室。Swingers原本是個愛情故事,但是編輯者加快了對話的速度,并將該影片變成了成功的喜劇。
劇本的真實內(nèi)容通常遵循規(guī)則格式。例如,任一場景或拍攝位置的第一行稱為slug line(緩動行)。slug line表示場景是發(fā)生在室內(nèi)還是室外、位置的名稱,并且這可以潛在地指定一天中的時間。slug line是最佳的場景邊界指示器,因為場景有可能發(fā)生在許多地方。在slug line之后是位置的描述。該描述將引入(介紹)任何出現(xiàn)的新人物和發(fā)生的沒有對話的動作。
劇本的(體積)大小是對話描述,對話被縮排在頁中,以方便閱讀,并給予演員和電影制作者作筆記的地方。如果電影劇本作者對演員的指導(dǎo)在對話中并不明顯,則它可以在描述中指出。標(biāo)準(zhǔn)的劇本格式可以利用語法規(guī)則來語法分析SCENE_START:.*|SCENE_START|DIAL_START|SLUG|TRANSITIONDIAL_START:\t+<CHAR NAME>(V.O.|O.S.) \n\t+DIALOGUE|PARENDIALOGUE|:\t+.* \n\nPAREN:\t+(.* )TRANSITION: \t+<TRANS NAME>:
SLUG: <SCENE#> .<INT/EXT><ERNAL|.> -<LOC><-TIME> 在這個語法中,“\n”表示新行字符,“\t”表示制表(符)?!?* ”是來自Perl的常規(guī)表達的術(shù)語,并且表示“在序列中下一個模式匹配之前的任一事物的任意量”。后面跟隨字符的問號表示該字符可能出現(xiàn)或不出現(xiàn)。“|”允許進行選擇一例如,<O.S.|V.O.>表示V.O.或者O.S.的出現(xiàn)將有助于好的匹配。最后,“+”表示我們將接受仍然被考慮為匹配的一個或更多以前字符-例如,以“\tHello”、“\t\tHello”或者“\t\t\tHello”開頭的行可以是對話,但利用“Hello”開頭的行則不是。
劇本的格式化指南只是建議,而非標(biāo)準(zhǔn)。然而,有可能捕捉最多的利用簡單但靈活的常規(guī)表述的劇本制作成百的劇本拷貝用于任何規(guī)模的電影制作,劇本可以為了業(yè)余愛好者或?qū)I(yè)使用而被重新制作,并且在線可獲得成千的劇本。
在附圖2中表示出在單個電影中包含預(yù)先處理、對準(zhǔn)和說話者識別的系統(tǒng)概述。
電影劇本文本20的文本被語法分析,因此場景和對白邊界和元數(shù)據(jù)被輸入統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)。封閉字幕21和音頻特性22從電影的視頻信號23中抽取。在至關(guān)重要的階段,劇本和封閉字幕文本被對準(zhǔn)24。這個對準(zhǔn)在下面詳細說明。在對準(zhǔn)中,對話被時間標(biāo)記,并與特定字符相關(guān)。然而,對于每一句對話,不可能在劇本中都找到相關(guān)物。必須采用從時間標(biāo)記的劇本中提取的、與電影的多模式片斷(音頻/視頻流,封閉字幕,來自外部網(wǎng)站信息)組合的信息來創(chuàng)建事件的統(tǒng)計模型25。
以這種方式,有可能在電影的自然噪音環(huán)境中,獲得非常高的說話者識別準(zhǔn)確度。重要的是注意,這個識別可以使用監(jiān)督的學(xué)習(xí)方法來執(zhí)行,但是自動生成基本事實,因此在分類過程中不需要人工干涉。
因此,電影期間在任何時候說話的人物可以被確定26。這個人物ID可以與因特網(wǎng)數(shù)據(jù)庫27相關(guān),以獲得電影中人物的演員的識別28。
除了說話者識別之外,也可以抽取場景的位置、時間和描述、各自的臺詞對白及其演說者、演員的附加注解和動作指導(dǎo)、以及場景之間任何建議轉(zhuǎn)換(剪切衰減,擦除,淡入淡出(解散)等)。
為了對準(zhǔn)和說話者識別任務(wù),需要電影DVD的音頻和封閉字幕流。
DVD的User Data Field(用戶數(shù)據(jù)字段)包含文本形式的副標(biāo)題流,這不是DVD官方標(biāo)準(zhǔn)的一部分,并因而不保證出現(xiàn)在所有盤上。對于沒有可用副標(biāo)題信息的電影,可供選擇的是通過在DVD的副標(biāo)題流上執(zhí)行OCR(光學(xué)字符識別),獲得封閉字幕。這是半交互式過程,其只在遇到新字體時(這通常是每個制作室一次),才需要用戶干涉,但它是完全自主式的。我們遇到的唯一問題是有時小寫字母“1”與大寫字母“I”混淆,我們發(fā)現(xiàn)必須將所有的L彎曲為I,以避免在比較單詞時出現(xiàn)混淆。OCR可以使用SubRip程序來實現(xiàn),并且OCR對于每行封閉字幕提供帶有毫秒分辨率的時間標(biāo)記。
劇本對話和封閉字幕文本通過使用動態(tài)編程來對準(zhǔn),以查找穿越自相似性矩陣的“最佳路徑”。通過在最佳路徑上應(yīng)用中值濾波器,抽取正確對應(yīng)于場景的對準(zhǔn)。合理精確度的對話分段被分解為封閉字幕行大小的塊(chunk),這意味著我們可以直接把對話塊翻譯成時間標(biāo)記的分段。下面將討論每個組成部分。
相似矩陣是比較兩個不同版本的相似媒體的一種方式,它是自相似性矩陣的一種擴展,其現(xiàn)在是音頻的基于內(nèi)容分析的標(biāo)準(zhǔn)工具。
在相似矩陣中,劇本中場景的每個詞i與整個電影的封閉字幕中的每個詞j進行比較。因而,提供矩陣SM(i,j)←screenplay(scene_num,i)=subtitle(j)換句話說,如果場景的詞i與封閉字幕的詞j相同,則SM(i,j)=1,而如果它們不相同,則SM(i,j)=0。屏幕時間沿著對角線i=j(luò)線性進展,因此當(dāng)劇本的對角線與封閉字幕的文本行對齊排列時,我們期望看到1的實對角線。附圖3表示相似矩陣30的示例分段部分,用于比較封閉字幕31和電影“WallStreet”場景87的劇本32。在相似矩陣中,出現(xiàn)在劇本和封閉字幕中的詞可以根據(jù)是否找到匹配而被特征化。因此,如果沒有找到匹配,則每個矩陣元素可以標(biāo)記為不匹配32,如果找到匹配,則可以標(biāo)記為匹配33。自然地,可以發(fā)現(xiàn)許多一致匹配,但是可以發(fā)現(xiàn)不連續(xù)軌跡,并通過這個軌跡建立最佳路徑。位于這個最佳軌跡上不匹配的詞被相應(yīng)地標(biāo)記34。
電影中說話者識別是困難的,因為在電影持續(xù)過程中,聲音變化,并且聽覺條件也在變化。因而,為了在不同條件下進行分類,可能需要許多數(shù)據(jù)。附圖4表示出這一特定問題。示意地表示出兩個場景40,41。在第一場景40中,出現(xiàn)了三個人,這三個人都面向觀眾,并且能夠期望他們此時一個人在講話。因此,只使用本征數(shù)據(jù),就有可能利用高確定性抽取說話者身份,例如。使用聲音指紋和面部模型。在第二場景41中,出現(xiàn)了五個人,并且只有一個人正面對觀眾,且可能出現(xiàn)了許多討論,人們可能都在同時說話,而且戲劇性背景音樂可以用來加強緊張心境。使用本征信息,可能不能執(zhí)行說話者識別。但是,使用其中指示出對話和說話者的劇本,說話者ID能用于檢測場景中的所有說話者。
為了分類和方便基于音頻特性的說話者識別,可以使用以下程序1)選擇訓(xùn)練/測試/驗證設(shè)置2)除去靜默3)基于Martin McKinney的音頻分類器,潛在地除去音樂/噪音部分4)下抽樣至8kHz,因為語音的峰值頻率近似是3.4kHz5)計算CMS,50ms窗口上的delta特性,帶有12.5ms的跳躍尺寸6)將特征向量堆積在一起,以創(chuàng)建長的分析框7)執(zhí)行PCA,以減少測試設(shè)置的維數(shù)8)訓(xùn)練神經(jīng)網(wǎng)絡(luò)或GMM9)在整個電影上模擬網(wǎng)絡(luò)/GMM10)比較這個夏天的實習(xí)生的基本事實,以了解我們做得有多么好。
本發(fā)明也可以實施為計算機程序產(chǎn)品、可存儲在存儲媒體上并且使計算機被編程為執(zhí)行根據(jù)本發(fā)明的方法,這對于本領(lǐng)域熟練技術(shù)人員來說是顯然的。該計算機可以實施為通用計算機,如個人計算機或網(wǎng)絡(luò)計算機,但也可以實施為專用的帶有可編程處理核心的消費電子產(chǎn)品。
如前所述,也可知道,所提及的單數(shù)也預(yù)定包含多個,并且反之亦然。此外,表述諸如“包含”、“包括”、“含有”、“擁有”、“合入”、“容納”、“包圍”將解釋為非排他的,即這些表述將解釋為不排除其他項的出現(xiàn)。
雖然結(jié)合最佳實施例闡述本發(fā)明,但是并不打算將本發(fā)明限制為在這里所闡述的具體形式。相反,本發(fā)明的范圍僅僅利用所附的權(quán)利要求來限制。
權(quán)利要求
1.一種用于綜合分析本征(10)和非本征(11)視聽數(shù)據(jù)的系統(tǒng)(100),該系統(tǒng)包括本征內(nèi)容分析器,該本征內(nèi)容分析器通信連接至視聽源,該本征內(nèi)容分析器適于搜索該視聽源,以查找本征數(shù)據(jù),并且適于使用抽取算法來抽取本征數(shù)據(jù),非本征內(nèi)容分析器,該非本征內(nèi)容分析器通信連接至非本征信息源,該非本征內(nèi)容分析器適于搜索該非本征信息源,并且適于使用檢索算法來檢索非本征數(shù)據(jù),其中本征數(shù)據(jù)和非本征數(shù)據(jù)相關(guān),從而提供多源數(shù)據(jù)結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1的系統(tǒng),其中非本征數(shù)據(jù)的檢索基于所抽取的本征數(shù)據(jù)。
3.根據(jù)權(quán)利要求1的系統(tǒng),其中抽取和/或檢索算法利用模塊來提供。
4.根據(jù)權(quán)利要求1的系統(tǒng),其中由用戶提供查詢,該查詢被提供給抽取算法,以及其中根據(jù)該查詢來抽取本征數(shù)據(jù)。
5.根據(jù)權(quán)利要求1的系統(tǒng),其中由用戶提供查詢,該查詢被提供給檢索算法,以及其中根據(jù)該查詢來檢索非本征數(shù)據(jù)。
6.根據(jù)權(quán)利要求1的系統(tǒng),其中本征和非本征數(shù)據(jù)中反映的特性包含文本、音頻和/或視頻特性。
7.根據(jù)權(quán)利要求1的系統(tǒng),其中視聽源是電影(101),以及其中所抽取的數(shù)據(jù)包含文本特性(104)、音頻和/或視頻特性(105,106)。
8.根據(jù)權(quán)利要求1的系統(tǒng),其中非本征信息源被連接至因特網(wǎng),并且可以通過因特網(wǎng)(103)被訪問。
9.根據(jù)權(quán)利要求1的系統(tǒng),其中非本征信息源是電影劇本(102)。
10.根據(jù)權(quán)利要求9的系統(tǒng),其中非本征內(nèi)容分析器包含關(guān)于劇本語法的知識,以及其中使用劇本語法根據(jù)從劇本中抽取的信息來檢索非本征數(shù)據(jù)。
11.根據(jù)權(quán)利要求9或10的系統(tǒng),其中電影中人物的識別(5)通過電影劇本來獲得。
12.根據(jù)權(quán)利要求9或10的系統(tǒng),其中基于電影劇本中包含的信息,分析電影中的特性。
13.根據(jù)權(quán)利要求1的系統(tǒng),其中本征和非本征數(shù)據(jù)的相關(guān)是時間相關(guān)(121),從而提供多源數(shù)據(jù)結(jié)構(gòu),其中本征數(shù)據(jù)中反映的特性與非本征數(shù)據(jù)中反映的特性進行時間相關(guān)。
14.根據(jù)權(quán)利要求13的系統(tǒng),其中時間相關(guān)通過電影劇本中的對話(120)與電影中的對白(104)的對準(zhǔn)來獲得,并且從而提供電影的時間標(biāo)記的抄本(121)。
15.根據(jù)權(quán)利要求14的系統(tǒng),其中從時間標(biāo)記的抄本中獲得電影中的說話者識別。
16.根據(jù)權(quán)利要求9的系統(tǒng),其中利用自相似性矩陣(30),比較電影劇本與電影中的對白。
17.根據(jù)權(quán)利要求1的系統(tǒng),其中根據(jù)多源數(shù)據(jù)結(jié)構(gòu),生成高級信息結(jié)構(gòu)(5-9)。
18.根據(jù)權(quán)利要求17的系統(tǒng),其中高級信息結(jié)構(gòu)可以存儲在存儲媒體上。
19.根據(jù)權(quán)利要求17的系統(tǒng),其中生成更新的高級信息結(jié)構(gòu),該更新的高級信息結(jié)構(gòu)是根據(jù)多源數(shù)據(jù)結(jié)構(gòu)更新的已有的高級信息結(jié)構(gòu)。
20.根據(jù)權(quán)利要求1的系統(tǒng),其中檢索算法是動態(tài)檢索算法,其適于通過根據(jù)檢索的非本征數(shù)據(jù)包含附加功能來動態(tài)地自我更新。
21.根據(jù)權(quán)利要求20的系統(tǒng),其中通過使用從非本征數(shù)據(jù)中獲得的標(biāo)簽在本征數(shù)據(jù)中的特性組上訓(xùn)練檢索算法來獲得附加功能。
22.根據(jù)權(quán)利要求9和21的系統(tǒng),其中使用至少一個電影劇本,執(zhí)行訓(xùn)練。
23.根據(jù)權(quán)利要求1的系統(tǒng),其中基于視聽內(nèi)容上確定基準(zhǔn)點算法中使用的多源數(shù)據(jù)結(jié)構(gòu),獲得電影中的自動基本事實識別。
24.根據(jù)權(quán)利要求1的系統(tǒng),其中基于電影劇本中的文本描述和電影內(nèi)容中的視聽特性,獲得電影中的自動場景內(nèi)容理解。
25.根據(jù)權(quán)利要求1的系統(tǒng),其中基于多源數(shù)據(jù)結(jié)構(gòu),獲得電影中的自動標(biāo)記。
26.一種用于綜合分析本征和非本征視聽信息的方法,該方法包含以下步驟搜索視聽源,以查找本征數(shù)據(jù),并使用抽取算法來抽取本征數(shù)據(jù),搜索非本征信息源,并使用檢索算法來檢索非本征數(shù)據(jù),相關(guān)本征數(shù)據(jù)和非本征數(shù)據(jù),從而提供多源數(shù)據(jù)結(jié)構(gòu)。
27.根據(jù)權(quán)利要求26的方法,進一步包含以下步驟根據(jù)多源數(shù)據(jù)結(jié)構(gòu),生成高級信息結(jié)構(gòu)。
28.根據(jù)權(quán)利要求26的方法,其中非本征內(nèi)容分析器包含有關(guān)電影劇本語法的知識,以及其中利用電影劇本語法使用從電影劇本中抽取的信息來檢索非本征數(shù)據(jù)。
29.根據(jù)權(quán)利要求26的方法,其中通過在非本征數(shù)據(jù)集上訓(xùn)練檢索算法,更新檢索算法。
30.一種計算機程序產(chǎn)品,使計算機被編程為執(zhí)行根據(jù)權(quán)利要求26的方法。
31.一種存儲媒體,裝載有根據(jù)權(quán)利要求30的計算機程序產(chǎn)品。
32.一種編程計算機,用于執(zhí)行根據(jù)權(quán)利要求26的方法。
全文摘要
提供用于綜合分析本征和非本征視聽信息的系統(tǒng),諸如用于分析和相關(guān)電影中的特性與該電影中未出現(xiàn)但通過因特網(wǎng)可獲得的特性的系統(tǒng)。該系統(tǒng)包含通信連接至視聽源例如電影源的本征內(nèi)容分析器,用于搜索該電影中的本征數(shù)據(jù),并使用抽取算法來抽取本征數(shù)據(jù)。進一步,該系統(tǒng)包含通信連接至非本征信息源的非本征內(nèi)容分析器,諸如通過因特網(wǎng)可獲得的電影劇本,用于搜索非本征信息源,并使用檢索算法來檢索非本征數(shù)據(jù)。本征數(shù)據(jù)和非本征數(shù)據(jù)以多源數(shù)據(jù)結(jié)構(gòu)進行相關(guān)。多源數(shù)據(jù)結(jié)構(gòu)被轉(zhuǎn)換為高級信息結(jié)構(gòu),該高級信息結(jié)構(gòu)被呈現(xiàn)給該系統(tǒng)的用戶。用戶可以瀏覽該高級信息結(jié)構(gòu),以查看電影中諸如男演員識別(鑒定)的信息。
文檔編號G06F17/30GK1906610SQ200480035750
公開日2007年1月31日 申請日期2004年11月30日 優(yōu)先權(quán)日2003年12月5日
發(fā)明者N·迪米特羅瓦, R·圖爾特斯基 申請人:皇家飛利浦電子股份有限公司