專利名稱:用于識別節(jié)目的高層結(jié)構(gòu)的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及視頻分析領(lǐng)域,并且尤其涉及使用分類器來識別節(jié)目(諸如電視或視頻節(jié)目)的高層結(jié)構(gòu),以便呈現(xiàn)在所述節(jié)目中所出現(xiàn)的不同類型的電視圖文。
隨著視頻變得更加普遍,用于分析其中所包含內(nèi)容的更高效方法變得越來越必要且重要了。視頻內(nèi)在包含了大量數(shù)據(jù)并且具復(fù)雜性,這使分析成為難題。重要的分析在于了解視頻的高層結(jié)構(gòu),這可以為更進(jìn)一步的詳細(xì)分析提供基礎(chǔ)。
已知多種分析方法,參見Yeung等人的“Video Browsing usingClustering and Scene Transitions on Compressed Sequences”,Multimedia Computing and Networking(多媒體計算及聯(lián)網(wǎng))1995,卷SPIE 2417,第399-413頁,1995年2月;Yeung等人的“Time-constrained Clustering for Segmentation of Video intoStory Units”,ICPR,卷C,第375-380頁,1996年8月;Zhong等人的“Clustering Methods for Video Browsing and Annotation”,SPIE Conference on Storage and Retrieval for Image and VideoDatabases(關(guān)于存儲并檢索圖像和視頻數(shù)據(jù)庫的SPIE會議),卷2670,1996年2月;Chen等人的“ViBEA New Paradigm for VideoDatabase Browsing and Search”,Proc.IEEE Workshop onContent-Based Access of Image and Video Databases(關(guān)于圖像和視頻數(shù)據(jù)庫的基于內(nèi)容訪問的專題會議IEEE會刊),1998年;以及Gong等人的“Automatic Parsing of TV Soccer Programs”,Proceedings of the International Conference on MultimediaComputing and Systems(ICMCS)(關(guān)于多媒體計算和系統(tǒng)的國際會議論文集),1995年5月。
Gong等人描述了一種在分析足球視頻的結(jié)構(gòu)中使用域知識和域具體模型的系統(tǒng)。像其它現(xiàn)有技術(shù)系統(tǒng)一樣,視頻首先被分段為鏡頭。鏡頭被定義為在快門打開和關(guān)閉之間的所有幀。從每個鏡頭內(nèi)的幀所提取的空間特征(比賽場地線)用來把每個鏡頭分類為不同的類別,例如禁區(qū)、中場、角球區(qū)、角球和射門。注意,該工作很大程度上依賴于在提取特征前把視頻準(zhǔn)確地分段為鏡頭。鏡頭也不能完全表示在足球視頻中出現(xiàn)的事件。
Zhong等人還描述了一種用于分析運動視頻的系統(tǒng)。該系統(tǒng)檢測高層語義單元的邊界,例如棒球中的投擲以及網(wǎng)球中的發(fā)球。進(jìn)一步分析每個語義單元以便提取感興趣事件,例如網(wǎng)球中的斯托克數(shù)目、擊球的類型-擦網(wǎng)球或擦線球。把基于顏色的自適應(yīng)過濾方法應(yīng)用于每個鏡頭的關(guān)鍵幀以便檢測具體視圖。使用諸如邊緣和移動物體之類的復(fù)雜特征來校驗和改善檢測結(jié)果。注意,該工作同樣很大程度上依賴于在特征提取之前把視頻準(zhǔn)確地分段為鏡頭。簡言之,Gong和Zhong都把視頻認(rèn)為是基本單元的級連,其中每個單元是鏡頭。特征分析的分辨度不會比鏡頭級的更精細(xì)。該工作很復(fù)雜,并且很大程度上依賴于基于顏色的過濾以便檢測具體視圖。此外,如果視頻的調(diào)色板改變,那么會使系統(tǒng)無法使用。
因而,通?,F(xiàn)有技術(shù)如下首先把視頻分段為鏡頭。
然后,從每個鏡頭提取關(guān)鍵幀并且將其分組為場景。使用場景轉(zhuǎn)變圖和分級樹來表示這些數(shù)據(jù)結(jié)構(gòu)。這些方法的問題在于低級鏡頭信息和高級場景信息之間的不匹配。它們只在感興趣內(nèi)容的變化對應(yīng)于鏡頭的變換時才起作用。
在諸如足球視頻之類的許多應(yīng)用中,諸如“比賽”之類的感興趣事件不能由鏡頭變化來定義。每個比賽可以包含具有相似顏色分布的多個鏡頭。在比賽之間的轉(zhuǎn)換很難由只基于鏡頭特征的簡單幀聚類來發(fā)現(xiàn)。
在許多情況中,其中存在實在的攝像機(jī)運動,鏡頭檢測過程易于出現(xiàn)分段錯誤,這是因為此類型的分段基于低級特征,而不考慮視頻的域特定的高層語法和內(nèi)容模型。因而,很難根據(jù)鏡頭級的分段來橋接在低級特征和高級特征間的間隙。此外,在鏡頭分段過程期間丟失了太多的信息。
在不同域中的視頻具有非常不同的特性和結(jié)構(gòu)。域知識可以極大地有助于分析過程。例如,在運動視頻中,通常存在固定數(shù)目的攝像機(jī)、視圖、攝像機(jī)控制規(guī)則以及由所述游戲規(guī)則強(qiáng)加的轉(zhuǎn)換語法,例如足球?qū)崨r報道(play-by-play)、網(wǎng)球?qū)崨r報道(serve-by-serve)和棒球?qū)崨r報道(inning-by-inning)。
Tan等人在1999的“Rapid estimation of camera motion fromcompressed video with application to video annotation”中,IEEE Trans.On Circuit and Systems for Video Technology,并且Zhang等人在1995年的“Automatic Parsing and Indexing of NewsVideo”中,Multimedia Systems(多媒體系統(tǒng)),卷2,第256-266頁,描述了新聞和棒球的視頻分析。但是很少系統(tǒng)考慮在更復(fù)雜的視頻以及廣泛的視頻中的高層結(jié)構(gòu)。
例如對于足球視頻,問題在于足球比賽與像新聞和棒球之類的其它視頻相比較具有相對松散的結(jié)構(gòu)。除實況報道結(jié)構(gòu)之外,內(nèi)容流可能完全不可預(yù)測并且隨機(jī)地發(fā)生。在足球比賽的視頻中存在大量運動和視圖改變。解決此問題用于為球迷和專家進(jìn)行自動內(nèi)容過濾。
在視頻結(jié)構(gòu)分析和內(nèi)容理解的更廣背景下,對所述問題更感興趣。相對于結(jié)構(gòu),主要關(guān)注點是高級視頻狀態(tài)的時間序列,例如足球比賽的比賽狀態(tài)和暫停。希望把連續(xù)視頻流自動分析到這兩種比賽狀態(tài)的交替序列中。
現(xiàn)有技術(shù)的結(jié)構(gòu)分析方法主要集中在檢測域特定的事件。分別分析來自事件檢測的結(jié)構(gòu)具有下列優(yōu)點。典型情況下,不超過60%的內(nèi)容對應(yīng)于比賽。因而,人們可以通過分段排除對應(yīng)于中場休息的視頻部分來實現(xiàn)信息的顯著減少。在比賽和暫停中的內(nèi)容特性也是不同的,因而人們可以利用這種預(yù)先的狀態(tài)知識來優(yōu)化事件檢測器。
相關(guān)技術(shù)的結(jié)構(gòu)分析工作主要關(guān)于運動視頻分析,包括足球和各種其它比賽,以及一般視頻分段。對于足球視頻,已經(jīng)對鏡頭分類作了預(yù)先工作,參見上面Gong的文獻(xiàn);場景重構(gòu),Yow等人的“Analysis and Presentation of Soccer Highlights from DigitalVideo”,Proc.ACCV,1995,1995年12月;和Tovinkere等人的基于規(guī)則的語義分類“Detecting Semantic Events in SoccerGamesTowards A Complete Solution”Proc.ICME 2001,2001年8月。
隱藏馬爾可夫模型(Hidden Markov models HMM)已經(jīng)用于一般的視頻分類并且用于區(qū)分不同類型的節(jié)目,諸如新聞、商業(yè)廣告等,參見Huang等人的“Joint video scene segmentation andclassification based on hidden Markov model”Proc.ICME 2000,第1551-1554頁,卷3,2000年7月。
基于域具體特征和主要顏色比例的啟發(fā)式規(guī)則也被用來劃分比賽和暫停,參見Xu等人的“Algorithms and system for segmentationand structure analysis in soccer video”,Proc.ICME 2001,2001年8月,以及美國專利申請系列號09/839,924“Method andSystem for High-Level Structure Analysis and Event Detectionin Domain Specific Videos”,由Xu等人在2001年4月21日提交。然而,在這些特征中的變化很難利用明確的低級判定規(guī)則來量化。
因此,需要其中保持視頻的低級特征的所有信息并且較好地表示特征序列的框架。然后,可以并入域特定語法和內(nèi)容模型來識別高層結(jié)構(gòu)以便能夠在高層節(jié)目結(jié)構(gòu)而不只是鏡頭上進(jìn)行視頻分類和分段。
本發(fā)明的主要思想在于使用與人類分析員合作的的無監(jiān)督的聚類算法來辨別節(jié)目(諸如電視或視頻節(jié)目)的高層結(jié)構(gòu)。
更特別地是,本發(fā)明提供一種用于自動確定節(jié)目的高層結(jié)構(gòu)的設(shè)備和方法,所述節(jié)目諸如電視或視頻節(jié)目。所發(fā)明的方法由三個階段組成,這里第一階段指的是文本類型聚類階段,第二階段是種類/子種類識別階段,其中檢測目標(biāo)節(jié)目的種類/子種類類型,以及第三和最后階段,這里指的是結(jié)構(gòu)恢復(fù)階段。結(jié)構(gòu)恢復(fù)階段依靠圖形模型來表示節(jié)目結(jié)構(gòu)。用于訓(xùn)練的圖形模型可以是手動構(gòu)建的Petri網(wǎng),或使用Baum Welch訓(xùn)練算法來自動構(gòu)造的隱藏馬爾可夫模型。為了揭示目標(biāo)節(jié)目的結(jié)構(gòu),可以使用維特比(Viterbi)算法。
在第一階段中(即,文本類型聚類),從目標(biāo)節(jié)目的幀來檢測覆蓋和重疊的文本,所述目標(biāo)節(jié)目諸如為用戶感興趣的電視或視頻節(jié)目。對于在目標(biāo)節(jié)目中所檢測的每行文本,提取各種文本特征,諸如位置(行,列)、高度、字體和顏色。根據(jù)對每行檢測文本所提取的文本特征構(gòu)成特征向量。接下來,根據(jù)無監(jiān)督的聚類技術(shù)把特征向量分組為聚類。然后依照由特征向量所描述的文本類型來標(biāo)記所述聚類(例如,銘牌、分?jǐn)?shù)、片頭字幕等)。
在第二階段中(即,種類/子種類識別),進(jìn)行訓(xùn)練過程,借此依照上述在階段一的方法來分析用于表示各個種類/子種類類型的訓(xùn)練視頻以便確定它們各自的群集分布。一旦獲得,令聚類分布充當(dāng)各個種類/子種類類型的種類/子種類標(biāo)識符。例如,喜劇電影具有確定的聚類分布,而棒球比賽具有明顯不同的聚類分布。然而每個聚類分布完全表示它們各自的種類/子種類類型。在訓(xùn)練過程結(jié)束時,然后可以通過把先前在第一階段所獲得的聚類分布(文本類型聚類)與在第二階段所獲得的各個種類/子種類類型的聚類分布相比較,來確定目標(biāo)節(jié)目的種類/子種類類型。
在第三且最后階段中(即,高層節(jié)目結(jié)構(gòu)恢復(fù)階段),通過首先創(chuàng)建更高階圖形模型的數(shù)據(jù)庫,借此模型圖形化表示在多個種類/子種類類型節(jié)目的過程期間的視頻文本流,來恢復(fù)目標(biāo)節(jié)目的高層結(jié)構(gòu)。一旦通過使用在動作140所確定的文本檢測的結(jié)果以及在動作160所確定的聚類分布的結(jié)果構(gòu)造了圖形模型數(shù)據(jù)庫,那么可以識別和檢索多個存儲的模型中的單個圖形模型。所選擇的圖形模型以及文本檢測和聚類信息用來恢復(fù)節(jié)目的高層結(jié)構(gòu)。
諸如視頻或電視節(jié)目之類的節(jié)目的高層結(jié)構(gòu)可以有益地用于各式各樣的應(yīng)用中,包括但不限于搜索目標(biāo)節(jié)目中的時間事件和/或文本事件和/或節(jié)目事件,作為推薦器并且用于創(chuàng)建所述目標(biāo)節(jié)目的多媒體概要。
參照本發(fā)明說明性實施例的下列詳細(xì)說明并且結(jié)合附圖,本發(fā)明的上述特征將變得更加清楚并且可以理解,其中
圖1是圖示依照一個實施例的本發(fā)明的文本類型聚類階段的流程圖;圖2是圖示依照一個實施例的本發(fā)明的種類/子種類識別階段的流程圖;圖3是圖示依照一個實施例的本發(fā)明的高層結(jié)構(gòu)恢復(fù)階段的流程圖;圖4是用于圖示電影的節(jié)目事件的示例性圖形模型;圖5是與圖4的圖形模型相關(guān)聯(lián)的預(yù)先和后置條件的概要;和圖6是高階Petri網(wǎng)的說明性例子。
在本發(fā)明下面的詳細(xì)說明中,闡明了許多的具體細(xì)節(jié)以便提供根本的發(fā)明,其可以在沒有這些具體細(xì)節(jié)的情況下實施。在有些情況下,在框圖形式中沒有詳細(xì)地示出公知的結(jié)構(gòu)和裝置,以免模糊本發(fā)明。此外下述的圖1-6和在本專利文獻(xiàn)中用于描述發(fā)明原理的各個實施例僅僅為了說明,而不應(yīng)當(dāng)理解為對本發(fā)明的范圍的任何限制。
在下面的描述中,將明確地描述本發(fā)明的優(yōu)選實施例,其通??赡鼙粚崿F(xiàn)為軟件程序。那些本領(lǐng)域技術(shù)人員應(yīng)當(dāng)容易地認(rèn)識到,這種軟件的等效物也可以用硬件來構(gòu)造。由于視頻處理算法和系統(tǒng)是公知的,本說明書將特別針對形成依照本發(fā)明的系統(tǒng)和方法的一部分或與之直接合作的算法和系統(tǒng)。這種算法和系統(tǒng)的其它方面以及用于生成并處理與之相關(guān)的視頻信號的硬件和/或軟件(這里沒有特別示出或描述)可以從本領(lǐng)域中已知的這種系統(tǒng)、算法、組件和元件中選擇。在下面材料中描述的依照本發(fā)明的系統(tǒng)和方法,這里沒有特別示出、建議或描述的、可用于實現(xiàn)本發(fā)明的軟件是常規(guī)的并且為本領(lǐng)域技術(shù)人員所知。
更進(jìn)一步,如這里所用,計算機(jī)程序可以被存儲在計算機(jī)可讀存儲介質(zhì)中,其例如可以包括諸如磁盤(諸如硬盤驅(qū)動器或軟盤)或磁帶之類的磁存儲介質(zhì);諸如光盤、光帶或機(jī)器可讀的條形碼之類的光存儲介質(zhì);諸如隨機(jī)存取存儲器(RAM)或只讀存儲器(ROM)之類的固態(tài)電子存儲器;或用于存儲計算機(jī)程序的任何其它物理裝置或介質(zhì)。
隨后的描述使用在下面所定義的術(shù)語種類/子種類——種類是品種、類別或分類,尤其是文學(xué)或藝術(shù)作品的分類,并且子種類是特定種類內(nèi)的類別。種類的一個例子是“運動”,具有子種類籃球、棒球、足球、網(wǎng)球等。種類的另一例子是“電影”,具有子種類喜劇、悲劇、音樂、動作等。種類的其它例子例如包括“新聞”、“音樂節(jié)目”、“自然”、“談話節(jié)目”和“兒童節(jié)目”。
目標(biāo)節(jié)目——是終端用戶感興趣的視頻或電視節(jié)目。向本發(fā)明的過程提供所述目標(biāo)節(jié)目作為輸入。依照本發(fā)明的原理對目標(biāo)節(jié)目的操作提供下列能力(1)使終端用戶能夠接收所述目標(biāo)節(jié)目的多媒體概要,(2)恢復(fù)所述目標(biāo)節(jié)目的高層結(jié)構(gòu),(3)確定所述目標(biāo)節(jié)目的種類/子種類,(4)檢測在所述目標(biāo)節(jié)目內(nèi)的預(yù)定內(nèi)容,其可以是在節(jié)目中所想要或不想要的內(nèi)容,并且(5)接收關(guān)于所述目標(biāo)節(jié)目的信息(即,作為推薦器)。
聚類——聚類劃分向量集以便具有類似內(nèi)容的向量處于相同的組,并且組彼此之間盡可能彼此不同。
聚類算法——聚類算法通過找到類似項的組并且把它們分組為類別來進(jìn)行操作。當(dāng)所述類別未被指定時,這有時被稱為無監(jiān)督的聚類。當(dāng)所述類別被先驗指定時,這有時被稱為監(jiān)督聚類。
現(xiàn)在轉(zhuǎn)向圖1-3,示出了依照一個實施例的本發(fā)明的方法。
圖1是用于圖示依照一個實施例的本發(fā)明的第一階段的流程圖,這里指的是文本類型的聚類階段100,其中從目標(biāo)節(jié)目的幀中檢測覆蓋和重疊文本,所述目標(biāo)節(jié)目諸如用戶所感興趣的電視或視頻節(jié)目。
圖2是用于圖示依照一個實施例的本發(fā)明的第二階段的流程圖,這里指的是種類/子種類識別,在所述種類/子種類識別期間進(jìn)行訓(xùn)練過程,借此分析用于表示各個種類/子種類類型的訓(xùn)練視頻以便確定它們各自的聚類分布。一旦獲得,聚類分布充當(dāng)各個種類/子種類類型的種類/子種類標(biāo)識符。在訓(xùn)練過程結(jié)束時,然后可以通過把目標(biāo)節(jié)目的聚類分布與在訓(xùn)練期間所獲得的各個種類/子種類類型的聚類分布相比較來確定所述目標(biāo)節(jié)目的種類/子種類類型。
圖3是用于圖示依照一個實施例的本發(fā)明的第三階段的流程圖,指的是目標(biāo)節(jié)目結(jié)構(gòu)恢復(fù)階段,在所述結(jié)構(gòu)恢復(fù)階段期間通過首先創(chuàng)建更高階圖形模型的數(shù)據(jù)庫,借此每個模型圖形表示在特定種類/子種類類型的節(jié)目過程期間的視頻文本流,來確定所述目標(biāo)節(jié)目的高層結(jié)構(gòu)。一旦構(gòu)造了數(shù)據(jù)庫,先前在過程的階段一所獲得的結(jié)果用來從在所述數(shù)據(jù)庫中所存儲的圖形模型中識別并選擇單個圖形模型,以便恢復(fù)所述節(jié)目的高層結(jié)構(gòu),所述結(jié)果諸如關(guān)于所述目標(biāo)節(jié)目的文本檢測和聚類分布結(jié)果。
注意,除所圖示之外,并非在下述的過程流程圖中所描述的所有動作都要執(zhí)行。某些動作也可以與其它動作基本上同時執(zhí)行。在讀取此說明書之后,技術(shù)人員能夠確定什么動作能夠用于它們的具體需要。
I.第一階段-文本類型聚類如圖1的流程圖所示,第一階段,即文本類型的聚類階段100通常包括下列動作110-檢測在終端用戶感興趣的“目標(biāo)節(jié)目”中文本的存在,所述目標(biāo)節(jié)目諸如電視或視頻節(jié)目。
120-識別并提取在所述目標(biāo)節(jié)目中所檢測的視頻文本的每一行的文本特征。
130-根據(jù)所識別并提取的特征來形成特征向量。
140-把所述特征向量組織到聚類中。
150-依照在所述聚類中所存在的視頻文本類型來標(biāo)記每個聚類。
現(xiàn)在將更詳細(xì)地描述這些一般動作中的每一個。
在動作110,通過分析“目標(biāo)”電視或視頻節(jié)目以便檢測在目標(biāo)節(jié)目的單個視頻幀內(nèi)所包含的文本的存在來開始所述過程。在于2003年8月19日發(fā)布的Agnihotri等人的美國專利號6,608,930的題為“Method and System for Analyzing Video Content UsingDetected Text in Video Frames”的專利中提供了對視頻文本檢測的更詳細(xì)的解釋,這里通過全面引用以供參考。可以從目標(biāo)節(jié)目中檢測的文本類型例如可以包括開始和結(jié)束字幕、分?jǐn)?shù)、標(biāo)題文本、銘牌等。作為選擇,還可以依照MPEG-7標(biāo)準(zhǔn)來實現(xiàn)文本檢測,所述MPEG-7標(biāo)準(zhǔn)描述了用于靜態(tài)或移動視頻對象分段的方法。
在動作120,從在動作110所檢測的文本識別并提取文本特征。文本特征的例子可以包括位置(行和列)、高度(h)、字體(f)和顏色(r,g,b)。其它特征也是可以的。對于位置特征,為了實現(xiàn)本發(fā)明,考慮將視頻幀分成3×3網(wǎng)格以產(chǎn)生9個具體區(qū)域。位置特征的行和列參數(shù)定義所述文本所位于的特定區(qū)域。對于字體(f)特征,“f”表示所使用的字體類型。
在動作130,對于所檢測文本的每一行,將所提取的文本特征歸類為單個的特征向量,F(xiàn)v。
在動作140,特征向量Fv被組織(分組)為聚類{C1,C2,C3,...}。通過使用在特征向量FV1和聚類{C1,C2,C3,...},F(xiàn)V2之間的距離量度來實現(xiàn)分組,并且把特征向量FV1與具有最高相似度的聚類相關(guān)聯(lián)。無監(jiān)督的聚類算法可以用來根據(jù)相似性度量來聚類特征向量FV。
在一個實施例中,所使用的距離量度是曼哈頓距離(Manhattandistance),所述曼哈頓距離被計算為在各自文本特征中差異的絕對值的和,計算如下Dist(FV1,F(xiàn)V2)=w1*(|FV1row-FV2row|+|FV1col-FV2col|)+w2*(|FV1h-FV2h|)+w3*(|FV1f-FV2f|+|FV1g-FV2g|+|FV1b-FV2b|)+w4*(FontDist(f1,f2))等式(1)其中FV1row,F(xiàn)V2row=第一和第二特征向量行位置;FV1cot,F(xiàn)V2col=第一和第二特征向量列位置;FV1h,F(xiàn)V2h=第一和第二特征向量高度;FV1f,F(xiàn)V1g,F(xiàn)V1b=第一特征向量顏色(r,g,b);FV2f,F(xiàn)V2g,F(xiàn)V2b=第二特征向量顏色(r,g,b);f1=第一特征向量的字體;f2=第二特征向量的字體;FontDist(a,b)=在多個字體之間預(yù)先計算的距離;應(yīng)當(dāng)注意,可以根據(jù)經(jīng)驗確定w1到w4的加權(quán)系數(shù)以及“Dist”。
在動作150,然后依照聚類中的文本類型來標(biāo)記在動作140所形成的每個聚類{C1,C2,C3,...}。例如,聚類C1可以包括描述這樣文本的特征向量,所述文本總是以黃色播出并且總是位于屏幕的右下部。據(jù)此,由于所描述的特性指的是通知即將播放的文本,所以可能會把聚類C1標(biāo)記為“將來節(jié)目通知”。作為另一例子,聚類C2可以包括用于描述這樣文本的特征向量,所述文本總是以黑底藍(lán)色播出并且總是位于屏幕的左上部。據(jù)此,由于所述文本特征是用于顯示分?jǐn)?shù)的文本特征,所以可能把聚類C2標(biāo)記為“運動分?jǐn)?shù)”。
標(biāo)記聚類的過程,即動作150,可以手動或自動地執(zhí)行。手動方法的好處在于聚類標(biāo)簽更為直觀,例如“標(biāo)題文本”、“新聞更新”等。自動標(biāo)記生成諸如“TextType1”、“Texttype2”等之類的標(biāo)簽。
II.第二階段-種類/子種類識別如圖2的流程圖所示,第二階段,即種類/子種類識別階段200通常包括下列動作210-執(zhí)行種類/子種類識別訓(xùn)練。
210.a-特定種類/子種類類型的多個訓(xùn)練視頻N被作為輸入提供。
210.b-對于每個訓(xùn)練視頻N執(zhí)行文本檢測。
210.c-對于在每個訓(xùn)練視頻N中所檢測文本的每行識別并提取文本特征。
210.d-根據(jù)在動作210.c所提取的文本特征構(gòu)成特征向量。
210.e-通過使用距離量度將在動作210.d所形成的特征向量與在動作140所導(dǎo)出的一個聚類類型{C1,C2,C3,...}相關(guān)聯(lián),來根據(jù)特征向量導(dǎo)出聚類類型{C1,C2,C3,...}。
220-對于目標(biāo)節(jié)目的種類/子種類類型構(gòu)造種類特征向量。
為了進(jìn)一步幫助理解怎樣使用種類特征向量定義各個種類/子種類類型,提供了表1作為例子。表1的行描述了各個種類/子種類類型并且列2-5描述了在動作210執(zhí)行種類/子種類識別之后產(chǎn)生的聚類分布(計數(shù))。
表1
根據(jù)執(zhí)行種類/子種類識別所確定的種類特征向量表征了各自的種類/子種類類型,例如電影/西方={13,44,8,43},運動/棒球{5,33,8,4}等。
在動作220,確定目標(biāo)節(jié)目的種類/子種類類型。對于各個種類/子種類類型,現(xiàn)在把所述目標(biāo)節(jié)目的聚類分布(先前在動作140計算出的)與在動作210所確定的聚類分布相比較。通過確定在動作210所確定的哪個聚類分布最接近于在動作140所確定的目標(biāo)節(jié)目的聚類分布,來確定所述目標(biāo)節(jié)目的種類/子種類類型。可以使用閾值確定來確保足夠的相似度。例如,可能要求目標(biāo)節(jié)目的聚類分布具有與在動作210所確定的最近聚類分布至少80%的相似度,以便宣布成功地識別了目標(biāo)節(jié)目的種類/子種類。
Petri網(wǎng)概述在描述第三階段300,即高層結(jié)構(gòu)恢復(fù)階段300(下面將給出描述)之前,作為基礎(chǔ),特別集中于Petri原理來回顧某些圖形建模的基本原則。
Petri網(wǎng)的原理是公知的,并且在Austin的Peterson of theUniversity of Texas的James L的書“Petri Net Theory and theModeling of Systems”中給出了很好的闡述。這本書由Prentice-Hall,Inc.of Englewood Cliffs,N.J.出版,并且通過引用在此結(jié)合。
簡要地,Petri網(wǎng)是特定種類的有向圖,由兩種節(jié)點組成,稱作庫所和變遷,其具有有向弧,所述有向弧從庫所到變遷或從變遷到庫所。庫所用來收集令牌,即用來表示什么流過系統(tǒng)的元素,而變遷在庫所之間移動令牌。
在圖4中描述了具有庫所、變遷、弧和令牌的示例性Petri網(wǎng)系統(tǒng)。在圖4中所示出的Petri網(wǎng)是建模電影“The Player”的介紹分段的圖形模型。在該電影中,在三個獨立的文本位置處示出了電影的開始字幕,這里指的是L1、L2和L3。介紹分段期間文本在位置L1、L2和L3的出現(xiàn)以及隨后的消失是由Petri網(wǎng)根據(jù)系統(tǒng)狀態(tài)及其變化來圖形建模的。更特別地是,把系統(tǒng)狀態(tài)建模為一個或多個條件,而把系統(tǒng)狀態(tài)改變建模為變遷,稍后將對此進(jìn)行描述。
繼續(xù)參考圖4,示例性Petri網(wǎng)的“庫所”由空圈表示,并且被標(biāo)記為P1-P6并且在此例子中表示“條件”。例如,圖4的Petri網(wǎng)的一個條件是“在電影屏幕位置L1出現(xiàn)文本”。為了建模目的,此條件與庫所P5相關(guān)聯(lián)。變遷由矩形表示,被標(biāo)記為t1-t8并且表示事件。例如,圖4的Petri網(wǎng)的一個事件是“在電影屏幕位置L1文本開始”。為了建模目的,此事件與t2相關(guān)聯(lián)。
條件和事件的概念只是在Petri網(wǎng)原理中所使用的變遷和庫所的一個解釋。如所示的,每個變遷t1-t8具有某些輸入和輸出庫所,分別用于表示所述事件的前置條件和后置條件。對于要發(fā)生的事件,必須滿足前置條件。
對于圖4的示例性Petri網(wǎng),在圖5中提供了前置和后置條件以及把它們鏈接起來的事件的匯總。在列1中描述了前置條件,在列3中描述了后置條件,并且在列2描述了鏈接前置和后置條件的事件。
圖4的Petri網(wǎng)只是系統(tǒng)文本流的一個例子,其描述了一小段電視或視頻節(jié)目。因此圖4的Petri網(wǎng)可以被恰當(dāng)表征為“低階的”Petri網(wǎng)。本申請利用“更高階”的Petri網(wǎng),所述“高階”Petri網(wǎng)部分地根據(jù)“低階”Petri網(wǎng)構(gòu)造,下面將對此進(jìn)行描述。
III.第三階段-恢復(fù)目標(biāo)節(jié)目的高層結(jié)構(gòu)如圖3的流程圖所示,第三階段,即高階結(jié)構(gòu)恢復(fù)階段300通常包括下列動作310-目的恢復(fù)目標(biāo)節(jié)目的高層結(jié)構(gòu)。
310.a-創(chuàng)建高階圖形模型的數(shù)據(jù)庫。
310.b-識別每個較高階圖形模型內(nèi)的熱點。
310.c-獲取先前在動作140為目標(biāo)節(jié)目所產(chǎn)生的文本檢測的結(jié)果(參見圖1)。
310.d-獲取先前在動作160為目標(biāo)節(jié)目所產(chǎn)生的聚類分布的結(jié)果(參見圖1)。
310.e-使用目標(biāo)節(jié)目的聚類分布的結(jié)果,從所述數(shù)據(jù)庫中存儲的多個高階圖形模型中識別并獲取高階圖形模型的子集。
310.f-使用文本檢測的結(jié)果和在動作210.e所識別的高階圖形模型的子集,從在動作310.e所識別模型的子集中識別單個的高階圖形模型,所述單個高階圖形模型最近似于在動作210.c所獲取的目標(biāo)節(jié)目的文本檢測事件的序列。所述的單個高階圖形模型圖形化表示了目標(biāo)節(jié)目的高層結(jié)構(gòu)。
現(xiàn)在將更詳細(xì)地描述這些一般動作中的每一個。
在動作310.a,構(gòu)造多個較高階圖形模型(例如,Petri網(wǎng)),用于描述在整個節(jié)目過程期間的系統(tǒng)視頻文本流。多個圖形模型中的每一個唯一地描述了特定種類/子種類類型的視頻文本流。多個模型被存儲在數(shù)據(jù)庫中以便稍后在幫助確定用戶所感興趣的目標(biāo)節(jié)目的種類/子種類類型中參考。
在一個實施例中,圖形模型是手動構(gòu)造的高階Petri網(wǎng)。為了手動來構(gòu)造這種模型,系統(tǒng)設(shè)計者分析在各種節(jié)目種類/子種類類型的節(jié)目過程期間的視頻文本檢測和聚類映射。
在另一實施例中,使用Baum-Welch算法來把圖形模型自動地構(gòu)造為隱藏馬爾可夫模型。
不管構(gòu)造方法是手動還是自動的,高階圖形模型的某些關(guān)鍵特性是(1)高階圖形模型在節(jié)目級上對流進(jìn)行建模,并且(2)圖形模型包括實際上是低階圖形模型的速記表示的變遷。換句話說,高階模型部分地根據(jù)低階圖形模型構(gòu)建。參考圖6進(jìn)一步說明了此關(guān)鍵特性。
圖6是高階Petri網(wǎng)的說明性例子,高階Petri網(wǎng)是一種類型的高階圖形模型。圖6的高階Petri網(wǎng)圖形化示出了在花樣滑冰節(jié)目過程期間的系統(tǒng)視頻文本流。即,它在節(jié)目級對系統(tǒng)流建模。眾所周知,花樣滑冰節(jié)目由多個節(jié)目事件組成,諸如在下面的表II中所列出。
表II
要求前置條件來觸發(fā)事件并且后置條件作為事件的結(jié)果出現(xiàn)。在本說明性例子中的條件可以被定義為(條件a-節(jié)目開始);(條件b-滑冰者介紹);(條件c-滑冰者現(xiàn)有分?jǐn)?shù));和(條件d-最終比賽結(jié)果顯示)。
應(yīng)當(dāng)理解圖6的高階網(wǎng)的事件1-5實際上是低階Petri網(wǎng)的速記表示。例如,第一事件1——即開始字幕——可擴(kuò)展為諸如在圖4中所示出的低階Petri網(wǎng)。
在動作310.b-在動作210.a所構(gòu)造的每個高階圖形模型內(nèi),可以識別多個感興趣區(qū)域(“熱點”)。這些熱點可以具有可變范圍。這些熱點區(qū)域?qū)?yīng)于那些可能為終端用戶感興趣的事件。例如,事件2“滑冰者表演”作為感興趣的節(jié)目事件可能具有比事件1“開始片頭字幕”更多的重要性??梢越o所謂的“熱點”分配對應(yīng)于其相對重要性的等級順序。此外,對于所謂的熱點也可以識別組成高階Petri網(wǎng)的低階Petri網(wǎng)。
在動作310.c-獲取先前在動作140為目標(biāo)節(jié)目所產(chǎn)生的文本檢測的結(jié)果(參見圖1)。
在動作310.d-獲取先前在動作160為目標(biāo)節(jié)目所產(chǎn)生的聚類分布的結(jié)果(參見圖1)。
在動作310.e-使用先前在動作210.d所獲取的目標(biāo)節(jié)目的聚類分布數(shù)據(jù),從數(shù)據(jù)庫中識別并選擇在動作210.a所創(chuàng)建的高階圖形模型的子集。通過確定哪個高階模型包含為所述目標(biāo)節(jié)目識別的相同聚類來選擇高階模型的子集。
在動作310.f-使用先前在動作310.c所獲取的目標(biāo)節(jié)目的文本檢測數(shù)據(jù),從動作310.d所識別的網(wǎng)的子集中識別單個高階Petri網(wǎng)。為了識別一個高階Petri網(wǎng),把文本檢測數(shù)據(jù)與Petri網(wǎng)子集的每個Petri網(wǎng)的系統(tǒng)流相比較以便識別滿足所述目標(biāo)節(jié)目的文本事件序列的一個Petri網(wǎng)。
作為識別最相似于目標(biāo)節(jié)目的高層結(jié)構(gòu)的單個圖形模型的結(jié)果,可以容易地獲得關(guān)于所述目標(biāo)節(jié)目的信息。這種信息例如可以包括時間事件、文本事件、節(jié)目事件、節(jié)目結(jié)構(gòu)、概要。
作為一個具體例子,可以使用來自目標(biāo)節(jié)目的文本檢測數(shù)據(jù)連同識別的單個高階圖形模型一起來辨別節(jié)目事件信息。表III表示目標(biāo)節(jié)目的虛構(gòu)文本檢測數(shù)據(jù)。
如表III的第一行所圖示,文本檢測產(chǎn)生關(guān)于所檢測的特定文本事件的聚類類型的數(shù)據(jù)(列1),出現(xiàn)文本事件的時間(列2),所述文本事件的持續(xù)時間(列3)和規(guī)定所述文本事件必須出現(xiàn)的時間下限和上限的時間邊界信息。應(yīng)當(dāng)理解,為了便于解釋,所述表表示在節(jié)目持續(xù)期間所出現(xiàn)的文本事件序列的簡略版本。
表3
如表2所示,本發(fā)明的感光性樹脂組合物是高靈敏度的,能以高分辨率形成圖案。而且如表3所示,對于延伸率和吸水率而言,即使在250℃固化,也能得到與300℃固化時毫不遜色的膜物性。關(guān)于5%重量減少溫度,在250℃固化的雖然顯示稍微低數(shù)值,但是這些數(shù)值在大致450℃以上實用都沒有問題。此外,關(guān)于實施例10,調(diào)查了300℃下保持1小時情況下滲出的氣體,在250℃固化時為1.3%,與在300℃固化時的0.95%的數(shù)值相比毫不遜色。
應(yīng)當(dāng)理解,這里所示出并描述的實施例和變化僅僅說明本發(fā)明的原理,并且在不脫離本發(fā)明范圍和精神的情況下那些本領(lǐng)域技術(shù)人員可以實現(xiàn)各種修改。
在解釋附加權(quán)利要求中,應(yīng)當(dāng)理解的是a)詞“包括”并不排除那些沒有在給定權(quán)利要求中列出的其它元件或動作的存在;b)位于元件之前的詞“一個”或“一種”并不排除存在多個這樣的元件。
c)權(quán)利要求中的任何附圖標(biāo)記并不限制其保護(hù)范圍;d)幾個“裝置”可以由相同的項或硬件或用軟件實現(xiàn)的結(jié)構(gòu)或功能來表示;以及e)每個公開的元件可以由硬件部分(例如,離散的電子線路)、軟件部分(例如,計算機(jī)程序)或其組合來組成。
權(quán)利要求
1.一種用于恢復(fù)目標(biāo)節(jié)目的高層結(jié)構(gòu)的方法,包括動作a)產(chǎn)生所述目標(biāo)節(jié)目的文本檢測數(shù)據(jù);b)使用在動作(a)所產(chǎn)生的文本檢測數(shù)據(jù)來產(chǎn)生所述目標(biāo)節(jié)目的種類/子種類特征向量;c)創(chuàng)建多個高階圖形模型;d)使用所述目標(biāo)節(jié)目的聚類分布數(shù)據(jù)來識別所述高階圖形模型的子集;并且d)使用所述目標(biāo)節(jié)目文本檢測數(shù)據(jù)來從所述模型子集中識別單個的高階圖形模型,其中所述單個的高階圖形模型對應(yīng)于所述目標(biāo)節(jié)目的高層結(jié)構(gòu)。
2.如權(quán)利要求1所述的方法,還包括動作使用具有所述文本檢測數(shù)據(jù)的單個高階圖形模型來創(chuàng)建節(jié)目概要。
3.如權(quán)利要求2所述的方法,其中創(chuàng)建所述節(jié)目概要的動作還包括動作確定對觀眾重要的一個或多個事件;搜索所述重要事件的文本檢測數(shù)據(jù);從所述文本檢測數(shù)據(jù)提取所述重要事件;并且把所述提取的事件包括在所述節(jié)目概要中。
4.如權(quán)利要求1所述的方法,還包括創(chuàng)建節(jié)目概要的動作,包括動作搜索節(jié)目事件;根據(jù)預(yù)定等級來分級在所述搜索動作上所識別的節(jié)目事件;根據(jù)所述等級選擇特定的所述識別的節(jié)目事件。
5.如權(quán)利要求4所述的方法,其中搜索節(jié)目事件的動作,包括動作確定共同定義一個節(jié)目事件的文本事件序列;搜索所述文本事件序列的文本檢測數(shù)據(jù);當(dāng)識別所述文本檢測數(shù)據(jù)中的所述文本事件序列時,把所述文本事件序列與在所述高階圖形模型中的相應(yīng)節(jié)點相比較;并且確定所述文本事件序列出現(xiàn)的時間序列是否符合與在所述高階圖形模型中的相應(yīng)節(jié)點相關(guān)聯(lián)的時間約束。
6.如權(quán)利要求1所述的方法,還包括搜索所述目標(biāo)節(jié)目中如下信息的動作,包括文本類型、與除所述目標(biāo)節(jié)目之外節(jié)目的相似性、文本模式、節(jié)目事件和節(jié)目事件模式。
7.如權(quán)利要求6所述的方法,其中要在所述目標(biāo)節(jié)目中搜索的所述信息使用由所述文本檢測數(shù)據(jù)和所述單個高階圖形模型所提供的信息。
8.如權(quán)利要求1所述的方法,其中所述圖形模型是Petri網(wǎng)模型、隱藏馬爾可夫模型以及所述Petri網(wǎng)模型和所述隱藏馬爾可夫模型的組合之一。
9.如權(quán)利要求1所述的方法,其中所述目標(biāo)節(jié)目是電視和視頻節(jié)目之一。
10.如權(quán)利要求1所述的方法,其中產(chǎn)生所述目標(biāo)節(jié)目的文本檢測數(shù)據(jù)的動作還包括動作i)檢測在所述目標(biāo)節(jié)目中文本的存在;ii)識別并提取所檢測文本的文本特征;并且iii)根據(jù)所識別并提取的特征來形成文本特征向量。
11.如權(quán)利要求10所述的方法,其中依照MPEG-7標(biāo)準(zhǔn)來執(zhí)行檢測在所述目標(biāo)節(jié)目中文本存在的動作。
12.如權(quán)利要求10所述的方法,其中所識別并提取的文本特征包括文本位置、文本高度、文本字體和文本顏色。
13.如權(quán)利要求10所述的方法,其中檢測在所述目標(biāo)節(jié)目中文本存在的動作還包括檢測在所述目標(biāo)節(jié)目的特定視頻幀中文本存在的動作。
14.如權(quán)利要求10所述的方法,其中產(chǎn)生所述目標(biāo)節(jié)目的所述種類/子種類特征向量的動作還包括動作把在動作(iii)所產(chǎn)生的目標(biāo)節(jié)目的文本特征向量與各個種類/子種類類型的多個預(yù)定種類/子種類特征向量相比較;并且把所述目標(biāo)節(jié)目的文本特征向量與具有最高相似度的種類/子種類特征向量相關(guān)聯(lián);把在相關(guān)聯(lián)步驟所識別的種類/子種類特征向量的集合定義為所述目標(biāo)節(jié)目的種類/子種類特征向量。
15.如權(quán)利要求1所述的方法,其中所述多個高階圖形模型在節(jié)目級對特定節(jié)目的種類/子種類類型進(jìn)行圖形建模。
16.如權(quán)利要求12所述的方法,其中所述高階圖形模型的變遷元素可以由低階圖形模型組成,所述低階模型包括節(jié)目文本和定時信息。
17.如權(quán)利要求16所述的方法,其中所述低階圖形模型被建模為Petri網(wǎng)。
18.如權(quán)利要求17所述的方法,其中可以向所述變遷元素分配相對于所述高階模型的其它變遷元素的優(yōu)先級次序。
19.如權(quán)利要求1所述的方法,其中依照無監(jiān)督的聚類算法來執(zhí)行產(chǎn)生所述目標(biāo)節(jié)目的種類特征向量聚類數(shù)據(jù)的動作。
20.如權(quán)利要求19所述的方法,其中所述無監(jiān)督的聚類算法基于比較相應(yīng)的文本特征的距離量度。
21.如權(quán)利要求20所述的方法,其中所述距離量度被計算為Dist(FV1,F(xiàn)V2)=w1*(|FV1row-FV2row|+|FV1col-FV2col|)+w2*(|FV1h-FV2h|)+w3*(|FV1f-FV2f|+|FV1g-FV2g|+|FV1b-FV2b|)+w4*(FontDist(f1,f2))其中FV1row,F(xiàn)V2row=第一和第二特征向量行位置;FV1col,F(xiàn)V2col=第一和第二特征向量列位置;FV1h,F(xiàn)V2h=第一和第二特征向量高度;FV1r,F(xiàn)V1g,F(xiàn)V1b=第一特征向量顏色(r,g,b);FV2r,F(xiàn)V2g,F(xiàn)V2b=第二特征向量顏色(r,g,b);f1=第一特征向量的字體;f2=第二特征向量的字體;并且FontDist(a,b)=在多個字體之間預(yù)先算出的距離;
22.一種用于恢復(fù)目標(biāo)節(jié)目的高層結(jié)構(gòu)的系統(tǒng),所述系統(tǒng)包括用于存儲計算機(jī)可讀代碼的存儲器,用于存儲多個高階Petri網(wǎng)的數(shù)據(jù)庫以及可操作來耦合到所述存儲器的處理器,所述處理器被配置為產(chǎn)生所述目標(biāo)節(jié)目的文本檢測數(shù)據(jù);使用所述文本檢測數(shù)據(jù)來產(chǎn)生所述目標(biāo)節(jié)目的種類/子種類特征向量;創(chuàng)建多個高階圖形模型;使用所述目標(biāo)節(jié)目的聚類分布數(shù)據(jù)來識別所述高階圖形模型的子集;并且使用所述目標(biāo)節(jié)目的文本檢測數(shù)據(jù)來從所述模型的子集中識別單個高階圖形模型,其中所述單個高階圖形模型對應(yīng)于所述目標(biāo)節(jié)目的高層結(jié)構(gòu)。
全文摘要
提供了一種用于使用與人類分析員合作的無監(jiān)督聚類算法來恢復(fù)節(jié)目(諸如電視或視頻節(jié)目)的高層結(jié)構(gòu)的設(shè)備和方法。所述方法由三個階段組成,這里第一階段指的是文本類型聚類階段,第二階段是種類/子種類識別階段,其中檢測目標(biāo)節(jié)目的種類/子種類類型,以及第三且最后階段,這里指的是結(jié)構(gòu)恢復(fù)階段。結(jié)構(gòu)恢復(fù)階段依靠圖形模型來表示節(jié)目結(jié)構(gòu)。節(jié)目的高層結(jié)構(gòu)一旦被恢復(fù),可以被有益地用于恢復(fù)進(jìn)一步的信息,包括但不限于時間事件、文本事件、節(jié)目事件等。
文檔編號G06K9/34GK1860480SQ200480028300
公開日2006年11月8日 申請日期2004年9月28日 優(yōu)先權(quán)日2003年9月30日
發(fā)明者L·阿尼霍特里, N·迪米特羅瓦 申請人:皇家飛利浦電子股份有限公司