專利名稱:一種視頻摘要生成方法和裝置的制作方法
技術領域:
本發(fā)明涉及視頻處理技術領域,特別涉及一種視頻摘要生成方法和裝置。
背景技術:
目前,電視內(nèi)容的主流仍然是廣播式、被動式、線性順序觀看式的體驗。而交互式電視則是要創(chuàng)建主動的、定制的、可雙向交流的電視內(nèi)容。雖然交互式電視的內(nèi)容可以追溯到19世紀20年代,但是直至目前仍然不是很成熟。目前交互式電視的內(nèi)容和形式都非常有限,比如在線視頻點播,時移電視(允許用戶錄制節(jié)目并回訪),DVD的章節(jié)瀏覽功能。交互式電視主要靠人工編輯,產(chǎn)生和維護的,人工產(chǎn)生和編輯交互式電視節(jié)目內(nèi)容的主要缺點在于速度非常慢,而且人工非常的昂貴。
隨著計算機技術和多媒體技術的發(fā)展,個人計算機和數(shù)碼設備越來越普遍,人們在生活中觀看和拍攝越來越多的視頻。數(shù)字視頻已經(jīng)成為人們學習和娛樂中不可缺少的一部分。
相對于文本和圖像,視頻具有信息量豐富的優(yōu)點,但是也有數(shù)據(jù)量巨大,結(jié)構(gòu)化程度低的缺點。目前用戶對視頻內(nèi)容的獲取只能是線性的。用戶如果想了解一段視頻的內(nèi)容,只能從頭瀏覽到尾,充其量可以使用快進快退的方式加快瀏覽的速度。要想實現(xiàn)用戶對視頻內(nèi)容的有效獲取,就要通過分析視頻的結(jié)構(gòu)來提高視頻的結(jié)構(gòu)化程度。
通過對視頻進行分析生成視頻摘要,在視頻檢索中用戶可以快速瀏覽視頻摘要來判斷得到的結(jié)果是不是自己想要的。但是,手工生成的視頻摘要速度非常慢,而且人工非常的昂貴。目前存在一些自動生成視頻摘要的技術,但都存在各自的缺點和不足,如,準確率低、適應范圍小等問題。發(fā)明內(nèi)容
本發(fā)明的發(fā)明人發(fā)現(xiàn)上述現(xiàn)有技術中存在問題,并因此針對所述問題中的至少一個問題提出了一種新的技術方案。
本發(fā)明的一個目的是提供一種用于視頻摘要生成的技術方案。
根據(jù)本發(fā)明的第一方面,提供一種視頻摘要生成方法,包括:
利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類;
根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測;
從視頻場景中抽取關鍵幀以生成視頻場景摘要。
可選地,該方法還包括:通過鏡頭分割技術將所述視頻分割成各個鏡頭;對每個所述鏡頭抽取關鍵幀;根據(jù)所述鏡頭的關鍵幀合成視頻鏡頭摘要。
可選地,所述利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類包括:
利用視頻中的文本特征、音頻信息和視頻特征確定新聞類的視頻;
所述根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測包括:
利用文本信息、主持人信息,播音室內(nèi)的鏡頭特征和新聞臺標信息對所述新聞類的視頻進行新聞故事分割以檢測新聞故事場景??蛇x地,所述利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類包括:利用視頻中的文本特征、音頻信息和視頻特征確定體育類的視頻;所述根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測包括:對所述體育類的視頻進行關鍵體育事件檢測以檢測體育關鍵場景。可選地,該方法還包括:對各個視頻場景抽取關鍵幀;根據(jù)視頻場景關鍵幀的靜態(tài)圖片生成視頻場景瀏覽圖。根據(jù)本發(fā)明的另一方面,提供一種視頻摘要生成裝置,包括:視頻分類模塊,用于利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類;場景檢測模塊,用于根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測;場景摘要生成模塊,用于從視頻場景中抽取關鍵幀以生成視頻場景摘要。可選地,該裝置還包括鏡頭摘要生成模塊,用于通過鏡頭分割技術將所述視頻分割成各個鏡頭;對每個所述鏡頭抽取關鍵幀;根據(jù)所述鏡頭的關鍵幀合成視頻鏡頭摘要。可選地,視頻分類模塊包括:新聞視頻確定單元,用于利用視頻中的文本特征、音頻信息和視頻特征確定新聞類的視頻;所述場景檢測模塊包括:新聞場景檢測單元,用于利用文本信息、主持人信息,播音室內(nèi)的鏡頭特征和新聞臺標信息對所述新聞類的視頻進行新聞故事分割以檢測新聞故事場景??蛇x地,所述利視頻分類模塊包括:體育視頻確定單元,用于利用視頻中的文本特征、音頻信息和視頻特征確定體育類的視頻;所述場景檢測模塊包括:體育事件檢測單元,用于對所述體育類的視頻進行關鍵體育事件檢測以檢測體育關鍵場景??蛇x地,該裝置還包括場景瀏覽生成模塊,用于對各個視頻場景抽取關鍵幀,根據(jù)視頻場景關鍵幀的靜態(tài)圖片生成視頻場景瀏覽圖。本發(fā)明的一個優(yōu)點在于,利用視頻的多維度特征對視頻進行分類,可以提高視頻分類的準確性;根據(jù)視頻的分類對視頻進行視頻場景檢測,使得檢測的場景更準確、更有針對性,從而使得視頻場景摘要更準確。通過以下參照附圖對本發(fā)明的示例性實施例的詳細描述,本發(fā)明的其它特征及其優(yōu)點將會變得清楚。
構(gòu)成說明書的一部分的附圖描述了本發(fā)明的實施例,并且連同說明書一起用于解釋本發(fā)明的原理。參照附圖,根據(jù)下面的詳細描述,可以更加清楚地理解本發(fā)明,其中:圖1示出根據(jù)本發(fā)明的視頻摘要生成方法的一個實施例的流程圖。圖2示出根據(jù)本發(fā)明的視頻摘要生成方法的另一個實施例的流程圖。
圖3示出根據(jù)本發(fā)明的視頻摘要生成方法的又一個實施例的流程圖。圖4示出根據(jù)本發(fā)明的視頻摘要生成方法的一個實施例的流程圖。圖5示出視頻預覽示意圖。圖6示出根據(jù)本發(fā)明的新聞類視頻摘要生成方法的一個實施例的流程圖。圖7示出根據(jù)本發(fā)明的視頻摘要生成裝置的一個實施例的結(jié)構(gòu)圖。圖8示出根據(jù)本發(fā)明的視頻摘要生成裝置的另一個實施例的結(jié)構(gòu)圖。圖9示出根據(jù)本發(fā)明的視頻摘要生成裝置的又一個實施例的結(jié)構(gòu)圖。
具體實施例方式現(xiàn)在將參照附圖來詳細描述本發(fā)明的各種示例性實施例。應注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達式和數(shù)值不限制本發(fā)明的范圍。同時,應當明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關系繪制的。以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應用或使用的任何限制。對于相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為授權說明書的一部分。在這里示出和討論的所有示例中,任何具體值應被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實施例的其它示例可以具有不同的值。應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。本文中,涉及視頻、視頻幀、鏡頭、場景等多個概念,下面首先對上述幾個概念進行間單介紹。視頻是連續(xù)的圖像序列,通?;谝曨l結(jié)構(gòu)的分析對視頻進行處理。一般來說,視頻可以自下而上劃分為視頻幀、鏡頭和場景。視頻幀是組成視頻的最小邏輯單元,一般指靜態(tài)的圖像。將時間上連續(xù)的視頻幀序列按等間隔進行連續(xù)播放,就可以形成動態(tài)的視頻;鏡頭是由一系列視頻幀組成的一段視頻,通常是由單個攝像機的連續(xù)拍攝所產(chǎn)生的連續(xù)視頻幀序列;場景是一個有意義的故事單元,可能包含多個鏡頭,也可能只包含一個鏡頭中的一段視頻幀序列。圖1示出根據(jù)本發(fā)明的視頻摘要生成方法的一個實施例的流程圖。如圖1所示,步驟102,利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類。文本特征例如包括視頻中的標題、語音識別結(jié)果等;音頻信息包括從音頻中提取的各種特征;視頻特征例如包括基于顏色的特征、基于鏡頭的特征、基于物體的特征、基于運動的特征等。各個特征可以通過支持向量機(Support Vector Machine, SVM) ,HMM(隱馬爾可夫),多維聚類、人工神經(jīng)網(wǎng)絡等技術進行組合分類。步驟104,根據(jù)視頻的分類對視頻進行對應的視頻場景檢測。根據(jù)視頻的不同分類,對視頻進行對應的視頻場景檢測。例如,對新聞類視頻進行新聞故事的場景檢測,對體育類視頻進行體育事件場景檢測等。
步驟106,從各個視頻場景中抽取關鍵幀以生成視頻的視頻場景摘要。
上述實施例中,利用視頻的多維度特征對視頻進行分類,可以提高視頻分類的準確性;根據(jù)視頻的分類對視頻進行視頻場景檢測,使得檢測的場景更準確、更有針對性,從而使得視頻場景摘要更準確,適應范圍更廣。
圖2示出根據(jù)本發(fā)明的視頻摘要生成方法的另一個實施例的流程圖。
如圖2所示,步驟202,通過鏡頭分割技術將視頻分割成各個鏡頭。鏡頭分割主要通過鏡頭邊界檢測實現(xiàn),鏡頭邊界檢測就是檢測出前后兩個鏡頭之間的邊界,實現(xiàn)鏡頭劃分的過程。可以采用多種技術手段將視頻分割成多個鏡頭,例如時空切片比較方、塊比較法、直方圖比較法等。在具體實現(xiàn)時可以參見該領域的相關算法,在此不再贅述。
步驟204,根據(jù)各個鏡頭通過智能鏡頭組合技術產(chǎn)生視頻場景。
步驟206,從各個視頻場景中抽取關鍵幀。
步驟208,根據(jù)各個關鍵幀的靜態(tài)圖片生成視頻場景瀏覽圖。
步驟210,根據(jù)各個關鍵幀生成視頻場景摘要。
上述實施例中,根據(jù)視頻場景的關鍵幀,生成視頻場景瀏覽圖和視頻場景摘要,既方便了視頻的快速瀏覽,也便于視頻的瀏覽和快速定位。
圖3示出根據(jù)本發(fā)明的視頻摘要生成方法的又一個實施例的流程圖。
如圖3所示,步驟302,通過鏡頭分割技術將所述視頻分割成各個鏡頭。
步驟304,對每個鏡頭抽取關鍵幀。抽取的關鍵幀的數(shù)目可以多一些。
步驟306,根據(jù)鏡頭的關鍵幀合成視頻鏡頭摘要。根據(jù)關鍵幀最后的輸出的結(jié)果是一個視頻,而不是靜態(tài)的圖片幀。
上述實施例中,沒有對視頻進行分類,不做場景分類,而是對每個鏡頭都抽取關鍵幀,根據(jù)鏡頭的關鍵幀合成視頻鏡頭摘要,可以避免較復雜的場景檢測問題,能夠較快速地實現(xiàn)視頻的摘要瀏覽。
圖4示出根據(jù)本發(fā)明的視頻摘要生成方法的一個實施例的流程圖。該實施例中,對于輸入的視頻,根據(jù)視頻類型的不同,采用不同的內(nèi)容分析技術完成視頻預覽生成。
如圖4所示,步驟402,將輸入的視頻進行分類。例如,利用將視頻分為新聞類節(jié)目、體育類節(jié)目或其他類型的視頻節(jié)目。視頻分類的目的是要對特定類型的視頻,利用領域相關的信息,獲取更好的多媒體分析,提高關鍵幀抽取的準確率。視頻分類技術可以利用視頻中的文本特征(如已有的字幕),音頻中的信息(如自動語音識別產(chǎn)生的字幕),視頻特征(如基于顏色的信息、基于鏡頭的信息等),使用機器學習的方式完成。稍后將具體介紹一個新聞類視頻的具體實現(xiàn)。
步驟404a,對新聞類的視頻進新聞故事分割技術。和一般的視頻類型相比,新聞節(jié)目更具有更好的結(jié)構(gòu)性,在新聞故事層面形成了一種自然的場景,每個新聞故事可以認為是一個視頻場景。故事分割技術可以利用文本信息,主持人的信息,播音室內(nèi)的鏡頭特征和某些新聞臺標信息,使用機器學習的方法完成故事分割。通過對新聞類視頻的故事場景檢測,可以比一般類型的視頻的場景分割取得更好的準確度。
步驟404b,對于體育節(jié)目類的節(jié)目,可以根據(jù)體育視頻的類型,預先定義好體育事件(比如對于足球比賽,進球就是一種關鍵事件)。然后使用機器學習的方法,對于每一種體育節(jié)目檢測到這些關鍵事件對應的視頻段。和普通視頻不同,對于體育節(jié)目,僅僅將檢測到的關鍵體育事件作為視頻的關鍵的視頻場景。步驟404c,對于一般類型的視頻,首先將視頻進行鏡頭分割,然后把鏡頭組合成為視頻場景。步驟406,根據(jù)不同類型的視頻,對于每個視頻場景抽取一個視頻關鍵幀,將這些關鍵幀以靜態(tài)圖片的方式展示在屏幕上,生成視頻的預覽。具體的說,對于新聞節(jié)目類的節(jié)目是對每個新聞故事抽取關鍵幀;對于體育節(jié)目而已,則是對于關鍵事件提取視頻關鍵幀;對于一般的視頻而言,對于每個場景抽取視頻的關鍵幀。生成圖5所示的視頻瀏覽圖。一個視頻的預覽如圖5所示。在視頻的主要視圖之外,展示一系列自動抽取的視頻關鍵幀圖片作為視頻預覽。用戶可以通過這些關鍵幀迅速瀏覽到整個視頻的內(nèi)容,從而能夠迅速跳到感興趣的片段中。在新聞視頻的故事分隔中,可以利用新聞廣播的結(jié)構(gòu)信息來檢測故事邊界。在廣播中的每個故事通常以介紹新的故事的錨點人物的引導鏡頭(Leading Shot)開始。該錨點(anchor)鏡頭隨后通常是關于該故事的更詳細的報道。錨點鏡頭通常在新聞工作室中被拍攝并且在單個廣播中它們通過相同的攝像機設置被捕捉,因此呈現(xiàn)很強的視覺相似性。圖6示出根據(jù)本發(fā)明的新聞類視頻摘要生成方法的一個實施例的流程圖。該實施例中,將廣播電視新聞節(jié)目自動分隔成各個新聞故事(News Story)。首先將新聞節(jié)目分隔成各個鏡頭,運行多個分析工具來提取表示每個鏡頭的特征;然后使用SVM來組合這些特征提取工具的結(jié)果,該SVM被訓練來檢測錨點人物(anchorperson)鏡頭。然后基于錨點人物鏡頭在節(jié)目中的位置將新聞廣播分隔成各個新聞故事場景。如圖6所示,用于預處理和特征提取的視覺分析的步驟包括:步驟602,鏡頭聚類?;陬伾狈綀D將具有視覺相似性的鏡頭組合在一起。使用余弦相似性度量(Cosine similarity measure)來計算各個鏡頭的關鍵巾貞之間的距離;基于該距離將鏡頭聚類。通過鏡頭聚類,將錨點人物鏡頭放在了相同的類中。然后,應用一些啟發(fā)式規(guī)則(Heuristics)來區(qū)分錨點人物組和非錨點人物組:(I)鏡頭的時間范圍必須同高于預定的閾值。錨點人物鏡頭傾向于散布在整個廣播,因此視覺上相似但是在廣播出現(xiàn)非常靠近的鏡頭應該被拒絕。(2)組相似性均值(Group Similarity Mean)應該高于一個非常高的閾值。這是因為錨點人物鏡頭相互間非常相似并且形成“緊”聚類。(3)平均錨點人物鏡頭長度應該長于最小閾值。這是因為錨點人物鏡頭和其他的視頻內(nèi)容相比通常很長,很少持續(xù)少于5秒鐘。步驟604,人臉檢測(I)人臉檢測過程的第一步涉及圖像的顏色分析。人類皮膚的顏色落入顏色頻譜中一個相對窄的帶,檢測類似皮膚(Skin-1ike)像素是可行的方案。然后使用形態(tài)學濾波(Morphological Filtering)來獲得平滑的連接像素的同質(zhì)區(qū)域(HomogeneousArea) 0形狀和大小啟發(fā)式規(guī)則用來去除一些候選區(qū)域。剩下的候選區(qū)域被送到主分量分析(Principle Component Analysis, PCA)模塊。(2)PCA模塊檢測候選區(qū)域,然后將它們分為人臉和非人臉。具體實現(xiàn)可以參見現(xiàn)有技術的實現(xiàn)方法。可以在每個鏡頭中的12幀執(zhí)行該檢測。
步驟606,運動行為分析(Motion Activity Analysis)(I)由于錨點人物鏡頭傾向于具有低的視覺行為,僅有的運動通常對應于錨點人物的頭/身體/嘴的移動。我們測量幀間的視覺行為來幫助我們的錨點人物檢測。(2)使用具有最小數(shù)量的動作的P幀被用來表示該鏡頭;將鏡頭中所有P幀的運動向量相加來表示總的運動。步驟608,使用支持向量機組合特征,從而實現(xiàn)場景劃分。使用SVM來組合特征分析的輸出:鏡頭聚類的結(jié)果、人臉檢測的結(jié)果和運動行為分析結(jié)果。圖7示出根據(jù)本發(fā)明的視頻摘要生成裝置的一個實施例的結(jié)構(gòu)圖。如圖7所示,該實施例中包括:視頻分類模塊71,用于利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類;場景檢測模塊72,用于根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測;場景摘要生成模塊73,用于從視頻場景中抽取關鍵幀以生成視頻場景摘要。圖8示出根據(jù)本發(fā)明的視頻摘要生成裝置的另一個實施例的結(jié)構(gòu)圖。如圖8所示,該實施例中,除了視頻分類模塊71、場景檢測模塊72和場景摘要生成模塊73,可選地,還包括鏡頭摘要生成模塊85和/或場景瀏覽生成模塊84。鏡頭摘要生成模塊85,用于通過鏡頭分割技術將所述視頻分割成各個鏡頭;對每個所述鏡頭抽取關鍵幀;根據(jù)所述鏡頭的關鍵幀合成視頻鏡頭摘要。場景瀏覽生成模塊84,用于對各個視頻場景抽取關鍵幀,根據(jù)視頻場景關鍵幀的靜態(tài)圖片生成視頻場景瀏覽圖。圖9示出根據(jù)本發(fā)明的視頻摘要生成裝置的又一個實施例的結(jié)構(gòu)圖。如圖9所示,該實施例中視頻摘要生成裝置包括視頻分類模塊91、場景檢測模塊92和場景摘要生成模塊73。其中,視頻分類模塊91包括:新聞視頻確定單元911,用于利用視頻中的文本特征、音頻信息和視頻特征確定新聞類的視頻;體育視頻確定單元912,用于利用視頻中的文本特征、音頻信息和視頻特征確定體育類的視頻。場景檢測模塊92包括:新聞場景檢測單元921,用于利用文本信息、主持人信息,播音室內(nèi)的鏡頭特征和新聞臺標信息對所述新聞類的視頻進行新聞故事分割以檢測新聞故事場景;體育事件檢測單元922,用于對所述體育類的視頻進行關鍵體育事件檢測以檢測體育關鍵場景。需要指出,圖7、圖8和圖9中各個模塊和單元的功能和作用可以參見上述方法實施例中對應描述,為簡潔起見在此不再詳細描述。采用了本公開使用的技術方案,可以基于現(xiàn)有的多媒體內(nèi)容分析技術,便宜而快速的為電視視頻節(jié)目添加更多的交互式的內(nèi)容,這些功能包括:視頻中鏡頭和場景的瀏覽功能;新聞節(jié)目的視頻摘要和快速預覽功能。本公開描述了使用多媒體內(nèi)容分析技術,包括關鍵幀檢測,鏡頭邊界檢測,圖像相似度分析,人臉檢測和識別,文本搜索,新聞故事分割,體育關鍵場景分析等,實現(xiàn)自動產(chǎn)生交互式電視內(nèi)容的功能。至此,已經(jīng)詳細描述了根據(jù)本發(fā)明的視頻摘要生成方法和裝置。為了避免遮蔽本發(fā)明的構(gòu)思,沒有描述本領域所公知的一些細節(jié)。本領域技術人員根據(jù)上面的描述,完全可以明白如何實施這里公開的技術方案??赡芤栽S多方式來實現(xiàn)本發(fā)明的方法和系統(tǒng)。例如,可通過軟件、硬件、固件或者軟件、硬件、固件的任何組合來實現(xiàn)本發(fā)明的方法和系統(tǒng)。用于所述方法的步驟的上述順序僅是為了進行說明,本發(fā)明的方法的步驟不限于以上具體描述的順序,除非以其它方式特別說明。此外,在一些實施例中,還可將本發(fā)明實施為記錄在記錄介質(zhì)中的程序,這些程序包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機器可讀指令。因而,本發(fā)明還覆蓋存儲用于執(zhí)行根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。雖然已經(jīng)通過示例對本發(fā)明的一些特定實施例進行了詳細說明,但是本領域的技術人員應該理解,以上示例僅是為了進行說明,而不是為了限制本發(fā)明的范圍。本領域的技術人員應該理解,可在不脫離本發(fā)明的范圍和精神的情況下,對以上實施例進行修改。本發(fā)明的范圍由所附權利要求來限定。
權利要求
1.一種視頻摘要生成方法,其特征在于,包括: 利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類; 根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測; 從視頻場景中抽取關鍵幀以生成視頻場景摘要。
2.根據(jù)權利要求1所述的方法,其特征在于,還包括: 通過鏡頭分割技術將所述視頻分割成各個鏡頭; 對每個所述鏡頭抽取關鍵幀; 根據(jù)所述鏡頭的關鍵幀合成視頻鏡頭摘要。
3.根據(jù)權利要求1所述的方法,其特征在于,所述利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類包括: 利用視頻中的文本特征、音頻信息和視頻特征確定新聞類的視頻; 所述根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測包括: 利用文本信息、主持人信息,播音室內(nèi)的鏡頭特征和新聞臺標信息對所述新聞類的視頻進行新聞故事分割以檢測新聞故事場景。
4.根據(jù)權利要求1所述的方法,其特征在于, 所述利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類包括: 利用視頻中的文本特征、音頻信息和視頻特征確定體育類的視頻; 所述根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測包括: 對所述體育類的視頻進行關鍵體育事件檢測以檢測體育關鍵場景。
5.根據(jù)權利要求1所述的方法,其特征在于,還包括: 對各個視頻場景抽取關鍵幀; 根據(jù)視頻場景關鍵幀的靜態(tài)圖片生成視頻場景瀏覽圖。
6.一種視頻摘要生成裝置,其特征在于,包括: 視頻分類模塊,用于利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類; 場景檢測模塊,用于根據(jù)所述視頻的分類對所述視頻進行對應的視頻場景檢測; 場景摘要生成模塊,用于從視 頻場景中抽取關鍵幀以生成視頻場景摘要。
7.根據(jù)權利要求6所述的裝置,其特征在于,還包括鏡頭摘要生成模塊,用于通過鏡頭分割技術將所述視頻分割成各個鏡頭;對每個所述鏡頭抽取關鍵幀;根據(jù)所述鏡頭的關鍵中貞合成視頻鏡頭摘要。
8.根據(jù)權利要求6所述的裝置,其特征在于,所述視頻分類模塊包括: 新聞視頻確定單元,用于利用視頻中的文本特征、音頻信息和視頻特征確定新聞類的視頻; 所述場景檢測模塊包括: 新聞場景檢測單元,用于利用文本信息、主持人信息,播音室內(nèi)的鏡頭特征和新聞臺標信息對所述新聞類的視頻進行新聞故事分割以檢測新聞故事場景。
9.根據(jù)權利要求6所述的裝置,其特征在于, 所述利視頻分類模塊包括: 體育視頻確定單元,用于利用視頻中的文本特征、音頻信息和視頻特征確定體育類的視頻;所述場景檢測模塊包括: 體育事件檢測單元,用于對所述體育類的視頻進行關鍵體育事件檢測以檢測體育關鍵場景。
10.根據(jù)權利要求6所述的裝置,其特征在于,還包括場景瀏覽生成模塊,用于對各個視頻場景抽取關鍵幀,根 據(jù)視頻場景關鍵幀的靜態(tài)圖片生成視頻場景瀏覽圖。
全文摘要
本發(fā)明公開了一種視頻摘要生成方法和裝置,涉及視頻處理技術領域。該方法包括利用視頻中的文本特征、音頻信息和視頻特征確定視頻的分類;根據(jù)所述視頻的分類對視頻進行對應的視頻場景檢測;從視頻場景中抽取關鍵幀以生成視頻場景摘要。本發(fā)明描述了使用多媒體內(nèi)容分析的方案,包括關鍵幀檢測,鏡頭邊界檢測,圖像相似度分析,人臉檢測和識別,文本搜索,新聞故事分割,體育關鍵場景分析等,實現(xiàn)自動產(chǎn)生以下交互式電視內(nèi)容的功能視頻的瀏覽功能;視頻的摘要和快速預覽功能。本發(fā)明所描述的交互式電視內(nèi)容產(chǎn)生的功能,都是基于多媒體內(nèi)容分析技術自動實現(xiàn)的,可以避免費時而昂貴的人工編輯過程。
文檔編號G06F17/30GK103200463SQ20131010290
公開日2013年7月10日 申請日期2013年3月27日 優(yōu)先權日2013年3月27日
發(fā)明者劉趙杰 申請人:天脈聚源(北京)傳媒科技有限公司