專利名稱:基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,這種方法可以層次化的 管理視頻素材,支持視頻的層次化結(jié)構(gòu)索引以及注釋索引。在視頻素材數(shù)量大,來(lái)源豐富的 情況下,能夠有效的支持視頻素材檢索,支持視頻素材的高效查詢、編輯、標(biāo)注等功能。
背景技術(shù):
隨著數(shù)字視頻數(shù)據(jù)量的海量增長(zhǎng),視頻素材在越來(lái)越多的應(yīng)用中發(fā)揮作用。視頻 素材具有真實(shí)感強(qiáng),素材來(lái)源豐富的特點(diǎn),已經(jīng)成為虛擬場(chǎng)景構(gòu)建的重要資源。視頻素材的 數(shù)量不斷增長(zhǎng),增加了我們從中找到真正需要的素材的難度。與文字內(nèi)容相比,視頻數(shù)據(jù)具 有非結(jié)構(gòu)化、海量以及蘊(yùn)涵語(yǔ)義豐富等特點(diǎn),如何高效地對(duì)它們進(jìn)行組織、表達(dá)、存儲(chǔ)、管理 和檢索,是對(duì)傳統(tǒng)信息檢索和數(shù)據(jù)庫(kù)技術(shù)提出的挑戰(zhàn)。為了有效的管理視頻素材資源,比如 視頻中提取的相關(guān)場(chǎng)景以及對(duì)象,我們需要一個(gè)有效的視頻素材管理方法。基于層次化結(jié) 構(gòu)的視頻素材庫(kù)管理方法主要從層次化數(shù)據(jù)模型、視頻結(jié)構(gòu)化索引這兩個(gè)方面進(jìn)行分析。數(shù)據(jù)模型是數(shù)據(jù)庫(kù)系統(tǒng)的核心及基礎(chǔ),數(shù)據(jù)庫(kù)系統(tǒng)的性能與數(shù)據(jù)模型直接相關(guān)。 數(shù)據(jù)庫(kù)模型的不斷發(fā)展及完善的過程,也就是數(shù)據(jù)庫(kù)系統(tǒng)發(fā)展的歷史。傳統(tǒng)的文本數(shù)據(jù)庫(kù) 系統(tǒng),由于其數(shù)據(jù)類型及關(guān)系比較簡(jiǎn)單,所以其數(shù)據(jù)模型也較為簡(jiǎn)單。在視頻數(shù)據(jù)庫(kù)領(lǐng)域, 目前還沒有完善的可普遍使用的數(shù)據(jù)模型。在建立視頻模型時(shí),雖然可能借助其他方面的 研究成果,但是表示視頻數(shù)據(jù)的統(tǒng)一理論以及方法都還沒有形成。目前研究者各自從不同 的方向?qū)σ曨l數(shù)據(jù)模型進(jìn)行探討,所建立的視頻數(shù)據(jù)模型一般也只能反映或者強(qiáng)調(diào)視頻數(shù) 據(jù)的某一類特性,其應(yīng)用也側(cè)重于某一領(lǐng)域。因?yàn)槭苣壳皥D像理解、計(jì)算機(jī)視覺、人工智能 等學(xué)科發(fā)展水平的限制,視頻數(shù)據(jù)自動(dòng)地分段以及抽取視頻的高級(jí)語(yǔ)義特征還存在不少困 難,因此目前應(yīng)以建立有限自動(dòng)化并且應(yīng)用于某些特定領(lǐng)域的模型為目標(biāo)。作為最普遍且最有效的一種交流媒介,視頻中包含了其它類型媒體,內(nèi)容豐富,因 而在如何有效使用和管理上也最有挑戰(zhàn)性。視頻數(shù)據(jù)本身并不支持用戶交互,很大程度上 視頻使用是一個(gè)單向體驗(yàn)過程,瀏覽者只是一個(gè)被動(dòng)角色。雖然視頻內(nèi)部存在豐富的未開 發(fā)內(nèi)容和知識(shí),這種未結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)證明很難系統(tǒng)管理。有效的視頻管理需要像圖書 館系統(tǒng)那樣以某種自動(dòng)方式提取視頻中蘊(yùn)涵的那些未開發(fā)的內(nèi)容和知識(shí),提供一個(gè)類似卡 片索引目錄的工具來(lái)完成視頻歸檔并借此尋找所需內(nèi)容。即視頻必須伴隨一個(gè)結(jié)構(gòu)化內(nèi)容 索引,通過創(chuàng)建視頻內(nèi)容的豐富索引,釋放視頻庫(kù)中豐富的知識(shí)資源,把視頻轉(zhuǎn)換成基于索 引對(duì)內(nèi)容進(jìn)行精細(xì)顆粒度存取和控制的容易管理的有用信息。
發(fā)明內(nèi)容
本發(fā)明涉及一種基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,這種方法通過定義場(chǎng)景 實(shí)體、情節(jié)實(shí)體、特別是對(duì)象實(shí)體,有效的表示結(jié)構(gòu)化后的視頻的層次結(jié)構(gòu)。層次化數(shù)據(jù)模 型為高效的視頻數(shù)據(jù)庫(kù)的索引以及檢索提供了一個(gè)基礎(chǔ),使得用戶可以快速地定位視頻對(duì) 象素材,用以進(jìn)行視頻融合,虛擬場(chǎng)景構(gòu)建等工作。此外,數(shù)據(jù)模型也支持視頻的層次化語(yǔ)義注釋,以便用戶在不同的視頻結(jié)構(gòu)層進(jìn)行語(yǔ)義的瀏覽或者搜索?;趯哟位Y(jié)構(gòu)的視頻素材庫(kù)管理方法,包括如下具體步驟1)建立層次化數(shù)據(jù)模型;層次化數(shù)據(jù)模型能夠反映視頻數(shù)據(jù)的層次化結(jié)構(gòu),而且 反映視頻數(shù)據(jù)結(jié)構(gòu)之間聯(lián)系以及主要特征,是支持視頻素材結(jié)構(gòu)化以及高效的視頻索引及 檢索的基礎(chǔ);2)視頻結(jié)構(gòu)化;視頻結(jié)構(gòu)化就是對(duì)視頻流中的連續(xù)幀序列進(jìn)行切分,按其內(nèi)容展 開的不同,把一個(gè)連續(xù)視頻流分成若干語(yǔ)義段落單元,主要包括下面三個(gè)步驟;2. 1)視頻 結(jié)構(gòu)化首先要通過基于鏡頭邊緣檢測(cè)的方法,視頻數(shù)據(jù)流被切分成很多個(gè)情節(jié);2. 2)視頻 結(jié)構(gòu)化其次要提取情節(jié)的特征,代表幀以及對(duì)象;2. 3)視頻結(jié)構(gòu)化最后要根據(jù)情節(jié)語(yǔ)義的 不同,聚類成不同場(chǎng)景;3)視頻索引和檢索,包括基于視頻結(jié)構(gòu)的結(jié)構(gòu)索引以及注釋索引;其中,視頻結(jié) 構(gòu)的結(jié)構(gòu)索引指對(duì)于已經(jīng)結(jié)構(gòu)化的視頻,我們可以建立一個(gè)索引結(jié)構(gòu),來(lái)有效的組織和管 理視頻資源,方便用戶的檢索和訪問;注釋索引指基于一個(gè)視頻序列至少可以從三個(gè)方面 進(jìn)行注釋視頻拍攝地點(diǎn)、視頻中發(fā)生的事件、以及視頻中的對(duì)象,我們分別對(duì)這三個(gè)實(shí)體 進(jìn)行視頻注釋索引;4)基于層次化數(shù)據(jù)模型、視頻結(jié)構(gòu)化以及視頻的索引和檢索,設(shè)計(jì)視頻數(shù)據(jù)庫(kù)中 的各種表,實(shí)現(xiàn)索引的建立。和傳統(tǒng)的視頻素材管理方法相比,基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法有如下 特點(diǎn)1.方法基于層次化的視頻數(shù)據(jù)關(guān)系模型。該模型有效的表示了結(jié)構(gòu)化的視頻素材 以及一個(gè)與層次化的視頻結(jié)構(gòu)相對(duì)應(yīng)的注釋結(jié)構(gòu)。2.在層次化視頻數(shù)據(jù)模型的基礎(chǔ)上,建立了樹狀索引結(jié)構(gòu),該結(jié)構(gòu)索引支持自頂 向下訪問、自底向上訪問以及同一層次的對(duì)象間相互訪問。此外,建立了注釋索引,能夠在 不同的層次上加強(qiáng)語(yǔ)義解釋的快速訪問。3.在我們的層次化視頻素材管理方法中,視頻對(duì)象作為重要的一層進(jìn)行管理。有 效支持視頻對(duì)象的插入及編輯。
下面結(jié)合附圖和實(shí)例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。圖1是本發(fā)明所使用方法中的數(shù)據(jù)模型。圖2是本方法中視頻結(jié)構(gòu)化的流程圖。圖3是基于視頻結(jié)構(gòu)化的視頻索引與檢索的結(jié)構(gòu)4是基于結(jié)構(gòu)索引樹的示例圖。圖5是基于層次化視頻素材庫(kù)管理方法的數(shù)據(jù)庫(kù)設(shè)計(jì)圖。
具體實(shí)施例方式
參照附圖,本發(fā)明的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,按以下步驟進(jìn)行
1.建立圖1所示的層次化視頻數(shù)據(jù)關(guān)系模型。本模型中引入了三大基本視頻 數(shù)據(jù)對(duì)象視頻文檔(Video Document),對(duì)應(yīng)著服務(wù)器上的視頻數(shù)據(jù);幀序列(Frame
5Sequence),是視頻流中由一系列幀構(gòu)成的區(qū)間,幀序列的大小可以從一個(gè)獨(dú)立幀到全部視 頻文檔;注釋(Annotation),可為每一幀序列分配有關(guān)內(nèi)容的文字描述,以支持基于內(nèi)容 的檢索。幀序列可以細(xì)化為場(chǎng)景(Scene),情節(jié)(Story)以及素材對(duì)象(Object)這三類, 且子類之間呈現(xiàn)層次關(guān)系。視頻文檔從視頻素材中抽取某些描述其內(nèi)容的注釋,注釋可劃 分為三類有關(guān)對(duì)象的注釋,有關(guān)事件的注釋以及有關(guān)地點(diǎn)的注釋。此外,注釋可以細(xì)分 為由描述這些語(yǔ)義內(nèi)容的詞匯組成,分別為對(duì)象相關(guān)詞匯(Object-Term),事件相關(guān)詞匯 (Event-Term)以及地點(diǎn)相關(guān)詞匯(Location-Term)。2.如圖2流程圖所示,對(duì)視頻進(jìn)行結(jié)構(gòu)化。視頻結(jié)構(gòu)化就是對(duì)視頻流中的連續(xù)幀 序列進(jìn)行切分,按其內(nèi)容展開的不同,把一個(gè)連續(xù)視頻流分成若干語(yǔ)義段落單元。在流程圖 中可以看到,幀序列細(xì)分為三種實(shí)體場(chǎng)景、情節(jié)、以及對(duì)象。3.視頻結(jié)構(gòu)化首先要進(jìn)行鏡頭邊緣檢測(cè)。鏡頭之間有多種類型的過渡方式,最常 見的是“突變”,表現(xiàn)為相鄰兩幀間發(fā)生的突變性的鏡頭轉(zhuǎn)換。此外,還存在一些較復(fù)雜的過 渡方式,如淡入、淡出等。視頻切分的技術(shù)有很多種,我們利用相鄰鏡頭間的一組幀之間的 差異性,采用固定幀數(shù)的窗口在連續(xù)的視頻上“滑動(dòng)”,從而判別鏡頭的分割點(diǎn)。我們采用加 以改進(jìn)的可以判別漸變的鏡頭變換的切分方法。通過鏡頭切分后的視頻就形成了情節(jié)。4.對(duì)象采用Video SnapCut算法,采用多核加速以及Cuda加速進(jìn)行對(duì)象快速提 取。采用情節(jié)的第一幀作為情節(jié)的關(guān)鍵幀。5.視頻結(jié)構(gòu)分析的過程,就是將語(yǔ)義相關(guān)的情節(jié)組合、聚類的過程。這里,我們將 具有相同語(yǔ)義的情節(jié)進(jìn)行聚類成同一種類別的場(chǎng)景的過程定義為“場(chǎng)景分類”。6.視頻的索引和檢索主要有五種方法包括基于元數(shù)據(jù)的方法、基于文本的方 法、基于音頻的方法、基于內(nèi)容的方法以及綜合的方法。本方法主要綜合基于元數(shù)據(jù)的方 法、基于文本的方法和基于內(nèi)容的方法三者的綜合,也就是屬于綜合的方法。我們的綜合 索引和檢索方法是基于視頻結(jié)構(gòu)化的,我們主要研究基于視頻結(jié)構(gòu)的結(jié)構(gòu)索引以及注釋索 引,如圖3所示。7.結(jié)構(gòu)索引常表示為樹結(jié)構(gòu),索引樹中的中間節(jié)點(diǎn)是它們子節(jié)點(diǎn)的抽象。一個(gè)索 引樹既可以自底向上通過抽象來(lái)構(gòu)造,也可以自頂向下通過分類來(lái)構(gòu)造。系統(tǒng)中,我們采用 的索引結(jié)構(gòu)結(jié)合了自頂向下訪問、自底向上訪問以及同層之間訪問這三種方法,如圖4所 示。索引樹中有三種類型的指針第N層指向第N-1層的指針、第N層指向從第0層到第 N-1層的指針、第三層的節(jié)點(diǎn)指向其兄弟節(jié)點(diǎn)之間指針。8.注釋一個(gè)視頻序列至少可以從三個(gè)方面進(jìn)行視頻拍攝地點(diǎn)、視頻中發(fā)生的事 件、以及視頻中的對(duì)象。這三個(gè)方面正好可以與我們的數(shù)據(jù)模型對(duì)應(yīng)起來(lái),即數(shù)據(jù)模型中的 場(chǎng)景、情節(jié)以及對(duì)象。因此,視頻注釋可以分別對(duì)應(yīng)著這三個(gè)實(shí)體,并且這三種層次上的注 釋是相關(guān)的,是有語(yǔ)義聯(lián)系的,可以最終組合成視頻的注釋,比較完整地描述視頻。9.基于本章提出的層次化視頻數(shù)據(jù)關(guān)系模型以及視頻的索引、檢索以及結(jié)構(gòu)化 技術(shù),我們的數(shù)據(jù)庫(kù)設(shè)計(jì)如圖5所示。圖中,表VIDE0(視頻表)、表SCENE(場(chǎng)景表)、表 STORY(情節(jié)表)以及表OBJECT(對(duì)象表)是數(shù)據(jù)模型中的幀序列對(duì)象。為了避免過強(qiáng)的 耦合性,我們分別用四張表對(duì)這些對(duì)象進(jìn)行存儲(chǔ)。類似的,表L0CATI0NTERMS (地點(diǎn)注釋詞 匯)、表EVENTTERMS(事件注釋詞匯)以及表0BJECTTERMS (對(duì)象注釋詞匯)對(duì)應(yīng)著數(shù)據(jù) 模型中的注釋詞匯,分別用三張表進(jìn)行存儲(chǔ)。同樣場(chǎng)景類型也有一個(gè)表(SCENEGENRE表)單獨(dú)存儲(chǔ),目的是當(dāng)場(chǎng)景類型更新時(shí),不用對(duì)SCENE表中的每一列進(jìn)行更新。其中,可以看 到場(chǎng)景的表中有一個(gè)表項(xiàng)項(xiàng)GID,作為表示場(chǎng)景類型的外鍵對(duì)應(yīng)著場(chǎng)景類型表SCENEGENRE 的主鍵GID。此外,通過表與表之間的連線可以看出各個(gè)表之間的索引關(guān)系,滿足我們前 面提出的樹的結(jié)構(gòu)。例如,在STORY表通過OBJECTINCLUDED與所有包含在此情節(jié)中的對(duì) 象聯(lián)系,表示了從上往下的索引結(jié)構(gòu);在OBJECT表通過VIDEOREFID,ST0RYREFID,以及 SCENEREFID分別與表VIDEO,STORY,以及SCENE表關(guān)聯(lián),表示了一種從下往上的索引結(jié)構(gòu); 通過OBJECTRELATEDID與同一場(chǎng)景中的對(duì)象進(jìn)行關(guān)聯(lián),表示了同層之間的索引結(jié)構(gòu)。
應(yīng)該理解到的是上述實(shí)施例只是對(duì)本發(fā)明的說(shuō)明,而不是對(duì)本發(fā)明的限制,任何 不超出本發(fā)明實(shí)質(zhì)精神范圍內(nèi)的發(fā)明創(chuàng)造,均落入本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于包括如下具體步驟1)建立層次化數(shù)據(jù)模型;2)視頻結(jié)構(gòu)化對(duì)視頻流中的連續(xù)幀序列進(jìn)行切分,按其內(nèi)容展開的不同,把一個(gè)連續(xù)視頻流分成若干語(yǔ)義段落單元,主要包括下面三個(gè)步驟2.1)通過基于鏡頭邊緣檢測(cè)的方法,視頻數(shù)據(jù)流被切分成很多個(gè)情節(jié);2.2)提取情節(jié)的特征,代表幀以及對(duì)象;2.3)根據(jù)情節(jié)語(yǔ)義的不同,聚類成不同場(chǎng)景;3)視頻索引和檢索,包括基于視頻結(jié)構(gòu)的結(jié)構(gòu)索引以及注釋索引;其中,視頻結(jié)構(gòu)的結(jié)構(gòu)索引指對(duì)于已經(jīng)結(jié)構(gòu)化的視頻,建立一個(gè)索引結(jié)構(gòu),來(lái)有效的組織和管理視頻資源,方便用戶的檢索和訪問;注釋索引指基于一個(gè)視頻序列至少可以從三個(gè)方面進(jìn)行注釋視頻拍攝地點(diǎn)、視頻中發(fā)生的事件、以及視頻中的對(duì)象,分別對(duì)這三個(gè)實(shí)體進(jìn)行視頻注釋索引。4)基于層次化數(shù)據(jù)模型、視頻結(jié)構(gòu)化以及視頻的索引和檢索,設(shè)計(jì)視頻數(shù)據(jù)庫(kù)中的各種表,實(shí)現(xiàn)索引的建立。
2.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟1) 中,基本視頻數(shù)據(jù)對(duì)象包括1.1)視頻文檔(Video Document),對(duì)應(yīng)著服務(wù)器上的視頻數(shù) 據(jù);1.2)幀序列(Frame Sequence),是視頻流中由一系列幀構(gòu)成的區(qū)間,幀序列的大小從 一個(gè)獨(dú)立幀到全部視頻文檔;1.3)注釋(Annotation),為每一幀序列分配有關(guān)內(nèi)容的文字 描述,以支持基于內(nèi)容的檢索。
3.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟 2. 1)中,利用相鄰鏡頭間的一組幀之間的差異性,采用固定幀數(shù)的窗口在連續(xù)的視頻上滑 動(dòng),從而判別鏡頭的分割點(diǎn)。
4.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟 2.2)中,對(duì)象采用Video SnapCut算法,采用多核加速以及Cuda加速進(jìn)行對(duì)象快速提取,并 采用情節(jié)的第一幀作為情節(jié)的關(guān)鍵幀。
5.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟 2. 3)中,將具有相同語(yǔ)義的情節(jié)進(jìn)行聚類成同一種類別,將語(yǔ)義相關(guān)的情節(jié)組合、聚類成不 同的場(chǎng)景。
6.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟3) 中,視頻索引和檢索的方法包括基于元數(shù)據(jù)的方法、基于文本的方法、基于音頻的方法、基 于內(nèi)容的方法以及綜合的方法。
7.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟3) 中,結(jié)構(gòu)索引表示為樹結(jié)構(gòu),索引樹中的中間節(jié)點(diǎn)是它們子節(jié)點(diǎn)的抽象;一個(gè)索引樹自底向 上通過抽象來(lái)構(gòu)造,或者自頂向下通過分類來(lái)構(gòu)造;索引樹中有三種類型的指針第N層指 向第N-1層的指針、第N層指向從第0層到第N-1層的指針、第三層的節(jié)點(diǎn)指向其兄弟節(jié)點(diǎn) 之間指針。
8.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟3) 中,注釋一個(gè)視頻序列至少?gòu)娜齻€(gè)方面進(jìn)行視頻拍攝地點(diǎn)、視頻中發(fā)生的事件、以及視頻 中的對(duì)象,這三個(gè)方面與數(shù)據(jù)模型中的場(chǎng)景、情節(jié)以及對(duì)象分別對(duì)應(yīng)。
9.如權(quán)利要求1所述的基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,其特征在于在步驟4)中,采用表VIDEO、表SCENE、表STORY以及表OBJECT對(duì)數(shù)據(jù)模型中的幀序列對(duì)象進(jìn)行存儲(chǔ), 采用表L0CATI0NTERMS、表EVENTTERMS以及表0BJECTTERMS對(duì)數(shù)據(jù)模型中的注釋詞匯進(jìn)行 存儲(chǔ),采用一個(gè)表SCENEGENRE對(duì)場(chǎng)景類型進(jìn)行單獨(dú)存儲(chǔ),其中,表SCENEGENRE中有一個(gè)表 項(xiàng)項(xiàng)GID,作為表示場(chǎng)景類型的外鍵對(duì)應(yīng)著場(chǎng)景類型表SCENEGENRE的主鍵GID ;通過表與表 之間的連線表示各個(gè)表之間的索引關(guān)系。
全文摘要
本發(fā)明公開了一種基于層次化結(jié)構(gòu)的視頻素材庫(kù)管理方法,包括如下具體步驟1)建立層次化數(shù)據(jù)模型;2)頻結(jié)構(gòu)化;3)視頻索引和檢索;4)基于層次化數(shù)據(jù)模型、視頻結(jié)構(gòu)化以及視頻的索引和檢索,設(shè)計(jì)視頻數(shù)據(jù)庫(kù)中的各種表,實(shí)現(xiàn)索引的建立。這種方法可以層次化的管理視頻素材,支持視頻的層次化結(jié)構(gòu)索引以及注釋索引。在視頻素材數(shù)量大,來(lái)源豐富的情況下,能夠有效的支持視頻素材檢索,支持視頻素材的高效查詢、編輯、標(biāo)注等功能。
文檔編號(hào)G06F17/30GK101799827SQ20101012208
公開日2010年8月11日 申請(qǐng)日期2010年3月11日 優(yōu)先權(quán)日2010年3月11日
發(fā)明者王慧昱, 童若峰 申請(qǐng)人:浙江大學(xué)