本發(fā)明涉及視頻摘要處理。特別是涉及對(duì)具有冗余性,交叉性等特點(diǎn)的多媒體視頻數(shù)據(jù),通過超圖主集聚類方法對(duì)多視頻關(guān)鍵鏡頭進(jìn)行分析,再結(jié)合網(wǎng)頁圖片的輔助信息進(jìn)行摘要獲取的基于超圖主集聚類的多視頻摘要方法。具體講,涉及基于超圖主集聚類的多視頻摘要方法。
背景技術(shù):
隨著技術(shù)的發(fā)展,在線視頻的數(shù)量正以飛快的速度增長,用戶也可以使用自己的移動(dòng)設(shè)備方便地上傳個(gè)人視頻到共享網(wǎng)站。記錄同一事件、同一場景的視頻可能存在大量的冗余信息,這對(duì)用戶捕捉重要信息帶來了困難。因此對(duì)大量的視頻集中提取出有意義的部分,使用戶快速獲取視頻信息的重要內(nèi)容的技術(shù)是迫切需求的。視頻摘要是通過將一個(gè)或多個(gè)視頻轉(zhuǎn)換為精簡視頻來滿足此要求的技術(shù),引起了越來越多的研究人員的關(guān)注。多視頻摘要技術(shù)旨在針對(duì)某個(gè)查詢主題下的大量視頻,提取出和檢索主題內(nèi)容相關(guān)的且有意義的部分,并以一定的邏輯形式呈現(xiàn)出來,目的是通過簡潔而又涵蓋主題內(nèi)容的概要幫助用戶更好地了解視頻集的重要信息。視頻摘要的方法也可以分為兩類:基于關(guān)鍵幀的視頻摘要和基于視頻剪輯的視頻摘要。不管是哪類方法,根本目的都是一樣的,就是使用戶在最短的時(shí)間獲取原始視頻中最大的信息量。多視頻摘要需要滿足的基本要求:1)最大信息覆蓋率;2)重要性;3)主題相關(guān)性。最大信息覆蓋率指的是所提取的視頻內(nèi)容能夠覆蓋同一主題下多個(gè)視頻的主要內(nèi)容。重要性指的則是根據(jù)某些先驗(yàn)信息提取視頻集中重要的關(guān)鍵鏡頭,從而提取出多個(gè)視頻中重要的內(nèi)容。主題相關(guān)性指的是要保證獲取的視頻摘要并能準(zhǔn)確的反映查詢主題的內(nèi)容。
對(duì)于單視頻摘要,目前有很多實(shí)現(xiàn)方法。但是多視頻數(shù)據(jù)集的處理就比較困難。一方面多視頻數(shù)據(jù)集存在較大的冗余性:大量同性質(zhì)的網(wǎng)站提供相同或者類似的視頻資源,用戶可以上傳自己的視頻數(shù)據(jù)。另一方面多視頻數(shù)據(jù)集同一內(nèi)容所表現(xiàn)出來的音頻信息,文本信息和視覺信息可能存在較大差別。因此多視頻摘要技術(shù)相對(duì)于單個(gè)視頻摘要獲取就存在比較大的困難。
作為一個(gè)更具挑戰(zhàn)性的任務(wù),研究學(xué)者針對(duì)多視頻數(shù)據(jù)集提出了一些比較可行的方法。其中聚類的方法或者圖模型法在原始搜索結(jié)果中分析和發(fā)現(xiàn)視覺相似的圖像作為搜索樣例原型是一種比較常用的方法。傳統(tǒng)的聚類方法不能解決多視頻數(shù)據(jù)集在同一主題下內(nèi)容多樣且冗余所帶來的困難。只考慮視覺上的信息效果較差,需要結(jié)合多視頻的多模態(tài)信息進(jìn)行摘要的獲取。
針對(duì)同一主題下的多視頻數(shù)據(jù)集,利用視頻的視覺共現(xiàn)特性(visualco-occurrence)實(shí)現(xiàn)多視頻摘要是一種比較新穎的方法。該方法認(rèn)為重要的視覺概念往往重復(fù)出現(xiàn)在同一主題下的多個(gè)視頻中,并根據(jù)這一特點(diǎn)提出了最大二元組查找算法(maximalbicliquefinding),提取多視頻的稀疏共現(xiàn)模式,從而實(shí)現(xiàn)多視頻摘要。但是該方法僅適用于特定的數(shù)據(jù)集,對(duì)于視頻中重復(fù)性較小的視頻集,該方法就失去了意義。
此外,相關(guān)學(xué)者利用多視頻中的文本,音頻等多模態(tài)信息,判斷視頻中的重要信息,生成多視頻摘要。目前,由于多視頻數(shù)據(jù)的復(fù)雜性,多視頻摘要技術(shù)的方法還有待提升。因此,如何借助已有的多視頻信息對(duì)數(shù)據(jù)集進(jìn)行視頻結(jié)構(gòu)和內(nèi)容的分析,更好地實(shí)現(xiàn)多視頻摘要,成為目前相關(guān)學(xué)者研究的熱點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是:針對(duì)多媒體視頻數(shù)據(jù)的冗余信息、重復(fù)信息較多等特點(diǎn),提供一種能夠結(jié)合視頻的視覺信息和與主題相關(guān)的先驗(yàn)信息,利用超圖主集聚類思想和最大邊際相關(guān)思想的多視頻摘要方法。
本發(fā)明所采用的技術(shù)方案是:基于超圖主集聚類的多視頻摘要方法,首先構(gòu)建視頻關(guān)鍵幀內(nèi)容節(jié)點(diǎn)超圖,通過二分類的主集聚類得到覆蓋性強(qiáng)的候選關(guān)鍵幀集;然后利用網(wǎng)頁圖片與視頻集在同一事件主題下的共性關(guān)系,得到與主題相關(guān)性程度高且冗余性小的關(guān)鍵幀集;最后通過視頻幀在視覺上的連貫性對(duì)關(guān)鍵幀集進(jìn)行排序,實(shí)現(xiàn)簡潔且有意義的多視頻摘要。
具體地,構(gòu)建超圖模型,關(guān)聯(lián)矩陣h(v,e)定義如下:
as=h*w*h'–dv(2)
其中a(i,j)=exp(-dis(vi,vj)),vi是屬于超邊ej的任意頂點(diǎn),vj是超邊ej的中心點(diǎn),dis(vi,vj)為頂點(diǎn)vi到超邊中心點(diǎn)vj歸一化后的距離,超邊的權(quán)重w(ei)定義為w(ei)=
二分類的主集聚類是通過迭代求解二次方程將圖劃分為不同主集,具體表示如下:
maxf(x)=xtasx(3)
s.t.x∈δ(4)
其中,
網(wǎng)頁圖片和視頻集在同一主題下存在共性關(guān)系,通過網(wǎng)頁圖片對(duì)聚類得到的候選關(guān)鍵幀進(jìn)行選擇得到主題相關(guān)性程度高且冗余性小的關(guān)鍵幀集,設(shè)計(jì)如下目標(biāo)函數(shù):
其中,m表示關(guān)鍵幀集合幀的個(gè)數(shù),fm代表已選擇的關(guān)鍵幀集合,q為同一主題查詢的網(wǎng)頁圖片,
二分類的主集聚類具體地,x={x1,x2,…,xn}表示給定事件的n幀的特征集,其中
1)輸入超圖g=(v,e,h)及其得到的鄰接矩陣as,v為特征集x的頂點(diǎn)集合,e為超邊集合,h為超圖關(guān)聯(lián)矩陣。
2)初始化迭代次數(shù)t=1并初始化向量x(t)=[(1/n),(1/n),…,(1/n)]n×1,n表示的是n幀特征集。
3)計(jì)算
4)輸出一個(gè)簇,其頂點(diǎn)是矢量x(t)的正分量xi(t)按降序排列,并讓第一頂點(diǎn)代表這個(gè)簇。
5)從特征集x中刪除這些頂點(diǎn)及其在超圖中的親和力關(guān)系。
6)轉(zhuǎn)到步驟2)重復(fù)此過程直到將所有視頻幀分類完畢,得到最終分類結(jié)果cluster1到clusterk。
得到候選關(guān)鍵幀的具體步驟是,同一個(gè)類別ci,中的視頻幀具有相似的視覺或語義內(nèi)容,因此首先從每類中選取一幀作為候選關(guān)鍵幀,其規(guī)則為從每類中選取距離該類平均特征向量距離最近的一幀作為候選關(guān)鍵幀,即:
其中
本發(fā)明的特點(diǎn)及有益效果是:
本發(fā)明針對(duì)現(xiàn)有的多視頻摘要方法的缺點(diǎn),結(jié)合多視頻數(shù)據(jù)集冗余性、主題多樣性、交叉性等特點(diǎn),設(shè)計(jì)在超圖鏈接上進(jìn)行主集聚類的基礎(chǔ)上結(jié)合網(wǎng)頁圖片的輔助信息提取摘要的方法,其優(yōu)勢主要表現(xiàn)在以下方面:
有效性:實(shí)驗(yàn)驗(yàn)證本發(fā)明得到的多視頻摘要結(jié)果相比于傳統(tǒng)的聚類具有較好的效果,并能夠自適應(yīng)得到摘要長度,性能較好,更適用于多視頻摘要問題中。
新穎性:將超圖模型應(yīng)用于主集聚類算法中,充分利用了視頻關(guān)鍵節(jié)點(diǎn)之間的關(guān)系得到最大覆蓋性的候選關(guān)鍵幀。在此基礎(chǔ)上通過網(wǎng)頁圖片進(jìn)一步增強(qiáng)摘要的主題相關(guān)性。
實(shí)用性:簡單可行,與傳統(tǒng)聚類算法相比能夠自動(dòng)確定簇?cái)?shù),計(jì)算成本低,可以用在多媒體信息處理領(lǐng)域中。
附圖說明:
圖1是本發(fā)明提供的在超圖鏈接上進(jìn)行主集聚類的多視頻摘要方法的流程圖。
具體實(shí)施方式
本發(fā)明針對(duì)多媒體視頻數(shù)據(jù)的冗余信息、重復(fù)信息較多等特點(diǎn),結(jié)合視頻的視覺信息和與主題相關(guān)的先驗(yàn)信息,利用主集聚類思想和最大邊際相關(guān)思想對(duì)傳統(tǒng)的多視頻摘要方法進(jìn)行了改進(jìn),最后利用視覺上的相似性進(jìn)行摘要呈現(xiàn),達(dá)到了有效利用視頻主題相關(guān)信息、提高用戶瀏覽視頻效率的目的。
本發(fā)明的目的在于提供一種基于超圖主集聚類的多視頻摘要技術(shù)。針對(duì)多視頻數(shù)據(jù)集冗余性高、交叉性強(qiáng)、主題多樣性等特點(diǎn),本發(fā)明首先構(gòu)建視頻關(guān)鍵幀內(nèi)容節(jié)點(diǎn)超圖,通過二分類的主集聚類得到覆蓋性強(qiáng)的候選關(guān)鍵幀集。然后利用網(wǎng)頁圖片與視頻集在同一事件主題下的共性關(guān)系,得到與主題相關(guān)性程度高且重要性強(qiáng)的關(guān)鍵幀集。最后通過視頻幀在視覺上的連貫性對(duì)關(guān)鍵幀集進(jìn)行排序,實(shí)現(xiàn)簡潔且有意義的多視頻摘要。
本發(fā)明所提供的方法為:設(shè)計(jì)適用于多視頻摘要數(shù)據(jù)集特點(diǎn)的方法,通過在視頻幀節(jié)點(diǎn)構(gòu)建的超圖上進(jìn)行主集聚類得到候選關(guān)鍵幀(鏡頭),然后利用網(wǎng)頁圖片的輔助信息構(gòu)造目標(biāo)函數(shù)來獲取多視頻的關(guān)鍵幀(鏡頭),從而實(shí)現(xiàn)關(guān)鍵幀的提取,并在此基礎(chǔ)上利用關(guān)鍵幀(鏡頭)在視覺上的連貫性對(duì)摘要結(jié)果進(jìn)行呈現(xiàn)。
多視頻摘要技術(shù)旨在依托對(duì)大量的視頻集的視頻結(jié)構(gòu)和內(nèi)容的分析,提取出和檢索主題內(nèi)容相關(guān)的且有意義的部分,并以一定的邏輯形式呈現(xiàn)出來,目的是通過簡潔而又涵蓋主題內(nèi)容的概要幫助用戶更好的了解視頻集的重要信息。對(duì)于某一查詢主題的視頻集,費(fèi)時(shí)、費(fèi)力、毫無線索地去獲取重要信息很容易產(chǎn)生“信息過載”的現(xiàn)象。而且多視頻集具有主題多樣性和重復(fù)性的特點(diǎn),直接使用傳統(tǒng)的聚類方法來解決問題,得到的結(jié)果不盡人意。為此本發(fā)明提供一種聚類和主題概念結(jié)合的多視頻摘要技術(shù)。通過主集在超圖上聚類得到候選關(guān)鍵幀,更好的滿足同一事件主題的最大信息覆蓋性。然后再利用結(jié)合網(wǎng)頁圖片的目標(biāo)函數(shù)進(jìn)行處理,一般來講,查詢的網(wǎng)頁圖片集沒有視頻集的嘈雜和語義上無意義的部分,能夠反映用戶對(duì)相同事件的理解和興趣。所以,網(wǎng)頁圖片的輔助信息更好的保證獲取的關(guān)鍵幀與主題的相關(guān)性程度。其方法原理如下:
(1)超圖原理:
超圖是對(duì)簡單圖的擴(kuò)展,簡單圖的一條邊只能包含2個(gè)頂點(diǎn),而超圖的超邊可以包含任意的多個(gè)頂點(diǎn)。超圖能夠更好的描述視頻幀節(jié)點(diǎn)之間關(guān)聯(lián)性,關(guān)聯(lián)矩陣h(v,e)定義如下:
as=h*w*h′-dv(2)
其中a(i,j)=exp(-dis(vi,vj)),vi是屬于超邊ej的任意頂點(diǎn),vj是超邊ej的中心點(diǎn),dis(vi,vj)為頂點(diǎn)vi到超邊中心點(diǎn)vj歸一化后的距離。此外,超邊的權(quán)重w(ei)定義為
(2)主集聚類思想:
主集是圖論中的一個(gè)組合概念,它將最大完全子圖的概念推廣到邊緣加權(quán)圖。它同時(shí)強(qiáng)調(diào)內(nèi)部的同質(zhì)性和外部的不均勻性,因此被認(rèn)為是“集群”的一般定義。通過迭代求解二次方程將圖劃分為不同主集,具體表示如下:
maxf(x)=xtasx(3)
s.t.x∈δ(4)
其中,
下面結(jié)合附圖和具體實(shí)施方式,進(jìn)一步詳細(xì)說明本發(fā)明。
圖1描述了在超圖鏈接上進(jìn)行主集聚類的多視頻摘要方法的流程圖其具體步驟如下所述:
(1)提取視頻特征:對(duì)海量視頻進(jìn)行預(yù)處理,對(duì)鏡頭檢測得到的鏡頭或視頻幀提取相關(guān)特征。
(2)構(gòu)建k近鄰超圖模型得到鄰接矩陣:本發(fā)明通過(1)式來對(duì)視頻幀節(jié)點(diǎn)構(gòu)建超圖模型,并通過式(2)得到視頻幀節(jié)點(diǎn)之間的鄰接矩陣as。
(3)主集聚類得到聚類簇:
本發(fā)明中,x={x1,x2,…,xn}表示給定事件的n幀的特征集,其中
1)輸入超圖g=(v,e,h)及其得到的鄰接矩陣as,v為特征集x的頂點(diǎn)集合,e為超邊集合,
h為超圖關(guān)聯(lián)矩陣。
2)初始化迭代次數(shù)t=1并初始化向量x(t)=[(1/n),(1/n),…,(1/n)]n×1,n表示的是n幀特征集。
3)計(jì)算
4)輸出一個(gè)簇,其頂點(diǎn)是矢量x(t)的正分量xi(t)按降序排列,并讓第一頂點(diǎn)代表這個(gè)簇。
5)從特征集x中刪除這些頂點(diǎn)及其在超圖中的親和力關(guān)系。
6)轉(zhuǎn)到步驟2)重復(fù)此過程直到將所有視頻幀分類完畢,得到最終分類結(jié)果cluster1到clusterk。
與傳統(tǒng)的聚類算法不同,主導(dǎo)集群自動(dòng)確定簇?cái)?shù),計(jì)算成本低,能夠自適應(yīng)的滿足最大信息覆蓋,得到聚類簇c={c1,c2,…,ck}。
(4)得到候選關(guān)鍵幀:
同一個(gè)類別ci,中的視頻幀具有相似的視覺或語義內(nèi)容,因此首先從每類中選取一幀作為候選關(guān)鍵幀。其規(guī)則為從每類中選取距離該類平均特征向量距離最近的一幀作為候選關(guān)鍵幀,即:
其中
(5)關(guān)鍵幀的選擇:
從候選關(guān)鍵幀中獲取關(guān)鍵幀,本發(fā)明借助網(wǎng)頁圖片的信息,設(shè)計(jì)了如下目標(biāo)函數(shù),考慮摘要主題相關(guān)性和新穎性。
1)首先選定關(guān)鍵幀集合的第一幀
2)按照如下迭代公式進(jìn)行其它關(guān)鍵幀f+1:
fm+1=fm∪{f+1}(8)
其中,m表示關(guān)鍵幀集合幀的個(gè)數(shù),fm代表已選擇的關(guān)鍵幀集合。q為同一主題查詢的網(wǎng)頁圖片。
3)當(dāng)