專利名稱:一種基于視頻語義建模的視頻瀏覽方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理領(lǐng)域,特別涉及一種基于視頻語義建模的視頻瀏覽方法。
背景技術(shù):
在互聯(lián)網(wǎng)上提供視頻的技術(shù),目前已經(jīng)做了很多研究。這些技術(shù)包括視頻服務(wù)器的設(shè)計[McCanne & Jacobson 1995],提供代理[Floyd 1997],自適應(yīng)視頻編碼[Rowe1994]和低層次的網(wǎng)絡(luò)協(xié)議的修改[McManus & Ross 1996,Chen 1998]。目前的微軟和RealNetworks的RealPlayer使用wmplayer前置緩沖區(qū) ,它在傳輸?shù)耐瑫r,解碼的視頻文件。這將大大減少輪候時間,但會因為傳輸,凍結(jié)視頻流導(dǎo)致播放時滯后。馮等[1998]提出了在視頻流中提供一個包含演繹信息的前置緩沖管理。該計劃還需要監(jiān)測現(xiàn)有的帶寬。上述方法都存在致命的問題。這種服務(wù)器、代理或網(wǎng)絡(luò)協(xié)議是不可伸縮,無法預(yù)測,并限制在一時間的訪問次數(shù)。無論有多高效的服務(wù)器,代理或協(xié)議,當(dāng)訪問的數(shù)量增加時,它會卡住。這可能發(fā)生在一個視頻點播系統(tǒng)。用前置緩沖區(qū)或自適應(yīng)編碼視頻流應(yīng)用程序仍然是不切實際的。如果緩沖區(qū)足夠大,它可能相當(dāng)于下載整個視頻。添加緩沖管理也將增加額外的開銷,視頻服務(wù)器會大大降低效率。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點和不足,提供一種基于視頻語義建模的視頻瀏覽方法,提高了視頻瀏覽的效率。本發(fā)明通過下述技術(shù)方案實現(xiàn)一種基于視頻語義建模的視頻瀏覽方法,包括ViMeta-VU系統(tǒng)、一個視頻語義瀏覽界面、一個2. 5維affirn變換器以及智能代理;所述ViMeta-VU系統(tǒng)是語義視頻對象分級跟蹤處理系統(tǒng);所述2. 5維affirn變換器用于統(tǒng)計變化檢測與時空濾器相合的語義視頻對象平面自動分割,包括如下步驟(I)視頻分割檢測幀間運(yùn)動和拼接多個幀;(2)視頻語義表征和建模把視頻語義對象和可視對象都稱之為感知的對象;幀是一個完整的單元;堆棧幀形成一個連續(xù)的視頻序列;(3)視頻的多址訪問和移動代理代理AL和代理AM為一組代理,共同瀏覽遠(yuǎn)程站點的視頻文件;代理AL是安裝在本地用戶計算機(jī)的代理,代理AM是安裝在遠(yuǎn)程計算機(jī)的代理;所述代理AL交互式的從用戶瀏覽的視頻部分獲取他想要瀏覽的視頻語義特征信息,然后,此視頻語義特征信息發(fā)送到通過XML文檔瀏覽的代理AM,檢索幀序列,并發(fā)送配對到代理AL。本發(fā)明相對于現(xiàn)有技術(shù),具有如下的優(yōu)點及效果由于視頻是一個非常復(fù)雜的媒體,操縱和處理視頻數(shù)據(jù)的困難主要是由于視頻數(shù)據(jù)的語義理解信息的缺乏?;谝曨l語義信息基礎(chǔ)上推出了提供的某些行為的智能代理,如瀏覽行為、集中行為、參加行為等。解決方案不僅提供了視頻對象的快速訪問,也提供了靈活性,以滿足視頻鏡頭的需要。本發(fā)明的應(yīng)用將有利于視頻瀏覽效率的提高。該方法將著力于在互聯(lián)網(wǎng)上提供視頻對象。有很多應(yīng)用這種技術(shù),如網(wǎng)絡(luò)教育、視頻點播、電子報、計算機(jī)支持的協(xié)同等方面。
圖I為本發(fā)明的視頻語義結(jié)構(gòu)圖。
具體實施例方式下面結(jié)合具體實施例對本發(fā)明作進(jìn)一步具體詳細(xì)描述,但本發(fā)明的實施方式不限于此,對于未特別注明的工藝參數(shù),可參照常規(guī)技術(shù)進(jìn)行。實施例如圖I所示,基于視頻語義建模的視頻瀏覽方法,包括ViMeta-VU系統(tǒng)、一個視頻語義瀏覽界面、一個2. 5維affirn變換器以及智能代理;所述ViMeta-VU系統(tǒng)為語義視頻對象分級跟蹤處理系統(tǒng);所述2. 5維affirn變換器用于統(tǒng)計變化檢測與時空濾器相合的語義視頻對象平面自動分割,包括如下步驟(一)視頻分割檢測幀間運(yùn)動和拼接多個幀;視頻分割一個基于內(nèi)容分割的重要一步是檢測幀間運(yùn)動和拼接多個幀。對于幀之間的動作,方法描述了三個旋轉(zhuǎn)角度(roll, pitch and yaw)定義為(a,0y ),三個變換為(Tx,Ty,Tz)。一個空間點《,¥,2)與圖像坐標(biāo)(11,^0。在下一幀將移動到(x’,y’,z’)的圖像中的點移動到(u’,v’)。假設(shè)相機(jī)焦距f在移動以后是f',下一個針孔攝像機(jī)模型,它們之間的關(guān)系坐標(biāo)是
權(quán)利要求
1.一種基于視頻語義建模的視頻瀏覽方法,其特征在于包括ViMeta-VU系統(tǒng)、一個視頻語義瀏覽界面、一個2. 5維affirn變換器以及智能代理;所述ViMeta-VU系統(tǒng)是語義視頻對象分級跟蹤處理系統(tǒng);所述2. 5維affirn變換器用于統(tǒng)計變化檢測與時空濾器相合的語義視頻對象平面自動分割,包括如下步驟 (1)視頻分割檢測幀間運(yùn)動和拼接多個幀; (2)視頻語義表征和建模把視頻語義對象和可視對象都稱之為感知的對象;幀是一個完整的單元;堆棧幀形成一個連續(xù)的視頻序列; (3)視頻的多址訪問和移動代理代理AL和代理AM為一組代理,共同瀏覽遠(yuǎn)程站點的視頻文件;代理AL是安裝在本地用戶計算機(jī)的代理,代理AM是安裝在遠(yuǎn)程計算機(jī)的代理。
2.根據(jù)權(quán)利要求I所述的基于視頻語義建模的視頻瀏覽方法,其特征在于所述代理 AL交互式的從用戶瀏覽的視頻部分獲取他想要瀏覽的視頻語義特征信息,然后,此視頻語義特征信息發(fā)送到通過XML文檔瀏覽的代理AM,檢索幀序列,并發(fā)送配對到代理AL。
全文摘要
本發(fā)明公開了一種基于視頻語義建模的視頻瀏覽方法,包括ViMeta-VU系統(tǒng)、視頻語義瀏覽界面、2.5維affirn變換器以及智能代理;ViMeta-VU系統(tǒng)是語義視頻對象分級跟蹤處理系統(tǒng);2.5維affirn變換器用于統(tǒng)計變化檢測與時空濾器相合的語義視頻對象平面自動分割,包括如下步驟視頻分割、視頻語義表征和建模、視頻的多址訪問和移動代理。本發(fā)明的技術(shù)意義在于基于視頻語義信息基礎(chǔ)上推出了提供的某些行為的智能代理,如瀏覽行為、集中行為、參加行為等。解決方案不僅提供了視頻對象的快速訪問,也提供了靈活性,以滿足視頻鏡頭的需要,將有利于視頻瀏覽效率的提高。
文檔編號G06F17/30GK102750349SQ20121018899
公開日2012年10月24日 申請日期2012年6月8日 優(yōu)先權(quán)日2012年6月8日
發(fā)明者張昱, 肖海兵, 謝小鵬 申請人:華南理工大學(xué)