專利名稱:視頻對象提取的方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體技術(shù)領(lǐng)域,具體而言,本發(fā)明涉及視頻對象提取的方法及設(shè)備。
背景技術(shù):
近些年來,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和多媒體技術(shù)的普及,視頻流媒體技術(shù)越來越受到青睞,視頻處理技術(shù)廣泛應(yīng)用于視頻通話、遠(yuǎn)程監(jiān)控、實(shí)時(shí)通信等諸多領(lǐng)域,并涵蓋了現(xiàn)階段所有的信息設(shè)備,例如家庭電腦、手機(jī)、平板電腦等。對感興趣對象進(jìn)行提取是視頻處理技術(shù)的基本要素之一,根據(jù)用戶的需要將視頻中的某個(gè)對應(yīng)目標(biāo)或者對應(yīng)區(qū)域分割出來,可以進(jìn)行一系列后續(xù)處理。圖I所示為視頻感興趣對象提取的一個(gè)簡單應(yīng)用——背景替換。從左圖用戶通話視頻中將用戶“切下來”,然后配以右圖的背景中以得到全新的視覺效果?,F(xiàn)有視頻感興趣對象提取技術(shù)主要有兩類解決方案。第一類針對視頻的每一幀選擇某個(gè)區(qū)域作為“感興趣對象”的種子,然后結(jié)合顏色、邊緣等信息將對應(yīng)的感興趣對象提取出來。如圖2所示,左圖中虛線選擇了一個(gè)區(qū)域作為種子,右圖是根據(jù)這個(gè)種子區(qū)域提取的感興趣對象。選擇種子的方法主要有兩種,第一種主要依賴用戶自己選擇,常見于圖像處理、視頻處理軟件中,例如Photoshop, Primere等軟件中的“套索” “魔術(shù)棒”等工具;第二種是通過機(jī)器學(xué)習(xí)算法得到一個(gè)分類器,然后使用這個(gè)分類器處理每一幀視頻以得到這個(gè)種子區(qū)域。第二類技術(shù)主要依賴于局部區(qū)域分析處理技術(shù)。該技術(shù)會(huì)將視頻的每一幀劃分為一系列子區(qū)域,然后在每一個(gè)子區(qū)域中進(jìn)行感興趣對象識別,最后通過一系列準(zhǔn)則將每一個(gè)子區(qū)域的感興趣對象組合起來以得到完整的感興趣對象。如圖3所示,左圖為對每個(gè)子區(qū)域處理之后的結(jié)果,右圖為各個(gè)子區(qū)域的組合結(jié)果。現(xiàn)階段以上兩類技術(shù)都存在一定的問題?;诜N子區(qū)域的感興趣對象技術(shù)的核心是種子點(diǎn)的選擇。如果用戶手動(dòng)選擇的話固然可以達(dá)到較高的準(zhǔn)確率,但是效率非常低,只適用于視頻處理軟件,完全不符合實(shí)時(shí)系統(tǒng)的需求;采用機(jī)器學(xué)習(xí)方法獲得分類器雖然可以極大程度上緩解用戶的操作復(fù)雜性,但是其準(zhǔn)確率相對比較低,效率也不算特別高(大約300ms/幀)。盡管現(xiàn)階段也有一些技術(shù)考慮使用運(yùn)動(dòng)信息,但只將其作為選擇種子區(qū)域后的可選項(xiàng),忽略了其在選擇種子區(qū)域的重要性。第二類基于局部區(qū)域的算法的優(yōu)勢在于較高的準(zhǔn)確率,但是該類方法效率相對于基于種子區(qū)域的算法要低很多,離實(shí)時(shí)的要求相距甚遠(yuǎn)。所以這類技術(shù)更多地應(yīng)用于離線應(yīng)用中,例如視頻制作等。此外,這兩類方法都存在一個(gè)共同的問題如果兩個(gè)相鄰區(qū)域的顏色非常類似,如圖2、圖3中頭發(fā)部分,在最后的分割結(jié)果中,不是感興趣對象的頭發(fā)區(qū)域也會(huì)被錯(cuò)誤地統(tǒng)一分割出來。這個(gè)問題也是當(dāng)前感興趣對象提取領(lǐng)域的公認(rèn)難題之一。因此,有必要提出一種有效的技術(shù)方案,解決現(xiàn)有技術(shù)中視頻感興趣對象提取的問題。
發(fā)明內(nèi)容
本發(fā)明的目的旨在至少解決上述技術(shù)缺陷之一,特別通過使用高效的運(yùn)動(dòng)估計(jì)算法進(jìn)行種子區(qū)域的選擇,提高視頻感興趣對象提取的效率。為了實(shí)現(xiàn)本發(fā)明之目的,本發(fā)明實(shí)施例一方面提出了一種視頻對象提取的方法, 包括以下步驟對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征點(diǎn),并對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中對象的運(yùn)動(dòng)方程;選擇視頻對象的表示模型,根據(jù)概率填充方法對所述表示模型進(jìn)行填充,得到所述視頻對象的區(qū)域模型;根據(jù)所述運(yùn)動(dòng)方程,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域,利用目標(biāo)檢測技術(shù)對所述種子區(qū)域進(jìn)行修正,使用圖分割方法分割得到所述種子區(qū)域,獲取所述視頻對象。本發(fā)明實(shí)施例另一方面還提出了一種視頻對象提取的設(shè)備,包括檢測模塊、匹配模塊、選擇模塊、計(jì)算模塊和分割模塊,所述檢測模塊,用于對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征點(diǎn);所述匹配模塊,用于對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中對象的運(yùn)動(dòng)方程;所述選擇模塊,用于選擇視頻對象的表示模型,根據(jù)概率填充方法對所述表示模型進(jìn)行填充,得到所述視頻對象的區(qū)域模型;所述計(jì)算模塊,用于根據(jù)所述運(yùn)動(dòng)方程,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域;所述分割模塊,用于使用圖分割方法分割得到所述種子區(qū)域,獲取所述視頻對象。本發(fā)明提出的上述方案,通過使用高效的運(yùn)動(dòng)估計(jì)算法進(jìn)行種子區(qū)域的選擇,保證了視頻對象提取的實(shí)時(shí)性,解決了之前目標(biāo)提取效率低下的問題。此外,上述方案通過目標(biāo)檢測與幀間處理的方式,保證了其準(zhǔn)確率不低于現(xiàn)階段的主流分割方案的同時(shí),還可以處理大部分相鄰區(qū)域的顏色類似的情況,有效提升了目標(biāo)提取的準(zhǔn)確率。本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中圖I為基于感興趣對象提取的背景替換系統(tǒng);圖2為基于種子區(qū)域的感興趣對象提??;圖3為基于局部區(qū)域的感興趣對象提??;圖4為本發(fā)明實(shí)施例視頻對象提取的方法流程圖;圖5為視頻單幀圖像特征點(diǎn)檢測;
圖6為相鄰兩幀間的特征點(diǎn)匹配;圖7為感興趣對象描述I旲型;圖8為相鄰兩幀種子區(qū)域更新;圖9為基于局部模型的種子區(qū)域校正策略;圖10為圖分割(左圖)與后處理修正后的結(jié)果(右圖);圖11為本發(fā)明實(shí)施例視頻對象提取的設(shè)備結(jié)構(gòu)示意圖;圖12為發(fā)明應(yīng)用于視頻聊天系統(tǒng);圖13為發(fā)明應(yīng)用于交通監(jiān)控中。
具體實(shí)施例方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。為了實(shí)現(xiàn)本發(fā)明之目的,本發(fā)明提出了基于運(yùn)動(dòng)估計(jì)的感興趣對象提取技術(shù)。通過使用高效的運(yùn)動(dòng)估計(jì)算法進(jìn)行種子區(qū)域的選擇,保證了感興趣對象提取技術(shù)的實(shí)時(shí)性, 解決了之前效率低下的問題。此外,為了提升感興趣對象提取的準(zhǔn)確率,通過結(jié)合全局運(yùn)動(dòng)、顏色信息與局部的運(yùn)動(dòng)、顏色、邊緣信息,集成了目標(biāo)檢測與幀間處理方法,可以處理大部分相鄰區(qū)域的顏色類似的情況。為了實(shí)現(xiàn)本發(fā)明之目的,本發(fā)明提出了一種視頻對象提取的方法,包括以下步驟對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征點(diǎn),并對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中對象的運(yùn)動(dòng)方程;選擇視頻對象的表示模型,根據(jù)概率填充方法對所述表示模型進(jìn)行填充,得到所述視頻對象的區(qū)域模型;根據(jù)所述運(yùn)動(dòng)方程,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域,使用圖分割方法分割得到所述種子區(qū)域,獲取所述視頻對象。進(jìn)一步而言,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域之后,還包括利用目標(biāo)檢測技術(shù)對所述種子區(qū)域進(jìn)行修正。如圖4所示,為本發(fā)明實(shí)施例視頻對象提取的方法流程圖,包括以下步驟SllO :對視頻的單幀圖像進(jìn)行檢測,確定相鄰兩幀中對象的運(yùn)動(dòng)方程。具體而言,在步驟SllO中,對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征點(diǎn),并對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中對象的運(yùn)動(dòng)方程。作為本發(fā)明的實(shí)施例,對視頻的單幀圖像進(jìn)行檢測包括通過定尺度特征變換算法(SIFT,Scale-invariant feature transform)、快速魯棒特征算法(SURF, Speeded Up Robust Features)、快速分割測試特征算法(FAST, Features from Accelerated Segment Test)對視頻的單巾貞圖像進(jìn)行檢測,并使用二值獨(dú)立兀算法(BRIEF, Binary Robust Independent Elementary Features)對特征點(diǎn)進(jìn)行描述。具體而言,使用FAST描述子(或者其他方法)檢測圖像中的感興趣點(diǎn) Ins [O]-Ins [N],用BRIEF算法來描述該感興趣點(diǎn),每個(gè)點(diǎn)計(jì)算一個(gè)32維的特征向量,Ins_Fea
[O], Ins_Fea
[I],· · ·,Ins_Fea
[31], Ins_Fea[l]
,· · ·,Ins_Fea[N][31], 圖示如圖5所示。該方法的優(yōu)勢在于高效,在同等準(zhǔn)確率情況下,F(xiàn)AST與BRIEF的組合相對于其它特征點(diǎn)提取方法速度上有近20倍的提升。匹配相鄰的兩幀之間的特征點(diǎn),根據(jù)各個(gè)特征點(diǎn)的位置與對應(yīng)特征向量Ins_ Previous_Fea[i], Ins_Current_Fea[i]計(jì)算各個(gè)特征點(diǎn)的對應(yīng)關(guān)系。首先計(jì)算相鄰兩巾貞所有特征點(diǎn)對(Ins_Previous_Fea[i], Ins_Current_Fea[j],i = 1,2,· · ·,m,j = 1,2,· · ·, η)的漢明距離(Hamming Distance)
權(quán)利要求
1.一種視頻對象提取的方法,其特征在于,包括以下步驟對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征點(diǎn),并對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中對象的運(yùn)動(dòng)方程;選擇視頻對象的表示模型,根據(jù)概率填充方法對所述表示模型進(jìn)行填充,得到所述視頻對象的區(qū)域模型;根據(jù)所述運(yùn)動(dòng)方程,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域,使用圖分割方法分割得到所述種子區(qū)域,獲取所述視頻對象。
2.如權(quán)利要求I所述的視頻對象提取的方法,其特征在于,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域之后,還包括利用目標(biāo)檢測技術(shù)對所述種子區(qū)域進(jìn)行修正。
3.如權(quán)利要求2所述的視頻對象提取的方法,其特征在于,對視頻的單幀圖像進(jìn)行檢測包括通過SURF算法、FAST算法或BRIEF算法對視頻的單幀圖像進(jìn)行檢測并描述圖像的特征點(diǎn)。
4.如權(quán)利要求2所述的視頻對象提取的方法,其特征在于,選擇視頻對象的表示模型包括以下一種或多種方式用戶根據(jù)需要手動(dòng)選擇表示模型;或者,根據(jù)目標(biāo)檢測器的檢測結(jié)果選擇表示模型。
5.如權(quán)利要求2所述的視頻對象提取的方法,其特征在于,利用目標(biāo)檢測技術(shù)對所述種子區(qū)域進(jìn)行修正包括以下步驟修正所述種子區(qū)域的位置信息;根據(jù)運(yùn)動(dòng)方程對所述位置信息和所述種子區(qū)域的大小尺寸進(jìn)行修正;對所述種子區(qū)域的輪廓進(jìn)行修正。
6.如權(quán)利要求5所述的視頻對象提取的方法,其特征在于,還包括對所述種子區(qū)域基于局部邊緣顏色信息與邊緣信息對種子區(qū)域進(jìn)行調(diào)整。
7.如權(quán)利要求2所述的視頻對象提取的方法,其特征在于,使用圖分割方法得到所述視頻對象之后,還包括通過形態(tài)學(xué)濾波方法或邊緣修正方法對所述視頻對象進(jìn)行后處理。
8.一種視頻對象提取的設(shè)備,其特征在于,包括檢測模塊、匹配模塊、選擇模塊、計(jì)算模塊和分割模塊,所述檢測模塊,用于對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征占.所述匹配模塊,用于對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中對象的運(yùn)動(dòng)方所述選擇模塊,用于選擇視頻對象的表示模型,根據(jù)概率填充方法對所述表示模型進(jìn)行填充,得到所述視頻對象的區(qū)域模型;所述計(jì)算模塊,用于根據(jù)所述運(yùn)動(dòng)方程,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域;所述分割模塊,用于使用圖分割方法分割得到所述種子區(qū)域,獲取所述視頻對象。
9.如權(quán)利要求8所述的視頻對象提取的設(shè)備,其特征在于,還包括修正模塊,所述修正模塊,用于利用目標(biāo)檢測技術(shù)對所述種子區(qū)域進(jìn)行修正。
10.如權(quán)利要求9所述的視頻對象提取的設(shè)備,其特征在于,所述檢測模塊通過SURF算法、FAST算法或BRIEF算法對視頻的單幀圖像進(jìn)行檢測并描述圖像的特征點(diǎn)。
11.如權(quán)利要求9所述的視頻對象提取的設(shè)備,其特征在于,所述選擇模塊選擇視頻對象的表示模型包括以下一種或多種方式用戶根據(jù)需要手動(dòng)選擇表示模型;或者,根據(jù)目標(biāo)檢測器的檢測結(jié)果選擇表示模型。
12.如權(quán)利要求9所述的視頻對象提取的設(shè)備,其特征在于,所述修正模塊利用目標(biāo)檢測技術(shù)對所述種子區(qū)域進(jìn)行修正包括以下步驟修正所述種子區(qū)域的位置信息;根據(jù)運(yùn)動(dòng)方程對所述位置信息和所述種子區(qū)域的大小尺寸進(jìn)行修正;對所述種子區(qū)域的輪廓進(jìn)行修正。
13.如權(quán)利要求12所述的視頻對象提取的設(shè)備,其特征在于,還包括所述修正模塊對所述種子區(qū)域基于局部邊緣顏色信息與邊緣信息對種子區(qū)域進(jìn)行調(diào)整。
14.如權(quán)利要求9所述的視頻對象提取的設(shè)備,其特征在于,所述分割模塊使用圖分割方法得到所述視頻對象之后,還包括所述修正模塊通過形態(tài)學(xué)濾波方法或邊緣修正方法對所述視頻對象進(jìn)行后處理。
15.一種終端設(shè)備,其特征在于,包括通信單元和視頻對象提取單元,所述通信單元,用于與其他終端設(shè)備進(jìn)行通信,并獲取視頻信息輸入所述視頻對象提取單元;所述視頻對象提取單元,包括檢測模塊、匹配模塊、選擇模塊、修正模塊和分割模塊, 所述檢測模塊,用于對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征點(diǎn)。所述匹配模塊,用于對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中對象的運(yùn)動(dòng)方所述選擇模塊,用于選擇視頻對象的表示模型,根據(jù)概率填充方法對所述表示模型進(jìn)行填充,得到所述視頻對象的區(qū)域模型;所述計(jì)算模塊,用于根據(jù)所述運(yùn)動(dòng)方程,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域;所述分割模塊,用于使用圖分割方法分割得到所述種子區(qū)域,獲取所述視頻對象。
16.一種視頻監(jiān)控系統(tǒng),其特征在于,包括視頻輸入設(shè)備和視頻對象提取的設(shè)備, 所述視頻輸入設(shè)備包括以下任意一種設(shè)備相機(jī)、攝像頭、攝像機(jī)或錄像機(jī);所述視頻對象提取的設(shè)備為權(quán)利要求8至權(quán)利要求14任意之一所述的設(shè)備。
17.—種視頻通信系統(tǒng),其特征在于,包括通信設(shè)備和視頻對象提取的設(shè)備,所述通信設(shè)備,用于向用戶提供語音或數(shù)據(jù)服務(wù),以及獲取視頻信息輸入所述視頻對象提取單元;所述視頻對象提取的設(shè)備為權(quán)利要求8至權(quán)利要求14任意之一所述的設(shè)備。
全文摘要
一種視頻對象提取的方法,包括對視頻的單幀圖像進(jìn)行檢測,獲取相鄰兩幀中每幀圖像的特征點(diǎn),并對相鄰兩幀中的特征點(diǎn)進(jìn)行匹配,確定相鄰兩幀中視頻對象的運(yùn)動(dòng)方程;選擇視頻對象的表示模型,根據(jù)概率填充方法對所述表示模型進(jìn)行填充,得到所述視頻對象的區(qū)域模型;根據(jù)所述運(yùn)動(dòng)方程,對所述視頻對象的區(qū)域模型計(jì)算出初始的種子區(qū)域,使用圖分割方法分割得到所述種子區(qū)域,獲取所述視頻對象。本發(fā)明提出的上述方案,通過使用高效的運(yùn)動(dòng)估計(jì)算法進(jìn)行種子區(qū)域的選擇,保證了視頻對象提取的實(shí)時(shí)性,解決了之前目標(biāo)提取效率低下的問題;此外,還能有效提升了目標(biāo)提取的準(zhǔn)確率。
文檔編號G06T7/20GK102609958SQ201210017560
公開日2012年7月25日 申請日期2012年1月19日 優(yōu)先權(quán)日2012年1月19日
發(fā)明者任昊宇, 熊君君, 王琳 申請人:三星電子株式會(huì)社, 北京三星通信技術(shù)研究有限公司