本發(fā)明屬于視頻圖像處理技術(shù)領(lǐng)域,具體涉及一種基于雙目多維感知特性的立體視頻顯著性檢測(cè)方法。
背景技術(shù):三維(Three-Dimension,3D)視頻由于其左右視點(diǎn)圖像之間存在視差,能帶給觀眾身臨其境的體驗(yàn)感和更高的逼真度,是目前正在著重發(fā)展的新一代視頻服務(wù)技術(shù)。但是人類(lèi)視覺(jué)研究表明,由于眼球的聚焦功能,人眼不能同時(shí)感知3D視頻中的近處物體和遠(yuǎn)處物體,必須聚焦于某一區(qū)域,導(dǎo)致人類(lèi)的3D視覺(jué)選擇性比2D視覺(jué)選擇性更強(qiáng),表現(xiàn)在3D視頻上其區(qū)域顯著性更突出。3D視頻顯著性計(jì)算模型對(duì)于場(chǎng)景中物體的計(jì)算與識(shí)別,立體圖像/視頻壓縮,立體圖像/視頻的質(zhì)量評(píng)估,以及視覺(jué)導(dǎo)航等研究領(lǐng)域都具有重要的指導(dǎo)意義。傳統(tǒng)的顯著性檢測(cè)模型大部分是基于圖像的顏色,亮度,方向,紋理等空間特性而采用不同的算法進(jìn)行顯著性檢測(cè),但這些傳統(tǒng)模型方法無(wú)法有效的檢測(cè)出立體視頻的顯著區(qū)域,一方面由于大部分的傳統(tǒng)檢測(cè)模型沒(méi)有計(jì)算時(shí)域上的顯著特性,而相鄰幀之間的運(yùn)動(dòng)是影響著人眼視覺(jué)注意力的重要特征之一,而運(yùn)動(dòng)特征的檢測(cè)常用的方法有幀差法、背景建模法以及光流法等。幀差法較為簡(jiǎn)單,但準(zhǔn)確率較低,背景建模法受背景模型的影響較大會(huì)導(dǎo)致檢測(cè)不穩(wěn)定,而光流法的算法復(fù)雜度高;另一方面,傳統(tǒng)的檢測(cè)模型沒(méi)有計(jì)算深度信息對(duì)立體視頻的顯著特性的影響,檢測(cè)不夠準(zhǔn)確,因?yàn)樯疃刃畔⑹欠从澄矬w距離人眼的遠(yuǎn)近,是立體視頻的重要感知特征之一。鑒于上述現(xiàn)狀,需要對(duì)傳統(tǒng)的顯著性模型檢測(cè)進(jìn)行改進(jìn),采取簡(jiǎn)單有效的方法對(duì)立體視頻的空間、深度以及運(yùn)動(dòng)三個(gè)不同維度的視圖信息進(jìn)行顯著性計(jì)算,并且準(zhǔn)確的檢測(cè)出立體視頻的顯著區(qū)域。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的就是提供一種基于雙目多維感知特性的立體視頻顯著性檢測(cè)方法。本發(fā)明方法包括顯著特征提取和顯著特征融合。所述的顯著特征提取是從立體視頻的空間、深度以及運(yùn)動(dòng)三個(gè)不同維度的視圖信息分別進(jìn)行顯著性計(jì)算,具體包括三部分:二維靜態(tài)顯著區(qū)域檢測(cè)、深度顯著區(qū)域檢測(cè)、運(yùn)動(dòng)顯著區(qū)域檢測(cè)。其中:二維靜態(tài)顯著區(qū)域檢測(cè):根據(jù)Bayesian模型計(jì)算單張彩色圖像的空間特征的顯著性,檢測(cè)出彩色圖像的二維靜態(tài)顯著區(qū)域,具體是:通過(guò)計(jì)算單點(diǎn)的感興趣概率的方法來(lái)估計(jì)物體的顯著程度SZ:式中z表示圖像中的某個(gè)像素點(diǎn),p表示相應(yīng)的概率值,隨機(jī)變量F表示一個(gè)點(diǎn)像素的視覺(jué)特征值,隨機(jī)變量L表示一個(gè)像素點(diǎn)的坐標(biāo)位置;二元隨機(jī)變量C表示該點(diǎn)像素是否為目標(biāo)像素,C=1表示為目標(biāo)像素,C≠1表示不是目標(biāo)像素;fz和lz分別表示注視在z點(diǎn)時(shí)的視覺(jué)特征值以及相應(yīng)的像素坐標(biāo)位置;假設(shè)在C=1的情況下,該點(diǎn)的視覺(jué)特征與空間位置是相互獨(dú)立的,即有:為了在一張圖像中方便比較該點(diǎn)的顯著概率,將上式進(jìn)行對(duì)數(shù)化:logsz=-logp(F=fz)+logp(F=fz|C=1)+logp(C=1|L=lz);式中第一項(xiàng)-logp(F=fz)表示該像素點(diǎn)特征的自信息量,只依賴(lài)于z的視覺(jué)特征,獨(dú)立于任何先驗(yàn)信息;第二項(xiàng)logp(F=fz|C=1)表示對(duì)數(shù)似然函數(shù)項(xiàng),用來(lái)表示目標(biāo)的先驗(yàn)信息,因?yàn)樵擁?xiàng)更多的取決于人體的主觀因素?zé)o法準(zhǔn)確的計(jì)算,所以一般計(jì)算中可以忽略;第三項(xiàng)logp(C=1|L=lz)表示獨(dú)立于視覺(jué)特性,反映目標(biāo)可能出現(xiàn)位置的先驗(yàn)信息,一般情況下,我們并不知道目標(biāo)位置的先驗(yàn)信息,則也可以忽略。因此,上式簡(jiǎn)化為:logSz=-logp(F=fz),即計(jì)算二維靜態(tài)的整體顯著性只需要考慮單點(diǎn)像素的自信量,通過(guò)計(jì)算圖像各像素點(diǎn)的顯著程度SZ從而獲取二維靜態(tài)顯著圖SMimage。深度顯著區(qū)域檢測(cè)的具體步驟是:①采用DERS(depthestimationreferencesoftware)軟件根據(jù)輸入的第k幀左視點(diǎn)圖和右視點(diǎn)圖計(jì)算出該幀的視差圖,其中視差值d∈[0,255];②根據(jù)視差圖中的最大視差值dmax和最小視差值dmin將視差值歸一化到[0,1]區(qū)間;如果某像素點(diǎn)的視差值接近dmax則賦予大的視差值,相反接近dmin則賦予小的視差值,這樣能夠給前景物體與背景物體賦予不同的顯著性得到深度前景圖Dforeground,其中前景物體相對(duì)于背景物體更為顯著;③利用高斯差分濾波器提取重要的深度感知特征—深度對(duì)比度DoG(x,y),實(shí)現(xiàn)公式下:其中(x,y)代表濾波器位置,σ和K分別用來(lái)控制濾波器的尺度和高斯核的半徑比。通過(guò)高斯差分濾波器DoG可以去除高頻信號(hào)中的隨機(jī)噪聲,降低模糊灰度圖像的模糊度,增加灰度圖像的邊緣細(xì)節(jié)可見(jiàn)性,將經(jīng)DoG濾波后的深度圖作為深度對(duì)比度圖Dconstrast;④將獲取的深度前景圖Dforeground和深度對(duì)比度圖Dconstrast進(jìn)行線性加權(quán)融合,獲取深度顯著圖SMdepth:SMdepth=ω1Dforeground+ω2Dconstrast;其中:ω1和ω2分別為Dforeground和Dconstrast的權(quán)重。運(yùn)動(dòng)顯著區(qū)域檢測(cè):根據(jù)當(dāng)前幀的二維靜態(tài)顯著圖SMimage和深度顯著圖SMdepth中的顯著區(qū)域采用光流法提取相鄰幀間運(yùn)動(dòng)矢量,獲取運(yùn)動(dòng)顯著圖SMmotion,具體步驟是:a.對(duì)二維靜態(tài)顯著圖SMimage和深度顯著圖SMdepth進(jìn)行二值化:式中,Timage和Tdepth分別為SMimage和SMdepth的二值化處理的門(mén)限值,最佳門(mén)限值通過(guò)大津算法獲取,SM′image和SM′depth為經(jīng)過(guò)二值化處理后的顯著圖,其中顯著區(qū)域的像素值為1,不顯著區(qū)域的像素值為0;然后將SM′image和SM′depth代入下式中來(lái)確定當(dāng)前幀圖像的光流計(jì)算區(qū)域S′(x,y):式中S(x,y)表示當(dāng)前幀原視圖中像素點(diǎn)(x,y)處的灰度值;b.根據(jù)劃分的顯著區(qū)域利用Lucas-Kanade微分光流算法計(jì)算相鄰幀的運(yùn)動(dòng);該算法假設(shè)連續(xù)時(shí)間內(nèi)像素點(diǎn)的灰度值恒定不變,特征點(diǎn)鄰域內(nèi)做相似運(yùn)動(dòng),就可對(duì)顯著區(qū)域所有像素求解基本光流方程:IxVx+IyVy=-It;式中Vx,Vy分別表示光流矢量沿x,y兩個(gè)方向分量,Ix,Iy,It分別表示像素點(diǎn)沿x,y,t三個(gè)方向的偏導(dǎo)數(shù),矢量形式表達(dá)式為:式中▽IT=(Ix,Iy)T是該點(diǎn)的梯度方向,符號(hào)T代表轉(zhuǎn)置,為該點(diǎn)的光流,聯(lián)立n個(gè)光流方程采用最小二乘法求解x,y方向的速度:得到:通過(guò)上述方程計(jì)算顯著區(qū)域的光流進(jìn)而獲取運(yùn)動(dòng)顯著圖SMmotion。所述的顯著特征融合是將已獲取的三種不同維度的顯著特征圖SMimage、SMdepth、SMmotion采取全局非線性歸一化的融合策略進(jìn)行融合,進(jìn)而獲取立體視頻顯著區(qū)域。為了有效融合三種不同維度的顯著圖,采取全局非線性歸一化的融合策略將二維靜態(tài)顯著圖、深度顯著圖以及運(yùn)動(dòng)顯著圖進(jìn)行融合,具體步驟是:(1)為了避免由于不同方法生成不同維度顯著圖而產(chǎn)生的幅值差異,先將已獲取的各種不同維度的顯著圖歸一化到一個(gè)相同的動(dòng)態(tài)范圍內(nèi)(0到1區(qū)間);(2)計(jì)算每張顯著圖的全局最大值Mi(i為image、depth或motion)以及局部極大值mi的平均值其中Mi通過(guò)計(jì)算視差直方圖可獲取,是先通過(guò)matlab中的差分函數(shù)計(jì)算出局部極大值,然后再取其平均值;(3)將歸一化后的各維顯著圖進(jìn)行加權(quán)融合,計(jì)算公式如下:i為image、depth或motion;式中N(SMi)表示歸一化操作,即把不同的顯著圖都?xì)w一化到[0,1]區(qū)間,其中權(quán)重通過(guò)計(jì)算各維顯著圖的全局最大值Mi與局部極大值mi的平均值的差值獲得,當(dāng)二者差值很大時(shí),表明該顯著圖中的顯著特征更為明顯,應(yīng)賦予大的權(quán)重;相反當(dāng)差值很小的時(shí)候,表明該顯著圖的顯著特征更為均勻,應(yīng)賦予較小的權(quán)重進(jìn)行抑制,這里取(Mi-mi)2作為每張顯著圖的權(quán)重值。通過(guò)臨近相似特征相互抑制的方式來(lái)近似模擬生物神經(jīng)抑制機(jī)制,融合三個(gè)不同維度的顯著特征來(lái)獲取立體視頻的顯著區(qū)域。本申請(qǐng)?jiān)谝曨l圖像處理研究領(lǐng)域中提出了一種新穎的立體視頻顯著性檢測(cè)技術(shù),盡可能的去模擬人眼視覺(jué)注意力機(jī)制。該檢測(cè)技術(shù)主要分為顯著特征檢測(cè)與顯著特征融合兩大部分,其中顯著特征檢測(cè)分別利用空間,時(shí)間以及立體三個(gè)不同維度的立體視圖信息進(jìn)行顯著性檢測(cè):在空間上,基于Bayesian計(jì)算模型簡(jiǎn)單有效的完成單張彩色圖像的二維靜態(tài)顯著區(qū)域檢測(cè);在立體上,基于視差特征和通過(guò)使用高斯差分濾波器來(lái)獲取紋理細(xì)節(jié)清晰的深度顯著區(qū)域;在時(shí)域上,基于以上兩個(gè)維度的顯著區(qū)域采用局部光流法提取運(yùn)動(dòng)顯著區(qū)域,有效的降低了計(jì)算復(fù)雜度;而顯著特征融合方面為了獲取高質(zhì)量的立體視頻顯著圖,采取近似神經(jīng)抑制機(jī)制的融合策略將三個(gè)不同維度的顯著特征進(jìn)行融合進(jìn)而得到立體視頻顯著區(qū)域。該立體顯著性模型可以直接應(yīng)用在3D視頻壓縮,3D質(zhì)量評(píng)估以及物體識(shí)別和追蹤等工程領(lǐng)域中。附圖說(shuō)明圖1是本發(fā)明方法的流程圖;圖2是立體視頻一幀左視圖;圖3是立體視頻一幀右視圖;圖4是立體視頻一幀左視圖的二維靜態(tài)顯著區(qū)域檢測(cè)圖;圖5是立體視頻一幀左視圖和右視圖的視差圖;圖6是立體視頻一幀視差圖的前景顯著圖;圖7是立體視頻一幀視差圖的深度對(duì)比度圖;圖8是立體視頻一幀視差圖的深度顯著區(qū)域檢測(cè)圖;圖9是立體視頻一幀劃分顯著區(qū)域的左視圖;圖10是立體視頻一幀劃分顯著區(qū)域的右視圖;圖11是立體視頻相鄰幀的運(yùn)動(dòng)顯著區(qū)域檢測(cè)圖;圖12是立體視頻的顯著區(qū)域檢測(cè)圖;圖13是不同的立體視頻序列的檢測(cè)結(jié)果圖。具體實(shí)施方式如圖1所示,一種基于雙目多維感知特性的立體視頻顯著性檢測(cè)方法包括顯著特征提取和顯著特征融合。顯著特征提取是從立體視頻的空間、深度以及運(yùn)動(dòng)三個(gè)不同維度的視圖信息分別進(jìn)行顯著性計(jì)算,具體包括三部分:二維靜態(tài)顯著區(qū)域檢測(cè)、深度顯著區(qū)域檢測(cè)、運(yùn)動(dòng)顯著區(qū)域檢測(cè)。其中:二維靜態(tài)顯著區(qū)域檢測(cè):根據(jù)Bayesian模型計(jì)算單張彩色圖像的空間特征的顯著性,檢測(cè)出彩色圖像的二維靜態(tài)顯著區(qū)域,具體是:通過(guò)計(jì)算單點(diǎn)的感興趣概率的方法來(lái)估計(jì)物體的顯著程度SZ:式中z表示圖像中的某個(gè)像素點(diǎn),p表示相應(yīng)的概率值,隨機(jī)變量F表示一個(gè)點(diǎn)像素的視覺(jué)特征值,隨機(jī)變量L表示一個(gè)像素點(diǎn)的坐標(biāo)位置;二元隨機(jī)變量C表示該點(diǎn)像素是否為目標(biāo)像素,C=1表示為目標(biāo)像素,C≠1表示不是目標(biāo)像素;fz和lz分別表示注視在z點(diǎn)時(shí)的視覺(jué)特征值以及相應(yīng)的像素坐標(biāo)位置;假設(shè)在C=1的情況下,該點(diǎn)的視覺(jué)特征與空間位置是相互獨(dú)立的,即有:為了在一張圖像中方便比較該點(diǎn)的顯著概率,將上式進(jìn)行對(duì)數(shù)化:logsz=-logp(F=fz)+logp(F=fz|C=1)+logp(C=1|L=lz);式中第一項(xiàng)-logp(F=fz)表示該像素點(diǎn)特征的自信息量,只依賴(lài)于z的視覺(jué)特征,獨(dú)立于任何先驗(yàn)信息;第二項(xiàng)logp(F=fz|C=1)表示對(duì)數(shù)似然函數(shù)項(xiàng),用來(lái)表示目標(biāo)的先驗(yàn)信息,因?yàn)樵擁?xiàng)更多的取決于人體的主觀因素?zé)o法準(zhǔn)確的計(jì)算,所以一般計(jì)算中可以忽略;第三項(xiàng)logp(C=1|L=lz)表示獨(dú)立于視覺(jué)特性,反映目標(biāo)可能出現(xiàn)位置的先驗(yàn)信息,一般情況下,我們并不知道目標(biāo)位置的先驗(yàn)信息,則也可以忽略。因此,上式簡(jiǎn)化為:logSz=-logp(F=fz),即計(jì)算二維靜態(tài)的整體顯著性只需要考慮單點(diǎn)像素的自信量,通過(guò)計(jì)算圖像各像素點(diǎn)的顯著程度SZ從而獲取二維靜態(tài)顯著圖SMimage,如圖2、3、4所示。深度顯著區(qū)域檢測(cè)的具體步驟是:①采用DERS(depthestimationreferencesoftware)軟件根據(jù)輸入的第k幀左視點(diǎn)圖和右視點(diǎn)圖計(jì)算出該幀的視差圖,其中視差值d∈[0,255],如圖5所示;②根據(jù)視差圖中的最大視差值dmax和最小視差值dmin將視差值歸一化到[0,1]區(qū)間;如果某像素點(diǎn)的視差值接近dmax則賦予大的視差值,相反接近dmin則賦予小的視差值,這樣能夠給前景物體與背景物體賦予不同的顯著性得到深度前景圖Dforeground,其中前景物體相對(duì)于背景物體更為顯著,如圖6所示;③利用高斯差分濾波器提取重要的深度感知特征—深度對(duì)比度DoG(x,y),實(shí)現(xiàn)公式下:其中(x,y)代表濾波器位置,σ和K分別用來(lái)控制濾波器的尺度和高斯核的半徑比;為實(shí)現(xiàn)高效DoG濾波,這里取σ=32,K=1.6(近似于高斯拉普拉斯算子)。通過(guò)高斯差分濾波器DoG可以去除高頻信號(hào)中的隨機(jī)噪聲,降低模糊灰度圖像的模糊度,增加灰度圖像的邊緣細(xì)節(jié)可見(jiàn)性,將經(jīng)DoG濾波后的深度圖作為深度對(duì)比度圖Dconstrast,如圖7所示;④將獲取的深度前景圖Dforeground和深度對(duì)比度圖Dconstrast進(jìn)行線性加權(quán)融合,獲取深度顯著圖SMdepth:SMdepth=ω1Dforeground+ω2Dconstrast;其中:ω1和ω2分別為Dforeground和Dconstrast的權(quán)重,ω1=ω2=0.5,檢測(cè)結(jié)果如圖8所示。運(yùn)動(dòng)顯著區(qū)域檢測(cè):根據(jù)當(dāng)前幀的二維靜態(tài)顯著圖SMimage和深度顯著圖SMdepth中的顯著區(qū)域采用光流法提取相鄰幀間運(yùn)動(dòng)矢量,獲取運(yùn)動(dòng)顯著圖SMmotion,具體步驟是:a.對(duì)二維靜態(tài)顯著圖SMimage和深度顯著圖SMdepth進(jìn)行二值化:式中,Timage和Tdepth分別為SMimage和SMdepth的二值化處理的門(mén)限值,最佳門(mén)限值通過(guò)大津算法獲取,SM′image和SM′depth為經(jīng)過(guò)二值化處理后的顯著圖,其中顯著區(qū)域的像素值為1,不顯著區(qū)域的像素值為0;然后將SM′image和SM′depth代入下式中來(lái)確定當(dāng)前幀圖像的光流計(jì)算區(qū)域S′(x,y):式中S(x,y)表示當(dāng)前幀原視圖中像素點(diǎn)(x,y)處的灰度值,結(jié)果如圖9和圖10所示;b.根據(jù)劃分的顯著區(qū)域利用Lucas-Kanade微分光流算法計(jì)算相鄰幀的運(yùn)動(dòng);該算法假設(shè)連續(xù)時(shí)間內(nèi)像素點(diǎn)的灰度值恒定不變,特征點(diǎn)鄰域內(nèi)做相似運(yùn)動(dòng),就可對(duì)顯著區(qū)域所有像素求解基本光流方程:IxVx+IyVy=-It;式中Vx,Vy分別表示光流矢量沿x,y兩個(gè)方向分量,Ix,Iy,It分別表示像素點(diǎn)沿x,y,t三個(gè)方向的偏導(dǎo)數(shù),矢量形式表達(dá)式為:式中▽IT=(Ix,Iy)T是該點(diǎn)的梯度方向,符號(hào)T代表轉(zhuǎn)置,為該點(diǎn)的光流,聯(lián)立n個(gè)光流方程采用最小二乘法求解x,y方向的速度:得到:檢測(cè)結(jié)果如圖11所示。通過(guò)上述方程計(jì)算顯著區(qū)域的光流進(jìn)而獲取運(yùn)動(dòng)顯著圖SMmotion。所述的顯著特征融合是將已獲取的三種不同維度的顯著特征圖SMimage、SMdepth、SMmotion采取全局非線性歸一化的融合策略進(jìn)行融合,進(jìn)而獲取立體視頻顯著區(qū)域。為了有效融合三種不同維度的顯著圖,采取全局非線性歸一化的融合策略將二維靜態(tài)顯著圖、深度顯著圖以及運(yùn)動(dòng)顯著圖進(jìn)行融合,具體步驟是:(1)為了避免由于不同方法生成不同維度顯著圖而產(chǎn)生的幅值差異,先將已獲取的各種不同維度的顯著圖歸一化到一個(gè)相同的動(dòng)態(tài)范圍內(nèi)(0到1區(qū)間);(2)計(jì)算每張顯著圖的全局最大值Mi(i為image、depth或motion)以及局部極大值mi的平均值其中Mi通過(guò)計(jì)算視差直方圖可獲取,是先通過(guò)matlab中的差分函數(shù)計(jì)算出局部極大值,然后再取其平均值;(3)將歸一化后的各維顯著圖進(jìn)行加權(quán)融合,計(jì)算公式如下:i為image、depth或motion;式中N(SMi)表示歸一化操作,即把不同的顯著圖都?xì)w一化到[0,1]區(qū)間,其中權(quán)重通過(guò)計(jì)算各維顯著圖的全局最大值Mi與局部極大值的平均值的差值獲得,當(dāng)二者差值很大時(shí),表明該顯著圖中的顯著特征更為明顯,應(yīng)賦予大的權(quán)重;相反當(dāng)差值很小的時(shí)候,表明該顯著圖的顯著特征更為均勻,應(yīng)賦予較小的權(quán)重進(jìn)行抑制,這里取(Mi-mi)2作為每張顯著圖的權(quán)重值。通過(guò)臨近相似特征相互抑制的方式來(lái)近似模擬生物神經(jīng)抑制機(jī)制,融合三個(gè)不同維度的顯著特征來(lái)獲取立體視頻的顯著區(qū)域,最后的檢測(cè)結(jié)果如圖12所示。由于考慮到不同場(chǎng)景下本發(fā)明的檢測(cè)結(jié)果,還選取5組不同場(chǎng)景下的3D視頻測(cè)試序列進(jìn)行實(shí)驗(yàn)使用本發(fā)明的立體視頻顯著性檢測(cè)方法進(jìn)行檢測(cè),檢測(cè)的結(jié)果如圖13所示。從實(shí)驗(yàn)結(jié)果驗(yàn)證了本發(fā)明能夠有效的檢測(cè)出立體視頻的顯著區(qū)域。本發(fā)明的保護(hù)內(nèi)容不局限于以上實(shí)例。在不背離發(fā)明構(gòu)思的精神和范圍下,本領(lǐng)域技術(shù)人員能夠想到的變化和優(yōu)點(diǎn)都被包括在本發(fā)明中,并且以所附的權(quán)利要求書(shū)為保護(hù)范圍。