一種基于堆棧式去噪自編碼機的顯著性物體檢測方法
【專利摘要】本發(fā)明涉及一種基于堆棧式去噪自編碼機的顯著性物體檢測方法,首先利用去噪自編碼機對位于圖像周邊的圖塊進行建模,然后將訓練好的模型對整幅圖像中的圖塊進行深度特征的提取及重建,并將深度重建殘余作為顯著性的計算手段。最終取得更具準確性,魯棒性的顯著物體檢測結果。
【專利說明】一種基于堆棧式去噪自編碼機的顯著性物體檢測方法
【技術領域】
[0001]本發(fā)明屬于計算機視覺算法研究領域,涉及一種基于堆棧式去噪自編碼機的顯著性物體檢測方法,可以在自然圖像數(shù)據(jù)庫中準確、魯棒地計算出給定圖像的顯著物體。
【背景技術】
[0002]視覺顯著性是視覺注意的一項重要功能,它表現(xiàn)為觀察者從一個復雜的視覺場景中選擇一個重要的內容進行集中處理,而忽略其他不太重要的內容。視覺場景中某些內容比其他內容更能獲得觀察者的注意,我們稱它們具有更高的視覺顯著性。視覺顯著性的思想被大量地應用于視覺注意的計算模型中,ITTI在其經典的視覺注意計算模型中采用的顯著性度量方法是基于像素與其周圍鄰域的局部視覺特征差異;Ma等人在2003年提出一種基于特征對比的顯著性度量方法,該方法只考慮顏色特征,將輸入圖像從RGB顏色空間轉換為LUV空間,進行顏色量化。為了處理簡單,將輸入圖像調整到一個固定的尺寸。計算像素與其周圍鄰域的顏色特征對比度,得到該像素的顯著性值;Hou等人在2008年提出了一種基于譜殘差的顯著性度量方法,該方法在頻域上分析顯著區(qū)域的特征,在空間域上構建顯著圖。FengLiu等人后來提出基于區(qū)域的顯著性度量,他們首先利用一定的方法得到圖像中不同的區(qū)域,然后根據(jù)每個區(qū)域的位置因素和特征對比等度量其顯著性。
[0003]上述方法都是根據(jù)假設“圖像中局部/全局對比度高的地方應該擁有更高的顯著性”進行模型的建立,然 而盡管他們能夠在某些情況下得出令人滿意的結果,但是這些模型所基于的假設在一些復雜的圖像中并不適用。事實上,在進行顯著物體檢測時,能夠反映顯著物體的對比性,不是基于像素或圖塊的局部/全局對比性,而是圖像前景區(qū)域與背景區(qū)域的對比性。基于此,本發(fā)明提出一種基于堆棧式去噪自編碼機的顯著性物體檢測方法,首先利用去噪自編碼機對位于圖像周邊的圖塊進行建模,然后將訓練好的模型對整幅圖像中的圖塊進行深度特征的提取及重建,并將深度重建殘余作為顯著性的計算手段。最終取得更具準確性,魯棒性的顯著物體檢測結果。
【發(fā)明內容】
[0004]要解決的技術問題
[0005]為了避免現(xiàn)有技術的不足之處,本發(fā)明提出一種基于堆棧式去噪自編碼機的顯著性物體檢測方法。
[0006]技術方案
[0007]—種基于堆棧式去噪自編碼機的顯著性物體檢測方法,其特征在于步驟如下:
[0008]步驟I在圖像中提取邊界圖塊:首先將圖像下采樣為PXP個像素,然后利用大小為size e [5,20],步長為stepe [I, size]的方形滑動窗口在下采樣后的圖像的上、左、下、右四個邊界中提取圖塊,并將每個圖塊內的像素值構成的向量作為該圖塊的特征,生成四個訓練集合Xtop, Xleft,Xdown,Xright ?
[0009]步驟2訓練基于圖像邊界的堆棧式去噪自編碼機;釆用節(jié)點數(shù)分別為H1 e [20,500],H2 e [20,500]的兩層結構的堆棧式去噪自編碼機(SDAE),對四個集合Xleft, Xdown, Xright進行訓練,得到四個基于圖像邊界的堆棧式去噪自編碼機SDAEtop, SDAEleft, SDAEdown 和 SDAEright ;
[0010]步驟3計算深度殘余:采用大小為size e [5,20],步長為step e [I, size]的方形滑動窗口在下采樣后的圖像中提取圖塊,并將圖塊內的像素值構成的向量將作為該圖塊的特征,生成堆棧式去噪自編碼機的輸入集合X= {\},其中je [1,N],N為整幅圖像中提取的圖塊數(shù);
[0011 ] 將集合X = {Xj}中的每一個輸入樣本Xj輸入SDAEttjp中,計算輸入樣本Xj的上邊界深度殘爭'1 = WyZ,-Cj Ii ;其中為Xj在SDAEtop中第一隱層的激活向量,Cj為
Xj在SDAEttjp中第二重構層的激活向量;
[0012]將集合X = {Xj}中的每一個輸入樣本Xj輸入SDAEleft中,計算輸入樣本Xj的左邊界深度殘余?4' = ll ~Ζ?φ, I〗;其中0.,.為在SDAElrft中第一隱層的激活向量,《7為Xj在SDAElrft中第二重構層的激活向量;
[0013]將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEd_中,計算輸入樣本Xj的下邊界深度殘余^_叫1-ZbIlomj Ik2 ;其中C為在SDAEd_中第一隱層的激活向
量,Clj為Xj在SDAEd_中第二重構層的激活向量;
[0014]將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEl4ght中,計算輸入樣本Xj的右邊界深度殘余‘" = - Z^lj IL2 ;其中為在SDAE_中第一隱層的激活向量,
Ahtj為Xj在SDAEright中第二重構層的激活向量;
[0015]步驟4合并生成深度殘余圖:對步驟3中的每一個輸入樣本合并其基于四個邊
界的深度殘余:< 二^^ + ‘ +沁。,+ ^ );將合并后的深度殘余作為與其相對應的輸
入樣本的灰度值生成與下采樣后圖像對應的灰度圖,將這個灰度圖上采樣到原始圖片的大小即生成圖像的深度殘余圖;
[0016]步驟5基于超像素的區(qū)域平滑:根據(jù)超像素分割理論,可將原始圖像分割成互不重疊的超像素區(qū)域Rq,q e [1,Q],其中Q為超像素區(qū)域總數(shù);則每一個超像素區(qū)域Rq的顯著值為該超像素區(qū)域內所有像素點上深度殘余的均值。將所有超像素區(qū)域的顯著值線性映射到[0,I]范圍內就得到了最終的顯著物體檢測結果;
[0017]所述步驟2和3中的堆棧式去噪自編碼機釆用P.Vincent, H.Larochelle, 1.Lajoiej Y.Bengioj and P.-A.Manzagolj “Stacked denoising autoencoders: Learninguseful representations in a deep network with a local denoisingcriterion,,,Journal of Machine Learning Research, vol.9999, pp.3371-3408, 2010 ;
[0018]所述步驟5中的超像素分割方法釆用P.F.Felzenszwalb,and
D.P.Huttenlocherj “Efficient graph-based image segmentation, ”InternationalJournal of Computer Vision, vol.59, n0.2, pp.167-181,2004。
[0019]有益效果[0020]本發(fā)明提出一種基于堆棧式去噪自編碼機的顯著性物體檢測方法,首先利用去噪自編碼機對位于圖像周邊的圖塊進行建模,然后將訓練好的模型對整幅圖像中的圖塊進行深度特征的提取及重建,并將深度重建殘余作為顯著性的計算手段。最終取得更具準確性,魯棒性的顯著物體檢測結果。
[0021]【專利附圖】
【附圖說明】
[0022]圖1:本發(fā)明方法的基本流程圖
[0023]圖2:實驗結果圖
[0024]圖3:R0C結果圖
【具體實施方式】
[0025]現(xiàn)結合實施例、附圖對本發(fā)明作進一步描述:
[0026]用于實施的硬件環(huán)境是:Intel Pentium2.93GHz CPU計算機、2.0GB內存,運行的軟件環(huán)境是:Matlab R201 Ib和Windows XP。實驗選取了 SOD庫中的所有圖像作為測試數(shù)據(jù),該數(shù)據(jù)庫中包含1000幅自然圖像,是國際公開的用于測試顯著物體計算模型的數(shù)據(jù)庫。
[0027]本發(fā)明具體實施如下:
[0028]1.在圖像中提取邊界圖塊:首先將圖像下采樣為PXP個像素,然后利用大小為size e [5,20],步長為stepe [I, size]的方形滑動窗口在下采樣后的圖像的上、左、下、右四個邊界中提取圖塊,并將每個圖塊內的像素值構成的向量作為該圖塊的特征,生成四個訓練集合Xtop,
Xleft,Xdown,Xright0
[0029]2.訓練基于圖像邊界的堆棧式去噪自編碼機;采用“Stacked denoisingautoencoders: Learning useful representations in a deep network with a localdenoising criterion”中節(jié)點數(shù)分別為H1 e [20, 500] ,H2 e [20,500]的兩層結構的堆棧式去噪自編碼機(SDAE),對四個集合X_,Xleft, Xdown, Xright進行訓練,得到四個基于圖像邊界的堆棧式去噪自編碼機SDAEt_ SDAEleft, SDAEdown和SDAEright。
[0030]3.計算深度殘余:采用大小為size e [5,20],步長為step e [I, size]的方形滑動窗口在下采樣后的圖像中提取圖塊,并將圖塊內的像素值構成的向量將作為該圖塊的特征,生成堆棧式去噪自編碼機的輸入集合X= {\},其中je [1,N],N為整幅圖像中提取的圖塊數(shù)。
[0031 ] 將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEttjp中,計算輸入樣本Xj的上邊界深度殘余C = 11 yZ.j — CI〖;其中yZj為xJ在Sdaeiop中第一隱層的激活向量,C,為
Xj在SDAEttjp中第二重構層的激活向量。
[0032]將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEleft中,計算輸入樣本Xj的左邊界深度殘余4/ = llIL2;其中?.為\在SDAElrft中第一隱層的激活向量,Ζ:為Xj在SDAElrft中第二重構層的激活向量。
[0033]將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEd_中,計算輸入樣本Xj的下邊界深度殘余
I I bottom、j ^bottom,} Ik2;其中C,?。為Xj在SDAEd_中第一隱層的激活向量,i:Ln,j為Xj在SDAEd_中第二重構層的激活向量。
[0034]將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEl4ght中,計算輸入樣本Xj的右邊界深度殘余
【權利要求】
1.一種基于堆棧式去噪自編碼機的顯著性物體檢測方法,其特征在于步驟如下: 步驟I在圖像中提取邊界圖塊:首先將圖像下采樣為PXP個像素,然后利用大小為size e [5,20],步長為stepe [I, size]的方形滑動窗口在下采樣后的圖像的上、左、下、右四個邊界中提取圖塊,并將每個圖塊內的像素值構成的向量作為該圖塊的特征,生成四個訓練集合Xtop,
Xleft,Xdown,^right ; 步驟2訓練基于圖像邊界的堆棧式去噪自編碼機;采用節(jié)點數(shù)分別為H1 e [20, 500],H2 e [20,500]的兩層結構的堆棧式去噪自編碼機(SDAE),對四個集合Xt()p,Xleft, Xdown, Xright進行訓練,得到四個基于圖像邊界的堆棧式去噪自編碼機SDAE_,SDAEleft, SDAEdown和SDAEright ; 步驟3計算深度殘余:采用大小為size e [5,20],步長為step e [I, size]的方形滑動窗口在下采樣后的圖像中提取圖塊,并將圖塊內的像素值構成的向量將作為該圖塊的特征,生成堆棧式去噪自編碼機的輸入集合X= {\},其中je [1,N],N為整幅圖像中提取的圖塊數(shù); 將集合X = {xj}中的每一個輸入樣本輸入SDAEtop中,計算輸入樣本的上邊界深度殘余心)=11 y,oP.j -1 ;其中/二為Xj在SDAEtop中第一隱層的激活向量,z:。為Xj在SDAEtop中第二重構層的激活向量; 將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEleft中,計算輸入樣本Xj的左邊界深度殘余4ft,J = 11 y%, -zZlj I >2 ;其中為在SDAElrft中第一隱層的激活向量,Z1^J為Xj在SDAEleft中第二重構層的激活向量; 將集合X = {xj}中的每一個輸入樣本&輸入SDAEd_中,計算輸入樣本&的下邊界深度殘余= 11 y(bl_mJ - Zbouom,, 11〗;其中yZ-.j為Xj在SDAEd_中第一隱層的激活向量,C.j為在SDAEd_中第二重構層的激活向量; 將集合X = {xj}中的每一個輸入樣本Xj輸入SDAEl4ght中,計算輸入樣本Xj的右邊界深度殘余心Ll = 11 y(righ,,j - ^righLj IL2;其中yilu為Xj在SDAEl4ght中第一隱層的激活向量,z[fght.j為在SDAE^ght中第二重構層的激活向量; 步驟4合并生成深度殘余圖:將步驟3中的每一個輸入樣本&合并得到四個邊界的深度殘余:rl = 士);將合并后的深度殘余作為與其相對應的輸入樣本的灰度值生成與下采樣后圖像對應的灰度圖,將這個灰度圖上采樣到原始圖片的大小生成圖像的深度殘余圖; 步驟5基于超像素的區(qū)域平滑:根據(jù)超像素分割理論,將原始圖像分割成互不重疊的超像素區(qū)域R,,q e [1,Q],其中Q為超像素區(qū)域總數(shù);則每一個超像素區(qū)域Rq的顯著值為該超像素區(qū)域內所有像素點上深度殘余的均值;將所有超像素區(qū)域的顯著值線性映射到[O, I]范圍內就得到了最終的顯著物體檢測結果。
2.根據(jù)權利要求1所述的基于堆棧式去噪自編碼機的顯著性物體檢測方法,其特征在于:所述步驟2和3中的堆棧式去噪自編碼機采用文獻:P.Vincent, H.Larochelle, 1.Lajoie,Y.Bengio,and P.-A.Manzagolj “Stacked denoising autoencoders:Learninguseful representations in a deep network with a local denoisingcriterion,” Journal of Machine Learning Research,vol.9999,pp.3371-3408,2010 中的方法。
3.根據(jù)權利要求1所述的基于堆棧式去噪自編碼機的顯著性物體檢測方法,其特征在于:所述步 驟5中的超像素分割方法采用文獻:P.F.Felzenszwalb, andD.P.Huttenlocherj “Efficient graph-based image segmentation, ”InternationalJournal of Computer Vision, vol.59, n0.2, pp.167-181,2004 中的方法。
【文檔編號】G06T7/00GK103955936SQ201410200352
【公開日】2014年7月30日 申請日期:2014年5月13日 優(yōu)先權日:2014年5月13日
【發(fā)明者】韓軍偉, 張鼎文, 郭雷 申請人:西北工業(yè)大學