本發(fā)明涉及圖像超分辨率重建技術(shù),具體涉及一種結(jié)合深度學習與梯度轉(zhuǎn)換的單幅圖像超分辨率重建方法,屬于數(shù)字圖像處理領(lǐng)域。
背景技術(shù):
現(xiàn)實生活中,由于成像設(shè)備和成像環(huán)境的限制,以及傳輸過程中圖像信息的丟失,人們獲取的圖像往往是低分辨率、低質(zhì)量的,難以滿足需求。圖像超分辨率重建技術(shù),是在不需要增加硬件成本的情況下,通過信號處理技術(shù),將輸入的低分辨率圖像重建成高分辨率圖像的一門技術(shù)。通過圖像超分辨率重建技術(shù)重建后的圖像不但在空間分辨率上優(yōu)于輸入圖像,且在主觀視覺效果上也有明顯的提升。
圖像超分辨率重建方法可以分為三類:基于插值的方法、基于重建的方法與基于學習的方法。近年來,由于機器學習與深度學習的發(fā)展,基于學習的超分辨率重建方法取到了較大的進步?;谏疃葘W習的超分辨率方法相比傳統(tǒng)的基于學習的超分辨率方法,具有結(jié)構(gòu)簡單,速度快的優(yōu)點,且由于在訓練階段,基于深度學習的方法同時優(yōu)化了所有操作,所以基于深度學習的方法重建出來的高分辨率圖像在質(zhì)量上要優(yōu)于傳統(tǒng)的基于學習的方法。但是基于深度學習的超分辨率方法的所使用的卷積神經(jīng)網(wǎng)絡(luò)是根據(jù)一般結(jié)構(gòu)訓練得到的,所以重建得到的圖像通常會受到振鈴效應與鋸齒效應的影響。去除人工效應的一種方法是引入圖像的先驗信息對重建圖像進行約束?;谔荻认闰灥某直媛史椒苡行У娜コ亟▓D像的振鈴效應與鋸齒效應,但是這類方法對圖像的細節(jié)和精細結(jié)構(gòu)部分不能起到很好的重建效果。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是將深度學習引入到梯度轉(zhuǎn)換中,并將轉(zhuǎn)換后的梯度信息作為約束進行超分辨率重建,使得重建得到的圖像具有更加精細的結(jié)構(gòu),并且減少振鈴效應與鋸齒效應的影響。本發(fā)明通過以下操作步驟構(gòu)成的技術(shù)方案來實現(xiàn)上述目的。
本發(fā)明提出的結(jié)合深度學習與梯度轉(zhuǎn)換的單幅圖像超分辨率重建方法,主要包括以下操作步驟:
(1)用基于深度學習的超分辨率方法對輸入的低分辨率圖像進行上采樣,得到上采樣圖像;
(2)用梯度算子對上采樣圖像進行梯度提??;
(3)用深度卷積神經(jīng)網(wǎng)絡(luò)對提取到的梯度進行轉(zhuǎn)換;
(4)將輸入的低分辨率圖像與步驟(3)轉(zhuǎn)換得到的梯度作為約束,建立重建代價函數(shù);
(5)利用梯度下降法來最優(yōu)化重建代價函數(shù),得到最終輸出的高分辨率圖像。
附圖說明
圖1是本發(fā)明結(jié)合深度學習與梯度轉(zhuǎn)換的單幅圖像超分辨率重建方法的框圖
圖2是本發(fā)明與現(xiàn)有的4種方法對“Butterfly”圖像重建結(jié)果的對比圖
圖3是本發(fā)明與現(xiàn)有的4種方法對“Foreman”圖像重建結(jié)果的對比圖
圖4是本發(fā)明與現(xiàn)有的4種方法對“Leaves”圖像重建結(jié)果的對比圖
具體實施方式
下面結(jié)合附圖對本發(fā)明作進一步說明:
圖1中,結(jié)合深度學習與梯度轉(zhuǎn)換的單幅圖像超分辨率重建方法,包括以下步驟:
(1)用基于深度學習的超分辨率方法對輸入的低分辨率圖像進行上采樣,得到上采樣圖像;
(2)用梯度算子對上采樣圖像進行梯度提?。?/p>
(3)用深度卷積神經(jīng)網(wǎng)絡(luò)對提取到的梯度進行轉(zhuǎn)換;
(4)將輸入的低分辨率圖像與步驟(3)轉(zhuǎn)換得到的梯度作為約束,建立重建代價函數(shù);
(5)利用梯度下降法來最優(yōu)化重建代價函數(shù),得到最終輸出的高分辨率圖像。
具體地,所述步驟(1)中,我們使用基于深度學習的超分辨率方法對輸入的低分辨率圖像進行上采樣,得到上采樣圖像。具體使用的基于深度學習的超分辨率方法為Dong等人提出的方法,參考文獻“C.Dong,C.C.Loy,K.He,and X.Tang,"Image Super-Resolution Using Deep Convolutional Networks."IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.38,no.2,pp.295-307,2016.”。
所述步驟(2)中,我們使用梯度算子[-(1/2),0,(1/2)]與[-(1/2),0,(1/2)]T分別提取上采樣圖像水平方向與垂直方向的梯度。
所述步驟(3)中,我們利用卷積神經(jīng)網(wǎng)絡(luò)對提取到的梯度進行轉(zhuǎn)換,使得轉(zhuǎn)換后的梯度更接近于原始梯度。該轉(zhuǎn)換方法主要包括兩個階段,即訓練階段與轉(zhuǎn)換階段。
在訓練階段,我們首先構(gòu)建一個由3層卷積層組成的卷積神經(jīng)網(wǎng)絡(luò),包括梯度特征提取層(L1)、梯度特征轉(zhuǎn)換層(L2)以及梯度重建層(L3)。L1、L2、L3分別由不同個數(shù)的濾波器組成。L1對輸入的梯度進行梯度特征提取,得到特征表示f;L2將f映射為轉(zhuǎn)換后的特征表示ft,L3作用于ft來產(chǎn)生最終輸出的轉(zhuǎn)換后的梯度信息。由于ReLU能大大加快訓練的收斂速度,本發(fā)明將其應用到訓練過程中的濾波器響應上。我們將高分辨率自然圖像進行雙三次下采樣,并用基于深度學習的超分辨率方法其進行上采樣;接著我們提取上采樣圖像的梯度,并將其分割為36×36的塊{Gl};對于輸入的36×36的塊,我們構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)將輸出一個20×20的塊來避免邊緣效應,因此我們將從原始自然圖像中提取到的梯度分割為對應的20×20的塊{Gh};這樣我們就得到了用于訓練的訓練對{Gl,Gh}。我們將均方誤差作為損失函數(shù)來訓練得到用于梯度轉(zhuǎn)換的卷積神經(jīng)網(wǎng)絡(luò)。在轉(zhuǎn)換階段,對于從上采樣圖像中提取到的梯度,我們將其輸入到訓練得到的卷積神經(jīng)網(wǎng)絡(luò)中,最終輸出的結(jié)果即為轉(zhuǎn)換后的梯度。為了使梯度轉(zhuǎn)換的效果更好,以便得到更高質(zhì)量的重建圖像,我們對水平方向與垂直方向的梯度分別訓練得到相應的用于梯度轉(zhuǎn)換的卷積神經(jīng)網(wǎng)絡(luò)。
所述步驟(4)中,我們將低分辨率圖像與步驟(3)轉(zhuǎn)換得到的梯度作為約束來建立重建代價函數(shù),重建代價函數(shù)定義為
E(H|L,▽Yt)=E1(H|L)+θE2(▽H|▽Yt)
式中,▽Yt為步驟(3)轉(zhuǎn)換得到的梯度;▽H為輸出圖像H的梯度;θ為兩個約束間的權(quán)重;E1(H|L)為圖像域的約束,定義為
E1(H|L)=|H↓-L|2
E2(▽H|▽Yt)為梯度域的約束,定義為
E2(▽H|▽Yt)=|▽H-▽Yt|2
所述步驟(5)中,我們利用梯度下降法來最優(yōu)化重建代價函數(shù),得到最終輸出的高分辨率圖像:
Hi+1=Hi-μ((Hi↓-L)↑-θ·(▽2H-▽2Yt))
式中,Hi為第i次迭代輸出的圖像;μ為迭代步長。
為了更好地說明本發(fā)明的有效性,本發(fā)明將采用對比實驗的方法進行展示重建效果。“Butterfly”圖像、“Foreman”圖像以及“Leaves”圖像為對比實驗所選用的3幅測試圖像,分別如圖2(a)、圖3(a)以及圖4(a)所示。對比實驗選取雙三次插值Bicubic與3個具有代表性的單幅圖像超分辨率重建方法與本發(fā)明的實驗結(jié)果進行比較。這3個具有代表性的單幅圖像超分辨率重建方法為:
方法1:Yang等人提出的方法,參考文獻“J.Yang,J.Wright,T.S.Huang,and Y.Ma,"Image super-resolution via sparse representation."IEEE Transactions on Image Processing,vol.19,no.11,pp.2861-2873,2010.”。
方法2:Timofte等人提出的方法,參考文獻“R.Timofte,V.D.Smet,and L.V.Gool,"A+:Adjusted anchored neighborhood regression for fast super-resolution."Computer Vision--ACCV 2014.Springer International Publishing,pp.111-126,2014.”。
方法3:Dong等人提出的方法,參考文獻“C.Dong,C.C.Loy,K.He,and X.Tang,"Image Super-Resolution Using Deep Convolutional Networks."IEEE Transactions on Pattern Analysis and Machine Intelligence,vol.38,no.2,pp.295-307,2016.”。
對比實驗的內(nèi)容如下:
實驗1,分別用Bicubic、方法1、方法2、方法3以及本發(fā)明對“Butterfly”圖像進行3倍超分辨率重建。超分辨重建結(jié)果分別如圖2(b)、圖2(c)、圖2(d)、圖2(e)以及圖2(f)所示,其客觀評價指標如表一的第二行所示。
實驗2,分別用Bicubic、方法1、方法2、方法3以及本發(fā)明對“Foreman”圖像進行3倍超分辨率重建。超分辨重建結(jié)果分別如圖3(b)、圖3(c)、圖3(d)、圖3(e)以及圖3(f)所示,其客觀評價指標如表一的第三行所示。
實驗3,分別用Bicubic、方法1、方法2、方法3以及本發(fā)明對“Leaves”圖像進行3倍超分辨率重建。超分辨重建結(jié)果分別如圖4(b)、圖4(c)、圖4(d)、圖4(e)以及圖4(f)所示,其客觀評價指標如表一的第四行所示。
通過3組對比實驗可以看出,Biucbic得到的重建圖像很模糊且鋸齒效應很嚴重;方法1得到的重建圖像比Biucbic的稍微清晰一點,但是依舊很模糊;方法2得到的重建圖像很好的避免了鋸齒效應,但是不夠清晰;方法3得到的重建圖像比較清晰,但是邊緣存在鋸齒與振鈴效應;本發(fā)明得到的重建圖像具有精細的結(jié)構(gòu),且?guī)缀鯖]有鋸齒效應與振鈴效應,具有最佳的主觀視覺效果。
表一給出了本發(fā)明與4種對比的超分辨率重建方法重建結(jié)果的兩個客觀參數(shù),分別為峰值信噪比(PSNR:the Peak Signal to Noise Ratio)和結(jié)構(gòu)相似度(SSIM:the Structure Similarity Index),以便客觀地評價重建圖像的質(zhì)量。其中,PSNR值越大、SSIM值越接近于1,則重建圖像的質(zhì)量越好。
表一
從表一可以看出,本發(fā)明具有最高的客觀評價參數(shù)值。對于“Butterfly”圖像,本發(fā)明的PSNR值比方法3高出0.87dB,SSIM值比方法3高出0.0114;對于“Foreman”圖像,本發(fā)明的PSNR值比方法2高出0.43dB,SSIM值比方法3高出0.0017;對于“Leaves”圖像,本發(fā)明的PSNR值比方法3高出0.68dB,SSIM值比方法3高出0.0087。
綜上所述,本發(fā)明重建得到的圖像在主觀視覺效果上具有明顯的優(yōu)勢,并且對于其他對比方法具有最高的客觀評價參數(shù)值。因此,本發(fā)明是一種有效的單幅圖像超分辨率重建方法。