本發(fā)明涉及圖像處理領(lǐng)域,具體涉及一種基于混合池化transformer的輕量級圖像超分辨率方法及裝置。
背景技術(shù):
1、單幀圖像超分辨率(single?image?super-resolution,sisr)是計算機(jī)視覺領(lǐng)域中一項關(guān)鍵任務(wù),其旨在從退化的低分辨率圖像中還原出高分辨率圖像。由于圖像sr能為圖像帶來更豐富、更有價值的細(xì)節(jié),它被廣泛應(yīng)用于各種計算機(jī)視覺應(yīng)用中,包括遙感圖像、醫(yī)療成像、人臉識別和視頻監(jiān)控等領(lǐng)域。
2、近年,transformer作為流行的深度學(xué)習(xí)骨干網(wǎng)絡(luò)被廣泛應(yīng)用于圖像sr領(lǐng)域中。作為卷積神經(jīng)網(wǎng)絡(luò)的替代,transformer通過計算所有查詢特征和鍵特征之間的相似性來捕捉長距離依賴。相關(guān)研究已經(jīng)證明這種全局上下文建模方法在圖像sr展示出良好的潛力。然而,直接應(yīng)用密集全局自注意力在計算上是不可行的,因為其計算復(fù)雜度二次方于標(biāo)記序列長度。為此,基于窗口的自注意力被提出,其將自注意力計算限制在非重疊窗口內(nèi)部以降低計算負(fù)擔(dān)。不幸的是,由于放棄全局推理,這種需要重復(fù)地堆疊基于窗口的自注意力范式對于建模上下文交互的方法被證明是低效的。這個限制在輕量級sr模型中惡化,因為這些模型沒有足夠的預(yù)算構(gòu)建足夠深的網(wǎng)絡(luò)。因此,進(jìn)一步減少自注意力計算復(fù)雜度是當(dāng)前圖像超分辨率方法的迫切需要。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的在于針對上述提到的技術(shù)問題提出一種基于混合池化transformer的輕量級圖像超分辨率方法及裝置。
2、第一方面,本發(fā)明提供了一種基于混合池化transformer的輕量級圖像超分辨率方法,包括以下步驟:
3、構(gòu)建基于混合池化transformer的輕量級圖像超分辨率模型并訓(xùn)練,得到經(jīng)訓(xùn)練的輕量級圖像超分辨率模型,輕量級圖像超分辨率模型包括依次連接的一個第一卷積層、若干個基于混合池化的transformer模塊、一個亞像素卷積層和一個第二卷積層;基于混合池化的transformer模塊包括依次連接的第一層歸一化層、基于混合池化的自注意力模塊、第二層歸一化層和頻域通道混合前饋網(wǎng)絡(luò),基于混合池化的transformer模塊的輸入特征與基于混合池化的自注意力模塊的輸出特征相加的結(jié)果作為第二層歸一化層的輸入特征,第二層歸一化層的輸入特征在經(jīng)過第二層歸一化層和頻域通道混合前饋網(wǎng)絡(luò)后,得到頻域通道混合前饋網(wǎng)絡(luò)的輸出特征,頻域通道混合前饋網(wǎng)絡(luò)的輸出特征與第二層歸一化層的輸入特征相加的結(jié)果作為基于混合池化的transformer模塊的輸出特征;
4、獲取待重建的低分辨率圖像和尺度因子并輸入到經(jīng)訓(xùn)練的輕量級圖像超分辨率模型,低分辨率圖像輸入第一卷積層,得到第一卷積層的輸出特征,第一卷積層的輸出特征經(jīng)過若干個基于混合池化的transformer模塊后,得到最后一個基于混合池化的transformer模塊的輸出特征,最后一個基于混合池化的transformer模塊的輸出特征與第一卷積層的輸出特征相加后依次經(jīng)過亞像素卷積層和第二卷積層,得到高分辨率重建圖像。
5、作為優(yōu)選,基于混合池化的自注意力模塊包括第一線性層、第二線性層、第三線性層、混合池化特征嵌入模塊和自注意力層;
6、將基于混合池化的自注意力模塊的輸入特征進(jìn)行劃分為n個窗口尺寸為s×s的第一非重疊窗口其中n=h×w/s2,其中c、h和w分別表示基于混合池化的自注意力模塊的輸入特征的通道數(shù)量、長度和寬度,表示實數(shù)集合,利用第一線性層lq將第一非重疊窗口xwin轉(zhuǎn)化為查詢矩陣
7、q=lq(xwin);
8、基于混合池化的自注意力模塊的輸入特征x經(jīng)過混合池化特征嵌入模塊生成混合特征嵌入其表達(dá)式如下:
9、xpm=dpm(x);
10、其中,dpm(·)表示混合池化特征嵌入模塊對應(yīng)的函數(shù);
11、將混合特征嵌入xpm劃分為n個窗口尺寸為的第二非重疊窗口其中n=h×w/s2,接著利用第二線性層lk和第三線性層lv將第二非重疊窗口分別轉(zhuǎn)化為鍵矩陣和值矩陣其表達(dá)式如下:
12、
13、根據(jù)查詢矩陣、鍵矩陣和值矩陣輸入自注意力層執(zhí)行自注意力計算,以獲得增強(qiáng)特征表達(dá)式如下:
14、
15、其中,t表示轉(zhuǎn)置操作,softmax(·)表示softmax歸一化的函數(shù);
16、最后,將增強(qiáng)特征yen的形狀由n×s2×c被轉(zhuǎn)換為c×h×w,并作為基于混合池化的自注意力模塊的輸出特征。
17、作為優(yōu)選,混合池化特征嵌入模塊包括通道下采樣卷積層、全局最大池化層、全局平均池化層、通道拼接層和第三卷積層;
18、將基于混合池化的自注意力模塊的輸入特征輸入到混合池化特征嵌入模塊,經(jīng)過一個縮放因子為2的通道下采樣卷積層,將x的通道數(shù)縮小2倍,得到第一中間特征圖其表達(dá)式如下:
19、
20、其中,表示縮放因子為2的通道下采樣卷積層對應(yīng)的函數(shù),其卷積核尺寸為1×1;
21、分別利用全局最大池化層和全局平均池化層對第一中間特征圖x′進(jìn)行下采樣,分別得到第一特征和第二特征其表達(dá)式如下:
22、x′gmp=gmp(x′);
23、x′gap=gap(x′);
24、其中,gmp(·)表示全局最大池化層對應(yīng)的函數(shù),gap(·)表示全局平均池化層對應(yīng)的函數(shù);
25、將第一特征x′gmp和第二特征x′gap輸入通道拼接層沿著通道維度拼接,并經(jīng)過第三卷積層執(zhí)行卷積核尺寸為1×1的卷積操作,得到混合特征嵌入其表達(dá)式如下:
26、xpm=conv1×1(concat(x′gmp,x′gap))
27、其中,conv1×1(·)表示卷積核尺寸為1×1的卷積操作,concat(·)表示沿通道維度的拼接操作。
28、作為優(yōu)選,頻域通道混合前饋網(wǎng)絡(luò)包括第四卷積層和通道注意力層;
29、頻域通道混合前饋網(wǎng)絡(luò)的輸入特征先經(jīng)過第四卷積層執(zhí)行卷積核尺寸為1×1的卷積操作,得到第二中間特征圖如下式所示:
30、z′=conv1×1(z);
31、其中,conv1×1(·)表示卷積核尺寸為1×1的卷積操作,c、h和w分別表示頻域通道混合前饋網(wǎng)絡(luò)的輸入特征的通道數(shù)量、長度和寬度,與基于混合池化的自注意力模塊的輸入特征的通道數(shù)量、長度和寬度相同,表示實數(shù)集合;
32、利用離散傅里葉變換將第二中間特征圖z′由空間域轉(zhuǎn)換至頻域,獲得頻域特征圖表示實數(shù)集合,其表達(dá)式如下:
33、
34、其中,x和y是頻域特征圖在垂直方向和水平方向的索引,取值范圍分別為0,1,2,...,h-1和0,1,2,...,w-1,u和v是第二中間特征圖在垂直方向和水平方向的索引,取值范圍分別為0,1,2,...,h-1和0,1,2,...,w-1;
35、將頻域特征圖輸入通道注意力層,得到經(jīng)過注意力增強(qiáng)的頻域特征圖h,其表達(dá)式如下:
36、
37、其中,cab(·)表示通道注意力層對應(yīng)的函數(shù);
38、利用逆離散傅里葉變換將經(jīng)過注意力增強(qiáng)的頻域特征圖h由頻域轉(zhuǎn)換至空間域,以獲得頻率增強(qiáng)特征其表達(dá)式如下:
39、
40、將頻率增強(qiáng)特征zfe與第二中間特征圖z′相加,得到頻域通道混合前饋網(wǎng)絡(luò)的輸出特征其表達(dá)式如下:
41、zen=zfe+z′。
42、作為優(yōu)選,給定基于混合池化的transformer模塊的輸入特征基于混合池化的transformer模塊的計算過程如下:
43、w′=fhwtsa(ln(w))+w;
44、w″=fgnfn(ln(w′))+w′;
45、其中,ln(·)表示層歸一化操作,fhwtsa(·)表示基于混合池化的自注意力模塊對應(yīng)的函數(shù),fgnfn(·)表示頻域通道混合前饋網(wǎng)絡(luò)對應(yīng)的函數(shù),w′表示中間特征圖,w″表示基于混合池化的transformer模塊的輸出特征。
46、作為優(yōu)選,輕量級圖像超分辨率模型的計算過程如下:
47、將低分辨率圖像輸入一個卷積核尺寸為1×1的第一卷積層提取淺層特征其表達(dá)式如下:
48、f0=conv1×1(ilr);
49、其中,conv1×1(·)表示卷積核尺寸為1×1的卷積操作;
50、利用a個基于混合池化的transformer模塊和一個殘差連接提取深度特征其表達(dá)式如下:
51、
52、fd=fa+f0;
53、其中,表示第i個基于混合池化的transformer模塊對應(yīng)的函數(shù),i∈[1,a],fi-1表示第i-1個基于混合池化的transformer模塊的輸出特征,fi表示第i個基于混合池化的transformer模塊的輸出特征,表示第a個基于混合池化的transformer模塊對應(yīng)的函數(shù),fa-1表示第a-1個基于混合池化的transformer模塊的輸出特征,fa表示第a個基于混合池化的transformer模塊的輸出特征;
54、利用尺度因子為scale的亞像素卷積層和一個卷積核尺寸為1×1的第二卷積層對深度特征fd進(jìn)行上采樣和重建,生成高分辨率重建圖像其表達(dá)式如下:
55、isr=conv1×1(fup(fd))
56、其中,fup(·)表示亞像素卷積層對應(yīng)的函數(shù)。
57、第二方面,本發(fā)明提供了一種基于混合池化transformer的輕量級圖像超分辨率裝置,包括:
58、模型構(gòu)建模塊,被配置為構(gòu)建基于混合池化transformer的輕量級圖像超分辨率模型并訓(xùn)練,得到經(jīng)訓(xùn)練的輕量級圖像超分辨率模型,輕量級圖像超分辨率模型包括依次連接的一個第一卷積層、若干個基于混合池化的transformer模塊、一個亞像素卷積層和一個第二卷積層;基于混合池化的transformer模塊包括依次連接的第一層歸一化層、基于混合池化的自注意力模塊、第二層歸一化層和頻域通道混合前饋網(wǎng)絡(luò),基于混合池化的transformer模塊的輸入特征與基于混合池化的自注意力模塊的輸出特征相加的結(jié)果作為第二層歸一化層的輸入特征,第二層歸一化層的輸入特征在經(jīng)過第二層歸一化層和頻域通道混合前饋網(wǎng)絡(luò)后,得到頻域通道混合前饋網(wǎng)絡(luò)的輸出特征,頻域通道混合前饋網(wǎng)絡(luò)的輸出特征與第二層歸一化層的輸入特征相加的結(jié)果作為基于混合池化的transformer模塊的輸出特征;
59、重建模塊,被配置為獲取待重建的低分辨率圖像和尺度因子并輸入到經(jīng)訓(xùn)練的輕量級圖像超分辨率模型,低分辨率圖像輸入第一卷積層,得到第一卷積層的輸出特征,第一卷積層的輸出特征經(jīng)過若干個基于混合池化的transformer模塊后,得到最后一個基于混合池化的transformer模塊的輸出特征,最后一個基于混合池化的transformer模塊的輸出特征與第一卷積層的輸出特征相加后依次經(jīng)過亞像素卷積層和第二卷積層,得到高分辨率重建圖像。
60、第三方面,本發(fā)明提供了一種電子設(shè)備,包括一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如第一方面中任一實現(xiàn)方式描述的方法。
61、第四方面,本發(fā)明提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如第一方面中任一實現(xiàn)方式描述的方法。
62、第五方面,本發(fā)明提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如第一方面中任一實現(xiàn)方式描述的方法。
63、相比于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
64、(1)本發(fā)明提出的基于混合池化transformer的輕量級圖像超分辨率方法,聯(lián)合全局最大池化層和平均池化層將原始圖像標(biāo)記序列壓縮為一個包含有益特征的壓縮標(biāo)記序列,從而有效避免密集的自注意力計算,使得圖像超分辨率模型能夠利用更少計算開銷實現(xiàn)更優(yōu)的性能。
65、(2)本發(fā)明提出的基于混合池化transformer的輕量級圖像超分辨率方法通過交叉注意力將壓縮標(biāo)記遷移至原始圖像標(biāo)記實現(xiàn)高效的特征聚合,克服現(xiàn)有transformer方法計算復(fù)雜度過高的問題。
66、(3)本發(fā)明提出的基于混合池化transformer的輕量級圖像超分辨率方法采用頻域通道混合前饋網(wǎng)絡(luò)來增強(qiáng)有益的高頻信息,從而增強(qiáng)圖像超分辨率模型的特征表示能力。