本技術(shù)涉及圖像融合領(lǐng)域,具體而言,涉及一種圖像融合方法及裝置、存儲介質(zhì)、電子裝置、計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、在現(xiàn)代圖像處理領(lǐng)域,由于單一類型的圖像傳感器受限于其硬件結(jié)構(gòu)或成像方法,通常只能捕捉到場景中的部分信息,這就限制了其在復(fù)雜環(huán)境下的應(yīng)用。例如,紅外圖像傳感器在低光照、霧霾等惡劣環(huán)境下能夠有效地捕捉目標(biāo)物體的信息,但由于其成像機(jī)制,往往缺乏豐富的紋理細(xì)節(jié)和顏色信息。而可見光圖像傳感器則具備更高的分辨率和更豐富的紋理信息,但在光照不足或環(huán)境條件惡劣時(shí),其性能會顯著下降。因此,如何利用不同類型圖像傳感器的優(yōu)勢,進(jìn)行多源圖像的有效融合,成為當(dāng)前圖像處理領(lǐng)域的一個(gè)重要研究方向。
2、傳統(tǒng)的紅外和可見光圖像融合方法通常依賴于手工設(shè)計(jì)的規(guī)則和算法,如多尺度變換、稀疏表示和顯著性檢測等。然而,這些手工設(shè)計(jì)的規(guī)則和算法往往只能捕捉到源圖像中有限的特征信息,難以充分表達(dá)輸入圖像的豐富性。此外,傳統(tǒng)方法生成的融合圖像在信息平衡上也存在問題,難以同時(shí)保留紅外和可見光圖像中的全部關(guān)鍵信息。
3、近年來,隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,深度學(xué)習(xí)方法在紅外和可見光圖像融合領(lǐng)域取得了顯著進(jìn)展。這些方法通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型,自動學(xué)習(xí)圖像中的特征信息,從而實(shí)現(xiàn)更為精確的圖像融合。然而,這些基于深度學(xué)習(xí)的方法雖然在性能上優(yōu)于傳統(tǒng)方法,但也存在一些問題。一方面,紅外和可見光圖像在特征提取上存在差異,使用統(tǒng)一的特征提取方法可能無法充分發(fā)揮它們各自的優(yōu)勢。另一方面,這種方法只能獲得有限的局部感知域的特征,難以建立特征之間的長距離依賴關(guān)系。這些問題導(dǎo)致最終的融合圖像質(zhì)量不理想,難以滿足實(shí)際應(yīng)用需求。同時(shí),也可以使用自注意力機(jī)制實(shí)現(xiàn)紅外和可見光圖像融合,然而,單一的自注意力機(jī)制在建模圖像特征時(shí)可能存在不足,難以全面挖掘潛在特征。同時(shí),應(yīng)用多個(gè)自注意力機(jī)制進(jìn)行特征建模需要大量的計(jì)算資源,增加了處理的復(fù)雜性和時(shí)間成本。
4、針對相關(guān)技術(shù)中,紅外圖像和可見光圖像的融合效果較差的問題,目前尚未提出有效的解決方案。
5、因此,有必要對相關(guān)技術(shù)予以改良以克服相關(guān)技術(shù)中的所述缺陷。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種圖像融合方法及裝置、存儲介質(zhì)、電子裝置、計(jì)算機(jī)程序產(chǎn)品,以至少解決紅外圖像和可見光圖像的融合效果較差的問題。
2、根據(jù)本技術(shù)實(shí)施例的一方面,提供一種圖像融合方法,包括:通過多尺度雙通道編碼器分別對紅外圖像和可見光圖像進(jìn)行特征提取,得到所述紅外圖像對應(yīng)的第一特征集合和所述可見光圖像對應(yīng)的第二特征集合,其中,所述第一特征集合和所述第二特征集合均包括n個(gè)尺度的特征,n為大于等于2的整數(shù);通過群注意力模塊分別對所述第一特征集合和所述第二特征集合中的每個(gè)特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)后的第一特征集合和增強(qiáng)后的第二特征集合,其中,所述群注意力模塊中具有多個(gè)混合注意力層,每個(gè)混合注意力層中具有條紋注意力機(jī)制、通道注意力機(jī)制和窗口注意力機(jī)制;將所述增強(qiáng)后的第一特征集合和所述增強(qiáng)后的第二特征集合進(jìn)行特征融合,得到融合圖像。
3、在一個(gè)示例性的實(shí)施例中,通過多尺度雙通道編碼器分別對紅外圖像和可見光圖像進(jìn)行特征提取,包括:通過所述多尺度雙通道編碼器,使用以下公式對所述紅外圖像進(jìn)行特征提?。浩渲?,為所述多尺度雙通道編碼器中與所述紅外圖像對應(yīng)的第i層編碼器,ir為所述紅外圖像,φr,i為提取到的所述紅外圖像在第i個(gè)尺度上的特征,i依次取1,...,n-1,n;以及通過所述多尺度雙通道編碼器,使用以下公式對所述可見光圖像進(jìn)行特征提?。浩渲?,為所述多尺度雙通道編碼器中與所述可見光圖像對應(yīng)的第i層編碼器,iv為所述可見光圖像,φv,i為提取到的所述可見光圖像在所述第i個(gè)尺度上的特征。
4、在一個(gè)示例性的實(shí)施例中,通過群注意力模塊分別對所述第一特征集合和所述第二特征集合中的每個(gè)特征進(jìn)行增強(qiáng)處理,包括:通過以下方式對所述第一特征集合和所述第二特征集合中的第j個(gè)特征進(jìn)行增強(qiáng)處理,其中,j依次取1,...,2n-1,2n:通過所述群注意力模塊中的m個(gè)混合注意力層對所述第j個(gè)特征進(jìn)行處理,得到參考特征,并將所述參考特征進(jìn)行卷積處理,得到目標(biāo)特征,其中,所述m個(gè)混合注意力層中的第一個(gè)混合注意力層的輸入為所述第j個(gè)特征,所述m個(gè)混合注意力層中的第m個(gè)混合注意力層的輸入為第m-1個(gè)混合注意力層的輸出,m為大于等于2的整數(shù),m為大于等于1、小于等于m的整數(shù);將所述目標(biāo)特征和所述第j個(gè)特征進(jìn)行拼接,得到增強(qiáng)后的第j個(gè)特征,其中,所述參考特征為所述m個(gè)混合注意力層中的第m個(gè)混合注意力層的輸出。
5、在一個(gè)示例性的實(shí)施例中,通過所述群注意力模塊中的m個(gè)混合注意力層對所述第j個(gè)特征進(jìn)行處理,得到處理后的特征,包括:循環(huán)執(zhí)行以下操作,直至m等于m,其中,在第一次執(zhí)行以下操作的情況下,m等于1:通過m個(gè)混合注意力層中的第m個(gè)混合注意力層執(zhí)行以下操作,并在執(zhí)行以下操作之后,將m的值更新為m+1:基于所述條紋注意力機(jī)制對所述第m個(gè)混合注意力層的輸入進(jìn)行處理,得到第一特征;基于所述窗口注意力機(jī)制對所述第m個(gè)混合注意力層的輸入進(jìn)行處理,得到第二特征;基于所述通道注意力機(jī)制對所述第m個(gè)混合注意力層的輸入進(jìn)行處理,得到第三特征;將所述第一特征、所述第二特征和所述第三特征進(jìn)行拼接,得到所述第m個(gè)混合注意力層的輸出。
6、在一個(gè)示例性的實(shí)施例中,基于所述條紋注意力機(jī)制對所述第m個(gè)混合注意力層的輸入進(jìn)行處理,得到第一特征,包括:基于所述條紋注意力機(jī)制,使用以下公式得到所述第一特征:y=mh·(mv·v),其中,softmax為激活函數(shù),q=wqφz,k=wkφz,v=wvφz,wq,wk,wv分別為用于計(jì)算查詢、鍵和值的權(quán)重矩陣,a是錨點(diǎn),φz為所述第m個(gè)混合注意力層的輸入,d為φz的特征維度,y為所述第一特征。
7、在一個(gè)示例性的實(shí)施例中,將所述增強(qiáng)后的第一特征集合和所述增強(qiáng)后的第二特征集合進(jìn)行特征融合,得到融合圖像,包括:將所述增強(qiáng)后的第一特征集合中的第i個(gè)尺度的特征和所述增強(qiáng)后的第二特征集合中的第i個(gè)尺度的特征進(jìn)行拼接,以得到n個(gè)融合特征,其中,i依次取1,...,n-1,n;將所述n個(gè)融合特征進(jìn)行融合處理,得到所述融合圖像。
8、在一個(gè)示例性的實(shí)施例中,將所述n個(gè)融合特征進(jìn)行融合處理,得到所述融合圖像,包括:在n等于4的情況下,通過以下方式對所述n個(gè)融合特征進(jìn)行處理,得到處理后的n個(gè)融合特征,并將所述處理后的n個(gè)融合特征進(jìn)行拼接,得到所述融合圖像:mi,1=cbr(mi,0);m4,2=aspp(m4,1);其中,mi,0為所述n個(gè)融合特征中的第i個(gè)融合特征,cbr包含卷積層、批量歸一化層和激活函數(shù)層,aspp用于擴(kuò)展特征的感受野,up表示上采樣操作,表示特征拼接操作,所述處理后的n個(gè)融合特征包括:m1,2,m2,2,m3,2,m4,2。
9、在一個(gè)示例性的實(shí)施例中,將所述增強(qiáng)后的第一特征集合和所述增強(qiáng)后的第二特征集合進(jìn)行特征融合,得到融合圖像之后,所述方法還包括:通過以下方式確定所述融合圖像的損失,其中,所述融合圖像的損失用于表示所述融合圖像的融合效果:其中,h為圖像的高度,w為圖像的寬度,h為大于等于0、小于等于h-1的整數(shù),w為大于等于0、小于等于w-1的整數(shù),s表示sobel算子,δ表示l1損失計(jì)算,表示融合圖像在(h,w)位置的像素值,為紅外圖像在(h,w)位置的像素值,為可見光圖像在(h,w)位置的像素值,λ是權(quán)重參數(shù),ltotal為所述融合圖像的損失。
10、根據(jù)本技術(shù)實(shí)施例的另一方面,還提供了一種圖像融合裝置,包括:提取模塊,用于通過多尺度雙通道編碼器分別對紅外圖像和可見光圖像進(jìn)行特征提取,得到所述紅外圖像對應(yīng)的第一特征集合和所述可見光圖像對應(yīng)的第二特征集合,其中,所述第一特征集合和所述第二特征集合均包括n個(gè)尺度的特征,n為大于等于2的整數(shù);增強(qiáng)模塊,用于通過群注意力模塊分別對所述第一特征集合和所述第二特征集合中的每個(gè)特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)后的第一特征集合和增強(qiáng)后的第二特征集合,其中,所述群注意力模塊中具有多個(gè)混合注意力層,每個(gè)混合注意力層中具有條紋注意力機(jī)制、通道注意力機(jī)制和窗口注意力機(jī)制;融合模塊,用于將所述增強(qiáng)后的第一特征集合和所述增強(qiáng)后的第二特征集合進(jìn)行特征融合,得到融合圖像。
11、根據(jù)本技術(shù)實(shí)施例的又一方面,還提供了一種計(jì)算機(jī)可讀的存儲介質(zhì),所述計(jì)算機(jī)可讀的存儲介質(zhì)包括存儲的程序,其中,所述程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述圖像融合方法。
12、根據(jù)本技術(shù)實(shí)施例的又一方面,還提供了一種電子裝置,包括存儲器和處理器,所述存儲器中存儲有計(jì)算機(jī)程序,其中,所述處理器被設(shè)置為通過所述計(jì)算機(jī)程序執(zhí)行上述圖像融合方法。
13、根據(jù)本技術(shù)實(shí)施例的又一方面,還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)上述圖像融合方法。
14、本技術(shù),由于使用了多尺度雙通道編碼器分別對紅外圖像和可見光圖像在多個(gè)尺度上進(jìn)行特征提取,并使用群注意力模塊對每個(gè)尺度的特征在條紋注意力、通道注意力和窗口注意力上進(jìn)行了增強(qiáng)處理,最后再將增強(qiáng)后的特征進(jìn)行融合,從而實(shí)現(xiàn)了紅外圖像的特征和可見光圖像特征的融合,提高了紅外圖像和可見光圖像融合的效果,解決了紅外圖像和可見光圖像的融合效果較差的問題。