本發(fā)明屬于光學(xué)圖像成像,具體涉及一種基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法及裝置。
背景技術(shù):
1、遙感圖像語(yǔ)義分割是利用深度學(xué)習(xí)技術(shù)對(duì)遙感圖像中的不同地物或目標(biāo)進(jìn)行像素級(jí)的分類和分割,以實(shí)現(xiàn)精準(zhǔn)的地物識(shí)別和定位。此技術(shù)在環(huán)境監(jiān)測(cè)、城市規(guī)劃、農(nóng)業(yè)管理等領(lǐng)域具有重要應(yīng)用價(jià)值,能夠?yàn)榈乩硇畔⑾到y(tǒng)、智能交通等領(lǐng)域提供精準(zhǔn)的空間數(shù)據(jù)支撐,具有重要的實(shí)用意義和研究?jī)r(jià)值。
2、基于深度學(xué)習(xí)的遙感圖像語(yǔ)義分割在近年來取得了顯著進(jìn)展,主要得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展。其中,卷積神經(jīng)網(wǎng)絡(luò)(cnn)作為一種強(qiáng)大的特征提取和分類模型,已經(jīng)成為眾多圖像處理任務(wù)的基石。然而cnn基于卷積操作提取特征時(shí)感受野有限,尤其是在處理遙感圖像這種高分辨率圖像時(shí)的挑戰(zhàn)尤為突出。
3、針對(duì)cnn的感受野瓶頸,隨著注意力機(jī)制的提出,vision?transformer(vit)在語(yǔ)義分割任務(wù)中逐漸興起。vit憑借其強(qiáng)大的長(zhǎng)距離建模能力,克服了感受野帶來的限制,在多種圖像任務(wù)中表現(xiàn)出了顯著的性能。然而,由于需要計(jì)算補(bǔ)丁序列間的注意力,vit的計(jì)算復(fù)雜度隨圖像分辨率的提高呈現(xiàn)指數(shù)增長(zhǎng)。因此,遙感圖像語(yǔ)義分割任務(wù)對(duì)模型參數(shù)量和計(jì)算復(fù)雜度的嚴(yán)苛要求對(duì)vit在遙感任務(wù)的應(yīng)用提出了嚴(yán)峻挑戰(zhàn)。目前針對(duì)此問題代表性解決方案是swin-transformer,swin-transformer引入開創(chuàng)性的滑窗機(jī)制,顯著減輕了vit的計(jì)算復(fù)雜度。然而swin-transformer將注意力計(jì)算限制在有限尺寸的窗口內(nèi),其輕量化的代價(jià)是不可避免的全局長(zhǎng)距離建模能力損失。因此,需要尋找一種有效的解決方案,在可接受的計(jì)算復(fù)雜度內(nèi),補(bǔ)充swin-transformer損失的全局建模能力。
4、近期,基于狀態(tài)空間模型的mamba架構(gòu)因其線性復(fù)雜度的優(yōu)勢(shì)被廣泛關(guān)注。狀態(tài)空間模型在長(zhǎng)距依賴關(guān)系建模方面擁有巨大潛力,且mamba通過引入選擇性參數(shù)學(xué)習(xí)機(jī)制具備了實(shí)際可行性。目前各種結(jié)構(gòu)化的mamba模型引入了不同的架構(gòu)增強(qiáng),進(jìn)一步證明了mamba的通用性和可擴(kuò)展性。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是解決單一網(wǎng)絡(luò)中的特定特征不能同時(shí)解決感受野的悖論和細(xì)節(jié)保留的問題,提供一種基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法及裝置,通過使用基于swin?transformer的vit分支提取細(xì)節(jié)保留的局部語(yǔ)義信息,使用mamba分支高效捕獲全局語(yǔ)義信息;通過跨域融合模塊實(shí)現(xiàn)雙空間語(yǔ)義信息的融合,實(shí)現(xiàn)高精度的語(yǔ)義分割。
2、為達(dá)到上述目的,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
3、第一方面,本申請(qǐng)實(shí)施例一種基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法,具體過程為:
4、首先,給定rgb編碼的輸入圖像,圖像送至vit分支和mamba分支并行處理;
5、其次,vit分支和mamba分支通過分層block結(jié)構(gòu)與下采樣的方式分別生成4個(gè)特征映射,分別表示為集合s={fsi|i=1,2,3,4}和集合m={fmi|i=1,2,3,4};
6、再次,使用跨域融合模塊將vit分支和mamba分支第2、4階段的不同種特征進(jìn)行一致性融合,并通過下采樣將第2階段融合特征圖添加至第4階段融合特征圖中;
7、最后,利用第4階段跨域融合后的特征表示作為分割頭實(shí)現(xiàn)輸入圖像的語(yǔ)義分割。
8、進(jìn)一步地,本發(fā)明所述跨域融合模塊進(jìn)行一致性融合的過程為:
9、首先,將同一階段兩個(gè)分支的融合特征圖展平;
10、其次,為每個(gè)分支展開的融合特征分別獨(dú)立生成query、key和value的線性映射,并對(duì)線性映射結(jié)果進(jìn)行相應(yīng)元素的融合;
11、再次,基于融合結(jié)果利用softmax函數(shù)計(jì)算交叉注意權(quán)值ω,根據(jù)所述權(quán)值計(jì)算交叉注意計(jì)算的結(jié)果;
12、最后,基于交叉注意計(jì)算的結(jié)果fo獲得跨模型融合特征圖。
13、進(jìn)一步地,本發(fā)明所述跨域融合模塊在訓(xùn)練階段,設(shè)置跨模型相關(guān)損失lcmr,利用lcmr來更新跨域融合模塊的參數(shù);
14、
15、其中,cmrm為基于交叉注意權(quán)重ω計(jì)算跨模型關(guān)聯(lián)圖,λ為設(shè)置的超參數(shù),lce代表交叉熵?fù)p失,gt表示(i,j)的真實(shí)像素標(biāo)簽值ground-truth,w為基于ground-truth和雙分支特征初步預(yù)測(cè)結(jié)果計(jì)算的權(quán)重。
16、進(jìn)一步地,本發(fā)明所述基于交叉注意權(quán)重ω計(jì)算跨模型關(guān)聯(lián)圖cmrm為:
17、
18、其中,conv表示卷積層,bn表示批歸一化操作,relu為激活層,提供矩陣加法。
19、進(jìn)一步地,本發(fā)明所述為:
20、
21、其中,ps和pm分別同一階段兩個(gè)分支融合特征計(jì)算的預(yù)測(cè)結(jié)果。
22、第二方面,本申請(qǐng)實(shí)施例一種基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割裝置,包括:vit分支、mamba分支、跨域融合模塊以及圖像分割模塊;
23、vit分支,用于針對(duì)輸入rgb編碼圖像,通過分層block結(jié)構(gòu)與下采樣的方式生成4個(gè)特征映射表示為集合s={fsi|i=1,2,3,4}和集合m={fmi|i=1,2,3,4};
24、mamba分支,用于針對(duì)輸入rgb編碼圖像,通過分層block結(jié)構(gòu)與下采樣的方式生成4個(gè)特征映射表示為集合m={fmi|i=1,2,3,4};
25、2階跨域融合模塊,用于將vit分支和mamba分支第2階段的不同種特征進(jìn)行一致性融合,下采樣將第2階段融合特征圖并輸出至4階跨域融合模塊;
26、4階跨域融合模塊,用于將vit分支和mamba分支第4階段的不同種特征進(jìn)行一致性融合,并將其與第2階段融合特征圖進(jìn)行疊加實(shí)現(xiàn)跨域融合;
27、圖像分割模塊,用于將第4階段跨域融合模塊疊加后的特征表示作為分割頭實(shí)現(xiàn)網(wǎng)絡(luò)輸入的rgb編碼的遙感圖像的語(yǔ)義分割。
28、有益效果:
29、第一,不同于現(xiàn)有無(wú)法解決感受野悖論和細(xì)節(jié)保留特征的單一網(wǎng)絡(luò),本發(fā)明設(shè)計(jì)結(jié)合vit分支和mamba分支的雙分支網(wǎng)絡(luò),vit提取細(xì)節(jié)保留的局部信息、mamba分支捕獲全局語(yǔ)義信息;同時(shí)網(wǎng)絡(luò)通過跨域融合模塊實(shí)現(xiàn)兩種語(yǔ)義特征的有效融合,實(shí)現(xiàn)雙空間細(xì)節(jié)保留局部信息和全局語(yǔ)義信息的融合;最終實(shí)現(xiàn)高分辨率遙感圖像語(yǔ)義分割。并通過跨模型相關(guān)損失進(jìn)一步加強(qiáng)特征融合效果。
30、第二,引入跨模型相關(guān)損失增強(qiáng)不同架構(gòu)之間的特征一致性,有效抑制跨域融合過程中的噪聲。
1.一種基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法,其特征在于,具體過程為:
2.根據(jù)權(quán)利要求1所述基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法,其特征在于,所述跨域融合模塊進(jìn)行一致性融合的過程為:
3.根據(jù)權(quán)利要求1所述基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法,其特征在于,所述跨域融合模塊在訓(xùn)練階段,設(shè)置跨模型相關(guān)損失lcmr,利用lcmr來更新跨域融合模塊的參數(shù);
4.根據(jù)權(quán)利要求3所述基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法,其特征在于,所述基于交叉注意權(quán)重ω計(jì)算跨模型關(guān)聯(lián)圖cmrm為:
5.根據(jù)權(quán)利要求3所述基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割方法,其特征在于,所述為:
6.一種基于視覺轉(zhuǎn)換器和mamba的雙分支遙感圖像語(yǔ)義分割裝置,其特征在于,包括:vit分支、mamba分支、跨域融合模塊以及圖像分割模塊;