本發(fā)明涉及圖像分類過(guò)程中,具體涉及一種基于深度學(xué)習(xí)多尺度特征融合的圖像分類方法。
背景技術(shù):
1、近年來(lái),隨著科技的不斷發(fā)展和更新,互聯(lián)網(wǎng)技術(shù)逐漸融入人們的生活,并顯著提高了生活質(zhì)量水平。計(jì)算機(jī)視覺作為互聯(lián)網(wǎng)技術(shù)中的一項(xiàng)熱門課題,其應(yīng)用十分廣泛。計(jì)算機(jī)視覺模擬人類視覺系統(tǒng),具備圖像提取、處理、分析等功能。隨著技術(shù)的發(fā)展和社會(huì)的進(jìn)步,對(duì)計(jì)算機(jī)視覺提出了更高的要求,傳統(tǒng)技術(shù)方法已無(wú)法滿足實(shí)際需求。高效、高質(zhì)量地處理圖像數(shù)據(jù),提高圖像分類的準(zhǔn)確率成為計(jì)算機(jī)視覺研究的重點(diǎn)方向。
2、傳統(tǒng)方法在局部特征和細(xì)節(jié)特征的學(xué)習(xí)與利用上存在不足,且損失函數(shù)的設(shè)計(jì)較為單一,無(wú)法充分利用多尺度特征的互補(bǔ)性,導(dǎo)致分類準(zhǔn)確率不高。為充分利用特征之間的關(guān)系并提高分類準(zhǔn)確率,基于深度學(xué)習(xí)多尺度特征融合的圖像分類方法,設(shè)計(jì)一種能夠有效融合多尺度特征,并通過(guò)創(chuàng)新的損失函數(shù)提升分類性能的圖像分類方法來(lái)提高圖像分類的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:本發(fā)明提出了一種基于深度學(xué)習(xí)多尺度特征融合的圖像分類方法,通過(guò)自校準(zhǔn)卷積模塊、注意力模塊和特征調(diào)整模塊的創(chuàng)新結(jié)合,實(shí)現(xiàn)對(duì)圖像中細(xì)節(jié)特征和局部特征的高效捕獲和優(yōu)化;引入了多種損失函數(shù)來(lái)監(jiān)督和優(yōu)化模型的訓(xùn)練過(guò)程,共同作用于模型的訓(xùn)練過(guò)程,實(shí)現(xiàn)對(duì)多尺度特征的精細(xì)監(jiān)督和優(yōu)化,從而顯著提升圖像分類的準(zhǔn)確性和魯棒性。
2、技術(shù)方案:本發(fā)明公開一種基于深度學(xué)習(xí)多尺度特征融合的圖像分類方法,包括以下步驟:
3、s1、獲取待分類圖像,組成訓(xùn)練數(shù)據(jù)集;
4、s2、建立多尺度特征融合的圖像分類模型,所述模型包括自校準(zhǔn)卷積模塊1~5、注意力模塊1~3和特征調(diào)整模塊1~3;
5、s3、將訓(xùn)練數(shù)據(jù)集中的圖像輸入圖像分類模型進(jìn)行模型訓(xùn)練;
6、s31、將訓(xùn)練數(shù)據(jù)集圖像輸入串聯(lián)的三個(gè)自校準(zhǔn)卷積模塊1~3,逐步提取并細(xì)化特征;
7、s32、注意力模塊1對(duì)通過(guò)自校準(zhǔn)卷積模塊1~3提取的初始特征進(jìn)行第一次增強(qiáng);
8、s33、特征調(diào)整模塊1對(duì)第一次增強(qiáng)后的特征進(jìn)行調(diào)整,并用損失函數(shù)1進(jìn)行監(jiān)督優(yōu)化;
9、s34、自校準(zhǔn)卷積模塊4進(jìn)一步提取由注意力模塊1增強(qiáng)后的特征后,注意力模塊2對(duì)自校準(zhǔn)卷積模塊4輸出特征進(jìn)行第二次增強(qiáng);
10、s35、特征調(diào)整模塊2對(duì)注意力模塊2第二次增強(qiáng)后的特征進(jìn)行調(diào)整,并用損失函數(shù)2進(jìn)行監(jiān)督優(yōu)化;
11、s36、自校準(zhǔn)卷積模塊5進(jìn)一步提取由注意力模塊2增強(qiáng)后的特征后,注意力模塊3對(duì)自校準(zhǔn)卷積模塊5輸出特征進(jìn)行第三次增強(qiáng);
12、s37、特特征調(diào)整模塊3對(duì)注意力模塊3第三次增強(qiáng)后的特征進(jìn)行調(diào)整,并用損失函數(shù)3進(jìn)行監(jiān)督優(yōu)化;
13、s38、融合三次增強(qiáng)調(diào)整后的特征,用損失函數(shù)4進(jìn)行監(jiān)督優(yōu)化并通過(guò)softmax輸出分類結(jié)果;
14、s4、將待分類的圖像輸入訓(xùn)練好的圖像分類模型進(jìn)行分類,得到分類結(jié)果。
15、進(jìn)一步地,所述自校準(zhǔn)卷積模塊1~5結(jié)構(gòu)相同,將圖像輸入自校準(zhǔn)卷積模塊獲取特征,具體包括:
16、給定一個(gè)輸入張量x,將它在通道維數(shù)上均勻地分為x1和x2兩部分,以不同的路徑處理x1和x2,使用四個(gè)濾波器{k1,k2,k3,k4},其中前三個(gè)濾波器用于處理x1,k4用于處理x2,處理過(guò)后,得到x1′,計(jì)算方法為:
17、x1′=up(avgpool(x1)*k1)
18、其中,up(·)為雙線性插值算子,*表示卷積,下一步是自校準(zhǔn)操作,以獲取y1′:
19、y1′=(x1*k2)·σ(x1+x1′)
20、其中,“·”表示元素級(jí)乘法,σ為sigmoid函數(shù),x1的最終校準(zhǔn)輸出為y1:
21、y1=y(tǒng)1′*k3=(x1*k2)·σ(x1+x1′)*k3
22、對(duì)于另外的一個(gè)部分x2,由一個(gè)簡(jiǎn)單的卷積運(yùn)算來(lái)執(zhí)行的:
23、y2=x2*k4
24、所得到的y1找到其他的上下文信息,y2保留原始的上下文信息,最終的輸出y是通過(guò)連接y1和y2得到的:
25、y=j(luò)[y1,y2]
26、其中,j表示連接操作。
27、進(jìn)一步地,所述注意力模塊1~3結(jié)構(gòu)相同,均通過(guò)通道-空間注意力塊來(lái)提取圖像的顯著性特征,將獲得的特征進(jìn)行增強(qiáng)。
28、進(jìn)一步地,通道-空間注意力具體操作為:
29、通道-空間注意塊有通道注意力和空間注意力兩個(gè)分支,對(duì)于輸入特征圖x∈rc×h×w,其中c、h和w分別表示通道數(shù)、高度和寬度;x在通道維度上被平均地分成x1和x2兩個(gè)部分,在通道注意力處理過(guò)程中,采用全局平均池化gap函數(shù)獲得信道統(tǒng)計(jì)量z∈rc/2×1×1來(lái)獲取全局信息:
30、
31、為了自適應(yīng)選擇和更精確的引導(dǎo),sigmoid型激活函數(shù)被用來(lái)獲得通道注意力的最終輸出x1:
32、x1′=σ(fc(z))·x1=σ(w1z+b1)·x1
33、其中,w1和b1是超參數(shù),σ為sigmoid型函數(shù);
34、空間注意力主要關(guān)注空間位置的問(wèn)題,首先通過(guò)群歸一化gn獲得空間級(jí)統(tǒng)計(jì)量,然后通過(guò)fc增強(qiáng)x2,最終輸出值x2′為:
35、x2′=σ(w2·gn(x2)+b2)·x2
36、其中,w2和b2是超參數(shù);
37、最后通過(guò)連接通道注意力和空間注意力的兩個(gè)分支,通道-空間注意塊的最終輸出為x′:
38、x′=j(luò)[x1′,x2′]
39、其中,j表示連接操作。
40、進(jìn)一步地,特征調(diào)整模塊1~3結(jié)構(gòu)相同,調(diào)整增強(qiáng)后的特征,具體包括如下操作:
41、給定特征圖x∈rc×h×w,其中c、h和w分別表示通道數(shù)、高度和寬度,將x沿寬度方向平均地切割成t條,每一個(gè)條表示為x(i)∈rc×(w/t)×h,其中i∈{1,2,3…,t};為了探究每個(gè)條形圖的重要性,對(duì)x(i)進(jìn)行了1×1的卷積φ:
42、a(i)=acon(φ(x(i)))
43、其中,acon是能夠?qū)W習(xí)激活或不激活的激活函數(shù),a(i)∈r1×(w/t)×h;
44、然后對(duì)a(i)進(jìn)行全局平均池化,得到h=(h1,h2,…,ht):
45、hi=gap(a(i))
46、其次將h用softmax函數(shù)進(jìn)行歸一化:
47、
48、由于h′=(h1′,h2′,…,ht′)的元素在0~1的范圍內(nèi),為了搜索到更多的局部辨別性特征,而不是僅僅降低高響應(yīng),因此將ht′逆生成一個(gè)逆掩模q(i)=(q1,q2,…,qt),計(jì)算過(guò)程為:
49、q1=1-hi′
50、特征調(diào)整模塊的最終輸出為xh′:
51、
52、其中,是元素級(jí)的乘積。
53、進(jìn)一步地,損失函數(shù)1、損失函數(shù)2以及損失函數(shù)3具體如下:
54、局部特征的分類損失函數(shù)定義為:
55、
56、其中,c為類別數(shù),yc為真實(shí)標(biāo)簽,是第i層局部特征xi′的預(yù)測(cè)概率,xi′,i∈{1,2,3}分別表示經(jīng)過(guò)特征調(diào)整模塊1~3的輸出,i∈{1,2,3}分別表示損失函數(shù)1~3。
57、進(jìn)一步地,所述損失函數(shù)4包括損失函數(shù)1~3及融合特征分類損失、特征匹配損失和感知損失,具體如下:
58、已經(jīng)得到的特征為xi′,i∈{1,2,3},分別表示經(jīng)過(guò)特征調(diào)整模塊1~3的輸出,在訓(xùn)練階段,三個(gè)局部特征xi′被連接為融合特征:
59、x′fused=j(luò)[x1′,x2′,x3′]
60、其中,j表示連接操作;
61、融合特征的分類損失函數(shù)定義為:
62、
63、其中,pfused,c為是融合后的特征的預(yù)測(cè)概率;
64、引入特征匹配損失lmatch,通過(guò)最小化局部特征與融合特征之間的差異,保證特征的一致性,其定義為:
65、
66、其中,x'i,j是第i層的第j個(gè)特征,x'fused,j是融合后的特征,ni是第i層的特征數(shù);
67、感知損失lperc用于提升模型對(duì)圖像視覺特征的捕捉能力,其定義為:
68、
69、其中,φl(shuí)表示第l層感知網(wǎng)絡(luò)的特征映射,cl,hl,wl分別表示第l層特征圖的通道數(shù)、高度和寬度;i和i'分別為輸入圖像和生成圖像的特征表示;
70、設(shè)置相應(yīng)的權(quán)重系數(shù),最終的損失函數(shù)4為:
71、
72、其中,α1=α2=α3=0.26,以確保每個(gè)局部特征的分類損失的貢獻(xiàn)相等,α4=0.1,α5=0.1,α6=0.04。
73、有益效果:
74、(1)創(chuàng)新?lián)p失函數(shù)設(shè)計(jì):本發(fā)明通過(guò)引入多種損失函數(shù),實(shí)現(xiàn)了對(duì)多尺度特征的精細(xì)監(jiān)督和優(yōu)化。局部特征的分類損失和融合特征的分類損失確保了模型在各層特征和融合特征上的分類能力;特征匹配損失通過(guò)最小化局部特征與融合特征之間的差異,保證了特征的一致性;感知損失則用于提升模型對(duì)圖像視覺特征的捕捉能力。這種多損失函數(shù)的聯(lián)合優(yōu)化策略,使得模型能夠更全面地學(xué)習(xí)和利用圖像中的多尺度特征,提高分類的準(zhǔn)確性和魯棒性。
75、(2)提高圖像分類準(zhǔn)確率:本發(fā)明通過(guò)引入自校準(zhǔn)卷積和多尺度特征融合方法,有效地捕捉和利用圖像中的細(xì)節(jié)特征和局部特征。這種方法克服了傳統(tǒng)技術(shù)在特征提取方面的局限性,能夠更精確地識(shí)別和分類圖像中的重要信息。自校準(zhǔn)卷積對(duì)圖像的細(xì)節(jié)特征進(jìn)行進(jìn)一步探索,確保細(xì)微但關(guān)鍵的特征不被忽略,從而提升圖像分類的準(zhǔn)確率。此外,多尺度特征融合通過(guò)整合不同尺度的特征信息,增強(qiáng)了模型對(duì)復(fù)雜圖像結(jié)構(gòu)的理解和處理能力,使得分類結(jié)果更加準(zhǔn)確和可靠。
76、(3)增強(qiáng)特征表示能力:本發(fā)明采用了注意力模塊來(lái)提取不同尺度的局部特征,顯著增強(qiáng)了模型的特征表示能力。注意力機(jī)制能夠有效地分配計(jì)算資源,聚焦于圖像中最為重要的區(qū)域,從而提取出具有高辨識(shí)度的特征。多個(gè)損失函數(shù)監(jiān)督優(yōu)化不同尺度的特征,可以促進(jìn)不同尺度的特征學(xué)習(xí),從而增加特征的豐富程度。通過(guò)這種方法,模型可以更全面地理解和分析圖像數(shù)據(jù),捕捉到更多有價(jià)值的信息,提高了特征表示的豐富性和準(zhǔn)確性,為后續(xù)的分類任務(wù)打下堅(jiān)實(shí)基礎(chǔ)。
77、(4)豐富特征表達(dá)方式:本發(fā)明設(shè)計(jì)了多尺度融合架構(gòu),在本架構(gòu)中,不同的尺度能夠捕捉到圖像中的不同信息。較小的尺度適合捕捉局部的細(xì)節(jié)信息,而較大的尺度則有助于捕捉全局的上下文信息。多尺度特征提取使模型能夠同時(shí)關(guān)注到細(xì)節(jié)和整體結(jié)構(gòu),從而增強(qiáng)模型的表達(dá)能力。