本發(fā)明涉及目標(biāo)檢測技術(shù),尤其涉及實時目標(biāo)檢測、多維度注意力機(jī)制和候選框區(qū)域生成網(wǎng)絡(luò),具體是一種基于多維度注意力機(jī)制的實時目標(biāo)檢測方法。
背景技術(shù):
1、實時目標(biāo)檢測技術(shù)的發(fā)展背景主要是由于智能視頻監(jiān)控和自動駕駛等場景對快速且準(zhǔn)確的目標(biāo)識別需求的增加。深度學(xué)習(xí),尤其是卷積神經(jīng)網(wǎng)絡(luò)的引入,為實現(xiàn)這一目標(biāo)提供了技術(shù)基礎(chǔ)。盡管取得了顯著進(jìn)展,但現(xiàn)有技術(shù)在計算資源需求、實時性和準(zhǔn)確性的平衡、以及在資源受限設(shè)備上的應(yīng)用等方面仍存在挑戰(zhàn)。
2、目前,實時目標(biāo)檢測領(lǐng)域的關(guān)鍵技術(shù)包括yolo系列、rt-detr、ssd和efficientdet等,這些技術(shù)通過深度學(xué)習(xí)與優(yōu)化的網(wǎng)絡(luò)架構(gòu)相結(jié)合,旨在在保持高檢測精度的同時提升檢測速度。然而,這些技術(shù)在實際部署時仍需面對一些挑戰(zhàn),如模型的泛化性不足、對訓(xùn)練數(shù)據(jù)的依賴、模型的復(fù)雜度、適應(yīng)性問題以及能耗問題。
3、最近,基于transformer的檢測算法和輕量級網(wǎng)絡(luò)設(shè)計為實時目標(biāo)檢測帶來了新的視角。這些新興方法在提高計算效率方面展現(xiàn)出潛力,但它們同樣需要進(jìn)一步的優(yōu)化,以解決現(xiàn)有技術(shù)的局限,并降低對計算資源的高要求。盡管這些技術(shù)展現(xiàn)出在多種應(yīng)用場景中的潛力,但為了實現(xiàn)更優(yōu)的性能和更廣的應(yīng)用范圍,仍需不斷的創(chuàng)新與技術(shù)迭代。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,而提供一種基于多維度注意力機(jī)制的實時目標(biāo)檢測方法。這種方法在實時目標(biāo)檢測數(shù)據(jù)集上實現(xiàn)了高效的實時目標(biāo)檢測,具有良好的泛化性和魯棒性。
2、實現(xiàn)本發(fā)明目的的技術(shù)方案為:
3、一種基于多維度注意力機(jī)制的實時目標(biāo)檢測方法,包括如下步驟:
4、1)劃分?jǐn)?shù)據(jù)集:按照實際任務(wù)情況選取公開數(shù)據(jù)集coco或pascal?voc,并將數(shù)據(jù)集coco或pascal?voc都劃分為訓(xùn)練集和測試集,來訓(xùn)練和測試模型;
5、2)設(shè)計基于多維度注意力機(jī)制的實時目標(biāo)檢測模型,包括:
6、2-1)特征提?。禾卣魈崛〔捎胏spdarknet網(wǎng)絡(luò)模型,特征提取的輸入是一張包含目標(biāo)的普通圖像,輸出的是圖像特征圖,具體過程為:
7、在對圖像進(jìn)行特征提取之前對目標(biāo)進(jìn)行標(biāo)注,采用標(biāo)注方式為:在表示圖像的rgb三通道外,再添加一個掩碼通道組成四通道,第四通道采用不同編碼標(biāo)注出不同類對象的邊界框,標(biāo)注完成之后,圖像的通道為4,對cspdarknet網(wǎng)絡(luò)修改為不僅能提取3通道的圖像,還能提取4通道的圖像的網(wǎng)絡(luò),輸入的圖像經(jīng)過4通道的cspdarknet網(wǎng)絡(luò)之后得到的特征,該特征將會被輸入到基于通道注意力的特征提取模塊cspam進(jìn)行通道特征提?。?/p>
8、2-2)通道特征提取:輸入是經(jīng)過步驟2-1)4通道的cspdarknet網(wǎng)絡(luò)得到的特征,輸出是經(jīng)過基于通道注意力的特征提取模塊cspam的新的圖像特征,cspam將經(jīng)過步驟2-1)后得到的特征進(jìn)行通道特征提取,得到同一類別目標(biāo)的通道特征,cspam的算法過程如下:
9、2-2-1)cspam的全局平均池化過程輸入步驟2-1)得到的特征之后,采用全局平均池化操作來提取高層全局特征;
10、2-2-2)cspam的局部卷積過程輸入步驟2-2-1)得到的高層全局特征之后,采用大小為1的卷積核來提取低層語義特征;
11、2-2-3)cspam的特征融合過程輸入經(jīng)過步驟2-1)4通道的cspdarknet網(wǎng)絡(luò)得到的特征和步驟2-2-2)得到的特征,將這兩個特征融合得到通道特征;
12、2-3)空間特征提?。狠斎胧墙?jīng)過步驟2-2)提取得到的通道特征,輸出是經(jīng)過基于空間注意力的特征提取模塊sfpm的新的圖像特征,sfpm將經(jīng)過步驟2-2)后得到的特征進(jìn)行空間特征提取,得到同一類別目標(biāo)的空間特征,sfpm的算法過程如下:
13、2-3-1)sfpm的全局池化過程輸入經(jīng)過步驟2-2)得到的特征之后,采用全局池化操作來提取高層全局特征;
14、2-3-2)sfpm的局部卷積過程輸入經(jīng)過步驟2-2)得到的特征之后,采用大小為1的卷積核來提取低層語義特征;
15、2-3-3)sfpm的特征聚合過程輸入經(jīng)過步驟2-3-1)得到的特征,將特征聚合得到新的特征;
16、2-3-4)sfpm的特征拼接過程輸入經(jīng)過步驟2-3-2)得到的特征和經(jīng)過步驟2-3-3)得到的特征,將這兩個特征拼接得到新的特征;
17、2-4)候選區(qū)域框生成:將經(jīng)過步驟2-3)得到的特征輸入到候選框生成網(wǎng)絡(luò)rpn中得到圖像的候選框,prn網(wǎng)絡(luò)的輸入是多維度特征提取的特征圖,輸出是多個候選框,rpn網(wǎng)絡(luò)的具體實現(xiàn)如下:
18、2-4-1)rpn輸入了經(jīng)過步驟2-3)得到的特征后,先采用候選框生成算法anchorgenerator生成多個候選框,該算法生成的候選框包含3個不同的高寬比例的候選框;
19、2-4-2)得到候選框之后對這些候選框進(jìn)行編碼操作,將候選框的坐標(biāo)(x1,y1,x2,y2)編碼成(x,y,w,h),同時對這些坐標(biāo)(x,y,w,h)進(jìn)行均值為0、方差為1的歸一化操作;
20、2-4-3)然后采用l1損失對候選框行回歸調(diào)整,采用交叉熵?fù)p失對候選框進(jìn)行二分類,以判斷該候選框是否包含物體:
21、l1損失:
22、
23、其中,
24、y表示第i個圖像的真實標(biāo)簽數(shù)據(jù),y′代表第i個圖像的預(yù)測標(biāo)簽數(shù)據(jù);交叉熵?fù)p失:
25、loss=-(ylogp+(1-y)log(1-p));
26、2-4-4)最后采用隨機(jī)采樣算法random?sampler從步驟2-4-3)得到的候選框中隨機(jī)采樣得到256個候選框作為最后的候選框;
27、2-5)將步驟2-4)得到的候選框和步驟2-3)得到的特征輸入到檢測頭網(wǎng)絡(luò)對候選框進(jìn)行邊界回歸和類別判斷,檢測頭網(wǎng)絡(luò)包括:
28、2-5-1)共享的全連接層網(wǎng)絡(luò):經(jīng)過步驟2-3)得到的特征經(jīng)過共享的全連接網(wǎng)絡(luò),然后得到兩個分支的輸出,一個用于邊界框回歸的任務(wù),另一個用于分類任務(wù);
29、2-5-2)roi網(wǎng)絡(luò):roi網(wǎng)絡(luò)是對經(jīng)過步驟2-4)的候選框進(jìn)行特征提取,對于每個圖像,都會經(jīng)過隨機(jī)采樣算法得到256個最終的候選框,roi網(wǎng)絡(luò)也將得到256個特征輸出;
30、2-5-3)bboxhead網(wǎng)絡(luò):采用經(jīng)過步驟2-3)得到的特征和經(jīng)過步驟2-5-2)roi網(wǎng)絡(luò)得到的特征進(jìn)行最后的邊界框回歸和分類任務(wù),并計算最后的損失,損失包括了三個部分,分別是:
31、邊界框的l1損失:
32、
33、分類的交叉熵?fù)p失:
34、loss=-(ylogp+(1-y)log(1-p)),
35、交叉熵?fù)p失:
36、loss=-(ylogp+(1-y)log(1-p)),
37、三個損失相加得到最終檢測頭網(wǎng)絡(luò)的損失;
38、經(jīng)過步驟2-1)-步驟2-5)得到實時目標(biāo)檢測模型;
39、3)得到基礎(chǔ)模型:采用公開數(shù)據(jù)集coco或pascal?voc對步驟2)的實時目標(biāo)檢測模型進(jìn)行基礎(chǔ)訓(xùn)練,得到基礎(chǔ)模型,具體訓(xùn)練過程如下:
40、3-1)將公開數(shù)據(jù)集coco或pascal?voc劃分后的訓(xùn)練集的每張圖片標(biāo)注1個或多個類別目標(biāo),而根據(jù)gpu設(shè)備的不同,設(shè)置不同的批量,批量的大小就代表了訓(xùn)練集的數(shù)量大小,若是單gpu訓(xùn)練,批量設(shè)置為2,那么每個任務(wù)中訓(xùn)練集的樣本量就是2,同理,若是8gpu訓(xùn)練,每個gpu設(shè)置批量為2,那么訓(xùn)練集的數(shù)量就是8*2=16個;
41、3-2)特征提取訓(xùn)練:將步驟3-1)得到的批量訓(xùn)練集輸入到4通道的cspdarknet網(wǎng)絡(luò)中,得到批量圖像特征,該圖像特征包含了整個圖像中不同類別的特征,一張圖像里面包含多個類別;
42、3-3)通道特征提取訓(xùn)練:將經(jīng)過步驟3-2)得到的批量圖像特征輸入到基于通道注意力的特征提取模塊cspam中進(jìn)行通道特征提取,得到同一類別目標(biāo)的通道特征,采用這些特征信息來提高模型對圖像的識別能力;
43、3-4)空間特征提取訓(xùn)練:將經(jīng)過步驟3-3)得到的批量圖像通道特征輸入到基于空間注意力的特征提取模塊sfpm中進(jìn)行空間特征提取,得到同一類別目標(biāo)的空間特征,采用這些特征信息來提高模型對圖像的識別能力;
44、3-5)候選框生成訓(xùn)練:將經(jīng)過步驟3-4)得到的圖像特征輸入到rpn網(wǎng)絡(luò)中得到與這些特征圖有關(guān)的候選框;
45、3-6)檢測頭網(wǎng)絡(luò)訓(xùn)練:依據(jù)步驟3-4)得到的包含類別信息的批量圖像特征對步驟3-5)生成的目標(biāo)框進(jìn)行最終的目標(biāo)檢測任務(wù)訓(xùn)練,任務(wù)訓(xùn)練包括目標(biāo)框的回歸和類別的判斷,經(jīng)過步驟3-1)-步驟3-6)得到基礎(chǔ)網(wǎng)絡(luò)模型;
46、4)得到最終模型:在基礎(chǔ)模型的基礎(chǔ)上進(jìn)行微調(diào),得到最終模型,包括:
47、4-1)微調(diào)特征提?。簩⒐_數(shù)據(jù)集coco或pascal?voc劃分成訓(xùn)練集和測試集之后,在微調(diào)階段對訓(xùn)練集和測試集中的圖像進(jìn)行特征提取,其中在微調(diào)階段測試集有多個目標(biāo),且類別目標(biāo)為新類別;
48、4-2)微調(diào)通道特征提?。簩⒔?jīng)過步驟4-1)得到的特征輸入到基于通道注意力的特征提取模塊cspam中得到通道特征;
49、4-3)微調(diào)空間特征提?。簩⒔?jīng)過步驟4-2)得到的特征輸入到基于空間注意力的特征提取模塊sfpm中得到空間特征;
50、4-4)微調(diào)候選框生成:將經(jīng)過步驟4-3)得到的多維度特征輸入到rpn網(wǎng)絡(luò)中得到相關(guān)特征的候選框;
51、4-5)微調(diào)檢測頭網(wǎng)絡(luò):依據(jù)步驟4-3)得到的多維度特征對步驟4-4)生成的候選框進(jìn)行最終的目標(biāo)檢測任務(wù)訓(xùn)練,最終的目標(biāo)檢測任務(wù)訓(xùn)練包括目標(biāo)框的回歸和類別的判斷,經(jīng)過步驟4-1)-步驟4-5)得到最終的網(wǎng)絡(luò)模型;
52、5)目標(biāo)檢測:采用步驟4)訓(xùn)練好的最終模型,對公開數(shù)據(jù)集coco或pascalvoc進(jìn)行目標(biāo)檢測。
53、這種方法在實時目標(biāo)檢測數(shù)據(jù)集上實現(xiàn)了高效的實時目標(biāo)檢測,具有良好的泛化性和魯棒性。