基于多維度注意力機(jī)制的實時目標(biāo)檢測方法

文檔序號：40513457發(fā)布日期：2024-12-31 13:22閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及目標(biāo)檢測技術(shù)，尤其涉及實時目標(biāo)檢測、多維度注意力機(jī)制和候選框區(qū)域生成網(wǎng)絡(luò)，具體是一種基于多維度注意力機(jī)制的實時目標(biāo)檢測方法。

背景技術(shù)：

1、實時目標(biāo)檢測技術(shù)的發(fā)展背景主要是由于智能視頻監(jiān)控和自動駕駛等場景對快速且準(zhǔn)確的目標(biāo)識別需求的增加。深度學(xué)習(xí)，尤其是卷積神經(jīng)網(wǎng)絡(luò)的引入，為實現(xiàn)這一目標(biāo)提供了技術(shù)基礎(chǔ)。盡管取得了顯著進(jìn)展，但現(xiàn)有技術(shù)在計算資源需求、實時性和準(zhǔn)確性的平衡、以及在資源受限設(shè)備上的應(yīng)用等方面仍存在挑戰(zhàn)。

2、目前，實時目標(biāo)檢測領(lǐng)域的關(guān)鍵技術(shù)包括yolo系列、rt-detr、ssd和efficientdet等，這些技術(shù)通過深度學(xué)習(xí)與優(yōu)化的網(wǎng)絡(luò)架構(gòu)相結(jié)合，旨在在保持高檢測精度的同時提升檢測速度。然而，這些技術(shù)在實際部署時仍需面對一些挑戰(zhàn)，如模型的泛化性不足、對訓(xùn)練數(shù)據(jù)的依賴、模型的復(fù)雜度、適應(yīng)性問題以及能耗問題。

3、最近，基于transformer的檢測算法和輕量級網(wǎng)絡(luò)設(shè)計為實時目標(biāo)檢測帶來了新的視角。這些新興方法在提高計算效率方面展現(xiàn)出潛力，但它們同樣需要進(jìn)一步的優(yōu)化，以解決現(xiàn)有技術(shù)的局限，并降低對計算資源的高要求。盡管這些技術(shù)展現(xiàn)出在多種應(yīng)用場景中的潛力，但為了實現(xiàn)更優(yōu)的性能和更廣的應(yīng)用范圍，仍需不斷的創(chuàng)新與技術(shù)迭代。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足，而提供一種基于多維度注意力機(jī)制的實時目標(biāo)檢測方法。這種方法在實時目標(biāo)檢測數(shù)據(jù)集上實現(xiàn)了高效的實時目標(biāo)檢測，具有良好的泛化性和魯棒性。

2、實現(xiàn)本發(fā)明目的的技術(shù)方案為：

3、一種基于多維度注意力機(jī)制的實時目標(biāo)檢測方法，包括如下步驟：

4、1)劃分?jǐn)?shù)據(jù)集：按照實際任務(wù)情況選取公開數(shù)據(jù)集coco或pascal?voc，并將數(shù)據(jù)集coco或pascal?voc都劃分為訓(xùn)練集和測試集，來訓(xùn)練和測試模型；

5、2)設(shè)計基于多維度注意力機(jī)制的實時目標(biāo)檢測模型，包括：

6、2-1)特征提?。禾卣魈崛〔捎胏spdarknet網(wǎng)絡(luò)模型，特征提取的輸入是一張包含目標(biāo)的普通圖像，輸出的是圖像特征圖，具體過程為：

7、在對圖像進(jìn)行特征提取之前對目標(biāo)進(jìn)行標(biāo)注，采用標(biāo)注方式為：在表示圖像的rgb三通道外，再添加一個掩碼通道組成四通道，第四通道采用不同編碼標(biāo)注出不同類對象的邊界框，標(biāo)注完成之后，圖像的通道為4，對cspdarknet網(wǎng)絡(luò)修改為不僅能提取3通道的圖像，還能提取4通道的圖像的網(wǎng)絡(luò)，輸入的圖像經(jīng)過4通道的cspdarknet網(wǎng)絡(luò)之后得到的特征，該特征將會被輸入到基于通道注意力的特征提取模塊cspam進(jìn)行通道特征提?。?/p>

8、2-2)通道特征提取：輸入是經(jīng)過步驟2-1)4通道的cspdarknet網(wǎng)絡(luò)得到的特征，輸出是經(jīng)過基于通道注意力的特征提取模塊cspam的新的圖像特征，cspam將經(jīng)過步驟2-1)后得到的特征進(jìn)行通道特征提取，得到同一類別目標(biāo)的通道特征，cspam的算法過程如下：

9、2-2-1)cspam的全局平均池化過程輸入步驟2-1)得到的特征之后，采用全局平均池化操作來提取高層全局特征；

10、2-2-2)cspam的局部卷積過程輸入步驟2-2-1)得到的高層全局特征之后，采用大小為1的卷積核來提取低層語義特征；

11、2-2-3)cspam的特征融合過程輸入經(jīng)過步驟2-1)4通道的cspdarknet網(wǎng)絡(luò)得到的特征和步驟2-2-2)得到的特征，將這兩個特征融合得到通道特征；

12、2-3)空間特征提?。狠斎胧墙?jīng)過步驟2-2)提取得到的通道特征，輸出是經(jīng)過基于空間注意力的特征提取模塊sfpm的新的圖像特征，sfpm將經(jīng)過步驟2-2)后得到的特征進(jìn)行空間特征提取，得到同一類別目標(biāo)的空間特征，sfpm的算法過程如下：

13、2-3-1)sfpm的全局池化過程輸入經(jīng)過步驟2-2)得到的特征之后，采用全局池化操作來提取高層全局特征；

14、2-3-2)sfpm的局部卷積過程輸入經(jīng)過步驟2-2)得到的特征之后，采用大小為1的卷積核來提取低層語義特征；

15、2-3-3)sfpm的特征聚合過程輸入經(jīng)過步驟2-3-1)得到的特征，將特征聚合得到新的特征；

16、2-3-4)sfpm的特征拼接過程輸入經(jīng)過步驟2-3-2)得到的特征和經(jīng)過步驟2-3-3)得到的特征，將這兩個特征拼接得到新的特征；

17、2-4)候選區(qū)域框生成：將經(jīng)過步驟2-3)得到的特征輸入到候選框生成網(wǎng)絡(luò)rpn中得到圖像的候選框，prn網(wǎng)絡(luò)的輸入是多維度特征提取的特征圖，輸出是多個候選框，rpn網(wǎng)絡(luò)的具體實現(xiàn)如下：

18、2-4-1)rpn輸入了經(jīng)過步驟2-3)得到的特征后，先采用候選框生成算法anchorgenerator生成多個候選框，該算法生成的候選框包含3個不同的高寬比例的候選框；

19、2-4-2)得到候選框之后對這些候選框進(jìn)行編碼操作，將候選框的坐標(biāo)(x1,y1,x2,y2)編碼成(x,y,w,h)，同時對這些坐標(biāo)(x,y,w,h)進(jìn)行均值為0、方差為1的歸一化操作；

20、2-4-3)然后采用l1損失對候選框行回歸調(diào)整，采用交叉熵?fù)p失對候選框進(jìn)行二分類，以判斷該候選框是否包含物體：

21、l1損失：

22、

23、其中，

24、y表示第i個圖像的真實標(biāo)簽數(shù)據(jù)，y′代表第i個圖像的預(yù)測標(biāo)簽數(shù)據(jù)；交叉熵?fù)p失：

25、loss＝-(ylogp+(1-y)log(1-p))；

26、2-4-4)最后采用隨機(jī)采樣算法random?sampler從步驟2-4-3)得到的候選框中隨機(jī)采樣得到256個候選框作為最后的候選框；

27、2-5)將步驟2-4)得到的候選框和步驟2-3)得到的特征輸入到檢測頭網(wǎng)絡(luò)對候選框進(jìn)行邊界回歸和類別判斷，檢測頭網(wǎng)絡(luò)包括：

28、2-5-1)共享的全連接層網(wǎng)絡(luò)：經(jīng)過步驟2-3)得到的特征經(jīng)過共享的全連接網(wǎng)絡(luò)，然后得到兩個分支的輸出，一個用于邊界框回歸的任務(wù)，另一個用于分類任務(wù)；

29、2-5-2)roi網(wǎng)絡(luò)：roi網(wǎng)絡(luò)是對經(jīng)過步驟2-4)的候選框進(jìn)行特征提取，對于每個圖像，都會經(jīng)過隨機(jī)采樣算法得到256個最終的候選框，roi網(wǎng)絡(luò)也將得到256個特征輸出；

30、2-5-3)bboxhead網(wǎng)絡(luò)：采用經(jīng)過步驟2-3)得到的特征和經(jīng)過步驟2-5-2)roi網(wǎng)絡(luò)得到的特征進(jìn)行最后的邊界框回歸和分類任務(wù)，并計算最后的損失，損失包括了三個部分，分別是：

31、邊界框的l1損失：

32、

33、分類的交叉熵?fù)p失：

34、loss＝-(ylogp+(1-y)log(1-p))，

35、交叉熵?fù)p失：

36、loss＝-(ylogp+(1-y)log(1-p))，

37、三個損失相加得到最終檢測頭網(wǎng)絡(luò)的損失；

38、經(jīng)過步驟2-1)-步驟2-5)得到實時目標(biāo)檢測模型；

39、3)得到基礎(chǔ)模型：采用公開數(shù)據(jù)集coco或pascal?voc對步驟2)的實時目標(biāo)檢測模型進(jìn)行基礎(chǔ)訓(xùn)練，得到基礎(chǔ)模型，具體訓(xùn)練過程如下：

40、3-1)將公開數(shù)據(jù)集coco或pascal?voc劃分后的訓(xùn)練集的每張圖片標(biāo)注1個或多個類別目標(biāo)，而根據(jù)gpu設(shè)備的不同，設(shè)置不同的批量，批量的大小就代表了訓(xùn)練集的數(shù)量大小，若是單gpu訓(xùn)練，批量設(shè)置為2，那么每個任務(wù)中訓(xùn)練集的樣本量就是2，同理，若是8gpu訓(xùn)練，每個gpu設(shè)置批量為2，那么訓(xùn)練集的數(shù)量就是8*2＝16個；

41、3-2)特征提取訓(xùn)練：將步驟3-1)得到的批量訓(xùn)練集輸入到4通道的cspdarknet網(wǎng)絡(luò)中，得到批量圖像特征，該圖像特征包含了整個圖像中不同類別的特征，一張圖像里面包含多個類別；

42、3-3)通道特征提取訓(xùn)練：將經(jīng)過步驟3-2)得到的批量圖像特征輸入到基于通道注意力的特征提取模塊cspam中進(jìn)行通道特征提取，得到同一類別目標(biāo)的通道特征，采用這些特征信息來提高模型對圖像的識別能力；

43、3-4)空間特征提取訓(xùn)練：將經(jīng)過步驟3-3)得到的批量圖像通道特征輸入到基于空間注意力的特征提取模塊sfpm中進(jìn)行空間特征提取，得到同一類別目標(biāo)的空間特征，采用這些特征信息來提高模型對圖像的識別能力；

44、3-5)候選框生成訓(xùn)練：將經(jīng)過步驟3-4)得到的圖像特征輸入到rpn網(wǎng)絡(luò)中得到與這些特征圖有關(guān)的候選框；

45、3-6)檢測頭網(wǎng)絡(luò)訓(xùn)練：依據(jù)步驟3-4)得到的包含類別信息的批量圖像特征對步驟3-5)生成的目標(biāo)框進(jìn)行最終的目標(biāo)檢測任務(wù)訓(xùn)練，任務(wù)訓(xùn)練包括目標(biāo)框的回歸和類別的判斷，經(jīng)過步驟3-1)-步驟3-6)得到基礎(chǔ)網(wǎng)絡(luò)模型；

46、4)得到最終模型：在基礎(chǔ)模型的基礎(chǔ)上進(jìn)行微調(diào)，得到最終模型，包括：

47、4-1)微調(diào)特征提?。簩⒐_數(shù)據(jù)集coco或pascal?voc劃分成訓(xùn)練集和測試集之后，在微調(diào)階段對訓(xùn)練集和測試集中的圖像進(jìn)行特征提取，其中在微調(diào)階段測試集有多個目標(biāo)，且類別目標(biāo)為新類別；

48、4-2)微調(diào)通道特征提?。簩⒔?jīng)過步驟4-1)得到的特征輸入到基于通道注意力的特征提取模塊cspam中得到通道特征；

49、4-3)微調(diào)空間特征提?。簩⒔?jīng)過步驟4-2)得到的特征輸入到基于空間注意力的特征提取模塊sfpm中得到空間特征；

50、4-4)微調(diào)候選框生成：將經(jīng)過步驟4-3)得到的多維度特征輸入到rpn網(wǎng)絡(luò)中得到相關(guān)特征的候選框；

51、4-5)微調(diào)檢測頭網(wǎng)絡(luò)：依據(jù)步驟4-3)得到的多維度特征對步驟4-4)生成的候選框進(jìn)行最終的目標(biāo)檢測任務(wù)訓(xùn)練，最終的目標(biāo)檢測任務(wù)訓(xùn)練包括目標(biāo)框的回歸和類別的判斷，經(jīng)過步驟4-1)-步驟4-5)得到最終的網(wǎng)絡(luò)模型；

52、5)目標(biāo)檢測：采用步驟4)訓(xùn)練好的最終模型，對公開數(shù)據(jù)集coco或pascalvoc進(jìn)行目標(biāo)檢測。

53、這種方法在實時目標(biāo)檢測數(shù)據(jù)集上實現(xiàn)了高效的實時目標(biāo)檢測，具有良好的泛化性和魯棒性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳金龍,徐可健
技術(shù)所有人：桂林電子科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種用于植物物料的烘干脫溶裝置的制作方法
上一篇：一種神經(jīng)檢測用體液取樣裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多維度注意力機(jī)制的實時目標(biāo)檢測方法