本發(fā)明屬于無人機圖像領(lǐng)域,具體涉及一種生物視覺啟發(fā)的無人機視頻圖像目標檢測方法。
背景技術(shù):
1、隨著無人機技術(shù)的迅速發(fā)展和廣泛應(yīng)用,無人機視頻圖像檢測技術(shù)在各種領(lǐng)域(如監(jiān)控、搜救、農(nóng)業(yè)、城市規(guī)劃等)中扮演著越來越重要的角色。然而,由于無人機拍攝角度多變、高度不固定以及拍攝環(huán)境復(fù)雜(如光線變化、背景雜亂等),使得視頻圖像中的目標檢測面臨諸多挑戰(zhàn)。
2、現(xiàn)有的無人機視頻圖像檢測算法主要依賴于卷積神經(jīng)網(wǎng)絡(luò)(cnn)和區(qū)域提議網(wǎng)絡(luò)(rpn)等深度學(xué)習(xí)技術(shù),盡管這些方法在目標檢測任務(wù)中取得了顯著進展,但仍存在一些不足之處:
3、1.感受范圍有限:傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在處理高分辨率航拍圖像時,感受范圍有限,難以捕捉到全局信息,導(dǎo)致目標檢測的準確性受限。
4、2.背景干擾嚴重:航拍圖像通常包含復(fù)雜的背景信息,這些干擾因素會顯著影響目標檢測的性能?,F(xiàn)有方法往往難以有效地區(qū)分目標和背景,導(dǎo)致誤檢和漏檢現(xiàn)象頻繁。
5、3.計算復(fù)雜度高:高精度的目標檢測算法通常需要大量的計算資源和時間,這對于實時性要求較高的無人機應(yīng)用來說是一個重要的限制。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是公開一種生物視覺啟發(fā)的無人機視頻圖像目標檢測方法,以捕捉到更多的全局信息,并為目標感興趣區(qū)域產(chǎn)生更高的權(quán)重,從而有效減少復(fù)雜背景帶來的干擾,提高檢測精度。
2、本發(fā)明的目的是通過以下技術(shù)手段實現(xiàn)的,一種生物視覺啟發(fā)的無人機視頻圖像目標檢測方法,包括以下步驟:
3、pvt網(wǎng)絡(luò),將待檢測圖像輸入無卷積transformer網(wǎng)絡(luò),即pvt網(wǎng)絡(luò),分層提取c2~c5四個不同分辨率的特征圖;
4、fpn網(wǎng)絡(luò),pvt網(wǎng)絡(luò)提取并輸出的特征圖,輸入自上而下連接的fpn特征融合,得到5個特征圖p2~p6;
5、從c2~c5中提取定位特征,從p2~p6中提取分類特征;
6、分類特征送入retinanet檢測器頭部的邊框回歸分支中,分類特征和定位特征融合后,送入retinanet檢測器頭部的分類分支中,兩者經(jīng)過堆疊的卷積層得到邊界框檢測結(jié)果,即在圖像中將可能屬于目標的都用邊界框標注出來,并對每個標注出的目標進行分類。
7、通過自卷積校正模塊從c2~c5中提取定位特征。
8、所述自卷積校正模塊為,
9、將輸入特征圖在通道維度上拆分成兩部分,分別為x1和x2,然后,原始的卷積核被拆分為四部分,分別為k1,k2,k3,k4,其中k2,k3,k4用于處理特征圖x1得到輸出y1,k1用于處理特征圖x2得到輸出y2;
10、對于特征圖x1,首先采用平均池化操作進行2倍下采樣,然后經(jīng)過一個常規(guī)的卷積運算上采樣恢復(fù)至原來尺寸,具體過程如式(4.1)
11、所示。
12、x1'=upsample(avgpool(x1)*k2)(4.1)
13、式中,upsample表示雙線性插值上采樣,*表示卷積操作;
14、然后,通過一個殘差連接結(jié)構(gòu)將原始特征圖x1與x1'連接,再經(jīng)過sigmoid激活后,與特征圖x1經(jīng)過conv?k3卷積得到的特征圖進行逐元素相乘,最后再附加一個以k4為卷積核的3×3卷積,得到上半支路的計算結(jié)果,計算過程如式(4.2)所示,
15、y1=(x1*k3·σ(x1+x′1))*k4??(4.2)
16、對于特征圖x2,首先獲取針對輸入特征x2的采樣位置offsets偏移量,并用該偏移量替換常規(guī)卷積的方形采樣位置,然后采用k1作為可變形卷積核對x2進行可變形卷積運算,從而獲得下半支路的輸出y2,可變形卷積的計算如式(4.3);
17、
18、式中,x為輸入特征圖,y為輸出特征圖,w為卷積核參數(shù),p0為輸出位置,pk∈{(-1,-1),(-1,0),…,(0,1),(1,1)}表示采樣中心的像素鄰域,δpk表示可學(xué)習(xí)的偏移量;
19、最后,將自校正卷積兩個支路輸出的y1和y2特征圖級聯(lián)得到模塊的最終結(jié)果y。
20、通過內(nèi)卷積模塊從p2~p6中提取分類特征。
21、所述內(nèi)卷積模塊流程為,獲取每個位置獨特的卷積核參數(shù)和執(zhí)行內(nèi)卷積操作,將輸入維度為(h,w,c)的特征圖,首先經(jīng)過一個核大小為1×1的卷積線性變換操作,獲得尺寸為(h,w,k
22、×k)的權(quán)重圖,k表示內(nèi)卷積的核大小;
23、計算權(quán)重圖內(nèi),每個像素位置的卷積核權(quán)重,即為輸入圖像每個位置都生成一個卷積核hi,j,hi,j=φ(xi,j)=w1σ(w0xi,j)??(4.4)
24、式中,xi,j表示輸入特征圖在(i,j)處的值,w0和w1表示兩個1×1卷積核的參數(shù),σ表示bn層和非線性激活函數(shù);
25、對于一個生成的內(nèi)卷積核hi,j,其作用于一個具體的空間位置則每個位置的輸出下所示,
26、
27、式中,δk是卷積中心位置的鄰域偏移集合,k是生成卷積核的尺寸,k是通道編號。
28、所述分類特征送入retinanet檢測器頭部的邊框回歸分支中,經(jīng)過4個堆疊的卷積層進行邊界框回歸;分類特征和定位特征融合后,送入retinanet檢測器頭部的分類分支中,經(jīng)過4個堆疊的卷積層進行分類;
29、得到邊界框檢測結(jié)果。
30、所述邊框回歸支路采用giou損失進行反向傳播,
31、
32、lreg=1-giou(4.8)
33、式中,a和b分別表示預(yù)測框和真實框,c是真實框和預(yù)測框的最小包圍框。
34、所述分類支路采用focal?loss進行反向傳播,
35、計算方法如下所示,
36、
37、式中,y′表示輸出的分類置信度,α和γ是focal?loss用于解決正負樣本不平衡所添加的調(diào)節(jié)因子,α為0.25,γ為2。
38、所述c2~c5相對原圖的下采樣倍數(shù)分別為4,8,16,32;p2~p6相對原圖的下采樣倍數(shù)分別為4,8,16,32,64。
39、最終的損失函數(shù)為分類和回歸損失之和,計算公式如(4.10)所示,
40、
41、式中,npos表示圖像中正樣本的個數(shù),lcls為分類分支損失函數(shù),lreg為邊框回歸支路損失函數(shù)。
42、本發(fā)明的有益效果在于:以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)模仿鷹眼捕捉目標時的工作機理,在現(xiàn)有的目標檢測算法基礎(chǔ)上改進,并設(shè)計了一種能夠同時模仿鷹眼大范圍感知能力和小目標聚焦能力的檢測網(wǎng)絡(luò),旨在增強網(wǎng)絡(luò)感受野的同時聚焦圖像的顯著位置。
43、利用改進的自校正卷積模塊來自適應(yīng)地擴大感受野,同時采用通道內(nèi)卷積模塊來聚焦目標。此外,還提出了雙分支邊界框預(yù)測方法,在分類和定位任務(wù)中采用不同的特征圖和不同的特征處理方式,從而分離出兩個任務(wù)在特征需求上的差異。本章以金字塔視覺transformer(pyramid?vision?transformer,pvt)作為骨干網(wǎng)絡(luò)用于特征提取,pvt的自注意模塊具有很好的局部特征感知能力,能夠適應(yīng)無人機圖像中的密集目標場景。