本發(fā)明屬于深度學(xué)習(xí),尤其涉及一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法。
背景技術(shù):
1、隨著3d獲取技術(shù)的快速發(fā)展,各種類型的三維掃描儀、lidar和rgb-d攝像頭變得越來越易于獲得且具有成本效益。這些傳感器提供了豐富的幾何細(xì)節(jié)、形狀特征和尺度信息的3d數(shù)據(jù)。結(jié)合2d圖像,3d數(shù)據(jù)為機器提供了更好的理解其周圍環(huán)境的機會。3d數(shù)據(jù)的應(yīng)用范圍廣泛,包括但不限于自動駕駛、機器人技術(shù)、遙感和醫(yī)療。具體而言,在自動駕駛領(lǐng)域,3d數(shù)據(jù)已成為一個關(guān)鍵的研究領(lǐng)域,為該領(lǐng)域的進步奠定了基礎(chǔ)。因此,如何有效處理3d數(shù)據(jù)以及提取相關(guān)特征,以便于實現(xiàn)自動駕駛中的障礙物避讓等任務(wù),已成為該領(lǐng)域研究人員面臨的緊迫問題。
2、3d物體檢測算法必須滿足所有天氣條件下的檢測要求。在復(fù)雜的光照條件和昏暗的夜景下,數(shù)據(jù)質(zhì)量相對較差,目標(biāo)紋理信息模糊,對目標(biāo)檢測算法提出了更高的要求。因此,迫切需要關(guān)注平衡檢測性能的策略,同時也要提高從點云中提取魯棒目標(biāo)特征的能力。對于自動駕駛場景下的三維物體檢測研究,不僅需要提高檢測算法的精度以適應(yīng)各種氣候和環(huán)境條件,還需要從深度學(xué)習(xí)檢測算法的角度克服特征融合和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計方面的挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的在于提供一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法,以解決上述的技術(shù)問題。
2、為解決上述技術(shù)問題,本發(fā)明的一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法的具體技術(shù)方案如下:
3、一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法,包括有以下步驟:
4、步驟1:基于自注意力機制的全局特征提?。豪胿isual-transformer機制中的注意力機制進行特征提取,并通過關(guān)聯(lián)相鄰像素的特征來學(xué)習(xí)特征,將自注意力特征學(xué)習(xí)融入到三維特征提取網(wǎng)絡(luò)構(gòu)建中,并將其與卷積神經(jīng)網(wǎng)絡(luò)有效結(jié)合,在淺層網(wǎng)絡(luò)中保留更詳細(xì)的目標(biāo)信息,并過濾掉目標(biāo)中心以外的外圍特征;
5、步驟2:基于先驗信息的關(guān)鍵點采樣:通過將原始點云空間分成四等分,并行計算候選區(qū)域內(nèi)每個點的位置,直接丟棄候選區(qū)域外的點,只計算候選區(qū)域內(nèi)關(guān)鍵點的特征;
6、步驟3:融合全局特征和局部特征,融合方法包括兩個階段:第一階段為使用全局特征提取局部特征提供先驗信息,第二階段將局部特征集成到三維空間的全局特征圖中。
7、進一步的,所述步驟1包括:
8、在規(guī)則的3d空間中將點云數(shù)據(jù)劃分為體積體素,以容納全局特征提取網(wǎng)絡(luò)的輸入,通過正則化處理,對點云的信息進行編碼和序列化;
9、基于體素化方法,在三維坐標(biāo)系中建立體素塊大小,大小為(rx,ry,rz),對于不同的數(shù)據(jù)集,根據(jù)場景的三維空間距離設(shè)置不同的體素塊大小,以減少處理過程中特征點的損失;
10、確定體素塊數(shù)量后,每個體素塊使用隨機抽樣收集5點信息來表示該體素,如果點云數(shù)量不足,則進行重復(fù)采樣,同時,用固定值替換空體素,這樣,體素化后,得到一個正則化的三維空間點云特征矩陣。
11、進一步的,所述步驟1包括:
12、三維transformer下采樣模塊采用稀疏卷積神經(jīng)網(wǎng)絡(luò)作為特征下采樣階段的關(guān)鍵結(jié)構(gòu),采用稀疏矩陣和壓縮表示來存儲和處理稀疏權(quán)值,利用稀疏矩陣-向量乘法和專門的卷積運算來加速計算,從而完成特征提取和融合。
13、進一步的,所述步驟1包括:
14、稀疏卷積神經(jīng)網(wǎng)絡(luò)的總體流程為:
15、(1)輸入數(shù)據(jù):輸入體素化的點云數(shù)據(jù);
16、(2)稀疏體素編碼:利用稀疏體素哈希作為處理稀疏體素的編碼方法,編碼過程如下:
17、將非空體素的位置值和特征值存儲在哈希表中,其中每個哈希表條目由位置鍵和特征鍵組成,
18、
19、其中p為體素的三維位置向量,w為隨機哈希向量,s為隨機偏移量,n為哈希表的大小,h(p)表示編碼結(jié)果;
20、查詢特定體素位置的值h(p),確定特征點在體素中的位置。
21、h(p)=h(p)??(8)
22、編碼的輸出結(jié)果vhashcode包括檢索位置和哈希表中所有非空體素的特征值,不對空體素執(zhí)行任何操作,
23、vhashcode=(p,f)∈h(p),p≠null??(9)
24、(3)使用卷積操作執(zhí)行特征提取:卷積針對只有少數(shù)非零體素的情況進行優(yōu)化;
25、(4)解碼編碼體素:特征提取后,需要對編碼體素進行解碼,以恢復(fù)原始的點云表示,使用公式(3)完成特征的解碼操作,得到最終的特征圖。進一步的,所述步驟1包括:
26、特征提取網(wǎng)絡(luò)在子流形體素模塊中引入了一種自注意力機制,該機制通過并行計算實現(xiàn),在注意力機制中,同時使用局部注意力和全局注意力來學(xué)習(xí)目標(biāo)區(qū)域周圍的特征關(guān),
27、特征提取網(wǎng)絡(luò)以特征圖作為輸入,由三個網(wǎng)絡(luò)降采樣模塊組成,每個采樣模塊包含一層卷積神經(jīng)網(wǎng)絡(luò)和兩層子流形體素模塊,其中,子流形體素模塊是特征提取網(wǎng)絡(luò)的核心結(jié)構(gòu),其將點云數(shù)據(jù)轉(zhuǎn)換為體素表示,是一種離散的三維體素表示方法,并將點云數(shù)據(jù)映射到低維空間,降低點云數(shù)據(jù)的維數(shù),
28、所述子流形體素模塊的結(jié)構(gòu)是自注意力處理和子流形體素卷積,采用多頭注意力機制,包括體素注意力和全局注意力兩部分,它將相關(guān)區(qū)域的計算分配到不同的注意力層,子流形體素卷積用來處理體素化的點云。
29、進一步的,所述自注意力機制計算過程如下:
30、(1)輸入數(shù)據(jù)的線性變換:對于輸入體素化的點云,通過三種不同的線性變換矩陣,權(quán)重值分別為(wq,wk,wv),將其映射到query、key、value上,以表示注意力機制中不同的目標(biāo)對象;
31、(2)線性數(shù)據(jù)的分割:從輸入數(shù)據(jù)中獲得的query、key和value的表示被拆分并分配給體素注意力和全局注意力,每個注意力層處理輸入序列的一部分,允許模型并行學(xué)習(xí)不同的注意力表示,分別捕獲體素和全局特征之間的特征關(guān)系;
32、(3)權(quán)值計算:對于每個注意力層,使用公式(4)計算權(quán)重值,獲得體素中每個位置與其他位置之間的注意力權(quán)重;然后,通過用注意力權(quán)值對輸入序列進行加權(quán),用更高的權(quán)重突出顯示與輸入序列中當(dāng)前位置關(guān)系更密切的體素塊,
33、
34、其中fattention為自關(guān)注的輸出特征,nnon-empty為非空的用于輸入體素化點云的個數(shù)。查詢嵌入qc,關(guān)鍵嵌入kc和值嵌入vc有助于提取物體區(qū)域體素中心周圍的特征c,d為兩個點之間的體素距離;
35、(4)輸出結(jié)果:將兩個注意力層的輸出信息串聯(lián)并映射回原始體素化點云矩陣,得到注意力機制計算后的特征結(jié)果。
36、進一步的,所述子流形體素卷積計算過程如下:
37、(1)非空體素選擇:遍歷體素化點云數(shù)據(jù)中的非空體素,對于每個非空體素,定位其在輸入數(shù)據(jù)中的位置;
38、(2)卷積特征采樣:在輸入數(shù)據(jù)周圍應(yīng)用卷積特征提取,卷積核的大小和形狀與傳統(tǒng)卷積運算中使用的卷積核一致,在子流形卷積中,卷積核只對非空體素進行計算,卷積核中的每個元素都需要與其對應(yīng)的非空體素相乘;
39、(3)特征貢獻(xiàn)計算:將卷積核中的元素與其對應(yīng)的非空體素相乘后,將結(jié)果相加,得到特征輸出值,這個輸出值代表當(dāng)前非空體素經(jīng)過子流形卷積運算后的新特征,同時,根據(jù)標(biāo)注設(shè)置目標(biāo)中心,計算相鄰非空體素的特征貢獻(xiàn)分?jǐn)?shù),篩出遠(yuǎn)離目標(biāo)中心的特征,提高目標(biāo)局部細(xì)節(jié)特征的表示;(4)迭代計算循環(huán):最后,迭代遍歷所有數(shù)據(jù),重復(fù)特征計算,然后確定最終的全局目標(biāo)特征輸出。
40、進一步的,所述子流形體素卷積計算過程如下:
41、所述三維transformer下采樣網(wǎng)絡(luò)架構(gòu)由三個網(wǎng)絡(luò)塊組成,每個網(wǎng)絡(luò)塊包含一層稀疏卷積神經(jīng)網(wǎng)絡(luò)和兩層子流形體素模塊,稀疏卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)對目標(biāo)進行降采樣的功能,在全局特征提取過程中,在三個尺度上進行降采樣計算,同時,構(gòu)建子流形體素模塊用于每個采樣尺度下的特征提取,
42、對子流形體素模塊內(nèi)部的網(wǎng)絡(luò)層數(shù)據(jù)進行跨層連接,保持特征權(quán)值共享,采用子流形體素模塊重新設(shè)計非空體素處理方法,在這一層,確定每個輸入數(shù)據(jù)的中心非空體素,并基于設(shè)置中心體素計算相關(guān)的非空體素關(guān)聯(lián)關(guān)系,體素特征注意力模塊計算非空體素對目標(biāo)檢測決策的影響,得到每個體素的置信度分?jǐn)?shù),全局特征注意力模塊將整個圖像劃分為n個區(qū)域,并計算每個區(qū)域與全局特征映射之間的相關(guān)性,另外,這一層只計算每個區(qū)域的非空體素,通過自注意力層,得到每個非空體素的特征權(quán)重得分,在單層子流形網(wǎng)絡(luò)中計算兩次非空體素的置信度得分。
43、進一步的,所述步驟2包括:
44、關(guān)鍵點采樣利用一種細(xì)分3d點云的方法,并使用并行計算來實現(xiàn)采樣處理,將原始點云輸入數(shù)據(jù)在空間上劃分為4個子集,并對每個子集分別進行關(guān)鍵點采樣,通過并行計算實現(xiàn)加速關(guān)鍵點采樣,
45、使用第一階段生成的候選框作為監(jiān)督區(qū)域,只對區(qū)域內(nèi)的點云進行關(guān)鍵點采樣,不計算區(qū)域外的點,
46、關(guān)鍵點采樣的整體過程包括兩個階段,第一階段進行點云空間劃分,第二階段基于先驗框進行關(guān)鍵點采樣,流程如下:
47、(1)空間劃分:四分之一空間:設(shè)s為原始點云空間,并使用k表示細(xì)分的子空間的個數(shù),對原始點云空間進行k等分,采用k=4,并在該平面上進行劃分,每個子空間獨立地并行計算區(qū)域中的關(guān)鍵點,空間劃分的公式寫成:
48、
49、其中,sk為空間分區(qū)的結(jié)果,k為細(xì)分子集的個數(shù),(arctan(pyi,pxi)∈(-π,π)為沿x軸正方向旋轉(zhuǎn)的角度,(pyi,pxi)是最終旋轉(zhuǎn)角度,pi是從并行計算中得到的點集的輸出;
50、(2)候選點采樣:基于檢測方法生成候選區(qū)域,在有限區(qū)域內(nèi)進行關(guān)鍵點采樣,設(shè)p為候選區(qū)域,p′為篩選后保留在候選區(qū)域內(nèi)部的關(guān)鍵點信息,計算公式如下:
51、
52、其中pi來自公式(5),表示點云,每個區(qū)域區(qū)域的中心區(qū)域和尺度大小分別記為c和d,cj是區(qū)域c的中心點,(dxj,dyj,dzj)表示區(qū)域區(qū)域的長、寬、高,r(s)為區(qū)域區(qū)域中心點向外擴展的最小半徑,p′為經(jīng)過點提取后的候選區(qū)域內(nèi)所選關(guān)鍵點的集合,
53、對于區(qū)域內(nèi)關(guān)鍵點的選擇,使用gpu來加速計算,同時,按照步驟(1)的計算過程,將3d空間劃分為4個子集,進行關(guān)鍵點的初始選擇。
54、進一步的,所述步驟3包括:
55、多層感知器在關(guān)鍵點特征提取過程中,使用3塊來完成特征降采樣處理,每個塊包含2層,分別是特征圖融合層和多層感知器,
56、特征圖融合層包括k近鄰層和最大池化層,
57、使用三維transformer下采樣網(wǎng)絡(luò)架構(gòu)中的多尺度特征圖作為局部關(guān)鍵點采樣的監(jiān)督信息,使用k近鄰進行特征選擇,以保留更多有效信息來監(jiān)督關(guān)鍵點采樣過程,在特征監(jiān)督方面,將k設(shè)置為多層感知器輸入數(shù)據(jù)的通道數(shù),對于輸入特征矩陣,計算所有特征值的歐幾里得距離,根據(jù)設(shè)定的k值,從距離計算結(jié)果中選擇k個最近的特征值作為代表特征,最后,我們將選擇的k個值與輸入特征點云結(jié)合起來,作為特征采樣的基礎(chǔ),用x表示經(jīng)過候選采樣后的點云輸入,用p1表示該層中體素卷積的特征圖,knn方法將完成輸入(x,p1)的對齊和采樣,并在最大池化后進行標(biāo)準(zhǔn)化處理,以確保輸入指定數(shù)量的點,多層感知器由兩個線性計算層和一個全連接層組成,對于該層,使用前一層的輸出(y,p2)進行線性融合計算,以滿足全連接層的輸入要求,最后,該層在網(wǎng)絡(luò)采樣后輸出結(jié)果(y1,p3),在該方法中,輸出的特征被稱為關(guān)鍵點,用于補充第二次檢測預(yù)測的特征;全局特征與局部特征融合方法,利用對感興趣的區(qū)域roi池化來融合全局和局部特征,從點云數(shù)據(jù)中提取目標(biāo)感興趣區(qū)域,
58、roi池化整體計算過程如下:
59、(1)基于原始體素卷積得到的特征映射矩陣,將候選區(qū)域?qū)?yīng)的體素單位標(biāo)記為感興趣的區(qū)域,調(diào)整候選區(qū)域,確定感興趣區(qū)域的位置和大小,只對標(biāo)記的感興趣區(qū)域進行特征融合,因此只有感興趣區(qū)域內(nèi)的體素單位被標(biāo)記為有效區(qū)域,而其余的體素單元被標(biāo)記為無效區(qū)域;
60、(2)將有效區(qū)域內(nèi)的體素單位劃分為固定數(shù)量的子區(qū)域,roi池化將有效區(qū)域內(nèi)的體素單位劃分為固定數(shù)量的子區(qū)域;
61、(3)對每個子區(qū)域內(nèi)的體素單位執(zhí)行池化操作,對于每個子區(qū)域,roi池化對子區(qū)域內(nèi)所有體素單位的特征向量執(zhí)行池化操作,在這項工作中,使用最大池化方法將局部點云特征與全局特征融合,最終得到每個子區(qū)域的特征向量;
62、(4)根據(jù)感興趣的區(qū)域連接各子區(qū)域的特征向量,roi池將每個子區(qū)域的特征向量連接起來,得到整個感興趣區(qū)域的特征向量,這個特征向量可以作為后續(xù)目標(biāo)分類和回歸任務(wù)的輸入。
63、本發(fā)明的一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法具有以下優(yōu)點:
64、本發(fā)明在使用的時候,使用體素化方法和三維transformer模塊來實現(xiàn)全局場景特征提取,并采用高效的關(guān)鍵點采樣方法進行局部關(guān)鍵點特征的采樣。最后,使用roi池化模型實現(xiàn)這兩種特征的融合。三維transformer模塊旨在從非空體素中提取特征,從而在一定程度上減少冗余計算,使目標(biāo)特征建模過程與目標(biāo)的內(nèi)在信息更加緊密對齊。同時,在全局特征提取過程中,使用稀疏體素哈希作為體素編碼方法,通過選擇合適的哈希函數(shù)來最小化哈希沖突的概率,從而提高模型的存儲效率和查詢速度。
65、在局部特征提取部分,通過使用點云空間分割方法實現(xiàn)關(guān)鍵點采樣的并行計算,進一步提高了模型的運行速度?;谙惹暗暮蜻x區(qū)域,進行針對性的關(guān)鍵點采樣,為目標(biāo)的細(xì)節(jié)區(qū)域創(chuàng)建了注意力機制。提出的注意力機制和特征融合方法,重新組合了圖像中目標(biāo)的特征提取方法,有效解決了淺層神經(jīng)網(wǎng)絡(luò)在小尺度目標(biāo)特征信息丟失方面的問題。