一種基于Visual-Transformer網(wǎng)絡(luò)的小物體特征提取方法與流程

文檔序號：40571927發(fā)布日期：2025-01-03 11:33閱讀：15來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于Visual-Transformer網(wǎng)絡(luò)的小物體特征提取方法與流程

本發(fā)明屬于深度學(xué)習(xí)，尤其涉及一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法。

背景技術(shù)：

1、隨著3d獲取技術(shù)的快速發(fā)展，各種類型的三維掃描儀、lidar和rgb-d攝像頭變得越來越易于獲得且具有成本效益。這些傳感器提供了豐富的幾何細(xì)節(jié)、形狀特征和尺度信息的3d數(shù)據(jù)。結(jié)合2d圖像，3d數(shù)據(jù)為機器提供了更好的理解其周圍環(huán)境的機會。3d數(shù)據(jù)的應(yīng)用范圍廣泛，包括但不限于自動駕駛、機器人技術(shù)、遙感和醫(yī)療。具體而言，在自動駕駛領(lǐng)域，3d數(shù)據(jù)已成為一個關(guān)鍵的研究領(lǐng)域，為該領(lǐng)域的進步奠定了基礎(chǔ)。因此，如何有效處理3d數(shù)據(jù)以及提取相關(guān)特征，以便于實現(xiàn)自動駕駛中的障礙物避讓等任務(wù)，已成為該領(lǐng)域研究人員面臨的緊迫問題。

2、3d物體檢測算法必須滿足所有天氣條件下的檢測要求。在復(fù)雜的光照條件和昏暗的夜景下，數(shù)據(jù)質(zhì)量相對較差，目標(biāo)紋理信息模糊，對目標(biāo)檢測算法提出了更高的要求。因此，迫切需要關(guān)注平衡檢測性能的策略，同時也要提高從點云中提取魯棒目標(biāo)特征的能力。對于自動駕駛場景下的三維物體檢測研究，不僅需要提高檢測算法的精度以適應(yīng)各種氣候和環(huán)境條件，還需要從深度學(xué)習(xí)檢測算法的角度克服特征融合和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計方面的挑戰(zhàn)。

技術(shù)實現(xiàn)思路

1、本發(fā)明目的在于提供一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法，以解決上述的技術(shù)問題。

2、為解決上述技術(shù)問題，本發(fā)明的一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法的具體技術(shù)方案如下：

3、一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法，包括有以下步驟：

4、步驟1：基于自注意力機制的全局特征提?。豪胿isual-transformer機制中的注意力機制進行特征提取，并通過關(guān)聯(lián)相鄰像素的特征來學(xué)習(xí)特征，將自注意力特征學(xué)習(xí)融入到三維特征提取網(wǎng)絡(luò)構(gòu)建中，并將其與卷積神經(jīng)網(wǎng)絡(luò)有效結(jié)合，在淺層網(wǎng)絡(luò)中保留更詳細(xì)的目標(biāo)信息，并過濾掉目標(biāo)中心以外的外圍特征；

5、步驟2：基于先驗信息的關(guān)鍵點采樣：通過將原始點云空間分成四等分，并行計算候選區(qū)域內(nèi)每個點的位置，直接丟棄候選區(qū)域外的點，只計算候選區(qū)域內(nèi)關(guān)鍵點的特征；

6、步驟3：融合全局特征和局部特征，融合方法包括兩個階段:第一階段為使用全局特征提取局部特征提供先驗信息，第二階段將局部特征集成到三維空間的全局特征圖中。

7、進一步的，所述步驟1包括：

8、在規(guī)則的3d空間中將點云數(shù)據(jù)劃分為體積體素，以容納全局特征提取網(wǎng)絡(luò)的輸入，通過正則化處理，對點云的信息進行編碼和序列化；

9、基于體素化方法，在三維坐標(biāo)系中建立體素塊大小，大小為(rx，ry，rz)，對于不同的數(shù)據(jù)集，根據(jù)場景的三維空間距離設(shè)置不同的體素塊大小，以減少處理過程中特征點的損失；

10、確定體素塊數(shù)量后，每個體素塊使用隨機抽樣收集5點信息來表示該體素，如果點云數(shù)量不足，則進行重復(fù)采樣，同時，用固定值替換空體素，這樣，體素化后，得到一個正則化的三維空間點云特征矩陣。

11、進一步的，所述步驟1包括：

12、三維transformer下采樣模塊采用稀疏卷積神經(jīng)網(wǎng)絡(luò)作為特征下采樣階段的關(guān)鍵結(jié)構(gòu)，采用稀疏矩陣和壓縮表示來存儲和處理稀疏權(quán)值，利用稀疏矩陣-向量乘法和專門的卷積運算來加速計算，從而完成特征提取和融合。

13、進一步的，所述步驟1包括：

14、稀疏卷積神經(jīng)網(wǎng)絡(luò)的總體流程為：

15、(1)輸入數(shù)據(jù)：輸入體素化的點云數(shù)據(jù)；

16、(2)稀疏體素編碼：利用稀疏體素哈希作為處理稀疏體素的編碼方法，編碼過程如下：

17、將非空體素的位置值和特征值存儲在哈希表中，其中每個哈希表條目由位置鍵和特征鍵組成，

18、

19、其中p為體素的三維位置向量，w為隨機哈希向量，s為隨機偏移量，n為哈希表的大小，h(p)表示編碼結(jié)果；

20、查詢特定體素位置的值h(p)，確定特征點在體素中的位置。

21、h(p)＝h(p)??(8)

22、編碼的輸出結(jié)果vhashcode包括檢索位置和哈希表中所有非空體素的特征值，不對空體素執(zhí)行任何操作，

23、vhashcode＝(p,f)∈h(p)，p≠null??(9)

24、(3)使用卷積操作執(zhí)行特征提取：卷積針對只有少數(shù)非零體素的情況進行優(yōu)化；

25、(4)解碼編碼體素：特征提取后，需要對編碼體素進行解碼，以恢復(fù)原始的點云表示，使用公式(3)完成特征的解碼操作，得到最終的特征圖。進一步的，所述步驟1包括：

26、特征提取網(wǎng)絡(luò)在子流形體素模塊中引入了一種自注意力機制，該機制通過并行計算實現(xiàn)，在注意力機制中，同時使用局部注意力和全局注意力來學(xué)習(xí)目標(biāo)區(qū)域周圍的特征關(guān),

27、特征提取網(wǎng)絡(luò)以特征圖作為輸入，由三個網(wǎng)絡(luò)降采樣模塊組成，每個采樣模塊包含一層卷積神經(jīng)網(wǎng)絡(luò)和兩層子流形體素模塊，其中，子流形體素模塊是特征提取網(wǎng)絡(luò)的核心結(jié)構(gòu)，其將點云數(shù)據(jù)轉(zhuǎn)換為體素表示，是一種離散的三維體素表示方法，并將點云數(shù)據(jù)映射到低維空間，降低點云數(shù)據(jù)的維數(shù)，

28、所述子流形體素模塊的結(jié)構(gòu)是自注意力處理和子流形體素卷積，采用多頭注意力機制，包括體素注意力和全局注意力兩部分，它將相關(guān)區(qū)域的計算分配到不同的注意力層，子流形體素卷積用來處理體素化的點云。

29、進一步的，所述自注意力機制計算過程如下:

30、(1)輸入數(shù)據(jù)的線性變換：對于輸入體素化的點云，通過三種不同的線性變換矩陣，權(quán)重值分別為(wq，wk，wv)，將其映射到query、key、value上，以表示注意力機制中不同的目標(biāo)對象；

31、(2)線性數(shù)據(jù)的分割：從輸入數(shù)據(jù)中獲得的query、key和value的表示被拆分并分配給體素注意力和全局注意力，每個注意力層處理輸入序列的一部分，允許模型并行學(xué)習(xí)不同的注意力表示，分別捕獲體素和全局特征之間的特征關(guān)系；

32、(3)權(quán)值計算：對于每個注意力層，使用公式(4)計算權(quán)重值，獲得體素中每個位置與其他位置之間的注意力權(quán)重；然后，通過用注意力權(quán)值對輸入序列進行加權(quán)，用更高的權(quán)重突出顯示與輸入序列中當(dāng)前位置關(guān)系更密切的體素塊，

33、

34、其中fattention為自關(guān)注的輸出特征，nnon-empty為非空的用于輸入體素化點云的個數(shù)。查詢嵌入qc，關(guān)鍵嵌入kc和值嵌入vc有助于提取物體區(qū)域體素中心周圍的特征c,d為兩個點之間的體素距離；

35、(4)輸出結(jié)果：將兩個注意力層的輸出信息串聯(lián)并映射回原始體素化點云矩陣，得到注意力機制計算后的特征結(jié)果。

36、進一步的，所述子流形體素卷積計算過程如下：

37、(1)非空體素選擇：遍歷體素化點云數(shù)據(jù)中的非空體素，對于每個非空體素，定位其在輸入數(shù)據(jù)中的位置；

38、(2)卷積特征采樣：在輸入數(shù)據(jù)周圍應(yīng)用卷積特征提取，卷積核的大小和形狀與傳統(tǒng)卷積運算中使用的卷積核一致，在子流形卷積中，卷積核只對非空體素進行計算，卷積核中的每個元素都需要與其對應(yīng)的非空體素相乘；

39、(3)特征貢獻(xiàn)計算：將卷積核中的元素與其對應(yīng)的非空體素相乘后，將結(jié)果相加，得到特征輸出值，這個輸出值代表當(dāng)前非空體素經(jīng)過子流形卷積運算后的新特征，同時，根據(jù)標(biāo)注設(shè)置目標(biāo)中心，計算相鄰非空體素的特征貢獻(xiàn)分?jǐn)?shù)，篩出遠(yuǎn)離目標(biāo)中心的特征，提高目標(biāo)局部細(xì)節(jié)特征的表示；(4)迭代計算循環(huán)：最后，迭代遍歷所有數(shù)據(jù)，重復(fù)特征計算，然后確定最終的全局目標(biāo)特征輸出。

40、進一步的，所述子流形體素卷積計算過程如下：

41、所述三維transformer下采樣網(wǎng)絡(luò)架構(gòu)由三個網(wǎng)絡(luò)塊組成，每個網(wǎng)絡(luò)塊包含一層稀疏卷積神經(jīng)網(wǎng)絡(luò)和兩層子流形體素模塊，稀疏卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)對目標(biāo)進行降采樣的功能，在全局特征提取過程中，在三個尺度上進行降采樣計算，同時，構(gòu)建子流形體素模塊用于每個采樣尺度下的特征提取，

42、對子流形體素模塊內(nèi)部的網(wǎng)絡(luò)層數(shù)據(jù)進行跨層連接，保持特征權(quán)值共享，采用子流形體素模塊重新設(shè)計非空體素處理方法，在這一層，確定每個輸入數(shù)據(jù)的中心非空體素，并基于設(shè)置中心體素計算相關(guān)的非空體素關(guān)聯(lián)關(guān)系，體素特征注意力模塊計算非空體素對目標(biāo)檢測決策的影響，得到每個體素的置信度分?jǐn)?shù)，全局特征注意力模塊將整個圖像劃分為n個區(qū)域，并計算每個區(qū)域與全局特征映射之間的相關(guān)性，另外，這一層只計算每個區(qū)域的非空體素，通過自注意力層，得到每個非空體素的特征權(quán)重得分，在單層子流形網(wǎng)絡(luò)中計算兩次非空體素的置信度得分。

43、進一步的，所述步驟2包括：

44、關(guān)鍵點采樣利用一種細(xì)分3d點云的方法，并使用并行計算來實現(xiàn)采樣處理，將原始點云輸入數(shù)據(jù)在空間上劃分為4個子集，并對每個子集分別進行關(guān)鍵點采樣，通過并行計算實現(xiàn)加速關(guān)鍵點采樣，

45、使用第一階段生成的候選框作為監(jiān)督區(qū)域，只對區(qū)域內(nèi)的點云進行關(guān)鍵點采樣，不計算區(qū)域外的點，

46、關(guān)鍵點采樣的整體過程包括兩個階段，第一階段進行點云空間劃分，第二階段基于先驗框進行關(guān)鍵點采樣，流程如下：

47、(1)空間劃分：四分之一空間：設(shè)s為原始點云空間，并使用k表示細(xì)分的子空間的個數(shù)，對原始點云空間進行k等分，采用k＝4，并在該平面上進行劃分，每個子空間獨立地并行計算區(qū)域中的關(guān)鍵點，空間劃分的公式寫成：

48、

49、其中，sk為空間分區(qū)的結(jié)果，k為細(xì)分子集的個數(shù)，(arctan(pyi，pxi)∈(-π，π)為沿x軸正方向旋轉(zhuǎn)的角度，(pyi，pxi)是最終旋轉(zhuǎn)角度，pi是從并行計算中得到的點集的輸出；

50、(2)候選點采樣：基于檢測方法生成候選區(qū)域，在有限區(qū)域內(nèi)進行關(guān)鍵點采樣，設(shè)p為候選區(qū)域，p′為篩選后保留在候選區(qū)域內(nèi)部的關(guān)鍵點信息，計算公式如下：

51、

52、其中pi來自公式(5),表示點云，每個區(qū)域區(qū)域的中心區(qū)域和尺度大小分別記為c和d，cj是區(qū)域c的中心點，(dxj，dyj，dzj)表示區(qū)域區(qū)域的長、寬、高，r(s)為區(qū)域區(qū)域中心點向外擴展的最小半徑，p′為經(jīng)過點提取后的候選區(qū)域內(nèi)所選關(guān)鍵點的集合，

53、對于區(qū)域內(nèi)關(guān)鍵點的選擇，使用gpu來加速計算，同時，按照步驟(1)的計算過程，將3d空間劃分為4個子集，進行關(guān)鍵點的初始選擇。

54、進一步的，所述步驟3包括：

55、多層感知器在關(guān)鍵點特征提取過程中，使用3塊來完成特征降采樣處理，每個塊包含2層，分別是特征圖融合層和多層感知器，

56、特征圖融合層包括k近鄰層和最大池化層，

57、使用三維transformer下采樣網(wǎng)絡(luò)架構(gòu)中的多尺度特征圖作為局部關(guān)鍵點采樣的監(jiān)督信息，使用k近鄰進行特征選擇，以保留更多有效信息來監(jiān)督關(guān)鍵點采樣過程，在特征監(jiān)督方面，將k設(shè)置為多層感知器輸入數(shù)據(jù)的通道數(shù)，對于輸入特征矩陣，計算所有特征值的歐幾里得距離，根據(jù)設(shè)定的k值，從距離計算結(jié)果中選擇k個最近的特征值作為代表特征，最后，我們將選擇的k個值與輸入特征點云結(jié)合起來，作為特征采樣的基礎(chǔ)，用x表示經(jīng)過候選采樣后的點云輸入，用p1表示該層中體素卷積的特征圖，knn方法將完成輸入(x，p1)的對齊和采樣，并在最大池化后進行標(biāo)準(zhǔn)化處理，以確保輸入指定數(shù)量的點，多層感知器由兩個線性計算層和一個全連接層組成，對于該層，使用前一層的輸出(y，p2)進行線性融合計算，以滿足全連接層的輸入要求，最后，該層在網(wǎng)絡(luò)采樣后輸出結(jié)果(y1，p3)，在該方法中，輸出的特征被稱為關(guān)鍵點，用于補充第二次檢測預(yù)測的特征；全局特征與局部特征融合方法，利用對感興趣的區(qū)域roi池化來融合全局和局部特征，從點云數(shù)據(jù)中提取目標(biāo)感興趣區(qū)域，

58、roi池化整體計算過程如下：

59、(1)基于原始體素卷積得到的特征映射矩陣，將候選區(qū)域?qū)?yīng)的體素單位標(biāo)記為感興趣的區(qū)域，調(diào)整候選區(qū)域，確定感興趣區(qū)域的位置和大小，只對標(biāo)記的感興趣區(qū)域進行特征融合，因此只有感興趣區(qū)域內(nèi)的體素單位被標(biāo)記為有效區(qū)域，而其余的體素單元被標(biāo)記為無效區(qū)域；

60、(2)將有效區(qū)域內(nèi)的體素單位劃分為固定數(shù)量的子區(qū)域，roi池化將有效區(qū)域內(nèi)的體素單位劃分為固定數(shù)量的子區(qū)域；

61、(3)對每個子區(qū)域內(nèi)的體素單位執(zhí)行池化操作，對于每個子區(qū)域，roi池化對子區(qū)域內(nèi)所有體素單位的特征向量執(zhí)行池化操作，在這項工作中，使用最大池化方法將局部點云特征與全局特征融合，最終得到每個子區(qū)域的特征向量；

62、(4)根據(jù)感興趣的區(qū)域連接各子區(qū)域的特征向量，roi池將每個子區(qū)域的特征向量連接起來，得到整個感興趣區(qū)域的特征向量，這個特征向量可以作為后續(xù)目標(biāo)分類和回歸任務(wù)的輸入。

63、本發(fā)明的一種基于visual-transformer網(wǎng)絡(luò)的小物體特征提取方法具有以下優(yōu)點：

64、本發(fā)明在使用的時候，使用體素化方法和三維transformer模塊來實現(xiàn)全局場景特征提取，并采用高效的關(guān)鍵點采樣方法進行局部關(guān)鍵點特征的采樣。最后，使用roi池化模型實現(xiàn)這兩種特征的融合。三維transformer模塊旨在從非空體素中提取特征，從而在一定程度上減少冗余計算，使目標(biāo)特征建模過程與目標(biāo)的內(nèi)在信息更加緊密對齊。同時，在全局特征提取過程中，使用稀疏體素哈希作為體素編碼方法，通過選擇合適的哈希函數(shù)來最小化哈希沖突的概率，從而提高模型的存儲效率和查詢速度。

65、在局部特征提取部分，通過使用點云空間分割方法實現(xiàn)關(guān)鍵點采樣的并行計算，進一步提高了模型的運行速度?；谙惹暗暮蜻x區(qū)域，進行針對性的關(guān)鍵點采樣，為目標(biāo)的細(xì)節(jié)區(qū)域創(chuàng)建了注意力機制。提出的注意力機制和特征融合方法，重新組合了圖像中目標(biāo)的特征提取方法，有效解決了淺層神經(jīng)網(wǎng)絡(luò)在小尺度目標(biāo)特征信息丟失方面的問題。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅翔予,孟濬,許力
技術(shù)所有人：余姚市機器人研究中心
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

基于相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Visual-Transformer網(wǎng)絡(luò)的小物體特征提取方法與流程