本發(fā)明涉及計(jì)算機(jī)視覺,尤其涉及一種基于快速采樣和注意力機(jī)制的點(diǎn)云分類分割方法。
背景技術(shù):
1、隨著激光雷達(dá)、rgb-d相機(jī)、三維結(jié)構(gòu)光相機(jī)以及tof相機(jī)等先進(jìn)深度傳感技術(shù)的迅猛發(fā)展與廣泛應(yīng)用,獲取和利用點(diǎn)云數(shù)據(jù)變得前所未有的便捷。相較于傳統(tǒng)的二維圖像,三維點(diǎn)云數(shù)據(jù)蘊(yùn)含了更為豐富的形態(tài)、尺寸及幾何結(jié)構(gòu)信息,為智能設(shè)備提供了更深層次的環(huán)境感知能力。以自動(dòng)駕駛為例,車輛搭載的激光雷達(dá)能夠持續(xù)掃描周遭環(huán)境,生成包含道路布局、交通標(biāo)識(shí)、周邊車輛、行人乃至路邊建筑的精細(xì)三維點(diǎn)云模型,極大地促進(jìn)了對(duì)周圍世界的理解和交互。近年來,三維點(diǎn)云數(shù)據(jù)在無人駕駛汽車、機(jī)器人技術(shù)、地理空間測繪等多個(gè)與人類生活緊密相關(guān)的領(lǐng)域展現(xiàn)出巨大潛力,促使高效處理與深度分析此類數(shù)據(jù)成為當(dāng)前研究的前沿?zé)狳c(diǎn)。
2、在三維點(diǎn)云數(shù)據(jù)處理領(lǐng)域,分類與分割是兩大核心挑戰(zhàn)。點(diǎn)云分類的目標(biāo)是精準(zhǔn)地為每個(gè)點(diǎn)分配類別標(biāo)簽,如辨識(shí)出點(diǎn)云中的椅子、汽車或建筑物等對(duì)象;而點(diǎn)云分割則致力于將點(diǎn)云數(shù)據(jù)集劃分成多個(gè)子集,每個(gè)子集內(nèi)的點(diǎn)歸屬于同一物體或共享相似的特征屬性。這些三維視覺任務(wù)對(duì)于自動(dòng)駕駛系統(tǒng)的路徑規(guī)劃、機(jī)器人自主導(dǎo)航、城市管理優(yōu)化、生態(tài)環(huán)境監(jiān)控乃至遙感圖像解析等領(lǐng)域至關(guān)重要。然而,由于點(diǎn)云數(shù)據(jù)固有的不規(guī)則性、無序性以及密度分布的不均勻性,使得其處理與分析過程面臨高度的計(jì)算復(fù)雜性和模型設(shè)計(jì)難度。早期研究多依賴于傳統(tǒng)圖像處理算法和機(jī)器學(xué)習(xí)策略,盡管在特定情境下取得了一定成效,但這些方法往往對(duì)噪聲敏感、泛化性能有限,且在處理復(fù)雜多變的實(shí)際場景時(shí)顯得力不從心。因此,探索更加魯棒、高效且適應(yīng)性強(qiáng)的三維點(diǎn)云處理新方法,成為了當(dāng)前亟待突破的關(guān)鍵議題。
3、近年來,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域取得了顯著成就,并逐漸成為三維點(diǎn)云處理的主流方法?;谏疃葘W(xué)習(xí)的三維點(diǎn)云處理方法大多為神經(jīng)網(wǎng)絡(luò)(nn)模型架構(gòu)。神經(jīng)網(wǎng)絡(luò)模型如pointnet和pointnet++采用多層感知機(jī)(mlp,multilayer?perceptron)或卷積神經(jīng)網(wǎng)絡(luò)(cnn,convolutional?neural?networks)作為主干網(wǎng)進(jìn)行特征提取,再結(jié)合最遠(yuǎn)點(diǎn)采樣(fps,farthest?point?sample)和最近鄰搜索以進(jìn)行局部特征提取,在點(diǎn)云分類和分割任務(wù)上的表現(xiàn)良好。
4、pointnet++主要包括三部分:分層點(diǎn)集特征學(xué)習(xí)模塊(hierarchical?point?setfeature?learning)、分割網(wǎng)絡(luò)(segmentation)和分類網(wǎng)絡(luò)(classification)。關(guān)于分層點(diǎn)集特征學(xué)習(xí)模塊:使用多個(gè)sa(set?abstraction,點(diǎn)集抽象層)層進(jìn)行特征提取,差別在于每一個(gè)sa層的采樣點(diǎn)數(shù)量(k)和采樣半徑(r)不一樣。隨著層次加深,k和r會(huì)隨之增大。sa層包含三個(gè)關(guān)鍵層:采樣層(sampling?layer),分組層(grouping?layer),點(diǎn)網(wǎng)層(pointnetlayer)。其中,sampling?layer基于fps采樣,從點(diǎn)云中選取若干中心點(diǎn)構(gòu)成一點(diǎn)集,grouping?layer基于球查詢(ball?query)和k近鄰分組方法,利用中心點(diǎn)將點(diǎn)集劃分為若干區(qū)域;pointnet?layer對(duì)每個(gè)區(qū)域進(jìn)行mlp特征提取、最大池化等操作,得到數(shù)據(jù)特征,再拼接為一組多尺度特征(multi-scale?feature)。但pointnet++現(xiàn)有方法在點(diǎn)云處理中的采樣效率和空間信息提取方面仍存在一些問題:
5、(1)pointnet++通過fps采樣來選擇局部區(qū)域的中心點(diǎn),并圍繞這些中心點(diǎn)構(gòu)建局部區(qū)域。這一過程涉及到多次的最近鄰搜索,特別是在處理大規(guī)模點(diǎn)云數(shù)據(jù)時(shí),計(jì)算量會(huì)顯著增加。雖然fps是較為準(zhǔn)確的,但它仍然需要遍歷整個(gè)數(shù)據(jù)集以找到最遠(yuǎn)的點(diǎn),這在數(shù)據(jù)量大的情況下會(huì)導(dǎo)致較高的計(jì)算成本。且隨著點(diǎn)數(shù)增加會(huì)帶來較高的計(jì)算復(fù)雜度。
6、(2)pointnet++在分割任務(wù)中設(shè)計(jì)了一種跳躍鏈接模塊,但是這種跳躍鏈接模塊對(duì)點(diǎn)之間的空間信息利用較少,限制了特征提取的能力,導(dǎo)致特征提取精度方面效果不佳。
7、(3)pointnet++在分割任務(wù)上采樣時(shí)采用最近鄰搜索的插值方法,該方法在插值時(shí)依賴于選擇的鄰域大小和點(diǎn)的分布情況,會(huì)導(dǎo)致插值不準(zhǔn)確。
8、名詞解釋:jl(johnson-lindenstrauss)引理是一種在數(shù)學(xué)和計(jì)算機(jī)科學(xué)中廣泛使用的引理,主要用于處理高維數(shù)據(jù)的降維問題。該引理指出,對(duì)于一個(gè)高維空間中的n個(gè)點(diǎn),可以通過一個(gè)隨機(jī)投影映射到一個(gè)低維空間,同時(shí)保持這些點(diǎn)之間的距離大致不變。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的就在于提供一種解決pointnet++采樣速度慢、局部特征提取精度較差、插值不準(zhǔn)確等問題的,一種基于快速采樣和注意力機(jī)制的點(diǎn)云分類分割方法。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是這樣的:一種基于快速采樣和注意力機(jī)制的點(diǎn)云分類分割方法,包括以下步驟;
3、s1,加載由點(diǎn)云分類樣本構(gòu)成的點(diǎn)云分類數(shù)據(jù)集dc、由點(diǎn)云分割樣本構(gòu)成的點(diǎn)云分割數(shù)據(jù)集ds;
4、s2,構(gòu)造一點(diǎn)云分類分割網(wǎng)絡(luò),包括步驟s21~s24;
5、s21,選取一pointnet++網(wǎng)絡(luò),包括分層點(diǎn)集特征學(xué)習(xí)模塊、分割網(wǎng)絡(luò)、分類網(wǎng)絡(luò),所述分層點(diǎn)集特征學(xué)習(xí)模塊包括2個(gè)依次連接的第一sa層lsa1、第二sa層lsa2,二者結(jié)構(gòu)相同,均包括依次連接的采樣層、分組層和點(diǎn)網(wǎng)層;所述分層點(diǎn)集特征學(xué)習(xí)模塊輸入點(diǎn)云數(shù)據(jù),輸出對(duì)應(yīng)的多尺度特征,所述點(diǎn)云數(shù)據(jù)為點(diǎn)云分類樣本或點(diǎn)云分割樣本;
6、s22,構(gòu)造一降采樣層,基于稀疏矩陣對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行降采樣;
7、s23,構(gòu)造一基于注意力機(jī)制的分割網(wǎng)絡(luò)nst,包括依次連接的第一插值層、第一拼接層、第二插值層、第二拼接層、兩層全連接層和分割層;
8、s24,選取兩個(gè)降采樣層標(biāo)記為lds1、lds2,分別替換lsa1和lsa2中的采樣層,并將被替換后的lsa1、lsa2分別標(biāo)記為第一改進(jìn)sa層、第二改進(jìn)sa層;在lds1輸入端經(jīng)第一自注意力編碼器跳躍連接第一拼接層輸入端,lds2輸入端經(jīng)第二自注意力編碼器跳躍連接第二拼接層輸入端,用nst替換分割網(wǎng)絡(luò),得到點(diǎn)云分類分割網(wǎng)絡(luò);
9、一點(diǎn)云分割樣本xs送入點(diǎn)云分類分割網(wǎng)絡(luò),經(jīng)、分別得到輸出特征、,所述送入nst中;
10、第一插值層基于對(duì)進(jìn)行插值操作得到第一特征fst1,第一拼接層用于將xs與fst1進(jìn)行拼接,得到第二特征fst2,第二插值層用于對(duì)fst2進(jìn)行插值操作得到第三特征fst3,第二拼接層用于將與fst3進(jìn)行拼接,得到第四特征fst4,fst4依次經(jīng)兩層全連接層降維、再經(jīng)分割層逐點(diǎn)進(jìn)行語義分割,輸出分割結(jié)果fs-out;
11、s3,用dc和ds訓(xùn)練至點(diǎn)云分類分割網(wǎng)絡(luò)收斂,得到點(diǎn)云分類分割模型;
12、s4,獲取待處理點(diǎn)云數(shù)據(jù),用點(diǎn)云分類分割模型進(jìn)行分類或分割。
13、作為優(yōu)選:s1中,所述點(diǎn)云分類數(shù)據(jù)集為modelnet40數(shù)據(jù)集,點(diǎn)云分割數(shù)據(jù)集為shapenet或s3dis數(shù)據(jù)集。
14、作為優(yōu)選:降采樣層的降采樣方法包括步驟sa1~sa3;
15、sa1,獲取一點(diǎn)云數(shù)據(jù)x,包含n個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)包含m維特征,將x構(gòu)造成n×m的矩陣;
16、sa2,確定降采樣后的數(shù)據(jù)點(diǎn)數(shù)n,從正態(tài)分布中隨機(jī)采樣一n×n的稀疏矩陣φ,φ滿足jl引理,且n<<n;
17、sa3,根據(jù)公式y(tǒng)=xφ,得到一n×m的降采樣點(diǎn)云數(shù)據(jù)y。
18、作為優(yōu)選:第一插值層、第二插值層均基于雙線性插值法進(jìn)行插值操作。
19、作為優(yōu)選:所述分類網(wǎng)絡(luò)包括依次連接的點(diǎn)網(wǎng)層、兩層全連接層、分類層。
20、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
21、(1)設(shè)計(jì)了一種基于稀疏矩陣對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行降采樣的方法,由本發(fā)明的降采樣層執(zhí)行,該方法能夠通過一次矩陣乘法獲得采樣點(diǎn),提升采樣速度,特別適用于大規(guī)模點(diǎn)云數(shù)據(jù)。
22、(2)改進(jìn)原有pointnet++網(wǎng)絡(luò)中的跳躍連接,通過兩個(gè)自注意力編碼器和兩個(gè)拼接層,將點(diǎn)云數(shù)據(jù)xs與第一插值層輸出的第一特征fst1進(jìn)行拼接、將第一改進(jìn)sa層的輸出與第二插值層輸出的第三特征fst3進(jìn)行拼接,用以解決現(xiàn)有研究忽略每個(gè)點(diǎn)之間的空間信息的問題,從而使整體模型能提取采樣點(diǎn)云中的空間和相關(guān)信息,提高了分割的精度。
23、(3)在分割網(wǎng)絡(luò)中,第一插值層、第二插值層均基于雙線性插值法進(jìn)行插值操作,克服了插值時(shí)依賴于選擇的鄰域大小和點(diǎn)的分布情況導(dǎo)致的插值不準(zhǔn)確問題。我們發(fā)明了一種雙線性插值方法。且實(shí)驗(yàn)結(jié)果顯示,該方法在多個(gè)數(shù)據(jù)集上的測試結(jié)果相比現(xiàn)有方法有顯著提升。
24、綜上,本發(fā)明設(shè)計(jì)出一種基于快速采樣和注意力機(jī)制的點(diǎn)云分類分割網(wǎng)絡(luò),及基于該網(wǎng)絡(luò)的點(diǎn)云分類分割方法,能提高采樣效率、特征提取精度、分割精度。并在大量的實(shí)驗(yàn)中驗(yàn)證本發(fā)明在分類分割任務(wù)均取得了比pointnet++更好的結(jié)果。