本發(fā)明涉及視覺slam領(lǐng)域,具體是涉及一種融合rgb與深度特征的多模態(tài)視覺里程計(jì)。
背景技術(shù):
1、伴隨著人工智能的迅猛發(fā)展,機(jī)器人產(chǎn)業(yè)也發(fā)展的如火如荼,在人們的生產(chǎn)、生活中扮演者日益重要的角色[1]。移動(dòng)機(jī)器人,無人駕駛汽車等產(chǎn)品越來越多的出現(xiàn)人們視野中,想要實(shí)現(xiàn)自主運(yùn)動(dòng)就必需解決兩個(gè)問題,“同時(shí)定位”和“建立地圖”,也就是slam(simultaneous?localization?and?mapping)。slam一般分為視覺slam和激光slam。相較于激光slam對(duì)于設(shè)備的昂貴需求,視覺slam的傳感器為相機(jī),成本則明顯更小,更利于推廣。
2、隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,越來越多的研究者將深度學(xué)習(xí)與傳統(tǒng)視覺slam相結(jié)合,用深度學(xué)習(xí)的方法來代替?zhèn)鹘y(tǒng)視覺slam中的某一環(huán)節(jié)。深度學(xué)習(xí)和視覺里程計(jì)的結(jié)合是近年來的重點(diǎn)研究方向。視覺里程計(jì)的主要工作原理是通過兩個(gè)圖像連續(xù)幀之間的運(yùn)動(dòng)來估計(jì)相機(jī)位姿。在大量訓(xùn)練數(shù)據(jù)的支持下,深度學(xué)習(xí)和視覺里程計(jì)的結(jié)合,舍去了前端點(diǎn)跟蹤、后端優(yōu)化求解的一系列過程,直接輸入圖像給出位姿估計(jì)結(jié)果,在惡劣環(huán)境下具有良好的估計(jì)效果。
3、現(xiàn)在大多數(shù)工作將相機(jī)的位姿估計(jì)問題轉(zhuǎn)化為彩色圖像的回歸分類,在上述的研究過程中,一個(gè)常見的問題是,圖像場(chǎng)景的變化,比如光照變化會(huì)極大的影響位姿估計(jì)的準(zhǔn)確度。最近的研究表明,可以通過融合來自不同傳感器的信息特征來得到更好的相機(jī)位姿估計(jì)效果,融合rgb信息特征和深度特征是其中的一個(gè)方向。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是融合rgb與深度特征的多模態(tài)視覺里程計(jì)。首先利用自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)得到逆深度圖,然后計(jì)算每個(gè)像素的最小再投影損失,減少單目視頻連續(xù)幀遮擋帶來的負(fù)面影響,以此來獲得更為優(yōu)秀的深度估計(jì)。然后采用基于信道交換融合的模式,將rgb和深度信息這兩種不同的模態(tài)信息融合,組成相對(duì)姿態(tài)輸出,最后結(jié)合雙流網(wǎng)絡(luò),引入正則化優(yōu)化網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)更好的訓(xùn)練效果。
2、本發(fā)明解決上述問題的技術(shù)方案如下:一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),包括以下步驟:
3、s1,分析相鄰圖像幀的深度特征和rgb特征,得到逆深度圖
4、s2,計(jì)算每個(gè)像素的最小再投影損失,獲得優(yōu)秀的深度估計(jì)
5、s3,將rgb和深度信息這兩種不同模態(tài)的信息融合,組成相對(duì)姿態(tài)輸出
6、s4,結(jié)合雙流網(wǎng)絡(luò),引入正則化優(yōu)化網(wǎng)絡(luò)模型,以實(shí)現(xiàn)更好的訓(xùn)練效果
7、本發(fā)明的有益效果是:
8、本發(fā)明是一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),首先通過自我運(yùn)動(dòng)估計(jì)框架dlf-vo估計(jì)每個(gè)輸入幀的深度圖像和rgb特診,利用自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)得到逆深度圖,計(jì)算每個(gè)像素的最小再投影損失,減少單目視頻連續(xù)幀遮擋帶來的負(fù)面影響,以此來獲得更為優(yōu)秀的深度估計(jì)。然后采用多層融合的模式,融合編碼器中間層中出現(xiàn)的多個(gè)特征信息,并將rgb和深度信息這兩種不同模態(tài)的信息融合組成最終的相對(duì)姿態(tài)輸出。姿態(tài)估計(jì)模型具有雙流結(jié)構(gòu),利用信道交換cen策略同時(shí)保留rgb和深度模式的互補(bǔ)特征,根據(jù)騎重要性交換特征要素,最后引入正則化優(yōu)化網(wǎng)絡(luò)模型,以實(shí)現(xiàn)更好的訓(xùn)練效果。使用融合rgb與深度特征的多模態(tài)視覺里程計(jì),與傳統(tǒng)的基于單一信息特征分析的視覺里程計(jì)相比具有巨大優(yōu)勢(shì)。
1.一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),其特征在于,所述s1中利用到自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)得到逆深度圖。然后通過計(jì)算每個(gè)像素的最小再投影損失,減少單目視頻連續(xù)幀遮擋帶來的負(fù)面影響,以此來獲得更為優(yōu)秀的深度估計(jì)。
3.根據(jù)權(quán)利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),其特征在于,所述s2中通過計(jì)算每個(gè)像素的最小再投影損失,減少由單目視頻連續(xù)幀遮擋帶來的負(fù)面影響,以此來獲得更為優(yōu)秀的深度估計(jì),相對(duì)姿態(tài)估計(jì)器θpose預(yù)測(cè)連續(xù)幀之間的相對(duì)姿態(tài)作為自我運(yùn)動(dòng)的最終輸出:
4.根據(jù)權(quán)利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),其特征在于,所述s3中在rgb特征信息和深度特征信息的融合過程中,利用信道交換策略同時(shí)保留rgb和深度特征的互補(bǔ)特征,根據(jù)其重要性交換特征要素。
5.根據(jù)權(quán)利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),其特征在于,所述s3中在rgb特征信息和深度特征信息的融合過程中,為了模型產(chǎn)生奇異解,本文提出新的損失函數(shù)。
6.根據(jù)權(quán)利要求1所述的一種融合rgb與深度特征的多模態(tài)視覺里程計(jì),其特征在于,所述s4中結(jié)合雙流網(wǎng)絡(luò)之后,引入正則化網(wǎng)絡(luò)優(yōu)化模型,提出了新的正則化損失,降低冗余信息對(duì)訓(xùn)練模型的影響。