本發(fā)明涉及三維場景重建,尤其是涉及一種基于3d高斯?jié)娰v的駕駛場景前饋重建方法。
背景技術(shù):
1、三維場景重建在自動(dòng)駕駛技術(shù)中具有重要意義?,F(xiàn)代自動(dòng)駕駛輔助系統(tǒng)依賴車載相機(jī)實(shí)時(shí)捕捉周圍環(huán)視圖像,進(jìn)而用于在線建圖、鳥瞰圖感知和三維目標(biāo)檢測等關(guān)鍵下游任務(wù)。然而,駕駛場景的重建面臨諸多挑戰(zhàn),例如,相機(jī)視角稀疏、相鄰視角間重疊范圍較小以及下游任務(wù)對于實(shí)時(shí)性的要求等,這些因素共同構(gòu)成了在駕駛場景中實(shí)現(xiàn)準(zhǔn)確、高效三維重建的主要難點(diǎn)。
2、近年來,雖然神經(jīng)輻射場和3d高斯濺射等技術(shù)在三維場景重建領(lǐng)域取得了顯著進(jìn)展,但它們依賴密集的視角輸入和高計(jì)算成本的單一場景優(yōu)化,主要用于離線場景優(yōu)化,且不具有泛化性,難以滿足駕駛場景的實(shí)時(shí)需求。因此,這些方法的實(shí)用性受到限制。
3、為了應(yīng)對上述挑戰(zhàn),當(dāng)前的研究正致力于開發(fā)能夠從稀疏輸入視圖中實(shí)現(xiàn)實(shí)時(shí)且具備良好泛化能力的三維重建方法。這些方法通過前饋推理技術(shù),在稀疏輸入視圖的條件下快速構(gòu)建三維場景。然而,由于車載相機(jī)數(shù)量有限,視角稀疏,相鄰視圖之間的重疊區(qū)域較小,以及相機(jī)外參數(shù)獲取難度較大等不利因素,現(xiàn)有前饋重建的方法在駕駛場景中表現(xiàn)不佳,限制了他們的實(shí)用性。
4、此外,現(xiàn)有方法通常采用固定輸入模式,例如基于雙目攝像頭的輸入或以單幀環(huán)視圖像作為輸入。這些方法無法靈活適應(yīng)駕駛場景中環(huán)視攝像頭數(shù)量的變化以及車輛行駛過程中連續(xù)捕獲的多幀環(huán)視圖像。因此,這些方法在處理不同數(shù)量和視角的相機(jī)以及連續(xù)圖像序列時(shí)的能力受到限制,難以充分利用實(shí)時(shí)駕駛過程中獲取的多樣化數(shù)據(jù)。
5、綜上所述,開發(fā)一種適用于駕駛場景稀疏視角的輸入條件、具有泛化能力的在線重建技術(shù),是三維重建領(lǐng)域亟待解決的關(guān)鍵問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種適用于駕駛場景稀疏視角的輸入條件、具有泛化能力的基于3d高斯?jié)娰v的駕駛場景前饋重建方法。
2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
3、一種基于3d高斯?jié)娰v的駕駛場景前饋重建方法,包括以下步驟:
4、數(shù)據(jù)集構(gòu)建和預(yù)處理步驟:收集駕駛場景中車載相機(jī)拍攝的環(huán)視圖像,并進(jìn)行預(yù)處理,構(gòu)建數(shù)據(jù)集;
5、深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)構(gòu)建和訓(xùn)練步驟:構(gòu)建深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò),從數(shù)據(jù)集中獲取輸入圖像,分別通過深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)提取深度圖和位姿變換矩陣,從而構(gòu)建扭曲圖像,基于扭曲圖像和輸入圖像進(jìn)行損失計(jì)算,從而對深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)進(jìn)行自監(jiān)督學(xué)習(xí);
6、高斯網(wǎng)絡(luò)構(gòu)建和訓(xùn)練步驟:構(gòu)建高斯網(wǎng)絡(luò),通過高斯網(wǎng)絡(luò)的編碼器提取深度圖的特征,通過高斯網(wǎng)絡(luò)的分類頭利用提取的深度圖特征和深度圖,預(yù)測3d高斯屬性,并聚合所有視角的3d高斯屬性,得到新視角圖像渲染結(jié)果,并與對應(yīng)的輸入圖像對比進(jìn)行監(jiān)督訓(xùn)練;
7、前饋推理步驟:將待測的駕駛場景的環(huán)視圖像輸入訓(xùn)練好的深度網(wǎng)絡(luò)中,提取深度圖;將深度圖輸入訓(xùn)練好的高斯網(wǎng)絡(luò)中,預(yù)測3d高斯屬性,并聚合所有視角的3d高斯屬性,得到駕駛場景的重建結(jié)果。
8、進(jìn)一步地,所述方法還包括:將深度網(wǎng)絡(luò)、姿態(tài)網(wǎng)絡(luò)和高斯網(wǎng)絡(luò)的訓(xùn)練過程相結(jié)合進(jìn)行聯(lián)合訓(xùn)練,具體包括:
9、從數(shù)據(jù)集中獲取輸入圖像;
10、將輸入圖像分別輸入深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)中,輸出深度圖和位姿變換矩陣,從而構(gòu)建扭曲圖像,基于扭曲圖像和輸入圖像進(jìn)行定位損失計(jì)算;
11、將深度圖輸入高斯網(wǎng)絡(luò)中,通過高斯網(wǎng)絡(luò)的編碼器提取深度圖的特征,通過高斯網(wǎng)絡(luò)的分類頭利用提取的深度圖特征和深度圖,預(yù)測3d高斯屬性;
12、聚合所有視角的3d高斯屬性,得到新視角圖像渲染結(jié)果,并與對應(yīng)的輸入圖像對比,進(jìn)行渲染損失計(jì)算;
13、綜合定位損失和渲染損失構(gòu)建整體損失函數(shù),從而調(diào)整深度網(wǎng)絡(luò)、姿態(tài)網(wǎng)絡(luò)和高斯網(wǎng)絡(luò)的參數(shù),并進(jìn)行迭代訓(xùn)練。
14、進(jìn)一步地,所述扭曲圖像的構(gòu)建過程具體為:
15、記錄相鄰相機(jī)機(jī)器對應(yīng)時(shí)間步t時(shí)刻的圖像,利用對應(yīng)生成的深度圖和位姿變換矩陣,扭曲相鄰相機(jī)圖像或當(dāng)前相機(jī)上下幀的圖像,得到扭曲圖像。
16、進(jìn)一步地,所述扭曲圖像的生成表達(dá)式為:
17、
18、式中,為t時(shí)刻相鄰相機(jī)i對應(yīng)的扭曲圖像,is為輸入圖像,ks和ki分別為圖像is和圖像對應(yīng)的相機(jī)內(nèi)參,為t時(shí)刻相鄰相機(jī)i對應(yīng)的圖像,t為位姿變換矩陣,為深度圖。
19、進(jìn)一步地,所述深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)的損失計(jì)算過程具體為:
20、根據(jù)輸入圖像的來源分為時(shí)間、空間和時(shí)空三類;根據(jù)輸入圖像的不同,將對應(yīng)的位姿變換矩陣也分為時(shí)間、空間和時(shí)空三類;
21、分別對時(shí)間、空間和時(shí)空三類的輸入圖像所對應(yīng)的扭曲圖像進(jìn)行光度損失的計(jì)算,得到對應(yīng)的損失函數(shù),并結(jié)合深度平滑損失,得到高斯定位損失,用于深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí)。
22、進(jìn)一步地,所述光度損失的計(jì)算表達(dá)式為:
23、
24、式中,lreproj為光度損失計(jì)算結(jié)果,ssim為結(jié)構(gòu)相似度度量,為輸入圖像,為對應(yīng)的扭曲圖像;
25、所述高斯定位損失的表達(dá)式為:
26、lloc=λsplsp+λtmltm+λsp-tmlsp-tm+λsmoothlsmooth
27、式中,lloc為高斯定位損失計(jì)算結(jié)果,lsp為空間類型源輸入圖像對應(yīng)的損失函數(shù),ltm為時(shí)間類型源輸入圖像對應(yīng)的損失函數(shù),lsp-tm為時(shí)空類型源輸入圖像對應(yīng)的損失函數(shù),lsmooth為深度平滑損失,λsp、λtm、λsp-tm、λsmooth為超參數(shù)。
28、進(jìn)一步地,所述3d高斯屬性包括透明度、由縮放因子和旋轉(zhuǎn)四元數(shù)組成的協(xié)方差矩陣以及由球諧函數(shù)表示的顏色。
29、進(jìn)一步地,所述高斯網(wǎng)絡(luò)的訓(xùn)練過程中,將生成的新視角圖像渲染結(jié)果與對應(yīng)的輸入圖像對比,計(jì)算lpips相似度和l2距離,從而得到渲染損失;
30、所述渲染損失的計(jì)算表達(dá)式為:
31、lrender=ll2+0.05llpips
32、式中,lrender為渲染損失計(jì)算結(jié)果,ll2為l2距離計(jì)算結(jié)果,llpips為lpips相似度計(jì)算結(jié)果。
33、進(jìn)一步地,所述預(yù)處理的過程包括:對收集的環(huán)視圖像進(jìn)行圖像增強(qiáng),所述圖像增強(qiáng)的方法包括對圖像的曝光度、飽和度和色調(diào)進(jìn)行隨機(jī)變換。
34、進(jìn)一步地,所述深度網(wǎng)絡(luò)和姿態(tài)網(wǎng)絡(luò)均采用resnet-18網(wǎng)絡(luò)提取輸入圖像的特征,所述深度網(wǎng)絡(luò)輸出深度圖,所述姿態(tài)網(wǎng)絡(luò)輸出當(dāng)前幀視角到上下幀視角的位姿變換矩陣。
35、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
36、(1)本發(fā)明利用車載環(huán)視相機(jī)的稀疏視角,通過深度網(wǎng)絡(luò)、姿態(tài)網(wǎng)絡(luò)以及高斯網(wǎng)絡(luò),以自監(jiān)督的方式學(xué)習(xí)尺度感知的深度,定位3d高斯的位置,并且從每個(gè)視角獨(dú)立預(yù)測3d高斯的屬性,將所有視角的3d高斯聚合,得到重建場景;本發(fā)明在訓(xùn)練時(shí)無需相機(jī)外參,在測試時(shí)給定環(huán)視圖片及其位姿,通過前饋推理實(shí)時(shí)重建。與現(xiàn)有相關(guān)技術(shù)相比,本發(fā)明解決了駕駛場景視角稀疏、視角之間重疊區(qū)域小,難以直接利用視角之間的幾何關(guān)系等問題,在駕駛場景數(shù)據(jù)集上實(shí)現(xiàn)了可泛化的實(shí)時(shí)重建并且提升了新視角合成的精度。