本發(fā)明屬于三維重建領(lǐng)域,更具體地,涉及一種基于場景自適應(yīng)局部體素多平面圖像的三維場景表示模型構(gòu)建方法。
背景技術(shù):
1、現(xiàn)有基于全局多平面圖像的三維場景表達方法,將三維場景分解為沿參考相機視錐方向的多個平行前向半透明平面mpi,即在參考相機下構(gòu)建的垂直于參考相機的固定深度的一定數(shù)量的多平面,平面上的點分別由參考相機和目標相機觀察到,這種視角一致性允許mpi用更少的采樣光線表達某一視角下的整個場景。一個典型的例子是nex,它使用具有固定深度分布的全局mpi來表示3d場景,并使用大型mlp網(wǎng)絡(luò)進行全局學(xué)習(xí),以編碼mpi的顏色和不透明度信息。然而,這種方法對于三維場景中的局部紋理渲染不夠豐富,在合成某一視角下的三維場景圖像時所合成的三維場景圖像效果不佳。
2、最近的研究通過使用局部平面改善了場景中的局部紋理表現(xiàn)。例如,neurmips利用點云構(gòu)建局部平面,具體的,采用sfm三維重建方法,基于colmap軟件,得到三維點云(場景中的三維點云坐標),將三維點云聚類成多個局部平面,并利用大型全局的mlp網(wǎng)絡(luò)學(xué)習(xí)局部平面的紋理和幾何特征,最后通過小型的mlp網(wǎng)絡(luò)進行蒸餾學(xué)習(xí)并微調(diào)達到場景局部學(xué)習(xí)的目的。但是該方法,仍然無法取得較好的渲染效果。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的缺陷和改進需求,本發(fā)明提供了一種基于場景自適應(yīng)局部體素多平面圖像的三維場景表示模型構(gòu)建方法,其目的在于有效捕獲局部區(qū)域的細節(jié)特征,提高三維場景的渲染效果。
2、為實現(xiàn)上述目的,按照本發(fā)明的一個方面,提供了一種基于場景自適應(yīng)局部體素多平面圖像的三維場景表示模型構(gòu)建方法,包括:
3、對待表示的三維場景劃分為體素網(wǎng)格,構(gòu)建每個體素的全局多平面圖像mpi;確定每個已知視角下不同光線分別與各體素mpi的交點,將每個光線對應(yīng)的各交點的三維位置坐標分別編碼為多維位置向量、方向分別編碼為多維方向向量,該光線對應(yīng)的多維位置向量集合、多維方向向量集合以及該光線在已采集場景圖像中所對應(yīng)像素的顏色標簽構(gòu)成一個訓(xùn)練樣本;
4、構(gòu)建每個體素的位置多層mlp網(wǎng)絡(luò)、方向多層mlp網(wǎng)絡(luò)和顏色計算單元;位置多層mlp網(wǎng)絡(luò)中包含分別連接在前n層全連接層輸出端的n層自注意力單元,分別用于對前一全連接層所輸出的特征向量分割成多個不重疊的窗口,并對每個窗口進行自注意力學(xué)習(xí),對各窗口學(xué)習(xí)結(jié)果拼接后輸入下一全連接層;位置多層mlp網(wǎng)絡(luò)的輸入為每個光線在該網(wǎng)絡(luò)對應(yīng)體素上所有交點的多維位置向量、輸出為對應(yīng)所有交點的顏色系數(shù)向量和不透明度;方向多層mlp網(wǎng)絡(luò)的輸入為每個光線在該網(wǎng)絡(luò)對應(yīng)體素上所有交點的多維方向向量、輸出為對應(yīng)所有交點的基函數(shù);顏色計算單元用于基于所接收的每個光線在所有體素上所有交點的基函數(shù)和顏色系數(shù)向量,結(jié)合待優(yōu)化的基本顏色向量,計算對應(yīng)所有交點的顏色,用以對對應(yīng)所有交點的不透明度進行合成,得到該光線對應(yīng)的像素渲染顏色;
5、采用訓(xùn)練樣本優(yōu)化各體素的位置多層mlp網(wǎng)絡(luò)、方向多層mlp網(wǎng)絡(luò)和基本顏色向量,直至達到預(yù)設(shè)終止條件,得到三維場景表示模型。
6、進一步,采用頻率長度為m的正弦函數(shù)進行m維向量編碼,以得到所述多維位置向量和所述多維方向向量。
7、進一步,所述多維位置向量的編碼方式為:采用頻率長度為20的正弦函數(shù)將每個光線對應(yīng)的各交點的平面位置坐標分別編碼成40維向量;采用頻率長度為8的正弦函數(shù)將該光線對應(yīng)的各交點的深度坐標分別編碼成16維向量;將所述40維向量和16維向量拼接,得到對應(yīng)交點的所述多維位置向量;
8、所述多維方向向量的編碼方式為:采用頻率長度為4的正弦函數(shù)將每個光線對應(yīng)的每個交點的方向編碼為8維向量,得到該交點的所述多維方向向量。
9、進一步,所述n的取值為2。
10、進一步,采用基函數(shù)集合、顏色系數(shù)向量集合和基本顏色向量之間的預(yù)設(shè)線性關(guān)系,執(zhí)行所述顏色和所述不透明度的計算。
11、本發(fā)明還提供一種三維場景新視角合成方法,采用如上所述的三維場景表示模型構(gòu)建方法所構(gòu)建的三維場景表示模型,進行新視角下多個光線對應(yīng)像素的顏色渲染,從而合成新視角圖像。
12、本發(fā)明還提供一種電子設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上所述的三維場景表示模型構(gòu)建方法和/或如上所述的一種三維場景新視角合成方法。
13、本發(fā)明還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序被處理器運行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行如上所述的三維場景表示模型構(gòu)建方法和/或如上所述的一種三維場景新視角合成方法。
14、本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序或指令,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)如上所述的三維場景表示模型構(gòu)建方法和/或如上所述的一種三維場景新視角合成方法。
15、總體而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案,能夠取得以下有益效果:
16、(1)本發(fā)明提出了一種基于體素的多平面三維場景表示方法,該方法在體素級別構(gòu)建局部mpi(也就是構(gòu)建每個體素的mpi),保留了mpi結(jié)構(gòu)的簡單性和視角一致性,同時通過獨立編碼的各體素mlp(隱式神經(jīng)輻射場)對每個局部mpi進行精細建模,能夠有效捕獲每個局部區(qū)域的細節(jié)特征。其中,為了解決各體素獨立建模所存在的塊效應(yīng),在每個體素的mlp網(wǎng)絡(luò)中引入了體素平面注意機制,通過協(xié)調(diào)相鄰體素塊中獨立編碼的場景信息來增強場景的內(nèi)容和幾何一致性,實現(xiàn)場景自適應(yīng),提高場景表達性能,保證了建模精度,能夠顯著提升場景幾何和內(nèi)容渲染連續(xù)性。該方法所得到的三維場景表示模型對于三維場景的表示較為精細,在幾何和顏色紋理復(fù)雜的場景中能夠?qū)崿F(xiàn)較好的后續(xù)新視角渲染效果。
1.一種基于場景自適應(yīng)局部體素多平面圖像的三維場景表示模型構(gòu)建方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的三維場景表示模型構(gòu)建方法,其特征在于,采用頻率長度為m的正弦函數(shù)進行m維向量編碼,以得到所述多維位置向量和所述多維方向向量。
3.根據(jù)權(quán)利要求2所述的三維場景表示模型構(gòu)建方法,其特征在于,所述多維位置向量的編碼方式為:采用頻率長度為20的正弦函數(shù)將每個光線對應(yīng)的各交點的平面位置坐標分別編碼成40維向量;采用頻率長度為8的正弦函數(shù)將該光線對應(yīng)的各交點的深度坐標分別編碼成16維向量;將所述40維向量和16維向量拼接,得到對應(yīng)交點的所述多維位置向量;
4.根據(jù)權(quán)利要求1所述的三維場景表示模型構(gòu)建方法,其特征在于,所述n的取值為2。
5.根據(jù)權(quán)利要求1所述的三維場景表示模型構(gòu)建方法,其特征在于,采用基函數(shù)集合、顏色系數(shù)向量集合和基本顏色向量之間的預(yù)設(shè)線性關(guān)系,執(zhí)行所述顏色和所述不透明度的計算。
6.一種三維場景新視角合成方法,其特征在于,采用如權(quán)利要求1至5任一項所述的三維場景表示模型構(gòu)建方法所構(gòu)建的三維場景表示模型,進行新視角下多個光線對應(yīng)像素的顏色渲染,從而合成新視角圖像。
7.一種電子設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至5中任一項所述的三維場景表示模型構(gòu)建方法和/或如權(quán)利要求6所述的一種三維場景新視角合成方法。
8.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序被處理器運行時控制所述存儲介質(zhì)所在設(shè)備執(zhí)行如權(quán)利要求1至5中任一項所述的三維場景表示模型構(gòu)建方法和/或如權(quán)利要求6所述的一種三維場景新視角合成方法。
9.一種計算機程序產(chǎn)品,包括計算機程序或指令,其特征在于,所述計算機程序或指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5中任一項所述的三維場景表示模型構(gòu)建方法和/或如權(quán)利要求6所述的一種三維場景新視角合成方法。