本發(fā)明涉及場景理解領域,尤其是涉及了一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法。
背景技術:
室內場景的識別與理解是智能化信息處理的關鍵技術之一,相關的研究成果已經成功應用在不同的領域,例如,在安全防范領域的目標追蹤、行人檢測和人臉檢測與識別,互聯(lián)網(wǎng)信息領域的圖像內容檢索,智能機器人領域的目標搜尋、場景理解、障礙物檢測,智能家居和危險環(huán)境的救援等,使得人們的工作和生活變得更加方便,因此,室內場景的識別與理解具有重要的理論研究意義和工程應用價值。
傳統(tǒng)的圖像資源利用大多借助低層視覺特征,如顏色、形狀、紋理,實質上是計算機對圖像內容的理解。然而低層視覺特征僅代表視覺信息,忽略了圖像內容所包含的語義信息,與人類對圖像的理解存在一定差異。
本發(fā)明提出了一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法,先捕捉圖像輸出掃描區(qū)域,輸出掃描區(qū)域,原始顏色深度圖像(RGB-D)和3D紋理網(wǎng)格,接著通過對網(wǎng)格進行采樣生成點云,對數(shù)據(jù)進行語義注釋,然后將每個點標簽投影在3D網(wǎng)格和圖像域上,最后利用數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性建筑物的部分,定義標準訓練和測試分割。本發(fā)明提出的語義數(shù)據(jù)集可以利用大規(guī)模室內空間中存在的規(guī)律來開發(fā)聯(lián)合跨模態(tài)學習模型和潛在的無監(jiān)督方法;為語義、布局、遮擋、形狀、模式檢測等提供強有力的提示;不受規(guī)模、多樣性和數(shù)量的限制。
技術實現(xiàn)要素:
針對傳統(tǒng)方法僅代表視覺信息而忽略語義信息的問題,本發(fā)明的目的在于提供一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法,先捕捉圖像輸出掃描區(qū)域,輸出掃描區(qū)域,原始顏色深度圖像(RGB-D)和3D紋理網(wǎng)格,接著通過對網(wǎng)格進行采樣生成點云,對數(shù)據(jù)進行語義注釋,然后將每個點標簽投影在3D網(wǎng)格和圖像域上,最后利用數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性建筑物的部分,定義標準訓練和測試分割。
為解決上述問題,本發(fā)明提供一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法,其主要內容包括:
(一)數(shù)據(jù)的收集和整理;
(二)訓練和測試分割。
其中,所述的二維-三維語義數(shù)據(jù)集,收集的數(shù)據(jù)集是6個大型室內地區(qū),來源于3個不同的建筑物,主要是教育和辦公用途;對于每個區(qū)域,所有的方式在相同的參考系統(tǒng)注冊,產生像素到像素之間的對應關系;該數(shù)據(jù)集包含總共約102000種普通RGB和1413張等量的RGB圖像,以及與它們對應的深度、表面法線、語義注釋、坐標系XYZ的OpenEXR格式和相機的元數(shù)據(jù);此外還提供了整個建筑三維重建紋理網(wǎng)格和相應的3D語義網(wǎng)格。
其中,所述的數(shù)據(jù)的收集和整理,使用相機收集數(shù)據(jù),它結合了3個結構光傳感器,在每個掃描位置旋轉,360°捕獲18種RGB和深度圖像;輸出掃描區(qū)域,原始顏色深度圖像(RGB-D)和照相機元數(shù)據(jù)重構的3D紋理網(wǎng)格;使用這些數(shù)據(jù)作為基礎生成額外的RGB-D數(shù)據(jù),并通過對網(wǎng)格進行采樣生成點云;直接在3D點云上對數(shù)據(jù)進行語義注釋,然后將每個點標簽投影在3D網(wǎng)格和圖像域上;數(shù)據(jù)的收集和整理包括3D模式,2D形式和命名約定。
進一步地,所述的3D模式,該數(shù)據(jù)集包含兩個主要的三維模式(3D點云數(shù)據(jù)和3D網(wǎng)格模型)和它們的語義對應的6個領域;包括三維點云和網(wǎng)格和3D語義;從相機得到重建的三維紋理的網(wǎng)格模型為每個掃描區(qū)域,每個模型包含200k個三角形面的平均值和材質映射到紋理圖像,提供掃描空間的實際重建;產生的彩色3D點云密集和均勻采樣點在網(wǎng)格表面上,并分配相應的顏色。
進一步地,所述的3D語義,語義上標注數(shù)據(jù)的3D點云,并指定以下13個對象類的每一個點:天花板、地板、墻壁、梁、柱、窗、門、桌子、椅子、沙發(fā)、書柜、板和雜波的所有其他元素;在3D進行注釋,提供3D對象模型并且能夠執(zhí)行遮擋和模態(tài)分析,語義可以被投影到任何數(shù)量的圖像上,在2D中提供標定好的真實數(shù)據(jù);
數(shù)據(jù)集中的每個對象實例都有唯一的標識符;將點云數(shù)據(jù)注釋為房間,并為每個房間分配以下11個場景標簽之一:辦公室、會議室、走廊、禮堂、休息室、大堂、休息室、茶水間、復印室、存儲室和廁所;同樣,點云中的每個實例都會收到一個唯一的索引;給定這些注釋,計算每個實例最緊密的軸對齊對象邊界框,并進一步將其體素化為具有二進制占有的6×6×6網(wǎng)格;該信息提供對底層幾何的更好理解,并且可以利用在3D對象檢測或分類中;然后,在網(wǎng)格模型的面上投射對象和場景語義,并生成保留相同類結構和實例索引的3D語義網(wǎng)格;使用投射方案將這些注釋轉移到網(wǎng)格;每個注釋點對與其最接近的面進行投票,然后計算投票,并且用模式類來注釋每個面。
進一步地,所述的2D形式,數(shù)據(jù)集包含每個掃描位置的密集采樣的RGB圖像,這些圖像從使用由掃描儀捕獲的原始數(shù)據(jù)(也是數(shù)據(jù)集的一部分)的每個掃描位置和模態(tài)生成的等方圖像采樣;包括RGB圖像,每個圖像的元數(shù)據(jù)和攝像機參數(shù),深度圖像,表面法線圖像,語義標記圖像和3D坐標編碼圖像。
進一步地,所述的RGB圖像,每個圖像的元數(shù)據(jù)和攝像機參數(shù)和深度圖像,其特征在于,RGB圖像使用提供的原始RGB數(shù)據(jù)形成每個掃描位置的立方圖,并在此空間中采樣新圖像;對每個掃描位置采樣3×72個圖像,然后使用熵值的一半高斯來從它們中采樣72個圖像;熵值被定義為每個圖像中當前語義類的分布上的信息熵;使用抽樣方法,熵值通過不完全去除低熵場景來保持數(shù)據(jù)集的多樣性;
每個圖像的元數(shù)據(jù)和攝像機參數(shù)是每個生成的圖像在“姿勢文件夾”中提供的攝像機姿勢;
深度圖像是對于每個圖像,提供從3D網(wǎng)格計算的深度;通過z緩沖區(qū)保存深度信息從3D網(wǎng)格中渲染這些圖像;圖像被保存為16位灰度PNG,其中像素強度的一個單位變化對應于深度的變化;因此,最大可觀測范圍為約128米超過此最大距離的所有深度均采用最大值(65,535);對于沒有深度信息的位置像素也采用該最大距離。
進一步地,所述的表面法線圖像,語義標記圖像和3D坐標編碼圖像,表面法線是法線傳遞計算出來的,并保存為24位RBG的PNG圖像;從3D網(wǎng)格計算對應于每個像素的3D中的表面法線;法線向量保存在RGB顏色值中;每個通道都以127.5為中心,因此可以使用左右兩個值(軸的);
語義標記圖像是將3D語義從網(wǎng)格模型投影到2D圖像上;由于在網(wǎng)格模型中存在某些幾何偽像,主要是由于重建中的細節(jié)水平,2D注釋偶爾未對準底層像素小的局部,特別是具有到照相機的短距離的點,通過使用圖形模型將圖像內容與投影的注釋融合來對準;語義標記的圖像被保存為24位RGB的PNG圖像,但每個像素的顏色值可以直接解釋為列表中的索引;
3D坐標編碼圖像中的像素編碼坐標系中點的X,Y,Z位置;該信息可以用于方便地關聯(lián)RGB圖像的內容;圖像以OpenEXR格式存儲,每個通道包含32位浮點數(shù)。
進一步地,所述的命名約定,數(shù)據(jù)集中圖像的文件名是全局唯一的,因為沒有兩個文件共享攝像頭uuid,幀號和域;房間類型包括方便過濾。
其中,所述的訓練和測試分割,數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性的建筑物的部分,因此定義標準訓練和測試分割,使得沒有類似建筑物的區(qū)域出現(xiàn)在兩者之中。
附圖說明
圖1是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的系統(tǒng)框架圖。
圖2是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的聯(lián)合二維-三維語義數(shù)據(jù)集。
圖3是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的三維模式。
圖4是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的等角度投影采樣圖像。
具體實施方式
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。
圖1是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的系統(tǒng)流程圖。主要包括數(shù)據(jù)的收集和整理,訓練和測試分割。
數(shù)據(jù)的收集和整理,使用相機收集數(shù)據(jù),它結合了3個結構光傳感器,在每個掃描位置旋轉,360°捕獲18種RGB和深度圖像;輸出掃描區(qū)域,原始顏色深度圖像(RGB-D)和照相機元數(shù)據(jù)重構的3D紋理網(wǎng)格;使用這些數(shù)據(jù)作為基礎生成額外的RGB-D數(shù)據(jù),并通過對網(wǎng)格進行采樣生成點云;直接在3D點云上對數(shù)據(jù)進行語義注釋,然后將每個點標簽投影在3D網(wǎng)格和圖像域上;數(shù)據(jù)的收集和整理包括3D模式,2D形式和命名約定。
RGB圖像使用提供的原始RGB數(shù)據(jù)形成每個掃描位置的立方圖,并在此空間中采樣新圖像;對每個掃描位置采樣3×72個圖像,然后使用熵值的一半高斯來從它們中采樣72個圖像;熵值被定義為每個圖像中當前語義類的分布上的信息熵;使用抽樣方法,熵值通過不完全去除低熵場景來保持數(shù)據(jù)集的多樣性;
每個圖像的元數(shù)據(jù)和攝像機參數(shù)是每個生成的圖像在“姿勢文件夾”中提供的攝像機姿勢;
深度圖像是對于每個圖像,提供從3D網(wǎng)格計算的深度;通過z緩沖區(qū)保存深度信息從3D網(wǎng)格中渲染這些圖像;圖像被保存為16位灰度PNG,其中像素強度的一個單位變化對應于深度的變化;因此,最大可觀測范圍為約128米超過此最大距離的所有深度均采用最大值(65,535);對于沒有深度信息的位置像素也采用該最大距離。
表面法線是法線傳遞計算出來的,并保存為24位RBG的PNG圖像;從3D網(wǎng)格計算對應于每個像素的3D中的表面法線;法線向量保存在RGB顏色值中;每個通道都以127.5為中心,因此可以使用左右兩個值(軸的);
語義標記圖像是將3D語義從網(wǎng)格模型投影到2D圖像上;由于在網(wǎng)格模型中存在某些幾何偽像,主要是由于重建中的細節(jié)水平,2D注釋偶爾未對準底層像素小的局部,特別是具有到照相機的短距離的點,通過使用圖形模型將圖像內容與投影的注釋融合來對準;語義標記的圖像被保存為24位RGB的PNG圖像,但每個像素的顏色值可以直接解釋為列表中的索引;
3D坐標編碼圖像中的像素編碼坐標系中點的X,Y,Z位置;該信息可以用于方便地關聯(lián)RGB圖像的內容;圖像以OpenEXR格式存儲,每個通道包含32位浮點數(shù)。
其中,命名約定,數(shù)據(jù)集中圖像的文件名是全局唯一的,因為沒有兩個文件共享攝像頭uuid,幀號和域;房間類型包括方便過濾。
訓練和測試分割,數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性的建筑物的部分,因此定義標準訓練和測試分割,使得沒有類似建筑物的區(qū)域出現(xiàn)在兩者之中。
圖2是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的聯(lián)合二維-三維語義數(shù)據(jù)集。收集的數(shù)據(jù)集是6個大型室內地區(qū),來源于3個不同的建筑物,主要是教育和辦公用途;對于每個區(qū)域,所有的方式在相同的參考系統(tǒng)注冊,產生像素到像素之間的對應關系;該數(shù)據(jù)集包含總共約102000種普通RGB和1413張等量的RGB圖像,以及與它們對應的深度、表面法線、語義注釋、坐標系XYZ的OpenEXR格式和相機的元數(shù)據(jù);此外還提供了整個建筑三維重建紋理網(wǎng)格和相應的3D語義網(wǎng)格。
圖3是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的三維模式。該數(shù)據(jù)集包含兩個主要的三維模式(3D點云數(shù)據(jù)和3D網(wǎng)格模型)和它們的語義對應的6個領域;包括三維點云和網(wǎng)格和3D語義;從相機得到重建的三維紋理的網(wǎng)格模型為每個掃描區(qū)域,每個模型包含200k個三角形面的平均值和材質映射到紋理圖像,提供掃描空間的實際重建;產生的彩色3D點云密集和均勻采樣點在網(wǎng)格表面上,并分配相應的顏色。
其中,3D語義,語義上標注數(shù)據(jù)的3D點云,并指定以下13個對象類的每一個點:天花板、地板、墻壁、梁、柱、窗、門、桌子、椅子、沙發(fā)、書柜、板和雜波的所有其他元素;在3D進行注釋,提供3D對象模型并且能夠執(zhí)行遮擋和模態(tài)分析,語義可以被投影到任何數(shù)量的圖像上,在2D中提供標定好的真實數(shù)據(jù);
數(shù)據(jù)集中的每個對象實例都有唯一的標識符;將點云數(shù)據(jù)注釋為房間,并為每個房間分配以下11個場景標簽之一:辦公室、會議室、走廊、禮堂、休息室、大堂、休息室、茶水間、復印室、存儲室和廁所;同樣,點云中的每個實例都會收到一個唯一的索引;給定這些注釋,計算每個實例最緊密的軸對齊對象邊界框,并進一步將其體素化為具有二進制占有的6×6×6網(wǎng)格;該信息提供對底層幾何的更好理解,并且可以利用在3D對象檢測或分類中;然后,在網(wǎng)格模型的面上投射對象和場景語義,并生成保留相同類結構和實例索引的3D語義網(wǎng)格;使用投射方案將這些注釋轉移到網(wǎng)格;每個注釋點對與其最接近的面進行投票,然后計算投票,并且用模式類來注釋每個面。
圖4是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的等角度投影采樣圖像。數(shù)據(jù)集包含每個掃描位置的密集采樣的RGB圖像,這些圖像從使用由掃描儀捕獲的原始數(shù)據(jù)(也是數(shù)據(jù)集的一部分)的每個掃描位置和模態(tài)生成的等方圖像采樣;包括RGB圖像,每個圖像的元數(shù)據(jù)和攝像機參數(shù),深度圖像,表面法線圖像,語義標記圖像和3D坐標編碼圖像。
對于本領域技術人員,本發(fā)明不限制于上述實施例的細節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進和變型也應視為本發(fā)明的保護范圍。因此,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。