一種基于二維?三維語義數(shù)據(jù)集的室內場景理解方法與流程

文檔序號：12064326閱讀：313來源：國知局

本發(fā)明涉及場景理解領域，尤其是涉及了一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法。

背景技術：

室內場景的識別與理解是智能化信息處理的關鍵技術之一，相關的研究成果已經成功應用在不同的領域，例如，在安全防范領域的目標追蹤、行人檢測和人臉檢測與識別，互聯(lián)網(wǎng)信息領域的圖像內容檢索，智能機器人領域的目標搜尋、場景理解、障礙物檢測，智能家居和危險環(huán)境的救援等，使得人們的工作和生活變得更加方便，因此，室內場景的識別與理解具有重要的理論研究意義和工程應用價值。

傳統(tǒng)的圖像資源利用大多借助低層視覺特征，如顏色、形狀、紋理，實質上是計算機對圖像內容的理解。然而低層視覺特征僅代表視覺信息，忽略了圖像內容所包含的語義信息，與人類對圖像的理解存在一定差異。

本發(fā)明提出了一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法，先捕捉圖像輸出掃描區(qū)域，輸出掃描區(qū)域，原始顏色深度圖像(RGB-D)和3D紋理網(wǎng)格，接著通過對網(wǎng)格進行采樣生成點云，對數(shù)據(jù)進行語義注釋，然后將每個點標簽投影在3D網(wǎng)格和圖像域上，最后利用數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性建筑物的部分，定義標準訓練和測試分割。本發(fā)明提出的語義數(shù)據(jù)集可以利用大規(guī)模室內空間中存在的規(guī)律來開發(fā)聯(lián)合跨模態(tài)學習模型和潛在的無監(jiān)督方法；為語義、布局、遮擋、形狀、模式檢測等提供強有力的提示；不受規(guī)模、多樣性和數(shù)量的限制。

技術實現(xiàn)要素：

針對傳統(tǒng)方法僅代表視覺信息而忽略語義信息的問題，本發(fā)明的目的在于提供一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法，先捕捉圖像輸出掃描區(qū)域，輸出掃描區(qū)域，原始顏色深度圖像(RGB-D)和3D紋理網(wǎng)格，接著通過對網(wǎng)格進行采樣生成點云，對數(shù)據(jù)進行語義注釋，然后將每個點標簽投影在3D網(wǎng)格和圖像域上，最后利用數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性建筑物的部分，定義標準訓練和測試分割。

為解決上述問題，本發(fā)明提供一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法，其主要內容包括：

(一)數(shù)據(jù)的收集和整理；

(二)訓練和測試分割。

其中，所述的二維-三維語義數(shù)據(jù)集，收集的數(shù)據(jù)集是6個大型室內地區(qū)，來源于3個不同的建筑物，主要是教育和辦公用途；對于每個區(qū)域，所有的方式在相同的參考系統(tǒng)注冊，產生像素到像素之間的對應關系；該數(shù)據(jù)集包含總共約102000種普通RGB和1413張等量的RGB圖像，以及與它們對應的深度、表面法線、語義注釋、坐標系XYZ的OpenEXR格式和相機的元數(shù)據(jù)；此外還提供了整個建筑三維重建紋理網(wǎng)格和相應的3D語義網(wǎng)格。

其中，所述的數(shù)據(jù)的收集和整理，使用相機收集數(shù)據(jù)，它結合了3個結構光傳感器，在每個掃描位置旋轉，360°捕獲18種RGB和深度圖像；輸出掃描區(qū)域，原始顏色深度圖像(RGB-D)和照相機元數(shù)據(jù)重構的3D紋理網(wǎng)格；使用這些數(shù)據(jù)作為基礎生成額外的RGB-D數(shù)據(jù)，并通過對網(wǎng)格進行采樣生成點云；直接在3D點云上對數(shù)據(jù)進行語義注釋，然后將每個點標簽投影在3D網(wǎng)格和圖像域上；數(shù)據(jù)的收集和整理包括3D模式，2D形式和命名約定。

進一步地，所述的3D模式，該數(shù)據(jù)集包含兩個主要的三維模式(3D點云數(shù)據(jù)和3D網(wǎng)格模型)和它們的語義對應的6個領域；包括三維點云和網(wǎng)格和3D語義；從相機得到重建的三維紋理的網(wǎng)格模型為每個掃描區(qū)域，每個模型包含200k個三角形面的平均值和材質映射到紋理圖像，提供掃描空間的實際重建；產生的彩色3D點云密集和均勻采樣點在網(wǎng)格表面上，并分配相應的顏色。

進一步地，所述的3D語義，語義上標注數(shù)據(jù)的3D點云，并指定以下13個對象類的每一個點：天花板、地板、墻壁、梁、柱、窗、門、桌子、椅子、沙發(fā)、書柜、板和雜波的所有其他元素；在3D進行注釋，提供3D對象模型并且能夠執(zhí)行遮擋和模態(tài)分析，語義可以被投影到任何數(shù)量的圖像上，在2D中提供標定好的真實數(shù)據(jù)；

數(shù)據(jù)集中的每個對象實例都有唯一的標識符；將點云數(shù)據(jù)注釋為房間，并為每個房間分配以下11個場景標簽之一：辦公室、會議室、走廊、禮堂、休息室、大堂、休息室、茶水間、復印室、存儲室和廁所；同樣，點云中的每個實例都會收到一個唯一的索引；給定這些注釋，計算每個實例最緊密的軸對齊對象邊界框，并進一步將其體素化為具有二進制占有的6×6×6網(wǎng)格；該信息提供對底層幾何的更好理解，并且可以利用在3D對象檢測或分類中；然后，在網(wǎng)格模型的面上投射對象和場景語義，并生成保留相同類結構和實例索引的3D語義網(wǎng)格；使用投射方案將這些注釋轉移到網(wǎng)格；每個注釋點對與其最接近的面進行投票，然后計算投票，并且用模式類來注釋每個面。

進一步地，所述的2D形式，數(shù)據(jù)集包含每個掃描位置的密集采樣的RGB圖像，這些圖像從使用由掃描儀捕獲的原始數(shù)據(jù)(也是數(shù)據(jù)集的一部分)的每個掃描位置和模態(tài)生成的等方圖像采樣；包括RGB圖像，每個圖像的元數(shù)據(jù)和攝像機參數(shù)，深度圖像，表面法線圖像，語義標記圖像和3D坐標編碼圖像。

進一步地，所述的RGB圖像，每個圖像的元數(shù)據(jù)和攝像機參數(shù)和深度圖像，其特征在于，RGB圖像使用提供的原始RGB數(shù)據(jù)形成每個掃描位置的立方圖，并在此空間中采樣新圖像；對每個掃描位置采樣3×72個圖像，然后使用熵值的一半高斯來從它們中采樣72個圖像；熵值被定義為每個圖像中當前語義類的分布上的信息熵；使用抽樣方法，熵值通過不完全去除低熵場景來保持數(shù)據(jù)集的多樣性；

每個圖像的元數(shù)據(jù)和攝像機參數(shù)是每個生成的圖像在“姿勢文件夾”中提供的攝像機姿勢；

深度圖像是對于每個圖像，提供從3D網(wǎng)格計算的深度；通過z緩沖區(qū)保存深度信息從3D網(wǎng)格中渲染這些圖像；圖像被保存為16位灰度PNG，其中像素強度的一個單位變化對應于深度的變化；因此，最大可觀測范圍為約128米超過此最大距離的所有深度均采用最大值(65,535)；對于沒有深度信息的位置像素也采用該最大距離。

進一步地，所述的表面法線圖像，語義標記圖像和3D坐標編碼圖像，表面法線是法線傳遞計算出來的，并保存為24位RBG的PNG圖像；從3D網(wǎng)格計算對應于每個像素的3D中的表面法線；法線向量保存在RGB顏色值中；每個通道都以127.5為中心，因此可以使用左右兩個值(軸的)；

語義標記圖像是將3D語義從網(wǎng)格模型投影到2D圖像上；由于在網(wǎng)格模型中存在某些幾何偽像，主要是由于重建中的細節(jié)水平，2D注釋偶爾未對準底層像素小的局部，特別是具有到照相機的短距離的點，通過使用圖形模型將圖像內容與投影的注釋融合來對準；語義標記的圖像被保存為24位RGB的PNG圖像，但每個像素的顏色值可以直接解釋為列表中的索引；

3D坐標編碼圖像中的像素編碼坐標系中點的X，Y，Z位置；該信息可以用于方便地關聯(lián)RGB圖像的內容；圖像以OpenEXR格式存儲，每個通道包含32位浮點數(shù)。

進一步地，所述的命名約定，數(shù)據(jù)集中圖像的文件名是全局唯一的，因為沒有兩個文件共享攝像頭uuid，幀號和域；房間類型包括方便過濾。

其中，所述的訓練和測試分割，數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性的建筑物的部分，因此定義標準訓練和測試分割，使得沒有類似建筑物的區(qū)域出現(xiàn)在兩者之中。

附圖說明

圖1是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的系統(tǒng)框架圖。

圖2是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的聯(lián)合二維-三維語義數(shù)據(jù)集。

圖3是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的三維模式。

圖4是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的等角度投影采樣圖像。

具體實施方式

需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互結合，下面結合附圖和具體實施例對本發(fā)明作進一步詳細說明。

圖1是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的系統(tǒng)流程圖。主要包括數(shù)據(jù)的收集和整理，訓練和測試分割。

數(shù)據(jù)的收集和整理，使用相機收集數(shù)據(jù)，它結合了3個結構光傳感器，在每個掃描位置旋轉，360°捕獲18種RGB和深度圖像；輸出掃描區(qū)域，原始顏色深度圖像(RGB-D)和照相機元數(shù)據(jù)重構的3D紋理網(wǎng)格；使用這些數(shù)據(jù)作為基礎生成額外的RGB-D數(shù)據(jù)，并通過對網(wǎng)格進行采樣生成點云；直接在3D點云上對數(shù)據(jù)進行語義注釋，然后將每個點標簽投影在3D網(wǎng)格和圖像域上；數(shù)據(jù)的收集和整理包括3D模式，2D形式和命名約定。

RGB圖像使用提供的原始RGB數(shù)據(jù)形成每個掃描位置的立方圖，并在此空間中采樣新圖像；對每個掃描位置采樣3×72個圖像，然后使用熵值的一半高斯來從它們中采樣72個圖像；熵值被定義為每個圖像中當前語義類的分布上的信息熵；使用抽樣方法，熵值通過不完全去除低熵場景來保持數(shù)據(jù)集的多樣性；

每個圖像的元數(shù)據(jù)和攝像機參數(shù)是每個生成的圖像在“姿勢文件夾”中提供的攝像機姿勢；

表面法線是法線傳遞計算出來的，并保存為24位RBG的PNG圖像；從3D網(wǎng)格計算對應于每個像素的3D中的表面法線；法線向量保存在RGB顏色值中；每個通道都以127.5為中心，因此可以使用左右兩個值(軸的)；

其中，命名約定，數(shù)據(jù)集中圖像的文件名是全局唯一的，因為沒有兩個文件共享攝像頭uuid，幀號和域；房間類型包括方便過濾。

訓練和測試分割，數(shù)據(jù)集中的某些區(qū)域表示在其外觀和建筑特征方面具有相似性的建筑物的部分，因此定義標準訓練和測試分割，使得沒有類似建筑物的區(qū)域出現(xiàn)在兩者之中。

圖2是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的聯(lián)合二維-三維語義數(shù)據(jù)集。收集的數(shù)據(jù)集是6個大型室內地區(qū)，來源于3個不同的建筑物，主要是教育和辦公用途；對于每個區(qū)域，所有的方式在相同的參考系統(tǒng)注冊，產生像素到像素之間的對應關系；該數(shù)據(jù)集包含總共約102000種普通RGB和1413張等量的RGB圖像，以及與它們對應的深度、表面法線、語義注釋、坐標系XYZ的OpenEXR格式和相機的元數(shù)據(jù)；此外還提供了整個建筑三維重建紋理網(wǎng)格和相應的3D語義網(wǎng)格。

圖3是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的三維模式。該數(shù)據(jù)集包含兩個主要的三維模式(3D點云數(shù)據(jù)和3D網(wǎng)格模型)和它們的語義對應的6個領域；包括三維點云和網(wǎng)格和3D語義；從相機得到重建的三維紋理的網(wǎng)格模型為每個掃描區(qū)域，每個模型包含200k個三角形面的平均值和材質映射到紋理圖像，提供掃描空間的實際重建；產生的彩色3D點云密集和均勻采樣點在網(wǎng)格表面上，并分配相應的顏色。

其中，3D語義，語義上標注數(shù)據(jù)的3D點云，并指定以下13個對象類的每一個點：天花板、地板、墻壁、梁、柱、窗、門、桌子、椅子、沙發(fā)、書柜、板和雜波的所有其他元素；在3D進行注釋，提供3D對象模型并且能夠執(zhí)行遮擋和模態(tài)分析，語義可以被投影到任何數(shù)量的圖像上，在2D中提供標定好的真實數(shù)據(jù)；

圖4是本發(fā)明一種基于二維-三維語義數(shù)據(jù)集的室內場景理解方法的等角度投影采樣圖像。數(shù)據(jù)集包含每個掃描位置的密集采樣的RGB圖像，這些圖像從使用由掃描儀捕獲的原始數(shù)據(jù)(也是數(shù)據(jù)集的一部分)的每個掃描位置和模態(tài)生成的等方圖像采樣；包括RGB圖像，每個圖像的元數(shù)據(jù)和攝像機參數(shù)，深度圖像，表面法線圖像，語義標記圖像和3D坐標編碼圖像。

對于本領域技術人員，本發(fā)明不限制于上述實施例的細節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實現(xiàn)本發(fā)明。此外，本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍，這些改進和變型也應視為本發(fā)明的保護范圍。因此，所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：夏春秋
技術所有人：深圳市唯特視科技有限公司
我是此專利的發(fā)明人

上一篇：基于自編碼器的人物親緣關系識別方法與流程
上一篇：基于加權強度PCNN模型的分塊人臉識別方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語義分割數(shù)據(jù)集相關技術

圖像語義分割數(shù)據(jù)集相關技術

語義分割常用數(shù)據(jù)集相關技術

語義攻擊利用的是相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于二維?三維語義數(shù)據(jù)集的室內場景理解方法與流程