欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

距飛行時間相機的深度的制作方法

文檔序號:12513109閱讀:190來源:國知局
距飛行時間相機的深度的制作方法與工藝

飛行時間(TOF)相機越來越多地用于各種應用中,例如人機交互、汽車應用、測量應用和機器視覺。TOF相機可以用于生成深度圖,深度圖包含與場景中的對象到相機的深度相關的信息。深度是指距離在從相機延伸的假想線上的投影,其中距離是絕對徑向距離或從成像平面到場景中的表面的距離。TOF相機處的光源照亮場景,并且光被場景中的對象反射。相機接收反射光,該反射光依賴于對象到相機的距離而經(jīng)歷延遲。鑒于光速是已知的,則可以生成深度圖。

以下描述的實施例不限于解決已知飛行時間相機或飛行時間圖像處理系統(tǒng)的任何或所有缺點的實現(xiàn)。



技術實現(xiàn)要素:

以下呈現(xiàn)本公開的簡要概述,以向讀者提供基本理解。該概述不是本公開的廣泛綜述,并且不標識關鍵/重要的元素或描繪本說明書的范圍。其唯一目的是以簡化的形式呈現(xiàn)本文中所公開的概念的選擇,作為稍后呈現(xiàn)的更詳細描述的序言。

描述了原始飛行時間圖像中的感興趣區(qū)域檢測。例如,計算設備接收由飛行時間相機針對單個幀捕獲的至少一個原始圖像。原始圖像描繪飛行時間相機的環(huán)境中的一個或多個對象(例如,人的手、身體或任何其他對象)。將原始圖像輸入到經(jīng)訓練的區(qū)域檢測器,并且作為響應,接收原始圖像中的一個或多個感興趣區(qū)域。接收的感興趣區(qū)域包括原始圖像的、被預測為描繪對象之一的至少部分的圖像元素。深度計算邏輯計算到原始圖像的一個或多個感興趣區(qū)域的深度。

很多伴隨的特征將更容易理解,因為這些特征通過參考結合附圖考慮的以下詳細描述會變得更好理解。

附圖說明

從根據(jù)附圖閱讀的以下詳細描述將能更好地理解本說明書,其中:

圖1是飛行時間相機捕獲環(huán)境中的用戶的手的原始圖像數(shù)據(jù)、以及從原始圖像數(shù)據(jù)計算深度圖的區(qū)域檢測器和深度計算部件的示意圖;

圖2是圖1的區(qū)域檢測器的更詳細的示意圖;

圖3是圖2的區(qū)域檢測器處的方法的流程圖;

圖4是訓練用于在圖2的區(qū)域檢測器中使用的分類器的方法的流程圖;

圖5是操作作為圖2的區(qū)域檢測器的部分的經(jīng)訓練的分類器的方法的流程圖;

圖6是飛行時間相機的示意圖;

圖7是用于在圖6的飛行時間相機處使用的計算深度的方法的流程圖;以及

圖8示出了其中可以實現(xiàn)區(qū)域檢測器和飛行時間深度計算邏輯的實施例的示例性基于計算的設備。

相同的附圖標記在附圖中用于表示相同的部件。

具體實施方式

以下結合附圖提供的詳細描述旨在作為對本示例的描述,而非旨在表示可以構造或利用本示例的僅有形式。該描述闡述了示例的功能以及用于構造和操作示例的步驟序列。然而,相同或等同的功能和序列可以通過不同的示例來實現(xiàn)。

圖1是飛行時間相機100捕獲用戶在環(huán)境中進行復雜手姿勢的手108的原始圖像數(shù)據(jù)112的、以及從原始圖像數(shù)據(jù)計算深度圖122的區(qū)域檢測器114和深度計算部件120的示意圖。在該示例中,示出了一只手108。然而,實際上,在場景中可以有來自一個或多個用戶的多個手。

本文中認識到,在諸如存儲器和處理能力的計算資源方面以及在時間方面,從原始傳感器數(shù)據(jù)112計算深度是資源密集的。圖1的新處理管線使得能夠以更有效的方式分配計算資源和存儲器。區(qū)域檢測器114檢測原始圖像數(shù)據(jù)中的感興趣區(qū)域。來自飛行時間傳感器的原始圖像是多個傳感器測量(例如,紅外強度值)。可以針對飛行時間傳感器的單個幀感測多個原始圖像,多個原始圖像中的一個用于多個調制頻率中的一個。在圖1的示例中,感興趣區(qū)域是與背景表面、前臂和腕表面相反的、描繪手的區(qū)域。然而,感興趣的區(qū)域將根據(jù)正在使用飛行時間相機的特定任務來描繪不同的對象或對象的部分。

在一些示例中,區(qū)域檢測器用作分割器和檢測器。例如,區(qū)域檢測器區(qū)分描繪單個手(或其他對象或對象的部分,這取決于所涉及的任務)的原始圖像數(shù)據(jù)的區(qū)域;即,區(qū)域檢測器分割描繪單獨的手的原始圖像數(shù)據(jù)的區(qū)域。當兩只手正在交互時(例如,握手或做出“舉手擊掌”手勢),這是特別困難的。然而,在一些示例中,在計算深度之后,在處理管線中稍后執(zhí)行分割。

區(qū)域檢測器114的輸出為來自飛行時間相機的、原始傳感器數(shù)據(jù)的每幀零個、一個或多個候選區(qū)域118。如圖1所示并且在下面更詳細地描述的,每個幀可以包括多個原始傳感器數(shù)據(jù)圖像。這些區(qū)域被輸入到深度計算部件120,深度計算部件120計算到原始傳感器數(shù)據(jù)的區(qū)域的深度值。這使得能夠更有效地分配資源,因為僅針對幀的候選區(qū)域118計算深度,而不是針對幀的完整原始傳感器數(shù)據(jù)來計算深度。先前的方法計算了針對整個數(shù)據(jù)幀的深度。

從原始傳感器數(shù)據(jù)檢測感興趣區(qū)域不簡單,因為原始傳感器數(shù)據(jù)由于傳感器噪聲而有噪聲,可能包含環(huán)境照明并且不提供縮放信息。

已經(jīng)訓練了新處理管線的區(qū)域檢測器114來學習原始飛行時間圖像的圖像元素和感興趣區(qū)域之間的關聯(lián)。例如,區(qū)域檢測器包括經(jīng)訓練的分類器,其用于對原始傳感器數(shù)據(jù)圖像、或聚合的原始傳感器數(shù)據(jù)圖像的圖像元素進行分類。然后將分類的結果用于計算如下面更詳細地描述的候選區(qū)域。在一些示例中,區(qū)域檢測器114利用高級信息116(例如,感興趣區(qū)域中的對象類型的知識、來自下游系統(tǒng)124的狀態(tài)數(shù)據(jù)、或在先前幀中檢測的感興趣區(qū)域)。狀態(tài)數(shù)據(jù)可以是例如在游戲系統(tǒng)128上執(zhí)行的游戲的狀態(tài)、或增強現(xiàn)實系統(tǒng)130的狀態(tài)。狀態(tài)數(shù)據(jù)提供可能或不可能的感興趣區(qū)域的指示。

來自深度計算部件的深度圖122被輸入到下游系統(tǒng)124(例如,自然用戶界面126、游戲系統(tǒng)128或增強現(xiàn)實系統(tǒng)130)。這些僅是示例,并且可以使用其他下游系統(tǒng)124。在一些示例中,深度圖122被輸入到姿態(tài)跟蹤器,姿態(tài)跟蹤器被布置為跟蹤用戶的手的高維度姿態(tài)。在一些示例中,深度圖用于距離測量、汽車應用(例如,停車傳感器和防撞系統(tǒng))、以及測量到對象的準確距離的其他應用。

在圖1所示的示例中,為了清楚起見,區(qū)域檢測器114和深度計算部件120被示出在飛行時間相機100外部。然而,區(qū)域檢測器114和深度計算部件120可以與飛行時間相機整體地或部分地集成。這將在下面參考圖6進行說明。在其他示例中,區(qū)域檢測器114和/或深度計算部件在能夠例如使用有線或無線通信鏈路或以其他方式從飛行時間相機接收數(shù)據(jù)的計算設備(例如,圖8的計算設備)中。在一些示例中,區(qū)域檢測器和/或深度計算部件位于云中的計算設備處。

飛行時間相機100可以是相位調制飛行時間相機或者使用快門定時的門控飛行時間相機。它包括光源102和接收器104。

在相位調制飛行時間相機的情況下,光源102發(fā)射調制光。在示例中,調制光源102可以是發(fā)射透射光106的非相干光源,使用調制頻率為fmod的信號來調制透射光106。在一個示例中,來自設備的光可以在高頻率(例如,在MHz范圍中的頻率)處被調制,使得照明量周期性地變化。在一個示例中,照明的周期性變化可以采用正弦函數(shù)的形式。

在相位調制飛行時間示例中,調制光源102以多個調制頻率(例如,三個調制頻率)發(fā)射光??梢赃x擇光源102,使得發(fā)射的光的波長對于特定應用是最合適的波長。在一個示例中,光源可以是不可見光源(例如,近紅外光源)。在另一示例中,光源可以是可見光源。在一個實施例中,光源可以被選擇為用于其預期的應用的適當波長的光源。

在門控(也稱為基于脈沖的)飛行時間相機的情況下,光源102發(fā)射極短的照明脈沖。例如,使用發(fā)射皮秒持續(xù)時間的光脈沖的強大的激光光源。在門控飛行時間相機的情況下,接收器104包括具有能夠分辨光源102的短脈沖的分辨率的高速范圍傳感器。例如,接收器104具有皮秒分辨率。

光源可以照亮相機的場內(nèi)的對象108,并且至少一些光從對象朝向相機反射回來。在一個示例中,檢測到的對象可以是人或人的一部分(如圖1的示例);然而,可以生成任何對象或對象的一部分的深度圖。反射光110可以由接收器104檢測。

在相位調制飛行時間中,反射光也被調制,并且由于光在相機和對象之間的返回行程上行進的距離所引起的延遲,反射光110可以與透射光106異相。對于接收器104的每個像素,可以針對每個調制頻率確定接收信號相對于透射光的振幅和相位差。在圖3的示例中,使用三個調制頻率,導致飛行時間相機的每幀有三個原始傳感器數(shù)據(jù)圖像。然而,可以使用其他數(shù)目的調制頻率。

在門控飛行時間中,針對一個或多個不同的曝光時段測量接收器104的像素寄存的反射光的量。曝光時段是飛行時間相機100的光電傳感器的像素在其間主動感測(與“關閉”相對)的時間間隔。在曝光時段期間,從視場中的表面反射的光的量用于計算表面距相機的距離。這可以通過將所感測的反射光的量與在校準過程期間獲得的相機行為的模型進行比較來完成。在一些示例中,模型是相機行為的概率模型。

圖2是用于檢測原始飛行時間圖像數(shù)據(jù)中的圖像區(qū)域212的計算機實現(xiàn)的區(qū)域檢測器114的示意圖,其中這些區(qū)域描繪特定類型的對象或對象部分。區(qū)域檢測器可以是例如圖6或圖8的區(qū)域檢測器。在一些示例中,區(qū)域檢測器將單獨的原始圖像112(例如,圖1的“原始傳感器數(shù)據(jù)1”圖像之一)作為輸入。在其他示例中,區(qū)域檢測器將聚合的原始圖像200作為輸入。例如,聚合的原始圖像200是平均亮度圖像,平均亮度圖像是三個紅外圖像的聚合,一個紅外圖像用于三個調制頻率中的一個(其中飛行時間相機使用如上所述的三個調制頻率)。在一些示例中,區(qū)域檢測器將環(huán)境原始圖像作為輸入,環(huán)境原始圖像是在飛行時間相機不進行主動照明的時段期間捕獲的圖像,并且捕獲作為場景中的任何環(huán)境照明的結果的光。

區(qū)域檢測器114包括經(jīng)訓練的分類器202、可選規(guī)則204、聚類部件206(在一些示例中)、滑動窗口檢測器208(在一些示例中)、以及在輸入是每幀多個單獨的原始圖像112的情況下的聚合器210。區(qū)域檢測器114能夠訪問或發(fā)送高級信息214。高級信息的示例包括但不限于用戶的手大小、用戶的手的形狀、待檢測的對象的3D模型。

經(jīng)訓練的分類器可以是神經(jīng)網(wǎng)絡分類器、支持向量機分類器、隨機決策森林分類器、有向無環(huán)圖叢林分類器、鑒別蕨類集合分類器、或任何其他經(jīng)訓練的分類器。用于訓練分類器的訓練數(shù)據(jù)包括具有標記的感興趣區(qū)域的大量原始飛行時間圖像。訓練數(shù)據(jù)包括描繪不同環(huán)境中且具有不同照明條件的一個或多個對象或感興趣對象的部分的原始飛行時間圖像。訓練數(shù)據(jù)可以是經(jīng)驗觀察到的或可以是合成生成的。

隨機森林包括多個決策樹,每個決策樹具有根節(jié)點、多個分裂節(jié)點和多個葉節(jié)點。在測試時(當將先前未見的示例應用于已經(jīng)訓練的隨機森林時),可以在過程中通過隨機決策森林的樹將圖像的圖像元素從根節(jié)點推到葉節(jié)點,由此在每個分裂節(jié)點處做出決策。根據(jù)圖像元素的特性和測試圖像元素的特性來進行該決策,測試圖像元素由分裂節(jié)點處的參數(shù)指定的空間偏移從其移位。在分裂節(jié)點處,圖像元素沿根據(jù)決策結果選擇的分支前進到樹的下一級。隨機決策森林可以使用回歸或分類。到達森林中的每個樹的一個葉節(jié)點,并且訪問在訓練期間存儲在這些葉節(jié)點處的數(shù)據(jù)。例如,該數(shù)據(jù)包括聚合形式的標記的訓練數(shù)據(jù)??梢跃酆蠌拿總€樹找到的葉節(jié)點數(shù)據(jù),以產(chǎn)生最終輸出。

在訓練期間,學習參數(shù)值(也稱為特征)以在分裂節(jié)點處使用,并且在葉節(jié)點處累積數(shù)據(jù)。例如,包括標記圖像的訓練數(shù)據(jù)通過樹,并且根據(jù)分裂節(jié)點測試參數(shù)在分裂節(jié)點處處理訓練數(shù)據(jù)的程度,在每個分裂節(jié)點處選擇分裂節(jié)點測試參數(shù)(根據(jù)隨機生成的可能性)。信息增益準則或其他公知的準則可用于評估分裂節(jié)點測試參數(shù)如何有效地處理分裂節(jié)點處的訓練數(shù)據(jù)。

除了多個分裂節(jié)點被合并在一起之外,決策叢林是被配置為針對隨機決策森林的多個有向無環(huán)圖。即,與在隨機決策森林中的二叉樹不同,叢林的單獨的成員是有向無環(huán)圖。

鑒別蕨類集合是包含由索引值索引的聚合訓練數(shù)據(jù)的多個查找表,其中在訓練階段期間,學習聚合訓練數(shù)據(jù)(例如,在圖像分類的情況下的圖像標簽)和索引值。在測試時,(在不需要遍歷有向無環(huán)圖或決策樹的情況下)從未看見的示例(例如,圖像元素的圖像或補丁)計算索引值,并且索引值用于從集合中的每個蕨類表中查找聚合的訓練數(shù)據(jù)。從每個蕨類表查找的數(shù)據(jù)被累積,以計算輸出預測(例如,(在分類任務的情況下)類標簽上的分布)。

聚類部件206被布置為將從經(jīng)訓練的分類器輸出的標記的圖像元素聚類(cluster)。其使用任何公知的聚類過程(例如,k均值聚類或凝聚聚類)。

滑動窗口檢測器208可以是具有可選的均值平移過程的Parzen窗口密度估計器。這將參考圖3更詳細地解釋。在一些示例中,非最大抑制用于防止針對相同觀察對象的多個感興趣區(qū)域的激勵。

圖3是在區(qū)域檢測器(例如,圖6和圖8的區(qū)域檢測器)處的方法的流程圖。接收300原始圖像數(shù)據(jù),例如來自飛行時間相機的飛行時間圖像數(shù)據(jù)。由經(jīng)訓練的分類器處理單個圖像。例如,如上所述的平均亮度圖像、或來自飛行時間相機的單個幀的多個圖像中的一個。在一些示例中,使用經(jīng)訓練的分類器標記302原始圖像數(shù)據(jù)的單獨地圖像元素(例如,像素或像素補塊),例如,將其歸屬于感興趣區(qū)域或不感興趣區(qū)域。分析標記的圖像元素以檢測零個、一個或多個感興趣區(qū)域。在一些示例中,這通過使用公知的聚類304過程來完成。在一些示例中,這通過使用諸如Parzen窗口密度估計器的滑動窗口來完成。Parzen窗口密度估計器(也稱為核密度估計器)是用于估計概率密度函數(shù)(在圖像元素標簽的情況下)的非參數(shù)處理。然后可以使用平均移位模式檢測來檢測由Parzen窗口密度估計器定義的分布中的模式。平均移位模式檢測是有效地檢測由Parzen窗口密度估計器定義的分布中的模式(峰值)的算法。每個模式是感興趣的候選區(qū)域。

在一些示例中,不是標記單獨的圖像元素,而是使用滑動窗口,可以滑動窗口并且標記每個窗口。

在一些示例中,區(qū)域檢測器具有用于將高級信息應用306于來自分類器的經(jīng)標記的圖像元素的分析的一個或多個規(guī)則。例如,區(qū)域檢測器可以接收狀態(tài)數(shù)據(jù),狀態(tài)數(shù)據(jù)指示在游戲系統(tǒng)128處執(zhí)行的高爾夫游戲處于玩家即將開球的狀態(tài)。區(qū)域檢測器可以使用具有預定義規(guī)則的該狀態(tài)數(shù)據(jù),以使得能夠向原始圖像數(shù)據(jù)的區(qū)域中玩家的手被期望抓握高爾夫球桿的候選區(qū)域給出更多的權重。在另一示例中,區(qū)域檢測器可以具有編碼規(guī)則或算法,以搜索原始圖像的預期要描繪用戶的前臂的特定2D區(qū)域。例如,2D錐形。編碼規(guī)則或算法可以從提供感興趣區(qū)域的近似位置的另一過程(例如,骨架跟蹤器)獲取輸入。然后,搜索可以限于圍繞近似位置的2D區(qū)域,其中2D區(qū)域與近似位置的不確定性的測量相關。

區(qū)域檢測器檢查針對當前幀是否存在任何更多的原始圖像。如果存在,則重復步驟300至306的過程。在已經(jīng)處理了針對單個幀的多個原始圖像的情況下,累積310數(shù)據(jù)。區(qū)域檢測器針對已經(jīng)分析的幀輸出零個、一個或多個感興趣候選區(qū)域312。圖3的過程可以針對后續(xù)幀重復,并且在一些示例中,較早幀中檢測的區(qū)域用于影響后續(xù)幀中的區(qū)域的預測。

上面的示例描述了將原始信號單獨地分類,然后在執(zhí)行聚類之前聚合分類的結果。然后可以如上所述應用非最大抑制。

在另一示例中,在分類之前聚合原始信號。

還可以使用已經(jīng)被訓練為使用所有N個原始信道(其中信道是調制頻率或曝光時段)作為輸入的分類器。

在一些示例中,經(jīng)訓練的分類器是隨機決策森林。鑒于需要處理傳感器噪聲、環(huán)境照明和缺乏標度信息,已經(jīng)發(fā)現(xiàn)使用隨機決策森林作為分類器是特別有效的。使用隨機決策森林實現(xiàn)可以并行化的極其有效的過程。在使用隨機決策森林的情況下,可以如參考圖4所描述的那樣訓練,并且可以在如參考圖5描述的測試時間使用。

參考圖4,為了訓練決策森林,首先接收400包括具有標記的感興趣區(qū)域的原始飛行時間圖像的訓練集合。選擇402在隨機決策森林中使用的決策樹的數(shù)目。

選擇404來自決策森林的決策樹(例如,第一決策樹400),并且選擇406根節(jié)點406。然后選擇408來自每個訓練圖像的圖像元素的至少子集。例如,每隔一個圖像元素。每個訓練圖像的每個選擇的圖像元素根據(jù)是否是感興趣區(qū)域與標簽相關聯(lián)。

然后生成410測試參數(shù)的隨機集合,以供在根節(jié)點處執(zhí)行的二進制測試用作候選特征。在一個示例中,二進制測試使用閾值和將參考圖像元素與從參考圖像元素偏移隨機選擇的量的一個或多個探測圖像元素進行比較的特征。閾值和偏移量是測試參數(shù)的示例。

然后,可以將測試參數(shù)的每個組合應用412于訓練圖像集合中的每個圖像元素。換言之,結合每個訓練圖像中的每個圖像元素的閾值的可用值,一個接一個地嘗試針對偏移的可用值。對于每個組合,計算414標準(也稱為目標)。在一個示例中,所計算的標準包括信息增益(也稱為相對熵)。選擇414優(yōu)化標準(例如,最大化信息增益)的參數(shù)的組合并且將其存儲在當前節(jié)點處以供將來使用。作為信息增益的備選,可以使用其他標準,例如,Gini熵或所描述的“two-ing”準則等。

然后確定416針對所計算的準則的值是否小于(或大于)閾值。如果針對所計算的標準的值小于閾值,則表明樹的進一步擴展不提供顯著的益處。這產(chǎn)生不對稱的樹,其在沒有另外的節(jié)點是有益的情況下自然停止生長。在這種情況下,將當前節(jié)點設置418為葉節(jié)點。類似地,確定樹的當前深度(即,根節(jié)點和當前節(jié)點之間有多少級別的節(jié)點)。如果這大于預定義的最大值,則將當前節(jié)點設置418為葉節(jié)點。每個葉節(jié)點具有標記的飛行時間圖像數(shù)據(jù),飛行時間圖像數(shù)據(jù)在如下所述的訓練過程期間在該葉節(jié)點處累積。

也可以結合已經(jīng)提及的這些使用另一停止準則。例如,評估到達葉子的示例圖像元素的數(shù)目。如果存在太少的示例(例如,與閾值相比),則該過程可以被布置為停止以避免過度擬合。然而,使用該停止準則不是必要的。

如果所計算的準則的值大于或等于閾值,并且樹深度小于最大值,則將當前節(jié)點設置420為分裂節(jié)點。因為當前節(jié)點是分裂節(jié)點,所以它具有子節(jié)點,然后過程移動到訓練這些子節(jié)點。使用當前節(jié)點處的訓練圖像元素的子集訓練每個子節(jié)點。使用優(yōu)化準則的參數(shù)來確定發(fā)送到子節(jié)點的圖像元素的子集。這些參數(shù)在二進制測試中使用,并且對當前節(jié)點處的所有圖像元素執(zhí)行422二進制測試。通過二進制測試的圖像元素形成被發(fā)送到第一子節(jié)點的第一子集,并且未通過二進制測試的圖像元素形成被發(fā)送到第二子節(jié)點的第二子集。

對于每個子節(jié)點,針對指向相應子節(jié)點的圖像元素的子集,遞歸地執(zhí)行424圖4的框410至422中概述的過程。換言之,對于每個子節(jié)點,生成410新的隨機測試參數(shù),將隨機測試參數(shù)應用于412圖像元素的相應子集,選擇414優(yōu)化準則的參數(shù),并且確定416節(jié)點的類型(分裂還是葉)。如果是葉節(jié)點,則當前遞歸分支停止。如果它是分裂節(jié)點,則執(zhí)行422二進制測試以確定圖像元素的另外的子集,并且開始另一遞歸分支。因此,該過程遞歸地移動通過樹,訓練每個節(jié)點,直到在每個分支處到達葉節(jié)點。當?shù)竭_葉節(jié)點時,過程等待426,直到所有分支中的節(jié)點都已經(jīng)被訓練。注意,在其他示例中,可以使用備選的遞歸技術來實現(xiàn)相同的功能。

一旦樹中的所有節(jié)點都已經(jīng)被訓練以確定用于優(yōu)化每個分裂節(jié)點處的準則的二進制測試的參數(shù),并且已經(jīng)選擇葉節(jié)點來終止每個分支,則訓練數(shù)據(jù)可以在樹的葉節(jié)點處被累積428。這是訓練階段,因此到達給定葉節(jié)點的特定圖像元素具有從地面實況訓練數(shù)據(jù)已知的特定的感興趣區(qū)域標簽??梢允褂酶鞣N不同的方法存儲430訓練數(shù)據(jù)的表示??蛇x地,可以使用采樣來選擇要被累積和存儲的訓練數(shù)據(jù),以維持低內(nèi)存占用。例如,可以使用儲層采樣,由此獲取訓練數(shù)據(jù)的固定最大尺寸樣本。選擇可以是隨機的或以任何其他方式。

一旦已經(jīng)存儲了累積的訓練數(shù)據(jù),則確定432決策森林中是否存在更多的樹。如果是,則選擇決策森林中的下一樹,并且重復該過程。如果森林中的所有樹都已經(jīng)被訓練,并且沒有其他剩余,則訓練過程完成并且過程終止434。

因此,作為訓練過程的結果,使用合成或經(jīng)驗訓練圖像來訓練一個或多個決策樹。每個樹包括存儲優(yōu)化的測試參數(shù)的多個分裂節(jié)點、以及葉節(jié)點,葉節(jié)點存儲相關聯(lián)的標記的原始飛行時間圖像元素或累積的標記的原始飛行時間圖像元素的表示。由于從每個節(jié)點處使用的有限子集隨機地生成參數(shù),所以森林的樹是彼此有區(qū)別的(即,不同的)。

可以在使用經(jīng)訓練的預測系統(tǒng)來對原始飛行時間圖像中的圖像元素進行分類之前執(zhí)行訓練過程。決策森林和優(yōu)化的測試參數(shù)可以被存儲在存儲設備上,以用于稍后標識感興趣的區(qū)域。

圖5示出了使用決策森林(如參考圖4所描述的經(jīng)訓練的決策森林)來將圖像元素分類為在感興趣的區(qū)域中或不在之前未看見的飛行時間圖像中的過程的流程圖。首先,接收500未看見的飛行時間圖像。圖像被稱為“未看見”,以將其與具有已指定的感興趣區(qū)域的訓練圖像區(qū)分開。未看見的圖像可以是原始飛行時間圖像、與單個幀相關聯(lián)的原始飛行時間圖像的集合、或者一個或多個聚合的原始飛行時間圖像。

選擇502來自未看見的圖像的圖像元素。還選擇504來自決策森林的經(jīng)訓練的決策樹。所選擇的圖像元素被推送506通過所選擇的決策樹(以與上面參考圖4描述的類似的方式),使得其在節(jié)點處針對訓練的參數(shù)被測試,然后根據(jù)測試的結果被傳遞給適當?shù)淖哟?,并且重復該過程直到圖像元素到達葉節(jié)點。一旦圖像元素到達葉節(jié)點,則針對該圖像元素存儲508與該葉節(jié)點相關聯(lián)的累積的標簽(來自訓練階段)。

如果確定510森林中存在更多的決策樹,則選擇504新的決策樹,推送506圖像元素通過樹,并且存儲508累積的感興趣的標簽。該過程被重復,直到已針對森林中的所有決策樹執(zhí)行了該過程。注意,用于將圖像元素推送通過決策森林中的多個樹的過程也可以并行執(zhí)行,而不是如圖5所示地順序執(zhí)行。

然后確定512在未看見的飛行時間圖像中是否存在另外的未分析的圖像元素,并且如果是,則選擇另一圖像元素并且重復該過程。一旦分析了未看見的圖像中的所有圖像元素,則針對所有圖像元素獲得感興趣區(qū)域標簽。

當圖像元素被推送通過決策森林中的樹時,感興趣區(qū)域標簽累積。使用聚類或滑動窗口過程514來分析這些累積的標簽,以找到感興趣的區(qū)域。

從聚類或滑動窗口過程輸出516零個、一個或多個區(qū)域。

圖6是飛行時間深度相機600的示意圖,飛行時間深度相機600可以是相位調制飛行時間深度相機或門控飛行時間深度相機。飛行時間深度相機600包括透射光源602。在一個示例中,透射光源是非相干光源。在另一示例中,透射光源是相干光源。適當?shù)墓庠吹氖纠墙t外激光器或LED,然而可以使用另一適當?shù)墓庠?。在相位調制飛行時間相機的情況下,透射光可以以調制頻率被調制。在一個示例中,調制頻率可以是在kHz-GHz范圍中的RF頻率,例如,調制頻率可以在MHz范圍中。在門控飛行時間相機的情況下,透射光可以是脈沖的,其中脈沖可以具有皮秒持續(xù)時間。

飛行時間深度相機還可以包括接收從場景內(nèi)的對象反射的光的圖像傳感器604。圖像傳感器604可以包括CCD傳感器、CMOS傳感器、例如光子混合器裝置(PMD)傳感器、或者可以被布置為檢測從相機范圍內(nèi)的對象、人和表面反射的光的其他適當?shù)膫鞲衅?。在門控飛行時間相機的情況下,圖像傳感器604具有與由光源發(fā)射的脈沖的持續(xù)時間兼容的分辨率。

相機還可以包括光學系統(tǒng)606,光學系統(tǒng)606被布置為收集來自環(huán)境的反射光并且將反射光聚焦到圖像傳感器604上。在一個示例中,光學系統(tǒng)可以包括光學帶通濾波器,光學帶通濾波器可以僅使得與光源具有相同波長的光能夠被傳感器接收。使用光學帶通濾波器可以幫助抑制背景光。相機還可以包括驅動器電子裝置608,驅動器電子裝置608控制光源和圖像傳感器二者,例如以使得能夠進行高精度的相位差測量或者使得能夠發(fā)射一列光脈沖,并且使圖像傳感器被“快門”開關。圖像傳感器可以被電子地快門(而不是物理快門)開關。

在一個示例中,相機可以包括計算邏輯610。在一個實施例中,計算邏輯可以被布置為執(zhí)行本文中參考圖3至圖5和圖7描述的方法。

計算邏輯還可以包括集成的深度圖計算邏輯612和區(qū)域檢測器614。在一個示例中,深度圖計算邏輯612可以被布置為根據(jù)從光源發(fā)射的光和在接收器處接收的光之間的相位差來估計對象的距離。

備選地或附加地,圖6的功能可以至少部分地由一個或多個硬件邏輯部件執(zhí)行。例如但不限于,可以使用的硬件邏輯部件的示例性類型包括現(xiàn)場可編程門陣列(FPGA)、程序特定的集成電路(ASIC)、程序特定的標準產(chǎn)品(ASSP)、系統(tǒng)級芯片系統(tǒng)(SOC)、復雜可編程邏輯器件(CPLD)、圖形處理單元(GPU)。

圖7是操作圖6的飛行時間相機的方法的流程圖。飛行時間深度相機處的光源照亮700一個或多個附近對象。在相位調制飛行時間相機的情況下,光源可以是在一個或多個頻率下調制的光源。在門控飛行時間相機的情況下,光源是脈沖的。接收702從附近對象反射的光。接收原始傳感器數(shù)據(jù)。在相位調制飛行時間相機的情況下,原始傳感器數(shù)據(jù)包括例如在多個調制頻率的每一個處感測的紅外強度圖像。從強度圖像計算704振幅和相位測量。

在門控飛行時間相機的情況下,原始傳感器數(shù)據(jù)包括在多個不同曝光時段中的每一個處的紅外強度圖像。在這種情況下,省略步驟704。

將針對單個幀的原始傳感器數(shù)據(jù)(在步驟702處接收)的至少部分輸入到區(qū)域提取器(例如,圖2的區(qū)域提取器),并且圖3的過程隨后檢測零個、一個或多個感興趣區(qū)域706。針對來自步驟702的感興趣區(qū)域的原始傳感器數(shù)據(jù)被處理,以計算704由相機檢測的光的振幅和相位測量。在一個示例中,反射光可以以與光源相同的頻率(一個或多個)被調制,并且可以針對接收到光的相機的每個像素處的每個調制頻率來確定704所接收的反射光的振幅和相位。

在相位調制飛行時間相機的情況下,深度圖計算邏輯712、810可以被布置為通過計算針對相機接收器的每個像素的距離測量來根據(jù)反射光的測量的振幅和相位計算708深度圖。在每個像素處接收的光的振幅可以用于生成強度圖或2-D圖像。可以根據(jù)反射光相對于透射光的相移來確定對象距相機的深度。鑒于光速是已知常數(shù),則可以如下根據(jù)相移(以弧度為單位)來計算對象的深度(以米為單位):

其中以米/秒為單位的c是光速,以MHz為單位的fmod是調制頻率,是以弧度表示的相移。因此,可以針對接收器的每個像素確定強度和距離,并且可以以取決于接收器的分辨率的分辨率生成深度圖,即,與根據(jù)在具有1000個像素的接收器處接收的調制光生成的深度圖相比,根據(jù)在具有10000個像素的接收器處接收的調制光生成的深度圖將具有更高的分辨率。

數(shù)量c/(2fmod)是在僅使用單個頻率的情況下,可以由深度相機明確地測量的最大距離。因此,可以選擇一個或多個調制頻率,以提供對于正在使用的應用最合適的距離測量。在一個示例中,在深度相機與游戲系統(tǒng)一起使用的情況下,可以選擇一個或多個調制頻率,以提供近似等于房間的尺寸的最大明確的距離測量。例如,如果所要求的最大明確距離測量在4-10米的范圍中,則可以選擇調制頻率在15-37.5MHz的范圍中。然而,在另一示例中,可以組合多個調制頻率以給出明確的測量。

在相位調制飛行時間相機的情況下,深度圖計算邏輯712、810可以被布置為通過計算針對相機接收器的每個像素的距離測量來根據(jù)在不同曝光時段中的反射光的測量強度計算深度圖。這通過將測量的強度與在校準階段中獲得的相機行為的一個或多個模型進行比較來完成。

圖8示出了示例性基于計算的設備800的各種部件,基于計算的設備800可以被實現(xiàn)為任何形式的計算和/或電子設備并且在基于計算的設備800中可以實現(xiàn)飛行時間圖像中的感興趣區(qū)域檢測的實施例。

基于計算的設備800包括一個或多個處理器802,處理器802可以是微處理器、控制器、或用于處理計算機可執(zhí)行指令以控制設備的操作來檢測飛行時間圖像中的感興趣區(qū)域的任何其他合適類型的處理器。在一些示例中,例如在使用片上系統(tǒng)架構的情況下,處理器802可以包括一個或多個固定功能塊(也稱為加速器),一個或多個固定功能塊在硬件(不是軟件或固件)中實現(xiàn)感興趣區(qū)域提取方法的部分。例如,用于計算深度圖的計算邏輯和區(qū)域檢測器可以在硬件中實現(xiàn)??梢栽诨谟嬎愕脑O備處提供包括操作系統(tǒng)804的平臺軟件或任何其他合適的平臺軟件,以使得應用軟件806能夠在設備上執(zhí)行。在一個示例中,基于計算的設備800還可以包括計算邏輯808。計算邏輯808還可以包括集成的深度圖計算邏輯810和區(qū)域檢測器812。在一個示例中,深度圖計算邏輯810可以被布置為根據(jù)從光源發(fā)射的光與接收器處接收的光之間的相位差來估計對象的距離。

可以使用由基于計算的設備800可訪問的任何計算機可讀介質來提供計算機可執(zhí)行指令。計算機可讀介質可以包括例如計算機存儲介質(例如,存儲器816)和通信介質。諸如存儲器816的計算機存儲介質包括用于存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其他數(shù)據(jù)的信息的任何方法或技術中實現(xiàn)的易失性和非易失性、可移除和不可移除介質。計算機存儲介質包括但不限于RAM、ROM、EPROM、EEPROM、閃存或其他存儲器技術、CD-ROM、數(shù)字通用盤(DVD)或其他光學存儲裝置、磁帶盒、磁帶、磁盤存儲裝置或其他磁存儲設備、或者可以用于存儲信息以供計算設備訪問的任何其他非傳輸介質。相反,通信介質可以在調制的數(shù)據(jù)信號(例如,載波或其他傳輸機制)中實施計算機可讀指令、數(shù)據(jù)結構、程序模塊或其他數(shù)據(jù)。如本文中所定義的,計算機存儲介質不包括通信介質。因此,計算機存儲介質不應當被解釋為傳播信號本身。傳播的信號可以存在于計算機存儲介質中,但是傳播的信號本身不是計算機存儲介質的示例。雖然計算機存儲介質(存儲器816)被示出為在基于計算的設備800內(nèi),但是應當理解,存儲可以是分布式的或遠程定位的,并且經(jīng)由網(wǎng)絡或其他通信鏈路(例如,使用通信接口808)來訪問。

基于計算的設備800還包括被布置為向顯示設備824輸出顯示信息的輸入/輸出控制器820,顯示設備824可以與基于計算的設備800分離或者集成到基于計算的設備800。顯示信息可以提供圖形用戶界面。輸入/輸出控制器820還被布置為接收和處理來自諸如飛行時間相機814和用戶輸入設備822(例如,鼠標、鍵盤、相機、麥克風或其他傳感器)的一個或多個設備的輸入。在一些示例中,用戶輸入設備822可以檢測語音輸入、用戶手勢或其他用戶動作,并且可以提供自然用戶界面(NUI)。在一個實施例中,如果顯示設備824是觸敏顯示設備,則顯示設備824還可以用作用戶輸入設備822。輸入/輸出控制器820還可以向除顯示設備以外的設備(例如,本地連接的打印設備(圖8中未示出))輸出數(shù)據(jù)。

輸入/輸出控制器820、顯示設備824和用戶輸入設備822中的任何一個可以包括NUI技術,NUI技術使得用戶能夠以自然的方式與基于計算的設備交互,而不受諸如鼠標、鍵盤、遙控器等輸入設備強加的人工約束??梢蕴峁┑腘UI技術的示例包括但不限于依賴于以下各項的NUI技術:語音和/或語音識別、觸摸和/或觸控筆識別(觸敏顯示器)、屏幕上和屏幕附近的手勢識別、空中手勢、頭部和眼睛跟蹤、語音和聲音、視覺、觸摸、手勢和機器智能??梢允褂玫腘UI技術的其他示例包括意圖和目標理解系統(tǒng)、使用深度相機的運動手勢檢測系統(tǒng)(例如,立體相機系統(tǒng)、紅外相機系統(tǒng)、RGB相機系統(tǒng)及其組合)、使用加速度計/陀螺儀的運動手勢檢測、面部識別、3D顯示、頭部、眼睛和凝視跟蹤、沉浸式增強現(xiàn)實和虛擬現(xiàn)實系統(tǒng)、以及使用電場感測電極感測大腦活動的技術(EEG和相關方法)。

在一個示例中,方法包括:

接收由飛行時間相機針對單個幀捕獲的至少一個原始圖像,原始圖像描繪飛行時間相機的環(huán)境中的一個或多個對象;

向經(jīng)訓練的區(qū)域檢測器輸入原始圖像,并且作為響應接收原始圖像中的一個或多個感興趣區(qū)域,感興趣區(qū)域包括被預測為描繪對象中的一個對象的至少一部分的圖像元素;以及

從原始圖像的一個或多個感興趣區(qū)域計算深度。

例如,區(qū)域檢測器已經(jīng)被訓練為學習感興趣區(qū)域與原始飛行時間圖像的圖像元素之間的關聯(lián)。

在示例中,僅從原始圖像的一個或多個感興趣區(qū)域計算深度。

在一個示例中,來自飛行時間相機的原始圖像是多個紅外強度值。

示例可以包括接收由飛行時間相機針對單個幀捕獲的多個原始圖像;聚合多個原始圖像,以產(chǎn)生聚合的原始圖像;以及向經(jīng)訓練的區(qū)域檢測器輸入聚合的原始圖像。

示例包括接收由所述飛行時間相機針對單個幀捕獲的多個原始圖像;以及向經(jīng)訓練的區(qū)域檢測器輸入原始圖像中的每個原始圖像。

示例包括使用經(jīng)訓練的區(qū)域檢測器來將原始圖像的圖像元素分類為在感興趣區(qū)域中或不在感興趣的區(qū)域中。

示例包括對所分類的圖像元素進行聚類。

示例包括向所分類的圖像元素應用滑動窗口檢測器。

示例包括使用訓練數(shù)據(jù)來訓練區(qū)域檢測器,訓練數(shù)據(jù)包括描繪對象的示例的原始飛行時間圖像,原始飛行時間圖像具有經(jīng)標記的感興趣區(qū)域。

在一些示例中,經(jīng)訓練的區(qū)域檢測器是隨機決策森林。

在一個示例中,存在一種計算系統(tǒng),包括:

輸入/輸出控制器,被布置為接收由飛行時間相機針對單個幀捕獲的至少一個原始圖像,原始圖像描繪飛行時間相機的環(huán)境中的一個或多個對象;

區(qū)域檢測器,被布置為從原始圖像計算原始圖像中的一個或多個感興趣區(qū)域,感興趣區(qū)域包括被預測為描繪對象中的一個對象的至少一部分的圖像元素;以及

深度圖計算邏輯810,被布置為從原始圖像的一個或多個感興趣區(qū)域計算深度。

例如,在計算系統(tǒng)中,區(qū)域檢測器包括已經(jīng)被訓練為學習感興趣區(qū)域與原始飛行時間圖像的圖像元素之間的關聯(lián)的分類器。

區(qū)域檢測器可以包括聚類部件,聚類部件被布置為對由分類器輸出的經(jīng)標記的圖像元素進行聚類。

區(qū)域檢測器可以包括滑動窗口部件,滑動窗口部件被布置為根據(jù)由分類器輸出的經(jīng)標記的圖像元素來計算一個或多個區(qū)域。

計算系統(tǒng)可以被集成在飛行時間相機中。

在一個示例中,一種計算機可讀介質存儲指令,指令在由計算設備執(zhí)行時,控制設備:

接收由飛行時間相機針對單個幀捕獲的至少一個原始圖像,原始圖像描繪飛行時間相機的環(huán)境中的一個或多個對象;

向區(qū)域檢測器發(fā)送原始圖像,并且作為響應接收原始圖像中的一個或多個感興趣區(qū)域,區(qū)域檢測器已經(jīng)被訓練為學習感興趣區(qū)域與原始飛行時間圖像的圖像元素之間的關聯(lián),感興趣區(qū)域包括被預測為描繪對象中的一個對象的至少一部分的圖像元素;以及

從原始圖像的一個或多個感興趣區(qū)域計算深度。

在一個示例中,計算機可讀介質存儲指令,指令在由計算設備執(zhí)行時,控制設備:接收由所述飛行時間相機針對單個幀捕獲的多個原始圖像;聚合多個原始圖像,以產(chǎn)生經(jīng)聚合的原始圖像;以及向經(jīng)訓練的區(qū)域檢測器輸入經(jīng)聚合原始圖像。

在一個示例中,計算機可讀介質存儲指令,指令在由計算設備執(zhí)行時,控制設備:接收由飛行時間相機針對單個幀捕獲的多個原始圖像;以及向經(jīng)訓練的區(qū)域檢測器輸入原始圖像中的每一個。

在一個示例中,計算機可讀介質存儲指令,指令在由計算設備執(zhí)行時,控制所述設備僅從一個或多個感興趣區(qū)域計算深度。

本文中使用的術語“計算機”或“基于計算的設備”是指具有處理能力使得其可以執(zhí)行指令的任何設備。本領域技術人員將認識到,這樣的處理能力被并入很多不同的設備中,因此術語“計算機”和“基于計算的設備”各自包括PC、服務器、移動電話(包括智能電話)、平板計算機、機頂盒、媒體播放器、游戲控制臺、個人數(shù)字助理和很多其他設備。

本文中所描述的方法可以由有形存儲介質上的機器可讀形式(例如,包括計算機程序代碼裝置的計算機程序的形式,當程序在計算機上運行時,計算機程序代碼裝置適于執(zhí)行本文中所描述的任何方法的所有步驟,并且其中計算機程序可以在計算機可讀介質上實現(xiàn))的軟件執(zhí)行。有形存儲介質的示例包括包含計算機可讀介質(例如,磁盤、拇指驅動器、存儲器等)的計算機存儲設備并且不包括傳播信號。傳播信號可以存在于有形存儲介質中,但是傳播信號本身不是有形存儲介質的示例。軟件可以適于在并行處理器或串行處理器上執(zhí)行,使得方法步驟可以以任何合適的順序或同時執(zhí)行。

這確認軟件可以是有價值的、可單獨交易的商品。其旨在涵蓋運行或控制“非智能(dumb)”或標準硬件以執(zhí)行期望功能的軟件。還旨在涵蓋“描述”或定義用于設計硅芯片或用于配置通用可編程芯片以執(zhí)行期望功能的硬件(例如,HDL(硬件描述語言)軟件)的配置的軟件。

本領域技術人員將認識到,用于存儲程序指令的存儲設備可以分布在網(wǎng)絡上。例如,遠程計算機可以存儲被描述為軟件的過程的示例。本地或終端計算機可以訪問遠程計算機并且下載軟件的一部分或全部以運行程序。備選地,本地計算機可以根據(jù)需要下載軟件的部分,或者在本地終端處執(zhí)行一些軟件指令,并且在遠程計算機(或計算機網(wǎng)絡)處執(zhí)行一些軟件指令。本領域技術人員還將認識到,通過利用本領域技術人員已知的常規(guī)技術,軟件指令的全部或一部分可以由專用電路(例如,DSP、可編程邏輯陣列等)來執(zhí)行。

在不失去所尋求的效果的情況下,本文中給出的任何范圍或設備值可以擴展或改變,這對本領域技術人員是顯而易見的。

盡管已經(jīng)用對結構特征和/或方法動作專用的語言描述了主題,但是應當理解,所附權利要求中限定的主題不一定限于上述具體特征或動作。相反,上面描述的具體特征和動作被公開作為實現(xiàn)權利要求的示例形式。

將理解,上述的益處和優(yōu)點可以涉及一個實施例或者可以涉及若干實施例。實施例不限于解決任何或所有所述問題的那些實施例,或者具有任何或全部所述益處和優(yōu)點的實施例。還應當理解,對“一個(a/an)”項目的引用是指這些項目中的一個或多個。

本文中所描述的方法的步驟可以以任何合適的順序進行,或在適當時同時進行。附加地,在不脫離本文中所描述的主題的精神和范圍的情況下,可以從任何方法中刪除單獨的塊。在不失去所尋求的效果的情況下,上述任何示例的各方面可以與所描述的任何其他示例的各方面組合,以形成另外的示例。

術語“包括/包含”在本文中用于表示包括所標識的方法塊或元素,但是這樣的塊或元素不包括排他性列表,并且方法或裝置可以包含附加的塊或元素。

術語“子集”在本文中用于指代真子集,使得集合的子集不包括集合的所有元素(即,集合的元素中的至少一個元素從子集中丟失)。

應當理解,上述描述僅以示例的方式給出,并且本領域技術人員可以進行各種修改。上述說明書、示例和數(shù)據(jù)提供了示例性實施例的結構和使用的完整描述。雖然以上已經(jīng)以某種程度的特殊性或者參考一個或多個單獨的實施例描述了各種實施例,但是本領域技術人員可以在不脫離本說明書的精神或范圍的情況下,對所公開的實施例進行多種改變。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
涟水县| 吴堡县| 宿松县| 库车县| 伊宁市| 明星| 宿迁市| 景洪市| 双牌县| 古蔺县| 盐城市| 大渡口区| 容城县| 黎川县| 博白县| 贵南县| 杭锦旗| 文登市| 泗洪县| 邛崃市| 佛冈县| 新野县| 百色市| 绥棱县| 句容市| 密云县| 彭州市| 晋宁县| 金秀| 灵川县| 海宁市| 德化县| 南靖县| 丘北县| 通渭县| 永定县| 金阳县| 平安县| 门头沟区| 离岛区| 昭通市|