專利名稱:檢測和跟蹤圖像中的物體的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖像處理,更具體地涉及檢測圖像中的物體。
背景技術(shù):
對圖像中的物體進(jìn)行的檢測和識別通常涉及圖像濾波和圖形識別技術(shù)。檢測和識別包含成百上千或者成千上百的像素的圖像中的物體需要很強(qiáng)的處理能力,并且可能很費時間。因此,在處理圖像以檢測和識別圖像中的物體之前減少圖像的維數(shù)會有幫助。一種已 知的減少數(shù)據(jù)維數(shù)的技術(shù)是主成分分析法(PCA) aPCA記載在例如Joliffe I. T. ,PrincipalComponnet Analysis, Springer-Verlag, New York(1986)中。PCA利用數(shù)據(jù)組的協(xié)方差矩陣的特征值和特征向量作為數(shù)據(jù)組的可求值(valueable)特征的代表。已有很多種方法和機(jī)制使得人類能夠與計算機(jī)交互。計算機(jī)圖像技術(shù)可以允許計算機(jī)檢測由照相機(jī)捕捉到的圖像中的物體。能夠檢測和識別圖像中的物體的計算機(jī)為用戶提供了通過用戶的手勢與計算機(jī)交互的能力。計算機(jī)-用戶界面可以顯示在表面或屏幕上。一個或多個照相機(jī)可以監(jiān)視該表面或屏幕附近的活動并且捕捉屏幕附近的活動的圖像。計算機(jī)然后可以處理這些圖像,檢測圖像中的一個或者多個物體,并發(fā)覺用戶正在使用手勢與顯示在表面或屏幕上的計算機(jī)-用戶界面交互。一些系統(tǒng)試圖發(fā)覺用戶在使用手勢與顯示在表面或屏幕上的計算機(jī)-用戶界面交互。這些系統(tǒng)中的一些僅發(fā)覺圖像中亮度最大的物體,并將該物體作為手或手指。因此,即使在所述物體既非手也非手指的情況下,這些系統(tǒng)可能將該物體認(rèn)作手或手指。
發(fā)明內(nèi)容
為了更為準(zhǔn)確地標(biāo)識圖像中的手或手指,從而提高人機(jī)交互的能力和效率,若干公開的系統(tǒng)(I)識別觸摸表面或屏幕或在表面或屏幕附近移動的作為手或手指的物體,并
(2)排除未被識別為手或手指的物體。本發(fā)明提供了用于檢測和識別觸摸表面或屏幕或在表面或屏幕附近移動的手指的方法和裝置。圖像被處理以檢測手指的出現(xiàn)并跟蹤檢測到的手指的位置。手指的位置可被計算機(jī)用于例如控制計算機(jī)鼠標(biāo)指示器。所提供的方法可允許以比使用傳統(tǒng)的鼠標(biāo)及/或鍵盤更自然的方式進(jìn)行人機(jī)交互。在一種實現(xiàn)方式中,創(chuàng)建沿一個或多個取向定位的一個或多個手指的模型。具體而言,利用照相機(jī)捕捉一個或多個手指的一組訓(xùn)練圖像。應(yīng)用PCA技術(shù),創(chuàng)建該組訓(xùn)練圖像的模型。確定該組訓(xùn)練圖像的協(xié)方差矩陣并選擇該協(xié)方差矩陣的一定數(shù)量的特征向量來定義所述一組訓(xùn)練圖像的特征空間。所述一組訓(xùn)練圖像中的每個圖像被投影到由選定的協(xié)方差矩陣的特征向量定義的特征空間中。在特征空間中,每個訓(xùn)練圖像由單個訓(xùn)練點表示。因此,將每個訓(xùn)練圖像投影到特征空間中可以在特征空間中生成訓(xùn)練點云團(tuán)。然后在特征空間中用幾何模型(例如表面或線)對訓(xùn)練點云團(tuán)建模。然后利用模型來檢測、識別和跟蹤圖像中的手指。在一種系統(tǒng)中,在表面或屏幕的后方設(shè)置照相機(jī)和紅外(IR)照明器。觸摸表面或屏幕或在表面或屏幕附近移動的手指反射IR照明器投射的部分IR輻射。部分被反射的IR輻射被照相機(jī)捕捉在圖像中。然后對該圖像進(jìn)行如下所述的處理,以檢測和識別圖像中手指的存在與否及其位置。所述處理包括從圖像中抽取可能是手指的一個或多個物體。每個抽取的物體被投影到為所述一組訓(xùn)練圖像所定義的特征空間中。在特征空間中,所抽取物體的投影由單個圖像點表示。將單個圖像點的坐標(biāo)與訓(xùn)練點云團(tuán)的模型比較,以確定該單個圖像點是否匹配或接近匹配所述模型。如果單個圖像點匹配或接近匹配模型,則確定該物體是手指。如 果確定該物體是手指,則計算手指相對于屏幕或表面的位置(例如(X,y)坐標(biāo))并將其輸入例如計算機(jī)和/或軟件應(yīng)用程序。根據(jù)一個概括的方面,確定相應(yīng)于多維空間中圖像點的坐標(biāo),該圖像點表征一特定物體。提供描述多維空間中的模型的方程式,該模型表現(xiàn)一個或多個其它物體的一組訓(xùn)練圖像的特征。將所述坐標(biāo)代入所述方程式以確定圖像點與模型之間的距離,并且基于所確定的距離,確定所述特定物體是否匹配所述一個或多個其它物體。上述概括的方面的實現(xiàn)方式可以包括一個或多個其它特征。例如,可以接收特定物體的圖像。該圖像可以具有若干數(shù)據(jù)元素,而所述多維空間的維數(shù)可以小于該數(shù)據(jù)元素的數(shù)量。確定圖像點坐標(biāo)的步驟可以包括將圖像投影到所述多維空間以產(chǎn)生相應(yīng)于多維空間中的圖像點的坐標(biāo)。所述模型可以是多維空間中一組訓(xùn)練點的模型,所述組中的每個訓(xùn)練點對應(yīng)于所述一系列訓(xùn)練圖像中的一個或多個圖像。所述特定物體的圖像可以在被接收之前被歸一化。歸一化特定物體的圖像的步驟可以解決亮度變化的問題。歸一化物體的圖像的步驟可以包括對特定物體的圖像應(yīng)用直方圖均衡化技術(shù)。所述方程式可以描述雙曲面、圓錐、線或圓錐和線的組合。特定物體可以包括從由手指、筆和基本上柱形的物體構(gòu)成的組中選出的一個物體。提供所述方程式的步驟可以包括從第一方程式和第二方程式中選擇所述方程式,所述第一方程式描述表現(xiàn)第一組訓(xùn)練圖像的特征的第一模型,第二方程式描述表現(xiàn)第二組訓(xùn)練圖像的特征的第二模型。根據(jù)另一個概括的方面,接收特定物體的圖像,該圖像具有若干數(shù)據(jù)點。將該圖像投影到維數(shù)小于所述數(shù)據(jù)點數(shù)量的多維空間中,以產(chǎn)生相應(yīng)于所述多維空間中的圖像點的坐標(biāo),其中圖像點表征所述特定物體。提供描述多維空間中的一模型的方程式,該模型是多維空間中一組訓(xùn)練點的模型,并且所述組中的每個訓(xùn)練點對應(yīng)于一個或多個其它物體的一組訓(xùn)練圖像中的一個或多個圖像。將所述坐標(biāo)代入所述方程式以確定圖像點與模型之間的距離,并基于所確定的距離,確定所述特定物體是否匹配所述其它物體。上述概括方面的實現(xiàn)方式可以包括以下的一個或多個特征。例如,提供所述方程式的步驟可以包括從第一方程式和第二方程式中選擇所述方程式,所述第一方程式描述表現(xiàn)第一組訓(xùn)練圖像的特征的第一模型,第二方程式描述表現(xiàn)第二組訓(xùn)練圖像的特征的第二模型。根據(jù)另一個概括的方面,一種系統(tǒng)包括照相機(jī)和耦接至照相機(jī)的處理裝置。該處理裝置構(gòu)造成確定相應(yīng)于多維空間中圖像點的坐標(biāo),所述圖像點表征特定物體。所述處理裝置還構(gòu)造成提供描述所述多維空間中的一模型的方程式,所述模型表現(xiàn)一個或多個其它物體的一組訓(xùn)練圖像的特征。所述處理裝置還構(gòu)造成將所述坐標(biāo)代入所述方程式以確定圖像點與模型之間的距離,并基于所確定的距離,確定所述特定物體是否匹配所述一個或多個其它物體。上述概括的方面的實現(xiàn)方式可以包括以下的一個或多個特征。例如,所述照相機(jī)可以是IR照相機(jī)。所述系統(tǒng)可以包括IR源。該系統(tǒng)可以包括設(shè)置在照相機(jī)前方的屏幕。 該屏幕可以至少是半透明的,使得位于與照相機(jī)相反的屏幕的一側(cè)的物體所反射的光能夠透過屏幕并被照相機(jī)所接收。根據(jù)另一個概括的方面,提供了一種工具,用于確定相應(yīng)于多維空間中特定圖像點的坐標(biāo),所述特定圖像點表征一特定物體。所述工具還提供描述多維空間中的一模型的方程式,該模型表現(xiàn)一個或多個其它物體的一組訓(xùn)練圖像的特征。所述工具還用于將所述坐標(biāo)代入所述方程式以確定所述特定圖像點與模型之間的距離,并基于所確定的距離,確定特定物體是否匹配所述一個或多個其它物體。上述概括的方面的實現(xiàn)方式可以包括以下的一個或多個特征。例如,所述一組訓(xùn)練圖像可以被接收,所述組中的每個圖像具有若干數(shù)據(jù)元素。所述多維空間可以基于所述一組訓(xùn)練圖像來確定,并且所述多維空間的維數(shù)可以小于所述數(shù)據(jù)元素的數(shù)量。通過將所述一組訓(xùn)練圖像中的每個圖像投影到所述多維空間中可以生成一組訓(xùn)練點,從而產(chǎn)生相應(yīng)于多維空間中的對應(yīng)訓(xùn)練點的坐標(biāo)。所述一組訓(xùn)練點中的每個訓(xùn)練點可以對應(yīng)于所述一組訓(xùn)練圖像中的至少一個圖像??梢源_定描述多維空間中表現(xiàn)所述一組訓(xùn)練圖像的特征的模型的方程式。所述一組訓(xùn)練圖像中的每個圖像可以在被接收之前被歸一化。歸一化所述一組訓(xùn)練圖像中的每個圖像可以解決亮度變化的問題。歸一化所述一組訓(xùn)練圖像中的每個圖像的步驟可以包括對所述一組訓(xùn)練圖像中的每個圖像應(yīng)用直方圖均衡化技術(shù)。各個方面、實現(xiàn)方式和特征可以利用例如方法、裝置、用于執(zhí)行方法、程序或其它指令集的裝置或工具或處理裝置、包括程序或指令集的裝置、以及計算機(jī)可讀介質(zhì)中的一個或多個來實現(xiàn)。計算機(jī)可讀介質(zhì)可以包括例如指令、軟件、圖像和其它數(shù)據(jù)。附圖和以下描述中詳細(xì)說明了一個或多個實現(xiàn)方式。其它特征將從說明書和附圖,以及從權(quán)利要求中顯見。
本專利或申請文件包含至少一幅彩色圖片。在提出請求并交納必要的費用的情況下,官方將提供帶有彩色圖片的本專利或申請公報的副本。
圖I是用于識別和跟蹤手指的一個系統(tǒng)的圖解。圖2(a)為一示樣圖像,示出圖像的兩個物體。圖2(b)為示樣陰影矩陣,顯示了從圖2(a)的圖像中抽取的兩個物體。圖3示出了確定從圖像中抽取的物體是否太大而不會是感興趣的物體的示圖。圖4(a)是示出用于訓(xùn)練手指識別和跟蹤系統(tǒng)的第一處理的處理流程圖。圖4(b)是示出用于執(zhí)行圖4(a)中操作410的處理的處理流程圖。圖5是手指的示樣圖像。圖6是三維特征空間(eigenspace)中的訓(xùn)練點云團(tuán)的圖示。
圖7(a)是手指的另一個示樣圖像。圖7(b)是與圖7(a)中的手指相同但方向不同的手指的示樣圖像。圖8 (a)是手指的另一個示樣圖像。圖8(b)是與圖8(a)中的手指相同但方向不同的手指的示樣圖像。圖9(a)是三維特征空間中的訓(xùn)練點云團(tuán)的圖示。圖9(b)是圖9(a)的三維特征空間中圖8 (a)和8 (b)所示的示樣圖像的投影的圖
/Jn ο圖10(a)是圖9(a)的訓(xùn)練點云團(tuán)和對應(yīng)于圖像點云團(tuán)的三維模型的圖示。圖10(b)是圖10(a)的彩色版。圖11(a)是對應(yīng)于圖9(a)的訓(xùn)練點云團(tuán)的截頭模型的圖示。圖11 (b)是圖11 (a)的截頭模型和對應(yīng)于該模型的訓(xùn)練點云團(tuán)的圖示。圖11(c)是圖11(b)的彩色版。圖12是使用利用圖4 (a)所示處理訓(xùn)練的系統(tǒng)識別圖像中的手指的處理的處理流程圖。圖13是示出用于訓(xùn)練手指識別和跟蹤系統(tǒng)的第二處理的處理流程圖。圖14是三維特征空間中的另一訓(xùn)練點云團(tuán)的圖示。圖15是形成圓錐形狀的圖14所示訓(xùn)練點云團(tuán)的第一子組的圖示。圖16是形成線形形狀的圖14所示訓(xùn)練點云團(tuán)的第二子組的圖示。圖17(a)是圖15所示訓(xùn)練點的第一子組以及對應(yīng)于訓(xùn)練點的第一子組的垂直圓錐模型的圖示。圖17(b)是圖15所示訓(xùn)練點的第一子組以及對應(yīng)于訓(xùn)練點的第一子組的截頭垂直圓錐模型的圖示。圖17(c)是圖17(a)的彩色版。圖17(d)是圖17(b)的彩色版。圖18(a)是圖16所示訓(xùn)練點的第二子組以及對應(yīng)于訓(xùn)練點的第二子組的線形模型的圖示。圖18(b)是圖18(a)的彩色版。圖19是圖示使用通過圖13所示處理訓(xùn)練的系統(tǒng)來識別圖像中的手指的處理的處
理流程圖。圖20是圖示識別圖像中的物體的另一處理的處理流程圖。
具體實施例方式本發(fā)明公開了用于檢測和識別觸摸表面或者在表面附近移動的手指的系統(tǒng)和方法。這些系統(tǒng)和方法還可以用來檢測和識別觸摸表面或者在表面附近移動的其他物體。此夕卜,這些系統(tǒng)和方法還可以用來在沒有表面的情況下,檢測和識別視場中的物體。更廣泛地說,這些系統(tǒng)和方法可以用來檢測和識別圖像中的物體。圖I是用于識別和跟蹤一個或者多個手指的示例性系統(tǒng)100的圖示。設(shè)置在表面104后方的紅外(IR)照明器102照亮延伸于表面104的后方和前方的區(qū)域106。裝備有紅外濾波器110的照相機(jī)108設(shè)置在表面104的后方并捕捉例如表面104及其附近的圖像。照相機(jī)108所捕捉的圖像可以通過數(shù)據(jù)元素(例如,像素)以數(shù)碼方式顯示。設(shè)置在表面104后方的投影器112可以將計算機(jī)-用戶界面投射在表面104上。投射在表面104上的計算機(jī)-用戶界面可以是傳統(tǒng)的計算機(jī)顯示。投影器112除了可見光之外還可以投射IR光。因此,投影器112可以裝備有可選的IR濾波器120以減少或消除投影器112所投射的IR光。 所公開的技術(shù)和裝置可以允許用戶利用手勢與計算機(jī)-用戶界面交互。例如,可以對用戶手指114的位置進(jìn)行跟蹤,允許用戶通過用其手指114觸摸表面104或者通過將其手指114在表面104附近移動來控制鼠標(biāo)指示器在計算機(jī)-用戶界面上的位置。用戶手指114的位置可以用來例如表示鼠標(biāo)指示器的希望位置。在一些實現(xiàn)方式中,為了準(zhǔn)確確定用戶手指114的位置,希望區(qū)分用戶的手指114與用戶的手掌118。圖I所示系統(tǒng)100僅僅是一種實現(xiàn)方式的示例,其他的構(gòu)造也是可能的。照相機(jī)108所捕捉的圖像是通過捕捉物體所反射的光而產(chǎn)生的。光可以包括IR光、可見光、紫外光或任何其他形式的電磁輻射。因此,可以不需要IR照明器102。其他光源可以用來替代IR照明器。在一種替代的實現(xiàn)方式中,可以不需要光源。作為替代,系統(tǒng)100可以僅僅依靠所反射的周圍的光。此外,照相機(jī)108不需要設(shè)置在表面104的后面。例如,照相機(jī)108可以設(shè)置在系統(tǒng)100中的認(rèn)為有利的其他任何位置。另外,系統(tǒng)100不需要被實現(xiàn)為有利于人機(jī)交互。作為替代,在某一實現(xiàn)方式中,系統(tǒng)100可以用來檢測照相機(jī)108所捕捉的圖像中的物體。在這種實現(xiàn)方式中,可以不需要表面104??偟膩碚f,在檢測和識別圖像中作為手指的物體的過程中會涉及很多處理操作。例如,系統(tǒng)100首先經(jīng)過訓(xùn)練,以識別作為手指的物體。該訓(xùn)練階段可以涉及捕捉以一個或多個取向定位的一個或多個手指的一組訓(xùn)練圖像,以及建立該組訓(xùn)練圖像的模型。在識別階段,系統(tǒng)100可以捕捉圖像,從捕捉的圖像中抽取物體,并將所抽取的物體與在訓(xùn)練階段生成的一組訓(xùn)練圖像的模型比較,從而確定所抽取的物體是否是手指。以下將更加詳細(xì)地描述在檢測和識別圖像中的作為手指的物體的過程中可能涉及的處理。圖像中感興趣的區(qū)域(ROI) 116可以定義為包括表面104的圖像的一部分??梢詫D像的ROI 116進(jìn)行檢查以檢測和識別一個或多個手指114。照相機(jī)108捕捉的圖像可以包括由IR照明器102產(chǎn)生并被ROI 116中的一個或多個手指反射的IR映像,或者所述IR可被ROI 116中的一個或多個其他物體反射。例如,表面104可以反射IR。為了說明表面104或ROI 116中的其他物體始終反射的IR,可以創(chuàng)建表面104或ROI 116中的其他物體始終反射的IR的背景模型(BGM),并從照相機(jī)108捕捉的每一圖像中減去該背景模型。從照相機(jī)108捕捉的每一圖像中減去BGM可以有效排除或至少減少從所捕捉的圖像中處理得到的由于背景物體造成的IR。因此,從每一圖像中減去BGM可以提高ROI 116中感興趣的物體與表面104及/或ROI 116中一直存在的其他物體之間的對比度。BGM的創(chuàng)建可以通過捕捉若干沒有出現(xiàn)感興趣物體的ROI 116的圖像,然后逐像素地對捕捉的圖像進(jìn)行平均化,從而建立新的平均的圖像或BGM。這樣,可以從照相機(jī)108捕捉的每一圖像中減去BGM。該處理可以通過以下方程式來描述
Jo if |取其中,I是圖像,B是BGM,ε是可調(diào)節(jié)閾值(例如,可調(diào)節(jié)常數(shù)),J是得到的圖像。BGM可以例如隨機(jī)地、周期地或根據(jù)觸發(fā)事件的發(fā)生而更新。
參照圖2(a)、2(b)和3,其中示出用于檢測圖像中是否存在物體和初始確定該物體是否是感興趣的物體的處理的示例。具體而言,圖2 (a)示出示樣圖像200 (a)中的兩個物體202 (a)、204 (a)。如圖2 (a)所示,物體202(a)和204(a)被示為比背景206(a)更暗。但是,在由兩個物體202 (a)、204(a)反射的光形成的圖像200(a)中,兩個物體202 (a)、204 (a)有可能比背景206(a)更亮。因此,可以理解,圖2(a)中的圖像200(a)僅僅是圖像200(a)中的兩個物體202 (a)、204(a)的示例,圖像200(a)并不意圖表示圖像中的物體會比圖像的背景更暗。為了從圖像200(a)中抽取物體202(a) >204 (a),可以采用斑點分析(blob-analysis)算法,例如 Grassfire 算法。在例如文獻(xiàn) Pitas I. , Digital ImageProcessing Algorithms, Prentice-HalI, New York(1993)中描述了 Grassfire 算法。也可以使用用于檢測圖像中是否存在物體并從圖像中抽取該物體的其他算法。Grassfire算法可以在圖像中搜索物體并用共同的標(biāo)記表示其所檢測到的每一物體中的每一像素。具體而言,在物體比背景更亮的、通過物體反射光形成的圖像中,Grassfire算法可以確定圖像中最売的像素。例如,圖像可以是灰度圖像,每個像素具有256個可能的值。也就是說,每個像素可以被分配0-255中的一個值,其中零表示可能的亮度最小的像素(例如,完全黑的),而255表示可能的最亮的像素(例如,完全白的)。圖像中的最亮的像素可以具有值220。Grassfire算法可以將圖像中的每個像素與相對于圖像中最亮像素的可調(diào)閾值常數(shù)比較,從而確定該像素是否對應(yīng)于物體。例如,可調(diào)閾值可以為50。因此,Grassfire算法可以將圖像中比最亮像素暗50級以內(nèi)的所有像素視為表示一個物體。也就是說,具有可接受范圍170-220內(nèi)的值的所有像素可以視為表示一個物體。這樣,Grassfire算法可以將落入所述可接受范圍內(nèi)的任何一組相鄰像素視為構(gòu)成一個物體。Grassfire算法可以產(chǎn)生被稱為陰影矩陣的矩陣,其大小與原始圖像相同。陰影矩陣中對應(yīng)于被標(biāo)識為表示原始圖像中的一個物體的像素的元素可以用共同的標(biāo)記標(biāo)識。圖2(b)示出對應(yīng)于圖2(a)中所示示樣圖像200 (a)的陰影矩陣200(b)。示樣圖像200 (a)中的物體202(a)用陰影矩陣200(b)中的物體202(b)表示,物體202(b)的每個元素用共同的標(biāo)記“I”標(biāo)識。類似地,示樣圖像200(a)中的物體204(a)用陰影矩陣200(b)中的物體204(b)表示,并且物體204(b)的每個元素用共同的標(biāo)記“2”標(biāo)識。如圖2(b)所示,Grassfire算法可以有效地從示樣圖像200(a)中抽取物體202(a)和204(a)。再次參照圖1,理想情況下,如果手指114觸摸表面104或在表面104附近移動,則手指114會在圖像中產(chǎn)生最亮物體。然而,觸摸表面104或在表面104附近移動的手指114并不總是產(chǎn)生圖像中最亮的物體。例如,當(dāng)用戶用其手指114觸摸表面104時,用戶的手掌118可能反射足夠多的IR輻射,從而在圖像中表現(xiàn)為一個亮的物體。例如長袖之類的其他物體也會反射足夠多的IR輻射從而在圖像中表現(xiàn)為亮的物體。一些物體會比用戶的手指114反射更多的IR輻射,從而在圖像中表現(xiàn)為比用戶手指114更亮的物體。因此,在一種實現(xiàn)方式中,可從圖像中抽取到圖像中的若干物體,并非僅僅是最亮物體。但是,處理圖像中的很多物體以進(jìn)行識別會需要很強(qiáng)的處理能力,并且會很費時。因此,會采取一些技術(shù)來減少所抽取的用于識別的物體的數(shù)量。所抽取的物體可能表現(xiàn)出一些特征,表示它不可能是手指并因此可以被放棄。用于挑選所抽取的物體的一種標(biāo)準(zhǔn)是尺寸。例如,所抽取的物體可能太大而不會是手指。類似地,所抽取的物體可能太小而不會是手指O
圖3是示圖301,示出用于確定從圖像中抽取的物體300是否太大而不會是手指的處理的一個示例??梢栽谒槿∥矬w300中心302周圍的四個采樣區(qū)304、306、308、310中采樣一個或多個像素。所抽取物體300的中心302與采樣區(qū)304、306、308、310之間的距離可以是例如可調(diào)常數(shù)。如圖3所示,所抽取物體300的中心302周圍的兩個采樣區(qū)304、308可以位于經(jīng)過所抽取物體300的中心302的垂直線312上。類似地,所抽取物體300的中心302周圍的兩個采樣區(qū)306、310可以位于經(jīng)過所抽取物體的中心302的水平線上。由于手指114的圖像有時會包括一尾部(例如參見圖5),采樣區(qū)304、306、308、310可以成對考慮。例如,位于經(jīng)過所抽取物體300的中心302的水平線上的兩個采樣區(qū)306、310可以作為第一對進(jìn)行考慮。類似地,位于經(jīng)過所抽取物體300的中心的垂直線312上的兩個采樣區(qū)304、308可以作為第二對進(jìn)行考慮。如果第一對采樣區(qū)306、310中的像素值總和超出可接受閾值水平,則可以確定采樣區(qū)306、310是所抽取物體300的一部分。如果第一對采樣區(qū)306、310中的像素值總和超出可接受閾值水平,則可以將第二對采樣區(qū)304、308中的像素值總和與可接受閾值水平比較。如果第二對采樣區(qū)304、308中的像素值總和超出可接受閾值水平,可以確定采樣區(qū)304、308是所抽取物體300的一部分。如果第一對采樣區(qū)306、310中的像素值總和超出可接受閾值水平并且第二對采樣區(qū)304、308中的像素值總和超出可接受閾值水平,則可以確定所述物體太大而不會是手指,從而可以放棄該物體。類似地,從圖像中抽取的物體可能太小而不會是手指。可以對表示每個被抽取物體的像素的數(shù)量計數(shù)。如果表示一個物體的像素數(shù)量小于閾值常數(shù),則該物體可以確定為噪聲或其他一些物體,從而可以放棄該物體。識別圖像中作為手指的物體可能涉及訓(xùn)練階段和識別階段。在訓(xùn)練階段,可以通過使系統(tǒng)100接觸一大組要識別的物體的訓(xùn)練圖像,以訓(xùn)練系統(tǒng)100識別物體。所述一組訓(xùn)練圖像可以包括各種不同取向的被識別物體的圖像。在識別階段,系統(tǒng)100可以檢測圖像中的物體,并將該物體與所述一組訓(xùn)練圖像比較,或與所述一組訓(xùn)練圖像的模型比較,從而確定該物體是否是所要識別的物體。
在一種實現(xiàn)方式中,在訓(xùn)練階段,捕捉各種不同取向的一個或多個手指的大量圖像。確定所述一組訓(xùn)練圖像的協(xié)方差矩陣,并使用協(xié)方差矩陣的選定的一組特征向量來定義特征空間??梢赃x擇任意數(shù)量的特征向量來定義特征空間。特征空間的維數(shù)由被選來定義特征空間的特征向量的數(shù)量決定。例如,三維特征空間通過選擇三個特征向量來定義,所述三個特征向量例如為對應(yīng)于三個最大特征值的特征向量。來自所述一組訓(xùn)練圖像的每個訓(xùn)練圖像被投影到三維特征空間中,在該特征空間中生成三維點的集合。特征空間中三維點的集合利用能夠用多項式解析表達(dá)的三維集合模型(例如,二次表面或線)來建模。例如,所述一組訓(xùn)練圖像的投影可以形成雙曲面形或圓錐形表面。另外或者作為替代,所述一組訓(xùn)練圖像的投影可以在特征空間中形成線形幾何形式。在三維空間中,雙曲面、圓錐和線可以用多項式解析表達(dá)。因此,幾何形式(也稱為幾何模型)可以用來在特征空間中對這樣的一組訓(xùn)練圖像進(jìn)行建模。在該實現(xiàn)方式的識別階段,從圖像中抽取的物體被投影到訓(xùn)練階段定義的特征空間中。特征空間中標(biāo)識對應(yīng)于被投影圖像的三維點的三坐標(biāo)被代入在特征空間中定義所述一組訓(xùn)練圖像的模型的多項式中,從而確定特征空間中被投影圖像與模型之間的距離。如果被投影物體位于例如所述模型的界定距離之內(nèi),則被投影物體可以確定為手指。 現(xiàn)參照圖5-20更詳細(xì)地描述訓(xùn)練和識別階段的實現(xiàn)方式。圖4(a)是一處理流程圖,示出了用于訓(xùn)練系統(tǒng)100識別圖像中作為手指的物體的示例性處理400。處理400從創(chuàng)建被表面104或ROI 116中的其他物體始終反射的IR的BGM (操作402)開始。然后通過照相機(jī)108捕捉各種不同取向的手指114的大量輸入圖像(操作404)。然后,從每個輸入圖像減去BGM(操作406)。然后,每個圖像的表示手指114的部分被從圖像中抽取出來,并轉(zhuǎn)換成標(biāo)準(zhǔn)的nXn圖像尺寸(操作408)。每個圖像中表示手指114的部分可以利用斑點分析算法,如Grassfire算法來抽取,或者每個圖像中表示手指114的部分可以根據(jù)圖像的視覺表現(xiàn)手動抽取。所抽取的圖像中表示手指的部分可以包括大量像素。為了降低處理圖像中表示手指的該部分所需的計算能力,可能希望減少用來表示手指的像素的數(shù)量。因此,所抽取的圖像中表示手指的部分的分辨率可以降低。例如,原始圖像中表示手指的部分可以是64X64像素的。在圖像中表示手指的該64X64的部分從圖像中被抽取之后,所抽取的手指的分辨率可以降低至該手指用16X16的圖像表示。圖5示出手指502的示例性的nXn圖像500。然后定義一組nXn訓(xùn)練圖像的特征空間(操作410)。圖4(b)中更詳細(xì)地示出了操作410。首先,確定所述一組訓(xùn)練圖像的協(xié)方差矩陣C(操作410(a))。如果整形之后的nXn圖像Ι(ηΧη)用向量Vw表示,其中m = η2,貝U所述一組t個訓(xùn)練圖像U1,12,. . . , ItI的協(xié)方差矩陣C可以定義為C = GtG(2)其中G是具有元素Gi,」=(Vijj-Ui)的t Xm的矩陣,其中Vm是向量Vi的第j個元素,Vi是所述訓(xùn)練組的整形之后的圖像Ii的向量,μ i是向量Vi的中值。因此,協(xié)方差矩陣C是mXm矩陣。然后,可以確定協(xié)方差矩陣的特征值和特征向量(操作410(b))。協(xié)方差矩陣的特征值和特征向量可以通過解以下方程而獲得Δ = Φτ0Φ(3)其中Λ是協(xié)方差矩陣C的一組特征值,Φ是協(xié)方差矩陣C的一組特征向量。美國專利No. 5710833中描述這種處理。mXm的協(xié)方差矩陣可以具有m個特征值和m個特征向量,每個特征向量對應(yīng)于一個特征值。因此,用于一組16 X 16的訓(xùn)練圖像的256 X 256的協(xié)方差矩陣會具有256個特征值和256個對應(yīng)的特征向量。另外,每個特征向量會是長度256的列向量。協(xié)方差矩陣C的所有特征向量彼此垂直。因此,通過選擇協(xié)方差矩陣C的一組特征向量并利用每個所選擇的特征向量定義空間中的一個方向(即,維度),可以定義一組訓(xùn)練圖像的特征空間(操作410(c))。對應(yīng)于協(xié)方差矩陣C的最大特征值的特征向量指示所述一組圖像表現(xiàn)出最大變化的方向。因此,所述一組訓(xùn)練圖像中包含的數(shù)據(jù)的大部分可以通過選擇協(xié)方差矩陣C的對應(yīng)于若干最大特征向量的一組特征向量來表征。在一種實現(xiàn)方式中,協(xié)方差矩陣C的對應(yīng)于三個最大特征值的特征向量被選擇用于定義三維特征空間。在定義了特征空間之后,將來自所述一組訓(xùn)練圖像的每個訓(xùn)練圖像投影到特征空間中(操作410(d))。每個nXn的圖像I(nXn)被轉(zhuǎn)換成向量Vw,其中m = η2。例如,如果圖像Ι(ηΧη)是16X16的圖像,則向量Vw是長度為256 (m = η2 = 16X 16 = 256)的行向量。特征空間可由一個mXq的矩陣來定義,其中,q是被選擇用來定義特征空間的特征向量 的數(shù)量,矩陣的q列中的每一個表示被選來定義特征空間的特征向量中的一個。然后向量Vw可以乘以定義特征空間的mXq矩陣,得到一個IXq的矩陣或行向量,其中該行向量的每個元素標(biāo)識特征空間中的一個對應(yīng)坐標(biāo)。例如,16X16的圖像I(16X16)可以用256X 1的列向量V(256X 1)表示。如果所述一組訓(xùn)練圖像的特征空間用三個特征向量定義,則圖像向量V(256X 1)的轉(zhuǎn)置可以乘以定義特征空間的256X3的矩陣,以得到定義被投影圖像在所述三維特征空間中的三坐標(biāo)的1X3的行向量。這樣,圖像在特征空間中的投影可以有效減少圖像的維數(shù)。圖像在特征空間中的投影是有著與特征空間的維數(shù)相同多的坐標(biāo)的單個點。例如,圖像在三維特征空間中的投影是一個三維點(即,該點由三個坐標(biāo)定義)。因此,當(dāng)nXn的圖像投影到三維特征空間中時,圖像從由η2個像素定義轉(zhuǎn)變?yōu)橛扇齻€坐標(biāo)標(biāo)識的單個點。圖6示出用于各種取向的一個或多個手指的所述一組訓(xùn)練圖像的三維特征空間600的示例。所述一組訓(xùn)練圖像中的每一圖像的投影用特征空間600中的一個三維點表示。因此,如圖6所示,將所述一組訓(xùn)練圖像投影到特征空間600中可以在特征空間600中生成訓(xùn)練點云團(tuán)602。該片訓(xùn)練點602可以表現(xiàn)出可識別的幾何形狀。例如,圖6中的訓(xùn)練點云團(tuán)602表現(xiàn)出雙曲面形或圓錐形形狀。所述訓(xùn)練點云團(tuán)602的形狀可以是手指的特定特征的函數(shù)。 當(dāng)手指114垂至于表面104時,手指114可以在照相機(jī)108捕捉的圖像中表現(xiàn)為基本上圓形的物體。即使用戶旋轉(zhuǎn)他/她的手,手指114可以在照相機(jī)108捕捉的圖像中繼續(xù)表現(xiàn)為基本上圓形的物體,只要手指114保持垂至于表面104。換句話說,如果手指114保持垂至于表面104,則即使手發(fā)生旋轉(zhuǎn),手指114在照相機(jī)108捕捉的一系列圖像中的形狀也可僅有略微變化。無論相對于照相機(jī)108手指114指在表面104上的什么位置上,都可以保持僅有略微變化。然而,如果用戶的手指114不垂至于表面104,手指114在照相機(jī)108捕捉的圖像中會表現(xiàn)為帶有尾部的亮點。尾部可以是被手指114的主體反射的IR。因此,如果手發(fā)生旋轉(zhuǎn),則尾部的角度旋轉(zhuǎn)。
7(a)和7(b)是說明性的。圖7 (a)是帶有尾部702 (a)的手指114的nXn圖像700(a)。在圖7(a)中,尾部702 (a)朝向圖像700 (a)的左上角。0 7(b)是帶有尾部702 (b)的同一手指114的nXn圖像。在圖7(b)中,尾部702 (b)朝向圖像700 (b)的右上角。尾部702 (a)、702(b)的不同取向可以解釋為在兩個圖像700 (a)、700 (b)中手指114相對于照相機(jī)108的方向不同。圖像700 (a)中的手指114和圖像700(b)中的手指114與表面104形成相同的非垂直角度。但是,圖像700(b)中的手指相對于圖像700(a)中的手指114的位置發(fā)生了旋轉(zhuǎn),使得圖像700(a)中的手指114和圖像700(b)中的手指114相對于垂直于表面104的表面(未不出)具有形成不同角度。由于兩個圖像700(a)、700(b)不同的事實,它們可由特征空間600中的訓(xùn)練點云團(tuán)602中的不同點來表示。但是,因為將圖像投影到特征空間600的處理是線性處理,所以帶有長度基本上相同但旋轉(zhuǎn)角度不同的尾部的捕捉手指114的一組圖像的投影可以在特征空間600中得到排列成基本上圓形圖形(未示出)的一組點。因此,盡管兩個圖像700 (a) ,700 (b)在特征空間600中的訓(xùn)練點云團(tuán)602中會以不同的點表示,但是它們在特征空間中會沿基本上圓形的圖形排列。 圖像中手指的尾部的長度也會影響圖像在特征空間600中的投影位置。如以上就圖7(a)和7(b)所示,尾部長度基本上相同但旋轉(zhuǎn)角度不同的手指的圖像的投影在特征空間600中會排列成基本上圓形的圖形。相比于尾部同樣長但旋轉(zhuǎn)角度不同的手指114的一組圖像的投影,尾部同樣短但旋轉(zhuǎn)角度不同的手指114的一組圖像的投影可以排列成具有相對較小半徑的基本上圓形的圖形。圖6、8(a)、8(b)、9(a)和9 (b)是說明性的。圖6中形成訓(xùn)練點云團(tuán)602的頂點604的訓(xùn)練點可以與其中手指114表現(xiàn)為尾部很小或沒有的基本上圓形形狀的訓(xùn)練圖像相關(guān)聯(lián)。相反,圖6中形成訓(xùn)練點云團(tuán)602的基部606的訓(xùn)練點可以與其中手指114跟有一較長尾部的訓(xùn)練圖像相關(guān)聯(lián)。圖8(a)示出手指114的訓(xùn)練圖像800(a),其具有由于手指114與表面104之間的相對較小的角度引起的相對較長的尾部802 (a)。圖8(b)示出手指114的訓(xùn)練圖像800(b),其具有由于手指114與表面104之間的較大的角度而引起的相對較短的尾部802(b)。圖9(a)和9(b)示出兩個圖像800 (a)、800 (b)在三維特征空間600中的投影800 (a),、800(b),。如圖9(a)所示,具有較長尾部802 (a)的手指114的圖像800 (a)投影到所述訓(xùn)練點云團(tuán)602的基部附近的點800(a) ’,因為其具有相對較長的尾部802(a)。相反,具有較短尾部802(b)的手指114的圖像800(b)被投影到所述訓(xùn)練點云團(tuán)602的頂點604附近的點800 (b) ’上,因為其具有相對較短的尾部802 (b)。圖9(b)示出從所述訓(xùn)練點云團(tuán)602隔離出來的兩個圖像800(a)、800(b)在三維特征空間600中的投影800(a)’、800(b)’。如圖9(b)所示,投影800 (a)’與表現(xiàn)出同樣的相對較長尾部但是旋轉(zhuǎn)角度不同的手指圖像的投影一起排列成基本上圓形的圖形902。類似地,投影800(b) ’與表現(xiàn)出同樣的相對較短尾部但是旋轉(zhuǎn)角度不同的手指圖像的投影一起排列成基本上圓形的圖形904。所述訓(xùn)練點云團(tuán)602可以表現(xiàn)出可識別的幾何形狀,因此訓(xùn)練點云團(tuán)602可被修改以由能夠用多項式解析表達(dá)的幾何模型建模。為了方便用幾何模型擬合訓(xùn)練點云團(tuán)602,可以對每個訓(xùn)練點應(yīng)用被稱為“轉(zhuǎn)移至中心(TTC,Transfer-to-Centre) ”的技術(shù)(操作412)。在例如文獻(xiàn) Shamaie A. et. al. International Journal of Scientia Iranica,,,6(1), (1999)中描述了 TTC技術(shù)。TTC技術(shù)將數(shù)據(jù)組轉(zhuǎn)移至特征空間的中心。換句話說,數(shù)據(jù)組的中心被移到特征空間的原點。在對一組訓(xùn)練點應(yīng)用TTC技術(shù)之后,用模型擬合訓(xùn)練點云團(tuán)602 (操作414)。三維二次表面的通用方程式為F(x,y,z) = ax2+by2+cz2+dxy+exz+fyz+gz+hy+iz+l(4)如果訓(xùn)練點云團(tuán)602定義了一個理想的二次表面,則可以對云團(tuán)602中的每個點成立以下方程式F (x, y, z) = O(5)其中X,y和z是訓(xùn)練點云團(tuán)602中的每個點的坐標(biāo)。方程式4中的未知參數(shù)為Ψ = (a, b,c,d,e, f,g,h,i)。為了將訓(xùn)練點云團(tuán)602擬合為二次表面,確定方程式4中 的未知參數(shù)的值,使得對于訓(xùn)練點云團(tuán)602中的一組點,誤差函數(shù)被最小化。誤差函數(shù)由以下方程式定義
權(quán)利要求
1.一種方法,其包括 利用電磁輻射檢測物體; 利用識別模型來確定所檢測到的物體是否是預(yù)定的物體,所述識別模型被用來確定所檢測到的物體是否是所述預(yù)定的物體類型;以及 如果確定所檢測到的物體是所述預(yù)定的物體類型,那么基于所檢測到的物體向計算機(jī)應(yīng)用產(chǎn)生一個輸入。
2.如權(quán)利要求I所述的方法,其中所述電磁輻射被投射到接近表面,且其中所述物體在所述表面附近。
3.如權(quán)利要求2所述的方法,其中所述電磁輻射投射到表面的第一側(cè)面,且所述物體在所述表面的第二側(cè)面附近。
4.如權(quán)利要求3所述的方法,其中所述第一側(cè)面與所述第二側(cè)面是對應(yīng)的。
5.如權(quán)利要求I所述的方法,其中所述物體是手指。
6.如權(quán)利要求I所述的方法,其中所述利用電磁輻射檢測物體包括 捕捉具有多個數(shù)據(jù)元素的圖像。
7.如權(quán)利要求I所述的方法,其中所述識別模型通過方程式定義在多維空間中。
8.如權(quán)利要求I所述的方法,其中所述識別模型是所述預(yù)定的物體類型的多個訓(xùn)練圖像的特征。
9.如權(quán)利要求I所述的方法,其中所述識別模型包括多維空間中的多個訓(xùn)練點,其中每一個訓(xùn)練點對應(yīng)一個或多個訓(xùn)練圖像。
10.如權(quán)利要求I所述的方法,其中所述識別模型被訓(xùn)練以基于所檢測到的物體的外觀來確定所檢測到的物體是否是所述預(yù)定的物體類型。
11.一種系統(tǒng),其包括 照相機(jī),其被配置以利用電磁輻射檢測物體;和 處理裝置,其被配置以 利用識別模型來確定所檢測到的物體是否是預(yù)定的物體,所述識別模型被用來確定所檢測到的物體是否是所述預(yù)定的物體類型;以及 如果確定所檢測到的物體是所述預(yù)定的物體類型,那么基于所檢測到的物體向計算機(jī)應(yīng)用產(chǎn)生一個輸入。
12.如權(quán)利要求11所述的系統(tǒng),其中所述電磁輻射被投射到接近表面,且其中所述物體在所述表面附近。
13.如權(quán)利要求12所述的系統(tǒng),其中所述電磁輻射被投射到表面的第一側(cè)面,且所述物體在所述表面的第二側(cè)面附近。
14.如權(quán)利要求13所述的系統(tǒng),其中所述第一側(cè)面與所述第二側(cè)面是對應(yīng)的。
15.如權(quán)利要求11所述的系統(tǒng),其中所述物體是手指。
16.如權(quán)利要求11所述的系統(tǒng),其中所述識別模型通過方程式定義在多維空間中。
17.如權(quán)利要求11所述的系統(tǒng),其中所述識別模型是所述預(yù)定的物體類型的多個訓(xùn)練圖像的特征。
18.如權(quán)利要求11所述的系統(tǒng),其中所述識別模型包括多維空間中的多個訓(xùn)練點,其中每一個訓(xùn)練點對應(yīng)一個或多個訓(xùn)練圖像。
19.如權(quán)利要求11所述的系統(tǒng),其中所述識別模型被訓(xùn)練以基于所檢測到的物體的外觀來確定所檢測到的物體是否是所述預(yù)定的物體類型。
20.一種依附于非易失性處理器可讀媒體的計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品包括處理器可讀指令,所述指令被配置致使處理器以 利用識別模型來確定所檢測到的物體是否是預(yù)定的物體,所述識別模型被用來確定所檢測到的物體是否是所述預(yù)定的物體類型;以及 如果確定所檢測到的物體是所述預(yù)定的物體類型,那么基于所檢測到的物體向計算機(jī)應(yīng)用產(chǎn)生一個輸入。
21.如權(quán)利要求20所述的計算機(jī)程序產(chǎn)品,其中所述電磁輻射被投射到接近表面,且其中所述物體在所述表面附近。
22.如權(quán)利要求21所述的計算機(jī)程序產(chǎn)品,其中所述電磁輻射投射到表面的第一側(cè)面,且所述物體在所述表面的第二側(cè)面附近。
23.—種設(shè)備,其包括 檢測裝置,其用于利用電磁輻射來檢測物體; 確定裝置,其用于利用識別模型來確定所檢測到的物體是否是預(yù)定的物體,所述識別模型被用來確定所檢測到的物體是否是所述預(yù)定的物體的類型;以及 產(chǎn)生裝置,其用于如果確定所檢測到的物體是所述預(yù)定的物體類型,那么基于所檢測到的物體向計算機(jī)應(yīng)用產(chǎn)生一個輸入。
24.如權(quán)利要求23所述的設(shè)備,其中所述電磁輻射被投射到接近表面,且其中所述物體在所述表面附近。
25.如權(quán)利要求24所述的設(shè)備,其中所述電磁輻射投射到表面的第一側(cè)面,且所述物體在所述表面的第二側(cè)面附近。
26.如權(quán)利要求23所述的設(shè)備,其中所述利用電磁輻射檢測物體的檢測裝置包括 用于捕捉具有多個數(shù)據(jù)元素的圖像的裝置。
全文摘要
根據(jù)公開的一種方法,相應(yīng)于表征特定物體的圖像點確定多維空間中的坐標(biāo)。提供描述該空間中的模型的方程式。該模型表現(xiàn)一個或多個其它物體的一組訓(xùn)練圖像的特征。所述坐標(biāo)被代入所述方程式以確定圖像點與模型之間的距離?;谒_定的距離,確定特定物體是否匹配所述一個或多個其它物體??梢越邮找唤M訓(xùn)練圖像?;谠摻M訓(xùn)練圖像可以確定一多維空間(例如,特征空間)。通過將該組訓(xùn)練圖像投影到所述空間可以生成一組訓(xùn)練點??梢源_定描述表現(xiàn)所述一組訓(xùn)練點的特征的所述空間中的一模型的方程式。
文檔編號G06K9/62GK102831387SQ20121015350
公開日2012年12月19日 申請日期2006年1月6日 優(yōu)先權(quán)日2005年1月7日
發(fā)明者阿提德·沙梅 申請人:高通股份有限公司