致正確匹配數(shù)目的小于5%的損失。
[0063]注意,對于所述示范性實施方案,可使用霍夫變換來將可靠模型假設集群以搜索在特定模型姿勢上一致的關鍵點??墒褂没舴蜃儞Q來通過使用每一特征選出可與所述特征一致的對象姿勢而識別具有一致解釋的特征群集。當發(fā)現(xiàn)特征群集選出對象的相同姿勢時,解釋正確的概率可高于任何單個特征??僧a(chǎn)生雜湊表中的條目以依據(jù)匹配假設預測模型地點、定向及縮放??伤阉麟s湊表以識別在區(qū)間中具有至少3個條目的群集,且可將區(qū)間排序成大小的降序。
[0064]根據(jù)本發(fā)明的方面,SIFT關鍵點中的每一者可指定2D地點、縮放及定向。此外,數(shù)據(jù)庫中的每一匹配關鍵點可具有與訓練圖像(在其中發(fā)現(xiàn)所述關鍵點)有關的其參數(shù)的記錄。由這4個參數(shù)暗示的相似度變換可近似等于3D對象的6自由度姿勢空間,并且也不考量任何非硬質(zhì)變形。因此,示范性實施方案可對于定向使用30度的寬區(qū)間大小,對于縮放使用因數(shù)2,且對于地點使用0.25倍的最大投影訓練圖像維度(使用預測縮放)??上蛞暂^大縮放產(chǎn)生的SIFT關鍵樣本給出兩倍于以較小縮放產(chǎn)生的樣本的權重。對于此方法,較大縮放可實際上能夠濾出用于以較小縮放進行檢查的最可能相鄰者。此方法還通過向噪聲最小的縮放給出較大權重而改進辨識性能。根據(jù)本發(fā)明的方面,為避免區(qū)間指派中的邊界效應問題,每一關鍵點匹配可在每一維度中選出2個最近的區(qū)間,從而對于每一假設得到總共16個條目且進一步加寬了姿勢范圍。
[0065]根據(jù)本發(fā)明的方面,對于給定參數(shù)解,可通過檢查每一圖像特征與模型之間的一致性來移除離群值。舉例來說,給定線性最小平方解,可能需要每一匹配在用于霍夫變換區(qū)間中的參數(shù)的錯誤范圍的一半內(nèi)一致。在離群值被舍棄時,可用剩余點來求解線性最小平方解,且所述過程可迭代。在一些實施方案中,如果在舍棄離群值之后剩余小于預定數(shù)目個點(例如,3個點),則可拒絕所述匹配。此外,可使用自上向下的匹配階段來添加與所投影模型位置一致的任何進一步匹配,所述匹配可能歸因于相似度變換近似或其它錯誤而從霍夫變換區(qū)間錯過。
[0066]接受或拒絕模型假設的決策可基于詳述的概率模型。給定模型的投影大小、區(qū)域內(nèi)特征的數(shù)目及擬合的準確度,所述方法首先計算到模型姿勢的錯誤匹配的預期數(shù)目。貝葉斯概率分析可接著給出可基于所發(fā)現(xiàn)的匹配特征的實際數(shù)目呈現(xiàn)對象的概率。如果正確解釋的最終概率大于預定百分比(例如95% ),則可接受模型。
[0067]根據(jù)本發(fā)明的方面,在一種方法中,旋轉(zhuǎn)不變特征變換(RIFT)方法可用作SIFT的旋轉(zhuǎn)不變一般化以解決雜物下或部分遮擋情境??墒褂脛澐殖上嗟葘挾鹊耐沫h(huán)的圓形歸一化片來建構RIFT描述符,且在每一環(huán)內(nèi),可計算梯度定向直方圖。為維持旋轉(zhuǎn)不變性,可在每一點處相對于從中心指向外的方向測量定向。
[0068]在另一方法中,可使用一般化的穩(wěn)健不變特征(G-RIF)方法。G-RIF以組合感知信息與空間編碼的統(tǒng)一形式編碼邊緣定向、邊緣密度及色調(diào)信息。對象辨識方案使用基于相鄰上下文的表決來估計對象模型。
[0069]在又一方法中,可使用加速穩(wěn)健特征(SURF)方法,其使用縮放及旋轉(zhuǎn)不變關注點檢測器/描述符,在可重復性、獨特性及穩(wěn)健性方面,其可能性能優(yōu)于先前所提議的方案。SURF依賴于整體的圖像用于圖像卷積以減少計算時間,且依靠最主要的現(xiàn)有檢測器及描述符的強度(對于檢測器及分布式描述符使用基于快速赫斯矩陣的測量)。SURF方法描述哈爾小波響應(Haar wavelet response)在關注點領域內(nèi)的分布。整體的圖像可用于速度,且64個維度可用以減少用于特征計算及匹配的時間。編索引步驟可基于拉普拉斯(Laplacian)的正負號,其增大描述符的匹配速度及穩(wěn)健性。
[0070]在又一方法中,可使用主分量分析SIFT(PCA-SIFT)方法。在一些實施方案中,PCA-SIFT描述符為在支持區(qū)域內(nèi)計算的在X及y方向上的圖像梯度的向量。梯度區(qū)域可在39x39個地點處取樣。因此,向量可具有維度3042。通過PCA,維度可減小到36。在又一方法中,可使用梯度地點-定向直方圖(GLOH)方法,其為經(jīng)設計以增大其穩(wěn)健性及獨特性的SIFT描述符的擴展。在一些實施方案中,可針對在徑向方向上具有三個區(qū)間(半徑設定到6、11及15)且在傾斜方向上具有8個區(qū)間(其導致17個地點區(qū)間)的對數(shù)極坐標地點柵格計算SIFT描述符。中心區(qū)間可不在傾斜方向上進行劃分??稍?6個區(qū)間中量化梯度定向,從而導致272個區(qū)間的直方圖。通過PCA可減小此描述符的大小??筛鶕?jù)從各種圖像收集的圖像塊估計PCA的協(xié)方差矩陣。128個最大特征向量可接著用于描述。
[0071]在又一方法中,可使用兩對象辨識算法來配合當前移動裝置的限制而使用。與經(jīng)典 SIFT 方法相比,加速分段測試特征(Features from Accelerated Segment Test, FAST)拐角檢測器可用于特征檢測。此方法在離線準備階段(其中可以不同灰度層級產(chǎn)生特征)與在線階段(其中可以移動裝置的相機圖像的當前固定灰度層級產(chǎn)生特征)之間加以區(qū)分。在一個示范性實施方案中,可從預定固定片大小(例如15x15像素)產(chǎn)生特征,且所述特征形成具有36個維度的SIFT描述符??赏ㄟ^將可擴展詞匯樹(scalable vocabularytree)集成在辨識管線中而進一步擴展所述方法。此允許有效地辨識移動裝置上的大量對象。
[0072]根據(jù)本發(fā)明的方面,局部圖像特征的檢測及描述可有助于對象辨識。SIFT特征可為局部的且基于對象在特定關注點處的外觀,且對于圖像縮放及旋轉(zhuǎn)可為不變的。其對于照明、噪聲的改變及視點的較小改變也可為穩(wěn)健的。除這些特性之外,特征可為高度獨特的,相對容易提取且允許以低失配概率正確地識別對象??上鄬θ菀椎貙φ站植刻卣鞯?大)數(shù)據(jù)庫來匹配特征,且通??墒褂美缇哂凶罴褏^(qū)間優(yōu)先搜索的k維(k-d)樹等概率算法。通過一組SIFT特征進行的對象描述對于部分遮擋也可為穩(wěn)健的。舉例來說,來自對象的少到3個SIFT特征可足以計算其地點及姿勢。在一些實施方案中,對于小數(shù)據(jù)庫且在現(xiàn)代計算機硬件上,可準實時地執(zhí)行辨識。
[0073]根據(jù)本發(fā)明的方面,可使用隨機樣本一致性(RANSAC)技術來移除由相機視圖中的移動對象引起的離群值。注意,RANSAC使用迭代方法來從含有離群值的一組所觀測數(shù)據(jù)來估計數(shù)學模型的參數(shù)。此方法可為非確定性的,因為其以相關聯(lián)概率產(chǎn)生合理結果,其中所述概率可隨著執(zhí)行更多迭代而增大。
[0074]在一個示范性實施方案中,一組觀測到的數(shù)據(jù)值,可以對應置信度參數(shù)擬合到觀測結果的參數(shù)化模型。在此示范性實施方案中,所述方法迭代地選擇原始數(shù)據(jù)的隨機子組。這些數(shù)據(jù)可為假想的群內(nèi)值(inlier),且可接著如下測試所述假設:
[0075]1.可將模型擬合到假想的群內(nèi)值,即從所述群內(nèi)值重建構模型的所有自由參數(shù)。
[0076]2.接著可對照擬合的模型測試所有其它數(shù)據(jù),且如果一點良好地擬合到所述估計模型,則可認為其是假想的群內(nèi)值。
[0077]3.如果已將足夠數(shù)目的點分類為假想的群內(nèi)值,則可認為所述估計模型可接受。
[0078]4.可從所有假想群內(nèi)值重新估計所述模型,因為其僅已從初始組假想群內(nèi)值進行了估計。
[0079]5.最終,可通過相對于模型估計群內(nèi)值的錯誤來評估所述模型。
[0080]每當產(chǎn)生因為過少的點被分類為群內(nèi)值而可被拒絕的模型或與對應錯誤測量一起產(chǎn)生改進的模型時,可重復以上程序預定次數(shù)。在后一種情況下,如果錯誤低于先前保存的模型,則可保持所述改進的模型。
[0081]在另一示范性實施方案中,可使用基于模型的運動跟蹤方法來主動地識別并移除在相機視圖中的移動對象。在一種方法中,跟蹤的目標可處理為模型辨識問題。可跟蹤目標的二進制表示,且可使用基于豪斯多夫距離(Hausdorff distance)的搜索來在圖像的若干區(qū)域中搜索對象。對于目標的二進制表示(模型),可用模型歷史的概念來擴增從高斯平滑化圖像的標準坎尼邊緣檢測器(canny edge detector)的輸出。在每一幀處,可使用來自當前圖像的坎尼邊緣及當前模型來對每一目標執(zhí)行豪斯多夫搜索。此外,可執(zhí)行仿射估計以大致得出凈背景運動。從這兩個搜索的結果,可搜集關于目標的信息,且可使用所述信息來大致得出目標的運動并且在目標的區(qū)域中將背景與運動分離開來。為能夠處置危險性/不尋常的條件(例如被遮擋的對象進入陰影中,對象離開幀,或相機圖像失真提供不良圖像質(zhì)量),可保持關于目標的歷史數(shù)據(jù),例如目標的過去運動及大小改變、目標的特征性視圖(在所有時間存在的快照,其提供已跟蹤目標的不同方式的準確表示),及在過去的匹配質(zhì)量。
[0082]跟蹤目標的歷史可不僅僅適用于輔助危險性/不尋常的條件;可靠的運動跟蹤方法的那一部分可涉及歷史數(shù)據(jù),而不僅僅是運動比較的逐幀方法。此歷史狀態(tài)可提供關于如何決定應將何內(nèi)容視為目標的部分的信息(例如,以相同速度移動的接近于對象移動的事物應并入所述對象中),且通過關于運動及大小的信息,所述方法可預測性地估計丟失的對象可能去往何處,或其可能重新出現(xiàn)于何處(其始終適用于恢復離開幀且在時間上稍后重新出現(xiàn)的目標)。
[0083]運動跟蹤方法中的固有挑戰(zhàn)可能由以下事實引起:相機可具有任意移動(相較于固定相機),其使得難以開發(fā)可處置相機運動的不可預測改變的跟蹤系統(tǒng)??墒褂镁哂嬎阈б娴姆律浔尘肮烙嫹桨竵硖峁╆P于相機及場景的運動的信息。
[0084]根據(jù)本發(fā)明的方面,可執(zhí)行時間t的圖像到時間t+dt的圖像的仿射變換,其允許使兩個圖像的運動相關。此背景信息允許所述方法從時間t的圖像及仿射變換(其可為凈場景運動的近似)合成時間t+dt的圖像。此合成圖像可適用于產(chǎn)生新模型信息及從模型空間移除背景雜物,因為可采用在t+dt的實際圖像與在t+dt處所產(chǎn)生的圖像的差異來從目標周圍的空間移除圖像特征。
[0085]除使用仿射變換作為清除搜索空間的工具之外,其還可用以歸一化目標的坐標移動:通過具有跟蹤背景可如何移動的向