專利名稱:物體識別用圖像數據庫的制作方法、處理裝置以及處理用程序的制作方法
技術領域:
本發(fā)明涉及一種物體識別用圖像數據庫的制作方法、處理裝置以及處理用程 序。更詳細地說,本發(fā)明涉及如下一種圖像數據庫的制作方法、處理裝置以及處理程 序能夠從圖像所涉及的數據庫中檢索示出有與出現在作為檢索問題(Query:查詢對 象)的圖像中的對象物一致的對象物的圖像。
背景技術:
當使用SIFT (Scale-Invariant Feature Transform 尺度不變特征轉換)等局部描
述符時,能夠實現對于隱藏、照明條件的變動具有魯棒性的物體識別,因此當前廣受 關注(例如參照非專利文獻1、2)。識別的基礎是被稱為〃 BagofWords"或〃 Bagof Features"的模型,不考慮局部描述符的配置、關聯(lián)(conjunction)而僅以該局部描述符的 頻率為線索來識別物體。在此,局部描述符表現了圖像的局部特征,按照規(guī)定的過程抽取局部描述符, 使得對于圖像的變動(幾何轉換或照明條件、分辨率的差異)具有穩(wěn)健(魯棒性)的特 性。另外,局部描述符是基于圖像的局部區(qū)域而決定的,因此對于隱藏也具有魯棒性。 在本說明書中也將局部描述符稱為特征矢量。這是由于該局部描述符是以矢量來表現 的。一般來說,從圖像中抽取的局部描述符的數量為數百到數千,根據情況可至數 萬,因此,局部描述符的對照所需的處理時間和存儲所需的存儲器容量龐大。因而,在 將識別精確度保持為固定水平的狀態(tài)下怎樣削減處理時間和存儲器容量成為了重要的研 究課題。例如,在代表性的局部描述符SIFT中,各局部描述符表現為128維的矢量。另 外,已知一種通過對SIFT實施主成分分析來削減維數的PCA-SIFT。盡管如此,作為實 際使用的PCA-SIFT的一例,其維數也為36維。并且,通常使用應用于一般的數值表現 的32位(bit)的float型或int型作為表示各維度的數值的數據類型。在需要更高的精確 度的情況下使用64位的double型。另一方面,在數值的范圍有限的情況下或即使犧牲精 確度也要削減存儲器容量的情況下,也有時特別地使用16位的short int型。即使在優(yōu)先 削減數據容量而特別地使用了 short int型的36維的PCA-SIFT的情況下,每個局部描述 符也需要16位X 36維=512位(64字節(jié))的存儲器。在最鄰近搜索中,通常對矢量進行距離計算來決定最鄰近的局部描述符。如 果降低各維度的數據的精確度則無法進行準確的最鄰近搜索,則認為圖像識別的精確度 (識別率)會降低,這在以往是公知常識。因此,以往在很多方法中,從如下方面進行研究將從用于制作模型的圖像中 得到的局部描述符矢量量化(通過搜集類似的局部描述符并分類為規(guī)定數量的組,來將 同一組的各局部描述符置換為該組的代表值進行表現的方法、聚類分析)來確定數千乃至數十萬的visual word (相當于上述代表值)、使用該visual word來記述圖像(例如,參 照非專利文獻3)。在對未知的圖像進行識別時,將從該圖像中得到的局部描述符轉換成 visual word并對頻率等進行測量。在這種研究中,如果visual word的數量足夠少則能夠 期待高速的處理。但是,另一方面,也被指出如果visual word的數量不多則無法達到足 夠的識別率(例如,參照非專利文獻4)。如果visual word的數量增加,則與此相應地無 法忽視矢量量化所需的計算時間,并且visual word本身的記錄也會導致在存儲器容量方 面產生問題。以上的優(yōu)點/問題點在極端的情況下、S卩、將從用于制作模型的圖像中得到的 各個局部描述符直接設為visual word的情況下最為明顯。例如,從VGA尺寸的通常的 圖像中可抽取兩千個左右的局部描述符。因而,在將VGA尺寸的10萬個圖像用于模型 制作的情況下,visual word的數量為2億,對照和存儲都需要龐大的計算資源。另一方 面,通過將大量的局部描述符使用于模型,能夠實現高精確度的識別。針對處理時間問題的解決方案之一是在局部描述符的對照中導入“近似最鄰近 搜索”(例如,參照非專利文獻5和專利文獻1)。由此,例如在執(zhí)行上述規(guī)模的識別任 務的情況下,可知與單純的全部對照的情況相比,該解決方案能夠基本不降低識別率而 使處理速度快至不足10Λ另一方面,針對存儲器容量的問題,使矢量量化稀疏是解決 方案之一,但是這意味著識別率的降低,因此并非上策。專利文獻1 國際公開第2008/026414號小冊子非專禾1J 文獻 1 D.Lowe “ Distinctive image features from scale-invariant keypoints “,International Journal of Computer Vision, Vol.60, No.2, pp.91-110, 2004非專禾丨J文獻 2 : J.Ponce, M.Hebert, C.Schmid and A.Ziss erman Eds.Toward Category-Level Object Recognition, Springer, 2006非專利文獻 3 : J.Sivic and A.Zisserman, Video google A text retrieval approach to object matching in videos, Proc.ICCV2003, Vol.2, pp.1470-1477, 2003非專利文獻 4 D.Nister and H.Stewenius, Scalable recognition with a vocabulary tree, Proc.CVPR2006, pp.775-7 81, 2006非專利文獻5:野口和人、黃瀬浩一、巖村雅一“近似最近傍探索O多段階 化e J 3物體O高速認識、“畫像Θ認識·理解* > ”力Λ (MIRU2007)論文集、 pp.111-118, July, 200
發(fā)明內容
發(fā)明要解決的問題根據以上的情況,本發(fā)明從一種異于以往的觀點出發(fā)提供了解決方案。即,基 于以下的觀點提供了解決方案在使用了局部描述符的物體識別中,在將識別精確度保 持為固定水平的狀態(tài)下怎樣削減處理時間和存儲器容量。具體地說,發(fā)明者們研究了在可以忽視對識別率的影響的范圍內將表示局部描 述符的各維度的數值的精確度縮小至極限的可能性。這是出于如下考慮如上述專利 文獻1那樣提供了能夠在短時間內從很多局部描述符中搜索到最鄰近的局部描述符的發(fā) 法,如果對存儲器容量的削減制定某個程度的目標,則通過不使用visual word的直接檢索能夠高精確度地進行物體識別。特別地,在以不僅識別物體的類別也識別物體的實例為目的的用途中,期望一 種高精確度、高速且高存儲效率的手法。visual word本質上與分組相稱,因此存在雖然 對類別程度的識別有效但是不適于實例程度的識別的一面。認為本發(fā)明的方法對于實例 程度的識別特別有效。但是,并不排除將本發(fā)明應用于類別程度的識別以及使用了 visual word的方法中。在此,類別識別指的是當提供識別對象(檢索問題)時回復(識別)例如椅子、 機動車等物體的類別作為結果。與此相對地,實例識別指的是對例如機動車這種類別中 的特定型號等的物體實例進行識別。用于解決問題的方案發(fā)明者們銳意研究,結果與上述的技術常識相反地意外發(fā)現即使利用少于實數 型或整數型數據的結構位數來表現局部描述符的各維度,該結構位數降低到2位識別率 也基本不會降低。使用實數型或整數型數據、具體地說32位的數據來表現特征矢量的各 維度是本技術領域的常識。但是,發(fā)現即使以少于該32位數據的結構位數、例如8位以 下的精確度來表現局部描述符的各維度,在該結構位數降低到2位時識別率也基本不會 降低。另外,發(fā)現了即使該結構位數是1位,與0位、即不進行矢量的距離計算的方法 相比也能夠得到與2位的識別率相近的良好結果。并且,還發(fā)現了該結果對多數表決處 理起很大作用。然后,根據這些見解完成了本申請。S卩,作為解決上述問題的方式,本發(fā)明并未研究縮小通過矢量量化得到的visual word的范圍的,而對削減每個局部描述符的記錄所需的存儲器量進行研究。具體地說, 對于表現局部描述符的矢量,將記錄所需的各維度的位數削減為少于實數型或整數型數 據(32位)的結構位數。這可以視作對局部描述符應用了標量量化。本發(fā)明提供了一種物體識別用圖像數據庫的制作方法,具備特征抽取工序, 從要登記于圖像數據庫的示出物體的圖像中抽取分別表現該圖像的各處的局部特征的矢 量作為多個局部描述符;標量量化工序,對上述矢量的每個維度進行標量量化;以及 登記工序,將上述圖像和與該圖像對應的多個矢量登記于上述圖像數據庫,其中,對通 過上述標量量化工序進行了量化的各矢量進行系統(tǒng)化來進行登記,通過系統(tǒng)化以能夠執(zhí) 行近似最鄰近搜索,并且對該各矢量分別附加用于確定抽取出各矢量的圖像的圖像標識 符,各工序是由計算機執(zhí)行的,在上述登記工序進行各矢量的登記使得能夠進行以下動 作在多個圖像被登記于上述圖像數據庫且提供了示出作為問題的物體的一個圖像作為 查詢對象時,計算機通過與上述抽取工序同樣的過程從上述查詢對象中抽取多個查詢對 象局部描述符,通過與上述標量量化工序同樣的過程將各查詢對象局部描述符量化,使 用上述近似最鄰近搜索的算法從上述圖像數據庫所登記的矢量中檢索作為各查詢對象局 部描述符的鄰近矢量的矢量,獲取附加于上述鄰近矢量的圖像標識符,根據所獲取的圖 像標識符來決定示出作為問題的物體的至少一個圖像,在上述標量量化工序中將各矢量 的維度量化為規(guī)定位數的標量值。另外,基于不同的觀點,本發(fā)明提供了一種物體識別用圖像數據庫的處理裝 置,具備特征抽取部,其從要登記于圖像數據庫的示出物體的圖像中抽取分別表現該 圖像的各處的局部特征的矢量作為多個局部描述符;標量量化部,其對上述矢量的每個維度進行標量量化;登記部,其將上述圖像和與該圖像對應的多個矢量登記于上述圖像 數據庫,其中,對通過上述標量量化工序進行了量化的各矢量進行系統(tǒng)化來進行登記, 通過系統(tǒng)化以能夠執(zhí)行近似最鄰近搜索,并且對該各矢量分別附加用于確定抽取出各矢 量的圖像的圖像標識符;以及檢索部,其在多個圖像被登記于上述圖像數據庫且提供了 示出作為問題的物體的一個圖像作為查詢對象時,與要登記的圖像同樣地上述抽取部從 上述查詢對象中抽取多個查詢對象局部描述符,與要登記的圖像同樣地上述標量量化部 將各查詢對象局部描述符量化,之后使用上述近似最鄰近搜索的算法從登記于上述圖像 數據庫的矢量中檢索作為各查詢對象局部描述符的鄰近矢量的矢量,獲取附加于上述鄰 近矢量的圖像標識符,根據所獲取的圖像標識符來決定示出作為問題的物體的至少一個 圖像,其中,上述標量量化部將各矢量的維度量化為規(guī)定位數的標量值。并且,基于不同的觀點,本發(fā)明提供了一種物體識別用圖像數據庫的處理程 序,使計算機作為以下各部而發(fā)揮功能特征抽取部,其從要登記于圖像數據庫的示出 物體的圖像中抽取分別表現該圖像的各處的局部特征的矢量作為多個局部描述符;標量 量化部,其對上述矢量的每個維度進行標量量化;登記部,其將上述圖像和與該圖像對 應的多個矢量登記于上述圖像數據庫,其中,對通過上述標量量化工序進行了量化的各 矢量進行系統(tǒng)化來進行登記,通過系統(tǒng)化以能夠執(zhí)行近似最鄰近搜索,并且對該各矢量 分別附加用于確定抽取出各矢量的圖像的圖像標識符;以及檢索部,其在多個圖像被登 記于上述圖像數據庫且提供了示出作為問題的物體的一個圖像作為查詢對象時,與要登 記的圖像的動作同樣地上述抽取部從上述查詢對象中抽取多個查詢對象局部描述符,與 要登記的圖像同樣地上述標量量化部將各查詢對象局部描述符量化,之后使用上述近似 最鄰近搜索的算法從登記于上述圖像數據庫的矢量中檢索作為各查詢對象局部描述符的 鄰近矢量的矢量,獲取附加于上述鄰近矢量的圖像標識符,根據所獲取的圖像標識符來 決定示出作為問題的物體的至少一個圖像,其中,上述標量量化工序將各矢量的維度量 化為規(guī)定位數的標量值。發(fā)明的效果在本發(fā)明的物體識別用圖像數據庫的制作方法中,在上述標量量化工序中將各 局部描述符的各維度量化為少于實數型或整數型數據的結構位數,因此能夠削減表現各 局部描述符所需的存儲器容量。因而,即使在記錄很多局部描述符(或者visual word)的 情況下,也能夠在小于不執(zhí)行標量量化工序的現有方法的容量的存儲器中制作圖像數據庫。按常識來看,當以較少的位數表現特征矢量時,預計會出現識別率降低等不良 影響。但是,如在后述的實驗結果中也示出的那樣,發(fā)現即使將各維度削減至2位,與 不進行量化的情況相比識別率也基本不降低。即使在各維度為1位的情況下,與0位、 即不進行矢量的距離計算的方法相比,也能夠得到非常高的識別率。在本發(fā)明中,局部描述符是以矢量來表現圖像的局部特征。其具體的方式例如 是SIFT。在后述的實施方式中,應用PCA-SIFT作為局部描述符的一例。將各局部描述符系統(tǒng)化為能夠進行最鄰近搜索是指從要登記于圖像數據庫的 圖像中抽取局部描述符,將這些局部描述符與上述圖像相對應地登記為數據庫。當提供 了某個局部描述符時,從登記于上述數據庫的局部描述符中決定最鄰近的局部描述符的
7處理即是最鄰近搜索。評價是否是最鄰近的方法的一例如下計算兩個矢量的距離,將 距離最短的矢量作為最鄰近。下面,對本發(fā)明的優(yōu)選實施方式進行說明。較為理想的是,上述標量量化工序將各局部描述符的各維度量化為8位以下。 更為理想的是,上述標量量化工序將各局部描述符的各維度量化為2位。如在后述的實 驗結果中也示出的那樣,例如在將記錄特征矢量的各維度的位數設為2位的情況下,與 不進行量化的情況相比,能夠削減所需存儲器容量(后述的實驗例中為1/3左右)。此 時,雖然為了進行位運算而處理時間稍微增長(在后述的實驗例中為1.6倍左右),但是 識別率基本不降低。另外,即使是將各維度設為8位的情況,在后述的實驗例中也能夠 將所需存儲器容量削減為2/3左右。另外,在上述登記工序中,以也可以將規(guī)定的哈希函數應用于量化后的各局部 描述符來算出哈希表的索引值,與所算出的索引值相對應地登記量化后的各局部描述符 的各維度的值、用于識別要登記的圖像的標識符以及上述圖像的參照目的地,并且,在 對應于同一索引值而登記的局部描述符的數量超過規(guī)定數量的情況下,不再對該索引值 登記任何局部描述符。能夠通過使用哈希表來實現高速的最鄰近搜索處理。并且,在對 應于同一索引值而登記的局部描述符的數量超過規(guī)定數量的情況下,不再登記這些局部 描述符,由此能夠將識別力較弱的局部描述符從最鄰近搜索處理的對象中排除。因而, 能夠不犧牲搜索的精確度而在短時間內進行搜索。在屬于在哈希表中被分類的一類(索引)的局部描述符的數量較多的情況下,可 以說這些局部描述符的識別能力較低。即,在從輸入圖像的局部描述符算出索引值來參 照哈希表的情況下,登記了很多屬于該類的候補。這些局部描述符對鎖定識別對象不太 有貢獻,可以說識別能力較低。如果將識別能力低的局部描述符從搜索對象中排除,則 可以僅參照識別能力高的局部描述符來進行高效的識別。并且,在上述標量量化工序中,也可以在對從檢索問題中抽取出的局部描述符 進行量化時,對超過量化的閾值的多個值算出索引值,從對應于某一個索引值而登記的 局部描述符中決定最鄰近的局部描述符。這樣,包含量化的誤差范圍在內地算出哈希表 的索引值,因此能夠抑制由于量化而導致的識別率降低。例如,在登記于圖像數據庫的圖像是從不同視點觀看檢索問題所涉及的物體而 得到的圖像的情況下,在所登記的圖像與檢索問題之間處于對應關系的特征矢量的各維 度的值有時會不同。即,各特征矢量對于視點的變化(幾何變換)具有魯棒性,但是并不 是完全的不變量,有時會發(fā)生變動。哈希表通過規(guī)定的計算過程(哈希函數的計算)來 基于各特征矢量的各維度的值算出作為離散值的索引值。在此,當對應的特征矢量的量 化后的值由于變動而不同時,很有可能會算出不同的索引值。當檢索對象的特征矢量與 檢索問題的特征矢量的索引值不同時,根據這一對特征矢量無法得到正確的搜索結果。 因此,考慮由于變動而各維度的值超過量化的閾值的情況,不僅計算量化后得到的各維 度的值的索引值,對超過量化的閾值的值也計算索引值,從對應于某一個索引值而登記 的特征矢量中決定最鄰近的特征矢量。這樣,能夠抑制變動導致的識別率的降低。換言 之,在特征矢量的某個維度的值與量化的閾值相近的情況下,也考慮超過閾值的可能性 來計算索引值,由此能夠確保識別率。
在上述特征抽取工序中也可以將以32位表現各維度的矢量值作為各局部描述符 抽取出來。另外,對檢索問題的各局部描述符決定最鄰近的局部描述符的處理也可以是對 局部描述符之間的距離進行計算來決定距離最近的局部描述符的處理。也能夠將在此示出的各種優(yōu)選方式的多個進行組合。
圖1是說明本發(fā)明所涉及的標量量化的方法的一例的說明圖。圖2是表示在本實施方式的實驗例中使用的登記圖像的例的圖。圖3是表示本實施方式所涉及的圖像數據庫中的特征矢量的各維度的分布f(x) 的圖表。圖4是表示在本實施方式的實驗例中使用的檢索問題的例的圖。圖5是表示在本實施方式的實驗例中特征矢量的容量與識別率之間的關系的圖表。圖6是表示在本實施方式的實驗例中登記圖像數與識別率、處理時間之間的關 系的圖表。圖7是表示在本實施方式的實驗例中參數c與識別率、處理時間之間的關系的圖表。圖8是表示在本實施方式的實驗例中參數b、e與識別率、處理時間之間的關系 的圖表。圖9是表示本實施方式的實驗例以及作為現有方法的代表例的ANN的識別率與 處理時間的特性的圖表。圖10是表示向本實施方式所涉及的物體識別用圖像數據庫登記圖像的登記過程 的流程圖。圖11是表示以通過圖10的過程登記圖像而得到的圖像數據庫為對象來進行識別 (檢索)時的過程的流程圖。圖12是表示本發(fā)明的物體識別用圖像數據庫的處理裝置的功能性結構的框圖。附圖標記說明1 圖像數據庫處理裝置;11 特征抽取部;13 標量量化部;15 登記部; 17 檢索部;21 登記圖像;23 檢索問題;25 圖像數據庫;27 識別結果。
具體實施例方式《近似最鄰近搜索的現有方法》在詳細說明本發(fā)明之前,對近似最鄰近搜索的現有方法進行總結。在此所采納 的現有方法即是在后述的實驗例中使用的方法。在最鄰近搜索中最耗費時間的是距離計算。為了使最鄰近搜索高速,存在高速 進行各個距離計算本身和高效地鎖定距離計算的對象這兩種方法。在近似最鄰近搜索 中,主要通過大膽進行后者的鎖定來削減處理時間。但是作為其代價,有可能將最鄰近 從距離計算的對象中排除而求不出最鄰近。什么程度的近似較為適當依賴于作為對象的任務,因此在近似最鄰近搜索的方法中,設置有用于調節(jié)近似程度的參數。下面,對作 為近似最鄰近搜索的代表手法的ANN進行說明。ANN (Approximate Nearest Neighbor (近似最鄰近搜索)的縮寫。詳情參照 S.Arya, D.M.Mount, R.Silverman and A.Y.Wu " An optimal algorithm for approximate nearest neighbor searching " ’ Journal of the ACM, Vol.45, No.6, pp.891-923, 1998) 是使用二叉樹來高速進行近似最鄰近搜索的方法。樹的節(jié)點與分割特征空間得到的 hyperrectangle (超矩形)對應,葉節(jié)點所與單一特征矢量相對應。在ANN中,通過樹結 構的搜索來收集成為距離計算的對象的特征矢量,將其中距離最短的特征矢量作為近似 最鄰近搜索的結果而輸出。在ANN中,作為表示近似的程度的參數,存在允許誤差ε。 如果ε較大,則進行更大幅度的近似來鎖定成為對象的特征矢量,因此能夠縮短處理時 間?!秾嵤┓绞健废旅妫褂酶綀D來進一步詳細敘述本發(fā)明。此外,在下面的說明中,所有點都 是例示,不應理解為是對本發(fā)明的限定。1.1.想法使用局部描述符進行識別的現有方法的問題在于,由于特征矢量的數量較多, 因此在進行大規(guī)模識別的情況下存儲器使用量和處理時間都會變得龐大。對于處理時間的問題,野口等人提出了一種將利用近似最鄰近搜索的識別器多 級連接來削減處理時間的方法(參照非專利文獻5和專利文獻1)。但是,該方法中沒有 涉及到存儲器使用量的問題。如果查看該方法的存儲器使用量的明細,則可知其八成左 右用于保持特征矢量。因此,在本實施方式中,嘗試以野口等人的方法為基礎,通過將 特征矢量量化來以較少的位數表現該特征矢量來削減存儲器使用量。在對矢量進行量化的方法中,代表性方法是矢量量化和標量量化。在矢量量化 中,預先求出某個數量的代表矢量,將輸入矢量置換為最鄰近的代表矢量的代碼。在使 用了局部描述符的識別方法中多使用矢量量化(參照非專利文獻3)。但是,難以針對大 規(guī)模的數據高效地求出量化誤差較少的代表矢量(上述的visual word)。另外,當代表矢 量的數量增多時,存在搜索輸入矢量的最鄰近的代表矢量的處理會耗費時間的問題。另 一方面,標量量化是對輸入矢量的每個維度進行量化。在以相同代碼數進行比較的情況 下,該標量量化的量化誤差大于矢量量化的量化誤差。但是,認為在進行量化時不需進 行最鄰近搜索,因此處理時間較少即可完成。因此,在本發(fā)明中,設為重視處理時間而 使用標量量化。在量化中,不是只有能夠削減存儲器使用量的優(yōu)點,也存在識別率可能會降低 的問題。這是由于原本是不同的特征矢量通過量化變成了相同的特征矢量而使識別性降 低。本發(fā)明的識別結果是由投票而決定的,因此無法容易地獲知特征矢量的識別性降低 對識別率產生的影響。這是由于如果正確結果的得票數不被逆轉,則即使錯誤的投票計 入其它圖像也不會產生錯誤識別。因此,通過實驗對量化的位數與識別率的關系進行驗 證。1.2.標量量化首先,對本發(fā)明所涉及的標量量化進行說明。在標量量化中對每個維度進行量化。圖1中示出了以2位(bit)對各維度進行量化的情況。f(X)是特征矢量的某個維度 的分布。t是量化的閾值,例如從-⑴到^的范圍被編碼為0。在檢索時進行距離計算 的情況下,使用值ν來計算與檢索問題的特征矢量之間的距離。對每個維度決定t和ν的 值,使其滿足下式。[式1]
權利要求
1.一種物體識別用圖像數據庫的制作方法,具備特征抽取工序,從要登記于圖像數據庫的示出物體的圖像中抽取分別表現該圖像的 各處的局部特征的矢量作為多個局部描述符;標量量化工序,對上述矢量的每個維度進行標量量化;以及登記工序,將上述圖像和與該圖像對應的多個矢量登記于上述圖像數據庫,其中, 對通過上述標量量化工序進行了量化的各矢量進行系統(tǒng)化并進行登記,以能夠執(zhí)行近似 最鄰近搜索并且對該各矢量分別附加用于確定抽取出各矢量的圖像的圖像標識符,各工序是由計算機執(zhí)行的,在上述登記工序中進行各矢量的登記使得能夠進行以下動作在多個圖像被登記于 上述圖像數據庫且提供了示出作為問題的物體的一個圖像作為查詢對象時,計算機通過 與上述抽取工序同樣的過程從上述查詢對象中抽取多個查詢對象局部描述符,通過與上 述標量量化工序同樣的過程將各查詢對象局部描述符量化,使用上述近似最鄰近搜索的 算法從登記于上述圖像數據庫的矢量中檢索作為各查詢對象局部描述符的鄰近矢量的矢 量,獲取附加于上述鄰近矢量的圖像標識符,根據所獲取的圖像標識符來決定示出作為 問題的物體的至少一個圖像,在上述標量量化工序中將各矢量的維度量化為規(guī)定位數的標量值。
2.根據權利要求1所述的方法,其特征在于,在上述標量量化工序中將各矢量的維度量化為2位以下的標量值。
3.根據權利要求1或2所述的方法,其特征在于,上述登記工序以下面的方式進行處理來登記各矢量(1)對量化后的各矢量應用規(guī) 定的哈希函數來算出哈希表的bin參照用索引值,(2)將量化后的矢量的各維度和所附加 的圖像標識符作為一個條目登記于利用所算出的索引值來進行參照的bin下,(3)在登記 于同一 bin下的條目的數量超過閾值的情況下,刪除登記于該bin下的所有條目,并且之 后不在該bin下登記條目。
4.根據權利要求3所述的方法,其特征在于,在上述登記工序中登記各矢量使得上述計算機能夠檢索上述鄰近矢量來決定上述圖像,上述計算機根據量化后的矢量的維度算出上述索引值,并且根據一個以上的與量化 后的矢量的維度值相鄰的值算出一個以上的索引值,從而從登記于利用這些算出的索引 值來進行參照的多個bin內的矢量中檢索上述鄰近矢量。
5.根據權利要求1 4中的任一項所述的方法,其特征在于,上述近似最鄰近搜索的算法包括以下的處理計算各查詢對象局部描述符與登記于 利用所算出的索引值來進行參照的bin內的矢量之間的距離,確定處于規(guī)定距離內的一個 以上的矢量或處于最短距離的矢量。
6.一種物體識別用圖像數據庫的處理裝置,具備特征抽取部,其從要登記于圖像數據庫的示出物體的圖像中抽取分別表現該圖像的 各處的局部特征的矢量作為多個局部描述符;標量量化部,其對上述矢量的每個維度進行標量量化;登記部,其將上述圖像和與該圖像對應的多個矢量登記于上述圖像數據庫,其中,對通過上述標量量化工序進行了量化的各矢量進行系統(tǒng)化并進行登記,以能夠執(zhí)行近似 最鄰近搜索并且對該各矢量分別附加用于確定抽取出各矢量的圖像的圖像標識符;以及檢索部,其在多個圖像被登記于上述圖像數據庫且提供了示出作為問題的物體的一 個圖像作為查詢對象時,與要登記的圖像同樣地上述抽取部從上述查詢對象中抽取多個 查詢對象局部描述符,與要該登記的圖像同樣地上述標量量化部將各查詢對象局部描述 符量化,之后使用上述近似最鄰近搜索的算法從登記于上述圖像數據庫的矢量中檢索作 為各查詢對象局部描述符的鄰近矢量的矢量,獲取附加于上述鄰近矢量的圖像標識符, 根據所獲取的圖像標識符來決定示出作為問題的物體的至少一個圖像, 其中,上述標量量化工序將各矢量的維度量化為規(guī)定位數的標量值。
7. —種物體識別用圖像數據庫的處理程序,使計算機作為以下各部而發(fā)揮功能 特征抽取部,其從要登記于圖像數據庫的示出物體的圖像中抽取分別表現該圖像的 各處的局部特征的矢量作為多個局部描述符;標量量化部,其對上述矢量的每個維度進行標量量化;登記部,其將上述圖像和與該圖像對應的多個矢量登記于上述圖像數據庫,其中, 對通過上述標量量化工序進行了量化的各矢量進行系統(tǒng)化并進行登記,以能夠執(zhí)行近似 最鄰近搜索并且對該各矢量分別附加用于確定抽取出各矢量的圖像的圖像標識符;以及檢索部,其在多個圖像被登記于上述圖像數據 庫且提供了示出作為問題的物體的一 個圖像作為查詢對象時,與要登記的圖像同樣地上述抽取部從上述查詢對象中抽取多個 查詢對象局部描述符,與要登記的圖像同樣地上述標量量化部將各查詢對象局部描述符 量化,之后使用上述近似最鄰近搜索的算法從登記于上述圖像數據庫的矢量中檢索作為 各查詢對象局部描述符的鄰近矢量的矢量,獲取附加于上述鄰近矢量的圖像標識符,根 據所獲取的圖像標識符來決定示出作為問題的物體的至少一個圖像, 其中,上述標量量化工序將各矢量的維度量化為規(guī)定位數的標量值。
全文摘要
本發(fā)明涉及一種物體識別用圖像數據庫的制作方法、該方法的處理用程序以及進行該處理的處理裝置,該方法具備以下工序特征抽取工序,從要登記于圖像數據庫的物體的圖像中抽取局部描述符;標量量化工序,將各局部描述符的表示各維度的數值量化為規(guī)定的位數;以及登記工序,將量化后的各局部描述符系統(tǒng)化為能夠進行最鄰近搜索,并且附加抽取出該局部描述符的圖像的標識符來登記于圖像數據庫,上述登記工序進行登記使得能夠進行以下動作在提供了檢索問題時,從該檢索問題中抽取局部描述符并對各維度進行標量量化,從而從上述圖像數據庫中決定與各局部描述符最鄰近的局部描述符,通過多數表決處理從包含所決定的任一局部描述符的圖像中確定一個圖像,在上述標量量化工序中將各局部描述符的各維度量化為8位以下。
文檔編號G06T7/00GK102016918SQ20098011521
公開日2011年4月13日 申請日期2009年4月27日 優(yōu)先權日2008年4月28日
發(fā)明者巖村雅一, 野口和人, 黃瀨浩一 申請人:公立大學法人大阪府立大學