一種視覺詞匯的上下文描述子生成方法
【技術領域】
[0001] 本發(fā)明屬于計算機圖像處理和機器視覺領域,涉及一種視覺詞匯的上下文描述子 生成方法。
【背景技術】
[0002] 基于圖像中的局部特征點進行圖像的分析、識別和檢索是當前圖像處理領域的一 種重要方式。將局部特征點描述子量化為視覺詞匯并用詞袋模型來表示圖像,是當前圖像 識別與分類的一類重要方法。詞袋模型與倒排索引結構相結合是當前最有效的基于內(nèi)容的 圖像檢索方式;該圖像檢索方法可以應對圖像的各種編輯和變換,有較好的魯棒性;另外, 基于視覺詞匯的倒排索引結構可以在大規(guī)模圖像庫中實現(xiàn)實時的查詢要求。但是通過局部 特征的描述子量化得到的視覺詞匯相對于自然語言中的詞匯并沒有明確的意義,容易受到 噪聲的影響。為了能夠保證視覺詞匯的區(qū)分能力要求:詞典中視覺詞匯數(shù)量越多越好;但是 越多的視覺詞匯導致了其抗噪能力變?nèi)?,并且在局部特征量化為視覺詞匯時需要耗費更多 的計算量。然而,為了消除噪聲影響而減少詞典中視覺詞匯的數(shù)量,導致了視覺詞匯中廣泛 存在著多義現(xiàn)象,多義現(xiàn)象是指同一個視覺詞匯指向了多個不同的局部圖像,使視覺詞匯 的區(qū)分能力降低,同時造成了視覺詞匯的高誤檢率,從而給后面的圖像相似度計算帶來了 困難。針對局部特征量化為視覺詞匯后導致的多義問題,有部分的研究者關注到了該問題, 并提出了部分的解決方法。
[0003] 有研究者希望通過建模視覺詞匯(局部特征)的空間依賴關系來提高視覺詞匯的 描述能力。Liu通過兩個視覺詞匯穩(wěn)定的空間共現(xiàn)選擇二階視覺詞匯特征。Yuan和Zhang提 出了視覺詞匯短語特征來描述視覺詞匯空間共現(xiàn)特性。Li采用文本中N-Gram方式來構建可 能的視覺詞匯組,然后用chi方統(tǒng)計量來選擇代表性的視覺詞匯組。然而上述這些方法都是 依賴于訓練數(shù)據(jù)來選擇共現(xiàn)視覺詞匯對,其主要以圖像分類和對象檢索為目的,并不完全 適合包括各種未知對象的圖像檢索應用。
[0004] 近年來也有學者研究面向檢索領域的局部特征的上下文信息表示問題。Wu通過最 大穩(wěn)定極限區(qū)域?qū)⒁曈X詞匯組合成Bundle,然后基于Bundle對圖像進行索引,并通過 Bundle中視覺詞匯的匹配實現(xiàn)相似性的度量。該方法依賴于最大穩(wěn)定極值區(qū)域檢測的魯棒 性。Zhou采用了緊致的空間編碼方法來描述視覺詞匯的相互位置關系。但該方法對圖像的 旋轉變換支持不是很理想,需要通過構建多個方向的位置關系來提高對旋轉變換的魯棒 性。Zhang在大規(guī)模圖像下,通過量化視覺詞匯的空間關系以及學習語義距離來降低視覺詞 匯的誤檢率,但是該方法的效率低。Paradowski提出利用視覺詞匯之間的幾何關系和拓撲 關系來驗證近似拷貝圖像,利用匹配"視覺詞匯對"來求解透視變換參數(shù),再通過投影獲得 幾何相似性。拓撲關系通過上下文視覺詞匯的順序來表示。
[0005] 針對局部特征量化為視覺詞匯后導致的多義現(xiàn)象而造成的匹配準確率較低的問 題,本發(fā)明方法提出利用視覺詞匯在圖像中的上下文構建一個上下文描述子進一步增強視 覺詞匯區(qū)分能力。該視覺詞匯上下文描述子滿足了緊致性和魯棒性兩方面要求,可以應用 圖像的識別和檢索。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是針對現(xiàn)有技術的不足,提供了一種視覺詞匯的上下文描述子生成 方法。
[0007] 本發(fā)明解決其技術問題所采用的技術方案,包括如下三部分:(1)離線學習部分, (2)上下文描述子生成部分,(3)上下文描述子相似性計算部分。
[0008] 所述的離線學習部分包括視覺詞匯詞典的構建和視覺詞匯反文檔頻率的獲取;
[0009] 所述的上下文描述子生成部分包括提取和量化局部特征點、選擇局部特征點的上 下文、提取上下文中局部特征點的特征并生成描述子;
[0010] 所述的上下文描述子相似性計算部分包括視覺詞匯的擴展、基于反文檔頻率和視 覺詞匯擴展的相似性計算和基于閾值的上下文一致性驗證;
[0011] 上述的三個部分相互關聯(lián),離線學習部分得到的視覺詞匯詞典用于上下文描述子 生成部分中的局部特征點描述子特征向量的量化和視覺詞匯的擴展,視覺詞匯反文檔頻率 用于上下文描述子的相似性計算。上下文描述子相似性計算部分是上下文描述子在應用中 的必要步驟。
[0012] (1)離線學習部分包括:視覺詞匯詞典的構建和視覺詞匯反文檔頻率的獲取,具體 步驟如下:
[0013] 1-1.提取圖像庫中圖像的局部特征點及其特征描述子,將提取的特征描述子構建 成樣本庫;樣本庫的數(shù)量越多越能反映真實的局部特征點描述子的分布情況。
[0014] 1-2.通過樣本庫獲得視覺詞匯詞典;具體的,對樣本庫中特征描述子的特征向量 進行分組,在每個特征組上通過K均值聚類得到K個類中心,每個類中心為一個特征向量即 代表視覺詞匯中的一個詞根,K個類中心為該特征組的詞根集合;從每個特征組的詞根集合 中選擇一個詞根就生成了一個視覺詞匯。在每個特征組上構建的詞根集合進行組合得到視 覺詞匯詞典;
[0015] 1-3.對樣本庫中的局部特征描述子根據(jù)視覺詞匯詞典采用分組量化方法得到視 覺詞匯,再通過統(tǒng)計獲得視覺詞匯的反文檔頻率;
[0016] 視覺詞匯VWi的反文檔頻率IDF(VWi)是通過統(tǒng)計樣本庫中視覺詞匯的文檔頻率的 倒數(shù)得到,其作為視覺詞匯重要性的指標;由于一些視覺詞匯在樣本庫中并不一定存在,對 不存在的視覺詞匯用樣本庫中視覺詞匯反文檔頻率的最大值進行填充;該填充方法表達了 視覺詞匯的出現(xiàn)頻率越低帶有的信息量越大這一特性。
[0017] (2)上下文描述子生成部分的具體步驟如下:
[0018] 2-1.對輸入圖像提取局部特征點集合5={?14[[0,9]},9為輸入圖像中局部特 征點的個數(shù),Ρ:指代第i個局部特征點;并依據(jù)視覺詞匯詞典通過分組量化方法將局部特征 點特征描述子量化為視覺詞匯vffi;具體步驟如下:
[0019] 2-H.從圖像中提取局部特征點Ρι的特征描述子Fi、位置 (Pxi,Pyi)、尺度〇1和主方 向信息,即局部特征點Pi表示為[Fi,0i, 0i,PXi,pyi];
[0020] 2-1-2.對每個局部特征點Pi的特征描述子巧依據(jù)視覺詞匯詞典采用分組量化方法 得到視覺詞匯;依據(jù)視覺詞匯詞典的分組量化是將特征描述子Fi分成Μ組,每組為D/Μ個特 征,其中D為特征描述子Fi特征向量的維數(shù);然后對每組的特征向量根據(jù)步驟1-2訓練好的 視覺詞匯詞典單獨量化為L,則采用分組量化得到特征描述子h的視覺詞匯VWiS:
[0021]
[0022]其中,L為視覺詞匯詞典中對應組的詞根數(shù);從而一個局部特征點?4皮表示為[VI, 每組特征向量的量化通過在該組的詞根集合中基于歐式距離查找最近的 類中心,并將該類中心的下標作為其量化結果;
[0023] 2-2.對每個局部特征點輸入圖像的局部特征點集合S中選取N個局部特征點 作為上下文ContexMPO;根據(jù)局部特征APi與輸入圖像中其它局部特征點匕的距離和 尺度差的加權和D (Pi,Pj))來評價Pi與Pj關系的穩(wěn)定性,D (Pi,Pj)越小兩者的關系越穩(wěn)定,越 不容易受到圖像變換的影響;DWuh)的計算公式為:
[0024] i"'"vvv .....an
[0025] 其i=
:Pmax(〇)是歸一化因子,Imgw和ImgH分別指代圖像寬 度和高度;w和(1-w)分別為距離和尺度差的權重;選取D(Pi,Pj)最小的N個局部特征點&作 為卩:的上下文,即:
[0026] Context (pi) = {Ck,k^[l,N],Ck^S};
[0027] DWbPj的計算公式表達了本方法選擇距離近且尺度大的局部特征點作為上下文 中特征點;選擇距離近特征點有助于消除圖像裁剪的影響;選擇尺度大的特征點有助于消 除圖像縮放帶來的小尺度特征點消失的影響;
[0028] 2-3.根據(jù)局部特征APi的主方向生成上下文中每個局部特征點&的特征并量化; 具體包括如下步驟:
[0029] 2-3-1 ·提取上下文中局部特征點Ck的方位特征:a(k) = I arctan2(Pyk-Pyi ,Pxk- PxO-θ」,然后量化為
,Α為量化因子;量化用于對該特征進行壓縮,減少存 儲空間;arctan2 (Pyk-Pyi,Pxk-Pxi)表示特征點k相對特征點i的方位;方位特征中減去特征 點i的主方向可保證該特征對圖像的旋轉魯棒;
[0030] 2-3-2.提取上下文中局部特征