本發(fā)明屬于數(shù)字媒體領域,涉及一種面向圖像檢索的對象級深度特征聚合方法。
背景技術:
基于內容的圖像檢索作為計算機視覺領域的一個重要研究問題,在過去的十年里受到國內外學者的廣泛關注。基于內容的圖像檢索是指從圖像數(shù)據(jù)庫中查找出與查詢圖像相似的圖像。因為拍攝時角度、距離、環(huán)境等因素的不同,會造成相似或相同的拍攝對象在不同圖像有著很大的變化,如尺度、視角、布局等變化。因此生成一個對各種圖像變化具有高魯棒性的圖像特征,是解決圖像檢索問題的關鍵。
相對于傳統(tǒng)的基于人工設計的圖像特征,基于學習的方法尤其是卷積神經(jīng)網(wǎng)絡已經(jīng)在圖像特征提取上顯示出的強大的能力,在圖像分類和目標檢測等計算機視覺任務上取得了巨大的成功。在圖像檢索問題中,目前有基于全局和基于局部兩種卷積神經(jīng)網(wǎng)絡特征表示方法。
基于全局的方法,直接使用卷積神經(jīng)網(wǎng)絡提取整幅圖像的特征,作為最終的圖像特征。但是因為卷積神經(jīng)網(wǎng)絡主要對全局空間信息進行編碼,導致所得特征缺乏對圖像的尺度、旋轉、平移等幾何變換和空間布局變化的不變性,限制了其對于高度易變圖像檢索的魯棒性。
對于基于局部的方法,使用卷積神經(jīng)網(wǎng)絡提取圖像局部區(qū)域的特征,然后聚合這些區(qū)域特征生成最終的圖像特征。雖然這些方法考慮到了圖像的局部信息,使得特征相對于全局方法對各類變化具有更高的魯棒性,但是這些方法中仍有一些缺陷。例如使用滑動窗口的方法來得到圖像區(qū)域(參考Yunchao Gong,Liwei Wang,Ruiqi Guo,Svetlana Lazebnik在European Conference on Computer Vision 2014年第392-407頁發(fā)表的文章“Multi-scale orderless pooling of deep convolutional activation features”),因沒有考慮到圖像的顏色、紋理、邊緣等視覺內容,產(chǎn)生大量無語義意義的區(qū)域,為之后的聚合過程帶來冗余和噪聲信息。另外,區(qū)域特征融合通常所使用的最大池化算法(參考Konda Reddy Mopuri,R.Venkatesh Babu在Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops 2015年第62-70頁發(fā)表的文章“Object level deep feature pooling for compact image representation”),因只保留了特征的最大響應而沒有考慮特征間的關聯(lián),丟失大量信息,降低了所得的最終圖像特征的區(qū)分性。
本發(fā)明通過基于對象的方法來解決以上問題。在生成圖像區(qū)域時,使用基于內容的無監(jiān)督對象生成方法,即通過圖像顏色、紋理、邊緣等視覺信息以聚類的方式來生成圖像區(qū)域。因為圖像中同一個語義對象會有一定的視覺相似性,這樣得到的圖像區(qū)域在很大概率上會包含一個對象或者對象的一部分。同時,一幅場景圖像通常是由一些對象構成,對這些對象的解析是理解場景的關鍵。因此基于內容生成的圖像區(qū)域相對于簡單的滑動窗口包含更多有語義意義的視覺信息,其特征描述也具有更高的區(qū)分性,同時基于對象特征進行融合,所得最終特征對場景中對象的空間布局變化也具有很好的魯棒性。在聚合特征的過程時,采用VLAD(Vector of Locally Aggregated Descriptors)算法,先將圖像區(qū)域特征進行聚類,然后統(tǒng)計一幅圖像中所有區(qū)域特征與其相近聚類中心的累積殘差來表示最終的圖像特征。相對于最大池化算法,該方法考慮了區(qū)域特征間關聯(lián)的同時對圖像的局部信息有更細致的刻畫,使得得到的最終圖像特征對各類圖像變換具有更高魯棒性。
技術實現(xiàn)要素:
針對現(xiàn)有技術的不足,本發(fā)明提供一種面向圖像檢索的對象級深度特征聚合方法,生成對圖像幾何變換和對象空間布局變化具有高魯棒性的圖像特征用于圖像檢索應用。
本發(fā)明的技術方案為:
一種面向圖像檢索的對象級深度特征聚合方法,包括以下步驟:
步驟1,對數(shù)據(jù)庫中的每一張圖像采用Selective Search算法提取候選區(qū)域,生成很可能包含物體的圖像候選區(qū)域。所述的Selective Search(Selective Search for Object Recognition)算法為一種利用視覺信息基于分層區(qū)域合并的圖像分割方法,能夠生成類獨立且高質量的多尺度候選區(qū)域。相對于滑動窗口,包含物體的候選區(qū)域的特征描述具有更高的區(qū)分性,同時基于對象的方式也能提高融合特征對空間布局變換的魯棒性。
步驟2,選擇被廣泛采用的卷積神經(jīng)網(wǎng)絡結構模型,并在公共數(shù)據(jù)庫上對卷積神經(jīng)網(wǎng)絡進行預訓練。
步驟3,采用訓練完成的卷積神經(jīng)網(wǎng)絡提取所有圖像候選區(qū)域的特征
3.1)將圖像候選區(qū)域進行縮放填充到固定大小后,作為卷積神經(jīng)網(wǎng)絡的輸入;
3.2)將卷積神經(jīng)網(wǎng)絡的全連接層FC7的輸出作為該圖像候選區(qū)域的描述特征。
步驟4,對步驟3得到的候選區(qū)域的描述特征采用主成分分析算法進行降維,將其維度降為N維,得到低維候選區(qū)域特征;降維能夠減少之后計算的復雜度,提高效率。
步驟5,對步驟4得到的低維候選區(qū)域特征采用K均值聚類算法進行無監(jiān)督聚類,聚成K個聚類中心。
步驟6,對步驟4得到的屬于同一張圖像的低維候選區(qū)域特征和步驟5得到的K個聚類中心,采用VLAD算法進行聚合,每張圖像得到一個維度為N*K維的VLAD特征。所述的VLAD(Vector of Locally Aggregated Descriptors)算法為基于統(tǒng)計的融合方法,其統(tǒng)計了區(qū)域特征與其相近聚類中心的累積殘差來表示最終的圖像特征;相對于簡單的池化算法,該算法對圖像內容具有更加細致的描述,生成的特征對圖像變換具有更高魯棒性。
步驟7,對步驟6得到的VLAD特征采用主成分分析算法進行降維,將其維度降為D維,生成簡潔的圖像特征。降維能夠減少相似度計算復雜度和噪聲,其中圖像間的相似度由圖像特征間的歐式距離來度量。
本發(fā)明的有益效果為生成的圖像特征具有對圖像幾何變換和空間布局變換的高魯棒性,極大地提高了圖像檢索的準確率,其次得到的圖像特征十分緊湊簡潔,減少了圖像間相似度計算的復雜度。
附圖說明
圖1為本發(fā)明深度特征聚合的流程圖。
圖2為圖像檢索結果的示意圖,最左圖為查詢圖像,其余圖像為檢索到的相似圖像,從左到右依次按照相似度由高到低排序。
具體實施方式
以下結合技術方案和附圖詳細敘述本發(fā)明的具體實施例。
實施例1:相似圖像的檢索
1.圖1為本發(fā)明的流程圖,首先對庫圖像的所有圖像使用Selective Search算法的快速模式進行候選區(qū)域的提取,平均每張圖像能夠得到約2000個尺寸不一的候選區(qū)域。
2.本發(fā)明采用Krizhevsky等人的卷積神經(jīng)網(wǎng)絡結構Alex網(wǎng)絡,輸入為224*224的RGB圖像,包括五層卷積層、三層最大池化層和三層全連接層。使用Caffe框架訓練該網(wǎng)絡,訓練數(shù)據(jù)為ILSVRC12比賽中的1000類分類數(shù)據(jù)集。
3.網(wǎng)絡訓練完成后,將步驟1得到的候選區(qū)域通過填充和縮放到固定大小224*224后作為網(wǎng)絡的輸入,提取全連接層fc7的輸出作為對應候選區(qū)域的特征,其大小為4096維。
4.使用主成分分析算法對所有候選區(qū)域的特征進行降維,得到低維候選區(qū)域特征,其中相應的字典維度大小為512*4096,即將所有候選區(qū)域的特征維度從4096維降到512維。
5.使用K均值聚類算法對低維候選區(qū)域特征進行無監(jiān)督聚類,聚成256個聚類中心{c1,c2,…,c256}。
6.使用VLAD算法將每一張圖像的低維候選區(qū)域特征編碼為VLAD特征。首先,分配圖像中每一個低維候選區(qū)域特征pj到離它最近的5個聚類中心rNN(pj),然后聚合所有低維候選區(qū)域特征減去其分配的聚類中心的殘差,得到x作為圖像的VLAD特征:
其中,j為一張圖像中候選區(qū)域的下標;pj為下標為j的候選區(qū)域的低維特征;c1、ck分別為第一個和第K個聚類中心;rNN(pj)為離pj最近的5個聚類中心;wj1、wjk為pj分別與c1和ck的高斯核相似度,代表對應聚類中心的權重,對每一個候選區(qū)域,標準化它到最近5個聚類中心的權重和為1。最終每張圖像得到相應的VLAD特征,其大小為512*256=131072維。
7.使用主成分分析算法對步驟6得到的VLAD特征進行降維,得到簡潔的圖像特征,其中相應的字典維度為512*131072,即將VLAD特征的特征維度從131072維降到512維。
8.對于查詢圖像,使用步驟1生成候選區(qū)域,步驟3提取候選區(qū)域特征,然后使用已經(jīng)在步驟4,5訓練完成的主成分分析算法字典和聚類中心,通過步驟6得到其對應的VLAD特征,最后使用步驟7訓練完成的主成分分析算法字典降維,得到512維的簡潔的圖像特征。
9.計算查詢圖像的特征和庫圖像的圖像特征間的歐氏距離,并按大小排序,距離值越小表示圖像間相似度越高。圖2為檢索的結果的示意圖。