欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于最優(yōu)k均值哈希算法的大規(guī)模圖像庫檢索方法

文檔序號:6625596閱讀:609來源:國知局
基于最優(yōu)k均值哈希算法的大規(guī)模圖像庫檢索方法【專利摘要】一種基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,包括:從待檢索圖像庫中選取部分圖像作為訓練圖像集,首先提取訓練集圖像的GIST特征;對訓練集的特征數(shù)據(jù)進行特征值分配預處理;將經(jīng)過預處理的特征數(shù)據(jù)劃分成多個子空間;對每一個子空間訓練出該子空間的碼本和碼本的編碼;對待檢索圖像庫和查詢圖像中特征數(shù)據(jù)的處理與訓練過程對應,分別提取檢索圖像和查詢圖像的GIST特征,然后計算待檢索圖像和查詢圖像特征的哈希編碼,之后計算待檢索圖像特征編碼和查詢圖像特征編碼兩者之間的漢明距離,由此快速檢索相似圖像。本發(fā)明具有很好的普適性,既減少了數(shù)據(jù)的存儲空間又提高了查詢的檢索效率?!緦@f明】基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法【
技術領域
】[0001]本發(fā)明屬于圖像檢索【
技術領域
】,更具體地涉及一種基于內(nèi)容的圖像檢索方法,尤其涉及一種基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法。【
背景技術
】[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)上的圖片數(shù)據(jù)日益增多,如何快速、準確地為用戶提供所需要的圖片資源顯得越來越重要。基于內(nèi)容的圖像檢索(Content-BasedImageRetrieval,CBIR)技術應運而生,受到了許多研究者的關注。一般來說CBIR系統(tǒng)主要包括兩部分的核心研究內(nèi)容,一是有效的圖像特征表述,二是高效檢索算法。通過提取圖像的特征對圖像內(nèi)容進行描述,例如GIST特征(具體內(nèi)容可以參見文章AudeOlivaandAnton1Torralba,“Modelingtheshapeofthescene:aholisticrepresentat1nofthespatialenvelope,,,Internat1nalJournalofComputerVis1n,42(3),2001),然后利用高效的檢索算法進行特征比對判斷是否為相似圖像。[0003]其中,對于檢索算法,主要包括:基于樹的檢索算法、基于向量量化的檢索算法和基于哈希的檢索算法?;跇涞臋z索算法利用超平面遞歸地劃分整個數(shù)據(jù)空間,在數(shù)據(jù)比較低維的情況下效果很好,但是當數(shù)據(jù)維度比較高的時候,基于樹的檢索算法會退化成窮盡搜索?;谙蛄苛炕姆椒ㄊ且环N有效的檢索算法,此類方法將數(shù)據(jù)量化到碼本以降低數(shù)據(jù)空間的勢,并用碼字之間的距離來近似原始數(shù)據(jù)之間的距離。基于哈希的檢索算法的主要思想是將原始數(shù)據(jù)映射成漢明空間中的二進制數(shù)值串,數(shù)據(jù)之間的相似度可以利用它們在漢明空間的二進制數(shù)值串之間的漢明距離來度量?;诠5母咝z索算法有兩個主要優(yōu)點:一是可以減少數(shù)據(jù)存儲空間;二是可以提高檢索效率。[0004]局部敏感哈希(Locality-SensitiveHashing,LSH)(例如可以參考文章MayurDatar,NicoleImmorlica,P1trIndykandVahabS.Mirrokni,“Locality-sensitivehashingschemebasedonp-stabledistribut1ns,,,InProceedingsofthetwentiethannualsymposiumoncomputat1nalgeometry,ACM,2004)利用從滿足p-stable的分布上隨機產(chǎn)生投影函數(shù)來對原始數(shù)據(jù)分別進行投影,再把投影后的數(shù)據(jù)閾值化為O和1,這樣就得到了原始數(shù)據(jù)的編碼。但是由于LSH的投影函數(shù)是數(shù)據(jù)無關的,隨機產(chǎn)生的,并且產(chǎn)生的投影函數(shù)可能彼此是相關的,因此LSH編碼的效果不是很理想。為了克服LSH的缺點,譜哈希(SpectralHashing,SH,例如可以參考文章YairWeiss,Anton1Torralba,andRobFergus,“SpectralHashing”,InNIPS,2008)基于譜圖分割,利用機器學習的方法通過閾值化數(shù)據(jù)的相似圖拉普拉斯的特征向量的子集來計算哈希編碼。迭代量化(ITQ)利用最小化數(shù)據(jù)編碼和原始數(shù)據(jù)之間的誤差的方法來學習哈希函數(shù),也取得了很好的檢索效果。[0005]基于向量量化的方法由于比較小的畸變誤差,所以檢索效果比哈希方法要好,但是它檢索速度不及哈希方法。K均值哈希(KH)(例如可以參考文章KaimingHe,FangWen,JianSun,“K-meanshashing:anaffinity-preservingquantizat1nmethodforlearningbinarycompactcodes”,InCVPR,2013)是一種比較新穎的哈希檢索方法,KH將基于向量量化的方法和基于哈希的方法結合起來,通過最小化量化誤差和仿射誤差來訓練哈希函數(shù)編碼數(shù)據(jù);但是在KH中,在碼本和碼本的編碼在初始化之后,只有碼本在更新而碼本的編碼不更新,這將降低編碼的有效性?!?br/>發(fā)明內(nèi)容】[0006]為了克服上述KH的缺陷,本發(fā)明提出了一種基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,以解決針對海量圖像檢索時存在的圖像特征庫存儲空間大、檢索速度慢的問題。[0007]作為本發(fā)明的一個方面,本發(fā)明提出了一種基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,包括以下步驟:[0008]提取查詢圖像和待檢索圖像庫中選取的訓練集中的圖像的GIST特征,[0009]將所述GIST特征映射到漢明空間,[0010]計算所述查詢圖像的哈希編碼與所述待檢索圖像庫中每一幅圖像的哈希編碼之間的漢明距離,利用距離大小來衡量所述查詢圖像與所述待檢索圖像庫中圖像之間的相似性,返回相似度高的圖像。[0011]其中,所述提取查詢圖像和待檢索圖像庫中選取的訓練集中的圖像的GIST特征和將所述GIST特征映射到漢明空間的步驟包括:[0012]對所述查詢圖像和待檢索圖像庫中選取的訓練集中的圖像提取GIST特征;[0013]利用所述訓練集中的圖像的GIST特征,訓練得到碼本和碼本的編碼;[0014]根據(jù)訓練得到的所述碼本和碼本編碼,對所述查詢圖像和待檢索圖像庫中的圖像的GIST特征進行處理,得到所述查詢圖像和待檢索圖像庫中的圖像的哈希編碼,將其特征向量映射到漢明空間中。[0015]作為本發(fā)明的另一個方面,本發(fā)明還提供了一種基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,包括以下步驟:[0016]訓練過程,提取待檢索圖像庫中選取的訓練集中的圖像的GIFT特征,利用得到的GIST特征來訓練得到碼本和碼本的編碼;[0017]待檢索圖像庫編碼過程,利用所述訓練過程中得到的碼本和碼本的編碼來計算待檢索圖像庫中的圖像的完整編碼;[0018]查詢過程,提取查詢圖像的GIFT特征,利用所述訓練步驟得到的碼本和碼本的編碼來計算所述查詢圖像的完整編碼,并計算所述查詢圖像的編碼與所述待檢索圖像庫中每一幅圖像的編碼之間的漢明距離,利用距離大小來衡量所述查詢圖像與所述待檢索圖像庫中圖像之間的相似性,返回待檢索圖像庫中與查詢圖像漢明距離最小的L個圖像作為檢索結果,其中L為用戶預先設定的正整數(shù)。[0019]其中,所述訓練過程進一步包括:[0020]步驟Sll:從待檢索圖像庫D=(D17D2,...,DJ中選取部分圖像T=IT1,T2,...Tj作為訓練集,其中N為待檢索圖像庫的大小,η為訓練集的大小,η^Ν:[0021]步驟S12:對所述訓練集T中的圖像提取d維的GIST特征,其中圖像Τ,.的GIST特征記為Xi,X1eKd,將訓練集中所有圖像的GIST特征組成矩陣X,XeMnxd,X的第i行由Xi構成;[0022]步驟S13:對所述訓練集中圖像的GIST特征進行特征值分配預處理,計算均值μ和投影矩陣P;[0023]步驟S14:將經(jīng)過預處理之后的特征數(shù)據(jù)均勻地劃分為m個子空間,特征矩陣X在第u個子空間的數(shù)據(jù)記為X(U),其中I<u<m,特征&在第u個子空間的數(shù)據(jù)記為Xf如下式所示,Xip為Xj的第P維,I≤P≤d,t為子空間的維數(shù),t=d/m,【權利要求】1.一種基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,包括以下步驟:提取查詢圖像和待檢索圖像庫中選取的訓練集中的圖像的GIST特征,將所述GIST特征映射到漢明空間,計算所述查詢圖像的哈希編碼與所述待檢索圖像庫中每一幅圖像的哈希編碼之間的漢明距離,利用距離大小來衡量所述查詢圖像與所述待檢索圖像庫中圖像之間的相似性,返回相似度高的圖像。2.根據(jù)權利要求1所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中所述提取查詢圖像和待檢索圖像庫中選取的訓練集中的圖像的GIST特征和將所述GIST特征映射到漢明空間的步驟包括:對所述查詢圖像和待檢索圖像庫中選取的訓練集中的圖像提取GIST特征;利用所述訓練集中的圖像的GIST特征,訓練得到碼本和碼本的編碼;根據(jù)訓練得到的所述碼本和碼本編碼,對所述查詢圖像和待檢索圖像庫中的圖像的GIST特征進行處理,得到所述查詢圖像和待檢索圖像庫中的圖像的哈希編碼,將其特征向量映射到漢明空間中。3.一種基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,包括以下步驟:訓練過程,提取待檢索圖像庫中選取的訓練集中的圖像的GIFT特征,利用得到的GIST特征來訓練得到碼本和碼本的編碼;待檢索圖像庫編碼過程,利用所述訓練過程中得到的碼本和碼本的編碼來計算待檢索圖像庫中的圖像的完整編碼;查詢過程,提取查詢圖像的GIFT特征,利用所述訓練步驟得到的碼本和碼本的編碼來計算所述查詢圖像的完整編碼,并計算所述查詢圖像的編碼與所述待檢索圖像庫中每一幅圖像的編碼之間的漢明距離,利用距離大小來衡量所述查詢圖像與所述待檢索圖像庫中圖像之間的相似性,返回待檢索圖像庫中與查詢圖像漢明距離最小的L個圖像作為檢索結果,其中L為用戶預先設定的正整數(shù)。4.根據(jù)權利要求3所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中所述訓練過程進一步包括:步驟Sll:從待檢索圖像庫D=(D17D2,...,DJ中選取部分圖像T=IT1,T2,...TJ作為訓練集,其中N為待檢索圖像庫的大小,η為訓練集的大小,η^Ν;步驟S12:對所述訓練集T山的圖像提取d維的GIST特征,其山圖像Ti的GIST特征記為Xi,XiGRd將訓練集中所有圖像的GIST特征組成矩陣X,XeIRd,X的第i行由Xi構成;步驟S13:對所述訓練集中圖像的GIST特征進行特征值分配預處理,計算均值μ和投影矩陣P;步驟S14:將經(jīng)過預處理之后的特征數(shù)據(jù)均勻地劃分為m個子空間,特征矩陣X在第u個子空間的數(shù)據(jù)記為X(U),其中I彡u彡m,特征在第u個子空間的數(shù)據(jù)記為,如下式所示,Xjp為Xj的第P維,I<P<d,t為子空間的維數(shù),t=d/m,步驟S15:在每一個子空間內(nèi)分別計算該子空間的碼本C(u)和碼本的編碼,其中u為第u個子空間。5.根據(jù)權利要求4所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中對所述訓練集中圖像的GIST特征進行特征值分配預處理,計算均值μ和投影矩陣P的步驟進一步包括:步驟S131:對訓練集圖像的GIST特征先做PCA旋轉,保存均值μ和中間投影矩陣尹,均值的計算公式如下:將每一個Xi減去均值μ,得到f=X1-μ,此時由$組成的特征矩陣記為文,計算協(xié)方差矩陣Σ=又又,其中叉’為又的轉置,對矩陣Σ進行特征分解得到Σ=戸八’,即得到中間投影矩陣豆,并保存Λ對角線上的元素,即特征值;步驟S132:設置m個桶,每個桶對應一個子空間,每個桶的最大容量為d/m;不重復地選取A(i,i)中最大的特征值,并把它分配到具有最小的特征值乘積且沒有達到最大容量的桶中,直到所有的特征值Λ(i,i)都分配到各個桶中;最后得到每個桶中每個特征值在A中的位置索引,其中對于位置(i,i),其索引用索引向量I保存;步驟S133:將中間投影矩陣戶的每一列,按照索引向量I重新排序,構成最后的投影矩陣P。6.根據(jù)權利要求4所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中在每一個子空間內(nèi)分別計算該子空間的碼本C(U)和碼本的編碼的步驟進一步包括:步驟S151:初始化子空間內(nèi)的碼本,對于第u個子空間,隨機選擇子空間X(U)內(nèi)的2b個數(shù)據(jù)作為初始碼本C(U),其中e(u)eJ^2bxm,其每一行為一個碼字,b=k/m,為每個子空間的編碼位數(shù);步驟S152:初始化子空間內(nèi)碼本的編碼,利用PCA哈希對碼本進行初始化編碼,具體如下,首先利用PCA將碼本降到b維,假設降維后的碼本為Cf,CfeR2bxb,則對碼本的初始編碼為滿足:步驟S153:初始化放縮常量α,利用下式計算α其中SeK1為利用PCA將子空間X(u)降到b維的結果;Ise{-l,l}nXb為S的PCA哈希編碼,η為訓練集中圖像的個數(shù);步驟S154:更新碼本C(U)和碼本的編碼Ig),使得下式取最小值,其中,C(X(U))表示C(u)中離最近的碼字,Ci,Cj分別代表碼本C(U)中第i,j個碼字,即C(U)的第i,j行;I(Ci)和I(Cj)分別代表碼字Ci,Cj的編碼,即(6)的第i,j行;Wij=Π?Π/η2,ni;rij分別代表Ci和Cj形成的簇中訓練數(shù)據(jù)的個數(shù)^(Ci,Cj)為Ci和Cj的歐氏距離,//(/(^),/(^,))=^-^0,,(/(^),Kcj)),Dh(Kci),I(Cj))為I(Ci)和I(Cj)之間的漢明距離;λ為權重系數(shù)。7.根據(jù)權利要求6所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中步驟154中優(yōu)化計算式采用如下迭代的方法,直到收斂:第一步,將訓練數(shù)據(jù)按照最近鄰規(guī)則分配到最近的碼字c(X(u))形成的簇中,并用c(X(u))的編碼來更新^u)的編碼I(Af>)。第二步,固定碼本的編碼和訓練數(shù)據(jù)的編碼,利用下式來求得最優(yōu)的碼本或碼字,第三步,固定碼本和訓練數(shù)據(jù)的編碼,利用下式求得最優(yōu)的碼本的編碼,求得最優(yōu)的I(cJ之后,將其用O進行二值化,即得到更新后的碼本的編碼,Tr(Kcj)It(Cj))表示I(Cj)It(Cj)的跡。8.根據(jù)權利要求3所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中所述的待檢索圖像庫編碼過程進一步包括:步驟S21:對待檢索圖像庫中的每一幅圖像提取d維的GIST特征。假設提取的第r幅待檢索圖像庫中圖像的gist特征為yr€Md;步驟S22:利用步驟S13中訓練得到的均值μ和投影矩陣P對yr進行預處理,具體操作為:先將^減去均值μ,然后利用投影矩陣進行旋轉,即(y「y)P;步驟S23:將經(jīng)過預處理的特征I均勻地劃分為m個子空間,記第u個子空間為yf),其中I≤u≤m,如下式所示,y為yr的第p維,I≤p≤d,t=d/m,為子空間的維數(shù),步驟S24:計算特征^在每個子空間的子編碼,記第u個子空間yf0的子編碼為Su;步驟S25:將特征K在每個子空間的子編碼拼接成對K的完整編碼H(K)=(S1,Sg,...,Sjjj)O9.根據(jù)權利要求8所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中所述計算特征It在每個子空間的子編碼的步驟進一步包括:步驟S241:利用最近鄰規(guī)則計算在第u個子空間中離5^1)歐氏距離最近的碼字O;步驟242:將碼字?u))的編碼I(?u)))作為在第u個子空間的子編碼su,即Su=I(c(y[)))。10.根據(jù)權利要求3所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中所述查詢過程進一步包括:步驟S31:對查詢圖像提取GIST特征q;步驟S32:利用步驟S13中訓練得到的均值μ和投影矩陣P對q進行預處理,具體操作為:先將q減去均值μ,然后利用投影矩陣進行旋轉,即(q-y)P;步驟S33:將經(jīng)過預處理的特征q均勻地劃分為m個子空間,記第u個子空間為q(u),I≤u≤m,如下式所示,qp為q的第P維,I≤P≤d,t=d/m,為子空間的維數(shù),步驟S34:計算特征q在每I」工⑷的子編碼,記第U個子空間(^)的子編碼為su;步驟S35:將特征q在每個子空間的子編碼拼接成對q的完整編碼H(q)=(Sl,s2,...,S)'步驟S36:計算查詢圖像編碼H(q)與待檢索圖像庫中每一個圖像編碼H(yJ之間的漢明距離Dh(H(q),H(yr)):其中,I≤r≤N,H(q)[j]和H(yr)[j]分別表示H(q)和H(yr)的第j位,十表示異或操作,k為總的編碼位數(shù);步驟S37:根據(jù)查詢圖像編碼H(q)與待檢索圖像庫中圖像編碼H(L)之間的漢明距離Dh(H(q),H(L)),返回待檢索圖像庫中與查詢圖像漢明距離最小的L個圖像作為檢索結果。11.根據(jù)權利要求10所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中所述的計算特征q在每個子空間的子編碼的步驟進一步包括:步驟S341:利用最近鄰規(guī)則計算在第u個子空間中離(^)歐氏距離最近的碼字c(q(u));步驟342:將碼字c(q(u))的編碼I(c(q(u)))作為q在第U個子空間的子編碼su,即Su=I(c(q(u)))。12.根據(jù)權利要求3所述的基于最優(yōu)K均值哈希算法的大規(guī)模圖像庫檢索方法,其中L=1000?!疚臋n編號】G06F17/30GK104199923SQ201410440852【公開日】2014年12月10日申請日期:2014年9月1日優(yōu)先權日:2014年9月1日【發(fā)明者】郭勤振,曾智,張樹武申請人:中國科學院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
保定市| 瓦房店市| 莱阳市| 裕民县| 沂南县| 昂仁县| 朝阳市| 威信县| 岳池县| 安阳县| 乌鲁木齐县| 竹北市| 福州市| 东安县| 昌平区| 土默特右旗| 渭源县| 连南| 灵石县| 芜湖市| 通化市| 宁津县| 缙云县| 班玛县| 孟州市| 新津县| 家居| 金坛市| 乐业县| 子长县| 哈密市| 长兴县| 太谷县| 新和县| 资兴市| 星座| 安国市| 余姚市| 札达县| 龙岩市| 万宁市|