一種基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法
【專利摘要】本發(fā)明公開一種基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,包括步驟如下:步驟1:使用多張圖像作為關(guān)鍵圖,以進行圖像檢索;步驟2:分別對每張關(guān)鍵圖提取特征集合;步驟3:使用事先建立的單詞表,并通過頻率直方圖的方式,來表征每張關(guān)鍵圖的特征;步驟4:對每張關(guān)鍵圖的直方圖計算交集,以組合成新的直方圖;步驟5:使用步驟4生成的直方圖在特征庫中進行檢索。本發(fā)明的多張關(guān)鍵圖特性,增加了圖像內(nèi)容檢索的多樣性,也為圖像檢索提供了一種有效的檢索模型。
【專利說明】—種基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及的是一種圖像內(nèi)容檢索方法,具體是一種基于BOF(Bag-Of-Features)模型的圖像內(nèi)容檢索方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)多媒體的廣泛應用,以及多媒體云服務的日益興起,海量圖像與視頻的快速和精確檢索成為一種迫切的需求與挑戰(zhàn)。如何組織、表達、存儲、管理、查詢和檢索這些海量數(shù)據(jù),是對傳統(tǒng)數(shù)據(jù)庫技術(shù)的一個重大挑戰(zhàn),是迫切需要解決的問題,同時這也成為近幾十年來國內(nèi)外討論和研究的熱點。
[0003]目前圖像檢索可以被分兩大類:基于文本的檢索和基于內(nèi)容的檢索?;谖谋镜臋z索,是通過人工對圖片進行注解,再使用文本的搜索方式進行檢索。該方式易于理解,實現(xiàn)簡單,但它過于依賴人對圖片的主觀感知并且注解工作量大。而基于內(nèi)容的檢索,是使用可視特征進行檢索,并融合了計算機視覺、圖像處理、圖像理解和數(shù)據(jù)庫等多個領(lǐng)域的技術(shù)成果,以避免人工描述的主觀性。它允許用戶輸入一張圖片,以查找相似內(nèi)容的圖片。
[0004]經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),中國專利文獻號CN103473327A,
【公開日】2013_12_25記載了一種“圖像檢索方法與系統(tǒng)”,該技術(shù)針對給定的查詢文本和/或查詢圖片,分別根據(jù)文本相關(guān)性和圖片內(nèi)容相關(guān)性,綜合考慮并得出文本相似度和圖片內(nèi)容相似度,最終返回一個綜合的排序列表。該專利使用傳統(tǒng)的圖像內(nèi)容檢索方式,只能輸入一張查詢圖像。
【發(fā)明內(nèi)容】
[0005]針對上述現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明提出一種基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法。在以圖搜圖的過程中,可以使用多張圖像作為關(guān)鍵圖,該方法為圖像內(nèi)容的檢索提供了一種新的有效思路,對于用戶希望輸入多張關(guān)鍵圖來提升檢索效果的時候?qū)⒎浅S行?,其作為一個新興研究方向,具有很大的發(fā)展空間。
[0006]為達到上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0007]基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,包括如下步驟:
[0008]步驟1:使用多張圖像作為關(guān)鍵圖,以進行圖像檢索;
[0009]步驟2:分別對每張關(guān)鍵圖提取特征集合;
[0010]步驟3:使用事先建立的單詞表,并通過頻率直方圖的方式,來表征每張關(guān)鍵圖的特征;
[0011]步驟4:對每張關(guān)鍵圖的直方圖計算交集,以組合成新的直方圖;
[0012]步驟5:使用步驟4生成的直方圖在特征庫中進行檢索。
[0013]根據(jù)步驟1,所述的關(guān)鍵圖可以存在多張,并且每張關(guān)鍵圖的圖像內(nèi)容在視覺上存在一定相似度,不能是毫無關(guān)聯(lián)的幾張圖像。
[0014]根據(jù)步驟2,所述的特征集為提取的圖像特征需要為圖像內(nèi)容的局部特征,例如SIFT (Scale-1nvariant feature transform)、LBP (Local Binary Patterns),并且提取出的局部特征存在多個以形成一個集合。
[0015]根據(jù)步驟3,所述的單詞表為全體局部特征的集合,可以對預先準備的圖像庫中的圖像進行局部特征提取,通過使用分類或聚類算法,如K-Means、支持向量機SVM,對這些局部特征進行訓練,以形成分類后的視覺特征,這組特征即可以構(gòu)成單詞表。
[0016]特征的表征方式,具體包括如下步驟:
[0017]步驟3.1:對步驟2中提取的每張關(guān)鍵圖的局部特征分別進行統(tǒng)計,計算其在單詞表中出現(xiàn)的次數(shù);
[0018]步驟3.2:以視覺特征為橫坐標,次數(shù)為縱坐標,對統(tǒng)計結(jié)果建立直方圖;
[0019]步驟3.3:對建立的直方圖進行歸一化。
[0020]根據(jù)步驟4,所述的直方圖的交集計算方法,即利用下面的公式計算:
[0021]H1111 n ( > /)"...)
J
[0022]H= (H1, H2,...)
[0023]其中,i代表第i個視覺特征,Ai和Bi分別代表了不同關(guān)鍵圖的第i個視覺特征的出現(xiàn)頻率,Hi即為第i個視覺特征相交后的結(jié)果,H即為最終得到的直方圖。
[0024]根據(jù)步驟5,所述的特征庫為為可搜索到的全體圖像,通過步驟I至步驟4所生成的所有直方圖特征的數(shù)據(jù)集合。
[0025]本發(fā)明所提供的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,在以圖搜圖的過程中,可以使用多張圖像作為關(guān)鍵圖。其采用BOF(Bag-Of-Features)模型,首先分別對每張關(guān)鍵圖提取特征詞匯,并用特征詞匯的頻率直方圖表征每張關(guān)鍵圖,再對所有頻率直方圖利用取交集的方法進行組合,最終使用組合后的特征進行檢索,以完成圖像搜索過程。本發(fā)明的多張關(guān)鍵圖特性,增加了圖像內(nèi)容檢索的多樣性,也為圖像檢索提供了一種有效的檢索模型。
【專利附圖】
【附圖說明】
[0026]通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0027]圖1是本發(fā)明的預處理流程圖;
[0028]圖2是本發(fā)明的檢索流程圖;
[0029]圖3是本發(fā)明的模型框架圖。
【具體實施方式】
[0030]下面結(jié)合具體實施例對本發(fā)明進行詳細說明。以下實施例將有助于本領(lǐng)域的技術(shù)人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應當指出的是,對本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。
[0031]本發(fā)明提供的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,是通過以下方案實現(xiàn)的:算法采用了 BOF模型,首先分別對每張關(guān)鍵圖提取SIFT和LBP特征,并通過加權(quán)K-Means聚類以獲得局部特征的詞匯,進而使用頻率直方圖來表征每張關(guān)鍵圖,再通過對直方圖做交集的方法對這些直方圖進行組合,最終使用組合后的特征進行相似度檢索,以完成圖像搜索過程。算法可以分為兩個流程,預處理過程和檢索過程。
[0032]如圖1所示,預處理流程具體步驟如下:
[0033]第一步特征提取。掃描圖像數(shù)據(jù)庫,提取SIFT和LBP特征。其中SIFT描述子采用128維特征,LBP特征使用剛性分割的方式,將輸入的關(guān)鍵圖分割為16x16的塊,并使用等價二值模式進行特征提取,并獲得59維的直方圖;
[0034]第二步構(gòu)建單詞表。使用加權(quán)K-means方法對SIFT和LBP特征分別構(gòu)建單詞表,其中單詞表大小為N,SIFT特征的單詞表大小所占權(quán)重為w ;
[0035]第三步產(chǎn)生描述。經(jīng)過聚類后,每幅圖像均可使用頻率直方圖來描述單詞表中詞匯在圖像中的出現(xiàn)頻率,為每幅圖像生成頻率直方圖,并記錄到特征數(shù)據(jù)庫中。至此預處理過程完畢。
[0036]如圖2所示,圖像檢索流程具體步驟如下:
[0037]第一步特征提取。用戶輸入多張查詢圖像,對每幅圖像分別提取SIFT和LBP特征,提取方式與預處理過程相同;
[0038]第二步特征組合。對每幅輸入圖像,將SIFT和LBP特征分別映射到單詞表中的詞匯,并使用直方圖統(tǒng)計每個局部特征出現(xiàn)的頻率,形成頻率直方圖;
[0039]第三步查詢圖像特征合并。使用直方圖相加或直方圖相交的方法,將多張查詢圖像的特征直方圖進行合并,生成最終查詢用的直方圖;
[0040]第四步掃描特征數(shù)據(jù)庫,將直方圖與特征庫進行比對。使用直方圖相交的距離測算方式來進行相似度度量,并將結(jié)果進行排序。
[0041]在上述預處理和圖像檢索過程中,涉及到了如下技術(shù)細節(jié):B0F模型的運用、SIFT-LBP特征的提取、加權(quán)K-Means聚類方法、頻率直方圖的組合方式。以下分別針對這四個細節(jié)作出說明:
[0042]BOF模型的運用
[0043]BOF模型借鑒了 BOW模型的思想,將圖像描述成一些局部特征的集合,以表征圖像。它從每張圖像中提取SIFT和LBP局部特征,組合后使用K-means算法進行聚類以產(chǎn)生單詞表,并將圖像使用頻率直方圖進行描述。當一張圖像被搜索時,僅需要使用直方圖相交進行匹配,產(chǎn)生一個相似度排序,最終得到檢索結(jié)果。
[0044]在本發(fā)明中,由于涉及到輸入多張關(guān)鍵圖,因此算法框架模型需要略做改進。如圖3所示,為本文算法的框架模型。在該模型的應用中,涉及到了四個關(guān)鍵點:局部特征、單詞表、描述方式和輸入關(guān)鍵圖的特征組合。
[0045](I)局部特征
[0046]BOF模型比較重要的一個思想便是使用一些局部特征來表述圖像。一張圖像可以被分成多個小的圖像塊,通過分別提取這些塊的特征,以形成一個圖像塊集合。通常,圖像塊的分割有兩種,典型的,使用SIFT特征作為局部特征,由于SIFT算法包含了關(guān)鍵點的探測過程,因此每個SIFT關(guān)鍵點均可被視為某圖像塊的中心,可以定義一個以此為中心的小正方形塊,來完成柔性分割。結(jié)合其他局部描述子,即可從圖像塊中提取特征,形成視覺詞匯。如果不采用這類方法,也可以使用剛性劃分的方式,將圖像進行分割,再進行提取。本發(fā)明對這兩種形式均進行了采用,對于SIFT特征則使用其算法本身,形成一個128維的向量特征集合,對于LBP特征使用了剛性的劃分,單獨生成特征集合。
[0047](2)單詞表
[0048]單詞表即為全體視覺詞匯的集合。對圖像庫中的圖像進行局部特征提取,通過使用分類或聚類算法對這些圖像塊特征進行訓練,以形成分類后的視覺詞匯。這樣任何一副圖像均可用單詞表中的視覺詞匯來進行描述。本發(fā)明的分類,采用了 K-Means聚類算法,由于其算法高效易用,也廣泛被研究人員所接受并使用于BOF模型之中。當SIFT和LBP局部特征被提取后,使用K-Means對整個集合進行訓練,最終產(chǎn)生聚類結(jié)果,每個SIFT特征和LBP特征均可被單詞表中詞匯替代,來描述圖像。
[0049](3)描述方式
[0050]圖像的描述使用了頻率直方圖的方式,統(tǒng)計圖像中出現(xiàn)詞匯的頻率,形成一個直方圖,來表征圖像。相似度檢測便直接通過比較兩個直方圖來得到。本發(fā)明使用的距離公式為直方圖相交。對于給定的圖像A和圖像B,直方圖相交可以定義為:
[0051]d(A’ B) = 1- ^ min(",,Ai)
[0052]其中,a,和匕分別代表圖像A和圖像B第i個視覺詞匯的出現(xiàn)頻率(i的范圍取決于單詞表的大小)。
[0053]給定一張圖像Q,Q與圖像數(shù)據(jù)庫中每張圖像的距離均會被計算,從而可以獲取每張圖像與Q的相似度度量,并以此為依據(jù)進行排序,而最相似的一組圖像則為我們所查詢的圖像集合。
[0054](4)輸入關(guān)鍵圖的特征組合
[0055]在多個輸入關(guān)鍵圖的情況下,關(guān)鍵圖在進行SIFT-LBP特征提取后需要組合特征,這樣才能使用BOF模型。對于每張輸入查詢圖像,均提取SIFT-LBP特征,使用單詞表詞匯來描述圖像,并各自生成頻率直方圖。針對每個直方圖,采用了對直方圖計算交集的方法進行特征組合。最后使用組合后的直方圖,進行相似度匹配。
[0056]SIFT-LBP特征的提取
[0057]本發(fā)明在預處理時,SIFT特征與LBP特征將被分別計算,并形成自己獨立的單詞表。其中,LBP特征的提取使用了剛性分割的方式,將圖像分割為16x16的圖像塊,并提取等價二值模式。最終SIFT特征與LBP特征將在最終的直方圖特征描述時進行組合。其構(gòu)建過程如下:
[0058]第一步使用128維的SIFT算法對圖像進行特征提?。?br>
[0059]第二步將圖像分割為16x16的圖像塊,并對每塊區(qū)域提取出等價二值模式。與第一種方法不同的是,這里提取的LBP特征使用了直方圖的方式表征為一個59維的特征向量;
[0060]第三步對于SIFT和LBP特征集合,使用K-Means聚類方法分別建立單詞表。使用BOF模型進行表征時,則會將兩個特征的頻率直方圖一起進行計算。
[0061 ] 加權(quán)K-Means聚類方法
[0062]K-means聚類由于其簡單高效性,而廣泛為圖像處理領(lǐng)域所使用。在BoF模型中,它經(jīng)常被用作特征分類的手段,以構(gòu)造一個單詞表。在SIFT-LBP的特征組合方式中,SIFT特征的數(shù)量與LBP特征的數(shù)量差距可能較大,會導致SIFT特征主導了組合特征的效果,而LBP特征受到了一定的限制。此外,在統(tǒng)計直方圖頻率時,SIFT特征與LBP特征的結(jié)合也需要參數(shù)進行平衡,以獲得最佳的效果。因此這里引入了參數(shù)w(0〈w〈l),以平衡兩個特征的組合效果:
[0063]Nlbp = (1-W).N
[0064]Nsift = w.N
[0065]其中,N是預定義的聚類類別總量,即單詞表的詞匯種類總數(shù)。Nsift和Nlbp分別為SIFT單詞表和LBP單詞表的詞匯種類總數(shù)。
[0066]頻率直方圖的組合方式
[0067]計算直方圖的交集可以保留多張關(guān)鍵圖的特征,其計算方法按如下表示:
[0068]Hi — I ill i n (Aj, Bj,...)
I
[0069]H= (H1, H2,...)
[0070]其中,i代表第i個視覺特征,Ai和Bi分別代表了不同關(guān)鍵圖的第i個視覺特征的出現(xiàn)頻率,Hi即為第i個視覺特征相交后的結(jié)果,H即為最終得到的直方圖。
[0071]盡管本發(fā)明的內(nèi)容已經(jīng)通過上述優(yōu)選實施例作了詳細介紹,但應當認識到上述的描述不應被認為是對本發(fā)明的限制。在本領(lǐng)域技術(shù)人員閱讀了上述內(nèi)容后,對于本發(fā)明的多種修改和替代都將是顯而易見的。因此,本發(fā)明的保護范圍應由所附的權(quán)利要求來限定。
【權(quán)利要求】
1.一種基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,包括如下步驟: 步驟1:使用多張圖像作為關(guān)鍵圖,以進行圖像檢索; 步驟2:分別對每張關(guān)鍵圖提取特征集合; 步驟3:使用事先建立的單詞表,并通過頻率直方圖的方式,來表征每張關(guān)鍵圖的特征; 步驟4:對每張關(guān)鍵圖的直方圖計算交集,以組合成新的直方圖; 步驟5:使用步驟4生成的直方圖在特征庫中進行檢索。
2.根據(jù)權(quán)利要求1所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,步驟2中的每張關(guān)鍵圖的圖像內(nèi)容在視覺上存在一定相似度,不能是毫無關(guān)聯(lián)的幾張圖像。
3.根據(jù)權(quán)利要求2所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,步驟2中的特征集合為: 特征A:提取的圖像特征需要為圖像內(nèi)容的局部特征; 特征B:提取出的局部特征存在多個以形成一個集合。
4.根據(jù)權(quán)利要求3所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,步驟3中的單詞表為全體局部特征的集合,通過對預先準備的圖像庫中的圖像進行局部特征提取,使用分類或聚類算法,對這些局部特征進行訓練,以形成分類后的視覺特征,該視覺特征即構(gòu)成單詞表。
5.根據(jù)權(quán)利要求4所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,所述相似度的測量是通過兩個圖像的直方圖相交進行圖像距離的計算、并以此為依據(jù)進行排序來判斷的,對于給定的圖像A和圖像B,直方圖相交定義為: ?{Λ, B) = I — ^ in i n (Bj, )
i = l 其中,%和匕分別代表圖像A和圖像B第i個視覺詞匯的出現(xiàn)頻率,i的范圍取決于單詞表的大小。
6.根據(jù)權(quán)利要求4所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,所述的局部特征包括SIFT和LBP特征。
7.根據(jù)權(quán)利要求6所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,所述SIFT特征與LBP特征被分別計算,并形成自己獨立的單詞表,其中,LBP特征的提取使用剛性分割的方式,將圖像分割為16x16的圖像塊,并提取等價二值模式,其構(gòu)建過程如下: 第一步使用128維的SIFT算法對圖像進行特征提??; 第二步將圖像分割為16x16的圖像塊,并對每塊區(qū)域提取出等價二值模式,這里提取的LBP特征使用了直方圖的方式表征為一個59維的特征向量; 第三步對于SIFT和LBP特征集合,使用使用分類或聚類算法分別建立單詞表。
8.根據(jù)權(quán)利要求7所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,使用加權(quán)K-Means聚類方法對局部特征進行訓練構(gòu)造單詞表,在統(tǒng)計直方圖頻率時,引入?yún)?shù)W,0<w<l, w是SIFT特征的單詞表大小所占權(quán)重,以平衡SIFT特征與LBP特征的組合效果:
nLBP = (!I).N NsiFT =WN 其中,N是預定義的聚類類別總量,即單詞表的詞匯種類總數(shù),Nsift和Nlbp分別為SIFT單詞表和LBP單詞表的詞匯種類總數(shù)。
9.根據(jù)權(quán)利要求4所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,步驟3主要由如下形式表述: 步驟3.1:對步驟2中提取的每張關(guān)鍵圖的局部特征分別進行統(tǒng)計,計算其在單詞表中出現(xiàn)的次數(shù); 步驟3.2:以視覺特征為橫坐標,次數(shù)為縱坐標,對統(tǒng)計結(jié)果建立直方圖; 步驟3.3:對建立的直方圖進行歸一化。
10.根據(jù)權(quán)利要求5所述的基于多張關(guān)鍵圖的圖像內(nèi)容檢索方法,其特征在于,步驟4中計算直方圖的交集是通過下面的公式計算: Hi = Z in i n (Ai, Hi,…)
H = (H1, H2,...) 其中,i代表第i個視覺特征,Ai和Bi分別代表了不同關(guān)鍵圖的第i個視覺特征的出現(xiàn)頻率,Hi即為第i個視覺特征相交后的結(jié)果,H即為最終得到的直方圖。
【文檔編號】G06F17/30GK104317946SQ201410608236
【公開日】2015年1月28日 申請日期:2014年10月31日 優(yōu)先權(quán)日:2014年10月31日
【發(fā)明者】孫錟鋒, 蔣興浩, 曹晉其, 余昊, 何沛松 申請人:上海交通大學