專利名稱:基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法。
背景技術(shù):
近年來,隨著計算機(jī)視覺,特別是圖像局部特征(如SIFT)和視覺詞典法(BoVW,Bag of Visual Words)的飛速發(fā)展及應(yīng)用,使得目標(biāo)檢索技術(shù)日趨實用化,并在現(xiàn)實生活產(chǎn)品中得到了廣泛應(yīng)用。如 Tineye是ー種面向網(wǎng)絡(luò)的近似重復(fù)圖像檢索系統(tǒng),GoogleGoggles則允許用戶使用手機(jī)拍攝圖片并檢索出與圖片中所包含目標(biāo)的相關(guān)信息。BoVW方法是受文本檢索領(lǐng)域詞集方法啟發(fā)而產(chǎn)生的,由于BoVW方法性能突出,目前已經(jīng)成為目標(biāo)檢索領(lǐng)域的主流方法,但是它也存在一些開放性的問題。ー是算法的時間效率低及內(nèi)存消耗大問題。BoVW方法涉及到大量的高維數(shù)據(jù)近鄰查找問題,如在視覺詞典生成階段,傳統(tǒng)的做法是采用K-Means算法對特征點聚類而得到的,而K-Means算法的每次迭代都需要將數(shù)據(jù)點分配到與之最近的聚類中心,以及視覺詞匯直方圖構(gòu)建時需找到與圖像的局部特征點最近的視覺單詞等,其用于近鄰查找的時間將隨數(shù)據(jù)規(guī)模的増大急劇增加。相關(guān)文獻(xiàn)表明K-Means算法只適用于生成較小規(guī)模的詞典,當(dāng)詞典規(guī)模超過IO5時就難以解決。Nister等采用層次化K-Means算法HKM (Hierarchical K-Means)提高了量化和檢索效率,在此基礎(chǔ)上,Philbin等及Cao等人又米用近似K-means算法AKM(Approximate Κ-Means)針對大規(guī)模目標(biāo)檢索實現(xiàn)了進(jìn)ー步優(yōu)化。而為了提高檢索效率,還常引入倒排文檔結(jié)構(gòu)(invertedfile),盡管如此,內(nèi)存消耗依然是BoVW方法面臨的主要問題之一,相關(guān)文獻(xiàn)表明處理110萬幅的圖像仍要占用4. 3GB的內(nèi)存。此外,K-Means及其改進(jìn)算法(HKM,AKM等)不支持動態(tài)擴(kuò)充,即它們生成的視覺詞典與現(xiàn)有的圖像訓(xùn)練數(shù)據(jù)是相關(guān)的,當(dāng)加入新的圖像時,需對新圖像訓(xùn)練庫的局部特征點重新聚類,生成新的視覺詞典。ニ是視覺單詞的同義性和歧義性問題?;贙-Means以及改進(jìn)的聚類算法由于沒有考慮特征點之間的空間關(guān)系,在生成詞典時都會導(dǎo)致以下2個問題①聚類中心的分布不均勻特性,即在數(shù)據(jù)點密集空間得到的聚類中心偏多,而在數(shù)據(jù)點稀疏區(qū)域得到聚類偏少,由此會導(dǎo)致有多個視覺單詞描繪同一圖像區(qū)域的現(xiàn)象,即視覺詞匯的同義性;②偏離聚類中心的數(shù)據(jù)點會使聚類中心發(fā)生偏移,導(dǎo)致視覺詞匯的歧義性,即同一個視覺詞匯描述的特征點之間存在很大的差異現(xiàn)象。對此,研究人員進(jìn)行了諸多嘗試,如Philbin等人提出了ー種軟分配(soft-assignment)的視覺詞匯分布直方圖的構(gòu)建方法,Gemert等進(jìn)ー步驗證了軟分配方法對克服視覺單詞同義性和歧義性問題的有效性,Wang等人在構(gòu)建直方圖時引入了一種QP分配(quadratic programming assignment)的策略進(jìn)一步提高了匹配精度,較于傳統(tǒng)的硬分配(hard-assignment),它們在一定程度上克服了同義性和歧義性問題,然而,這些方法都是建立在應(yīng)用K-Means以及其改進(jìn)的聚類算法產(chǎn)生初始視覺詞典基礎(chǔ)上的,未能有效地解決BoVW方法存在的效率問題。此外,為了更為準(zhǔn)確的表達(dá)目標(biāo)的信息,Hsiao等則利用相關(guān)信息反饋過濾噪聲。三是當(dāng)人エ界定的目標(biāo)區(qū)域所包含的信息不能正確或不足以表達(dá)用戶檢索意圖時就會造成語義鴻溝而不能得到理想的檢索結(jié)果。主要表現(xiàn)為①矩形框只是目標(biāo)區(qū)域的近似表示;因為目標(biāo)圖像具有不規(guī)則的形狀,而矩形框是ー個簡單的矩形,所以從中提取的特征會包含一些與查詢目標(biāo)不相關(guān)的信息。②在矩形框很小的情況下,所提取的特征則不足以表征目標(biāo)信息,在檢索的時候會出現(xiàn)ー些不相關(guān)的圖像。此外,由于采用聚類算法生成視覺詞典時存在量化誤差,也會導(dǎo)致原有特征信息的丟失。為解決上述問題,研究人員作了許多嘗試,如Jegou等提出了一種漢明切入HE (Hamming Embedding)技術(shù),它利用ー個ニ進(jìn)制向量標(biāo)識特征點 的大概位置進(jìn)而補(bǔ)充視覺單詞信息量的不足,同時也證明幾何驗證方法(geometric verification)對提高檢索準(zhǔn)確度的有效性,但是由于其計算復(fù)雜度較高,故要對數(shù)據(jù)庫中所有圖像都進(jìn)行幾何驗證處理是不現(xiàn)實的,它一般只用作對初始檢索結(jié)果的重排序,故而在提高查準(zhǔn)率的同時也降低了查全率。Philbin等又將查詢擴(kuò)展(QueryExpansion)從文本領(lǐng)域引入到目標(biāo)檢索,提高了查全率,它利用初始檢索結(jié)果中正確匹配的圖像信息,經(jīng)多次迭代構(gòu)建信息更為精確和豐富的目標(biāo)模型。查詢擴(kuò)展技術(shù)雖然有效,卻依賴于一定的初始查全率,并且一般要經(jīng)多次迭代才能達(dá)到較好的效果,因此會極大的增加算法計算復(fù)雜度,影響系統(tǒng)實用性。精確歐氏位置敏感哈希(E2LSH,ExactEuclidean Locality Sensitive Hashing)是位置敏感哈希LSH (Locality Sensitive Hashing)在歐氏空間的ー種實現(xiàn)方案,能夠?qū)崿F(xiàn)快速的大規(guī)模高維數(shù)據(jù)近似近鄰查找。其基本思想是利用ー組基于穩(wěn)定分布的位置敏感函數(shù)對高維數(shù)據(jù)降維映射,確保原始空間中距離較近的點,經(jīng)過映射操作后,能夠以較大的概率哈希到同一個桶中,而相距較遠(yuǎn)的點哈希到同一個桶的概率很小。因此,借鑒該思想,可以采用E2LSH代替?zhèn)鹘y(tǒng)的K-Means及其改進(jìn)算法對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類,生成一組隨機(jī)化視覺詞典,進(jìn)而有效地避免多個單詞描述同一圖像區(qū)域和同一單詞描述的特征點之間有很大差異的現(xiàn)象。同時,由于E2LSH具有一定的隨機(jī)性,因此,在利用多個E2LSH完成特征與視覺單詞的映射時可以實現(xiàn)特征點與多個距離相近的視覺單詞之間的匹配,進(jìn)ー步地克服視覺單詞同義性和歧義性問題。而考慮到查詢目標(biāo)一般不會在圖像中単獨出現(xiàn),因此,可以將目標(biāo)區(qū)域周圍的視覺信息看作目標(biāo)的上下文語義相關(guān)信息而用來更好的表達(dá)目標(biāo)內(nèi)容,如圖I所示,為目標(biāo)上下文語義信息示意圖,其中,“荷花”為用戶界定的查詢目標(biāo),其周圍“荷葉”和“水面”包含的信息就能用來更好的表征目標(biāo)內(nèi)容,尤其是當(dāng)視覺單詞對“荷葉” “水面”概念敏感性更強(qiáng)時效果尤為明顯。視覺詞典法(BoVW,Bag of Visual Words)的產(chǎn)生及應(yīng)用改善了目標(biāo)檢索的性能,但傳統(tǒng)的BoVW方法具有時間效率低、內(nèi)存消耗大以及視覺單詞同義性和歧義性的問題,并且當(dāng)人エ界定的目標(biāo)區(qū)域所包含的信息不能正確或不足以表達(dá)用戶檢索意圖時也不能得到理想的檢索結(jié)果。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)不足,提出一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法,有效地解決了傳統(tǒng)聚類算法及查詢擴(kuò)展技術(shù)的多次迭代帶來的高運算復(fù)雜度,并較好地降低了人工界定的目標(biāo)區(qū)域與用戶檢索意圖之間的語義鴻溝,增強(qiáng)了目標(biāo)的區(qū)分性。本發(fā)明所采用的技術(shù)方案
一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法,首先,采用精確歐氏位置敏感哈希函數(shù)對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類,生成ー組支持動態(tài)擴(kuò)充的隨機(jī)化視覺詞典組;其次,選取查詢圖像并用矩形框界定目標(biāo)區(qū)域,然后根據(jù)Lowe的方法提取查詢圖像和圖像數(shù)據(jù)庫的SIFT特征并對其進(jìn)行E2LSH映射,實現(xiàn)特征點與視覺單詞的匹配;
然后,在語言模型的基礎(chǔ)上,利用查詢目標(biāo)區(qū)域及其周圍視覺単元的圖像顯著度,計算查詢圖像中各視覺單詞的檢索得分,構(gòu)造包含目標(biāo)上下文語義信息的目標(biāo)模型;最后,將圖像庫的特征向量存為索引文件,并引入K-L散度對目標(biāo)的語言模型與圖像庫中任ー圖像的語言模型進(jìn)行相似性度量,得到檢索結(jié)果。所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法,對于每個哈希函數(shù)gi(i = 1,…,L),利用其分別對訓(xùn)練圖像庫的SIFT點進(jìn)行哈希映射,空間中距離很近的點就會存入哈希表的同一個桶中,以每個桶中心代表一個視覺單詞,則每個函數(shù)gi都能生成一個哈希表(即ー個視覺詞典),那么,L個函數(shù)gl,…,&就能夠生成ー個視覺詞典組,其中,單個視覺詞典生成的詳細(xì)過程可描述如下(I)訓(xùn)練圖像庫的SIFT特征提取采用目標(biāo)檢索常用的數(shù)據(jù)庫0Xford5K作為訓(xùn)練圖像庫I = {ん/2,···,/ド··,/?!?Γ},檢測出Z中所有圖像的SIFT特征點,得到包含K個點的特征庫X = {ηプ2,···ふ···み—i,な-},其中每個點A都是ー個128維的SIFT特征向量;(2) E2LSH降維映射對無中的每個SIFT點r,利用gi函數(shù)對其進(jìn)行降維映射,得到k維的向量gi (r);(3) E2LSH桶哈希按式(3)和⑷分別計算SIFT點r的主哈希值K (gi (r))和次哈希值h2 (gi (r)):將主、次哈希值相同的點放入同一個桶中,生成哈希表T;=^f,V2(vW ■ 驚,略的、表示哈希表Ti的第k個桶,Ni為哈希表Ti中包含桶的個數(shù);將每個桶的中心看作一個視覺單詞,便得到視覺詞典Wi = { Mf, Hf ,·■·, M'f ,···, Mf—丨,},其中 = bl,;(4)視覺單詞過濾對于每個視覺詞典Wi,包含數(shù)據(jù)點太少或太多的視覺單詞所攜帶的信息往往不大,因此,在信息損失很小的前提下,可以將這些視覺單詞濾除棹,為每個視覺詞典都保留M個視覺單詞,即呎=,wf,···,Kf,···,,}, z = l, I所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法,為有效地利用目標(biāo)區(qū)域周圍的視覺單元信息,構(gòu)建包含上下文語義信息的目標(biāo)模型,減少與用戶檢索意圖之間的鴻溝在語言模型的基礎(chǔ)上引入空間位置信息并利用目標(biāo)周圍的視覺單元估計查詢圖像中各視覺單詞的檢索意圖得分,將查詢圖像表示為q = {q1,qb},其中ゲ=[(9,, A)]5 -Qb =[X1, Y11 Xr, yj分別表示整幅查詢圖像和由矩形框界定的目標(biāo)區(qū)域,用= な表示圖像庫中的任ー圖像,其中,^di分別表示查詢圖像q和圖像d包含的視覺單詞,Mq,Md*各自包含的視覺單詞數(shù)目,Pi為視覺單詞Qi在查詢圖像中所處位置,X1, Y1, Xr, I表示矩形框的上下左右邊界;假設(shè)由矩形框界定目標(biāo)區(qū)域的查詢圖像服從以下分布p(q \0Q) = p(q\qb | 0Q) ^Upiqi, Pi | 9Q)C5)
又查詢圖像中各單詞相互獨立,故有
權(quán)利要求
1.一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法,其特征是 首先,采用精確歐氏位置敏感哈希函數(shù)對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類,生成一組支持動態(tài)擴(kuò)充的隨機(jī)化視覺詞典組; 其次,選取查詢圖像并用矩形框界定目標(biāo)區(qū)域,然后根據(jù)Lowe的方法提取查詢圖像和圖像數(shù)據(jù)庫的SIFT特征并對其進(jìn)行E2LSH映射,實現(xiàn)特征點與視覺單詞的匹配; 然后,在視覺語言模型的基礎(chǔ)上,利用查詢目標(biāo)區(qū)域及其周圍視覺単元的圖像顯著度,計算查詢圖像中各視覺單詞的檢索得分,構(gòu)造包含目標(biāo)上下文語義信息的目標(biāo)模型; 最后,將圖像庫的特征向量存為索引文件,并引入K-L散度對目標(biāo)的語言模型與圖像庫中任ー圖像的語言模型進(jìn)行相似性度量,得到檢索結(jié)果。
2.根據(jù)權(quán)利要求I所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法,其特征是對于每個哈希函數(shù)gi(i = 1,…,L),利用其分別對訓(xùn)練圖像庫的SIFT點進(jìn)行哈希映射,空間中距離很近的點就會存入哈希表的同一個桶中,以每個桶中心代表一個視覺單詞,則每個函數(shù)gi都能生成一個哈希表,即ー個視覺詞典,那么,L個函數(shù)gl,…,gL就能夠生成一個視覺詞典組,其中,單個視覺詞典生成的詳細(xì)過程可描述如下 (O訓(xùn)練圖像庫的SIFT特征提取采用目標(biāo)檢索常用的數(shù)據(jù)庫0Xford5K作為訓(xùn)練圖像庫I = [A.ん…ス.,…,ム/ V I-, I,檢測出I中所有圖像的SIFT特征點,得到包含K個點的特征庫宄=k,r2,…,1V·ゾ,其中每個點A都是ー個128維的SIFT特征向量; (2)E2LSH降維映射對無中的每個SIFT點r,利用gi函數(shù)對其進(jìn)行降維映射,得到k維的向量g“r); (3)E2LSH桶哈希按式(3)和(4)分別計算SIFT點r的主哈希值Ii1 (gi (r))和次哈希值h2 Qi (r)):將主、次哈希值相同的點放入同一個桶中,生成哈希表T,·汰、、)“ ■■驚,(},ぐ表示哈希表Ti的第k個桶,Ni為哈希表T,中包含桶的個數(shù);將每個桶的中心看作ー個視覺單詞,便得到視覺詞典K ニ·{Hf ,Hf ,···,<,…,<し<丨,其中*f =If ; (4)視覺單詞過濾對于每個視覺詞典Wi,包含數(shù)據(jù)點太少或太多的視覺單詞所攜帯的信息往往不大,因此,在信息損失很小的前提下,可以將這些視覺單詞濾除掉,為每個視覺詞典都保留M個視覺單詞,即/ = 1,···』。
3.根據(jù)權(quán)利要求2所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法,其特征是在語言模型的基礎(chǔ)上引入空間位置信息并利用目標(biāo)周圍的視覺單元估計查詢圖像中各視覺單詞的檢索意圖得分,將查詢圖像表示為q= {ポ,め,其中ゲ=[釔P, ,qb=[X1, Y11 Xr, yj分別表示整幅查詢圖像和由矩形框界定的目標(biāo)區(qū)域,用ゴ=[ゴ,]; 表示圖像庫中的任ー圖像,其中,%,d,分別表示查詢圖像q和圖像d包含的視覺單詞,Mq, Md為各自包含的視覺單詞數(shù)目,Pi為視覺單詞Qi在查詢圖像中所處位置,X1, Y1, Xr, I表示矩形框的上下左右邊界; 假設(shè)由矩形框界定目標(biāo)區(qū)域的查詢圖像服從以下分布
4.根據(jù)權(quán)利要求3所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索,其特征是查詢圖像q與圖像庫中任一幅圖像d間的相似性可由查詢似然p(q|d)度量,則有
全文摘要
本發(fā)明涉及一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法。首先采用精確歐氏位置敏感哈希函數(shù)對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類,生成一組支持動態(tài)擴(kuò)充的隨機(jī)化視覺詞典組;然后選取查詢圖像并用矩形框界定目標(biāo)區(qū)域,提取查詢圖像和圖像數(shù)據(jù)庫的SIFT特征并對其進(jìn)行E2LSH映射,實現(xiàn)特征點與視覺單詞的匹配;在語言模型的基礎(chǔ)上利用查詢目標(biāo)區(qū)域及其周圍視覺單元的圖像顯著度,計算查詢圖像中各視覺單詞的檢索得分,構(gòu)造包含目標(biāo)上下文語義信息的目標(biāo)模型;最后將圖像庫的特征向量存為索引文件,并引入K-L散度對目標(biāo)的語言模型與圖像庫中任一圖像的語言模型進(jìn)行相似性度量,得到檢索結(jié)果。
文檔編號G06F17/30GK102693311SQ20121016867
公開日2012年9月26日 申請日期2012年5月28日 優(yōu)先權(quán)日2012年5月28日
發(fā)明者李弼程, 藺博宇, 趙永威, 高毫林 申請人:中國人民解放軍信息工程大學(xué)