基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法

文檔序號：6369465閱讀：199來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法。
背景技術(shù)：
近年來，隨著計算機(jī)視覺，特別是圖像局部特征(如SIFT)和視覺詞典法(BoVW，Bag of Visual Words)的飛速發(fā)展及應(yīng)用，使得目標(biāo)檢索技術(shù)日趨實用化，并在現(xiàn)實生活產(chǎn)品中得到了廣泛應(yīng)用。如 Tineye是ー種面向網(wǎng)絡(luò)的近似重復(fù)圖像檢索系統(tǒng)，GoogleGoggles則允許用戶使用手機(jī)拍攝圖片并檢索出與圖片中所包含目標(biāo)的相關(guān)信息。BoVW方法是受文本檢索領(lǐng)域詞集方法啟發(fā)而產(chǎn)生的，由于BoVW方法性能突出，目前已經(jīng)成為目標(biāo)檢索領(lǐng)域的主流方法，但是它也存在一些開放性的問題。ー是算法的時間效率低及內(nèi)存消耗大問題。BoVW方法涉及到大量的高維數(shù)據(jù)近鄰查找問題，如在視覺詞典生成階段，傳統(tǒng)的做法是采用K-Means算法對特征點聚類而得到的，而K-Means算法的每次迭代都需要將數(shù)據(jù)點分配到與之最近的聚類中心，以及視覺詞匯直方圖構(gòu)建時需找到與圖像的局部特征點最近的視覺單詞等，其用于近鄰查找的時間將隨數(shù)據(jù)規(guī)模的増大急劇增加。相關(guān)文獻(xiàn)表明K-Means算法只適用于生成較小規(guī)模的詞典，當(dāng)詞典規(guī)模超過IO5時就難以解決。Nister等采用層次化K-Means算法HKM (Hierarchical K-Means)提高了量化和檢索效率,在此基礎(chǔ)上，Philbin等及Cao等人又米用近似K-means算法AKM(Approximate Κ-Means)針對大規(guī)模目標(biāo)檢索實現(xiàn)了進(jìn)ー步優(yōu)化。而為了提高檢索效率，還常引入倒排文檔結(jié)構(gòu)(invertedfile)，盡管如此，內(nèi)存消耗依然是BoVW方法面臨的主要問題之一，相關(guān)文獻(xiàn)表明處理110萬幅的圖像仍要占用4. 3GB的內(nèi)存。此外，K-Means及其改進(jìn)算法(HKM，AKM等)不支持動態(tài)擴(kuò)充，即它們生成的視覺詞典與現(xiàn)有的圖像訓(xùn)練數(shù)據(jù)是相關(guān)的，當(dāng)加入新的圖像時，需對新圖像訓(xùn)練庫的局部特征點重新聚類，生成新的視覺詞典。ニ是視覺單詞的同義性和歧義性問題?；贙-Means以及改進(jìn)的聚類算法由于沒有考慮特征點之間的空間關(guān)系，在生成詞典時都會導(dǎo)致以下2個問題①聚類中心的分布不均勻特性，即在數(shù)據(jù)點密集空間得到的聚類中心偏多，而在數(shù)據(jù)點稀疏區(qū)域得到聚類偏少，由此會導(dǎo)致有多個視覺單詞描繪同一圖像區(qū)域的現(xiàn)象，即視覺詞匯的同義性；②偏離聚類中心的數(shù)據(jù)點會使聚類中心發(fā)生偏移，導(dǎo)致視覺詞匯的歧義性，即同一個視覺詞匯描述的特征點之間存在很大的差異現(xiàn)象。對此，研究人員進(jìn)行了諸多嘗試，如Philbin等人提出了ー種軟分配(soft-assignment)的視覺詞匯分布直方圖的構(gòu)建方法，Gemert等進(jìn)ー步驗證了軟分配方法對克服視覺單詞同義性和歧義性問題的有效性，Wang等人在構(gòu)建直方圖時引入了一種QP分配(quadratic programming assignment)的策略進(jìn)一步提高了匹配精度，較于傳統(tǒng)的硬分配(hard-assignment),它們在一定程度上克服了同義性和歧義性問題，然而，這些方法都是建立在應(yīng)用K-Means以及其改進(jìn)的聚類算法產(chǎn)生初始視覺詞典基礎(chǔ)上的，未能有效地解決BoVW方法存在的效率問題。此外，為了更為準(zhǔn)確的表達(dá)目標(biāo)的信息，Hsiao等則利用相關(guān)信息反饋過濾噪聲。三是當(dāng)人エ界定的目標(biāo)區(qū)域所包含的信息不能正確或不足以表達(dá)用戶檢索意圖時就會造成語義鴻溝而不能得到理想的檢索結(jié)果。主要表現(xiàn)為①矩形框只是目標(biāo)區(qū)域的近似表示；因為目標(biāo)圖像具有不規(guī)則的形狀，而矩形框是ー個簡單的矩形，所以從中提取的特征會包含一些與查詢目標(biāo)不相關(guān)的信息。②在矩形框很小的情況下，所提取的特征則不足以表征目標(biāo)信息，在檢索的時候會出現(xiàn)ー些不相關(guān)的圖像。此外，由于采用聚類算法生成視覺詞典時存在量化誤差，也會導(dǎo)致原有特征信息的丟失。為解決上述問題，研究人員作了許多嘗試，如Jegou等提出了一種漢明切入HE (Hamming Embedding)技術(shù),它利用ー個ニ進(jìn)制向量標(biāo)識特征點的大概位置進(jìn)而補(bǔ)充視覺單詞信息量的不足，同時也證明幾何驗證方法(geometric verification)對提高檢索準(zhǔn)確度的有效性,但是由于其計算復(fù)雜度較高，故要對數(shù)據(jù)庫中所有圖像都進(jìn)行幾何驗證處理是不現(xiàn)實的，它一般只用作對初始檢索結(jié)果的重排序，故而在提高查準(zhǔn)率的同時也降低了查全率。Philbin等又將查詢擴(kuò)展(QueryExpansion)從文本領(lǐng)域引入到目標(biāo)檢索，提高了查全率，它利用初始檢索結(jié)果中正確匹配的圖像信息，經(jīng)多次迭代構(gòu)建信息更為精確和豐富的目標(biāo)模型。查詢擴(kuò)展技術(shù)雖然有效，卻依賴于一定的初始查全率，并且一般要經(jīng)多次迭代才能達(dá)到較好的效果，因此會極大的增加算法計算復(fù)雜度，影響系統(tǒng)實用性。精確歐氏位置敏感哈希(E2LSH,ExactEuclidean Locality Sensitive Hashing)是位置敏感哈希LSH (Locality Sensitive Hashing)在歐氏空間的ー種實現(xiàn)方案,能夠?qū)崿F(xiàn)快速的大規(guī)模高維數(shù)據(jù)近似近鄰查找。其基本思想是利用ー組基于穩(wěn)定分布的位置敏感函數(shù)對高維數(shù)據(jù)降維映射，確保原始空間中距離較近的點，經(jīng)過映射操作后，能夠以較大的概率哈希到同一個桶中，而相距較遠(yuǎn)的點哈希到同一個桶的概率很小。因此，借鑒該思想，可以采用E2LSH代替?zhèn)鹘y(tǒng)的K-Means及其改進(jìn)算法對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類，生成一組隨機(jī)化視覺詞典，進(jìn)而有效地避免多個單詞描述同一圖像區(qū)域和同一單詞描述的特征點之間有很大差異的現(xiàn)象。同時，由于E2LSH具有一定的隨機(jī)性，因此，在利用多個E2LSH完成特征與視覺單詞的映射時可以實現(xiàn)特征點與多個距離相近的視覺單詞之間的匹配，進(jìn)ー步地克服視覺單詞同義性和歧義性問題。而考慮到查詢目標(biāo)一般不會在圖像中単獨出現(xiàn)，因此，可以將目標(biāo)區(qū)域周圍的視覺信息看作目標(biāo)的上下文語義相關(guān)信息而用來更好的表達(dá)目標(biāo)內(nèi)容，如圖I所示，為目標(biāo)上下文語義信息示意圖，其中，“荷花”為用戶界定的查詢目標(biāo)，其周圍“荷葉”和“水面”包含的信息就能用來更好的表征目標(biāo)內(nèi)容，尤其是當(dāng)視覺單詞對“荷葉” “水面”概念敏感性更強(qiáng)時效果尤為明顯。視覺詞典法(BoVW,Bag of Visual Words)的產(chǎn)生及應(yīng)用改善了目標(biāo)檢索的性能，但傳統(tǒng)的BoVW方法具有時間效率低、內(nèi)存消耗大以及視覺單詞同義性和歧義性的問題，并且當(dāng)人エ界定的目標(biāo)區(qū)域所包含的信息不能正確或不足以表達(dá)用戶檢索意圖時也不能得到理想的檢索結(jié)果。

發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)不足，提出一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法，有效地解決了傳統(tǒng)聚類算法及查詢擴(kuò)展技術(shù)的多次迭代帶來的高運算復(fù)雜度，并較好地降低了人工界定的目標(biāo)區(qū)域與用戶檢索意圖之間的語義鴻溝，增強(qiáng)了目標(biāo)的區(qū)分性。本發(fā)明所采用的技術(shù)方案
一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法，首先，采用精確歐氏位置敏感哈希函數(shù)對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類，生成ー組支持動態(tài)擴(kuò)充的隨機(jī)化視覺詞典組；其次，選取查詢圖像并用矩形框界定目標(biāo)區(qū)域，然后根據(jù)Lowe的方法提取查詢圖像和圖像數(shù)據(jù)庫的SIFT特征并對其進(jìn)行E2LSH映射，實現(xiàn)特征點與視覺單詞的匹配；
然后，在語言模型的基礎(chǔ)上，利用查詢目標(biāo)區(qū)域及其周圍視覺単元的圖像顯著度，計算查詢圖像中各視覺單詞的檢索得分，構(gòu)造包含目標(biāo)上下文語義信息的目標(biāo)模型；最后，將圖像庫的特征向量存為索引文件，并引入K-L散度對目標(biāo)的語言模型與圖像庫中任ー圖像的語言模型進(jìn)行相似性度量，得到檢索結(jié)果。所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法，對于每個哈希函數(shù)gi(i = 1，…，L)，利用其分別對訓(xùn)練圖像庫的SIFT點進(jìn)行哈希映射，空間中距離很近的點就會存入哈希表的同一個桶中，以每個桶中心代表一個視覺單詞，則每個函數(shù)gi都能生成一個哈希表(即ー個視覺詞典)，那么，L個函數(shù)gl，…，&就能夠生成ー個視覺詞典組，其中，單個視覺詞典生成的詳細(xì)過程可描述如下(I)訓(xùn)練圖像庫的SIFT特征提取采用目標(biāo)檢索常用的數(shù)據(jù)庫0Xford5K作為訓(xùn)練圖像庫I = {ん/2,···，/ド··,/?！?Γ}，檢測出Z中所有圖像的SIFT特征點，得到包含K個點的特征庫X = {ηプ2，···ふ···み—i，な-}，其中每個點A都是ー個128維的SIFT特征向量；(2) E2LSH降維映射對無中的每個SIFT點r，利用gi函數(shù)對其進(jìn)行降維映射，得到k維的向量gi (r)；(3) E2LSH桶哈希按式(3)和⑷分別計算SIFT點r的主哈希值K (gi (r))和次哈希值h2 (gi (r)):將主、次哈希值相同的點放入同一個桶中，生成哈希表T；=^f,V2(vW ■ 驚，略的、表示哈希表Ti的第k個桶，Ni為哈希表Ti中包含桶的個數(shù)；將每個桶的中心看作一個視覺單詞，便得到視覺詞典Wi = { Mf, Hf ,·■·, M'f ,···, Mf—丨,},其中 = bl,;(4)視覺單詞過濾對于每個視覺詞典Wi,包含數(shù)據(jù)點太少或太多的視覺單詞所攜帶的信息往往不大，因此，在信息損失很小的前提下，可以將這些視覺單詞濾除棹，為每個視覺詞典都保留M個視覺單詞，即呎=,wf,···,Kf,···,,}, z = l, I所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法，為有效地利用目標(biāo)區(qū)域周圍的視覺單元信息，構(gòu)建包含上下文語義信息的目標(biāo)模型，減少與用戶檢索意圖之間的鴻溝在語言模型的基礎(chǔ)上引入空間位置信息并利用目標(biāo)周圍的視覺單元估計查詢圖像中各視覺單詞的檢索意圖得分，將查詢圖像表示為q = {q1，qb}，其中ゲ=[(9,, A)]5 -Qb =[X1, Y11 Xr, yj分別表示整幅查詢圖像和由矩形框界定的目標(biāo)區(qū)域，用= な表示圖像庫中的任ー圖像，其中，^di分別表示查詢圖像q和圖像d包含的視覺單詞，Mq，Md*各自包含的視覺單詞數(shù)目，Pi為視覺單詞Qi在查詢圖像中所處位置，X1, Y1, Xr, I表示矩形框的上下左右邊界；假設(shè)由矩形框界定目標(biāo)區(qū)域的查詢圖像服從以下分布p(q \0Q) = p(q\qb | 0Q) ^Upiqi, Pi | 9Q)C5)
又查詢圖像中各單詞相互獨立，故有
權(quán)利要求
1.一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法，其特征是首先，采用精確歐氏位置敏感哈希函數(shù)對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類，生成一組支持動態(tài)擴(kuò)充的隨機(jī)化視覺詞典組；其次，選取查詢圖像并用矩形框界定目標(biāo)區(qū)域，然后根據(jù)Lowe的方法提取查詢圖像和圖像數(shù)據(jù)庫的SIFT特征并對其進(jìn)行E2LSH映射，實現(xiàn)特征點與視覺單詞的匹配；然后，在視覺語言模型的基礎(chǔ)上，利用查詢目標(biāo)區(qū)域及其周圍視覺単元的圖像顯著度，計算查詢圖像中各視覺單詞的檢索得分，構(gòu)造包含目標(biāo)上下文語義信息的目標(biāo)模型；最后，將圖像庫的特征向量存為索引文件，并引入K-L散度對目標(biāo)的語言模型與圖像庫中任ー圖像的語言模型進(jìn)行相似性度量，得到檢索結(jié)果。
2.根據(jù)權(quán)利要求I所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法，其特征是對于每個哈希函數(shù)gi(i = 1，…，L)，利用其分別對訓(xùn)練圖像庫的SIFT點進(jìn)行哈希映射，空間中距離很近的點就會存入哈希表的同一個桶中，以每個桶中心代表一個視覺單詞，則每個函數(shù)gi都能生成一個哈希表，即ー個視覺詞典，那么，L個函數(shù)gl，…，gL就能夠生成一個視覺詞典組，其中，單個視覺詞典生成的詳細(xì)過程可描述如下 (O訓(xùn)練圖像庫的SIFT特征提取采用目標(biāo)檢索常用的數(shù)據(jù)庫0Xford5K作為訓(xùn)練圖像庫I = [A.ん…ス.，…，ム/ V I-, I，檢測出I中所有圖像的SIFT特征點，得到包含K個點的特征庫宄=k，r2，…，1V·ゾ,其中每個點A都是ー個128維的SIFT特征向量； (2)E2LSH降維映射對無中的每個SIFT點r，利用gi函數(shù)對其進(jìn)行降維映射，得到k維的向量g“r)； (3)E2LSH桶哈希按式(3)和(4)分別計算SIFT點r的主哈希值Ii1 (gi (r))和次哈希值h2 Qi (r)):將主、次哈希值相同的點放入同一個桶中，生成哈希表T,·汰、、)“ ■■驚，(},ぐ表示哈希表Ti的第k個桶，Ni為哈希表T,中包含桶的個數(shù)；將每個桶的中心看作ー個視覺單詞，便得到視覺詞典K ニ·{Hf ,Hf ,···，<，…,<し<丨,其中*f =If ; (4)視覺單詞過濾對于每個視覺詞典Wi,包含數(shù)據(jù)點太少或太多的視覺單詞所攜帯的信息往往不大，因此，在信息損失很小的前提下，可以將這些視覺單詞濾除掉，為每個視覺詞典都保留M個視覺單詞，即/ = 1，···』。
3.根據(jù)權(quán)利要求2所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法，其特征是在語言模型的基礎(chǔ)上引入空間位置信息并利用目標(biāo)周圍的視覺單元估計查詢圖像中各視覺單詞的檢索意圖得分，將查詢圖像表示為q= {ポ，め，其中ゲ=[釔P, ，qb=[X1, Y11 Xr, yj分別表示整幅查詢圖像和由矩形框界定的目標(biāo)區(qū)域，用ゴ=[ゴ,]; 表示圖像庫中的任ー圖像，其中，％，d,分別表示查詢圖像q和圖像d包含的視覺單詞，Mq, Md為各自包含的視覺單詞數(shù)目，Pi為視覺單詞Qi在查詢圖像中所處位置，X1, Y1, Xr, I表示矩形框的上下左右邊界；假設(shè)由矩形框界定目標(biāo)區(qū)域的查詢圖像服從以下分布
4.根據(jù)權(quán)利要求3所述的基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索，其特征是查詢圖像q與圖像庫中任一幅圖像d間的相似性可由查詢似然p(q|d)度量，則有
全文摘要
本發(fā)明涉及一種基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法。首先采用精確歐氏位置敏感哈希函數(shù)對訓(xùn)練圖像庫的局部特征點進(jìn)行聚類，生成一組支持動態(tài)擴(kuò)充的隨機(jī)化視覺詞典組；然后選取查詢圖像并用矩形框界定目標(biāo)區(qū)域，提取查詢圖像和圖像數(shù)據(jù)庫的SIFT特征并對其進(jìn)行E2LSH映射，實現(xiàn)特征點與視覺單詞的匹配；在語言模型的基礎(chǔ)上利用查詢目標(biāo)區(qū)域及其周圍視覺單元的圖像顯著度，計算查詢圖像中各視覺單詞的檢索得分，構(gòu)造包含目標(biāo)上下文語義信息的目標(biāo)模型；最后將圖像庫的特征向量存為索引文件，并引入K-L散度對目標(biāo)的語言模型與圖像庫中任一圖像的語言模型進(jìn)行相似性度量，得到檢索結(jié)果。
文檔編號G06F17/30GK102693311SQ20121016867
公開日2012年9月26日申請日期2012年5月28日優(yōu)先權(quán)日2012年5月28日
發(fā)明者李弼程, 藺博宇, 趙永威, 高毫林申請人:中國人民解放軍信息工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙永威;李弼程;高毫林;藺博宇
技術(shù)所有人：中國人民解放軍信息工程大學(xué)
我是此專利的發(fā)明人

上一篇：基于本體和規(guī)則的物流運輸預(yù)警方法
上一篇：網(wǎng)絡(luò)設(shè)備獲取及更新配置的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

上下文語義分析相關(guān)技術(shù)

時空上下文視覺跟蹤相關(guān)技術(shù)

語義詞典相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于隨機(jī)化視覺詞典組和上下文語義信息的目標(biāo)檢索方法