技術(shù)領(lǐng)域:
本發(fā)明涉及跨模態(tài)哈希檢索方法,尤其涉及基于映射字典學(xué)習(xí)的跨模態(tài)哈希檢索方法。
背景技術(shù):
:
隨著計(jì)算機(jī)網(wǎng)絡(luò)和信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的媒體數(shù)據(jù)量急劇增長(zhǎng),媒體的表示形式也呈現(xiàn)出多模態(tài)性(圖像,文本,聲音,視頻等)。例如:在微博上傳照片時(shí),通常會(huì)同時(shí)上傳一段文字描述照片的內(nèi)容或用一些標(biāo)簽標(biāo)注圖像的內(nèi)容;在微信的朋友圈分享時(shí),往往也是圖文并茂;購(gòu)物網(wǎng)站,例如淘寶,京東等,在描述產(chǎn)品信息時(shí)通常既用圖片,又用文字。這些多模態(tài)數(shù)據(jù)雖然表現(xiàn)形式不同,但它們之間存在語(yǔ)義關(guān)聯(lián)??缑襟w檢索的目的就是挖掘不同媒體之間存在的語(yǔ)義關(guān)系,并按語(yǔ)義關(guān)系進(jìn)行排序,返回跟查詢存在較強(qiáng)語(yǔ)義關(guān)系的不同模態(tài)的數(shù)據(jù)。隨著媒體數(shù)據(jù)量的急速增長(zhǎng)和模態(tài)的多樣化,傳統(tǒng)的檢索方法已經(jīng)不能滿足當(dāng)前跨媒體檢索的需求。如何在海量數(shù)據(jù)中檢索不同模態(tài)的數(shù)據(jù)成為一個(gè)巨大的挑戰(zhàn)。
哈希方法是解決大數(shù)據(jù)問題的一種有效的方法,它不僅能大大節(jié)省存儲(chǔ)空間,而且計(jì)算效率也大幅提高。例如一張圖片用5,000維的bow(bagofwords)表示,假設(shè)每維用double數(shù)據(jù)類型表示,即每維占用8bytes的存儲(chǔ)空間,則需要5,000×8bytes=40,000bytes的存儲(chǔ)空間。而哈希方法是把樣本映射漢明空間,例如用32bits(8bits=1byte)來(lái)表示一張圖片,僅需要4bytes的存儲(chǔ)空間,大大節(jié)省了存儲(chǔ)空間,占用的存儲(chǔ)空間僅為原始特征空間的萬(wàn)分之一。在檢索過程中,因?yàn)闃颖居枚荡a表示,因此在計(jì)算樣本間的距離時(shí),只需要做簡(jiǎn)單的異或操作即可,大大提升了計(jì)算的效率,使檢索的時(shí)間復(fù)雜度遠(yuǎn)低于傳統(tǒng)方法。
由于哈希方法的高效性和節(jié)省內(nèi)存,最近引起了越來(lái)越多的關(guān)注??缒B(tài)哈希的目標(biāo)是為不同模態(tài)的樣本學(xué)習(xí)一個(gè)共享的漢明空間,在這個(gè)空間可以實(shí)現(xiàn)跨媒體檢索(參見文獻(xiàn)[1-5,7,8,10])。基于相似敏感哈希的跨模態(tài)度量學(xué)習(xí)方法(cross-modalitymetriclearningusingsimilaritysensitivehashing,cmssh)通過最小化不同模態(tài)的相似樣本之間的漢明距離,最大化不同模態(tài)的不相似樣本間的漢明距離,學(xué)習(xí)哈希函數(shù)(參見文獻(xiàn)[1])。典型相關(guān)分析(canonicalcorrelationanalysis,cca)(參見文獻(xiàn)[6])哈希方法,把cca引入跨媒體哈希方法,提出最大化模態(tài)間的相關(guān)性,學(xué)習(xí)一組哈希函數(shù)(參見文獻(xiàn)[10])。跨視角哈希(cross-viewhashing,cvh)把譜哈希擴(kuò)展到跨模態(tài)檢索,通過最小化加權(quán)距離,保持相似樣本模態(tài)內(nèi)和模態(tài)間的相似性(參見文獻(xiàn)[2])。多模態(tài)潛在二值嵌入(multi-modallatentbinaryembedding,mlbe)提出一個(gè)概率生成模型,通過保持多模態(tài)樣本模態(tài)內(nèi)和模態(tài)間的相似度來(lái)學(xué)習(xí)哈希函數(shù)(參見文獻(xiàn)[8])。協(xié)同矩陣分解哈希方法(collectivematrixfactorizationhashing,cmfh)利用協(xié)同矩陣分解保持模態(tài)間的相似性,為樣本對(duì)學(xué)習(xí)同一表示(參見文獻(xiàn)[3])?;诰垲惵?lián)合矩陣分解哈希(cluster-basedjointmatrixfactorizationhashing,cjmfh)提出了首先對(duì)各個(gè)模態(tài)進(jìn)行聚類運(yùn)算,再利用矩陣分解同時(shí)保持模態(tài)內(nèi)、模態(tài)間和基于聚類的相似性(參見文獻(xiàn)[7])。以上方法雖然取得了令人滿意的結(jié)果,但是學(xué)習(xí)到的哈希碼不包含任何語(yǔ)義信息,限制了算法的性能。稀疏哈希(latentsemanticsparsehashing,lssh)為了縮小圖像和文本之間的語(yǔ)義鴻溝,利用稀疏表示學(xué)習(xí)圖像的一些顯著結(jié)構(gòu),利用矩陣分解為文本學(xué)習(xí)一個(gè)潛在的語(yǔ)義空間,并保持模態(tài)間的語(yǔ)義相似性(參見文獻(xiàn)[4])。稀疏多模態(tài)哈希(sparsemulti-modalhashing,smmh)提出利用稀疏表示為圖像和文本學(xué)習(xí)一個(gè)共享語(yǔ)義空間,保持模態(tài)間的相似性(參見文獻(xiàn)[5])。這類方法利用稀疏表示,使哈希碼包含語(yǔ)義信息,提升了算法的性能。但是這類算法通常存在以下問題,限制了算法的應(yīng)用。1)在字典學(xué)習(xí)算法中,因?yàn)橄∈杓s束項(xiàng)的存在,導(dǎo)致訓(xùn)練和測(cè)試過程算法的復(fù)雜度高。2)這些哈希算法沒有為各模態(tài)學(xué)習(xí)哈希函數(shù)。測(cè)試樣本,通常需要首先解決一個(gè)lasso問題,得到樣本的稀疏表示,然后通過量化得到樣本的哈希碼(如文獻(xiàn)[4]),而不能像其他哈希算法直接利用哈希函數(shù)得到樣本的哈希碼。3)樣本表示是稀疏的,導(dǎo)致哈希碼的-1和1分配不均勻。
針對(duì)以上問題,本發(fā)明申請(qǐng)?zhí)岢鲆环N基于映射字典學(xué)習(xí)的跨模態(tài)哈希檢索方法。在字典學(xué)習(xí)過程中,放松了稀疏約束項(xiàng),不僅降低了時(shí)間復(fù)雜度和平衡了哈希碼的分布,而且在字典學(xué)習(xí)過程中得到了哈希函數(shù)。對(duì)于哈希問題的求解,現(xiàn)存的大部分跨模態(tài)哈希算法一般先得到問題的連續(xù)最優(yōu)解,再通過量化得到樣本的哈希碼。但是,這些算法沒有考慮量化損失對(duì)算法性能的影響。本發(fā)明申請(qǐng)通過最小化量化誤差,學(xué)習(xí)一個(gè)正交的旋轉(zhuǎn)矩陣,進(jìn)一步提升算法的性能。
技術(shù)實(shí)現(xiàn)要素:
:
本發(fā)明的目的在于克服上述已有技術(shù)的不足,提供一種基于映射字典學(xué)習(xí)的跨模態(tài)哈希檢索方法。
本發(fā)明的目的可以通過如下措施來(lái)達(dá)到:基于映射字典學(xué)習(xí)的跨模態(tài)哈希檢索方法,其特征在于其通過計(jì)算機(jī)裝置實(shí)現(xiàn)如下步驟:
1)步驟s1,通過網(wǎng)絡(luò)收集圖像和文本樣本,并建立跨媒體檢索的圖像和文本數(shù)據(jù)集,并將圖像和文本數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集;
2)步驟s2,分別利用圖像和文本的bow算法提取訓(xùn)練集和測(cè)試集的圖像和文本的特征;
3)步驟s3,利用訓(xùn)練集的圖像和文本樣本,通過映射字典學(xué)習(xí)為圖像和文本模態(tài)學(xué)習(xí)一個(gè)共享子空間,并通過保持兩個(gè)模態(tài)的模態(tài)間相似度學(xué)習(xí)圖像和文本模態(tài)的哈希函數(shù);
其包含以下步驟:
步驟s31,用
根據(jù)上述所述的變量,利用訓(xùn)練集中樣本的特征構(gòu)建目標(biāo)函數(shù):
其中
步驟s32,求解步驟s31中的目標(biāo)函數(shù),得到圖像和文本模態(tài)的哈希函數(shù);
所述步驟s32進(jìn)一步包含以下步驟:
步驟s321,為圖像和文本兩個(gè)模態(tài)分別引入一個(gè)中間變量
其中,參數(shù)
步驟s322,初始化字典
步驟s323,固定其他變量求解
其中const表示常數(shù),令:
其中,
同理:
步驟s324,固定其他變量求解
展開上式并對(duì)
同理:
步驟s325,固定其他變量求解
該目標(biāo)函數(shù)通過admm算法進(jìn)行計(jì)算;
同理,
步驟s326,判斷迭代次數(shù)是否小于最大迭代次數(shù),若是,則跳轉(zhuǎn)到步驟s32繼續(xù)迭代過程;若不是,則停止迭代,得到圖像和文本模態(tài)的哈希函數(shù)
4)步驟s4,為圖像和文本樣本學(xué)習(xí)一個(gè)正交旋轉(zhuǎn)矩陣,最小化量化誤差;
所述步驟s4中為圖像和文本樣本學(xué)習(xí)一個(gè)正交旋轉(zhuǎn)矩陣的方法,具體包含以下步驟:
步驟s41,通過學(xué)習(xí)一個(gè)旋轉(zhuǎn)矩陣最小化量化誤差,量化損失函數(shù)定義為:
其中,
步驟s42,求解步驟s41中的量化損失函數(shù),所述步驟s42進(jìn)一步包含以下步驟:
步驟s421,初始化旋轉(zhuǎn)矩陣
步驟s422,固定
步驟s423,固定
由奇異值分解(svd)的方法求解,即:
則:
步驟s424,判斷是否是最大迭代次數(shù),如果不是則跳轉(zhuǎn)到s422繼續(xù)迭代;如果是,則停止迭代,得到正交旋轉(zhuǎn)矩陣
步驟s5,利用圖像和文本模態(tài)的哈希函數(shù)和學(xué)習(xí)的正交旋轉(zhuǎn)矩陣
6)步驟s6,將一個(gè)模態(tài)的測(cè)試集樣本作為查詢樣本,而另一模態(tài)的訓(xùn)練集樣本作為被檢索數(shù)據(jù)集;計(jì)算查詢樣本與被檢索樣本的漢明距離,并按照漢明距離進(jìn)行排序,并返回排序靠前的樣本;
所述的查詢樣本與被檢索樣本的相似度可以利用漢明距離度量,漢明距離越小說明查詢樣本與被檢索樣本的相似度越高,反之亦然。
為了進(jìn)一步實(shí)現(xiàn)本發(fā)明的目的,所述的步驟s1包括從網(wǎng)絡(luò)上的社交、購(gòu)物網(wǎng)站分別收集圖像和文本樣本,并由在同一網(wǎng)頁(yè)出現(xiàn)的圖像和文本構(gòu)成圖像和文本樣本對(duì),建立跨媒體檢索圖像和文本數(shù)據(jù)集;所述的將圖像和文本數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,隨機(jī)選擇99%的樣本對(duì)構(gòu)成訓(xùn)練數(shù)據(jù)集,剩余的1%構(gòu)成測(cè)試數(shù)據(jù)集。
為了進(jìn)一步實(shí)現(xiàn)本發(fā)明的目的,所述的步驟s2中對(duì)圖像使用由sift(scale-invariantfeaturetransform)特征作為視覺單詞的bow模型提取特征,對(duì)文本使用傳統(tǒng)的bow模型提取特征。
本發(fā)明同已有技術(shù)相比可產(chǎn)生如下積極效果:
1.利用映射字典學(xué)習(xí)不僅使哈希碼含有語(yǔ)義信息,而且將傳統(tǒng)字典學(xué)習(xí)的計(jì)算復(fù)雜度由
2.通過學(xué)習(xí)一個(gè)正交旋轉(zhuǎn)矩陣,最小化量化誤差,得到了性能更好的哈希函數(shù),并且正交旋轉(zhuǎn)矩陣不會(huì)破壞目標(biāo)函數(shù)解的最優(yōu)性。
3.算法學(xué)習(xí)了哈希函數(shù),圖像和文本樣本的哈希碼可以通過哈希函數(shù)和正交旋轉(zhuǎn)矩陣直接得到,這與現(xiàn)存的基于字典學(xué)習(xí)的哈希算法不同。
4.本發(fā)明檢索的準(zhǔn)確率高,實(shí)現(xiàn)簡(jiǎn)單,容易應(yīng)用于大規(guī)模數(shù)據(jù)集,易于在實(shí)際中應(yīng)用,具有廣闊的應(yīng)用前景和巨大的市場(chǎng)價(jià)值。
附圖說明:
圖1為本發(fā)明的流程示意圖。
具體實(shí)施方式:下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式做詳細(xì)說明:
雖然本發(fā)明指定了圖像和文本兩個(gè)模態(tài),但是算法很容易的擴(kuò)展到其他模態(tài)和多于兩個(gè)模態(tài)的情況。為了方便描述,本發(fā)明只考慮圖像和文本兩個(gè)模態(tài)。
參見圖1,基于映射字典學(xué)習(xí)的跨模態(tài)哈希檢索方法,其通過計(jì)算機(jī)裝置實(shí)現(xiàn)如下步驟:
步驟s1,通過網(wǎng)絡(luò)收集圖像和文本樣本,并建立跨媒體檢索的圖像和文本數(shù)據(jù)集,并將圖像和文本數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集;
所述的步驟s1包括從網(wǎng)絡(luò)上的社交、購(gòu)物等網(wǎng)站分別收集圖像和文本樣本,并由在同一網(wǎng)頁(yè)出現(xiàn)的圖像和文本構(gòu)成圖像和文本樣本對(duì),建立跨媒體檢索圖像和文本數(shù)據(jù)集;所述的將圖像和文本數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,隨機(jī)選擇99%的樣本對(duì)構(gòu)成訓(xùn)練數(shù)據(jù)集,剩余的1%構(gòu)成測(cè)試樣本樣本集。
步驟s2,分別利用圖像和文本的bow算法提取訓(xùn)練集和測(cè)試集的圖像和文本的特征;
對(duì)圖像使用由sift(scale-invariantfeaturetransform)特征作為視覺單詞的bow模型提取特征,對(duì)文本使用傳統(tǒng)的bow模型提取特征。
步驟s3,利用訓(xùn)練集的圖像和文本樣本,通過映射字典學(xué)習(xí)為圖像和文本模態(tài)學(xué)習(xí)一個(gè)共享子空間,并通過保持兩個(gè)模態(tài)的模態(tài)間相似度學(xué)習(xí)圖像和文本模態(tài)的哈希函數(shù);
所述步驟s3進(jìn)一步包含以下步驟:
步驟s31,用
根據(jù)上述所述的變量,利用訓(xùn)練集中的樣本的特征構(gòu)建目標(biāo)函數(shù):
其中為參數(shù)
步驟s32,求解步驟s31中的目標(biāo)函數(shù),得到圖像和文本模態(tài)的哈希函數(shù)。
所述步驟s32進(jìn)一步包含以下步驟:
步驟s321,為了更容易求解目標(biāo)函數(shù),為圖像和文本兩個(gè)模態(tài)分別引入一個(gè)中間變量,
其中,參數(shù)
步驟s322,初始化字典
步驟s323,固定其他變量求解
其中const表示常數(shù),令:
其中,
同理:
步驟s324,固定其他變量求解
展開上式并對(duì)
同理:
步驟s325,固定其他變量求解
該目標(biāo)函數(shù)通過admm算法(該算法參見參考文獻(xiàn)[11])進(jìn)行計(jì)算;
同理,
步驟s326,判斷迭代次數(shù)是否小于最大迭代次數(shù),若是,則跳轉(zhuǎn)到步驟s32繼續(xù)迭代過程;若不是,則停止迭代,得到圖像和文本模態(tài)的哈希函數(shù)
步驟s4,直接量化圖像和文本模態(tài)訓(xùn)練樣本的表示
所述步驟s4中為圖像和文本樣本學(xué)習(xí)一個(gè)正交旋轉(zhuǎn)矩陣的方法,具體包含以下步驟:
步驟s41,本發(fā)明提出通過學(xué)習(xí)一個(gè)旋轉(zhuǎn)矩陣最小化量化誤差,量化損失函數(shù)定義為:
其中,
步驟s42,求解步驟s41中的量化損失函數(shù),所述步驟s42進(jìn)一步包含以下步驟:
步驟s421,初始化旋轉(zhuǎn)矩陣
步驟s422,固定
步驟s423,固定
此問題為典型的orthogonalprocrustesproblem,由奇異值分解(svd)的方法求解,即:
則:
步驟s424,判斷是否是最大迭代次數(shù),如果不是則跳轉(zhuǎn)到s422繼續(xù)迭代;如果是,則停止迭代,得到正交旋轉(zhuǎn)矩陣
步驟s5,利用圖像和文本模態(tài)的哈希函數(shù)和學(xué)習(xí)的正交旋轉(zhuǎn)矩陣
步驟s6,將一個(gè)模態(tài)的測(cè)試集樣本作為查詢樣本,而另一模態(tài)的訓(xùn)練集作為被檢索數(shù)據(jù)集。計(jì)算查詢樣本與被檢索樣本的漢明距離,并按照漢明距離進(jìn)行排序,并返回排序靠前的樣本。
所述的查詢樣本與被檢索樣本的相似度可以利用漢明距離度量,漢明距離越小說明查詢樣本與被檢索樣本的相似度越高,反之亦然。
為了證明本發(fā)明提出方法的有效性,下面將本發(fā)明應(yīng)用于一個(gè)跨媒體數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含186577個(gè)樣本對(duì),可以劃分為10個(gè)語(yǔ)義類。其中圖像用500維的bow向量表示,而文本用1000維的bow向量表示。選取99%的樣本構(gòu)成訓(xùn)練集,剩余的1%的樣本構(gòu)成測(cè)試集。將本發(fā)明應(yīng)用于此數(shù)據(jù)庫(kù),具體步驟如下:
1)提取數(shù)據(jù)集中圖像和文本數(shù)據(jù)的特征,每副圖像提取500維的bow向量,而每段文本提取1000維的bow向量,并分別構(gòu)建圖像和文本的特征矩陣;
2)通過最小化目標(biāo)函數(shù)保持?jǐn)?shù)據(jù)的相似性,得到圖像和文本模態(tài)的哈希函數(shù);
3)通過學(xué)習(xí)一個(gè)旋轉(zhuǎn)矩陣最小化量化誤差;
4)利用圖像和文本的哈希函數(shù)和學(xué)習(xí)的正交旋轉(zhuǎn)矩陣計(jì)算查詢數(shù)據(jù)的哈希碼;
5)一個(gè)模態(tài)的測(cè)試集作為查詢樣本,而另一模態(tài)的訓(xùn)練集作為被檢索樣本。給定一個(gè)查詢樣本,計(jì)算與被檢索數(shù)據(jù)集中所有樣本的相似度,并排序,返回排序靠前的數(shù)據(jù)。
綜上所述,本發(fā)明提出的基于映射字典學(xué)習(xí)的跨媒體檢索方法,檢索的準(zhǔn)確率高,容易應(yīng)用于大規(guī)模數(shù)據(jù)集,實(shí)現(xiàn)簡(jiǎn)單等特點(diǎn)。本發(fā)明提出的方法有效的縮小了異構(gòu)數(shù)據(jù)間的語(yǔ)義鴻溝,易于在實(shí)際中應(yīng)用,具有廣闊的應(yīng)用前景和巨大的市場(chǎng)價(jià)值。
以上僅僅是對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行描述,其它優(yōu)選實(shí)施方式在此不一一累述,且并非對(duì)本發(fā)明的范圍進(jìn)行限定,在不脫離本發(fā)明設(shè)計(jì)精神的前提下,本領(lǐng)域普通工程技術(shù)人員對(duì)本發(fā)明的技術(shù)方案作出的各種變形和改進(jìn),均應(yīng)落于本發(fā)明的權(quán)利要求書確定的保護(hù)范圍內(nèi)。
參考文獻(xiàn)
[1]bronsteinm,bronsteina,michelf,etal.datafusionthroughcross-modalitymetriclearningusingsimilarity-sensitivehashing[c].ieeeconferenceoncomputervisionandpatternrecognition,2010:3594-3601.
[2]kumars,udupar.learninghashfunctionsforcross-viewsimilaritysearch[c].internationaljointconferenceonartificialintelligence,2011:1360-1366.
[3]dingg,guoy,zhouj.collectivematrixfactorizationhashingformultimodaldata[c].ieeeconferenceoncomputervisionandpatternrecognition,2014:2075-2082.
[4]zhouj,dingg,guoy.latentsemanticsparsehashingforcross-modalsimilaritysearch[c].acmsigirconferenceonresearchanddevelopmentininformationretrieval,2014:415-424.
[5]zhuangy,wangy,wuf,etal.supervisedcoupleddictionarylearningwithgroupstructuresformulti-modalretrieval[c].aaaiconferenceonartificialintelligence,2013:1070-1076.
[6]hotellingh.relationsbetweentwosetsofvariates.biometrika[j],1936,28(28):321-377.
[7]rafailidisd,crestanif.cluster-basedjointmatrixfactorizationhashingforcross-modalretrieval[c].acmsigirconferenceonresearchanddevelopmentininformationretrieval.2016:781-784.
[8]zheny,yeungd.aprobabilisticmodelformultimodalhashfunctionlearning[c].acmconferenceonknowledgediscoveryanddatamining,2012:940-948.
[9]李武軍,周志華.大數(shù)據(jù)哈希學(xué)習(xí):現(xiàn)狀與趨勢(shì).科學(xué)通報(bào)[j],2015,60(5-6):485-490
[10]gongy,lazebniks,gordoa,etal.iterativequantization:aprocrusteanapproachtolearningbinarycodesforlarge-scaleimageretrieval[j].ieeetransactionsonpatternanalysisandmachineintelligence,2013,35(12):2916-2929.
[11]gus,zhangl,zuow,etal.projectivedictionarypairlearningforpatternclassification[c].advancesinneuralinformationprocessingsystems,2014:793-801。