欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈希快速圖片檢索系統(tǒng)及方法與流程

文檔序號(hào):11677603閱讀:386來源:國知局
基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng)及方法與流程

本發(fā)明涉及計(jì)算機(jī)視覺和圖像處理領(lǐng)域,具體地,涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng)及方法。



背景技術(shù):

隨著現(xiàn)有多媒體內(nèi)容的爆炸性增長,如何加快圖像檢索速度受到了廣泛的關(guān)注。哈希作為一個(gè)可以通過多個(gè)映射方程將一個(gè)高維的特征向量轉(zhuǎn)換為一個(gè)緊湊的并且表達(dá)能力強(qiáng)的二進(jìn)制碼的算法,在快速圖像檢索領(lǐng)域取得了不小的成功。近幾年來,隨著深度卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,許多的基于卷積神經(jīng)網(wǎng)絡(luò)的哈希算法被提出并且展示了巨大的前景。特別地,由于現(xiàn)有的有標(biāo)簽數(shù)據(jù)的缺乏和以及標(biāo)記圖片所需的人力物力,基于無標(biāo)簽數(shù)據(jù)的無監(jiān)督哈希算法得到了廣泛的關(guān)注。

最早的無監(jiān)督哈希算法主要是基于限制波爾茲曼機(jī)(rbms)的編碼算法。然而,rbms的訓(xùn)練過程是很復(fù)雜的而且需要進(jìn)行預(yù)訓(xùn)練,從而使得rbms在實(shí)際應(yīng)用中并不是很有效的。最近,數(shù)據(jù)增強(qiáng)技術(shù)也被用來增強(qiáng)深度網(wǎng)絡(luò)的表達(dá)能力,并且實(shí)現(xiàn)了至今為止最好的檢索效果。在利用數(shù)據(jù)增強(qiáng)技術(shù)中,k.lin等人通過對(duì)訓(xùn)練圖片進(jìn)行不同程度的旋轉(zhuǎn)并且通過最小化參考圖片和旋轉(zhuǎn)圖片所對(duì)應(yīng)的哈希碼的距離來學(xué)習(xí)一個(gè)深度網(wǎng)絡(luò)用來產(chǎn)生輸入圖片的哈希碼。然而,僅僅優(yōu)化參考圖片和旋轉(zhuǎn)圖片之間的旋轉(zhuǎn)不變性意味著對(duì)整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)過程來講只提供了訓(xùn)練正樣本,從而并不能保證學(xué)習(xí)到的模型可以針對(duì)不同的圖片產(chǎn)生具有辨識(shí)能力的二進(jìn)制哈希碼。

目前沒有發(fā)現(xiàn)同本發(fā)明類似技術(shù)的說明或報(bào)道,也尚未收集到國內(nèi)外類似的資料。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)中存在的上述不足,本發(fā)明的目的是提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng)及方法,以解決現(xiàn)有方法中訓(xùn)練數(shù)據(jù)不平衡以及訓(xùn)練不協(xié)調(diào)的問題。

為實(shí)現(xiàn)上述目的,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的。

根據(jù)本發(fā)明的一個(gè)方面,提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng),包括如下模塊:

無監(jiān)督訓(xùn)練數(shù)據(jù)模塊,用于基于無標(biāo)簽訓(xùn)練原始圖片,構(gòu)建三元組訓(xùn)練樣本;

構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模塊,用于將三元組訓(xùn)練樣本輸入至現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練適合圖片檢索任務(wù)的卷積神經(jīng)網(wǎng)絡(luò);

計(jì)算圖片距離模塊:用于計(jì)算三元組訓(xùn)練樣本內(nèi)各圖片之間的距離;

無監(jiān)督學(xué)習(xí)模塊,用于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)以供圖片檢索,根據(jù)計(jì)算圖片距離模塊計(jì)算得出的圖片距離,通過三元組損失函數(shù)模塊、最小量化誤差模塊以及最小量化誤差模塊優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)參數(shù);

三元組損失函數(shù)模塊:用于控制同類圖片與不同類圖片經(jīng)過哈希映射后的距離差別;

最小量化誤差模塊,用于降低圖片檢索在圖片特征向量量化前后的誤差值,以便在加快圖片檢索速度的同時(shí)保持圖片檢索的準(zhǔn)確性;

最大信息熵模塊,用于增大圖片特征向量所攜帶的信息量,以增強(qiáng)圖片特征向量的表達(dá)能力,提升圖片檢索的準(zhǔn)確性;

圖片特征提取及相似度計(jì)算模塊,用于把訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)投入實(shí)際圖片檢索任務(wù)中,通過學(xué)習(xí)到的卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖片對(duì)應(yīng)的二進(jìn)制哈希碼并經(jīng)過相似度計(jì)算模塊篩選出最相似的圖片。

優(yōu)選地,所述構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模塊通過將現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)的損失層去掉,替換成無監(jiān)督學(xué)習(xí)模塊、最小量化誤差模塊和最大信息熵模塊,并在損失層前面加入哈希映射模塊,將三元組訓(xùn)練樣本輸入至深度卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練適合圖片檢索任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)。

根據(jù)本發(fā)明的另一個(gè)方面,提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索方法,包括以下步驟:

步驟s1,將訓(xùn)練原始圖片p經(jīng)過不同角度的旋轉(zhuǎn)得到旋轉(zhuǎn)圖片p+,再任意選擇一張隨機(jī)匹配圖片p-,從而構(gòu)成一個(gè)三元組訓(xùn)練樣本(p,p+,p-);

步驟s2,將現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)f轉(zhuǎn)換成圖片檢索所需的卷積神經(jīng)網(wǎng)絡(luò)f″;

步驟s3,將步驟s1中得到的三元組訓(xùn)練樣本(p,p+,p-)分別先縮放再裁剪后,輸入到三路并行的結(jié)構(gòu)完全相同并且共享參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)f″中;

步驟s4,利用三元組損失函數(shù)、最小量化誤差損失函數(shù)和最大熵?fù)p失函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)f″進(jìn)行反向傳播訓(xùn)練更新卷積神經(jīng)網(wǎng)絡(luò)f″中的網(wǎng)絡(luò)參數(shù);

步驟s5,對(duì)一張新來的訪問圖片q,輸入至卷積神經(jīng)網(wǎng)絡(luò)f″中,并將圖片q的圖像特征向量輸出值進(jìn)行量化得到對(duì)應(yīng)的二進(jìn)制哈希碼h(q);

步驟s6,計(jì)算哈希碼h(q)與本地?cái)?shù)據(jù)庫中所有的哈希碼的漢明距離并進(jìn)行排序,認(rèn)為漢明距離越小的兩個(gè)二進(jìn)制碼對(duì)應(yīng)的圖片越相似,并通過哈希碼h(q)與本地?cái)?shù)據(jù)庫中每個(gè)哈希碼的漢明距離排序挑選出相似度最高的圖片作為檢索到的圖片。

優(yōu)選地,步驟s1具體包括以下步驟:

對(duì)所有給出的無標(biāo)簽訓(xùn)練原始圖片p,分別順時(shí)針旋轉(zhuǎn)5°、順時(shí)針旋轉(zhuǎn)10°、逆時(shí)針旋轉(zhuǎn)5°和逆時(shí)針旋轉(zhuǎn)10°,使得每張訓(xùn)練原始圖片p都有四張不同的旋轉(zhuǎn)圖片p+,再對(duì)每一張訓(xùn)練原始圖片p隨機(jī)匹配一張圖片p-,這樣就構(gòu)建了訓(xùn)練所需的三元組訓(xùn)練樣本(p,p+,p-)。

優(yōu)選地,步驟s2包括如下子步驟:

步驟s21,對(duì)現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)f進(jìn)行修改,去掉深度卷積神經(jīng)網(wǎng)絡(luò)f最后的損失層,形成初步卷積神經(jīng)網(wǎng)絡(luò)f′;

步驟s22,構(gòu)建哈希映射模塊,即在初步卷積神經(jīng)網(wǎng)絡(luò)f′的最后按順序加入一層全連接層和一層激活函數(shù)層,構(gòu)成圖片檢索所需的卷積神經(jīng)網(wǎng)絡(luò)f″。

優(yōu)選地,步驟s3具體包括如下步驟:

三元組訓(xùn)練樣本(p,p+,p-)分別先縮放到256像素×256像素大小,再隨機(jī)從中裁剪224像素×224像素大小的部分,輸入到三路并行的結(jié)構(gòu)完全相同并且共享參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)f″中。

優(yōu)選地,步驟s4具體包括如下子步驟:

步驟s41,將步驟s1中得到的三元組訓(xùn)練樣本(p,p+,p-)分別送入到卷積神經(jīng)網(wǎng)絡(luò)f″,得到三元組訓(xùn)練樣本中的每張圖片所對(duì)應(yīng)的圖片特征向量f(p),f(p+),f(p-);

步驟s42,計(jì)算訓(xùn)練原始圖片p與旋轉(zhuǎn)圖片p+之間的距離d(p,p+)=‖f(p)-f(p+)‖2;計(jì)算訓(xùn)練原始圖片p與訓(xùn)練原始圖片p-之間的距離d(p,p-)=‖f(p)-f(p-)‖2;

步驟s43,利用步驟s42中得到的三元組訓(xùn)練樣本中圖片之間的距離,整個(gè)卷積神經(jīng)網(wǎng)絡(luò)f″通過三元損失函數(shù)loss(d(p,p+),d(p,p-))、最小量化誤差損失函數(shù)lossmq和最大信息熵?fù)p失函數(shù)lossme更新網(wǎng)絡(luò)參數(shù);其中:

所述三元損失函數(shù)loss(d(p,p+),d(p,p-))為:

loss(d(p,p+),d(p,p-))=max{0,m+d(p,p+)2-d(p,p-)2};m表示一個(gè)超參數(shù),用來控制同類圖片與不同類圖片經(jīng)過哈希映射后的距離差別;

所述最小量化誤差損失函數(shù)lossmq為:

所述最大信息熵?fù)p失函數(shù)lossme為:

m是哈希碼的長度,n是訓(xùn)練樣本的個(gè)數(shù),μm是所有訓(xùn)練樣本對(duì)應(yīng)的二進(jìn)制哈希碼的第m維的平均值,hn(m)是第n個(gè)訓(xùn)練樣本對(duì)應(yīng)的二進(jìn)制哈希碼的第m維的值;

步驟s44,通過門檻函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)f″輸出的圖片特征向量進(jìn)行量化,門檻函數(shù)的量化規(guī)則為:

優(yōu)選地,步驟s22中,加入的全連接層中神經(jīng)元的個(gè)數(shù)等于三元組訓(xùn)練樣本中的每張圖片所對(duì)應(yīng)的哈希碼的比特?cái)?shù)。

優(yōu)選地,在步驟s43中:

利用三元組損失函數(shù),使得訓(xùn)練原始圖片p與旋轉(zhuǎn)圖片p+映射到哈??臻g中的距離盡可能近,而訓(xùn)練原始圖片p與隨機(jī)匹配圖片p-映射到哈??臻g中的距離盡可能遠(yuǎn);

針對(duì)量化誤差問題,設(shè)計(jì)最小量化誤差損失函數(shù)來控制深度卷積神經(jīng)網(wǎng)絡(luò)f的輸出,使得網(wǎng)絡(luò)的輸出盡可能的分布在0和1的附近,從而保證圖片特征量化前后檢索效率的一致性;

設(shè)計(jì)最大熵?fù)p失函數(shù),通過促使圖片對(duì)應(yīng)的二進(jìn)制哈希碼的每個(gè)比特均勻分布,使得哈希碼攜帶最大信息量。

優(yōu)選地,步驟s5具體包括如下步驟:

將本地?cái)?shù)據(jù)庫的所有圖片通過卷積神經(jīng)網(wǎng)絡(luò)f″提取出所對(duì)應(yīng)的圖像特征向量并經(jīng)過步驟s44的量化得到每張圖片對(duì)應(yīng)的哈希碼,將所有圖片的哈希碼存于本地;對(duì)于新來的一張?jiān)L問圖片q,首先將該訪問圖片q輸送至卷積神經(jīng)網(wǎng)絡(luò)f″中并用步驟s44中的門檻函數(shù)對(duì)圖片特征進(jìn)行量化得到所對(duì)應(yīng)的哈希碼h(q)。

本發(fā)明的原理是:在對(duì)卷積神經(jīng)網(wǎng)網(wǎng)絡(luò)f″(cnns)訓(xùn)練過程中,對(duì)訓(xùn)練數(shù)據(jù)存在著平衡性的要求,如果訓(xùn)練樣本只有正樣本或者只有副樣本會(huì)讓網(wǎng)絡(luò)學(xué)習(xí)到一系列不好的參數(shù),從而降低了圖像檢索的準(zhǔn)確性。再而,通過對(duì)圖片的旋轉(zhuǎn),可以增強(qiáng)網(wǎng)絡(luò)對(duì)圖片特征的學(xué)習(xí)。網(wǎng)絡(luò)頂端的三元組損失函數(shù)可以保證網(wǎng)網(wǎng)絡(luò)在訓(xùn)練過程中學(xué)習(xí)到的每張圖片特征更具有辨識(shí)力。另外,cnns是一個(gè)端對(duì)端的學(xué)習(xí)網(wǎng)絡(luò),在cnns中相鄰的層存在著相互適應(yīng)的關(guān)系。所以在訓(xùn)練網(wǎng)絡(luò)時(shí),需要通過學(xué)習(xí)調(diào)整整個(gè)網(wǎng)絡(luò)參數(shù),從而學(xué)習(xí)到更適合于特定任務(wù)的深度網(wǎng)絡(luò)結(jié)構(gòu)。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:

1、相比于直接通過減小旋轉(zhuǎn)圖片與自身圖片之間的距離來訓(xùn)練網(wǎng)絡(luò),本發(fā)明利用現(xiàn)有的訓(xùn)練樣本構(gòu)建了三元組訓(xùn)練樣本,保證了訓(xùn)練數(shù)據(jù)的平衡性。同時(shí),在訓(xùn)練過程中,讓每個(gè)層的參數(shù)都進(jìn)行更新,保證了層與層之間的相互適應(yīng)性。另外,本發(fā)明的實(shí)驗(yàn)結(jié)果表明利用構(gòu)建的三元組數(shù)據(jù)訓(xùn)練的網(wǎng)絡(luò)相比于直接通過減小旋轉(zhuǎn)圖片與自身圖片之間的距離來訓(xùn)練的網(wǎng)絡(luò)在快速圖片檢索的準(zhǔn)確度上有明顯的提升,證明了本發(fā)明的有效性。

2、本發(fā)明提出主要建立于k.lin提出的數(shù)據(jù)增強(qiáng)的技術(shù),繼承的同時(shí)解決了現(xiàn)有的方法的漏洞,創(chuàng)新在利用數(shù)據(jù)增強(qiáng)技術(shù)把現(xiàn)有的無標(biāo)簽數(shù)據(jù)轉(zhuǎn)換為三元組訓(xùn)練數(shù)據(jù),使用三元組損失函數(shù)來訓(xùn)練網(wǎng)絡(luò),從而保證了正負(fù)訓(xùn)練樣本的平衡性,并且是基于端對(duì)端的訓(xùn)練模型,從而學(xué)習(xí)到一個(gè)更具有辨識(shí)能力的深度網(wǎng)絡(luò)。

3、本發(fā)明利用無標(biāo)簽的卷積神經(jīng)網(wǎng)絡(luò)f,使得學(xué)習(xí)到的網(wǎng)絡(luò)更具有辨識(shí)能力,可以用一個(gè)較短的二進(jìn)制碼,也就是哈希碼來表示一張圖片,加快圖片檢索速度的同時(shí)保證了檢索的精度。

附圖說明

通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:

圖1是本發(fā)明提供的圖片檢索方法流程圖;

圖2為本發(fā)明中以對(duì)服裝圖片進(jìn)行預(yù)處理為例的流程圖;

圖3為本發(fā)明中所用的深度卷積神經(jīng)網(wǎng)絡(luò)模型圖。

具體實(shí)施方式

下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。

實(shí)施例

本實(shí)施例提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng)及方法,該系統(tǒng)及方法利用了數(shù)據(jù)增強(qiáng)技術(shù)實(shí)現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈希算法,通過此模型可以將輸入圖片映射為一個(gè)較短的二進(jìn)制哈希碼,在圖像檢索過程中通過比對(duì)漢明距離即可篩選出相似的圖片。本發(fā)明是一種能夠利用無標(biāo)簽的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)用于快速圖片檢索領(lǐng)域的更具有辨識(shí)能力的網(wǎng)絡(luò)結(jié)構(gòu),通過利用所添加的三元損失函數(shù)、最小量化誤差損失函數(shù)和最大熵?fù)p失函數(shù),顯著性地提升了快速圖片檢索的準(zhǔn)確度。

本實(shí)施例提供的基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈希快速圖片檢索系統(tǒng),包括如下模塊:

無監(jiān)督訓(xùn)練數(shù)據(jù)模塊,用于基于無標(biāo)簽訓(xùn)練原始圖片,構(gòu)建三元組訓(xùn)練樣本;

構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模塊,用于將三元組訓(xùn)練樣本輸入至現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練適合圖片檢索任務(wù)的卷積神經(jīng)網(wǎng)絡(luò);

計(jì)算圖片距離模塊:用于計(jì)算三元組訓(xùn)練樣本內(nèi)各圖片之間的距離;

無監(jiān)督學(xué)習(xí)模塊,用于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)以供圖片檢索,根據(jù)計(jì)算圖片距離模塊計(jì)算得出的圖片距離,通過三元組損失函數(shù)模塊、最小量化誤差模塊以及最小量化誤差模塊優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)參數(shù);

三元組損失函數(shù)模塊:用于控制同類圖片與不同類圖片經(jīng)過哈希映射后的距離差別;

最小量化誤差模塊,用于降低圖片檢索在圖片特征向量量化前后的誤差值,以便在加快圖片檢索速度的同時(shí)保持圖片檢索的準(zhǔn)確性;

最大信息熵模塊,用于增大圖片特征向量所攜帶的信息量,以增強(qiáng)圖片特征向量的表達(dá)能力,提升圖片檢索的準(zhǔn)確性;

圖片特征提取及相似度計(jì)算模塊,用于把訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)投入實(shí)際圖片檢索任務(wù)中,通過學(xué)習(xí)到的卷積神經(jīng)網(wǎng)絡(luò)提取輸入圖片對(duì)應(yīng)的二進(jìn)制哈希碼并經(jīng)過相似度計(jì)算模塊篩選出最相似的圖片。

進(jìn)一步地,所述構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模塊通過將現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)的損失層去掉,替換成無監(jiān)督學(xué)習(xí)模塊、最小量化誤差模塊和最大信息熵模塊,并在損失層前面加入哈希映射模塊,將三元組訓(xùn)練樣本輸入至深度卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練適合圖片檢索任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)。

如圖1所示,為本實(shí)施例提供的檢索方法的流程圖,該方法包括如下步驟:

步驟s1,如圖3所示,將訓(xùn)練原始圖片p經(jīng)過不同角度的旋轉(zhuǎn)得到旋轉(zhuǎn)圖片p+,再任意選擇一張隨機(jī)匹配圖片p-,從而構(gòu)成一個(gè)三元組訓(xùn)練樣本(p,p+,p-);

步驟s2,將現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)f轉(zhuǎn)換成圖片檢索所需的卷積神經(jīng)網(wǎng)絡(luò)f″;

步驟s3,將步驟s1中得到的三元組訓(xùn)練樣本(p,p+,p-)分別先縮放再裁剪后,輸入到三路并行的結(jié)構(gòu)完全相同并且共享參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)f″中;

步驟s4,如圖2所示,利用三元組損失函數(shù)、最小量化誤差損失函數(shù)和最大熵?fù)p失函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)f″進(jìn)行反向傳播訓(xùn)練更新卷積神經(jīng)網(wǎng)絡(luò)f″中的網(wǎng)絡(luò)參數(shù);

步驟s5,對(duì)一張新來的訪問圖片q,輸入至卷積神經(jīng)網(wǎng)絡(luò)f″中,并將圖片q的圖像特征向量輸出值進(jìn)行量化得到對(duì)應(yīng)的二進(jìn)制哈希碼h(q);

步驟s6,計(jì)算哈希碼h(q)與本地?cái)?shù)據(jù)庫中所有的哈希碼的漢明距離并進(jìn)行排序,認(rèn)為漢明距離越小的兩個(gè)二進(jìn)制碼對(duì)應(yīng)的圖片越相似,并通過哈希碼h(q)與本地?cái)?shù)據(jù)庫中每個(gè)哈希碼的漢明距離排序挑選出相似度最高的圖片作為檢索到的圖片。

進(jìn)一步地,步驟s1具體包括以下步驟:

對(duì)所有給出的無標(biāo)簽訓(xùn)練原始圖片p,分別順時(shí)針旋轉(zhuǎn)5°、順時(shí)針旋轉(zhuǎn)10°、逆時(shí)針旋轉(zhuǎn)5°和逆時(shí)針旋轉(zhuǎn)10°,使得每張訓(xùn)練原始圖片p都有四張不同的旋轉(zhuǎn)圖片p+,再對(duì)每一張訓(xùn)練原始圖片p隨機(jī)匹配一張圖片p-,這樣就構(gòu)建了訓(xùn)練所需的三元組訓(xùn)練樣本(p,p+,p-)。

進(jìn)一步地,步驟s2包括如下子步驟:

步驟s21,對(duì)現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)f進(jìn)行修改,去掉深度卷積神經(jīng)網(wǎng)絡(luò)f最后的損失層,形成初步卷積神經(jīng)網(wǎng)絡(luò)f′;

步驟s22,構(gòu)建哈希映射模塊,即在初步卷積神經(jīng)網(wǎng)絡(luò)f′的最后按順序加入一層全連接層和一層激活函數(shù)層,構(gòu)成圖片檢索所需的卷積神經(jīng)網(wǎng)絡(luò)f″。

進(jìn)一步地,步驟s3具體包括如下步驟:

三元組訓(xùn)練樣本(p,p+,p-)分別先縮放到256像素×256像素大小,再隨機(jī)從中裁剪224像素×224像素大小的部分,輸入到三路并行的結(jié)構(gòu)完全相同并且共享參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)f″中。

進(jìn)一步地,步驟s4具體包括如下子步驟:

步驟s41,將步驟s1中得到的三元組訓(xùn)練樣本(p,p+,p-)分別送入到卷積神經(jīng)網(wǎng)絡(luò)f″,得到三元組訓(xùn)練樣本中的每張圖片所對(duì)應(yīng)的圖片特征向量f(p),f(p+),f(p-);

步驟s42,計(jì)算訓(xùn)練原始圖片p與旋轉(zhuǎn)圖片p+之間的距離d(p,p+)=‖f(p)-f(p+)‖2;計(jì)算訓(xùn)練原始圖片p與訓(xùn)練原始圖片p-之間的距離d(p,p-)=‖f(p)-f(p-)‖2;

步驟s43,利用步驟s42中得到的三元組訓(xùn)練樣本中圖片之間的距離,整個(gè)卷積神經(jīng)網(wǎng)絡(luò)f″通過三元損失函數(shù)loss(d(p,p+),d(p,p-))、最小量化誤差損失函數(shù)lossmq和最大信息熵?fù)p失函數(shù)lossme更新網(wǎng)絡(luò)參數(shù);其中:

所述三元損失函數(shù)loss(d(p,p+),d(p,p-))為:

loss(d(p,p+),d(p,p-))=max{0,m+d(p,p+)2-d(p,p-)2};m表示一個(gè)超參數(shù),用來控制同類圖片與不同類圖片經(jīng)過哈希映射后的距離差別;

所述最小量化誤差損失函數(shù)lossmq為:

所述最大信息熵?fù)p失函數(shù)lossme為:

m是哈希碼的長度,n是訓(xùn)練樣本的個(gè)數(shù),μm是所有訓(xùn)練樣本對(duì)應(yīng)的二進(jìn)制哈希碼的第m維的平均值,hn(m)是第n個(gè)訓(xùn)練樣本對(duì)應(yīng)的二進(jìn)制哈希碼的第m維的值;

步驟s44,通過門檻函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)f″輸出的圖片特征向量進(jìn)行量化,門檻函數(shù)的量化規(guī)則為:

進(jìn)一步地,步驟s22中,加入的全連接層中神經(jīng)元的個(gè)數(shù)等于三元組訓(xùn)練樣本中的每張圖片所對(duì)應(yīng)的哈希碼的比特?cái)?shù)。

進(jìn)一步地,在步驟s43中:

利用三元組損失函數(shù),使得訓(xùn)練原始圖片p與旋轉(zhuǎn)圖片p+映射到哈??臻g中的距離盡可能近,而訓(xùn)練原始圖片p與隨機(jī)匹配圖片p-映射到哈??臻g中的距離盡可能遠(yuǎn);

針對(duì)量化誤差問題,設(shè)計(jì)最小量化誤差損失函數(shù)來控制深度卷積神經(jīng)網(wǎng)絡(luò)f的輸出,使得網(wǎng)絡(luò)的輸出盡可能的分布在0和1的附近,從而保證圖片特征量化前后檢索效率的一致性;

設(shè)計(jì)最大熵?fù)p失函數(shù),通過促使圖片對(duì)應(yīng)的二進(jìn)制哈希碼的每個(gè)比特均勻分布,使得哈希碼攜帶最大信息量。

進(jìn)一步地,步驟s5具體包括如下步驟:

將本地?cái)?shù)據(jù)庫的所有圖片通過卷積神經(jīng)網(wǎng)絡(luò)f″提取出所對(duì)應(yīng)的圖像特征向量并經(jīng)過步驟s44的量化得到每張圖片對(duì)應(yīng)的哈希碼,將所有圖片的哈希碼存于本地;對(duì)于新來的一張?jiān)L問圖片q,首先將該訪問圖片q輸送至卷積神經(jīng)網(wǎng)絡(luò)f″中并用步驟s44中的門檻函數(shù)對(duì)圖片特征進(jìn)行量化得到所對(duì)應(yīng)的哈希碼h(q)。

本實(shí)施例通過哈希碼h(q)與本地?cái)?shù)據(jù)庫中每個(gè)哈希碼的漢明距離排序挑選出相似度最高的圖片作為檢索到的圖片。

在本實(shí)施例中:

1)無監(jiān)督訓(xùn)練數(shù)據(jù)模塊:對(duì)所有給出的無標(biāo)簽訓(xùn)練原始圖片p,分別順時(shí)針和逆時(shí)針旋轉(zhuǎn)5°和10°,使得每張訓(xùn)練原始圖片p都有四張不同的旋轉(zhuǎn)圖片p+,再對(duì)每一張?jiān)紙D片p隨機(jī)匹配一張匹配圖片p-,這樣就構(gòu)建了訓(xùn)練所需的三元組訓(xùn)練數(shù)據(jù)(p,p+,p-)。

2)構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模塊:將1)中得到的(p,p+,p-)分別輸入到三路并行的結(jié)構(gòu)完全相同的深度卷積神經(jīng)網(wǎng)絡(luò)中,并且三個(gè)網(wǎng)絡(luò)之間的參數(shù)共享。

3)哈希映射模塊:對(duì)2)中設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)中,在每個(gè)現(xiàn)有深度卷積神經(jīng)網(wǎng)絡(luò)的后面加入一個(gè)全連接層,并在其后加一個(gè)激活函數(shù)層構(gòu)成適用于快速圖片檢索的無監(jiān)督網(wǎng)絡(luò)(卷積神經(jīng)網(wǎng)絡(luò))。其中,加入的全連接層中神經(jīng)元的個(gè)數(shù)等于每張圖片所對(duì)應(yīng)的哈希碼的比特?cái)?shù)。將1)中得到的三元組訓(xùn)練數(shù)據(jù)(p,p+,p-)分別送入到網(wǎng)絡(luò)得到每張圖片所對(duì)應(yīng)的特征向量f(p),f(p+),f(p-)。

4)計(jì)算圖片距離模塊:計(jì)算圖片p與p+的距離d(p,p+)=‖f(p)-f(p+)‖2,p與p-的距離d(p,p-)=‖f(p)-f(p-)‖2。

5)無監(jiān)督學(xué)習(xí)模塊:利用4)中得到的三元組圖片之間的距離,整個(gè)網(wǎng)絡(luò)通過三元損失函數(shù)

loss(d(p,p+),d(p,p-))=max{0,m+d(p,p+)2-d(p,p-)2}

來學(xué)習(xí)一個(gè)圖片表達(dá)網(wǎng)絡(luò),使得學(xué)習(xí)到的圖片特征更具有辨識(shí)能力,更適用于圖片檢索。利用三元損失函數(shù),使得圖片p與圖片p+映射到哈??臻g中的距離盡可能近,而圖片p與圖片p-映射到哈希的空間中的距離盡可能遠(yuǎn);m是一個(gè)超參數(shù),用來控制同類圖片與不同類圖片經(jīng)過哈希映射后的距離差別,并在f中加入6)和7)兩個(gè)損失函數(shù)來學(xué)習(xí)到一個(gè)適用于快速圖片檢索的網(wǎng)絡(luò)。

6)最小量化誤差模塊:在快速圖像檢索過程中,需要通過一個(gè)門檻函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)f輸出的圖片特征進(jìn)行量化,量化規(guī)則為:

針對(duì)量化誤差問題,設(shè)計(jì)了一個(gè)最小量化誤差損失函數(shù)來控制整個(gè)網(wǎng)絡(luò)輸出,使得網(wǎng)絡(luò)的輸出盡可能的分布在0和1的附近,從而保證了特征量化前后檢索效率的一致性。設(shè)計(jì)的最小量化誤差損失函數(shù)為:

7)最大信息熵模塊:對(duì)于一張圖片對(duì)應(yīng)的二進(jìn)制哈希特征,哈希特征的表達(dá)能力越強(qiáng),檢索效果越好。由此設(shè)計(jì)了一個(gè)最大熵?fù)p失函數(shù),通過促使哈希碼的每個(gè)比特均勻分布使得哈希碼攜帶的信息量最大,表達(dá)能力更強(qiáng)。設(shè)計(jì)的最大信息熵?fù)p失函數(shù)為:

其中,m是哈希碼的長度,n是訓(xùn)練樣本的個(gè)數(shù)。

8)將本地?cái)?shù)據(jù)庫的每一張圖片通過網(wǎng)絡(luò)f提取出所對(duì)應(yīng)的圖像特征并經(jīng)過6)中的量化得到每張圖片對(duì)應(yīng)的哈希碼,將所有圖片的哈希碼存于本地。對(duì)于新來的一張?jiān)L問圖片,首先將其輸送至網(wǎng)絡(luò)f中并用6)中的門檻函數(shù)對(duì)特征進(jìn)行量化的到所對(duì)應(yīng)的哈希碼h。在相似度計(jì)算階段,通過h與數(shù)據(jù)庫中每個(gè)哈希碼的漢明距離排序挑選出相似度最高的圖片作為檢索到的圖片。

另外,在上面所述的1)中,包括:

將p,p+,p-三張圖片統(tǒng)一裁剪到224*224的尺寸。

將剪裁過后的p,p+,p-輸入到三路并行的結(jié)構(gòu)完全相同的深度卷積神經(jīng)網(wǎng)絡(luò)中,三條通路的參數(shù)共享。

隨著現(xiàn)在網(wǎng)絡(luò)圖片的爆炸性增長,基于內(nèi)容的圖片搜索技術(shù)得到了廣泛的利用。然而,圖片的搜索速度隨著數(shù)據(jù)庫圖片的數(shù)量的增長變得越來越慢,哈希作為一個(gè)可以將任意長度的向量轉(zhuǎn)換為一個(gè)較短的二進(jìn)制碼的算法在快速圖片檢索領(lǐng)域得到了廣泛的應(yīng)用。另外,有標(biāo)簽數(shù)據(jù)的缺乏使得先前的哈希技術(shù)并不適用與實(shí)際應(yīng)用中。本實(shí)施例提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng)及方法,利用無標(biāo)簽的訓(xùn)練數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò),使得每張圖片都可以用一個(gè)辨識(shí)力很高的緊湊的二進(jìn)制哈希碼表示,從而實(shí)現(xiàn)加快圖片檢索的速度的同時(shí)保證檢索精度的問題。

本實(shí)施例提出的基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng)及方法,利用現(xiàn)有的哈希算法結(jié)構(gòu)(哈希算法是一種可以通過多個(gè)映射方程將一個(gè)高維的特征向量轉(zhuǎn)換為一個(gè)緊湊的二進(jìn)制碼的算法),基于數(shù)據(jù)增強(qiáng)技術(shù)提出了一個(gè)高效的無監(jiān)督哈希模型用于快速圖像檢索領(lǐng)域。通過數(shù)據(jù)增強(qiáng)方法,為無標(biāo)簽數(shù)據(jù)構(gòu)建三元組訓(xùn)練樣本,通過三元組損失函數(shù)、最小量化誤差損失函數(shù)和最大熵?fù)p失函數(shù)驅(qū)使網(wǎng)絡(luò)充分利用每張圖片的信息,學(xué)習(xí)到一系列更具有表達(dá)能力的參數(shù)以提高快速圖片檢索的準(zhǔn)確性。本實(shí)施例是一種能夠利用無標(biāo)簽數(shù)據(jù)學(xué)習(xí)網(wǎng)絡(luò)的哈??焖賵D片檢索系統(tǒng)及方法,利用數(shù)據(jù)增強(qiáng)構(gòu)建表達(dá)能力更強(qiáng)的三元組訓(xùn)練樣本訓(xùn)練網(wǎng)絡(luò),顯著提升了快速圖片檢索的準(zhǔn)確性。

通過本實(shí)施例,可以構(gòu)建一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督哈??焖賵D片檢索系統(tǒng)及方法,利用無標(biāo)簽的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)f,使得學(xué)習(xí)到的網(wǎng)絡(luò)更具有辨識(shí)能力,可以用一個(gè)較短的二進(jìn)制碼,也就是哈希碼來表示一張圖片,加快圖片檢索速度的同時(shí)保證了檢索的精度。

以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
得荣县| 乌兰县| 墨江| 海原县| 嵊泗县| 玛沁县| 湄潭县| 肥城市| 咸阳市| 庆安县| 昆明市| 晋中市| 太仓市| 武城县| 新田县| 全南县| 滨州市| 南陵县| 定兴县| 宣武区| 荣成市| 长宁县| 建德市| 文安县| 荆州市| 德阳市| 洪湖市| 余干县| 南岸区| 西青区| 临安市| 长岭县| 朝阳市| 新和县| 观塘区| 东兴市| 炉霍县| 容城县| 西林县| 崇义县| 七台河市|