本發(fā)明涉及圖像檢索技術(shù)領(lǐng)域,特別是涉及一種基于內(nèi)容的圖像檢索方法及裝置。
背景技術(shù):
基于內(nèi)容的圖像檢索(Content-based Image Retrieval,CBIR),是對(duì)圖像的內(nèi)容語義(如圖像的顏色、紋理、布局等)進(jìn)行分析和檢索的圖像檢索技術(shù)。在當(dāng)前多媒體時(shí)代,圖像視頻資源日益豐富,在處理圖像數(shù)據(jù)時(shí),能快速地檢索到與查詢圖像相同或相似的圖片尤為重要。例如,一些電商平臺(tái),如何快速找到與查詢的圖片屬于同款或相似物品,可快速、精準(zhǔn)地為用戶推送相應(yīng)商品,提升用戶體驗(yàn),減少人工操作工作量。
目前,大多數(shù)圖像檢索方法中,首先將圖像進(jìn)行特征提取,然后利用特征進(jìn)行相似度計(jì)算,根據(jù)相似度選取最為相似的圖像??紤]到檢索速度,很多圖像檢索算法使用簡單的特征來描述圖像,導(dǎo)致對(duì)圖像的描述不夠細(xì)致。而有些圖像檢索算法基于單模型的深度學(xué)習(xí),使得模型對(duì)圖像的描述不夠全面。因此,如何細(xì)致、全面地描述圖像,是圖像檢索中面臨的一個(gè)技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
為了提高圖像檢索準(zhǔn)確率,本發(fā)明實(shí)施例提供一種圖像檢索方法及裝置。
根據(jù)本發(fā)明一個(gè)方面,提供一種圖像檢索方法,包括:獲取待查詢圖像;將所述待查詢圖像以及預(yù)置的多條評(píng)測圖像輸入到預(yù)先建立的同款檢索模型和同類檢索模型中,輸出得到待查詢圖像特征和多條評(píng)測圖像特征;對(duì)所述待查詢圖像特征和所述多條評(píng)測圖像特征進(jìn)行相似度計(jì)算;按照相似度從高至低對(duì)多條評(píng)測圖像進(jìn)行排序,選取排序靠前的預(yù)置數(shù)目的評(píng)測圖像作為檢索結(jié)果。
優(yōu)選的,所述同款檢索模型的建立過程包括:構(gòu)造訓(xùn)練集,所述訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同款圖像,其中,所述同款圖像是指與所述待查詢圖像的外觀相似的圖像;將所述訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,建立得到所述同款檢索模型。
優(yōu)選的,所述同類檢索模型的建立過程包括:構(gòu)造訓(xùn)練集,所述訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同類圖像,其中,所述同類圖像是指與所述待查詢圖像屬于同一個(gè)種類的圖像;將所述訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,建立得到所述同類檢索模型。
優(yōu)選的,在所述輸出得到待查詢圖像特征和評(píng)測圖像特征之后,所述對(duì)所述待查詢圖像特征和所述評(píng)測圖像特征進(jìn)行相似度計(jì)算之前,還包括:對(duì)所述待查詢圖像特征和所述評(píng)測圖像特征進(jìn)行降維處理,并且對(duì)降維處理后的待查詢圖像特征和評(píng)測圖像特征進(jìn)行映射。
優(yōu)選的,采用主成分分析方法對(duì)所述待查詢圖像特征和所述評(píng)測圖像特征進(jìn)行降維處理;采用線性判決方法對(duì)降維處理后的待查詢圖像特征和評(píng)測圖像特征進(jìn)行映射。
根據(jù)本發(fā)明另一個(gè)方面,提供一種圖像檢索裝置,包括:圖像獲取單元,用于獲取待查詢圖像;模型操作單元,用于將所述待查詢圖像以及預(yù)置的多條評(píng)測圖像輸入到預(yù)先建立的同款檢索模型和同類檢索模型中,輸出得到待查詢圖像特征和多條評(píng)測圖像特征;相似度計(jì)算單元,用于對(duì)所述待查詢圖像特征和所述多條評(píng)測圖像特征進(jìn)行相似度計(jì)算;檢索結(jié)果確定單元,用于按照相似度從高至低對(duì)多條評(píng)測圖像進(jìn)行排序,選取排序靠前的預(yù)置數(shù)目的評(píng)測圖像作為檢索結(jié)果。
優(yōu)選的,還包括:同款檢索模型建立單元,用于構(gòu)造訓(xùn)練集,所述訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同款圖像,其中,所述同款圖像是指與所述待查詢圖像的外觀相似的圖像;以及,將所述訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,建立得到所述同款檢索模型。
優(yōu)選的,還包括:同類檢索模型建立單元,用于構(gòu)造訓(xùn)練集,所述訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同類圖像,其中,所述同類圖像是指與所述待查詢圖像屬于同一個(gè)種類的圖像;將所述訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,建立得到所述同類檢索模型。
優(yōu)選的,還包括:降維處理單元,用于對(duì)所述待查詢圖像特征和所述評(píng)測圖像特征進(jìn)行降維處理;映射單元,用于對(duì)降維處理后的待查詢圖像特征和評(píng)測圖像特征進(jìn)行映射。
優(yōu)選的,所述降維處理單元采用主成分分析方法對(duì)所述待查詢圖像特征和所述評(píng)測圖像特征進(jìn)行降維處理;映射單元采用線性判決方法對(duì)降維處理后的待查詢圖像特征和評(píng)測圖像特征進(jìn)行映射。
可見,本發(fā)明實(shí)施例提出了一種融合了多模型的圖像檢索方法,使得檢索返回的結(jié)果既與查詢圖像外觀上相似,同時(shí)使得它們都屬于同一個(gè)類別,融合這兩種互補(bǔ)的特征后可以顯著提高檢測準(zhǔn)確率。此外,本發(fā)明還使用了PCA和LDA對(duì)融合后的特征進(jìn)行降維和空間映射處理,在精度損失很小的情況下,極大地提高了檢索速度。
附圖說明
圖1是本發(fā)明一個(gè)實(shí)施例提供的一種圖像檢索方法流程圖;
圖2是本發(fā)明另一個(gè)實(shí)施例提供的一種圖像檢索方法流程圖;
圖3是本發(fā)明一個(gè)實(shí)施例提供的一種圖像檢索裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
現(xiàn)有技術(shù)中出于檢索速度的考慮,很多圖像檢索算法使用簡單的特征來描述圖像,導(dǎo)致對(duì)圖像的描述不夠細(xì)致。而有些圖像檢索算法基于單模型的深度學(xué)習(xí),使得模型對(duì)圖像的描述不夠全面。因此,本發(fā)明基于商品同款檢索這一特定的圖像檢索目的,提出了融合了同款模型和同類模型的檢索策略,使得對(duì)圖像的描述更加細(xì)致、全面,并且,在優(yōu)選方式中,通過PCA(主成分分析)降維縮小特征維數(shù),并通過LDA(線性判決分析),進(jìn)行映射,從而提高檢索速度。
參見圖1,為本發(fā)明實(shí)施例提供的一種圖像檢索方法流程圖,該方法包括:
S101:獲取待查詢圖像;
S102:將待查詢圖像以及預(yù)置的多條評(píng)測圖像輸入到預(yù)先建立的同款檢索模型和同類檢索模型中,輸出得到待查詢圖像特征和評(píng)測圖像特征;
S103:對(duì)待查詢圖像特征和多條評(píng)測圖像特征進(jìn)行相似度計(jì)算;
S104:按照相似度從高至低對(duì)所述多條評(píng)測圖像進(jìn)行排序,選取排序靠前的預(yù)置數(shù)目的評(píng)測圖像作為檢索結(jié)果。
對(duì)于圖像檢索而言,最終目的是根據(jù)待查詢圖像,檢索到與之外觀相同或相似的圖像。本發(fā)明中,可根據(jù)深度學(xué)習(xí)理論,預(yù)先建立兩個(gè)模型:同款檢索模型,用于找到同一個(gè)款式或者同樣圖案的商品,使得返回的結(jié)果與待查詢圖像在外觀上相似;同類檢索模型,用于找到同一個(gè)類別的商品,保證返回的結(jié)果與待查詢圖像屬于同一個(gè)類別。通過融合上述兩個(gè)同款檢索模型和同類檢索模型,能更加細(xì)致并全面的描述圖像特征,從而提高檢索準(zhǔn)確度。本領(lǐng)域技術(shù)人員了解,深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示?;谏疃葘W(xué)習(xí)所建立模型描述的特征,可以理解是通過較低的維度數(shù)據(jù)向量表達(dá)原始數(shù)據(jù)相同的信息量。
本發(fā)明中,同款的含義是兩個(gè)圖像的外觀相同或相似,同類的含義是兩個(gè)圖像中的物品屬于同一個(gè)類別。例如,以服裝商品圖像查詢?yōu)槔?,黑白橫向條紋的兩件衣服屬于同款,通過同款檢索模型可匹配出同款衣服,同款衣服中可能包括T恤、襯衫、外套;進(jìn)一步,通過同類檢索模型可匹配出與待查詢圖像的同類別衣服圖像,例如,待查詢圖像中是T恤,則通過同類檢索模型僅匹配出同類的T恤。
為了描述簡便和直觀,本發(fā)明實(shí)施例以服裝商品的圖像檢索為例進(jìn)行說明。但是,需要說明的是,本發(fā)明實(shí)施例子不限于服裝商品圖像的檢索,還可用于其他商品圖像的檢索,例如電器、家具、日用品等等。
下面以服裝圖像檢索為例,對(duì)本發(fā)明另一實(shí)施例進(jìn)行介紹。
與圖1實(shí)施例區(qū)別在于,本實(shí)施例詳細(xì)描述了兩個(gè)檢索模型的建立過程(S201、S202),并且,增加了對(duì)特征降維和映射的步驟(S205)。參見圖2,為本發(fā)明另一個(gè)實(shí)施例提供的圖像檢索方法流程圖,包括下述步驟S201-S207。
S201:建立同款檢索模型。
概括而言,同款檢索模型的建立過程包括兩個(gè)步驟:構(gòu)造訓(xùn)練集,訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同款圖像,其中,同款圖像是指與待查詢圖像的外觀相似的圖像;將訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立得到同款檢索模型。
具體的,在構(gòu)造訓(xùn)練集時(shí),收集多幅待查詢圖像以及相應(yīng)的同款圖像,將這些外觀相似的一組圖片集存儲(chǔ)作為一個(gè)類別進(jìn)行訓(xùn)練。同時(shí),為了捕捉到商品的更多細(xì)節(jié)并去除圖像的邊緣噪聲,可對(duì)所有圖像進(jìn)行預(yù)處理操作:分別將原始圖像放大,然后截取圖像中心預(yù)定大小的區(qū)域作為增加的數(shù)據(jù),從而增加訓(xùn)練樣本數(shù)量。
然后,利用構(gòu)造的訓(xùn)練集,輸入到深度學(xué)習(xí)網(wǎng)絡(luò)中進(jìn)行分類訓(xùn)練。例如,深度學(xué)習(xí)網(wǎng)絡(luò)可采用GoodLeNet網(wǎng)絡(luò)。
對(duì)于深度學(xué)習(xí)算法而言,為提高圖像分類或檢索的性能,需要增加模型的深度或提高濾波器和神經(jīng)元的個(gè)數(shù)。GoodLeNet網(wǎng)絡(luò)采用22層結(jié)構(gòu),同時(shí)在不同的深度處增加了兩個(gè)loss層來保證梯度值的存在,避免了層數(shù)過多導(dǎo)致的梯度變小的問題。同時(shí),GoodLeNet網(wǎng)絡(luò)增加了多種核結(jié)構(gòu),如1×1、3×3、5×5。此外,在卷積層之后和池化層之前,又加入了一個(gè)1×1的卷積核,以降低特征圖的厚度,防止最終串接起來的特征維數(shù)過于龐大。
因此,優(yōu)選使用GoodLeNet網(wǎng)絡(luò)做分類訓(xùn)練,經(jīng)過眾多次迭代之后,網(wǎng)絡(luò)的loss基本維持不變,最終的分類準(zhǔn)確率較高。
需要說明的是,雖然本發(fā)明優(yōu)選GoodLeNet網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,但是實(shí)際上,并不限于此,還可以采用其他深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。
在實(shí)際操作中發(fā)現(xiàn),如果只用同款檢索模型對(duì)圖像進(jìn)行檢索,會(huì)出現(xiàn)一個(gè)明顯的問題,即返回的結(jié)果是跟查詢的外觀上較為相似的圖像,但是并沒有考慮是否與查詢商品屬于同一個(gè)類別。例如,當(dāng)輸入一幅帶有條紋的T恤商品圖像時(shí),如果僅使用同款檢索模型,則返回的結(jié)果是都帶有條紋圖案的商品,其中既包括期望的T恤,也會(huì)包含期望之外的,例如外套、polo衫,顯得極為不合理。因此,預(yù)想的檢索結(jié)果既要與查詢圖像外觀相似,也要屬于同一個(gè)類別,因此增加了同類檢索模型。
S202:建立同類檢索模型。
概括而言,同類檢索模型的建立過程包括以下兩個(gè)步驟:構(gòu)造訓(xùn)練集,訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同類圖像,其中,同類圖像是指與待查詢圖像屬于同一個(gè)種類的圖像;將訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立得到同類檢索模型。
為了使得訓(xùn)練的類別足夠多,可采用技術(shù)領(lǐng)域公開的數(shù)據(jù)源,例如,采用ImageNet數(shù)據(jù)庫的公共競賽數(shù)據(jù)集。該數(shù)據(jù)庫共包含1000個(gè)類別、126萬張訓(xùn)練圖像。需要注意的是,該訓(xùn)練集中的同一個(gè)類別與上述同款檢索模型中的類別概念是不同的。在同款檢索模型中,同一個(gè)類包含的是同一件商品(或同一個(gè)款式商品)的不同姿態(tài)、不同角度下的圖像。而在同類檢索模型中,每個(gè)類別內(nèi)的圖像是指屬于同一個(gè)小范圍的種類,如T恤、羽絨服、連衣裙等,而不考慮圖案、款式是否相同。因此,同款檢索模型更關(guān)注的是外觀相似,而同類檢索模型約束的是屬于同一個(gè)種類。
利用在訓(xùn)練集上預(yù)訓(xùn)練的GoodLeNet網(wǎng)絡(luò)進(jìn)行特征提取,但是實(shí)驗(yàn)發(fā)現(xiàn)效果不是十分理想。于是進(jìn)一步的,可增大訓(xùn)練的數(shù)據(jù)集和類別數(shù),例如,采用ImageNet數(shù)據(jù)庫的所有數(shù)據(jù),該數(shù)據(jù)庫的圖像數(shù)目更多,類別數(shù)也更大,即分類更細(xì)致。因此在訓(xùn)練時(shí),模型可捕捉到每個(gè)類別之間更加細(xì)微的差別,學(xué)習(xí)到的特征也能夠?qū)D像的描述更加細(xì)致。在具體操作中,可將基于ImageNet數(shù)據(jù)庫訓(xùn)練的模型進(jìn)行特征提取,與同款檢索模型的特征分別做二范數(shù)歸一化之后串接在一起,組成一個(gè)更長的特征,作為描述一幅圖像的最終特征。
S203:獲取待查詢圖像。
待查詢圖像一般是用戶輸入的商品圖像,用戶輸入該圖像,目的是查找到與之相同或相似的商品。
S204:將待查詢圖像以及預(yù)置的多條評(píng)測圖像輸入到同款檢索模型和同類檢索模型中,輸出得到待查詢圖像特征和多條評(píng)測圖像特征。
評(píng)測圖像是預(yù)先設(shè)置存儲(chǔ)的,可根據(jù)不同類型商品分別進(jìn)行預(yù)置和存儲(chǔ)。例如,對(duì)于服裝商品,預(yù)置服裝商品圖像,作為查詢和檢索的基礎(chǔ)數(shù)據(jù)庫。
如前描述的,由于同款檢索模型和同類檢索模型在建立過程中通過深度學(xué)習(xí)算法進(jìn)行了特征提取,因此在將待查詢圖像以及評(píng)測圖像輸入到兩個(gè)模型之后,即可得到待查詢圖像特征和評(píng)測圖像特征。
S205:對(duì)待查詢圖像特征和多條評(píng)測圖像特征進(jìn)行降維處理,并且對(duì)降維處理后的待查詢圖像特征和多條評(píng)測圖像特征進(jìn)行映射。
由于本發(fā)明采用同款檢索模型和同類檢索模型這兩個(gè)模型,因此導(dǎo)致特征增多,當(dāng)把多個(gè)特征組合在一起時(shí),很顯然會(huì)導(dǎo)致特征維數(shù)增多,因此會(huì)影響后續(xù)相似度計(jì)算的效率。因此,可對(duì)待查詢圖像特征和評(píng)測圖像特征進(jìn)行降維處理,并且對(duì)降維處理后的待查詢圖像特征和評(píng)測圖像特征進(jìn)行映射,從而提高處理效果。
具體的,可采用主成分分析(Principal Component Analysis,PCA)對(duì)特征進(jìn)行降維處理,采用線性判決分析(Linear Discriminant Analysis,LDA)對(duì)降維后的特征進(jìn)行映射。
PCA是一種統(tǒng)計(jì)方法,通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。主成分分析是對(duì)于原先提出的所有變量,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。
LDA是分類算法中的一種,通過對(duì)歷史數(shù)據(jù)進(jìn)行投影,以保證投影后同一類別的數(shù)據(jù)盡量靠近,不同類別的數(shù)據(jù)盡量分開,并生成線性判別模型對(duì)新生成的數(shù)據(jù)進(jìn)行分離和預(yù)測。
本發(fā)明實(shí)施例中,由于提取的待查詢圖像特征和評(píng)測圖像特征是稀疏的,因此利用PCA降維可以去除不必要的噪聲,保留價(jià)值更大的特征維度。而LDA可以進(jìn)一步增大各特征類之間的距離,減少類內(nèi)距離,保證投影后的新樣本模式能夠被區(qū)分的更加明顯。
S206:對(duì)經(jīng)過降維處理和映射的待查詢圖像特征和評(píng)測圖像特征進(jìn)行相似度計(jì)算。
相似度計(jì)算用于衡量對(duì)象之間的相似程度,常見的相似度計(jì)算方法包括基于向量空間的相似度計(jì)算方法、基于hash的相似度計(jì)算方法、基于主題的相似度計(jì)算方法等。本發(fā)明實(shí)施例可采用現(xiàn)有或未來出現(xiàn)的相似度計(jì)算方法,對(duì)此不作限定。
S207:按照相似度從高至低對(duì)多條評(píng)測圖像進(jìn)行排序,選取排序靠前的預(yù)置數(shù)目的評(píng)測圖像作為檢索結(jié)果。
可以理解,評(píng)測圖像與待查詢圖像的相似度越高,表明評(píng)測圖像與待查詢圖像越接近,包括款式和類別越接近。經(jīng)過按照相似度從高至低對(duì)評(píng)測圖像進(jìn)行排序,可以選取出與待查詢圖像最為接近的預(yù)定數(shù)目的圖像。例如選取相似度從高至低的100個(gè)圖像。
可見,本發(fā)明實(shí)施例提出了一種融合了多模型的圖像檢索方法,使得檢索返回的結(jié)果既與查詢圖像外觀上相似,同時(shí)使得它們都屬于同一個(gè)類別,融合這兩種互補(bǔ)的特征后可以顯著提高檢測準(zhǔn)確率。此外,本發(fā)明還使用了PCA和LDA對(duì)融合后的特征進(jìn)行降維和空間映射處理,在精度損失很小的情況下,極大地提高了檢索速度。
需要說明的是,對(duì)于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
參照?qǐng)D3,是本發(fā)明實(shí)施例提供的一種圖像檢索裝置結(jié)構(gòu)示意圖。該裝置包括:
圖像獲取單元301,用于獲取待查詢圖像;
模型操作單元302,用于將所述待查詢圖像以及預(yù)置的多條評(píng)測圖像輸入到預(yù)先建立的同款檢索模型和同類檢索模型中,輸出得到待查詢圖像特征和多條評(píng)測圖像特征;
相似度計(jì)算單元303,用于對(duì)所述待查詢圖像特征和所述多條評(píng)測圖像特征進(jìn)行相似度計(jì)算;
檢索結(jié)果確定單元304,用于按照相似度從高至低對(duì)所述多條評(píng)測圖像進(jìn)行排序,選取排序靠前的預(yù)置數(shù)目的評(píng)測圖像作為檢索結(jié)果。
優(yōu)選的,該裝置還包括:
同款檢索模型建立單元305,用于構(gòu)造訓(xùn)練集,所述訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同款圖像,其中,所述同款圖像是指與所述待查詢圖像的外觀相似的圖像;以及,將所述訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,建立得到所述同款檢索模型。
概括而言,同款檢索模型的建立過程包括兩個(gè)步驟:構(gòu)造訓(xùn)練集,訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同款圖像,其中,同款圖像是指與待查詢圖像的外觀相似的圖像;將訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,建立得到同款檢索模型。
具體的,在構(gòu)造訓(xùn)練集時(shí),收集多幅待查詢圖像以及相應(yīng)的同款圖像,將這些外觀相似的一組圖片集中存儲(chǔ)作為一個(gè)類別進(jìn)行訓(xùn)練。同時(shí),為了捕捉到商品的更多細(xì)節(jié)并去除圖像的邊緣噪聲,可對(duì)所有圖像進(jìn)行預(yù)處理操作:分別將原始圖像放大,然后截取圖像中心預(yù)定大小的區(qū)域作為增加的數(shù)據(jù),從而增加訓(xùn)練樣本數(shù)量。
然后,利用構(gòu)造的訓(xùn)練集,輸入到深度學(xué)習(xí)網(wǎng)絡(luò)中進(jìn)行分類訓(xùn)練。例如,深度學(xué)習(xí)網(wǎng)絡(luò)可采用GoodLeNet網(wǎng)絡(luò)。
對(duì)于深度學(xué)習(xí)算法而言,為提高圖像分類或檢索的性能,需要增加模型的深度或提高濾波器和神經(jīng)元的個(gè)數(shù)。GoodLeNet網(wǎng)絡(luò)采用22層結(jié)構(gòu),同時(shí)在不同的深度處增加了兩個(gè)loss層來保證梯度值的存在,避免了層數(shù)過多導(dǎo)致的梯度小時(shí)的問題。同時(shí),GoodLeNet網(wǎng)絡(luò)增加了多種核結(jié)構(gòu),如1×1、3×3、5×5。此外,在卷積層之后和池化層之前,又加入了一個(gè)1×1的卷積核,以降低特征圖的厚度,防止最終串接起來的特征維數(shù)過于龐大。
因此,優(yōu)選使用GoodLeNet網(wǎng)絡(luò)做分類訓(xùn)練,經(jīng)過眾多次迭代之后,網(wǎng)絡(luò)的loss基本維持不變,最終的分類準(zhǔn)確率較高。
需要說明的是,雖然本發(fā)明優(yōu)選GoodLeNet網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,但是實(shí)際上,并不限于此,還可以采用其他深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。
在實(shí)際操作中發(fā)現(xiàn),如果只用同款檢索模型對(duì)圖像進(jìn)行檢索,會(huì)出現(xiàn)一個(gè)明顯的問題,即返回的結(jié)果是跟查詢的外觀上較為相似的圖像,但是并沒有考慮是否與查詢商品屬于同一個(gè)類別。例如,當(dāng)輸入一幅帶有條紋的T恤商品圖像時(shí),如果指使用同款檢索模型,則返回的結(jié)果是都帶有條紋圖案的商品,其中既包括期望的T恤,也會(huì)包含期望之外的,例如外套、polo衫,顯得極為不合理。因此,預(yù)想的檢索結(jié)果既要與查詢圖像外觀相似,也要屬于同一個(gè)類別,因此增加了同類檢索模型。
優(yōu)選的,該裝置還包括:
同類檢索模型建立單元306,用于構(gòu)造訓(xùn)練集,所述訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同類圖像,其中,所述同類圖像是指與所述待查詢圖像屬于同一個(gè)種類的圖像;將所述訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,建立得到所述同類檢索模型。
概括而言,同類檢索模型的建立過程包括以下兩個(gè)步驟:構(gòu)造訓(xùn)練集,訓(xùn)練集中包括多幅待查詢圖像及相應(yīng)的同類圖像,其中,同類圖像是指與待查詢圖像屬于同一個(gè)種類的圖像;將訓(xùn)練集輸入到深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,建立得到同類檢索模型。
為了使得訓(xùn)練的類別足夠多,可采用技術(shù)領(lǐng)域公開的數(shù)據(jù)源,例如,采用ImageNet數(shù)據(jù)庫的公共競賽數(shù)據(jù)集。該數(shù)據(jù)庫共包含1000個(gè)類別、126萬張訓(xùn)練圖像。需要注意的是,該訓(xùn)練集中的同一個(gè)類別與上述同款檢索模型中的類別概念是不同的。在同款檢索模型中,同一個(gè)類包含的是同一件商品(或同一個(gè)款式商品)的不同姿態(tài)、不同角度下的圖像。而在同類檢索模型中,每個(gè)類別內(nèi)的圖像是指屬于同一個(gè)小范圍的種類,如T恤、羽絨服、連衣裙等,而不考慮圖案、款式是否相同。因此,同款檢索模型更關(guān)注的是外觀相似,而同類檢索模型約束的是屬于同一個(gè)種類。
利用在訓(xùn)練集上預(yù)訓(xùn)練的GoodLeNet網(wǎng)絡(luò)進(jìn)行特征提取,但是實(shí)驗(yàn)發(fā)現(xiàn)效果不是十分理想。于是進(jìn)一步的,可增大訓(xùn)練的數(shù)據(jù)集和類別數(shù),例如,采用ImageNet數(shù)據(jù)庫的所有數(shù)據(jù),該數(shù)據(jù)庫的圖像數(shù)目更多,類別數(shù)也更大,即分類更細(xì)致。因此在訓(xùn)練時(shí),模型可捕捉到每個(gè)類別之間更加細(xì)微的差別,學(xué)習(xí)到的特征也能夠?qū)D像的描述更加細(xì)致。
優(yōu)選的,該裝置還包括:
降維處理單元307,用于對(duì)所述待查詢圖像特征和所述多條評(píng)測圖像特征進(jìn)行降維處理;
映射單元308,用于對(duì)降維處理后的待查詢圖像特征和多條評(píng)測圖像特征進(jìn)行映射。
由于本發(fā)明采用同款檢索模型和同類檢索模型這兩個(gè)模型,因此導(dǎo)致特征增多,當(dāng)把多個(gè)特征組合在一起時(shí),很顯然會(huì)導(dǎo)致特征維數(shù)增多,因此會(huì)影響后續(xù)相似度計(jì)算的效率。因此,可對(duì)待查詢圖像特征和評(píng)測圖像特征進(jìn)行降維處理,并且對(duì)降維處理后的待查詢圖像特征和評(píng)測圖像特征進(jìn)行映射,從而提高處理效果。
具體的,可采用主成分分析(PCA)對(duì)特征進(jìn)行降維處理,采用線性判決分析(LDA)對(duì)降維后的特征進(jìn)行映射。由于提取的特征是稀疏的,因此利用PCA降維可以去除不必要的噪聲,保留價(jià)值更大的特征維度。而LDA可以進(jìn)一步增大各特征類之間的距離,減少類內(nèi)距離,保證投影后的新樣本模式能夠被區(qū)分的更加明顯。
對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。
以上對(duì)本發(fā)明所提供的一種關(guān)系型數(shù)據(jù)庫的調(diào)度方法及系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。