一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法
【專利摘要】本發(fā)明公開(kāi)了一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,該方法包括:根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);使用給定分類數(shù)據(jù)集對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集圖像提取特征表達(dá);將測(cè)試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),并進(jìn)行分類。本發(fā)明方法基于非線性卷積特征學(xué)習(xí),可以以數(shù)據(jù)驅(qū)動(dòng)的方式實(shí)現(xiàn)模型對(duì)數(shù)據(jù)集的自適應(yīng),從而更好的描述特定的數(shù)據(jù)集,通過(guò)任務(wù)驅(qū)動(dòng)的方式直接對(duì)K近鄰的誤差進(jìn)行優(yōu)化,使其能夠在K近鄰任務(wù)上取得更好的性能;并且在訓(xùn)練階段可以采用GPU進(jìn)行高效訓(xùn)練,在測(cè)試階段只需使用CPU就可以實(shí)現(xiàn)高效的K近鄰圖像分類,非常適用于大規(guī)模的圖像分類、檢索等任務(wù)。
【專利說(shuō)明】一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)視覺(jué)中圖像分類【技術(shù)領(lǐng)域】,特別涉及一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法。
【背景技術(shù)】
[0002]圖像分類是計(jì)算機(jī)視覺(jué)最基本的研究問(wèn)題之一,其要解決的問(wèn)題就是給定一張圖像自動(dòng)判斷其中是否包含某類物體。圖像分類問(wèn)題是視覺(jué)研究一個(gè)核心課題,許多其他視覺(jué)研究都要依賴和涉及圖像分類問(wèn)題,如圖像中物體檢測(cè)、跟蹤,圖像分割,視頻中物體分類、檢測(cè)、跟蹤,行為分析,手勢(shì)識(shí)別等。
[0003]K近鄰圖像分類是一種圖像分類方法,是指在對(duì)圖像分類時(shí)采用的是K近鄰?fù)镀钡姆绞剑碖個(gè)最近的圖像中出現(xiàn)次數(shù)最多的類別預(yù)測(cè)為該測(cè)試樣本的類別。除了可以簡(jiǎn)單、高效地實(shí)現(xiàn)對(duì)圖像進(jìn)行分類外,K近鄰分類還有很多其他特性。比如K近鄰圖像分類能夠獲取與測(cè)試圖像最接近的樣本,可以應(yīng)用在圖像檢索、人臉檢索、視頻檢索等領(lǐng)域。
[0004]由于傳統(tǒng)技術(shù)中分類器的選擇與圖像特征表達(dá)是兩個(gè)獨(dú)立的過(guò)程,而且K近鄰分類是一個(gè)非參數(shù)模型,其預(yù)測(cè)嚴(yán)重依賴于數(shù)據(jù)的空間分布,也即圖像特征表達(dá),這就導(dǎo)致圖像特征表達(dá)對(duì)K近鄰分類而言不是最優(yōu)的,對(duì)分類性能造成影響。
[0005]近年來(lái),圖像分類領(lǐng)域發(fā)展迅速,在分類技術(shù)方面取得了很多重要突破。當(dāng)前,詞包模型是圖像特征表達(dá)主流框架之一。詞包模型通過(guò)對(duì)密集提取的圖像塊的底層特征描述進(jìn)行統(tǒng)計(jì)特征描述,獲得對(duì)圖像的整體特征表達(dá)。詞包模型通常由底層特征描述、視覺(jué)單詞生成、底層特征編碼、特征匯聚、分類器訓(xùn)練與測(cè)試等步驟構(gòu)成,在分類器訓(xùn)練前,我們可以認(rèn)為詞包模型采用的是無(wú)監(jiān)督的方式對(duì)圖像進(jìn)行表達(dá),不論是傳統(tǒng)的SIFT、HOG等底層特征還是詞包模型中層特征表達(dá),都沒(méi)有利用到圖像的標(biāo)簽信息,因而這樣的特征表達(dá)對(duì)于K近鄰分類這樣的無(wú)參數(shù)模型來(lái)說(shuō),通常不是最優(yōu)的。
【發(fā)明內(nèi)容】
[0006]有鑒于此,本發(fā)明的主要目的是提供一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,以實(shí)現(xiàn)在大尺度圖像數(shù)據(jù)集上更加快速、準(zhǔn)確的圖像分類。
[0007]為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
[0008]一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,包括:
[0009]數(shù)據(jù)集準(zhǔn)備,根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);
[0010]模型訓(xùn)練,使用給定分類數(shù)據(jù)集對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;
[0011]使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集圖像進(jìn)行特征表達(dá)提??;
[0012]將測(cè)試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),使用K近鄰方式對(duì)測(cè)試圖像進(jìn)行分類。
[0013]進(jìn)一步的,所述數(shù)據(jù)集準(zhǔn)備,根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),還包括:
[0014]至少通過(guò)以下方式中的一種或多種實(shí)現(xiàn)數(shù)據(jù)增強(qiáng):1)從原始圖像隨機(jī)裁剪去圖像四周的邊緣部分以產(chǎn)生出新的具有細(xì)微差別的樣本圖像;2)在原始圖像像素中加入隨機(jī)高斯噪聲產(chǎn)生出新的樣本圖像。
[0015]進(jìn)一步的,所述數(shù)據(jù)集準(zhǔn)備,根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),還包括:
[0016]將圖像樣本縮放到固定尺寸,并將像素拉直成一個(gè)向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
[0017]進(jìn)一步的,所述模型訓(xùn)練,使用給定分類數(shù)據(jù)集對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,具體還包括:
[0018]使用卷積神經(jīng)網(wǎng)絡(luò)作為基本特征變換模型;
[0019]基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;
[0020]基于梯度的優(yōu)化方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并使用GPU進(jìn)行運(yùn)算。
[0021]進(jìn)一步的,所述使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集圖像進(jìn)行提取特征表達(dá),包括:
[0022]將所有訓(xùn)練圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),取出最后一層全連接層的響應(yīng)作為每張訓(xùn)練圖像的特征表達(dá)。
[0023]進(jìn)一步的,將訓(xùn)練集圖像的特征表達(dá)構(gòu)造成KD-樹(shù)并預(yù)先存儲(chǔ)。
[0024]進(jìn)一步的,所述將測(cè)試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),使用K近鄰方式對(duì)測(cè)試圖像進(jìn)行分類,包括:
[0025]對(duì)于給定測(cè)試圖像,將該圖像縮放到卷積神經(jīng)網(wǎng)絡(luò)模型輸入大小,然后送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向計(jì)算,取出最后一層全連接層的響應(yīng)作為該測(cè)試圖像的特征表達(dá),使用該表達(dá)在訓(xùn)練集圖像的特征表達(dá)中進(jìn)行K近鄰檢索,將特征表達(dá)最近的K個(gè)訓(xùn)練圖像中出現(xiàn)次數(shù)最多的類別預(yù)測(cè)為該測(cè)試圖像的類別。
[0026]進(jìn)一步的,所述基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,具體包括:
[0027]采用鄰分量分析NCA來(lái)對(duì)K近鄰分類誤差進(jìn)行估計(jì),給定N對(duì)訓(xùn)練樣本{(Xi,Yi) | i=I,…,N},其中Xi是圖像樣本,Yi是其對(duì)應(yīng)的標(biāo)簽,對(duì)于一個(gè)樣本Xi來(lái)說(shuō),另一個(gè)樣本Xj與Xi屬于同一個(gè)類別的概率定義為
【權(quán)利要求】
1.一種基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,包括: 數(shù)據(jù)集準(zhǔn)備,根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu); 模型訓(xùn)練,使用給定分類數(shù)據(jù)集對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練; 使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集圖像進(jìn)行特征表達(dá)提?。? 將測(cè)試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),使用K近鄰方式對(duì)測(cè)試圖像進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,數(shù)據(jù)集準(zhǔn)備,根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),還包括: 至少通過(guò)以下方式中的一種或多種實(shí)現(xiàn)數(shù)據(jù)增強(qiáng):1)從原始圖像隨機(jī)裁剪去圖像四周的邊緣部分以產(chǎn)生出新的具有細(xì)微差別的樣本圖像;2)在原始圖像像素中加入隨機(jī)高斯噪聲產(chǎn)生出新的樣本圖像。
3.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,數(shù)據(jù)集準(zhǔn)備,根據(jù)數(shù)據(jù)集規(guī)模與圖像內(nèi)容設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),還包括: 將圖像樣本縮放到固定尺寸,并將像素拉直成一個(gè)向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
4.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,模型訓(xùn)練,使用給定 分類數(shù)據(jù)集對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,具體還包括: 使用卷積神經(jīng)網(wǎng)絡(luò)作為基本特征變換模型; 基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練; 基于梯度的優(yōu)化方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并使用GPU進(jìn)行運(yùn)算。
5.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,使用訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集圖像進(jìn)行提取特征表達(dá),包括: 將所有訓(xùn)練圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),取出最后一層全連接層的響應(yīng)作為每張訓(xùn)練圖像的特征表達(dá)。
6.根據(jù)權(quán)利要求5所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,將訓(xùn)練集圖像的特征表達(dá)構(gòu)造成KD-樹(shù)并預(yù)先存儲(chǔ)。
7.根據(jù)權(quán)利要求1所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,將測(cè)試圖像輸入訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),使用K近鄰方式對(duì)測(cè)試圖像進(jìn)行分類,包括: 對(duì)于給定測(cè)試圖像,將該圖像縮放到卷積神經(jīng)網(wǎng)絡(luò)模型輸入大小,然后送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向計(jì)算,取出最后一層全連接層的響應(yīng)作為該測(cè)試圖像的特征表達(dá),使用該表達(dá)在訓(xùn)練集圖像的特征表達(dá)中進(jìn)行K近鄰檢索,將特征表達(dá)最近的K個(gè)訓(xùn)練圖像中出現(xiàn)次數(shù)最多的類別預(yù)測(cè)為該測(cè)試圖像的類別。
8.根據(jù)權(quán)利要求4所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,基于鄰分量分析期望錯(cuò)誤率作為損失函數(shù)對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,具體包括: 采用鄰分量分析NCA來(lái)對(duì)K近鄰分類誤差進(jìn)行估計(jì),給定N對(duì)訓(xùn)練樣本{(Xi, Yi) I i =.1,…,N},其中,Xi是圖像樣本,yi是其對(duì)應(yīng)的標(biāo)簽,對(duì)于一個(gè)樣本Xi來(lái)說(shuō),另一個(gè)樣本Xj與Xi屬于同一個(gè)類別的概率定義為
9.根據(jù)權(quán)利要求4所述的基于數(shù)據(jù)與任務(wù)驅(qū)動(dòng)的圖像分類方法,其特征在于,基于梯度的優(yōu)化方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練具體包括以下方式之一:隨機(jī)梯度下降、共軛梯度法、擬牛頓法、L-BFGS。
【文檔編號(hào)】G06K9/62GK103984959SQ201410224860
【公開(kāi)日】2014年8月13日 申請(qǐng)日期:2014年5月26日 優(yōu)先權(quán)日:2014年5月26日
【發(fā)明者】黃凱奇, 任偉強(qiáng), 張俊格 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所