用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法
【專利摘要】本發(fā)明公開一種可增加樣本數(shù)量及正樣本比例的用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法,按如下步驟進行:提取圖像庫中每幅圖像的底層視覺特征,然后將提取的特征放入特征庫中;將特征庫中每幅圖像的特征與用戶選取的示例圖像特征進行相似度比較,最后返回給用戶與該示例圖像最相似的N副圖像;用戶將最相似的N副圖像標(biāo)記為正例圖像或反例圖像;將標(biāo)記好的圖像放到支持向量機中進行訓(xùn)練學(xué)習(xí),最終將學(xué)習(xí)后的結(jié)果反饋給用戶,用戶對反饋結(jié)果滿意,輸出結(jié)果;否則,繼續(xù)此步驟。
【專利說明】用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于多媒體信息處理的相關(guān)反饋圖像檢索領(lǐng)域,尤其是一種可增加樣本數(shù)量及正樣本比例的用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法。
【背景技術(shù)】
[0002]目前,隨著多媒體技術(shù)的快速發(fā)展及Internet技術(shù)的日益普及,數(shù)字圖像的來源越來越廣泛,每天各個領(lǐng)域都會產(chǎn)生數(shù)以千兆字節(jié)的圖像信息。為了能夠從大量的圖像數(shù)據(jù)中快速、準確地找到用戶所需內(nèi)容,基于內(nèi)容的圖像檢索技術(shù)得到了廣泛關(guān)注,成為信息檢索領(lǐng)域的研究熱點,得到了國際學(xué)術(shù)界廣泛研究。所謂基于內(nèi)容的圖像檢索,就是根據(jù)圖像的顏色、紋理、形狀等特征,按照某種相似度計算方法,從圖像庫中找出于用戶事先想要查詢的圖像最相似的若干幅圖像。由于圖像底層視覺特征與高級語義之間存在代溝,因此人們提出了基于反饋的圖像檢索方法來解決這一問題。早期的相關(guān)反饋技術(shù)主要采用啟發(fā)式方法,并可大致分為兩類:查詢點移動和權(quán)值調(diào)整。前者通過修改查詢向量的方法移動查詢點,使得移動后的查詢點靠近特征空間中正樣本集中的區(qū)域;后者通過調(diào)整特征分量權(quán)重的方式修改距離度量公制,以加強那些能使正樣本聚攏或能區(qū)分正、負樣本的特征向量。啟發(fā)式方法基于這樣的一種假設(shè):所有正樣本大致被包含在特征空間中一個超橢球區(qū)域內(nèi),但是,該假設(shè)過于理想,實際應(yīng)用中很難滿足。目前,基于支持向量機(SVM)的相關(guān)反饋方法由于支持向量機具有很好的模式分類性能而被廣泛應(yīng)用。
[0003]一般情況下,對于大型的圖像數(shù)據(jù)庫,由于圖像數(shù)據(jù)量大,而正例圖像占據(jù)很小的比例,正確的選擇訓(xùn)練樣本也尤為重要。截止目前有以下幾種主要選取方法:通過反饋結(jié)果增加樣本數(shù)目;通過隨機選取訓(xùn)練樣本;對圖像庫進行聚類算法等。其中,通過反饋結(jié)果增加樣本數(shù)目很少,不能滿足反饋的需要;通過隨機選取方法大大的提高了樣本數(shù)目,但此類方法只能增加反例樣本,且在選取的樣本中不能確定是否真的能夠代表反例樣本;對圖像庫進行聚類算法,同第一類方法一樣,每次增加的數(shù)目較少,不能使反饋效果達到理想。即現(xiàn)有方法存在著訓(xùn)練樣本少造成不穩(wěn)定以及正例樣本遠遠少于反例樣本造成分類器最優(yōu)超平面偏移的問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明是為了解決現(xiàn)有技術(shù)所存在的上述技術(shù)問題,提供一種可增加樣本數(shù)量及正樣本比例的用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法。
[0005]本發(fā)明的技術(shù)解決方案是:一種用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法,其特征在于按如下步驟進行:
a.提取圖像庫中每幅圖像的底層視覺特征,然后將提取的特征放入特征庫中;
b.將特征庫中每幅圖像的特征與用戶選取的示例圖像特征進行相似度比較,最后返回給用戶與該示例圖像最相似的N副圖像;
c.將反饋池中的圖像根據(jù)它們與用戶所選擇示例圖像是否屬于同一個語義類,將其標(biāo)記為正例樣本或反例樣本;
d.將標(biāo)記好的圖像放到支持向量機中進行訓(xùn)練學(xué)習(xí),最終將學(xué)習(xí)后的結(jié)果反饋給用戶,用戶對反饋結(jié)果滿意,輸出結(jié)果;否則,繼續(xù)此步驟。
[0006]所述d步驟如下:
d.1對圖像庫中的圖像進行K均值聚類得到k類圖像
選取當(dāng)前檢索結(jié)果中的最相關(guān)M幅圖像庫,對圖像庫進行K均值聚類,聚類數(shù)目由每次反饋時的標(biāo)記圖像決定;
第一步,將標(biāo)記的N幅圖像5",? 作為初始聚類中心;
第二步,計算圖像庫5;^中每個圖像與各個聚類中心之間的距離,把各個圖像分配給距離它最近的聚類中心;
第三步,重新計算每一類的聚類中心;
迭代第二、第三步,直到聚類中心不再發(fā)生改變。最終得到:
【權(quán)利要求】
1.一種用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法,其特征在于按如下步驟進行: a.提取圖像庫中每幅圖像的底層視覺特征,然后將提取的特征放入特征庫中; b.將特征庫中每幅圖像的特征與用戶選取的示例圖像特征進行相似度比較,最后返回給用戶與該示例圖像最相似的N副圖像; c.用戶將最相似的N副圖像標(biāo)記為正例圖像或反例圖像; d.將標(biāo)記好的圖像放到支持向量機中進行訓(xùn)練學(xué)習(xí),最終將學(xué)習(xí)后的結(jié)果反饋給用戶,用戶對反饋結(jié)果滿意,輸出結(jié)果;否則,繼續(xù)此步驟。
2.根據(jù)權(quán)利要求1所述用于相關(guān)反饋圖像檢索的自適應(yīng)訓(xùn)練樣本選取方法,其特征在于所述d步驟如下: d.1對圖像庫中的圖像進行K均值聚類得到k類圖像 選取當(dāng)前檢索結(jié)果中的最相關(guān)M幅圖像庫,對圖像庫進行K均值聚類,聚類數(shù)目由每次反饋時的標(biāo)記圖像決定; 第一步,將標(biāo)記的N幅圖像
【文檔編號】G06K9/62GK103761503SQ201310735558
【公開日】2014年4月30日 申請日期:2013年12月28日 優(yōu)先權(quán)日:2013年12月28日
【發(fā)明者】王向陽, 張貝貝, 李永威 申請人:遼寧師范大學(xué)