基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法
【專利摘要】本發(fā)明公開一種基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,包括:將訓(xùn)練集和測試集圖像降采樣并展成由列向量為單位構(gòu)成的訓(xùn)練集矩陣;建立旋轉(zhuǎn)不變字典學(xué)習(xí)模型,將訓(xùn)練集矩陣輸入模型,使用交替迭代的方法對模型進行求解,不斷優(yōu)化目標(biāo)函數(shù),學(xué)習(xí)得到字典、分類器和對齊后的訓(xùn)練集圖像;基于得到的詞典對測試樣本進行稀疏編碼并通過稀疏編碼系數(shù)求解對齊參數(shù);對對齊后的測試圖像進行稀疏編碼,把稀疏編碼系數(shù)帶入線性分類器得到最終分類結(jié)果。本發(fā)明對字典學(xué)習(xí)在人臉識別中的應(yīng)用提出了新的模型和方法,可以應(yīng)用于一般的模式分類任務(wù)中,特別是無約束環(huán)境下的人臉識別問題。本發(fā)明提出的方法可以顯著提高人臉識別的識別正確率。
【專利說明】基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機視覺、模式識別,生物特征識別等【技術(shù)領(lǐng)域】,特別是一種基于旋 轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法(Rotation-invariant Dictionary Learning,簡稱 RIDL)。
【背景技術(shù)】
[0002] 人臉識別因其在實際生活中的易用性得到了國內(nèi)外學(xué)者的廣泛關(guān)注,目前基于人 臉識別的應(yīng)用主要集中在人臉考勤機,人臉通關(guān)系統(tǒng)以及基于視頻的人臉識別與監(jiān)控等方 面。人臉識別具有自然性和不被被測個體察覺的優(yōu)點,這些優(yōu)點使得其在日常生活中獲得 了比其他生物特征識別方法,比如虹膜識別,指紋識別等更多的應(yīng)用。目前有大量的研究力 量正不斷推進著人臉識別領(lǐng)域的發(fā)展。
[0003] 通常一個人臉識別系統(tǒng)由人臉采集,人臉檢測,人臉對齊,特征提取,特征匹配等 幾個步驟構(gòu)成。其中人臉對齊和特征提取對于人臉識別的正確率具有最重要的影響。當(dāng)在 一個對齊的空間中,使用最具有判別性的特征對人臉進行比對匹配時,通??梢垣@得更好 的識別率,反之則會大幅度降低人臉識別系統(tǒng)的準(zhǔn)確度。而對人臉識別的研究也主要集中 在人臉對齊和特征提取的方法上,對人臉對齊的研究主要集中在基于關(guān)鍵點的對齊方法; 而人臉的特征提取則大致可以分為局部特征提取和全局特征提取兩種。
[0004] 近些年來,稀疏表示因其在眾多計算機視覺問題中的突出表現(xiàn)而獲得了極大關(guān) 注。其基本思想是將一個原始信號表示成以一組過完備詞典為基的稀疏信號。稀疏表示在 圖像去噪與恢復(fù),人臉識別,圖像分類等領(lǐng)域中都獲得了極大成功。而隨著技術(shù)的發(fā)展,如 何學(xué)習(xí)到適用于特定問題(比如用于圖像分類,人臉識別)的詞典成為學(xué)者們關(guān)注的焦點, 即一個字典學(xué)習(xí)的理論框架。
[0005] 使用字典學(xué)習(xí)的方法,可以通過學(xué)習(xí)得到一個用來稀疏表示信號的具有判別性的 詞典,并使用每個信號的稀疏表達系數(shù)作為特定信號的特征輸入分類器以獲得分類結(jié)果。 在這個理論框架下的研究主要集中在如何使得學(xué)習(xí)到的詞典具有更突出的判別性能。目前 學(xué)習(xí)用于人臉識別的詞典主要有兩類方法:一種是基于詞典的性質(zhì)讓詞典本身變得具有判 別性;一種是使得詞典產(chǎn)生的稀疏系數(shù)具有判別性。無論哪種方式,在訓(xùn)練集數(shù)目足夠大而 且訓(xùn)練圖像能良好對齊的前提下都能取得非常不錯的人臉識別效果。
[0006] 然而,實際應(yīng)用場景下的人臉識別問題中,我們所能獲得的人臉圖像通常不是標(biāo) 準(zhǔn)的人眼對齊圖像。如果將非對齊人臉圖像直接用于上述模型,學(xué)到的字典項中會有很大 一部分代表判別力較弱的旋轉(zhuǎn)信息,則模型的識別正確率會大大降低。而如果想要獲得良 好的識別效果,通常需要額外增加人臉對齊的步驟。目前實際用到的人臉對齊方法通常是 基于人眼關(guān)鍵點的對齊,但并沒有可靠證據(jù)證明這種對齊方式可以獲得最佳的識別效果。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明要解決的技術(shù)問題就是針對實際環(huán)境下人臉識別問題中輸入圖像非對齊 的問題,本發(fā)明提出一種基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,將人臉特征表達、人 臉對齊和人臉識別放置在一個統(tǒng)一的框架下得到解決,使得上述三個步驟相互作用共同提 高最終的人臉識別正確率。
[0008] 為了解決上述問題,本發(fā)明提供一種基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方 法,包括如下步驟:
[0009] 步驟S1,對訓(xùn)練集和測試集樣本進行中心裁剪,將得到的圖像展成由列向量為單 位構(gòu)成的訓(xùn)練集矩陣;
[0010] 步驟S2,優(yōu)化學(xué)習(xí)訓(xùn)練集的對齊參數(shù)τ,字典D以及分類器參數(shù)W:按照旋轉(zhuǎn)不變 字典學(xué)習(xí)模型對訓(xùn)練集數(shù)據(jù)建模,將訓(xùn)練集矩陣輸入模型,通過兩步交替迭代的優(yōu)化方式 最小化目標(biāo)函數(shù),學(xué)習(xí)每張圖像的對齊參數(shù)τ,字典D和分類器參數(shù)W ;
[0011] 步驟S3,獲得測試圖像的對齊參數(shù):通過學(xué)習(xí)到的字典D對測試圖像ytest進行稀 疏編碼,以稀疏編碼系數(shù)為輸入,最小化對齊參數(shù)的目標(biāo)函數(shù),從而獲得測試圖像的對齊參 數(shù);
[0012] 步驟S4,獲得測試圖像的分類結(jié)果:對對齊后的測試圖像y' test進行稀疏編碼, 把稀疏編碼系數(shù)帶入線性分類器得到最終分類結(jié)果。
[0013] 優(yōu)選地,在所述步驟S1中,對訓(xùn)練集和測試集樣本進行相同的中心裁剪和降采 樣,將得到的圖像展成由列向量為單位構(gòu)成的訓(xùn)練集矩陣。
[0014] 優(yōu)選地,在步驟S2中,構(gòu)成如下旋轉(zhuǎn)不變字典學(xué)習(xí)模型:
[0015]
【權(quán)利要求】
1. 一種基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,包括如下步驟: 步驟S1,對訓(xùn)練集和測試集樣本進行中心裁剪,將得到的圖像展成由列向量為單位構(gòu) 成的訓(xùn)練集矩陣; 步驟S2,優(yōu)化學(xué)習(xí)訓(xùn)練集的對齊參數(shù)T,字典D以及分類器參數(shù)W :按照旋轉(zhuǎn)不變字典 學(xué)習(xí)模型對訓(xùn)練集數(shù)據(jù)建模,將訓(xùn)練集矩陣輸入模型,通過兩步交替迭代的優(yōu)化方式最小 化目標(biāo)函數(shù),學(xué)習(xí)每張圖像的對齊參數(shù)t,字典D和分類器參數(shù)W ; 步驟S3,獲得測試圖像的對齊參數(shù):通過學(xué)習(xí)到的字典D對測試圖像ytest進行稀疏編 碼,以稀疏編碼系數(shù)為輸入,最小化對齊參數(shù)的目標(biāo)函數(shù),從而獲得測試圖像的對齊參數(shù); 步驟S4,獲得測試圖像的分類結(jié)果:對對齊后的測試圖像y' test進行稀疏編碼,把稀 疏編碼系數(shù)帶入線性分類器得到最終分類結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,其特征在于, 在所述步驟S1中,對訓(xùn)練集和測試集樣本進行相同的中心裁剪和降采樣,將得到的圖 像展成由列向量為單位構(gòu)成的訓(xùn)練集矩陣。
3. 根據(jù)權(quán)利要求1所述的基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,其特征在于, 在步驟S2中,構(gòu)成如下旋轉(zhuǎn)不變字典學(xué)習(xí)模塑:
其中[
^代表稀疏重構(gòu)誤差
代表實際稀疏系數(shù)與理想系數(shù)之 間的區(qū)別,I好-Wllf代表分類誤差,U (Y)代表訓(xùn)練集圖像的平均臉,a,P為人工設(shè)置的 權(quán)重參數(shù),用于調(diào)節(jié)各項之間的相對大小關(guān)系,L為預(yù)設(shè)的稀疏系數(shù)閾值,W代表線性分類 器矩陣,矩陣H e RmXN的每一列為僅有一個非零元素的列向量,這里比=[0,0. . . 1. . . 0,0] 1. Rm中非零元素的位置對應(yīng)于訓(xùn)練樣本的標(biāo)簽信息,Q = [qi,... qN] e RKXN是一個理想 的具有判別行的稀疏系數(shù)矩陣,A是任一個線性變換矩陣,用于將當(dāng)前稀疏系數(shù)變換到最具 判別性的系數(shù)空間中。
4. 根據(jù)權(quán)利要求3所述的基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,其特征在于, 所述步驟S2具體包括如下步驟; S21,對于訓(xùn)練集中的每一類人臉圖像,通過K-SVD算法分別求其詞典并組合成初始化 的詞典%,并根據(jù)初始化的字典求得稀疏系數(shù)矩陣X,分別對A和W進行初始化,循環(huán)進行 S22和S23步驟,直到收斂或達到迭代次數(shù)要求; 522, 固定D,W,A,X,更新對齊參數(shù)t = [ t p t2. . . tn];這時,目標(biāo)函數(shù)為如下形式:
對每一幅圖求得一個對齊參數(shù); 523, 固定對齊參數(shù)t = [ t 17 t 2... t N],更新S,W,A,X,這時目標(biāo)函數(shù)為:
使用步驟S22對齊后的訓(xùn)練集圖像作為Y,根據(jù)LCKSVD算法對該目標(biāo)函數(shù)進行求解。
5. 根據(jù)權(quán)利要求1所述的基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,其特征在于, 在步驟S3中,對于一個新的測試樣本ytest,不斷迭代以下兩步,直到算法收斂或者達到規(guī)定 的迭代步數(shù): S31,對于測試樣本ytest,根據(jù)稀疏編碼算法解決如下的稀疏編碼問題,獲得稀疏編碼 系數(shù)X:
S32,根據(jù)稀疏編碼系數(shù)X,按照如下目標(biāo)函數(shù)進行圖像配準(zhǔn):
求取測試樣本的對齊參數(shù)t,使得對齊后圖像為y' test = ytest 〇 t,其中y⑴代表 的是對齊后的訓(xùn)練集的平均臉;用y' test替代ytost執(zhí)行步驟S31 ; 完成以上測試樣本的對齊過程,獲得最終的對齊參數(shù)T以及對齊后的圖像y' test = Ytest 0 T ?
6. 根據(jù)權(quán)利要求1所述的基于旋轉(zhuǎn)不變字典學(xué)習(xí)模型的人臉識別方法,其特征在于, 在步驟S4中,對對齊后的測試圖像y' test使用正交匹配跟蹤算法進行稀疏編碼,并用獲得 的稀疏編碼系數(shù)x與分類器W相乘獲得列向量h = Wx,根據(jù)列向量h中最大元素的位置確 定最后的分類結(jié)果。
【文檔編號】G06K9/62GK104281845SQ201410594606
【公開日】2015年1月14日 申請日期:2014年10月29日 優(yōu)先權(quán)日:2014年10月29日
【發(fā)明者】譚鐵牛, 孫哲南, 張樹, 張曼, 赫然 申請人:中國科學(xué)院自動化研究所