專利名稱:基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖像處理技術(shù)領(lǐng)域的方法,具體的說(shuō),涉及的是一種基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法,能直接應(yīng)用于三維人臉識(shí)別、人機(jī)交互、人臉跟蹤、三維動(dòng)畫等領(lǐng)域。
背景技術(shù):
人臉識(shí)別是一種典型的生物特征識(shí)別技術(shù)之一。在約束環(huán)境下采集的人臉圖像(在對(duì)象配合的情況下拍攝的正面、中性表情、無(wú)遮擋、光照均勻的高質(zhì)量人臉相片),近年來(lái)在對(duì)人臉識(shí)別系統(tǒng)和商業(yè)系統(tǒng)的FERET和FRVT測(cè)試表明識(shí)別率可達(dá)到95%以上(使用FERET人臉數(shù)據(jù)庫(kù))。但是人臉是一類非常相似的非剛體,所有的人臉幾乎由同樣的幾何特征所構(gòu)成,人臉的識(shí)別需要利用臉部或者特征結(jié)構(gòu)的細(xì)微差別,這是極其困難的。而且,由于光照的變化、人臉姿態(tài)的變化都將使臉部三維特征的二維投影有很大的變化,這更增加了人臉處理的復(fù)雜性。因此現(xiàn)有大多數(shù)的人臉識(shí)別方法和系統(tǒng)都對(duì)工作條件提出了嚴(yán)格的控制,使得這些系統(tǒng)難以在實(shí)際中得到廣泛的應(yīng)用,尤其是對(duì)人臉姿態(tài)的限制更是其中的關(guān)鍵。人臉姿勢(shì)識(shí)別在計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)中發(fā)揮著很重要的作用,并且有比較廣泛的應(yīng)用,比如人臉識(shí)別,人臉跟蹤和人機(jī)交互等。但由于在二維圖像中沒有第三維的信息,所以解決這個(gè)問(wèn)題變的很困難。而且還有一些影響因素,比如光照的變化,圖像的質(zhì)量和分辨率以及個(gè)人的身份變化,也嚴(yán)重影響了人臉姿勢(shì)識(shí)別問(wèn)題的解決。
經(jīng)對(duì)現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),Volker Blanz等(Volker Blanz,Thomas Vetter,F(xiàn)ace recognition based on fitting a 3D morphable model(基于擬合三維形變模型的人臉識(shí)別),IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE模式分析與機(jī)器智能學(xué)報(bào)),25(9)(2003)1063-1074),此方法計(jì)算成本很高,不符合實(shí)時(shí)性的要求,而且需要使用三維的掃描儀采集人臉圖像作為訓(xùn)練樣本,所以成本比較高。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提出一種基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法。使其具有比較高的可靠性和穩(wěn)健性,可以廣泛的應(yīng)用于人臉識(shí)別、表情識(shí)別和人機(jī)交互等領(lǐng)域。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的,本發(fā)明先用一部分人的各種人臉姿勢(shì)圖像作為訓(xùn)練集,然后訓(xùn)練集中的每一幅圖像進(jìn)行Gabor變換,用于消除或者降低人臉圖像中的光照變化、分辨率等影響因素,提取區(qū)分人臉姿勢(shì)的有效特征。訓(xùn)練集中的人臉圖像Gabor變換后,變換結(jié)果的維數(shù)很高,而且由于人臉姿勢(shì)的變化,引起許多的非線性變化,所以采用局部保持映射方法進(jìn)行降維。使用此降維方法可以消除人臉的身份,并且相同姿勢(shì)的人臉聚集在一起,揭示了人臉姿勢(shì)的變化。最后使用模糊聚類方法進(jìn)行人臉姿勢(shì)識(shí)別。這樣就完成了人臉姿勢(shì)識(shí)別。
所述訓(xùn)練集中的人臉圖像進(jìn)行Gabor變換是指為了減少運(yùn)算成本,訓(xùn)練集中的每一幅人臉圖像大小縮減到20×20,然后采用Gabor濾波器進(jìn)行變換,選擇Gabor濾波器有兩個(gè)因素,一個(gè)是尺度,另一個(gè)是方向。在本發(fā)明中,選用5個(gè)尺度和8個(gè)方向。人臉圖像進(jìn)行Gabor變換后,可以提取出有利于區(qū)分人臉姿勢(shì)的有效特征。這樣一幅人臉圖像經(jīng)過(guò)Gabor變換,可以產(chǎn)生40(5×8)幅與原圖像相同大小的人臉圖像。在這40幅Gabor變換的人臉圖像里,突出人臉在不同尺度和不同頻率的有效特征。在40幅變換人臉圖像中,每一幅人臉中的每一行(或列)進(jìn)行首尾相接形成一個(gè)向量,這樣共形成40個(gè)向量,然后把40個(gè)向量再連接起來(lái),形成一個(gè)完整的Gabor向量(20×20×5×8=8000)。訓(xùn)練集中的每一幅人臉圖像按照同樣的方法操作,把每一幅人臉圖像的Gabor變換結(jié)果排列在一個(gè)矩陣中,占據(jù)矩陣中的一列(或行),這樣整個(gè)訓(xùn)練集形成一個(gè)8000×N(N代表訓(xùn)練集中人臉圖像的數(shù)量)的矩陣。
所述用局部保持映射方法進(jìn)行降維是指訓(xùn)練集中的每幅人臉圖像進(jìn)行Gabor變換后,得到一個(gè)高維矩陣。在本發(fā)明中采用局部保持映射進(jìn)行降維,明確考慮了在人臉圖像空間的流形結(jié)構(gòu)。流形的結(jié)構(gòu)由一個(gè)保持了圖像的局部結(jié)構(gòu)信息的K最近鄰圖來(lái)表示,表示人臉的低維子空間由局部保持投影得到。圖像空間中的每個(gè)人臉圖像投影到一個(gè)由一組特征圖像構(gòu)成的低維的人臉子空間,由于人臉子空間保持了數(shù)據(jù)流形的局部結(jié)構(gòu),經(jīng)過(guò)降維后,消除了人的身份的影響而且相同姿勢(shì)的不同人的人臉聚集在一起。有利于后面的人臉姿勢(shì)識(shí)別。
所述用模糊聚類方法進(jìn)行姿勢(shì)識(shí)別是指人臉訓(xùn)練集經(jīng)過(guò)降維后,采用模糊聚類方法得到相同姿勢(shì)人臉的聚類中心。輸入一個(gè)新的人臉圖像,經(jīng)過(guò)與訓(xùn)練集相同的的圖像大小縮減、Gabor變換、降維后等步驟后,計(jì)算新的人臉圖像與各個(gè)聚類中心的距離。然后比較這些距離的大小,新的人臉圖像就屬于距離最小的那一類。這樣就可以識(shí)別出新的人臉圖像的姿勢(shì)。
本發(fā)明具有以下優(yōu)點(diǎn)(1)本發(fā)明具有很好的實(shí)時(shí)性。使用P42.661G內(nèi)存的計(jì)算機(jī),需要運(yùn)行的時(shí)間是20ms。(2)本發(fā)明不需要大量的訓(xùn)練樣本。(3)本發(fā)明采用的是整個(gè)人臉的外觀,不用提取人臉的任何特征。(4)本發(fā)明使用的人臉圖像是二維人臉圖像,具有不同的人臉姿勢(shì),使用一般的采集設(shè)備,所以成本比較低,采集圖像比較方便。
本發(fā)明識(shí)別的人臉姿勢(shì)具有比較高的可靠性和穩(wěn)健性,可以廣泛的應(yīng)用于人臉識(shí)別、表情識(shí)別和人機(jī)交互等領(lǐng)域。
圖1為本發(fā)明方法的流程圖具體實(shí)施方式
以下結(jié)合具體的實(shí)施例對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)描述。
本發(fā)明的基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別的實(shí)現(xiàn)方法按如下步驟進(jìn)行依據(jù)上述附圖,整個(gè)發(fā)明分為兩部分訓(xùn)練階段和測(cè)試階段。
首先,說(shuō)明訓(xùn)練階段的具體步驟1.首先,采用Gabor濾波器用于變換訓(xùn)練集中的各種姿勢(shì)的不同人的人臉圖像。Gabor濾波器對(duì)人臉圖像的處理是利用Gabor核函數(shù)ψu(yù),v(x,y)與圖像I(x,y)的卷積實(shí)現(xiàn),即Ou,v(x,y)=I(x,y)*ψu(yù),v(x,y)。由于Gabor濾波器輸出Ou,v(x,y)包含了圖像的位置、灰度局部標(biāo)準(zhǔn)化、尺度和方向特征。Gabor濾波器的方向有助于提取人臉姿勢(shì)的特征,區(qū)別不同的人臉姿勢(shì)。因此可以利用Gabor濾波器消除上述提出的影響人臉姿勢(shì)識(shí)別的影響因素。然后將人臉圖像在不同尺度和方向上的輸出Ou,v(x,y)連接起來(lái)形成一個(gè)特征矢量Y。Y=(O0,0T(x,y),O0,1T(x,y),...,Om,nT(x,y))T.]]>這樣定義的Gabor特征Y包括了m+1個(gè)尺度和n+1個(gè)方向的濾波器輸出Ou,v(x,y),u∈{0,1,...,m},v∈{0,1,...n},其中包括圖像的頻率、方向和尺度等信息,可以作為一種圖像的表征方法。整個(gè)訓(xùn)練集中的所有不同人的不同姿勢(shì)的人臉圖像進(jìn)行Gabor變換,形成一個(gè)矢量矩陣X=(Y1,Y2,...,Yn)。在本發(fā)明中,m=4,n=7。
2.訓(xùn)練集中的各種姿勢(shì)的人臉圖像經(jīng)過(guò)Gabor變換后,整個(gè)訓(xùn)練集變成一個(gè)向量矩陣X。使用局部保持映射算法進(jìn)行降維。局部保持映射算法是在數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)中尋找保持?jǐn)?shù)據(jù)局部結(jié)構(gòu)的投影方向,使用局部結(jié)構(gòu)的近鄰性質(zhì),使得相同姿勢(shì)的人臉聚集在一個(gè)子集中。在本發(fā)明中,局部保持映射降維方法的目標(biāo)函數(shù)是MinΣij(yi-yj)2Sij,]]>其中Sij是點(diǎn)xi和xj的連接權(quán)重,Sij=Sij=e||Xi-Xj||2t.]]>最小化目標(biāo)函數(shù)就是在保證點(diǎn)xi和xj的距離比較小時(shí),yi和yj之間的距離同樣比較小。所以MinΣij(yi-yj)2Sij]]>轉(zhuǎn)化為MinΣij(yi-yj)2Sij=2WTXLXTW,]]>其中X=[x1,x2,...,xn],D是一個(gè)對(duì)角陣,并且Djj=∑iSij。L=D-S為L(zhǎng)aplacian矩陣。矩陣D表示數(shù)據(jù)分布的稠密程度。最小化目標(biāo)函數(shù)的變換矩陣w可以通過(guò)求解廣義特征值分解問(wèn)題得到XLXTw=λXDXTw。w0,w1,...,wk-1是方程的解,按照特征值的順序排列λ0,λ1,...,λk-1。因此,嵌入如下所示x→y=WTx,W=WPCAWLPP。但是在XLXTw=λXDXTw中,XDXT有時(shí)是奇異的,為了克服這個(gè)難題,把人臉圖像映射到PCA子空間,這樣XDXT轉(zhuǎn)換為非奇異矩陣。另外,PCA預(yù)處理人臉圖像可以降低圖像噪聲,用WPCA表示PCA變換矩陣。WLPP表示局部保持映射變換矩陣。
3.降維后,相同姿勢(shì)的不同人的人臉聚集在一起。采用模糊聚類的方法識(shí)別人臉姿勢(shì)。在本發(fā)明中,目標(biāo)函數(shù)J(U,V)定義為J=Σk=1NΣi=1c(μik)m||Xk-mi||2,]]>其中U=[μik](i=1,2,...,c;k=1,2,...,n)為模糊聚類矩陣,且滿足μik∈
,Σi=1cμik=1,]]>k及0<Σk=1nμik<n,∀i;]]>V={v1,v2,...,vc}為c個(gè)聚類中心的集合,且vi∈Rp;m∈[2,∞]為加權(quán)指數(shù);‖Xk-mi‖2為第k個(gè)樣本到第i類的距離。使用局部保持映射方法把高維信息降到一維信息,里面包含人臉姿勢(shì)變化的信息,并且每個(gè)人的相同人臉姿勢(shì)的點(diǎn)是聚集在一起的,所以用模糊聚類方法可以把相同角度的人臉姿勢(shì)聚集成一類。因此,可以通過(guò)模糊聚類的方法識(shí)別出被測(cè)試對(duì)象的人臉姿勢(shì)。
然后進(jìn)行測(cè)試階段輸入一個(gè)新的人臉,經(jīng)過(guò)與訓(xùn)練階段相同的圖像大小縮減、Gabor變換、局部保持映射降維等方法后。計(jì)算新的圖像與各個(gè)聚類中心的距離。然后比較這些距離的大小,新的圖像就屬于距離最小的那一類。這樣就可以識(shí)別人臉姿勢(shì)。
本發(fā)明的方法能夠獲得較高的測(cè)試準(zhǔn)確率,廣泛的應(yīng)用于人臉識(shí)別、人機(jī)交互、人臉跟蹤等領(lǐng)域中。
權(quán)利要求
1.一種基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法,其特征在于,用一部分人的各種人臉姿勢(shì)圖像作為訓(xùn)練集,然后訓(xùn)練集中的每一幅圖像進(jìn)行Gabor變換,用于消除或者降低人臉圖像中的光照變化、分辨率,提取區(qū)分人臉姿勢(shì)的有效特征;采用局部保持映射方法進(jìn)行降維,經(jīng)過(guò)降維后,相同姿勢(shì)的人臉將會(huì)聚集在一起,然后使用模糊聚類方法進(jìn)行識(shí)別,從而完成人臉姿勢(shì)識(shí)別。
2.根據(jù)權(quán)利要求1所述的基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法,其特征是,所述訓(xùn)練集中的人臉圖像進(jìn)行Gabor變換,是指訓(xùn)練集中的每一幅人臉圖像大小縮減到20×20,然后采用Gabor濾波器進(jìn)行變換,Gabor濾波器選用5個(gè)尺度和8個(gè)方向,提取出有利于區(qū)分人臉姿勢(shì)的有效特征,這樣一幅人臉圖像經(jīng)過(guò)Gabor變換,能產(chǎn)生40幅與原圖像相同大小的人臉圖像,在這40幅Gabor變換的人臉圖像里,突出人臉在不同尺度和不同頻率的有效特征,在40幅變換人臉圖像中,每一幅人臉中的每一行或列進(jìn)行首尾相接形成一個(gè)向量,這樣共形成40個(gè)向量,然后把40個(gè)向量再連接起來(lái),形成一個(gè)完整的Gabor向量,訓(xùn)練集中的每一幅人臉圖像按照同樣的方法操作,把每一幅人臉圖像的Gabor變換結(jié)果排列在一個(gè)矩陣中,占據(jù)矩陣中的一列或行,這樣整個(gè)訓(xùn)練集形成一個(gè)8000×N的矩陣,N代表訓(xùn)練集中人臉圖像的數(shù)量。
3.根據(jù)權(quán)利要求1所述的基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法,其特征是,所述的用局部保持映射方法進(jìn)行降維是指訓(xùn)練集中的每幅人臉圖像進(jìn)行Gabor變換后,得到一個(gè)高維矩陣,采用局部保持映射進(jìn)行降維,考慮了在人臉圖像空間的流形結(jié)構(gòu),流形的結(jié)構(gòu)由一個(gè)保持了圖像的局部結(jié)構(gòu)信息的K最近鄰圖來(lái)表示,表示人臉的低維子空間由局部保持投影得到,圖像空間中的每個(gè)人臉圖像投影到一個(gè)由一組特征圖像構(gòu)成的低維的人臉子空間,由于人臉子空間保持了數(shù)據(jù)流形的局部結(jié)構(gòu),經(jīng)過(guò)降維后,消除了人的身份的影響而且相同姿勢(shì)的不同人的人臉聚集在一起。
4.根據(jù)權(quán)利要求1所述的基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法,其特征是,所述的用模糊聚類方法進(jìn)行姿勢(shì)識(shí)別是指人臉訓(xùn)練集經(jīng)過(guò)降維后,采用模糊聚類方法得到相同姿勢(shì)人臉的聚類中心,輸入一個(gè)新的人臉圖像,經(jīng)過(guò)與訓(xùn)練集相同的圖像大小縮減、Gabor變換、降維后,計(jì)算新的人臉圖像與各個(gè)聚類中心的距離,然后比較這些距離的大小,新的人臉圖像就屬于距離最小的那一類。
全文摘要
一種圖像處理技術(shù)領(lǐng)域的基于流形學(xué)習(xí)的人臉姿勢(shì)識(shí)別方法。本發(fā)明先用一部分人的各種人臉姿勢(shì)圖像作為訓(xùn)練集,然后訓(xùn)練集中的每一幅圖像進(jìn)行Gabor變換,用于消除或者降低人臉圖像中的光照變化、分辨率,提取區(qū)分人臉姿勢(shì)的有效特征;訓(xùn)練集中的人臉圖像Gabor變換后,采用局部保持映射方法進(jìn)行降維,消除人臉的身份,并且相同姿勢(shì)的人臉聚集在一起,揭示了人臉姿勢(shì)的變化;最后使用模糊聚類方法進(jìn)行人臉姿勢(shì)識(shí)別。本發(fā)明應(yīng)用于人臉識(shí)別、人機(jī)交互、表情識(shí)別等方面,具有較快的速度和較高的精度。
文檔編號(hào)G06K9/46GK1828630SQ200610025470
公開日2006年9月6日 申請(qǐng)日期2006年4月6日 優(yōu)先權(quán)日2006年4月6日
發(fā)明者戈新良, 楊杰 申請(qǐng)人:上海交通大學(xué)