本發(fā)明涉及一種基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情自動(dòng)識(shí)別方法,屬于深度學(xué)習(xí)和模式識(shí)別的技術(shù)領(lǐng)域。
背景技術(shù):
微表情表達(dá)了人試圖掩蓋與隱藏的真實(shí)情感,是一組時(shí)間連續(xù)的圖像序列,持續(xù)周期一般在250ms~500ms之間,對(duì)微表情的研究能幫助揭露特征場景下人的心理變化,例如,揭露犯人謊言,評(píng)估人的內(nèi)心情緒狀態(tài),進(jìn)而促進(jìn)犯罪學(xué)、心理學(xué)等方面的發(fā)展。與表情相比,微表情識(shí)別更加具有挑戰(zhàn)性。首先,不同于表情,微表情用一段圖像序列共同代表一個(gè)情緒標(biāo)簽,但持續(xù)時(shí)間較短(通常小于500ms),如果采用60幀相機(jī)錄制微表情片段,一段有效的微表情片段最多為30幀。其次,微表情變化細(xì)微,在一段微表情中很難用肉眼觀察到幀與幀之間的區(qū)別,因此對(duì)微表情的特征提取不但需要考慮時(shí)間和空間三個(gè)維度的信息,還要使所提取特征對(duì)微表情的細(xì)微變化具有魯棒性。最后,目前用于微表情識(shí)別研究的數(shù)據(jù)集數(shù)量匱乏,與表情數(shù)以萬計(jì)的數(shù)據(jù)量相比,微表情僅有為數(shù)不多的樣本數(shù)量,這其中包含casme1、casme2、smic等已有的數(shù)據(jù)集,這顯然不足以支持后續(xù)微表情識(shí)別的研究驗(yàn)證。
目前,微表情識(shí)別研究方法主要集中在傳統(tǒng)的機(jī)器學(xué)習(xí)領(lǐng)域中,但已有的微表情識(shí)別方法與表情識(shí)別相比,識(shí)別率普遍不高而不能達(dá)到實(shí)際的應(yīng)用要求,提高微表情識(shí)別率是一項(xiàng)非常具有挑戰(zhàn)性且具有非凡意義的任務(wù)。
如何提取時(shí)空三維的特征描述子,以及尋找?guī)c幀之間的細(xì)微變化是微表情識(shí)別的所面臨的主要困難,常見的提取時(shí)空特征的方法主要是將傳統(tǒng)的二維特征提取算法拓展到三維領(lǐng)域,例如三正交平面局部二值模式(lbp-top)、3d方向梯度直方圖(3dhog)等就是在三個(gè)維度分別提取lbp或者h(yuǎn)og特征,然后用支持向量機(jī)(svm)或者k-means進(jìn)行分類,這樣做雖然可以提取時(shí)間信息,但是,所提取的特征并不能很好地代表幀之間的細(xì)微變化,另一種方法便是提取光流特征,具體的就是將一段微表情的每一幀都與第一幀計(jì)算光流變化,所得到的特征能反映幀與幀之間的差距,但是由于計(jì)算量偏大等問題不夠?qū)嵱谩=鼛啄昃矸e神經(jīng)網(wǎng)絡(luò)的出現(xiàn),為計(jì)算機(jī)視覺領(lǐng)域帶來新的活力,實(shí)際上卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)使行為識(shí)別、人臉識(shí)別、語義分割等研究進(jìn)入新的階段,并且取得了非常顯著的效果。為了解決微表情識(shí)別的問題,卷積神經(jīng)網(wǎng)絡(luò)似乎是一個(gè)很好的工具,然而,卷積神經(jīng)網(wǎng)絡(luò)需要用較高數(shù)量的數(shù)據(jù)集進(jìn)行訓(xùn)練,才能獲取具有代表性的特征,否則就會(huì)造成過擬合等問題,而微表情數(shù)據(jù)集僅有少于1000左右的樣本,不足以進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情自動(dòng)識(shí)別方法。
發(fā)明概述:
一種基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情自動(dòng)識(shí)別方法,包括微表情樣本處理、跨模態(tài)‘宏to微’(cm-m2m)轉(zhuǎn)換模型訓(xùn)練和微表情識(shí)別。
本發(fā)明提供了一種基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情自動(dòng)識(shí)別方法,為了增加可訓(xùn)練樣本的數(shù)量,本發(fā)明根據(jù)微表情和宏表情的關(guān)聯(lián),將宏表情作為正負(fù)樣本與微表情組成元組對(duì)來訓(xùn)練微表情。為了在提取全局特征的同時(shí)保留微表情局部信息,本發(fā)明提供了cm-m2m的卷積神經(jīng)網(wǎng)絡(luò)模型,并用時(shí)空全卷積網(wǎng)絡(luò)提取人臉重要au的位置并將其輸出作為局部信息,來增強(qiáng)特征對(duì)au的魯棒性。最后,為了將微表情和宏表情區(qū)分開以提取微表情特有的特征,本發(fā)明提供了跨模態(tài)元組損失函數(shù)。
本發(fā)明的技術(shù)方案如下:
一種基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情自動(dòng)識(shí)別方法,包括:
a、微表情樣本處理
1)對(duì)微表情數(shù)據(jù)集樣本和宏表情數(shù)據(jù)集樣本進(jìn)行預(yù)處理;
2)構(gòu)建跨模態(tài)元組損失函數(shù)的樣本對(duì);
為了增加可訓(xùn)練樣本的數(shù)量,本發(fā)明根據(jù)微表情和宏表情的關(guān)聯(lián),將宏表情作為正負(fù)樣本與微表情組成元組對(duì)來訓(xùn)練微表情。
b、跨模態(tài)‘宏to微’轉(zhuǎn)換模型訓(xùn)練
3)訓(xùn)練au檢測網(wǎng)絡(luò),初始化au檢測網(wǎng)絡(luò)參數(shù),以基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò)訓(xùn)練一個(gè)柔性最大值損失函數(shù)softmaxlossfunction;
4)固定au檢測網(wǎng)絡(luò)參數(shù),初始化跨模態(tài)‘宏to微’轉(zhuǎn)換模型參數(shù),訓(xùn)練跨模態(tài)‘宏to微’轉(zhuǎn)換模型,通過訓(xùn)練同時(shí)減少一個(gè)跨模態(tài)元組損失函數(shù)和一個(gè)柔性最大值損失函數(shù)的值;
c、微表情識(shí)別
根據(jù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型,初始化測試參數(shù),將用于測試的樣本送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過網(wǎng)絡(luò)前向傳播之后輸出識(shí)別率。
本發(fā)明宏to微轉(zhuǎn)換模型的第一個(gè)和第二個(gè)分支將微表情和宏表情分開訓(xùn)練并通過共享兩者的權(quán)值提高訓(xùn)練效率,而第三個(gè)動(dòng)作單元(au)的分支用時(shí)空全卷積網(wǎng)絡(luò)提取人臉重要au的位置。本發(fā)明還提供了跨模態(tài)元組損失函數(shù)將并au的位置作為局部信息,來增強(qiáng)特征對(duì)au的魯棒性,并提取微表情特有的特征。最后,在識(shí)別階段,本發(fā)明將測試樣本送入訓(xùn)練好的‘宏to微轉(zhuǎn)換模型’網(wǎng)絡(luò),經(jīng)過前向傳播后在網(wǎng)絡(luò)的一個(gè)準(zhǔn)確度層中輸出識(shí)別率。
根據(jù)本發(fā)明優(yōu)選的,所述步驟1),對(duì)微表情數(shù)據(jù)集樣本和宏表情數(shù)據(jù)集樣本進(jìn)行預(yù)處理,包括步驟如下:
a、通過時(shí)間插值模型插值(temporalinterpolationmodel,tim)的方法,分別將微表情數(shù)據(jù)集樣本每一個(gè)圖像序列、宏表情數(shù)據(jù)集樣本每一個(gè)圖像序列插值為f幀,f的取值范圍為[10,32]且f為整數(shù);f的取值范圍為[10,32]是為了提高訓(xùn)練效率的同時(shí)保證訓(xùn)練效果;
b、根據(jù)回歸局部二值特征(regressinglocalbinaryfeatures,rlbf)算法檢測出微表情數(shù)據(jù)集樣本每一個(gè)圖像及宏表情數(shù)據(jù)集樣本每一個(gè)圖像中人臉的27個(gè)特征點(diǎn),包括兩眉毛邊緣兩點(diǎn),兩眼睛四角及中心五個(gè)點(diǎn),鼻子上中下各左右兩點(diǎn)以及鼻尖一點(diǎn),和嘴角兩點(diǎn)和兩嘴唇上下中心的兩點(diǎn),共計(jì)27個(gè)特征點(diǎn),設(shè)定兩眼中心的目標(biāo)距離d為[100,150]之間的整數(shù)大小的像素值,將微表情數(shù)據(jù)集樣本每一個(gè)圖像及宏表情數(shù)據(jù)集樣本每一個(gè)圖像進(jìn)行等比縮放,使兩眼中心的距離為d,并將圖像旋轉(zhuǎn)使兩眼中心處于水平位置,相應(yīng)27個(gè)特征點(diǎn)的位置也進(jìn)行了變換;
c、假設(shè)以d的s倍切割微表情數(shù)據(jù)集樣本每一個(gè)圖像及宏表情數(shù)據(jù)集樣本每一個(gè)圖像,s的取值范圍為[2,3],根據(jù)步驟b變換后的特征點(diǎn)中鼻尖的位置,向其上下左右四個(gè)方向分別延伸
根據(jù)本發(fā)明優(yōu)選的,f=16,d為100像素值,s=2.3。
根據(jù)本發(fā)明優(yōu)選的,所述步驟2),構(gòu)建跨模態(tài)元組損失函數(shù)的樣本對(duì),具體構(gòu)建如下:以微表情為參考樣本(即訓(xùn)練目標(biāo)),在微表情數(shù)據(jù)集樣本和宏表情數(shù)據(jù)集樣本中分別選取一個(gè)相同標(biāo)簽的樣本作為正樣本,例如同為“高興”標(biāo)簽的微表情樣本和宏表情樣本,即一個(gè)微表情正樣本、一個(gè)宏表情正樣本;在宏表情數(shù)據(jù)集樣本中選取m個(gè)不同標(biāo)簽的樣本作為宏表情負(fù)樣本,一個(gè)參考樣本、一個(gè)微表情正樣本、一個(gè)宏表情正樣本和m個(gè)宏表情負(fù)樣本共同組成跨模態(tài)元組損失函數(shù)樣本的一個(gè)大小為3+m的批量。本發(fā)明選取了m組標(biāo)簽不同的宏表情為負(fù)樣本對(duì),這樣不僅能增強(qiáng)訓(xùn)練損失函數(shù)的魯棒性,還能有助于其穩(wěn)定收斂,這里m代表負(fù)樣本的個(gè)數(shù)。
根據(jù)本發(fā)明優(yōu)選的,所述步驟3),訓(xùn)練au檢測網(wǎng)絡(luò),初始化au檢測網(wǎng)絡(luò)參數(shù),以基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò)訓(xùn)練一個(gè)柔性最大值損失函數(shù);包括步驟如下:
d、構(gòu)建所述基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò):以基于原始alexnet的全卷積網(wǎng)絡(luò)為原型,將其拓展為基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò):將全卷積層拓展到3維空間構(gòu)成時(shí)空全卷積層;通過時(shí)空全卷積層3d卷積后的特征圖大小為k×h×w×l,k、h、w、l分別代表卷積核數(shù)量、長、寬、高,再將其通過一個(gè)卷積核大小為1×1×1的3d卷積層,即生成一個(gè)4維的熱度圖,用來描述au特征點(diǎn),所述全卷積層是將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)最后的全連接層替換為卷積核大小為1×1的卷積層,這樣經(jīng)過一個(gè)反卷積層輸出生成一個(gè)和原圖一樣大小的熱度圖;
e、通過區(qū)分性響應(yīng)圖擬合(discriminativeresponsemapfitting,drmf)算法識(shí)別出人臉的66個(gè)特征點(diǎn),根據(jù)人臉的66個(gè)特征點(diǎn)將人臉圖像劃分為36個(gè)au塊,劃分方法參見y.-j.liu,j.-k.zhang,w.-j.yan,s.-j.wang,g.zhao,andx.fu,“amaindirectionalmeanopticalflowfeatureforspontaneousmicro-expressionrecognition,”ieeetransactionsonaffectivecomputing,vol.7,no.4,pp.299-310,2016.
其中有22個(gè)au塊存在于所有的微表情標(biāo)簽,將此22個(gè)au塊突出顯示,其它au塊以及不相關(guān)的部分都定義為背景,訓(xùn)練au檢測網(wǎng)絡(luò),柔性最大值損失函數(shù)lau如式(ⅰ)所示:
式(ⅰ)中,σh,w,l(ai)為h、w、l對(duì)應(yīng)的柔性最大值函數(shù)(softmaxfunction),
f、根據(jù)構(gòu)建的所述基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò)進(jìn)行樣本訓(xùn)練,每一個(gè)迭代的最小批量為1,初始學(xué)習(xí)率為0.001,設(shè)置為每30000次迭代后學(xué)習(xí)率降為原來的0.1倍。但是在經(jīng)過10000次迭代后損失函數(shù)趨于穩(wěn)定,因此最終學(xué)習(xí)率維持初始值不變。
根據(jù)本發(fā)明優(yōu)選的,所述步驟4),固定au檢測網(wǎng)絡(luò)參數(shù),初始化跨模態(tài)‘宏to微’轉(zhuǎn)換模型參數(shù),訓(xùn)練跨模態(tài)‘宏to微’轉(zhuǎn)換模型,通過訓(xùn)練同時(shí)減少一個(gè)跨模態(tài)元組損失函數(shù)和一個(gè)柔性最大值損失函數(shù)的值,包括步驟如下:
g、構(gòu)建跨模態(tài)‘宏to微’轉(zhuǎn)換模型,跨模態(tài)‘宏to微’轉(zhuǎn)換模型的第一個(gè)分支包括參考樣本和微表情正樣本,第二個(gè)分支包括宏表情正樣本和m個(gè)宏表情負(fù)樣本,第一個(gè)分支和第二個(gè)分支采用相同的網(wǎng)絡(luò)結(jié)構(gòu),其以谷歌facenet的nn1網(wǎng)絡(luò)為基礎(chǔ)并通過替換二維的卷積層和池化層為三維的方式構(gòu)成可用于訓(xùn)練圖像序列的網(wǎng)絡(luò);第三個(gè)分支即訓(xùn)練好的au檢測網(wǎng)絡(luò);在訓(xùn)練跨模態(tài)‘宏to微’轉(zhuǎn)換模型的第一個(gè)和第二個(gè)分支時(shí),將訓(xùn)練好的au檢測網(wǎng)絡(luò)參數(shù)進(jìn)行固定,以輸出au特征點(diǎn),并將其與第一個(gè)和第二個(gè)分支輸出的全局特征進(jìn)行拼接,再通過4096維第一個(gè)全連接層、4096維第二個(gè)全連接層;
h、構(gòu)建跨模態(tài)元組損失函數(shù),將第二個(gè)全連接層輸出的4096維向量經(jīng)過一個(gè)l2歸一化后的輸出作為跨模態(tài)元組損失函數(shù)的輸入,使所述一個(gè)參考樣本、一個(gè)微表情正樣本、一個(gè)宏表情正樣本和m個(gè)宏表情負(fù)樣本之間滿足如式(ⅱ)、式(ⅲ)所示的關(guān)系式:
式(ⅱ)、式(ⅲ)中,f(xa),
式(ⅳ)中,j=1,2,j=1代表微表情正樣本,j=2代表宏表情正樣本;
設(shè)定式(ⅳ)為跨模態(tài)元組損失函數(shù),經(jīng)過訓(xùn)練后,使得參考樣本a與微表情正樣本p1、宏表情正樣本p2的距離都小于參考樣本a與宏表情負(fù)樣本nk的距離;
通過式(ⅴ)約束,使得微表情與微表情之間的關(guān)系要近于微表情和宏表情,式(ⅴ)如下所示:
式(ⅴ)中,β為(0,1)區(qū)間內(nèi)平衡微表情和宏表情關(guān)系的邊緣值;微表情和宏表情畢竟作為兩種不同的表情,屬于兩種模態(tài),在這兩種模態(tài)之間,我們通過添加另一個(gè)約束式(ⅴ)將兩種模態(tài)加以區(qū)分得到最后的目的,既然微表情作為參考,于是希望微表情與微表情之間的關(guān)系要近于微表情和宏表情;
在式(ⅳ)和式(ⅴ)的約束下,經(jīng)過訓(xùn)練之后,微表情與相同標(biāo)簽微表情的距離小于與相同標(biāo)簽宏表情的距離,更小于微表情與不同標(biāo)簽宏表情的距離,跨模態(tài)元組損失函數(shù)如式(ⅵ)所示:
式(ⅵ)中,
而
在訓(xùn)練模型時(shí),反向傳播需要同時(shí)傳遞
i、使第二個(gè)全連接層的輸出經(jīng)過第三個(gè)c維的全連接層后送入一個(gè)用于分類的柔性最大值函數(shù)中,c代表類別數(shù);
j、初始化跨模態(tài)‘宏to微’轉(zhuǎn)換網(wǎng)絡(luò)模型參數(shù),最小批量應(yīng)為3+m的倍數(shù),為了保證訓(xùn)練速度,m=3,即選用3組宏表情負(fù)樣本,最小批量設(shè)為6,初始學(xué)習(xí)率為0.001,在經(jīng)過50000次迭代后降為原來的0.1倍,最大迭代次數(shù)為100000,訓(xùn)練經(jīng)過60000次迭代后基本收斂,兩個(gè)損失函數(shù)的和在0左右穩(wěn)定,最終的學(xué)習(xí)率為0.0001。
根據(jù)本發(fā)明優(yōu)選的,所述步驟c,根據(jù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型,初始化測試參數(shù),將用于測試的樣本送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過網(wǎng)絡(luò)前向傳播之后輸出識(shí)別率,包括步驟如下:
k、固定訓(xùn)練好的跨模態(tài)‘宏to微’轉(zhuǎn)換模型,以測試網(wǎng)絡(luò)為原型,去除第二個(gè)分支,并在第三個(gè)全連接層后面增加一個(gè)準(zhǔn)確度層,形成測試網(wǎng)絡(luò);
l、將用于測試的微表情樣本送入訓(xùn)練好的跨模態(tài)‘宏to微’轉(zhuǎn)換模型中,這里由于是以測試網(wǎng)絡(luò)進(jìn)行測試,因此在前向傳播時(shí)會(huì)忽略掉模型中測試網(wǎng)絡(luò)不存在的部分,即宏表情分支不參與前向傳播的過程,在測試網(wǎng)絡(luò)的準(zhǔn)確度層輸出識(shí)別率。
本發(fā)明的有益效果為:
1、卷積神經(jīng)網(wǎng)絡(luò)能充分地利用微表情的時(shí)空特點(diǎn)提取3維特征,并且卷積神經(jīng)網(wǎng)絡(luò)本身就能訓(xùn)練時(shí)學(xué)習(xí)微表情幀之間的細(xì)微變化,因此提取的特征較已有方法更具有魯棒性。
2、使用宏表情來訓(xùn)練微表情,用這種跨模態(tài)的方法,不僅能通過兩者組合來增加訓(xùn)練的樣本數(shù)量,還能通過學(xué)習(xí)將微表情與宏表情區(qū)分開。
3、cm-m2m網(wǎng)絡(luò)提取全局特征的同時(shí)還與au局部信息結(jié)合起來構(gòu)成總體特征,能夠反映每段微表情的au特征變化。
附圖說明
圖1為本發(fā)明基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情自動(dòng)識(shí)別方法整體流程圖;
圖2(a)為drmf算法定位的66個(gè)人臉特征點(diǎn)的示意圖;
圖2(b)為根據(jù)66個(gè)人臉特征點(diǎn)劃分的36個(gè)au塊的示意圖;
圖3為au檢測模型的結(jié)構(gòu)圖;
圖4為casmei和casmeii在四種方法的對(duì)比效果圖;
具體實(shí)施方式
下面結(jié)合說明書附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的描述,但不限于此。
實(shí)施例
一種基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情自動(dòng)識(shí)別方法,如圖1所示,包括:
a、微表情樣本處理
1)對(duì)微表情數(shù)據(jù)集樣本和宏表情數(shù)據(jù)集樣本進(jìn)行預(yù)處理;包括步驟如下:
a、通過時(shí)間插值模型插值(temporalinterpolationmodel,tim)的方法,分別將微表情數(shù)據(jù)集樣本每一個(gè)圖像序列、宏表情數(shù)據(jù)集樣本每一個(gè)圖像序列插值為f幀,f的取值范圍為[10,32]
b、根據(jù)回歸局部二值特征(regressinglocalbinaryfeatures,rlbf)算法檢測出微表情數(shù)據(jù)集樣本每一個(gè)圖像及宏表情數(shù)據(jù)集樣本每一個(gè)圖像中人臉的27個(gè)特征點(diǎn),包括兩眉毛邊緣兩點(diǎn),兩眼睛四角及中心五個(gè)點(diǎn),鼻子上中下各左右兩點(diǎn)以及鼻尖一點(diǎn),和嘴角兩點(diǎn)和兩嘴唇上下中心的兩點(diǎn),共計(jì)27個(gè)特征點(diǎn),設(shè)定兩眼中心的目標(biāo)距離d為100像素值,將微表情數(shù)據(jù)集樣本每一個(gè)圖像及宏表情數(shù)據(jù)集樣本每一個(gè)圖像進(jìn)行等比縮放,使兩眼中心的距離為d,并將圖像旋轉(zhuǎn)使兩眼中心處于水平位置,相應(yīng)且f為整數(shù);f=16,是為了提高訓(xùn)練效率的同時(shí)保證訓(xùn)練效果;27個(gè)特征點(diǎn)的位置也進(jìn)行了變換;
c、假設(shè)以d的s倍切割微表情數(shù)據(jù)集樣本每一個(gè)圖像及宏表情數(shù)據(jù)集樣本每一個(gè)圖像,s=2.3,根據(jù)步驟b變換后的特征點(diǎn)中鼻尖的位置,向其上下左右四個(gè)方向分別延伸
2)構(gòu)建跨模態(tài)元組損失函數(shù)的樣本對(duì);具體構(gòu)建如下:
以微表情為參考樣本(即訓(xùn)練目標(biāo)),在微表情數(shù)據(jù)集樣本和宏表情數(shù)據(jù)集樣本中分別選取一個(gè)相同標(biāo)簽的樣本作為正樣本,例如同為“高興”標(biāo)簽的微表情樣本和宏表情樣本,即一個(gè)微表情正樣本、一個(gè)宏表情正樣本;在宏表情數(shù)據(jù)集樣本中選取m個(gè)不同標(biāo)簽的樣本作為宏表情負(fù)樣本,一個(gè)參考樣本、一個(gè)微表情正樣本、一個(gè)宏表情正樣本和m個(gè)宏表情負(fù)樣本共同組成跨模態(tài)元組損失函數(shù)樣本的一個(gè)大小為3+m的批量。本實(shí)施例選取了m組標(biāo)簽不同的宏表情為負(fù)樣本對(duì),這樣不僅能增強(qiáng)訓(xùn)練損失函數(shù)的魯棒性,還能有助于其穩(wěn)定收斂,這里m代表負(fù)樣本的個(gè)數(shù)。
為了增加可訓(xùn)練樣本的數(shù)量,本發(fā)明根據(jù)微表情和宏表情的關(guān)聯(lián),將宏表情作為正負(fù)樣本與微表情組成元組對(duì)來訓(xùn)練微表情。
b、跨模態(tài)‘宏to微’轉(zhuǎn)換模型訓(xùn)練
3)訓(xùn)練au檢測網(wǎng)絡(luò),初始化au檢測網(wǎng)絡(luò)參數(shù),以基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò)訓(xùn)練一個(gè)柔性最大值損失函數(shù)softmaxlossfunction;包括步驟如下:
d、構(gòu)建所述基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò),如圖3所示:以基于原始alexnet的全卷積網(wǎng)絡(luò)為原型,將其拓展為基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò):將全卷積層拓展到3維空間構(gòu)成時(shí)空全卷積層;通過時(shí)空全卷積層3d卷積后的特征圖大小為k×h×w×l,k、h、w、l分別代表卷積核數(shù)量、長、寬、高,再將其通過一個(gè)卷積核大小為1×1×1的3d卷積層,即生成一個(gè)4維的熱度圖,用來描述au特征點(diǎn),所述全卷積層是將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)最后的全連接層替換為卷積核大小為1×1的卷積層,這樣經(jīng)過一個(gè)反卷積層輸出生成一個(gè)和原圖一樣大小的熱度圖;
e、通過區(qū)分性響應(yīng)圖擬合(discriminativeresponsemapfitting,drmf)算法識(shí)別出人臉的66個(gè)特征點(diǎn),如圖2(a)所示,根據(jù)人臉的66個(gè)特征點(diǎn)將人臉圖像劃分為36個(gè)au塊,如圖2(b)所示,劃分方法參見y.-j.liu,j.-k.zhang,w.-j.yan,s.-j.wang,g.zhao,andx.fu,“amaindirectionalmeanopticalflowfeatureforspontaneousmicro-expressionrecognition,”ieeetransactionsonaffectivecomputing,vol.7,no.4,pp.299-310,2016.
其中有22個(gè)au塊存在于所有的微表情標(biāo)簽,將此22個(gè)au塊突出顯示,其它au塊以及不相關(guān)的部分都定義為背景,訓(xùn)練au檢測網(wǎng)絡(luò),柔性最大值損失函數(shù)lau如式(ⅰ)所示:
式(ⅰ)中,σh,w,l(ai)為h、w、l對(duì)應(yīng)的柔性最大值函數(shù)(softmaxfunction),
f、根據(jù)構(gòu)建的所述基于時(shí)空全卷積層的au檢測網(wǎng)絡(luò)進(jìn)行樣本訓(xùn)練,每一個(gè)迭代的最小批量為1,初始學(xué)習(xí)率為0.001,設(shè)置為每30000次迭代后學(xué)習(xí)率降為原來的0.1倍。但是在經(jīng)過10000次迭代后損失函數(shù)趨于穩(wěn)定,因此最終學(xué)習(xí)率維持初始值不變。
4)固定au檢測網(wǎng)絡(luò)參數(shù),初始化跨模態(tài)‘宏to微’轉(zhuǎn)換模型參數(shù),訓(xùn)練跨模態(tài)‘宏to微’轉(zhuǎn)換模型,通過訓(xùn)練同時(shí)減少一個(gè)跨模態(tài)元組損失函數(shù)和一個(gè)柔性最大值損失函數(shù)的值;包括步驟如下:
g、構(gòu)建跨模態(tài)‘宏to微’轉(zhuǎn)換模型,跨模態(tài)‘宏to微’轉(zhuǎn)換模型的第一個(gè)分支包括參考樣本和微表情正樣本,第二個(gè)分支包括宏表情正樣本和m個(gè)宏表情負(fù)樣本,第一個(gè)分支和第二個(gè)分支采用相同的網(wǎng)絡(luò)結(jié)構(gòu),其以谷歌facenet的nn1網(wǎng)絡(luò)為基礎(chǔ)并通過替換二維的卷積層和池化層為三維的方式構(gòu)成可用于訓(xùn)練圖像序列的網(wǎng)絡(luò);第三個(gè)分支即訓(xùn)練好的au檢測網(wǎng)絡(luò);在訓(xùn)練跨模態(tài)‘宏to微’轉(zhuǎn)換模型的第一個(gè)和第二個(gè)分支時(shí),將訓(xùn)練好的au檢測網(wǎng)絡(luò)參數(shù)進(jìn)行固定,以輸出au特征點(diǎn),并將其與第一個(gè)和第二個(gè)分支輸出的全局特征進(jìn)行拼接,再通過4096維第一個(gè)全連接層、4096維第二個(gè)全連接層;
h、構(gòu)建跨模態(tài)元組損失函數(shù),將第二個(gè)全連接層輸出的4096維向量經(jīng)過一個(gè)l2歸一化后的輸出作為跨模態(tài)元組損失函數(shù)的輸入,使所述一個(gè)參考樣本、一個(gè)微表情正樣本、一個(gè)宏表情正樣本和m個(gè)宏表情負(fù)樣本之間滿足如式(ⅱ)、式(ⅲ)所示的關(guān)系式:
式(ⅱ)、式(ⅲ)中,f(xa),
式(ⅳ)中,j=1,2,j=1代表微表情正樣本,j=2代表宏表情正樣本;
設(shè)定式(ⅳ)為跨模態(tài)元組損失函數(shù),經(jīng)過訓(xùn)練后,使得參考樣本a與微表情正樣本p1、宏表情正樣本p2的距離都小于參考樣本a與宏表情負(fù)樣本nk的距離;
通過式(ⅴ)約束,使得微表情與微表情之間的關(guān)系要近于微表情和宏表情,式(ⅴ)如下所示:
式(ⅴ)中,β為(0,1)區(qū)間內(nèi)平衡微表情和宏表情關(guān)系的邊緣值;微表情和宏表情畢竟作為兩種不同的表情,屬于兩種模態(tài),在這兩種模態(tài)之間,我們通過添加另一個(gè)約束式(ⅴ)將兩種模態(tài)加以區(qū)分得到最后的目的,既然微表情作為參考,于是希望微表情與微表情之間的關(guān)系要近于微表情和宏表情;
在式(ⅳ)和式(ⅴ)的約束下,經(jīng)過訓(xùn)練之后,微表情與相同標(biāo)簽微表情的距離小于與相同標(biāo)簽宏表情的距離,更小于微表情與不同標(biāo)簽宏表情的距離,跨模態(tài)元組損失函數(shù)如式(ⅵ)所示:
式(ⅵ)中,
而
在訓(xùn)練模型時(shí),反向傳播需要同時(shí)傳遞
i、使第二個(gè)全連接層的輸出經(jīng)過第三個(gè)c維的全連接層后送入一個(gè)用于分類的柔性最大值函數(shù)中,c代表類別數(shù);
j、初始化跨模態(tài)‘宏to微’轉(zhuǎn)換網(wǎng)絡(luò)模型參數(shù),最小批量應(yīng)為3+m的倍數(shù),為了保證訓(xùn)練速度,m=3,即選用3組宏表情負(fù)樣本,最小批量設(shè)為6,初始學(xué)習(xí)率為0.001,在經(jīng)過50000次迭代后降為原來的0.1倍,最大迭代次數(shù)為100000,訓(xùn)練經(jīng)過60000次迭代后基本收斂,兩個(gè)損失函數(shù)的和在0左右穩(wěn)定,最終的學(xué)習(xí)率為0.0001。
c、微表情識(shí)別
根據(jù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型,初始化測試參數(shù),將用于測試的樣本送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過網(wǎng)絡(luò)前向傳播之后輸出識(shí)別率。包括步驟如下:
k、固定訓(xùn)練好的跨模態(tài)‘宏to微’轉(zhuǎn)換模型,以測試網(wǎng)絡(luò)為原型,去除第二
l、將用于測試的微表情樣本送入訓(xùn)練好的跨模態(tài)‘宏to微’轉(zhuǎn)換模型中,這個(gè)分支,并在第三個(gè)全連接層后面增加一個(gè)準(zhǔn)確度層,形成測試網(wǎng)絡(luò);里由于是以測試網(wǎng)絡(luò)進(jìn)行測試,因此在前向傳播時(shí)會(huì)忽略掉模型中測試網(wǎng)絡(luò)不存在的部分,即宏表情分支不參與前向傳播的過程,在測試網(wǎng)絡(luò)的準(zhǔn)確度層輸出識(shí)別率。
本實(shí)施例宏to微轉(zhuǎn)換模型的第一個(gè)和第二個(gè)分支將微表情和宏表情分開訓(xùn)練并通過共享兩者的權(quán)值提高訓(xùn)練效率,而第三個(gè)動(dòng)作單元(au)的分支用時(shí)空全卷積網(wǎng)絡(luò)提取人臉重要au的位置。本發(fā)明還提供了跨模態(tài)元組損失函數(shù)將并au的位置作為局部信息,來增強(qiáng)特征對(duì)au的魯棒性,并提取微表情特有的特征。最后,在識(shí)別階段,本發(fā)明將測試樣本送入訓(xùn)練好的‘宏to微轉(zhuǎn)換模型’網(wǎng)絡(luò),經(jīng)過前向傳播后在網(wǎng)絡(luò)的一個(gè)準(zhǔn)確度層中輸出識(shí)別率。
利用本實(shí)施例一種基于深度學(xué)習(xí)的‘宏to微轉(zhuǎn)換模型’的微表情識(shí)別方法在中科院自動(dòng)化的兩個(gè)微表情數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)casmei和casmeii,本實(shí)施例的cm-m2m方法的宏表情選用ck+數(shù)據(jù)集,分別與casmei和casmeii構(gòu)成樣本對(duì),為了保證對(duì)比實(shí)驗(yàn)的公平性,cm-m2m在這兩個(gè)數(shù)據(jù)集上訓(xùn)練和測試的樣本劃分同樣應(yīng)用在這些方法中,即將數(shù)據(jù)集分成五組,每次取一組測試剩下的四組進(jìn)行訓(xùn)練,最后的結(jié)果取平均值。
從圖4可以看出,本實(shí)施例提供的微表情識(shí)別方法在兩個(gè)數(shù)據(jù)集上都達(dá)到了最高的識(shí)別率,其中casmeii的識(shí)別率最高為90.3%,比lbp-top的最好效果高出26.8%,是面部動(dòng)態(tài)圖(fdm)識(shí)別率的兩倍多,并且比主定向平均光流特性(mdmo)方法分別高出33.5%,另外在casmei上的實(shí)驗(yàn)效果也都高于其他三種方法,這說明本實(shí)施例提供的微表情識(shí)別模型比特征提取方法獲得了質(zhì)的跨越,識(shí)別效果高出傳統(tǒng)方法20%以上。