本申請(qǐng)涉及用于人臉識(shí)別的系統(tǒng)及其方法。
背景技術(shù):
近來(lái),深度學(xué)習(xí)在人臉識(shí)別方面取得巨大成功并且明顯優(yōu)于使用低級(jí)特征的系統(tǒng)。有兩個(gè)值得注意的突破。第一個(gè)是利用深度神經(jīng)網(wǎng)絡(luò)的大規(guī)模人臉識(shí)別。通過(guò)將人臉圖像分類(lèi)成數(shù)千或甚至數(shù)百萬(wàn)個(gè)身份,最后的隱藏層形成對(duì)身份具有高度鑒別性的特征。第二個(gè)是利用識(shí)別和驗(yàn)證任務(wù)來(lái)監(jiān)督深度神經(jīng)網(wǎng)絡(luò)。驗(yàn)證任務(wù)將同一身份的特征之間的距離最小化,并且減小個(gè)人內(nèi)部的變化。通過(guò)組合從很多人臉區(qū)域?qū)W習(xí)的特征,聯(lián)合的識(shí)別-驗(yàn)證在最廣泛評(píng)估的lfw人臉識(shí)別數(shù)據(jù)集上實(shí)現(xiàn)當(dāng)前現(xiàn)有技術(shù)水平的99.15%人臉驗(yàn)證準(zhǔn)確性。
已經(jīng)致力于首先學(xué)習(xí)屬性分類(lèi)器,隨后使用屬性預(yù)測(cè)進(jìn)行人臉識(shí)別。此外,已經(jīng)廣泛地研究了基于稀疏表示(sparserepresentation-based)的分類(lèi)并在具有遮擋(occlusions)的情況下進(jìn)行的人臉識(shí)別。還已經(jīng)提出了魯棒玻爾茲曼機(jī)來(lái)區(qū)別損壞的像素并且學(xué)習(xí)潛在表示(representation)。這些方法設(shè)計(jì)明確地處理遮擋的部件。
技術(shù)實(shí)現(xiàn)要素:
目前已有的是首先學(xué)習(xí)屬性分類(lèi)器,隨后使用屬性預(yù)測(cè)進(jìn)行人臉識(shí)別,但本申請(qǐng)嘗試相反過(guò)程:首先預(yù)測(cè)身份,隨后使用學(xué)習(xí)的身份相關(guān)特征來(lái)預(yù)測(cè)屬性??梢杂^察到,神經(jīng)網(wǎng)絡(luò)的較高層中的特征對(duì)身份和身份相關(guān)屬性(諸如,性別和種族)具有高度選擇性。當(dāng)呈現(xiàn)身份(其可以在訓(xùn)練數(shù)據(jù)之外)或?qū)傩詴r(shí),可以識(shí)別不斷被激勵(lì)的特征的子集,并且也可以識(shí)別不斷被抑制的特征的另一子集。這兩個(gè)子集中的任一子集的特征有力地指示該身份或?qū)傩缘拇嬖?不存在,并且本申請(qǐng)表明僅單個(gè)特征對(duì)特定身份或?qū)傩缘淖R(shí)別也具有較高的準(zhǔn)確性。換言之,深度神經(jīng)網(wǎng)絡(luò)中的特征在身份和屬性上具有稀疏性。盡管并沒(méi)有教導(dǎo)本申請(qǐng)中的深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練期間區(qū)分屬性,但它們已經(jīng)隱式地學(xué)習(xí)此類(lèi)高級(jí)概念。和廣泛使用的手工制作的特征(諸如,高維lbp(局部二值模式))相比,直接使用由深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征在身份相關(guān)屬性方面具有高得多的分類(lèi)準(zhǔn)確性。
與傳統(tǒng)的基于稀疏表示的分類(lèi)相反,本申請(qǐng)表明,在訓(xùn)練期間未添加人工遮擋模式(pattern)的情況下,由神經(jīng)網(wǎng)絡(luò)人臉圖像訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)對(duì)遮擋具有隱式編碼不變性。
在本申請(qǐng)中觀察到,由深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征的稀疏性是適度的。針對(duì)輸入的人臉圖像,激活頂部隱藏層中的特征的大約一半。另一方面,在大約一半的人臉圖像上激活每個(gè)特征。此類(lèi)稀疏性分布可以最大化深度神經(jīng)網(wǎng)絡(luò)的鑒別能力以及圖像之間的距離。不同身份激活特征的不同子集。同一身份的兩個(gè)圖像具有類(lèi)似激活模式。這激勵(lì)本申請(qǐng)將深度神經(jīng)網(wǎng)絡(luò)的頂部隱藏層中的實(shí)值特征二值化,并且使用二進(jìn)制代碼進(jìn)行識(shí)別。結(jié)果取得了預(yù)料不到的效果。lfw的驗(yàn)證準(zhǔn)確性只稍微下降少于1%。它對(duì)因海量存儲(chǔ)而造成的大規(guī)模人臉?biāo)阉鳟a(chǎn)生顯著影響,并且節(jié)省了計(jì)算時(shí)間。這也表明,二值激活模式比深度神經(jīng)網(wǎng)絡(luò)中的激活幅度重要。
在本申請(qǐng)的一方面,公開(kāi)用于人臉識(shí)別的設(shè)備。所述設(shè)備可以包括特征提取器和識(shí)別單元。特征提取器被配置成具有多個(gè)級(jí)聯(lián)的特征提取模塊,其中特征提取模塊中的每個(gè)包括:卷積層,所述卷積層用于從輸入人臉圖像中或者從在多個(gè)級(jí)聯(lián)的特征提取模塊中的前一特征提取模塊中提取的特征中提取局部特征;以及全連接層,全連接層連接到相同特征提取模塊中的卷積層并且從提取的局部特征中提取全局特征。根據(jù)提取的全局特征之間的距離,識(shí)別器用于確定:輸入圖像中的兩個(gè)人臉圖像是否來(lái)自同一身份,或者輸入圖像中作為搜索人臉圖像(probefaceimage)的一個(gè)圖像與包括所述輸入圖像的人臉圖像冊(cè)中的其中一個(gè)圖像是否屬于同一身份。
在本申請(qǐng)的一個(gè)實(shí)施例中,級(jí)聯(lián)的特征提取模塊中的第一特征提取模塊中的卷積層連接到輸入人臉圖像,并且后續(xù)的特征提取模塊中的每個(gè)的卷積層連接到前一特征提取模塊中的卷積層。每個(gè)特征提取模塊中的全連接層連接到同一特征提取模塊中的卷積層。
所述設(shè)備還可以包括訓(xùn)練器,所述訓(xùn)練器被配置成通過(guò)將識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào)反向傳播通過(guò)級(jí)聯(lián)的特征提取模塊來(lái)更新同一特征提取模塊中的每個(gè)卷積層與對(duì)應(yīng)全連接層之間的連接上的神經(jīng)元權(quán)值。
更新的過(guò)程可以包括:分別將兩個(gè)人臉圖像輸入到神經(jīng)網(wǎng)絡(luò),得到兩個(gè)人臉圖像中的每個(gè)的特征表示;通過(guò)將神經(jīng)網(wǎng)絡(luò)的每個(gè)全連接層中的、每個(gè)人臉圖像的特征表示分類(lèi)到多個(gè)身份中的一個(gè)來(lái)計(jì)算識(shí)別誤差;通過(guò)驗(yàn)證每個(gè)全連接層中的兩個(gè)人臉圖像的各自特征表示是否來(lái)自同一身份來(lái)計(jì)算驗(yàn)證誤差,識(shí)別誤差和驗(yàn)證誤差分別被視作識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào);以及將所有的識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào)反向傳播通過(guò)神經(jīng)網(wǎng)絡(luò),以便更新同一特征提取模塊中的每個(gè)卷積層與對(duì)應(yīng)全連接層之間的連接的神經(jīng)元權(quán)值。
本申請(qǐng)發(fā)現(xiàn)并且證明在之后的特征提取模塊中提取的特征的三個(gè)性質(zhì),即,稀疏性、選擇性和穩(wěn)健性,它們對(duì)人臉識(shí)別都很關(guān)鍵,其中在每個(gè)人臉圖像的特征具有大約一半零值和一半正值以及每個(gè)特征在所有的人臉圖像上具有大約一半的時(shí)間為零并且一半的時(shí)間為正,在這種意義上說(shuō)特征具有稀疏性;對(duì)于給定身份或含有給定身份相關(guān)屬性的所有人臉圖像,具有取正值(被激活)或零值(被抑制)的特征,在這個(gè)意義上說(shuō),特征對(duì)于身份和身份相關(guān)屬性(諸如,性別和種族)具有選擇性;特征對(duì)于圖像損壞(諸如,遮擋)具有穩(wěn)健性,其中在適度圖像損壞的情況下,特征值大部分保持不變。
附圖說(shuō)明
下文參考附圖描述本發(fā)明的示例性非限制實(shí)施例。附圖是說(shuō)明性的,并且一般不按確切比例。不同圖上的相同或類(lèi)似元件引用相同的附圖標(biāo)號(hào)。
圖1是示出符合一些公開(kāi)實(shí)施例的用于人臉識(shí)別的設(shè)備的示意圖。
圖2是示出在之后的特征提取模塊中提取的特征的稀疏性、選擇性和穩(wěn)健性的示意圖。
圖3是示出特征提取器中的級(jí)聯(lián)特征提取模塊的結(jié)構(gòu)以及訓(xùn)練器中的輸入人臉圖像和監(jiān)督信號(hào)的示意圖。
圖4是示出單獨(dú)人臉圖像上的激活特征(神經(jīng)元)的稀疏性以及在所有人臉圖像上激活的單獨(dú)特征(神經(jīng)元)的稀疏性的示意直方圖。
圖5是示出特定身份的人臉圖像上的選擇性激活和抑制的示意直方圖。
圖6是示出含有特定屬性的人臉圖像上的選擇性激活和抑制的示意直方圖。
圖7是示出用來(lái)測(cè)試由特征提取器提取的特征對(duì)圖像損壞的穩(wěn)健性的具有隨機(jī)塊遮擋的人臉圖像的示意圖。
圖8是示出在各種程度的隨機(jī)塊遮擋的情況下單獨(dú)身份的人臉圖像上的平均特征激活的示意圖。
圖9是示出符合一些公開(kāi)實(shí)施例的如圖1所示的訓(xùn)練器的示意流程圖。
圖10是示出符合一些公開(kāi)實(shí)施例的如圖1所示的特征提取器的示意流程圖。
圖11是示出符合一些公開(kāi)實(shí)施例的如圖1所示的識(shí)別器的示意流程圖。
具體實(shí)施方式
現(xiàn)在將詳細(xì)地參考本發(fā)明的一些具體實(shí)施例,包括發(fā)明人預(yù)期的用于實(shí)施本發(fā)明的最佳模式。附圖中示出這些具體實(shí)施例的示例。盡管結(jié)合這些具體實(shí)施例描述本發(fā)明,但應(yīng)理解,并不意味著將本發(fā)明限于這里描述的實(shí)施例。相反,意圖涵蓋可以包括在如所附權(quán)利要求書(shū)限定的本發(fā)明的精神和范圍內(nèi)的替代方案、修改和等效物。以下描述中列出了許多具體細(xì)節(jié),以便提供對(duì)本申請(qǐng)的全面理解??梢栽跊](méi)有這些具體細(xì)節(jié)中的一些或全部的情況下實(shí)踐本發(fā)明。在其他情況下,沒(méi)有詳細(xì)地描述公知的過(guò)程操作,以免不必要地使對(duì)本發(fā)明的理解產(chǎn)生障礙。
本文中使用的術(shù)語(yǔ)僅僅是出于描述特定實(shí)施例的目的,而不意圖限制本發(fā)明。除非上下文另有明確指出,否則本文中使用的單數(shù)形式“一”、“一個(gè)”和“所述”也可以包括復(fù)數(shù)形式。還應(yīng)理解,本說(shuō)明書(shū)中使用的術(shù)語(yǔ)“包括”和/或“包括”用于說(shuō)明存在所述特征、整數(shù)、步驟、操作、元件和/或部件,但并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、部件和/或它們的組合。
如本領(lǐng)域的技術(shù)人員將了解,本發(fā)明可以體現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可以采用以下形式:全硬件實(shí)施例、全軟件實(shí)施例(包括固件、常駐軟件、微碼等),或者將在本文中通常都可稱(chēng)為“電路”、“裝置”、“模塊”或“系統(tǒng)”的軟件和硬件方面組合起來(lái)的實(shí)施例。此外,本發(fā)明可以采用計(jì)算機(jī)程序產(chǎn)品的形式,所述計(jì)算機(jī)程序產(chǎn)品體現(xiàn)在任何有形的表達(dá)介質(zhì)中,所述介質(zhì)具有體現(xiàn)在介質(zhì)中的計(jì)算機(jī)可用程序代碼。
還應(yīng)理解,諸如第一和第二等等相關(guān)術(shù)語(yǔ)(若有的話(huà))單獨(dú)使用,以將一個(gè)實(shí)體、項(xiàng)目或動(dòng)作與另一個(gè)區(qū)分開(kāi)來(lái),而未必要求或暗示這些實(shí)體、項(xiàng)目或動(dòng)作之間的任何實(shí)際關(guān)系或順序。
本發(fā)明功能中的很多功能和本發(fā)明原理中的很多原理在實(shí)施時(shí)由軟件或集成電路(ic)最好地支持,諸如,數(shù)字信號(hào)處理器和軟件或者專(zhuān)用ic。盡管存在可能大量的努力和由例如可用時(shí)間、當(dāng)前技術(shù)和經(jīng)濟(jì)考慮因素激勵(lì)的很多設(shè)計(jì)選擇,但預(yù)期本領(lǐng)域的技術(shù)人員在由本文中公開(kāi)的概念和原理引導(dǎo)時(shí)將容易能夠利用最少的實(shí)驗(yàn)生成此類(lèi)軟件指令或ic。因此,為了簡(jiǎn)潔并且最小化模糊根據(jù)本發(fā)明的原理和概念的任何風(fēng)險(xiǎn),此類(lèi)軟件和ic的進(jìn)一步論述(若有的話(huà))將限于優(yōu)選實(shí)施例所使用的必要原理和概念。
圖1是示出符合一些公開(kāi)實(shí)施例的用于人臉識(shí)別的示例性設(shè)備100的示意圖。如圖所示,設(shè)備100可以包括特征提取器10和識(shí)別器20。特征提取器10被配置成從輸入人臉圖像中提取特征。在本申請(qǐng)的一個(gè)實(shí)施例中,特征提取器10可以包括神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)可以構(gòu)造成具有多個(gè)級(jí)聯(lián)的特征提取模塊。級(jí)聯(lián)中的每個(gè)特征提取模塊包括卷積層和全連接層。級(jí)聯(lián)的特征提取模塊可以由軟件、集成電路(ic)或它們的組合實(shí)施。圖3示出特征提取器10中的級(jí)聯(lián)的特征提取模塊的結(jié)構(gòu)的示意圖。如圖所示,級(jí)聯(lián)的特征提取模塊中的第一特征提取模塊中的卷積層連接到輸入人臉圖像,并且后續(xù)的每個(gè)特征提取模塊中的卷積層連接到前一特征提取模塊中的卷積層。每個(gè)特征提取模塊中的全連接層連接到同一特征提取模塊中的卷積層。
參考圖1,為了使神經(jīng)網(wǎng)絡(luò)能夠有效地工作,設(shè)備100還包括訓(xùn)練器30,訓(xùn)練器30被配置成通過(guò)將識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào)反向傳播通過(guò)級(jí)聯(lián)的特征提取模塊來(lái)更新用于以下連接的神經(jīng)權(quán)值:
第一特征提取模塊中的卷積層與含有輸入人臉圖像的輸入層之間的連接;
第二到最后特征提取模塊中的每個(gè)卷積層與前一特征提取模塊中的對(duì)應(yīng)卷積層之間的連接;以及
同一特征提取模塊中的每個(gè)卷積層與對(duì)應(yīng)全連接層之間的連接,
從而使得在級(jí)聯(lián)的特征提取模塊中的最后/最高特征提取模塊中提取的特征具有稀疏性、選擇性和穩(wěn)健性,這將在之后論述。
識(shí)別器20可由軟件、集成電路(ic)或它們的組合實(shí)施,并且被配置成計(jì)算從不同的人臉圖像中提取的特征之間的距離,以確定兩個(gè)人臉圖像是否來(lái)自同一身份以用于人臉驗(yàn)證,或者輸入圖像中作為搜索人臉圖像的其中一個(gè)圖像與包括所述輸入圖像的人臉圖像冊(cè)中的一個(gè)圖像是否屬于同一身份。
特征提取器10
特征提取器10含有多個(gè)級(jí)聯(lián)的特征提取模塊,并且操作以分層次地從輸入人臉圖像中提取特征。圖3示出特征提取器10中的級(jí)聯(lián)的特征提取模塊的結(jié)構(gòu)的示例,例如,所述特征提取器包括四個(gè)級(jí)聯(lián)的特征提取模塊,每個(gè)特征提取模塊包括卷積層conv-n和全連接層fc-n,其中n=1、……、4。特征提取器10的第一特征提取模塊中的卷積層conv-1連接到輸入人臉圖像,作為輸入層,而特征提取器10的后續(xù)的每個(gè)特征提取模塊中的卷積層conv-n(n>1)連接到前一特征提取模塊中的卷積層conv-(n-1)。特征提取器10的每個(gè)特征提取模塊中的全連接層fc-n連接到同一特征提取模塊中的卷積層conv-n。
圖10是示出特征提取器10中的特征提取過(guò)程的示意流程圖。在步驟101中,特征提取器10將輸入人臉圖像前向傳播通過(guò)特征提取器10的所有特征提取模塊中的卷積層。隨后,在步驟102中,特征提取器10將卷積層中的每個(gè)的輸出前向傳播到同一特征提取模塊內(nèi)的對(duì)應(yīng)全連接層。最后,在步驟103中,它將來(lái)自全連接層中的最后一個(gè)全連接層的輸出/表示作為特征,如下文論述。
特征提取器10中的卷積層被配置成從輸入圖像(用于第一卷積層)或特征圖(如本領(lǐng)域已知的那樣,其是前一卷積層(其后面是最大池化)的輸出特征圖)中提取局部人臉特征(即,從輸入圖像或輸入特征的局部區(qū)域中提取的特征),以形成當(dāng)前卷積層的輸出特征圖。每個(gè)特征圖是以2d組織的某一種特征。在前一卷積層(緊接著是最大池化)和當(dāng)前卷積層中相應(yīng)的輸入特征圖與輸出特征圖之間具有相同的神經(jīng)連接權(quán)值集合w的情況下,相同輸出特征圖中或相同特征圖的局部區(qū)域中的特征從輸入特征圖中提取。每個(gè)卷積層中的卷積操作可以表示為:
其中xi和yj分別是第i個(gè)輸入特征圖和第j個(gè)輸出特征圖。kij是第i個(gè)輸入特征圖與第j個(gè)輸出特征圖之間的卷積核。*表示卷積。bj是第j個(gè)輸出特征圖的偏差。在本文中,將relu非線(xiàn)性函數(shù)y=max(0,x)用于神經(jīng)元。convnets的較高卷積層中的權(quán)值是局部共享的。r表示共享權(quán)值的局部區(qū)域。
每個(gè)卷積層之后可以是最大池化,最大池化用公式表示成:
其中第i個(gè)輸出特征圖yi中的每個(gè)神經(jīng)元在第i個(gè)輸入特征圖xi中的s×s非重疊局部區(qū)域上池化。
特征提取器10中的全連接層中的每個(gè)被配置成從獲取自同一特征提取模塊上的卷積層的特征圖中提取全局特征(從輸入特征圖的整個(gè)區(qū)域中提取的特征)。換言之,全連接層fc-n從卷積層conv-n中提取全局特征。全連接層也用作在訓(xùn)練期間接收監(jiān)督信號(hào)并且在特征提取期間輸出特征的接口。全連接層可以用公式表示成:
其中xi表示前一卷積層(緊接著是最大池化)中的第i個(gè)神經(jīng)元的輸出。yj表示當(dāng)前的全連接層中的第j個(gè)神經(jīng)元的輸出。wi,j是前一卷積層(緊接著是最大池化)中的第i個(gè)神經(jīng)元與當(dāng)前的全連接層中的第j個(gè)神經(jīng)元之間的連接上的權(quán)值。bj是當(dāng)前的全連接層中的第j個(gè)神經(jīng)元的偏差。max(0,x)是relu非線(xiàn)性。
在特征提取器10的最后/最高特征提取模塊中提取的特征(例如,如圖3所示的fc-4層中的那些)具有稀疏性、選擇性和穩(wěn)健性:在每個(gè)人臉圖像的特征具有大約一半零值和一半正值以及每個(gè)特征在所有的人臉圖像上具有大約一半的時(shí)間為零并且一半的時(shí)間為正,從這兩點(diǎn)上說(shuō)特征具有稀疏性;對(duì)于給定身份或含有給定身份相關(guān)屬性的所有人臉圖像具有取正值(被激活)或零值(被抑制)的特征,在這個(gè)意義上說(shuō)特征對(duì)于身份和身份相關(guān)屬性(諸如,性別和種族)具有選擇性;特征對(duì)于圖像損壞(諸如,遮擋)具有穩(wěn)健性,其中在適度圖像損壞的情況下,特征值大部分保持不變。稀疏特征可以通過(guò)與閾值進(jìn)行比較而轉(zhuǎn)換成二進(jìn)制代碼,其中二進(jìn)制代碼可以用于人臉識(shí)別。
圖2示出在fc-4層中提取的特征的三個(gè)性質(zhì):稀疏性、選擇性和穩(wěn)健性。圖2左側(cè)示出布什(bush)的三個(gè)人臉圖像和鮑威爾(powell)的一個(gè)人臉圖像上的特征。布什的第二個(gè)人臉圖像部分損壞。在本申請(qǐng)的一個(gè)實(shí)施例中,fc-4層中有512個(gè)特征,圖2示出了從這些特征中對(duì)32個(gè)進(jìn)行二次抽樣,以示作示例。特征在每個(gè)人臉圖像上稀疏地激活,其中大約一半的特征為正并且一半為零。同一身份的人臉圖像的特征具有類(lèi)似激活模式,而針對(duì)不同身份則不同。特征的穩(wěn)健性在于:當(dāng)呈現(xiàn)遮擋時(shí),如在布什的第二個(gè)人臉上示出,特征的激活模式大部分保持不變。圖2右側(cè)示出所有人臉圖像(作為背景)、屬于布什的所有圖像、具有屬性“男性”的所有圖像和具有屬性“女性”的所有圖像上的一些選擇特征的激活直方圖,特征通常在約一半的人臉圖像上被激活。但對(duì)于屬于特定屬性身份的所有圖像,這些特征可以持續(xù)地被激活(或不激活)。在這個(gè)意義上說(shuō),特征對(duì)身份和屬性具有稀疏性和選擇性。
圖像上的適度稀疏性使不同身份的人臉可最大程度地區(qū)分開(kāi),而特征上的適度稀疏性使它們具有最大鑒別能力。圖4左側(cè)示出驗(yàn)證數(shù)據(jù)集中的46594個(gè)(例如)人臉圖像中的每個(gè)的被激活(正)特征數(shù)量的直方圖,并且圖4右側(cè)示出每個(gè)特征被激活(為正)的圖像的數(shù)量的直方圖。評(píng)估基于由fc-4層提取的特征。在本申請(qǐng)的一個(gè)實(shí)施例中,與fc-4層中的全部512個(gè)(例如)特征相比,圖像上的被激活的神經(jīng)元的數(shù)量的平均和標(biāo)準(zhǔn)偏差是292±34,而與全部46594個(gè)驗(yàn)證圖像相比,每個(gè)特征被激活的圖像的數(shù)量的平均標(biāo)準(zhǔn)偏差是26565±5754,它們都大約在所有特征/圖像的一半上居中。
激活模式(即,特征是否被激活(具有正值))比精確的激活值更重要。通過(guò)取閾值來(lái)將特征激活轉(zhuǎn)換成二進(jìn)制代碼只犧牲了少于1%的人臉驗(yàn)證準(zhǔn)確性。這表明特征的激勵(lì)或抑制狀態(tài)已含有大多數(shù)的辨別性信息。二進(jìn)制代碼對(duì)存儲(chǔ)而言比較經(jīng)濟(jì)并且快速用于圖像搜索。
圖5和圖6分別示出給定的身份和屬性的特征的激活直方圖的示例。給定的身份的直方圖呈現(xiàn)出較強(qiáng)的選擇性。針對(duì)給定的身份,一些特征持續(xù)被激活,其中直方圖分布在大于零的值中,如圖5中的前兩行所示;而一些其他特征持續(xù)被抑制,其中直方圖累積在零或較小值處,如圖5中的后兩行所示。至于屬性,圖7的每行示出一些相關(guān)屬性(與性別、種族和年齡相關(guān)的那些屬性)上的單個(gè)特征的直方圖。在每一行左側(cè)給定的每個(gè)屬性上,所選擇的特征是被激活的。如圖6所示,特征對(duì)性別、種族和某些年齡(諸如,兒童和老年人)呈現(xiàn)出較強(qiáng)的選擇性,其中特征針對(duì)給定的屬性被有力地激活,而針對(duì)相同種類(lèi)的其他屬性被抑制。針對(duì)一些其他屬性,諸如,青年和中年人,選擇性較弱,其中沒(méi)有單獨(dú)針對(duì)這些屬性的每個(gè)激活特征,這是因?yàn)槟挲g并不確切地對(duì)應(yīng)于身份。例如,在人臉識(shí)別中,特征對(duì)于在青年和中年拍攝的同一身份具有不變性。
圖7和圖8示出在后續(xù)特征提取模塊(fc-4層)中提取的特征對(duì)圖像損壞的穩(wěn)健性。人臉圖像被從10×10到70×70的各種大小的隨機(jī)塊遮擋,如圖7所示。圖8示出具有隨機(jī)塊遮擋的圖像上的平均特征激活,其中每一列示出了在其頂部給定的單個(gè)身份的人臉圖像上的平均激活,其中每一行的左側(cè)給定各種程度的遮擋。特征值映射到顏色圖,其中暖色表示正值并且冷色表示零或較小值。每一列中的圖中的特征的順序分別由每個(gè)身份的原始人臉圖像上的特征激活值分類(lèi)。如可以在圖8中看出,激活模式大部分保持不變(其中多數(shù)被激活的特征仍被激活并且多數(shù)被抑制的特征仍被抑制),直到出現(xiàn)較大程度的遮擋為止。
識(shí)別器20
識(shí)別器20操作以計(jì)算由特征提取器10的全連接層提取的不同人臉圖像的全局特征之間的距離,以確定兩個(gè)人臉圖像是否來(lái)自同一身份以用于人臉驗(yàn)證,或者確定輸入圖像中作為搜索人臉圖像的其中一個(gè)圖像與包括輸入圖像的人臉圖像冊(cè)中的其中一個(gè)圖像是否屬于同一身份,以用于人臉識(shí)別。圖10是示出識(shí)別器20的識(shí)別過(guò)程的示意流程圖。在步驟201中,識(shí)別器20計(jì)算由特征提取器10從不同的人臉圖像中提取的特征(即,由全連接層提取的不同人臉圖像的全局特征)之間的距離。最后,在步驟202,識(shí)別器20確定兩個(gè)人臉圖像是否來(lái)自同一身份以用于人臉驗(yàn)證,或者在步驟203中,確定輸入圖像中作為搜索人臉圖像的其中一個(gè)圖像與包括輸入圖像的人臉圖像冊(cè)中的其中一個(gè)圖像是否屬于同一身份,以用于人臉識(shí)別。
在識(shí)別器20中,如果兩個(gè)人臉圖像的特征距離小于閾值,則確定它們屬于同一身份;或者與該搜索人臉圖像到所有其他人臉圖像冊(cè)的特征距離相比,如果搜索人臉圖像和人臉圖像冊(cè)中的一個(gè)的特征距離是最小的,則確定它們屬于同一身份。其中,由識(shí)別器20確定的特征距離可以是歐幾里得距離、聯(lián)合貝葉斯距離、余弦距離、漢明距離或者任何其他距離。
在本申請(qǐng)的一個(gè)實(shí)施例中,將聯(lián)合貝葉斯距離用作特征距離。聯(lián)合貝葉斯已經(jīng)成為人臉的普及相似性度量,它用兩個(gè)獨(dú)立的高斯變量之和來(lái)表示所提取的人臉特征x(減去均值之后):
x=μ+ò,(5)
其中μ~n(0,sμ)表示人臉身份并且ò~n(0,sò)表示個(gè)人內(nèi)部的變化。在給定個(gè)人內(nèi)部或外部變化假設(shè)p(x1,x2∣hi)和p(x1,x2∣he)的情況下,聯(lián)合貝葉斯對(duì)兩個(gè)人臉的聯(lián)合概率進(jìn)行建模。從等式(5)中易于表明,這兩個(gè)概率也是分別具有下列變化的高斯分布:
和
可以利用em算法送數(shù)據(jù)中學(xué)習(xí)sμ和sò。在測(cè)試中,計(jì)算出似然比:
它具有封閉解并且有效。
訓(xùn)練器30
訓(xùn)練器30用來(lái)通過(guò)輸入特征值提取器10的卷積層和全連接層的神經(jīng)元之間的連接的初始權(quán)值、多個(gè)識(shí)別監(jiān)督信號(hào)和多個(gè)驗(yàn)證監(jiān)督信號(hào),更新特征提取器10的卷積層和全連接層的神經(jīng)元之間的連接的權(quán)值w,使得在提取器中的級(jí)聯(lián)特征提取模塊中的最后一個(gè)提取模塊提取的特征具有稀疏性、選擇性和穩(wěn)健性。
如圖3所示,訓(xùn)練器30中的識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào)(分別表示為“id”和“ve”)同時(shí)添加到特征提取器10中的每個(gè)特征提取模塊的全連接層fc-n中的每個(gè)全連接層,其中n=1、……、4,并且分別反向傳播到輸入人臉圖像,以更新所有的級(jí)聯(lián)特征提取模塊的神經(jīng)元之間的連接的權(quán)值。
通過(guò)將單個(gè)人臉圖像的所有全連接層表示/輸出(即,公式(4))分類(lèi)為n個(gè)身份的一個(gè),從而生成用于訓(xùn)練器30的識(shí)別監(jiān)督信號(hào)“id”,其中將分類(lèi)誤差用作識(shí)別監(jiān)督信號(hào)。
通過(guò)在每個(gè)特征提取模塊中分別驗(yàn)證兩個(gè)比較的人臉圖像的全連接層表示,確定兩個(gè)比較的人臉圖像是否屬于同一身份,從而生成訓(xùn)練器30中的驗(yàn)證監(jiān)督信號(hào),其中將驗(yàn)證誤差用作驗(yàn)證監(jiān)督信號(hào)。給定一對(duì)訓(xùn)練人臉圖像,特征提取器10分別從每個(gè)特征提取模塊的兩個(gè)人臉圖像中提取兩個(gè)特征矢量fi和fj。如果fi和fj是同一身份的人臉圖像的特征,那么驗(yàn)證誤差是
圖9是示出訓(xùn)練器30的訓(xùn)練過(guò)程的示意流程圖。在步驟101中,訓(xùn)練器30對(duì)兩個(gè)人臉圖像取樣并且分別將它們輸入到特征提取器10,以得到特征提取器10的所有全連接層中的、兩個(gè)人臉圖像的特征表示。隨后,在步驟102中,訓(xùn)練器30通過(guò)將每個(gè)全連接層中的、每個(gè)人臉圖像的特征表示分類(lèi)為多個(gè)(n個(gè))身份中的一個(gè)來(lái)計(jì)算識(shí)別誤差。同時(shí),在步驟103中,訓(xùn)練器30通過(guò)驗(yàn)證每個(gè)全連接層中的、兩個(gè)人臉圖像的相應(yīng)特征表示是否來(lái)自同一身份來(lái)計(jì)算驗(yàn)證誤差。分別將識(shí)別誤差和驗(yàn)證誤差用作識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào)。在步驟104中,訓(xùn)練器30同時(shí)將所有的識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào)反向傳播通過(guò)特征提取器10,以更新特征提取器10中的神經(jīng)元之間的連接的權(quán)值。將同時(shí)添加到全連接層fc-n(其中n=1、2、3、4)的識(shí)別監(jiān)督信號(hào)和驗(yàn)證監(jiān)督信號(hào)(或誤差)反向傳播通過(guò)特征提取模塊的級(jí)聯(lián),直到傳播到輸入圖像。在反向傳播之后,將特征提取模塊的級(jí)聯(lián)中的每層中得到的誤差累加。根據(jù)誤差的大小來(lái)更新特征提取器10中的神經(jīng)元之間的連接上的權(quán)值。最后,在步驟105中,訓(xùn)練器30評(píng)估訓(xùn)練過(guò)程是否收斂,并且如果沒(méi)有達(dá)到收斂點(diǎn),則重復(fù)步驟101到104。
所附權(quán)利要求書(shū)中的所有構(gòu)件或步驟加上功能元件的對(duì)應(yīng)結(jié)構(gòu)、材料、動(dòng)作和等效物旨在包括:用于與特別要求保護(hù)的、其他要求保護(hù)的元件相結(jié)合執(zhí)行功能的任何結(jié)構(gòu)、材料或動(dòng)作。上面對(duì)本發(fā)明的描述僅僅是出于說(shuō)明和描述的目的,而并非是窮舉的以及并非是將本發(fā)明限于所公開(kāi)的形式。在不脫離本發(fā)明的范圍和精神的情況下,本領(lǐng)域的技術(shù)人員應(yīng)該清楚許多更改和變化。通過(guò)選擇并描述上述的實(shí)施方式,目的在于最好地闡釋本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域的技術(shù)人員能夠以適于預(yù)期的特定用途的各種實(shí)施例和各種更改來(lái)理解本發(fā)明。