學(xué)習(xí)深度人臉表示的制作方法
【專利摘要】人臉表示是人臉識(shí)別系統(tǒng)的關(guān)鍵步驟。最優(yōu)人臉表示應(yīng)該是有辨別力的、魯棒的、緊湊并且很容易實(shí)現(xiàn)的。雖然已經(jīng)提出很多手工和基于學(xué)習(xí)的表示,但是仍存在很大的改進(jìn)空間。呈現(xiàn)了用于人臉表示的很容易實(shí)現(xiàn)的深度學(xué)習(xí)框架。該框架基于金字塔卷積神經(jīng)網(wǎng)絡(luò)(CNN)。金字塔CNN采用貪婪濾波器和下采樣操作,其使得訓(xùn)練過(guò)程能夠很迅速并且是計(jì)算高效的。此外,金字塔CNN的結(jié)構(gòu)可以自然地并入在多尺度人臉表示之間共享的特征,增加了得到的表示的可辨別力。
【專利說(shuō)明】
學(xué)習(xí)深度人臉表示
技術(shù)領(lǐng)域
[0001] 本發(fā)明大體上涉及圖像處理,尤其涉及使用機(jī)器學(xué)習(xí)的人臉識(shí)別和表示。
【背景技術(shù)】
[0002] 人臉識(shí)別系統(tǒng)對(duì)數(shù)字圖像或者視頻幀進(jìn)行圖像處理,以自動(dòng)標(biāo)識(shí)人。人臉識(shí)別系 統(tǒng)通常將人臉圖像表示為很大維度的特征向量。在獲取表示之后,可以應(yīng)用各種算法以進(jìn) 行分類(lèi)、驗(yàn)證和/或搜索的任務(wù)。算法的性能?chē)?yán)重依賴于表示的選取。最近,已經(jīng)對(duì)基于人臉 圖像的現(xiàn)有知識(shí)設(shè)計(jì)更好的表示感興趣。
[0003]很大維度的手工表示可以提供高準(zhǔn)確度的人臉識(shí)別結(jié)果。然而,為了用手工表示 進(jìn)行人臉識(shí)別,對(duì)于每個(gè)模塊需分別地仔細(xì)優(yōu)化復(fù)雜的多級(jí)系統(tǒng)。例如,多級(jí)系統(tǒng)典型地包 括用于預(yù)處理、低級(jí)編碼、特征變換和更高級(jí)表示的模塊。每個(gè)單獨(dú)模塊的手工調(diào)諧是高勞 動(dòng)強(qiáng)度的。此外,難以通過(guò)單獨(dú)優(yōu)化每個(gè)模塊來(lái)確保整個(gè)系統(tǒng)的性能。
[0004] 因此,為了人臉識(shí)別和其他目的,需要學(xué)習(xí)人臉的表示的更好方法。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明通過(guò)利用學(xué)習(xí)人臉表示的框架克服現(xiàn)有技術(shù)的限制。在一種方法中,框架 基于用于識(shí)別人臉圖像對(duì)(pairs of face images)的、利用監(jiān)督學(xué)習(xí)信號(hào)的深度卷積神經(jīng) 網(wǎng)絡(luò)的結(jié)構(gòu)。利用監(jiān)督學(xué)習(xí)信號(hào)的深度卷積神經(jīng)網(wǎng)絡(luò)導(dǎo)致以快速和有計(jì)算效率的方式進(jìn)行 人臉識(shí)別的高辨別力和緊密的人臉表示的提取。
[0006] -個(gè)方面涉及訓(xùn)練用于人臉識(shí)別系統(tǒng)的金字塔卷積神經(jīng)網(wǎng)絡(luò)(CNN)。金字塔卷積 神經(jīng)網(wǎng)絡(luò)(CNN)包括至少N個(gè)共享層和耦合到第N共享層的至少一個(gè)非共享層,其中N多2。以 從1到N的順序訓(xùn)練從1到N的CNN層級(jí)。在一種方法中,CNN層級(jí)η包括用于接收人臉圖像的輸 入、金字塔CNN的前η個(gè)共享層、金字塔CNN的非共享層和產(chǎn)生人臉圖像的表示的輸出。輸入 被耦合到第一共享層。每個(gè)共享層包括卷積層、非線性層和下采樣層。此外,第η共享層耦合 到非共享層,并且非共享層耦合到輸出。
[0007] 優(yōu)選地,訓(xùn)練CNN層級(jí)η包括向輸入端呈現(xiàn)人臉圖像。在一種方法中,每個(gè)人臉圖像 在輸出處產(chǎn)生對(duì)應(yīng)的表示。處理該表示以產(chǎn)生度量的估計(jì)值,該度量的實(shí)際值是已知的?;?于度量的估計(jì)值與度量的實(shí)際值的比較,適配第η共享層和非共享層。在一個(gè)示例中,基于 人臉圖像對(duì)訓(xùn)練金字塔CNN,并且度量是這些人臉圖像對(duì)是否屬于同一人。
[0008] 其他方面包括與上述相關(guān)的部件、設(shè)備、系統(tǒng)、改進(jìn)、方法、處理、應(yīng)用和其他技術(shù)。
【附圖說(shuō)明】
[0009] 本發(fā)明具有其他優(yōu)點(diǎn)和特征,當(dāng)結(jié)合附圖時(shí),這些其他優(yōu)點(diǎn)和特征將更容易從本 發(fā)明的以下詳細(xì)描述中顯而易見(jiàn),在附圖中:
[0010] 圖1是人臉識(shí)別系統(tǒng)的簡(jiǎn)化圖。
[0011] 圖2是訓(xùn)練金字塔卷積神經(jīng)網(wǎng)絡(luò)(CNN)的流程圖。
[0012] 圖3是卷積神經(jīng)網(wǎng)絡(luò)的細(xì)節(jié)圖。
[0013] 圖4是執(zhí)行人臉識(shí)別的方法的流程圖。
[0014] 圖5是訓(xùn)練金字塔CNN的方法的流程圖。
[0015] 圖6是使用金字塔CNN和基于關(guān)鍵點(diǎn)的位置比較人臉識(shí)別的性能的直方圖。
[0016] 圖7是當(dāng)不存在對(duì)于表示的長(zhǎng)度的限制時(shí)在非約束標(biāo)記人臉數(shù)據(jù)庫(kù)(LFW,labeled faces in the wild)基準(zhǔn)上的性能。
[0017] 圖8圖示了在訓(xùn)練神經(jīng)網(wǎng)絡(luò)中在不同時(shí)間點(diǎn)時(shí)的測(cè)試準(zhǔn)確性取決于神經(jīng)網(wǎng)絡(luò)的數(shù) 目。
[0018] 附圖僅為了圖示的目的描繪本發(fā)明的實(shí)施例。本領(lǐng)域的技術(shù)人員將容易地從下面 的討論中認(rèn)識(shí)到可以在不脫離本文描述的本發(fā)明的原理的情況下使用本文圖示的結(jié)構(gòu)和 方法的替代實(shí)施例。
【具體實(shí)施方式】
[0019] 附圖和下面的描述涉及僅以例示方式的優(yōu)選實(shí)施例。應(yīng)該注意,依據(jù)下面的論述, 本文公開(kāi)的結(jié)構(gòu)和方法的替代實(shí)施例將很容易被視為在不脫離要求保護(hù)的原理的情況下 可以使用的可行替代。
[0020] 公開(kāi)的人臉識(shí)別系統(tǒng)(和方法)包括深度卷積神經(jīng)網(wǎng)絡(luò)(本文稱為"金字塔CNN"、 "CNN"或者"多尺度特性共享網(wǎng)絡(luò)")。金字塔CNN包括兩個(gè)或者更多層級(jí),并且訓(xùn)練(即,適 配)每一層級(jí)的神經(jīng)網(wǎng)絡(luò)。首先在人臉的一部分上訓(xùn)練具有相對(duì)小的輸入尺寸(例如,32x32 個(gè)像素)的第一層級(jí)中的網(wǎng)絡(luò)。在訓(xùn)練了第一層級(jí)網(wǎng)絡(luò)后,其第一層被固定,并且被固定的 層用以訓(xùn)練下一層級(jí)網(wǎng)絡(luò)中的網(wǎng)絡(luò)。在訓(xùn)練第二層級(jí)時(shí),第一層處理更大的圖像(例如, 48x48個(gè)像素),并且用來(lái)自第一層的處理后的圖像(例如,對(duì)于每個(gè)圖像/特征32x32個(gè)像 素)訓(xùn)練第二層級(jí)網(wǎng)絡(luò)。以這樣的方式,實(shí)際被訓(xùn)練的網(wǎng)絡(luò)的輸入的尺寸不隨著層級(jí)增加而 變得更大。這種貪婪的按層訓(xùn)練過(guò)程繼續(xù)直至所有層級(jí)上的網(wǎng)絡(luò)都被訓(xùn)練為止,從而得到 具有N個(gè)層級(jí)的最終網(wǎng)絡(luò)。通過(guò)在同一層級(jí)執(zhí)行多于一個(gè)網(wǎng)絡(luò),補(bǔ)償了較低層級(jí)網(wǎng)絡(luò)的輸入 區(qū)域的小覆蓋范圍。
[0021] 金字塔CNN是被劃分為多個(gè)層級(jí)的一組CNN。該神經(jīng)網(wǎng)絡(luò)包括兩個(gè)或者更多共享層 和至少一個(gè)非共享層。共享層可以在其他層級(jí)的訓(xùn)練處理中重復(fù)使用,其中,非共享層被用 于指定層級(jí)中的訓(xùn)練。每個(gè)神經(jīng)網(wǎng)絡(luò)接收人臉圖像的一部分,并且訓(xùn)練每個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán) 重以進(jìn)行濾波和下采樣。根據(jù)監(jiān)督學(xué)習(xí)信號(hào),在經(jīng)過(guò)大量人臉圖像的訓(xùn)練之后,金字塔CNN 從人臉圖像提取特征并且輸出高度緊湊的表示。監(jiān)督學(xué)習(xí)信號(hào)對(duì)金字塔CNN施加了標(biāo)識(shí)保 留要求。
[0022] 本文的特征指代人臉圖像的顯著特性。例如,特征可以是人臉的一部分(例如,目艮 睛、鼻子、嘴等)的長(zhǎng)度、形狀或者尺寸、或者人臉的兩部分之間的距離。特征的其他示例包 括人的性別、身份等。特征典型地由向量表示來(lái)表示,向量中的不同元素或者元素的組合編 碼人臉的不同特性。
[0023] 本文的人臉指代捕獲對(duì)象的整個(gè)臉部(或者臉部的一部分)的圖像文件(即,圖像 像素)。
[0024] 人臉識(shí)別概述
[0025] 圖1是根據(jù)一個(gè)實(shí)施例的人臉識(shí)別系統(tǒng)100的簡(jiǎn)化圖。人臉識(shí)別系統(tǒng)100接收目標(biāo) 人臉圖像110T并且試圖識(shí)別該人臉(即,將人臉與特定的個(gè)人相關(guān)聯(lián))。人臉識(shí)別系統(tǒng)100還 接收已知個(gè)人的參考人臉圖像110R。人臉識(shí)別系統(tǒng)100進(jìn)行分析以生成指示目標(biāo)人臉圖像 110T中的個(gè)人是否與參考人臉圖像110R中的個(gè)人相同的度量150。人臉識(shí)別系統(tǒng)100可以具 有對(duì)于不同個(gè)人的參考人臉圖像110R的大數(shù)據(jù)庫(kù),并且可以比較目標(biāo)人臉圖像110T與許多 不同的參考人臉圖像110R,以識(shí)別目標(biāo)人臉圖像110T對(duì)應(yīng)的個(gè)人。
[0026] 人臉識(shí)別系統(tǒng)100包括金字塔CNN 120、分析模塊130和處理器140。這些部件中的 每個(gè)可以被體現(xiàn)為硬件、軟件、固件或者其組合。這些部件一起進(jìn)行人臉識(shí)別并且確定兩個(gè) 人臉圖像110中的對(duì)象是否相同。
[0027] 金字塔CNN 120接收人臉圖像110作為輸入,并且生成每個(gè)人臉圖像的表示??商?代地,參考人臉圖像的表示可以被預(yù)先計(jì)算。人臉圖像的表示優(yōu)選以身份保留(ID保留)的 方式獲取,以使得映射的空間中的距離接近地反映人臉圖像的身份的語(yǔ)義距離,以最小化 不相關(guān)因素(例如,光照、表情和姿態(tài))的影響。此外,該表示優(yōu)選在低維度空間中編碼人臉 圖像的抽象和高級(jí)的身份信息。
[0028]分析模塊130確定參考人臉圖像110R中的對(duì)象與目標(biāo)人臉圖像110T中的對(duì)象是否 匹配。分析模塊130獲取在金字塔CNN 120的輸出處的人臉圖像110的表示。另外,分析模塊 130基于人臉圖像110的表示生成關(guān)于人臉圖像110是否屬于相同對(duì)象(人)的度量150。度量 150可以用以進(jìn)行人臉識(shí)別。典型的度量是基于計(jì)算兩個(gè)向量表示之間的余弦角度或者計(jì) 算兩個(gè)表示之間的歐幾里得(或者其他)距離。
[0029] 處理器140執(zhí)行指令以在人臉識(shí)別系統(tǒng)100上進(jìn)行人臉識(shí)別。處理器140從存儲(chǔ)器 (未示出)或者外部電路接收指令。指令也可以完全或者至少部分駐留在處理器140內(nèi)(例 如,在處理器的高速緩存存儲(chǔ)器內(nèi))。根據(jù)指令,處理器140變換或者選擇人臉圖像的一部 分,從而提供給金字塔CNN 120。此外,處理器140根據(jù)指令操作金字塔CNN 120和分析模塊 130,以進(jìn)行人臉識(shí)別的核心功能。
[0030] 人臉表示
[0031] 根據(jù)監(jiān)督學(xué)習(xí)信號(hào)訓(xùn)練金字塔CNN 120,以獲取簡(jiǎn)潔和可區(qū)別的表示。下文參照?qǐng)D 2描述金字塔CNN 120的詳細(xì)操作。
[0032] 由金字塔CNN產(chǎn)生的表示可以表達(dá)為從圖像像素到數(shù)值向量的函數(shù)映射。
[0033] f:Rhxw^Rm (1)
[0034] 在訓(xùn)練金字塔CNN 120時(shí),從人臉圖像110的對(duì)的訓(xùn)練集合學(xué)習(xí)期望的表示。這涉 及將函數(shù)族參數(shù)化并使用目標(biāo)函數(shù)L來(lái)選取表示提取器:
[0035]
(2)
[0036]其中fe是當(dāng)使用權(quán)重Θ時(shí)由金字塔CNN實(shí)現(xiàn)的函數(shù),Idata是訓(xùn)練集合,L〇是目標(biāo)函 數(shù),并且θ〇是優(yōu)化目標(biāo)函數(shù)L的權(quán)重?;竞瘮?shù)族f應(yīng)該包含足夠的復(fù)雜度,以表達(dá)所需的復(fù) 雜且高級(jí)的計(jì)算。為了實(shí)行ID保留屬性,應(yīng)該在目標(biāo)函數(shù)中使用身份信息。這導(dǎo)致與目的在 于對(duì)數(shù)據(jù)點(diǎn)的密度分配建模的無(wú)監(jiān)督方法相對(duì)照的監(jiān)督表示學(xué)習(xí)方法。雖然無(wú)監(jiān)督方法能 夠發(fā)現(xiàn)數(shù)據(jù)中顯現(xiàn)出來(lái)的圖案,但是它們的優(yōu)化目標(biāo)不直接與識(shí)別任務(wù)相關(guān),所以通過(guò)無(wú) 監(jiān)督方法獲取的學(xué)習(xí)的表示難免易受包括光照、表情和姿態(tài)的因素的影響。相反,監(jiān)督方法 明確施加 ID保留要求。因此,通過(guò)監(jiān)督方法獲取的學(xué)習(xí)表示不受光照、表情和姿態(tài)影響。
[0037] 在一個(gè)實(shí)施例中,人臉識(shí)別中的監(jiān)督信號(hào)用人臉圖像對(duì)是否屬于同一個(gè)人的指示 來(lái)標(biāo)記人臉圖像對(duì)。一個(gè)輸出神經(jīng)網(wǎng)絡(luò)使用距離函數(shù),以比較人臉圖像對(duì)的表示,并且預(yù)測(cè) 人臉圖像對(duì)是否屬于同一個(gè)人。示例損失函數(shù)是:
[0038]
(3)
[0039] D(Ii ,12)=〇 · d(f θ( Ιι), fe( Ι2) )-β(4)
[0040] 其中是指示一對(duì)的兩個(gè)人臉圖像Ι#ΡΙ2是否屬于同一人的度量。fe表示由 神經(jīng)網(wǎng)絡(luò)完成的將人臉圖像變換為表示的計(jì)算,并且d是用以測(cè)量?jī)蓚€(gè)人臉圖像的表示向 量之間的距離的函數(shù)。Θ是被訓(xùn)練的網(wǎng)絡(luò)中的權(quán)重。α和β是附加的可訓(xùn)練參數(shù)。
[0041] 該損失函數(shù)鼓勵(lì)屬于同一人(或?qū)ο螅┑奶卣髦g的小距離,并且懲罰不匹配的對(duì) 之間的相似性。因此,一對(duì)中的兩個(gè)人臉圖像的表示之間的距離被用作確定每對(duì)的兩個(gè)人 臉圖像是否用于同一人的度量。當(dāng)兩個(gè)人臉圖像110屬于同一人時(shí),距離應(yīng)該較低。當(dāng)兩個(gè) 人臉圖像110不屬于同一人時(shí),距離應(yīng)該較高。以這樣的方式,學(xué)習(xí)的特征顯現(xiàn)良好的ID保 留屬性,并且其對(duì)于識(shí)別任務(wù)是高度特定的。與人內(nèi)部的變化對(duì)應(yīng)的因素將被該網(wǎng)絡(luò)抑制。 [0042] 金字塔卷積神經(jīng)網(wǎng)絡(luò)(金字塔CNN)
[0043] 圖2是根據(jù)一個(gè)實(shí)施例的訓(xùn)練金字塔CNN 120的處理的圖。金字塔CNN120可以直接 接收未經(jīng)過(guò)任何處理的人臉圖像(或者人臉圖像的部分)??商娲?,金字塔CNN 120可以接 收處理后的人臉圖像(或者人臉圖像的部分)11〇。金字塔CNN 120包括N個(gè)層級(jí)的卷積神經(jīng) 網(wǎng)絡(luò)。在這個(gè)示例中,N = 4并且不同的CNN層級(jí)被標(biāo)記"層級(jí)Γ到"層級(jí)4"。每個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn) 行卷積、非線性和下采樣。不同的CNN層級(jí)典型地具有不同的深度和輸入尺寸,并且不同的 CNN層級(jí)也共享層(在圖2中被標(biāo)記210)。金字塔CNN 120生成每個(gè)人臉圖像110的表示,并且 基于每個(gè)人臉圖像110的表示適配神經(jīng)網(wǎng)絡(luò)。
[0044] 金字塔CNN 120包括N個(gè)共享層210和至少一個(gè)耦合到第N共享層的非共享層220, 其中N彡2。金字塔CNN 120包括數(shù)目N的CNN層級(jí)。每個(gè)CNN層級(jí)n (n = 1到N)包括輸入、η個(gè)共 享層、非共享層和輸出。
[0045] 例如,圖2中圖示的金字塔CNN 120包括四個(gè)層級(jí)。由此,本示例中的金字塔CNN 120 包括四個(gè)共享層 210(1)、210(2)、210(3)和210(4);非共享層220(1)、220(2)、220(3)和 220(4);輸入230(1 )、230(2)、230(3)和 230(4)以及輸出 240(1 )、240(2)、240(3)和 240(4)。
[0046] CNN層級(jí)1僅包括單個(gè)共享層210(1)。輸入端230(1)耦合到第一共享層210(1 ),第 一共享層210(1)耦合到非共享層220(1),非共享層220(1)耦合到輸出240(1)。相對(duì)照,CNN 層級(jí)4包括四個(gè)共享層210(1)-(4)。輸入230(4)耦合到第一共享層210(1),第一共享層210 (1)最終耦合最后共享層210(4),最后共享層210(4)耦合到非共享層220(4),非共享層220 (4)到輸出240(4)。通常而言,對(duì)于CNN層級(jí)n,輸入230(n)耦合到第一共享層210(1),第一共 享層210(1)最終耦合到第η共享層210(n),第η共享層210(n)耦合到非共享層220(n),非共 享層220(n)耦合到輸出240(n)。注意,共享層210(1)對(duì)于所有CNN層級(jí)具有相同的結(jié)構(gòu)和權(quán) 重,這對(duì)于每個(gè)共享層210(n)都成立。非共享層220對(duì)于所有CNN層級(jí)具有相同結(jié)構(gòu),但對(duì)于 每個(gè)CNN層級(jí)具有不同的權(quán)重。
[0047]在操作時(shí)(即在不是訓(xùn)練時(shí)),人臉圖像被輸入到輸入230(4),由共享層210(1)-(4)和非共享層220(4)處理,并且最后層輸出240(4)產(chǎn)生人臉圖像的表示。
[0048] 在一個(gè)實(shí)施例中,以監(jiān)督的貪婪方式訓(xùn)練金字塔CNN 120。如圖2中圖示,虛線輪廓 指示哪些層在哪個(gè)CNN層級(jí)被訓(xùn)練。共享層210(1)和非共享層220(1) -起對(duì)于CNN層級(jí)1被 訓(xùn)練。共享層210(2)和非共享層220(2) -起對(duì)于CNN層級(jí)2被訓(xùn)練。共享層210(1)不對(duì)于CNN 層級(jí)2訓(xùn)練。而是,其采用從對(duì)于CNN層級(jí)1訓(xùn)練產(chǎn)生的權(quán)重。
[0049] 每個(gè)共享層210包括卷積層、下采樣層和非線性層。假設(shè)CNN層級(jí)1在32x32人臉圖 像上被訓(xùn)練,并且還假設(shè)每個(gè)共享層210包括2x下采樣。這意味著CNN層級(jí)1接收32x32人臉 圖像并且共享層210(1)基于到來(lái)的32x32圖像被訓(xùn)練。然而,CNN層級(jí)2接收64x64人臉圖像, 但共享層210(2)基于由于下采樣而由共享層210(1)生成的到來(lái)的32x32圖像/特征被訓(xùn)練。 也就是,共享層210(2)和非共享層220(2) -起在來(lái)自第一共享層210(1)的處理后的圖像/ 特征上訓(xùn)練。對(duì)于其他CNN層級(jí)和共享層也是如此。以這樣的方式,用以訓(xùn)練每個(gè)共享層210 U)的圖像/特征的尺寸不隨著共享層的總數(shù)目增加而變得過(guò)分地大。對(duì)于每個(gè)CNN層級(jí)的 輸入可以從圖像的同一集合取得。例如,32x32剪輯(clip)可以被用作對(duì)于CNN1層級(jí)的輸 入,64x64剪輯可以被用作對(duì)CNN層級(jí)2的輸入,等等。
[0050] 對(duì)于每個(gè)增加的CNN層級(jí)n,進(jìn)行類(lèi)似的步驟,其中前(n-1)共享層210(1)···210(η-1)被固定。第η共享層210(η)和第η非共享層220(η)-起基于來(lái)自共享層210(1)…210(η-1) 的級(jí)聯(lián)的處理后的圖像/特征被訓(xùn)練。例如,在層級(jí)3,共享層210(1)和210(2)未被適配,并 且共享層210(3)和非共享層220(3)-起被訓(xùn)練。類(lèi)似地,在層級(jí)4,共享層210(1)、210(2)和 210(3)未被適配,并且共享層210(4)和非共享層220(4)-起被訓(xùn)練。在一個(gè)實(shí)施例中,根據(jù) 來(lái)自共享層210(1)…,210(η-1)的下采樣,對(duì)CNN層級(jí)η的輸入230(η)的尺寸隨著η從1到Ν增 加而增加。因此,輸入到第η共享層210的圖像/特征的尺寸對(duì)于η = 1到Ν近似是恒定的。
[0051 ]表1示出金字塔CNN的監(jiān)督訓(xùn)練中的一種方法,如關(guān)于圖2說(shuō)明的。
[0052]
[0053]圖3圖示卷積神經(jīng)網(wǎng)絡(luò)層300的一個(gè)實(shí)施例。卷積神經(jīng)網(wǎng)絡(luò)層300可以用于共享層 210和/或用于非共享層220。卷積神經(jīng)網(wǎng)絡(luò)300包括卷積濾波器310、非線性激活算子320和 下采樣算子330。
[0054]卷積神經(jīng)網(wǎng)絡(luò)層300是高非線性實(shí)數(shù)值多元函數(shù),該函數(shù)由卷積濾波器310、非線 性激活算子320和下采樣算子330組成:
[0055] + (5)
[0056] 其中,I1是第i層中的神經(jīng)元的值。卷積濾波器310可以定義為:
[0057]
[0058] 其中W是卷積濾波器的權(quán)重并且B(在公式(5))中是卷積濾波器偏置。在訓(xùn)練期間 適配W和B二者。非線性激活算子320由非線性函數(shù)g表示。函數(shù)的g示例包括超正切函數(shù) (hyper-tangent function)、修正線性函數(shù)、s型函數(shù)等。下采樣可以定義為最大池化算子
[0059]
(7)
[0060]開(kāi)發(fā)了基于梯度的算法以估計(jì)卷積神經(jīng)網(wǎng)絡(luò)層300中的權(quán)重。因此,適配(即,訓(xùn) 練)金字塔CNN(例如,共享層210、非共享層220或者其組合)包括適配用于卷積濾波器310的 卷積濾波器權(quán)重。通過(guò)使用共享權(quán)重,相同卷積濾波器310用于層中的每個(gè)像素。由此,用以 進(jìn)行卷積的存儲(chǔ)容量減小,并且改進(jìn)了計(jì)算速度。
[0061]有利地,使用利用監(jiān)督學(xué)習(xí)信號(hào)的金字塔CNN 120的人臉識(shí)別系統(tǒng)100以進(jìn)行人臉 識(shí)別的快速和計(jì)算高效的方式實(shí)現(xiàn)了人臉的高辨別力且緊密的表示的提取。通過(guò)利用強(qiáng)監(jiān) 督的金字塔CNN 120,所有層級(jí)處的學(xué)習(xí)信號(hào)直接反映最終任務(wù)。由此,保證了共享層210學(xué) 習(xí)提取與任務(wù)密切相關(guān)的有辨別力的信息。
[0062]金字塔CNN 120的另一解釋是多尺度特征提取架構(gòu)。金字塔優(yōu)選可以自然地處理 在人臉識(shí)別中共同的多尺度輸入片(patch)。不同尺寸的圖像片被饋送到對(duì)應(yīng)的尺度層級(jí) 處的網(wǎng)絡(luò)。金字塔通過(guò)對(duì)更大的輸入?yún)^(qū)域使用更深的網(wǎng)絡(luò)而利用多尺度結(jié)構(gòu)。深度的增加 允許更高層級(jí)的網(wǎng)絡(luò)承擔(dān)對(duì)更大圖像片的更復(fù)雜和抽象的計(jì)算。
[0063] 在替代實(shí)施例中,多于一個(gè)非共享層220存在于同一層級(jí),并且它們?cè)诠蚕硭鼈兊?第一層參數(shù)的同時(shí)在不同區(qū)域上工作。因此,金字塔CNN 120還包括耦合到第N共享層210 (N)的兩個(gè)或者更多的非共享層220。
[0064] 金字塔CNN的某些實(shí)現(xiàn)方式可以具有下面的特性中的一些或者全部。對(duì)CNN層級(jí)N 的輸入圖像尺寸典型地在范圍80x80到400x400內(nèi)。金字塔CNN典型可以具有從1到4個(gè)共享 層210,并且層之間的下采樣優(yōu)選在1.2到1.5的范圍中并且優(yōu)選小于2x。金字塔CNN也可以 具有從10到100個(gè)非共享層220的任意的。圖2中的框220表示所有這些非共享層。典型的卷 積內(nèi)核可以在尺寸從3x3到7x7的范圍內(nèi)。每個(gè)共享層可以存在1000到1百萬(wàn)個(gè)權(quán)重的任意 的。對(duì)于這些尺寸的金字塔CNN,訓(xùn)練集合在大小上典型在50萬(wàn)到1千萬(wàn)圖像之間改變。這些 數(shù)字僅是表示性的。不要求設(shè)計(jì)遵守這些數(shù)字。
[0065] 人臉識(shí)別的操作
[0066] 圖4圖示根據(jù)一個(gè)實(shí)施例的使用人臉識(shí)別系統(tǒng)100進(jìn)行人臉識(shí)別的方法的流程圖。 人臉識(shí)別系統(tǒng)100使用金字塔CNN 120,以生成人臉圖像的表示。利用人臉圖像110的對(duì)訓(xùn)練 410金字塔CNN 120。在完成訓(xùn)練之后,向金字塔CNN 120的輸入呈現(xiàn)420目標(biāo)人臉圖像110, 并且在金字塔CNN 120的輸出處獲取人臉圖像110的表示。然后使用人臉圖像110的這些表 示進(jìn)行440人臉識(shí)別。例如,表示之間的距離可以用以確定兩個(gè)人臉圖像是否屬于同一人。 [0067]圖5是訓(xùn)練410金字塔CNN 120的方法的流程圖。金字塔CNN 120接收人臉圖像110 的對(duì)(510)。金字塔CNN 120生成1到N個(gè)CNN層級(jí)(520)。CNN層級(jí)η包括用于接收人臉圖像110 的輸入、前η個(gè)共享層210、非共享層220和用于產(chǎn)生人臉圖像的表示的輸出240。輸入耦合到 第一共享層210(1),并且第η共享層210(n)耦合到非共享層220。另外,非共享層220耦合到 輸出240。從層級(jí)1到層級(jí)N以該順序訓(xùn)練CNN層級(jí)(530)。也就是,CNN層級(jí)1首先被訓(xùn)練,然后 是CNN層級(jí)2,等等,直到CNN層級(jí)N。
[0068] 為了訓(xùn)練CNN層級(jí)n,為CNN層級(jí)η呈現(xiàn)到CNN層級(jí)η的輸入230的人臉圖像110(532)。 每個(gè)人臉圖像110在輸出240處產(chǎn)生對(duì)應(yīng)的表示。在一個(gè)方法中,人臉圖像110的對(duì)被呈現(xiàn)給 CNN層級(jí)η的輸入230(η)。此外,表示被處理以產(chǎn)生度量150的估計(jì)(534)。例如,度量150是每 對(duì)的兩個(gè)人臉圖像110是否屬于同一人。度量150也可以是該對(duì)中的兩個(gè)人臉圖像110的表 示之間的距離。度量的實(shí)際值是已知的。另外,基于度量150的估計(jì)值與度量150的實(shí)際值來(lái) 適配第η共享層210(η)和非共享層220(η)。適配第η共享層210(η)和非共享層220(η)可以是 基于在兩個(gè)人臉圖像110屬于同一人時(shí)減小該距離并且在兩個(gè)人臉圖像不屬于同一人時(shí)增 加該距離。
[0069] 仿真結(jié)果
[0070] 非約束標(biāo)記人臉數(shù)據(jù)庫(kù)(LFW)是人臉識(shí)別系統(tǒng)的富有挑戰(zhàn)性的基準(zhǔn)。其包含從網(wǎng) 絡(luò)獲得的多于13000個(gè)圖片。實(shí)驗(yàn)協(xié)議是評(píng)估驗(yàn)證兩個(gè)圖像是否屬于同一人的準(zhǔn)確性。將使 用金字塔CNN的人臉識(shí)別的結(jié)果與使用其他方法的人臉識(shí)別的結(jié)果比較。
[0071] 圖6是比較使用金字塔CNN 120和基于地標(biāo)的位置(LBP)的人臉識(shí)別的性能的直方 圖。圖6中的直方圖具有兩個(gè)繪圖。每對(duì)中的左繪圖610是金字塔CNN 120的準(zhǔn)確性結(jié)果。每 對(duì)中的右繪圖620是延伸至基于地標(biāo)的多尺度特征提取方案的金字塔CNN 120的準(zhǔn)確性結(jié) 果。金字塔建立在不同地標(biāo)位置上,并且金字塔的所有層級(jí)處的輸出被連接以增加表示的 維度。
[0072]為了比較,對(duì)整個(gè)人臉圖像進(jìn)行使用四層級(jí)金字塔CNN 120的人臉識(shí)別。最后層級(jí) 網(wǎng)絡(luò)的輸出被取為圖像的表示,并且其他層級(jí)僅僅被構(gòu)建用于訓(xùn)練。在包含數(shù)千人的照片 的外部人臉相冊(cè)上學(xué)習(xí)該表示,并且在LFW基準(zhǔn)上對(duì)其測(cè)試。
[0073]圖6示出低數(shù)量維度的此特征的準(zhǔn)確性。LBP基線當(dāng)其維度高于1000時(shí)具有96.3% 的準(zhǔn)石角性。見(jiàn)Chen,D·、Cao,X·、Wen,F(xiàn)·、Sun,J.:Blessing of dimensionality :Highdimensional feature and its efficient compression for face verification·在: Computer Vision and Pattern Recognition(CVPR),2013IEEE會(huì)議,IEEE(2013)3025_ 3032。然而,其性能在低維度設(shè)置時(shí)很差。如圖示,金字塔CNN 120的性能在維度減小時(shí)緩慢 下降,并且金字塔CNN 120仍以僅8維度表示實(shí)現(xiàn)高識(shí)別準(zhǔn)確性(在LFW基準(zhǔn)上的85.8%)。相 對(duì)照,LBP基線當(dāng)被減小到8維度時(shí)實(shí)現(xiàn)僅66%的準(zhǔn)確性。因此,使用金字塔CNN 120的人臉 識(shí)別可以以緊湊特征維度實(shí)現(xiàn)高準(zhǔn)確性。傳統(tǒng)的方法典型地使用大于1K字節(jié)的人臉表示, 而金字塔CNN可以使用4到64字節(jié)的并且優(yōu)選不多于64維度的人臉表示維持良好的人臉辨 別力。
[0074]圖7是當(dāng)不存在對(duì)于表示的長(zhǎng)度的限制時(shí)非約束人臉數(shù)據(jù)庫(kù)(LFW)基準(zhǔn)的性能。圖 7中的面板包括五個(gè)繪圖。最右下繪圖710是使用4特征組合方法的人臉識(shí)別的結(jié)果。這個(gè)方 法在人臉識(shí)別中組合了四個(gè)非深度學(xué)習(xí)傳統(tǒng)特征,如在Chen,D.、Cao,X.、Wang,L.、Wen,F(xiàn).、 Sun,J ·的題為Bayesian face revisited: A joint formulation 的論文(載Computer Vision-ECCV 2012, Springer(2012)566-579)中所描述的。下一繪圖720是使用Tom vs · Pete+Attribute的人臉識(shí)別的結(jié)果,如在Berg,T ·、Belhumeur,P·Ν·的題為T(mén)om-vs-pete classifiers and identity-preserving alignment for face verification(載BMVC,第 1卷,(2012) 5)的論文中所描述的。繪圖730是使用LBP的人臉識(shí)別的結(jié)果。見(jiàn)Chen,D.、Cao, X.、Wen,F(xiàn).、Sun,J.的題為Blessing of dimensionality:High_dimensional feature and its efficient compression for face verification的論文(載:Computer Vision and Pattern Recognition(CVPR),2013IEEE會(huì)議,IEEE(2013)3025-3032)。繪圖740是使用金字 塔CNN 120的人臉識(shí)別的結(jié)果。最后,黑線750是在剪裁的人臉上的人的結(jié)果。
[0075]如圖7所示,使用金字塔CNN 120的人臉識(shí)別實(shí)現(xiàn)了在LFW基準(zhǔn)上的技術(shù)發(fā)展水平 (state of the art)性能。具有延伸特征共享的金字塔CNN 120實(shí)現(xiàn)在LFW基準(zhǔn)上的技術(shù)發(fā) 展水平性能(97.3% )。另外,當(dāng)通過(guò)邊界框剪裁人臉時(shí),準(zhǔn)確性非常接近人的性能。
[0076]圖8圖示在依賴于網(wǎng)絡(luò)的數(shù)目的訓(xùn)練中在不同時(shí)間點(diǎn)的測(cè)試準(zhǔn)確性。圖8圖示金字 塔CNN 120中的層共享機(jī)制的效果。圖8中的面板包括三個(gè)繪圖。繪圖810是一個(gè)大網(wǎng)絡(luò)的結(jié) 果。繪圖820是在同一尺度層級(jí)具有一個(gè)網(wǎng)絡(luò)的金字塔CNN 120的結(jié)果。繪圖830是在同一尺 度層級(jí)具有四個(gè)網(wǎng)絡(luò)的金字塔CNN 120的結(jié)果。
[0077]給定相同時(shí)間量,由金字塔CNN 120訓(xùn)練的網(wǎng)絡(luò)達(dá)到明顯更好的結(jié)果。此外,在金 字塔中的一個(gè)尺度層級(jí)中使用更多網(wǎng)絡(luò)改進(jìn)了性能。在更低尺度層級(jí)中訓(xùn)練多個(gè)網(wǎng)絡(luò)也以 緩和減慢為代價(jià)而改進(jìn)了性能。
[0078] 雖然詳細(xì)描述包含很多細(xì)節(jié),但是這些不應(yīng)該被視為限制本發(fā)明的范圍,而是僅 為例示本發(fā)明的不同示例和方面。應(yīng)該理解本發(fā)明的范圍包括沒(méi)有在上面詳細(xì)討論的其他 實(shí)施例。例如,在金字塔CNN 120中公開(kāi)的原理也可以應(yīng)用到除了人臉識(shí)別和表示之外的其 他區(qū)域或者對(duì)象。可以在不脫離所附權(quán)利要求中定義的本發(fā)明的精神和范圍的情況下,在 本文公開(kāi)的本發(fā)明的方法和裝置的布置、操作和細(xì)節(jié)中做出對(duì)于本領(lǐng)域技術(shù)人員將顯而易 見(jiàn)的各種其他修改、改變和變型。因此,本發(fā)明的范圍應(yīng)該由所附權(quán)利要求和它們的法律等 效物確定。
[0079] 在替代實(shí)施例中,本發(fā)明實(shí)現(xiàn)在計(jì)算機(jī)硬件、固件、軟件和/或其組合中。本發(fā)明的 裝置可以以有形地包含在機(jī)器可讀存儲(chǔ)設(shè)備中的用于由可編程處理器執(zhí)行的計(jì)算機(jī)程序 產(chǎn)品而實(shí)現(xiàn),并且本發(fā)明的方法步驟可以由可編程處理器進(jìn)行,該可編程處理器執(zhí)行指令 的程序以通過(guò)對(duì)輸入數(shù)據(jù)操作并且生成輸出來(lái)進(jìn)行本發(fā)明的功能。本發(fā)明可以有利地以可 在可編程系統(tǒng)上執(zhí)行的一個(gè)或者多個(gè)計(jì)算機(jī)程序而實(shí)現(xiàn),該可編程系統(tǒng)包括:至少一個(gè)可 編程處理器,耦合以從數(shù)據(jù)存儲(chǔ)系統(tǒng)接收數(shù)據(jù)和指令,并且向數(shù)據(jù)存儲(chǔ)系統(tǒng)發(fā)送數(shù)據(jù)和指 令;至少一個(gè)輸入設(shè)備;和至少一個(gè)輸出設(shè)備。每個(gè)計(jì)算機(jī)程序可以以高級(jí)程序或者面向?qū)?象的編程語(yǔ)言實(shí)現(xiàn),或者如果需要的話以匯編或者機(jī)器語(yǔ)言實(shí)現(xiàn);并且在任何情況下,語(yǔ)言 可以被編輯的或者解釋的語(yǔ)言。適當(dāng)?shù)奶幚砥髋e例來(lái)說(shuō)包括通用和專用微處理器二者。通 常,處理器將從只讀存儲(chǔ)器和/或隨機(jī)存取存儲(chǔ)器接收指令和數(shù)據(jù)。通常,計(jì)算機(jī)將包括一 個(gè)或者多個(gè)大容量存儲(chǔ)設(shè)備,用于存儲(chǔ)數(shù)據(jù)文件;這樣的設(shè)備包括磁盤(pán),諸如內(nèi)部硬盤(pán)和可 移除盤(pán);磁光盤(pán);和光盤(pán)。適合于有形包含計(jì)算機(jī)程序指令和數(shù)據(jù)的存儲(chǔ)設(shè)備包括所有形式 的非易失性存儲(chǔ)器,舉例來(lái)說(shuō)包括半導(dǎo)體存儲(chǔ)器器件,諸如EPR0M、EEPR0M和閃存存儲(chǔ)器器 件;諸如內(nèi)部硬盤(pán)和可移除盤(pán)之類(lèi)的磁盤(pán);磁光盤(pán);和CD-ROM盤(pán)。以上的任意者可以由ASIC (專用集成電路)和其他形式的硬件補(bǔ)充或者并入ASIC和其他形式的硬件中。
【主權(quán)項(xiàng)】
1. 一種用于訓(xùn)練金字塔卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算機(jī)實(shí)現(xiàn)的方法,該金字塔卷積神經(jīng) 網(wǎng)絡(luò)包括至少N個(gè)共享層和耦合到第N共享層的至少一個(gè)非共享層,其中N多2,所述方法包 括: 以CNN層級(jí)1到N的順序訓(xùn)練CNN層級(jí)1到N,其中,CNN層級(jí)η包括用于接收人臉圖像的輸 入、金字塔CNN的前η個(gè)共享層、金字塔CNN的非共享層、和產(chǎn)生所述人臉圖像的表示的輸出; 其中,所述輸入耦合到所述η個(gè)共享層中的第一個(gè);每個(gè)共享層包括卷積層、非線性層和下 采樣層;所述η個(gè)共享層中的第η個(gè)耦合到所述非共享層;并且所述非共享層耦合到所述輸 出; 其中,訓(xùn)練CNN層級(jí)η包括: 向所述輸入呈現(xiàn)人臉圖像,每個(gè)人臉圖像在所述輸出處產(chǎn)生對(duì)應(yīng)的表示; 處理所述表示,以產(chǎn)生度量的估計(jì)值,所述度量的實(shí)際值是已知的;以及 基于所述度量的估計(jì)值與所述度量的實(shí)際值的比較,適配第η共享層和所述非共享層。2. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中: 向所述輸入呈現(xiàn)人臉圖像包括向所述輸入呈現(xiàn)人臉圖像對(duì), 其中,已知每對(duì)中的兩個(gè)人臉圖像是否屬于同一人; 所述度量是每對(duì)中的兩個(gè)人臉圖像是否屬于同一人;以及 適配包括基于每對(duì)中的兩個(gè)人臉圖像是否屬于同一人的估計(jì)的度量與所述兩個(gè)人臉 圖像實(shí)際是否屬于同一人的已知值的比較,適配所述第η共享層和所述非共享層。3. 如權(quán)利要求2所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述度量是一對(duì)中的兩個(gè)人臉圖像的 表示之間的距離。4. 如權(quán)利要求3所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,適配包括基于當(dāng)所述兩個(gè)人臉圖像屬 于同一人時(shí)減小所述距離并且當(dāng)所述兩個(gè)人臉圖像不屬于同一人時(shí)增加所述距離來(lái)適配 所述第η共享層和所述非共享層。5. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,訓(xùn)練CNN層級(jí)η還包括不適配前(η-1) 個(gè)共享層。6. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,在訓(xùn)練CNN層級(jí)η時(shí),第η共享層的輸入 的尺寸對(duì)于η = 1到Ν近似是恒定的。7. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,在訓(xùn)練CNN層級(jí)η時(shí),第1共享層的輸入 的尺寸隨著η從1增加到Ν而增加。8. 如權(quán)利要求7所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,在訓(xùn)練CNN層級(jí)η時(shí),用作第1共享層的 輸入的人臉圖像從人臉圖像的公用集合中剪輯,但隨著η從1增加到Ν而構(gòu)成人臉圖像的更 大剪輯。9. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,適配第η共享層包括適配在所述第η共 享層內(nèi)的卷積中使用的卷積濾波器的卷積濾波器權(quán)重。10. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,對(duì)于所有共享層,下采樣不高于2倍 下采樣。11. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述人臉圖像的表示不多于8個(gè)維 度。12. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述人臉圖像的表示不多于64字節(jié)。13. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,經(jīng)過(guò)訓(xùn)練的金字塔CNN在LFW基準(zhǔn)上 是大于97 %準(zhǔn)確的。14. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述金字塔CNN還包括耦合到第N共 享層的兩個(gè)或者更多的非共享層。15. 如權(quán)利要求14所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述金字塔CNN包括耦合到第N共享 層的至少100個(gè)非共享層。16. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,N小于5。17. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,下采樣小于2倍。18. 如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,每個(gè)共享層包含要適配的在1000個(gè) 和1百萬(wàn)個(gè)之間的權(quán)重。19. 一種處理人臉圖像的方法,該方法包括: 向金字塔CNN的輸入呈現(xiàn)人臉圖像,所述金字塔CNN根據(jù)權(quán)利要求1的計(jì)算機(jī)實(shí)現(xiàn)的方 法訓(xùn)練得到;以及 在所述金字塔CNN的輸出處獲取所述人臉圖像的表示。20. 如權(quán)利要求19所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括: 使用所述人臉圖像的表示來(lái)進(jìn)行人臉識(shí)別。21. -種配置為存儲(chǔ)程序代碼的非瞬時(shí)計(jì)算機(jī)可讀介質(zhì),所述程序代碼包括用于訓(xùn)練 金字塔卷積神經(jīng)網(wǎng)絡(luò)(CNN)的指令,所述金字塔卷積神經(jīng)網(wǎng)絡(luò)包括至少N個(gè)共享層和耦合到 第N共享層的至少一個(gè)非共享層,其中N多2,所述指令在由處理器執(zhí)行時(shí)使得所述處理器: 以CNN層級(jí)1到N的順序訓(xùn)練CNN層級(jí)1到N,其中,CNN層級(jí)η包括用于接收人臉圖像的輸 入、金字塔CNN的前η個(gè)共享層、金字塔CNN的非共享層、和產(chǎn)生所述人臉圖像的表示的輸出; 其中,所述輸入耦合到所述η個(gè)共享層中的第一個(gè);每個(gè)共享層包括卷積層、非線性層和下 采樣層;所述η個(gè)共享層中的第η個(gè)耦合到所述非共享層;并且所述非共享層耦合到所述輸 出; 其中,訓(xùn)練CNN層級(jí)η包括: 向所述輸入呈現(xiàn)所述人臉圖像,每個(gè)人臉圖像在所述輸出處產(chǎn)生對(duì)應(yīng)的表示; 處理所述表示,以產(chǎn)生度量的估計(jì)值,所述度量的實(shí)際值是已知的;以及 基于所述度量的估計(jì)值與所述度量的實(shí)際值的比較,適配第η共享層和所述非共享層。
【文檔編號(hào)】G06K9/00GK105981008SQ201480074764
【公開(kāi)日】2016年9月28日
【申請(qǐng)日】2014年5月27日
【發(fā)明人】印奇, 曹志敏, 姜宇寧, 范浩強(qiáng)
【申請(qǐng)人】北京曠視科技有限公司