用于在不受約束的媒體中識別面孔的系統(tǒng)和方法
【專利摘要】提供一種用于面孔識別的方法和系統(tǒng)。該方法包括基于個人的不同圖像確定此人的面孔的三維(3D)模型。該方法還包括從該3D模型提取二維(2D)拼塊。再者,該方法包括使用2D拼塊的不同組合來生成該面孔的多個簽名,其中這些多個簽名對應(yīng)于來自不同角度的3D模型的相應(yīng)視圖。
【專利說明】用于在不受約束的媒體中識別面孔的系統(tǒng)和方法
[0001]
相關(guān)申請
本專利申請要求2013年12月19日提交的先有臨時專利申請?zhí)?1/918,205以及2014年3月20日提交的先有臨時專利申請61/968,015的權(quán)益,其公開通過引用全部并入本文。
技術(shù)領(lǐng)域
[0002]本發(fā)明公開涉及識別媒體中的圖像的系統(tǒng)和方法,以及更確切地來說,涉及面孔識別。
【背景技術(shù)】
[0003]攝像頭變得常見于移動設(shè)備、監(jiān)控傳感器和執(zhí)法車輛中。由于它們的移動性,此類攝像頭能夠在多種不受約束的狀況中記錄個人的圖像。即,與分階段面部照片相比,在不受約束狀況下記錄的個人的面孔可能由于光照(例如,自然光照和人工光照)的變化、個人面孔的屬性(例如,年齡、面部毛發(fā)、眼鏡)、視角(例如,俯仰和搖擺)、遮擋(例如,標(biāo)志、樹木等)等而差異極大。例如,犯法者可能在群體事件時實(shí)施非法行為。在作案時間附近,旁觀人可能在使用他們的移動攝像頭記錄事件時捕獲犯法者的圖像。此外,監(jiān)視事件的保安攝像頭可能從不同(例如架高的)視角捕獲到犯法者的圖像。并且,犯法者的圖像可能被具有不同視角和遮擋的攝像頭捕獲到。執(zhí)法機(jī)構(gòu)可以從攝像頭的操作者、社交網(wǎng)絡(luò)網(wǎng)站和媒體出口訪問這些記錄。但是,嘗試從多種記錄中識別犯法者可能需要通過大量圖像數(shù)據(jù)中進(jìn)行篩選。
【發(fā)明內(nèi)容】
[0004]本發(fā)明公開提供一種包括基于個人的不同圖像確定此人的面孔的三維(3D)模型的方法。該方法還包括從該3D模型提取二維(2D)拼塊。再者,該方法包括使用2D拼塊的不同組合來生成該面孔的多個簽名,其中多個簽名對應(yīng)于來自不同角度的3D模型的相應(yīng)視圖。
[0005]此外,本發(fā)明公開提供一種面孔識別系統(tǒng),其包括處理器、存儲系統(tǒng)、存儲在計算機(jī)可讀硬件存儲設(shè)備上供該處理器執(zhí)行的的程序指令。這些程序指令包括基于個人的不同圖像確定此人的面孔的三維(3D)模型的程序指令。這些程序指令還包括從該3D模型提取二維(2D)拼塊的程序指令。再者,這些程序指令包括使用2D拼塊的不同組合來生成該面孔的多個簽名的程序指令,其中多個簽名對應(yīng)于來自不同角度的3D模型的相應(yīng)視圖。
【附圖說明】
[0006]并入本說明書中并構(gòu)成其一部分的附圖圖示了本發(fā)明的教導(dǎo),并且連同描述,用于解釋本發(fā)明公開的多個原理。
[0007]圖1是圖示用于實(shí)現(xiàn)根據(jù)本發(fā)明公開的多個方面的系統(tǒng)和過程的示范環(huán)境的框圖; 圖2是圖示根據(jù)本發(fā)明公開的多個方面的示例面孔識別系統(tǒng)的功能框圖;
圖3是圖示根據(jù)本發(fā)明公開的多個方面的用于識別面孔的示范過程的流程圖;
圖4是圖示使用根據(jù)本發(fā)明公開多個方面的面孔識別系統(tǒng)來確定基于屬性的表示的示范過程的流程圖;
圖5是圖示使用根據(jù)本發(fā)明公開多個方面的面孔識別系統(tǒng)來確定屬性的示范過程的流程圖;以及
圖6是圖示使用根據(jù)本發(fā)明公開多個方面的面孔識別系統(tǒng)來確定多實(shí)體PEP簽名的示范過程的流程圖。
[0008]應(yīng)該注意到,這些附圖的一些細(xì)節(jié)已進(jìn)行了簡化且繪制成有助于本發(fā)明教義的理解,而非為了維持嚴(yán)格的結(jié)構(gòu)精確性、細(xì)節(jié)和比例。
【具體實(shí)施方式】
[0009]本發(fā)明公開涉及用于識別媒體中的圖像的系統(tǒng)和方法,以及更確切地來說,涉及面孔識別。根據(jù)本發(fā)明公開的多個方面,該系統(tǒng)和方法可以用于基于個人面孔的基于屬性的表示來識別圖像中的個人?;趯傩缘谋硎景ㄊ褂脧膱D像提取的2D拼塊和語義表征個人面孔的屬性(例如,性別、年齡、人種等)確定的多視圖概率彈性部分(“多視圖PEP”)簽名。多視圖PEP簽名是使用根據(jù)從3D模型提取的2D面部拼塊構(gòu)建的屬性相關(guān)PEP模型來確定的。PEP模型是基于局部空間外觀特征的高斯混合模型。
[0010]該3D模型是根據(jù)從照片、視頻和/或素描中的個人圖像獲取的面孔的不同姿態(tài)構(gòu)造的。有利地,該基于屬性的表示考慮到由于視點(diǎn)、照明、年齡和表情導(dǎo)致個人面孔中而出現(xiàn)的幾何形狀、結(jié)構(gòu)和光度上的差異性,同時保留能夠用于唯一性地將個人面孔與他人相辨別的不變特征。
[0011]根據(jù)本發(fā)明的多個方面,該基于屬性的表示將它所基于的面孔的特質(zhì)(例如,年齡、姿態(tài)、照明和表情)歸一化。該基于屬性的表示與這些特質(zhì)可以是相互相關(guān)的,其中基于屬性的表示的參數(shù)高度地影響用于歸一化的模型以及反之亦然。因此,該基于屬性的表示是基于與從屬表示所對應(yīng)的參數(shù)組對其進(jìn)行迭代優(yōu)化來確定的。
[0012]再者,根據(jù)本發(fā)明的多個方面,基于屬性的表示的兩個分量(多視圖PEP簽名和屬性)以不同抽象層面來對信息編碼。將這些多視圖PEP簽名所基于的3D模型歸一化以通過對可用訓(xùn)練示例不足且無法學(xué)習(xí)精確的統(tǒng)計模型以考慮到差異的極端差異建模來克服基于2D圖像的PEP表示的局限性。再者,從變化的源獨(dú)立地提取用于構(gòu)造基于屬性的表示的每個分量的領(lǐng)域知識,并將其作為互補(bǔ)性先驗(yàn)約束在基于屬性的表示予以實(shí)施。
[0013]本發(fā)明公開的基于屬性的表示提供多種優(yōu)點(diǎn)。首先,用于創(chuàng)建多視圖PEP簽名的PEP模型提供姿態(tài)不變性。其次,因?yàn)镻EP模型隱含地標(biāo)識“非面孔”拼塊,所以多視圖PEP簽名考慮到無法直接建模的面孔變化,如遮擋和低分辨率數(shù)據(jù)。第三,這些多視圖PEP簽名能夠使用支持非視覺媒體(例如,近紅外、合成素描等)的模型來吸納紅外線和/或異種數(shù)據(jù)。第四,可以對圖像特征使用統(tǒng)計學(xué)習(xí)回歸函數(shù)來將這些多視圖PEP簽名延伸到所有年齡組。第五,這些多視圖PEP簽名提供針對光照和表情變化的彈性。即,在確定多視圖PEP簽名時,通過面孔重光照(relighting)和表情中和來去除由于光照和表情導(dǎo)致的變化。根據(jù)本發(fā)明公開的多個方面,從多視圖PEP提取的2D圖像拼塊不含此類變化,因?yàn)楣庹?陰影或飽和度)差的任何拼塊以及與強(qiáng)面孔表情對應(yīng)的拼塊在多視圖PEP簽名中均予以降低權(quán)重處理。
[0014]正如本領(lǐng)域技術(shù)人員將認(rèn)識到的,本發(fā)明可以作為一種方法、系統(tǒng)或計算機(jī)程序產(chǎn)品來實(shí)施。相應(yīng)地,本發(fā)明可以采取完全硬件實(shí)施例、完全軟件實(shí)施例(包括固件、駐留軟件、微代碼等)或組合可以全部通稱為“電路”、“模塊”或“系統(tǒng)”的軟件和硬件方面的實(shí)施例的形式。再者,本發(fā)明可以采取計算機(jī)可讀存儲介質(zhì)上的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀存儲介質(zhì)具有包含在該介質(zhì)中的計算機(jī)可讀程序代碼。
[0015]可以采用任何適合的計算機(jī)可用或計算機(jī)可讀介質(zhì)。該計算機(jī)可用或計算機(jī)可讀介質(zhì)可以是例如但不限于,電子、磁、光、電磁、紅外線或半導(dǎo)體系統(tǒng)、裝置、設(shè)備或傳播介質(zhì)。計算機(jī)可讀介質(zhì)的更具體示例(非窮舉列表)包括如下:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)軟盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(R0M)、可擦寫可編程只讀存儲器(EPR0M或閃存存儲器)、光纖、便攜式壓縮光盤只讀存儲器(⑶-R0M)、光存儲裝置、磁存儲裝置、如支持因特網(wǎng)或內(nèi)聯(lián)網(wǎng)的那些的傳輸介質(zhì)或磁存儲設(shè)備。注意計算機(jī)可用或計算機(jī)可讀介質(zhì)甚至可以是可將程序打印在其上的紙或另一種適合介質(zhì),因?yàn)樵摮绦蚰軌蛲ㄟ^例如對紙或其他介質(zhì)進(jìn)行光學(xué)掃描以電子方式捕獲,然后進(jìn)行編譯、解釋或以適合方式進(jìn)行其他處理(如果必要的話),然后存儲在計算機(jī)存儲器中。在本文件的上下文中,計算機(jī)可用或計算機(jī)可讀介質(zhì)可以是能夠包含、存儲、傳送、傳播或轉(zhuǎn)載被指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用或與之結(jié)合來使用的程序的任何介質(zhì)。計算機(jī)可用介質(zhì)可以包括其中包含有計算機(jī)可用程序代碼的,例如基帶中或作為載波的一部分傳播的數(shù)據(jù)信號。該計算機(jī)可用程序代碼可以使用任何適合的介質(zhì)來傳送,這些適合的介質(zhì)包括但不限于,因特網(wǎng)、有線、光纖電纜、RF等。
[0016]可以采用面向?qū)ο蟮木幊陶Z言來編寫用于實(shí)現(xiàn)本發(fā)明的操作的計算機(jī)程序代碼,如Java、Smalltalk、C++等。但是,還可以采用常規(guī)過程編程語言來編寫用于實(shí)現(xiàn)本發(fā)明的操作的計算機(jī)程序代碼,如“C"編程語言或類似編程語言。該程序代碼可以完全在用戶的計算機(jī)上執(zhí)行,部分地在用戶的計算機(jī)上執(zhí)行,作為單獨(dú)運(yùn)行的軟件包來執(zhí)行,部分地在用戶的計算機(jī)上以及部分地在遠(yuǎn)程計算機(jī)或完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在后一種情況中,該遠(yuǎn)程計算機(jī)可以經(jīng)由局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)連接到用戶計算機(jī),或該連接可以(例如,使用因特網(wǎng)服務(wù)提供商經(jīng)由因特網(wǎng))連接到外部計算機(jī)。
[0017]下文中參考根據(jù)本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計算機(jī)程序產(chǎn)品的流程圖圖示和/或框圖來描述本發(fā)明。將理解流程圖圖示和/或框圖中的每個框和/或流程圖圖示和/或框圖中的框的組合可以由計算機(jī)程序指令來實(shí)現(xiàn)??梢詫⑦@些計算機(jī)程序指令提供到通用計算機(jī)、專用計算機(jī)、其他可編程數(shù)據(jù)處理設(shè)備的處理器以制造機(jī)器,以使由計算機(jī)和/或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的這些指令創(chuàng)建用于執(zhí)行這些流程圖和/或框圖的一個或多個框中指定的功能/動作的設(shè)備。
[0018]這些計算機(jī)程序指令還可以存儲在能夠引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備或其他設(shè)備以特定方式實(shí)現(xiàn)功能的計算機(jī)可讀存儲器中,以便存儲在該計算機(jī)可讀存儲器中的指令制造包含實(shí)現(xiàn)該流程圖和/或框圖的一個或多個框中指定的功能/動作的指令的制造品。
[0019]還可以將這些計算機(jī)程序指令加載到計算機(jī)或其他可編程數(shù)據(jù)處理裝置上,以使一系列操作步驟在該計算機(jī)或其他可編程裝置上執(zhí)行以構(gòu)成計算機(jī)實(shí)現(xiàn)的過程,以便該計算機(jī)或其他可編程裝置上執(zhí)行的這些指令提供用于實(shí)現(xiàn)流程圖和/或一個或多個框圖中指定的功能/動作的步驟。
[0020]圖1是用于實(shí)現(xiàn)根據(jù)本發(fā)明公開的多個方面的方法和系統(tǒng)的示例環(huán)境100。環(huán)境100包括面孔識別系統(tǒng)105和圖像源110。根據(jù)本發(fā)明公開的多個方面,面孔識別系統(tǒng)105是攝取(或獲取)包含個人圖像的多種媒體(例如,靜態(tài)圖片、運(yùn)動圖片、視頻、繪畫等)并生成個人面孔的模型(例如,PEP模型)以用于面孔識別的一種系統(tǒng)。該系統(tǒng)從模型提取信息并使用所提取的信息以在其他媒體中識別個人。圖像源110是捕獲和/或存儲圖像數(shù)據(jù),如視頻、照片、圖片等的設(shè)備或系統(tǒng)。在多個實(shí)施例中,圖像源110是媒體數(shù)據(jù)庫。作為補(bǔ)充或備選,圖像源110是一個或多個圖像傳感器(例如,攝像頭)。
[0021]根據(jù)本發(fā)明公開的多個方面,面孔識別系統(tǒng)105包含執(zhí)行本文描述的過程和功能的硬件和軟件。具體來說,面孔識別系統(tǒng)105包含計算設(shè)備130、輸入/輸出(I/O)設(shè)備133、存儲系統(tǒng)135和設(shè)備選擇器137。1/0設(shè)備133可以包括使個人能夠與計算設(shè)備130交互的任何設(shè)備(例如,用戶接口)和/或使計算設(shè)備130能夠使用任何類型的通信鏈路與一個或多個其他計算設(shè)備通信的任何設(shè)備。I/O設(shè)備133可以是例如,手持設(shè)備、PDA、觸控屏顯示器、手機(jī)、鍵盤等。
[0022]存儲系統(tǒng)135可以包括存儲信息和程序指令的計算機(jī)可讀、非易失性硬件存儲設(shè)備。例如,存儲系統(tǒng)135可以是一個或多個閃存設(shè)備和/或硬盤設(shè)備。根據(jù)本發(fā)明公開的多個方面,存儲設(shè)備135包含圖像數(shù)據(jù)庫136、領(lǐng)域知識數(shù)據(jù)庫137和模型數(shù)據(jù)庫138。圖像數(shù)據(jù)庫136可以存儲從圖像源110獲取的圖像和媒體。領(lǐng)域知識數(shù)據(jù)庫137包含可應(yīng)用以用于從媒體提取語義信息(例如,性別、人種、年齡、臉型、皮膚類型、面部特征等)以及用于對面孔建模(例如,與不同性別、人種和年齡對應(yīng)的形狀、特征、比例、肌肉組織和紋理)的預(yù)定模型和人體測量信息的集合。模型數(shù)據(jù)庫138包含個人的3D面孔模型、從該3D面孔模型提取的2D拼塊和包含基于屬性的表示的所提取的屬性。
[0023]在多個實(shí)施例中,計算設(shè)備130包含一個或多個處理器139、一個或多個存儲器設(shè)備141(例如,RAM和R0M)、一個或多個I/O接口 143和一個或多個網(wǎng)絡(luò)接口 144。存儲器設(shè)備141可以包含在程序指令執(zhí)行期間采用的本地存儲器(例如,隨機(jī)存取存儲器和高速緩存存儲器)。此外,計算設(shè)備130還包含至少一個通信通道(例如,數(shù)據(jù)總線),通過該至少一個通信通道,計算設(shè)備130與輸入/輸出(I/O)設(shè)備133、存儲系統(tǒng)135和設(shè)備選擇器137進(jìn)行通信。處理器139執(zhí)行能夠存儲在存儲器設(shè)備141和/或存儲系統(tǒng)135中的計算機(jī)程序指令(例如,操作系統(tǒng)和/或應(yīng)用程序)。
[0024]而且,根據(jù)本發(fā)明公開的多個方面,處理器139可以執(zhí)行攝取模塊151、分析模塊153、建模模塊155、提取模塊159和匹配模塊163的計算機(jī)程序指令以執(zhí)行本文描述的一個或多個過程。攝取模塊151、分析模塊153、建模模塊155和提取模塊159和匹配模塊163可以作為存儲器設(shè)備141和/或存儲系統(tǒng)135中的一個或多個程序指令集實(shí)現(xiàn)為單獨(dú)或組合的模塊。此外,攝取模塊151、分析模塊153、建模模塊155和提取模塊159和匹配模塊163可以作為用于提供這些模塊的功能的單獨(dú)專用處理器或一個或若干處理器來實(shí)現(xiàn)。
[0025]根據(jù)本發(fā)明的多個實(shí)施例,攝取模塊151使得計算設(shè)備130從圖像源110獲取媒體并改善媒體中包含的圖像(例如,改善分辨率、模糊處理和對比度)。此外,攝取模塊151促使計算設(shè)備檢測和跟蹤圖像中的面孔(例如,使用面孔和眼部檢測算法)。
[0026]分析模塊153促使計算設(shè)備130從攝取模塊151檢測到的面孔提取屬性。這些屬性在語義上描述面孔的特質(zhì)。在多個實(shí)施例中,這些屬性是與個人的性別、年齡、人種、發(fā)色、臉型、發(fā)色等關(guān)聯(lián)的推導(dǎo)的特質(zhì)。有利地,這些屬性通過提供靈活且領(lǐng)域自適應(yīng)的詞匯來描述個人的表觀以實(shí)現(xiàn)從多視圖PEP簽名中進(jìn)行高效索引和檢索,從而縮短搜索時間和數(shù)據(jù)存儲要求。
[0027]建模模塊155促使計算設(shè)備130創(chuàng)建或確定個人面孔的3D模型。根據(jù)本發(fā)明公開的多個方面,該3D模型是對應(yīng)于3D姿態(tài)的所有變化(例如,俯仰和搖擺的量化空間)生成的姿態(tài)感知的基于概率性彈性部分(PEP)的模型,其將范圍廣泛的媒體形式和變化的視覺和光照條件下呈現(xiàn)的面孔的形狀、紋理和動力學(xué)信息(dynamics)進(jìn)行密集的編碼。此外,根據(jù)本發(fā)明公開的多個方面,建模模塊155可以對3D模型再光照,將該3D模型中捕獲的面部表情中和,修改3D模型表示的個人的年齡以及將與該3D模型關(guān)聯(lián)的面部化妝和遮擋納入考慮。再者,該建模模塊可以使用(例如,領(lǐng)域知識數(shù)據(jù)庫137中的)領(lǐng)域知識來填充3D模型中丟失的信息(例如,皮膚紋理和被遮擋的拼塊)。
[0028]提取模型159促使計算機(jī)設(shè)備使用2D拼塊生成多視圖PEP面孔簽名和表征多種人口統(tǒng)計群組的語義屬性(例如,人種、性別、年齡組等)。根據(jù)本發(fā)明公開的多個方面,提取模型根據(jù)3D模型從多個姿態(tài)的投影確定2D拼塊。這些姿態(tài)可以在多個預(yù)定義的視角范圍內(nèi),這些預(yù)定義的視角范圍具有相對于3D模型的直視(例如與前視圖成O俯仰和O搖擺)的一定俯仰(例如,-10度到+10度)以及搖擺(例如-10度至+10度)。將這些投影組合以根據(jù)與這些姿態(tài)對應(yīng)的密集疊加的2D拼塊提供多視圖PEP簽名。換言之,每個多視圖PEP面孔簽名中包含的數(shù)據(jù)量不隨可用媒體的質(zhì)量和/或數(shù)量而改變。相應(yīng)地,可以通過并入來自附加圖像的信息而不增加表示的大小以增量方式精細(xì)化這些多視圖PEP面孔簽名。
[0029]此外,根據(jù)本發(fā)明公開的多個方面,提取模塊159確定每個多視圖PEP面孔簽名的不確定性度量。該不確定性度量表征每個多視圖PEP面孔簽名內(nèi)的2D拼塊的質(zhì)量。提取模塊159確定使用可根據(jù)3D模型推導(dǎo)的“面孔相似”測量來計算的不確定性度量。例如,該度量可以對應(yīng)于包含非面孔部分的特定多視圖PEP面孔簽名所對應(yīng)的拼塊的百分比。
[0030]再者,根據(jù)本發(fā)明公開的多個方面,該多視圖PEP面孔簽名對于可用圖像的分辨率是自適應(yīng)的。在多個實(shí)施例中,將該多視圖PEP面孔簽名自動地調(diào)整到面孔圖像上的可用分辨率。由此,可用分辨率越大,面孔表示將含越多細(xì)節(jié);以及分辨率越低,面孔表示將越欠細(xì)
-K-
T O
[0031]而且,根據(jù)本發(fā)明公開的多個方面,提取模塊159將每個多視圖PEP面孔簽名與一個或多個屬性關(guān)聯(lián)。在多個實(shí)施例中,提取模塊159將一個或多個面孔屬性(例如,人種、年齡、性別、面孔的唯一性縱橫比(橢圓臉、圓臉等))追加到相應(yīng)的多視圖PEP面孔簽名。由此,本發(fā)明公開的基于屬性的表示能夠使用關(guān)聯(lián)的屬性來實(shí)現(xiàn)面孔的高效索引和檢索。
[0032]匹配模塊163促使計算設(shè)備基于建模模塊155確定的個人面孔的基于屬性的表示來確定面孔圖像是否匹配個人面孔。根據(jù)本發(fā)明公開的多個方面,匹配是基于為多視圖概率性彈性部分(“多視圖PEP”)簽名的每個分量確定的不確定性度量進(jìn)行的。此外,根據(jù)本發(fā)明公開的多個方面,匹配模塊163使用領(lǐng)域自適應(yīng)來跨成像模態(tài)來匹配多視圖PEP面孔簽名。在多個實(shí)施例中,這些模態(tài)其中包括RGB光譜、紅外線、超光譜和繪畫(例如,素描和動畫)。
[0033]在多個實(shí)施例中,領(lǐng)域知識數(shù)據(jù)庫137可以包含面孔識別系統(tǒng)105能夠參考的如下信息:面孔人體測量資料、面孔超分辨率工具、屬性相關(guān)的3D形狀模型、屬性相關(guān)的多視圖PEP、屬性提取工具、特征選擇先驗(yàn)、面孔動作單元編碼系統(tǒng)和領(lǐng)域自適應(yīng)工具。面孔人體測量資料是表征人口統(tǒng)計學(xué)面孔信息并跨由于年齡和表情導(dǎo)致的結(jié)構(gòu)變化來識別不變化的面孔特征的人體測量的統(tǒng)計數(shù)字(平均值和標(biāo)準(zhǔn)差)。根據(jù)3D面孔模型估計的人體測量可以用在匹配模塊155確定匹配得分,以及供分析模塊153確定屬性。面孔超分辨率工具是與范本圖像進(jìn)行基于分量的匹配以用于增強(qiáng)面孔圖像的像素級細(xì)節(jié)。面孔超分辨率工具提供改進(jìn)型面孔特征提取以供建模模塊155構(gòu)建表示。屬性相關(guān)3D形狀模型是基于人種、性別和年齡對3D面孔形狀的變化模式建模的不同子空間。這些信息提供更多資料性先驗(yàn)以供建模模塊155對比通用3D面孔形狀來擬合3D形狀。屬性相關(guān)多視圖PEP是從個體圖像密集采樣具有常見屬性(例如,性別、人種和年齡組)的拼塊的高斯混合模型(GMM)。這些信息提供用于匹配模塊163執(zhí)行匹配所用的個性化統(tǒng)計模型。屬性提取工具是用于供分析模塊153從面孔圖像檢測屬性的有判別力的模型(基于深度學(xué)習(xí)和結(jié)構(gòu)化預(yù)測)。屬性提取工具對這些屬性的不確定性建模,這樣允許沿著面孔的重要方面進(jìn)行匹配。特征選擇先驗(yàn)是基于深度學(xué)習(xí)的特征選擇,其用于實(shí)現(xiàn)由于例如年齡、姿態(tài)和光照變化導(dǎo)致面孔特征中的不變性差異以及基于增強(qiáng)部分的表示和匹配。這些信息能夠?qū)崿F(xiàn)由提取模塊159更快速地特征提取,以用于確定重要和最大有判別力的特征。面孔動作單元編碼系統(tǒng)是面孔肌肉組織動力學(xué)信息的普遍適用中間表示,用于供建模模塊155對因表情導(dǎo)致的面部變形建模。面孔動作單元編碼系統(tǒng)提供面部肌肉組織的顯性精確建模。領(lǐng)域自適應(yīng)工具是對跨年齡、姿態(tài)和光照變化對領(lǐng)域移位建模的學(xué)習(xí)工具。
[0034]要注意,計算設(shè)備130可以包括能夠執(zhí)行其上安裝的計算機(jī)程序指令的任何通用計算制造品(例如,個人計算機(jī)、服務(wù)器等)。但是,計算設(shè)備130僅代表能夠執(zhí)行本文描述的過程的多種可能等效計算設(shè)備。就此,在多個實(shí)施例中,計算設(shè)備130提供的功能性可以是通用和/或?qū)S糜布?或計算機(jī)程序指令的任何組合。在每個實(shí)施例中,均可以使用標(biāo)準(zhǔn)編程和工程技術(shù)來分別創(chuàng)建程序指令和硬件。
[0035]圖2圖示根據(jù)本發(fā)明公開的多個方面的面孔識別系統(tǒng)105的示范過程的功能流程圖。面孔識別系統(tǒng)105包括攝取模塊151、分析模塊153、建模模塊155、提取模塊159和匹配模塊163,這些模塊可以與先前描述的那些模塊相同。根據(jù)本發(fā)明公開的多個方面,攝取模塊151評估從圖像源(例如,圖像源110)接收的媒體。這些媒體可以包括個人的照片、視頻和/或繪畫(例如素描)。在多個實(shí)施例中,評估媒體包括確定定義比例、面孔覆蓋區(qū)(例如,圖像中面孔中的基于圖像中的姿態(tài)的部分)、分辨率、模態(tài)(例如媒體類型)和/或包含圖像的媒體的質(zhì)量。面孔的比例表征圖像分辨率,并且確定攝取模塊151將要提取的細(xì)節(jié)等級??梢詫⒔邮盏膱D像和關(guān)聯(lián)的評估信息存儲在數(shù)據(jù)庫(例如,圖像數(shù)據(jù)庫136)中,以用于后續(xù)參考和處理。
[0036]此外,根據(jù)本發(fā)明公開的多個方面,攝取模塊151改善接收的媒體中所包含的圖像。在多個實(shí)施例中,改善圖像包括減少模糊度、提高對比度和增加圖像分辨率。例如,成像模塊151可以通過基于來自大型姿態(tài)變化面孔數(shù)據(jù)集的范本結(jié)構(gòu)(眼睛、嘴、面孔輪廓等)估計優(yōu)化模糊內(nèi)核來減少模糊度。模糊內(nèi)核估計包括識別與模糊化面孔圖像最接近的范本(例如,在領(lǐng)域知識數(shù)據(jù)庫137中的),并執(zhí)行接收模糊化面孔的梯度和最接近范本的正則化過程。再者,改善還可以包括通過使用統(tǒng)計學(xué)習(xí)和幾何形狀對光照條件建模來對圖像重光照。此外,攝取模塊151還可以通過執(zhí)行直方圖均衡來改善圖像的對比度。再者,攝取模塊151可以使用面孔幻想技術(shù)來根據(jù)低分辨率數(shù)據(jù)生成高分辨率圖像。
[0037]根據(jù)本發(fā)明公開的多個方面,攝取模塊151還檢測并跟蹤接收的圖像中所包含的面孔。在多個實(shí)施例中,攝取模塊151使用特征定位技術(shù)來檢測圖像中面孔的眼睛和嘴,并確定整體頭部姿態(tài)估計。例如,攝取模塊151可以采用在線有判別力的特征選擇(ODFS)方法,該方法基于使用MTL跟蹤類型算法的對象表觀在線自適應(yīng)并通過將正樣本和負(fù)樣本的平均置信度之間余量最大化。ODFS方法選擇使得目標(biāo)樣本置信度最大化同時抑制背景樣本的置信度的特征。這樣在分類器更新期間對最正確的正樣本給予更大權(quán)重以及對背景樣本賦予較小分類器,從而利于跨比例、姿態(tài)、光照和運(yùn)動模糊的變化將背景目標(biāo)與繁雜背景有效分離。此外,攝取模塊151還可以使用無人監(jiān)控的面孔檢測自適應(yīng)方法來檢測和跟蹤面孔,該方法利用對視頻內(nèi)的社交場景建模來進(jìn)一步提高面孔跟蹤的精確度。
[0038]根據(jù)本發(fā)明的多個方面,攝取模塊151還執(zhí)行面孔特征定位和跟蹤。可以使用特征定位來估計圖像中個人頭部的姿態(tài),并且基于該姿態(tài),確定與眼睛、嘴和面孔的位置對應(yīng)的基準(zhǔn)點(diǎn)(例如,領(lǐng)口、下顎和發(fā)際線)。在多個實(shí)施例中,攝取模塊151使用監(jiān)督的下降方法(SDM) ADM包括非參數(shù)形狀模型,其不需要根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)形狀或表觀的任何模型。在訓(xùn)練階段期間,SDM使用訓(xùn)練圖像中的標(biāo)記點(diǎn)并提取標(biāo)記點(diǎn)位置處的特征。SDM從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)使所有歸一化最小二乘函數(shù)的平均值最小化的通用下降(generic descent)方向和偏離項(xiàng)的序列。有利地,與其他此類方法相比,基于SDM的面孔特征定位和跟蹤在計算上是非常簡單的(每個幀4個矩陣相乘),并且利于跟蹤具有大姿態(tài)變化(例如,±60°搖擺、±90°傾斜以及土 30°俯仰)、遮擋和急劇光照變化的面孔標(biāo)記點(diǎn)。
[0039]根據(jù)本發(fā)明公開的多個方面,分析模塊153根據(jù)攝取模塊151基于領(lǐng)域知識(例如,領(lǐng)域知識數(shù)據(jù)庫137)檢測和跟蹤的圖像中的面孔來確定屬性。這些屬性提供用于供匹配模塊163評估面孔之間的相似度的中間表示空間。在多個實(shí)施例中,其中畫面中光照和幾何形狀變化導(dǎo)致的干擾強(qiáng)烈影響低等級特征,可描述的面孔屬性的空間為建立面孔之間的對應(yīng)關(guān)系提供更歸納的度量。可以通過將攝取模塊151檢測的個人面孔中的基準(zhǔn)點(diǎn)推理到領(lǐng)域知識(例如,領(lǐng)域知識137)的預(yù)定庫中包含的特征來確定這些屬性。這些基準(zhǔn)點(diǎn)將個人面孔中由于例如面孔的姿態(tài)和年齡導(dǎo)致出現(xiàn)的變化納入考慮。在多個實(shí)施例中,將特征定位用于3D頭部姿態(tài)估計和面孔屬性推理。將有判別力的模型用于從媒體中面孔圖像進(jìn)行屬性的概率性推理。例如,兼用于檢測粗略(例如,性別、人種和年齡)以及細(xì)化(例如,發(fā)型和顏色、眉形、眼睛顏色和胡須)面部屬性的已學(xué)習(xí)模型。分析模塊153可以存儲面孔的屬性,將其存儲在數(shù)據(jù)庫(例如,圖像數(shù)據(jù)庫136)中,以用于后續(xù)參考和處理。
[0040]根據(jù)本發(fā)明多個方面,建模模塊155根據(jù)基準(zhǔn)點(diǎn)和分析模塊153確定的屬性來確定3D模型。在多個實(shí)施例中,3D模型將范圍廣泛的媒體模態(tài)中以及在變化的視角和照明條件下呈現(xiàn)的面孔的形狀、紋理和動力學(xué)信息進(jìn)行編碼。該3D模型由是對應(yīng)于3D姿態(tài)的所有變化(例如,搖擺和俯仰的量化空間)生成的姿態(tài)感知的基于概率性彈性部分(PEP)且根據(jù)從面孔提取的人口統(tǒng)計學(xué)屬性(性別、人種和年齡組)進(jìn)行獨(dú)特化(specialized)的模型來構(gòu)成的。
[0041 ]在多個實(shí)施例中,預(yù)定義的參數(shù)將2D圖像映射到3D面孔形狀。首先將3D模型與通用3D網(wǎng)格擬合,然后基于人口統(tǒng)計學(xué)屬性(性別和人種)以迭代方式將其精細(xì)化,以便擬合屬性相關(guān)的模型。該映射可以是例如,包含3D形狀、渲染的2D圖像和對應(yīng)的攝像頭參數(shù)的查詢表。例如,給定處于任一姿態(tài)(例如,在+/- 70度搖擺和+/- 25度俯仰的范圍內(nèi))的圖像,建模模塊155可以根據(jù)2D基準(zhǔn)點(diǎn)粗略地估計頭部姿態(tài)。建模模塊155可以識別面孔的3D形狀以選擇通用3D模型,其中使用相似基準(zhǔn)特征構(gòu)造來選擇3D模型的初始估計(例如,從領(lǐng)域知識數(shù)據(jù)庫137選擇通用3D模型)。使用選定的3D模型,建模模塊155然后能夠使用擬合算法(例如,梯度下降)來精細(xì)化3D面孔模型的面孔對齊和形狀。
[0042]此外,根據(jù)本發(fā)明公開的多個方面,建模模塊155對3D模型進(jìn)行重光照。在多個實(shí)施例中,建模模塊155使用3D面孔重光照算法來通過擴(kuò)展用于生成線性子空間的訓(xùn)練示例以支持真實(shí)場景,其中足夠的照明變化使之覆蓋不受控的照明條件下拍攝的圖像。例如,建模模塊155可以使用照明數(shù)據(jù)庫(例如,CMU PIE數(shù)據(jù)庫)來捕獲多種不同照明條件和姿態(tài)下個人的表觀。
[0043]再者,根據(jù)本發(fā)明公開的多個方面,建模模塊155對3D模型的表情進(jìn)行中和。在多個實(shí)施例中,為了將表情中和,建模模塊155使用基于非線性流形的方法來將3D面部變形建模成若干ID流形的組合(每個ID流形表示一種變形模式:笑容、驚訝、憤怒等)。例如,在將中和的面孔視為高維度空間中的中心點(diǎn)的情況中,可以將同一個人在變化表情下的面孔認(rèn)為是在該空間的鄰域內(nèi)的點(diǎn)。為了將表情中和,建模模塊155可以使用捕獲個體點(diǎn)之間的隱含結(jié)構(gòu)關(guān)系的低維度空間。這些構(gòu)成非線性流形。該非線性流形上的坐標(biāo)對應(yīng)于面部變形沿著該模式的量值,稱為“激活等級”。使用基于允許從稀疏數(shù)據(jù)點(diǎn)的結(jié)構(gòu)推理的計算框架的非線性流形學(xué)習(xí),(例如,N-D張量投票(Tensor voting)),建模模塊155可以估計每個點(diǎn)處流形的局部法線和切線空間。估計的切線向量使得建模模塊155能夠直接在非線性流形上導(dǎo)航。例如,建模模塊155可以使用不同面孔表情下的受檢者的3D面孔掃描構(gòu)成的數(shù)據(jù)庫(例如,Bosphorus數(shù)據(jù)集)作為訓(xùn)練數(shù)據(jù)構(gòu)建流形。
[0044]而且,根據(jù)本發(fā)明的多個方面,建模模塊155的中和也通過確定面孔的3D模型以隱式方式執(zhí)行。即,該3D模型將每個面部拼塊與測量其與3D模型所基于的中和面孔圖像中的對應(yīng)拼塊的接近度的產(chǎn)生概率。因此,3D模型將受面孔表情影響的面部拼塊降低權(quán)重。
[0045]而且,根據(jù)本發(fā)明公開的多個方面,建模模塊155確定3D模型表示的個人的年齡??梢詫⒛挲g效應(yīng)表征為形狀(例如,顱骨增長、松垂特征)與紋理變化(例如,皮膚折皺)的組合。在多個實(shí)施例中,建模模塊155外插3D形狀和紋理模型以將年齡納入考慮。例如,建模模塊155可以確定不同年齡組(例如,少年(〈20)、青年(20至35歲)、中年人(35至50歲)以及老年人(50以及以上))的PEP模型。基于年齡組的PEP模型提供統(tǒng)一框架來表征跨年齡組的基于拼塊的表觀變化。在多個實(shí)施例中,由于缺少跨姿態(tài)的足夠面孔年齡數(shù)據(jù)集,建模模塊155使用屬于該年齡組的受檢者的前額面孔圖像,將基于年齡組的PEP模型的學(xué)習(xí)限制于前額姿態(tài)bin。
[0046]顯著地,根據(jù)本發(fā)明公開的多個方面,建模模塊155確定的3D模型將面部化妝和遮擋納入考慮。在基于屬性的面孔表示下,隱式地移除了面部化妝和遮擋。即,使用無面部化妝和遮擋的面孔來構(gòu)建3D模型。因此,基于模型中高概率的分量選擇的拼塊是沒有面部毛發(fā)和表觀類似于訓(xùn)練示例拼塊的表觀的那些拼塊。例如,在確定3D模型時,建模模塊155使用皮膚紋理建模來選擇性地從圖像提取2D皮膚拼塊并更新3D網(wǎng)格的整體皮膚紋理。因此,3D模型的皮膚沒有面部毛發(fā)。代之以,分析模塊152確定的個人的屬性表征面部毛發(fā)的存在,其可以用于表征3D模型。
[0047]根據(jù)本發(fā)明公開的多個方面,提取模塊159從3D模型提取與不同姿態(tài)范圍對應(yīng)的2D拼塊。在多個實(shí)施例中,提取模塊159從為多個姿態(tài)bin中每一個渲染的圖像進(jìn)行2D拼塊的密集采樣。2D拼塊可以具有變化的大小(例如,分辨率)。例如,提取模塊159可以按多個(例如10個)大小級別提取2D拼塊,其中每個大小級別逐個級別地減小(例如,80%)。再者,每個級別,提取模塊159分辨率,提取2D拼塊將以按步長方式對面孔圖像采樣(例如,每個步長是2D拼塊寬度的一半)。具體取決于填充姿態(tài)bin的方式(例如,使用來自觀察的圖像的拼塊、使用回歸外插的拼塊或根據(jù)歸一化的3D模塊渲染的拼塊),基于用于確定這些2D拼塊所用的相應(yīng)數(shù)據(jù)的量將不同的不確定性度量與之關(guān)聯(lián)。
[0048]根據(jù)本發(fā)明公開的多個方面,匹配模塊163確定輸入圖像(例如,犯法者在事件中被捕獲的圖像)與提取模塊159提取的2D拼塊的圖像之間的匹配。將輸入圖像與圖庫媒體之間的相似度計算為其表示的異種簽名之間的匹配得分。在多個實(shí)施例中,匹配模塊163使用索引和匹配方案的組合來匹配多視圖PEP簽名,并將每個分量的不確定性納入考慮。根據(jù)本發(fā)明公開的多個方面,描述面孔的可視屬性提供用于評估面孔之間的相似度的中間表示空間。但是畫面中光照和幾何形狀變化導(dǎo)致的干擾強(qiáng)烈影響低等級特征,可描述的面孔屬性的空間為建立面孔之間的對應(yīng)關(guān)系提供更歸納的度量。
[0049]圖3-6中的流程圖圖示根據(jù)本發(fā)明公開的多種實(shí)施例的系統(tǒng)、設(shè)備、方法和計算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的功能性和操作。圖3-6的流程圖中的每個框可以表示程序指令的模塊、程序段或部分,其包括用于實(shí)現(xiàn)圖示的功能和操作的一個或多個計算機(jī)可執(zhí)行指令。在一些備選實(shí)現(xiàn)中,流程圖的特定框中圖示的功能和/或操作可以不按圖3-6所示的次序來進(jìn)行。例如,依次示出的兩個框可以基本同時地執(zhí)行或這些框有時可以按逆序執(zhí)行,具體取決于所涉及的功能性而定。還要注意,流程圖和/或框圖中每個框和框圖中框的組合可以由執(zhí)行指定的功能或動作的基于專用硬件的系統(tǒng)或?qū)S糜布陀嬎銠C(jī)指令的組合來實(shí)現(xiàn)。
[0050]圖3圖示根據(jù)本發(fā)明公開的多個方面的用于對圖像進(jìn)行攝取、建模、提取和匹配的示范過程300的流程圖。圖3的步驟可以使用圖1的面孔識別系統(tǒng)來實(shí)現(xiàn)以從例如圖像源(例如,圖像源110)獲取圖像,以及處理獲取的圖像以執(zhí)行面孔識別。
[0051]在步驟303處,面孔識別系統(tǒng)(例如,經(jīng)由攝取模塊151)獲取個人的一個或多個圖像。例如,該面孔識別系統(tǒng)可以從圖像源(例如,圖像源110),如攝像頭和/或圖像數(shù)據(jù)庫獲取包含個人面孔圖像的多個不同圖像。這些圖像可以存儲在數(shù)據(jù)庫(例如,圖像數(shù)據(jù)庫136)中以供面孔識別系統(tǒng)參考和處理。
[0052]在步驟305處,面孔識別系統(tǒng)(例如,經(jīng)由分析模塊153)根據(jù)圖像確定屬性。根據(jù)本發(fā)明的多個方面,這些屬性在語義上描述受檢者的特質(zhì)。在多個實(shí)施例中,這些屬性基于預(yù)定義信息和模型(例如,領(lǐng)域知識數(shù)據(jù)庫137 )來確定。
[0053]在步驟307處,面孔識別系統(tǒng)(例如,經(jīng)由建模模塊155)使用圖像確定個人面孔的3D模型。例如,建模模塊155可以基于步驟305處確定的屬性從庫(例如領(lǐng)域知識數(shù)據(jù)庫137)選擇3D網(wǎng)格,并以步驟303中獲取的圖像的拼塊填充網(wǎng)格。在多個實(shí)施例中,該面孔識別系統(tǒng)可以從多個圖像識別3D模型中缺乏信息的元素。如果該3D模型缺少任何元素,則該面孔識別工具可以使用領(lǐng)域知識(例如,領(lǐng)域知識數(shù)據(jù)庫137)來提供所識別的元素的信息,其中該領(lǐng)域知識是根據(jù)屬性與受檢者或目標(biāo)個人的屬性相似的個人匯編的。
[0054]在步驟309處,面孔識別系統(tǒng)(例如,經(jīng)由建模模塊155)將步驟307處確定的3D模型歸一化。歸一化可以包括對3D模型進(jìn)行重光照以將3D模型表示的面孔中的光照變化歸一化。此外,歸一化可以包括將3D模型表示的面孔的表情中和,修改3D模型表示的面孔的年齡,以及將與3D模型關(guān)聯(lián)的面部化妝和遮擋納入考慮,正如本文先前描述的。
[0055]在步驟311處,面孔識別系統(tǒng)(例如,經(jīng)由提取模塊159)從步驟309中歸一化的3D模型中提取與面孔的不同姿態(tài)對應(yīng)的2D拼塊。例如,每個不同姿態(tài)可以對應(yīng)于3D模型的相應(yīng)視角范圍。對于每個視角范圍,該面孔識別系統(tǒng)可以確定多個可視拼塊,并將這些拼塊的信息與相應(yīng)視角范圍關(guān)聯(lián)地存儲在數(shù)據(jù)庫(例如,在模型數(shù)據(jù)庫138中)中。
[0056]在步驟313處,面孔識別系統(tǒng)(例如,經(jīng)由提取模塊159)確定步驟311中使用的不同姿態(tài)的多視圖PEP簽名。在多個實(shí)施例中,多視圖PEP簽名對應(yīng)于來自不同角度的相應(yīng)視角范圍的3D模型。在多個實(shí)施例中,該面孔識別系統(tǒng)使用多個附加面孔圖像以迭代方式精細(xì)化多視圖PEP簽名。但是,根據(jù)本發(fā)明的多個方面,每個多視圖PEP簽名具有固定大小,而不考慮附加面孔圖像的數(shù)量。而且,根據(jù)本發(fā)明的多個方面,該面孔識別系統(tǒng)確定與面孔中相對于面孔的其他特征具有最大有判別力的特征的部分對應(yīng)的多視圖PEP簽名之一。在多個實(shí)施例中,確定面孔中具有最大有判別力的特征的部分是使用卷積神經(jīng)網(wǎng)絡(luò)來執(zhí)行,該卷積神經(jīng)網(wǎng)絡(luò)已利用用于執(zhí)行面孔特征選擇的數(shù)據(jù)來訓(xùn)練。例如,基于訓(xùn)練數(shù)據(jù),該卷積神經(jīng)網(wǎng)絡(luò)能夠用于確定每個部分的不確定性度量并選擇這些面孔中具有最小不確定性度量的對應(yīng)部分。
[0057]在步驟315處,面孔識別系統(tǒng)(例如,經(jīng)由提取模塊159)利用步驟305中確定的屬性對多視圖PEP簽名建立索引。在多個實(shí)施例中,對于特定多視圖PEP簽名,可以通過將屬性轉(zhuǎn)換成視為分量多視圖PEP簽名的向量來對該屬性建立索引。例如,可以使用優(yōu)化變換編碼方法來執(zhí)行索引。
[0058]在步驟317處,該面孔識別系統(tǒng)(例如,經(jīng)由提取模塊159)將一個或多個不確定性度量與每個多視圖PEP簽名關(guān)聯(lián)。這些不確定性度量可以是基于生成每個多視圖PEP簽名所用的信息的質(zhì)量(例如,由于遮擋、面部化妝、光照和視角導(dǎo)致的)確定的值??梢詫⑦@些多視圖PEP簽名與步驟315處確定的其相應(yīng)屬性以及步驟317處確定的相應(yīng)不確定性度量關(guān)聯(lián)地存儲在數(shù)據(jù)庫中(例如,模型數(shù)據(jù)庫138)。
[0059]在步驟319處,該面孔識別系統(tǒng)(例如,經(jīng)由匹配模塊163)基于步驟305中確定的屬性、步驟315中確定的多視圖PEP簽名和步驟317處確定的不確定性度量來確定輸入圖像是否與已建模的個人面孔匹配。在多個實(shí)施例中,該確定包括基于輸入圖像的分辨率來修改多個簽名的分辨率。此外,在多個實(shí)施例中,該確定包括使用多種成像模態(tài)來執(zhí)行匹配。例如,匹配可以使用與可見光譜圖像、紅外線圖像和/或繪畫對應(yīng)的PEP簽名來執(zhí)行。
[0060]圖4圖示根據(jù)本發(fā)明公開多個方面的用于使用面孔識別系統(tǒng)(例如,面孔識別系統(tǒng)105)確定基于屬性的表示的流程圖。該面孔識別系統(tǒng)可以與本文先前描述的相同。在步驟403處,該面孔識別系統(tǒng)從一個或多個源(例如圖像源110)接收個人的一個或多個圖像405。在步驟407處,該面孔識別系統(tǒng)(例如,使用建模模塊155)確定個人面孔的3D模型。該3D模型可以基于標(biāo)準(zhǔn)形狀,該標(biāo)準(zhǔn)形狀是基于從接收的圖像(例如使用分析模塊153)提取的個人的屬性(例如,性別、年齡、人種等)來選擇的。再者,該面孔識別系統(tǒng)可以通過對模型光照構(gòu)成、將面孔表情歸一化和/或?qū)⒚婵桌匣瘉硇薷?D模塊中個人面孔的表示,正如先前描述。[0061 ]在步驟409處,該面孔識別系統(tǒng)105(例如,使用提取模塊159)通過提取與3D模型的多個不同姿態(tài)對應(yīng)的2D拼塊以從步驟407處確定的3D模型確定多視圖Pep簽名。每個姿態(tài)可以對應(yīng)于基于俯仰和搖擺范圍的不同組合的3D模型的視角。例如,第一組合可以包括-15度至15度的俯仰范圍和10度至40度的搖擺范圍;第二組合可以包括-10度至+10度的俯仰范圍和-90度至-75度的搖擺范圍;第三組合可以包括-10度至+10度的俯仰范圍和-45度至-15度的搖擺范圍;第四組合可以包括-10度至+10度的俯仰范圍和-15度至+15度的搖擺范圍;第五組合可以包括-10度至+10度的俯仰范圍和+15度至+45度的搖擺范圍;第六組合可以包括-10度至+10度的俯仰范圍和+75度至+90度的搖擺范圍;以及第七組合可以包括-40度至-10度的俯仰范圍和-15度至+15度的搖擺范圍。根據(jù)本發(fā)明多個方面,對于多種圖像模態(tài)413(例如,可見光譜、紅外線和素描/動畫)確定多視圖PEP簽名。
[0062]在步驟415處,該面孔識別系統(tǒng)(例如,使用提取模塊159)填充多個bin 417 (例如,bin 0-8),這些bin 417分別對應(yīng)于為步驟409中使用的不同姿態(tài)(例如,姿態(tài)0_8)確定的每個多視圖PEP簽名。此外,通過一個或多個屬性419為每個bin 417建立索引。再者,將每個bin 417與相應(yīng)不確定性度量421關(guān)聯(lián)。根據(jù)本發(fā)明公開的多個方面,可以基于個人的圖像與對應(yīng)于不同姿態(tài)確定的多視圖PEP簽名之間的相似度來標(biāo)識個人。
[0063]圖5圖示根據(jù)本發(fā)明公開多個方面的面孔識別系統(tǒng)(例如,面孔識別系統(tǒng)105)來確定屬性的流程圖。這些屬性可以由面孔識別系統(tǒng)的分析模塊153來確定,并且這些屬性可以與本文先前描述的相同。在步驟503處,分析模塊153可以檢測圖像中的個人面孔,正如本文先前描述。可以將檢測到的面孔與姿態(tài)關(guān)聯(lián)。在步驟505處,分析模塊153可以確定步驟503處檢測到的面孔中的基準(zhǔn)點(diǎn),正如本文先前描述。在步驟507處,分析模塊153可以基于步驟505處確定的基準(zhǔn)點(diǎn)來從面孔內(nèi)確定2D拼塊。
[0064]再者,在步驟509處,分析模塊153可以將步驟503中以及步驟507處確定的2D拼塊檢測到的面孔的屬性(例如,姿態(tài))分類。例如,基于面孔和2D拼塊,分析模塊153使用線性分類器,其將語義“男性”、“高加索人”、“尖鼻子”和“眼鏡”與圖像關(guān)聯(lián)。每個語義可以具有相應(yīng)語義的關(guān)聯(lián)權(quán)重,該關(guān)聯(lián)權(quán)重對應(yīng)于該確定的可信度。例如,當(dāng)分析模塊153確定圖像中的個人的性別肯定是男性時,與語義“男性”關(guān)聯(lián)的權(quán)重較大,以及當(dāng)分析模塊153確定圖像中個人的性別不明顯地是男性時,權(quán)重可能較低。在多個實(shí)施例中,可信度可以基于圖像中的基準(zhǔn)點(diǎn)與參考數(shù)據(jù)(例如,領(lǐng)域知識數(shù)據(jù)庫137中的)進(jìn)行比較所確定的相似度來確定。
[0065]在多個實(shí)施例中,分析模塊153使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來確定這些屬性,該卷積神經(jīng)網(wǎng)絡(luò)(CNN)識別與頭部姿態(tài)的訪問搖擺和俯仰值對應(yīng)的多視圖PEP表示。通過在步驟507中基于姿態(tài)相關(guān)的部分將圖像分解成2D拼塊,卷積神經(jīng)網(wǎng)絡(luò)的后續(xù)訓(xùn)練實(shí)質(zhì)性地更容易。相應(yīng)地,分析模塊153可以從相對較小的數(shù)據(jù)集確定姿態(tài)歸一化的特征。除了低級別特征外,用于建立一對表示之間的對應(yīng)關(guān)系(或匹配)所用的圖像拼塊還取決于3D姿態(tài)(搖擺和俯仰),并且可以使用該卷積神經(jīng)網(wǎng)絡(luò)對應(yīng)于每個3D姿態(tài)獨(dú)立地進(jìn)行學(xué)習(xí)。再者,分析模塊153可以使用強(qiáng)化深度卷積網(wǎng)絡(luò)的模型以使輸入層基于語義上對齊的部分拼塊。此模型學(xué)習(xí)某個姿態(tài)下特定于某個屬性的特征。分析模塊153然后可以將此類網(wǎng)絡(luò)傳輸?shù)膶傩越M合并構(gòu)造姿態(tài)歸一化的深度表示。該分析模塊將深度學(xué)習(xí)構(gòu)架集成在基于多視圖PEP的表示中,其訓(xùn)練成支持具有不同分辨率、質(zhì)量和狀況(例如,年齡、姿態(tài)、照明)的媒體。
[0066]圖6圖示根據(jù)本發(fā)明公開多個方面的面孔識別系統(tǒng)(例如,面孔識別系統(tǒng)105)執(zhí)行的用于確定多視圖PEP簽名的過程的流程圖??梢杂商崛∧K159來確定這些屬性,其可以與本文先前論述的那些屬性相同。
[0067]在步驟603處,提取模塊159從3D模型中提取局部描述符,這可與先前所述一樣。在步驟605處,提取模塊159確定PEP模型的分量。根據(jù)本發(fā)明的多個方面,訓(xùn)練圖像(例如,圖像數(shù)據(jù)庫136中的),建模模塊155使用將高斯分量約束成球形的高斯混合模型來提取空間表觀局部描述符。提取模塊159可以使用預(yù)期最大化(EM)來確定參數(shù)。PEP模型有效地基于部分基于表示處理姿態(tài)變化,并且使用不變性局部描述符來處理來自其他因素的變化。
[0068]在步驟607處,提取模塊159從步驟605中確定的PEP模型的分量確定最大似然部分描述符。例如,所確定的PEP模型的每個高斯分量(表示面孔部分)從模型的參數(shù)中選擇該分量的最高概率的局部圖像描述符。
[0069]在步驟609處,提取模塊159從步驟607中確定的最大似然部分描述符確定PEP簽名。為了確定最終表示,提取模塊159可以從所有分量集中選定的描述符。為了處理真實(shí)世界狀況,提取模塊159將上文描述的PEP模型擴(kuò)展成姿態(tài)感知的PEP模型,從而建模模塊155將搖擺-俯仰姿態(tài)空間離散化成不同姿態(tài)bin,并獲取每個bin的不同PEP模型和表示。所有PEP模型的整體效果促成能夠更有效的對更大范圍姿態(tài)變化建模的整體PEP表示。提取模塊159對整體中每個個體PEP表示進(jìn)行度量學(xué)習(xí),并自然地采用輸入面孔圖像相對于每個個體PEP模型的產(chǎn)生概率以自適應(yīng)地對基于每個個體PEP表示定義的度量加權(quán)。
[0070]利用受檢者的每個附加面孔圖像,提取模塊159匯總采用軟最大值聚合將這些部分描述符聚合。通過獲取來自所有面孔圖像的所有最大似然部分描述符的加權(quán)和,其中每個最大似然部分描述符的權(quán)重是使用與對應(yīng)部分關(guān)聯(lián)的描述符的概率通過多項(xiàng)式軟最大值函數(shù)設(shè)置的,PEP模型能夠?qū)崿F(xiàn)描述符的增量且可逆更新。同時地記錄每個最大似然部分描述符的概率,能夠通過將來自附加新圖信道最大似然描述符相加或從已用于產(chǎn)生現(xiàn)有表示的現(xiàn)有圖像子集移除最大似然描述符來實(shí)現(xiàn)靈活地更新現(xiàn)有表示,而無需訪問所有原始圖像。再者,基于軟最大值聚合的更新能夠使得姿態(tài)感知PEP表示固定大小。
[0071]根據(jù)本發(fā)明的多個方面,基于姿態(tài)感知PEP的2D表示將是三部分表示,其中每個部分對應(yīng)于來自可視光譜的圖像、來自近紅外光譜的圖像和復(fù)合素描(或動畫)的圖像。對于每種類型的表示,提取模塊159估計不確定性度量,其與基于產(chǎn)生概率從拼塊導(dǎo)出的簽名關(guān)聯(lián)。此類不確定性度量可以幫助將簽名與個人精確地匹配。
[0072]本發(fā)明公開不限于本申請中描述的特定實(shí)施例,這些實(shí)施例旨在作為多個方面的說明。本領(lǐng)域技術(shù)人員將顯見到,在不背離其范圍和精神的前提下可以進(jìn)行多種修改和改變。除了本文枚舉的那些外,本領(lǐng)域技術(shù)人員根據(jù)前文描述將顯見到本發(fā)明公開的范圍內(nèi)的功能上等效的方法和裝置。此類修改和改變理應(yīng)落在所附權(quán)利要求的范圍內(nèi)。本發(fā)明公開僅由所附權(quán)利要求連同此類權(quán)利要求賦予的等效物的全部范圍來限定。還要理解的是,本文所使用的術(shù)語僅出于描述特定實(shí)施例的目的,并無意作為限制。
[0073]就本文中大致任何復(fù)數(shù)形式和/或單數(shù)形式術(shù)語的使用而言,本領(lǐng)域技術(shù)人員能夠酌情將復(fù)數(shù)解釋為單數(shù)和/或從單數(shù)解釋為復(fù)數(shù)。為了簡明期間,本文可能明確地闡述多種單數(shù)/復(fù)數(shù)置換。
[0074]本領(lǐng)域技術(shù)人員將理解,一般地,本文使用的術(shù)語,尤其所附權(quán)利要求中使用的術(shù)語(例如,所附權(quán)利要求的文體)一般理應(yīng)作為“開放性”術(shù)語(例如,術(shù)語“包含”應(yīng)解釋為“包含但是不限于”,術(shù)語“具有”應(yīng)該解釋為“至少具有”,術(shù)語“包括”應(yīng)解釋為“包括但不限于”等)。本領(lǐng)域人員將進(jìn)一步理解,如果有意指出被引入的權(quán)利要求引述(ClaimRecitat1n)的具體數(shù)目,則在該權(quán)利要求中將顯式地陳述該意圖,并且若沒有這種陳述,則沒有這種意圖。例如,作為對理解的幫助,權(quán)利要求可包含介紹性短語“至少一個”和“一個或多個”的使用,以引入權(quán)利要求引述。然而,即便當(dāng)同樣的權(quán)利要求包含介紹性短語“一個或多個”或“至少一個”以及不定冠詞(例如,“一個” 一般應(yīng)當(dāng)被解釋為指“至少一個”或“一個或多個”)時,這些短語的使用也不應(yīng)當(dāng)被解釋為暗示由不定冠詞對權(quán)利要求引述的引入將包含了這些被引入的權(quán)利要求引述的任何特定權(quán)利要求限制為僅僅包含了一個這種引述的發(fā)明;對于使用被用于引入權(quán)利要求引述的定冠詞,同樣成立。此外,即使顯式地陳述具體數(shù)目的被引用的權(quán)利要求引述,本領(lǐng)域技術(shù)人員將認(rèn)識到,這種引述應(yīng)當(dāng)被解釋為指至少該所述數(shù)目(例如,沒有其他修飾語的“兩個引述”的單純引述一般指至少兩個引述,或者兩個或更多引述)。再者,在使用了類似于“A、B和C等的至少其中之一”的慣例的那些情況中,一般來說,這種結(jié)構(gòu)是在本領(lǐng)域技術(shù)人員將會解讀該慣例的意義上被意指的(例如,“具有A、B和C的至少其中之一的系統(tǒng)”會包括但不限于僅具有A、僅具有B、僅具有C、具有A與B、具有A與C、具有B與C和/或具有A、B及C、等的系統(tǒng))。在使用了類似于“A、B或C等的至少其中之一”的慣例的那些情況中,一般來說,這種結(jié)構(gòu)是在本領(lǐng)域技術(shù)人員將會解讀該慣例的意義上被意指的(例如,“具有A、B或C的至少其中之一的系統(tǒng)”會包括但不限于僅具有A、僅具有B、僅具有C、具有A與B、具有A與C、具有B與C和/或具有A、B及C、等的系統(tǒng))。本領(lǐng)域人員將進(jìn)一步理解,無論在說明書、權(quán)利要求書或附圖中,任何轉(zhuǎn)折詞和/或表示兩個或更多替代術(shù)語的短語應(yīng)當(dāng)為理解為設(shè)想到了以下可能包含這些術(shù)語中的一個;包含這些術(shù)語中的僅僅一個;包含兩者。例如,短語“A或B”將被理解為包括“A”或“B”或“A和B”的可能。例如,短語"A或B”將被理解為包括“A”或“B”或“A和B”的可能。此外,在本發(fā)明公開的多個特征或方面是依據(jù)馬庫什(Markush)組來描述的,但是本領(lǐng)域技術(shù)人員將認(rèn)識到,本發(fā)明公開還由此依據(jù)馬庫什組成員的任何個別組或子組來描述。
[0075]雖然本文公開的多種方面和實(shí)施例,但是本領(lǐng)域技術(shù)人員將顯見到其他方面和實(shí)施例。本文公開的多種方面和實(shí)施例是出于說明的目的,而非旨在作為限制,其真實(shí)范圍和精神由所附權(quán)利要求來指示。
【主權(quán)項(xiàng)】
1.一種方法,包括: 基于個人的多個不同圖像確定所述個人面孔的三維(3D)模型; 從所述3D模型提取二維(2D)拼塊;以及 使用所述2D拼塊的不同組合來生成所述面孔的多個簽名,其中所述多個簽名對應(yīng)于來自不同角度的所述3D模型的相應(yīng)視圖。2.如權(quán)利要求1所述的方法,其中所述確定所述3D模型包括: 從所述多個圖像識別缺乏信息的所述3D模型的元素;以及 使用領(lǐng)域知識為所識別元素提供所述信息,所述領(lǐng)域知識是從具有與所述個人的屬性相似的屬性的個人匯編的。3.如權(quán)利要求1所述的方法,還包括通過將所述3D模型中的光照變化歸一化來修改所述3D模型。4.如權(quán)利要求1所述的方法,還包括將所述個人的所述多個不同圖像產(chǎn)生的面部表情中和。5.如權(quán)利要求1所述的方法,還包括基于所述個人的年齡來修改所述3D模型。6.如權(quán)利要求1所述的方法,還包括確定所述個人的多個屬性,所述多個屬性在語義上描述所述個人的特質(zhì)。7.如權(quán)利要求6所述的方法,還包括基于所述多個屬性對所述多個簽名建立索引。8.如權(quán)利要求1所述的方法,還包括確定所述多個簽名的相應(yīng)不確定性值,其中所述不確定性值基于所述多個簽名中包含的相應(yīng)2D拼塊的質(zhì)量。9.如權(quán)利要求1所述的方法,還包括確定面孔圖像與所述多個簽名的至少其中之一匹配。10.如權(quán)利要求9所述的方法,其中所述確定所述面孔圖像匹配包括,基于所述面孔圖像的分辨率修改所述多個簽名的分辨率。11.如權(quán)利要求9所述的方法,其中所述確定所述面孔圖像匹配包括,使用多個成像模態(tài)來進(jìn)行匹配。12.如權(quán)利要求1所述的方法,其中使用所述個人的多個附加面孔圖像以迭代方式精細(xì)化所述面孔的所述多個簽名。13.如權(quán)利要求12所述的方法,其中所述面孔的所述多個簽名具有固定大小,而不考慮附加面孔圖像的數(shù)量。14.如權(quán)利要求1所述的方法,還包括: 確定與所述多個簽名分別對應(yīng)的不確定性度量, 將所述多個簽名與所述對應(yīng)不確定性度量關(guān)聯(lián)。15.如權(quán)利要求1所述的方法,還包括確定所述多個簽名中哪個與所述面孔中具有最大數(shù)量有判別力的特征的部分對應(yīng)。16.一種面孔識別系統(tǒng),其包括: 處理器; 存儲系統(tǒng); 存儲在計算機(jī)可讀硬件存儲設(shè)備上以供所述處理器執(zhí)行的程序指令,所述程序指令包括: 基于個人的多個不同圖像確定所述個人面孔的三維(3D)模型的程序指令; 從所述3D模型提取二維(2D)拼塊的程序指令;以及 使用所述2D拼塊的不同組合來生成所述面孔的多個簽名的程序指令,其中所述多個簽名對應(yīng)于來自不同角度的所述3D模型的相應(yīng)視圖。17.如權(quán)利要求16所述的系統(tǒng),其中所述確定所述3D模型包括: 從所述多個圖像識別所述3D模型中缺乏信息的元素;以及 使用領(lǐng)域知識為所識別元素提供所述信息,所述領(lǐng)域知識是從具有與所述個人的屬性相似的屬性的個人匯編的。18.如權(quán)利要求16所述的系統(tǒng),還包括通過將所述3D模型中的光照變化歸一化來修改所述3D模型。19.如權(quán)利要求16所述的系統(tǒng),還包括將所述個人的所述多個不同圖像產(chǎn)生的面部表情歸一化。20.如權(quán)利要求16所述的系統(tǒng),還包括基于所述個人的年齡來修改所述3D模型。21.如權(quán)利要求16所述的系統(tǒng),還包括確定所述個人的多個屬性,所述多個屬性在語義上描述所述個人的特質(zhì)。22.如權(quán)利要求21所述的系統(tǒng),還包括基于所述多個屬性對所述多個簽名建立索引。23.如權(quán)利要求16所述的系統(tǒng),還包括確定所述多個簽名的相應(yīng)不確定性值,其中所述不確定性值基于所述多個簽名中包含的相應(yīng)2D拼塊的質(zhì)量。24.如權(quán)利要求16所述的系統(tǒng),還包括確定面孔圖像與所述多個簽名的至少其中之一匹配。25.如權(quán)利要求24所述的系統(tǒng),其中所述確定所述面孔圖像匹配包括,基于所述面孔圖像的分辨率修改所述多個簽名的分辨率。26.如權(quán)利要求24所述的系統(tǒng),其中所述確定所述面孔圖像匹配包括,使用多種成像模態(tài)來進(jìn)行匹配。27.如權(quán)利要求16所述的系統(tǒng),其中使用所述個人的多個附加面孔圖像以迭代方式精細(xì)化所述面孔的所述多個簽名。28.如權(quán)利要求16所述的系統(tǒng),其中所述面孔的所述多個簽名具有固定大小,而不考慮附加面孔圖像的數(shù)量。29.如權(quán)利要求16所述的系統(tǒng),還包括: 確定與所述多個簽名分別對應(yīng)的不確定性度量, 將所述多個簽名與所述對應(yīng)不確定性度量關(guān)聯(lián)。30.如權(quán)利要求16所述的系統(tǒng),還包括確定所述多個簽名中哪個與所述面孔中具有最大數(shù)量有判別力的特征的部分對應(yīng)。
【文檔編號】G06K9/00GK106068514SQ201480076022
【公開日】2016年11月2日
【申請日】2014年12月19日 公開號201480076022.4, CN 106068514 A, CN 106068514A, CN 201480076022, CN-A-106068514, CN106068514 A, CN106068514A, CN201480076022, CN201480076022.4, PCT/2014/71548, PCT/US/14/071548, PCT/US/14/71548, PCT/US/2014/071548, PCT/US/2014/71548, PCT/US14/071548, PCT/US14/71548, PCT/US14071548, PCT/US1471548, PCT/US2014/071548, PCT/US2014/71548, PCT/US2014071548, PCT/US201471548
【發(fā)明人】A.卡勞吉亞, N.拉馬納桑, T.E.崔
【申請人】威智倫富智堡公司