基于圖像的多視點3d臉部生成的制作方法
【專利摘要】描述系統(tǒng)、設備和方法,其包括:恢復多個2D臉部圖像的相機參數(shù)和稀疏關鍵點;以及運用多視點立體過程以便利用相機參數(shù)和稀疏關鍵點來生成稠密化身網(wǎng)格。然后,可以利用稠密化身網(wǎng)格來生成3D臉部模型,并可以運用多視點紋理合成來生成3D臉部模型的紋理圖像。
【專利說明】基于圖像的多視點3D臉部生成
【背景技術】
[0001]人臉特征的3D建模普遍用于創(chuàng)建人的真實感3D表示。例如,諸如化身(avatar)的虛擬人表示常常利用這樣的模型。生成的3D臉部的常規(guī)應用需要手動標記特征點。盡管這些技術可以采用形變模型擬合,但是如果它們允許自動臉部標志點檢測并采用多視點立體(MVS)技術則會是合意的。
【專利附圖】
【附圖說明】
[0002]附圖中以實例的方式而不以限制的方式示出本文所描述的題材。為了簡單、清楚地說明,圖中示出的元件不一定按比例繪制。例如,為清楚起見,一些元件的尺寸可能相對于其它元件有所夸大。此外,在認為合適時,附圖中重復使用附圖標記來指示對應或類似的元件。圖中:
圖1是實例系統(tǒng)的說明性圖;
圖2示出實例3D臉部模型生成過程;
圖3示出邊界框和標識的臉部標志點的實例;
圖4示出多個恢復的相機和對應的稠密化身網(wǎng)格的實例;
圖5示出將重建的形變臉部網(wǎng)格融合到稠密化身網(wǎng)格的實例;
圖6示出實例形變臉部網(wǎng)格三角形;
圖7示出實例角度加權的紋理合成方法;
圖8示出用于生成最終的3D臉部模型的紋理圖像與對應的平滑3D臉部模型的實例組合;以及
圖9是全都按照本公開的至少一些實現(xiàn)布置的實例系統(tǒng)的說明性圖。
【具體實施方式】
[0003]現(xiàn)在參考附圖描述一個或多個實施例或實現(xiàn)。盡管論述了特定的配置和布置,但是應了解,這樣做只是為了說明的目的。本領域技術人員將意識到,在不偏離本描述的精神和范圍的情況下,可以采用其它配置和布置。本領域技術人員將明白,也可以在不同于本文所描述的各種其它系統(tǒng)和應用中采用本文所描述的技術和/或布置。
[0004]盡管以下描述闡述了例如可在諸如芯片上系統(tǒng)(SoC )架構的架構中證明的各種實現(xiàn),但是本文描述的技術和/或布置的實現(xiàn)不限于特定的架構和/或計算系統(tǒng),并且出于類似的目的,可以由任何架構和/或計算系統(tǒng)來實現(xiàn)。例如,采用例如多個集成電路(IC)芯片和/或封裝的各種架構、和/或諸如機頂盒、智能電話等各種計算設備和/或消費型電子(CE)設備可以實現(xiàn)本文所描述的技術和/或布置。此外,盡管以下描述可能會闡述諸如系統(tǒng)組件的邏輯實現(xiàn)、類型和相互關系、邏輯分區(qū)/集成選擇等眾多具體細節(jié),但是在沒有這些具體細節(jié)的情況下也可以實踐要求權利的主題。例如,在其它情況下,可能沒有詳細示出諸如控制結構和全軟件指令序列的一些題材,以免使本文所公開的題材晦澀難懂。
[0005]本文所公開的題材可以用硬件、固件、軟件或其任意組合來實現(xiàn)。本文所公開的題材也可以作為存儲在機器可讀介質上的指令來實現(xiàn),這些指令可以由一個或多個處理器讀取并執(zhí)行。機器可讀介質可以包括用于存儲或傳送可由機器(例如,計算設備)讀取的形式的信息的任何介質和/或機構。例如,機器可讀介質可以包括:只讀存儲器(ROM);隨機存取存儲器(RAM);磁盤存儲介質;光存儲介質;閃速存儲器設備;電、光、聲或其它形式的傳播信號(例如,載波、紅外信號、數(shù)字信號等);以及其它。
[0006]說明書中提到“一個實現(xiàn)”、“實現(xiàn)”、“實例實現(xiàn)”等時表示,所描述的實現(xiàn)可以包括特定特征、結構或特性,但不是每個實現(xiàn)都一定要包含該特定特征、結構或特性。而且,這些短語不一定指相同的實現(xiàn)。此外,當結合一個實現(xiàn)描述特定特征、結構或特性時,認為,本領域技術人員知道結合其它實現(xiàn)來實施該特征、結構或特性,而不管本文是否進行了明確描述。
[0007]圖1示出根據(jù)本公開的實例系統(tǒng)100。在各種實現(xiàn)中,系統(tǒng)100可以包括圖像捕捉模塊102和3D臉部模擬模塊110,它們能夠如本文將描述地那樣生成包括臉部紋理的3D臉部模型。在各種實現(xiàn)中,可以在字符建模和創(chuàng)建、計算機圖形、視頻會議、在線游戲、虛擬現(xiàn)實應用等中采用系統(tǒng)100。此外,系統(tǒng)100可以適于諸如感知計算、數(shù)字家庭娛樂、消費型電子等應用。
[0008]圖像捕捉模塊102包括諸如照相機或攝像機的一個或多個圖像捕捉設備104。在一些實現(xiàn)中,可以在對象臉部108周圍沿弧線或軌跡106移動單個相機104以便生成臉部108的一系列圖像,其中如下文將更詳細地解釋的,每個圖像相對于臉部108的視角是不同的。在其它實現(xiàn)中,可以采用相對于臉部108成各種角度定位的多個成像設備104。一般來說,可以在捕捉模塊102中采用任何數(shù)量的已知的圖像捕捉系統(tǒng)和/或技術來生成圖像序列(例如,參見 Seitz 等人的 “A Comparison and Evaluation of Mult1-View StereoReconstruction Algorithms, ” In Proc.1EEE Conf.0n Computer Vision and PatternRecognition, 2006)(下文稱為 “Seitz 等人”)。
[0009]圖像捕捉模塊102可以將圖像序列提供給模擬模塊110。模擬模塊110至少包括臉部檢測模塊112、多視點立體(MVS)模塊114、3D形變臉部模塊116、對齊模塊118和紋理模塊120,下文將更加詳細地解釋這些模塊的功能性。一般來說,如也將在下文更加詳細地解釋的,模擬模塊110可用于從由捕捉模塊102所提供的圖像中選擇圖像,對選擇的圖像執(zhí)行臉部檢測以便獲得臉部邊界框和臉部標志點,恢復相機參數(shù)并獲得稀疏關鍵點,執(zhí)行多視點立體技術以便生成稠密化身網(wǎng)格,將網(wǎng)格擬合到形變3D臉部模型,通過對3D臉部模型進行對齊和平滑處理來精煉3D臉部模型,并合成臉部模型的紋理圖像。
[0010]在各種實現(xiàn)中,圖像捕捉模塊102和模擬模塊110可以彼此相鄰或接近。例如,圖像捕捉模塊102可以采用攝像機作為成像設備104,并且模擬模塊110可以通過計算系統(tǒng)來實現(xiàn),該計算系統(tǒng)從設備104直接接收圖像序列,然后對這些圖像進行處理以便生成3D臉部模型和紋理圖像。在其它實現(xiàn)中,圖像捕捉模塊102和模擬模塊110可以彼此遠離。例如,遠離圖像捕捉模塊102的一個或多個服務器計算機可以實現(xiàn)模擬模塊110,其中模塊110可以經(jīng)由例如互聯(lián)網(wǎng)從模塊102接收圖像序列。此外,在各種實現(xiàn)中,模擬模塊110可以由軟件、固件和/或硬件的任意組合來提供,軟件、固件和/或硬件可以或者可以不分布在各種計算系統(tǒng)間。
[0011]圖2示出根據(jù)本公開的各種實現(xiàn)用于生成3D臉部模型的實例過程200的流程圖。過程200可以包括如圖2的方框202、204、206、208、210、212、214和216中的一個或多個方框所示的一個或多個操作、功能或動作。作為非限制性實例,本文將參考圖1的實例系統(tǒng)來描述過程200。過程200可以在方框202開始。
[0012]在方框202,可以捕捉臉部的多個2D圖像,并且可以選擇這些圖像中的各種圖像用于進一步處理。在各種實現(xiàn)中,方框202可以涉及利用普通的商用相機來從不同的視角記錄人臉的視頻圖像。例如,可以在臉部保持靜止并維持中性表情的同時在人頭部前方周圍跨越大約180度的不同定向記錄視頻歷時大約10秒的持續(xù)時間。這可導致捕捉大約三百個2D圖像(假設每秒三十幀的標準視頻幀速率)。接著,可以解碼得到的視頻,并手動地或者通過利用自動選擇方法來選擇大約30個左右的臉部圖像的子集(例如,參見R.Hartleyand A.Zisserman, “Multiple View Geometry in Computer Vision, ” Chapter 12,Cambridge Press, Second Version (2003))。在一些實現(xiàn)中,選擇的相鄰圖像之間的角度(如相對于被成像對象所測量的)可以是10度或更小。
[0013]接著,在方框204,可以對選擇的圖像執(zhí)行臉部檢測和臉部標志點標識,以便生成對應的臉部邊界框以及邊界框內的所標識的標志點。在各種實現(xiàn)中,方框204可以涉及運用已知的自動化多視點臉部檢測技術(例如,參見Kim et al.,“Face Trackingand Recognition with Visual Constraints in Real-fforld Videos,,, In IEEE Conf.Computer Vision and Pattern Recognition (2008)),以便利用臉部邊界框描畫每個圖像中的臉部輪廓和臉部標志點,從而限制標識標志點的區(qū)域并去除外界的背景圖像內容。例如,圖3示出對于人臉308的2D圖像306的邊界框302和所標識的臉部標志點304的非限制性實例。
[0014]在方框206,可以確定每個圖像的相機參數(shù)。在各種實現(xiàn)中,方框206可以包括對于每個圖像提取穩(wěn)定的關鍵點并利用諸如“Seitz等人”中所描述的已知的自動相機參數(shù)恢復技術來獲得特征點的稀疏集合以及包括相機投影矩陣的相機參數(shù)。在一些實例中,系統(tǒng)100的臉部檢測模塊112可以進行方框204和/或方框206。
[0015]在方框208,可以運用多視點立體(MVS)技術以便從稀疏特征點和相機參數(shù)生成稠密化身網(wǎng)格。在各種實現(xiàn)中,方框208可以涉及對于臉部圖像對執(zhí)行已知的立體單應(homography)與多視點對齊和整合技術。例如,如 W02010133007(“Techniques for RapidStereo Reconstruction from Images”)中所描述的,對于一對圖像,可以用已知的相機參數(shù)對通過單應擬合獲得的優(yōu)化的圖像點對進行三角測量以便獲得稠密化身網(wǎng)格中的三維點。例如,圖4示出可在方框206獲得的多個恢復的相機402 (例如,如恢復的相機參數(shù)所指定的)以及可在方框208獲得的對應的稠密化身網(wǎng)格404的非限制性實例。在一些實例中,系統(tǒng)100的MVS模塊114可以進行方框208。
[0016]返回到圖2的論述,在方框210,可以將在方框208獲得的稠密化身網(wǎng)格擬合到3D形變模型,以便生成重建的3D形變臉部網(wǎng)格。接著,在方框212,可以將稠密化身網(wǎng)格對齊到重建的形變臉部網(wǎng)格并進行精煉,以便生成平滑的3D臉部模型。在一些實例中,系統(tǒng)100的3D形變模型模塊116和對齊模塊118可以分別進行方框210和212。
[0017]在各種實現(xiàn)中,方框210可以涉及從臉部數(shù)據(jù)集合獲悉形變臉部模型。例如,臉部數(shù)據(jù)集合可以包括指定稠密化身網(wǎng)格中的每個點或頂點的形狀數(shù)據(jù)(例如,笛卡爾坐標系統(tǒng)中的(X,y, Z)網(wǎng)格坐標)和紋理數(shù)據(jù)(紅色、綠色和藍色強度值)??梢苑謩e通過相應的列向量(X1, Y1, Z1, X2, J2, Z2,…,Xn, yn, Zn)1[l (R1, G1, B1, R2, G2, B2,…,Rn,Gn, ZJt (其中,是臉部中的特征點或頂點的數(shù)量)來表示形狀和紋理。
[0018]可以利用下式來將通用臉部表示為3D形變臉部模型:
【權利要求】
1.一種計算機實現(xiàn)的方法,包括: 接收多個2D臉部圖像; 從所述多個臉部圖像恢復相機參數(shù)和稀疏關鍵點; 運用多視點立體過程以便響應所述相機參數(shù)和稀疏關鍵點生成稠密化身網(wǎng)格; 擬合所述稠密化身網(wǎng)格以便生成3D臉部模型;以及 運用多視點紋理合成以便生成與所述3D臉部模型相關聯(lián)的紋理圖像。
2.如權利要求1所述的方法,還包括對每個臉部圖像執(zhí)行臉部檢測。
3.如權利要求2所述的方法,其中對每個臉部圖像執(zhí)行臉部檢測包括對于每個圖像自動生成臉部邊界框以及自動標識臉部標志點。
4.如權利要求1所述的方法,其中擬合所述稠密化身網(wǎng)格以便生成所述3D臉部模型包括: 擬合所述稠密化身網(wǎng)格以便生成重建的形變臉部網(wǎng)格;以及 將所述稠密化身網(wǎng)格對齊到所述重建的形變臉部網(wǎng)格以便生成所述3D臉部模型。
5.如權利要求4所述的方法,其中擬合所述稠密化身網(wǎng)格以便生成所述重建的形變臉部網(wǎng)格包括運用迭代閉合點技術。
6.如權利要求4所述的方 法,還包括精煉所述3D臉部模型以便生成平滑的3D臉部模型。
7.如權利要求6所述的方法,還包括組合所述平滑的3D模型與所述紋理圖像以便生成最終的3D臉部模型。
8.如權利要求1所述的方法,其中恢復相機參數(shù)包括恢復與每個臉部圖像相關聯(lián)的相機位置,每個相機位置具有主軸,并且其中運用多視點紋理合成包括: 對于所述稠密化身網(wǎng)格中的點生成每個臉部圖像中的投影點; 確定所述稠密化身網(wǎng)格中的所述點的法線與每個相機位置的主軸之間的角度的余弦值;以及 按照由所述對應余弦值加權的所述投影點的紋理值的函數(shù)生成所述稠密化身網(wǎng)格中的所述點的紋理值。
9.一種系統(tǒng),包括: 處理器以及耦合到所述處理器的存儲器,其中所述存儲器中的指令將所述處理器配置成: 接收多個2D臉部圖像; 從所述多個臉部圖像恢復相機參數(shù)和稀疏關鍵點; 運用多視點立體過程以便響應所述相機參數(shù)和稀疏關鍵點生成稠密化身網(wǎng)格; 擬合所述稠密化身網(wǎng)格以便生成3D臉部模型;以及 運用多視點紋理合成以便生成與所述3D臉部模型相關聯(lián)的紋理圖像。
10.如權利要求9所述的系統(tǒng),其中所述存儲器中的指令還將所述處理器配置成對每個臉部圖像執(zhí)行臉部檢測。
11.如權利要求10所述的系統(tǒng),其中對每個臉部圖像執(zhí)行臉部檢測包括對于每個圖像自動生成臉部邊界框以及自動標識臉部標志點。
12.如權利要求9所述的系統(tǒng),其中擬合所述稠密化身網(wǎng)格以便生成所述3D臉部模型包括: 擬合所述稠密化身網(wǎng)格以便生成重建的形變臉部網(wǎng)格;以及 將所述稠密化身網(wǎng)格對齊到所述重建的形變臉部網(wǎng)格以便生成所述3D臉部模型。
13.如權利要求12所述的系統(tǒng),其中擬合所述稠密化身網(wǎng)格以便生成所述重建的形變臉部網(wǎng)格包括運用迭代閉合點技術。
14.如權利要求9所述的系統(tǒng),其中恢復相機參數(shù)包括恢復與每個臉部圖像相關聯(lián)的相機位置,每個相機位置具有主軸,并且其中運用多視點紋理合成包括: 對于所述稠密化身網(wǎng)格中的點生成每個臉部圖像中的投影點; 確定所述稠密化身網(wǎng)格中的所述點的法線與每個相機位置的主軸之間的角度的余弦值;以及 按照由所述對應余弦值加權的所述投影點的紋理值的函數(shù)生成所述稠密化身網(wǎng)格中的所述點的紋理值。
15.一種物品,包括計算機程序產品,在所述計算機程序產品中存儲有指令,所述指令在執(zhí)行時導致: 接收多個2D臉部圖像; 從所述多個臉部圖像恢復相機參數(shù)和稀疏關鍵點; 運用多視點立體過程以便響應所述相機參數(shù)和稀疏關鍵點生成稠密化身網(wǎng)格; 擬合所述稠密化身網(wǎng)格以便生成3D臉`部模型;以及` 運用多視點紋理合成以便生成與所述3D臉部模型相關聯(lián)的紋理圖像。
16.如權利要求15所述的物品,所述計算機程序產品中還存儲有指令,所述指令在執(zhí)行時導致對每個臉部圖像執(zhí)行臉部檢測。
17.如權利要求16所述的物品,其中對每個臉部圖像執(zhí)行臉部檢測包括對于每個圖像自動生成臉部邊界框以及自動標識臉部標志點。
18.如權利要求15所述的物品,其中擬合所述稠密化身網(wǎng)格以便生成所述3D臉部模型包括: 擬合所述稠密化身網(wǎng)格以便生成重建的形變臉部網(wǎng)格;以及 將所述稠密化身網(wǎng)格對齊到所述重建的形變臉部網(wǎng)格以便生成所述3D臉部模型。
19.如權利要求18所述的物品,其中擬合所述稠密化身網(wǎng)格以便生成所述重建的形變臉部網(wǎng)格包括運用迭代閉合點技術。
20.如權利要求15所述的物品,其中恢復相機參數(shù)包括恢復與每個臉部圖像相關聯(lián)的相機位置,每個相機位置具有主軸,并且其中運用多視點紋理合成包括: 對于所述稠密化身網(wǎng)格中的點生成每個臉部圖像中的投影點; 確定所述稠密化身網(wǎng)格中的所述點的法線與每個相機位置的主軸之間的角度的余弦值;以及 按照由所述對應余弦值加權的所述投影點的紋理值的函數(shù)生成所述稠密化身網(wǎng)格中的所述點的紋理值。
【文檔編號】G06T17/00GK103765479SQ201180073144
【公開日】2014年4月30日 申請日期:2011年8月9日 優(yōu)先權日:2011年8月9日
【發(fā)明者】X.童, J.李, W.胡, Y.杜, Y.張 申請人:英特爾公司