各種可穿戴設備由于特定原因而上市。例如,智能眼鏡和頭戴式顯示器可以確定用戶正在看什么。然而,這些設備未提供用戶的有用視圖,因為設備被靠著用戶放置并且具有向外指向的攝像機和/或為了眼睛跟蹤而指向用戶的眼睛的攝像機。本概念可以通過即使當攝像機被極接近用戶放置時也提供用戶的有用視圖來提供關于可穿戴設備的附加功能。
技術實現(xiàn)要素:
本說明書涉及面部跟蹤。一個示例可以包括定向結構,其被配置為相對于用戶的面部來放置可穿戴設備。該示例還可以包括攝像機,其被定向結構固定為與用戶的面部平行或成低角度以捕捉跨用戶的面部的圖像。該示例還可以包括處理器,其被配置為接收圖像以及將圖像映射到與化身(avatar)模型相關聯(lián)的參數(shù)。
以上列出的示例旨在提供快速參考以幫助讀者,并且不旨在限定在此描述的概念的范圍。
附圖說明
附圖圖示了在本文檔中傳達的概念的實現(xiàn)方式。所示實現(xiàn)的特征可通過結合附圖參考以下描述而更容易地理解。只要可行,各附圖中相似的標號就用來指代相似的元素。另外,每個標號的最左邊的數(shù)字傳達其中首次引入該標號的附圖以及相關聯(lián)的討論。
圖1和圖4至圖5示出了根據(jù)本概念的一些實現(xiàn)方式的可穿戴智能設備的示例。
圖2至圖3示出了根據(jù)本概念的一些實現(xiàn)方式的可視化情形的示例。
圖6是根據(jù)本概念的一些實現(xiàn)方式的示例可視化過程。
圖7至圖11B根據(jù)本概念的一些實現(xiàn)方式更詳細地示出了示例可視化系統(tǒng)的各方面。
圖12示出了根據(jù)本概念的一些實現(xiàn)方式的示例可視化系統(tǒng)。
概述
本說明書涉及捕捉關于用戶的有用視覺信息,諸如來自被極接近用戶放置和/或以與用戶成極低角度放置的攝像機的面部信息。這些概念可以被實現(xiàn)在運用低角度攝像機的各種可穿戴智能設備上。
這些概念的一個方面包括從用戶的低角度圖像得出有價值信息的能力。例如,一個或多個攝像機可被靠近用戶放置并且捕捉與用戶的面部幾乎平行的圖像。正常情況下這樣的圖像幾乎不具有價值。本實現(xiàn)方式可以從這些圖像中得出有用信息。有用信息可以用于各種目的,諸如以逼真方式控制用戶的化身。
介紹性的圖1示出了若干可穿戴智能設備102的示例。在這種情況下可穿戴智能設備102(1)表現(xiàn)為智能帽子,可穿戴智能設備102(2)表現(xiàn)為智能頭帶,可穿戴智能設備102(3)表現(xiàn)為智能眼鏡,并且可穿戴智能設備102(4)表現(xiàn)為智能麥克風。當然,其他示例被預期到??纱┐髦悄茉O備102可以包括一個或多個傳感器。在這一示例中,傳感器表現(xiàn)為低角度攝像機104、眼睛跟蹤攝像機106和/或麥克風108。(注意,可穿戴智能設備102(1)和102(3)包括低角度攝像機和眼睛跟蹤攝像機兩者。相比之下,可穿戴智能設備102(2)和102(4)不包括眼睛跟蹤攝像機)。攝像機可以是可見光攝像機和/或紅外攝像機,和/或深度攝像機等。這些元件的功能在下面被說明。可穿戴智能設備還可以包括定向結構110。定向結構可以表現(xiàn)為框架、帶、帽舌,或者幫助保持傳感器相對于用戶的位置和/或朝向的其他結構。如在上面提到的,所例示的實現(xiàn)方式中的一些實現(xiàn)方式利用低角度攝像機104和眼睛跟蹤攝像機106兩者。其他實現(xiàn)方式可以利用單個攝像機,該單個攝像機可以捕捉否則將由兩個攝像機提供的數(shù)據(jù)。例如,具有魚眼鏡片的低角度攝像機104可以用來捕捉用戶的面部的各部分,諸如眼睛、嘴部、面頰和/或下頜。
總而言之,可穿戴智能設備正變得更加常見。可穿戴智能設備經常包括攝像機。然而,因為攝像機如此接近用戶和/或被以不尋常的朝向放置,所以攝像機無法提供用戶(特別是用戶的面部)的有用圖像。本實現(xiàn)方式可以按照產生關于用戶的面部表情、嘴部運動、眨眼、眼睛注視方向等的有用信息的方式放置這些攝像機并且處理它們的圖像。
圖2示出了涉及穿著可穿戴智能設備102(1)的“用戶一”和穿著可穿戴智能設備102(2)的“用戶二”以及兩個顯示設備202(1)和202(2)的用例情形。假定用戶一位于靠近顯示設備202(1)的第一位置并且用戶二位于與第一位置分開某一距離的第二位置并且用戶二靠近顯示設備202(2)。在這一示例中,(如在圖1中示出的),可穿戴智能設備102(1)包括低角度攝像機104(1)和指向用戶一的眼睛的另一攝像機(例如,眼睛跟蹤攝像機)106(1)??纱┐髦悄茉O備102(2)包括低角度攝像機104(2)。
在這種情形下,可穿戴智能設備102(1)可以捕捉用戶一的圖像。這些圖像可以用來控制用戶一的表示。在這種情況下,用戶一的表示表現(xiàn)為在靠近用戶二的顯示設備202(2)上呈現(xiàn)的用戶一的化身204(1)。類似地,可穿戴智能設備102(2)可以捕捉用戶二的圖像。這些圖像可以用來控制用戶二的表示。在這種情況下,用戶二的表示表現(xiàn)為在靠近用戶一的顯示設備202(1)上呈現(xiàn)的用戶二的化身204(2)。在這種情形下,用戶可以相互通信,并且它們的相應的化身可以向另一用戶反映它們的眼睛運動、面部表情、下頜運動和/或嘴部運動(諸如由發(fā)音引起的)。
化身204可以表現(xiàn)為任何形式,諸如捕捉眼睛移動、面部表情和/或嘴部運動的卡通角色或者計算機生成的角色,但是不一定像用戶。在其他實現(xiàn)方式中,化身可以是用戶的真實表示(例如,增強的逼真圖像)。用于在討論期間看見相應的化身的能力可以促進比只有語音的通信更加魯棒和令人愉快的討論。例如,用于在討論期間看見其他用戶的反應的能力可以提供模仿面對面交談的反饋。
還注意到,雖然在圖2的情形中僅涉及兩個用戶,但是其他實現(xiàn)可以涉及附加用戶。另外,因為低角度攝像機104和/或眼睛跟蹤攝像機106可以跟蹤用戶的眼睛,所以實現(xiàn)方式可以辨別單獨用戶正在看著哪個用戶(例如,用戶一和用戶二正在看著用戶三的化身)。這種信息可以被反映在用戶的化身中并且正如在面對面群組情形中一樣可以是通信過程的有用部分。
圖3示出了與圖2的用例情形類似的另一用例情形。這一特定用例情形涉及兩組可穿戴智能設備102(3)(A)和102(3)(B)。雖然未被明確示出,但是假定可穿戴智能設備被圖2的用戶一和用戶二穿著。類似于上面的相對于圖2的討論,可穿戴智能設備102(3)(A)可以捕捉用戶一的低角度圖像以及使用圖像數(shù)據(jù)來控制可以為用戶二顯示的用戶一的表示(例如,化身204(1))。類似地,可穿戴智能設備102(3)(B)可以執(zhí)行相對于用戶二的相同功能以控制可以為用戶一顯示的用戶二的表示(例如,化身204(2))。
因此,可穿戴智能設備102(3)(A)示出了用戶一在看透可穿戴智能設備102(3)(A)時看見用戶二的化身204(2)并且可穿戴智能設備102(3)(B)示出了用戶二在看透可穿戴智能設備102(3)(B)時看見用戶一的化身204(1)??傊?,可穿戴智能設備102(3)(A)和102(3)(B)從用戶一和用戶二的角度被圖示,盡管用戶自身未被示出。可穿戴智能設備102(3)(A)和102(3)(B)可以捕捉用來控制穿著者的(例如,用戶的)化身的關于穿著者的圖像信息。化身被另一用戶的可穿戴智能設備示出,該可穿戴智能設備同時捕捉用于控制該用戶的化身的圖像數(shù)據(jù)。換言之,用戶二的化身204(2)被可穿戴智能設備102(3)(A)為用戶一顯示。類似地,用戶一的化身204(1)被可穿戴智能設備102(3)(B)為用戶二顯示。因此,這一實現(xiàn)方式可以提供促進視頻通話和/或其他用途的獨立可穿戴智能設備。
圖4和圖5分別示出了用戶三的正視圖和側視圖。在這種情況下,“用戶三”正穿著可穿戴智能設備102(3)(例如,智能,眼鏡)和可穿戴智能設備102(4)(例如,智能耳掛式麥克風)。在這種情況下,用戶三為了說明目的而穿著兩個可穿戴智能設備。備選地,用戶可以使用這些可穿戴智能設備中的任一個而沒有另一個。圖4至圖5還示出了基準平面402,其可以幫助圖示當前討論中的術語“低角度攝像機”意味的含義的示例。在這一實現(xiàn)方式中,基準平面402穿過或者包括用戶的眼睛和用戶的嘴部的前面。
在這一示例中,低角度攝像機104可以被按照相對于基準平面402的少于大約+/-45度的角度被定向(例如,低角度攝像機可以捕捉大體上與用戶的面部的表面平行的圖像)。相比之下,諸如在智能電話、平板或視頻會議系統(tǒng)上運用的那些的傳統(tǒng)攝像機被配置為大體上與基準平面402垂直地被定向并且無法從低角度捕捉有意義的圖像信息。
在這一示例中,可穿戴智能設備102(3)的低角度攝像機104(3)一般被放置在基準平面402內或靠近基準平面402被放置并且被配置為在沿著基準平面的方向或與基準平面平行的方向上捕捉由箭頭404表示的圖像。類似地,可穿戴智能設備102(4)的低角度攝像機104(4)一般被放置在基準平面402內或靠近基準平面402被放置并且被配置為在沿著基準平面402的方向或與基準平面402平行的方向上捕捉由箭頭406表示的圖像。
圖6示出了用于完成本概念的示例處理流程600。為了說明的目的,處理流程600可以被分成訓練階段602和部署階段604。訓練階段可以在606處為用戶構建化身模型。如在上面提到的,化身可以是逼真的或是某一其他形式的。用戶的化身可以經由化身模型608被定義?;砟P涂梢园ㄖT如對應于眼睛注視、嘴部運動等的多個面部參數(shù)或者動畫參數(shù)。另外,處理可以在610處針對傳感輸入與化身動畫參數(shù)之間的相關進行訓練以創(chuàng)建映射612。處理流程的這一部分可以通過利用可穿戴智能設備(例如,利用可穿戴智能設備上的傳感器)和諸如紅色、藍色、綠色加深度(RGBD)攝像機之類的另一成像設備同時記錄用戶而被完成。RGBD攝像機可以處于正常(一般與圖4的平面402垂直)朝向。用戶動作可以被諸如低角度攝像機、麥克風和/或其他傳感器(見圖1)之類的可穿戴智能設備和RGBD攝像機捕捉。映射612可以使如由RGBD攝像機和可穿戴智能設備捕捉的用戶的特定用戶動作與特定的化身動畫參數(shù)相關聯(lián)。
部署階段604可以單獨利用可穿戴智能設備被實現(xiàn)。在這種情況下,各種類型的傳感器數(shù)據(jù)614可以被可穿戴智能設備收集。在這一示例中,根據(jù)可穿戴智能設備的傳感器配置,傳感器數(shù)據(jù)614可以包括視頻數(shù)據(jù)、音頻數(shù)據(jù)和/或接觸數(shù)據(jù)等。(接觸數(shù)據(jù)可以被感測皮膚運動、肌肉收縮等的與用戶的皮相接觸的傳感器收集)傳感器數(shù)據(jù)614可以在616處被處理以得出傳感器輸入618。傳感器輸入618在620處可以利用來自訓練階段602的化身模型608和映射612而被映射到化身動畫參數(shù)。這一方面輸出用于部署階段604的化身動畫參數(shù)622?;韯赢媴?shù)620(和化身模型608)可以通過網絡624被發(fā)送以用于在626處的遠程化身渲染和動畫制作。下面關于圖7至圖12更詳細地描述處理流程600的特定方面。
總之,本概念可以使得需要一種用于基于身體安裝的、向內看(例如,眼睛跟蹤)和/或低角度攝像機進行面部表情跟蹤的系統(tǒng)。來自這些攝像機的圖像可以被利用以使得用戶可以用遠程方處的動畫的化身被表示。
圖7示出了可以從可穿戴智能設備102(3)提供完整面部表情跟蹤的示例系統(tǒng)700。(圖7對于圖6是有點冗余的,但是具有幫助說明相對于圖6引入的概念的不同重點)。為了說明的目的,系統(tǒng)700被分成輸入列701(1)和輸出列701(2)。
在這種情況下,系統(tǒng)700包括基準攝像機,諸如可見光攝像機(例如,黑白或者紅綠藍(RGB))或者紅色、綠色、藍色+深度(RGBD)攝像機702。這樣的深度攝像機的一個示例是由公司提供的牌深度攝像機。RGBD攝像機702可以按照正常方式面向用戶(例如,大體上與在上面相對于圖4至圖5描述的基準平面垂直地指向用戶)。(注意,在圖7的例示中,用戶面向前方并且RGBD攝像機702在用戶一邊。RGBD攝像機將實際上在用戶前方(例如,被定位為捕捉用戶的完整面部圖像)。
在訓練階段602期間,RGBD攝像機702可以捕捉完整面部圖像704。類似地,可穿戴智能設備的低角度攝像機104(3)和眼睛跟蹤攝像機106(3)與RGBD攝像機702同時地分別捕捉用戶的圖像706和708。注意,由于附圖的比例,這些元件在圖7中不是容易辨別的,但是在圖1、圖4和圖5中是容易顯見的。由于低角度攝像機104(3)和眼睛跟蹤攝像機106(3)的有限視場,在每個攝像機104(3)和106(3)中僅見到用戶的面部的一部分。具體而言,低角度攝像機104(3)如在圖像706中指示的沿著面頰指向嘴部和下巴,而眼睛跟蹤攝像機106(3)如由圖像708所指示的指向用戶的眼睛。(注意,圖示出的圖像為了說明目的而是代表性的,并且不是旨在是限制性的。另外,在低角度攝像機上使用的鏡片的類型可以影響圖像以及對用戶的定向角。例如,魚眼鏡片可以按照給定定向比標準鏡片捕捉更多的用戶的面部。在這樣的實現(xiàn)方式中,可以利用單個低角度攝像機104(3),其捕捉圖像706中的眼睛和嘴部并且不利用兩組圖像(例如,不利用圖像708或者捕捉它們的攝像機)。
在又一實現(xiàn)方式中,其他傳感器數(shù)據(jù)可以擴充來自低角度攝像機104(3)的圖像數(shù)據(jù)。例如,回想圖6指示超出圖像(例如,視頻)的各種其他形式的傳感器數(shù)據(jù)614(諸如音頻數(shù)據(jù)和/或用戶接觸數(shù)據(jù))可以被利用。在這樣的情況下,低角度攝像機104(3)可能是智能可穿戴設備上的唯一攝像機。低角度攝像機104(3)例如可捕捉用戶的眼睛和面頰,而非嘴部。在這樣的情況下,來自麥克風(見圖1的麥克風108)的音頻數(shù)據(jù)可以捕捉可以在模型建立606中使用的音頻數(shù)據(jù)。例如,由用戶發(fā)出的單獨聲音在訓練階段602期間可以被映射到與嘴部運動和/或面部表情有關的單獨化身參數(shù)值。因此,音頻數(shù)據(jù)可以用于某些化身參數(shù)并且來自低角度攝像機104(3)的圖像數(shù)據(jù)可以用于其他化身參數(shù)。
在例示出的配置中,在訓練階段602期間,來自可穿戴智能設備102(3)的兩個攝像機104(3)和106(3)的部分面部圖像流當鑒于完整面部圖像704被評估時可以用來估計用戶的完整面部表情。該估計可以包括關于多個面部表情參數(shù)的信息。多個面部表情參數(shù)可以用來驅動用戶的動畫化身710。例如,一些實現(xiàn)方式可以運用基于深度的面部表情跟蹤算法來自動地采集用于用戶的訓練數(shù)據(jù)。多個機器學習算法然后可以用來構建模型以便從訓練數(shù)據(jù)估計面部表情參數(shù)。在許多可能的技術之中,嶺回歸、多任務特征學習和/或卷積神經網絡等可以被運用。
換言之,在訓練階段602期間,由可穿戴智能設備102(3)捕捉的一組訓練數(shù)據(jù)(例如,視頻)以及來自RGBD攝像機702的對應的地面實況面部表情(例如,圖像704)可以用來構建描述它們的關系的化身模型(圖6的608)。注意,盡管在這一實現(xiàn)方式中利用RGBD攝像機來獲得地面實況圖像,但是其他實現(xiàn)方式可以使用其他類型的傳感器或攝像機。例如,地面實況圖像可以利用標準的RGB攝像機、紅外攝像機和/或其他類型的傳感器被獲得。在部署階段604中,模塊可以用來將來自可穿戴智能設備的輸入圖像706(1)和708(1)(例如,視頻對流)映射到可以用來驅動遠程方處的化身710(1)的一組面部表情參數(shù)。在下面更詳細地描述在上面相對于圖6至圖7介紹的特定方面。
數(shù)據(jù)獲取
從圖4至圖5回想,在這一實現(xiàn)方式中,可穿戴智能設備102(3)的攝像機被不對稱地放置(例如,低角度攝像機104(3)與面部平行地指向嘴部并且眼睛跟蹤攝像機106(3)指向用戶的眼睛)。不對稱性的一個動機是只有一個攝像機用來捕捉冗余的面部部分(例如,注視可以主要由一個眼的位置來描述),但是諸如面頰之類的可以是不對稱的面部的部分由兩個攝像機來捕捉。當然,諸如對稱和/或不對稱配置中的三個或者更多個攝像機之類的其他配置被預期到。
回到圖7,各種方式可以用來跟蹤來自RGBD攝像機輸入(例如,圖像704)的面部表情。例如,諸如微軟的化身跟蹤算法之類的RGBD跟蹤算法等可以被利用。一些RGBD跟蹤算法實現(xiàn)方式可以對涉及一組個性化的網格模型的假定進行操作,其中B0是靜止姿勢并且Bi(i>0)是表示靜止姿勢與某些面部表情之間的差異的附加位移。任意面部表情因而可以被生成為:
其中yij是用于姿勢Mj的混合權重。
RGBD跟蹤算法可以使用多種混合形狀,諸如48種混合形狀,因此對于被捕捉的每種框架,其將生成48個混合權重。因此,估計面部表情的任務可以被重組為學習48個回歸函數(shù)的問題,它們中的每一個將從可穿戴智能設備圖像接收到的信息映射到對應的混合形狀權重。
后續(xù)討論涉及以圖像預處理開始的面部表情跟蹤。
一些實現(xiàn)方式可以執(zhí)行用于輸入圖像數(shù)據(jù)的預處理以增加算法對穿著不同衣服的用戶、當穿上和脫下可穿戴智能設備時的小運動以及用戶之間的差異的魯棒性。
第一類型的預處理可以涉及皮膚過濾。這一處理可以基于三個步驟。首先,簡單的分類器可以用來估計每個像素是皮膚的概率。僅使用像素分類可能不是足夠魯棒的,因為一些假陽性像素可能被發(fā)現(xiàn),當極值在背景中出現(xiàn)時尤其是如此。為了使該處理更加魯棒,一些實現(xiàn)方式可以檢測圖像的邊緣并且在邊緣之中尋找使皮膚與背景區(qū)域分開的(潛在的)最佳的一個。
為此,這些實現(xiàn)方式可以首先對整個圖像應用Canny邊緣(或者其他)檢測器。檢測器的靈敏度可以被設置為高以使得一組許多邊緣被檢測到,從而使得任何有用邊緣被包括在該組中。最后,這些實現(xiàn)方式可以通過使用利用在前兩個處理中采集的信息的動態(tài)編程算法來尋找(潛在的)最佳邊緣。這一方法可以例如從左向右對圖像的列進行迭代。相對于每個列,處理可以針對屬于邊緣的每個像素來計算其是(潛在的)最佳邊緣的一部分的概率。這可以基于在其上方和下方的像素的皮膚概率以及在之前迭代中計算出的左鄰像素的似然性被計算。
圖8示出了一個這樣的示例。實例一示出了在處理之前的來自向內看的眼睛跟蹤攝像機106(3)(圖4至圖5)的圖像800(1)。這一說明必須處理難以在行圖中圖示的顏色。在實例一中,以交叉影線示出的區(qū)域802是具有與鄰近皮膚804類似的顏色的背景并且因此可能是難以辨別的。邊界806可以被檢測到并且在實例二中背景區(qū)域的顏色被改變?yōu)閷Ρ壬?在這種情況下為由對角線表示的白色),如在經處理的圖像800(2)中的808處指示的。
圖9示出了由一些實現(xiàn)方式使用的第二類型的預處理的示例。這一第二類型的預處理可以處理小攝像機運動或者不同用戶之間的差異。在這樣的情況下,基于模版匹配使所有圖像(在這種情況下為左圖像900(1)和右圖像900(2))對齊的對準(registration)方法可以被使用。分別在左攝像機圖像900(1)和右攝像機圖像900(2)中搜索鼻—面頰皺紋902和外右眼角904,并且相應地調節(jié)輸入圖像以減少圖像之間的對準誤差。如在實驗結果中示出的,這一對準步驟對于訓練新用戶而言可以是極有幫助的。
在預處理之后,兩種形式的輸入圖像可以被利用:原始像素描述和局部二值模式(LBP)描述。
為了說明的目的,通過矩陣來表示訓練輸入數(shù)據(jù),該矩陣包含N個訓練實例,這些訓練實例具有維度d以及個訓練標簽(從RGBD跟蹤算法獲得的混合形狀權重)。yt可以用來表示Y的第t列,即,用于第t個混合形狀的地面實況權重。鑒于機器學習問題可以存在于多輸出回歸中,因此三種機器學習算法(嶺回歸、多任務特征學習和卷積神經網絡)已被運用。當然,在其他實現(xiàn)方式中可以使用其他機器學習算法。
嶺回歸
嶺回歸(Ridge Regression,RR)可以通過求解以下優(yōu)化問題來學習用于每個輸出的線性模型:
其中wt是用于混合形狀t的d維權重向量。注意,以上問題針對每個混合形狀被獨立地求解。
多任務特征學習
考慮到混合形狀權重一起用來描述面部表情,并且這些混合形狀是非正交的,因此它們可以被預計是線性相關的。作為結果,可以針對當前任務運用多任務特征學習(MTFL)。MTFL可以通過同時學習所有任務來設法利用在混合形狀權重之間的共性。MTFL可以嘗試求解以下優(yōu)化問題:
其中表示矩陣的Frobenius范數(shù)的平方,即,它的元素的平方的總和。如在圖10中示出的,對于通過將輸入乘以矩陣D形成的所有任務可以存在共有層,其表示共享的特征1002。然后通過將共享的特征乘以矩陣C來形成輸出層1004。兩個層都是線性的。
方程(3)中的問題是非凸的。相反,該過程可以優(yōu)化由以下給出的它的等價凸問題:
其中W=DC;并且表示矩陣的跡范數(shù),也即,其奇異值的總和。
神經網絡
圖11A和圖11B示出了兩個卷積神經網絡1100(1)和1100(2)。第一卷積神經網絡1100(1)在卷積層1104(1)處接收輸入圖像1102(1)。在這一示例中,卷積層1104(1)具有尺寸為3x3的16個內核。卷積層的輸出是丟棄(dropout,簡稱DO)使能的并且被完全連接到具有50個節(jié)點的層1106(1)。來自50節(jié)點層的輸出然后被發(fā)送給具有48個節(jié)點的輸出層1108(1),其產生最終輸出1110。
第二卷積神經網絡1100(2)包括第一層,其也是具有尺寸為3x3的16個內核的卷積層1104(2)。第一卷積層1104(2)接收輸入圖像1102(2)。第一卷積層的輸出被密集地連接到第二隱藏層1106(2)。在這一示例中,第二隱藏層具有200個隱藏單元。第二隱藏層的輸出被引導至第三層1108(2)。在這一示例中,第三層是全連接層,其也具有200個輸出節(jié)點。在這一實例中,最終層1112接收第三層1108(2)的輸出以產生最終輸出1114。第三層1108(2)可以是具有48個輸出的全連接層。在一些實現(xiàn)方式中,修正線性單元(ReLU)非線性被在除輸出層之外的所有卷積和全連接層處被使用。此外,丟棄在一些全連接層處被使能。
總之,以上描述說明了如何從以不尋常朝向(諸如與用戶的面部幾乎平行)被放置的可穿戴攝像機(例如,可穿戴智能設備的攝像機)執(zhí)行面部表情跟蹤。地面實況數(shù)據(jù)可以與可穿戴智能設備的攝像機同時地使用深度攝像機被獲得。基于深度的面部表情跟蹤算法可以用來使地面實況數(shù)據(jù)中的來自兩個攝像機的圖像信息相關。地面實況數(shù)據(jù)可以用來訓練與面部參數(shù)相關聯(lián)的回歸模型。結果,來自可穿戴智能設備的圖像可以被用回歸模型處理以得出用于控制用戶的化身的參數(shù)。
圖12示出了可視化系統(tǒng)1200。為了說明的目的,系統(tǒng)1200包括表現(xiàn)為智能眼鏡的兩個可穿戴智能設備102(3)(A)和102(3)(B)。這些被圖示的可穿戴智能設備表示兩種設備配置,其中的任一種可被應用于除智能眼鏡之外的其他可穿戴智能設備。簡言之,可穿戴智能設備102(3)(A)表示操作系統(tǒng)中心配置并且可穿戴智能設備102(3)(B)表示片上系統(tǒng)配置。下面將更詳細地描述這些方面。系統(tǒng)1200還包括不是可穿戴智能設備的設備1202。在這種情況下,設備1202表現(xiàn)為智能電話,但是旨在表示可穿戴智能設備可與之通信的任何類型的設備。系統(tǒng)1200還包括可穿戴智能設備可經由一個或多個網絡1206與之通信的諸如基于云的資源之類的遠程資源1204。設備1202和遠程資源1204中的任一個或兩者可以與可穿戴智能設備協(xié)同工作以實現(xiàn)本概念。可穿戴智能設備102(3)(A)和102(3)(B)、設備1202和/或遠程資源1204中的任一個可以支持或包括化身控制組件1208。下面將在對可穿戴智能設備102(3)(A)和102(3)(B)的其他元件的討論之后更詳細地描述化身控制組件。
為了說明的目的,可穿戴智能設備102(3)(A)被組織成應用1210、操作系統(tǒng)1212和硬件1214。可穿戴智能設備102(3)(B)被組織成共享的資源1216、專用的資源1218以及其間的接口1220。
可穿戴智能設備102(3)(A)和102(3)(B)還可以包括定向結構110,其可以包括框架1222并且與鏡腳1224連接。鏡腳可以沿著(與x基準軸平行的)長軸延伸并且終止于耳架1226??蚣芸梢灾?一對)鏡片1228??纱┐髦悄茉O備還可以包括存儲裝置1230、處理器1232、電池1234(或者其他電源)、傳感器1236和/或通信組件1238??纱┐髦悄茉O備備選地或者附加地可以包括其他元件,諸如輸入/輸出設備、總線、圖形卡(例如,圖形處理單元(GPU))等,其為了簡明而未在這里被圖示或討論。在一種配置中,電池1234可以被放置在耳架1226中的一個中,而通信組件1238、存儲裝置1230和處理器1232被放置在另一個中。
在這一示例中,傳感器1236表現(xiàn)為低角度攝像機104、眼睛跟蹤攝像機106和麥克風108。注意,如在這里使用的,攝像機可以被認為是可以捕捉關于用戶特征的信息的任何類型的傳感器。攝像機可以是可見光或者其他波長的。攝像機可以運用不同類型的鏡片。例如,攝像機可以運用凸鏡片、非球面鏡片和/或魚眼鏡片等。魚眼透鏡可以允許單個攝像機捕捉否則可能需要使用兩個攝像機來捕捉的用戶的面部的大部分。上面在圖1處開始描述了關于一個或多個攝像機的附加細節(jié)。當然,盡管攝像機被詳細描述,但是其他實現(xiàn)方式備選地或者附加地可以使用其他類型的傳感器1236。
眼鏡鏡片1228可以是視力矯正或者非視力矯正的。在一些實現(xiàn)方式中,鏡片可以具有顯示圖像以供用戶查看的能力。顯示可以通過投影或者通過將發(fā)光二極管或其他組件包括在鏡片內被完成。
通信組件1238可以包括接收器和發(fā)射器和/或用于與各種技術(諸如蜂窩、Wi-Fi(IEEE 802.xx)、藍牙等)通信的其他射頻電路。
化身控制組件1208可以接收來自傳感器1236的輸入?;砜刂平M件1208可以利用化身模型來從傳感器數(shù)據(jù)得出動畫參數(shù)以控制用戶的化身。單獨可穿戴智能設備102(3)上的化身控制組件1208可以是相對魯棒的,從而使得其處理傳感器數(shù)據(jù)以確定動畫參數(shù)的值。例如,可穿戴智能設備102(3)(A)可以從傳感器1236(1)確定動畫參數(shù)值??纱┐髦悄茉O備102(3)(A)可以動畫制作用戶的化身并將動畫發(fā)送給另一設備或者其可以將動畫參數(shù)值發(fā)送給另一設備以用于執(zhí)行。
例如,相對于可穿戴智能設備102(3)(A),化身控制組件1208(1)可以將動畫參數(shù)值發(fā)送給通信組件1238(1)以用于傳送到諸如可穿戴智能設備102(3)(B)之類的遠程設備。接收設備的化身控制組件1208(2)可以基于接收到的動畫參數(shù)值來控制用戶的化身。同時,遠程設備的化身控制組件1208(2)可以正在接收來自傳感器1236(2)的數(shù)據(jù)、處理傳感器數(shù)據(jù)以確定動畫參數(shù)值并且將動畫制作參數(shù)值發(fā)送給可穿戴智能設備102(3)(A)。
在其他配置中,可穿戴智能設備102(3)(A)可能是更不魯棒的并且可能將傳感器數(shù)據(jù)中的一些傳感器數(shù)據(jù)發(fā)送給設備1202或遠程資源1204以用于分別由化身控制組件1208(3)或1208(4)處理。這些化身控制組件1208(3)或1208(4)可以代表可穿戴智能設備102(3)(A)確定動畫參數(shù)值并且代表可穿戴智能設備102(3)(A)將它們傳送給可穿戴智能設備102(3)(B)。
在又一種配置中,可穿戴智能設備102(3)(A)可以將動畫參數(shù)值發(fā)送給設備1202。設備1202可以捕捉用戶的‘正?!曨l流(例如,在視頻通話中)并且將該視頻流發(fā)送給可穿戴智能設備102(3)(A)。因此,可穿戴智能設備102(3)(A)的用戶將看見設備1202的用戶的正常視頻而設備1202的用戶將看到可穿戴智能設備102(3)(A)的用戶的動畫化身。
從一個角度,可穿戴智能設備102(3)(A)和102(3)(B)、設備1202和/或遠程資源1204可以被看作計算機。
如在此所使用的術語“設備”、“計算機”或“計算設備”可意味著具有某種量的處理能力和/或存儲能力的任何類型的設備。處理能力可由一個或多個處理器提供,處理器可執(zhí)行計算機可讀指令形式的數(shù)據(jù)以提供功能。數(shù)據(jù)(諸如計算機可讀指令和/或用戶相關數(shù)據(jù))可被存儲在存儲裝置上,諸如對計算機而言可以是內部或外部的存儲裝置。存儲裝置可包括易失性或非易失性存儲器、硬盤驅動器、閃存存儲設備和/或光學存儲設備(例如,CD、DVD等)、遠程存儲(例如,基于云的存儲)等的任何一個或多個。如在此所使用的,術語“計算機可讀介質”可包括信號。相比之下,術語“計算機可讀存儲介質”排除信號。計算機可讀存儲介質包括“計算機可讀存儲設備”。計算機可讀存儲設備的示例包括易失性存儲介質(諸如RAM)和非易失性存儲介質(諸如硬盤驅動器、光盤和閃存等等)。
設備的示例可包括傳統(tǒng)的計算設備,諸如個人計算機、臺式計算機、筆記本計算機、蜂窩電話、智能電話、個人數(shù)字助理、平板型計算機、數(shù)字白板、攝像機、可穿戴設備(諸如智能眼鏡)或任何不斷演進或尚有待于開發(fā)的類型的計算設備的混合中的任一種。
如在上面提到的,可穿戴智能設備102(3)(B)可被認為是片上系統(tǒng)(SOC)型設計。在這種情況下,由設備提供的功能可被集成在單個SOC或多個耦合的SOC上。一個或多個處理器可被配置成與共享的資源(諸如存儲器、存儲裝置等)協(xié)調,和/或與一個或多個專用的資源(諸如被配置成執(zhí)行某一特定功能的硬件塊)協(xié)調。因此,如在此使用的術語“處理器”還可指代中央處理單元(CPU)、圖形處理單元(GPU)、控制器、微控制器、處理器核、或其他類型的處理設備。
一般而言,在此描述的任何功能都可以使用軟件、固件、硬件(例如,固定邏輯電路)、人工處理或這些實現(xiàn)方式的組合被實現(xiàn)。在此使用的術語“組件”一般表示軟件、固件、硬件、整個設備或網絡或其組合。在軟件實現(xiàn)方式的情況下,例如,這些可表示當在處理器(例如,一個或多個CPU)上執(zhí)行時執(zhí)行指定任務的程序代碼。程序代碼可被存儲在諸如計算機可讀存儲介質之類的一個或多個計算機可讀存儲器設備中。組件的特征和技術是與平臺無關的,從而意味著它們可以在具有各種處理配置的各種商用計算平臺上被實現(xiàn)。
注意,在當前實現(xiàn)方式中的任意實現(xiàn)方式中,可以通過僅在用戶給出其明確同意之后使能可視化特征來保護用戶的隱私。所有的隱私和安全過程都可被實現(xiàn)以保護用戶。例如,用戶可提供授權(和/或限定授權條件)??纱┐髦悄茉O備僅根據(jù)授權的條件繼續(xù)進行面部跟蹤用戶。否則,用戶信息不被收集。類似地,用戶可被允許限定包括可視化數(shù)據(jù)的其數(shù)據(jù)的用途??梢暬瘮?shù)據(jù)的任何用途必須與限定的用戶條件一致。
結論
當前實現(xiàn)方式可以從僅捕捉用戶的面部的部分視圖的低角度攝像機(和/或其他傳感器)得出有用信息。當前實現(xiàn)方式可以使用機器學習算法基于在深度傳感器(諸如由公司提供的牌深度傳感器)的幫助下采集的訓練數(shù)據(jù)來估計面部表情參數(shù)。當前實現(xiàn)方式即使從攝像機的極有限視角也可以可靠地跟蹤人的面部表情。
所描述的方法或處理可以由在上面描述的系統(tǒng)和/或設備執(zhí)行,和/或由其他設備和/或系統(tǒng)執(zhí)行。描述方法的次序并不旨在被解釋為限制,并且任何數(shù)量的所描述動作都可以按任何次序被組合以實現(xiàn)本方法或備選方法。此外,該方法可以用任何合適的硬件、軟件、固件或其組合被實現(xiàn),從而使得設備可實現(xiàn)該方法。在一種情況下,該方法作為指令集被存儲在計算機可讀存儲介質上,從而使得計算設備的處理器的執(zhí)行使得該計算設備執(zhí)行該方法。
盡管已用特定于結構特征和/或方法動作的語言描述了涉及可視化信息的技術、方法、設備、系統(tǒng)等,但是,將會明白,所附權利要求書中定義的主題不一定限于所描述的具體特征或動作。相反,具體特征和動作作為實現(xiàn)所要求保護的方法、設備、系統(tǒng)等的示例性形式而被公開。