專利名稱:通信系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻處理方法和設(shè)備。本發(fā)明特別地但不是專門地涉及使用陸線或移動(dòng)通信設(shè)備的視頻技術(shù)、視頻會(huì)議等。
已有的視頻電話系統(tǒng)遇到通信網(wǎng)(例如電話網(wǎng)或互聯(lián)網(wǎng))和用戶的電話之間可用的有限帶寬的問題。結(jié)果,已有的視頻電話系統(tǒng)使用有效的編碼技術(shù)(如MPEG)來減少被發(fā)送的視頻圖像數(shù)據(jù)的量。但是,壓縮的圖像數(shù)據(jù)仍相當(dāng)大并且因此對(duì)于實(shí)時(shí)視頻電話應(yīng)用,仍需要用戶的終端和網(wǎng)絡(luò)之間相當(dāng)大的帶寬。
本發(fā)明目標(biāo)在于提供一種替代的視頻通信系統(tǒng)。
根據(jù)一個(gè)方面,本發(fā)明提供一種電話,該電話利用存儲(chǔ)的外貌模型將一組外貌參數(shù)增加到形狀和紋理參數(shù)中,將紋理參數(shù)組織(morph)在一起以便生成紋理,將形狀參數(shù)組織在一起以便生成形狀并且利用該形狀將紋理變形在圖像上,從而生成動(dòng)畫序列。通過對(duì)接收的各組參數(shù)重復(fù)地執(zhí)行這些步驟,動(dòng)畫視頻序列可被重新生成并且在電話的顯示器上被顯示給用戶。在優(yōu)選實(shí)施方案中,單獨(dú)的參數(shù)被用于模擬面部的不同部分。這是有用的,因?yàn)閷?duì)于面部的大部分的紋理從幀到幀不改變。在小功率設(shè)備中,紋理不需要每幀被計(jì)算并且可以每秒或第三幀被重新計(jì)算或者當(dāng)紋理參數(shù)改變大于預(yù)定數(shù)量時(shí),才重新計(jì)算紋理。
本發(fā)明的各種其他特性和方面將通過參考附圖所說明的下列示例實(shí)施方案的描述來被理解,其中
圖1是電信系統(tǒng)的示意圖;圖2是組成圖1中所示的系統(tǒng)一部分的移動(dòng)電話的示意框圖;圖3a是說明被圖2中所示的移動(dòng)電話發(fā)送的數(shù)據(jù)分組的形式的示意圖;圖3b示意地說明了被圖2所示的移動(dòng)電話發(fā)送的數(shù)據(jù)分組流;圖4是在像素采樣之前訓(xùn)練圖像被變形到參考形狀的示意說明;圖5a是說明由組成圖2中所示電話的一部分的編碼器單元執(zhí)行的處理步驟的流程圖5b說明由組成圖2中所示電話的一部分的解碼器單元執(zhí)行的處理步驟;圖6是說明組成圖2中所示電話的一部分的播放器單元的主要部件的示意框圖;圖7是說明可被用于圖1所示的系統(tǒng)的替代移動(dòng)電話的形式的示意框圖;圖8是說明組成圖1所示的系統(tǒng)的一部分并且與圖7所示的電話交互的業(yè)務(wù)提供者服務(wù)器的主要組件的框圖;圖9是說明在利用圖7中說明的電話的主叫方和被叫方之間的呼叫連接期間使用的協(xié)議的控制時(shí)序圖;圖10是說明根據(jù)替代實(shí)施方案的移動(dòng)電話的主要組件的示意框圖;圖11是說明根據(jù)另一個(gè)實(shí)施方案的移動(dòng)電話的主要組件的示意框圖;圖12是說明用于替代實(shí)施方案中的業(yè)務(wù)提供者服務(wù)器的主要組件的示意框圖;圖13是說明根據(jù)另一個(gè)實(shí)施方案的移動(dòng)電話的主要組件的示意框圖;圖14是說明播放器單元的另一種形式的示意框圖;圖15是說明另一個(gè)替代播放器單元的主要組件的示意框圖;以及圖16是說明另一個(gè)替代播放器單元的主要組件的示意框圖。
發(fā)明內(nèi)容
圖1示意地說明電話網(wǎng)1,其包括多個(gè)通過本地交換機(jī)5被連接到公共交換電話網(wǎng)(PSTN)7的用戶陸線電話3-1、3-2和3-3。被連接到PSTN7的還有被鏈接到多個(gè)基站11-1、11-2和11-3的移動(dòng)交換中心(MSC)9?;?1可操作地接收和向多個(gè)移動(dòng)電話13-1、13-2和13-3發(fā)送通信,并且移動(dòng)交換中心9是可操作地控制基站11之間以及基站11和PSTN7之間的連接。如圖1所示,移動(dòng)交換中心9還被連接到業(yè)務(wù)提供者服務(wù)器15,在這個(gè)實(shí)施方案中,該業(yè)務(wù)提供者服務(wù)器15為移動(dòng)電話訂戶生成外貌模型。這些外貌模型模擬訂戶的外貌或者該訂戶想要使用的人物的外貌。在外貌模型模擬訂戶的外貌的地方,訂戶的數(shù)字圖像必須被提供給業(yè)務(wù)提供者服務(wù)器15,以便合適的外貌模型可被生成。在這個(gè)實(shí)施方案中,這些數(shù)字照片可以從地理地分布在全國(guó)的多個(gè)攝影棚17中被生成。
現(xiàn)在將給出其中可利用訂戶移動(dòng)電話13-1之一進(jìn)行視頻電話呼叫的簡(jiǎn)要描述。在這個(gè)實(shí)施方案中,當(dāng)主叫方利用訂戶電話13-1發(fā)起呼叫時(shí),語(yǔ)音呼叫通過基站11-1和移動(dòng)交換中心9按通常的方式被建立。在這個(gè)實(shí)施方案中,訂戶移動(dòng)電話13包括用于生成用戶的視頻圖像的視頻攝像機(jī)23。但是,在這個(gè)實(shí)施方案中,從攝像機(jī)23生成的視頻圖像不被發(fā)送到基站。代替的,移動(dòng)電話13使用用戶的外貌模型來用參數(shù)表示該視頻圖像以便生成與外貌模型和音頻一起被發(fā)送到基站11的外貌參數(shù)序列。然后這個(gè)數(shù)據(jù)以傳統(tǒng)方式通過電話網(wǎng)被發(fā)送到被叫方的電話,其中視頻圖像被利用參數(shù)和外貌模型而重新合成。類似地,對(duì)于被叫方的外貌模型與由被叫方生成的外貌參數(shù)序列一起被在電話網(wǎng)上發(fā)送到訂戶電話13-1,其中類似的過程被執(zhí)行以便重新合成被叫方的視頻圖像。
現(xiàn)在將參考圖2到5對(duì)于移動(dòng)電話13-1和移動(dòng)電話13-2之間的示例呼叫描述其中這個(gè)實(shí)施方案中實(shí)現(xiàn)這一點(diǎn)的方式。圖2是圖1中所示的每個(gè)移動(dòng)電話13的示意框圖。如所示,電話13包括用于接收用戶的語(yǔ)音并且用于將其轉(zhuǎn)換成相應(yīng)的電信號(hào)的麥克風(fēng)21。移動(dòng)電話13還包括視頻攝像機(jī)23,其包括將來自用戶的光線集中在CCD芯片27上的光學(xué)器件,CCD芯片進(jìn)而以通常的方式生成相應(yīng)的視頻信號(hào)。如所示,視頻信號(hào)被傳遞到跟蹤器單元33,其進(jìn)而處理視頻序列的每個(gè)幀以便跟蹤視頻序列里用戶的面部移動(dòng)。為執(zhí)行這個(gè)跟蹤,跟蹤器單元33使用模擬用戶的面部的形狀和紋理的變化性的外貌模型。這個(gè)外貌模型被存儲(chǔ)在用戶外貌模型存儲(chǔ)器35中并且被業(yè)務(wù)提供者服務(wù)器15生成,并且當(dāng)用戶首次預(yù)訂系統(tǒng)時(shí)被下載到移動(dòng)電話13-1。在跟蹤視頻序列中的用戶的面部移動(dòng)時(shí),跟蹤器單元33為每幀生成表示當(dāng)前幀中用戶的面部外貌的姿態(tài)和外貌參數(shù)。然后生成的姿態(tài)和外貌參數(shù)與從麥克風(fēng)21輸出的音頻信號(hào)一起被輸入到編碼器單元39中。
但是,在這個(gè)實(shí)施方案中,在編碼器單元39對(duì)姿態(tài)和外貌參數(shù)以及音頻編碼之前,其對(duì)用戶的外貌模型進(jìn)行編碼以便通過收發(fā)信機(jī)單元41和天線43發(fā)送到被叫方的移動(dòng)電話13-2。用戶的外貌模型的這個(gè)被編碼的版本可被存儲(chǔ)用于在其他視頻呼叫中的后續(xù)發(fā)送。然后編碼器單元39將姿態(tài)和外貌參數(shù)序列編碼并且對(duì)于其發(fā)送到被叫方的移動(dòng)電話13-2的相應(yīng)的音頻信號(hào)進(jìn)行編碼。在這個(gè)實(shí)施方案中,音頻信號(hào)被利用CELP編碼技術(shù)進(jìn)行編碼并且被編碼的CELP參數(shù)以與被編碼的姿態(tài)和外貌參數(shù)交織的方式被發(fā)送。
如圖2所示,從被叫方移動(dòng)電話13-2接收的數(shù)據(jù)被從收發(fā)信機(jī)單元41傳遞到解碼被發(fā)送數(shù)據(jù)的解碼器單元51。最初,解碼器單元51將接收并且解碼被叫方的外貌模型,然后其將其存儲(chǔ)到被叫方外貌模型存儲(chǔ)器54中。一旦這被接收并且被解碼,解碼器單元51就將接收和解碼被編碼的姿態(tài)和外貌參數(shù)以及被編碼的音頻信號(hào)。然后被解碼的姿態(tài)和外貌參數(shù)被傳遞到播放器單元53,其利用被解碼的被叫方的外貌模型生成對(duì)應(yīng)于一系列接收的姿態(tài)和外貌參數(shù)的一系列視頻幀。然后生成的視頻幀被輸出到移動(dòng)電話的顯示器55,在那里被重新生成的視頻序列被顯示給用戶。由解碼器單元51輸出的被解碼音頻信號(hào)被傳遞到音頻驅(qū)動(dòng)單元57,其向移動(dòng)電話的揚(yáng)聲器59輸出被解碼的音頻信號(hào)。播放器單元53以及音頻驅(qū)動(dòng)單元57的操作被安排以便在顯示器55上顯示的圖像與由揚(yáng)聲器59輸出的合適的音頻信號(hào)被時(shí)間同步。
在這個(gè)實(shí)施方案中,移動(dòng)電話13在數(shù)據(jù)分組中發(fā)送被編碼的姿態(tài)和外貌參數(shù)以及被編碼的音頻信號(hào)。分組的通用格式在圖3a中顯示。如所示,每個(gè)分組包括頭部分121和數(shù)據(jù)部分123。頭部分121識(shí)別分組的大小和類型。這使得數(shù)據(jù)格式以向前和向后兼容的方式很容易被擴(kuò)展。例如,如果舊的播放器單元53被用于新的數(shù)據(jù)流上,則會(huì)遇到其不識(shí)別的分組。在這種情況下,舊播放器可簡(jiǎn)單地忽略這些分組并且仍有機(jī)會(huì)處理其它的分組。每個(gè)分組的頭121包括16位(位0到位15)用于識(shí)別分組的大小。如果位15被設(shè)置為0,則其它15位定義的大小是按字節(jié)的分組的大小。如果另一方面,位15被設(shè)置為1,則剩余的位表示按32k塊的分組的大小。在這個(gè)實(shí)施方案中,編碼器單元39可生成6個(gè)不同類型的分組(圖3b所示)。這些包括1.版本分組125-流中第一個(gè)被發(fā)送的分組是版本分組。版本分組中被定義的數(shù)字是整數(shù)并且目前被設(shè)置為數(shù)字3。由于分組系統(tǒng)的可擴(kuò)展特性,所以不希望改變這個(gè)數(shù)字。
2.信息分組127-要被發(fā)送的下一個(gè)分組是信息分組,其包括同步字節(jié)識(shí)別視頻的每秒平均采樣(或幀)的字節(jié);識(shí)別用于制作視頻短片的每個(gè)采樣的動(dòng)畫的參數(shù)數(shù)據(jù)短片數(shù)的數(shù)據(jù);識(shí)別每秒音頻采樣數(shù)的字節(jié);識(shí)別音頻的每個(gè)采樣的數(shù)據(jù)字節(jié)數(shù)的字節(jié)以及識(shí)別音頻是否被壓縮的位。目前,這個(gè)位對(duì)于未壓縮的音頻被設(shè)置為0并且對(duì)于以每秒4800位被壓縮的音頻被設(shè)置為1。
3.音頻分組129-對(duì)于未被壓縮的音頻,每個(gè)分組包含一秒的音頻數(shù)據(jù)。對(duì)于每秒4800位被壓縮的音頻,每個(gè)分組包含30毫秒的數(shù)據(jù),其是18字節(jié)。
4.視頻分組131-用于制作視頻單一采樣的動(dòng)畫的外貌參數(shù)數(shù)據(jù)。
5.超音頻分組133-這是對(duì)于正常音頻分組129的連續(xù)的一組數(shù)據(jù)。在這個(gè)實(shí)施方案中,播放器單元5 3通過其大小來確定超音頻分組中音頻分組的數(shù)量。
6.超視頻分組135-這是對(duì)于正常視頻分組131的連續(xù)的一組數(shù)據(jù)。在這個(gè)實(shí)施方案中,播放器單元53通過超視頻分組的大小來確定視頻分組的數(shù)量。
在這個(gè)實(shí)施方案中,被發(fā)送的音頻和視頻分組按時(shí)間順序被混合在被發(fā)送的流中,其中最早的分組被最先發(fā)送。按上述方式組織分組結(jié)構(gòu)還使得分組除了通過PSTN7還能夠在互聯(lián)網(wǎng)上被路由。
外貌模型這個(gè)實(shí)施方案中使用的外貌模型類似于由Cootes等人開發(fā)的外貌模型,并且在例如1995年1月計(jì)算機(jī)景象和圖像理解,第一卷,No.1,第38到59頁(yè),名為“Active Shape Models-Their Training andApplication(活動(dòng)形狀模型-其訓(xùn)練和應(yīng)用)”的論文中描述了所述Cootes等人開發(fā)的外貌模型。這些外貌模型利用某些現(xiàn)有知識(shí)是關(guān)于面部圖像的內(nèi)容可用的這樣一個(gè)事實(shí)。例如,可以假設(shè)人的面部的兩個(gè)正面圖像每個(gè)將包括眼睛、鼻子和嘴巴。
如上面所提到的,在這個(gè)實(shí)施方案中,外貌模型在業(yè)務(wù)提供者服務(wù)器15中被生成。這些外貌模型被通過分析各自用戶的多個(gè)訓(xùn)練圖像而生成。為了用戶的外貌模型可以模擬視頻序列里的用戶的面部的可變性,訓(xùn)練圖像應(yīng)該包括面部表情和3D姿態(tài)具有最大變化的用戶的圖像。在這個(gè)實(shí)施方案中,這些訓(xùn)練圖像由用戶進(jìn)入攝影棚17并且被數(shù)字?jǐn)z像機(jī)拍攝來生成。
在這個(gè)實(shí)施方案中,所有的訓(xùn)練圖像是具有500×500像素的彩色圖像,每個(gè)像素有紅、綠和藍(lán)像素值。結(jié)果的外貌模型35是由訓(xùn)練圖像中頭部定義的頭圖像類的外貌的參數(shù)表示,因此相當(dāng)少數(shù)量的參數(shù)(典型地對(duì)于一個(gè)人15到40個(gè))可描述來自該類的頭圖像的詳細(xì)(像素級(jí))外貌。
如申請(qǐng)人的較早的國(guó)際申請(qǐng)WO 00/17820(其內(nèi)容被合并在這里供參考)中所說明的,通過初始地確定模擬訓(xùn)練圖像里面部形狀的可變性的形狀模型以及模擬訓(xùn)練圖像中紋理的可變性或者像素的顏色的紋理模型,然后通過組合形狀模型和紋理模型,從而生成外貌模型。
為了創(chuàng)建形狀模型,訓(xùn)練圖像上多個(gè)里程碑點(diǎn)的位置被識(shí)別,然后其他訓(xùn)練圖像上相同的里程碑點(diǎn)的位置被識(shí)別。里程碑點(diǎn)的這個(gè)位置的結(jié)果是對(duì)于每個(gè)訓(xùn)練圖像的里程碑點(diǎn)的表,其識(shí)別圖像中每個(gè)里程碑點(diǎn)的(x,y)坐標(biāo)。然后這個(gè)實(shí)施方案中使用的模擬技術(shù)檢查訓(xùn)練集上這些坐標(biāo)的統(tǒng)計(jì)數(shù)字以便確定這些位置如何在訓(xùn)練圖像里變化。為了能夠從不同的圖像中比較等價(jià)的點(diǎn),頭必須被關(guān)于通用的一組軸而對(duì)齊。通過對(duì)每個(gè)頭迭代地旋轉(zhuǎn)、縮放和轉(zhuǎn)換坐標(biāo)集,以便它們都大致地填充相同的參考幀來實(shí)現(xiàn)這一點(diǎn)。每個(gè)頭的結(jié)果坐標(biāo)集形成形狀矢量(xi),其元素對(duì)應(yīng)參考幀內(nèi)的里程碑點(diǎn)的坐標(biāo)。在這個(gè)實(shí)施方案中,然后通過在形狀訓(xùn)練矢量(xi)集上執(zhí)行主要組件分析(PCA)來生成形狀模型。這個(gè)主要組件分析通過下式生成將每個(gè)形狀矢量(xi)與形狀參數(shù)的對(duì)應(yīng)的矢量(Psi)相關(guān)的形狀模型(Qs)psi=Qs(xi-x‾)---(1)]]>其中xi是形狀矢量,x是來自形狀訓(xùn)練矢量的均值形狀矢量并且Psi是對(duì)于形狀矢量xi的形狀參數(shù)的矢量。矩陣Qs描述了訓(xùn)練頭部里形狀和姿態(tài)的主要變化模式;并且對(duì)于給定輸入頭部的形狀參數(shù)的矢量(Psi)具有與其值將給定輸入頭部的形狀與相應(yīng)的變化模式相關(guān)的每個(gè)變化模式相關(guān)的參數(shù)。例如,如果訓(xùn)練圖像包括用戶向左和向右看以及向正前方看的圖像,則將由形狀模型(Qs)描述的一個(gè)變化模式將具有形狀參數(shù)的矢量(Ps)中尤其影響用戶往哪里看的一個(gè)相關(guān)參數(shù)。特別的,這個(gè)參數(shù)可從-1到+1變化,參數(shù)值接近-1與用戶向左看相關(guān),參數(shù)值接近0與用戶向正前方看有關(guān)并且參數(shù)值接近+1與用戶向右看相關(guān)。因此,被需要來說明訓(xùn)練數(shù)據(jù)里變化的變化模式越多,形狀參數(shù)矢量Psi里需要的形狀參數(shù)就越多。在這個(gè)實(shí)施方案中,對(duì)于使用的特殊的訓(xùn)練圖像,形狀和姿態(tài)變化的20種不同的模式必須被模擬以便說明訓(xùn)練頭部中被觀察的98%的變化。
除了能夠確定對(duì)于給定形狀矢量xi的一組形狀參數(shù)Psi之外,等式(1)可以關(guān)于xi被求解以便給出xi=x‾+QsTpsi---(2)]]>這是因?yàn)镼sQsT等于單位矩陣。因此,通過在合適的限制里修改形狀參數(shù)(Psi)組,新的頭部形狀可被生成,其將類似于訓(xùn)練組中的那些。
一旦形狀模型被生成,類似的模型就被生成以便模擬訓(xùn)練面部里的紋理,并且特別是模擬訓(xùn)練面部中的紅、綠和藍(lán)等級(jí)。為做到這一點(diǎn),在這個(gè)實(shí)施方案中,每個(gè)訓(xùn)練面部被變形成一個(gè)參考形狀。在申請(qǐng)人的早期國(guó)際申請(qǐng)中,參考形狀是均值形狀。但是,這導(dǎo)致經(jīng)過訓(xùn)練面部中所有面像素采樣的恒定清晰度。因此,十倍于嘴唇上的小平面的區(qū)域的對(duì)應(yīng)于面頰的小平面,將有十倍多的像素被采樣。結(jié)果,這個(gè)面頰小平面將十倍地有助于紋理模型,這并不需要。因此,在這個(gè)實(shí)施方案中,參考形狀通過使圍繞眼睛和嘴巴的小平面大于均值形狀中的而被變形,因此眼睛和嘴巴區(qū)域比面部的其他部分更密集地被采樣。在這個(gè)實(shí)施方案中,通過變形每個(gè)訓(xùn)練圖像頭直到每個(gè)圖像的里程碑點(diǎn)的位置與描述參考頭部(預(yù)先被確定)的形狀和姿態(tài)的相應(yīng)里程碑點(diǎn)的位置重合來實(shí)現(xiàn)這一點(diǎn)。這些形狀被變形的圖像中的顏色值被用于作為對(duì)紋理模型的輸入矢量。這個(gè)實(shí)施方案中使用的參考模型以及參考形狀上里程碑點(diǎn)的位置在圖4中被示意地顯示。如從圖4中所看到的,參考形狀中眼睛和嘴巴的大小與面部中特征的其余部分相比被放大。結(jié)果,當(dāng)形狀變形的訓(xùn)練圖像被采樣時(shí),與面部的其他特征相比更多像素采樣圍繞眼睛和嘴巴被進(jìn)行。這導(dǎo)致對(duì)圍繞嘴巴和眼睛以及其中的變化有更大響應(yīng)的紋理模型,并且因此對(duì)于在源視頻序列中跟蹤用戶更好。各種三角測(cè)量技術(shù)可被用于將每個(gè)訓(xùn)練頭部變形為參考形狀。在上述的申請(qǐng)人的早期國(guó)際申請(qǐng)中描述了一種這樣的技術(shù)。
一旦訓(xùn)練頭部已經(jīng)被變形到參考模型,通過在形狀被變形的頭部上以例如,一萬個(gè)均勻分布的點(diǎn)采樣各個(gè)顏色等級(jí),對(duì)于每個(gè)形狀被變形的訓(xùn)練面部的紅、綠和藍(lán)等級(jí)矢量(ri,gi和bi)就被確定。紅色等級(jí)矢量的主要成分分析生成紅色等級(jí)模型(矩陣Qr),其利用下式將每個(gè)紅色等級(jí)矢量與紅色等級(jí)參數(shù)的相應(yīng)矢量相關(guān)pri=Qr(ri-r‾)---(3)]]>其中ri是紅色等級(jí)矢量,r是來自紅色等級(jí)訓(xùn)練矢量的均值紅色等級(jí)矢量并且pir是對(duì)于紅色等級(jí)矢量ri的紅色等級(jí)參數(shù)的矢量。綠色和藍(lán)色等級(jí)矢量的類似的主要成分分析生成類似的模型pgi=Qg(gi-g‾)---(4)]]>pbi=Qb(bi-b‾)---(5)]]>這些顏色模型描述形狀標(biāo)準(zhǔn)化訓(xùn)練面部里顏色的主要變化模式。
以與等式(1)關(guān)于xi被求解相同的方式,等式(3)到(5)可關(guān)于ri、gi和bi被求解,以便給出ri=r‾+QrTpri]]>gi=g‾+QgTpgi---(6)]]>bi=b‾+QbTpbi]]>這是因?yàn)镼rQrT、QgQgT和QbQbT是單位矩陣,因此,通過在合適的限制里修改顏色參數(shù)(Pi,Pg或Pb)組,新的形狀被變形的顏色面部可被生成,其將類似于訓(xùn)練組中的那些。
如上所述,形狀模型和顏色模型被用于生成外貌模型(Fa),其集中地模擬其中形狀和顏色在訓(xùn)練圖像的面部里變化的方式。因?yàn)樾螤詈皖伾兓g有相關(guān)性,因此組合的外貌模型被生成,其可被用于減少描述訓(xùn)練面部里所有變化所需的參數(shù)的數(shù)量。在這個(gè)實(shí)施方案中,通過在對(duì)于訓(xùn)練圖像的形狀和紅、綠以及藍(lán)參數(shù)上執(zhí)行進(jìn)一步的主要成分分析來實(shí)現(xiàn)這一點(diǎn)。特別地,形狀參數(shù)被與對(duì)于每個(gè)訓(xùn)練圖像的紅、綠和藍(lán)參數(shù)連接在一起,然后在被連接的矢量上執(zhí)行主要成分分析,以便確定外貌模型(矩陣Fa)。但是,在這個(gè)實(shí)施方案中,在將形狀參數(shù)和紋理參數(shù)連接在一起之前,形狀參數(shù)被加權(quán),以便紋理參數(shù)不支配主要成分分析。通過將加權(quán)矩陣(Hs)引入等式(2)可實(shí)現(xiàn)這一點(diǎn),因此xi=x‾+QsTHs-1Hspsi---(7)]]>其中Hs是合適大小的單位矩陣的倍數(shù)(λ),也就是Hs=λ00···00λ0···000λ···0············000λ----(8)]]>其中λ是常數(shù)。發(fā)明人發(fā)現(xiàn)在1000和10000之間的λ值提供好的結(jié)果。因此,QsT和Psi變成Q^sT=QsTHs-1]]>p^si=Hspsi---(9)]]>一旦形狀參數(shù)被加權(quán),就在對(duì)于每個(gè)訓(xùn)練圖像的修改的形狀參數(shù)和紅、綠、藍(lán)參數(shù)的被連接的矢量上執(zhí)行主要成分分析,以便確定外貌模型,因此pai=Fap^sipripqipbi=Fapsci---(10)]]>其中Pia是控制形狀和顏色的外貌參數(shù)的矢量,并且Pisc是被連接的修改的形狀和顏色參數(shù)的矢量。
一旦修改的形狀模型(Qs)、顏色模型(Qr、Qg和Qb)以及外貌模型(Fa)已經(jīng)被確定,它們就被發(fā)送到用戶的移動(dòng)電話13,其中它們被存儲(chǔ)供后續(xù)使用。
除了能夠由一組外貌參數(shù)(Pia)表示輸入面部之外,還可能使用那些外貌參數(shù)來重新生成輸入面部。特別地,通過將等式(10)與上述等式(1)和(3)到(5)合并,對(duì)于形狀矢量和對(duì)于RGB等級(jí)矢量的表達(dá)式可如下被確定xi=x‾+Vspai---(11)]]>ri=r‾+Vrpai---(12)]]>gi=g‾+Vgpai---(13)]]>bi=b‾+Vbpai---(14)]]>其中從Fa和Qs獲得Vs,從Fa和Qr獲得Vr,從Fa和Qg獲得Vg,并且從Fa和Qb獲得Vb。為了重新生成面部,從顏色參數(shù)生成的形狀被變形的顏色圖像必須從參考形狀被變形以便考慮由形狀矢量xi描述的面部的形狀。其中變形形狀自由的灰色等級(jí)圖像被執(zhí)行的方式在上述申請(qǐng)人的早期國(guó)際申請(qǐng)中被描述。如本領(lǐng)域的技術(shù)人員所理解的,類似的處理技術(shù)被用于變形每個(gè)形狀被變形的顏色成分,然后其被組合以便重新生成面部圖像。
編碼器單元現(xiàn)在將參考圖5a來描述優(yōu)選方式,其中圖2中所示的編碼器單元39對(duì)用戶的外貌模型編碼以便發(fā)送到被叫方的移動(dòng)電話13-2。然后參考圖5b來描述其中解碼器單元51重新生成被叫方的外貌模型(其以相同的方式被編碼)的方式。
最初,在步驟s71,編碼器單元39將用戶的外貌模型分解成形狀(Qstrgt)和顏色模型(Qrtrgt、Qgtrgt和Qbtrgt)。然后,在步驟s73,編碼器單元39對(duì)于變化的每個(gè)紅、綠和藍(lán)模式生成形狀被變形的顏色圖像。特別地,對(duì)于顏色參數(shù)的下面的每個(gè)矢量利用上面的等式(6)生成形狀被變形的紅、綠和藍(lán)圖像
pri;pgi;pbi=100···0;010···0;001···0;....000···1---(15)]]>(盡管等式(6)中使用的均值矢量如果需要可被忽略)。然后在步驟s75,利用諸如JPEG的標(biāo)準(zhǔn)圖像壓縮算法來壓縮這些形狀被變形的圖像和均值顏色圖像(r,g和b)。但是,如本領(lǐng)域的技術(shù)人員所理解的,在利用JPEG算法壓縮之前,形狀被變形的圖像和均值顏色圖像必須被組合成矩形參考幀,否則JPEG算法將不起作用。因?yàn)樗械男螤顦?biāo)準(zhǔn)化的圖像都具有相同的形狀,所以其被組合在矩形參考幀中相同的位置。這個(gè)位置由模板圖像確定,其在這個(gè)實(shí)施方案中被直接從參考形狀(圖4中示意說明的)生成,并且其包含1’s和0’s,模板圖像中1’s對(duì)應(yīng)背景像素并且模板圖像中0’s對(duì)應(yīng)圖像像素。這個(gè)模板圖像也必須被發(fā)送到被叫方的移動(dòng)電話13-2中并且在這個(gè)實(shí)施方案中被利用運(yùn)轉(zhuǎn)周期編碼技術(shù)進(jìn)行壓縮。然后編碼器單元39在步驟s77輸出形狀模型(Qstrgt)、外貌模型((Fatrgt)T)、均值形狀矢量(xtrgt)并且被壓縮的圖像用于通過收發(fā)信機(jī)單元41發(fā)送到電話網(wǎng)。
解碼器單元參考圖5b,解碼器單元51在步驟s81解壓縮JPEG圖像、均值顏色圖像和被壓縮的模板圖像。然后處理進(jìn)行到步驟s83,其中被解壓縮的JPEG圖像被采樣以便利用被解壓縮的模板圖像來恢復(fù)形狀被變形的顏色矢量(ri,gi和bi)以便識(shí)別要被采樣的像素。因?yàn)楸挥糜谏蛇@些形狀被變形顏色圖像的顏色參數(shù)矢量的選擇(參見上面的(15)),所以可利用將相應(yīng)的形狀被變形的顏色矢量疊加在一起來重新構(gòu)建顏色模型(Qrtrgt,Qgtrgt和Qbtrgt)。如圖5b所示,形狀自由的顏色矢量的這種疊加在步驟s85被執(zhí)行。然后處理進(jìn)行到步驟s87,其中被恢復(fù)的形狀和顏色模型被組合以便重新生成被存儲(chǔ)在存儲(chǔ)器54中的被叫方的外貌模型。
在這個(gè)實(shí)施方案中,利用這種優(yōu)選的編碼技術(shù),顏色模型被發(fā)送到其他方比只是獨(dú)立地被發(fā)送的效率高大約10倍。這是因?yàn)?,在這個(gè)實(shí)施方案中使用的每個(gè)顏色模型典型地是30000×8的矩陣并且每個(gè)矩陣的每個(gè)元素需要3個(gè)字節(jié)。因此,每個(gè)移動(dòng)電話13需要發(fā)送大約720千字節(jié)的數(shù)據(jù)以便以未被壓縮的形式發(fā)送顏色模型矩陣。而是通過生成上述的形狀被變形的顏色圖像并且利用標(biāo)準(zhǔn)的圖像編碼技術(shù)來對(duì)其編碼并且發(fā)送被編碼的圖像,發(fā)送顏色模型所需的數(shù)據(jù)的量?jī)H大約是70千字節(jié)。
播放器單元圖6是更詳細(xì)地說明在這個(gè)實(shí)施方案中使用的播放器單元53的組件。如所示,播放器單元包括參數(shù)轉(zhuǎn)換器150,其在輸入線152上接收被解碼的外貌參數(shù)并且在輸入線154上接收被叫方的外貌模型。在這個(gè)實(shí)施方案中,參數(shù)轉(zhuǎn)換器150使用等式(11)到(14)利用線154上被叫方的外貌模型輸入來將輸入外貌參數(shù)Pai轉(zhuǎn)換成相應(yīng)的形狀矢量xi以及形狀被變形的RGB等級(jí)矢量(ri,gi,bi)。RGB等級(jí)矢量在線156上被輸出到形狀變形器158并且形狀矢量在線164上被輸出到形狀變形器158。形狀變形器158操作變形來自參考形狀的RGB等級(jí)矢量以便考慮由形狀矢量xi描述的面部的形狀。由形狀變形器158生成的結(jié)果RGB等級(jí)矢量在輸出線160上被輸出到圖像組合器162,其使用RGB等級(jí)矢量來生成像素值的相應(yīng)的兩維陣列,并且將其輸出到幀緩沖器166用于在顯示器55上顯示。
修改和替代實(shí)施方案在上述第一個(gè)實(shí)施方案中,每個(gè)訂戶電話13-1包括用于生成用戶的視頻序列的攝像機(jī)23。然后利用被存儲(chǔ)的外貌模型將這個(gè)視頻序列轉(zhuǎn)換成一組外貌參數(shù)?,F(xiàn)在描述第二個(gè)實(shí)施方案,其中訂戶電話13不包括視頻攝像機(jī)。代替的,電話13直接從用戶的輸入語(yǔ)音中生成外貌參數(shù)。圖7是訂戶電話13的框示意圖。如所示,從麥克風(fēng)21輸出的語(yǔ)音信號(hào)輸入到自動(dòng)語(yǔ)音識(shí)別單元180和單獨(dú)的語(yǔ)音編碼器單元182。語(yǔ)音編碼器單元182對(duì)語(yǔ)音進(jìn)行編碼,以便按通常的方式通過收發(fā)信機(jī)單元41和天線43發(fā)送到基站121。語(yǔ)音識(shí)別單元180將輸入語(yǔ)音和預(yù)存音素模型(被存儲(chǔ)在音素模型存儲(chǔ)器181中)相比較以便生成一系列音素33,其將這一系列音素輸出到查找表35。查找表35為每個(gè)音素存儲(chǔ)一組外貌參數(shù)并且被排列,以便對(duì)于由自動(dòng)語(yǔ)音識(shí)別單元180輸出的每個(gè)音素,表示相應(yīng)的音素發(fā)音期間用戶的外貌的相應(yīng)的一組外貌參數(shù)被輸出。在這個(gè)實(shí)施方案中,查找表35專用于移動(dòng)電話13的用戶并且在一個(gè)訓(xùn)練例程期間被預(yù)先生成,在所述訓(xùn)練例程中,音素和從外貌模型生成用戶的所需圖像的外貌參數(shù)之間的關(guān)系被學(xué)習(xí)。下列表1說明在這個(gè)實(shí)施方案中查找表35具有的格式。
表1
如圖7所示,由查找表35輸出的外貌參數(shù)集37然后被輸入到編碼器單元39,其對(duì)外貌參數(shù)進(jìn)行編碼以便發(fā)送到被叫方。然后被編碼的參數(shù)40被輸入到收發(fā)信機(jī)單元41,其將被編碼的外貌參數(shù)與相應(yīng)的被編碼的語(yǔ)音一起發(fā)送。如在第一個(gè)實(shí)施方案中,收發(fā)信機(jī)41以時(shí)間交織的方式發(fā)送被編碼的語(yǔ)音以及被編碼的外貌參數(shù),以便對(duì)于被叫方的電話更容易維持合成的視頻和相應(yīng)音頻之間的同步。
如圖7所示,移動(dòng)電話的接收機(jī)端與第一個(gè)實(shí)施方案中相同并且因此將不再描述。
本領(lǐng)域的技術(shù)人員從上面的描述應(yīng)該理解,在這第二個(gè)實(shí)施方案中,用戶的移動(dòng)電話134不需要有用戶的外貌模型以便生成其發(fā)送的外貌參數(shù)。但是,被叫方將需要有用戶的外貌模型以便合成相應(yīng)的視頻序列。因此,在這個(gè)實(shí)施方案中,所有訂戶的外貌模型被存儲(chǔ)在業(yè)務(wù)提供者服務(wù)器15的中心,并且一旦啟動(dòng)了訂戶之間的呼叫,業(yè)務(wù)提供者服務(wù)器15就可操作地將合適的外貌模型下載到合適的電話。
圖8更詳細(xì)地顯示了業(yè)務(wù)提供者服務(wù)器15的內(nèi)容。如所示,其包括接口單元191,其提供移動(dòng)交換中心9和攝影棚17以及服務(wù)器15里的控制單元193之間的接口。當(dāng)服務(wù)器為新訂戶接收?qǐng)D像時(shí),控制單元193將圖像傳遞給外貌模型生成器195,其以第一個(gè)實(shí)施方案中所述的方式建立合適的外貌模型。然后合適的外貌模型被存儲(chǔ)在合適的模型數(shù)據(jù)庫(kù)197中。隨后,當(dāng)訂戶之間的呼叫被啟動(dòng)時(shí),移動(dòng)交換中心9通知服務(wù)器15主叫方和被叫方的成分。然后控制單元193從外貌模型數(shù)據(jù)庫(kù)197中檢索主叫方和被叫方的外貌模型并且通過接口單元191將這些外貌模型發(fā)送回移動(dòng)交換中心9。然后移動(dòng)交換中心9將主叫方的合適的外貌模型發(fā)送到被叫方電話并且將該外貌模型發(fā)送到各自訂戶的電話。
現(xiàn)在將參考圖9描述這個(gè)實(shí)施方案的控制定時(shí)。最初,主叫方利用鍵盤輸入被叫方的號(hào)碼。一旦主叫方輸入所有的號(hào)碼并且按下電話13上的發(fā)送建(未示出),則該號(hào)碼在空中接口上被發(fā)送到基站11-1。然后基站將這個(gè)號(hào)碼轉(zhuǎn)發(fā)到移動(dòng)交換中心9,其向業(yè)務(wù)提供者服務(wù)器15發(fā)送主叫方的ID以及被叫方的ID,以便合適的外貌模型能夠被檢索。然后移動(dòng)交換中心9通過電話網(wǎng)中合適的連接向被叫方發(fā)信號(hào)以便引起被叫方的電話13-2振鈴。當(dāng)這個(gè)發(fā)生時(shí),服務(wù)提供者服務(wù)器15向移動(dòng)交換中心9下載主叫方和被叫方的合適的外貌模型,其中他們被存儲(chǔ)用于后續(xù)下載到用戶電話。一旦被叫方電話振鈴,移動(dòng)交換中心9就將狀態(tài)信息發(fā)送回主叫方的電話,以便其可生成合適的振鈴音。一旦被叫方摘機(jī),合適的信令信息就被發(fā)送到電話網(wǎng)返回移動(dòng)交換中心9。在響應(yīng)中,移動(dòng)交換中心9將主叫方的外貌模型下載到被叫方并且將被叫方的外貌模型下載到主叫方。一旦這些模型被下載,各個(gè)電話就以與上述第一個(gè)實(shí)施方案中相同的方式對(duì)被發(fā)送的外貌參數(shù)進(jìn)行解碼,以便合成說話的相應(yīng)用戶的視頻圖像。這個(gè)視頻呼叫保持在合適的位置直到主叫方或被叫方結(jié)束該呼叫。
上述第二個(gè)實(shí)施方案比第一個(gè)實(shí)施方案有多個(gè)優(yōu)點(diǎn)。首先,訂戶電話不需要有內(nèi)置的或被連接的視頻攝像機(jī)。外貌參數(shù)被從用戶的語(yǔ)音中直接生成。其次,主叫方和被叫方的外貌模型僅在一個(gè)限制通信鏈路上被發(fā)送。特別地,在第一個(gè)實(shí)施方案中,每個(gè)外貌模型被從用戶的電話發(fā)送到電話網(wǎng),然后從電話網(wǎng)發(fā)送到其他人的電話。當(dāng)電話網(wǎng)中可用的外寬相當(dāng)高時(shí),從網(wǎng)絡(luò)到電話的信道中的帶寬受到更多限制。因此,在這個(gè)實(shí)施方案中,因?yàn)橥饷材P捅淮鎯?chǔ)在電話網(wǎng)中心,所以其僅需在一個(gè)受限帶寬鏈路上被發(fā)送。如本領(lǐng)域的技術(shù)人員所理解的,第一個(gè)實(shí)施方案可被修改以便以類似的方式在外貌模型存儲(chǔ)在電話網(wǎng)中的情況下進(jìn)行操作。在上述實(shí)施方案中,用戶的外貌參數(shù)被生成并且被從用戶的電話發(fā)送到被叫方的電話,其中視頻序列被合成顯示用戶在講話?,F(xiàn)在將參考圖10描述一個(gè)實(shí)施方案,其中電話基本上有與第二個(gè)實(shí)施方案相同的結(jié)構(gòu),但是具有額外的身份(identity)偏移單元185,其可操作地轉(zhuǎn)換外貌參數(shù)值以便修改用戶的外貌。身份偏移單元185利用在存儲(chǔ)器187中存儲(chǔ)的預(yù)定轉(zhuǎn)換來執(zhí)行轉(zhuǎn)換。該轉(zhuǎn)換可被用于修改用戶的外貌或者簡(jiǎn)單地改善用戶的外貌。可能增加將改變用戶的被覺察的情緒狀態(tài)的外貌參數(shù)(或者形狀或紋理參數(shù))的偏移。例如,向從“中立的”動(dòng)畫的語(yǔ)音生成的所有外貌參數(shù)增加輕微笑容的外貌參數(shù)的矢量將使用戶看上去高興。增加皺眉的矢量將使其看上去生氣。有各種方式其中身份偏移單元185可執(zhí)行身份偏移。一種方式在申請(qǐng)人的早期國(guó)際申請(qǐng)WO00/17820中被描述。一種替代技術(shù)在申請(qǐng)人的共同未決的英國(guó)申請(qǐng)GB0031511.9中被描述。這個(gè)實(shí)施方案中電話的剩余部分與第二個(gè)實(shí)施方案中相同并且因此將不再描述。在上述的第二和第三個(gè)實(shí)施方案中,電話包括自動(dòng)語(yǔ)音識(shí)別單元。現(xiàn)在參考圖11和12描述一個(gè)實(shí)施方案,其中自動(dòng)語(yǔ)音識(shí)別單元在業(yè)務(wù)提供者服務(wù)器15中而不是在用戶的電話中被提供。如圖11中所示,訂戶電話13比圖7中所示的第二個(gè)實(shí)施方案的訂戶電話簡(jiǎn)單得多。如所示,由麥克風(fēng)21生成的語(yǔ)音信號(hào)被直接輸入到語(yǔ)音編碼器單元182,其以傳統(tǒng)方式編碼語(yǔ)音。然后被編碼的語(yǔ)音通過收發(fā)信機(jī)單元41和天線43被發(fā)送到業(yè)務(wù)提供者服務(wù)器15。在這個(gè)實(shí)施方案中,來自主叫方和被叫方的所有語(yǔ)音信號(hào)通過業(yè)務(wù)提供者服務(wù)器15被發(fā)送,其框圖在圖12中被顯示。如所示,在這個(gè)實(shí)施方案中,服務(wù)器15包括自動(dòng)語(yǔ)音識(shí)別單元180和所有的用戶查找表35。
在操作中,當(dāng)呼叫在主叫方和被叫方之間被建立時(shí),所有被編碼的語(yǔ)音通過服務(wù)器15被發(fā)送到另一方。服務(wù)器將語(yǔ)音傳遞到自動(dòng)語(yǔ)音識(shí)別單元180,其識(shí)別該語(yǔ)音和說話人并且將生成的音素輸出到合適的查找表35。然后相應(yīng)的外貌參數(shù)被從查找表提取并且被傳遞回控制單元193用于與被編碼的音頻一起向前發(fā)送到另一方,其中視頻序列如以前一樣被合成。
如本領(lǐng)域的技術(shù)人員將理解的,這個(gè)實(shí)施方案提供訂戶電話不需要有復(fù)雜的語(yǔ)音識(shí)別單元的優(yōu)點(diǎn),因?yàn)槊考露荚跇I(yè)務(wù)提供者服務(wù)器15中心被完成。但是,缺點(diǎn)是自動(dòng)語(yǔ)音識(shí)別單元180必須能夠識(shí)別所有訂戶的語(yǔ)音并且其必須能夠識(shí)別哪個(gè)訂戶在說什么,以便音素可被應(yīng)用于合適的查找表。
在上述的第二到第四個(gè)實(shí)施方案中,對(duì)于每個(gè)訂戶提供單一查找表35,其將訂戶生成的音素映射到相應(yīng)的外貌參數(shù)值。但是,語(yǔ)音識(shí)別單元輸出的音素和實(shí)際外貌參數(shù)值之間的關(guān)系根據(jù)用戶的情緒狀態(tài)來改變。圖13是說明替代訂戶電話的組件的框圖,其中查找表數(shù)據(jù)庫(kù)205對(duì)于用戶的不同的情緒狀態(tài)存儲(chǔ)不同的查找表35。查找表數(shù)據(jù)庫(kù)205包括對(duì)于當(dāng)用戶高興、生氣、興奮、悲傷等時(shí)的合適的查找表。在這個(gè)實(shí)施方案中,用戶的當(dāng)前情緒狀態(tài)由自動(dòng)語(yǔ)音識(shí)別單元180通過檢測(cè)用戶語(yǔ)音中的重音等級(jí)來確定。在響應(yīng)中,自動(dòng)語(yǔ)音識(shí)別單元180向查找表數(shù)據(jù)庫(kù)205輸出合適的指令以便導(dǎo)致合適的查找表35被用于將來自語(yǔ)音識(shí)別單元180的音素序列輸出轉(zhuǎn)換成相應(yīng)的外貌參數(shù)。如本領(lǐng)域的技術(shù)人員所理解的,查找表數(shù)據(jù)庫(kù)205中的每個(gè)查找表必須從那些情緒狀態(tài)的每個(gè)中用戶的訓(xùn)練圖像中被生成。再次,這個(gè)被預(yù)先完成并且合適的查找表在業(yè)務(wù)提供者服務(wù)器16中被生成并且然后被下載到訂戶電話中。替代的,“中立”查找表被與身份偏移單元一起使用,然后其根據(jù)用戶的被檢測(cè)的情緒狀態(tài)來執(zhí)行一個(gè)合適的身份偏移。
在上述第一個(gè)實(shí)施方案中,CELP音頻編解碼器被用于對(duì)用戶的音頻編碼。這樣的編碼器對(duì)于每秒大約4.8千比特(kbps)的音頻減少了所需的帶寬。如果移動(dòng)電話要在具有7.2kbps帶寬的標(biāo)準(zhǔn)GMS鏈路上發(fā)送語(yǔ)音和視頻數(shù)據(jù),則這對(duì)于外貌參數(shù)提供了2.4kbps的帶寬。但是,大多數(shù)已有的GSM電話,不使用CELP音頻編碼器。代替的,它們使用利用完整7.2kbps帶寬的音頻編解碼器。因此如果CELP音頻編解碼器在軟件中被提供,則上述系統(tǒng)僅能夠在已有的GSM電話中工作。但是,因?yàn)榇蠖鄶?shù)已有的移動(dòng)電話沒有計(jì)算能力來解碼音頻數(shù)據(jù),因此這是不實(shí)用的。
但是,上述系統(tǒng)可以被用于已有的GSM電話中以便發(fā)送預(yù)記錄的視頻序列。這是可能的,因?yàn)樵谡=徽勚写嬖诔聊?,在此期間可用的帶寬沒有被使用。特別地,對(duì)于典型的講話者,歸因于字或短語(yǔ)之間的小中止,15%到30%之間的時(shí)間帶寬完全沒有被使用。因此,視頻數(shù)據(jù)可以與音頻一起被發(fā)送以便完全地利用可用的帶寬。如果接收機(jī)在重新同步視頻序列之前要接收所有的視頻和音頻數(shù)據(jù),則音頻和視頻數(shù)據(jù)可在GSM鏈路上以任何順序和任何序列被發(fā)送。替代地,為了允許盡可能快地播放視頻序列的更有效的實(shí)現(xiàn),合適大小的視頻數(shù)據(jù)塊(如上述的外貌參數(shù))可在相應(yīng)的音頻數(shù)據(jù)之前被發(fā)送,因此音頻一旦被接收視頻就可以開始播放。在這種情況下在相應(yīng)的音頻之前發(fā)送視頻數(shù)據(jù)是最佳的,因?yàn)橥饷矃?shù)數(shù)據(jù)比音頻數(shù)據(jù)使用每秒更少量的數(shù)據(jù)。因此,如果播放四秒的視頻部分對(duì)于音頻需要四秒的發(fā)送時(shí)間并且對(duì)于視頻需要一秒的發(fā)送時(shí)間,則整體發(fā)送時(shí)間是五秒并且視頻在一秒之后開始播放。如果音頻中的沉默足夠長(zhǎng),則這樣的系統(tǒng)在接收機(jī)處僅需要相當(dāng)少數(shù)量的緩存來緩存在音頻之前被發(fā)送的被接收的視頻數(shù)據(jù)就可以運(yùn)行。但是,如果音頻中的沉默不夠長(zhǎng)以便做到這一點(diǎn),則更多的視頻必須更早地被發(fā)送,從而導(dǎo)致接收機(jī)必須緩存更多的視頻數(shù)據(jù)。如本領(lǐng)域的技術(shù)人員所理解的,這樣的實(shí)施方案將需要音頻和視頻數(shù)據(jù)的時(shí)間戳,以便其可以被接收機(jī)處的播放器單元重新同步。
這些被預(yù)記錄的視頻序列可被生成和存儲(chǔ)在服務(wù)器上,從中用戶可以將序列下載到其電話上用于瀏覽和后續(xù)發(fā)送到另一個(gè)用戶。如果視頻序列被用戶利用其電話生成,則該電話也需要包括必要的處理電路來識(shí)別音頻中的停頓以便識(shí)別和與音頻一起被發(fā)送的視頻數(shù)據(jù)的數(shù)量,以及合適的處理電路用于生成視頻數(shù)據(jù)以及用于將其與音頻數(shù)據(jù)混合以便GSM編解碼器完全利用可用的帶寬。
做為從語(yǔ)音直接驅(qū)動(dòng)視頻序列的替代,動(dòng)畫序列可被直接從文本生成。例如,用戶可向中央服務(wù)器發(fā)送文本,然后其將文本轉(zhuǎn)換成合適的外貌參數(shù)和被編碼的音頻,其將這些與合適的外貌模型一起發(fā)送到被叫方的電話。然后視頻序列可以上述的方式被生成。在這樣的實(shí)施方案中,當(dāng)用戶預(yù)訂服務(wù)并且使用攝影棚之一來提供圖像用于生成外貌模型時(shí),用戶還通過攝影棚中的麥克風(fēng)輸入某些短語(yǔ),以便服務(wù)器可為該用戶生成合適的語(yǔ)音合成器,其將在后來使用從用戶的輸入文本中合成語(yǔ)音。做為在服務(wù)器中合成語(yǔ)音以及生成外貌參數(shù)的替代,這可以直接在用戶的電話或在被叫方的電話中被完成。但是,在目前這樣的實(shí)施方案不實(shí)際,因?yàn)槲谋镜揭曨l生成是計(jì)算密集的并且要求被叫方有具有一個(gè)有能力的電話。
在上述實(shí)施方案中,模擬用戶的面部的整體形狀和顏色的外貌模型被描述。在替代實(shí)施方案中,單獨(dú)的外貌模型或者僅僅單獨(dú)的顏色模型可被用于眼睛、嘴巴和面部區(qū)域的剩余部分。因?yàn)閱为?dú)的模型被使用,所以不同數(shù)量的外貌參數(shù)或者不同類型的模型可被用于不同的元素。例如,對(duì)于眼睛和嘴巴的模型可比用于面部剩余部分的模型包括更多的參數(shù)。替代的,面部的剩余部分可由沒有任何變化模式的平均紋理來簡(jiǎn)單地模擬。這是有用的,因?yàn)閷?duì)于大部分面部的紋理在視頻呼叫期間不顯著變化。這意味著在訂戶電話之間需要發(fā)送較少的數(shù)據(jù)。
圖14是在實(shí)施方案中被使用的播放器單元53的示意框圖,其中為眼睛和嘴巴以及面部的剩余部分提供單獨(dú)的顏色模型(但是通用的形狀模型)。如所示,除了參數(shù)轉(zhuǎn)換器150可操作地接收被發(fā)送的外貌參數(shù)并且生成形狀矢量xi(其在線164上將該矢量輸出到形狀變形器158)以及對(duì)于各個(gè)顏色模型分離出顏色參數(shù)之外,播放器單元53基本上與第一個(gè)實(shí)施方案的播放器單元53相同。對(duì)于眼睛的顏色參數(shù)被輸出到參數(shù)到像素轉(zhuǎn)換器211,其利用在輸入線212上提供的眼睛顏色模型將所述參數(shù)值轉(zhuǎn)換成相應(yīng)的紅、綠和藍(lán)等級(jí)矢量。類似的,嘴巴顏色參數(shù)由參數(shù)轉(zhuǎn)換器150輸出到參數(shù)到像素轉(zhuǎn)換器213,其利用在線214上輸入的嘴巴顏色模型將嘴巴參數(shù)轉(zhuǎn)換成對(duì)于嘴巴的相應(yīng)的紅、綠和藍(lán)等級(jí)矢量。最后,對(duì)于面部剩余區(qū)域的一個(gè)或多個(gè)外貌參數(shù)被輸入到參數(shù)到像素轉(zhuǎn)換器215,其中利用線216上輸入的模來產(chǎn)生合適的紅、綠和藍(lán)等級(jí)矢量。如圖14所示,從每個(gè)參數(shù)到像素轉(zhuǎn)換器輸出的RGB等級(jí)矢量被輸入到面部再現(xiàn)器(renderer)單元220,其從中重新生成第一個(gè)實(shí)施方案的形狀標(biāo)準(zhǔn)化的顏色等級(jí)矢量。然后這些被傳遞到形狀變形器158,其中他們被變形以便考慮當(dāng)前的形狀矢量xi。后續(xù)處理與第一個(gè)實(shí)施方案是相同的并且因此不再描述。
在從外貌參數(shù)生成視頻圖像中最計(jì)算密集的操作之一是顏色參數(shù)轉(zhuǎn)換成RGB等級(jí)矢量。現(xiàn)在將描述一個(gè)實(shí)施方案,其中顏色等級(jí)矢量不被每幀重新計(jì)算,而是代替地每秒或每第三幀被計(jì)算。這個(gè)替代實(shí)施方案對(duì)于圖15中所示的播放器單元53被描述,雖然其可被用于第一個(gè)實(shí)施方案的播放器單元。如所示,在這個(gè)實(shí)施方案中,播放器單元53還包括控制單元223,其可操作地在控制線225上輸出通用的使能信號(hào),該信號(hào)被輸出到每個(gè)信號(hào)到像素轉(zhuǎn)換器211、213和215。在這個(gè)實(shí)施方案中,當(dāng)控制單元223允許這些轉(zhuǎn)換器這樣做時(shí),這些轉(zhuǎn)換器才可操作地將接收的顏色參數(shù)轉(zhuǎn)換成相應(yīng)的RGB等級(jí)矢量。
在運(yùn)行中,參數(shù)轉(zhuǎn)換器150對(duì)于要被輸出到顯示器55的視頻序列的每幀輸出各組顏色參數(shù)和形狀矢量。形狀矢量如以前一樣被輸出到形狀變形器158并且各個(gè)顏色參數(shù)被輸出到相應(yīng)的參數(shù)到像素轉(zhuǎn)換器。但是,在這個(gè)實(shí)施方案中,控制單元223僅使能轉(zhuǎn)換器211、213和215來為每第三個(gè)視頻幀生成合適的RGB等級(jí)矢量。對(duì)于其參數(shù)到像素轉(zhuǎn)換器211、213和215沒有被使能的視頻幀,面部再現(xiàn)器220可操作地輸出對(duì)于以前幀生成的RGB等級(jí)矢量,然后其可由形狀變形器158利用對(duì)于當(dāng)前視頻幀的新的形狀矢量予以變形。
作為另一個(gè)替代,而不是每秒或每第三個(gè)視頻幀重新計(jì)算一次顏色等級(jí)矢量,每當(dāng)相應(yīng)的輸入?yún)?shù)改變了預(yù)定量,顏色等級(jí)矢量就能夠被計(jì)算。在因?yàn)橹挥袑?duì)應(yīng)特定部分的顏色需要被更新,所以使用對(duì)于眼睛和嘴巴以及面部的剩余部分的單獨(dú)的模型的實(shí)施方案中,這一點(diǎn)特別有用。通過為控制單元223提供由參數(shù)轉(zhuǎn)換器150輸出的參數(shù),因此其可以監(jiān)視從一幀到下一幀的參數(shù)值之間的變化,從而實(shí)現(xiàn)這樣的實(shí)施方案。每當(dāng)這個(gè)改變超過預(yù)定的閾值,合適的參數(shù)到像素轉(zhuǎn)換器將由控制單元到所述轉(zhuǎn)換器的專用使能信號(hào)使能。然后面部再現(xiàn)器220可操作地將該部分的新的RGB等級(jí)矢量與其它部分的舊的RGB等級(jí)矢量組合來為面部生成形狀標(biāo)準(zhǔn)化的RGB等級(jí)矢量,然后其被輸入到形狀變形器158。
如上面提到的,本系統(tǒng)最計(jì)算密集的操作之一是顏色外貌參數(shù)到顏色等級(jí)矢量的轉(zhuǎn)換。有時(shí),對(duì)于諸如移動(dòng)電話的低功率設(shè)備,每個(gè)時(shí)間點(diǎn)可用的處理能力的數(shù)量將變化。這種情況下,被用來重新構(gòu)建顏色等級(jí)矢量的變化的顏色模式的數(shù)量(也就是顏色參數(shù)的數(shù)量)可根據(jù)當(dāng)前可用的處理能力動(dòng)態(tài)地變化。例如,如果移動(dòng)電話對(duì)于每幀接收30個(gè)顏色參數(shù),則當(dāng)所有的處理能力可用時(shí),其使用所有這30個(gè)參數(shù)來重新構(gòu)建顏色等級(jí)矢量。但是,如果可用的處理能力減少,則只有前20個(gè)顏色參數(shù)(表示變化的最重要顏色模式)可被用于重新構(gòu)建顏色等級(jí)矢量。
圖16是說明被編程以便按上述方式操作的播放器單元53的形式的框圖。特別地,參數(shù)轉(zhuǎn)換器150可操作地接收輸入外貌參數(shù)以及生成形狀矢量xi以及紅、綠和藍(lán)顏色參數(shù)(Pri,Pgi和Pbi),其將這些參數(shù)輸出到參數(shù)到像素轉(zhuǎn)換器226。然后參數(shù)到像素轉(zhuǎn)換器226使用等式(6)將這些顏色參數(shù)轉(zhuǎn)換成相應(yīng)的紅、綠和藍(lán)等級(jí)矢量。在這個(gè)實(shí)施方案中,控制單元223可操作地根據(jù)轉(zhuǎn)換器單元226可用的當(dāng)前處理能力來輸出控制信號(hào)228。根據(jù)控制信號(hào)228的等級(jí),參數(shù)到像素轉(zhuǎn)換器226動(dòng)態(tài)地選擇其在等式(6)中使用的顏色參數(shù)的數(shù)量。如本領(lǐng)域的技術(shù)人員所理解的,顏色模型矩陣(Q)的維數(shù)不改變但是顏色參數(shù)(Pri,Pgi和Pbi)中的某些元素被設(shè)置為零。在這個(gè)實(shí)施方案中,與變化的最不重要模式相關(guān)的顏色參數(shù)是被設(shè)置為零的參數(shù),因?yàn)檫@些將對(duì)像素值有最小的影響。
在上述實(shí)施方案中,被編碼的語(yǔ)音和外貌參數(shù)被每個(gè)電話接收、解碼并且然后被輸出給用戶。在替代實(shí)施方案中,該電話包括用于高速緩存除外貌模型之外的動(dòng)畫和音頻序列的存儲(chǔ)器。然后這個(gè)高速緩存被用于存儲(chǔ)預(yù)定或“存儲(chǔ)”的動(dòng)畫序列。然后一接收來自通信的另一方的合適的指令,這些預(yù)定的動(dòng)畫序列就被播放給用戶。這樣,如果動(dòng)畫序列被重復(fù)地播放給用戶,則該序列的外貌參數(shù)僅需要被發(fā)送給該用戶一次。
上述實(shí)施方案已經(jīng)描述了多個(gè)不同的雙向電信系統(tǒng)。如本領(lǐng)域的技術(shù)人員所理解的,上述動(dòng)畫技術(shù)可以類似的方式被用于向用戶留消息。例如,用戶可記錄一個(gè)消息,其被存儲(chǔ)在中央服務(wù)器上直到由被叫方取回。在這種情況下,該消息包括與被編碼的音頻一起的相應(yīng)的外貌參數(shù)序列。替代的,對(duì)于視頻動(dòng)畫的外貌參數(shù)可在被叫方取回該消息的時(shí)候被服務(wù)器或被叫方電話生成。該消息發(fā)送可利用用戶或某些任意的真實(shí)或虛構(gòu)的人物的預(yù)先記錄的存儲(chǔ)序列。在選擇被存儲(chǔ)的序列時(shí),用戶使用允許其瀏覽在服務(wù)器上可用的存儲(chǔ)序列的選擇的界面并且在發(fā)送該消息之前在他/她的電話上瀏覽。作為進(jìn)一步的代替,當(dāng)用戶初始地注冊(cè)該服務(wù)并且使用攝影棚時(shí),攝影棚問用戶其是否想要為任何準(zhǔn)備的短語(yǔ)記錄動(dòng)畫和語(yǔ)音用于后面用做預(yù)先記錄的消息。在這種情況下,為用戶呈現(xiàn)了短語(yǔ)的選擇,其可以從中選擇一個(gè)或多個(gè)。替代的,用戶可記錄其自己的個(gè)人短語(yǔ)。這對(duì)于文本到視頻發(fā)消息的系統(tǒng)尤其合適,因?yàn)榕c僅有文本被用于驅(qū)動(dòng)視頻序列時(shí)相比,其將提供更高質(zhì)量的動(dòng)畫。
在上述實(shí)施方案中,被使用的外貌模型從一組訓(xùn)練圖像的主要成分分析中被生成。如本領(lǐng)域的技術(shù)人員所理解的,這些結(jié)果應(yīng)用于可被一組連續(xù)的變量參數(shù)化的任何模型。例如,矢量量子化和小波技術(shù)可被使用。
在上述實(shí)施方案中,形狀參數(shù)和顏色參數(shù)被組合以便生成外貌參數(shù)。這不是必須的。單獨(dú)的形狀和顏色參數(shù)可被使用。而且,如果訓(xùn)練圖像是黑白的,則紋理參數(shù)可表示圖像中除紅、綠和藍(lán)等級(jí)的灰度等級(jí)。而且,代替模擬紅、綠和藍(lán)值,顏色可由色度和亮度成分或者由色調(diào)、飽和度和值成分表示。
在上述實(shí)施方案中,使用的模型是兩維模型。如果便攜式設(shè)備里有足夠的處理能力可用,則可使用三維模型。在這樣的實(shí)施方案中,形狀模型可模擬訓(xùn)練模型上里程碑點(diǎn)的三維網(wǎng)格。可利用三維掃描儀或利用攝像機(jī)的一個(gè)或多個(gè)立體象對(duì)來獲得三維訓(xùn)練例子。
在上述實(shí)施方案中,被使用的外貌模型生成各個(gè)用戶的視頻圖像。這不是必須的。每個(gè)用戶例如可選擇表示計(jì)算機(jī)生成的人物的外貌模型,其可以是人物或不是人類的物體。在這種情況下,業(yè)務(wù)提供者存儲(chǔ)多個(gè)不同人物的外貌模型,從中每個(gè)訂戶可選擇其想要使用的一個(gè)人物。仍然是替代的,被叫方可選擇用于對(duì)主叫方制作動(dòng)畫的身份或人物。選擇的成分可以是主叫方的多個(gè)不同模型之一或者一些其他真實(shí)或虛構(gòu)的人物的模型。
在上述實(shí)施方案中,假設(shè)移動(dòng)電話沒有相關(guān)外貌模型用來生成另一方的動(dòng)畫序列。但是,在有些實(shí)施方案中,每個(gè)移動(dòng)電話可存儲(chǔ)多個(gè)不同用戶的外貌模型以便其不需要在電話網(wǎng)上被發(fā)送。在這種情況下,只有動(dòng)畫參數(shù)需要在電話網(wǎng)上被發(fā)送。在這樣的實(shí)施方案中,電話網(wǎng)將向移動(dòng)電話發(fā)送請(qǐng)求來詢問其是否有對(duì)于呼叫的另一方的合適的外貌模型,并且只有其沒有時(shí)才可操作來發(fā)送合適的外貌模型。而且,因?yàn)閷?duì)于當(dāng)前的移動(dòng)電話網(wǎng),在建立連接來發(fā)送文件中有大約5秒的系統(tǒng)開銷,所以如果模型以及參數(shù)流被需要,則最好在一個(gè)文件中發(fā)送它們。因此在優(yōu)選實(shí)施方案中,服務(wù)器存儲(chǔ)每個(gè)動(dòng)畫文件的兩個(gè)版本用于發(fā)送,一個(gè)有模型而一個(gè)沒有。
在上述第一個(gè)實(shí)施方案中,主叫方的外貌模型被發(fā)送到被叫方并且反之亦然。因此主叫方的電話以及被叫者的電話使用接收的外貌參數(shù)來為各個(gè)用戶生成視頻序列。在替代實(shí)施方案中,播放器適合于根據(jù)誰在說話而在顯示被叫方和主叫方的視頻之間轉(zhuǎn)換。這樣的實(shí)施方案對(duì)于從語(yǔ)音直接生成視頻序列的系統(tǒng)特別合適,因?yàn)?i)當(dāng)被叫方不說話時(shí)很難合適地對(duì)其制作動(dòng)畫;并且(ii)用戶想要看到自己的視頻被生成以便驗(yàn)證其可信性。
在上述實(shí)施方案中,訂戶電話被描述為移動(dòng)電話。如本領(lǐng)域的技術(shù)人員所理解的,圖1中所示的陸線電話也可以適合于以相同的方式運(yùn)行。在這種情況下,被連接到陸線上的本地交換機(jī)需要將陸線電話合適地與業(yè)務(wù)提供者服務(wù)器接口。
在上述實(shí)施方案中,攝影棚被提供給用戶來為服務(wù)器提供圖像,以便合適的外貌模型可被生成用于系統(tǒng)。如本領(lǐng)域的技術(shù)人員所理解的,其他技術(shù)也可被用于輸入用戶的圖像以便生成外貌模型。例如,在上述實(shí)施方案中在服務(wù)器中提供的外貌模型生成器軟件可在用戶的家庭計(jì)算機(jī)上被提供。在這樣的情況下,用戶可直接從用戶從掃描儀或從照片或視頻攝像機(jī)輸入的圖像生成其自己的外貌模型。仍然是替代的,用戶可簡(jiǎn)單地將照片或數(shù)字圖像發(fā)送到第三方,然后其可利用它們構(gòu)建合適的模型用于系統(tǒng)中。
以上描述了多個(gè)基于電話系統(tǒng)的實(shí)施方案。上述實(shí)施方案的許多特性可被用于其他應(yīng)用中。例如,參考圖14、15和16描述的播放器單元可在任何手持設(shè)備或其中有有限的處理能力可用的設(shè)備中有利地被使用。類似的,其中視頻序列被直接從用戶的語(yǔ)音生成的上述實(shí)施方案,可被用于本地生成視頻序列,而不是將其發(fā)送到另一個(gè)用戶。而且,上述許多修改和替代實(shí)施方案可被用于互聯(lián)網(wǎng)上的通信,其中在例如,用戶終端和互聯(lián)網(wǎng)上的服務(wù)器之間有有限的帶寬可用。
權(quán)利要求
1.一種用于電話網(wǎng)的電話,所述電話包括用于存儲(chǔ)定義了一個(gè)功能的模型數(shù)據(jù)的存儲(chǔ)器,所述功能將一組參數(shù)的一個(gè)或多個(gè)參數(shù)與定義對(duì)象的形狀標(biāo)準(zhǔn)化外貌的紋理數(shù)據(jù)相關(guān)并且其將所述一組參數(shù)的一個(gè)或多個(gè)參數(shù)與為所述對(duì)象定義形狀的形狀數(shù)據(jù)相關(guān);用于接收表示視頻序列的多組參數(shù)的裝置;用于對(duì)于至少一組接收參數(shù)生成定義對(duì)象的形狀標(biāo)準(zhǔn)化外貌的紋理數(shù)據(jù)以及用于對(duì)于多組接收參數(shù)生成對(duì)象的形狀數(shù)據(jù)的裝置;用于利用生成的形狀數(shù)據(jù)變形生成的紋理數(shù)據(jù)以便在視頻序列的幀中生成定義對(duì)象的外貌的圖像數(shù)據(jù)的裝置;以及用于驅(qū)動(dòng)顯示器輸出生成的圖像數(shù)據(jù)以便合成視頻序列的顯示驅(qū)動(dòng)器。
2.根據(jù)權(quán)利要求1所述的電話,其中從一組參數(shù)生成的形狀數(shù)據(jù)包括識(shí)別對(duì)應(yīng)于所述接收的一組參數(shù)的視頻幀中對(duì)象上多個(gè)預(yù)定點(diǎn)的相對(duì)位置的一組位置。
3.根據(jù)權(quán)利要求2所述的電話,其中所述變形裝置可操作地識(shí)別表示形狀標(biāo)準(zhǔn)化對(duì)象的所述紋理數(shù)據(jù)中對(duì)象上所述多個(gè)預(yù)定點(diǎn)的位置,并且可操作地變形紋理數(shù)據(jù),以便所述預(yù)定點(diǎn)的確定的位置被變形到由所述形狀數(shù)據(jù)所定義的相應(yīng)點(diǎn)的位置。
4.根據(jù)前面任何一個(gè)權(quán)利要求所述的設(shè)備,其中所述生成裝置可操作地對(duì)于每組接收到的參數(shù)生成定義所述對(duì)象的形狀標(biāo)準(zhǔn)化外貌的紋理數(shù)據(jù)以及對(duì)于所述對(duì)象的形狀數(shù)據(jù),并且其中所述變形裝置可操作地利用從所述一組參數(shù)生成的相應(yīng)形狀數(shù)據(jù)來變形對(duì)于每組參數(shù)的生成的紋理數(shù)據(jù)。
5.根據(jù)權(quán)利要求1到3的任何一個(gè)所述的設(shè)備,其中所述生成裝置可操作地對(duì)于選擇的各組所述接收的參數(shù)生成紋理數(shù)據(jù),并且如果所述生成裝置沒有對(duì)當(dāng)前的一組接收參數(shù)生成紋理數(shù)據(jù),則所述變形裝置可操作地利用對(duì)于當(dāng)前一組接收參數(shù)的形狀數(shù)據(jù)對(duì)于以前的一組參數(shù)變形紋理數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的電話,包括選擇裝置,用于從所述接收的多組參數(shù)中選擇各組參數(shù),所述生成裝置將為其生成紋理數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的電話,其中所述選擇裝置可操作地根據(jù)預(yù)定規(guī)則從接收的多組參數(shù)中選擇各組參數(shù)。
8.根據(jù)權(quán)利要求6到7所述的電話,包括用于將來自當(dāng)前一組參數(shù)的參數(shù)值與以前一組參數(shù)的參數(shù)值相比較的裝置,并且其中所述選擇裝置可操作地根據(jù)所述比較的結(jié)果來選擇所述當(dāng)前一組參數(shù)。
9.根據(jù)權(quán)利要求8所述的電話,其中如果所述當(dāng)前組的一個(gè)或多個(gè)所述參數(shù)與以前組的相應(yīng)參數(shù)值差異超過預(yù)定閾值,則所述選擇裝置可操作地選擇所述當(dāng)前組參數(shù)。
10.根據(jù)權(quán)利要求6到9的任何一個(gè)所述的電話,其中所述選擇裝置可操作地選擇所述生成裝置將根據(jù)電話的可用處理能力來為其生成所述紋理數(shù)據(jù)的所述各組參數(shù)。
11.根據(jù)權(quán)利要求10所述的電話,其中每個(gè)參數(shù)表示對(duì)于所述對(duì)象的一種紋理變化模式,并且其中所述選擇裝置可操作地選擇能夠在可用的處理能力基本上為實(shí)時(shí)的情況下而轉(zhuǎn)換成為文本數(shù)據(jù)的那樣多的最重要的變化模式。
12.根據(jù)權(quán)利要求1到3的任何一個(gè)所述的設(shè)備,包括用于將來自當(dāng)前一組參數(shù)的參數(shù)值與以前一組參數(shù)的參數(shù)值比較的裝置,并且其中所述變形裝置可操作地對(duì)于變化最大的N個(gè)參數(shù)值變形紋理數(shù)據(jù)。
13.根據(jù)權(quán)利要求12所述的電話,其中根據(jù)可用處理能力來確定N。
14.根據(jù)權(quán)利要求12或13所述的電話,其中所述生成裝置可操作地通過對(duì)于以前的一組參數(shù)利用確定的所述N個(gè)參數(shù)的差值來更新形狀標(biāo)準(zhǔn)化紋理數(shù)據(jù),從而生成形狀標(biāo)準(zhǔn)化紋理的數(shù)據(jù)。
15.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,其中所述模型數(shù)據(jù)包括將一組接收的參數(shù)關(guān)聯(lián)到一組中間形狀參數(shù)的第一個(gè)模型數(shù)據(jù)以及一組中間紋理參數(shù);其中所述模型數(shù)據(jù)還包括定義將中間形狀參數(shù)關(guān)聯(lián)到所述形狀數(shù)據(jù)的功能的第二個(gè)模型數(shù)據(jù);其中所述模型數(shù)據(jù)還包括定義將中間紋理參數(shù)關(guān)聯(lián)到所述紋理數(shù)據(jù)的功能的第三個(gè)模型數(shù)據(jù);并且其中所述生成裝置包括用于對(duì)于從利用第一個(gè)模型數(shù)據(jù)的電話網(wǎng)發(fā)送的每組接收的參數(shù)利用第一個(gè)模型數(shù)據(jù)生成一組中間形狀和紋理參數(shù)的裝置。
16.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,其中所述接收裝置可操作地從電話網(wǎng)接收所述模型數(shù)據(jù)并且還包括用于在所述存儲(chǔ)器中存儲(chǔ)所述接收的模型數(shù)據(jù)的裝置。
17.根據(jù)權(quán)利要求16所述的電話,其中所述接收模型數(shù)據(jù)被編碼并且還包括用于對(duì)模型數(shù)據(jù)解碼的裝置。
18.根據(jù)權(quán)利要求17所述的電話,其中通過將預(yù)定的各組參數(shù)應(yīng)用到模型數(shù)據(jù)以便對(duì)于每個(gè)預(yù)定組目標(biāo)參數(shù)推導(dǎo)出相應(yīng)的紋理數(shù)據(jù)并且通過壓縮從所述組參數(shù)生成的確定的紋理數(shù)據(jù),從而對(duì)于所述模型數(shù)據(jù)進(jìn)行編碼;并且其中所述解碼器包括用于解壓縮所述被壓縮的紋理數(shù)據(jù)的裝置以及用于利用所述解壓縮的紋理數(shù)據(jù)和預(yù)定的各組參數(shù)來重新合成所述模型數(shù)據(jù)的裝置。
19.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,還包括用于接收與視頻序列相關(guān)的音頻信號(hào)的裝置以及用于與視頻序列同步地向用戶輸出音頻信號(hào)的裝置。
20.根據(jù)權(quán)利要求19所述的電話,其中所述音頻信號(hào)和所述各組參數(shù)是彼此交錯(cuò)的。
21.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,包括用于接收語(yǔ)音的裝置以及用于處理語(yǔ)音以便生成表示所述視頻序列的所述多組參數(shù)的裝置,并且其中所述接收裝置可操作地從所述語(yǔ)音處理裝置接收所述參數(shù)。
22.根據(jù)權(quán)利要求21所述的電話,其中所述語(yǔ)音處理裝置包括用于將接收的語(yǔ)音轉(zhuǎn)換成子字單元的序列的語(yǔ)音識(shí)別單元以及用于將所述子字單元序列轉(zhuǎn)換成表示所述視頻序列的所述多組參數(shù)的裝置。
23.根據(jù)權(quán)利要求22所述的電話,其中所述轉(zhuǎn)換裝置包括一個(gè)查找表,用于將每個(gè)子字單元轉(zhuǎn)換成表示所述視頻序列的一幀的相應(yīng)的一組參數(shù)。
24.根據(jù)權(quán)利要求23所述的電話,其中所述轉(zhuǎn)換裝置包括每個(gè)與所述對(duì)象的不同的情緒狀態(tài)相關(guān)的多個(gè)查找表并且還包括用于選擇查找表之一以便根據(jù)所述對(duì)象的被檢測(cè)的情緒狀態(tài)來執(zhí)行所述轉(zhuǎn)換的裝置。
25.根據(jù)權(quán)利要求24所述的電話,其中所述處理裝置可操作地處理所述語(yǔ)音以便確定所述對(duì)象的情緒狀態(tài)并且可操作地選擇由所述轉(zhuǎn)換裝置使用的相應(yīng)的查找表。
26.根據(jù)權(quán)利要求1到18的任何一個(gè)所述的電話,包括用于接收文本的裝置以及用于處理接收的文本以便生成表示對(duì)應(yīng)于說出所述文本的對(duì)象的視頻序列的各組參數(shù)的裝置,并且其中所述接收裝置可操作地從所述文本處理裝置接收所述多組參數(shù)。
27.根據(jù)權(quán)利要求26所述的電話,還包括用于合成對(duì)應(yīng)于文本的語(yǔ)音的文本到語(yǔ)音合成器以及用于輸出與相應(yīng)的視頻序列同步的合成的語(yǔ)音的裝置。
28.根據(jù)權(quán)利要求26或27的電話,其中所述文本處理裝置包括用于將接收的文本轉(zhuǎn)換成子字單元序列的裝置以及用于將子字單元序列轉(zhuǎn)換成所述多組參數(shù)的裝置。
29.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,還包括用于存儲(chǔ)表示預(yù)定視頻序列的各組參數(shù)的存儲(chǔ)器并且還包括用于接收觸發(fā)信號(hào)的裝置,所述生成裝置響應(yīng)所述觸發(fā)信號(hào)而可操作地為存儲(chǔ)的多組參數(shù)生成紋理數(shù)據(jù)和形狀數(shù)據(jù)。
30.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,還包括用于存儲(chǔ)定義從一組接收的參數(shù)到一組被轉(zhuǎn)換的參數(shù)的轉(zhuǎn)換的轉(zhuǎn)換數(shù)據(jù)的裝置以及用于利用所述轉(zhuǎn)換數(shù)據(jù)改變幀中所述對(duì)象的外貌的裝置。
31.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,還包括用于存儲(chǔ)定義將第二個(gè)對(duì)象的圖像數(shù)據(jù)關(guān)聯(lián)到一組參數(shù)的功能的第二個(gè)模型數(shù)據(jù)的第二個(gè)存儲(chǔ)器;用于為所述第二個(gè)對(duì)象接收?qǐng)D像數(shù)據(jù)的裝置;用于利用圖像數(shù)據(jù)和第二個(gè)模型數(shù)據(jù)來為所述第二個(gè)對(duì)象確定一組參數(shù)的裝置;用于將對(duì)于第二個(gè)對(duì)象的確定的一組參數(shù)發(fā)送到所述電話網(wǎng)的裝置。
32.根據(jù)權(quán)利要求31所述的電話,其中所述圖像數(shù)據(jù)接收裝置可操作地接收對(duì)應(yīng)于視頻序列的圖像數(shù)據(jù),其中所述參數(shù)確定裝置可操作地對(duì)于視頻序列中的第二個(gè)對(duì)象確定多組參數(shù),并且其中所述發(fā)送裝置可操作地將對(duì)于所述第二個(gè)對(duì)象的所述多組參數(shù)發(fā)送到所述電話網(wǎng)。
33.根據(jù)權(quán)利要求31或32所述的電話,還包括用于感覺來自第二個(gè)對(duì)象的光線以及用于從中生成所述圖像數(shù)據(jù)的裝置。
34.根據(jù)權(quán)利要求31到33的任何一個(gè)所述的電話,其中所述發(fā)送裝置可操作地向電話網(wǎng)發(fā)送所述第二個(gè)模型數(shù)據(jù)以便發(fā)送到主叫方或要被呼叫的一方。
35.根據(jù)權(quán)利要求1到30的任何一個(gè)所述的電話,包括用于從用戶接收語(yǔ)音的麥克風(fēng);用于處理被接收的語(yǔ)音以便生成表示用戶的外貌的一組參數(shù)的裝置以及用于向電話網(wǎng)發(fā)送表示用戶的外貌的參數(shù)的裝置。
36.根據(jù)權(quán)利要求35所述的電話,其中所述處理裝置包括用于將用戶的語(yǔ)音轉(zhuǎn)換成子字單元序列的自動(dòng)語(yǔ)音識(shí)別單元以及用于將子字單元序列轉(zhuǎn)換成表示用戶的外貌的所述各組參數(shù)的裝置。
37.根據(jù)權(quán)利要求36所述的電話,其中所述轉(zhuǎn)換裝置包括查找表,用于將每個(gè)子字單元轉(zhuǎn)換成表示用戶的外貌的相應(yīng)的一組參數(shù),同時(shí)發(fā)出相應(yīng)的子字單元的音。
38.根據(jù)權(quán)利要求1到34的任何一個(gè)所述的電話,還包括用于接收來自用戶的文本的裝置,用于處理被接收的文本以便生成表示說出所述文本的用戶的外貌的各組參數(shù)的裝置以及用于將表示用戶的外貌的參數(shù)發(fā)送到電話網(wǎng)的裝置。
39.根據(jù)權(quán)利要求38所述的電話,其中所述文本處理裝置包括用于將被接收的文本轉(zhuǎn)換為子字單元序列的第一個(gè)轉(zhuǎn)換裝置以及用于將子字單元序列轉(zhuǎn)換成所述多組參數(shù)的第二個(gè)轉(zhuǎn)換裝置。
40.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,其中所述紋理數(shù)據(jù)定義了對(duì)象的形狀標(biāo)準(zhǔn)化的顏色外貌。
41.根據(jù)權(quán)利要求40所述的電話,其中所述紋理數(shù)據(jù)包括單獨(dú)的紅色紋理數(shù)據(jù)、綠色紋理數(shù)據(jù)和藍(lán)色紋理數(shù)據(jù)。
42.根據(jù)前面任何一個(gè)權(quán)利要求所述的電話,其中所述對(duì)象是表示呼叫的一方的面部。
43.根據(jù)權(quán)利要求42所述的電話,其中所述生成裝置可操作地為面部的眼睛、面部的嘴巴以及面部區(qū)域的剩余部分生成單獨(dú)的紋理數(shù)據(jù)。
44.根據(jù)權(quán)利要求38所述的電話,其中每組參數(shù)包括各自的參數(shù)子集,每個(gè)子集與面部的眼睛、面部的嘴巴以及面部區(qū)域的剩余部分相關(guān)。
45.根據(jù)權(quán)利要求43或44所述的電話,其中對(duì)于面部區(qū)域的剩余部分的所述紋理數(shù)據(jù)是不變的紋理。
46.一種供電話網(wǎng)使用的電話,所述電話包括用于接收來自用戶的語(yǔ)音信號(hào)的裝置;用于處理被接收的語(yǔ)音信號(hào)以便生成表示說出所述語(yǔ)音的用戶的外貌的多組參數(shù)的裝置;以及用于向電話網(wǎng)發(fā)送表示用戶的外貌的參數(shù)的裝置。
47.根據(jù)權(quán)利要求46所述的電話,其中所述處理裝置包括用于將用戶的語(yǔ)音轉(zhuǎn)換到子字單元序列的自動(dòng)語(yǔ)音識(shí)別單元以及用于將子字單元序列轉(zhuǎn)換到表示用戶的外貌的所述各組參數(shù)的裝置。
48.根據(jù)權(quán)利要求47所述的電話,其中所述轉(zhuǎn)換裝置包括用于將每個(gè)子字單元轉(zhuǎn)換成表示用戶的外貌的相應(yīng)的一組參數(shù)同時(shí)發(fā)音相應(yīng)的子字單元的查找表。
49.根據(jù)權(quán)利要求48所述的電話,其中所述轉(zhuǎn)換裝置包括多個(gè)查找表并且其中所述語(yǔ)音處理裝置可操作地從所述的接收語(yǔ)音信號(hào)確定用戶的情緒并且可操作地選擇查找表供所述轉(zhuǎn)換裝置使用。
50.一種與電話網(wǎng)一起使用的電話,所述電話包括用于接收來自用戶的文本的裝置;用于處理被接收的文本以便生成表示說出所述文本的用戶的外貌的多組參數(shù)的裝置;以及用于向電話網(wǎng)發(fā)送表示用戶的外貌的參數(shù)的裝置。
51.根據(jù)權(quán)利要求50所述的電話,其中所述文本處理裝置包括用于將被接收的文本轉(zhuǎn)換成子字單元序列的第一個(gè)轉(zhuǎn)換裝置以及用于將子字單元序列轉(zhuǎn)換成所述多組參數(shù)的第二個(gè)轉(zhuǎn)換裝置。
52.根據(jù)權(quán)利要求51所述的電話,其中所述第二個(gè)轉(zhuǎn)換裝置包括查找表,用于將每個(gè)子字單元轉(zhuǎn)換成表示用戶的外貌的相應(yīng)的一組參數(shù),同時(shí)發(fā)出相應(yīng)的子字單元的音。
53.根據(jù)權(quán)利要求52所述的電話,其中所述第二個(gè)轉(zhuǎn)換裝置包括多個(gè)查找表,每個(gè)與用戶的各個(gè)不同的情緒相關(guān)聯(lián);并且還包括用于感覺用戶的當(dāng)前情緒以及用于選擇相應(yīng)的查找表供所述轉(zhuǎn)換裝置使用的裝置。
54.一種供GSM網(wǎng)使用的GSM電話,該GSM電話包括用于對(duì)音頻數(shù)據(jù)編碼的GSM音頻編解碼器;用于接收音頻數(shù)據(jù)和視頻數(shù)據(jù)的裝置;用于混合音頻數(shù)據(jù)和視頻數(shù)據(jù)以便生成音頻和視頻數(shù)據(jù)的混合流的裝置;用于利用所述音頻編解碼器對(duì)音頻和視頻數(shù)據(jù)的混合流進(jìn)行編碼的裝置;以及用于將所述被編碼的音頻和視頻數(shù)據(jù)發(fā)送到所述電話網(wǎng)的裝置。
55.一種用于控制第一和第二個(gè)訂戶電話之間的通信鏈路的電話網(wǎng)服務(wù)器,所述電話網(wǎng)服務(wù)器包括用于為第一個(gè)訂戶存儲(chǔ)定義一個(gè)功能的模型數(shù)據(jù)的存儲(chǔ)器,所述功能將一組參數(shù)的一個(gè)或多個(gè)參數(shù)與定義與第一個(gè)訂戶相關(guān)的對(duì)象的形狀標(biāo)準(zhǔn)化外貌的紋理數(shù)據(jù)關(guān)聯(lián)并且將所述一組參數(shù)的一個(gè)或多個(gè)參數(shù)與定義與第一個(gè)訂戶相關(guān)的對(duì)象的形狀的形狀數(shù)據(jù)關(guān)聯(lián);用于接收指示呼叫被在所述第一和第二個(gè)訂戶之間啟動(dòng)的信號(hào)的裝置;響應(yīng)所述信號(hào)用于將對(duì)于所述第一個(gè)訂戶的所述模型數(shù)據(jù)發(fā)送到第二個(gè)訂戶的電話的裝置。
56.據(jù)權(quán)利要求55所述的電話網(wǎng)服務(wù)器,其中所述存儲(chǔ)器還包括用于所述第二個(gè)訂戶的模型數(shù)據(jù)并且其中所述發(fā)送裝置可操作地向所述第一個(gè)訂戶的電話發(fā)送對(duì)于所述第二個(gè)訂戶的模型數(shù)據(jù)。
57.根據(jù)權(quán)利要求55或56所述的電話網(wǎng)服務(wù)器,還包括用于生成表示視頻序列的多組參數(shù)的裝置,從中視頻序列可被利用所述模型數(shù)據(jù)來合成,以及用于向所述第一或第二個(gè)訂戶的電話發(fā)送所述各組參數(shù)的裝置。
58.根據(jù)權(quán)利要求57所述的電話網(wǎng)服務(wù)器,其中所述生成裝置可操作地從接收自所述第一個(gè)訂戶的電話的語(yǔ)音信號(hào)生成所述多組參數(shù)。
59.根據(jù)權(quán)利要求58所述的電話網(wǎng)服務(wù)器,還包括用于處理所述被接收的語(yǔ)音信號(hào)以及用于生成表示被接收的語(yǔ)音的子字單元序列的裝置以及用于將所述子字單元序列轉(zhuǎn)換成所述多組參數(shù)的裝置。
60.根據(jù)權(quán)利要求56所述的電話網(wǎng)服務(wù)器,其中所述生成裝置包括用于從第一個(gè)訂戶的電話接收文本的裝置,用于將被接收的文本轉(zhuǎn)換成子字單元序列的第一轉(zhuǎn)換裝置;以及用于將子字單元序列轉(zhuǎn)換成所述多組參數(shù)的裝置。
61.根據(jù)權(quán)利要求59或60所述的電話網(wǎng)服務(wù)器,其中所述轉(zhuǎn)換裝置包括將每個(gè)子字單元關(guān)聯(lián)到相應(yīng)的一組參數(shù)的查找表。
62.一種電話網(wǎng),包括根據(jù)權(quán)利要求55到60的任何一個(gè)所述的電話網(wǎng)服務(wù)器以及根據(jù)權(quán)利要求1到54的任何一個(gè)所述的多個(gè)電話。
63.一種用于合成視頻序列的設(shè)備,包括用于存儲(chǔ)定義了一種功能的模型數(shù)據(jù)的存儲(chǔ)器,所述功能將一組參數(shù)的一個(gè)或多個(gè)參數(shù)與定義對(duì)象的形狀標(biāo)準(zhǔn)化外貌的紋理數(shù)據(jù)關(guān)聯(lián)并且將所述一組參數(shù)的一個(gè)或多個(gè)參數(shù)與定義對(duì)象的形狀的形狀數(shù)據(jù)關(guān)聯(lián);用于接收表示視頻序列的多組參數(shù)的裝置;用于對(duì)于至少一組被接收的參數(shù)生成定義對(duì)象的形狀標(biāo)準(zhǔn)化外貌的紋理數(shù)據(jù)以及用于對(duì)于多組被接收的參數(shù)生成對(duì)象的形狀數(shù)據(jù)的裝置;用于利用生成的形狀數(shù)據(jù)變形被生成的紋理數(shù)據(jù)以便在視頻序列的一幀中生成定義對(duì)象的外貌的圖像數(shù)據(jù)的裝置;用于驅(qū)動(dòng)顯示器來輸出被生成的圖像數(shù)據(jù)以便合成視頻序列的顯示驅(qū)動(dòng)器。
64.根據(jù)權(quán)利要求63所述的設(shè)備,其中所述生成裝置可操作地對(duì)于選擇的各組所述被接收的參數(shù)生成紋理數(shù)據(jù),并且其中如果所述生成裝置沒有對(duì)當(dāng)前一組被接收的參數(shù)生成紋理數(shù)據(jù),則所述變形裝置可操作地利用對(duì)于當(dāng)前一組被接收的參數(shù)的形狀數(shù)據(jù)為以前的一組參數(shù)變形紋理數(shù)據(jù)。
65.根據(jù)權(quán)利要求64所述的設(shè)備,包括選擇裝置,用于從所述被接收的多組參數(shù)中選擇各組參數(shù),所述生成裝置將為其生成紋理數(shù)據(jù)。
66.根據(jù)權(quán)利要求65所述的設(shè)備,其中所述選擇裝置可操作地根據(jù)預(yù)定規(guī)則從被接收的多組參數(shù)中選擇各組參數(shù)。
67.根據(jù)權(quán)利要求65或66所述的設(shè)備,包括用于將來自當(dāng)前一組參數(shù)的參數(shù)值與以前的一組參數(shù)的參數(shù)值相比較的裝置,并且其中所述選擇裝置可操作地根據(jù)所述比較的結(jié)果來選擇所述當(dāng)前一組參數(shù)。
68.根據(jù)權(quán)利要求67所述的設(shè)備,其中如果所述當(dāng)前一組參數(shù)的一個(gè)或多個(gè)所述參數(shù)與以前一組的相應(yīng)參數(shù)值的差異超過預(yù)定閾值,則所述選擇裝置可操作地選擇所述當(dāng)前一組參數(shù)。
69.根據(jù)權(quán)利要求65到68的任何一個(gè)所述的設(shè)備,其中所述選擇裝置可操作地選擇所述生成裝置將根據(jù)設(shè)備的可用處理能力為其生成所述紋理數(shù)據(jù)的各組參數(shù)。
70.根據(jù)權(quán)利要求63到69的任何一個(gè)所述的設(shè)備,其中所述模型數(shù)據(jù)包括將被接收的一組參數(shù)與一組中間形狀參數(shù)以及一組中間紋理參數(shù)相關(guān)聯(lián)的第一個(gè)模型數(shù)據(jù);其中所述模型數(shù)據(jù)還包括第二個(gè)模型數(shù)據(jù),其定義一個(gè)功能,所述功能將中間形狀參數(shù)與所述形狀參數(shù)關(guān)聯(lián);其中所述模型數(shù)據(jù)還包括第三個(gè)模型數(shù)據(jù),其定義一個(gè)功能,所述功能將所述一組中間紋理參數(shù)與所述紋理參數(shù)關(guān)聯(lián);并且其中所述生成裝置包括用于對(duì)于每組被接收的參數(shù)利用第一個(gè)模型數(shù)據(jù)生成一組中間形狀和紋理參數(shù)的裝置。
71.根據(jù)權(quán)利要求63到70的任何一個(gè)所述的設(shè)備,還包括用于接收與視頻序列相關(guān)的音頻信號(hào)的裝置以及用于與視頻序列同步地向用戶輸出音頻信號(hào)的裝置。
72.根據(jù)權(quán)利要求63到71的任何一個(gè)所述的設(shè)備,包括用于接收語(yǔ)音的裝置以及用于處理被接收的語(yǔ)音以便生成表示所述視頻序列的所述多組參數(shù)的裝置并且其中所述接收裝置可操作地從所述語(yǔ)音處理裝置接收所述參數(shù)。
73.根據(jù)權(quán)利要求72所述的設(shè)備,其中所述語(yǔ)音處理裝置包括用于將被接收的語(yǔ)音轉(zhuǎn)換成子字單元序列的語(yǔ)音識(shí)別單元以及用于將所述子字單元序列轉(zhuǎn)換成表示所述視頻序列的所述多組參數(shù)的裝置。
74.根據(jù)權(quán)利要求73所述的設(shè)備,其中所述轉(zhuǎn)換裝置包括用于將每個(gè)子字單元轉(zhuǎn)換成表示所述視頻序列的一幀的相應(yīng)的一組參數(shù)的一個(gè)查找表。
75.根據(jù)權(quán)利要求73所述的設(shè)備,其中所述轉(zhuǎn)換裝置包括多個(gè)查找表,每個(gè)查找表與對(duì)象的不同情緒相關(guān)聯(lián)并且還包括用于根據(jù)檢測(cè)的對(duì)象的情緒狀態(tài)來選擇所述查找表之一供所述轉(zhuǎn)換裝置使用的裝置。
76.根據(jù)權(quán)利要求75所述的設(shè)備,其中所述語(yǔ)音識(shí)別單元可操作地從所述語(yǔ)音信號(hào)檢測(cè)對(duì)象的情緒狀態(tài)。
77.根據(jù)權(quán)利要求63到71的任何一個(gè)所述的設(shè)備,包括用于接收文本的裝置以及用于處理被接收的文本以便生成表示對(duì)應(yīng)于說出所述文本的對(duì)象的視頻序列的各組參數(shù)的裝置,其中所述接收裝置可操作地從所述文本處理裝置接收所述多組參數(shù)。
78.根據(jù)權(quán)利要求77所述的設(shè)備,還包括用于將合成對(duì)應(yīng)于文本的語(yǔ)音的文本到語(yǔ)音合成器以及用于與相應(yīng)的視頻序列同步輸出合成的語(yǔ)音的裝置。
79.根據(jù)權(quán)利要求77或78所述的設(shè)備,其中所述文本處理裝置包括用于將被接收的文本轉(zhuǎn)換成子字單元序列的第一個(gè)轉(zhuǎn)換裝置以及用于將子字單元序列轉(zhuǎn)換到所述多組參數(shù)的第二個(gè)轉(zhuǎn)換裝置。
80.根據(jù)權(quán)利要求79所述的設(shè)備,其中所述第二個(gè)轉(zhuǎn)換裝置包括用于將每個(gè)子字單元轉(zhuǎn)換成表示所述視頻序列的一幀的相應(yīng)一組參數(shù)的查找表。
81.根據(jù)權(quán)利要求80所述的設(shè)備,其中所述第二個(gè)轉(zhuǎn)換裝置包括多個(gè)查找表并且還包括用于選擇所述查找表之一供所述第二個(gè)轉(zhuǎn)換裝置使用的裝置。
82.一種計(jì)算機(jī)可讀介質(zhì),存儲(chǔ)計(jì)算機(jī)可執(zhí)行過程步驟,用于導(dǎo)致可編程的計(jì)算機(jī)設(shè)備變成被配置為根據(jù)權(quán)利要求1到54的任何一個(gè)所述的電話,根據(jù)權(quán)利要求55到62的任何一個(gè)所述的電話網(wǎng)服務(wù)器或者根據(jù)權(quán)利要求63到81的任何一個(gè)所述的設(shè)備。
83.一種計(jì)算機(jī)可實(shí)現(xiàn)的指令,用于導(dǎo)致可編程的處理器變成被配置為根據(jù)權(quán)利要求1到54的任何一個(gè)所述的電話,根據(jù)權(quán)利要求55到62的任何一個(gè)所述的電話網(wǎng)服務(wù)器或者根據(jù)權(quán)利要求63到81的任何一個(gè)所述的設(shè)備。
全文摘要
描述了一種電話系統(tǒng),其中訂戶電話為電話呼叫的一方的外貌存儲(chǔ)合適的模型,從中其根據(jù)從電話網(wǎng)接收的一組外貌參數(shù)合成該方的視頻序列。外貌參數(shù)可從與用戶的電話相關(guān)的攝像機(jī)被生成或者從由該方輸入的文本或語(yǔ)音信號(hào)被生成。
文檔編號(hào)G06T1/00GK1537300SQ01822832
公開日2004年10月13日 申請(qǐng)日期2001年12月21日 優(yōu)先權(quán)日2000年12月22日
發(fā)明者B·J·吉勒特, C·S·維勒斯, M·J·威廉斯, G·M·斯利特, B J 吉勒特, 威廉斯, 斯利特, 維勒斯 申請(qǐng)人:人類技術(shù)有限公司