專利名稱:基于統(tǒng)計與規(guī)則結(jié)合的語音驅(qū)動人臉動畫方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于統(tǒng)計與規(guī)則結(jié)合的語音驅(qū)動人臉動畫方法,尤指一種使用視頻采集,語音分析及圖象處理等方法,記錄真實人臉說話時的語音與人臉特征點運(yùn)動數(shù)據(jù),建立一個初始的語音圖像數(shù)據(jù)庫;通過視頻采集幀率與語音數(shù)據(jù)采樣率可以計算出語音數(shù)據(jù)分析窗的位移量,同時利用這幾個數(shù)據(jù)利用統(tǒng)計學(xué)習(xí)方法得到語音與視頻幀對應(yīng)的同步對應(yīng)關(guān)系模型。利用這種模型,加上規(guī)則,可以得到任意語音對應(yīng)的人臉運(yùn)動參數(shù),驅(qū)動人臉動畫模型。
認(rèn)知學(xué)家與心理學(xué)家已經(jīng)觀察到有大量的相關(guān)信息存在語音和人臉行為中。臉部信息可以增加觀察者對語音內(nèi)容以及形式上的理解,并且被很多基于語音界面的系統(tǒng)考慮。相反,合成可信度較高的人臉被認(rèn)為是生成可接受的虛擬人和動畫人的主要障礙。人們對于解釋人體運(yùn)動行為有較高的敏感性,不真實自然的動畫人臉通常會干擾甚至打斷人們對語音的理解。目前的語音驅(qū)動研究可分為兩類通過語音識別和不通過語音識別。第一種方法是通過將語音分割成語言單元,如音素(Phoneme),視覺基元(Viseme)以及更進(jìn)一步音節(jié)(syllable),隨后將這些語言單元直接隱射到嘴唇姿勢后用拼接法合成。這種方法非常直接易于實現(xiàn),但缺點是忽視了動態(tài)因素并且同步問題---潛在的語音段落與肌肉模型運(yùn)動的相互作用及影響很難處理。到現(xiàn)在為止,幾乎所有的同步問題上的努力集中在啟發(fā)式規(guī)則以及經(jīng)典的平滑方法上。比如Baldy是一個語音基元驅(qū)動的3D虛擬人臉系統(tǒng),對于同步問題的處理采用心理學(xué)家認(rèn)可的手工設(shè)計的語音同步模型。雖然視頻重寫(Video Rewrite)方法通過對三音子對應(yīng)的視頻段排列得到新的視頻,結(jié)果比生成的動畫模型自然,但值得指出的是,三音子所表示的是語音之間的過渡連接,并不代表人臉幀之間的運(yùn)動。同時系統(tǒng)的好壞取決于提供三音子樣本的數(shù)目以及平滑技術(shù)。當(dāng)我們用離散的語音基元或圖象基元表示音視頻的基本單元時,很多必要的信息會被丟失。事實上,語音基元的設(shè)計僅滿足區(qū)別發(fā)音高低以及可以傳遞語言內(nèi)容的需要。語音基元表示對于識別而言非常有效但對于合成來說卻不是最好的,這主要由于他們很難預(yù)測聲音韻律和人臉表情之間,聲音能量與姿勢放大之間,以及聲音段落與唇動同步之間的關(guān)系。第二種方法是繞過語音基元這種形式,找到語音信號與控制參數(shù)之間的隱射關(guān)系,然后直接驅(qū)動嘴唇運(yùn)動。可以用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,用前后各五幀語音信號去預(yù)測控制參數(shù)。但一般采用手工標(biāo)定對應(yīng)語音段控制參數(shù)的方法,雖然回避了人臉特征點自動獲取的難題,但同時也導(dǎo)致系統(tǒng)難以描述人臉復(fù)雜的變化。也有將一些3D位置跟蹤器安放在嘴唇旁邊以及臉頰周圍,雖然可以獲得人臉運(yùn)動的準(zhǔn)確數(shù)據(jù),但對于人臉上部如眼睛,以及眉毛等等的變化卻沒有實現(xiàn)。有人提出用一種用相關(guān)信號預(yù)測控制信號的方法(HMM),并將它用于語音驅(qū)動人臉動畫中。但用一個HMM處理復(fù)雜的音頻數(shù)據(jù)將問題簡化了。同時以上處理都是基于統(tǒng)計學(xué)習(xí)的,可以處理語音與唇動等關(guān)聯(lián)性較強(qiáng)的隱射,但對于語音與眨眼,語音與頭勢等弱關(guān)聯(lián)關(guān)系則難以通過學(xué)習(xí)得到。
為實現(xiàn)上述目的,本發(fā)明提供的方法包括步驟利用音視頻同步切割方法得到音視頻對應(yīng)數(shù)據(jù)流;通過音視頻分析方法,得到相應(yīng)的特征向量;運(yùn)用統(tǒng)計學(xué)習(xí)方法學(xué)習(xí)到音視頻同步隱射關(guān)系模型;運(yùn)用統(tǒng)計學(xué)習(xí)到的模型以及規(guī)則得到與新語音相對應(yīng)的人臉運(yùn)動參數(shù),驅(qū)動人臉動畫模型。
本發(fā)明使用視頻采集,語音分析及圖象處理等方法,記錄真實人臉說話時的語音與人臉特征點運(yùn)動數(shù)據(jù),建立一個初始的語音圖像數(shù)據(jù)庫;通過語音分析可以得到語音特征,包括線性預(yù)測系數(shù)以及韻律參數(shù)(能量以及過零率和基頻),從視頻幀可以提取MPEG4定義的人臉動畫參數(shù)對應(yīng)的特征點,通過相對幀作差計算以及相對位移計算可以得到人臉動畫參數(shù)。利用聚類,統(tǒng)計以及神經(jīng)網(wǎng)絡(luò)等方法完成從語音特征到人臉動畫參數(shù)的學(xué)習(xí)映射。學(xué)習(xí)后,當(dāng)新的語音進(jìn)來,通過分析可以得到語音特征,語音特征通過映射可以得到人臉動畫參數(shù),在此基礎(chǔ)上,運(yùn)用人臉運(yùn)動知識庫,在結(jié)果上加入規(guī)則約束,實現(xiàn)真實感的動畫。
圖7是統(tǒng)計視覺模型方法與基于神經(jīng)網(wǎng)絡(luò)方法的比較(嘴唇高度參數(shù)的比較);圖8是語音驅(qū)動人臉動畫示例,上圖為真實音視頻,下圖為根據(jù)本發(fā)明的利用音頻得到的人臉運(yùn)動序列。
2)語音信號的聚類分析是建立在對人臉姿勢的分類學(xué)習(xí)上,這樣做比考慮假設(shè)的通過語音感知分類要好。同時,由于同一唇形對應(yīng)完全不同的語音特征,因此,采用神經(jīng)網(wǎng)絡(luò)對同一類的語音信號訓(xùn)練,可使得預(yù)測結(jié)果的魯棒性提高。
3)統(tǒng)計視覺模型容許我們找到整句話優(yōu)化的人臉運(yùn)動軌跡,充分使用上下文信息同時避免了神經(jīng)網(wǎng)絡(luò)訓(xùn)練難以實現(xiàn)上下文相關(guān)的缺陷。
4)視頻信號僅需分析一次,用來訓(xùn)練語音與人臉動畫參數(shù)(FAP)的對應(yīng)關(guān)系,結(jié)果模型可以被用來做其他人的人臉合成。
5)人臉運(yùn)動規(guī)則的引入使原來與語音關(guān)聯(lián)程度不高的部分的動畫也能更加真實,如眨眼和頭動等。
6)整個框架可以用于其他信號之間的相關(guān)預(yù)測和控制或合成。
上述基于統(tǒng)計與規(guī)則相結(jié)合的語音驅(qū)動人臉動畫方法包括如下兩個方面學(xué)習(xí)與應(yīng)用階段1)學(xué)習(xí)階段包括如下步驟(
圖1)a)音視頻同步錄制與分割通過攝象機(jī)可以同步的錄制語音和視頻數(shù)據(jù),形成AVI文件,但為了以后分析需要,必須將音視頻信號分為不同通道的音頻和視頻流。傳統(tǒng)做法通常根據(jù)經(jīng)驗,對采用的某種攝象機(jī)固定設(shè)置,本發(fā)明提出音視頻同步分割方法可用于任意攝象機(jī)采集視頻。
假設(shè)視頻采集幀率為Videoframecount/msec,音頻幀率為Audiosamplecount/msec,語音分析窗位移為Windowmove,語音分析窗大小為Windowsize,需要語音窗個數(shù)為m,語音分析窗與語音分析窗位移比例為n;Windowmove=Audiosamplecount/(Videoframecount*m)(1);Windowsize=Windowmove*n(2);其中m與n為可調(diào)參數(shù),根據(jù)實際情況設(shè)定。按這種方法設(shè)置的同步參數(shù)可以使音視頻同步精確到采樣位。
為了覆蓋盡量全的各種發(fā)音,方法選擇863中國語音合成庫CoSS-1總結(jié)的文本資料作為話者發(fā)音的文字材料。CoSS-1包含所有漢語1268個獨(dú)立音節(jié)的發(fā)音,也包含大量2-4字詞的發(fā)音以及200個語句的語音。記錄下各種單字,詞及語句的同步音視頻庫。通過標(biāo)記特征點,可獲取嘴唇,臉頰,眼皮等位置的運(yùn)動數(shù)據(jù)。設(shè)置攝象機(jī)按10幀/秒將采集的視頻轉(zhuǎn)為圖象并利用跟蹤程序處理得到圖象特征序列。假設(shè)m=6,n=2/3我們采用語音采樣率為8040Hz,則語音分析的窗長為8040/10*6=134,幀移為134*2/3=89。
b)音視頻特征提取。
對于音頻提取海明窗中語音數(shù)據(jù)的線性預(yù)測參數(shù)以及韻律參數(shù)(能量、過零率以及基頻)作為語音特征向量對于視頻,提取人臉上與Mpeg-4一致的特征點,然后計算各特征點坐標(biāo)與標(biāo)準(zhǔn)幀坐標(biāo)的差值Vel={V1,V2…Vn},再計算按Mpeg-4定義的特定人臉上的各特征點對應(yīng)尺度參考量P={P1,P2,…,Pn},通過公式(3)即可得到人臉運(yùn)動參數(shù)。
Fapi=(Vi(x|y)/Pi(x|y))*1024(3)Fapi表示與第I個特征點對應(yīng)的人臉運(yùn)動參數(shù),Vi(x|y)表示的Vi的x或y坐標(biāo),Pi(x|y)表示與Vi(x|y)對應(yīng)的尺度參考量。
對于語音特征,在語音分析中應(yīng)用傳統(tǒng)的海明窗,這樣每一幀得到16階LPC與RASTA-PLP混合系數(shù)以及一些韻律參數(shù)。
對于人臉運(yùn)動特征,使用基于MPEG4的人臉動畫表示方案。MPEG-4使用FDP(人臉定義參數(shù))和FAP(人臉動畫參數(shù))指定人臉模型及其動畫,使用FAPU(人臉動畫參數(shù)單元)標(biāo)示FAP的位移活動?;谏鲜鲈?,獲取人臉表情和唇動運(yùn)動數(shù)據(jù),就是要獲取相應(yīng)的FDP和FAP參數(shù)。為了獲得人臉運(yùn)動數(shù)據(jù),開發(fā)了一套計算機(jī)視覺系統(tǒng)可以同步跟蹤許多個性的人臉特征如嘴角以及嘴唇線,眼睛以及鼻子等。圖2顯示我們可以跟蹤和得到的特征點。由于獲取精確的特征點運(yùn)動數(shù)據(jù)比實驗眾多的跟蹤算法對我們合成更重要。我們采用通過在臉上標(biāo)記特定顏色的做法來獲取數(shù)據(jù)并且要求話者盡量減少頭部運(yùn)動,圖3顯示最終獲得的特征點以及影響區(qū)域。
通過特征點提取出來的數(shù)據(jù)是絕對坐標(biāo),而且由于話者頭部運(yùn)動或身體運(yùn)動的影響,使得用簡單圖象處理得到的坐標(biāo)值具有很大的噪音,因此需要進(jìn)行歸正預(yù)處理。我們假設(shè)不受FAP影響的特征點是相對不運(yùn)動的,利用這種不變性完成從圖象坐標(biāo)到人臉模型相對坐標(biāo)的變換,從而可以去除由話者運(yùn)動引起的旋轉(zhuǎn)和伸縮變化對數(shù)據(jù)的影響。對圖4中Mpeg4定義的特征點,我們選取了P0(11.2),P1(11.3),P2(11.1)和P3(多加在鼻尖上的一個點)形成正交坐標(biāo)系(X軸P0 P1,Y軸P2 P3),根據(jù)這個坐標(biāo)系,按照以下方法可計算出旋轉(zhuǎn)角度以及伸縮尺度。假設(shè)這些參考點的坐標(biāo)為P0(x0,y0),P1(x1,y1),P2(x2,y2)and P3(x3,y3),新坐標(biāo)體系的原點坐標(biāo)可以由它們連接成的兩條直線交點算出,假設(shè)為P(xnew,ynew)同時還可以算出新坐標(biāo)相對于正交坐標(biāo)的旋轉(zhuǎn)角度Φ。這樣任意點(x,y)在新坐標(biāo)體系下的值(x’,y’)可以按照如下公式計算x′=x×cos(θ)-x×sin(θ)+P(xnew) (4)y′=y(tǒng)×sin(θ)-y×cos(θ)+P(ynew) (5)為了避免伸縮影響,假設(shè)加在鼻梁上的點相對于第一幀是不運(yùn)動的,任何其他點可以根據(jù)式(6)和(7)計算與這一點的相對位移,從而將圖象坐標(biāo)轉(zhuǎn)為人臉模型坐標(biāo),得到特征點運(yùn)動的準(zhǔn)確數(shù)據(jù)xk″=(xk′-xk3)-(x1′-x13) (6)yk″=(yk′-yk3)-(y1′-y13) (7)其中(x13,y13)表示第1幀的鼻尖點的坐標(biāo),(x1′,y1′)表示第1幀其他特征點的坐標(biāo),(xk3,yk3)表示第k幀的鼻尖點的坐標(biāo),(xk′,yk′)表示第k幀其他特征點的坐標(biāo),(xk″,yk″)表示第k幀其他特征點的最后計算坐標(biāo)。通過濾波后,每一特征點的坐標(biāo)都可以參照圖4定義的人臉動畫參數(shù)單元(FAPU)計算出FAP值。假設(shè)圖4中定義的ESO以及ENSO分別為200和140,則5.3(x,y)對應(yīng)于兩個FAP值分別可以計算為FAP39=X×1024/200 (8)FAP41=Y(jié)×1024/140 (9)c)音頻特征到視頻特征的統(tǒng)計學(xué)習(xí)。①首先將音視頻按a),b)所述得到同步分割特征集Audio,Video;②對Video集中視頻進(jìn)行無監(jiān)督聚類分析,得到人臉運(yùn)動基本模式,設(shè)為I類;③利用統(tǒng)計方法得到兩類或多類之間的轉(zhuǎn)移概率,稱為統(tǒng)計視覺模型,并用熵來評價模型的好壞,然后再進(jìn)行b)直到熵最小。④將屬于同一個人臉運(yùn)動基本模式的對應(yīng)的語音特征集Audio中的數(shù)據(jù)分成相應(yīng)的子集Audio(i),I代表第幾類。⑤對每個子集Audio(i)用一個神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸入為子集中的語音特征F(Audio(i)),輸出為屬于這個類別的近似程度P(Video(i))。1.②中人臉運(yùn)動基本模式聚類分析方法對于基本人臉模式,認(rèn)知學(xué)家給出了一些研究成果,但一般都是定性給出6種基本表情或更多,這種定性表達(dá)合成結(jié)果的真實感不好。也有研究人員通過對真實數(shù)據(jù)聚類來發(fā)現(xiàn)模式,但目前大多聚類分析都是在音素基礎(chǔ)上進(jìn)行的,忽略了語句級人臉運(yùn)動的動態(tài)性。我們希望從大量真實語句中發(fā)現(xiàn)一組有效表達(dá)人臉運(yùn)動的模式,這種發(fā)現(xiàn)的模式可以具有很明顯的意義如MPEG4定義的14種唇形,也可以只是一種可有效用于人臉合成的基本模式。通過模式發(fā)現(xiàn),不僅利于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的收斂,同時也為后續(xù)對唇動人臉合成復(fù)雜過程解釋和理解打下基礎(chǔ)。在聚類過程中,由于這樣的基本模式的個數(shù)并不確定,一般采用無導(dǎo)師聚類。
對于聚類算法,存在很多參數(shù)的設(shè)置問題,參數(shù)設(shè)置對于聚類結(jié)果影響很大,對于唇動人臉基本模式聚類,由于沒有已知類別的實驗樣本集作為錯誤率評價,同時又無法直接觀察高維空間的幾何特征,因此評價聚類結(jié)果存在困難。從聚類數(shù)據(jù)的類間距或類內(nèi)距雖可以得到用于指導(dǎo)聚類評價,但無法描述在實際系統(tǒng)中應(yīng)用聚類可以達(dá)到的效果,通常效果的好壞對于動畫系統(tǒng)是至關(guān)重要的,我們直接采用用聚類數(shù)據(jù)與真實數(shù)據(jù)求方差的做法來衡量聚類結(jié)果是否以達(dá)到描述主要運(yùn)動模式的要求。通過調(diào)整聚類算法參數(shù)如希望聚類數(shù)目,最大訓(xùn)練次數(shù),每類最小樣本數(shù),分離參數(shù)P以及合并參數(shù)C等可以得到不同的聚類結(jié)果,對這些結(jié)果按(10)都進(jìn)行方差計算,結(jié)果如表1所示ErrorSquare(X,Y)=(X-Y)*(X-Y)T/||X||---(10)]]>其中X為真實數(shù)據(jù)矩陣,Y為真實數(shù)據(jù)向類別映射后的矩陣,||X||表示矩陣大小。
表1聚類結(jié)果比較上述聚類是在6200個樣本數(shù)據(jù)上進(jìn)行的,希望聚類的數(shù)目設(shè)為64,最大訓(xùn)練次數(shù)設(shè)為200,其余參數(shù)人工調(diào)節(jié),P表示分離參數(shù),C表示合并參數(shù),P和C都在
區(qū)間中變化。我們發(fā)現(xiàn)方差比較并沒有呈平緩的下降,而出現(xiàn)某種抖動,這主要由于不同聚類參數(shù)選取如初始類中心選擇以及聚類算法的刪除步驟對結(jié)果產(chǎn)生的影響。從方差估計可看出,第3行,第4行和第5行的聚類結(jié)果方差相差不大,可認(rèn)為趨于平緩,由此將人臉基本表情模式的數(shù)目設(shè)為29。圖5顯示出結(jié)果2.③中的統(tǒng)計視覺模型建立方法建立統(tǒng)計視覺模型的目的是為了容許找到整句話優(yōu)化的人臉運(yùn)動軌跡,充分使用上下文信息同時避免了單一神經(jīng)網(wǎng)絡(luò)訓(xùn)練難以利用上下文相關(guān)的缺陷。統(tǒng)計視覺模型可以計算出視頻序列出現(xiàn)的概率。如果我們假設(shè)F是一特定語句的人臉動畫序列,如,F(xiàn)=f1f2…fQ那么,P(F)可以由下列公式計算得到P(F)=P(f1f2…fQ)=P(f1)P(f2|f1)…P(fQ|f1f2…fQ-1) (11)然而,對于任意人臉姿勢以及所組成的序列,估計所有可能的條件概率P(fj|f1f2…fj-1)是不可能的,在實際中,一般采用N元文法來解決這個問題,可以近似估計 為P(F)=Πi=1QP(fi|fi-1fi-2···fi-N+1),---(12)]]>條件概率P(fi|fi-1fi-2…fi-N+1)可以通過簡單的相對統(tǒng)計方法得到P(fi|fi-1fi-2···fi-N+1)=F(fi,fi-1,···fi-N+1)F(fi-1,···fi-N+1)---(13)]]>其中,F(xiàn)是各種人臉姿勢在給定的訓(xùn)練視頻數(shù)據(jù)庫中的同現(xiàn)次數(shù)。建立統(tǒng)計視覺模型后,我們采用困惑度來估計整個訓(xùn)練模型的性能好壞。假設(shè)θi是通過聚類分析得到的聚類集合I的聚類中心,對于θ={θ1,θ2…θn},我們希望找到一個優(yōu)化的視覺模型。對于模型θ的困惑度可根據(jù)如下方法定義pp=2H(S,θ)≈2-1nlogp(S|θ)---(14)]]>其中S=s1,s2,…,sn表示語句的人臉動畫參數(shù)序列。p(S|θ)=Σip(si+1|si···s1)]]>表示人臉動畫參數(shù)序列S在模型p(θ)下的概率。p(θ)實質(zhì)上表示我們對于人臉運(yùn)動的背景知識,同時可以利用上述的統(tǒng)計方法獲取。比如可以用自然語言處理中常用的二元文法或三元文法的方法,表2顯示不同聚類結(jié)果得到的統(tǒng)計視覺模型的困惑度比較
表2困惑度比較通過統(tǒng)計視覺模型,我們得到一組狀態(tài)轉(zhuǎn)移的分布概率,當(dāng)有多個人臉動畫序列給出時,可以利用Viterbi算法求出在概率上最大可能發(fā)生的人臉動畫序列。3.⑤中的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法如果將語音到FAP模式的映射看作一個模式識別的任務(wù),有很多學(xué)習(xí)算法可被使用,如隱馬爾可夫模型(HMM),支持向量機(jī)(SVM)以及神經(jīng)網(wǎng)絡(luò)等等。由于神經(jīng)網(wǎng)絡(luò)對于學(xué)習(xí)輸入輸出映射體現(xiàn)出較強(qiáng)的效率和魯棒性,我們選擇一種神經(jīng)網(wǎng)絡(luò)(BP網(wǎng))來學(xué)習(xí)大量記錄的句子。每一個聚類節(jié)點可以用兩個神經(jīng)網(wǎng)絡(luò)完成訓(xùn)練,一個用于表征狀態(tài),取值為0或1,另一個用于表征速度。這兩種反饋神經(jīng)網(wǎng)絡(luò)可以統(tǒng)一描述為yk=f2(Σj=0n2wkj(2)f1(Σi=0n1wji(1)xi))---(15)]]>其中x∈Φ是音頻特征,w(1)和w(2)是每一層的權(quán)值以及閾值,f1and f2是符號函數(shù)。訓(xùn)練非常簡單,給定數(shù)據(jù)集后,采用Levenberg-Marquardt優(yōu)化算法調(diào)整權(quán)值以及閾值來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
對于語音每一幀都計算16維LPC與RASTA-PLP混合向量加上2維韻律參數(shù),形成18維語音特征向量,取前后6幀合為一個輸入向量,這樣每次神經(jīng)網(wǎng)絡(luò)的輸入是108維的向量。對于狀態(tài)神經(jīng)網(wǎng)絡(luò),輸出節(jié)點個數(shù)定為1個,表示0或1。對于中間隱層節(jié)點個數(shù)采用30,同時神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)為學(xué)習(xí)率0.001,網(wǎng)絡(luò)的誤差為0.005。對于速度神經(jīng)網(wǎng)絡(luò),輸出節(jié)點個數(shù)定為18,表示18維FAP特征向量。對于中間隱層節(jié)點個數(shù)采用80。同時神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)為學(xué)習(xí)率0.001,網(wǎng)絡(luò)的誤差為0.005。2)應(yīng)用階段包括如下步驟(圖6)1)音頻錄制可直接利用麥克風(fēng)或其他錄音設(shè)備獲取語音數(shù)據(jù)2)音頻特征提取按照學(xué)習(xí)階段的音頻特征提取方法提取語音特征3)基于統(tǒng)計學(xué)習(xí)模型的音頻特征到視頻特征的映射將語音特征作為輸入送入每個人臉模式對應(yīng)的神經(jīng)網(wǎng)絡(luò),每個狀態(tài)神經(jīng)網(wǎng)絡(luò)都有一個輸出,得到輸出的屬于這個類別的近似程度;當(dāng)一個句子完成后,利用統(tǒng)計視覺模型及Viterbi譯碼算法得到一條最大概率的類的轉(zhuǎn)移路線,連接起來就是與語音對應(yīng)的人臉動畫模式序列;
雖然主要還是由語音提供的信息起主要作用,但viterbi算法保證生成序列符合人臉的自然運(yùn)動。雖然直接用每個聚類中心代表序列的每個狀態(tài)就可以驅(qū)動人臉網(wǎng)格,但由于簡化選取基本模式,人臉動畫會出現(xiàn)抖動現(xiàn)象。傳統(tǒng)方法一般用插值來解決,雖然可以消除抖動,但不符合人臉動畫的動態(tài)特性,我們現(xiàn)在在每個狀態(tài)下都有兩個神經(jīng)網(wǎng)絡(luò)來預(yù)測,其中一個預(yù)測速度,這樣利用轉(zhuǎn)移矩陣得到的最終結(jié)果序列包含有足夠的信息可以生成與自然人臉運(yùn)動一致的動畫,整個公式非常簡潔,令T={t1,t2…tn}為預(yù)測的人臉運(yùn)動狀態(tài)點,V={v1,v2…vn}為每個狀態(tài)點下的速度。
Y(t*i/m)->t+1=Y(jié)t+((Yt+1-Yt)/m)*vt*iIf i<=m/2 (16)Y(t*i/m)->t+1=Y(jié)t+1-((Yt+1-Yt)/(i*m))*vt+1If i>m/2 (17)其中Y(t*i/m)->t+1表示從狀態(tài)t到狀態(tài)t+1的第I幀,m表示從狀態(tài)t到狀態(tài)t+1需要插入的幀數(shù)。由于有了速度參量,使得生成的人臉動畫比插值方法更加符合人臉運(yùn)動的多變性。4)基于人臉運(yùn)動規(guī)則的視頻特征流修正在得到基于統(tǒng)計模型的人臉運(yùn)動參數(shù)序列后,由于學(xué)習(xí)預(yù)測結(jié)果的一點小的影響,會導(dǎo)致整個動畫序列的真實感下降,同時有些人臉運(yùn)動與語音特征的關(guān)聯(lián)程度不大,如眨眼,點頭,為此,在統(tǒng)計學(xué)習(xí)的基礎(chǔ)上,加入人臉運(yùn)動知識庫的規(guī)則對序列進(jìn)行修正,從而改善結(jié)果輸出,使動畫真實感更強(qiáng)。5)音視頻同步播出得到語音以及動畫播放文件,可在不同的通道直接播出,由于本身得到的數(shù)據(jù)是嚴(yán)格同步的,因此播出也是同步的。四)實驗結(jié)果比較對系統(tǒng)采用了定性和定量兩種估價方法定量測試是基于計算衡量預(yù)測數(shù)據(jù)與真實數(shù)據(jù)之間的誤差,對很多機(jī)器學(xué)習(xí)系統(tǒng),都應(yīng)采用定量方法。定性測試是通過感知來判斷合成出的人臉運(yùn)動是否真實,對于合成而言,定性測試是非常重要的。在定量測試中,衡量了預(yù)測數(shù)據(jù)與真實數(shù)據(jù)的誤差,包括閉集(訓(xùn)練數(shù)據(jù)為測試數(shù)據(jù))和開集(測試數(shù)據(jù)沒有經(jīng)過訓(xùn)練)兩組。圖7顯示兩句話中上嘴唇高度參數(shù)值的測試結(jié)果,并且與單個神經(jīng)網(wǎng)絡(luò)方法進(jìn)行對比,上兩圖測試數(shù)據(jù)為訓(xùn)練數(shù)據(jù),下兩圖測試數(shù)據(jù)為非訓(xùn)練數(shù)據(jù),通過測試所有FAP參數(shù)并按式(10)計算出預(yù)測數(shù)據(jù)和真實數(shù)據(jù)的均方差,得到表3的結(jié)果。
表3FAP參數(shù)預(yù)測數(shù)據(jù)和真實數(shù)據(jù)的方差比較對于多模式系統(tǒng)的評價至今沒有統(tǒng)一標(biāo)準(zhǔn),對于語音驅(qū)動人臉動畫系統(tǒng),于無法得到任何人的與語音對應(yīng)的人臉分析數(shù)據(jù),無法計算預(yù)測數(shù)據(jù)與真實數(shù)據(jù)的誤差,因此單純定量結(jié)果并不能代表系統(tǒng)的實用性能。對于非特定人的語音測試評價,一般只能采用定性的方法,在實驗中,要求五個人視聽系統(tǒng),并從智能性,自然性,友好性以及人臉運(yùn)動的可接受性進(jìn)行評估。由于系統(tǒng)不僅可以解決人臉上部的動態(tài)變化而且使用的是錄制的原始語音,并有效解決同步問題,因此得到了較高的評價。
利用本文的系統(tǒng),當(dāng)給定一個人的語音后,神經(jīng)網(wǎng)絡(luò)可以實時預(yù)測每幀語音特征對應(yīng)的FAP模式,通過平滑后可直接驅(qū)動基于Mpeg4的人臉網(wǎng)格。圖8給出語音驅(qū)動人臉動畫的部分幀。
權(quán)利要求
1.一種基于統(tǒng)計與規(guī)則相結(jié)合的語音驅(qū)動人臉動畫方法,包括步驟利用音視頻同步切割方法得到音視頻對應(yīng)數(shù)據(jù)流;通過音視頻分析方法,得到相應(yīng)的特征向量;運(yùn)用統(tǒng)計學(xué)習(xí)方法學(xué)習(xí)到音視頻同步隱射關(guān)系模型;運(yùn)用統(tǒng)計學(xué)習(xí)到的模型加上規(guī)則得到與新語音相對應(yīng)的人臉運(yùn)動參數(shù)。
2.按權(quán)利要求1所述的方法,其特征在于所述的音視頻同步分割方法包括步驟a、假設(shè)視頻采集幀率為Videoframecount/msec,音頻幀率為Audiosamplecount/msec,語音分析窗位移為Windowmove,語音分析窗大小為Windowsize,需要語音窗個數(shù)為m,語音分析窗與語音分析窗位移比例為n;b、Windowmove=Audiosamplecount/(Videoframecount*m)Windowsize=Windowmove*n其中,m與n為可調(diào)參數(shù),根據(jù)實際情況設(shè)定。
3.按權(quán)利要求1所述的方法,其特征在于所述的音視頻分析與特征提取方法包括步驟a、對于音頻提取海明窗中語音數(shù)據(jù)的線性預(yù)測參數(shù)以及韻律參數(shù)(能量、過零率以及基頻)作為語音特征向量b、對于視頻,提取人臉上與Mpeg-4一致的特征點,然后計算各特征點坐標(biāo)與標(biāo)準(zhǔn)幀坐標(biāo)的差值Vel={V1,V2…Vn},再計算按Mpeg-4定義的特定人臉上的各特征點對應(yīng)尺度參考量P={P1,P2,…,Pn},通過公式(3)即可得到人臉運(yùn)動參數(shù)。Fapi=(Vi(x|y)/Pi(x|y))*1024(3)Fapi表示與第I個特征點對應(yīng)的人臉運(yùn)動參數(shù),Vi(x|y)表示的Vi的x或y坐標(biāo),Pi(x|y)表示與Vi(x|y)對應(yīng)的尺度參考量。
4.按權(quán)利要求1所述的方法,其特征在于所述的音視頻同步隱射關(guān)系模型的統(tǒng)計學(xué)習(xí)方法包括步驟a)首先得到同步分割特征集Audio,Video;b)對Video集中視頻進(jìn)行無監(jiān)督聚類分析,得到人臉運(yùn)動基本模式,設(shè)為I類;c)利用統(tǒng)計方法得到兩類或多類之間的轉(zhuǎn)移概率,稱為統(tǒng)計視覺模型,并用熵來評價模型的好壞,然后再進(jìn)行b)直到熵最小。d)將屬于同一個人臉運(yùn)動基本模式的對應(yīng)的語音特征集Audio中的數(shù)據(jù)分成相應(yīng)的子集Audio(i),I代表第幾類。e)對每個子集Audio(i)用一個神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸入為子集中的語音特征F(Audio(i)),輸出為屬于這個類別的近似程度P(Video(i))。
5.按權(quán)利要求1所述的方法,其特征在于所述的得到與語音特征相對應(yīng)的人臉運(yùn)動參數(shù)包括步驟a)對于給定新語音,提取語音特征;b)將語音特征作為輸入送入每個人臉模式對應(yīng)的神經(jīng)網(wǎng)絡(luò),得到輸出的屬于這個類別的近似程度;c)當(dāng)一個句子完成后,利用統(tǒng)計視覺模型及Viterbi譯碼算法得到一條最大概率的類的轉(zhuǎn)移路線,連接起來就是與語音對應(yīng)的人臉動畫模式序列;d)對預(yù)測的人臉動畫模式序列可以通過人臉運(yùn)動知識庫中的規(guī)則進(jìn)行修訂,使結(jié)果更加真實自然。
全文摘要
一種基于統(tǒng)計與規(guī)則相結(jié)合的語音驅(qū)動人臉動畫方法,包括步驟利用音視頻同步切割方法得到音視頻對應(yīng)數(shù)據(jù)流;通過音視頻分析方法,得到相應(yīng)的特征向量;運(yùn)用統(tǒng)計學(xué)習(xí)方法學(xué)習(xí)到音視頻同步隱射關(guān)系模型;運(yùn)用統(tǒng)計學(xué)習(xí)到的模型以及規(guī)則得到與用戶給定語音序列相對應(yīng)的人臉運(yùn)動參數(shù),并驅(qū)動人臉動畫模型。本發(fā)明使用視頻采集,語音分析及圖象處理等方法,記錄真實人臉說話時的語音與人臉特征點運(yùn)動數(shù)據(jù),同時對語音和人臉特征點之間的關(guān)聯(lián)模式進(jìn)行統(tǒng)計學(xué)習(xí)。當(dāng)給定新語音,利用學(xué)習(xí)到的模型以及一些規(guī)則,可以得到與該語音對應(yīng)的人臉特征點運(yùn)動參數(shù),驅(qū)動人臉動畫模型。
文檔編號G06N3/00GK1466104SQ0214028
公開日2004年1月7日 申請日期2002年7月3日 優(yōu)先權(quán)日2002年7月3日
發(fā)明者陳益強(qiáng), 高文, 王兆其 申請人:中國科學(xué)院計算技術(shù)研究所