本技術(shù)涉及圖像處理,尤其涉及一種風格化數(shù)字人視頻生成方法、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的迅猛發(fā)展,圖像處理和視頻生成技術(shù)取得了顯著的進步。這一進展催生了數(shù)字人口型驅(qū)動視頻技術(shù),該技術(shù)通過將音頻信號轉(zhuǎn)化為對應的口型動畫,并應用于數(shù)字人形象,生成高度逼真和互動性強的視頻內(nèi)容。然而,隨著用戶需求的多樣化和應用場景的復雜化,追求精準還原而非風格化表現(xiàn)的傳統(tǒng)的數(shù)字人口型驅(qū)動技術(shù),難以應用于需要賦予數(shù)字人獨特風格的特定場景。
2、為了實現(xiàn)將風格化元素融入數(shù)字人口型驅(qū)動視頻,現(xiàn)有技術(shù)主要分為兩類方法。第一類方法是事先制作好風格化的數(shù)字人形象供用戶選擇,然后使用非實時的口型驅(qū)動技術(shù),將用戶的語音或文字輸入轉(zhuǎn)化為數(shù)字人的口型動畫。這種方式的數(shù)字人形象由于是事先制作好的,靈活性較差,無法完全符合每個用戶的個性化需求,且視頻生成的實時性較差。第二類方法則需要用戶將自己打扮成對應的風格,然后錄制視頻,再通過圖像處理技術(shù)將錄制的視頻轉(zhuǎn)換為數(shù)字人視頻。這種方法雖然能夠提供高度個性化的結(jié)果,但其實現(xiàn)過程較為繁瑣,需要用戶投入大量時間和精力進行打扮和錄制。這種高門檻的操作流程限制了其普適性,無法滿足所有用戶的需求。
3、因此,為了實現(xiàn)將風格化元素融入數(shù)字人口型驅(qū)動視頻,迫切需要進一步開發(fā)和改進相關(guān)算法和技術(shù),以克服現(xiàn)有技術(shù)的局限性。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的在于提供一種風格化數(shù)字人視頻生成方法、電子設(shè)備和存儲介質(zhì),以解決上述問題。
2、為實現(xiàn)以上目的,第一方面,本技術(shù)提出一種風格化數(shù)字人視頻生成方法,所述方法包括:
3、接收風格化數(shù)字人視頻生成指令,所述風格化數(shù)字人視頻生成指令包括用戶照片、目標風格化類型以及配音文件;
4、根據(jù)所述目標風格化類型,將所述用戶照片轉(zhuǎn)化為目標風格化圖像;
5、將所述目標風格化圖像和所述配音文件輸入預訓練的口型驅(qū)動模型,其中,所述預訓練好的口型驅(qū)動模型提取所述目標風格化圖像的身份特征以及所述配音文件的音頻特征,并根據(jù)所述身份特征和所述音頻特征生成風格化數(shù)字人視頻;
6、獲取所述預訓練的口型驅(qū)動模型輸出的所述風格化數(shù)字人視頻,所述風格化數(shù)字人視頻的口型驅(qū)動與所述配音文件同步。
7、在一些實施方式中,所述口型驅(qū)動模型包括生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò),所述判別器網(wǎng)絡(luò)包括口型同步判別器,在所述將所述目標風格化圖像和所述配音文件輸入預訓練的口型驅(qū)動模型之前,還包括:
8、獲取訓練集,所述訓練集包括各個風格化類型的數(shù)字人口型驅(qū)動視頻;
9、通過所述各個風格化類型的數(shù)字人口型驅(qū)動視頻,訓練所述口型同步判別器對口型與音頻的同步性的評估能力;
10、在訓練好所述口型同步判別器之后,在所述訓練集中抽取重建目標幀,通過掩蔽所述重建目標幀的口型部分,訓練所述生成器網(wǎng)絡(luò)基于被掩蔽口型部分的所述重建目標幀生成重建圖像幀,并基于所述重建目標幀和所述重建圖像幀計算重建損失;
11、基于訓練好的所述口型同步判別器,計算所述重建圖像幀的口型與所述重建目標幀的口型之間的同步損失;
12、基于所述重建損失和所述同步損失對所述生成器網(wǎng)絡(luò)進行反饋更新,直至完成訓練。
13、在一些實施方式中,所述判別器網(wǎng)絡(luò)還包括視覺質(zhì)量判別器,在所述通過掩蔽所述重建目標幀的口型部分,訓練所述生成器網(wǎng)絡(luò)基于被掩蔽口型部分的所述重建目標幀生成重建圖像幀之后,還包括:
14、通過所述視覺質(zhì)量判別器對所述重建圖像幀的圖像質(zhì)量進行監(jiān)督,并計算得到對抗損失,所述對抗損失用于衡量所述重建圖像幀在對抗訓練中與所述判別器網(wǎng)絡(luò)的對抗表現(xiàn);
15、所述基于所述重建損失和所述同步損失對所述生成器網(wǎng)絡(luò)進行反饋更新,直至完成訓練,包括:
16、通過最小化所述重建損失、所述同步損失和所述對抗損失的加權(quán)和,對所述生成器網(wǎng)絡(luò)進行反饋更新,直至完成訓練。
17、在一些實施方式中,所述通過所述各個風格化類型的數(shù)字人口型驅(qū)動視頻,訓練所述口型同步判別器對口型與音頻的同步性的評估能力,包括:
18、提取所述各個風格化類型的數(shù)字人口型驅(qū)動視頻的音頻信息,并將所述音頻信息切割成音頻塊;
19、將所述音頻塊和所述各個風格化類型的數(shù)字人口型驅(qū)動視頻中的圖像幀進行配對,形成所述音頻塊和對應圖像幀的匹配對以及所述音頻塊和不對應圖像幀的不匹配對;
20、通過所述匹配對和所述不匹配對,訓練所述口型同步判別器對口型與音頻的同步性的評估能力。
21、在一些實施方式中,所述通過所述匹配對,訓練所述口型同步判別器對口型與音頻的同步性的評估能力,包括:
22、對所述匹配對和所述不匹配對中的音頻塊和圖像幀進行特征提取,生成音頻特征向量和圖像特征向量;
23、分別計算所述匹配對和所述不匹配對的音頻特征向量和圖像特征向量之間的余弦相似度;
24、基于所述匹配對和所述不匹配對的余弦相似度,通過最小化匹配損失,對所述口型同步判別器進行反饋更新,直至完成訓練。
25、在一些實施方式中,所述在所述訓練集中抽取重建目標幀,通過掩蔽所述重建目標幀的口型部分,訓練所述生成器網(wǎng)絡(luò)基于被掩蔽口型部分的所述重建目標幀生成重建圖像幀,并基于所述重建目標幀和所述重建圖像幀計算重建損失,包括:
26、基于所述訓練集,獲取參考幀、重建目標幀以及所述重建目標幀對應時間維度的音頻片段,并將所述參考幀、所述重建目標幀以及所述音頻片段作為所述生成器網(wǎng)絡(luò)的輸入,其中,所述參考幀包含完整人臉特征,所述重建目標幀的口型部分被掩蔽;
27、獲取所述生成器網(wǎng)絡(luò)基于所述參考幀、所述重建目標幀以及所述音頻片段生成的重建圖像幀;
28、基于口型部分未被掩蔽的所述重建目標幀和所述重建圖像幀,計算重建損失;
29、通過最小化所述重建損失,對所述生成器網(wǎng)絡(luò)進行反饋更新,直至完成訓練。
30、在一些實施方式中,所述生成器網(wǎng)絡(luò)包括身份編碼器、語音編碼器和面部解碼器,所述基于所述訓練集,獲取參考幀、重建目標幀以及所述重建目標幀對應時間維度的音頻片段,并將所述參考幀、所述重建目標幀以及所述音頻片段作為所述生成器網(wǎng)絡(luò)的輸入,包括:
31、基于所述訓練集,獲取參考幀、重建目標幀以及所述重建目標幀對應時間維度的音頻片段;
32、將所述參考幀和所述重建目標幀按照通道維度拼接起來作為所述身份編碼器的輸入,以獲取所述身份編碼器輸出的身份特征;以及
33、將所述音頻片段作為所述語音編碼器的輸入,以獲取所述語音編碼器輸出的語音特征;
34、將所述身份特征和所述語音特征拼接起來作為所述面部解碼器的輸入,以獲取所述面部解碼器生成的重建圖像幀。
35、在一些實施方式中,在所述獲取訓練集,所述訓練集包括各個風格化類型的數(shù)字人口型驅(qū)動視頻之前,包括:
36、獲取包含各種風格化類型數(shù)字人的口型驅(qū)動視頻集;
37、從所述口型驅(qū)動視頻集中篩選出符合預設(shè)音視頻同步標準的口型驅(qū)動視頻,構(gòu)建初始訓練集;
38、基于所述初始訓練集中的口型驅(qū)動視頻的風格化標簽,將風格化標簽相同的口型驅(qū)動視頻歸類至同一數(shù)據(jù)集;
39、基于歸類后的數(shù)據(jù)集,形成訓練集。
40、第二方面,本技術(shù)還提出一種電子設(shè)備,包括:
41、一個或多個處理器;
42、存儲器,用于存儲一個或多個程序,其中,當所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器執(zhí)行如上所述的風格化數(shù)字人視頻生成方法。
43、第三方面,本技術(shù)還提出一種存儲介質(zhì),所述存儲介質(zhì)存儲有可執(zhí)行指令,所述指令被處理器執(zhí)行時使處理器執(zhí)行如上所述的風格化數(shù)字人視頻生成方法。
44、與現(xiàn)有技術(shù)相比,本技術(shù)的有益效果包括:
45、第一方面,本技術(shù)能夠根據(jù)接收到的用戶照片生成目標風格化類型的數(shù)字人形象,避免了事先制作好數(shù)字人形象的局限性,提高了靈活性和用戶滿意度。第二方面,本技術(shù)利用預訓練的口型驅(qū)動模型,能夠?qū)崟r地根據(jù)配音文件生成同步的口型驅(qū)動視頻。相比于傳統(tǒng)的非實時口型驅(qū)動技術(shù),大大提升了視頻生成的實時性。第三方面,基于本技術(shù)的技術(shù)方案生成風格化數(shù)字人視頻,用戶只需提供照片、配音文件和選擇目標風格化類型即可。這極大地簡化了用戶的操作流程,降低了參與門檻。