欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法、生成視頻方法及裝置與流程

文檔序號(hào):40521669發(fā)布日期:2024-12-31 13:31閱讀:10來源:國知局
唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法、生成視頻方法及裝置與流程

本發(fā)明涉及視頻生成,更具體地,涉及一種唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法、生成視頻方法及裝置。


背景技術(shù):

1、隨著人工智能的發(fā)展,數(shù)字人生成技術(shù)已經(jīng)在電影、游戲和虛擬現(xiàn)實(shí)等領(lǐng)域發(fā)揮著越來越重要作用,為用戶構(gòu)筑了前所未有的沉浸式體驗(yàn)。在這一進(jìn)程中,實(shí)時(shí)唇形驅(qū)動(dòng)作為數(shù)字人生成的關(guān)鍵一環(huán),實(shí)現(xiàn)了虛擬人物在說話或者唱歌時(shí)口型與音頻內(nèi)容實(shí)時(shí)同步,增強(qiáng)了虛擬人物形象的表現(xiàn)力和真實(shí)感。

2、現(xiàn)有的數(shù)字人生成算法主要涵蓋三大類:基于靜態(tài)圖像、動(dòng)畫人物和真實(shí)視頻的數(shù)字人生成。首先,基于靜態(tài)圖像生成的數(shù)字人視頻,盡管能夠依據(jù)音頻驅(qū)動(dòng)嘴部運(yùn)動(dòng),但在肢體動(dòng)作與面部表情上缺乏自然變化,導(dǎo)致整體效果顯得生硬且不連貫,這在動(dòng)態(tài)或復(fù)雜場景中尤為明顯,限制了數(shù)字人在動(dòng)態(tài)場景中的表現(xiàn)力。其次,基于動(dòng)畫人物生成的數(shù)字人通過手繪或三維建模創(chuàng)建動(dòng)畫角色,并通過控制臉部關(guān)鍵點(diǎn)來同步音頻與嘴部運(yùn)動(dòng)。盡管此方法具備一定的靈活性,但生成的數(shù)字人往往缺乏真實(shí)感,難以滿足對(duì)沉浸度和真實(shí)度要求較高的應(yīng)用場景。再者,基于真實(shí)視頻生成的數(shù)字人技術(shù),不僅依據(jù)音頻特征生成唇形,還保留了原始視頻中的外觀及動(dòng)作細(xì)節(jié),使得生成的數(shù)字人更為真實(shí),但是該技術(shù)往往需要獲取輸入視頻和音頻的上下文信息,難以實(shí)時(shí)生成且計(jì)算量大,因此在實(shí)時(shí)性要求較高的場合,如實(shí)時(shí)直播或虛擬演員互動(dòng)等場景中,其應(yīng)用受到了一定限制。

3、因此,如何實(shí)現(xiàn)實(shí)時(shí)生成真實(shí)流暢的數(shù)字人視頻,成為了重點(diǎn)研究方向。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明旨在克服上述現(xiàn)有技術(shù)的至少一種缺陷(不足),提供一種唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法、生成視頻方法及裝置,用于解決如何實(shí)時(shí)生成真實(shí)流暢的單一對(duì)象視頻的問題。

2、本發(fā)明采取的技術(shù)方案是,一種唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法,包括:

3、獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括單一對(duì)象的完整臉部訓(xùn)練圖像、與所述完整臉部訓(xùn)練圖像對(duì)應(yīng)的遮罩臉部訓(xùn)練圖像以及與所述完整臉部訓(xùn)練圖像對(duì)應(yīng)的訓(xùn)練音頻語義特征;

4、構(gòu)建唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò),所述唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)包括臉部生成器、臉部判別器和連續(xù)臉部判別器;

5、根據(jù)所述完整臉部訓(xùn)練圖像、所述遮罩臉部訓(xùn)練圖像、所述訓(xùn)練音頻語義特征對(duì)所述臉部生成器和所述臉部判別器進(jìn)行單幀訓(xùn)練,得到經(jīng)單幀訓(xùn)練后的臉部生成器和臉部判別器;

6、根據(jù)所述完整臉部訓(xùn)練圖像、所述遮罩臉部訓(xùn)練圖像以及所述訓(xùn)練音頻語義特征輸入經(jīng)過單幀訓(xùn)練后的所述臉部生成器、所述連續(xù)臉部判別器進(jìn)行多幀訓(xùn)練,得到經(jīng)多幀訓(xùn)練后的臉部生成器和連續(xù)臉部判別器。

7、進(jìn)一步地,所述獲取訓(xùn)練數(shù)據(jù)集包括:

8、獲取帶有音頻的訓(xùn)練視頻,所述訓(xùn)練視頻對(duì)應(yīng)單一對(duì)象;

9、獲取所述訓(xùn)練視頻的每一幀圖像的臉部關(guān)鍵點(diǎn),基于所述臉部關(guān)鍵點(diǎn)裁剪每一幀圖像獲得完整臉部訓(xùn)練圖像;

10、對(duì)所述訓(xùn)練視頻的每一幀圖像的嘴部區(qū)域進(jìn)行遮罩處理,獲得與所述完整臉部訓(xùn)練圖像對(duì)應(yīng)的遮罩臉部訓(xùn)練圖像;

11、采用預(yù)訓(xùn)練的語義特征提取網(wǎng)絡(luò)對(duì)所述訓(xùn)練視頻的每一幀圖像對(duì)應(yīng)的音頻進(jìn)行處理,獲得訓(xùn)練音頻語義特征;

12、構(gòu)建訓(xùn)練樣本,每個(gè)訓(xùn)練樣本包括每一幀圖像對(duì)應(yīng)的所述完整臉部訓(xùn)練圖像、所述遮罩臉部訓(xùn)練圖像以及所述訓(xùn)練音頻語義特征;

13、通過所述訓(xùn)練樣本形成所述訓(xùn)練數(shù)據(jù)集。

14、進(jìn)一步地,所述單幀訓(xùn)練包括:

15、從所述訓(xùn)練數(shù)據(jù)集中隨機(jī)采樣第一數(shù)量的訓(xùn)練樣本,將所述第一數(shù)量的訓(xùn)練樣本中的所有完整臉部訓(xùn)練圖像拼合,得到第一訓(xùn)練參考圖像特征;

16、從所述訓(xùn)練數(shù)據(jù)集中隨機(jī)采樣一個(gè)訓(xùn)練樣本作為第一輸入樣本,將所述第一輸入樣本的遮罩臉部訓(xùn)練圖像和訓(xùn)練音頻語義特征與所述第一參考圖像特征輸入所述臉部生成器,獲得第一臉部生成圖像;

17、將所述第一臉部生成圖像和所述第一輸入樣本的完整臉部訓(xùn)練圖像分別輸入所述臉部判別器,分別得到所述第一臉部生成圖像和所述第一輸入樣本的完整臉部訓(xùn)練圖像為真實(shí)臉部圖像的第一概率值和第二概率值,根據(jù)輸出的第一概率值和第二概率值計(jì)算所述臉部判別器對(duì)第一臉部生成圖像與所述第一輸入樣本的完整臉部訓(xùn)練圖像產(chǎn)生的第一判別對(duì)抗損失,通過所述第一判別對(duì)抗損失對(duì)所述臉部判別器的參數(shù)進(jìn)行更新,得到更新后的臉部判別器;

18、將更新后的所述臉部判別器對(duì)所述第一臉部生成圖像進(jìn)行預(yù)測得到預(yù)測結(jié)果,根據(jù)預(yù)測結(jié)果計(jì)算第一生成對(duì)抗損失;

19、將所述第一輸入樣本的完整臉部訓(xùn)練圖像和所述第一臉部生成圖像分別輸入預(yù)訓(xùn)練的感知網(wǎng)絡(luò),分別得到第一感知特征和第二感知特征;根據(jù)所述第一感知特征和所述第二感知特征獲取第一感知損失;根據(jù)第一感知損失和第一生成對(duì)抗損失對(duì)所述臉部生成器的參數(shù)進(jìn)行更新,得到單幀訓(xùn)練更新后的臉部生成器。

20、進(jìn)一步地,所述根據(jù)預(yù)測結(jié)果計(jì)算第一生成對(duì)抗損失,具體采用下式計(jì)算所述第一生成對(duì)抗損失:

21、

22、其中,lossg(syi)為第一生成對(duì)抗損失,syi為更新后的所述臉部判別器對(duì)第i張第一臉部生成圖像進(jìn)行預(yù)測得到的預(yù)測結(jié)果為真實(shí)臉部圖像的概率值,mse函數(shù)為均方誤差函數(shù),i表示輸入所述臉部判別器的第i張第一臉部生成圖像,n表示輸入所述臉部判別器的第一臉部生成圖像的數(shù)量。

23、進(jìn)一步地,所述根據(jù)所述第一感知特征和所述第二感知特征獲取第一感知損失,具體包括:

24、通過下式計(jì)算所述第一感知損失:

25、

26、其中,preal為第一感知特征,pfake為第二感知特征,lossp(preal,pfake)為所述第一輸入樣本的完整臉部訓(xùn)練圖像與所述第一臉部生成圖像對(duì)應(yīng)的第一感知損失,l1(preal,pfake)為l1損失函數(shù),j表示預(yù)訓(xùn)練的感知網(wǎng)絡(luò)第j層,m表示預(yù)訓(xùn)練的感知網(wǎng)絡(luò)的特征總層數(shù)。

27、進(jìn)一步地,所述多幀訓(xùn)練包括:

28、從訓(xùn)練數(shù)據(jù)集中隨機(jī)采樣第二數(shù)量的訓(xùn)練樣本,將所述第二數(shù)量的訓(xùn)練樣本的完整臉部訓(xùn)練圖像拼合,得到第二參考圖像特征;

29、從所述訓(xùn)練數(shù)據(jù)集中隨機(jī)采樣連續(xù)的第三數(shù)量的訓(xùn)練樣本,將所述第三數(shù)量的訓(xùn)練樣本的遮罩臉部訓(xùn)練圖像順序拼合得到拼合遮罩臉部訓(xùn)練圖像;

30、將所述拼合遮罩臉部訓(xùn)練圖像、所述第二參考圖像特征和連續(xù)的第三數(shù)量的訓(xùn)練樣本的訓(xùn)練音頻語義特征輸入經(jīng)過單幀訓(xùn)練后的臉部生成器,得到第二臉部生成圖像;

31、將連續(xù)的第三數(shù)量的訓(xùn)練樣本對(duì)應(yīng)的完整臉部訓(xùn)練圖像和所述第二臉部生成圖像分別輸入所述連續(xù)臉部判別器,分別得到連續(xù)的第三數(shù)量的訓(xùn)練樣本對(duì)應(yīng)的完整臉部訓(xùn)練圖像和所述第二臉部生成圖像為連續(xù)臉部圖像的第三概率值和第四概率值,根據(jù)所述第三概率值和所述第四概率值計(jì)算所述連續(xù)臉部判別器對(duì)連續(xù)的第三數(shù)量的訓(xùn)練樣本對(duì)應(yīng)的完整臉部訓(xùn)練圖像與第二臉部生成圖像產(chǎn)生的第二判別對(duì)抗損失,通過第二判別對(duì)抗損失對(duì)所述連續(xù)臉部判別器的參數(shù)進(jìn)行更新,得到更新后的連續(xù)臉部判別器;

32、將更新后的所述連續(xù)臉部判別器對(duì)所述第二臉部生成圖像進(jìn)行預(yù)測得到預(yù)測結(jié)果,根據(jù)預(yù)測結(jié)果計(jì)算第二生成對(duì)抗損失;

33、將連續(xù)的第三數(shù)量的訓(xùn)練樣本對(duì)應(yīng)的完整臉部訓(xùn)練圖像和第二臉部生成圖像分別輸入預(yù)訓(xùn)練的感知網(wǎng)絡(luò),分別得到第三感知特征和第四感知特征;根據(jù)所述第三感知特征和所述第四感知特征獲取第二感知損失;根據(jù)第二感知損失和第二生成對(duì)抗損失更新所述單幀訓(xùn)練更新后的臉部生成器的參數(shù),得到多幀訓(xùn)練更新后的臉部生成器;

34、將第二臉部生成圖像和對(duì)應(yīng)的訓(xùn)練音頻語義特征輸入預(yù)訓(xùn)練的嘴型同步網(wǎng)絡(luò),獲得嘴型同步得分,根據(jù)同步得分計(jì)算嘴型同步損失,根據(jù)所述嘴型同步損失更新所述多幀訓(xùn)練更新后的臉部生成器的參數(shù),得到嘴型同步更新后的臉部生成器。

35、另一方面,本發(fā)明提供了一種唇形驅(qū)動(dòng)臉部生成視頻方法,包括以下步驟:

36、獲取單一目標(biāo)對(duì)象的帶音頻的目標(biāo)視頻及并對(duì)目標(biāo)視頻進(jìn)行預(yù)處理,得到目標(biāo)參考圖像特征和遮罩臉部目標(biāo)圖像、臉部關(guān)鍵點(diǎn)和基于臉部關(guān)鍵點(diǎn)裁剪得到的第一臉部圖像;

37、獲取所述目標(biāo)視頻的音頻,每獲得預(yù)設(shè)長度的音頻則將所述音頻輸入所述語義特征提取網(wǎng)絡(luò),獲得目標(biāo)音頻語義特征;

38、將所述目標(biāo)音頻語義特征、所述目標(biāo)參考圖像特征和所述遮罩臉部目標(biāo)圖像輸入所述臉部生成器,得到第三臉部生成圖像;

39、基于所述臉部關(guān)鍵點(diǎn)計(jì)算第一臉部圖像的臉部的俯仰角、翻滾角和偏航角,獲取第一臉部圖像的臉部朝向;

40、基于第一臉部圖像的臉部朝向計(jì)算臉部融合遮罩,利用臉部融合遮罩和高斯融合算法將所述第三臉部生成圖像融合到所述目標(biāo)視頻的圖像中,得到結(jié)果生成圖像;

41、通過所述結(jié)果生成圖像形成唇形驅(qū)動(dòng)臉部的視頻。

42、另一方面,本發(fā)明提供了一種唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練裝置,所述裝置包括:

43、訓(xùn)練數(shù)據(jù)集獲取模塊,用于所述訓(xùn)練數(shù)據(jù)集包括單一對(duì)象的完整臉部訓(xùn)練圖像、與所述完整臉部訓(xùn)練圖像對(duì)應(yīng)的遮罩臉部訓(xùn)練圖像以及與所述完整臉部訓(xùn)練圖像對(duì)應(yīng)的訓(xùn)練音頻語義特征;

44、網(wǎng)絡(luò)構(gòu)建模塊,用于構(gòu)建唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò),所述唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)包括臉部生成器、臉部判別器和連續(xù)臉部判別器;

45、單幀訓(xùn)練模塊,用于根據(jù)所述完整臉部訓(xùn)練圖像、所述遮罩臉部訓(xùn)練圖像、所述訓(xùn)練音頻語義特征對(duì)所述臉部生成器和所述臉部判別器進(jìn)行單幀訓(xùn)練,得到經(jīng)單幀訓(xùn)練后的臉部生成器和臉部判別器;

46、多幀訓(xùn)練模塊,用于根據(jù)所述完整臉部訓(xùn)練圖像、所述遮罩臉部訓(xùn)練圖像以及所述訓(xùn)練音頻語義特征輸入經(jīng)過單幀訓(xùn)練后的所述臉部生成器、所述連續(xù)臉部判別器進(jìn)行多幀訓(xùn)練,得到經(jīng)多幀訓(xùn)練后的臉部生成器和連續(xù)臉部判別器。

47、另一方面,本發(fā)明提供了一種唇形驅(qū)動(dòng)臉部生成視頻裝置,包括:

48、目標(biāo)視頻獲取及預(yù)處理模塊,用于獲取單一目標(biāo)對(duì)象的帶音頻的目標(biāo)視頻及并對(duì)目標(biāo)視頻進(jìn)行預(yù)處理,得到目標(biāo)參考圖像特征和遮罩臉部目標(biāo)圖像、臉部關(guān)鍵點(diǎn)和基于臉部關(guān)鍵點(diǎn)裁剪得到的第一臉部圖像;

49、目標(biāo)音頻語義特征獲取模塊,用于獲取所述目標(biāo)視頻的音頻,每獲得預(yù)設(shè)長度的音頻則將所述音頻輸入所述語義特征提取網(wǎng)絡(luò),獲得目標(biāo)音頻語義特征;

50、臉部圖像生成模塊,用于將所述目標(biāo)音頻語義特征、所述目標(biāo)參考圖像特征和所述遮罩臉部目標(biāo)圖像輸入所述臉部生成器,得到第三臉部生成圖像;

51、臉部朝向獲取模塊,用于基于所述臉部關(guān)鍵點(diǎn)計(jì)算第一臉部圖像的臉部的俯仰角、翻滾角和偏航角,獲取第一臉部圖像的臉部朝向;

52、結(jié)果圖像生成模塊,用于基于第一臉部圖像的臉部朝向計(jì)算臉部融合遮罩,利用臉部融合遮罩和高斯融合算法將所述第三臉部生成圖像融合到所述目標(biāo)視頻的圖像中,得到結(jié)果生成圖像

53、視頻生成模塊,用于通過所述結(jié)果生成圖像形成唇形驅(qū)動(dòng)臉部的視頻。

54、另一方面,本發(fā)明提供了一種可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述所述的唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法。

55、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

56、(1)本發(fā)明提供的唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法通過遮罩臉部圖像生成臉部圖像,具有強(qiáng)大的泛化能力,使得生成單一對(duì)象的視頻真實(shí)自然流暢。

57、(2)本發(fā)明提供的唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法通過降低生成器部分的模型大小,以及對(duì)視頻的預(yù)處理,極大的減小了臉部生成器生成臉部圖像所需的計(jì)算量,提高了單一對(duì)象生成視頻的實(shí)時(shí)性。

58、(3)本發(fā)明提供的唇形驅(qū)動(dòng)臉部生成網(wǎng)絡(luò)訓(xùn)練方法無需另外訓(xùn)練模型生成單一對(duì)象視頻的外觀、動(dòng)作及表情,允許用戶根據(jù)需要通過自定義視頻使用臉部生成器生成目標(biāo)視頻,從而滿足不同場景和需求。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
紫云| 景德镇市| 临漳县| 会昌县| 五家渠市| 望都县| 三台县| 靖边县| 长治市| 海兴县| 正蓝旗| 锡林浩特市| 乌恰县| 叶城县| 大竹县| 固阳县| 射洪县| 七台河市| 宣城市| 洱源县| 五台县| 万荣县| 讷河市| 确山县| 崇信县| 本溪市| 灵武市| 浪卡子县| 泰顺县| 怀仁县| 吴川市| 泰州市| 友谊县| 陈巴尔虎旗| 永和县| 三门县| 故城县| 南开区| 汉源县| 平邑县| 永春县|