基于人工智能的數(shù)字人視頻生成方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號：40481432發(fā)布日期：2024-12-31 12:49閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

基于人工智能的數(shù)字人視頻生成方法、裝置、設(shè)備及介質(zhì)與流程

本技術(shù)涉及人工智能開發(fā)與金融科技領(lǐng)域，尤其涉及基于人工智能的數(shù)字人視頻生成方法、裝置、計算機設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、隨著人工智能技術(shù)的飛速發(fā)展，人臉重建技術(shù)作為圖像處理領(lǐng)域的核心技術(shù)之一，在智能設(shè)備及數(shù)字人生成領(lǐng)域展現(xiàn)出了巨大的應(yīng)用潛力。然而，盡管當(dāng)前已有許多金融企業(yè)致力于數(shù)字人生成技術(shù)的研究與應(yīng)用，該領(lǐng)域仍面臨諸多挑戰(zhàn)，導(dǎo)致生成的數(shù)字人在真實感、自然度及多樣性方面存在不足。

2、目前，三維人臉模型(3dmm)是目前廣泛使用的數(shù)字人建模方法之一。該模型通過學(xué)習(xí)大量人臉圖像數(shù)據(jù)，構(gòu)建基礎(chǔ)的三維人臉表示，并通過線性或非線性組合來生成新的人臉模型。然而，3dmm的低維表征能力限制了其準(zhǔn)確表達高頻信息的能力，如皺紋、酒窩等細微面部特征。這導(dǎo)致生成的數(shù)字人臉部過于平滑，缺乏真實感，難以滿足對細節(jié)豐富度要求較高的應(yīng)用場景。

技術(shù)實現(xiàn)思路

1、本技術(shù)實施例的目的在于提出一種基于人工智能的數(shù)字人視頻生成方法、裝置、計算機設(shè)備及存儲介質(zhì)，以解決現(xiàn)有的基于三維人臉模型的數(shù)字人建模方法生成的數(shù)字人臉部過于平滑，缺乏真實感的技術(shù)問題。

2、為了解決上述技術(shù)問題，本技術(shù)實施例提供一種基于人工智能的數(shù)字人視頻生成方法，采用了如下所述的技術(shù)方案：

3、獲取用戶輸入的人臉圖像與話術(shù)文本；

4、基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建，得到對應(yīng)的三維人臉模型；其中，所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到；

5、從所述三維人臉模型中提取三維人臉模型參數(shù)；

6、基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理，得到對應(yīng)的目標(biāo)三維人臉模型參數(shù)；

7、基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理，得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音；

8、基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理，得到對應(yīng)的目標(biāo)數(shù)字人視頻；

9、將所述目標(biāo)數(shù)字人視頻返回給所述用戶。

10、進一步的，所述分層表示模型至少包括輸入層、特征提取層、解耦模塊、重建層、融合層以及輸出層；所述基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建，得到對應(yīng)的三維人臉模型的步驟，具體包括：

11、將所述人臉圖像輸入至所述分層表示模型的輸入層內(nèi)；

12、通過所述特征提取層對所述人臉圖像進行特征提取，得到對應(yīng)的面部特征；

13、通過所述解耦模塊將所述面部特征解耦為初始低頻幾何形狀特征、初始中頻細節(jié)特征以及初始高頻細節(jié)特征；

14、通過所述重建層對所述初始低頻幾何形狀特征、所述初始中頻細節(jié)特征以及所述初始高頻細節(jié)特征進行重建處理，得到對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征；

15、通過所述融合層對所述低頻幾何形狀特征、所述中頻細節(jié)特征以及所述高頻細節(jié)特征進行融合處理，得到對應(yīng)的三維人臉模型；

16、通過所述輸出層輸出所述三維人臉模型。

17、進一步的，在所述基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建，得到對應(yīng)的三維人臉模型的步驟之前，還包括：

18、獲取預(yù)先構(gòu)建的人臉圖像樣本數(shù)據(jù)；

19、調(diào)用預(yù)設(shè)的初始分層表示模型；

20、確定與所述初始分層表示模型對應(yīng)的目標(biāo)優(yōu)化算法；

21、基于所述目標(biāo)優(yōu)化算法以及預(yù)設(shè)的輪廓感知損失函數(shù)，使用所述人臉圖像樣本數(shù)據(jù)對所述初始分層表示模型進行訓(xùn)練處理，得到訓(xùn)練好的指定模型；

22、將所述指定模型作為所述分層表示模型。

23、進一步的，所述基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理，得到對應(yīng)的目標(biāo)三維人臉模型參數(shù)的步驟，具體包括：

24、調(diào)用預(yù)設(shè)的參數(shù)調(diào)整界面；其中，所述參數(shù)調(diào)整界面包括所述三維人臉模型參數(shù)；

25、展示所述參數(shù)調(diào)整界面，并接收所述用戶在所述參數(shù)調(diào)整界面中輸入的參數(shù)調(diào)整操作；

26、基于所述參數(shù)調(diào)整操作對所述三維人臉模型參數(shù)進行調(diào)整處理，得到調(diào)整后的三維人臉模型參數(shù)；

27、將所述調(diào)整后的三維人臉模型參數(shù)作為所述目標(biāo)三維人臉模型參數(shù)。

28、進一步的，所述基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理，得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音的步驟，具體包括：

29、調(diào)用所述語音合成組件；

30、基于所述語音合成組件對所述話術(shù)文本進行文本分析，得到對應(yīng)的文本分析結(jié)果；

31、基于所述文本分析結(jié)果，調(diào)用預(yù)設(shè)的語音生成算法對所述話術(shù)文本進行語音生成處理，得到對應(yīng)的第一語音；

32、基于所述第一語音生成所述目標(biāo)語音。

33、進一步的，所述基于所述第一語音生成所述目標(biāo)語音的步驟，具體包括：

34、獲取預(yù)設(shè)的參數(shù)調(diào)整策略與優(yōu)化策略；

35、基于所述參數(shù)調(diào)整策略對所述第一語音進行參數(shù)調(diào)整處理，得到對應(yīng)的第二語音；

36、基于所述優(yōu)化策略對所述第二語音進行優(yōu)化處理，得到對應(yīng)的第三語音；

37、將所述第三語音作為所述目標(biāo)語音。

38、進一步的，在所述基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理，得到對應(yīng)的目標(biāo)數(shù)字人視頻的步驟之后，還包括：

39、確定與所述目標(biāo)數(shù)字人視頻對應(yīng)的指定存儲方式；

40、調(diào)用與所述指定存儲方式對應(yīng)的指定存儲介質(zhì)；

41、基于所述指定存儲介質(zhì)對所述目標(biāo)數(shù)字人視頻進行存儲處理。

42、為了解決上述技術(shù)問題，本技術(shù)實施例還提供一種基于人工智能的數(shù)字人視頻生成裝置，采用了如下所述的技術(shù)方案：

43、第一獲取模塊，用于獲取用戶輸入的人臉圖像與話術(shù)文本；

44、重建模塊，用于基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建，得到對應(yīng)的三維人臉模型；其中，所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到；

45、提取模塊，用于從所述三維人臉模型中提取三維人臉模型參數(shù)；

46、調(diào)整模塊，用于基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理，得到對應(yīng)的目標(biāo)三維人臉模型參數(shù)；

47、生成模塊，用于基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理，得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音；

48、合成模塊，用于基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理，得到對應(yīng)的目標(biāo)數(shù)字人視頻；

49、返回模塊，用于將所述目標(biāo)數(shù)字人視頻返回給所述用戶。

50、為了解決上述技術(shù)問題，本技術(shù)實施例還提供一種計算機設(shè)備，采用了如下所述的技術(shù)方案：

51、獲取用戶輸入的人臉圖像與話術(shù)文本；

52、基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建，得到對應(yīng)的三維人臉模型；其中，所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到；

53、從所述三維人臉模型中提取三維人臉模型參數(shù)；

54、基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理，得到對應(yīng)的目標(biāo)三維人臉模型參數(shù)；

55、基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理，得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音；

56、基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理，得到對應(yīng)的目標(biāo)數(shù)字人視頻；

57、將所述目標(biāo)數(shù)字人視頻返回給所述用戶。

58、為了解決上述技術(shù)問題，本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì)，采用了如下所述的技術(shù)方案：

59、獲取用戶輸入的人臉圖像與話術(shù)文本；

60、基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建，得到對應(yīng)的三維人臉模型；其中，所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到；

61、從所述三維人臉模型中提取三維人臉模型參數(shù)；

62、基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理，得到對應(yīng)的目標(biāo)三維人臉模型參數(shù)；

63、基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理，得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音；

64、基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理，得到對應(yīng)的目標(biāo)數(shù)字人視頻；

65、將所述目標(biāo)數(shù)字人視頻返回給所述用戶。

66、與現(xiàn)有技術(shù)相比，本技術(shù)實施例主要有以下有益效果：

67、本技術(shù)首先獲取用戶輸入的人臉圖像與話術(shù)文本；然后基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建，得到對應(yīng)的三維人臉模型；其中，所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到；之后從所述三維人臉模型中提取三維人臉模型參數(shù)；并基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理，得到對應(yīng)的目標(biāo)三維人臉模型參數(shù)；后續(xù)基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理，得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音；進一步基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理，得到對應(yīng)的目標(biāo)數(shù)字人視頻；最后將所述目標(biāo)數(shù)字人視頻返回給所述用戶。本技術(shù)基于分層表示模型的使用，并引入了三種層次化的表征，即低頻幾何形狀、中頻細節(jié)和高頻細節(jié)，能夠更全面地捕捉人臉的各個層面特征。通過基于與用戶輸入的人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到相應(yīng)的三維人臉模型，有效地提高了三維人臉重建的精準(zhǔn)性和細節(jié)還原度，提高了生成的三維人臉模型的真實感。使得后續(xù)通過使用合成模型對由三維人臉模型相對應(yīng)的目標(biāo)三維人臉模型參數(shù)，以及與用戶輸入的話術(shù)文本目標(biāo)語音進行數(shù)字人視頻合成處理，可以生成高度真實的目標(biāo)數(shù)字人視頻，有效地提高了生成的目標(biāo)數(shù)字人視頻的真實感。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李俊杰,劉智恒,王少軍
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種煤礦綜采機電線纜防護結(jié)構(gòu)的制作方法
上一篇：一種具備密封頭的高密度聚氨酯直埋保溫管的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于人工智能的數(shù)字人視頻生成方法、裝置、設(shè)備及介質(zhì)與流程

基于人工智能的數(shù)字人視頻生成方法、裝置、設(shè)備及介質(zhì)與流程