本技術(shù)涉及人工智能開發(fā)與金融科技領(lǐng)域,尤其涉及基于人工智能的數(shù)字人視頻生成方法、裝置、計算機設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,人臉重建技術(shù)作為圖像處理領(lǐng)域的核心技術(shù)之一,在智能設(shè)備及數(shù)字人生成領(lǐng)域展現(xiàn)出了巨大的應(yīng)用潛力。然而,盡管當(dāng)前已有許多金融企業(yè)致力于數(shù)字人生成技術(shù)的研究與應(yīng)用,該領(lǐng)域仍面臨諸多挑戰(zhàn),導(dǎo)致生成的數(shù)字人在真實感、自然度及多樣性方面存在不足。
2、目前,三維人臉模型(3dmm)是目前廣泛使用的數(shù)字人建模方法之一。該模型通過學(xué)習(xí)大量人臉圖像數(shù)據(jù),構(gòu)建基礎(chǔ)的三維人臉表示,并通過線性或非線性組合來生成新的人臉模型。然而,3dmm的低維表征能力限制了其準(zhǔn)確表達高頻信息的能力,如皺紋、酒窩等細微面部特征。這導(dǎo)致生成的數(shù)字人臉部過于平滑,缺乏真實感,難以滿足對細節(jié)豐富度要求較高的應(yīng)用場景。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提出一種基于人工智能的數(shù)字人視頻生成方法、裝置、計算機設(shè)備及存儲介質(zhì),以解決現(xiàn)有的基于三維人臉模型的數(shù)字人建模方法生成的數(shù)字人臉部過于平滑,缺乏真實感的技術(shù)問題。
2、為了解決上述技術(shù)問題,本技術(shù)實施例提供一種基于人工智能的數(shù)字人視頻生成方法,采用了如下所述的技術(shù)方案:
3、獲取用戶輸入的人臉圖像與話術(shù)文本;
4、基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建,得到對應(yīng)的三維人臉模型;其中,所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到;
5、從所述三維人臉模型中提取三維人臉模型參數(shù);
6、基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理,得到對應(yīng)的目標(biāo)三維人臉模型參數(shù);
7、基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理,得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音;
8、基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理,得到對應(yīng)的目標(biāo)數(shù)字人視頻;
9、將所述目標(biāo)數(shù)字人視頻返回給所述用戶。
10、進一步的,所述分層表示模型至少包括輸入層、特征提取層、解耦模塊、重建層、融合層以及輸出層;所述基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建,得到對應(yīng)的三維人臉模型的步驟,具體包括:
11、將所述人臉圖像輸入至所述分層表示模型的輸入層內(nèi);
12、通過所述特征提取層對所述人臉圖像進行特征提取,得到對應(yīng)的面部特征;
13、通過所述解耦模塊將所述面部特征解耦為初始低頻幾何形狀特征、初始中頻細節(jié)特征以及初始高頻細節(jié)特征;
14、通過所述重建層對所述初始低頻幾何形狀特征、所述初始中頻細節(jié)特征以及所述初始高頻細節(jié)特征進行重建處理,得到對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征;
15、通過所述融合層對所述低頻幾何形狀特征、所述中頻細節(jié)特征以及所述高頻細節(jié)特征進行融合處理,得到對應(yīng)的三維人臉模型;
16、通過所述輸出層輸出所述三維人臉模型。
17、進一步的,在所述基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建,得到對應(yīng)的三維人臉模型的步驟之前,還包括:
18、獲取預(yù)先構(gòu)建的人臉圖像樣本數(shù)據(jù);
19、調(diào)用預(yù)設(shè)的初始分層表示模型;
20、確定與所述初始分層表示模型對應(yīng)的目標(biāo)優(yōu)化算法;
21、基于所述目標(biāo)優(yōu)化算法以及預(yù)設(shè)的輪廓感知損失函數(shù),使用所述人臉圖像樣本數(shù)據(jù)對所述初始分層表示模型進行訓(xùn)練處理,得到訓(xùn)練好的指定模型;
22、將所述指定模型作為所述分層表示模型。
23、進一步的,所述基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理,得到對應(yīng)的目標(biāo)三維人臉模型參數(shù)的步驟,具體包括:
24、調(diào)用預(yù)設(shè)的參數(shù)調(diào)整界面;其中,所述參數(shù)調(diào)整界面包括所述三維人臉模型參數(shù);
25、展示所述參數(shù)調(diào)整界面,并接收所述用戶在所述參數(shù)調(diào)整界面中輸入的參數(shù)調(diào)整操作;
26、基于所述參數(shù)調(diào)整操作對所述三維人臉模型參數(shù)進行調(diào)整處理,得到調(diào)整后的三維人臉模型參數(shù);
27、將所述調(diào)整后的三維人臉模型參數(shù)作為所述目標(biāo)三維人臉模型參數(shù)。
28、進一步的,所述基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理,得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音的步驟,具體包括:
29、調(diào)用所述語音合成組件;
30、基于所述語音合成組件對所述話術(shù)文本進行文本分析,得到對應(yīng)的文本分析結(jié)果;
31、基于所述文本分析結(jié)果,調(diào)用預(yù)設(shè)的語音生成算法對所述話術(shù)文本進行語音生成處理,得到對應(yīng)的第一語音;
32、基于所述第一語音生成所述目標(biāo)語音。
33、進一步的,所述基于所述第一語音生成所述目標(biāo)語音的步驟,具體包括:
34、獲取預(yù)設(shè)的參數(shù)調(diào)整策略與優(yōu)化策略;
35、基于所述參數(shù)調(diào)整策略對所述第一語音進行參數(shù)調(diào)整處理,得到對應(yīng)的第二語音;
36、基于所述優(yōu)化策略對所述第二語音進行優(yōu)化處理,得到對應(yīng)的第三語音;
37、將所述第三語音作為所述目標(biāo)語音。
38、進一步的,在所述基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理,得到對應(yīng)的目標(biāo)數(shù)字人視頻的步驟之后,還包括:
39、確定與所述目標(biāo)數(shù)字人視頻對應(yīng)的指定存儲方式;
40、調(diào)用與所述指定存儲方式對應(yīng)的指定存儲介質(zhì);
41、基于所述指定存儲介質(zhì)對所述目標(biāo)數(shù)字人視頻進行存儲處理。
42、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種基于人工智能的數(shù)字人視頻生成裝置,采用了如下所述的技術(shù)方案:
43、第一獲取模塊,用于獲取用戶輸入的人臉圖像與話術(shù)文本;
44、重建模塊,用于基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建,得到對應(yīng)的三維人臉模型;其中,所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到;
45、提取模塊,用于從所述三維人臉模型中提取三維人臉模型參數(shù);
46、調(diào)整模塊,用于基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理,得到對應(yīng)的目標(biāo)三維人臉模型參數(shù);
47、生成模塊,用于基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理,得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音;
48、合成模塊,用于基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理,得到對應(yīng)的目標(biāo)數(shù)字人視頻;
49、返回模塊,用于將所述目標(biāo)數(shù)字人視頻返回給所述用戶。
50、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機設(shè)備,采用了如下所述的技術(shù)方案:
51、獲取用戶輸入的人臉圖像與話術(shù)文本;
52、基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建,得到對應(yīng)的三維人臉模型;其中,所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到;
53、從所述三維人臉模型中提取三維人臉模型參數(shù);
54、基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理,得到對應(yīng)的目標(biāo)三維人臉模型參數(shù);
55、基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理,得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音;
56、基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理,得到對應(yīng)的目標(biāo)數(shù)字人視頻;
57、將所述目標(biāo)數(shù)字人視頻返回給所述用戶。
58、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:
59、獲取用戶輸入的人臉圖像與話術(shù)文本;
60、基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建,得到對應(yīng)的三維人臉模型;其中,所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到;
61、從所述三維人臉模型中提取三維人臉模型參數(shù);
62、基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理,得到對應(yīng)的目標(biāo)三維人臉模型參數(shù);
63、基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理,得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音;
64、基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理,得到對應(yīng)的目標(biāo)數(shù)字人視頻;
65、將所述目標(biāo)數(shù)字人視頻返回給所述用戶。
66、與現(xiàn)有技術(shù)相比,本技術(shù)實施例主要有以下有益效果:
67、本技術(shù)首先獲取用戶輸入的人臉圖像與話術(shù)文本;然后基于預(yù)先構(gòu)建的分層表示模型對所述人臉圖像進行三維人臉重建,得到對應(yīng)的三維人臉模型;其中,所述三維人臉模型基于與所述人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到;之后從所述三維人臉模型中提取三維人臉模型參數(shù);并基于所述用戶觸發(fā)的對于所述三維人臉模型參數(shù)的調(diào)整處理,得到對應(yīng)的目標(biāo)三維人臉模型參數(shù);后續(xù)基于預(yù)設(shè)的語音合成組件對所述話術(shù)文本進行語音生成處理,得到與所述話術(shù)文本對應(yīng)的目標(biāo)語音;進一步基于預(yù)設(shè)的合成模型對所述目標(biāo)三維人臉模型參數(shù)與所述目標(biāo)語音進行數(shù)字人視頻合成處理,得到對應(yīng)的目標(biāo)數(shù)字人視頻;最后將所述目標(biāo)數(shù)字人視頻返回給所述用戶。本技術(shù)基于分層表示模型的使用,并引入了三種層次化的表征,即低頻幾何形狀、中頻細節(jié)和高頻細節(jié),能夠更全面地捕捉人臉的各個層面特征。通過基于與用戶輸入的人臉圖像對應(yīng)的低頻幾何形狀特征、中頻細節(jié)特征以及高頻細節(jié)特征構(gòu)建得到相應(yīng)的三維人臉模型,有效地提高了三維人臉重建的精準(zhǔn)性和細節(jié)還原度,提高了生成的三維人臉模型的真實感。使得后續(xù)通過使用合成模型對由三維人臉模型相對應(yīng)的目標(biāo)三維人臉模型參數(shù),以及與用戶輸入的話術(shù)文本目標(biāo)語音進行數(shù)字人視頻合成處理,可以生成高度真實的目標(biāo)數(shù)字人視頻,有效地提高了生成的目標(biāo)數(shù)字人視頻的真實感。