本公開涉及人工智能領(lǐng)域,特別是涉及一種動作視頻生成方法、相關(guān)裝置和介質(zhì)。
背景技術(shù):
1、虛擬角色建模被廣泛應(yīng)用在游戲、視頻創(chuàng)作等場景,在這些場景下,往往需要虛擬角色根據(jù)所發(fā)出的音頻做出相應(yīng)動作,以提高互動性,而針對虛擬角色的動作建模就顯得相對重要。隨著技術(shù)發(fā)展,相關(guān)技術(shù)中,可以使用人工智能技術(shù)進(jìn)行虛擬角色的動作建模,然而,使用人工智能技術(shù)進(jìn)行虛擬角色的動作建模時,往往是僅基于語音來生成虛擬角色的動作數(shù)據(jù)的,由于語音所攜帶的信息量有限,使得所生成的虛擬角色的動作數(shù)據(jù)的精細(xì)度和準(zhǔn)確度不足,降低了生成的動作視頻的質(zhì)量。
技術(shù)實現(xiàn)思路
1、本公開提供了一種動作視頻生成方法、相關(guān)裝置和介質(zhì),能夠提高所生成的動作數(shù)據(jù)的準(zhǔn)確度和精細(xì)度,進(jìn)而提高生成的動作視頻的質(zhì)量。
2、根據(jù)本公開的一方面,提供了一種動作視頻生成方法,包括:
3、獲取與目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)音頻,將所述目標(biāo)音頻編碼為目標(biāo)音頻特征;
4、獲取與所述目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容,將所述目標(biāo)引導(dǎo)內(nèi)容和預(yù)設(shè)提示文本輸入到預(yù)設(shè)的大語言模型進(jìn)行文本預(yù)測,生成至少一個用于描述所述目標(biāo)虛擬角色的語義標(biāo)簽,將至少一個所述語義標(biāo)簽編碼為語義標(biāo)簽特征,所述預(yù)設(shè)提示文本用于提示所述大語言模型基于所述目標(biāo)引導(dǎo)內(nèi)容生成所述語義標(biāo)簽;
5、利用擴散模型根據(jù)所述目標(biāo)音頻特征和所述語義標(biāo)簽特征對預(yù)設(shè)噪聲特征進(jìn)行去噪,得到目標(biāo)動作序列,所述目標(biāo)動作序列包括待生成的目標(biāo)動作視頻中所述目標(biāo)虛擬角色各個動作幀的動作數(shù)據(jù);
6、基于所述目標(biāo)動作序列生成所述目標(biāo)虛擬角色的所述目標(biāo)動作視頻。
7、根據(jù)本公開的一方面,提供了一種動作視頻生成裝置,包括:
8、音頻獲取模塊,用于獲取與目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)音頻,將所述目標(biāo)音頻編碼為目標(biāo)音頻特征;
9、語義標(biāo)簽處理模塊,用于獲取與所述目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容,將所述目標(biāo)引導(dǎo)內(nèi)容和預(yù)設(shè)提示文本輸入到預(yù)設(shè)的大語言模型進(jìn)行文本預(yù)測,生成至少一個用于描述所述目標(biāo)虛擬角色的語義標(biāo)簽,將所述至少一個語義標(biāo)簽編碼為語義標(biāo)簽特征,所述預(yù)設(shè)提示文本用于提示所述大語言模型基于所述目標(biāo)引導(dǎo)內(nèi)容生成所述語義標(biāo)簽;
10、擴散模塊,用于利用擴散模型根據(jù)所述目標(biāo)音頻特征和所述語義標(biāo)簽特征對預(yù)設(shè)噪聲特征進(jìn)行去噪,得到目標(biāo)動作序列,所述目標(biāo)動作序列包括待生成的目標(biāo)動作視頻中所述目標(biāo)虛擬角色各個動作幀的動作數(shù)據(jù);
11、視頻生成模塊,用于基于所述目標(biāo)動作序列生成所述目標(biāo)虛擬角色的所述目標(biāo)動作視頻。
12、可選地,語義標(biāo)簽處理模塊用于:
13、獲取與所述目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)文本,所述目標(biāo)文本包括與所述目標(biāo)虛擬角色的多個角色音頻對應(yīng)的文本,所述目標(biāo)音頻是多個所述角色音頻中的一個;
14、將所述目標(biāo)文本以及所述目標(biāo)音頻確定為與所述目標(biāo)音頻關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容。
15、可選地,語義標(biāo)簽處理模塊用于:
16、對所述目標(biāo)虛擬角色的多個角色音頻進(jìn)行音頻識別,得到所述目標(biāo)文本;
17、或者,獲取通過輸入操作輸入的與所述目標(biāo)虛擬角色關(guān)聯(lián)的文本,作為所述目標(biāo)音頻的目標(biāo)文本。
18、可選地,擴散模塊用于:
19、獲取預(yù)設(shè)的時間步最大值;
20、將所述時間步最大值確定為當(dāng)前時間步,將所述預(yù)設(shè)噪聲特征確定為待去噪序列;
21、利用擴散模型根據(jù)所述當(dāng)前時間步、所述目標(biāo)音頻特征和所述語義標(biāo)簽特征對所述待去噪序列進(jìn)行去噪,得到中間去噪序列;
22、基于預(yù)設(shè)間隔對所述當(dāng)前時間步進(jìn)行遞減,將所述中間去噪序列確定為所述待去噪序列,再次利用擴散模型根據(jù)遞減后的所述當(dāng)前時間步、所述目標(biāo)音頻特征和所述語義標(biāo)簽特征對所述待去噪序列進(jìn)行去噪,得到所述中間去噪序列,直至所述當(dāng)前時間步歸零,將所述當(dāng)前時間步歸零時的所述中間去噪序列確定為所述目標(biāo)動作序列。
23、可選地,擴散模塊用于:
24、獲取初始動作數(shù)據(jù),對所述初始動作數(shù)據(jù)進(jìn)行卷積,得到初始動作特征;
25、利用擴散模型根據(jù)所述當(dāng)前時間步、所述初始動作特征、所述目標(biāo)音頻特征和所述語義標(biāo)簽特征對所述待去噪序列進(jìn)行去噪,得到中間去噪序列。
26、可選地,擴散模塊用于:
27、將所述當(dāng)前時間步、所述初始動作特征、所述目標(biāo)音頻特征和所述語義標(biāo)簽特征輸入至擴散模型;
28、將所述初始動作特征、所述目標(biāo)音頻特征、所述待去噪序列和所述語義標(biāo)簽特征融合,得到第一融合特征;
29、根據(jù)預(yù)設(shè)的注意力窗口大小對所述第一融合特征進(jìn)行局部注意力運算;
30、將所述初始動作特征、所述語義標(biāo)簽特征與局部注意力運算的結(jié)果融合,得到第二融合特征,對所述第二融合特征進(jìn)行自注意力運算,對自注意力運算的結(jié)果進(jìn)行線性映射,得到與所述當(dāng)前時間步對應(yīng)的待去除噪聲特征,其中,所述待去除噪聲特征是和所述待去噪序列的形狀相同的張量;
31、獲取所述當(dāng)前時間步對應(yīng)的第一噪聲系數(shù),根據(jù)所述第一噪聲系數(shù)從所述待去噪序列中減去所述待去除噪聲特征,得到所述中間去噪序列。
32、可選地,擴散模塊用于:
33、獲取小于所述當(dāng)前時間步的每個時間步對應(yīng)的第二噪聲系數(shù),其中,所述時間步和對應(yīng)的所述第二噪聲系數(shù)負(fù)相關(guān),所述第二噪聲系數(shù)大于所述第一噪聲系數(shù);
34、根據(jù)所述第一噪聲系數(shù)與多個所述第二噪聲系數(shù)的乘積得到累積噪聲系數(shù),確定基準(zhǔn)數(shù)值減去所述累積噪聲系數(shù)的第一差值,將所述第一差值的平方根確定為第一平方根值;
35、確定所述基準(zhǔn)數(shù)值減去所述第一噪聲系數(shù)的第二差值;
36、確定第二差值和所述第一平方根值的第一商值,根據(jù)所述第一商值和所述待去除噪聲特征的乘積得到縮放后待去除噪聲特征;
37、確定所述待去噪序列減去所述縮放后待去除噪聲特征的第三差值,確定所述第三差值與所述第一噪聲系數(shù)的平方根的倒數(shù)的第一乘積;
38、確定第一噪聲序列和所述第二差值的第二乘積,將所述第一乘積與所述第二乘積之和確定為所述中間去噪序列,其中,所述第一噪聲序列通過從標(biāo)準(zhǔn)正態(tài)分布中采樣得到,所述第一噪聲序列的形狀和所述待去噪序列的形狀相同。
39、可選地,動作視頻生成裝置還包括訓(xùn)練模塊,訓(xùn)練模塊用于:
40、獲取樣本虛擬角色的樣本動作序列、與所述樣本虛擬角色關(guān)聯(lián)的樣本音頻和與所述樣本音頻關(guān)聯(lián)的樣本引導(dǎo)內(nèi)容,所述樣本動作序列包括所述樣本虛擬角色在多個動作幀中的動作數(shù)據(jù);
41、將所述樣本音頻編碼為樣本音頻特征,將所述樣本引導(dǎo)內(nèi)容和預(yù)設(shè)提示詞輸入到大語言模型進(jìn)行文本預(yù)測,生成用于描述所述樣本虛擬角色的樣本標(biāo)簽;
42、依次在多個時間步中對所述樣本動作序列進(jìn)行加噪,直至所述時間步達(dá)到所述時間步最大值,得到樣本噪聲序列,將在每個所述時間步中添加到所述樣本動作序列的噪聲特征確定為所述時間步對應(yīng)的參考噪聲特征;
43、將所述樣本標(biāo)簽編碼為樣本標(biāo)簽特征,通過所述樣本音頻特征、所述樣本標(biāo)簽特征引導(dǎo)所述擴散模型對每個所述時間步中的所述樣本噪聲序列進(jìn)行去噪,確定每個所述時間步中預(yù)測得到的預(yù)測噪聲特征,所述預(yù)測噪聲特征是在所述時間步的去噪過程中從所述樣本噪聲序列中去除的噪聲;
44、基于每個所述時間步對應(yīng)的所述參考噪聲特征和所述預(yù)測噪聲特征之間的差異,確定第一損失函數(shù)值,基于所述第一損失函數(shù)值進(jìn)行反向傳播,以優(yōu)化所述擴散模型的參數(shù)。
45、可選地,訓(xùn)練模塊用于:
46、針對每個所述時間步,分別將所述樣本動作序列中的前n個動作幀的動作數(shù)據(jù)編碼為樣本動作特征,n隨著所述時間步的遞減而遞增,n為正整數(shù);
47、通過所述樣本音頻特征、所述樣本動作特征、所述樣本標(biāo)簽特征引導(dǎo)所述擴散模型對每個所述時間步中的所述樣本噪聲序列進(jìn)行去噪。
48、可選地,訓(xùn)練模塊用于:
49、對所述樣本標(biāo)簽特征和所述樣本動作特征進(jìn)行隨機掩碼;
50、通過所述樣本音頻特征、隨機掩碼后的所述樣本標(biāo)簽特征和隨機掩碼后的所述樣本動作特征引導(dǎo)所述擴散模型對每個所述時間步中的所述樣本噪聲序列進(jìn)行去噪。
51、可選地,訓(xùn)練模塊用于:
52、針對每個所述時間步,計算所述時間步對應(yīng)的預(yù)測噪聲特征和所述時間步對應(yīng)的參考噪聲特征的第四差值;
53、根據(jù)所述第四差值的l2范數(shù)確定所述第一損失函數(shù)值。
54、可選地,訓(xùn)練模塊用于:
55、將所述當(dāng)前時間步置零,將所述樣本動作序列確定為待加噪序列;
56、獲取所述當(dāng)前時間步對應(yīng)的第一噪聲系數(shù),從標(biāo)準(zhǔn)正態(tài)分布中采樣所述當(dāng)前時間步對應(yīng)的待添加噪聲特征,根據(jù)所述第一噪聲系數(shù)將所述待添加噪聲特征添加到所述待加噪序列中,得到所述當(dāng)前時間步對應(yīng)的中間加噪序列;
57、基于所述預(yù)設(shè)間隔對所述當(dāng)前時間步進(jìn)行遞增,將所述中間加噪序列確定為待加噪序列,更新所述第一噪聲系數(shù),從標(biāo)準(zhǔn)正態(tài)分布中再次采樣所述當(dāng)前時間步對應(yīng)的所述待添加噪聲特征,根據(jù)更新后的所述第一噪聲系數(shù)將所述待添加噪聲特征添加到所述待加噪序列中,直至所述當(dāng)前時間步達(dá)到所述時間步最大值,得到所述樣本噪聲序列。
58、可選地,訓(xùn)練模塊用于:
59、根據(jù)所述第一噪聲系數(shù)的平方根對所述待加噪序列進(jìn)行加權(quán);
60、根據(jù)基準(zhǔn)數(shù)值減去所述噪聲系數(shù)的差值的平方根,對所述待添加噪聲特征進(jìn)行加權(quán);
61、將加權(quán)后的所述待加噪序列和加權(quán)后的所述待添加噪聲特征疊加,得到所述當(dāng)前時間步對應(yīng)的中間加噪序列。
62、根據(jù)本公開的一方面,提供了一種電子設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上所述的動作視頻生成方法。
63、根據(jù)本公開的一方面,提供了一種計算機可讀存儲介質(zhì),所述存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的動作視頻生成方法。
64、根據(jù)本公開的一方面,提供了一種計算機程序產(chǎn)品,該計算機程序產(chǎn)品包括計算機程序,所述計算機程序被計算機設(shè)備的處理器讀取并執(zhí)行,使得該計算機設(shè)備執(zhí)行如上所述的動作視頻生成方法。
65、本公開提出的動作視頻生成方法、裝置、電子設(shè)備和介質(zhì),通過獲取與目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)音頻以及與目標(biāo)音頻關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容,然后把目標(biāo)引導(dǎo)內(nèi)容和預(yù)設(shè)提示文本一起輸入到大語言模型中,利用大語言模型的語義理解能力從目標(biāo)引導(dǎo)內(nèi)容中提取出可以用于描述目標(biāo)虛擬角色的語義標(biāo)簽,并將語義標(biāo)簽編碼成語義標(biāo)簽特征,這些語義標(biāo)簽特征可以表征目標(biāo)虛擬角色自身的角色屬性,在使用擴散模型對預(yù)設(shè)噪聲特征進(jìn)行動作生成時,不僅使用了對應(yīng)的目標(biāo)音頻,還進(jìn)一步結(jié)合這些可以表征目標(biāo)虛擬角色的角色屬性的語義標(biāo)簽特征對預(yù)設(shè)噪聲特征進(jìn)行去噪處理,因為在利用擴散模型對預(yù)設(shè)噪聲特征進(jìn)行去噪的過程中額外注入了用于表征目標(biāo)虛擬角色的角色屬性的語義標(biāo)簽特征,擴散模型的去噪過程不僅受目標(biāo)音頻特征影響,還受這些用于描述目標(biāo)虛擬角色的角色屬性的語義標(biāo)簽影響,這可以使得最終生成的目標(biāo)動作序列能夠更為準(zhǔn)確地契合目標(biāo)虛擬角色的角色屬性,從而提高所生成的動作數(shù)據(jù)的準(zhǔn)確度和精細(xì)度,進(jìn)而提高生成的動作視頻的質(zhì)量。
66、本公開的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本公開而了解。本公開的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。