本申請(qǐng)涉及計(jì)算機(jī)視覺和人工智能,尤其涉及一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)。
背景技術(shù):
1、文本生成視頻(text-to-video,t2v)擴(kuò)散模型是近年來人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在通過文本描述生成相應(yīng)的視頻內(nèi)容。當(dāng)前的文本生成視頻擴(kuò)散模型在生成高質(zhì)量視頻方面取得了顯著進(jìn)展。然而,這些模型在生成定制化運(yùn)動(dòng)的視頻方面仍面臨諸多挑戰(zhàn),尤其是在準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng)和生成多樣化的視覺變化方面。
2、相關(guān)技術(shù)中,通過靜態(tài)圖像定制方法的簡(jiǎn)單擴(kuò)展通常會(huì)導(dǎo)致外觀和運(yùn)動(dòng)數(shù)據(jù)的復(fù)雜糾纏,無法實(shí)現(xiàn)高質(zhì)量的運(yùn)動(dòng)定制。此外,當(dāng)前的模型缺乏復(fù)現(xiàn)特定運(yùn)動(dòng)或生成具有不同視覺屬性和背景的同一運(yùn)動(dòng)多樣化變體的能力。
3、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)實(shí)施例至少提供一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì),可以實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成,可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng),并且可以生成多樣化的視覺變化。
2、本申請(qǐng)主要包括以下幾個(gè)方面:
3、第一方面,本申請(qǐng)實(shí)施例提供一種文本生成粵劇視頻的方法,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的方法包括:
4、從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量;
5、將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊,得到關(guān)鍵幀序列;所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息;
6、將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊,得到擴(kuò)展幀序列;
7、將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊,得到目標(biāo)粵劇視頻。
8、第二方面,本申請(qǐng)實(shí)施例還提供一種文本生成粵劇視頻的裝置,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的裝置包括計(jì)算模塊、第一確定模塊、第二確定模塊、第三確定模塊;其中:
9、所述計(jì)算模塊,用于從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量;
10、所述第一確定模塊,用于將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊,得到關(guān)鍵幀序列;所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息;
11、所述第二確定模塊,用于將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊,得到擴(kuò)展幀序列;
12、所述第三確定模塊,用于將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊,得到目標(biāo)粵劇視頻。
13、第三方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過所述總線進(jìn)行通信,所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行上述第一方面中所述的文本生成粵劇視頻的方法的步驟。
14、第四方面,本申請(qǐng)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面中所述的文本生成粵劇視頻的方法的步驟。
15、本申請(qǐng)實(shí)施例提供的一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì),通過從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量;將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊,得到關(guān)鍵幀序列;所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息;將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊,得到擴(kuò)展幀序列;將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊,得到目標(biāo)粵劇視頻。這樣,通過經(jīng)過時(shí)間微調(diào)的文本生成視頻擴(kuò)散模型中的關(guān)鍵幀生成模塊來實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成,可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng),并且可以生成多樣化的視覺變化。
16、為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
1.一種文本生成粵劇視頻的方法,其特征在于,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的方法包括:
2.根據(jù)權(quán)利要求1所述的文本生成粵劇視頻的方法,其特征在于,根據(jù)以下步驟生成所述目標(biāo)文本生成視頻擴(kuò)散模型:
3.根據(jù)權(quán)利要求2所述的文本生成粵劇視頻的方法,其特征在于,所述基于殘差向量的運(yùn)動(dòng)蒸餾目標(biāo),調(diào)整所述關(guān)鍵幀生成模塊中的時(shí)間注意力層,包括:
4.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法,其特征在于,所述真實(shí)運(yùn)動(dòng)向量的公式為:
5.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法,其特征在于,所述去噪運(yùn)動(dòng)向量的公式為:
6.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法,其特征在于,所述去噪視頻向量的公式為:
7.根據(jù)權(quán)利要求2所述的文本生成粵劇視頻的方法,其特征在于,在訓(xùn)練初始文本生成視頻擴(kuò)散模型得到所述目標(biāo)文本生成視頻擴(kuò)散模型過程中,所述文本生成粵劇視頻的方法還包括:
8.一種文本生成粵劇視頻的裝置,其特征在于,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的裝置包括計(jì)算模塊、第一確定模塊、第二確定模塊、第三確定模塊;其中:
9.一種電子設(shè)備,其特征在于,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過所述總線進(jìn)行通信,所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至7任一所述的文本生成粵劇視頻的方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至7任一所述的文本生成粵劇視頻的方法的步驟。