欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)

文檔序號(hào):40521701發(fā)布日期:2024-12-31 13:31閱讀:11來源:國(guó)知局
一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)

本申請(qǐng)涉及計(jì)算機(jī)視覺和人工智能,尤其涉及一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)。


背景技術(shù):

1、文本生成視頻(text-to-video,t2v)擴(kuò)散模型是近年來人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在通過文本描述生成相應(yīng)的視頻內(nèi)容。當(dāng)前的文本生成視頻擴(kuò)散模型在生成高質(zhì)量視頻方面取得了顯著進(jìn)展。然而,這些模型在生成定制化運(yùn)動(dòng)的視頻方面仍面臨諸多挑戰(zhàn),尤其是在準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng)和生成多樣化的視覺變化方面。

2、相關(guān)技術(shù)中,通過靜態(tài)圖像定制方法的簡(jiǎn)單擴(kuò)展通常會(huì)導(dǎo)致外觀和運(yùn)動(dòng)數(shù)據(jù)的復(fù)雜糾纏,無法實(shí)現(xiàn)高質(zhì)量的運(yùn)動(dòng)定制。此外,當(dāng)前的模型缺乏復(fù)現(xiàn)特定運(yùn)動(dòng)或生成具有不同視覺屬性和背景的同一運(yùn)動(dòng)多樣化變體的能力。

3、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本申請(qǐng)實(shí)施例至少提供一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì),可以實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成,可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng),并且可以生成多樣化的視覺變化。

2、本申請(qǐng)主要包括以下幾個(gè)方面:

3、第一方面,本申請(qǐng)實(shí)施例提供一種文本生成粵劇視頻的方法,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的方法包括:

4、從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量;

5、將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊,得到關(guān)鍵幀序列;所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息;

6、將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊,得到擴(kuò)展幀序列;

7、將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊,得到目標(biāo)粵劇視頻。

8、第二方面,本申請(qǐng)實(shí)施例還提供一種文本生成粵劇視頻的裝置,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的裝置包括計(jì)算模塊、第一確定模塊、第二確定模塊、第三確定模塊;其中:

9、所述計(jì)算模塊,用于從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量;

10、所述第一確定模塊,用于將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊,得到關(guān)鍵幀序列;所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息;

11、所述第二確定模塊,用于將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊,得到擴(kuò)展幀序列;

12、所述第三確定模塊,用于將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊,得到目標(biāo)粵劇視頻。

13、第三方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過所述總線進(jìn)行通信,所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行上述第一方面中所述的文本生成粵劇視頻的方法的步驟。

14、第四方面,本申請(qǐng)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面中所述的文本生成粵劇視頻的方法的步驟。

15、本申請(qǐng)實(shí)施例提供的一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì),通過從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量;將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊,得到關(guān)鍵幀序列;所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息;將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊,得到擴(kuò)展幀序列;將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊,得到目標(biāo)粵劇視頻。這樣,通過經(jīng)過時(shí)間微調(diào)的文本生成視頻擴(kuò)散模型中的關(guān)鍵幀生成模塊來實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成,可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng),并且可以生成多樣化的視覺變化。

16、為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。



技術(shù)特征:

1.一種文本生成粵劇視頻的方法,其特征在于,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的方法包括:

2.根據(jù)權(quán)利要求1所述的文本生成粵劇視頻的方法,其特征在于,根據(jù)以下步驟生成所述目標(biāo)文本生成視頻擴(kuò)散模型:

3.根據(jù)權(quán)利要求2所述的文本生成粵劇視頻的方法,其特征在于,所述基于殘差向量的運(yùn)動(dòng)蒸餾目標(biāo),調(diào)整所述關(guān)鍵幀生成模塊中的時(shí)間注意力層,包括:

4.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法,其特征在于,所述真實(shí)運(yùn)動(dòng)向量的公式為:

5.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法,其特征在于,所述去噪運(yùn)動(dòng)向量的公式為:

6.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法,其特征在于,所述去噪視頻向量的公式為:

7.根據(jù)權(quán)利要求2所述的文本生成粵劇視頻的方法,其特征在于,在訓(xùn)練初始文本生成視頻擴(kuò)散模型得到所述目標(biāo)文本生成視頻擴(kuò)散模型過程中,所述文本生成粵劇視頻的方法還包括:

8.一種文本生成粵劇視頻的裝置,其特征在于,應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型,所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊,所述文本生成粵劇視頻的裝置包括計(jì)算模塊、第一確定模塊、第二確定模塊、第三確定模塊;其中:

9.一種電子設(shè)備,其特征在于,包括:處理器、存儲(chǔ)器和總線,所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令,當(dāng)電子設(shè)備運(yùn)行時(shí),所述處理器與所述存儲(chǔ)器之間通過所述總線進(jìn)行通信,所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至7任一所述的文本生成粵劇視頻的方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至7任一所述的文本生成粵劇視頻的方法的步驟。


技術(shù)總結(jié)
本申請(qǐng)涉及計(jì)算機(jī)視覺和人工智能技術(shù)領(lǐng)域,尤其涉及一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)。本申請(qǐng)通過從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量;將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊,得到關(guān)鍵幀序列;所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息;將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊,得到擴(kuò)展幀序列;將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊,得到目標(biāo)粵劇視頻。這樣,通過經(jīng)過時(shí)間微調(diào)的文本生成視頻擴(kuò)散模型中的關(guān)鍵幀生成模塊來實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成,可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng),并且可以生成多樣化的視覺變化。

技術(shù)研發(fā)人員:熊憶,金婷婷,董長(zhǎng)宇,張茜,龐彥,肖容濱
受保護(hù)的技術(shù)使用者:廣州大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
克东县| 宁阳县| 昌乐县| 康平县| 砚山县| 临汾市| 井陉县| 浪卡子县| 沾益县| 衡南县| 庐江县| 麻阳| 洞口县| 广东省| 长葛市| 神池县| 肥东县| 揭东县| 眉山市| 吉安市| 嘉祥县| 苏尼特右旗| 鄱阳县| 农安县| 威宁| 仪陇县| 涿鹿县| 浦北县| 容城县| 隆子县| 昌图县| 扶风县| 綦江县| 丁青县| 界首市| 北京市| 南乐县| 同仁县| 昭觉县| 桑植县| 平利县|