一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)

文檔序號(hào)：40521701發(fā)布日期：2024-12-31 13:31閱讀：11來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本申請(qǐng)涉及計(jì)算機(jī)視覺和人工智能，尤其涉及一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)。

背景技術(shù)：

1、文本生成視頻(text-to-video，t2v)擴(kuò)散模型是近年來人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)，旨在通過文本描述生成相應(yīng)的視頻內(nèi)容。當(dāng)前的文本生成視頻擴(kuò)散模型在生成高質(zhì)量視頻方面取得了顯著進(jìn)展。然而，這些模型在生成定制化運(yùn)動(dòng)的視頻方面仍面臨諸多挑戰(zhàn)，尤其是在準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng)和生成多樣化的視覺變化方面。

2、相關(guān)技術(shù)中，通過靜態(tài)圖像定制方法的簡(jiǎn)單擴(kuò)展通常會(huì)導(dǎo)致外觀和運(yùn)動(dòng)數(shù)據(jù)的復(fù)雜糾纏，無法實(shí)現(xiàn)高質(zhì)量的運(yùn)動(dòng)定制。此外，當(dāng)前的模型缺乏復(fù)現(xiàn)特定運(yùn)動(dòng)或生成具有不同視覺屬性和背景的同一運(yùn)動(dòng)多樣化變體的能力。

3、需要說明的是，在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對(duì)本公開的背景的理解，因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本申請(qǐng)實(shí)施例至少提供一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)，可以實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成，可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng)，并且可以生成多樣化的視覺變化。

2、本申請(qǐng)主要包括以下幾個(gè)方面：

3、第一方面，本申請(qǐng)實(shí)施例提供一種文本生成粵劇視頻的方法，應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型，所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊，所述文本生成粵劇視頻的方法包括：

4、從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量；

5、將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊，得到關(guān)鍵幀序列；所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息；

6、將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊，得到擴(kuò)展幀序列；

7、將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊，得到目標(biāo)粵劇視頻。

8、第二方面，本申請(qǐng)實(shí)施例還提供一種文本生成粵劇視頻的裝置，應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型，所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊，所述文本生成粵劇視頻的裝置包括計(jì)算模塊、第一確定模塊、第二確定模塊、第三確定模塊；其中：

9、所述計(jì)算模塊，用于從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量；

10、所述第一確定模塊，用于將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊，得到關(guān)鍵幀序列；所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息；

11、所述第二確定模塊，用于將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊，得到擴(kuò)展幀序列；

12、所述第三確定模塊，用于將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊，得到目標(biāo)粵劇視頻。

13、第三方面，本申請(qǐng)實(shí)施例還提供一種電子設(shè)備，包括：處理器、存儲(chǔ)器和總線，所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令，當(dāng)電子設(shè)備運(yùn)行時(shí)，所述處理器與所述存儲(chǔ)器之間通過所述總線進(jìn)行通信，所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行上述第一方面中所述的文本生成粵劇視頻的方法的步驟。

14、第四方面，本申請(qǐng)實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行上述第一方面中所述的文本生成粵劇視頻的方法的步驟。

15、本申請(qǐng)實(shí)施例提供的一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)，通過從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量；將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊，得到關(guān)鍵幀序列；所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息；將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊，得到擴(kuò)展幀序列；將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊，得到目標(biāo)粵劇視頻。這樣，通過經(jīng)過時(shí)間微調(diào)的文本生成視頻擴(kuò)散模型中的關(guān)鍵幀生成模塊來實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成，可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng)，并且可以生成多樣化的視覺變化。

16、為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉較佳實(shí)施例，并配合所附附圖，作詳細(xì)說明如下。

技術(shù)特征：

1.一種文本生成粵劇視頻的方法，其特征在于，應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型，所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊，所述文本生成粵劇視頻的方法包括：

2.根據(jù)權(quán)利要求1所述的文本生成粵劇視頻的方法，其特征在于，根據(jù)以下步驟生成所述目標(biāo)文本生成視頻擴(kuò)散模型：

3.根據(jù)權(quán)利要求2所述的文本生成粵劇視頻的方法，其特征在于，所述基于殘差向量的運(yùn)動(dòng)蒸餾目標(biāo)，調(diào)整所述關(guān)鍵幀生成模塊中的時(shí)間注意力層，包括：

4.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法，其特征在于，所述真實(shí)運(yùn)動(dòng)向量的公式為：

5.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法，其特征在于，所述去噪運(yùn)動(dòng)向量的公式為：

6.根據(jù)權(quán)利要求3所述的文本生成粵劇視頻的方法，其特征在于，所述去噪視頻向量的公式為：

7.根據(jù)權(quán)利要求2所述的文本生成粵劇視頻的方法，其特征在于，在訓(xùn)練初始文本生成視頻擴(kuò)散模型得到所述目標(biāo)文本生成視頻擴(kuò)散模型過程中，所述文本生成粵劇視頻的方法還包括：

8.一種文本生成粵劇視頻的裝置，其特征在于，應(yīng)用于訓(xùn)練好的目標(biāo)文本生成視頻擴(kuò)散模型，所述目標(biāo)文本生成視頻擴(kuò)散模型包括關(guān)鍵幀生成模塊、時(shí)間插值模塊以及空間超分辨率模塊，所述文本生成粵劇視頻的裝置包括計(jì)算模塊、第一確定模塊、第二確定模塊、第三確定模塊；其中：

9.一種電子設(shè)備，其特征在于，包括：處理器、存儲(chǔ)器和總線，所述存儲(chǔ)器存儲(chǔ)有所述處理器可執(zhí)行的機(jī)器可讀指令，當(dāng)電子設(shè)備運(yùn)行時(shí)，所述處理器與所述存儲(chǔ)器之間通過所述總線進(jìn)行通信，所述機(jī)器可讀指令被所述處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至7任一所述的文本生成粵劇視頻的方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行如權(quán)利要求1至7任一所述的文本生成粵劇視頻的方法的步驟。

技術(shù)總結(jié)
本申請(qǐng)涉及計(jì)算機(jī)視覺和人工智能技術(shù)領(lǐng)域，尤其涉及一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)。本申請(qǐng)通過從輸入視頻中計(jì)算出反轉(zhuǎn)潛變量；將所述反轉(zhuǎn)潛變量輸入經(jīng)過微調(diào)時(shí)間注意力層的所述關(guān)鍵幀生成模塊，得到關(guān)鍵幀序列；所述關(guān)鍵幀序列包括運(yùn)動(dòng)信息；將所述關(guān)鍵幀序列輸入所述時(shí)間插值模塊，得到擴(kuò)展幀序列；將所述擴(kuò)展幀序列輸入所述空間超分辨率模塊，得到目標(biāo)粵劇視頻。這樣，通過經(jīng)過時(shí)間微調(diào)的文本生成視頻擴(kuò)散模型中的關(guān)鍵幀生成模塊來實(shí)現(xiàn)定制化運(yùn)動(dòng)的視頻生成，可以準(zhǔn)確復(fù)現(xiàn)目標(biāo)視頻的運(yùn)動(dòng)，并且可以生成多樣化的視覺變化。

技術(shù)研發(fā)人員：熊憶,金婷婷,董長(zhǎng)宇,張茜,龐彥,肖容濱
受保護(hù)的技術(shù)使用者：廣州大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：熊憶,金婷婷,董長(zhǎng)宇,張茜,龐彥,肖容濱
技術(shù)所有人：廣州大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)

一種文本生成粵劇視頻的方法、裝置、電子設(shè)備及介質(zhì)