本技術(shù)涉及人工智能,尤其涉及一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,文生視頻技術(shù)逐漸成為研究和應(yīng)用的熱點。文生視頻技術(shù)是指利用計算機程序?qū)⑽淖置枋鲎詣愚D(zhuǎn)換為視頻內(nèi)容的過程。
2、在相關(guān)技術(shù)中,通常向文生視頻模型輸入文本描述,以基于文生視頻模型根據(jù)得到的文本描述,進行視頻數(shù)據(jù)的自動生成。
3、但是,目前的文生視頻模型一般基于英文的文字描述生成視頻數(shù)據(jù),如果用戶輸入的文字描述為中文,則需要先將其翻譯為英文,而翻譯的過程中可能會導(dǎo)致原文的意思被曲解或丟失,降低了視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,以解決相關(guān)技術(shù)降低了視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性等缺陷。
2、本技術(shù)第一個方面提供一種視頻數(shù)據(jù)生成方法,包括:
3、獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集;其中,所述樣本數(shù)據(jù)集包括多個樣本對,所述樣本對包括跨語言描述和目標(biāo)視頻片段;
4、針對所述樣本數(shù)據(jù)集中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量;
5、基于待訓(xùn)練嵌入對齊層,將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量;
6、基于所述對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,以得到目標(biāo)文生視頻模型;其中,所述待訓(xùn)練文生視頻模型包括所述待訓(xùn)練嵌入對齊層,所述對齊嵌入向量和視頻特征向量在語義空間對齊;
7、向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于所述目標(biāo)文生視頻模型,根據(jù)所述目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù)。
8、在一種可選的實施方式中,所述獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集,包括:
9、獲取原始視頻數(shù)據(jù);
10、對所述原始視頻數(shù)據(jù)進行預(yù)處理,得到多個目標(biāo)視頻片段;
11、將各所述目標(biāo)視頻片段輸入至視覺語言模型,得到各所述目標(biāo)視頻片段對應(yīng)的跨語言描述;
12、匯總各所述目標(biāo)視頻片段及各所述目標(biāo)視頻片段對應(yīng)的跨語言描述,得到待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集。
13、在一種可選的實施方式中,所述對所述原始視頻數(shù)據(jù)進行預(yù)處理,得到多個目標(biāo)視頻片段,包括:
14、在所述原始視頻數(shù)據(jù)中,篩選時長滿足預(yù)設(shè)約束條件的目標(biāo)視頻數(shù)據(jù);
15、對所述目標(biāo)視頻數(shù)據(jù)進行場景檢測,得到所述目標(biāo)視頻數(shù)據(jù)的場景檢測結(jié)果;
16、根據(jù)所述場景檢測結(jié)果,對所述目標(biāo)視頻數(shù)據(jù)進行片段分割,以得到多個原始視頻片段,以使每個原始視頻片段對應(yīng)單一場景;
17、對所述多個原始視頻片段進行過濾,得到多個目標(biāo)視頻片段。
18、在一種可選的實施方式中,所述對所述多個原始視頻片段進行過濾,得到多個目標(biāo)視頻片段,包括:
19、對各所述原始視頻片段進行評分;
20、根據(jù)各所述原始視頻片段的評分,對所述多個原始視頻片段進行過濾,得到多個目標(biāo)視頻片段;
21、其中,所述評分包括美學(xué)評分和光流評分,所述美學(xué)評分用于表征所述原始視頻片段的質(zhì)量,所述光流評分用于表征所述原始視頻片段是否為靜態(tài)視頻片段。
22、在一種可選的實施方式中,所述針對所述樣本數(shù)據(jù)集中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量,包括:
23、對所述樣本數(shù)據(jù)集進行階段劃分,以得到各微調(diào)階段的樣本序列;
24、針對任一所述微調(diào)階段的樣本序列中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量。
25、在一種可選的實施方式中,所述對所述樣本數(shù)據(jù)集進行階段劃分,以得到各微調(diào)階段的樣本序列,包括:
26、根據(jù)所述數(shù)據(jù)集中每條目標(biāo)視頻片段的分辨率,對所述樣本數(shù)據(jù)集中的樣本對進行分類,得到每種分辨率對應(yīng)的樣本對集合;
27、按照每個微調(diào)階段的模型優(yōu)化需求,確定每個微調(diào)階段的分辨率數(shù)據(jù)占比需求;
28、針對任一所述微調(diào)階段,根據(jù)該微調(diào)階段的分辨率數(shù)據(jù)占比需求,從每種分辨率對應(yīng)的樣本對集合中劃分相應(yīng)比例的樣本對,以得到該微調(diào)階段的樣本序列。
29、在一種可選的實施方式中,所述基于待訓(xùn)練嵌入對齊層,將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量,包括:
30、將所述跨語言特征向量輸入至第一對齊塊,以基于所述第一對齊塊,對所述跨語言特征向量進行通道維度壓縮,得到壓縮后的跨語言特征向量;
31、將所述壓縮后的跨語言特征向量輸入至第二對齊塊,以基于所述第二對齊塊,對所述壓縮后的跨語言特征向量進行深層次語義轉(zhuǎn)換,得到深層語義特征向量;
32、將所述深層語義特征向量輸入至第三對齊塊,以基于所述第三對齊塊,將所述深層語義特征映射至所述跨語言特征向量的原始通道,得到對齊嵌入向量;
33、其中,所述待訓(xùn)練嵌入對齊層包括所述第一對齊塊、第二對齊塊和第三對齊塊。
34、在一種可選的實施方式中,所述基于所述對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,包括:
35、將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型,得到待微調(diào)擴散模型輸出的預(yù)測噪音;
36、以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化;
37、其中,所述待訓(xùn)練文生視頻模型包括待微調(diào)擴散模型。
38、在一種可選的實施方式中,所述將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型,得到待微調(diào)擴散模型輸出的預(yù)測噪音,包括:
39、在將所述對齊嵌入向量和視頻特征向量輸入至待微調(diào)擴散模型之后,所述待微調(diào)擴散模型向所述視頻特征向量中添加噪音并進行噪音擴散,以將所述視頻特征向量轉(zhuǎn)換為噪音向量;
40、所述待微調(diào)擴散模型通過學(xué)習(xí)所述噪音向量與所述對齊嵌入向量之間的映射關(guān)系,確定所述預(yù)測噪音。
41、在一種可選的實施方式中,所述方法還包括:
42、根據(jù)所述預(yù)測噪音與所述待微調(diào)擴散模型向所述視頻特征向量中添加的噪音之間的誤差,確定所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差。
43、在一種可選的實施方式中,所述以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,包括:
44、在第一微調(diào)階段,以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練嵌入對齊層進行參數(shù)優(yōu)化;
45、在第二微調(diào)階段和第三微調(diào)階段,以減小所述待微調(diào)擴散模型輸出的預(yù)測噪音的誤差為目標(biāo),對所述待訓(xùn)練嵌入對齊層和待微調(diào)擴散模型進行參數(shù)優(yōu)化;
46、其中,所述第一微調(diào)階段、第二微調(diào)階段和第三微調(diào)階段采用的樣本序列不同,當(dāng)所述待訓(xùn)練文生視頻模型在第一微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第一輪數(shù)閾值時,進入第二微調(diào)階段,當(dāng)所述待訓(xùn)練文生視頻模型在第二微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第二輪數(shù)閾值時,進入第三微調(diào)階段,當(dāng)所述待訓(xùn)練文生視頻模型在第三微調(diào)階段的樣本學(xué)習(xí)輪數(shù)達到第三輪數(shù)閾值時,將當(dāng)前待訓(xùn)練文生視頻模型作為所述目標(biāo)文生視頻模型。
47、在一種可選的實施方式中,所述向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于所述目標(biāo)文生視頻模型,根據(jù)所述目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù),包括:
48、將目標(biāo)跨語言描述輸入至文本編碼器,以基于所述文本編碼器將所述目標(biāo)跨語言描述轉(zhuǎn)換為目標(biāo)跨語言特征向量;
49、將所述目標(biāo)跨語言特征向量輸入至目標(biāo)嵌入對齊層,以基于所述目標(biāo)嵌入對齊層,將所述目標(biāo)跨語言特征向量轉(zhuǎn)換為目標(biāo)對齊嵌入向量;
50、將所述目標(biāo)對齊嵌入向量輸入至目標(biāo)擴散模型的同時,向所述目標(biāo)擴散模型輸入目標(biāo)噪音,以使所述目標(biāo)擴散模型根據(jù)所述目標(biāo)對齊嵌入向量,將所述目標(biāo)噪音轉(zhuǎn)換為目標(biāo)視頻特征編碼;
51、根據(jù)所述目標(biāo)視頻特征編碼,生成所述目標(biāo)跨語言描述所對應(yīng)的視頻數(shù)據(jù);
52、其中,所述目標(biāo)文生視頻模型包括所述文本編碼器、目標(biāo)嵌入對齊層和目標(biāo)擴散模型。
53、本技術(shù)第二個方面提供一種視頻數(shù)據(jù)生成裝置,包括:
54、獲取模塊,用于獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集;其中,所述樣本數(shù)據(jù)集包括多個樣本對,所述樣本對包括跨語言描述和目標(biāo)視頻片段;
55、轉(zhuǎn)換模塊,用于針對所述樣本數(shù)據(jù)集中的任一樣本對,將所述樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量;
56、對齊模塊,用于基于待訓(xùn)練嵌入對齊層,將所述跨語言特征向量轉(zhuǎn)換為對齊嵌入向量;
57、優(yōu)化模塊,用于基于所述對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,以得到目標(biāo)文生視頻模型;其中,所述待訓(xùn)練文生視頻模型包括所述待訓(xùn)練嵌入對齊層,所述對齊嵌入向量和視頻特征向量在語義空間對齊;
58、生成模塊,用于向所述目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于所述目標(biāo)文生視頻模型,根據(jù)所述目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù)。
59、本技術(shù)第三個方面提供一種電子設(shè)備,包括:至少一個處理器和存儲器;
60、所述存儲器存儲計算機執(zhí)行指令;
61、所述至少一個處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得所述至少一個處理器執(zhí)行如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。
62、本技術(shù)第四個方面提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有計算機執(zhí)行指令,當(dāng)處理器執(zhí)行所述計算機執(zhí)行指令時,實現(xiàn)如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。
63、本技術(shù)第五個方面提供一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行如上第一個方面以及第一個方面各種可能的設(shè)計所述的方法。
64、本技術(shù)技術(shù)方案,具有如下優(yōu)點:
65、本技術(shù)提供一種視頻數(shù)據(jù)生成方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,該方法包括:獲取待訓(xùn)練文生視頻模型的樣本數(shù)據(jù)集;其中,樣本數(shù)據(jù)集包括多個樣本對,樣本對包括跨語言描述和目標(biāo)視頻片段;針對樣本數(shù)據(jù)集中的任一樣本對,將樣本對中的跨語言描述和目標(biāo)視頻片段分別轉(zhuǎn)換為跨語言特征向量和視頻特征向量;基于待訓(xùn)練嵌入對齊層,將跨語言特征向量轉(zhuǎn)換為對齊嵌入向量;基于對齊嵌入向量和視頻特征向量,對待訓(xùn)練文生視頻模型進行參數(shù)優(yōu)化,以得到目標(biāo)文生視頻模型;其中,待訓(xùn)練文生視頻模型包括待訓(xùn)練嵌入對齊層,對齊嵌入向量和視頻特征向量在語義空間對齊;向目標(biāo)文生視頻模型輸入目標(biāo)跨語言描述,以基于目標(biāo)文生視頻模型,根據(jù)目標(biāo)跨語言描述,生成對應(yīng)的視頻數(shù)據(jù)。上述方案提供的方法,通過對跨語言特征向量與視頻特征向量進行語義空間的對齊處理,得到跨語言特征向量所對應(yīng)的對齊嵌入向量,顯著提高了文生視頻模型對跨語言語義的理解能力,從而提高了文生視頻模型的視頻數(shù)據(jù)生成結(jié)果的準(zhǔn)確性。