本公開涉及人工智能,尤其涉及深度學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、語音技術(shù)、大模型等,尤其涉及一種多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備。
背景技術(shù):
1、目前的多模態(tài)大模型例如視頻生成模型,其中包括編碼網(wǎng)絡(luò)、骨干網(wǎng)絡(luò)以及解碼網(wǎng)絡(luò);其中,編碼網(wǎng)絡(luò)有三個(gè),分別為視頻、文本、音頻三個(gè)模態(tài)的編碼網(wǎng)絡(luò)。
2、上述視頻生成模型中,不同模態(tài)的編碼網(wǎng)絡(luò),采用不同模態(tài)的詞表,需要采用不同模態(tài)的數(shù)據(jù)單獨(dú)訓(xùn)練得到。使得視頻生成模型在訓(xùn)練過程中,需要對不同模態(tài)的詞表分別進(jìn)行訓(xùn)練處理,提高了模型訓(xùn)練難度以及模型訓(xùn)練成本。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備。
2、根據(jù)本公開的一方面,提供了一種多模態(tài)大模型的訓(xùn)練方法,所述方法包括:獲取第一訓(xùn)練數(shù)據(jù)以及第二訓(xùn)練數(shù)據(jù);所述第一訓(xùn)練數(shù)據(jù)包括各個(gè)非文本模態(tài)下的數(shù)據(jù);所述第二訓(xùn)練數(shù)據(jù)包括目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù);獲取初始的多模態(tài)大模型;所述多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò);各個(gè)所述編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理;結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù),對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理;在各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表訓(xùn)練完成的情況下,結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù),對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理。
3、根據(jù)本公開的另一方面,提供了一種目標(biāo)任務(wù)的處理方法,所述方法包括:獲取目標(biāo)任務(wù);所述目標(biāo)任務(wù)包括至少兩個(gè)模態(tài)下的數(shù)據(jù);獲取多模態(tài)大模型;所述多模態(tài)大模型,基于如上所述的多模態(tài)大模型的訓(xùn)練方法確定得到;將所述至少兩個(gè)模態(tài)下的數(shù)據(jù)輸入所述多模態(tài)大模型,獲取所述多模態(tài)大模型輸出的生成數(shù)據(jù)。
4、根據(jù)本公開的另一方面,提供了一種多模態(tài)大模型的訓(xùn)練裝置,所述裝置包括:第一獲取模塊,用于獲取第一訓(xùn)練數(shù)據(jù)以及第二訓(xùn)練數(shù)據(jù);所述第一訓(xùn)練數(shù)據(jù)包括各個(gè)非文本模態(tài)下的數(shù)據(jù);所述第二訓(xùn)練數(shù)據(jù)包括目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù);第二獲取模塊,用于獲取初始的多模態(tài)大模型;所述多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò);各個(gè)所述編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理;第一訓(xùn)練處理模塊,用于結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù),對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理;第二訓(xùn)練處理模塊,用于在各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表訓(xùn)練完成的情況下,結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù),對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理。
5、根據(jù)本公開的另一方面,提供了一種目標(biāo)任務(wù)的處理裝置,所述裝置包括:第一獲取模塊,用于獲取目標(biāo)任務(wù);所述目標(biāo)任務(wù)包括至少兩個(gè)模態(tài)下的數(shù)據(jù);第二獲取模塊,用于獲取多模態(tài)大模型;所述多模態(tài)大模型,基于如上項(xiàng)所述的多模態(tài)大模型的訓(xùn)練方法確定得到;第三獲取模塊,用于將所述至少兩個(gè)模態(tài)下的數(shù)據(jù)輸入所述多模態(tài)大模型,獲取所述多模態(tài)大模型輸出的生成數(shù)據(jù)。
6、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本公開上述提出的多模態(tài)大模型的訓(xùn)練方法;或者,執(zhí)行本公開上述提出的目標(biāo)任務(wù)的處理方法。
7、根據(jù)本公開的另一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行本公開上述提出的多模態(tài)大模型的訓(xùn)練方法;或者,執(zhí)行本公開上述提出的目標(biāo)任務(wù)的處理方法。
8、根據(jù)本公開的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開上述提出的多模態(tài)大模型的訓(xùn)練方法的步驟;或者,實(shí)現(xiàn)本公開上述提出的目標(biāo)任務(wù)的處理方法的步驟。
9、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種多模態(tài)大模型的訓(xùn)練方法,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù),對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò),確定各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)的損失函數(shù)數(shù)值,包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò),確定各個(gè)所述數(shù)據(jù)對應(yīng)的預(yù)測數(shù)據(jù),包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò),確定各個(gè)所述數(shù)據(jù)對應(yīng)的預(yù)測數(shù)據(jù),還包括:
6.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)的損失函數(shù)數(shù)值,對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行調(diào)整處理,實(shí)現(xiàn)聯(lián)合訓(xùn)練,包括:
7.根據(jù)權(quán)利要求1所述的方法,其中,所述非文本模態(tài)包括以下至少一種:音頻模態(tài)、無聲視頻模態(tài)、以及圖像模態(tài);
8.根據(jù)權(quán)利要求7所述的方法,其中,結(jié)合所述二維編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)對圖像模態(tài)下圖像進(jìn)行處理的方式包括:
9.根據(jù)權(quán)利要求4或5所述的方法,其中,具有關(guān)聯(lián)關(guān)系的至少兩個(gè)候選數(shù)據(jù)的組合包括:有聲視頻。
10.根據(jù)權(quán)利要求1所述的方法,其中,所述結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù),對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理,包括:
11.根據(jù)權(quán)利要求10所述的方法,其中,所述結(jié)合所述多模態(tài)樣本參考數(shù)據(jù)、各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)以及所述骨干網(wǎng)絡(luò),確定預(yù)測生成數(shù)據(jù),包括:
12.根據(jù)權(quán)利要求11所述的方法,其中,所述多模態(tài)樣本參考數(shù)據(jù)中包括各個(gè)候選非文本模態(tài)下的樣本參考數(shù)據(jù),以及文本模態(tài)下的樣本文本數(shù)據(jù);所述結(jié)合所述多模態(tài)樣本參考數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò),確定多模態(tài)整數(shù)序列組合,包括:
13.根據(jù)權(quán)利要求1或10所述的方法,其中,所述多模態(tài)樣本參考數(shù)據(jù)包括以下至少兩種模態(tài)下的數(shù)據(jù):音頻模態(tài)、無聲視頻模態(tài)、圖像模態(tài)、文本模態(tài);
14.根據(jù)權(quán)利要求1所述的方法,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。
15.一種目標(biāo)任務(wù)的處理方法,所述方法包括:
16.根據(jù)權(quán)利要求15所述的方法,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。
17.一種多模態(tài)大模型的訓(xùn)練裝置,所述裝置包括:
18.根據(jù)權(quán)利要求17所述的裝置,其中,所述第一訓(xùn)練處理模塊包括第一確定單元和第一調(diào)整處理單元;
19.根據(jù)權(quán)利要求18所述的裝置,其中,所述第一確定單元包括第一確定子單元、第二確定子單元和第三確定子單元;
20.根據(jù)權(quán)利要求19所述的裝置,其中,所述第一確定子單元具體用于,
21.根據(jù)權(quán)利要求20所述的裝置,其中,所述第一確定子單元還用于,
22.根據(jù)權(quán)利要求18所述的裝置,其中,所述第一調(diào)整處理單元具體用于,
23.根據(jù)權(quán)利要求17所述的裝置,其中,所述非文本模態(tài)包括以下至少一種:音頻模態(tài)、無聲視頻模態(tài)、以及圖像模態(tài);
24.根據(jù)權(quán)利要求23所述的裝置,其中,結(jié)合所述二維編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)對圖像模態(tài)下圖像進(jìn)行處理的方式包括:
25.根據(jù)權(quán)利要求20或21所述的裝置,其中,具有關(guān)聯(lián)關(guān)系的至少兩個(gè)候選數(shù)據(jù)的組合包括:有聲視頻。
26.根據(jù)權(quán)利要求17所述的裝置,其中,所述第二訓(xùn)練處理模塊包括第二確定單元、第三確定單元和第二調(diào)整處理單元;
27.根據(jù)權(quán)利要求26所述的裝置,其中,所述第二確定單元具體用于,
28.根據(jù)權(quán)利要求27所述的裝置,其中,所述多模態(tài)樣本參考數(shù)據(jù)中包括各個(gè)候選非文本模態(tài)下的樣本參考數(shù)據(jù),以及文本模態(tài)下的樣本文本數(shù)據(jù);所述第二確定單元具體還用于,
29.根據(jù)權(quán)利要求17或26所述的裝置,其中,所述多模態(tài)樣本參考數(shù)據(jù)包括以下至少兩種模態(tài)下的數(shù)據(jù):音頻模態(tài)、無聲視頻模態(tài)、圖像模態(tài)、文本模態(tài);
30.根據(jù)權(quán)利要求17所述的裝置,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。
31.一種目標(biāo)任務(wù)的處理裝置,所述裝置包括:
32.根據(jù)權(quán)利要求31所述的裝置,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。
33.一種電子設(shè)備,包括:
34.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1至14中任一項(xiàng)所述的方法;或者,執(zhí)行根據(jù)權(quán)利要求15至16中任一項(xiàng)所述的方法。
35.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至14中任一項(xiàng)所述的方法;或者,實(shí)現(xiàn)根據(jù)權(quán)利要求15至16中任一項(xiàng)所述的方法。