多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備與流程

文檔序號：40581486發(fā)布日期：2025-01-07 20:21閱讀：11來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開涉及人工智能，尤其涉及深度學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、語音技術(shù)、大模型等，尤其涉及一種多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備。

背景技術(shù)：

1、目前的多模態(tài)大模型例如視頻生成模型，其中包括編碼網(wǎng)絡(luò)、骨干網(wǎng)絡(luò)以及解碼網(wǎng)絡(luò)；其中，編碼網(wǎng)絡(luò)有三個(gè)，分別為視頻、文本、音頻三個(gè)模態(tài)的編碼網(wǎng)絡(luò)。

2、上述視頻生成模型中，不同模態(tài)的編碼網(wǎng)絡(luò)，采用不同模態(tài)的詞表，需要采用不同模態(tài)的數(shù)據(jù)單獨(dú)訓(xùn)練得到。使得視頻生成模型在訓(xùn)練過程中，需要對不同模態(tài)的詞表分別進(jìn)行訓(xùn)練處理，提高了模型訓(xùn)練難度以及模型訓(xùn)練成本。

技術(shù)實(shí)現(xiàn)思路

1、本公開提供了一種多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備。

2、根據(jù)本公開的一方面，提供了一種多模態(tài)大模型的訓(xùn)練方法，所述方法包括：獲取第一訓(xùn)練數(shù)據(jù)以及第二訓(xùn)練數(shù)據(jù)；所述第一訓(xùn)練數(shù)據(jù)包括各個(gè)非文本模態(tài)下的數(shù)據(jù)；所述第二訓(xùn)練數(shù)據(jù)包括目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù)；獲取初始的多模態(tài)大模型；所述多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)；各個(gè)所述編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理；結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)，對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理；在各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表訓(xùn)練完成的情況下，結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù)，對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理。

3、根據(jù)本公開的另一方面，提供了一種目標(biāo)任務(wù)的處理方法，所述方法包括：獲取目標(biāo)任務(wù)；所述目標(biāo)任務(wù)包括至少兩個(gè)模態(tài)下的數(shù)據(jù)；獲取多模態(tài)大模型；所述多模態(tài)大模型，基于如上所述的多模態(tài)大模型的訓(xùn)練方法確定得到；將所述至少兩個(gè)模態(tài)下的數(shù)據(jù)輸入所述多模態(tài)大模型，獲取所述多模態(tài)大模型輸出的生成數(shù)據(jù)。

4、根據(jù)本公開的另一方面，提供了一種多模態(tài)大模型的訓(xùn)練裝置，所述裝置包括：第一獲取模塊，用于獲取第一訓(xùn)練數(shù)據(jù)以及第二訓(xùn)練數(shù)據(jù)；所述第一訓(xùn)練數(shù)據(jù)包括各個(gè)非文本模態(tài)下的數(shù)據(jù)；所述第二訓(xùn)練數(shù)據(jù)包括目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù)；第二獲取模塊，用于獲取初始的多模態(tài)大模型；所述多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)；各個(gè)所述編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理；第一訓(xùn)練處理模塊，用于結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)，對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理；第二訓(xùn)練處理模塊，用于在各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表訓(xùn)練完成的情況下，結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù)，對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理。

5、根據(jù)本公開的另一方面，提供了一種目標(biāo)任務(wù)的處理裝置，所述裝置包括：第一獲取模塊，用于獲取目標(biāo)任務(wù)；所述目標(biāo)任務(wù)包括至少兩個(gè)模態(tài)下的數(shù)據(jù)；第二獲取模塊，用于獲取多模態(tài)大模型；所述多模態(tài)大模型，基于如上項(xiàng)所述的多模態(tài)大模型的訓(xùn)練方法確定得到；第三獲取模塊，用于將所述至少兩個(gè)模態(tài)下的數(shù)據(jù)輸入所述多模態(tài)大模型，獲取所述多模態(tài)大模型輸出的生成數(shù)據(jù)。

6、根據(jù)本公開的另一方面，提供了一種電子設(shè)備，包括：至少一個(gè)處理器；以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行本公開上述提出的多模態(tài)大模型的訓(xùn)練方法；或者，執(zhí)行本公開上述提出的目標(biāo)任務(wù)的處理方法。

7、根據(jù)本公開的另一方面，提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行本公開上述提出的多模態(tài)大模型的訓(xùn)練方法；或者，執(zhí)行本公開上述提出的目標(biāo)任務(wù)的處理方法。

8、根據(jù)本公開的另一方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開上述提出的多模態(tài)大模型的訓(xùn)練方法的步驟；或者，實(shí)現(xiàn)本公開上述提出的目標(biāo)任務(wù)的處理方法的步驟。

9、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種多模態(tài)大模型的訓(xùn)練方法，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)，對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理，包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)，確定各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)的損失函數(shù)數(shù)值，包括：

4.根據(jù)權(quán)利要求3所述的方法，其中，所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)，確定各個(gè)所述數(shù)據(jù)對應(yīng)的預(yù)測數(shù)據(jù)，包括：

5.根據(jù)權(quán)利要求4所述的方法，其中，所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)，確定各個(gè)所述數(shù)據(jù)對應(yīng)的預(yù)測數(shù)據(jù)，還包括：

6.根據(jù)權(quán)利要求2所述的方法，其中，所述根據(jù)各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)的損失函數(shù)數(shù)值，對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行調(diào)整處理，實(shí)現(xiàn)聯(lián)合訓(xùn)練，包括：

7.根據(jù)權(quán)利要求1所述的方法，其中，所述非文本模態(tài)包括以下至少一種：音頻模態(tài)、無聲視頻模態(tài)、以及圖像模態(tài)；

8.根據(jù)權(quán)利要求7所述的方法，其中，結(jié)合所述二維編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)對圖像模態(tài)下圖像進(jìn)行處理的方式包括：

9.根據(jù)權(quán)利要求4或5所述的方法，其中，具有關(guān)聯(lián)關(guān)系的至少兩個(gè)候選數(shù)據(jù)的組合包括：有聲視頻。

10.根據(jù)權(quán)利要求1所述的方法，其中，所述結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù)，對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理，包括：

11.根據(jù)權(quán)利要求10所述的方法，其中，所述結(jié)合所述多模態(tài)樣本參考數(shù)據(jù)、各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)以及所述骨干網(wǎng)絡(luò)，確定預(yù)測生成數(shù)據(jù)，包括：

12.根據(jù)權(quán)利要求11所述的方法，其中，所述多模態(tài)樣本參考數(shù)據(jù)中包括各個(gè)候選非文本模態(tài)下的樣本參考數(shù)據(jù)，以及文本模態(tài)下的樣本文本數(shù)據(jù)；所述結(jié)合所述多模態(tài)樣本參考數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)，確定多模態(tài)整數(shù)序列組合，包括：

13.根據(jù)權(quán)利要求1或10所述的方法，其中，所述多模態(tài)樣本參考數(shù)據(jù)包括以下至少兩種模態(tài)下的數(shù)據(jù)：音頻模態(tài)、無聲視頻模態(tài)、圖像模態(tài)、文本模態(tài)；

14.根據(jù)權(quán)利要求1所述的方法，其中，所述目標(biāo)任務(wù)包括以下至少一種：圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

15.一種目標(biāo)任務(wù)的處理方法，所述方法包括：

16.根據(jù)權(quán)利要求15所述的方法，其中，所述目標(biāo)任務(wù)包括以下至少一種：圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

17.一種多模態(tài)大模型的訓(xùn)練裝置，所述裝置包括：

18.根據(jù)權(quán)利要求17所述的裝置，其中，所述第一訓(xùn)練處理模塊包括第一確定單元和第一調(diào)整處理單元；

19.根據(jù)權(quán)利要求18所述的裝置，其中，所述第一確定單元包括第一確定子單元、第二確定子單元和第三確定子單元；

20.根據(jù)權(quán)利要求19所述的裝置，其中，所述第一確定子單元具體用于，

21.根據(jù)權(quán)利要求20所述的裝置，其中，所述第一確定子單元還用于，

22.根據(jù)權(quán)利要求18所述的裝置，其中，所述第一調(diào)整處理單元具體用于，

23.根據(jù)權(quán)利要求17所述的裝置，其中，所述非文本模態(tài)包括以下至少一種：音頻模態(tài)、無聲視頻模態(tài)、以及圖像模態(tài)；

24.根據(jù)權(quán)利要求23所述的裝置，其中，結(jié)合所述二維編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)對圖像模態(tài)下圖像進(jìn)行處理的方式包括：

25.根據(jù)權(quán)利要求20或21所述的裝置，其中，具有關(guān)聯(lián)關(guān)系的至少兩個(gè)候選數(shù)據(jù)的組合包括：有聲視頻。

26.根據(jù)權(quán)利要求17所述的裝置，其中，所述第二訓(xùn)練處理模塊包括第二確定單元、第三確定單元和第二調(diào)整處理單元；

27.根據(jù)權(quán)利要求26所述的裝置，其中，所述第二確定單元具體用于，

28.根據(jù)權(quán)利要求27所述的裝置，其中，所述多模態(tài)樣本參考數(shù)據(jù)中包括各個(gè)候選非文本模態(tài)下的樣本參考數(shù)據(jù)，以及文本模態(tài)下的樣本文本數(shù)據(jù)；所述第二確定單元具體還用于，

29.根據(jù)權(quán)利要求17或26所述的裝置，其中，所述多模態(tài)樣本參考數(shù)據(jù)包括以下至少兩種模態(tài)下的數(shù)據(jù)：音頻模態(tài)、無聲視頻模態(tài)、圖像模態(tài)、文本模態(tài)；

30.根據(jù)權(quán)利要求17所述的裝置，其中，所述目標(biāo)任務(wù)包括以下至少一種：圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

31.一種目標(biāo)任務(wù)的處理裝置，所述裝置包括：

32.根據(jù)權(quán)利要求31所述的裝置，其中，所述目標(biāo)任務(wù)包括以下至少一種：圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

33.一種電子設(shè)備，包括：

34.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1至14中任一項(xiàng)所述的方法；或者，執(zhí)行根據(jù)權(quán)利要求15至16中任一項(xiàng)所述的方法。

35.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至14中任一項(xiàng)所述的方法；或者，實(shí)現(xiàn)根據(jù)權(quán)利要求15至16中任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本公開提供了多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備，涉及人工智能技術(shù)領(lǐng)域，尤其涉及深度學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、語音技術(shù)、大模型等技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為：獲取第一訓(xùn)練數(shù)據(jù)和第二訓(xùn)練數(shù)據(jù)；獲取初始的多模態(tài)大模型；多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)；各個(gè)編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理；結(jié)合第一訓(xùn)練數(shù)據(jù)中各個(gè)非文本模態(tài)下的數(shù)據(jù)，對各個(gè)編解碼網(wǎng)絡(luò)以及多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理；結(jié)合第二訓(xùn)練數(shù)據(jù)中目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù)，對骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理；其中，各個(gè)編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理，降低了模型訓(xùn)練難度以及模型訓(xùn)練成本。

技術(shù)研發(fā)人員：王碩寰,尚駿遠(yuǎn),柴業(yè)坤,楊茵淇,張振宇,孫宇,吳華,王海峰
受保護(hù)的技術(shù)使用者：北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王碩寰,尚駿遠(yuǎn),柴業(yè)坤,楊茵淇,張振宇,孫宇,吳華,王海峰
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

上一篇：魚缸用上蓋板以及采用該上蓋板的魚缸的制作方法
上一篇：一種機(jī)車橡膠緩沖器安裝工具的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備與流程