欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備與流程

文檔序號:40581486發(fā)布日期:2025-01-07 20:21閱讀:11來源:國知局
多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備與流程

本公開涉及人工智能,尤其涉及深度學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、語音技術(shù)、大模型等,尤其涉及一種多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備。


背景技術(shù):

1、目前的多模態(tài)大模型例如視頻生成模型,其中包括編碼網(wǎng)絡(luò)、骨干網(wǎng)絡(luò)以及解碼網(wǎng)絡(luò);其中,編碼網(wǎng)絡(luò)有三個(gè),分別為視頻、文本、音頻三個(gè)模態(tài)的編碼網(wǎng)絡(luò)。

2、上述視頻生成模型中,不同模態(tài)的編碼網(wǎng)絡(luò),采用不同模態(tài)的詞表,需要采用不同模態(tài)的數(shù)據(jù)單獨(dú)訓(xùn)練得到。使得視頻生成模型在訓(xùn)練過程中,需要對不同模態(tài)的詞表分別進(jìn)行訓(xùn)練處理,提高了模型訓(xùn)練難度以及模型訓(xùn)練成本。


技術(shù)實(shí)現(xiàn)思路

1、本公開提供了一種多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備。

2、根據(jù)本公開的一方面,提供了一種多模態(tài)大模型的訓(xùn)練方法,所述方法包括:獲取第一訓(xùn)練數(shù)據(jù)以及第二訓(xùn)練數(shù)據(jù);所述第一訓(xùn)練數(shù)據(jù)包括各個(gè)非文本模態(tài)下的數(shù)據(jù);所述第二訓(xùn)練數(shù)據(jù)包括目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù);獲取初始的多模態(tài)大模型;所述多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò);各個(gè)所述編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理;結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù),對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理;在各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表訓(xùn)練完成的情況下,結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù),對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理。

3、根據(jù)本公開的另一方面,提供了一種目標(biāo)任務(wù)的處理方法,所述方法包括:獲取目標(biāo)任務(wù);所述目標(biāo)任務(wù)包括至少兩個(gè)模態(tài)下的數(shù)據(jù);獲取多模態(tài)大模型;所述多模態(tài)大模型,基于如上所述的多模態(tài)大模型的訓(xùn)練方法確定得到;將所述至少兩個(gè)模態(tài)下的數(shù)據(jù)輸入所述多模態(tài)大模型,獲取所述多模態(tài)大模型輸出的生成數(shù)據(jù)。

4、根據(jù)本公開的另一方面,提供了一種多模態(tài)大模型的訓(xùn)練裝置,所述裝置包括:第一獲取模塊,用于獲取第一訓(xùn)練數(shù)據(jù)以及第二訓(xùn)練數(shù)據(jù);所述第一訓(xùn)練數(shù)據(jù)包括各個(gè)非文本模態(tài)下的數(shù)據(jù);所述第二訓(xùn)練數(shù)據(jù)包括目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù);第二獲取模塊,用于獲取初始的多模態(tài)大模型;所述多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò);各個(gè)所述編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理;第一訓(xùn)練處理模塊,用于結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù),對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理;第二訓(xùn)練處理模塊,用于在各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表訓(xùn)練完成的情況下,結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù),對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理。

5、根據(jù)本公開的另一方面,提供了一種目標(biāo)任務(wù)的處理裝置,所述裝置包括:第一獲取模塊,用于獲取目標(biāo)任務(wù);所述目標(biāo)任務(wù)包括至少兩個(gè)模態(tài)下的數(shù)據(jù);第二獲取模塊,用于獲取多模態(tài)大模型;所述多模態(tài)大模型,基于如上項(xiàng)所述的多模態(tài)大模型的訓(xùn)練方法確定得到;第三獲取模塊,用于將所述至少兩個(gè)模態(tài)下的數(shù)據(jù)輸入所述多模態(tài)大模型,獲取所述多模態(tài)大模型輸出的生成數(shù)據(jù)。

6、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本公開上述提出的多模態(tài)大模型的訓(xùn)練方法;或者,執(zhí)行本公開上述提出的目標(biāo)任務(wù)的處理方法。

7、根據(jù)本公開的另一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行本公開上述提出的多模態(tài)大模型的訓(xùn)練方法;或者,執(zhí)行本公開上述提出的目標(biāo)任務(wù)的處理方法。

8、根據(jù)本公開的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開上述提出的多模態(tài)大模型的訓(xùn)練方法的步驟;或者,實(shí)現(xiàn)本公開上述提出的目標(biāo)任務(wù)的處理方法的步驟。

9、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種多模態(tài)大模型的訓(xùn)練方法,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù),對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理,包括:

3.根據(jù)權(quán)利要求2所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò),確定各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)的損失函數(shù)數(shù)值,包括:

4.根據(jù)權(quán)利要求3所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò),確定各個(gè)所述數(shù)據(jù)對應(yīng)的預(yù)測數(shù)據(jù),包括:

5.根據(jù)權(quán)利要求4所述的方法,其中,所述結(jié)合各個(gè)非文本模態(tài)下的數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò),確定各個(gè)所述數(shù)據(jù)對應(yīng)的預(yù)測數(shù)據(jù),還包括:

6.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)的損失函數(shù)數(shù)值,對各個(gè)所述編解碼網(wǎng)絡(luò)以及所述多模態(tài)詞表進(jìn)行調(diào)整處理,實(shí)現(xiàn)聯(lián)合訓(xùn)練,包括:

7.根據(jù)權(quán)利要求1所述的方法,其中,所述非文本模態(tài)包括以下至少一種:音頻模態(tài)、無聲視頻模態(tài)、以及圖像模態(tài);

8.根據(jù)權(quán)利要求7所述的方法,其中,結(jié)合所述二維編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)對圖像模態(tài)下圖像進(jìn)行處理的方式包括:

9.根據(jù)權(quán)利要求4或5所述的方法,其中,具有關(guān)聯(lián)關(guān)系的至少兩個(gè)候選數(shù)據(jù)的組合包括:有聲視頻。

10.根據(jù)權(quán)利要求1所述的方法,其中,所述結(jié)合所述目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù),對所述骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理,包括:

11.根據(jù)權(quán)利要求10所述的方法,其中,所述結(jié)合所述多模態(tài)樣本參考數(shù)據(jù)、各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)以及所述骨干網(wǎng)絡(luò),確定預(yù)測生成數(shù)據(jù),包括:

12.根據(jù)權(quán)利要求11所述的方法,其中,所述多模態(tài)樣本參考數(shù)據(jù)中包括各個(gè)候選非文本模態(tài)下的樣本參考數(shù)據(jù),以及文本模態(tài)下的樣本文本數(shù)據(jù);所述結(jié)合所述多模態(tài)樣本參考數(shù)據(jù)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò),確定多模態(tài)整數(shù)序列組合,包括:

13.根據(jù)權(quán)利要求1或10所述的方法,其中,所述多模態(tài)樣本參考數(shù)據(jù)包括以下至少兩種模態(tài)下的數(shù)據(jù):音頻模態(tài)、無聲視頻模態(tài)、圖像模態(tài)、文本模態(tài);

14.根據(jù)權(quán)利要求1所述的方法,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

15.一種目標(biāo)任務(wù)的處理方法,所述方法包括:

16.根據(jù)權(quán)利要求15所述的方法,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

17.一種多模態(tài)大模型的訓(xùn)練裝置,所述裝置包括:

18.根據(jù)權(quán)利要求17所述的裝置,其中,所述第一訓(xùn)練處理模塊包括第一確定單元和第一調(diào)整處理單元;

19.根據(jù)權(quán)利要求18所述的裝置,其中,所述第一確定單元包括第一確定子單元、第二確定子單元和第三確定子單元;

20.根據(jù)權(quán)利要求19所述的裝置,其中,所述第一確定子單元具體用于,

21.根據(jù)權(quán)利要求20所述的裝置,其中,所述第一確定子單元還用于,

22.根據(jù)權(quán)利要求18所述的裝置,其中,所述第一調(diào)整處理單元具體用于,

23.根據(jù)權(quán)利要求17所述的裝置,其中,所述非文本模態(tài)包括以下至少一種:音頻模態(tài)、無聲視頻模態(tài)、以及圖像模態(tài);

24.根據(jù)權(quán)利要求23所述的裝置,其中,結(jié)合所述二維編解碼網(wǎng)絡(luò)中的編碼網(wǎng)絡(luò)對圖像模態(tài)下圖像進(jìn)行處理的方式包括:

25.根據(jù)權(quán)利要求20或21所述的裝置,其中,具有關(guān)聯(lián)關(guān)系的至少兩個(gè)候選數(shù)據(jù)的組合包括:有聲視頻。

26.根據(jù)權(quán)利要求17所述的裝置,其中,所述第二訓(xùn)練處理模塊包括第二確定單元、第三確定單元和第二調(diào)整處理單元;

27.根據(jù)權(quán)利要求26所述的裝置,其中,所述第二確定單元具體用于,

28.根據(jù)權(quán)利要求27所述的裝置,其中,所述多模態(tài)樣本參考數(shù)據(jù)中包括各個(gè)候選非文本模態(tài)下的樣本參考數(shù)據(jù),以及文本模態(tài)下的樣本文本數(shù)據(jù);所述第二確定單元具體還用于,

29.根據(jù)權(quán)利要求17或26所述的裝置,其中,所述多模態(tài)樣本參考數(shù)據(jù)包括以下至少兩種模態(tài)下的數(shù)據(jù):音頻模態(tài)、無聲視頻模態(tài)、圖像模態(tài)、文本模態(tài);

30.根據(jù)權(quán)利要求17所述的裝置,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

31.一種目標(biāo)任務(wù)的處理裝置,所述裝置包括:

32.根據(jù)權(quán)利要求31所述的裝置,其中,所述目標(biāo)任務(wù)包括以下至少一種:圖像生成任務(wù)、視頻生成任務(wù)、音頻生成任務(wù)、文本生成任務(wù)、多模態(tài)理解任務(wù)。

33.一種電子設(shè)備,包括:

34.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1至14中任一項(xiàng)所述的方法;或者,執(zhí)行根據(jù)權(quán)利要求15至16中任一項(xiàng)所述的方法。

35.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至14中任一項(xiàng)所述的方法;或者,實(shí)現(xiàn)根據(jù)權(quán)利要求15至16中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本公開提供了多模態(tài)大模型的訓(xùn)練方法、裝置及電子設(shè)備,涉及人工智能技術(shù)領(lǐng)域,尤其涉及深度學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、語音技術(shù)、大模型等技術(shù)領(lǐng)域。具體實(shí)現(xiàn)方案為:獲取第一訓(xùn)練數(shù)據(jù)和第二訓(xùn)練數(shù)據(jù);獲取初始的多模態(tài)大模型;多模態(tài)大模型包括骨干網(wǎng)絡(luò)以及各個(gè)非文本模態(tài)對應(yīng)的編解碼網(wǎng)絡(luò);各個(gè)編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理;結(jié)合第一訓(xùn)練數(shù)據(jù)中各個(gè)非文本模態(tài)下的數(shù)據(jù),對各個(gè)編解碼網(wǎng)絡(luò)以及多模態(tài)詞表進(jìn)行聯(lián)合訓(xùn)練處理;結(jié)合第二訓(xùn)練數(shù)據(jù)中目標(biāo)任務(wù)下的多模態(tài)樣本參考數(shù)據(jù)以及樣本生成數(shù)據(jù),對骨干網(wǎng)絡(luò)進(jìn)行訓(xùn)練處理;其中,各個(gè)編解碼網(wǎng)絡(luò)結(jié)合同一個(gè)多模態(tài)詞表進(jìn)行編解碼處理,降低了模型訓(xùn)練難度以及模型訓(xùn)練成本。

技術(shù)研發(fā)人員:王碩寰,尚駿遠(yuǎn),柴業(yè)坤,楊茵淇,張振宇,孫宇,吳華,王海峰
受保護(hù)的技術(shù)使用者:北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
克什克腾旗| 古浪县| 潢川县| 长沙市| 荣昌县| 米脂县| 宁晋县| 奉节县| 孟州市| 内丘县| 蕉岭县| 禹州市| 黔西县| 仲巴县| 龙山县| 紫金县| 景谷| 渭源县| 尚志市| 鱼台县| 乌兰浩特市| 紫金县| 桃园县| 建始县| 华宁县| 永胜县| 安图县| 崇礼县| 财经| 砚山县| 中方县| 沙坪坝区| 诏安县| 涿州市| 政和县| 玉林市| 昌宁县| 工布江达县| 宝丰县| 当阳市| 西平县|