本文件涉及大語言模型的微調(diào),尤其涉及一種模型的處理方法及裝置。
背景技術(shù):
1、在深度學(xué)習(xí)領(lǐng)域,有兩種常見的對大模型進(jìn)行模型訓(xùn)練的方式:模型微調(diào)和重新訓(xùn)練。以大語言模型為例,由于自然語言處理技術(shù)的迅速發(fā)展,基于預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)的模型訓(xùn)練方式得到越來越廣泛的應(yīng)用。
2、相關(guān)技術(shù)中,在面對需要模型精確理解指令以及遵循復(fù)雜指令完成任務(wù)的情況下,基于預(yù)訓(xùn)練語言模型進(jìn)行全量微調(diào)是常見的模型訓(xùn)練方式,例如:隨著人們對自己的隱私數(shù)據(jù)越來越重視,在風(fēng)險(xiǎn)防控業(yè)務(wù)中,對用戶輸入的風(fēng)險(xiǎn)評估指令進(jìn)行響應(yīng),或者,在查詢業(yè)務(wù)中,對指定賬戶的歷史交易記錄進(jìn)行查詢的用戶查詢指令進(jìn)行響應(yīng)等。然而,在訓(xùn)練資源(模型訓(xùn)練的硬件訓(xùn)練資源,如:顯存、內(nèi)存、處理器等)有限的情況下,基于預(yù)訓(xùn)練語言模型進(jìn)行全量微調(diào)訓(xùn)練并不容易實(shí)現(xiàn),而且在訓(xùn)練資源有限的情況下,基于預(yù)訓(xùn)練語言模型進(jìn)行全量微調(diào)訓(xùn)練所得到的大語言模型并不能滿足用戶需求。因此,需要提供一種適應(yīng)于訓(xùn)練資源有限、指令復(fù)雜、多任務(wù)情況下對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào)處理的模型訓(xùn)練方法。
技術(shù)實(shí)現(xiàn)思路
1、一方面,本說明書一個(gè)或多個(gè)實(shí)施例提供一種模型的處理方法,包括:確定預(yù)訓(xùn)練語言模型,并在所述預(yù)訓(xùn)練語言模型的初始權(quán)重矩陣旁路上設(shè)置用于描述模型微調(diào)過程中所產(chǎn)生的增量權(quán)重的低秩適配矩陣,得到第一預(yù)訓(xùn)練語言模型,所述低秩適配矩陣的秩大于預(yù)設(shè)的秩,所述預(yù)設(shè)的秩是能夠使得所述第一預(yù)訓(xùn)練語言模型的學(xué)習(xí)容量大于預(yù)設(shè)的學(xué)習(xí)容量的秩;獲取當(dāng)前業(yè)務(wù)場景下多個(gè)歷史任務(wù)信息、每個(gè)歷史任務(wù)信息對應(yīng)的用于表示用戶請求的歷史請求數(shù)據(jù)、以及每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,所述歷史響應(yīng)標(biāo)簽是基于歷史任務(wù)信息下用戶的期望輸出信息所確定的樣本標(biāo)簽;以所述歷史任務(wù)信息和每個(gè)歷史任務(wù)信息對應(yīng)的歷史請求數(shù)據(jù)為輸入數(shù)據(jù),基于所述輸入數(shù)據(jù)對應(yīng)的所述第一預(yù)訓(xùn)練語言模型的輸出結(jié)果和所述每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,保持所述第一預(yù)訓(xùn)練語言模型的預(yù)訓(xùn)練權(quán)重不變,通過預(yù)設(shè)的損失函數(shù)對所述低秩適配矩陣對應(yīng)的增量權(quán)重進(jìn)行訓(xùn)練,得到訓(xùn)練后的目標(biāo)大語言模型。
2、另一方面,本說明書一個(gè)或多個(gè)實(shí)施例提供一種模型的處理裝置,包括:第一預(yù)訓(xùn)練語言模型確定模塊,確定預(yù)訓(xùn)練語言模型,并在所述預(yù)訓(xùn)練語言模型的初始權(quán)重矩陣旁路上設(shè)置用于描述模型微調(diào)過程中所產(chǎn)生的增量權(quán)重的低秩適配矩陣,得到第一預(yù)訓(xùn)練語言模型,所述低秩適配矩陣的秩大于預(yù)設(shè)的秩,所述預(yù)設(shè)的秩是能夠使得所述第一預(yù)訓(xùn)練語言模型的學(xué)習(xí)容量大于預(yù)設(shè)的學(xué)習(xí)容量的秩;信息獲取模塊,通獲取當(dāng)前業(yè)務(wù)場景下多個(gè)歷史任務(wù)信息、每個(gè)歷史任務(wù)信息對應(yīng)的用于表示用戶請求的歷史請求數(shù)據(jù)、以及每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,所述歷史響應(yīng)標(biāo)簽是基于歷史任務(wù)信息下用戶的期望輸出信息所確定的樣本標(biāo)簽;訓(xùn)練模塊,以所述歷史任務(wù)信息和每個(gè)歷史任務(wù)信息對應(yīng)的歷史請求數(shù)據(jù)為輸入數(shù)據(jù),基于所述輸入數(shù)據(jù)對應(yīng)的所述第一預(yù)訓(xùn)練語言模型的輸出結(jié)果和所述每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,保持所述第一預(yù)訓(xùn)練語言模型的預(yù)訓(xùn)練權(quán)重不變,通過預(yù)設(shè)的損失函數(shù)對所述低秩適配矩陣對應(yīng)的增量權(quán)重進(jìn)行訓(xùn)練,得到訓(xùn)練后的目標(biāo)大語言模型。
3、再一方面,本說明書一個(gè)或多個(gè)實(shí)施例提供一種電子設(shè)備,包括:處理器;以及被安排成存儲計(jì)算機(jī)可執(zhí)行指令的存儲器,在所述可執(zhí)行指令被執(zhí)行時(shí),能夠使得所述處理器:確定預(yù)訓(xùn)練語言模型,并在所述預(yù)訓(xùn)練語言模型的初始權(quán)重矩陣旁路上設(shè)置用于描述模型微調(diào)過程中所產(chǎn)生的增量權(quán)重的低秩適配矩陣,得到第一預(yù)訓(xùn)練語言模型,所述低秩適配矩陣的秩大于預(yù)設(shè)的秩,所述預(yù)設(shè)的秩是能夠使得所述第一預(yù)訓(xùn)練語言模型的學(xué)習(xí)容量大于預(yù)設(shè)的學(xué)習(xí)容量的秩;獲取當(dāng)前業(yè)務(wù)場景下多個(gè)歷史任務(wù)信息、每個(gè)歷史任務(wù)信息對應(yīng)的用于表示用戶請求的歷史請求數(shù)據(jù)、以及每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,所述歷史響應(yīng)標(biāo)簽是基于歷史任務(wù)信息下用戶的期望輸出信息所確定的樣本標(biāo)簽;以所述歷史任務(wù)信息和每個(gè)歷史任務(wù)信息對應(yīng)的歷史請求數(shù)據(jù)為輸入數(shù)據(jù),基于所述輸入數(shù)據(jù)對應(yīng)的所述第一預(yù)訓(xùn)練語言模型的輸出結(jié)果和所述每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,保持所述第一預(yù)訓(xùn)練語言模型的預(yù)訓(xùn)練權(quán)重不變,通過預(yù)設(shè)的損失函數(shù)對所述低秩適配矩陣對應(yīng)的增量權(quán)重進(jìn)行訓(xùn)練,得到訓(xùn)練后的目標(biāo)大語言模型。
4、再一方面,本說明書一個(gè)或多個(gè)實(shí)施例提供存儲介質(zhì),用于存儲計(jì)算機(jī)程序,所述計(jì)算機(jī)程序能夠被處理器執(zhí)行以實(shí)現(xiàn)以下流程:確定預(yù)訓(xùn)練語言模型,并在所述預(yù)訓(xùn)練語言模型的初始權(quán)重矩陣旁路上設(shè)置用于描述模型微調(diào)過程中所產(chǎn)生的增量權(quán)重的低秩適配矩陣,得到第一預(yù)訓(xùn)練語言模型,所述低秩適配矩陣的秩大于預(yù)設(shè)的秩,所述預(yù)設(shè)的秩是能夠使得所述第一預(yù)訓(xùn)練語言模型的學(xué)習(xí)容量大于預(yù)設(shè)的學(xué)習(xí)容量的秩;獲取當(dāng)前業(yè)務(wù)場景下多個(gè)歷史任務(wù)信息、每個(gè)歷史任務(wù)信息對應(yīng)的用于表示用戶請求的歷史請求數(shù)據(jù)、以及每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,所述歷史響應(yīng)標(biāo)簽是基于歷史任務(wù)信息下用戶的期望輸出信息所確定的樣本標(biāo)簽;以所述歷史任務(wù)信息和每個(gè)歷史任務(wù)信息對應(yīng)的歷史請求數(shù)據(jù)為輸入數(shù)據(jù),基于所述輸入數(shù)據(jù)對應(yīng)的所述第一預(yù)訓(xùn)練語言模型的輸出結(jié)果和所述每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,保持所述第一預(yù)訓(xùn)練語言模型的預(yù)訓(xùn)練權(quán)重不變,通過預(yù)設(shè)的損失函數(shù)對所述低秩適配矩陣對應(yīng)的增量權(quán)重進(jìn)行訓(xùn)練,得到訓(xùn)練后的目標(biāo)大語言模型。
5、再一方面,本說明書一個(gè)或多個(gè)實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下流程:確定預(yù)訓(xùn)練語言模型,并在所述預(yù)訓(xùn)練語言模型的初始權(quán)重矩陣旁路上設(shè)置用于描述模型微調(diào)過程中所產(chǎn)生的增量權(quán)重的低秩適配矩陣,得到第一預(yù)訓(xùn)練語言模型,所述低秩適配矩陣的秩大于預(yù)設(shè)的秩,所述預(yù)設(shè)的秩是能夠使得所述第一預(yù)訓(xùn)練語言模型的學(xué)習(xí)容量大于預(yù)設(shè)的學(xué)習(xí)容量的秩;獲取當(dāng)前業(yè)務(wù)場景下多個(gè)歷史任務(wù)信息、每個(gè)歷史任務(wù)信息對應(yīng)的用于表示用戶請求的歷史請求數(shù)據(jù)、以及每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,所述歷史響應(yīng)標(biāo)簽是基于歷史任務(wù)信息下用戶的期望輸出信息所確定的樣本標(biāo)簽;以所述歷史任務(wù)信息和每個(gè)歷史任務(wù)信息對應(yīng)的歷史請求數(shù)據(jù)為輸入數(shù)據(jù),基于所述輸入數(shù)據(jù)對應(yīng)的所述第一預(yù)訓(xùn)練語言模型的輸出結(jié)果和所述每個(gè)歷史請求數(shù)據(jù)對應(yīng)的歷史響應(yīng)標(biāo)簽,保持所述第一預(yù)訓(xùn)練語言模型的預(yù)訓(xùn)練權(quán)重不變,通過預(yù)設(shè)的損失函數(shù)對所述低秩適配矩陣對應(yīng)的增量權(quán)重進(jìn)行訓(xùn)練,得到訓(xùn)練后的目標(biāo)大語言模型。
1.一種模型的處理方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,所述在所述預(yù)訓(xùn)練語言模型的初始權(quán)重矩陣旁路上設(shè)置用于描述模型微調(diào)過程中所產(chǎn)生的增量權(quán)重的低秩適配矩陣,得到第一預(yù)訓(xùn)練語言模型,包括:
3.根據(jù)權(quán)利要求1所述的方法,還包括:
4.根據(jù)權(quán)利要求1所述的方法,得到訓(xùn)練后的目標(biāo)大語言模型之后,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的方法,所述預(yù)訓(xùn)練語言模型基于transformer神經(jīng)網(wǎng)絡(luò)構(gòu)建,所述損失函數(shù)包括交叉熵?fù)p失函數(shù)。
6.根據(jù)權(quán)利要求1所述的方法,所述第一預(yù)訓(xùn)練語言模型的學(xué)習(xí)容量包括所述第一預(yù)訓(xùn)練語言模型的可訓(xùn)練模型參數(shù)比例,所述第一預(yù)訓(xùn)練語言模型的學(xué)習(xí)容量根據(jù)所述當(dāng)前業(yè)務(wù)場景確定,所述低秩適配矩陣的秩根據(jù)所述當(dāng)前業(yè)務(wù)場景確定。
7.根據(jù)權(quán)利要求1所述的方法,所述預(yù)設(shè)的矩陣的秩取值為64,所述低秩適配矩陣的秩取值為512。
8.根據(jù)權(quán)利要求1所述的方法,所述當(dāng)前業(yè)務(wù)場景對應(yīng)的預(yù)設(shè)業(yè)務(wù)包括:風(fēng)險(xiǎn)防控業(yè)務(wù)、查詢業(yè)務(wù)、推薦業(yè)務(wù)或客服業(yè)務(wù)。
9.一種模型的處理裝置,包括:
10.一種電子設(shè)備,包括: