大模型剪枝方法、基于大模型的應(yīng)答方法、裝置及設(shè)備與流程

文檔序號：40540627發(fā)布日期：2025-01-03 10:59閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開涉及人工智能，尤其涉及大模型、生成模型、預(yù)訓(xùn)練模型、微調(diào)、對話式模型、深度學(xué)習(xí)等，更具體地，本公開提供了一種大模型剪枝方法、基于大模型的應(yīng)答方法、裝置、電子設(shè)備、存儲介質(zhì)以及計算機程序產(chǎn)品。

背景技術(shù)：

1、近年來，大語言模型(llm，large?language?model)在語言理解和生成方面取得了顯著進展，展現(xiàn)出多模態(tài)處理和鏈?zhǔn)酵评淼刃屡d能力。然而，這些模型的強大學(xué)習(xí)能力也引發(fā)了倫理和安全方面的擔(dān)憂，如學(xué)術(shù)不端行為、虛假評論生成以及幫助實施網(wǎng)絡(luò)攻擊或武器開發(fā)等惡意活動。因此，有必要對大語言模型進行自適應(yīng)編輯，以在保持其正常功能的同時減少濫用風(fēng)險。

2、此外，隨著大語言模型推理性能的提高，大語言模型的參數(shù)量也顯著增長，在數(shù)據(jù)存儲、數(shù)據(jù)處理過程中均需要消耗大量的計算機資源。

技術(shù)實現(xiàn)思路

1、本公開提供了一種大模型剪枝方法、基于大模型的應(yīng)答方法、裝置、電子設(shè)備、存儲介質(zhì)以及計算機程序產(chǎn)品。

2、根據(jù)本公開的一方面，提供了一種大模型剪枝方法，包括：基于初始大模型的多個模型參數(shù)，根據(jù)符合預(yù)定要求的第一樣本、用于第一樣本的第一標(biāo)簽、不符合預(yù)定要求的第二樣本以及用于第二樣本的第二標(biāo)簽，利用處理器執(zhí)行損失計算任務(wù)，得到第一樣本的第一損失值和第二樣本的第二損失值；根據(jù)第一損失值和第二損失值，利用處理器執(zhí)行評估任務(wù)，得到多個模型參數(shù)的重要性指標(biāo)；其中，重要性指標(biāo)表征基于模型參數(shù)確定的輸出信息符合預(yù)定要求的程度；以及基于重要性指標(biāo)，利用處理器對多個模型參數(shù)執(zhí)行剪枝任務(wù)，得到剪枝后的大模型。

3、根據(jù)本公開的另一方面，提供了一種基于大模型的應(yīng)答方法，包括：獲取提問文本；將提問文本輸入大模型，得到應(yīng)答文本；其中，大模型是利用上述方法得到的。

4、根據(jù)本公開的另一方面，提供了一種大模型剪枝裝置，包括：損失確定模塊、指標(biāo)確定模塊和剪枝模塊。損失確定模塊用于基于初始大模型的多個模型參數(shù)，根據(jù)符合預(yù)定要求的第一樣本、用于第一樣本的第一標(biāo)簽、不符合預(yù)定要求的第二樣本以及用于第二樣本的第二標(biāo)簽，利用處理器執(zhí)行損失計算任務(wù)，得到第一樣本的第一損失值和第二樣本的第二損失值。指標(biāo)確定模塊用于根據(jù)第一損失值和第二損失值，利用處理器執(zhí)行評估任務(wù)，得到多個模型參數(shù)的重要性指標(biāo)；其中，重要性指標(biāo)表征基于模型參數(shù)確定的輸出信息符合預(yù)定要求的程度。剪枝模塊用于基于重要性指標(biāo)，利用處理器對多個模型參數(shù)執(zhí)行剪枝任務(wù)，得到剪枝后的大模型。

5、根據(jù)本公開的另一方面，提供了一種基于大模型的應(yīng)答裝置，包括：獲取模塊和輸入模塊，獲取模塊用于獲取提問文本。輸入模塊用于將提問文本輸入大模型，得到應(yīng)答文本。其中，大模型是上述裝置得到的。

6、根據(jù)本公開的另一個方面，提供了一種電子設(shè)備，包括：至少一個處理器；以及與至少一個處理器通信連接的存儲器；其中，存儲器存儲有可被至少一個處理器執(zhí)行的指令，指令被至少一個處理器執(zhí)行，以使至少一個處理器能夠執(zhí)行本公開提供的方法。

7、根據(jù)本公開的另一個方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì)，其中，計算機指令用于使計算機執(zhí)行本公開提供的方法。

8、根據(jù)本公開的另一個方面，提供了一種計算機程序產(chǎn)品，包括計算機程序，計算機程序在被處理器執(zhí)行時實現(xiàn)本公開提供的方法。

9、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

技術(shù)特征：

1.一種大模型剪枝方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，利用處理器執(zhí)行損失計算任務(wù)，得到所述第一樣本的第一損失值和所述第二樣本的第二損失值包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述根據(jù)所述第一損失值和所述第二損失值，利用所述處理器執(zhí)行評估任務(wù)，得到所述多個模型參數(shù)的重要性指標(biāo)包括：

4.根據(jù)權(quán)利要求1所述的方法，其中，所述根據(jù)所述第一損失值和所述第二損失值，利用所述處理器執(zhí)行評估任務(wù)，得到所述多個模型參數(shù)的重要性指標(biāo)包括：

5.根據(jù)權(quán)利要求4所述的方法，其中，利用處理器執(zhí)行損失計算任務(wù)，得到所述第一樣本的第一損失值和所述第二樣本的第二損失值包括：

6.根據(jù)權(quán)利要求1至5中任意一項所述的方法，還包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，所述訓(xùn)練樣本包括符合所述預(yù)定要求的第一提問文本，所述參考標(biāo)簽包括第一回答文本；所述基于所述剪枝后的大模型，根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽，確定訓(xùn)練損失值包括：

8.根據(jù)權(quán)利要求6所述的方法，其中，所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第二提問文本，所述參考標(biāo)簽包括第二目標(biāo)概率分布，且所述第二目標(biāo)概率分布中的每個概率值小于等于第二預(yù)定值；所述基于所述剪枝后的大模型，根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽，確定訓(xùn)練損失值包括：

9.根據(jù)權(quán)利要求6所述的方法，其中，所述訓(xùn)練樣本包括符合所述預(yù)定要求的第三提問文本；所述基于所述剪枝后的大模型，根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽，確定訓(xùn)練損失值包括：

10.根據(jù)權(quán)利要求6所述的方法，其中，所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第四提問文本；所述基于所述剪枝后的大模型，根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽，確定訓(xùn)練損失值包括：

11.根據(jù)權(quán)利要求6所述的方法，其中，所述訓(xùn)練樣本包括錨點提問文本、第五提問文本和第六提問文本，所述錨點提問文本和所述第五提問文本均符合所述預(yù)定要求，所述第六提問文本不符合所述預(yù)定要求；所述基于所述剪枝后的大模型，根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽，確定訓(xùn)練損失值包括：

12.根據(jù)權(quán)利要求1至11中任意一項所述的方法，其中，

13.一種基于大模型的應(yīng)答方法，包括：

14.一種大模型剪枝裝置，包括：

15.根據(jù)權(quán)利要求14所述的裝置，其中，所述損失確定模塊包括：

16.根據(jù)權(quán)利要求15所述的裝置，其中，所述指標(biāo)確定模塊包括：

17.根據(jù)權(quán)利要求14所述的裝置，其中，所述指標(biāo)確定模塊包括：

18.根據(jù)權(quán)利要求17所述的裝置，其中，所述損失確定模塊包括：

19.根據(jù)權(quán)利要求14至18中任意一項所述的裝置，還包括，

20.根據(jù)權(quán)利要求19所述的裝置，其中，所述訓(xùn)練樣本包括符合所述預(yù)定要求的第一提問文本，所述參考標(biāo)簽包括第一回答文本；所述訓(xùn)練損失值確定模塊包括：

21.根據(jù)權(quán)利要求19所述的裝置，其中，所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第二提問文本，所述參考標(biāo)簽包括第二目標(biāo)概率分布，且所述第二目標(biāo)概率分布中的每個概率值小于等于第二預(yù)定值；所述訓(xùn)練損失值確定模塊包括：

22.根據(jù)權(quán)利要求19所述的裝置，其中，所述訓(xùn)練樣本包括符合所述預(yù)定要求的第三提問文本；所述訓(xùn)練損失值確定模塊包括：

23.根據(jù)權(quán)利要求19所述的裝置，其中，所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第四提問文本；所述訓(xùn)練損失值確定模塊包括：

24.根據(jù)權(quán)利要求19所述的裝置，其中，所述訓(xùn)練樣本包括錨點提問文本、第五提問文本和第六提問文本，所述錨點提問文本和所述第五提問文本均符合所述預(yù)定要求，所述第六提問文本不符合所述預(yù)定要求；所述訓(xùn)練損失值確定模塊包括：

25.根據(jù)權(quán)利要求14至24中任意一項所述的裝置，其中，

26.一種基于大模型的應(yīng)答裝置，包括：

27.一種電子設(shè)備，包括：

28.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì)，其中，所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1至13中任一項所述的方法。

29.一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1至13中任一項所述的方法。

技術(shù)總結(jié)
本公開提供了一種大模型剪枝方法、基于大模型的應(yīng)答方法、裝置及設(shè)備，涉及人工智能技術(shù)領(lǐng)域，尤其涉及大模型、生成模型、預(yù)訓(xùn)練模型、微調(diào)、對話式模型、深度學(xué)習(xí)等技術(shù)領(lǐng)域。具體實現(xiàn)方案為：基于初始大模型的多個模型參數(shù)，根據(jù)符合預(yù)定要求的第一樣本、第一標(biāo)簽、不符合預(yù)定要求的第二樣本以及第二標(biāo)簽，利用處理器執(zhí)行損失計算任務(wù)，得到第一樣本的第一損失值和第二樣本的第二損失值；然后利用處理器執(zhí)行評估任務(wù)，得到多個模型參數(shù)的重要性指標(biāo)；其中，重要性指標(biāo)表征基于模型參數(shù)確定的輸出信息符合預(yù)定要求的程度；基于重要性指標(biāo)，利用處理器對多個模型參數(shù)執(zhí)行剪枝任務(wù)，得到剪枝后的大模型。

技術(shù)研發(fā)人員：章圣明,張樂,周景博,熊輝
受保護的技術(shù)使用者：北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：章圣明,張樂,周景博,熊輝
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

上一篇：一種料盤的分盤機構(gòu)及分盤設(shè)備的制作方法
上一篇：角度傳感器用定位裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大模型剪枝方法、基于大模型的應(yīng)答方法、裝置及設(shè)備與流程

大模型剪枝方法、基于大模型的應(yīng)答方法、裝置及設(shè)備與流程