欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大模型剪枝方法、基于大模型的應(yīng)答方法、裝置及設(shè)備與流程

文檔序號:40540627發(fā)布日期:2025-01-03 10:59閱讀:10來源:國知局
大模型剪枝方法、基于大模型的應(yīng)答方法、裝置及設(shè)備與流程

本公開涉及人工智能,尤其涉及大模型、生成模型、預(yù)訓(xùn)練模型、微調(diào)、對話式模型、深度學(xué)習(xí)等,更具體地,本公開提供了一種大模型剪枝方法、基于大模型的應(yīng)答方法、裝置、電子設(shè)備、存儲介質(zhì)以及計算機程序產(chǎn)品。


背景技術(shù):

1、近年來,大語言模型(llm,large?language?model)在語言理解和生成方面取得了顯著進展,展現(xiàn)出多模態(tài)處理和鏈?zhǔn)酵评淼刃屡d能力。然而,這些模型的強大學(xué)習(xí)能力也引發(fā)了倫理和安全方面的擔(dān)憂,如學(xué)術(shù)不端行為、虛假評論生成以及幫助實施網(wǎng)絡(luò)攻擊或武器開發(fā)等惡意活動。因此,有必要對大語言模型進行自適應(yīng)編輯,以在保持其正常功能的同時減少濫用風(fēng)險。

2、此外,隨著大語言模型推理性能的提高,大語言模型的參數(shù)量也顯著增長,在數(shù)據(jù)存儲、數(shù)據(jù)處理過程中均需要消耗大量的計算機資源。


技術(shù)實現(xiàn)思路

1、本公開提供了一種大模型剪枝方法、基于大模型的應(yīng)答方法、裝置、電子設(shè)備、存儲介質(zhì)以及計算機程序產(chǎn)品。

2、根據(jù)本公開的一方面,提供了一種大模型剪枝方法,包括:基于初始大模型的多個模型參數(shù),根據(jù)符合預(yù)定要求的第一樣本、用于第一樣本的第一標(biāo)簽、不符合預(yù)定要求的第二樣本以及用于第二樣本的第二標(biāo)簽,利用處理器執(zhí)行損失計算任務(wù),得到第一樣本的第一損失值和第二樣本的第二損失值;根據(jù)第一損失值和第二損失值,利用處理器執(zhí)行評估任務(wù),得到多個模型參數(shù)的重要性指標(biāo);其中,重要性指標(biāo)表征基于模型參數(shù)確定的輸出信息符合預(yù)定要求的程度;以及基于重要性指標(biāo),利用處理器對多個模型參數(shù)執(zhí)行剪枝任務(wù),得到剪枝后的大模型。

3、根據(jù)本公開的另一方面,提供了一種基于大模型的應(yīng)答方法,包括:獲取提問文本;將提問文本輸入大模型,得到應(yīng)答文本;其中,大模型是利用上述方法得到的。

4、根據(jù)本公開的另一方面,提供了一種大模型剪枝裝置,包括:損失確定模塊、指標(biāo)確定模塊和剪枝模塊。損失確定模塊用于基于初始大模型的多個模型參數(shù),根據(jù)符合預(yù)定要求的第一樣本、用于第一樣本的第一標(biāo)簽、不符合預(yù)定要求的第二樣本以及用于第二樣本的第二標(biāo)簽,利用處理器執(zhí)行損失計算任務(wù),得到第一樣本的第一損失值和第二樣本的第二損失值。指標(biāo)確定模塊用于根據(jù)第一損失值和第二損失值,利用處理器執(zhí)行評估任務(wù),得到多個模型參數(shù)的重要性指標(biāo);其中,重要性指標(biāo)表征基于模型參數(shù)確定的輸出信息符合預(yù)定要求的程度。剪枝模塊用于基于重要性指標(biāo),利用處理器對多個模型參數(shù)執(zhí)行剪枝任務(wù),得到剪枝后的大模型。

5、根據(jù)本公開的另一方面,提供了一種基于大模型的應(yīng)答裝置,包括:獲取模塊和輸入模塊,獲取模塊用于獲取提問文本。輸入模塊用于將提問文本輸入大模型,得到應(yīng)答文本。其中,大模型是上述裝置得到的。

6、根據(jù)本公開的另一個方面,提供了一種電子設(shè)備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行本公開提供的方法。

7、根據(jù)本公開的另一個方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,計算機指令用于使計算機執(zhí)行本公開提供的方法。

8、根據(jù)本公開的另一個方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現(xiàn)本公開提供的方法。

9、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種大模型剪枝方法,包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,利用處理器執(zhí)行損失計算任務(wù),得到所述第一樣本的第一損失值和所述第二樣本的第二損失值包括:

3.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)所述第一損失值和所述第二損失值,利用所述處理器執(zhí)行評估任務(wù),得到所述多個模型參數(shù)的重要性指標(biāo)包括:

4.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述第一損失值和所述第二損失值,利用所述處理器執(zhí)行評估任務(wù),得到所述多個模型參數(shù)的重要性指標(biāo)包括:

5.根據(jù)權(quán)利要求4所述的方法,其中,利用處理器執(zhí)行損失計算任務(wù),得到所述第一樣本的第一損失值和所述第二樣本的第二損失值包括:

6.根據(jù)權(quán)利要求1至5中任意一項所述的方法,還包括:

7.根據(jù)權(quán)利要求6所述的方法,其中,所述訓(xùn)練樣本包括符合所述預(yù)定要求的第一提問文本,所述參考標(biāo)簽包括第一回答文本;所述基于所述剪枝后的大模型,根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽,確定訓(xùn)練損失值包括:

8.根據(jù)權(quán)利要求6所述的方法,其中,所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第二提問文本,所述參考標(biāo)簽包括第二目標(biāo)概率分布,且所述第二目標(biāo)概率分布中的每個概率值小于等于第二預(yù)定值;所述基于所述剪枝后的大模型,根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽,確定訓(xùn)練損失值包括:

9.根據(jù)權(quán)利要求6所述的方法,其中,所述訓(xùn)練樣本包括符合所述預(yù)定要求的第三提問文本;所述基于所述剪枝后的大模型,根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽,確定訓(xùn)練損失值包括:

10.根據(jù)權(quán)利要求6所述的方法,其中,所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第四提問文本;所述基于所述剪枝后的大模型,根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽,確定訓(xùn)練損失值包括:

11.根據(jù)權(quán)利要求6所述的方法,其中,所述訓(xùn)練樣本包括錨點提問文本、第五提問文本和第六提問文本,所述錨點提問文本和所述第五提問文本均符合所述預(yù)定要求,所述第六提問文本不符合所述預(yù)定要求;所述基于所述剪枝后的大模型,根據(jù)訓(xùn)練樣本和與所述訓(xùn)練樣本相對應(yīng)的參考標(biāo)簽,確定訓(xùn)練損失值包括:

12.根據(jù)權(quán)利要求1至11中任意一項所述的方法,其中,

13.一種基于大模型的應(yīng)答方法,包括:

14.一種大模型剪枝裝置,包括:

15.根據(jù)權(quán)利要求14所述的裝置,其中,所述損失確定模塊包括:

16.根據(jù)權(quán)利要求15所述的裝置,其中,所述指標(biāo)確定模塊包括:

17.根據(jù)權(quán)利要求14所述的裝置,其中,所述指標(biāo)確定模塊包括:

18.根據(jù)權(quán)利要求17所述的裝置,其中,所述損失確定模塊包括:

19.根據(jù)權(quán)利要求14至18中任意一項所述的裝置,還包括,

20.根據(jù)權(quán)利要求19所述的裝置,其中,所述訓(xùn)練樣本包括符合所述預(yù)定要求的第一提問文本,所述參考標(biāo)簽包括第一回答文本;所述訓(xùn)練損失值確定模塊包括:

21.根據(jù)權(quán)利要求19所述的裝置,其中,所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第二提問文本,所述參考標(biāo)簽包括第二目標(biāo)概率分布,且所述第二目標(biāo)概率分布中的每個概率值小于等于第二預(yù)定值;所述訓(xùn)練損失值確定模塊包括:

22.根據(jù)權(quán)利要求19所述的裝置,其中,所述訓(xùn)練樣本包括符合所述預(yù)定要求的第三提問文本;所述訓(xùn)練損失值確定模塊包括:

23.根據(jù)權(quán)利要求19所述的裝置,其中,所述訓(xùn)練樣本包括不符合所述預(yù)定要求的第四提問文本;所述訓(xùn)練損失值確定模塊包括:

24.根據(jù)權(quán)利要求19所述的裝置,其中,所述訓(xùn)練樣本包括錨點提問文本、第五提問文本和第六提問文本,所述錨點提問文本和所述第五提問文本均符合所述預(yù)定要求,所述第六提問文本不符合所述預(yù)定要求;所述訓(xùn)練損失值確定模塊包括:

25.根據(jù)權(quán)利要求14至24中任意一項所述的裝置,其中,

26.一種基于大模型的應(yīng)答裝置,包括:

27.一種電子設(shè)備,包括:

28.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1至13中任一項所述的方法。

29.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1至13中任一項所述的方法。


技術(shù)總結(jié)
本公開提供了一種大模型剪枝方法、基于大模型的應(yīng)答方法、裝置及設(shè)備,涉及人工智能技術(shù)領(lǐng)域,尤其涉及大模型、生成模型、預(yù)訓(xùn)練模型、微調(diào)、對話式模型、深度學(xué)習(xí)等技術(shù)領(lǐng)域。具體實現(xiàn)方案為:基于初始大模型的多個模型參數(shù),根據(jù)符合預(yù)定要求的第一樣本、第一標(biāo)簽、不符合預(yù)定要求的第二樣本以及第二標(biāo)簽,利用處理器執(zhí)行損失計算任務(wù),得到第一樣本的第一損失值和第二樣本的第二損失值;然后利用處理器執(zhí)行評估任務(wù),得到多個模型參數(shù)的重要性指標(biāo);其中,重要性指標(biāo)表征基于模型參數(shù)確定的輸出信息符合預(yù)定要求的程度;基于重要性指標(biāo),利用處理器對多個模型參數(shù)執(zhí)行剪枝任務(wù),得到剪枝后的大模型。

技術(shù)研發(fā)人員:章圣明,張樂,周景博,熊輝
受保護的技術(shù)使用者:北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
龙游县| 宝坻区| 旅游| 平阳县| 德保县| 新宁县| 武陟县| 泽库县| 洪湖市| 福泉市| 富民县| 天门市| 进贤县| 集安市| 曲周县| 确山县| 离岛区| 章丘市| 古浪县| 陆川县| 景德镇市| 海晏县| 定襄县| 宁海县| 崇州市| 紫金县| 曲沃县| 湄潭县| 团风县| 连南| 加查县| 龙海市| 辽阳县| 眉山市| 印江| 奉化市| 抚宁县| 昆明市| 岑溪市| 盘山县| 中宁县|