欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

自適應參數(shù)高效微調(diào)方法、裝置、設備及存儲介質(zhì)與流程

文檔序號:40518236發(fā)布日期:2024-12-31 13:27閱讀:10來源:國知局
自適應參數(shù)高效微調(diào)方法、裝置、設備及存儲介質(zhì)與流程

本發(fā)明涉及醫(yī)療健康,特別涉及一種自適應參數(shù)高效微調(diào)方法、裝置、設備及存儲介質(zhì)。


背景技術:

1、預訓練模型是指在大規(guī)模數(shù)據(jù)上進行無監(jiān)督學習訓練得到的模型。這些模型通常學習得到了通用的語言知識,語義表示和語法結構等。預訓練模型在自然語言處理的眾多任務中,如文本分類、情感分析、機器翻譯等方面,取得了顯著的效果。隨著預訓練語言模型的發(fā)展,越來越多的語言模型參數(shù)超過了3億或者10億,這使得企業(yè)無法再針對一個任務部署一個模型,于是參數(shù)高效微調(diào)方法就顯得非常重要。

2、對每個不同的任務(數(shù)據(jù)集)的參數(shù)高效微調(diào),只需要微調(diào)幾百萬的參數(shù),就可以將比較大的預訓練模型適配到任務上,獲得與直接采用整個模型的全部參數(shù)進行一個任務微調(diào)的基本相同或者非常接近的表現(xiàn)。這在醫(yī)療場景有非常重要的作用。在醫(yī)療場景中,一個大模型主干需要支持體檢報告抽取、病例理解、知識問答、病患管理等多個場景,所以參數(shù)高效微調(diào)這種節(jié)省顯存的模型微調(diào)-推理方案是很重要的。

3、但是現(xiàn)有技術中,在對各種不同的參數(shù)高效微調(diào)方案進行結合使用時,一般采用某種人工規(guī)定的策略,沒有根據(jù)下游任務進行自動優(yōu)化,使得微調(diào)效果沒有達到最佳。


技術實現(xiàn)思路

1、本技術實施例的目的在于提出一種自適應參數(shù)高效微調(diào)方法、裝置、設備及存儲介質(zhì)以解決預訓練模型的模型參數(shù)的人工微調(diào)策略效果不佳的問題。

2、為了解決上述技術問題,本技術實施例提供一種自適應參數(shù)高效微調(diào)方法,采用了如下所述的技術方案,包括:

3、獲取參數(shù)高效微調(diào)超網(wǎng)絡,所述參數(shù)高效微調(diào)超網(wǎng)絡包括多個參數(shù)微調(diào)模塊;

4、獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊;

5、利用所述目標參數(shù)微調(diào)模塊參與預訓練模型transformer層的前向傳播,對輸入樣本在transformer層輸出的隱狀態(tài)進行修改。

6、進一步的,所述獲取參數(shù)高效微調(diào)超網(wǎng)絡具體包括:

7、分別獲取lora參數(shù)高效微調(diào)模型、adapter參數(shù)高效微調(diào)模型及prefix參數(shù)高效微調(diào)模型;

8、從所述lora參數(shù)高效微調(diào)模型獲取第一參數(shù)微調(diào)模塊及第二參數(shù)微調(diào)模塊,從所述adapter參數(shù)高效微調(diào)模型獲取第三參數(shù)微調(diào)模塊及第四參數(shù)微調(diào)模塊,從所述prefix參數(shù)高效微調(diào)模型獲取第五參數(shù)微調(diào)模塊及第六參數(shù)微調(diào)模塊;

9、根據(jù)所述第一參數(shù)微調(diào)模塊、第二參數(shù)微調(diào)模塊、第三參數(shù)微調(diào)模塊、第四參數(shù)微調(diào)模塊、第五參數(shù)微調(diào)模塊、第六參數(shù)微調(diào)模塊得到所述參數(shù)高效微調(diào)超網(wǎng)絡。

10、進一步的,所述獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊,包括:

11、將所述訓練參數(shù)輸入到各參數(shù)微調(diào)模塊,根據(jù)預設步長增加或減少各參數(shù)微調(diào)模塊的權重值,以所述訓練參數(shù)與參數(shù)微調(diào)模塊的權重值呈正相關為目標進行訓練學習,得到訓練學習后的訓練參數(shù)作為第一選擇因子,其中,一個參數(shù)微調(diào)模塊對應一個第一選擇因子;

12、判斷所述第一選擇因子是否大于第一預設閾值;

13、若大于第一預設閾值,則保留參數(shù)微調(diào)模塊;

14、若小于所述第一預設閾值,則刪除所述參數(shù)微調(diào)模塊。

15、進一步的,所述獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊,還包括:

16、將伯努利隨機數(shù)作為權重值對所述訓練參數(shù)進行加權,將加權后的訓練參數(shù)作為第二選擇因子;

17、判斷所述第二選擇因子的值是否為1;

18、若第二選擇因子的值為1,則保留該參數(shù)微調(diào)模塊;

19、若第二選擇因子的值若為0,則刪除所述參數(shù)微調(diào)模塊。

20、進一步的,所述利用伯努利隨機數(shù)對所述訓練參數(shù)進行加權,將加權后的訓練參數(shù)作為第二選擇因子,包括:

21、隨機采樣,獲取所述伯努利隨機數(shù);

22、將所述訓練參數(shù)與所述伯努利隨機數(shù)進行相乘,獲取第二選擇因子。

23、進一步的,所述利用所述目標參數(shù)微調(diào)模塊參與預訓練模型transformer層的前向傳播,對輸入樣本在transformer層輸出的隱狀態(tài)進行修改,包括:

24、利用預訓練模型transformer層的第一層函數(shù)對輸入樣本進行第一操作,獲取第一隱狀態(tài);

25、利用選中的參數(shù)微調(diào)模塊對第一隱狀態(tài)進行修改,獲取第二隱狀態(tài);

26、利用預訓練模型transformer層的第二層函數(shù)對所述第二隱狀態(tài)進行第二操作,獲取第三隱狀態(tài)。

27、進一步的,在所述利用預訓練模型transformer層的第二層函數(shù)對所述第二隱狀態(tài)進行第二操作,獲取第三隱狀態(tài)之后,所述方法還包括:

28、獲取預訓練模型transformer層前向傳播后輸出的任意兩個不同的參數(shù)微調(diào)模塊對應的隱狀態(tài);

29、利用兩個不同的隱狀態(tài)獲取所述參數(shù)高效微調(diào)超網(wǎng)絡的損失函數(shù);

30、利用所述損失函數(shù)計算獲取所述參數(shù)高效微調(diào)超網(wǎng)絡中的任意兩個參數(shù)微調(diào)模塊的均方差值,并將所述均方差值反饋給所述參數(shù)高效微調(diào)超網(wǎng)絡。

31、為了解決上述技術問題,本技術實施例還提供一種自適應參數(shù)高效微調(diào)裝置,采用第一方面所述的自適應參數(shù)高效微調(diào)方法,包括:

32、獲取模塊,用于獲取參數(shù)高效微調(diào)超網(wǎng)絡,所述參數(shù)高效微調(diào)超網(wǎng)絡包括多個參數(shù)微調(diào)模塊;

33、篩選模塊,用于獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊;

34、修改模塊,用于參與預訓練模型transformer層的前向傳播,對輸入樣本在transformer層輸出的隱狀態(tài)進行修改。

35、為了解決上述技術問題,本技術實施例還提供一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如上所述的自適應參數(shù)高效微調(diào)方法的步驟。

36、為了解決上述技術問題,本技術實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上所述的自適應參數(shù)高效微調(diào)方法的步驟。

37、與現(xiàn)有技術相比,本技術實施例主要有以下技術效果:通過構建參數(shù)高效微調(diào)超網(wǎng)絡,使得不同類型的參數(shù)微調(diào)模塊可以同時使用,從而使得預訓練模型根據(jù)任務自適應選擇最佳的參數(shù)高效微調(diào)模塊,最大程度解鎖了大模型的能力,提升了部署后的模型在各種醫(yī)療任務上的平均表現(xiàn)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
克东县| 浠水县| 招远市| 和平区| 历史| 阿克苏市| 饶平县| 湄潭县| 吉木萨尔县| 岱山县| 宾川县| 泸西县| 来宾市| 安西县| 兴仁县| 自治县| 汉川市| 新巴尔虎左旗| 集安市| 富顺县| 卢龙县| 怀宁县| 郎溪县| 三河市| 桃源县| 浪卡子县| 麻栗坡县| 年辖:市辖区| 嘉义市| 普格县| 浏阳市| 辽阳县| 遂宁市| 中超| 璧山县| 岳西县| 吕梁市| 海宁市| 克山县| 延津县| 五常市|