本發(fā)明涉及醫(yī)療健康,特別涉及一種自適應參數(shù)高效微調(diào)方法、裝置、設備及存儲介質(zhì)。
背景技術:
1、預訓練模型是指在大規(guī)模數(shù)據(jù)上進行無監(jiān)督學習訓練得到的模型。這些模型通常學習得到了通用的語言知識,語義表示和語法結構等。預訓練模型在自然語言處理的眾多任務中,如文本分類、情感分析、機器翻譯等方面,取得了顯著的效果。隨著預訓練語言模型的發(fā)展,越來越多的語言模型參數(shù)超過了3億或者10億,這使得企業(yè)無法再針對一個任務部署一個模型,于是參數(shù)高效微調(diào)方法就顯得非常重要。
2、對每個不同的任務(數(shù)據(jù)集)的參數(shù)高效微調(diào),只需要微調(diào)幾百萬的參數(shù),就可以將比較大的預訓練模型適配到任務上,獲得與直接采用整個模型的全部參數(shù)進行一個任務微調(diào)的基本相同或者非常接近的表現(xiàn)。這在醫(yī)療場景有非常重要的作用。在醫(yī)療場景中,一個大模型主干需要支持體檢報告抽取、病例理解、知識問答、病患管理等多個場景,所以參數(shù)高效微調(diào)這種節(jié)省顯存的模型微調(diào)-推理方案是很重要的。
3、但是現(xiàn)有技術中,在對各種不同的參數(shù)高效微調(diào)方案進行結合使用時,一般采用某種人工規(guī)定的策略,沒有根據(jù)下游任務進行自動優(yōu)化,使得微調(diào)效果沒有達到最佳。
技術實現(xiàn)思路
1、本技術實施例的目的在于提出一種自適應參數(shù)高效微調(diào)方法、裝置、設備及存儲介質(zhì)以解決預訓練模型的模型參數(shù)的人工微調(diào)策略效果不佳的問題。
2、為了解決上述技術問題,本技術實施例提供一種自適應參數(shù)高效微調(diào)方法,采用了如下所述的技術方案,包括:
3、獲取參數(shù)高效微調(diào)超網(wǎng)絡,所述參數(shù)高效微調(diào)超網(wǎng)絡包括多個參數(shù)微調(diào)模塊;
4、獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊;
5、利用所述目標參數(shù)微調(diào)模塊參與預訓練模型transformer層的前向傳播,對輸入樣本在transformer層輸出的隱狀態(tài)進行修改。
6、進一步的,所述獲取參數(shù)高效微調(diào)超網(wǎng)絡具體包括:
7、分別獲取lora參數(shù)高效微調(diào)模型、adapter參數(shù)高效微調(diào)模型及prefix參數(shù)高效微調(diào)模型;
8、從所述lora參數(shù)高效微調(diào)模型獲取第一參數(shù)微調(diào)模塊及第二參數(shù)微調(diào)模塊,從所述adapter參數(shù)高效微調(diào)模型獲取第三參數(shù)微調(diào)模塊及第四參數(shù)微調(diào)模塊,從所述prefix參數(shù)高效微調(diào)模型獲取第五參數(shù)微調(diào)模塊及第六參數(shù)微調(diào)模塊;
9、根據(jù)所述第一參數(shù)微調(diào)模塊、第二參數(shù)微調(diào)模塊、第三參數(shù)微調(diào)模塊、第四參數(shù)微調(diào)模塊、第五參數(shù)微調(diào)模塊、第六參數(shù)微調(diào)模塊得到所述參數(shù)高效微調(diào)超網(wǎng)絡。
10、進一步的,所述獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊,包括:
11、將所述訓練參數(shù)輸入到各參數(shù)微調(diào)模塊,根據(jù)預設步長增加或減少各參數(shù)微調(diào)模塊的權重值,以所述訓練參數(shù)與參數(shù)微調(diào)模塊的權重值呈正相關為目標進行訓練學習,得到訓練學習后的訓練參數(shù)作為第一選擇因子,其中,一個參數(shù)微調(diào)模塊對應一個第一選擇因子;
12、判斷所述第一選擇因子是否大于第一預設閾值;
13、若大于第一預設閾值,則保留參數(shù)微調(diào)模塊;
14、若小于所述第一預設閾值,則刪除所述參數(shù)微調(diào)模塊。
15、進一步的,所述獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊,還包括:
16、將伯努利隨機數(shù)作為權重值對所述訓練參數(shù)進行加權,將加權后的訓練參數(shù)作為第二選擇因子;
17、判斷所述第二選擇因子的值是否為1;
18、若第二選擇因子的值為1,則保留該參數(shù)微調(diào)模塊;
19、若第二選擇因子的值若為0,則刪除所述參數(shù)微調(diào)模塊。
20、進一步的,所述利用伯努利隨機數(shù)對所述訓練參數(shù)進行加權,將加權后的訓練參數(shù)作為第二選擇因子,包括:
21、隨機采樣,獲取所述伯努利隨機數(shù);
22、將所述訓練參數(shù)與所述伯努利隨機數(shù)進行相乘,獲取第二選擇因子。
23、進一步的,所述利用所述目標參數(shù)微調(diào)模塊參與預訓練模型transformer層的前向傳播,對輸入樣本在transformer層輸出的隱狀態(tài)進行修改,包括:
24、利用預訓練模型transformer層的第一層函數(shù)對輸入樣本進行第一操作,獲取第一隱狀態(tài);
25、利用選中的參數(shù)微調(diào)模塊對第一隱狀態(tài)進行修改,獲取第二隱狀態(tài);
26、利用預訓練模型transformer層的第二層函數(shù)對所述第二隱狀態(tài)進行第二操作,獲取第三隱狀態(tài)。
27、進一步的,在所述利用預訓練模型transformer層的第二層函數(shù)對所述第二隱狀態(tài)進行第二操作,獲取第三隱狀態(tài)之后,所述方法還包括:
28、獲取預訓練模型transformer層前向傳播后輸出的任意兩個不同的參數(shù)微調(diào)模塊對應的隱狀態(tài);
29、利用兩個不同的隱狀態(tài)獲取所述參數(shù)高效微調(diào)超網(wǎng)絡的損失函數(shù);
30、利用所述損失函數(shù)計算獲取所述參數(shù)高效微調(diào)超網(wǎng)絡中的任意兩個參數(shù)微調(diào)模塊的均方差值,并將所述均方差值反饋給所述參數(shù)高效微調(diào)超網(wǎng)絡。
31、為了解決上述技術問題,本技術實施例還提供一種自適應參數(shù)高效微調(diào)裝置,采用第一方面所述的自適應參數(shù)高效微調(diào)方法,包括:
32、獲取模塊,用于獲取參數(shù)高效微調(diào)超網(wǎng)絡,所述參數(shù)高效微調(diào)超網(wǎng)絡包括多個參數(shù)微調(diào)模塊;
33、篩選模塊,用于獲取訓練參數(shù),將所述訓練參數(shù)參與所述多個參數(shù)微調(diào)模塊的參數(shù)訓練,獲取各參數(shù)微調(diào)模塊的權重值,并根據(jù)所述權重值獲取選擇因子,利用所述選擇因子對所述參數(shù)高效微調(diào)超網(wǎng)絡中的所述多個參數(shù)微調(diào)模塊進行篩選,得到目標參數(shù)微調(diào)模塊;
34、修改模塊,用于參與預訓練模型transformer層的前向傳播,對輸入樣本在transformer層輸出的隱狀態(tài)進行修改。
35、為了解決上述技術問題,本技術實施例還提供一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如上所述的自適應參數(shù)高效微調(diào)方法的步驟。
36、為了解決上述技術問題,本技術實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上所述的自適應參數(shù)高效微調(diào)方法的步驟。
37、與現(xiàn)有技術相比,本技術實施例主要有以下技術效果:通過構建參數(shù)高效微調(diào)超網(wǎng)絡,使得不同類型的參數(shù)微調(diào)模塊可以同時使用,從而使得預訓練模型根據(jù)任務自適應選擇最佳的參數(shù)高效微調(diào)模塊,最大程度解鎖了大模型的能力,提升了部署后的模型在各種醫(yī)療任務上的平均表現(xiàn)。