欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種大語(yǔ)言模型的知識(shí)編輯方法、裝置和電子設(shè)備與流程

文檔序號(hào):40437580發(fā)布日期:2024-12-24 15:11閱讀:10來(lái)源:國(guó)知局
一種大語(yǔ)言模型的知識(shí)編輯方法、裝置和電子設(shè)備與流程

本發(fā)明涉及計(jì)算模型和人工智能,尤其涉及一種大語(yǔ)言模型的知識(shí)編輯方法、裝置和電子設(shè)備。


背景技術(shù):

1、大語(yǔ)言模型(llms)在各種自然語(yǔ)言處理任務(wù)中表現(xiàn)出了卓越的性能。然而,在llms中,錯(cuò)誤或過(guò)時(shí)的知識(shí)是不可避免的。直接微調(diào)大語(yǔ)言模型更新知識(shí)需要大量的計(jì)算資源,這使得它在經(jīng)濟(jì)上難以實(shí)現(xiàn),并限制了它作為首選方法去實(shí)現(xiàn)知識(shí)更新。知識(shí)編輯技術(shù)通過(guò)更新模型內(nèi)部的參數(shù)來(lái)實(shí)現(xiàn)對(duì)知識(shí)的更新。但是,實(shí)驗(yàn)研究表明,編輯后的模型出現(xiàn)了不同程度的性能下降,從而制約了知識(shí)編輯技術(shù)在實(shí)際場(chǎng)景中的應(yīng)用。因此,優(yōu)化知識(shí)編輯方法減輕模型損害,成為將知識(shí)編輯技術(shù)推廣到實(shí)際應(yīng)用的關(guān)鍵。


技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供了如下技術(shù)方案。

2、本發(fā)明第一方面提供了一種大語(yǔ)言模型的知識(shí)編輯方法,包括:

3、利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量;

4、利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量;

5、利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量;

6、利用偏移量更新編輯層的輸出權(quán)重;

7、利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯。

8、優(yōu)選地,所述利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量,采用如下公式:

9、;

10、;

11、其中,為第個(gè)編輯層的編輯歷史的主體向量;為第個(gè)編輯層第i個(gè)編輯子歷史的主體向量;?為編輯樣本的數(shù)量;為編輯樣本的編號(hào);為所有編輯層中的一個(gè);為第個(gè)編輯層的輸入權(quán)重;為第個(gè)編輯層的隱藏狀態(tài),即第一隱藏狀態(tài);為獲得泛化性的隨機(jī)前綴;為非線性函數(shù);為層范數(shù);為編輯主題的概率值;i為字符的位置標(biāo)記,i=1…n;n為字符的總數(shù)量。

12、優(yōu)選地,所述利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量,采用如下公式:

13、;

14、;

15、;

16、其中,為第個(gè)編輯層的編輯歷史的關(guān)系向量;為第個(gè)編輯層第i個(gè)編輯子歷史的關(guān)系向量;為服從正態(tài)分布的噪聲;為引入噪聲后的值;為編輯層的數(shù)量;為所有編輯層中的一個(gè);為第二隱藏狀態(tài),即第個(gè)編輯層的隱藏狀態(tài);i為字符的位置標(biāo)記,i=1…n;n為字符的總數(shù)量。

17、優(yōu)選地,所述利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量,采用如下公式:

18、;

19、;

20、;

21、其中,為偏移量,為第個(gè)編輯層的編輯歷史的關(guān)系向量,為第個(gè)編輯層的編輯歷史的主體向量,為編輯層的協(xié)方差矩陣,i為字符的位置標(biāo)記,n為字符的總數(shù)量,為第個(gè)編輯層第i個(gè)編輯子歷史的主體向量,為第個(gè)編輯層第i個(gè)編輯子歷史的關(guān)系向量。

22、優(yōu)選地,所述利用偏移量更新編輯層的輸出權(quán)重,采用如下公式:

23、?+?;

24、其中,為偏移量,為更新后的輸出權(quán)重,為更新前的輸出權(quán)重。

25、優(yōu)選地,利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:

26、;

27、;

28、其中,為第個(gè)編輯層的隱藏狀態(tài);表示由主題和關(guān)系組成的提示概率值;為服從正態(tài)分布的噪聲;為引入噪聲后的值;為編輯后的大語(yǔ)言模型;p為概率值函數(shù);為獲得泛化性的隨機(jī)前綴;n為編輯樣本的數(shù)量。

29、優(yōu)選地,所述利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:

30、對(duì)于文本序列,按照如下公式計(jì)算各編輯層的隱藏狀態(tài):

31、;

32、;

33、;

34、其中,為給定的文本序列;為層范數(shù);為非線性函數(shù);為大語(yǔ)言模型的內(nèi)存;為第個(gè)編輯層的輸入權(quán)重;為更新后的輸出權(quán)重;為模型的注意力機(jī)制;為第個(gè)編輯層的中間狀態(tài);為第個(gè)編輯層的隱藏狀態(tài);為第個(gè)編輯層的隱藏狀態(tài)。

35、本發(fā)明第二方面提供了一種大語(yǔ)言模型的知識(shí)編輯裝置,包括:

36、主體向量計(jì)算模塊,用于利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量;

37、關(guān)系向量計(jì)算模塊,用于利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量;

38、偏移量計(jì)算模塊,用于利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量;

39、輸出權(quán)重更新模塊,用于利用偏移量更新編輯層的輸出權(quán)重;

40、知識(shí)編輯模塊,用于利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯。

41、本發(fā)明第三方面提供了一種存儲(chǔ)器,存儲(chǔ)有多條指令,所述指令用于實(shí)現(xiàn)如第一方面所述的大語(yǔ)言模型的知識(shí)編輯方法。

42、本發(fā)明第四方面提供了一種電子設(shè)備,包括處理器和與所述處理器連接的存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如第一方面所述的大語(yǔ)言模型的知識(shí)編輯方法。

43、本發(fā)明的有益效果是:本發(fā)明提供的大語(yǔ)言模型的知識(shí)編輯方法、裝置和電子設(shè)備,該方法首先計(jì)算得到編輯歷史的主體向量、編輯歷史的關(guān)系向量,然后利用編輯歷史的主體向量、編輯歷史的關(guān)系向量以及整個(gè)模型層的協(xié)方差矩陣計(jì)算得到編輯層的輸出權(quán)重的偏移量,并利用該偏移量更新編輯層的輸出權(quán)重,最后利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯。這種方法只需要

44、存儲(chǔ)空間(為形容存儲(chǔ)空間復(fù)雜度的慣用符號(hào)),并允許將序列編輯方法轉(zhuǎn)換為批處理編輯方法,從而減少序列編輯過(guò)程中對(duì)編輯模型的損壞,實(shí)現(xiàn)了輕損害知識(shí)編輯。實(shí)驗(yàn)證明該方法突破了現(xiàn)有技術(shù)中的編輯瓶頸問(wèn)題,具有優(yōu)越的性能。



技術(shù)特征:

1.一種大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,包括:

2.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量,采用如下公式:

3.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量,采用如下公式:

4.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量,采用如下公式:

5.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用偏移量更新編輯層的輸出權(quán)重,采用如下公式:

6.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:

7.如權(quán)利要求6所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:

8.一種大語(yǔ)言模型的知識(shí)編輯裝置,其特征在于,包括:

9.一種存儲(chǔ)器,其特征在于,存儲(chǔ)有多條指令,所述指令用于實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)編輯方法。

10.一種電子設(shè)備,其特征在于,包括處理器和與所述處理器連接的存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)編輯方法。


技術(shù)總結(jié)
發(fā)明公開了一種大語(yǔ)言模型的知識(shí)編輯方法、裝置和電子設(shè)備,涉及計(jì)算模型和人工智能技術(shù)領(lǐng)域。方法包括:利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量;利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量;利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量;利用偏移量更新編輯層的輸出權(quán)重;利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯。本方法只需要存儲(chǔ)空間,并允許將序列編輯方法轉(zhuǎn)換為批處理編輯方法,從而減少序列編輯過(guò)程中對(duì)編輯模型的損壞,實(shí)現(xiàn)了輕損害知識(shí)編輯。該方法突破了現(xiàn)有技術(shù)中的編輯瓶頸問(wèn)題,具有優(yōu)越的性能。

技術(shù)研發(fā)人員:王業(yè)全,黃修勝,劉康,李響,趙軍
受保護(hù)的技術(shù)使用者:北京智源人工智能研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
任丘市| 安庆市| 都兰县| 嘉鱼县| 墨玉县| 林芝县| 涟水县| 滦南县| 巴楚县| 太白县| 肥城市| 长兴县| 磐安县| 洪洞县| 贵州省| 垣曲县| 潮安县| 平陆县| 秭归县| 搜索| 望城县| 朔州市| 东辽县| 柳林县| 于田县| 沂南县| 镇原县| 三门县| 监利县| 温州市| 托里县| 双鸭山市| 武义县| 武义县| 清水河县| 沁阳市| 达拉特旗| 茶陵县| 望谟县| 林州市| 徐水县|