本發(fā)明涉及計(jì)算模型和人工智能,尤其涉及一種大語(yǔ)言模型的知識(shí)編輯方法、裝置和電子設(shè)備。
背景技術(shù):
1、大語(yǔ)言模型(llms)在各種自然語(yǔ)言處理任務(wù)中表現(xiàn)出了卓越的性能。然而,在llms中,錯(cuò)誤或過(guò)時(shí)的知識(shí)是不可避免的。直接微調(diào)大語(yǔ)言模型更新知識(shí)需要大量的計(jì)算資源,這使得它在經(jīng)濟(jì)上難以實(shí)現(xiàn),并限制了它作為首選方法去實(shí)現(xiàn)知識(shí)更新。知識(shí)編輯技術(shù)通過(guò)更新模型內(nèi)部的參數(shù)來(lái)實(shí)現(xiàn)對(duì)知識(shí)的更新。但是,實(shí)驗(yàn)研究表明,編輯后的模型出現(xiàn)了不同程度的性能下降,從而制約了知識(shí)編輯技術(shù)在實(shí)際場(chǎng)景中的應(yīng)用。因此,優(yōu)化知識(shí)編輯方法減輕模型損害,成為將知識(shí)編輯技術(shù)推廣到實(shí)際應(yīng)用的關(guān)鍵。
技術(shù)實(shí)現(xiàn)思路
1、為了解決現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供了如下技術(shù)方案。
2、本發(fā)明第一方面提供了一種大語(yǔ)言模型的知識(shí)編輯方法,包括:
3、利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量;
4、利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量;
5、利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量;
6、利用偏移量更新編輯層的輸出權(quán)重;
7、利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯。
8、優(yōu)選地,所述利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量,采用如下公式:
9、;
10、;
11、其中,為第個(gè)編輯層的編輯歷史的主體向量;為第個(gè)編輯層第i個(gè)編輯子歷史的主體向量;?為編輯樣本的數(shù)量;為編輯樣本的編號(hào);為所有編輯層中的一個(gè);為第個(gè)編輯層的輸入權(quán)重;為第個(gè)編輯層的隱藏狀態(tài),即第一隱藏狀態(tài);為獲得泛化性的隨機(jī)前綴;為非線性函數(shù);為層范數(shù);為編輯主題的概率值;i為字符的位置標(biāo)記,i=1…n;n為字符的總數(shù)量。
12、優(yōu)選地,所述利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量,采用如下公式:
13、;
14、;
15、;
16、其中,為第個(gè)編輯層的編輯歷史的關(guān)系向量;為第個(gè)編輯層第i個(gè)編輯子歷史的關(guān)系向量;為服從正態(tài)分布的噪聲;為引入噪聲后的值;為編輯層的數(shù)量;為所有編輯層中的一個(gè);為第二隱藏狀態(tài),即第個(gè)編輯層的隱藏狀態(tài);i為字符的位置標(biāo)記,i=1…n;n為字符的總數(shù)量。
17、優(yōu)選地,所述利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量,采用如下公式:
18、;
19、;
20、;
21、其中,為偏移量,為第個(gè)編輯層的編輯歷史的關(guān)系向量,為第個(gè)編輯層的編輯歷史的主體向量,為編輯層的協(xié)方差矩陣,i為字符的位置標(biāo)記,n為字符的總數(shù)量,為第個(gè)編輯層第i個(gè)編輯子歷史的主體向量,為第個(gè)編輯層第i個(gè)編輯子歷史的關(guān)系向量。
22、優(yōu)選地,所述利用偏移量更新編輯層的輸出權(quán)重,采用如下公式:
23、?+?;
24、其中,為偏移量,為更新后的輸出權(quán)重,為更新前的輸出權(quán)重。
25、優(yōu)選地,利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:
26、;
27、;
28、其中,為第個(gè)編輯層的隱藏狀態(tài);表示由主題和關(guān)系組成的提示概率值;為服從正態(tài)分布的噪聲;為引入噪聲后的值;為編輯后的大語(yǔ)言模型;p為概率值函數(shù);為獲得泛化性的隨機(jī)前綴;n為編輯樣本的數(shù)量。
29、優(yōu)選地,所述利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:
30、對(duì)于文本序列,按照如下公式計(jì)算各編輯層的隱藏狀態(tài):
31、;
32、;
33、;
34、其中,為給定的文本序列;為層范數(shù);為非線性函數(shù);為大語(yǔ)言模型的內(nèi)存;為第個(gè)編輯層的輸入權(quán)重;為更新后的輸出權(quán)重;為模型的注意力機(jī)制;為第個(gè)編輯層的中間狀態(tài);為第個(gè)編輯層的隱藏狀態(tài);為第個(gè)編輯層的隱藏狀態(tài)。
35、本發(fā)明第二方面提供了一種大語(yǔ)言模型的知識(shí)編輯裝置,包括:
36、主體向量計(jì)算模塊,用于利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量;
37、關(guān)系向量計(jì)算模塊,用于利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量;
38、偏移量計(jì)算模塊,用于利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量;
39、輸出權(quán)重更新模塊,用于利用偏移量更新編輯層的輸出權(quán)重;
40、知識(shí)編輯模塊,用于利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯。
41、本發(fā)明第三方面提供了一種存儲(chǔ)器,存儲(chǔ)有多條指令,所述指令用于實(shí)現(xiàn)如第一方面所述的大語(yǔ)言模型的知識(shí)編輯方法。
42、本發(fā)明第四方面提供了一種電子設(shè)備,包括處理器和與所述處理器連接的存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如第一方面所述的大語(yǔ)言模型的知識(shí)編輯方法。
43、本發(fā)明的有益效果是:本發(fā)明提供的大語(yǔ)言模型的知識(shí)編輯方法、裝置和電子設(shè)備,該方法首先計(jì)算得到編輯歷史的主體向量、編輯歷史的關(guān)系向量,然后利用編輯歷史的主體向量、編輯歷史的關(guān)系向量以及整個(gè)模型層的協(xié)方差矩陣計(jì)算得到編輯層的輸出權(quán)重的偏移量,并利用該偏移量更新編輯層的輸出權(quán)重,最后利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯。這種方法只需要
44、存儲(chǔ)空間(為形容存儲(chǔ)空間復(fù)雜度的慣用符號(hào)),并允許將序列編輯方法轉(zhuǎn)換為批處理編輯方法,從而減少序列編輯過(guò)程中對(duì)編輯模型的損壞,實(shí)現(xiàn)了輕損害知識(shí)編輯。實(shí)驗(yàn)證明該方法突破了現(xiàn)有技術(shù)中的編輯瓶頸問(wèn)題,具有優(yōu)越的性能。
1.一種大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,包括:
2.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用隨機(jī)前綴和第一隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的主體向量,采用如下公式:
3.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用第二隱藏狀態(tài)計(jì)算大語(yǔ)言模型各編輯層的編輯歷史的關(guān)系向量,采用如下公式:
4.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用編輯歷史的主體向量、編輯歷史的關(guān)系向量和整個(gè)模型層的協(xié)方差矩陣計(jì)算編輯層的輸出權(quán)重的偏移量,采用如下公式:
5.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用偏移量更新編輯層的輸出權(quán)重,采用如下公式:
6.如權(quán)利要求1所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:
7.如權(quán)利要求6所述的大語(yǔ)言模型的知識(shí)編輯方法,其特征在于,所述利用更新的編輯層的輸出權(quán)重對(duì)大語(yǔ)言模型的編輯層進(jìn)行知識(shí)編輯包括:
8.一種大語(yǔ)言模型的知識(shí)編輯裝置,其特征在于,包括:
9.一種存儲(chǔ)器,其特征在于,存儲(chǔ)有多條指令,所述指令用于實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)編輯方法。
10.一種電子設(shè)備,其特征在于,包括處理器和與所述處理器連接的存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令,所述指令可被所述處理器加載并執(zhí)行,以使所述處理器能夠執(zhí)行如權(quán)利要求1-7任一項(xiàng)所述的大語(yǔ)言模型的知識(shí)編輯方法。