本發(fā)明涉及深度學(xué)習(xí),尤其涉及一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法及裝置。
背景技術(shù):
1、機(jī)器學(xué)習(xí)模型已成為各行業(yè)不可或缺的工具,組織和用戶廣泛利用其強(qiáng)大功能。然而,這種廣泛應(yīng)用也引發(fā)了用戶隱私的重大擔(dān)憂。一些相關(guān)法規(guī)要求了在使用用戶數(shù)據(jù)之前,必須獲得用戶的明確同意,并且用戶有權(quán)隨時(shí)撤回這一同意。因此,迫切需要能夠從模型中刪除指定數(shù)據(jù)的算法,這要求撤回之前用于訓(xùn)練模型的數(shù)據(jù)。
2、然而,由于機(jī)器學(xué)習(xí)模型的黑箱特性以及數(shù)據(jù)與模型參數(shù)之間關(guān)系的復(fù)雜性,撤回已經(jīng)被模型學(xué)習(xí)的數(shù)據(jù)具有相當(dāng)大的挑戰(zhàn)性。為此,機(jī)器遺忘技術(shù)(machineunlearning,mu)逐漸成為研究熱點(diǎn),其目標(biāo)是在確保保留數(shù)據(jù)準(zhǔn)確性的同時(shí),刪除特定的遺忘數(shù)據(jù)。
3、一種直觀的機(jī)器遺忘方法是從訓(xùn)練集中刪除遺忘數(shù)據(jù)并從頭開始重新訓(xùn)練模型,這種模型通常被稱為“重新訓(xùn)練模型”或“黃金模型”。然而,隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展以及模型規(guī)模和數(shù)據(jù)量的指數(shù)級增長,這種方法帶來了巨大的計(jì)算成本,在實(shí)際應(yīng)用中難以實(shí)現(xiàn)。
4、目前,機(jī)器遺忘的研究主要分為精確遺忘和近似遺忘兩大類。精確遺忘主要致力于提高從頭再訓(xùn)練的效率,而近似遺忘則通過影響函數(shù)和知識轉(zhuǎn)移等技術(shù)實(shí)現(xiàn)更高效的近似遺忘。盡管已取得顯著進(jìn)展,機(jī)器遺忘在靈活性和有效性方面仍然面臨挑戰(zhàn),特別是在支持不同的數(shù)據(jù)訪問場景和數(shù)據(jù)粒度層次的同時(shí),如何保持最佳的遺忘性能仍需進(jìn)一步研究。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法及裝置,用以解決現(xiàn)有技術(shù)中近似遺忘難以保持最佳的遺忘性能的缺陷,實(shí)現(xiàn)一種應(yīng)用更加靈活且遺忘性能好的機(jī)器遺忘方法。
2、本發(fā)明提供一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,包括:
3、獲取表征被請求刪除數(shù)據(jù)的第一類數(shù)據(jù)和表征額外引入數(shù)據(jù)的第二類數(shù)據(jù);
4、在所述第二類數(shù)據(jù)在待遺忘模型中的表現(xiàn)與所述第一類數(shù)據(jù)在目標(biāo)模型中的表現(xiàn)之間的表現(xiàn)差異迭代至小于預(yù)設(shè)閾值的情況下,根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型,其中,迭代前的所述目標(biāo)模型由所述待遺忘模型初始化得到。
5、根據(jù)本發(fā)明提供的一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,所述獲取表征被請求刪除數(shù)據(jù)的第一類數(shù)據(jù)和表征額外引入數(shù)據(jù)的第二類數(shù)據(jù)的步驟,具體包括:
6、在所述被請求刪除數(shù)據(jù)可訪問的情況下,將所述被請求刪除數(shù)據(jù)確定為所述第一類數(shù)據(jù);否則,隨機(jī)生成與所述被請求刪除數(shù)據(jù)標(biāo)簽類別相同的一組數(shù)據(jù)作為所述第一類數(shù)據(jù);
7、在額外引入數(shù)據(jù)可訪問的情況下,將所述額外引入數(shù)據(jù)確定為所述第二類數(shù)據(jù);否則,隨機(jī)生成與所述額外引入數(shù)據(jù)標(biāo)簽類別相同的一組數(shù)據(jù)作為所述第二類數(shù)據(jù);
8、其中,所述額外引入數(shù)據(jù)與所述被請求刪除數(shù)據(jù)的標(biāo)簽類別不同。
9、根據(jù)本發(fā)明提供的一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,所述在所述第二類數(shù)據(jù)在待遺忘模型中的表現(xiàn)差異與所述第一類數(shù)據(jù)在目標(biāo)模型中的表現(xiàn)差異迭代至小于預(yù)設(shè)閾值的情況下,根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型的步驟之前,還包括:
10、確定所述第一類數(shù)據(jù)在所述目標(biāo)模型和使用所述第一類數(shù)據(jù)訓(xùn)練得到的遺忘數(shù)據(jù)模型上的第一分布差異;
11、確定所述第二類數(shù)據(jù)在所述待遺忘模型和使用所述第二類數(shù)據(jù)訓(xùn)練得到的額外數(shù)據(jù)模型上的第二分布差異;
12、根據(jù)所述第一分布差異和所述第二分布差異確定所述表現(xiàn)差異。
13、根據(jù)本發(fā)明提供的一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,所述在所述第二類數(shù)據(jù)在待遺忘模型中的表現(xiàn)差異與所述第一類數(shù)據(jù)在目標(biāo)模型中的表現(xiàn)差異迭代至小于預(yù)設(shè)閾值的情況下,根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型的步驟之前,還包括:
14、確定所述第二類數(shù)據(jù)中的訓(xùn)練集在所述目標(biāo)模型和使用所述第二類數(shù)據(jù)訓(xùn)練得到的額外數(shù)據(jù)模型上的第三分布差異;
15、確定所述第二類數(shù)據(jù)中的測試集在所述目標(biāo)模型和使用所述第二類數(shù)據(jù)訓(xùn)練得到的額外數(shù)據(jù)模型上的第四分布差異;
16、根據(jù)所述第三分布差異與所述第四分布差異之間差值的絕對值確定所述預(yù)設(shè)閾值。
17、根據(jù)本發(fā)明提供的一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,所述第一分布差異和所述第二分布差異根據(jù)kl散度確定。
18、根據(jù)本發(fā)明提供的一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,所述根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型的步驟,具體包括:
19、使用部分未被請求刪除的數(shù)據(jù)對所述當(dāng)前目標(biāo)模型進(jìn)行訓(xùn)練,將訓(xùn)練完成的模型作為所述遺忘后的模型。
20、本發(fā)明還提供一種針對深度學(xué)習(xí)模型的機(jī)器遺忘裝置,包括:
21、獲取模塊,用于獲取表征被請求刪除數(shù)據(jù)的第一類數(shù)據(jù)和表征額外引入數(shù)據(jù)的第二類數(shù)據(jù);
22、遺忘模塊,用于在所述第二類數(shù)據(jù)在待遺忘模型中的表現(xiàn)與所述第一類數(shù)據(jù)在目標(biāo)模型中的表現(xiàn)之間的表現(xiàn)差異迭代至小于預(yù)設(shè)閾值的情況下,根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型,其中,迭代前的所述目標(biāo)模型由所述待遺忘模型初始化得到。
23、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述針對深度學(xué)習(xí)模型的機(jī)器遺忘方法。
24、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述針對深度學(xué)習(xí)模型的機(jī)器遺忘方法。
25、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述針對深度學(xué)習(xí)模型的機(jī)器遺忘方法。
26、本發(fā)明提供的針對深度學(xué)習(xí)模型的機(jī)器遺忘方法及裝置,通過判斷被請求刪除數(shù)據(jù)和額外引入數(shù)據(jù)的可訪問性,獲取用于表征被請求刪除數(shù)據(jù)的第一類數(shù)據(jù)和表征額外引入數(shù)據(jù)的第二類數(shù)據(jù),基于模型對齊的準(zhǔn)則實(shí)現(xiàn)機(jī)器遺忘,提高了機(jī)器遺忘任務(wù)的靈活性、實(shí)用性和適應(yīng)性,能夠適用于不同的機(jī)器遺忘場景。
1.一種針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,其特征在于,所述獲取表征被請求刪除數(shù)據(jù)的第一類數(shù)據(jù)和表征額外引入數(shù)據(jù)的第二類數(shù)據(jù)的步驟,具體包括:
3.根據(jù)權(quán)利要求1或2所述的針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,其特征在于,所述在所述第二類數(shù)據(jù)在待遺忘模型中的表現(xiàn)差異與所述第一類數(shù)據(jù)在目標(biāo)模型中的表現(xiàn)差異迭代至小于預(yù)設(shè)閾值的情況下,根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型的步驟之前,還包括:
4.根據(jù)權(quán)利要求1或2所述的針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,其特征在于,所述在所述第二類數(shù)據(jù)在待遺忘模型中的表現(xiàn)差異與所述第一類數(shù)據(jù)在目標(biāo)模型中的表現(xiàn)差異迭代至小于預(yù)設(shè)閾值的情況下,根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型的步驟之前,還包括:
5.根據(jù)權(quán)利要求3所述的針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,其特征在于,所述第一分布差異和所述第二分布差異根據(jù)kl散度確定。
6.根據(jù)權(quán)利要求1或2所述的針對深度學(xué)習(xí)模型的機(jī)器遺忘方法,其特征在于,所述根據(jù)當(dāng)前目標(biāo)模型確定遺忘后的模型的步驟,具體包括:
7.一種針對深度學(xué)習(xí)模型的機(jī)器遺忘裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述針對深度學(xué)習(xí)模型的機(jī)器遺忘方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述針對深度學(xué)習(xí)模型的機(jī)器遺忘方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述針對深度學(xué)習(xí)模型的機(jī)器遺忘方法。