聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)與流程

文檔序號：40529552發(fā)布日期：2024-12-31 13:41閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)與流程

本發(fā)明涉及機器學(xué)習(xí)與人工智能，尤其涉及一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、隨著大數(shù)據(jù)和人工智能的迅猛發(fā)展，數(shù)據(jù)隱私保護的重要性日益凸顯。傳統(tǒng)的集中式機器學(xué)習(xí)方法通常需要將所有數(shù)據(jù)集中在一個中央服務(wù)器上進行訓(xùn)練，但這種做法會帶來嚴(yán)重的數(shù)據(jù)泄漏風(fēng)險，并可能違反數(shù)據(jù)隱私法律法規(guī)。為了應(yīng)對這些挑戰(zhàn)，聯(lián)邦學(xué)習(xí)(federated?learning)作為一種新型的分布式機器學(xué)習(xí)方法應(yīng)運而生。聯(lián)邦學(xué)習(xí)通過在多個參與方的本地數(shù)據(jù)上進行模型訓(xùn)練，而不將數(shù)據(jù)轉(zhuǎn)移到中央服務(wù)器，從而在一定程度上保護了數(shù)據(jù)隱私。

2、聯(lián)邦學(xué)習(xí)主要分為橫向聯(lián)邦學(xué)習(xí)和縱向聯(lián)邦學(xué)習(xí)兩種模式。在橫向聯(lián)邦學(xué)習(xí)中，不同參與方的數(shù)據(jù)具有相同的特征空間，通過在各自的數(shù)據(jù)集上訓(xùn)練模型，并交換參數(shù)來構(gòu)建全局模型；而在縱向聯(lián)邦學(xué)習(xí)中，不同參與方的數(shù)據(jù)具有相同的用戶空間，但特征空間不同，這種模式下參與方通過安全多方計算等技術(shù)協(xié)同訓(xùn)練模型。然而，無論是哪種模式，聯(lián)邦學(xué)習(xí)中始終存在參與方之間交換計算結(jié)果(如梯度、模型參數(shù)等)的過程，這些交換的結(jié)果即便經(jīng)過加密處理，仍然可能被攻擊者利用，進而重建原始數(shù)據(jù)。

3、盡管聯(lián)邦學(xué)習(xí)在數(shù)據(jù)隱私保護方面取得了一定的進展，但研究表明，通過截取和分析訓(xùn)練過程中交換的梯度信息，攻擊者可能會重建本應(yīng)是私有的本地訓(xùn)練數(shù)據(jù)。這種被稱為“來自梯度的深度泄漏”(deep?leakage?from?gradients,dlg)的方法已經(jīng)證明了聯(lián)邦學(xué)習(xí)仍然面臨著數(shù)據(jù)泄漏的潛在風(fēng)險。當(dāng)前的加密技術(shù)如同態(tài)加密和差分隱私雖然能夠在一定程度上緩解這一風(fēng)險，但依然無法完全杜絕數(shù)據(jù)泄漏。

4、盡管聯(lián)邦學(xué)習(xí)及其相關(guān)的隱私保護技術(shù)在不斷發(fā)展，但尚無一種方法能夠確保數(shù)據(jù)在所有情況下都不泄漏。加密和差分隱私等技術(shù)雖然增強了數(shù)據(jù)保護的力度，但依然存在被破解的可能。此外，現(xiàn)有的方法往往在保護數(shù)據(jù)隱私的同時對模型性能產(chǎn)生一定的負(fù)面影響，如增加計算復(fù)雜度或降低模型的準(zhǔn)確性。因此，行業(yè)內(nèi)急需一種既能有效保護數(shù)據(jù)隱私，又不顯著影響模型性能的新方法。

技術(shù)實現(xiàn)思路

1、本發(fā)明的主要目的在于提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)，旨在解決現(xiàn)有技術(shù)存在通過梯度信息泄露原始數(shù)據(jù)的風(fēng)險的技術(shù)問題。

2、為實現(xiàn)上述目的，本發(fā)明提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法包括以下步驟：

3、獲取原始數(shù)據(jù)集，從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征，根據(jù)所述數(shù)據(jù)特征確定采樣范圍；

4、在所述采樣范圍采樣得到采樣數(shù)據(jù)；

5、通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量，根據(jù)所述分組數(shù)量對所述采樣數(shù)據(jù)進行分組，得到分組數(shù)據(jù)集；

6、基于所述分組數(shù)據(jù)集確定最佳擬合分布模型，將所述分組數(shù)據(jù)集輸入所述最佳擬合分布模型中得到目標(biāo)數(shù)據(jù)集，使用所述原始數(shù)據(jù)集與所述目標(biāo)數(shù)據(jù)集進行聯(lián)邦學(xué)習(xí)模型訓(xùn)練，得到目標(biāo)全局模型。

7、可選地，基于所述分組數(shù)據(jù)集確定最佳擬合分布模型，包括：

8、選擇多個預(yù)設(shè)擬合分布模型，通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合，計算每個預(yù)設(shè)擬合分布模型的擬合度，選擇擬合度最高的預(yù)設(shè)擬合分布模型作為最佳擬合分布模型。

9、可選地，通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合，計算每個預(yù)設(shè)擬合分布模型的擬合度，包括：

10、在預(yù)設(shè)時長內(nèi)通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合，計算每個預(yù)設(shè)擬合分布模型的擬合度；

11、當(dāng)一個預(yù)設(shè)擬合分布模型的擬合時間達到所述預(yù)設(shè)時長時，結(jié)束該預(yù)設(shè)擬合分布模型的擬合過程以及擬合度計算過程。

12、可選地，根據(jù)所述數(shù)據(jù)特征確定采樣范圍，包括：

13、計算所述數(shù)據(jù)特征的最大值與最小值，將所述數(shù)據(jù)特征的最大值與最小值作為所述采樣范圍的最大值與最小值。

14、可選地，通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量，包括：

15、設(shè)定預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量，將所述預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量作為分組數(shù)量；

16、或者對所述采樣數(shù)據(jù)進行數(shù)據(jù)分布形態(tài)分析，根據(jù)數(shù)據(jù)分布結(jié)果確定數(shù)量調(diào)整比例，根據(jù)所述數(shù)量調(diào)整比例調(diào)整所述預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量，得到所述分組數(shù)量。

17、可選地，在所述采樣范圍采樣得到采樣數(shù)據(jù)，包括：

18、確定預(yù)設(shè)樣本數(shù)量范圍，根據(jù)所述采樣范圍與預(yù)設(shè)樣本數(shù)量范圍對所述原始數(shù)據(jù)集進行采樣，獲取采樣數(shù)據(jù)，所述采樣數(shù)據(jù)中的樣本數(shù)量在所述預(yù)設(shè)樣本數(shù)量范圍之內(nèi)。

19、可選地，從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征，包括：

20、確定目標(biāo)變量，計算所述目標(biāo)變量與所述原始數(shù)據(jù)集的每個數(shù)據(jù)特征之間的相關(guān)性；

21、設(shè)定相關(guān)性閾值，從所述原始數(shù)據(jù)集的數(shù)據(jù)特征中篩選出相關(guān)性超過所述相關(guān)性閾值的數(shù)據(jù)特征。

22、進一步地，為實現(xiàn)上述目的，本發(fā)明還提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置包括：

23、數(shù)據(jù)預(yù)處理模塊，用于獲取原始數(shù)據(jù)集，從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征，根據(jù)所述數(shù)據(jù)特征確定采樣范圍；

24、數(shù)據(jù)采樣模塊，用于在所述采樣范圍采樣得到采樣數(shù)據(jù)；

25、數(shù)據(jù)分組模塊，用于通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量，根據(jù)所述分組數(shù)量對所述采樣數(shù)據(jù)進行分組，得到分組數(shù)據(jù)集；

26、模型訓(xùn)練與優(yōu)化模塊，用于基于所述分組數(shù)據(jù)集確定最佳擬合分布模型，將所述分組數(shù)據(jù)集輸入所述最佳擬合分布模型中得到目標(biāo)數(shù)據(jù)集，使用所述原始數(shù)據(jù)集與所述目標(biāo)數(shù)據(jù)集進行聯(lián)邦學(xué)習(xí)模型訓(xùn)練，得到目標(biāo)全局模型。

27、進一步地，為實現(xiàn)上述目的，本發(fā)明還提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被所述處理器執(zhí)行時實現(xiàn)如上述所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。

28、進一步地，為實現(xiàn)上述目的，本發(fā)明還提供一種計算機存儲介質(zhì)，所述存儲介質(zhì)上存儲有聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被處理器執(zhí)行時實現(xiàn)如上所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。

29、本發(fā)明涉及機器學(xué)習(xí)與人工智能技術(shù)領(lǐng)域，公開了一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，通過從原始數(shù)據(jù)集中提取數(shù)據(jù)特征，并根據(jù)數(shù)據(jù)特征確定采樣范圍；根據(jù)采樣范圍對原始數(shù)據(jù)集進行采樣，獲取采樣數(shù)據(jù)；確定分組數(shù)量，并根據(jù)分組數(shù)量對采樣數(shù)據(jù)進行分組，形成分組數(shù)據(jù)集；基于所述分組數(shù)據(jù)集選擇最佳擬合分布模型，將所述分組數(shù)據(jù)集輸入所述最佳擬合分布模型中得到目標(biāo)數(shù)據(jù)集；使用原始數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集進行聯(lián)邦學(xué)習(xí)模型訓(xùn)練，得到目標(biāo)全局模型。本發(fā)明通過分組數(shù)據(jù)集的統(tǒng)計特性，結(jié)合最佳擬合分布模型生成與原始數(shù)據(jù)相似但不包含真實的原始數(shù)據(jù)的目標(biāo)數(shù)據(jù)集，避免了直接傳遞和暴露原始數(shù)據(jù)，實現(xiàn)了隱私保護。

技術(shù)特征：

1.一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，其特征在于，基于所述分組數(shù)據(jù)集確定最佳擬合分布模型，包括：

3.如權(quán)利要求2所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，其特征在于，通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合，計算每個預(yù)設(shè)擬合分布模型的擬合度，包括：

4.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，其特征在于，根據(jù)所述數(shù)據(jù)特征確定采樣范圍，包括：

5.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，其特征在于，通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量，包括：

6.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，其特征在于，在所述采樣范圍采樣得到采樣數(shù)據(jù)，包括：

7.如權(quán)利要求1中所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，其特征在于，從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征，包括：

8.一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置，其特征在于，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置包括：

9.一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備，其特征在于，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備包括存儲器、處理器以及存儲在所述存儲器上并可以在所述處理器上運行的聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。

10.一種計算機存儲介質(zhì)，其特征在于，所述存儲介質(zhì)上存儲有聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序，所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。

技術(shù)總結(jié)
本發(fā)明涉及機器學(xué)習(xí)與人工智能技術(shù)領(lǐng)域，公開了一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法，通過從原始數(shù)據(jù)集中提取數(shù)據(jù)特征，并根據(jù)數(shù)據(jù)特征確定采樣范圍；根據(jù)采樣范圍對原始數(shù)據(jù)集進行采樣，獲取采樣數(shù)據(jù)；確定分組數(shù)量，并根據(jù)分組數(shù)量對采樣數(shù)據(jù)進行分組，形成分組數(shù)據(jù)集；基于所述分組數(shù)據(jù)集選擇最佳擬合分布模型，將所述分組數(shù)據(jù)集輸入所述最佳擬合分布模型中得到目標(biāo)數(shù)據(jù)集；使用原始數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集進行聯(lián)邦學(xué)習(xí)模型訓(xùn)練，得到目標(biāo)全局模型。本發(fā)明通過分組數(shù)據(jù)集的統(tǒng)計特性，結(jié)合最佳擬合分布模型生成與原始數(shù)據(jù)相似但不包含真實的原始數(shù)據(jù)的目標(biāo)數(shù)據(jù)集，避免了直接傳遞和暴露原始數(shù)據(jù)，實現(xiàn)了隱私保護。

技術(shù)研發(fā)人員：吳天博,王健宗
受保護的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳天博,王健宗
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)與流程

聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)與流程