本發(fā)明涉及機器學(xué)習(xí)與人工智能,尤其涉及一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著大數(shù)據(jù)和人工智能的迅猛發(fā)展,數(shù)據(jù)隱私保護的重要性日益凸顯。傳統(tǒng)的集中式機器學(xué)習(xí)方法通常需要將所有數(shù)據(jù)集中在一個中央服務(wù)器上進行訓(xùn)練,但這種做法會帶來嚴(yán)重的數(shù)據(jù)泄漏風(fēng)險,并可能違反數(shù)據(jù)隱私法律法規(guī)。為了應(yīng)對這些挑戰(zhàn),聯(lián)邦學(xué)習(xí)(federated?learning)作為一種新型的分布式機器學(xué)習(xí)方法應(yīng)運而生。聯(lián)邦學(xué)習(xí)通過在多個參與方的本地數(shù)據(jù)上進行模型訓(xùn)練,而不將數(shù)據(jù)轉(zhuǎn)移到中央服務(wù)器,從而在一定程度上保護了數(shù)據(jù)隱私。
2、聯(lián)邦學(xué)習(xí)主要分為橫向聯(lián)邦學(xué)習(xí)和縱向聯(lián)邦學(xué)習(xí)兩種模式。在橫向聯(lián)邦學(xué)習(xí)中,不同參與方的數(shù)據(jù)具有相同的特征空間,通過在各自的數(shù)據(jù)集上訓(xùn)練模型,并交換參數(shù)來構(gòu)建全局模型;而在縱向聯(lián)邦學(xué)習(xí)中,不同參與方的數(shù)據(jù)具有相同的用戶空間,但特征空間不同,這種模式下參與方通過安全多方計算等技術(shù)協(xié)同訓(xùn)練模型。然而,無論是哪種模式,聯(lián)邦學(xué)習(xí)中始終存在參與方之間交換計算結(jié)果(如梯度、模型參數(shù)等)的過程,這些交換的結(jié)果即便經(jīng)過加密處理,仍然可能被攻擊者利用,進而重建原始數(shù)據(jù)。
3、盡管聯(lián)邦學(xué)習(xí)在數(shù)據(jù)隱私保護方面取得了一定的進展,但研究表明,通過截取和分析訓(xùn)練過程中交換的梯度信息,攻擊者可能會重建本應(yīng)是私有的本地訓(xùn)練數(shù)據(jù)。這種被稱為“來自梯度的深度泄漏”(deep?leakage?from?gradients,dlg)的方法已經(jīng)證明了聯(lián)邦學(xué)習(xí)仍然面臨著數(shù)據(jù)泄漏的潛在風(fēng)險。當(dāng)前的加密技術(shù)如同態(tài)加密和差分隱私雖然能夠在一定程度上緩解這一風(fēng)險,但依然無法完全杜絕數(shù)據(jù)泄漏。
4、盡管聯(lián)邦學(xué)習(xí)及其相關(guān)的隱私保護技術(shù)在不斷發(fā)展,但尚無一種方法能夠確保數(shù)據(jù)在所有情況下都不泄漏。加密和差分隱私等技術(shù)雖然增強了數(shù)據(jù)保護的力度,但依然存在被破解的可能。此外,現(xiàn)有的方法往往在保護數(shù)據(jù)隱私的同時對模型性能產(chǎn)生一定的負(fù)面影響,如增加計算復(fù)雜度或降低模型的準(zhǔn)確性。因此,行業(yè)內(nèi)急需一種既能有效保護數(shù)據(jù)隱私,又不顯著影響模型性能的新方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì),旨在解決現(xiàn)有技術(shù)存在通過梯度信息泄露原始數(shù)據(jù)的風(fēng)險的技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法包括以下步驟:
3、獲取原始數(shù)據(jù)集,從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征,根據(jù)所述數(shù)據(jù)特征確定采樣范圍;
4、在所述采樣范圍采樣得到采樣數(shù)據(jù);
5、通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量,根據(jù)所述分組數(shù)量對所述采樣數(shù)據(jù)進行分組,得到分組數(shù)據(jù)集;
6、基于所述分組數(shù)據(jù)集確定最佳擬合分布模型,將所述分組數(shù)據(jù)集輸入所述最佳擬合分布模型中得到目標(biāo)數(shù)據(jù)集,使用所述原始數(shù)據(jù)集與所述目標(biāo)數(shù)據(jù)集進行聯(lián)邦學(xué)習(xí)模型訓(xùn)練,得到目標(biāo)全局模型。
7、可選地,基于所述分組數(shù)據(jù)集確定最佳擬合分布模型,包括:
8、選擇多個預(yù)設(shè)擬合分布模型,通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合,計算每個預(yù)設(shè)擬合分布模型的擬合度,選擇擬合度最高的預(yù)設(shè)擬合分布模型作為最佳擬合分布模型。
9、可選地,通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合,計算每個預(yù)設(shè)擬合分布模型的擬合度,包括:
10、在預(yù)設(shè)時長內(nèi)通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合,計算每個預(yù)設(shè)擬合分布模型的擬合度;
11、當(dāng)一個預(yù)設(shè)擬合分布模型的擬合時間達到所述預(yù)設(shè)時長時,結(jié)束該預(yù)設(shè)擬合分布模型的擬合過程以及擬合度計算過程。
12、可選地,根據(jù)所述數(shù)據(jù)特征確定采樣范圍,包括:
13、計算所述數(shù)據(jù)特征的最大值與最小值,將所述數(shù)據(jù)特征的最大值與最小值作為所述采樣范圍的最大值與最小值。
14、可選地,通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量,包括:
15、設(shè)定預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量,將所述預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量作為分組數(shù)量;
16、或者對所述采樣數(shù)據(jù)進行數(shù)據(jù)分布形態(tài)分析,根據(jù)數(shù)據(jù)分布結(jié)果確定數(shù)量調(diào)整比例,根據(jù)所述數(shù)量調(diào)整比例調(diào)整所述預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量,得到所述分組數(shù)量。
17、可選地,在所述采樣范圍采樣得到采樣數(shù)據(jù),包括:
18、確定預(yù)設(shè)樣本數(shù)量范圍,根據(jù)所述采樣范圍與預(yù)設(shè)樣本數(shù)量范圍對所述原始數(shù)據(jù)集進行采樣,獲取采樣數(shù)據(jù),所述采樣數(shù)據(jù)中的樣本數(shù)量在所述預(yù)設(shè)樣本數(shù)量范圍之內(nèi)。
19、可選地,從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征,包括:
20、確定目標(biāo)變量,計算所述目標(biāo)變量與所述原始數(shù)據(jù)集的每個數(shù)據(jù)特征之間的相關(guān)性;
21、設(shè)定相關(guān)性閾值,從所述原始數(shù)據(jù)集的數(shù)據(jù)特征中篩選出相關(guān)性超過所述相關(guān)性閾值的數(shù)據(jù)特征。
22、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置包括:
23、數(shù)據(jù)預(yù)處理模塊,用于獲取原始數(shù)據(jù)集,從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征,根據(jù)所述數(shù)據(jù)特征確定采樣范圍;
24、數(shù)據(jù)采樣模塊,用于在所述采樣范圍采樣得到采樣數(shù)據(jù);
25、數(shù)據(jù)分組模塊,用于通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量,根據(jù)所述分組數(shù)量對所述采樣數(shù)據(jù)進行分組,得到分組數(shù)據(jù)集;
26、模型訓(xùn)練與優(yōu)化模塊,用于基于所述分組數(shù)據(jù)集確定最佳擬合分布模型,將所述分組數(shù)據(jù)集輸入所述最佳擬合分布模型中得到目標(biāo)數(shù)據(jù)集,使用所述原始數(shù)據(jù)集與所述目標(biāo)數(shù)據(jù)集進行聯(lián)邦學(xué)習(xí)模型訓(xùn)練,得到目標(biāo)全局模型。
27、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被所述處理器執(zhí)行時實現(xiàn)如上述所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。
28、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種計算機存儲介質(zhì),所述存儲介質(zhì)上存儲有聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被處理器執(zhí)行時實現(xiàn)如上所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。
29、本發(fā)明涉及機器學(xué)習(xí)與人工智能技術(shù)領(lǐng)域,公開了一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,通過從原始數(shù)據(jù)集中提取數(shù)據(jù)特征,并根據(jù)數(shù)據(jù)特征確定采樣范圍;根據(jù)采樣范圍對原始數(shù)據(jù)集進行采樣,獲取采樣數(shù)據(jù);確定分組數(shù)量,并根據(jù)分組數(shù)量對采樣數(shù)據(jù)進行分組,形成分組數(shù)據(jù)集;基于所述分組數(shù)據(jù)集選擇最佳擬合分布模型,將所述分組數(shù)據(jù)集輸入所述最佳擬合分布模型中得到目標(biāo)數(shù)據(jù)集;使用原始數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集進行聯(lián)邦學(xué)習(xí)模型訓(xùn)練,得到目標(biāo)全局模型。本發(fā)明通過分組數(shù)據(jù)集的統(tǒng)計特性,結(jié)合最佳擬合分布模型生成與原始數(shù)據(jù)相似但不包含真實的原始數(shù)據(jù)的目標(biāo)數(shù)據(jù)集,避免了直接傳遞和暴露原始數(shù)據(jù),實現(xiàn)了隱私保護。
1.一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,其特征在于,基于所述分組數(shù)據(jù)集確定最佳擬合分布模型,包括:
3.如權(quán)利要求2所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,其特征在于,通過所述分組數(shù)據(jù)集對每個預(yù)設(shè)擬合分布模型分別進行擬合,計算每個預(yù)設(shè)擬合分布模型的擬合度,包括:
4.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,其特征在于,根據(jù)所述數(shù)據(jù)特征確定采樣范圍,包括:
5.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,其特征在于,通過預(yù)設(shè)標(biāo)準(zhǔn)數(shù)量或數(shù)據(jù)分布形態(tài)分析確定分組數(shù)量,包括:
6.如權(quán)利要求1所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,其特征在于,在所述采樣范圍采樣得到采樣數(shù)據(jù),包括:
7.如權(quán)利要求1中所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法,其特征在于,從所述原始數(shù)據(jù)集中提取數(shù)據(jù)特征,包括:
8.一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置,其特征在于,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練裝置包括:
9.一種聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備,其特征在于,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練設(shè)備包括存儲器、處理器以及存儲在所述存儲器上并可以在所述處理器上運行的聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。
10.一種計算機存儲介質(zhì),其特征在于,所述存儲介質(zhì)上存儲有聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序,所述聯(lián)邦學(xué)習(xí)模型訓(xùn)練程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的聯(lián)邦學(xué)習(xí)模型訓(xùn)練方法的步驟。