本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種隱私保護的數(shù)據(jù)統(tǒng)計分析方法、裝置、電子設(shè)備。
背景技術(shù):
1、隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的收集、共享與分析成為常態(tài),從數(shù)據(jù)中挖掘有效信息是一個重要課題。數(shù)據(jù)分布在包括不限于,居民收入,社交網(wǎng)絡(luò)好友數(shù)量等數(shù)據(jù)統(tǒng)計中有著重要作用,得到數(shù)據(jù)分布后計算平均數(shù)、分位數(shù)等統(tǒng)計信息對挖掘信息有正面作用。但是在統(tǒng)計過程中收入、社交網(wǎng)絡(luò)好友數(shù)量等信息通常包含了樣本人群的敏感信息,不加保護地收集、發(fā)布統(tǒng)計信息會侵犯用戶的隱私。如何在保護用戶個人隱私的前提下采集、分析數(shù)據(jù),獲取數(shù)據(jù)分布與統(tǒng)計信息是一個重要問題。在隱私保護方面,差分隱私(differentialprivacy,dp)被廣泛認可為隱私保護的有力標準,能夠提供無需假設(shè)攻擊者先驗知識的量化隱私保護。其中本地差分隱私(local?differential?privacy,ldp)能夠在數(shù)據(jù)收集階段提供隱私保護,研究者目前已經(jīng)提出多種滿足ldp隱私要求的數(shù)據(jù)統(tǒng)計分析技術(shù)。
2、現(xiàn)有技術(shù)中的隨機跳躍算法(random?jump?algorithm,rj)滿足ldp的rj加噪圖數(shù)據(jù)中的節(jié)點度并進行矯正后得到節(jié)點度分布。rj基于熵值變化量化隱私保護強度,基于誤差期望量化數(shù)據(jù)可用性,綜合評估隱私保護強度和數(shù)據(jù)可用性之后計算rj的跳躍步長,取得二者的均衡?,F(xiàn)有技術(shù)中的拉普拉斯(laplace)多項式函數(shù)矯正方法滿足ldp的laplace噪聲擾動任何數(shù)值型數(shù)據(jù),基于加噪后的數(shù)據(jù)計算數(shù)據(jù)的平均值、方差、偏度、峰度等統(tǒng)計信息。兩種方法都滿足ldp的隱私保護要求,涉及到一次隱私預(yù)算的消耗,并能提供高精度的數(shù)據(jù)統(tǒng)計分析??偟膩碚f,rj方法可以實現(xiàn)保護隱私的數(shù)據(jù)分布恢復(fù),laplace多項式函數(shù)矯正方法可以實現(xiàn)保護隱私的多種數(shù)據(jù)統(tǒng)計信息計算,兩者對于數(shù)據(jù)統(tǒng)計分析都具有積極意義,現(xiàn)有方法在隱私保護的數(shù)據(jù)統(tǒng)計分析上已經(jīng)取得了一定進展。
3、然而,在現(xiàn)有技術(shù)中,單獨執(zhí)行rj關(guān)注節(jié)點度的頻率估計信息,在方差、偏度、峰度等方面的信息保留不完整,導(dǎo)致有較高的統(tǒng)計信息計算誤差;單獨執(zhí)行l(wèi)aplace多項式函數(shù)矯正不能恢復(fù)數(shù)據(jù)分布;直接分別執(zhí)行rj和laplace多項式函數(shù)矯正可以得到數(shù)據(jù)分布和統(tǒng)計信息,但會消耗兩次隱私預(yù)算導(dǎo)致隱私保護強度下降。
4、不僅如此,在rj恢復(fù)節(jié)點度分布的過程中,面向的是數(shù)據(jù)分布這一細粒度任務(wù),過多噪聲導(dǎo)致的信息損失降低了分位數(shù)作為粗粒度任務(wù)的精度?,F(xiàn)有兩種方法不能對分位數(shù)進行恰當?shù)姆治觯玫礁邷蚀_性的結(jié)果。
5、也就是說,存在但不限于以下諸多問題:
6、1)孤立地分析數(shù)據(jù)分布或統(tǒng)計信息,基于恢復(fù)得到的數(shù)據(jù)分布會因為較大的噪聲產(chǎn)生信息損失,不能適用于所有統(tǒng)計信息的計算。
7、2)在ldp領(lǐng)域未充分分析例如分位數(shù)的統(tǒng)計信息,統(tǒng)計意義不夠深遠;
8、3)數(shù)據(jù)分布的精度低下。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種隱私保護的數(shù)據(jù)統(tǒng)計分析方法、裝置、電子設(shè)備,旨在解決rj方案和laplace多項式函數(shù)矯正的任務(wù)局限性,利用ldp提供量化的隱私保護,基于laplace加噪的數(shù)據(jù)計算得到數(shù)據(jù)分布、分位數(shù),并利用分位數(shù)迭代校準數(shù)據(jù)分布,充分挖掘了分位數(shù)作為統(tǒng)計量的統(tǒng)計意義,實現(xiàn)了基于數(shù)據(jù)分位數(shù)的校準數(shù)據(jù)分布,得到了更高精度的數(shù)據(jù)分布,帶來了具有高可用性與普適性的隱私保護的數(shù)據(jù)統(tǒng)計分析。
2、具體地,本發(fā)明實施例提供了以下技術(shù)方案:
3、第一方面,本發(fā)明的實施例提供一種隱私保護的數(shù)據(jù)統(tǒng)計分析方法,包括:
4、s1,獲取噪聲度,并基于限制條件,通過數(shù)據(jù)處理,從所述噪聲度的最初數(shù)據(jù)分布中選取數(shù)據(jù)點的集合,其中所述噪聲度是節(jié)點度經(jīng)過laplace加噪后得到的;
5、s2,遍歷計算所述噪聲度小于特定噪聲度的概率,以得到所述噪聲度的概率矩陣;
6、s3,以所述概率矩陣為參數(shù),基于目標向量進行彈性網(wǎng)絡(luò)回歸計算,以選取正則化項的權(quán)重;
7、s4,基于彈性網(wǎng)絡(luò)回歸計算和所述權(quán)重,確定第二原始數(shù)據(jù)分布;
8、s5,基于所述第二原始數(shù)據(jù)分布和所述概率矩陣,根據(jù)分位數(shù)預(yù)定條件,確定所述第二原始數(shù)據(jù)分布的分位數(shù);
9、s6,基于所述分位數(shù)對所述第二原始數(shù)據(jù)分布進行校準,基于校準后的第二原始數(shù)據(jù)分布重新確定分位數(shù),重復(fù)迭代以得到第三原始數(shù)據(jù)分布。
10、進一步地,該隱私保護的數(shù)據(jù)統(tǒng)計分析方法還包括:
11、所述限制條件為所述節(jié)點度大于或等于1。
12、進一步地,該隱私保護的數(shù)據(jù)統(tǒng)計分析方法還包括:
13、所述數(shù)據(jù)處理包括四舍五入。
14、進一步地,該隱私保護的數(shù)據(jù)統(tǒng)計分析方法還包括:
15、所述以所述概率矩陣為參數(shù),基于目標向量進行彈性網(wǎng)絡(luò)回歸計算,以選取正則化項的權(quán)重,包括:
16、基于任意正則化項的權(quán)重,以從所述噪聲度中恢復(fù)得到恢復(fù)后的第一原始數(shù)據(jù)分布;
17、對所述第一原始數(shù)據(jù)分布再次進行l(wèi)aplace加噪,以得到恢復(fù)后加噪的數(shù)據(jù)分布;并且
18、計算所述恢復(fù)后加噪的數(shù)據(jù)分布與所述第一原始數(shù)據(jù)分布之間的距離,選取所述距離最小的正則化項的權(quán)重。
19、進一步地,該隱私保護的數(shù)據(jù)統(tǒng)計分析方法還包括:
20、所述分位數(shù)預(yù)定條件為,噪聲分布中的分位數(shù)滿足與所述分位數(shù)相對應(yīng)的數(shù)據(jù)量經(jīng)過加噪后小于所述分位數(shù)。
21、進一步地,該隱私保護的數(shù)據(jù)統(tǒng)計分析方法還包括:
22、所述基于所述分位數(shù)對所述第二原始數(shù)據(jù)分布進行校準,基于校準后的第二原始數(shù)據(jù)分布重新確定分位數(shù),重復(fù)迭代校準以得到第三原始數(shù)據(jù)分布,包括:
23、基于不匹配挖掘、左側(cè)數(shù)據(jù)調(diào)整、右側(cè)數(shù)據(jù)調(diào)整、迭代重復(fù),得到第三原始數(shù)據(jù)分布。
24、進一步地,該隱私保護的數(shù)據(jù)統(tǒng)計分析方法還包括:
25、通過對所述第三原始數(shù)據(jù)分布執(zhí)行l(wèi)aplace多項式函數(shù)矯正,獲得基于多項式的多項數(shù)據(jù)統(tǒng)計信息。
26、第二方面,本發(fā)明的實施例還提供一種隱私保護的數(shù)據(jù)統(tǒng)計分析裝置,包括:
27、加噪選取模塊,用于獲取噪聲度,并基于限制條件,通過數(shù)據(jù)處理,從所述噪聲度的最初數(shù)據(jù)分布中選取數(shù)據(jù)點的集合,其中所述噪聲度是節(jié)點度經(jīng)過laplace加噪后得到的;
28、概率矩陣計算模塊,用于遍歷計算所述噪聲度小于特定噪聲度的概率,以得到所述噪聲度的概率矩陣;
29、權(quán)重選取模塊,用于以所述概率矩陣為參數(shù),基于目標向量進行彈性網(wǎng)絡(luò)回歸計算,以選取正則化項的權(quán)重;
30、數(shù)據(jù)分布初步恢復(fù)模塊,用于基于彈性網(wǎng)絡(luò)回歸計算和所述權(quán)重,確定第二原始數(shù)據(jù)分布;
31、分位數(shù)計算模塊,用于基于所述第二原始數(shù)據(jù)分布和所述概率矩陣,根據(jù)分位數(shù)預(yù)定條件,確定所述第二原始數(shù)據(jù)分布的分位數(shù);
32、迭代校準模塊,用于基于所述分位數(shù)對所述第二原始數(shù)據(jù)分布進行校準,基于校準后的第二原始數(shù)據(jù)分布重新確定分位數(shù),重復(fù)迭代以得到第三原始數(shù)據(jù)分布。
33、第三方面,本發(fā)明的實施例還提供一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述隱私保護的數(shù)據(jù)統(tǒng)計分析方法的步驟。
34、第四方面,本發(fā)明的實施例還提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述隱私保護的數(shù)據(jù)統(tǒng)計分析方法。
35、由上面技術(shù)方案可知,本發(fā)明實施例提供的一種隱私保護的數(shù)據(jù)統(tǒng)計分析方法、裝置、電子設(shè)備,旨在解決rj方案和laplace多項式函數(shù)矯正的任務(wù)局限性,利用ldp提供量化的隱私保護,基于laplace加噪的數(shù)據(jù)計算得到數(shù)據(jù)分布、分位數(shù),并利用分位數(shù)迭代校準數(shù)據(jù)分布,充分挖掘了分位數(shù)作為統(tǒng)計量的統(tǒng)計意義,實現(xiàn)了基于數(shù)據(jù)分位數(shù)的校準數(shù)據(jù)分布,得到了更高精度的數(shù)據(jù)分布,帶來了具有高可用性與普適性的隱私保護的數(shù)據(jù)統(tǒng)計分析。