本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種基于身份替代的隱私保護(hù)方法及系統(tǒng)。
背景技術(shù):
隱私(privacy):指?jìng)€(gè)人、組織等實(shí)體不愿意被外部獲取的信息。泄露(disclosure):不希望發(fā)布的數(shù)據(jù)或信息,被明確的發(fā)布出來(lái)或通過(guò)發(fā)布的數(shù)據(jù)可能間接推斷出準(zhǔn)確度較高的信息,當(dāng)發(fā)生以上情況時(shí)稱發(fā)生了泄露。標(biāo)識(shí)符(Identifier):一張數(shù)據(jù)記錄表中能唯一標(biāo)識(shí)一條記錄的屬性。例如原始數(shù)據(jù)表T0(如表1所示)中的病例編號(hào),通過(guò)該編號(hào),可以唯一的從所有病例中查找到該條記錄,所以病例編號(hào)為標(biāo)識(shí)符。數(shù)據(jù)表的標(biāo)識(shí)符并不唯一,例如表中的身份證號(hào)碼,也是該記錄的標(biāo)識(shí)符。
表1原始數(shù)據(jù)表T0
準(zhǔn)標(biāo)識(shí)符QI(Quasi-Identifier):準(zhǔn)標(biāo)識(shí)符是一個(gè)數(shù)據(jù)實(shí)體集的屬性集合中的一組屬性,通過(guò)該組屬性,可以將一條記錄從數(shù)據(jù)表中查詢出來(lái)。表1中性別、年齡、身高組成了準(zhǔn)標(biāo)識(shí)符,通過(guò)三個(gè)屬性的組合可以從表中查找出一條記錄。例如:select*from T0where性別=‘男’and年齡=‘25’and身高=‘175’,就可以查詢到病例編號(hào)為4533747的整條記錄獲取該條記錄的敏感屬性(疾病)為骨折。
抑制與泛化:抑制是指針對(duì)標(biāo)識(shí)符做不發(fā)布處理,因?yàn)闃?biāo)識(shí)符和某些屬性有很強(qiáng)的查詢能力,所以針對(duì)這些屬性做抑制處理是比較恰當(dāng)?shù)倪x擇。泛化指降低數(shù)據(jù)的精度,針對(duì)數(shù)值數(shù)據(jù)如年齡35可以泛化為30-40,使得原始數(shù)據(jù)包含在泛化后的結(jié)果中;針對(duì)字符串?dāng)?shù)據(jù),可采用上位詞來(lái)對(duì)數(shù)據(jù)進(jìn)行泛化。
去除標(biāo)識(shí)符后的匿名數(shù)據(jù)表T1(如表2所示),設(shè)一外部鏈接表T2(如表3所示)。
表2去除標(biāo)識(shí)符的匿名數(shù)據(jù)表T1
表3外部鏈接數(shù)據(jù)表T2
鏈接攻擊(Link-Attack):通過(guò)準(zhǔn)標(biāo)識(shí)符QI將兩張或多張數(shù)據(jù)表鏈接,提高數(shù)據(jù)表維度,挖掘數(shù)據(jù)表中的隱私信息的攻擊方式稱之為鏈接攻擊。通過(guò)對(duì)表T1和T2的準(zhǔn)標(biāo)識(shí)符的組合(性別、年齡)進(jìn)行鏈接操作可以得到連接數(shù)據(jù)表Tlink(如表4所示),在表中原本被匿名的記錄重新被標(biāo)識(shí),完全失去的匿名效果,造成了隱私泄露。這就是鏈接攻擊的基本原理。
表4通過(guò)鏈接得到的數(shù)據(jù)表Tlink
表5滿足k=2的k匿名數(shù)據(jù)表Tk
K匿名(K-Anonymity):設(shè)一張數(shù)據(jù)表RT(A1,...,An)的準(zhǔn)標(biāo)識(shí)符為QIRT,當(dāng)每個(gè)針對(duì)QIRT的查詢包含至少K個(gè)結(jié)果時(shí),稱數(shù)據(jù)表RT滿足K匿名。表Tk(如表5所示)是對(duì)T1進(jìn)行k=2的匿名處理后的發(fā)布結(jié)果。表中每?jī)蓷l記錄的準(zhǔn)標(biāo)識(shí)符完全相同。針對(duì)每組準(zhǔn)標(biāo)識(shí)符的查詢都會(huì)返回至少2條記錄,所以表Tk滿足2匿名。
背景知識(shí)(background knowledge):背景知識(shí)是攻擊者獲取的與攻擊目標(biāo)有關(guān)的信息,這些信息來(lái)源于方方面面,具有多樣性,復(fù)雜性,不可預(yù)知性等特點(diǎn),給隱私保護(hù)帶來(lái)了嚴(yán)峻的挑戰(zhàn)。
泄露風(fēng)險(xiǎn)(Risk):表示根據(jù)發(fā)布的數(shù)據(jù)和背景知識(shí)披露隱私造成隱私泄露的概率。記敏感數(shù)據(jù)為p,背景知識(shí)為b,則在背景知識(shí)b的幫助下隱私泄露風(fēng)險(xiǎn)Risk(p,b)可以表示為(其中P表示概率):Risk(p,b)=P(p|b)。
隨著科技的發(fā)展,數(shù)字化技術(shù)使得全球每時(shí)每刻都在產(chǎn)生大量的新數(shù)據(jù),據(jù)統(tǒng)計(jì)2012年全球信息總量達(dá)到了2.7ZB,據(jù)估計(jì)2015年全球信息量將達(dá)到8ZB,網(wǎng)絡(luò)化和物聯(lián)網(wǎng)技術(shù)使得全球的數(shù)據(jù)能夠在網(wǎng)絡(luò)中共享,但是隨之而來(lái)的隱私泄露的問(wèn)題也相當(dāng)嚴(yán)峻。隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,數(shù)據(jù)收集、數(shù)據(jù)共享成為時(shí)代的主流。大數(shù)據(jù)意味著價(jià)值,但是數(shù)據(jù)分析,數(shù)據(jù)挖掘等技術(shù)給隱私保護(hù)帶來(lái)了前所未有的挑戰(zhàn)。大數(shù)據(jù)未能妥善處理會(huì)對(duì)用戶的隱私造成極大的侵害。大數(shù)據(jù)隱私問(wèn)題已經(jīng)成為當(dāng)務(wù)之急,隱私問(wèn)題已經(jīng)逐漸被公眾所重視。多項(xiàng)實(shí)際案例說(shuō)明。即使無(wú)害的數(shù)據(jù)被大量收集后。也會(huì)暴露個(gè)人隱私。
目前已有方案分別有以下三種::
第一、簡(jiǎn)單抑制與泛化
具體步驟如圖1所示:首先設(shè)置泛化和抑制的相關(guān)參數(shù),設(shè)置哪些參數(shù)需要泛化哪些需要抑制;從數(shù)據(jù)源讀取數(shù)據(jù);對(duì)數(shù)據(jù)進(jìn)行泛化抑制處理;把處理后的數(shù)據(jù)添加到發(fā)布數(shù)據(jù)集中供發(fā)布使用。
然而去掉標(biāo)識(shí)符后發(fā)布數(shù)據(jù),方法簡(jiǎn)單,也在大數(shù)據(jù)到來(lái)之前起到了一定的隱私保護(hù)效果,但是隨著大數(shù)據(jù)的到來(lái),僅僅去掉標(biāo)識(shí)符已經(jīng)不能起到很好的保護(hù)作用。簡(jiǎn)單抑制與泛化方法在鏈接攻擊下基本起不到任何隱私保護(hù)作用,隱私保護(hù)強(qiáng)度太差。
第二、k匿名
k匿名方法的核心思想就是設(shè)法切斷準(zhǔn)標(biāo)識(shí)符與敏感屬性之間的一對(duì)一關(guān)系來(lái)保隱私屬性。在一個(gè)數(shù)據(jù)表中,一個(gè)記錄的準(zhǔn)標(biāo)識(shí)符至少有(k-1)個(gè)記錄的準(zhǔn)標(biāo)識(shí)符與之相同。換句話說(shuō)就是,根據(jù)準(zhǔn)標(biāo)識(shí)符的查詢結(jié)果至少包含K條記錄,在準(zhǔn)標(biāo)識(shí)符上,任意一條與其他k-1條記錄無(wú)法區(qū)分。
具體步驟如圖2所示:設(shè)置k匿名參數(shù)k;從數(shù)據(jù)源讀取數(shù)據(jù);對(duì)數(shù)據(jù)進(jìn)行聚類操作,生成等價(jià)組;判斷是否已經(jīng)滿足k匿名的要求;如果滿足要求就將數(shù)據(jù)添加到發(fā)布數(shù)據(jù)集中等待發(fā)布;如果不滿足,就對(duì)數(shù)據(jù)進(jìn)行泛化和抑制操作后,重新進(jìn)行聚類操作直至滿足k匿名要求。
k匿名最大的優(yōu)點(diǎn)在于核心思想簡(jiǎn)單便于理解,但在具體實(shí)施過(guò)程中參數(shù)的選取以及實(shí)現(xiàn)算法直接決定了處理結(jié)果的好壞,隱私保護(hù)效果好并且數(shù)據(jù)可用性高的算法需要耗費(fèi)大量的時(shí)間在等價(jià)組的選取中,效率高的算法不能同時(shí)保證保護(hù)程度和數(shù)據(jù)可用性。有時(shí)為了達(dá)到k匿名的要求,會(huì)對(duì)原始數(shù)據(jù)造成過(guò)度的抑制和泛化,嚴(yán)重影響到數(shù)據(jù)的可用性,降低了數(shù)據(jù)的價(jià)值。隱私保護(hù)強(qiáng)度較差,過(guò)度處理降低數(shù)據(jù)價(jià)值,無(wú)法抵御背景知識(shí)攻擊。
第三、差分隱私
差分意思策略的核心思想是對(duì)于一個(gè)統(tǒng)計(jì)數(shù)據(jù)庫(kù),添加一條給數(shù)據(jù)庫(kù)。數(shù)據(jù)分析者對(duì)數(shù)據(jù)庫(kù)使用統(tǒng)計(jì)函數(shù)f(比如計(jì)數(shù),求和等),獲得f(D)。此時(shí)把新添加的記錄從D中刪除得到數(shù)據(jù)庫(kù)D1,對(duì)D1使用統(tǒng)計(jì)函數(shù)f得到f(D1)。如果f(D1)和f(D)的結(jié)果非常接近,則可以斷定新添加的記錄并沒(méi)有因?yàn)閷⒆约旱男畔⑻峁┙o研究機(jī)構(gòu)而存在隱私泄露的風(fēng)險(xiǎn)。差分隱私保護(hù)就是確保任意一條記錄被添加或者刪除都不會(huì)對(duì)分析結(jié)果造成影響。
具體步驟如圖3所示:差分隱私的相關(guān)參數(shù);從數(shù)據(jù)源讀取數(shù)據(jù);根據(jù)不同的噪音機(jī)制向數(shù)據(jù)集中添加噪音;把處理后的數(shù)據(jù)添加到發(fā)布數(shù)據(jù)集中,供發(fā)布使用。
差分隱私最大的優(yōu)點(diǎn)在于有嚴(yán)謹(jǐn)?shù)睦碚撜撟C,并證明了在最嚴(yán)格的攻擊模型下,仍然能起到隱私保護(hù)的作用。但差分隱私的噪音機(jī)制使得添加的噪音與原始數(shù)據(jù)無(wú)關(guān),雖然保證了數(shù)據(jù)某些方面的統(tǒng)計(jì)特性,但這有可能造成單條數(shù)據(jù)失真比較嚴(yán)重的情況發(fā)生。這樣就無(wú)法保證在提供隱私的保護(hù)的同時(shí)維持單條數(shù)據(jù)的數(shù)據(jù)特性。單條數(shù)據(jù)處理后失真嚴(yán)重,很難維持?jǐn)?shù)據(jù)原有特性。
因此,在對(duì)數(shù)據(jù)處理時(shí),如何保護(hù)數(shù)據(jù)的隱私性的同時(shí)確保數(shù)據(jù)的可用性是目前亟需解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于身份替代的隱私保護(hù)方法,可提高處理后處理的隱私性和可用性。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種基于身份替代的隱私保護(hù)方法,所述隱私保護(hù)方法包括:
根據(jù)數(shù)據(jù)范化參數(shù)對(duì)高敏感數(shù)據(jù)的身份屬性集進(jìn)行范化處理,生成虛擬身份集;
根據(jù)所述身份屬性集和虛擬身份集,確定處理后的身份偏移量和處理后的特征偏移量;
分別判斷所述處理后的身份偏移量是否滿足身份偏移量閾值的要求以及處理后的特征偏移量是否滿足特征偏移量閾值的要求,如果滿足,則將處理后的虛擬身份集替換發(fā)布數(shù)據(jù)集中對(duì)應(yīng)的高敏感數(shù)據(jù),以進(jìn)行發(fā)布;否則,根據(jù)判斷結(jié)果調(diào)整所述數(shù)據(jù)范化參數(shù)。
可選的,所述隱私保護(hù)方法還包括:
對(duì)收集的原始數(shù)據(jù),進(jìn)行預(yù)處理,生成高敏感數(shù)據(jù)。
可選的,所述預(yù)處理的方法包括:
去除原始數(shù)據(jù)中的錯(cuò)誤信息和缺失信息。
可選的,所述確定處理后的身份偏移量和處理后的特征偏移量的方法包括:
根據(jù)所述身份屬性集V和虛擬身份集Vid確定虛擬身份vidn對(duì)應(yīng)的單屬性偏移量δn:
其中,V=v1,v2,...,vN,Vid=vid1,vid2,...,vidN,其中,n表示身份屬性vn和虛擬身份vidn的序號(hào),n=1,2,...,N;
根據(jù)所述單屬性偏移量δn確定單屬性相似度λn:
λn=1-δn------------公式(2);
根據(jù)各所述單屬性相似度確定身份相似度α:
其中ξn為身份屬性vn的影響因子;
根據(jù)所述身份相似度α計(jì)算處理后的身份偏移量Δid:
Δid=1-α------------公式(4);
根據(jù)所述身份屬性集V確定身份屬性特征向量根據(jù)所述虛擬身份集Vid確定虛擬身份
根據(jù)所述身份屬性特征向量和虛擬身份確定特征相似度β:
根據(jù)所述特征相似度β確定處理后的特征偏移量Δch:
Δch=1-β------------公式(6)。
可選的,ξ1=ξ2=...=ξN=1。
根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開(kāi)了以下技術(shù)效果:
本發(fā)明基于身份替代的隱私保護(hù)方法通過(guò)對(duì)數(shù)據(jù)處理生成一個(gè)虛擬身份,這樣可以很大程度上保存數(shù)據(jù)的原有特征;用虛擬身份將原始數(shù)據(jù)從發(fā)布數(shù)據(jù)中替換掉,原始數(shù)據(jù)不出現(xiàn)在發(fā)布數(shù)據(jù)中,原始數(shù)據(jù)雖然不出現(xiàn)在發(fā)布數(shù)據(jù)中,但是代表原始數(shù)據(jù)的特征的虛擬身份存在于發(fā)布數(shù)據(jù)中,能夠保證數(shù)據(jù)的可用性,并且提高隱私保護(hù)的強(qiáng)度。
本發(fā)明的另一目的是提供一種基于身份替代的隱私保護(hù)系統(tǒng),可提高處理后處理的隱私性和可用性。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種基于身份替代的隱私保護(hù)系統(tǒng),所述隱私保護(hù)系統(tǒng)包括:
設(shè)置模塊,用于設(shè)置數(shù)據(jù)范化參數(shù)、身份偏移量閾值及特征偏移量閾值;
范化模塊,用于根據(jù)所述數(shù)據(jù)范化參數(shù)對(duì)高敏感數(shù)據(jù)的身份屬性集進(jìn)行范化處理,生成虛擬身份集;
計(jì)算模塊,用于根據(jù)所述身份屬性集和虛擬身份集,確定處理后的身份偏移量和處理后的特征偏移量;
判斷模塊,用于分別判斷所述處理后的身份偏移量是否滿足身份偏移量閾值的要求以及處理后的特征偏移量是否滿足特征偏移量閾值的要求;
替換模塊,分別與所述判斷模塊和范化模塊連接,用于在所述判斷模塊的判斷結(jié)果為滿足時(shí),將處理后的虛擬身份集替換發(fā)布數(shù)據(jù)集中對(duì)應(yīng)的高敏感數(shù)據(jù),以進(jìn)行發(fā)布;
所述判斷模塊還與所述設(shè)置模塊連接,所述設(shè)置模塊用于在所述判斷模塊的判斷結(jié)果為不滿足時(shí),根據(jù)所述判斷結(jié)果調(diào)整所述數(shù)據(jù)范化參數(shù)。
可選的,所述隱私保護(hù)系統(tǒng)還包括:
預(yù)處理模塊,與所述范化模塊連接,用于對(duì)收集的原始數(shù)據(jù),進(jìn)行預(yù)處理,生成高敏感數(shù)據(jù),并發(fā)送至所述范化模塊。
可選的,所述預(yù)處理模塊對(duì)收集的原始數(shù)據(jù),進(jìn)行預(yù)處理具包括:去除原始數(shù)據(jù)中的錯(cuò)誤信息和缺失信息。
可選的,所述計(jì)算模塊包括:
屬性偏移量計(jì)算單元,用于根據(jù)所述身份屬性集V和虛擬身份集Vid確定虛擬身份vidn對(duì)應(yīng)的單屬性偏移量δn;
屬性相似度計(jì)算單元,用于根據(jù)所述單屬性偏移量δn確定單屬性相似度λn;
身份相似度計(jì)算單元,用于根據(jù)各所述單屬性相似度確定身份相似度α;
身份偏移量計(jì)算單元,用于根據(jù)所述身份相似度α計(jì)算處理后的身份偏移量Δid;
特征向量確定單元,用于分別根據(jù)所述身份屬性集V確定身份屬性特征向量根據(jù)所述虛擬身份集Vid確定虛擬身份
特征相似度計(jì)算單元,用于根據(jù)所述身份屬性特征向量和虛擬身份確定特征相似度β;
特征偏移量計(jì)算單元,用于根據(jù)所述特征相似度β確定處理后的特征偏移量Δch。
根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開(kāi)了以下技術(shù)效果:
本發(fā)明基于身份替代的隱私保護(hù)系統(tǒng)通過(guò)設(shè)置范化模塊、計(jì)算模塊和判斷模塊,對(duì)數(shù)據(jù)處理生成一個(gè)虛擬身份,這樣可以很大程度上保存數(shù)據(jù)的原有特征;通過(guò)設(shè)置替換模塊,用虛擬身份將原始數(shù)據(jù)從發(fā)布數(shù)據(jù)中替換掉,原始數(shù)據(jù)不出現(xiàn)在發(fā)布數(shù)據(jù)中,原始數(shù)據(jù)雖然不出現(xiàn)在發(fā)布數(shù)據(jù)中,但是代表原始數(shù)據(jù)的特征的虛擬身份存在于發(fā)布數(shù)據(jù)中,能夠保證數(shù)據(jù)的可用性,并且提高隱私保護(hù)的強(qiáng)度。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為簡(jiǎn)單抑制與范化處理流程圖;
圖2為K匿名處理流程圖;
圖3為差分隱私處理流程圖;
圖4為本發(fā)明基于身份替代的隱私保護(hù)方法的流程圖;
圖5為本發(fā)明基于身份替代的隱私保護(hù)系統(tǒng)的模塊結(jié)構(gòu)示意圖。
符號(hào)說(shuō)明:
設(shè)置模塊—1、預(yù)處理模塊—2、范化模塊—3、計(jì)算模塊—4、判斷模塊—5、替換模塊—6。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明的目的是提供一種基于身份替代的隱私保護(hù)方法,通過(guò)對(duì)數(shù)據(jù)處理生成一個(gè)虛擬身份,這樣可以很大程度上保存數(shù)據(jù)的原有特征;用虛擬身份將原始數(shù)據(jù)從發(fā)布數(shù)據(jù)中替換掉,原始數(shù)據(jù)不出現(xiàn)在發(fā)布數(shù)據(jù)中,原始數(shù)據(jù)雖然不出現(xiàn)在發(fā)布數(shù)據(jù)中,但是代表原始數(shù)據(jù)的特征的虛擬身份存在于發(fā)布數(shù)據(jù)中,能夠保證數(shù)據(jù)的可用性,并且提高隱私保護(hù)的強(qiáng)度。
其中,虛擬身份(Data identity):基于原始數(shù)據(jù)生成的替代數(shù)據(jù),帶有原始數(shù)據(jù)的特征信息,一定程度的隱藏了原始數(shù)據(jù)中的隱私信息。數(shù)據(jù)身份(Data identity):身份信息是描述一條數(shù)據(jù)區(qū)別于其他數(shù)據(jù)的信息,一條數(shù)據(jù)的所有屬性,都屬于數(shù)據(jù)身份的一部分。數(shù)據(jù)特征(Data characteristic):特征信息用于描述數(shù)據(jù)的特征,不同于數(shù)據(jù)身份,數(shù)據(jù)的特征是一個(gè)更加寬泛的概念,一條數(shù)據(jù)的身份只有一個(gè),但是該條數(shù)據(jù)的特征并不唯一。數(shù)據(jù)分析的過(guò)程大部分都要先進(jìn)行分類處理,對(duì)數(shù)據(jù)進(jìn)行分類依賴的是數(shù)據(jù)的特征而不是數(shù)據(jù)身份。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
如圖4所示,本發(fā)明基于身份替代的隱私保護(hù)方法包括:
步驟100:對(duì)收集的原始數(shù)據(jù),進(jìn)行預(yù)處理,生成高敏感數(shù)據(jù);步驟200:根據(jù)數(shù)據(jù)范化參數(shù)對(duì)高敏感數(shù)據(jù)的身份屬性集進(jìn)行范化處理,生成虛擬身份集;步驟300:根據(jù)所述身份屬性集和虛擬身份集,確定處理后的身份偏移量和處理后的特征偏移量;步驟400:分別判斷所述處理后的身份偏移量是否滿足身份偏移量閾值的要求以及處理后的特征偏移量是否滿足特征偏移量閾值的要求,如果滿足,則執(zhí)行步驟500,否則,根據(jù)判斷結(jié)果調(diào)整所述數(shù)據(jù)范化參數(shù),重復(fù)步驟200;步驟500:將處理后的虛擬身份集替換發(fā)布數(shù)據(jù)集中對(duì)應(yīng)的高敏感數(shù)據(jù),以進(jìn)行發(fā)布。
其中,在步驟100中,預(yù)處理的方法包括:去除原始數(shù)據(jù)中的錯(cuò)誤信息和缺失信息。
在步驟300中,所述確定處理后的身份偏移量和處理后的特征偏移量的方法包括:
步驟311:根據(jù)所述身份屬性集V和虛擬身份集Vid確定虛擬身份vidn對(duì)應(yīng)的單屬性偏移量δn:
其中,V=v1,v2,...,vN,Vid=vid1,vid2,...,vidN,其中,n表示身份屬性vn和虛擬身份vidn的序號(hào),n=1,2,...,N。
步驟312:根據(jù)所述單屬性偏移量δn確定單屬性相似度λn:
λn=1-δn------------公式(2)。
步驟313:根據(jù)各所述單屬性相似度確定身份相似度α:
其中ξn為身份屬性vn的影響因子。實(shí)際生活中每個(gè)屬性的變化對(duì)記錄身份和特征的影響是不同的,有的對(duì)記錄的影響比較大,有的影響比較小。為了簡(jiǎn)化,假設(shè)所有身份屬性的影響因子ξ1=ξ2=...=ξNN=1。
步驟314:根據(jù)所述身份相似度α計(jì)算處理后的身份偏移量Δid:
Δid=1-α------------公式(4)。
步驟321:根據(jù)所述身份屬性集V確定身份屬性特征向量根據(jù)所述虛擬身份集Vid確定虛擬身份
步驟322:根據(jù)所述身份屬性特征向量和虛擬身份確定特征相似度β:
步驟323:根據(jù)所述特征相似度β確定處理后的特征偏移量Δch:
Δch=1-β------------公式(6)。
在步驟400中,判斷所述處理后的身份偏移量是否滿足身份偏移量閾值的要求以及處理后的特征偏移量是否滿足特征偏移量閾值的要求,進(jìn)而根據(jù)判斷結(jié)果進(jìn)行處理,可根據(jù)需要靈活設(shè)置身份偏移量閾值及特征偏移量閾值,以控制隱私保護(hù)程度和數(shù)據(jù)可用性的高低程度,對(duì)于符合閾值范圍的添加的發(fā)布數(shù)據(jù)中,不符合閾值范圍的返回重新生成虛擬身份。
本發(fā)明基于身份替代的隱私保護(hù)方法相對(duì)于k-匿名處理方法以及差分隱私處理方法有以下優(yōu)勢(shì):
(1)抵御背景知識(shí)攻擊方面
相較于k-匿名,身份替代利用虛擬身份替代原始身份,當(dāng)攻擊者直接使用背景知識(shí)時(shí),虛擬身份可以起到對(duì)攻擊者進(jìn)行誤導(dǎo)的作用,這很大程度上降低了攻擊者獲取到目標(biāo)敏感信息的概率,如果攻擊者采用背景知識(shí)推理的方法,會(huì)增加分析的工作量,這間接降低了隱私泄露的風(fēng)險(xiǎn)。使得攻擊者無(wú)法直接使用背景知識(shí),能夠抵御一定程度的背景知識(shí)攻擊。
(2)數(shù)據(jù)可用性維持方面
差分隱私的隱私保護(hù)機(jī)制從數(shù)據(jù)的整體出發(fā),添加噪音后的數(shù)據(jù)集與原始數(shù)據(jù)集的在分布相似,但是由于添加的噪音是由不同噪音機(jī)制產(chǎn)生的隨機(jī)噪音,雖然能夠保證整體分布幾乎不變,卻無(wú)法保證單條數(shù)據(jù)的特性不變這又可能造成單條數(shù)據(jù)嚴(yán)重失真。身份替代從單條數(shù)據(jù)出發(fā),基于數(shù)據(jù)本身的特征生成虛擬身份,然后利用閾值控制生成的身份確保虛擬數(shù)據(jù)不會(huì)過(guò)度失真,假設(shè)單條數(shù)據(jù)的變化被控制在±a范圍之內(nèi),那么數(shù)據(jù)集的整體分布S1就一定在原始分布S0的±a范圍之內(nèi),這樣不僅保證單條數(shù)據(jù)的特性得以保存,也能夠保證了處理后的數(shù)據(jù)集在整體分布上與原始數(shù)據(jù)集的分布相似。
(3)算法復(fù)雜度
空間復(fù)雜度方面:身份替代算法在處理過(guò)程中需要的內(nèi)存空間為常數(shù)(只需要幾個(gè)臨時(shí)變量用于記錄各個(gè)參數(shù)).
時(shí)間復(fù)雜度方面:最壞情況下,所有生成的虛擬身份均無(wú)法通過(guò)閾值判斷,但最壞情況只有當(dāng)生成虛擬身份指定的范圍和閾值判斷條件設(shè)計(jì)不合適的時(shí)候才會(huì)發(fā)生,適當(dāng)調(diào)整這兩個(gè)參數(shù)即可防止最壞情況的發(fā)生,也可以通過(guò)設(shè)置最大循環(huán)次數(shù)m來(lái)防止發(fā)生死循環(huán)。對(duì)于一條有n個(gè)屬性的數(shù)據(jù),算法平均時(shí)間復(fù)雜度為O(n),最壞的情況下算法時(shí)間復(fù)雜度為O(mn),由于m是常數(shù),所以算法的整體時(shí)間復(fù)雜度為O(n)。
此外,本發(fā)明還提供一種基于身份替代的隱私保護(hù)系統(tǒng),可提高處理后處理的隱私性和可用性。如圖5所示,本發(fā)明基于身份替代的隱私保護(hù)系統(tǒng)包括設(shè)置模塊1、預(yù)處理模塊2、范化模塊3、計(jì)算模塊4、判斷模塊5及替換模塊6。
其中,所述設(shè)置模塊1用于設(shè)置數(shù)據(jù)范化參數(shù)、身份偏移量閾值及特征偏移量閾值;所述預(yù)處理模塊2用于對(duì)收集的原始數(shù)據(jù),進(jìn)行預(yù)處理,生成高敏感數(shù)據(jù);所述范化模塊3分別與所述預(yù)處理模塊2和設(shè)置模塊1連接,用于根據(jù)所述數(shù)據(jù)范化參數(shù)對(duì)高敏感數(shù)據(jù)的身份屬性集進(jìn)行范化處理,生成虛擬身份集;所述計(jì)算模塊4分別與所述預(yù)處理模塊2和范化模塊3連接,用于根據(jù)所述身份屬性集和虛擬身份集,確定處理后的身份偏移量和處理后的特征偏移量;所述判斷模塊5與所述計(jì)算模塊4連接,用于分別判斷所述處理后的身份偏移量是否滿足身份偏移量閾值的要求以及處理后的特征偏移量是否滿足特征偏移量閾值的要求;所述替換模塊6分別與所述判斷模塊5和范化模塊3連接,用于在所述判斷模塊5的判斷結(jié)果為滿足時(shí),將處理后的虛擬身份集替換發(fā)布數(shù)據(jù)集中對(duì)應(yīng)的高敏感數(shù)據(jù),以進(jìn)行發(fā)布;所述判斷模塊5還與所述設(shè)置模塊1連接,所述設(shè)置模塊用于在所述判斷模塊的判斷結(jié)果為不滿足時(shí),根據(jù)所述判斷結(jié)果調(diào)整所述數(shù)據(jù)范化參數(shù)。
其中,所述預(yù)處理模塊2對(duì)收集的原始數(shù)據(jù),進(jìn)行預(yù)處理具包括:去除原始數(shù)據(jù)中的錯(cuò)誤信息和缺失信息。
優(yōu)選的,所述計(jì)算模塊4包括屬性偏移量計(jì)算單元、屬性相似度計(jì)算單元、身份相似度計(jì)算單元、身份偏移量計(jì)算單元、特征向量確定單元、特征相似度計(jì)算單元及特征偏移量計(jì)算單元。
其中,所述屬性偏移量計(jì)算單元,用于根據(jù)所述身份屬性集V和虛擬身份集Vid確定虛擬身份vidn對(duì)應(yīng)的單屬性偏移量δn;所述屬性相似度計(jì)算單元,用于根據(jù)所述單屬性偏移量δn確定單屬性相似度λn;所述身份相似度計(jì)算單元,用于根據(jù)各所述單屬性相似度確定身份相似度α;所述身份偏移量計(jì)算單元,用于根據(jù)所述身份相似度α計(jì)算處理后的身份偏移量Δid;所述特征向量確定單元,用于分別根據(jù)所述身份屬性集V確定身份屬性特征向量根據(jù)所述虛擬身份集Vid確定虛擬身份所述特征相似度計(jì)算單元,用于根據(jù)所述身份屬性特征向量和虛擬身份確定特征相似度β;所述特征偏移量計(jì)算單元,用于根據(jù)所述特征相似度β確定處理后的特征偏移量Δch。
相對(duì)于現(xiàn)有技術(shù),本發(fā)明基于身份替代的隱私保護(hù)系統(tǒng)與上述基于身份替代的隱私保護(hù)方法的有益效果相同,在此不再贅述。
本說(shuō)明書(shū)中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。
本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。