社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的混合隨機(jī)化隱私保護(hù)方法
【專利摘要】社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的混合隨機(jī)化隱私保護(hù)方法,是把表示社交網(wǎng)絡(luò)數(shù)據(jù)的無向圖G(V,E)的頂點(diǎn)V,以k-匿名為條件,按照度的數(shù)量分為兩個(gè)集合Vk和Vr,Vk中包含度的數(shù)量滿足k-匿名條件的點(diǎn);Vr中包含不滿足k-匿名條件的點(diǎn);對Vk集合中的點(diǎn)不做處理;對Vr集合中的點(diǎn)進(jìn)行隨機(jī)化保護(hù)處理。該方法將現(xiàn)有的k-匿名法和隨機(jī)化的方法結(jié)合,不改變社交網(wǎng)絡(luò)用戶數(shù)目,對提供給第三方的數(shù)據(jù)的性質(zhì)和質(zhì)量影響較小,處理過程簡單,速度快。經(jīng)過處理后,社交網(wǎng)絡(luò)數(shù)據(jù)中每個(gè)個(gè)人數(shù)據(jù)會處于兩種保護(hù)狀態(tài)之一:度屬性沒有改變,處于至少k個(gè)和他的度屬性相同的其他個(gè)人之中;或度屬性改變。這種保護(hù)能夠阻止采用結(jié)構(gòu)背景知識的重定位攻擊,滿足社交網(wǎng)絡(luò)用戶對隱私安全的需求。
【專利說明】社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的混合隨機(jī)化隱私保護(hù)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)安全領(lǐng)域,具體是網(wǎng)絡(luò)數(shù)據(jù)中隱私的保護(hù)技術(shù),更具體是社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的混合隨機(jī)化隱私保護(hù)方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲入到我們生活的各個(gè)方面。社會網(wǎng)絡(luò)服務(wù)如:新浪微博、QQ空間、人人網(wǎng)、淘寶網(wǎng)、LinkedIn和Google+等大量出現(xiàn)。社會網(wǎng)絡(luò)的出現(xiàn),改變了我們同朋友的聯(lián)系方式,拓展了我們的交際范圍,提供了更加直接快速的信息交流和傳播方式。隨著智能手機(jī)、平板及可穿戴智能設(shè)備的普及,人們在線的時(shí)間越來越多,提供給網(wǎng)絡(luò)的數(shù)據(jù)越來越詳細(xì),互聯(lián)網(wǎng)將逐步和現(xiàn)實(shí)世界產(chǎn)生融合。使用這些社會網(wǎng)絡(luò)服務(wù)給我們生活帶來極大的便利,同時(shí)也產(chǎn)生了大量的有關(guān)我們個(gè)人信息的數(shù)據(jù)如年齡、性另O、愛好、照片、位置等,其中有些是我們不想讓他人知道的個(gè)人隱私的信息。但是這些數(shù)據(jù)是存放在社會網(wǎng)絡(luò)服務(wù)提供商處的,由于科研、商業(yè),或是政府的要求,服務(wù)商會把他們所收集的數(shù)據(jù)發(fā)布給第三方使用。如果發(fā)布數(shù)據(jù)不當(dāng),將會泄露用戶的個(gè)人隱私信息。如果個(gè)人隱私被泄露,將會帶來不可估量的損失。因此迫切需要一種安全的社會網(wǎng)絡(luò)數(shù)據(jù)發(fā)布方法,在保護(hù)個(gè)人隱私數(shù)據(jù)安全的情況下,盡可能大的保持原始數(shù)據(jù)的可用性,滿足第三方對社會網(wǎng)絡(luò)數(shù)據(jù)的分析研究和其他方面的需求。
[0003]社交網(wǎng)絡(luò)數(shù)據(jù),由于其關(guān)系復(fù)雜性,一般用圖數(shù)據(jù)結(jié)構(gòu)表示。對這些數(shù)據(jù)發(fā)布前需進(jìn)行隱私保護(hù)處理,目前主要使用k-匿名的隱私保護(hù)方法、以k-匿名為基礎(chǔ)的1-不同、t-接近等方法。這些方法其核心思想都是把個(gè)體隱藏在群體中,以不可區(qū)分性來保護(hù)個(gè)體的隱私。這些已有方法為了隱藏個(gè)體標(biāo)識信息,通過添加虛擬用戶,虛擬關(guān)系等方式對原始數(shù)據(jù)進(jìn)行更改,對原始數(shù)據(jù)改變較大,對數(shù)據(jù)的可用性有較大影響。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的混合隨機(jī)化隱私保護(hù)方法。
[0005]本發(fā)明是針對社交網(wǎng)絡(luò)圖數(shù)據(jù)的結(jié)構(gòu)屬性進(jìn)行保護(hù)的。社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布前,首先進(jìn)行初步匿名工作,去掉姓名,身份證等顯式的標(biāo)識符并分離一般屬性和結(jié)構(gòu)屬性,一般屬性如年齡、愛好、地區(qū)等采用二維表表示,結(jié)構(gòu)屬性采用無向圖G (V,E)表示,他們之間的聯(lián)系用重新編號的標(biāo)識符表示,其中V是頂點(diǎn)的有限集合,表示社交網(wǎng)絡(luò)中的個(gè)人或其他實(shí)體;E是V上的二元關(guān)系,即用戶或?qū)嶓w間的關(guān)系,如朋友、同學(xué)、共同愛好等關(guān)系,也叫做一條邊,每個(gè)頂點(diǎn)的度表示與該頂點(diǎn)相關(guān)的二元關(guān)系的個(gè)數(shù),即邊的數(shù)量。經(jīng)過上述處理的數(shù)據(jù),能夠有效防止攻擊者使用背景知識,如某個(gè)用戶朋友列表,對這個(gè)用戶在發(fā)布的數(shù)據(jù)中重新定位。
[0006]本發(fā)明的方法的具體步驟如下:
I)把無向圖G (V, E)的頂點(diǎn)V,以是否滿足k-匿名為條件分為兩個(gè)集合Vk和\,\中存放滿足k-匿名條件的點(diǎn)中存放不滿足k-匿名條件的點(diǎn); 2)對Vk,由于滿足k-匿名不需要繼續(xù)處理;對Vr集合中的點(diǎn)進(jìn)行下述處理:
3)隨機(jī)選擇重復(fù)次數(shù)η;
4)對于Vr中點(diǎn),隨機(jī)的(等概率的)在原來沒有邊的兩點(diǎn)間添加m條邊,然后再隨機(jī)在原來有邊的頂點(diǎn)間去掉m條邊。
[0007]5 )依次檢測Vr中點(diǎn)的度,刪除Vr中度有變化的點(diǎn);
6)n=n_l
7)如果重復(fù)次數(shù)η大于零且Vr非空,轉(zhuǎn)到步驟4);否則轉(zhuǎn)到步驟8)。
[0008]8)判讀Vr中的點(diǎn)是否為奇數(shù),如果為奇數(shù)轉(zhuǎn)步驟9),否則轉(zhuǎn)步驟10)。
[0009]9)在Vr中隨機(jī)選擇兩點(diǎn),如果他們間有邊就去掉這條邊,否則在他們之間增加一條邊。在Vr中移除這兩點(diǎn)中的一點(diǎn)。
[0010]10)對于Vr中的點(diǎn),隨機(jī)選擇兩兩組合,如果他們間原本有邊就去掉邊;原本沒有邊添加一條邊;
11)結(jié)束;
在步驟I ),k-匿名條件的k值范圍為2?20,,由用戶根據(jù)需求選擇,優(yōu)選為10。
[0011]在步驟3),隨機(jī)數(shù)η范圍為10。
[0012]在步驟4),m為:l(Tl00%Vr中包含的點(diǎn),優(yōu)選為:2(T40%Vr中包含的點(diǎn)。
[0013]本發(fā)明的方法是將已有技術(shù)中的k-匿名法和改變度屬性的方法進(jìn)行結(jié)合,并對原有的改變度屬性的方法進(jìn)行改進(jìn),不會影響提供給第三方的數(shù)據(jù)的性質(zhì)和質(zhì)量,也不改變數(shù)量,處理過程簡單,速度快。
[0014]經(jīng)過上述處理后,將數(shù)據(jù)進(jìn)行發(fā)布或提供給第三方使用,這樣,社交網(wǎng)絡(luò)數(shù)據(jù)中每個(gè)個(gè)人數(shù)據(jù)就會處于兩種保護(hù)狀態(tài)之一:1.度屬性沒有改變,處于至少k個(gè)和他的度屬性相同的其他個(gè)人之中;2.度屬性改變。
[0015]處于狀態(tài)I的個(gè)人數(shù)據(jù),攻擊者根據(jù)背景信息只能定位到至少k個(gè)體;
處于狀態(tài)2的個(gè)人數(shù)據(jù),攻擊者根據(jù)背景信息不能夠確定攻擊目標(biāo)。
[0016]本方法能夠很好的保護(hù)社交網(wǎng)絡(luò)參與者的個(gè)人隱私信息,這種保護(hù)能夠阻止采用結(jié)構(gòu)背景知識的重定位攻擊。本發(fā)明結(jié)合已有技術(shù)的方法思想,在個(gè)體標(biāo)識信息隱藏過程中結(jié)合隨機(jī)換的概率思想,規(guī)避掉個(gè)體標(biāo)識信息必須成組的復(fù)雜問題,巧妙而有效的的解決了社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的隱私保護(hù)問題。
[0017]【專利附圖】
【附圖說明】
圖1是本發(fā)明方法的具體流程圖。
【具體實(shí)施方式】
[0018]測試數(shù)據(jù)集采用Facebook的朋友圈數(shù)據(jù)集,下載地址:http://snap.Stanford,edu/data/。數(shù)據(jù)集經(jīng)過處理,包含534位有朋友的用戶和3466條朋友關(guān)系。
[0019]參照圖1,按照本發(fā)明的方法,首先進(jìn)行初步匿名工作,去掉顯式的標(biāo)識符如姓名,身份證等,并分離一般屬性和結(jié)構(gòu)屬性,一般屬性如年齡、愛好、地區(qū)等采用二維表表示,結(jié)構(gòu)屬性采用無向圖G (V,E)表示,他們之間的聯(lián)系用重新編號的標(biāo)識符表示,其中V是頂點(diǎn)的有限集合,表示社交網(wǎng)絡(luò)中的個(gè)人或其他實(shí)體;E是V上的二元關(guān)系,即用戶或?qū)嶓w間的關(guān)系,如朋友、同學(xué)、共同愛好等關(guān)系,也叫做一條邊,每個(gè)頂點(diǎn)的度表示與該頂點(diǎn)相關(guān)的二元關(guān)系的個(gè)數(shù),即邊的數(shù)量。
[0020]然后,選擇k=5,完成步驟I)后Vk中包含480個(gè)點(diǎn),Vr中包含54個(gè)點(diǎn)。
[0021]然后,對Vk中的點(diǎn)不作處理中的點(diǎn)進(jìn)行下述處理:
在步驟3)隨機(jī)選擇重復(fù)次數(shù)η如η=1,
步驟4)中取m為50% Vr中包含的點(diǎn),則m為27,
完成步驟5)有45個(gè)點(diǎn)的度發(fā)生改變,9個(gè)點(diǎn)的度沒有變,刪除這45個(gè)度有變化的點(diǎn);步驟6) η的值減少1,變?yōu)?,由于η不大于O (等于0),按照步驟7)轉(zhuǎn)到步驟8),由于Vr中的點(diǎn)是9,為奇數(shù),所以轉(zhuǎn)到步驟9),在這9個(gè)點(diǎn)中,隨機(jī)選擇兩點(diǎn),如果它們間有邊就去掉這條邊,否則在他們之間增加一條邊,之后在移除這兩點(diǎn)中的一點(diǎn);Vr中頂點(diǎn)數(shù)又減少了一個(gè),變成8個(gè),為偶數(shù)。
[0022]之后按照步驟10)隨機(jī)選擇兩兩組合,如果它們間原本有邊就去掉邊,原本沒有邊添加一條邊,完成整個(gè)處理過程。
【權(quán)利要求】
1.社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的混合隨機(jī)化隱私保護(hù)方法,其特征在于:首先進(jìn)行數(shù)據(jù)預(yù)處理,并采用無向圖G (V1E)表示數(shù)據(jù)的結(jié)構(gòu)屬性,然后按照下述具體步驟: 1)把無向圖G(V, E)的頂點(diǎn)V,以是否滿足k-匿名為條件分為兩個(gè)集合Vk和\,\中存放滿足k-匿名條件的點(diǎn)中存放不滿足k-匿名條件的點(diǎn); 2)對Vk中的點(diǎn)不作處理;對Vr中的點(diǎn)進(jìn)行下述處理: 3)隨機(jī)選擇重復(fù)次數(shù)η; 4)對于Vr中點(diǎn),隨機(jī)地在原來沒有邊的兩點(diǎn)間添加m條邊,然后再隨機(jī)在原來有邊的頂點(diǎn)間去掉m條邊; 5)依次檢測Vr中點(diǎn)的度,刪除Vr中度有變化的點(diǎn);
6)n=n_l; 7)如果重復(fù)次數(shù)η大于零且Vr非空,轉(zhuǎn)到步驟4);否則轉(zhuǎn)到步驟8); 8)判讀Vr中的點(diǎn)是否為奇數(shù),如果為奇數(shù)轉(zhuǎn)步驟9),否則轉(zhuǎn)步驟10); 9)在Vr中隨機(jī)選擇兩點(diǎn),如果它們間有邊就去掉這條邊,否則在他們之間增加一條邊;之后在Vr中移除這兩點(diǎn)中的一點(diǎn); 10)隨機(jī)選擇兩兩組合,如果它們間原本有邊就去掉邊;原本沒有邊添加一條邊; 11)結(jié)束。
2.根據(jù)權(quán)利要求1所述的隱私保護(hù)方法,其特征在于:所述數(shù)據(jù)預(yù)處理,首先進(jìn)行初步匿名工作,去掉顯式的標(biāo)識符如姓名、身份證,并分離一般屬性和結(jié)構(gòu)屬性; 所述一般屬性如年齡、愛好和地區(qū)采用二維表表示; 所述結(jié)構(gòu)屬性采用無向圖G (V,Ε)表示,他們之間的聯(lián)系用重新編號的標(biāo)識符表示,其中V是頂點(diǎn)的有限集合,表示社交網(wǎng)絡(luò)中的個(gè)人或其他實(shí)體;Ε是V上的二元關(guān)系,即用戶或?qū)嶓w間的關(guān)系,如朋友關(guān)系、同學(xué)關(guān)系或共同愛好關(guān)系,也叫做一條邊,每個(gè)頂點(diǎn)的度表示與該頂點(diǎn)相關(guān)的二元關(guān)系的個(gè)數(shù),即邊的數(shù)量。
3.根據(jù)權(quán)利要求1所述的隱私保護(hù)方法,其特征在于:在步驟1),k-匿名條件的k值范圍為2~20。
4.根據(jù)權(quán)利要求1或所述的隱私保護(hù)方法,其特征在于:在步驟1),k-匿名條件的k值范圍為10。
5.根據(jù)權(quán)利要求1所述的隱私保護(hù)方法,其特征在于:在步驟3),隨機(jī)數(shù)η范圍為:1~10。
6.根據(jù)權(quán)利要求1所述的隱私保護(hù)方法,其特征在于:在步驟4),m為:10-100%1中包含的點(diǎn)。
7.根據(jù)權(quán)利要求1或6所述的隱私保護(hù)方法,其特征在于:在步驟4),m為:2(T40%V,中包含的點(diǎn)。
【文檔編號】H04L29/06GK103902924SQ201410154786
【公開日】2014年7月2日 申請日期:2014年4月17日 優(yōu)先權(quán)日:2014年4月17日
【發(fā)明者】劉鵬, 李先賢, 龍軍 申請人:廣西師范大學(xué)