基于分層隨機(jī)圖的在線社會網(wǎng)絡(luò)差分隱私保護(hù)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及在線社會網(wǎng)絡(luò)關(guān)鍵結(jié)構(gòu)的敏感信息保護(hù)技術(shù),具體涉及一種基于分層 隨機(jī)圖的在線社會網(wǎng)絡(luò)差分隱私保護(hù)方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與在線社會網(wǎng)絡(luò)服務(wù)的普及,數(shù)據(jù)的共享變得越來越便 捷,由此引發(fā)了人們對自身隱私泄露的擔(dān)憂。近年來,由數(shù)據(jù)泄露引發(fā)的社會恐慌在國內(nèi) 外時有發(fā)生,如美國著名互聯(lián)網(wǎng)公司美國在線(A0L)泄露了大量用戶的網(wǎng)絡(luò)搜索記錄,有 人根據(jù)這些搜索記錄找出了對應(yīng)用戶的真實身份,使得大量注冊用戶的上網(wǎng)習(xí)慣被意外曝 光。由該類事件可知,保護(hù)個人隱私遠(yuǎn)遠(yuǎn)不止隱藏數(shù)據(jù)記錄中的敏感屬性那么簡單,還要阻 止敏感屬性值與特定的實體或個人關(guān)聯(lián)起來,以防止由非敏感屬性信息推測出個人的真實 身份。近十幾年來數(shù)據(jù)挖掘技術(shù)的高速發(fā)展,也為隱私信息的保護(hù)帶來了新的挑戰(zhàn)。因為 數(shù)據(jù)挖掘的對象往往是海量數(shù)據(jù),同時對海量數(shù)據(jù)進(jìn)行訪問,使得身份認(rèn)證、權(quán)限控制等傳 統(tǒng)的數(shù)據(jù)庫安全措施不能有效進(jìn)行隱私保護(hù)。因為這些手段只能防止敏感屬性被用戶直接 獲取,但間接推理獲得敏感信息的行為很難預(yù)防。
[0003] 2006年研究者首次提出差分隱私(Differential Privacy)的概念。差分隱私概 念源于一個樸素的觀察:當(dāng)數(shù)據(jù)集D中包含個體A時,對數(shù)據(jù)集D進(jìn)行任意查詢操作f (如 計數(shù)、求和、平均值和中位數(shù)等)所得到的結(jié)果為f(D),如果將個體A的信息從數(shù)據(jù)集D中 刪除后進(jìn)行查詢得到的結(jié)果任然為f(D),則可以認(rèn)為,個體A的信息并沒有因為被包含在 數(shù)據(jù)集D中而產(chǎn)生額外的風(fēng)險。差分隱私保護(hù)就是要保證任一個體在數(shù)據(jù)集中或者不在數(shù) 據(jù)集中時,對最終發(fā)布的結(jié)果沒有影響。
[0004] 現(xiàn)有的隱私保護(hù)技術(shù)可大致分為:數(shù)據(jù)失真、數(shù)據(jù)加密、限制發(fā)布和泛化匿名等。 但許多隱私保護(hù)技術(shù)融合了多種技術(shù),如k-匿名和ι-diversity是基于限制發(fā)布的泛化技 術(shù)中比較有代表性的兩種隱私保護(hù)方法。k-匿名可以保證任意一條記錄與另外的k-Ι條記 錄不可區(qū)分。Ι-diversity在基于k-匿名的基礎(chǔ)上保證每個等價類中的敏感屬性至少有1 個值,避免一個等價類中敏感屬性取值單一,使得隱私泄露風(fēng)險不超過1/1。這些隱私保護(hù) 方法的不足之處在于沒有嚴(yán)格定義攻擊模型,對攻擊者所具有的背景知識未能作出定量化 分析。
[0005] 差分隱私保護(hù)與傳統(tǒng)隱私保護(hù)方法的不同之處在于,它定義了一個極為嚴(yán)格的攻 擊模型,并對隱私泄露風(fēng)險給出了嚴(yán)謹(jǐn)、定量化的表示和證明。差分隱私保護(hù)在大大降低隱 私泄露風(fēng)險的同時,極大地保證了數(shù)據(jù)的可用性。差分隱私保護(hù)方法的最大優(yōu)點是,雖然基 于數(shù)據(jù)失真技術(shù),但所加入的噪聲量與數(shù)據(jù)集大小無關(guān),因此對于大型數(shù)據(jù)集,僅通過添加 極少量的噪聲就能達(dá)到高級別的隱私保護(hù)。
[0006] 在線社會網(wǎng)絡(luò)的發(fā)展帶來海量的網(wǎng)絡(luò)數(shù)據(jù),這些網(wǎng)絡(luò)數(shù)據(jù)中往往包含大量涉及個 人隱私的敏感信息。凈化網(wǎng)絡(luò)是將敏感信息從原始網(wǎng)絡(luò)數(shù)據(jù)中移除或者對敏感信息進(jìn)行加 密形成的網(wǎng)絡(luò)。而差分隱私保護(hù)技術(shù)是基于數(shù)據(jù)失真的隱私保護(hù)技術(shù),采用添加符合一定 概率分布的隨機(jī)噪音使敏感數(shù)據(jù)失真,但同時保持某些數(shù)據(jù)或數(shù)據(jù)屬性不變。因此差分隱 私技術(shù)用于生成在線社會網(wǎng)絡(luò)的凈化網(wǎng)絡(luò)時具有多個優(yōu)點。
[0007] 網(wǎng)絡(luò)具有層次組織結(jié)構(gòu),節(jié)點可以被劃分為組團(tuán),組團(tuán)又劃分為社區(qū),因此網(wǎng)絡(luò)具 有多尺度。在許多實際情況下,這些組群對應(yīng)著已知的功能單位,如食物鏈中的小型生態(tài)環(huán) 境、生化網(wǎng)絡(luò)中的模塊、社會網(wǎng)絡(luò)中的社區(qū)等等。而這種網(wǎng)絡(luò)層次結(jié)構(gòu)可以用分層隨機(jī)圖 (Hierarchical Random Graph,HRG)來刻畫。因此分層隨機(jī)圖模型可以有效刻畫大型在線 社會網(wǎng)絡(luò)層次結(jié)構(gòu),對網(wǎng)絡(luò)進(jìn)行有效建模。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明要解決的技術(shù)問題:針對現(xiàn)有技術(shù)的上述問題,提供一種能夠解決社會網(wǎng) 絡(luò)敏感結(jié)構(gòu)數(shù)據(jù)信息的隱私保護(hù)問題,能夠滿足差分隱私保護(hù)要求、同時保持良好的數(shù)據(jù) 可用性的基于分層隨機(jī)圖的在線社會網(wǎng)絡(luò)差分隱私保護(hù)方法。
[0009] 為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
[0010] 一種基于分層隨機(jī)圖的在線社會網(wǎng)絡(luò)差分隱私保護(hù)方法,步驟包括:
[0011] 1)輸入網(wǎng)絡(luò)G;
[0012] 2)基于分層隨機(jī)圖模型構(gòu)建網(wǎng)絡(luò)G的樹結(jié)構(gòu)T ;
[0013] 3)根據(jù)預(yù)設(shè)的隱私預(yù)算ε i,由馬爾科夫蒙特卡洛方法在網(wǎng)絡(luò)G的樹結(jié)構(gòu)T中進(jìn) 行米樣得到米樣樹Tsamplf;;
[0014] 4)以采樣樹的根節(jié)點Rroc]t作為初始的當(dāng)前節(jié)點;
[0015] 5)根據(jù)預(yù)設(shè)的隱私預(yù)算ε 2,計算當(dāng)前節(jié)點的關(guān)聯(lián)概率值{PJ ;
[0016] 6)在網(wǎng)絡(luò)G中找到以當(dāng)前節(jié)點作為最近父節(jié)點的一組節(jié)點對,以關(guān)聯(lián)概率值{PJ 在該組節(jié)點對之間設(shè)置一條邊;
[0017] 7)判斷采樣樹T_ple是否遍歷完畢,如果尚未遍歷完畢,則在采樣樹T _ple中查找 下一個節(jié)點作為當(dāng)前節(jié)點,跳轉(zhuǎn)執(zhí)行步驟5);否則跳轉(zhuǎn)執(zhí)行步驟8);
[0018] 8)將所有組節(jié)點之間設(shè)置的邊及其節(jié)點組成的凈化網(wǎng)絡(luò)g輸出。
[0019] 優(yōu)選地,所述步驟2)構(gòu)建網(wǎng)絡(luò)G的樹結(jié)構(gòu)T為包含一個根節(jié)點、η個葉節(jié)點及n-1 個父節(jié)點的二叉樹,所述樹結(jié)構(gòu)T中的η個葉節(jié)點對應(yīng)網(wǎng)絡(luò)G中的η個節(jié)點,每一個父節(jié)點 r具有屬性連接概率Ρρ所述連接概率表示以父節(jié)點r為相同父節(jié)點的兩個葉節(jié)點之間 的連接概率。
[0020] 優(yōu)選地,所述步驟3)的詳細(xì)步驟包括:
[0021] 3. 1)從網(wǎng)絡(luò)G的樹結(jié)構(gòu)T中選擇一個隨機(jī)的初始采樣樹T。作為初始化馬爾科夫 鏈的條件,初始化馬爾科夫鏈并開始沿著馬爾科夫鏈移動;
[0022] 3. 2)當(dāng)沿著馬爾科夫鏈移動到第i步時,從初始采樣樹T?;蛘呱弦徊降玫降牟蓸?樹t i中隨機(jī)選出一個分枝節(jié)點r ;
[0023] 3. 3)隨機(jī)構(gòu)造出分枝節(jié)點r的子樹,通過分枝節(jié)點r的子樹選出上一步得到的采 樣樹i的一個鄰居樹Τ' ;
[0024] 3. 4)根據(jù)預(yù)設(shè)的隱私預(yù)算ε i計算轉(zhuǎn)移概率Ρ,根據(jù)轉(zhuǎn)移概率Ρ在馬爾科夫鏈中 進(jìn)行條件轉(zhuǎn)移,同時將鄰居樹Τ'賦值給本步得到的采樣樹T1;
[0025] 3. 5)判斷馬爾科夫鏈中是否還有剩余樹,如果還有剩余樹則繼續(xù)沿著馬爾科夫鏈 移動,并跳轉(zhuǎn)執(zhí)行步驟3. 2),否則跳轉(zhuǎn)執(zhí)行步驟3. 6);
[0026] 3. 6)將采樣樹1\作為最終得到的采樣樹T __輸出。
[0027] 優(yōu)選地,所述步驟3. 4)中計算轉(zhuǎn)移概率P的函數(shù)表達(dá)式如式(1)所示;
[0029] 式(1)中,P為轉(zhuǎn)移概率,ε i為預(yù)設(shè)的隱私預(yù)算,Λ u為差分隱私全局敏感度,Τ' 為本步得到的鄰居樹,?\ i為上一步得到的采樣樹,£為分層隨機(jī)圖的最大似然概率。
[0030] 優(yōu)選地,所述分層隨機(jī)圖的最大似然概率的函數(shù)表達(dá)式如式(2)所示;
[0032] 式⑵中,Α?表不樹結(jié)構(gòu)T的最大似然概率,r表不樹結(jié)構(gòu)T的一個分枝節(jié)點, 瓦為采樣樹節(jié)點連接的關(guān)聯(lián)概率,W為以r為節(jié)點的左子樹,L為以r為節(jié)點的右子樹。
[0033] 優(yōu)選地,所述步驟5)的詳細(xì)步驟包括:
[0034] 5. 1)根據(jù)預(yù)設(shè)的隱私預(yù)算ε 2計算注入噪音測度值λ b;
[0035] 5. 2)根據(jù)預(yù)設(shè)的隱私預(yù)算ε 2計算連接概率測度值λ
[0036] 5.3)判斷注入噪音測度值λ b大于或等于τ i且連接概率測度值λ。大于或等于 τ 2是否同時成立,如果成立則跳轉(zhuǎn)執(zhí)行步驟5. 4),否則跳轉(zhuǎn)執(zhí)行步驟5. 7);
[0037] 5. 4)確定以當(dāng)前節(jié)點f為根節(jié)點的子樹中所有節(jié)點間邊的數(shù)量e ;
[0038] 5. 5)計算節(jié)點連接概率預(yù)測值jj
[0039] 5. 6)對以當(dāng)前節(jié)點/為根節(jié)點的子樹中的每個分枝節(jié)點r,將節(jié)點連接概率預(yù)測 值;;賦值給設(shè)置分枝節(jié)點r的連接概率