欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向關(guān)聯(lián)規(guī)則挖掘的隱私數(shù)據(jù)保護方法

文檔序號:6604689閱讀:270來源:國知局
專利名稱:一種面向關(guān)聯(lián)規(guī)則挖掘的隱私數(shù)據(jù)保護方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘中隱私數(shù)據(jù)的保護技術(shù),具體涉及一種面向關(guān)聯(lián)規(guī)則挖掘的 隱私數(shù)據(jù)保護方法。
背景技術(shù)
隨著網(wǎng)絡(luò)、數(shù)據(jù)庫存儲以及高性能處理器等技術(shù)的飛速發(fā)展,數(shù)據(jù)庫中存儲的數(shù) 據(jù)呈爆炸式增長。日前,數(shù)據(jù)庫系統(tǒng)可以很好地實現(xiàn)數(shù)據(jù)查詢、刪除和統(tǒng)計等功能,0LAP也 能較好地進行數(shù)據(jù)的分析等工作,但這些技術(shù)并不支持對數(shù)據(jù)背后重要信息的挖掘,無法 發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)系和規(guī)則,從而導(dǎo)致出現(xiàn)了”數(shù)據(jù)爆炸,知識貧乏”的現(xiàn)象。另外,20世 紀(jì)下半葉發(fā)展起來的專家系統(tǒng),也遇到了 “知識獲取”這一瓶頸問題。在此背景下,強有力 數(shù)據(jù)分析工具的需求推動了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生。數(shù)據(jù)挖掘技術(shù)可以幫助人們從大量的數(shù)據(jù)中智能地、自動地抽取隱含的、事先未 知的,具有潛在價值的知識或信息,它不僅被許多研究人員看作是數(shù)據(jù)庫系統(tǒng)和機器學(xué)習(xí) 等方面的一個重要研究課題,而且被許多產(chǎn)業(yè)界人士看作是一個能帶來巨大回報的重要領(lǐng) 域,從數(shù)據(jù)庫中發(fā)現(xiàn)出來的規(guī)則和知識可以用在信息管理、查詢響應(yīng)、決策支持、過程控制 等諸多方面。在數(shù)據(jù)挖掘產(chǎn)生巨大財富的同時,隨之產(chǎn)生的就是隱私泄露問題,據(jù)一份Web用 戶的權(quán)威調(diào)查表明,17 %的被調(diào)查者表示會拒絕透露涉及到自己隱私的任何信息,27 %的 被調(diào)查者表示會經(jīng)認真考慮后,決定是否會給予涉及到自己隱私的信息,而56 %的被調(diào)查 者表示,如果數(shù)據(jù)收集機構(gòu)或數(shù)據(jù)使用者可以確保個人隱私信息得到有效保護,他們是可 以提供涉及到自己隱私的信息。從上述調(diào)查結(jié)果可以看出,如果無法保證被調(diào)查者的隱私, 所收集到的數(shù)據(jù)往往和真實的數(shù)據(jù)之間存在很大的差異甚至無法完成數(shù)據(jù)的收集工作,如 果在這些錯誤的數(shù)據(jù)上進行數(shù)據(jù)挖掘,那么得到的結(jié)果必然是不準(zhǔn)確的甚至是完全錯誤 的。然而,可喜的是人們并沒有因噎廢食,在數(shù)據(jù)挖掘能夠提供的益處面前,只要數(shù)據(jù)采集 機構(gòu)或使用者采取措施來保證個人的隱私,大部分數(shù)據(jù)擁有著還是愿意提供自己的隱私數(shù) 據(jù),隱私保護程度的高低將直接關(guān)系到是否能夠獲得足夠真實的信息,從而影響到挖掘結(jié) 果的可靠有用性。因而,如何在數(shù)據(jù)挖掘的過程中解決好隱私保護的問題已經(jīng)成為數(shù)據(jù)挖 掘領(lǐng)域中的一個研究熱點,隱私保護數(shù)據(jù)挖掘技術(shù)的研究具有十分重要的理論和現(xiàn)實意 義。在1995年召開的第一屆KDD會議上,基于隱私保護的數(shù)據(jù)挖掘就成為一個專門的 研究主題。1999年,RakeshAgrawal在KDD99上作了一場精彩的有關(guān)隱私保護數(shù)據(jù)挖掘主 題演講,并將其作為未來的研究重點之一。自此以后,隱私保護數(shù)據(jù)挖掘越來越得到人們的 高度重視,各種新方法和新技術(shù)層出不窮。隱私保護關(guān)聯(lián)規(guī)則挖掘是隱私保護數(shù)據(jù)挖掘中最活躍的研究方向之一,一般情況 下,它包含兩個方面的問題,一是數(shù)據(jù)庫中敏感關(guān)聯(lián)規(guī)則的保護,所謂敏感關(guān)聯(lián)規(guī)則是指數(shù) 據(jù)擁有者不愿公開的關(guān)聯(lián)規(guī)則,這些規(guī)則的不法使用可能會威脅到數(shù)據(jù)擁有者的權(quán)益。二是隱私數(shù)據(jù)的保護,隱私數(shù)據(jù)是指數(shù)據(jù)擁有者不愿公開的數(shù)據(jù)項,它可能包括姓名、身份證 號、銀行帳號、住址、工資等。本發(fā)明專利主要解決第二個問題。對于此問題,目前常用的方 法是采取數(shù)據(jù)干擾技術(shù),即通過數(shù)據(jù)變換或在數(shù)據(jù)中增加噪聲等方法來對原始數(shù)據(jù)進行干 擾,關(guān)聯(lián)規(guī)則挖掘是在干擾后的數(shù)據(jù)集上進行的,因而,該類方法很有可能會影響到關(guān)聯(lián)規(guī) 則挖掘結(jié)果的可用性和有效性,即有可能挖掘出一些原始數(shù)據(jù)庫中本來不存在的且有誤導(dǎo) 作用的規(guī)則,丟失一些原始數(shù)據(jù)庫中存在的且非常有用的規(guī)則,從而失取了關(guān)聯(lián)規(guī)則挖掘 本身的價值。其實,隱私數(shù)據(jù)是相對的,是與載體相關(guān)聯(lián)的,更換了或脫離了載體,數(shù)據(jù)就有 可能失去其物理意義或敏感性,因此,我們可以通過交換事務(wù)之間項目所對應(yīng)的值來實現(xiàn) 隱私數(shù)據(jù)的保護。本發(fā)明給出了一種基于項目交換技術(shù)的隱私數(shù)據(jù)保護方法,該方法既可以實現(xiàn)對 隱私數(shù)據(jù)的有效保護,又能確保關(guān)聯(lián)規(guī)則挖掘結(jié)果的有效可行性。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有隱私數(shù)據(jù)保護方法可能會影響到關(guān)聯(lián)規(guī)則挖掘結(jié)果 的可用性和有效性等問題,提出了一種新穎的面向關(guān)聯(lián)規(guī)則挖掘的隱私數(shù)據(jù)保護方法,該 方法既可以實現(xiàn)對隱私數(shù)據(jù)的有效保護,同時又不會產(chǎn)生過多的負面影響。本發(fā)明提出的“面向關(guān)聯(lián)規(guī)則挖掘的隱私數(shù)據(jù)保護方法”包括以下步驟(1)隱私數(shù)據(jù)項的確定根據(jù)數(shù)據(jù)擁有者的意圖確定要隱藏的隱私數(shù)據(jù)項。(2)隱私數(shù)據(jù)項的修改對原事務(wù)數(shù)據(jù)庫中的事務(wù)進行分組,每k條記錄為一組,不足部分補足。假設(shè)原事 務(wù)數(shù)據(jù)庫中有n條事務(wù),分組數(shù)為m,則m A:"|,每一組對應(yīng)一個k位數(shù)ai,i = 1,2,..., m。隱私數(shù)據(jù)項的修改如下①隨機產(chǎn)生兩個k位的正整數(shù)h和b2 ;②給每一組的 賦值,a,的第j位對應(yīng)于第i組組內(nèi)的第j個事務(wù),其值即為該 事務(wù)隱私數(shù)據(jù)項所對應(yīng)的值,如事務(wù)包含隱私數(shù)據(jù)項則為1,否則為0,i = 1,2,. . .,m,j = 1,2, ,k ;③執(zhí)行 and bl0rb2,and為邏輯”與”操作,or為邏輯”或”操作,設(shè)其結(jié)果為
o現(xiàn)在公開的是a/,而不是 僅根據(jù)a/是不可能推出或猜出 的值的,就是知道 1^、132及%’,而不知所執(zhí)行的操作類型,也是不可能推出或猜出%的值的,從而有效保護或 隱藏了隱私數(shù)據(jù)項。(3)事務(wù)的整型化將事務(wù)數(shù)據(jù)庫中的各事務(wù)用相應(yīng)的二進制數(shù)表示,各位位值即為該事務(wù)所對應(yīng)的 數(shù)據(jù)項,設(shè)對應(yīng)的二進制數(shù)為R/,i = l,2,...,n。(4)數(shù)據(jù)的傳輸傳輸整型化后的事務(wù)。(5)數(shù)據(jù)的恢復(fù)執(zhí)行ai,and f or E,令 ,,= ,and b^ or b;,根據(jù),,修改R」,,修改后的值記為 Rj”,i = 1, 2, . . . , m, j = 1,2,…,n。(6)頻繁項目集的生成設(shè)最小支持度閾值為minsup,項目集c的支持數(shù)記為count (c),支持度記為 sup (C),頻繁項目集生成分為兩小步候選頻繁項目集的產(chǎn)生、候選頻繁項目集支持數(shù)的計算。①候選頻繁項目集的產(chǎn)生由頻繁項目集Lk_i生成候選頻繁k_項目集Ck方法包括下列步驟a對于Lh中的任意兩個不同項目集x禾口 y ;b 設(shè) xoy = x or y,統(tǒng)計 xoy 中 1 的總數(shù) countx。r(l);c如果CoimtM (1)的值為k,執(zhí)行下列步驟
i設(shè)置一個計數(shù)器count ;i i for (i = 0 ; i 彡 m ; i++) do beginiii z = 01b ;iv h = xoy xor z ;// xor 為異或操作符v if (h G L(,,_!)) then count = count+1 ;vi z 向左移一位,i = i+1,轉(zhuǎn)(ii);vii如果count的值為m,則將xoy加入Ck中;d 轉(zhuǎn)(a);②候選頻繁項目集支持數(shù)的計算設(shè)D,= {R,,R2”,......,Rn” },候選頻繁項目集 items 的支持數(shù) count (items)
計算方法包括下列兩步a for each transaction t G D,b if (t or items = = t) then count (items) = count (items) +1 ;(7)關(guān)聯(lián)規(guī)則的產(chǎn)生設(shè)最小置信度閾值為minconf,AR為關(guān)聯(lián)規(guī)則集,關(guān)聯(lián)規(guī)則產(chǎn)生的方法如下①for all人k G L(k彡2)//人k為頻繁k_項目集②for all subset c:毛 // a h 為 X k 的非空真子集③β=入 k_ a h ;⑤ AR = AR U { a h — ^ };⑥ end ;⑦ end;本發(fā)明上述的面向關(guān)聯(lián)規(guī)則挖掘的隱私數(shù)據(jù)保護方法用隨機產(chǎn)生的兩個無符號 整數(shù)對數(shù)據(jù)擁有者所要保護的數(shù)據(jù)項進行隨機置換,用戶所看到的或網(wǎng)上所傳輸?shù)膶⑹侵?換后的數(shù)據(jù),要想根據(jù)置換后的數(shù)據(jù)推測出原始數(shù)據(jù)幾乎是不可能的。在進行關(guān)聯(lián)規(guī)則挖 掘之前,將數(shù)據(jù)庫中的各事務(wù)用相應(yīng)的二進制數(shù)表示,各位值即為該事務(wù)所對應(yīng)的數(shù)據(jù)項, 并采用一定的方法恢復(fù)置換后的數(shù)據(jù),確保關(guān)聯(lián)規(guī)則挖掘有正確的輸入數(shù)據(jù)。挖掘出所有 的頻繁項目集是本發(fā)明的最終目的,也是本發(fā)明的核心內(nèi)容,如果不能有效甚至無法挖掘出原始事務(wù)數(shù)據(jù)庫中的頻繁項目集,最好的隱私保護方法也將是徒勞的。對于恢復(fù)后的事 務(wù)數(shù)據(jù)庫,本發(fā)明研究并提出了一種基于二進制形式的關(guān)聯(lián)規(guī)則挖掘方法,該方法包括候 選頻頻繁項目集的生成及其支持數(shù)的計算方法。本發(fā)明主要有以下兩個方面的有益效果。(1)在隱私數(shù)據(jù)項的保護方面本發(fā)明提出了一種新穎的隱私數(shù)據(jù)項保護方法,該方法只需對相關(guān)數(shù)據(jù)執(zhí)行”與” 和”或”操作,一方面,本發(fā)明所采用方法可以有效地保護隱私數(shù)據(jù)項,根據(jù)所公開數(shù)據(jù)是無 法導(dǎo)出或猜出真實數(shù)據(jù)的;另一方面,本發(fā)明所采用方法可以確保包含隱私數(shù)據(jù)項的關(guān)聯(lián) 規(guī)則仍然有效,克服了現(xiàn)有隱私數(shù)據(jù)保護方法所帶來的兩個缺陷,一是可能挖掘出一些原 始數(shù)據(jù)庫中本來不存在的且有誤導(dǎo)作用的關(guān)聯(lián)規(guī)則,二是丟失一些原始數(shù)據(jù)庫中存在的且 非常有用的關(guān)聯(lián)規(guī)則。(2)在關(guān)聯(lián)規(guī)則挖掘方面針對修改后的事務(wù)數(shù)據(jù)庫,即進行了隱私保護操作后的數(shù)據(jù),本發(fā)明提出了一種 基于二進制形式的候選項目集生成及其支持度計算方法,該方法只需對操作對象執(zhí)行一 些”或”、,,與,,、,,異或”、,,非”等邏輯運算操作。本發(fā)明所采用方法除了能發(fā)現(xiàn)所有的關(guān)聯(lián) 規(guī)則外,與現(xiàn)有關(guān)聯(lián)規(guī)則挖掘方法相比,不但能顯著降低算法的實現(xiàn)難度,而且能進一步提 高了算法的執(zhí)行效率。


圖1是本發(fā)明實施例的流程2是本發(fā)明實施例的關(guān)聯(lián)規(guī)則挖掘流程圖
具體實施例方式設(shè)數(shù)據(jù)庫DB如表1所示,最小支持度閾值為50 %,隱私數(shù)據(jù)項為A,這里僅考慮布 爾型屬性,對于數(shù)量屬性,其基本思路完全相同,如A表示工資時,0可以表示小于某閾值的 工資,1可以表示不小于該閾值的工資,如需將A分成4個區(qū)間,我們可以將屬性A拆成兩個 布爾型屬性,以此類推。表1 數(shù)據(jù)庫DB 具體執(zhí)行步驟如下(1)修改隱私數(shù)據(jù)項A,即表1中的第一列,設(shè)參與修改的擾亂值為bp b2,= 01101011,b2 = 00100110,b^=10010100, ^"=11011001,1^ 和 b2 是不公開的。數(shù)據(jù)庫DB中各記錄數(shù)據(jù)項A的值為11011101,記為a,執(zhí)行a’=aand bi orb2 = 11011101 and 01101011 or 00100110 = 01101111,修改數(shù)據(jù)庫 DB 中各記錄的第一列值, 修改后的數(shù)據(jù)庫如表2所示,現(xiàn)在公開的是數(shù)據(jù)庫DB’,而不是數(shù)據(jù)庫DB,僅根據(jù)DB’是不 可能推出數(shù)據(jù)庫DB的,根據(jù)bp b2&DB’,而不知所執(zhí)行的操作類型,也是不可能推出數(shù)據(jù) 庫DB的,從而隱私數(shù)據(jù)項A得到了保護或隱藏。表2修改后數(shù)據(jù)庫DB, (2)將數(shù)據(jù)庫DB,中的各記錄用二進制數(shù)表示,即R/ = 01101100,R2,= 11100100,R/ = 10110001,R4,= 01001010,R5,= 11100010,R6,= 11101010,R/ = 10110101,R8’ = 11001001。(3)執(zhí)行操作a,and^"or^"= 01101111 and llOllOOlor 10010100 = 11011101, 根據(jù)此結(jié)果修改R/ (i = 1,2,. . ,8),得:隊”=11101100,R2”= 11100100,R3”= 00110001, R4” = 11001010,R5” = 11100010,R6” = 11101010,R/,= 00110101,R8” = 11001001。
(4)頻繁1-項目集k的生成分別統(tǒng)計R, R8”相應(yīng)位中” 1”的個數(shù),得 Li = {10000000,01000000,00100000, 00001000}。(5)根據(jù)頻繁1-項目集k生成候選頻繁2-項目集C2C2 = {11000000,10100000,10001000,01100000,01001000,00101000}。(6)頻繁2-項目集L2的確定分別計算(2中各項目集的支持數(shù),例如對于R/’來講,由于11101 lOOorl 1000000 = R/,,因而 R/’支持項目集 11000000 ;對于 R2”來講,由于 11100100orl0001000 乒 11100100, 因而R2”不支持項目集10001000。如此多次操作,分別得到C2中各元素的支持數(shù)為6、4、 4、4、4、2。因而,L2= {11000000,10100000,10001000,01100000,01001000}。(7)根據(jù)頻繁2-項目集L2生成候選頻繁3-項目集C3C3 = {11100000,11001000}。(8)頻繁3-項目集L3的確定類似于第(6)步中支持數(shù)的計算方法,分別計算C3中各元素的支持數(shù),其值分別 為4、4。因而,L3= {11100000,11001000}。(9)根據(jù)頻繁3-項目集生成候選頻繁3-項目集C4C4 =①。由于C4為空集,整個過程結(jié)束。由此可見,L = Q U L2 U L3 = {10000000,01000000,00100000,00001000, 11000000,10100000,10001000,01100000,01001000,11100000,11001000},即 L = {{A}, {B},{C},{E},{A, B},{A, C},{A, E},{B,C},{B,E},{A, B,C},{A, B,E}}。可以驗證數(shù)據(jù) 庫 DB 中所有的頻繁項目集即為{{A},{B},{C},{E},{A,B},{A,C},{A,E},{B,C},{B,E}, {A,B,C},{A,B,E}},兩者是完全一致的。因此,本發(fā)明不但保護了隱私數(shù)據(jù)項,而且不會丟 失原數(shù)據(jù)庫中已有的頻繁項目集或關(guān)聯(lián)規(guī)則,也不會產(chǎn)生原數(shù)據(jù)庫中不存在的頻繁項目集 或關(guān)聯(lián)規(guī)則。
權(quán)利要求
一種面向關(guān)聯(lián)規(guī)則挖掘的隱私數(shù)據(jù)保護方法,包括以下步驟(1)隱私數(shù)據(jù)項的確定根據(jù)數(shù)據(jù)擁有者的意愿確定要隱藏的隱私數(shù)據(jù)項;(2)隱私數(shù)據(jù)項的修改對原事務(wù)數(shù)據(jù)庫中的事務(wù)進行分組,每k個事務(wù)為一組,不足部分補足,k視具體情況而定,分組數(shù)為正整數(shù)m,每一組對應(yīng)一個k位數(shù)ai,i=1,2,...,m;①隨機產(chǎn)生兩個k位的正整數(shù)b1和b2;②給每一組的ai賦值,ai的第j位對應(yīng)于第i組組內(nèi)的第j個事務(wù),其值即為該事務(wù)隱私數(shù)據(jù)項所對應(yīng)的值,如事務(wù)包含隱私數(shù)據(jù)項則為1,否則為0,i=1,2,...,m,j=1,2,...,k;③執(zhí)行ai and b1orb2,and為邏輯”與”操作,or為邏輯”或”操作,設(shè)其結(jié)果為ai‘。(3)事務(wù)的整型化將事務(wù)數(shù)據(jù)庫中的各事務(wù)用相應(yīng)的二進制數(shù)表示,各位位值即為該事務(wù)所對應(yīng)的數(shù)據(jù)項,設(shè)對應(yīng)的二進制數(shù)為Ri’,i=1,2,...,n;(4)數(shù)據(jù)傳輸用二進制數(shù)進行數(shù)據(jù)的傳輸(5)隱私數(shù)據(jù)項的恢復(fù)執(zhí)行ai andor其中分別為對b2、b1執(zhí)行邏輯”非”操作后的結(jié)果;令ai”=aiandor根據(jù)ai”修改Rj’,修改后的值記為Rj”,i=1,2,...,m,j=1,2,...,n;(6)關(guān)聯(lián)規(guī)則的挖掘?qū)謴?fù)后的事務(wù)數(shù)據(jù)庫,采用基于二進制形式的關(guān)聯(lián)規(guī)則挖掘方法,確定頻繁項目集,由頻繁項目集得出關(guān)聯(lián)規(guī)則。FSA00000179664300011.tif,FSA00000179664300012.tif,FSA00000179664300013.tif,FSA00000179664300014.tif,FSA00000179664300015.tif,FSA00000179664300016.tif
2.根據(jù)權(quán)利要求1所說的關(guān)聯(lián)規(guī)則挖掘中隱私數(shù)據(jù)的保護方法,其特征在于,步驟(6) 中所說的關(guān)聯(lián)規(guī)則挖掘分為兩步候選頻繁項目集的生成、候選頻繁項目集支持數(shù)的計算。
全文摘要
本發(fā)明涉及一種關(guān)聯(lián)規(guī)則挖掘中隱私數(shù)據(jù)的保護方法,該方法通過隨機產(chǎn)生兩個無符號整數(shù),對數(shù)據(jù)擁有者所要保護的數(shù)據(jù)項進行隨機置換,在進行關(guān)聯(lián)規(guī)則挖掘之前,將數(shù)據(jù)庫中各事務(wù)用相應(yīng)的二進制數(shù)表示,各位位值即為該事務(wù)所對應(yīng)的數(shù)據(jù)項,并采用一定的方法恢復(fù)置換后的數(shù)據(jù),確保關(guān)聯(lián)規(guī)則挖掘有正確的輸入數(shù)據(jù);對于恢復(fù)后的事務(wù)數(shù)據(jù)庫,采用基于二進制形式的關(guān)聯(lián)規(guī)則挖掘方法來確定事務(wù)數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則。該方法包括候選頻繁項目集的生成及其支持數(shù)的計算方法。本發(fā)明所采用方法除了能發(fā)現(xiàn)所有的關(guān)聯(lián)規(guī)則外,與現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘方法相比,不但降低了算法的執(zhí)行難度,而且能進一步提高算法的執(zhí)行效率。
文檔編號G06F17/30GK101872361SQ201010209518
公開日2010年10月27日 申請日期2010年6月25日 優(yōu)先權(quán)日2010年6月25日
發(fā)明者孫蕾, 朱玉全, 歐吉順, 陳耿 申請人:鎮(zhèn)江金全軟件有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
油尖旺区| 建宁县| 东丰县| 伊吾县| 读书| 都江堰市| 股票| 洛宁县| 宁国市| 灵山县| 晋宁县| 加查县| 土默特左旗| 新昌县| 闸北区| 曲水县| 永德县| 疏勒县| 获嘉县| 宝山区| 都兰县| 夹江县| 马龙县| 思茅市| 特克斯县| 阆中市| 成武县| 太仓市| 封丘县| 昭通市| 南溪县| 通山县| 农安县| 龙南县| 姜堰市| 正宁县| 台州市| 桂东县| 夹江县| 上蔡县| 钟祥市|