欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)方法與流程

文檔序號(hào):12720998閱讀:309來源:國知局
一種敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)方法與流程
本發(fā)明屬于計(jì)算機(jī)安全領(lǐng)域,更具體地,涉及一種敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)方法。
背景技術(shù)
:隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,各種互聯(lián)網(wǎng)應(yīng)用如雨后春筍般噴涌而出。不可否認(rèn),這些互聯(lián)網(wǎng)應(yīng)用很大程度地方便了我們的生活。但是在使用這些應(yīng)用的同時(shí),我們的各種行為數(shù)據(jù)也將被各大應(yīng)用廠商所儲(chǔ)存。由于研究需要或其它目的,數(shù)據(jù)持有者需要將這些數(shù)據(jù)發(fā)布出去,從而導(dǎo)致用戶的隱私信息泄漏,大數(shù)據(jù)環(huán)境下隱私泄露問題日益突出,加密和隱藏?cái)?shù)據(jù)發(fā)布過程中的敏感數(shù)據(jù)變得非常重要。敏感數(shù)據(jù)需要進(jìn)行隱私保護(hù),其主要目標(biāo)是,消除用戶敏感數(shù)據(jù)和用戶身份信息之間的對(duì)應(yīng)關(guān)系。目前主流的隱私保護(hù)策略主要是采用k-匿名的隱私保護(hù)方法,實(shí)現(xiàn)k-匿名的算法有很多,例如有DATAFLY算法,該算法在實(shí)現(xiàn)k-匿名化的時(shí)候以表中的屬性為一組對(duì)于數(shù)據(jù)表中的所有元組進(jìn)行K-匿名化;還有MDAV算法,該算法即先對(duì)數(shù)據(jù)集中數(shù)據(jù)進(jìn)行劃分,針對(duì)每個(gè)k-匿名組再進(jìn)行輸出。上述采用k-匿名的隱私保護(hù)方法在選取構(gòu)成k-匿名組的數(shù)據(jù)的時(shí)候是通過計(jì)算兩組數(shù)據(jù)之間的相似性來判斷的,要么對(duì)于屬性值為混合型數(shù)據(jù)時(shí)并沒有做過多探討,要么是簡單地認(rèn)為當(dāng)兩組數(shù)據(jù)在當(dāng)前坐標(biāo)下的屬性值相同則距離為0,屬性值不同則距離為1。這樣必然會(huì)造成兩組數(shù)據(jù)之間的相似性計(jì)算不準(zhǔn)確,導(dǎo)致k-匿名組分配的不合理。技術(shù)實(shí)現(xiàn)要素:針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)方法,其目的在于,通過使用一種基于語義的概化輸入樹來進(jìn)行數(shù)據(jù)之間的距離計(jì)算和數(shù)據(jù)的概化輸出,解決上述現(xiàn)有的方法中存在的由于相似性計(jì)算不準(zhǔn)確,導(dǎo)致k-匿名組分配不合理的技術(shù)問題。為實(shí)現(xiàn)上述目的,按照本發(fā)明的一個(gè)方面,提供了一種敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)方法,包括以下步驟:(1)接收來自用戶的數(shù)據(jù)集以及對(duì)應(yīng)的多個(gè)概化輸入樹,該數(shù)據(jù)集具有m組,每組數(shù)據(jù)具有n個(gè)屬性;(2)遍歷數(shù)據(jù)集中的每一組數(shù)據(jù),并依次判斷該組數(shù)據(jù)中的每一列數(shù)據(jù)是否存在對(duì)應(yīng)的概化輸入樹,如果存在,則根據(jù)該數(shù)據(jù)的屬性值在對(duì)應(yīng)概化輸入樹中查找對(duì)應(yīng)的節(jié)點(diǎn),并將該節(jié)點(diǎn)的信息輸入到坐標(biāo)數(shù)組中,如果不存在,則直接將該數(shù)據(jù)的屬性值輸入坐標(biāo)數(shù)組中,從而得到m行坐標(biāo)數(shù)組,并為每個(gè)坐標(biāo)數(shù)組添加初始值為0的標(biāo)志位;(3)建立標(biāo)志位分別為1,2,…,p的p個(gè)簇,從m行坐標(biāo)數(shù)組中隨機(jī)選擇其中p行坐標(biāo)數(shù)組分別作為建立的p個(gè)簇的中心點(diǎn),其中0<p≤m;(4)依次對(duì)m行坐標(biāo)數(shù)組中的每一行,分別獲取其與p個(gè)中心點(diǎn)之間的距離,選取得到的p個(gè)結(jié)果中最小值對(duì)應(yīng)的中心點(diǎn)對(duì)應(yīng)的簇,將該行坐標(biāo)數(shù)組添加到對(duì)應(yīng)的簇中,并將當(dāng)前行坐標(biāo)數(shù)組的標(biāo)志位設(shè)置為當(dāng)前簇的標(biāo)志位;(5)重新獲取步驟(4)中得到的每個(gè)簇的中心點(diǎn)作為新的中心點(diǎn);(6)判斷步驟(5)獲得的新的中心點(diǎn)是否與對(duì)應(yīng)的原中心點(diǎn)是否相同,如果相同則進(jìn)入步驟(7),否則返回步驟(4);(7)針對(duì)得到的每一個(gè)簇,判斷該簇中坐標(biāo)數(shù)組的個(gè)數(shù)是否大于2k,其中k是用戶預(yù)先設(shè)置的匿名組的數(shù)量,是則計(jì)算出該簇的中心點(diǎn),獲取該簇中距離該中心點(diǎn)最遠(yuǎn)的坐標(biāo)數(shù)組s,獲取距離坐標(biāo)數(shù)組s最遠(yuǎn)的坐標(biāo)數(shù)組u,將距離坐標(biāo)數(shù)組s最近的k-1個(gè)坐標(biāo)數(shù)組與s歸為一個(gè)k匿名組中,將距離坐標(biāo)數(shù)組u最近的k-1個(gè)坐標(biāo)數(shù)組與u歸為一個(gè)k匿名組中,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除;否則判斷該簇中坐標(biāo)數(shù)組的個(gè)數(shù)是否大于k,如果是則將該簇中坐標(biāo)數(shù)組歸為一個(gè)k匿名組,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除,否則將該簇中坐標(biāo)數(shù)組歸入上一次歸入的k匿名組中,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除;(8)重復(fù)步驟(7),直到簇中的坐標(biāo)數(shù)組數(shù)量為0為止;(9)根據(jù)概化輸入樹對(duì)得到的多個(gè)k匿名組進(jìn)行概化輸出。優(yōu)選地,節(jié)點(diǎn)的信息包括節(jié)點(diǎn)所在的層數(shù)、節(jié)點(diǎn)的屬性值、以及節(jié)點(diǎn)的父節(jié)點(diǎn)。優(yōu)選地,步驟(4)中,當(dāng)元素為數(shù)字時(shí),計(jì)算距離時(shí)是采用歐氏距離計(jì)算公式。優(yōu)選地,步驟(4)中,當(dāng)元素是字符串時(shí),如果元素的屬性值相同則距離為0,屬性值不同則距離為1。優(yōu)選地,步驟(4)中,當(dāng)元素是節(jié)點(diǎn)信息時(shí),距離的計(jì)算過程是:首先比較兩個(gè)節(jié)點(diǎn)是否相同,相同則距離為1,不同則比較其所在的層數(shù)是否相同,如果層數(shù)相同則比較其父節(jié)點(diǎn)是否相同,父節(jié)點(diǎn)相同則距離值為1/r,其中r為所在層數(shù),父節(jié)點(diǎn)不同則繼續(xù)判斷其各自上一級(jí)父節(jié)點(diǎn)是否相同,如果相同,則判斷距離值等于該上一級(jí)父節(jié)點(diǎn)所在層數(shù)的倒數(shù),否則繼續(xù)判斷其上一級(jí)父節(jié)點(diǎn)并重復(fù)本過程;如果層數(shù)不相同,則將層數(shù)大的節(jié)點(diǎn)的上一級(jí)父節(jié)點(diǎn)與另一個(gè)節(jié)點(diǎn)進(jìn)行比較,看二者層數(shù)是否相同,如果層數(shù)相同,則依照上述層數(shù)相同時(shí)候的原則進(jìn)行判斷,如果還不相同,則繼續(xù)尋找其上一級(jí)父節(jié)點(diǎn),并重復(fù)本過程。優(yōu)選地,步驟(5)中,當(dāng)簇中的某一列元素是數(shù)字時(shí),中心點(diǎn)是通過對(duì)所有元素取平均值來獲得;當(dāng)簇中的某一列元素是字符串時(shí),中心點(diǎn)就是出現(xiàn)次數(shù)最多的字符串;當(dāng)簇中的某一列元素是節(jié)點(diǎn)信息時(shí),首先對(duì)各節(jié)點(diǎn)的層數(shù)取平均值,然后向下取整,在概化輸入樹中搜素第一個(gè)與取整后的層數(shù)相匹配的節(jié)點(diǎn)作為新的中心點(diǎn)。優(yōu)選地,步驟(9)具體為,對(duì)于k匿名組中數(shù)字類型,是通過輸出該匿名組中數(shù)字的取值范圍進(jìn)行概化;對(duì)于k匿名組中字符串型數(shù)據(jù),如果該k匿名組中所有的字符串均相同,則輸出該字符串,否則輸出通配符;對(duì)于k匿名組中節(jié)點(diǎn)信息,首先比較兩個(gè)節(jié)點(diǎn)是否相同,相同則輸出當(dāng)前節(jié)點(diǎn),不同則比較其所在的層數(shù)是否相同,如果層數(shù)相同則比較其父節(jié)點(diǎn)是否相同,父節(jié)點(diǎn)相同則輸出該父節(jié)點(diǎn),父節(jié)點(diǎn)不同則繼續(xù)判斷其各自上一級(jí)父節(jié)點(diǎn)是否相同,如果相同,則輸出該上一級(jí)父節(jié)點(diǎn),否則繼續(xù)判斷其上一級(jí)父節(jié)點(diǎn)并重復(fù)本過程;如果層數(shù)不相同,則將層數(shù)大的節(jié)點(diǎn)的上一級(jí)父節(jié)點(diǎn)與另一個(gè)節(jié)點(diǎn)進(jìn)行比較,看二者層數(shù)是否相同,如果層數(shù)相同,則依照上述層數(shù)相同時(shí)候的原則進(jìn)行判斷,如果還不相同,則繼續(xù)尋找其上一級(jí)父節(jié)點(diǎn),并重復(fù)本過程。按照本發(fā)明的另一方面,提供了一種敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)系統(tǒng),包括:第一模塊,用于接收來自用戶的數(shù)據(jù)集以及對(duì)應(yīng)的多個(gè)概化輸入樹,該數(shù)據(jù)集具有m組,每組數(shù)據(jù)具有n個(gè)屬性;第二模塊,用于遍歷數(shù)據(jù)集中的每一組數(shù)據(jù),并依次判斷該組數(shù)據(jù)中的每一列數(shù)據(jù)是否存在對(duì)應(yīng)的概化輸入樹,如果存在,則根據(jù)該數(shù)據(jù)的屬性值在對(duì)應(yīng)概化輸入樹中查找對(duì)應(yīng)的節(jié)點(diǎn),并將該節(jié)點(diǎn)的信息輸入到坐標(biāo)數(shù)組中,如果不存在,則直接將該數(shù)據(jù)的屬性值輸入坐標(biāo)數(shù)組中,從而得到m行坐標(biāo)數(shù)組,并為每個(gè)坐標(biāo)數(shù)組添加初始值為0的標(biāo)志位;第三模塊,用于建立標(biāo)志位分別為1,2,…,p的p個(gè)簇,從m行坐標(biāo)數(shù)組中隨機(jī)選擇其中p行坐標(biāo)數(shù)組分別作為建立的p個(gè)簇的中心點(diǎn),其中0<p≤m;第四模塊,用于依次對(duì)m行坐標(biāo)數(shù)組中的每一行,分別獲取其與p個(gè)中心點(diǎn)之間的距離,選取得到的p個(gè)結(jié)果中最小值對(duì)應(yīng)的中心點(diǎn)對(duì)應(yīng)的簇,將該行坐標(biāo)數(shù)組添加到對(duì)應(yīng)的簇中,并將當(dāng)前行坐標(biāo)數(shù)組的標(biāo)志位設(shè)置為當(dāng)前簇的標(biāo)志位;第五模塊,用于重新獲取第四模塊中得到的每個(gè)簇的中心點(diǎn)作為新的中心點(diǎn);第六模塊,用于判斷第五模塊獲得的新的中心點(diǎn)是否與對(duì)應(yīng)的原中心點(diǎn)是否相同,如果相同則進(jìn)入第七模塊,否則返回第四模塊;第七模塊,用于針對(duì)得到的每一個(gè)簇,判斷該簇中坐標(biāo)數(shù)組的個(gè)數(shù)是否大于2k,其中k是用戶預(yù)先設(shè)置的匿名組的數(shù)量,是則計(jì)算出該簇的中心點(diǎn),獲取該簇中距離該中心點(diǎn)最遠(yuǎn)的坐標(biāo)數(shù)組s,獲取距離坐標(biāo)數(shù)組s最遠(yuǎn)的坐標(biāo)數(shù)組u,將距離坐標(biāo)數(shù)組s最近的k-1個(gè)坐標(biāo)數(shù)組與s歸為一個(gè)k匿名組中,將距離坐標(biāo)數(shù)組u最近的k-1個(gè)坐標(biāo)數(shù)組與u歸為一個(gè)k匿名組中,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除;否則判斷該簇中坐標(biāo)數(shù)組的個(gè)數(shù)是否大于k,如果是則將該簇中坐標(biāo)數(shù)組歸為一個(gè)k匿名組,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除,否則將該簇中坐標(biāo)數(shù)組歸入上一次歸入的k匿名組中,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除;第八模塊,用于重復(fù)第七模塊,直到簇中的坐標(biāo)數(shù)組數(shù)量為0為止;第九模塊,用于根據(jù)概化輸入樹對(duì)得到的多個(gè)k匿名組進(jìn)行概化輸出??傮w而言,通過本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,能夠取得下列有益效果:(1)本發(fā)明相似性計(jì)算準(zhǔn)確,并可以保證k-匿名組分配合理性:由于本發(fā)明采用了步驟(4)和(7),在計(jì)算數(shù)據(jù)之間距離的時(shí)候采用基于概化輸入樹的距離計(jì)算方式因此保證了原始數(shù)據(jù)在語義上一定程度的保留(2)本發(fā)明減少了現(xiàn)有方法的執(zhí)行時(shí)間;由于本發(fā)明通過步驟(5)和(6)實(shí)現(xiàn)了數(shù)據(jù)的聚類,并且本發(fā)明的步驟(4)、(5)和(7)均能部署在諸如Hadoop的大數(shù)據(jù)平臺(tái)上,因此可減少本方法的執(zhí)行時(shí)間,提高了執(zhí)行效率。附圖說明圖1是本發(fā)明敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)方法的流程圖。圖2是本發(fā)明中使用的概化輸入樹的示意圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。以下首先就本發(fā)明的技術(shù)術(shù)語進(jìn)行解釋和說明:標(biāo)識(shí)符與準(zhǔn)標(biāo)識(shí)符。對(duì)于一組數(shù)據(jù),能唯一標(biāo)識(shí)用戶身份的成為標(biāo)識(shí)符,如姓名,身份證號(hào)等。不能唯一標(biāo)識(shí)用戶但存在屬于用戶自身信息的一條屬性或?qū)傩越M合的稱為準(zhǔn)標(biāo)識(shí)符(Quasi-Identifiers,簡稱QI),準(zhǔn)標(biāo)識(shí)符能連通外部數(shù)據(jù)一起對(duì)縮小用戶范圍從而達(dá)到標(biāo)識(shí)用戶的目的。k-匿名。給定數(shù)據(jù)表T={t1,t2,t3,t4…..tn},QI為定義在T上的準(zhǔn)標(biāo)識(shí)符。當(dāng)且僅當(dāng)T[QI]每一組數(shù)據(jù)個(gè)數(shù)大于或等于k的時(shí)候稱T滿足k-匿名。總體而言,本發(fā)明是分成兩部分來完成:1、預(yù)處理。所謂預(yù)處理即將數(shù)據(jù)分為g個(gè)簇,每個(gè)簇內(nèi)相關(guān)性大,而簇與簇之間的相關(guān)性較小。由于在分類過程中并沒有進(jìn)行k-匿名化,故時(shí)間消耗較小。并且也不會(huì)影響到最后k-匿名時(shí)匿名組內(nèi)數(shù)據(jù)的相關(guān)性。2、匿名化。將預(yù)處理后的每個(gè)簇分別進(jìn)行k-劃分。每個(gè)簇的匿名化互不影響,存在可以使用并行分布式工具高速處理的可能性。并且相比原始數(shù)據(jù)每個(gè)簇內(nèi)的數(shù)據(jù)較小,每次需要比較的點(diǎn)間距離也就小的多,縮短了算法進(jìn)行的時(shí)間。如圖1所示,本發(fā)明敏感數(shù)據(jù)發(fā)布中的隱私保護(hù)方法包括以下步驟:(1)接收來自用戶的數(shù)據(jù)集以及對(duì)應(yīng)的多個(gè)概化輸入樹;具體而言,該數(shù)據(jù)集具有m組,每組數(shù)據(jù)具有n個(gè)屬性,其中m和n都是自然數(shù),概化輸入樹采用的是一種樹形的結(jié)構(gòu)(即父節(jié)點(diǎn)和子節(jié)點(diǎn)結(jié)合的方式),用于表示數(shù)據(jù)概化之間的關(guān)系,數(shù)據(jù)集中的不同列具有不同的屬性,該列所對(duì)應(yīng)的概化輸入樹就描述了該列屬性對(duì)應(yīng)的多個(gè)屬性值之間的概化規(guī)則,該概化輸入樹的數(shù)量是小于或等于數(shù)據(jù)集中每組數(shù)據(jù)的屬性數(shù)量;例如,輸入的數(shù)據(jù)集如下表所示:輸入4組數(shù)據(jù),每組數(shù)據(jù)有4個(gè)屬性值。年齡位置郵編性別22武漢430014男29宜昌430014男34長沙430014女23湖南430015女圖2是一個(gè)概化輸入樹的示意圖,可以很清楚的從該圖看出,其是與上述實(shí)例中的“位置”屬性相對(duì)應(yīng)的概化輸入圖,且該輸入樹層數(shù)為3。(2)遍歷數(shù)據(jù)集中的每一組數(shù)據(jù),并依次判斷該組數(shù)據(jù)中的每一列數(shù)據(jù)是否存在對(duì)應(yīng)的概化輸入樹,如果存在,則根據(jù)該數(shù)據(jù)的屬性值在對(duì)應(yīng)概化輸入樹中查找對(duì)應(yīng)的節(jié)點(diǎn),并將該節(jié)點(diǎn)的信息輸入到坐標(biāo)數(shù)組中,如果不存在,則直接將該數(shù)據(jù)的屬性值(其可能為數(shù)字或字符串)輸入坐標(biāo)數(shù)組中,從而得到m行坐標(biāo)數(shù)組,并為每個(gè)坐標(biāo)數(shù)組添加初始值為0的標(biāo)志位;具體而言,節(jié)點(diǎn)的信息包括節(jié)點(diǎn)所在的層數(shù)、節(jié)點(diǎn)的屬性值、以及節(jié)點(diǎn)的父節(jié)點(diǎn);上述步驟(1)的例子,經(jīng)過本步驟處理后變?yōu)椋耗挲g位置郵編性別標(biāo)志位22{“武漢“,3,湖北}430014男029{“宜昌”,3,湖北}430014男034{“長沙”,3,湖南}430014女023{“湖南”,2,中國}430015女0(3)建立標(biāo)志位分別為1,2,...,p的p個(gè)簇(其中0<p≤m),從m行坐標(biāo)數(shù)組中隨機(jī)選擇其中p行坐標(biāo)數(shù)組分別作為建立的p個(gè)簇的中心點(diǎn);上述步驟(1)的例子,經(jīng)過本步驟處理后變?yōu)椋捍?(4)依次對(duì)m行坐標(biāo)數(shù)組中的每一行,分別獲取其與p個(gè)中心點(diǎn)之間的距離(即每行坐標(biāo)數(shù)組中所有元素與中心點(diǎn)中對(duì)應(yīng)元素距離的和),選取得到的p個(gè)結(jié)果中最小值對(duì)應(yīng)的中心點(diǎn)對(duì)應(yīng)的簇,將該行坐標(biāo)數(shù)組添加到對(duì)應(yīng)的簇中,并將當(dāng)前行坐標(biāo)數(shù)組的標(biāo)志位設(shè)置為當(dāng)前簇的標(biāo)志位;具體而言,計(jì)算每行坐標(biāo)數(shù)組中的元素與中心點(diǎn)中對(duì)應(yīng)元素之間的距離是采用如下原則:(i)元素為數(shù)字時(shí),計(jì)算距離時(shí)是采用歐氏距離計(jì)算公式。(ii)元素是字符串時(shí),即用戶沒有輸入對(duì)應(yīng)的概化輸入樹,此時(shí)計(jì)算兩點(diǎn)間距離時(shí),如果元素的屬性值相同則間距為0,屬性值不同則間距為1;(iii)元素是節(jié)點(diǎn)信息時(shí),即用戶對(duì)當(dāng)前屬性輸入了其概化輸入樹,那么計(jì)算元素間間距的時(shí)候,在定義概化輸入樹的時(shí)候已經(jīng)提到了不同節(jié)點(diǎn)之間的距離計(jì)算辦法,具體實(shí)施辦法是:首先比較兩個(gè)節(jié)點(diǎn)是否相同,相同則距離為1,不同則比較其所在的層數(shù)是否相同,如果層數(shù)相同則比較其父節(jié)點(diǎn)是否相同,父節(jié)點(diǎn)相同則距離值為1/r,其中r為所在層數(shù),父節(jié)點(diǎn)不同則繼續(xù)判斷其各自上一級(jí)父節(jié)點(diǎn)是否相同,如果相同,則判斷距離值等于該上一級(jí)父節(jié)點(diǎn)所在層數(shù)的倒數(shù),否則繼續(xù)判斷其上一級(jí)父節(jié)點(diǎn)并重復(fù)本過程;如果層數(shù)不相同,則將層數(shù)大的節(jié)點(diǎn)的上一級(jí)父節(jié)點(diǎn)與另一個(gè)節(jié)點(diǎn)進(jìn)行比較,看二者層數(shù)是否相同,如果層數(shù)相同,則依照上述層數(shù)相同時(shí)候的原則進(jìn)行判斷,如果還不相同,則繼續(xù)尋找其上一級(jí)父節(jié)點(diǎn),并重復(fù)本過程。上述步驟(1)的例子,經(jīng)過本步驟處理后變?yōu)椋捍?簇2|(5)重新獲取步驟(4)中得到的每個(gè)簇的中心點(diǎn)作為新的中心點(diǎn);具體而言,當(dāng)簇中的某一列元素是數(shù)字時(shí),中心點(diǎn)是通過對(duì)所有元素取平均值來獲得;當(dāng)簇中的某一列元素是字符串時(shí),中心點(diǎn)就是出現(xiàn)次數(shù)最多的字符串;當(dāng)簇中的某一列元素是節(jié)點(diǎn)信息時(shí),首先對(duì)各節(jié)點(diǎn)的層數(shù)取平均值,然后向下取整,在概化輸入樹中搜素第一個(gè)與取整后的層數(shù)相匹配的節(jié)點(diǎn)作為新的中心點(diǎn)。(6)判斷步驟(5)獲得的新的中心點(diǎn)是否與對(duì)應(yīng)的原中心點(diǎn)是否相同,如果相同則進(jìn)入步驟(7),否則返回步驟(4);(7)針對(duì)得到的每一個(gè)簇,判斷該簇中坐標(biāo)數(shù)組的個(gè)數(shù)是否大于2k,其中k是用戶預(yù)先設(shè)置的匿名組的數(shù)量,是則計(jì)算出該簇的中心點(diǎn),獲取該簇中距離該中心點(diǎn)最遠(yuǎn)的坐標(biāo)數(shù)組s(其中計(jì)算中心點(diǎn)和距離的過程均在上述文字中予以描述,在此不再贅述),獲取距離坐標(biāo)數(shù)組s最遠(yuǎn)的坐標(biāo)數(shù)組u,將距離坐標(biāo)數(shù)組s最近的k-1個(gè)坐標(biāo)數(shù)組與s歸為一個(gè)k匿名組中,將距離坐標(biāo)數(shù)組u最近的k-1個(gè)坐標(biāo)數(shù)組與u歸為一個(gè)k匿名組中,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除;否則判斷該簇中坐標(biāo)數(shù)組的個(gè)數(shù)是否大于k,如果是則將該簇中坐標(biāo)數(shù)組歸為一個(gè)k匿名組,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除,否則將該簇中坐標(biāo)數(shù)組歸入上一次歸入的k匿名組中,并將這些歸入k匿名組中的坐標(biāo)數(shù)組從簇中刪除;上述步驟(1)的例子,經(jīng)過本步驟處理后變?yōu)椋耗涿M122{“武漢“,3,湖北}430014男29“宜昌”,3,湖北}430014男匿名組234{“長沙”,3,湖南}430014女23{“湖南”,2,中國}430015女(8)重復(fù)步驟(7),直到簇中的坐標(biāo)數(shù)組數(shù)量為0為止;(9)根據(jù)概化輸入樹對(duì)得到的多個(gè)k匿名組進(jìn)行概化輸出;具體而言,對(duì)于k匿名組中數(shù)字類型的概化,是通過輸出該匿名組中數(shù)字的取值范圍進(jìn)行概化;對(duì)于k匿名組中字符串型數(shù)據(jù),如果該k匿名組中所有的字符串均相同,則輸出該字符串,否則輸出通配符(例如*號(hào)等);對(duì)于k匿名組中節(jié)點(diǎn)信息的概化,首先比較兩個(gè)節(jié)點(diǎn)是否相同,相同則輸出當(dāng)前節(jié)點(diǎn),不同則比較其所在的層數(shù)是否相同,如果層數(shù)相同則比較其父節(jié)點(diǎn)是否相同,父節(jié)點(diǎn)相同則輸出該父節(jié)點(diǎn),父節(jié)點(diǎn)不同則繼續(xù)判斷其各自上一級(jí)父節(jié)點(diǎn)是否相同,如果相同,則輸出該上一級(jí)父節(jié)點(diǎn),否則繼續(xù)判斷其上一級(jí)父節(jié)點(diǎn)并重復(fù)本過程;如果層數(shù)不相同,則將層數(shù)大的節(jié)點(diǎn)的上一級(jí)父節(jié)點(diǎn)與另一個(gè)節(jié)點(diǎn)進(jìn)行比較,看二者層數(shù)是否相同,如果層數(shù)相同,則依照上述層數(shù)相同時(shí)候的原則進(jìn)行判斷,如果還不相同,則繼續(xù)尋找其上一級(jí)父節(jié)點(diǎn),并重復(fù)本過程。上述步驟(1)的例子,經(jīng)過本步驟處理后變?yōu)椋耗挲g位置郵編性別[22-29]湖北430014男[22-29]湖北430014男[23-34]湖南43001*女[23-34]湖南43001*女本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
祁连县| 迁安市| 罗江县| 孟连| 宁城县| 黄骅市| 克拉玛依市| 阿拉善右旗| 额尔古纳市| 曲周县| 奉新县| 涟水县| 句容市| 仙桃市| 辉南县| 泸溪县| 彰武县| 安宁市| 乌兰察布市| 云阳县| 信阳市| 仲巴县| 上高县| 胶州市| 大方县| 军事| 那曲县| 琼中| 洞头县| 霍邱县| 湘潭县| 开阳县| 镇平县| 肇东市| 宁强县| 金坛市| 富民县| 汕头市| 江阴市| 南溪县| 遂宁市|