專利名稱:雙盲隱私安全分布式數(shù)據(jù)挖掘協(xié)議的制作方法
技術領域:
一般地,本發(fā)明涉及在分布式數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)隱私和數(shù)據(jù)使用一其通常屬于不同的所有者。特別地,本發(fā)明涉及在協(xié)調數(shù)據(jù)權限的同時保護了數(shù)據(jù)的隱私并實現(xiàn)了對隱私敏感數(shù)據(jù)特征的有用簡化。
背景技術:
數(shù)據(jù)庫協(xié)作、數(shù)據(jù)權限和數(shù)據(jù)使用的領域本身就是矛盾的,鑒于隱私保護的法定權利在某些情形下限制了技術功能的使用同時卻在另一些情形下許可了這些相同的技術功能。簡單地說,例如分類、檢索、合并和布爾邏輯運算等函數(shù)的使用是數(shù)據(jù)庫操作的精華一除非其中某個數(shù)據(jù)庫字段或幾個字段的組合可能導致個人身份識別。可識別的數(shù)據(jù)可能并不來自一個字段、也可能并不是那么明確。例如,一份已完成的關于美國人口調查數(shù)據(jù)的研究表明美國全體居民中的87%可僅基于出生日期、性別和郵政編碼被唯一識別。同時也存在能夠基于對外公共數(shù)據(jù)庫(例如包括出生日期、性別和郵政編碼的選民登記)再識別某些人的問題??偠灾?,真正的問題在于記錄標準的唯一性而并不必定是特定字段。需要關注的是,數(shù)據(jù)提供者將他們的信息產品綁定至偽裝的身份信息采集中,或相反地集合記錄或“裁剪”這些數(shù)據(jù)以創(chuàng)造更多“相同”記錄(例如,僅報告郵政編碼的前三位或僅報告出生年份)——因此,在一定概率上,人們不可能知道某人是否存在于最終統(tǒng)計報告的某一類別中或任何關于他的具體細節(jié),即使這份報告中某人的信息被明確標記、定量表述并被直截了當?shù)孛枥L。許多領域中的努力關注到這種數(shù)據(jù)的隱私矛盾性阻止了人們充分利用這些信息一一特別是用于那些并不關注任何特定的個人的應用。例如,例如醫(yī)師診所、實驗室、醫(yī)院和建康維護組織(HMOs)的醫(yī)療保健機構保存了包括針對每一特定病人和每一特定醫(yī)生的大量醫(yī)療記錄。美國1996年的健康保險流通與責任法案(HIPAA)和其它類似的法律阻止了 HMOs和醫(yī)療保健提供者完全透明地分享數(shù)據(jù)——鑒于個人隱私必須被保護。(可參考附圖1和2以獲得進一步的細節(jié))然而,在不關注具體個人的情況下,制藥公司能在許多技術和商業(yè)方面改善它們的運作——如果他們被給予無限制的訪問HMO源數(shù)據(jù)的權利。類似的數(shù)據(jù)不透明性存在于銀行和保險公司之間、銷售商和信用卡公司之間、人口統(tǒng)計局和其它的政府機構之間(例如稅務機構、公共健康系統(tǒng),等)。
僅作為示例,HIPAA關于去識別化的相關條款聲明164. 514條款其它有關保護的健康信息的使用和披露的要求。(a)標準受保護的健康信息的去識別化。無法識別個人身份的健康信息、和沒有合理根據(jù)相信其中的信息可以被用于識別個人身份的健康信息不屬于個人可識別的健康
信息。(b)履行說明對保護的健康信息去識別化的要求。在下述情況下而且只在下述情況下,一個適用的實體可確定健康信息不屬于個人身份可識別的健康信息
(1)借助通用的統(tǒng)計和科學原則和方法以提出信息非個人可識別的具有適當知識和經(jīng)驗的人(i)應用這種原則和方法,確定該信息可單獨、或與其它合法獲取的信息聯(lián)合使用的風險非常小,由預期參與者識別出為該信息主題的個人;以及(ii)引證證明這種確定的方法和分析的結果;或
(2)( i )以下個人身份,或親屬、雇主或個人家庭成員的身份,被移除(A)姓名;(B)小于洲的所有地理分區(qū),包括街道地址、城市、郡、選區(qū)、郵政編碼、和它們的全球編碼,除可能根據(jù)來自人口統(tǒng)計局的目前公開的合法數(shù)據(jù)的郵政編碼的初始三位數(shù)(1)該初始三位數(shù)組合出的所有郵政編碼形成的地理單元包含超過兩萬人;以及(2)將包含兩萬及以下人的所有地理單元的郵政編碼的初始三位數(shù)變?yōu)?00。(C)直接涉及個人日期的所有日期要素 (除年份外),包括出生日期、入學日期、解除義務日期、死亡日期;以及超過89的所有年齡和表明這種年齡的所有日期要素(包括年份),除這種年齡和要素可被集合至年齡90或更老的單個類別;(D)電話號碼;(E)傳真號碼;(F)電子郵件地址;(G)社保號碼;(H)病歷檔案號;(I)健康計劃受益人號碼;(J)賬號;(K)證書/許可號;(L)車輛識別和序列號,包括車牌號;(M)裝置識別和序列號;(N)環(huán)球資源定位器網(wǎng)絡(URLs); (0)互聯(lián)網(wǎng)協(xié)議(IP)地址號;(P)生物特征識別,包括指紋和聲紋;(Q)全臉攝影圖像和任何類似的圖像;以及(R) 其它任何唯一識別號碼、特征、或編碼;以及(ii)該隱蔽的實體不需具有該信息可單獨、或與其它合法獲取的信息聯(lián)合使用以確定該信息主題的個人的實際知識。此外,特別地關于醫(yī)療保健相關信息系統(tǒng)的非限制性示例一值得注意一些額外的背景因素
(A)醫(yī)療健康上漲的成本——醫(yī)療保健費用與利用正以令人擔憂的、空前的速度增長。 2000年,美國人在醫(yī)療保健上花費了 1.3萬億美元。超過了在食物、住房、汽車或國防上的花費。根據(jù)保險服務中心,截至到2010年,醫(yī)療保健支出將翻番至2. 6萬億美元——國民生產總值的15.9%。由許多造成成本顯著增長的原因。對付這種挑戰(zhàn)是一個熱點政治、社會和道德問題,獲得贊同的是,醫(yī)療保健信息可被用來引導至醫(yī)療保健資源更加有效力和有效率的使用。(B)醫(yī)療保健中數(shù)據(jù)的角色——適當?shù)尼t(yī)療保健數(shù)據(jù)的分析可用于廣泛范圍的應用,包括改進醫(yī)療保健提供的效力、安全性和效率的方式的辨別;以理解風險因素和醫(yī)療選擇的回顧性群體研究;公共健康和流行病研究;對醫(yī)療保健過失和公司問題的理解,以及對醫(yī)療保健專業(yè)人員和用戶(醫(yī)療保健市場)之間醫(yī)療保健創(chuàng)新交流方式效力的理解;許多這種應用有助于更好更多的有效的醫(yī)療保健系統(tǒng)。(C)健康事務數(shù)據(jù)源——醫(yī)療保健就醫(yī)資料、事務數(shù)據(jù)和醫(yī)學數(shù)據(jù)被多個醫(yī)療保健機構創(chuàng)建、儲存和傳達。醫(yī)療保健提供者頻繁地初始化大量數(shù)據(jù),例如他們的診斷、執(zhí)行臨床試驗、執(zhí)行醫(yī)療流程、以及開藥治療。臨床信息要素也存在于實驗室、藥房、HMO和其它醫(yī)療保健支付者,以及例如交流中心和PBM的一些其它服務機構。健康事務數(shù)據(jù)在美國被例如HIPAA的隱私標準保護。通過對病人身份適當?shù)厝プR別化,在醫(yī)療保健系統(tǒng)的許多領域中。數(shù)據(jù)用于生成這些數(shù)據(jù)的機構內的內部應用或外部引用。(D)集合的去識別化數(shù)據(jù),醫(yī)師級別——在制藥行業(yè),數(shù)據(jù)通常直接用于制藥公司的促銷。典型地,藥房數(shù)據(jù)集被集合至醫(yī)師(或開方者)級別并包括共享和卷數(shù)據(jù)(Total Rx 和New Rx或TRx和NRx)。在生成所述資料組時,原始可識別的和完整的數(shù)據(jù)被去識別化、 并被集合,因此,“較低分辨率”的數(shù)據(jù)可用作輸出,換句話說,原始資料組的一部分被遺棄并不再用于分析。(E)縱向病人級別數(shù)據(jù)——第二級別的數(shù)據(jù)現(xiàn)也可用于醫(yī)藥領域。其被頻繁地稱為匿名(或去識別化)病人級別數(shù)據(jù),這些數(shù)據(jù)集隨著時間鏈接同一人的一些記錄,因此提供了對用戶和醫(yī)師更好的理解。這些資料組從不包括可識別的病人信息,一些時候也缺乏醫(yī)師身份。在生成這些數(shù)據(jù)集時,原始可識別的和完整的數(shù)據(jù)被去識別化、并被集合,因此, “較低分辨率”的數(shù)據(jù)可用作輸出,換句話說,原始資料組的一部分被遺棄并不再用于分析。 另外,有時某些方法,例如單向散列加密,可用于隨時間和跨數(shù)據(jù)集識別相同的實體。鏈接或匹配同一人或實體的記錄的恒定單向散列的使用可能具有在以下方面的許多缺陷下游再識別的風險(例如,通往單向散列和一組個人信息的入口可能允許個人加密身份的生成, 因而允許再識別),以及顯著地降低了匹配和/或鏈接容量。(F)直接面向用戶,作為趨勢的DTC (Direct-to-Customer,直接面向用戶)—— 特別地,制藥行業(yè)(某些時候或是醫(yī)療裝置制造商),直接與用戶交流以驅動其對多種醫(yī)療條件和具體產品的認識。直接面向用戶市場自1997年FDA釋放其在這種行為上的限制后得到顯著的發(fā)展。DTC主動行為通過一對一的對話從廣告延伸至更加具有目的性的主動行為。一些主動行為特別地針對某特定藥物的使用者以鼓勵他們正確地、或按照處方地、和用于長期條件地使用產品,鼓勵使用者長時間的(持續(xù)性)使用該藥物。DTC促銷行為是本文定義的健康計劃的示例。(G)作為主要健康問題的服從治療(服從性)——許多醫(yī)療保健的利益相關者理解到加強對醫(yī)生開方的藥物治療的服從性的需求。世界衛(wèi)生組織公布了名為“服從長期的治療行為的證據(jù)”(“Adherence to Long-Term Therapies: Evidence for Action,,)的石if 究。作為該研究報告的引言中的一部分,WHO (世界衛(wèi)生組織)指出——服從治療是治療成功的主要決定因素。貧乏的服從性削弱了最佳的臨床效果,并因此減少了健康系統(tǒng)的整體效力。“藥物不會有用如果你不使用它們”——藥物不會有效如果病人并不遵從指示的療法,在發(fā)達國家的患有慢性病的病人中只有50%服從治療建議。提高服從性是對所有醫(yī)療保健的利益相關者有益地、需要更多改進的改進之一。多個精細的健康計劃,如本文中定義的,由多位贊助者以提高服從性為目的而發(fā)起。(H)健康計劃和采集數(shù)據(jù)的本質;介入和可能合并的類型——存在著許多不同類型的健康計劃,同樣的,存在著許多對贊助和給出這些計劃感興趣的不同實體?;谫澲?(政府、ΗΜ0、雇主、制藥公司等等)目的可不同。健康計劃可具有以下目的提高產品認知、 獲取新的用戶、鼓勵病人服從藥物治療規(guī)則、擴展全面的診斷市場、提高醫(yī)療保健結果,提高生活質量、減少醫(yī)療保健系統(tǒng)的全面成本等等。其它非醫(yī)藥制造商贊助的健康計劃可包括公共健康努力或疾病/護理管理,以及其它由醫(yī)療保健協(xié)會、付款人和其它人發(fā)起的健康促進計劃。(I)當數(shù)據(jù)存在隱私問題時,目標用戶計劃測量的不充足性——測量用戶健康計劃的效果的挑戰(zhàn)愈發(fā)顯著,尤其是當健康計劃贊助者沒有他們管理下的目標群體的全部醫(yī)療保健信息。通往數(shù)據(jù)和隱私的入口被限制,贊助組織不得不用非常有限的方法評價他們努力的結果。如在本部分之前所描述的,HIPAA設置了對個人健康信息和現(xiàn)有的去識別化方法的大量限制,可能致使用于測量健康計劃效果的信息無用。自然地,由于受限制的測量能力,極少的資源被贊助者用于實施有價值的健康計劃,例如服從性計劃。(J)健康計劃的“軟”測量,行為或自我報告測量——作為以上提及的限制的結果, 用于評價健康計劃和市場計劃、影響用戶/病人群體的子集的現(xiàn)有方法包括例如病人調查問卷的自我報告數(shù)據(jù),或例如發(fā)送至用戶的信息的數(shù)量的行為測量等等。其它途徑包括 (i )消費者被定期調查的消費者樣本( )區(qū)域的或相反專注的主動行為可以被區(qū)域性分析測量(iii)其它的用以推斷病人行為的相當復雜和受到限制的方法?,F(xiàn)在,在這些和無數(shù)其它(關于非健康系統(tǒng))例子中,如果數(shù)據(jù)隱私限制被移除,這可以被理解將發(fā)生許多有用的改進——鑒于記錄可以根據(jù)姓名和/或ID被對準——因此向研究者以充分地更高分辨率呈現(xiàn)真實的描寫。然而,如果這種合并被允許,將有無數(shù)的機會違背法律和法規(guī)侵害個人隱私——導致許多個人停止向他們的HMO和醫(yī)療保健提供者、 人口統(tǒng)計局提供精確信息,和/或停止使用他們的信用卡等等。因此,此領域長久以來就需要一種協(xié)議,該協(xié)議允許更高分辨率的查詢和隱私敏感數(shù)據(jù)的操作,同時保護個人隱私。此外,朝著在維護隱私的同時更好的使用數(shù)據(jù)的方向前進是合理的。關鍵定義
數(shù)據(jù)源實體——生成、獲取或儲存(例如在醫(yī)療保健行業(yè))包括可識別的個人健康信息的醫(yī)療和就醫(yī)數(shù)據(jù)的機構。包括醫(yī)師辦公室、醫(yī)院、實驗室和其它醫(yī)療保健提供者;藥房; 和HM0s、MC0s、自我保險雇主、保險公司、PBMs和其它類似實體。還包括就醫(yī)交流中心和任何其它HIPAA定義的“適用實體”。在概念上,該源實體包括在隱私協(xié)議(例如HIPAA商業(yè)伙伴協(xié)議)下為源實體以賣主運作的其它實體。此外,還有非醫(yī)療保健數(shù)據(jù)源實體——例如信用卡公司、征信所、保險公司、銀行、人口調查局、社會服務機構、執(zhí)法機構、或類似的,所有這些實體分享作為其中包括個人可識別數(shù)據(jù)的無數(shù)數(shù)據(jù)的采集者和維護者的普通功能。數(shù)據(jù)用戶實體——愿意獲取分析性服務的機構,該服務用于答復市場化、可操作性、質量,(例如)健康結果或關于特定(例如)健康計劃、主動行為、子集或全部市場等的其它商業(yè)相關問題。數(shù)據(jù)用戶實體對戰(zhàn)略和戰(zhàn)術上的分析感興趣以幫助他們優(yōu)化他們的資源投入以實現(xiàn)他們的目的。其例子可以為政府、研究者、產品和服務(例如)醫(yī)療保健公司等。 特別地在醫(yī)療保健領域,詳細的群體信息在公共健康趨勢的鑒別、回顧性健康結果、臨床研究和發(fā)展、醫(yī)療過失和其它有價值的醫(yī)療保健應用上扮演著卓越的角色。數(shù)據(jù)始發(fā)實體——生成、獲取或儲存?zhèn)€人可識別的信息(“始發(fā)信息”)的機構,從其中可生成滿足查詢單個或多個條件的實例的列表。當然,查詢涉及數(shù)據(jù)用戶實體愿意答復的問題。數(shù)據(jù)始發(fā)實體可包括醫(yī)療保健機構,比如醫(yī)師辦公室、醫(yī)院、實驗室和其它醫(yī)療保健提供者、藥房、HMOs、MCOs,自我保險雇主、保險公司、PBMs、就醫(yī)交流中心和其它這種實體。數(shù)據(jù)始發(fā)實體也可包括在隱私協(xié)議下為數(shù)據(jù)源實體以賣主運作的其它實體。還包括非醫(yī)療保健數(shù)據(jù)始發(fā)實體,例如信用卡公司、征信所、MSOs、有線電視公司、保險公司、銀行、 人口調查局、社會服務機構、執(zhí)法機構、或類似的,所有這些實體分擔作為其中包括個人可識別數(shù)據(jù)的無數(shù)數(shù)據(jù)的采集者和維護者的普通功能。數(shù)據(jù)始發(fā)實體可以與數(shù)據(jù)源實體相同 (例如,數(shù)據(jù)用戶實體可訪問適當始發(fā)信息的時候),或這兩個實體不同(例如,數(shù)據(jù)用戶實體不能訪問適當始發(fā)信息的時候)。非醫(yī)療保健數(shù)據(jù)始發(fā)實體的一個例子是有限電視公司具有家庭有線盒頻道設定、 日常帳單信息和廣告清單的詳細記錄。該有線公司信息揭露了在特定時間特定家庭觀看了什么電視節(jié)目或其它娛樂內容,并通過這種信息推斷出該特定家庭可能被什么廣告影響。 這種始發(fā)信息可用于處理例如但不限于的以下查詢,“在數(shù)據(jù)A和數(shù)據(jù)B之間有機會觀看商業(yè)廣告X的所有家庭”。這種查詢的目的在于將廣告曝光量和交易購買信息聯(lián)系到一起,從而答復數(shù)據(jù)用戶實體(可能是醫(yī)療保健公司、消費品公司等)的關于多少觀看了特定廣告的家庭最終購買了廣告的產品或服務的問題。交叉(Crossix)——包括根據(jù)其任何實施例的即時協(xié)議一及其衍生用途的表達 (參考附圖4和5的優(yōu)選實施例細節(jié))
健康計劃——一個計劃(用作本發(fā)明優(yōu)選實施例的具體示例),其影響全部潛在群體的子集。一般說來病人、用戶、或醫(yī)療保健專業(yè)人員愿意選擇參與這種計劃,如果發(fā)起機構不被HIPAA覆蓋,發(fā)起機構會遵守其已公布的隱私政策。一般說來健康計劃獲取個人識別信息。健康計劃可包括用于示例的服從性計劃或可包括鼓勵用戶撥打免費號碼或登陸網(wǎng)站以獲得進一步信息的廣播廣告元素(例如電視商業(yè)廣告)。在電話中心或網(wǎng)站,一些用戶信息被頻繁地獲取。在健康計劃中被獲取的典型的可識別數(shù)據(jù)一包括以下字段的一些組合或類似于此的字段名;姓;出生日期或出生年份;郵政編碼;詳細地址;電話號碼;傳真號碼;電子郵件;處方醫(yī)生姓名、地址或其它標識符;醫(yī)療條件或處方藥;性別;社會保險。注意數(shù)據(jù)可變性的討論——個人數(shù)據(jù)頻繁的改變。(參考關于此的討論,美國專利號6,397,224和 SearchSoftware- -America ^"Math, Myth & Magic of Name Search & Matching”)i^@· 據(jù)的子集共同地作為具有高可能性的的唯一標識符服務。例如,出生日期和電話號碼可共同作為唯一標識符服務。數(shù)據(jù)源實體信息結構(典型的醫(yī)療保健相關標識符)可包括上述全部或部分字段外加唯一成員ID。(注意,參考美國專利號5,544, 044 ;美國專利號5,835,897 和美國專利號6,370,511以獲得醫(yī)療保健數(shù)據(jù)結構的詳細描述)。本發(fā)明的優(yōu)點、目的和益處
人類工程學方面本發(fā)明的優(yōu)選實施例允許對“源實體”的原始數(shù)據(jù)的分析在其原始的和最細節(jié)的形式(高分辨率數(shù)據(jù))下進行,包括對當前處理的所有隱私敏感數(shù)據(jù)的完全訪問,同時維護現(xiàn)有隱私限制至集合處理器。此外,高分辨率分析可在多個不同“源實體”上執(zhí)行,每個實體都可維持其隱私限制,但在一定條件下該數(shù)據(jù)可被集合處理器集合到一起以提供更加全面的分析。多個不同實施例將在下文中描述,其中大部分涉及具有通往單個或多個數(shù)據(jù)實體的信息的路徑的集合處理器。然而,在下文描述的另一實施例中,其集合處理器并不具有通往單個/多個數(shù)據(jù)用戶實體或單個/多個數(shù)據(jù)源實體的完全路徑——由于單個/多個數(shù)據(jù)用戶實體和單個/多個數(shù)據(jù)源實體的信息都是隱私敏感的且不能與集合處理器共享。但在后一實施例中,集合處理器具有通往查詢的匹配和去識別化的結果的路徑,因此集合處理器可分析那些結果并將最終分析結果發(fā)送至單個/多個數(shù)據(jù)用戶實體。該后一實施例,可被認為是“雙盲”實施例,由于單個/多個實數(shù)據(jù)用戶體(和/或單個/多個數(shù)據(jù)始發(fā)實體) 的隱私敏感信息和單個/多個數(shù)據(jù)源實體的隱私敏感信息對集合處理器都是不可見的,其在單個/多個數(shù)據(jù)用戶實體(和/或單個/多個數(shù)據(jù)始發(fā)實體)的信息是敏感的,甚至不能暴露給集合器的情況下具有優(yōu)勢。經(jīng)濟方面本發(fā)明的優(yōu)選實施例允許對當前存在于“源實體”處理器中數(shù)據(jù)的潛在價值的增加一個數(shù)量級上的利用,其間僅增加了“集合”處理器名義上的花費。此外,“集合” 處理器上的花費對于為位于“源實體”處理器的隱私敏感數(shù)據(jù)定義和提供訪問路徑是非常重要的。技術方面本發(fā)明的優(yōu)選實施例主要地由軟件包組成,每一軟件包參予不同的數(shù)據(jù)處理機器,軟件包與其各自機器或通過網(wǎng)絡連接至該機器的機器上的數(shù)據(jù)庫包交互。軟件包采用標準數(shù)據(jù)通信設施(例如,互聯(lián)網(wǎng),VPN等)彼此互相連接。因此,從技術的角度來講,本發(fā)明的實施例是準常見軟件模型的卷積——可在當今數(shù)據(jù)復雜環(huán)境下直接執(zhí)行。
發(fā)明內容
本發(fā)明涉及隱私安全數(shù)據(jù)挖掘協(xié)議,其實施例明顯地滿足了前述的長期需求。這種協(xié)議在社會電腦的交互中特別有用,其允許具有實際存在的需求和經(jīng)濟效益的更高分辨率的查詢和隱私敏感數(shù)據(jù)的處理,但其同時不允許個人隱私被侵害。涉及隱私保護數(shù)據(jù)挖掘協(xié)議的本發(fā)明的實施例,(參考圖3)在一個安全的“集合” 數(shù)據(jù)處理器300和至少一個安全的“源實體”數(shù)據(jù)處理器350之間運行,其中所述“集合” 器和“源實體”處理器通過電子數(shù)據(jù)通信拓撲結構399交互,該協(xié)議包括以下步驟
(A)“集合”處理器一側
(i )從一個用戶界面——接受315 —個對照多個預定屬性的查詢并隨后形成參數(shù)列
表,
(ii )通過拓撲——傳輸320參數(shù)列表至每一“源實體”處理器,
(iii)通過拓撲——從每一“源實體”處理器接收325各自的文件;
(iv)集合330多個文件至數(shù)據(jù)倉庫,
(ν )采用參數(shù)列表,從數(shù)據(jù)倉庫中提取335查詢的有關數(shù)據(jù),
(vi)聚集340所提取的數(shù)據(jù),以及
(vii)至用戶界面——報告345所聚集的提取數(shù)據(jù),以及
(B)每一個至少一個的“源實體”處理器中的一側
(i )累積355數(shù)據(jù)項,其中一些數(shù)據(jù)項具有隱私敏感微數(shù)據(jù), (ii )采用多個預定屬性組織360數(shù)據(jù)項,
(iii)通過拓撲——自“集合”處理器接收365參數(shù)列表,
(iv)根據(jù)參數(shù)列表通過“嚼碎”所述數(shù)據(jù)項以形成370文件,
(ν )過濾375文件中其具體項目少于隱私敏感事務數(shù)據(jù)中預訂項目數(shù)的部分, (vii)通過拓撲——傳輸380文件至“集合”處理器。
參考附圖4,4A (附圖4的概念上更加詳細的視圖),以及附圖5,讓我們來檢查每一子步驟并解釋其完成了什么,及其它們是如何共同地根據(jù)前述的長期需求實現(xiàn)了改進。隱私保護數(shù)據(jù)挖掘協(xié)議的實施例在,一個安全的“集合”處理器——其是中心數(shù)據(jù)處理機器——和至少一個安全的“源實體”數(shù)據(jù)處理器——其是各自包括具有例如姓名、身份證號碼、或其它類似的隱私識別數(shù)據(jù)的記錄的其它的數(shù)據(jù)處理器,之間運行。在本發(fā)明之前,僅存在“源實體”機器采用隱私識別字段為內部用途查詢這些記錄的實踐,例如將個人的多條記錄看作一個單獨的單元等。然而,這通常在法律上是被禁止的,因為“源實體”共享和/或出售包括隱私敏感字段,或那些關聯(lián)至其它數(shù)據(jù)的致使隱私敏感標識符被“猜出” 的其它字段。因此,“源實體”數(shù)據(jù)采集者環(huán)繞更大的族變量來壓縮他們的數(shù)據(jù)成為慣例,例如通過年齡組或州籍或性別。但這種實踐通過將他們的身份融入至其它人所構成的全體中從而保留了個體隱私,也同時阻止了外部研究者從“源實體”的數(shù)據(jù)中獲利?,F(xiàn)在,“集合”和“源實體”處理器通過電子數(shù)據(jù)-通信拓撲——例如互聯(lián)網(wǎng),或虛擬回路等類似的交互;這些都消除了集中處理器的需求。相反,處理器可保持為分布式地布置,就像當今世界中的情況。總結至此,這種協(xié)議采用數(shù)據(jù)通信設備以使一個中心集合處理器與至少一個源實體處理器進行交互。每一源實體處理器具有各自的隱私敏感數(shù)據(jù)內容以及其它方面的數(shù)據(jù)內容?,F(xiàn)在,根據(jù)這種協(xié)議,在“集合”處理器(A)—側,存在七個子步驟。首先,“(A- i) 自用戶界面——接收對照多個預定屬性的查詢和用其形成參數(shù)列表”的子步驟建立集合器作為查詢的焦點,其中查詢可包括源實體不能透露至“外人”的有問題的隱私-敏感信息。 本質上,在本發(fā)明的內容中,列表的參數(shù)可包括披露身份的細節(jié)一一其可能甚至無法通過具有名義上的隱私閾值的普通標準,和/或更廣的變量——其可能通過正常,嚴格,或具有絕對隱私閾值的普通標準。這些披露身份的詳情可以是類似姓名、個人身份號碼或如果用于披露用戶身份將違背隱私保護的簡單數(shù)據(jù)的組合。本發(fā)明的方法的進一步應用的重要之處在于,這些披露身份的細節(jié)是查詢處理中的足夠大的列表的一部分,從而查詢結果將呈現(xiàn)充分的統(tǒng)計分布以保護該結果的“逆向工程”返回至最初查詢列表中的任何個體。例如,本發(fā)明的方法能詢問Tom、DiCk、Harry的狀態(tài),和個體的進一步聚集——以及從查詢中獲得結果——只要這些結果的統(tǒng)計特性并不允許結果細節(jié)具有返回至個體的關聯(lián)。因此,可能存在的是,查詢包括 10,000個人ID的列表,結果顯示出這些個體屬于具有60%可能性的群體A、具有25%可能性的群體B、以及具有剩下的15%可能性的群體C-E中的一組。相應地,傳輸參數(shù)列表可包括傳輸足夠大的含有身份披露細節(jié)的列表。簡單地說,集合器可接收包括許多身份詳情(例如,姓名的列表、或一起能允許身份辨識的幾個字段的組合的列表)的查詢——人們并不期望在任何隱私保護方式中這種類型的查詢得到應答。該子步驟必需將假設關于數(shù)據(jù)(用戶想知道的關系)的模型庫轉換至根據(jù)被集合器和源實體共同接受的共享的可變定義的形式語言查詢短語。參數(shù)列表可包括將被分析的總體的定義,例如通過地域、年齡或其它屬性。本發(fā)明的協(xié)議最新穎的特征之一在于參數(shù)列表甚至可通過姓名或ID或類似的項目將特定的個體包括在內。在群體定義中個體的數(shù)量大到足夠將關于個體的個人信息的最終結論稀釋至群體(姓名的)數(shù)據(jù)的“大?!敝惺潜匾?。根據(jù)某些特定實施例,全部或部分參數(shù)列表被加密。接下來,“(A- ii)通過拓撲,傳輸參數(shù)列表至每一“源實體”處理器”的子步驟發(fā)送制定的查詢——以任何被集合器和每個各自的源實體共同接受的格式??赡馨l(fā)生的是,集合器用短語描述制定的查詢至一些源實體比至其它源實體困難——這可能就是最實際的實施例。其后是“(A-iii)通過拓撲,從每一“源實體”處理器接收各自文件”的子步驟,據(jù)此集合器從每一源實體接收一些答復(或空值答復);然而,(如我們將從本發(fā)明的協(xié)議的源實體一側理解到的)當問題包括要求根據(jù)隱私敏感數(shù)據(jù)方面的源實體關聯(lián)數(shù)據(jù)的參數(shù),答復被壓縮至一種無身份識別的表現(xiàn)形式。例如,在一個不尋常的假設的測試中,查詢要求將具有特定建康問題和接受特定治療的病人按照他們的高級主治醫(yī)師分類。為了答復該查詢,源實體必須比較具有相同病人姓名和IDs的記錄和姓名和ID專業(yè)醫(yī)師記錄。然而,答復是比較于多個病人數(shù)據(jù)的數(shù)據(jù)族將高級醫(yī)師歸為一類的表格。根據(jù)該例的這個表格,一個藥物公司用戶可以自多個HMO 源實體記錄中找出該公司的療法的主要市場對象一高級醫(yī)師或初級醫(yī)師,或兩者。簡單地說,查詢測試了關于病人屬性的可能的假設——這種查詢對制藥公司具有有趣的經(jīng)濟暗示。接下來,“(A-iv)集合多個文件至數(shù)據(jù)倉庫”進一步保護了隱私,通過將單個源實體的響應捆綁至一個大的源實體的去識別化的數(shù)據(jù)收集,并同時將來自多個分散和不同的數(shù)據(jù)源的結果傳送出去。因此,“(Α- ν )采用參數(shù)列表,從數(shù)據(jù)倉庫中提取查詢的有關數(shù)據(jù)”的子步驟允許用于獲取數(shù)據(jù)倉庫的所有相關數(shù)據(jù)至單一的臨時集合,所述單一的臨時集合包括來自一個或多個源實體查詢-回答循環(huán)的回答和可能來自源實體或其它實體的普通報告中的其它數(shù)據(jù)?,F(xiàn)在,在“ (A-vi)聚集所提取的數(shù)據(jù)”的子步驟中,支持或拒絕查詢條件的所有數(shù)據(jù)的濃縮圖片被總結到一起,最后進入“ (A-vii)至用戶界面——報告所聚集的提取”的子步驟。此外,(B)在至少一個“源實體”處理器的每一個處理器一側,最先的兩個子步驟要求普通的操作——例如“(B- i )累積數(shù)據(jù)項,其中一些數(shù)據(jù)項具有隱私敏感微數(shù)據(jù), (B- ii )采用多個預定屬性組織數(shù)據(jù)項”。其后,子步驟(B-iii)通過拓撲——自“集合”處理器接收參數(shù)列表使得源實體開始參與入由用戶發(fā)起的、正在被集合器管理的“工程”中。由此處,接下來的“(B- iv)子步驟根據(jù)參數(shù)列表的數(shù)據(jù)項通過“嚼碎合并”形成文件,引起每個各自的源實體執(zhí)行必要的內在數(shù)據(jù)庫查詢、以及執(zhí)行必要的臨時數(shù)據(jù)-內在關系的關聯(lián)和構造,以獲知對通過集合器發(fā)送出的起始用戶查詢的本地答復。如果參數(shù)列表包括姓名或ID或其它類似的特定個體,“嚼碎合并”可包含通過“模糊邏輯”的姓名匹配算法或者其它帶有源實體數(shù)據(jù)庫姓名的參數(shù)列表所定義的群體姓名匹配算法,除前述定義的其它步驟之外。完成之后,“(B- ν)過濾文件中其具體項目少于隱私敏感事務數(shù)據(jù)中預訂項目數(shù)的部分”消除了答復中的可能允許用戶通過某些數(shù)據(jù)屬性猜出個人身份的部分——這是因為數(shù)據(jù)屬性屬于個體或屬于非常小的成員群體。這個步驟是必要的——因為其消除了源實體和集合器之間關系的信任程度。憑著良心,源實體具有保護其數(shù)據(jù)集合中個體身份的職責。簡單地說,本發(fā)明的內容中,過濾是實施“源實體”級別上的隱私閾值的同義詞。在HIPAA例子中,統(tǒng)計學家制定的標準設定允許的字段和需要的數(shù)值級別以界定 “去識別化”的結果。最后,為完成協(xié)議,還剩下根據(jù)本領域已知的方法實現(xiàn)(B- vi)通過拓撲——傳輸文件至“集合”處理器的子步驟?;仡櫽脩?、集合器、和源實體之間的關系,可注意到,用戶被允許使用短語查詢,其可能導致源實體執(zhí)行要求個人身份的具體數(shù)據(jù)的數(shù)據(jù)庫功能——但其并不導致身份信息本身在超出源實體權限外被揭露。第二,集合器可收集并匯編來自多個數(shù)據(jù)集合(源實體) 的身份保護報告,并將它們匯編入一份單獨的報告,因此潛在地大大增加了從集合器報告提取至用戶的結論的統(tǒng)計意義。此外,可能來自單個源實體的全部或者大部分結果的每一揭露的方面都被保護。舉例,了解到一個HMO的醫(yī)師完全不同于其它HMO的醫(yī)師的看法可能在政治上是非常敏感的——通過采用集合器可將這種特性向用戶方隱藏。根據(jù)本發(fā)明的第一優(yōu)選實施例,聚集所提取的信息包括過濾出所提取的信息中其具體項目少于隱私敏感事務數(shù)據(jù)中預訂項目數(shù)的部分。根據(jù)此實施例的一個首選的變種, 所述過濾出來的提取信息的具體項目少于預定數(shù)量數(shù)據(jù)項的部分包括從所述列表、序列號、數(shù)據(jù)倉庫中實例的百分比、平均值外數(shù)據(jù)實例和標準偏差單元的預定數(shù)目的和中挑選出來的特定數(shù)目。根據(jù)本發(fā)明的第二優(yōu)選實施例,集合所提取的信息包括過濾出的所提取信息的一部分,從而僅保留了無身份信息的微數(shù)據(jù)或無身份信息的集合數(shù)據(jù)。根據(jù)本發(fā)明的第三優(yōu)選實施例,接收查詢包括執(zhí)行對照預定源實體數(shù)據(jù)總體模型的隱私核查的預處理。根據(jù)本發(fā)明的第四優(yōu)選實施例,“合并”數(shù)據(jù)項包括加入具有共同或相似微數(shù)據(jù)細節(jié)(舉例,具有例如別名、前綴、后綴等的變型的相似的姓名)的數(shù)據(jù)項。根據(jù)本發(fā)明的第五優(yōu)選實施例,從集合、提取、聚集、累計、組織和合并的子步驟的列表中選出至少一個子步驟包括模糊匹配。根據(jù)本發(fā)明的第六優(yōu)選實施例,(在源實體處理器一側)過濾出的其具體細節(jié)少于微數(shù)據(jù)特定的數(shù)據(jù)項的預定數(shù)量的部分包括從列表、普通數(shù)目、數(shù)據(jù)倉庫中實例的百分比、 在加上和/或減去標準偏差單元的預定數(shù)目后的平均值或中位數(shù)外的數(shù)據(jù)實例量中選擇所述預定的數(shù)量。根據(jù)本發(fā)明的第七優(yōu)選實施例,接收查詢包括將查詢轉換至標準查詢——其能夠產生所聚集的提取信息的聯(lián)合報告。本文中,優(yōu)選的是,使用直接將查詢的各方面鏈接到報告的各方面的標示語言——鑒于各個公司將采納該協(xié)議以生成大體上實時的“證明”是可預期的。本發(fā)明的附屬實施例涉及(參考圖6)可被機器讀取的程序存儲器裝置600,其實質地體現(xiàn)可被機器執(zhí)行以完成用于隱私保護數(shù)據(jù)挖掘協(xié)議中“集合器”數(shù)據(jù)處理器功能的方法步驟的程序,這種方法步驟包括從一個用戶界面——接受610對照多個預定屬性的查詢和使用其構成620參數(shù)列表,通過電子數(shù)據(jù)通信拓撲——傳輸630參數(shù)列表至至少一個“源實體”處理器,通過所述通信拓撲,從每一 “源實體”處理器接收640各自的文件,集合650多個文件至數(shù)據(jù)倉庫,采用參數(shù)列表,從數(shù)據(jù)倉庫中提取660查詢的有關數(shù)據(jù),聚集 670所提取的數(shù)據(jù),以及至用戶界面——報告680所聚集的提取的數(shù)據(jù)。本發(fā)明的其它附屬實施例涉及(參考圖7)可被機器讀取的程序存儲器裝置700, 其實質地體現(xiàn)可被機器執(zhí)行以完成用于隱私保護數(shù)據(jù)挖掘協(xié)議中安全“源實體”數(shù)據(jù)處理器功能的方法步驟的程序,這種方法步驟包括累積710數(shù)據(jù)項,其中一些數(shù)據(jù)項具有隱私敏感微數(shù)據(jù),采用多個預定屬性組織720數(shù)據(jù)項,通過電子數(shù)據(jù)通信拓撲——自“集合”處理器接收730參數(shù)列表,根據(jù)參數(shù)列表的數(shù)據(jù)項通過“嚼碎合并”形成740文件,過濾出 750文件的一部分,該部分具有具有細節(jié)少于微數(shù)據(jù)特有數(shù)據(jù)項的預定數(shù)量的特征,以及通過拓撲——傳輸760文件至“集合”處理器。盡管有上述實施例,本發(fā)明的通用實施例(參考圖8)涉及隱私保護的數(shù)據(jù)挖掘協(xié)議800,大體上如本文之前描述和解釋的,其特征在于其首先具有至少一個相互獨立的安全的“源實體”數(shù)據(jù)處理器810并各自根據(jù)參數(shù)列表通過“嚼碎合并”數(shù)據(jù)項形成820文件, 然后分別過濾出830文件的一部分,該部分具有具體細節(jié)少于微數(shù)據(jù)特有數(shù)據(jù)項的預定數(shù)量的特征;第二,其具有安全的“集合”數(shù)據(jù)處理器850集合860多個文件至數(shù)據(jù)倉庫。此外,本協(xié)議的其它變型實施例是雙向的——意味著“源實體”和“集合”處理器之間的基礎關系是反轉的和/或可逆的!
因此,本發(fā)明的隱私保護的數(shù)據(jù)挖掘協(xié)議的基礎實施例在安全的“集合”數(shù)據(jù)處理器和至少一個安全的“源實體”數(shù)據(jù)處理器之間運行的總結是正確的?!凹稀逼骱汀霸磳嶓w”處理器通過電子數(shù)據(jù)通訊拓撲交互。該協(xié)議包括數(shù)據(jù)通信協(xié)調步驟至少一個相互獨立的安全“源實體”數(shù)據(jù)處理器分別根據(jù)所述參數(shù)列表通過“嚼碎合并”數(shù)據(jù)項形成文件,隨后各自過濾文件中具體細節(jié)少于微數(shù)據(jù)特有數(shù)據(jù)項的預定數(shù)量的部分;以及安全的“集合”數(shù)據(jù)處理器集合多個文件至數(shù)據(jù)倉庫。本發(fā)明協(xié)議的實施例可適用于許多具有保持距離型數(shù)據(jù)權利關系的領域,包括 (舉例)存在于醫(yī)療保健提供商、藥房、PBM或建康維護組織(HMO)和制藥公司之間的關系; 電子貿易和市場調研之間的關系;人口統(tǒng)計局和其它政府機構之間的關系;審計員和獨立采購/服務組織之間的關系;以及其它類似的關系。本發(fā)明隱私保護數(shù)據(jù)挖掘協(xié)議的進一步的實施是值得注意的,這些實施例是能夠實現(xiàn)臨時數(shù)據(jù)合并的實施例。簡單地說,這些實施例允許數(shù)據(jù)項與普通實體有關的鏈接。舉例,一個個體曾是第一醫(yī)療保健費用保證計劃中的正式成員、隨后成為第二醫(yī)療保健費用保證計劃中的成員。如果數(shù)據(jù)源小心地采用普通加密的“密鑰”加密每條記錄的身份識別部分,并進一步延伸所述數(shù)據(jù)處理路徑時,將相關記錄鏈接到與普通個體而不會危及該個體的身份識別記錄成為可能。當然,應當特別注意實體執(zhí)行鏈接時不能獲得密鑰和解密功能;獲知這些方面可能導致違反個人隱私保護。(注意美國專利號63972M考慮到采用持有第三方密鑰以尊重個人隱私的某些方面——雖然這并不利于在多個數(shù)據(jù)記錄之間實現(xiàn)匿名鏈接)?,F(xiàn)在重新參考附圖3和8 (以及對它們各自程序存儲器裝置細節(jié)上必要的修改), 我們可以理解到其存在著能促進個人識別的加密合/或個人數(shù)據(jù)的合并的多個地方。通過非限制性地舉例,在“集合”處理器一側,在這些子步驟中可實現(xiàn)加密和/或合并接收各自的文件,或集合多個文件;或在“源實體”處理器一側,在這些子步驟中可實現(xiàn)加密和/或合并組織數(shù)據(jù)項,形成文件,或濾出文件的一部分。因此,存在著至少兩種不同的情況,自數(shù)據(jù)源的數(shù)據(jù)在分析后已集合后返回,以及第二選擇數(shù)據(jù)在微級別(每一個人的數(shù)據(jù))上透露,但用于匹配群體的個人識別信息被一個唯一的加密密鑰替代,例如單向散列或高級加密標準(AES)或類似的。這種兼容的對識別微級別數(shù)據(jù)的加密保留了獲知兩條記錄屬于同一身份的能力,但也保留了該個人身份識別的隱私。每一種情況都有可行的選項,各自具有不同的優(yōu)點或缺點。根據(jù)這種能夠實現(xiàn)臨時數(shù)據(jù)合并的實施例的優(yōu)選變型例,在數(shù)據(jù)集合器級別上將相關的微觀數(shù)據(jù)鏈接到同一身份上能力被保留——盡管這些記錄來自兩個不同的數(shù)據(jù)源。大體上,在每一數(shù)據(jù)源上執(zhí)行姓名匹配以識別某一身份的所有記錄(例如Jane Doe)。在這種識別匹配中,結果可能是同一人的個人身份標識符的幾個組合——例如(Jane Doe,(波士頓),建康計劃ID 1234)和(Jane Doe,(紐約,N. Y.),建康計劃ID 5678)可能會都出現(xiàn)在一個單一的數(shù)據(jù)源內。由于姓名匹配優(yōu)選包括“模糊邏輯”,數(shù)據(jù)源中的軟件將找出兩者。當數(shù)據(jù)源透露數(shù)據(jù)至數(shù)據(jù)集合器,個人ID將被加密——但采用與所有數(shù)據(jù)源中相同的密鑰——該密鑰優(yōu)選為不被交叉協(xié)議操作者獲知,而僅被一個例如托管代理人的可信第三方獲知?,F(xiàn)在假定第二數(shù)據(jù)源也具有針對(Jane Doe,(紐約,N. Y.),建康計劃ID 5678) 的數(shù)據(jù)。在數(shù)據(jù)集合器上,從每一數(shù)據(jù)源上接收數(shù)據(jù),并且需要知道具有Jane Doe的變化的實例與第二數(shù)據(jù)源的另一個實例是相同。解決這一問題的方法是不僅加密多個單一的 ID——因而在由第一數(shù)據(jù)源所透露的數(shù)據(jù)中——我們能獲得所有兩個密鑰和醫(yī)療保健數(shù)據(jù)(WXYZ (密鑰1),AB⑶(密鑰2),其它去識別化的醫(yī)療保健數(shù)據(jù)),并從第二數(shù)據(jù)源獲得 (WXYZ,其它去識別化的醫(yī)療保健數(shù)據(jù))。由于我們加密了能夠唯一識別個人的幾個密鑰,我們可將他們的醫(yī)療保健記錄鏈接用于更完備的分析。例如,如果某個人在某藥房履行了處方,被另一雇主雇用(因此接收了一個新的建康計劃ID),但仍使用相同的藥房,最終搬遷至另一城市;然后,采用該合并實施例,能夠分析出該個人在他的藥物治療履行處方上的服從和堅持(該個人的重要的醫(yī)療保健論據(jù))——但該個人的身份不被分析者獲知。因此,對本領域普通人員來說,前述提及的能夠實現(xiàn)臨時數(shù)據(jù)合并的實施例及類似的本質上是對微觀數(shù)據(jù)的各種嵌入加密策略和其各自的潛在優(yōu)勢的闡述是顯而易見的——全部在本發(fā)明隱私保護的數(shù)據(jù)挖掘協(xié)議的內容中。注意事項
本文在一定程度上詳細描述了本發(fā)明,但對于通曉本領域的技術人員來說,在不背離本發(fā)明精神和范圍下可以實施各種修正和改變是很顯而易見的,如下文中所要求的。舉例,優(yōu)選地,要求數(shù)據(jù)傳輸(或至少一個文件的傳輸)的步驟和每個各自相關的要求數(shù)據(jù)接收(或該至少一個文件的接收)的步驟可包括各自的加密和解密進程——不論如何,在他的具體監(jiān)管環(huán)境中這種安全方面的本性和質量都可以被系統(tǒng)管理者很好地理解。然而,通常優(yōu)選地是,包括一定程度的數(shù)據(jù)傳輸安全措施。(服從于該原則,發(fā)生在運行本協(xié)議的處理器中的程序應當是安全的——或者是被證明是安全的等等。)
在有關本協(xié)議應用的另一實施例中,可以預期到可在迄今為止嚴格區(qū)分的實體之間實現(xiàn)隱私保護的無數(shù)的例子,這些實體(“查詢關系”)——例如設法理解一個社會問題的通用特性(如記錄在無數(shù)的私人數(shù)據(jù)銀行中)而不需要個體或群體授權搜索的制藥公司和HMO (建康維護組織),市場調研和信用卡公司,政府機構和人口統(tǒng)計局,執(zhí)法機構。因此,可預期的是,至少兩個電子數(shù)據(jù)提供者中的至少一個從下述列表中選擇數(shù)據(jù)源實體,數(shù)據(jù)用戶實體,建康計劃,藥物制造商/經(jīng)銷商,公共建康校準者/監(jiān)視者;信用卡局,市場調研組織,銀行財團,人口統(tǒng)計局,政府機構,或類似的機構。進一步地,涉及“參數(shù)列表”(在本協(xié)議中形成并傳輸?shù)?中至少一個預定的最低數(shù)量的群體(被姓名或ID,地址,電話號碼,生日,電子郵箱或類似的或上述的組合識別的)的內含物——這些個體可能是人或合法的實體或機動車或電腦或具有序列號的工業(yè)產品或法律注冊號碼或許可號碼或類似的實體。重新考慮前述的優(yōu)選加密的各個方面,無疑地需要強烈建議不管選擇的加密的常規(guī)級別,包括有“多個個人”的參數(shù)列表應當機油更高級別的加密。然而,在每一“查詢關系”中,存在著可應用的不同的法律標準——例如,在美國的醫(yī)療保健中,臨時的雙方之間的結果應當是根據(jù)HIPAA (1996年的健康保險流通與責任法案)去識別化的沒有微觀數(shù)據(jù)特有的內容的數(shù)據(jù),或大體上等同于可證明在統(tǒng)計學上難以處理的數(shù)據(jù)。因此,在描述本發(fā)明時,根據(jù)當前被接受的數(shù)據(jù)處理原理和法律隱私模型來呈現(xiàn)本發(fā)明的具體實施例。這些原理和模型服從于量化(可計算的)和質化(人文的)變化。通常,由于基本成分組件的表現(xiàn)的革新,或者由于這些組件之間新的轉化的構思,或者由于對這些組件或它們的轉換的新的解釋,這些變化得以發(fā)生。因此,注意到本發(fā)明在其實施例中涉及到具體技術的現(xiàn)實化是重要的。相應地,涉及到這些實施例的基于原理或模型的解釋, 以向本領域的技術人員或技術團隊教導這些實施例如何可大體地在實際中實現(xiàn)為目的來呈現(xiàn)。對于這些實施例的改變或等同實施例不會被拒絕,也不會影響它們的實現(xiàn)。本發(fā)明的進一步的實施例參照附圖9和10。在該實施例中,集合處理器不具有訪問數(shù)據(jù)用戶實體(和/或數(shù)據(jù)始發(fā)實體)或數(shù)據(jù)源實體的權限。該實施例可被認為是“雙盲” 的,因為數(shù)據(jù)用戶實體上的隱私敏感信息以及數(shù)據(jù)源實體上的隱私敏感信息對于集合處理器來說都是不可見的。但是,集合處理器具有通往被匹配的和去識別化的查詢結果的路徑, 因此,集合處理器可以分析這些結果并將最終分析結果發(fā)送至單個或多個數(shù)據(jù)用戶實體。 與此相反,其它實施例可被認為是“單盲”的,因為數(shù)據(jù)源實體上的隱私敏感信息對于集合處理器來說是不可見的,但集合處理器具有訪問數(shù)據(jù)用戶實體(和/或數(shù)據(jù)始發(fā)實體)上的信息的權限,即使這些信息具有隱私敏感性。該雙盲實施例用于數(shù)據(jù)用戶實體(和/或數(shù)據(jù)始發(fā)實體)上的信息是敏感的,以至于集合器不應當接觸這些信息的情形。這種情形的一個典型的示例是數(shù)據(jù)用戶實體是具有家庭有線盒頻道設定、日常帳單信息和廣告清單(例如,在哪個時間、那個頻道上播出的哪些廣告)的詳細記錄(可能是瞬間的)的有線電視公司。換句話說,有線電視公司的信息揭露了一個特定的家庭在一個特定的時間觀看了什么電視節(jié)目或其它娛樂內容,通過這些信息可以推斷出該特定的家庭被哪些廣告影響。有線電視公司的信息是隱私敏感、并不能透露至集合器的,這是因為其包括了姓氏、用戶住址、或其它識別標記以及有關該家庭可能并不希望被其它人得知的節(jié)目觀看習慣的信息。確實,有線電視公司可能也希望將具體家庭的觀看習慣保留為隱私,以避免該有線電視公司未能保護其客戶隱私的負面名聲。潛在地具有不能被透露至集合器的隱私敏感信息的數(shù)據(jù)用戶實體的其它示例包括信用卡公司、航空公司、汽車出租公司、出版商和在線媒體公司,以及例如藥房、醫(yī)院和管理醫(yī)療組織等醫(yī)療保健公司。當醫(yī)療保健公司作為數(shù)據(jù)用戶實體,對保護其隱私信息甚至不能對集合器公開的需求特別嚴格,這是因為包括HIPAA在內的各種法律法規(guī)要求完全的隱私。數(shù)據(jù)用戶實體上的信息可能是隱私敏感的其它原因是其可能甚至不是數(shù)據(jù)用戶實體自身的信息。相反,該信息可以是該數(shù)據(jù)用戶實體從第三方處獲得,而該第三方要求該信息被保留為隱私?;蛘?,這種“源信息”可以對該數(shù)據(jù)用戶實體完全不可用,相反,其可以由與該數(shù)據(jù)用戶實體并不連接的第三方的數(shù)據(jù)始發(fā)實體提供。后一種情形將在附圖 11和12中示出,由以下情形為例說明數(shù)據(jù)用戶實體是希望特定商業(yè)問題被答復的制藥公司。制藥公司沒有通往源信息的途徑,源信息替代地由第三方提供——例如一個有線電視公司——具有可以產生滿足查詢條件的具體實例的列表的適當?shù)男畔?。在這種情形下,數(shù)據(jù)用戶實體未參與程序前端的列表產生過程。然而,數(shù)據(jù)用戶實體當然仍從程序后端的集合器接收分析結果,因而數(shù)據(jù)用戶實體的商業(yè)問題得以答復。同樣可以理解的是,上述討論的情形,其中數(shù)據(jù)用戶實體不具有通往任一或全部源信息的途徑,至少一些源信息替代地由第三方提供——“數(shù)據(jù)始發(fā)實體”——具有可以產生滿足查詢條件的具體實例的列表的適當?shù)男畔ⅲ部纱嬖谟诒疚拿枋龅膯蚊嵤├小?也可以這么說,其中獨立的數(shù)據(jù)始發(fā)實體(非數(shù)據(jù)用戶實體)供應源信息的情形可存在于源信息可與集合器共享的情況下,也可存在于源信息不可與集合器共享的情況下。
為了更好地理解本發(fā)明以及了解其如何在實踐中被實現(xiàn),本說明書接合附圖通過以非限制性示例的方式描述了包括優(yōu)選實施例在內的本發(fā)明的具體實施例。此外,參閱附圖以及接下來的描述,可以更加全面地理解本發(fā)明及本發(fā)明的優(yōu)點,其中相同的附圖標記識別相同的特征,其中
附圖1和2示出本領域先前方法的流程示意圖; 附圖3和8示出本協(xié)議各個實施例的示意圖; 附圖4、4A和5示出本協(xié)議優(yōu)選實施例的細節(jié);
附圖6和7示出其中分別儲存有本協(xié)議的部分的程序存儲器裝置的示意圖; 附圖9和10是示出了本發(fā)明的雙盲實施例的流程示意圖,其中集合處理器不具有訪問數(shù)據(jù)用戶實體或數(shù)據(jù)源實體的信息的權限——但,集合處理器具有訪問被匹配的和去識別化的查詢結果的權限;
圖11和12是示出了本發(fā)明附加的雙盲實施例的流程示意圖,其中源信息由替代數(shù)據(jù)用戶實體的數(shù)據(jù)始發(fā)實體提供。
具體實施例方式應當注意僅為了簡單起見——以本領域普通技術人員能夠領會本協(xié)議的特性為目的,詳細的范例(非限制性)來自醫(yī)療保健工業(yè)。做出這個選擇的另一個原因是服從HIPAA (1996年的健康保險流通與責任法案)的規(guī)定是個難以解決的問題,此問題已被充分記錄以供作為衡量本發(fā)明的效果的客觀的度量標準使用。因此,本示例涉及采用本發(fā)明所提出的協(xié)議的實施例作為保護參與者隱私的同時分析健康計劃的計算機執(zhí)行方法。(涉及醫(yī)療保健信息系統(tǒng)的具體背景信息在背景技術章節(jié)的后部分中得以介紹。)
簡單地說,此實施例是計算機執(zhí)行的用于分析健康計劃——以輔助計劃規(guī)劃師,例如來自醫(yī)藥制造商或其它建康促進管理者的市場管理者,通過與實驗對照組進行比較,來評價一大組被特定建康計劃所影響的參與者的集合行為。對特定計劃的影響的評價可通過描繪出參與者集合的客觀建康事務數(shù)據(jù)(藥物、治療、診斷、實驗等)的資料來完成,并通過與一個合理定義的對照組比較來對該建康計劃的各種效果做出結論,其間遵從現(xiàn)有的并處于發(fā)展階段的隱私標準或法律,例如HIPAA。客觀建康事務數(shù)據(jù)歸屬于例如醫(yī)療服務提供者(醫(yī)生、醫(yī)院、實驗室等)的醫(yī)療保健機構和建康計劃(管理醫(yī)療計劃、ΗΜΟ,ΡΡ0,保險公司、醫(yī)藥福利管理者、自助雇主、州和聯(lián)邦政府醫(yī)療福利計劃等)范圍內。這些結構被一套隱私標準、規(guī)則和例如HIPAA的法規(guī)所指導,因此在其包括可識別的個人建康信息的醫(yī)療保健信息的使用上存在一些限制。在使用本協(xié)議的一個實施例中(背景)制造治療多發(fā)性硬化癥的醫(yī)藥產品的制藥公司建立了幾個建康計劃以鼓勵該藥品的用戶持續(xù)并正確地服用藥品。這種建康計劃包括配備了護士的電話中心計劃,這些護士能夠回答進行中的問題并在如何正確使用藥品上培訓用戶,還包括建康管理工具和可訪問最新疾病信息的網(wǎng)站計劃。這些醫(yī)藥建康計劃被推銷至藥品的用戶,這些用戶隨后選擇加入了該計劃成為參與者。每個計劃的參與者在其它事物中允許醫(yī)藥制造商在總體上分析他們的數(shù)據(jù)。該制造商建康計劃的一些參與者屬于集合建康事務的各種醫(yī)療保健機構,建康事務由用戶在他們的進行中的醫(yī)療保健服務和產品消費中產生。該建康事務數(shù)據(jù)包括診斷數(shù)據(jù)、治療數(shù)據(jù)、藥物數(shù)據(jù)以及有時是例如是實驗數(shù)據(jù)的臨床數(shù)據(jù)以及其它建康數(shù)據(jù)。本協(xié)議方法的應用包括必要的、充足的和可選擇的操作——根據(jù)當前非限制性示例的“現(xiàn)實”;這些操作包括在電話中心計劃和網(wǎng)站計劃中提取參與者的列表(姓名、地址和其它適用的可識別信息);提供對照組的定義。例如,消費了制造商產品、但沒有參與電話中心計劃或網(wǎng)站計劃的所有用戶;然后提供需要的分析定義。例如,對該醫(yī)藥產品的持續(xù)使用的數(shù)學定義,或消費的醫(yī)療保健的全部費用,或住院治療的費用,等。一些分析可能會相當?shù)貜碗s,采用其它程序和專利方法,例如ETG (e. g.美國專利號5835897和6370511B1); (可選的)采用任何工業(yè)級別加密方法加密該列表;將參與者的列表一起發(fā)送至在處理的時候能夠解密該列表的查詢機器(可選的)以將數(shù)據(jù)解密至存儲建康事務的一個或多個醫(yī)療保健機構。醫(yī)療保健計劃傾向于相互排斥,這意味著如果一個成員屬于任一計劃,該成員典型地僅屬于該計劃或在同一相似時間有可能僅從一個建康計劃消費相似服務。因此,可以使用這種算法——通過與多個建康計劃重復同一程序;然后簡單地對所有建康計劃的結果進行求和。對每一建康計劃查詢機器允許“模糊匹配”算法以將醫(yī)藥建康計劃中的參與者和醫(yī)療保健機構的建康事務進行匹配;對所有匹配的用戶,查詢機器運行分析他們的建康事務數(shù)據(jù)以確定所要求分析的結論(例如使用醫(yī)藥產品的持續(xù)性)。查詢機器運行對未匹配但滿足對照組定義的所有用戶的對照組分析(例如,醫(yī)藥產品的用戶);將結果集合至以下組 僅參與電話中心計劃的參與者,僅參與網(wǎng)站計劃的參與者,既參與了電話中心計劃、又參與了網(wǎng)站計劃的參與者,對照組(例如,沒有參與電話中心計劃或網(wǎng)站計劃的醫(yī)藥產品的所有用戶)。對每一組提供以下結果組的姓名,與醫(yī)療保健機構建康事務數(shù)據(jù)匹配的參與者的百分比,以及所有匹配成員的統(tǒng)計結果(例如平均持續(xù)率);查詢機器在保證了用戶個人隱私的情況下確定出每一計劃中參與者的數(shù)量和匹配的參與者的百分比是否超過一個級別(基于統(tǒng)計學的定義)。如果沒有,查詢機器回應以下組名“由于隱私保護而未被分析。 請嘗試定義更大的用戶組”;查詢機器的每一建康計劃的輸出被集合起來以提供一份可與醫(yī)藥制造商共享的總輸出。
在不揭露可識別身份的個人建康信息的情況下,基于客觀建康事務數(shù)據(jù),本協(xié)議方法提供有價值的建康計劃的總體評價。當下使用的大多數(shù)方法都是基于價值的“軟測量”,例如行為測量(登記的人、互動的數(shù)目,等)和/或自我報告數(shù)據(jù)(參與者填寫調查獲其它關于他們行為的問卷)?;诮凳聞盏目陀^測量可以成為用于測量這種行為的黃金標準。大多數(shù)現(xiàn)行的醫(yī)療保健的分析服務都是基于其中病人級別建康事務被去識別化、 隨后被集合并處理的模型。無疑地通過這個過程,包含有最大量信息的高分辨率的原始數(shù)據(jù)被減少至更低分辨率的數(shù)據(jù)以保護隱私和其它可能存在利益關系的內容。許多公司,包括 IMS Health、SDI (之前是 Verispan,Quintiles 和 McKesson 的合資企業(yè))、Pharmetrics、 Dendrite、Wolters Kluwer Health和其它公司都采用這種模型。這種現(xiàn)行的建康分析模型可提供醫(yī)師級別行為和去識別化的病人級別行為以及兩者合適的組合。然而,在這種模型在分析縱向的病人行為和在一些情況下將其匹配至已知的開藥者(例如醫(yī)師)上非常有效時,其無法與僅影響市場的一個子集的用戶建康計劃建立鏈接(除非該計劃與一個限制的區(qū)域有著很好的關聯(lián)或覆蓋了一個已知的醫(yī)師群)。人們無法查詢或分析不再處于較低分辨率數(shù)據(jù)組中的參量。因此,現(xiàn)行的醫(yī)療保健模型不能提供通過參與建康計劃的用戶的預定義列表來集合一組病人行為的能力。這僅僅是被本協(xié)議所解決的現(xiàn)行醫(yī)療保健分析模型的諸多限制中的一個示例。為了本協(xié)議的上述應用正確有效,需要訪問合并的建康事務數(shù)據(jù),該數(shù)據(jù)(A)足夠大以提供滿足地址隱私考慮的足夠級別和能夠實現(xiàn)統(tǒng)計學分析;和(B)代表盡可能多的共同市場(區(qū)域、人口統(tǒng)計資料、人口類型和保險類型)分布的近似值或允許基于先前獲知的參數(shù)的統(tǒng)計關聯(lián)。例如,如果數(shù)據(jù)源,在此為特定的建康計劃,包括適當?shù)胤植加趪业?15M人口,而且除了該特定的建康計劃具有喜歡某一特定的醫(yī)藥產品的處方集,在其它每方面都具有代表性,可以基于處方集的國家范圍的分析的使用統(tǒng)計分析來“修正”這種偏愛。回顧了背景章節(jié)中的醫(yī)療保健相關信息系統(tǒng)的背景因素后,大體上,本協(xié)議實施例(Crossix方法)是一種能夠基于建康事務數(shù)據(jù)分析實現(xiàn)一個或多個建康計劃的統(tǒng)計測量和多個建康計劃合并后的混合效果的方法,同時遵守了數(shù)據(jù)源實體隱私法規(guī)和數(shù)據(jù)用戶實體隱私權。相比之下,建康分析的“傳統(tǒng)”模型的一個示例需要去識別化的病人級別或醫(yī)師級別數(shù)據(jù)的集合,而此集合僅實現(xiàn)了中心分析模型(參考附圖1和2)。這種被現(xiàn)行醫(yī)療保健分析公司(例如IMS Health,Wolters Kluwer Health (之前是NDC建康)以及SDI (之前是 Verispan)使用的通常方法基于以下步驟(A)去識別化和集合——病人數(shù)據(jù)是去識別化的 (一些數(shù)據(jù)被移除或集合到一起),以及在醫(yī)師級別上代表性地報告數(shù)據(jù)。一些情況下,數(shù)據(jù)組包括縱向去識別化病人級別數(shù)據(jù)(例如Verispan和Dendrite) (B)從不同的源采集—— 從多個醫(yī)療保健機構采集數(shù)據(jù)至數(shù)據(jù)倉庫(C)分析——制作出聯(lián)合數(shù)據(jù)報告和定制研究論文。本Crossix “方法”基于一個逆順序(A)分析——醫(yī)療保健機構(例如建康計劃) 運行一接收需要的分析、和集合級別以及分析需要的可識別的病人或醫(yī)師的適當?shù)牧斜頌檩斎氲姆治鲕浖?。該分析在原始的、幾乎完整的?shù)據(jù)組上執(zhí)行;(B)去識別化和集合——一旦姓名匹配、分析完成,數(shù)據(jù)被集合,且如果需要則執(zhí)行去識別化;(C)從各種源中采集——組合來自多個機構的分析回應以發(fā)送所要求的分析?,F(xiàn)在參見附圖9,雙盲實施例在圖中得以標示,在不具有訪問一個或多個數(shù)據(jù)用戶實體910上的任何隱私敏感數(shù)據(jù)的權限的情況下,集合器900,對于該創(chuàng)新的系統(tǒng)通過用戶界面,制定了一個查詢。(為了清晰地圖解此過程,數(shù)據(jù)用戶實體910顯示為一個盒子,而不是將每一數(shù)據(jù)用戶實體顯示為獨立的盒子——但應當理解可存在一個或多個數(shù)據(jù)用戶實體。)在數(shù)據(jù)用戶實體910是有線電視公司的情況下,一個示例性的查詢可以是“在數(shù)據(jù)A 和數(shù)據(jù)B之間有可能觀看商業(yè)廣告X的家庭”。這種查詢的目的是將電視廣告收視人數(shù)和事務購買信息鏈接到一起——以了解,例如,多少觀看了特定廣告的家庭后來購買了該廣告的產品或服務。集合器900發(fā)送查詢至一個或多個數(shù)據(jù)用戶實體910,數(shù)據(jù)用戶實體910通過使用它們的數(shù)據(jù)產生滿足查詢條件的具體實例的列表處理該查詢。在示例的情況下,該列表可包含在數(shù)據(jù)A和數(shù)據(jù)B之間觀看了廣告X的具體家庭信息。多個數(shù)據(jù)用戶實體910可加密該列表,并可采用任何合適的加密方法,加密方法包括但不限于適于源實體的對稱密鑰, 公開-隱私加密密鑰,應用于支持基于多值匹配的多個識別域的組合和其它類似組合的單向散列密鑰,或可選地選擇不加密列表。數(shù)據(jù)用戶實體910隨后發(fā)送它們加密的或未加密的列表直接至一個或多個數(shù)據(jù)源實體920,用于匹配事務數(shù)據(jù),例如購買數(shù)據(jù)。(為了清晰地圖解此過程,數(shù)據(jù)源實體910顯示為一個盒子,而不是將每一數(shù)據(jù)源實體顯示為獨立的盒子——但應當理解可存在一個或多個數(shù)據(jù)源實體。)可選的,數(shù)據(jù)用戶實體910可以通過集合器900發(fā)送它們加密的列表,這種情況下集合器900轉送該列表至數(shù)據(jù)源實體920。在該后一種情況中,由于集合器900不具有能解密信息的解密密鑰,列表上的信息被保護為機密。
采用類似于在單盲實施例中描述的匹配邏輯完成匹配,而不需要數(shù)據(jù)源實體920 提供通往特定數(shù)據(jù)用戶實體的隱私敏感信息的路徑。換句話說,數(shù)據(jù)源實體可在從多個數(shù)據(jù)用戶實體910接收的加密數(shù)據(jù)上執(zhí)行匹配(在附圖5示例的數(shù)據(jù)合并模塊使用解密密鑰的情況下),或在從數(shù)據(jù)用戶實體910接收的未加密數(shù)據(jù)上執(zhí)行匹配(在附圖5示例的數(shù)據(jù)合并模塊不需使用解密密鑰的情況下)。匹配后,采用類似于早先在單盲實施例中描述的方法和系統(tǒng)將匹配的個人數(shù)據(jù) (結果)去識別化,并回送至集合器900。集合器900合并來自數(shù)據(jù)源實體920的結果至一份合并的最終分析結果,采用類似于早先在單盲實施例中描述的方法和系統(tǒng),并將該最終分析結果發(fā)送至一個或多個數(shù)據(jù)用戶實體910。附圖10示出了另一雙盲實施例,其中代替產生查詢的集合器900,由數(shù)據(jù)用戶實體910產生查詢,并采用其隱私敏感信息制定出滿足查詢條件的具體實例(例如家庭)的列表。如在附圖9實施例中所描述的,數(shù)據(jù)用戶實體910在將其直接送至數(shù)據(jù)源實體920之前可以多種方式加密列表,或者可不加密地將列表送至多個數(shù)據(jù)源實體920??蛇x地,數(shù)據(jù)用戶實體910可通過集合器900發(fā)送其加密的列表,這種情況下集合器900將列表轉發(fā)至數(shù)據(jù)源實體920。因此,在該實施例中,集合器900并不參與在過程的前端產生列表,但仍能將來自數(shù)據(jù)源實體920的結果結合至一個合并的最終分析結果并將該結果提供至數(shù)據(jù)用戶實體910。附圖11示出類似于附圖9的另一雙盲實施例,不同的是一個獨立的數(shù)據(jù)始發(fā)實體930提供源信息,因而集合器900將查詢發(fā)送至數(shù)據(jù)始發(fā)實體930而不是發(fā)送至數(shù)據(jù)用戶實體910。數(shù)據(jù)始發(fā)實體930采用其信息生成滿足查詢條件的具體實例的列表,可選地使用包括本文先前描述的任何合適的加密方法加密列表,并將列表發(fā)送至數(shù)據(jù)源實體920,或者直接或者通過集合器900。(如附圖9所示,全部數(shù)據(jù)始發(fā)實體930顯示為一個盒子,而不是將每一數(shù)據(jù)始發(fā)實體顯示為獨立的盒子。)和附圖9實施例相一致的本實施例的其它方面包括——例如,在過程的末端,數(shù)據(jù)用戶實體910仍從集合器900接收最終分析結果。附圖12示出類似于附圖10的另一雙盲實施例,不同的是代替數(shù)據(jù)用戶實體910 由一個獨立的數(shù)據(jù)始發(fā)實體930提供源信息。數(shù)據(jù)始發(fā)實體930也制定查詢,使用其信息以生成滿足查詢條件的具體實例的列表,可選地加密列表,并將列表發(fā)送至數(shù)據(jù)源實體920, 或者直接或者通過集合器900。(如附圖10所示,數(shù)據(jù)始發(fā)實體930顯示為一個盒子,而不是將每一數(shù)據(jù)始發(fā)實體顯示為獨立的盒子。)和附圖10實施例相一致的本實施例的其它方面包括——例如,在過程的末端,數(shù)據(jù)用戶實體910仍從集合器900接收最終分析結果。最后的注意事項首先,應當領會到本發(fā)明的實施例作為一個整體涉及所述協(xié)議, 并單獨涉及在“集合”處理器和“源實體”處理器上運行的各自方面;本發(fā)明還涉及允許在兩方處理器上執(zhí)行協(xié)議描述的步驟的電腦可讀軟件的具體配置,以及涉及其中具有任何編碼的所述軟件的存儲媒介;其中該存儲媒介包括物理媒介——例如磁或光盤,只讀內存或類似的,和虛擬媒介——例如可下載執(zhí)行代碼數(shù)據(jù)傳導或類似的。最后,雖然通過包括有實施本發(fā)明的優(yōu)選模型的具體實施例描述了本發(fā)明,但本領域技術人員可以領會在落入權利要求書陳述的本發(fā)明的精神和范圍內可對上述所描述的系統(tǒng)和技術實施多種變形和置換。
權利要求
1.一種挖掘隱私敏感數(shù)據(jù)的方法,其特征在于包括以下步驟a)用至少一個條件制定一項查詢,b)對照所述查詢中的至少一個條件比較隱私敏感數(shù)據(jù)始集,并在所述隱私敏感數(shù)據(jù)始集中生成滿足所述至少一個條件的的具體實例的列表,c)通過一個電子數(shù)據(jù)通信拓撲,將所述列表傳輸至具有隱私敏感事務數(shù)據(jù)的至少一個數(shù)據(jù)源實體,d)由所述至少一個數(shù)據(jù)源實體,用所述隱私敏感事務數(shù)據(jù)中相應的項目匹配所述列表上的具體實例,e)由上述至少一個數(shù)據(jù)源實體,對匹配的具體實例和所述隱私敏感事務數(shù)據(jù)中的相應項目去除身份識別,f)由所述至少一個數(shù)據(jù)源實體,將包含上述去除身份識別的、匹配的具體實例和所述隱私敏感事務數(shù)據(jù)中相應的項目的至少一份文件電子地傳輸至集合器,g)由所述集合器,將至少一份文件合并至一份響應上述查詢的綜合結果。
2.根據(jù)權利要求1所述的方法,其特征在于該方法還包括由所述集合器將所述綜合結果電子傳輸至具有所述隱私敏感數(shù)據(jù)始集的至少一個數(shù)據(jù)用戶實體的步驟。
3.根據(jù)權利要求1所述的方法,其特征在于由所述集合器執(zhí)行制定所述查詢的步驟, 以及由具有所述隱私敏感數(shù)據(jù)始集的至少一個數(shù)據(jù)用戶實體執(zhí)行生成所述列表的步驟,所述數(shù)據(jù)用戶實體從所述集合器接收所述查詢。
4.根據(jù)權利要求3的方法,其特征在于其中由所述至少一個數(shù)據(jù)用戶實體將所述列表直接地傳輸至所述至少一個數(shù)據(jù)源實體。
5.根據(jù)權利要求3所述的方法,其特征在于由所述至少一個數(shù)據(jù)用戶實體將所述列表傳輸至所述集合器,所述集合器將所述列表轉送至所述至少一個數(shù)據(jù)源實體。
6.根據(jù)權利要求1所述的方法,其特征在于由具有所述隱私敏感數(shù)據(jù)始集的至少一個數(shù)據(jù)用戶實體執(zhí)行制定所述查詢和生成所述列表的步驟。
7.根據(jù)權利要求6所述的方法,其特征在于由所述至少一個數(shù)據(jù)用戶實體將所述列表直接地傳輸至所述至少一個數(shù)據(jù)源實體。
8.根據(jù)權利要求6所述的方法,其特征在于由所述至少一個數(shù)據(jù)用戶實體將所述列表傳輸至所述集合器,所述集合器將所述列表轉送至所述至少一個數(shù)據(jù)源實體。
9.根據(jù)權利要求1所述的方法,其特征在于由所述集合器執(zhí)行制定所述查詢的步驟, 由具有所述隱私敏感數(shù)據(jù)始集的至少一個數(shù)據(jù)始發(fā)實體執(zhí)行生成上述列表的步驟,所述數(shù)據(jù)始發(fā)實體從所述集合器接收所述查詢。
10.根據(jù)權利要求9所述的方法,其特征在于由所述至少一個數(shù)據(jù)始發(fā)實體將所述列表直接地傳輸至所述至少一個數(shù)據(jù)源實體。
11.根據(jù)權利要求9所述的方法,其特征在于由所述至少一個數(shù)據(jù)始發(fā)實體將所述列表傳輸至所述集合器,以及所述集合器將所述列表轉送至所述至少一個數(shù)據(jù)源實體。
12.根據(jù)權利要求1所述的方法,其特征在于由具有所述隱私敏感數(shù)據(jù)始集的至少一個數(shù)據(jù)始發(fā)實體執(zhí)行制定所述查詢和生成所述列表的步驟。
13.根據(jù)權利要求12所述的方法,其特征在于由所述至少一個數(shù)據(jù)始發(fā)實體將所述列表直接地傳輸至所述至少一個數(shù)據(jù)源實體。
14.根據(jù)權利要求12所述的方法,其特征在于由所述至少一個數(shù)據(jù)始發(fā)實體將所述列表傳輸至所述集合器,所述集合器將所述列表轉送至所述至少一個數(shù)據(jù)源實體。
15.根據(jù)權利要求1所述的方法,其特征在于所述列表在被發(fā)送至所述至少一個數(shù)據(jù)源實體之前被加密。
16.根據(jù)權利要求1所述的方法,其特征在于所述列表包括足夠大數(shù)量的披露身份的細節(jié)。
17.根據(jù)權利要求1所述的方法,其特征在于其中合并至少一份文件的步驟包括過濾至少一份其具體項目少于隱私敏感事務數(shù)據(jù)中預訂項目數(shù)的文件部分。
18.根據(jù)權利要求1所述的方法,其特征在于其中制定一項查詢的步驟a包括執(zhí)行對照預定的源實體數(shù)據(jù)全體模型的隱私核查預處理。
19.根據(jù)權利要求1所述的方法,其特征在于其中所述比較、生成、匹配、去除識別和合并的步驟b、d、e和g中的至少一個步驟包含模糊匹配。
20.根據(jù)權利要求1所述的方法,其特征在于其中制定一項查詢的步驟a包括將該查詢轉換至一項標準化查詢,以能產生響應該查詢的綜合結果的一份聯(lián)合報告。
全文摘要
本發(fā)明公開了一種雙盲隱私安全的分布式數(shù)據(jù)挖掘協(xié)議,介于集合器、具有隱私敏感信息的數(shù)據(jù)用戶實體、和具有隱私敏感信息的數(shù)據(jù)源實體之間。其中所述集合器不具有訪問數(shù)據(jù)用戶實體或數(shù)據(jù)源多個實體的隱私敏感信息的權限。所述集合器制定一項查詢后將查詢發(fā)送至數(shù)據(jù)用戶實體,其中不涉及隱私敏感信息。所述數(shù)據(jù)用戶實體生成滿足查詢條件的具體實例的列表,并直接地或通過集合器加密并發(fā)送列表至多個數(shù)據(jù)源實體。所述多個數(shù)據(jù)源實體對照事務數(shù)據(jù)匹配列表,去識別化匹配的結果,并將它們發(fā)送至集合器。所述集合器合并來自多個數(shù)據(jù)源實體的結果并將合并的結果發(fā)送至數(shù)據(jù)用戶實體。在數(shù)據(jù)用戶實體和多個數(shù)據(jù)源實體具有對集合器不可見和不可使用的隱私敏感信息的情況下,實現(xiàn)了隱私安全的數(shù)據(jù)挖掘。
文檔編號G06F17/00GK102301376SQ200980155226
公開日2011年12月28日 申請日期2009年12月21日 優(yōu)先權日2008年12月23日
發(fā)明者阿薩夫·埃文海姆 申請人:克洛西克斯解決方案公司