欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)的制作方法

文檔序號(hào):6599762閱讀:188來源:國(guó)知局
專利名稱:對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般的涉及文檔集合的隱私保護(hù),更具體而言,涉及對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)。
背景技術(shù)
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,人們可獲得的信息已經(jīng)呈現(xiàn)數(shù)字化和海量化的特征。然而,數(shù)字化和網(wǎng)絡(luò)化也使得對(duì)信息進(jìn)行隱私保護(hù)和管理變得更具挑戰(zhàn)性。特別是在涉及對(duì)健康信息、賬戶信息等高私密性信息的場(chǎng)合中,這個(gè)問題尤其迫切的需要得到解決。例如,目前為了便于醫(yī)療信息共享,電子病歷及電子健康檔案的使用已成為趨勢(shì),醫(yī)務(wù)工作者、醫(yī)學(xué)研究者、衛(wèi)生部門、保險(xiǎn)公司等醫(yī)療相關(guān)人員可以方便地基于電子醫(yī)療數(shù)據(jù)進(jìn)行相關(guān)業(yè)務(wù)工作,然而從病人的角度看,他們應(yīng)該對(duì)有關(guān)其本人的病歷或健康檔案擁有隱私控制權(quán),最典型的情境則是病人不希望某些沒有經(jīng)過其授權(quán)的人,通過獲取到的電子醫(yī)療數(shù)據(jù)能夠得知其患有某種敏感疾病?,F(xiàn)在,搜索已經(jīng)成為人們處理海量數(shù)字信息的基本工具,而如何使得搜索者快速、 方便、準(zhǔn)確的獲得其需要的信息,同時(shí)又能保護(hù)信息所有者或者信息內(nèi)容相關(guān)人的隱私不被泄露,即實(shí)現(xiàn)搜索質(zhì)量和隱私保護(hù)的平衡,成為搜索系統(tǒng)需要面對(duì)的一個(gè)難題。通常情況下,文檔所有者或者隱私相關(guān)人通過制定隱私策略(privacypolicy) 來個(gè)性化定義隱私的范圍以及對(duì)于隱私相關(guān)信息的保護(hù)策略。兼顧隱私保護(hù)的搜索 (privacy-preserving search)需要解決的問題就是如何在搜索系統(tǒng)中滿足隱私策略,同時(shí)保持盡可能高的搜索質(zhì)量。在實(shí)際搜索系統(tǒng)中,訪問控制是最常用也是最有效的隱私控制方法,即隱私所有人對(duì)包含隱私信息的文檔設(shè)置訪問控制策略,設(shè)定有權(quán)限或者無權(quán)限獲取隱私文檔的搜索者。基于訪問控制的隱私保護(hù)通常包含三個(gè)步驟(1)隱私策略的定義隱私所有人確定隱私的涵義和范圍;(2)隱私文檔的判定判斷一個(gè)文檔是否包含隱私內(nèi)容;(3)訪問控制的設(shè)定為每個(gè)隱私文檔設(shè)定訪問策略。面對(duì)大量文檔時(shí),隱私所有人不可能手工的對(duì)每個(gè)文檔進(jìn)行逐一的隱私判定和訪問控制設(shè)定。另外,當(dāng)隱私所有人更改其隱私策略時(shí),也不可能手工的再逐一的對(duì)文檔進(jìn)行重新判定和設(shè)定。基于隱私策略,如何實(shí)現(xiàn)自動(dòng)的判定隱私文檔以及設(shè)定訪問控制,同時(shí)保證訪問控制的準(zhǔn)確性,是面對(duì)大量文檔時(shí)需要解決的問題。在現(xiàn)有技術(shù)中存在如下技術(shù)用于處理上述問題在題為"Method, System and Apparatus for Maintaining User Privacy in aKnowledge Interchange System”的歐洲專利 EP1638032A3 (遞交于 2005 年 9 月 6 日)所提出的系統(tǒng)中,允許用戶定義關(guān)鍵字級(jí)別(keyword-level)的隱私策略,即確定某些敏感關(guān)鍵字。包含這些敏感關(guān)鍵字的用戶文檔信息將不被傳送到服務(wù)器上供共享,從而達(dá)到訪問控制及隱私保護(hù)的目的。另夕卜,題為“Uniform Search System and Method for Selectively SharingDistributed Access-Controlled Documents” 的美國(guó)專利 US7409406B2 (遞交于2003年9月8日)將訪問控制的執(zhí)行權(quán)傳遞給文檔所有者(隱私相關(guān)人)自己,而不是由搜索服務(wù)器來擔(dān)當(dāng)。每個(gè)文檔所有者存儲(chǔ)自己的文檔(包含隱私文檔及非隱私文檔)。服務(wù)器僅僅保存已做過隱私保護(hù)的文檔索引。當(dāng)服務(wù)器接受到搜索查詢時(shí),根據(jù)索引,服務(wù)器將查詢轉(zhuǎn)發(fā)給相關(guān)文檔所有者,然后由文檔所有者自行根據(jù)其隱私策略和訪問控制策略來響應(yīng)查詢。還有,題為"Augmenting Privacy Policies with Inference Detection,,的美國(guó)專利US2009/0144255A1 (遞交于2007年11月四日)支持用戶定義主題級(jí)別 (topic-level)的隱私策略,即用戶可以定義特定的敏感主題,所有涉及敏感主題的文檔都應(yīng)該被判定為隱私文檔。敏感主題是用一個(gè)或者一組主題關(guān)鍵字來表示的。該專利針對(duì)每個(gè)隱私策略(敏感主題),準(zhǔn)備一組已經(jīng)人工判定好的相應(yīng)敏感文檔作為訓(xùn)練文檔,然后通過自然語言統(tǒng)計(jì)分析(statistical natural language analysis)的方法,從訓(xùn)練文檔里面學(xué)習(xí)新的可以表示該敏感主題的關(guān)鍵字,隨和這些新生成的關(guān)鍵字聯(lián)合用于定義主題的關(guān)鍵字,一起作為用于判定隱私文檔的關(guān)鍵字集合。然而,現(xiàn)有技術(shù)存在一些缺陷。在上面介紹的已有工作中,專利EP1638032A3使用關(guān)鍵字級(jí)別的隱私策略,這種方法的缺點(diǎn)在于用戶很難窮盡隱私相關(guān)的關(guān)鍵字,從而導(dǎo)致很難實(shí)現(xiàn)可用的隱私保護(hù)。專利US7409406B2將訪問控制權(quán)從搜索服務(wù)器轉(zhuǎn)移到文檔所有者用以規(guī)避服務(wù)器的隱私泄露風(fēng)險(xiǎn),這種方法在很多實(shí)際情況中是無法應(yīng)用的,因?yàn)槲臋n所有者或者隱私相關(guān)人往往是處于離線狀態(tài)(比如電子醫(yī)療信息系統(tǒng)中的病人),讓他們實(shí)時(shí)的處理訪問請(qǐng)求是不合理的。專利US2009/0144255A1實(shí)現(xiàn)了對(duì)主題級(jí)別的隱私策略的支持,克服了專利EP1638032A3的缺點(diǎn),但是該專利在擴(kuò)展主題關(guān)鍵字的時(shí)候需要為每一個(gè)隱私策略準(zhǔn)備訓(xùn)練文檔,然而訓(xùn)練文檔的準(zhǔn)備需要人工標(biāo)注,非常耗時(shí)。尤其當(dāng)有大量文檔所有者建立了大量的隱私策略時(shí),而且用戶可能在使用過程中變更隱私策略,這種情況下基于訓(xùn)練文檔的方法缺乏柔性,在實(shí)際應(yīng)用中是不適用的。

發(fā)明內(nèi)容
本發(fā)明是針對(duì)上述問題而做出的。本發(fā)明提出了一種新的、全自動(dòng)的、對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng),該方法利用對(duì)文檔集合自身進(jìn)行統(tǒng)計(jì)分析、或者使用本體(外部知識(shí)源)、或者文檔集合和文本的結(jié)合,來自動(dòng)獲取敏感主題相關(guān)的關(guān)鍵詞,這些關(guān)鍵詞用于從文檔集合中判定隱私文檔。另外,利用判定出隱私文檔的文檔集合,可以實(shí)現(xiàn)兼顧主題級(jí)別隱私保護(hù)的文檔搜索。根據(jù)本發(fā)明第一方面,提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法,包括輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第二方面,提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法,包括輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。
根據(jù)本發(fā)明第三方面,提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法,包括輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成第一敏感關(guān)鍵詞的集合;根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成第二敏感關(guān)鍵詞的集合;根據(jù)第二敏感關(guān)鍵詞的集合對(duì)第一敏感關(guān)鍵詞的集合進(jìn)行修正;根據(jù)第一敏感關(guān)鍵詞的集合對(duì)第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充;將經(jīng)過修正的第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的第二敏感關(guān)鍵詞的集合進(jìn)行合并,以獲得最終的敏感關(guān)鍵詞的集合;以及基于敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第四方面,提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;敏感關(guān)鍵詞生成裝置,用于基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及隱私文檔判定裝置,用于基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第五方面,提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;外部知識(shí)存儲(chǔ)器,用于存儲(chǔ)外部知識(shí);敏感關(guān)鍵詞生成裝置,用于根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及隱私文檔判定裝置, 用于基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第六方面,提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;外部知識(shí)存儲(chǔ)器,用于存儲(chǔ)外部知識(shí);第一敏感關(guān)鍵詞生成裝置,用于基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成第一敏感關(guān)鍵詞的集合;第二敏感關(guān)鍵詞生成裝置,用于根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成第二敏感關(guān)鍵詞的集合;修正裝置,用于根據(jù)第二敏感關(guān)鍵詞的集合對(duì)第一敏感關(guān)鍵詞的集合進(jìn)行修正;補(bǔ)充裝置,用于根據(jù)第一敏感關(guān)鍵詞的集合對(duì)第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充;合并裝置,用于將經(jīng)過修正的第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的第二敏感關(guān)鍵詞的集合進(jìn)行合并,以獲得最終的敏感關(guān)鍵詞的集合;以及隱私文檔判定裝置,用于基于敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。相對(duì)于面向關(guān)鍵字級(jí)別隱私策略方法,本發(fā)明支持主題級(jí)別隱私策略,從而實(shí)現(xiàn)更加智能、全面的隱私保護(hù)。另外,相對(duì)于已有面向主題級(jí)別的隱私保護(hù)方法,本發(fā)明由于不需要訓(xùn)練文檔,可以使系統(tǒng)變得高效柔性和實(shí)用,可以同時(shí)處理大量隱私策略,并且方便的支持隱私策略的動(dòng)態(tài)變化。


結(jié)合附圖,從下面對(duì)本發(fā)明實(shí)施例的詳細(xì)描述,將更好地理解本發(fā)明,附圖中類似的標(biāo)號(hào)指示類似的部分,其中圖1示出根據(jù)本發(fā)明的實(shí)現(xiàn)了主題級(jí)別隱私保護(hù)的文檔搜索系統(tǒng)的內(nèi)部結(jié)構(gòu)的框圖;圖2進(jìn)一步示出根據(jù)本發(fā)明的敏感關(guān)鍵詞生成裝置的內(nèi)部結(jié)構(gòu)的框圖3A示出根據(jù)本發(fā)明第一實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法300的流程圖;圖;3B是用于說明圖3A所示方法的工作過程的一個(gè)示例的示意圖;圖4A示出根據(jù)本發(fā)明第二實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法400的流程圖;圖4B是用于說明圖4A所示方法的工作過程的一個(gè)示例的示意圖;圖5A示出根據(jù)本發(fā)明第三實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法500的流程圖;以及圖5B是用于說明圖5A所示方法的工作過程的一個(gè)示例的示意圖。
具體實(shí)施例方式圖1示出根據(jù)本發(fā)明的實(shí)現(xiàn)了主題級(jí)別隱私保護(hù)的文檔搜索系統(tǒng)的內(nèi)部結(jié)構(gòu)的框圖。圖ι所示系統(tǒng)包括主題級(jí)別隱私保護(hù)設(shè)備101、存儲(chǔ)設(shè)備102和兼顧隱私的文檔搜索設(shè)備103。主題級(jí)別隱私保護(hù)設(shè)備101包括輸入裝置1011、敏感關(guān)鍵詞生成裝置1012和隱私文檔判定裝置1013。存儲(chǔ)設(shè)備102包括隱私策略存儲(chǔ)單元1021、文檔存儲(chǔ)單元1022、本體存儲(chǔ)單元1023、敏感關(guān)鍵詞存儲(chǔ)單元IOM和隱私文檔存儲(chǔ)單元1025。針對(duì)存儲(chǔ)設(shè)備102中所存儲(chǔ)的各個(gè)單元,它們的功能如下隱私策略存儲(chǔ)單元 1021存儲(chǔ)文檔所有者或者隱私相關(guān)人定義的主題級(jí)別的隱私策略,即用戶可以定義的特定敏感主題。敏感主題可以用一個(gè)或一組主題關(guān)鍵字來表示。文檔存儲(chǔ)單元1022存儲(chǔ)文檔集合,文檔包含有用戶ID,標(biāo)識(shí)文檔所有者。本體存儲(chǔ)單元1023存儲(chǔ)本體庫,本體庫中定義有概念以及概念之間的關(guān)系。本體存儲(chǔ)單元僅在使用基于本體的敏感詞生成(隨后將描述的第二實(shí)施例),或者基于混合方法的敏感詞生成(隨后將描述的第三實(shí)施例)時(shí)才需要。 敏感關(guān)鍵詞存儲(chǔ)單元IOM存儲(chǔ)由敏感詞生成裝置1012生成的敏感關(guān)鍵詞,每個(gè)敏感關(guān)鍵詞對(duì)應(yīng)于相關(guān)的隱私主題,即隱私策略。隱私文檔存儲(chǔ)單元1025存儲(chǔ)根據(jù)隱私策略和敏感關(guān)鍵詞判定出來的包含有隱私信息的文檔,即隱私文檔。針對(duì)主題級(jí)別隱私保護(hù)設(shè)備101中的各個(gè)處理裝置,它們的功能如下輸入裝置 1011輸入文檔集合以及用戶定義的主題級(jí)別隱私策略,該主題級(jí)別隱私策略可以包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞。敏感關(guān)鍵詞生成裝置1012利用根據(jù)本發(fā)明的發(fā)明, 從隱私策略中所包括的主題關(guān)鍵詞擴(kuò)展生成敏感關(guān)鍵詞。敏感關(guān)鍵詞生成裝置1012作為本發(fā)明的核心隨后將詳細(xì)描述。本發(fā)明分別提出通過對(duì)文檔集合自身進(jìn)行統(tǒng)計(jì)分析、或者使用本體(外部知識(shí)源)、或者基于文檔集合和本體的結(jié)合來生成敏感關(guān)鍵詞的多個(gè)實(shí)施例。隱私文檔判定裝置1013根據(jù)生成的敏感關(guān)鍵詞在文檔庫中判定包含有隱私信息的文檔。例如,可以通過如下方法實(shí)現(xiàn)判定對(duì)于一篇文檔,如果其所有者定義有隱私策略,該隱私策略相關(guān)的敏感關(guān)鍵詞如果出現(xiàn)在這篇文檔中,這篇文檔即被判定為隱私文檔,否則為非隱私文檔。對(duì)于已標(biāo)識(shí)出隱私文檔的文檔集合可以執(zhí)行各種兼顧隱私保護(hù)的操作。例如,兼顧隱私的文檔搜索設(shè)備103可以執(zhí)行文檔搜索,同時(shí)滿足用戶定義的隱私策略。最基本的實(shí)現(xiàn)方法是如果某用戶指定了隱私策略限定某個(gè)(或者某類)搜索者不能訪問某主題文檔,那么在這個(gè)(或者這類)搜索者搜索的時(shí)候,關(guān)聯(lián)于隱私策略的隱私文檔將不會(huì)在搜索結(jié)果中出現(xiàn)。該發(fā)明的核心處理單元即敏感關(guān)鍵詞生成裝置1012,其面向主題級(jí)別的隱私策略,實(shí)現(xiàn)自動(dòng)的(不需要訓(xùn)練文檔集的)敏感關(guān)鍵詞的生成。圖2示出根據(jù)本發(fā)明的敏感關(guān)鍵詞生成裝置的內(nèi)部結(jié)構(gòu)的框圖。請(qǐng)注意,圖2中省略了圖1所示系統(tǒng)中與敏感關(guān)鍵詞生成沒有直接關(guān)系的部件。本發(fā)明提供了三種不同的敏感關(guān)鍵詞自動(dòng)生成裝置的具體實(shí)現(xiàn),S卩,基于文檔集合的生成單元201 (第一實(shí)施例)、基于本體的生成單元202 (第二實(shí)施例)和基于混合方法的生成單元203(第三實(shí)施例)。基于文檔集的生成單元201分析文檔集合本身的內(nèi)部特征,并將隱私策略中定義的主題關(guān)鍵詞作為敏感關(guān)鍵詞的種子詞,來擴(kuò)展生成新的敏感關(guān)鍵詞。基于本體的生成單元202利用外部知識(shí)——本體定義的概念以及概念之間的關(guān)系,同樣也是以隱私策略里面定義的主題作為種子,得到擴(kuò)展的敏感關(guān)鍵詞?;诨旌戏椒ǖ纳蓡卧?03是通過結(jié)合基于文檔集合和基于本體的方法,來獲得更準(zhǔn)確有效的敏感關(guān)鍵詞。在圖2中,還示出了修正單元204,其用于根據(jù)外部知識(shí)(例如本體)對(duì)已基于文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞的集合(即,基于文檔集的生成單元201的擴(kuò)展結(jié)果)進(jìn)行修正。在圖2中,還示出了補(bǔ)充單元205,其用于利用根據(jù)文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞(基于文檔集的生成單元201的擴(kuò)展結(jié)果)對(duì)根據(jù)外部知識(shí)所生成的敏感關(guān)鍵詞的集合(基于本體的生成單元202的擴(kuò)展結(jié)果)進(jìn)行補(bǔ)充。接下來將參考附圖對(duì)敏感關(guān)鍵詞自動(dòng)生成的不同實(shí)現(xiàn)方法分別做具體的說明解釋。<基于文檔集合的內(nèi)部特征的方法>圖3A示出根據(jù)本發(fā)明第一實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法300(基于文檔集合的內(nèi)部特征的方法)的流程圖;圖:3B是用于說明圖3A所示方法的工作過程的一個(gè)示例的示意圖?;谖臋n集合的敏感關(guān)鍵詞生成使用文本處理的方法對(duì)文檔集合進(jìn)行分析,從而挖掘出與敏感主題相關(guān)的關(guān)鍵詞。在步驟301中,輸入裝置1011首先輸入文檔集合和主題級(jí)別的隱私策略,該隱私策略可以是一個(gè)或多個(gè)需要隱私保護(hù)的主題級(jí)別關(guān)鍵詞。在步驟302中,基于文檔集的生成單元201基于文檔集合的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成敏感關(guān)鍵詞,這可以通過對(duì)文檔集合進(jìn)行文本分析來實(shí)現(xiàn)。例如,潛在語義分析(Latent Semantic Analysis,LSA)是一種文本分析的實(shí)現(xiàn)方法。LSA通過對(duì)文檔集形成的文檔-關(guān)鍵詞矩陣進(jìn)行矩陣奇異值分解,來獲得關(guān)鍵詞的之間的主題相似性度量。關(guān)鍵詞之間越相似,表示他們的主題性越相關(guān)。在用戶定義的主題級(jí)別的隱私策略中,我們把主題的名稱作為種子關(guān)鍵詞,根據(jù)在LSA得到的關(guān)鍵詞相似性結(jié)果,找出最相似的關(guān)鍵詞(可以根據(jù)預(yù)設(shè)的相似值閾值),然后把種子關(guān)鍵詞聯(lián)合這些最相似的關(guān)鍵詞作為對(duì)應(yīng)于該敏感主題的敏感關(guān)鍵詞,用于對(duì)隱私文檔的判定。圖3B示出了利用LSA生成敏感關(guān)鍵詞的一個(gè)實(shí)例。在步驟303中,可選地,修正單元204可以根據(jù)外部知識(shí)(例如本體)對(duì)已生成的敏感關(guān)鍵詞的集合進(jìn)行修正。具體的修正方法隨后將描述。
在步驟304中,隱私文檔判定裝置1013基于生成的敏感關(guān)鍵詞(或經(jīng)修正后的敏感關(guān)鍵詞)從文檔集合中判定隱私文檔。由于隱私文檔判定裝置1013可以使用已知方法進(jìn)行操作,這里不作贅述。然后,過程300結(jié)束。<基于外部本體的方法>圖4A示出根據(jù)本發(fā)明第二實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法400(基于外部本體的方法)的流程圖;圖4B是用于說明圖4A所示方法的工作過程的一個(gè)示例的示意圖?;诒倔w的敏感關(guān)鍵詞生成,是利用外部知識(shí)(本體)來得到對(duì)敏感主題的認(rèn)識(shí)。本體是一種形式化的知識(shí)表達(dá),本體中定義了領(lǐng)域概念以及概念之間的關(guān)系,其中最基本的概念之間的關(guān)系即是層次關(guān)系,表示其中一個(gè)概念是另外一個(gè)概念的父概念或者子概
ο在步驟401中,類似于第一實(shí)施例,輸入裝置1011首先輸入文檔集合和主題級(jí)別的隱私策略,該隱私策略可以是一個(gè)或多個(gè)需要隱私保護(hù)的主題級(jí)別關(guān)鍵詞。在步驟402中,基于本體的生成單元202根據(jù)外部知識(shí)(例如本體)擴(kuò)展主題關(guān)鍵詞,以生成敏感關(guān)鍵詞集合Al。例如,在執(zhí)行基本本體的敏感關(guān)鍵詞生成時(shí),可以將用戶定義的主題級(jí)別的隱私策略作為一個(gè)種子概念,在本體中找到相匹配的概念,然后獲得該種子概念的所有子概念(包含子概念的所有下位概念)。形成的概念集合可以構(gòu)成對(duì)該敏感主題的完整描述。所有這些概念的代表關(guān)鍵詞(在本體中即為組成這些概念的名稱的關(guān)鍵詞,有時(shí)本體中也定義有表示相同概念的多個(gè)名稱,這些名稱中的關(guān)鍵詞都被選為概念的代表關(guān)鍵詞)則形成了對(duì)應(yīng)于該敏感主題的敏感關(guān)鍵詞,用于對(duì)隱私文檔的判定。圖4B 示出了利用本體生成敏感關(guān)鍵詞的一個(gè)實(shí)例。步驟403和404是可選步驟,用于利用基于文檔集合的內(nèi)部特征生成的敏感關(guān)鍵字對(duì)基于外部本體生成的敏感關(guān)鍵字進(jìn)行補(bǔ)充。即,補(bǔ)充單元205所實(shí)現(xiàn)的功能。具體的補(bǔ)充方法隨后將描述。在步驟405中,類似于第一實(shí)施例,隱私文檔判定裝置1013基于生成的敏感關(guān)鍵詞(或經(jīng)補(bǔ)充后的敏感關(guān)鍵詞)從文檔集合中判定隱私文檔。然后,過程400結(jié)束。<基于文檔集合的內(nèi)部特征和基于本體的混合方法>圖5A示出根據(jù)本發(fā)明第三實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法500(混合方法)的流程圖;以及圖5B是用于說明圖5A所示方法的工作過程的一個(gè)示例的示意圖?;谖臋n集合和基于本體的生成方法各自都有其固有的缺點(diǎn)基于文檔集合的方法(比如LSA方法)通常會(huì)引入過多噪聲,而使得敏感關(guān)鍵詞生成過多,會(huì)形成隱私的過保護(hù),從而影響搜索質(zhì)量;而基于本體的方法依賴于來自外部知識(shí)源的本體,本體往往對(duì)領(lǐng)域的覆蓋不會(huì)很全面,因此可能造成某些隱私主題在本體中找不到對(duì)應(yīng),而實(shí)現(xiàn)不了主題關(guān)鍵詞的擴(kuò)展生成,從而影響隱私保護(hù)的質(zhì)量。鑒于此,本發(fā)明還提出一種混合方法,將上述兩種方法結(jié)合使用,可以互相克服對(duì)方的缺點(diǎn),從而得到更好的隱私保護(hù)程度以及搜索質(zhì)量。
如上所述,在本實(shí)施例中所提出的修正方法和補(bǔ)充方法可以被分別應(yīng)用到上述第一和第二實(shí)施例,以用于提高搜索質(zhì)量。參考圖5A,在步驟501中,類似于第一和第二實(shí)施例,輸入裝置1011首先輸入文檔集合和主題級(jí)別的隱私策略,該隱私策略可以是一個(gè)或多個(gè)需要隱私保護(hù)的主題級(jí)別關(guān)鍵詞。在步驟502中,基于文檔集合的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成第一敏感關(guān)鍵詞集合Al (例如,使用文本分析LSA)。在步驟503中,根據(jù)外部知識(shí)(例如本體)擴(kuò)展主題關(guān)鍵詞,以生成第二敏感關(guān)鍵詞集合A2。在步驟504中,利用集合A2中的敏感關(guān)鍵詞對(duì)Al進(jìn)行修正。修正規(guī)則例如可以是如果關(guān)鍵詞A'是隱私策略中的主題關(guān)鍵詞A經(jīng)過文檔集分析得到的擴(kuò)展結(jié)果,并且同時(shí)在本體中,A'表示的概念與A表示的概念沒有關(guān)聯(lián),則從該隱私主題的相關(guān)敏感關(guān)鍵詞集合中刪除掉A'。在步驟505中,利用集合Al中的敏感關(guān)鍵詞對(duì)A2進(jìn)行補(bǔ)充。補(bǔ)充規(guī)則例如可以是如果關(guān)鍵詞A'是隱私策略中的主題關(guān)鍵詞A經(jīng)過文檔集分析得到的擴(kuò)展結(jié)果,同時(shí)A 在本體中找不到可以對(duì)應(yīng)的概念,那么可以用關(guān)鍵詞A'替代A作為隱私策略中的主題詞, 在本體中尋找對(duì)應(yīng)概念,從而觸發(fā)基于本體的敏感詞生成過程。圖5B給出了上述修正過程和補(bǔ)充過程的一個(gè)實(shí)例。顯而易見,本發(fā)明所提出的上述結(jié)果修正方法和補(bǔ)充方法僅僅作為示例,而不是對(duì)本發(fā)明的限制。本領(lǐng)域技術(shù)人員可以設(shè)想其他方式來實(shí)現(xiàn)兩種敏感關(guān)鍵詞(基于文檔集生成的敏感關(guān)鍵詞和基于本體的敏感關(guān)鍵詞)的相互修正和補(bǔ)充。然后,在步驟506中,將修正后的Al’與補(bǔ)充后的A2’合并(聯(lián)合),從而將兩個(gè)集合的并集作為最終用于隱私文檔判定的敏感關(guān)鍵詞集合。參考圖5B實(shí)例。隨后,在步驟507中,類似于第一和第二實(shí)施例,隱私文檔判定裝置1013基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。然后,過程500結(jié)束。上面已經(jīng)參考附圖對(duì)根據(jù)本發(fā)明的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)進(jìn)行了詳細(xì)描述。如前所述,本發(fā)明的方法能夠?qū)崿F(xiàn)更加智能、全面的隱私保護(hù)。 相對(duì)于已有的面向主題級(jí)別的隱私保護(hù)方法,本發(fā)明由于不需要使用訓(xùn)練文檔,可以使系統(tǒng)變得高效柔性和實(shí)用,可以同時(shí)處理大量隱私策略,并且方便的支持隱私策略的動(dòng)態(tài)變化。但是,需要明確,本發(fā)明并不局限于上文所描述并在圖中示出的特定配置和處理。 并且,為了簡(jiǎn)明起見,這里省略對(duì)已知方法技術(shù)的詳細(xì)描述。在上述實(shí)施例中,描述和示出了若干具體的步驟作為示例。但是,本發(fā)明的方法過程并不限于所描述和示出的具體步驟, 本領(lǐng)域的技術(shù)人員可以在領(lǐng)會(huì)本發(fā)明的精神之后,作出各種改變、修改和添加,或者改變步驟之間的順序。本發(fā)明的元素可以實(shí)現(xiàn)為硬件、軟件、固件或者它們的組合,并且可以用在它們的系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實(shí)現(xiàn)時(shí),本發(fā)明的元素是被用于執(zhí)行所需任務(wù)的程序或者代碼段。程序或者代碼段可以存儲(chǔ)在機(jī)器可讀介質(zhì)中,或者通過載波中攜帶的數(shù)據(jù)信號(hào)在傳輸介質(zhì)或者通信鏈路上傳送。“機(jī)器可讀介質(zhì)”可以包括能夠存儲(chǔ)或傳輸信息的任何介質(zhì)。機(jī)器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲(chǔ)器設(shè)備、ROM、閃存、可擦除ROM(EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計(jì)算機(jī)網(wǎng)絡(luò)被下載。 本發(fā)明可以以其他的具體形式實(shí)現(xiàn),而不脫離其精神和本質(zhì)特征。例如,特定實(shí)施例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此,當(dāng)前的實(shí)施例在所有方面都被看作是示例性的而非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非上述描述定義,并且,落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在本發(fā)明的范圍之中。
權(quán)利要求
1.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法,包括輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
2.如權(quán)利要求1所述的方法,其中所述擴(kuò)展步驟包括將所述隱私策略中包含的主題關(guān)鍵詞作為種子詞,通過對(duì)所述文檔集合進(jìn)行文本分析來找到與種子詞之間的主題相似度大于一預(yù)定閾值的主題相似關(guān)鍵詞;并且將所述主題關(guān)鍵詞與它們的主題相似關(guān)鍵詞合并,作為所述敏感關(guān)鍵詞。
3.如權(quán)利要求2所述的方法,其中所述文本分析使用潛在語義分析方法LSA。
4.如權(quán)利要求1所述的方法,還包括根據(jù)外部知識(shí)對(duì)已基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞的集合進(jìn)行修正。
5.如權(quán)利要求4所述的方法,其中所述外部知識(shí)是本體。
6.如權(quán)利要求5所述的方法,其中所述修正步驟包括如果一主題關(guān)鍵詞A與其基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞A’在所述本體上被確定為沒有關(guān)聯(lián),則從敏感關(guān)鍵詞的集合中刪除該敏感關(guān)鍵詞A’。
7.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法,包括輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
8.如權(quán)利要求7所述的方法,其中所述外部知識(shí)是本體。
9.如權(quán)利要求8所述的方法,其中所述擴(kuò)展步驟包括將所述隱私策略作為種子概念,在所述本體中找到所述種子概念的所有子概念;并且將所述子概念的代表關(guān)鍵詞與所述主題關(guān)鍵詞合并,作為所述敏感關(guān)鍵詞。
10.如權(quán)利要求9所述的方法,其中找到的所述子概念還包括孫子及所有下位概念。
11.如權(quán)利要求9所述的方法,其中所述代表關(guān)鍵詞是組成表示所述子概念的一個(gè)或多個(gè)名稱的關(guān)鍵詞。
12.如權(quán)利要求8所述的方法,還包括基于所述文檔集合本身的內(nèi)部特征來擴(kuò)展所述主題關(guān)鍵詞以生成敏感關(guān)鍵詞; 利用根據(jù)所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞對(duì)根據(jù)所述外部本體所生成的敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充。
13.如權(quán)利要求12所述的方法,其中所述補(bǔ)充步驟包括如果一主題關(guān)鍵詞A在所述外部本體中找不到相應(yīng)概念,則將其基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞A’作為種子概念在所述外部本體中尋找敏感關(guān)鍵詞。
14.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法,包括輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成第一敏感關(guān)鍵詞的集合; 根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成第二敏感關(guān)鍵詞的集合; 根據(jù)所述第二敏感關(guān)鍵詞的集合對(duì)所述第一敏感關(guān)鍵詞的集合進(jìn)行修正; 根據(jù)所述第一敏感關(guān)鍵詞的集合對(duì)所述第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充; 將經(jīng)過修正的所述第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的所述第二敏感關(guān)鍵詞的集合進(jìn)行合并,以獲得最終的敏感關(guān)鍵詞的集合;以及基于所述敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。
15.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;敏感關(guān)鍵詞生成裝置,用于基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及隱私文檔判定裝置,用于基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
16.如權(quán)利要求15所述的系統(tǒng),還包括兼顧隱私的文檔搜索裝置,用于對(duì)已標(biāo)注出隱私文檔的所述文檔集合執(zhí)行兼顧隱私保護(hù)的文檔搜索。
17.如權(quán)利要求15所述的系統(tǒng),還包括 外部知識(shí)存儲(chǔ)器,用于存儲(chǔ)外部知識(shí);修正裝置,用于根據(jù)所述外部知識(shí)對(duì)所述敏感關(guān)鍵詞生成裝置已基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞的集合進(jìn)行修正。
18.—種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;外部知識(shí)存儲(chǔ)器,用于存儲(chǔ)外部知識(shí);第一敏感關(guān)鍵詞生成裝置,用于根據(jù)所述外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及隱私文檔判定裝置,用于基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
19.如權(quán)利要求18所述的系統(tǒng),還包括第二敏感關(guān)鍵詞生成裝置,用于基于所述文檔集合本身的內(nèi)部特征來擴(kuò)展所述主題關(guān)鍵詞以生成敏感關(guān)鍵詞;補(bǔ)充裝置,用于利用所述第二敏感關(guān)鍵詞生成裝置根據(jù)所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞對(duì)所述第一敏感關(guān)鍵詞生成裝置根據(jù)所述外部知識(shí)所生成的敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充。
20.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng),包括輸入裝置,用于輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;外部知識(shí)存儲(chǔ)器,用于存儲(chǔ)外部知識(shí);第一敏感關(guān)鍵詞生成裝置,用于基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞, 以生成第一敏感關(guān)鍵詞的集合;第二敏感關(guān)鍵詞生成裝置,用于根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞,以生成第二敏感關(guān)鍵詞的集合;修正裝置,用于根據(jù)所述第二敏感關(guān)鍵詞的集合對(duì)所述第一敏感關(guān)鍵詞的集合進(jìn)行修正;補(bǔ)充裝置,用于根據(jù)所述第一敏感關(guān)鍵詞的集合對(duì)所述第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充;合并裝置,用于將經(jīng)過修正的所述第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的所述第二敏感關(guān)鍵詞的集合進(jìn)行合并,以獲得最終的敏感關(guān)鍵詞的集合;以及隱私文檔判定裝置,用于基于所述敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。
全文摘要
本發(fā)明提出了對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)。該方法包括輸入文檔集合以及主題級(jí)別隱私策略,所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞;擴(kuò)展主題關(guān)鍵詞,以生成一個(gè)或多個(gè)敏感關(guān)鍵詞;以及基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)不同的實(shí)施例,本發(fā)明分別基于文檔集的內(nèi)部特征、基于外部知識(shí)(本體)或它們兩者來生成敏感關(guān)鍵詞。由于本發(fā)明的方法不需要使用訓(xùn)練文檔,因此可以使系統(tǒng)更加高效柔性和實(shí)用,可以同時(shí)處理大量隱私策略,并且可以方便的支持隱私策略的動(dòng)態(tài)變化。
文檔編號(hào)G06F21/24GK102201048SQ20101013259
公開日2011年9月28日 申請(qǐng)日期2010年3月24日 優(yōu)先權(quán)日2010年3月24日
發(fā)明者劉博 , 李建強(qiáng), 趙彧, 郭劍峰 申請(qǐng)人:日電(中國(guó))有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
江阴市| 武安市| 上林县| 定南县| 怀来县| 怀集县| 富源县| 老河口市| 黄石市| 邻水| 新宁县| 象州县| 惠水县| 玉林市| 霍林郭勒市| 乌拉特前旗| 三穗县| 荔浦县| 玉林市| 景谷| 大足县| 凌源市| 平山县| 和顺县| 射洪县| 长顺县| 韶山市| 繁昌县| 兰坪| 民县| 海安县| 剑阁县| 蓝田县| 洪江市| 额尔古纳市| 辽宁省| 疏附县| 隆昌县| 延吉市| 萝北县| 恩平市|