對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)的制作方法

文檔序號(hào)：6599762閱讀：188來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般的涉及文檔集合的隱私保護(hù)，更具體而言，涉及對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)。
背景技術(shù)：
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展，人們可獲得的信息已經(jīng)呈現(xiàn)數(shù)字化和海量化的特征。然而，數(shù)字化和網(wǎng)絡(luò)化也使得對(duì)信息進(jìn)行隱私保護(hù)和管理變得更具挑戰(zhàn)性。特別是在涉及對(duì)健康信息、賬戶信息等高私密性信息的場(chǎng)合中，這個(gè)問題尤其迫切的需要得到解決。例如，目前為了便于醫(yī)療信息共享，電子病歷及電子健康檔案的使用已成為趨勢(shì)，醫(yī)務(wù)工作者、醫(yī)學(xué)研究者、衛(wèi)生部門、保險(xiǎn)公司等醫(yī)療相關(guān)人員可以方便地基于電子醫(yī)療數(shù)據(jù)進(jìn)行相關(guān)業(yè)務(wù)工作，然而從病人的角度看，他們應(yīng)該對(duì)有關(guān)其本人的病歷或健康檔案擁有隱私控制權(quán)，最典型的情境則是病人不希望某些沒有經(jīng)過其授權(quán)的人，通過獲取到的電子醫(yī)療數(shù)據(jù)能夠得知其患有某種敏感疾病?，F(xiàn)在，搜索已經(jīng)成為人們處理海量數(shù)字信息的基本工具，而如何使得搜索者快速、方便、準(zhǔn)確的獲得其需要的信息，同時(shí)又能保護(hù)信息所有者或者信息內(nèi)容相關(guān)人的隱私不被泄露，即實(shí)現(xiàn)搜索質(zhì)量和隱私保護(hù)的平衡，成為搜索系統(tǒng)需要面對(duì)的一個(gè)難題。通常情況下，文檔所有者或者隱私相關(guān)人通過制定隱私策略(privacypolicy) 來個(gè)性化定義隱私的范圍以及對(duì)于隱私相關(guān)信息的保護(hù)策略。兼顧隱私保護(hù)的搜索 (privacy-preserving search)需要解決的問題就是如何在搜索系統(tǒng)中滿足隱私策略，同時(shí)保持盡可能高的搜索質(zhì)量。在實(shí)際搜索系統(tǒng)中，訪問控制是最常用也是最有效的隱私控制方法，即隱私所有人對(duì)包含隱私信息的文檔設(shè)置訪問控制策略，設(shè)定有權(quán)限或者無權(quán)限獲取隱私文檔的搜索者。基于訪問控制的隱私保護(hù)通常包含三個(gè)步驟(1)隱私策略的定義隱私所有人確定隱私的涵義和范圍；(2)隱私文檔的判定判斷一個(gè)文檔是否包含隱私內(nèi)容；(3)訪問控制的設(shè)定為每個(gè)隱私文檔設(shè)定訪問策略。面對(duì)大量文檔時(shí)，隱私所有人不可能手工的對(duì)每個(gè)文檔進(jìn)行逐一的隱私判定和訪問控制設(shè)定。另外，當(dāng)隱私所有人更改其隱私策略時(shí)，也不可能手工的再逐一的對(duì)文檔進(jìn)行重新判定和設(shè)定。基于隱私策略，如何實(shí)現(xiàn)自動(dòng)的判定隱私文檔以及設(shè)定訪問控制，同時(shí)保證訪問控制的準(zhǔn)確性，是面對(duì)大量文檔時(shí)需要解決的問題。在現(xiàn)有技術(shù)中存在如下技術(shù)用于處理上述問題在題為"Method, System and Apparatus for Maintaining User Privacy in aKnowledge Interchange System”的歐洲專利 EP1638032A3 (遞交于 2005 年 9 月 6 日)所提出的系統(tǒng)中，允許用戶定義關(guān)鍵字級(jí)別(keyword-level)的隱私策略，即確定某些敏感關(guān)鍵字。包含這些敏感關(guān)鍵字的用戶文檔信息將不被傳送到服務(wù)器上供共享，從而達(dá)到訪問控制及隱私保護(hù)的目的。另夕卜，題為“Uniform Search System and Method for Selectively SharingDistributed Access-Controlled Documents” 的美國(guó)專利 US7409406B2 (遞交于2003年9月8日)將訪問控制的執(zhí)行權(quán)傳遞給文檔所有者(隱私相關(guān)人)自己，而不是由搜索服務(wù)器來擔(dān)當(dāng)。每個(gè)文檔所有者存儲(chǔ)自己的文檔(包含隱私文檔及非隱私文檔)。服務(wù)器僅僅保存已做過隱私保護(hù)的文檔索引。當(dāng)服務(wù)器接受到搜索查詢時(shí)，根據(jù)索引，服務(wù)器將查詢轉(zhuǎn)發(fā)給相關(guān)文檔所有者，然后由文檔所有者自行根據(jù)其隱私策略和訪問控制策略來響應(yīng)查詢。還有，題為"Augmenting Privacy Policies with Inference Detection，，的美國(guó)專利US2009/0144255A1 (遞交于2007年11月四日)支持用戶定義主題級(jí)別 (topic-level)的隱私策略，即用戶可以定義特定的敏感主題，所有涉及敏感主題的文檔都應(yīng)該被判定為隱私文檔。敏感主題是用一個(gè)或者一組主題關(guān)鍵字來表示的。該專利針對(duì)每個(gè)隱私策略(敏感主題)，準(zhǔn)備一組已經(jīng)人工判定好的相應(yīng)敏感文檔作為訓(xùn)練文檔，然后通過自然語言統(tǒng)計(jì)分析(statistical natural language analysis)的方法，從訓(xùn)練文檔里面學(xué)習(xí)新的可以表示該敏感主題的關(guān)鍵字，隨和這些新生成的關(guān)鍵字聯(lián)合用于定義主題的關(guān)鍵字，一起作為用于判定隱私文檔的關(guān)鍵字集合。然而，現(xiàn)有技術(shù)存在一些缺陷。在上面介紹的已有工作中，專利EP1638032A3使用關(guān)鍵字級(jí)別的隱私策略，這種方法的缺點(diǎn)在于用戶很難窮盡隱私相關(guān)的關(guān)鍵字，從而導(dǎo)致很難實(shí)現(xiàn)可用的隱私保護(hù)。專利US7409406B2將訪問控制權(quán)從搜索服務(wù)器轉(zhuǎn)移到文檔所有者用以規(guī)避服務(wù)器的隱私泄露風(fēng)險(xiǎn)，這種方法在很多實(shí)際情況中是無法應(yīng)用的，因?yàn)槲臋n所有者或者隱私相關(guān)人往往是處于離線狀態(tài)(比如電子醫(yī)療信息系統(tǒng)中的病人)，讓他們實(shí)時(shí)的處理訪問請(qǐng)求是不合理的。專利US2009/0144255A1實(shí)現(xiàn)了對(duì)主題級(jí)別的隱私策略的支持，克服了專利EP1638032A3的缺點(diǎn)，但是該專利在擴(kuò)展主題關(guān)鍵字的時(shí)候需要為每一個(gè)隱私策略準(zhǔn)備訓(xùn)練文檔，然而訓(xùn)練文檔的準(zhǔn)備需要人工標(biāo)注，非常耗時(shí)。尤其當(dāng)有大量文檔所有者建立了大量的隱私策略時(shí)，而且用戶可能在使用過程中變更隱私策略，這種情況下基于訓(xùn)練文檔的方法缺乏柔性，在實(shí)際應(yīng)用中是不適用的。

發(fā)明內(nèi)容
本發(fā)明是針對(duì)上述問題而做出的。本發(fā)明提出了一種新的、全自動(dòng)的、對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)，該方法利用對(duì)文檔集合自身進(jìn)行統(tǒng)計(jì)分析、或者使用本體(外部知識(shí)源)、或者文檔集合和文本的結(jié)合，來自動(dòng)獲取敏感主題相關(guān)的關(guān)鍵詞，這些關(guān)鍵詞用于從文檔集合中判定隱私文檔。另外，利用判定出隱私文檔的文檔集合，可以實(shí)現(xiàn)兼顧主題級(jí)別隱私保護(hù)的文檔搜索。根據(jù)本發(fā)明第一方面，提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法，包括輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第二方面，提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法，包括輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。
根據(jù)本發(fā)明第三方面，提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法，包括輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成第一敏感關(guān)鍵詞的集合；根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成第二敏感關(guān)鍵詞的集合；根據(jù)第二敏感關(guān)鍵詞的集合對(duì)第一敏感關(guān)鍵詞的集合進(jìn)行修正；根據(jù)第一敏感關(guān)鍵詞的集合對(duì)第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充；將經(jīng)過修正的第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的第二敏感關(guān)鍵詞的集合進(jìn)行合并，以獲得最終的敏感關(guān)鍵詞的集合；以及基于敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第四方面，提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng)，包括輸入裝置，用于輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；敏感關(guān)鍵詞生成裝置，用于基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及隱私文檔判定裝置，用于基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第五方面，提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng)，包括輸入裝置，用于輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；外部知識(shí)存儲(chǔ)器，用于存儲(chǔ)外部知識(shí)；敏感關(guān)鍵詞生成裝置，用于根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及隱私文檔判定裝置，用于基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)本發(fā)明第六方面，提供了一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng)，包括輸入裝置，用于輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；外部知識(shí)存儲(chǔ)器，用于存儲(chǔ)外部知識(shí)；第一敏感關(guān)鍵詞生成裝置，用于基于文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成第一敏感關(guān)鍵詞的集合；第二敏感關(guān)鍵詞生成裝置，用于根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成第二敏感關(guān)鍵詞的集合；修正裝置，用于根據(jù)第二敏感關(guān)鍵詞的集合對(duì)第一敏感關(guān)鍵詞的集合進(jìn)行修正；補(bǔ)充裝置，用于根據(jù)第一敏感關(guān)鍵詞的集合對(duì)第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充；合并裝置，用于將經(jīng)過修正的第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的第二敏感關(guān)鍵詞的集合進(jìn)行合并，以獲得最終的敏感關(guān)鍵詞的集合；以及隱私文檔判定裝置，用于基于敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。相對(duì)于面向關(guān)鍵字級(jí)別隱私策略方法，本發(fā)明支持主題級(jí)別隱私策略，從而實(shí)現(xiàn)更加智能、全面的隱私保護(hù)。另外，相對(duì)于已有面向主題級(jí)別的隱私保護(hù)方法，本發(fā)明由于不需要訓(xùn)練文檔，可以使系統(tǒng)變得高效柔性和實(shí)用，可以同時(shí)處理大量隱私策略，并且方便的支持隱私策略的動(dòng)態(tài)變化。

結(jié)合附圖，從下面對(duì)本發(fā)明實(shí)施例的詳細(xì)描述，將更好地理解本發(fā)明，附圖中類似的標(biāo)號(hào)指示類似的部分，其中圖1示出根據(jù)本發(fā)明的實(shí)現(xiàn)了主題級(jí)別隱私保護(hù)的文檔搜索系統(tǒng)的內(nèi)部結(jié)構(gòu)的框圖；圖2進(jìn)一步示出根據(jù)本發(fā)明的敏感關(guān)鍵詞生成裝置的內(nèi)部結(jié)構(gòu)的框圖3A示出根據(jù)本發(fā)明第一實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法300的流程圖；圖;3B是用于說明圖3A所示方法的工作過程的一個(gè)示例的示意圖；圖4A示出根據(jù)本發(fā)明第二實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法400的流程圖；圖4B是用于說明圖4A所示方法的工作過程的一個(gè)示例的示意圖；圖5A示出根據(jù)本發(fā)明第三實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法500的流程圖；以及圖5B是用于說明圖5A所示方法的工作過程的一個(gè)示例的示意圖。
具體實(shí)施例方式圖1示出根據(jù)本發(fā)明的實(shí)現(xiàn)了主題級(jí)別隱私保護(hù)的文檔搜索系統(tǒng)的內(nèi)部結(jié)構(gòu)的框圖。圖ι所示系統(tǒng)包括主題級(jí)別隱私保護(hù)設(shè)備101、存儲(chǔ)設(shè)備102和兼顧隱私的文檔搜索設(shè)備103。主題級(jí)別隱私保護(hù)設(shè)備101包括輸入裝置1011、敏感關(guān)鍵詞生成裝置1012和隱私文檔判定裝置1013。存儲(chǔ)設(shè)備102包括隱私策略存儲(chǔ)單元1021、文檔存儲(chǔ)單元1022、本體存儲(chǔ)單元1023、敏感關(guān)鍵詞存儲(chǔ)單元IOM和隱私文檔存儲(chǔ)單元1025。針對(duì)存儲(chǔ)設(shè)備102中所存儲(chǔ)的各個(gè)單元，它們的功能如下隱私策略存儲(chǔ)單元 1021存儲(chǔ)文檔所有者或者隱私相關(guān)人定義的主題級(jí)別的隱私策略，即用戶可以定義的特定敏感主題。敏感主題可以用一個(gè)或一組主題關(guān)鍵字來表示。文檔存儲(chǔ)單元1022存儲(chǔ)文檔集合，文檔包含有用戶ID，標(biāo)識(shí)文檔所有者。本體存儲(chǔ)單元1023存儲(chǔ)本體庫，本體庫中定義有概念以及概念之間的關(guān)系。本體存儲(chǔ)單元僅在使用基于本體的敏感詞生成(隨后將描述的第二實(shí)施例)，或者基于混合方法的敏感詞生成(隨后將描述的第三實(shí)施例)時(shí)才需要。敏感關(guān)鍵詞存儲(chǔ)單元IOM存儲(chǔ)由敏感詞生成裝置1012生成的敏感關(guān)鍵詞，每個(gè)敏感關(guān)鍵詞對(duì)應(yīng)于相關(guān)的隱私主題，即隱私策略。隱私文檔存儲(chǔ)單元1025存儲(chǔ)根據(jù)隱私策略和敏感關(guān)鍵詞判定出來的包含有隱私信息的文檔，即隱私文檔。針對(duì)主題級(jí)別隱私保護(hù)設(shè)備101中的各個(gè)處理裝置，它們的功能如下輸入裝置 1011輸入文檔集合以及用戶定義的主題級(jí)別隱私策略，該主題級(jí)別隱私策略可以包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞。敏感關(guān)鍵詞生成裝置1012利用根據(jù)本發(fā)明的發(fā)明，從隱私策略中所包括的主題關(guān)鍵詞擴(kuò)展生成敏感關(guān)鍵詞。敏感關(guān)鍵詞生成裝置1012作為本發(fā)明的核心隨后將詳細(xì)描述。本發(fā)明分別提出通過對(duì)文檔集合自身進(jìn)行統(tǒng)計(jì)分析、或者使用本體(外部知識(shí)源)、或者基于文檔集合和本體的結(jié)合來生成敏感關(guān)鍵詞的多個(gè)實(shí)施例。隱私文檔判定裝置1013根據(jù)生成的敏感關(guān)鍵詞在文檔庫中判定包含有隱私信息的文檔。例如，可以通過如下方法實(shí)現(xiàn)判定對(duì)于一篇文檔，如果其所有者定義有隱私策略，該隱私策略相關(guān)的敏感關(guān)鍵詞如果出現(xiàn)在這篇文檔中，這篇文檔即被判定為隱私文檔，否則為非隱私文檔。對(duì)于已標(biāo)識(shí)出隱私文檔的文檔集合可以執(zhí)行各種兼顧隱私保護(hù)的操作。例如，兼顧隱私的文檔搜索設(shè)備103可以執(zhí)行文檔搜索，同時(shí)滿足用戶定義的隱私策略。最基本的實(shí)現(xiàn)方法是如果某用戶指定了隱私策略限定某個(gè)(或者某類)搜索者不能訪問某主題文檔，那么在這個(gè)(或者這類)搜索者搜索的時(shí)候，關(guān)聯(lián)于隱私策略的隱私文檔將不會(huì)在搜索結(jié)果中出現(xiàn)。該發(fā)明的核心處理單元即敏感關(guān)鍵詞生成裝置1012，其面向主題級(jí)別的隱私策略，實(shí)現(xiàn)自動(dòng)的(不需要訓(xùn)練文檔集的)敏感關(guān)鍵詞的生成。圖2示出根據(jù)本發(fā)明的敏感關(guān)鍵詞生成裝置的內(nèi)部結(jié)構(gòu)的框圖。請(qǐng)注意，圖2中省略了圖1所示系統(tǒng)中與敏感關(guān)鍵詞生成沒有直接關(guān)系的部件。本發(fā)明提供了三種不同的敏感關(guān)鍵詞自動(dòng)生成裝置的具體實(shí)現(xiàn)，S卩，基于文檔集合的生成單元201 (第一實(shí)施例)、基于本體的生成單元202 (第二實(shí)施例)和基于混合方法的生成單元203(第三實(shí)施例)。基于文檔集的生成單元201分析文檔集合本身的內(nèi)部特征，并將隱私策略中定義的主題關(guān)鍵詞作為敏感關(guān)鍵詞的種子詞，來擴(kuò)展生成新的敏感關(guān)鍵詞。基于本體的生成單元202利用外部知識(shí)——本體定義的概念以及概念之間的關(guān)系，同樣也是以隱私策略里面定義的主題作為種子，得到擴(kuò)展的敏感關(guān)鍵詞?；诨旌戏椒ǖ纳蓡卧?03是通過結(jié)合基于文檔集合和基于本體的方法，來獲得更準(zhǔn)確有效的敏感關(guān)鍵詞。在圖2中，還示出了修正單元204，其用于根據(jù)外部知識(shí)(例如本體)對(duì)已基于文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞的集合(即，基于文檔集的生成單元201的擴(kuò)展結(jié)果)進(jìn)行修正。在圖2中，還示出了補(bǔ)充單元205，其用于利用根據(jù)文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞(基于文檔集的生成單元201的擴(kuò)展結(jié)果)對(duì)根據(jù)外部知識(shí)所生成的敏感關(guān)鍵詞的集合(基于本體的生成單元202的擴(kuò)展結(jié)果)進(jìn)行補(bǔ)充。接下來將參考附圖對(duì)敏感關(guān)鍵詞自動(dòng)生成的不同實(shí)現(xiàn)方法分別做具體的說明解釋。<基于文檔集合的內(nèi)部特征的方法>圖3A示出根據(jù)本發(fā)明第一實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法300(基于文檔集合的內(nèi)部特征的方法)的流程圖；圖:3B是用于說明圖3A所示方法的工作過程的一個(gè)示例的示意圖?；谖臋n集合的敏感關(guān)鍵詞生成使用文本處理的方法對(duì)文檔集合進(jìn)行分析，從而挖掘出與敏感主題相關(guān)的關(guān)鍵詞。在步驟301中，輸入裝置1011首先輸入文檔集合和主題級(jí)別的隱私策略，該隱私策略可以是一個(gè)或多個(gè)需要隱私保護(hù)的主題級(jí)別關(guān)鍵詞。在步驟302中，基于文檔集的生成單元201基于文檔集合的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成敏感關(guān)鍵詞，這可以通過對(duì)文檔集合進(jìn)行文本分析來實(shí)現(xiàn)。例如，潛在語義分析(Latent Semantic Analysis,LSA)是一種文本分析的實(shí)現(xiàn)方法。LSA通過對(duì)文檔集形成的文檔-關(guān)鍵詞矩陣進(jìn)行矩陣奇異值分解，來獲得關(guān)鍵詞的之間的主題相似性度量。關(guān)鍵詞之間越相似，表示他們的主題性越相關(guān)。在用戶定義的主題級(jí)別的隱私策略中，我們把主題的名稱作為種子關(guān)鍵詞，根據(jù)在LSA得到的關(guān)鍵詞相似性結(jié)果，找出最相似的關(guān)鍵詞(可以根據(jù)預(yù)設(shè)的相似值閾值)，然后把種子關(guān)鍵詞聯(lián)合這些最相似的關(guān)鍵詞作為對(duì)應(yīng)于該敏感主題的敏感關(guān)鍵詞，用于對(duì)隱私文檔的判定。圖3B示出了利用LSA生成敏感關(guān)鍵詞的一個(gè)實(shí)例。在步驟303中，可選地，修正單元204可以根據(jù)外部知識(shí)(例如本體)對(duì)已生成的敏感關(guān)鍵詞的集合進(jìn)行修正。具體的修正方法隨后將描述。
在步驟304中，隱私文檔判定裝置1013基于生成的敏感關(guān)鍵詞(或經(jīng)修正后的敏感關(guān)鍵詞)從文檔集合中判定隱私文檔。由于隱私文檔判定裝置1013可以使用已知方法進(jìn)行操作，這里不作贅述。然后，過程300結(jié)束。<基于外部本體的方法>圖4A示出根據(jù)本發(fā)明第二實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法400(基于外部本體的方法)的流程圖；圖4B是用于說明圖4A所示方法的工作過程的一個(gè)示例的示意圖?；诒倔w的敏感關(guān)鍵詞生成，是利用外部知識(shí)(本體)來得到對(duì)敏感主題的認(rèn)識(shí)。本體是一種形式化的知識(shí)表達(dá)，本體中定義了領(lǐng)域概念以及概念之間的關(guān)系，其中最基本的概念之間的關(guān)系即是層次關(guān)系，表示其中一個(gè)概念是另外一個(gè)概念的父概念或者子概
ο在步驟401中，類似于第一實(shí)施例，輸入裝置1011首先輸入文檔集合和主題級(jí)別的隱私策略，該隱私策略可以是一個(gè)或多個(gè)需要隱私保護(hù)的主題級(jí)別關(guān)鍵詞。在步驟402中，基于本體的生成單元202根據(jù)外部知識(shí)(例如本體)擴(kuò)展主題關(guān)鍵詞，以生成敏感關(guān)鍵詞集合Al。例如，在執(zhí)行基本本體的敏感關(guān)鍵詞生成時(shí)，可以將用戶定義的主題級(jí)別的隱私策略作為一個(gè)種子概念，在本體中找到相匹配的概念，然后獲得該種子概念的所有子概念(包含子概念的所有下位概念)。形成的概念集合可以構(gòu)成對(duì)該敏感主題的完整描述。所有這些概念的代表關(guān)鍵詞(在本體中即為組成這些概念的名稱的關(guān)鍵詞，有時(shí)本體中也定義有表示相同概念的多個(gè)名稱，這些名稱中的關(guān)鍵詞都被選為概念的代表關(guān)鍵詞)則形成了對(duì)應(yīng)于該敏感主題的敏感關(guān)鍵詞，用于對(duì)隱私文檔的判定。圖4B 示出了利用本體生成敏感關(guān)鍵詞的一個(gè)實(shí)例。步驟403和404是可選步驟，用于利用基于文檔集合的內(nèi)部特征生成的敏感關(guān)鍵字對(duì)基于外部本體生成的敏感關(guān)鍵字進(jìn)行補(bǔ)充。即，補(bǔ)充單元205所實(shí)現(xiàn)的功能。具體的補(bǔ)充方法隨后將描述。在步驟405中，類似于第一實(shí)施例，隱私文檔判定裝置1013基于生成的敏感關(guān)鍵詞(或經(jīng)補(bǔ)充后的敏感關(guān)鍵詞)從文檔集合中判定隱私文檔。然后，過程400結(jié)束。<基于文檔集合的內(nèi)部特征和基于本體的混合方法>圖5A示出根據(jù)本發(fā)明第三實(shí)施例的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法500(混合方法)的流程圖；以及圖5B是用于說明圖5A所示方法的工作過程的一個(gè)示例的示意圖?；谖臋n集合和基于本體的生成方法各自都有其固有的缺點(diǎn)基于文檔集合的方法(比如LSA方法)通常會(huì)引入過多噪聲，而使得敏感關(guān)鍵詞生成過多，會(huì)形成隱私的過保護(hù)，從而影響搜索質(zhì)量；而基于本體的方法依賴于來自外部知識(shí)源的本體，本體往往對(duì)領(lǐng)域的覆蓋不會(huì)很全面，因此可能造成某些隱私主題在本體中找不到對(duì)應(yīng)，而實(shí)現(xiàn)不了主題關(guān)鍵詞的擴(kuò)展生成，從而影響隱私保護(hù)的質(zhì)量。鑒于此，本發(fā)明還提出一種混合方法，將上述兩種方法結(jié)合使用，可以互相克服對(duì)方的缺點(diǎn)，從而得到更好的隱私保護(hù)程度以及搜索質(zhì)量。
如上所述，在本實(shí)施例中所提出的修正方法和補(bǔ)充方法可以被分別應(yīng)用到上述第一和第二實(shí)施例，以用于提高搜索質(zhì)量。參考圖5A，在步驟501中，類似于第一和第二實(shí)施例，輸入裝置1011首先輸入文檔集合和主題級(jí)別的隱私策略，該隱私策略可以是一個(gè)或多個(gè)需要隱私保護(hù)的主題級(jí)別關(guān)鍵詞。在步驟502中，基于文檔集合的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成第一敏感關(guān)鍵詞集合Al (例如，使用文本分析LSA)。在步驟503中，根據(jù)外部知識(shí)(例如本體)擴(kuò)展主題關(guān)鍵詞，以生成第二敏感關(guān)鍵詞集合A2。在步驟504中，利用集合A2中的敏感關(guān)鍵詞對(duì)Al進(jìn)行修正。修正規(guī)則例如可以是如果關(guān)鍵詞A'是隱私策略中的主題關(guān)鍵詞A經(jīng)過文檔集分析得到的擴(kuò)展結(jié)果，并且同時(shí)在本體中，A'表示的概念與A表示的概念沒有關(guān)聯(lián)，則從該隱私主題的相關(guān)敏感關(guān)鍵詞集合中刪除掉A'。在步驟505中，利用集合Al中的敏感關(guān)鍵詞對(duì)A2進(jìn)行補(bǔ)充。補(bǔ)充規(guī)則例如可以是如果關(guān)鍵詞A'是隱私策略中的主題關(guān)鍵詞A經(jīng)過文檔集分析得到的擴(kuò)展結(jié)果，同時(shí)A 在本體中找不到可以對(duì)應(yīng)的概念，那么可以用關(guān)鍵詞A'替代A作為隱私策略中的主題詞，在本體中尋找對(duì)應(yīng)概念，從而觸發(fā)基于本體的敏感詞生成過程。圖5B給出了上述修正過程和補(bǔ)充過程的一個(gè)實(shí)例。顯而易見，本發(fā)明所提出的上述結(jié)果修正方法和補(bǔ)充方法僅僅作為示例，而不是對(duì)本發(fā)明的限制。本領(lǐng)域技術(shù)人員可以設(shè)想其他方式來實(shí)現(xiàn)兩種敏感關(guān)鍵詞(基于文檔集生成的敏感關(guān)鍵詞和基于本體的敏感關(guān)鍵詞)的相互修正和補(bǔ)充。然后，在步驟506中，將修正后的Al’與補(bǔ)充后的A2’合并(聯(lián)合)，從而將兩個(gè)集合的并集作為最終用于隱私文檔判定的敏感關(guān)鍵詞集合。參考圖5B實(shí)例。隨后，在步驟507中，類似于第一和第二實(shí)施例，隱私文檔判定裝置1013基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。然后，過程500結(jié)束。上面已經(jīng)參考附圖對(duì)根據(jù)本發(fā)明的用于對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)進(jìn)行了詳細(xì)描述。如前所述，本發(fā)明的方法能夠?qū)崿F(xiàn)更加智能、全面的隱私保護(hù)。相對(duì)于已有的面向主題級(jí)別的隱私保護(hù)方法，本發(fā)明由于不需要使用訓(xùn)練文檔，可以使系統(tǒng)變得高效柔性和實(shí)用，可以同時(shí)處理大量隱私策略，并且方便的支持隱私策略的動(dòng)態(tài)變化。但是，需要明確，本發(fā)明并不局限于上文所描述并在圖中示出的特定配置和處理。并且，為了簡(jiǎn)明起見，這里省略對(duì)已知方法技術(shù)的詳細(xì)描述。在上述實(shí)施例中，描述和示出了若干具體的步驟作為示例。但是，本發(fā)明的方法過程并不限于所描述和示出的具體步驟，本領(lǐng)域的技術(shù)人員可以在領(lǐng)會(huì)本發(fā)明的精神之后，作出各種改變、修改和添加，或者改變步驟之間的順序。本發(fā)明的元素可以實(shí)現(xiàn)為硬件、軟件、固件或者它們的組合，并且可以用在它們的系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實(shí)現(xiàn)時(shí)，本發(fā)明的元素是被用于執(zhí)行所需任務(wù)的程序或者代碼段。程序或者代碼段可以存儲(chǔ)在機(jī)器可讀介質(zhì)中，或者通過載波中攜帶的數(shù)據(jù)信號(hào)在傳輸介質(zhì)或者通信鏈路上傳送。“機(jī)器可讀介質(zhì)”可以包括能夠存儲(chǔ)或傳輸信息的任何介質(zhì)。機(jī)器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲(chǔ)器設(shè)備、ROM、閃存、可擦除ROM(EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路，等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)等的計(jì)算機(jī)網(wǎng)絡(luò)被下載。本發(fā)明可以以其他的具體形式實(shí)現(xiàn)，而不脫離其精神和本質(zhì)特征。例如，特定實(shí)施例中所描述的算法可以被修改，而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此，當(dāng)前的實(shí)施例在所有方面都被看作是示例性的而非限定性的，本發(fā)明的范圍由所附權(quán)利要求而非上述描述定義，并且，落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在本發(fā)明的范圍之中。
權(quán)利要求
1.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法，包括輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
2.如權(quán)利要求1所述的方法，其中所述擴(kuò)展步驟包括將所述隱私策略中包含的主題關(guān)鍵詞作為種子詞，通過對(duì)所述文檔集合進(jìn)行文本分析來找到與種子詞之間的主題相似度大于一預(yù)定閾值的主題相似關(guān)鍵詞；并且將所述主題關(guān)鍵詞與它們的主題相似關(guān)鍵詞合并，作為所述敏感關(guān)鍵詞。
3.如權(quán)利要求2所述的方法，其中所述文本分析使用潛在語義分析方法LSA。
4.如權(quán)利要求1所述的方法，還包括根據(jù)外部知識(shí)對(duì)已基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞的集合進(jìn)行修正。
5.如權(quán)利要求4所述的方法，其中所述外部知識(shí)是本體。
6.如權(quán)利要求5所述的方法，其中所述修正步驟包括如果一主題關(guān)鍵詞A與其基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞A’在所述本體上被確定為沒有關(guān)聯(lián)，則從敏感關(guān)鍵詞的集合中刪除該敏感關(guān)鍵詞A’。
7.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法，包括輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
8.如權(quán)利要求7所述的方法，其中所述外部知識(shí)是本體。
9.如權(quán)利要求8所述的方法，其中所述擴(kuò)展步驟包括將所述隱私策略作為種子概念，在所述本體中找到所述種子概念的所有子概念；并且將所述子概念的代表關(guān)鍵詞與所述主題關(guān)鍵詞合并，作為所述敏感關(guān)鍵詞。
10.如權(quán)利要求9所述的方法，其中找到的所述子概念還包括孫子及所有下位概念。
11.如權(quán)利要求9所述的方法，其中所述代表關(guān)鍵詞是組成表示所述子概念的一個(gè)或多個(gè)名稱的關(guān)鍵詞。
12.如權(quán)利要求8所述的方法，還包括基于所述文檔集合本身的內(nèi)部特征來擴(kuò)展所述主題關(guān)鍵詞以生成敏感關(guān)鍵詞；利用根據(jù)所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞對(duì)根據(jù)所述外部本體所生成的敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充。
13.如權(quán)利要求12所述的方法，其中所述補(bǔ)充步驟包括如果一主題關(guān)鍵詞A在所述外部本體中找不到相應(yīng)概念，則將其基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞A’作為種子概念在所述外部本體中尋找敏感關(guān)鍵詞。
14.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法，包括輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成第一敏感關(guān)鍵詞的集合；根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成第二敏感關(guān)鍵詞的集合；根據(jù)所述第二敏感關(guān)鍵詞的集合對(duì)所述第一敏感關(guān)鍵詞的集合進(jìn)行修正；根據(jù)所述第一敏感關(guān)鍵詞的集合對(duì)所述第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充；將經(jīng)過修正的所述第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的所述第二敏感關(guān)鍵詞的集合進(jìn)行合并，以獲得最終的敏感關(guān)鍵詞的集合；以及基于所述敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。
15.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng)，包括輸入裝置，用于輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；敏感關(guān)鍵詞生成裝置，用于基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及隱私文檔判定裝置，用于基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
16.如權(quán)利要求15所述的系統(tǒng)，還包括兼顧隱私的文檔搜索裝置，用于對(duì)已標(biāo)注出隱私文檔的所述文檔集合執(zhí)行兼顧隱私保護(hù)的文檔搜索。
17.如權(quán)利要求15所述的系統(tǒng)，還包括外部知識(shí)存儲(chǔ)器，用于存儲(chǔ)外部知識(shí)；修正裝置，用于根據(jù)所述外部知識(shí)對(duì)所述敏感關(guān)鍵詞生成裝置已基于所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞的集合進(jìn)行修正。
18.—種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng)，包括輸入裝置，用于輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；外部知識(shí)存儲(chǔ)器，用于存儲(chǔ)外部知識(shí)；第一敏感關(guān)鍵詞生成裝置，用于根據(jù)所述外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及隱私文檔判定裝置，用于基于生成的所述敏感關(guān)鍵詞從所述文檔集合中判定隱私文檔。
19.如權(quán)利要求18所述的系統(tǒng)，還包括第二敏感關(guān)鍵詞生成裝置，用于基于所述文檔集合本身的內(nèi)部特征來擴(kuò)展所述主題關(guān)鍵詞以生成敏感關(guān)鍵詞；補(bǔ)充裝置，用于利用所述第二敏感關(guān)鍵詞生成裝置根據(jù)所述文檔集合的內(nèi)部特征所生成的敏感關(guān)鍵詞對(duì)所述第一敏感關(guān)鍵詞生成裝置根據(jù)所述外部知識(shí)所生成的敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充。
20.一種對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的系統(tǒng)，包括輸入裝置，用于輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；外部知識(shí)存儲(chǔ)器，用于存儲(chǔ)外部知識(shí)；第一敏感關(guān)鍵詞生成裝置，用于基于所述文檔集合本身的內(nèi)部特征擴(kuò)展主題關(guān)鍵詞，以生成第一敏感關(guān)鍵詞的集合；第二敏感關(guān)鍵詞生成裝置，用于根據(jù)外部知識(shí)擴(kuò)展主題關(guān)鍵詞，以生成第二敏感關(guān)鍵詞的集合；修正裝置，用于根據(jù)所述第二敏感關(guān)鍵詞的集合對(duì)所述第一敏感關(guān)鍵詞的集合進(jìn)行修正；補(bǔ)充裝置，用于根據(jù)所述第一敏感關(guān)鍵詞的集合對(duì)所述第二敏感關(guān)鍵詞的集合進(jìn)行補(bǔ)充；合并裝置，用于將經(jīng)過修正的所述第一敏感關(guān)鍵詞的集合和經(jīng)過補(bǔ)充的所述第二敏感關(guān)鍵詞的集合進(jìn)行合并，以獲得最終的敏感關(guān)鍵詞的集合；以及隱私文檔判定裝置，用于基于所述敏感關(guān)鍵詞集合中的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。
全文摘要
本發(fā)明提出了對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)。該方法包括輸入文檔集合以及主題級(jí)別隱私策略，所述隱私策略包括一個(gè)或多個(gè)需要隱私保護(hù)的主題關(guān)鍵詞；擴(kuò)展主題關(guān)鍵詞，以生成一個(gè)或多個(gè)敏感關(guān)鍵詞；以及基于生成的敏感關(guān)鍵詞從文檔集合中判定隱私文檔。根據(jù)不同的實(shí)施例，本發(fā)明分別基于文檔集的內(nèi)部特征、基于外部知識(shí)(本體)或它們兩者來生成敏感關(guān)鍵詞。由于本發(fā)明的方法不需要使用訓(xùn)練文檔，因此可以使系統(tǒng)更加高效柔性和實(shí)用，可以同時(shí)處理大量隱私策略，并且可以方便的支持隱私策略的動(dòng)態(tài)變化。
文檔編號(hào)G06F21/24GK102201048SQ20101013259
公開日2011年9月28日申請(qǐng)日期2010年3月24日優(yōu)先權(quán)日2010年3月24日
發(fā)明者劉博 , 李建強(qiáng), 趙彧, 郭劍峰申請(qǐng)人:日電(中國(guó))有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙彧;李建強(qiáng);劉博;郭劍峰
技術(shù)所有人：日電(中國(guó))有限公司
我是此專利的發(fā)明人

上一篇：監(jiān)控電路及業(yè)務(wù)板監(jiān)控方法
上一篇：現(xiàn)場(chǎng)可編程邏輯器件固件升級(jí)裝置及其方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對(duì)文檔集合進(jìn)行主題級(jí)別隱私保護(hù)的方法和系統(tǒng)的制作方法