專利名稱:包括自動分類規(guī)則的數(shù)據(jù)分類流水線的制作方法
包括自動分類規(guī)則的數(shù)據(jù)分類流水線背景在典型的企業(yè)環(huán)境中維護和處理的數(shù)據(jù)量是巨大的,并迅速地增大。例如,信息技術(shù)(IT)部門必須處理數(shù)十種格式的數(shù)百萬或者甚至數(shù)十億的文件是常見的。此外,現(xiàn)有的數(shù)量以很大的速率增長(例如,每年兩位數(shù)的增長)。這些數(shù)據(jù)中大多數(shù)沒有被積極地管理,并以非結(jié)構(gòu)化的表單保留在文件共享中。現(xiàn)有數(shù)據(jù)管理工具和實踐不能很好地跟上可能存在的各種和復(fù)雜情況。這樣的情況包括順應(yīng)性、安全性,以及存儲,并適用于非結(jié)構(gòu)化數(shù)據(jù)(例如,文件),半結(jié)構(gòu)化數(shù)據(jù)(例如,文件加額外的屬性/元數(shù)據(jù))和結(jié)構(gòu)化數(shù)據(jù)(例如,在數(shù)據(jù)庫中)。因此,需要降低管理成本和風(fēng)險的任何技術(shù)。概述提供本概述是為了以簡化的形式介紹將在以下詳細描述中進一步描述的一些代表性的概念。本概述并不旨在標識出所要求保護的主題的關(guān)鍵因素或必要特征,也不旨在以將限定所要求保護的主題的范圍的任何方式被使用。簡言之,此處所描述的主題的各個方面涉及這樣的技術(shù)通過該技術(shù)經(jīng)由數(shù)據(jù)處理流水線(包括分類流水線)來處理數(shù)據(jù)項(例如,文件),以促進基于它們的分類對數(shù)據(jù)項的管理。一方面,分類流水線獲取與每一個已發(fā)現(xiàn)的數(shù)據(jù)項相關(guān)聯(lián)的元數(shù)據(jù)(例如,業(yè)務(wù)影響、隱私級別等等)。一組一個或多個分類器若被調(diào)用,則將數(shù)據(jù)項分類為分類元數(shù)據(jù) (例如,一個或多個屬性),然后將這些屬性與數(shù)據(jù)項進行關(guān)聯(lián)(相關(guān)聯(lián)地保存)。然后,可以基于其相關(guān)聯(lián)的分類元數(shù)據(jù)來將策略應(yīng)用于每一個數(shù)據(jù)項,例如,以基于每一個文件的元數(shù)據(jù),使文件期滿,改變文件的保護/訪問級別等等。—方面,數(shù)據(jù)項處理流水線包括用于項發(fā)現(xiàn)、分類和策略應(yīng)用的獨立階段的模塊化組件。每一個階段都是可擴展的,并可包括在該階段起作用的一個或多個模塊(或沒有模塊)??梢栽谕獠吭O(shè)置或分別通過set (設(shè)置)或get (獲得)接口獲取每一個項的分類元數(shù)據(jù)/屬性。一方面,在分類階段,可以調(diào)用多個分類器模塊??梢曰诟鞣N準則,如先前是否和/或先前何時分類了數(shù)據(jù)項,作出是否要調(diào)用每一個分類器的決定。在分類數(shù)據(jù)項時,分類器可以使用與數(shù)據(jù)項相關(guān)聯(lián)的屬性中的任一個,和/或數(shù)據(jù)項本身的內(nèi)容。預(yù)定義排序的分類器、權(quán)威性分類器和/或聚合機制是可以被用來處理關(guān)于不同的分類器如何分類相同項的任何沖突的技術(shù)??梢蕴峁┎煌愋偷姆诸惼鳎ɑ跀?shù)據(jù)項的位置來分類數(shù)據(jù)項的分類器,基于全局儲存庫的分類器(基于所有者和/或作者),和/或基于項內(nèi)包含的內(nèi)容來分類項的基于內(nèi)容的分類器。每一個分類器都可以對應(yīng)于自動分類規(guī)則;分類器可以直接改變屬性值,或?qū)⒔Y(jié)果返回到相對應(yīng)的規(guī)則機制,以使得相對應(yīng)的規(guī)則機制可以改變屬性。通過下面的結(jié)合附附圖對本發(fā)明進行的詳細說明,其他優(yōu)點可以變得顯而易見。附圖簡述本發(fā)明是作為示例說明的,而不僅限于附圖,在附圖中,類似的參考編號表示類似的元件,其中
圖1是示出了用于自動處理用于數(shù)據(jù)管理的數(shù)據(jù)項(包括發(fā)現(xiàn)數(shù)據(jù)項、分類那些數(shù)據(jù)項,并基于分類來應(yīng)用策略)的流水線服務(wù)中的示例模塊的框圖。圖2是示出了當(dāng)將文件服務(wù)器的文件處理為與文件相關(guān)聯(lián)的屬性時由流水線服務(wù)執(zhí)行的示例步驟的表示。圖3是示范了如何通過分類運行時在多個模塊之間傳遞數(shù)據(jù)項的屬性以便進行處理的示例分類服務(wù)體系結(jié)構(gòu)的表示。圖4A和4B包括示出了處理數(shù)據(jù)項所采取的示例步驟的流程圖,包括為策略應(yīng)用而分類項的步驟。圖5示出了可以將本發(fā)明的各個方面集成到其中的計算環(huán)境的說明性示例。詳細描述此處所描述的技術(shù)的各個方面一般涉及通過將數(shù)據(jù)項(對象)分類為一個類別, 并基于分類應(yīng)用數(shù)據(jù)管理策略來管理數(shù)據(jù)(例如,文件服務(wù)器上的文件等等)。在一方面, 這是通過用于啟用數(shù)據(jù)分類的解決方案的模塊化方法,基于分類流水線來完成的。一般而言,流水線包括通過公用接口進行通信的一系列模塊化軟件組件。在各時間點,數(shù)據(jù)被發(fā)現(xiàn)和分類,且基于數(shù)據(jù)分類,將策略應(yīng)用于數(shù)據(jù)。盡管此處使用了各種示例,如用于分類文件服務(wù)器上維護的文件/數(shù)據(jù)的不同的文件分類類型,但是,應(yīng)該理解,此處所描述的示例中的任何一個都是非限制性示例。例如, 不僅可以分類文件,而且也可以將其他數(shù)據(jù)結(jié)構(gòu)分類到相關(guān)的分類“類型”,例如,可以分類任何結(jié)構(gòu)化的數(shù)據(jù)(例如,遵循描述如何表示數(shù)據(jù)的抽象模型并可以被訪問的任何數(shù)據(jù)片段),例如,電子郵件項、數(shù)據(jù)庫表、網(wǎng)絡(luò)數(shù)據(jù)等等。此外,可以使用其他的存儲數(shù)據(jù)的方式, 例如,作為代替或補充的文件服務(wù)器,數(shù)據(jù)可以保留在本地存儲、分布式存儲、存儲區(qū)域網(wǎng)絡(luò),因特網(wǎng)存儲等等中。如此,本發(fā)明不僅限于此處所描述的任何特定實施例、方面、概念、 結(jié)構(gòu)、功能或示例。相反,此處所描述的任何一個實施例、方面、概念、結(jié)構(gòu)、功能或示例都是非限制性的,可以以一般而言在計算和進行數(shù)據(jù)管理時提供好處和優(yōu)點的各種方式來使用本發(fā)明。圖1示出了涉及此處所描述的技術(shù)的各個方面,包括用于處理數(shù)據(jù)項的流水線, 該流水線如此處所示范的可以被用來處理文件,但是,如可理解的可以被用來處理諸如電子郵件項之類的一個或多個其他數(shù)據(jù)結(jié)構(gòu)。在圖1的示例中,流水線被實現(xiàn)為對如由數(shù)據(jù)存儲104所表示的任何數(shù)據(jù)集進行操作的服務(wù)102。一般而言,流水線服務(wù)102包括發(fā)現(xiàn)模塊106、分類服務(wù)108,以及策略模塊113。 注意術(shù)語“服務(wù)”不一定與單一機器相關(guān)聯(lián),而是協(xié)調(diào)流水線的某一執(zhí)行的機制。在此示例中,分類服務(wù)108包括其他模塊,S卩,元數(shù)據(jù)提取模塊(諸元數(shù)據(jù)提取模塊)109、分類模塊(諸分類模)110,以及元數(shù)據(jù)存儲模塊(諸元數(shù)據(jù)存儲模塊)111。下面所描述的模塊中的每一個都可以被視為階段,實際上,每一個操作的時間線不必是相鄰的,即,每一個階段都可以被相對獨立地執(zhí)行,而不必緊接著前一階段。例如,發(fā)現(xiàn)階段可以發(fā)現(xiàn)和維護分類階段以后分類的項。作為另一個示例,可以以每日為基礎(chǔ)分類數(shù)據(jù),且每周一次地運行數(shù)據(jù)管理應(yīng)用程序(例如,備份)。任何一個階段都可以被獨立地執(zhí)行,實時地在線處理或離線處理,在前臺或在后臺(例如,懶惰(lazy))操作中,或在分開的機器上以分布式方式執(zhí)行。
一般而言,發(fā)現(xiàn)模塊(諸發(fā)現(xiàn)模塊)106發(fā)現(xiàn)要分類的項(例如,文件),并可以使用一個以上的機制來執(zhí)行此項操作。作為示例,可以有兩種方式來發(fā)現(xiàn)文件服務(wù)器上的文件,一種方式是通過掃描文件系統(tǒng)來操作,而另一種方式是從遠程文件訪問協(xié)議檢測新的對文件的修改。一般而言,被發(fā)現(xiàn)的數(shù)據(jù)作為項被提供到分類階段/服務(wù)108,以便進行分類,無論是直接還是通過中間存儲。以此方式,發(fā)現(xiàn)在邏輯上可以與分類分離。可以以許多方式來啟動發(fā)現(xiàn)。一種方式是按需的,其中,項是應(yīng)請求發(fā)現(xiàn)的。另一種方式是實時的,其中,對一個或多個項的更改觸發(fā)發(fā)現(xiàn)操作。再一種方式是調(diào)度的發(fā)現(xiàn), 例如,一天一次,如在正常工作時間之后。再一種方式是懶惰發(fā)現(xiàn),其中,后臺進程等等以低優(yōu)先級操作以發(fā)現(xiàn)項,例如,當(dāng)網(wǎng)絡(luò)或服務(wù)器利用率相對較低時。此外,還要注意,發(fā)現(xiàn)可以在在線操作中運行,即,對真實數(shù)據(jù),或?qū)?shù)據(jù)的離線副本,如原始數(shù)據(jù)的時間點快照;(注意,一般而言,快照副本是指當(dāng)特定數(shù)據(jù)項處于某個定義的時間點時的該特定數(shù)據(jù)項的副本,由此,對快照副本進行處理會在數(shù)據(jù)項正在被處理時有助于將數(shù)據(jù)項維持在恒定狀態(tài), 這與其中數(shù)據(jù)項可以實時地變化的實況系統(tǒng)不同)。在分類階段/服務(wù)108 (下面所描述的)之后,策略模塊113基于每一個項的分類來應(yīng)用策略。作為示例,信息泄露保護產(chǎn)品可以將某些文件分類為具有“個人可標識信息” 等等。可以利用一個策略配置文件備份產(chǎn)品,以便將被分類為具有“個人可標識信息”的任何文件備份到加密存儲中。轉(zhuǎn)向涉及分類的各個方面,如在圖1中所表示的,元數(shù)據(jù)提取模塊(諸元數(shù)據(jù)提取模塊)109發(fā)現(xiàn)與數(shù)據(jù)項相關(guān)聯(lián)的元數(shù)據(jù)。例如,文件系統(tǒng)具有它將其與文件進行關(guān)聯(lián)的許多屬性,并可以以已知方式提取這些屬性。元數(shù)據(jù)提取模塊(諸元數(shù)據(jù)提取模塊)109還提取分類元數(shù)據(jù)的當(dāng)前值,以便它可以被用作對分類階段的輸入。注意,分類可以對實時數(shù)據(jù)或備份數(shù)據(jù)進行。元數(shù)據(jù)的一些示例包括具有各種元素的分類屬性定義,如屬性名稱(或標識符)、 屬性值類型(標識實際值的數(shù)據(jù)類型,例如,簡單數(shù)據(jù)類型,如字符串、日期、布爾值、值的有序集或多集),以及復(fù)雜數(shù)據(jù)類型,如通過分層分類法(文檔類型、組織單元,或地理位置)所描述的數(shù)據(jù)類型)。分類屬性值(叫做“屬性值”或簡稱為“屬性”)是可以被指派到數(shù)據(jù)項以達到分類該數(shù)據(jù)項的某一值。此值與分類屬性相關(guān)聯(lián),并一般遵守由相關(guān)聯(lián)的屬性定義施加的限制。其他示例包括屬性模式(描述對可能的值的更多限制),以及描述如何將多個值聚合在單個值中的聚合策略(在流水線執(zhí)行過程中需要這樣的聚合的情況下)。更進一步, 元數(shù)據(jù)可以包括與屬性相關(guān)聯(lián)的附加屬性,如語言依存信息、額外標識符,等等。作為示例,考慮類型“ordered value set (有序值集合)”的名為“Business impact (業(yè)務(wù)影響)”的屬性,其只限于值HBI (高業(yè)務(wù)影響)、MBI (中等業(yè)務(wù)影響)和 LBI (低業(yè)務(wù)影響),聚合策略是HBI優(yōu)先于MBI,而MBI又優(yōu)先于LBI。注意,在分類過程中,屬性值與數(shù)據(jù)項的關(guān)聯(lián)將自動將該文檔“綁定到”文檔的類(即,類別)。例如,通過將屬性“Businesslmpact = HBI"附連到數(shù)據(jù)項,此數(shù)據(jù)項被隱式地指派到文檔“類另ij,,BusinesImpact = HBI0元數(shù)據(jù)也可以保留在外部數(shù)據(jù)源或其他高速緩存中。一個示例包括允許用戶或客戶端和/或一個或多個其他機制設(shè)置分類元數(shù)據(jù),或分類本身,并將它維護在諸如數(shù)據(jù)庫之類的數(shù)據(jù)存儲中。如此,例如,用戶可以手動將文件設(shè)置為包含“個人可標識信息”等等。 自動化過程可以執(zhí)行類似的操作,如通過基于什么文件夾包含文件來確定元數(shù)據(jù),例如,當(dāng)一個文件被添加到敏感的文件夾時,進程可以自動設(shè)置該文件的相關(guān)聯(lián)元數(shù)據(jù)。此外,可以從先前的提取和/或分類操作維護(高速緩存)項的元數(shù)據(jù)。如此,元數(shù)據(jù)提取可以分多個部分,例如,提取現(xiàn)有元數(shù)據(jù)(檢索)和提取新元數(shù)據(jù)。如可以輕松地理解的,檢索現(xiàn)有元數(shù)據(jù)可以提高分類效率,如對于很少改變的文件。更進一步,效率機制可以基于分類器元數(shù)據(jù)被更新的最后的時間,例如,基于從分類器接收到的時間戳,來確定是否要調(diào)用分類器。分類服務(wù)108的配置中的變化,如規(guī)則變化或分類器變化,也可以觸發(fā)新的分類。一旦獲得關(guān)于項的元數(shù)據(jù),分類模塊110基于其元數(shù)據(jù)來分類項。也可以評估項的內(nèi)容,例如,查找可以被用來對其進行分類的某些關(guān)鍵字(例如,“confidential (秘密)”),標簽或關(guān)于文件的屬性的其他指示符。有各種方式來分類數(shù)據(jù)。例如,當(dāng)分類文件時,文件可能已經(jīng)由用戶針對分類手動設(shè)置,和/或由控制文件的業(yè)務(wù)線(LOB)應(yīng)用程序 (例如,人力資源應(yīng)用程序)來分類。文件可以被設(shè)置為通過運行管理員腳本來分類,和/ 或使用一組分類規(guī)則來自動分類。一般而言,自動分類規(guī)則提供作為分類流水線階段108的一部分的通用、可擴展的機制。這允許管理員等等來定義被應(yīng)用于數(shù)據(jù)項以分類那些項的自動分類規(guī)則。每一個自動分類規(guī)則都激活可以確定某一數(shù)據(jù)對象集的分類并設(shè)置分類屬性的分類模塊(分類器)。注意,一個分類器模塊可包括確定同一數(shù)據(jù)項(或不同的數(shù)據(jù)項)的不同的分類屬性的若干規(guī)則。此外,可以將多個分類器應(yīng)用于同一數(shù)據(jù)項;例如,兩個不同的分類器可以各自確定文件是否具有“個人可標識信息”。可以部署兩個分類器來評估同一文件,從而即使只有一個分類器確定文件包含“個人可標識信息”,文件也被如此分類。作為示例,一個規(guī)則可以包含的一些元素包括規(guī)則管理信息(規(guī)則名稱、標識符等等)、規(guī)則范圍(將由規(guī)則管理的數(shù)據(jù)項集的描述,如“c:\folderl中的所有文件”),以及描述規(guī)則在流水線中期間如何執(zhí)行的規(guī)則評估選項。其他元素包括分類器模塊(對此規(guī)則用來實際指派屬性值的分類器的引用)、屬性(定義由此規(guī)則指派的屬性集的任選描述), 以及諸如附加執(zhí)行策略之類的附加規(guī)則參數(shù)(如額外的過濾器,如用于分類文件的內(nèi)容的正則表達式,等等)。示例分類器模塊包括(1)基于數(shù)據(jù)項的位置(例如,文件目錄)來對項進行分類的分類器,(2)基于數(shù)據(jù)項的一些特征,(例如,基于文件所有者,查找Active Directory 或AD中的組織單元),通過使用全局儲存庫來分類的分類器,以及C3)基于數(shù)據(jù)內(nèi)容和數(shù)據(jù)特征(例如,查找項的數(shù)據(jù)中的模式)來分類的分類器。注意,這些只是示例而已,且那些熟悉本技術(shù)的人可以認識到,項的其他特征也可以用于分類不同的項,即,實際上項之間的任何相對差異可以用于分類目的。在一種實現(xiàn)中,分類器可以以各種模式操作。例如,一個“顯式分類器”操作模式使分類器設(shè)置一個或多個實際屬性,例如,當(dāng)在文件中發(fā)現(xiàn)個人信息時,分類器將對應(yīng)的屬性“PII”設(shè)置為“Exists (存在)”等等。另一個合適的模式是“非顯式分類器”,這種模式可能使分類器返回TRUE (真)或FALSE (假),例如,關(guān)于文件是否處于諸如c \debugger之類的某一目錄中。在TRUE或FALSE模式下,自動分類規(guī)則與每當(dāng)分類器返回TRUE時將被設(shè)置的屬性和值相關(guān)聯(lián)。如此,分類器可以設(shè)置一個或多個屬性值,或調(diào)用分類器的規(guī)則可以這樣做。注意,可以使用除TRUE或FALSE類型以外的分類器,例如,返回數(shù)值(例如,概率值)以提供更加細粒度的分類和分類規(guī)則的分類器。在進行分類之后,分類結(jié)果,以及可能其他提取的元數(shù)據(jù),可任選地與項相關(guān)聯(lián)地保存。如在圖1中所表示的,元數(shù)據(jù)存儲模塊111執(zhí)行此操作。存儲允許策略以后基于分類被應(yīng)用。注意,分類流水線模塊中的每一個都是可擴展的,以使得各種企業(yè)可以定制給定實現(xiàn)??蓴U展性允許一個以上的模塊被插入到流水線的同一階段。此外,任何一個階段都可以并行地,或按順序,例如,以分布式方式(跨多個機器)執(zhí)行。例如,如果分類從計算上來說是昂貴的,那么,項可以被分布到(例如,使用負載平衡技術(shù))在不同的機器上運行的并行的分類器集,每一個并行路徑的結(jié)果都被提供到策略模塊。相對于策略,應(yīng)用程序(包括那些沒有被直接插入到流水線中的)可以評估分類元數(shù)據(jù),以便對如何處理項作出策略決定。這樣的應(yīng)用程序包括那些執(zhí)行檢查項期滿、審計、備份、保留、搜索、安全性、順應(yīng)性、優(yōu)化等等的操作的應(yīng)用程序。注意,在數(shù)據(jù)還沒有被分類,或者相對于待決操作沒有被分類的情況下,任何這樣的待決操作都可以觸發(fā)對數(shù)據(jù)的分類。如可以輕松地理解的,不同的分類器可以導(dǎo)致不同且可能沖突的分類。一方面,執(zhí)行屬性的分類值的聚合。為此,對于每一個數(shù)據(jù)項,評估所定義的分類規(guī)則(例如,由管理員或進程)以確定分類屬性。如果兩個分類規(guī)則能夠為一個特定分類屬性設(shè)置相同的值, 則聚合進程確定分類屬性的最終值。如此,例如,如果一個規(guī)則導(dǎo)致其中屬性被設(shè)置為“1” 的結(jié)果而另一個規(guī)則導(dǎo)致該同一屬性將被設(shè)置為“2”的結(jié)果,那么,在某些實施例中,所定義的聚合策略可以確定該屬性的實際值應(yīng)該是什么,即,“1”或“2”,或別的值。注意,在此特定情況下,一個規(guī)則不會覆蓋另一個規(guī)則的屬性設(shè)置,而是調(diào)用聚合策略以管理沖突。在另一種情況下,可以使用權(quán)威性分類器。權(quán)威性分類器是另一種類型的分類器, 一般而言,它們是在不激活聚合規(guī)則的情況下可以替換其他分類器的分類器。這樣的分類器可以對其結(jié)果作標志,例如,以使得它在任何沖突中勝出。在另一方面,提供了用于自動確定分類規(guī)則的評估順序的機制。為此,規(guī)則評估順序可以由管理員確定,和/或通過確定不同的規(guī)則和分類器之間的任何依賴關(guān)系來自動確定。例如,Rule-Rl (規(guī)則-Rl)設(shè)置分類屬性Property-Pl (屬性-Pl),而Rule-R2 (規(guī)則-R2)使用 Classifier-Cl (分類器-Cl),該 Classifier-Cl 使用 Property-Pl 來確定 ftx)perty-P2(屬性-P2)的值,那么,Rule-Rl需要在Rule_R2之前被評估。此外,是否要運行分類器可以隨先前分類器的結(jié)果而定。如此,例如,可以使用很少具有假肯定的一個分類器,而每當(dāng)“TRUE”時,都使用其結(jié)果。只有在權(quán)威性分類器不返回“TRUE”的情況下(例如,返回“FALSE”或可能地,指示不確定性的結(jié)果),才考慮輔助分類器(例如,被設(shè)計成能消除假否定)。另一個示例是基于預(yù)定義的“高度”在流水線中對某些分類器進行排序。例如,較低高度的分類器在較高高度分類器之前在流水線中執(zhí)行。因此,在流水線中,按照遞增的高度順序,對分類器進行排序。圖2示出了涉及在文件服務(wù)器220上實現(xiàn)可擴展自動分類規(guī)則的更具體的示例。 一般而言,圖2表示流水線服務(wù)的各個步驟221-225,而不是模塊;如可以看出的,這些步驟/模塊221-225分別對應(yīng)于圖1的模塊106、109-111和113。如此分類規(guī)則被應(yīng)用于分類流水線內(nèi),并包括一個或多個數(shù)據(jù)發(fā)現(xiàn)模塊221 (例如,掃描儀)、一個或多個元數(shù)據(jù)讀取模塊 222 (例如,提取器和檢索器)、確定分類的一組一個或多個模塊223 (分類器)、存儲元數(shù)據(jù)的一個或多個模塊2 (設(shè)置器)和基于分類應(yīng)用策略的一個或多個模塊225 (策略模塊)。也如圖2中所表示的,可以擴展任何給定步驟中的模塊的數(shù)量。例如,分類步驟為分類器提供可擴展性模型;管理員可以注冊新分類器,列舉現(xiàn)有的分類器,并取消注冊不再需要的分類器。如此處所一般性地描述的,用于管理文件服務(wù)器上的文件的步驟包括分類文件, 以及基于每一個文件的分類來應(yīng)用數(shù)據(jù)管理策略。注意,文件可以被分類,以使得沒有策略被應(yīng)用于它。在一種實現(xiàn)中,對于文件服務(wù)器220上的文件的自動分類過程由該服務(wù)器220上定義的分類規(guī)則來驅(qū)動。當(dāng)文件被存儲在其中分類是活動的文件服務(wù)器中時,它被自動分類,即,沒有來自用戶的對文件進行分類的顯式請求??梢员挥脕矸诸愒撎囟ㄎ募?wù)器上的文件的各種分類標準包括(1)在文件服務(wù)器上運行的分類規(guī)則和分類器,(2)保持與文件相關(guān)聯(lián)的任何先前的分類結(jié)果,和/或C3)存儲在文件本身中(或其屬性中)的屬性。當(dāng)確定給定文件的分類以提供所得屬性集232時,評估這些準則,這些屬性集232被存儲在屬性存儲234中(但是可以存儲在文件本身中)。在一種實現(xiàn)中,每一個分類規(guī)則都可以具有諸如下面闡述的那些之類的評估選項只有在文件還沒有被分類的的情況下才進行評估;即使文件已經(jīng)被分類,也進行評估,并考慮先前的分類屬性值(例如,來自先前在同一個文件上運行的分類過程——若存在的話);即使文件已經(jīng)被分類,也進行評估,但是, 不考慮任何先前的分類屬性值。作為示例,考慮由用戶作為文件保存到服務(wù)器上的文件夾的文檔(沒有屬性被指派)。自動分類規(guī)則將文件分類為具有中等業(yè)務(wù)影響,即,BusinessImpact = MBI (業(yè)務(wù)影響=MBI)。此分類也可以存儲在文檔內(nèi)(因為文件服務(wù)器具有為這種類型的文檔安裝的解析器)??紤]文檔隨后被復(fù)制到另一個服務(wù)器(以及不同的文件夾)。新文件夾落入這樣的分類規(guī)則如果運行該分類規(guī)則,則將該文件夾中的文件分類為具有高業(yè)務(wù)影響 BusinessImpact = HBI (業(yè)務(wù)影響=HBI)——若該文件還沒有被分類。然而,由于此文件內(nèi)的屬性指示BusinessImpact分類已經(jīng)被設(shè)置為MBI,因此文件BusinessImpact屬性保持 MBI??梢孕薷纳鲜鲆?guī)則以便即使文件已經(jīng)被分類也評估文件,并可以考慮或可以不考慮文件中的屬性值。在隨后的分類運行中,評估規(guī)則,并且由于HBI高于MBI,因此,聚合策略確定文件屬性將被設(shè)置為HBI。如可以看出的,每一個分類規(guī)則都依賴于用于該規(guī)則的分類器。作為另一個示例, 考慮包含 <scope> 范圍 、<classifier> 分類器 、〈classification property) 分類屬性>)、<valUe>(〈值 >)的分類規(guī)則,其中,分類器包含用于分類文件的特定實現(xiàn)。例如,“classify by folder (按文件夾分類)”分類器允許按文件的位置來對這些文件進行分類。此分類器檢查文件的當(dāng)前路徑,并將它與在分類規(guī)則的〈scope〉中指定的路徑進行匹配。如果路徑在<scope>內(nèi),那么,規(guī)則指示〈classification property〉可以具有規(guī)則中指定的〈value〉;(屬性不一定被設(shè)置,因為多個規(guī)則可能需要被聚合,以確定對于此分類屬性,實際值是什么)。注意,這是顯式的分類器,因為它要求指定〈value〉。作為不同類型的文件分類器的示例,“Retrieve classification from AD by owner (按所有者從AD (活動目錄)檢索分類),,分類器讀取文件的所有者,并查詢活動目錄,以按照規(guī)則中提到的〈classification property)的所有者,弄清什么是正確的值。注意,這是非顯式分類器,因為它確定〈value〉;因而,〈value〉將不在規(guī)則中指定。每一個分類器都可以任選地指示它為分類邏輯使用哪些屬性。此信息對確定分類過程調(diào)用分類器的順序,以及指示在調(diào)用分類器之前需要從存儲234中檢索哪些屬性是有用的。另外,每一個分類器都可以任選地指示哪些屬性被用于設(shè)置。此信息可以被用在用戶界面中,用以示出了哪些屬性對于此分類器是相關(guān)的(如果沒有提及任何屬性,那么,所有屬性都相關(guān)),并用在分類過程中,其中此信息指示在調(diào)用分類器之前將從存儲中檢索哪些屬性。對于顯式的和非顯式的分類器,該信息是相關(guān)的。例如“Classify by folder (按文件夾分來)”顯式分類器沒有指示特定屬性,“Retrieve classification from AD by owner”非顯式分類器也沒有指示。然而,“Determine organizational unit (確定組織單元)”非顯式分類器只知道如何設(shè)置“Organizational Unit (組織單元)”屬性。為了附加標識,可以使用任選信息來描述諸如公司名稱和版本標簽之類的分類
ο分類器也可能需要消費附加參數(shù)。例如,如果分類器被構(gòu)建為基于一些粒度表達式來查找文件中的個人信息,那么,那些粒度表達式不必被硬編碼為分類器,而是可以從諸如定期更新的XML文件之類的外部源來提供。在此情況下,分類器包括指向該XML文件的指針?;谖募?wù)器資源管理器(FSRM)的分類允許為分類器指定附加參數(shù),且當(dāng)其被調(diào)用時,這些參數(shù)作為輸入被傳遞到分類器。此外,由于分類器用來運行的許可級別,在不同的分類器之間,分類器運行時行為可以是不同的。一個許可級別是“本地服務(wù)”,然而,可能需要較高或較低的許可級別,例如, “本地系統(tǒng)”或“網(wǎng)絡(luò)服務(wù)”。另一方面是分類器是否需要訪問文件內(nèi)容。例如,上文所描述的文件夾分類器不需要訪問文件內(nèi)容,因為它基于包含文件夾來進行分類。相比之下,標識文件中的特定文本或模式(例如,信用卡號)的分類器需要處理文件內(nèi)容。注意,需要訪問文件內(nèi)容的分類器不需要以提升的特權(quán)運行,因為FSRM分類為分類器流送文件內(nèi)容。下表概述了分類器的一種實現(xiàn)的各種特征
權(quán)利要求
1.在計算環(huán)境中,系統(tǒng)(500)包括分類流水線(108、109、110、111、222、223、224),其包括獲取與數(shù)據(jù)項(109 222)相關(guān)聯(lián)的元數(shù)據(jù)的組件,一組一個或多個分類器模塊以及相關(guān)聯(lián)的分類規(guī)則,各自被配置成若被被調(diào)用則將數(shù)據(jù)項分類到分類元數(shù)據(jù)(110、223),以及將所述分類元數(shù)據(jù)與所述數(shù)據(jù)項進行關(guān)聯(lián)以便用于將策略應(yīng)用到所述數(shù)據(jù)項(111、224)的組件。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類流水線被結(jié)合到數(shù)據(jù)項處理流水線中,并且其中所述數(shù)據(jù)項處理流水線包括發(fā)現(xiàn)所述數(shù)據(jù)項的發(fā)現(xiàn)模塊。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述數(shù)據(jù)項對應(yīng)于文件,并且其中所述發(fā)現(xiàn)模塊包括用于掃描文件系統(tǒng)以發(fā)現(xiàn)其中的文件的裝置,或用于檢測對文件的改變的裝置。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類流水線被結(jié)合到數(shù)據(jù)項處理流水線中,并且其中所述數(shù)據(jù)項處理流水線包括評估所述分類元數(shù)據(jù)以將策略應(yīng)用到所述數(shù)據(jù)項的策略模塊。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括用于基于任何現(xiàn)有分類數(shù)據(jù)或基于指示以前的對所述數(shù)據(jù)文件的改變的時間戳或其他標識符來確定是否調(diào)用分類器模塊的直ο
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括,用于與所述分類流水線進行交互以外部地設(shè)置分類元數(shù)據(jù)的接口。
7.如權(quán)利要求1所述的系統(tǒng),其特征在于,還包括,用于與所述分類流水線進行交互以外部地獲得分類元數(shù)據(jù)的接口。
8.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述分類器集包括替代所述分類器集中的另一個分類器的分類元數(shù)據(jù)的權(quán)威性分類器,并且其中所述分類流水線包括用于將來自所述分類器集中的不同的分類器的不同的分類結(jié)果聚合到所述分類元數(shù)據(jù)中的裝置。
9.在一計算環(huán)境(500)中,一種方法包括在第一階段(106,221),發(fā)現(xiàn)(402)數(shù)據(jù)項;在獨立于所述第一階段的第二階段(108,109,110,111, 222, 223, 224, 232, 234, 242, 361,362,363,364,365),使用(410,412,414,416,420,422,424,426,427)與所述數(shù)據(jù)項相關(guān)聯(lián)的屬性來分類所述數(shù)據(jù)項,以及存儲(43 包括與所述數(shù)據(jù)項(430)相關(guān)聯(lián)的至少一個分類屬性的分類屬性集;以及在獨立于所述第二階段的第三階段(113,225),基于所述分類屬性集,將策略應(yīng)用 (407)到所述數(shù)據(jù)項。
10.如權(quán)利要求9所述的方法,其特征在于,使用與所述數(shù)據(jù)項相關(guān)聯(lián)的屬性來分類所述數(shù)據(jù)項包括使用來自包括至少一個分類器的分類器集的分類結(jié)果來自動應(yīng)用分類規(guī)則。
11.如權(quán)利要求9所述的方法,其特征在于,使用與所述數(shù)據(jù)項相關(guān)聯(lián)的屬性來分類所述數(shù)據(jù)項包括調(diào)用多個分類器,并且還包括從所述多個分類器接收多個屬性集,以及將所述多個屬性集聚合到用于應(yīng)用策略的所述分類屬性集中。
12.如權(quán)利要求9所述的方法,其特征在于,使用與所述數(shù)據(jù)項相關(guān)聯(lián)的屬性來分類所述數(shù)據(jù)項包括按預(yù)定義順序調(diào)用多個分類器,包括將來自一個分類器的屬性集傳遞到用于分類的另一個分類器。
13.如權(quán)利要求9所述的方法,其特征在于,使用與所述數(shù)據(jù)項相關(guān)聯(lián)的屬性來分類所述數(shù)據(jù)項包括按預(yù)定義順序調(diào)用多個分類器,包括允許按照所述順序的后繼分類器來改變按照所述順序的在前分類器的所述屬性集。
14.具有計算機可執(zhí)行指令(510)的一個或多個計算機可讀介質(zhì),所述計算機可執(zhí)行指令在被執(zhí)行時,執(zhí)行包括下列各項的步驟發(fā)現(xiàn)(402)數(shù)據(jù)項;獲取010,412,414,416)與所述數(shù)據(jù)項相關(guān)聯(lián)的屬性的屬性集; 確定是否調(diào)用(420,422,426,427)分類器集的每一個分類器,若是,則調(diào)用所述分類器 GM);基于由任何分類器所產(chǎn)生的任何改變來更新(430,43 所述屬性集;以及基于所述屬性集,將策略應(yīng)用(407)到所述數(shù)據(jù)項。
15.如權(quán)利要求14所述的一個或多個計算機可讀介質(zhì),其特征在于,基于由任何分類器所產(chǎn)生的任何改變來更新所述屬性集包括使分類器直接更新所述屬性集,或者使規(guī)則機制基于從所述分類器提供的結(jié)果來更新所述屬性集。
全文摘要
描述了通過可擴展的數(shù)據(jù)處理流水線(包括分類流水線)來處理數(shù)據(jù)項(例如,文件)以基于數(shù)據(jù)項的分類來促進對數(shù)據(jù)項進行管理的技術(shù)。發(fā)現(xiàn)模塊定位要處理的數(shù)據(jù)項。獨立分類流水線獲取與每一個被發(fā)現(xiàn)的數(shù)據(jù)項相關(guān)聯(lián)的元數(shù)據(jù)(屬性),而一個或多個分類器基于元數(shù)據(jù)來分類數(shù)據(jù)項。獨立的策略模塊基于其分類將策略應(yīng)用到每一個數(shù)據(jù)項??梢曰诟鞣N準則來調(diào)用多個分類器。預(yù)定義排序的分類器、權(quán)威性分類器和/或聚合機制處理任何分類沖突。可以提供不同類型的分類器,而每一個分類器都可以對應(yīng)于自動分類規(guī)則;分類器可以直接改變屬性(例如,設(shè)置分類)或?qū)⒔Y(jié)果返回到用于改變屬性的相對應(yīng)的規(guī)則機制。
文檔編號G06F17/00GK102414677SQ201080018349
公開日2012年4月11日 申請日期2010年4月14日 優(yōu)先權(quán)日2009年4月22日
發(fā)明者C·勞, J·哈迪, N·本-茨維, P·A·奧爾泰安, R·卡拉赫 申請人:微軟公司