語(yǔ)言無(wú)關(guān)的概率內(nèi)容匹配的制作方法
【專利摘要】?jī)?nèi)容被接收,并針對(duì)用于標(biāo)識(shí)一類型的內(nèi)容的規(guī)則來(lái)進(jìn)行比較。每一規(guī)則具有分割和非分割的模式。內(nèi)容針對(duì)模式進(jìn)行匹配,并被分配置信分?jǐn)?shù),如果內(nèi)容匹配分割模式則置信分?jǐn)?shù)較高,如果內(nèi)容匹配非分割模式則置信分?jǐn)?shù)較低。
【專利說(shuō)明】語(yǔ)言無(wú)關(guān)的概率內(nèi)容匹配
[0001 ] 本申請(qǐng)是申請(qǐng)日為2013年02月Ol日并且申請(qǐng)?zhí)枮?01380008426.5的中國(guó)專利申 請(qǐng)的分案申請(qǐng),運(yùn)里W引用的方式結(jié)合該申請(qǐng)的全部?jī)?nèi)容作為參考。
【背景技術(shù)】
[0002] 諸如英語(yǔ)等許多語(yǔ)言使得詞語(yǔ)由文本中的空格間隔。在運(yùn)些類型的語(yǔ)言中,需要 詞語(yǔ)在文本中得到標(biāo)識(shí)的任何技術(shù)是相當(dāng)直接的。運(yùn)些空格被稱為相鄰詞語(yǔ)之間的分隔 符。運(yùn)些類型的語(yǔ)言被稱為空格分隔語(yǔ)言或分割語(yǔ)言。
[0003] 然而,諸如漢語(yǔ)、日語(yǔ)、韓語(yǔ)和越南語(yǔ)等其它語(yǔ)言僅被寫(xiě)為均勻隔開(kāi)的文字的序 列。運(yùn)些語(yǔ)言在詞語(yǔ)之間沒(méi)有清楚的間隔,因?yàn)樗鼈冊(cè)谠~語(yǔ)之間沒(méi)有空格。運(yùn)些類型的語(yǔ)言 被稱為非分割語(yǔ)言。在非分割語(yǔ)言中缺乏已知的分隔符導(dǎo)致對(duì)例如關(guān)鍵詞的精確檢測(cè)相當(dāng) 困難。
[0004] 類似地,在非分割語(yǔ)言中,完全相同的文字基于周圍的上下文可意味著不同的東 西。作為示例,W下文本:
[0005] 輸入信用卡號(hào)碼。
[0006] 具有詞語(yǔ)分割,運(yùn)在W下表1中翻譯:
[0007] 表 1 「nmRl
[0009] 然而,W下文本
[0010] 周信用卡車運(yùn)貨。
[0011] 具有在W下表2中所示的翻譯:
[0012] 表2
[0013]
[0014]
[001引可見(jiàn),表帥的文本包含與第一示例中被翻譯成"信用卡"的相同的文字序列(突出 顯示),但該文字序列具有完全不同的意思并且與信用卡無(wú)關(guān)。
[0016] 此外,在非分割語(yǔ)言中,換行符可出現(xiàn)在各種地方,使得更難W標(biāo)識(shí)文字序列中的 關(guān)鍵詞。
[0017] 運(yùn)在各種不同領(lǐng)域中可能是成問(wèn)題的。例如,當(dāng)前存在管控個(gè)人信息的傳播的各 種不同來(lái)源的政策和規(guī)定。需要處理某些類型的信息的組織需要遵循全部運(yùn)些規(guī)定。規(guī)定 可W是例如來(lái)自政府的外部規(guī)定,或者是管控某種類型的信息能如何在公司內(nèi)傳播的內(nèi)部 規(guī)定。
[0018] 通常受到運(yùn)些規(guī)定和政策的約束的內(nèi)容由信息工作者操作,信息工作者具有包含 大量規(guī)定或政策(內(nèi)部和外部?jī)烧撸┑氖謨?cè),且該工作者預(yù)期了解并遵循全部規(guī)定或政策。 在實(shí)施運(yùn)些政策時(shí),某些系統(tǒng)試圖標(biāo)識(shí)正由信息工作者工作的文檔中的敏感信息。為此,運(yùn) 些系統(tǒng)通常試圖檢查文檔中的詞語(yǔ)W確定給定文檔是否是敏感的。例如,諸如"信用卡"的 關(guān)鍵詞被認(rèn)為是敏感內(nèi)容的指示。然而,如上所述,運(yùn)在非分割語(yǔ)言中非常難W標(biāo)識(shí)。
[0019] 提供W上討論僅用作一般的背景信息,并不旨在幫助確定所要求保護(hù)的主題的范 圍。
【發(fā)明內(nèi)容】
[0020] 內(nèi)容被接收,并針對(duì)用于標(biāo)識(shí)一類型的內(nèi)容的規(guī)則來(lái)進(jìn)行比較。每一規(guī)則具有分 割和非分割的模式兩者。內(nèi)容針對(duì)模式進(jìn)行匹配,并被分配置信分?jǐn)?shù),如果內(nèi)容匹配分割模 式則置信分?jǐn)?shù)較高,如果內(nèi)容匹配非分割模式則置信分?jǐn)?shù)較低。
[0021] 提供本概述是為了 W簡(jiǎn)化的形式介紹將在W下【具體實(shí)施方式】中進(jìn)一步描述的概 念選擇。本
【發(fā)明內(nèi)容】
不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用 于幫助確定所要求保護(hù)的主題的范圍。所要求保護(hù)的主題不限于解決在背景中提及的任何 或所有缺點(diǎn)的實(shí)現(xiàn)。
【附圖說(shuō)明】
[0022] 圖1是示出語(yǔ)言無(wú)關(guān)內(nèi)容確定系統(tǒng)的一個(gè)說(shuō)明性實(shí)施例的框圖。
[0023] 圖2是示出圖1所示的系統(tǒng)的操作的流程圖的一個(gè)實(shí)施例。
[0024] 圖3是指示如何分配置信水平的更詳細(xì)的框圖。
[0025] 圖4是定義可用于標(biāo)識(shí)內(nèi)容中的信用卡數(shù)據(jù)的規(guī)則的規(guī)則樹(shù)的一個(gè)實(shí)施例。
[0026] 圖4A和4B是說(shuō)明性用戶界面。
[0027] 圖5是示出創(chuàng)作系統(tǒng)中的語(yǔ)言無(wú)關(guān)內(nèi)容確定系統(tǒng)的另一實(shí)施例的框圖。
[0028] 圖6示出基于云的體系結(jié)構(gòu)中的系統(tǒng)的一個(gè)實(shí)施例。
[0029] 圖7-9是說(shuō)明性移動(dòng)設(shè)備。
[0030] 圖10是說(shuō)明性操作環(huán)境的一個(gè)實(shí)施例。
【具體實(shí)施方式】
[0031] 圖1是內(nèi)容處理環(huán)境100的框圖,內(nèi)容處理環(huán)境100包括內(nèi)容源系統(tǒng)102、語(yǔ)言無(wú)關(guān) 內(nèi)容確定系統(tǒng)104和內(nèi)容處理系統(tǒng)106。在圖1中所示的實(shí)施例中,系統(tǒng)104從源系統(tǒng)102接收 內(nèi)容108,確定內(nèi)容108的性質(zhì),并向內(nèi)容處理系統(tǒng)106提供指示內(nèi)容108的性質(zhì)的內(nèi)容判斷 110。內(nèi)容處理系統(tǒng)106基于如內(nèi)容判斷110所標(biāo)識(shí)的內(nèi)容性質(zhì)處理內(nèi)容。
[0032] 出于本發(fā)明描述的目的,語(yǔ)言無(wú)關(guān)內(nèi)容確定系統(tǒng)104將被描述為確定內(nèi)容108是否 是敏感內(nèi)容,W使得它受到數(shù)據(jù)傳播政策的約束。例如,當(dāng)內(nèi)容108是電子郵件消息時(shí),存在 管控內(nèi)容是否可被發(fā)送給公司外部個(gè)人的數(shù)據(jù)傳播政策(諸如當(dāng)其包含知識(shí)產(chǎn)權(quán)內(nèi)容時(shí))。 此外,數(shù)據(jù)傳播政策可管控當(dāng)內(nèi)容包含個(gè)人信息(諸如信用卡信息、社會(huì)保障號(hào)碼等)時(shí)內(nèi) 容的傳播。然而,此外還存在當(dāng)內(nèi)容108包含粗俗語(yǔ)言時(shí)管控內(nèi)容的傳播的內(nèi)部數(shù)據(jù)傳播政 策。從而,本發(fā)明的描述將關(guān)于系統(tǒng)104確定內(nèi)容108是否敏感W使得數(shù)據(jù)傳播政策可對(duì)其 應(yīng)用而進(jìn)行。
[0033] 然而,將注意到,僅僅因?yàn)橄到y(tǒng)104被描述為確定內(nèi)容108是否敏感,運(yùn)僅是可如何 使用系統(tǒng)104的一個(gè)示例。系統(tǒng)104還可被用于標(biāo)識(shí)內(nèi)容108是否具有不同的性質(zhì)。例如,系 統(tǒng)104可標(biāo)識(shí)電子郵件消息(內(nèi)容108)的語(yǔ)氣是憤怒、正面還是負(fù)面。類似地,系統(tǒng)104還可 被用于確定內(nèi)容108是否具有不同的性質(zhì)。在任何情況中,內(nèi)容處理系統(tǒng)106基于系統(tǒng)104確 定的內(nèi)容的性質(zhì)來(lái)處理內(nèi)容。
[0034] 還應(yīng)注意到,內(nèi)容源系統(tǒng)102和內(nèi)容處理系統(tǒng)106可W是同一系統(tǒng)。例如,內(nèi)容源系 統(tǒng)102可W是創(chuàng)作應(yīng)用,該應(yīng)用被用于創(chuàng)作電子郵件消息、文字處理文檔、電子表格文檔、幻 燈片演示文檔、繪圖文檔或另一類型的文檔。從而,內(nèi)容108可W是電子郵件消息的正文、附 件或可由內(nèi)容源系統(tǒng)102創(chuàng)建的任何其它類型的文檔。內(nèi)容處理系統(tǒng)106也可被并入內(nèi)容源 系統(tǒng),使得用戶101在內(nèi)容源系統(tǒng)102中生成的內(nèi)容具有由同一系統(tǒng)應(yīng)用于其的數(shù)據(jù)傳播政 策。
[0035] 作為示例,假定內(nèi)容源系統(tǒng)102是電子郵件系統(tǒng),而用戶101與系統(tǒng)102交互W生成 包含內(nèi)容108的電子郵件消息。用戶101可使用諸如鍵盤(pán)、指點(diǎn)設(shè)備、語(yǔ)音、觸摸姿勢(shì)等用戶 輸入機(jī)制或其它機(jī)制來(lái)交互。在任何情況下,系統(tǒng)104可確定郵件消息是否包含敏感材料, 且如果包含敏感材料,則內(nèi)容處理系統(tǒng)106可被并入電子郵件系統(tǒng)(該電子郵件系統(tǒng)包括內(nèi) 容源系統(tǒng)102) W關(guān)于敏感材料實(shí)現(xiàn)數(shù)據(jù)傳播政策。即,(用于創(chuàng)作內(nèi)容的)電子郵件系統(tǒng)可 基于內(nèi)容、或基于接收者或基于運(yùn)兩者阻塞某些電子郵件消息。類似地,也可采用其它數(shù)據(jù) 傳播政策。
[0036] 在任何情況下,語(yǔ)言無(wú)關(guān)內(nèi)容確定系統(tǒng)104包括內(nèi)容確定組件112W及包括一組內(nèi) 容確定規(guī)則117和119的規(guī)則存儲(chǔ)115。每一規(guī)則117、119被用于標(biāo)識(shí)某一種類的敏感信息。 例如,規(guī)則117可用于標(biāo)識(shí)內(nèi)容108中的信用卡號(hào)碼,而規(guī)則119可被用于標(biāo)識(shí)社會(huì)保障號(hào) 碼。運(yùn)些僅是示例。每一規(guī)則說(shuō)明性地指定模式。如果內(nèi)容108匹配規(guī)則中的模式,則確定內(nèi) 容包含對(duì)應(yīng)于該規(guī)則的敏感信息。在圖1中所示的實(shí)施例中,每一規(guī)則包括分割內(nèi)容確定模 式114和非分割內(nèi)容確定模式116。圖1示出其中規(guī)則117還具有另一組非分割內(nèi)容確定模式 118的實(shí)施例。在所示實(shí)施例中,模式114操作于分割語(yǔ)言,而模式116和118操作于非分割語(yǔ) 言。當(dāng)然,分割和非分割語(yǔ)言也可被組合。例如,模式114可僅操作于英語(yǔ),或操作于所有分 割語(yǔ)言。類似地,模式116可操作于日語(yǔ),而模式118可操作于漢語(yǔ),而可對(duì)其它分割語(yǔ)言提 供其它模式集合。或者,可提供并安排一組非分割模式116,W使得該組模式116操作于所有 非分割語(yǔ)言。運(yùn)在下面將更詳細(xì)地描述。
[0037] 系統(tǒng)104還說(shuō)明性地包括處理器120。處理器120說(shuō)明性地是具有相關(guān)聯(lián)的時(shí)序和 存儲(chǔ)器電路(未示出)的計(jì)算機(jī)處理器。處理器120說(shuō)明性地是系統(tǒng)104的功能組件,且由系 統(tǒng)104的其它組件激活W促成那些組件的功能。
[0038] 當(dāng)然,還注意到,盡管環(huán)境100被示為分成各個(gè)系統(tǒng)和組件,那些系統(tǒng)和組件的功 能可彼此組合W具有較少的系統(tǒng)或組件,或者功能可被進(jìn)一步劃分W具有附加的系統(tǒng)和組 件。圖1中所示僅用作示例。
[0039] 圖2是示出圖1所示的環(huán)境的操作的一個(gè)實(shí)施例的流程圖。語(yǔ)言無(wú)關(guān)內(nèi)容確定系統(tǒng) 104首先接收要被分析的內(nèi)容108。運(yùn)由圖2中的框130指示。內(nèi)容確定組件112訪問(wèn)各個(gè)規(guī)則 117-119W檢測(cè)標(biāo)識(shí)內(nèi)容108的性質(zhì)的信息。運(yùn)由圖2中的框132指示。
[0040] 作為示例,內(nèi)容確定組件112可訪問(wèn)規(guī)則117-119W查看信用卡信息是否駐留在內(nèi) 容108中。運(yùn)可例如通過(guò)查找非??拷~語(yǔ)"credit card(信用卡)"、"MasterCarcK萬(wàn)事達(dá) 卡r、"Visa(維薩r或"expiration date(有效期r的16位號(hào)碼來(lái)進(jìn)行。
[0041] 內(nèi)容確定組件112說(shuō)明性地捜索全部規(guī)則117-119,而不考慮內(nèi)容108的語(yǔ)言,W便 確定是否有任何規(guī)則匹配內(nèi)容108的任何部分。從而,可見(jiàn)系統(tǒng)104可被用于標(biāo)識(shí)內(nèi)容108的 性質(zhì),而無(wú)論其語(yǔ)言,甚至無(wú)論內(nèi)容108是否包含多于一種語(yǔ)言的材料。
[0042] 在任何情況下,內(nèi)容確定組件112然后確定規(guī)則117-119中是否有任何規(guī)則匹配內(nèi) 容108。運(yùn)由圖2中的框134指示。如果為否,則系統(tǒng)104無(wú)法將內(nèi)容108的性質(zhì)標(biāo)識(shí)為敏感,且 它僅輸出默認(rèn)內(nèi)容判斷,諸如內(nèi)容不敏感的判斷。運(yùn)由圖2中的框136指示。
[0043] 然而,如果在框134,內(nèi)容確定組件112已標(biāo)識(shí)了匹配內(nèi)容108的規(guī)則117-119中的 至少一個(gè)規(guī)則,則內(nèi)容確定組件112可將內(nèi)容108的性質(zhì)標(biāo)識(shí)為敏感。如圖2中的框138所示, 內(nèi)容確定組件112然后向該判斷分配置信水平。
[0044] 置信水平可按照各種不同的方式來(lái)設(shè)置。例如,在一個(gè)實(shí)施例中,規(guī)則117-119首 先使得內(nèi)容確定組件112確定內(nèi)容108是否包含16位號(hào)碼。如果包含,則內(nèi)容108匹配該特定 規(guī)則所定義的模式。然而,規(guī)則還可定義內(nèi)容確定組件112要查找諸如日期、諸如詞語(yǔ) "credit card(信用卡)"等的協(xié)助證據(jù)?;谒鶚?biāo)識(shí)的、并在匹配規(guī)則中陳列的協(xié)助證據(jù), 內(nèi)容確定組件112可分配置信水平,該置信水平基于內(nèi)容是匹配分割模式還是非分割模式, 并基于內(nèi)容108中找到的W支持內(nèi)容108包含敏感材料的判斷的協(xié)助數(shù)據(jù)的量而變化。
[0045] 內(nèi)容確定組件112然后輸出內(nèi)容108的性質(zhì),連同置信水平作為內(nèi)容判斷110。輸出 內(nèi)容的性質(zhì)連同置信水平由圖2中的框140指示。作為示例,內(nèi)容判斷組件112可輸出內(nèi)容 108包含敏感材料的置信水平為90%的指示。當(dāng)然,運(yùn)僅是示例性的。
[0046] 一旦內(nèi)容處理系統(tǒng)106已經(jīng)接收了內(nèi)容判斷110,它就基于內(nèi)容108的性質(zhì)處理內(nèi) 容108。運(yùn)由圖2中的框142指示。內(nèi)容處理系統(tǒng)106可取決于內(nèi)容108是否敏感而使用不同的 規(guī)則處理內(nèi)容。
[0047] 作為示例,如果內(nèi)容108是電子郵件消息,且或者消息的正文包含敏感內(nèi)容,或者 消息的附件包含敏感內(nèi)容,則內(nèi)容處理系統(tǒng)106可僅僅顯示指示內(nèi)容108包含敏感材料并向 用戶101指示如何繼續(xù)(諸如通過(guò)指示該內(nèi)容應(yīng)僅被發(fā)送給授權(quán)人員)的消息?;蛘?,內(nèi)容處 理系統(tǒng)106可指示電子郵件消息將被阻塞,因?yàn)樗舾胁牧?。?dāng)然,內(nèi)容處理系統(tǒng)106還 可分析內(nèi)容108的收件人W確定要采取什么動(dòng)作,諸如阻塞電子郵件消息或是發(fā)送它等等。 在任何情況中,內(nèi)容處理系統(tǒng)106基于系統(tǒng)104輸出的內(nèi)容108的性質(zhì)來(lái)處理內(nèi)容108。
[0048] 圖3是示出內(nèi)容確定組件112如何向內(nèi)容判斷110分配置信水平的更詳細(xì)框圖。在 圖3所示的實(shí)施例中,內(nèi)容確定組件112首先確定在給定規(guī)則上匹配的模式是用于分割語(yǔ)言 還是非分割語(yǔ)言。運(yùn)由圖3中的框150指示。
[0049] 如果匹配的規(guī)則是用于諸如英語(yǔ)的分割語(yǔ)言,則運(yùn)影響所分配的置信水平。例如, 因?yàn)榉指钫Z(yǔ)言具有清楚分隔的詞語(yǔ)(詞語(yǔ)由空格間隔),于是作為規(guī)則一部分匹配的任何關(guān) 鍵詞與它們?cè)诜欠指钫Z(yǔ)言中匹配的情況下相比,可與更高的置信度匹配。如上所述,即使 非分割語(yǔ)言中的文字串精確地匹配,該串基于其上下文也可意味著完全不同的東西。組件 112因此較不肯定文字串在規(guī)則中和在內(nèi)容108中意味著相同的東西。
[0050] 從而,內(nèi)容確定組件112然后確定已被找到W支持針對(duì)給定規(guī)則匹配的模式的確 證水平。運(yùn)由框152指示。組件112然后基于匹配的模式W及所標(biāo)識(shí)的確證來(lái)分配置信分?jǐn)?shù)。 運(yùn)由框154指示。
[0051] 作為特定示例,假定已被匹配的用于分割語(yǔ)言的規(guī)則正在查找信用卡信息。在一 個(gè)實(shí)施例中,該規(guī)則首先要求內(nèi)容108匹配指定內(nèi)容108必須包含16位號(hào)碼的主模式。進(jìn)一 步假定內(nèi)容108的確包含16位號(hào)碼。從而,分割語(yǔ)言中的該規(guī)則所要求的模式已被匹配。現(xiàn) 在假定,為了找到確證證據(jù),該規(guī)則包括確證模式部分,確證模式部分包含除了 16位號(hào)碼W 外也有可能存在于內(nèi)容108中的某些關(guān)鍵詞。運(yùn)樣的關(guān)鍵詞可包括"Credit card(信用 卡)"、"e邱iration date(有效期)"等。內(nèi)容確定組件112然后確定確證數(shù)據(jù)中是否有任何 數(shù)據(jù)在內(nèi)容108中匹配。因?yàn)橐驯黄ヅ涞哪J綄?duì)應(yīng)于分割語(yǔ)言,內(nèi)容確定組件112可W非常 確信確證數(shù)據(jù)中的詞語(yǔ)在模式中和在內(nèi)容108中意味著相同的東西。即,如果規(guī)則中的關(guān)鍵 詞之一是"credit card",且內(nèi)容確定組件112在內(nèi)容108中找到詞語(yǔ)"credit card",卯J內(nèi) 容確定組件112可W非常確信,之前匹配的16位號(hào)碼實(shí)際上是信用卡號(hào)碼。如果內(nèi)容確定組 件112還在內(nèi)容108中找到詞語(yǔ)"expiration date",則置信水平甚至更高?;谠谝?guī)則中匹 配的主模式W及對(duì)應(yīng)的確證模式,分配置信水平。
[0052] 或者,如果在框150,確定匹配規(guī)則的模式對(duì)應(yīng)于非分割語(yǔ)言,則內(nèi)容確定組件112 再次查找確證數(shù)據(jù)W支持匹配的模式。運(yùn)由圖3中的框156指示。然而,與分割語(yǔ)言不同,即 使內(nèi)容確定組件112將關(guān)鍵詞匹配為確證數(shù)據(jù),在非分割語(yǔ)言中不能同樣肯定該關(guān)鍵詞在 規(guī)則中和在內(nèi)容108中意味著同樣的東西。從而,盡管在內(nèi)容108中定位確證數(shù)據(jù)甚至對(duì)于 非分割語(yǔ)言而言的確增加了置信水平,但是它增加置信水平的程度不如對(duì)于分割語(yǔ)言。
[0053] 作為特定示例,假定用于非分割語(yǔ)言的模式也要求內(nèi)容108包含16位號(hào)碼。進(jìn)一步 假定內(nèi)容108的確包含16位號(hào)碼。然后,假定模式要求內(nèi)容確定組件112在內(nèi)容108中查找 當(dāng)被翻譯時(shí)對(duì)應(yīng)于英語(yǔ)詞語(yǔ)"credit card"的文字串。即使內(nèi)容確定組件112的確在內(nèi)容 108中定位了該文字串,運(yùn)不意味著該文字串具有"credit card"的意思。實(shí)際上,它可能在 內(nèi)容108的上下文中具有與信用卡無(wú)關(guān)的完全不同的意思。運(yùn)在W上在背景部分中說(shuō)明。從 而,盡管內(nèi)容確定組件112的確增加其判斷的置信水平,但它增加置信水平的程度不如分割 語(yǔ)言的情形。然而,在任何情況下,基于規(guī)則中匹配的模式W及所標(biāo)識(shí)的確證數(shù)據(jù)來(lái)分配置 信分?jǐn)?shù)。運(yùn)由圖3中的框158指示。
[0054] 圖4示出了用來(lái)定義用于在諸如內(nèi)容108的內(nèi)容的正文內(nèi)檢測(cè)信用卡數(shù)據(jù)的規(guī)則 的分層樹(shù)結(jié)構(gòu)170。結(jié)構(gòu)170包括頭節(jié)點(diǎn)172,該頭節(jié)點(diǎn)指示該規(guī)則用于檢測(cè)信用卡數(shù)據(jù)。名 稱節(jié)點(diǎn)174命名該特定規(guī)則(在此情況中,它被命名為"信用卡"),而描述節(jié)點(diǎn)176描述了該 規(guī)則做了什么。在運(yùn)種情況下,它包括描述該規(guī)則試圖標(biāo)識(shí)包含信用卡信息的內(nèi)容的文本 描述,且它還可描述當(dāng)檢測(cè)到信用卡信息時(shí)如何保護(hù)運(yùn)一信息。
[0055] 結(jié)構(gòu)170接下來(lái)包含S個(gè)模式節(jié)點(diǎn)178、180和182。模式節(jié)點(diǎn)178定義了可被用于在 分割語(yǔ)言中標(biāo)識(shí)信用卡數(shù)據(jù)的一組模式和確證數(shù)據(jù)。節(jié)點(diǎn)178包括進(jìn)一步定義該模式的一 組子節(jié)點(diǎn)184、186和188。節(jié)點(diǎn)184示出,對(duì)于要匹配的規(guī)則,要在內(nèi)容中找到16位號(hào)碼形式 的正則表達(dá)式。如果正則表達(dá)式被找到,則確證節(jié)點(diǎn)188標(biāo)識(shí)可被用于確證該16位號(hào)碼是信 用卡號(hào)碼的判斷的可選匹配。在一個(gè)實(shí)施例中,節(jié)點(diǎn)188包括與信用卡有關(guān)的關(guān)鍵詞的列 表,運(yùn)些關(guān)鍵詞用由節(jié)點(diǎn)178表示的一種或多種分割語(yǔ)言(諸如英語(yǔ))列出。再一次,作為示 例,關(guān)鍵詞可包括"credit card"、"Visa" ,''Master Card"、"e 邱 iration date"等。置信節(jié) 點(diǎn)186定義了當(dāng)16位號(hào)碼已被標(biāo)識(shí)且可選匹配中的至少一個(gè)匹配已被標(biāo)識(shí)時(shí)與內(nèi)容相關(guān)聯(lián) 的置信水平。如果已標(biāo)識(shí)多于一個(gè)的可選匹配(或確證匹配),則置信水平186可指定標(biāo)識(shí)增 加置信度的額外置信水平。因此,節(jié)點(diǎn)186向內(nèi)容確定組件112指定當(dāng)在節(jié)點(diǎn)178處匹配了給 定規(guī)則和確證數(shù)據(jù)時(shí),要向所作出的敏感判斷分配什么置信水平。
[0化6] 節(jié)點(diǎn)180還包括多個(gè)子節(jié)點(diǎn)190、192和194。主匹配節(jié)點(diǎn)190再一次指定要針對(duì)對(duì)應(yīng) 于節(jié)點(diǎn)182的規(guī)則匹配的模式激發(fā)。在圖4中所示的實(shí)施例中,模式是包括16位號(hào)碼的正則 表達(dá)式。
[0057]可選(或確證)匹配節(jié)點(diǎn)194定義了可被匹配W達(dá)到支持所匹配的模式的置信水平 的確證證據(jù)。在圖4中所示的實(shí)施例中,可選匹配194包括一種或多種非分割語(yǔ)言的關(guān)鍵詞 的列表。當(dāng)然,該列表可僅由取決于其在進(jìn)行分析的內(nèi)容內(nèi)的上下文而可在意思中有歧義 的文字串的列表構(gòu)成。從而,對(duì)應(yīng)于節(jié)點(diǎn)180的模式指示,即使在節(jié)點(diǎn)190處正則表達(dá)式被匹 配,且在節(jié)點(diǎn)194中至少一個(gè)關(guān)鍵詞被匹配,在置信節(jié)點(diǎn)192處標(biāo)識(shí)的置信水平僅是70%,而 對(duì)于節(jié)點(diǎn)186處的分割語(yǔ)言模式,置信水平是90%。從而,即使在分割語(yǔ)言和非分割語(yǔ)言中 出現(xiàn)相同類型的匹配,對(duì)應(yīng)于非分割語(yǔ)言的置信水平較低,因?yàn)榇_證證據(jù)較不肯定。
[005引節(jié)點(diǎn)182還包括多個(gè)子節(jié)點(diǎn)196、198和200。對(duì)應(yīng)于節(jié)點(diǎn)182的模式所定義的參數(shù)類 似于對(duì)節(jié)點(diǎn)180示出的那些參數(shù)。從而,存在將正則表達(dá)式定義為16位號(hào)碼的主匹配節(jié)點(diǎn) 196,該號(hào)碼要在內(nèi)容108中匹配W便激發(fā)該規(guī)則。然而,可選匹配節(jié)點(diǎn)200包括可位于內(nèi)容 108中的兩種不同類型的信息。第一種類似于節(jié)點(diǎn)194處所示的信息。即,一種或多種非分割 語(yǔ)言的一組關(guān)鍵詞被列出。如果那些關(guān)鍵詞中的任何一個(gè)位于內(nèi)容108中,它們用作確證數(shù) 據(jù)。然而,可選匹配節(jié)點(diǎn)200還規(guī)定了確證證據(jù)可包括日期。例如,當(dāng)談?wù)撔庞每ㄐ畔r(shí),包 括有效期是非常常見(jiàn)的。從而,如果16位號(hào)碼位于內(nèi)容中,且特定的非分割關(guān)鍵詞位于內(nèi)容 108中,且日期位于該內(nèi)容中,則該信息是信用卡信息的置信度可W增加。從而,即使它是用 于非分割語(yǔ)言,節(jié)點(diǎn)198表達(dá)的置信水平是80%。運(yùn)是因?yàn)榧词龟P(guān)鍵詞匹配較不肯定,但是 它們還被日期匹配確證。
[0059] 應(yīng)注意到,對(duì)應(yīng)于非分割語(yǔ)言的兩個(gè)模式(對(duì)應(yīng)于圖4中的節(jié)點(diǎn)180和182)可包括 由系統(tǒng)104呈送的所有非分割語(yǔ)言的關(guān)鍵詞的列表。即,可選匹配節(jié)點(diǎn)194和200中的該組關(guān) 鍵詞可包括來(lái)自漢語(yǔ)、日語(yǔ)、韓語(yǔ)、越南語(yǔ)等的文字串。從而,無(wú)論在內(nèi)容108中使用哪一非 分割語(yǔ)言,在模式180和182兩者中均可進(jìn)行匹配。類似地,對(duì)應(yīng)于模式178的分割語(yǔ)言的可 選匹配節(jié)點(diǎn)188可包括來(lái)自系統(tǒng)旨在操作的基本上所有分割語(yǔ)言的詞語(yǔ)。因此,節(jié)點(diǎn)188可 包含英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)等的關(guān)鍵詞的列表。因此,節(jié)點(diǎn)178可操作于所有分割語(yǔ)言。
[0060] 還將注意到,圖4中示出的結(jié)構(gòu)170僅示出具有可用于操作于所有所需語(yǔ)言W便標(biāo) 識(shí)信用卡的模式的單個(gè)規(guī)則。運(yùn)僅是可使用的一種類型的結(jié)構(gòu),且其僅示出一個(gè)示例性規(guī) 貝1J。此外,所公開(kāi)的主匹配W及可選匹配和置信水平僅是示例性的。也可使用不同的或附加 的主匹配W及可選匹配和置信水平。
[0061 ]圖4A和4B示出可用于增強(qiáng)理解的兩個(gè)特定用戶界面示例。圖4A示出用戶界面顯示 300,其中用戶101正在生成電子郵件消息作為內(nèi)容108。顯示300中的電子郵件消息說(shuō)明性 地具有收件人部分302、主題部分304和附件部分306、發(fā)送按鈕308、消息正文部分310和用 戶教育部分312。在圖4A所示的實(shí)施例中,用戶101已在正文部分310中生成了較短的電子郵 件消息,并在附件部分306內(nèi)附加了文檔。對(duì)該電子郵件消息,存在兩個(gè)收件人,John Doe和 Jason Smith。
[0062]當(dāng)用戶正在生成電子郵件消息(該電子郵件消息對(duì)應(yīng)于內(nèi)容108)時(shí),內(nèi)容確定組 件112還分析內(nèi)容108W確定它是否包含敏感材料。當(dāng)電子表格附件被附加在部分306中時(shí), 內(nèi)容確定組件112還分析該附件。
[0063] 在圖4A中所示的實(shí)施例中,組件112分析了附件部分306并發(fā)現(xiàn)它包含敏感記錄。 從而,內(nèi)容處理系統(tǒng)106在用戶界面顯示300上在部分312中生成通知314。通知314包括圖標(biāo) 316、頭部318、描述320W及警告或指示322。圖標(biāo)316可與被顯示在部分312中的遵守注釋或 提示相關(guān)聯(lián)。它說(shuō)明性地包含某種圖形圖像,并且該圖像可取決于在部分312中提及的特定 數(shù)據(jù)傳播政策而改變。當(dāng)然,圖標(biāo)316也可W是靜態(tài)圖標(biāo)。
[0064] 頭部注釋部分318僅僅是指示將要對(duì)正在創(chuàng)作的電子郵件消息或附件應(yīng)用數(shù)據(jù)傳 播政策的頭部。在該實(shí)施例中,描述部分320陳述"This e-mail contains sensitive records(該電子郵件包含敏感記錄r。因此,描述部分320描述數(shù)據(jù)傳播政策將要應(yīng)用于該 電子郵件消息的原因。警告或指示部分322陳述"Ensure it is sent to authorized recipients(確保它將被發(fā)送給授權(quán)的收件人r。該部分向用戶指示如何遵守正被實(shí)施的 特定數(shù)據(jù)傳播政策。從而,在顯示300中的部分312中,可見(jiàn)到部分318向用戶通知數(shù)據(jù)傳播 政策正被實(shí)施,而描述部分320和警告或指示部分322關(guān)于數(shù)據(jù)傳播政策正被實(shí)施的原因 W 及關(guān)于如何遵守該政策教導(dǎo)用戶101。運(yùn)均在文檔被創(chuàng)作W及它被顯示給用戶101的同時(shí) 在文檔本身(電子郵件消息和附件)的上下文中進(jìn)行。
[0065] 在圖4A所示的實(shí)施例中,還看到附件324被突出顯示。在一個(gè)實(shí)施例中,電子郵件 消息(內(nèi)容108)的敏感部分說(shuō)明性地由某種類型的視覺(jué)提示指示,該視覺(jué)提示在顯示300上 區(qū)分該敏感部分。在圖4A所示的實(shí)施例中,附件324說(shuō)明性地用與用戶界面顯示300的其余 部分不同的顏色(諸如黃色)突出顯示。運(yùn)指示,附件324是電子郵件中包含描述部分320中 提及的敏感記錄的那部分。
[0066] 圖4B示出了可被生成的另一用戶界面顯示330。用戶界面顯示330上的多個(gè)項(xiàng)類似 于圖4A中示出的那些項(xiàng),并被類似地編號(hào)。然而,可注意到多個(gè)不同。從圖4B可見(jiàn)到,敏感信 息被包含在電子郵件消息的正文310中,而非附件中。從而,當(dāng)用戶正在鍵入電子郵件消息 的正文310時(shí),內(nèi)容確定組件112正在分析內(nèi)容并在正文310中標(biāo)識(shí)信用卡號(hào)碼。當(dāng)然,出于 本實(shí)施例的目的,實(shí)際號(hào)碼已用字符x、y和Z代替。因?yàn)殡娮余]件消息包含敏感信息,對(duì)該郵 件應(yīng)用數(shù)據(jù)傳播政策。在所示實(shí)施例中,部分312中的描述部分320不僅描述為何對(duì)該電子 郵件實(shí)施數(shù)據(jù)傳播政策,而且還描述內(nèi)容處理系統(tǒng)106將要采取的措施。遵守注釋陳述 叮his email will be blocked by your organization since it contains sensitive content(該電子郵件將被你的組織阻塞,因?yàn)樗舾袃?nèi)容r。運(yùn)不僅指示了為何實(shí)施 數(shù)據(jù)傳播政策(因?yàn)殡娮余]件包含敏感內(nèi)容),而且它還關(guān)于系統(tǒng)106將由于該政策將對(duì)該 電子郵件做什么(阻塞它)教導(dǎo)用戶。
[0067] 圖5是示出其中在創(chuàng)作系統(tǒng)402內(nèi)運(yùn)行的創(chuàng)作應(yīng)用400內(nèi)部署語(yǔ)言無(wú)關(guān)內(nèi)容確定系 統(tǒng)104的更具體實(shí)施例的框圖。創(chuàng)作系統(tǒng)402說(shuō)明性地包括處理器404,該處理器404被用于 運(yùn)行創(chuàng)作應(yīng)用,W使得用戶101可通過(guò)用戶設(shè)備406與創(chuàng)作系統(tǒng)402交互。用戶設(shè)備406可W 是任何類型的用戶設(shè)備,諸如臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、掌上或平板計(jì)算機(jī)、移動(dòng)設(shè)備、智 能電話、個(gè)人數(shù)字助理、多媒體播放器等。作為一個(gè)特定示例,假定創(chuàng)作系統(tǒng)402正在運(yùn)行文 字處理創(chuàng)作應(yīng)用400,該應(yīng)用允許用戶101生成運(yùn)行應(yīng)用400的文字處理文檔408。在圖5所示 的實(shí)施例中,語(yǔ)言無(wú)關(guān)內(nèi)容確定系統(tǒng)104和內(nèi)容處理組件106皆被嵌入創(chuàng)作應(yīng)用400內(nèi)。從 而,當(dāng)用戶創(chuàng)作文檔40別寸,系統(tǒng)104和組件106正在分析文檔408的內(nèi)容W確定其性質(zhì)(諸 如它是否敏感),并且它們相應(yīng)地處理該文檔的內(nèi)容(諸如通過(guò)對(duì)敏感信息實(shí)施數(shù)據(jù)傳播政 策)。圖5僅僅被提供來(lái)示出系統(tǒng)104和組件106可被嵌入用于創(chuàng)作內(nèi)容的應(yīng)用內(nèi)。
[0068] 還應(yīng)注意到環(huán)境100可被部署在各種不同的體系結(jié)構(gòu)中。環(huán)境100的不同部分可被 部署在用戶設(shè)備406上、或服務(wù)器上,或者它們可分開(kāi)在一個(gè)或多個(gè)客戶機(jī)和一個(gè)或多個(gè)服 務(wù)器之間。此外,環(huán)境100的各部分可W是基于云的服務(wù),部署在基于云的體系結(jié)構(gòu)中。
[0069] 云計(jì)算體系結(jié)構(gòu)說(shuō)明性地包括基礎(chǔ)架構(gòu)、平臺(tái)和應(yīng)用。云服務(wù)禪合到其它設(shè)備或 系統(tǒng),諸如云服務(wù)器、臺(tái)式計(jì)算機(jī)、平板計(jì)算機(jī)、膝上型計(jì)算機(jī)、蜂窩電話或智能電話、或其 它移動(dòng)設(shè)備或個(gè)人數(shù)字助理。云計(jì)算提供了不要求最終用戶知曉交付服務(wù)的系統(tǒng)的物理位 置或配置的計(jì)算、軟件、數(shù)據(jù)訪問(wèn)和存儲(chǔ)服務(wù)而非產(chǎn)品。在各個(gè)實(shí)施例中,云計(jì)算通過(guò)諸如 因特網(wǎng)之類的廣域網(wǎng)使用合適的協(xié)議交付服務(wù)。例如,云計(jì)算提供者通過(guò)廣域網(wǎng)交付應(yīng)用, 并且它們可W通過(guò)web瀏覽器或任何其他計(jì)算組件被訪問(wèn)。環(huán)境100的軟件或組件W及相應(yīng) 的數(shù)據(jù)可被存儲(chǔ)在云中遠(yuǎn)程位置處的服務(wù)器上。云計(jì)算環(huán)境中的計(jì)算資源可W被整合在遠(yuǎn) 程數(shù)據(jù)中屯、位置處或者它們可W是分散的。云計(jì)算基礎(chǔ)架構(gòu)可W通過(guò)共享數(shù)據(jù)中屯、來(lái)交付 服務(wù),即使在用戶看來(lái)它們是單個(gè)訪問(wèn)點(diǎn)。因此,在此所述的組件和功能可W從遠(yuǎn)程位置處 的服務(wù)提供者使用云計(jì)算體系結(jié)構(gòu)來(lái)提供?;蛘?,它們可W從常規(guī)的服務(wù)器提供,或者它們 可W直接地安裝在客戶端設(shè)備上,或按照其它方式。
[0070] 圖6示出云計(jì)算環(huán)境中的語(yǔ)言無(wú)關(guān)內(nèi)容確定系統(tǒng)104、內(nèi)容處理系統(tǒng)106和內(nèi)容源 系統(tǒng)102。所有運(yùn)些系統(tǒng)均被示為在云420中。用戶101訪問(wèn)它們作為通過(guò)用戶設(shè)備406提供 的服務(wù)。
[0071] 圖7是可用作用戶設(shè)備(或客戶機(jī)設(shè)備)406的手持或移動(dòng)計(jì)算設(shè)備的一個(gè)說(shuō)明性 實(shí)施例的簡(jiǎn)化框圖,在用戶設(shè)備406中可部署本發(fā)明的系統(tǒng)(或其部分),或者該用戶設(shè)備 406可被用于訪問(wèn)本發(fā)明的系統(tǒng)。圖8和9是手持或移動(dòng)設(shè)備的示例。
[0072] 圖7提供了可W是用戶設(shè)備406并可運(yùn)行環(huán)境100的組件、或者與環(huán)境100交互的 客戶機(jī)設(shè)備16的組件的一般框圖。在設(shè)備16中,提供了通信鏈路13,該通信鏈路允許手持設(shè) 備與其它計(jì)算設(shè)備通信,并且在一些實(shí)施例中提供用于諸如通過(guò)掃描來(lái)自動(dòng)接收信息的信 道。通信鏈路13的示例包括:紅外端口、串行/USB端口、諸如W太網(wǎng)端口之類的電纜網(wǎng)絡(luò)端 口、W及允許通過(guò)一個(gè)或多個(gè)通信協(xié)議的通信的無(wú)線網(wǎng)絡(luò)端口,所述通信協(xié)議包括為用于 提供對(duì)網(wǎng)絡(luò)的蜂窩訪問(wèn)的無(wú)線服務(wù)的通用分組無(wú)線服務(wù)(GPRSKlXrtt和短消息服務(wù),并包 括提供對(duì)網(wǎng)絡(luò)的局域無(wú)線連接的802.11和802. Ub(WiFi)協(xié)議、和藍(lán)牙協(xié)議。
[0073] 根據(jù)其他實(shí)施例,應(yīng)用或系統(tǒng)(像系統(tǒng)100)在連接到SD卡接口 15的可移動(dòng)安全數(shù) 字(SD)卡上被接收。SD卡接口 15和通信鏈路13沿總線17與處理器19進(jìn)行通信,該總線21還 連接到存儲(chǔ)器23和輸入/輸出(I/O)組件25、W及時(shí)鐘27和位置系統(tǒng)727。
[0074] 在一個(gè)實(shí)施例中,提供了I/O組件23W促成輸入和輸出操作。針對(duì)設(shè)備16的各個(gè)實(shí) 施例的I/O組件23可W包括:輸入組件,比如按鈕、觸摸傳感器、接近傳感器、話筒、傾斜傳感 器W及重力開(kāi)關(guān);W及輸出組件,比如顯示設(shè)備、揚(yáng)聲器和或打印機(jī)端口。也可W使用其他 I/O組件23。
[0075] 時(shí)鐘25說(shuō)明性地包括輸出時(shí)間和日期的真實(shí)時(shí)間時(shí)鐘組件。時(shí)鐘還可W說(shuō)明性地 為處理器17提供定時(shí)功能。
[0076] 定位系統(tǒng)27說(shuō)明性地包括輸出設(shè)備16的當(dāng)前地理位置的組件。運(yùn)例如可W包括全 球定位系統(tǒng)(GPS)接收機(jī)、LORAN系統(tǒng)、航位推算系統(tǒng)、蜂窩S角測(cè)量系統(tǒng)、或者其他定位系 統(tǒng)。運(yùn)例如還可W包括生成所期望的地圖、導(dǎo)航線路和其他地理功能的測(cè)繪軟件或?qū)Ш杰?件。
[0077] 處理器21存儲(chǔ)操作系統(tǒng)29、網(wǎng)絡(luò)設(shè)定31、應(yīng)用33、應(yīng)用配置設(shè)定35、數(shù)據(jù)存儲(chǔ)37、通 信驅(qū)動(dòng)程序39W及通信配置設(shè)定41。存儲(chǔ)器21可W包括所有類型的有形易失性和非易失性 計(jì)算機(jī)可讀存儲(chǔ)器設(shè)備。其還可W包括計(jì)算機(jī)存儲(chǔ)介質(zhì)(下面描述)。存儲(chǔ)器21存儲(chǔ)計(jì)算機(jī) 可讀指令,所述指令在被處理器17執(zhí)行時(shí)致使處理器根據(jù)所述指令執(zhí)行計(jì)算機(jī)實(shí)現(xiàn)的步驟 或功能。Portions of system 100,for example,can reside in memory 21.處理器 17可 W也被其他組件激活W促進(jìn)它們的功能。
[0078] 網(wǎng)絡(luò)設(shè)定31的示例包括諸如代理信息、因特網(wǎng)連接信息W及測(cè)繪之類的事物。應(yīng) 用配置設(shè)定35包括為特定企業(yè)或用戶定制應(yīng)用的設(shè)定。通信配置設(shè)定41提供了用于與其他 計(jì)算機(jī)進(jìn)行通信的參數(shù),并且包括諸如GPRS參數(shù)、SMS參數(shù)、連接用戶名和口令之類的項(xiàng)目。
[0079] 應(yīng)用33可W是之前已經(jīng)存儲(chǔ)在設(shè)備16上的應(yīng)用或是在使用期間安裝的應(yīng)用,但是 運(yùn)些應(yīng)用可W是操作系統(tǒng)29的一部分,或者也可W在設(shè)備16之外被托管。
[0080] 圖8和圖9提供了可用的設(shè)備16的示例,盡管也可W使用其他設(shè)備。在圖8,提供智 能電話或移動(dòng)電話45作為設(shè)備16。電話45包括:一組小鍵盤(pán)47,其用于撥打電話號(hào)碼;顯示 器49,其能夠顯示包括應(yīng)用圖像、圖標(biāo)、網(wǎng)頁(yè)、照片和視頻在內(nèi)的圖像;W及控制按鈕51,其 用于選擇在顯示器上示出的項(xiàng)目。電話包括天線53,該天線53用于接收諸如通用分組無(wú)線 服務(wù)(GPRS)和IXdt之類的蜂窩電話信號(hào)W及短消息服務(wù)(SMS)信號(hào)。在一些實(shí)施例中,電 話45還包括容納安全數(shù)字(SD)卡57的SD卡槽55。
[0081] 圖9的移動(dòng)設(shè)備是個(gè)人數(shù)字助理(PDA)59或多媒體播放器或平板計(jì)算機(jī)等等(在此 稱為PDA 59) "PDA 59包括電感屏61,所述電感屏感測(cè)指示筆63(或其他指示器,諸如用戶的 手指)在該指示筆被置于屏幕之上時(shí)的位置。運(yùn)允許用戶在屏幕上選擇、突出顯示和移動(dòng)項(xiàng) 目W及繪圖和書(shū)寫(xiě)。PDA 59還包括多個(gè)用戶輸入鍵或按鈕(比如按鈕65),其允許用戶將顯 示器61上所顯示的菜單選項(xiàng)或其他顯示選項(xiàng)滾屏,并且允許用戶在沒(méi)有接觸顯示器61的情 況下改變應(yīng)用或選擇用戶輸入功能。盡管未被示出,但是PDA 59可W包括允許與其他計(jì)算 機(jī)進(jìn)行無(wú)線通信的內(nèi)置天線和紅外發(fā)射機(jī)/接收機(jī)、W及允許對(duì)其他計(jì)算設(shè)備的硬件連接 的連接端口。運(yùn)樣的硬件連接通常是通過(guò)經(jīng)由串行或USB端口連接到其他計(jì)算機(jī)的支架來(lái) 進(jìn)行的。因此,運(yùn)些連接是非網(wǎng)絡(luò)連接。在一個(gè)實(shí)施例中,移動(dòng)設(shè)備59還包括容納SD卡69的 SD卡槽67。
[0082] 注意,設(shè)備16的其他形式是可能的。示例包括平板計(jì)算設(shè)備、音樂(lè)或視頻播放器W 及其他手持計(jì)算設(shè)備。
[0083] 圖10是其中可部署(例如)系統(tǒng)100的計(jì)算環(huán)境800的一個(gè)實(shí)施例。參考圖10,用于 實(shí)現(xiàn)一些實(shí)施例的示例性系統(tǒng)包括計(jì)算機(jī)810形式的通用計(jì)算設(shè)備。計(jì)算機(jī)810的組件可 W包括,但不限于,處理單元820(可W包括處理器114)、系統(tǒng)存儲(chǔ)器830和將包括系統(tǒng)存儲(chǔ) 器在內(nèi)的各種系統(tǒng)組件禪合至處理單元820的系統(tǒng)總線821。系統(tǒng)總線821可W是若干類型 的總線結(jié)構(gòu)中的任一種,包括使用各種總線體系結(jié)構(gòu)中的任一種的存儲(chǔ)器總線或存儲(chǔ)器控 制器、外圍總線、W及局域總線。作為示例而非限制,運(yùn)樣的體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié) 構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強(qiáng)型ISA化ISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(huì) (VESA)局部總線和外圍部件互連(PCI)總線(也稱為夾層(Mezzanine)總線)。參考圖1描述 的存儲(chǔ)器和程序可被部署在圖10的相應(yīng)部分中。
[0084] 計(jì)算機(jī)810通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可W是能由計(jì)算機(jī)810 訪問(wèn)的任何可用介質(zhì),而且包含易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。作為示例 而非限制,計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)不同于且 不包括已調(diào)制數(shù)據(jù)信號(hào)或載波。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括硬件存儲(chǔ)介質(zhì),該硬件存儲(chǔ)介質(zhì)包括 W用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)的信息的任何方法和技 術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于, 尺八1、301、66?1?01、閃存或其它存儲(chǔ)器技術(shù)八0-1?01、數(shù)字多功能盤(pán)(0¥0)或其它光盤(pán)存儲(chǔ)、磁 帶盒、磁帶、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)設(shè)備、或能用于存儲(chǔ)所需信息且可W由計(jì)算機(jī)810訪 問(wèn)的任何其它介質(zhì)。通信介質(zhì)通常具體化計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或傳輸機(jī)制 中的其他數(shù)據(jù),并包括任何信息遞送介質(zhì)。術(shù)語(yǔ)"已調(diào)制數(shù)據(jù)信號(hào)"是指使得W在信號(hào)中編 碼信息的方式來(lái)設(shè)定或改變其一個(gè)或多個(gè)特征的信號(hào)。作為示例而非限制,通信介質(zhì)包括 諸如有線網(wǎng)絡(luò)或直接線連接之類的有線介質(zhì),W及諸如聲學(xué)、RF、紅外及其他無(wú)線介質(zhì)之類 的無(wú)線介質(zhì)。上述任何組合也應(yīng)該包括在計(jì)算機(jī)可讀的介質(zhì)范圍內(nèi)。
[0085] 系統(tǒng)存儲(chǔ)器830包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì),如只讀 存儲(chǔ)器(R0M)831和隨機(jī)存取存儲(chǔ)器(RAM)832。包含諸如在啟動(dòng)期間幫助在計(jì)算機(jī)810內(nèi)的 元件之間傳輸信息的基本例程的基本輸入/輸出系統(tǒng)833(BIOS)通常存儲(chǔ)在ROM 831中。RAM 832通常包含處理單元820可立即訪問(wèn)和/或當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為示 例而非限制,圖10示出了操作系統(tǒng)834、應(yīng)用程序835、其他程序模塊836和程序數(shù)據(jù)837。
[0086] 計(jì)算機(jī)810還可W包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。 僅作為示例,圖10示出了從不可移動(dòng)、非易失性磁介質(zhì)中讀取或向其寫(xiě)入的硬盤(pán)驅(qū)動(dòng)器 841,從可移動(dòng)、非易失性磁盤(pán)852中讀取或向其寫(xiě)入的磁盤(pán)驅(qū)動(dòng)器851,W及從諸如CD ROM 或其他光學(xué)介質(zhì)等可移動(dòng)、非易失性光盤(pán)856中讀取或向其寫(xiě)入的光盤(pán)驅(qū)動(dòng)器855??稍谑?例性操作環(huán)境中使用的其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不 限于,磁帶盒、閃存卡、數(shù)字多功能盤(pán)、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤(pán)驅(qū)動(dòng)器841通 常通過(guò)諸如接口 840之類的不可移動(dòng)存儲(chǔ)器接口連接到系統(tǒng)總線821,并且磁盤(pán)驅(qū)動(dòng)器851 和光盤(pán)驅(qū)動(dòng)器855通常通過(guò)諸如接口 850之類的可移動(dòng)存儲(chǔ)器接口連接到系統(tǒng)總線821。
[0087] W上討論并在圖10中示出的驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)810提 供了對(duì)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的存儲(chǔ)。在圖10中,例如,硬盤(pán)驅(qū)動(dòng) 器841被示為存儲(chǔ)操作系統(tǒng)844、應(yīng)用程序845、其他程序模塊846和程序數(shù)據(jù)847。注意,運(yùn)些 組件可與操作系統(tǒng)834、應(yīng)用程序835、其它程序模塊836和程序數(shù)據(jù)837相同,也可與它們不 同。在此操作系統(tǒng)844、應(yīng)用程序845、其它程序模塊846W及程序數(shù)據(jù)847被給予了不同的編 號(hào),W說(shuō)明至少它們是不同的副本。
[0088] 用戶可W通過(guò)諸如鍵盤(pán)862、話筒863W及諸如鼠標(biāo)、跟蹤球或觸摸墊等定點(diǎn)設(shè)備 861等輸入設(shè)備來(lái)將命令和信息輸入至計(jì)算機(jī)810中。其它輸入設(shè)備(未示出)可W包括操縱 桿、游戲手柄、圓盤(pán)式衛(wèi)星天線、掃描儀等。運(yùn)些W及其它輸入設(shè)備通常通過(guò)禪合到系統(tǒng)總 線的用戶輸入接口860連接到處理單元820,但也可通過(guò)諸如并行端口、游戲端口或通用串 行總線化SB)之類的其它接口和總線結(jié)構(gòu)來(lái)連接。監(jiān)視器891或其它類型的顯示設(shè)備也經(jīng)由 諸如視頻接口 890之類的接口連接至系統(tǒng)總線821。除了監(jiān)視器W外,計(jì)算機(jī)還可包括諸如 揚(yáng)聲器897和打印機(jī)896之類的其它外圍輸出設(shè)備,它們可通過(guò)輸出外圍接口 895來(lái)連接。
[0089] 計(jì)算機(jī)810使用到諸如遠(yuǎn)程計(jì)算機(jī)880等一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連接在網(wǎng) 絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)880可W是個(gè)人計(jì)算機(jī)、手持設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、 對(duì)等設(shè)備或其它常見(jiàn)的網(wǎng)絡(luò)節(jié)點(diǎn),且一般包括W上關(guān)于計(jì)算機(jī)810描述的多個(gè)或所有的元 件。圖10中所描繪的邏輯連接包括局域網(wǎng)(LAN)871和廣域網(wǎng)(WAN)873,但還可包括其他網(wǎng) 絡(luò)。此類聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍的計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見(jiàn)的。
[0090] 當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)810通過(guò)網(wǎng)絡(luò)接口或適配器870連接到LAN 871。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)810通常包括調(diào)制解調(diào)器872或用于通過(guò)諸如因特 網(wǎng)等WAN 873建立通信的其它手段。調(diào)制解調(diào)器872可W是內(nèi)置的或外置的,可經(jīng)由用戶輸 入接口860或其它適當(dāng)?shù)臋C(jī)制連接到系統(tǒng)總線821。在聯(lián)網(wǎng)環(huán)境中,相關(guān)于計(jì)算機(jī)810所示的 程序模塊或其部分可被存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為示例,而非限制,圖10示出了遠(yuǎn) 程應(yīng)用程序885駐留在遠(yuǎn)程計(jì)算機(jī)880上。應(yīng)當(dāng)理解,所示的網(wǎng)絡(luò)連接是示例性的,并且可使 用在計(jì)算機(jī)之間建立通信鏈路的其它手段。
[0091] 盡管用結(jié)構(gòu)特征和/或方法動(dòng)作專用的語(yǔ)言描述了本主題,但可W理解,所附權(quán)利 要求書(shū)中定義的主題不必限于上述具體特征或動(dòng)作。更確切而言,上述具體特征和動(dòng)作是 作為實(shí)現(xiàn)權(quán)利要求的示例形式公開(kāi)的。
【主權(quán)項(xiàng)】
1. 一種計(jì)算系統(tǒng),包括: 內(nèi)容確定組件,被配置為: 訪問(wèn)定義被用于將內(nèi)容標(biāo)識(shí)為第一類型的內(nèi)容的模式的一組規(guī)則,每一規(guī)則具有能夠 被分別匹配到以分割語(yǔ)言書(shū)寫(xiě)的文本內(nèi)容和以非分割語(yǔ)言書(shū)寫(xiě)的文本內(nèi)容的分割模式和 非分割模式; 針對(duì)每一規(guī)則中的所述模式,從源文檔匹配文檔的內(nèi)容,而無(wú)論所述文檔的內(nèi)容是以 分割語(yǔ)言書(shū)寫(xiě)還是以非分割語(yǔ)言書(shū)寫(xiě),以確定所述文檔的內(nèi)容是否是所述第一類型的內(nèi) 容; 基于所述文檔的內(nèi)容是匹配分割模式還是匹配非分割模式,生成與關(guān)于所述文檔的內(nèi) 容是否是所述第一類型的內(nèi)容的確定相對(duì)應(yīng)的置信分?jǐn)?shù);以及 數(shù)據(jù)傳播安全組件,被配置為: 基于所述關(guān)于所述文檔的內(nèi)容是否是所述第一類型的內(nèi)容的確定以及相對(duì)應(yīng)的置信 分?jǐn)?shù),標(biāo)識(shí)數(shù)據(jù)傳播規(guī)則;并且 基于所標(biāo)識(shí)的數(shù)據(jù)傳播規(guī)則,控制所述文檔的內(nèi)容通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)的傳播。2. 如權(quán)利要求1所述的計(jì)算系統(tǒng),其中,所述第一類型的內(nèi)容包括敏感內(nèi)容。3. 如權(quán)利要求1所述的計(jì)算系統(tǒng),其中,所述內(nèi)容確定組件被配置為:與所述文檔的內(nèi) 容匹配非分割模式相比較,如果所述文檔的內(nèi)容匹配分割模式,則向所述確定分配較高的 置信水平。4. 如權(quán)利要求3所述的計(jì)算系統(tǒng),其中,所述規(guī)則中的至少一個(gè)規(guī)則包括主匹配部分和 確證匹配部分,并且其中,所述內(nèi)容確定組件被配置為:首先針對(duì)所述主匹配部分來(lái)匹配所 述文檔的內(nèi)容,并且之后,如果所述文檔的內(nèi)容匹配所述主匹配部分,則針對(duì)所述確證匹配 部分來(lái)匹配所述文檔的內(nèi)容。5. 如權(quán)利要求4所述的計(jì)算系統(tǒng),其中,所述內(nèi)容確定組件被配置為:如果所述文檔的 內(nèi)容匹配所述確證匹配部分中的多個(gè)匹配模式中的多于一個(gè)匹配模式,則分配增加的置信 水平。6. 如權(quán)利要求1所述的計(jì)算系統(tǒng),其中,所述源文檔包括電子消息。7. 如權(quán)利要求6所述的計(jì)算系統(tǒng),其中,所述電子消息包括電子郵件消息,并且所述文 檔的內(nèi)容包括下列項(xiàng)中的至少一個(gè):電子郵件主體或者電子郵件附件。8. 如權(quán)利要求6所述的計(jì)算系統(tǒng),其中,所述數(shù)據(jù)傳播安全組件被配置為:通過(guò)下列項(xiàng) 中的至少一項(xiàng)來(lái)控制所述文檔的內(nèi)容的傳播: 阻塞所述文檔的內(nèi)容被發(fā)送到潛在接收方; 顯示指示所述文檔的內(nèi)容包含敏感材料并且所述文檔內(nèi)容將被阻塞被發(fā)送到潛在接 收方的消息;或者 顯示指示所述文檔的內(nèi)容包含敏感材料并且指示所述用戶如何基于所述數(shù)據(jù)傳播規(guī) 則來(lái)進(jìn)行處理的消息。9. 如權(quán)利要求1所述的計(jì)算系統(tǒng),其中,所述內(nèi)容確定組件被配置為:針對(duì)規(guī)則中標(biāo)識(shí) 下列項(xiàng)中的至少一項(xiàng)的模式來(lái)匹配所述文檔的內(nèi)容:個(gè)人信息、信用卡信息、或者社會(huì)保障 號(hào)碼信息。10. -種用于控制通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)傳播文檔的內(nèi)容的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包 括: 訪問(wèn)定義被用于將內(nèi)容標(biāo)識(shí)為第一類型的內(nèi)容的模式的一組規(guī)則,每一規(guī)則具有能夠 被分別匹配到以分割語(yǔ)言書(shū)寫(xiě)的文本內(nèi)容和以非分割語(yǔ)言書(shū)寫(xiě)的文本內(nèi)容的分割模式和 非分割模式; 針對(duì)每一規(guī)則中的所述模式,從源文檔匹配文檔的內(nèi)容,而無(wú)論所述文檔的內(nèi)容是以 分割語(yǔ)言書(shū)寫(xiě)還是以非分割語(yǔ)言書(shū)寫(xiě),以確定所述文檔的內(nèi)容是否是所述第一類型的內(nèi) 容; 基于所述文檔的內(nèi)容是匹配分割模式還是匹配非分割模式,生成與關(guān)于所述文檔的內(nèi) 容是否是所述第一類型的內(nèi)容的確定相對(duì)應(yīng)的置信分?jǐn)?shù); 基于所述關(guān)于所述文檔的內(nèi)容是否是所述第一類型的內(nèi)容的確定以及相對(duì)應(yīng)的置信 分?jǐn)?shù),標(biāo)識(shí)數(shù)據(jù)傳播安全規(guī)則;以及 基于所標(biāo)識(shí)的數(shù)據(jù)傳播安全規(guī)則,控制所述文檔的內(nèi)容通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)的傳播。11. 如權(quán)利要求10所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述第一類型的內(nèi)容包括敏感內(nèi) 容。12. 如權(quán)利要求10所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,生成置信分?jǐn)?shù)包括: 如果所述文檔的內(nèi)容匹配分割模式,則生成較高的置信分?jǐn)?shù),并且如果所述文檔的內(nèi) 容匹配非分割模式,則生成較低的置信分?jǐn)?shù)。13. 如權(quán)利要求10所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,控制傳播包括: 如果所述文檔的內(nèi)容是具有足夠的相對(duì)應(yīng)的置信分?jǐn)?shù)的所述第一類型的內(nèi)容,則根據(jù) 第一組處理規(guī)則來(lái)處理所述文檔的內(nèi)容;并且 否則,根據(jù)第二組處理規(guī)則來(lái)處理所述文檔的內(nèi)容。14. 根據(jù)權(quán)利要求10所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,每一模式包括主匹配部分和確證 匹配部分,并且其中,匹配包括: 首先針對(duì)給定模式的主匹配部分來(lái)匹配所述文檔的內(nèi)容; 如果所述文檔的內(nèi)容匹配所述給定模式的所述主匹配部分,則針對(duì)所述確證匹配部分 來(lái)匹配所述文檔的內(nèi)容;并且 如果所述文檔的內(nèi)容匹配所述給定模式的所述確證匹配部分,則向所述匹配分配第一 置信分?jǐn)?shù)。15. 如權(quán)利要求14所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,所述給定模式的所述確證匹配部分 具有多個(gè)確證模式,并且其中,針對(duì)所述確證匹配部分來(lái)匹配所述文檔的內(nèi)容包括: 針對(duì)多個(gè)確證匹配模式中的每一個(gè),匹配所述文檔的內(nèi)容;并且 如果所述文檔的內(nèi)容匹配多于一個(gè)確證匹配模式,則增加所述置信分?jǐn)?shù)。16. 如權(quán)利要求10所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,每一規(guī)則標(biāo)識(shí)不同種類的信息,當(dāng) 被包括在所述文檔的內(nèi)容中時(shí),所述不同種類的信息將所述文檔的內(nèi)容標(biāo)識(shí)為所述第一類 型的內(nèi)容。17. 如權(quán)利要求16所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,每一規(guī)則標(biāo)識(shí)不同種類的信息,當(dāng) 被包括在所述文檔的內(nèi)容中時(shí),所述不同種類的信息將所述文檔的內(nèi)容呈現(xiàn)為敏感內(nèi)容。18. 如權(quán)利要求17所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,匹配包括: 針對(duì)規(guī)則中標(biāo)識(shí)信用卡信息的模式,匹配所述文檔的內(nèi)容。19. 如權(quán)利要求17所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,匹配包括: 針對(duì)規(guī)則中標(biāo)識(shí)社會(huì)保障號(hào)碼信息的模式,匹配所述文檔的內(nèi)容。20. 如權(quán)利要求17所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中,匹配包括: 針對(duì)規(guī)則中標(biāo)識(shí)個(gè)人信息的模式,匹配所述文檔的內(nèi)容。
【文檔編號(hào)】G06F21/62GK106021237SQ201610389876
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2013年2月1日
【發(fā)明人】M·甘地, C·拉曼納, V·??ɡ{拉亞南, 菲約 R·龐特斯
【申請(qǐng)人】微軟技術(shù)許可有限責(zé)任公司