專利名稱:字符串處理方法以及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用不同的信息替換文檔中的應(yīng)該保密的信息的方法、設(shè)備和程序。
背景技術(shù):
近年來,從個人信息保護的觀點來看,需要加強用于對文檔中的字符串進行掩碼(替換)的技術(shù)。有一種公知的技術(shù)能夠滿足該需要。利用該技術(shù),通過使用其中存儲了應(yīng)該進行掩碼的字符串的詞典,將被掩碼的單詞不會顯示出來。例如,專利文件1采用了下列掩碼技術(shù)。首先,基于詞典,從輸入的文檔檢測待掩碼的部分。然后,將檢測到的部分作為掩碼結(jié)果的列表呈現(xiàn)給用戶,以便讓用戶糾正該列表,經(jīng)過糾正的列表的內(nèi)容充當掩碼主體部分。
利用所描述的方法,存在這樣的可能性有不能被檢測到的掩碼候選字符,因為呈現(xiàn)的單詞只限于根據(jù)詞典或規(guī)則檢測到的字符串。換句話說,該方法是這樣的一種技術(shù)根據(jù)該技術(shù),獲得最后的掩碼候選字符,因為用戶糾正由基于詞典或規(guī)則進行的檢測所引起的檢測錯誤。此外,要想沒有遺漏地對大量的文檔執(zhí)行掩碼,隨著文檔的量增大,詞典也會相應(yīng)地變得更大。因此,工作效率會降低,因為用戶需要糾正大量的檢測錯誤。換句話說,在常規(guī)方法中,沒有考慮到在沒有遺漏地對大量文檔執(zhí)行掩碼的情況下,能夠在短時間內(nèi)進行有效的掩碼的文檔掩碼技術(shù)。
日本專利申請出版物No.2004-227141發(fā)明內(nèi)容[本發(fā)明解決的問題]在常規(guī)技術(shù)中,一直存在這樣的問題不在詞典中的字符串不能作為掩碼候選字符出現(xiàn)。另外,也沒有考慮到有效地進行掩碼的機制。
本發(fā)明是為了解決上文所描述的技術(shù)問題而作出的。本發(fā)明的第一個目的是提供用于沒有遺漏地執(zhí)行掩碼的文檔-掩碼方法、設(shè)備和程序。
本發(fā)明的第二個目的是提供用于有效地進行掩碼的機制。
本發(fā)明的第三個目的是提供用于在短時間對大量文檔中的字符串進行掩碼的方法和設(shè)備。
本發(fā)明的第四個目的是提供用于促進選擇和替換待掩碼的主體的方法和設(shè)備。
最后,本發(fā)明的第五個目的是給需要進行掩碼的用戶提供與掩碼相關(guān)的服務(wù)。
對于上述目的,本發(fā)明是處理處理文檔中的字符串的方法。該方法包括下列步驟將文檔中的一個字符串解析為多個部分字符串;對于每一個部分字符串,計算包含部分字符串的出現(xiàn)頻率的分數(shù);向用戶呈現(xiàn)部分字符串和分數(shù);確定用戶選擇了哪些部分字符串;將所選擇的部分字符串存儲為安全的部分字符串列表;以及用預(yù)先確定的替換字符串替換排除安全部分字符串列表中存在的部分字符串的部分字符串。
對于該方法,可能存在下列情況。每一個部分字符串都可以是詞素。呈現(xiàn)步驟可以是根據(jù)分數(shù)的降序向用戶呈現(xiàn)部分字符串和分數(shù)。計算步驟可以是通過在計算中使用部分字符串的出現(xiàn)頻率和字符串長度,對于每一個部分字符串,計算分數(shù)。此外,計算步驟還可以是通過在計算中使用出現(xiàn)頻率和字符串長度,數(shù)值形式的詞類和數(shù)值形式的類別名稱中的任何一個(所有的這些都可以是字符串的,類別名稱是字符串所屬的組),對于每一個部分字符串,計算分數(shù)。本發(fā)明的方法可以被配置為進一步包括,對于每一個部分字符串,計算部分字符串被視為有風(fēng)險的字符串的風(fēng)險。在該配置中,呈現(xiàn)步驟是向用戶呈現(xiàn)部分字符串、部分字符串的分數(shù)以及風(fēng)險。這里,對于預(yù)先存儲了有風(fēng)險的字符串的有風(fēng)險的字符串列表中包括的部分字符串,風(fēng)險被計算為較高的值。呈現(xiàn)步驟可以進一步包括,作為已經(jīng)選擇的部分字符串,呈現(xiàn)部分字符串,每一個部分字符串的風(fēng)險的值都低于預(yù)定的值。此外,呈現(xiàn)步驟還可以進一步包括呈現(xiàn)相應(yīng)的部分字符串的替換字符串。呈現(xiàn)步驟可以進一步包括通過使用其中存儲了部分字符串的廣義術(shù)語的類別詞典,作為替換字符串,呈現(xiàn)部分字符串的廣義術(shù)語。最后,確定步驟可以進一步包括接受對替換字符串的編輯。
此外,本發(fā)明還可以被理解為使計算機實現(xiàn)預(yù)先確定的功能的程序。在此情況下,本發(fā)明的程序使計算機實現(xiàn)下列功能將文檔中的一個字符串解析為多個部分字符串;對于每一個部分字符串,計算包含部分字符串的出現(xiàn)頻率的分數(shù);向用戶呈現(xiàn)部分字符串和分數(shù);確定用戶選擇了哪些部分字符串;將所選擇的部分字符串存儲為安全的部分字符串列表;以及用預(yù)先確定的替換字符串替換部分字符串,但安全的部分字符串列表中存在的部分字符串除外。
利用本發(fā)明,可以有效地執(zhí)行文檔-掩碼,從而可以在短時間內(nèi)對大量的文檔進行掩碼。另外,還可以輕松地選擇待掩碼的字符串和編輯替換字符串。
圖1是顯示了實施例的系統(tǒng)的配置的圖表。
圖2是概要顯示了實現(xiàn)了實施例的計算機的硬件配置的圖表。
圖3是顯示了分數(shù)計算部分130的比較詳細的配置的圖表。
圖4是顯示了部分字符串呈現(xiàn)部分140的比較詳細的配置的圖表。
圖5是安全的字符串列表生成部分的流程圖。
圖6是顯示了部分字符串檢查主屏幕的用戶界面的視圖。
圖7是顯示了詳細的信息顯示屏幕的用戶界面的視圖。
具體實施例方式
下面,將通過參考附圖,詳細描述本發(fā)明的具體實施方式
(下面簡稱為“實施例”)。下面,如果在實施例中每一個部分字符串是詞素、單詞、子句、句子或顯示字母類型,則無論每一個部分字符串是什么,都可以執(zhí)行實施例,而不會影響本發(fā)明的本質(zhì)。
圖1是顯示了實施例的系統(tǒng)配置的圖表。文檔110是主要由文本構(gòu)成的文檔。在文本中,有應(yīng)該保密的字符串字符串。字符串根據(jù)本發(fā)明最終被掩碼。部分字符串解析部分120將讀入的文本解析為部分字符串。作為解析方法,已知有用來將文字解析成詞素、單詞、子句、句子或顯示字母類型的方法。理想情況下,應(yīng)該將文本解析成詞素。注意,由于用于進行形態(tài)分析的方法已經(jīng)眾所周知,這里將省略那些方法的細節(jié)。解析之后所獲得的部分字符串被存儲在部分字符串列表125中。注意,所有字符串都處于首先被掩碼的狀態(tài),不像在常規(guī)技術(shù)中那樣。被視為安全的部分字符串被消除掩碼,被視為有風(fēng)險的字符串的那些字符串分別被替換為預(yù)先確定的替換字符串。分數(shù)計算部分130計算每一個部分字符串的分數(shù)和風(fēng)險。分數(shù)采用數(shù)值形式,顯示了部分字符串的重要性如何。主要根據(jù)部分字符串的出現(xiàn)頻率和字符串長度來計算分數(shù)。然而,也可以通過使用數(shù)值形式的風(fēng)險值(稍后將描述),以及部分字符串的詞類名稱和類別名稱(稍后詳細地描述),來計算分數(shù)。風(fēng)險表示由于沒有掩碼部分字符串而造成保密信息泄露的風(fēng)險。風(fēng)險被定義為二進制值,當部分字符串存儲在有風(fēng)險的字符串列表132時,風(fēng)險被視為“1”,否則,風(fēng)險被視為“0”。不同地,可以給定部分字符串確定地被視為有風(fēng)險的確定性因素。注意,有風(fēng)險的字符串列表是通過利用現(xiàn)有的人名、地名、公司名稱等等生成的。部分字符串的分數(shù)和風(fēng)險作為附加了分數(shù)的部分字符串列表來存儲。部分字符串呈現(xiàn)部分140向用戶呈現(xiàn)由分數(shù)計算部分130計算出的分數(shù)和風(fēng)險,并讓用戶選擇待消除掩碼的部分字符串。利用部分字符串呈現(xiàn)部分140,用戶還可以確定部分字符串應(yīng)該替換為哪些替換字符串。預(yù)先提供了默認值,作為替換字符串。然而,如果其中存儲了部分字符串的類別詞典142包括其中一個字符串的廣義術(shù)語,則可以參考類別詞典42,選擇廣義術(shù)語作為字符串的替換字符串。另外,還可以根據(jù)用戶的指令,對替換字符串進行編輯。利用部分字符串呈現(xiàn)部分140進行選擇和編輯的結(jié)果作為安全的字符串列表145存儲起來。諸如特定產(chǎn)品名稱之類的部分字符串,存儲在安全的字符串列表145中。預(yù)先確定字符串是安全的。相應(yīng)地,用戶進行的檢查的數(shù)量就可以變小。消除掩碼部分150基于安全的字符串列表,消除文檔中的被掩碼的部分字符串的掩碼。即,消除掩碼部分150用預(yù)先確定的替換字符串替換安全的字符串列表145中存在的那些部分字符串除外的所有部分字符串。被處理過的文檔立即用消除掩碼速率顯示在顯示設(shè)備275上。如果在檢查是否已經(jīng)執(zhí)行了所需要的消除掩碼之后發(fā)現(xiàn)消除掩碼不充分,則用戶可以進一步輕松地重復(fù)選擇和編輯操作。因此,用戶可以非常平穩(wěn)地獲得所需要的替換結(jié)果。
圖2是概要顯示了被用作實施例的計算機的硬件配置的示例的圖表。計算機1000包括CPU外圍部分,具有CPU 200、RAM 240、ROM 230和I/O控制器220,所有的這些都通過主機控制器210相互連接起來。計算機1000還包括通信接口250、硬盤驅(qū)動器280、多組件驅(qū)動器290、FD驅(qū)動器245、聲音控制器260和圖形控制器270,所有的這些都連接到I/O控制器220。多組件驅(qū)動器290能夠從諸如CD或DVD之類的光盤型介質(zhì)295中讀取,并能夠向其中寫入。FD驅(qū)動器245能夠從軟盤285中讀取,并能夠向其中寫入。聲音控制器265對聲音I/O設(shè)備265進行驅(qū)動。圖形控制器270對顯示設(shè)備275進行驅(qū)動。
CPU 200基于存儲在ROM 230、BIOS和RAM 240中的程序進行操作,從而控制那些部分。圖形控制器270在RAM 240中提供的幀緩沖器中獲取由CPU 200等等生成的圖像數(shù)據(jù),并在顯示設(shè)備275上顯示圖像數(shù)據(jù)。否則,圖形控制器270可以包括幀緩沖器,其中存儲了由CPU 200等等生成的圖像數(shù)據(jù)。優(yōu)選情況下,待掩碼的部分字符串顯示在顯示設(shè)備275上,以提示用戶從部分字符串中作出選擇。
通信接口250通過網(wǎng)絡(luò)與外部通信設(shè)備進行通信。優(yōu)選情況下,CPU 200被配置為通過通信接口250從用戶那里接收文檔,通過使用本發(fā)明的字符串替換設(shè)備來執(zhí)行所需要的替換,然后,將替換的結(jié)果傳輸?shù)接脩?,用戶希望對文檔進行掩碼。注意,可以通過電纜、通過無線電、通過紅外線或通過短距離的無線電(如藍牙)來使用網(wǎng)絡(luò),根本無需變更本申請的配置。硬盤驅(qū)動器280存儲了本發(fā)明的程序、應(yīng)用程序、OS等等的代碼和數(shù)據(jù),所有的這些都由計算機1000使用。多組件驅(qū)動器290從諸如CD或DVD之類的介質(zhì)295中讀出程序或數(shù)據(jù)。然后,從這些存儲設(shè)備中的任何一個中讀出的程序或數(shù)據(jù)被加載到RAM 240中,并由CPU 200使用??梢詮耐獠看鎯橘|(zhì)中的任何一個提供其中存儲了本發(fā)明的程序的介質(zhì)?;蛘?,可以通過內(nèi)部硬盤驅(qū)動器280或網(wǎng)絡(luò)下載,來提供介質(zhì)。優(yōu)選情況下,部分字符串列表125、有風(fēng)險的字符串列表132、附加了分數(shù)的部分字符串列表136和安全的字符串列表145存儲在硬盤驅(qū)動器250中。
上文介紹的程序可以存儲在外部存儲介質(zhì)中。除軟盤285和CD-ROM之外,還可以使用下列介質(zhì)作為存儲介質(zhì)如DVD或PD之類的光記錄介質(zhì)、諸如MD之類的磁光記錄介質(zhì)、磁帶介質(zhì)、諸如IC卡之類的半導(dǎo)體存儲器等等。此外,也可以通過使用諸如連接到專用通信網(wǎng)絡(luò)或因特網(wǎng)的服務(wù)器系統(tǒng)中提供的硬盤或RAM之類的存儲設(shè)備作為記錄介質(zhì),通過網(wǎng)絡(luò)獲取程序。根據(jù)以上配置的示例可以理解,包括普通的計算機功能的任何硬件都可用作本發(fā)明所需的硬件。例如,甚至移動終端、便攜式終端或家用電器都可以使用,而不會有任何問題。
順便說一句,圖2只不過概要顯示了實現(xiàn)了本實施例的計算機的硬件配置,可以采用任何其他各種配置,只要實施例適用于該配置即可。
圖3是顯示了分數(shù)計算部分130的比較詳細的配置的圖表?;谟刹糠肿址馕霾糠?20生成的部分字符串列表125,部分字符串制表部分310列出包括相應(yīng)的部分字符串的出現(xiàn)頻率的基本數(shù)據(jù)。
接下來,風(fēng)險計算部分330計算每一個部分字符串的風(fēng)險。風(fēng)險(R)是顯示了保密信息的泄露的風(fēng)險的數(shù)值,風(fēng)險是由對部分字符串的消除掩碼而產(chǎn)生的。如果該部分字符串在存儲在有風(fēng)險的字符串列表132中列出,則風(fēng)險被定義為“1”,否則,風(fēng)險被定義為“0”?;蛘撸梢允褂锰囟ㄖ笖?shù),指定部分字符串被定義為“有風(fēng)險的”的確定性因素。注意,有風(fēng)險的字符串列表是通過利用現(xiàn)有的人名、地名、公司名稱等等的詞典生成的。風(fēng)險計算部分330的輸出相對于每一個部分字符串,存儲在附加了分數(shù)的字符串列表136中。
分數(shù)計算部分340計算每一個部分字符串的分數(shù)。分數(shù)采用數(shù)值形式,顯示了部分字符串在文檔中的重要性如何?;诓糠肿址某霈F(xiàn)頻率(A)、部分字符串長度(B)、詞類名稱(C)和類別名稱(D)中的任何一個,以及上文所描述的風(fēng)險(R),計算部分字符串的分數(shù)。分數(shù)(S)的計算公式如下所示。注意,計算公式只是示范,可以依據(jù)文檔類型、檢查環(huán)境等等,進行改變。分數(shù)計算部分340的輸出存儲在附加了分數(shù)的字符串列表136中。
S=A×B×(C+D)+R圖4是顯示了部分字符串呈現(xiàn)部分140的比較詳細的配置的圖表。部分字符串顯示部分410讀取附加了分數(shù)的部分字符串列表136,并將相應(yīng)的部分字符串的分數(shù)、詞類、出現(xiàn)頻率、風(fēng)險和替換字符串顯示到顯示設(shè)備275中。雖然作為替換字符串的默認值預(yù)先提供了預(yù)先確定的字符串,但是,可以參考其中存儲了部分字符串的廣義術(shù)語的類別詞典142,選擇部分字符串的廣義術(shù)語作為替換字符串。部分字符串選擇/替換部分420從用戶那里接受所需要的部分字符串的消除掩碼的選擇,還接受替換字符串的校正。稍后將詳細地描述部分字符串呈現(xiàn)部分410和部分字符串選擇/替換部分420的用戶界面。接下來,在接收到部分字符串選擇/替換部分420的結(jié)果時,安全的字符串列表生成部分430生成最后的安全的字符串列表。生成的結(jié)果存儲在安全的字符串列表145中。
圖5是以流程圖的形式顯示了安全的字符串列表生成部分430的處理的圖表。首先,將描述生成的安全的字符串列表145的內(nèi)部格式。安全的字符串列表145是對其不需要替換過程的安全的字符串的列表。另外,可以用條件指定安全的字符串,例如,以這樣的方式指定,“指定的某一個字符串并不始終是安全的字符串,但在出現(xiàn)在某一字符串的旁邊的情況下是安全的字符串?!毕旅妫瑢⑹痉稐l目的名稱,以及條目的含義。
條目名稱 條目的含義Internet ″Internet″恒為安全字符串Internet{connection(a noun)} 當名詞″connection″出現(xiàn)在″Internet″之后時為安全字符串;{wo(a Japanese postposition)}Internet 當日語后置詞″wo″出現(xiàn)在″Internet″之后時為安全字符串;{a postposition Internet{a postposition} 當后置詞分別出現(xiàn)在″Internet″之前或之后時為安全字符串在步驟510中,搜索未檢查的字符串,以查找具有最高分數(shù)的部分字符串Wi。在步驟520中,提示用戶基于諸如字符串Wi的詞類和風(fēng)險之類的信息,確定字符串Wi在任何上下文中是否是安全的。如果字符串Wi在任何上下文中都是安全的,處理移到步驟530,在該步驟中,在安全的字符串列表145中注冊部分字符串Wi。如果字符串Wi不安全,則向用戶顯示出詳細信息顯示屏幕615,如此,提示用戶通過考慮部分字符串Wi的環(huán)境信息,對安全圖案的消除掩碼進行確認。一旦用戶通過引用字符串Wi的環(huán)境信息確認了,部分字符串Wi是安全的字符串,則利用條件將部分字符串Wi存儲在安全的字符串列表145中。此后,處理移到步驟540。如果用戶確定部分字符串Wi是不安全的,則從那些待消除掩碼的部分字符串中排除部分字符串Wi。在步驟540中,確定是否滿足了終止條件。根據(jù)應(yīng)該檢查的許多部分字符串,另外,還根據(jù)消除掩碼速率,確定處理終止。
圖6和7是顯示了部分字符串呈現(xiàn)部分140的用戶界面的顯示屏幕的示例。主要有兩種呈現(xiàn)給用戶的顯示屏幕。一種顯示屏幕是如圖6所示的部分字符串檢查主屏幕605,另一種顯示屏幕是如圖7所示的詳細信息顯示屏幕615。此外,部分字符串檢查主屏幕605由三個區(qū)域構(gòu)成,它們是部分字符串信息顯示部分610、篩選條件部分620和篩選執(zhí)行部分630。部分字符串信息顯示部分610包括選擇/取消選擇消除掩碼、部分字符串、替換字符串、詞類、類別的名稱、分數(shù)、出現(xiàn)頻率、風(fēng)險,以及詳細信息顯示按鈕,相應(yīng)地,用戶可以對于所有部分字符串作出消除掩碼的選擇或取消選擇。另外,作為替換字符串,準備了默認字符(圖6中的實心的方框)。然而,如果發(fā)現(xiàn)在類別詞典142中存在某一部分字符串的廣義術(shù)語,則通過使用類別詞典,作為部分字符串的替換字符串,呈現(xiàn)廣義術(shù)語。注意,替換字符串可以被編輯為用戶需要的字符串。根據(jù)分數(shù)的降序,呈現(xiàn)部分字符串。優(yōu)選情況下,其風(fēng)險值低于預(yù)先確定的值的部分字符串被視為安全的,如此,作為對其已經(jīng)作出了消除掩碼的選擇的那些部分字符串顯示出來。用戶可以通過選擇對應(yīng)的詳細信息按鈕615來知道任何部分字符串的詳細信息。用戶可以通過在篩選條件部分620輸入搜索關(guān)鍵字限制部分字符串。另外,利用篩選執(zhí)行部分630,用戶可以將樣本顯示650顯示出來。篩選執(zhí)行部分630中的消除掩碼率指出文檔中的多大百分比的字符不進行掩碼(替換)。
當用戶選擇一個部分字符串的詳細信息按鈕615時,顯示出如圖7所示的該部分字符串的比較詳細的信息。在圖7中,對于部分字符串“Internet”,顯示了環(huán)境信息和消除掩碼的選擇。此外,通過選擇原始句子顯示按鈕715,在原始句子窗口740中顯示了部分字符串的原始句子。如上文所描述的,在本發(fā)明中,通過引用相應(yīng)的情況的環(huán)境信息(上下文),甚至對于單個部分字符串“因特網(wǎng)”的情況,也可以設(shè)置分別地消除掩碼。用戶可以通過在顯示設(shè)置條件部分720中輸入搜索關(guān)鍵字,限制詳細信息顯示部分710中的內(nèi)容。另外,作為制表的方式,用戶可以通過選擇部分字符串、詞類或類別,改變顯示部分字符串的順序。這里,每一個類別都具有部分字符串作為其元素,并具有對應(yīng)于相應(yīng)的類別的內(nèi)容的類別名稱。下面將顯示類別名稱的示例,以及對應(yīng)的類別中包含的元素的示例。
類別的名稱 元素Notebook computer B series 01,B series 02另外,作為制表的方式,用戶可以通過選擇基于部分字符串的制表、基于詞類的制表和基于類別的制表,改變顯示部分字符串的順序。這里,每一個類別都具有部分字符串作為其元素,并具有對應(yīng)于相應(yīng)的類別的內(nèi)容的類別名稱。下面將顯示類別名稱的示例,以及對應(yīng)的類別中包含的元素的示例。
類別的名稱 元素Notebook computer B series 01,B series 02。
另外,還可以利用被設(shè)置為節(jié)點的相應(yīng)的類別生成樹形結(jié)構(gòu)來管理類別。在此情況下,在生成的樹形結(jié)構(gòu)中,充當父節(jié)點的每一個類別包括充當子節(jié)點的類別的元素。下面顯示了類別的樹形結(jié)構(gòu)的示例·Desktop computer={A series 01,A series 02}·Notebook computer={B series 01,B series 02}·Peripheral apparatuses={printer,scanner}·Computer={A series 01,A series 02,B series 01,Bseries 02}·Products={A series 01,A series 02,B series 01,Bseries 02,printer,scanner}以如上文所描述的樹形結(jié)構(gòu)的形式管理的類別存儲在本發(fā)明中所使用的類別詞典142中,從而,與概念詞典的情況相同,作為替換字符串,呈現(xiàn)含義更廣的類別。雖然可以作為替換字符串按原樣接受類別,但是,毫無疑問,也可以根據(jù)用戶的指令,相應(yīng)地改變它們。在通過詳細信息顯示部分710或顯示設(shè)置條件部分720完成選擇之后,通過處理執(zhí)行部分730保存設(shè)置。此后,顯示返回到部分字符串檢查主屏幕605。
本發(fā)明的文檔掩碼方法可以使工資大大地降低,因為利用該方法,可以預(yù)先檢查制表的部分字符串,而不是按照在文檔中出現(xiàn)的順序來檢查部分字符串。
作為實際示例,將本發(fā)明應(yīng)用于呼叫中心的日志。結(jié)果,從具有大約具有3百萬字符的整個文檔中提取大約1800萬部分字符串。在按照其分數(shù)的降序檢查了大約3萬的唯一部分字符串的情況下,檢查了分數(shù)中的前1400個部分字符串(4.7%)意味著檢查了整個文檔的80%。在此情況下,檢查了分數(shù)中的前3800個部分字符串(12.7%)意味著檢查了整個文檔的90%。接下來,假設(shè)沒有應(yīng)該被掩碼的部分字符串存在,進行研究,以知道應(yīng)該消除掩碼多少字符串才能獲得可使用的信息。結(jié)果,隨著消除掩碼的部分字符串的比率增加,文檔的信息逐漸變得可理解,并且確認,當消除掩碼了所有字符串的80%到90%時,有充分可使用的信息出現(xiàn)。實際上,在對部分字符串消除掩碼時,需要注意到可能會是有風(fēng)險的字符串的部分字符串。盡管如此,在比較下列兩種情況時,第一種情況按出現(xiàn)的順序檢查1800萬部分字符串,另一種情況是,檢查大約4000個字符串,顯然,后一種情況,即,本發(fā)明的方法可以使工資保持在較低的水平。下面顯示本發(fā)明的示例。
例如,為了利用客戶支持中心等等中的呼叫日志,在計劃市場營銷策略時,通過安全地在短時間內(nèi)對其中的保密信息進行掩碼,使呼叫日志可使用。在這種情況下,可以利用本發(fā)明。首先,在通過使用本發(fā)明對呼叫日志進行掩碼之前,將發(fā)現(xiàn)沒有風(fēng)險的部分字符串存儲在安全的字符串列表145中。
為了能使更多的人讀取由某一社區(qū)共享的文檔,或發(fā)送到郵件名單的郵件,可以利用本發(fā)明來進行掩碼。具體來說,在此情況下,預(yù)先將人名和公司名稱之類的部分字符串存儲在有風(fēng)險的字符串列表132中。例如,在安全地對文檔進行掩碼之后,在遵照信息透露系統(tǒng)透露了保密文檔的情況下,可以認為利用本發(fā)明是可以的。
在醫(yī)學(xué)站點,本發(fā)明適用于對決策系統(tǒng)的研究,決策系統(tǒng)用于通過收集諸如病人的病歷之類的信息,確定應(yīng)該給予病人什么樣的治療。由于病歷包括高度秘密的個人信息,因此,必須從那里提取諸如疾病名稱、檢查的項目以及其結(jié)果、給予的藥物、治療的結(jié)果之類的信息,同時對那些可以用來確定地確定一個人是病人的字符串進行掩碼。在此情況下,通過使用包括列出了疾病名稱和藥物的技術(shù)名詞詞典,預(yù)先生成安全的字符串列表145。另外,將人名或單位名稱之類的部分字符串存儲在有風(fēng)險的字符串列表132中,以便利用本發(fā)明的方法對文檔執(zhí)行掩碼。
權(quán)利要求
1.一種處理文檔中的字符串的方法,包括下列步驟將文檔中的一個字符串解析為多個部分字符串;對于每一個部分字符串,計算包含部分字符串的出現(xiàn)頻率的分數(shù);向用戶呈現(xiàn)部分字符串和分數(shù);確定用戶選擇了哪些部分字符串;將所選擇的部分字符串存儲為安全的部分字符串列表;以及用預(yù)先確定的替換字符串替換排除安全部分字符串列表中存在的部分字符串的部分字符串。
2.根據(jù)權(quán)利要求1所述的方法,其中,每一個部分字符串都是詞素。
3.根據(jù)權(quán)利要求1所述的方法,呈現(xiàn)步驟是根據(jù)分數(shù)的降序向用戶呈現(xiàn)部分字符串和分數(shù)的步驟。
4.根據(jù)權(quán)利要求1所述的方法,其中,計算步驟是通過在計算中包含部分字符串的出現(xiàn)頻率和字符串長度,對于每一個部分字符串,計算分數(shù)的步驟。
5.根據(jù)權(quán)利要求1所述的方法,其中,計算步驟是通過在計算中使用出現(xiàn)頻率和字符串長度,以及數(shù)值形式的詞類和數(shù)值形式的類別名稱二者中的任何一個,對于每一個部分字符串計算分數(shù),其中所述詞類和類別名稱都是字符串的,類別名稱是字符串所屬的組。
6.根據(jù)權(quán)利要求1所述的方法,進一步包括,對于每一個部分字符串,計算部分字符串被視為有風(fēng)險的字符串的風(fēng)險,其中,呈現(xiàn)步驟是向用戶呈現(xiàn)部分字符串、分數(shù)以及部分字符串的風(fēng)險的步驟。
7.根據(jù)權(quán)利要求6所述的方法,其中,對于預(yù)先存儲了有風(fēng)險的字符串的有風(fēng)險的字符串列表中包括的部分字符串,風(fēng)險被計算為較高的值。
8.根據(jù)權(quán)利要求6所述的方法,其中,呈現(xiàn)步驟進一步包括,作為已經(jīng)選擇的部分字符串,呈現(xiàn)部分字符串,每一個部分字符串的風(fēng)險的值都低于預(yù)定的值。
9.根據(jù)權(quán)利要求1所述的方法,其中,呈現(xiàn)步驟進一步包括呈現(xiàn)相應(yīng)的部分字符串的替換字符串。
10.根據(jù)權(quán)利要求9所述的方法,其中,呈現(xiàn)步驟進一步包括通過使用其中存儲了部分字符串的廣義術(shù)語的類別詞典,作為替換字符串,呈現(xiàn)部分字符串的廣義術(shù)語。
11.根據(jù)權(quán)利要求10所述的方法,其中,確定步驟進一步包括接受對替換字符串的編輯。
12.一種字符串處理設(shè)備,包括處理文檔中的字符串的裝置,包括下列裝置將文檔中的一個字符串解析為多個部分字符串的裝置;對于每一個部分字符串,計算包含部分字符串的出現(xiàn)頻率的分數(shù)的裝置;向用戶呈現(xiàn)部分字符串和分數(shù)的裝置;確定用戶選擇了哪些部分字符串的裝置;將所選擇的部分字符串存儲為安全的部分字符串列表的裝置;以及用預(yù)先確定的替換字符串替換排除安全部分字符串列表中存在的部分字符串的部分字符串的裝置。
全文摘要
公開了字符串處理方法以及設(shè)備,以提供對文檔進行掩碼的有效的方法。為了解決上述問題,作為第一個方面,說明了一種方法,包括下列步驟將文檔中的一個字符串解析為多個部分字符串;對于每一個部分字符串,計算包含部分字符串的出現(xiàn)頻率的分數(shù);向用戶呈現(xiàn)部分字符串和分數(shù);確定用戶選擇了哪些部分字符串;將所選擇的部分字符串存儲為安全的部分字符串列表;以及用預(yù)先確定的替換字符串替換部分字符串,但安全的部分字符串列表中存在的部分字符串除外。
文檔編號G06F17/28GK1987848SQ20061014840
公開日2007年6月27日 申請日期2006年11月14日 優(yōu)先權(quán)日2005年12月22日
發(fā)明者伊川洋平, 金山博, 宅間大介 申請人:國際商業(yè)機器公司