欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于處理數(shù)據(jù)的系統(tǒng)和方法

文檔序號:6372659閱讀:216來源:國知局
專利名稱:用于處理數(shù)據(jù)的系統(tǒng)和方法
技術(shù)領(lǐng)域
本公開的領(lǐng)域總體涉及數(shù)據(jù)分析,尤其是涉及處理未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)以生成結(jié)構(gòu)化數(shù)據(jù),以便由應(yīng)用程序處理。正如本文所使用的,未結(jié)構(gòu)化數(shù)據(jù)指為自由形式以及基于生成該數(shù)據(jù)人員的語法/語言而變化的數(shù)據(jù)。
背景技術(shù)
在數(shù)據(jù)分析系統(tǒng)中,數(shù)據(jù),例如未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本或其他數(shù)據(jù)類型(例如字母數(shù)字串和非字母數(shù)字?jǐn)?shù)據(jù)(圖像、元數(shù)據(jù)等))在被添加到系統(tǒng)之前,常常需要被處理和/或組織成更結(jié)構(gòu)化的形式。然而,從未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化數(shù)據(jù)中識別、語法分析和提取相關(guān)信息會是困難的和耗時的。利用類屬語法分析器(generic parsers)和/或提取器(extractor)來識別這類信息,數(shù)據(jù)會被忽略、錯誤識別和/或不適當(dāng)?shù)亟鈽?gòu)。為了糾正這些錯誤,常常編寫專用代碼以正確地識別該信息。然而,編寫和實(shí)現(xiàn)這類專用代碼會是耗時的,而且得到的代碼僅適用特定情形。進(jìn)一步地,定期更新未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化數(shù)據(jù)會加重這些問題,因?yàn)槠湟肓丝赡苄枰渌麑S么a的新情形。進(jìn)一步地,專用代碼通常僅能由有經(jīng)驗(yàn)的人員編寫和更新。也可以實(shí)現(xiàn)自然語言方法來處理和/或組織未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)。然而,根據(jù)未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)的來源,自然語言在組織未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)時可能不是有效的。進(jìn)一步的,自然語言方法要求需要本體論(ontology)專家和數(shù)據(jù)挖掘?qū)<遥员阏_地編程和更新。最后,可以使用人工智能工具(例如基于規(guī)則的系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和/或Bayesian網(wǎng)絡(luò))來處理和/或組織未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)。然而這些系統(tǒng)也要求有經(jīng)驗(yàn)的人員來實(shí)現(xiàn)和/或更新。

發(fā)明內(nèi)容
一方面,提供了用于處理至少部分未結(jié)構(gòu)化數(shù)據(jù)的方法。該方法包括在數(shù)據(jù)處理工具從至少一個數(shù)據(jù)源接收至少部分未結(jié)構(gòu)化數(shù)據(jù)并處理該至少部分未結(jié)構(gòu)化數(shù)據(jù)以生成包括標(biāo)簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù),其中標(biāo)簽化數(shù)據(jù)包括至少一個感興趣的項(xiàng)目,以及其中處理該至少部分未結(jié)構(gòu)化數(shù)據(jù)包括以下中的至少一個利用關(guān)聯(lián)存儲器應(yīng)用程序來處理該至少部分未結(jié)構(gòu)化數(shù)據(jù);以及利用正則表達(dá)式處理程序來處理該至少部分未結(jié)構(gòu)化數(shù)據(jù)。該方法進(jìn)一步包括傳送至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序,并且至少部分基于標(biāo)簽化數(shù)據(jù)合并至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,其中合并至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標(biāo)簽的存在、內(nèi)容和/或類型來進(jìn)行以下中的至少一個包括數(shù)據(jù)和排除數(shù)據(jù)。另一方面,提供了一種具有體現(xiàn)在其上的計算機(jī)可執(zhí)行指令的一個或更多計算機(jī)可讀存儲介質(zhì)。當(dāng)由至少一個處理器執(zhí)行時,計算機(jī)可執(zhí)行指令使該至少一個處理器在數(shù)據(jù)處理工具處從至少一個數(shù)據(jù)源接收至少部分未結(jié)構(gòu)化數(shù)據(jù),并處理至少部分未結(jié)構(gòu)化數(shù)據(jù)以生成包括標(biāo)簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù),其中標(biāo)簽化數(shù)據(jù)包括至少一個感興趣的項(xiàng)目,并且其中處理至少部分未結(jié)構(gòu)化數(shù)據(jù),計算機(jī)可執(zhí)行指令使處理器執(zhí)行以下中的至少一個利用關(guān)聯(lián)存儲器的應(yīng)用程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù);以及利用正則表達(dá)式處理程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù)。該指令進(jìn)一步使至少一個處理器傳送至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,并且至少部分基于標(biāo)簽化數(shù)據(jù)合并至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,其中合并至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標(biāo)簽的存在進(jìn)行以下中的至少一個包括數(shù)據(jù)和排除數(shù)據(jù)。 在又一個方面,提供了一種用于處理至少部分未結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)。該系統(tǒng)包括處理裝置、通信耦合到處理裝置的用戶接口以及通信耦合到處理裝置的存儲器和通信耦合到處理裝置的通信接口中的至少一個。處理裝置被編程為從存儲器和通信接口中的至少一個接收至少部分未結(jié)構(gòu)化數(shù)據(jù);利用在其上執(zhí)行的數(shù)據(jù)處理工具來通過以下中的至少一個處理至少部分未結(jié)構(gòu)化數(shù)據(jù)以生成包括標(biāo)簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù),標(biāo)簽化數(shù)據(jù)包括至少一個感興趣的項(xiàng)目利用在其上執(zhí)行的關(guān)聯(lián)存儲器應(yīng)用程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù);和利用在其上執(zhí)行的正則表達(dá)式處理程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù);以及基于標(biāo)簽化合并至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序中,其中合并至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標(biāo)簽的存在來進(jìn)行以下中的至少一個包括數(shù)據(jù)和排除數(shù)據(jù)。已經(jīng)討論的特征、功能和優(yōu)點(diǎn)可以在各種實(shí)施例中獨(dú)立實(shí)現(xiàn)或可以在其他實(shí)施例中組合,其進(jìn)一步細(xì)節(jié)可以參考下列描述和繪圖看出。


圖I是用于處理文本的方法的流程圖。圖2A-2D是圖解說明在圖I示出的方法的圖示。圖3是用于對未結(jié)構(gòu)化文本標(biāo)簽化以生成結(jié)構(gòu)化文本的示例性方法的流程圖。圖4是圖解說明利用正則表達(dá)式處理程序來標(biāo)簽化未結(jié)構(gòu)化文本的示例性方法的圖示。圖5是圖解說明利用關(guān)聯(lián)存儲器應(yīng)用程序來標(biāo)簽化未結(jié)構(gòu)化文本的示例性方法的圖示。圖6是利用關(guān)聯(lián)存儲器應(yīng)用程序來識別和標(biāo)簽化未結(jié)構(gòu)化文本的示例性方法的圖示。圖7是用于生成識別得分的示例性方法的流程圖。圖8A-圖SC是識別和選擇錯誤識別的文本的示例性用戶接口的實(shí)施例。圖9是示例性文本處理系統(tǒng)的框圖。圖10是數(shù)據(jù)處理系統(tǒng)的圖示。
具體實(shí)施例方式本文所述的方法和系統(tǒng)涉及可能在數(shù)據(jù)源(例如,文本文件、數(shù)據(jù)庫字段(database field))中發(fā)現(xiàn)的感興趣項(xiàng)目的識別。雖然本文所述的示例和實(shí)施例涉及文本處理,但是應(yīng)當(dāng)理解,實(shí)施例不應(yīng)該解釋為如此限制。描述文本處理的示例和實(shí)施例是為了清晰起見。本文使用的示例無意被視為限制性的,而僅僅用作說明性示例。更確切說,這里描述的實(shí)施例涉及包括任何類型信息和/或數(shù)據(jù)的處理,包括文本、字母數(shù)字?jǐn)?shù)據(jù)(alphanumeric data)、嵌入式對象、圖像、元數(shù)據(jù)、視頻、音頻、多媒體和所有類型的數(shù)據(jù)和信息流中的一個或多個,而不限于任何特定形式或類型的這類數(shù)據(jù)和信息。因此該方法和系統(tǒng)涉及,例如利用數(shù)據(jù)處理工具來提供數(shù)據(jù)的標(biāo)簽化,這給數(shù)據(jù)提供了 “結(jié)構(gòu)”,以及發(fā)生在處理期間的數(shù)據(jù)的任何結(jié)構(gòu)化的驗(yàn)證。雖然本文做了進(jìn)一步描述,但是應(yīng)當(dāng)理解,實(shí)施例不僅涉及在文件內(nèi)的未結(jié)構(gòu)化數(shù)據(jù)的“結(jié)構(gòu)化”,而且涉及包含部分結(jié)構(gòu)化數(shù)據(jù)的文件的進(jìn)一步結(jié)構(gòu)化。為了進(jìn)一步清晰起見,正如本文所使用的,未結(jié)構(gòu)化數(shù)據(jù)是指通常由人員輸入的數(shù)據(jù),例如文本,其為自由形式并且基于該人的語法/語言而變化。例如,電子郵件和注記字段通常使用戶能夠輸入自由形式的響應(yīng)。進(jìn)一步地,正如本文所使用的,若數(shù)據(jù)中的信息被標(biāo)簽化或以有組織化方式調(diào)用(call out),那么結(jié)構(gòu)化數(shù)據(jù)被稱為結(jié)構(gòu)化的和/或部分結(jié)構(gòu)化的。前述將標(biāo)簽添加到文件內(nèi)感興趣的項(xiàng)目類似于將文件內(nèi)的數(shù)據(jù)結(jié)構(gòu)化。與現(xiàn)有的數(shù)據(jù)處理方法相比,這類實(shí)施例提供了改進(jìn)的效率和性能。正如本文進(jìn) 一步所述的,可以利用關(guān)聯(lián)存儲器應(yīng)用程序(associative memory application)和/或正則表達(dá)式處理程序中的一個或兩者來識別數(shù)據(jù)內(nèi)的感興趣項(xiàng)目,通過標(biāo)簽化來結(jié)構(gòu)化數(shù)據(jù)內(nèi)的感興趣項(xiàng)目,以及驗(yàn)證數(shù)據(jù)內(nèi)的感興趣項(xiàng)目。關(guān)聯(lián)存儲器包括多個數(shù)據(jù)和該多個數(shù)據(jù)之間的多個聯(lián)合。關(guān)聯(lián)存儲器應(yīng)用程序還指代利用關(guān)聯(lián)存儲器引擎將數(shù)據(jù)源合并在一起從而創(chuàng)建的關(guān)聯(lián)存儲器。關(guān)聯(lián)存儲器引擎是控制關(guān)聯(lián)存儲器創(chuàng)建、維護(hù)和存取的應(yīng)用程序,類似于數(shù)據(jù)庫軟件如何控制多個數(shù)據(jù)庫。關(guān)聯(lián)存儲器包括與其他實(shí)體和屬性相關(guān)和/或關(guān)聯(lián)的實(shí)體和屬性。實(shí)體是在感興趣的特定項(xiàng)目的關(guān)聯(lián)存儲器中的實(shí)例,屬性是關(guān)聯(lián)的實(shí)體的特性和/或描述。關(guān)聯(lián)存儲器記住屬性、實(shí)體以及他們之間的聯(lián)合。進(jìn)一步地,在未結(jié)構(gòu)化數(shù)據(jù)和/或部分結(jié)構(gòu)化數(shù)據(jù)被處理成進(jìn)一步結(jié)構(gòu)化的數(shù)據(jù)后,任何由數(shù)據(jù)處理工具已經(jīng)錯誤識別的數(shù)據(jù)能夠被識別。錯誤識別(不正確標(biāo)簽化)的數(shù)據(jù)的這類實(shí)例用于改進(jìn)和改善數(shù)據(jù)處理工具對進(jìn)一步數(shù)據(jù)樣本的識別、處理和驗(yàn)證的能力。正如本文所使用的,錯誤識別的數(shù)據(jù)是指被不正確標(biāo)簽化的數(shù)據(jù)和/或不正確地未標(biāo)簽化的數(shù)據(jù)(即,在處理期間應(yīng)該已被標(biāo)簽化的未識別的數(shù)據(jù),但不是例如之前沒有被識別為需要被標(biāo)簽化而后來發(fā)現(xiàn)需要標(biāo)簽化的數(shù)據(jù))。進(jìn)一步地,在某些實(shí)施例中,用戶接口使得用戶能夠識別和選擇錯誤識別的數(shù)據(jù),而不要求用戶熟悉復(fù)雜的數(shù)據(jù)處理方法和系統(tǒng)和/或關(guān)聯(lián)存儲器系統(tǒng)和正則表達(dá)式處理程序。由于本文所描述的方法和系統(tǒng)中的至少某些不要求專門人員維護(hù)和/或更新數(shù)據(jù)處理工具,因此本文所描述的方法和系統(tǒng)有利于降低與已知數(shù)據(jù)分析系統(tǒng)相關(guān)的成本。圖I是圖解說明用于文本處理的方法100的流程圖。方法100包括識別102待處理的文本,例如,如上所述的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本。在未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本中識別104感興趣的項(xiàng)目。例如,在一個實(shí)施例中,客戶可以可視化地識別104對數(shù)據(jù)分析員感興趣的項(xiàng)目。接著,標(biāo)簽化106感興趣的項(xiàng)目以至少部分結(jié)構(gòu)化該文本??梢岳檬止せ蜃詣舆M(jìn)程標(biāo)簽化106感興趣的項(xiàng)目。驗(yàn)證108得到的包括標(biāo)簽的結(jié)構(gòu)化文本(和/或部分結(jié)構(gòu)化文本)該標(biāo)簽給文本提供結(jié)構(gòu)(如下面進(jìn)一步描述)。驗(yàn)證108可以包括將結(jié)構(gòu)化文本顯示在耦合到文本處理系統(tǒng)的一個或更多部件的用戶接口上,并且觀察給文本提供結(jié)構(gòu)的各種標(biāo)簽。通過觀察這類標(biāo)簽,能夠快速驗(yàn)證是否正確地標(biāo)簽化未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本。進(jìn)一步地,在某些實(shí)施例中,可以由用戶選擇已經(jīng)被不正確地標(biāo)簽化或未標(biāo)簽化的文本,并將其用于更新正被使用的一個或更多文本處理工具。在驗(yàn)證108結(jié)構(gòu)化文本后,釋放110該結(jié)構(gòu)化文本,以便進(jìn)一步處理。釋放的文本可以被傳送到任何合適的數(shù)據(jù)挖掘應(yīng)用程序和/或數(shù)據(jù)處理應(yīng)用程序,其基于標(biāo)簽化來處理和/或合并該結(jié)構(gòu)化文本。例如,該結(jié)構(gòu)化文本可以被傳送到主應(yīng)用程序,如下面進(jìn)一步描述的。圖2A-2D是圖解說明處理未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的示例性方法的圖示,其通過以下步驟進(jìn)行識別感興趣的項(xiàng)目并相應(yīng)地標(biāo)簽化它們,由此給文本提供結(jié)構(gòu)或額外結(jié)構(gòu)。該方法可以利用各種文本處理方法和系統(tǒng)來實(shí)現(xiàn)。圖2A包括在其原始形式的未結(jié)構(gòu)化文本202的樣本。未結(jié)構(gòu)化文本202和/或部分結(jié)構(gòu)化文本(未在圖2示出)可以被存儲在例如數(shù)據(jù)源中。為了清晰起見,在圖2B中,以粗體字示出在未結(jié)構(gòu)化文本202中 的多個感興趣的項(xiàng)目204。在示例性實(shí)施例中,感興趣的項(xiàng)目204包括在未結(jié)構(gòu)化文本202中的作者、年份、大學(xué)名稱、城市、零件號以及書名。在文本樣本包括部分未結(jié)構(gòu)化文本的實(shí)施例中,可能已經(jīng)標(biāo)簽化了某些感興趣的項(xiàng)目。例如,雖然之前已經(jīng)標(biāo)簽化了作者和年份,但是仍然需要標(biāo)簽化大學(xué)名稱。替換地,感興趣的項(xiàng)目204可以包括在如本文所述的通過標(biāo)簽化而可能被識別和處理的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本內(nèi)的任何類別和/或類型項(xiàng)目。例如,在本文所述的具體實(shí)施例中,感興趣的項(xiàng)目204包括動物、日期和/或樣板文件文本(boilerplate text)。應(yīng)當(dāng)理解,“樣板文件”是基于應(yīng)用領(lǐng)域來描述文本類別的通用術(shù)語,這些文本類別在風(fēng)格、格式和/或內(nèi)容上往往是類似的,特別是當(dāng)文本由多個源創(chuàng)建時。在一個應(yīng)用領(lǐng)域,樣板文件包括署名塊、法律免責(zé)聲明、專有標(biāo)記(proprietary markings)和/或電話會議信息。雖然在本文中常常稱為文本,但是應(yīng)當(dāng)明白,樣板文件還可以包括字母數(shù)字?jǐn)?shù)據(jù)、嵌入式對象(圖像、元數(shù)據(jù)等)中的一個或更多。在一個實(shí)施例中,客戶可以視覺地識別在未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本202中的感興趣的項(xiàng)目204。一旦感興趣的項(xiàng)目204被識別,就標(biāo)簽化感興趣的項(xiàng)目204,這使文本202結(jié)構(gòu)化和/或部分結(jié)構(gòu)化。在示例性實(shí)施例中,客戶例如利用用戶接口視覺地識別感興趣的項(xiàng)目204。該用戶接口可以耦合到文本處理系統(tǒng)的一個或更多組件。在一個實(shí)施例中,客戶向數(shù)據(jù)分析員描述感興趣的項(xiàng)目204。為了確定附加的感興趣的項(xiàng)目204是否應(yīng)該被標(biāo)簽化以進(jìn)一步結(jié)構(gòu)化該文本,數(shù)據(jù)分析員可以和客戶討論在未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本202中的模式和/或項(xiàng)目。接著,數(shù)據(jù)分析員利用同一用戶接口或利用耦合到文本處理系統(tǒng)的一個或更多組件的單獨(dú)的用戶接口標(biāo)簽化附加的感興趣的項(xiàng)目204。替換地,可以通過自動進(jìn)程來標(biāo)簽化感興趣的項(xiàng)目204以結(jié)構(gòu)化和/或部分結(jié)構(gòu)化該文本。在一個實(shí)施例中,自動進(jìn)程爬行(crawl)穿過適當(dāng)名詞、零件號和/或用于特定類型信息的任何其他值集合的已知列表。進(jìn)一步地,可以利用關(guān)聯(lián)存儲器應(yīng)用程序和/或正則表達(dá)式處理程序?qū)崿F(xiàn)自動進(jìn)程,如下所述。此外,自動進(jìn)程還可以利用基于本體論的方法識別這類值集合。在這樣的情況下,以及其他未在這里描述的情況下,可應(yīng)用的標(biāo)簽可以被應(yīng)用到在自動進(jìn)程期間未被覆蓋的得到的感興趣的項(xiàng)目204,以給這樣的文本添加結(jié)構(gòu)。在圖2C中,插入標(biāo)簽206以繼續(xù)進(jìn)行識別的感興趣的項(xiàng)目204,從而結(jié)構(gòu)化該文本。例如,包括日期標(biāo)簽可能是尤其重要的,而排除標(biāo)簽(exclude-tag)可能是不重要的。因此,這類標(biāo)簽206的存在指示至少部分結(jié)構(gòu)化文本207。例如,在結(jié)構(gòu)化文本207中,利用“author”標(biāo)簽 208 標(biāo)簽化“Henry David Thoreau”,利用“year”標(biāo)簽 210 標(biāo)簽化“ 1862”,以及利用“city”標(biāo)簽212標(biāo)簽化“Concord”。在圖2C示出的示例中,標(biāo)簽206還包括“part_number”標(biāo)簽214和“book_title”標(biāo)簽216。如上所解釋的,由數(shù)據(jù)分析員或通過使用自動進(jìn)程插入標(biāo)簽206到未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本202內(nèi)。這類標(biāo)簽的插入為文本生成了結(jié)構(gòu)。如圖2D所示,每個類型的標(biāo)簽206還可以包括唯一識別標(biāo)簽,或“i_標(biāo)簽”。標(biāo)簽和“i-標(biāo)簽”在形式上可以變化并使用不同的格式,包括使用HTML / XML類型標(biāo)簽或完全不同的格式。在圖2D中,i-標(biāo)簽以粗體字示出并具有形式“[ixx]”。在下述段落中分別引用圖2D中的各i_標(biāo)簽中的若干。i_標(biāo)簽使用戶(例如客戶和/或數(shù)據(jù)分析員)能夠確定每個標(biāo)簽206應(yīng)用到感興趣的項(xiàng)目204的良好程度。更具體地說,i-標(biāo)簽使用戶能夠快速確定給定的標(biāo)簽206是否成功地被應(yīng)用并且如所期望的那樣標(biāo)簽化感興趣的項(xiàng)目204,一個標(biāo)簽206的應(yīng)用是否和另一個應(yīng)用沖突,和/或一個標(biāo)簽206的應(yīng)用是否類似于另一 個標(biāo)簽206的應(yīng)用和/或是另一個標(biāo)簽206的應(yīng)用的復(fù)制品。為方便確定標(biāo)簽206的正確應(yīng)用,得到的結(jié)構(gòu)化文本207被顯示在耦合到文本處理系統(tǒng)的一個或更多組件的用戶接口上。例如,在圖2D 中,author 標(biāo)簽 208 包括 i_ 標(biāo)簽 “[i01]”,book_title 標(biāo)簽 216包括i_標(biāo)簽“ [i02] ”。author標(biāo)簽208和book_title標(biāo)簽216兩者都正確地標(biāo)簽化感興趣的項(xiàng)目204。然而,如圖2D所示,不正確的標(biāo)簽220錯誤識別在未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本202中的“1234-1”。即,包括i-標(biāo)簽“[i05]”的part_number標(biāo)簽214不正確地識別 “ 1234-1 ” 為短語 “The distance from his porch to the water’ s edgewasl234-1255feet”中的零件號。即,如在該短語中所使用的“1234-1”不是感興趣的項(xiàng)目204,并且不應(yīng)該被標(biāo)簽化為part_number標(biāo)簽214。另外,i_標(biāo)簽“ [il4] ”也緊挨著“1234-1”出現(xiàn),指示另一個標(biāo)簽206被應(yīng)用到該特定文本。通過在用戶接口上觀察不正確i-標(biāo)簽,數(shù)據(jù)分析員能夠迅速地確定包括i_標(biāo)簽“ [ 05] ”和“ [il4] ”的標(biāo)簽206中的至少一個操作不正確和/或不成功,并采取恰當(dāng)?shù)牟襟E糾正這個錯誤。一旦包括標(biāo)簽206的結(jié)構(gòu)化文本207 (其可以是僅部分結(jié)構(gòu)化)被驗(yàn)證(即,確定所有標(biāo)簽206操作正確),就釋放結(jié)構(gòu)化文本207,以便進(jìn)一步處理。在一個實(shí)施例中,用戶驗(yàn)證應(yīng)用程序數(shù)據(jù)源中的得到的結(jié)構(gòu)化文本以確定文本處理工具是否正確地處理來自主數(shù)據(jù)源的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本。若用戶驗(yàn)證文本被正確處理,則用戶釋放該文本(結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本)到應(yīng)用程序數(shù)據(jù)源中,使得主應(yīng)用(如本文進(jìn)一步描述)能夠合并該結(jié)構(gòu)化文本。若該用戶確定該文本被不正確地處理,則用戶更新處理工具數(shù)據(jù)源和/或處理工具以糾正任何文本處理錯誤和/或過失。在實(shí)施例中,驗(yàn)證和更新是自動的或部分自動的。圖3是用于標(biāo)簽化未結(jié)構(gòu)化文本以生成結(jié)構(gòu)化(或部分結(jié)構(gòu)化)文本的示例性方法的流程圖300。應(yīng)當(dāng)注意,根據(jù)接收的文本內(nèi)容和感興趣的項(xiàng)目,同一方法用于部分結(jié)構(gòu)化文本的進(jìn)一步標(biāo)簽化以進(jìn)一步結(jié)構(gòu)化該文本以及可能得到僅部分結(jié)構(gòu)化文本的未結(jié)構(gòu)化文本的標(biāo)簽化。為進(jìn)一步清晰起見,如本文所使用的,未結(jié)構(gòu)化文本是指通常由人員輸入的文本,其為自由形式并且基于該人員的語法/語言而變化。例如,電子郵件和注記字段通常使用戶能夠輸入自由形式的響應(yīng)。進(jìn)一步地,正如本文所使用的,若文本中的信息被標(biāo)簽化或以組織方式調(diào)用,則文本被稱為結(jié)構(gòu)化的和/或部分結(jié)構(gòu)化的。在示例性實(shí)施例中,結(jié)構(gòu)化文本是指包括識別文本中信息的一個或更多標(biāo)簽的文本。為了處理,未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本被供應(yīng)給文本處理工具304。在本文所述的示例性實(shí)施例中,文本處理工具304包括正則表達(dá)式處理程序309和關(guān)聯(lián)存儲器引擎308內(nèi)的關(guān)聯(lián)存儲器應(yīng)用程序306中的一個或兩者,用于通過標(biāo)簽的插入結(jié)構(gòu)化未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本302,如本文詳細(xì)描述的。關(guān)聯(lián)存儲器應(yīng)用程序306包括關(guān)聯(lián)存儲器。如本文所使用的,關(guān)聯(lián)存儲器是指利用一個或更多數(shù)據(jù)源生成的信息儲藏。該信息儲藏包括與其他實(shí)體和屬性相關(guān)和/或關(guān)聯(lián)的實(shí)體和屬性。實(shí)體是在感興趣的特定項(xiàng)目的關(guān)聯(lián)存儲器中的實(shí)例,屬性是關(guān)聯(lián)實(shí)體的特性和/或描述。關(guān)聯(lián)存儲器應(yīng)用程序306使用戶能夠通過屬性與實(shí)體和/或?qū)嶓w類型的聯(lián)合兩者做相似度分析和執(zhí)行類比查詢。因此,關(guān)聯(lián)存儲器應(yīng)用程序306使得能夠發(fā)現(xiàn)之前未識別的屬性和實(shí)體之間的關(guān)聯(lián)。關(guān)聯(lián)存儲器引擎308使關(guān)聯(lián)存儲器應(yīng)用程序306能夠搜索關(guān)于存儲在關(guān)聯(lián)存儲器中的實(shí)體和實(shí)體關(guān)系的信息?!?br> 在示例性實(shí)施例中,文本處理工具304還包括正則表達(dá)式處理程序309,用于處理未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本302,如下面詳細(xì)描述。替換地,文本處理工具304可以僅包括關(guān)聯(lián)存儲器應(yīng)用程序306和正則表達(dá)式處理程序309中的一個。進(jìn)一步地,在某些實(shí)施例中,關(guān)聯(lián)存儲器應(yīng)用程序306或正則表達(dá)式處理程序309構(gòu)成完整的文本處理工具304。文本處理工具304利用關(guān)聯(lián)存儲器應(yīng)用程序306和/或正則表達(dá)式處理程序309來處理未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本302并且輸出結(jié)構(gòu)化文本310,如本文所述。圖4是圖解說明利用正則表達(dá)式處理程序(REPP) 400 (例如正則表達(dá)式處理程序309 (如圖3所示))來對未結(jié)構(gòu)化文本和或部分結(jié)構(gòu)化文本進(jìn)行標(biāo)簽化(結(jié)構(gòu)化)的圖示。REPP400可以和本文進(jìn)一步描述的系統(tǒng)一起使用。根據(jù)應(yīng)用,REPP400可以是文本處理工具的一個組件或可以構(gòu)成完整的文本處理工具。待處理的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本被存儲在源表格402中,該源表格可以是主數(shù)據(jù)源的一部分。未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本在源表格402中被組織為文本的列。在示例性實(shí)施例中,為了給未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本添加標(biāo)簽,用戶利用用戶接口選擇所期望的文本段,例如,用戶接口耦合到文本處理系統(tǒng)的一個或更多組件。某些實(shí)施例也允許用戶簡單地手工編輯源以添加標(biāo)簽。選擇的文本段從源表格402傳送到REPP400,以便處理添加標(biāo)簽到文本,并因此添加結(jié)構(gòu)到文本。替換地,未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的段和/或列可以從源表格402自動地傳送到REPP400 (即用戶沒有選擇文本)。REPP400可以由嵌在計算機(jī)可讀介質(zhì)中的可執(zhí)行指令編程。在REPP400,一個或更多源正則表達(dá)式模式(SREP)404被應(yīng)用到選擇的文本段和/或列。在示例性實(shí)施例中,SREP404被存儲在處理工具數(shù)據(jù)源中。在SREP404中的正則表達(dá)式是在大多數(shù)編程語言(例如,Java, PERL)中可用的標(biāo)準(zhǔn)字母數(shù)字字符和非字母數(shù)字字符,其用于匹配文本中的一系列字符。在示例性實(shí)施例中,給定的SREP404包含包括四種類型實(shí)體的行捕捉所期望系列字符的正則表達(dá)式模式;替換模式;REPP400用來執(zhí)行特定動作(例如,遞歸應(yīng)用具體模式)的特殊字符;記載給定的SREP404的目的任務(wù)的注記字段。REPP400在SREP404中讀取,按從頂部到底部的順序應(yīng)用每個SREP404行,并輸出輸出表格406和輸出HTML頁408中的至少一個。在某些實(shí)施例中,如本文進(jìn)一步描述,輸出表格406是應(yīng)用程序數(shù)據(jù)源的一部分。在示例性實(shí)施例中,輸出表格406和HTML頁408兩者具有數(shù)據(jù)列,其包含如輸出HTML頁408的“MODIFIED”列中所示的標(biāo)簽化文本,該標(biāo)簽化文本在本文稱為結(jié)構(gòu)化文本。如上所述,SREP404匹配并標(biāo)簽化選擇的文本中的預(yù)定模式以提供這種文本的結(jié)構(gòu)化。例如,在圖4中,Animal SREP匹配并標(biāo)簽化文本段中的動物名稱,Date SREP匹配并標(biāo)簽化文本段中的四個字符作為年份。Animal SREP和Date SREP是可以應(yīng)用于一個實(shí)施例的SREP的具體示例。應(yīng)當(dāng)明白,Animal SREP和Date SREP不是必然地關(guān)聯(lián)在404中示出的類屬SREP示例(例如,模式I,模式2 )。接著,標(biāo)簽化的文本段被傳送到輸出表格406和/或輸出HTML頁408。在示例性實(shí)施例中,用戶利用用戶接口選擇是否傳送標(biāo)簽化的文本段到輸出表格406和/或輸出HTML頁408。進(jìn)一步地,在一個實(shí)施例中,結(jié)構(gòu)化的文本段被傳送到應(yīng)用程序,以便進(jìn)一步處理。在下述的一個示例中,應(yīng)用程序至少部分基于置入文本中的標(biāo)簽來合并結(jié)構(gòu)化文本。例如,應(yīng)用程序可以包括或排除某些標(biāo)簽化單詞和/或短語。
輸出HTML頁408顯示應(yīng)用SREP404到未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本段的結(jié)果。例如,在圖4中,輸出HTML頁408示出,“fox”在文本410的第一段中被標(biāo)簽為animal,“1942”在文本412的第二段中被標(biāo)簽為year。在一個實(shí)施例中,輸出HTML頁408被顯示在顯示裝置的用戶接口上。通過觀察輸出HTML頁408,該用戶能夠確定結(jié)構(gòu)化文本的任何段是否被正確地標(biāo)簽化。在某些實(shí)施例中,利用該用戶接口,錯誤識別的文本能夠用于更新SREP404,例如,SREP404將被更新以糾正生成不正確標(biāo)簽的一個或更多現(xiàn)有模式。例如,當(dāng)用戶識別和/或選擇錯誤識別的文本時,該錯誤識別的文本能夠用于修改現(xiàn)有的SREP404和/或創(chuàng)建要被應(yīng)用于新的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的新的SREP404。在示例性實(shí)施例中,每個SREP404包括唯一識別標(biāo)簽,或“ i_標(biāo)簽”。該“ i_標(biāo)簽”使用戶能夠確定在REPP400操作期間每個SREP404工作得如何。更具體地說,該i_標(biāo)簽使用戶能夠確定給定的SREP404是否成功匹配并標(biāo)簽化所希望的文本段,確定一個SREP404是否和另一個SREP404的運(yùn)行沖突,和/或確定一個SREP404執(zhí)行的操作是否類似于另一個SREP404操作和/或是另一個SREP404操作的復(fù)制。例如,在圖4中,Animal SREP包括i_標(biāo)簽“ [i21] ”,Date SREP包括i_標(biāo)簽“[i22]”。因此,在輸出HTML頁408中,第一文本段410包括“ [i21] ”,其指示利用AnimalSREP標(biāo)簽化第一文本段410,第二文本段412包括“ [i22] ”,其指示利用Date SREP標(biāo)簽化第二文本段412。雖然在示出的實(shí)施例中,兩個SREP404用于應(yīng)用標(biāo)簽到未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本,但是可以應(yīng)用使REPP400能夠起如本文所述的作用的任何數(shù)量的SREP。圖5是圖解說明關(guān)聯(lián)存儲器應(yīng)用程序500 (例如關(guān)聯(lián)存儲器應(yīng)用程序306)如何識別和標(biāo)簽化未結(jié)構(gòu)化文本以提供結(jié)構(gòu)化文本結(jié)果的圖示。在示例性實(shí)施例中,未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本被存儲在數(shù)據(jù)源中的一列或更多列中。該未結(jié)構(gòu)化文本可以被分開成多個列,使得該未結(jié)構(gòu)化文本被拆成分開的列中的多個段。文本處理工具(例如文本處理工具304)利用關(guān)聯(lián)存儲器應(yīng)用程序500來識別和標(biāo)簽化在未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本中的感興趣的項(xiàng)目,如本文所述。在圖5示出的示例中,關(guān)聯(lián)存儲器應(yīng)用程序500識別和標(biāo)簽化在未結(jié)構(gòu)化/部分結(jié)構(gòu)化數(shù)據(jù)中的樣板文件文本,由此添加結(jié)構(gòu)到未結(jié)構(gòu)化/部分結(jié)構(gòu)化數(shù)據(jù)中。雖然圖5中所示的示例圖解說明了識別和標(biāo)簽化樣板文件,但是該示例僅僅是說明性的,因?yàn)殛P(guān)聯(lián)存儲器應(yīng)用程序500可以用于識別和標(biāo)簽化在未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化的文本和/或數(shù)據(jù)中的任何感興趣相關(guān)項(xiàng)目。在描述該示例中,應(yīng)當(dāng)理解,“樣板文件數(shù)據(jù)”是描述文本和/或其他數(shù)據(jù)(例如,字母數(shù)字?jǐn)?shù)據(jù)、嵌入式對象、圖像、元數(shù)據(jù)等)的類別的通用術(shù)語,這些文本類別在風(fēng)格、格式和/或內(nèi)容方面往往類似,特別是當(dāng)文本/數(shù)據(jù)由多個源創(chuàng)建時。對于本示例目的,樣板文件數(shù)據(jù)包括簽名塊、法律免責(zé)聲明、專有標(biāo)記和/或電話會議信息,但是該術(shù)語不應(yīng)該視為如此限制。由于樣板文件通常與特定應(yīng)用程序無關(guān),而且若其由主應(yīng)用程序接收,則可能負(fù)面影響使用這類應(yīng)用程序的結(jié)果,因此期望從這類應(yīng)用程序中排除(即,不合并)樣板文件。在這個特定示例中,若文本段類似于現(xiàn)有的樣板文件,則其被標(biāo)簽化為樣板文件。在一個實(shí)施例中并且不以限制本文所述的方法和系統(tǒng)的范圍的方式提供這個示例,以展示文本處理工具如何利用關(guān)聯(lián)存儲器應(yīng)用程序來識別和標(biāo)簽化文本。更具體地說,若關(guān)聯(lián)存 儲器被如此配置,則可以利用關(guān)聯(lián)存儲器應(yīng)用程序來識別與樣板文件的識別和標(biāo)簽化不相關(guān)的感興趣文本項(xiàng)目。為了識別和標(biāo)簽化文本,文本處理工具(例如文本處理工具304)查詢關(guān)聯(lián)存儲器應(yīng)用程序500 (例如關(guān)聯(lián)存儲器應(yīng)用程序306 (如圖3所示))。在示例性實(shí)施例中,關(guān)聯(lián)存儲器應(yīng)用程序500由數(shù)據(jù)庫生成。例如,圖5示出包括標(biāo)記列504、文本列506和識別列508的數(shù)據(jù)庫502,標(biāo)記列504包括用于不同文本串的唯一整數(shù),文本列506包括不同的文本串,識別列508識別文本串是否是感興趣的項(xiàng)目。例如,在數(shù)據(jù)庫502中,文本“BOILERPLATE IS HERE. ”被識別為樣板文件,而文本“TESTING ON NEW EQUIPMENT. ”被識別為不是樣板文件。雖然在示例性實(shí)施例中,數(shù)據(jù)庫502具有三個列,但是數(shù)據(jù)庫502可以具有使測試處理工具和關(guān)聯(lián)存儲器應(yīng)用程序能夠如本文所述起作用的任何數(shù)量的列。在某些實(shí)施例中,數(shù)據(jù)庫502被視為與正則表達(dá)式模式(例如SREP (如圖4所示))并列(parallel)。在示例性實(shí)施例中,為了生成關(guān)聯(lián)存儲器應(yīng)用程序500,標(biāo)記列504和識別列508被直接合并到關(guān)聯(lián)存儲器應(yīng)用程序500。在示例性實(shí)施例中,在文本列506中的文本段被直接合并到關(guān)聯(lián)存儲器應(yīng)用程序500,使得文本列506和關(guān)聯(lián)文本段形成關(guān)聯(lián)存儲器應(yīng)用程序500的一部分。替換地,在文本列506中的文本段可以利用類屬語法分析器和/或提取器合并到關(guān)聯(lián)存儲器應(yīng)用程序500,使得在文本列506中的文本可以進(jìn)一步分成和/或語法分析成關(guān)鍵項(xiàng)目,例如在關(guān)聯(lián)存儲器應(yīng)用程序500中形成一個或更多文本段的關(guān)鍵字和/或關(guān)鍵短語。例如,文本列506可以分成和/或語法分析成名詞、動詞和/或形容詞。替換地,可以利用使文本處理工具能夠如本文所述起作用的任何進(jìn)程實(shí)現(xiàn)關(guān)聯(lián)存儲器應(yīng)用程序500。當(dāng)利用關(guān)聯(lián)存儲器應(yīng)用程序500時,未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本被分成和/或語法分析成段,并與關(guān)聯(lián)存儲器應(yīng)用程序500的文本列506中的文本段分成的組件和/或關(guān)鍵詞比較,如下列詳細(xì)描述。在示例性實(shí)施例中,文本處理工具從數(shù)據(jù)庫源接收未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本,例如樣本文本510。在示例性實(shí)施例中,通過利用類屬語法分析器和/或提取器將未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本語法分析成分離的文本段,以此生成樣本文本510。通過利用樣本文本510查詢關(guān)聯(lián)存儲器應(yīng)用程序500,文本處理工具識別和標(biāo)簽化樣本文本510的段為感興趣的項(xiàng)目,從而生成結(jié)果文本512。例如,在結(jié)果文本512中,文本“BOILERPLATE IS HERE. ”被標(biāo)簽化為樣板文件,文本“NEW EQUIPMENT TESTING. ”沒有被標(biāo)簽化為樣板文件。在替換實(shí)施例中,文本“NEW EQUIPMENT TESTING. ”可以被標(biāo)簽化為非樣板文件。因?yàn)槲谋咎幚砉ぞ呃迷陉P(guān)聯(lián)存儲器應(yīng)用程序中的文本列506的內(nèi)容識別和標(biāo)簽化文本,所以未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的段不需要精確匹配在關(guān)聯(lián)存儲器應(yīng)用程序中的文本段。例如,“THIS ISBOILERPLATE. ”被識別和標(biāo)簽化為樣板文件,即使關(guān)聯(lián)存儲器應(yīng)用程序包括文本短語“THISIS A BOILERPLATE TEST. ”。圖6是利用關(guān)聯(lián)存儲器應(yīng)用程序(例如關(guān)聯(lián)存儲器應(yīng)用程序306)來識別和標(biāo)簽化文本的示例性方法600的流程圖。文本處理工具(例如文本處理工具304)接收602待處理的未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本。為了識別目的,未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本被分 成和/或語法分析成分離的文本段,例如段落、句子和/或單詞。對于未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的每一個段,文本處理工具查詢604關(guān)聯(lián)存儲器應(yīng)用程序,并且基于未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的內(nèi)容分割和/或段的關(guān)鍵詞與關(guān)聯(lián)存儲器應(yīng)用程序中文本列506的內(nèi)容分割和/或段的關(guān)鍵詞的比較,關(guān)聯(lián)存儲器應(yīng)用程序生成606識別分?jǐn)?shù)。文本處理工具確定608識別分?jǐn)?shù)是否高于預(yù)定的閾值。若識別分?jǐn)?shù)高于預(yù)定的閾值,則未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的段被標(biāo)簽化610為感興趣的項(xiàng)目。若識別分?jǐn)?shù)低于預(yù)定的閾值,則未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本不被標(biāo)簽化612。接著,根據(jù)識別分?jǐn)?shù)可以被標(biāo)簽化的文本段被供應(yīng)給主應(yīng)用程序,以便基于標(biāo)簽化合并。該標(biāo)簽化文本是結(jié)構(gòu)化文本。在一個實(shí)施例中,結(jié)構(gòu)化文本被發(fā)送到輸出表格,接著其被主應(yīng)用程序使用。在示例性實(shí)施例中,文本處理工具利用關(guān)聯(lián)存儲器應(yīng)用程序相應(yīng)地識別和標(biāo)簽化未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的剩余段。圖7是為關(guān)聯(lián)存儲器應(yīng)用程序所應(yīng)用的未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本段生成識別分?jǐn)?shù)的示例性方法700的流程圖。對于關(guān)聯(lián)存儲器應(yīng)用程序中文本的每個段(即,來自文本列506的文本的每個串),文本處理工具確定702未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的段與關(guān)聯(lián)存儲器應(yīng)用程序中文本(文本列506)的段比較的相似度分?jǐn)?shù),Si。例如,相似度分?jǐn)?shù)Si可以定義為未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的段和關(guān)聯(lián)存儲器應(yīng)用程序中文本的段之間的匹配項(xiàng)目(例如,單詞)的數(shù)目除以未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的段中的項(xiàng)目的總數(shù)目。文本處理工具確定704相似度分?jǐn)?shù)Si是否高于預(yù)定的相似度閾值。若相似度分?jǐn)?shù)低于預(yù)定的相似度閾值,則文本處理工具給關(guān)聯(lián)存儲器應(yīng)用程序中文本段分配值為“0”,并開始確定702未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的同一段和關(guān)聯(lián)存儲器應(yīng)用程序中下一個段比較的相似度分?jǐn)?shù)Si。若相似度分?jǐn)?shù)Si高于預(yù)定的相似度閾值,則文本處理工具,例如利用來自數(shù)據(jù)庫502的識別列508的信息確定706關(guān)聯(lián)存儲器應(yīng)用程序中的文本段是否是感興趣的項(xiàng)目。在示例性實(shí)施例中,若關(guān)聯(lián)存儲器應(yīng)用程序中的文本段是感興趣的項(xiàng)目,則關(guān)聯(lián)存儲器應(yīng)用程序中的文本段被分配等于相似度分?jǐn)?shù)的值。若關(guān)聯(lián)存儲器應(yīng)用程序中的文本段不是感興趣的項(xiàng)目,則關(guān)聯(lián)存儲器應(yīng)用程序中的文本段被給予值“O”。在相對于未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本的特定段為關(guān)聯(lián)存儲器應(yīng)用程序中的每一個文本段(即,為來自列506的每個文本串)確定值后,通過合計708分配給關(guān)聯(lián)存儲器應(yīng)用程序中的每一個文本段的值,以此計算未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本段的識別分?jǐn)?shù)。雖然圖7示出生成識別分?jǐn)?shù)的示例性方法700,但是可以利用任何使文本處理工具能夠如本文所述起作用的方法。例如,在某些實(shí)施例中,當(dāng)相似度分?jǐn)?shù)Si低于預(yù)定的閾值和/或當(dāng)關(guān)聯(lián)存儲器應(yīng)用程序中的文本段不是感興趣的項(xiàng)目時,則關(guān)聯(lián)存儲器應(yīng)用程序中的文本段被分配非零值。進(jìn)一步地,在其他實(shí)施例中,可以利用相似度分?jǐn)?shù)和值,利用其他更復(fù)雜度量方式計算識別分?jǐn)?shù)。圖8A-8C示出使用戶能夠添加錯誤識別的文本到如上所述的關(guān)聯(lián)存儲器應(yīng)用程序中的示例性用戶接口的截屏。在示例性實(shí)施例中,用戶接口顯示在被文本處理工具處理后的結(jié)構(gòu)化文本。例如,對于上面討論的關(guān)聯(lián)存儲器應(yīng)用程序示例,該用戶接口顯示與電子郵件802關(guān)聯(lián)的文本。該文本包括第一樣板文件部分804和第二樣板文件部分806。如圖 8A所示,文本處理工具識別和標(biāo)簽化第二樣板文件部分806為樣板文件文本,但沒有識別和標(biāo)簽化第一樣板文件部分804為樣板文件文本。因此,第一樣板文件部分804是錯誤識別的文本。利用用戶接口,該用戶能夠視覺地識別錯誤識別的文本。進(jìn)一步地,該用戶能夠拷貝該錯誤識別的文本到窗口 808,如圖SB所示。通過選擇語法分析按鈕(parse) 810,該錯誤識別的文本被加載到處理工具數(shù)據(jù)源。一旦錯誤識別的文本被供應(yīng)給文本處理工具中的關(guān)聯(lián)存儲器應(yīng)用程序,確認(rèn)窗口 812就被顯示在用戶接口上,提醒該用戶關(guān)聯(lián)存儲器應(yīng)用程序已經(jīng)被更新為包括該錯誤識別的文本,如圖SC所示。因此,當(dāng)文本處理工具處理包含錯誤識別的文本的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本,并且通過例如用戶交互通知文本處理工具時,該文本處理工具將被更新以正確地處理接下來的錯誤識別的文本。因此,該文本處理工具被重復(fù)地更新,從而改善文本處理工具處理來自數(shù)據(jù)源的新的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的能力。進(jìn)一步地,更新文本處理工具不需要對文本處理工具進(jìn)行復(fù)雜的編程和/或關(guān)聯(lián)存儲器系統(tǒng)和方法的專家知識。更確切說,用戶能夠使用用戶接口相對較快和容易地更新該文本處理工具。圖9是可以合并上述實(shí)施例的某些或全部的示例性文本處理系統(tǒng)900框圖。系統(tǒng)900包括主數(shù)據(jù)源902,其接收和/或包括將要最終合并到例如主應(yīng)用程序904的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本(B卩,未處理文本)。正如本文所使用的,合并文本到主應(yīng)用程序904是指輸入正確標(biāo)簽化的(結(jié)構(gòu)化的)文本到主應(yīng)用程序904。主數(shù)據(jù)源902可以包括使系統(tǒng)900能夠如本文所述起作用的任何數(shù)量的單獨(dú)數(shù)據(jù)源。在示例性實(shí)施例中,主應(yīng)用程序904合并來自應(yīng)用程序數(shù)據(jù)源905的文本。主數(shù)據(jù)源902耦合到文本處理工具906,例如文本處理工具304(如圖3所示)。在示例性實(shí)施例中,文本處理工具906從主數(shù)據(jù)源902接收未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本,并通過如上所述添加適當(dāng)標(biāo)簽來將該未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本處理為至少部分結(jié)構(gòu)化文本。該結(jié)構(gòu)化文本包括已被標(biāo)簽化的文本的至少一個段。正如本文所使用的,文本段是指文本的一個或更多單詞,其中單詞可以是任何一組連續(xù)的字符。文本處理工具906包括關(guān)聯(lián)存儲器應(yīng)用程序(例如關(guān)聯(lián)存儲器應(yīng)用程序306(如圖3所示))和/或正則表達(dá)式處理程序(例如正則表達(dá)式處理程序309 (如圖3所示))中的一個或兩者,以便處理未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本,如上詳細(xì)描述。文本處理工具906通過應(yīng)用程序數(shù)據(jù)源905耦合到主應(yīng)用程序904,使得來自主數(shù)據(jù)源902的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本由文本處理工具906處理,并作為結(jié)構(gòu)化文本輸出到應(yīng)用數(shù)據(jù)源905,以便用在主應(yīng)用程序904中。替換地,從文本處理工具906輸出的結(jié)構(gòu)化文本可以在被傳送到應(yīng)用數(shù)據(jù)源905之前經(jīng)受額外的處理。應(yīng)用數(shù)據(jù)源905可以包括例如輸出表格和/或輸出超文本標(biāo)記語言(HTML)頁,其用于驗(yàn)證文本的結(jié)構(gòu)化,然而也可以考慮其他的格式。在示例性實(shí)施例中,主應(yīng)用程序904合并來自應(yīng)用程序數(shù)據(jù)源905的結(jié)構(gòu)化文本。 為了處理來自主數(shù)據(jù)源902的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本,文本處理工具906查詢關(guān)聯(lián)存儲器應(yīng)用程序和/或應(yīng)用至少一個源正則表達(dá)式模式到未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本。例如,在一個實(shí)施例中,文本處理工具906通過以下步驟來處理未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本用未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的段查詢關(guān)聯(lián)存儲器應(yīng)用程序,計算相似度分?jǐn)?shù),以及基于相似度分?jǐn)?shù)確定是否標(biāo)簽化未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本。文本處理工具906處理未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本而生成的結(jié)構(gòu)化文本從文本處理工具906傳送到應(yīng)用數(shù)據(jù)源905,在這里其能夠被合并到主應(yīng)用程序904。主應(yīng)用程序904基于標(biāo)簽化的文本段合并結(jié)構(gòu)化文本。例如,在某些實(shí)施例中,標(biāo)簽化文本被合并到主應(yīng)用程序904,非標(biāo)簽化文本不被合并到主應(yīng)用程序904。為了清晰起見,在本文描述的示例中,用樣板文件(boilerplate)標(biāo)簽標(biāo)簽化的文本被忽略,由主應(yīng)用程序合并其他的一切。在示例性實(shí)施例中,主應(yīng)用程序904是數(shù)據(jù)分析應(yīng)用程序,而且可以包括例如商業(yè)智能應(yīng)用程序、關(guān)聯(lián)存儲器應(yīng)用程序和/或搜索引擎。替換地,主應(yīng)用程序904可以是使系統(tǒng)900能夠如本文所述起作用的任何應(yīng)用程序。在示例性實(shí)施例中,文本處理工具906在主應(yīng)用程序904合并結(jié)構(gòu)化文本之前處理未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本。基于文本處理工具906對未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的標(biāo)簽化,主應(yīng)用程序904合并結(jié)構(gòu)化文本。處理文本以便由主應(yīng)用程序904合并減少了合并到主應(yīng)用程序904的文本總量,改善了合并文本到主應(yīng)用程序904的速度,減少了主應(yīng)用程序904所使用的存儲器數(shù)量,和/或改善了從主應(yīng)用程序904可以獲取文本的速度,以及改善了結(jié)果。在示例性實(shí)施例中,主應(yīng)用程序904耦合到用戶接口 908。用戶接口 908可以包括顯示裝置,例如陰極射線管(CRT)、液晶顯示器(IXD)、有機(jī)LED (OLED)顯示器和/或“電子墨水”顯示器。進(jìn)一步地,用戶接口 908可以包括使用戶能夠和用戶接口 908交互的輸入裝置,例如鍵盤、定位裝置、鼠標(biāo)、尖筆、接觸感應(yīng)面板(例如,接觸板或觸摸屏)、陀螺儀、加速計、位置檢測器和/或音頻用戶輸入接口。利用用戶接口 908,用戶能夠查看結(jié)構(gòu)化文本。用戶接口 908使用戶能夠從結(jié)構(gòu)化文本中選擇并且提取錯誤識別的文本。即,用戶能夠選擇并且提取文本處理工具906不正確處理的或根本沒有處理的文本段。在示例性實(shí)施例中,與錯誤識別的文本相關(guān)的數(shù)據(jù)和/或錯誤識別的文本本身被接著轉(zhuǎn)發(fā)到和/或存儲在耦合到用戶接口 908的處理工具數(shù)據(jù)源910上。在某些實(shí)施例中,處理工具數(shù)據(jù)源910還包括要被供給到文本處理工具906且不是錯誤識別的文本的初始數(shù)據(jù)。文本處理工具906利用初始數(shù)據(jù)并且從用戶接口 908處接收的用戶輸入進(jìn)行更新,以根據(jù)本文所述的方法和系統(tǒng)處理未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化文本。在某些實(shí)施例中,一個或更多額外的用戶接口耦合到文本處理系統(tǒng)900的一個或更多組件以有助于本文所述的方法和系統(tǒng)能夠?qū)崿F(xiàn)。如圖9所示,文本處理,將處理過的文本應(yīng)用到主應(yīng)用程序904,通過用戶接口 908查看額外的文本處理需求,這會是迭代和重復(fù)的過程,其能夠提供改善的結(jié)果,因?yàn)楦倪M(jìn)了文本的標(biāo)簽化。在文本處理工具906包括關(guān)聯(lián)存儲器應(yīng)用程序的實(shí)施例中,處理工具數(shù)據(jù)源910例如基于用戶輸入更新關(guān)聯(lián)存儲器應(yīng)用程序,如上所述。進(jìn)一步地,在文本處理工具906包括正則表達(dá)式處理程序的實(shí)施例中,可以更新源正則表達(dá)式模式,以正確處理包括之前錯誤識別的文本的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本。類似于主數(shù)據(jù)源902,處理工具數(shù)據(jù)源910可以包括使系統(tǒng)900能夠如本文所述起作用的任何數(shù)量的單獨(dú)數(shù)據(jù)源。在一個實(shí)施例中,處理工具數(shù)據(jù)源910基于通過用戶接·口 908接收的輸入,定期地供應(yīng)任何錯誤識別的文本到文本處理工具906的關(guān)聯(lián)存儲器應(yīng)用程序中。替換地,處理工具數(shù)據(jù)源910可以連續(xù)地或無論何時用戶識別到新的錯誤識別的文本段時供應(yīng)錯誤識別的文本到文本處理工具906。用來自處理工具數(shù)據(jù)源910的錯誤識別的文本更新文本處理工具906,以改善對來自主數(shù)據(jù)源902的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的進(jìn)一步處理。因此,通過把由文本處理工具906初始錯誤識別的文本供應(yīng)回到文本處理工具906,文本處理工具906正確處理未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的能力隨著時間而改善,因?yàn)楫?dāng)處理新的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本時,文本處理工具906利用錯誤識別的文本。雖然在示例性實(shí)施例中僅示出一個文本處理工具906,但是系統(tǒng)900可以包括使系統(tǒng)900能夠如本文所述執(zhí)行的任何數(shù)量的文本處理工具906。例如,系統(tǒng)900可以包括用于處理來自不同主數(shù)據(jù)源902的不同類型的未結(jié)構(gòu)化文本和/或部分結(jié)構(gòu)化文本的不同文本處理工具906,和/或利用不同文本處理方法的文本處理工具906。如上所述,在示例性實(shí)施例中,文本處理工具906供應(yīng)結(jié)構(gòu)化文本到應(yīng)用程序數(shù)據(jù)源905,其向主應(yīng)用程序904提供數(shù)據(jù)。進(jìn)一步地,該結(jié)構(gòu)化文本可以被包括在應(yīng)用程序數(shù)據(jù)源905中的輸出表格和/或輸出HTML頁中。在本文解釋的示例中,主應(yīng)用程序904例如基于文本是否利用正則表達(dá)式處理程序和關(guān)聯(lián)存儲器應(yīng)用程序中的一個或兩者如所述的被標(biāo)簽化來處理文本。例如,在一個具體示例中,主應(yīng)用程序904不合并已經(jīng)被標(biāo)簽化為樣板文件的文本。替換地,主應(yīng)用程序904可以以使系統(tǒng)900能夠如本文所述起作用的任何方式合并來自應(yīng)用程序數(shù)據(jù)源905的結(jié)構(gòu)化文本。系統(tǒng)900通過設(shè)置如下架構(gòu)而運(yùn)行,其使數(shù)據(jù)分析系統(tǒng)904的用戶(沒有任何專業(yè)技能)能夠通過為數(shù)據(jù)處理工具906建立數(shù)據(jù)源910來改善系統(tǒng)904的性能。在一個實(shí)施例中,應(yīng)用語法分析能力906包括應(yīng)用關(guān)聯(lián)存儲器數(shù)據(jù)標(biāo)記進(jìn)程,該進(jìn)程包括始于數(shù)據(jù)比較;語法分析該數(shù)據(jù)以確定關(guān)聯(lián)存儲器實(shí)體和屬性;基于從數(shù)據(jù)導(dǎo)出的實(shí)體和屬性查詢關(guān)聯(lián)存儲器應(yīng)用程序,尋找相似結(jié)果;利用相似結(jié)果組對結(jié)果排名和計算分?jǐn)?shù);以及基于該分?jǐn)?shù),暗示關(guān)于實(shí)體和屬性的額外信息。額外信息轉(zhuǎn)換類屬實(shí)體和屬性成更多特定域?qū)嶓w和屬性。利用特定域?qū)嶓w和屬性,該數(shù)據(jù)被標(biāo)記,以便稍后用于改善數(shù)據(jù)分析系統(tǒng)904 (例如,關(guān)聯(lián)存儲器系統(tǒng)、商業(yè)智能應(yīng)用程序、搜索引擎等)。進(jìn)一步地,可以檢查從這些分析系統(tǒng)的輸出,以識別和提取能夠通過用戶接口 908提供到“數(shù)據(jù)處理”關(guān)聯(lián)存儲器應(yīng)用程序906的數(shù)據(jù)源910的錯誤識別的數(shù)據(jù)。圖10是可以用于實(shí)現(xiàn)本文所述的一個或更多實(shí)施例的示例性數(shù)據(jù)處理系統(tǒng)1000的圖示。例如,可以利用數(shù)據(jù)處理系統(tǒng)1000實(shí)現(xiàn)文本處理工具304(數(shù)據(jù)處理工具906)、關(guān)聯(lián)存儲器應(yīng)用程序306、正則表達(dá)式處理程序309和/或文本處理系統(tǒng)900的一個或更多組件。在示例性實(shí)施例中,數(shù)據(jù)處理系統(tǒng)1000包括通信構(gòu)造1002,其提供處理器單元1004、存儲器1006、永久存儲介質(zhì)1008、通信單元1010、輸入/輸出(I/O)單元1012和顯示器之間的通信。處理器單元1004用于執(zhí)行可以被加載到存儲器1006的軟件指令。處理器單元1004根據(jù)特定實(shí)現(xiàn)可以是一個或更多處理器的集合或可以是多處理器核。進(jìn)一步地,可以利用一個或更多異質(zhì)處理器系統(tǒng)來實(shí)現(xiàn)處理器單元1004,在其中單個芯片上具有主處理器 和二級處理器。如另一個說明性示例,處理器單元1004可以是包含多個相同類型處理器的對稱多處理器系統(tǒng)。進(jìn)一步地,可以利用任何合適的可編程電路實(shí)現(xiàn)處理器單元1004,其包括一個或更多系統(tǒng)和微控制器、微處理器、精簡指令集電路(RISC)、專用集成電路(ASIC)、可編程邏輯電路、現(xiàn)場可編程門陣列(FPGA),以及任何其他能夠執(zhí)行如本文所述功能的電路。存儲器1006和永久存儲介質(zhì)1008是存儲裝置的示例。存儲裝置是能夠臨時和/或永久存儲信息的任何硬件。在這些示例中,存儲器1006可以是例如但不限于,隨機(jī)存取存儲器或任何其他合適的易失性或非易失性存儲裝置。永久存儲介質(zhì)1008可以根據(jù)特定實(shí)現(xiàn)米用各種形式。例如但不限于,永久存儲介質(zhì)1008可以包含一個或更多組件或裝置。例如,永久存儲介質(zhì)1008可以是硬盤驅(qū)動器、快閃存儲器、可重寫光盤、可重寫磁帶或上述的某些組合。由永久存儲介質(zhì)1008使用的介質(zhì)還可以是可移除的。例如但不限于,可移除硬盤驅(qū)動器可以用于永久存儲介質(zhì)1008。永久存儲介質(zhì)1008可以是在其上具有計算機(jī)可執(zhí)行指令的計算機(jī)可讀存儲介質(zhì),其中當(dāng)由至少一個處理器執(zhí)行時,該計算機(jī)可執(zhí)行指令使處理器接收并且處理部分未結(jié)構(gòu)化數(shù)據(jù),以包括標(biāo)簽,使得其可以由關(guān)聯(lián)存儲器應(yīng)用程序進(jìn)一步處理。這可以進(jìn)一步使部分結(jié)構(gòu)化數(shù)據(jù)能夠傳送到主應(yīng)用程序,在這里部分未結(jié)構(gòu)化數(shù)據(jù)能夠基于標(biāo)簽化而經(jīng)受進(jìn)一步處理,包括和排除數(shù)據(jù)。額外的技術(shù)效果是,部分結(jié)構(gòu)化數(shù)據(jù)可以語法分析成一個或更多段,并且能夠用部分未結(jié)構(gòu)化數(shù)據(jù)中的至少一個段查詢。其還可以生成與部分未結(jié)構(gòu)化數(shù)據(jù)中的至少一個段和關(guān)聯(lián)存儲器應(yīng)用程序中至少一個數(shù)據(jù)段相關(guān)的分?jǐn)?shù)。這些結(jié)果可以通過在用戶接口上的顯示器上觀察,使得用戶能夠識別標(biāo)簽化是正確的,并且釋放部分未結(jié)構(gòu)化數(shù)據(jù),用于合并到主應(yīng)用程序中。用戶可以觀察不正確標(biāo)簽化的部分未結(jié)構(gòu)化數(shù)據(jù),從而提供更新錯誤識別的數(shù)據(jù)段的機(jī)會。當(dāng)正則表達(dá)式處理程序處理部分未結(jié)構(gòu)化數(shù)據(jù)時,其可以匹配至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段到至少一個源正則表達(dá)式模式,并且標(biāo)簽化一個匹配的段。計算機(jī)可執(zhí)行指令可以使處理器輸出至少部分結(jié)構(gòu)化數(shù)據(jù)到輸出表格和輸出超文本標(biāo)記語言(HTML)頁中的一個。
在這些示例中,通信單元1010提供和其他數(shù)據(jù)處理系統(tǒng)或裝置的通信。在這些示例中,通信單元1010是網(wǎng)絡(luò)接口卡。通信單元1010可以通過使用物理通信鏈接或無線通信鏈接中的任意一個或兩者提供通信。輸入/輸出單元1012允許用可以連接到數(shù)據(jù)處理系統(tǒng)1000的其他裝置輸入和輸出數(shù)據(jù)。例如但不限于,輸入/輸出單元1012可以通過鍵盤和鼠標(biāo)為用戶輸入提供連接。進(jìn)一步地,輸入/輸出單元1012可以發(fā)送輸出給打印機(jī)。顯示器1014提供給用戶顯示信息的機(jī)構(gòu)。用于操作系統(tǒng)和應(yīng)用程序或程序的指令位于永久存儲介質(zhì)1008上。這些指令可以被加載到存儲器1006,以便由處理器單元1004執(zhí)行。不同實(shí)施例的進(jìn)程可以由處理器單元1004利用位于存儲器(例如存儲器1006)中的計算機(jī)實(shí)現(xiàn)指令執(zhí)行。這些指令稱為程序代碼、計算機(jī)可用程序代碼或計算機(jī)可讀程序代碼,其可以由處理器單元1004中的處理器讀取和執(zhí)行。在不同實(shí)施例中,程序代碼可以體現(xiàn)在不同物理或有形的計算機(jī)可讀介質(zhì)中, 例如存儲器1006或永久存儲介質(zhì)1008。
程序代碼1016以功能形式位于選擇性可移除的計算機(jī)可讀介質(zhì)1018上,并且可以被加載到或轉(zhuǎn)移到數(shù)據(jù)處理系統(tǒng)1000,以便由處理器單元1004執(zhí)行。這些示例中,程序代碼1016和計算機(jī)可讀介質(zhì)1018形成計算機(jī)程序產(chǎn)品1020。在一個示例中,計算機(jī)可讀介質(zhì)1018可以是有形的形式,例如光盤或磁盤,其被插入或置入驅(qū)動器或是永久存儲介質(zhì)1008的一部分的其他裝置中,以便轉(zhuǎn)移到存儲裝置(例如是永久存儲介質(zhì)1008的一部分的硬盤驅(qū)動器)上。在有形形式中,計算機(jī)可讀介質(zhì)1018也可以采用永久存儲介質(zhì)的形式,例如硬盤驅(qū)動器,拇指驅(qū)動器,或連接到數(shù)據(jù)處理系統(tǒng)1000的快閃存儲器。有形形式的計算機(jī)可讀介質(zhì)1018也可以稱為計算機(jī)可刻錄存儲介質(zhì)。在某些示例中,計算機(jī)可讀介質(zhì)1018是不可以移除的。替換地,程序代碼1016可以從計算機(jī)可讀介質(zhì)1018通過至通信單元1010的通信鏈接和/或通過至輸入/輸出單元1012的連接轉(zhuǎn)移到數(shù)據(jù)處理系統(tǒng)1000。在說明性示例中,該通信鏈接和/或連接可以是物理的或無線的。計算機(jī)可讀介質(zhì)還可以采用非有形介質(zhì)的形式,例如包含程序代碼的通信鏈接或無線傳輸。在某些說明性實(shí)施例中,程序代碼1016可以通過網(wǎng)絡(luò)從另一個裝置或數(shù)據(jù)處理系統(tǒng)下載到永久存儲介質(zhì)1008,以便在數(shù)據(jù)處理系統(tǒng)1000內(nèi)使用。例如,存儲在服務(wù)器數(shù)據(jù)處理系統(tǒng)中的計算機(jī)可讀存儲介質(zhì)的程序代碼可以通過網(wǎng)絡(luò)從服務(wù)器下載到數(shù)據(jù)處理系統(tǒng)1000。提供程序代碼1016的數(shù)據(jù)處理系統(tǒng)可以是服務(wù)器計算機(jī)、客戶端計算機(jī)或某些能夠存儲和傳輸程序代碼1016的其他裝置。為數(shù)據(jù)處理系統(tǒng)1000示出的不同組件并不意味著對不同實(shí)施例實(shí)現(xiàn)的方式提供架構(gòu)限制。不同的說明性實(shí)施例可以實(shí)現(xiàn)在包括除了那些針對數(shù)據(jù)處理系統(tǒng)1000示出的組件之外的組件的數(shù)據(jù)處理系統(tǒng)中,或在包括替換那些針對數(shù)據(jù)處理系統(tǒng)1000示出的組件的組件的數(shù)據(jù)處理系統(tǒng)1000中。在圖10示出的其他組件可以根據(jù)示出的說明性示例而改變。作為一個示例,數(shù)據(jù)處理系統(tǒng)1000中的存儲裝置是可以存儲數(shù)據(jù)的任何硬件裝置。存儲器1006、永久存儲介質(zhì)1008和計算機(jī)可讀介質(zhì)1018是有形形式存儲裝置的示例。在另一個示例中,總線系統(tǒng)可以用于實(shí)現(xiàn)通信構(gòu)造1002并且可以由一個或更多總線組成,例如系統(tǒng)總線或輸入/輸出總線。當(dāng)然,總線系統(tǒng)可以利用任何合適類型的提供附著于總線系統(tǒng)的不同組件或裝置之間的數(shù)據(jù)轉(zhuǎn)移的架構(gòu)來實(shí)現(xiàn)。另外地,通信單元可以包括一個或更多用于發(fā)送和接收數(shù)據(jù)的裝置,例如調(diào)制解調(diào)器或網(wǎng)絡(luò)適配器。進(jìn)一步地,存儲器可以是例如但不限于,存儲器1006或在接口和通信構(gòu)造1002中可能存在的存儲器控制器集線器中找到的高速緩存。本文描述的實(shí)施例使用數(shù)據(jù)處理工具來提供對未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化數(shù)據(jù)的改進(jìn)處理,從而提供超過現(xiàn)有數(shù)據(jù)處理方法的改善的效率和性能。可以利用關(guān)聯(lián)存儲器應(yīng)用程序和/或正則表達(dá)式處理程序來處理數(shù)據(jù)。進(jìn)一步地,在未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化數(shù)據(jù)被處理后,用戶能夠識別數(shù)據(jù)處理工具錯誤識別的和/或未識別的(例如,被忽略的文本或不恰當(dāng)標(biāo)簽化的文本)數(shù)據(jù)。這個錯誤識別的數(shù)據(jù)用于改善和改進(jìn)數(shù)據(jù)處理工具處理和識別新的未結(jié)構(gòu)化和/ 或部分結(jié)構(gòu)化數(shù)據(jù)的能力。進(jìn)一步地,在某些實(shí)施例中,用戶接口使用戶能夠識別和選擇錯誤識別的數(shù)據(jù),而不要求用戶對復(fù)雜的數(shù)據(jù)處理方法和系統(tǒng)和/或關(guān)聯(lián)存儲器系統(tǒng)有經(jīng)驗(yàn)。由于至少某些在本文描述的方法和系統(tǒng)不要求專職人員維護(hù)和/或更新數(shù)據(jù)處理工具,因此本文描述的方法和系統(tǒng)有助于減少與已知數(shù)據(jù)分析系統(tǒng)相關(guān)的成本。實(shí)施例至少部分涉及未結(jié)構(gòu)化數(shù)據(jù)內(nèi)的兩個項(xiàng)目之間的相互關(guān)系的識別和/或觀察的一致性的識別。描述的實(shí)施例操作為設(shè)置未結(jié)構(gòu)化數(shù)據(jù),使得關(guān)聯(lián)存儲器軟件能夠處理它。這種預(yù)處理開創(chuàng)了進(jìn)一步處理的機(jī)會,例如該技術(shù)可以應(yīng)用于圖像中的元數(shù)據(jù)、元數(shù)據(jù)標(biāo)準(zhǔn)以及網(wǎng)站中元數(shù)據(jù)的檢查。總之,這些實(shí)施例識別和標(biāo)簽化未結(jié)構(gòu)化數(shù)據(jù)內(nèi)的相關(guān)數(shù)據(jù)段以建立改善的數(shù)據(jù)分析系統(tǒng),例如關(guān)聯(lián)存儲器系統(tǒng)、商業(yè)智能應(yīng)用程序、搜索引擎和/或圖像關(guān)聯(lián)存儲器系統(tǒng)。有利地,本文描述的方法和系統(tǒng)允許用戶利用來自主應(yīng)用程序本身的具體數(shù)據(jù)建立數(shù)據(jù)處理工具。例如,利用上述實(shí)施例基于“實(shí)際數(shù)據(jù)”(示例案例)生成數(shù)據(jù)處理工具,這可以改善數(shù)據(jù)處理工具,使其比許多常規(guī)的基于規(guī)則的系統(tǒng)更魯棒、精確、準(zhǔn)確。例如,許多常規(guī)的基于規(guī)則的系統(tǒng)需要專家(例如天賦的編程語言專家)去捕捉一個或更多特定域項(xiàng)目,例如零件號、序列號等,和/或識別感興趣模式并且生成正確識別信息的規(guī)則/代碼。而且,利用本發(fā)明的實(shí)施例,系統(tǒng)用戶可以識別示例案例并使用識別的示例在例如數(shù)據(jù)處理的下一個周期更新期間回流信息(例如數(shù)據(jù)片),由此建立數(shù)據(jù)處理系統(tǒng)。因此,本發(fā)明的實(shí)施例可以用初始數(shù)據(jù)的僅一部分工作。因此,與許多常規(guī)神經(jīng)網(wǎng)絡(luò)相比,這個新穎的系統(tǒng)避免了大量訓(xùn)練數(shù)據(jù)的要求。最終,非常熟悉數(shù)據(jù)(例如實(shí)際數(shù)據(jù))的用戶可以識別感興趣的項(xiàng)目(例如樣板文件)并且將其內(nèi)容輸入到數(shù)據(jù)處理工具中;因此,可以在下一次包含未結(jié)構(gòu)化和/或部分結(jié)構(gòu)化數(shù)據(jù)的問題空間被處理或當(dāng)更新數(shù)據(jù)被添加到系統(tǒng)時應(yīng)用更新到數(shù)據(jù)處理工具。依照本文所述的系統(tǒng)和方法處理數(shù)據(jù)減少了合并到主應(yīng)用程序的數(shù)據(jù)(例如文本)的總量,提高了數(shù)據(jù)合并的速度,減少了用于存儲數(shù)據(jù)的存儲器數(shù)量,以及提高了數(shù)據(jù)能夠被獲取的速度。進(jìn)一步地,由于至少某些本文所描述系統(tǒng)和方法不要求專職人員維護(hù)和/或更新數(shù)據(jù)處理工具,因此本文所描述的方法和系統(tǒng)有助于減少與已知數(shù)據(jù)分析系統(tǒng)相關(guān)的成本。本文所描述的方法和系統(tǒng)可以被編碼為包括在計算機(jī)可讀介質(zhì)(包括但不限于,存儲裝置或計算機(jī)裝置的存儲器區(qū)域)中的可執(zhí)行指令。當(dāng)由一個或更多處理器執(zhí)行時,這類指令使處理器執(zhí)行本文所描述方法的至少一部分。正如本文所使用的,“存儲裝置”是有形物件,例如可操作來存儲數(shù)據(jù)的硬盤驅(qū)動器、固態(tài)存儲器裝置和/或光盤。雖然本發(fā)明各實(shí)施例的具體特征可能在某些圖中示出而在其他圖中沒有示出,但是這僅是為了方便。根據(jù)本發(fā)明的原理,附圖的任何特征可以與任何其他附圖的任何特征結(jié)合引用和/或要求。
本書面描述使用示例公開了各種實(shí)施例,包括最佳模式,使本領(lǐng)域技術(shù)人員能夠?qū)嵤┠切?shí)施例,包括制造和使用任何裝置或系統(tǒng)以及執(zhí)行任何合并的方法。專利性范圍由權(quán)利要求限定,而且可以包括本領(lǐng)域技術(shù)人員想到的其他示例。若這些其他示例具有并非不同于權(quán)利要求的文字語言的結(jié)構(gòu)元件,或若它們包括與權(quán)利要求的文字語言相比非實(shí)質(zhì)性區(qū)別的等價結(jié)構(gòu)元件,則它們意在處于權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種處理至少部分未結(jié)構(gòu)化數(shù)據(jù)的方法,該方法包括 在數(shù)據(jù)處理工具處從至少一個數(shù)據(jù)源接收至少部分未結(jié)構(gòu)化數(shù)據(jù); 處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù),以實(shí)現(xiàn)包括標(biāo)簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù)的生成,其中所述標(biāo)簽化數(shù)據(jù)包括至少一個感興趣的項(xiàng)目,并且其中處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù)包括下列中的至少一個 利用關(guān)聯(lián)存儲器應(yīng)用程序來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù);以及 利用正則表達(dá)式處理程序來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù); 傳輸所述至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序;以及 至少部分基于所述標(biāo)簽化數(shù)據(jù)合并所述至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序,其中合并所述至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標(biāo)簽的存在、內(nèi)容和類型中的至少一個來進(jìn)行以下中的至少一個包括數(shù)據(jù)和排除數(shù)據(jù)。
2.根據(jù)權(quán)利要求I所述的方法,其進(jìn)一步包括 驗(yàn)證至少部分結(jié)構(gòu)化數(shù)據(jù)被正確標(biāo)簽化;以及 釋放至少部分結(jié)構(gòu)化數(shù)據(jù),使得所述至少部分結(jié)構(gòu)化數(shù)據(jù)可以被合并到所述主應(yīng)用程序中。
3.根據(jù)權(quán)利要求2所述的方法,其中驗(yàn)證至少部分結(jié)構(gòu)化數(shù)據(jù)包括檢查所述至少部分結(jié)構(gòu)化數(shù)據(jù)中的一個或更多識別標(biāo)簽。
4.根據(jù)權(quán)利要求I所述的方法,其中利用關(guān)聯(lián)存儲器應(yīng)用程序處理至少部分未結(jié)構(gòu)化數(shù)據(jù)包括 將至少部分未結(jié)構(gòu)化數(shù)據(jù)語法分析成至少部分未結(jié)構(gòu)化數(shù)據(jù)的一個或更多段; 用所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段查詢所述關(guān)聯(lián)存儲器應(yīng)用程序; 生成與所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段和所述關(guān)聯(lián)存儲器應(yīng)用程序中的數(shù)據(jù)的至少一個段關(guān)聯(lián)的分?jǐn)?shù);以及 基于所述分?jǐn)?shù)來標(biāo)簽化所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的所述至少一個段。
5.根據(jù)權(quán)利要求4所述的方法,其中查詢所述關(guān)聯(lián)存儲器應(yīng)用程序包括查詢?nèi)缦玛P(guān)聯(lián)存儲器應(yīng)用程序,其包括包含樣板文件的數(shù)據(jù)的至少一個段,并且其中標(biāo)簽化至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段包括標(biāo)簽化至少部分未結(jié)構(gòu)化數(shù)據(jù)的包括樣板文件的至少一個段。
6.根據(jù)權(quán)利要求I所述的方法,其進(jìn)一步包括 在用戶接口顯示所述至少部分結(jié)構(gòu)化數(shù)據(jù),其中所述至少部分結(jié)構(gòu)化數(shù)據(jù)包括被不正確標(biāo)簽化和被不正確未標(biāo)簽化中至少一個的錯誤識別的數(shù)據(jù)的至少一個段; 在所述用戶接口接收錯誤識別的數(shù)據(jù)的至少一個段的用戶選擇;以及 基于所述錯誤識別的數(shù)據(jù)的至少一個段來更新所述數(shù)據(jù)處理工具; 輸出至少部分結(jié)構(gòu)化數(shù)據(jù)到輸出表格和輸出超文本標(biāo)記語言(HTML)頁中的一個。
7.根據(jù)權(quán)利要求I所述的方法,其中利用正則表達(dá)式處理程序來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù)包括 應(yīng)用至少一個源正則表達(dá)式模式到至少部分未結(jié)構(gòu)化數(shù)據(jù); 將所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段和所述至少一個源正則表達(dá)式模式匹配;以及標(biāo)簽化所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個匹配段包括用識別標(biāo)簽來標(biāo)簽化至少部分未結(jié)構(gòu)化數(shù)據(jù)中的至少一個匹配段。
8.一種用于處理至少部分未結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括 處理裝置; 通信耦合到所述處理裝置的用戶接口 ;以及 通信耦合到所述處理裝置的存儲器和通信耦合到所述處理裝置的通信接口中的至少一個,所述處理裝置被編程為 從所述存儲器和所述通信接口中的至少一個接收所述至少部分未結(jié)構(gòu)化數(shù)據(jù);以及利用在其上執(zhí)行的數(shù)據(jù)處理工具來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù),以通過以下方式中的至少一個實(shí)現(xiàn)包括標(biāo)簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化數(shù)據(jù)的生成,所述標(biāo)簽化數(shù)據(jù)包括至少一個感興趣的項(xiàng)目 利用在其上執(zhí)行的關(guān)聯(lián)存儲器應(yīng)用程序來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù);以及利用在其上執(zhí)行的正則表達(dá)式處理程序來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù);以及基于標(biāo)簽化來合并所述至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序,其中合并所述至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標(biāo)簽的存在來進(jìn)行以下中的至少一個包括數(shù)據(jù)和排除數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述處理裝置進(jìn)一步被編程為 使所述用戶接口顯示所述至少部分結(jié)構(gòu)化數(shù)據(jù),其中所述至少部分結(jié)構(gòu)化數(shù)據(jù)包括被不正確標(biāo)簽化和被不正確未標(biāo)簽化中至少一個的錯誤識別的數(shù)據(jù)的至少一個段; 接收所述錯誤識別的數(shù)據(jù)的至少一個段的用戶選擇;以及 基于所述錯誤識別的數(shù)據(jù)的至少一個段來更新在其上執(zhí)行的數(shù)據(jù)處理工具。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中利用關(guān)聯(lián)存儲器應(yīng)用程序來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù),所述處理裝置進(jìn)一步被編程為 將所述至少部分未結(jié)構(gòu)化數(shù)據(jù)語法分析成所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的一個或更多段; 用所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段查詢在其上執(zhí)行的所述關(guān)聯(lián)存儲器應(yīng)用程序; 生成與所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段和所述關(guān)聯(lián)存儲器應(yīng)用程序中的數(shù)據(jù)的至少一個段關(guān)聯(lián)的分?jǐn)?shù);以及 基于所述分?jǐn)?shù)來標(biāo)簽化所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的所述至少一個段; 利用正則表達(dá)式處理程序來處理所述至少部分未結(jié)構(gòu)化數(shù)據(jù),所述處理裝置進(jìn)一步被編程為 應(yīng)用至少一個源正則表達(dá)式模式到所述至少部分未結(jié)構(gòu)化數(shù)據(jù); 將所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個段和所述至少一個源正則表達(dá)式模式匹配;以及 標(biāo)簽化所述至少部分未結(jié)構(gòu)化數(shù)據(jù)的至少一個匹配段,輸出所述至少部分結(jié)構(gòu)化數(shù)據(jù)到所述存儲器中的輸出表格和輸出超文本標(biāo)記語言(HTML)頁中的一個,以便經(jīng)由用戶接口顯不O
全文摘要
本發(fā)明提供一種用于處理至少部分未結(jié)構(gòu)化數(shù)據(jù)的方法。該方法包括在數(shù)據(jù)處理工具從至少一個數(shù)據(jù)源接收至少部分未結(jié)構(gòu)化數(shù)據(jù),以及處理該至少部分未結(jié)構(gòu)化數(shù)據(jù)以生成包括標(biāo)簽化數(shù)據(jù)的至少部分結(jié)構(gòu)化的數(shù)據(jù),其中處理至少部分未結(jié)構(gòu)化數(shù)據(jù)包括以下中的至少一個利用關(guān)聯(lián)存儲器應(yīng)用程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù);以及利用正則表達(dá)式處理程序來處理至少部分未結(jié)構(gòu)化數(shù)據(jù)。該方法進(jìn)一步包括傳輸至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序,以及至少部分基于標(biāo)簽化數(shù)據(jù)來合并至少部分結(jié)構(gòu)化數(shù)據(jù)到主應(yīng)用程序,其中合并該至少部分結(jié)構(gòu)化數(shù)據(jù)包括基于標(biāo)簽的存在、內(nèi)容和/或類型來進(jìn)行以下中的至少一個包括數(shù)據(jù)和排除數(shù)據(jù)。
文檔編號G06F17/30GK102915321SQ201210227570
公開日2013年2月6日 申請日期2012年7月2日 優(yōu)先權(quán)日2011年6月30日
發(fā)明者L·J·夸特西, K·M·納卡摩德, B·沃恩 申請人:波音公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
六安市| 化隆| 辰溪县| 兴仁县| 安远县| 潞城市| 云梦县| 石门县| 固安县| 贡嘎县| 准格尔旗| 蒲江县| 桑日县| 玛多县| 荆门市| 鲁山县| 望都县| 巨鹿县| 乌拉特中旗| 南皮县| 曲阜市| 宜昌市| 加查县| 四川省| 晋宁县| 宁强县| 永福县| 西平县| 永兴县| 南岸区| 河津市| 平利县| 乌鲁木齐县| 永丰县| 正阳县| 兴城市| 仪征市| 蒙自县| 北京市| 安图县| 安仁县|