欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔處理方法和系統(tǒng)的制作方法

文檔序號(hào):6582396閱讀:221來源:國(guó)知局
專利名稱:文檔處理方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文檔處理技術(shù),更具體地,涉及在企業(yè)搜索領(lǐng)域擴(kuò)展作為搜索數(shù)據(jù)源 的文檔集的方法和系統(tǒng)。
背景技術(shù)
今天的企業(yè)擁有越來越多的、各式各樣的電子文件和數(shù)據(jù)信息,如何讓這些信息 成為企業(yè)業(yè)務(wù)發(fā)展甚至是戰(zhàn)略決策的好幫手,是人們?nèi)找骊P(guān)注的問題。而企業(yè)搜索技術(shù)就 提供了一種有效的方式,來幫助企業(yè)處理這些日益增長(zhǎng)的數(shù)據(jù)信息。然而,并非所有的數(shù)據(jù) 都適合作為企業(yè)搜索中的搜索數(shù)據(jù)源。傳統(tǒng)的基于通用搜索引擎的搜索所依據(jù)的信息源是 海量信息源,搜索結(jié)果也是海量的數(shù)據(jù)信息,大量搜索結(jié)果可能不是用戶想要的內(nèi)容,企業(yè) 搜索用戶很難從這樣海量的數(shù)據(jù)信息中去除噪音而得到其想要的信息?;谶@樣的背景, 在企業(yè)搜索領(lǐng)域,為了特定的業(yè)務(wù)需求(例如,做某個(gè)行業(yè)的市場(chǎng)分析,或,選定投資的企 業(yè)),由于受到資源的限制,不可能把整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)都收集下來做搜索,而是要在業(yè)務(wù) 需求的范圍內(nèi),盡可能多的收集相關(guān)的信息資料。另一方面,隨著網(wǎng)絡(luò)上文檔的飛速增長(zhǎng), 企業(yè)搜索的數(shù)據(jù)源也需要隨之不斷地更新和擴(kuò)展,因此,如何有效的自動(dòng)擴(kuò)展企業(yè)搜索服 務(wù)的搜索數(shù)據(jù)源,并且?guī)椭髽I(yè)在海量網(wǎng)絡(luò)數(shù)據(jù)中收集對(duì)業(yè)務(wù)有用的信息,去除不必要的 “噪音”信息以提高數(shù)據(jù)資源利用率,并節(jié)省搜索數(shù)據(jù)源的存儲(chǔ)資源,是企業(yè)搜索技術(shù)領(lǐng)域 的重要挑戰(zhàn)之一?,F(xiàn)有技術(shù)中存在如下解決上述問題的方法由企業(yè)搜索服務(wù)的用戶將其獲得的比 較有價(jià)值的文檔向企業(yè)搜索服務(wù)系統(tǒng)推薦,存儲(chǔ)在企業(yè)搜索服務(wù)系統(tǒng)的信息存儲(chǔ)裝置中, 成為公共的企業(yè)搜索數(shù)據(jù)源;或者由企業(yè)搜索服務(wù)的系統(tǒng)管理員隨時(shí)關(guān)注網(wǎng)絡(luò)信息的變化 并且將有用的信息添加至企業(yè)搜索數(shù)據(jù)源中。然而上述這兩種擴(kuò)展搜索數(shù)據(jù)源的方式不能 依據(jù)企業(yè)搜索數(shù)據(jù)源中已有的文檔自動(dòng)實(shí)現(xiàn)擴(kuò)展,而是完全依賴于企業(yè)搜索服務(wù)的用戶以 及系統(tǒng)管理員的行為,費(fèi)時(shí)費(fèi)力且擴(kuò)展數(shù)據(jù)源的效率很低。

發(fā)明內(nèi)容
考慮到上述問題,希望提供能夠自動(dòng)進(jìn)行文檔擴(kuò)展的技術(shù)方案,從而在無需大量 人工勞動(dòng)的前提下保持文檔的不斷擴(kuò)展,同時(shí)能夠保持文檔擴(kuò)展的精度和準(zhǔn)確度。與傳統(tǒng) 的搜索引擎不同(傳統(tǒng)的搜索引擎依賴于網(wǎng)頁之間的超級(jí)鏈接進(jìn)行數(shù)據(jù)的擴(kuò)展),一般來 講,企業(yè)搜索中,企業(yè)關(guān)心的信息具有具體的實(shí)體以及與之相關(guān)的主題。因此,這里提出的 技術(shù)方案,主要利用文章內(nèi)容的關(guān)注實(shí)體和主題的分析,進(jìn)一步挖掘企業(yè)用戶對(duì)信息的需 求,從而做到文檔的自動(dòng)擴(kuò)展?;谏鲜鰡栴}和目的,本發(fā)明提供能夠自動(dòng)進(jìn)行文檔擴(kuò)展的文檔處理方法及系 統(tǒng)。根據(jù)本發(fā)明的第一方面,提供一種文檔處理方法,包括對(duì)給定的種子文檔集中的 每篇種子文檔執(zhí)行下列操作以生成擴(kuò)展文檔集識(shí)別該種子文檔的一個(gè)或多個(gè)實(shí)體詞,所
5述實(shí)體詞是表示該種子文檔所關(guān)注的實(shí)體的詞;依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該種子文 檔的一個(gè)或多個(gè)與所依據(jù)的實(shí)體詞相關(guān)的主題詞;將所識(shí)別的每個(gè)主題詞,以及識(shí)別所述 每個(gè)主題詞時(shí)所依據(jù)的實(shí)體詞組成實(shí)體詞_主題詞對(duì);以及將每個(gè)所述實(shí)體詞_主題詞對(duì) 中的實(shí)體詞和主題詞同時(shí)作為關(guān)鍵詞,通過網(wǎng)絡(luò)獲得一篇或多篇擴(kuò)展文檔,并將所述擴(kuò)展 文檔加入所述擴(kuò)展文檔集,所述擴(kuò)展文檔既包含所述每個(gè)實(shí)體詞_主題詞對(duì)中的實(shí)體詞, 也包含所述每個(gè)實(shí)體詞_主題詞對(duì)中的主題詞。根據(jù)本發(fā)明的第二方面,提供一種文檔處理方法,包括接收給定的一個(gè)或多個(gè)實(shí) 體詞-主題詞對(duì),每個(gè)所述給定的實(shí)體詞-主題詞對(duì)由一個(gè)實(shí)體詞和一個(gè)主題詞組成,所述 實(shí)體詞_主題詞對(duì)中的所有實(shí)體詞組成實(shí)體詞集合,并且每個(gè)實(shí)體詞所在的實(shí)體詞_主題 詞對(duì)中的所有主題詞組成對(duì)應(yīng)于該實(shí)體詞的主題詞集合;以及對(duì)給定的候選文檔集中的每 篇候選文檔執(zhí)行下列操作以生成過濾文檔集識(shí)別該候選文檔的一個(gè)或多個(gè)實(shí)體詞,所述 實(shí)體詞是表示該文檔所關(guān)注的實(shí)體的詞;依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該候選文檔的一 個(gè)或多個(gè)與所依據(jù)的實(shí)體詞相關(guān)的主題詞;利用所述給定的實(shí)體詞-主題詞對(duì)中的實(shí)體詞 和主題詞以及該候選文檔被識(shí)別的實(shí)體詞和主題詞,判斷是否將該候選文檔加入過濾文檔 集,響應(yīng)于判斷結(jié)果為是,將該候選文檔加入過濾文檔集。根據(jù)本發(fā)明的第三方面,提供一種文檔處理系統(tǒng),包括應(yīng)用于給定的種子文檔集 中的每篇種子文檔的下列裝置以生成擴(kuò)展文檔集實(shí)體詞識(shí)別裝置,用于識(shí)別該種子文檔 的一個(gè)或多個(gè)實(shí)體詞,所述實(shí)體詞是表示該文檔所關(guān)注的實(shí)體的詞;主題詞識(shí)別裝置,用 于依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該種子文檔的一個(gè)或多個(gè)與所依據(jù)的實(shí)體詞相關(guān)的主題 詞;配對(duì)裝置,用于將所識(shí)別的每個(gè)主題詞,以及識(shí)別所述每個(gè)主題詞時(shí)所依據(jù)的實(shí)體詞組 成實(shí)體詞_主題詞對(duì);以及文檔擴(kuò)展裝置,將每個(gè)所述實(shí)體詞_主題詞對(duì)中的實(shí)體詞和主題 詞同時(shí)作為關(guān)鍵詞,通過網(wǎng)絡(luò)獲得既包含所述每個(gè)實(shí)體詞-主題詞對(duì)中的實(shí)體詞,也包含 所述每個(gè)實(shí)體詞_主題詞對(duì)中的主題詞的一篇或多篇擴(kuò)展文檔,將所述擴(kuò)展文檔加入所述 擴(kuò)展文檔集。根據(jù)本發(fā)明的第四方面,提供一種文檔處理系統(tǒng),接收裝置,用于接收給定的一個(gè) 或多個(gè)實(shí)體詞_主題詞對(duì),每個(gè)所述給定的實(shí)體詞_主題詞對(duì)由一個(gè)實(shí)體詞和一個(gè)主題詞 組成,所述實(shí)體詞_主題詞對(duì)中的所有實(shí)體詞組成實(shí)體詞集合,并且每個(gè)實(shí)體詞所在的實(shí) 體詞_主題詞對(duì)中的所有主題詞組成對(duì)應(yīng)于該實(shí)體詞的主題詞集合;以及應(yīng)用于給定的候 選文檔集中的每篇候選文檔的下列裝置以生成過濾文檔集實(shí)體詞識(shí)別裝置,用于識(shí)別該 候選文檔的一個(gè)或多個(gè)實(shí)體詞,所述實(shí)體詞是表示該文檔所關(guān)注的實(shí)體的詞;主題詞識(shí)別 裝置,用于依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該候選文檔的一個(gè)或多個(gè)與所依據(jù)的實(shí)體詞相 關(guān)的主題詞;判斷裝置,利用所述給定的實(shí)體詞-主題詞對(duì)中的實(shí)體詞和主題詞以及該候 選文檔被識(shí)別的實(shí)體詞和主題詞,判斷是否將該候選文檔加入過濾文檔集,并且響應(yīng)于判 斷結(jié)果為是,將該候選文檔加入過濾文檔集。利用本發(fā)明的方法和系統(tǒng),可以自動(dòng)地實(shí)現(xiàn)對(duì)已有文檔的擴(kuò)展或過濾,而無需耗 費(fèi)大量的人力成本;而且這種擴(kuò)展或過濾是以對(duì)已有文檔進(jìn)行實(shí)體詞-主題詞分析為基礎(chǔ) 的,提高了文檔擴(kuò)展或過濾的依據(jù)性、準(zhǔn)確性。


圖1是示出了根據(jù)本發(fā)明的文檔處理方法的流程圖;圖2是示出了利用焦點(diǎn)實(shí)體詞識(shí)別技術(shù)FNER識(shí)別文檔的實(shí)體詞的方法的流程圖;圖3是示出了利用焦點(diǎn)主題詞識(shí)別技術(shù)FTD識(shí)別文檔的主題詞的方法的流程圖;圖4是根據(jù)本發(fā)明一實(shí)施例的基于通用搜索引擎的網(wǎng)絡(luò)爬蟲(WebCrawler)架構(gòu) 圖;圖5A至圖5G是對(duì)中文文檔進(jìn)行識(shí)別實(shí)體詞和主題詞操作各階段過程的示意圖;圖6A至圖6F是對(duì)英文文檔進(jìn)行識(shí)別實(shí)體詞和主題詞操作各階段過程的示意圖;圖7是以圖1所示的文檔處理方法為基礎(chǔ)的、包含了對(duì)處理后的文檔的過濾步驟 的流程圖;圖7A是利用給定的實(shí)體詞_主題詞對(duì)過濾給定的候選文檔集的文檔處理方法的 流程圖;圖8是示出了根據(jù)本發(fā)明一實(shí)施例的過濾擴(kuò)展文檔集的方法的流程圖;圖8A是根據(jù)圖7A所示的流程圖中的過濾步驟的詳細(xì)流程圖;圖9是示出了根據(jù)圖1所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖;圖10是示出了根據(jù)圖7和圖8所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖;圖11是示出了根據(jù)圖7A和圖8A所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖;圖12是示出了根據(jù)本發(fā)明的方法的企業(yè)搜索服務(wù)系統(tǒng)的一種實(shí)現(xiàn)的結(jié)構(gòu)圖。
具體實(shí)施例方式下面結(jié)合

本發(fā)明的具體實(shí)施方式
。圖1是示出了根據(jù)本發(fā)明的文檔處理方法的流程圖。圖1所示的方法從步驟101 開始。對(duì)于種子文檔集中的每篇種子文檔,執(zhí)行步驟101-104的操作。在步驟101中,識(shí)別 該種子文檔的實(shí)體詞。種子文檔集是包含了至少一篇種子文檔的文檔集合,種子文檔是指 確定需要對(duì)其進(jìn)行擴(kuò)展操作的文檔。也就是說,種子文檔集中包含的所有文檔都需要進(jìn)行 步驟101-104的操作。種子文檔集中的種子文檔可以在物理上存儲(chǔ)于同一存儲(chǔ)裝置中,也 可以存儲(chǔ)于不同的存儲(chǔ)裝置中。如果某文檔雖然與種子文檔在物理上存儲(chǔ)于同一存儲(chǔ)裝置 中,或者通過某種共同的方式而獲得(如均由企業(yè)搜索服務(wù)的用戶推薦),但是只要該文檔 不需要進(jìn)行步驟101-104所示的擴(kuò)展操作,那么該文檔就不是種子文檔,從而不包含在種 子文檔集中。種子文檔集包含的種子文檔可以由企業(yè)搜索服務(wù)的用戶推薦,例如用戶在本 地或通過網(wǎng)絡(luò)從遠(yuǎn)程服務(wù)器讀取到其認(rèn)為有價(jià)值的文檔后,可以將該文檔向企業(yè)搜索服務(wù) 器推薦,從而保存在種子文檔集中。本領(lǐng)域技術(shù)人員可以了解,用戶推薦只是生成種子文檔 集的一種方式,還可以采用其它方式生成種子文檔集,例如自動(dòng)從其它數(shù)據(jù)庫導(dǎo)入等。實(shí)體 詞是文檔中所包含的詞,是指一篇文章內(nèi)容上談?wù)摰慕裹c(diǎn)的一個(gè)或多個(gè)命名實(shí)體。對(duì)每篇 文檔可以識(shí)別出一個(gè)或多個(gè)實(shí)體詞。可以利用焦點(diǎn)實(shí)體詞識(shí)別技術(shù)(FNER)來識(shí)別文檔中 的實(shí)體詞,利用FNER技術(shù)識(shí)別實(shí)體詞的方法具體在圖2中示出并加以說明。響應(yīng)于在步驟 101中識(shí)別出該種子文檔的實(shí)體詞,在步驟102中依據(jù)所識(shí)別出的實(shí)體詞,識(shí)別該種子文檔 的主題詞。主題詞是指不同于實(shí)體詞的,表示一篇文章中與所識(shí)別的實(shí)體詞相關(guān)的重要的 主題的詞,并且具有某些詞性特征(大多是名詞或動(dòng)詞)。與實(shí)體詞一樣,主題詞也是文檔
7中的詞。需要強(qiáng)調(diào)的是,主題詞是與實(shí)體詞相聯(lián)系的,也就是說,要依據(jù)對(duì)某篇文檔所識(shí)別 出的實(shí)體詞來識(shí)別主題詞。盡管識(shí)別主題詞的過程中需要引入多種參數(shù),但是某篇文檔中 除所識(shí)別出的實(shí)體詞外的其它詞與實(shí)體詞的聯(lián)系是識(shí)別主題詞過程中的重要且不可或缺 的參數(shù)。可以通過焦點(diǎn)主題詞識(shí)別技術(shù)(FTD)來識(shí)別文檔的主題詞,利用FTD技術(shù)識(shí)別主 題詞的方法具體在圖3中示出并加以說明,本領(lǐng)域技術(shù)人員可以從圖3所示的FTD流程圖 以及對(duì)應(yīng)的文字說明中了解到在識(shí)別主題詞的過程中如何引入與實(shí)體詞相關(guān)的參數(shù),以體 現(xiàn)所識(shí)別的主題詞與實(shí)體詞的關(guān)聯(lián)。還需要指出的是,依據(jù)同一個(gè)所識(shí)別出的實(shí)體詞,可能 識(shí)別出一個(gè)或多個(gè)主題詞,這是因?yàn)樵谀称臋n中,可能存在與這篇文檔的某個(gè)實(shí)體詞相 關(guān)的多個(gè)主題詞。還要強(qiáng)調(diào),主題詞是與實(shí)體詞對(duì)應(yīng)的,具體而言,對(duì)于同一篇文檔可能識(shí) 別出多個(gè)實(shí)體詞,然后分別依據(jù)每個(gè)所識(shí)別出的實(shí)體詞在這篇文檔中識(shí)別主題詞。通過步驟101和102已經(jīng)識(shí)別出了種子文檔集中的各個(gè)文檔的實(shí)體詞和主題詞, 在步驟103中將所識(shí)別的每個(gè)主題詞,以及識(shí)別所述每個(gè)主題詞時(shí)所依據(jù)的實(shí)體詞組成實(shí) 體詞_主題詞對(duì)。尤其要注意步驟103組成實(shí)體詞-主題詞對(duì)的方式,由于種子文檔集中 可能包含多篇文檔,每篇文檔又可能被識(shí)別出多個(gè)實(shí)體詞以及多個(gè)主題詞,并不是將種子 文檔集中的文檔被識(shí)別出的所有實(shí)體詞和主題詞自由組對(duì),而是將每個(gè)所識(shí)別出的主題詞 與識(shí)別出該主題詞時(shí)所依據(jù)的那個(gè)實(shí)體詞組成實(shí)體詞_主題詞對(duì)。通過表1舉例說明如下 (文檔1、文檔2和文檔3都是種子文檔集中的種子文檔)表 1
文檔編號(hào)文檔1文檔2文檔3實(shí)體詞AlA2A3A4A5Al主題詞BlBlB2B3B4B5B2B5通過表1可以看出,在步驟101中對(duì)文檔1識(shí)別出3個(gè)實(shí)體詞分別是A1、A2和A3。 依據(jù)實(shí)體詞Al,在步驟102中識(shí)別出對(duì)應(yīng)于Al的主題詞Bl ;依據(jù)實(shí)體詞A2,在步驟102中 識(shí)別出對(duì)應(yīng)于A2的主題詞Bl ;依據(jù)實(shí)體詞A3,在步驟102中識(shí)別出對(duì)應(yīng)于A3的2個(gè)主題 詞B2和B3。同樣地,對(duì)文檔2和文檔3也識(shí)別出實(shí)體詞和主題詞。那么在步驟103中對(duì)上 述所識(shí)別出的實(shí)體詞和主題詞可以組成的實(shí)體詞_主題詞對(duì)即為以下8組A1-B1、A2-B1、 A3-B2、A3-B3、A4-B4、A5-B5、A1-B2和A1-B5,而不能組成A4-B5這樣的實(shí)體詞-主題詞對(duì), 因?yàn)橹黝}詞B5是依據(jù)實(shí)體詞A5識(shí)別出的,而并非依據(jù)實(shí)體詞A4識(shí)別出的。通過表1還可 以看出,同一篇文檔可以被識(shí)別出多個(gè)實(shí)體詞(例如文檔2被識(shí)別出實(shí)體詞A4和B5),依據(jù) 同一個(gè)實(shí)體詞可以識(shí)別出多個(gè)主題詞(例如在文檔3中依據(jù)實(shí)體詞Al識(shí)別出B2和B5兩 個(gè)主題詞),不同的文檔可以被識(shí)別出相同的實(shí)體詞(例如文檔3和文檔1都被識(shí)別出實(shí)體 詞 Al)。在步驟104中將組好的每一實(shí)體詞-主題詞對(duì)中的實(shí)體詞和主題詞同時(shí)作為關(guān)鍵 詞,通過網(wǎng)絡(luò)搜索獲取一篇或多篇擴(kuò)展文檔,從而由種子文檔集生成擴(kuò)展文檔集,所述擴(kuò)展 文檔集是指由一篇或者多篇擴(kuò)展文檔組成的集合。以表1中可以組成的主題詞對(duì)Al-Bl為 例,將Al-Bl作為關(guān)鍵詞通過網(wǎng)絡(luò)搜索下載新的文檔(Al和Bl在搜索的過程中是“與”的 關(guān)系而并非“或”的關(guān)系),所下載的新的文檔是既包含Al也包含Bl的文檔,所下載的新的文檔即構(gòu)成擴(kuò)展文檔集。需要指出的是,可以利用多種方式實(shí)現(xiàn)自動(dòng)通過網(wǎng)絡(luò)搜索下載新 的文檔的過程,例如可以通過基于網(wǎng)絡(luò)爬蟲(Web Crawler)技術(shù)的通用搜索引擎架構(gòu)來下 載新的文檔,圖4示出了一個(gè)基于通用搜索引擎的Web Crawler架構(gòu)圖。綜上所述,通過圖1中的步驟101-104可以實(shí)現(xiàn)將種子文檔集擴(kuò)展為種子文檔集 加擴(kuò)展文檔集,在企業(yè)搜索服務(wù)領(lǐng)域即實(shí)現(xiàn)了自動(dòng)擴(kuò)展原始搜索數(shù)據(jù)源文檔的技術(shù)效果。圖2是示出了利用FNER技術(shù)識(shí)別文檔的實(shí)體詞的方法的流程圖。對(duì)于一篇特定 的文檔,在步驟201中進(jìn)行自動(dòng)分詞處理,也就是將文檔中包含的單詞一個(gè)一個(gè)地區(qū)分開。 可以采取最大匹配法(MM法)、逆向最大匹配法(0ΜΜ法)、逐詞遍歷匹配法和設(shè)立切分標(biāo)志 法等方法來進(jìn)行自動(dòng)分詞處理。自動(dòng)分詞處理結(jié)束之后在步驟202中進(jìn)行自動(dòng)詞性標(biāo)注 (POS Tagging),所謂詞性,是指對(duì)詞分為名詞、動(dòng)詞、介詞、形容詞等類別。自動(dòng)詞性標(biāo)注 (POS Tagging)可以通過基于概率統(tǒng)計(jì)和基于規(guī)則來實(shí)現(xiàn)通過計(jì)算機(jī)自動(dòng)地給文檔中的詞 標(biāo)注詞性,具體可以采用CLAWS、VOLSUNGA等本領(lǐng)域常用的方法進(jìn)行自動(dòng)詞性標(biāo)注。自動(dòng)詞 性標(biāo)注處理后的結(jié)果例如可以是將名詞標(biāo)注為η、將動(dòng)詞標(biāo)注為ν、將形容詞標(biāo)注為a、將數(shù) 字標(biāo)注為m等。在步驟203中識(shí)別候選實(shí)體詞。首先要強(qiáng)調(diào)的是,所謂實(shí)體詞,指的是表示 人名、地名或者組織名的詞,實(shí)體詞一定是名詞,也就是一定是在步驟202中被標(biāo)注為名詞 (η)的詞。識(shí)別候選實(shí)體詞的技術(shù)基本上是對(duì)文章中的每個(gè)詞抽取特征,例如,這個(gè)詞的前 后兩個(gè)詞,前后詞的詞性,這個(gè)詞是否出現(xiàn)在語義詞典中的(人名的稱謂,地名、組織名的 前綴和后綴等)。然后根據(jù)實(shí)體識(shí)別的統(tǒng)計(jì)模型進(jìn)行分類判定,超過某個(gè)閾值的就判斷為候 選實(shí)體詞,這樣就把候選實(shí)體詞與普通的名詞區(qū)別開了。在獲得候選實(shí)體詞的基礎(chǔ)上,在步 驟204中對(duì)每個(gè)候選實(shí)體詞抽出一系列的特征,將每個(gè)候選實(shí)體詞被抽出的一些列特征的 特征值構(gòu)成特征向量。例如e是在某篇文檔中被識(shí)別出的一個(gè)候選實(shí)體詞,對(duì)e這個(gè)實(shí)體 詞抽取m個(gè)特征,則候選實(shí)體詞e的特征向量即可表示為X= Ix1, x2,···, xffl}0關(guān)于所抽 出的關(guān)于候選實(shí)體詞的特征可以是例如該候選實(shí)體詞在文章中出現(xiàn)頻率、是否在標(biāo)題中出 現(xiàn)、其左邊和右邊的詞是否是其它的候選實(shí)體詞、該候選實(shí)體詞在該文檔中的分布等等。在 步驟205中設(shè)定閾值并且對(duì)特征向量中的每個(gè)特征值設(shè)定權(quán)重。需要指出的是,通常使用 機(jī)器學(xué)習(xí)的方式在步驟205中設(shè)定閾值并為每個(gè)特征值設(shè)定權(quán)重。一般地來講,機(jī)器學(xué)習(xí) 算法的過程是這樣的首先,手工準(zhǔn)備一些標(biāo)注好的訓(xùn)練樣本集合(例如,每個(gè)類別里面包 含一定數(shù)量的屬于該類的例子),然后,按照特定的方法進(jìn)行特征抽取,由于分類的場(chǎng)景和 數(shù)據(jù)不一樣,所以抽取的分類特征也各不相同,最后,機(jī)器學(xué)習(xí)算法讀取每個(gè)訓(xùn)練樣本的特 征,通過一定的學(xué)習(xí)準(zhǔn)則(例如,正樣本與負(fù)樣本空間分割距離最大,或者,分類的誤差最 小,等)得出分類模型,也就是每個(gè)特征的權(quán)重,即該特征對(duì)于分類的貢獻(xiàn)程度,訓(xùn)練過程 結(jié)束。在線分類時(shí),與訓(xùn)練過程類似,對(duì)未知類別的樣本抽取特征,然后,應(yīng)用訓(xùn)練階段得到 的分類模型,計(jì)算該樣本與每個(gè)類別的相似程度,根據(jù)一個(gè)預(yù)先設(shè)定的閾值進(jìn)行最后分類 的判斷。目前廣泛應(yīng)用的機(jī)器學(xué)習(xí)算法有多種,例如,樸素貝頁斯算法(Naive-Bayes),決策 樹算法(Decision Tree),支持向量機(jī)算法(Support Vector Machines),等等。其中,支持 向量機(jī)算法是目前公認(rèn)的最好的分類算法,能夠達(dá)到最優(yōu)的分類準(zhǔn)確率。在步驟206中,利 用下列公式計(jì)算每個(gè)候選實(shí)體詞的分?jǐn)?shù)Score(X)
mscore (χ)=辦+ 乙(%*6)
9
其中,b表示在步驟205中設(shè)定的閾值,Wj表示特征Xj所占的權(quán)重,Wj可以為正 值,也可以為負(fù)值,當(dāng)%為負(fù)值時(shí)表示對(duì)具有特征\的候選實(shí)體詞被選為實(shí)體詞具有負(fù)作 用。在步驟206中依據(jù)上述公式算得候選實(shí)體詞的分?jǐn)?shù)之后,在步驟207中將所算得的分 數(shù)與在步驟205中設(shè)定的閾值比較,如果score (χ)的值大于0,則將該候選實(shí)體詞識(shí)別為實(shí) 體詞,如果Score(X)值小于0,則不將該候選實(shí)體詞識(shí)別為實(shí)體詞。至此,對(duì)每一個(gè)在步驟 203中識(shí)別的候選實(shí)體詞都進(jìn)行相同的處理和判斷,過濾識(shí)別出該文檔的實(shí)體詞。圖3是示出了利用焦點(diǎn)主題識(shí)別(FTD)技術(shù),依據(jù)所識(shí)別的實(shí)體詞來識(shí)別文檔的 主題詞的方法的流程圖。在步驟301中,對(duì)被識(shí)別了實(shí)體詞的文檔進(jìn)行自動(dòng)分詞和自動(dòng)標(biāo) 注詞性處理。需要注意,圖3為了示意完整的FTD流程而加入了步驟301,實(shí)際上步驟301 在圖2所示的FNER流程中已經(jīng)實(shí)施過,所以無須在FTD流程中再次實(shí)施,完全可以直接利 用FNER流程中自動(dòng)分詞和自動(dòng)詞性標(biāo)注的處理結(jié)果。在步驟302中,過濾文檔中的停用詞、 實(shí)體詞和候選實(shí)體詞。這里要過濾的實(shí)體詞即為在圖2所示的FNER流程中所識(shí)別出的實(shí) 體詞,而停用詞是指不可能成為主題詞的一些詞,例如形容詞(美麗的、卓越的)、副詞(的、 地)等。優(yōu)選地,主題詞是名詞。次優(yōu)地,主題詞也可以是動(dòng)詞??梢岳米詣?dòng)詞性標(biāo)注的 結(jié)果來實(shí)現(xiàn)步驟302的過濾。在步驟303中,計(jì)算過濾后的文檔中的每個(gè)剩余詞與實(shí)體詞 的距離。剩余詞是指經(jīng)過濾后,該文檔剩下的詞。剩余詞與實(shí)體詞的距離是指,剩余詞與實(shí) 體詞之間所間隔的詞數(shù),這里計(jì)算所間隔的詞數(shù)時(shí)也要將被過濾掉的實(shí)體詞、候選實(shí)體詞 和停用詞計(jì)算在內(nèi)。這樣做的依據(jù)是,通常主題詞與實(shí)體詞間的平均距離要比非主題詞與 實(shí)體詞間的平均距離小。在步驟304中,計(jì)算過濾后的文檔中的每個(gè)剩余詞與實(shí)體詞在同 一句話中出現(xiàn)的頻率。本領(lǐng)域技術(shù)人員可以了解,步驟303和步驟304集中體現(xiàn)了主題詞 是與實(shí)體詞相關(guān)的,也就是依據(jù)特定的被識(shí)別出的實(shí)體詞來識(shí)別主題詞。尤其需要指出的 是,步驟303和步驟304只是體現(xiàn)主題詞與實(shí)體詞的關(guān)系的兩個(gè)示例性參數(shù),能夠體現(xiàn)主題 詞與實(shí)體詞的關(guān)系的參數(shù)還可以包括很多種,例如實(shí)體詞與主題詞在同一段落里同時(shí)出現(xiàn) 的頻率、實(shí)體詞與主題詞在指定的距離范圍內(nèi)出現(xiàn)的頻率、實(shí)體詞與主題詞在文檔的子標(biāo) 題和子標(biāo)題下屬的內(nèi)容中同時(shí)出現(xiàn)的頻率等。所謂實(shí)體詞與主題詞在指定的距離范圍內(nèi)出 現(xiàn)的頻率,是指與實(shí)體詞相隔某特定距離(如3個(gè)詞)出現(xiàn)主題詞的次數(shù),也就是說,如果 一個(gè)詞在與所識(shí)別的主題詞相隔3個(gè)詞之內(nèi)出現(xiàn),不論是相隔2個(gè)詞還是相隔1個(gè)詞,都可 就該特征值獲得相同的權(quán)重和分值(特定距離內(nèi)不再區(qū)分)。而所謂實(shí)體詞與主題詞在文 檔的子標(biāo)題和子標(biāo)題下屬的內(nèi)容中同時(shí)出現(xiàn)的頻率是指,在某些網(wǎng)絡(luò)文檔中,除了主標(biāo)題 以外,還存在多個(gè)子標(biāo)題,并且每個(gè)子標(biāo)題下都附帶有一段關(guān)于該子標(biāo)題的內(nèi)容,因此在文 檔的子標(biāo)題和子標(biāo)題下屬的內(nèi)容中同時(shí)出現(xiàn)實(shí)體詞和主題詞的頻率也能夠體現(xiàn)實(shí)體詞和 主題詞的關(guān)系。綜上所述,可以由多種參數(shù)(特征值)來體現(xiàn)實(shí)體詞和主題詞的關(guān)系,體現(xiàn) 依據(jù)所識(shí)別的實(shí)體詞來識(shí)別主題詞的“依據(jù)關(guān)系”。除了上面列舉的多種參數(shù)(特征值外), 無論本領(lǐng)域技術(shù)人員利用何種參數(shù),只要該參數(shù)能夠體現(xiàn)實(shí)體詞和主題詞的關(guān)聯(lián),也就是 依據(jù)所識(shí)別的實(shí)體詞來識(shí)別主題詞,都落入本發(fā)明的保護(hù)范圍。在步驟305中,對(duì)每個(gè)剩余詞抽取其特征值,構(gòu)成其特征向量。步驟305中抽取的 特征包括在步驟303和304中算得的距離和頻率,還包括剩余詞與實(shí)體詞無關(guān)的其它一些 特征,例如剩余詞在該篇文檔中出現(xiàn)的頻率、剩余詞的長(zhǎng)度、具有同一被識(shí)別出的實(shí)體詞的 文檔集合中包括該剩余詞的文檔的篇數(shù)等。在步驟306中,設(shè)定識(shí)別主題詞的閾值,并且設(shè)定特征向量中的每個(gè)特征的權(quán)重值。同在步驟205中設(shè)定識(shí)別實(shí)體詞的閾值并且對(duì)特征向 量中的每個(gè)特征值設(shè)定權(quán)重的步驟相同,步驟306也通過機(jī)器學(xué)習(xí)的方式設(shè)定識(shí)別主題詞 的閾值以及特征向量中的每個(gè)特征的權(quán)重值。在步驟307中,對(duì)每一個(gè)剩余詞,根據(jù)所設(shè)定 的權(quán)重值和特征向量Y= Iy1, y2,…,yj計(jì)算分?jǐn)?shù)。計(jì)算公式為其中,c表示在步驟306中設(shè)定的閾值,wj表示特征yj所占的權(quán)重值,wj可以為 正值,也可以為負(fù)值,當(dāng)wj為負(fù)值時(shí)表示對(duì)具有特征yj的剩余詞被選為主題詞具有負(fù)作 用。在步驟307中依據(jù)上述公式算得剩余詞的分?jǐn)?shù)之后,在步驟308中將所算得的分?jǐn)?shù)與 在步驟306中設(shè)定的閾值比較,如果score (y)的值大于0,則將該剩余詞識(shí)別為主題詞,如 果score (y)值小于0,則不將該剩余詞識(shí)別為主題詞。至此,對(duì)每一個(gè)剩余詞都進(jìn)行相同的 處理和判斷,過濾識(shí)別出該文檔的對(duì)應(yīng)于先前被識(shí)別出的實(shí)體詞的主題詞。下面給出一個(gè)對(duì)某篇具體的中文文檔識(shí)別其實(shí)體詞,并依據(jù)所識(shí)別的實(shí)體詞識(shí)別 其主題詞的實(shí)例1.利用FNER技術(shù)實(shí)現(xiàn)實(shí)體詞識(shí)別步驟1自動(dòng)分詞及自動(dòng)詞性標(biāo)注假設(shè)某給定的中文文檔如圖5A所示。用程序?qū)υ撐臋n分詞后效果如圖5B所示, 利用程序進(jìn)行自動(dòng)詞性標(biāo)注后效果如圖5C所示,其中/n表示名詞/V表示動(dòng)詞/a表示形 容詞/m表示數(shù)字。步驟2識(shí)別候選實(shí)體詞如圖5D所示,抽取的候選實(shí)體詞包括公司名“建華”(根據(jù)周圍的數(shù)碼、公司等判 定)、地點(diǎn)名“中山”(通過邊上的南遷判定)和人名“張三”(通過邊上的總經(jīng)理判定),這 些候選實(shí)體詞在圖5D中由黑體表示。步驟3對(duì)于每個(gè)候選實(shí)體詞,抽出一系列的特征,例如,該候選實(shí)體詞在文章中出 現(xiàn)的頻率,是否在標(biāo)題中出現(xiàn),其左邊和右邊的詞是否是候選實(shí)體詞,候選實(shí)體詞在文章中 的分布,等等。比如簡(jiǎn)單來說,如果只考慮頻率信息的特征統(tǒng)計(jì)如下建華標(biāo)題出現(xiàn)1次正文出現(xiàn)4次中山正文出現(xiàn)1次張三正文出現(xiàn)1次步驟4根據(jù)步驟3中識(shí)別的候選實(shí)體詞,對(duì)每個(gè)候選實(shí)體詞的特征向量X = Ix1, χ 2,…,xj應(yīng)用FNER分類模型(機(jī)器學(xué)習(xí)得到),從而得到一個(gè)估計(jì)分值(概率),大于 設(shè)定的閾值,則判定為實(shí)體詞(focusedentity)。利用下列公式計(jì)算每個(gè)候選實(shí)體詞的分?jǐn)?shù)score (χ)
mscore (χ) = b + ^w^x·^
j=i圖5E的表中示出了利用上述公式計(jì)算實(shí)體詞的過程和結(jié)果。其中,圖5E的表中 的閾值0.5相當(dāng)于公式中的b的相反數(shù),即-b。因此,上例中得到的實(shí)體詞為建華。2.依據(jù)所識(shí)別的實(shí)體詞“建華”來識(shí)別主題詞的具體過程。
步驟1根據(jù)每一個(gè)識(shí)別得到實(shí)體詞,需要對(duì)該文檔進(jìn)行分詞和詞性標(biāo)注。經(jīng)自動(dòng) 分詞和自動(dòng)詞性標(biāo)注處理后的文檔如圖5C所示。需要指出的是,在識(shí)別實(shí)體詞時(shí)已經(jīng)進(jìn)行 了自動(dòng)分詞處理和詞性標(biāo)注處理,因此通常在識(shí)別主題詞時(shí)無需再次進(jìn)行自動(dòng)分詞和詞性 標(biāo)注處理。步驟2選擇關(guān)注的詞性類別(通常為名詞)并過濾文檔中的停用詞(比如的。,) 以及所識(shí)別出的實(shí)體詞。上述文檔經(jīng)過過濾處理后結(jié)果如圖5F所示(斜體并添加下劃線 標(biāo)記的為被過濾的實(shí)體詞)。需要指出的是,“張三”和“中山”兩個(gè)候選實(shí)體詞已經(jīng)被過濾 掉而未在圖5F中示出,“建華”實(shí)際上也被過濾掉,但是由于在識(shí)別主題詞時(shí)要依據(jù)所識(shí)別 的實(shí)體詞“建華”,因此在圖5F中將“建華”以斜體并添加下劃線的方式表示。步驟3通過考慮該文檔的剩余詞(即該文檔被過濾掉所有的候選實(shí)體詞之后剩下 的詞)離開所識(shí)別的實(shí)體詞的距離、剩余詞與所識(shí)別的實(shí)體詞在同一句話中出現(xiàn)的頻率、 剩余詞在文檔中出現(xiàn)的次數(shù)等參數(shù)來應(yīng)用FTD主題詞識(shí)別技術(shù)(通過機(jī)器學(xué)習(xí)得到),并輸 出主題詞。比如該中文文檔中的詞的頻率較高的為數(shù)碼標(biāo)題1次,正文6次公司正文3次產(chǎn)業(yè)標(biāo)題1次正文1次科技正文2次對(duì)每一個(gè)剩余詞,根據(jù)所設(shè)定的權(quán)重值和特征向量Y= {yi;y2,…,ym}計(jì)算分?jǐn)?shù)。 計(jì)算公式為
/ 、 01score (y) = c +^Cwj ^j)
.j.=L圖5G的表中示出了通過上述公式計(jì)算主題詞的過程和結(jié)果。其中,圖5G的表中 的閾值0.5相當(dāng)于公式中的c的相反數(shù),即-C。因此,上例中得到的主題詞為“數(shù)碼”。那 么,實(shí)體詞_主題詞對(duì)即為“建華_數(shù)碼”。注文檔1中的詞“月”、“日”、“年”等通常會(huì)應(yīng)為長(zhǎng)度太短而得到較低的分?jǐn)?shù)(太 短的詞表達(dá)的意思通常有限)。下面給出一個(gè)對(duì)某篇具體的英文文檔識(shí)別其實(shí)體詞,并依據(jù)所識(shí)別的實(shí)體詞識(shí)別 其主題詞的實(shí)例1.利用FNER技術(shù)實(shí)現(xiàn)實(shí)體詞識(shí)別步驟1自動(dòng)詞性標(biāo)注假設(shè)某給定的英文文檔如圖6A所示。利用程序進(jìn)行自動(dòng)詞性標(biāo)注后效果如圖6B 所示,其中/n表示名詞/V表示動(dòng)詞/a表示形容詞/m表示數(shù)字。需要指出的是,對(duì)于英文 文檔而言,無需進(jìn)行自動(dòng)分詞。步驟2識(shí)別候選實(shí)體詞如圖6C所示,抽取的候選實(shí)體詞包括公司名“ JIANHUA” (根據(jù)周圍TV等判定)、 地點(diǎn)名“Beijing”和“China” (通過邊上的in、of等判定),這些候選實(shí)體詞在圖6C中由
黑體表示。步驟3對(duì)于每個(gè)候選實(shí)體詞,抽出一系列的特征,例如,該候選實(shí)體詞在文章中出
12現(xiàn)的頻率,是否在標(biāo)題中出現(xiàn),其左邊和右邊的詞是否是候選實(shí)體詞,候選實(shí)體詞在文章中 的分布,等等。比如簡(jiǎn)單來說,如果只考慮頻率信息的特征統(tǒng)計(jì)如下JIANHUA標(biāo)題出現(xiàn)1次正文出現(xiàn)2次China正文出現(xiàn)2次Beijing正文出現(xiàn)1次步驟4根據(jù)步驟3中識(shí)別的候選實(shí)體詞,對(duì)每個(gè)候選實(shí)體詞的特征向量X = Ix1, X2, -,XfflI應(yīng)用FNER分類模型(機(jī)器學(xué)習(xí)得到),從而得到一個(gè)估計(jì)分值(概率),大于設(shè) 定的閾值,則判定為實(shí)體詞(focusedentity)。利用下列公式計(jì)算每個(gè)候選實(shí)體詞的分?jǐn)?shù)score (χ)
mscore (χ) = b + Y^iw^x^
j=i圖6D的表中示出了利用上述公式計(jì)算實(shí)體詞的過程和結(jié)果。其中,圖6D的表中 的閾值0. 5相當(dāng)于公式中的b的相反數(shù),即-b。因此,上例中得到的實(shí)體詞為JIANHUA2.依據(jù)所識(shí)別的實(shí)體詞“JIANHUA”來識(shí)別主題詞的具體過程。步驟1根據(jù)每一個(gè)識(shí)別得到實(shí)體詞,需要對(duì)該英文文檔進(jìn)行詞性標(biāo)注(不需要進(jìn) 行自動(dòng)分詞)。經(jīng)詞性標(biāo)注處理后的文檔如圖6B所示。需要指出的是,在識(shí)別實(shí)體詞時(shí)已 經(jīng)進(jìn)行了詞性標(biāo)注處理,因此通常在識(shí)別主題詞時(shí)無需再次進(jìn)行詞性標(biāo)注處理。步驟2選擇關(guān)注的詞性類別(通常為名詞)并過濾文檔中的停用詞(比如of)以 及候選實(shí)體詞。上述文檔經(jīng)過過濾處理后結(jié)果如圖6E所示(斜體并添加下劃線標(biāo)記的為 被過濾的實(shí)體詞)。需要指出的是,China和Beijing兩個(gè)候選實(shí)體詞已經(jīng)被過濾掉而未在 圖6E中示出,JIANHUA實(shí)際上也被過濾掉,但是由于在識(shí)別主題詞時(shí)要依據(jù)所識(shí)別的實(shí)體 詞JIANHUA,因此在圖6E中將JIANHUA以斜體并添加下劃線的方式表示。步驟3通過考慮該文檔的剩余詞(即該文檔被過濾掉所有的候選實(shí)體詞之后剩下 的詞)離開所識(shí)別的實(shí)體詞的距離、剩余詞與所識(shí)別的實(shí)體詞在同一句話中出現(xiàn)的頻率、 剩余詞在文檔中出現(xiàn)的次數(shù)等參數(shù)來應(yīng)用FTD主題詞識(shí)別技術(shù)(通過機(jī)器學(xué)習(xí)得到),并輸 出主題詞。比如該英文文檔中的詞的頻率較高的為Home標(biāo)題1次正文3次Appliance標(biāo)題1次正文3次TV標(biāo)題1次,正文2次Outlet標(biāo)題1次正文1次Exhibition 正文 1 次對(duì)每一個(gè)剩余詞,根據(jù)所設(shè)定的權(quán)重值和特征向量Y= {yi;y2,…,ym}計(jì)算分?jǐn)?shù)。 計(jì)算公式為
/ \ mscore (y) = c + ^C^*^)
j=!圖6F的表中示出了通過上述公式計(jì)算主題詞的過程和結(jié)果。其中,圖6F的表中 的閾值0.5相當(dāng)于公式中的c的相反數(shù),即-C。因此,上例中得到的主題詞為“TV”。那么,該英文文檔被識(shí)別出的實(shí)體詞_主題詞對(duì)即為“JIANHUA-TV”。通過上面給出的對(duì)中文文檔和英文文檔識(shí)別實(shí)體詞,并依據(jù)實(shí)體詞識(shí)別主題詞的 示例可以看出,無論文檔是何種語言,均可以通過本發(fā)明的方法和系統(tǒng)對(duì)其進(jìn)行識(shí)別實(shí)體 詞和主題詞的操作。圖7示出了以圖1所示的文檔處理方法為基礎(chǔ)的、包含了對(duì)處理后的文檔的過濾 步驟的流程圖。圖7與圖1的區(qū)別在于增加了步驟701和步驟706。在步驟701中,接收 被企業(yè)搜索服務(wù)的用戶推薦的種子文檔,以生成種子文檔集。在企業(yè)搜索服務(wù)環(huán)境下,用戶 通過某種途徑獲得了一篇其認(rèn)為比較有價(jià)值、可能會(huì)對(duì)其它用戶的搜索有幫助的文檔,就 可以將這篇文檔推薦至企業(yè)搜索服務(wù)的數(shù)據(jù)源存儲(chǔ)中心,成為種子文檔,所有由用戶推薦 的種子文檔即構(gòu)成種子文檔集。執(zhí)行推薦操作的具體方式優(yōu)選地可以是用戶通過點(diǎn)擊企業(yè) 搜索系統(tǒng)中的“推薦”按鈕,而導(dǎo)入其認(rèn)為有價(jià)值的文檔并將該文檔發(fā)布在企業(yè)搜索系統(tǒng)的 搜索數(shù)據(jù)源中(種子文檔集)。步驟702-705分別為圖1中的步驟101-104,該4個(gè)步驟的 詳細(xì)內(nèi)容已在上文中介紹,在此不再詳述。接下來,在步驟706中對(duì)擴(kuò)展得到的擴(kuò)展文檔集 進(jìn)行過濾,這相當(dāng)于對(duì)擴(kuò)展文檔集進(jìn)行精簡(jiǎn),刪除一些價(jià)值不大的文檔。這樣做的原因是, 在步驟705中,會(huì)將所有包含被用于進(jìn)行網(wǎng)絡(luò)搜索的關(guān)鍵詞——即實(shí)體詞_主題詞對(duì)的文 檔從網(wǎng)絡(luò)上下載下來,以形成擴(kuò)展文檔集。而事實(shí)上很多這樣的新的文檔雖然包括了實(shí)體 詞——主題詞對(duì)這樣的關(guān)鍵詞,但是文檔本身所關(guān)注的實(shí)體和主題與企業(yè)搜索服務(wù)的用戶 所關(guān)注的實(shí)體和主題相差甚遠(yuǎn),也就是說,僅通過步驟705而形成的擴(kuò)展文檔集會(huì)包含很 多“噪音”(沒有價(jià)值或者不被用戶感興趣的文檔),這是由于通用的互聯(lián)網(wǎng)搜索引擎本身 搜索結(jié)果準(zhǔn)確度有限,通常的搜索引擎是基于關(guān)鍵詞的搜索,所以,返回的搜索結(jié)果雖然包 括搜索的關(guān)鍵詞,但不一定是就是文章的主題。因此需要用之前從網(wǎng)絡(luò)上搜索并下載這些 新的文檔的關(guān)鍵詞——即實(shí)體詞-主題詞對(duì),對(duì)擴(kuò)展文檔集進(jìn)行過濾形成過濾文檔集,以去 除擴(kuò)展文檔集中的“噪音”,從而提高擴(kuò)展種子文檔集的精度和準(zhǔn)確度。應(yīng)當(dāng)了解,對(duì)擴(kuò)展文 檔集進(jìn)行過濾的步驟706不是必需的,因?yàn)榭梢愿鶕?jù)不同的對(duì)文檔擴(kuò)展精度的需求而決定 是否需要去除擴(kuò)展文檔集中可能包含的“噪音”。通過圖7所示的方法,既可以從網(wǎng)絡(luò)上自 動(dòng)下載新的文檔,從而實(shí)現(xiàn)對(duì)文檔的擴(kuò)展,又可以對(duì)下載的新的文檔進(jìn)行過濾,從而保證了 文檔擴(kuò)展的精度和準(zhǔn)確度,不會(huì)過度地消耗存儲(chǔ)資源。需要指出的是,雖然在圖7中,過濾文檔的步驟是針對(duì)在圖1中步驟104生成的擴(kuò) 展文檔集的文檔進(jìn)行的,而且過濾所用的實(shí)體詞_主題詞對(duì)是在圖1所示的步驟103中生 成的實(shí)體詞-主題詞對(duì),但是本領(lǐng)域技術(shù)人員可以理解,“過濾”所針對(duì)的對(duì)象可以是任意 的文檔,可以人為地給定一個(gè)范圍很大的文檔集(如限定某存儲(chǔ)裝置中存儲(chǔ)的所有文檔均 是需要被過濾的文檔),也可以通過網(wǎng)絡(luò)(如因特網(wǎng)、以太網(wǎng)、企業(yè)內(nèi)部局域網(wǎng)、城域網(wǎng)、無 線通信網(wǎng)絡(luò))等以一定的限定條件(如關(guān)鍵詞)或者沒有任何限定條件地獲取大量的文 檔,將這些文檔組成的文檔集作為要被過濾的候選文檔集,也可能是,企業(yè)搜索的用戶向企 業(yè)搜索系統(tǒng)推薦了過多的文檔,為了去除一些價(jià)值不大的推薦文檔,不是如圖7所示的流 程那樣對(duì)這些推薦的文檔進(jìn)行擴(kuò)展,而是利用給定的實(shí)體詞_主題詞對(duì)過濾這些推薦的文 檔。需要強(qiáng)調(diào)的是,候選文檔集是由一篇或多篇候選文檔組成的文檔集合,其中每篇候選 文檔都需要進(jìn)行過濾操作。作為一種優(yōu)選的實(shí)施方式,這樣的候選文檔集可以來自于按照 圖1所示的步驟在步驟104中生成的擴(kuò)展文檔集,也就是說,擴(kuò)展文檔集中的擴(kuò)展文檔的一部分或者全部是需要進(jìn)行過濾的候選文檔,也就是說,圖7A所示的候選文檔集是圖1所示 的擴(kuò)展文檔集的子集,或者候選文檔集與擴(kuò)展文檔集具有交集。如果某文檔不需要進(jìn)行過 濾,那么該文檔就不是候選文檔,從而不包含在候選文檔集中,無論該文檔是否處于圖1所 示的步驟104中生成的擴(kuò)展文檔集中,也無論該文檔是否與其它候選文檔在物理上存儲(chǔ)在 同一存儲(chǔ)裝置中,或者是否以相同的方式獲得。圖7所示的步驟701-705在圖7A中不是必 需的步驟,因?yàn)樽鳛檫^濾依據(jù)的“實(shí)體詞_主題詞對(duì)”也可以是采用種種方式給定的(如手 動(dòng)輸入給定、通過網(wǎng)絡(luò)遠(yuǎn)程給定、以一定規(guī)則對(duì)任意文檔選取關(guān)鍵詞給定)實(shí)體詞_主題 詞對(duì),而不是在圖1所示的步驟103中通過識(shí)別種子文檔的實(shí)體詞和主題詞所組成的實(shí)體 詞-主題詞對(duì)。本領(lǐng)域技術(shù)人員可以直接利用給定的實(shí)體詞-主題詞對(duì),對(duì)任意候選文檔集 (無論該任意文檔集的來源如何)進(jìn)行過濾,簡(jiǎn)而言之,圖7所示的流程圖還可以是圖7A 步驟701A——給定實(shí)體詞-主題詞對(duì);步驟702A——給定候選文檔集;步驟703A——利用 所述給定的實(shí)體詞_主題詞對(duì)中的實(shí)體詞和主題詞過濾所述候選文檔集,以生成過濾文檔 集。圖7A和圖7的聯(lián)系在于,步驟701A中給定的實(shí)體詞-主題詞對(duì)可以來自于圖7的步 驟704中組成的實(shí)體詞-主題詞對(duì),且步驟702A中給定的候選文檔可以是圖7的步驟701 中的種子文檔。在步驟701A接收的全部實(shí)體詞-主題詞對(duì)中的所有實(shí)體詞可以組成實(shí)體 詞集合,而對(duì)于這個(gè)實(shí)體詞集合中的每個(gè)實(shí)體詞,又可以將該實(shí)體詞所對(duì)應(yīng)的所有主題詞 組成對(duì)應(yīng)于該實(shí)體詞的主題詞集合,這里的“對(duì)應(yīng)”是指通過實(shí)體詞_主題詞對(duì)表現(xiàn)出的對(duì) 應(yīng)關(guān)系。圖8示出了根據(jù)本發(fā)明一實(shí)施例的過濾擴(kuò)展文檔集的方法的流程圖。對(duì)擴(kuò)展文檔 集中的每一篇擴(kuò)展文檔執(zhí)行步驟801-806,也就是通過對(duì)每一篇擴(kuò)展文檔的過濾實(shí)現(xiàn)對(duì)整 個(gè)擴(kuò)展文檔集的過濾。首先在步驟801中識(shí)別該擴(kuò)展文檔的實(shí)體詞,然后在步驟802中依 據(jù)所識(shí)別的實(shí)體詞,識(shí)別該擴(kuò)展文檔的與所依據(jù)的實(shí)體詞相關(guān)的主題詞。步驟801和802 識(shí)別擴(kuò)展文檔集中的擴(kuò)展文檔的實(shí)體詞和主題詞的方式與識(shí)別種子文檔集中的種子文檔 的實(shí)體詞和主題詞的方式相同,具體內(nèi)容參見圖2和圖3以及相應(yīng)的文字部分,在此不再詳 述。識(shí)別出該擴(kuò)展文檔的實(shí)體詞和主題詞后,在步驟803中將識(shí)別出的該擴(kuò)展文檔的實(shí)體 詞與種子文檔集中的實(shí)體詞集合中的實(shí)體詞進(jìn)行比較,判斷種子文檔集中的實(shí)體詞集合中 是否存在某實(shí)體詞與在步驟801中識(shí)別出的擴(kuò)展文檔的實(shí)體詞相同,如果存在,則進(jìn)行后 續(xù)判斷步驟804 ;如果所有的種子文檔集中的實(shí)體詞集合中的實(shí)體詞均與在步驟801中識(shí) 別出的擴(kuò)展文檔的實(shí)體詞不同,則在步驟806中確定該擴(kuò)展文檔集中的文檔為需要被去除 的“噪音”,從而不將該文檔加入過濾文檔集。所謂種子文檔集中的實(shí)體詞集合是指對(duì)種子 文檔集中的每篇種子文檔執(zhí)行步驟圖1所示的101-104操作后所識(shí)別的全部實(shí)體詞的集 合。需要指出的是,步驟802和803并沒有絕對(duì)的執(zhí)行上的先后順序,既可以先識(shí)別出擴(kuò)展 文檔的實(shí)體詞和主題詞后再進(jìn)行步驟803的判斷,也可以識(shí)別出擴(kuò)展文檔的實(shí)體詞之后就 直接進(jìn)行步驟803的判斷,判斷結(jié)束后再應(yīng)需要進(jìn)行步驟802識(shí)別主題詞。在步驟804中,進(jìn)一步判斷該擴(kuò)展文檔依據(jù)該實(shí)體詞所識(shí)別出的主題詞是否與依 據(jù)所述種子文檔集的實(shí)體詞集合中的所述某相同的實(shí)體詞而識(shí)別出的某主題詞相同,如果 存在這樣的種子文檔集中的某主題詞,則進(jìn)行至步驟805,將該擴(kuò)展文檔加入過濾文檔集, 否則進(jìn)行至步驟806,確定該擴(kuò)展文檔為需要被過濾的“噪音”,從而不將該擴(kuò)展文檔加入過 濾文檔集。綜上所述,通過圖8所示的過濾擴(kuò)展文檔集的方法,可以實(shí)現(xiàn)去除擴(kuò)展文檔集中
15的“噪音”擴(kuò)展文檔的目的,從而提高擴(kuò)展種子文檔集的精度。顯而易見,在企業(yè)搜索服務(wù) 環(huán)境下,種子文檔集和過濾文檔集是企業(yè)搜索服務(wù)數(shù)據(jù)源中的文檔集,可以供企業(yè)搜索用 戶檢索,而擴(kuò)展文檔集由于其中存在“噪音”,因此不是企業(yè)搜索服務(wù)數(shù)據(jù)源中的文檔集。當(dāng) 然,在不需要對(duì)擴(kuò)展文檔集中的噪音進(jìn)行過濾,也就是對(duì)擴(kuò)展文檔的精度要求不高的情況 下,由于不存在過濾文檔集,因此種子文檔集和擴(kuò)展文檔集是企業(yè)搜索服務(wù)數(shù)據(jù)源中的文 檔集。需要指出的是,盡管圖8示出的是對(duì)圖1所示的步驟104生成的擴(kuò)展文檔集進(jìn) 行過濾的詳細(xì)步驟,但是顯而易見,圖8所示的步驟同樣適用與在圖7A所示的給定實(shí)體 詞_主題詞的情況下,對(duì)候選文檔集進(jìn)行過濾的過程,只要將圖8各步驟中的“擴(kuò)展文檔”替 換為“候選文檔”,將“種子文檔集的實(shí)體詞集合”替換為“給定的實(shí)體詞_主題詞對(duì)的實(shí)體 詞集合”即可,具體參見圖8A所示。圖9示出了根據(jù)本發(fā)明的文檔處理系統(tǒng)的結(jié)構(gòu)圖。該系統(tǒng)在圖9中總體上由900 表示。具體地,圖9所示的系統(tǒng)被配置為對(duì)種子文檔集中的每篇種子文檔執(zhí)行下列操作以 生成擴(kuò)展文檔集。系統(tǒng)900包括實(shí)體詞識(shí)別裝置901、主題詞識(shí)別裝置902、配對(duì)裝置903和 文檔擴(kuò)展裝置904。實(shí)體詞識(shí)別裝置901識(shí)別該種子文檔的實(shí)體詞。主題詞識(shí)別裝置902 耦合于實(shí)體詞識(shí)別裝置901,依據(jù)所識(shí)別的實(shí)體詞識(shí)別該種子文檔的主題詞。配對(duì)裝置903 將實(shí)體詞識(shí)別裝置901識(shí)別出的實(shí)體詞,以及主題詞識(shí)別裝置902依據(jù)該實(shí)體詞識(shí)別出的 主題詞組成實(shí)體詞_主題詞對(duì)。文檔擴(kuò)展裝置904將配對(duì)裝置903配成的實(shí)體詞-主題詞 對(duì)中的實(shí)體詞和主題詞同時(shí)作為關(guān)鍵詞,利用網(wǎng)絡(luò)搜索下載新的文檔,以形成由所述擴(kuò)展 文檔組成的擴(kuò)展文檔集。需要指出的是,圖9所示的系統(tǒng)中的裝置901-904分別對(duì)應(yīng)于圖 1所示的方法中的步驟101-104,因此具體的實(shí)現(xiàn)過程在此不做詳述。本領(lǐng)域技術(shù)人員可以 了解,利用圖9所示的系統(tǒng)可以對(duì)種子文檔集進(jìn)行自動(dòng)擴(kuò)展,形成擴(kuò)展文檔集。在企業(yè)搜索 服務(wù)環(huán)境下,就是將搜索數(shù)據(jù)源的內(nèi)容從原先的種子文檔集自動(dòng)擴(kuò)展到種子文檔集和擴(kuò)展 文檔集的總和。圖10示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例的文檔處理系統(tǒng)的結(jié)構(gòu)圖。該系統(tǒng)在圖10 中總體上由1000表示。具體地,圖10所示的系統(tǒng)包括文檔接收裝置1001、實(shí)體詞識(shí)別裝置 1002、主題詞識(shí)別裝置1003、配對(duì)裝置1004、文檔擴(kuò)展裝置1005和文檔過濾裝置1006。與 圖7所示的系統(tǒng)相比,圖10所示的系統(tǒng)增加了文檔接收裝置1001和文檔過濾裝置1006。 文檔接收裝置1001接收被推薦的文檔,以形成種子文檔集,文檔過濾裝置1006對(duì)由文檔擴(kuò) 展1005得到的擴(kuò)展文檔集中的文檔進(jìn)行過濾,形成過濾文檔集,從而去除擴(kuò)展文檔集中的 “噪音”,提高擴(kuò)展種子文檔集的精度。需要指出的是,圖10所示的系統(tǒng)中的裝置1001-1006 分別對(duì)應(yīng)于圖7所示的方法中的步驟701-706,而文檔過濾裝置1006又可進(jìn)一步被配置為 實(shí)現(xiàn)圖8所示的方法中的步驟801-806。圖11示出了根據(jù)圖7A和圖8A所示的文檔處理方法的文檔處理系統(tǒng)的結(jié)構(gòu)圖。圖 11所示的系統(tǒng)在總體上由1100表示,具體地,系統(tǒng)1100包括接收裝置1101、實(shí)體詞識(shí)別裝 置1102、主題詞識(shí)別裝置1103和判斷裝置1104。接收裝置1101對(duì)應(yīng)于圖7A所示的步驟 701A,用于接收給定的實(shí)體詞-主題詞對(duì)。實(shí)體詞識(shí)別裝置1102對(duì)應(yīng)于圖8A所示的步驟 801A,用于識(shí)別給定的候選文檔集中的每篇候選文檔的實(shí)體詞。主題詞識(shí)別裝置1103對(duì)應(yīng) 于圖8A所示的步驟802A,用于依據(jù)所識(shí)別的實(shí)體詞識(shí)別該候選文檔與所依據(jù)的實(shí)體詞相關(guān)的主題詞。判斷裝置1104對(duì)應(yīng)于圖8A所示的步驟803A-805A,用于判斷是否將該候選文 檔加入過濾文檔集。圖12示出了根據(jù)本發(fā)明的方法的企業(yè)搜索服務(wù)系統(tǒng)的一種實(shí)現(xiàn)的結(jié)構(gòu)圖。下面 對(duì)圖12中所標(biāo)注的各個(gè)箭頭進(jìn)行詳細(xì)說明。箭頭1表示企業(yè)搜索服務(wù)用戶通過網(wǎng)絡(luò)信息 及服務(wù),而并非通過企業(yè)搜索服務(wù)系統(tǒng)本身去獲取其感興趣的文檔。圖12所示的網(wǎng)絡(luò)信 息及服務(wù)與企業(yè)搜索服務(wù)用戶之間的連接可以使用常規(guī)的網(wǎng)絡(luò)連接,例如令牌環(huán)、以太網(wǎng)、 WiFi或其它的常規(guī)通信標(biāo)準(zhǔn)。此外,所述的網(wǎng)絡(luò)可以包括任何類型網(wǎng)絡(luò),包括因特網(wǎng)、廣域 網(wǎng)(WAN)、局域網(wǎng)(LAN)、虛擬專用網(wǎng)(VPN)等。如果客戶機(jī)通過因特網(wǎng)與服務(wù)器通信,則可 以通過傳統(tǒng)的基于TCP/IP套接字的協(xié)議提供連接,并且客戶機(jī)將利用因特網(wǎng)服務(wù)提供商 建立與服務(wù)器的連接。箭頭2、3表示企業(yè)搜索服務(wù)用戶將其通過網(wǎng)絡(luò)信息及服務(wù)獲得的有 價(jià)值的文檔經(jīng)由信息推薦模塊向企業(yè)搜索服務(wù)系統(tǒng)的信息存儲(chǔ)裝置推薦。信息存儲(chǔ)裝置是 用于存儲(chǔ)企業(yè)搜索服務(wù)的搜索數(shù)據(jù)源的存儲(chǔ)裝置。箭頭4表示信息智能擴(kuò)展模塊接收信息 存儲(chǔ)裝置中存儲(chǔ)的由用戶推薦的文檔,對(duì)這些文檔進(jìn)行擴(kuò)展操作。信息智能擴(kuò)展模塊包括 自然語言處理模塊,可以進(jìn)行FNER實(shí)體詞識(shí)別和FTD主題詞識(shí)別。箭頭5表示信息智能擴(kuò) 展模塊將識(shí)別出的實(shí)體詞和主題詞組成對(duì)后發(fā)送至信息定時(shí)下載模塊,由信息定時(shí)下載模 塊按照預(yù)定的時(shí)間間隔如箭頭6所示向網(wǎng)絡(luò)信息及服務(wù)提交搜索、下載的請(qǐng)求并下載擴(kuò)展 的新文檔。箭頭7表示信息定時(shí)下載模塊將下載下來的新文檔發(fā)送至信息智能擴(kuò)展模塊, 由信息智能擴(kuò)展模塊對(duì)這些新文檔進(jìn)行過濾,去除其中的“噪音”,然后信息智能擴(kuò)展模塊 將過濾后剩余的新文檔發(fā)送至信息存儲(chǔ)裝置,這些新文檔即與之前用戶推薦的文檔一起成 為企業(yè)搜索服務(wù)的搜索數(shù)據(jù)源。過濾,如箭頭9所示,企業(yè)搜索服務(wù)用戶可以通過信息檢索 模塊來從信息存儲(chǔ)裝置中存儲(chǔ)的被擴(kuò)展后的搜索數(shù)據(jù)源中檢索想要的文檔。從圖11所示 的系統(tǒng)可以看出,通過引入信息智能擴(kuò)展模塊和信息定時(shí)下載模塊,既可以定時(shí)從網(wǎng)絡(luò)上 自動(dòng)下載新的文檔,從而實(shí)現(xiàn)對(duì)文檔的擴(kuò)展,又可以對(duì)下載的新的文檔進(jìn)行過濾,從而保證 了文檔擴(kuò)展的精度和準(zhǔn)確度,不會(huì)過度地消耗企業(yè)搜索服務(wù)系統(tǒng)的信息存儲(chǔ)裝置的存儲(chǔ)資 源。通過以上對(duì)具體實(shí)施例的描述,本領(lǐng)域技術(shù)人員可以理解,上述的系統(tǒng)、裝置和方 法可以使用計(jì)算機(jī)可執(zhí)行指令和/或包含在處理器控制代碼中來實(shí)現(xiàn),例如在諸如磁盤、 CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲(chǔ)器(固件)的可編程的存儲(chǔ)器或者諸如光學(xué)或電 子信號(hào)載體的數(shù)據(jù)載體上提供了這樣的代碼。本實(shí)施例的裝置、服務(wù)器及其單元可以由諸 如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場(chǎng)可編程門 陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實(shí)現(xiàn),也可以用由各種類型的處理 器執(zhí)行的軟件實(shí)現(xiàn),也可以由上述硬件電路和軟件的結(jié)合實(shí)現(xiàn)。雖然以上結(jié)合具體實(shí)施例,對(duì)本發(fā)明的利用遠(yuǎn)程應(yīng)用處理本地文件的系統(tǒng)及方法 進(jìn)行了詳細(xì)描述,但本發(fā)明并不限于此。本領(lǐng)域普通技術(shù)人員能夠在說明書教導(dǎo)之下對(duì)本 發(fā)明進(jìn)行多種變換、替換和修改而不偏離本發(fā)明的精神和范圍。應(yīng)該理解,所有這樣的變 化、替換、修改仍然落入本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明的保護(hù)范圍由所附權(quán)利要求來限定。
權(quán)利要求
一種對(duì)種子文檔集中的種子文檔進(jìn)行擴(kuò)展的方法,其中所述種子文檔集包括至少一篇種子文檔,所述方法包括識(shí)別所述種子文檔的一個(gè)或多個(gè)實(shí)體詞,所述實(shí)體詞是表示所述種子文檔所關(guān)注的實(shí)體的詞;依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該實(shí)體詞所在的種子文檔的一個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的主題詞;將所識(shí)別的每個(gè)主題詞,以及識(shí)別所述每個(gè)主題詞時(shí)所依據(jù)的實(shí)體詞組成實(shí)體詞 主題詞對(duì);以及將每個(gè)所述實(shí)體詞 主題詞對(duì)中的實(shí)體詞和主題詞同時(shí)作為關(guān)鍵詞,通過網(wǎng)絡(luò)獲得一篇或多篇擴(kuò)展文檔,所述擴(kuò)展文檔既包含所述每個(gè)實(shí)體詞 主題詞對(duì)中的實(shí)體詞,也包含所述每個(gè)實(shí)體詞 主題詞對(duì)中的主題詞。
2.如權(quán)利要求1所述的方法,其中依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該實(shí)體詞所在的種 子文檔的一個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的主題詞,包括依據(jù)該種子文檔所包含的除 了所述一個(gè)或多個(gè)實(shí)體詞之外的其它詞與所依據(jù)的實(shí)體詞之間的距離,識(shí)別該實(shí)體詞所在 的種子文檔的一個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的主題詞。
3.如權(quán)利要求1所述的方法,其中依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該實(shí)體詞所在的種 子文檔的一個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的主題詞,包括依據(jù)該種子文檔所包含的除 了所述一個(gè)或多個(gè)實(shí)體詞之外的其它詞與所依據(jù)的實(shí)體詞同時(shí)在該種子文檔中的同一句 話中出現(xiàn)的頻率,識(shí)別該實(shí)體詞所在的種子文檔的一個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的 主題詞。
4.如權(quán)利要求1所述的方法,還包括接收被推薦的種子文檔,以形成所述種子文檔集。
5.如權(quán)利要求1-4任一所述的方法,其中利用焦點(diǎn)實(shí)體詞識(shí)別技術(shù)FNER來識(shí)別所述種 子文檔的一個(gè)或多個(gè)實(shí)體詞。
6.如權(quán)利要求1-5任一所述的方法,其中利用焦點(diǎn)主題詞識(shí)別技術(shù)FTD來識(shí)別所述種 子文檔的一個(gè)或多個(gè)主題詞。
7.一種對(duì)候選文檔集中的候選文檔進(jìn)行過濾的方法,所述候選文檔集包括至少一篇候 選文檔,所述方法包括接收給定的一個(gè)或多個(gè)實(shí)體詞_主題詞對(duì),每個(gè)所述給定的實(shí)體詞_主題詞對(duì)由一個(gè) 實(shí)體詞和一個(gè)主題詞組成,所述實(shí)體詞-主題詞對(duì)中的所有實(shí)體詞組成實(shí)體詞集合,并且 每個(gè)實(shí)體詞所在的實(shí)體詞_主題詞對(duì)中的所有主題詞組成對(duì)應(yīng)于該實(shí)體詞的主題詞集合; 以及識(shí)別所述候選文檔的一個(gè)或多個(gè)實(shí)體詞,所述實(shí)體詞是表示所述候選文檔所關(guān)注的實(shí) 體的詞;依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該實(shí)體詞所在的候選文檔的一個(gè)或多個(gè)與所依據(jù)的該 實(shí)體詞相關(guān)的主題詞;利用所述給定的實(shí)體詞-主題詞對(duì)中的實(shí)體詞和主題詞以及所述候選文檔被識(shí)別的 實(shí)體詞和主題詞,判斷是否將所述候選文檔加入過濾文檔集,響應(yīng)于判斷結(jié)果為是,將所述 候選文檔加入過濾文檔集。
8.如權(quán)利要求7所述的方法,其中依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別所述候選文檔的一個(gè)或多個(gè)與所依據(jù)的實(shí)體詞相關(guān)的主題詞,包括依據(jù)該候選文檔所包含的除了所述一個(gè)或 多個(gè)實(shí)體詞之外的其它詞與所依據(jù)的實(shí)體詞之間的距離,識(shí)別該候選文檔的一個(gè)或多個(gè)與 所依據(jù)的實(shí)體詞相關(guān)的主題詞。
9.如權(quán)利要求7所述的方法,其中依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別所述候選文檔的一 個(gè)或多個(gè)與所依據(jù)的實(shí)體詞相關(guān)的主題詞,包括依據(jù)所述候選文檔所包含的除了所述一個(gè) 或多個(gè)實(shí)體詞之外的其它詞與所依據(jù)的實(shí)體詞同時(shí)在所述候選文檔中的同一句話中出現(xiàn) 的頻率,識(shí)別所述候選文檔的一個(gè)或多個(gè)與所依據(jù)的實(shí)體詞相關(guān)的主題詞。
10.如權(quán)利要求7-9任一所述的方法,其中利用所述給定的實(shí)體詞-主題詞對(duì)中的實(shí)體 詞和主題詞、以及所述候選文檔被識(shí)別的實(shí)體詞和主題詞,判斷是否將所述候選文檔加入 過濾文檔集進(jìn)一步包括對(duì)所述候選文檔執(zhí)行下列操作響應(yīng)于所述候選文檔的實(shí)體詞與所述實(shí)體詞集合中的任一實(shí)體詞均不同,判斷不將所 述候選文檔加入所述過濾文檔集。
11.如權(quán)利要求7-9任一所述的方法,其中利用所述給定的實(shí)體詞-主題詞對(duì)中的實(shí)體 詞和主題詞、以及所述候選文檔被識(shí)別的實(shí)體詞和主題詞,判斷是否將所述候選文檔加入 過濾文檔集進(jìn)一步包括對(duì)所述候選文檔執(zhí)行下列操作響應(yīng)于所述候選文檔的實(shí)體詞與所述實(shí)體詞集合中的某實(shí)體詞相同,且依據(jù)所述候選 文檔的實(shí)體詞而識(shí)別出的所述候選文檔的主題詞與對(duì)應(yīng)于所述實(shí)體詞集合中的某實(shí)體詞 的主題詞集合中的任一主題詞均不同,判斷不將所述候選文檔加入所述過濾文檔集。
12.如權(quán)利要求7-9任一所述的方法,其中利用所述給定的實(shí)體詞-主題詞對(duì)中的實(shí)體 詞和主題詞、以及所述候選文檔被識(shí)別的實(shí)體詞和主題詞,判斷是否將所述候選文檔加入 過濾文檔集進(jìn)一步包括對(duì)所述候選文檔執(zhí)行下列操作響應(yīng)于所述候選文檔的實(shí)體詞與所述給定的實(shí)體詞_主題詞對(duì)的實(shí)體詞集合中的某 實(shí)體詞相同,且依據(jù)所述候選文檔的實(shí)體詞而識(shí)別出的所述候選文檔的主題詞與對(duì)應(yīng)于所 述實(shí)體詞集合中的某實(shí)體詞的主題詞集合中的某主題詞相同,判斷將所述候選文檔加入所 述過濾文檔集。
13.如權(quán)利要求7-12任一所述的方法,其中利用焦點(diǎn)實(shí)體詞識(shí)別技術(shù)FNER來識(shí)別所述 候選文檔的一個(gè)或多個(gè)實(shí)體詞。
14.如權(quán)利要求7-13任一所述的方法,其中利用焦點(diǎn)主題詞識(shí)別技術(shù)FTD來識(shí)別所述 候選文檔的一個(gè)或多個(gè)主題詞。
15.如權(quán)利要求7-14任一所述的方法,所述候選文檔集包括權(quán)利要求1-6中任一所述 的擴(kuò)展文檔的至少一部分。
16.如權(quán)利要求7-15任一所述的方法,所述給定的實(shí)體詞-主題詞對(duì)是權(quán)利要求1-6 中任一對(duì)所述種子文檔集中的所有種子文檔識(shí)別出的實(shí)體詞_主題詞對(duì)。
17.—種對(duì)種子文檔集中的種子文檔進(jìn)行擴(kuò)展的系統(tǒng),所述種子文檔集包括至少一篇 種子文檔,所述系統(tǒng)包括實(shí)體詞識(shí)別裝置,用于識(shí)別所述種子文檔的一個(gè)或多個(gè)實(shí)體詞,所述實(shí)體詞是表示該 文檔所關(guān)注的實(shí)體的詞;主題詞識(shí)別裝置,用于依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該實(shí)體詞所在的種子文檔的一 個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的主題詞;配對(duì)裝置,用于將所識(shí)別的每個(gè)主題詞,以及識(shí)別所述每個(gè)主題詞時(shí)所依據(jù)的實(shí)體詞 組成實(shí)體詞-主題詞對(duì);以及文檔擴(kuò)展裝置,將每個(gè)所述實(shí)體詞_主題詞對(duì)中的實(shí)體詞和主題詞同時(shí)作為關(guān)鍵詞, 通過網(wǎng)絡(luò)獲得一篇或多篇擴(kuò)展文檔,所述擴(kuò)展文檔既包含所述每個(gè)實(shí)體詞-主題詞對(duì)中的 實(shí)體詞,也包含所述每個(gè)實(shí)體詞-主題詞對(duì)中的主題詞。
18.如權(quán)利要求17所述的系統(tǒng),其中主題詞識(shí)別裝置被配置為利用焦點(diǎn)主題詞識(shí)別技 術(shù)FTD來識(shí)別所述種子文檔的一個(gè)或多個(gè)主題詞。
19.如權(quán)利要求17-18任一所述的系統(tǒng)還包括被配置為執(zhí)行權(quán)利要求2-5任一所述的 方法的裝置。
20.一種對(duì)候選文檔集中的候選文檔進(jìn)行過濾的系統(tǒng),所述候選文檔集包括至少一篇 候選文檔,所述系統(tǒng)包括接收裝置,用于接收給定的一個(gè)或多個(gè)實(shí)體詞_主題詞對(duì),每個(gè)所述給定的實(shí)體詞_主 題詞對(duì)由一個(gè)實(shí)體詞和一個(gè)主題詞組成,所述實(shí)體詞-主題詞對(duì)中的所有實(shí)體詞組成實(shí)體 詞集合,并且每個(gè)實(shí)體詞所在的實(shí)體詞-主題詞對(duì)中的所有主題詞組成對(duì)應(yīng)于該實(shí)體詞的 主題詞集合;以及實(shí)體詞識(shí)別裝置,用于識(shí)別所述候選文檔的一個(gè)或多個(gè)實(shí)體詞,所述實(shí)體詞是表示該 文檔所關(guān)注的實(shí)體的詞;主題詞識(shí)別裝置,用于依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該實(shí)體詞所在的候選文檔的一 個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的主題詞;判斷裝置,利用所述給定的實(shí)體詞_主題詞對(duì)中的實(shí)體詞和主題詞以及所述候選文檔 被識(shí)別的實(shí)體詞和主題詞,判斷是否將所述候選文檔加入過濾文檔集,并且響應(yīng)于判斷結(jié) 果為是,將所述候選文檔加入過濾文檔集。
21.如權(quán)利要求20所述的系統(tǒng),所述候選文檔集包括權(quán)利要求1-6中任一所述的擴(kuò)展 文檔的至少一部分。
22.如權(quán)利要求20所述的系統(tǒng),所述給定的實(shí)體詞-主題詞對(duì)是對(duì)權(quán)利要求1-6中任 一所述的種子文檔集中的所有種子文檔識(shí)別出的實(shí)體詞_主題詞對(duì)。
23.如權(quán)利要求20-22任一所述的系統(tǒng),還包括被配置為執(zhí)行權(quán)利要求8-16任一所述 的方法的裝置。
全文摘要
本發(fā)明涉及文檔處理技術(shù),更具體地,涉及在企業(yè)搜索領(lǐng)域擴(kuò)展作為搜索數(shù)據(jù)源的文檔集的方法和系統(tǒng)。本發(fā)明提供一種對(duì)種子文檔集中的種子文檔進(jìn)行擴(kuò)展的方法,其中所述種子文檔集包括至少一篇種子文檔,所述方法包括識(shí)別所述種子文檔的一個(gè)或多個(gè)實(shí)體詞,所述實(shí)體詞是表示所述種子文檔所關(guān)注的實(shí)體的詞;依據(jù)所識(shí)別的每個(gè)實(shí)體詞,識(shí)別該實(shí)體詞所在的種子文檔的一個(gè)或多個(gè)與所依據(jù)的該實(shí)體詞相關(guān)的主題詞;將所識(shí)別的每個(gè)主題詞以及識(shí)別所述每個(gè)主題詞時(shí)所依據(jù)的實(shí)體詞組成實(shí)體詞-主題詞對(duì);將每個(gè)所述實(shí)體詞-主題詞對(duì)中的實(shí)體詞和主題詞同時(shí)作為關(guān)鍵詞,通過網(wǎng)絡(luò)獲得一篇或多篇擴(kuò)展文檔。
文檔編號(hào)G06F17/30GK101901235SQ200910203108
公開日2010年12月1日 申請(qǐng)日期2009年5月27日 優(yōu)先權(quán)日2009年5月27日
發(fā)明者包勝華, 崔潔, 張俐, 蘇中, 蘇輝 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宜丰县| 达孜县| 安多县| 临邑县| 高密市| 南丹县| 潞西市| 郓城县| 阿荣旗| 河源市| 丹寨县| 于田县| 通道| 荣成市| 鹿泉市| 天台县| 财经| 罗甸县| 浮山县| 凌海市| 定西市| 甘洛县| 富裕县| 河曲县| 大埔县| 平远县| 喜德县| 观塘区| 鄯善县| 固始县| 海口市| 星座| 闸北区| 宣武区| 和田县| 罗山县| 霍邱县| 老河口市| 板桥市| 清水县| 余庆县|