欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

具有自動預(yù)過濾和路徑選擇的協(xié)作式主題服務(wù)器的制作方法

文檔序號:6418929閱讀:245來源:國知局
專利名稱:具有自動預(yù)過濾和路徑選擇的協(xié)作式主題服務(wù)器的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理和交換領(lǐng)域,特別是文件的存儲、組織和獲取領(lǐng)域。
可供訪問的信息量在不斷增加,并且信息量的增加速率也在加大。這種不斷增加的信息增長,導(dǎo)致了用來存儲、組織和獲取信息的不斷膨脹的資源。
傳統(tǒng)的搜索引擎,例如因特網(wǎng)上用來查找文件的搜索引擎,使用了各種技術(shù)響應(yīng)用戶查詢以快速找到用戶要求的文件。其中的一種技術(shù)便是建立一個對應(yīng)于萬維網(wǎng)上文件的索引數(shù)據(jù)庫。通過找出用戶請求和索引數(shù)據(jù)庫中信息的某種聯(lián)系,完成用戶請求的處理,而不是真的到萬維網(wǎng)上去找來響應(yīng)用戶請求。傳統(tǒng)的搜索引擎使用一種“爬行器(crawler)”來定位文件或更新文件。一旦一個新的或是更新的文件被定位,搜索引擎便生成一個對應(yīng)于該文件的目錄,其中包括比如文件中最常見單詞和詞組的列表。還存在一些可以代替以上步驟的技術(shù),即讓文件的創(chuàng)建者在文件中直接增添一些關(guān)鍵詞或詞組,而這些詞或詞組用來給文件編制索引。為了方便起見,下文中的關(guān)鍵字一詞就指文件索引中包含的某個詞,而不管將其放置在索引中的方法。當(dāng)用戶輸入一個查詢,搜索結(jié)果依據(jù)用戶查詢中的詞和文件索引中的關(guān)鍵詞的匹配。本領(lǐng)域的技術(shù)人員可以理解一個文件的目錄可能較大,萬維網(wǎng)上基本上所有文件的索引數(shù)據(jù)庫實(shí)際上極其龐大,而且將以不斷增長的速率繼續(xù)增加。1998年,因特網(wǎng)上每天約增加150萬頁,并且每天增速預(yù)計(jì)將繼續(xù)擴(kuò)大。除了增加了的存儲資源的代價外,隨著數(shù)據(jù)庫的擴(kuò)張數(shù)據(jù)庫查找技術(shù)的性能在下降。
隨著包含某個關(guān)鍵詞的文件越來越多,依據(jù)關(guān)鍵詞查找的文件獲取效率越來越低,也越來越不可行。在因特網(wǎng)上一次關(guān)鍵詞查找返回成千上萬與此關(guān)鍵詞相關(guān)的文件不足為奇,而其中的很多和用戶的查詢并無關(guān)聯(lián)。為了減少對于關(guān)鍵詞被識別文件的數(shù)目,用戶必須增加提供額外的關(guān)鍵詞或詞組來增加搜索參數(shù)。可是這樣做,如果用戶沒有選擇文件中的相同詞語,與用戶請求有關(guān)的文件又可能被排除在外。搜索引擎可以通過在用戶查詢自動增加同義詞從而增強(qiáng)性能,不過如此增加又將加劇所識別文件與用戶查詢無關(guān)的問題,盡管這些文件也包含了這些關(guān)鍵詞。
主題式分類為查找與用戶請求相關(guān)的文件提供了一種選擇更精細(xì)的方法,因?yàn)槟切┡c用戶請求具有相同主題的文件要比那些僅僅包含匹配單詞集合的文件更具備相同的信息。不過,確定文件的一個或多個主題比確定文件包含的詞更復(fù)雜。傳統(tǒng)上,主題的確定是一項(xiàng)人工密集的任務(wù),需要很多人閱讀和分類每個文件。信息科學(xué)領(lǐng)域中,基于統(tǒng)計(jì)學(xué)的算法和神經(jīng)網(wǎng),以及基于遺傳學(xué)的算法,和自動分類相似文件的研究方面不斷取得進(jìn)展。主題分類也為一般的瀏覽提供了一種高效的方法,用戶既可以選擇感興趣的主題又可以選取不感興趣的主題控制瀏覽過程。
對于可以通過主題分類的文件,那種基于關(guān)鍵詞的文件組織、存儲和獲取技術(shù)并不理想或令人滿意。僅僅用主題詞組代替關(guān)鍵詞的搜索引擎,并不能為不斷增加的信息量提供所需的搜索和存儲上的改進(jìn)。傳統(tǒng)的方式是建立越來越大的引擎和對應(yīng)與網(wǎng)上每個文件的索引數(shù)據(jù)庫,這種索引是基于單詞或詞組在文件中出現(xiàn)的頻率,這種方法對于組織和獲取基于主題的文件可能完全不可行。主題決定技術(shù)的一個不加選擇的應(yīng)用,舉例來說,也許僅僅是建立一個甚至更大的詞匯集,用戶必須使用這些詞匯來篩選相關(guān)文件,其固有的危險是用戶可能選擇不同與文件索引中的詞或詞組。因?yàn)榇蠖鄶?shù)文件包含多個主題,額外主題信息加進(jìn)已有索引實(shí)質(zhì)上也將增加存放這些信息的數(shù)據(jù)庫的大小。
本發(fā)明的一個目的是提供一種信息組織和獲取系統(tǒng),以有效組織文件從而基于主題內(nèi)容快速和高效的查找、獲取。本發(fā)明進(jìn)一步的目的是提供一種可以增強(qiáng)的信息組織和獲取系統(tǒng)。本發(fā)明另一個目的是提供一種支持上下文敏感搜索和獲取技術(shù)的信息組織和獲取系統(tǒng)。本發(fā)明還有一個目的,即提供這樣一種信息組織和獲取系統(tǒng),它允許用戶使用不同于用來組織這些信息的單詞。
這些目標(biāo)即其他目標(biāo)的達(dá)到,是通過提供一種信息組織和獲取系統(tǒng),該系統(tǒng)優(yōu)化為僅獲取那些與給定的一組主題相關(guān)的文件。本發(fā)明提供了一種方法和設(shè)備,通過協(xié)作式主題信息服務(wù)器網(wǎng)絡(luò),完成文件的自動預(yù)篩選和路徑選擇。信息服務(wù)器用來根據(jù)所選主題組組織和獲取文件。所選的該組主題組織成具有多個重疊的分層結(jié)構(gòu),和一個分布式軟件結(jié)構(gòu)用來支持基于主題的信息組織、路徑選擇和獲取服務(wù)。文件被自動預(yù)篩選以確定它們是否與所選主題組相關(guān),只有相關(guān)的文件才被確認(rèn)以供以后的獲取。文件可能和一個或多個主題相關(guān),它通過由信息服務(wù)器支持的主題分層結(jié)構(gòu)與每個主題聯(lián)系在一起。
在一個優(yōu)選實(shí)施方案中,通過提供一種支持使用基于用戶正在其中查找的上下文而增加查找準(zhǔn)則的預(yù)定義或用戶定義視圖從而增強(qiáng)獲取處理的方法和設(shè)備。
本發(fā)明中的組織和獲取處理也通過使用內(nèi)部一致的主題詞匯而得到增強(qiáng)。文件作者或搜索文件的用戶使用的用語和詞組,都被翻譯成通用的內(nèi)部詞匯,因此在允許單詞和詞組的多種選擇的同時,提供了增強(qiáng)了的組織和搜索能力。
以下以舉例的方式參考附圖詳細(xì)說明本發(fā)明,其中

圖1示出根據(jù)本發(fā)明的一種信息處理系統(tǒng)的示例性方塊圖。
圖2示出在根據(jù)本發(fā)明的一種信息處理系統(tǒng)中,文件和多個主題節(jié)點(diǎn)的聯(lián)系的示例。
圖3是通過根據(jù)本發(fā)明的一種信息處理系統(tǒng)來組織、搜索和獲取文件的流程圖示例。
根據(jù)本發(fā)明,文件是通過主題分類和組織的。單獨(dú)的服務(wù)器的網(wǎng)絡(luò)用來識別和獲取文件。通過設(shè)計(jì),每個服務(wù)器負(fù)責(zé)一個主題或多個主題的獨(dú)立的選定組。主題由服務(wù)網(wǎng)絡(luò)的提供者選擇,例如,基于預(yù)計(jì)的用戶對特定主題范圍的請求。當(dāng)每個新的主題被確認(rèn)需要加入,把它加在一個已有的服務(wù)器上,或者加入另外一個新增加的服務(wù)器上。這樣,主題的范圍就控制住了,并且通過增加網(wǎng)絡(luò)上的服務(wù)器仍然保持其可擴(kuò)展性。如果某個文件不具有網(wǎng)絡(luò)主題所包含的主題,它將被排除在提供的服務(wù)之外。相似的,如果某個文件包含所提供服務(wù)特地禁止的主題,它也被排除在外。在這個模型中,提供者有目的性的限制了所提供搜索和獲取的范圍,但是這樣做也提供了一種針對預(yù)期用戶請求的更有效的服務(wù)。隨著請求的增加,提供額外的主題和服務(wù)器,因此允許了所提供服務(wù)擴(kuò)展。
圖1描述了根據(jù)本發(fā)明的信息處理系統(tǒng)一個例子。信息處理系統(tǒng)100包括主題服務(wù)器110,120,130,140組成的網(wǎng)絡(luò)。方便起見,把主題服務(wù)器網(wǎng)稱作一個聯(lián)合100。每個主題服務(wù)器負(fù)責(zé)所述的一組主題,這個聯(lián)合中服務(wù)器主題組的集合稱作聯(lián)合主題。確認(rèn)和某個主題相關(guān)的文件與包含該主題的主題服務(wù)器中的主題相關(guān)。通過提供一個服務(wù)器網(wǎng)絡(luò),每個服務(wù)器負(fù)責(zé)所選的一組主題,與組織和搜索文件有關(guān)的工作量分配給服務(wù)器。
在一個優(yōu)選實(shí)施方案中,進(jìn)一步分配工作量,某個服務(wù)器還負(fù)責(zé)指定的客戶機(jī)和指定的文件源。如圖1所示,主題服務(wù)器110具有指定的客戶機(jī)111、112,和指定的文件源116、117。指定的客戶機(jī)111、112比如說是萬維網(wǎng)瀏覽器,用戶用它與系統(tǒng)100相交互。文件源116、117比如說是因特網(wǎng)上的存儲設(shè)施。為了理解方便,文件一詞這里指一段信息,比如一頁或多頁文本,也可能是其它形式的信息,例如視頻和音頻片斷,圖形,圖畫,計(jì)算機(jī)程序和其它。
和傳統(tǒng)的搜索引擎一致的是,主題服務(wù)器110,周期性地發(fā)送網(wǎng)絡(luò)爬行器給文件源116、117,收集新的或更新的文件。服務(wù)器110掃描爬行器發(fā)現(xiàn)的文件,確定每個文件的主題。和傳統(tǒng)搜索引擎不同的是,只有文件的一個或多個主題包含在聯(lián)合主題中,服務(wù)系統(tǒng)100才選擇該文件以供識別。如下文所述,可以用自動裝置來確定主題,比如使用語義處理,試探學(xué),基于知識的系統(tǒng),機(jī)器學(xué)習(xí),和其它類似的裝置。還可以通過附加在文件后的信息確定主題。例如視頻“文件”可能具有相關(guān)的摘要,音頻文件可以根據(jù)風(fēng)格或作者存儲在文件源116、117中,如此等等。用相似的方法,可以把手工確定的主題結(jié)果和文件存在一起,然后服務(wù)器110具此確定文件的主題為系統(tǒng)100所用。正如如下所述,這樣一個問題對本領(lǐng)域的技術(shù)人員是顯然的,因?yàn)榭赡艿闹黝}事先定義好,相比與盲目的尋找定位文件的所有可能主題,決定某個文件與某一個主題相關(guān)的能力提高了。服務(wù)器110和聯(lián)合中包含有一個或多個聯(lián)合主題服務(wù)器120、130、140交換與文件相關(guān)的標(biāo)識符和文件主題。同樣對于本領(lǐng)域的技術(shù)人員顯然的是,存儲與聯(lián)合主題的預(yù)確定主題組相關(guān)的文件標(biāo)識符可望比在傳統(tǒng)搜索引擎這存儲如前所述通常的關(guān)鍵詞索引或類似內(nèi)容消耗少得多的資源。
通過把文件和其所包含的聯(lián)合主題中的每一個主題連系在一起形成文件庫。每個服務(wù)器根據(jù)服務(wù)器覆蓋的主題,通過文件標(biāo)識符組織文件。在一個優(yōu)選實(shí)施方案中,主題組織成樹節(jié)點(diǎn),往樹根方向的節(jié)點(diǎn)具有越來越一般性的概念,往樹葉方向的節(jié)點(diǎn)具有越來越具體的概念。一個所選文件和一個或多個主題節(jié),每個節(jié)指向零個或多個文件。圖2所示為服務(wù)器110中的一棵樹210和服務(wù)器120中的一棵樹220的結(jié)構(gòu)示例。樹210是對應(yīng)于藝術(shù)的一棵分級樹,樹220是對應(yīng)于工程的一棵分級樹。如圖所示一般性主題藝術(shù)21,具有更具體的枝節(jié)點(diǎn)文藝復(fù)興時期211和現(xiàn)代21。和傳統(tǒng)樹術(shù)語一致的是,分支文藝復(fù)興211和現(xiàn)代212的全名是藝術(shù).文藝復(fù)興時期211和藝術(shù).現(xiàn)代212。藝術(shù).文藝復(fù)興時期節(jié)點(diǎn)211包含分支藝術(shù).文藝復(fù)興時期.油畫2111,藝術(shù).文藝復(fù)興時期.繪畫2112,藝術(shù).文藝復(fù)興時期.雕刻2113,和藝術(shù).文藝復(fù)興時期.表演2114。同樣,工程節(jié)點(diǎn)22包括分支工程.電子221和工程.航空222。工程.航空節(jié)點(diǎn)222包括分支工程.航空.固定機(jī)翼2221和工程.航空.旋轉(zhuǎn)機(jī)翼2222。
在圖2的例子里,服務(wù)器110的爬行器已經(jīng)在文件源116中找到了文件201。比如文件201包含的信息與達(dá)芬奇的素描畫直升飛機(jī)和油畫蒙娜麗莎有關(guān)。依據(jù)文件201的內(nèi)容,服務(wù)器110從文件201中提取出主題,其中包括藝術(shù).文藝復(fù)興時期(和達(dá)芬奇相關(guān)),藝術(shù).文藝復(fù)興時期.油畫(和蒙娜麗莎相關(guān)),藝術(shù).文藝復(fù)興時期.素描(和直升飛機(jī)相關(guān))以及工程.航空.旋轉(zhuǎn)機(jī)翼(也是和直升飛機(jī)相關(guān))。請注意,由于主題是預(yù)先定義的,服務(wù)器110可以經(jīng)過組織從而優(yōu)化主題提取過程。例如,每個主題有一組相關(guān)的關(guān)鍵詞和詞組,一種傳統(tǒng)的加權(quán)和閾值處理是根據(jù)關(guān)鍵詞和詞組在文件中出現(xiàn)的頻率,可以據(jù)此確定一個文件是否與某個主題相關(guān)。在一個優(yōu)選實(shí)施方案中,傳統(tǒng)的技術(shù)通過基于詞組在文件特定位置的啟發(fā)式方法得到提高,比如標(biāo)題,或詞組的字體(粗體、斜體等),單詞和詞組存在于元標(biāo)記里,等等。使用預(yù)先定義的主題也為改進(jìn)了的組織技術(shù)的使用提供了便利。比如,在一個優(yōu)選實(shí)施方案里,采用了機(jī)器學(xué)習(xí)技術(shù)來增強(qiáng)服務(wù)器確定文件主題的能力。典型地,決定一個給定主題是否包含在文件里是依據(jù)許多獨(dú)立的和非獨(dú)立的決策。在一個訓(xùn)練模式下,根據(jù)確定每個主題的正確性,主題提取器得到一些反饋。反饋用來調(diào)整主題提取器以后的確認(rèn),比如使用基于每個確定的正確性調(diào)整與每個確定元素相關(guān)的相似因子的貝利斯網(wǎng)絡(luò)。正確的確認(rèn)增大與每個決策元素相關(guān)的相似性因子,而錯誤的確認(rèn)則減小因子。同樣,機(jī)器學(xué)習(xí)技術(shù)可以用來依據(jù)可見的文件主題聚類和其它一些因素建立或修改主題的分層組織結(jié)構(gòu)。這些及其它一些文件組織分類技術(shù),比如基于認(rèn)知的系統(tǒng),機(jī)器學(xué)習(xí),模糊邏輯,及與此類似的技術(shù)在已有技術(shù)中是很常見的。
在一個優(yōu)選實(shí)施方案里,服務(wù)器110找出爬行器找到的每個文件中的每一個聯(lián)合主題?;蛘?,因?yàn)榭梢詢?yōu)化使每個服務(wù)器提取其所負(fù)責(zé)的每個主題,如此聯(lián)合100可以組織成每個爬行器找到的每個文件由某個服務(wù)器獨(dú)立處理。在圖2的最佳實(shí)施例的例子里,服務(wù)器110把文件201的一個標(biāo)識符傳給服務(wù)器120,告訴它文件201含有工程.航空.旋轉(zhuǎn)機(jī)翼這一主題。文件201的標(biāo)識符可以是,比如文件201的網(wǎng)絡(luò)地址,或者其它可以唯一定位文件201的標(biāo)識。根據(jù)本發(fā)明,文件201和樹210及220的211,2111,2112和2222分支連系在一起,比如通過把文件201的標(biāo)識符加進(jìn)每個節(jié)點(diǎn)的相關(guān)文件表中。
圖2顯示的是一個傳統(tǒng)的樹結(jié)構(gòu)。這方面,常見的其它數(shù)據(jù)組織結(jié)構(gòu)也是可行的。在優(yōu)選實(shí)施方案里,分層結(jié)構(gòu),比如樹,是首選的,因?yàn)樗试S了現(xiàn)有與人類組織信息方法適應(yīng)的搜索技術(shù)。重疊的,和“纏結(jié)的”樹結(jié)構(gòu)被應(yīng)用在優(yōu)選實(shí)施方案里,使用戶通過多種搜索途徑到達(dá)某個給定節(jié)點(diǎn)。比如,一棵包含物理主題的樹可能具有節(jié)點(diǎn)物理.飛行.直升飛機(jī),它與前述工程.航空.旋轉(zhuǎn)機(jī)翼是同一個主題。與此類似,優(yōu)選實(shí)施方案中還具有姊妹節(jié)點(diǎn)間的聯(lián)系,比如圖2中,讓文藝復(fù)興時期的素描2111和油畫聯(lián)系在一起。
圖3描述了對應(yīng)本發(fā)明的一個信息處理系統(tǒng)流程圖示例。該流程圖顯示了,例如,由服務(wù)器提供者提供的以實(shí)現(xiàn)基于主題內(nèi)容的組織、查找和獲取的信息的資源,和這些元件之間數(shù)據(jù)的傳輸。在優(yōu)選實(shí)施方案里,為了方便,每個服務(wù)器都具有圖3中任一個功能塊,盡管這些功能塊可以分布在聯(lián)合中。主題提取模塊310提取出文件301的主題詞語和詞組。主題提取模塊310和文件選擇分類模塊320一起完成這項(xiàng)工作,如前所述,在使用預(yù)先定義主題的基礎(chǔ)上,分類模塊320增強(qiáng)了提取過程。而詞語映射服務(wù)模塊340,通過執(zhí)行比如把提取出的詞語和詞組翻譯成聯(lián)合中所用的詞和詞組一類的操作,協(xié)作這一過程。舉例來說,“直升飛機(jī)”一詞轉(zhuǎn)化成“旋轉(zhuǎn)翼飛行器”,方便確定包含主題“直升飛機(jī)”的文件是否和表達(dá)為“旋轉(zhuǎn)翼飛行器”的主題相關(guān),而不是“直升飛機(jī)”。因?yàn)槭褂昧诉x擇的主題,同義詞和詞組的正確辨認(rèn)相比于獨(dú)立主題的翻譯實(shí)際上可以得到改進(jìn)。
如果主題提取模塊310可以找到文件301中的一個聯(lián)合主題,文件301將被文件選擇分類模塊320選中并分類,文件的標(biāo)識和主題被送往文件路徑選擇模塊330。文件路徑選擇模塊330把這些信息送往數(shù)據(jù)庫335,因?yàn)樗业降奈募黝}屬于該聯(lián)合。數(shù)據(jù)庫335包含圖2討論過的基于主題的數(shù)據(jù)。在優(yōu)選實(shí)施方案里,數(shù)據(jù)庫335根據(jù)和每個服務(wù)器相連的主題分布在聯(lián)合中。同樣如上所述,在優(yōu)選實(shí)施方案里,每個服務(wù)器包含圖3所示模塊。為了便于參考,“客戶-服務(wù)器”一詞,用來指包含一個給定模塊的服務(wù)器。文件路徑選擇模塊330直接更新數(shù)據(jù)庫335與它的客戶-服務(wù)器相關(guān)的每個主題,并把文件的標(biāo)識和主題送給其它含有該文件主題的服務(wù)器里的路徑選擇模塊。那些其它的文件路徑選擇模塊更新數(shù)據(jù)庫335的相應(yīng)客戶-服務(wù)器主題。相應(yīng)地,文件路徑選擇模塊330應(yīng)設(shè)定成可以從其它服務(wù)器接收文件標(biāo)識和主題,直接更新數(shù)據(jù)庫335每個與它的服務(wù)器相關(guān)的主題。也就是,舉例來說,如果文件路徑選擇模塊330位于圖2的服務(wù)器120中,該文件路徑選擇模塊330為更新與服務(wù)器120相關(guān)的數(shù)據(jù)庫,與工程22相關(guān)的所有文件標(biāo)識,當(dāng)文件主題包含藝術(shù)21時,它會把文件標(biāo)識和主題送往服務(wù)器110上的文件路徑選擇模塊。同樣,當(dāng)服務(wù)器110上的文件路徑選擇模塊發(fā)現(xiàn)其找到的文件包含主題工程22,它會把文件的標(biāo)識和主題送往服務(wù)器120上的文件路徑選擇模塊。
圖3示出了一個任選的外部聯(lián)合模塊360和一個任選的代理服務(wù)模塊370,它們實(shí)現(xiàn)信息處理系統(tǒng)內(nèi)部的多個聯(lián)合的結(jié)合。在優(yōu)選實(shí)施方案里,多個聯(lián)合用來提供每個聯(lián)合內(nèi)的一定專門化程度。相關(guān)的主題放在一個聯(lián)合里,而不相關(guān)主題放在不同的聯(lián)合里。這樣,在聯(lián)合的特殊領(lǐng)域內(nèi),每個聯(lián)合可以根據(jù)用戶的反饋進(jìn)行控制和擴(kuò)展,以提供高效的獲取。多個聯(lián)合代理服務(wù)也用來訪問其它提供者的資源,從而使得服務(wù)提供者為用戶提供更廣泛的主題,而無需服務(wù)提供者為如此廣泛的主題分類所有的文件。代理服務(wù)模塊370調(diào)節(jié)其本機(jī)聯(lián)合資源的訪問程度。比如,在同一個提供者的各個聯(lián)合間,當(dāng)文件主題包含一個或多個別的聯(lián)合的主題時,文件標(biāo)識和主題將從一個聯(lián)合轉(zhuǎn)發(fā)至另一個聯(lián)合。在不同的提供者的聯(lián)合之間,代理服務(wù)模塊370會允許搜索別的聯(lián)合和獲取文件,但可能禁止本機(jī)聯(lián)合的文件選擇分類模塊320確認(rèn)得文件標(biāo)識和主題送往別的聯(lián)合。
在優(yōu)選實(shí)施方案里,多個聯(lián)合結(jié)構(gòu)中的每個聯(lián)合的一個服務(wù)器被用作代理服務(wù)器,用于與其它聯(lián)合的對應(yīng)代理服務(wù)器接口。代理服務(wù)器總結(jié)與本聯(lián)合相關(guān)的信息,使用代理服務(wù)模塊370把這些信息適當(dāng)?shù)厮屯渌?lián)合,并且從其它聯(lián)合各自的代理服務(wù)器接收相關(guān)信息。代理服務(wù)模塊370還影響詞語映射服務(wù)模塊340和文件選擇分類模塊320的更新處理,從而實(shí)現(xiàn)確認(rèn)和選擇文件301中外部聯(lián)合主題。如果發(fā)現(xiàn)文件301含有外部聯(lián)合主題,文件路徑選擇模塊330把文件標(biāo)識和主題送往外部聯(lián)合主題/視圖服務(wù)模塊360。如果得到代理服務(wù)模塊370的同意,如上所述,外部聯(lián)合主題/視圖服務(wù)模塊360把文件標(biāo)識和主題提供給每個包含一個或多個該文件主題的外部聯(lián)合。
管理服務(wù)模塊380,提供管理信息處理系統(tǒng)的服務(wù),包括主題的建立和修改,服務(wù)器的增加和去除,代理服務(wù)區(qū)的建立,和其它類似的服務(wù)。
圖3還介紹了文件搜索和獲取得流程示例。一個用戶通過客戶設(shè)備305與該系統(tǒng)交互。查詢/結(jié)果服務(wù)模塊390處理用戶請求以確定搜索主題。對于文件選擇分割模塊320的處理,詞語映射服務(wù)模塊340把用戶的查詢轉(zhuǎn)換和增加為信息處理系統(tǒng)所使用的術(shù)語,從而幫助查詢處理。由于使用預(yù)先定義的主題,在優(yōu)選實(shí)施方案里的查詢/結(jié)果服務(wù)模塊390,可以通過把查詢詞匯處理成與聯(lián)合主題及主題層次結(jié)構(gòu)相一致,從而優(yōu)化搜索主題的確定。
使用預(yù)先定義的主題和主題分層結(jié)構(gòu)提供傳統(tǒng)基于關(guān)鍵詞的搜索引擎無法實(shí)現(xiàn)的優(yōu)點(diǎn)。例如,在優(yōu)選實(shí)施方案里,通過讓系統(tǒng)提出順著主題分層結(jié)構(gòu)調(diào)整查詢詞語的意見,引導(dǎo)用戶完成查詢詞語的規(guī)范表述。以圖2為例,當(dāng)用戶選擇“藝術(shù)”作為查詢時,提供樹210的圖形表述;之后,用戶沿著樹210不斷前進(jìn),使用鍵盤,鼠標(biāo),或其它輸入設(shè)備,比如語音識別系統(tǒng)。當(dāng)用戶到達(dá)樹210的每個節(jié)點(diǎn)時,與該節(jié)點(diǎn)相關(guān)的文件介紹就顯示出來,然后用戶選擇,獲取一個和多個發(fā)現(xiàn)的文件或?yàn)g覽其它與這一主題有聯(lián)系但相關(guān)性較小的其它文件,或者繼續(xù)搜索。在優(yōu)選方案里,和子節(jié)點(diǎn)及姊妹節(jié)點(diǎn)相關(guān)的文件,也包含在認(rèn)為與主題相關(guān)的文件集合里。由于在優(yōu)選方案里,主題組織成分層結(jié)構(gòu),隨著用戶沿著分層結(jié)構(gòu)走下去,相關(guān)文件的范圍逐步縮小,從而提高了搜索的性能和效率。
請注意,以上的過程提供了傳統(tǒng)關(guān)鍵詞搜索引擎沒有的附加優(yōu)點(diǎn)。比如,分層結(jié)構(gòu)的顯示讓用戶深入了解系統(tǒng)內(nèi)部文件是如何組織的,并讓用戶據(jù)此調(diào)整他和她的搜索方法。顯示的內(nèi)容還給了用戶即使得反饋,告知用戶的術(shù)語用于是否合適于系統(tǒng)的辨別。在優(yōu)選實(shí)施方案里,詞語映射服務(wù)模塊340,允許用戶增加與系統(tǒng)所用詞語相關(guān)的詞語或詞組,從而允許個人化的搜索詞匯。
根據(jù)本發(fā)明的一個方面,查詢/結(jié)果服務(wù)模塊390,通過將查詢公式化為上下文敏感查詢或視圖而提高了用戶查詢的質(zhì)量。比如,用戶查詢的上下文可能依據(jù)用戶是在家里或在辦公室而不同。比如,如果用戶在正常工作時間提交有關(guān)餐館的查詢,搜索過程可以側(cè)重商業(yè)方面,如果在別的時間提交這種查詢,搜索可以側(cè)重家庭方面。在優(yōu)選實(shí)施方案里,查詢/結(jié)果模塊390還依據(jù)特定用戶的愛好,并利用用戶的偏好使搜索結(jié)果個人化。與主題提取中一樣,在優(yōu)選實(shí)施方案里,使用機(jī)器學(xué)習(xí)和其它的技術(shù),根據(jù)可見的用戶行為提供更有效的搜索方式。這里引用這樣的一個應(yīng)用實(shí)例作為參考,由Chandra Dharap于1998年6月25日提交的“基于上下文和用戶個性驅(qū)動的信息獲取”,律師備案目錄表PHA23,422,序列號09/104,491,該申請使用一種方法和設(shè)備在用戶訪問數(shù)據(jù)庫時,根據(jù)用戶之前的查詢增添查詢條件。仍然使用餐館的例子,如果用戶提交有關(guān)餐館的查詢后,總是打開法國餐館文件并且總是忽略快餐館文件,查詢/結(jié)果服務(wù)模塊390會給包含法國餐館的文件以更大的選擇加權(quán),而給包含燒烤食品主題的文件以更少的加權(quán)。這一申請還允許其它形式的搜索輸入,比如一個形狀和圖案的畫,代表一段音樂的曲調(diào)或節(jié)奏,等等。因?yàn)槭褂昧吮景l(fā)明的預(yù)先定義的主題,所以這種任選形式可以根據(jù)每個主題而設(shè)。比如,負(fù)責(zé)電路主題的服務(wù)器可以做成接收電路圖作為用戶查詢輸入,然后處理該圖以查找對應(yīng)相似電路的成員主題?;蛘?,用戶可以指向電路中某個元件,而服務(wù)器提供列有此種設(shè)備零售商的文件。在這一方面,對于依據(jù)本發(fā)明的這些或其它一些具體應(yīng)用對于本領(lǐng)域的技術(shù)人員是容易理解的。
在優(yōu)選實(shí)施方案里,其它一些學(xué)習(xí)技術(shù)被用來為那些具有不同含義的查詢確定適合的搜索路徑。比如,詞語“card”,可以指賀卡、撲克牌、信用卡,印刷電路板卡,怪人等。在優(yōu)選實(shí)施方案里,查詢/結(jié)果服務(wù)模塊390根據(jù)所提供的用戶個人信息或詞語的通常用法為查詢詞選擇某一個主題。如果,對于所選的主題,用戶修改了查詢詞以查找單詞“card”可能對應(yīng)的其它主題中的一個,則查詢/結(jié)果服務(wù)模塊390將根據(jù)用戶對“card”一詞的新的用法側(cè)重選擇其它的主題。考慮本發(fā)明闡述的內(nèi)容,這些及其它一些基于經(jīng)驗(yàn)和預(yù)先定義主題的使用來改進(jìn)用戶查詢詞語的方法對于這方面的某個普通技術(shù)是來說是容易理解的。比如,對應(yīng)于一個查詢的多個可能主題可以顯示給用戶選擇,用戶可以選擇讓查詢/結(jié)果服務(wù)模塊390對于類似查詢總是選擇被選主題,或每次都顯示多個主題來選擇。
在優(yōu)選實(shí)施方案里,和關(guān)鍵詞搜索系統(tǒng)中多個關(guān)鍵詞的使用相似,查詢/結(jié)果服務(wù)模塊390也允許用戶同時使用多個查詢詞來改進(jìn)搜索請求,還可以使用布爾符號和模糊邏輯術(shù)語來組合主題。比如,用戶可以選擇搜索與主題政府.美國和醫(yī)學(xué)研究.實(shí)驗(yàn)性的.動物相關(guān)的文件,但是排除與主題大學(xué).醫(yī)學(xué)相關(guān)的文件。每個包含一個或多個所選主題的服務(wù)器,把與每個主題相關(guān)的文件引用,通過本地-聯(lián)合-主題/視圖-服務(wù)模塊350送往查詢/結(jié)果服務(wù)模塊390,或者,外部聯(lián)合主題/視圖服務(wù)模塊360。查詢/結(jié)構(gòu)服務(wù)模塊390根據(jù)上述的用戶偏好和上下文,過去的經(jīng)驗(yàn),組合邏輯用語等,來整理這些文件引用顯示給用戶。
請注意,根據(jù)預(yù)先定義的主題和分層結(jié)構(gòu)來組織文件可以大大地節(jié)省搜索定位文件的時間和資源。通過根據(jù)主題組織文件,響應(yīng)查詢而顯示給用戶的與查詢無關(guān)的文件數(shù)也大大減少。通過提供上下文敏感的用戶查詢,把查詢轉(zhuǎn)換成預(yù)先定義的主題和分層結(jié)構(gòu)中使用的詞匯,將為用戶給出一個合適節(jié)點(diǎn)的速度提高了很多。通過基于機(jī)器學(xué)習(xí)技術(shù),動態(tài)地調(diào)整主題提取過程和用戶查詢處理本發(fā)明的信息處理方案的效果和效率不斷提高。
上述內(nèi)容只是闡述了發(fā)明的原理。因此,本領(lǐng)域的技術(shù)人員可以理解可以設(shè)計(jì)出各種各樣的裝置,這些裝置雖然沒有在這里直接描述或顯示,但包含了本發(fā)明的原理,所以也屬于本分明的本質(zhì)和范圍。比如,詞語映射服務(wù)模塊340可以借助現(xiàn)有的和未來的語言處理技術(shù)得到改進(jìn),包括在多種語言間的翻譯能力。圖中顯示的結(jié)構(gòu)只是示例性的,其它類似的結(jié)構(gòu)也屬于本發(fā)明的本質(zhì)和范圍。比如,聯(lián)合中的前述服務(wù)器,可以單獨(dú)用來組織和獲取文件,而別的設(shè)備用來和客戶機(jī)打交道。對于本領(lǐng)域的技術(shù)人員,這種可選的功能性劃分是容易做到的。
權(quán)利要求
1.一種信息處理系統(tǒng)(100)包含服務(wù)器(110),擁有一組相關(guān)的服務(wù)器主題(21,211,212),主題提取器(310),被配置成從源文件(201,301)中提取文件主題(211),文件選取器(320),與文件提取器運(yùn)行連接,被配置成依據(jù)文件主題(211)是否是服務(wù)器(110)的一組相關(guān)服務(wù)器主題(21,211,212)的成員主題(211)確定源文件(201,301)作為被選中文件,文件路徑選擇器(330),與文件選取器(320)運(yùn)行連接,使被選中文件與成員主題(211)相關(guān)聯(lián)。
2.權(quán)利要求2中所述的信息處理系統(tǒng),其中服務(wù)器(110)是多個服務(wù)器(110,120)中的一個,多個服務(wù)器(110,120)的每個服務(wù)器擁有一組相關(guān)的服務(wù)器主題(21,211,212;22,221,2222),主題提取器(310)被進(jìn)一步配置成從源文件(201,301)中提取多個文件主題(211,2111,2112,2222),文件選取器(320)進(jìn)一步設(shè)定為確定包括多個文件主題(211,2111,2112,2222)的至少一個的多個文件服務(wù)器(110,120)的服務(wù)器主題(21,211,212;22,221,2222)的相關(guān)組的多個成員主題中每一個,文件路徑選擇器(330)被進(jìn)一步設(shè)定來將被選中文件與所說的多個成員主題的每一個主題相關(guān)聯(lián)。
3.權(quán)利要求1中所述的信息處理系統(tǒng)(100),其中主題提取器(310)包括一個詞語映射裝置(340),將源文件(201,301)中的詞語轉(zhuǎn)化便于文件主題(211)的提取。
4.權(quán)利要求1中所述的信息處理系統(tǒng)(100),進(jìn)一步包括查詢服務(wù)設(shè)備(390),當(dāng)搜索主題包括成員主題(211)時,它確定被選中文件作為找到文件,和文件獲取器(350),與查詢服務(wù)設(shè)備(390)運(yùn)行連接,它被配置成,當(dāng)搜索主題包括成員主題(211)時,實(shí)現(xiàn)搜索文件的獲取。
5.權(quán)利要求4中所述的信息處理系統(tǒng)(100),其中查詢服務(wù)設(shè)備(390)包括一個詞語映射裝置(340),依據(jù)用戶詢問和用戶上下文確定搜索主題。
6.一種創(chuàng)建文件庫(335)的方法,包含以下步驟定義多個主題(21,211,22,221),創(chuàng)建數(shù)據(jù)結(jié)構(gòu)(210,220),它有與多個主題(21,211,22,221)的一個主題相對應(yīng)的多個節(jié)點(diǎn),掃描文件(201)以查找包含在多個主題(21,211,22,221)里的成員主題(211),將文件(201)與對應(yīng)成員主題(211)的節(jié)點(diǎn)相關(guān)聯(lián)。
7.權(quán)利要求6中所述的方法,進(jìn)一步包括以下步驟將帶有多個主題(21,211,22,221)中相應(yīng)的一組主題(21,211;22,221)分配給多個服務(wù)器(110,120)中相應(yīng)的一個。
8.權(quán)利要求6中所述的方法,進(jìn)一步包括以下步驟創(chuàng)建詞語的轉(zhuǎn)化映射(340),和其中掃描文件查找成員主題的步驟中包括步驟基于詞語轉(zhuǎn)化映射(340)轉(zhuǎn)化文件(201)。
9.權(quán)利要求6中所述的方法,其中數(shù)據(jù)結(jié)構(gòu)(210,220)是分層的數(shù)據(jù)結(jié)構(gòu)。
10.權(quán)利要求6中所述的方法,其中掃描文件(201)查找成員主題(211)的步驟是依據(jù)至少一個另一文件的成員主題(211)的先前的確定。
11.一種實(shí)現(xiàn)文件(201)確定的方法,包含以下步驟實(shí)現(xiàn)搜索查詢的接收,實(shí)現(xiàn)基于搜索查詢確定搜索主題,搜索主題是多個預(yù)先確定主題中的一個,實(shí)現(xiàn)對應(yīng)于搜索主題的數(shù)據(jù)結(jié)構(gòu)(210,220)上的主題節(jié)點(diǎn)的確定,實(shí)現(xiàn)基于文件(201)與主題節(jié)點(diǎn)之間的相關(guān)性確定文件(201)。
12.權(quán)利要求11中所述的方法,其中實(shí)現(xiàn)確定搜索主題的步驟包括實(shí)現(xiàn)確定用戶上下文的步驟,其中搜索主題的確定進(jìn)一步依據(jù)用戶上下文。
13.權(quán)利要求12中所述的方法,其中實(shí)現(xiàn)確定搜索主題的步驟包括以下步驟,依據(jù)詞語映射實(shí)現(xiàn)搜索查詢的轉(zhuǎn)化,從而實(shí)現(xiàn)搜索主題的確定。
14.權(quán)利要求12中所述的方法,其中數(shù)據(jù)結(jié)構(gòu)(210,220)是一種分層的結(jié)構(gòu),和搜索主題的確定進(jìn)一步依賴于這種分層結(jié)構(gòu)。
15.權(quán)利要求12中所述的方法,其中多個預(yù)先確定的主題分配給多個服務(wù)器(110,120),搜索主題與多個服務(wù)器(110,120)中的一個相聯(lián)系,主題節(jié)點(diǎn)的確定包括確定所說的多個服務(wù)器(110,120)中的一個。
16.權(quán)利要求12中所述的方法,其中搜索主題的確定依賴于至少一個先前另一個用戶搜索查詢的搜索主題的確定。
全文摘要
公開了一種基于主題內(nèi)容的信息組織和獲取系統(tǒng),它有效地組織文件,目的在于快速而高效地搜索和獲取。這種信息組織和獲取系統(tǒng)經(jīng)過完善,僅組織和獲取那些相關(guān)于給定的預(yù)定義的一組主題的文件。如果該文件不具有這套給定主題中的主題,它將被排除在所提供的服務(wù)之外。與此相似,如果該文件具有某個被所提供服務(wù)特別禁止的主題,它也將被排除在外。正是以這種模式,提供者有目的地限制了所提供的搜索和獲取服務(wù)的范圍,可是這樣做提供了一種針對用戶需求的更有效的服務(wù)。這種信息組織和獲取系統(tǒng)也支持上下文敏感搜索和獲取技術(shù),包括使用預(yù)先定義或用戶定義的意圖,以及使用用戶專門詞匯。在一種優(yōu)選實(shí)施方案中,所選的這套主題組織成有多個重疊的分層結(jié)構(gòu),并有一種分布的軟件結(jié)構(gòu)用來支持這些基于主題的信息組織、路徑選擇和獲取服務(wù)。文件可以與一個或多個主題相關(guān),并通過由信息服務(wù)器維護(hù)的主題結(jié)構(gòu)與每個主題聯(lián)系在一起。
文檔編號G06F17/30GK1307704SQ99805477
公開日2001年8月8日 申請日期1999年12月15日 優(yōu)先權(quán)日1998年12月28日
發(fā)明者程以寧 申請人:皇家菲利浦電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
都江堰市| 沙湾县| 舒兰市| 沅江市| 吉林省| 白沙| 万荣县| 舒城县| 佛冈县| 达日县| 陇西县| 临漳县| 眉山市| 荆门市| 靖江市| 岳普湖县| 中西区| 大竹县| 武城县| 龙泉市| 日土县| 白城市| 孝昌县| 谢通门县| 高邑县| 滨海县| 阜新市| 许昌县| 利川市| 太谷县| 秀山| 溧水县| 金湖县| 北碚区| 虹口区| 平湖市| 云梦县| 德惠市| 石狮市| 正安县| 铜川市|