專利名稱:確定所關(guān)注的域的相關(guān)信息的制作方法
技術(shù)領(lǐng)域:
以下公開(kāi)總體涉及確定與所關(guān)注的域有關(guān)的相關(guān)信息,例如與域內(nèi)的主題有關(guān) 和/或與其內(nèi)容關(guān)于這種主題的文檔有關(guān)的信息。
背景技術(shù):
信息的豐富性在來(lái)自多種源的許多種話題上對(duì)用戶來(lái)說(shuō)是可用的。例如,萬(wàn)維 網(wǎng)(“網(wǎng)絡(luò)”)的部分與在因特網(wǎng)上分布的文檔和其他數(shù)據(jù)資源的電子圖書(shū)館類似,其中 有幾十億個(gè)文檔可用。此外,各種其他信息經(jīng)由其他通信介質(zhì)而變得可用。在有豐富的可用信息的情況下,對(duì)與用戶的特定關(guān)注相匹配的文檔和其他信息 進(jìn)行定位可能是困難的。一種嘗試對(duì)文檔進(jìn)行定位的選項(xiàng)涉及使用各種基于網(wǎng)絡(luò)的搜索 引擎來(lái)執(zhí)行搜索。典型的網(wǎng)絡(luò)搜索涉及用戶向搜索引擎提供包括一個(gè)或多個(gè)搜索詞在內(nèi) 的搜索詢問(wèn),其中,在一些情形中,搜索詢問(wèn)還包括均與搜索詞中的一個(gè)或多個(gè)相關(guān)的 一個(gè)或多個(gè)邏輯搜索運(yùn)算符(如“AND”、“OR”、“NOT”、需要特定搜索詞的指示 等等)。在接收到這種搜索詢問(wèn)之后,搜索引擎典型地識(shí)別內(nèi)容與搜索詢問(wèn)相匹配(例 如,內(nèi)容包括所需搜索詞中的每一個(gè))的至少一些可用文檔,產(chǎn)生包括與所識(shí)別的文檔 中的一個(gè)或多個(gè)的鏈接在內(nèi)的一個(gè)或多個(gè)網(wǎng)頁(yè),并向用戶提供所產(chǎn)生的網(wǎng)頁(yè)中的一個(gè)或 多個(gè),作為搜索詢問(wèn)的搜索結(jié)果。此外,典型地,輸入相同搜索串的不同用戶接收到相 同搜索結(jié)果。搜索引擎使用各種技術(shù)來(lái)識(shí)別內(nèi)容與特定搜索詞相匹配的文檔。例如,一些搜 索引擎在接收到搜索請(qǐng)求之前進(jìn)行自動(dòng)化預(yù)處理,以創(chuàng)建將詞映射至內(nèi)容包括這些詞的 網(wǎng)頁(yè)的索引。典型地,這種預(yù)處理使用被稱作爬上網(wǎng)絡(luò)的“網(wǎng)絡(luò)蜘蛛”的自動(dòng)化程序, 來(lái)識(shí)別文檔,從而例如通過(guò)穿越從已知網(wǎng)頁(yè)至新網(wǎng)頁(yè)的鏈接來(lái)進(jìn)行索引。此外,一些搜 索引擎使用對(duì)文檔的手動(dòng)歸類,經(jīng)由例如類別和子類別的分集目錄,跟蹤哪些網(wǎng)頁(yè)與指 定類別和/或詞相關(guān)。因此,在一些情況下,來(lái)自搜索引擎的搜索結(jié)果可以基于來(lái)自自 動(dòng)預(yù)先產(chǎn)生的索引和/或來(lái)自手動(dòng)預(yù)先產(chǎn)生的類別目錄的信息。然而,現(xiàn)有搜索引擎和用于識(shí)別所關(guān)注信息的其他技術(shù)遇到各種問(wèn)題。
圖IA和IB示意了用于確定與所關(guān)注的域有關(guān)的相關(guān)信息的技術(shù)的示例。
圖2A-2L示意了用于確定與所關(guān)注的示例域有關(guān)的相關(guān)信息的技術(shù)的示例。圖3是示意了用于確定與所關(guān)注的域有關(guān)的相關(guān)信息的計(jì)算系統(tǒng)的示例的框 圖。圖4示意了域?qū)S孟嚓P(guān)性確定服務(wù)例程的示例實(shí)施例的流程圖。圖5示意了域分析管理器例程的示例實(shí)施例的流程圖。圖6示意了相關(guān)主題確定管理器例程的示例實(shí)施例的流程圖。圖7示意了相關(guān)文檔確定管理器例程的示例實(shí)施例的流程圖。
具體實(shí)施例方式描述了用于確定和使用與所關(guān)注的話題和題目區(qū)域(這里還稱作所關(guān)注的域)有 關(guān)的相關(guān)信息的技術(shù)。在至少一些實(shí)施例中,這些技術(shù)包括自動(dòng)分析與一個(gè)或多個(gè)所 關(guān)注的有關(guān)域有關(guān)的文檔和其他內(nèi)容項(xiàng)目,以自動(dòng)確定與域內(nèi)的相關(guān)主題有關(guān)和/或與 哪些內(nèi)容項(xiàng)目具有關(guān)于這種主題的內(nèi)容有關(guān)的信息。那么,這種自動(dòng)確定的針對(duì)域的相 關(guān)信息可以以各種方式使用,這些方式包括幫助用戶指定所關(guān)注的主題和/或獲得具 有與指定主題相關(guān)的內(nèi)容的內(nèi)容項(xiàng)目。此外,在至少一些實(shí)施例中,可以跟蹤與信息如 何被用戶和其他實(shí)體使用有關(guān)的信息,并將其用作對(duì)學(xué)習(xí)對(duì)域內(nèi)的相關(guān)主題和/或相關(guān) 內(nèi)容項(xiàng)目(例如通過(guò)使用自動(dòng)化機(jī)器學(xué)習(xí)技術(shù))的改進(jìn)確定的反饋。此外,在至少一些 情形中,這些技術(shù)可以與計(jì)算機(jī)實(shí)現(xiàn)的域?qū)S孟嚓P(guān)性確定(“DSRD” )服務(wù)的實(shí)施例結(jié) 合使用,該計(jì)算機(jī)實(shí)現(xiàn)的域?qū)S孟嚓P(guān)性確定服務(wù)自動(dòng)確定與所關(guān)注的域有關(guān)的相關(guān)性信 息并提供這種信息以供其他使用,如以下更詳細(xì)地描述。如前所述,在至少一些實(shí)施例中,所描述的技術(shù)包括自動(dòng)分析與所關(guān)注的域 有關(guān)的文檔和其他內(nèi)容項(xiàng)目,以自動(dòng)確定與與域內(nèi)的相關(guān)主題有關(guān)和/或與哪些內(nèi)容項(xiàng) 目具有關(guān)于這種主題的內(nèi)容有關(guān)的信息(例如通過(guò)產(chǎn)生使特定內(nèi)容項(xiàng)目與特定詞和/或 主題相關(guān)的索引)。盡管以上各種討論將內(nèi)容項(xiàng)目稱作“文檔”,但應(yīng)當(dāng)理解,所描述 的技術(shù)可以與許多種類型的內(nèi)容項(xiàng)目一起使用,這些內(nèi)容項(xiàng)目包括例如文本文檔(如網(wǎng) 頁(yè)、字處理文檔、幻燈片以及其他演示文稿、電子郵件和其他電子消息等)、圖像、視頻 文件、音頻文件、軟件代碼、固件和其他邏輯、均伴有一個(gè)或多個(gè)遺傳信息序列的遺傳 密碼、其他生物數(shù)據(jù)等。此外,內(nèi)容項(xiàng)目可以具有一種或多種文件類型或其他數(shù)據(jù)結(jié)構(gòu) (例如流傳輸數(shù)據(jù)),包括文檔片段、或者更大文檔的其他段或部分、或者內(nèi)容項(xiàng)目,并 且,這種內(nèi)容項(xiàng)目的內(nèi)容可以包括文本和/或多種其他類型的數(shù)據(jù)(例如,音頻信息的 二進(jìn)制編碼;視頻信息的二進(jìn)制編碼;圖像信息的二進(jìn)制編碼;數(shù)學(xué)等式和數(shù)學(xué)數(shù)據(jù)結(jié) 構(gòu)、其他類型的字母數(shù)字?jǐn)?shù)據(jù)結(jié)構(gòu)和/或符號(hào)數(shù)據(jù)結(jié)構(gòu);加密的數(shù)據(jù)等等)。在至少一些 實(shí)施例中,專用于域的多個(gè)文檔的組由DSRD服務(wù)的實(shí)施例選擇并自動(dòng)分析。文檔的組 可以例如是包括特定域的所有可用文檔在內(nèi)或包括足以表示該域的文檔在內(nèi)的文集。此 外,要分析的文檔可以是從一個(gè)或多個(gè)源獲得的,例如,從包括專用于一個(gè)或多個(gè)域的 廣泛信息在內(nèi)的網(wǎng)站(例如,包括與棒球有關(guān)的廣泛信息在內(nèi)的假設(shè)“all-baseball-now. com”網(wǎng)站、包括與多種體育有關(guān)的各類信息在內(nèi)的“espn.com”網(wǎng)站、包括與大量域有 關(guān)的各類信息在內(nèi)的“Wikipedia.org”維基百科網(wǎng)站、“commons.wikipedia.org”維基百 科共享資源媒體收集網(wǎng)站和“wikinews.org”維基新聞來(lái)源網(wǎng)站)獲得。在一些實(shí)施例中,文檔中的每一個(gè)具有至少部分是已分析的文本信息的內(nèi)容,而在其他實(shí)施例中,至 少一些文檔或其他內(nèi)容項(xiàng)目可以包括其他類型的內(nèi)容(例如,圖像、視頻信息、音頻信
息等)ο在至少一些實(shí)施例中,對(duì)域的文檔的自動(dòng)化分析可以包括例如通過(guò)使用挖掘 技術(shù)或其他技術(shù),分析文檔的內(nèi)容,以確定與域相關(guān)的主題。例如,如果正在分析的文 檔與棒球域相關(guān),則可確定的主題包括專用于特定球員、特定球隊(duì)、特定聯(lián)盟(如職業(yè) 棒球大聯(lián)盟、第一級(jí)大學(xué)棒球等)、特定事件(如特定年度的全明星比賽或世界職業(yè)棒 球錦標(biāo)賽、類固醇使用爭(zhēng)議等)、特定賽季、特定記錄(如累積的本壘打記錄)等的主 題。在至少一些實(shí)施例中,自動(dòng)化分析包括對(duì)文檔進(jìn)行索引以確定在文檔中的每一個(gè) 中存在什么詞,然后分析一些或全部這種詞對(duì)文檔的重要性。例如,在至少一些實(shí)施例 中,文檔中的每個(gè)詞與該文檔的相關(guān)度的初始確定是基于該詞對(duì)文檔內(nèi)容的特殊性來(lái)進(jìn) 行的,例如通過(guò)使用詞頻率-反文檔頻率(“TF-IDF”,term frequency-inverse document frequency)分析來(lái)進(jìn)行的。此外,貫穿文檔組使用的一個(gè)或多個(gè)相關(guān)詞的組合可以被選 擇為表示域的主題,例如最相關(guān)的詞的域的主題,并且,主題的一個(gè)或多個(gè)相關(guān)詞與一 個(gè)或多個(gè)文檔的所確定的相關(guān)度可以用于確定該一個(gè)或多個(gè)文檔與該主題的相關(guān)度,如 以下更詳細(xì)地討論。此外,如本文其他位置更詳細(xì)地討論的,在一些實(shí)施例中,與文檔 或其他內(nèi)容項(xiàng)目相關(guān)聯(lián)且被分析以確定相關(guān)主題的詞或其他信息可以包括其他類型的信 息,包括未被包括在內(nèi)容項(xiàng)目的內(nèi)容中的信息,例如與內(nèi)容項(xiàng)目相關(guān)聯(lián)的元數(shù)據(jù)和/或 與內(nèi)容項(xiàng)目與之相對(duì)應(yīng)的一個(gè)或多個(gè)用戶相關(guān)聯(lián)的信息。如上所述,在各個(gè)實(shí)施例中,文檔詞分析信息的產(chǎn)生是可以以各種方式來(lái)執(zhí)行 的,在一些實(shí)施例中,這種產(chǎn)生使用TF-IDF分析。這種TF-IDF分析使用要分析的文檔 的向量空間表示,其中,每個(gè)文檔被視為與“詞袋”類似,而無(wú)需考慮詞在該文檔中的 作用(例如,無(wú)需考慮語(yǔ)法、語(yǔ)句結(jié)構(gòu)、段落結(jié)構(gòu)、標(biāo)點(diǎn)等)。在這種情形中,文檔表示 可以大部分地或完全地反映詞在文檔中的詞頻率(“TF”),這使得能夠?qū)⑽臋n高效地映 射至數(shù)學(xué)上易懂的高維度向量空間中。此外,當(dāng)確定詞與文檔的相關(guān)性時(shí),可以考慮和 使用特定詞相對(duì)于域的各種文檔的特殊性,例如通過(guò)考慮特定詞在文集或其他文檔組的 文檔中有多么普遍存在。具體地,在至少一些實(shí)施例中,詞i在文檔d中的詞頻率和詞i 在域的文檔上的反文檔頻率(“IDF”)可以如下表達(dá)
Q包含詞/在內(nèi)的文檔、那么,詞和文檔的詞頻率-反文檔頻率(“TF-IDF”或“TF.IDF”)分是可以 通過(guò)將該詞和該文檔的TF分和該詞的IDF分相乘來(lái)確定的。這種特定詞i和特定詞d的 TF-IDFG, d)分(還示作"TF-IDF1, 或"TRIDF1, )可以用作在描述該文檔在文 集中的指紋的過(guò)程中對(duì)該詞在向量空間表示中有多么重要的測(cè)量,以便例如反映該詞與 該文檔的相關(guān)度。這是對(duì)在具體文檔中頻繁出現(xiàn)但在文集這個(gè)總體中不常出現(xiàn)的高頻詞 進(jìn)行分級(jí)的度量。以下包括了與分析域的文檔以確定與該域相關(guān)或在多個(gè)域上相關(guān)的主 題有關(guān)的附加細(xì)節(jié)。在至少一些實(shí)施例中,對(duì)域的文檔的自動(dòng)化分析還可以包括分析文檔的內(nèi)容,以確定哪些文檔具有與域的所確定的主題相關(guān)的內(nèi)容。例如,在至少一些實(shí)施例 中,可以執(zhí)行對(duì)文檔的相關(guān)性的初始確定,以便例如基于主題內(nèi)的特定詞與特定文檔的 內(nèi)容的相關(guān)性,確定每個(gè)文檔與一些或所有主題中的每一個(gè)的相關(guān)度,如以下更詳細(xì)地 討論。此外,在一些實(shí)施例中,作為文檔相關(guān)性確定而分析的文檔是被分析以確定相關(guān) 主題的相同文檔,而在其他實(shí)施例中,一些或全部文檔相關(guān)性確定文檔與主題相關(guān)性確 定文檔不同(例如,如果文檔相關(guān)性確定文檔包括先前主題相關(guān)性確定期間不可用的新 文檔;如果主題相關(guān)性確定文檔是被選擇以用于訓(xùn)練目的的文檔的專用子集,例如由于 要表示域;等等)。此外,在至少一些實(shí)施例和情形中,可以將多個(gè)相關(guān)文檔的組相對(duì) 于一些或全部主題一起進(jìn)行分析,例如通過(guò)將多個(gè)相關(guān)文檔視為單個(gè)文檔以用于分析目 的,而在其他情形中,可以將特定文檔劃分為多個(gè)部分,該多個(gè)部分均被視為相對(duì)于一 些或全部主題的不同文檔以用于分析目的。以下包括了與分析域的文檔以確定與所確定 的主題有關(guān)的附加細(xì)節(jié)。在由DSRD服務(wù)自動(dòng)確定了與一個(gè)或多個(gè)域之內(nèi)或之上的相關(guān)主題有關(guān)和/或與 具有關(guān)于這種主題的內(nèi)容的特定文檔有關(guān)的相關(guān)性信息之后,在各個(gè)實(shí)施例中,就可以 以各種方式使用這種自動(dòng)確定的相關(guān)性信息,包括幫助人類用戶和其他實(shí)體指定所關(guān) 注的主題和/或或的具有關(guān)于所指定的主題的內(nèi)容的文檔。例如,如以下更詳細(xì)地描述 的,與一個(gè)或多個(gè)域之內(nèi)或之上的相關(guān)主題有關(guān)的自動(dòng)確定的相關(guān)性信息可以被DSRD 服務(wù)或其他關(guān)聯(lián)服務(wù)用于幫助DSRD服務(wù)以外的人類用戶或其他實(shí)體(如自動(dòng)化程序)指 定所關(guān)注的一個(gè)或多個(gè)主題,例如用作搜索詢問(wèn)的一部分,以便識(shí)別用戶的偏好等。在 各個(gè)實(shí)施例中,可以以各種方式使用自動(dòng)確定的主題信息,例如從用戶接收一個(gè)或多個(gè) 詞并向用戶呈現(xiàn)有關(guān)信息(例如,包括所接收的詞、與所接收的詞有關(guān)的其他詞等等在 內(nèi)的主題)、向用戶呈現(xiàn)自動(dòng)確定的主題的列表以供瀏覽或選擇等等。類似地,如以下 更詳細(xì)地描述的,與域內(nèi)的相關(guān)文檔有關(guān)的自動(dòng)確定的相關(guān)性信息可以被DSRD服務(wù)或 其他關(guān)聯(lián)服務(wù)用于幫助人類用戶DSRD服務(wù)以外的人類用戶或其他實(shí)體(如自動(dòng)化程序) 獲得與所關(guān)注的一個(gè)或多個(gè)主題有關(guān)的內(nèi)容,例如響應(yīng)于搜索詢問(wèn),以便向用戶推送或 提供未顯式請(qǐng)求的相關(guān)信息(例如,基于先前指定的主題偏好)等。此外,在各個(gè)實(shí)施 例中,可以以各種方式向用戶顯示與各個(gè)詞和/或主題的互相關(guān)性有關(guān)的信息。在于 2008 年 12 月 12 日提交的、名稱為 “Electronic Profile Development,Storage, Use, and Systems Therefor”的美國(guó)專利申請(qǐng)No.12/334,389和于2008年12月12日提交的、名稱 為"Advertising Selection and Display Based on Electronic Profile Information” 的美國(guó)專禾1J 申請(qǐng)No.12/334,416中可得到與關(guān)于所關(guān)注的域的所確定的相關(guān)信息的可能使用示例有關(guān) 的附加細(xì)節(jié),這兩個(gè)申請(qǐng)的全部?jī)?nèi)容以參考的方式并入于此。此外,在至少一些實(shí)施例中,以各種方式來(lái)跟蹤和使用與用戶或其他實(shí)體如何 使用自動(dòng)確定的主題和/或文檔相關(guān)性信息有關(guān)的信息。例如,在至少一些實(shí)施例中, 與自動(dòng)確定的主題和/或文檔信息的使用有關(guān)的信息可以被DSRD服務(wù)用作與自動(dòng)確定的 主題和/或文檔相關(guān)性信息有關(guān)的反饋。這種反饋可以用于例如修正可用作所確定的詞 的特定詞和詞組合的相關(guān)性的初始確定,和/或修正特定文檔與所確定的主題的相關(guān)性 的初始確定,并且,該修正后的所確定的相關(guān)性信息就可以被DSRD服務(wù)或其他關(guān)聯(lián)服 務(wù)以與初始確定的相關(guān)性信息類似的方式使用。在這種方式下,連續(xù)或其他重復(fù)反饋回路可以用于重復(fù)改進(jìn)由DSRD服務(wù)執(zhí)行的自動(dòng)相關(guān)性確定。如以下更詳細(xì)地描述的,在 一些實(shí)施例中,反饋用于學(xué)習(xí)或修正自動(dòng)確定的主題和/或文檔信息,例如通過(guò)使用所 配置的神經(jīng)網(wǎng)絡(luò)或者其他自適應(yīng)模型或系統(tǒng)。此外,在至少一些實(shí)施例和情形中,可以 以各種方式將所配置的神經(jīng)網(wǎng)絡(luò)或其他自適應(yīng)系統(tǒng)自動(dòng)擴(kuò)展為使用與變?yōu)榭捎玫男挛臋n 和/或所確定的新主題有關(guān)的信息。出于示意目的,以下描述了一些示例和實(shí)施例,其中,以特定方式分析特定類 型的信息,以特定方式使用與特定域有關(guān)的所確定的信息。出于示意目的提供了這些示 例,并為了簡(jiǎn)明而簡(jiǎn)化了這些示例,并且應(yīng)當(dāng)理解,可以在許多種其他情形中使用本發(fā) 明的技術(shù),其中一些情形在以下更詳細(xì)地描述。例如,盡管以下描述了對(duì)特定文本文檔 的分析,但可以類似地分析和使用其他形式的信息。此外,盡管將特定算法和技術(shù)示意 為用于確定一個(gè)或多個(gè)域之內(nèi)或之上的相關(guān)主題、確定與主題相關(guān)的特定文檔、以及基 于使用和其他反饋來(lái)學(xué)習(xí)主題和/或文檔的改進(jìn)相關(guān)性,但也可以以其他方式使用其他 算法和技術(shù)。圖IA和IB示意了使用所描述的技術(shù)確定與所關(guān)注的域有關(guān)的相關(guān)信息并向用 戶或其他實(shí)體提供有關(guān)信息和功能的自動(dòng)化域?qū)S孟嚓P(guān)性確定服務(wù)的示例。具體地,圖 IB示意了 DSRD服務(wù)105的實(shí)施例,以及去往和來(lái)自DSRD服務(wù)105的示例數(shù)據(jù)流的高 級(jí)描述,作為確定和使用相關(guān)域?qū)S眯畔⒌囊徊糠?。在本示例中,DSRD服務(wù)105訪問(wèn) 并分析與所關(guān)注的一個(gè)或多個(gè)域有關(guān)的各個(gè)文檔160,以確定與域中的每一個(gè)有關(guān)的相關(guān) 性信息。本示例中的DSRD服務(wù)105所產(chǎn)生的所確定的相關(guān)性信息包括與一個(gè)或多個(gè)域 中的每一個(gè)之內(nèi)的相關(guān)主題有關(guān)的信息170以及與哪些文檔具有關(guān)于這種主題的內(nèi)容有 關(guān)的信息180,盡管在其他實(shí)施例中,僅可以確定一種類型的相關(guān)性信息。在本示例中, DSRD服務(wù)105向各個(gè)用戶140提供所確定的相關(guān)主題信息170中的至少一些和/或所確 定的相關(guān)文檔信息180中的至少一些,以供他們使用。盡管這里未示意,但在其他實(shí)施 例中,DSRD服務(wù)105可以以一種或多種其他方式(例如經(jīng)由一個(gè)或多個(gè)中間的其他服務(wù) (例如,從DSRD服務(wù)105獲得相關(guān)域?qū)S眯畔⒉⒁愿鞣N方式使用它的其他服務(wù)))向用 戶140提供所確定的相關(guān)主題信息170和/或所確定的相關(guān)文檔信息180。此外,在本 示例中,DSRD服務(wù)105可以獲得與用戶140對(duì)所確定的相關(guān)域?qū)S眯畔?70和/或180 的使用有關(guān)的各種反饋或其他信息190,并可以使用該反饋來(lái)改善所確定的相關(guān)域?qū)S眯?息170和/或180。在本文其他位置更詳細(xì)地描述與DSRD服務(wù)105的各個(gè)數(shù)據(jù)流和動(dòng) 作有關(guān)的附加細(xì)節(jié),包括參照?qǐng)D2A-2L中討論的示例實(shí)施例。圖IA示意了與圖IB的DSRD服務(wù)105的一個(gè)實(shí)施例有關(guān)的附加示例細(xì)節(jié)。具 體地,在圖IA的示例中,由示例DSRD服務(wù)105文檔訪問(wèn)并分析的文檔可以包括可通過(guò) 網(wǎng)絡(luò)100訪問(wèn)的域文檔160(例如,可從一個(gè)或多個(gè)網(wǎng)站或其他信息源公開(kāi)訪問(wèn))和/或 DSRD服務(wù)105可專門(mén)訪問(wèn)的可選域文檔135(例如,由服務(wù)105產(chǎn)生或提供的域文檔; 從第三方源可用但不可公開(kāi)訪問(wèn)的域文檔,例如,如果可用于付費(fèi)訪問(wèn)或者基于服務(wù)105 與第三方源之間的所定義的關(guān)系;等等)。此外,在確定了一個(gè)或多個(gè)域的相關(guān)性信息 之后,DSRD服務(wù)105還通過(guò)網(wǎng)絡(luò)100與各個(gè)用戶140和/或一個(gè)或多個(gè)可選其他服務(wù) 150 (例如,與用戶140進(jìn)行交互并使用由DSRD服務(wù)105提供的信息的其他管理服務(wù))進(jìn) 行交互的。
此外,在本示例中,DSRD服務(wù)105包括多個(gè)模塊,均提供DSRD服務(wù)105的 一些功能,包括域分析管理器模塊110、相關(guān)文檔確定管理器模塊120和相關(guān)主題確定管 理器模塊130。具體地,域分析管理器模塊110執(zhí)行各種動(dòng)作以獲得并自動(dòng)分析域相關(guān)文 檔的內(nèi)容,以便例如使這種所分析的信息可由模塊120和130使用。相關(guān)文檔確定管理 器模塊120使用所分析的文檔信息來(lái)確定與特定詞或其他主題相關(guān)的文檔,以便例如產(chǎn) 生圖IB的域文檔相關(guān)性信息180 (圖IA中未示出,但可存儲(chǔ)在圖1中也未示出的一個(gè)或 多個(gè)存儲(chǔ)設(shè)備上)。類似地,相關(guān)主題確定管理器模塊130使用所分析的文檔信息來(lái)確 定與域相關(guān)的主題,以便例如產(chǎn)生IB的域主題相關(guān)性信息170 (圖IA中未示出,但可存 儲(chǔ)在圖1中也未示出的一個(gè)或多個(gè)存儲(chǔ)設(shè)備上)。在本示意實(shí)施例中,模塊120和/或 130從而可以向用戶140或可選其他服務(wù)150提供所產(chǎn)生域?qū)S孟嚓P(guān)性信息,例如經(jīng)由用 戶可交互式地使用的所提供的GUI( “圖形用戶界面”)和/或經(jīng)由軟件程序可借以采用 編程方式進(jìn)行交互的所提供的API( “應(yīng)用編程接口”)。在其他實(shí)施例中,DSRD服務(wù) 105的一個(gè)或多個(gè)其他模塊(未示出)可以代之以經(jīng)由由DSRD服務(wù)105提供的一個(gè)或多 個(gè)GUI和/或一個(gè)或多個(gè)API來(lái)與用戶140和/或可選其他服務(wù)150進(jìn)行交互。盡管未在圖IA和IB中示意,但DSRD服務(wù)105可以以各種方式實(shí)現(xiàn),包括利用 在一個(gè)或多個(gè)計(jì)算系統(tǒng)(未示出)上執(zhí)行的一個(gè)或多個(gè)軟件模塊,并且,DSRD服務(wù)105 可以將各種信息存儲(chǔ)在一個(gè)或多個(gè)本地或遠(yuǎn)程的存儲(chǔ)設(shè)備(未示出)上。類似地,用戶 140、其他服務(wù)150和域文檔160可以使用計(jì)算設(shè)備或系統(tǒng)(未示出)來(lái)執(zhí)行各種所描述的 交互和/或存儲(chǔ)各種所描述的信息。此外,盡管在一些實(shí)施例中,DSRD服務(wù)105和其 他服務(wù)150可以由非關(guān)聯(lián)實(shí)體提供,但在其他實(shí)施例中,DSRD服務(wù)105以及一個(gè)或多個(gè) 其他服務(wù)150可以代之以由單個(gè)操作者(例如彼此相結(jié)合地)提供。此外,圖IA所示的 網(wǎng)絡(luò)100可以具有各種形式,例如,各種不同方可能操作的、所鏈接的網(wǎng)絡(luò)(如因特網(wǎng)) 的可公開(kāi)訪問(wèn)的網(wǎng)絡(luò)。在一些實(shí)施例中,網(wǎng)絡(luò)100可以是專用網(wǎng)絡(luò),例如,對(duì)無(wú)特權(quán)用 戶來(lái)說(shuō)全部或部分不可訪問(wèn)的公司或大學(xué)網(wǎng)絡(luò)。在其他實(shí)施例中,網(wǎng)絡(luò)100可以包括可 向和/或從因特網(wǎng)訪問(wèn)的一個(gè)或多個(gè)專用網(wǎng)絡(luò),并且在至少一些實(shí)施例中,網(wǎng)絡(luò)100中的 一些或全部還可以包括寬帶或廣播有線或無(wú)線鏈路(例如,蜂窩電話連接;使用Wi-Fi、 Wi-ΜΑΧ,藍(lán)牙、廣播模擬或數(shù)字電視、EVDO、衛(wèi)星或其他無(wú)線聯(lián)網(wǎng)或通信協(xié)議的無(wú) 線計(jì)算機(jī)連接;等等)。此外,各個(gè)用戶140和其他實(shí)體可以以各種方式與DSRD服務(wù)105進(jìn)行交互,以 發(fā)出請(qǐng)求并指定各種信息。例如,用戶可以注冊(cè)或訂閱至DSRD服務(wù)105和/或可選其 他服務(wù)150,以便例如提供可在后續(xù)請(qǐng)求中使用的各種偏好和其他信息。在這些實(shí)施例 中,在用戶與要注冊(cè)的DSRD服務(wù)105進(jìn)行交互之后,可以向用戶發(fā)布與用戶相關(guān)聯(lián)且 后續(xù)在發(fā)出其他請(qǐng)求(例如針對(duì)指定詢問(wèn)的搜索結(jié)果的請(qǐng)求)時(shí)使用的一個(gè)或多個(gè)標(biāo)識(shí)符 (例如,密鑰、令牌、用戶名等)。此外,在一些實(shí)施例中,可選其他服務(wù)150可以注冊(cè) 至DSRD服務(wù)105或與DSRD服務(wù)105進(jìn)行交互,以建立關(guān)聯(lián)關(guān)系,以便例如允許其他 服務(wù)150獲得對(duì)由DSRD服務(wù)105產(chǎn)生的至少一些域?qū)S孟嚓P(guān)性信息的訪問(wèn)。此外,各 種費(fèi)用可以與DSRD服務(wù)的使用相關(guān)聯(lián),使得DSRD服務(wù)可以對(duì)至少一些請(qǐng)求作出響應(yīng) 來(lái)交換由請(qǐng)求者支付的費(fèi)用,以便例如向可選其他服務(wù)150提供域?qū)S孟嚓P(guān)性信息來(lái)交 換來(lái)自其他服務(wù)150的費(fèi)用,或者向用戶140提供域?qū)S孟嚓P(guān)性信息來(lái)交換來(lái)自用戶的費(fèi)用。在其他實(shí)施例中,DSRD服務(wù)105可以以其他方式獲得費(fèi)用,例如,從域?qū)S梦臋n 和其他內(nèi)容的提供者獲得費(fèi)用以執(zhí)行與該內(nèi)容有關(guān)的相關(guān)性確定、從諸如廣告商和零售 商(例如,用于向至少一些用戶140提供廣告或其他所指示的內(nèi)容)之類的其他第三方獲
得費(fèi)用等等。圖2A-2L示意了用于確定與所關(guān)注的示例域有關(guān)的相關(guān)性信息的技術(shù)的示例, 例如,可以由DSRD服務(wù)的實(shí)施例自動(dòng)執(zhí)行。例如,圖2A和2B示意了與作為所關(guān)注的特定示例域的一部分的多個(gè)文檔有關(guān) 的概要信息的示例,以及可由與該域又掛內(nèi)的文檔的DSRD服務(wù)的實(shí)施例產(chǎn)生的示例詞 分析信息。具體地,如關(guān)于示例概要信息200所指示的,所關(guān)注的示例域與棒球有關(guān), 并且本示例中可用于該域的域?qū)S梦臋n的文集包括1000個(gè)文檔(例如,新聞文章、球員 傳記、球隊(duì)概要等)。本示例中的信息200包括文集中存在的幾支示例詞的概要,以及這些詞的IDF信 息。具體地,示出了多個(gè)詞202a,均具有唯一詞ID 202b、文集中包括該詞在內(nèi)的多個(gè)文 檔的指示202c以及該詞和文集文檔的對(duì)應(yīng)IDF值202d。還可以產(chǎn)生和存儲(chǔ)各種其他概要 信息,但在本示例中未示出。此外,示例表200中的每一行204反映了不同詞,例如, 行204a與公共詞“the”相對(duì)應(yīng),其出現(xiàn)在文集中的1000個(gè)文檔中的每一個(gè)中,并因此 具有IDF值0。在本示例中,基于IDF值來(lái)對(duì)行204進(jìn)行排序,使得后續(xù)詞具有增加的 IDF值,從而反映其在文集的文檔中的出現(xiàn)次數(shù)少于先前詞,因此相對(duì)于其存在于的那些 文檔更特殊。本文其他位置包括了與計(jì)算IDF值有關(guān)的附加細(xì)節(jié)。此外,在一些實(shí)施 例中,可以將一些公共詞或其他所指示的詞(例如,詞“the”)作為文檔詞分析的一部 分進(jìn)行移除,因此,這些詞可能不在這種概要信息200中示出或可能不用在與相關(guān)性有 關(guān)的信息的后續(xù)確定中。此外,本示例中的詞202a中的一些是包括多個(gè)有關(guān)單詞在內(nèi)的 詞組,例如“home run (本壘打)”和“Hank Aaron”,而有時(shí)可一起使用的其他詞(例 如,“Barry Bonds”禾Π “Bobby Bonds”)被示作單獨(dú)的詞。應(yīng)當(dāng)理解,可以以多種方 式確定這種多單詞的詞,例如,基于其一起重復(fù)使用和缺少單獨(dú)使用來(lái)自動(dòng)確定、基于 在域的公共詞的詞典或其他類似信息中包括這種詞來(lái)自動(dòng)確定、基于DSRD服務(wù)的操作 者的輸入來(lái)至少部分地以手動(dòng)方式確定等等。在其他實(shí)施例中,每個(gè)單詞至少最初可以 被視為單獨(dú)的詞,并可選地,可以基于用戶一起重復(fù)使用的詞中的那些詞的互相關(guān)性的 所學(xué)習(xí)的相關(guān)性,將每個(gè)單詞后續(xù)分組在一起作為公共主題的一部分,如本文其他位置 更詳細(xì)地討論。圖2A和2B所示的其他示例表210、220、230、240和250均反映了文集中的示 例文檔,并包括與這些文檔中的示例詞有關(guān)的各種信息以及這些詞和這些文檔的對(duì)應(yīng)詞 相關(guān)性信息。具體地,詞210與示例文檔1相對(duì)應(yīng),在本示例中,示例文檔1是關(guān)于以 下內(nèi)容的新聞文章Barry Bonds在效力于舊金山巨人隊(duì)時(shí)于2007年創(chuàng)造了職業(yè)生涯本壘 打(“HR” )記錄,超越了之前由HankAaran保持的記錄。盡管Bonds趕超了本壘打記 錄,但在職業(yè)棒球大聯(lián)盟的球員當(dāng)中正在出現(xiàn)與類固醇爭(zhēng)議有關(guān)的重大新聞報(bào)導(dǎo),Bonds 后來(lái)也被指控與涉嫌使用類固醇有關(guān)。表210中的各個(gè)條目214均與1500單詞的文檔1中出現(xiàn)的詞212a的示例子集相 對(duì)應(yīng),例如,條目214a中的詞“Bonds”、條目214c中的詞“Hank Aaron”等。還示意了每個(gè)詞在文檔1中的出現(xiàn)次數(shù)212b,并示出了對(duì)應(yīng)的詞頻率值212c。這里還針對(duì)詞 而復(fù)制IDF值212d,IDF值212d與信息200中的相同值202d相對(duì)應(yīng)。此外,每個(gè)條目 214包括基于詞頻率值212c和IDF值212d的TF-IDF值212e。例如,將條目214a中的詞 "Bonds"指示為在文檔1中出現(xiàn)35次,這使得在文檔的1500個(gè)單詞當(dāng)中有2.33%的頻 率。詞"Bonds”的IDF值212d是1.10,與信息200的條目204d的信息202d相對(duì)應(yīng), 并且,在本示例中,條目214a中的Bonds的TF-IDF值212e是2.559。在本示例中,以 TF-IDF值的降低值的順序示意了條目214,指示詞“Bonds”是所示的該文檔的最具描 述性的詞,而分別處于條目214i和214j中的其他詞(如“the”和"indictment")不是 該文檔的描述性詞(例如,由于詞“the”出現(xiàn)在文集的所有文檔中從而具有為0的IDF 值,以及由于詞“indictment”未出現(xiàn)在該示例文檔中從而具有為0的詞頻率值212c)。 本文其他位置包括了與計(jì)算TF和TF-IDF值有關(guān)的附加細(xì)節(jié)。表220、230、240和250分別包括示例文檔2、3、4和5的類似信息。具體地, 示例文檔2是Barry Bonds的總覽傳記,集中于Bonds的各種成就并包括如各個(gè)條目224 中所示的對(duì)應(yīng)詞222a。示例文檔3是與Bonds的對(duì)可能的與類固醇有關(guān)的濫用的指控相 對(duì)應(yīng)的新聞文章,并包括如各個(gè)條目234中所示的對(duì)應(yīng)詞232a。示例文檔4與在Bonds 的指控之前發(fā)生且發(fā)起了職業(yè)棒球大聯(lián)盟中與類固醇有關(guān)的一些爭(zhēng)議的事件,并具體與 前職業(yè)棒球大聯(lián)盟球員Jose Canseco在與職業(yè)棒球大聯(lián)盟中涉嫌類固醇使用有關(guān)的議會(huì)之 前作證相對(duì)應(yīng),各個(gè)條目224中示出了對(duì)應(yīng)詞242a。示例文檔5是2008職業(yè)棒球大聯(lián)盟 賽季中段的新聞文章,并集中于Bonds在2007賽季結(jié)束后停止效力的舊金山巨人隊(duì)的當(dāng) 前狀態(tài),各個(gè)條目254中示出了對(duì)應(yīng)詞252a。如參照?qǐng)D2C_2L更詳細(xì)地討論的,這些示 例文檔的示例詞信息將用于示意一些所描述的技術(shù),用來(lái)確定該示例的與棒球有關(guān)的域 的相關(guān)主題和特定主題的相關(guān)文檔。圖2C和2D示意了由用戶指定的搜索詢問(wèn)的示例,其中,針對(duì)文集的示例文 檔1-5的圖2A和2B所示的示例詞分析信息可以被DSRD服務(wù)用于確定與詢問(wèn)相關(guān)的 特定信息。具體地,圖2C示意了用戶已指定的詢問(wèn),在本示例中,該詢問(wèn)包括詢問(wèn)詞 265a “Bonds”和“steroids(類固醇)”。示出了各個(gè)信息261a,其指示兩個(gè)詢問(wèn)詞中 的每一個(gè)與示例文檔1-5中的每一個(gè)的所評(píng)估的相關(guān)度,包括針對(duì)示例文檔262中的每一 個(gè)而產(chǎn)生的歸一化總計(jì)文檔相關(guān)性分或數(shù)264x。如以下更詳細(xì)地描述的,可以針對(duì)每個(gè) 詞264和每個(gè)文檔262產(chǎn)生歸一化文檔相關(guān)性數(shù),在本示例中,對(duì)文檔的每個(gè)詞的歸一 化分求平均,以便基于兩個(gè)詢問(wèn)詞的組合來(lái)產(chǎn)生該文檔的文檔相關(guān)性數(shù)264x。具體地, 在本示例中,詞與文檔的相關(guān)性部分地基于該詞和文檔的TF-IDF值,并部分地使用該 詞在文集中的所有文檔上的最大和最小TF-IDF值而進(jìn)行歸一化。在本示例中,在信息 267a-267d中示出了兩個(gè)詢問(wèn)詞的示例最小和最大TF-IDF值,盡管在至少一些實(shí)施例中 可能未向指定了該詢問(wèn)的用戶示意這種信息267和/或表261a。以下包括與產(chǎn)生示例文 檔相關(guān)性數(shù)有關(guān)的附加細(xì)節(jié)。在本示例中,示例文檔3具有詢問(wèn)詞的所產(chǎn)生的最高文檔相關(guān)性值,這是由于 與Bonds的關(guān)于類固醇的指控有關(guān)的文檔3的內(nèi)容與兩個(gè)詢問(wèn)詞265a都高度相關(guān)。示例 文檔1和4均與詢問(wèn)詞265a的組合適度相關(guān),這是基于這些示例文檔中的每一個(gè)與詢問(wèn) 詞之一高度相關(guān),而僅與另一詢問(wèn)詞稍微相關(guān)(即,示例文檔1與“Bonds”詞高度相關(guān),而僅與“steroids”詞稍微相關(guān),以及,示例文檔4與“steroids”詞高度相關(guān),而僅 與“Bonds”詞稍微相關(guān)),如文檔1的列262a和文檔4的列262d中、信息261a的條目 264a和264b中所示。示例文檔2和5同其他三個(gè)示例文檔相比,與詢問(wèn)詞265a較不相關(guān)。如前所述,在各個(gè)實(shí)施例中,可以以各種方式執(zhí)行對(duì)特定文檔與一個(gè)或多個(gè)指 定詞(如作為搜索詢問(wèn)的一部分的詞)(例如作為主題的一部分的多個(gè)有關(guān)詞)的相關(guān)性 的確定。作為一個(gè)具體示例,可以以各種方式來(lái)對(duì)指定的詞和文檔中的每一個(gè)的TF-IDF 分進(jìn)行組合,以便例如產(chǎn)生平均值或總和。具體地,在至少一些實(shí)施例中,產(chǎn)生各種指 定詞的TF-IDF分的平均值,并且還可以對(duì)該平均值進(jìn)行歸一化(例如,以表示相關(guān)性百 分比或0與1之間的另一個(gè)數(shù)),以便產(chǎn)生所指定的詞的歸一化文檔相關(guān)性(“DR” ) 分,以便于在文檔之間進(jìn)行比較并且便于人理解DR分。在至少一些實(shí)施例中,文檔d相 對(duì)于一個(gè)或多個(gè)指定的詞i的組g的DR分可以確定如下
1 曇 TF .IDFi d - min( TF .IDF,)DR(d,g)^---V7-^---
NTerms (g) T (max( TF JDF,) - min( TF JDF,))其中,對(duì)g中的詞i中的每一個(gè)執(zhí)行求和,NTerms (g)反映了組g中詞i的量, 特定詞i的最小和最大TF-IDF1分分別反映了該詞在域的所有文檔k上的最低和最高分。圖2D示意了可響應(yīng)于圖2C中指示的詢問(wèn)詞265a “Bonds”禾Π “steroids”而 向用戶顯示或提供的信息260的示例。信息260可以例如是所產(chǎn)生并提供給用戶的客戶 端設(shè)備以供顯示的網(wǎng)頁(yè)的一部分,或可以是向用戶呈現(xiàn)的信息屏幕的一部分。具體地,在本示例中,信息260包括所指定的詢問(wèn)詞265a的視覺(jué)指示266,并 且,以所產(chǎn)生的文檔相關(guān)性的順序示出了對(duì)應(yīng)的搜索結(jié)果的列表269。此外,在本示例 中,列表269中的條目中的每一個(gè)不僅包括對(duì)應(yīng)相關(guān)文檔的指示(例如,文檔的名稱或其 他標(biāo)識(shí)符,例如可以被顯示為用戶可選擇的鏈接,該鏈接可由用戶選擇以訪問(wèn)文檔),而 且包括文檔的對(duì)應(yīng)的所產(chǎn)生的歸一化文檔相關(guān)性數(shù)的指示,以便例如在評(píng)估是否獲得與 特定文檔有關(guān)的其他信息或是否將文檔選擇為與詢問(wèn)詞265a相關(guān)時(shí),向用戶提供信息。 本示例中所指示的歸一化文檔相關(guān)性數(shù)還均包括對(duì)歸一化文檔相關(guān)性數(shù)的相關(guān)度的文本 評(píng)估,盡管在其他示例中可以示出歸一化文檔相關(guān)性數(shù)和關(guān)聯(lián)文本評(píng)估中的僅一個(gè)(或 都不可以示出)。此外,在各個(gè)實(shí)施例中,可以以各種方式執(zhí)行對(duì)特定搜索結(jié)果的選擇和 顯示,包括示出詢問(wèn)結(jié)果的所指定的量、示出高于所指定的最小文檔相關(guān)性值的一些或 所有詢問(wèn)結(jié)果等。此外,在本示例中,提供了附加信息和用戶可選擇的控件268以便可能由用戶 選擇,盡管在其他示例中可能未示出這種附加信息。在本示例中,附加信息268問(wèn)用戶 是否愿意擴(kuò)大先前指定的搜索詢問(wèn)以進(jìn)一步描述域的相關(guān)主題,以便例如通過(guò)指定比詢 問(wèn)詞265a更好地表示用戶興趣的跟具體或不同的主題,來(lái)改進(jìn)搜索結(jié)果的精度。作為一 個(gè)可能示例,如之前關(guān)于均與所指定的詢問(wèn)詞之一高度相關(guān)但僅與另一指定詢問(wèn)詞適度 相關(guān)的示例文檔1和4而討論的,用戶可能能夠通過(guò)弄清楚用戶是主要關(guān)注職業(yè)棒球大聯(lián) 盟中與類固醇有關(guān)的爭(zhēng)議(例如,由于其不僅涉及Bonds,還涉及其他球員),還是主要 關(guān)注與Bonds涉嫌使用類固醇僅稍微相關(guān)的與Bonds有關(guān)的信息(例如,Bonds創(chuàng)造職業(yè) 生涯本壘打記錄),來(lái)改進(jìn)搜索結(jié)果的精度。更一般地,通過(guò)識(shí)別具體與用戶當(dāng)前所關(guān)注的一個(gè)或多個(gè)主題相關(guān)的附加詞,所得到的擴(kuò)大詢問(wèn)詞可以更好地消除可與初始詢問(wèn)中 的詞相關(guān)聯(lián)的各種可能主題的歧義。對(duì)圖2D的信息268中的用戶可選擇的“是”控件的選擇可以提示DSRD服務(wù)的 各種附加動(dòng)作,其中,一個(gè)這樣的示例是參照?qǐng)D2E和2F來(lái)更詳細(xì)描述的。具體地,圖 2E示意了與可關(guān)于所指定的詢問(wèn)詞265a "Bonds"和“steroids”的其他詞274有關(guān)的 信息270,其中確定了其他詞與所指定的詢問(wèn)詞265a的所評(píng)估的相關(guān)度的指示。在其他 實(shí)施例中,可以以其他方式提示對(duì)與主題有關(guān)的詞相關(guān)性信息的使用,例如,在一些或 所有情形中,如果針對(duì)一些或所有用戶自動(dòng)執(zhí)行(例如,以便顯示具有與一個(gè)或多個(gè)其 他詞的可能相關(guān)性有關(guān)的圖2D的信息260的附加信息,不論是替換還是補(bǔ)充信息268)??梢砸愿鞣N方式使用圖2E中的各個(gè)信息270,例如,用作進(jìn)一步定義特定主 題以用在改善的搜索詢問(wèn)中的一部分,該改善的搜索詢問(wèn)部分地基于初始指定的詢問(wèn)詞 265a。例如,在一些實(shí)施例中,可以向指定了詢問(wèn)詞265a的用戶示意這種信息270中的 一些或全部,盡管在所示的實(shí)施例中未向用戶顯示信息270。在本示例中,信息270包 括多個(gè)詞條目274a-274f,均與同詢問(wèn)詞265a的可能組合的候選附加詞相對(duì)應(yīng),并且, 文檔列272a-272d指示這些詞與示例文檔1_4的所評(píng)估的相關(guān)度。列272e指示每個(gè)條目 274中的候選詞相對(duì)于詢問(wèn)詞265a的總計(jì)詞相關(guān)性分,以便例如反映候選詞與由詢問(wèn)詞 265a表示的可能主題的所評(píng)估的相關(guān)度。在各個(gè)實(shí)施例中,可以以各種方式選擇各個(gè)示 例文檔272和候選附加詞274。例如,可以通過(guò)首先選擇文集中被確定為與詢問(wèn)詞265a 最相關(guān)(例如基于圖2C所示的歸一化文檔相關(guān)性數(shù)264x)的文檔的子集,來(lái)選擇候選附 加詞??梢砸愿鞣N方式選擇最相關(guān)的文檔,例如選擇具有最高文檔相關(guān)性數(shù)的指定量的 文檔、選擇具有最高文檔相關(guān)性數(shù)的指定百分比的文檔、選擇其文檔相關(guān)性數(shù)高于指定 閾值(如預(yù)定義閾值,例如最小文檔相關(guān)性數(shù)閾值;或者動(dòng)態(tài)確定的閾值,例如如果對(duì) 具有類似文檔相關(guān)性數(shù)值的文檔進(jìn)行分組提供了最相關(guān)文檔的組與其他文檔之間的自然 出現(xiàn)的閾值點(diǎn))的一些或所有文檔等等。在圖2E的本示例中,如圖2C中的條目264x的 列262e中所指示,基于其低文檔相關(guān)性數(shù)2%,示例文檔5已被選擇為最相關(guān)文檔以進(jìn)一 步用在本示例中,但是,其他示例文檔1-4已被選擇以用作相關(guān)文檔。在本示例中,一旦針對(duì)詢問(wèn)詞265a選擇了最相關(guān)文檔,就部分地基于這些所選 的文檔,針對(duì)詢問(wèn)詞265a選擇候選附加詞。例如,可以基于所選文檔中的詞而不是對(duì)于 這些所選文檔來(lái)說(shuō)最相關(guān)搜索詞265a,來(lái)選擇候選附加詞,例如,基于所選文檔的這些 其他詞的TF-IDF值和/或基于所選文檔的這些其他詞的詞頻率值。在本示例中,每個(gè)詞 條目274和示例文檔272的信息270中所示的數(shù)反映了該詞和文檔的TF-IDF值。例如, 關(guān)于與詞“home run”相對(duì)應(yīng)的條目274a,將示例文檔1的該詞的詞相關(guān)性值272a指示 為T(mén)F-IDF至1.333 (如之前在圖2A的信息210的條目214b和列212e中所指示),并將示 例文檔2的條目274a中的詞"home ran,,的詞相關(guān)性值272b指示為T(mén)F-IDF值1.125 (如 之前在圖2A的信息220的行224b和列222e中所指示)。此外,在本示例中,然后在所選的文檔上對(duì)詞274中的每一個(gè)的詞相關(guān)性值進(jìn) 行合計(jì),例如通過(guò)對(duì)這些單獨(dú)的TF-IDF文檔專用值求平均,其中,在列272e中反映了每 個(gè)候選附加詞274的所得到的、所確定的總計(jì)詞相關(guān)性分或數(shù)。在本示例中,以詢問(wèn)詞 265a的所確定的總計(jì)相關(guān)性值的減小順序示出了候選詞274,使得條目274a中的候選詞"home ran"被確定為所指定的詢問(wèn)詞的最相關(guān)候選附加詞,并且使得條目274f中的候 選附加詞‘‘Canseco”被確定為所示的所指定的詢問(wèn)詞的最不相關(guān)候選附加詞。??梢?以各種方式來(lái)識(shí)別基于所選文檔的組而選擇以考慮的特定候選附加詞,例如通過(guò)使用每 個(gè)文檔中或被確定為潛在地最相關(guān)的所有文檔(例如,通過(guò)使用TF-IDF值、詞頻率值或 其他單獨(dú)文檔詞相關(guān)性值)中其他詞的指定量、通過(guò)使用每個(gè)文檔中或所有文檔中潛在 地最相關(guān)的其他詞的指定百分比、通過(guò)使用至少一個(gè)所選文檔或所有所選文檔或最相關(guān) 文檔的一些指定的最小子集的、其TF-IDF值(或其他單獨(dú)文檔詞相關(guān)性值)高于指定閾 值(如預(yù)定義閾值,例如最小詞相關(guān)性數(shù)閾值;或者動(dòng)態(tài)確定的閾值,例如如果對(duì)具有 類似詞相關(guān)性數(shù)值的詞進(jìn)行分組提供了最相關(guān)詞的組與其他詞之間的自然出現(xiàn)的閾值點(diǎn)) 的一些或所有其他詞等等。在其他實(shí)施例中,可以以其他方式選擇候選附加詞和/或相 關(guān)文檔,并且可以以其他方式確定單獨(dú)詞相關(guān)性值和/或總計(jì)詞相關(guān)性值。本文其他位 置包括了與產(chǎn)生示例詞相關(guān)性分或其他值有關(guān)的附加細(xì)節(jié)。圖2F繼續(xù)圖2A-2E的示例,并示意了可向用戶顯示或提供的信息275的示例, 該信息275包括與要選擇并與先前指示的詢問(wèn)詞265a—起使用的其他可能詞有關(guān)的信 息,該其他可能詞在圖2D中以視覺(jué)指示266示出并在圖2F中以視覺(jué)指示276示出。如 前所述,可以以各種方式提示對(duì)信息275的提供,例如,響應(yīng)于對(duì)圖2D中的信息260的 信息268中的“是”用戶可選擇空間的選擇或者以其他方式。此外,以與圖2D的信息 260類似的方式,可以以各種方式向用戶提供所示的信息275,例如,作為所產(chǎn)生并提供 給用戶的客戶端設(shè)備以供顯示的網(wǎng)頁(yè)的一部分,或者作為向用戶呈現(xiàn)的信息屏幕的一部 分(例如,作為在用戶的計(jì)算設(shè)備上執(zhí)行的軟件應(yīng)用的GUI的一部分,例如由DSRD服 務(wù)的操作者提供的軟件應(yīng)用以與DSRD服務(wù)一起使用,或由第三方提供的軟件應(yīng)用)。本示例中的信息屏幕275包括所指定的詢問(wèn)詞265a的其他可能有關(guān)詞的列表 279,例如在本示例中,其是基于圖3E的候選附加詞274中的至少一些來(lái)產(chǎn)生的。具體 地,示例的有關(guān)其他詞279包括多個(gè)條目279a-279e,并且是基于圖2E的總計(jì)相關(guān)性分 272e來(lái)以減小的所確定的詞相關(guān)性示出的。此外,在本示例中,示出了所包括的其他可 能詞中的每一個(gè)的詞相關(guān)性的指示,盡管在其他實(shí)施例中可能不包括這種詞相關(guān)性信息 或者可以以其他方式示出這種詞相關(guān)性信息,在本示例中,已經(jīng)將從圖2e的列272e確定 的詞相關(guān)性分轉(zhuǎn)換為從0至10的刻度,其中,被確定為最相關(guān)的其他可能詞具有可能值 10,被確定為最不相關(guān)的其他可能詞具有較低值。盡管這里未示意,但其他可能詞中的 每一個(gè)可以是用戶可選擇的鏈接,或可以具有一個(gè)或多個(gè)關(guān)聯(lián)的用戶可選擇控件,以允 許用戶將該詞選擇或指定為所關(guān)注的,以便例如進(jìn)行指定以包括該所選詞作為修正后的 詢問(wèn)的一部分。在其他實(shí)施例中,可以以其他方式顯示詞相關(guān)性信息,例如指示從圖2E 實(shí)際確定的詞相關(guān)性分272e、顯示這種詞相關(guān)性分的歸一化版本(以與先前參照針對(duì)文 檔相關(guān)性分的圖2D描述的方式類似的方式)等等。此外,盡管圖2F中未以與圖2D類 似的方式示出詞相關(guān)性值的文本描述,但在其他實(shí)施例中可以示出這種詞相關(guān)性值。圖2G和2H繼續(xù)圖2A-2F的示例,并具體與用戶可指定的兩個(gè)備選主題相對(duì) 應(yīng),例如通過(guò)選擇如圖2F所示的附加有關(guān)詞,或以另一種方式。具體地,圖2G與以 下示例相對(duì)應(yīng)用戶已選擇其他附加詞“home run”和“Hank Aaron”以與在先詞
“Bonds”和“steroids” 一起使用,作為擴(kuò)大的詢問(wèn)詞265b的組的一部分,例如基于對(duì)圖2F中的列表279的條目279a和279c的選擇。圖2G還包括附加信息261b,以與先 前關(guān)于圖2C的信息261a討論的方式類似的方式,指示各個(gè)示例文檔1-5與擴(kuò)大的詢問(wèn)詞 265b的相關(guān)性??梢砸愿鞣N方式使用圖2G中的各個(gè)信息261b,以便例如確定包括文集 中與擴(kuò)大的詢問(wèn)詞265b最相關(guān)的文檔在內(nèi)的新搜索結(jié)果,其可以向用戶顯示或提供(例 如,以與圖2D的方式類似的方式)。此外,在一些實(shí)施例中,可以向指定了擴(kuò)大的詢問(wèn) 詞265b的用戶示意一些或所有這樣的信息261b,盡管在所示的實(shí)施例中不向用戶顯示信 息 261b。在本示例中,信息261b包括與圖2C的信息261a相關(guān)的附加條目264c和264d, 其已經(jīng)被添加以與兩個(gè)附加詢問(wèn)詞相對(duì)應(yīng)。相應(yīng)地,已經(jīng)關(guān)于圖2C的條目264x的先前 文檔相關(guān)性數(shù)更新條目264y中得到的總計(jì)歸一化文檔相關(guān)性數(shù),以反映兩個(gè)附加詞的添 加。在本示例中,條目264y中的總計(jì)歸一化文檔相關(guān)性信息繼續(xù)基于四個(gè)擴(kuò)大的詢問(wèn) 詞265b中的每一個(gè)的單獨(dú)詞相關(guān)性數(shù)的平均值,盡管在其他實(shí)施例中,可以以其他方式 (例如,使用加權(quán)的平均值)計(jì)算總計(jì)歸一化文檔相關(guān)性分。在本示例中,兩個(gè)附加搜 索詞的添加已減小示例文檔3的所確定的相關(guān)性,示例文檔3先前被確定為圖2C中初始 詢問(wèn)詞265a的最相關(guān)文檔。具體地,如信息261b的列262c和條目264y中所示,文檔3 的修正后的文檔相關(guān)性分已經(jīng)從先前值84%減小至當(dāng)前值47%。此外,如信息261b的 列262a和262b中所示,示例文檔1和2的相對(duì)相關(guān)性已相對(duì)于圖2C中的信息增大,使 得文檔1被確定為擴(kuò)大的詢問(wèn)詞265b的最相關(guān)文檔,文檔2被確定為擴(kuò)大的詢問(wèn)詞265b 的第二相關(guān)的文檔在本示例中,基于示例文檔的一般話題以及使用擴(kuò)大的詢問(wèn)詞265b指定的主 題,可以直觀地理解文檔相關(guān)性數(shù)的改變。具體地,相對(duì)于圖2C的兩個(gè)初始詢問(wèn)詞 265a,圖2G的擴(kuò)大的詢問(wèn)詞265b顯得與職業(yè)棒球大聯(lián)盟中的一般與類固醇有關(guān)的爭(zhēng)議 不那么相關(guān),而與專用于Barry Bonds及其本壘打記錄成就更加相關(guān)。相應(yīng)地,現(xiàn)在,與 Bonds創(chuàng)造本壘打記錄有關(guān)的示例文檔1新聞文章已經(jīng)變?yōu)榕c擴(kuò)大的詢問(wèn)最相關(guān)的文檔, 更一般地,與類固醇爭(zhēng)議有關(guān)的示例文檔4已經(jīng)變得不相關(guān)得多。示例文檔2和3繼續(xù) 與擴(kuò)大的詢問(wèn)詞265b至少適度相關(guān),這是由于與Bonds有關(guān)的示例文檔2傳記和與Bonds 的指控有關(guān)的示例文檔3都包括對(duì)本壘打記錄的討論,并且示例文檔2提到了前記錄保持 著 Hank Aaron。圖2H示意了圖2G的備選,其中,以不同的方式擴(kuò)大了圖2C的初始詢問(wèn) 詞265c,以便指定包括附加詢問(wèn)詞“indictment(指控)”和“Canseco”以及在先詞
“Bonds”和“steroids”在內(nèi)的擴(kuò)大的詢問(wèn)詞265c的組。這種擴(kuò)大的詢問(wèn)詞265c可以
例如反映用戶所關(guān)注的主題,該主題相對(duì)于圖2G的擴(kuò)大的詢問(wèn)265b,與Bond涉嫌類固 醇使用和職業(yè)棒球大聯(lián)盟中的一般與類固醇有關(guān)的爭(zhēng)議更加相關(guān),而與同Bonds涉嫌類 固醇使用無(wú)關(guān)、與Bonds有關(guān)的特定信息較不相關(guān)。相應(yīng)地,圖2H的信息261c分別與 圖2C和2G的信息261a和261b類似,但包括與兩個(gè)新詢問(wèn)詞相對(duì)應(yīng)的附加條目264g和 264h,新條目264z反映了基于新的擴(kuò)大的詢問(wèn)詞265c產(chǎn)生的修正后的文檔相關(guān)性數(shù)。如 直觀期望的,分別與Bonds的關(guān)于類固醇的指控和Canseco的關(guān)于類固醇的作證有關(guān)的示 例文檔3和4是示例文檔當(dāng)中最相關(guān)的文檔,而不專用于類固醇爭(zhēng)議的示例文檔1和2的 相關(guān)性已經(jīng)顯著下降。
在至少一些實(shí)施例中,以與圖2G的方式類似的方式,可能不向用戶顯示所示的 信息261c,但可以向用戶顯示與圖2D的信息類似的其他信息,以基于新詢問(wèn)詞265c來(lái) 示意相關(guān)文檔的修正后的列表。此外,在至少一些實(shí)施例中,可以以其他方式使用由用 戶通過(guò)選擇如圖2G和2H所示的附加詢問(wèn)詞而提供的反饋,包括作為相對(duì)于圖2C的初始 詢問(wèn)詞265a對(duì)特定文檔和/或特定詞的所確定的相關(guān)性進(jìn)行修改的反饋。此外,在先前討論的示例中,已經(jīng)以相對(duì)簡(jiǎn)單的方式指定了示例詢問(wèn)詞 265a-265c,其中,在沒(méi)有任何所指示的邏輯組合運(yùn)算(例如AND、OR等)或相對(duì)加權(quán)或 使用的其他指示的情況下列出了詞。在其他實(shí)施例中,可以針對(duì)這種搜索詢問(wèn)指定其他 類型的信息,并可以以各種方式使用其他類型的信息。例如,在一些其他實(shí)施例中,用 戶可能能夠不僅指示所關(guān)注的詢問(wèn)詞,而且還可能能夠指示針對(duì)特定詢問(wèn)或主題而關(guān)注 的詢問(wèn)詞,還可能被允許以各種其他方式修改初始詢問(wèn)。例如,以與參照?qǐng)D2E和
意的方式類似的方式,可以確定信息以基于初始詢問(wèn)詞265a來(lái)反映最不相關(guān)的其他詞, 并且,可以類似地向用戶顯示這種最不相關(guān)詞信息,以允許選擇要從擴(kuò)大的詢問(wèn)中排除 的詞。在這種情形中,可以以各種方式將所關(guān)注的詞與被指示為要被排除或不關(guān)注的詞 進(jìn)行組合。例如,關(guān)于圖2C和2D的示例,可以將詢問(wèn)詞“Bonds”和“steroids”指 示為所關(guān)注的,但可以指定具有被指示為要被排除的詞“Canseco”的擴(kuò)大的詢問(wèn)詞。如 圖2H的信息261c的條目264h中所示,詞“Canseco”僅與示例文檔1_5中的文檔4相 關(guān),并在本示例中具體具有文檔4的文檔相關(guān)性數(shù)0.97??梢砸愿鞣N方式將這種信息圖 2C的信息261a進(jìn)行組合,以基于擴(kuò)大的詢問(wèn)詞,將所排除的詞“Canseco”與每個(gè)文檔 的相關(guān)性視為文檔的總體文檔相關(guān)性數(shù)減小,例如通過(guò)將所排除的詞與文檔的詞相關(guān)性 值視為所包括的詞的詞相關(guān)性值的相反數(shù)(以及將歸一化文檔相關(guān)性數(shù)的可能值的范圍 擴(kuò)大為從-1至1)。如果這樣,那么在本示例中,通過(guò)取“Bonds”和“steroids”的單 獨(dú)詞相關(guān)性數(shù)0.04和0.97的平均值以及“Canseco”的負(fù)詞相關(guān)性數(shù)-0.97,可以針對(duì)文 檔4產(chǎn)生修正后的文檔相關(guān)性數(shù)0.01。應(yīng)當(dāng)理解,在其他實(shí)施例中,可以以其他方式將 與所排除的詞和不關(guān)注的其他詞有關(guān)的相關(guān)性信息同所關(guān)注的詞的相關(guān)性信息一起使用 并進(jìn)行組合。此外,以與圖2D的方式類似的方式,在一些實(shí)施例中,用戶可以被允許指定用 戶認(rèn)為與詢問(wèn)詞265a特別相關(guān)的一個(gè)或多個(gè)文檔,以便例如用在確定與詢問(wèn)詞265a相關(guān) 的其他詞和/或與所指定的文檔相關(guān)的其他文檔(例如,請(qǐng)求與所指定的文檔類似的文 檔)中。備選地,不以圖2F所示的方式列出特定的其他可能詞,而是可以向用戶顯示一 個(gè)或多個(gè)先前定義的主題,以便可能在識(shí)別其他相關(guān)文檔時(shí)選擇和使用。可以以各種方 式指定這種其他所定義的主題,包括文本標(biāo)簽(例如“Bonds的職業(yè)生涯本壘打記錄”) 和/或使用作為該所定義的主題的一部分的特定詞(例如“Bonds,steroids, home ran, HankAaron")。如果特別定義的主題是基于其與初始詢問(wèn)詞265a的相關(guān)性來(lái)選擇的, 則所定義的主題中的至少一些可以不基于初始指定的詢問(wèn)詞265a中的至少一個(gè),以便例 如基于諸如“Bonds,home run, Hank Aaron”之類的但沒(méi)有“steroids”的詞以及與詢 問(wèn)265c的主題類似的另一所定義的主題來(lái)指示所定義的主題。類似地,在用戶選擇附加 詢問(wèn)詞以用作擴(kuò)大的詢問(wèn)的一部分的情形中,用戶還可以移除在先詢問(wèn)詞中的一個(gè)或多 個(gè)(如果這樣期望的話),以便例如移除圖2G的示例中的詞“steroids”或指示應(yīng)當(dāng)如前所討論的那樣排除這種詞。在其他實(shí)施例中,可以以多種其他方式類似地使用所確定的 詞相關(guān)性和文檔相關(guān)性信息。作為另一示意性示例,還可以在錯(cuò)誤拼寫(xiě)初始指定的詢問(wèn)詞的情形中或者以非 標(biāo)準(zhǔn)或非典型的方式(例如,基于單數(shù)或復(fù)數(shù)形式、基于動(dòng)詞處于特定時(shí)態(tài)、基于不同 語(yǔ)言等等),適用于上述用于搜索詞擴(kuò)大的技術(shù)類似的技術(shù)。因此,例如,如果圖2F的 詢問(wèn)詞276是“bonds”和"staroids"(例如,這是基于用戶輸入這些詞但將‘‘steroids,, 錯(cuò)誤拼寫(xiě)為‘‘staroids”并且未使‘‘Bonds”首字母大寫(xiě),從而引入不確定性),則可以 將其他候選詞279擴(kuò)大或修改為包括與在用戶指定的詞中引發(fā)不確定性有關(guān)的附加詞。 關(guān)于‘‘staroids”,例如,最相關(guān)附加詞之一可以是詞‘‘steroids”,用以例如替換或補(bǔ) 充“staroids”。在一些實(shí)施例中,可以僅基于在詞典中對(duì)未被辨認(rèn)的單詞“staroids” 的查找來(lái)識(shí)別附加詞“steroids”(例如,可選地,連同其他所建議的替換詞,例如 "asteroids" > "toroids"等),盡管在其他實(shí)施例中可以使用先前討論的詞間相關(guān)性技
術(shù),基于詞“staroids”與“steroids”之間先前識(shí)別的關(guān)系(例如,如果“staroids”是 用戶對(duì)"steroids"共同的錯(cuò)誤拼寫(xiě))和/或基于詞"bonds"與"steroids"之間先前識(shí) 別的關(guān)系,將“steroids”識(shí)別為替換或補(bǔ)充詞的可能或很可能的候選。以類似的方式, 在努力消除詞“bonds”的歧義時(shí),附加詞可以包括諸如“Barry Bonds”、“stocks”、 “interestrates”、"Bobby Bnods"等選擇,例如基于詞“bonds”與其他附加詞之間先 前識(shí)別的關(guān)系。如前所述,在一些實(shí)施例中,可以至少部分地基于使用與詞頻率有關(guān)的TF-IDF 值或其他信息,對(duì)特定詞與特定文檔和/或其他特定詞的相關(guān)性進(jìn)行初始確定。在其 他實(shí)施例中,可以以其他方式對(duì)這種相關(guān)性信息進(jìn)行確定。作為一個(gè)示例,特定詞與一 個(gè)或多個(gè)文檔的相關(guān)性可以被表示為概率分布或其他分布,并且,可以將兩個(gè)或更多個(gè) 這種詞的各個(gè)分布進(jìn)行比較,以確定這些分布有多么類似,作為各個(gè)詞有多么相關(guān)的度 量。類似地,特定文檔均可以被表示為多個(gè)詞的分布,并且類似地,可以將兩個(gè)或更多 個(gè)這種文檔的各個(gè)分布進(jìn)行比較,以確定這些文檔有多么類似。因此,例如,具有一個(gè) 或多個(gè)詞和文檔的搜索詢問(wèn)可以被表示為所期望和所包含的文檔詞的一對(duì)概率分布,其 中,針對(duì)文集中的一些或所有文檔執(zhí)行對(duì)這種概率分布的比較,從而可以確定具有與該 詢問(wèn)最相關(guān)的統(tǒng)計(jì)信息的文檔。作為在兩個(gè)分布之間執(zhí)行這種比較的一個(gè)示例,才可以 計(jì)算Kullback-Leibler發(fā)散統(tǒng)計(jì)度量,以提供兩個(gè)這種分布之間的相似性的凸度量,而在 其他實(shí)施例中,可以使用統(tǒng)計(jì)信息熵的差來(lái)對(duì)兩個(gè)這種分布進(jìn)行比較。以下包括了與執(zhí) 行這種比較的示例有關(guān)的附加細(xì)節(jié),并且,應(yīng)當(dāng)理解,在其他實(shí)施例中,可以以其他方 式執(zhí)行這種比較。具體地,在一些實(shí)施例中,可以利用兩個(gè)與文檔有關(guān)或與詞有關(guān)的分布之 間的Kullback-Leibler發(fā)散來(lái)確定這兩個(gè)分布之間的相似性。兩個(gè)分布P和Q的 Kullback-Leibler發(fā)散可以表達(dá)如下,Dkl^P WQ) = YjPiXogfi-)
i其中,P1和Q1是離散概率分布P和Q的值(例如,用于文檔P的與文檔有關(guān)的 分布,每個(gè)P1可以表示文檔中與詞i相匹配的單詞的百分比,可以表示特定詞i與文檔P的相關(guān)度,可以表示詞i是文檔P中的最相關(guān)詞的概率等等)。其他實(shí)施例可以使用其他 統(tǒng)計(jì)度量來(lái)對(duì)兩個(gè)分布進(jìn)行比較,例如,兩個(gè)統(tǒng)計(jì)信息熵度量之差,不論是替換還是補(bǔ) 充例如來(lái)自Kullback-Leibler發(fā)散的相似性度量。概率分布的統(tǒng)計(jì)熵是對(duì)概率分布的差異 性的度量。概率分布P的統(tǒng)計(jì)熵可以表達(dá)如下,
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括在被配置為提供與被確定為對(duì)于所識(shí)別主題來(lái)說(shuō)相關(guān)的內(nèi)容項(xiàng)目有關(guān)的信息的一個(gè) 或多個(gè)計(jì)算系統(tǒng)的控制下,接收對(duì)其內(nèi)容表示所關(guān)注的題目區(qū)域的多個(gè)內(nèi)容項(xiàng)目的第一組的一個(gè)或多個(gè)指示, 以及對(duì)其內(nèi)容與所關(guān)注的題目區(qū)域有關(guān)的多個(gè)內(nèi)容項(xiàng)目的第二組的一個(gè)或多個(gè)指示;自動(dòng)分析第一組的多個(gè)內(nèi)容項(xiàng)目以識(shí)別與所關(guān)注的題目區(qū)域相對(duì)應(yīng)的多個(gè)主題,并 自動(dòng)評(píng)估第二組的多個(gè)內(nèi)容項(xiàng)目與所識(shí)別主題中的第一主題的相關(guān)度;向一個(gè)或多個(gè)用戶提供與第二組的多個(gè)內(nèi)容項(xiàng)目中的至少一些內(nèi)容項(xiàng)目有關(guān)的信 息,并從所述一個(gè)或多個(gè)用戶接收反饋,其中,所述至少一些內(nèi)容項(xiàng)目被識(shí)別為每一個(gè) 均與滿足一個(gè)或多個(gè)所指示準(zhǔn)則的第一所識(shí)別主題具有所評(píng)估的相關(guān)度,所述反饋反映 了所識(shí)別的至少一些內(nèi)容項(xiàng)目與第一所識(shí)別主題的、由所述一個(gè)或多個(gè)用戶評(píng)估的相關(guān) 性;至少部分地基于所接收的反饋,自動(dòng)更新第二組的所述至少一些內(nèi)容項(xiàng)目中的一個(gè) 或多個(gè)內(nèi)容項(xiàng)目中的每一個(gè)與第一所識(shí)別主題的所評(píng)估的相關(guān)度;以及至少部分地基于與第二組的所述至少一些內(nèi)容項(xiàng)目中的至少一個(gè)內(nèi)容項(xiàng)目的更新后 的所評(píng)估的相關(guān)度,向一個(gè)或多個(gè)其他用戶提供與所述至少一個(gè)內(nèi)容項(xiàng)目有關(guān)的信息。
2.根據(jù)權(quán)利要求1所述的方法,還包括向用戶重復(fù)提供與第二組的多個(gè)內(nèi)容項(xiàng)目中被確定為當(dāng)前與第一所識(shí)別主題相關(guān)的 至少一些內(nèi)容項(xiàng)目有關(guān)的附加信息,其中,對(duì)當(dāng)前與第一所識(shí)別主題相關(guān)的所述至少一 些內(nèi)容項(xiàng)目的確定至少部分地基于在提供附加信息時(shí)這些內(nèi)容項(xiàng)目與第一所識(shí)別主題的 當(dāng)前更新后的所評(píng)估的相關(guān)度;以及在從用戶接收到附加反饋之后,重復(fù)地進(jìn)一步更新第二組的多個(gè)內(nèi)容項(xiàng)目與第一所 識(shí)別主題的所評(píng)估的相關(guān)度,其中,所述附加反饋反映了第二組的多個(gè)內(nèi)容項(xiàng)目與第一 所識(shí)別主題的相關(guān)性。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述自動(dòng)評(píng)估第二組的多個(gè)內(nèi)容項(xiàng)目的相關(guān)度 的步驟還針對(duì)第二組的多個(gè)內(nèi)容項(xiàng)目中的至少一些內(nèi)容項(xiàng)目中的每一個(gè)以及所識(shí)別的主 題中的至少一些其他所識(shí)別主題中的每一個(gè)而執(zhí)行,并且,所述方法還包括向用戶重復(fù)提供與第二組的多個(gè)內(nèi)容條目中被確定為當(dāng)前與所述至少一些其他所識(shí) 別主題中的一個(gè)或多個(gè)相關(guān)的至少一些內(nèi)容項(xiàng)目有關(guān)的附加信息,其中,對(duì)第二組中當(dāng) 前與一個(gè)或多個(gè)其他所識(shí)別主題相關(guān)的所述至少一些內(nèi)容項(xiàng)目的確定至少部分地基于在 提供附加信息時(shí)這些內(nèi)容項(xiàng)目與這些所識(shí)別主題的當(dāng)前更新后的所評(píng)估的相關(guān)度;以及在從用戶接收到附加反饋之后,重復(fù)地進(jìn)一步更新第二組的所述至少一些內(nèi)容項(xiàng)目 與所述至少一些其他所識(shí)別主題的所評(píng)估的相關(guān)度,其中,所述附加反饋反映了第二組 的所述至少一些內(nèi)容項(xiàng)目與所述至少一些其他所識(shí)別主題的相關(guān)性。
4.根據(jù)權(quán)利要求1所述的方法,其中,第二組的多個(gè)內(nèi)容項(xiàng)目與第一所識(shí)別主題的自 動(dòng)評(píng)估的相關(guān)度反映了對(duì)這些相關(guān)度的初始評(píng)估,其中,所述方法還包括自動(dòng)產(chǎn)生自 適應(yīng)模型,所述自適應(yīng)模型表示第二組的多個(gè)內(nèi)容項(xiàng)目與第一所識(shí)別主題的自動(dòng)評(píng)估的 相關(guān)度,其中,所述產(chǎn)生所述自適應(yīng)模型的步驟被執(zhí)行以使得所產(chǎn)生的自適應(yīng)模型對(duì)第 二組的多個(gè)內(nèi)容項(xiàng)目與第一所識(shí)別主題的相關(guān)度的初始評(píng)估進(jìn)行初始建模;并且,所述至少部分地基于所接收的反饋?zhàn)詣?dòng)更新第二組的一個(gè)或多個(gè)內(nèi)容項(xiàng)目中的每一個(gè)與第一 所識(shí)別主題的所評(píng)估的相關(guān)度的步驟包括將所產(chǎn)生的自適應(yīng)模型更新為使得其表示更 新后的所評(píng)估的相關(guān)度。
5.根據(jù)權(quán)利要求4所述的方法,還包括向用戶重復(fù)提供與第二組的多個(gè)內(nèi)容項(xiàng)目中被確定為當(dāng)前與第一所識(shí)別主題相關(guān)的 至少一些內(nèi)容項(xiàng)目有關(guān)的附加信息,其中,對(duì)當(dāng)前與第一所識(shí)別主題相關(guān)的所述至少一 些內(nèi)容項(xiàng)目的確定至少部分地基于使用在提供附加信息時(shí)的更新后的自適應(yīng)模型的當(dāng)前 版本,以確定這些內(nèi)容項(xiàng)目與第一所識(shí)別主題的當(dāng)前更新后的所評(píng)估的相關(guān)度;以及在從用戶接收到附加反饋之后,重復(fù)地將所產(chǎn)生的自適應(yīng)模型進(jìn)一步更新為使得其 表示第二組的多個(gè)內(nèi)容項(xiàng)目與第一所識(shí)別主題的更新后的所評(píng)估的相關(guān)度,其中,所述 附加反饋反映了第二組的多個(gè)內(nèi)容項(xiàng)目與第一所識(shí)別主題的相關(guān)性。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述內(nèi)容項(xiàng)目是文檔,其中,所產(chǎn)生的自適應(yīng) 模型是文檔相關(guān)性神經(jīng)網(wǎng)絡(luò),并且,所述更新所產(chǎn)生的自適應(yīng)模型的步驟是經(jīng)由反向傳 播使用自動(dòng)化學(xué)習(xí)來(lái)執(zhí)行的。
7.根據(jù)權(quán)利要求4所述的方法,其中,第一所識(shí)別主題包括一個(gè)或多個(gè)詞,所述一個(gè) 或多個(gè)詞是第一組的多個(gè)內(nèi)容項(xiàng)目中的一個(gè)或多個(gè)內(nèi)容項(xiàng)目的內(nèi)容的一部分。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述自動(dòng)分析第一組的多個(gè)內(nèi)容項(xiàng)目以識(shí)別多 個(gè)主題的步驟包括識(shí)別包括在第一組的多個(gè)內(nèi)容項(xiàng)目的內(nèi)容中的多個(gè)詞;以及確定所 述多個(gè)詞中的至少一些詞中的每一個(gè)與第一組的多個(gè)內(nèi)容項(xiàng)目中的至少一些內(nèi)容項(xiàng)目的 相關(guān)性,其中,第一所識(shí)別主題以及所識(shí)別主題中的至少一些其他所識(shí)別主題每一個(gè)均 包括所述多個(gè)詞中的至少一個(gè)詞,并且,所述自動(dòng)評(píng)估第二組的多個(gè)內(nèi)容項(xiàng)目與第一所 識(shí)別主題的相關(guān)度的步驟至少部分地基于第一所識(shí)別主題的所述至少一個(gè)詞與第二組的 多個(gè)內(nèi)容項(xiàng)目的內(nèi)容的所確定的相關(guān)性。
9.根據(jù)權(quán)利要求8所述的方法,其中,第一所識(shí)別主題包括所述多個(gè)詞中被確定為相 關(guān)的多個(gè)詞。
10.根據(jù)權(quán)利要求1所述的方法,其中,所述自動(dòng)分析第一組的多個(gè)內(nèi)容項(xiàng)目以識(shí)別 多個(gè)主題的步驟包括確定關(guān)于所關(guān)注的題目區(qū)域的多個(gè)詞中的一個(gè)或多個(gè)詞中的每一 個(gè)與所述多個(gè)詞中的一個(gè)或多個(gè)其他詞中的每一個(gè)之間的相關(guān)性,并且,第一所識(shí)別主 題包括彼此之間具有超過(guò)閾值的所確定的相關(guān)性的多個(gè)詞。
11.根據(jù)權(quán)利要求1所述的方法,其中,所述自動(dòng)分析第一組的多個(gè)內(nèi)容項(xiàng)目以識(shí)別 多個(gè)主題的步驟還包括確定作為第一所識(shí)別主題的一部分的至少一個(gè)詞與不是第一所 識(shí)別主題的一部分的多個(gè)其他詞中的每一個(gè)之間的相關(guān)性,并且,所述方法還包括向 一個(gè)或多個(gè)用戶提供與多個(gè)其他詞中的至少一個(gè)其他詞有關(guān)的信息,所述至少一個(gè)其他 詞可能包括作為第一所識(shí)別主題的一部分的所述至少一個(gè)詞,所述至少一個(gè)其他詞中的 每一個(gè)均是至少部分地基于第一所識(shí)別主題的所述至少一個(gè)詞與該其他詞之間的所確定 的相關(guān)性、針對(duì)所提供的信息而選擇的。
12.根據(jù)權(quán)利要求1所述的方法,其中,所述自動(dòng)分析第一組的多個(gè)內(nèi)容項(xiàng)目以識(shí)別 多個(gè)主題的步驟還包括確定作為第一所識(shí)別主題的一部分的至少一個(gè)詞與不是第一所 識(shí)別主題的一部分的多個(gè)其他詞中的每一個(gè)之間的相關(guān)性,其中,從所述一個(gè)或多個(gè)用戶接收的反饋還反映了第一所識(shí)別主題的所述至少一個(gè)詞與多個(gè)其他詞中的至少一個(gè)其 他詞之間的相關(guān)性,并且,所述方法還包括進(jìn)行自動(dòng)確定,以便至少部分地基于所接 收的反饋中還反映的相關(guān)性,將第一所識(shí)別主題更新為包括所述至少一個(gè)其他詞中的一 個(gè)或多個(gè)其他詞。
13.根據(jù)權(quán)利要求1所述的方法,其中,所述自動(dòng)分析第一組的多個(gè)內(nèi)容項(xiàng)目以識(shí)別 多個(gè)主題的步驟包括識(shí)別表示第一組的多個(gè)內(nèi)容項(xiàng)目的多個(gè)詞,其中,第一所識(shí)別主 題包括所述多個(gè)詞中被確定為彼此相關(guān)的多個(gè)詞,并且,第一所識(shí)別主題的被確定為彼 此相關(guān)的多個(gè)詞中的至少一個(gè)詞與第一組的多個(gè)內(nèi)容項(xiàng)目中的至少一個(gè)內(nèi)容項(xiàng)目的至少 一個(gè)屬性相對(duì)應(yīng),所述至少一個(gè)屬性不是第一組的多個(gè)內(nèi)容項(xiàng)目的內(nèi)容的一部分。
14.根據(jù)權(quán)利要求13所述的方法,其中,不是第一組的多個(gè)內(nèi)容項(xiàng)目的內(nèi)容的一部分 的所述第一組的至少一個(gè)內(nèi)容項(xiàng)目的至少一個(gè)屬性包括以下至少一項(xiàng)所述至少一個(gè)內(nèi) 容項(xiàng)目的類型;以及所述至少一個(gè)內(nèi)容項(xiàng)目的源。
15.根據(jù)權(quán)利要求1所述的方法,其中,所述向所述一個(gè)或多個(gè)用戶提供信息的步驟 是響應(yīng)于來(lái)自所述一個(gè)或多個(gè)用戶中的至少一個(gè)用戶的對(duì)第一所識(shí)別主題的指示而執(zhí)行 的。
16.根據(jù)權(quán)利要求15所述的方法,其中,第一所識(shí)別主題包括表示第一組的多個(gè)內(nèi)容 項(xiàng)目中的一個(gè)或多個(gè)內(nèi)容項(xiàng)目的至少一個(gè)詞,并且,來(lái)自所述至少一個(gè)用戶的對(duì)第一所 識(shí)別主題的指示包括對(duì)所述至少一個(gè)詞中的一個(gè)或多個(gè)詞的指示。
17.根據(jù)權(quán)利要求15所述的方法,其中,所述向所述一個(gè)或多個(gè)用戶提供信息的步驟 還包括提供與多個(gè)所識(shí)別主題中的一個(gè)或多個(gè)所識(shí)別主題有關(guān)的附加信息,所述一個(gè) 或多個(gè)主題包括第一所識(shí)別主題,并且,來(lái)自所述至少一個(gè)用戶的對(duì)第一所識(shí)別主題的 指示包括所述至少一個(gè)用戶從所提供的附加信息中對(duì)第一所識(shí)別主題的選擇。
18.根據(jù)權(quán)利要求1所述的方法,其中,從所述一個(gè)或多個(gè)用戶接收的反饋基于所述 一個(gè)或多個(gè)用戶在選擇所述至少一些內(nèi)容項(xiàng)目中的至少一個(gè)以進(jìn)一步使用時(shí)進(jìn)行的一個(gè) 或多個(gè)動(dòng)作,使得從所述一個(gè)或多個(gè)動(dòng)作自動(dòng)推斷出由所述一個(gè)或多個(gè)用戶評(píng)估的、所 識(shí)別的至少一些內(nèi)容項(xiàng)目與第一所識(shí)別主題的相關(guān)性。
19.根據(jù)權(quán)利要求1所述的方法,其中,從所述一個(gè)或多個(gè)用戶接收的反饋基于所述 一個(gè)或多個(gè)用戶中的至少一個(gè)用戶對(duì)所述至少一些內(nèi)容項(xiàng)目中被確認(rèn)為與第一所識(shí)別主 題相關(guān)的至少一個(gè)內(nèi)容項(xiàng)目的選擇。
20.根據(jù)權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)計(jì)算系統(tǒng)被配置為提供相關(guān) 性確定系統(tǒng),所述相關(guān)性確定系統(tǒng)執(zhí)行對(duì)與具有被確定為對(duì)于所識(shí)別的主題來(lái)說(shuō)相關(guān)的 內(nèi)容的內(nèi)容項(xiàng)目有關(guān)的信息的提供,并且,所述向所述一個(gè)或多個(gè)用戶提供信息的步驟 包括向與所述一個(gè)或多個(gè)用戶進(jìn)行交互的另一服務(wù)提供該信息,以完成向所述一個(gè)或 多個(gè)用戶提供該信息。
21.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項(xiàng)目中的至少一些內(nèi) 容項(xiàng)目的每一個(gè)均是文本文檔,并且,第一所識(shí)別主題包括一個(gè)或多個(gè)單詞,所述一個(gè) 或多個(gè)單詞包括在第一組的內(nèi)容項(xiàng)目中的至少一個(gè)內(nèi)容項(xiàng)目的內(nèi)容中。
22.根據(jù)權(quán)利要求21所述的方法,其中,第一組和第二組的所述至少一些內(nèi)容項(xiàng)目的 每一個(gè)均是網(wǎng)頁(yè)。
23.根據(jù)權(quán)利要求21所述的方法,其中,第一組和第二組的所述至少一些內(nèi)容項(xiàng)目的 每一個(gè)均是電子消息。
24.根據(jù)權(quán)利要求21所述的方法,其中,第一所識(shí)別主題包括多個(gè)單詞,所述多個(gè)單 詞包括一個(gè)或多個(gè)正確拼寫(xiě)的單詞和一個(gè)或多個(gè)錯(cuò)誤拼寫(xiě)的單詞,使得錯(cuò)誤拼寫(xiě)的單詞 中的每一個(gè)與正確拼寫(xiě)的單詞中的至少一個(gè)相對(duì)應(yīng)。
25.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項(xiàng)目中的至少一些內(nèi) 容項(xiàng)目包括音頻信息、圖像信息、視頻信息和生物信息中的至少一項(xiàng),并且,第一所識(shí) 別主題包括第一組的內(nèi)容項(xiàng)目中的至少一個(gè)內(nèi)容項(xiàng)目的一個(gè)或多個(gè)屬性。
26.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項(xiàng)目中的至少一些內(nèi) 容項(xiàng)目包括字母數(shù)字?jǐn)?shù)據(jù)結(jié)構(gòu)、符號(hào)數(shù)據(jù)結(jié)構(gòu)和數(shù)學(xué)數(shù)據(jù)結(jié)構(gòu)中的至少一項(xiàng)。
27.根據(jù)權(quán)利要求1所述的方法,其中,第一組和第二組的內(nèi)容項(xiàng)目中的至少一些內(nèi) 容項(xiàng)目的每一個(gè)均是文檔的片段。
28.根據(jù)權(quán)利要求1所述的方法,其中,第一組的內(nèi)容項(xiàng)目專用于第一用戶,使得所 述識(shí)別多個(gè)主題的步驟以專用于第一用戶的方式執(zhí)行。
29.根據(jù)權(quán)利要求28所述的方法,其中,第二組的內(nèi)容項(xiàng)目專用于第一用戶,使得所 述評(píng)估第二組的多個(gè)內(nèi)容項(xiàng)目的相關(guān)度的步驟以專用于第一用戶的方式執(zhí)行。
30.根據(jù)權(quán)利要求1所述的方法,其中,所識(shí)別的多個(gè)主題的每一個(gè)均與在所關(guān)注的 題目區(qū)域中使用的數(shù)據(jù)的多種備選類型之一相對(duì)應(yīng),并且,第二組的所述至少一些內(nèi)容 項(xiàng)目的每一個(gè)均被識(shí)別為具有與第一所識(shí)別主題相對(duì)應(yīng)的數(shù)據(jù)的類型。
31.根據(jù)權(quán)利要求1所述的方法,其中,所識(shí)別的多個(gè)主題的每一個(gè)均與第一組的多 個(gè)內(nèi)容項(xiàng)目的內(nèi)容的多種備選類別之一相對(duì)應(yīng),并且,第二組的所述至少一些內(nèi)容項(xiàng)目 的每一個(gè)均被識(shí)別為具有與第一所識(shí)別主題相對(duì)應(yīng)的內(nèi)容的類別。
32.根據(jù)權(quán)利要求1所述的方法,其中,所述提供與具有被確定為對(duì)于所識(shí)別的主題 來(lái)說(shuō)相關(guān)的內(nèi)容的內(nèi)容項(xiàng)目有關(guān)的信息的步驟是針對(duì)一個(gè)或多個(gè)其他題目區(qū)域中的每一 個(gè)而執(zhí)行的,所述一個(gè)或多個(gè)其他題目區(qū)域的每一個(gè)均具有與該題目區(qū)域有關(guān)的多個(gè)內(nèi) 容項(xiàng)目,所述多個(gè)內(nèi)容項(xiàng)目被分析以識(shí)別與該題目區(qū)域相對(duì)應(yīng)的其他主題,并且所述多 個(gè)內(nèi)容項(xiàng)目與所識(shí)別的其他主題中的至少一個(gè)的相關(guān)度是自動(dòng)評(píng)估的。
33.根據(jù)權(quán)利要求1所述的方法,其中,第一組的多個(gè)內(nèi)容項(xiàng)目與第二組的多個(gè)內(nèi)容 項(xiàng)目不同。
34.根據(jù)權(quán)利要求1所述的方法,其中,第二組的多個(gè)內(nèi)容項(xiàng)目包括第一組的多個(gè)內(nèi) 容項(xiàng)目中的至少一些。
35.—種計(jì)算機(jī)可讀介質(zhì),其內(nèi)容將計(jì)算系統(tǒng)配置為執(zhí)行相關(guān)性確定系統(tǒng),所述相關(guān) 性確定系統(tǒng)通過(guò)執(zhí)行包括以下步驟的方法來(lái)提供與關(guān)于所識(shí)別的主題的所確定的相關(guān)性 有關(guān)的信息自動(dòng)分析多個(gè)有關(guān)的內(nèi)容項(xiàng)目的內(nèi)容,以識(shí)別所述內(nèi)容中的多個(gè)主題,并評(píng)估所述 多個(gè)內(nèi)容項(xiàng)目中的至少一個(gè)內(nèi)容項(xiàng)目與所識(shí)別主題中的至少一個(gè)所識(shí)別主題的相關(guān)性;接收與提供反饋的一個(gè)或多個(gè)外部實(shí)體的一個(gè)或多個(gè)動(dòng)作有關(guān)的信息,所述反饋與 所述多個(gè)內(nèi)容項(xiàng)目中的一個(gè)或多個(gè)內(nèi)容項(xiàng)目與所識(shí)別主題中的一個(gè)或多個(gè)所識(shí)別主題的 相關(guān)性有關(guān);至少部分地基于由所接收的信息提供的反饋,自動(dòng)更新所述至少一個(gè)內(nèi)容項(xiàng)目與所 述至少一個(gè)所識(shí)別主題的所評(píng)估的相關(guān)性;以及提供至少部分地基于所述至少一個(gè)內(nèi)容項(xiàng)目的更新后的所評(píng)估的相關(guān)性的信息。
36.根據(jù)權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,所述多個(gè)內(nèi)容項(xiàng)目包括其內(nèi)容 表示題目區(qū)域的多個(gè)文檔的第一組以及其內(nèi)容與題目區(qū)域有關(guān)的多個(gè)文檔的第二組;其 中,所述自動(dòng)分析所述多個(gè)內(nèi)容項(xiàng)目的內(nèi)容的操作包括分析第一組的多個(gè)文檔以識(shí)別 多個(gè)主題;以及評(píng)估第二組的多個(gè)文檔與多個(gè)所識(shí)別主題中的第一所識(shí)別主題的相關(guān) 度;其中,所述接收提供反饋的信息的操作是響應(yīng)于向所述一個(gè)或多個(gè)外部實(shí)體提供與 第二組的多個(gè)文檔中的至少一些文檔有關(guān)的信息的操作而進(jìn)行的,所述至少一些文檔被 識(shí)別為每一個(gè)均與第一所識(shí)別主題具有滿足一個(gè)或多個(gè)所指示準(zhǔn)則的所評(píng)估的相關(guān)度; 其中,其所評(píng)估的相關(guān)性被更新的至少一個(gè)內(nèi)容項(xiàng)目每一個(gè)均是第二組的多個(gè)文檔之 一;其中,所述提供至少部分地基于所述至少一個(gè)內(nèi)容項(xiàng)目的更新后的所評(píng)估的相關(guān)性 的信息的操作包括向與其動(dòng)作提供反饋的一個(gè)或多個(gè)實(shí)體不同的至少一個(gè)其他實(shí)體提 供與所述多個(gè)內(nèi)容項(xiàng)目中的一個(gè)或多個(gè)內(nèi)容項(xiàng)目有關(guān)的信息。
37.根據(jù)權(quán)利要求36所述的計(jì)算機(jī)可讀介質(zhì),其中,所述一個(gè)或多個(gè)外部實(shí)體的每一 個(gè)均是與相關(guān)性確定系統(tǒng)沒(méi)有關(guān)聯(lián)的人類用戶。
38.根據(jù)權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,所識(shí)別的多個(gè)主題中的至少一些 的每一個(gè)均包括多個(gè)詞;其中,所述自動(dòng)分析多個(gè)內(nèi)容項(xiàng)目的內(nèi)容以識(shí)別所述內(nèi)容中的 多個(gè)主題的操作包括針對(duì)所述至少一些主題中的每一個(gè),自動(dòng)確定包括在主題中的多 個(gè)詞彼此的所評(píng)估的相關(guān)性;其中,所接收的信息還提供與包括在所述至少一些主題中 的一個(gè)或多個(gè)主題中的多個(gè)詞彼此的相關(guān)性有關(guān)的反饋;并且,所述方法還包括至少 部分地基于所接收的信息還提供的反饋,自動(dòng)更新包括在所述一個(gè)或多個(gè)主題中的每一 個(gè)中的多個(gè)詞的所評(píng)估的相關(guān)性;以及提供至少部分地基于包括在所述一個(gè)或多個(gè)主題 中的至少一個(gè)中的多個(gè)詞的更新后的所評(píng)估的相關(guān)性的信息。
39.根據(jù)權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,所述計(jì)算機(jī)可讀介質(zhì)是以下至少 一項(xiàng)計(jì)算系統(tǒng)中存儲(chǔ)所述內(nèi)容的存儲(chǔ)器;以及數(shù)據(jù)傳輸介質(zhì),存儲(chǔ)了包含所述內(nèi)容在 內(nèi)的所產(chǎn)生的信號(hào)。
40.根據(jù)權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,所述內(nèi)容是在被執(zhí)行時(shí)使計(jì)算系 統(tǒng)執(zhí)行所述方法的指令。
41.一種計(jì)算系統(tǒng),被配置為提供與關(guān)于與所識(shí)別的主題的所確定的相關(guān)性有關(guān)的信 息,所述計(jì)算系統(tǒng)包括一個(gè)或多個(gè)處理器;以及相關(guān)性確定系統(tǒng),被配置為在由所述一個(gè)或多個(gè)處理器中的至少一個(gè)執(zhí)行時(shí),通 過(guò)以下操作來(lái)提供與有關(guān)所識(shí)別的主題的所確定的相關(guān)性有關(guān)的信息自動(dòng)分析多個(gè)有關(guān)的內(nèi)容項(xiàng)目的內(nèi)容,以識(shí)別所述內(nèi)容中的多個(gè)主題,其中,所識(shí) 別的多個(gè)主題中的至少一些的每一個(gè)均包括多個(gè)詞,所述識(shí)別所述至少一些主題中的一 個(gè)或多個(gè)主題中的每一個(gè)的操作包括自動(dòng)評(píng)估包括在主題中的多個(gè)詞彼此的相關(guān)性;提供與至少一些所識(shí)別主題中的一個(gè)或多個(gè)有關(guān)的信息,以便于第一用戶指定所關(guān) 注的至少一個(gè)主題;以及在接收到對(duì)由第一用戶指定的所關(guān)注的至少一個(gè)主題的指示之后,提供與所指定的 所關(guān)注的至少一個(gè)主題有關(guān)的信息以供第一用戶使用。
42.根據(jù)權(quán)利要求41所述的計(jì)算系統(tǒng),其中,所述至少一個(gè)主題是由第一用戶基于 第一用戶從所提供的信息所涉及的一個(gè)或多所識(shí)別主題當(dāng)中的選擇來(lái)指定的,其中,所 述多個(gè)有關(guān)的內(nèi)容項(xiàng)目包括其內(nèi)容表示題目區(qū)域的多個(gè)文檔的第一組以及其內(nèi)容與題目 區(qū)域有關(guān)的多個(gè)文檔的第二組;其中,所述自動(dòng)分析所述多個(gè)內(nèi)容項(xiàng)目的內(nèi)容的操作包 括分析第一組的多個(gè)文檔以識(shí)別多個(gè)主題;以及評(píng)估第二組的多個(gè)文檔中的每一個(gè)與 所指定的至少一個(gè)主題的相關(guān)度;并且,被提供以由第一用戶使用的、與所指定的所關(guān) 注的至少一個(gè)主題有關(guān)的信息包括與第二組的多個(gè)文檔中的至少一個(gè)文檔有關(guān)的信息, 所述至少一個(gè)文檔是至少部分地基于以下內(nèi)容來(lái)選擇的所選的至少一個(gè)文檔中的每一 個(gè)與所指定的至少一個(gè)主題的所評(píng)估的相關(guān)度。
43.根據(jù)權(quán)利要求42所述的計(jì)算系統(tǒng),其中,由相關(guān)性確定系統(tǒng)提供與關(guān)于所識(shí)別的 主題的所確定的相關(guān)性有關(guān)的信息的操作還包括接收與提供反饋的一個(gè)或多個(gè)用戶的一個(gè)或多個(gè)動(dòng)作有關(guān)的信息,所述反饋與包括 在所述至少一些主題中的一個(gè)或多個(gè)主題中的多個(gè)詞彼此的相關(guān)性有關(guān);至少部分地基于由所接收的信息提供的反饋,自動(dòng)更新包括在所述一個(gè)或多個(gè)主題 中的每一個(gè)中的多個(gè)詞的所評(píng)估的相關(guān)性;以及提供至少部分地基于包括在所述一個(gè)或多個(gè)主題中的至少一個(gè)主題中的多個(gè)詞的更 新后的所評(píng)估的相關(guān)性的信息。
44.根據(jù)權(quán)利要求43所述的計(jì)算系統(tǒng),其中,與所述一個(gè)或多個(gè)主題有關(guān)的所提供的 信息包含包括在所述一個(gè)或多個(gè)主題中的多個(gè)詞,其中,其動(dòng)作提供反饋的一個(gè)或多 個(gè)用戶包括第一用戶,其中,所述一個(gè)或多個(gè)用戶的一個(gè)或多個(gè)動(dòng)作包括第一用戶從所 述一個(gè)或多個(gè)所識(shí)別主題的選擇,第一用戶的選擇包括對(duì)包含在所提供的信息中的多個(gè) 詞中的一個(gè)或多個(gè)詞的選擇,并且,所述提供至少部分地基于包括在所述至少一個(gè)主題 中的多個(gè)詞的更新后的所評(píng)估的相關(guān)性的信息的操作包括向與其動(dòng)作提供反饋的一個(gè) 或多個(gè)用戶不同的至少一個(gè)其他用戶提供與第二組的多個(gè)文檔中的一個(gè)或多個(gè)文檔有關(guān) 的信息。
45.根據(jù)權(quán)利要求41所述的計(jì)算系統(tǒng),其中,所述提供與所述一個(gè)或多個(gè)主題有關(guān)的 信息的操作包括;向第一用戶提供與第一用戶從中選擇指定的所關(guān)注的至少一個(gè)主題的 多個(gè)主題有關(guān)的信息。
46.根據(jù)權(quán)利要求41所述的計(jì)算系統(tǒng),其中,所述自動(dòng)分析所述多個(gè)內(nèi)容項(xiàng)目的內(nèi)容 的操作包括評(píng)估所述多個(gè)內(nèi)容項(xiàng)目中的至少一個(gè)內(nèi)容項(xiàng)目與所識(shí)別主題中的至少一個(gè) 所識(shí)別主題的相關(guān)性,并且,由相關(guān)性確定系統(tǒng)提供與關(guān)于所識(shí)別主題的所確定的相關(guān) 性有關(guān)的信息的操作還包括接收提供反饋的信息,所述反饋與所述多個(gè)內(nèi)容項(xiàng)目中的 一個(gè)或多個(gè)內(nèi)容項(xiàng)目與所識(shí)別主題中的一個(gè)或多個(gè)所識(shí)別主題的相關(guān)性有關(guān);至少部分 地基于由所接收的信息提供的反饋,自動(dòng)更新所述一個(gè)或多個(gè)內(nèi)容項(xiàng)目與所述一個(gè)或多 個(gè)所識(shí)別主題的所評(píng)估的相關(guān)性;以及提供至少部分地基于所述一個(gè)或多個(gè)內(nèi)容項(xiàng)目的 更新后的所評(píng)估的相關(guān)性的信息。
47.根據(jù)權(quán)利要求41所述的計(jì)算系統(tǒng),其中,所述相關(guān)性確定系統(tǒng)包括由所述至少一個(gè)處理器執(zhí)行的軟件指令。
48.根據(jù)權(quán)利要求41所述的計(jì)算系統(tǒng),其中,所述相關(guān)性確定系統(tǒng)由以下裝置構(gòu)成, 所述裝置通過(guò)執(zhí)行以下操作來(lái)提供與關(guān)于所識(shí)別的主題的所確定的相關(guān)性有關(guān)的信息自動(dòng)分析多個(gè)有關(guān)的內(nèi)容項(xiàng)目的內(nèi)容,以識(shí)別所述內(nèi)容中的多個(gè)主題,其中,所識(shí) 別的多個(gè)主題中的至少一些均包括多個(gè)詞,所述識(shí)別所述至少一些主題中的一個(gè)或多個(gè) 主題中的每一個(gè)的操作包括自動(dòng)評(píng)估包括在主題中的多個(gè)詞彼此的相關(guān)性;提供與至少一些所識(shí)別主題中的一個(gè)或多個(gè)有關(guān)的信息,以便于第一用戶指定所關(guān) 注的至少一個(gè)主題;以及在接收到對(duì)由第一用戶指定的所關(guān)注的至少一個(gè)主題的指示之后,提供與指定的所 關(guān)注的至少一個(gè)主題有關(guān)的信息以供第一用戶使用。
49.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括在被配置為用于確定和提供與其內(nèi)容與所識(shí)別的主題相關(guān)的文檔有關(guān)的信息的提供 相關(guān)性確定服務(wù)的一個(gè)或多個(gè)計(jì)算系統(tǒng)的控制下,自動(dòng)分析與所關(guān)注的第一域有關(guān)的的多個(gè)文檔的內(nèi)容,以識(shí)別與所關(guān)注的第一域相 對(duì)應(yīng)的多個(gè)主題,并評(píng)估所述多個(gè)文檔中的每一個(gè)與所識(shí)別主題中的每一個(gè)的初始相關(guān) 性,其中,所識(shí)別的多個(gè)主題中的每一個(gè)具有所述多個(gè)文檔的內(nèi)容中出現(xiàn)的多個(gè)詞中的 一個(gè)或多個(gè)詞;產(chǎn)生對(duì)多個(gè)文檔與所識(shí)別主題的所評(píng)估的相關(guān)性進(jìn)行建模的文檔相關(guān)性神經(jīng)網(wǎng)絡(luò), 所述文檔相關(guān)性神經(jīng)網(wǎng)絡(luò)對(duì)所評(píng)估的初始相關(guān)性進(jìn)行初始建模;以及通過(guò)執(zhí)行以下操作來(lái)重復(fù)使用和更新由所述文檔相關(guān)性神經(jīng)網(wǎng)絡(luò)建模的所評(píng)估的相 關(guān)性響應(yīng)于均由指定所識(shí)別主題之一的用戶提供的一個(gè)或多個(gè)文檔請(qǐng)求中的每一個(gè),向 用戶提供指示多個(gè)文檔中的一些文檔的結(jié)果,所述一些文檔是基于由所述文檔相關(guān)性神 經(jīng)網(wǎng)絡(luò)建模的、所選文檔與所指定的主題的所評(píng)估的相關(guān)性來(lái)選擇的;從針對(duì)指定主題的文檔請(qǐng)求而提供的結(jié)果中的一個(gè)或多個(gè)結(jié)果中的每一個(gè)獲得反 饋,所獲得的反饋基于用戶與所提供的結(jié)果的一個(gè)或多個(gè)交互,所述一個(gè)或多個(gè)交互使 用戶能夠推斷評(píng)估所提供的結(jié)果中指示的所選的一些文檔中的至少一個(gè)文檔與所指定的 主題的相關(guān)性;以及使用所獲得的反饋,自動(dòng)學(xué)習(xí)所述文檔相關(guān)性神經(jīng)網(wǎng)絡(luò)已改進(jìn)的建模的所評(píng)估的相 關(guān)性,從而對(duì)多個(gè)文檔中的一個(gè)或多個(gè)文檔中的每一個(gè)與所識(shí)別主題中的一個(gè)或多個(gè)的 建模的所評(píng)估的相關(guān)性進(jìn)行更新。
50.根據(jù)權(quán)利要求49所述的方法,其中,所述自動(dòng)分析所述多個(gè)文檔的內(nèi)容的操作包 括評(píng)估針對(duì)多個(gè)有關(guān)詞的多個(gè)不同詞組中的每一個(gè)的多個(gè)詞中的多個(gè)彼此的初始相關(guān) 性,其中,所識(shí)別的多個(gè)主題中的至少一些的每一個(gè)均具有詞組之一的多個(gè)有關(guān)詞,所 述詞組基于彼此具有超過(guò)指定閾值的所評(píng)估的初始相關(guān)性的多個(gè)有關(guān)詞,并且,所述方 法還包括產(chǎn)生對(duì)多個(gè)詞組中的每一個(gè)的多個(gè)有關(guān)詞彼此的所評(píng)估的相關(guān)性進(jìn)行建模的詞相關(guān) 性神經(jīng)網(wǎng)絡(luò),所述詞相關(guān)性神經(jīng)網(wǎng)絡(luò)對(duì)多個(gè)詞組的多個(gè)有關(guān)詞的所評(píng)估的初始相關(guān)性進(jìn) 行初始建模;獲得針對(duì)文檔請(qǐng)求而提供給用戶的結(jié)果中的一個(gè)或多個(gè)結(jié)果中的每一個(gè)的附加反 饋,所獲得的附加反饋基于用戶與所提供的結(jié)果的一個(gè)或多個(gè)交互,所述一個(gè)或多個(gè)交 互使用戶能夠推斷評(píng)估多個(gè)詞組中的至少一個(gè)的多個(gè)有關(guān)詞彼此的相關(guān)性,多個(gè)有關(guān)詞 的所推斷評(píng)估的相關(guān)性至少部分地基于這些詞與所提供的結(jié)果中指示的所選的一些文檔 中的至少一個(gè)文檔的相關(guān)性;使用所獲得的附加反饋,自動(dòng)學(xué)習(xí)所述詞相關(guān)性神經(jīng)網(wǎng)絡(luò)的已改進(jìn)的建模的所評(píng)估 的相關(guān)性,從而對(duì)多個(gè)詞組中的一個(gè)或多個(gè)詞組中的每一個(gè)的多個(gè)有關(guān)詞彼此的建模的 所評(píng)估的相關(guān)性進(jìn)行更新;以及對(duì)所識(shí)別的多個(gè)主題中的至少一個(gè)進(jìn)行修改,以反映一個(gè)或多個(gè)詞組中的至少一個(gè) 詞組的多個(gè)有關(guān)詞彼此的更新后的建模的所評(píng)估的相關(guān)性。
51.根據(jù)權(quán)利要求49所述的方法,其中,所述相關(guān)性確定服務(wù)是用戶能夠經(jīng)由一個(gè)或 多個(gè)關(guān)聯(lián)服務(wù)來(lái)訪問(wèn)的,從而,所述向用戶提供針對(duì)文檔請(qǐng)求的至少一些結(jié)果的操作包 括向關(guān)聯(lián)服務(wù)提供這些結(jié)果,所述關(guān)聯(lián)服務(wù)進(jìn)一步向用戶提供這些結(jié)果;并且,所述 相關(guān)性確定服務(wù)是從關(guān)聯(lián)服務(wù)和/或從結(jié)果被提供給其文檔請(qǐng)求的用戶獲得費(fèi)用的基 于費(fèi)用的服務(wù)。
全文摘要
本發(fā)明描述了用于確定和使用與所關(guān)注的域有關(guān)的相關(guān)信息的技術(shù)。在至少一些情形中,該技術(shù)包括自動(dòng)分析與所關(guān)注的域有關(guān)的文檔、詞和其他信息,以便自動(dòng)確定與域內(nèi)的相關(guān)主題有關(guān)和/或與哪些文檔具有與這種主題相關(guān)的內(nèi)容有關(guān)的信息。然后,可以以各種方式使用這種自動(dòng)確定的與域有關(guān)的信息,包括幫助用戶指定所關(guān)注的主題和/或獲得具有與所指定的主題相關(guān)的內(nèi)容的文檔和/或文檔片斷。此外,可以跟蹤與用戶如何使用自動(dòng)確定的信息有關(guān)的信息,并將該信息用作學(xué)習(xí)對(duì)域內(nèi)的先關(guān)主題和相關(guān)文檔的改進(jìn)確定的反饋,例如通過(guò)使用自動(dòng)化機(jī)器學(xué)習(xí)技術(shù)而進(jìn)行的學(xué)習(xí)的反饋。
文檔編號(hào)G06F7/00GK102016787SQ200980114629
公開(kāi)日2011年4月13日 申請(qǐng)日期2009年2月25日 優(yōu)先權(quán)日2008年2月25日
發(fā)明者克勞迪亞·艾林·布蘭扎恩, 卡塔林·泰奧多·米洛斯, 奧利弗·B·道恩斯, 弗拉德·米爾西亞·依奧凡諾夫, 拉杜·依奧恩·畢斯卡, 索普克·西恩格·卡爾薩, 邁克爾·桑多瓦爾 申請(qǐng)人:阿迪吉?dú)W有限責(zé)任公司