專利名稱:使用歷史搜索結(jié)果生成改進的文檔分類數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域:
所公開的實施例一般地涉及在客戶端-服務(wù)器環(huán)境上提供的在線服務(wù),更具體地涉及用于對信息進行分類并且使用分類的信息提供定制在線服務(wù)的系統(tǒng)和方法。
背景技術(shù):
借助于如Google的搜索引擎,互聯(lián)網(wǎng)已經(jīng)成為了人們接收信息的主要場所。但是找到并派發(fā)與特定個人的需求和搜索興趣最佳匹配的信息已經(jīng)成為了搜索引擎所面臨的挑戰(zhàn)。首先,不同的個人對于信息具有十分不同的偏好,并且難以準確識別個人的搜索興趣。這個問題由于人的興趣經(jīng)常是動態(tài)的 且隨時間變化而更為復(fù)雜。其次,互聯(lián)網(wǎng)上的許多網(wǎng)頁是未分類或錯誤分類的。沒有對網(wǎng)頁所提供的信息建立簡檔所必需的分類數(shù)據(jù),搜索引擎的服務(wù)質(zhì)量會由于在搜索結(jié)果中包括較不相關(guān)的網(wǎng)頁同時錯失更為相關(guān)的網(wǎng)頁而受到不利的影響。
發(fā)明內(nèi)容
在一些實施例中,在遠離客戶端設(shè)備的服務(wù)器系統(tǒng)處,所述服務(wù)器系統(tǒng)分別訪問關(guān)于具有對應(yīng)于第一信息項和第二信息項的搜索結(jié)果的查詢的歷史查詢信息以及所述第一信息項的分類數(shù)據(jù)。最初,所述第一信息項被分類而所述第二信息項未被分類?;谒龅谝恍畔㈨椀姆诸悢?shù)據(jù)以及所述歷史查詢信息,所述服務(wù)器系統(tǒng)為所述第二信息項生成分類數(shù)據(jù)并且將所生成的分類數(shù)據(jù)存儲于其中。響應(yīng)于來自客戶端設(shè)備的對服務(wù)的請求,所述服務(wù)器系統(tǒng)使用所述第二信息項以及為所述第二信息項所生成的相應(yīng)分類數(shù)據(jù)向所述客戶端設(shè)備提供定制服務(wù)。在一些實施例中,一種遠離客戶端設(shè)備的服務(wù)器系統(tǒng)包括一個或多個處理器、存儲器以及一個或多個程序。所述程序存儲在所述存儲器中并且被配置為由所述處理器執(zhí)行。所述程序包括用于分別訪問關(guān)于具有對應(yīng)于第一信息項和第二信息項的搜索結(jié)果的查詢的歷史查詢信息以及所述第一信息項的分類數(shù)據(jù)的指令。所述第一信息項最初被分類而所述第二信息項最初未被分類。所述程序還包括用于基于所述第一信息項的分類數(shù)據(jù)以及所述歷史查詢信息為所述第二信息項生成分類數(shù)據(jù)的指令;用于將所生成的分類數(shù)據(jù)存儲在所述服務(wù)器系統(tǒng)中的指令;以及用于使用所述服務(wù)器中存儲的相應(yīng)分類數(shù)據(jù)向多個客戶端設(shè)備提供與所述第二信息項相關(guān)聯(lián)的定制服務(wù)的指令。在一些實施例中,一種其中存儲有指令的計算機可讀存儲介質(zhì),當被服務(wù)器系統(tǒng)的一個或多個處理器執(zhí)行時,所述指令使得所述服務(wù)器系統(tǒng)分別訪問關(guān)于具有對應(yīng)于第一信息項和第二信息項的搜索結(jié)果的查詢的歷史查詢信息以及所述第一信息項的分類數(shù)據(jù)。所述第一信息項最初被分類而所述第二信息項最初未被分類。當被所述服務(wù)器系統(tǒng)的一個或多個處理器執(zhí)行時,所述指令還使得所述服務(wù)器系統(tǒng)基于所述第一信息項的分類數(shù)據(jù)以及所述歷史查詢信息為所述第二信息項生成分類數(shù)據(jù),將所生成的分類數(shù)據(jù)存儲在所述服務(wù)器系統(tǒng)中,并且使用所述服務(wù)器中存儲的相應(yīng)分類數(shù)據(jù)向多個客戶端設(shè)備提供與所述第二信息項相關(guān)聯(lián)的定制服務(wù)。
圖I是根據(jù)本發(fā)明一些實施例的包括信息服務(wù)器系統(tǒng)的分布式客戶端-服務(wù)器計算系統(tǒng)的框圖。圖2A是依據(jù)一些實施例的查詢?nèi)罩緮?shù)據(jù)庫用來存儲用戶集合的歷史查詢信息的數(shù)據(jù)結(jié)構(gòu)的框圖。圖2B是依據(jù)一些實施例的查詢簡檔數(shù)據(jù)庫用來存儲查詢簡檔集合的信息的數(shù)據(jù)結(jié)構(gòu)的框圖。圖2C是依據(jù)一些實施例的信息分類數(shù)據(jù)庫和信息分類種子數(shù)據(jù)庫用來存儲信息 項集合的信息的數(shù)據(jù)結(jié)構(gòu)的框圖。圖2D是依據(jù)一些實施例的用戶簡檔數(shù)據(jù)庫用來存儲用戶簡檔集合的信息的數(shù)據(jù)結(jié)構(gòu)的框圖。圖3A是圖示依據(jù)一些實施例的用于構(gòu)建查詢簡檔數(shù)據(jù)庫的示例性過程的流程圖。圖3B是圖示依據(jù)一些實施例的用于構(gòu)建信息分類數(shù)據(jù)庫的示例性過程的流程圖。圖3C是圖示依據(jù)一些實施例的用于構(gòu)建用戶簡檔數(shù)據(jù)庫的示例性過程的流程圖。圖3D是圖示依據(jù)一些實施例的使用其它信息項的分類數(shù)據(jù)對信息項進行分類的示例的框圖。圖4是圖示依據(jù)一些實施例的用于處理查詢并且使用用戶簡檔和信息分類數(shù)據(jù)對相應(yīng)查詢結(jié)果進行排序的示例性過程的框圖。圖5A是圖示依據(jù)一些實施例的用于生成分類數(shù)據(jù)并且使用所述分類數(shù)據(jù)提供定制服務(wù)的示例性過程的流程圖。圖5B是圖示依據(jù)一些實施例的用于使用用戶的用戶簡檔和分類數(shù)據(jù)向遠程客戶端設(shè)備處的用戶提供個性化搜索結(jié)果的示例性過程的流程圖。圖6是依據(jù)一些實施例的示例性客戶端設(shè)備的框圖。圖7是依據(jù)一些實施例的示例性服務(wù)器系統(tǒng)的框圖。
具體實施例方式現(xiàn)在將詳細參見實施例,其示例在附圖中進行圖示。雖然將結(jié)合所述實施例對本發(fā)明進行描述,但是將要理解的是,本發(fā)明并不局限于這些特定實施例。相反,本發(fā)明包括落入所附權(quán)利要求的精神和范圍之內(nèi)的替換、修改和等同形式。給出多種特定細節(jié)是為了提供對這里所呈現(xiàn)的主題的全面理解。但是對于本領(lǐng)域技術(shù)人員顯而易見的是,所述主題可以在沒有這些特定細節(jié)的情況下進行實踐。在其它實例中,沒有對已知的方法、過程、組件和電路進行詳細描述以免不必要地對實施例的多個方面造成混淆。圖I是根據(jù)本發(fā)明一些實施例的分布式客戶端-服務(wù)器計算系統(tǒng)100的框圖,其包括信息服務(wù)器系統(tǒng)130。信息服務(wù)器系統(tǒng)130通過一個或多個通信網(wǎng)絡(luò)120連接到多個客戶端104和網(wǎng)站102。網(wǎng)站102可以包括與互聯(lián)網(wǎng)上的域名相關(guān)聯(lián)的網(wǎng)頁114的集合。每個網(wǎng)站(或網(wǎng)頁)具有內(nèi)容位置標識符,例如統(tǒng)一資源定位符(URL),其唯一地識別網(wǎng)站在互聯(lián)網(wǎng)上的位置??蛻舳?04(有時被稱作“客戶端系統(tǒng)”或“客戶端設(shè)備”或“客戶端計算機”)可以是客戶端104的用戶能夠通過其向信息服務(wù)器系統(tǒng)130提交服務(wù)請求并從信息服務(wù)器系統(tǒng)130接收搜索結(jié)果或其它服務(wù)的任意計算機或類似設(shè)備。示例包括臺式計算機、膝上計算機、平板計算機、諸如移動電話的移動設(shè)備、個人數(shù)字助理、機頂盒,或者以上的任意組合,但是并不局限于此。各客戶端104可以包含至少一個用于向信息服務(wù)器系統(tǒng)130提交請求的客戶端應(yīng)用106。例如,客戶端應(yīng)用106可以是web瀏覽器或者允許用戶在網(wǎng)站102進行搜索、瀏覽和/或使用信息(例如,網(wǎng)頁和web服務(wù))的其它類型的應(yīng)用。在一些實施例中,客戶端104包括一個或多個客戶端助理108。該客戶端助理108可以是執(zhí)行與 協(xié)助用戶關(guān)于客戶端應(yīng)用106和/或其它應(yīng)用的活動相關(guān)的一個或多個任務(wù)的軟件應(yīng)用。例如,客戶端助理108可以協(xié)助客戶端104處的用戶瀏覽網(wǎng)站102所托管的信息(例如,文件),處理從信息服務(wù)器系統(tǒng)130所接收的信息(例如,搜索結(jié)果),并且監(jiān)視用戶針對搜索結(jié)果的活動。在一些實施例中,客戶端助理108被嵌入在一個或多個網(wǎng)頁(例如,搜索結(jié)果網(wǎng)頁)或者從信息服務(wù)器系統(tǒng)130下載的其它文檔中。在一些實施例中,客戶端助理108是客戶端應(yīng)用106的一部分(例如,web瀏覽器的插件)。通信網(wǎng)絡(luò)120可以是有線或無線的局域網(wǎng)(LAN)和/或廣域網(wǎng)(WAN),諸如內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)、互聯(lián)網(wǎng),或者這些網(wǎng)絡(luò)的組合。在一些實施例中,通信網(wǎng)絡(luò)120使用超文本傳輸協(xié)議(HTTP)和傳輸控制協(xié)議/互聯(lián)網(wǎng)協(xié)議(TCP/IP)在不同網(wǎng)絡(luò)之間傳輸信息。HTTP允許客戶端設(shè)備經(jīng)由通信網(wǎng)絡(luò)120訪問可在互聯(lián)網(wǎng)上獲得的各種信息。然而,本發(fā)明的各個實施例不局限于使用任何特定的協(xié)議。如該說明書通篇使用的術(shù)語“信息項”是指可經(jīng)由內(nèi)容位置標識符(例如,URL)進行訪問的任意信息片段或服務(wù),并且例如可以是網(wǎng)頁、包括多個網(wǎng)頁的網(wǎng)站、文檔(例如,圖片、圖像、繪圖、書籍、XML文檔、文字處理文檔、電子表單文檔、展示文檔,或者可以使用搜索引擎進行索引并且被用于搜索的任意其它文檔)、視頻/音頻流、數(shù)據(jù)庫或數(shù)據(jù)庫記錄、計算對象、搜索引擎,或者其它在線信息服務(wù)。在一些實施例中,信息服務(wù)器系統(tǒng)130包括前端服務(wù)器122、查詢處理器124、搜索引擎126、簡檔管理器128、信息分類器136、查詢?nèi)罩緮?shù)據(jù)庫140、用戶簡檔數(shù)據(jù)庫132、信息分類種子數(shù)據(jù)庫138和信息分類數(shù)據(jù)庫134。在一些實施例中,信息服務(wù)器系統(tǒng)130還包括查詢簡檔數(shù)據(jù)庫142,而在其它一些實施例中,由于在查詢簡檔被用來跨相應(yīng)查詢的搜索結(jié)果“傳播”分類信息之后不被保留而并不需要該數(shù)據(jù)庫142。信息服務(wù)器系統(tǒng)130從客戶端104接收查詢,對所述查詢進行處理以產(chǎn)生搜索結(jié)果,并且將所述搜索結(jié)果返回進行查詢的客戶端104。(由進行請求的客戶端104或者客戶端104處的相應(yīng)請求者所發(fā)送的)相應(yīng)查詢的搜索結(jié)果至少部分地基于來自信息分類數(shù)據(jù)庫134的信息分類數(shù)據(jù)以及從用戶簡檔數(shù)據(jù)庫132所獲得的查詢請求者的用戶簡檔而被進一步處理以產(chǎn)生要返回給進行請求的客戶端104的搜索結(jié)果的有序集合。前端服務(wù)器122被配置為從客戶端104接收查詢。該查詢由搜索引擎126和查詢處理器124進行處理以產(chǎn)生搜索結(jié)果的集合。查詢處理器124被配置為使用信息分類數(shù)據(jù)庫134中所存儲的分類數(shù)據(jù)以及用戶簡檔數(shù)據(jù)庫132中所存儲的用戶簡檔信息來確定用于顯示的搜索結(jié)果的順序??蛇x地,查詢處理器124被實現(xiàn)為搜索引擎126的一部分;可替選地,查詢處理器124被實現(xiàn)為單獨的服務(wù)器或服務(wù)器集合。在從信息服務(wù)器系統(tǒng)130接收了搜索結(jié)果之后,客戶端104向用戶顯示所述搜索結(jié)果。在一些實施例中,客戶端助理108監(jiān)視用戶針對搜索結(jié)果的活動并且生成相應(yīng)的搜索結(jié)果使用數(shù)據(jù)。所述搜索結(jié)果使用數(shù)據(jù)可以包括以下的一個或多個用戶對一個或多個搜索結(jié)果的選擇(也被稱作“點擊”數(shù)據(jù))、選擇持續(xù)時間(用戶選擇搜索結(jié)果中的URL鏈接和用戶從搜索結(jié)果文檔退出或者選擇搜索結(jié)果中另一個URL鏈接之間的時間量),以及關(guān)于搜索結(jié)果的指示器活動。在一些實施例中,所述搜索結(jié)果使用數(shù)據(jù)被發(fā)送到信息服務(wù)器系統(tǒng)130,并且連同閃現(xiàn)(impression)數(shù)據(jù)一起存儲在查詢?nèi)罩緮?shù)據(jù)庫140中以更新用戶簡檔數(shù)據(jù)庫132和信息分類數(shù)據(jù)庫134。典型地,關(guān)于歷史搜索查詢的閃現(xiàn)數(shù)據(jù)包括所列出的每個搜索結(jié)果的一個或多個分值,諸如信息檢索分值,以及指示搜索查詢的搜索結(jié)果的順序或者等同地每次搜索在搜索查詢的搜索結(jié)果集合中的位置的位置數(shù)據(jù)。查詢?nèi)罩緮?shù)據(jù)庫140存儲歷史查詢信息,對于各查詢而言,所述歷史查詢信息包 括查詢的查詢詞語(206,圖2A)、搜索結(jié)果(210-1,圖2A)、閃現(xiàn)數(shù)據(jù)(例如,搜索結(jié)果的一個或多個信息檢索(IR)分值和(指示所顯示的搜索結(jié)果的順序的)搜索結(jié)果的位置數(shù)據(jù),以及搜索結(jié)果的點擊數(shù)據(jù)(搜索結(jié)果的用戶選擇))。在一些實施例中,關(guān)于各查詢的存儲在查詢?nèi)罩緮?shù)據(jù)庫140中的歷史查詢信息還包括搜索結(jié)果的用戶導(dǎo)航統(tǒng)計數(shù)據(jù)??蛇x地,各查詢的歷史查詢信息進一步包括其它信息,諸如搜索請求者的位置信息(例如,城市、州、國家或地區(qū))以及查詢語言。其信息被存儲在查詢?nèi)罩緮?shù)據(jù)庫140中的查詢是來自用戶群體的查詢,諸如對應(yīng)搜索引擎126的所有用戶。在一些實施例中,所述系統(tǒng)包括多個查詢?nèi)罩緮?shù)據(jù)庫,或者查詢?nèi)罩緮?shù)據(jù)庫140被分區(qū),其中每個查詢?nèi)罩緮?shù)據(jù)庫或分區(qū)存儲與從相應(yīng)用戶群體接收的查詢相對應(yīng)的記錄,所述用戶群體諸如以特定語言(例如,英語、日語、中文、法語、德語等)提交查詢的所有用戶,從特定國家或其它司法管轄區(qū)或者從特定IP地址范圍提交查詢的所有用戶,這些標準的任意適當組合。用戶簡檔數(shù)據(jù)庫132存儲多個用戶簡檔,每個用戶簡檔對應(yīng)于相應(yīng)的用戶。在一些實施例中,用戶簡檔包括多個子簡檔,每個子簡檔依據(jù)預(yù)定義的標準對用戶的相應(yīng)方面進行分類。在一些實施例中,用戶簡檔對應(yīng)于用戶組(例如,共享特定客戶端104的用戶,或者從特定網(wǎng)站或網(wǎng)頁訪問搜索引擎的所有用戶)。用戶簡檔數(shù)據(jù)庫132至少可由查詢處理器124和簡檔管理器128訪問。簡檔管理器128創(chuàng)建并維護信息服務(wù)器系統(tǒng)130的用戶的至少一些用戶簡檔。如以下更為詳細描述的,簡檔管理器128使用查詢?nèi)罩緮?shù)據(jù)庫140中所存儲的用戶的搜索歷史來確定用戶的搜索興趣。信息分類數(shù)據(jù)庫134存儲互聯(lián)網(wǎng)上各種信息項的分類數(shù)據(jù),并且至少可由查詢處理器124和信息分類器136訪問。如以下結(jié)合圖5A所討論的,信息分類器136被配置為對信息項進行分類或歸類并且將分類數(shù)據(jù)存儲在信息分類數(shù)據(jù)庫134中。在一些實施例中,信息分類器136使用查詢?nèi)罩緮?shù)據(jù)庫140中所存儲的歷史查詢信息(例如,閃現(xiàn)數(shù)據(jù)和結(jié)果使用數(shù)據(jù))和信息分類種子數(shù)據(jù)庫138中所存儲的一些分類信息項的分類種子數(shù)據(jù)為那些還沒有分類的信息項生成分類數(shù)據(jù)。信息分類器136依賴于查詢?nèi)罩緮?shù)據(jù)庫140中的歷史查詢信息來構(gòu)建并維護信息分類數(shù)據(jù)庫134。如以下將參考圖3C所描述的,信息分類器136還被配置為使用信息分類數(shù)據(jù)庫134中的分類數(shù)據(jù)和歷史查詢信息來生成用戶簡檔信息。圖2A圖示了依據(jù)一些實施例的用于存儲涉及用戶集合的歷史查詢信息的數(shù)據(jù)結(jié)構(gòu)200。數(shù)據(jù)結(jié)構(gòu)200包括多個查詢記錄202-1-202-N,每個記錄對應(yīng)于相應(yīng)用戶在相應(yīng)時間從相應(yīng)位置提交的信息服務(wù)器系統(tǒng)130針對其維護查詢相關(guān)信息的查詢。在一些實施例中,查詢記錄202可以包括以下中的一個或多個用戶ID (識別提交與記錄202相對應(yīng)的查詢的用戶)和會話ID 204 ;查詢的查詢詞語206 ;以及包括表示所述查詢的搜索結(jié)果的多個URL ID (例如,210-1...210-Q)的查詢歷史信息208,以及關(guān)于搜索結(jié)果中的URL ID的附加信息(212-1. . . 212-Q)。在一些實施例中,相應(yīng)查詢的查詢記錄202僅存儲前Q個(例如,40或50個)搜索結(jié)果的信息,即使查詢可能生成數(shù)目遠大于此的搜索結(jié)果。在一些實施例中,查詢歷史信息中相應(yīng)URL ID的附加信息包括URL的閃現(xiàn)數(shù)據(jù)(例如,IR(信息檢索)分值,其是URL與查詢的相關(guān)度的量度,以及URL在搜索結(jié)果中的位置);URL的導(dǎo)航率(URL的用戶選擇和諸如查詢提交之前的一周或一個月的特定時間段內(nèi)針對相同查詢的搜索結(jié)果中所有URL的用戶選擇之間的比率);以及指示URL是否被用戶 在所有URL中選擇的點擊數(shù)據(jù)。注意,URL的導(dǎo)航率指示其在已經(jīng)提交相同查詢的用戶之間關(guān)于其它URL的流行度??蛇x地,與URL相關(guān)聯(lián)的附加信息識別包含該URL的信息項,諸如其它網(wǎng)頁、圖像、視頻、書籍等。在一些實施例中,查詢記錄202還包括查詢的地理和人口統(tǒng)計信息,如提交查詢的國家/地區(qū)以及查詢的語言。例如,對于從不同國家或者在不同時間提交的相同查詢詞語集合,搜索結(jié)果可能有所不同。如以下將會解釋的,查詢?nèi)罩緮?shù)據(jù)庫中的信息可以被用來對大量URL生成準確的分類數(shù)據(jù)。用戶ID 204是用于識別提交查詢的用戶(有時是客戶端)的唯一標識符。在許多實施例中,為了保護系統(tǒng)用戶的隱私,用戶ID 204唯一地識別用戶或客戶端,但是不能被用來識別用戶的姓名或其它識別信息。這同樣應(yīng)用于以下關(guān)于圖2D所討論的用戶簡檔記錄242的用戶ID244。在一些實施例中,在用戶第一次登錄到信息服務(wù)器系統(tǒng)或者在之前的會話期滿之后再次登錄到系統(tǒng)時,在客戶端104和信息服務(wù)器系統(tǒng)130之間建立網(wǎng)絡(luò)通信會話。在任一種情況下,都為會話創(chuàng)建唯一的會話ID 204,并且其成為查詢記錄202的一部分。查詢詞語206可以是用戶原始提交的那些詞語或者被規(guī)格化為服務(wù)器系統(tǒng)所采用的格式的那些詞語。對于每個查詢,信息服務(wù)器系統(tǒng)130識別對應(yīng)于該查詢的一組搜索結(jié)果。典型地,搜索結(jié)果包括URL(或IP地址)、來自URL所識別的網(wǎng)頁的文本摘錄以及其它輔助項。搜索結(jié)果的集合依據(jù)它們對于查詢的相應(yīng)相關(guān)度進行排序,以使得更加相關(guān)的結(jié)果在較不相關(guān)的結(jié)果之前顯示。例如,如果存在每頁顯示不超過10個結(jié)果的限制,則45個搜索結(jié)果的集合被劃分為5個結(jié)果頁面。在第一頁面上顯示的結(jié)果被認為與第二頁面上的結(jié)果相比與查詢更加相關(guān)并且因此被首先顯示。在一些實施例中,所顯示的搜索結(jié)果頁面也被稱作搜索結(jié)果的閃現(xiàn)。在一個結(jié)果頁面或者搜索結(jié)果的一個閃現(xiàn)內(nèi),處于瀏覽器窗口頂端或頂端附近的位置被保留給更為相關(guān)的結(jié)果,這是因為其通常比窗口中的其它地方受到更多關(guān)注。在客戶端104,客戶端助理108監(jiān)視用戶針對所顯示的搜索結(jié)果的活動,諸如用戶訪問的閃現(xiàn)、用戶花費在不同搜索結(jié)果上的時間量(例如,通過追蹤用戶光標在搜索結(jié)果上的位置)以及用戶所點擊的URL鏈接。該用戶交互信息以及表征搜索結(jié)果使用的其它數(shù)據(jù)被發(fā)送回信息服務(wù)器系統(tǒng)130并且連同相應(yīng)的URL ID 210 一起存儲在數(shù)據(jù)結(jié)構(gòu)200中(在查詢歷史信息208中)。圖2B描繪了依據(jù)ー些實施例的用于存儲查詢簡檔的示例性數(shù)據(jù)結(jié)構(gòu)220的框圖。與圖2A的數(shù)據(jù)結(jié)構(gòu)類似,數(shù)據(jù)結(jié)構(gòu)220包括多個查詢簡檔記錄214-1至214-P,其中的每ー個對應(yīng)于ー個用戶所提交的查詢。當許多用戶提交了相同的查詢時,單個查詢簡檔214存儲該查詢的簡檔信息。在一些實施例中,每個查詢簡檔記錄214包含識別特定查詢的查詢ID 215、查詢中的相應(yīng)查詢詞語集合216以及用于對查詢分類的類別列表217??蛇x地,查詢簡檔214可以被分配整體查詢權(quán)重221,其不僅反映類別列表217中類別權(quán)重的總和,而且還反映指示查詢簡檔有多可靠或者查詢簡檔與查詢結(jié)果的簡檔關(guān)聯(lián)多強的ー個或多個附加因素或量度。這在以下更為詳細地進行討論。在一些實施例中,類別列表217包括一個或多個配對(類別ID 218,權(quán)重219)。類別ID 218可以對應(yīng)于特定類型的信息,諸如新聞、體育、旅行、金融等,而權(quán)重219是衡量查詢和相應(yīng)信息類型之間的相關(guān)性的數(shù)字。例如,查詢詞語“golf (高爾夫)”可能對于體育 和運動商品的類別具有相對高的權(quán)重,而對于信息技術(shù)(IT)的類別則具有低權(quán)重。在ー些實施例中,類別ID 218對應(yīng)干“概念集群”,其可以通過集群過程產(chǎn)生,例如,其可以或可以不被輕易標記以類別名稱。如以下將結(jié)合圖3A進ー步描述的,信息分類器136從查詢?nèi)罩緮?shù)據(jù)庫140中的歷史查詢信息以及來自信息分類種子數(shù)據(jù)庫138的分類數(shù)據(jù)來構(gòu)建查詢簡檔。在以下所描述的ー些實施例中,生成、使用并接著處理單獨的查詢簡檔214而并不在數(shù)據(jù)庫或其它收集性數(shù)據(jù)結(jié)構(gòu)220中存儲查詢簡檔。圖2C是依據(jù)一些實施例的用于存儲信息項集合的分類數(shù)據(jù)的示例性數(shù)據(jù)結(jié)構(gòu)240的框圖。數(shù)據(jù)結(jié)構(gòu)240的一個實例可以被用來存儲信息分類種子數(shù)據(jù)庫138的分類數(shù)據(jù),而該數(shù)據(jù)結(jié)構(gòu)240的另ー個實例可以被用來存儲信息分類數(shù)據(jù)庫134的分類數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)240包括多個分類數(shù)據(jù)記錄222-1至222_N(這里也被稱作URL簡檔記錄或文檔簡檔記錄),其中每ー個對應(yīng)于互聯(lián)網(wǎng)上的信息項(例如,網(wǎng)頁或網(wǎng)站)。在ー些實施例中,每個分類數(shù)據(jù)記錄222包含諸如URL 224的信息項定位符、一個或多個屬性(例如URL文本、錨標簽、頁面排名等)、用于對信息項進行分類的類別列表228,并且可選地用于對信息項進行分類的其它簡檔230。類別列表228包括ー個或多個(類別ID 228,權(quán)重229)的配對。如以下將結(jié)合圖3B進ー步描述的,信息分類器136使用來自查詢?nèi)罩緮?shù)據(jù)庫140的歷史查詢信息以及來自查詢簡檔數(shù)據(jù)庫142的查詢簡檔為信息項生成分類數(shù)據(jù)。圖2D是依據(jù)一些實施例的用于存儲用戶集合的用戶簡檔的示例性數(shù)據(jù)結(jié)構(gòu)260的框圖。數(shù)據(jù)結(jié)構(gòu)260包括多個用戶簡檔記錄242-1至242-P,其中每個對應(yīng)于信息服務(wù)器系統(tǒng)130的特定用戶(或者如以上所描述的用戶組)。在一些實施例中,每個用戶簡檔記錄242包括用戶ID244和類別列表248,所述類別列表248包括表示用戶搜索興趣的一個或多個(類別ID 249,權(quán)重250)的配對。可選地,用戶簡檔記錄242包括一個或多個定制偏好246(例如,喜好標題、捜索結(jié)果的優(yōu)選排序),其可以由用戶手工指定(例如,使用為此所配置的web表單)。此外,用戶簡檔記錄242可以可選地包括從不同方面對用戶的捜索興趣進行分類的其它類型的用戶簡檔。這些用戶簡檔可以由簡檔管理器128生成以在需要時補充或替代類別列表248。
注意,一個網(wǎng)頁或查詢或用戶的類別列表可能與另ー個的不同。例如,一個網(wǎng)頁可以具有體育類別和相應(yīng)的權(quán)重,而另ー個網(wǎng)頁可能與體育完全無關(guān)并且因此可能在每個類別列表中具有完全不同的類別集合。在一些實施例中,不同網(wǎng)頁、查詢和用戶的分類數(shù)據(jù)被規(guī)范化以使得對于不同實體的類別列表中出現(xiàn)的相同類別,它們各自的權(quán)重是可比較的。因此,當?shù)谝挥脩舻暮啓n對于相應(yīng)類別比第二用戶的簡檔具有較高的權(quán)重吋,這指示第一用戶比第二用戶對該相應(yīng)類別的興趣水平更高。通常,諸如網(wǎng)站或網(wǎng)頁之類的信息項或用戶可能通過多個簡檔(230,252)和/或類別列表(228,248)進行分類。不同的簡檔和類別列表可以從不同角度表征相同的主題,并且因此具有不同的用途。為了簡要和說明,本發(fā)明的實施例假設(shè)信息項對應(yīng)于由URL唯一識別的網(wǎng)頁。貫穿該說明書,諸如“分類數(shù)掘”、“簡檔”、“類別列表”、“集群”等的術(shù)語可互換使用,其中每ー個可以數(shù)學(xué)地表示為稀疏矢量。網(wǎng)頁的分類意味著為該網(wǎng)頁生成類別列表。但是如背景技術(shù)部分中所指出的,許多網(wǎng)頁是未分類或錯誤分類的。因此,本發(fā)明的ー個方面是如何將分類網(wǎng)頁的分類數(shù)據(jù)(例如,存儲在信息分類種子數(shù)據(jù)庫138中的數(shù)據(jù))“傳播”到那些未分類的網(wǎng)頁或網(wǎng)站上以為所述未分類的網(wǎng)頁或網(wǎng)站生成準確的分類數(shù)據(jù)。注意,這種傳播分類數(shù)據(jù)的過程不要求未分類網(wǎng)頁的內(nèi)容的先驗知識并且因此在計 算上是聞效的。在一些實施例中,從分類網(wǎng)頁向未分類網(wǎng)頁傳播分類數(shù)據(jù)的過程涉及兩個步驟
(i)從分類網(wǎng)頁向與分類和未分類網(wǎng)頁兩者相關(guān)的查詢傳播分類數(shù)據(jù);和(ii)從查詢向未分類網(wǎng)頁傳播分類數(shù)據(jù)。注意,術(shù)語“傳播”從分類數(shù)據(jù)提供者的角度描述該過程,所述分類數(shù)據(jù)提供者即最初分類的信息項。但是從分類數(shù)據(jù)接收者的角度來看,即從最初未分類的信息項的角度來看,該過程是兩步驟的聚集操作(i)將來自不同的分類網(wǎng)頁的分類數(shù)據(jù)的加權(quán)貢獻聚集到與該查詢的分類數(shù)據(jù)相同的查詢;和(ii)將來自不同查詢的分類數(shù)據(jù)的加權(quán)貢獻聚集到與該網(wǎng)頁的分類數(shù)據(jù)相同的未分類網(wǎng)頁。圖3A和3B是更詳細圖示兩步驟過程的流程圖。具體地,圖3A是圖示依據(jù)ー些實施例的用于構(gòu)建查詢簡檔數(shù)據(jù)庫142的示例性方法300的流程圖。該方法使用來自查詢?nèi)罩緮?shù)據(jù)庫140的歷史查詢信息以及來自種子數(shù)據(jù)庫138的分類數(shù)據(jù)對多個用戶在ー個時間段(例如,過去六個月)內(nèi)所提交的查詢集合建立簡檔。這里所描述的每種方法可以通過指令進行管理,所述指令存儲在計算機可讀存儲介質(zhì)中并且由ー個或多個服務(wù)器或客戶端的ー個或多個處理器執(zhí)行。此外,圖3A-3C中所示的每個操作可以對應(yīng)于計算機存儲器或計算機可讀存儲介質(zhì)中存儲的指令。在一些實施例中,歷史查詢信息包括查詢詞語、對應(yīng)于查詢詞語的搜索結(jié)果、搜索結(jié)果的閃現(xiàn)數(shù)據(jù)(例如,分值、位置數(shù)據(jù))以及追蹤用戶與捜索結(jié)果的交互的信息(諸如點擊數(shù)據(jù))。分類種子數(shù)據(jù)包括多個稀疏矢量,其中每ー個提供特定網(wǎng)頁(或網(wǎng)站)的集群信息。這些稀疏矢量是網(wǎng)頁與各種主題、標題或概念集群的相關(guān)度的最初估計。可以使用本領(lǐng)域的許多已知方法(例如,網(wǎng)頁內(nèi)容、關(guān)鍵詞語和/或鏈接的分析)來生成這些稀疏矢量。作為最初估計,這些稀疏矢量可以不是完全準確或完整的。如以下將要描述的,生成分類數(shù)據(jù)的兩步驟過程在一些實施例中可以是迭代過程。分類數(shù)據(jù)的迭代傳播不僅能夠為未分類的網(wǎng)頁生成分類數(shù)據(jù),而且還能夠?qū)Πㄆ鋽?shù)據(jù)已經(jīng)被用作種子數(shù)據(jù)的那些最初分類的網(wǎng)頁在內(nèi)的先前分類的網(wǎng)頁的分類數(shù)據(jù)進行更新。
來自被用來為URL集合生成分類數(shù)據(jù)的查詢?nèi)罩緮?shù)據(jù)庫140的歷史查詢信息對應(yīng)于來自用戶群體的歷史查詢。所述用戶群體可以是與查詢?nèi)罩緮?shù)據(jù)庫140相關(guān)聯(lián)的搜索引擎的所有用戶,或者其可以是該搜索引擎的所有用戶的子集,諸如以特定語言提交查詢的用戶,來自特定司法管轄區(qū)或地理區(qū)域的用戶,從特定IP地址范圍提交查詢的用戶,或者這些標準的任意適當組合。使用從查詢?nèi)罩緮?shù)據(jù)庫140檢索(302)的查詢?nèi)罩拘畔⒁约皬姆N子數(shù)據(jù)庫138檢索(304)的分類數(shù)據(jù)作為輸入,信息分類器136為用戶所提交的查詢生成(306)查詢簡檔。為了說明,本文描述了其中種子數(shù)據(jù)庫138中的分類數(shù)據(jù)是用于多個URL的分類數(shù)據(jù)的實施例。然而,在其它實施例中,種子分類數(shù)據(jù)不局限于用于URL的分類數(shù)據(jù)。例如,數(shù)據(jù)庫138中的種子分類數(shù)據(jù)可以包括用于網(wǎng)站的分類數(shù)據(jù)(與URL級別的分類數(shù)據(jù)相比,其可以被稱作網(wǎng)站級別的分類數(shù)據(jù))。只要種子分類數(shù)據(jù)合理地準確并且有足夠數(shù)量的查詢?nèi)罩緮?shù)據(jù),信息分類器136就能夠準確并廣泛地傳播種子分類數(shù)據(jù)從而為大量還沒有通過傳統(tǒng)方法準確建立簡檔的URL生成分類數(shù)據(jù)。首先,信息分類器136在查詢?nèi)罩緮?shù)據(jù)庫140中選擇(具有查詢詞語集合的) 查詢?nèi)罩居涗洝τ谙鄳?yīng)查詢,信息分類器識別(308-1)捜索結(jié)果以及對應(yīng)于捜索結(jié)果的URL。如果相同的查詢出現(xiàn)在表示來自不同用戶和不同時間的不同搜索請求的多個查詢?nèi)罩居涗浿校瑒t在相應(yīng)的搜索結(jié)果之間可能存在差異。在一些實施例中,通過將搜索結(jié)果分組到ー起并且對相應(yīng)的查詢?nèi)罩具M行分析,信息分類器選擇其相關(guān)聯(lián)的網(wǎng)頁被認為與查詢相關(guān)的URL集合。注意,由于三個術(shù)語之間ー對一的映射,術(shù)語“URL”、“網(wǎng)頁”和“捜索結(jié)果”經(jīng)常貫穿說明書可互換地使用。在為所處理的查詢?nèi)罩居涗涀R別了 URL集合(308-1)之后,信息分類器136對所識別的URL的分類應(yīng)用(308-2)加權(quán)標準。所述加權(quán)表征用于估計每個URL與查詢的相關(guān)度。在一些實施例中,所述加權(quán)標準包括URL的IR分值、導(dǎo)航率、閃現(xiàn)、位置和點擊數(shù)據(jù)。這些加權(quán)標準被用來確定對應(yīng)于URL與查詢的相關(guān)度的權(quán)重(或分值)。例如,出現(xiàn)在與特定查詢相對應(yīng)的捜索結(jié)果頂端或頂端附近的URL被認為與出現(xiàn)在搜索結(jié)果較低位置的其它搜索結(jié)果相比與所述查詢更加相關(guān)。類似地,具有高導(dǎo)航率的URL,即歷史上以高比率被提交相同查詢的用戶選擇的URL,在考慮其與查詢的相關(guān)度時被給予與(在搜索結(jié)果的類似位置的)具有較低導(dǎo)航率的URL相比更大的權(quán)重。因此,URL的種子分類數(shù)據(jù)被認為與查詢高度相關(guān)并且因此在生成查詢簡檔時被給予更大權(quán)重。在一些實施例中,少數(shù)最為相關(guān)的URL(例如,搜索結(jié)果的第一頁面前兩個、三個或四個URL)被給予完整權(quán)重I,而那些較不相關(guān)的URL的權(quán)重則作為其相應(yīng)搜索結(jié)果位置、IR分值、導(dǎo)航率、點擊數(shù)據(jù)以及還有潛在的其它特定于URL的參數(shù)的函數(shù)而逐漸減小。如以上所提到的,可以使用點擊數(shù)據(jù)來修改基于搜索結(jié)果位置向URL分配的權(quán)重。例如,已經(jīng)被用戶選擇觀看的搜索結(jié)果可以被分配最高的可能權(quán)重(例如,與最高排名的搜索結(jié)果相同的權(quán)重)??商孢x地,已經(jīng)被用戶選擇觀看的搜索結(jié)果的權(quán)重可以被給予預(yù)定的提升(例如,作為固定増加或百分比増加);可選地,可以應(yīng)用上限來限制所產(chǎn)生的權(quán)重以使其不超過預(yù)定義的最大權(quán)重。接下來,信息分類器將URL的加權(quán)分類數(shù)據(jù)聚集(308-3)為查詢自己的分類數(shù)據(jù),即查詢的簡檔。由于先前的加權(quán)步驟,查詢的簡檔應(yīng)當與具有更高權(quán)重的那些URL的分類數(shù)據(jù)更加類似。注意,(捜索結(jié)果中的)不存在其種子分類數(shù)據(jù)的URL對于查詢的簡檔沒有影響。雖然將分類數(shù)據(jù)從URL傳播到查詢的這個過程可能并沒有明確考慮URL所識別的網(wǎng)頁的內(nèi)容以及它與查詢的相關(guān)度,但是應(yīng)當注意的是,諸如搜索結(jié)果的閃現(xiàn)數(shù)據(jù)(例如,IR分值、位置數(shù)據(jù))和點擊數(shù)據(jù)的歷史查詢信息已經(jīng)包括了網(wǎng)頁內(nèi)容的影響。如以上所討論的,在生成查詢簡檔時,聚集操作308-3僅使用了來自已經(jīng)被分類的URL的分類,并且因此在種子數(shù)據(jù)庫138中具有分類數(shù)據(jù)。然而,在一些實施例中,在查詢簡檔分類過程300的后續(xù)迭代中,查詢分類過程的“種子數(shù)據(jù)”可以是在URL分類過程320的較早迭代期間所分類的URL的分類數(shù)據(jù)(在以下描述)。換句話說,在查詢分類過程300的后續(xù)迭代期間,種子數(shù)據(jù)庫138可以被在URL分類過程320的較早迭代期間所生成的信息分類數(shù)據(jù)庫134 (或者該數(shù)據(jù)庫的子集)替代。最后,在一些實施例中,信息分類器將所生成的查詢簡檔存儲(310)在查詢簡檔數(shù)據(jù)庫142中。在這些實施例中,如以上結(jié)合圖3A所描述的,傳播過程首先從分類URL的分類數(shù)據(jù)生成查詢簡檔,并接著從所述查詢簡檔生成未分類URL的分類數(shù)據(jù),如以下結(jié)合圖3B所描述的。 在其它實施例中,在生成每個查詢簡檔之后,該查詢簡檔的加權(quán)副本(例如,對應(yīng)于所述查詢簡檔的查詢?nèi)罩居涗浿兴谐龅拿總€搜索結(jié)果的加權(quán)副本)被寫入中間結(jié)果表(720,圖7)中的條目??蛇x地,當不再需要向與相應(yīng)查詢?nèi)罩居涗浵嚓P(guān)聯(lián)的URL傳播信息時,查詢簡檔不被存儲在查詢簡檔數(shù)據(jù)庫中。在這些實施例中,在所有的查詢?nèi)罩居涗浂家呀?jīng)被處理之后,所述中間結(jié)果表中每個URL的條目被聚集以產(chǎn)生已經(jīng)將其充分的分類信息寫入所述中間結(jié)果表的每個URL的相應(yīng)簡檔。這些實施例的控制流程表示在表I中提供。具體地,在第一階段,對每個查詢?nèi)罩居涗涍M行處理以產(chǎn)生查詢簡檔,并接著通過對查詢?nèi)罩居涗浿兴谐龅拿總€URL (或者可替選地,查詢?nèi)罩居涗浿兴谐龅腢RL的所識別主題中的每個URL)在中間結(jié)果表中產(chǎn)生條目來“傳播”所述查詢簡檔。(用于被處理的查詢?nèi)罩居涗浀?在中間結(jié)果表中存儲的每個條目對應(yīng)于查詢記錄中所列出的搜索結(jié)果的特定URL,并且包含所述查詢簡檔的加權(quán)版本。如以上更為詳細解釋的,在對應(yīng)于特定URL和特定查詢的條目中,給予所述查詢簡檔的權(quán)重是基于URL與查詢的相關(guān)度。在第二階段,在中間結(jié)果表已經(jīng)被填充來自查詢?nèi)罩居涗浱幚淼臈l目之后,每個URL的條目被聚集以產(chǎn)生該URL的分類數(shù)據(jù),并且對每個URL所產(chǎn)生的分類數(shù)據(jù)被存儲在分類數(shù)據(jù)庫中。如另外更為詳細解釋的,如果用于URL的條目的數(shù)目小于閾值,或者其它質(zhì)量標準沒有得到滿足,則用于URL的分類數(shù)據(jù)不被生成或者不被存儲在分類數(shù)據(jù)庫中。表IIl 第一階段 Il對于每個查詢?nèi)罩居涗泏通過對查詢?nèi)罩居涗浿辛谐龅腢RL的種子分類數(shù)據(jù)進行聚集來生成查詢簡檔(見圖3A的描述);可選地,查詢簡檔不存儲在查詢簡檔數(shù)據(jù)庫中;對于查詢?nèi)罩居涗浿辛谐龅拿總€URL (可替選地對于查詢?nèi)罩居涗浿辛谐龅腢RL的識別子集中的每個URL) {在中間結(jié)果表中生成條目(以URL為鍵),其是用于查詢?nèi)罩居涗浀牟樵兒啓n的加權(quán)版本(見操作328-5的描述,圖3B);}}// 第二階段 Il對于中間結(jié)果表中的每個不同URL{聚集用于該URL的加權(quán)查詢簡檔以生成用于URL的分類數(shù)據(jù)(見操作328_6的描述,圖3B);將用于URL的分類數(shù)據(jù)存儲在信息分類數(shù)據(jù)庫中(見操作330的描述,圖3B)
} 在任意這些實施例中,為URL生成分類數(shù)據(jù)的過程可以對查詢?nèi)罩居涗浿辛谐龅乃蠻RL執(zhí)行,包括分類和未分類的URL,或者可替選地,該過程可以僅對未分類URL生成分類數(shù)據(jù)(在這樣的情況下,用于分類URL的種子分類數(shù)據(jù)仍然為那些URL的分類數(shù)據(jù))??商孢x地,可以基于各種選擇標準對查詢?nèi)罩居涗浿辛谐龅腢RL的其它子集生成分類數(shù)據(jù)。現(xiàn)在參見圖3B,至少部分基于從查詢?nèi)罩緮?shù)據(jù)庫140檢索(322)的查詢?nèi)罩拘畔⒁约皬牟樵兒啓n數(shù)據(jù)庫142檢索(324)的查詢簡檔,信息分類器136生成/更新(326)通過搜索結(jié)果中找到的URL所識別的頁面的分類數(shù)據(jù)。首先,信息分類器136從查詢?nèi)罩緮?shù)據(jù)庫140識別(328-1)查詢集合以及相應(yīng)的查詢歷史。注意,該查詢集合可以是信息分類器136先前所識別的相同查詢集合,并且每個查詢在查詢簡檔數(shù)據(jù)庫142中具有相關(guān)聯(lián)的查詢簡檔。每個查詢與多個搜索結(jié)果相關(guān)聯(lián),其中ー些被分類(例如,在種子數(shù)據(jù)庫138中具有分類數(shù)據(jù))而ー些則沒有。信息分類器136接著從查詢簡檔數(shù)據(jù)庫142識別(328_2)對應(yīng)于查詢集合的查詢簡檔。這些查詢簡檔被用于生成/更新搜索結(jié)果中找到的至少ー些URL的分類數(shù)據(jù)。如以上所提到的,至少部分地基于對應(yīng)于相同查詢的不同捜索結(jié)果集合中的不同URL的分類數(shù)據(jù)來構(gòu)建查詢簡檔。但是它們的貢獻可以根據(jù)每個URL與特定搜索結(jié)果集合中的查詢的相關(guān)度而發(fā)生變化。如以上所提到的,用于產(chǎn)生查詢簡檔而對URL分類數(shù)據(jù)進行的聚集依據(jù)查詢的搜索結(jié)果中的URL的IR分值、導(dǎo)航率、搜索結(jié)果位置和點擊數(shù)據(jù)而被加以權(quán)重。相互地,URL的分類數(shù)據(jù)可以至少部分地從其中列出URL作為搜索結(jié)果的查詢的簡檔得出。在一些實施例中,這些查詢簡檔對于URL的分類數(shù)據(jù)的貢獻取決于如查詢的搜索結(jié)果位置數(shù)據(jù)和點擊數(shù)據(jù)所指示的URL與每個查詢的相關(guān)度。例如,假設(shè)URL出現(xiàn)在對應(yīng)于兩個不同查詢A和B的捜索結(jié)果中。對于查詢A,URL出現(xiàn)在搜索結(jié)果的頂端并且還被用戶選擇;對于查詢B,相同的URL位于搜索結(jié)果的第五頁并且從未被用戶選擇和觀看。這樣的加權(quán)信息從相應(yīng)的查詢?nèi)罩拘畔⒆R別(328-3)或得出。當確定兩個查詢簡檔對于URL的分類數(shù)據(jù)的貢獻時,假設(shè)與兩個查詢相關(guān)聯(lián)的任何其它加權(quán)因素基本相同,則信息分類器136對它們應(yīng)用(328-4)加權(quán)標準以使得查詢A的簡檔被給予高于查詢B的簡檔的權(quán)重。在一些實施例中,信息分類器136將加權(quán)的查詢簡檔存儲(328-5)在中間結(jié)果表中。對于給定的URL,中間結(jié)果表中的每個條目表示ー個加權(quán)的查詢簡檔對于該URL的分類數(shù)據(jù)的貢獻。在該表中的查詢ID和URL ID之間存在多對多的映射。對于給定查詢ID,可以在表中找到ー組URL ID,每個URL ID對應(yīng)于查詢簡檔的加權(quán)版本。對于給定URLID,能夠在表中找到ー組條目,URL ID出現(xiàn)在其捜索結(jié)果中的每個查詢都有ー個條目。以另ー種方式來講,操作328-5通過以下來執(zhí)行對于日志中的每個查詢,將搜索結(jié)果中每個URL的條目存儲到中間結(jié)果表中;所述條目包括所述查詢的查詢簡檔中的類別列表的加權(quán)版本。對于查詢?nèi)罩局械拿總€查詢重復(fù)該操作,由此在中間結(jié)果表中生成非常大量的條目。接著,通過以下執(zhí)行聚集操作328-6 :對于中間結(jié)果表中的每個不同URL,聚集中間結(jié)果表中的所有條目。在一些實施例中,URL的聚集分類數(shù)據(jù)被規(guī)范化,以使得I)對于不同URL的類別列表中出現(xiàn)的相同類別,它們各自的權(quán)重是可比較的;并且2) URL出現(xiàn)在搜索結(jié)果中的查詢的總數(shù)對于該URL的分類數(shù)據(jù)(類別列表)中的類別權(quán)重的強度影響很小或沒有影響。例如,作為規(guī)范化的結(jié)果,出現(xiàn)在查詢?nèi)罩局械?00個查詢的結(jié)果中的URL的類別權(quán)重總和不低于出現(xiàn)在查詢?nèi)罩局械?00個查詢的結(jié)果中的URL的類別權(quán)重總和。在一些實施例中,如果其中出現(xiàn)URL的查詢的總數(shù)低于預(yù)定閾值,則由于沒有足夠的數(shù)據(jù)來產(chǎn)生充分可靠的URL而不產(chǎn)生該URL的簡檔。注意,查詢權(quán)重或加權(quán)因素與中間結(jié)果表中的每個條目相關(guān)聯(lián),其基于查詢簡檔的總權(quán)重以及條目的URL和查詢之間的鏈接強度。當對相應(yīng)URL的分類數(shù)據(jù)進行聚集(328-6)時,在確定URL簡檔222中的類別的最終權(quán)重229 (圖2C)吋,對 應(yīng)于URL的表條目的查詢權(quán)重總和被用作規(guī)范化因數(shù)(例如,作為除數(shù))。 此外,在一些實施例中,當通過聚集操作328-6所產(chǎn)生的相應(yīng)URL的類別228 (圖2C)的列表包含多于預(yù)定數(shù)量的不同類別時,該列表被截短或過濾從而在排除掉最低權(quán)重的類別ID的同時保留具有未過濾類別列表中的類別的總權(quán)重的至少預(yù)定百分比(例如,90% )的最高權(quán)重的類別ID。在聚集操作328-6完成時,用于每個URL的分類數(shù)據(jù)被存儲(330)在信息分類數(shù)據(jù)庫134中。如以上所解釋的(見表I以及表I所示的控制流程的描述),在一些實施例中,以逐個查詢記錄為基礎(chǔ)來執(zhí)行以上所提到的將分類數(shù)據(jù)從分類URL傳播到未分類URL的過程,而不產(chǎn)生查詢簡檔數(shù)據(jù)庫。在一些實施例中,與查詢記錄相關(guān)聯(lián)的查詢詞語的數(shù)目也被納入到加權(quán)以及分類數(shù)據(jù)從查詢簡檔到相應(yīng)查詢記錄的捜索結(jié)果中所列出的URL的傳播的因素之中。通常,查詢具有的詞語越多,查詢就更加特定,并且搜索結(jié)果關(guān)于主題性就更為集中。相反,查詢所具有的詞語越少,該查詢就越模糊并且搜索結(jié)果就更加可能包括關(guān)于不同主題的結(jié)果。例如,對應(yīng)于“jaguar(美洲虎)”的單個詞語的查詢的搜索結(jié)果包括http://www. jaguar,com/global/default, htm,這是Jaguar品牌的豪華汽車的官方網(wǎng)站,并且包括http://en. wikipedia. org/wiki/Jaguar,這是與被稱作美洲虎的大型貓科動物相關(guān)的維基百科網(wǎng)頁。與之相比,對應(yīng)于兩個詞語的查詢“jaguar car”的搜索結(jié)果仍然包括Jaguar品牌豪華汽車的官方網(wǎng)站。但是這些搜索結(jié)果將不包括與被稱作美洲虎的大型貓科動物相關(guān)的網(wǎng)頁,但是相反會包括與汽車的Jaguar品牌相關(guān)的其它搜索結(jié)果,諸如http://en. wikipedia. org/wiki/Jaguar_Cars,這是與Jaguar汽車品牌的歷史相關(guān)的維基百科網(wǎng)頁。在一些實施例中,查詢的分類數(shù)據(jù)(也被稱作查詢簡檔)對于查詢的搜索結(jié)果中所列出的URL的分類數(shù)據(jù)的貢獻依據(jù)該查詢中的查詢詞語的數(shù)目而被加以權(quán)重。例如,一個單詞(或者以ー些亞洲語言的一個字符)的查詢的臨時分類數(shù)據(jù)被給予最低權(quán)重。查詢所具有的單詞或字符越多,對其分類數(shù)據(jù)所分配的權(quán)重就越高。因此,關(guān)于特定查詢,在該查詢包含多個詞語時,在中間結(jié)果表中用于特定URL的條目將具有該查詢的分類數(shù)據(jù)的較高權(quán)重的副本,并且在該查詢僅包含單個詞語時將具有該查詢的分類數(shù)據(jù)的較低權(quán)重的副本。根據(jù)特定語言,查詢長度在對分類數(shù)據(jù)加權(quán)中的角色在其達到最小閾值(例如,英語和其它ー些語言中的兩個或三個單詞)時變得較不重要。查詢的模糊性或特定性的其它量度包括相應(yīng)分類數(shù)據(jù)的分布。對于例如“jaguarcar”的特定查詢,捜索結(jié)果的大部分(如果不是全部)應(yīng)當被限制為ー個主題,即豪華汽車品牌。結(jié)果,從相應(yīng)捜索結(jié)果的分類數(shù)據(jù)所得出的該查詢的臨時分類數(shù)據(jù)將集中于相同的主題。與之相比,如“ jaguar”的較不特定的查詢應(yīng)當看到分類數(shù)據(jù)分布在至少兩個主題上,即豪華汽車品牌和大型貓科動物。另ー種度量查詢的模糊性或特定性的方式是檢查搜索結(jié)果中的URL的分類數(shù)據(jù)的關(guān)聯(lián),例如通過對URL的成對余弦相似度求平均。以另ー種方式來講,捜索結(jié)果的平均余弦相似度對應(yīng)于捜索查詢的特定性水平(或者作為其量度)。例如,捜索結(jié)果的平均余弦相似度在捜索結(jié)果彼此非常相似時(例如,大多數(shù)結(jié)果涉及單個主要主題)為高,這指示捜索查詢具有高度的特定性。捜索結(jié)果越多祥化,平均余 弦相似度就越小,這指示捜索查詢具有低特定性。類似用戶的瀏覽歷史,用戶的搜索歷史(諸如用戶所提交的查詢以及用戶所選擇的捜索結(jié)果)也是對用戶的搜索興趣建立簡檔的良好源。圖3C是圖示基于用戶所選擇的捜索結(jié)果URL的分類數(shù)據(jù)構(gòu)建用戶簡檔的示例性過程340的流程圖。至少部分基于從查詢?nèi)罩緮?shù)據(jù)庫140檢索(342)的查詢?nèi)罩拘畔⒁约皬男畔⒎诸悢?shù)據(jù)庫134檢索(344)的分類數(shù)據(jù),信息分類器136從查詢?nèi)罩緮?shù)據(jù)庫140識別(348-1)相應(yīng)用戶所提交的查詢集合以及相應(yīng)的查詢歷史。從所述查詢歷史,信息分類器136識別(348-2)用戶所選擇的搜索結(jié)果以及相應(yīng)的URL。對于每個URL,信息分類器從數(shù)據(jù)庫134識別(348-4)其分類數(shù)據(jù)。在一些實施例中,信息分類器136將用戶所選擇的搜素結(jié)果URL的分類數(shù)據(jù)聚集(348-5)到用戶簡檔中。注意,在對URL的分類數(shù)據(jù)進行聚集時可以使用不同的加權(quán)或過濾標準。例如,在一些實施例中,URL被用戶選擇的頻率被納入URL的分類數(shù)據(jù)的權(quán)重的因素。在一些實施例中,當兩個URL具有相似的用戶點擊數(shù)時,用戶已經(jīng)對其證實了持久興趣(例如,ー個月內(nèi)大約平均傳播了 N次用戶點擊)的URL的分類數(shù)據(jù)在確定用戶簡檔時被給予比類似的用戶點擊數(shù)集中在短時間段中(例如,ー兩個小時)的URL更大的權(quán)重。在一些實施例中,還考慮查詢的時間新近度(recency),以使得與較為新近的查詢相關(guān)聯(lián)的URL的分類數(shù)據(jù)被給予比與較久遠的查詢相關(guān)聯(lián)的URL的分類數(shù)據(jù)更高的權(quán)重。在一些實施例中,在對用戶建立簡檔時還考慮特定集群或類別的重要性。例如,包括用戶的個體組的共同集群或類別對于確定用戶興趣的幫助較小并且應(yīng)當被給予比更為不同的集群或類別更低的權(quán)重。所產(chǎn)生的用戶簡檔接著被信息服務(wù)器系統(tǒng)130用來為用戶提供個性化服務(wù)。例如,響應(yīng)于來自用戶的查詢,搜索引擎126識別搜索結(jié)果集合并且所述搜索結(jié)果最初通過其與查詢的相關(guān)度進行排序。在向進行請求的用戶返回捜索結(jié)果之前,查詢處理器124能夠通過將每個捜索結(jié)果的分類數(shù)據(jù)與用戶簡檔相比較來對捜索結(jié)果進行重新排序。如果均被表達為稀疏矢量,則可以通過計算兩個矢量的余弦或點積來確定所述比較。捜索結(jié)果接著至少部分基于它們的點積而被重新排序,并且接著被傳送到請求用戶的客戶端設(shè)備104,以便在客戶端設(shè)備104向請求用戶進行顯示。在一些實施例中,信息分類器136還識別(348-3)用戶所提交的查詢的查詢簡檔,并且將查詢簡檔和用戶所選擇的URL的分類數(shù)據(jù)聚集(348-5)在用戶簡檔中并且將所產(chǎn)生的用戶簡檔存儲(350)在數(shù)據(jù)庫132中。注意,以上參考圖3A、3B和3C所描述的三種方法中的任ー種都可以是迭代過程。信息分類器以種子數(shù)據(jù)庫138中有限數(shù)目的URL的分類數(shù)據(jù)作為開始并且將所述分類數(shù)據(jù)傳播到查詢簡檔集合、那些未分類URL的分類數(shù)據(jù)以及用戶簡檔集合中。如圖3A-3C所示,歷史查詢信息在對查詢、URL或用戶建立簡檔時扮演重要角色。傳播分類數(shù)據(jù)的過程是進行中的過程,隨時間重復(fù)或更新,原因在于查詢?nèi)罩緮?shù)據(jù)庫持續(xù)累積新的查詢?nèi)罩拘畔ⅰP碌牟樵儦v史不僅提供更多數(shù)據(jù)點來精化URL的分類數(shù)據(jù),而且保持了對許多用戶的搜索興趣的動態(tài)方面的追蹤。
在一些實施例中,信息分類器136重復(fù)以上所描述的過程以更新查詢簡檔數(shù)據(jù)庫142、信息分類數(shù)據(jù)庫134和用戶簡檔數(shù)據(jù)庫132中的ー個或多個。在一些實施例中,選擇信息分類數(shù)據(jù)庫134的子集作為新的種子數(shù)據(jù)庫138來傳播分類數(shù)據(jù)。在一些實施例中,信息分類種子數(shù)據(jù)庫138由另ー種集群方法生成。在一些實施例中,在開始傳播新ー輪的分類數(shù)據(jù)之前,信息分類器136可以刷新查詢簡檔數(shù)據(jù)庫142、信息分類數(shù)據(jù)庫134或用戶簡檔數(shù)據(jù)庫142,以使得不保存遺留的分類數(shù)據(jù)。在一些其它實施例中,如果這些數(shù)據(jù)記錄被視為仍然可靠和有用,則信息分類器136可以保留查詢簡檔數(shù)據(jù)庫142、信息分類數(shù)據(jù)庫134或用戶簡檔數(shù)據(jù)庫132中的數(shù)據(jù)記錄的至少子集。在一些實施例中,如果與網(wǎng)站相關(guān)聯(lián)的網(wǎng)頁的至少子集的分類數(shù)據(jù)是已知的,則以上所提到的方法可以被用來對網(wǎng)站建立簡檔。這可以通過不同網(wǎng)頁的分類數(shù)據(jù)的直接聚集來實現(xiàn)??商孢x地或除此之外,不同網(wǎng)頁的分類數(shù)據(jù)依據(jù)它們在網(wǎng)站層級中的相應(yīng)位置以及相應(yīng)網(wǎng)頁在特定時間段期間的流行度或用戶使用數(shù)據(jù)被加以權(quán)重。以另ー種方式來講,在對網(wǎng)頁分類數(shù)據(jù)進行聚集以產(chǎn)生網(wǎng)站的簡檔時,可以依據(jù)以下對網(wǎng)站內(nèi)的網(wǎng)頁的分類給予權(quán)重1)網(wǎng)站的網(wǎng)頁上的用戶點擊數(shù),或者2)網(wǎng)頁和網(wǎng)站主頁之間的指示器(director)水平的數(shù)目,或者其二者。在一些實施例中,與網(wǎng)站的大部分網(wǎng)頁相關(guān)聯(lián)的集群或類別被給予比與網(wǎng)站的小部分網(wǎng)頁相關(guān)聯(lián)的集群或類別相對更高的權(quán)重。在一些其它實施例中,網(wǎng)站(例如,en. wikipedia. com)中至少最小數(shù)量的網(wǎng)頁之間缺少至少ー個共同集群或類別可以防止該網(wǎng)站被分類。圖3D是圖示依據(jù)ー些實施例的使用其它信息項的分類數(shù)據(jù)對信息項進行分類的示例的框圖。出于說明的目的,歷史查詢信息350包括兩個用戶所提交的查詢Ql和Q2。但是在現(xiàn)實中,大量查詢?nèi)罩緱l目被存儲在查詢?nèi)罩緮?shù)據(jù)庫140中,每個查詢?nèi)罩緱l目對應(yīng)于用戶在特定會話期間所提交的查詢。包括ー個或多個查詢詞語的查詢具有相應(yīng)的查詢結(jié)果集合和用戶使用數(shù)據(jù)。為了簡要,兩個查詢Ql和Q2中的每ー個與三個網(wǎng)頁A、B和C相關(guān)聯(lián),每個網(wǎng)頁具有指示該網(wǎng)頁與相應(yīng)查詢的相關(guān)度的權(quán)重因數(shù)W。如以上所解釋的,所述權(quán)重因數(shù)會受到相應(yīng)網(wǎng)頁的內(nèi)容、其在互聯(lián)網(wǎng)上的流行度以及諸如閃現(xiàn)、位置和點進之類的相關(guān)聯(lián)用戶使用數(shù)據(jù)影響。在該示例中,假設(shè)所述三個網(wǎng)頁中的兩個A和B已經(jīng)被分類并且其相應(yīng)的分類數(shù)據(jù)可以在種子分類數(shù)據(jù)360中找到。雖然作為搜索結(jié)果的一部分,但是網(wǎng)頁C在種子分類數(shù)據(jù)360中沒有相關(guān)聯(lián)的分類數(shù)據(jù)。但是網(wǎng)頁C與網(wǎng)頁A和B —起出現(xiàn)在與Ql和Q2的捜索結(jié)果中的事實建議了可能至少基于網(wǎng)頁A和B的種子分類數(shù)據(jù)來預(yù)測網(wǎng)頁C的分類數(shù)據(jù)。在一些實施例中,該預(yù)測的第一歩驟是為Ql和Q2構(gòu)建分類數(shù)據(jù)或簡檔,其在此有時被稱作種子分類數(shù)據(jù)的傳播。如圖3D所示,兩個查詢簡檔370 QP_1和QP_2被定義為所述兩個網(wǎng)頁經(jīng)相應(yīng)權(quán)重因數(shù)調(diào)整的分類的函數(shù)。該預(yù)測的第二步驟是通過將兩個查詢簡檔投影到網(wǎng)頁C的分類數(shù)據(jù)的域中為未分類的網(wǎng)頁C構(gòu)建分類數(shù)據(jù)。由于兩個加權(quán)因數(shù)Wl (C)和W2(C)至少在ー些方面指示網(wǎng)頁C與所述兩個查詢的相關(guān)度,所以這些權(quán)重因數(shù)被用來 確定相應(yīng)查詢簡檔對于網(wǎng)頁C的分類數(shù)據(jù)的貢獻。應(yīng)當注意的是,圖中以及貫穿說明書的任意地方的數(shù)學(xué)表達式僅是為了說明的目的。如以上結(jié)合圖3A所描述的,還存在其它方式對網(wǎng)頁A和B的分類數(shù)據(jù)在其各自對查詢簡檔的構(gòu)成方面的貢獻進行聚集和加權(quán),并且也還有其它的方式對查詢簡檔QP_1和QP_2的分類數(shù)據(jù)在其各自對網(wǎng)頁C的分類數(shù)據(jù)的貢獻方面進行聚集和加權(quán)。應(yīng)當注意的是,典型查詢的捜索結(jié)果對應(yīng)于數(shù)百或者甚至數(shù)千個網(wǎng)頁,并且在由不同用戶提交或者甚至由相同用戶在不同時間提交時,相同的查詢會具有稍微不同的捜索結(jié)果集合。通過相同的標志,相同的網(wǎng)頁可以出現(xiàn)在對應(yīng)于不同用戶所提交的查詢的不同捜索結(jié)果集合中并且能夠獲得不同的用戶響應(yīng)。圖3D中所示的示例,即兩個查詢簡檔中的每ー個從兩個網(wǎng)頁的分類數(shù)據(jù)生成并且網(wǎng)頁C的分類數(shù)據(jù)從兩個查詢簡檔生成,僅是用于說明。在一些實施例中,給定查詢和網(wǎng)頁之間多對多關(guān)系的屬性,信息分類器僅使用網(wǎng)頁子集的分類數(shù)據(jù)來構(gòu)建查詢簡檔或者使用加權(quán)因數(shù)來使得一個子集優(yōu)先于另ー個子集。例如,如果網(wǎng)頁針對其出現(xiàn)在相應(yīng)搜索結(jié)果中的查詢的數(shù)目低于預(yù)定極限,則該網(wǎng)頁可以在傳播分類數(shù)據(jù)時被跳過。類似地,信息分類器可以僅考慮查詢子集的簡檔來估計未分類網(wǎng)頁的分類數(shù)據(jù),或者可以依據(jù)預(yù)定的啟發(fā)式算法而使得一個子集的權(quán)重高于另ー個子集。例如,分類數(shù)據(jù)從分類網(wǎng)頁向未分類網(wǎng)頁的傳播可以被限制為特定查詢。在一些其它實施例中,傳播的范圍可以被擴展以覆蓋例如相同會話內(nèi)的不同查詢,或者相同用戶所進行的不同會話,或者相同用戶組所進行的不同查詢。圖4是圖示依據(jù)ー些實施例的用于使用用戶簡檔和分類數(shù)據(jù)處理查詢并且對相應(yīng)查詢結(jié)果進行排序的示例性過程400的框圖。Web門戶服務(wù)器402通過查詢?nèi)肟诮鹰砘蜻^程404接收查詢,并且向進行請求的客戶端104發(fā)送結(jié)果信息(其例如可以通過結(jié)果頁面組合過程或模塊406被格式化為網(wǎng)頁)以便在客戶端104進行顯示。所接收的請求由搜索引擎405進行處理以產(chǎn)生與查詢420相匹配或以其它方式滿足查詢420的捜索結(jié)果的集合422。搜索引擎405可以包括一個或多個查詢處理模塊或過程408,其控制或監(jiān)瞀對搜索索引分區(qū)412的集合搜索文檔或者與查詢420相匹配的其它搜索結(jié)果。搜索結(jié)果的列表被搜索引擎返回422,并且該列表中的捜索結(jié)果接著根據(jù)進行請求的用戶的相應(yīng)用戶簡檔(來自用戶簡檔數(shù)據(jù)庫132)和捜索結(jié)果的分類數(shù)據(jù)(來自信息分類數(shù)據(jù)庫134)進行排序410。包括所排序的捜索結(jié)果的結(jié)果信息被轉(zhuǎn)發(fā)到結(jié)果頁面組合模塊406以便轉(zhuǎn)換為適于發(fā)送到進行請求的客戶端的格式(例如,網(wǎng)頁或XML文檔)。在一些實施例中,搜索引擎405包含用于執(zhí)行過程400的所有系統(tǒng)組件。圖5A是圖示依據(jù)ー些實施例的用于生成分類數(shù)據(jù)并且使用所述分類數(shù)據(jù)提供定制服務(wù)的示例性過程500的流程圖。就某個程度而言,該過程500是以上結(jié)合圖3A-3C所単獨描述的三個過程的概括。在服務(wù)器系統(tǒng)處,過程訪問(502)查詢的歷史查詢信息以及它們相關(guān)聯(lián)的搜索結(jié)果。例如,所述歷史查詢信息可以對應(yīng)于查詢?nèi)罩緮?shù)據(jù)庫中存儲的查詢歷史。ー些搜索結(jié)果對應(yīng)于最初被分類的信息項而其它對應(yīng)于最初未分類的信息項。為了簡明,最初被分類的信息項被稱作“第一信息項”,而最初未分類的信息項被稱作“第二信息項”。從信息分類種子數(shù)據(jù)庫,該過程訪問第一信息項的分類數(shù)據(jù)。使用所述歷史查詢信息和種子分類數(shù)據(jù),該過程生成(504)第二信息項的分類數(shù)據(jù)并且將所生成的分類數(shù)據(jù)存儲(506)在諸如圖I的信息分類數(shù)據(jù)庫134的服務(wù)器系統(tǒng)中。 在一些實施例中,為了對最初未分類的信息項生成分類數(shù)據(jù),該過程生成識別(504-1)歷史查詢信息中的查詢集合。查詢的至少子集每ー個具有對應(yīng)于最初未分類的信息項的相關(guān)聯(lián)的捜索結(jié)果。該過程接著基于第一信息項的分類數(shù)據(jù)以及查詢集合的歷史查詢信息為姆個查詢生成(504-2)分類數(shù)據(jù)或查詢簡檔。在一些實施例中,對于每個查詢,所述過程識別對應(yīng)于查詢的搜索結(jié)果集合以及對應(yīng)于捜索結(jié)果集合的第一信息項的集合(例如,圖3A的308-1)。接下來,該過程依據(jù)諸如它們的相應(yīng)預(yù)定義信息檢索分值、它們相對應(yīng)的搜索結(jié)果在搜索結(jié)果集合中的位置以及表示用戶與相對應(yīng)搜索結(jié)果的交互的信息對所識別的第一信息項的分類數(shù)據(jù)進行加權(quán)(例如,圖3A的308-2)。最后,該過程對所識別的第一信息項的加權(quán)分類數(shù)據(jù)進行聚集以生成查詢的分類數(shù)據(jù),也被稱作其查詢簡檔(例如,圖3A的308-3)。使用所識別的查詢的查詢簡檔以及查詢的歷史查詢信息,該過程對最初未分類的信息項生成(504-3)分類數(shù)據(jù)。在一些實施例中,這包括識別查詢集合(例如,圖3B的328-1)以及從查詢簡檔數(shù)據(jù)庫檢索相應(yīng)的查詢簡檔(例如,圖3B的328-2)。對于每個查詢,該過程識別對應(yīng)于查詢的搜索結(jié)果集合(例如,圖3B的328-3)。所述搜索結(jié)果集合包括至少ー個與最初未分類的信息項相對應(yīng)的搜索結(jié)果。接下來,該過程依據(jù)諸如(如捜索引擎126在處理查詢以生成捜索結(jié)果時所生成的)最初未分類信息項的信息檢索分值,其在捜索結(jié)果集合中相對應(yīng)的捜索結(jié)果位置以及用戶與相應(yīng)搜索結(jié)果的交互(如果有的話)之類的信息對查詢的分類數(shù)據(jù)或查詢簡檔進行加權(quán)(例如,圖3B的328-4)。最后,該過程對查詢的加權(quán)分類數(shù)據(jù)進行聚集以對最初未分類的(第二)信息項生成分類數(shù)據(jù)(有時稱作URL簡檔)(例如,圖3B的328-6)。還可以執(zhí)行相同的過程來為最初已分類的(第一)信息項生成新的分類信息。在為第一和第二信息項構(gòu)建分類數(shù)據(jù)之后,該過程能夠使用服務(wù)器系統(tǒng)中所存儲的相應(yīng)分類數(shù)據(jù)向多個客戶端設(shè)備提供(508)與第一和/或第二信息項相關(guān)聯(lián)的定制服務(wù)。在一些實施例中,該過程使用第一和第二信息項的分類數(shù)據(jù)生成(508-1)用戶簡檔。響應(yīng)于來自客戶端設(shè)備的用戶對于服務(wù)的請求,該過程使用用戶簡檔和相應(yīng)分類數(shù)據(jù)定制(508-2)所請求的服務(wù)。為了生成用戶簡檔,該過程首先在歷史查詢信息和相應(yīng)的搜索結(jié)果中識別用戶所提交的查詢集合(例如,圖3C的348-1、348-2)。所述搜索結(jié)果對應(yīng)于第一和第二信息項中的ー個或多個。該過程接著識別用戶所選擇的信息項的分類數(shù)據(jù)并且對用戶所選擇的信息項的分類數(shù)據(jù)進行聚集(例如,圖3C的348-4、348-5)。在一些實施例中,該過程響應(yīng)于服務(wù)請求執(zhí)行獨立于用戶的服務(wù)。該獨立于用戶的服務(wù)生成包括第一和第二信息項中的一個或多個的初始結(jié)果。對于該初始結(jié)果中的每個信息項,該過程通過將信息項的分類數(shù)據(jù)與用戶簡檔相比較來確定分值,并且接著依據(jù)它們各自的分值對初始結(jié)果中的信息項進行重新排序,從而生成定制結(jié)果。可以定制的示例性服務(wù)包括個性化捜索、面向定向的廣告或活動、以及在線社交網(wǎng)絡(luò)中的個體匹配等,但是不局限于此。圖5B是圖示依據(jù)ー些實施例的用于使用用戶的用戶簡檔和分類數(shù)據(jù)為(與信息服務(wù)器系統(tǒng)遠程定位的)遠程客戶端設(shè)備的用戶提供個性化捜索結(jié)果的示例過程的流程圖。在從相應(yīng)客戶端設(shè)備處的用戶接收到查詢之后(532),該過程首先識別對應(yīng)于所述查詢 的捜索結(jié)果集合(534)。至少ー個捜索結(jié)果與第二信息項中的ー個相關(guān)聯(lián)。該過程訪問信息分類數(shù)據(jù)庫以獲得用于搜索結(jié)果的分類數(shù)據(jù)(536)。用于相應(yīng)捜索結(jié)果的分類數(shù)據(jù)識別與相應(yīng)搜索結(jié)果相關(guān)的ー個或多個類別(536-1)。接下來,該過程通過將其分類數(shù)據(jù)與用戶簡檔相比較確定捜索結(jié)果的分值(538-1)并且依據(jù)所確定的分值將所述搜索結(jié)果關(guān)于其它搜索結(jié)果進行排序(538)。最后,該過程向客戶端設(shè)備發(fā)送表示經(jīng)排序捜索結(jié)果的至少子集的信息以便在客戶端設(shè)備進行顯示(540)。圖6是依據(jù)一些實施例的客戶端設(shè)備600的框圖。設(shè)備600通常包括ー個或多個處理單元(CPU) 602、一個或多個網(wǎng)絡(luò)或者其它通信接ロ 610、存儲器612,以及用于對這些組件進行互連的ー個或多個通信總線614。所述通信總線614可以包括對系統(tǒng)組件之間的通信進行互連和控制的電路(有時被稱作芯片組)??蛻舳嗽O(shè)備600可選地可以包括用戶接ロ 605,例如顯示器和鍵盤。存儲器612可以包括高速隨機存取存儲器,諸如DRAM、SRAM、DDR RAM或其它隨機存取固態(tài)存儲器設(shè)備;并且還可以包括非易失性存儲器,諸如ー個或多個磁盤存儲設(shè)備、光盤存儲設(shè)備、閃存設(shè)備或者其它非易失性固態(tài)存儲設(shè)備。存儲器612可以包括與中央處理單元602遠程定位的大型存儲。存儲器612或者可替選地為存儲器612內(nèi)的非易失性存儲器設(shè)備包括計算機可讀存儲介質(zhì)。存儲器612或者存儲器612的計算機可讀存儲介質(zhì)存儲以下元素或者這些元素的子集,并且還可以包括另外的元素 包括用于處理各種基本系統(tǒng)服務(wù)并且執(zhí)行獨立于硬件的任務(wù)的過程的操作系統(tǒng)616 ; 用于經(jīng)由ー個或多個(有線或無線)通信網(wǎng)絡(luò)將客戶端104連接到其它服務(wù)器或計算機的網(wǎng)絡(luò)通信模塊618,所述通信網(wǎng)絡(luò)諸如互聯(lián)網(wǎng)、其它廣域網(wǎng)、局域網(wǎng)和城域網(wǎng)等; 客戶端應(yīng)用620,諸如瀏覽器;和 客戶端助理108(例如,工具條、瀏覽器插件),用于監(jiān)視用戶的活動;在ー些實施例中,所述客戶端助理或其部分可以被嵌入響應(yīng)于查詢而返回到客戶端的相應(yīng)搜索結(jié)果網(wǎng)頁中。
圖7是圖示依據(jù)ー些實施例的信息服務(wù)器系統(tǒng)700的框圖。系統(tǒng)700總體上包括ー個或多個處理單元(CPU) 702、一個或多個網(wǎng)絡(luò)或其它通信接ロ 710、存儲器712以及用于對這些組件進行互連的ー個或多個通信總線714。系統(tǒng)700可選地可以包括用戶接ロ,包括顯示設(shè)備和鍵盤。存儲器712可以包括高速隨機存取存儲器,諸如DRAM、SRAM、DDR RAM或其它隨機存取固態(tài)存儲器設(shè)備;并且還可以包括非易失性存儲器,諸如ー個或多個磁盤存儲設(shè)備、光盤存儲設(shè)備、閃存設(shè)備或者其它非易失性固態(tài)存儲設(shè)備。存儲器712可以可選地包括與CPU 702遠程定位的一個或多個存儲設(shè)備。存儲器712或者可替選地為存儲器712內(nèi)的非易失性存儲器設(shè)備包括計算機可讀存儲介質(zhì)。存儲器712或者存儲器712的計算機可讀存儲介質(zhì)存儲以下元素或者這些元素的子集,并且還可以包括另外的元素 包括用于處理各種基本系統(tǒng)服務(wù)并且執(zhí)行獨立于硬件的任務(wù)的過程的操作系統(tǒng)716 用于經(jīng)由ー個或多個(有線或無線)通信網(wǎng)絡(luò)接ロ 710以及ー個或多個通 信網(wǎng)絡(luò)將信息服務(wù)器系統(tǒng)130連接到其它計算機的網(wǎng)絡(luò)通信模塊718,所述通信網(wǎng)絡(luò)諸如互聯(lián)網(wǎng)、其它廣域網(wǎng)、局域網(wǎng)和城域網(wǎng)等; 用于處理查詢的搜索引擎126 ; 用于處理與用戶簡檔相關(guān)的數(shù)據(jù)并且可選地用于構(gòu)建和/或更新用戶簡檔的用戶簡檔管理器128; 用于構(gòu)建和維護分類數(shù)據(jù)的信息分類器136 ; 用于根據(jù)捜索結(jié)果的分類數(shù)據(jù)和用戶簡檔信息對搜索結(jié)果進行排序的查詢處理器 124 ; 用于存儲用戶簡檔信息的用戶簡檔數(shù)據(jù)庫132 ; 用于存儲用戶歷史查詢信息的查詢?nèi)罩緮?shù)據(jù)庫140 ; 用于存儲分類數(shù)據(jù)的信息分類數(shù)據(jù)庫134 ;在ー些實施例中,數(shù)據(jù)庫134還包括種子分類數(shù)據(jù),而在其它實施例中,在服務(wù)器系統(tǒng)700的存儲器中存儲單獨的種子分類數(shù)據(jù)庫138 ; 用于存儲用戶所提交的查詢的分類數(shù)據(jù)(或簡檔)的查詢簡檔數(shù)據(jù)庫142 ;和 中間結(jié)果表720。以上所識別的每個元素可以被存儲在ー個或多個先前所提到的存儲器設(shè)備中,并且對應(yīng)于用于執(zhí)行以上所描述的功能的指令集合。以上所識別的模塊或程序(即,指令集合)無需被實現(xiàn)為単獨的軟件程序、過程或模塊,并且這些模塊的各種子集在各個實施例中可以被組合或以另外的方式重新安排。例如,圖7所示的一些模塊和/或數(shù)據(jù)庫可以被包含在搜索引擎126內(nèi)。在一些實施例中,存儲器612和712可以存儲以上所識別的模塊和數(shù)據(jù)結(jié)構(gòu)的子集。此外,存儲器612和712可以存儲以上沒有描述的另外的模塊和數(shù)據(jù)結(jié)構(gòu)。圖6和圖7更意在作為客戶端系統(tǒng)和服務(wù)器系統(tǒng)的各種特征的功能性描述而并不是這里所描述實施例的結(jié)構(gòu)性示意。在實踐中,并且如本領(lǐng)域技術(shù)人員所認識到的,単獨示出的項目可以進行組合并且ー些項目可以被分離。例如,在圖7中単獨示出的一些項目可以被實現(xiàn)在單個服務(wù)器上,而單個項目可以由ー個或多個服務(wù)器來實現(xiàn)。例如,信息分類器136可以被實現(xiàn)在與服務(wù)器系統(tǒng)700的其它組件不同的服務(wù)器集合上。用來實現(xiàn)服務(wù)器系統(tǒng)700的服務(wù)器的實際數(shù)目以及特征如何在它們之間進行分配將隨實施方式而變化,并且可以部分地根據(jù)系統(tǒng)在高峰使用期間以及平均使用期間所必須處理的數(shù)據(jù)業(yè)務(wù)量而變化。出于解釋的目的,已經(jīng)參考特定實施例對以上描述進行了描述。然而,以上的說明性討論并非意在是窮舉的或者將本發(fā)明限制為所公開的確切形式??赡荑b于以上教導(dǎo)而進行許多修改和變化。所選擇和描述的實施例是為了對本發(fā)明的 原理及其實際應(yīng)用進行最佳解釋,并且由此使得本領(lǐng)域技術(shù)人員能夠利用適合于特定預(yù)期用途的各種修改最佳地利用本發(fā)明以及各個實施例。
權(quán)利要求
1.一種計算機實現(xiàn)的方法,包括 在具有一個或多個處理器以及存儲器的服務(wù)器系統(tǒng)處, 分別訪問用于具有對應(yīng)于第一信息項和第二信息項的搜索結(jié)果的查詢的歷史查詢信息,其中所述第一信息項最初被分類而所述第二信息項最初未被分類; 訪問所述第一信息項的分類數(shù)據(jù); 基于所述第一信息項的所述分類數(shù)據(jù)以及所述歷史查詢信息為所述第二信息項生成分類數(shù)據(jù); 將所生成的分類數(shù)據(jù)存儲在所述服務(wù)器系統(tǒng)中;以及 使用存儲在所述服務(wù)器系統(tǒng)中的相對應(yīng)分類數(shù)據(jù)向多個客戶端設(shè)備提供與所述第二信息項相關(guān)聯(lián)的定制服務(wù)。
2.如權(quán)利要求I所述的計算機實現(xiàn)的方法,其中為最初未分類的信息項生成分類數(shù)據(jù)包括 識別所述歷史查詢信息中的查詢集合,其中所述查詢的至少子集均具有與所述最初未分類的信息項相對應(yīng)的相關(guān)聯(lián)搜索結(jié)果; 基于所述第一信息項的所述分類數(shù)據(jù)以及所述查詢集合的所述歷史查詢信息為所述查詢集合生成分類數(shù)據(jù);以及 通過將所述查詢子集的所生成的分類數(shù)據(jù)進行組合而生成所述最初未分類的信息項的分類數(shù)據(jù),所述查詢子集中的每一個具有與所述最初未分類的信息項相對應(yīng)的相關(guān)聯(lián)搜索結(jié)果。
3.如權(quán)利要求2所述的計算機實現(xiàn)的方法,進一步包括 更新所述歷史查詢信息;以及 重復(fù)進行下述步驟在所述歷史查詢信息中識別查詢、對所述查詢生成分類數(shù)據(jù)、以及使用經(jīng)更新的歷史查詢信息為所述最初未分類的信息項生成分類數(shù)據(jù)。
4.如權(quán)利要求2或3所述的計算機實現(xiàn)的方法,其中為所述查詢集合生成分類數(shù)據(jù)包括 對于所述查詢的至少子集中的每一個, 識別與該查詢相對應(yīng)的搜索結(jié)果的集合以及與該搜索結(jié)果的集合相對應(yīng)的所述第一信息項的集合; 依據(jù)它們的相應(yīng)預(yù)定義的信息檢索分值、它們的相對應(yīng)搜索結(jié)果在該搜索結(jié)果的集合中的位置以及與相對應(yīng)搜索結(jié)果的用戶交互信息對所識別的第一信息項的分類數(shù)據(jù)進行加權(quán);以及 將所識別的第一信息項的加權(quán)分類數(shù)據(jù)聚集為所述查詢的分類數(shù)據(jù)。
5.如權(quán)利要求2或3所述的計算機實現(xiàn)的方法,其中為最初未分類的信息項生成分類數(shù)據(jù)包括 對于所述查詢子集中的每一個, 識別與所述查詢相對應(yīng)的搜索結(jié)果的集合,其中所述搜索結(jié)果的集合包括與所述最初未分類的信息項相對應(yīng)的至少一個搜索結(jié)果; 依據(jù)所述最初未分類的信息項的預(yù)定義的信息檢索分值、其相對應(yīng)搜索結(jié)果在所述搜索結(jié)果集合中的位置以及與相對應(yīng)搜索結(jié)果的用戶交互信息對所述查詢的分類數(shù)據(jù)進行加權(quán);以及 將所述查詢子集的加權(quán)分類數(shù)據(jù)聚集為所述最初未分類的信息項的分類數(shù)據(jù)。
6.如權(quán)利要求1-5中任一項所述的計算機實現(xiàn)的方法,其中所述歷史查詢信息包括用于用戶群體所提交的查詢的歷史查詢信息。
7.如權(quán)利要求1-6中任一項所述的計算機實現(xiàn)的方法,其中提供定制服務(wù)包括 從相應(yīng)客戶端設(shè)備處的用戶接收查詢,其中所述用戶具有相關(guān)聯(lián)的用戶簡檔;并且 通過以下步驟對所述查詢進行響應(yīng) 識別與所述查詢相對應(yīng)的搜索結(jié)果的集合,其中所述搜索結(jié)果中的一個與所述第二信 息項中的一個相關(guān)聯(lián); 通過將所述第二信息項的所存儲的分類數(shù)據(jù)與所述用戶簡檔相比較來確定所述搜索結(jié)果的分值; 依據(jù)所確定的分值將所述搜索結(jié)果關(guān)于其它搜索結(jié)果進行排序;以及 向所述客戶端設(shè)備提供表示至少經(jīng)排序的搜索結(jié)果的數(shù)據(jù)。
8.如權(quán)利要求1-6中任一項所述的計算機實現(xiàn)的方法,其中提供定制服務(wù)包括 在所述歷史查詢信息中識別用戶所提交的查詢集合以及相對應(yīng)的搜索結(jié)果,其中所述搜索結(jié)果對應(yīng)于所述第一和第二信息項中的一個或多個; 通過聚集所述一個或多個信息項的分類數(shù)據(jù)為用戶生成用戶簡檔; 將所生成的用戶簡檔存儲在所述服務(wù)器系統(tǒng)中;以及 響應(yīng)于來自客戶端設(shè)備處的用戶對服務(wù)的請求,使用所存儲的用戶簡檔定制所請求的服務(wù)。
9.如權(quán)利要求8所述的計算機實現(xiàn)的方法,其中定制所請求的服務(wù)包括 響應(yīng)于服務(wù)請求準備獨立于用戶的服務(wù),其中所述獨立于用戶的服務(wù)包括所述第一和第二信息項中的一個或多個; 通過將所述信息項的分類數(shù)據(jù)與所存儲的用戶簡檔相比較來確定所述一個或多個信息項中每一個的分值;以及 依據(jù)它們相應(yīng)的分值對所述服務(wù)中的所述一個或多個信息項進行重新排列。
10.如權(quán)利要求1-9中任一項所述的計算機實現(xiàn)的方法,其中所述信息項中的至少一個是網(wǎng)頁。
11.如權(quán)利要求1-10中任一項所述的計算機實現(xiàn)的方法,其中所述信息項中的至少一個是包括多個網(wǎng)頁的網(wǎng)站。
12.—種計算機系統(tǒng),包括 一個或多個處理器; 存儲器;和 一個或多個程序,其中所述一個或多個程序存儲在所述存儲器中并且被配置為由所述一個或多個處理器執(zhí)行,所述一個或多個程序包括 用于分別訪問用于具有對應(yīng)于第一信息項和第二信息項的搜索結(jié)果的查詢的歷史查詢信息的指令,其中所述第一信息項最初被分類而所述第二信息項最初未被分類; 用于訪問所述第一信息項的分類數(shù)據(jù)的指令; 用于基于所述第一信息項的所述分類數(shù)據(jù)以及所述歷史查詢信息為所述第二信息項生成分類數(shù)據(jù)的指令; 用于將所生成的分類數(shù)據(jù)存儲在所述服務(wù)器系統(tǒng)中的指令;以及用于使用存儲在所述服務(wù)器系統(tǒng)中的相對應(yīng)分類數(shù)據(jù)向多個客戶端設(shè)備提供與所述第二信息項相關(guān)聯(lián)的定制服務(wù)的指令。
13.如權(quán)利要求12所述的計算機系統(tǒng),其中用于為最初未分類的信息項生成分類數(shù)據(jù)的指令包括 用于識別所述歷史查詢信息中的查詢集合的指令,其中所述查詢的至少子集均具有與所述最初未分類的信息項相對應(yīng)的相關(guān)聯(lián)搜索結(jié)果; 用于基于所述第一信息項的所述分類數(shù)據(jù)以及用于所述查詢集合的所述歷史查詢信息為所述查詢集合生成分類數(shù)據(jù)的指令;以及 用于通過將所述查詢子集的所生成的分類數(shù)據(jù)進行組合而為所述最初未分類的信息項生成分類數(shù)據(jù)的指令,所述查詢子集中的每一個具有與所述最初未分類的信息項相對應(yīng)的相關(guān)聯(lián)搜索結(jié)果。
14.如權(quán)利要求13所述的計算機系統(tǒng),進一步包括 用于更新所述歷史查詢信息的指令;和 用于重復(fù)進行下述步驟的指令在所述歷史查詢信息中識別查詢、對所述查詢生成分類數(shù)據(jù)、以及使用經(jīng)更新的歷史查詢信息為所述最初未分類的信息項生成分類數(shù)據(jù)。
15.如權(quán)利要求13或14所述的計算機系統(tǒng),其中用于為所述查詢集合生成分類數(shù)據(jù)的指令包括 用于識別與所述查詢的至少子集中的每一個相對應(yīng)的搜索結(jié)果的集合以及與該搜索結(jié)果的集合相對應(yīng)的所述第一信息項的集合的指令; 用于依據(jù)它們的相應(yīng)預(yù)定義的信息檢索分值、它們的相對應(yīng)搜索結(jié)果在該搜索結(jié)果的集合中的位置以及與相對應(yīng)搜索結(jié)果的用戶交互信息對所識別的第一信息項的分類數(shù)據(jù)進行加權(quán)的指令;以及 用于將所識別的第一信息項的加權(quán)分類數(shù)據(jù)聚集為所述查詢的分類數(shù)據(jù)的指令。
16.如權(quán)利要求13或14所述的計算機系統(tǒng),其中用于為所述最初未分類的信息項生成分類數(shù)據(jù)的指令包括 用于識別與所述查詢子集中的每一個相對應(yīng)的搜索結(jié)果的集合的指令,其中所述搜索結(jié)果的集合包括與所述最初未分類的信息項相對應(yīng)的至少一個搜索結(jié)果; 用于依據(jù)所述最初未分類的信息項的預(yù)定義的信息檢索分值、其相對應(yīng)搜索結(jié)果在所述搜索結(jié)果的集合中的位置以及與所述相對應(yīng)搜索結(jié)果的用戶交互信息對所述查詢的分類數(shù)據(jù)進行加權(quán)的指令;以及 用于將所述查詢子集的加權(quán)分類數(shù)據(jù)聚集為所述最初未分類的信息項的分類數(shù)據(jù)的指令。
17.如權(quán)利要求12-16中任一項所述的計算機系統(tǒng),其中用于提供定制服務(wù)的指令包括 用于從相應(yīng)的客戶端設(shè)備處的用戶接收查詢的指令,其中所述用戶具有相關(guān)聯(lián)的用戶簡檔; 用于識別與所述查詢相對應(yīng)的搜索結(jié)果的集合的指令,其中所述搜索結(jié)果中的一個與所述第二信息項中的一個相關(guān)聯(lián); 用于通過將所述第二信息項的所存儲的分類數(shù)據(jù)與所述用戶簡檔相比較來確定所述搜索結(jié)果的分值的指令; 用于依據(jù)所確定的分值將所述搜索結(jié)果關(guān)于其它搜索結(jié)果進行排序的指令;以及 用于向所述客戶端設(shè)備提供表示至少經(jīng)排序的搜索結(jié)果的數(shù)據(jù)的指令。
18.如權(quán)利要求12-16中任一項所述的計算機系統(tǒng),其中用于提供定制服務(wù)的指令包括 用于在所述歷史查詢信息中識別用戶所提交的查詢集合以及相對應(yīng)的搜索結(jié)果的指令,其中所述搜索結(jié)果對應(yīng)于所述第一和第二信息項中的一個或多個; 用于通過聚集所述一個或多個信息項的分類數(shù)據(jù)為所述用戶生成用戶簡檔的指令;用于將所生成的用戶簡檔存儲在所述服務(wù)器系統(tǒng)中的指令;以及用于響應(yīng)于來自客戶端設(shè)備處的用戶對服務(wù)的請求,使用所存儲的用戶簡檔定制所請求的服務(wù)的指令。
19.如權(quán)利要求18所述的計算機系統(tǒng),其中用于定制所請求的服務(wù)的指令包括 用于響應(yīng)于服務(wù)請求準備獨立于用戶的服務(wù)的指令,其中所述獨立于用戶的服務(wù)包括所述第一和第二信息項中的一個或多個; 用于通過將所述信息項的分類數(shù)據(jù)與所存儲的用戶簡檔相比較來確定所述一個或多個信息項中每一個的分值的指令;以及 用于依據(jù)它們相應(yīng)的分值對所述服務(wù)中的所述一個或多個信息項進行重新排列的指令。
20.如權(quán)利要求12所述的計算機系統(tǒng),其中所述一個或多個程序包括用于執(zhí)行如權(quán)利要求1-10中任一項所述的方法的指令。
21.一種計算機可讀存儲介質(zhì)以及實現(xiàn)于其中的一個或多個計算機程序,所述一個或多個計算機程序包括指令,當被計算機系統(tǒng)執(zhí)行時,所述指令使得所述計算機系統(tǒng) 分別訪問用于具有對應(yīng)于第一信息項和第二信息項的搜索結(jié)果的查詢的歷史查詢信息,其中所述第一信息項最初被分類而所述第二信息項最初未被分類; 訪問所述第一信息項的分類數(shù)據(jù); 基于所述第一信息項的所述分類數(shù)據(jù)以及所述歷史查詢信息為所述第二信息項生成分類數(shù)據(jù); 將所生成的分類數(shù)據(jù)存儲在所述服務(wù)器系統(tǒng)中;以及 使用存儲在所述服務(wù)器系統(tǒng)中的相對應(yīng)分類數(shù)據(jù)向多個客戶端設(shè)備提供與所述第二信息項相關(guān)聯(lián)的定制服務(wù)。
22.如權(quán)利要求21所述的計算機可讀存儲介質(zhì),其中用于為最初未分類的信息項生成分類數(shù)據(jù)的指令包括 用于識別所述歷史查詢信息中的查詢集合的指令,其中所述查詢的至少子集均具有與所述最初未分類的信息項相對應(yīng)的相關(guān)聯(lián)搜索結(jié)果; 用于基于所述第一信息項的所述分類數(shù)據(jù)以及用于所述查詢集合的所述歷史查詢信息為所述查詢集合生成分類數(shù)據(jù)的指令;以及 用于通過將所述查詢子集的所生成的分類數(shù)據(jù)進行組合而為所述最初未分類的信息項生成分類數(shù)據(jù)的指令,所述查詢子集中的每一個具有與所述最初未分類的信息項相對應(yīng)的相關(guān)聯(lián)搜索結(jié)果。
23.如權(quán)利要求22所述的計算機可讀存儲介質(zhì),進一步包括 用于更新所述歷史查詢信息的指令;和 用于重復(fù)下述步驟的指令在所述歷史查詢信息中識別查詢、對所述查詢生成分類數(shù)據(jù)、以及使用經(jīng)更新的歷史查詢信息為所述最初未分類的信息項生成分類數(shù)據(jù)。
24.如權(quán)利要求22或23所述的計算機可讀存儲介質(zhì),其中用于為所述查詢集合生成分類數(shù)據(jù)的指令包括 用于識別與所述查詢的至少子集中的每一個相對應(yīng)的搜索結(jié)果的集合以及與該搜索結(jié)果的集合相對應(yīng)的所述第一信息項的集合的指令; 用于依據(jù)它們的相應(yīng)預(yù)定義的信息檢索分值、它們的相對應(yīng)搜索結(jié)果在該搜索結(jié)果的集合中的位置以及與相對應(yīng)搜索結(jié)果的用戶交互信息對所識別的第一信息項的分類數(shù)據(jù)進行加權(quán)的指令;以及 用于將所識別的第一信息項的加權(quán)分類數(shù)據(jù)聚集為所述查詢的分類數(shù)據(jù)的指令。
25.如權(quán)利要求22或23所述的計算機可讀存儲介質(zhì),其中用于為最初未分類的信息項生成分類數(shù)據(jù)的指令包括 用于識別與所述查詢子集中的每一個相對應(yīng)的搜索結(jié)果的集合的指令,其中所述搜索結(jié)果的集合包括與所述最初未分類的信息項相對應(yīng)的至少一個搜索結(jié)果; 用于依據(jù)所述最初未分類的信息項的預(yù)定義的信息檢索分值、其相對應(yīng)搜索結(jié)果在所述搜索結(jié)果的集合中的位置以及與所述相對應(yīng)搜索結(jié)果的用戶交互信息對所述查詢的分類數(shù)據(jù)進行加權(quán)的指令;以及 用于將所述查詢子集的加權(quán)分類數(shù)據(jù)聚集為所述最初未分類的信息項的分類數(shù)據(jù)的指令。
26.如權(quán)利要求21所述的計算機可讀存儲介質(zhì),其中用于提供定制服務(wù)的指令包括 用于從相應(yīng)的客戶端設(shè)備處的用戶接收查詢的指令,其中所述用戶具有相關(guān)聯(lián)的用戶簡檔; 用于識別與所述查詢相對應(yīng)的搜索結(jié)果的集合的指令,其中所述搜索結(jié)果中的一個與所述第二信息項中的一個相關(guān)聯(lián); 用于通過將所述第二信息項的所存儲的分類數(shù)據(jù)與所述用戶簡檔相比較來確定所述搜索結(jié)果的分值的指令; 用于依據(jù)所確定的分值將所述搜索結(jié)果關(guān)于其它搜索結(jié)果進行排序的指令;以及 用于向所述客戶端設(shè)備提供表示至少經(jīng)排序的搜索結(jié)果的數(shù)據(jù)的指令。
27.如權(quán)利要求21-26中任一項所述的計算機可讀存儲介質(zhì),其中用于提供定制服務(wù)的指令包括 用于在所述歷史查詢信息中識別用戶所提交的查詢集合以及相對應(yīng)的搜索結(jié)果的指令,其中所述搜索結(jié)果對應(yīng)于所述第一和第二信息項中的一個或多個; 用于通過聚集所述一個或多個信息項的分類數(shù)據(jù)為所述用戶生成用戶簡檔的指令; 用于將所生成的用戶簡檔存儲在所述服務(wù)器系統(tǒng)中的指令;以及 用于響應(yīng)于來自客戶端設(shè)備處的用戶對服務(wù)的請求,使用所存儲的用戶簡檔定制所請求的服務(wù)的指令。
28.如權(quán)利要求27所述的計算機可讀存儲介質(zhì),其中用于定制所請求的服務(wù)的指令包括 用于響應(yīng)于服務(wù)請求準備獨立于用戶的服務(wù)的指令,其中所述獨立于用戶的服務(wù)包括所述第一和第二信息項中的一個或多個; 用于通過將所述信息項的分類數(shù)據(jù)與所存儲的用戶簡檔相比較來確定所述一個或多個信息項中每一個的分值的指令;以及 用于依據(jù)它們相應(yīng)的分值對所述服務(wù)中的所述一個或多個信息項進行重新排列的指 令。
29.如權(quán)利要求21所述的計算機可讀存儲介質(zhì),其中所述一個或多個計算機程序包括用于執(zhí)行如權(quán)利要求1-10中任一項所述的方法的指令。
全文摘要
一種服務(wù)器系統(tǒng),其分別訪問用于具有對應(yīng)于第一信息項和第二信息項的搜索結(jié)果的查詢的歷史查詢信息以及所述第一信息項的分類數(shù)據(jù)。最初,所述第一信息項被分類而所述第二信息項未被分類。基于所述第一信息項的分類數(shù)據(jù)以及所述歷史查詢信息,所述服務(wù)器系統(tǒng)為所述第二信息項生成分類數(shù)據(jù)并且將所生成的分類數(shù)據(jù)存儲于其中。響應(yīng)于來自客戶端設(shè)備的對服務(wù)的請求,所述服務(wù)器系統(tǒng)使用所述第二信息項以及為所述第二信息項所生成的相對應(yīng)分類數(shù)據(jù)向所述客戶端設(shè)備提供定制服務(wù)。
文檔編號G06F17/30GK102859516SQ201080024788
公開日2013年1月2日 申請日期2010年4月7日 優(yōu)先權(quán)日2009年4月8日
發(fā)明者比爾蓋汗·烏伊加爾·厄茲泰金, 丘佩文 申請人:谷歌公司