索引文檔以供信息檢索的制作方法

文檔序號：6455011閱讀：150來源：國知局

專利名稱：索引文檔以供信息檢索的制作方法
技術領域：
本說明書一般涉及信息檢索。其具體涉及，但決不限于，對文檔排序
以用于諸如web搜索系統(tǒng)等搜索系統(tǒng)的方法。背景
web搜索系統(tǒng)是一類信息檢索系統(tǒng)的一個示例，盡管本發(fā)明是關于任何類型的信息檢索系統(tǒng)的。web搜索系統(tǒng)使人們能夠找到最適合其要求的網(wǎng)站。使用了三個主要組件來實現(xiàn)這點web爬行器(crawler);索引生成器；和查詢服務器。
web爬行器一次爬行一個web鏈接，并發(fā)送所標識的要被索引的網(wǎng)頁。這通過利用站點之間的鏈接來實現(xiàn)。這一 web爬行過程可被認為是標識新網(wǎng)站和標識對現(xiàn)有網(wǎng)站的更新的持續(xù)過程。
爬行過程使數(shù)十億網(wǎng)頁能夠被標識，且為利用該信息，則需要檢索頁面的系統(tǒng)方法。索引生成器提供了該方法的一部分。類似于書籍后面的索引，索引生成器標識要與每一網(wǎng)站的內容進行關聯(lián)的關鍵字。隨后，在搜索這些關鍵字時，搜索系統(tǒng)可以從數(shù)十億個可用頁面中找出最適當?shù)捻撁妗?br> 索引生成器包括諸如一個項在頁面上使用的頻率、頁面標題或索引中中所使用的是哪些項等信息以供查詢服務器隨后在對文檔排序時使用。還可以使用諸如編寫網(wǎng)站所使用的語言以及關于多少其它網(wǎng)站鏈接到所考慮的網(wǎng)站的信息等其它信息。
查詢服務器(也被稱為搜索引擎)被用來在其如何匹配用戶輸入搜索項的基礎上對索引文檔排序。查詢服務器分析用戶搜索項并將其與所索引的網(wǎng)頁進行比較。其在用戶輸入搜索項的基礎上生成所索引的網(wǎng)頁的排名或得分。以此方式，用得分或排名來標識與用戶搜索項相關的網(wǎng)頁以指示相關似然性的程度。
目前正存在對改進諸如web搜索系統(tǒng)等信息檢索系統(tǒng)所檢索的項的相關性的需求。另外，存在以在可能的情況下降低對存儲資源需求的、快速且計算經(jīng)濟的方式實現(xiàn)這點的需求。概述
下面提供本發(fā)明的簡化概要以便為讀者提供基本的理解。本概要不是本發(fā)明的詳盡概觀，并且既不標識本發(fā)明的關鍵/決定性要素也不描繪本發(fā) 明的范圍。其唯一目的是以簡化形式提供在此公開一些概念作為稍后提供的更詳細描述的序言。
諸如web搜索系統(tǒng)等信息檢索系統(tǒng)在查詢項的基礎上在數(shù)百萬甚至數(shù) 十億可能的文檔中定位文檔。為實現(xiàn)這點，創(chuàng)建了文檔索引。在此建議在文檔中創(chuàng)建新的字段以存儲反饋信息。該信息包括在特定搜索中所使用的查詢項以及關于是否對所檢索到的特定文檔給予例如肯定反饋或否定反饋的信息。在該反饋信息加上其它可用信息的基礎上創(chuàng)建索引。結果，改進了搜索結果的相關性。對給定文檔有多個信息字段(如摘要字段、標題字段、錨文本字段以及此處的反饋字段)可用。使用了處理多個字段以及多個査詢項并提供對文檔字段的差異加權的任何搜索算法。
本示例提供形成供在信息檢索系統(tǒng)中使用的文檔索引的方法，該方法包括以下步驟-
指定多個字段，包括可以聯(lián)合每一文檔使用的至少一個反饋字段；
訪問多個文檔，且對于那些文檔的每一個，使用來自所訪問的文檔的
信息來填充至少某些字段；
接收包括多個查詢項、諸文檔中特定一個文檔的標識符、和關于反饋的類型的信息的反饋信息；
對于諸文檔中特定一個文檔，在關于反饋類型的信息的基礎上用多個査詢項來填充反饋字段；
在所填充的字段是基礎上形成文檔索引；接收多個査詢項；
在查詢項的基礎上從索引中獲得文檔統(tǒng)計數(shù)據(jù)；以及使用搜索算法來生成經(jīng)排序的文檔列表，該搜索算法適于與多個查詢
項和多個文檔字段一起使用并被安排成提供對字段的差異加權。
這提供通過使用反饋信息并將其合并入文檔中，增強了將來的搜索的
優(yōu)點。這以簡單且高效的、不過度增加處理成本或時間的方式來實現(xiàn)。提供了用于形成供在信息檢索系統(tǒng)中使用的文檔索引的對應的裝置，該裝置包括
被安排為指定包括可以聯(lián)合每一文檔使用的至少一個反饋字段的多個
字段的索引生成器；
該索引生成器具有被安排成訪問多個文檔的接口，該索引生成器具有
被安排成對于那些文檔的每一個使用來自所訪問的文檔的信息來填充至少某些字段的處理器；
該索引生成器具有被安排成接收包括多個査詢項、諸文檔中特定一個文檔的標識符、和關于反饋的類型的信息的反饋信息的另一接口；
該索引生成器的處理器被安排成對于諸文檔中特定一個文檔，在關于反饋類型的信息的基礎上用多個查詢項來填充反饋字段；
該索引生成器的處理器被安排成在所填充的字段的基礎上形成文檔索
引；
被安排成接收多個査詢項的接口；
被安排成在查詢項的基礎上從索引中獲得文檔統(tǒng)計數(shù)據(jù)的搜索引擎，該搜索引擎包括被安排成在搜索引擎中事先以生成經(jīng)排序的文檔列表的搜索算法，該搜索算法適于與多個査詢項和多個文檔字段一起使用并被安排成提供對字段的差異加權。
優(yōu)選地，關于反饋類型的信息包括關于反饋是肯定還是否定的信息。優(yōu)選地，關于反饋類型的信息包括關于反饋是顯式還是隱式的信息。優(yōu)選地，指定字段的步驟包括指定多個反饋字段，每一反饋字段都對應不同類型的反饋。
優(yōu)選地，形成索引的步驟包括在各字段和至少某些反饋字段的基礎上生成文檔統(tǒng)計數(shù)據(jù)。
優(yōu)選地，重復地更新索引。
優(yōu)選地，充分頻繁地更新索引，使得在搜索期間，反饋信息被動態(tài)地合并入文檔中并被用來影響正在進行的搜索。
優(yōu)選地，反饋信息被用來影響查詢間(inter-query)搜索。
優(yōu)選地，該方法包括在指定的時間段之后清空反饋字段或在所流逝的時間的基礎上調整與各反饋字段相關聯(lián)的權重。
在一示例中，信息檢索系統(tǒng)是圖像檢索系統(tǒng)且文檔是圖像。另一實施例提供了一種包括計算機程序代碼裝置的計算機程序，該計
算機程序代碼裝置適于當所述程序在計算機上運行時執(zhí)行上述任何方法的
所有步驟。例如，該計算機程序被包含在計算機可讀介質上。
本方法可由存儲介質上的機器可讀形式的軟件來執(zhí)行。軟件可適于在
并行處理器或串行處理器上執(zhí)行以使得各方法步驟可以按任何合適的次序
或同時執(zhí)行。
這確認了軟件可以是有價值的、可單獨交易的商品。其旨在包含運行
于或者控制"啞(dumb)"或者標準硬件以實現(xiàn)期望功能的軟件，(因此，
軟件本質上定義了寄存器的功能，并且可以被叫做寄存器，即使是在它與其標準硬件結合之前)。出于類似的理由，它還旨在包含例如用于設計硅芯
片，或者用于配置通用可編程芯片的HDL (硬件描述語言)軟件等"描述" 或者定義硬件配置以實現(xiàn)期望的功能的軟件。
許多附帶特征將隨著參考下面的詳細描述并結合附圖進行理解而得到更好的認識。

結合附圖閱讀以下詳細描述，將更好地理解本說明書，在附圖中圖l是信息檢索系統(tǒng)的示意圖2是具有包括反饋字段的文檔字段的文檔的示意圖；圖3是另一信息檢索系統(tǒng)的示意圖4是生成或更新索引的方法的流程圖5是捕捉反饋信息并將其合并入文檔中的方法的流程圖；圖6是生成經(jīng)排序的文檔列表的方法的流程圖。附圖中使用相同的附圖標記來指代相同的部分。詳細描述
下面結合附圖提供的詳細描述旨在作為對本示例的描述，而非表示用于解釋或利用本示例的唯一形式。本說明書闡述本示例的功能以及用于構造和操作本示例的步驟序列。然而，相同或等價的功能與序列可由不同的示例來實現(xiàn)。
圖1是適用于實現(xiàn)本發(fā)明的各實施例的信息檢索系統(tǒng)的示意圖。排序系統(tǒng)IO能夠訪問其需要搜索其以找出相關的文檔或文檔部分的文檔11。文檔可以是任何合適的類型，如網(wǎng)頁、文檔儲存庫中的文本文檔、與文本相關聯(lián)的圖像、具有相關聯(lián)的文本的視頻剪輯、數(shù)據(jù)庫摘錄、或包括或具有相關聯(lián)的文本的任何其它合適類型的文檔。此處使用的術語"文本"指的是包括單詞、字符、符號或數(shù)字的信息。
提供了用戶界面12以使用戶可以訪問排序系統(tǒng)IO來搜索文檔或文檔部分ll。用戶界面是任何合適的形式，如基于web的圖形用戶界面、自然語言界面、基于文本的界面、或其它界面。用戶界面使用戶(其可以是人類用戶或自動化系統(tǒng))能夠輸入呈現(xiàn)給排序系統(tǒng)10的查詢項16。排序系統(tǒng) 10返回經(jīng)由用戶界面12呈現(xiàn)給用戶的經(jīng)排序的文檔列表15。文檔按其與用戶的查詢項的相關性來排序。另外，該用戶界面被安排成捕捉來自用戶的隱式反饋14和/或顯式反饋13。
可以使用提取操作來解析該查詢以確定査詢項。例如，査詢項可以是單個單詞或可以包括多個組成項。例如，短語"文檔管理系統(tǒng)(document management system)，，可被認為是單個查詢項或可被認為是三個獨立的單詞。另外，査詢可以包括一個或多個運算符，如布爾運算符、符號、數(shù)字或其它字符。
使用術語"顯式反饋"是指來自用戶的關于經(jīng)排序的列表中的文檔的相關性的主動反饋。鑒于被用來獲得經(jīng)排序的列表的查詢項，其還可以被認為是對該經(jīng)排序的列表中的一個或多個文檔的評估。為使反饋成為顯式的，要求響應于來自用戶界面的査詢或請求的積極用戶輸入。相反，對于"隱式反饋"則不要求響應于査詢或請求的積極用戶輸入。其還可以被認為是被動反饋。另外，反饋可以是其中指示經(jīng)排序的列表中的一個或多個文檔相關的肯定反饋，或者是其中指示經(jīng)排序的列表中的一個或多個文檔不相關的否定反饋。因此，存在至少四種類型的反饋。
#定敘及篛
肯定顯式反饋的一個示例涉及呈現(xiàn)使用戶能夠指示特定搜索結果文檔是否是相關的對話框、任務欄、按鈕、或其它用戶輸入手段。在這種情況下，用戶做出特定動作來指示搜索結果是相關的。該動作可任選地響應于來自用戶界面的關于相關性的查詢。例如，査詢采用對話框、投票按鈕、音頻提示、視覺提示等的形式，否定顯式發(fā)潢
否定顯式反饋的一個示例涉及用戶響應于提示、査詢或請求做出特定動作以指示搜索結果文檔是不相關的?？梢允褂靡陨详P于肯定顯式反饋所述的任何合適的方法。
,定燈式反銜
肯定隱式反饋涉及在用戶界面處的活動的基礎上做出反饋是肯定的推理或假定，該活動不由經(jīng)由用戶界面自身的請求所提示。
肯定隱式反饋的一個示例涉及訪問或隨后使用來自結果的文檔。在這種情況下，如果觀察到用戶訪問經(jīng)排序的結果列表中所呈現(xiàn)的文檔，則假定該特定文檔是相關的。發(fā)現(xiàn)這種獲得反饋的方式對于圖像搜索或其中在經(jīng)排序的列表中提供了每一文檔的縮略圖的其它文檔搜索特別有利。因為存在縮略圖(或整個文檔中的信息的任何其它合適的概述)，所以訪問該文檔很可能是相關性的很好的指示。在某些實施例中，該類型的反饋被稱
為"點進(click through)"，其中用戶點擊到結果列表中的一個文檔的鏈接
以對其進行訪問。可以設想不同等級的肯定隱式反饋。例如，如果用戶從結果列表中復制并粘貼鏈接，或為該鏈接做了書簽，則其可被看作是高質量肯定隱式反饋。否定濃式顧
否定隱式反饋涉及在用戶界面處不存在活動的基礎上做出反饋是否定的推理或假設。例如，如果用戶未訪問來自結果列表的一個文檔，則可以假定該文檔是不相關的。
可以認識到，這些不同類型的反饋信息可被有利地用來通過使搜索結果更加相關來改進搜索結果。例如，這在查詢間的基礎上實現(xiàn)。即，來自過去的用戶查詢的反饋被用來改進將來相同或不同的用戶所進行的搜索。
為了以實現(xiàn)簡單且計算經(jīng)濟的高效的方式利用反饋信息，在文檔中的一個或多個新字段中積累查詢。字段(也被稱為流)是與文檔相關聯(lián)的數(shù) 據(jù)結構。例如，字段可以是具有定義的結構的文檔的指定部分。示例包括標題、摘要、概述、正文、結論、參考文獻、元數(shù)據(jù)字段、以及錨文本字段。元數(shù)據(jù)字段的一個示例是含有關于到達和發(fā)自該文檔的鏈接的數(shù)目的信息的字段。錨文本字段被用來儲存與從另一文檔到當前文檔的鏈接相關聯(lián)的文本。因此，錨文本得自另一文檔，并被存儲在當前文檔的錨文本字段中。在本發(fā)明中，有利地建議指定一個或多個新字段并使用其來存儲與反饋信息相關聯(lián)的査詢項。為清楚起見，這些新字段在此將被稱為"反饋字段"。例如，在一實施例中，指定四種類型的反饋字段，其每一個都用于上述四種反饋類型的每一種。然而，這不是必須的。可以使用任何合適數(shù)量的反饋字段。例如，可以使用一個反饋字段來存儲多個類型的反饋，或可以在有不同級別的反饋信息可用的情況下使用超過四個字段。已發(fā)現(xiàn)以此方式使用反饋信息字段特別高效。例如，可以使用反饋信息來修改正在進行的搜索的査詢項或修改索引過程(見下)而不必將其存儲在文檔中。然而，那些方法很復雜且尤其對于索引過程方法來說是很耗時的。
圖2是包括圖像并示出適于在本發(fā)明的一實施例中使用的文檔字段22 到24和25到26的文檔20的示意圖。在這種情況下，文檔字段包括存儲來自從其中訪問圖像的文檔(例如，包含該圖像的網(wǎng)頁)的任何嵌入的文
本的字段22。標題字段23被用來存儲與該圖像相關聯(lián)的任何標題，而URL 文本字段24則存儲與到該圖像的鏈接相關聯(lián)的任何文本。圖像21本身通過使用web爬行器或其它合適的過程來獲得，且在該示例中，使用兩個反饋字段25和26來存儲査詢項。文檔字段22到24和25到26是可用的但不必要都將其填充，且對于不同的文檔，可以填充各個不同的字段。同樣，可以指定任何合適的文檔字段。因此，對于不同類型的文檔，不同類型的文檔字段將是適當?shù)摹?br> 圖3是圖1的信息檢索系統(tǒng)的一實施例的示意圖。在該示例中，排序系統(tǒng)10包括索引生成器32、搜索引擎30和索引31。雖然出于清楚起見其在圖3中作為單獨的實體示出，但索引生成器32和搜索引擎30可以是整合的。索引生成器32包括用于與文檔11進行接口的文檔接口 33。該接口可以采用本領域公知的任何合適的形式。索引生成器34還包括用于從用戶
界面12接收顯式13和或隱式14反饋的反饋接口 34。能夠使用該反饋信息經(jīng)由文檔接口 33來填充文檔11中的反饋字段。然而，這不是必須的。反饋信息可以使用可獨立于索引生成器32的任何合適的實體而合并入文檔中。
多個文檔11可用于搜索。例如，這些可以使用本領域公知的web爬行過程或任何其它合適的方式來獲得。可以搜索任何數(shù)量的文檔，包括含有大量(例如，數(shù)十億)文檔的文檔集合。
如前所述，使用索引生成器來生成對信息檢索系統(tǒng)可用的文檔索引是公知的。例如，在2004年3月18日提交的、作為US-2005-0210006-A1于 2005年9月22日公布的早期美國專利申請"Field Weighting in Text Document Searching (文本文檔搜索中的字段加權)"中，描述了這樣的索引過程。在該文獻中，描述了為每一文檔生成單獨的文檔統(tǒng)計數(shù)據(jù)并將其存儲在索引中的索引生成器。文檔統(tǒng)計數(shù)據(jù)是基于來自每一文檔中所指定的字段的信息的。除因為向各個文檔添加了反饋字段之外，在本發(fā)明中優(yōu) 選地使用相同的過程，那些反饋字段與任何或所有其它文檔字段一起使用以形成索引31。然而，使用這種形成索引的方法不是必須的。可以使用形成索引的任何其它合適的方法，只要其考慮到文檔中的反饋信息。
一旦被形成，則定期更新索引31。這么做是因為文檔11本身隨時間改變(例如，網(wǎng)站被更新)并且另外，持續(xù)地接收到反饋信息并將之添加到文檔11中。可以使用任何合適的索引更新間隔，如每日、每周或對索引的持續(xù)更新。間隔時間的選擇至少部分地取決于處理資源、成本、文檔11 中的變化速率和反饋信息的接收速率。圖4是索引生成過程的示意圖。指定了各個字段，包括一個或多個反饋字段(參見框40)。從文檔中訪問信息(參見框41)并訪問反饋信息(參見框42)。對于每一文檔，隨后在可能時填充包括反饋字段在內的各個字段(框43)并計算統(tǒng)計數(shù)據(jù)(框44) 以生成或更新索引(框45)。
如已描述的，顯式13和/或隱式14反饋信息經(jīng)由用戶界面12來接收，并被用來填充文檔11本身中或與這些文檔相關聯(lián)的反饋字段。對于一給定搜索，反饋信息包括所使用的査詢項，
使用反饋信息對于其可用的那些査詢項所發(fā)現(xiàn)的特定文檔的身份，以
及
關于反饋的特性的信息(例如，其是否是顯式、隱式、否定或肯定)。假定用戶使用查詢項啟動搜索并在所得文檔上提供反饋(參見圖5的框50)。在用戶界面處捕捉該反饋(參見框51)。如圖5所示，反饋信息
被用來訪問所標識的文檔(框52)，(在關于反饋的特性的信息的基礎上) 選擇該文檔中的適當?shù)姆答佔侄?框53)和用查詢項填充所選擇的反饋字段(或諸字段)(框54)。這在圖5的流程圖中示出。
在某些實施例中，給定文檔的反饋字段在指定的時間間隔后被清空。另選地，隨時間調整與反饋字段相關聯(lián)的權重。以此方式，可以安排反饋信息的影響隨時間而降低。然而，以此方式隨時間修改反饋字段不是必須的。反饋字段可以簡單地在獲得關于給定文檔的新反饋信息時被重寫。
填充文檔11中的反饋字段的過程是漸進的過程，其隨者越來越多的搜索被完成且反饋變得可用而不斷進行。因此，可用于搜索的、具有填充的反饋字段的文檔的比例將隨時間增加。如果諸如網(wǎng)頁等文檔被更新，則可以進行供應以保持與該頁面相關聯(lián)的任何填充的反饋字段。另選地，可以將其刪除。這是取決于被搜索的文檔類型和對那些文檔的更新是否趨向于顯著地改變文檔的內容的設計選擇。另一選項是對更新中的改變的范圍做出自動評估并在適當時刪除或保留反饋字段。
一旦形成了索引31，則搜索引擎30可響應于用戶査詢項16訪問或查詢索引31以生成經(jīng)排序的文檔列表15。因為已經(jīng)向文檔添加了反饋字段，所以對于文檔11的至少一部分有多個(復數(shù)個)文檔字段可用。另外，用戶可以輸入多個(兩個或更多)查詢項16以發(fā)起文檔搜索。因此，搜索引擎被專門安排為處理多個文檔字段和多個查詢項兩者。任何合適的搜索算法都可由搜索引擎來實現(xiàn)，只要其能夠處理多查詢項和多文檔字段。因為需要開發(fā)合適的組合信息的方法，所以多査詢項和多文檔字段呈現(xiàn)出特定問題。例如，一個簡單的(但不合適的)方法是為每一文檔字段計算單獨的得分并隨后使用權重來線性地組合這些得分。該方法沒有考慮來自查詢的項可以匹配超過一個字段的事實；文檔可以因在若干字段中匹配一個査詢項卻根本不匹配第二査詢項而獲得高得分。在以上引用的早期專利申請中，描述了用于跨字段地、逐個査詢項地組合證據(jù)的方法，該方法處理該問題而同時允許對各字段進行差異加權。這在多個查詢項可能匹配多個字段時尤其重要。因此，在優(yōu)選實施例中，搜索引擎實現(xiàn)如在以上引用的早期專利申請中所描述的算法。然而，這不是必須的?？梢允褂每缥臋n字段地、逐査詢項地組合證據(jù)并允許對文檔字段進行差異加權的任何合適的搜索算法。
用來在搜索算法期間對文檔字段加權的權重可用任何合適的方式來獲得。例如，使用本領域公知的涉及使用所評估的數(shù)據(jù)的訓練或調整過程。
圖6是使用圖1或圖3的信息檢索系統(tǒng)的方法的流程圖。接收多個查詢項(參見框60)并提供給搜索引擎。搜索引擎從索引中獲得相關文檔統(tǒng)計數(shù)據(jù)(參見框61)，包括在反饋字段的基礎上形成的統(tǒng)計數(shù)據(jù)。隨后使用如上所述的搜索算法以對文檔統(tǒng)計數(shù)據(jù)進行差異加權和組合以便在査詢項的基礎上生成得分(參見框62)。這是為可能與査詢項或其子集相關的每一文檔完成的。隨后使用這些得分來生成經(jīng)排序的文檔列表(參見框63)。
在優(yōu)選實施例中，信息檢索系統(tǒng)是web圖像搜索系統(tǒng)，而文檔11是從因特網(wǎng)或其它文檔檢索到的圖像。圖2中給出了該類型的文檔及其相關聯(lián)的字段的一個示例。在圖像搜索的情況下，諸如點進反饋等隱式反饋可能是相關的。另外，與從web檢索到的圖像相關聯(lián)的文本的量和該文本的相關性通常相對很差。這使得使用基于文本的査詢項搜索這種文檔很困難。在這種情況下，使用反饋信息尤其可以增加搜索結果的相關性。因此，在將本發(fā)明應用到圖像搜索時，有特別的優(yōu)點。如上所述，本發(fā)明決不限于圖像搜索。
在一示例實現(xiàn)中，搜索引擎(圖3的30)和索引生成器(圖3的32)使用任何合適的計算機處理硬件上所支持的計算機軟件來實現(xiàn)。例如，搜索引擎在服務器上提供，而處理器上的索引生成器或獨立于該搜索引擎服務器或與其整合在一起。索引生成器所形成的索引(圖3的31)使用諸如硬盤、磁盤、光盤、磁帶盒、閃存卡、數(shù)字視頻盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)等任何合適的計算機可讀存儲介質被存儲為數(shù)據(jù)庫、文件、或其它合適的數(shù)據(jù)結構。
用戶界面(圖3的12)使用任何合適的硬件來提供，如連接到計算機終端的顯示器屏幕和鍵盤、移動計算設備、個人數(shù)字助理、智能電話、或任何其它合適的用戶界面裝置。
信息檢索系統(tǒng)的各組件之間的通信使用任何合適的通信手段來實現(xiàn)，如無線通信、諸如局域網(wǎng)等物理連接、廣域網(wǎng)、以太網(wǎng)、因特網(wǎng)、內聯(lián)網(wǎng)等。
本領域的技術人員將認識到用于存儲程序指令的存儲設備可分布在網(wǎng)絡上。例如，遠程計算機可存儲描述為軟件的該過程的示例。本地或終端計算機可訪問遠程計算機并下載該軟件的一部分或全部以運行該程序?；?br> 者，本地計算機可按需下載軟件的片斷，或可以在本地終端處執(zhí)行一些軟件指令而在遠程計算機(或計算機網(wǎng)絡)處執(zhí)行一些軟件指令。本領域的技術人員將認識到，通過使用本領域技術人員已知的常規(guī)技術，軟件指令的全部或部分可由專用電路，如DSP、可編程邏輯陣列等來執(zhí)行。
如本領域的技術人員將清楚的，此處給出的任何范圍或者設備值都可以被擴展或者改變而不失去所尋求的效果。
本文中描述的各方法步驟可以在適當時按任何合適的次序或同時執(zhí)行。
雖然此處將各示例描述并示出為在基于web的搜索系統(tǒng)中實現(xiàn)，但是所描述的系統(tǒng)只是作為示例而非限制來提供的。本領域的技術人員將會認識到，本發(fā)明的示例適于在各種不同類型的信息檢索系統(tǒng)中應用。
可以理解，上面對于較佳實施例的描述僅僅是作為示例給出的，而本領域的技術人員可以做出各種修改。
權利要求
1. 一種形成供在信息檢索系統(tǒng)中使用的文檔索引的方法，所述方法包括以下步驟(i)指定多個字段，包括可以聯(lián)合每一文檔使用的至少一個反饋字段；(ii)訪問多個文檔，且對于那些文檔的每一個，使用來自所訪問的文檔的信息填充至少某些字段；(iii)接收包括多個查詢項、所述文檔中特定一個文檔哪個的標識符、和關于反饋的類型的信息的反饋信息；(iv)對于所述文檔中所述特定一個文檔，在關于所述反饋類型的信息的基礎上用所述多個查詢項來填充反饋字段；(v)在所填充的字段是基礎上形成所述文檔的索引；(vi)接收多個查詢項；(vii)在所述多個查詢項的基礎上從所述索引中獲得文檔統(tǒng)計數(shù)據(jù)，并使用搜索算法來生成經(jīng)排序的文檔列表，所述搜索算法適于與多個查詢項和多個文檔字段一起使用并被安排成提供對所述字段的差異加權。
2. 如權利要求1所述的方法，其特征在于，所述關于反饋類型的信息包括關于所述反饋是肯定還是否定的信息。
3. 如權利要求1或權利要求2所述的方法，其特征在于，所述關于反饋類型的信息包括關于所述反饋是顯式還是隱式的信息。
4. 如前述任一權利要求所述的方法，其特征在于，所述指定字段的步驟包括指定多個反饋字段，每一反饋字段都對應不同類型的反饋。
5. 如前述任一權利要求所述的方法，其特征在于，所述形成索引的步驟包括在所述字段和至少某些反饋字段的基礎上生成文檔統(tǒng)計數(shù)據(jù)。
6. 如權利要求5所述的方法，其特征在于，所述索引被重復地更新。
7. 如權利要求6所述的方法，其特征在于，所述索引被充分頻繁地更新，使得在搜索期間，反饋信息被動態(tài)地合并入所述文檔中并被用來影響正在進行的搜索。
8. 如權利要求6所述的方法，其特征在于，所述反饋信息被用來影響査詢間搜索。
9. 如前述任一權利要求所述的方法，其特征在于，包括在指定的時間段之后清空所述反饋字段。
10. 如前述任一權利要求所述的方法，其特征在于，包括在所流逝的時間的基礎上調整與所述反饋字段相關聯(lián)的權重。
11. 如前述任一權利要求所述的方法，其特征在于，所述信息檢索系統(tǒng)是圖像檢索系統(tǒng)且所述文檔是圖像。
12. —種用于形成供在信息檢索系統(tǒng)中使用的文檔(11)索引(31)的裝置，所述裝置包括-(i) 被安排成指定多個字段(22、 23、 24、 25、 26)的索引生成器(32)，所述多個字段包括可以聯(lián)合每一文檔使用的至少一個反饋字段(25、 26);(ii) 所述索引生成器(32)具有被安排成訪問多個文檔的接口 (33)，所述索引生成器具有被安排成對于那些文檔的每一個使用來自所訪問的文檔的信息填充至少某些所述字段的處理器；(Hi)所述索引生成器具有被安排成接收包括多個査詢項、所述文檔中特定一個文檔的標識符、和關于反饋的類型的信息的反饋信息(13、 14)的另一接口 (34);(W)所述索引生成器的處理器被安排成對于所述文檔中所述特定一個文檔，在所述關于反饋類型的信息的基礎上用所述多個査詢項來填充反饋字段(25、 26);(v) 所述索引生成器的處理器被安排成在所填充的字段的基礎上形成所述文檔的索引；(vi) 被安排成接收多個查詢項的接口；(vii) 被安排成在所述査詢項的基礎上從所述索引(31)中獲得文檔統(tǒng)計數(shù)據(jù)的搜索引擎(30)，所述搜索引擎包括被安排成在所述搜索引擎中實現(xiàn)以生成經(jīng)排序的文檔列表的搜索算法，所述搜索算法適于與多個查詢項和多個文檔字段一起使用并被安排成提供對所述字段的差異加權。
13. 如權利要求12所述的裝置，其特征在于，所述關于反饋類型的信息包括關于所述反饋是肯定還是否定的信息。
14. 如權利要求12或權利要求13所述的裝置，其特征在于，所述關于反饋類型的信息包括關于所述反饋是顯式還是隱式的信息。
15. 如權利要求12到14中任一項所述的裝置，其特征在于，所述索引生成器被安排成在所述字段和至少某些反饋字段的基礎上生成文檔統(tǒng)計數(shù)據(jù)。
16. 如權利要求15所述的裝置，其特征在于，所述索引生成器被安排成重復地更新所述索引。
17. 如權利要求12到16中任一項所述的裝置，其特征在于，所述信息檢索系統(tǒng)是圖像檢索系統(tǒng)且所述文檔是圖像。
18. 如權利要求12到17中任一項所述的裝置，其特征在于，所述索引生成器的被安排成接收反饋信息的接口 (34)被安排成接收關于所述反饋是肯定還是否定的信息。
19. 一種包括適用于在所述程序在計算機上運行時執(zhí)行如權利要求1至11中任一項所述的所有步驟的計算機程序代碼裝置的計算機程序。
20. 如權利要求19所述的計算機程序，其特征在于，所述計算機程序被包含在計算機可讀介質上。
全文摘要
諸如web搜索系統(tǒng)等信息檢索系統(tǒng)在查詢項的基礎上在數(shù)百萬甚至數(shù)十億可能的文檔中定位文檔。為實現(xiàn)這點，創(chuàng)建了文檔索引。建議在文檔中創(chuàng)建新的字段以存儲反饋信息。該信息包括在特定搜索中所使用的查詢項以及關于是否對所檢索到的特定文檔給予例如肯定反饋或否定反饋的信息。在該反饋信息加上其它可用信息的基礎上創(chuàng)建索引。結果，改進了搜索結果的相關性。對給定文檔有多個信息字段(如摘要字段、標題字段、錨文本字段以及此處的反饋字段可用。使用了處理多個字段以及多個查詢項并提供對文檔字段的差異加權的任何搜索算法。
文檔編號G06F17/30GK101460949SQ200780020322
公開日2009年6月17日申請日期2007年3月15日優(yōu)先權日2006年6月1日
發(fā)明者H·E·威廉姆斯, M·J·泰勒, N·E·克拉斯韋爾, S·羅伯遜申請人:微軟公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：M.J.泰勒;S.羅伯遜;H.E.威廉姆斯;N.E.克拉斯韋爾
技術所有人：微軟公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

索引文檔以供信息檢索的制作方法