專利名稱::一種能夠運行在不同格式的廠商站點上的電子購物代理的制作方法
技術領域:
:本發(fā)明涉及一種電子購物代理,或稱之為“智能搜索工具(bots)”,它能運行在因特網(Internet)上,便于客戶查找能夠提供他們感興趣的商品和服務的在線廠商。
背景技術:
:隨著個人計算機的日益普及,因特網和網絡相關技術也得到廣泛發(fā)展。其中發(fā)展最快的商業(yè)領域之一是電子商務,特別是零售方式的用戶購物。因特網能使用戶迅速地找到他們感興趣的商品和服務。在很多情況下,他們能夠在網頁上看到商品的圖像并能直接訂貨。用戶可以通過信用卡進行電子付款,然后商品就能運送給他們。比較購物(comparativeshopping)使用因特網作為一種搜尋和檢索工具來定位和檢索類似商品的信息和價格,也是一個發(fā)展迅速的領域。已經有幾種可用于因特網上的比較購物工具,如Junglee和Jango。這些購物工具能夠接受用戶輸入的關鍵字和種類信息,用來創(chuàng)建一種自動代理或“購物智能搜索工具”,其在因特網上瀏覽并從一組在線廠商定位相關產品,查找到的產品條目再由購物智能搜索工具返回,然后利用簡單的表格方式呈現(xiàn)給用戶,從而用戶就可以進行比較購物。盡管現(xiàn)有的購物工具能夠幫助用戶進行比較購物,但在所有的購物智能搜索工具中仍存在著一些局限性。首先是包含在比較庫(conparisonpool)中的用戶能訪問并用于比較的在線廠商的數(shù)量很小。這一局限性主要歸因于一個歷史事實,即因特網的演變。因特網最初被設計為采用一種非常特殊的被稱為超文本標記語言(HTML)的格式對信息進行編碼來運行的。HTML是一種表示語言,它使用嵌入在文檔中的代碼來定義文檔的特殊部分如何在像Web瀏覽器這樣的顯示機制上呈現(xiàn)出來。雖然HTML有預先定義的和固定的格式,但它不能給出任何用這種HTML格式化的信息的本意或語義。因此,盡管Web瀏覽器能夠讀取HTML并能使用HTML代碼來識別信息中的選定部分,比如文本和圖形,但瀏覽器不能使用HTML代碼從已識別的文檔部分析取信息。另外,依賴不同設計者和廠商的喜好,偏愛和市場需求網頁常常極為不同。因此,對于一個搜索引擎來說,從種類繁多的使用不同HTML代碼的網頁上析取象物品價格這樣的特定信息是困難且冗長的。為了克服這一困難,一些購物智能搜索工具使用諸如所謂的“包裝(wrappers)”或“信息適配器(informationadapters)”這樣的機制,其中的一種機制被編程以發(fā)現(xiàn)或“獲悉”有關每個廠商站點的每一產品的類別。但是,這些機制的運行速度很慢,且通常會耗費數(shù)小時至數(shù)天的時間才能將一個新的廠商包含在比較庫中。而且,一旦廠商改變了其網頁的格式,為了使搜索引擎繼續(xù)工作,也需要耗費大量的時間來改變用于該廠商站點的機制。因特網上持續(xù)不斷的信息流量需要購物智能搜索工具的提供者雇用大量的程序員來設計和維護他們的服務,而所能覆蓋的廠商站點的數(shù)目必定還是很小的。第二點限制是用戶通過已有的購物智能搜索工具所能獲得的信息量。目前,大多數(shù)購物智能搜索工具僅能向用戶提供有限的信息,如商品的價格、商品的簡要說明和廠商的鏈接。但是,在用戶看來,價格也許并不是決定購物的唯一標準。其它的因素,比如運貨日期、保證信息、廠商的信譽以及服務等,常常也會對購物的決策產生影響。盡管向已有的購物智能搜索工具增添附加的標準是可能的,但這意味著要修改對應不同類別、子類別以及廠商站點的成百甚至成千的“包裝”或“信息適配器”。這一工作無論是在時間還是在人力資源上都是一項很大的投入?,F(xiàn)有購物智能搜索工具的第三點限制是它的性能和搜索結果的準確率。大多數(shù)已有的購物智能搜索工具速度都很慢,并需要耗費較長的時間才能產生搜索結果。因此,許多現(xiàn)有的系統(tǒng)把從廠商站點檢索到的信息存儲于一個本地數(shù)據庫中,這樣可使搜索速度大大加快。但是,本地數(shù)據庫僅能通過與廠商站點連接而得到周期性的更新,因此搜索的結果經常是過時的,并且不是很準確或者說并未反映廠商站點的實際情況。因此,需要有一個能夠運行在各種不同格式的廠商站點上的購物智能搜索工具,其能快速適應現(xiàn)有廠商站點新的格式或變化。還要求有一個能夠被容易和快速地修改的購物智能搜索工具,以便檢索和顯示與廠商站點當前展示的信息相比新的、不同的信息。還需要有一個能夠快速地向用戶提供準確和及時的信息的購物智能搜索工具。
發(fā)明內容根據本發(fā)明的原理,當產生一個信息請求時,一個購物智能搜索工具可以使用實時代理,該代理自動與各不相同的、提供大量不同類別和廠商的網頁相連接,檢索和統(tǒng)一這些網頁的信息以便進行顯示。這樣,就不必為每個類別或廠商創(chuàng)建一個“包裝”或“信息適配器”,因為同一代理能夠檢索和處理不同格式的信息。尤為特別的是,購物智能搜索工具根據用戶輸入的關鍵字和一個URL(統(tǒng)一資源定位符)信息數(shù)據庫產生查詢,然后對查詢返回的信息進行過濾、語法分析并將其轉換成一種標準的格式。這樣,被格式化的信息就能顯示出來。由于信息能夠被實時地轉換成標準格式,本發(fā)明就能快速地添加在線廠商,而且附加的商品類別也能快速容易地添加。此外,隨著市場需求的增加,產品項目信息能夠很容易地得到擴充而不用逐個修改代碼數(shù)據庫。根據本發(fā)明的一個實施例,URL信息數(shù)據庫包括每個廠商站點上各個站點目錄特定的URL地址,這樣就可以通過用戶提供的關鍵字很容易地產生查詢。根據本發(fā)明的另一個實施例,從廠商站點檢索到的信息包括瀏覽器通常顯示的信息。對這種典型的HTML或XML格式的信息進行語法分析和過濾,并使用一個多級樹(hierarchicaltree)結構將信息轉換成要求的類別,之后顯示比較信息。根據本發(fā)明的又一個實施例,使用高效的高速緩存和分布式算法來減少用戶的響應時間。本發(fā)明上述的和更多的優(yōu)點可以通過參考下面結合附圖的描述更好地理解。其中圖1是一個網絡配置的示意性方框圖,該網絡配置包括因特網,并將幾個本地計算機系統(tǒng)連接至遠程服務器;圖2是說明了本發(fā)明的購物系統(tǒng)主要組成部分的示意性方框圖;圖3A和圖3B一起構成一個流程圖,說明了本發(fā)明通過存儲的用于發(fā)布查詢至廠商站點的URL并行產生查詢以及并行處理結果的過程;圖4是說明從查詢結果中抽取相關信息的過程的流程圖;圖5是處于一個有三個結點層次的多級樹分枝上的信息的例示圖;圖6是處于另一個有三個結點層次的多級樹分枝上的信息的例示圖;圖7是處于又一個也有三個結點層次的多級樹分枝上的信息的例示圖。具體實施例方式圖1示出了一種普遍使用的網絡配置,在該配置中,本地計算機系統(tǒng)100和102通過局域網(LAN)104連接到本地服務器106上,該本地服務器106可以通過因特網108訪問多臺遠程服務器110-114。每臺遠程服務器110-114可以包括萬維網站點(網站),而每個網站包括多個萬維網網頁(網頁)。每個本地計算機系統(tǒng)100和102(其中系統(tǒng)100被詳細顯示)可以使用網絡瀏覽器軟件101訪問遠程網站,這些瀏覽器軟件包括如加利福尼亞MountainView網景(Netscape)通信公司的NetscapeNavigatorTM或華盛頓雷蒙德微軟公司的InternetExplorer。一個網站有一個位于最高層次的主頁。主頁一般包含有關廠商的綜合信息,其中包括生動的圖像,主頁還可能包含其它信息,如一個允許訪問網站的用戶定位至其它構成該站點的網頁上的菜單。站點也可包括一個站點目錄,該目錄是一個含有與其它網頁的鏈接的網頁。一個站點目錄經常包括一個站點搜索部件,該部件是一個能夠接收關鍵字形式的用戶輸入并搜索匹配站點的完整的搜索引擎。用戶使用的信息,如產品說明和價格,一般位于較低的層次級別上。訂購信息,如信用卡信息,可能會存放在站點的另一層次上。萬維網實際上是一個在因特網108上使用超文本傳輸協(xié)議(HTTP)的服務器的集合。HTTP是一個公知的為用戶提供文件(該文件可使用不同的格式,如文本,圖形,圖像,聲音和視頻)訪問的應用協(xié)議,這種文件使用一種被稱為超文本標記語言(HTML)的標準頁描述語言。在許多基本的文檔格式化功能中,HTML允許軟件開發(fā)者在顯示的網頁上定義指向駐留在遠程服務器上其它網頁的圖形指針(通常指的是“超鏈接”)。超鏈接通常以高亮文本或其它生動圖像的形式顯示在網頁上。使用一個指點設備如計算機鼠標選擇一個超鏈接,能使本地計算機從遠程服務器上下載相關網頁的HTML代碼。網頁的位置用“統(tǒng)一資源定位符”(URL)來表示。這種方法能為遠程服務器提供必要的信息以上傳與本地計算機選定的細目相關的遠程網頁。在線廠商構建的網站包括待售商品的說明和/或圖片。每個站點一般都以含有多個結點的分級分支樹結構配置,這些結點包含了該站點中一個或更多網頁。該站點上的每個結點都被設想處于樹結構每個分支的不同層次上。例如,如果第一結點中一個網頁的URL包含同一分支中的第二結點,則該第一結點就被認為處在比第二結點更低的層次上。相反,如果第二結點中一個網頁的URL包含同一分支中的第三結點,則該第三結點就被認為處在比第二結點更高的層次上。經由瀏覽器軟件101在因特網上訪問網頁,并且網頁通常被下載至本地計算機系統(tǒng)100的一個高速緩存103中。然后瀏覽器軟件101使用HTML代碼將各種文件定位在顯示屏幕上。本發(fā)明的購物系統(tǒng)在圖2中加以說明,它包括一個搜索引擎核心(SEK)206,一個或更多的搜索引擎208-212,以及一個或更多的自動學習對象(ALO)214-218。內核206可以設在本地服務器上(圖1,106),與一個或更多的用戶200-204相互作用以接收用戶的信息請求并將結果發(fā)回到做出請求的用戶。SEK206最好是一個獨立的平臺,以便它能夠運行于任何硬件平臺和操作系統(tǒng)上。在一個實施例中,SEK206是用SunMicrosystems公司的Java程序語言編寫的,且它能運行于任何平臺,只要該平臺以Java環(huán)境運行。SEK206首先分析用戶的請求,然后根據該用戶的請求啟動合適的功能。例如,SEK206可以從一個用戶200-204接收一個有關具有特定主題,比如有關“子女婚姻支持”(childspousalsupport)的主題的書籍的請求信息。請求準則(criteria)由用戶以各種不同的方式輸入。該準則可經由一個互動界面輸入,通過該互動界面用戶回答一系列基于關鍵字的問題。或者,用戶可以使用下拉列表和菜單選擇一個預定義的類別,比如從項目列表或圖形顯示中選擇“書籍”。一般來說,請求包括至少一種類別,比如“書籍”或“汽車”,還包括選擇的關鍵字,比如“子女”,“婚姻”和“支持”,或者包括一個短語“子女婚姻支持”,該短語可由常規(guī)的分析程序分解為一個或更多關鍵字。在應答中,SEK206產生一個或更多與所選主題相關的查詢。為了產生這些查詢,SEK206使用了一個內部URL數(shù)據庫220。該數(shù)據庫可包括由參與廠商所設立的表目,或可以是一個手工下載的表,或可由維護本發(fā)明購物系統(tǒng)的公司來提供。數(shù)據庫220包含了大量由類別配置的URL。當用戶輸入一個類別時,數(shù)據庫220將返回該用于類別的URI。根據本發(fā)明的一個重要方面,存儲在數(shù)據庫220中的URL不是某個特定廠商站點的URL,而是站點目錄的URL,特別是各個站點的站點搜索的URL。這些URL很容易與用戶鍵入的關鍵字結合起來以形成一個查詢。這種查詢利用存在于大多數(shù)廠商站點中的內部搜索引擎來完成至少一部分搜索,從而減輕了本發(fā)明系統(tǒng)不得不創(chuàng)建對每個廠商站點特定的查詢的負擔。例如,繼續(xù)上面的例子,如果用戶已經選擇了“書籍”這一類別,則SEK206可以從數(shù)據庫220中檢索象amazon.com和kingbooks.com這樣的在線書籍銷售商的URL。但是,從數(shù)據庫220檢索到的URL實際上是這些站點上的搜索引擎的URLhttp//www.amazon.com/exec/obidos/external-search/?和http//www.kingbooks.com/scripts/search3.exe?by=keywords&這些URL采取很容易與用戶鍵入的關鍵字結合的形式,以便形成如下的查詢http//www.amazon.com/exec/obidos/external-search/?keyword=child+Spousal+support和http//www.kingbooks.com/scripts/search3.exe?by=keywords&keyword=child+spousal+support這些查詢很有益,因為它們使用各自網站上的內置搜索引擎來完成實際的搜索,這樣就緩解了SEK必須為每個站點定制一個搜索以及當站點變化時必須改變這種定制好的搜索的壓力。但是,一些廠商站點沒有內部搜索引擎。取而代之的是,一些站點有一個在線目錄而其它站點則只是些簡單的網頁。在廠商站點有目錄的情形下,程序員必需進入站點并定位至產生用戶選擇的的目錄區(qū)域。對應這些目錄區(qū)域的URL經常就能與用戶鍵入的關鍵字結合以產生需要的查詢。數(shù)據庫220可以包含一個廠商站點的幾個URL,而每個URL都被轉換為一個或更多的關鍵字。當用戶鍵入用來查詢的關鍵字時,就使用該關鍵字選擇一個廠商站點的URL,然后通過將選擇的關鍵字與用戶鍵入的信息結合而產生最終的查詢。在廠商站點只是一個簡單的網頁集合的情形下,程序員必須進入站點并直接定位至一個顯示產品項目的網頁上。然后將識別該網頁的URL鍵入數(shù)據庫220中,并把該URL轉換成從該網頁內容選擇的各種各樣的關鍵字。隨后,當用戶鍵入關鍵字信息時,該信息就用于從數(shù)據庫220中選擇被轉換成匹配關鍵字的URL。后面這種方法不如使用一個內部站點搜索那樣有益,因為如果廠商站點改變,則轉換也必須改變。如上所述,某個廠商的關鍵字是基于用戶選擇的類別來選定的,并且使用與關鍵字相匹配的該廠商站點的URL形成一個查詢。用這種方式,可以為每個在選擇的類別中具有一個URL的廠商站點產生查詢。當每個查詢產生時,SEK產生一個搜索引擎線程(thread),例如搜索引擎208,并為它提供一個廠商站點的查詢。搜索引擎208將這一查詢發(fā)布給合適的廠商站點。作為應答,該廠商站點返回查詢的結果。發(fā)布查詢的搜索引擎208收到來自該廠商站點的查詢結果并將其轉發(fā)給SEK206。當收到結果時,SEK為每個廠商站點產生一個ALO,例如ALO214。ALO處理這些結果以析取相關的信息。析取的信息返回到SEK206用以格式化顯示。最后,格式化的結果返回至發(fā)出最初請求的一個用戶200-204。整個過程在圖3A和3B的流程圖中進行了說明,當這兩個圖放在一起時,就構成了一個完整的流程圖。過程開始于步驟300,并進行到步驟302,在此嘗試在用戶選擇的類別下從SEK數(shù)據庫220中檢索一個廠商URL。在步驟304中,進行一項檢查來確定這一嘗試是否成功。如果不存在額外的URL并且檢索不成功,則過程將進行至步驟306并結束?;蛘撸诓襟E304中,如果從數(shù)據庫220中檢索到一個額外的URL,則過程將進行至步驟308。在步驟308中,通過將該URL與用戶鍵入的關鍵字相連接可以產生一個查詢。如上所述,在很多情況下,該查詢將直接指向一個位于廠商站點的站點搜索引擎。接著,在步驟310中,產生一個本地搜索引擎線程來發(fā)布查詢至相應的網站。然后過程返回至步驟302以檢索另一個URL并產生另一個搜索引擎線程。每個搜索線程的運行過程在圖3B中加以說明。特別的是,過程經由脫頁(off-page)連接器312和316進行至步驟318,在該步驟中,SEK產生一個自動學習對象以接收來自一個廠商站點的搜索結果。搜索引擎收到由廠商站點搜索引擎產生的查詢結果并將其轉發(fā)給先前產生的ALO,這在步驟320中加以闡明。來自一個站點的數(shù)據可能不馬上返回,但是一接收到數(shù)據,ALO便開始處理過程。在步驟322中,發(fā)布查詢的本地搜索引擎接著等待確定是否廠商站點將提供額外的結果。如果收到額外的結果,則重復步驟320。換言之,如果在步驟322中確定沒有額外的結果,則過程在步驟324結束。SEK206跟蹤產生的所有ALO208-212,并在ALO208-212之間執(zhí)行必要的同步。有益的是,搜索過程與不同的搜索引擎線程正在處理的各個查詢并行進行,且相應的結果由不同的ALO來處理。這種并行處理極大地減少了獲得比較結果所需要的時間。另外,從用戶接收請求信息并初始化一個搜索引擎的過程非常短,這樣就只耗費最短的時間。SEK中各種不同的ALO共享相同的資源,使內部處理通信更加高效,并消除了不必要的轉換?;陬悇e、子類別、產品名以及用戶提供的其它相關信息,SEK206啟動一個或更多的搜索引擎208-212來檢查所有可能擁有用戶請求的產品信息的廠商站點。每個搜索引擎執(zhí)行一個由SEK產生的查詢,并到相關的網站上檢索所需的信息。通常,通過上述查詢從一個網站檢索到的信息要通過一個瀏覽器顯示出來。該信息經常要使用象HTML或XML那樣的“表示語言”或其它表示性語言來編碼。HTML是一種簡單的“標記語言”,它適于顯示小且相對簡單的文檔,這些文檔通常在萬維網上傳送。另一種被稱為可擴展標記語言(XML)的標記語言經常用于更復雜的文檔,這些文檔要求比由HTML提供的更好的性能。XML更容易擴展,并允許確認,還定義了怎樣使用URL來識別XML文檔的組成部分。HTML和XML文檔由一系列的實體或對象組成。每個實體能包含一個或更多的邏輯元素,而每個元素能夠具有確定的描述其被處理的方式的屬性或性質。這兩種語言都能提供一種正式的語法用以描述組成文檔的實體、元素以及屬性之間的關系。這種語法告訴一臺計算機怎樣組織每個文檔的組成部分。HTML和XML使用成對的標記符來識別文檔的組成部分。這種標記符是一些很容易辨認的代碼,它們被添加到文檔中以識別每個文檔組成部分。特別地,每個邏輯元素的開始和結束都通過在元素前加入一個開始符和在元素后加入一個結束符來清楚地識別。例如,能以下面的方式使用標識符<to>和</to>來識別一個文檔的元素“recipient”documenttext...<to>Recipient</to>...documenttext.標記符的編排是分級的,因此一些標記過的文檔部分能夠包含其它標記過的文檔部分。為使用一整套標記符,用戶需要知道怎樣根據正文和不同元素間的關系來確定這些標記符。例如,在一些XML系統(tǒng)中,元素和它們的屬性在一對匹配的角形括號(<...>)內輸入,而元素用一個“與”符號定位開始,用一個分號定位結束(&...;)。在HTML中整套標記符是固定的且規(guī)模相對較小。在XML文檔中,標記符的形式和組成能由用戶定義,但為了在用戶間提供互用性,經常由一個同業(yè)公會或類似的團體來定義。XML標記符組基于文檔的邏輯結構,因而容易閱讀和理解。XML能夠描述更多種類的文檔,但既然不同的文檔有不同的部分或組成,那么為所有文檔的所有元素預定義標識符是不現(xiàn)實的。相反,能夠將文檔歸類成“類型”,而每種類型都有確定的元素。一個文檔類型定義(DTD)規(guī)定了一個文檔類型中期望有哪些元素,還規(guī)定了在文檔中發(fā)現(xiàn)的每個元素是不被允許、或是允許且需要還是允許但不需要。通過在DTD中定義每個文檔元素的角色,就有可能檢查每個元素是否處在文檔中的合法位置。例如,一個XMLDTD允許檢查當不存在一個二級標題時鍵入了一個三級標題。如果從上述查詢返回的信息中的標識符識別了與本發(fā)明購物智能搜索工具相關的文檔的組成部分,比如商品說明,價格等,那將是很便利的。但是,在大多數(shù)情況下,返回的信息被編碼以便在一個瀏覽器上顯示,且必須進一步處理才能析取所要求的購物信息。下面給出一個從查詢中返回的信息的例子。這一信息用HTML代碼來編碼,并由前面提到的Netscape或InternetExplorer瀏覽器來使用。<prelisting-type="program-listing"><html><head><title>BooksFoundbySearch</title><head><bodybgcolor=”#FFFFFF”><divalign=”center”><center><tableborder=”0”width=”750”><tr><tdwidth=”375”><fontcolor=”#000000”size=”5”><strong>BooksFoundbySearch<br><br></strong></font><fontcolor=”#000000”size=”3”>Yoursearchbroughtup1titles.<br>Clickonatitleformoreinformation.</font></td><tdvalign=”top”width=”375”><fontsize=”4”><imgsrc=”/images/future.gif”width=”20”height=”20”>&amp;nbsp;Thisiconrepresentsnewandupcomingreleases.><br></font>Forcurrentavailabilityinto,pleaseclickonthetitle.</td></tr></table><tableborder=”0”width=”750”><tr><tdwidth=”750”>Yoursearchresultissortedbypublicationdatewithmostrecentonefirst.</td></tr></table></center></div><!--SIPO<DPn="11">--><dpn="d11"/><!--lSBN0944058316--><divalign=”center”><center><tableborder=”0”width=”750”><tr><tdwidth=”40”><fontsize=”4”><strong>1.</strong></font></td><tdwidth=”710”colspan=”5”><aname=”0370994”href=”/scripts/detail4.exe?/results/b9bflcb4.html-0370994”><fontsize=”4”>HowtoSettleChildandSpousalSupport;WithCalSuppotSoftwareWith3.5Disk</font></a></td></tr><tr><tdwidth=”40”>&amp;nbsp;</td><tdwidth=”710”colspan=”5”>Authorsherman,Ed~SubjectDomesticRelations-Divorce&amp;Separation~Pub.Date;1/1998</td></tr><tr><tdwidth=”40”>&amp;nbsp;</td><tdwidth=”710”colspan=”5”>Pub.Price$29.25~Kingbooks.comPrice<fontcolor=”#FF0000”>$23.96</font><fontcolor=”#000000”~</font>YouSave<fontcolor=”#FF0000”>$5.99</font></td></tr></table></center></div><divalign=”center”><center><imgsrc=”images/redline.gif”width=”750”height=”4”></center></div></body></html></pre>該信息必須被處理以獲取ALO所執(zhí)行的過程的相關信息。如上所述,為縮短處理時間,需要為SEK206收到的每個結果集產生一個單獨的ALO線程。圖4中的流程圖說明了一個處理程序的例子。這一程序從步驟400開始并執(zhí)行到步驟402。在步驟402中,一個過濾裝置將刪除格式化信息和屬性。這一過濾功能能用一種識別標記符的分析機制來實現(xiàn)。這種分析機制對諸如HTML和XML這樣的表示語言是眾所周知的。接著,被識別的標記符與一個預定義的標記符列表相比較,而格式化標記符如<html>,<head>,<title>,<font>,<br>等將被刪除。另外,標記符中格式化屬性也將被刪除。在上面的例子中,保留的信息將是<prelisting-type="program-listing"><table><tr><tdBooksFoundbySearchYoursearchbroughtup1titles.Clickonatitleformoreinformation.</td><td>Thisiconrepresentsnewandupcomingreleases.Forcurrentavailabilityinfo,pleaseclickonthetitle.</td></tr></table><table><tr><tdYoursearchresultissortedbypublicationdatewithmostrecentonefirst.</td></tr></table><table><tr><td1.</td><td><aname=”0370994”href=”/scripts/detail4.exe?/results/b9bflcb4.html-0370994”>HowtoSettleChildandSpousalSupport;WithCalSupportSoftwareWith3.5Disk</td></tr><tr><td>;<!--SIPO<DPn="13">--><dpn="d13"/></td><td>AuthorSherman,Ed~SubjectDomesticRelations-Divorce&amp;Separation~Pub.Date;1/1998</td></tr><tr><td>;</td><td>Pub.Price$29.95~Kingbooks.comPrice$23.96~YouSave$5.99</td></tr></table></pre>接著,如步驟404所述,保留的信息被解析成一個數(shù)據樹。在使用HTML和XML的情況下,語言是自然分級的,這使得解析相對容易。上面給出的例子被分解為三個獨立的樹,這些樹由一些用鋸齒狀的部分表示的多級結點組成(添加鋸齒以強調各組成部分)。這些樹在圖5,6和7中加以說明并由標記符<table></table>加以描繪。圖5說明第一個樹包括一個由包含在<table></table>標記符之間的信息組成的第一級結點500,一個由<tr></tr>標記符加以描述的第二級結點502以及兩個由<td></td>標記符加以描述的第三級結點504和506。以同樣的方式,圖6說明第二個樹包括一個由包含在<table></table>標記符之間的信息組成的第一級結點600,一個由<tr></tr>標記符加以描述的第二級結點602以及一個由<td></td>標記符加以描述的第三級結點604。圖7說明第三個樹包括一個由包含在<table></table>標記符之間的信息組成的第一級結點700,三個由<tr></tr>標記符加以描述的第二級結點702、704和706以及六個由<td></td>標記符加以描述的第三級結點708-718。如步驟406所闡述的,每一個樹的結點將被檢查以確定它們是否含有相關的信息。正如圖中箭頭所示,這些結點按級別順序被檢查,以便找到含有一些或所有要求信息的“完整”的結點級別。例如在圖5中,首先檢查結點500。由于它是空的,所以接著檢查處于第二級的結點502。它也是空的,于是檢查處于第三級的結點504和506。結點504和506含有信息,該信息將象下面所討論的那樣被檢查。但是,由于結點504和506含有的信息都不是相關的信息,如上述例子中書的標題、作者或價格,因而包含結點500和502的整個樹將被刪除,不再考慮。如果在步驟408(圖4)中確定沒有發(fā)現(xiàn)相關的信息,則過程將返回至步驟406。下一步,在步驟406中檢查圖6所示的樹。首先檢查結點600,由于它是空的,所以接著檢查結點602。它也是空的,所以檢查結點604。結點604含有信息并且該信息將象下面所討論的那樣被檢查。但是,由于結點604不含有相關的信息,因而包含結點600和602的整個樹將被刪除,不再考慮。然后過程繼續(xù)從步驟408返回至步驟406。接著,檢查圖7表示的樹。首先檢查結點700。由于它是空的,所以檢查結點702、704和706。這些結點也是空的,所以檢查結點708-718,所有這些結點都含有被檢查的信息。結點710,714和718含有相關的信息,因而在步驟410中,該信息被一個析取機制析取并映射至相應的緩沖區(qū)中。在上述例子中,結果如下TitleAuthorDescriptionPriceHowtoSettleChildSherman,Ed~DomesticRelations-Divorce&$23.96andSpousalSupport;Separation~PubDate1/1998WithCalSupportPub.Price$29.95SoftwareWith3.5Disk在步驟412中,被緩沖的信息返回至SEK,在這里信息被格式化以便在用戶的計算機上顯示。這樣,過程便在步驟414結束。為了在每個結點上析取信息,將對照針對正被檢查類別的規(guī)則集檢查信息。規(guī)則集中的每個規(guī)則定義了一個或多個字段(field)的特征。例如,一個規(guī)則可能規(guī)定如果某個結點包含所有相關的字段,它就是完整的。在上述例子中,這些字段是標題、作者、說明和價格。如果一個字段不存在,另一個規(guī)則可能要求進一步檢查以確定該結點是否完整以及是否應析取來自該結點的信息。例如,如果在一個結點中發(fā)現(xiàn)一個價格字段和一個名字字段,則該結點很可能包含相關的數(shù)據。通過搜索對每個類別特定的關鍵字、符號或數(shù)據類型,可以定位每個結點中的相關信息。于是,可以檢查與這些關鍵字臨近的單詞以尋找相關的信息。例如,可以檢查每個結點以尋找諸如“名字”、“標題”、“說明”、“價格”或“作者”這樣的字符串。如果發(fā)現(xiàn)任何關鍵字,那么隨后的字符將被認為是相關的信息。另一個規(guī)則可將一個價格字段定義為結點中遇到的最小的數(shù)字,在其前面使用或不使用“$”符號。價格字段也可被定義為一個在其前有或沒有“價格”關鍵字的數(shù)字。規(guī)則能以多種方式產生。在一個具體的實施例中,規(guī)則由程序員為每個廠商站點制定并維護。在本實施例中,處理所接收數(shù)據的ALO將從規(guī)則集中尋找一個與數(shù)據匹配的規(guī)則并使用該規(guī)則析取數(shù)據。在另一個實施例中,搜索結果被解析為如上所述的樹結點,ALO將檢查每個結點以尋找關鍵字,該關鍵字是從一個取決于用戶選擇類別的關鍵字集中選擇的。然后析取在這些預先確定的關鍵字之后的信息。在這一方案中,每個站點不必有單獨的規(guī)則,而規(guī)則也不必由程序員維護。換言之,能夠制定規(guī)則以允許用戶在一個數(shù)據樹的特定層次上手動地選擇一個數(shù)據塊,以使程序能夠在每次返回結果時搜索和析取該數(shù)據塊。由于可以為每個字段制定規(guī)則,所以每個ALO都是非常靈活和通用的。這種靈活性允許將不同的廠商快速且容易地添加至搜索和比較庫中。它也允許從一個取決于消費者或市場需求的站點上搜索不同的信息。在一個選擇性實施例中,該系統(tǒng)可以做為一個與計算機系統(tǒng)一起使用的計算機程序產品來實現(xiàn)。這一實現(xiàn)可能包含一系列的計算機指令,這些指令固化在一個有形的介質,比如一個計算機可讀的媒介(如硬盤,CD或非易失性存儲器)中,或者經由一個調制解調器或其它接口設備,比如一個網絡,傳輸給一個計算機系統(tǒng)。這一系列計算機指令包含了前述有關該系統(tǒng)的所有或部分功能。本領域的技術人員應該理解,這些計算機指令能夠使用許多種程序語言來編寫,以便用于許多種計算機體系結構或操作系統(tǒng)。并且,這些指令可以存儲在任何存儲設備里,如半導體、磁介質、光學或其它存儲設備,并且可以使用任何一種通信技術如光學、紅外線、微波或其它傳輸技術來傳輸。人們希望這種帶有打印的或電子文檔(如壓縮包軟件)的計算機程序產品能夠通過可移動介質來傳播,能夠預加載于一個計算機系統(tǒng)中(如加載于系統(tǒng)ROM中或固定的磁盤上),或能夠通過網絡(如因特網或萬維網)從一個服務器或電子公告板發(fā)布。盡管已經公開了本發(fā)明的各種示范性實施例,但對于那些本領域技術人員來說,很明顯能夠對其進行各種改變和修改,而這些改變和修改將獲得本發(fā)明的一些優(yōu)點而不會脫離本發(fā)明的真實范圍。這些以及其它明顯的修改規(guī)定為由附后的權利要求書所涵蓋。權利要求1.一種用于響應包括一個類別和一個關鍵字的用戶請求,從多個具有不同信息格式的廠商站點檢索比較物品信息的裝置,該裝置包括一個數(shù)據庫,包含多個類別,以及對于每個類別,用于多個廠商站點中的一個的至少一個URL;一個響應請求類別的查詢生成器,用于通過將從擁有請求類別的數(shù)據庫獲得的URL與請求關鍵字相連接而構成一個查詢;一個搜索引擎,用于使用查詢從多個廠商站點檢索信息;和一個自動學習對象,用于處理檢索到的信息,以便析取物品的信息。2.如權利1要求所述的裝置,其中所述查詢生成器為請求類別構成多個查詢,且其中并行于為每個查詢構造的一個搜索引擎而產生多個搜索引擎。3.如權利1要求所述的裝置,其中所述查詢生成器為請求類別構成多個查詢,其中并行于建立用以處理從每個查詢檢索到的信息的自動學習對象而產生多個自動學習對象。4.如權利1要求所述的裝置,其中所述自動學習對象包括一個過濾器,用于刪除檢索到的信息中的格式化信息;和一個分析器,用于將經過濾的信息分解為一個或更多的數(shù)據樹,每個數(shù)據樹有一個或更多的結點。5.如權利4要求所述的裝置,其中所述自動學習對象還包括一個用于檢查每個結點的相關信息的機制;和一個用于從相關信息中析取物品信息的析取機制。6.如權利1要求所述的裝置,其中檢索到的信息以HTML代碼的形式編碼,且其中自動學習對象處理HTML代碼以刪除HTML格式化標記符。7.如權利要求1所述的裝置,其中檢索到的信息以XML代碼的形式編碼,且其中自動學習對象處理XML代碼以刪除XML格式化標記符。8.如權利要求1所述的裝置,其中所述數(shù)據庫包括用于位于多個廠商站點的一個上的搜索引擎的至少一個URL。9.一種用于響應包括一個類別和一個關鍵字的用戶請求,從多個具有不同信息格式的廠商站點檢索比較物品信息的方法,該方法包括(a)構造一個數(shù)據庫,其包含多個類別,以及對于每個類別,用于多個廠商站點中的一個的至少一個URL;(b)響應請求類別,通過將從擁有請求類別的數(shù)據庫獲得的URL與請求關鍵字相連接而構成一個查詢;(c)使用一個搜索引擎利用該查詢從多個廠商站點檢索信息;和(d)創(chuàng)建一個自動學習對象,用于處理檢索到的信息以便析取出物品信息。10.如權利要求9所述的方法,其中步驟(b)包括為請求的類別構成多個查詢,其中步驟(c)包括并行于用于每個查詢的一個搜索引擎而使用多個搜索引擎。11.如權利要求9所述的方法,其中步驟(b)包括為請求的類別構成多個查詢,其中步驟(d)包括并行于建立用以處理從每個查詢檢索到的信息的一個自動學習對象而產生多個自動學習對象。12.如權利要求9所述的方法,其中步驟(d)包括(d1)刪除檢索到的信息中的格式化信息;(d2)將經過濾的信息分解為一個或更多的數(shù)據樹,每個數(shù)據樹具有一個或更多的結點。13.如權利要求12所述的方法,其中步驟(d)還包括(d3)檢查每個結點的相關信息;和(d4)從相關信息中析取物品信息。14.如權利要求9所述的方法,其中檢索到的信息以HTML代碼的形式編碼,其中步驟(d)包括處理HTML代碼以刪除HTML格式化標記符。15.如權利要求9所述的方法,其中檢索到的信息以XML代碼的形式編碼,其中步驟(d)包含處理XML代碼以刪除XML格式化標記符。16.如權利要求9所述的方法,其中所述數(shù)據庫構建為包括用于位于多個廠商站點的一個上的搜索引擎的至少一個URL。17.一種計算機程序產品,用于響應包括一個類別和一個關鍵字的用戶請求從多個具有不同信息格式的廠商站點檢索比較物品信息,該計算機程序產品包含一種計算機可用的介質,在該介質上存儲計算機可讀的程序代碼,該計算機程序產品包括用于構建一個數(shù)據庫的程序代碼,該數(shù)據庫包括多個類別,以及對于每個類別,用于多個廠商站點中的一個的至少一個URL;用于響應請求類別,通過將從擁有請求類別的數(shù)據庫獲得的URL與請求關鍵字相連接而構成一個查詢的程序代碼;用于創(chuàng)建一個搜索引擎以便使用該查詢從多個廠商站點檢索信息的程序代碼;用于創(chuàng)建一個用于處理檢索到的信息,以便析取物品信息的自動學習對象的程序代碼。18.如權利要求17所述的計算機程序產品,其中用于構成一個查詢的程序代碼包含用于為請求的類別構成多個查詢的程序代碼,其中用于創(chuàng)建一個搜索引擎的程序代碼包含用于并行于每個查詢所使用的一個搜索引擎而產生多個搜索引擎的程序代碼。19.如權利要求17所述的計算機程序產品,其中用于構成一個查詢的程序代碼包含用于為請求的類別構成多個查詢的程序代碼,其中用于創(chuàng)建一個搜索引擎的程序代碼包含用于并行于被建立用以處理從每個查詢檢索到的信息的一個自動學習對象而產生多個自動學習對象的程序代碼。20.如權利要求17所述的計算機程序產品,其中用于創(chuàng)建一個自動學習對象的程序代碼包括用于刪除檢索到的信息中的格式化信息的程序代碼;和用于將經過濾的信息分解為一個或更多的數(shù)據樹的程序代碼,其中每個數(shù)據樹具有一個或更多的結點。21.如權利要求20所述的計算機程序產品,其中用于創(chuàng)建一個自動學習對象的程序代碼還包括用于檢查每個結點的相關信息的程序代碼;和用于從該相關信息中析取物品信息的程序代碼。22.如權利要求17所述的計算機程序產品,其中檢索到的信息以HTML代碼的形式編碼,且其中用于創(chuàng)建自動學習對象的程序代碼包含用于處理HTML代碼以刪除HTML格式化標記符的程序代碼。23.如權利要求17所述的計算機程序產品,其中檢索到的信息以XML代碼的形式編碼,且其中用于創(chuàng)建自動學習對象的程序代碼包含用于處理XML代碼以刪除XML格式化標記符的程序代碼。24.如權利要求17所述的計算機程序產品,其中所述數(shù)據庫構建為包括用于位于多個廠商站點的一個上的搜索引擎的至少一個URL。25.一種包含在載波中的計算機數(shù)據信號,用于響應包括一個類別和一個關鍵字的用戶請求從多個具有不同信息格式的廠商站點檢索比較物品信息,該計算機數(shù)據信號包括用于構建一個數(shù)據庫的程序代碼,該數(shù)據庫包括多個類別,以及對于每個類別,用于多個廠商站點中的一個的至少一個URL;用于響應請求類別,通過將從擁有請求類別的數(shù)據庫獲得的URL與請求關鍵字相連接而構成一個查詢的程序代碼;用于創(chuàng)建一個搜索引擎以便使用該查詢從多個廠商站點檢索信息的程序代碼;用于創(chuàng)建一個用于處理檢索到的信息以便析取物品信息的自動學習對象的程序代碼。26.如權利要求25所述的計算機數(shù)據信號,其中用于構成一個查詢的程序代碼包含用于為請求的類別構成多個查詢的程序代碼,其中用于創(chuàng)建一個搜索引擎的程序代碼包含用于并行于每個查詢所使用的一個搜索引擎而產生多個搜索引擎的程序代碼。27.如權利要求25所述的計算機數(shù)據信號,其中用于構成一個查詢的程序代碼包含用于為請求的類別構成多個查詢的程序代碼,其中用于創(chuàng)建一個搜索引擎的程序代碼包含用于并行于被建立用以處理從每個查詢檢索到的信息的一個自動學習對象而產生多個自動學習對象的程序代碼。28.如權利要求25所述的計算機數(shù)據信號,其中用于創(chuàng)建一個自動學習對象的程序代碼包括用于刪除檢索到的信息中的格式化信息的程序代碼;和用于將經過濾的信息分解為一個或更多的數(shù)據樹的程序代碼,其中每個數(shù)據樹具有一個或更多的結點。29.如權利要求25所述的計算機程序產品,其中所述數(shù)據庫被構建為包括用于位于多個廠商站點的一個上的搜索引擎的至少一個URL。全文摘要一種購物智能搜索工具,使用實時代理,該代理自動與各種不同的、代表大量不同類別和廠商的網頁相連接,并在產生一個對信息的請求時檢索并統(tǒng)一化該信息以用于顯示。因此就不必為每個類別或廠商創(chuàng)建一個“包裝”或“信息適配器”,因為同一代理能夠檢索和處理不同格式的信息。尤其是,該購物智能搜索工具根據用戶輸入的關鍵字和一個URL信息數(shù)據庫產生查詢,然后對查詢返回的信息實時過濾、分析并轉換成一種標準格式。于是被格式化的信息就能顯示出來。由于信息被實時轉換成標準格式,故本發(fā)明就能快速地添加在線廠商,且附加的商品類別也能快速容易地添加。此外,隨著市場需求的增加,產品內容信息能夠容易地擴充而不用逐個修改代碼數(shù)據庫。根據一個實施例,URL信息數(shù)據庫包括對每個廠商站點上的站點目錄特定的URL,這樣就可以通過附加用戶提供的關鍵字很容易地產生查詢。文檔編號G06Q30/00GK1408093SQ00814894公開日2003年4月2日申請日期2000年9月27日優(yōu)先權日1999年10月7日發(fā)明者西蒙·M·林申請人:U-諾軟件公司