專利名稱::概念網(wǎng)絡(luò)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及搜索工具,尤其涉及所顯示的搜索結(jié)果。發(fā)明背景隨著諸如因特網(wǎng)等網(wǎng)絡(luò)的迅速增長,搜索的準確性和質(zhì)量變得越來越重要。但是,許多用戶發(fā)現(xiàn)使用搜索引擎的搜索產(chǎn)生大量(可能數(shù)以千計)的結(jié)果,其中許多并不嚴密地適用于他們所提交的查詢。由此,許多用戶對搜索結(jié)果不滿意。一些用戶還發(fā)現(xiàn),大量返回的査詢結(jié)果使因特網(wǎng)中包含的重要信息變得模糊不清。許多現(xiàn)有技術(shù)的搜索引擎主要是基于關(guān)鍵詞的比較??紤]詢問世界上最頂尖的N個數(shù)碼攝像機制造商的査詢,其中N是整數(shù)。關(guān)鍵詞比較搜索引擎將返回一些包含關(guān)鍵項"數(shù)字攝像機"的萬維網(wǎng)頁,以及其它包含關(guān)鍵項"制造商"的萬維網(wǎng)頁。因此,在關(guān)鍵詞比較搜索引擎中返回的涉及數(shù)碼攝像機制造商的總的返回結(jié)果的百分比相對很小。關(guān)鍵詞比較搜索引擎還無法基于制造商的萬維網(wǎng)頁來比較一特定數(shù)碼攝像機制造商是否比另一數(shù)碼攝像機制造商更大或更有名(或其它某個可量化的比較)。因此,主要基于關(guān)鍵詞比較的現(xiàn)有技術(shù)的搜索引擎常常導(dǎo)致大量結(jié)果,而其中許多與査詢的相關(guān)度很低。此類關(guān)鍵詞比較搜索引擎不能基于萬維網(wǎng)站的結(jié)構(gòu)來標(biāo)識多個搜索所得的萬維網(wǎng)站中最適用的那些。在另一個方面,許多用戶相信他們必須搜索大量査詢以獲得有用的搜索結(jié)果。因此,這些用戶相信査詢(以及就相關(guān)性對搜索結(jié)果所進行的檢査)需要大量時間以確保所有有關(guān)響應(yīng)都被考慮。即使在花費這么長時間以后,用戶也常常相信最重要的搜索結(jié)果可能湮沒在大量無關(guān)信息中。在又一個方面,許多因特網(wǎng)應(yīng)用程序使用諸如WordNet(在GeorgeA.Miller教授的指導(dǎo)下在普林斯頓大學(xué)開發(fā))等詞典工具來擴展用戶的查詢,以提高搜索引擎的精度。WordNet是一種在線詞典參考系統(tǒng)。使用WordNet,名詞、動詞、形容詞和副詞被組織成同義詞組,其中每一個都標(biāo)識一個底層的詞典概念。不同的關(guān)系鏈接各同義詞組。有了WordNet,用戶手動地輸入其相對于萬維網(wǎng)頁的個人分類法。因此,WordNet并非被適當(dāng)?shù)嘏渲贸删o隨因特網(wǎng)及其它聯(lián)網(wǎng)計算機系統(tǒng)的迅速增長和動態(tài)改變。例如,Web中出現(xiàn)的單詞有一半以上沒有出現(xiàn)在WordNet中。發(fā)明概述此發(fā)明涉及概念網(wǎng)絡(luò)。概念網(wǎng)絡(luò)可相應(yīng)于用戶查詢而生成。在一個實施例中,概念網(wǎng)絡(luò)配合搜索工具使用。搜索工具搜索多個數(shù)據(jù)存儲位置。每一個數(shù)據(jù)存儲位置都用一個節(jié)點來排列。這些節(jié)點中的某幾個由至少一個鏈路連接。概念網(wǎng)絡(luò)基于鏈路選擇這某幾個節(jié)點中的一部分,其中至少一個鏈路被用于內(nèi)容目的。附圖簡述貫穿所有附圖,相同的特征和組件引用相同的標(biāo)號。圖1是一個包括概念網(wǎng)絡(luò)的計算機環(huán)境的實施例的框圖;圖2是開發(fā)概念網(wǎng)絡(luò)的一個實施例的萬維網(wǎng)站搜索部分的另一個實施例的框圖;圖3示出用于建立概念網(wǎng)絡(luò)的域的分類法構(gòu)造的一個實施例的框圖;圖4示出可在計算機環(huán)境的顯示器上所顯現(xiàn)的概念網(wǎng)絡(luò)所顯示的結(jié)果的透視圖;圖5示出萬維網(wǎng)站結(jié)構(gòu)分析算法的一個實施例的流程圖;以及圖6示出可用于推導(dǎo)或向用戶顯示概念網(wǎng)絡(luò)的計算機環(huán)境的一個實施例的框圖。較佳實施例的詳細描述此發(fā)明提供概念網(wǎng)絡(luò)的各種實施例。在概念網(wǎng)絡(luò)中,査詢等同于被搜索的概念。在概念網(wǎng)絡(luò)中,多個搜索結(jié)果信息被結(jié)構(gòu)化地組織為向用戶顯示的多個概念。如本文所揭示的概念網(wǎng)絡(luò)根據(jù)搜索結(jié)果與查詢的各個概念的相關(guān)性檢索和/或顯示搜索結(jié)果(搜索結(jié)果是基于概念來排列的)。概念網(wǎng)絡(luò)可被配置成允許用戶基于搜索結(jié)果與用戶査詢的相關(guān)性訪問各個搜索結(jié)果、搜索結(jié)果的各個內(nèi)容、或者搜索結(jié)果的各個部分。這一概念網(wǎng)絡(luò)是基于査詢在計算機環(huán)境中生成的。術(shù)語"概念網(wǎng)絡(luò)"的一個方面涉及以概念可被用戶理解和訪問的方式將概念集合為概念網(wǎng)絡(luò)。概念網(wǎng)絡(luò)的一個實施例特別針對于因特網(wǎng),即使概念網(wǎng)絡(luò)一般可被應(yīng)用于任何計算機環(huán)境或計算機系統(tǒng)。在概念網(wǎng)絡(luò)的因特網(wǎng)實施例中,用戶可輸入查詢,而所顯示的輸出概念網(wǎng)絡(luò)可以是可由用戶選擇的概念列表。例如,如果用戶査詢"電子系統(tǒng)",所顯示的概念網(wǎng)絡(luò)可包括諸如蜂窩電話、計算機、音頻系統(tǒng)、視頻系統(tǒng)等各種概念。由此用戶可選擇作為概念網(wǎng)絡(luò)顯示的這些概念中的一個,以顯示更具體的搜索結(jié)果。概念網(wǎng)絡(luò)的一個實施例包括顯示諸如相對于圖3所描述等多個互連概念的大型連接圖。如同來自現(xiàn)有技術(shù)的搜索引擎的搜索結(jié)果一樣,概念網(wǎng)絡(luò)是基于用戶查詢而得到的。與現(xiàn)有技術(shù)的搜索引擎相比,概念網(wǎng)絡(luò)增加了對客戶查詢的相應(yīng)的準確性。此外,概念網(wǎng)絡(luò)限制大量無關(guān)的搜索結(jié)果,而這在依賴于關(guān)鍵詞查詢的現(xiàn)有技術(shù)的搜索引擎中間是普遍的。圖1示出被配置成生成并顯示概念網(wǎng)絡(luò)100的計算機環(huán)境50的實施例的框圖。計算機環(huán)境50可包括可任選的網(wǎng)絡(luò)部分72(盡管該計算機也可以是獨立計算機)。計算機環(huán)境50包括搜索工具74和顯示工具75。搜索工具74和顯示工具75的部分包括概念網(wǎng)絡(luò)100的一個實施例的部分。提供概念網(wǎng)絡(luò)100作為用戶界面,搜索結(jié)果的結(jié)構(gòu)化表示通過該用戶界面向用戶顯示,且搜索結(jié)果根據(jù)也可向用戶示出以指示每個返回的搜索結(jié)果的相關(guān)性的概念被結(jié)構(gòu)化或排列?,F(xiàn)有技術(shù)的搜索引擎通常返回適用的萬維網(wǎng)頁的列表之類的結(jié)果,而如本發(fā)明中所揭示的所返回的概念網(wǎng)絡(luò)包括,例如根據(jù)其內(nèi)容結(jié)構(gòu)化排列的多個萬維網(wǎng)頁。生成概念網(wǎng)絡(luò)100的搜索依賴于被搜索的數(shù)據(jù)(例如,萬維網(wǎng)頁)內(nèi)所包含的信息,如被搜索的數(shù)據(jù)的某個結(jié)構(gòu)化特征所指示。由此,與現(xiàn)有技術(shù)的搜索引擎(基于關(guān)鍵詞匹配)相比,概念網(wǎng)絡(luò)所返回的結(jié)果(基于所搜索的數(shù)據(jù)的結(jié)構(gòu))一般提供更準確的搜索結(jié)果。包括概念網(wǎng)絡(luò)100的圖1的計算機環(huán)境50示出一般化的計算機環(huán)境。構(gòu)想該概念網(wǎng)絡(luò)高度適用于能夠適用搜索引擎的任何類型的計算機環(huán)境,包括獨立計算機、聯(lián)網(wǎng)計算機、或大型計算機。但是,本發(fā)明被描述為適用于計算機環(huán)境的特定實施例。更特別地,構(gòu)想概念網(wǎng)絡(luò)100適用于網(wǎng)絡(luò)。更特別地,構(gòu)想包括概念網(wǎng)絡(luò)100的計算機環(huán)境50的一個實施例包括排放在整個因特網(wǎng)上的若干萬維網(wǎng)站上的各個萬維網(wǎng)頁。由此,概念網(wǎng)絡(luò)的某些實施例依賴于服務(wù)器,它們在諸如因特網(wǎng)等聯(lián)網(wǎng)計算機環(huán)境中向客戶機提供構(gòu)成搜索結(jié)果的數(shù)據(jù)。向用戶顯示的搜索結(jié)果的結(jié)構(gòu)化表示的一個實施例是基于因特網(wǎng)用戶一般已知的統(tǒng)一資源定位器(URL)。在此揭示中描述因特網(wǎng)的某些實施例中使用的URL的結(jié)構(gòu)化方面。盡管此揭示描述URL為向概念網(wǎng)絡(luò)中所依賴的數(shù)據(jù)提供結(jié)構(gòu),但是要強調(diào)的是,可包含能為概念網(wǎng)絡(luò)所依賴的類似的結(jié)構(gòu)化信息的任何其它機制都落入本發(fā)明的預(yù)期范圍之內(nèi)。在計算機環(huán)境50的某些實施例中,提交查詢的用戶將導(dǎo)致有關(guān)的概念網(wǎng)絡(luò)100,其中所顯示的結(jié)果被組織為一系列有關(guān)的概念。一般而言,基于各種用戶査詢可獲得大量各種類型的搜索結(jié)果。由此,本揭示描述基于大量用戶查詢生成各種概念網(wǎng)絡(luò)。概念網(wǎng)絡(luò)的一個示例性例子是通過搜索"前N個"査詢(尋求任何類別的前"N"個的査詢,其中N是整數(shù))產(chǎn)生的。概念網(wǎng)絡(luò)的另一個示例性例子在諸如"解釋電子"等復(fù)雜概念的搜索中產(chǎn)生有意義的結(jié)果。概念網(wǎng)絡(luò)100是基于概念生成的(與基于用戶查詢所提供的實際關(guān)鍵詞產(chǎn)生搜索結(jié)果的現(xiàn)有技術(shù)的搜索引擎不同)。概念網(wǎng)絡(luò)100是響應(yīng)于查詢,以能向用戶提供更詳細和準確的信息的方式而生成的。例如,概念網(wǎng)絡(luò)的某些實施例是考慮涉及査詢所提出的概念的大量萬維網(wǎng)站而生成的。概念網(wǎng)絡(luò)考慮每個萬維網(wǎng)站與查詢所提供的概念的相關(guān)性,然后通過概念網(wǎng)絡(luò)向用戶示出各個萬維網(wǎng)頁的有關(guān)部分。與依賴關(guān)鍵詞查詢結(jié)果的現(xiàn)有技術(shù)的搜索引擎相比,概念網(wǎng)絡(luò)100能以更有組織和準確的方式顯示來自各種査詢的結(jié)果。包括了更為定向和準確的查詢相應(yīng)這一事實允許概念網(wǎng)絡(luò)在向用戶的顯示中處理較少的萬維網(wǎng)頁。隨即可根據(jù)概念網(wǎng)絡(luò)所生成的相對很少的萬維網(wǎng)頁的結(jié)構(gòu)來組織這些萬維網(wǎng)頁。例如,涉及一類概念的萬維網(wǎng)頁可通過概念網(wǎng)絡(luò)的一個部分來訪問,而涉及另一類概念的萬維網(wǎng)頁可通過概念網(wǎng)絡(luò)的另一個部分來訪問。因此,概念網(wǎng)絡(luò)100可包含涉及大量被檢索的信息(諸如萬維網(wǎng)站、萬維網(wǎng)站內(nèi)容信息、或萬維網(wǎng)頁的部分)的結(jié)構(gòu)信息。概念網(wǎng)絡(luò)100提供大多數(shù)現(xiàn)有技術(shù)的搜索引擎所返回的萬維網(wǎng)頁列表上的若干改進。概念網(wǎng)絡(luò)100的某些實施例改為提供并顯示按(顯示概念網(wǎng)絡(luò)的)萬維網(wǎng)頁上的順序排列的結(jié)構(gòu)化信息。對用戶而言,如圖4所示的自動生成和顯示的概念網(wǎng)絡(luò)100是更易理解、解釋和更為有用的形式。一般而言,與現(xiàn)有技術(shù)的搜索引擎相比,概念網(wǎng)絡(luò)100提高搜索的精度和速度,并且提高在這些搜索期間所獲信息的相關(guān)性。--般而言,概念網(wǎng)絡(luò)100顯示基于數(shù)據(jù)的結(jié)構(gòu)信息(例如,格式、節(jié)點之間的鏈接、等等)導(dǎo)出的相當(dāng)大量的信息。在一個實施例中,此結(jié)構(gòu)信息是基于統(tǒng)一資源定位器(URL)獲得的,盡管可使用包含所檢索的信息的結(jié)構(gòu)信息的任何設(shè)備。在因特網(wǎng)中,URL目前被用于導(dǎo)航目的,以允許瀏覽器通過因特網(wǎng)訪問特定萬維網(wǎng)頁。URL還可被用于提供此揭示中所描述的用于創(chuàng)建概念網(wǎng)絡(luò)的結(jié)構(gòu)信息(描述不同節(jié)點之間的關(guān)系)。此類結(jié)構(gòu)信息的例子涉及,例如是另一個節(jié)點的祖先、后代、兄弟或其它關(guān)系的節(jié)點。此類結(jié)構(gòu)信息被概念網(wǎng)絡(luò)100的各種實施例用于結(jié)構(gòu)化地描述概念網(wǎng)絡(luò)內(nèi)部的不同節(jié)點之間的關(guān)系。在概念網(wǎng)絡(luò)100中此類結(jié)構(gòu)信息被用于提供單詞的分類或歸類。概念網(wǎng)絡(luò)的分類(如同現(xiàn)有技術(shù)的搜索引擎)涉及特定單詞的含義??紤]到搜索引擎內(nèi)已改變含義或者被添加或移除的大量單詞,現(xiàn)有技術(shù)的手動搜索引擎難以維護現(xiàn)行的分類法。概念網(wǎng)絡(luò)的某些實施例提供自動構(gòu)造的分類法,基于在査詢期間所訪問的萬維網(wǎng)站的結(jié)構(gòu),該分類法適應(yīng)于域和用戶。構(gòu)想如本文所揭示的概念網(wǎng)絡(luò)100可被應(yīng)用于各種計算機系統(tǒng),包括但不限于,數(shù)據(jù)庫、在線購物、攝像機、個人計算機、手持式計算機、機器學(xué)習(xí)、以及計算機制造。盡管此揭示描述概念網(wǎng)絡(luò)100被應(yīng)用于分析因特網(wǎng)上的萬維網(wǎng)站,但是應(yīng)當(dāng)強調(diào),這些概念適用于所有聯(lián)網(wǎng)的、獨立的、以及其它基于計算機的搜索引擎。由此,將概念網(wǎng)絡(luò)應(yīng)用于因特網(wǎng)或者任何其它網(wǎng)絡(luò)或計算機系統(tǒng)都是在本發(fā)明的預(yù)期范圍之內(nèi)。本揭示描述概念網(wǎng)絡(luò)100及相關(guān)聯(lián)組件的各種實施例。概念網(wǎng)絡(luò)100被設(shè)計成自動對其自身進行更新,而無需代表用戶進行任何更新。在査詢之間,計算機環(huán)境的一個實施例以與關(guān)鍵詞搜索高速緩存流行的搜索類似的方式(諸如通過使用萬維網(wǎng)站爬尋器等)不斷地進行搜索。概念網(wǎng)絡(luò)100的一個實施例將爬尋所有涉及所收集的概念的萬維網(wǎng)站以更新概念網(wǎng)絡(luò)。構(gòu)想此爬尋過程類似于常規(guī)搜索引擎所執(zhí)行的那些過程。在合理的時間量內(nèi),概念網(wǎng)絡(luò)100能夠基于用概念網(wǎng)絡(luò)生成的分類法來理解大量典型用途的關(guān)鍵詞(包括它們的結(jié)構(gòu))。使用此分類法,概念網(wǎng)絡(luò)以結(jié)構(gòu)化的方式顯示關(guān)鍵詞。由此,概念網(wǎng)絡(luò)能夠被用作分類詞匯匯編,因為概念網(wǎng)絡(luò)能夠基于分類來解釋單詞的含義。因此,概念網(wǎng)絡(luò)的分類(即,字典)中越來越多的單詞對搜索諸如網(wǎng)絡(luò)或Web等計算機環(huán)境以尋找特定技術(shù)、法律或其它此類專用單詞的用戶特別有用。幾乎所有專業(yè)都有相當(dāng)大量的專用單詞,其中許多隨時間不斷更新。例如,諸如代理人、稅務(wù)專家、工程師等專業(yè)或群體基于它們特定的使用和專長的領(lǐng)域,每-一個都有其自己的分類法。由于每個領(lǐng)域都只有相對很少數(shù)量的用戶的緣故,手動搜索引擎不更新其中的許多項。概念網(wǎng)絡(luò)可自動更新其中專用的、不常用的或被頻繁更新的許多項。用于得出概念網(wǎng)絡(luò)100的萬維網(wǎng)站搜索部分201的一個實施例在圖2中描述。萬維網(wǎng)站搜索部分201的實施例包括入口頁和爬尋器規(guī)則部分202、萬維網(wǎng)站結(jié)構(gòu)分析器204、萬維網(wǎng)頁摘要部分206、萬維網(wǎng)站結(jié)構(gòu)合并工具208、以及概念網(wǎng)絡(luò)100。萬維網(wǎng)站結(jié)構(gòu)分析器204包括超鏈接隊列212、萬維網(wǎng)站爬尋器214、HTML語法分析器216、基于功能的對象模型(FOM)分析器218、以及超鏈接分析220。為生成概念網(wǎng)絡(luò)IOO,萬維網(wǎng)站結(jié)構(gòu)分析器204分析萬維網(wǎng)站的結(jié)構(gòu)。然后圖2的Web合并工具(本文中也稱為Web站點結(jié)構(gòu)合并工具208)合并來自不同的結(jié)構(gòu)化萬維網(wǎng)站的內(nèi)容以產(chǎn)生可使用概念網(wǎng)絡(luò)來顯示的搜索結(jié)果。在常規(guī)萬維網(wǎng)站中,鏈接被用于導(dǎo)航。為分析萬維網(wǎng)站內(nèi)容結(jié)構(gòu)以創(chuàng)建每一個概念網(wǎng)絡(luò)IOO,鏈接從用于導(dǎo)航被轉(zhuǎn)換為用于內(nèi)容。為完成此轉(zhuǎn)換,執(zhí)行以下步驟a)在URL中編碼每個萬維網(wǎng)站的結(jié)構(gòu)化信息。由此,在URL中編碼特定鏈接,而無論其是向上鏈接、向下鏈接、兄弟鏈接還是交叉鏈接。這在現(xiàn)有技術(shù)的搜索引擎中是沒有的。在一個實施例中,區(qū)別鏈接的類型是由萬維網(wǎng)站爬尋器214通過考慮萬維網(wǎng)站爬尋器的訪問順序來執(zhí)行的。b)執(zhí)行聚合和關(guān)聯(lián)分析。此聚合和關(guān)聯(lián)分析包括確定各集線器和不同授權(quán)機構(gòu)的位置。在一個實施例中,這可由FOM分析器218執(zhí)行。c)然后區(qū)分信息鏈接和導(dǎo)航鏈接。此識別是使用基于功能的對象模式(FOM)來分析導(dǎo)航條、導(dǎo)航列表或獨立鏈接來執(zhí)行的。由此,頁的布局被用來對萬維網(wǎng)頁進行分塊。在一個實施例中,c)可使用FOM分析器218來執(zhí)行?,F(xiàn)有技術(shù)的搜索引擎在一次一個的基礎(chǔ)上提供對多個萬維網(wǎng)站的訪問,而概念網(wǎng)絡(luò)IOO被構(gòu)造成同時包含從各個萬維網(wǎng)站獲得的結(jié)構(gòu)信息??稍诟拍罹W(wǎng)絡(luò)100上以可被讀者輕易理解的方式組織來自這各個萬維網(wǎng)頁的信息。更特別地,可在概念網(wǎng)絡(luò)100中以呈現(xiàn)來自多個萬維網(wǎng)頁(通常基于URL)的結(jié)構(gòu)信息的可量化的值的方式顯示來自多個萬維網(wǎng)站的類似地結(jié)構(gòu)化的信息。隨即可用導(dǎo)致不同萬維網(wǎng)頁的主題之間的比較的方式呈現(xiàn)來自多個萬維網(wǎng)頁的此類結(jié)構(gòu)信息。例如,涉及特定工業(yè)或主題的多個公司或集團很可能在它們的萬維網(wǎng)頁中以相似的結(jié)構(gòu)包含相似類型的信息。概念網(wǎng)絡(luò)提供一種媒介以顯示來自不同萬維網(wǎng)頁的此相似信息;或者以允許從同一概念網(wǎng)絡(luò)輕易訪問不同萬維網(wǎng)頁的方式來呈現(xiàn)要向用戶呈現(xiàn)的不同但相關(guān)的萬維網(wǎng)頁。在某些實施例中,萬維網(wǎng)站結(jié)構(gòu)分析器204從入口頁和爬尋器規(guī)則部分202接受萬維網(wǎng)站的進入點URL和一些萬維網(wǎng)站爬尋器規(guī)則作為輸入。這些URL包含涉及特定萬維網(wǎng)頁的各種結(jié)構(gòu)信息(例如,鏈接的端點、萬維網(wǎng)頁的類型、等等)。常規(guī)搜索引擎不使用由URL提供的這一結(jié)構(gòu)來導(dǎo)出涉及萬維網(wǎng)頁的結(jié)構(gòu)信息。萬維網(wǎng)站結(jié)構(gòu)分析器204分析萬維網(wǎng)站結(jié)構(gòu),并向萬維網(wǎng)頁分配深度信息。結(jié)果是,萬維網(wǎng)站結(jié)構(gòu)分析器204的一個實施例生成萬維網(wǎng)站的分層結(jié)構(gòu)圖,其節(jié)點包括概念。由概念網(wǎng)絡(luò)所導(dǎo)出的概念可用如本揭示中所描述的關(guān)鍵詞來表征。萬維網(wǎng)站結(jié)構(gòu)分析器204導(dǎo)致使用結(jié)構(gòu)化的萬維網(wǎng)站。萬維網(wǎng)站分析器204的一個實施例是基于BFS(廣度優(yōu)先搜索)算法。萬維網(wǎng)站結(jié)構(gòu)分析器204維護超鏈接隊列212。萬維網(wǎng)站爬尋器214從超鏈接隊列212取URL,然后使用萬維網(wǎng)站爬尋器214爬尋來自因特網(wǎng)的超文本標(biāo)記語言(HTML)源代碼,然后將HTML源代碼轉(zhuǎn)發(fā)給HTML語法分析器216。超文本隊列212是包括未經(jīng)分析的超鏈接的隊列。在分析開始以前,萬維網(wǎng)站結(jié)構(gòu)分析器204附接進入點URL。在分析期間,只有萬維網(wǎng)站爬尋器214從超鏈接隊列212提取URL。只有超鏈接分析器220應(yīng)用新的未經(jīng)分析的超鏈接。萬維網(wǎng)站的進入點URL從入口頁和爬尋器規(guī)則部分202進入萬維網(wǎng)站結(jié)構(gòu)分析器204的超鏈接隊列212。當(dāng)萬維網(wǎng)站結(jié)構(gòu)分析器204開始分析時,萬維網(wǎng)站爬尋器214從超鏈接隊列212提取URL,然后萬維網(wǎng)站爬尋器爬尋來自因特網(wǎng)的HTML源代碼,并將HTML源代碼轉(zhuǎn)發(fā)給HTML語法分析器216。HTML語法分析器處理從因特網(wǎng)爬尋的HTML源代碼。HTML語法分析器216接受從萬維網(wǎng)站爬尋器214輸入的HTML源代碼。在一個實施例中,HTML語法分析器216的活動包括URL提取、URL統(tǒng)一、和URL分組。對于URL提取,HTML語法分析器216根據(jù)輸入的萬維網(wǎng)站定義取所有指向一萬維網(wǎng)頁并且在該萬維網(wǎng)頁內(nèi)部的URL。用錨文本附接每一個URL。對于圖像鏈接,錨是包圍文本。對于UR統(tǒng)一,HTML語法分析器216的一個實施例執(zhí)行多個操作,包括a)將相對URL地址轉(zhuǎn)換為直接URL地址;b)將IP地址改為域名;以及c)通過用最終目標(biāo)URL地址替換該URL來解決重定向的URL的問題。對于URL分組,具有相同標(biāo)簽元數(shù)和相同外觀的表格或列表中的超鏈接很可能被視為例如相關(guān)的節(jié)點。來自HTML語法分析器216的結(jié)果隨即被轉(zhuǎn)發(fā)給基于功能的對象模型(FOM)分析器218?;诠δ艿膶ο竽P?FOM)分析器218使用FOM的基本概念和算法對超鏈接分配功能信息。此功能信息對分析每個萬維網(wǎng)站的結(jié)構(gòu)是非常有用的。FOM表示萬維網(wǎng)頁的基于功能的對象模型。FOM分析器218不是進行語義分析,而是試圖通過表示每個對象功能和類別來理解作者的意圖。每個萬維網(wǎng)頁都可起到索引頁或內(nèi)容頁的作用。一類導(dǎo)航對象是導(dǎo)航條。FOM分析器218的一個實施例執(zhí)行如以下FOM分析任務(wù)等索引/內(nèi)容頁識別和導(dǎo)航條檢測。對于索引/內(nèi)容頁識別,F(xiàn)OM分析器218的一個實施例確定萬維網(wǎng)頁URL是否包括文本"Index"(索引)或"default"(默認),以及該URL是目錄還是索引頁。如果該頁內(nèi)部有對應(yīng)于子目錄的鏈接,則此鏈接是指向索引頁。將超鏈接和內(nèi)容單詞的比值和閾值相比較。如果該比值大于閾值,則該萬維網(wǎng)頁是索引頁。如果閾值大于該比值,則該萬維網(wǎng)頁是內(nèi)容頁。FOM分析器218的一個實施例提供導(dǎo)航條檢測。導(dǎo)航條中的項是彼此互連的,并且對應(yīng)的鏈接拓撲結(jié)構(gòu)是完全連通圖。FOM分析器218的輸出包括多個超鏈接,它們被轉(zhuǎn)發(fā)給超鏈接分析器220。FOM分析器218為萬維網(wǎng)頁提供分塊。在一個實施例中,分塊以后,基于其功能,萬維網(wǎng)頁被分成若干小單元,諸如內(nèi)容塊、導(dǎo)航塊、廣告塊、等等。這些小單元可由用戶單獨訪問。超鏈接分析器220的一個實施例使用萬維網(wǎng)站結(jié)構(gòu)分析算法來處理FOM分析器218所分析(并從該處發(fā)來)的每一個超鏈接。經(jīng)語法分析的源代碼被轉(zhuǎn)發(fā)到FOM分析器218以執(zhí)行功能分析。超鏈接分析器220根據(jù)萬維網(wǎng)站結(jié)構(gòu)分析規(guī)則分析每一個超鏈接,而新的未經(jīng)分析的超鏈接被插入到超鏈接隊列212中。超鏈接分析器220對每一個萬維網(wǎng)頁分配一個深度值(并維護萬維網(wǎng)站的臨時分層結(jié)構(gòu)圖)。該深度值可由萬維網(wǎng)站爬尋器214輸出。在一個實施例中,萬維網(wǎng)站爬尋器214通過廣度優(yōu)先搜索訪問萬維網(wǎng)站。行進路徑將被構(gòu)成為樹的格式,樹的節(jié)點是萬維網(wǎng)頁,節(jié)點內(nèi)部的鏈接是萬維網(wǎng)頁內(nèi)部的超鏈接。因此樹中節(jié)點的深度是我們想要獲得的值。例如,進入點萬維網(wǎng)頁的深度(諸如由URLh加:〃www.microsoft.com所標(biāo)識的進入點頁)是0。相比之下,由URLhttp:〃www.microsoft.com/china所標(biāo)識的萬維網(wǎng)頁的深度是l。萬維網(wǎng)站結(jié)構(gòu)分析器204構(gòu)造了可被視為在超鏈接隊列212處開始和結(jié)束的循環(huán)。萬維網(wǎng)站爬尋器214從超鏈接隊列212提取下一個UR1以開始下一個循環(huán)。執(zhí)行此動作直至超鏈接隊列212中沒有新的URL為止。分析過程完成,萬維網(wǎng)站(稱為結(jié)構(gòu)化的萬維網(wǎng)站)的分層結(jié)構(gòu)圖被構(gòu)造出來。每個萬維網(wǎng)站的結(jié)構(gòu)化信息是以可使用超鏈接分析器220檢測的方式編碼到URL中的。由此,無論特定鏈接是向上鏈接、向下鏈接、兄弟鏈接或交叉鏈接,它都被編碼到URL中(并可使用超鏈接分析器220檢測)。在一個實施例中,使用基于URL塊長度的啟發(fā)式規(guī)則來檢測向上鏈接和向下鏈接。URL塊長度被定義為塊數(shù),塊是URL中被"/"或"?"分開的部分。例如,URL"http:〃麗w.sonvstvle.com/digital/digitalcamera.htm"的URL塊長度是3,包括"http:〃www.so蹈tvle.com"、"digital"禾口"digitalcamera"。在一個實施例中,應(yīng)用約束的規(guī)則來分析URL。然后,對于未被規(guī)則覆蓋的其余URL,使用以上策略來進行分析。超鏈接檢測規(guī)則的一個實施例根據(jù)兩個規(guī)則來描述。第一規(guī)則是,如果URL塊長度(超鏈接)小于或等于萬維網(wǎng)頁的URL塊長度,則該超鏈接是向上鏈接。第二規(guī)則是,如果URL塊長度(超鏈接)減去URL塊長度(萬維網(wǎng)頁的URL)大于或等于2,則該超鏈接是前向鏈接。假定當(dāng)前萬維網(wǎng)頁節(jié)點為B,它有到萬維網(wǎng)頁C的超鏈接。萬維網(wǎng)站結(jié)構(gòu)分析器204的超鏈接分析器部分220進行以下過程I.如果該超鏈接是向上鏈接,則將其丟棄(不再考慮)。II.如果B和C屬于導(dǎo)航條,則B和C是兄弟節(jié)點(如本文所討論)。III.如果C己被訪問,且B的URL塊長度大于或等于C:如果B是索引頁;則C是B的子節(jié)點(如本文所討論);否則如果B是內(nèi)容頁,則C是B的兄弟節(jié)點。IV.如果C未被訪問,如果B是內(nèi)容頁,則C是B的兄弟節(jié)點,否則C是B的子節(jié)點。否則如果C尚未被訪問,則首先如果B是內(nèi)容頁或在若干頁中被顯示,則該鏈接是顯式關(guān)聯(lián)。否則此鏈接是聚合。在分析超文本隊列中的URL以后,使用萬維網(wǎng)頁摘要部分206得出萬維網(wǎng)站結(jié)構(gòu)。例如,萬維網(wǎng)頁中所包含的某個量的數(shù)據(jù)可能與特定用戶的査詢有關(guān),而其它數(shù)據(jù)則無關(guān)。萬維網(wǎng)頁摘要以可在概念網(wǎng)絡(luò)100內(nèi)的特定概念部分上顯示的形式提供有關(guān)的信息。因為不在概念網(wǎng)絡(luò)上示出每一個萬維網(wǎng)頁的整體,所以概念網(wǎng)絡(luò)可提供可由用戶訪問的每個概念或萬維網(wǎng)頁的信息的更為定向的摘要。隨即使用萬維網(wǎng)站結(jié)構(gòu)合并工具208將從萬維網(wǎng)頁摘要部分206導(dǎo)出的不同萬維網(wǎng)頁的各種各樣的內(nèi)容(或其它內(nèi)容)合并到概念網(wǎng)絡(luò)100中。萬維網(wǎng)站結(jié)構(gòu)用分層結(jié)構(gòu)圖表示。概念網(wǎng)絡(luò)100的某些實施例分析相關(guān)萬維網(wǎng)站的結(jié)構(gòu),并據(jù)此將結(jié)果合并到一起。在此揭示中,將來自多個萬維網(wǎng)站的信息合并被稱為Web合并,如圖2所示由萬維網(wǎng)站結(jié)構(gòu)合并工具208執(zhí)行。萬維網(wǎng)站結(jié)構(gòu)合并工具208所執(zhí)行的Web合并提高概念網(wǎng)絡(luò)的精度和速度,并被執(zhí)行如下。在每個萬維網(wǎng)站都被結(jié)構(gòu)化為"樹狀圖"或"深度圖"以后,接下來的問題是將這些圖合并成一個網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,每個節(jié)點表示一個概念,而這些節(jié)點之間的鏈接表示這些概念之間的關(guān)系?;娟P(guān)系可包括,但不限于,超義詞、假義詞、同義詞、等等。因為每個萬維網(wǎng)站都表示原始編輯者對有關(guān)主題的觀點,所以將不同的觀點合并為一個觀點有點困難。因此在以下,我們給出將來自各種類型的資源的概念分層結(jié)構(gòu)合并成一個可用的分層結(jié)構(gòu)的解決方案。為示出如何合并概念網(wǎng)絡(luò)的分層結(jié)構(gòu)的一個實施例,從兩個不同的分層結(jié)構(gòu)//合并給定概念C的一類關(guān)系i。解決此問題的詳細算法如下以下技術(shù)表示可用于執(zhí)行本體合并過程的一個實施例a)對于每個Web塊,使用如圖2所示的萬維網(wǎng)頁摘要部分206為萬維網(wǎng)頁簡述概念。這些概念被解釋為關(guān)鍵詞集合。b)然后對這些概念進行令牌化,通過此方法,要通過概念網(wǎng)絡(luò)100來生成和顯示的每個概念都由"令牌"短語或關(guān)鍵詞表示。由此,建立關(guān)鍵詞集合以表示和描述概念網(wǎng)絡(luò)中所包含的概念。(l)被用于最終生成概念<formula>formulaseeoriginaldocumentpage13</formula>(1)其中^,^,2,...,,表示單詞,而n,表示單詞數(shù)組,",是概念網(wǎng)絡(luò)中一個節(jié)點(萬維網(wǎng)頁)的摘要,它可被分解為若干單詞/短語,即^,,.2,...,,。c)在分層結(jié)構(gòu)樹上提供滑動窗口,以分別用(2)、(3)和(4)來生成后代(offspring)、祖先(ancestor)和兄弟(sibling)的子樹ST。假定一些單詞在不同的窗口中出現(xiàn)。<formula>formulaseeoriginaldocumentpage13</formula>其中,^(o炎pn'"g)、S7;(""ce加。和S7;Cy/W/"g)是用于計算后代、祖先和兄弟關(guān)系的子樹;M"^、/^M"和W'fe,分別代表節(jié)點",的第d層子節(jié)點、父節(jié)點和兄弟節(jié)點。d)對于每一個所生成的子樹(例如,"(朋"加0),按等式(5)計算術(shù)語對的互信息。計算每個單詞對w,,,的的互信息ML具有高值的互信息指示該單詞對是相似的。<formula>formulaseeoriginaldocumentpage14</formula>其中,M/(w,,w,)是項w,和w,的互信息;e(w,,w7)表示項w,和,一起在子樹中出現(xiàn)的概率;(x可為w,或,)表示項x在子樹中出現(xiàn)的概率。確定一對項的相關(guān)性的另一個因素是項對的分布。越多子樹包含該項對,則這兩個項就越相似。在我們的實現(xiàn)中,使用熵(entropy)來測量項對的分布,如步驟(d)中所示。d)計算每個單詞對w,,^的熵?;谠?5)中確定的互信息實際上在所有萬維網(wǎng)站中是共同的,熵轉(zhuǎn)換是對被確定為共同的單詞對w,,的度量,。熵越高,概念網(wǎng)絡(luò)可向用戶提供的該單詞在所有萬維網(wǎng)站之間成對的信心就越高。<formula>formulaseeoriginaldocumentpage14</formula>e)根據(jù)(ll)計算每個單詞對的相似性S/m:<formula>formulaseeoriginaldocumentpage14</formula>如(ll)中所闡述的相似性將互信息M/(w,,,)和e"的"(w,,,)相結(jié)合。為指示涉及(2)、(3)和(4)的有關(guān)概念(后代、祖先和兄弟),概念網(wǎng)絡(luò)生成各種有關(guān)的類別。例如,表1示出公知概念的各種示例性后代概念表l:<table>tableseeoriginaldocumentpage14</column></row><table>14<table>tableseeoriginaldocumentpage15</column></row><table>表2示出各種示例性的袓先概念表2:祖先概念<table>tableseeoriginaldocumentpage15</column></row><table>表3示出各種示例性兄弟概念:<table>tableseeoriginaldocumentpage15</column></row><table>圖2中所示的概念網(wǎng)絡(luò)100的一個實施例被規(guī)定為圖3中的結(jié)構(gòu)形式、以及圖4中其向用戶所呈現(xiàn)的形式中所示出的有向圖。概念網(wǎng)絡(luò)所基于的有向圖(G)300由(12)描述G=(V,E)(12)其中V是節(jié)點的集合,而E是邊或鏈接的集合。由此,如有向圖所表示的概念網(wǎng)絡(luò)100包括多個節(jié)點以及鏈接這些節(jié)點的多個鏈接或邊。節(jié)點表示概念。邊或鏈接表示概念之間的關(guān)系。如圖4中所示的概念網(wǎng)絡(luò)100的有向圖300由此提供內(nèi)容結(jié)構(gòu)。萬維網(wǎng)頁的內(nèi)容結(jié)構(gòu)被信息挖掘以產(chǎn)生用于生成概念網(wǎng)絡(luò)的信息。圖3示出用于使用概念網(wǎng)絡(luò)100構(gòu)造特定域的分類的技術(shù)的一個實施例。圖3以導(dǎo)出一個或多個域?qū)俚娜f維網(wǎng)站302而開始。這可通過利用現(xiàn)有的元搜索引擎來進行此工作來完成。例如,如果用戶想要構(gòu)造"數(shù)字攝像機"域的概念網(wǎng)絡(luò),用戶可向搜索引擎發(fā)送査詢,并使用前IOO個萬維網(wǎng)站來構(gòu)造概念網(wǎng)絡(luò)。每個域?qū)俚娜f維網(wǎng)站302包括對應(yīng)于內(nèi)容(由節(jié)點表示)的分析和鏈接結(jié)構(gòu)(由鏈接結(jié)構(gòu)表示)的分析的結(jié)構(gòu)。產(chǎn)生概念網(wǎng)絡(luò)100依賴于一個或多個萬維網(wǎng)站的內(nèi)容結(jié)構(gòu)的有效挖掘。此挖掘可通過分析鏈接類型來執(zhí)行,鏈接類型確定鏈接是后代鏈接、祖先鏈接、還使兄弟鏈接,諸如相對于圖2的超鏈接分析器220所述。這些鏈接類型中的一個被分配給每個鏈接。然后使用如圖2中所示的萬維網(wǎng)頁摘要部分206來簡述節(jié)點的語義。在圖3中,域?qū)俜诸愂腔诖诵畔⑼诰蚨鴮?dǎo)出的。注意,與諸如WordNet⑧等要求手動的編輯輸入以進行分類的現(xiàn)有技術(shù)的工具相比,在本揭示中,域?qū)俜诸惖膶?dǎo)出是自動執(zhí)行的。Wordnet是針對一般域的手動構(gòu)造分類。此分類是由編輯者而不是端點用戶構(gòu)造的。信息挖掘依賴于域?qū)偃f維網(wǎng)站的鏈接結(jié)構(gòu)和內(nèi)容。這與某些現(xiàn)有技術(shù)的自動分類詞匯匯編構(gòu)造不同,在后者中,信息是從內(nèi)容而不是鏈接結(jié)構(gòu)挖掘的。然后使用本體學(xué)習(xí)來構(gòu)造概念網(wǎng)絡(luò)100。基于本體學(xué)習(xí),自動構(gòu)造的概念網(wǎng)絡(luò)開發(fā)其自身的分類。本體學(xué)習(xí)是基于統(tǒng)計框架,并且能夠產(chǎn)生多個編輯者的視圖。統(tǒng)計框架容易被應(yīng)用于許多統(tǒng)計應(yīng)用程序。如圖3中所示地構(gòu)造的概念網(wǎng)絡(luò)100描述電子的各種概念網(wǎng)絡(luò)。概念網(wǎng)絡(luò)100包括各種Web塊450,其中每個Web塊表示一個不同的電子類別(例如,電子產(chǎn)品、電子類別、以及電子設(shè)備制造商、等等)。每個Web塊由用戶可識別的關(guān)鍵詞描述。每個子Web塊454可被視為與主Web塊相關(guān)。例如,在圖3中,單詞"電子"表示主Web塊452。術(shù)語"電子"表示好的主Web塊452,因為此術(shù)語出現(xiàn)在許多涉及各種產(chǎn)品(各種產(chǎn)品中的每一種都可被視為一個子Web塊)的萬維網(wǎng)站中。例如,在圖3中,在電子主Web塊下示出各種子Web塊454(包括照像機和相片、音頻和視頻、手持式、蜂窩電話、計算機、Sony、iPAQ、Palm⑧、外設(shè)、以及各種Comp叫⑧產(chǎn)品)。在此揭示中,每個Web塊都被視為包含同構(gòu)信息的一個概念。因此術(shù)語"概念網(wǎng)絡(luò)"描述多個概念,或Web塊的網(wǎng)絡(luò)。每個Web塊都可由一個關(guān)鍵詞(諸如照相機、計算機、以及"Sony",如圖3中所示)簡述。圖3中每個子Web塊的主題極大地涉及主Web塊電子,因此可被寬泛地歸類到概念"電子"之下?;赪eb塊的結(jié)構(gòu)、挖掘、以及概念網(wǎng)絡(luò)100的域?qū)俜诸?,如圖3中所示的電子的概念網(wǎng)絡(luò)包含這些術(shù)語中的許多。圖3中所示的所生成的概念網(wǎng)絡(luò)100可被視為自動構(gòu)造的最終結(jié)果。圖4中示出示例性概念網(wǎng)絡(luò)100的一個實施例,如其在諸如平面顯示器或CRT監(jiān)視器等計算機顯示器200上所顯現(xiàn)的。由此,圖4示出所生成的包括各種概念402的概念網(wǎng)絡(luò)100(使用圖2和3中所示出的技術(shù))。每個概念402包括涉及以此方式所生成的至少一個Web塊450,其中某些實施例在圖3中示出。因此圖4中示出的概念網(wǎng)絡(luò)100包含覆蓋在顯示器上的若干概念402。就所關(guān)注的領(lǐng)域(在此實例中為"電子")相對地詳述了概念網(wǎng)絡(luò)的細節(jié)。例如,這些概念中的幾個如果被用戶選擇,則會將用戶帶到比當(dāng)前所顯示的概念網(wǎng)絡(luò)更狹隘或更寬泛的另一個概念網(wǎng)絡(luò)。例如,用戶可從電子概念網(wǎng)絡(luò)轉(zhuǎn)移到計算機概念網(wǎng)絡(luò)。通過搜索所有各種萬維網(wǎng)站執(zhí)行概念網(wǎng)絡(luò)的分析。分析指出在概念網(wǎng)絡(luò)的某些實現(xiàn)中,被正確定位的萬維網(wǎng)站的百分比有所提高(增至75%)。就準確性而言,這表示現(xiàn)有技術(shù)上的顯著進步??紤]示例性查詢"數(shù)字攝像機制造商"。典型的現(xiàn)有技術(shù)的搜索引擎搜索整個Web并返回包含關(guān)鍵項"數(shù)字"和/或"攝像機"和/或"制造商"的萬維網(wǎng)頁。因而此類現(xiàn)有技術(shù)的搜索引擎將返回相當(dāng)大量的無關(guān)萬維網(wǎng)頁。概念網(wǎng)絡(luò)100僅需搜索從節(jié)點"數(shù)字攝像機"擴展的子圖。因此,概念網(wǎng)絡(luò)速度更快,并且所返回的無關(guān)萬維網(wǎng)頁的數(shù)量顯著減少。概念網(wǎng)絡(luò)100提高對査詢的期望響應(yīng)的簡單程度、速度和可靠性。首先,在概念網(wǎng)絡(luò)100中定位項"數(shù)字攝像機"。所有指向節(jié)點"數(shù)字攝像機"或其所指向的節(jié)點都被提取。然后屬性為"制造商"的節(jié)點被選擇并分級(例如,基于點擊數(shù))。如此,便可搜索對任何類別的萬維網(wǎng)頁的前N個的查詢(最大的公司、最大的制造商、最多的辦公室、最近的位置、等等),而捕獲合理數(shù)量的準確點擊的概率大大提高。由概念網(wǎng)絡(luò)所表征的此類改良的搜索得以發(fā)生是因為查詢是定向到被搜索的萬維網(wǎng)站的結(jié)構(gòu)(如URL內(nèi)所包含)。如相對于圖5所描述的概念網(wǎng)絡(luò)100的某些實施例可提供各種搜索服務(wù),它們可搜索如因特網(wǎng)上的萬維網(wǎng)站上所列出的前"N"個(其中"N"是某個正數(shù))組織、公司、項目、群組、產(chǎn)品等等的某個可量化的闡述。例如,某些實施例生成提供找出世界上前五個數(shù)字攝像機制造商的查詢的搜索結(jié)果的概念網(wǎng)絡(luò)100。另一個査詢提供諸如指示歐洲前五個鋼鐵制造公司等另一個復(fù)雜查詢的搜索結(jié)果。預(yù)期概念網(wǎng)絡(luò)高度有益的一類査詢依賴于基于萬維網(wǎng)站的結(jié)構(gòu)(例如,基于URL所提供的結(jié)構(gòu))來訪問數(shù)據(jù)。"前N"類型的査詢基于多個萬維網(wǎng)站的結(jié)構(gòu)來分析和返回信息。例如,一種確定誰是美國前三名的汽車生產(chǎn)商的技術(shù)涉及訪問所有可能的汽車生產(chǎn)商的萬維網(wǎng)站,從每個萬維網(wǎng)站導(dǎo)出類似的生產(chǎn)信息,然后比較從不同的萬維網(wǎng)站導(dǎo)出的生產(chǎn)信息。由此,概念網(wǎng)絡(luò)100的某些實施例可搜索萬維網(wǎng)頁內(nèi)的詳細特征。數(shù)據(jù)挖掘針對于此類萬維網(wǎng)站分析。一般而言,數(shù)據(jù)挖掘(有時稱為數(shù)據(jù)或知識發(fā)現(xiàn))是基于查詢從不同角度分析數(shù)據(jù)并向用戶將數(shù)據(jù)總結(jié)為有用信息的過程。數(shù)據(jù)挖掘軟件是用于分析數(shù)據(jù)的許多分析工具中的一種。它允許用戶從許多不同的方面或角度分析數(shù)據(jù)、歸類數(shù)據(jù)、以及總結(jié)所標(biāo)識出來的關(guān)系。技術(shù)上,數(shù)據(jù)挖掘是在大型關(guān)系型數(shù)據(jù)庫中的幾十個字段之間尋找相關(guān)性或模式的過程,并且通常在査詢中是公知的。由此,概念網(wǎng)絡(luò)的某些實施例可使用如圖3所提供的數(shù)據(jù)挖掘306來導(dǎo)出域?qū)俚姆诸?04。圖5示出導(dǎo)致生成概念網(wǎng)絡(luò)的過程600的一個實施例。過程600包括用戶將査詢輸入到計算機環(huán)境50(如圖1中所示)中的602。該査詢將導(dǎo)致生成并向用戶顯示概念網(wǎng)絡(luò)。在604,該查詢給提交給如相對于圖3所描述的多個域?qū)俚娜f維網(wǎng)站302。這些萬維網(wǎng)站由常見的元搜索引擎或人類構(gòu)建的Web分層結(jié)構(gòu)返回。在606,計算機環(huán)境通過諸如考慮對相關(guān)聯(lián)萬維網(wǎng)站的URL結(jié)構(gòu)和內(nèi)容等來分析萬維網(wǎng)站結(jié)構(gòu)。在610,被挖掘的信息被用于生成域?qū)俜诸?如相對于圖3中的304所描述)。過程600前進至612,生成并向用戶顯示概念網(wǎng)絡(luò)100。概念網(wǎng)絡(luò)100能夠被生成以返回對諸如"解釋單詞電子"等査詢的響應(yīng)(這是現(xiàn)有技術(shù)的搜索引擎所不能執(zhí)行的)。此類概念網(wǎng)絡(luò)也是通過分析各種萬維網(wǎng)站和萬維網(wǎng)頁的結(jié)構(gòu)來生成的(如圖5中的查詢的情形)。概念網(wǎng)絡(luò)的一個實施例保存萬維網(wǎng)站的結(jié)構(gòu)信息,此信息標(biāo)識編輯者對概念的分層結(jié)構(gòu)的觀點。在概念網(wǎng)絡(luò)100中,不同編輯者的觀點被合并到一起,從而用戶可確定什么是最常見的解釋。概念網(wǎng)絡(luò)100的某些其它實施例可提供確定用戶執(zhí)行諸如解釋單詞"電子"等任務(wù)的最佳萬維網(wǎng)站的査詢。此類査詢可被視為解釋和/或比較的查詢。由此,必須由概念網(wǎng)絡(luò)對若干萬維網(wǎng)站進行評估和比較。生成此類概念網(wǎng)絡(luò)(諸如能夠解釋復(fù)雜問題的概念網(wǎng)絡(luò)等)所涉及的一種機制牽涉到考慮涉及査詢所提出的問題的大量萬維網(wǎng)站;在某種程度上如現(xiàn)有技術(shù)的搜索引擎所可測量地考慮每個萬維網(wǎng)站的相關(guān)性,然后向概念網(wǎng)絡(luò)的用戶顯示萬維網(wǎng)頁的有關(guān)部分。圖5的過程600的實施例也可被用于執(zhí)行此類查詢。為響應(yīng)這些類型的相對復(fù)雜的查詢(前N類型的査詢,或者必須評估和比較多個萬維網(wǎng)站的查詢,等等),通過評估所考慮的每個萬維網(wǎng)頁或萬維網(wǎng)站的結(jié)構(gòu)來構(gòu)造概念網(wǎng)絡(luò)100。現(xiàn)有技術(shù)的搜索引擎不能夠從萬維網(wǎng)站導(dǎo)出該結(jié)構(gòu)以執(zhí)行這些分析(因此不能響應(yīng)于此類査詢)。例如,相關(guān)于電子的例子,概念網(wǎng)絡(luò)考慮被結(jié)構(gòu)化的萬維網(wǎng)頁,以提供定位到準確描述電子主題處足夠的信息。概念網(wǎng)絡(luò)100在查詢擴展中也非常有用。目前,許多因特網(wǎng)應(yīng)用程序使用現(xiàn)有技術(shù)的WordNet來擴展用戶的査詢以提高現(xiàn)有搜索引擎的精度。但是,WordNet是手動構(gòu)造(分類詞匯匯編)的高強度勞動的工作。幾乎沒有哪個萬維網(wǎng)站愿意手動構(gòu)造分類詞匯匯編。萬維網(wǎng)站操作者更喜歡自動分類詞匯匯編構(gòu)造。用戶的手動分類詞匯匯編構(gòu)造不適合于因特網(wǎng)的迅速增長。諸如因特網(wǎng)等網(wǎng)絡(luò)中的文檔數(shù)量不斷增長。越來越多的新單詞和概念不斷出現(xiàn),這使得如在本揭示中所描述的概念網(wǎng)絡(luò)的有用性得以突出。與依賴于關(guān)鍵詞比較的現(xiàn)有技術(shù)的搜索引擎相比,概念網(wǎng)絡(luò)返回較少的、但更為定向的結(jié)果。因此,用戶較易評估概念網(wǎng)絡(luò)所返回的每一個結(jié)果。此外,用戶較易評估査詢是否未能返回期望類型的結(jié)果,從而用戶將能夠修改原始査詢使之更為定向?,F(xiàn)用分類詞匯匯編(概念網(wǎng)絡(luò)可發(fā)揮此作用)對因特網(wǎng)和其它網(wǎng)絡(luò)搜索是有用的。此外,概念網(wǎng)絡(luò)100不但包含概念的分層結(jié)構(gòu),而且還包含這些概念的統(tǒng)計信息。因此它可被輕易地應(yīng)用于諸如調(diào)查等某些關(guān)于普及性的特定問題。因為概念網(wǎng)絡(luò)100的一個實施例為因特網(wǎng)和其它網(wǎng)絡(luò)環(huán)境合并來自所有作者的單詞和概念的觀點,所以概念網(wǎng)絡(luò)IOO可被視為向網(wǎng)絡(luò)用戶提供替換的分類詞匯匯編。概念網(wǎng)絡(luò)100可被適應(yīng)于客戶方以作為個人分類詞匯匯編。用戶的瀏覽路徑將生成Web的子空間。類似的方法可被應(yīng)用來分析Web的子空間,以生成個人頻繁使用的概念的關(guān)系。因此概念網(wǎng)絡(luò)提供萬維網(wǎng)頁的摘要。超鏈接和頁標(biāo)題上的文本可被用作萬維網(wǎng)頁的摘要。在另一個實施例中,自然語言語法分析(NLP)技術(shù)可被集成到萬維網(wǎng)站搜索部分201中(可作為HTML語法分析器216的一部分),以使用某些主導(dǎo)關(guān)鍵詞來總結(jié)文檔。此揭示描述各種概念網(wǎng)絡(luò)100。概念網(wǎng)絡(luò)可被視為通過分析多個萬維網(wǎng)站的結(jié)構(gòu)并合并分析結(jié)果而從萬維網(wǎng)站構(gòu)建的因特網(wǎng)概念網(wǎng)絡(luò)。概念網(wǎng)絡(luò)100在提高搜索引擎的精度和速度方面特別有用。概念網(wǎng)絡(luò)從萬維網(wǎng)站結(jié)構(gòu)、而不是單純地從萬維網(wǎng)站內(nèi)所包含的明文文本中提取知識。概念網(wǎng)絡(luò)提供域的自動構(gòu)造。來自概念網(wǎng)絡(luò)的統(tǒng)計結(jié)果揭示各個萬維網(wǎng)站中所包含的一般知識。由此,概念網(wǎng)絡(luò)不僅從特定萬維網(wǎng)站獲得信息,而且還從網(wǎng)絡(luò)上大量各種各樣的萬維網(wǎng)站獲得知識。概念網(wǎng)絡(luò)可使用本體學(xué)習(xí)來維護涉及萬維網(wǎng)站的結(jié)構(gòu)信息。因此,當(dāng)新的萬維網(wǎng)頁和概念被應(yīng)用于因特網(wǎng)時,本體允許來自萬維網(wǎng)頁的結(jié)構(gòu)信息被自動集成到概念網(wǎng)絡(luò)中。此外,概念網(wǎng)絡(luò)IOO可提供普通搜索引擎所不能提供的一些服務(wù),諸如"找出世界上前N個數(shù)字攝像機制造商"以及"解釋單詞電子"等。概念網(wǎng)絡(luò)還可對查詢擴展起到現(xiàn)用因特網(wǎng)分類詞匯匯編的作用,因為它提供如此多樣的子Web塊,它們通過主Web塊相互關(guān)聯(lián),如圖3中所示。圖6示出合適的計算機環(huán)境或網(wǎng)絡(luò)500的示例,其中包括可生成概念網(wǎng)絡(luò)的用戶界面。計算機環(huán)境500表示圖1中所示的計算機環(huán)境的一個實施例。類似的資源可使用本文中所描述的計算機環(huán)境和過程。圖6中所示出的計算機環(huán)境500是一般計算機環(huán)境,它可用于實現(xiàn)本文中所描述的概念網(wǎng)絡(luò)技術(shù)。計算機環(huán)境500只是計算機環(huán)境的一個例子,它并不試圖對計算機和網(wǎng)絡(luò)體系結(jié)構(gòu)的使用范圍或功能提出任何限制。也不應(yīng)將計算機環(huán)境100解釋為具有涉及在示例性計算機環(huán)境中所示出的任一組件或其組合的任何依賴性或要求。計算機環(huán)境100包括計算機502形式的通用計算設(shè)備。計算機502可包括,例如以下組中的一個或多個,該組包括獨立計算機、聯(lián)網(wǎng)計算機、大型計算機、PDA、電話、微型計算機或微處理器、或與存儲器結(jié)合使用處理器的任何其它計算機設(shè)備。計算機502的組件可包括,但不限于,一個或多個處理器或處理單元504(可選地包括加密處理器或協(xié)處理器)、系統(tǒng)存儲器506、以及耦合包括處理器504和系統(tǒng)存儲器506在內(nèi)的各個系統(tǒng)組件的系統(tǒng)總線508。系統(tǒng)總線508表示若干類型的總線結(jié)構(gòu)中的一種或數(shù)種,包括存儲器總線或存儲器控制器、外圍總線、加速圖形端口、以及使用各種總線體系結(jié)構(gòu)中的任何一種的處理器或局部總線。作為示例,此類體系結(jié)構(gòu)可包括工業(yè)標(biāo)準體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強型ISA(EISA)總線、視頻電子標(biāo)準協(xié)會(VESA)局部總線、以及也稱為Mezzanine總線的外圍組件互連(PCI)總線。計算機502通常包括各種計算機可讀介質(zhì)。這些介質(zhì)可以是可由計算機502訪問的任何可用介質(zhì),并包括易失性和非易失性、可移動和不可移動介質(zhì)。系統(tǒng)存儲器506包括諸如只讀存儲器(ROM)512等非易失性存儲器和/或諸如隨機存取存儲器(RAM)510等易失性存儲器形式的計算機可讀介質(zhì)。包含諸如在啟動期間幫助在計算機502內(nèi)部各元件之間傳遞信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS)514存儲在ROM512中。RAM510通常包含可由處理單元504即時訪問和/或正由其操作的數(shù)據(jù)和/或程序模塊。計算機502還可包括其它可移動/不可移動、易失性/非易失性計算機存儲介質(zhì)。作為示例,圖6示出用于讀和寫不可移動、非易失性磁介質(zhì)(未示出)的硬盤驅(qū)動器515,用于讀和寫可移動、非易失性磁盤520(例如,"軟盤")的磁盤驅(qū)動器518,以及用于讀和/或?qū)懼T如CD-ROM、DVD-ROM或其它光介質(zhì)等可移動、非易失性光盤524的光盤驅(qū)動器522。硬盤驅(qū)動器515、磁盤驅(qū)動器518和光盤驅(qū)動器522每一個都由一個或多個數(shù)據(jù)介質(zhì)接口527連接到系統(tǒng)總線508?;蛘?,硬盤驅(qū)動器515、磁盤驅(qū)動器518、以及光盤驅(qū)動器522可由一個或多個接口(未示出)連接到系統(tǒng)總線508。各盤驅(qū)動器及其相關(guān)聯(lián)的計算機可讀介質(zhì)為計算機502提供計算機可讀指令、控制節(jié)點數(shù)據(jù)結(jié)構(gòu)、程序模塊以及其它數(shù)據(jù)的非易失性存儲。盡管該例示出硬盤驅(qū)動器515內(nèi)的硬盤、可移動磁盤520和非易失性光盤524,應(yīng)當(dāng)認識到,能存儲可由計算機訪問的數(shù)據(jù)的其它類型的計算機可讀介質(zhì)也可被用于實現(xiàn)示例性計算機環(huán)境500,諸如磁帶盒或其它磁存儲設(shè)備,閃存卡、CD-ROM、數(shù)字多功能盤(DVD)或其它光存儲,隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM),等等??稍谟脖P驅(qū)動器515內(nèi)所包含的硬盤、磁盤520、非易失性光盤524、ROM512、和/或RAM510上存儲任何數(shù)量的程序模塊,例如包括,OS526、一個或多個應(yīng)用程序52S、其它程序模塊530、以及程序數(shù)據(jù)532。OS526、一個或多個應(yīng)用程序528、其它程序模塊530、以及程序數(shù)據(jù)532中的每一個(或其組合)可實現(xiàn)支持分布式文件系統(tǒng)的所有或部分常駐組件。用戶可經(jīng)由諸如鍵盤534和定位設(shè)備536(例如,"鼠標(biāo)")等輸入設(shè)備將命令和信息輸入到計算機502中。其它輸入設(shè)備538(未具體示出)可包括話筒、操縱桿、游戲墊、圓盤式衛(wèi)星天線、串行端口、掃描儀和/或其它。這些及其它輸入設(shè)備經(jīng)由耦合到系統(tǒng)總線508的輸入/輸出接口540連接到處理單元504,但也可由諸如并行端口、游戲端口或通用串行總線(USB)等其它接口和總線結(jié)構(gòu)連接。監(jiān)視器、平面顯示器、或其它類型的計算機顯示器200可經(jīng)由諸如視頻適配器544等接口連接到系統(tǒng)總線508。除了計算機顯示器200以外,其它輸出外圍設(shè)備可包括諸如揚聲器(未示出)和打印機546等組件,它們可經(jīng)由輸入/輸出接口540連接到計算機502。計算機502可使用到諸如遠程計算機548等一個或多個遠程計算機的邏輯連接在聯(lián)網(wǎng)環(huán)境中工作。例如,遠程計算機設(shè)備548可以是個人計算機、便攜式計算機、服務(wù)器、路由器、網(wǎng)絡(luò)計算機、對等設(shè)備、或其它普通網(wǎng)絡(luò)節(jié)點、游戲控制臺、等等。圖示遠程計算機設(shè)備548為可包括在本文中相對于計算機502所描述的許多或所有元件的便攜式計算機。計算機502和遠程計算設(shè)備548之間的邏輯連接被示為局域網(wǎng)(LAN)550和一般廣域網(wǎng)(WAN)552。此類網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè)范圍的計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)。當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中實現(xiàn)時,計算機502經(jīng)由網(wǎng)絡(luò)接口或適配器554連接到局域網(wǎng)550。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中實現(xiàn)時,計算機502通常包括調(diào)制解調(diào)器556或用于通過廣域網(wǎng)552建立通信的其它裝置??梢允莾?nèi)置或外置于計算機502的調(diào)制解調(diào)器556可經(jīng)由輸入/輸出接口540或其它適當(dāng)機制連接到系統(tǒng)總線508。應(yīng)當(dāng)認識到,所示網(wǎng)絡(luò)連接是示例性的,并且可以使用在計算機502和548之間建立通信鏈路的其它裝置。在諸如以計算機環(huán)境500所示的聯(lián)網(wǎng)環(huán)境中,相對于計算機502所描述的程序模塊或其部分可存儲在遠程記憶存儲設(shè)備中。作為示例,遠程應(yīng)用程序558駐留在遠程計算機548的記憶設(shè)備上。為說明的目的,應(yīng)用程序及諸如操作系統(tǒng)等其它可執(zhí)行程序組件在本文中被示為離散的Web塊,盡管可以認識到,這些程序和組件在各個時間駐留在計算機502的不同存儲組件中,并由計算機502的數(shù)據(jù)處理器執(zhí)行。可以認識到,所示出并描述的網(wǎng)絡(luò)連接是示例性的,并且可以使用建立計算機之間的通信鏈路的其它裝置。本文中在一個或多個計算機或其它設(shè)備所執(zhí)行的諸如程序模塊等計算機可執(zhí)行指令的通用上下文中描述各種模塊和技術(shù)。一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、控制對象650、組件、控制節(jié)點數(shù)據(jù)結(jié)構(gòu)654、等等。通常,在各實施例中可按需組合或分布各程序模塊的功能。這些模塊和技術(shù)的一個實現(xiàn)可被存儲在某種形式的計算機可讀介質(zhì)上,或可通過其發(fā)送。計算機可讀介質(zhì)可以是可由計算機訪問的任何可用介質(zhì)。作為示例,而非限制,計算機可讀介質(zhì)可包括"計算機存儲介質(zhì)"和"通信介質(zhì)"、"計算機存儲介質(zhì)"包括以用于存儲諸如計算機可讀指令、控制節(jié)點數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任何過程或技術(shù)實現(xiàn)的易失性和非易失性、可移動和不可移動介質(zhì)。計算機存儲介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術(shù),CD-ROM、數(shù)字多功能盤(DVD)或其它光存儲,磁帶盒、磁帶、磁盤存儲或其它磁存儲設(shè)備,或可用于存儲所需信息并可由計算機訪問的任何其它介質(zhì)。"通信介質(zhì)"通常具體化為諸如載波或其它傳輸機制等已調(diào)制數(shù)據(jù)信號中的計算機可讀指令、控制節(jié)點數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。通信介質(zhì)還包括任何信息傳遞介質(zhì)。術(shù)語"已調(diào)制數(shù)據(jù)信號"指以在信號中以將信息編碼的方式設(shè)置或改變其一個或多個特征的信號。作為示例,而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或直接連線連接等有線介質(zhì),以及諸如聲學(xué)、RF、紅外和其它無線介質(zhì)等無線介質(zhì)。以上任何組合也被包括在計算機可讀介質(zhì)的范圍之內(nèi)。盡管使用專屬于結(jié)構(gòu)和功能特征和/或方法的語言描述了系統(tǒng)、介質(zhì)、方法、方式、過程等,但是應(yīng)當(dāng)理解,所附權(quán)利要求書中所定義的本發(fā)明不必被限制于所描述的具體特征或方法。相反,揭示這些具體特征和方法是將其作為實現(xiàn)要求保護的發(fā)明的示例性形式。權(quán)利要求1.一種方法,包括考慮多個域?qū)偃f維網(wǎng)站;通過分析所述多個域?qū)偃f維網(wǎng)站的相對內(nèi)容導(dǎo)出域?qū)俜诸?;以及基于所述域?qū)俜诸愐?guī)劃概念網(wǎng)絡(luò)。2.如權(quán)利要求1所述的方法,其特征在于,所述域?qū)俜诸愂腔谛畔⑼诰蚨鴮?dǎo)出的。3.如權(quán)利要求2所述的方法,其特征在于,所述信息挖掘基于鏈接結(jié)構(gòu)和內(nèi)容。4.如權(quán)利要求1所述的方法,其特征在于,所述概念網(wǎng)絡(luò)是基于熵來規(guī)劃的。5.如權(quán)利要求l所述的方法,其特征在于,所述概念網(wǎng)絡(luò)是基于互信息來規(guī)劃的。6.如權(quán)利要求1所述的方法,其特征在于,所述概念網(wǎng)絡(luò)是基于相似性來規(guī)劃的。7.—種方法,包括生成概念網(wǎng)絡(luò),包括基于從用戶提交的査詢,分析關(guān)于多個萬維網(wǎng)站的結(jié)構(gòu)信息;基于所述多個萬維網(wǎng)站的結(jié)構(gòu)信息,確定對"前N個"類型的査詢的響應(yīng);以及向用戶返回涉及所確定的響應(yīng)的信息。8.如權(quán)利要求7所述的方法,其特征在于,所述結(jié)構(gòu)信息基于統(tǒng)一資源定位器URL。9.如權(quán)利要求7所述的方法,其特征在于,所述結(jié)構(gòu)信息基于每個萬維網(wǎng)頁內(nèi)的隱藏概念。10.—種方法,包括生成概念網(wǎng)絡(luò),包括基于從用戶提交的査詢,分析關(guān)于多個數(shù)據(jù)存儲位置的結(jié)構(gòu)信息;基于所述多個數(shù)據(jù)存儲位置的結(jié)構(gòu)信息,確定對相關(guān)性類型的查詢的響應(yīng);以及向用戶返回涉及所確定的響應(yīng)的信息。11.如權(quán)利要求10所述的方法,其特征在于,所述結(jié)構(gòu)信息基于統(tǒng)一資源定位器URL。12.如權(quán)利要求10所述的方法,其特征在于,所述結(jié)構(gòu)信息基于每個數(shù)據(jù)存儲位置內(nèi)的隱藏信息。13.如權(quán)利要求10所述的方法,其特征在于,所述數(shù)據(jù)存儲位置包括萬維網(wǎng)頁。14.一種具有用于生成概念網(wǎng)絡(luò)的計算機可執(zhí)行指令的計算機可讀介質(zhì),包括基于從用戶提交的查詢,分析關(guān)于多個萬維網(wǎng)站的結(jié)構(gòu)信息;基于所述多個萬維網(wǎng)站的結(jié)構(gòu)信息,確定對相關(guān)性類型的查詢的響應(yīng);以及向用戶返回涉及所確定的響應(yīng)的信息。15.—種方法,包括通過以下動作自動導(dǎo)出域?qū)俜诸惢趶挠脩籼峤坏臇嗽?,分析關(guān)于多個數(shù)據(jù)存儲位置的結(jié)構(gòu)信息;基于所述多個數(shù)據(jù)存儲位置的結(jié)構(gòu)信息,確定對相關(guān)性類型的查詢的響應(yīng)。16.如權(quán)利要求15所述的方法,其特征在于,還包括使用所述域?qū)俜诸惿筛拍罹W(wǎng)絡(luò)。全文摘要一種可響應(yīng)于用戶查詢而被生成的概念網(wǎng)絡(luò)(100)。在一個實施例中,概念網(wǎng)絡(luò)(100)配合搜索工具使用。該搜索工具搜索多個數(shù)據(jù)存儲位置。每個數(shù)據(jù)存儲位置都用一個節(jié)點(302)來排列。這些節(jié)點中的某幾個至少用一個鏈接(306)相連。該概念網(wǎng)絡(luò)(100)基于該鏈接(306)選擇這些節(jié)點中的某幾個中的一部分,其中這至少一個鏈接是用于內(nèi)容目的(306)。文檔編號G06FGK101256581SQ200810081579公開日2008年9月3日申請日期2004年4月12日優(yōu)先權(quán)日2003年5月1日發(fā)明者S·劉,Z·陳,馬維英申請人:微軟公司