一種更新搜索引擎網(wǎng)址庫方法及裝置的制作方法

文檔序號：6367215閱讀：265來源：國知局

專利名稱：一種更新搜索引擎網(wǎng)址庫方法及裝置的制作方法
技術領域：
本發(fā)明涉及計算機技術領域，特別是涉及一種更新搜索引擎網(wǎng)址庫的方法及裝置。
背景技術：
隨著計算機的普及和互聯(lián)網(wǎng)的發(fā)展，人們對網(wǎng)絡的使用越來越頻繁，計算機網(wǎng)絡逐漸成為人們?nèi)粘Ｉ钪斜夭豢缮俚墓ぞ撸阉饕嬉蚱浔旧砟軌蛱峁┑母鞣N豐富的信息服務，給用戶提供了方方面面的信息和數(shù)據(jù)，在人們的日常生活中得到了廣泛的應用，給人們?nèi)粘５纳a(chǎn)生活帶來了巨大的便利。搜索引擎網(wǎng)站是互聯(lián)網(wǎng)上專門提供檢索服務的一類網(wǎng)站，這些站點的服務器通過網(wǎng)絡搜索軟件或網(wǎng)絡登錄等方式，將互聯(lián)網(wǎng)上的大量網(wǎng)站的頁面信息收集起來，經(jīng)過加工處理后，建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫，通過一定的接口對用戶提出的檢索請求做出響應，提供用戶所需的信息。作為搜索引擎運行的關鍵一環(huán)，將互聯(lián)網(wǎng)上不斷出現(xiàn)的新的頁面和信息收集起來，是搜索引擎網(wǎng)站提供服務的基礎。搜索引擎網(wǎng)站需要不斷更新自己的網(wǎng)址庫，下載網(wǎng)址庫中的網(wǎng)址對應的網(wǎng)頁，再將這些網(wǎng)頁的內(nèi)容信息進行加工和整合，建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫，以便為用戶提供信息檢索和查詢服務。在這個過程中，如何高效地收集互聯(lián)網(wǎng)上不斷出現(xiàn)的網(wǎng)址，是搜索引擎需要重點考慮的問題之一。一個典型的搜索引擎系統(tǒng)，通常由網(wǎng)絡爬蟲系統(tǒng)、索引生成系統(tǒng)和在線檢索系統(tǒng)構成。其中網(wǎng)絡爬蟲系統(tǒng)(又稱網(wǎng)絡機器人、網(wǎng)絡蜘蛛)，是一個搜索引擎系統(tǒng)的重要基礎組成部分。搜索引擎通常會使用這種網(wǎng)絡爬蟲系統(tǒng)收集互聯(lián)網(wǎng)中的網(wǎng)址，生成搜索引擎網(wǎng)址庫，進而對網(wǎng)址庫中的網(wǎng)址對應的網(wǎng)頁進行下載及分析，以便生成信息數(shù)據(jù)庫和索引數(shù)據(jù)庫?，F(xiàn)有技術中的網(wǎng)絡爬蟲系統(tǒng)通常從一個或一組互聯(lián)網(wǎng)頁面開始，對頁面做鏈接分析，從中獲取新的網(wǎng)址，再對新的網(wǎng)址對應的網(wǎng)頁進行下載，再從新下載的頁面中分析并獲取新的網(wǎng)址，如此不斷循環(huán)，以達到不斷的發(fā)現(xiàn)互聯(lián)網(wǎng)上新的頁面的目的。然而現(xiàn)實的情況是，在當今互聯(lián)網(wǎng)高速發(fā)展的情況下，網(wǎng)頁的數(shù)量以極高的速度與日俱增的同時，在互聯(lián)網(wǎng)上依然存在著大量沒有被搜索引擎系統(tǒng)編列索引的網(wǎng)頁，其中包括沒有被外部鏈接指向的網(wǎng)頁，這種網(wǎng)頁由于不能被網(wǎng)絡爬蟲程序以傳統(tǒng)的方式發(fā)現(xiàn)并下載，通常被稱為“暗網(wǎng)”。因此，迫切需要本領域技術人員解決的技術問題就在于，如何提供一種更高效的更新搜索引擎網(wǎng)址庫的方法，使搜索引擎能更加全面的收集互聯(lián)網(wǎng)上的網(wǎng)頁網(wǎng)址，更好的滿足用戶使用互聯(lián)網(wǎng)搜索引擎進行信息檢索的需要。

發(fā)明內(nèi)容
本發(fā)明提供了一種更新搜索引擎網(wǎng)址庫的方法，能夠比較快速和全面的發(fā)現(xiàn)并收集互聯(lián)網(wǎng)上的網(wǎng)頁網(wǎng)址，進而更新搜索引擎的網(wǎng)址庫。本發(fā)明提供了如下方案一種更新搜索引擎網(wǎng)址庫的方法，包括
在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控；獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；其中，所述被瀏覽網(wǎng)頁的相關信息包括被瀏覽網(wǎng)頁的唯一性標識信息；搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫。其中，還包括搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，以便搜索引擎服務器根據(jù)所述優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載。其中，所述搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，包括搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，統(tǒng)計被瀏覽網(wǎng)頁的訪問次數(shù)，根據(jù)被瀏覽次數(shù)確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。其中，所述被瀏覽網(wǎng)頁的相關信息，還包括被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息；所述搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，包括搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。其中，所述獲取被瀏覽網(wǎng)頁的相關信息，將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器包括監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；或者，監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并記錄所述被瀏覽網(wǎng)頁的相關信息，當所述記錄的被瀏覽網(wǎng)頁的相關信息達到預置條件時，上報給搜索引擎服務器。一種更新搜索引擎網(wǎng)址庫的裝置，包括監(jiān)控單元，用于在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控；信息獲取及上報單元，用于獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；其中，所述被瀏覽網(wǎng)頁的相關信息包括被瀏覽網(wǎng)頁的唯一'I"生標識信息；更新單元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫。其中，還包括優(yōu)先級確定單元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，以便搜索引擎服務器根據(jù)所述優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載。其中，所述優(yōu)先級確定單元，包括第一優(yōu)先級確定子單元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，統(tǒng)計被瀏覽網(wǎng)頁的訪問次數(shù)，根據(jù)被瀏覽次數(shù)確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。其中，所述被瀏覽網(wǎng)頁的相關信息，還包括被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息；所述優(yōu)先級確定単元，包括第二優(yōu)先級確定子単元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。其中，所述信息獲取及上報單元包括
第一獲取及上報子單元，用于監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；或者，第二獲取及上報子單元，用于監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并記錄所述被瀏覽網(wǎng)頁的相關信息，當所述記錄的被瀏覽網(wǎng)頁的相關信息達到預置條件時，上報給搜索弓I擎服務器。根據(jù)本發(fā)明提供的具體實施例，本發(fā)明公開了以下技術效果通過本發(fā)明，可以在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控，并將獲取到的被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器，搜索引擎服務器能夠利用從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫，使得搜索引擎能夠在一定程度上發(fā)現(xiàn)沒有被外部鏈接指向到的網(wǎng)頁，進而充實了搜索引擎的網(wǎng)址庫，以及捜索引擎的信息資源。進ー步的，通過本發(fā)明，搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更加合理的從網(wǎng)頁的級別確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，以便搜索引擎服務器根據(jù)網(wǎng)址的優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載分析。

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明實施例提供的方法的流程圖；圖2是本發(fā)明實施例提供的裝置的示意圖。
具體實施例方式下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。參見圖1，本發(fā)明實施例提供的方法包括以下步驟
SlOl :在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控；用戶瀏覽互聯(lián)網(wǎng)上的網(wǎng)頁，一般會通過使用某ー種瀏覽器進行，比如微軟公司的視窗Windows操作系統(tǒng)自帶的瀏覽器Internet Explorer (簡稱IE),以及其他第三方瀏覽器。所謂第三方瀏覽器，通常指在Windows操作系統(tǒng)上運行的非IE的瀏覽器軟件，這類第三方瀏覽器通常會因其有著針對用戶的豐富的獨特功能設計和個性化擴展，為用戶提供了許多方便的應用。由于實際應用中，人們使用計算機的應用環(huán)境，如操作系統(tǒng)、瀏覽器類型等的不盡相同，對用戶瀏覽網(wǎng)頁行為的監(jiān)控可以有多種實現(xiàn)方式例如使用一種帶有監(jiān)控功能的第三方瀏覽器程序，在用戶使用瀏覽器瀏覽網(wǎng)頁時，對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控。另外針對支持插件擴展功能的瀏覽器，對用戶瀏覽網(wǎng)頁的行為的監(jiān)控，也可以由隨瀏覽器啟動的插件程序來實現(xiàn)。插件是按照一定的應用程序接ロ規(guī)范編寫出來的、能被主程序調(diào)用以實現(xiàn)處理某種事務的應用程序，例如某些下載輔助類軟件的插件，用戶安裝這類插件程序后，在啟動瀏覽器時，這些插件會隨瀏覽器啟動，并監(jiān)視用戶的點擊操作以及系統(tǒng)剪切板信息，一旦用戶的點擊或者對頁面鏈接進行復制操作，從而觸發(fā)對某一互聯(lián)網(wǎng)資源的下載，這類插件就會啟動下載輔助軟件，對用戶選擇的互聯(lián)網(wǎng)資源進行下載。在本發(fā)明實施例中，對于不具備所需對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控功能，但可以支持的瀏覽器插件擴展的瀏覽器來說，通過帶有用戶瀏覽行為監(jiān)控功能的插件程序來實現(xiàn)對用戶瀏覽網(wǎng)頁的行為的監(jiān)控，也是ー種有效的實現(xiàn)對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控的手段。又或者，對用戶瀏覽行為的監(jiān)控，可以由非瀏覽器程序及瀏覽器插件程序，比如某種監(jiān)控程序或某種程序監(jiān)控組件來完成，即在用戶使用瀏覽器瀏覽網(wǎng)頁是，由獨立與瀏覽器之外的監(jiān)控程序或者程序監(jiān)控組件對用戶發(fā)出的對目標網(wǎng)頁瀏覽請求進行檢測，以及對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控。S102 :當監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；其中，所述被瀏覽網(wǎng)頁的相關信息包括被瀏覽網(wǎng)頁的網(wǎng)頁的唯一性標識；在用戶對目標網(wǎng)頁發(fā)起瀏覽時，通過對用戶的瀏覽行為進行監(jiān)控，獲取包括用戶瀏覽網(wǎng)頁網(wǎng)頁的唯一性標識的相關信息，并將這些相關信息上報給搜索引擎服務器。其中，關于網(wǎng)頁的卩隹一性標識，可以是網(wǎng)頁的URL (Uniform/Universal Resource Locator,統(tǒng)一資源定位符)，或者，在一定程度上，網(wǎng)頁標題或者網(wǎng)頁內(nèi)容的MD5值等，也可以作為網(wǎng)頁的唯一性標識，因此，將其上報給服務器也是可以的。具體實現(xiàn)時，這種將這些相關信息上報給搜索引擎服務器的過程可以是實時的，即每監(jiān)控到用戶瀏覽ー個URL對應的網(wǎng)頁時，就將此次用戶瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器，這樣做可以實現(xiàn)搜索引擎服務器實時獲取用戶瀏覽網(wǎng)頁的相關信息，保證了搜索引擎服務器得到用戶瀏覽網(wǎng)頁的相關信息的及時性。另外也可以使用在瀏覽器端生成訪問日志，井上傳到搜索引擎服務器的方式將被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器。在用戶對目標網(wǎng)頁發(fā)起瀏覽時，在瀏覽器端生成包含用戶瀏覽網(wǎng)頁URL等相關信息的訪問日志，或者對原有日志進行更新，即將當前用戶的瀏覽行為的信息整合到原有日志中，例如當原有日志中不存在用戶當前瀏覽的網(wǎng)頁的URL時，將用戶瀏覽的網(wǎng)頁的URL追加到日志文件中。然后可以在一定的條件下，將這些用戶瀏覽網(wǎng)頁的相關信息以訪問日志的形式上報給搜索引擎服務器，交由搜索引擎服務器進行處理。具體的，在一定的條件下，將訪問日志的形式上報給搜索引擎服務器的過程中，可以是當瀏覽器端生成的訪問日志達到一定的預置條件(例如記錄的時間達到一定長度，或者日志文件達到一定存儲容量等)吋，將訪問日志上報給搜索引擎服務器，比如，當訪問日志達到或超過I兆字節(jié)時，將訪問日志上報給搜索引擎服務器，或者以I周作為ー個時間段，每一周將訪問日志上報給服務器一次。這種在瀏覽器端生成訪問日志上傳到搜索引擎服務器的方式，將被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器的方法，通常有能夠降低網(wǎng)絡開銷，減少用戶計算機以及搜索引擎服務器系統(tǒng)壓カ的優(yōu)點。S103:搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫。在已有的技術中，搜索引擎服務器依靠爬蟲程序來抓取互聯(lián)網(wǎng)上的網(wǎng)頁并分析頁面內(nèi)的URL信息，進而獲得新的頁面URL，這種基于頁面URL分析的方法，一般只適用于那些頁面有外部鏈接指向而能夠通過外部鏈接到達的頁面，對于那些沒有被外部鏈接指向到的“暗網(wǎng)”是無法抓取的，這是因為，“暗網(wǎng)”沒有被外部鏈接指向到，爬蟲程序也就無法利用傳統(tǒng)的方法通過外部鏈接到達這些網(wǎng)頁，進而獲得“暗網(wǎng)”網(wǎng)頁的信息內(nèi)容。而現(xiàn)實的情況是，在現(xiàn)在的互聯(lián)網(wǎng)上，“暗網(wǎng)”是有著相當數(shù)量的存在的，同時，這些“暗網(wǎng)”又蘊含了甚至數(shù)倍于搜索引擎已獲取的豐富的信息資源，使得“暗網(wǎng)”成為了搜索引擎重要的潛在信息來源。這就給搜索引擎服務提出了一個問題如果能夠獲得這些并沒有被外部鏈接指向的“暗網(wǎng)”的信息資源，進而整合到現(xiàn)有的搜索引擎信息數(shù)據(jù)庫和索引數(shù)據(jù)庫中，就能夠從很大程度上充實現(xiàn)有的信息數(shù)據(jù)庫，從而使搜索引擎更好的滿足互聯(lián)網(wǎng)用戶對于信息捜索的需要。在本發(fā)明實施例提供的方法中，在搜索引擎獲得網(wǎng)絡中各用戶瀏覽器端上報的用戶瀏覽網(wǎng)頁的相關信息后，搜索引擎服務器根據(jù)獲得的用戶瀏覽網(wǎng)頁的信息更新搜索引擎網(wǎng)址庫，這種方法可以通過利用網(wǎng)絡中各用戶瀏覽網(wǎng)頁的信息，來更新搜索引擎網(wǎng)址庫，能夠在一定程度上發(fā)現(xiàn)沒有被外部鏈接指向到的“暗網(wǎng)”，從而充實現(xiàn)有的搜索引擎網(wǎng)址庫。這是因為，在互聯(lián)網(wǎng)上存在的大量“暗網(wǎng)”，雖然是傳統(tǒng)搜索引擎爬蟲程序所不能抓取的，但是，一個網(wǎng)頁從它發(fā)布時起，無論是針對何種用戶群設計的網(wǎng)頁，也無論是否被外部鏈接指向到，它一般總是會被或多或少的用戶所瀏覽?；谶@種思路，利用本發(fā)明實施例提供的方法，將網(wǎng)絡中各用戶瀏覽器端上報的用戶瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器后，搜索引擎服務器就可以獲得用戶瀏覽網(wǎng)頁的相關信息，從中發(fā)現(xiàn)一定數(shù)量的沒有被外部鏈接指向到的“暗網(wǎng)”。也就是說，在本發(fā)明中，在更新搜索引擎網(wǎng)址庫時，并不是基于鏈接進行的，而是基于用戶對網(wǎng)頁的訪問，只要被用戶訪問到的網(wǎng)頁，就可以被收錄到搜索引擎網(wǎng)址庫中，而對于沒有外部鏈接的網(wǎng)頁而言，卻是有可能被用戶訪問到的，因此，也能收錄到搜索引擎網(wǎng)址庫中，從而解決了沒有外部鏈接的“暗網(wǎng)”無法被抓到的問題。另ー方面，在現(xiàn)代互聯(lián)網(wǎng)高速發(fā)展的背景下，互聯(lián)網(wǎng)上新出現(xiàn)的包含各種信息的網(wǎng)頁，每天都在以驚人的速度増加。而搜索引擎爬蟲程序的任務，可以歸納為兩個主要方面ー個是不斷發(fā)現(xiàn)網(wǎng)絡上的URL，另ー個就是下載URL所對應的頁面進行分析。然而，在如今互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量極其龐大，而且增長速度又非?？斓那闆r下，要想在短時間內(nèi)對每一個抓取到的網(wǎng)頁都進行下載分析，幾乎是ー個不可能完成的任務，這是因為，互聯(lián)網(wǎng)上網(wǎng)頁的數(shù)量極其龐大，搜索引擎的爬蟲程序在互聯(lián)網(wǎng)上抓取到的URL對應的頁面也只是其中的一部分，然而即使是這部分頁面，要想全部下載到搜索引擎服務器中，需要占用大量的資源，因此，在已有的技術方案中，通常采取ー種由搜索引擎給網(wǎng)址庫中的URL設置優(yōu)先級，生成并維護URL下載隊列，根據(jù)待下載頁面URL的優(yōu)先級高低來順序下載網(wǎng)頁的方法。這種方法的出發(fā)點是在數(shù)量龐大的頁面URL中進行優(yōu)選，以便搜索引擎能夠在無法及時下載全部的頁面的情況下，優(yōu)先下載那些可能更符合互聯(lián)網(wǎng)用戶興趣頁面，以達到更好的契合互聯(lián)網(wǎng)用戶的信息檢索需求的目的。在已有的技術方案中，設置待下載頁面URL優(yōu)先級的依據(jù)，一般是根據(jù)對待下載頁面所在的網(wǎng)站的統(tǒng)計數(shù)據(jù)，比如待下載頁面所在的網(wǎng)站的訪問量。在設定某個待下載頁面URL的優(yōu)先級時，主要參考待下載頁面URL所在的網(wǎng)站的相關統(tǒng)計數(shù)據(jù)來設定。這種將網(wǎng)站的統(tǒng)計數(shù)據(jù)近似為作頁面的重要程度的做法，使得在對待下載頁面URL的優(yōu)先級設定的依據(jù)不夠全面，可能會導致搜索引擎不能及時下載和分析更加符合用戶需求的網(wǎng)頁內(nèi)容，最終使用戶沒有能夠通過搜索引擎得到需要的捜索結果。例如，某綜合門戶網(wǎng)站A開辟有“IT”頻道，主要介紹IT業(yè)的相關產(chǎn)品及新聞，某網(wǎng)站B是ー個的針對IT行業(yè)的專題網(wǎng)站，包含數(shù)碼產(chǎn)品信息及行業(yè)新聞等內(nèi)容。以現(xiàn)有的技術，可能會由于網(wǎng)站A的訪問量要遠大于網(wǎng)站B的訪問量，搜索引擎將網(wǎng)站A中的頁面的優(yōu)先級設置為高于網(wǎng)站B內(nèi)的頁面的優(yōu)先級。但實際的情況是，由于信息針對性強和更新及時等因素，網(wǎng)站B內(nèi)的頁面所包含的信息更符合用戶的查詢需求，用戶可能更希望獲得網(wǎng)站B的頁面的信息，而在實際使用當中，網(wǎng)站B的某些頁面的訪問量可能要高于網(wǎng)站A的相關頁面。但用戶卻可能因為搜索引擎沒有能夠及時下載收錄網(wǎng)站B內(nèi)的頁面信息，而無法通過其獲得需要的信息。此時，應用本發(fā)明實施例提供的方法，搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，可以從頁面級別確定搜索引擎網(wǎng)址庫中URL的下載優(yōu)先級，而不是以網(wǎng)站的統(tǒng)計數(shù)據(jù)近似的代替頁面的重要程度，從而能夠使搜索引擎網(wǎng)住庫中URL的優(yōu)先級更加合乎實際的頁面訪問情況，以便搜索引擎服務器根據(jù)網(wǎng)址庫中URL優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載，進而更好的滿足用戶的信息查詢需要。搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，可以根據(jù)統(tǒng)計到的被瀏覽網(wǎng)頁的訪問次數(shù)。訪問次數(shù)是反映用戶對信息查詢需求的重要衡量參數(shù)，比如我們經(jīng)常聽到對于某事件的新聞報道中，某個頁面的點擊量超過了幾百萬。訪問次數(shù)，往往反映了用戶對某種信息的關注程度。在已有的技術中，由于衡量一個頁面的重要程度的依據(jù)來源匱乏，往往只能根據(jù)頁面所在網(wǎng)站的訪問次數(shù)，來近似的代替頁面的重要程度，而在本發(fā)明實施例中，依據(jù)根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的被瀏覽網(wǎng)頁的訪問次數(shù)，客觀上更加真實的反映了被瀏覽頁面的受關注程度，而基于從網(wǎng)絡中各用戶瀏覽器端收集到的被瀏覽網(wǎng)頁的訪問次數(shù)來確定的搜索引擎網(wǎng)址庫中URL的優(yōu)先級，也使得搜索引擎能夠更加客觀、合理的組織搜索引擎網(wǎng)址庫。此外，應用本發(fā)明實施例中提供的方法，在用戶的瀏覽器端可以收集到關于被瀏覽網(wǎng)頁的多種信息，除了被瀏覽網(wǎng)頁的訪問次數(shù)，還包括被瀏覽網(wǎng)頁的打開速度，用戶在被瀏覽網(wǎng)頁的停留時間，被瀏覽網(wǎng)頁的來源URL等。這些信息也可以作為設置搜索引擎網(wǎng)址庫中URL優(yōu)先級的參考，這是因為，這些信息往往也可以反映被瀏覽網(wǎng)頁的受關注程度，以及能被瀏覽網(wǎng)頁的所在服務器的服務水平。比如被瀏覽網(wǎng)頁的打開速度，當用戶對某一信息進行查詢時，如果某ー頁面的打開速度非常慢，用戶可能會選擇其他的相關搜索結果以獲得所需信息，而不會去等待頁面的打開，因此搜索引擎服務器可以根據(jù)在用戶的瀏覽器端收集到被瀏覽網(wǎng)頁的打開速度的快慢，相應的提升或降低頁面URL在搜索引擎網(wǎng)址庫中優(yōu)先級；又比如，對于用戶停留時間非常短的頁面，往往是用戶在對某一信息進行查詢時，打開的頁面不能滿足用戶信息查詢需求的而被用戶關閉的網(wǎng)頁，而能夠滿足用戶的信息查詢需求的頁面，通常能夠引發(fā)用戶的瀏覽和閱讀，這樣用戶在該頁面的停留時間勢必會相對較長，因此，搜索引擎服務器可以根據(jù)在用戶的瀏覽器端收集到被瀏覽網(wǎng)頁的用戶停留時間按的長短，相應的提升或降低頁面URL在搜索引擎網(wǎng)址庫中優(yōu)先級；再比如頁面的來源URL，當前頁面是通過點擊來源URL頁面中的鏈接打開的，如果來源URL在搜索引擎網(wǎng)址庫中的優(yōu)先級比較高，說明當前頁面被用戶瀏覽到的可能性更高，則有重要程度更高，因此搜索引擎服務器可以根據(jù)在用戶的瀏覽器端收集到被瀏覽網(wǎng)頁的來源URL，根據(jù)被瀏覽網(wǎng)頁的來源URL在搜索引擎網(wǎng)址庫中優(yōu)先級的高低，來相應的提升或降低頁面URL在搜索引擎網(wǎng)址庫中優(yōu)先級。與本發(fā)明實施例提供的更新搜索引擎網(wǎng)址庫的方法相對應，本發(fā)明實施例還提供了ー種更新搜索引擎網(wǎng)址庫的裝置，參見圖2，該裝置包括監(jiān)控單元201，用于在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控；信息獲取及上報單元202，用于當監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；其中，所述被瀏覽網(wǎng)頁的相關信息包括被瀏覽網(wǎng)頁的唯一性標識信息；更新単元203，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫。為了使搜索引擎能夠在無法及時下載全部的爬蟲程序抓取的URL對應的頁面的情況下，在數(shù)量龐大的頁面URL中優(yōu)先下載那些可能更符合互聯(lián)網(wǎng)用戶興趣頁面，以達到更好的契合互聯(lián)網(wǎng)用戶的信息檢索需求的目的，本發(fā)明實施例還提供了優(yōu)先級確定單元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，以便搜索引擎服務器根據(jù)所述優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載；以及第一優(yōu)先級確定子単元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，統(tǒng)計被瀏覽網(wǎng)頁的訪問次數(shù)，根據(jù)被瀏覽次數(shù)確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級；第二優(yōu)先級確定子単元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。其中，瀏覽器端在上報被瀏覽網(wǎng)頁的相關信息時，有多種方式，也即信息獲取及上報單元可以包括第一獲取及上報子單元，用于監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；或者，第二獲取及上報子単元，用于監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并記錄所述被瀏覽網(wǎng)頁的相關信息，當所述記錄的被瀏覽網(wǎng)頁的相關信息達到預置條件時，上報給搜索引擎服務器。
綜上所述，ー個互聯(lián)網(wǎng)搜索引擎是否能夠比較快速、全面的發(fā)現(xiàn)新的頁面，是評價ー個互聯(lián)網(wǎng)搜索引擎優(yōu)劣的關鍵指標，同時也是決定整個搜索引擎信息服務水平高低的關鍵因素。通過本發(fā)明，能夠比較快速和全面的發(fā)現(xiàn)并收集互聯(lián)網(wǎng)上的網(wǎng)頁網(wǎng)址，在一定程度上發(fā)現(xiàn)沒有被外部鏈接指向到的網(wǎng)頁URL，進而更新搜索引擎的網(wǎng)址庫；并且，通過更加客觀、合理的搜索引擎網(wǎng)址庫URL優(yōu)先級設置，使搜索引擎服務器根據(jù)網(wǎng)頁URL的優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載分析，進而更好的滿足了用戶信息檢索的需求。此外，應用本發(fā)明實施例提供的方法，不僅可以進行對已有的搜索引擎網(wǎng)址庫進行更新，也可以通過本發(fā)明實施例提供的方法，從無到有的建立ー個新的搜索引擎網(wǎng)址庫。需要說明的是，由于裝置的實施例與方法的實施例是對應的，因此，裝置實施例中未詳述部分可以參見方法實施例中的介紹，這里不再贅述。以上對本發(fā)明所提供的更新搜索引擎網(wǎng)址庫的方法及裝置，進行了詳細介紹，本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領域的一般技術人員，依據(jù)本發(fā)明的思想，在具體實施方式
及應用范圍上均會有改變之處。綜上所述，本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權利要求
1.ー種更新搜索引擎網(wǎng)址庫的方法，其特征在于，包括在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控；獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；其中，所述被瀏覽網(wǎng)頁的相關信息包括被瀏覽網(wǎng)頁的唯一性標識信息；搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫。
2.根據(jù)權利要求I所述的方法，其特征在于，還包括搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，以便搜索引擎服務器根據(jù)所述優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載。
3.根據(jù)權利要求2所述的方法，其特征在于，所述搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，包括搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，統(tǒng)計被瀏覽網(wǎng)頁的訪問次數(shù)，根據(jù)被瀏覽次數(shù)確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。
4.根據(jù)權利要求2所述的方法，其特征在于，所述被瀏覽網(wǎng)頁的相關信息，還包括被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息；所述搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，包括搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。
5.根據(jù)權利要求I至4任一項所述的方法，其特征在于，所述獲取被瀏覽網(wǎng)頁的相關信息，將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器包括監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；或者，監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并記錄所述被瀏覽網(wǎng)頁的相關信息，當所述記錄的被瀏覽網(wǎng)頁的相關信息達到預置條件時，上報給搜索引擎服務器。
6.ー種更新搜索引擎網(wǎng)址庫的裝置，其特征在于，包括監(jiān)控單元，用于在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控；信息獲取及上報單元，用于獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；其中，所述被瀏覽網(wǎng)頁的相關信息包括被瀏覽網(wǎng)頁的唯一性標識信息；更新単元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫。
7.根據(jù)權利要求6所述的裝置，其特征在于，還包括優(yōu)先級確定單元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級，以便搜索引擎服務器根據(jù)所述優(yōu)先級對搜索引擎網(wǎng)址庫中的網(wǎng)址進行下載。
8.根據(jù)權利要求7所述的裝置，其特征在于，所述優(yōu)先級確定単元，包括第一優(yōu)先級確定子単元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，統(tǒng)計被瀏覽網(wǎng)頁的訪問次數(shù)，根據(jù)被瀏覽次數(shù)確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。
9.根據(jù)權利要求7所述的裝置，其特征在于，所述被瀏覽網(wǎng)頁的相關信息，還包括被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息；所述優(yōu)先級確定單元，包括第二優(yōu)先級確定子単元，用于搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的打開速度、停留時間和/或來源網(wǎng)頁的唯一性標識信息，確定搜索引擎網(wǎng)址庫中網(wǎng)址的優(yōu)先級。
10.根據(jù)權利要求I至4任一項所述的方法，其特征在于，所述信息獲取及上報單元包括第一獲取及上報子單元，用于監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；或者，第二獲取及上報子單元，用于監(jiān)控到用戶瀏覽網(wǎng)頁時，獲取被瀏覽網(wǎng)頁的相關信息，并記錄所述被瀏覽網(wǎng)頁的相關信息，當所述記錄的被瀏覽網(wǎng)頁的相關信息達到預置條件吋，上報給搜索引擎服務器。
全文摘要
本發(fā)明公開了一種更新搜索引擎網(wǎng)址庫的方法及裝置，其中，所述方法包括在瀏覽器端對用戶瀏覽網(wǎng)頁的行為進行監(jiān)控；獲取被瀏覽網(wǎng)頁的相關信息，并將所述被瀏覽網(wǎng)頁的相關信息上報給搜索引擎服務器；其中，所述被瀏覽網(wǎng)頁的相關信息包括被瀏覽網(wǎng)頁的唯一性標識信息；搜索引擎服務器根據(jù)從網(wǎng)絡中各用戶瀏覽器端收集到的所述被瀏覽網(wǎng)頁的相關信息，更新搜索引擎網(wǎng)址庫。通過本發(fā)明，能夠比較快速和全面的發(fā)現(xiàn)并收集互聯(lián)網(wǎng)上的網(wǎng)頁網(wǎng)址，進而更新搜索引擎的網(wǎng)址庫。
文檔編號G06F17/30GK102663049SQ20121008902
公開日2012年9月12日申請日期2012年3月29日優(yōu)先權日2012年3月29日
發(fā)明者李鐵鈞, 馬良申請人:奇智軟件(北京)有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：李鐵鈞;馬良
技術所有人：奇智軟件（北京）有限公司
我是此專利的發(fā)明人

上一篇：一種Flash游戲存檔的方法和裝置的制作方法
上一篇：基于二維碼的物品身份雙碼標識方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種更新搜索引擎網(wǎng)址庫方法及裝置的制作方法