專利名稱:一種用于爬取頁面的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種用于爬取頁面的技術(shù)。
背景技術(shù):
當前用于爬取網(wǎng)絡(luò)頁面的方法,是采用隨機的廣度優(yōu)先策略。因此,對于定向爬取,則存在擴散速度慢,擴散方向和擴散速度難以控制,從而難以在期望的時間內(nèi)擴散到期望的頁面等問題。例如對于垂直站點中的數(shù)據(jù)進行爬取時,若數(shù)據(jù)的各個維度分布在不同頁面上,則會存在嚴重的數(shù)據(jù)爬取不完全的情況;同時,由于在爬取過程中無法記錄當前數(shù)據(jù)的爬取狀態(tài)信息,因此對于爬取后不完整的數(shù)據(jù),無法判斷該數(shù)據(jù)的不完整是由于數(shù)據(jù)本身的不完備,或是對該頁面的爬取尚未完成。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于爬取頁面的方法與設(shè)備。根據(jù)本發(fā)明的一個方面,提供了一種用于爬取頁面的方法,其中,該方法包括以下步驟:X根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息;y根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息; 其中,該方法還包括:a根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息;b爬取所述目標爬取標識信息所對應(yīng)的目標頁面。根據(jù)本發(fā)明的另一方面,還提供了一種用于爬取頁面的爬取設(shè)備,其中,該設(shè)備包括:候選標識獲取裝置,用于根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識息;分組裝置,用于根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息;其中,該設(shè)備還包括:爬取標識獲取裝置,用于根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識息;爬取裝置,用于爬取所述目標爬取標識信息所對應(yīng)的目標頁面。與現(xiàn)有技術(shù)相比,本發(fā)明通過根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息,并根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合;根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息,爬取所述目標爬取標識信息所對應(yīng)的目標頁面;從而根據(jù)所述關(guān)聯(lián)性信息,有效的控制了爬取的調(diào)度行為,以實現(xiàn)爬取調(diào)度的可配置性,使得爬取能夠目的性的擴散,控制爬蟲在網(wǎng)頁間移動的方向和速度,提高了垂直爬蟲的爬取效率,保證了爬取數(shù)據(jù)的完整性。而且,本發(fā)明還可以根據(jù)所述目標頁面,以及所述已爬取頁面,確定對應(yīng)的數(shù)據(jù)對象,從而能夠?qū)⑼惖臄?shù)據(jù)單元作為完整的數(shù)據(jù)對象進行爬取,保證了爬取數(shù)據(jù)的完整性。而且,所述待爬頁面集合包括基于先進后出策略的第一待爬子集,從而將所述第一待爬子集中時序上最后被添加的頁面標識信息,作為所述目標爬取標識信息;進一步地,還可以根據(jù)將所述候選頁面標識信息添加至所述第一待爬子集的第一觸發(fā)條件,將所述候選頁面標識信息添加至所述第一待爬集合;從而實現(xiàn)基于先進后出策略的爬取方法,控制爬蟲在網(wǎng)頁間移動的方向和速度,提高了垂直爬蟲的爬取效率。而且,所述待爬頁面集合還包括基于時限處理策略的第二待爬子集,從而當所述第一待爬子集為空時,從所述第二待爬子集中確定所述目標爬取標識信息;進一步地,還可以根據(jù)將所述候選頁面標識信息添加至所述第二待爬子集的第二觸發(fā)條件,將所述候選頁面標識信息添加至所述第二待爬集合;從而實現(xiàn)基于時限處理策略的爬取方法,與所述先進后出策略結(jié)合,控制爬蟲在網(wǎng)頁間移動的方向和速度,提高了垂直爬蟲的爬取效率。而且,本發(fā)明還可以根據(jù)調(diào)整觸發(fā)條件,對所述待爬頁面集合進行相應(yīng)調(diào)整;進一步地,當述待爬頁面集合包括所述第一待爬集合與所述第二待爬集合,則所述調(diào)整觸發(fā)條件包括所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間;從而實現(xiàn)了對待爬頁面集合的靈活控制,實現(xiàn)爬取調(diào)度的可配置性,提高了垂直爬蟲的爬取效率。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:圖1示出根據(jù)本發(fā)明一個方面的一種用于爬取頁面的爬取設(shè)備示意圖;圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的一種用于爬取頁面的爬取設(shè)備示意圖;圖3示出根據(jù)本發(fā)明另一個方面的一種用于爬取頁面的方法流程圖;圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的一種用于爬取頁面的方法流程圖。附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進一步詳細描述。圖1示出根據(jù)本發(fā)明一個方面的一種用于爬取頁面的爬取設(shè)備示意圖;其中,所述爬取設(shè)備包括候選標識獲取裝置11、分組裝置12、爬取標識獲取裝置13、爬取裝置14。具體地,候選標識獲取裝置11根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息;分組裝置12根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息;爬取標識獲取裝置13根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息;爬取裝置14爬取所述目標爬取標識信息所對應(yīng)的目標頁面。
在此,爬取設(shè)備包括但不限于網(wǎng)絡(luò)設(shè)備、用戶設(shè)備、或網(wǎng)絡(luò)設(shè)備與用戶設(shè)備通過網(wǎng)絡(luò)相集成所構(gòu)成的設(shè)備。其中,所述網(wǎng)絡(luò)設(shè)備其包括但不限于計算機、網(wǎng)絡(luò)主機、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云;在此,云由基于云計算(CloudComputing)的大量計算機或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個虛擬超級計算機。所述用戶設(shè)備其包括但不限于任何一種可與用戶通過鍵盤、遙控器、觸摸板、或聲控設(shè)備進行人機交互的電子產(chǎn)品,例如計算機、智能手機、PDA、游戲機、或IPTV等。所述網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò))等。本領(lǐng)域技術(shù)人員應(yīng)能理解,其他的爬取設(shè)備同樣適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。上述各裝置之間是持續(xù)不斷工作的,在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指上述各裝置分別實時地或者按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求,進行候選頁面標識信息的獲取、與候選頁面標識信息所對應(yīng)的待爬頁面集合的確定、目標爬取標識信息的確定、目標頁面的爬取等,直至爬取設(shè)備停止獲取對應(yīng)候選爬取頁面的候選頁面標識信息。候選標識獲取裝置11根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息。具體地,候選標識獲取裝置11通過各種數(shù)據(jù)接口,基于所述已爬取頁面的鏈接,獲取所述已爬取頁面上的一個或多個對應(yīng)的頁面內(nèi)容,從而獲取所述已爬取頁面;或是直接與存儲已爬取頁面內(nèi)容的數(shù)據(jù)庫等存儲設(shè)備進行交互,獲取所述已爬取頁面;候選標識獲取裝置11根據(jù)已爬取頁面,通過對所述已爬取頁面上的一個或多個頁面內(nèi)容進行掃描檢測等方式,獲取所述已爬取頁面上的、對應(yīng)候選爬取頁面的候選頁面標識信息。其中,所述候選頁面標識信息包括但不限于所述已爬取頁面中的各類超鏈接,如url、短url,以及相對標識或其他可用于確定頁面的標識信息等。
分組裝置12根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息。具體地,分組裝置12根據(jù)所述候選爬取頁面所對應(yīng)的候選頁面標識信息,通過對所述候選頁面標識信息進行解析、語義分析等方式,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息。其中,所述關(guān)聯(lián)性信息包括但不限于內(nèi)容關(guān)聯(lián)性信息、時間關(guān)聯(lián)性信息、頁面模式(pattern)關(guān)聯(lián)性信息中的一種或多種。例如,當所述候選頁面標識信息為所述候選爬取頁面的url時,分組裝置12根據(jù)所述url所對應(yīng)的pattern信息,確定所述關(guān)聯(lián)性信息,如當所述已爬取頁面為某一垂直商務(wù)網(wǎng)站的首頁,則分組裝置12根據(jù)候選標識獲取裝置11所獲取的該首頁上的一個或多個url信息,通過對所述url中pattern信息進行如正則匹配等方式,對其所定義的語義信息進行分析,判斷該url所對應(yīng)的類型信息(如產(chǎn)品頁、聯(lián)系方式頁、公司介紹或公司認證等),根據(jù)所述類型信息,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息;分組裝置12還可以根據(jù)所述候選頁面標識信息中的關(guān)鍵字信息、title內(nèi)容信息、摘要信息或者頁面時間屬性等信息,通過將所述候選頁面標識信息與已爬取的頁面進行匹配、或?qū)蓚€頁面的內(nèi)容關(guān)鍵詞進行相關(guān)性分析或計算距離等方式,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,如當所述已爬取頁面為某一公司的通訊頁面時,若候選頁面標識信息中的關(guān)鍵字信息與所述該公司的名稱相匹配,則認為所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性高。例如,已爬取頁面為阿里巴巴的首頁:
http: //china, al ibaba.com/則與所述已爬取頁面相對應(yīng)的一個候選爬取頁面為:http://search, china, alibaba.com/sel1ffer/—1031644.html spm =a260k.635.5067267.6根據(jù)所述候選爬取頁面的pattern信息,確定該頁面的類別為索引頁,所述待爬取頁面與已爬取頁面的關(guān)聯(lián)性較低;若已爬取頁面為:http: //yxx i 1688.cn.al ibaba.com/則與所述已爬取頁面所對應(yīng)的多個候選頁面分別為: http://yxxi!688.cn.alibaba.com/page/creditdetail.htmhttp://yxxi!688.cn.alibaba.com/page/contactinf0.htm根據(jù)所述候選爬取頁面的pattern信息,結(jié)合所述候選爬取頁面與所述已爬取頁面的關(guān)鍵字信息,確定該頁面的類別為已爬取頁面的“認證信息”與“聯(lián)系方式”,則認為所述待爬取頁面與已爬取頁面的關(guān)聯(lián)性較高。分組裝置12通過根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,基于預(yù)定的判定條件,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,例如,當所述關(guān)聯(lián)性高時,將所述候選頁面標識信息添加至待爬頁面集合中的第一待爬子集,若所述關(guān)聯(lián)性在預(yù)定的閾值范圍內(nèi),或所述關(guān)聯(lián)性信息中定義了時限要求,則將所述候選頁面標識信息添加至待爬頁面集合中的第二待爬子集,若所述關(guān)聯(lián)性低,則將所述候選頁面標識信息添加至待爬頁面集合中的第三待爬子集。其中,所述待爬頁面集合中包括但不限于基于先進后出策略的第一待爬子集、基于時限處理策略的第二待爬子集、基于先進先出策略的第三待爬子集、或者基于時限處理與先進先出的混合策略的第四待爬子集等;所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息,在此,所述頁面標識信息包括但不限于用于表征該頁面的各類超鏈接,如url、短url,以及相對標識或其他可用于確定頁面的標識信息等。爬取標識獲取裝置13根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息。具體地,爬取標識獲取裝置13根據(jù)所述待爬頁面集合,通過基于所述待爬頁面集合中的不同待爬子集所對應(yīng)的策略,確定所述待爬頁面集合中的待爬取頁面的目標爬取標識信息;其中,所述目標爬取標識信息如爬取該待爬取頁面的時間信息或爬取該待爬取頁面的順序信息等。例如對于所述待爬頁面集合中基于先進先出策略的第三待爬子集,則按照所述待爬取頁面確定為第三待爬子集中的時間信息,對所述待爬取頁面依次排序,將所述排序信息作為待爬取頁面的目標爬取標識信息。爬取裝置14爬取所述目標爬取標識信息所對應(yīng)的目標頁面。具體地,爬取裝置14根據(jù)所述目標爬取標識信息所確定的爬取順序,對所對應(yīng)的目標頁面進行爬取,獲取所述目標頁面上的相應(yīng)數(shù)據(jù)信息。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,若所述目標頁面中包含所述候選頁面標識信息,則本發(fā)明還可以根據(jù)所述爬取裝置14所爬取的目標頁面,將所述爬取后的目標頁面作為已爬取頁面,執(zhí)行候選標識獲取裝置11中的操作,以實現(xiàn)循環(huán)執(zhí)行。優(yōu)選地,所述爬取設(shè)備還包括數(shù)據(jù)確定裝置(未示出),其中,所述數(shù)據(jù)確定裝置根據(jù)所述目標頁面,以及所述已爬取頁面,確定對應(yīng)的數(shù)據(jù)對象,其中,所述數(shù)據(jù)對象包括基于所述目標頁面和/或所述已爬取頁面的頁面內(nèi)容的數(shù)據(jù)單元。具體地,所述數(shù)據(jù)確定裝置通過對根據(jù)所述目標頁面所爬取的內(nèi)容,以及根據(jù)所述已爬取頁面的內(nèi)容,通過基于所述已爬取頁面與所述目標頁面的關(guān)聯(lián)性信息,將所述目標頁面和/或所述已爬取頁面的頁面內(nèi)容的相關(guān)聯(lián)的一個或多個數(shù)據(jù)單元進行提取,確定對應(yīng)的數(shù)據(jù)對象。例如,當所述已爬取的頁面為某公司的通訊地址信息,而所述目標頁面為該公司的產(chǎn)品頁,則將所述已爬取頁面與所述目標頁面中與該公司相關(guān)聯(lián)的通訊地址信息與產(chǎn)品信息進行提取,生成與該公司相關(guān)聯(lián)的數(shù)據(jù)對象,以實現(xiàn)爬取數(shù)據(jù)的完整性。優(yōu)選地,其中,當所述待爬頁面集合包括基于先進后出策略的第一待爬子集,所述爬取標識獲取裝置13還可以將所述第一待爬子集中時序上最后被添加的頁面標識信息,作為所述目標爬取標識信息。具體地,所述待爬頁面集合包括基于先進后出策略的第一待爬子集,則所述爬取標識獲取裝置13根據(jù)所述第一待爬子集中頁面標識信息被添加的時間順序,確定所述目標爬取標識信息;例如,若某一待爬取頁面是當前時間內(nèi)最后被添加至該第一待爬子集中的待爬取頁面,則將所述待爬頁面所對應(yīng)的頁面標識信息(如url),作為目標爬取標識信息優(yōu)先爬取。即,所述第一待爬子集可利用先入后出(FILO)的堆棧實現(xiàn),根據(jù)待爬取頁面被添加至該第一待爬子集的時間順序,依據(jù)先入后出原則,確定所述待爬取頁面的爬取順序。在此,所述頁面標識信息中還可以包括用于表示當前待抓取頁面是否被抓取的狀態(tài)標識信息,當所述待抓取頁面被抓取后,該狀態(tài)標識改變;如未被抓取前,狀態(tài)標識為1,抓取后,狀態(tài)標識為O,以監(jiān)控該頁面是否已被抓取。更優(yōu)選地,所述分組裝置12還可以根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第一待爬子集的第一觸發(fā)條件;當滿足所述第一觸發(fā)條件,將所述候選頁面標識信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一個或多個待爬取頁面的頁面標識信息。具體地,所述分組裝置12通過根據(jù)所述候選爬取頁面所對應(yīng)的候選頁面標識信息,通過對所述候選頁面標識信息進行解析、語義分析等方式,確定所 述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息。在此,所述確定關(guān)聯(lián)性信息的方式與圖1中所述分組裝置12的確定關(guān)聯(lián)性信息的方式相同或相似,故在此不再贅述,并通過引用的方式包含于此。根據(jù)所述關(guān)聯(lián)性信息,通過結(jié)合所述候選爬取頁面的屬性信息(如頁面類型等)、以及所述第一待爬子集的容量等,檢測是否滿足將所述候選頁面標識信息添加至所述第一待爬子集的第一觸發(fā)條件;當滿足所述第一觸發(fā)條件,將所述候選頁面標識信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一個或多個待爬取頁面的頁面標識信息。更優(yōu)選地,所述第一觸發(fā)條件包括以下至少任一項:-所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面中包含待抓取的數(shù)據(jù)單元;在此,所述待抓取的數(shù)據(jù)單元例如某公司的通訊信息、地址信息、產(chǎn)品信息等數(shù)據(jù)單元;-所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述第一待爬子集未滿,即所述第一待爬子集中仍存在可用空間,可用來存放新的待爬取頁面;-所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面滿足其他的預(yù)定爬取條件,在此,所述其他的預(yù)定爬取條件包括但不限于根據(jù)頁面內(nèi)容中預(yù)設(shè)的關(guān)鍵字、或該頁面所對應(yīng)的數(shù)據(jù)信息的時間信息等,例如若當前頁面的數(shù)據(jù)信息更新或更可靠則應(yīng)提前抓取,例如,對于時效性強的顯示匯率數(shù)據(jù)頁面中,時間越接近當前的頁面越應(yīng)優(yōu)先抓取等。優(yōu)選地,當所述待爬頁面集合還包括基于時限處理策略的第二待爬子集時,所述爬取標識獲取裝置13還可以當所述第一待爬子集為空時,從所述第二待爬子集中確定所述目標爬取標識信息,其中,所述目標爬取標識信息所對應(yīng)的爬取時限時間小于或等于當前時間。具體地,所述待爬頁面集合包括基于時限處理策略的第二待爬子集,則所述爬取標識獲取裝置13首先確定所述第一待爬子集是否為空,若所述第一待爬子集為空時,所述爬取標識獲取裝置13根據(jù)所述第二待爬子集中的待爬取頁面所對應(yīng)的時間信息,確定所述目標爬取標識信息,其中,所述目標爬取標識信息所對應(yīng)的爬取時限時間小于或等于當前時間。在此,所述時間信息包括但不限于所述待爬取頁面添加至所述第二待爬子集的時間點、所述待爬取頁面的最早爬取等待時間、所述待爬取頁面的最長爬取等待時間、所述待爬取頁面的爬取時限時間(即該待爬取頁面完成爬取的時間)等。其中,所述爬取時限時間可根據(jù)所述待爬取頁面的添加至所述第二待爬子集的時間點加上所述待爬取頁面的最長爬取等待時間獲取。例如,根據(jù)預(yù)定的爬取等待時間,將所述待爬取頁面添加至所述第二待爬子集的時間點,加上所述最早爬取等待時間,作為該待爬取頁面的爬取啟動時間;再根據(jù)所述待爬取頁面的最長爬取等待時間,確定該待爬取頁面的爬取時限時間等;所述目標爬取標識信息所對應(yīng)的爬取時限時間(即該待爬取頁面完成爬取的時間)小于或等于當前時間。更優(yōu)選地,所述分組裝置12還可以根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第二待爬子集的第二觸發(fā)條件;當滿足所述第二觸發(fā)條件,將所述候選頁面標識信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一個或多個待爬取頁面的頁面標識信息,以及所述頁面標識信息所對應(yīng)的爬取時限信息。具體地,所述分組裝置12通過根據(jù)所述候選爬取頁面所對應(yīng)的候選頁面標識信息,通過對所述候選頁面標識 信息進行解析、語義分析等方式,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息。在此,所述確定關(guān)聯(lián)性信息的方式與圖1中所述分組裝置12的確定關(guān)聯(lián)性信息的方式相同或相似,故在此不再贅述,并通過引用的方式包含于此。根據(jù)所述關(guān)聯(lián)性信息,通過結(jié)合所述候選爬取頁面的屬性信息(如頁面類型等),檢測是否滿足將所述候選頁面標識信息添加至所述第二待爬子集的第二觸發(fā)條件,例如當所述候選爬取頁面的頁面類型為包含多個鏈接的索引頁或目錄頁時,則認為其滿足所述第二觸發(fā)條件;當滿足所述第二觸發(fā)條件,將所述候選頁面標識信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一個或多個待爬取頁面的頁面標識信息,以及所述頁面標識信息所對應(yīng)的爬取時限信息。其中,所述爬取時限信息包括但不限于所述待爬取頁面添加至所述第二待爬子集的時間點、所述待爬取頁面的最早爬取等待時間、所述待爬取頁面的最長爬取等待時間、所述待爬取頁面的爬取時限時間(即該待爬取頁面完成爬取的時間)等。圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的一種用于爬取頁面的爬取設(shè)備示意圖;其中,所述爬取設(shè)備包括候選標識獲取裝置11’、分組裝置12’、爬取標識獲取裝置13’、爬取裝置14’、檢測裝置15’、調(diào)整裝置16’。具體地,候選標識獲取裝置11’根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息;分組裝置12’根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息;爬取標識獲取裝置13’根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息;爬取裝置14’爬取所述目標爬取標識信息所對應(yīng)的目標頁面;檢測裝置15’檢測是否滿足調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件;調(diào)整裝置16’當滿足所述調(diào)整觸發(fā)條件,對所述待爬頁面集合進行相應(yīng)調(diào)整。其中,所述候選標識獲取裝置11’、分組裝置12’、爬取標識獲取裝置13’、爬取裝置14’與圖1所示對應(yīng)裝置相同或基本相同,故此處不再贅述,并通過引用的方式包含于此。上述各裝置之間是持續(xù)不斷工作的,在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指上述各裝置分別實時地或者按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求,進行候選頁面標識信息的獲取、與候選頁面標識信息所對應(yīng)的待爬頁面集合的確定、目標爬取標識信息的確定、目標頁面的爬取、調(diào)整觸發(fā)條件的檢測、待爬頁面集合的調(diào)整等,直至爬取設(shè)備停止獲取對應(yīng)候選爬取頁面的候選頁面標識信息。檢測裝置15’檢測是否滿足調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件。具體地,所述檢測裝置15’通過定時檢測或基于預(yù)定的觸發(fā)事件等,檢測所述調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件是否被觸發(fā);例如,所述調(diào)整觸發(fā)條件包括但不限于定時調(diào)整、根據(jù)爬取時限信息進行調(diào)整、根據(jù)系統(tǒng)處理能力的變化進行調(diào)整等。如當系統(tǒng)的帶寬變化或系統(tǒng)更換處理器時,則觸發(fā)對所述待爬頁面集合的調(diào)整。調(diào)整裝置16’當滿足所述調(diào)整觸發(fā)條件,對所述待爬頁面集合進行相應(yīng)調(diào)整。具體地,當檢測裝置15’檢測到滿足所述調(diào)整觸發(fā)條件,所述調(diào)整裝置16’基于所述調(diào)整觸發(fā)條件,以及所述調(diào)整觸發(fā)條件所對應(yīng)的相應(yīng)信息,對所述待爬頁面集合進行相應(yīng)調(diào)整。其中,所述調(diào)整操作包括但不限于調(diào)整所述帶爬頁面集合的容量信息、調(diào)整所述待爬集合中頁面標識信息的爬取時限信息、調(diào)整所述待爬頁面集合所對應(yīng)的爬取資源信息等。優(yōu)選地,當所述待爬頁面集合包括所述第一待爬集合與所述第二待爬集合時,其中,所述調(diào)整觸發(fā)條件包括所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間。具體地,當所述待爬頁面集合包 括所述第一待爬集合與所述第二待爬集合時,若所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間,則表示所述第一待爬集合中的待爬取頁面數(shù)量過多或當前系統(tǒng)對所述第一待爬集合的處理效率過低,使得所述第二待爬集合中的第一個待爬頁面長期得不到處理,以致超時。因此將所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間,作為所述調(diào)整觸發(fā)條件。更優(yōu)選地,當所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間時,其中,所述相應(yīng)調(diào)整操作包括以下至少任一項:-減少所述第一待爬集合的容量,例如,減少所述第一待爬集合的所處理的待爬取頁面的數(shù)量、減少所述第一待爬集合所處理的待爬取頁面的類型等;-延長所述第二待爬集合中頁面標識信息的爬取時限信息,例如,調(diào)整所述第二待爬集合中的爬取時限信息,延長所述第二待爬集合的最晚爬取時間,或是延長所述第二待爬集合的等待時間等;-增加所述待爬頁面集合所對應(yīng)的爬取資源信息,在此,所述爬取資源信息包括但不限于系統(tǒng)處理能力、出口帶寬等。圖3示出根據(jù)本發(fā)明另一個方面的一種用于爬取頁面的方法流程圖。具體地,在步驟Si中,爬取設(shè)備根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息;在步驟s2中,爬取設(shè)備根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息;在步驟s3中,爬取設(shè)備根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息;在步驟s4中,爬取設(shè)備爬取所述目標爬取標識信息所對應(yīng)的目標頁面。上述各步驟之間是持續(xù)不斷工作的,在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指上述各步驟分別實時地或者按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求,進行候選頁面標識信息的獲取、與候選頁面標識信息所對應(yīng)的待爬頁面集合的確定、目標爬取標識信息的確定、目標頁面的爬取等,直至爬取設(shè)備停止獲取對應(yīng)候選爬取頁面的候選頁面標識信息。在步驟Si中,爬取設(shè)備根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息。具體地,在步驟Si中,爬取設(shè)備通過各種數(shù)據(jù)接口,基于所述已爬取頁面的鏈接,獲取所述已爬取頁面上的一個或多個對應(yīng)的頁面內(nèi)容,從而獲取所述已爬取頁面;或是直接與存儲已爬取頁面內(nèi)容的數(shù)據(jù)庫等存儲設(shè)備進行交互,獲取所述已爬取頁面;在步驟Si中,爬取設(shè)備根據(jù)已爬取頁面,通過對所述已爬取頁面上的一個或多個頁面內(nèi)容進行掃描檢測等方式,獲取所述已爬取頁面上的、對應(yīng)候選爬取頁面的候選頁面標識信息。其中,所述候選頁面標識信息包括但不限于所述已爬取頁面中的各類超鏈接,如url、短url,以及相對標識或其他可用于確定頁面的標識信息等。在步驟s2中,爬取設(shè)備根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息。具體地,在步驟s2中,爬取設(shè)備根據(jù)所述候選爬取頁面所對應(yīng)的候選頁面標識信息,通過對所述候選頁面標識信息進行解析、語義分析等方式,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息。其中,所述關(guān)聯(lián)性信息包括但不限于內(nèi)容關(guān)聯(lián)性信息、時間關(guān)聯(lián)性信息 、頁面模式(pattern)關(guān)聯(lián)性信息中的一種或多種。例如,當所述候選頁面標識信息為所述候選爬取頁面的url時,在步驟s2中,爬取設(shè)備根據(jù)所述url所對應(yīng)的pattern信息,確定所述關(guān)聯(lián)性信息,如當所述已爬取頁面為某一垂直商務(wù)網(wǎng)站的首頁,則爬取設(shè)備根據(jù)步驟Si中所獲取的該首頁上的一個或多個url信息,通過對所述url中pattern信息進行如正則匹配等方式,對其所定義的語義信息進行分析,判斷該url所對應(yīng)的類型信息(如產(chǎn)品頁、聯(lián)系方式頁、公司介紹或公司認證等),根據(jù)所述類型信息,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息;在步驟s2中,爬取設(shè)備還可以根據(jù)所述候選頁面標識信息中的關(guān)鍵字信息、title內(nèi)容信息、摘要信息或者頁面時間屬性等信息,通過將所述候選頁面標識信息與已爬取的頁面進行匹配、或?qū)蓚€頁面的內(nèi)容關(guān)鍵詞進行相關(guān)性分析或計算距離等方式,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,如當所述已爬取頁面為某一公司的通訊頁面時,若候選頁面標識信息中的關(guān)鍵字信息與所述該公司的名稱相匹配,則認為所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性高。例如,已爬取頁面為阿里巴巴的首頁:httn: //china, al ibaha.com/則與所述已爬取頁面相對應(yīng)的一個候選爬取頁面為:http://search.china.alibaba.com/selloffer/—1031644.html spm =a260k.635.5067267.6根據(jù)所述候選爬取頁面的pattern信息,確定該頁面的類別為索引頁,所述待爬取頁面與已爬取頁面的關(guān)聯(lián)性較低;若已爬取頁面為:http: //yxx i 1688.cn.al ibaba.com/則與所述已爬取頁面所對應(yīng)的多個候選頁面分別為:http://yxxi!688.cn.alibaba.com/page/creditdetail.htmhttp://yxxi!688.cn.alibaba.com/page/contactinf0.htm根據(jù)所述候選爬取頁面的pattern信息,結(jié)合所述候選爬取頁面與所述已爬取頁面的關(guān)鍵字信息,確定該頁面的類別為已爬取頁面的“認證信息”與“聯(lián)系方式”,則認為所述待爬取頁面與已爬取頁面的關(guān)聯(lián)性較高。在步驟s2中,爬取設(shè)備通過根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,基于預(yù)定的判定條件,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,例如,當所述關(guān)聯(lián)性高時,將所述候選頁面標識信息添加至待爬頁面集合中的第一待爬子集,若所述關(guān)聯(lián)性在預(yù)定的閾值范圍內(nèi),或所述關(guān)聯(lián)性信息中定義了時限要求,則將所述候選頁面標識信息添加至待爬頁面集合中的第二待爬子集,若所述關(guān)聯(lián)性低,則將所述候選頁面標識信息添加至待爬頁面集合中的第三 待爬子集。其中,所述待爬頁面集合中包括但不限于基于先進后出策略的第一待爬子集、基于時限處理策略的第二待爬子集、基于先進先出策略的第三待爬子集、或者基于時限處理與先進先出的混合策略的第四待爬子集等;所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息,在此,所述頁面標識信息包括但不限于用于表征該頁面的各類超鏈接,如url、短url,以及相對標識或其他可用于確定頁面的標識信息等。 在步驟s3中,爬取設(shè)備根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息。具體地,在步驟S3中,爬取設(shè)備根據(jù)所述待爬頁面集合,通過基于所述待爬頁面集合中的不同待爬子集所對應(yīng)的策略,確定所述待爬頁面集合中的待爬取頁面的目標爬取標識信息;其中,所述目標爬取標識信息如爬取該待爬取頁面的時間信息或爬取該待爬取頁面的順序信息等。例如對于所述待爬頁面集合中基于先進先出策略的第三待爬子集,則按照所述待爬取頁面確定為第三待爬子集中的時間信息,對所述待爬取頁面依次排序,將所述排序信息作為待爬取頁面的目標爬取標識信息。在步驟s4中,爬取設(shè)備爬取所述目標爬取標識信息所對應(yīng)的目標頁面。具體地,在步驟s4中,爬取設(shè)備根據(jù)所述目標爬取標識信息所確定的爬取順序,對所對應(yīng)的目標頁面進行爬取,獲取所述目標頁面上的相應(yīng)數(shù)據(jù)信息。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,若所述目標頁面中包含所述候選頁面標識信息,則本發(fā)明還可以根據(jù)所述步驟s4中所爬取的目標頁面,將所述爬取后的目標頁面作為已爬取頁面,執(zhí)行步驟Si中的操作,以實現(xiàn)循環(huán)執(zhí)行。優(yōu)選地,所述爬取設(shè)備還包括步驟s7 (未示出),其中,在步驟s7中,爬取設(shè)備根據(jù)所述目標頁面,以及所述已爬取頁面,確定對應(yīng)的數(shù)據(jù)對象,其中,所述數(shù)據(jù)對象包括基于所述目標頁面和/或所述已爬取頁面的頁面內(nèi)容的數(shù)據(jù)單元。具體地,在步驟s7中,爬取設(shè)備通過對根據(jù)所述目標頁面所爬取的內(nèi)容,以及根據(jù)所述已爬取頁面的內(nèi)容,通過基于所述已爬取頁面與所述目標頁面的關(guān)聯(lián)性信息,將所述目標頁面和/或所述已爬取頁面的頁面內(nèi)容的相關(guān)聯(lián)的一個或多個數(shù)據(jù)單元進行提取,確定對應(yīng)的數(shù)據(jù)對象。例如,當所述已爬取的頁面為某公司的通訊地址信息,而所述目標頁面為該公司的產(chǎn)品頁,則將所述已爬取頁面與所述目標頁面中與該公司相關(guān)聯(lián)的通訊地址信息與產(chǎn)品信息進行提取,生成與該公司相關(guān)聯(lián)的數(shù)據(jù)對象,以實現(xiàn)爬取數(shù)據(jù)的完整性。優(yōu)選地,其中,當所述待爬頁面集合包括基于先進后出策略的第一待爬子集,在步驟S3中,爬取設(shè)備還可以將所述第一待爬子集中時序上最后被添加的頁面標識信息,作為所述目標爬取標識信息。具體地,所述待爬頁面集合包括基于先進后出策略的第一待爬子集,則在步驟S3中,爬取設(shè)備根據(jù)所述第一待爬子集中頁面標識信息被添加的時間順序,確定所述目標爬取標識信息;例如,若某一待爬取頁面是當前時間內(nèi)最后被添加至該第一待爬子集中的待爬取頁面,則將所述待爬頁面所對應(yīng)的頁面標識信息(如url),作為目標爬取標識信息優(yōu)先爬取。即,所述第一待爬子集可利用先入后出(FILO)的堆棧實現(xiàn),根據(jù)待爬取頁面被添加至該第一待爬子集的時間順序,依據(jù)先入后出原則,確定所述待爬取頁面的爬取順序。在此,所述頁面標識信息中還可以包括用于表示當前待抓取頁面是否被抓取的狀態(tài)標識信息,當所述待抓取頁面被抓取后,該狀態(tài)標識改變;如未被抓取前,狀態(tài)標識為1,抓取后,狀態(tài)標識為O,以監(jiān)控該頁面是否已被抓取。更優(yōu)選地,在步驟s2中,爬取設(shè)備還可以根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第一待爬子集的第一觸發(fā)條件;當滿足所述第一觸發(fā)條件,將所述候選頁面標識信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一個或多個待爬取頁面的頁面標識信息。具體地,在步驟s2中,爬取設(shè)備通過根據(jù)所述候選爬取頁面所對應(yīng)的候選頁面標識信息,通過對所述候選頁面標識信息進行解析、語義分析等方式,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息。在此,所述確定關(guān)聯(lián)性信息的方式與圖3中所述步驟s2的確定關(guān)聯(lián)性信息的方式相同或相似,故在此不再贅述,并通過引用的方式包含于此。根據(jù)所述 關(guān)聯(lián)性信息,通過結(jié)合所述候選爬取頁面的屬性信息(如頁面類型等)、以及所述第一待爬子集的容量等,檢測是否滿足將所述候選頁面標識信息添加至所述第一待爬子集的第一觸發(fā)條件;當滿足所述第一觸發(fā)條件,將所述候選頁面標識信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一個或多個待爬取頁面的頁面標識信息。更優(yōu)選地,所述第一觸發(fā)條件包括以下至少任一項:-所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面中包含待抓取的數(shù)據(jù)單元;在此,所述待抓取的數(shù)據(jù)單元例如某公司的通訊信息、地址信息、產(chǎn)品信息等數(shù)據(jù)單元;-所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述第一待爬子集未滿,即所述第一待爬子集中仍存在可用空間,可用來存放新的待爬取頁面;-所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面滿足其他的預(yù)定爬取條件,在此,所述其他的預(yù)定爬取條件包括但不限于根據(jù)頁面內(nèi)容中預(yù)設(shè)的關(guān)鍵字、或該頁面所對應(yīng)的數(shù)據(jù)信息的時間信息等,例如若當前頁面的數(shù)據(jù)信息更新或更可靠則應(yīng)提前抓取,例如,對于時效性強的顯示匯率數(shù)據(jù)頁面中,時間越接近當前的頁面越應(yīng)優(yōu)先抓取等。優(yōu)選地,當所述待爬頁面集合還包括基于時限處理策略的第二待爬子集時,在步驟s3中,爬取設(shè)備還可以當所述第一待爬子集為空時,從所述第二待爬子集中確定所述目標爬取標識信息,其中,所述目標爬取標識信息所對應(yīng)的爬取時限時間小于或等于當前時間。具體地,所述待爬頁面集合包括基于時限處理策略的第二待爬子集,則在步驟s3中,爬取設(shè)備首先確定所述第一待爬子集是否為空,若所述第一待爬子集為空時,在步驟s3中,爬取設(shè)備根據(jù)所述第二待爬子集中的待爬取頁面所對應(yīng)的時間信息,確定所述目標爬取標識信息,其中,所述目標爬取標識信息所對應(yīng)的爬取時限時間小于或等于當前時間。在此,所述時間信息包括但不限于所述待爬取頁面添加至所述第二待爬子集的時間點、所述待爬取頁面的最早爬取等待時間、所述待爬取頁面的最長爬取等待時間、所述待爬取頁面的爬取時限時間(即該待爬取頁面完成爬取的時間)等。其中,所述爬取時限時間可根據(jù)所述待爬取頁面的添加至所述第二待爬子集的時間點加上所述待爬取頁面的最長爬取等待時間獲取。例如,根據(jù)預(yù)定的爬取等待時間,將所述待爬取頁面添加至所述第二待爬子集的時間點,加上所述最早爬取等待時間,作為該待爬取頁面的爬取啟動時間;再根據(jù)所述待爬取頁面的最長爬取等待時間,確定該待爬取頁面的爬取時限時間等;所述目標爬取標識信息所對應(yīng)的爬取時限時間(即該待爬取頁面完成爬取的時間)小于或等于當前時間。更優(yōu)選地,在步驟s2中,爬取設(shè)備還可以根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第二待爬子集的第二觸發(fā)條件;當滿足所述第二觸發(fā)條件,將所述候選頁面標識信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一個或多個待爬取頁面的頁面標識信息,以及所述頁面標識信息所對應(yīng)的爬取時限信息。具體地,在步驟s2中,爬取設(shè)備通過根據(jù)所述候選爬取頁面所對應(yīng)的候選頁面標識信息,通過對所述候選頁面標識信息進行解析、語義分析等方式,確定所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息。在此,所述確定關(guān)聯(lián)性信息的方式與圖3中所述步驟s2的確定關(guān)聯(lián) 性信息的方式相同或相似,故在此不再贅述,并通過引用的方式包含于此。根據(jù)所述關(guān)聯(lián)性信息,通過結(jié)合所述候選爬取頁面的屬性信息(如頁面類型等),檢測是否滿足將所述候選頁面標識信息添加至所述第二待爬子集的第二觸發(fā)條件,例如當所述候選爬取頁面的頁面類型為包含多個鏈接的索引頁或目錄頁時,則認為其滿足所述第二觸發(fā)條件;當滿足所述第二觸發(fā)條件,將所述候選頁面標識信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一個或多個待爬取頁面的頁面標識信息,以及所述頁面標識信息所對應(yīng)的爬取時限信息。其中,所述爬取時限信息包括但不限于所述待爬取頁面添加至所述第二待爬子集的時間點、所述待爬取頁面的最早爬取等待時間、所述待爬取頁面的最長爬取等待時間、所述待爬取頁面的爬取時限時間(即該待爬取頁面完成爬取的時間)等。圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的一種用于爬取頁面的方法流程圖。具體地,在步驟Si’中,爬取設(shè)備根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息;在步驟s2’中,爬取設(shè)備根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息;在步驟S3’中,爬取設(shè)備根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息;在步驟s4’中,爬取設(shè)備爬取所述目標爬取標識信息所對應(yīng)的目標頁面;在步驟s5’中,爬取設(shè)備檢測是否滿足調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件;在步驟s6’中,爬取設(shè)備當滿足所述調(diào)整觸發(fā)條件,對所述待爬頁面集合進行相應(yīng)調(diào)整。其中,所述步驟81’、步驟82’、步驟83’、步驟84’與圖3所示對應(yīng)步驟相同或基本相同,故此處不再贅述,并通過引用的方式包含于此。上述各步驟之間是持續(xù)不斷工作的,在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指上述各步驟分別實時地或者按照設(shè)定的或?qū)崟r調(diào)整的工作模式要求,進行候選頁面標識信息的獲取、與候選頁面標識信息所對應(yīng)的待爬頁面集合的確定、目標爬取標識信息的確定、目標頁面的爬取、調(diào)整觸發(fā)條件的檢測、待爬頁面集合的調(diào)整等,直至爬取設(shè)備停止獲取對應(yīng)候選爬取頁面的候選頁面標識信息。在步驟s5’中,爬取設(shè)備檢測是否滿足調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件。具體地,在步驟s5’中,爬取設(shè)備通過定時檢測或基于預(yù)定的觸發(fā)事件等,檢測所述調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件是否被觸發(fā);例如,所述調(diào)整觸發(fā)條件包括但不限于定時調(diào)整、根據(jù)爬取時限信息進行調(diào)整、根據(jù)系統(tǒng)處理能力的變化進行調(diào)整等。如當系統(tǒng)的帶寬變化或系統(tǒng)更換處理器時,則觸發(fā)對所述待爬頁面集合的調(diào)整。在步驟s6’中,爬取設(shè)備當滿足所述調(diào)整觸發(fā)條件,對所述待爬頁面集合進行相應(yīng)調(diào)整。具體地,當在步驟s6’中,爬取設(shè)備檢測到滿足所述調(diào)整觸發(fā)條件,在步驟s6’中,爬取設(shè)備基于所述調(diào)整觸發(fā)條件,以及所述調(diào)整觸發(fā)條件所對應(yīng)的相應(yīng)信息,對所述待爬頁面集合進行相應(yīng)調(diào)整。其中,所述 調(diào)整操作包括但不限于調(diào)整所述帶爬頁面集合的容量信息、調(diào)整所述待爬集合中頁面標識信息的爬取時限信息、調(diào)整所述待爬頁面集合所對應(yīng)的爬取資源信息等。優(yōu)選地,當所述待爬頁面集合包括所述第一待爬集合與所述第二待爬集合時,其中,所述調(diào)整觸發(fā)條件包括所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間。具體地,當所述待爬頁面集合包括所述第一待爬集合與所述第二待爬集合時,若所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間,則表示所述第一待爬集合中的待爬取頁面數(shù)量過多或當前系統(tǒng)對所述第一待爬集合的處理效率過低,使得所述第二待爬集合中的第一個待爬頁面長期得不到處理,以致超時。因此將所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間,作為所述調(diào)整觸發(fā)條件。更優(yōu)選地,當所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間時,其中,所述相應(yīng)調(diào)整操作包括以下至少任一項:-減少所述第一待爬集合的容量,例如,減少所述第一待爬集合的所處理的待爬取頁面的數(shù)量、減少所述第一待爬集合所處理的待爬取頁面的類型等;-延長所述第二待爬集合中頁面標識信息的爬取時限信息,例如,調(diào)整所述第二待爬集合中的爬取時限信息,延長所述第二待爬集合的最晚爬取時間,或是延長所述第二待爬集合的等待時間等;-增加所述待爬頁面集合所對應(yīng)的爬取資源信息,在此,所述爬取資源信息包括但不限于系統(tǒng)處理能力、出口帶寬等。對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何 特定的順序。
權(quán)利要求
1.一種用于爬取頁面的方法,其中,該方法包括以下步驟: X根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息;y根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息; 其中,該方法還包括: a根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息; b爬取所述目標爬取標識信息所對應(yīng)的目標頁面。
2.根據(jù)權(quán)利要求1所述的方法,其中,該方法還包括: -根據(jù)所述目標頁面,以及所述已爬取頁面,確定對應(yīng)的數(shù)據(jù)對象,其中,所述數(shù)據(jù)對象包括基于所述目標頁面和/或所述已爬取頁面的頁面內(nèi)容的數(shù)據(jù)單元。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述待爬頁面集合包括基于先進后出策略的第一待爬子集; 其中,所述步驟a包括: -將所述第一待爬子集中時序上最后被添加的頁面標識信息,作為所述目標爬取標識信息。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述步驟I包括: -根據(jù)所述候選爬取頁面與 所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第一待爬子集的第一觸發(fā)條件; -當滿足所述第一觸發(fā)條件,將所述候選頁面標識信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一個或多個待爬取頁面的頁面標識信息。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述第一觸發(fā)條件包括以下至少任一項: -所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面中包含待抓取的數(shù)據(jù)單元; -所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述第一待爬子集未滿; -所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面滿足其他的預(yù)定爬取條件。
6.根據(jù)權(quán)利要求3所述的方法,其中,所述待爬頁面集合還包括基于時限處理策略的第二待爬子集; 其中,所述步驟a包括: -當所述第一待爬子集為空時,從所述第二待爬子集中確定所述目標爬取標識信息,其中,所述目標爬取標識信息所對應(yīng)的爬取時限時間小于或等于當前時間。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述步驟I包括: -根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第二待爬子集的第二觸發(fā)條件; -當滿足所述第二觸發(fā)條件,將所述候選頁面標識信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一個或多個待爬取頁面的頁面標識信息,以及所述頁面標識信息所對應(yīng)的爬取時限信息。
8.根據(jù)權(quán)利要求1至7中任一項所述的方法,其中,該方法還包括: -檢測是否滿足調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件;-當滿足所述調(diào)整觸發(fā)條件,對所述待爬頁面集合進行相應(yīng)調(diào)整。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述待爬頁面集合包括所述第一待爬集合與所述弟二待爬集合; 其中,所述調(diào)整觸發(fā)條件包括所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述相應(yīng)調(diào)整操作包括以下至少任一項: -減少所述第一待爬集合的容量; -延長所述第二待爬集合中頁面標識信息的爬取時限信息; -增加所述待爬頁面集合所對應(yīng)的爬取資源信息。
11.一種用于爬取頁面的爬取設(shè)備,其中,該設(shè)備包括: 候選標識獲取裝置,用于根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息; 分組裝置,用于根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對 應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息; 其中,該設(shè)備還包括: 爬取標識獲取裝置,用于根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息; 爬取裝置,用于爬取所述目標爬取標識信息所對應(yīng)的目標頁面。
12.根據(jù)權(quán)利要求11所述的爬取設(shè)備,其中,該設(shè)備還包括: 數(shù)據(jù)確定裝置,用于根據(jù)所述目標頁面,以及所述已爬取頁面,確定對應(yīng)的數(shù)據(jù)對象,其中,所述數(shù)據(jù)對象包括基于所述目標頁面和/或所述已爬取頁面的頁面內(nèi)容的數(shù)據(jù)單示 ο
13.根據(jù)權(quán)利要求11或12所述的爬取設(shè)備,其中,所述待爬頁面集合包括基于先進后出策略的第一待爬子集; 其中,所述爬取標識獲取裝置用于: -將所述第一待爬子集中時序上最后被添加的頁面標識信息,作為所述目標爬取標識信息。
14.根據(jù)權(quán)利要求13所述的爬取設(shè)備,其中,所述分組裝置用于: -根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第一待爬子集的第一觸發(fā)條件; -當滿足所述第一觸發(fā)條件,將所述候選頁面標識信息添加至所述第一待爬集合,其中,所述第一待爬集合包括一個或多個待爬取頁面的頁面標識信息。
15.根據(jù)權(quán)利要求14所述的爬取設(shè)備,其中,所述第一觸發(fā)條件包括以下至少任一項: -所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面中包含待抓取的數(shù)據(jù)單元; -所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述第一待爬子集未滿; -所述關(guān)聯(lián)性信息滿足預(yù)定關(guān)聯(lián)閾值,且所述候選爬取頁面滿足其他的預(yù)定爬取條件。
16.根據(jù)權(quán)利要求13所述的爬取設(shè)備,其中,所述待爬頁面集合還包括基于時限處理策略的第二待爬子集; 其中,所述爬取標識獲取裝置用于: -當所述第一待爬子集為空時,從所述第二待爬子集中確定所述目標爬取標識信息,其中,所述目標爬取標識信息所對應(yīng)的爬取時限時間小于或等于當前時間。
17.根據(jù)權(quán)利要求16所述的爬取設(shè)備,其中,所述分組裝置用于: -根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,檢測是否滿足將所述候選頁面標識信息添加至所述第二待爬子集的第二觸發(fā)條件; -當滿足所述第二觸發(fā)條件,將所述候選頁面標識信息添加至所述第二待爬集合,其中,所述第二待爬集合包括一個或多個待爬取頁面的頁面標識信息,以及所述頁面標識信息所對應(yīng)的爬取時限信息。
18.根據(jù)權(quán)利要求11至17中任一項所述的爬取設(shè)備,其中,該設(shè)備還包括: 檢測裝置,用于檢測是否滿足調(diào)整所述待爬頁面集合的調(diào)整觸發(fā)條件; 調(diào)整裝置,用于當滿足所述調(diào)整觸發(fā)條件,對所述待爬頁面集合進行相應(yīng)調(diào)整。
19.根據(jù)權(quán)利要求18所述的爬取設(shè)備,其中,所述待爬頁面集合包括所述第一待爬集合與所述第二待爬集合; 其中,所述調(diào)整觸發(fā)條件包括所述第二待爬集合中第一個頁面標識信息的爬取時限信息超出當前時間。
20.根據(jù)權(quán)利要求19所述的爬取設(shè)備,其中,所述相應(yīng)調(diào)整操作包括以下至少任一項: -減少所述第一待爬集合的容量; -延長所述第二待爬集合中頁面標識信息的爬取時限信息; -增加所述待爬頁面集合所對應(yīng)的爬取資源信息。
全文摘要
本發(fā)明的目的是提供一種用于爬取頁面的方法與設(shè)備。其中,爬取設(shè)備根據(jù)已爬取頁面,獲取對應(yīng)候選爬取頁面的候選頁面標識信息;根據(jù)所述候選爬取頁面與所述已爬取頁面的關(guān)聯(lián)性信息,將所述候選頁面標識信息添加至對應(yīng)的待爬頁面集合,其中,所述待爬頁面集合包括一個或多個待爬取頁面的頁面標識信息;根據(jù)所述待爬頁面集合,確定待爬取頁面的目標爬取標識信息;爬取所述目標爬取標識信息所對應(yīng)的目標頁面。與現(xiàn)有技術(shù)相比,本發(fā)明通過根據(jù)所述關(guān)聯(lián)性信息,有效的控制了爬取的調(diào)度行為,以實現(xiàn)爬取調(diào)度的可配置性,使得爬取能夠目的性的擴散,控制爬蟲在網(wǎng)頁間移動的方向和速度,提高了垂直爬蟲的爬取效率,保證了爬取數(shù)據(jù)的完整性。
文檔編號G06F17/30GK103226568SQ20131007831
公開日2013年7月31日 申請日期2013年3月12日 優(yōu)先權(quán)日2013年3月12日
發(fā)明者王江, 劉浩 申請人:北京百度網(wǎng)訊科技有限公司