技術(shù)總結(jié)
本發(fā)明實施例公開了一種任務(wù)分發(fā)方法及裝置,用于提高網(wǎng)絡(luò)爬蟲的爬取效率。本發(fā)明實施例方法包括:將第一頁面的統(tǒng)一資源定位符URL和所述第一頁面的URL的父頁面的哈希hash值解析到任務(wù)列表中;判斷所述第一頁面的URL是否已被爬??;當(dāng)所述第一頁面的URL未被爬取時,根據(jù)所述第一頁面的URL中的子域名和所述第一頁面的URL的父頁面的哈希hash值確定所述第一頁面與第二頁面是否為相鄰頁面;當(dāng)確定所述第一頁面與所述第二頁面不為相鄰頁面時,將所述第一頁面分配到新線程中;當(dāng)確定所述第一頁面與所述第二頁面為相鄰頁面時,將所述第一頁面分配到所述第二頁面所在的線程中;按時序控制對分配后的線程執(zhí)行下載任務(wù)。
技術(shù)研發(fā)人員:左嘯冰;羅純杰
受保護(hù)的技術(shù)使用者:華為技術(shù)有限公司;中國科學(xué)院計算技術(shù)研究所
文檔號碼:201510217232
技術(shù)研發(fā)日:2015.04.30
技術(shù)公布日:2016.12.07