技術(shù)編號:10725108
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細信息。 目前,搜索引擎已經(jīng)成為人們獲取信息的首要工具,實現(xiàn)網(wǎng)頁數(shù)據(jù)抓取是搜索引 擎的基本功能之一。每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider) jpider順著 網(wǎng)頁中的超鏈接信息,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超 鏈接信息的應用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。 -般情況下,利用搜索引擎在網(wǎng)頁中搜集到的數(shù)據(jù)通常都是半結(jié)構(gòu)化數(shù)據(jù)。半結(jié) 構(gòu)化數(shù)據(jù)是指數(shù)據(jù)中的部分信息可以按照分類保存到對應的表中,...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。
請注意,此類技術(shù)沒有源代碼,用于學習研究技術(shù)思路。