一種基于不同更新策略的分布式網絡爬蟲抓取方法

文檔序號：10512305閱讀：381來源：國知局

一種基于不同更新策略的分布式網絡爬蟲抓取方法
【專利摘要】本發(fā)明公開了一種基于不同更新策略的分布式網絡爬蟲抓取方法，屬于獲取計算機網頁更新信息技術領域。所述基于不同更新策略的分布式網絡爬蟲抓取方法包括以下步驟：S1：網頁更新策略：（1）通過網頁不同屬性，進行聚類分析，將相同的屬性的網頁分為一組；（2）對同一聚類組的網頁進行抽樣提取，通過歷史參考策略確定網頁的更新頻率；（3）通過得到的網頁更新頻率，對網頁進行定時抓??；S2：分布式集群搭建。本發(fā)明所述基于不同更新策略的分布式網絡爬蟲抓取方法，避免了實時監(jiān)測網頁是否更新，可以通過得到的網頁更新頻率來定時的進行網頁更新，減低了系統(tǒng)存儲的負擔，具有很好的推廣應用價值。
【專利說明】
一種基于不同更新策略的分布式網絡爬蟲抓取方法
技術領域
[0001]本發(fā)明涉及獲取計算機網頁更新信息技術領域，具體提供一種基于不同更新策略的分布式網絡爬蟲抓取方法。
【背景技術】
[0002]隨著web信息的日益發(fā)展，web方面的技術也越來越多，網絡爬蟲就是其中一項重要的技術。網絡爬蟲是一種自動提取網頁信息的技術，對網頁信息進行解析與提取。從體系結構、爬行策略和典型應用等方面，爬蟲種類分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲和深層網絡爬蟲四種常見網絡爬蟲。國內外很多大公司的搜索引擎利用網絡爬蟲為大眾用戶提供搜索服務，中型規(guī)模的網絡爬蟲以其靈活的可定制性為特定客戶設計服務。
[0003]而互聯(lián)網是實時變化的，具有很強的動態(tài)性，網頁爬蟲爬取到本地網頁庫不會告知網頁更新了，再重新爬去。由于“無限”的網頁數(shù)量，爬蟲在網絡中頁難以及時發(fā)現(xiàn)是否應該再重新爬去。對于以上的問題，網絡爬蟲需要估算每個已經爬去到的網頁更新的頻率來確定何時再重新進行爬去，增加了計算機系統(tǒng)的負擔。

【發(fā)明內容】

[0004]本發(fā)明的技術任務是針對上述存在的問題，提供一種避免了實時監(jiān)測網頁是否更新，可以通過得到的網頁更新頻率來定時的進行網頁更新，減低了系統(tǒng)存儲的負擔的基于不同更新策略的分布式網絡爬蟲抓取方法。
[0005]為實現(xiàn)上述目的，本發(fā)明提供了如下技術方案:
一種基于不同更新策略的分布式網絡爬蟲抓取方法，包括以下步驟:
S1:網頁更新策略:
(1)通過網頁不同屬性，進行聚類分析，將相同的屬性的網頁分為一組；
(2)對同一聚類組的網頁進行抽樣提取，通過歷史參考策略確定網頁的更新頻率；
(3 )通過得到的網頁更新頻率，對網頁進行定時抓??；
S2:分布式集群搭建:采用一致性哈稀分片算法進行redis集群的搭建，將不同的key分布到不同的redis server上。
[0006]該方法對網頁的屬性進行分類，如股票、電商等類型，進行網頁聚類分析。在同一聚類組中進行抽樣，對這些樣本通過歷史參考策略來確定更新頻率。更加網頁的更新頻率來采集網頁，為了避免網頁更新頻率改變了，而還按照過去的網頁頻率來更新頻率來采集網頁，設定一個時間閥值，過了設定的時間閥值，則進入上一步，更新網頁的更新頻率。
[0007]作為優(yōu)選，所述方法將歷史參考策略與聚類抽樣策略結合在一起。
[0008]作為優(yōu)選，所述歷史參考策略的具體步驟為:
(a)選取較短的時間間隔來定時采集網站的信息，將這些信息作為歷史記錄來存儲；
(b)根據(jù)歷史記錄來確定網頁的更新頻率。
[0009]本發(fā)明具有以下突出的有益效果: 本方法基于不同更新策略的分布式網絡爬蟲抓取，結合了歷史參考策略和聚類抽樣的優(yōu)點，避免一直記錄網頁的歷史信息，減低了系統(tǒng)存儲的負擔，也更簡便的、準確的對相同屬相的網頁進行分類。
【附圖說明】
[0010]圖1為本發(fā)明所述基于不同更新策略的分布式網絡爬蟲抓取方法的工作流程框圖；
圖2為本發(fā)明所述基于不同更新策略的分布式網絡爬蟲抓取方法的結構布局圖。
【具體實施方式】
[0011]下面結合附圖和實施例對本發(fā)明所述基于不同更新策略的分布式網絡爬蟲抓取方法作進一步詳細說明。
實施例
[0012]如圖1和圖2所示，本發(fā)明所述基于不同更新策略的分布式網絡爬蟲抓取方法，包括以下步驟:
S1:網頁更新策略:
(I)通過網頁不同屬性，進行聚類分析，將相同的屬性的網頁分為一組。
[0013](2)對同一聚類組的網頁進行抽樣提取，通過歷史參考策略確定網頁的更新頻率。歷史參考策略的具體步驟為:(a)選取較短的時間間隔來定時采集網站的信息，將這些信息作為歷史記錄來存儲;(b)根據(jù)歷史記錄來確定網頁的更新頻率。
[0014](3)通過得到的網頁更新頻率，對網頁進行定時抓取；
S2:分布式集群搭建:采用一致性哈稀分片算法進行redis集群的搭建，將不同的key分布到不同的redis server上，建立Linkbase數(shù)據(jù)庫，存儲有關鏈接方面的信息。
[0015]該方法對網頁的屬性進行分類，如股票、電商等類型，進行網頁聚類分析。在同一聚類組中進行抽樣，對這些樣本通過歷史參考策略來確定更新頻率。更加網頁的更新頻率來采集網頁，為了避免網頁更新頻率改變了，而還按照過去的網頁頻率來更新頻率來采集網頁，設定一個時間閥值，過了設定的時間閥值，則進入上一步，更新網頁的更新頻率。
[0016]以上所述的實施例，只是本發(fā)明較優(yōu)選的【具體實施方式】，本領域的技術人員在本發(fā)明技術方案范圍內進行的通常變化和替換都應包含在本發(fā)明的保護范圍內。
【主權項】
1.一種基于不同更新策略的分布式網絡爬蟲抓取方法，其特征在于:包括以下步驟: S1:網頁更新策略: (1)通過網頁不同屬性，進行聚類分析，將相同的屬性的網頁分為一組；(2)對同一聚類組的網頁進行抽樣提取，通過歷史參考策略確定網頁的更新頻率； (3 )通過得到的網頁更新頻率，對網頁進行定時抓取； S2:分布式集群搭建:采用一致性哈稀分片算法進行redis集群的搭建，將不同的key分布到不同的redis server上。2.根據(jù)權利要求1所述的基于不同更新策略的分布式網絡爬蟲抓取方法，其特征在于:所述方法將歷史參考策略與聚類抽樣策略結合在一起。3.根據(jù)權利要求1或2所述的基于不同更新策略的分布式網絡爬蟲抓取方法，其特征在于:所述歷史參考策略的具體步驟為: (a)選取較短的時間間隔來定時采集網站的信息，將這些信息作為歷史記錄來存儲； (b)根據(jù)歷史記錄來確定網頁的更新頻率。
【文檔編號】G06F17/30GK105868327SQ201610181698
【公開日】2016年8月17日
【申請日】2016年3月28日
【發(fā)明人】封金煜, 楊勝華, 崔樂樂
【申請人】浪潮軟件集團有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：封金煜;楊勝華;崔樂樂;
技術所有人：浪潮軟件集團有限公司;
我是此專利的發(fā)明人

上一篇：用于日志關聯(lián)分析的方法和裝置的制造方法
上一篇：一種管線數(shù)據(jù)存儲方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

網絡爬蟲抓取數(shù)據(jù)相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于不同更新策略的分布式網絡爬蟲抓取方法