欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種資源獲取優(yōu)化裝置和方法

文檔序號:9865707閱讀:915來源:國知局
一種資源獲取優(yōu)化裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種資源獲取優(yōu)化裝置和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展與網(wǎng)絡(luò)信息量的不斷劇增,用戶能夠從海量的信息中快速高效的搜索有價值的信息對于互聯(lián)網(wǎng)的發(fā)展至關(guān)重要。URL (Uni form ResourceLocator,統(tǒng)一資源定位符)是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標準資源的地址。因此URL數(shù)據(jù)在信息檢索中即為重要。對于搜索信息來說,網(wǎng)絡(luò)信息采集是其重要組成部分,但常常出現(xiàn)URL被重復(fù)抓取的情況,影響網(wǎng)絡(luò)信息采集的效率。。

【發(fā)明內(nèi)容】

[0003]本發(fā)明的主要目的在于提出一種資源獲取優(yōu)化裝置和方法,旨在解決通過單機內(nèi)存或遠程關(guān)系型數(shù)據(jù)庫進行資源獲取優(yōu)化時存在的處理能力的限制和處理速度的限制。
[0004]為實現(xiàn)上述目的,本發(fā)明提供的一種資源獲取優(yōu)化裝置,包括:
[0005]地址確認單元,用于確認待定URL是初始URL的域名內(nèi)的URL;將所述待定URL根據(jù)參數(shù)模板進行簡化得到簡化URL;
[0006]抓取預(yù)判單元,用于當簡化URL在URL簡化列表中不存在時,將簡化URL記錄到待抓取列表;
[0007]數(shù)據(jù)寫入單元,用于當所述待抓取列表中新添加的URL與已有的URL對應(yīng)的頁面內(nèi)容不同時,將簡化URL寫入已抓取列表。
[0008]其中,所述裝置,還包括:
[0009]列表判斷單元,用于判斷是否存在URL簡化列表;
[0010]所述地址確認單元,具體用于:
[0011 ]當存在URL簡化列表時,確認待定URL是初始URL的域名內(nèi)的URL;
[0012]所述裝置還包括:
[0013]第一預(yù)判單元,用于當不存在URL簡化列表時,判斷所述待定URL是否在已抓取列表中;
[0014I判斷記錄單元,用于若所述待定URL不在已抓取列表中,將待定URL記錄到待抓取列表。
[0015]其中,所述URL簡化列表中記錄有已抓取的簡化URL及其對應(yīng)MD5信息摘要;
[0016]所述地址確認單元,包括:
[0017]子串判斷模塊,用于獲取待定URL的域名子串和初始URL的域名子串,確認兩個域名子串相同;
[0018]摘要生成模塊,用于將所述待定URL根據(jù)參數(shù)模板過濾掉不在參數(shù)模板中的參數(shù)得到簡化URL,生成簡化URL的MD5信息摘要;
[0019]所述抓取預(yù)判單元,具體用于:
[0020]當生成的簡化URL的MD5信息摘要在URL簡化列表中不存在時,將待定URL及其對應(yīng)的MD5信息摘要記錄到待抓取列表。
[0021 ]其中,所述數(shù)據(jù)寫入單元,包括:
[0022]摘要判斷模塊,用于判斷待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
[0023]數(shù)據(jù)寫入模塊,用于待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中已存在,確認新添加的URL與已抓取的URL中的頁面內(nèi)容不同后將新添加的URL寫入已抓取列表;否則將新添加的URL寫入已抓取列表;
[0024]所述第一部分包括新添加的URL的查詢參數(shù)部分之外的部分。
[0025]其中,所述URL簡化列表、待抓取列表和已抓取列表通過redis集群維護;
[0026]所述裝置還包括:
[0027]列表添加單元,用于若資源獲取優(yōu)化時內(nèi)存不足,動態(tài)添加redis集群規(guī)模。
[0028]此外,為實現(xiàn)上述目的,本發(fā)明還提出一種資源獲取優(yōu)化方法,包括:
[0029]確認待定URL是初始URL的域名內(nèi)的URL;將所述待定URL根據(jù)參數(shù)模板進行簡化得到簡化URL;
[0030]當簡化URL在URL簡化列表中不存在時,將簡化URL記錄到待抓取列表;
[0031]當所述待抓取列表中新添加的URL與已有的URL對應(yīng)的頁面內(nèi)容不同時,將簡化URL寫入已抓取列表。
[0032]其中,所述確認待定URL是初始URL的域名內(nèi)的URL之前,還包括:
[0033]判斷是否存在URL簡化列表;
[0034]所述確認待定URL是初始URL的域名內(nèi)的URL,具體為:
[0035 ]當存在URL簡化列表時,確認待定URL是初始URL的域名內(nèi)的URL;
[0036]所述方法還包括:
[0037]當不存在URL簡化列表時,判斷所述待定URL是否在已抓取列表中;
[0038]若所述待定URL不在已抓取列表中,將簡化URL記錄到待抓取列表。
[0039]其中,所述URL簡化列表中記錄有已抓取的簡化URL及其對應(yīng)MD5信息摘要;
[0040]所述確認待定URL是初始URL的域名內(nèi)的URL;將所述待定URL根據(jù)參數(shù)模板進行簡化得到簡化URL,包括:
[0041 ]獲取待定URL的域名子串和初始URL的域名子串,確認兩個域名子串相同;
[0042]將所述待定URL根據(jù)參數(shù)模板過濾掉不在參數(shù)模板中的參數(shù)得到簡化URL,生成簡化URL的MD5信息摘要;
[0043 ] 所述當簡化URL在URL簡化列表中不存在時,將簡化URL記錄到待抓取列表,具體為:
[0044]當生成的簡化URL的MD5信息摘要在URL簡化列表中不存在時,將待定URL及其對應(yīng)的MD5信息摘要記錄到待抓取列表。
[0045]其中,所述當所述待抓取列表中新添加的URL與已有的URL對應(yīng)的頁面內(nèi)容不同時,將簡化URL寫入已抓取列表,包括:
[0046]判斷待抓取列表中新添加的URL的第一部分的MD5消息摘要在待抓取列表中是否已存在;
[0047]若已存在,確認新添加的URL與已抓取的URL中的頁面內(nèi)容不同后將新添加的URL寫入已抓取列表;否則將新添加的URL寫入已抓取列表;
[0048]所述第一部分包括新添加的URL的查詢參數(shù)部分之外的部分。
[0049]其中,所述URL簡化列表、待抓取列表和已抓取列表通過redis集群維護;
[0050]所述方法還包括:
[0051]若資源獲取優(yōu)化時內(nèi)存不足,動態(tài)添加redis集群規(guī)模。
[0052]本發(fā)明提出的資源獲取優(yōu)化裝置和方法,通過在數(shù)據(jù)庫中建立多個列表,在列表中記錄URL去重過程中的判斷目標,在多個列表中對待定URL依次判斷,避免了內(nèi)存中去重的處理能力的限制和遠程關(guān)系型數(shù)據(jù)庫處理時速度的限制,實現(xiàn)了資源獲取時的能力提升和效率提升。
【附圖說明】
[0053]圖1是本發(fā)明【具體實施方式】中提供的一種資源獲取優(yōu)化方法的第一實施例的方法流程圖。
[0054]圖2是本發(fā)明【具體實施方式】中提供的一種資源獲取優(yōu)化方法的第二實施例的方法流程圖。
[0055]圖3是本發(fā)明【具體實施方式】中提供的一種資源獲取優(yōu)化裝置的第一實施例的結(jié)構(gòu)方框圖。
[0056]圖4是本發(fā)明【具體實施方式】中提供的一種資源獲取優(yōu)化裝置的第二實施例的結(jié)構(gòu)方框圖。
[0057]本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
【具體實施方式】
[0058]應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0059]現(xiàn)在將參考附圖描述實現(xiàn)本發(fā)明各個實施例的移動終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明,其本身并沒有特定的意義。因此,"模塊"與"部件"可以混合地使用。
[0060]圖1是本發(fā)明【具體實施方式】中提供
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
瓦房店市| 鹿邑县| 裕民县| 石门县| 乳山市| 大港区| 四平市| 商丘市| 丽江市| 叶城县| 宜兴市| 香港 | 忻城县| 监利县| 高尔夫| 衡南县| 苏尼特左旗| 淮阳县| 三台县| 西丰县| 谢通门县| 红原县| 盖州市| 桦南县| 开阳县| 西乌珠穆沁旗| 台湾省| 湄潭县| 五大连池市| 和硕县| 南漳县| 郎溪县| 黄大仙区| 巴楚县| 西昌市| 松溪县| 崇文区| 长丰县| 遂川县| 罗山县| 涿州市|