欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)獲取方法及系統(tǒng)的制作方法

文檔序號:9249288閱讀:722來源:國知局
一種數(shù)據(jù)獲取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)領(lǐng)域,尤其設(shè)及一種數(shù)據(jù)獲取方法及系統(tǒng)。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)領(lǐng)域,隨著網(wǎng)絡(luò)資源的不斷豐富,越來越多系統(tǒng)平臺的功能實現(xiàn)需要大 量數(shù)據(jù)的支撐,如何有效地獲取提煉該些數(shù)據(jù)資源并將其整合成為有效可利用的資源是目 前一個亟待解決的問題。一般獲取數(shù)據(jù)資源的渠道包括;通過托管平臺登錄后獲得數(shù)據(jù)、直 接連接其他系統(tǒng)的數(shù)據(jù)庫、采用數(shù)據(jù)接口的方式進行數(shù)據(jù)對接。但會存在W下問題:
[0003] (1)通過托管平臺登錄后獲得數(shù)據(jù):部分?jǐn)?shù)據(jù)不屬于托管平臺的數(shù)據(jù)來源范疇, 因此無法獲得相關(guān)數(shù)據(jù);
[0004] (2)直接連接其他系統(tǒng)的數(shù)據(jù)庫;有些數(shù)據(jù)庫作為其軟件系統(tǒng)的核屯、板塊,未經(jīng) 授權(quán)之前不允許對外公布,而且其中包含了商業(yè)機密,不可對外泄露,因此對于未經(jīng)授權(quán)的 數(shù)據(jù)獲取設(shè)及到數(shù)據(jù)竊取行為;
[0005] (3)采用數(shù)據(jù)接口的方式進行數(shù)據(jù)對接:數(shù)據(jù)接口的開發(fā)周期較長,其聯(lián)調(diào)工作 必須有周全詳細的計劃W及明確的商業(yè)目的,因此人力成本較高。
[0006] 由此可見,現(xiàn)有技術(shù)中的獲取數(shù)據(jù)的方案存在著要么獲取的數(shù)據(jù)量少、要么成本 高的技術(shù)問題。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明提供一種數(shù)據(jù)獲取方法及系統(tǒng),W解決現(xiàn)有技術(shù)中的獲取數(shù)據(jù)的方案所存 在的要么獲取的數(shù)據(jù)量少、要么成本高的技術(shù)問題。
[0008] 第一方面,本發(fā)明實施例提供一種數(shù)據(jù)獲取方法,包括:
[000引連接目標(biāo)網(wǎng)站;
[0010] 獲取所述目標(biāo)網(wǎng)站所對應(yīng)的總頁數(shù)W及每個頁面的鏈接信息;
[0011] 根據(jù)所述總頁數(shù)W及每個頁面的鏈接信息遍歷獲取每個頁面的數(shù)據(jù)。
[0012] 可選的,在所述連接目標(biāo)網(wǎng)站之前,所述方法還包括:
[0013] 確定所述目標(biāo)網(wǎng)站的實現(xiàn)類的映射表,所述映射表包含;所述目標(biāo)網(wǎng)站的網(wǎng)頁地 址、所述目標(biāo)網(wǎng)站的任務(wù)實現(xiàn)類路徑、所述目標(biāo)網(wǎng)站任務(wù)執(zhí)行策略、所述目標(biāo)網(wǎng)站的任務(wù) 狀態(tài)、所述目標(biāo)網(wǎng)站的任務(wù)描述信息、所述目標(biāo)網(wǎng)站的網(wǎng)頁地址描述信息中的至少一種信 息;
[0014] 所述連接目標(biāo)網(wǎng)站,具體包括:
[0015] 基于所述映射表連接所述目標(biāo)網(wǎng)站。
[0016] 可選的,所述根據(jù)所述總頁數(shù)W及每個頁面的鏈接信息遍歷獲取每個頁面的數(shù) 據(jù),具體包括:
[0017] 根據(jù)每個頁面的鏈接信息逐一連接每個頁面;
[0018] 判斷對應(yīng)頁面是否連接成功;
[0019] 在對應(yīng)頁面連接成功時,解析獲得對應(yīng)頁面的頁面返回信息;
[0020] 在對應(yīng)頁面連接失敗時,將對應(yīng)頁面的鏈接信息放入失敗列表。
[0021] 可選的,在所述根據(jù)所述總頁數(shù)W及每個頁面的鏈接信息遍歷獲取每個頁面的數(shù) 據(jù)之后,所述方法還包括:
[0022] 在遍歷完所有頁面之后,遍歷所述失敗列表中的鏈接信息;
[0023] 逐一連接所述失敗列表中的鏈接信息;
[0024] 在對應(yīng)鏈接信息連接成功之后,獲取對應(yīng)的頁面返回信息;
[0025] 將對應(yīng)的鏈接信息從所述失敗列表中去除。
[0026] 可選的,所述方法還包括:
[0027] 在遍歷完所述失敗列表中的鏈接信息之后,將所述失敗列表中的鏈接信息記錄到 失敗日志表。
[002引可選的,所述連接目標(biāo)網(wǎng)站,具體為:
[0029] 通過化化Client組件連接所述目標(biāo)網(wǎng)站。
[0030] 第二方面,本發(fā)明實施例提供一種數(shù)據(jù)獲取系統(tǒng),包括:
[0031] 第一連接模塊,用于連接目標(biāo)網(wǎng)站;
[0032] 第一獲取模塊,用于獲取所述目標(biāo)網(wǎng)站所對應(yīng)的總頁數(shù)W及每個頁面的鏈接信 息;
[0033] 第一遍歷模塊,用于根據(jù)所述總頁數(shù)W及每個頁面的鏈接信息遍歷獲取每個頁面 的數(shù)據(jù)。
[0034] 可選的,所述系統(tǒng)還包括:
[0035] 確定模塊,用于在連接目標(biāo)網(wǎng)站之前,確定所述目標(biāo)網(wǎng)站的實現(xiàn)類的映射表,所述 映射表包含;所述目標(biāo)網(wǎng)站的網(wǎng)頁地址、所述目標(biāo)網(wǎng)站的任務(wù)實現(xiàn)類路徑、所述目標(biāo)網(wǎng)站任 務(wù)執(zhí)行策略、所述目標(biāo)網(wǎng)站的任務(wù)狀態(tài)、所述目標(biāo)網(wǎng)站的任務(wù)描述信息、所述目標(biāo)網(wǎng)站的網(wǎng) 頁地址描述信息中的至少一種信息;
[0036] 所述第一連接模塊,具體用于:
[0037] 基于所述映射表連接所述目標(biāo)網(wǎng)站。
[0038] 可選的,所述第一遍歷模塊,具體包括:
[0039] 連接單元,用于根據(jù)每個頁面的鏈接信息逐一連接每個頁面;
[0040] 判斷單元,用于判斷對應(yīng)頁面是否連接成功;
[0041] 解析單元,用于在對應(yīng)頁面連接成功時,解析獲得對應(yīng)頁面的頁面返回信息;
[0042] 放入單元,用于在對應(yīng)頁面連接失敗時,將對應(yīng)頁面的鏈接信息放入失敗列表。
[0043] 可選的,所述系統(tǒng)還包括:
[0044] 第二遍歷模塊,用于在遍歷完所有頁面之后,遍歷所述失敗列表中的鏈接信息;
[0045] 第二連接模塊,用于逐一連接所述失敗列表中的鏈接信息;
[0046] 第二獲取模塊,用于在對應(yīng)鏈接信息連接成功之后,獲取對應(yīng)的頁面返回信息;
[0047] 去除模塊,用于將對應(yīng)的鏈接信息從所述失敗列表中去除。
[0048] 可選的,所述系統(tǒng)還包括:
[0049] 記錄模塊,用于在遍歷完所述失敗列表中的鏈接信息之后,將所述失敗列表中的 鏈接信息記錄到失敗日志表。
[0050] 可選的,所述第一連接模塊,具體用于:
[0051] 通過化化Client組件連接所述目標(biāo)網(wǎng)站。
[0052] 本發(fā)明有益效果如下:
[0053] 由于在本發(fā)明實施例中,首先選擇目標(biāo)網(wǎng)站;然后獲取所述目標(biāo)網(wǎng)站所對應(yīng)的總 頁數(shù)W及每個頁面的鏈接信息;最后根據(jù)所述總頁數(shù)W及每個頁面的鏈接信息遍歷獲取每 個頁面的數(shù)據(jù),也即直接通過網(wǎng)絡(luò)爬取方式獲取目標(biāo)網(wǎng)站的數(shù)據(jù),其相對于現(xiàn)有技術(shù)而言, 增加了獲取網(wǎng)絡(luò)數(shù)據(jù)的途徑,并且成本較低,故而達到了在節(jié)省成本的同時獲取較多的數(shù) 據(jù)量的技術(shù)效果。
【附圖說明】
[0054] 圖1為本發(fā)明實施例數(shù)據(jù)獲取方法的流程圖;
[0055] 圖2為本發(fā)明實施例數(shù)據(jù)獲取方法的類圖的示意圖;
[0056] 圖3為本發(fā)明實施例數(shù)據(jù)獲取方法的數(shù)據(jù)網(wǎng)絡(luò)爬取結(jié)構(gòu)圖;
[0057] 圖4為本發(fā)明實施例數(shù)據(jù)獲取系統(tǒng)的結(jié)構(gòu)圖。
【具體實施方式】
[0058] 本發(fā)明提供一種數(shù)據(jù)獲取方法及系統(tǒng),W解決現(xiàn)有技術(shù)中的獲取數(shù)據(jù)的方案所存 在的要么獲取的數(shù)據(jù)量少、要么成本高的技術(shù)問題。
[0059] 本申請實施例中的技術(shù)方案為解決上述的技術(shù)問題,總體思路如下:
[0060] 首先選擇目標(biāo)網(wǎng)站;然后獲取所述目標(biāo)網(wǎng)站所對應(yīng)的總頁數(shù)W及每個頁面的鏈接 信息;最后根據(jù)所述總頁數(shù)W及每個頁面的鏈接信息遍歷獲取每個頁面的數(shù)據(jù),也即直接 通過網(wǎng)絡(luò)爬取方式獲取目標(biāo)網(wǎng)站的數(shù)據(jù),其相對于現(xiàn)有技術(shù)而言,增加了獲取網(wǎng)絡(luò)數(shù)據(jù)的 途徑,并且成本較低,故而達到了在節(jié)省成本的同時獲取較多的數(shù)據(jù)量的技術(shù)效果。
[0061] 為了更好的理解上述技術(shù)方案,下面通過附圖W及具體實施例對本發(fā)明技術(shù)方案 做詳細的說明,應(yīng)當(dāng)理解本發(fā)明實施例W及實施例中的具體特征是對本發(fā)明技術(shù)方案的詳 細的說明,而不是對本發(fā)明技術(shù)方案的限定,在不沖突的情況下,本發(fā)明實施例W及實施例 中的技術(shù)特征可W相互組合。
[0062] 第一方面,本發(fā)明實施例提供一種數(shù)據(jù)獲取方法,請參考圖1,包括:
[0063] 步驟S101 ;連接目標(biāo)網(wǎng)站;
[0064] 步驟S102 ;獲取所述目標(biāo)網(wǎng)站所對應(yīng)的總頁數(shù)W及每個頁面的鏈接信息;
[0065] 步驟S103 ;根據(jù)所述總頁數(shù)W及每個頁面的鏈接信息遍歷獲取每個頁面的數(shù)據(jù)。
[0066] 其中,在基于步驟S101連接目標(biāo)網(wǎng)站之前,所述方法還包括:
[0067] 步驟S100 ;清除數(shù)據(jù)庫,該數(shù)據(jù)庫為之前存儲其他網(wǎng)站的數(shù)據(jù)的數(shù)據(jù)庫。
[0068] 作為進一步的優(yōu)選實施例,在基于步驟S101連接目標(biāo)網(wǎng)站之前,所述方法還包 括:
[0069] 確定所
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
兴文县| 乌海市| 沙田区| 梓潼县| 宁武县| 长沙县| 石棉县| 双辽市| 宁海县| 邹平县| 万州区| 平乐县| 湟源县| 县级市| 门头沟区| 泰和县| 永丰县| 宜兰市| 鸡东县| 吉木萨尔县| 五指山市| 宁安市| 桐城市| 郧西县| 英山县| 沐川县| 舟山市| 玉山县| 长寿区| 都昌县| 崇仁县| 岚皋县| 清远市| 浙江省| 和龙市| 龙泉市| 绍兴市| 宿州市| 洛扎县| 石棉县| 广灵县|