欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集系統(tǒng)及方法

文檔序號(hào):8380996閱讀:1016來(lái)源:國(guó)知局
一種分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息處理技術(shù)領(lǐng)域,具體的說,是涉及大規(guī)模數(shù)據(jù)下的信息采集系統(tǒng)及其方法。
【背景技術(shù)】
[0002]伴隨著大數(shù)據(jù)時(shí)代的來(lái)臨,信息尤其是社交類信息膨脹式增長(zhǎng),各類應(yīng)用對(duì)數(shù)據(jù)的需求也隨之而增長(zhǎng),目前海量信息的采集多依賴于傳統(tǒng)的集中式采集或PC分布式采集,其缺陷極為明顯,一方面客戶端復(fù)雜化,對(duì)操作使用有一定的學(xué)習(xí)成本;另一方面,數(shù)據(jù)采集對(duì)帶寬的開銷非常大,同時(shí)設(shè)備成本過高;此外,采集過程中未對(duì)數(shù)據(jù)做動(dòng)態(tài)化的傳輸處理,也導(dǎo)致相關(guān)資源的浪費(fèi)和效能的低下。
[0003]目前網(wǎng)絡(luò)設(shè)施發(fā)展也極為迅猛,與IDC機(jī)房高昂的帶寬成本的現(xiàn)狀不同,以家庭、社會(huì)場(chǎng)所為主隨處閑置的網(wǎng)絡(luò)環(huán)境卻得不到充分利用。
[0004]因此,設(shè)計(jì)一種基于可移動(dòng)設(shè)備的分布式的大規(guī)模數(shù)據(jù)采集系統(tǒng),無(wú)論從經(jīng)濟(jì)層面,還是從技術(shù)層面,都有非常重要的意義。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的在于提供一種可在移動(dòng)設(shè)備上運(yùn)行的數(shù)據(jù)采集系統(tǒng),借助分布式的思想將海量采集任務(wù)分配給幾十個(gè)甚至更多的移動(dòng)設(shè)備,同時(shí)利用移動(dòng)設(shè)備的便攜性和經(jīng)濟(jì)性優(yōu)勢(shì),以及無(wú)處不在的閑置網(wǎng)絡(luò),使得過去需要集中利用帶寬采集或利用專用PC服務(wù)器進(jìn)行的采集可以分散到眾多小型移動(dòng)設(shè)備上進(jìn)行,從而解決大數(shù)據(jù)環(huán)境下海量數(shù)據(jù)采集面臨的IP限制、帶寬限制等問題。
[0006]本發(fā)明提供一種分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集系統(tǒng),所述系統(tǒng)包括移動(dòng)終端子系統(tǒng)和服務(wù)管理子系統(tǒng);
[0007]移動(dòng)終端子系統(tǒng)部署在移動(dòng)設(shè)備上,包括數(shù)據(jù)采集器、數(shù)據(jù)處理器、狀態(tài)控制器;
[0008]服務(wù)管理子系統(tǒng)部署在服務(wù)端,包括設(shè)備管理器、任務(wù)管理器、數(shù)據(jù)分析器、中央控制器;
[0009]數(shù)據(jù)采集器用于申請(qǐng)采集任務(wù)、接受任務(wù)安排、執(zhí)行采集任務(wù);
[0010]數(shù)據(jù)處理器負(fù)責(zé)對(duì)采集到移動(dòng)設(shè)備上的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析、抽取,并將處理過數(shù)據(jù)壓縮后傳送給服務(wù)端的數(shù)據(jù)分析器,該數(shù)據(jù)處理器還能夠根據(jù)設(shè)備自身性能和網(wǎng)絡(luò)情況,在中央控制器的調(diào)度下,進(jìn)行壓縮和傳輸策略的即時(shí)調(diào)整,保證移動(dòng)設(shè)備上任務(wù)執(zhí)行效率得到充分的利用;
[0011]狀態(tài)控制器負(fù)責(zé)記錄移動(dòng)設(shè)備的任務(wù)執(zhí)行情況和運(yùn)行狀態(tài)、硬件消耗等,并將相關(guān)數(shù)據(jù)發(fā)送給服務(wù)管理子系統(tǒng)進(jìn)行統(tǒng)計(jì)分析,為移動(dòng)設(shè)備上的計(jì)算與傳輸策略調(diào)整提供參考依據(jù);
[0012]設(shè)備管理器用于記錄不同移動(dòng)設(shè)備發(fā)來(lái)的任務(wù)執(zhí)行情況、設(shè)備狀態(tài)等數(shù)據(jù),協(xié)同其他模塊,通過調(diào)整任務(wù)分配方式和計(jì)算及傳輸策略,以保證移動(dòng)設(shè)備的性能能夠得到有效充分的利用;
[0013]任務(wù)管理器管理所有采集任務(wù),并按照類型、網(wǎng)站所在區(qū)域、采集間隔、響應(yīng)時(shí)間、優(yōu)先級(jí)進(jìn)行分類,當(dāng)數(shù)據(jù)采集器申請(qǐng)任務(wù)時(shí),任務(wù)管理器將聯(lián)系設(shè)備管理器獲取申請(qǐng)?jiān)O(shè)備的位置和網(wǎng)絡(luò)情況,從待采集任務(wù)隊(duì)列中,分配相匹配的任務(wù)至部署在移動(dòng)設(shè)備上的移動(dòng)終端子系統(tǒng),優(yōu)先判斷其網(wǎng)絡(luò)位置,包括運(yùn)營(yíng)商通道、境內(nèi)境外,其后從設(shè)備管理器上搜集該移動(dòng)設(shè)備的基礎(chǔ)性能,分配不等量的采集任務(wù)。
[0014]數(shù)據(jù)分析器負(fù)責(zé)處理從移動(dòng)設(shè)備上搜集而來(lái)的數(shù)據(jù),并對(duì)其進(jìn)行加工處理,核心處理包括對(duì)壓縮的數(shù)據(jù)包進(jìn)行解壓縮,同時(shí)進(jìn)行基于URL的排重操作,并負(fù)責(zé)相關(guān)數(shù)據(jù)的接口處理,數(shù)據(jù)分析器根據(jù)獲取到的URL,與存儲(chǔ)在內(nèi)存中的歷史URL映射表進(jìn)行遍歷比較,如有吻合的,則不入庫(kù)存儲(chǔ)或傳輸?shù)较乱画h(huán)節(jié),反之,則入庫(kù)或傳輸?shù)较乱画h(huán)節(jié)。
[0015]中央控制器負(fù)責(zé)協(xié)調(diào)其他所有模塊間的通信與協(xié)調(diào)。
[0016]本發(fā)明還提供了一種分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集方法,在所述系統(tǒng)的框架結(jié)構(gòu)下,實(shí)現(xiàn)了規(guī)模化移動(dòng)設(shè)備部署及任務(wù)協(xié)調(diào),充分利用了各類閑置的移動(dòng)設(shè)備和閑置帶寬,整個(gè)分布式網(wǎng)絡(luò)可以靈活部署和拓展,最終實(shí)現(xiàn)大規(guī)模化分布式的移動(dòng)爬蟲網(wǎng)絡(luò)。
【附圖說明】
[0017]說明書附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0018]
[0019]圖1為本發(fā)明實(shí)施例提供的一種分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集系統(tǒng)的裝置結(jié)構(gòu)圖
[0020]圖2為本發(fā)明實(shí)施例提供的一種分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集方法的流程圖
【具體實(shí)施方式】
[0021]下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集系統(tǒng)及其方法作進(jìn)一步的詳細(xì)的說明。
[0022]本發(fā)明實(shí)施例提供的一種分布式的基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集系統(tǒng)的裝置結(jié)構(gòu)圖如圖1所示,其特征在于,包括移動(dòng)終端子系統(tǒng)和服務(wù)管理子系統(tǒng),其中:
[0023]移動(dòng)終端子系統(tǒng)可以部署在任意具備Android或Windows的移動(dòng)設(shè)備上,安裝后啟動(dòng)將自動(dòng)在服務(wù)端進(jìn)行注冊(cè)登記并獲得惟一的識(shí)別ID號(hào),并保持與服務(wù)端的數(shù)據(jù)通信更新。移動(dòng)終端子系統(tǒng)包括數(shù)據(jù)采集器、狀態(tài)控制器、數(shù)據(jù)處理器等三個(gè)組件,涉及了從數(shù)據(jù)的原始采集、狀態(tài)監(jiān)控記錄到解析、抽取、壓縮、上傳等一系列操作,由于移動(dòng)終端設(shè)備可以在任意網(wǎng)絡(luò)環(huán)境下尤其時(shí)無(wú)線網(wǎng)絡(luò)下聯(lián)網(wǎng)并進(jìn)行數(shù)據(jù)處理,因此在實(shí)際部署、部署成本尤其時(shí)下行帶寬成本方面優(yōu)勢(shì)突出。
[0024]服務(wù)管理子系統(tǒng)部署在服務(wù)器上,管理所有的移動(dòng)設(shè)備,并與部署在其上的移動(dòng)終端子系統(tǒng)保持?jǐn)?shù)據(jù)和邏輯控制的通信。服務(wù)管理子系統(tǒng)包括設(shè)備管理器、任務(wù)管理器、數(shù)據(jù)分析器和中央處理器等四個(gè)組件。
[0025]本實(shí)施例中,移動(dòng)終端子系統(tǒng)所獲得的任務(wù)類型及任務(wù)量是經(jīng)過計(jì)算得到的結(jié)果,所述子系統(tǒng)中的狀態(tài)控制器將移動(dòng)設(shè)備所在的網(wǎng)絡(luò)位置、設(shè)備配置、應(yīng)用及資源狀態(tài)發(fā)送至服務(wù)端統(tǒng)一分析。
[0026]進(jìn)一步的,服務(wù)端根據(jù)移動(dòng)終端子系統(tǒng)發(fā)來(lái)的網(wǎng)絡(luò)位置,檢索符合待采集的任務(wù)列表,此時(shí)的匹配方法按照境內(nèi)境外、不同的地理位置、不同的運(yùn)營(yíng)商通道為優(yōu)先級(jí)逐次比較,找到最為匹配該移動(dòng)終端子系統(tǒng)的任務(wù),分配給申請(qǐng)任務(wù)的移動(dòng)終端子系統(tǒng)。
[0027]進(jìn)一步的,分配任務(wù)時(shí)還將根據(jù)移動(dòng)終端子系統(tǒng)發(fā)來(lái)的網(wǎng)絡(luò)性能決定分配任務(wù)數(shù)量,根據(jù)移動(dòng)設(shè)備的性能決定對(duì)數(shù)據(jù)的壓縮格式和單次傳輸量,策略確定后將寫入移動(dòng)終端子系統(tǒng)的設(shè)備管理器進(jìn)行控制。
[0028]當(dāng)移動(dòng)終端子系統(tǒng)檢測(cè)到所在的移動(dòng)設(shè)備性能后,將參數(shù)發(fā)至服務(wù)端的設(shè)備管理器,并在參數(shù)表中搜索對(duì)應(yīng)的壓縮處理策略,而后將處理策略返回移動(dòng)終端子系統(tǒng)的數(shù)據(jù)處理器,對(duì)性能較強(qiáng)的,一般按照bzip2等高壓縮率高計(jì)算量格式進(jìn)行處理,也即采集完原始網(wǎng)頁(yè)后,在移動(dòng)端進(jìn)行解析和抽取,并壓縮后批量傳輸給服務(wù)端,相關(guān)處理策略數(shù)據(jù)也將返回設(shè)備管理器進(jìn)行存儲(chǔ)記錄。該操作策略將充分利用移動(dòng)終端設(shè)備的性能和所在網(wǎng)絡(luò)的帶寬,對(duì)服務(wù)端的資源占用尤其時(shí)網(wǎng)絡(luò)帶寬(上行)帶寬將得到明顯壓縮。
[0029]所述移動(dòng)終端子系統(tǒng)利用設(shè)備管理器定時(shí)檢查該子系統(tǒng)的版本與服務(wù)端是否一致,如果服務(wù)端有更新,則啟動(dòng)靜默模式自動(dòng)下載并更新,否則放棄更新操作并等待下一次檢查結(jié)果。
[0030]本實(shí)施例中,服務(wù)管理子系統(tǒng)實(shí)質(zhì)上是由一群各自獨(dú)立、相互關(guān)聯(lián)的組件構(gòu)成,所有組件通過中央控制器進(jìn)行調(diào)度協(xié)調(diào),整個(gè)服務(wù)管理子系統(tǒng)負(fù)責(zé)對(duì)各個(gè)不同移動(dòng)設(shè)備上傳而來(lái)的數(shù)據(jù)進(jìn)行二次處理。
[0031]進(jìn)一步的,所述服務(wù)管理子系統(tǒng)的設(shè)備管理器維護(hù)著所有注冊(cè)入網(wǎng)的移動(dòng)設(shè)備的靜態(tài)信息和動(dòng)態(tài)信息,目的是為移動(dòng)設(shè)備上的任務(wù)分配和調(diào)整提供計(jì)算參考值。
[0032]進(jìn)一步的,所述服務(wù)管理子系統(tǒng)的任務(wù)管理器維護(hù)所有待處理任務(wù)及其狀態(tài),并負(fù)責(zé)分配對(duì)應(yīng)的任務(wù)給申請(qǐng)任務(wù)移動(dòng)終端,并與設(shè)備管理器進(jìn)行通信,根據(jù)移動(dòng)終端設(shè)備的位置和性能計(jì)算調(diào)整任務(wù)實(shí)際分配,以實(shí)現(xiàn)移動(dòng)終端設(shè)備性能的優(yōu)化配置。
[0033]本發(fā)明的另一個(gè)實(shí)施例提供了一種利用上述基于可移動(dòng)設(shè)備的大規(guī)模數(shù)據(jù)采集系統(tǒng)進(jìn)行的分布式移動(dòng)設(shè)備采集方法,該方法流程框圖如圖2所示,包括如下步驟:
[0034]步驟S301:移動(dòng)終端設(shè)備聯(lián)網(wǎng)注冊(cè),并檢查服務(wù)端是否有新版本,如有,則自動(dòng)下載更新(靜默模式),而后發(fā)起任務(wù)采集申請(qǐng),如果沒有發(fā)現(xiàn)新版本,則直接發(fā)起任務(wù)申請(qǐng);
[0035]
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
逊克县| 开封县| 万全县| 泽库县| 苗栗市| 凉城县| 朝阳区| 乐业县| 中江县| 司法| 丘北县| 盐边县| 龙陵县| 上栗县| 四川省| 旬邑县| 襄垣县| 沂源县| 色达县| 都匀市| 鹿泉市| 图木舒克市| 资中县| 修武县| 广丰县| 沁水县| 年辖:市辖区| 吴堡县| 章丘市| 渝北区| 大理市| 东丽区| 兴宁市| 民丰县| 曲阜市| 常山县| 五河县| 白沙| 辽宁省| 陇南市| 茌平县|