欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種互聯(lián)網(wǎng)采集b2b電商信息方法

文檔序號:10471684閱讀:310來源:國知局
一種互聯(lián)網(wǎng)采集b2b電商信息方法
【專利摘要】B2B電商信息采集的方法,步驟1、確定需要進(jìn)行信息采集的url及內(nèi)容,包括客戶信息、產(chǎn)品信息和行業(yè)信息等關(guān)鍵信息;步驟2、搭建反屏蔽組件,同時(shí)采用如下方法:方式1、維護(hù)代理IP池;代理IP是通過購買或采集免費(fèi)代理IP獲得,每日更新并測試,篩選出連接速度高的代理IP;方式2、斷線重?fù)芙M件,當(dāng)IP被封殺后,重啟路由器即可更換IP地址的特點(diǎn),當(dāng)代理IP連接超時(shí)會自動(dòng)重新?lián)芴?,使用新的IP進(jìn)行抓??;方式3、壓力測試,每次正式抓取前應(yīng)做壓力測試,測試在不同抓取頻率下網(wǎng)站的反應(yīng),以達(dá)到頻率和可采集性的平衡;步驟3、將采集結(jié)果形成報(bào)告發(fā)送到可視化平臺。
【專利說明】
一種互聯(lián)網(wǎng)采集B2B電商信息方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種通過互聯(lián)網(wǎng)采集B2B電商信息方法,尤其是采集競爭對手信息的方法。
【背景技術(shù)】
[0002]本發(fā)明涉及網(wǎng)絡(luò)信息采集領(lǐng)域,具體而言,涉及一種通過互聯(lián)網(wǎng)采集競爭對手信息的方法。B2B電商是指:以電子商務(wù)B2B平臺以及大數(shù)據(jù)為基礎(chǔ),通過整合產(chǎn)業(yè)鏈上下游資源完成與企業(yè)之間的營銷關(guān)系的電子商務(wù)活動(dòng),包括信息與交易服務(wù)、商業(yè)搜索引擎服務(wù)、金融服務(wù)、云端服務(wù)等。2014年中國電商B2B市場交易規(guī)模10萬億元,主要平臺有阿里巴巴、慧聰網(wǎng)、中國制造網(wǎng)等數(shù)十家。對于從業(yè)者來說,通過合法途徑采集競爭對手信息,做出商業(yè)決策,以達(dá)到知己知彼百戰(zhàn)不殆是非常重要的。
[0003]url編碼是一種瀏覽器用來打包表單輸入的格式。瀏覽器從表單中獲取所有的name和其中的值,將它們以name/value參數(shù)編碼(移去那些不能傳送的字符,將數(shù)據(jù)排行等等)作為URL的一部分或者分離地發(fā)給服務(wù)器。為及時(shí)、合法、有效地獲得競爭對手信息,現(xiàn)提出了一種通過互聯(lián)網(wǎng)url采集競爭對手信息并反饋的方法。

【發(fā)明內(nèi)容】

[0004]本發(fā)明目的是,提出一種通過互聯(lián)網(wǎng)采集B2B電商競爭對手信息的方法,也是一種B2B電商競爭對手情報(bào)分析方法,它通過執(zhí)行定時(shí)采集任務(wù)及相關(guān)的一系列配置可實(shí)現(xiàn)對B2B電商競爭對手每日平臺數(shù)據(jù)情況進(jìn)行信息收集,并通過數(shù)據(jù)抽取、過濾、轉(zhuǎn)換系統(tǒng)實(shí)現(xiàn)對手信息與自身數(shù)據(jù)的對比。對了解對手信息,知道自身發(fā)展可以起到相當(dāng)重要的作用。
[0005]本發(fā)明技術(shù)方案是:一種B2B電商(競爭對手)信息采集的方法,包括:
[0006]步驟1、確定需要進(jìn)行彳目息米集的urI及內(nèi)容,包括客戶彳目息、廣品彳目息和行業(yè)彳目息等關(guān)鍵ig息O
[0007](I)需要配置進(jìn)行信息采集url的規(guī)則:采集的url確定的html頁面包含需要采集的信息且url能用通配符或正則表達(dá)式表達(dá),以方便大規(guī)模采集,同時(shí)避免多次采集同一個(gè)url ο
[0008]B2B電商平臺的url主要包括首頁、產(chǎn)品頁、會員詳情頁、產(chǎn)業(yè)目錄頁等,具有規(guī)則性,可利用通配符、正則表達(dá)式來表達(dá)不同類型頁面的url。
[0009]需要配置進(jìn)行信息采集url的的內(nèi)容包括平臺域名、產(chǎn)品頁規(guī)則、會員頁規(guī)則、產(chǎn)品詳情頁、會員詳情頁等。
[0010](2)會員信息采集:
[0011]B2B電商平臺服務(wù)于大量會員,主要采集對手的會員總數(shù)、收費(fèi)會員數(shù)、免費(fèi)會員數(shù),會員的省份、城市、行業(yè)分布,每天各類會員的數(shù)量。
[00?2 ] (3)行業(yè)彳目息米集:
[0013]B2B電商平臺上的產(chǎn)品涉及到多個(gè)行業(yè),因此主要采集B2B電商平臺上對手的行業(yè)目錄、目錄變動(dòng)情況。
[0014](2)、部署urI采集任務(wù),定時(shí)執(zhí)行采集程序。
[0015]因?yàn)锽2B電商平臺競爭對手信息每天都在更新,相應(yīng)的采集程序也要在每天執(zhí)行。
[0016]而且因?yàn)锽2B電商平臺擁有海量頁面,同時(shí)采集的及時(shí)性需要越及時(shí)越好,然而同一個(gè)IP地址采集頻率超過一定閾值后,采集失敗率大幅增加。本文采用分布式采集的方案,即將采集任務(wù)分布到一個(gè)計(jì)算機(jī)集群,集群中各臺計(jì)算機(jī)獲得不同的IP地址,集群內(nèi)部實(shí)時(shí)共享采集狀態(tài),這樣實(shí)現(xiàn)了信息采集的及時(shí)性、提高了成功性。
[0017]步驟2、搭建反屏蔽組件,同時(shí)采用如下方法:
[0018]方式1、維護(hù)代理IP池。
[0019]代理IP是通過購買或采集免費(fèi)代理IP獲得,每日更新并測試,篩選出連接速度高的代理IP,加入代理IP池,當(dāng)一個(gè)代理IP速度不夠時(shí),連接超時(shí)會自動(dòng)退出代理IP池。
[0020]方式2、斷線重?fù)芙M件
[0021]當(dāng)IP被封殺后,重啟路由器即可更換IP地址的特點(diǎn),當(dāng)代理IP連接超時(shí)會自動(dòng)重新?lián)芴枺褂眯碌腎P進(jìn)行抓取。
[0022]方式3、壓力測試
[0023]每次正式抓取前應(yīng)做壓力測試,測試在不同抓取頻率下網(wǎng)站的反應(yīng),以達(dá)到頻率和可采集性的平衡。
[0024]步驟3、將采集結(jié)果形成報(bào)告發(fā)送到可視化平臺;
[0025]B2B電商平臺的url采集執(zhí)行最后,需要將采集結(jié)果發(fā)布到可視化平臺,可視化平臺可以對采集信息或數(shù)據(jù)進(jìn)行多維分析,形成分析報(bào)表。同時(shí)還有一套相應(yīng)的日志系統(tǒng),方便采集人員查看采集記錄。
[0026]進(jìn)一步,搭建分布式采集系統(tǒng),使用多臺機(jī)器組成的集群進(jìn)行對應(yīng)網(wǎng)站的采集。其中,需要注意機(jī)器之間的通信,通過url規(guī)劃避免同一url被多臺機(jī)器重復(fù)采集、通過記錄采集日志解決因網(wǎng)絡(luò)擁塞、ip被封禁等原因?qū)е碌牟杉。?br>[0027]公司信息采集:首先提取公司詳情頁url的規(guī)則,按照規(guī)則配置通用的url列表,遍歷url列表,采集公司的相關(guān)信息,如名稱、省份、城市、會員級別;
[0028]產(chǎn)品信息采集:首先提取產(chǎn)品詳情頁url的規(guī)則,按照規(guī)則配置通用的url列表,遍歷url列表,采集產(chǎn)品的相關(guān)信息,如名稱、價(jià)格、規(guī)格、屬性、所屬行業(yè)目錄等。
[0029]行業(yè)目錄信息采集:行業(yè)目錄數(shù)量不大有導(dǎo)航頁,在導(dǎo)航頁采集行業(yè)目錄,每天采集并與上一次對比,監(jiān)測競爭對手目錄的變化。
[0030]本發(fā)明的有益效果:
[0031 ] 1、能夠有效地采集到到每日B2B電商競爭對手的關(guān)鍵信息;
[0032]2、能夠及時(shí)對B2B電商競爭對手的信息與自身進(jìn)行對比;
[0033]3、全面的系統(tǒng)監(jiān)控,提高了系統(tǒng)的可用性,也提高了系統(tǒng)維護(hù)的效率;
[0034]4、多種采集需求能夠通過平臺化統(tǒng)一完成,避免重復(fù)開發(fā),降低成本。
【附圖說明】
[0035]圖1本實(shí)施例的一種B2B電商競爭對手信息采集方法處理流程圖。
【具體實(shí)施方式】
[0036]如圖1,本實(shí)施例一種B2B電商競爭對手信息采集方法處理流程,包括:
[0037]步驟1、確定待采集的url、客戶信息、產(chǎn)品信息和行業(yè)信息等關(guān)鍵信息。
[0038]其中,確定待采集的url基本原則是,該url確定的html頁面包含需要采集的信息且url能用通配符或正則表達(dá)式表達(dá),以方便大規(guī)模采集,同時(shí)避免多次采集同一個(gè)url。
[0039]在確定待采集的客戶信息、產(chǎn)品信息和行業(yè)信息等關(guān)鍵信息時(shí),要注意根據(jù)業(yè)務(wù)合理制定采集目標(biāo)。
[0040]步驟2、搭建反屏蔽組件[0041 ] 方式1、維護(hù)代理IP池。
[0042]代理IP是通過購買或采集免費(fèi)代理IP獲得,每日更新并測試,篩選出連接速度高的代理IP,加入代理IP池,當(dāng)一個(gè)代理IP速度不夠時(shí),連接超時(shí)會自動(dòng)退出代理IP池。
[0043]方式2、斷線重?fù)芙M件
[0044]利用ADSL線路IP不固定,當(dāng)IP被封殺后,重啟路由器即可更換IP地址的特點(diǎn),當(dāng)代理IP連接超時(shí)會自動(dòng)重新?lián)芴枺褂眯碌腎P進(jìn)行抓取。
[0045]方式3、壓力測試
[0046]最好的反屏蔽方式還是降低采集頻率,所以每次正式抓取前應(yīng)做壓力測試,測試在不同抓取頻率下網(wǎng)站的反應(yīng),以達(dá)到頻率和可采集性的平衡。
[0047]步驟3、搭建分布式采集系統(tǒng),使用多臺機(jī)器組成的集群進(jìn)行對應(yīng)網(wǎng)站的采集。
[0048]其中,需要注意機(jī)器之間的通信,通過url規(guī)劃避免同一url被多臺機(jī)器重復(fù)采集、通過記錄采集日志解決因網(wǎng)絡(luò)擁塞、ip被封禁等原因?qū)е碌牟杉 ?br>[0049]具體方法如下:
[0050]公司信息:首先提取公司詳情頁url的規(guī)則,按照規(guī)則配置通用的url列表,遍歷url列表,采集公司的相關(guān)信息,如名稱、省份、城市、會員級別等,以第一次采集到的時(shí)間點(diǎn)為該公司加入競爭對手的日期。
[0051]產(chǎn)品信息:首先提取產(chǎn)品詳情頁url的規(guī)則,按照規(guī)則配置通用的url列表,遍歷urI列表,采集產(chǎn)品的相關(guān)信息,如名稱、價(jià)格、規(guī)格、屬性、所屬行業(yè)目錄等。
[0052]行業(yè)目錄信息:行業(yè)目錄數(shù)量不大,往往有導(dǎo)航頁,可以在導(dǎo)航頁采集行業(yè)目錄,每天采集并與上一次對比,可以監(jiān)測競爭對手目錄的變化。
[0053]步驟4、對采集信息進(jìn)行多維分析,形成分析報(bào)表
[0054]例如分析競爭對手的會員情況,采集到的信息有:
[0055]I)會員公司名稱、省份、城市、是否為收費(fèi)會員
[0056]2)第一次進(jìn)入采集信息的時(shí)間
[0057]3)會員所屬的行業(yè)
[0058]4)會員的產(chǎn)品列表
[0059]對于上述信息,可以以時(shí)間、地址、行業(yè)為維度,分析競爭對手的會員數(shù)量、收費(fèi)/免費(fèi)會員情況,并與自身進(jìn)行對比。
[0060]步驟5、生成報(bào)告,發(fā)送到高級管理人員。
[0061]對于B2B電商競爭對手信息的采集與分析有可能影響公司的戰(zhàn)略決策,因此配置了一套報(bào)告自動(dòng)生成系統(tǒng),能夠?qū)⒎治鰞?nèi)容生成文檔,周期性地推送給高級管理人員。
【主權(quán)項(xiàng)】
1.一種B2B電商行業(yè)采集的方法,其特征是包括: 步驟1、確定需要進(jìn)行?目息米集的ur I及內(nèi)容,包括客戶彳目息、廣品彳目息和行業(yè)信息等關(guān)鍵?目息; (1)需要配置進(jìn)行信息采集url的規(guī)則:采集的url確定的html頁面包含需要采集的信息且url能用通配符或正則表達(dá)式表達(dá),以方便大規(guī)模采集,同時(shí)避免多次采集同一個(gè)url; B2B電商平臺的url主要包括首頁、產(chǎn)品頁、會員詳情頁、產(chǎn)業(yè)目錄頁等,具有規(guī)則性,利用通配符、正則表達(dá)式來表達(dá)不同類型頁面的url; 需要配置進(jìn)行信息采集url的的內(nèi)容包括平臺域名、產(chǎn)品頁規(guī)則、會員頁規(guī)則、產(chǎn)品詳情頁、會員詳情頁等; (2)會員信息采集: B2B電商平臺服務(wù)于大量會員,主要采集對手的會員總數(shù)、收費(fèi)會員數(shù)、免費(fèi)會員數(shù),會員的省份、城市、行業(yè)分布,每天各類會員的數(shù)量; (3)行業(yè)信息采集: B2B電商平臺上的產(chǎn)品涉及到多個(gè)行業(yè),因此主要采集B2B電商平臺上對手的行業(yè)目錄、目錄變動(dòng)情況; (2)、部署url采集任務(wù),定時(shí)執(zhí)行采集程序; 因?yàn)锽2B電商平臺競爭對手信息每天都在更新,相應(yīng)的采集程序也要在每天執(zhí)行; 采用分布式采集的方案,即將采集任務(wù)分布到一個(gè)計(jì)算機(jī)集群,集群中各臺計(jì)算機(jī)獲得不同的IP地址,集群內(nèi)部實(shí)時(shí)共享采集狀態(tài),這樣實(shí)現(xiàn)了信息采集的及時(shí)性、提高了成功性; 步驟2、搭建反屏蔽組件,同時(shí)采用如下方法: 方式1、維護(hù)代理IP池; 代理IP是通過購買或采集免費(fèi)代理IP獲得,每日更新并測試,篩選出連接速度高的代理IP,加入代理IP池,當(dāng)一個(gè)代理IP速度不夠時(shí),連接超時(shí)會自動(dòng)退出代理IP池; 方式2、斷線重?fù)芙M件 當(dāng)IP被封殺后,重啟路由器即可更換IP地址的特點(diǎn),當(dāng)代理IP連接超時(shí)會自動(dòng)重新?lián)芴?,使用新的IP進(jìn)行抓??; 方式3、壓力測試 每次正式抓取前應(yīng)做壓力測試,測試在不同抓取頻率下網(wǎng)站的反應(yīng),以達(dá)到頻率和可采集性的平衡; 步驟3、將采集結(jié)果形成報(bào)告發(fā)送到可視化平臺; B2B電商平臺的url采集執(zhí)行最后,需要將采集結(jié)果發(fā)布到可視化平臺,可視化平臺可以對采集信息或數(shù)據(jù)進(jìn)行多維分析,形成分析報(bào)表;同時(shí)還有一套相應(yīng)的日志系統(tǒng),方便采集人員查看采集記錄。 分析報(bào)表由三大部分組成。第一部分是自身與競爭對手的概況對比,包括按時(shí)間維度統(tǒng)計(jì)的會員累計(jì)、新增、流失會員數(shù)量對比的柱狀圖以及明細(xì)表。 第二部分是自身與競爭對手的行業(yè)對比,包括各行業(yè)的會員數(shù)量、會員數(shù)累計(jì)占比、新增會員數(shù)量、新增會員占比、流失會員數(shù)量、流失會員占比。 第三部分是自身與競爭對手的省份城市對比,包括各省份城市的會員數(shù)量、會員數(shù)累計(jì)占比、新增會員數(shù)量、新增會員占比、流失會員數(shù)量、流失會員占比、會員倍數(shù)關(guān)系。 數(shù)據(jù)的以餅圖、柱狀圖和明細(xì)表為主,既可以直觀反映趨勢、占比,亦能查看具體數(shù)據(jù)。2.根據(jù)權(quán)利要求1所述的信息采集的方法,其特征是搭建分布式采集系統(tǒng),使用多臺機(jī)器組成的集群進(jìn)行對應(yīng)網(wǎng)站的采集;其中,需要注意機(jī)器之間的通信,通過url規(guī)劃避免同一 url被多臺機(jī)器重復(fù)采集、通過記錄采集日志解決因網(wǎng)絡(luò)擁塞、ip被封禁等原因?qū)е碌牟杉。?公司信息采集:首先提取公司詳情頁url的規(guī)則,按照規(guī)則配置通用的url列表,遍歷url列表,采集公司的相關(guān)信息,如名稱、省份、城市、會員級別; 產(chǎn)品信息采集:首先提取產(chǎn)品詳情頁url的規(guī)則,按照規(guī)則配置通用的url列表,遍歷url列表,采集產(chǎn)品的相關(guān)信息,如名稱、價(jià)格、規(guī)格、屬性、所屬行業(yè)目錄等; 行業(yè)目錄信息采集:行業(yè)目錄數(shù)量不大有導(dǎo)航頁,在導(dǎo)航頁采集行業(yè)目錄,每天采集并與上一次對比,監(jiān)測競爭對手目錄的變化。
【文檔編號】G06Q30/02GK105825399SQ201610148102
【公開日】2016年8月3日
【申請日】2016年3月15日
【發(fā)明人】鄭揚(yáng), 陳靜
【申請人】焦點(diǎn)科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
梅河口市| 屯门区| 武鸣县| 镇平县| 四川省| 新安县| 五河县| 清原| 隆尧县| 黄冈市| 佛学| 上高县| 苏州市| 安仁县| 芜湖市| 太原市| 鲁甸县| 伊春市| 浪卡子县| 桓台县| 建平县| 通渭县| 承德市| 长汀县| 富平县| 漠河县| 青河县| 平山县| 邢台市| 尚义县| 尖扎县| 甘谷县| 潮州市| 思茅市| 太湖县| 股票| 淮北市| 浦江县| 潮安县| 建阳市| 嘉义县|