基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)采集領(lǐng)域,特別是基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法和數(shù)據(jù)采集系統(tǒng)。
【背景技術(shù)】
[0002]廣告投放者需要區(qū)分每個(gè)用戶,記錄其廣告交互過程并進(jìn)行建模,以期更精準(zhǔn)的投放廣告。
[0003]在現(xiàn)有技術(shù)中,在互聯(lián)網(wǎng)上,廣告投放流程是:步驟一,向用戶進(jìn)行初級(jí)廣告頁面展示;步驟二,接收用戶對(duì)初級(jí)廣告頁面的點(diǎn)擊;步驟三,向用戶展示其點(diǎn)擊相應(yīng)的次級(jí)廣告頁面。
[0004]對(duì)于互聯(lián)網(wǎng)廣告來說,步驟一和步驟二都發(fā)生在廣告投放載體的頁面上,而步驟三發(fā)生在廣告投放主體的頁面上,因此可以對(duì)廣告投放載體和廣告投放主體的頁面進(jìn)行網(wǎng)頁數(shù)據(jù)采集(HTTP采集),網(wǎng)頁數(shù)據(jù)采集技術(shù)通過HTTP協(xié)議在用戶發(fā)送HTTP請(qǐng)求(即點(diǎn)擊)時(shí)得到設(shè)備硬件信息、操作系統(tǒng)信息、IP信息、cookie信息。
[0005]舉例而言,廣告投放載體通過在瀏覽器中為每個(gè)用戶存入唯一的cookie來區(qū)分用戶。因?yàn)檎麄€(gè)廣告投放的過程都是在用戶的瀏覽器中完成的,所以用戶在整個(gè)廣告投放過程中的行為,包括看到哪些廣告、點(diǎn)擊哪些廣告、在廣告投放主體的頁面上有哪些交互(比如瀏覽商品、提交注冊(cè)信息等),都可以通過cookie關(guān)聯(lián)至同一個(gè)用戶。
[0006]如果要更精確地分析用戶的購買行為,或者要進(jìn)一步分析廣告投放效果,需要更大量、更完備的數(shù)據(jù)采集,現(xiàn)有技術(shù)僅僅通過網(wǎng)頁數(shù)據(jù)采集往往無法滿足這種需求。
【發(fā)明內(nèi)容】
[0007]有鑒于此,本發(fā)明提供一種基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法,包括:步驟100,接收來自終端的廣告獲取請(qǐng)求;步驟200,針對(duì)所述廣告獲取請(qǐng)求向所述終端發(fā)送廣告效果地址;步驟300,接收來自終端的通知消息,所述廣告獲取請(qǐng)求和所述通知消息均包括統(tǒng)一資源定位符和終端信息;步驟400,根據(jù)所述統(tǒng)一資源定位符和所述終端信息設(shè)置爬蟲任務(wù),其中,對(duì)所述廣告獲取請(qǐng)求的原因內(nèi)容、結(jié)果內(nèi)容和環(huán)境內(nèi)容執(zhí)行所述爬蟲任務(wù)。
[0008]優(yōu)選地,所述統(tǒng)一資源定位符與廣告效果地址相關(guān)。
[0009]優(yōu)選地,所述統(tǒng)一資源定位符包括當(dāng)前頁面地址,請(qǐng)求來源地址、廣告效果地址中的一種或多種。
[0010]優(yōu)選地,所述統(tǒng)一資源定位符包括網(wǎng)頁跳轉(zhuǎn)地址。
[0011]優(yōu)選地,所述終端信息包括cookie、IP地址、終端機(jī)型、操作系統(tǒng)中的一種或多種。
[0012]優(yōu)選地,所述cookie包括瀏覽器cookie和/或flash cookie。
[0013]優(yōu)選地,所述步驟400包括:判斷所述統(tǒng)一資源定位符是否已經(jīng)經(jīng)過爬蟲任務(wù)處理:若是,則放棄爬蟲任務(wù);若否,則啟動(dòng)爬蟲任務(wù)。
[0014]優(yōu)選地,所述步驟400包括:根據(jù)特定策略對(duì)所述爬蟲任務(wù)進(jìn)行調(diào)度。
[0015]優(yōu)選地,所述特定策略為按照所述網(wǎng)頁數(shù)據(jù)采集得出的統(tǒng)計(jì)結(jié)果的排序相應(yīng)地對(duì)所述統(tǒng)一資源定位符進(jìn)行所述爬蟲任務(wù)。
[0016]優(yōu)選地,所述統(tǒng)計(jì)結(jié)果包括以下至少一個(gè):統(tǒng)一資源定位符的用戶訪問量、重點(diǎn)用戶訪問的統(tǒng)一資源定位符或統(tǒng)一資源定位符的集中度。
[0017]優(yōu)選地,所述步驟400包括模擬終端設(shè)置爬蟲任務(wù)。
[0018]優(yōu)選地,所述模擬終端包括配置cookie、終端機(jī)型、IP地址、操作系統(tǒng)中的一種或多種。
[0019]優(yōu)選地,進(jìn)一步包括:步驟500,對(duì)所述爬蟲任務(wù)得出的結(jié)果進(jìn)行校驗(yàn)。
[0020]優(yōu)選地,所述步驟500包括:判斷所述爬蟲任務(wù)得出的結(jié)果與歷史庫對(duì)比是否相似:若是,則校驗(yàn)結(jié)果顯示正確;若否,則校驗(yàn)結(jié)果顯示錯(cuò)誤。
[0021]優(yōu)選地,所述步驟100還包括對(duì)所述廣告獲取請(qǐng)求的來源進(jìn)行網(wǎng)頁數(shù)據(jù)數(shù)據(jù)采集。
[0022]本發(fā)明還提供一種基于廣告監(jiān)測(cè)的數(shù)據(jù)采集系統(tǒng),包括:第一接收模塊,用于接收來自終端的廣告獲取請(qǐng)求;發(fā)送模塊,用于針對(duì)所述廣告獲取請(qǐng)求向所述終端發(fā)送廣告效果地址;第二接收模塊,用于接收來自終端的通知消息,其中,所述廣告獲取請(qǐng)求和來自終端的通知消息均包括與所述廣告效果地址相關(guān)的統(tǒng)一資源定位符和終端信息;設(shè)置執(zhí)行模塊,用于根據(jù)所述統(tǒng)一資源定位符和所述終端信息設(shè)置執(zhí)行爬蟲任務(wù),其中,對(duì)所述廣告獲取請(qǐng)求的原因內(nèi)容、結(jié)果內(nèi)容和環(huán)境內(nèi)容執(zhí)行所述爬蟲任務(wù)。
[0023]優(yōu)選地,進(jìn)一步包括:校驗(yàn)?zāi)K,用于對(duì)所述爬蟲任務(wù)得出的結(jié)果進(jìn)行校驗(yàn)。
[0024]根據(jù)本發(fā)明的具體實(shí)施例的基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法,能夠?qū)TTP采集技術(shù)與爬蟲技術(shù)結(jié)合,更深一步地采集用戶訪問廣告網(wǎng)頁的原因內(nèi)容、結(jié)果內(nèi)容和環(huán)境內(nèi)容,從而更精確地分析投放效果、去除垃圾流量并為廣告投放提供更多維度的數(shù)據(jù)。
【附圖說明】
[0025]下面將通過參照附圖詳細(xì)描述本發(fā)明的優(yōu)選實(shí)施例,使本領(lǐng)域的普通技術(shù)人員更清楚本發(fā)明的上述及其它特征和優(yōu)點(diǎn),附圖中:
[0026]圖1是根據(jù)本發(fā)明的具體實(shí)施例的基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法的步驟圖。
【具體實(shí)施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下舉具體實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
[0028]圖1是根據(jù)本發(fā)明的具體實(shí)施例的基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法的步驟圖。如圖1所示,根據(jù)本發(fā)明的具體實(shí)施例的基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法,包括:步驟100,接收來自終端的廣告獲取請(qǐng)求;步驟200,針對(duì)所述廣告獲取請(qǐng)求向所述終端發(fā)送廣告效果地址;步驟300,接收來自終端的通知消息,所述廣告獲取請(qǐng)求和所述通知消息均包括與所述廣告效果地址相關(guān)的統(tǒng)一資源定位符和cookie ;步驟400,根據(jù)所述統(tǒng)一資源定位符和所述cookie設(shè)置爬蟲任務(wù),其中,對(duì)所述廣告獲取請(qǐng)求的原因內(nèi)容、結(jié)果內(nèi)容和環(huán)境內(nèi)容執(zhí)行所述爬蟲任務(wù)。
[0029]具體而言:
[0030]步驟100,接收來自終端的廣告獲取請(qǐng)求。
[0031]—般而言,多由廣告服務(wù)器接收來自終端的廣告獲取請(qǐng)求,該廣告服務(wù)器可以包括廣告業(yè)務(wù)服務(wù)器和廣告監(jiān)測(cè)服務(wù)器,其中,該廣告獲取請(qǐng)求可同時(shí)發(fā)送給廣告業(yè)務(wù)服務(wù)器再由其轉(zhuǎn)發(fā)至廣告監(jiān)測(cè)服務(wù)器,也可以由終端直接發(fā)送給廣告監(jiān)測(cè)服務(wù)器。所述廣告信息獲取請(qǐng)求攜帶有被請(qǐng)求的廣告的名稱以及所述終端的標(biāo)識(shí)等信息。
[0032]同時(shí),對(duì)所述廣告獲取請(qǐng)求的來源進(jìn)行網(wǎng)頁數(shù)據(jù)數(shù)據(jù)采集,即獲取所述廣告獲取請(qǐng)求的來源的設(shè)備硬件信息、所述廣告獲取請(qǐng)求的來源的操作系統(tǒng)信息、所述廣告獲取請(qǐng)求的來源的用戶的IP信息和cookie信息,等等。
[0033]步驟200,針對(duì)所述廣告獲取請(qǐng)求向所述終端發(fā)送廣告效果地址。
[0034]廣告服務(wù)器中存儲(chǔ)有廣告投放主體的廣告內(nèi)容,當(dāng)廣告業(yè)務(wù)服務(wù)器接收到終端發(fā)送的廣告信息獲取請(qǐng)求后,查找與所述廣告信息獲取請(qǐng)求對(duì)應(yīng)的廣告內(nèi)容,將廣告內(nèi)容返回給終端。與此同時(shí),根據(jù)廣告內(nèi)容,廣告服務(wù)器(廣告業(yè)務(wù)服務(wù)器或廣告監(jiān)測(cè)服務(wù)器)同時(shí)針對(duì)所述廣告獲取請(qǐng)求向所述終端發(fā)送廣告效果地址(廣告監(jiān)測(cè)服務(wù)器發(fā)送給廣告業(yè)務(wù)服務(wù)器再由廣告業(yè)務(wù)服務(wù)器轉(zhuǎn)發(fā)至終端,或廣告監(jiān)測(cè)服務(wù)器直接發(fā)送至終端)。其中,廣告投放主體會(huì)針對(duì)每個(gè)廣告設(shè)置廣告效果地址,廣告效果地址指的是廣告投放主體希望用戶觸發(fā)的,觸發(fā)后需要對(duì)廣告平臺(tái)付費(fèi)的地址,例如廣告效果地址可以是用戶購買、收藏廣告中商品的地址。
[0035]步驟300,接收來自終端的通知消息,所述廣告獲取請(qǐng)求和所述通知消息均包括與所述廣告效果地址相關(guān)的統(tǒng)一資源定位符和cookie。
[0036]終端在接收到與廣告信息獲取請(qǐng)求對(duì)應(yīng)的廣告及廣告效果地址之后,終端進(jìn)一步監(jiān)測(cè)用戶對(duì)廣告內(nèi)容的響應(yīng),獲取用戶對(duì)廣告內(nèi)容的響應(yīng)信息,判斷響應(yīng)信息中是否包含有與廣告效果地址匹配的地址,若有,則向廣告監(jiān)測(cè)服務(wù)器發(fā)送通知消息。
[0037]如上所述,對(duì)所述廣告獲取請(qǐng)求的來源進(jìn)行網(wǎng)頁數(shù)據(jù)數(shù)據(jù)采集,即獲取所述廣告獲取請(qǐng)求的來源的設(shè)備硬件信息、所述廣告獲取請(qǐng)求的來源的操作系統(tǒng)信息、所述廣告獲取請(qǐng)求的來源的用戶的IP信息和cookie信息,等等。接收來自終端的通知消息也包括與所述廣告效果地址相關(guān)的統(tǒng)一資源定位符和cookie。
[0038]在接下來的步驟中,本發(fā)明的具體實(shí)施例的基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法將對(duì)上述信息進(jìn)行處理從而利用處理結(jié)果完根據(jù)本發(fā)明的具體實(shí)施例的基于廣告監(jiān)測(cè)的數(shù)據(jù)采集方法。
[0039]具體地,當(dāng)返回給終端的與廣告信息獲取請(qǐng)求對(duì)應(yīng)的廣告效果地址只有一個(gè)時(shí),終端判斷響應(yīng)信息中是否包含有與廣告效果地址匹配的地址具體為:終端判斷響應(yīng)信息中是否包含一個(gè)與終端接收到的一個(gè)廣告效果地址匹配的地址,若響應(yīng)信息中包含有一個(gè)與終端接收到的一個(gè)廣告效果地址匹配的地址,則確定響應(yīng)信息中包含有與廣告效果地址匹配的地址。而當(dāng)返回給終端的與廣告信息獲取請(qǐng)求對(duì)應(yīng)的廣告效果地址有多個(gè)時(shí),終端判斷響應(yīng)信息中是否包含有與廣告效果地址匹配的地址具體為:終端判斷響應(yīng)信息中是否包含有至少一個(gè)與終端接收到的多個(gè)廣告效果地址匹配的地址,若響應(yīng)信息中包含有至少一個(gè)與終端接收到的多個(gè)廣告效果地址匹配的地址,則確定響應(yīng)信息中包含有與廣告效果地址匹配的地址。
[0040]終端向廣告監(jiān)測(cè)服務(wù)器發(fā)送的通知消息中的參數(shù)至少包括與所述廣告效果地址相關(guān)的統(tǒng)一資源定位符。
[0041 ] 統(tǒng)一資源定位符(Uniform Resource Locator,URL)也被稱為網(wǎng)頁地址,是因特網(wǎng)(Internet)上標(biāo)準(zhǔn)的資源的地址。終端訪問Internet通常是通過超文本傳輸協(xié)議(HyperText Transfer Protocol,HTTP)訪問 URL 來實(shí)現(xiàn)的。
[0042]另外,需要說明的是,本實(shí)施例的廣告業(yè)務(wù)服務(wù)器與廣告監(jiān)測(cè)服務(wù)器可以是兩個(gè)獨(dú)立的服務(wù)器,分別用于存儲(chǔ)廣告內(nèi)容及廣告效果地址,也可以是集成在一個(gè)服務(wù)器中的兩個(gè)單元,分別用于存儲(chǔ)廣告內(nèi)容及廣告效果地址,此處不做具體限定。
[0043]步驟400,根據(jù)所述統(tǒng)一資源定位符和所述cookie設(shè)置爬蟲任務(wù),其中,對(duì)所述廣告獲取請(qǐng)求的原因內(nèi)容、結(jié)果內(nèi)容和環(huán)境內(nèi)容執(zhí)行所述爬蟲任務(wù)。
[0044]所述廣告獲取請(qǐng)求