一種廣告監(jiān)測(cè)的預(yù)警方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種廣告監(jiān)測(cè)的預(yù)警方法,特別是一種利用爬蟲技術(shù)的廣告監(jiān)測(cè)預(yù)警方法。本發(fā)明還涉及一種廣告監(jiān)測(cè)的預(yù)警系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,廣告主選擇投放網(wǎng)絡(luò)廣告的比例逐漸增大。網(wǎng)絡(luò)廣告的計(jì)費(fèi)方式主要的方式有按點(diǎn)擊付費(fèi)(CPC)和按千次曝光付費(fèi)(CPM)。不論是哪一種,均有可能造假或?yàn)E用,給廣告主帶來損失。常用的廣告監(jiān)測(cè)方法是在廣告頁中加入監(jiān)測(cè)代碼,最終完成計(jì)數(shù)功能。沒有一項(xiàng)技術(shù)能夠在計(jì)數(shù)功能以外,幫助廣告主了解自己的廣告是否被濫用,或是被騙點(diǎn)擊。
【發(fā)明內(nèi)容】
[0003]有鑒于此,本發(fā)明提供一種廣告監(jiān)測(cè)的預(yù)警方法,可以在網(wǎng)頁中識(shí)別不正常的廣告行為,向廣告監(jiān)測(cè)服務(wù)器發(fā)送預(yù)警。
[0004]根據(jù)本發(fā)明的第一方面,本發(fā)明涉及一種廣告監(jiān)測(cè)預(yù)警方法,其包括:
[0005]利用網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁并進(jìn)行識(shí)別;
[0006]當(dāng)檢測(cè)到特定監(jiān)測(cè)代碼時(shí),對(duì)該網(wǎng)頁進(jìn)行截屏,識(shí)別該截屏中圖文信息,與特征庫(kù)中數(shù)據(jù)進(jìn)行比對(duì),當(dāng)相似度小于第一臨界閾值SJ#,則向廣告監(jiān)測(cè)服務(wù)器發(fā)出預(yù)警信號(hào)。
[0007]所述Si范圍為60%?95%,優(yōu)選70%?90%,更優(yōu)選75%?85%。
[0008]根據(jù)本發(fā)明的一個(gè)實(shí)施方式,在特征比對(duì)時(shí),將與特征庫(kù)相符的特征標(biāo)注為老特征,不相符的標(biāo)注為新特征。
[0009]所述“相符”是指單個(gè)特征比對(duì)和/或多特征融合的相似度在第一臨界閾值SiW上。
[0010]根據(jù)本發(fā)明的一個(gè)優(yōu)選的實(shí)施方式,當(dāng)相似度在第二臨界閾值&以上時(shí),向服務(wù)器發(fā)送專家干預(yù)請(qǐng)求,請(qǐng)求確認(rèn)是否將該新特征加入特征庫(kù)。
[0011]所述S2范圍優(yōu)選為50%?95%,再優(yōu)選為55%?90%,更優(yōu)選為60%?85% ;且,其中s2< S1<3
[0012]根據(jù)本發(fā)明的一個(gè)實(shí)施方式,所述特定監(jiān)測(cè)代碼是網(wǎng)絡(luò)嗅探器檢測(cè)到的。優(yōu)選的,所述網(wǎng)絡(luò)嗅探器帶有Javascript和Flash模擬器。
[0013]在本發(fā)明中,所述相似度包括單個(gè)特征的相似度和/或多特征融合的相似度。
[0014]根據(jù)本發(fā)明的第二方面,本發(fā)明涉及一種廣告監(jiān)測(cè)預(yù)警方法,其包括利用網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁并進(jìn)行識(shí)別;
[0015]將爬取的數(shù)據(jù)與特征庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì),當(dāng)相似度在第三臨界閾值&以上時(shí),如果沒有檢測(cè)到特定監(jiān)測(cè)代碼,則向廣告監(jiān)測(cè)服務(wù)器發(fā)出預(yù)警信號(hào)。
[0016]所述S3范圍為60%?95%,優(yōu)選70%?90%,更優(yōu)選75%?85%。
[0017]在本發(fā)明的一個(gè)實(shí)施方式中,特征庫(kù)為自增庫(kù),當(dāng)發(fā)現(xiàn)新特征時(shí),向服務(wù)器發(fā)送專家干預(yù)請(qǐng)求,請(qǐng)求確認(rèn)是否將該新特征加入特征庫(kù)。
[0018]根據(jù)本發(fā)明的第三方面,本發(fā)明涉及一種廣告監(jiān)測(cè)預(yù)警系統(tǒng),包括爬蟲模塊、預(yù)警模塊、數(shù)據(jù)倉(cāng)庫(kù)和特征庫(kù),其中
[0019]爬蟲模塊,用于爬取網(wǎng)絡(luò)數(shù)據(jù),并進(jìn)行處理;
[0020]預(yù)警模塊,根據(jù)預(yù)設(shè)的預(yù)警規(guī)則,當(dāng)條件符合時(shí),發(fā)出預(yù)警信息;
[0021]數(shù)據(jù)倉(cāng)庫(kù),存儲(chǔ)嗅探模塊和爬蟲模塊獲取并處理的數(shù)據(jù);和
[0022]特征庫(kù),存儲(chǔ)特征數(shù)據(jù)用于與數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)比對(duì)。
[0023]優(yōu)選的,所述處理包括圖文識(shí)別、擴(kuò)充檢驗(yàn)和清洗中的一種或多種。
[0024]在本發(fā)明的一個(gè)實(shí)施方式中,所述預(yù)警規(guī)則是當(dāng)檢測(cè)到特定監(jiān)測(cè)代碼時(shí),對(duì)該網(wǎng)頁進(jìn)行截屏,識(shí)別該截屏中圖文信息,與特征庫(kù)中數(shù)據(jù)進(jìn)行比對(duì),當(dāng)相似度小于第一臨界閾值SJ#,則向廣告監(jiān)測(cè)服務(wù)器發(fā)出預(yù)警信號(hào)。
[0025]所述Si范圍為60%?95%,優(yōu)選70%?90%,更優(yōu)選75%?85%。
[0026]在本發(fā)明的另一個(gè)實(shí)施方式中,所述預(yù)警規(guī)則是將爬取的數(shù)據(jù)與特征庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì),當(dāng)相似度在第三臨界閾值S3以上時(shí),如果沒有檢測(cè)到特定監(jiān)測(cè)代碼,則向廣告監(jiān)測(cè)服務(wù)器發(fā)出預(yù)警信號(hào)。
[0027]所述S3范圍為60%?95%,優(yōu)選70%?90%,更優(yōu)選75%?85%。
[0028]在本發(fā)明的一個(gè)實(shí)施方式中,所述系統(tǒng)還包括嗅探模塊,利用網(wǎng)絡(luò)嗅探器接收數(shù)據(jù)包,并解析。
[0029]在本發(fā)明的一個(gè)實(shí)施方式中,所述爬蟲模塊基于所述嗅探模塊分析出的廣告監(jiān)測(cè)代碼啟動(dòng)爬蟲任務(wù)。
[0030]在本發(fā)明的一個(gè)實(shí)施方式中,所述系統(tǒng)還包括專家干預(yù)模塊,當(dāng)需要增加特征庫(kù)的特征時(shí),通過專家干預(yù)模塊引入人工判斷。
[0031 ] 優(yōu)選的,所述特征庫(kù)為自增庫(kù)。
[0032]優(yōu)選的,所述特征庫(kù)可以通過人工或是自動(dòng)增加特征。
[0033]優(yōu)選的,所述特征庫(kù)可以自動(dòng)添加相似度在第四臨界閾值S4&上的新特征。
[0034]所述S4范圍為60%?95%,優(yōu)選70%?90%,更優(yōu)選75%?85%。
[0035]在本發(fā)明中涉及的各個(gè)閾值范圍均可以相同或不同,可以根據(jù)需要而設(shè)定。除非特別指明不同閾值范圍的邏輯關(guān)系,否則各閾值范圍相互獨(dú)立,本領(lǐng)域技術(shù)人員按照說明書闡釋的內(nèi)容,以及用戶的要求,很容易選擇合適的閾值范圍。本發(fā)明并不排除各閾值范圍存在的實(shí)質(zhì)上的邏輯關(guān)系,例如在某閾值范圍發(fā)送預(yù)警,而在其他的閾值范圍不發(fā)送預(yù)警等。
【附圖說明】
[0036]本發(fā)明的下列附圖在此作為本發(fā)明的一部分用于理解本發(fā)明。附圖中示出了本發(fā)明的實(shí)施例及其描述,用來解釋本發(fā)明的原理。在附圖中,
[0037]圖1是根據(jù)本發(fā)明第一方面的方法的一個(gè)實(shí)施方式的示意圖。
[0038]圖2是根據(jù)本發(fā)明第二方面的方法的一個(gè)實(shí)施方式的示意圖。
[0039]圖3是根據(jù)本發(fā)明第一方面的方法的另一個(gè)實(shí)施方式的示意圖。
[0040]圖4是根據(jù)本發(fā)明第三方面的系統(tǒng)的一個(gè)實(shí)施方式的示意圖。
【具體實(shí)施方式】
[0041]在下文的描述中,給出了大量具體的細(xì)節(jié)以便提供對(duì)本發(fā)明更為徹底的理解。然而,對(duì)于本領(lǐng)域技術(shù)人員來說顯而易見的是,本發(fā)明可以無需一個(gè)或多個(gè)這些細(xì)節(jié)而得以實(shí)施。在其他的例子中,為了避免與本發(fā)明發(fā)生混淆,對(duì)于本領(lǐng)域公知的一些技術(shù)特征未進(jìn)行描述。
[0042]本文中所用術(shù)語“網(wǎng)絡(luò)嗅探器”是指Sniffer,可以是軟件,也可以是硬件,用于監(jiān)聽網(wǎng)絡(luò)上流經(jīng)的數(shù)據(jù)包。軟件形式的網(wǎng)絡(luò)嗅探器可以是單獨(dú)的軟件,也可以是瀏覽器插件,一般被加載在瀏覽器和網(wǎng)卡驅(qū)動(dòng)程序上。在真實(shí)的網(wǎng)絡(luò)環(huán)境中,數(shù)據(jù)在網(wǎng)絡(luò)上是以很小的稱為幀(Frame)的單位傳輸。一般數(shù)據(jù)的收發(fā)是由網(wǎng)卡來完成的,因此網(wǎng)絡(luò)嗅探器可以捕獲網(wǎng)卡驅(qū)動(dòng)程序接收的數(shù)據(jù)包,并對(duì)數(shù)據(jù)包進(jìn)行分析。
[0043]由于廣告經(jīng)常是以圖像、視頻、動(dòng)畫等方式呈現(xiàn),因此本發(fā)明中的網(wǎng)絡(luò)嗅探器優(yōu)選帶有Javascript和Flash模擬器。
[0044]本文中“廣告監(jiān)測(cè)代碼”、“特定監(jiān)測(cè)代碼”、“監(jiān)測(cè)代碼”是指根據(jù)廣告主的需要,添加到網(wǎng)頁中的代碼,包括但不限于曝光量監(jiān)測(cè)代碼和/或點(diǎn)擊量監(jiān)測(cè)代碼。例如,應(yīng)廣告主要求將JavaScript代碼添加到網(wǎng)站上,訪客訪問網(wǎng)站,瀏覽器加載并響應(yīng)JavaScript代碼,此段代碼經(jīng)收集、處理、儲(chǔ)存訪客的信息,最后將訪客信息發(fā)送到服務(wù)器分析并處理數(shù)據(jù)?;蛘呤牵鐝V告素材是Flash圖片,可以將點(diǎn)擊量代碼替換Object標(biāo)簽中的Codebase屬性值,將曝光量代碼插入到Flash素材中。對(duì)于確定的廣告主,作為廣告監(jiān)測(cè)業(yè)務(wù)提供商,自然知曉需要監(jiān)測(cè)的廣告所使用的監(jiān)測(cè)代碼的種類和【具體實(shí)施方式】。本發(fā)明中所涉及的“廣告監(jiān)測(cè)代碼”、“特定監(jiān)測(cè)代碼”、“監(jiān)測(cè)代碼”并不限于上面提到的具體的監(jiān)測(cè)代碼的類型和實(shí)施方式,而是包括任何能夠?qū)崿F(xiàn)對(duì)廣告投放效果進(jìn)行監(jiān)測(cè)的代碼類型和實(shí)施方式。
[0045]本文中的“網(wǎng)絡(luò)爬蟲”,又被稱為網(wǎng)頁蜘蛛,是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。
[0046]爬蟲任務(wù)可以根據(jù)預(yù)設(shè)條件啟動(dòng),例如當(dāng)嗅探器分析數(shù)據(jù)包中包含特定監(jiān)測(cè)代碼,或其他特定信息時(shí),啟動(dòng)爬蟲并進(jìn)行網(wǎng)頁截屏。爬蟲任務(wù)可以根據(jù)預(yù)設(shè)的調(diào)度規(guī)則進(jìn)行爬取。在本發(fā)明中,爬蟲任務(wù)例如可以爬取包含特定監(jiān)測(cè)代碼或其他涉及預(yù)設(shè)條件的網(wǎng)頁內(nèi)容,所述網(wǎng)頁內(nèi)容包括但不限于文字、圖像、視頻、動(dòng)畫等。
[0047]在本發(fā)明中,爬蟲任務(wù)也可以因?yàn)槠渌麠l件而啟動(dòng)。在爬取的過程中發(fā)現(xiàn)特定監(jiān)測(cè)代碼,并進(jìn)行網(wǎng)頁截屏。
[0048]本文中的“網(wǎng)頁截屏”可以通過例如網(wǎng)頁快照(WebCache)或抓圖插件(例如Google提供的API)等方式實(shí)現(xiàn),目的是呈現(xiàn)出廣告受眾看到的該網(wǎng)頁的真實(shí)情況。例如以圖像形式呈現(xiàn)的廣告,如果像素縮小到1X1,則廣告受眾無法看到該廣告。在此情況下,雖然該網(wǎng)頁有監(jiān)測(cè)代碼,可以計(jì)數(shù),但并不能實(shí)現(xiàn)投放廣告的效果。
[0049]在爬取網(wǎng)頁內(nèi)容的過程中,爬蟲程序?qū)Λ@得的網(wǎng)頁內(nèi)容進(jìn)行圖文識(shí)別、擴(kuò)充檢驗(yàn)和清洗中的一種或多種,數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)中,并與特征庫(kù)中的特征數(shù)據(jù)進(jìn)行比對(duì),與特征庫(kù)相符的特征標(biāo)注為老特征,不相符的標(biāo)注為新特征。
[0050]對(duì)于標(biāo)注的方式并沒有限制,只要能將特征區(qū)分出來即可。
[0051]本文中所述的“相符”是指特征的相似度在一定閾值范