本發(fā)明涉及計算機技術領域,尤其涉及一種跨時間、多維度異常數據監(jiān)測的方法和系統。
背景技術:
在線廣告投放后容易產生的各種作弊行為,包括通過程序或腳本惡意模擬用戶的點擊等帶來的非正當途徑流量產生的廣告點擊,損害了廣告主及廣告平臺的利益,現有技術中,對異常廣告點擊行為的建模方法主要是基于監(jiān)督學習方法,從原始日志中提取各個記錄的特征,經歷人工打標簽,再生成模型,這種方法不僅效率低,而且無法適應業(yè)務的拓展,當接入數據量達到TB甚至PB級別以上的時候,無論從時效性和處理性能都無法滿足業(yè)務需求。
因此,目前需要本領域技術人員迫切解決的一個技術問題就是:如何能夠創(chuàng)新地提出一種有效措施,通過對線上廣告系統的海量展示日志、點擊日志進行多維分析查詢,制定異常廣告點擊行為的反作弊模型,過濾作弊點擊的功能,以對作弊廣告點擊得以監(jiān)測。
技術實現要素:
為解決上述問題,本發(fā)明公開了一種跨時間、多維度異常數據監(jiān)測的方法和系統,以制定異常廣告點擊行為的反作弊模型,過濾作弊點擊的功能,以對作弊廣告點擊得以監(jiān)測。
根據本發(fā)明實施例的一個方面,提供的一種跨時間、多維度異常數據監(jiān)測的方法,包括:
收集Web日志和OLAP日志查詢,獲得網站信息、投放廣告信息和用戶信息,通過收集Web日志和OLAP日志查詢,獲取網站點擊記錄、網站網址、網站訪問時間戳、網站IP地址、訪問網站主題,廣告類目、廣告位置、廣告形式、廣告大小和用戶名、訪問瀏覽器、用戶興趣標簽;
在Spark環(huán)境下利用Python將獲得的異構數據進行清洗,生成各維度對應的電子表格,準備建模分析;
使用GBDT算法建立正常廣告點擊行為模型,所述正常廣告點擊行為模型為使用未發(fā)現作弊點擊的用戶、廣告、流量數據建立的模型,GBDT算法將在Spark環(huán)境下利用Python將獲得的異構數據進行清洗后,生成各維度的數據集作為輸入,GBDT是一種集成學習方法,基學習器是CART決策樹,用于回歸和分類預測,GBDT訓練T輪,每一輪根據之前模型的誤差訓練的CART樹,最終采用線性加權的方法將多個基學習器組合到一起形成一個強學習器;
采用支持向量機對異常數據樣本進行建模分析,建立異常廣告點擊行為模型,所述支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上,根據有限樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,以期獲得最好的推廣能力,通過計算類別邊界支撐向量對樣本數據下的進行分類,在SVM建模中使得不同類別的樣本寬劃分,擴大邊界距離;
得到正常廣告點擊行為模型和建立異常廣告點擊行為模型后,將兩個模型融合,生成作弊點擊監(jiān)測模型,部署在線反作弊模型,并實時對點擊信息進行分析。
基于上述方法的另一個實施例中,所述收集Web日志和OLAP日志查詢,獲得網站信息、投放廣告信息和用戶信息包括:
收集Web日志和OLAP日志查詢,獲取網站信息、投放廣告信息和用戶信息;
將收集的信息區(qū)分為正常的網站信息、投放廣告信息和用戶信息,和異常的網站信息、投放廣告信息和用戶信息。
基于上述方法的另一個實施例中,所述Web日志為網絡用戶訪問Web服務器時,Web服務器自動建立的訪問日志信息,包括用戶ID、受訪Web的URL、用戶的IP地址、訪問日期和時間。
基于上述方法的另一個實施例中,所述生成各維度對應的電子表格內容包括:是否點擊、網站地址、廣告位大小、網站標簽、投放廣告類別、用戶名、瀏覽器名稱、時間戳。
根據本發(fā)明實施例的另一個方面,提供的一種跨時間、多維度異常數據監(jiān)測的系統,包括:Web日志模塊、OLAP日志查詢模塊、本地分析數據并建模模塊、線上反作弊模型部署模塊;
通過收集web日志模塊和OLAP日志查詢模塊,獲取正常數據和異常數據;通過本地分析數據并建模模塊對獲得數據進行清洗并建立模型;通過線上反作弊模型部署模塊在線上對多維數據進行分析評估,部署在線反作弊模型,實時對點擊信息進行分析。
基于上述系統的另一個實施例中,所述web日志模塊存儲網絡用戶訪問Web服務器時,Web服務器自動建立的訪問日志信息,包括用戶ID、受訪Web的URL、用戶的IP地址、訪問日期和時間信息。
基于上述系統的另一個實施例中,所述本地分析數據并建模模塊通過在Spark環(huán)境下利用Python將獲得的異構數據進行清洗,生成正常數據,使用GBDT算法來建立正常廣告點擊行為模型,支持向量機來對異常數據進行建模分析,建立異常廣告點擊行為模型。
基于上述系統的另一個實施例中,所述線上反作弊模型部署模塊將正常廣告點擊行為模型和異常廣告點擊行為模型融合,生成作弊點擊監(jiān)測模型,部署在線反作弊模型,實時對點擊信息進行分析。
與現有技術相比,本發(fā)明包括以下優(yōu)點:
本發(fā)明通過監(jiān)測作弊互聯網廣告流量,利用機器學習和云計算技術,解決多種異構數據融合分析及小樣本分類準確度問題,本發(fā)明還能在整個機器學習鏈條中記錄下后續(xù)互聯網廣告點擊數據,并對此進行分析,完善反作弊模型,以便更好的實現廣告投放的精準度。
附圖說明
為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所使用的附圖做一簡單地介紹。
圖1是本發(fā)明的一種跨時間、多維度異常數據監(jiān)測的方法一個實施例的流程圖。
圖2是本發(fā)明的一種跨時間、多維度異常數據監(jiān)測的方法另一個實施例的流程圖。
圖3是本發(fā)明的一種跨時間、多維度異常數據監(jiān)測的系統一個實施例的結構示意圖。
圖中:1 Web日志模塊、2 OLAP日志查詢模塊、3本地分析數據并建模模塊、4線上反作弊模型部署模塊。
具體實施方式
為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
圖1是本發(fā)明的一種跨時間、多維度異常數據監(jiān)測的方法一個實施例的流程圖,如圖1所示,所述一種跨時間、多維度異常數據監(jiān)測的方法,包括:
10,收集Web日志和OLAP日志查詢,獲得網站信息、投放廣告信息和用戶信息,通過收集Web日志和OLAP日志查詢,獲取網站點擊記錄、網站網址、網站訪問時間戳、網站IP地址、訪問網站主題,廣告類目、廣告位置、廣告形式、廣告大小和用戶名、訪問瀏覽器、用戶興趣標簽;
20,在Spark環(huán)境下利用Python將獲得的異構數據進行清洗,生成各維度對應的電子表格,準備建模分析;
30,使用GBDT算法建立正常廣告點擊行為模型,所述正常廣告點擊行為模型為使用未發(fā)現作弊點擊的用戶、廣告、流量數據建立的模型,GBDT算法將在Spark環(huán)境下利用Python將獲得的異構數據進行清洗后,生成各維度的數據集作為輸入,GBDT是一種集成學習方法,基學習器是CART決策樹,用于回歸和分類預測,GBDT訓練T輪,每一輪根據之前模型的誤差訓練的CART樹,最終采用線性加權的方法將多個基學習器組合到一起形成一個強學習器;
40,采用支持向量機對異常數據樣本進行建模分析,建立異常廣告點擊行為模型,所述支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上,根據有限樣本信息在模型的復雜性和學習能力之間尋求最佳折衷,以期獲得最好的推廣能力,通過計算類別邊界支撐向量對樣本數據下的進行分類,在SVM建模中使得不同類別的樣本寬劃分,擴大邊界距離;
50,得到正常廣告點擊行為模型和建立異常廣告點擊行為模型后,將兩個模型融合,生成作弊點擊監(jiān)測模型,部署在線反作弊模型,并實時對點擊信息進行分析。
圖2是本發(fā)明的一種跨時間、多維度異常數據監(jiān)測的方法另一個實施例的流程圖,如圖2所示,所述收集Web日志和OLAP日志查詢,獲得網站信息、投放廣告信息和用戶信息包括:
11,收集Web日志和OLAP日志查詢,獲取網站信息、投放廣告信息和用戶信息;
12,將收集的信息區(qū)分為正常的網站信息、投放廣告信息和用戶信息,和異常的網站信息、投放廣告信息和用戶信息。
基于本發(fā)明上述實施例提供的跨時間、多維度異常數據監(jiān)測的方法,所述Web日志為網絡用戶訪問Web服務器時,Web服務器自動建立的訪問日志信息,包括用戶ID、受訪Web的URL、用戶的IP地址、訪問日期和時間。
基于本發(fā)明上述實施例提供的跨時間、多維度異常數據監(jiān)測的方法,所述生成各維度對應的電子表格內容包括:是否點擊、網站地址、廣告位大小、網站標簽、投放廣告類別、用戶名、瀏覽器名稱、時間戳。
圖3是本發(fā)明的一種跨時間、多維度異常數據監(jiān)測的系統一個實施例的結構示意圖,如圖3所示,一種跨時間、多維度異常數據監(jiān)測的系統,包括:Web日志模塊1、OLAP日志查詢模塊2、本地分析數據并建模模塊3、線上反作弊模型部署模塊4;
通過收集web日志模塊1和OLAP日志查詢模塊2,獲取正常數據和異常數據;通過本地分析數據并建模模塊3對獲得數據進行清洗并建立模型;通過線上反作弊模型部署模塊4在線上對多維數據進行分析評估,部署在線反作弊模型,實時對點擊信息進行分析。
基于本發(fā)明上述實施例提供的跨時間、多維度異常數據監(jiān)測的系統,所述web日志模塊1存儲網絡用戶訪問Web服務器時,Web服務器自動建立的訪問日志信息,包括用戶ID、受訪Web的URL、用戶的IP地址、訪問日期和時間信息。
基于本發(fā)明上述實施例提供的跨時間、多維度異常數據監(jiān)測的系統,所述本地分析數據并建模模塊3通過在Spark環(huán)境下利用Python將獲得的異構數據進行清洗,生成正常數據,使用GBDT算法來建立正常廣告點擊行為模型,支持向量機來對異常數據進行建模分析,建立異常廣告點擊行為模型。
基于本發(fā)明上述實施例提供的跨時間、多維度異常數據監(jiān)測的系統,所述線上反作弊模型部署模塊4將正常廣告點擊行為模型和異常廣告點擊行為模型融合,生成作弊點擊監(jiān)測模型,部署在線反作弊模型,實時對點擊信息進行分析。
以上對本發(fā)明所提供的一種跨時間、多維度異常數據監(jiān)測的方法和系統進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。
最后應說明的是:以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,盡管參照前述實施例對本發(fā)明進行了詳細的說明,對于本領域的技術人員來說,其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。