本發(fā)明涉及一種異常點(diǎn)擊檢測(cè)方法及裝置,屬于信息處理技術(shù)領(lǐng)域。
背景技術(shù):
在計(jì)算機(jī)、互聯(lián)網(wǎng)等技術(shù)飛速發(fā)展的今天,節(jié)目或者網(wǎng)站的點(diǎn)擊量,對(duì)于廣告投放商、內(nèi)容提供商等具有重要的參考意義。然而,目前點(diǎn)擊量的作假,比如水軍的刷流量,讓統(tǒng)計(jì)出來(lái)的點(diǎn)擊量與實(shí)際不符。點(diǎn)擊行為的造假會(huì)造成估值與實(shí)際背離,廣告商、投資商的評(píng)估被摻水,對(duì)整個(gè)產(chǎn)業(yè)具有嚴(yán)重的影響。因此有必要對(duì)點(diǎn)擊行為進(jìn)行有效的鑒別,以提供真實(shí)有效的點(diǎn)擊量統(tǒng)計(jì)數(shù)據(jù)。
現(xiàn)有防止點(diǎn)擊量作弊的技術(shù)通常是從被點(diǎn)擊的對(duì)象(例如電子商務(wù)網(wǎng)站中商品、網(wǎng)頁(yè)中的廣告、多媒體點(diǎn)播系統(tǒng)提供的音視頻等)的角度出發(fā),通過(guò)將某一對(duì)象的被點(diǎn)擊量與該對(duì)象的歷史點(diǎn)擊數(shù)據(jù)進(jìn)行比對(duì)來(lái)判斷針對(duì)該對(duì)象的點(diǎn)擊行為是否異常?,F(xiàn)有的這種檢測(cè)方式通常針對(duì)某特定網(wǎng)頁(yè)或者商品,其行為和判別標(biāo)準(zhǔn)不能直接復(fù)制到其他點(diǎn)擊對(duì)象上,因此對(duì)每一個(gè)特定網(wǎng)頁(yè),或者至少是每一個(gè)特定類型的網(wǎng)頁(yè),需要制定不同的參數(shù)標(biāo)準(zhǔn);一方面作弊檢測(cè)的算法復(fù)雜,對(duì)軟硬件要求過(guò)高,另一方面檢測(cè)準(zhǔn)確率也較低。因此有必要從其他角度出發(fā)探究新的點(diǎn)擊作弊檢測(cè)技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)不足,提供一種異常點(diǎn)擊檢測(cè)方法及裝置,從用戶的角度出發(fā)并基于相似用戶群組的點(diǎn)擊行為特征進(jìn)行異常點(diǎn)擊的檢測(cè),檢測(cè)結(jié)果更準(zhǔn)確,檢測(cè)過(guò)程更簡(jiǎn)單。
本發(fā)明的異常點(diǎn)擊檢測(cè)方法,包括以下步驟:
步驟1、從被檢測(cè)用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征;并從被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征;
步驟2、計(jì)算被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第一標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度,以及所述相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度;
步驟3、判斷上述兩個(gè)差異度之間的差值是否超出預(yù)設(shè)范圍,如是,則判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為異常點(diǎn)擊;否則,判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為正常點(diǎn)擊。
優(yōu)選地,被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布;相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為相似用戶群組中各用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布均值。
或者,被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布;相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為相似用戶群組中除被檢測(cè)用戶以外的各用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布均值。
優(yōu)選地,點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中僅統(tǒng)計(jì)可確定用戶信息的點(diǎn)擊行為。
優(yōu)選地,第一標(biāo)準(zhǔn)點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征相等。
優(yōu)選地,所述第一標(biāo)準(zhǔn)點(diǎn)擊行為特征和/或第二標(biāo)準(zhǔn)點(diǎn)擊行為特征為被檢測(cè)用戶所在的相似用戶群組在之前若干個(gè)檢測(cè)周期內(nèi)的點(diǎn)擊行為特征的均值。
優(yōu)選地,所述差異度為兩個(gè)特征間相似度的倒數(shù)。
為了進(jìn)一步提高檢測(cè)準(zhǔn)確度,如果步驟3中將被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均判定為異常點(diǎn)擊,則按照以下方法對(duì)其進(jìn)行進(jìn)一步判定:
步驟4、對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,分別獲取被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的人均點(diǎn)擊次數(shù),并取這些對(duì)象的人均點(diǎn)擊次數(shù)的最大值,用預(yù)設(shè)的一個(gè)大于等于1的系數(shù)乘以該最大值,所得到的乘積作為標(biāo)準(zhǔn)點(diǎn)擊數(shù);
步驟5、對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,判斷被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的點(diǎn)擊數(shù)是否小于所述標(biāo)準(zhǔn)點(diǎn)擊數(shù),如是,則從步驟3中所判定的異常點(diǎn)擊行為中將被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的所有點(diǎn)擊行為剔除。
所述系數(shù)的取值范圍優(yōu)選為(1,2)。
本發(fā)明異常點(diǎn)擊檢測(cè)裝置包括:
特征提取模塊,用于從被檢測(cè)用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征;并從被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征;
差異度計(jì)算模塊,用于計(jì)算被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第一標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度,以及所述相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度;
判斷模塊,用于判斷上述兩個(gè)差異度之間的差值是否超出預(yù)設(shè)范圍,如是,則判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為異常點(diǎn)擊;否則,判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為正常點(diǎn)擊。
優(yōu)選地,被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布;相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為相似用戶群組中各用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布均值。
或者,被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布;相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為相似用戶群組中除被檢測(cè)用戶以外的各用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布均值。
優(yōu)選地,點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中僅統(tǒng)計(jì)可確定用戶信息的點(diǎn)擊行為。
優(yōu)選地,第一標(biāo)準(zhǔn)點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征相等。
優(yōu)選地,所述第一標(biāo)準(zhǔn)點(diǎn)擊行為特征和/或第二標(biāo)準(zhǔn)點(diǎn)擊行為特征為被檢測(cè)用戶所在的相似用戶群組在之前若干個(gè)檢測(cè)周期內(nèi)的點(diǎn)擊行為特征的均值。
優(yōu)選地,所述差異度為兩個(gè)特征間相似度的倒數(shù)。
為了進(jìn)一步提高檢測(cè)準(zhǔn)確度,該裝置還包括:
檢測(cè)結(jié)果修正模塊,用于對(duì)判斷模塊所輸出的異常點(diǎn)擊進(jìn)行進(jìn)一步判定,其包括標(biāo)準(zhǔn)點(diǎn)擊數(shù)計(jì)算子模塊和修正子模塊;所述標(biāo)準(zhǔn)點(diǎn)擊數(shù)計(jì)算子模塊用于對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,分別獲取被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的人均點(diǎn)擊次數(shù),并取這些對(duì)象的人均點(diǎn)擊次數(shù)的最大值,用預(yù)設(shè)的一個(gè)大于等于1的系數(shù)乘以該最大值,所得到的乘積作為標(biāo)準(zhǔn)點(diǎn)擊數(shù);所述修正子模塊用于對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,判斷被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的點(diǎn)擊數(shù)是否小于所述標(biāo)準(zhǔn)點(diǎn)擊數(shù),如是,則從判斷模塊所輸出的異常點(diǎn)擊行為中將被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的所有點(diǎn)擊行為剔除。
優(yōu)選地,所述系數(shù)的取值范圍為(1,2)。
根據(jù)相同的發(fā)明思路還可以得到以下技術(shù)方案:
一種點(diǎn)擊量統(tǒng)計(jì)方法,首先對(duì)所有點(diǎn)擊行為進(jìn)行記錄;然后使用如上任一技術(shù)方案所述方法進(jìn)行異常點(diǎn)擊檢測(cè);最后從所記錄的所有點(diǎn)擊行為中將檢測(cè)出的異常點(diǎn)擊去除并對(duì)剩余的點(diǎn)擊行為進(jìn)行點(diǎn)擊量統(tǒng)計(jì)。
一種點(diǎn)擊量統(tǒng)計(jì)裝置,包括:
記錄單元,用于對(duì)所有點(diǎn)擊行為進(jìn)行記錄;
如上任一技術(shù)方案所述異常點(diǎn)擊檢測(cè)裝置,用于進(jìn)行異常點(diǎn)擊檢測(cè);
點(diǎn)擊量統(tǒng)計(jì)單元,用于從記錄單元所記錄的所有點(diǎn)擊行為中將異常點(diǎn)擊檢測(cè)裝置檢測(cè)出的異常點(diǎn)擊去除并對(duì)剩余的點(diǎn)擊行為進(jìn)行點(diǎn)擊量統(tǒng)計(jì)。
相比現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
本發(fā)明從用戶的角度出發(fā)并基于相似用戶群組的點(diǎn)擊行為特征進(jìn)行異常點(diǎn)擊的檢測(cè),檢測(cè)結(jié)果更準(zhǔn)確,檢測(cè)過(guò)程更簡(jiǎn)單。
具體實(shí)施方式
針對(duì)現(xiàn)有技術(shù)的不足之處,本發(fā)明的思路是從用戶的角度出發(fā),對(duì)特定用戶一段時(shí)間內(nèi)的點(diǎn)擊行為與其所在相似用戶群組的點(diǎn)擊行為進(jìn)行比較分析,從而找出與相似用戶群組整體的點(diǎn)擊行為差異較大的用戶,并將該用戶在檢測(cè)周期內(nèi)所發(fā)出的點(diǎn)擊行為判定為異常點(diǎn)擊行為。該方法的檢測(cè)結(jié)果更準(zhǔn)確,檢測(cè)過(guò)程更簡(jiǎn)單,尤其對(duì)于來(lái)自合法用戶的異常點(diǎn)擊行為(例如注冊(cè)用戶的刷單或刷流量行為)的檢測(cè)效果更好。
本發(fā)明異常點(diǎn)擊檢測(cè)裝置包括:
特征提取模塊,用于從被檢測(cè)用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征;并從被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征;
差異度計(jì)算模塊,用于計(jì)算被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第一標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度,以及所述相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度;
判斷模塊,用于判斷上述兩個(gè)差異度之間的差值是否超出預(yù)設(shè)范圍,如是,則判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為異常點(diǎn)擊;否則,判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為正常點(diǎn)擊。
為了便于公眾理解,下面對(duì)本發(fā)明技術(shù)方案進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。
本發(fā)明的異常點(diǎn)擊檢測(cè)方法,包括以下步驟:
步驟1、從被檢測(cè)用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征;并從被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中提取出相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征。
本發(fā)明方法是針對(duì)每個(gè)用戶進(jìn)行檢測(cè)??梢愿鶕?jù)系統(tǒng)所記錄的點(diǎn)擊行為統(tǒng)計(jì)出每個(gè)用戶在任一時(shí)間段內(nèi)的點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)。具體的檢測(cè)周期可根據(jù)實(shí)際需要設(shè)定,例如一周、一月或一個(gè)季度等。為了提高檢測(cè)的準(zhǔn)確性,點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)中僅統(tǒng)計(jì)可確定用戶信息的點(diǎn)擊行為,無(wú)法確定用戶信息的點(diǎn)擊行為均不計(jì)入點(diǎn)擊行為統(tǒng)計(jì)數(shù)據(jù)。
所謂相似用戶群組是指根據(jù)預(yù)先設(shè)定的某種標(biāo)準(zhǔn)將具有相近偏好或者相近行為模式的用戶分為同一用戶組,而偏好或行為差異較大的用戶分在不同的用戶組。相似用戶的分組對(duì)于加強(qiáng)服務(wù)的針對(duì)性、提升用戶體驗(yàn)具有重要意義,因此已廣泛應(yīng)用于電子商務(wù)、多媒體在線點(diǎn)播等諸多方面。相似用戶的分組方法通常是在某種用戶相似度度量(例如目前最常用的余弦相似性、皮爾森系數(shù)、調(diào)整余弦相似性、歐式距離等)基礎(chǔ)上,通過(guò)聚類算法來(lái)實(shí)現(xiàn)。其為現(xiàn)有成熟技術(shù),為節(jié)省篇幅起見,此處不再贅述。
相似用戶群組中的用戶對(duì)于影視作品、商品、廣告等對(duì)象的點(diǎn)擊行為會(huì)體現(xiàn)出一致性,本發(fā)明即利用這種一致性,將群組中個(gè)體的點(diǎn)擊行為與群組整體的點(diǎn)擊行為進(jìn)行比較,以實(shí)現(xiàn)異常點(diǎn)擊的檢測(cè)。要實(shí)現(xiàn)點(diǎn)擊行為的比較,首先要將點(diǎn)擊行為抽象為可比較的行為特征。具體的點(diǎn)擊行為特征可以是點(diǎn)擊行為在對(duì)象這個(gè)維度上的分布,也可以是點(diǎn)擊行為在時(shí)間維度上的分布,或者兩者的綜合。例如,對(duì)于多媒體在線點(diǎn)播服務(wù),可以用戶在檢測(cè)周期內(nèi)對(duì)不同類型視頻(恐怖、動(dòng)作、驚悚、愛情、倫理等)的點(diǎn)擊次數(shù)分布作為該用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為特征,也可以用戶在檢測(cè)周期內(nèi)的各時(shí)段的點(diǎn)擊數(shù)分布作為該用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為特征,還可以是用戶在檢測(cè)周期內(nèi)的各時(shí)段對(duì)不同類型視頻(恐怖、動(dòng)作、驚悚、愛情、倫理等)的點(diǎn)擊次數(shù)分布作為該用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為特征。點(diǎn)擊行為特征的具體表達(dá)可采用曲線、圖表、矩陣、向量等形式。
綜合考慮算法的準(zhǔn)確度和復(fù)雜度,本發(fā)明優(yōu)選以點(diǎn)擊行為的時(shí)域分布作為點(diǎn)擊行為特征,具體的:被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布;相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征為相似用戶群組中各用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布均值,或者為相似用戶群組中除被檢測(cè)用戶以外的各用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊數(shù)的時(shí)間分布均值。
步驟2、計(jì)算被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第一標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度,以及所述相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度。
得到被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征以及相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征后,即可利用兩者的差異性來(lái)判斷檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為偏離多數(shù)用戶的正常行為。但考慮到時(shí)間周期的不確定性,如特定的節(jié)假日,促銷活動(dòng),重大集體活動(dòng)等會(huì)導(dǎo)致周期重復(fù)性出現(xiàn)差異的狀況,本發(fā)明并未直接進(jìn)行兩者的比較,而是先計(jì)算被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第一標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度,以及所述相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度。
作為預(yù)設(shè)的兩個(gè)比較基準(zhǔn),第一標(biāo)準(zhǔn)點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征可以相同,也可以不同。例如,第一標(biāo)準(zhǔn)點(diǎn)擊行為特征可以取被檢測(cè)用戶在前若干個(gè)未被檢測(cè)出異常點(diǎn)擊行為的檢測(cè)周期中的點(diǎn)擊行為特征的均值,即利用該用戶自身的歷史數(shù)據(jù)生成第一標(biāo)準(zhǔn)點(diǎn)擊行為特征;類似地,第二標(biāo)準(zhǔn)點(diǎn)擊行為特征可以取被檢測(cè)用戶所在的相似用戶群組在之前若干個(gè)檢測(cè)周期內(nèi)的點(diǎn)擊行為特征的均值。本發(fā)明優(yōu)選的方案是:第一標(biāo)準(zhǔn)點(diǎn)擊行為特征和/或第二標(biāo)準(zhǔn)點(diǎn)擊行為特征為被檢測(cè)用戶所在的相似用戶群組在之前若干個(gè)檢測(cè)周期內(nèi)的點(diǎn)擊行為特征的均值。即二者中的至少一個(gè)采用相似用戶群組的歷史數(shù)據(jù)作為比較依據(jù)。
差異度的具體度量方式有很多,最方便的是采用相似度的倒數(shù)的形式,也可以使用其它與相似度反向變化的度量形式。兩個(gè)特征向量間的相似度度量方式多種多樣,例如可以是距離(如歐式距離、切比雪夫距離、曼哈頓距離等)、皮爾森相關(guān)系數(shù)、互信息熵等。
步驟3、判斷上述兩個(gè)差異度之間的差值是否超出預(yù)設(shè)范圍,如是,則判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為異常點(diǎn)擊;否則,判定被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均為正常點(diǎn)擊。
假設(shè)計(jì)算出的被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第一標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度為x1,被檢測(cè)用戶所在相似用戶群組在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為特征與第二標(biāo)準(zhǔn)點(diǎn)擊行為特征之間的差異度為x2。如果x1與x2之間的差值超過(guò)預(yù)設(shè)范圍,則表明被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為與其所在相似用戶群組在所述檢測(cè)周期內(nèi)整體的點(diǎn)擊行為差異過(guò)大,可將被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的點(diǎn)擊行為均判定為異常點(diǎn)擊;否則,判定為正常點(diǎn)擊。
經(jīng)過(guò)上述三個(gè)步驟即可初步完成對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為的檢測(cè),依照同樣的方式對(duì)所有用戶在檢測(cè)周期內(nèi)的點(diǎn)擊行為進(jìn)行檢測(cè),即得到該檢測(cè)周期內(nèi)的所有點(diǎn)擊行為檢測(cè)結(jié)果。
上述方案在最終判斷時(shí)將差異度差值超過(guò)預(yù)設(shè)范圍的被檢測(cè)用戶在所述檢測(cè)周期內(nèi)的所有點(diǎn)擊行為均判斷為異常點(diǎn)擊,雖然簡(jiǎn)單,但考慮到該用戶在檢測(cè)周期內(nèi)可能會(huì)點(diǎn)擊若干不同的對(duì)象,可能存在該用戶對(duì)部分對(duì)象的點(diǎn)擊是正常的,而僅僅是對(duì)少量特定對(duì)象的點(diǎn)擊存在異常的可能性,這樣難免會(huì)產(chǎn)生部分誤判。為此,為了解決上述問題,進(jìn)一步提高檢測(cè)準(zhǔn)確度,本發(fā)明從對(duì)象這個(gè)維度出發(fā),對(duì)上述被判定為異常的點(diǎn)擊行為再進(jìn)行一次檢測(cè),具體為:
步驟4、對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,分別獲取被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的人均點(diǎn)擊次數(shù),并取這些對(duì)象的人均點(diǎn)擊次數(shù)的最大值,用預(yù)設(shè)的一個(gè)大于等于1的系數(shù)乘以該最大值,所得到的乘積作為標(biāo)準(zhǔn)點(diǎn)擊數(shù)。
假設(shè)被檢測(cè)用戶在檢測(cè)周期內(nèi)對(duì)n個(gè)對(duì)象一共進(jìn)行了m次點(diǎn)擊,根據(jù)點(diǎn)擊記錄可獲得這m次點(diǎn)擊在這n個(gè)對(duì)象上的分布情況。對(duì)于這n個(gè)特定對(duì)象中的每一個(gè),獲取被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的人均點(diǎn)擊次數(shù),即用相似用戶群組在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的總點(diǎn)擊次數(shù)除以相似用戶群組人數(shù),或者用相似用戶群組中除被檢測(cè)用戶以外的所有用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的總點(diǎn)擊次數(shù)除以相似用戶群組除被檢測(cè)用戶以外的總?cè)藬?shù);然后從這n個(gè)人均點(diǎn)擊次數(shù)中找出最大值,將該最大值乘以一個(gè)預(yù)設(shè)的大于等于1的系數(shù)(取值范圍最好為(1,2)),最后得到的乘積作為標(biāo)準(zhǔn)點(diǎn)擊數(shù),并以其作為進(jìn)一步判斷的判斷基準(zhǔn)。
步驟5、對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,判斷被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的點(diǎn)擊數(shù)是否小于所述標(biāo)準(zhǔn)點(diǎn)擊數(shù),如是,則從步驟3中所判定的異常點(diǎn)擊行為中將被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的所有點(diǎn)擊行為剔除。
將被檢測(cè)用戶在檢測(cè)周期內(nèi)對(duì)每個(gè)對(duì)象的點(diǎn)擊數(shù)與所述標(biāo)準(zhǔn)點(diǎn)擊數(shù)進(jìn)行比較,如果小于標(biāo)準(zhǔn)點(diǎn)擊數(shù),則認(rèn)為被檢測(cè)用戶在檢測(cè)周期內(nèi)對(duì)該對(duì)象的點(diǎn)擊行為屬于正常點(diǎn)擊行為,將其從此前檢測(cè)出的異常點(diǎn)擊中剔除出去;如果等于或大于標(biāo)準(zhǔn)點(diǎn)擊數(shù),則認(rèn)為被檢測(cè)用戶在檢測(cè)周期內(nèi)對(duì)該對(duì)象的點(diǎn)擊行為異常,將其作為最終的異常點(diǎn)擊輸出。
相應(yīng)的,本發(fā)明異常點(diǎn)擊檢測(cè)裝置也可進(jìn)一步包括:
檢測(cè)結(jié)果修正模塊,用于對(duì)判斷模塊所輸出的異常點(diǎn)擊進(jìn)行進(jìn)一步判定,其包括標(biāo)準(zhǔn)點(diǎn)擊數(shù)計(jì)算子模塊和修正子模塊;所述標(biāo)準(zhǔn)點(diǎn)擊數(shù)計(jì)算子模塊用于對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,分別獲取被檢測(cè)用戶所在的相似用戶群組在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的人均點(diǎn)擊次數(shù),并取這些對(duì)象的人均點(diǎn)擊次數(shù)的最大值,用預(yù)設(shè)的一個(gè)大于等于1的系數(shù)乘以該最大值,所得到的乘積作為標(biāo)準(zhǔn)點(diǎn)擊數(shù);所述修正子模塊用于對(duì)被檢測(cè)用戶在檢測(cè)周期內(nèi)所點(diǎn)擊的每個(gè)對(duì)象,判斷被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的點(diǎn)擊數(shù)是否小于所述標(biāo)準(zhǔn)點(diǎn)擊數(shù),如是,則從判斷模塊所輸出的異常點(diǎn)擊行為中將被檢測(cè)用戶在所述檢測(cè)周期內(nèi)對(duì)該對(duì)象的所有點(diǎn)擊行為剔除。
本發(fā)明異常點(diǎn)擊檢測(cè)方案可應(yīng)用于電子商務(wù)、多媒體在線點(diǎn)播、網(wǎng)頁(yè)廣告等方面的點(diǎn)擊量統(tǒng)計(jì)中,從而有效提高點(diǎn)擊量數(shù)據(jù)的準(zhǔn)確性,所述點(diǎn)擊量統(tǒng)計(jì)方法具體如下:首先對(duì)所有點(diǎn)擊行為進(jìn)行記錄;然后使用以上方法進(jìn)行異常點(diǎn)擊檢測(cè);最后從所記錄的所有點(diǎn)擊行為中將檢測(cè)出的異常點(diǎn)擊去除并對(duì)剩余的點(diǎn)擊行為進(jìn)行點(diǎn)擊量統(tǒng)計(jì)。
類似的,本發(fā)明點(diǎn)擊量統(tǒng)計(jì)裝置,包括:
記錄單元,用于對(duì)所有點(diǎn)擊行為進(jìn)行記錄;
如上所述異常點(diǎn)擊檢測(cè)裝置,用于進(jìn)行異常點(diǎn)擊檢測(cè);
點(diǎn)擊量統(tǒng)計(jì)單元,用于從記錄單元所記錄的所有點(diǎn)擊行為中將異常點(diǎn)擊檢測(cè)裝置檢測(cè)出的異常點(diǎn)擊去除并對(duì)剩余的點(diǎn)擊行為進(jìn)行點(diǎn)擊量統(tǒng)計(jì)。
此外,在進(jìn)行最終的點(diǎn)擊量統(tǒng)計(jì)時(shí),也可以利用被檢測(cè)用戶的正常點(diǎn)擊歷史數(shù)據(jù)或者被檢測(cè)用戶所在相似用戶群組的點(diǎn)擊歷史數(shù)據(jù)或當(dāng)前點(diǎn)擊數(shù)據(jù)對(duì)檢測(cè)出的異常點(diǎn)擊的數(shù)量進(jìn)行替換或平滑修正。