本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種大數(shù)據(jù)異常點檢測方法及其系統(tǒng)。
背景技術(shù):
在大數(shù)據(jù)時代,數(shù)據(jù)的質(zhì)量直接影響大數(shù)據(jù)分析處理方法的效果,也影響決策過程。通過分析海量數(shù)據(jù),可以從中發(fā)現(xiàn)數(shù)據(jù)集中隱含的模式和規(guī)律。但數(shù)據(jù)集中的異常數(shù)據(jù)會對分析過程產(chǎn)生重大干擾,因此通過數(shù)據(jù)挖掘方法對大數(shù)據(jù)進行利用的研究領(lǐng)域中,數(shù)據(jù)異常檢測已成為熱門研究。
在大數(shù)據(jù)中的異常數(shù)據(jù)存在如下特點:1.與正常數(shù)據(jù)的表現(xiàn)有明顯的差異;2.其產(chǎn)生機制與正常數(shù)據(jù)不同,可能為未知方式;3.數(shù)據(jù)維度較高,異常數(shù)據(jù)與正常數(shù)據(jù)一樣,都是高維數(shù)據(jù)。
由于高維數(shù)據(jù)集中的數(shù)據(jù)點在高維空間內(nèi)的分布有著稀疏性。因此,傳統(tǒng)方法無法處理大數(shù)據(jù)中的異常數(shù)據(jù)檢測問題。在現(xiàn)有高維異常數(shù)據(jù)檢測方法中,通常可以采用數(shù)據(jù)點間的歐氏空間距離作為指標(biāo)來判斷數(shù)據(jù)的異常性,是否屬于異常數(shù)據(jù)。
但由于高維數(shù)據(jù)在高維空間上的距離無法作為有效指標(biāo)來進行衡量。進一步的,有些方案則引入余弦角度來代替歐氏距離作為指標(biāo),但這個方法的時間復(fù)雜度隨著數(shù)據(jù)集的增大,急劇增大,同時通常的角度對比方法在非圓的數(shù)據(jù)集上不能很好地工作。
因此,現(xiàn)有技術(shù)還有待發(fā)展。
技術(shù)實現(xiàn)要素:
鑒于上述現(xiàn)有技術(shù)的不足之處,本發(fā)明的目的在于提供大數(shù)據(jù)異常點檢測方法及其系統(tǒng),旨在解決現(xiàn)有技術(shù)中數(shù)據(jù)異常點檢測效果不佳的問題。
為了達(dá)到上述目的,本發(fā)明采取了以下技術(shù)方案:
一種大數(shù)據(jù)異常點檢測方法,其中,所述方法包括:
計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;
移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性;
在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果;
將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊;
在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊;
計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;
在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。
所述的方法,其中,所述第二預(yù)定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。
所述的方法,其中,所述方法還包括:
確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;
根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;
將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標(biāo)準(zhǔn)切塊。
所述的方法,其中,所述計算高維數(shù)據(jù)的維度屬性權(quán)重,具體包括:
使用如下算式計算所述維度屬性權(quán)重:
其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。
所述的方法,其中,使用如下算式計算所述獨立權(quán)重:
其中,ei為pi的熵值,
使用如下算式計算所述聯(lián)合權(quán)重:
其中,
一種大數(shù)據(jù)異常點檢測系統(tǒng),其中,包括:
約簡降維模塊,用于計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;以及移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性;
數(shù)據(jù)集切分模塊,用于在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果;將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊;以及在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊;
異常數(shù)據(jù)判斷模塊,用于計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;以及在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。
所述的系統(tǒng),其中,所述第二預(yù)定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。
所述的系統(tǒng),其中,所述數(shù)據(jù)集切分模塊還用于:確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;以及將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標(biāo)準(zhǔn)切塊。
所述的系統(tǒng),其中,所述約簡降維模塊具體用于:使用如下算式計算所述維度屬性權(quán)重:
其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。
所述的系統(tǒng),其中,所述約簡降維模塊具體用于:使用如下算式計算所述獨立權(quán)重:
其中,ei為pi的熵值,
使用如下算式計算所述聯(lián)合權(quán)重:
其中,
有益效果:本發(fā)明提供的大數(shù)據(jù)異常點檢測方法及其系統(tǒng),基于數(shù)據(jù)區(qū)域切分和約簡降維的思想,有效克服了現(xiàn)有異常數(shù)據(jù)檢測方法,在處理大規(guī)模高維數(shù)據(jù)時,時間復(fù)雜度過高及效果不理想的弊端,處理大規(guī)模高維數(shù)據(jù)集中的異常點檢測這樣的復(fù)雜問題具有較好的效果。
附圖說明
圖1為本發(fā)明實施例提供的大數(shù)據(jù)異常點檢測方法的方法流程圖;
圖2為本發(fā)明實施例提供的二維平面區(qū)塊圖;
圖3為本發(fā)明實施例提供的相鄰數(shù)據(jù)區(qū)塊圖;
圖4為本發(fā)明實施例提供的大數(shù)據(jù)異常點檢測系統(tǒng)的功能框圖。
具體實施方式
本發(fā)明提供大數(shù)據(jù)異常點檢測方法及其系統(tǒng)。為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發(fā)明進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,為本發(fā)明實施例提供的一種大數(shù)據(jù)異常點檢測方法的方法流程圖。所述方法包括如下步驟:
100、計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性。
200、移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性。
步驟100和200屬于預(yù)處理的過程,大數(shù)據(jù)通常包含高維數(shù)據(jù),其特性是維度屬性較多。令pi表示第i維上的屬性,根據(jù)分析需要的不同,各維度屬性的重要性也不相同。因此,在進行異常點檢測前,可以首先根據(jù)屬性的權(quán)重來去除一些冗余屬性,進行約簡降維。
基于在高維數(shù)據(jù)中,維度屬性間存在著一定的相關(guān)關(guān)系,不同維度屬性之間的權(quán)重會受其它屬性的影響的考慮,在本發(fā)明實施例中,具體可以采用如下方法計算維度屬性權(quán)重:
設(shè)對于高維數(shù)據(jù)集d,p={p1,p2,…,pi,…,pn}為其維度屬性集合,n為長度,對于維度屬性集合中的某個維度屬性pi的權(quán)重r(pi)可以通過算式(1)計算獲得:
其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性。ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重,rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。
對于獨立權(quán)重,可以使用算式(2)計算獲得:
其中,ei為pi的熵值,
對于聯(lián)合權(quán)重,可以使用算式(3)計算獲得:
其中,
在計算獲得所述維度屬性權(quán)重后,可以根據(jù)實際情況的需要,設(shè)置合適的閾值用以篩選或者移除一些維度屬性,實現(xiàn)約簡降維。對于小于閾值的維度屬性,將其移出集合,降低后續(xù)操作的開銷。較佳的,第一預(yù)定閾值η設(shè)置為η∈[0.2,0.25]時,具有較為理想的篩選效果。
300、在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果。
進一步的,對于該數(shù)據(jù)集d,各個維度屬性上均會存在有數(shù)據(jù)相對集中的區(qū)間
400、將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊。在劃分后,可以通過將數(shù)據(jù)投射到二維平面的方法,獲得對應(yīng)的二維平面區(qū)塊reci。
500、在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊。
圖2為本發(fā)明實施例提供的二維平面區(qū)塊的示意圖。如圖2所示,不同的二維平面區(qū)塊的數(shù)據(jù)密度情況有異??梢酝ㄟ^算式(4)計算某個二維平面區(qū)塊的數(shù)據(jù)密度:
其中,count(reci),acr(reci)分別為reci包含的數(shù)據(jù)點數(shù)量和區(qū)塊面積。當(dāng)數(shù)據(jù)密度大于一定閾值時,將該區(qū)塊標(biāo)記為正常區(qū)塊。在一些實施例中,所述閾值可以取所有區(qū)塊的平均數(shù)據(jù)密度。
在獲得至少一個正常區(qū)塊后,可以使用一定的策略完成對于數(shù)據(jù)集區(qū)塊的判斷(即擴展正常區(qū)塊)。例如,如圖3所示,若正常區(qū)塊的相鄰區(qū)塊密度也滿足上述條件,則可以將其加入到連續(xù)的正常區(qū)塊隊列中。
600、計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子。
在步驟500的正常區(qū)塊劃分完成后,在數(shù)據(jù)集d中可以得到多個連續(xù)的正常數(shù)據(jù)區(qū)塊。確定不在這些正常數(shù)據(jù)區(qū)塊內(nèi)的數(shù)據(jù)點并回到高維空間,計算這些數(shù)據(jù)點的角度方差因子。
在一些實施例中,可以通過算式(5)計算所述角度方差因子:
其中,xixk為數(shù)據(jù)點xi和xk的向量差,xi和xj落在正常數(shù)據(jù)區(qū)塊reci內(nèi),xk落在正常數(shù)據(jù)區(qū)塊外。
700、在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。計算獲得角度方差因子后,同樣也可以通過設(shè)置第三預(yù)定閾值,確定是否屬于異常數(shù)據(jù)。
本發(fā)明實施例還提供了一種大數(shù)據(jù)異常點檢測系統(tǒng)。如圖4所示,所述系統(tǒng)包括:約簡降維模塊100,用于計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;以及移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性。數(shù)據(jù)集切分模塊200,用于在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果;將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊;以及在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊。異常數(shù)據(jù)判斷模塊300,用于計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;以及在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。
具體的,所述第二預(yù)定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。
在本發(fā)明另一些實施例中,所述數(shù)據(jù)集切分模塊200還用于:確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;以及將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標(biāo)準(zhǔn)切塊。
所述約簡降維模塊100具體用于:使用如下算式計算所述維度屬性權(quán)重:
其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。
可選地,使用如下算式計算所述獨立權(quán)重:
其中,ei為pi的熵值,
使用如下算式計算所述聯(lián)合權(quán)重:
其中,
可以理解的是,對本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)本發(fā)明的技術(shù)方案及本發(fā)明構(gòu)思加以等同替換或改變,而所有這些改變或替換都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護范圍。