欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大數(shù)據(jù)異常點檢測方法及其系統(tǒng)與流程

文檔序號:11407416閱讀:4646來源:國知局
大數(shù)據(jù)異常點檢測方法及其系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種大數(shù)據(jù)異常點檢測方法及其系統(tǒng)。



背景技術(shù):

在大數(shù)據(jù)時代,數(shù)據(jù)的質(zhì)量直接影響大數(shù)據(jù)分析處理方法的效果,也影響決策過程。通過分析海量數(shù)據(jù),可以從中發(fā)現(xiàn)數(shù)據(jù)集中隱含的模式和規(guī)律。但數(shù)據(jù)集中的異常數(shù)據(jù)會對分析過程產(chǎn)生重大干擾,因此通過數(shù)據(jù)挖掘方法對大數(shù)據(jù)進行利用的研究領(lǐng)域中,數(shù)據(jù)異常檢測已成為熱門研究。

在大數(shù)據(jù)中的異常數(shù)據(jù)存在如下特點:1.與正常數(shù)據(jù)的表現(xiàn)有明顯的差異;2.其產(chǎn)生機制與正常數(shù)據(jù)不同,可能為未知方式;3.數(shù)據(jù)維度較高,異常數(shù)據(jù)與正常數(shù)據(jù)一樣,都是高維數(shù)據(jù)。

由于高維數(shù)據(jù)集中的數(shù)據(jù)點在高維空間內(nèi)的分布有著稀疏性。因此,傳統(tǒng)方法無法處理大數(shù)據(jù)中的異常數(shù)據(jù)檢測問題。在現(xiàn)有高維異常數(shù)據(jù)檢測方法中,通常可以采用數(shù)據(jù)點間的歐氏空間距離作為指標(biāo)來判斷數(shù)據(jù)的異常性,是否屬于異常數(shù)據(jù)。

但由于高維數(shù)據(jù)在高維空間上的距離無法作為有效指標(biāo)來進行衡量。進一步的,有些方案則引入余弦角度來代替歐氏距離作為指標(biāo),但這個方法的時間復(fù)雜度隨著數(shù)據(jù)集的增大,急劇增大,同時通常的角度對比方法在非圓的數(shù)據(jù)集上不能很好地工作。

因此,現(xiàn)有技術(shù)還有待發(fā)展。



技術(shù)實現(xiàn)要素:

鑒于上述現(xiàn)有技術(shù)的不足之處,本發(fā)明的目的在于提供大數(shù)據(jù)異常點檢測方法及其系統(tǒng),旨在解決現(xiàn)有技術(shù)中數(shù)據(jù)異常點檢測效果不佳的問題。

為了達(dá)到上述目的,本發(fā)明采取了以下技術(shù)方案:

一種大數(shù)據(jù)異常點檢測方法,其中,所述方法包括:

計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;

移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性;

在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果;

將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊;

在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊;

計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;

在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。

所述的方法,其中,所述第二預(yù)定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。

所述的方法,其中,所述方法還包括:

確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;

根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;

將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標(biāo)準(zhǔn)切塊。

所述的方法,其中,所述計算高維數(shù)據(jù)的維度屬性權(quán)重,具體包括:

使用如下算式計算所述維度屬性權(quán)重:

其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

所述的方法,其中,使用如下算式計算所述獨立權(quán)重:

其中,ei為pi的熵值,為維度屬性pi的第j個屬性值;并且,

使用如下算式計算所述聯(lián)合權(quán)重:

其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

一種大數(shù)據(jù)異常點檢測系統(tǒng),其中,包括:

約簡降維模塊,用于計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;以及移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性;

數(shù)據(jù)集切分模塊,用于在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果;將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊;以及在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊;

異常數(shù)據(jù)判斷模塊,用于計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;以及在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。

所述的系統(tǒng),其中,所述第二預(yù)定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。

所述的系統(tǒng),其中,所述數(shù)據(jù)集切分模塊還用于:確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;以及將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標(biāo)準(zhǔn)切塊。

所述的系統(tǒng),其中,所述約簡降維模塊具體用于:使用如下算式計算所述維度屬性權(quán)重:

其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

所述的系統(tǒng),其中,所述約簡降維模塊具體用于:使用如下算式計算所述獨立權(quán)重:

其中,ei為pi的熵值,為維度屬性pi的第j個屬性值;并且,

使用如下算式計算所述聯(lián)合權(quán)重:

其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

有益效果:本發(fā)明提供的大數(shù)據(jù)異常點檢測方法及其系統(tǒng),基于數(shù)據(jù)區(qū)域切分和約簡降維的思想,有效克服了現(xiàn)有異常數(shù)據(jù)檢測方法,在處理大規(guī)模高維數(shù)據(jù)時,時間復(fù)雜度過高及效果不理想的弊端,處理大規(guī)模高維數(shù)據(jù)集中的異常點檢測這樣的復(fù)雜問題具有較好的效果。

附圖說明

圖1為本發(fā)明實施例提供的大數(shù)據(jù)異常點檢測方法的方法流程圖;

圖2為本發(fā)明實施例提供的二維平面區(qū)塊圖;

圖3為本發(fā)明實施例提供的相鄰數(shù)據(jù)區(qū)塊圖;

圖4為本發(fā)明實施例提供的大數(shù)據(jù)異常點檢測系統(tǒng)的功能框圖。

具體實施方式

本發(fā)明提供大數(shù)據(jù)異常點檢測方法及其系統(tǒng)。為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下參照附圖并舉實施例對本發(fā)明進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

如圖1所示,為本發(fā)明實施例提供的一種大數(shù)據(jù)異常點檢測方法的方法流程圖。所述方法包括如下步驟:

100、計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性。

200、移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性。

步驟100和200屬于預(yù)處理的過程,大數(shù)據(jù)通常包含高維數(shù)據(jù),其特性是維度屬性較多。令pi表示第i維上的屬性,根據(jù)分析需要的不同,各維度屬性的重要性也不相同。因此,在進行異常點檢測前,可以首先根據(jù)屬性的權(quán)重來去除一些冗余屬性,進行約簡降維。

基于在高維數(shù)據(jù)中,維度屬性間存在著一定的相關(guān)關(guān)系,不同維度屬性之間的權(quán)重會受其它屬性的影響的考慮,在本發(fā)明實施例中,具體可以采用如下方法計算維度屬性權(quán)重:

設(shè)對于高維數(shù)據(jù)集d,p={p1,p2,…,pi,…,pn}為其維度屬性集合,n為長度,對于維度屬性集合中的某個維度屬性pi的權(quán)重r(pi)可以通過算式(1)計算獲得:

其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性。ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重,rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

對于獨立權(quán)重,可以使用算式(2)計算獲得:

其中,ei為pi的熵值,為維度屬性pi的第j個屬性值。

對于聯(lián)合權(quán)重,可以使用算式(3)計算獲得:

其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

在計算獲得所述維度屬性權(quán)重后,可以根據(jù)實際情況的需要,設(shè)置合適的閾值用以篩選或者移除一些維度屬性,實現(xiàn)約簡降維。對于小于閾值的維度屬性,將其移出集合,降低后續(xù)操作的開銷。較佳的,第一預(yù)定閾值η設(shè)置為η∈[0.2,0.25]時,具有較為理想的篩選效果。

300、在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果。

進一步的,對于該數(shù)據(jù)集d,各個維度屬性上均會存在有數(shù)據(jù)相對集中的區(qū)間可以令整個數(shù)據(jù)集d的數(shù)據(jù)密集,在一些實施例中,可以選擇r中體積最小的超矩形作為標(biāo)準(zhǔn)切塊,按照標(biāo)準(zhǔn)切塊各個維度的長度li對于數(shù)據(jù)集d進行劃分。

400、將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊。在劃分后,可以通過將數(shù)據(jù)投射到二維平面的方法,獲得對應(yīng)的二維平面區(qū)塊reci。

500、在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊。

圖2為本發(fā)明實施例提供的二維平面區(qū)塊的示意圖。如圖2所示,不同的二維平面區(qū)塊的數(shù)據(jù)密度情況有異??梢酝ㄟ^算式(4)計算某個二維平面區(qū)塊的數(shù)據(jù)密度:

其中,count(reci),acr(reci)分別為reci包含的數(shù)據(jù)點數(shù)量和區(qū)塊面積。當(dāng)數(shù)據(jù)密度大于一定閾值時,將該區(qū)塊標(biāo)記為正常區(qū)塊。在一些實施例中,所述閾值可以取所有區(qū)塊的平均數(shù)據(jù)密度。

在獲得至少一個正常區(qū)塊后,可以使用一定的策略完成對于數(shù)據(jù)集區(qū)塊的判斷(即擴展正常區(qū)塊)。例如,如圖3所示,若正常區(qū)塊的相鄰區(qū)塊密度也滿足上述條件,則可以將其加入到連續(xù)的正常區(qū)塊隊列中。

600、計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子。

在步驟500的正常區(qū)塊劃分完成后,在數(shù)據(jù)集d中可以得到多個連續(xù)的正常數(shù)據(jù)區(qū)塊。確定不在這些正常數(shù)據(jù)區(qū)塊內(nèi)的數(shù)據(jù)點并回到高維空間,計算這些數(shù)據(jù)點的角度方差因子。

在一些實施例中,可以通過算式(5)計算所述角度方差因子:

其中,xixk為數(shù)據(jù)點xi和xk的向量差,xi和xj落在正常數(shù)據(jù)區(qū)塊reci內(nèi),xk落在正常數(shù)據(jù)區(qū)塊外。

700、在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。計算獲得角度方差因子后,同樣也可以通過設(shè)置第三預(yù)定閾值,確定是否屬于異常數(shù)據(jù)。

本發(fā)明實施例還提供了一種大數(shù)據(jù)異常點檢測系統(tǒng)。如圖4所示,所述系統(tǒng)包括:約簡降維模塊100,用于計算高維數(shù)據(jù)的維度屬性權(quán)重,所述高維數(shù)據(jù)具有若干維度屬性;以及移除所述維度屬性權(quán)重低于第一預(yù)定閾值的維度屬性。數(shù)據(jù)集切分模塊200,用于在所述高維數(shù)據(jù)組成的數(shù)據(jù)集中,使用標(biāo)準(zhǔn)切塊劃分所述數(shù)據(jù)集,獲得與數(shù)據(jù)分布相關(guān)的劃分結(jié)果;將所述高維數(shù)據(jù)投射到二維平面,獲得與所述劃分結(jié)果對應(yīng)的二維平面區(qū)塊;以及在所述二維平面區(qū)塊的數(shù)據(jù)密度大于第二預(yù)定閾值時,確定為正常區(qū)塊。異常數(shù)據(jù)判斷模塊300,用于計算不屬于所述正常區(qū)塊的高維數(shù)據(jù)的角度方差因子;以及在所述角度方差因子大于第三預(yù)定閾值時,標(biāo)記所述高維數(shù)據(jù)為異常數(shù)據(jù)。

具體的,所述第二預(yù)定閾值為所有二維平面區(qū)塊的數(shù)據(jù)密度的平均值。

在本發(fā)明另一些實施例中,所述數(shù)據(jù)集切分模塊200還用于:確定所述數(shù)據(jù)集在各維度屬性上的數(shù)據(jù)密集區(qū)間;根據(jù)所述數(shù)據(jù)密集區(qū)間獲得所述數(shù)據(jù)集的若干個數(shù)據(jù)密集;以及將所述數(shù)據(jù)密集中體積最小的超矩形作為所述標(biāo)準(zhǔn)切塊。

所述約簡降維模塊100具體用于:使用如下算式計算所述維度屬性權(quán)重:

其中,r(pi)為所述維度屬性權(quán)重,pi,pi分別第i個和第j個維度屬性,ru(pi)為第i個維度屬性在不考慮與其它維度屬性相關(guān)關(guān)系時的獨立權(quán)重;rc(pi,pj)為第i個和第j個維度屬性的聯(lián)合權(quán)重。

可選地,使用如下算式計算所述獨立權(quán)重:

其中,ei為pi的熵值,為維度屬性pi的第j個屬性值;并且,

使用如下算式計算所述聯(lián)合權(quán)重:

其中,xi∈pi表示xi是維度屬性pi的其中一個值;q(xi)為xi的概率密度,q(xi,xj)為xi和xj的聯(lián)合概率密度。

可以理解的是,對本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)本發(fā)明的技術(shù)方案及本發(fā)明構(gòu)思加以等同替換或改變,而所有這些改變或替換都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
申扎县| 和龙市| 镇坪县| 阳高县| 开化县| 宜兴市| 马公市| 乌鲁木齐县| 镇巴县| 宾阳县| 历史| 句容市| 仙桃市| 都江堰市| 彭山县| 南部县| 隆回县| 余姚市| 沙坪坝区| 济宁市| 高邑县| 广宗县| 乾安县| 噶尔县| 海门市| 噶尔县| 凯里市| 海南省| 海晏县| 日土县| 正宁县| 贵南县| 绿春县| 临夏县| 高邑县| 丰城市| 江源县| 慈利县| 石首市| 汶川县| 永嘉县|