本發(fā)明涉及數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)
技術(shù)領(lǐng)域:
,具體是基于相對(duì)密度的異常檢測(cè)算法。
背景技術(shù):
:異常檢測(cè)在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中是非常重要的任務(wù)。異常檢測(cè)主要是在大量復(fù)雜的數(shù)據(jù)集中挖掘稀少的模式。在實(shí)際應(yīng)用中異常模式所含有的信息往往比正常模式所含有的信息更加重要,例如在醫(yī)療診斷中挖掘出癌癥病癥(稀少模式)比正常信息要有用。異常檢測(cè)技術(shù)廣泛的應(yīng)用于各種領(lǐng)域,例如網(wǎng)絡(luò)流量入侵,信用卡檢測(cè),醫(yī)療健康檢測(cè)等。機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘已經(jīng)定義了許多異常值檢測(cè)方法,例如基于分布[1],基于距離[2][3],基于密度[4],基于聚類[5][6][7][8]?;诜植嫉漠惓z測(cè)需要先驗(yàn)的知道數(shù)據(jù)服從某種分布,然而在現(xiàn)實(shí)世界中很難得到數(shù)據(jù)的真實(shí)分布。[2]提出一種基于距離的異常檢測(cè)方法,把數(shù)據(jù)點(diǎn)到其k-th近鄰的距離作為該點(diǎn)的異常性。然而這種方法只能夠檢測(cè)到全局異常,對(duì)于局部異常的檢測(cè)就會(huì)失效。[4]提出一種基于密度的異常檢測(cè),為一個(gè)數(shù)據(jù)點(diǎn)分配異常因子根據(jù)他所圍繞的近鄰。異常因子反映了一個(gè)數(shù)據(jù)點(diǎn)與其近鄰的接近程度。這種方法是很好的異常檢測(cè)方法,但是在稀疏的數(shù)據(jù)集上有一定的缺陷性。[3]提出了ldof的方法是用來檢測(cè)稀疏數(shù)據(jù)集中的異常點(diǎn)?;诰垲惖乃枷胧钱惓|c(diǎn)往往出現(xiàn)在小的簇中。首先把數(shù)據(jù)集進(jìn)行聚類,給定一個(gè)閾值,如果簇中的點(diǎn)的個(gè)數(shù)小于所給的閾值則定義為異常。本發(fā)明提出了一種相對(duì)密度的方法,本方法利用數(shù)據(jù)點(diǎn)的近鄰密度與該數(shù)據(jù)點(diǎn)密度的比值來衡量數(shù)據(jù)的異常性。該方法能夠檢測(cè)到局部異常,并且克服了在稀疏密度情況下,基于密度方法效果減弱的問題。本方法對(duì)于異常點(diǎn)的檢測(cè)準(zhǔn)確率更高。參考文獻(xiàn):[1]barnettv,lewist.outliersinstatisticaldata[m].wiley,1974.[2]knoxem,ngrt.algorithmsforminingdistancebasedoutliersinlargedatasets[c]//proceedingsoftheinternationalconferenceonverylargedatabases.1998:392-403.[3]zhangk,hutterm,jinh.anewlocaldistance-basedoutlierdetectionapproachforscatteredreal-worlddata[c]//pacific-asiaconferenceonadvancesinknowledgediscoveryanddatamining.springer-verlag,2009:813-822.[4]breunigmm.lof:identifyingdensity-basedlocaloutliers[c]//acmsigmodinternationalconferenceonmanagementofdata,may16-18,2000,dallas,texas,usa.citeseer,2000:93-104.[5]esterm,kriegelhp,sanderj,etal.adensity-basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[c]//kdd.1996,96(34):226-231.[6]chawlas,gionisa.k-means-:aunifiedapproachtoclusteringandoutlierdetection[c]//proceedingsofthe2013siaminternationalconferenceondatamining.societyforindustrialandappliedmathematics,2013:189-197.[7]huangj,zhuq,yangl,etal.anoveloutlierclusterdetectionalgorithmwithouttop-nparameter[j].knowledge-basedsystems,2017.[8]lucicm,bachemo,krausea.linear-timeoutlierdetectionviasensitivity[j].arxivpreprintarxiv:1605.00519,2016.技術(shù)實(shí)現(xiàn)要素:本發(fā)明要解決的問題是提供一種基于相對(duì)密度的異常檢測(cè)算法,該算法采用基于相對(duì)密度的方式,假如數(shù)據(jù)點(diǎn)的密度與其近鄰之間的密度的差異性較大,則該數(shù)據(jù)點(diǎn)的異常性高,在本方法中我們使用的是數(shù)據(jù)點(diǎn)的近鄰密度與該點(diǎn)密度的比值來衡量該點(diǎn)的異常性。該比值越大則其異常性越高。如圖1所示,本發(fā)明公開的基于相對(duì)密度的異常檢測(cè)算法,包括以下步驟:步驟1)確定算法輸入變量,包括待檢測(cè)的無標(biāo)記樣本集d,最近鄰的個(gè)數(shù)k,根據(jù)先驗(yàn)知識(shí)獲得的異常點(diǎn)的個(gè)數(shù)n;步驟2)將數(shù)據(jù)集d歸一化,使得每個(gè)屬性的取值在[0,1]之間,歸一化的數(shù)據(jù)集記為d′;步驟3)數(shù)據(jù)d′中給定的樣本點(diǎn)p,根據(jù)距離函數(shù)dist(),獲取點(diǎn)p的k個(gè)最近鄰nk(p);步驟4)計(jì)算點(diǎn)p到nk(p)中所有的點(diǎn)的平均距離則根據(jù)distknn(p)可以計(jì)算點(diǎn)p的密度density(p)=1/distknn(p);步驟5)對(duì)于集合nk(p)中的每一個(gè)數(shù)據(jù)點(diǎn)o∈nk(p),分別計(jì)算其則可以計(jì)算點(diǎn)p的近鄰密度步驟6)計(jì)算點(diǎn)p的相對(duì)密度rdensity(p)=nn_density(p)/density(p);步驟7)數(shù)據(jù)集d′中的所有的樣本都計(jì)算其rdensity,可得到一個(gè)rdensities[]數(shù)組;步驟8)將rdensities[]中的元素按照降序排列得到一個(gè)sorted_rdensities[]數(shù)組;步驟8)選取sorted_rdensities[]中top-n個(gè)樣本將其定義為異常點(diǎn)。進(jìn)一步,所述步驟1)中,k的選取對(duì)預(yù)測(cè)有一定的影響,我們這里k從[50,200]隨機(jī)取值。本發(fā)明的有益效果是:本發(fā)明基于相對(duì)密度的異常檢測(cè)算法,采用數(shù)據(jù)點(diǎn)的密度與其近鄰密度之間的差異性來衡量該數(shù)據(jù)點(diǎn)的異常性,同傳統(tǒng)的異常檢測(cè)算法相比,基于相對(duì)密度的異常檢測(cè)算法具有更高的準(zhǔn)確性和魯棒性,本方法不僅能檢測(cè)到全局異常,還能夠檢測(cè)到局部異常,因此能夠滿足不同類型數(shù)據(jù)和異常的要求。本發(fā)明的異常檢測(cè)算法解決了現(xiàn)有異常檢測(cè)算法識(shí)別準(zhǔn)確率不高的問題,保證了異常識(shí)別的高準(zhǔn)確度。附圖說明圖1為本發(fā)明基于相對(duì)密度的異常檢測(cè)流程圖。具體實(shí)施方式下面結(jié)合附圖,對(duì)本發(fā)明提出的一種基于相對(duì)密度的異常檢測(cè)算法進(jìn)行詳細(xì)說明。如圖1所示,本發(fā)明的基于相對(duì)密度的異常檢測(cè)算法,包括以下步驟:步驟1)確定算法輸入變量,包括待檢測(cè)的無標(biāo)記樣本集d,最近鄰的個(gè)數(shù)k,k從[50,200]隨機(jī)選擇,根據(jù)先驗(yàn)知識(shí)獲得的異常點(diǎn)的個(gè)數(shù)n;步驟2)數(shù)據(jù)d中給定的樣本點(diǎn)p,根據(jù)距離函數(shù)dist(),該距離函數(shù)為歐式距離,獲取點(diǎn)p的k個(gè)最近鄰nk(p);步驟3)計(jì)算點(diǎn)p到nk(p)中所有的點(diǎn)的平均距離distknn(p),則根據(jù)distknn(p)可以計(jì)算點(diǎn)p的密度density(p);步驟4)對(duì)于集合nk(p)中的每一個(gè)數(shù)據(jù)點(diǎn)o∈nk(p),分別計(jì)算其distknn(o),則可以計(jì)算點(diǎn)p的近鄰密度nn_density(p);步驟5)計(jì)算點(diǎn)p的相對(duì)密度rdensity(p);步驟6)數(shù)據(jù)集d中的所有的樣本都計(jì)算其rdensity,可得到一個(gè)rdensities[]數(shù)組;步驟7)將rdensities[]中的元素按照降序排列得到一個(gè)sorted_rdensities[]數(shù)組;步驟8)選取sorted_rdensities[]中top-n個(gè)樣本將其定義為異常點(diǎn)。以下詳細(xì)地描述本發(fā)明對(duì)uci數(shù)據(jù)庫(kù)中6組數(shù)據(jù)和一組人工合成的數(shù)據(jù)的測(cè)試結(jié)果同其他異常檢測(cè)方法相比準(zhǔn)確性的改進(jìn)。本發(fā)明提出的異常檢測(cè)與目前最為流行的lof和ldof進(jìn)行了比較。因?yàn)樵紆ci數(shù)據(jù)庫(kù)中數(shù)據(jù)存在標(biāo)簽,本實(shí)施例中,我們?nèi)藶榈膶?shù)據(jù)標(biāo)簽去除。本實(shí)例中,異常檢測(cè)算法的性能使用auc和recall來衡量。auc和recall的值越高則算法的性能越好。表1-數(shù)據(jù)集數(shù)據(jù)集樣本數(shù)(m)異常個(gè)數(shù)(n)維數(shù)(d)arrhythmia420183277ionosphere35112634pim7682688wdbc56921230glass2146810handwritten159365255synth24862算法中的參數(shù)設(shè)置如下:對(duì)于lof和ldof中的參數(shù)k的選取,我們使用的是該算法作者常用的或者是建議的取值。lof中k=5,ldof中k應(yīng)該大于等于其維數(shù)[3][8],在本發(fā)明中我們?nèi)為數(shù)據(jù)的維數(shù)。本發(fā)明中參數(shù)k從[50,200]隨機(jī)取值,重復(fù)十次上述步驟,最終結(jié)果取平均值。我們的方法定義為rdof(relativedensity-basedoutlierfactor)。表2-三種異常檢測(cè)方法的auc值,結(jié)果如下。加粗的為最優(yōu)值lofldofrdofarrhythmia0.70820.70590.7407ionosphere0.83530.87090.8798pim0.57680.56010.6273wdbc0.53890.52900.5644glass0.54870.59800.7653handwritten0.53650.56250.5542synth1.00000.89811.0000average0.77680.74920.7889表2-三種異常檢測(cè)方法的recall值,結(jié)果如下。加粗的為最優(yōu)值為了排除k對(duì)實(shí)驗(yàn)結(jié)果的影響,我們?nèi)=5、20、30、50、100、200,在數(shù)據(jù)集ionosphere上比較各個(gè)算法。表3-在數(shù)據(jù)集ionosphsre上,不同的k取值下,三種異常檢測(cè)方法的auc值lofldofrdof50.835270.71360.8220200.86430.85210.8615300.88920.86550.8711500.85720.87990.88691000.85720.87660.84932000.74280.85250.8624average0.8410.8500.8624以上表2中顯示,在實(shí)驗(yàn)用的7個(gè)數(shù)據(jù)上,本發(fā)明提出的算法穩(wěn)定的優(yōu)于傳統(tǒng)的兩種算法。根據(jù)表3中顯示,在數(shù)據(jù)集ionosphere上基于k取值5,20,30,50,100,200的情況下,最終結(jié)果取平均值,本發(fā)明提出的算法略優(yōu)于lof算法和ldof算法。綜上所述,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。當(dāng)前第1頁(yè)12