一種基于多維向量熵隨機(jī)采樣的異常識別方法
【專利摘要】本發(fā)明提供了一種基于多維向量熵隨機(jī)采樣的異常識別方法,該方法包括以下步驟:I、從樣本空間Ω中樣本點選取采樣點,生成子樣本空間ω;II、確定所述樣本點的多維向量熵;III、重復(fù)上述步驟,確定所述樣本點多維向量熵的融合結(jié)果;IV、確定所述樣本點的異常程度;V、確定異常點。該方法通過融合隨機(jī)采樣的樣本點,解決大規(guī)模數(shù)據(jù)中的異常識別面臨的樣本量大、維度高等問題,該方法不僅能降低異常識別的時間復(fù)雜度,提高識別效果的準(zhǔn)確性,還具有較強(qiáng)的擴(kuò)展性。
【專利說明】-種基于多維向量賄隨機(jī)采樣的異常識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種異常識別領(lǐng)域的方法,具體講設(shè)及一種基于多維向量滴隨機(jī)采樣 的異常識別方法。
【背景技術(shù)】
[0002] 異常識別是指從一組相關(guān)數(shù)據(jù)中找出具有遠(yuǎn)離總體的孤點或異常點,該些異常點 是既不屬于聚類也不屬于背景噪聲的點,它們往往是由完全不同的機(jī)制所產(chǎn)生。當(dāng)前,異常 識別作為一種重要的數(shù)據(jù)挖掘和分析方法,已經(jīng)廣泛應(yīng)用在電信詐騙、信用卡濫用、貸款審 批、藥物研究、醫(yī)療分析、消費者行為分析、氣象預(yù)報、金融領(lǐng)域客戶分類、網(wǎng)絡(luò)入侵檢測等 領(lǐng)域。
[0003] 現(xiàn)有技術(shù)中,異常識別的方法主要包括基于統(tǒng)計的異常識別方法、基于距離的異 常識別方法和基于密度的異常識別方法和基于聚類的異常識別方法四種,下面分別介紹。
[0004] (1)基于統(tǒng)計的異常識別方法
[0005] 統(tǒng)計學(xué)方法是基于模型的方法,即為數(shù)據(jù)創(chuàng)建一個模型,并且根據(jù)對象擬合模型 的情況來評估它們有多大可能符合該模型。從20世紀(jì)80年代起,異常點識別在統(tǒng)計學(xué)領(lǐng) 域里得到廣泛研究,通常用戶用某個統(tǒng)計分布對數(shù)據(jù)點進(jìn)行建模,再W假定的模型,根據(jù)點 的分布來確定是否異常。諸如,在統(tǒng)計學(xué)中,假設(shè)數(shù)據(jù)集服從正態(tài)分布,那些與均值之間的 偏差達(dá)到或超過3倍標(biāo)準(zhǔn)差的數(shù)據(jù)對象就可稱之為異常值。根據(jù)該個定律,可W衍生出一 系列基于統(tǒng)計的異常識別方法。
[0006] 基于統(tǒng)計的異常識別方法往往存在W下缺點;首先,基于統(tǒng)計方法的前提是必須 知道數(shù)據(jù)集服從什么分布,如果估計錯誤就造成了重尾分布,影響識別結(jié)果;其次,該方法 只能識別單個變量,即每次識別只能局限于單個指標(biāo),無法結(jié)合多指標(biāo)進(jìn)行分析,因此無法 分析高維數(shù)據(jù)。
[0007] (2)基于距離的異常識別方法。
[000引基于距離的異常識別方法認(rèn)為,如果一個對象遠(yuǎn)離大部分點,那么它就是異常的。 該種方法比統(tǒng)計學(xué)方法更一般、更容易使用,因為確定數(shù)據(jù)集的點對之間的距離比確定它 的統(tǒng)計分布更容易。一個對象的異常程度得分通??蒞由到它的K個最近鄰的距離給定。 該方法通常對最近鄰個數(shù)K的選擇較為敏感,如果K太小,則異常得分可能不準(zhǔn)確;如果K 太大,則正常點也可能被識別為異常點。通??蒞選取K個最近鄰的平均距離作為異常得 分。
[0009] 基于統(tǒng)計的異常識別方法往往存在W下缺點:首先,該方法的時間復(fù)雜度多在 0 (n2),難W適用于大數(shù)據(jù)集;其次,該方法對參數(shù)的選擇比較敏感,容易影響最終的識別 結(jié)果;同時,由于該方法使用全局的闊值,因此不能處理具有不同密度區(qū)域的數(shù)據(jù)集。
[0010] (3)基于密度的異常識別方法。
[0011] 從基于密度的觀點來說,異常點是在低密度區(qū)域中的對象。一個對象的異常程度 通常得分是該對象周圍密度的逆。基于密度的異常點識別與基于距離的異常識別密切相 關(guān),因為密度通常用最近鄰的距離來定義,一種常用的定義密度的方法是,定義密度為到K 個最近鄰的平均距離的倒數(shù)。特殊地,當(dāng)數(shù)據(jù)包含不同密度的區(qū)域時,它們不能正確的識別 異常點,因此后續(xù)又延伸出局部密度檢測技術(shù)來判斷異常點,
[0012] 基于密度的異常識別方法往往存在W下缺點:首先,與基于距離的方法一樣,該方 法的時間復(fù)雜度較高,對大數(shù)據(jù)集的處理十分困難;其次,該方法對參數(shù)的選擇比較敏感, 也容易影響最終的識別結(jié)果。
[0013] (4)基于聚類的異常識別方法
[0014] 如果一個對象不強(qiáng)屬于任何簇,那么該對象被定義為基于聚類的異常點。利用聚 類技術(shù)異常點,通常采用丟棄遠(yuǎn)離其他簇的小簇的方法,該個方法也可W和其他任何聚類 技術(shù)一起使用,但是需要最小簇大小和小簇與其他簇之間距離的闊值,因此,它對簇個數(shù)的 選擇高度敏感。如果較小的簇也是高度內(nèi)聚的,那么基于聚類的異常識別方法將無法檢測 出該種異常點。但該種方法可W利用基于線性和接近線性復(fù)雜度的聚類技術(shù)來發(fā)現(xiàn)異常 點,因此時間復(fù)雜度較低。
[0015] 基于聚類的異常識別方法往往存在W下缺點;首先,聚類算法產(chǎn)生的簇的質(zhì)量對 該算法產(chǎn)生的異常點的質(zhì)量影響非常大;其次,生成的異常點集合和它們的得分可能非常 依賴所用的簇的個數(shù)和數(shù)據(jù)中異常點的存在性。該些都會增加異常識別的難度。
[0016] 綜上,可W看出;基于統(tǒng)計的異常識別應(yīng)用主要局限于科研數(shù)據(jù)統(tǒng)計,該主要是因 為必須事先知道數(shù)據(jù)的分布特征該就限制了它的應(yīng)用范圍?;诰嚯x的異常識別方法跟基 于統(tǒng)計的異常識別方法相比,不需要用戶擁有任何領(lǐng)域知識。而且,距離異常更加接近于的 異常點形成的本質(zhì)原因。基于密度的異常識別是基于距離的異常識別方法的一種延伸,針 對局部異常點的識別更加有效。局部異常識別則更加符合現(xiàn)實生活中的真實應(yīng)用?;诰?類的異常識別技術(shù)往往依賴于本身的聚類算法的聚類質(zhì)量和時間消耗。
[0017] 然而,隨著樣本數(shù)據(jù)量的增大,也對異常識別提出了更大的挑戰(zhàn),上述四種異常識 別方法存在時間開銷大,高維空間中應(yīng)用受限等缺點?,F(xiàn)有技術(shù)中的異常識別方法針對小 樣本數(shù)據(jù)集,時間復(fù)雜度多在0 (n2)或0 (n3);而大規(guī)模數(shù)據(jù)下,該種時間開銷可能難W接 受。另外,維度的增大也帶來了另一個"維災(zāi)難"問題,即數(shù)據(jù)在其所占據(jù)的空間中越來越 稀疏,樣本點之間的距離幾乎相等,導(dǎo)致很多基于距離和基于密度的計算指標(biāo)失去了意義。 因此,需要提供一種高效、準(zhǔn)確的異常點識別方法。
【發(fā)明內(nèi)容】
[0018] 為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于多維向量滴隨機(jī)采樣的異常識 別方法。
[0019] 實現(xiàn)上述目的所采用的解決方案為:
[0020] 一種基于多維向量滴隨機(jī)采樣的異常識別方法,其改進(jìn)之處在于;所述方法包括 W下步驟:
[0021] I、從樣本空間Q中樣本點選取采樣點,生成子樣本空間《 ;
[0022] II、確定所述樣本點的多維向量滴;
[0023] III、重復(fù)上述步驟,確定所述樣本點多維向量滴的融合結(jié)果;
[0024] IV、確定所述樣本點的異常程度;
[0025] V、確定異常點。
[0026] 進(jìn)一步的,所述步驟I中,確定所述樣本空間中的樣本點的個數(shù)N;
[0027] 運用采樣方法在所述樣本點中確定「0.1AH個所述采樣點,根據(jù)所述采樣點生成所 述子樣本空間
[002引進(jìn)一步的,所述采樣方法為隨機(jī)采樣法。
[0029] 進(jìn)一步的,所述步驟II中包括W下步驟:
[0030] S201、確定所述樣本空間Q的樣本點與所述子樣本空間《的采樣點構(gòu)成的向 量;
[0031] S202、確定各所述樣本點到各所述采樣點之間的多維向量滴。
[0032] 進(jìn)一步的,按下式確定各所述樣本點到各所述采樣點之間的所述多維向量滴 巫(A);
[0033]
【權(quán)利要求】
1. 一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于:所述方法包括以下步 驟:
1. 從樣本空間D中樣本點選取采樣點,生成子樣本空間《 ; II、 確定所述樣本點的多維向量熵; III、 重復(fù)上述步驟,確定所述樣本點多維向量熵的融合結(jié)果; IV、 確定所述樣本點的異常程度; V、 確定異常點。
2. 如權(quán)利要求1所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 所述步驟I中,確定所述樣本空間中的樣本點的個數(shù)N; 運用采樣方法在所述樣本點中確定個所述采樣點,根據(jù)所述采樣點生成所述子 樣本空間《。
3. 如權(quán)利要求2所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 所述采樣方法為隨機(jī)采樣法。
4. 如權(quán)利要求1所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 所述步驟II中包括以下步驟: 5201、 確定所述樣本空間D的樣本點與所述子樣本空間《的采樣點構(gòu)成的向量; 5202、 確定各所述樣本點到各所述采樣點之間的多維向量熵。
5. 如權(quán)利要求4所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 按下式確定各所述樣本點到各所述采樣點之間的所述多維向量熵? (A):
式中,A為任一所述樣本點;? (A)為樣本點A的多維向量熵; 供(3,_)為向量或的向量熵; 孓為以所述樣本點A為原點和以各所述采樣點為終點的任意向量,忒=(〇:,〇;,...,<); Kl為向量的模; d為所述樣本點的維數(shù); ?/為向量A的第j維屬性,若屬性值為負(fù)數(shù),則取絕對值計算多維向量熵; n為所述子樣本空間《中采樣點的個數(shù),N為所述樣本空間Q中樣本點的 個數(shù)。
6. 如權(quán)利要求1所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 所述步驟III中包括以下步驟: 5301、 重復(fù)次數(shù)為K次,針對各所述樣本點均獲得K個多維向量熵;K的范圍為 10彡K彡20 ; 5302、 采用平均值融合策略融合所述K個多維向量熵,確定所述樣本點的多維向量熵 的平均值作為所述樣本點的融合值。
7. 如權(quán)利要求6所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 重復(fù)K次步驟I,獲得K個所述子樣本空間《滿足以下要求: 所述K個子樣本空間《的并集為所述樣本空間D的全集。
8. 如權(quán)利要求1所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 所述步驟IV中,將所述樣本點的融合值排序,根據(jù)所述融合值確定所述樣本空間D中樣本 點的異常程度。
9. 如權(quán)利要求8所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 所述融合值的分值越高,所述樣本點的異常程度越高,反之異常程度越低。
10. 如權(quán)利要求1所述的一種基于多維向量熵隨機(jī)采樣的異常識別方法,其特征在于: 所述步驟V中,根據(jù)所述樣本點的多維向量熵融合值的閾值判斷所述樣本點為異常點或正 常點; 若所述多維向量熵融合值大于或等于閾值,判斷該樣本點為異常點,反之為正常點。
【文檔編號】G06F19/00GK104504233SQ201410646085
【公開日】2015年4月8日 申請日期:2014年11月14日 優(yōu)先權(quán)日:2014年11月14日
【發(fā)明者】張玉超, 鄧波, 彭甫陽, 李海龍, 李冬紅, 齊超 申請人:北京系統(tǒng)工程研究所