一種面向行為識別的密度適應性聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)識別技術(shù)領(lǐng)域,尤其涉及一種面向行為識別的密度適應性聚類方 法。
【背景技術(shù)】
[0002] 基于密度的聚類方法是基于聚類方法的一個重要分支,其主要通過度量區(qū)域中所 包含的點的數(shù)量來進行聚類。經(jīng)典的基于密度的聚類方法主要有DBSCAN(Density_Based Spatial Clustering of Applications with Noise)和0PSTICS(0rdering Points to Identify the Clustering Structure)。傳統(tǒng)的基于密度的算法的主要優(yōu)點有以下三個方 面。1.對噪音數(shù)據(jù)不敏感,可自動排除噪音數(shù)據(jù)對聚類過程的影響。2.能發(fā)現(xiàn)任意形狀的 簇。由于其聚類過程為典型的迭代擴展過程,因此可以克服基于距離算法只能發(fā)現(xiàn)類圓形 的聚類簇的缺點。3.能發(fā)現(xiàn)任意數(shù)量的聚類簇,事先不需要知道聚類簇的個數(shù)。較為優(yōu)良的 聚類性能使其在科學研究及工程實踐中均具有重要的應用意義。
[0003] 傳統(tǒng)的基于密度的聚類算法使用全局唯一的密度參數(shù)(e,MinPts),因此當數(shù)據(jù)分 布不均勻,即聚類簇間密度差異較大便可能出現(xiàn)一下兩種狀況:1.當密度參數(shù)設(shè)置的過低 時可能會導致離的較近的多個簇被合并成一個簇。2.當密度參數(shù)設(shè)置的過高時,密度較低 的簇則會被視為噪音數(shù)據(jù)。其上述不足限制了其應用范圍。
【發(fā)明內(nèi)容】
[0004] 針對上述缺陷或不足,本發(fā)明提供一種面向行為識別的密度適應性聚類方法,能 夠通過輸入最的最高密度閾值、最低密度閾值和密度層次數(shù)產(chǎn)生多個密度閾值,并在多個 密度閾值上使用修正過的DBSCAN算法對數(shù)據(jù)進行多次聚類。
[0005] 為達到以上目的,本發(fā)明的技術(shù)方案為:
[0006] 包括以下步驟:
[0007] 1)設(shè)定密度層次及最高、最低密度閾值,并根據(jù)所設(shè)定的密度層次及最高、最低密 度閾值計算各個層次上的密度閾值;
[0008] 2)將密度閾值從高到低進行排列,選取密度閾值中最高密度閾值對數(shù)據(jù)進行第一 次聚類,產(chǎn)生聚類族;
[0009] 3)將剩余密度閾值重新從高到底進行排列,選取密度閾值中最高密度閾值對數(shù)據(jù) 進行第i次聚類,產(chǎn)生聚類族;其中,第i次聚類過程產(chǎn)生的聚類簇,在后續(xù)聚類過程中只能 被擴展而不能被分割或者合并到其他簇;滿足當前密度閾值的新簇應該被優(yōu)先提取以避免 與被已存在的簇合并;
[0010] 4)重復步驟3),直到根據(jù)所有的密度閾值將數(shù)據(jù)聚類完成,將所聚類的數(shù)據(jù)進行 行為識別。
[0011]所述步驟1)具體為:
[0012] 設(shè)定密度層次DensityLevel、最低密度閾值(Epsi,MinPtsi),最高密度閾值(Epsh,
[0013] MinPtsh),根據(jù)所設(shè)定的密度層次Density Level,設(shè)定聚類的多個密度閾值(Epsi, MinPtsi),i = l,2,......,其中:
[0014]所述步驟3)中,進行第i次聚類,對定點p的領(lǐng)域數(shù)據(jù)Neighbors進行劃分:
[0015] 1)如果定點p已經(jīng)在前聚類過程中被賦予類標號p.cid則其鄰居應包含:
[0016] a)所有和類標號為p.cid的數(shù)據(jù)點;
[0017] b)所有沒有類標號但滿足:dist(p,q)<EpSl的數(shù)據(jù)點;
[0018]其中,q為沒有類標號的任意數(shù)據(jù)點,dist(p,q)為數(shù)據(jù)點p和q的點-點距。
[0019] 2)如果p并未在先前聚類過程中被賦予類標號則其鄰居應包含:
[0020] 所有沒有類標號但滿足:dist(p,q)<Epsd^數(shù)據(jù)點。與現(xiàn)有技術(shù)比較,本發(fā)明的 技術(shù)方案為:
[0021] 本發(fā)明提供了一種面向行為識別的密度適應性聚類方法,按照由高到低的次序, 從最高密度閾值到最低密度閾值以此對數(shù)據(jù)進行輸入。上一次的聚類過程產(chǎn)生的結(jié)果可以 直接作為下一次的聚類過程的輸入,并在當前密度閾值下對上一次的聚類結(jié)果進行必要的 修正,對聚類過程進行了兩方面的約束,以確保:1.隨著密度閾值的降低,先前聚類過程產(chǎn) 生的較高密度的聚類簇不會被合并;2.滿足當前密度閾值的簇(即應當當初出現(xiàn)的簇)被正 確的發(fā)現(xiàn),而不是合并到先前產(chǎn)生的密度較高的簇當中,因此,本發(fā)明本文的算法就是通過 使用從高到底的多個密度閾值,迭代的對數(shù)據(jù)進行聚類,最終發(fā)現(xiàn)多個密度層次上的聚類 簇,準確的應用于行為識別中,幫助解決實際問題。
【附圖說明】
[0022] 圖1是本發(fā)明面向行為識別的密度適應性聚類方法的流程框圖;
[0023]圖2是MDL-DBSCAN算法聚類過程示意圖;其中,(a)待聚類數(shù)據(jù)點;(b)第一次聚類, 使用最高密度閾值(£1,1丨#^1) = (15,8);((3)第二次聚類,使用密度閾值(£2,1^1^^2)= (10,14)4(1)第三次聚類使用密度閾值( £3此1^83) = (5,20);
[0024]圖3是使用原始DBSCAN聚類軌跡拐點圖一;
[0025]圖4是使用原始DBSCAN聚類軌跡拐點圖二;
[0026] 圖5是使用MDL-DBSCAN算法聚類軌跡拐點,最低密度閾值(enMinPtsiXO.Sel, 4),最高密度閾值(£h,MinPtsh) = (0· 2e_3,20),密度層次DensityLevel = 3。
【具體實施方式】
[0027]下面結(jié)合附圖對本發(fā)明做詳細描述。
[0028] 如圖1所示,本發(fā)明提供了一種面向行為識別的密度適應性聚類方法,包括以下步 驟:
[0029] 1)設(shè)定密度層次及最高、最低密度閾值,并根據(jù)所設(shè)定的密度層次及最高、最低密 度閾值計算各個層次上的密度閾值;
[0030] 所述步驟1)具體為:
[0031] 設(shè)定密度層次DensityLevel、最低密度閾值(£1,1^#^1),最高密度閾值(%, MinPtsh),根據(jù)所設(shè)定的密度層次DensityLevel,設(shè)定聚類的多個密度閾值(£i,MinPtsi),i = 1,2,......,其中:
[0032]
[0033] 2)將密度閾值從高到低進行排列,選取密度閾值中最高密度閾值對數(shù)據(jù)進行第一 次聚類,產(chǎn)生聚類族;
[0034] 3)將剩余密度閾值重新從高到低進行排列,選取密度閾值中最高密度閾值對數(shù)據(jù) 進行第i次聚類,產(chǎn)生聚類族;其中,第i次聚類過程產(chǎn)生的聚類簇,在后續(xù)聚類過程中只能 被擴展而不能被分割或者合并到其他聚類簇中;并且滿足當前密度閾值的簇被優(yōu)先提取出 來;算法依次對數(shù)據(jù)在密度閾值(£i,MinPtsi),i = l,2,......,〇6118;^5^6¥61下聚類,第;[次 聚類的結(jié)果直接作為第i+1次聚類的輸入。
[0035] 為了讓在不同密度閾值上的聚類結(jié)果具有可繼