基于聚簇的支持向量數(shù)據(jù)描述改進算法

文檔序號：10535380閱讀：1555來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于聚簇的支持向量數(shù)據(jù)描述改進算法
【專利摘要】本發(fā)明提供一種基于聚簇的支持向量數(shù)據(jù)描述改進算法，首先利用核函數(shù)計算訓(xùn)練樣本在核空間中相互之間的距離，接著通過所得的結(jié)果計算訓(xùn)練樣本的聚簇中心樣本并通過每個樣本到聚簇中心的距離計算樣本權(quán)重，然后設(shè)計一種加權(quán)的支持向量數(shù)據(jù)描述方法得到所需的超球體作為決策邊界，之后對測試樣本進行判別，若測試樣本位于超球體之內(nèi)則判為目標(biāo)類樣本，反之則判為異常類樣本。相較于傳統(tǒng)的支持向量數(shù)據(jù)描述算法，本發(fā)明的基于聚簇的支持向量數(shù)據(jù)描述改進算法通過該權(quán)重因子引入了基于樣本分布信息的簇中心算法，根據(jù)樣本到簇中心的距離計算得到權(quán)重因子，實現(xiàn)了對原始支持向量數(shù)據(jù)描述方法決策邊界優(yōu)化的改進，能夠有效地對單類的數(shù)據(jù)集有更加準(zhǔn)確的數(shù)據(jù)分類描述。
【專利說明】
基于聚簇的支持向量數(shù)據(jù)描述改進算法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于機器學(xué)習(xí)領(lǐng)域，特別涉及一種基于聚簇的支持向量數(shù)據(jù)描述改進算法。
【背景技術(shù)】
[0002] 支持向量數(shù)據(jù)描述（Support Vector Data Description，SVDD)是由Tax在2001 年提出的一種基于邊界的單類分類算法，其應(yīng)用領(lǐng)域在不斷被推廣，單類分類能夠區(qū)分異常樣本的情況，故此SVDD比較適合異常檢測的問題，其在各種異常檢測應(yīng)用中有著非常顯著地效果。
[0003] SVDD算法在對目標(biāo)數(shù)據(jù)進行描述時，首先將樣本通過核函數(shù)映射到和空間中，然后用一個超球體去包含盡量多的目標(biāo)數(shù)據(jù)，并要求最終的超球體半徑盡可能小。在進行分類判斷時，若測試數(shù)據(jù)點位于超球體外，則此數(shù)據(jù)點視做異常點，反之，則為目標(biāo)數(shù)據(jù)。
[0004] SVDD分類器是一種廣泛使用的單類分類分類器。SVDD利用樣本在核空間中樣本到球形邊界的距離，而沒有考慮樣本的分布密度信息，這有可能會導(dǎo)致聚簇中心附近的樣本沒有包含于超球體的情況，即出現(xiàn)較低分類精度的情況。為了解決這個缺陷，我們提出了一種基于聚簇的加權(quán)SVDD算法，該算法在原始的SVDD訓(xùn)練過程中考慮樣本的分布密度，并利用聚簇中心對樣本進行加權(quán)處理，提高了原始的SVDD算法的分類精度。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明要解決的技術(shù)問題在于針對SVDD算法沒有充分利用樣本信息的特點而提出的一種基于聚簇的支持向量數(shù)據(jù)描述算法。
[0006] 本算法的目標(biāo)是盡量在原有的支持向量數(shù)據(jù)描述方法中提高對樣本信息的利用從而達到提高分類精度的目的，主要步驟是：步驟1:利用樣本之間的相互距離計算訓(xùn)練樣本在核空間中的聚簇中心樣本；步驟2:根據(jù)樣本到聚簇中心樣本的距離對訓(xùn)練樣本進行加權(quán)處理；步驟3:對原始的支持向量數(shù)據(jù)描述方法進行加權(quán)設(shè)計，利用步驟2所得樣本權(quán)重計算得到支持向量的決策邊界，即一個封閉的超球體；步驟4:對測試樣本進行目標(biāo)類的判別，若測試樣本位于超球體之內(nèi)則判為目標(biāo)類樣本，反之則判為異常類樣本。
[0007] 本發(fā)明解決的技術(shù)問題所采用的技術(shù)方案還可以進一步完善。本方法中所提出的利用全局的密度信息方法得到的聚簇中心，而在考慮密度的情況時可以進一步引入局部的密度信息，得到某一局部的聚簇中心點，在利用各個局部聚簇中心對樣本進行加權(quán)處理，從而有效的加入局部密度信息。
[0008] 本發(fā)明的有益效果是:利用原始訓(xùn)練樣本的密度信息所得到的聚簇中心樣本對每個訓(xùn)練樣本進行加權(quán)處理，并且對原始支持向量數(shù)據(jù)描述方法進行引入權(quán)重因子的改進，使用該方法能在不影響訓(xùn)練時空復(fù)雜度的情況下提高算法的分類準(zhǔn)確度，使得原始的SVDD 算法能在機器學(xué)習(xí)的實際應(yīng)用中有進一步的提高。
【附圖說明】
[0009] 圖1是本發(fā)明的基于聚簇的支持向量數(shù)據(jù)描述改進算法的流程圖。
【具體實施方式】
[0010] 下面結(jié)合附圖和實施例對本發(fā)明作進一步介紹:本發(fā)明的方法共分為四大步驟。
[0011] 第一步:計算訓(xùn)練樣本相互之間的空間距離和聚簇中心樣本。
[0012] 1)根據(jù)支持向量數(shù)據(jù)描述算法，樣本通過核函數(shù)|〇映射到高維的特征空間（也稱作核空間）來對數(shù)據(jù)進行更好的描述，為保證算法的時間復(fù)雜度不會有太大改變，計算訓(xùn)練樣本相互之間的空間距離在核空間中進行，核函數(shù)有多種選擇，例如高斯核函數(shù)
設(shè)訓(xùn)練樣本的數(shù)據(jù)集為為訓(xùn)練樣本數(shù)目），則第i個樣本與第j個樣本在核空間中的距離的計算公式如下 disSi ? -? 4-K(ss,^) - (y ? (D 其中disij為樣本i和樣本j通過核映射之后相互之間的距離矩陣。
[0013] 2)計算每個樣本的局部密度值第i個樣本的密度值為
%為樣本到樣本之間的距離的平均值，即通過所有樣本到某個樣本的距離小于％的樣本數(shù)目表示該個樣本的密度值，通過密度值得最大的樣本為聚簇的中心樣本點|。
[0014]第二步:計算每個訓(xùn)練樣本的權(quán)重。
[0015] 本發(fā)明為每個數(shù)據(jù)樣本賦予不同的權(quán)重，權(quán)重大小取值范圍為[0，1]，第i個樣本巧的權(quán)重網(wǎng)公式計算如下：
該權(quán)重等于1減去_到中心樣本點||的距離減去離中心樣本點疆最近的樣本的距離之差除以離中心樣本點職最遠(yuǎn)的樣本距離減去離中心樣本點|最近的樣本的距離之差的商。
[0016] 第三步:基于對原始SVDD進行加權(quán)改進。
[0017] 1)對懲罰因子進行改進的SVDD目標(biāo)函數(shù)如下斑_袞2'+.嫌匕！'儉表 ? <； R* 4- > 0 V,(5) 其中C代表可接受的野值點在目標(biāo)數(shù)據(jù)中的比值。
[0018] 2)通過在松弛變量I乘以權(quán)重因子使得權(quán)重作用于每一個樣本，改變正則化參數(shù)C對每一個樣本的作用，引入拉格朗日因子，構(gòu)造拉格朗日函數(shù)： I=：!： ^ i %： is ~ I? ^ ^~ 11 _ 31 %： ^ (6) 上式中拉格朗日因子通:1，篇美:0。
[0019] 3)通過拉格朗日求解方法，即使得i對變量|y和R的偏微分為零，得 a ^ 1 ."一鋒（7)。
[0020] 4)通過(7)式的結(jié)果，帶入拉格朗日函數(shù)可得下面的對偶規(guī)劃函數(shù)
通過如上的對偶規(guī)劃可以得到拉格朗日因子爾的值。
[0021 ]第四步:對測試樣本進行判別。
[0022]判斷樣本z是否屬于目標(biāo)類樣本可由以下決策函數(shù)判斷，若樣本z到球心的距離小于球半徑，樣本z判為目標(biāo)類決策函數(shù)知3於、=〗（b .、V! (9) 上式中超球體的球心|可以通過(8)式所得的1值來確定，超球體半徑 R=|x廣域，其中i滿足轉(zhuǎn)=0。
[0023]實驗結(jié)果為了驗證我們所提方法的有效性，實驗選取UCI數(shù)據(jù)集進行試驗。實驗環(huán)境為： CHJ1.80GHZ，8GRAM，Intel(R) Xeon(R)，WIN7，Matlab2010b。試驗中，選擇高斯核函數(shù) _落翁其中|取值為原始訓(xùn)練集中所有樣本空間距離（即 )的均值。每次的試驗中依次討論了 f值取值來自集合[0.1，0.2,0.3,0.4,0.5,0.6,0.7， 0.8，0.9]，依次帶入取其中每個值的情況。SVDD的目標(biāo)函數(shù)中參數(shù)C從[10~-3，10~-2，10~_ 1，l(T0，1(T 1，1(T 2，1(T 3]中選擇。
[0024] 利用UCI數(shù)據(jù)集進行比較，數(shù)據(jù)集可以從http://archive ? ics.uci .edu/ml/ index.html網(wǎng)站中下載獲得，表1給出了實驗數(shù)據(jù)特征屬性。
[0025]表1 UCI實驗數(shù)據(jù)集特征
表2 UCI數(shù)據(jù)集實驗結(jié)果其中TPR為目標(biāo)類準(zhǔn)確率，TNR表示非目標(biāo)類準(zhǔn)確率，（）中為五次交叉驗證的平方差，G-Mean是一種不平衡數(shù)據(jù)集的判斷標(biāo)準(zhǔn)。
[0026]實驗結(jié)果表明，本方法能夠相對于原始的支持向量數(shù)據(jù)描述方法能夠使得識別率升高，表明了該方法有效性。
【主權(quán)項】
1. 基于聚簇的支持向量數(shù)據(jù)描述改進算法，其特征在于，包括以下步驟：利用核函數(shù)計算訓(xùn)練樣本在核空間中相互之間的距離，通過所得的結(jié)果計算訓(xùn)練樣本的聚簇中心樣本并通過每個樣本到聚簇中心的距離計算樣本權(quán)重，設(shè)計一種加權(quán)的支持向量數(shù)據(jù)描述方法得到所需的超球體作為決策邊界，之后對測試樣本進行判別，若測試樣本位于超球體之內(nèi)則判為目標(biāo)類樣本，反之則判為異常類樣本。2. 權(quán)利要求1種所描述的訓(xùn)練樣本在核空間中相互之間的距離，其特征在于是指訓(xùn)練樣本在通過核函數(shù)進行映射之后的空間中計算樣本之間的距離，其特征在于通過核函數(shù)求得樣本間的相互距離。3. 權(quán)利要求1所述的一種基于聚簇的樣本加權(quán)方法，其特征在于計算樣本相互之間的距離，通過相互之間的距離得到所有樣本的局部密度，最后計算每個樣本局部密度與其到大于其密度的所有樣本中的最小距離的乘積，通過最后的乘積判斷是否為聚簇中心樣本。4. 權(quán)利要求3所述的局部密度，其特征在于通過利用所有樣本到某個樣本的距離小于樣本到樣本之間的距離的平均值的樣本數(shù)目代表該個樣本的密度值。5. 權(quán)利要求1所述的一種加權(quán)支持向量數(shù)據(jù)描述方法，其特征在于增加權(quán)重因子w對原始支持向量數(shù)據(jù)描述算法進行改進。6. 權(quán)利要求1所述的一種對樣本進行加權(quán)的方法，其特征在于利用樣本到聚簇中心樣本的距離進行權(quán)重設(shè)計。
【文檔編號】G06K9/62GK105894023SQ201610194147
【公開日】2016年8月24日
【申請日】2016年3月31日
【發(fā)明人】王喆, 李冬冬, 劉宇, 高大啟
【申請人】華東理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王喆;李冬冬;劉宇;高大啟;
技術(shù)所有人：華東理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

改進粒子群算法相關(guān)技術(shù)

遺傳算法的改進相關(guān)技術(shù)

改進遺傳算法相關(guān)技術(shù)

apriori算法改進相關(guān)技術(shù)

apriori算法的改進相關(guān)技術(shù)

kmeans改進算法相關(guān)技術(shù)

改進的粒子群算法相關(guān)技術(shù)

改進4.0算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于聚簇的支持向量數(shù)據(jù)描述改進算法