欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于半監(jiān)督的稀疏子空間聚類算法的制作方法

文檔序號(hào):11729828閱讀:483來(lái)源:國(guó)知局
一種基于半監(jiān)督的稀疏子空間聚類算法的制作方法與工藝

本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域進(jìn)行數(shù)據(jù)分類的算法,具體的說(shuō)是一種基于半監(jiān)督學(xué)習(xí)的稀疏子空間聚類算法



背景技術(shù):

聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,其目的是使同類的數(shù)據(jù)盡可能聚集到一起,不同類的數(shù)據(jù)盡量分離,從而揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。稀疏子空間聚類算法是當(dāng)前較為先進(jìn)的一種聚類算法,能夠有效地處理地高維含干擾數(shù)據(jù)。不同于其他類型的聚類算法,稀疏子空間聚類利用數(shù)據(jù)自表征特性和數(shù)據(jù)在特定空間中的稀疏性來(lái)描述數(shù)據(jù),通過(guò)一種有著完備理論證明的自表征模型,即稀疏子空間模型,獲取數(shù)據(jù)的稀疏表示來(lái)刻畫數(shù)據(jù)的子空間特性,從而獲得更精確的聚類劃分。但是該算法卻未能充分考慮數(shù)據(jù)的先驗(yàn)信息,而在許多聚類問(wèn)題中,除了未標(biāo)記數(shù)據(jù)外,常常能夠輕易獲取一些數(shù)據(jù)的先驗(yàn)知識(shí)。利用這些信息指導(dǎo)數(shù)據(jù)聚類可以快速地跳出一些“局部陷阱”,有效地提高聚類精度,這類算法被稱為半監(jiān)督聚類。

半監(jiān)督聚類又稱約束聚類,是一種適用性較高的分類方法,其核心思想是指在給定一組約束的前提下對(duì)已知數(shù)據(jù)進(jìn)行分類。半監(jiān)督聚類算法的性能主要依賴于原算法和選用的約束方法。其中原算法對(duì)聚類性能影響較大,特別是在先驗(yàn)信息較少時(shí),不同的半監(jiān)督聚類算法的性能往往依存于其相應(yīng)的原聚類算法。但是作為一種不同于其他聚類算法的稀疏子空間聚類,不能直接將已有的半監(jiān)督框架引入到稀疏子空間模型中指導(dǎo)數(shù)據(jù)分類。因此,本發(fā)明提出一種適用于稀疏子空間的半監(jiān)督聚類算法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明為了克服上述現(xiàn)有技術(shù)的不足,設(shè)計(jì)能夠適用于自表征模型的約束項(xiàng),建立相應(yīng)的半監(jiān)督稀疏子空間模型,并基此提出一種基于半監(jiān)督的稀疏子空間聚類算法,以期能夠利用數(shù)據(jù)的先驗(yàn)信息規(guī)避一些“局部陷阱”,從而進(jìn)一步增加算法性能,同時(shí)保證算法能夠在無(wú)先驗(yàn)信息時(shí)仍保持聚類性能,進(jìn)而提高算法適用性。

為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:

1.適用于稀疏子空間模型的點(diǎn)對(duì)約束矩陣

點(diǎn)對(duì)約束包括必連約束和不連約束兩種類型,其建立流程如下:

步驟1:建立兩個(gè)同表示矩陣維數(shù)相同的必連約束矩陣mc和不連約束矩陣nc。

步驟2:初始化約束矩陣,設(shè)定兩個(gè)約束矩陣的元素均為0。以保證在沒(méi)有約束信息時(shí),不對(duì)稀疏子空間模型產(chǎn)生影響。

步驟3:考慮標(biāo)記位對(duì)約束矩陣的影響,設(shè)定標(biāo)記上的約束矩陣元素為1,以確保只對(duì)標(biāo)記位上的表示系數(shù)進(jìn)行約束指導(dǎo)。從而定義必連約束矩陣mc和不連約束矩陣nc分別如式(1)和式(2)所示:

其中,yi和yj分別表示第i個(gè)和第j個(gè)數(shù)據(jù)點(diǎn);為必連約束集合,其元素表示yi和yj屬于同簇;為不連約束集合,它的元素表示yi和yj屬于不同簇。

2.適用于稀疏子空間模型的約束項(xiàng)

考慮必連約束的問(wèn)題,需要保證表示矩陣c中必連標(biāo)記位處的表示系數(shù)cij=cji≠0。因而在排除表示矩陣c上非標(biāo)記位干擾的基礎(chǔ)上,還需保證標(biāo)記位上元素的非零個(gè)數(shù)盡可能的多。同時(shí)考慮到稀疏子空間模型是一個(gè)最小化的求解問(wèn)題,定義必連約束項(xiàng)為其中,m表示必連約束對(duì)的個(gè)數(shù)。但這種硬閾值的形式是一個(gè)非連續(xù)函數(shù),雖然能夠快速逼近最優(yōu)解并在固定迭代次數(shù)的約束下獲得良好的聚類性能,卻難以收斂。因此,本發(fā)明將其放松為l1范數(shù),同時(shí)定義一種軟閾值形式的必連約束項(xiàng)為

針對(duì)不連約束的問(wèn)題,需要保證表示矩陣c中必連標(biāo)記位處的表示系數(shù)ckl=clk=0。因而在排除表示矩陣c上非標(biāo)記位干擾的基礎(chǔ)上,還需確保標(biāo)記位上的元素值盡可能的接近零。因此設(shè)計(jì)不連約束項(xiàng)

3.半監(jiān)督稀疏子空間模型

針對(duì)兩種不同形式的必連約束項(xiàng),分別定義半監(jiān)督稀疏子空間模型如式(3)和式(4)所示:

其中,ηa和ηb分別是必連懲罰參數(shù)和不連懲罰參數(shù)。

從模型中可以看出:在求解最優(yōu)解時(shí),如果標(biāo)記位的數(shù)值發(fā)生偏差,將受到嚴(yán)重的懲罰。若矩陣c中必連標(biāo)記位某處的元素值cij=0,此時(shí)必連約束項(xiàng)的值不為零,且違反項(xiàng)越多,必連約束值越大,從而達(dá)到對(duì)模型求解的指導(dǎo)作用,滿足了算法的必連約束要求;同理,若矩陣c中不連標(biāo)記位某處的元素值cij≠0,此時(shí)必連約束項(xiàng)的值不為零,且違反項(xiàng)越多、違反值越大,不連約束項(xiàng)的值越大,從而起到了對(duì)模型求解的指導(dǎo)作用,滿足了算法的不連約束要求。同時(shí),亦不難看出:當(dāng)兩個(gè)約束矩陣為零矩陣時(shí),必連約束項(xiàng)和不連約束項(xiàng)均為恒值,都不會(huì)對(duì)模型最小值求解存在干擾,其模型解同原算法相同,不會(huì)降低聚類精度。因而增加了算法適用性,能夠保證在不知道先驗(yàn)信息時(shí)不影響算法的聚類性能,并且在已知少量的先驗(yàn)信息時(shí)有效地提高聚類性能。

與已有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于

(1)本發(fā)明考慮了數(shù)據(jù)的先驗(yàn)信息,對(duì)先進(jìn)的稀疏子空間聚類算法建立了半監(jiān)督框架。在已知約束信息時(shí)能夠有效提高聚類性能,并且在約束信息為零時(shí)保持稀疏子空間聚類算法聚類精度,增加了算法的適用性。

(2)本發(fā)明建立了能夠適用于稀疏子空間模型的點(diǎn)對(duì)約束形式,使其可以有效地將先驗(yàn)信息轉(zhuǎn)化成相應(yīng)的必連約束矩陣和不連約束矩陣,從而將其用于稀疏子空間模型中。

(3)本發(fā)明在相應(yīng)約束矩陣的基礎(chǔ)上建立了有效的約束項(xiàng),并將其引入到稀疏子空間模型中,分別建立硬閾值和軟閾值兩個(gè)半監(jiān)督稀疏子空間模型。從而達(dá)到了利用數(shù)據(jù)先驗(yàn)信息指導(dǎo)數(shù)據(jù)劃分的目的。

附圖說(shuō)明

圖1是本發(fā)明算法中半監(jiān)督稀疏子空間模型的求解流程圖;

圖2是本發(fā)明算法的整體流程圖;

具體實(shí)施方案

本發(fā)明將數(shù)據(jù)先驗(yàn)信息引入到稀疏子空間模型中,在稀疏子空間聚類算法上建立了半監(jiān)督框架。其具體流程將結(jié)合圖1所示的算法整體流程圖說(shuō)明如下:

步驟1:通過(guò)數(shù)據(jù)的先驗(yàn)信息建立必連約束矩陣和不連約束矩陣,其形式分別如式(1)和式(2)所示,其建立方式已在發(fā)明內(nèi)容中說(shuō)明。

步驟2:將數(shù)據(jù)矩陣y和約束矩陣mc、nc引入到半監(jiān)督稀疏子空間模型中,引入輔助矩陣a和拉格朗日乘子矩陣δ,建立與硬閾值或軟閾值形式對(duì)應(yīng)的拉格朗日增廣函數(shù)如式(5)和式(6)所示:

步驟3:通過(guò)admm法,依次通過(guò)是式(6)、(7)、(9)或式(6)、(8)、(9)迭代更新輔助矩陣a、表示矩陣c和拉格朗日乘子矩陣δ,直到滿足停止準(zhǔn)則,此時(shí)得到的表示矩陣c就是數(shù)據(jù)的稀疏表征,其流程可見(jiàn)圖2。

a(k+1)=(λzyty+ρi)-1(λzyty+ρc(k)(k))(6)

δ(k+1)=δ(k)+ρ(a(k+1)-c(k+1))(9)

步驟4:以ci=ci/||ci||∞的形式對(duì)表示矩陣c進(jìn)行歸一化處理。

步驟5:利用歸一化后的表示矩陣c構(gòu)建相似度矩陣w=|c|+|c|t

步驟6:利用譜聚類方法如規(guī)范化割(ncut)獲得最終的聚類結(jié)果。

本發(fā)明提出了一種基于半監(jiān)督學(xué)習(xí)的稀疏子空間聚類算法,該算法能夠有效的將數(shù)據(jù)先驗(yàn)信息引入到稀疏子空間模型中,并以此來(lái)指導(dǎo)數(shù)據(jù)劃分,使其能夠快速地跳出一些“局部陷阱”,有效地提升聚類精度。本發(fā)明是建立在稀疏子空間聚類算法之上的半監(jiān)督聚類算法,因此能夠直接有效地處理高維含噪聲數(shù)據(jù)。同時(shí)該算法不僅能夠在已知先驗(yàn)信息時(shí)有效地提升聚類性能,而且還可以在先驗(yàn)信息為零時(shí)保證聚類精度,從而使得算法適用性較強(qiáng)并具有一定的應(yīng)用前景。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
峨山| 双桥区| 汤原县| 蒲江县| 南江县| 临沧市| 平塘县| 常德市| 金山区| 金堂县| 沙湾县| 延庆县| 精河县| 阿鲁科尔沁旗| 商都县| 安吉县| 松原市| 教育| 临朐县| 额尔古纳市| 珲春市| 仁怀市| 呈贡县| 扎囊县| 乐东| 额尔古纳市| 湖口县| 永兴县| 安岳县| 余姚市| 宝清县| 专栏| 长治县| 鄂托克前旗| 汝城县| 绥滨县| 石城县| 新巴尔虎左旗| 静海县| 洪雅县| 九寨沟县|