本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域進(jìn)行數(shù)據(jù)分類的算法,具體的說(shuō)是一種基于半監(jiān)督學(xué)習(xí)的稀疏子空間聚類算法
背景技術(shù):
聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法,其目的是使同類的數(shù)據(jù)盡可能聚集到一起,不同類的數(shù)據(jù)盡量分離,從而揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。稀疏子空間聚類算法是當(dāng)前較為先進(jìn)的一種聚類算法,能夠有效地處理地高維含干擾數(shù)據(jù)。不同于其他類型的聚類算法,稀疏子空間聚類利用數(shù)據(jù)自表征特性和數(shù)據(jù)在特定空間中的稀疏性來(lái)描述數(shù)據(jù),通過(guò)一種有著完備理論證明的自表征模型,即稀疏子空間模型,獲取數(shù)據(jù)的稀疏表示來(lái)刻畫數(shù)據(jù)的子空間特性,從而獲得更精確的聚類劃分。但是該算法卻未能充分考慮數(shù)據(jù)的先驗(yàn)信息,而在許多聚類問(wèn)題中,除了未標(biāo)記數(shù)據(jù)外,常常能夠輕易獲取一些數(shù)據(jù)的先驗(yàn)知識(shí)。利用這些信息指導(dǎo)數(shù)據(jù)聚類可以快速地跳出一些“局部陷阱”,有效地提高聚類精度,這類算法被稱為半監(jiān)督聚類。
半監(jiān)督聚類又稱約束聚類,是一種適用性較高的分類方法,其核心思想是指在給定一組約束的前提下對(duì)已知數(shù)據(jù)進(jìn)行分類。半監(jiān)督聚類算法的性能主要依賴于原算法和選用的約束方法。其中原算法對(duì)聚類性能影響較大,特別是在先驗(yàn)信息較少時(shí),不同的半監(jiān)督聚類算法的性能往往依存于其相應(yīng)的原聚類算法。但是作為一種不同于其他聚類算法的稀疏子空間聚類,不能直接將已有的半監(jiān)督框架引入到稀疏子空間模型中指導(dǎo)數(shù)據(jù)分類。因此,本發(fā)明提出一種適用于稀疏子空間的半監(jiān)督聚類算法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為了克服上述現(xiàn)有技術(shù)的不足,設(shè)計(jì)能夠適用于自表征模型的約束項(xiàng),建立相應(yīng)的半監(jiān)督稀疏子空間模型,并基此提出一種基于半監(jiān)督的稀疏子空間聚類算法,以期能夠利用數(shù)據(jù)的先驗(yàn)信息規(guī)避一些“局部陷阱”,從而進(jìn)一步增加算法性能,同時(shí)保證算法能夠在無(wú)先驗(yàn)信息時(shí)仍保持聚類性能,進(jìn)而提高算法適用性。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用如下技術(shù)方案:
1.適用于稀疏子空間模型的點(diǎn)對(duì)約束矩陣
點(diǎn)對(duì)約束包括必連約束和不連約束兩種類型,其建立流程如下:
步驟1:建立兩個(gè)同表示矩陣維數(shù)相同的必連約束矩陣mc和不連約束矩陣nc。
步驟2:初始化約束矩陣,設(shè)定兩個(gè)約束矩陣的元素均為0。以保證在沒(méi)有約束信息時(shí),不對(duì)稀疏子空間模型產(chǎn)生影響。
步驟3:考慮標(biāo)記位對(duì)約束矩陣的影響,設(shè)定標(biāo)記上的約束矩陣元素為1,以確保只對(duì)標(biāo)記位上的表示系數(shù)進(jìn)行約束指導(dǎo)。從而定義必連約束矩陣mc和不連約束矩陣nc分別如式(1)和式(2)所示:
其中,yi和yj分別表示第i個(gè)和第j個(gè)數(shù)據(jù)點(diǎn);
2.適用于稀疏子空間模型的約束項(xiàng)
考慮必連約束的問(wèn)題,需要保證表示矩陣c中必連標(biāo)記位處的表示系數(shù)cij=cji≠0。因而在排除表示矩陣c上非標(biāo)記位干擾的基礎(chǔ)上,還需保證標(biāo)記位上元素的非零個(gè)數(shù)盡可能的多。同時(shí)考慮到稀疏子空間模型是一個(gè)最小化的求解問(wèn)題,定義必連約束項(xiàng)為
針對(duì)不連約束的問(wèn)題,需要保證表示矩陣c中必連標(biāo)記位處的表示系數(shù)ckl=clk=0。因而在排除表示矩陣c上非標(biāo)記位干擾的基礎(chǔ)上,還需確保標(biāo)記位上的元素值盡可能的接近零。因此設(shè)計(jì)不連約束項(xiàng)
3.半監(jiān)督稀疏子空間模型
針對(duì)兩種不同形式的必連約束項(xiàng),分別定義半監(jiān)督稀疏子空間模型如式(3)和式(4)所示:
其中,ηa和ηb分別是必連懲罰參數(shù)和不連懲罰參數(shù)。
從模型中可以看出:在求解最優(yōu)解時(shí),如果標(biāo)記位的數(shù)值發(fā)生偏差,將受到嚴(yán)重的懲罰。若矩陣c中必連標(biāo)記位某處的元素值cij=0,此時(shí)必連約束項(xiàng)的值不為零,且違反項(xiàng)越多,必連約束值越大,從而達(dá)到對(duì)模型求解的指導(dǎo)作用,滿足了算法的必連約束要求;同理,若矩陣c中不連標(biāo)記位某處的元素值cij≠0,此時(shí)必連約束項(xiàng)的值不為零,且違反項(xiàng)越多、違反值越大,不連約束項(xiàng)的值越大,從而起到了對(duì)模型求解的指導(dǎo)作用,滿足了算法的不連約束要求。同時(shí),亦不難看出:當(dāng)兩個(gè)約束矩陣為零矩陣時(shí),必連約束項(xiàng)和不連約束項(xiàng)均為恒值,都不會(huì)對(duì)模型最小值求解存在干擾,其模型解同原算法相同,不會(huì)降低聚類精度。因而增加了算法適用性,能夠保證在不知道先驗(yàn)信息時(shí)不影響算法的聚類性能,并且在已知少量的先驗(yàn)信息時(shí)有效地提高聚類性能。
與已有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于
(1)本發(fā)明考慮了數(shù)據(jù)的先驗(yàn)信息,對(duì)先進(jìn)的稀疏子空間聚類算法建立了半監(jiān)督框架。在已知約束信息時(shí)能夠有效提高聚類性能,并且在約束信息為零時(shí)保持稀疏子空間聚類算法聚類精度,增加了算法的適用性。
(2)本發(fā)明建立了能夠適用于稀疏子空間模型的點(diǎn)對(duì)約束形式,使其可以有效地將先驗(yàn)信息轉(zhuǎn)化成相應(yīng)的必連約束矩陣和不連約束矩陣,從而將其用于稀疏子空間模型中。
(3)本發(fā)明在相應(yīng)約束矩陣的基礎(chǔ)上建立了有效的約束項(xiàng),并將其引入到稀疏子空間模型中,分別建立硬閾值和軟閾值兩個(gè)半監(jiān)督稀疏子空間模型。從而達(dá)到了利用數(shù)據(jù)先驗(yàn)信息指導(dǎo)數(shù)據(jù)劃分的目的。
附圖說(shuō)明
圖1是本發(fā)明算法中半監(jiān)督稀疏子空間模型的求解流程圖;
圖2是本發(fā)明算法的整體流程圖;
具體實(shí)施方案
本發(fā)明將數(shù)據(jù)先驗(yàn)信息引入到稀疏子空間模型中,在稀疏子空間聚類算法上建立了半監(jiān)督框架。其具體流程將結(jié)合圖1所示的算法整體流程圖說(shuō)明如下:
步驟1:通過(guò)數(shù)據(jù)的先驗(yàn)信息建立必連約束矩陣和不連約束矩陣,其形式分別如式(1)和式(2)所示,其建立方式已在發(fā)明內(nèi)容中說(shuō)明。
步驟2:將數(shù)據(jù)矩陣y和約束矩陣mc、nc引入到半監(jiān)督稀疏子空間模型中,引入輔助矩陣a和拉格朗日乘子矩陣δ,建立與硬閾值或軟閾值形式對(duì)應(yīng)的拉格朗日增廣函數(shù)如式(5)和式(6)所示:
步驟3:通過(guò)admm法,依次通過(guò)是式(6)、(7)、(9)或式(6)、(8)、(9)迭代更新輔助矩陣a、表示矩陣c和拉格朗日乘子矩陣δ,直到滿足停止準(zhǔn)則,此時(shí)得到的表示矩陣c就是數(shù)據(jù)的稀疏表征,其流程可見(jiàn)圖2。
a(k+1)=(λzyty+ρi)-1(λzyty+ρc(k)-δ(k))(6)
δ(k+1)=δ(k)+ρ(a(k+1)-c(k+1))(9)
步驟4:以ci=ci/||ci||∞的形式對(duì)表示矩陣c進(jìn)行歸一化處理。
步驟5:利用歸一化后的表示矩陣c構(gòu)建相似度矩陣w=|c|+|c|t。
步驟6:利用譜聚類方法如規(guī)范化割(ncut)獲得最終的聚類結(jié)果。
本發(fā)明提出了一種基于半監(jiān)督學(xué)習(xí)的稀疏子空間聚類算法,該算法能夠有效的將數(shù)據(jù)先驗(yàn)信息引入到稀疏子空間模型中,并以此來(lái)指導(dǎo)數(shù)據(jù)劃分,使其能夠快速地跳出一些“局部陷阱”,有效地提升聚類精度。本發(fā)明是建立在稀疏子空間聚類算法之上的半監(jiān)督聚類算法,因此能夠直接有效地處理高維含噪聲數(shù)據(jù)。同時(shí)該算法不僅能夠在已知先驗(yàn)信息時(shí)有效地提升聚類性能,而且還可以在先驗(yàn)信息為零時(shí)保證聚類精度,從而使得算法適用性較強(qiáng)并具有一定的應(yīng)用前景。