一種基于半監(jiān)督的稀疏子空間聚類算法的制作方法

文檔序號(hào)：11729828閱讀：483來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域進(jìn)行數(shù)據(jù)分類的算法，具體的說(shuō)是一種基于半監(jiān)督學(xué)習(xí)的稀疏子空間聚類算法

背景技術(shù)：

聚類是一種無(wú)監(jiān)督學(xué)習(xí)方法，其目的是使同類的數(shù)據(jù)盡可能聚集到一起，不同類的數(shù)據(jù)盡量分離，從而揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律，為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。稀疏子空間聚類算法是當(dāng)前較為先進(jìn)的一種聚類算法，能夠有效地處理地高維含干擾數(shù)據(jù)。不同于其他類型的聚類算法，稀疏子空間聚類利用數(shù)據(jù)自表征特性和數(shù)據(jù)在特定空間中的稀疏性來(lái)描述數(shù)據(jù)，通過(guò)一種有著完備理論證明的自表征模型，即稀疏子空間模型，獲取數(shù)據(jù)的稀疏表示來(lái)刻畫數(shù)據(jù)的子空間特性，從而獲得更精確的聚類劃分。但是該算法卻未能充分考慮數(shù)據(jù)的先驗(yàn)信息，而在許多聚類問(wèn)題中，除了未標(biāo)記數(shù)據(jù)外，常常能夠輕易獲取一些數(shù)據(jù)的先驗(yàn)知識(shí)。利用這些信息指導(dǎo)數(shù)據(jù)聚類可以快速地跳出一些“局部陷阱”，有效地提高聚類精度，這類算法被稱為半監(jiān)督聚類。

半監(jiān)督聚類又稱約束聚類，是一種適用性較高的分類方法，其核心思想是指在給定一組約束的前提下對(duì)已知數(shù)據(jù)進(jìn)行分類。半監(jiān)督聚類算法的性能主要依賴于原算法和選用的約束方法。其中原算法對(duì)聚類性能影響較大，特別是在先驗(yàn)信息較少時(shí)，不同的半監(jiān)督聚類算法的性能往往依存于其相應(yīng)的原聚類算法。但是作為一種不同于其他聚類算法的稀疏子空間聚類，不能直接將已有的半監(jiān)督框架引入到稀疏子空間模型中指導(dǎo)數(shù)據(jù)分類。因此，本發(fā)明提出一種適用于稀疏子空間的半監(jiān)督聚類算法。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明為了克服上述現(xiàn)有技術(shù)的不足，設(shè)計(jì)能夠適用于自表征模型的約束項(xiàng)，建立相應(yīng)的半監(jiān)督稀疏子空間模型，并基此提出一種基于半監(jiān)督的稀疏子空間聚類算法，以期能夠利用數(shù)據(jù)的先驗(yàn)信息規(guī)避一些“局部陷阱”，從而進(jìn)一步增加算法性能，同時(shí)保證算法能夠在無(wú)先驗(yàn)信息時(shí)仍保持聚類性能，進(jìn)而提高算法適用性。

為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明采用如下技術(shù)方案：

1.適用于稀疏子空間模型的點(diǎn)對(duì)約束矩陣

點(diǎn)對(duì)約束包括必連約束和不連約束兩種類型，其建立流程如下：

步驟1：建立兩個(gè)同表示矩陣維數(shù)相同的必連約束矩陣mc和不連約束矩陣nc。

步驟2：初始化約束矩陣，設(shè)定兩個(gè)約束矩陣的元素均為0。以保證在沒(méi)有約束信息時(shí)，不對(duì)稀疏子空間模型產(chǎn)生影響。

步驟3：考慮標(biāo)記位對(duì)約束矩陣的影響，設(shè)定標(biāo)記上的約束矩陣元素為1，以確保只對(duì)標(biāo)記位上的表示系數(shù)進(jìn)行約束指導(dǎo)。從而定義必連約束矩陣mc和不連約束矩陣nc分別如式(1)和式(2)所示：

其中，yi和yj分別表示第i個(gè)和第j個(gè)數(shù)據(jù)點(diǎn)；為必連約束集合，其元素表示yi和yj屬于同簇；為不連約束集合,它的元素表示yi和yj屬于不同簇。

2.適用于稀疏子空間模型的約束項(xiàng)

考慮必連約束的問(wèn)題，需要保證表示矩陣c中必連標(biāo)記位處的表示系數(shù)cij＝cji≠0。因而在排除表示矩陣c上非標(biāo)記位干擾的基礎(chǔ)上，還需保證標(biāo)記位上元素的非零個(gè)數(shù)盡可能的多。同時(shí)考慮到稀疏子空間模型是一個(gè)最小化的求解問(wèn)題，定義必連約束項(xiàng)為其中，m表示必連約束對(duì)的個(gè)數(shù)。但這種硬閾值的形式是一個(gè)非連續(xù)函數(shù)，雖然能夠快速逼近最優(yōu)解并在固定迭代次數(shù)的約束下獲得良好的聚類性能，卻難以收斂。因此，本發(fā)明將其放松為l1范數(shù)，同時(shí)定義一種軟閾值形式的必連約束項(xiàng)為

針對(duì)不連約束的問(wèn)題，需要保證表示矩陣c中必連標(biāo)記位處的表示系數(shù)ckl＝clk＝0。因而在排除表示矩陣c上非標(biāo)記位干擾的基礎(chǔ)上，還需確保標(biāo)記位上的元素值盡可能的接近零。因此設(shè)計(jì)不連約束項(xiàng)

3.半監(jiān)督稀疏子空間模型

針對(duì)兩種不同形式的必連約束項(xiàng)，分別定義半監(jiān)督稀疏子空間模型如式(3)和式(4)所示：

其中，ηa和ηb分別是必連懲罰參數(shù)和不連懲罰參數(shù)。

從模型中可以看出：在求解最優(yōu)解時(shí)，如果標(biāo)記位的數(shù)值發(fā)生偏差，將受到嚴(yán)重的懲罰。若矩陣c中必連標(biāo)記位某處的元素值cij＝0，此時(shí)必連約束項(xiàng)的值不為零，且違反項(xiàng)越多，必連約束值越大，從而達(dá)到對(duì)模型求解的指導(dǎo)作用，滿足了算法的必連約束要求；同理，若矩陣c中不連標(biāo)記位某處的元素值cij≠0，此時(shí)必連約束項(xiàng)的值不為零，且違反項(xiàng)越多、違反值越大，不連約束項(xiàng)的值越大，從而起到了對(duì)模型求解的指導(dǎo)作用，滿足了算法的不連約束要求。同時(shí)，亦不難看出：當(dāng)兩個(gè)約束矩陣為零矩陣時(shí)，必連約束項(xiàng)和不連約束項(xiàng)均為恒值，都不會(huì)對(duì)模型最小值求解存在干擾，其模型解同原算法相同，不會(huì)降低聚類精度。因而增加了算法適用性，能夠保證在不知道先驗(yàn)信息時(shí)不影響算法的聚類性能，并且在已知少量的先驗(yàn)信息時(shí)有效地提高聚類性能。

與已有技術(shù)相比，本發(fā)明的優(yōu)點(diǎn)在于

(1)本發(fā)明考慮了數(shù)據(jù)的先驗(yàn)信息，對(duì)先進(jìn)的稀疏子空間聚類算法建立了半監(jiān)督框架。在已知約束信息時(shí)能夠有效提高聚類性能，并且在約束信息為零時(shí)保持稀疏子空間聚類算法聚類精度，增加了算法的適用性。

(2)本發(fā)明建立了能夠適用于稀疏子空間模型的點(diǎn)對(duì)約束形式，使其可以有效地將先驗(yàn)信息轉(zhuǎn)化成相應(yīng)的必連約束矩陣和不連約束矩陣，從而將其用于稀疏子空間模型中。

(3)本發(fā)明在相應(yīng)約束矩陣的基礎(chǔ)上建立了有效的約束項(xiàng)，并將其引入到稀疏子空間模型中，分別建立硬閾值和軟閾值兩個(gè)半監(jiān)督稀疏子空間模型。從而達(dá)到了利用數(shù)據(jù)先驗(yàn)信息指導(dǎo)數(shù)據(jù)劃分的目的。

附圖說(shuō)明

圖1是本發(fā)明算法中半監(jiān)督稀疏子空間模型的求解流程圖；

圖2是本發(fā)明算法的整體流程圖；

具體實(shí)施方案

本發(fā)明將數(shù)據(jù)先驗(yàn)信息引入到稀疏子空間模型中，在稀疏子空間聚類算法上建立了半監(jiān)督框架。其具體流程將結(jié)合圖1所示的算法整體流程圖說(shuō)明如下：

步驟1：通過(guò)數(shù)據(jù)的先驗(yàn)信息建立必連約束矩陣和不連約束矩陣，其形式分別如式(1)和式(2)所示，其建立方式已在發(fā)明內(nèi)容中說(shuō)明。

步驟2：將數(shù)據(jù)矩陣y和約束矩陣mc、nc引入到半監(jiān)督稀疏子空間模型中，引入輔助矩陣a和拉格朗日乘子矩陣δ，建立與硬閾值或軟閾值形式對(duì)應(yīng)的拉格朗日增廣函數(shù)如式(5)和式(6)所示：

步驟3：通過(guò)admm法，依次通過(guò)是式(6)、(7)、(9)或式(6)、(8)、(9)迭代更新輔助矩陣a、表示矩陣c和拉格朗日乘子矩陣δ，直到滿足停止準(zhǔn)則，此時(shí)得到的表示矩陣c就是數(shù)據(jù)的稀疏表征，其流程可見(jiàn)圖2。

a^(k+1)＝(λzy^ty+ρi)^-1(λzy^ty+ρc^(k)-δ^(k))(6)

δ^(k+1)＝δ^(k)+ρ(a^(k+1)-c^(k+1))(9)

步驟4：以ci＝ci/||ci||∞的形式對(duì)表示矩陣c進(jìn)行歸一化處理。

步驟5：利用歸一化后的表示矩陣c構(gòu)建相似度矩陣w＝|c|+|c|^t。

步驟6：利用譜聚類方法如規(guī)范化割(ncut)獲得最終的聚類結(jié)果。

本發(fā)明提出了一種基于半監(jiān)督學(xué)習(xí)的稀疏子空間聚類算法，該算法能夠有效的將數(shù)據(jù)先驗(yàn)信息引入到稀疏子空間模型中，并以此來(lái)指導(dǎo)數(shù)據(jù)劃分，使其能夠快速地跳出一些“局部陷阱”，有效地提升聚類精度。本發(fā)明是建立在稀疏子空間聚類算法之上的半監(jiān)督聚類算法，因此能夠直接有效地處理高維含噪聲數(shù)據(jù)。同時(shí)該算法不僅能夠在已知先驗(yàn)信息時(shí)有效地提升聚類性能，而且還可以在先驗(yàn)信息為零時(shí)保證聚類精度，從而使得算法適用性較強(qiáng)并具有一定的應(yīng)用前景。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈旋;周治平;張威;趙曉曉
技術(shù)所有人：江南大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

稀疏子空間聚類算法相關(guān)技術(shù)

稀疏子空間聚類相關(guān)技術(shù)

稀疏子空間聚類綜述相關(guān)技術(shù)

子空間聚類算法相關(guān)技術(shù)

無(wú)監(jiān)督聚類算法相關(guān)技術(shù)

子空間聚類相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于半監(jiān)督的稀疏子空間聚類算法的制作方法