專利名稱:一種基于半監(jiān)督聚類的遷移學習方法
技術領域:
本發(fā)明涉及一種機器學習領域的方法,特別是涉及一種基于半監(jiān)督聚類的遷移學習方法。
背景技術:
機器學習中傳統(tǒng)的分類器要求源數(shù)據(jù)與目標數(shù)據(jù)必須具備相同的分布,然而現(xiàn)代社會信息發(fā)展日新月異,這種假設在實際生活中很難實現(xiàn)。當出現(xiàn)不同分布的數(shù)據(jù)時,傳統(tǒng)分類器就要重新收集大量數(shù)據(jù),由專家對這些數(shù)據(jù)進行分析、標簽。就要投入大量的人力、時間,這樣做不僅效率不高,而且代價也是很昂貴的。而遷移學習就能克服從零開始收集數(shù)據(jù)的缺點。它能從不同但相似領域,遷移其有用的方法、技術到目標領域,幫助目標領域數(shù)據(jù)進行分類。目前有一些對遷移學習方法的研究,但其主要是針對二分類的,即假設目標數(shù)據(jù)分類只分為兩類0或I。然而現(xiàn)實生活,數(shù)據(jù)復雜多樣,分類不可能如此單一,這顯然很不符合實際。對于多分類復雜分類器來說,該實驗算法可能就會失效。還有一些方法,通過建立源領域到目標領域的橋梁,通過橋梁實現(xiàn)標簽傳遞。標簽傳遞過程中不斷地修正由源領域訓練得到的模型在目標領域數(shù)據(jù)集中的預測,最終并不能形成一個分類器。對于新來的數(shù)據(jù),只能重新進行橋接精化的過程,這對于整個遷移學習過程效率很低。此外,目前對遷移學習方法的研究都面臨著一個共同的問題精確度不高。我們可以通過一些算法實現(xiàn)方法、技術的遷移,產(chǎn)生最終分類器。但是由于知識、能力的限制,使得最終分類器的分類精度不高,即分類誤差比較大。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種將分類方法、技術從一個領域遷移到另一個領域的提高分類結果精確度的一種基于半監(jiān)督聚類的遷移學習方法。本發(fā)明的目的是這樣實現(xiàn)的基于半監(jiān)督聚類的遷移學習方法包括以下步驟(I)、計算目標數(shù)據(jù)與輔助數(shù)據(jù)各類中數(shù)據(jù)的相似度;(2)、計算目標數(shù)據(jù)與輔助數(shù)據(jù)各類的平均相似度;(3)、預分類由平均相似度得到目標數(shù)據(jù)與類標簽的一個相似度權重向量。取向量中權重最大的為目標數(shù)據(jù)的標簽;(4)、再分類以目標數(shù)據(jù)為質(zhì)心,進行K-均值聚類。聚類成簇,每簇中以簇中數(shù)據(jù)占所屬類中總數(shù)據(jù)比例最大者的標簽為簇標簽;(5)、將再分類結果與預分類結果做對比。若兩者相同,則增大相似度權重向量中類標簽權重;若不相同,則減小類標簽權重;(6)、在最終形成的目標數(shù)據(jù)相似度權重向量中,挑選權重最大的數(shù)據(jù)標簽作為目標數(shù)據(jù)數(shù)據(jù)標簽,從而形成最終分類器。
本發(fā)明的有益效果是1.改進機器學習中傳統(tǒng)分類器,可以進行跨領域的知識、技術的遷移。2.不只是停留在實驗中二分類的情況,而是可以針對實際情況完成多分類的標簽遷移,對目標數(shù)據(jù)進行分類任務。3.最終可以產(chǎn)生分類器,該分類器可以是多類別分類器,符合實際,效率高,精確度也比較高。4、可以用于相似領域的文本分類、網(wǎng)頁分類、圖像分類等,甚至可實現(xiàn)文本到圖片或圖片到文本分類方法、技術的遷移。
圖1為基于半監(jiān)督聚類的遷移學習方法的流程圖。
具體實施例方式本發(fā)明采用標準文本數(shù)據(jù)20Newsgroup作為實驗數(shù)據(jù)。20Newsgroup是一個包含20000個新聞組的文檔集,分為20個子類,7個頂層類。為使數(shù)據(jù)集滿足遷移場景,本發(fā)明對數(shù)據(jù)集進行了重構。由于該數(shù)據(jù)集包含分屬不同頂層類別的子類,可以將相同頂層類別的子類劃分出來與不同頂層的子類構成不同領域的數(shù)據(jù)集。基于這種重構,源領域數(shù)據(jù)與目標數(shù)據(jù)來源于不同分布,但由于其子類又有相同的頂層類,因此兩個領域數(shù)據(jù)又存在一定聯(lián)系。源領域、目標領域數(shù)據(jù)如下
權利要求
1. 一種基于半監(jiān)督聚類的遷移學習方法,其特征在于包括以下步驟(1)、計算目標數(shù)據(jù)與輔助數(shù)據(jù)各類中數(shù)據(jù)的相似度;(2)、計算目標數(shù)據(jù)與輔助數(shù)據(jù)各類的平均相似度;(3)、預分類由平均相似度得到目標數(shù)據(jù)與類標簽的一個相似度權重向量,取向量中權重最大的為目標數(shù)據(jù)的標簽;(4)、再分類以目標數(shù)據(jù)為質(zhì)心,進行K-均值聚類,聚類成簇,每簇中以簇中數(shù)據(jù)占所屬類中總數(shù)據(jù)比例最大者的標簽為簇標簽;(5)、將再分類結果與預分類結果做對比,若兩者相同,則增大相似度權重向量中類標簽權重;若不相同,則減小類標簽權重;(6)、在最終形成的目標數(shù)據(jù)相似度權重向量中,挑選權重最大的數(shù)據(jù)標簽作為目標數(shù)據(jù)數(shù)據(jù)標簽,從而形成最終分類器。
全文摘要
本發(fā)明提供的是一種基于半監(jiān)督聚類的遷移學習方法。包括計算目標數(shù)據(jù)與輔助數(shù)據(jù)各類中數(shù)據(jù)的相似度、平均相似度;由平均相似度得到目標數(shù)據(jù)與類標簽的一個相似度權重向量,取向量中權重最大的為目標數(shù)據(jù)的標簽;以目標數(shù)據(jù)為質(zhì)心,進行K-均值聚類,聚類成簇,每簇中以簇中數(shù)據(jù)占所屬類中總數(shù)據(jù)比例最大者的標簽為簇標簽;將再分類結果與預分類結果做對比;在最終形成的目標數(shù)據(jù)相似度權重向量中,挑選權重最大的數(shù)據(jù)標簽作為目標數(shù)據(jù)數(shù)據(jù)標簽,從而形成最終分類器。本發(fā)明提供一種將分類方法、技術從一個領域遷移到另一個領域的提高分類結果精確度的一種基于半監(jiān)督聚類的遷移學習方法。
文檔編號G06F17/30GK103020122SQ20121046486
公開日2013年4月3日 申請日期2012年11月16日 優(yōu)先權日2012年11月16日
發(fā)明者初妍, 陳曼, 沈潔, 夏琳琳, 王勇, 李麗潔, 高迪, 王興梅 申請人:哈爾濱工程大學