本發(fā)明屬于人工智能,涉及一種面向多源的實(shí)例遷移學(xué)習(xí)方法。
背景技術(shù):
遷移學(xué)習(xí)是利用一個(gè)或者幾個(gè)有充足標(biāo)簽樣本的領(lǐng)域去對(duì)一個(gè)與之相關(guān)但標(biāo)簽樣本不足的新興領(lǐng)域進(jìn)行學(xué)習(xí)的過(guò)程和方法。有充足標(biāo)簽樣本的領(lǐng)域稱為源領(lǐng)域,標(biāo)簽樣本不足的新興領(lǐng)域稱為目標(biāo)領(lǐng)域?;趯?shí)例遷移的遷移學(xué)習(xí)方法,主要就是在源領(lǐng)域數(shù)據(jù)集中尋找可以提高目標(biāo)領(lǐng)域分類器性能的樣本數(shù)據(jù)。這類算法的關(guān)鍵是利用目標(biāo)的標(biāo)簽樣本對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域中每個(gè)樣本賦予權(quán)值并通過(guò)迭代方式不斷更新。然而,當(dāng)目標(biāo)領(lǐng)域中有標(biāo)記的訓(xùn)練樣本太少時(shí),目標(biāo)領(lǐng)域少量的標(biāo)簽樣本就會(huì)淹沒(méi)在大量的源領(lǐng)域樣本中,使目標(biāo)領(lǐng)域的訓(xùn)練樣本對(duì)最終分類器的構(gòu)建的貢獻(xiàn)不能充分體現(xiàn)。同時(shí),源領(lǐng)域可能存在與目標(biāo)領(lǐng)域中樣本差異較大的樣本,這些數(shù)據(jù)不僅會(huì)使分類的效率變低,甚至?xí)o最終分類的結(jié)果帶來(lái)負(fù)面的影響。本發(fā)明旨在充分利用目標(biāo)領(lǐng)域中無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù),并在迭代之前剔除源領(lǐng)域中與目標(biāo)領(lǐng)域有較大差異的樣本,在迭代的過(guò)程中使用特征距離作為動(dòng)態(tài)更新樣本權(quán)重的依據(jù)之一,進(jìn)一步優(yōu)化已有的遷移學(xué)習(xí)算法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明面向多源實(shí)例遷移學(xué)習(xí),旨在充分利用目標(biāo)領(lǐng)域中大量無(wú)標(biāo)簽數(shù)據(jù)和少量有標(biāo)簽數(shù)據(jù),同時(shí)剔除源領(lǐng)域中與目標(biāo)領(lǐng)域不太相關(guān)的樣本。該發(fā)明提供一種在多源實(shí)例遷移學(xué)習(xí)中樣本篩選和權(quán)重計(jì)算方法。
1.面向多源實(shí)例遷移學(xué)習(xí)的樣本篩選和權(quán)重計(jì)算方法,其特征在于包括以下步驟:
步驟1:輸入在特征集x={x1,x2,……,xm}和標(biāo)簽屬性y上的n個(gè)源領(lǐng)域數(shù)據(jù)集
步驟2:在數(shù)據(jù)集
步驟3:將
步驟4:分別計(jì)算
步驟5:分別在r1,r2,…,rn中,用每一行i的平均距離
步驟6:分別計(jì)算
步驟7:使用n個(gè)源樣本到目標(biāo)的n個(gè)特征距離向量
附圖說(shuō)明
圖1為利用本發(fā)明改進(jìn)之后的多源實(shí)例遷移學(xué)習(xí)流程圖,圖中陰影部分為本發(fā)明對(duì)現(xiàn)有多源實(shí)例遷移學(xué)習(xí)方法優(yōu)化與改進(jìn)的發(fā)明。
具體實(shí)施方式
結(jié)合附圖1,對(duì)依據(jù)本發(fā)明提供的具體實(shí)施方式,詳細(xì)說(shuō)明如此下。
如圖1所示,面向多源實(shí)例遷移學(xué)習(xí)的樣本篩選和權(quán)重計(jì)算方法,其特征在于首先根據(jù)如下步驟計(jì)算樣本初始權(quán)重以及完成對(duì)源樣本的刷選;
步驟1:輸入在特征集x={x1,x2,……,xm}和標(biāo)簽屬性y上的n個(gè)源領(lǐng)域數(shù)據(jù)集
步驟2:在數(shù)據(jù)集
步驟3:將
步驟4:分別計(jì)算
步驟5:分別在r1,r2,…,rn中,用每一行i的平均距離
步驟6:分別計(jì)算
步驟7:使用n個(gè)源樣本到目標(biāo)的n個(gè)特征距離向量