本發(fā)明屬于機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)領(lǐng)域,尤其涉及機(jī)器學(xué)習(xí)中的主動學(xué)習(xí)和集成學(xué)習(xí)中的模型剪枝方法及裝置。
背景技術(shù):
主動學(xué)習(xí):
機(jī)器學(xué)習(xí)方法正在取得越來越廣泛的應(yīng)用,并深刻的影響著人們的日常生活。
目前,機(jī)器學(xué)習(xí)中普遍存在的一個問題是標(biāo)準(zhǔn)答案獲取成本高。盡管隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量變得越來越龐大,然而這些數(shù)據(jù)大多是原始的、粗糙的、沒有經(jīng)過人工標(biāo)記的,例如網(wǎng)絡(luò)上大量的圖片數(shù)據(jù),并沒有被標(biāo)記上圖片的主題、包含人的數(shù)量等信息,而這些信息對于機(jī)器學(xué)習(xí)而言是十分寶貴的。不使用標(biāo)準(zhǔn)答案的機(jī)器學(xué)習(xí)方法稱為“無監(jiān)督學(xué)習(xí)”,相應(yīng)的,使用標(biāo)準(zhǔn)答案的方法稱為“有監(jiān)督學(xué)習(xí)”。通常,有監(jiān)督學(xué)習(xí)比無監(jiān)督學(xué)習(xí)的效果要好很多。
主動學(xué)習(xí)技術(shù)就是為了應(yīng)對這種情況而提出來的。這種技術(shù)利用一些標(biāo)準(zhǔn)對輸入的未標(biāo)記樣本進(jìn)行判斷,如果判斷此樣本包含的信息量比較大,可以有效的訓(xùn)練機(jī)器學(xué)習(xí)模型,那么就將此樣本交給人類來進(jìn)行標(biāo)注,然后使用標(biāo)注后的樣本訓(xùn)練機(jī)器學(xué)習(xí)模型。這樣,隨著一個一個的樣本被標(biāo)注和加入訓(xùn)練集合,機(jī)器學(xué)習(xí)模型可以很快的達(dá)到較為理想的水平。有研究表明,達(dá)到同樣的學(xué)習(xí)效果,主動學(xué)習(xí)可以比傳統(tǒng)方法少用90%的樣本數(shù)量。
然而,當(dāng)前的主動學(xué)習(xí)技術(shù)對樣本有效性的判斷還存在一定的問題,很多情況下,選擇出來用以訓(xùn)練機(jī)器學(xué)習(xí)模型的樣本,并不是候選樣本中最好的,從而限制了訓(xùn)練后的機(jī)器學(xué)習(xí)模型的效果。
集成學(xué)習(xí):
在眾多的機(jī)器學(xué)習(xí)方法中,集成學(xué)習(xí)是最為成功的一類方法,其中隨機(jī)森林、梯度提升(gradient boosting)等方法是集成學(xué)習(xí)的典型代表。集成學(xué)習(xí)的基本想法是組合眾多基本的機(jī)器學(xué)習(xí)模型的結(jié)果,以達(dá)到提升學(xué)習(xí)效果的目的。
集成學(xué)習(xí)方法主要包含三個部分:模型的生成,模型的剪枝,模型的集成。
模型的生成需要完成基分類器的訓(xùn)練任務(wù)。對于輸入的訓(xùn)練數(shù)據(jù)集,訓(xùn)練出若干個不同的機(jī)器學(xué)習(xí)模型,且這些模型可以各自對輸入樣本進(jìn)行預(yù)測。
模型的剪枝需要完成冗余模型的刪減任務(wù)。由于模型生成時十分容易造成冗余和相關(guān),因此對這些模型進(jìn)行刪減十分重要。已有研究表明,使用合適的剪枝方法可以提高集成學(xué)習(xí)的學(xué)習(xí)效果。
模型的集成需要對刪減后的模型進(jìn)行集成。目前集成方法比較多,常用的有投票法、加權(quán)平均法等。
無論在理論還是實踐方面,集成學(xué)習(xí)都已經(jīng)被證明可以達(dá)到比單個機(jī)器學(xué)習(xí)模型更好的水平,并且學(xué)習(xí)效果隨著集成的模型數(shù)目的增多而變得更好。然而,在實際應(yīng)用中,集成太多的模型會導(dǎo)致速度變慢,性能降低,并且對硬件要求也更高。因此,模型的剪枝是一個相當(dāng)重要的環(huán)節(jié)。
簡單的根據(jù)模型的準(zhǔn)確率進(jìn)行選擇已被證明是效果不佳的,因為會留下許多相似的或相關(guān)的模型。當(dāng)前的模型剪枝方法,大多著眼于模型的多樣性,即盡量留下互相之間不相似的模型。但是,過于強(qiáng)調(diào)多樣性也會導(dǎo)致集成后的效果一般。
技術(shù)實現(xiàn)要素:
基于上述關(guān)于主動學(xué)習(xí)技術(shù)和集成學(xué)習(xí)技術(shù)的情況,提出了一種適用于集成學(xué)習(xí)情況下的主動學(xué)習(xí)方法。
一種適用于集成學(xué)習(xí)情況下的主動學(xué)習(xí)方法,包括:
接收一組未標(biāo)記的樣本集合,以及一組使用少量有標(biāo)記數(shù)據(jù)訓(xùn)練好的機(jī)器學(xué)習(xí)模型;
將未標(biāo)記樣本集合內(nèi)的樣本逐個輸入模型集合,得到每個模型對該樣本的預(yù)測值;
對每個樣本,根據(jù)得到的一組預(yù)測值,計算其平均預(yù)測值然后根據(jù)如下公式計算其多樣性或者稱為適用程度:
此公式來源于集成學(xué)習(xí)中的泛化誤差分解理論,在二分類問題中,如果使用邏輯回歸損失(logistic loss)來度量分類效果的好壞,那么此公式度量的就是一組機(jī)器學(xué)習(xí)模型的“歧義度”(Ambiguity),因此也被廣泛接受為多樣性的度量。
從所有未標(biāo)記樣本中,選出適用程度最高的若干個(記為N個)樣本,請求人工標(biāo)注;
標(biāo)注完成后,將此N個樣本加入已標(biāo)注的樣本集合,并重新訓(xùn)練模型集合;
此過程不斷重復(fù),直到學(xué)習(xí)效果無法繼續(xù)提高為止。
基于上述關(guān)于模型剪枝技術(shù)的情況,提供了一種模型剪枝方法。
一種模型剪枝方法,包括:
接收一組已標(biāo)記的樣本集合作為驗證集,以及一組訓(xùn)練好的機(jī)器學(xué)習(xí)模型;
從這組模型中,選擇效果最好的模型作為第一個被選出來的模型,組成留用集合,其他模型組成候選集合;
從候選集合中,每輪選出一個模型,加入留用集合,選擇的標(biāo)準(zhǔn)是:將該候選模型與留用集合組合得到測試模型集合,對驗證集中的每個樣本,設(shè)其標(biāo)準(zhǔn)答案為y,這組模型的預(yù)測值的平均為使用下式計算當(dāng)前測試模型集合對該樣本的適用程度:
此公式同樣來源于集成學(xué)習(xí)中的泛化誤差分解理論,在樣本標(biāo)記為1和-1的二分類問題中,如果使用邏輯回歸損失來度量分類效果的好壞,那么此公式分子部分度量的就是一組機(jī)器學(xué)習(xí)模型的平均準(zhǔn)確度,分母部分度量的是一組模型的相似性,二者之比最大時,就是多樣性最大同時平均誤差最低的情況,因此可以作為模型集合對樣本的適用程度。對驗證集中所有樣本的適用程度求和,就得到綜合適用程度。將綜合適用程度最大的模型選擇出來,加入留用集合;
重復(fù)上述過程,直到留用集合在驗證集上的誤差不能再繼續(xù)降低為止。
綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù),提供了一種集成學(xué)習(xí)方法。
一種集成學(xué)習(xí)方法,包括:
接收一組未標(biāo)記的樣本集合,一組數(shù)量較少的已標(biāo)記的樣本集合;
使用已標(biāo)記樣本集合訓(xùn)練一組機(jī)器學(xué)習(xí)模型;
利用前面所述主動學(xué)習(xí)方法,不斷地自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本,交給人工標(biāo)注,從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型的準(zhǔn)確度;
利用前面所述模型剪枝方法,對得到的模型集合做進(jìn)一步的篩選;
將篩選后的模型集合集成起來,作為最終的機(jī)器學(xué)習(xí)模型。
綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù),提供了一種集成學(xué)習(xí)裝置。
一種集成學(xué)習(xí)裝置,包括:
樣本集輸入模塊,用于接收輸入的未標(biāo)記樣本集合,以及包含較少樣本的已標(biāo)記樣本集合;
基本機(jī)器學(xué)習(xí)模型的訓(xùn)練模塊,用于利用已標(biāo)記樣本集合來訓(xùn)練基本的機(jī)器學(xué)習(xí)模型集合;
基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊,用于利用前面所述主動學(xué)習(xí)方法,不斷地自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本,交給人工標(biāo)注,從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型的準(zhǔn)確度;
模型集合的剪枝模塊,用于利用前面所述模型剪枝方法,對得到的模型集合做進(jìn)一步的篩選;
模型的集成模塊,用來將篩選后的模型集合集成起來,對新輸入的樣本作出預(yù)測,并輸出預(yù)測值。
實施本發(fā)明實施例,將具有如下有益效果:
該主動學(xué)習(xí)方法使用了一種新的度量樣本適用程度的標(biāo)準(zhǔn),可以有效的篩選出最適合當(dāng)前模型集合的樣本,減少了需要人工標(biāo)注的樣本數(shù)量,節(jié)約了人工標(biāo)注的成本。
該模型剪枝方法可以在不降低甚至提高集成模型的效果的情況下,顯著減少最終模型集合所包含的模型數(shù)量,從而提高了集成模型的性能。
該基于主動學(xué)習(xí)和模型剪枝的集成方法和裝置僅需要人工標(biāo)注少量未標(biāo)記樣本,與傳統(tǒng)集成方法相比,所需要的人工標(biāo)注成本顯著降低,且性能比簡單集成方法更高。
附圖說明
下面結(jié)合附圖和實施例對本發(fā)明進(jìn)一步說明。顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
其中:
圖1為一個實施例中一種主動學(xué)習(xí)方法的流程圖;
圖2為一個實施例中一種模型剪枝方法的流程圖;
圖3為一個實施例中一種基于主動學(xué)習(xí)和模型剪枝的集成學(xué)習(xí)方法的流程圖;
圖4為一個實施例中一種基于主動學(xué)習(xí)和模型剪枝的集成學(xué)習(xí)裝置的示意圖;
圖5為本發(fā)明所述綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù)的集成學(xué)習(xí)方法的流程圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的原理和性質(zhì)進(jìn)行描述,所舉實例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明提供一種主動學(xué)習(xí)方法,如圖1所示,詳細(xì)過程如下:
1)如圖步驟S101,接收一組未標(biāo)記的樣本集合,以及一組已使用少量有標(biāo)記數(shù)據(jù)訓(xùn)練好的機(jī)器學(xué)習(xí)模型;
2)如圖步驟S102,對未標(biāo)記樣本集合內(nèi)的每個樣本,逐個輸入模型集合中的每個模型,得到每個模型對該樣本的預(yù)測值,這樣每個樣本可以得到一組預(yù)測值;
3)如圖步驟S103,對每個樣本,將上一步得到的一組預(yù)測值進(jìn)行平均,得到然后根據(jù)如下公式計算其多樣性或者稱為適用程度:
4)如圖步驟S104,從所有未標(biāo)記樣本中,選出適用程度最高的N個樣本,請求人工標(biāo)注;
5)如圖步驟S105,標(biāo)注完成后,將這N個樣本加入已標(biāo)注的樣本集合,并重新訓(xùn)練模型集合;
6)如圖步驟S106,判斷重新訓(xùn)練后的模型集合的學(xué)習(xí)效果是否在繼續(xù)提高,如果還在提高,那么重復(fù)步驟S102、S103、S104、S105,否則進(jìn)入下一步;
7)如圖步驟S107,輸出訓(xùn)練后的模型集合。
本發(fā)明提供一種模型剪枝方法,如圖2所示,詳細(xì)過程如下:
1)如圖步驟S201,接收一組已標(biāo)記的樣本集合作為驗證集,以及一組訓(xùn)練好的機(jī)器學(xué)習(xí)模型;
2)如圖步驟S202,從這組模型中,選擇效果最好的模型作為第一個被選出來的模型,組成留用集合,其他模型組成候選集合;
3)如圖步驟S203,從候選集合中,每輪篩選出一個模型,加入留用集合,選擇的標(biāo)準(zhǔn)是:將每個候選模型依次與留用集合組合得到相應(yīng)的測試模型集合,對驗證集中的每個樣本,設(shè)其標(biāo)準(zhǔn)答案為y,這組模型的預(yù)測值的平均為使用下式計算當(dāng)前測試模型集合對該樣本的適用程度:
然后對驗證集中所有樣本的適用程度求和,得到每個候選模型對應(yīng)的測試模型集合的綜合適用程度。將綜合適用程度最大的測試模型集合所對應(yīng)的候選模型選擇出來,加入留用集合;
4)如圖步驟S204,判斷留用集合的學(xué)習(xí)效果是否在繼續(xù)提高,如果還在提高,那么重復(fù)步驟S203,否則進(jìn)入下一步;
5)如圖步驟S205,輸出最終保留的留用集合。
綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù),本發(fā)明提供了一種集成學(xué)習(xí)方法,如圖3所示,詳細(xì)過程如下:
1)如圖步驟S301,接收一組未標(biāo)記的樣本集合,一組數(shù)量較少的已標(biāo)記的樣本集合;
2)如圖步驟S302,使用已標(biāo)記樣本集合訓(xùn)練一組機(jī)器學(xué)習(xí)模型,這里具體使用哪些機(jī)器學(xué)習(xí)模型不受限制。由于已標(biāo)記樣本集合包含樣本數(shù)量較少,故在此訓(xùn)練出來的模型效果和集成后的效果都會比較一般,通過后面幾步,將使集成模型的效果得到提升;
3)如圖步驟S303,利用前面所述主動學(xué)習(xí)方法,自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本,交給人工標(biāo)注,并重新訓(xùn)練模型,從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型集合的準(zhǔn)確度;
4)如圖步驟S304,利用前面所述模型剪枝方法,對得到的模型集合做進(jìn)一步的篩選;
5)如圖步驟S305,將篩選后的模型集合集成起來,作為最終的機(jī)器學(xué)習(xí)模型。這里集成方法不受限制,可以使用包括投票法、加權(quán)平均法等各種集成方法。
此外,本發(fā)明提供一種集成學(xué)習(xí)裝置,如圖4所示,包括五個模塊:樣本集輸入模塊101、基本機(jī)器學(xué)習(xí)模型的訓(xùn)練模塊102、基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊103、模型集合的剪枝模塊104和模型的集成模塊105,其中:
樣本集輸入模塊101,用于接收輸入的未標(biāo)記樣本集合,以及包含較少樣本的已標(biāo)記樣本集合;
基本機(jī)器學(xué)習(xí)模型的訓(xùn)練模塊102,用于利用已標(biāo)記樣本集合來訓(xùn)練基本的機(jī)器學(xué)習(xí)模型集合;
基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊103,用于利用前面所述主動學(xué)習(xí)方法,不斷地自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本,交給人工標(biāo)注,從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型的準(zhǔn)確度;
模型集合的剪枝模塊104,用于利用前面所述模型剪枝方法,對得到的模型集合做進(jìn)一步的篩選;
模型的集成模塊105,用來將篩選后的模型集合集成起來,對新輸入的樣本作出預(yù)測,并輸出預(yù)測值。
在本實施例中,基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊103還用于度量每個未標(biāo)記樣本對模型集合的適用程度,并交給人工標(biāo)注。
在本實施例中,模型集合的剪枝模塊104還用于度量一組模型集合對一組已標(biāo)記樣本集合的適用程度,并指導(dǎo)模型剪枝。
采用了上述綜合了主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù)的集成學(xué)習(xí)方法及裝置之后,不僅可以以很少的人工標(biāo)注成本得到理想的學(xué)習(xí)效果,還能夠降低最終集成模型的復(fù)雜度,從而提高集成學(xué)習(xí)性能。
以上所揭露的僅為本發(fā)明較佳實施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。