一種基于主動學(xué)習(xí)和模型剪枝的集成學(xué)習(xí)方法及裝置與流程

文檔序號：12469217閱讀：173來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于主動學(xué)習(xí)和模型剪枝的集成學(xué)習(xí)方法及裝置與流程

本發(fā)明屬于機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)領(lǐng)域，尤其涉及機(jī)器學(xué)習(xí)中的主動學(xué)習(xí)和集成學(xué)習(xí)中的模型剪枝方法及裝置。

背景技術(shù)：

主動學(xué)習(xí)：

機(jī)器學(xué)習(xí)方法正在取得越來越廣泛的應(yīng)用，并深刻的影響著人們的日常生活。

目前，機(jī)器學(xué)習(xí)中普遍存在的一個問題是標(biāo)準(zhǔn)答案獲取成本高。盡管隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)量變得越來越龐大，然而這些數(shù)據(jù)大多是原始的、粗糙的、沒有經(jīng)過人工標(biāo)記的，例如網(wǎng)絡(luò)上大量的圖片數(shù)據(jù)，并沒有被標(biāo)記上圖片的主題、包含人的數(shù)量等信息，而這些信息對于機(jī)器學(xué)習(xí)而言是十分寶貴的。不使用標(biāo)準(zhǔn)答案的機(jī)器學(xué)習(xí)方法稱為“無監(jiān)督學(xué)習(xí)”，相應(yīng)的，使用標(biāo)準(zhǔn)答案的方法稱為“有監(jiān)督學(xué)習(xí)”。通常，有監(jiān)督學(xué)習(xí)比無監(jiān)督學(xué)習(xí)的效果要好很多。

主動學(xué)習(xí)技術(shù)就是為了應(yīng)對這種情況而提出來的。這種技術(shù)利用一些標(biāo)準(zhǔn)對輸入的未標(biāo)記樣本進(jìn)行判斷，如果判斷此樣本包含的信息量比較大，可以有效的訓(xùn)練機(jī)器學(xué)習(xí)模型，那么就將此樣本交給人類來進(jìn)行標(biāo)注，然后使用標(biāo)注后的樣本訓(xùn)練機(jī)器學(xué)習(xí)模型。這樣，隨著一個一個的樣本被標(biāo)注和加入訓(xùn)練集合，機(jī)器學(xué)習(xí)模型可以很快的達(dá)到較為理想的水平。有研究表明，達(dá)到同樣的學(xué)習(xí)效果，主動學(xué)習(xí)可以比傳統(tǒng)方法少用90％的樣本數(shù)量。

然而，當(dāng)前的主動學(xué)習(xí)技術(shù)對樣本有效性的判斷還存在一定的問題，很多情況下，選擇出來用以訓(xùn)練機(jī)器學(xué)習(xí)模型的樣本，并不是候選樣本中最好的，從而限制了訓(xùn)練后的機(jī)器學(xué)習(xí)模型的效果。

集成學(xué)習(xí)：

在眾多的機(jī)器學(xué)習(xí)方法中，集成學(xué)習(xí)是最為成功的一類方法，其中隨機(jī)森林、梯度提升(gradient boosting)等方法是集成學(xué)習(xí)的典型代表。集成學(xué)習(xí)的基本想法是組合眾多基本的機(jī)器學(xué)習(xí)模型的結(jié)果，以達(dá)到提升學(xué)習(xí)效果的目的。

集成學(xué)習(xí)方法主要包含三個部分：模型的生成，模型的剪枝，模型的集成。

模型的生成需要完成基分類器的訓(xùn)練任務(wù)。對于輸入的訓(xùn)練數(shù)據(jù)集，訓(xùn)練出若干個不同的機(jī)器學(xué)習(xí)模型，且這些模型可以各自對輸入樣本進(jìn)行預(yù)測。

模型的剪枝需要完成冗余模型的刪減任務(wù)。由于模型生成時十分容易造成冗余和相關(guān)，因此對這些模型進(jìn)行刪減十分重要。已有研究表明，使用合適的剪枝方法可以提高集成學(xué)習(xí)的學(xué)習(xí)效果。

模型的集成需要對刪減后的模型進(jìn)行集成。目前集成方法比較多，常用的有投票法、加權(quán)平均法等。

無論在理論還是實踐方面，集成學(xué)習(xí)都已經(jīng)被證明可以達(dá)到比單個機(jī)器學(xué)習(xí)模型更好的水平，并且學(xué)習(xí)效果隨著集成的模型數(shù)目的增多而變得更好。然而，在實際應(yīng)用中，集成太多的模型會導(dǎo)致速度變慢，性能降低，并且對硬件要求也更高。因此，模型的剪枝是一個相當(dāng)重要的環(huán)節(jié)。

簡單的根據(jù)模型的準(zhǔn)確率進(jìn)行選擇已被證明是效果不佳的，因為會留下許多相似的或相關(guān)的模型。當(dāng)前的模型剪枝方法，大多著眼于模型的多樣性，即盡量留下互相之間不相似的模型。但是，過于強(qiáng)調(diào)多樣性也會導(dǎo)致集成后的效果一般。

技術(shù)實現(xiàn)要素：

基于上述關(guān)于主動學(xué)習(xí)技術(shù)和集成學(xué)習(xí)技術(shù)的情況，提出了一種適用于集成學(xué)習(xí)情況下的主動學(xué)習(xí)方法。

一種適用于集成學(xué)習(xí)情況下的主動學(xué)習(xí)方法，包括：

接收一組未標(biāo)記的樣本集合，以及一組使用少量有標(biāo)記數(shù)據(jù)訓(xùn)練好的機(jī)器學(xué)習(xí)模型；

將未標(biāo)記樣本集合內(nèi)的樣本逐個輸入模型集合，得到每個模型對該樣本的預(yù)測值；

對每個樣本，根據(jù)得到的一組預(yù)測值，計算其平均預(yù)測值然后根據(jù)如下公式計算其多樣性或者稱為適用程度：

此公式來源于集成學(xué)習(xí)中的泛化誤差分解理論，在二分類問題中，如果使用邏輯回歸損失(logistic loss)來度量分類效果的好壞，那么此公式度量的就是一組機(jī)器學(xué)習(xí)模型的“歧義度”(Ambiguity)，因此也被廣泛接受為多樣性的度量。

從所有未標(biāo)記樣本中，選出適用程度最高的若干個(記為N個)樣本，請求人工標(biāo)注；

標(biāo)注完成后，將此N個樣本加入已標(biāo)注的樣本集合，并重新訓(xùn)練模型集合；

此過程不斷重復(fù)，直到學(xué)習(xí)效果無法繼續(xù)提高為止。

基于上述關(guān)于模型剪枝技術(shù)的情況，提供了一種模型剪枝方法。

一種模型剪枝方法，包括：

接收一組已標(biāo)記的樣本集合作為驗證集，以及一組訓(xùn)練好的機(jī)器學(xué)習(xí)模型；

從這組模型中，選擇效果最好的模型作為第一個被選出來的模型，組成留用集合，其他模型組成候選集合；

從候選集合中，每輪選出一個模型，加入留用集合，選擇的標(biāo)準(zhǔn)是：將該候選模型與留用集合組合得到測試模型集合，對驗證集中的每個樣本，設(shè)其標(biāo)準(zhǔn)答案為y，這組模型的預(yù)測值的平均為使用下式計算當(dāng)前測試模型集合對該樣本的適用程度：

此公式同樣來源于集成學(xué)習(xí)中的泛化誤差分解理論，在樣本標(biāo)記為1和-1的二分類問題中，如果使用邏輯回歸損失來度量分類效果的好壞，那么此公式分子部分度量的就是一組機(jī)器學(xué)習(xí)模型的平均準(zhǔn)確度，分母部分度量的是一組模型的相似性，二者之比最大時，就是多樣性最大同時平均誤差最低的情況，因此可以作為模型集合對樣本的適用程度。對驗證集中所有樣本的適用程度求和，就得到綜合適用程度。將綜合適用程度最大的模型選擇出來，加入留用集合；

重復(fù)上述過程，直到留用集合在驗證集上的誤差不能再繼續(xù)降低為止。

綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù)，提供了一種集成學(xué)習(xí)方法。

一種集成學(xué)習(xí)方法，包括：

接收一組未標(biāo)記的樣本集合，一組數(shù)量較少的已標(biāo)記的樣本集合；

使用已標(biāo)記樣本集合訓(xùn)練一組機(jī)器學(xué)習(xí)模型；

利用前面所述主動學(xué)習(xí)方法，不斷地自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本，交給人工標(biāo)注，從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型的準(zhǔn)確度；

利用前面所述模型剪枝方法，對得到的模型集合做進(jìn)一步的篩選；

將篩選后的模型集合集成起來，作為最終的機(jī)器學(xué)習(xí)模型。

綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù)，提供了一種集成學(xué)習(xí)裝置。

一種集成學(xué)習(xí)裝置，包括：

樣本集輸入模塊，用于接收輸入的未標(biāo)記樣本集合，以及包含較少樣本的已標(biāo)記樣本集合；

基本機(jī)器學(xué)習(xí)模型的訓(xùn)練模塊，用于利用已標(biāo)記樣本集合來訓(xùn)練基本的機(jī)器學(xué)習(xí)模型集合；

基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊，用于利用前面所述主動學(xué)習(xí)方法，不斷地自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本，交給人工標(biāo)注，從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型的準(zhǔn)確度；

模型集合的剪枝模塊，用于利用前面所述模型剪枝方法，對得到的模型集合做進(jìn)一步的篩選；

模型的集成模塊，用來將篩選后的模型集合集成起來，對新輸入的樣本作出預(yù)測，并輸出預(yù)測值。

實施本發(fā)明實施例，將具有如下有益效果：

該主動學(xué)習(xí)方法使用了一種新的度量樣本適用程度的標(biāo)準(zhǔn)，可以有效的篩選出最適合當(dāng)前模型集合的樣本，減少了需要人工標(biāo)注的樣本數(shù)量，節(jié)約了人工標(biāo)注的成本。

該模型剪枝方法可以在不降低甚至提高集成模型的效果的情況下，顯著減少最終模型集合所包含的模型數(shù)量，從而提高了集成模型的性能。

該基于主動學(xué)習(xí)和模型剪枝的集成方法和裝置僅需要人工標(biāo)注少量未標(biāo)記樣本，與傳統(tǒng)集成方法相比，所需要的人工標(biāo)注成本顯著降低，且性能比簡單集成方法更高。

附圖說明

下面結(jié)合附圖和實施例對本發(fā)明進(jìn)一步說明。顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

其中：

圖1為一個實施例中一種主動學(xué)習(xí)方法的流程圖；

圖2為一個實施例中一種模型剪枝方法的流程圖；

圖3為一個實施例中一種基于主動學(xué)習(xí)和模型剪枝的集成學(xué)習(xí)方法的流程圖；

圖4為一個實施例中一種基于主動學(xué)習(xí)和模型剪枝的集成學(xué)習(xí)裝置的示意圖；

圖5為本發(fā)明所述綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù)的集成學(xué)習(xí)方法的流程圖。

具體實施方式

以下結(jié)合附圖對本發(fā)明的原理和性質(zhì)進(jìn)行描述，所舉實例只用于解釋本發(fā)明，并非用于限定本發(fā)明的范圍?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明提供一種主動學(xué)習(xí)方法，如圖1所示，詳細(xì)過程如下：

1)如圖步驟S101，接收一組未標(biāo)記的樣本集合，以及一組已使用少量有標(biāo)記數(shù)據(jù)訓(xùn)練好的機(jī)器學(xué)習(xí)模型；

2)如圖步驟S102，對未標(biāo)記樣本集合內(nèi)的每個樣本，逐個輸入模型集合中的每個模型，得到每個模型對該樣本的預(yù)測值，這樣每個樣本可以得到一組預(yù)測值；

3)如圖步驟S103，對每個樣本，將上一步得到的一組預(yù)測值進(jìn)行平均，得到然后根據(jù)如下公式計算其多樣性或者稱為適用程度：

4)如圖步驟S104，從所有未標(biāo)記樣本中，選出適用程度最高的N個樣本，請求人工標(biāo)注；

5)如圖步驟S105，標(biāo)注完成后，將這N個樣本加入已標(biāo)注的樣本集合，并重新訓(xùn)練模型集合；

6)如圖步驟S106，判斷重新訓(xùn)練后的模型集合的學(xué)習(xí)效果是否在繼續(xù)提高，如果還在提高，那么重復(fù)步驟S102、S103、S104、S105，否則進(jìn)入下一步；

7)如圖步驟S107，輸出訓(xùn)練后的模型集合。

本發(fā)明提供一種模型剪枝方法，如圖2所示，詳細(xì)過程如下：

1)如圖步驟S201，接收一組已標(biāo)記的樣本集合作為驗證集，以及一組訓(xùn)練好的機(jī)器學(xué)習(xí)模型；

2)如圖步驟S202，從這組模型中，選擇效果最好的模型作為第一個被選出來的模型，組成留用集合，其他模型組成候選集合；

3)如圖步驟S203，從候選集合中，每輪篩選出一個模型，加入留用集合，選擇的標(biāo)準(zhǔn)是：將每個候選模型依次與留用集合組合得到相應(yīng)的測試模型集合，對驗證集中的每個樣本，設(shè)其標(biāo)準(zhǔn)答案為y，這組模型的預(yù)測值的平均為使用下式計算當(dāng)前測試模型集合對該樣本的適用程度：

然后對驗證集中所有樣本的適用程度求和，得到每個候選模型對應(yīng)的測試模型集合的綜合適用程度。將綜合適用程度最大的測試模型集合所對應(yīng)的候選模型選擇出來，加入留用集合；

4)如圖步驟S204，判斷留用集合的學(xué)習(xí)效果是否在繼續(xù)提高，如果還在提高，那么重復(fù)步驟S203，否則進(jìn)入下一步；

5)如圖步驟S205，輸出最終保留的留用集合。

綜合主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù)，本發(fā)明提供了一種集成學(xué)習(xí)方法，如圖3所示，詳細(xì)過程如下：

1)如圖步驟S301，接收一組未標(biāo)記的樣本集合，一組數(shù)量較少的已標(biāo)記的樣本集合；

2)如圖步驟S302，使用已標(biāo)記樣本集合訓(xùn)練一組機(jī)器學(xué)習(xí)模型，這里具體使用哪些機(jī)器學(xué)習(xí)模型不受限制。由于已標(biāo)記樣本集合包含樣本數(shù)量較少，故在此訓(xùn)練出來的模型效果和集成后的效果都會比較一般，通過后面幾步，將使集成模型的效果得到提升；

3)如圖步驟S303，利用前面所述主動學(xué)習(xí)方法，自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本，交給人工標(biāo)注，并重新訓(xùn)練模型，從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型集合的準(zhǔn)確度；

4)如圖步驟S304，利用前面所述模型剪枝方法，對得到的模型集合做進(jìn)一步的篩選；

5)如圖步驟S305，將篩選后的模型集合集成起來，作為最終的機(jī)器學(xué)習(xí)模型。這里集成方法不受限制，可以使用包括投票法、加權(quán)平均法等各種集成方法。

此外，本發(fā)明提供一種集成學(xué)習(xí)裝置，如圖4所示，包括五個模塊：樣本集輸入模塊101、基本機(jī)器學(xué)習(xí)模型的訓(xùn)練模塊102、基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊103、模型集合的剪枝模塊104和模型的集成模塊105，其中：

樣本集輸入模塊101，用于接收輸入的未標(biāo)記樣本集合，以及包含較少樣本的已標(biāo)記樣本集合；

基本機(jī)器學(xué)習(xí)模型的訓(xùn)練模塊102，用于利用已標(biāo)記樣本集合來訓(xùn)練基本的機(jī)器學(xué)習(xí)模型集合；

基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊103，用于利用前面所述主動學(xué)習(xí)方法，不斷地自動從未標(biāo)記樣本集合中選擇關(guān)鍵樣本，交給人工標(biāo)注，從而提高已訓(xùn)練的機(jī)器學(xué)習(xí)模型的準(zhǔn)確度；

模型集合的剪枝模塊104，用于利用前面所述模型剪枝方法，對得到的模型集合做進(jìn)一步的篩選；

模型的集成模塊105，用來將篩選后的模型集合集成起來，對新輸入的樣本作出預(yù)測，并輸出預(yù)測值。

在本實施例中，基本機(jī)器學(xué)習(xí)模型的主動學(xué)習(xí)模塊103還用于度量每個未標(biāo)記樣本對模型集合的適用程度，并交給人工標(biāo)注。

在本實施例中，模型集合的剪枝模塊104還用于度量一組模型集合對一組已標(biāo)記樣本集合的適用程度，并指導(dǎo)模型剪枝。

采用了上述綜合了主動學(xué)習(xí)技術(shù)和模型剪枝技術(shù)的集成學(xué)習(xí)方法及裝置之后，不僅可以以很少的人工標(biāo)注成本得到理想的學(xué)習(xí)效果，還能夠降低最終集成模型的復(fù)雜度，從而提高集成學(xué)習(xí)性能。

以上所揭露的僅為本發(fā)明較佳實施例而已，當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍，因此依本發(fā)明權(quán)利要求所作的等同變化，仍屬本發(fā)明所涵蓋的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉宏志;姜正申;易暉;趙鵬;吳中海;張興
技術(shù)所有人：北京大學(xué);北京華品博睿網(wǎng)絡(luò)技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：交互方法、交互裝置、顯示設(shè)備及圖像獲取設(shè)備與流程
上一篇：一種顯示信息的方法和終端與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于主動學(xué)習(xí)和模型剪枝的集成學(xué)習(xí)方法及裝置與流程