基于設(shè)置正負(fù)例錯(cuò)分值的百分比的可控置信機(jī)器算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于設(shè)置正負(fù)例錯(cuò)分值的百分比的可控 置信機(jī)器算法。
【背景技術(shù)】
[0002] 置信機(jī)器就是在機(jī)器學(xué)習(xí)的過程中對學(xué)習(xí)的結(jié)果同時(shí)提供一個(gè)可信的程度判斷 或可以對學(xué)習(xí)結(jié)果進(jìn)行預(yù)設(shè)的分類處理。置信機(jī)器在醫(yī)療診斷等高風(fēng)險(xiǎn)的應(yīng)用領(lǐng)域有著 重要的現(xiàn)實(shí)意義。置信機(jī)器是機(jī)器學(xué)習(xí)領(lǐng)域中研宄時(shí)間不長的一個(gè)分支,實(shí)現(xiàn)置信機(jī)器學(xué) 習(xí)的理論基礎(chǔ)與方法并不多,有直接構(gòu)造置信度的方法,有間接構(gòu)造置信度的方法,有通過 設(shè)置拒絕選項(xiàng),可以進(jìn)行預(yù)設(shè)的分類處理,來排除低可信的部分,從而提高剩余部分的可信 度,實(shí)現(xiàn)置信分類,并對錯(cuò)分率可控。
[0003] 2005 年由VladimirVovk,AlexanderGammerman,GlennShafer出版了關(guān)于信任 機(jī)器學(xué)習(xí)的專著《AlgorithmicLearninginaRandomWorld》。2004年邱德紅等在計(jì)算 機(jī)研宄與發(fā)展期刊Vol. 41,No. 9中發(fā)表了《基于算法隨機(jī)性理論和奇異描述的置信學(xué)習(xí)機(jī) 器》,根據(jù)Kolmogorov算法隨機(jī)性理論,為學(xué)習(xí)機(jī)器建立了一種置信機(jī)制,描述了置信學(xué)習(xí) 機(jī)器的算法。
[0004] 現(xiàn)有的方案有以下幾個(gè)問題:
[0005] (1)置信控制的精度不夠。目前上述的置信機(jī)器學(xué)習(xí)方法是通過設(shè)置Bin的方法 來計(jì)算錯(cuò)分率,并根據(jù)計(jì)算結(jié)果設(shè)置閾值,但最后正負(fù)例正確率控制與當(dāng)初預(yù)設(shè)值比較,有 時(shí)差距會(huì)很大。
[0006] (2)置信控制不夠靈活。設(shè)置Bin的方法有一定的限制,不能任意設(shè)置數(shù)值,進(jìn)行 靈活多變的控制,滿足不同的要求。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明實(shí)施例的目的在于提供一種基于設(shè)置正負(fù)例的錯(cuò)分率百分比的可控置信 機(jī)器算法,其解決現(xiàn)有技術(shù)的置信控制的精度不夠,置信控制不夠靈活的問題。
[0008] 本發(fā)明實(shí)施例是這樣實(shí)現(xiàn)的,一方面,公開了一種基于設(shè)置正負(fù)例錯(cuò)分值的百分 比的可控置信機(jī)器算法,所述方法包括如下步驟:
[0009] 接收二元訓(xùn)練數(shù)據(jù)樣本和二元訓(xùn)練樣本標(biāo)簽構(gòu)成的訓(xùn)練集TrainSet;
[0010] 根據(jù)所述訓(xùn)練集TrainSet訓(xùn)練二元分類器,得到二元分類器參數(shù)值;
[0011] 根據(jù)所述二元分類器在所述訓(xùn)練集TrainSet上分類,并將分類結(jié)果轉(zhuǎn)換成輸出 值Outputscore;
[0012] 從原點(diǎn)出發(fā)向左,通過逐步增加第一距離的步長,以及通過以原點(diǎn)出發(fā),向右逐步 增加第二距離的步長,確定滿足要求的閾值范圍(_t2,tl),其中,所述第一距離為原點(diǎn)至正 例錯(cuò)分的最小的Score值的距離的第一預(yù)定比例值,所述第二距離為原點(diǎn)至負(fù)例錯(cuò)分的最 大的Score值的距離的第二預(yù)定比例值;
[0013] 獲取未知二元樣本,根據(jù)所述二元分類器對未知二元樣本進(jìn)行分類,并將分類結(jié) 果轉(zhuǎn)換成輸出值Outputscore;
[0014] 如果所述未知二元樣本的輸出值Outputscore屬于該閾值范圍,將未知樣本分配 到拒絕域,如未知二元樣本的輸出值OutputScore不屬于該閾值范圍,將未知樣本分配到 接受域。
[0015] 優(yōu)選的,所述從原點(diǎn)出發(fā)向左,通過逐步增加第一距離的步長,以及通過以原點(diǎn)出 發(fā),向右逐步增加第二距離的步長,確定滿足要求的閾值范圍步驟為:
[0016] 根據(jù)所述第一距離、第二距離的步長和預(yù)設(shè)的正確率,以原點(diǎn)為基準(zhǔn),以第一距離 的步長逐步向左、以第二距離的步長向右逐步移動(dòng)閾值范圍,當(dāng)移動(dòng)的閾值范圍對應(yīng)的正 確率大于預(yù)設(shè)的正確率時(shí),確定閾值(-t2,tl)為未知二元樣本對應(yīng)的閾值范圍。
[0017] 在本發(fā)明實(shí)施例中,本發(fā)明提供的技術(shù)方案通過分別設(shè)置正負(fù)例錯(cuò)分率的百分比 作為移動(dòng)步長,可以根據(jù)需要靈活設(shè)置數(shù)值,控制靈活,而且通過調(diào)整所述百分比值控制步 長,可以實(shí)現(xiàn)更高精度的置信控制。
【附圖說明】
[0018] 圖1是本發(fā)明提供的一種基于設(shè)置正負(fù)例錯(cuò)分值的百分比的可控置信機(jī)器算法 的流程圖。
【具體實(shí)施方式】
[0019] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0020] 本發(fā)明【具體實(shí)施方式】提供一種基于設(shè)置正負(fù)例錯(cuò)分值的百分比的可控置信機(jī)器 算法,上述方法由置信機(jī)器執(zhí)行,該方法如圖1所示,包括如下步驟:
[0021] 在步驟S101中,接收二元訓(xùn)練數(shù)據(jù)樣本和二元訓(xùn)練樣本標(biāo)簽構(gòu)成的訓(xùn)練集Train Set;
[0022] 在步驟S102中,根據(jù)所述訓(xùn)練集TrainSet訓(xùn)練二元分類器,得到二元分類器參 數(shù)值;
[0023] 在步驟S103中,根據(jù)所述二元分類器在所述訓(xùn)練集TrainSet上分類,并將分類 結(jié)果轉(zhuǎn)換成輸出值Outputscore;
[0024] 在步驟S104中,從原點(diǎn)出發(fā)向左,通過逐步增加第一距離的步長,以及通過以原 點(diǎn)出發(fā),向右逐步增加第二距離的步長,確定滿足要求的閾值范圍(_t2,tl),其中,所述第 一距離為原點(diǎn)至正例錯(cuò)分的最小的Score值的距離的第一預(yù)定比例值,所述第二距離為原 點(diǎn)至負(fù)例錯(cuò)分的最大的Score值的距離的第二預(yù)定比例值;
[0025] 在步驟S105中,獲取未知二元樣本,根據(jù)所述二元分類器對未知二元樣本進(jìn)行分 類,并將分類結(jié)果轉(zhuǎn)換成輸出值Outputscore;
[0026] 在步驟S106中,如果所述未知二元樣本的輸出值Outputscore屬于該閾值范圍, 將未知樣本分配到拒絕域,如未知二元樣本的輸出值OutputScore不屬于該閾值范圍,將 未知樣本分配到接受域。
[0027] 本發(fā)明提供的具體方案通過分別設(shè)置正負(fù)例錯(cuò)分率的百分比作為移動(dòng)步長,可以 根據(jù)需要靈活設(shè)置數(shù)值,控制靈活,而且通過調(diào)整所述百分比值控制步長,可以實(shí)現(xiàn)更高精 度的置信控制。
[0028] 可選的,所述從原點(diǎn)出發(fā)向左,通過逐步增加第一距離的步長,以及通過以原點(diǎn)出 發(fā),向右逐步增加第二距離的步長,確定滿足要求的閾值范圍步驟為:
[0029] 根據(jù)所述第一距離、第二距離的步長和預(yù)設(shè)的正確率,以原點(diǎn)為基準(zhǔn),以第一距離 的步長逐步向左、以第二距