離的步長向右逐步移動閾值范圍,當(dāng)移動的閾值范圍對應(yīng)的正 確率大于預(yù)設(shè)的正確率時,確定閾值(-t2,tl)為未知二元樣本對應(yīng)的閾值范圍。
[0030] 所述以第一距離的步長逐步向左、以第二距離的步長向右逐步移動閾值范圍具體 為:
[0031] 如以第一距離的步長向左移動閾值范圍的已知二元樣本的錯分率多,則先以第一 距離的步長向左移動閾值,然后再向右以第二距離的步長移動閾值;
[0032] 如以第二步長向右移動閾值范圍的已知二元樣本的錯分率多,則先以第二距離的 步長向右移動閾值,然后再以第一距離的步長向左移動閾值。
[0033] 可選的,所述第一預(yù)定比例值和第二預(yù)定比例值相同或不同。
[0034] 本發(fā)明提供的技術(shù)方案提高控制精度,實(shí)現(xiàn)靈活控制可控的置信機(jī)器以二元問題 為基礎(chǔ),運(yùn)用該種算法,具有適應(yīng)不同場合的需要、滿足不同應(yīng)用需求的特點(diǎn),同時也易于 推廣到多元分類問題。該方法實(shí)現(xiàn)了提高控制精度、具有控制靈活的特點(diǎn),在心臟病和糖尿 病等多個實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,取得了較好的實(shí)驗(yàn)效果。
[0035] 本發(fā)明提供的技術(shù)方案的軟件算法流程如下:
[0036] 訓(xùn)練算法流程:
[0037] (1)、軟件算法流程如下:
[0038] 訓(xùn)練算法流程:
[0039] 輸入
[0040] X:二元訓(xùn)練數(shù)據(jù)樣本
[0041] Y:二元訓(xùn)練樣本標(biāo)簽
[0042] TrainSet: (X,Y)
[0043] mp:錯分的score輸出百分比
[0044] 輸出
[0045] 正例閾值:tl
[0046] 負(fù)例閾值:_t2
[0047] 過程
[0048] 1、用TrainSet訓(xùn)練二元分類器,取得二元分類器的有關(guān)參數(shù)值
[0049] 2、用二元分類器在訓(xùn)練集TrainSet上進(jìn)行分類
[0050] 3、將分類結(jié)果轉(zhuǎn)換成score輸出
[0051] 4、四種情況判斷
[0052] 5、計(jì)算錯分的score輸出百分比來確定閾值
[0053] 6、輸出tl和 _t2
[0054] 7、結(jié)束
[0055] 分類算法流程:
[0056] 輸入
[0057] x:未知樣本
[0058] 輸出
[0059] 未知樣本的類別
[0060] or
[0061] 人工處理未知樣本
[0062] 過程
[0063]1、用二元分類器對未知x進(jìn)行分類
[0064] 2、將分類結(jié)果轉(zhuǎn)換成score輸出
[0065] 3、ifscore值〈=_t2orscore值 >=tl [0066] 輸出未知樣本的類別
[0067] else
[0068] 人工處理
[0069] endif
[0070] 4、結(jié)束
[0071] 采用本發(fā)明所述方案的實(shí)驗(yàn)數(shù)據(jù)如下:
[0072] 表1實(shí)驗(yàn)使用數(shù)據(jù)集情況表
[0073]
【主權(quán)項(xiàng)】
1. 一種基于設(shè)置正負(fù)例錯分值的百分比的可控置信機(jī)器算法,其特征在于,所述方法 包括如下步驟: 接收二元訓(xùn)練數(shù)據(jù)樣本和二元訓(xùn)練樣本標(biāo)簽構(gòu)成的訓(xùn)練集TrainSet; 根據(jù)所述訓(xùn)練集TrainSet訓(xùn)練二元分類器,得到二元分類器參數(shù)值; 根據(jù)所述二元分類器在所述訓(xùn)練集TrainSet上分類,并將分類結(jié)果轉(zhuǎn)換成輸出值Outputscore; 從原點(diǎn)出發(fā)向左,通過逐步增加第一距離的步長,以及通過以原點(diǎn)出發(fā),向右逐步增加 第二距離的步長,確定滿足要求的閾值范圍(_t2,tl),其中,所述第一距離為原點(diǎn)至正例錯 分的最小的Score值的距離的第一預(yù)定比例值,所述第二距離為原點(diǎn)至負(fù)例錯分的最大的 Score值的距離的第二預(yù)定比例值; 獲取未知二元樣本,根據(jù)所述二元分類器對未知二元樣本進(jìn)行分類,并將分類結(jié)果轉(zhuǎn) 換成輸出值Outputscore; 如果所述未知二元樣本的輸出值Outputscore屬于該閾值范圍,將未知樣本分配到拒 絕域,如未知二元樣本的輸出值OutputScore不屬于該閾值范圍,將未知樣本分配到接受 域。
2. 根據(jù)權(quán)利要求1所述方法,其特征在于,所述從原點(diǎn)出發(fā)向左,通過逐步增加第一距 離的步長,以及通過以原點(diǎn)出發(fā),向右逐步增加第二距離的步長,確定滿足要求的閾值范圍 步驟為: 根據(jù)所述第一距離、第二距離的步長和預(yù)設(shè)的正確率,以原點(diǎn)為基準(zhǔn),以第一距離的步 長逐步向左、以第二距離的步長向右逐步移動閾值范圍,當(dāng)移動的閾值范圍對應(yīng)的正確率 大于預(yù)設(shè)的正確率時,確定閾值(_t2,tl)為未知二元樣本對應(yīng)的閾值范圍。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述以第一距離的步長逐步向左、以第二 距離的步長向右逐步移動閾值范圍具體為: 如以第一距離的步長向左移動閾值范圍的已知二元樣本的錯分率多,則先以第一距離 的步長向左移動閾值,然后再向右以第二距離的步長移動閾值; 如以第二步長向右移動閾值范圍的已知二元樣本的錯分率多,則先以第二距離的步長 向右移動閾值,然后再以第一距離的步長向左移動閾值。
4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述方法,其特征在于,所述第一預(yù)定比例值和第二預(yù)定 比例值相同或不同。
【專利摘要】本發(fā)明適用機(jī)器學(xué)習(xí)領(lǐng)域,提供了一種基于設(shè)置正負(fù)例錯分值的百分比的可控置信機(jī)器算法,包括:根據(jù)樣本訓(xùn)練集訓(xùn)練二元分類器,根據(jù)所述二元分類器在所述訓(xùn)練集Train Set上分類,并將分類結(jié)果轉(zhuǎn)換成輸出值;從原點(diǎn)出發(fā)向左,通過逐步增加第一距離的步長,以及通過以原點(diǎn)出發(fā),向右逐步增加第二距離的步長,確定滿足要求的閾值范圍,其中,所述第一距離為原點(diǎn)至正例錯分的最小的Score值的距離的第一預(yù)定比例值,所述第二距離為原點(diǎn)至負(fù)例錯分的最大的Score值的距離的第二預(yù)定比例值;根據(jù)所述閾值范圍對未知樣本的分類結(jié)果進(jìn)行分配。本發(fā)明提供的技術(shù)方案具有控制精度,實(shí)現(xiàn)靈活控制的優(yōu)點(diǎn)。
【IPC分類】G06K9-62
【公開號】CN104820838
【申請?zhí)枴緾N201510202142
【發(fā)明人】蔣方純
【申請人】深圳信息職業(yè)技術(shù)學(xué)院
【公開日】2015年8月5日
【申請日】2015年4月24日