欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種有標(biāo)簽訓(xùn)練集的有效性評(píng)估方法

文檔序號(hào):8473081閱讀:543來(lái)源:國(guó)知局
一種有標(biāo)簽訓(xùn)練集的有效性評(píng)估方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)領(lǐng)域,涉及機(jī)器學(xué)習(xí)訓(xùn)練集評(píng)估方法,具體地說(shuō)是一種衡量有 標(biāo)簽訓(xùn)練集內(nèi)在規(guī)律大小的評(píng)估方法,該方法可取代交叉驗(yàn)證方法,用在機(jī)器學(xué)習(xí)的訓(xùn)練 集選擇中,也可以作為特征選擇算法性能以及特征降維算法性能的評(píng)價(jià)方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,我們擁有的數(shù)據(jù)越來(lái)越多,種類也包括圖片、 文本、視頻等非結(jié)構(gòu)化數(shù)據(jù),信息的爆炸式增長(zhǎng)已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它 不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息總量的變化還導(dǎo)致 了信息形態(tài)的變化,量變引發(fā)了質(zhì)變。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造 出了"大數(shù)據(jù)"這個(gè)概念。大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值,機(jī)器學(xué)習(xí)是利用數(shù)據(jù)價(jià)值的關(guān) 鍵技術(shù),對(duì)于大數(shù)據(jù)而言,機(jī)器學(xué)習(xí)是不可或缺的。相反,對(duì)于機(jī)器學(xué)習(xí)而言,越多的數(shù)據(jù)會(huì) 越可能提升模型的精確性,同時(shí),復(fù)雜的機(jī)器學(xué)習(xí)算法的計(jì)算時(shí)間也迫切需要分布式計(jì)算 與內(nèi)存計(jì)算這樣的關(guān)鍵技術(shù)。因此,機(jī)器學(xué)習(xí)的興盛也離不開大數(shù)據(jù)的幫助。大數(shù)據(jù)與機(jī) 器學(xué)習(xí)兩者是互相促進(jìn),相依相存的關(guān)系。
[0003] 機(jī)器學(xué)習(xí)是目前業(yè)界最為火熱的一項(xiàng)技術(shù),從網(wǎng)上的每一次淘寶的購(gòu)買東西,到 自動(dòng)駕駛汽車技術(shù),以及網(wǎng)絡(luò)攻擊抵御系統(tǒng)等等,都有機(jī)器學(xué)習(xí)的因子在內(nèi),同時(shí)機(jī)器學(xué)習(xí) 也是最有可能使人類完成Aldream的一項(xiàng)技術(shù),各種人工智能目前的應(yīng)用,如微軟小冰聊 天機(jī)器人,到計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步,都有機(jī)器學(xué)習(xí)努力的成分。
[0004] 統(tǒng)計(jì)學(xué)習(xí)是個(gè)與機(jī)器學(xué)習(xí)高度重疊的學(xué)科。因?yàn)闄C(jī)器學(xué)習(xí)中的大多數(shù)方法來(lái)自統(tǒng) 計(jì)學(xué),甚至可以認(rèn)為,統(tǒng)計(jì)學(xué)的發(fā)展促進(jìn)機(jī)器學(xué)習(xí)的繁榮昌盛。例如著名的支持向量機(jī)算 法,就是源自統(tǒng)計(jì)學(xué)科。機(jī)器學(xué)習(xí)中的"訓(xùn)練"與"預(yù)測(cè)"過(guò)程可以對(duì)應(yīng)到人類的"歸納"和 "推測(cè)"過(guò)程。通過(guò)這樣的對(duì)應(yīng),我們可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)的思想并不復(fù)雜,僅僅是對(duì)人類在 生活中學(xué)習(xí)成長(zhǎng)的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果,因此它的處理過(guò)程 不是因果的邏輯,而是通過(guò)歸納思想得出的相關(guān)性結(jié)論。從廣義上來(lái)說(shuō),機(jī)器學(xué)習(xí)是一種能 夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無(wú)法完成的功能的方法。但從實(shí)踐的意義上 來(lái)說(shuō),機(jī)器學(xué)習(xí)是一種通過(guò)利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)測(cè)的一種方法。
[0005] 機(jī)器學(xué)習(xí)方法是計(jì)算機(jī)利用已有的數(shù)據(jù)(經(jīng)驗(yàn)),得出了某種模型(規(guī)律),并利 用此模型預(yù)測(cè)未來(lái)的一種方法。該方法的前提是已有的數(shù)據(jù)中包含某種規(guī)律,如果數(shù)據(jù)本 身就是雜亂無(wú)章的,無(wú)論使用什么高效的算法也不會(huì)有好的預(yù)測(cè)效果。實(shí)際上,隨著我們掌 握的數(shù)據(jù)越來(lái)越多,可以發(fā)現(xiàn)的統(tǒng)計(jì)上顯著的相關(guān)關(guān)系也就越來(lái)越多。這些相關(guān)關(guān)系中,有 很多都是沒(méi)有實(shí)際意義的,在真正解決問(wèn)題時(shí)很可能將人引入歧途。這種欺騙性會(huì)隨著數(shù) 據(jù)的增多而指數(shù)級(jí)地增長(zhǎng)。大數(shù)據(jù)時(shí)代的特征之一就是,"重大"發(fā)現(xiàn)的數(shù)量被數(shù)據(jù)擴(kuò)張帶 來(lái)的噪音所淹沒(méi)。
[0006] 根據(jù)我們所能查閱和了解到資料分析認(rèn)為,目前在機(jī)器學(xué)習(xí)中訓(xùn)練集的選擇一般 采用交叉驗(yàn)證方法,該方法具有較高的時(shí)間復(fù)雜度和計(jì)算復(fù)雜度。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明旨在針對(duì)上述現(xiàn)有技術(shù)所存在的缺陷和不足,提供一種有標(biāo)簽訓(xùn)練集的有 效性評(píng)估方法,本方法直接計(jì)算訓(xùn)練集的LW指標(biāo),從而得出與交叉驗(yàn)證方法類似的結(jié)論, 且顯著減少了計(jì)算復(fù)雜度,具有很高的實(shí)用價(jià)值。
[0008] 本發(fā)明是通過(guò)采用下述技術(shù)方案實(shí)現(xiàn)的:
[0009] -種有標(biāo)簽訓(xùn)練集的有效性評(píng)估方法,其特征在于步驟如下:
[0010] A:針對(duì)訓(xùn)練集中的每一種類別Ci,iG[1,n。],計(jì)算所述(^類別中所有樣本點(diǎn)的均 值點(diǎn)〇i,ie[l,n。],其中n。為類別數(shù);
[0011]B:針對(duì)訓(xùn)練集中的每一種類別Ci,ie[l,n。],計(jì)算所述Ci類別的半徑
【主權(quán)項(xiàng)】
1. 一種有標(biāo)簽訓(xùn)練集的有效性評(píng)估方法,其特征在于步驟如下: A;針對(duì)訓(xùn)練集中的每一種類別C。iG[l,n。],計(jì)算所述C漢別中所有樣本點(diǎn)的均值點(diǎn) 0。iG[1,n。],其中n。為類別數(shù); B;針對(duì)訓(xùn)練集中的每一種類別C。iG[l,n。],計(jì)算所述Ci類別的半徑
其中如,111£ [1,M]為類別C沖離其均值點(diǎn)0南遠(yuǎn)的M個(gè)樣本點(diǎn),M為 經(jīng)驗(yàn)參數(shù); C;針對(duì)訓(xùn)練集中的每一種類別C。iG[l,n。],計(jì)算所述C漢別的所有樣本點(diǎn)的均值點(diǎn) 〇i到其余類別均值點(diǎn)0j,j聲i&je[1,nj的距離d(〇i,Oj); D;針對(duì)訓(xùn)練集中的每一種類別Ci,iG[l,n。],計(jì)算Ci類別相對(duì)于其余類別的間 隔巫i|j,j聲i&jE[l,n。],計(jì)算步驟為;若d(〇i,〇j)<Max(ri,;rj)成么轉(zhuǎn)至D01步;若 d(〇i,Oj) ^MaxCr^fj)成立,轉(zhuǎn)至D02步,其中MaxCr^fj)代表取r。之中最大的一個(gè); D01 ;類別Ci相對(duì)于其余類別的間隔〇i|j=d(o^〇j)-("rj); D02 ;類別Ci相對(duì)于其余類別的間隔
其 中,片-,kG[1,口為類別C沖離類別Ci的均值點(diǎn)0i最近的K個(gè)樣本點(diǎn);托kG[1,口為 類別Ci中離類別Cj.的均值點(diǎn)0j.最近的K個(gè)樣本點(diǎn);iIj代表Ci類別相對(duì)于Cj.類別的意思; E;訓(xùn)練集W的LW指標(biāo)計(jì)算為:
2. 根據(jù)權(quán)利要求1所述的一種有標(biāo)簽訓(xùn)練集的有效性評(píng)估方法,其特征在于;A步驟 中,所述樣本點(diǎn)是指Ci類別中的一個(gè)實(shí)例。
【專利摘要】本發(fā)明公開了一種有標(biāo)簽訓(xùn)練集的有效性評(píng)估方法,是評(píng)價(jià)機(jī)器學(xué)習(xí)中訓(xùn)練集內(nèi)部存在規(guī)律大小的一種方法。其步驟為A:針對(duì)訓(xùn)練集中的每一種類別,計(jì)算該類別中所有樣本點(diǎn)的均值點(diǎn);B:計(jì)算所述該類別的半徑;C:計(jì)算所述該類別的所有樣本點(diǎn)的均值點(diǎn)到其余類別均值點(diǎn)的距離;D:計(jì)算該類別相對(duì)于其余類別的間隔;E:訓(xùn)練集Ψ的LW指標(biāo)計(jì)算為:該方法可以幫助我們識(shí)別有噪聲的數(shù)據(jù),指導(dǎo)我們有針對(duì)性地選擇有價(jià)值的數(shù)據(jù)進(jìn)行學(xué)習(xí)。同時(shí),該方法也可以作為特征選擇算法性能以及特征降維算法性能的評(píng)價(jià)方法。
【IPC分類】G06F17-30
【公開號(hào)】CN104794248
【申請(qǐng)?zhí)枴緾N201510249560
【發(fā)明人】劉川, 汪文勇, 黃鸝聲, 唐勇
【申請(qǐng)人】電子科技大學(xué)
【公開日】2015年7月22日
【申請(qǐng)日】2015年5月15日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
垣曲县| 四川省| 南安市| 岳阳市| 辽宁省| 台江县| 门头沟区| 囊谦县| 建湖县| 土默特右旗| 札达县| 宿松县| 张北县| 陆良县| 城市| 崇仁县| 阿合奇县| 拉萨市| 左云县| 平南县| 白银市| 玉田县| 遵化市| 庆阳市| 巧家县| 双鸭山市| 岳阳市| 蛟河市| 遂昌县| 海淀区| 五大连池市| 盐池县| 岳西县| 滨州市| 南投县| 顺义区| 兴义市| 林芝县| 丰镇市| 广东省| 修武县|