一種針對(duì)樣本性質(zhì)提取有效特征的方法

文檔序號(hào)：10535387閱讀：723來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種針對(duì)樣本性質(zhì)提取有效特征的方法
【專利摘要】本發(fā)明公開一種針對(duì)樣本性質(zhì)提取有效特征的方法，包括訓(xùn)練樣本特征序列化步驟、樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練步驟和針對(duì)樣本的模型分類步驟；分類時(shí)初期設(shè)定一個(gè)初始的特征集，對(duì)于每一個(gè)需要分類的樣本根據(jù)當(dāng)前已有特征集決定下一步需要提取特征集，然后判斷是否停止提取特征，如果還需要提取特征，則重復(fù)上一步過程，如果停止提取特征，就輸入到合適的分類器進(jìn)行分類，得到預(yù)測(cè)結(jié)果。與現(xiàn)有技術(shù)相比，本發(fā)明充分考慮了樣本特征提取的時(shí)間開銷和分類的置信度。
【專利說明】
_種針對(duì)樣本性質(zhì)提取有效特征的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及模式識(shí)別中針對(duì)樣本的有效特征提取技術(shù)，特別適用于同時(shí)需要考慮特征提取代價(jià)和分類結(jié)果可靠性的問題。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)和各種便攜式上網(wǎng)設(shè)備的快速發(fā)展，網(wǎng)絡(luò)已經(jīng)成為人們生活的重要組成部分和人類文明傳播發(fā)展的重要載體;越來越多的數(shù)據(jù)通過網(wǎng)絡(luò)傳播。為了滿足人們對(duì) 于信息形式的不同需求，我們通常把文字、聲音、圖像等信息融為一體;這就導(dǎo)致了網(wǎng)絡(luò)中數(shù)據(jù)形式的紛繁復(fù)雜?，F(xiàn)在，越來越多的復(fù)雜媒體數(shù)據(jù)在網(wǎng)絡(luò)中大量產(chǎn)生和傳播。我們面臨著如何在這些大量且復(fù)雜的數(shù)據(jù)上進(jìn)行高效的檢索和分類的問題。因此，人們希望尋求一種高效且有用的特征提取方式來處理這些大量的信息。
[0003] 目前，有很多在線的機(jī)器學(xué)習(xí)方法，比如:在線聚類、在線分類;它們都是通過采樣或者優(yōu)化策略來對(duì)學(xué)習(xí)過程進(jìn)行加速。然而，這些方法都是建立在特征提出開銷沒有考慮的基礎(chǔ)之上的；也就是說數(shù)據(jù)從原始數(shù)據(jù)到有效特征的提取開銷是沒有考慮的。實(shí)際上，在整個(gè)分類系統(tǒng)的運(yùn)轉(zhuǎn)中，從原始數(shù)據(jù)中提取出有效特征是一個(gè)不小的開銷；隨著數(shù)據(jù)形式越來越復(fù)雜，特征提取開銷占整個(gè)系統(tǒng)的開銷比例也越來越大。如何高效的提取有用特征是我們需要解決的一個(gè)問題。
[0004] 在醫(yī)療診斷系統(tǒng)中，有一系列的檢測(cè)，比如:體溫測(cè)量、血液檢查、血壓測(cè)量。然而，我們?cè)谠\斷過程不是得到所有檢測(cè)的結(jié)果，然后下診斷，這樣做的成本過于高昂；而是先進(jìn) 行初步的檢查，然后根據(jù)初步檢查結(jié)果判斷是否進(jìn)行下一步檢查，如果需要判斷下一步做哪一項(xiàng)檢查，如果不需要得出診斷結(jié)論。我們受到這個(gè)想法的啟發(fā)，希望針對(duì)不同的樣本提取對(duì)該樣本來說最有效的一組特征來進(jìn)行分類，而不是提取所有特征，從而減少特征提取開銷。

【發(fā)明內(nèi)容】
：
[0005] 發(fā)明目的：之前的很多機(jī)器學(xué)習(xí)算法都是從采樣或者優(yōu)化的角度來考慮如何提高學(xué)習(xí)算法的效率，很少有算法考慮到樣本的特征提取開銷的問題，隨著數(shù)據(jù)形式的越來越復(fù)雜，特征提取的開銷也越來越大。針對(duì)上述問題，本發(fā)明提出一種針對(duì)樣本性質(zhì)提取有效特征的方法，對(duì)于容易分類的樣本，只提取簡(jiǎn)單的特征，也就是一些開銷比較小的特征;對(duì) 于很難分類的樣本，不僅僅提取簡(jiǎn)單特征，還提取一些復(fù)雜的特征來幫助樣本分類。
[0006] 技術(shù)方案:一種針對(duì)樣本性質(zhì)提取有效特征的方法，初期設(shè)定一個(gè)初始的特征集，對(duì)于每一個(gè)需要分類的樣本根據(jù)當(dāng)前已有特征集決定下一步需要提取特征集，然后判斷是否停止提取特征。如果還需要提取特征，則重復(fù)上一步過程;如果停止提取特征，就輸入到合適的分類器進(jìn)行分類，得到預(yù)測(cè)結(jié)果。本發(fā)明方法具體包括訓(xùn)練樣本特征序列化步驟、樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練步驟和針對(duì)樣本的模型分類步驟；
[0007] 所述訓(xùn)練樣本特征序列化的具體步驟為：
[0008] 步驟100,對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行標(biāo)注，獲取所有特征和相應(yīng)特征的時(shí)間開銷；
[0009] 步驟101，根據(jù)獲取的特征，計(jì)算訓(xùn)練樣本樣本對(duì)之間的歐式距離；
[0010] 步驟102,根據(jù)樣本對(duì)之間的距離和設(shè)置的近鄰個(gè)數(shù)，尋找訓(xùn)練樣本的近鄰集合； [0011 ]步驟103，在訓(xùn)練樣本的近鄰集合中計(jì)算每個(gè)訓(xùn)練樣本各個(gè)特征具有的權(quán)重，即各組特征對(duì)樣本分類的有用程度；
[0012] 步驟104,對(duì)特征進(jìn)行排序，權(quán)重值越大，說明該特征對(duì)分類的貢獻(xiàn)越大，應(yīng)該早一點(diǎn)提取；
[0013] 所述樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練的具體步驟為：
[0014] 步驟200,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行序列化之后，把數(shù)據(jù)按照已有特征集和下一步需提取特征集的形式進(jìn)行拆分，得到一組特征集對(duì)；
[0015] 步驟201，根據(jù)拆分的特征集對(duì)，訓(xùn)練基于當(dāng)前已有特征的特征選擇器G和針對(duì)不同的特征組合的分類器；
[0016] 所述的模型分類的具體步驟為：
[0017] 步驟300，對(duì)測(cè)試樣本提取初始特征集；
[0018] 步驟301，根據(jù)評(píng)價(jià)指標(biāo)，判斷是否需要提取下一個(gè)特征集，若需要，跳轉(zhuǎn)至步驟 302;否則跳轉(zhuǎn)至步驟303;
[0019]步驟302,根據(jù)已有特征集和特征選擇器G，決定下一步需要提取的特征集，并把當(dāng) 前提取特征集與已有特征集合并，跳轉(zhuǎn)至步驟301;
[0020] 步驟303,根據(jù)當(dāng)前已有特征集尋找訓(xùn)練好的對(duì)應(yīng)的分類模型進(jìn)行分類。
[0021] 所述步驟102尋找訓(xùn)練樣本近鄰集合的具體方法為:將計(jì)算出的歐式距離按照升序排序，根據(jù)設(shè)置的近鄰個(gè)數(shù)k，選擇出前k個(gè)。
[0022] 所述步驟103訓(xùn)練樣本特征的權(quán)重的計(jì)算方法為:使它與每一個(gè)鄰居的帶權(quán)重均方差之和最小，具體公式如下： r00231 argmin ^ !og{ 1 + exp(/;.(D, (xf) - c：))) -f / \\u-^ si. ui > 0 (1) M; j^S,
[0024] 其中，
[0025] D,{X t) = ill {X-t - X ;)〇 (A- X s) (2)
[0026] Xi表示樣本的第i個(gè)特征，X謙示樣本的第j個(gè)特征AUJ表示XAh之間的帶權(quán) 重的距離，m表示樣本的第i個(gè)特征的權(quán)重，\是由第i個(gè)樣本的k個(gè)鄰居組成的樣本集合;yi 和yj分別表示第i和第j個(gè)樣本的標(biāo)記，如果yi = yj，則rij = 1，否則rij = -l; Ci和A是設(shè)置的參數(shù)，(^表示同一個(gè)類之間樣本距離的上限，A為正則化參數(shù)。
[0027]所述步驟201特征選擇器G的具體公式如下：
[0028] ') = arg max \v fix',c) (3)
[0029] 其中，x1表示前1次已經(jīng)提取的特征，1表示第1次提取特征，c表示下一步提取的特征，C表示提取的特征集合，f是關(guān)于特征的函數(shù)，w表示線性系數(shù)；
[0030] 特征的函數(shù)f表示為：
[0031] f(x1,c)=x1lTC (4)
[0032] 1T是一個(gè)大小為l*m，元素全為1的向量，m為提取特征的組數(shù);C表示對(duì)角矩陣，C kk 表示第k行主對(duì)角線上的元素，當(dāng)c = k時(shí)，Ckk= 1，否則Ckk=_l。
[0033] 線性系數(shù)w表示為： arg min +
[0034] '' " iJ (5) 八 A./+.1 si, wrfiX',cln)> A(c/+1,cM) + wrf{X\,c )-
[0035] 1/表示第i個(gè)樣本已經(jīng)提取的1組特征，c1+1表示第i個(gè)樣本1 + 1步需提取的特征， / , 1 ^表示第1+1步除了需提取特征外的其他候選特征，△定義為A (ci，Ci)=0, A (ci，Cj) = l，這里i乒j，￥為松弛變量，a為正則化參數(shù)。
[0036] 所述步驟201中分類器(^的具體公式如下：
[0037] C'(-v')-arg imix F' ./X.v',_r) (6)
[0038] 其中，xs表示已提取的特征，y表示樣本的標(biāo)記，Z表示標(biāo)記空間，也就是所有標(biāo)記的集合，f是關(guān)于特征的函數(shù)，V按照下面的優(yōu)化公式求解： arg： min
[0039] ' (f) V1 j\x],yl)>Myny) + Vl f{x：,y)~~si
[0040] 祥表示第i個(gè)樣本已提取的特征，yi表示第i個(gè)樣本的標(biāo)記，_y為除樣本標(biāo)記yi外的其他標(biāo)記，A定義為A ，這里^ # v ,￡i為松弛變量。
[0041] 所述步驟301評(píng)價(jià)指標(biāo)包括提取特征的時(shí)間上線閾值和分類器的分類準(zhǔn)確率要求。
[0042] 有益效果:與現(xiàn)有技術(shù)相比本發(fā)明充分考慮了樣本特征提取的時(shí)間開銷和分類的置信度。本發(fā)明利用每個(gè)樣本的特點(diǎn)，提取出對(duì)該類型樣本最具分類作用的特征，針對(duì)簡(jiǎn)單樣本，只提取一些基本特征;針對(duì)復(fù)雜樣本，才提取更多的特征。由于對(duì)于同一個(gè)樣本，不同的特征集的作用程度是有差別的，本發(fā)明提出最利于分類的特征，有助于提高分類精度。
【附圖說明】
[0043] 圖1為本發(fā)明的訓(xùn)練樣本特征序列化階段的工作流程圖；
[0044] 圖2為本發(fā)明的樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練階段的工作流程圖；
[0045] 圖3為本發(fā)明的針對(duì)樣本的模型分類階段的工作流程圖。
【具體實(shí)施方式】
[0046] 下面結(jié)合具體實(shí)施例，進(jìn)一步闡明本發(fā)明，應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍，在閱讀了本發(fā)明之后，本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0047] 訓(xùn)練樣本特征序列化階段的工作流程如圖1所示。在針對(duì)訓(xùn)練數(shù)據(jù)特征序列化這個(gè)階段需要有一定量的帶有標(biāo)記和所有特征的數(shù)據(jù)。在實(shí)際使用中，公司可以對(duì)一批數(shù)據(jù) 進(jìn)行標(biāo)注，并且獲取它的所有特征和相應(yīng)特征的時(shí)間開銷(步驟10);然后，根據(jù)這些數(shù)據(jù)的特征計(jì)算這些訓(xùn)練樣本之間的歐式距離(步驟11);根據(jù)設(shè)置的近鄰個(gè)數(shù)來選擇相應(yīng)個(gè)數(shù)的近鄰(步驟12);接下來，計(jì)算出每個(gè)訓(xùn)練樣本各個(gè)特征具有的權(quán)重(步驟13);最后，根據(jù)這個(gè)權(quán)重，對(duì)特征進(jìn)行排序，權(quán)重越大的越排在前面。這樣就得到了我們序列化后的訓(xùn)練樣本。
[0048]樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練階段流程如圖2所示。首先對(duì)于我們上個(gè)過程序列化的訓(xùn)練樣本進(jìn)行拆分，得到一組已有特征集和下一步需提取特征集的特征集合對(duì)(步驟15);然后，根據(jù)這些特征集合對(duì)，訓(xùn)練出特征選擇器G。同時(shí)，根據(jù)這些訓(xùn)練樣本的特征組合，訓(xùn)練出相對(duì)應(yīng)的分類模型C s(步驟16)。
[0049]針對(duì)樣本的模型分類工作流程如圖3所示。首先，對(duì)測(cè)試樣本，提取初始特征集合 (步驟18);然后，判斷已有的特征是否已經(jīng)達(dá)到停止提取特征的要求，停止提取特征的要求可以是提取特征的時(shí)間上線閾值或者是分類器已經(jīng)可以達(dá)到的準(zhǔn)確率(可以根據(jù)實(shí)際情況需求來選擇）（步驟19);如果已經(jīng)到達(dá)停止提取特征的要求，就可以直接選擇匹配的模型進(jìn) 行分類，得到分類結(jié)果(步驟20a);否則，根據(jù)特征選擇器，選擇下一步需要提取的特征，同時(shí)回到步驟19 (步驟20b)。
【主權(quán)項(xiàng)】
1. 一種針對(duì)樣本性質(zhì)提取有效特征的方法，其特征在于:包括訓(xùn)練樣本特征序列化步驟、樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練步驟和針對(duì)樣本的模型分類步驟；所述訓(xùn)練樣本特征序列化的具體步驟為：步驟100，對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行標(biāo)注，獲取所有特征和相應(yīng)特征的時(shí)間開銷；步驟101，根據(jù)獲取的特征，計(jì)算訓(xùn)練樣本樣本對(duì)之間的歐式距離；步驟102，根據(jù)樣本對(duì)之間的距離和設(shè)置的近鄰個(gè)數(shù)，尋找訓(xùn)練樣本的近鄰集合；步驟103,在訓(xùn)練樣本的近鄰集合中計(jì)算每個(gè)訓(xùn)練樣本各個(gè)特征具有的權(quán)重，即各組特征對(duì)樣本分類的有用程度；步驟104,對(duì)特征進(jìn)行排序，權(quán)重值越大，說明該特征對(duì)分類的貢獻(xiàn)越大，應(yīng)該早一點(diǎn)提 ??；所述樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練的具體步驟為：步驟200,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行序列化之后，把數(shù)據(jù)按照已有特征集和下一步需提取特征集的形式進(jìn)行拆分，得到一組特征集對(duì)；步驟201，根據(jù)拆分的特征集對(duì)，訓(xùn)練基于當(dāng)前已有特征的特征選擇器G和針對(duì)不同的特征組合的分類器；所述的模型分類的具體步驟為：步驟300，對(duì)測(cè)試樣本提取初始特征集；步驟301，根據(jù)評(píng)價(jià)指標(biāo)，判斷是否需要提取下一個(gè)特征集，若需要，跳轉(zhuǎn)至步驟302;否則跳轉(zhuǎn)至步驟303; 步驟302,根據(jù)已有特征集和特征選擇器G，決定下一步需要提取的特征集，并把當(dāng)前提取特征集與已有特征集合并，跳轉(zhuǎn)至步驟301; 步驟303,根據(jù)當(dāng)前已有特征集尋找訓(xùn)練好的對(duì)應(yīng)的分類模型進(jìn)行分類。2. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法，其特征在于：所述步驟 102尋找訓(xùn)練樣本近鄰集合的具體方法為:將計(jì)算出的歐式距離按照升序排序，根據(jù)設(shè)置的近鄰個(gè)數(shù)k，選擇出前k個(gè)。3. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法，其特征在于：所述步驟 103訓(xùn)練樣本特征的權(quán)重的計(jì)算方法為:使訓(xùn)練樣本與每一個(gè)鄰居的帶權(quán)重均方差之和最小，具體公式如下：Ai衣不懺斗VtfJ朱ITWIiC，Aj衣不懺斗、tfJ朱JTWIiC，UUAj ；衣不心IKItfJ市儀重的距離，U1表示樣本的第i個(gè)特征的權(quán)重J1是由第i個(gè)樣本的k個(gè)鄰居組成的樣本集合;yjPyj 分別表示第i和第j個(gè)樣本的標(biāo)記，如果yi = ^，則陽=1，否則陽=-1; 是設(shè)置的參數(shù)， (^表示同一個(gè)類之間樣本距離的上限，λ為正則化參數(shù)。4. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法，其特征在于：所述步驟 201特征選擇器G的具體公式如下：p) 其中，X1表示前1次已經(jīng)提取的特征，1表示第1次提取特征，C表示下一步提取的特征，C 表示提取的特征集合，f是關(guān)于特征的函數(shù)，w表示線性系數(shù)；特征的函數(shù)f表示為： f (x1, c) =X1ItC (4) It是一個(gè)大小為l*m，元素全為1的向量，m為提取特征的組數(shù);C表示對(duì)角矩陣，Ckk表示第k行主對(duì)角線上的元素，當(dāng)c = k時(shí)，Ckk=I，否則Ckk=-I。線性系數(shù)w衷示為：(5) ./ ,1 T：表示第i個(gè)樣本已經(jīng)提取的1組特征，C1+1表示第i個(gè)樣本1 + 1步需提取的特征，e表示第1+1步除了需提取特征外的其他候選特征，Δ定義為Δ (Ci，Ci) =O，Δ (Ci,Cj) = 1，這里 i乒j，泛為松弛變量，aS正則化參數(shù)。5. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法，其特征在于：所述步驟 201中分類器(^的具體公式如下：(6) 其中，Xs表示已提取的特征，y表示樣本的標(biāo)記，Z表示標(biāo)記空間，也就是所有標(biāo)記的集合，f是關(guān)于特征的函數(shù)，V按照下面的優(yōu)化公式求解：m <表示第i個(gè)樣本已提取的特征，yi表示第i個(gè)樣本的標(biāo)記1為除樣本標(biāo)記71外的其他標(biāo)記，Δ定義為Δ (yi，yi)=〇, A(卩.v)二1，這里天.在為松弛變量。6. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法，其特征在于：所述步驟 301評(píng)價(jià)指標(biāo)包括提取特征的時(shí)間上線閾值和分類器的分類準(zhǔn)確率要求。
【文檔編號(hào)】G06K9/62GK105894032SQ201610202600
【公開日】2016年8月24日
【申請(qǐng)日】2016年4月1日
【發(fā)明人】詹德川, 姜遠(yuǎn), 周志華, 李靜
【申請(qǐng)人】南京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：詹德川;姜遠(yuǎn);周志華;李靜;
技術(shù)所有人：南京大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種針對(duì)樣本性質(zhì)提取有效特征的方法