一種針對(duì)樣本性質(zhì)提取有效特征的方法
【專利摘要】本發(fā)明公開一種針對(duì)樣本性質(zhì)提取有效特征的方法,包括訓(xùn)練樣本特征序列化步驟、樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練步驟和針對(duì)樣本的模型分類步驟;分類時(shí)初期設(shè)定一個(gè)初始的特征集,對(duì)于每一個(gè)需要分類的樣本根據(jù)當(dāng)前已有特征集決定下一步需要提取特征集,然后判斷是否停止提取特征,如果還需要提取特征,則重復(fù)上一步過程,如果停止提取特征,就輸入到合適的分類器進(jìn)行分類,得到預(yù)測(cè)結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明充分考慮了樣本特征提取的時(shí)間開銷和分類的置信度。
【專利說明】
_種針對(duì)樣本性質(zhì)提取有效特征的方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及模式識(shí)別中針對(duì)樣本的有效特征提取技術(shù),特別適用于同時(shí)需要考慮 特征提取代價(jià)和分類結(jié)果可靠性的問題。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)和各種便攜式上網(wǎng)設(shè)備的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們生活的重要組 成部分和人類文明傳播發(fā)展的重要載體;越來越多的數(shù)據(jù)通過網(wǎng)絡(luò)傳播。為了滿足人們對(duì) 于信息形式的不同需求,我們通常把文字、聲音、圖像等信息融為一體;這就導(dǎo)致了網(wǎng)絡(luò)中 數(shù)據(jù)形式的紛繁復(fù)雜?,F(xiàn)在,越來越多的復(fù)雜媒體數(shù)據(jù)在網(wǎng)絡(luò)中大量產(chǎn)生和傳播。我們面臨 著如何在這些大量且復(fù)雜的數(shù)據(jù)上進(jìn)行高效的檢索和分類的問題。因此,人們希望尋求一 種高效且有用的特征提取方式來處理這些大量的信息。
[0003] 目前,有很多在線的機(jī)器學(xué)習(xí)方法,比如:在線聚類、在線分類;它們都是通過采樣 或者優(yōu)化策略來對(duì)學(xué)習(xí)過程進(jìn)行加速。然而,這些方法都是建立在特征提出開銷沒有考慮 的基礎(chǔ)之上的;也就是說數(shù)據(jù)從原始數(shù)據(jù)到有效特征的提取開銷是沒有考慮的。實(shí)際上,在 整個(gè)分類系統(tǒng)的運(yùn)轉(zhuǎn)中,從原始數(shù)據(jù)中提取出有效特征是一個(gè)不小的開銷;隨著數(shù)據(jù)形式 越來越復(fù)雜,特征提取開銷占整個(gè)系統(tǒng)的開銷比例也越來越大。如何高效的提取有用特征 是我們需要解決的一個(gè)問題。
[0004] 在醫(yī)療診斷系統(tǒng)中,有一系列的檢測(cè),比如:體溫測(cè)量、血液檢查、血壓測(cè)量。然而, 我們?cè)谠\斷過程不是得到所有檢測(cè)的結(jié)果,然后下診斷,這樣做的成本過于高昂;而是先進(jìn) 行初步的檢查,然后根據(jù)初步檢查結(jié)果判斷是否進(jìn)行下一步檢查,如果需要判斷下一步做 哪一項(xiàng)檢查,如果不需要得出診斷結(jié)論。我們受到這個(gè)想法的啟發(fā),希望針對(duì)不同的樣本提 取對(duì)該樣本來說最有效的一組特征來進(jìn)行分類,而不是提取所有特征,從而減少特征提取 開銷。
【發(fā)明內(nèi)容】
:
[0005] 發(fā)明目的:之前的很多機(jī)器學(xué)習(xí)算法都是從采樣或者優(yōu)化的角度來考慮如何提高 學(xué)習(xí)算法的效率,很少有算法考慮到樣本的特征提取開銷的問題,隨著數(shù)據(jù)形式的越來越 復(fù)雜,特征提取的開銷也越來越大。針對(duì)上述問題,本發(fā)明提出一種針對(duì)樣本性質(zhì)提取有效 特征的方法,對(duì)于容易分類的樣本,只提取簡(jiǎn)單的特征,也就是一些開銷比較小的特征;對(duì) 于很難分類的樣本,不僅僅提取簡(jiǎn)單特征,還提取一些復(fù)雜的特征來幫助樣本分類。
[0006] 技術(shù)方案:一種針對(duì)樣本性質(zhì)提取有效特征的方法,初期設(shè)定一個(gè)初始的特征集, 對(duì)于每一個(gè)需要分類的樣本根據(jù)當(dāng)前已有特征集決定下一步需要提取特征集,然后判斷是 否停止提取特征。如果還需要提取特征,則重復(fù)上一步過程;如果停止提取特征,就輸入到 合適的分類器進(jìn)行分類,得到預(yù)測(cè)結(jié)果。本發(fā)明方法具體包括訓(xùn)練樣本特征序列化步驟、樣 本特征選擇器與對(duì)應(yīng)模型訓(xùn)練步驟和針對(duì)樣本的模型分類步驟;
[0007] 所述訓(xùn)練樣本特征序列化的具體步驟為:
[0008] 步驟100,對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行標(biāo)注,獲取所有特征和相應(yīng)特征的時(shí)間開銷;
[0009] 步驟101,根據(jù)獲取的特征,計(jì)算訓(xùn)練樣本樣本對(duì)之間的歐式距離;
[0010] 步驟102,根據(jù)樣本對(duì)之間的距離和設(shè)置的近鄰個(gè)數(shù),尋找訓(xùn)練樣本的近鄰集合; [0011 ]步驟103,在訓(xùn)練樣本的近鄰集合中計(jì)算每個(gè)訓(xùn)練樣本各個(gè)特征具有的權(quán)重,即各 組特征對(duì)樣本分類的有用程度;
[0012] 步驟104,對(duì)特征進(jìn)行排序,權(quán)重值越大,說明該特征對(duì)分類的貢獻(xiàn)越大,應(yīng)該早一 點(diǎn)提取;
[0013] 所述樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練的具體步驟為:
[0014] 步驟200,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行序列化之后,把數(shù)據(jù)按照已有特征集和下一步需提取特 征集的形式進(jìn)行拆分,得到一組特征集對(duì);
[0015] 步驟201,根據(jù)拆分的特征集對(duì),訓(xùn)練基于當(dāng)前已有特征的特征選擇器G和針對(duì)不 同的特征組合的分類器;
[0016] 所述的模型分類的具體步驟為:
[0017] 步驟300,對(duì)測(cè)試樣本提取初始特征集;
[0018] 步驟301,根據(jù)評(píng)價(jià)指標(biāo),判斷是否需要提取下一個(gè)特征集,若需要,跳轉(zhuǎn)至步驟 302;否則跳轉(zhuǎn)至步驟303;
[0019]步驟302,根據(jù)已有特征集和特征選擇器G,決定下一步需要提取的特征集,并把當(dāng) 前提取特征集與已有特征集合并,跳轉(zhuǎn)至步驟301;
[0020] 步驟303,根據(jù)當(dāng)前已有特征集尋找訓(xùn)練好的對(duì)應(yīng)的分類模型進(jìn)行分類。
[0021] 所述步驟102尋找訓(xùn)練樣本近鄰集合的具體方法為:將計(jì)算出的歐式距離按照升 序排序,根據(jù)設(shè)置的近鄰個(gè)數(shù)k,選擇出前k個(gè)。
[0022] 所述步驟103訓(xùn)練樣本特征的權(quán)重的計(jì)算方法為:使它與每一個(gè)鄰居的帶權(quán)重均 方差之和最小,具體公式如下: r00231 argmin ^ !og{ 1 + exp(/;.(D, (xf) - c:))) -f / \\u-^ si. ui > 0 (1) M; j^S,
[0024] 其中,
[0025] D,{X t) = ill {X-t - X ;)〇 (A- X s) (2)
[0026] Xi表示樣本的第i個(gè)特征,X謙示樣本的第j個(gè)特征AUJ表示XAh之間的帶權(quán) 重的距離,m表示樣本的第i個(gè)特征的權(quán)重,\是由第i個(gè)樣本的k個(gè)鄰居組成的樣本集合;yi 和yj分別表示第i和第j個(gè)樣本的標(biāo)記,如果yi = yj,則rij = 1,否則rij = -l; Ci和A是設(shè)置的參 數(shù),(^表示同一個(gè)類之間樣本距離的上限,A為正則化參數(shù)。
[0027]所述步驟201特征選擇器G的具體公式如下:
[0028] ') = arg max \v fix',c) (3)
[0029] 其中,x1表示前1次已經(jīng)提取的特征,1表示第1次提取特征,c表示下一步提取的特 征,C表示提取的特征集合,f是關(guān)于特征的函數(shù),w表示線性系數(shù);
[0030] 特征的函數(shù)f表示為:
[0031] f(x1,c)=x1lTC (4)
[0032] 1T是一個(gè)大小為l*m,元素全為1的向量,m為提取特征的組數(shù);C表示對(duì)角矩陣,C kk 表示第k行主對(duì)角線上的元素,當(dāng)c = k時(shí),Ckk= 1,否則Ckk=_l。
[0033] 線性系數(shù)w表示為: arg min +
[0034] '' " iJ (5) 八 A./+.1 si, wrfiX',cln)> A(c/+1,cM) + wrf{X\,c )-
[0035] 1/表示第i個(gè)樣本已經(jīng)提取的1組特征,c1+1表示第i個(gè)樣本1 + 1步需提取的特征, / , 1 ^表示第1+1步除了需提取特征外的其他候選特征,△定義為A (ci,Ci)=0, A (ci,Cj) = l, 這里i乒j,¥為松弛變量,a為正則化參數(shù)。
[0036] 所述步驟201中分類器(^的具體公式如下:
[0037] C'(-v')-arg imix F' ./X.v',_r) (6)
[0038] 其中,xs表示已提取的特征,y表示樣本的標(biāo)記,Z表示標(biāo)記空間,也就是所有標(biāo)記 的集合,f是關(guān)于特征的函數(shù),V按照下面的優(yōu)化公式求解: arg: min
[0039] ' (f) V1 j\x],yl)>Myny) + Vl f{x:,y)~~si
[0040] 祥表示第i個(gè)樣本已提取的特征,yi表示第i個(gè)樣本的標(biāo)記,_y為除樣本標(biāo)記yi外的 其他標(biāo)記,A定義為A ,這里^ # v ,£i為松弛變量。
[0041] 所述步驟301評(píng)價(jià)指標(biāo)包括提取特征的時(shí)間上線閾值和分類器的分類準(zhǔn)確率要 求。
[0042] 有益效果:與現(xiàn)有技術(shù)相比本發(fā)明充分考慮了樣本特征提取的時(shí)間開銷和分類的 置信度。本發(fā)明利用每個(gè)樣本的特點(diǎn),提取出對(duì)該類型樣本最具分類作用的特征,針對(duì)簡(jiǎn)單 樣本,只提取一些基本特征;針對(duì)復(fù)雜樣本,才提取更多的特征。由于對(duì)于同一個(gè)樣本,不同 的特征集的作用程度是有差別的,本發(fā)明提出最利于分類的特征,有助于提高分類精度。
【附圖說明】
[0043] 圖1為本發(fā)明的訓(xùn)練樣本特征序列化階段的工作流程圖;
[0044] 圖2為本發(fā)明的樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練階段的工作流程圖;
[0045] 圖3為本發(fā)明的針對(duì)樣本的模型分類階段的工作流程圖。
【具體實(shí)施方式】
[0046] 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0047] 訓(xùn)練樣本特征序列化階段的工作流程如圖1所示。在針對(duì)訓(xùn)練數(shù)據(jù)特征序列化這 個(gè)階段需要有一定量的帶有標(biāo)記和所有特征的數(shù)據(jù)。在實(shí)際使用中,公司可以對(duì)一批數(shù)據(jù) 進(jìn)行標(biāo)注,并且獲取它的所有特征和相應(yīng)特征的時(shí)間開銷(步驟10);然后,根據(jù)這些數(shù)據(jù)的 特征計(jì)算這些訓(xùn)練樣本之間的歐式距離(步驟11);根據(jù)設(shè)置的近鄰個(gè)數(shù)來選擇相應(yīng)個(gè)數(shù)的 近鄰(步驟12);接下來,計(jì)算出每個(gè)訓(xùn)練樣本各個(gè)特征具有的權(quán)重(步驟13);最后,根據(jù)這 個(gè)權(quán)重,對(duì)特征進(jìn)行排序,權(quán)重越大的越排在前面。這樣就得到了我們序列化后的訓(xùn)練樣 本。
[0048]樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練階段流程如圖2所示。首先對(duì)于我們上個(gè)過程序 列化的訓(xùn)練樣本進(jìn)行拆分,得到一組已有特征集和下一步需提取特征集的特征集合對(duì)(步 驟15);然后,根據(jù)這些特征集合對(duì),訓(xùn)練出特征選擇器G。同時(shí),根據(jù)這些訓(xùn)練樣本的特征組 合,訓(xùn)練出相對(duì)應(yīng)的分類模型C s(步驟16)。
[0049]針對(duì)樣本的模型分類工作流程如圖3所示。首先,對(duì)測(cè)試樣本,提取初始特征集合 (步驟18);然后,判斷已有的特征是否已經(jīng)達(dá)到停止提取特征的要求,停止提取特征的要求 可以是提取特征的時(shí)間上線閾值或者是分類器已經(jīng)可以達(dá)到的準(zhǔn)確率(可以根據(jù)實(shí)際情況 需求來選擇)(步驟19);如果已經(jīng)到達(dá)停止提取特征的要求,就可以直接選擇匹配的模型進(jìn) 行分類,得到分類結(jié)果(步驟20a);否則,根據(jù)特征選擇器,選擇下一步需要提取的特征,同 時(shí)回到步驟19 (步驟20b)。
【主權(quán)項(xiàng)】
1. 一種針對(duì)樣本性質(zhì)提取有效特征的方法,其特征在于:包括訓(xùn)練樣本特征序列化步 驟、樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練步驟和針對(duì)樣本的模型分類步驟; 所述訓(xùn)練樣本特征序列化的具體步驟為: 步驟100,對(duì)訓(xùn)練樣本數(shù)據(jù)進(jìn)行標(biāo)注,獲取所有特征和相應(yīng)特征的時(shí)間開銷; 步驟101,根據(jù)獲取的特征,計(jì)算訓(xùn)練樣本樣本對(duì)之間的歐式距離; 步驟102,根據(jù)樣本對(duì)之間的距離和設(shè)置的近鄰個(gè)數(shù),尋找訓(xùn)練樣本的近鄰集合; 步驟103,在訓(xùn)練樣本的近鄰集合中計(jì)算每個(gè)訓(xùn)練樣本各個(gè)特征具有的權(quán)重,即各組特 征對(duì)樣本分類的有用程度; 步驟104,對(duì)特征進(jìn)行排序,權(quán)重值越大,說明該特征對(duì)分類的貢獻(xiàn)越大,應(yīng)該早一點(diǎn)提 ??; 所述樣本特征選擇器與對(duì)應(yīng)模型訓(xùn)練的具體步驟為: 步驟200,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行序列化之后,把數(shù)據(jù)按照已有特征集和下一步需提取特征集 的形式進(jìn)行拆分,得到一組特征集對(duì); 步驟201,根據(jù)拆分的特征集對(duì),訓(xùn)練基于當(dāng)前已有特征的特征選擇器G和針對(duì)不同的 特征組合的分類器; 所述的模型分類的具體步驟為: 步驟300,對(duì)測(cè)試樣本提取初始特征集; 步驟301,根據(jù)評(píng)價(jià)指標(biāo),判斷是否需要提取下一個(gè)特征集,若需要,跳轉(zhuǎn)至步驟302;否 則跳轉(zhuǎn)至步驟303; 步驟302,根據(jù)已有特征集和特征選擇器G,決定下一步需要提取的特征集,并把當(dāng)前提 取特征集與已有特征集合并,跳轉(zhuǎn)至步驟301; 步驟303,根據(jù)當(dāng)前已有特征集尋找訓(xùn)練好的對(duì)應(yīng)的分類模型進(jìn)行分類。2. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法,其特征在于:所述步驟 102尋找訓(xùn)練樣本近鄰集合的具體方法為:將計(jì)算出的歐式距離按照升序排序,根據(jù)設(shè)置的 近鄰個(gè)數(shù)k,選擇出前k個(gè)。3. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法,其特征在于:所述步驟 103訓(xùn)練樣本特征的權(quán)重的計(jì)算方法為:使訓(xùn)練樣本與每一個(gè)鄰居的帶權(quán)重均方差之和最 小,具體公式如下:Ai衣不懺斗VtfJ朱ITWIiC,Aj衣不懺斗、tfJ朱JTWIiC,UUAj ;衣不心IKItfJ市儀重的 距離,U1表示樣本的第i個(gè)特征的權(quán)重J1是由第i個(gè)樣本的k個(gè)鄰居組成的樣本集合;yjPyj 分別表示第i和第j個(gè)樣本的標(biāo)記,如果yi = ^,則陽=1,否則陽=-1; 是設(shè)置的參數(shù), (^表示同一個(gè)類之間樣本距離的上限,λ為正則化參數(shù)。4. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法,其特征在于:所述步驟 201特征選擇器G的具體公式如下:p) 其中,X1表示前1次已經(jīng)提取的特征,1表示第1次提取特征,C表示下一步提取的特征,C 表示提取的特征集合,f是關(guān)于特征的函數(shù),w表示線性系數(shù); 特征的函數(shù)f表示為: f (x1, c) =X1ItC (4) It是一個(gè)大小為l*m,元素全為1的向量,m為提取特征的組數(shù);C表示對(duì)角矩陣,Ckk表示 第k行主對(duì)角線上的元素,當(dāng)c = k時(shí),Ckk=I,否則Ckk=-I。 線性系數(shù)w衷示為:(5) ./ ,1 T:表示第i個(gè)樣本已經(jīng)提取的1組特征,C1+1表示第i個(gè)樣本1 + 1步需提取的特征,e表 示第1+1步除了需提取特征外的其他候選特征,Δ定義為Δ (Ci,Ci) =O,Δ (Ci,Cj) = 1,這里 i乒j,泛為松弛變量,aS正則化參數(shù)。5. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法,其特征在于:所述步驟 201中分類器(^的具體公式如下:(6) 其中,Xs表示已提取的特征,y表示樣本的標(biāo)記,Z表示標(biāo)記空間,也就是所有標(biāo)記的集 合,f是關(guān)于特征的函數(shù),V按照下面的優(yōu)化公式求解:m <表示第i個(gè)樣本已提取的特征,yi表示第i個(gè)樣本的標(biāo)記1為除樣本標(biāo)記71外的其他 標(biāo)記,Δ定義為Δ (yi,yi)=〇, A(卩.v)二1,這里天.在為松弛變量。6. 根據(jù)權(quán)利要求1所述的針對(duì)樣本性質(zhì)提取有效特征的方法,其特征在于:所述步驟 301評(píng)價(jià)指標(biāo)包括提取特征的時(shí)間上線閾值和分類器的分類準(zhǔn)確率要求。
【文檔編號(hào)】G06K9/62GK105894032SQ201610202600
【公開日】2016年8月24日
【申請(qǐng)日】2016年4月1日
【發(fā)明人】詹德川, 姜 遠(yuǎn), 周志華, 李靜
【申請(qǐng)人】南京大學(xué)