基于核空間的線性鑒別稀疏表示分類器的設(shè)計方法
【專利摘要】本發(fā)明涉及一種基于核空間的線性鑒別稀疏表示分類器的設(shè)計方法,步驟為:讀取訓練樣本,將訓練樣本進行非線性變換,變換到高維的核空間,在高維核空間對每一類訓練樣本進行學習,找出該類訓練樣本中每個個體對于構(gòu)造該類訓練樣本子空間所做的貢獻(即權(quán)重),該類訓練樣本與權(quán)重矩陣的乘積構(gòu)成詞典,將所有類別的詞典依次排列構(gòu)成一個大的詞典矩陣;通過詞典矩陣獲得該測試樣本在核空間的線性鑒別稀疏編碼,用每一類的詞典及詞典所對應(yīng)的線性鑒別稀疏編碼擬合測試樣本,計算該擬合誤差;擬合誤差最小的類為測試樣本的類別。本發(fā)明能夠保證同一類樣本的稀疏編碼是集中的,不同類樣本稀疏編碼是分散的,有效地增加了樣本鑒別性,提升了分類器性能。
【專利說明】
基于核空間的線性鑒別稀疏表示分類器的設(shè)計方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于模式識別技術(shù)領(lǐng)域,具體地說,涉及一種基于核空間的線性鑒別稀疏 表示分類器的設(shè)計方法。
【背景技術(shù)】
[0002] 基于稀疏表示的詞典學習方法在計算機視覺領(lǐng)域展現(xiàn)除了巨大的魅力,稀疏表示 的方法在人臉識別、圖像分類、圖像降噪等領(lǐng)域都有成功的應(yīng)用。模式識別過程通常包括兩 個階段:特征提取階段和分類階段。分類器的好壞直接影響模式識別系統(tǒng)的識別率,分類器 的設(shè)計一直以來都是模式識別研究的核心問題之一。
[0003] 目前,主要的分類器設(shè)計方法有以下幾種。
[0004] 1、支持向量機方法(英文:Support Vector Machine)
[0005] 支持向量機方法是Corinna Cortes和Vapnik等于1995年首先提出來的,它旨在通 過最大化類別間隔建立最優(yōu)分類面。該類方法在解決小樣本、非線性及高維模式識別中表 現(xiàn)出許多特有的優(yōu)勢。然而,該類分類器只有少量的邊界點(即支持向量)參與到分類面建 立,如果邊界點分布的位置不好,那么對于分類是十分不利的。
[0006] 2、基于稀疏表示的多類分類方法(英文:Sparse Representation based Classifier)
[0007]基于稀疏表示的多類分類方法是由J.Wright等人于2009年提出的,該分類方法首 先將測試樣本在所有訓練集上進行稀疏編碼,然后根據(jù)產(chǎn)生最小編碼誤差的類別決定分類 結(jié)果。該分類方法在多類分類中取得了很大的成功,然而,該分類方法沒有訓練的過程,直 接將每類訓練樣本構(gòu)造相應(yīng)子空間,并沒有考慮該分類樣本中每個個體對構(gòu)造子空間的貢 獻,容易產(chǎn)生較大的擬合誤差。
[0008] 3、基于協(xié)同表不的多類分類方法(英文:Collaborative Representation based Classifier)
[0009] 基于協(xié)同表示的多類分類方法是由zhang等人于2011年提出,該分類方法首先將 測試樣本在所有訓練集上進行協(xié)同表示,然后根據(jù)產(chǎn)生最小編碼誤差的類別決定分類結(jié) 果。該分類方法在某些數(shù)據(jù)集上性能優(yōu)于基于稀疏表示的多類分類方法。同樣地,該分類方 法沒有訓練的過程,直接將每類訓練樣本構(gòu)造相應(yīng)子空間,容易產(chǎn)生較大擬合誤差,導致分 類性能不高。
[00?0] 4、基于詞典學習的多類分類方法
[0011]基于詞典學習的多類分類方法是由Yang等人于2010年提出,該分類方法彌補了傳 統(tǒng)的基于稀疏表示的多類分類方法容易產(chǎn)生較大擬合誤差導致分類準確率不高的問題,然 而,該分類方法只能在歐式空間中進行,很難處理具有非線性結(jié)構(gòu)的數(shù)據(jù),使其使用范圍大 大受限。
[0012]由上可知,現(xiàn)有的分類器設(shè)計方法均存在擬合誤差比較大而導致分類精確度不高 的問題。
[0013] 申請?zhí)枮?01610070445.6的中國專利申請公開了一種基于核空間自解釋稀疏表 示的分類器設(shè)計方法,讀取訓練樣本,將訓練樣本映射到高維的核空間,在高維核空間對每 一類訓練樣本進行學習,找出該類訓練樣本中每個個體對于構(gòu)造該類訓練樣本子空間所做 的貢獻(即權(quán)重),該類訓練樣本與權(quán)重矩陣的乘積構(gòu)成詞典,將所有類別的詞典依次排列 構(gòu)成一個大的詞典矩陣;對測試樣本通過詞典矩陣獲得該測試樣本在核空間的稀疏編碼, 用每一類的詞典及詞典所對應(yīng)的的稀疏編碼擬合測試樣本,并計算該擬合誤差;擬合誤差 最小的類即為測試樣本的類別,其構(gòu)造的詞典訓練需要滿足約束條件,該約束條件的目標 函數(shù)為:
[0014]
該方法設(shè)計的分類器考慮 了特征的非線性結(jié)構(gòu),能夠更加精確的對特征進行稀疏編碼,有效地降低擬合誤差;雖然該 方法設(shè)計的分類器具備了稀疏性的特點,分類器的性能得到提高,但由于分類器并不具備 鑒別性,其模式識別性能還需進一步提高。
【發(fā)明內(nèi)容】
[0015] 本發(fā)明針對現(xiàn)有分類器設(shè)計方法設(shè)計的分類器存在擬合誤差大、精確度不高的上 述不足,提供一種基于核空間的線性鑒別稀疏表示分類器的設(shè)計方法,該方法設(shè)計的分類 器的輸出既有稀疏性的特點又具有鑒別性的特點,顯著提高模式識別性能。
[0016] 本發(fā)明的技術(shù)方案是:一種基于核空間的線性鑒別稀疏表示分類器的設(shè)計方法, 含有以下步驟:
[0017] 步驟一:設(shè)計分類器,其步驟為:
[0018] ( - )讀取訓練樣本,訓練樣本一共C類,定義X = [X1,X2,…,XY · ·,xc] e RDXN表示訓 練樣本,D是訓練樣本的特征維度,N是訓練樣本總的數(shù)目,X1,,···,^,…,X e分別表示第1, 2,…,c,…,C類樣本,定義Νι,N2,…,Nc,…,Nc分別表示每類訓練樣本數(shù)目,則N = Νι+N+,… +Ν。^-----i~Nc ;
[0019] (二)對訓練樣本進行二范數(shù)歸一化,得到歸一化的訓練樣本;
[0020] (三)依次取出訓練樣本中的每一類,并對該類樣本訓練詞典,訓練詞典的過程為:
[0021] (1)取出第C類樣本Xe,將Xe映射到核空間Φ (xe);
[0022] (2)根據(jù)Φ0-)訓練基于稀疏編碼算法的詞典Be,Be表示第c類樣本學習到的詞典, 該詞典的訓練需要滿足約束條件,所述約束條件的目標函數(shù)為:
[0023]
[0024] 其中,
[0026] 式中,丨I…IlM戈表F范數(shù),α為稀疏編碼算法中稀疏項約束的懲罰系數(shù),為第c類核 空間訓練樣本的稀疏表示矩陣,K為學習得到的詞典的大小,是一個權(quán)重矩陣,其 每一列表示核空間樣本對構(gòu)造詞典中每個詞條的貢獻大小,詞典Φ (Χε)Ψ% Φ表示樣本 在核空間中的映射;
[0027] 其中,
[0033] (3)對步驟(2)中約束條件的目標函數(shù)進行求解,即對公式(1)求解,其求解過程 為:
[0034] 固定W%更新S%隨機產(chǎn)生矩陣W%將其帶入約束條件的目標函數(shù),這時該目標函數(shù) 轉(zhuǎn)化成為一個4范數(shù)正則化最小二乘問題,即目標函數(shù)轉(zhuǎn)化為:
[0036]式中,β為類內(nèi)散度的懲罰系數(shù);
[0037] 上述公式(6)簡化為:
[0039]進一步把公式(7)分解成一系列子問題求解;針對中的每一個元素進行求解,并 剔除掉與求解無關(guān)的項,則公式(7)可以簡化為:
[0041 ] 根據(jù)拋物線理論,求出公式(8)的解;由于每個樣本點是獨立的,每次求解Se的一 行,其求解公式如下:
[0045] 遍歷的每一列,完成的一次更新;
[0046] (4)固定步驟(3)中更新后的S%更新W%這時約束條件的目標函數(shù)轉(zhuǎn)換為一個A范 數(shù)約束的最小二乘問題,即目標函數(shù)轉(zhuǎn)化為:
[0048]上述公式(10)采用拉格朗日乘子的方法求解,忽略掉常數(shù)項traCe{K(r,r)},簡 化為:
[0050]根據(jù)KKT條件,滿足公式(11)的最優(yōu)詞典矩陣的每一列冗〗需要滿足的條件為:
[0055] (5)交替迭代步驟(3)和步驟(4),最終得到最優(yōu)稀疏編碼詞典Φ (DF;
[0056] (6)按照步驟(1)至(5)獲得每類樣本的最優(yōu)稀疏編碼詞典,將每類樣本得到的最 優(yōu)稀疏編碼詞典放在一起,獲得詞典B = [B1,…,··,Be];
[0057] 步驟二:對樣本進行分類,其步驟為:
[0058] (1)讀取待識別測試樣本的圖像特征,并對圖像特征進行二范數(shù)歸一化,定義ye RDX1表示一幅待識別的測試樣本圖像特征;
[0059] (2)將測試樣本圖像特征y映射到核空間Φ (y);
[0060] (3)使用步驟一中獲得的詞典B,對核空間Φ(7)進行擬合,擬合函數(shù)為:
[0061 ] f{s) = + 2a [[y | (14)
[0062] 式中,s表示核空間中測試樣本圖像特征y的稀疏編碼,Φ (X)表示訓練樣本X在核 空間的映射;
[0063] (4)對步驟(3)中的擬合函數(shù)進行求解,求解結(jié)果為:
[0066] (5)求核空間Φ(7)在每類樣本所構(gòu)成子空間的擬合誤差,用r(c)表示,其表達式 為:
[0068] (6)比較核空間Φ (y)和每類樣本的擬合誤差,待識別圖像則屬于擬合誤差最小的 那個類別。
[0069]本發(fā)明的有益效果:本發(fā)明結(jié)合核技巧與基于Fisher準則函數(shù)的稀疏詞典學習方 法,一方面通過核的方法使比較復雜的非線性的原始數(shù)據(jù)線性化、簡單化,另一方面將線性 鑒別約束(LDA)加入到分類器設(shè)計當中,該約束條件使樣本在核空間的稀疏表達達到最大 的類間散度和最小的類內(nèi)散度,同時還保持了樣本的局部幾何特征,大大的提高了樣本的 可鑒別性。本發(fā)明分類器設(shè)計方法,首先讀取訓練樣本,將訓練樣本進行非線性變換,變換 到高維的核空間,然后在高維核空間對每一類訓練樣本進行學習,找出該類訓練樣本中每 個個體對于構(gòu)造該類訓練樣本子空間所做的貢獻(即權(quán)重),該類訓練樣本與權(quán)重矩陣的乘 積構(gòu)成詞典,將所有類別的詞典依次排列構(gòu)成一個大的詞典矩陣;通過詞典矩陣獲得該測 試樣本在核空間的線性鑒別稀疏編碼,即測試樣本在詞典矩陣的擬合系數(shù),用每一類的詞 典及詞典所對應(yīng)的線性鑒別稀疏編碼擬合測試樣本,并計算該擬合誤差;最后,擬合誤差最 小的類為測試樣本的類別,實現(xiàn)了對每個輸入測試樣本進行分類。與現(xiàn)有技術(shù)相比,本發(fā)明 既考慮了不同的訓練樣本對稀疏詞典訓練應(yīng)該具有不同的貢獻的特點(例如:正面人臉樣 本應(yīng)當對構(gòu)造詞典占有更大的話語權(quán)),又考慮到不同類別樣本稀疏編碼特征之間的關(guān)系, 保證了同一類樣本的稀疏編碼是集中的,不同類樣本稀疏編碼是分散的,從而有效地增加 了樣本鑒別性,提升了分類器的分類性能。
【附圖說明】
[0070] 圖1為本發(fā)明具體實施例設(shè)計分類器的流程圖。
[0071] 圖2為本發(fā)明具體實施例對樣本進行分類的流程圖。
【具體實施方式】
[0072]下面結(jié)合附圖對本發(fā)明作出進一步說明。
[0073] -種基于核空間的線性鑒別稀疏表示分類器的設(shè)計方法,含有以下步驟:
[0074] 步驟一:參見圖1,設(shè)計分類器,其步驟為:
[0075] ( - )讀取訓練樣本,訓練樣本一共C類,定義 練樣本,D是訓練樣本的特征維度,N是訓練樣本總的數(shù)目,X1,,···,^,…,Xe分別表示第1, 2,…,c,…,C類樣本,定義Νι,N2,…,Nc,…,Nc分別表示每類訓練樣本數(shù)目,則Ν = Νι+Ν+,··· + Nc~^-----i~Nc ;
[0076] (二)對訓練樣本進行二范數(shù)歸一化,得到歸一化的訓練樣本;
[0077] (三)依次取出訓練樣本中的每一類,并對該類樣本訓練詞典,訓練詞典的過程為:
[0078] (1)取出第c類樣本X。,將X。映射到核空間Φ (Xe);
[0079] (2)根據(jù)Φ0-)訓練基于稀疏編碼算法的詞典表示第c類樣本學習到的詞典, 該詞典的訓練需要滿足約束條件,所述約束條件的目標函數(shù)為:
[0083] 式中,[I…||2F代表F范數(shù),α為稀疏編碼算法中稀疏項約束的懲罰系數(shù)義為第c類核 空間訓練樣本的稀疏表示矩陣,Κ為學習得到的詞典的大小,是一個權(quán)重矩陣,其 每一列表示核空間樣本對構(gòu)造詞典中每個詞條的貢獻大小,詞典Φ (Χε)Ψ% Φ表示樣本 在核空間中的映射;
[0084] 其中,
[0090] (3)對步驟(2)中約束條件的目標函數(shù)進行求解,即對公式(1)求解,其求解過程 為:
[0091] 固定W%更新S%隨機產(chǎn)生矩陣W%將其帶入約束條件的目標函數(shù),這時該目標函數(shù) 轉(zhuǎn)化成為一個彳2范數(shù)正則化最小二乘問題,即目標函數(shù)轉(zhuǎn)化為:
[0093]式中,β為類內(nèi)散度的懲罰系數(shù);
[0094] 上述公式(6)簡化為:
[0096]進一步把公式(7)分解成一系列子問題求解;針對S0中的每一個元素進行求解,并 剔除掉與求解無關(guān)的項,則公式(7)可以簡化為:
[0098] 根據(jù)拋物線理論,求出公式(8)的解;由于每個樣本點是獨立的,每次求解Se的一 行,其求解公式如下:
[0101] 遍歷f的每一列,完成f的一次更新;
[0102] (4)固定步驟(3)中更新后的S%更新f,這時約束條件的目標函數(shù)轉(zhuǎn)換為一個心范 數(shù)約束的最小二乘問題,即目標函數(shù)轉(zhuǎn)化為:
[0104]上述公式(10)采用拉格朗日乘子的方法求解,忽略掉常數(shù)項traCe{K(r,X。},簡 化為:
[0106]根據(jù)KKT條件,滿足公式(11)的最優(yōu)詞典矩陣的每一列^需要滿足的條件為:
[0111] (5)交替迭代步驟(3)和步驟(4),最終得到最優(yōu)稀疏編碼詞典Κ=Φ(Χ。,;
[0112] (6)按照步驟(1)至(5)獲得每類樣本的最優(yōu)稀疏編碼詞典,將每類樣本得到的最 優(yōu)稀疏編碼詞典放在一起,獲得詞典B = [B1,…,··,Be];
[0113] 步驟二:參見圖2,對樣本進行分類,其步驟為:
[0114] (1)讀取待識別測試樣本的圖像特征,并對圖像特征進行二范數(shù)歸一化,定義ye RDX1表示一幅待識別的測試樣本圖像特征;
[0115] (2)將測試樣本圖像特征y映射到核空間Φ (y);
[0116] (3)使用步驟一中獲得的詞典B,對核空間Φ(7)進行擬合,擬合函數(shù)為:
[0117] f{s) = y>(v)-Bs\2+1xx II?\[ (14)
[0118] 式中,s表示核空間中測試樣本圖像特征y的稀疏編碼,Φ (X)表示訓練樣本X在核 空間的映射;
[0119] (4)對步驟(3)中的擬合函數(shù)進行求解,求解結(jié)果為:
[0122] (5)求核空間Φ(7)在每類樣本所構(gòu)成子空間的擬合誤差,用r(c)表示,其表達式 為:
[0124] (6)比較核空間Φ (y)和每類樣本的擬合誤差,待識別圖像則屬于擬合誤差最小的 那個類別。
[0125] 以上所舉實施例僅用為方便舉例說明本發(fā)明,并非對本發(fā)明保護范圍的限制,在 本發(fā)明所述技術(shù)方案范疇,所屬技術(shù)領(lǐng)域的技術(shù)人員所作各種簡單變形與修飾,均應(yīng)包含 在以上申請專利范圍中。
【主權(quán)項】
1. 一種基于核空間的線性鑒別稀疏表示分類器的設(shè)計方法,其特征在于:含有以下步 驟: 步驟一:設(shè)計分類器,其步驟為: (一) 讀取訓練樣本,訓練樣本一共C類,定義 本,D是訓練樣本的特征維度,N是訓練樣本總的數(shù)目,乂132,一3% - 3^分別表示第1, 2,…,c,…,C類樣本,定義Νι,N2,…,Nc,…,Nc分別表示每類訓練樣本數(shù)目,則Ν = Νι+Ν+,··· + Nc~^-----i~Nc ; (二) 對訓練樣本進行二范數(shù)歸一化,得到歸一化的訓練樣本; (三) 依次取出訓練樣本中的每一類,并對該類樣本訓練詞典,訓練詞典的過程為: (1) 取出第C類樣本X%將X0映射到核空間Φ (XI; (2) 根據(jù)Φ0-)訓練基于稀疏編碼算法的詞典表示第c類樣本學習到的詞典,該詞 典的訓練需要滿足約束條件,所述約束條件的目標函數(shù)為:式中,II _HI》代表F范數(shù),α為稀疏編碼算法中稀疏項約束的懲罰系數(shù),為第c類核空間 訓練樣本的稀疏表示矩陣,K為學習得到的詞典的大小,IT £^^^是一個權(quán)重矩陣,其每一 列表示核空間樣本對構(gòu)造詞典中每個詞條的貢獻大小,詞典φ (xe)r; φ表示樣本在核 空間中的映射;、 一1 ^ "-" 2 其中 (3) ω記為類內(nèi)散度誤差,ω如下所示:⑷ ξ記為類間散度誤差,ξ如下所示:(3) 對步驟(2)中約束條件的目標函數(shù)進行求解,即對公式(1)求解,其求解過程為:固 定W%更新S%隨機產(chǎn)生矩陣f,將其帶入約束條件的目標函數(shù),這時該目標函數(shù)轉(zhuǎn)化成為一 個h范數(shù)正則化最小二乘問題,即目標函數(shù)轉(zhuǎn)化為:式中,β為類內(nèi)散度的懲罰系數(shù); 上述公式(6)簡化為:進一步把公式(7)分解成一系列子問題求解;針對Τ中的每一個元素進行求解,并剔除 掉與求解無關(guān)的項,則公式(7)可以簡化為:根據(jù)拋物線理論,求出公式(8)的解;由于每個樣本點是獨立的,每次求解Se的一行,其 求解公式如下: I ? - /V y - /1遍歷f的每一列,完成f的一次更新; (4) 固定步驟(3)中更新后的S%更新f,這時約束條件的目標函數(shù)轉(zhuǎn)換為一個12范數(shù)約 束的最小二乘問題,即目標函數(shù)轉(zhuǎn)化為: 、 J \L上述公式(10)采用拉格朗日乘子的方法求解,忽略掉常數(shù)項廿&(^{!〇(【,^},簡化為: ~~~ \~. v ., \ L.Λ -iKK/ kM 根據(jù)KKT條件,滿足公式(11)的最優(yōu)詞典矩陣的每一列需要滿足的條件為:^ ( ?h (b) :(l-[ffcTK(Xc,Xc)ffc] kk)=〇 (12) (c) :Ak>〇 最終求得》:〗的解為:(5) 交替迭代步驟(3)和步驟(4),最終得到最優(yōu)稀疏編碼詞典把=Φ (r)W^ (6) 按照步驟(1)至(5)獲得每類樣本的最優(yōu)稀疏編碼詞典,將每類樣本得到的最優(yōu)稀 疏編碼詞典放在一起,獲得詞典B = [B1,…,··,Be]; 步驟二:對樣本進行分類,其步驟為: (1) 讀取待識別測試樣本的圖像特征,并對圖像特征進行二范數(shù)歸一化,定義y£RDxl表 示一幅待識別的測試樣本圖像特征; (2) 將測試樣本圖像特征y映射到核空間Φ (y); (3) 使用步驟一中獲得的詞典B,對核空間Φ (y)進行擬合,擬合函數(shù)為:式中,s表示核空間中測試樣本圖像特征y的稀疏編碼,Φ (X)表示訓練樣本X在核空間 的映射; (4) 對步驟(3)中的擬合函數(shù)進行求解,求解結(jié)果為:(15) 式中,Sk表示s中的第k個元素:(5) 求核空間Φ (y)在每類樣本所構(gòu)成子空間的擬合誤差,用r(c)表示,其表達式為:丨、丨6) (6) 比較核空間Φ (y)和每類樣本的擬合誤差,待識別圖像則屬于擬合誤差最小的那個 類別。
【文檔編號】G06K9/62GK105868796SQ201610264895
【公開日】2016年8月17日
【申請日】2016年4月26日
【發(fā)明人】劉寶弟, 王立, 韓麗莎, 王延江
【申請人】中國石油大學(華東)