基于多線索歸一化非負稀疏編碼器的圖像快速特征表示方法
【技術(shù)領(lǐng)域】:
[0001] 本發(fā)明設(shè)及計算機視覺圖像處理技術(shù)領(lǐng)域,具體設(shè)及一種基于多線索歸一化非負 稀疏編碼器的圖像快速特征表示方法。
【背景技術(shù)】:
[0002] 生物學研究表明,哺乳動物的初級視皮層對外界刺激的響應(yīng)滿足稀疏性,即只有 少數(shù)的神經(jīng)元被激活,相應(yīng)的編碼應(yīng)該為稀疏編碼。稀疏編碼,通俗地說,就是將一個信號 表示為一組基的組合,而且要求只需要少數(shù)的幾個基就可W將信號重構(gòu)出來。稀疏編碼已 經(jīng)廣泛應(yīng)用到計算機視覺、圖像信號處理等領(lǐng)域,例如,信號重構(gòu)、信號去噪、圖像特征提 取、W及分類等應(yīng)用。
[0003] 傳統(tǒng)的稀疏編碼方法是基于最小均方誤差意義下的重構(gòu),也就是使得重構(gòu)誤差盡 可能小,同時,盡可能使得相應(yīng)的編碼系數(shù)稀疏化。由于稀疏編碼之后的過程通常是最大池 化(maxpooling)。運使得負數(shù)編碼系數(shù)直接被忽略,造成了信息泄漏。在傳統(tǒng)的稀疏編 碼基礎(chǔ)之上,添加非負約束,引入了非負稀疏編碼。在非負稀疏編碼基礎(chǔ)之上,進一步添加 平移不變形約束,得到所謂的歸一化非負稀疏編碼。一方面使得稀疏編碼系數(shù)的解釋性得 到加強,另一方面自動地使得傳統(tǒng)的稀疏約束參數(shù)消失,避免了繁雜的參數(shù)調(diào)節(jié)過程。歸一 化非負稀疏編碼的精確求解復雜度較高,不適合大規(guī)模的圖像應(yīng)用。通過使用自編碼器模 型,學習得到歸一化非負稀疏編碼的編碼器,從而在編碼過程中避免了迭代求解的過程,因 此求解歸一化非負稀疏編碼只需要計算矩陣與矩陣乘法,W及一些非線性激活函數(shù)操作, 從而大大增加了編碼速度。
[0004] 稀疏編碼的基本理論模型: 陽00引 乂E腺4'記作N個D維的局部特征,友e吸。xM表示含有M個基元的碼書,Ce肢'"xy 表示對應(yīng)的編碼系數(shù)。并且X中第i個局部特征表示為Xi,其對應(yīng)的編碼系數(shù)為Ci。傳統(tǒng) 的稀疏編碼模型目標在于優(yōu)化W下的目標函數(shù):
[0006]
[0007] 其中入為L1范數(shù)的稀疏約束參數(shù),通過調(diào)節(jié)A,可W達到控制Ci稀疏程度的目 的。
[0008] 非負稀疏編碼模型的目標函數(shù)在此基礎(chǔ)之上,對于編碼系數(shù)額外添加了非負約 束:
[0009]
[0010] 其中Ci(j)表示向量Ci的第j個分量。W上兩種編碼方式,都需要手工調(diào)節(jié)入, 來達到控制稀疏度的目的。在非負稀疏編碼的基礎(chǔ)上,我們進一步添加平移不變性約束,來 達到歸一化非負稀疏編碼:
[0011]
陽012] 其中1為元素全部為1的M維列向量,Ci(j)為向量Ci的第j個分量。由于非負 約束和平移不變性約束的聯(lián)合作用,使得Ci的L1范數(shù)變成常數(shù)1,因此最后一項可W省略 掉,從來達到了自適應(yīng)的控制稀疏度的目的。盡管歸一化非負稀疏編碼的目標函數(shù)中沒有 顯示的稀疏約束(L1范數(shù)正則項),但是根據(jù)帶約束凸優(yōu)化的邊界條件,歸一化非負稀疏編 碼的結(jié)果通常都是稀疏的。
[0013] 如圖1所示,圖1分析了稀疏編碼,局部限定性編碼,歸一化非負稀疏編碼的編碼 方案示意圖。稀疏編碼的結(jié)果趨向于局部性,但是并不嚴格地是局部性結(jié)果;局部限定性編 碼挑選幾個臨近的碼字去重構(gòu)輸入局部特征;盡管歸一化非負稀疏編碼的目標函數(shù)里面沒 有顯式的局部約束,事實上,它在目標函數(shù)里面從另一個角度隱含了局部約束。局部限定性 編碼強制重構(gòu)局部特征在輸入局部特征的局部子空間中,因為它選擇的基都是非常接近輸 入局部特征的。而歸一化非負稀疏編碼僅僅允許重構(gòu)局部特征存在于由所選擇的基擴展成 的單純形(simplex)之中。
【發(fā)明內(nèi)容】
:
[0014] 本發(fā)明的目的在于針對現(xiàn)有技術(shù)的不足,提供了一種基于多線索歸一化非負稀疏 編碼器的圖像快速特征表示方法,用于改進單線索歸一化非負稀疏編碼的特征表達能力, 同時不增加任何計算復雜度。
[0015] 為達到上述目的,本發(fā)明采用如下技術(shù)方案予W實現(xiàn)的:
[0016] 基于多線索歸一化非負稀疏編碼器的圖像快速特征表示方法,包括W下步驟:
[0017] 1)對待處理的圖像數(shù)據(jù)集中所有圖像分別稠密地提取SIFT特征和顏色矩特征或 者HOG特征和顏色矩特征; 陽01引 2)對待處理的圖像數(shù)據(jù)集中所有圖像提取完SIFT特征后,隨機地選取5萬至50 萬的SIFT特征和顏色矩特征,分別求解出待處理的圖像數(shù)據(jù)集的SIFT特征碼書和顏色矩 特征碼書;
[0019] 3)建立基于多線索歸一化非負稀疏編碼編碼器的松弛模型;
[0020] 4)利用步驟2)中求解得到的碼書,按照步驟3)中建立的基于多線索歸一化非負 稀疏編碼編碼器的松弛模型,求解松弛模型的參數(shù),得到基于多線索歸一化非負稀疏編碼 編碼器;
[0021] 5)利用求解得到的基于多線索歸一化非負稀疏編碼編碼器,對所有的SIFT特征 進行編碼;
[0022] 6)對圖像數(shù)據(jù)集中每張圖像的編碼進行空間金字塔最大池化方法整合,得到每張 圖像的特征向量。
[002引本發(fā)明進一步的改進在于,步驟2)中,WK-均值聚類的方法分別求解出待處理的 圖像數(shù)據(jù)集的SIFT特征碼書和顏色矩特征碼書。
[0024] 本發(fā)明進一步的改進在于,步驟3)中,基于多線索歸一化非負稀疏編碼編碼器的 松弛模型目標函數(shù)如下: 陽0巧]
[0026] 其中,Xi,分別表示其中第i個SIFT特征和顏色矩特征,及巨齡氣P€妒'"表示 對應(yīng)于兩種局部特征的含有M個基元的碼書,山Dy分別表示SIFT特征和顏色矩特征的維 度,Z為引入的松弛變量矩陣,維度為MXN,Zi為對應(yīng)于第i個局部特征的M維松弛變量向 量,fe(?)為編碼器的表達式,0為編碼器的參數(shù),包括Wl,W2,bl,b2,e,丫分別為控制松 弛變量的稀疏度和編碼器輸出與松弛變量的逼近度的超參數(shù);
[0027] 使用兩層神經(jīng)網(wǎng)絡(luò)模型來表示編碼器fe( ?),即
[0028] f0(X)=softmax(W2(sigmoid(WiX+bi)+b2))
[0029]其中,Wi,bi分別為兩層神經(jīng)網(wǎng)絡(luò)模型中第一層的權(quán)重系數(shù)和偏置系數(shù);W2,b2分別 為兩層神經(jīng)網(wǎng)絡(luò)模型中第二層的權(quán)重系數(shù)和偏置系數(shù),X為兩層神經(jīng)網(wǎng)絡(luò)模型的輸入SIFT 特征。
[0030] 本發(fā)明進一步的改進在于,步驟4)中,采用交替優(yōu)化的策略求解參數(shù)0,z,具體 方法如下:
[0031] 401)固定參數(shù)0,求解參數(shù)Z,公式如下:
[0032]
[0033] 使用梯度下降法對上述公式進行優(yōu)化;
[0034] 402)固定參數(shù)Z,求解參數(shù)0,公式如下:
[0035]
[0036] 使用梯度下降法對上述公式進行優(yōu)化;
[0037]403)交互迭代步驟401)和402),直至收斂;最終求得多線索歸一化非負稀疏編碼 的編碼器fe(X)。
[0038] 本發(fā)明進一步的改進在于,步驟5)中,利用求解得到的基于多線索歸一化非負稀 疏編碼編碼器fe(X),對輸入圖像的所有SIFT特征進行編碼。
[0039] 相對于現(xiàn)有技術(shù),本發(fā)明具有如下的優(yōu)點:
[0040] 本發(fā)明使用自編碼器模型,通過在編碼器參數(shù)學習階段,輸入多種類型局部特征 進行訓練,期望得到的歸一化非負稀疏編碼的編碼系數(shù),能夠同時"記憶"多種特征信息,進 而能夠進一步提升圖像的特征表達能力;在圖像編碼階段,在某些類型的局部特征不可獲 得的前提下(例如灰度圖不能夠得到顏色矩特征),通過僅僅提取一種局部特征(SIFT)便 可得到接近于輸入多種特征(SIFT和顏色矩特征)的特征表示。同時相較于單線索的歸一 化非負稀疏編碼來說,編碼過程完全一致,不增加任何計算量。使用本發(fā)明的多線索歸一化 非負稀疏編碼器能夠快速地獲得判別力較強的圖像特征表示。
[0041]具體來說,本發(fā)明在單線索歸一化非負稀疏編碼的基礎(chǔ)上,提出了多線索歸一化 非負稀疏編碼模型,使得圖像的最終特征表達能力進一步增強。并且,推導證明了多線索歸 一化非負稀疏編碼器的優(yōu)化與單線索完全等價。本發(fā)明使用松弛自編碼器模型,優(yōu)化求解 多線索歸一化非負稀疏編碼器參數(shù)。本發(fā)明使用學習得到的多線索非負稀疏編碼器,在圖 像編碼階段,只需提取一種輸入特征直接計算多線索非負稀疏編碼系數(shù),避免了迭代求解 的繁瑣過程,從而大大提升了編碼速度。本發(fā)明通過在訓練階段輸入多種特征,使得編碼器 能夠?qū)W習"記憶"得到多種特征信息,在編碼階段,當圖像的某些信息缺失時,多線索編碼器 能夠自動計算出多種信息的共享編碼系數(shù),在一定程度上能夠彌補運種信息的缺失。
【附圖說明】:
[0042] 圖1(a)至(C)分別為稀疏編碼、局部限定性編碼及歸一化非負稀疏編碼的編碼示 意圖。
[0043] 圖2為空間金字塔最大池化示意圖。
[0044] 圖3為本發(fā)明基于多線索歸一化非負稀疏編碼器的圖像快速特征表示方法的流 程圖。
[0045] 圖4為學習編碼器參數(shù)的自編碼器網(wǎng)絡(luò)示意圖;其中,圖4(a)為自編碼器網(wǎng)絡(luò)結(jié) 構(gòu)示意圖,圖4(b)為某個輸入的SIFT特征編解碼過程示例。
[0046] 圖5為多線索歸一化非負稀疏編碼器的參數(shù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
【具體實施方式】:
[0047]W下結(jié)合附圖對本發(fā)明作進一步的詳細說明。
[0048] 本發(fā)明在優(yōu)化歸一化非負稀疏編碼器的過程當中,通過提供多種輸入局部特征, 使得編碼器參數(shù)能夠?qū)W習"記憶"到多種特征信息(即多線索),在編碼階段對輸入圖像進 行特征編碼時,僅需輸入一種特征便能部分地得出多種特征的聯(lián)合編碼系數(shù),與單一線索 模式相比(訓練編碼器參數(shù)時,僅有一種輸入