一種基于改進(jìn)udn提取聯(lián)合特征的行人檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)視覺(jué)的技術(shù)領(lǐng)域,具體地涉及一種基于改進(jìn)UDN提取聯(lián)合特征 的行人檢測(cè)方法,主要用于車(chē)輛輔助駕駛、智能視頻監(jiān)控和人體行為分析等行業(yè)。
【背景技術(shù)】
[0002] 近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NeuralNetworks,CNN)在行人檢測(cè)中取得了很好的效果。CNN的特點(diǎn)在于,直接基于圖像 檢測(cè)行人區(qū)域,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取過(guò)程;卷積層利用局部感受視野策 略獲取的特征與對(duì)象的平移、縮放和旋轉(zhuǎn)無(wú)關(guān),因此所獲得的特征具有較好的魯棒性;卷積 核的權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量進(jìn)而降低了網(wǎng)絡(luò)模型的復(fù)雜度,這一點(diǎn)在輸入特征圖 是高分辨率圖像時(shí)表現(xiàn)的更為明顯;同時(shí),下采樣階段利用圖像局部相關(guān)性原理對(duì)特征圖 進(jìn)行的子抽樣在保留有用結(jié)構(gòu)信息的同時(shí),有效地減少了數(shù)據(jù)的處理量,因此CNN被廣泛 應(yīng)用于特征提取。
[0003]PierreSermanet等人在2013年提出無(wú)監(jiān)督多級(jí)特征學(xué)習(xí)的行人檢測(cè)模型 ConvNet。該網(wǎng)絡(luò)包含三個(gè)卷積層,并將第二層卷積下采樣后獲得的特征與第三次卷積得到 特征進(jìn)行融合,最后通過(guò)全連接實(shí)現(xiàn)行人檢測(cè)。在訓(xùn)練方法上,提出了無(wú)監(jiān)督卷積稀疏自 編碼方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行預(yù)訓(xùn)練,然后采用end-to-end的有監(jiān)督方法進(jìn)行微調(diào),該方法在 Caltech上的平均漏檢率為77. 20%。
[0004]同年WanliOuyang等人結(jié)合CNN和DBN構(gòu)建了UDN(UnifiedDeepNet,統(tǒng)一深度 模型),將行人檢測(cè)的平均漏檢率降到了 39.32%。但是,UDN在進(jìn)行分類(lèi)時(shí),容易把樹(shù)木、 電線(xiàn)桿等與行人有相似整體輪廓的非行人物體誤判為行人,因此行人檢測(cè)的平均漏檢率還 是比較高。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的技術(shù)解決問(wèn)題是:克服現(xiàn)有技術(shù)的不足,提供了一種基于改進(jìn)UDN提取 聯(lián)合特征的行人檢測(cè)方法,所提方法能夠有效降低行人檢測(cè)的平均漏檢率。
[0006] 本發(fā)明的技術(shù)解決方案是:這種基于改進(jìn)UDN提取聯(lián)合特征的行人檢測(cè)方法,該 方法包括以下步驟:
[0007] (1)圖像預(yù)處理:對(duì)原始輸入圖像中人體的整體特征和頭部特征進(jìn)行不同的預(yù)處 理,使圖像的邊緣和顏色特征更加突出,便于神經(jīng)網(wǎng)絡(luò)的特征提取;
[0008] (2)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對(duì)預(yù)處理的圖像提取人體整體特征;
[0009] (3)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對(duì)預(yù)處理的圖像的上1/3部分提取局部特征;
[0010] (4)對(duì)步驟⑵和⑶輸出的類(lèi)別概率進(jìn)行加權(quán)平均得到最終概率值,根據(jù)最終概 率值判斷原始輸入圖像是否包含行人。
[0011] 由于行人檢測(cè)場(chǎng)景主要是針對(duì)戶(hù)外道路交通圖像/視頻,而該場(chǎng)景下最容易與人 體圖像混淆的是樹(shù)木、電線(xiàn)桿等柱狀物體,而這些物體與人體圖像相比在頭部區(qū)域位置的 特征差別較大,因此提出聯(lián)合人體整體圖像特征和頭部圖像特征來(lái)進(jìn)行行人檢測(cè),并且以 圖像的上1/3部分作為頭部圖像,因此能夠降低行人檢測(cè)的平均漏檢率。
【附圖說(shuō)明】
[0012] 圖1是根據(jù)本發(fā)明的步驟(1)圖像預(yù)處理的流程圖。
[0013] 圖2是根據(jù)本發(fā)明的步驟⑵-⑷的結(jié)構(gòu)示意圖。
[0014] 圖3是本發(fā)明在Caltech數(shù)據(jù)庫(kù)上的檢測(cè)結(jié)果。
【具體實(shí)施方式】
[0015] 這種基于改進(jìn)UDN提取聯(lián)合特征的行人檢測(cè)方法,該方法包括以下步驟:
[0016] (1)圖像預(yù)處理:對(duì)原始輸入圖像中人體的整體特征和頭部特征進(jìn)行不同的預(yù)處 理,使圖像的邊緣和顏色特征更加突出,便于神經(jīng)網(wǎng)絡(luò)的特征提??;
[0017] (2)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對(duì)預(yù)處理的圖像提取人體整體特征;
[0018] (3)基于卷積神經(jīng)網(wǎng)絡(luò)CNN模型對(duì)預(yù)處理的圖像的上1/3部分提取局部特征;
[0019] (4)對(duì)步驟⑵和⑶輸出的類(lèi)別概率進(jìn)行加權(quán)平均得到最終概率值,根據(jù)最終概 率值判斷原始輸入圖像是否包含行人。
[0020] 由于行人檢測(cè)場(chǎng)景主要是針對(duì)戶(hù)外道路交通圖像/視頻,而該場(chǎng)景下最容易與人 體圖像混淆的是樹(shù)木、電線(xiàn)桿等柱狀物體,而這些物體與人體圖像相比在頭部區(qū)域位置的 特征差別較大,因此提出聯(lián)合人體整體圖像特征和頭部圖像特征來(lái)進(jìn)行行人檢測(cè),并且以 圖像的上1/3部分作為頭部圖像,因此能夠降低行人檢測(cè)的平均漏檢率。
[0021] 優(yōu)選地,所述步驟(1)中將原圖像轉(zhuǎn)換到Y(jié)UV顏色空間,對(duì)轉(zhuǎn)換后的圖像提取邊 緣特征,利用原圖像和邊緣圖像組合得到CNN輸入的三個(gè)通道;其中對(duì)于人體的整體特征, 第一個(gè)通道是原圖的Y通道;第二個(gè)通道被均分為四個(gè)block,分別是Y通道,U通道,V通 道,和全0;第三個(gè)通道是對(duì)原圖像進(jìn)行高斯濾波后提取的邊緣特征圖像,也是分為四個(gè) block,其中前三個(gè)block是利用sobel算子針對(duì)原圖像YUV三個(gè)通道分別計(jì)算的圖像邊 緣,第四個(gè)block是YUV三個(gè)通道的邊緣的最大值;其中對(duì)于人體的頭部特征,第一個(gè)通道 是原圖的Y通道;第二個(gè)通道是輸入圖像的H0G特征;第三個(gè)通道被均分為4個(gè)block,前 三個(gè)block是利用sobel算子針對(duì)源圖像YUV三個(gè)通道分別計(jì)算出圖像邊緣,第四個(gè)block 是YUV三個(gè)通道的邊緣的最大值。
[0022] 優(yōu)選地,在所述步驟(1)中還包括:將預(yù)處理后的圖像作為正樣本,對(duì)正樣本進(jìn)行 鏡像翻轉(zhuǎn),并將翻轉(zhuǎn)后得到的圖像標(biāo)定為訓(xùn)練集的正樣本的擴(kuò)充。
[0023] 優(yōu)選地,所述步驟(2)包括:卷積層特征提取、進(jìn)行形變計(jì)算、通過(guò)分類(lèi)估計(jì)模型 進(jìn)行分類(lèi)估計(jì)。
[0024] 優(yōu)選地,所述步驟(3)包括:第一次卷積、池化、第二次卷積。
[0025] 現(xiàn)在給出一個(gè)本發(fā)明的詳細(xì)實(shí)施例。
[0026] 本發(fā)明主要涉及基于多特征的行人檢測(cè)方法。行人檢測(cè)的關(guān)鍵點(diǎn)是找到可能包含 人體的圖像區(qū)域。考慮到人體頭部相對(duì)于多變的人體姿勢(shì)而言具有更好的不變性和相對(duì)于 樹(shù)、電線(xiàn)桿等物體具有很好的區(qū)分性,本發(fā)明通過(guò)提取人體頭部圖像區(qū)域的特征輔助行人 檢測(cè)。
[0027] 本發(fā)明所用到的基礎(chǔ)數(shù)據(jù)來(lái)自Caltech數(shù)據(jù)庫(kù),訓(xùn)練和測(cè)試樣本圖像均為Wanli Ouyan等人利用H0G+CSS+SVM對(duì)Caltech數(shù)據(jù)庫(kù)中的圖像進(jìn)行區(qū)域劃分和分類(lèi)后得到的圖 像集,每張圖像是數(shù)據(jù)庫(kù)中原圖像分割得到的84X28大小的區(qū)域圖像,正樣本圖像是包含 行人的圖像,負(fù)樣本是不包含行人的圖像。
[0028] 本發(fā)明提出的行人檢測(cè)網(wǎng)絡(luò)模型包含兩個(gè)子網(wǎng),分別用于提取行人的整體特征和 區(qū)域特征,行人的整體特征提取采用類(lèi)似于UDN的網(wǎng)絡(luò)結(jié)構(gòu)。基于兩個(gè)子網(wǎng)提取的特征分 別計(jì)算該圖像屬于行人類(lèi)別的得分,對(duì)兩部分得分進(jìn)行加權(quán)求和求出該樣本是行人類(lèi)別的 概率。
[0029] 1、圖像預(yù)處理
[0030] 適當(dāng)?shù)膱D像預(yù)處理方法,可以消除原始圖像中的天氣、光照等環(huán)境影響,使圖像的 邊緣和顏色特征更加突出,便于神經(jīng)網(wǎng)絡(luò)的特征提取。由于人體的整體特征和頭部特征的 分布不同,我們對(duì)這兩個(gè)特征圖的原始輸入進(jìn)行不同的預(yù)處理。
[0031] 1.1卷積網(wǎng)絡(luò)輸入數(shù)據(jù)
[0032] 本發(fā)明首先將源圖像轉(zhuǎn)換到Y(jié)UV顏色空間,對(duì)轉(zhuǎn)換后的圖像提取邊緣特征,利用 源圖像和邊緣圖像組合得到CNN輸入的三個(gè)通道(如圖1)。
[0033] 整體特征CNN:第一個(gè)通道是原圖的Y通道;第二個(gè)通道被均分為四個(gè)block,分 別是Y通道,U通道,V通道,和全0 ;第三個(gè)通道是對(duì)源圖像進(jìn)行高斯濾波后提取的邊緣特 征圖像,也是分為四個(gè)block,其中前三個(gè)block是利用sobel算子針對(duì)源圖像YUV三個(gè)通 道分別計(jì)算的圖像邊緣,第四個(gè)block是YUV三個(gè)通道的邊緣的最大值。
[0034] 局部特征CNN:該網(wǎng)絡(luò)使用的源圖像是整體特征CNN網(wǎng)絡(luò)所用源圖像的上1/3區(qū) 域圖像。網(wǎng)絡(luò)輸入第一個(gè)通道是原圖的Y通道;第二個(gè)通道是輸入圖像的H0G特征;第三個(gè) 通道被均分為4個(gè)block,前三個(gè)block是利用sobel算子針對(duì)源圖像YUV三個(gè)通道分別計(jì) 算出圖像邊緣,第四個(gè)block是YUV三個(gè)通道的邊緣的最大值。
[0035] 1. 2訓(xùn)練樣本擴(kuò)充
[0036] 由于所用數(shù)據(jù)集為車(chē)載攝像頭拍攝的街景視頻,正樣本數(shù)量較少,為了提高算法 的泛化能力,本發(fā)明采用對(duì)正樣本進(jìn)行鏡像翻轉(zhuǎn)并將反轉(zhuǎn)后得到的圖像標(biāo)定為訓(xùn)練集的正 樣本的擴(kuò)充方法。網(wǎng)絡(luò)訓(xùn)練時(shí),輸入樣本為隨機(jī)選擇得到,每組實(shí)驗(yàn)輸入60個(gè)樣本,包括50 個(gè)負(fù)樣本和10個(gè)正樣本。
[0037] 2、行人檢測(cè)網(wǎng)絡(luò)模型
[0038] 本發(fā)明的網(wǎng)絡(luò)結(jié)構(gòu)聯(lián)合考慮圖像區(qū)域整體特征與圖像上1/3區(qū)域的局部特征,網(wǎng) 絡(luò)結(jié)構(gòu)如圖2所示。
[0039] 2. 1待檢測(cè)區(qū)域整體特征提取
[0040] 基于圖像提取人體整體特征是指將源圖像作為網(wǎng)絡(luò)的輸入,提取行人特征,便于 行人與非行人的判別。
[0041] 2. 1. 1卷積層特征提取
[0042] 本發(fā)明中整體特征提取由2個(gè)卷積層和1個(gè)池化層交替完成。卷積操作實(shí)現(xiàn)輸入 信號(hào)在特定模式下的觀(guān)測(cè)。第一層卷積操作的輸入^是84X28大小的圖像,卷積核大小 為9X9,輸出特征圖7]的計(jì)算公式如式(2. 1)所示:
[0043] yj=bj+Σ (2. 1)
[0044] 其中,i表示輸入特征圖的數(shù)量,j表示輸出特征圖的數(shù)量,Wg為待求的卷積核參 數(shù),b,是偏置參數(shù),wu和b,在實(shí)驗(yàn)開(kāi)始時(shí)采用隨機(jī)初始化的方式獲取。
[0045] 接下來(lái)對(duì)卷積階段得到的特征按照一定的原則進(jìn)行篩選,通常采用非線(xiàn)性變換函 數(shù)作為篩選策略。本發(fā)明采用的非線(xiàn)性變換函數(shù)是softplus,因?yàn)閟oftplus與神經(jīng)學(xué)領(lǐng) 域提出的腦神經(jīng)元激活頻率函數(shù)有相似的特性,且在訓(xùn)練梯度下降時(shí),softplus比傳統(tǒng)的 sigomid等飽和非線(xiàn)性函數(shù)有更快的收斂速度,其公式如式(2. 2)所示:
[0046]softplus:y=log(l+ex) (2. 2)
[0047] 其中,x表示卷積階段得到的特征,y表示激活函數(shù)的輸出結(jié)果。池化階段采用的 是平均池化方式,通過(guò)計(jì)算每4X4鄰域內(nèi)像素的均值