欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種監(jiān)控場景下融合上下文信息的行人位置檢測方法與流程

文檔序號:11775276閱讀:199來源:國知局
一種監(jiān)控場景下融合上下文信息的行人位置檢測方法與流程

本發(fā)明涉及基于視頻監(jiān)控場景下的行人位置檢測領(lǐng)域,尤其涉及一種監(jiān)控場景下融合上下文信息的行人位置檢測方法。



背景技術(shù):

隨著計算機(jī)硬件設(shè)備和視覺技術(shù)的不斷發(fā)展,基于視頻監(jiān)控場景下的行人位置檢測作為智慧城市的重要組成部分,越來越引起社會和工業(yè)界的廣泛關(guān)注。但是,由于光照、視角、姿態(tài)等因素的影響,監(jiān)控場景下的行人位置檢測仍然是一個具有挑戰(zhàn)性的任務(wù)。

當(dāng)前,根據(jù)獲取行人特征方式的不同,行人位置檢測方案主要分為兩大類:基于手工特征的行人位置檢測和基于深度特征的行人位置檢測。

基于手工特征的行人位置檢測主要指利用傳統(tǒng)圖像處理方法提取行人特征,并設(shè)計分類器進(jìn)行特征分類,例如,hog特征、dot特征、hog+lbp聯(lián)合特征等等。該類行人位置檢測獲取刻畫行人的特征通常屬于低層特征,判別能力不強(qiáng),導(dǎo)致無法消除監(jiān)控場景中光照變化和視角變換對行人位置檢測的影響。

基于深度特征的行人位置檢測主要指利用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡稱cnn)提取刻畫行人特征,并采用神經(jīng)網(wǎng)絡(luò)區(qū)分行人和背景。雖然該類行人位置檢測能夠從大量的樣本中學(xué)習(xí)具有判別能力的行人特征,但由于該類方案沒有利用場景的上下文信息,導(dǎo)致行人位置檢測的準(zhǔn)確度難以達(dá)到監(jiān)控場景的需求。

針對上述已有行人位置檢測方案的不足,本方案提出了一種新的融合上下文信息的監(jiān)控場景下行人位置檢測方法,該系統(tǒng)通過在卷積神經(jīng)網(wǎng)絡(luò)中增添特殊的卷積層,選擇性地學(xué)習(xí)上下文信息,提高了監(jiān)控場景中行人位置檢測的準(zhǔn)確度。相較于現(xiàn)有檢測方法,本申請充分利用了上下文信息,從而進(jìn)一步提高了監(jiān)控場景下行人位置檢測的準(zhǔn)確性。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提供一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,能夠選擇性地學(xué)習(xí)上下文信息,解決了傳統(tǒng)的行人位置檢測方法中由于沒有考慮上下文信息而導(dǎo)致的檢測結(jié)果不準(zhǔn)確的問題。

為了實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:

一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,包括以下步驟:

步驟a:提取輸入圖像的卷積神經(jīng)網(wǎng)絡(luò)特征;

步驟b:將監(jiān)控場景的上下文信息融入到卷積神經(jīng)網(wǎng)絡(luò)中,生成關(guān)于行人位置的掩碼圖z;

步驟c:對掩碼圖z進(jìn)行后處理,估計包含行人位置的邊界框。

所述的步驟a包括以下步驟:

步驟a1:定義輸入圖像為x0,將其表示為其中,分別表示圖像x0在rgb空間的三通道圖;則第l個卷積層的第j個特征圖計算方式如下:

其中,l表示卷積層的索引,l=1,2,3,4,5;ml表示第l個卷積層特征圖的數(shù)目,m1=96、m2=256、m3=384、m4=384、m5=256;表示相鄰卷積層特征圖的連接關(guān)系;表示卷積操作;分別表示卷積核和偏移;

步驟a2:第l個卷積層的第j個特征圖通過第l個卷積層的池化層和非線性層得到輸入圖像x0在第l個卷積層獲取的j張?zhí)卣鲌D其中,j=1,...,256;

輸入圖像x0在第l個卷積層獲取的j張?zhí)卣鲌D表示為:

其中,g(·)表示對進(jìn)行局部響應(yīng)歸一化處理,f(·)表示激活函數(shù),f(·)采用不飽和非線性

函數(shù):

因此,卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像x0在第五個卷積層獲取了256張?zhí)卣鲌Dj=1,...,256。

所述的步驟b包括以下步驟:

步驟b1:在第一卷積層中,設(shè)置五張?zhí)卣鲌D,分別為一張包含行人信息的特征圖yp和四張不同的包含上下文信息的特征圖其中q=1,...,4;各個特征圖按照以下方式進(jìn)行計算:

其中,均表示卷積核,分別用來學(xué)習(xí)行人信息和行人周圍上下文信息(本系統(tǒng)中大小分別取值為7×3和3×3),bp表示偏置量,函數(shù)f(g)采用relu激活函數(shù),即f(x)=max(x,0),表示無邊界損失的卷積操作;

步驟b2:在第二卷積層中,將每張包含上下文信息的特征圖均卷積一個平移卷積核tq(本系統(tǒng)中平移卷積核tq大小為9×5),使對行人位置檢測有幫助的上下文信息向行人的中心位置進(jìn)行投票;為了使卷積操作產(chǎn)生平移效果,在每個平移卷積核中,有且僅有一個元素設(shè)置為1,其余元素設(shè)置為0;如圖2所示:對行人位置檢測有幫助的上下文信息分別位于行人的左上側(cè)、右側(cè)、下側(cè)以及左側(cè),那么,使用圖2中所示的平移卷積核可使包含上下文信息的特征圖向行人中心位置投票;例如,t1可使特征圖向右下方平移2個單位,t3可使特征圖向上方平移2個單位;

步驟b3:確定卷積核以及平移卷積核tq,具體的步驟如下所示:

步驟b31:定義單張訓(xùn)練圖像為s,訓(xùn)練圖像s對應(yīng)的真實掩碼圖表示為m,訓(xùn)練集表示為t,為了準(zhǔn)確地預(yù)測監(jiān)控場景中行人的位置和選擇性地學(xué)習(xí)監(jiān)控場景的上下文信息,建立以下目標(biāo)函數(shù):

其中,

為誤差項,表示輸出掩碼圖與真實掩碼圖之間的累計誤差;

為正則化項,限定了平移卷積核tq的解空間,參數(shù)θ提高了漏報的懲罰,本系統(tǒng)中θ=0.1,避免輸出掩碼圖全部為零的情況;⊙表示兩個矩陣之間的點乘操作,參數(shù)λ是誤差項和正則化項之間的平衡因子,其取值大小為λ=100;

步驟b32:采用隨機(jī)梯度下降算法更新卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù),訓(xùn)練學(xué)習(xí)率的取值為0.01;通常情況下,由于監(jiān)控場景的訓(xùn)練樣本較少,可以訓(xùn)練卷積核和平移卷積核tq學(xué)習(xí)監(jiān)控場景的上下文信息;然而,由于截斷的卷積神經(jīng)網(wǎng)絡(luò)模型中參數(shù)數(shù)量較多,無法利用監(jiān)控場景的訓(xùn)練樣本進(jìn)行充分訓(xùn)練,因此,可以利用在imagenet數(shù)據(jù)集上訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)初始化特征提取的參數(shù),之后使用訓(xùn)練樣本微調(diào)整上述的參數(shù);另外,雖然目標(biāo)函數(shù)l中正則化項對平移卷積核tq有所限定,但無法滿足平移卷積核tq有且僅有一個元素為1,其余元素為0的條件;因此,在每次參數(shù)更新后,將平移卷積核tq中最大值的元素設(shè)置為1,其余元素設(shè)置為0,確保特征圖與卷積核tq卷積后產(chǎn)生位移效果;

步驟b4:融合行人信息和所有上下文信息,形成一張關(guān)于行人位置的掩碼圖z,具體計算方式如下:

其中,函數(shù)g(·)采用sigmoid激活函數(shù)。掩碼圖z中所有元素的取值范圍為0到1之間,表示行人在輸入圖像中相應(yīng)位置的概率值。

所述的步驟c包括以下步驟:

步驟c1:將掩碼圖z的尺寸按比例放大,直至與輸入圖像的尺寸相同,然后將融合了上下文信息的掩碼圖z進(jìn)行二值化;

步驟c2:根據(jù)不同的監(jiān)控場景,設(shè)定多個尺寸的邊界框,在掩碼圖z上逐像素滑動邊界框,如果邊界框中元素值的總和超過邊界框面積的75%,則判定此時邊界框中包含行人,保留此邊界框,否則滑動到下一個位置進(jìn)行判斷;

步驟c3:利用非最大抑制算法合并所有相交的邊界框,如果尺寸大的邊界框包含尺寸小的邊界框,則刪除尺寸小的邊界框。

本發(fā)明的有益效果:

與現(xiàn)有技術(shù)相比,本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,通過在卷積神經(jīng)網(wǎng)絡(luò)中增添特殊的卷積層,選擇性地學(xué)習(xí)上下文信息,相較于現(xiàn)有檢測方法,提高了監(jiān)控場景下行人位置檢測的準(zhǔn)確度。

附圖說明

為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明的方法流程圖;

圖2為本發(fā)明所述的平移卷積核與上下文信息的位置關(guān)系圖;

圖3為本發(fā)明所述的融合上下文信息的行人位置檢測方法部分檢測結(jié)果的示意圖。

具體實施方式

下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。

如圖1所示:本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,包括以下步驟:

步驟a:提取輸入圖像的卷積神經(jīng)網(wǎng)絡(luò)特征,具體步驟為:

由于卷積神經(jīng)網(wǎng)絡(luò)提取的特征屬于高層特征,能應(yīng)對一定程度的光照變化和視角變換,因此本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法采用截斷的卷積神經(jīng)網(wǎng)絡(luò)模型提取輸入圖像的特征;即將一張彩色圖像輸入到截斷的卷積神經(jīng)網(wǎng)絡(luò)中,輸出最后一個卷積層的特征圖;

優(yōu)選方案為:本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法采用的截斷的卷積神經(jīng)網(wǎng)絡(luò)模型為alexnet的前五層結(jié)構(gòu),提取輸入圖像的卷積神經(jīng)網(wǎng)絡(luò)特征的詳細(xì)步驟如下:

步驟a1:假設(shè)輸入圖像為x0,將其表示為其中,分別表示圖像x0在rgb空間的三通道圖;用l表示卷積層的索引,l=1,2,3,4,5;ml表示第l個卷積層特征圖的數(shù)目,m1=96、m2=256、m3=384、m4=384、m5=256;則第l個卷積層的第j個特征圖計算方式如下:

其中,表示相鄰卷積層特征圖的連接關(guān)系;表示卷積操作;分別表示卷積核

和偏移;

步驟a2:第l個卷積層的第j個特征圖通過第l層的池化層和非線性層得到表示為:

其中,g(g)表示進(jìn)行局部響應(yīng)歸一化處理,f(g)表示激活函數(shù),采用不飽和非線性函數(shù):

因此,cnn對輸入圖像x0在第五個卷積層獲取了256張?zhí)卣鲌Dj=1,...,256;本系統(tǒng)為了方便表達(dá),輸出特征圖表示為{x1,x2,...,xn},其中,n代表特征圖的個數(shù),本系統(tǒng)n=256;雖然獲取輸入圖像x0的特征圖時,通過卷積神經(jīng)網(wǎng)絡(luò)中包含的數(shù)個池化層縮小了特征圖的尺寸,但圖像特征之間的位置關(guān)系仍然不變。

步驟b:預(yù)測行人在監(jiān)控場景中的相對位置;

在截斷的卷積神經(jīng)網(wǎng)絡(luò)模型之后添加第一卷積層和第二卷積層,將監(jiān)控場景的上下文信息融入到卷積神經(jīng)網(wǎng)絡(luò)中,并輸出一張掩碼圖,預(yù)測行人在監(jiān)控場景中的相對位置,詳細(xì)步驟是:

步驟b1:在第一卷積層中,設(shè)置五張?zhí)卣鲌D,分別為一張包含行人信息的特征圖yp和四張不同的包含上下文信息的特征圖其中q=1,...,4;各個特征圖按照以下方式進(jìn)行計算:

其中,均表示卷積核,分別用來學(xué)習(xí)行人信息和行人周圍上下文信息(本系統(tǒng)中大小分別取值為7×3和3×3),bp表示偏置量,函數(shù)f(g)采用relu激活函數(shù),即f(x)=max(x,0),表示無邊界損失的卷積操作;

步驟b2:在第二卷積層中,將每張包含上下文信息的特征圖均卷積一個平移卷積核tq(本系統(tǒng)中平移卷積核tq大小為9×5),使對行人位置檢測有幫助的上下文信息向行人的中心位置進(jìn)行投票;為了使卷積操作產(chǎn)生平移效果,在每個平移卷積核中,有且僅有一個元素設(shè)置為1,其余元素設(shè)置為0;如圖2所示:對行人位置檢測有幫助的上下文信息分別位于行人的左上側(cè)、右側(cè)、下側(cè)以及左側(cè),那么,使用圖2中所示的平移卷積核可使包含上下文信息的特征圖向行人中心位置投票;例如,t1可使特征圖向右下方平移2個單位,t3可使特征圖向上方平移2個單位;

步驟b3:確定卷積核以及平移卷積核tq,具體的步驟如下所示:

步驟b31:定義單張訓(xùn)練圖像為s,訓(xùn)練圖像s對應(yīng)的真實掩碼圖表示為m,訓(xùn)練集表示為t,為了準(zhǔn)確地預(yù)測監(jiān)控場景中行人的位置和選擇性地學(xué)習(xí)監(jiān)控場景的上下文信息,建立以下目標(biāo)函數(shù):

其中,

為誤差項,表示輸出掩碼圖與真實掩碼圖之間的累計誤差;

為正則化項,限定了平移卷積核tq的解空間,參數(shù)θ提高了漏報的懲罰,本系統(tǒng)中θ=0.1,避免輸出掩碼圖全部為零的情況;⊙表示兩個矩陣之間的點乘操作,參數(shù)λ是誤差項和正則化項之間的平衡因子,其取值大小為λ=100;

步驟b32:采用隨機(jī)梯度下降算法更新卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù),訓(xùn)練學(xué)習(xí)率的取值為0.01;通常情況下,由于監(jiān)控場景的訓(xùn)練樣本較少,可以訓(xùn)練卷積核和平移卷積核tq學(xué)習(xí)監(jiān)控場景的上下文信息;然而,由于截斷的卷積神經(jīng)網(wǎng)絡(luò)模型中參數(shù)數(shù)量較多,無法利用監(jiān)控場景的訓(xùn)練樣本進(jìn)行充分訓(xùn)練,因此,可以利用在imagenet數(shù)據(jù)集上訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)初始化特征提取的參數(shù),之后使用訓(xùn)練樣本微調(diào)整上述的參數(shù);另外,雖然目標(biāo)函數(shù)l中正則化項對平移卷積核tq有所限定,但無法滿足平移卷積核tq有且僅有一個元素為1,其余元素為0的條件;因此,在每次參數(shù)更新后,將平移卷積核tq中最大值的元素設(shè)置為1,其余元素設(shè)置為0,確保特征圖yqc與卷積核tq卷積后產(chǎn)生位移效果;

步驟b4:融合行人信息和所有上下文信息,形成一張關(guān)于行人位置的掩碼圖z,具體計算方式如下:

其中,函數(shù)g(·)采用sigmoid激活函數(shù)。掩碼圖z中所有元素的取值范圍為0到1之間,表示行人在輸入圖像中相應(yīng)位置的概率值;

步驟c:對掩碼圖z進(jìn)行后處理,估計包含行人位置的邊界框;

步驟c1:將掩碼圖z的尺寸按比例放大,直至與輸入圖像的尺寸相同,然后利用合適的閾值將融合了上下文信息的掩碼圖z進(jìn)行二值化;

步驟c2:根據(jù)不同的監(jiān)控場景,設(shè)定多個尺寸的邊界框,在掩碼圖z上逐像素滑動邊界框,如果邊界框中元素值的總和超過邊界框面積的75%,則判定此時邊界框中包含行人,保留此邊界框,否則滑動到下一個位置進(jìn)行判斷;

步驟c3:利用非最大抑制算法合并所有相交的邊界框,如果尺寸大的邊界框包含尺寸小的邊界框,則刪除尺寸小的邊界框。

與現(xiàn)有技術(shù)相比,本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,通過在卷積神經(jīng)網(wǎng)絡(luò)中增添特殊的卷積層,選擇性地學(xué)習(xí)上下文信息,相較于現(xiàn)有檢測方法,提高了監(jiān)控場景下行人位置檢測的準(zhǔn)確度。

最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
镶黄旗| 满洲里市| 凉山| 安陆市| 广平县| 东光县| 石首市| 宣恩县| 黎城县| 铁岭市| 尚义县| 商洛市| 施秉县| 比如县| 磴口县| 含山县| 东海县| 新田县| 丰台区| 巨鹿县| 福鼎市| 当阳市| 宜川县| 鄯善县| 壤塘县| 桐梓县| 宁陵县| 赣榆县| 普兰县| 桐柏县| 金门县| 灵寿县| 上蔡县| 宣化县| 朝阳县| 博客| 贵州省| 南丰县| 高邑县| 谷城县| 阿合奇县|