本發(fā)明涉及基于視頻監(jiān)控場景下的行人位置檢測領(lǐng)域,尤其涉及一種監(jiān)控場景下融合上下文信息的行人位置檢測方法。
背景技術(shù):
隨著計算機(jī)硬件設(shè)備和視覺技術(shù)的不斷發(fā)展,基于視頻監(jiān)控場景下的行人位置檢測作為智慧城市的重要組成部分,越來越引起社會和工業(yè)界的廣泛關(guān)注。但是,由于光照、視角、姿態(tài)等因素的影響,監(jiān)控場景下的行人位置檢測仍然是一個具有挑戰(zhàn)性的任務(wù)。
當(dāng)前,根據(jù)獲取行人特征方式的不同,行人位置檢測方案主要分為兩大類:基于手工特征的行人位置檢測和基于深度特征的行人位置檢測。
基于手工特征的行人位置檢測主要指利用傳統(tǒng)圖像處理方法提取行人特征,并設(shè)計分類器進(jìn)行特征分類,例如,hog特征、dot特征、hog+lbp聯(lián)合特征等等。該類行人位置檢測獲取刻畫行人的特征通常屬于低層特征,判別能力不強(qiáng),導(dǎo)致無法消除監(jiān)控場景中光照變化和視角變換對行人位置檢測的影響。
基于深度特征的行人位置檢測主要指利用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡稱cnn)提取刻畫行人特征,并采用神經(jīng)網(wǎng)絡(luò)區(qū)分行人和背景。雖然該類行人位置檢測能夠從大量的樣本中學(xué)習(xí)具有判別能力的行人特征,但由于該類方案沒有利用場景的上下文信息,導(dǎo)致行人位置檢測的準(zhǔn)確度難以達(dá)到監(jiān)控場景的需求。
針對上述已有行人位置檢測方案的不足,本方案提出了一種新的融合上下文信息的監(jiān)控場景下行人位置檢測方法,該系統(tǒng)通過在卷積神經(jīng)網(wǎng)絡(luò)中增添特殊的卷積層,選擇性地學(xué)習(xí)上下文信息,提高了監(jiān)控場景中行人位置檢測的準(zhǔn)確度。相較于現(xiàn)有檢測方法,本申請充分利用了上下文信息,從而進(jìn)一步提高了監(jiān)控場景下行人位置檢測的準(zhǔn)確性。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,能夠選擇性地學(xué)習(xí)上下文信息,解決了傳統(tǒng)的行人位置檢測方法中由于沒有考慮上下文信息而導(dǎo)致的檢測結(jié)果不準(zhǔn)確的問題。
為了實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,包括以下步驟:
步驟a:提取輸入圖像的卷積神經(jīng)網(wǎng)絡(luò)特征;
步驟b:將監(jiān)控場景的上下文信息融入到卷積神經(jīng)網(wǎng)絡(luò)中,生成關(guān)于行人位置的掩碼圖z;
步驟c:對掩碼圖z進(jìn)行后處理,估計包含行人位置的邊界框。
所述的步驟a包括以下步驟:
步驟a1:定義輸入圖像為x0,將其表示為
其中,l表示卷積層的索引,l=1,2,3,4,5;ml表示第l個卷積層特征圖的數(shù)目,m1=96、m2=256、m3=384、m4=384、m5=256;
步驟a2:第l個卷積層的第j個特征圖
輸入圖像x0在第l個卷積層獲取的j張?zhí)卣鲌D
其中,g(·)表示對
函數(shù):
因此,卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像x0在第五個卷積層獲取了256張?zhí)卣鲌D
所述的步驟b包括以下步驟:
步驟b1:在第一卷積層中,設(shè)置五張?zhí)卣鲌D,分別為一張包含行人信息的特征圖yp和四張不同的包含上下文信息的特征圖
其中,
步驟b2:在第二卷積層中,將每張包含上下文信息的特征圖
步驟b3:確定卷積核
步驟b31:定義單張訓(xùn)練圖像為s,訓(xùn)練圖像s對應(yīng)的真實掩碼圖表示為m,訓(xùn)練集表示為t,為了準(zhǔn)確地預(yù)測監(jiān)控場景中行人的位置和選擇性地學(xué)習(xí)監(jiān)控場景的上下文信息,建立以下目標(biāo)函數(shù):
其中,
為誤差項,表示輸出掩碼圖與真實掩碼圖之間的累計誤差;
為正則化項,限定了平移卷積核tq的解空間,參數(shù)θ提高了漏報的懲罰,本系統(tǒng)中θ=0.1,避免輸出掩碼圖全部為零的情況;⊙表示兩個矩陣之間的點乘操作,參數(shù)λ是誤差項和正則化項之間的平衡因子,其取值大小為λ=100;
步驟b32:采用隨機(jī)梯度下降算法更新卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù),訓(xùn)練學(xué)習(xí)率的取值為0.01;通常情況下,由于監(jiān)控場景的訓(xùn)練樣本較少,可以訓(xùn)練卷積核
步驟b4:融合行人信息和所有上下文信息,形成一張關(guān)于行人位置的掩碼圖z,具體計算方式如下:
其中,函數(shù)g(·)采用sigmoid激活函數(shù)。掩碼圖z中所有元素的取值范圍為0到1之間,表示行人在輸入圖像中相應(yīng)位置的概率值。
所述的步驟c包括以下步驟:
步驟c1:將掩碼圖z的尺寸按比例放大,直至與輸入圖像的尺寸相同,然后將融合了上下文信息的掩碼圖z進(jìn)行二值化;
步驟c2:根據(jù)不同的監(jiān)控場景,設(shè)定多個尺寸的邊界框,在掩碼圖z上逐像素滑動邊界框,如果邊界框中元素值的總和超過邊界框面積的75%,則判定此時邊界框中包含行人,保留此邊界框,否則滑動到下一個位置進(jìn)行判斷;
步驟c3:利用非最大抑制算法合并所有相交的邊界框,如果尺寸大的邊界框包含尺寸小的邊界框,則刪除尺寸小的邊界框。
本發(fā)明的有益效果:
與現(xiàn)有技術(shù)相比,本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,通過在卷積神經(jīng)網(wǎng)絡(luò)中增添特殊的卷積層,選擇性地學(xué)習(xí)上下文信息,相較于現(xiàn)有檢測方法,提高了監(jiān)控場景下行人位置檢測的準(zhǔn)確度。
附圖說明
為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明的方法流程圖;
圖2為本發(fā)明所述的平移卷積核與上下文信息的位置關(guān)系圖;
圖3為本發(fā)明所述的融合上下文信息的行人位置檢測方法部分檢測結(jié)果的示意圖。
具體實施方式
下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示:本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,包括以下步驟:
步驟a:提取輸入圖像的卷積神經(jīng)網(wǎng)絡(luò)特征,具體步驟為:
由于卷積神經(jīng)網(wǎng)絡(luò)提取的特征屬于高層特征,能應(yīng)對一定程度的光照變化和視角變換,因此本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法采用截斷的卷積神經(jīng)網(wǎng)絡(luò)模型提取輸入圖像的特征;即將一張彩色圖像輸入到截斷的卷積神經(jīng)網(wǎng)絡(luò)中,輸出最后一個卷積層的特征圖;
優(yōu)選方案為:本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法采用的截斷的卷積神經(jīng)網(wǎng)絡(luò)模型為alexnet的前五層結(jié)構(gòu),提取輸入圖像的卷積神經(jīng)網(wǎng)絡(luò)特征的詳細(xì)步驟如下:
步驟a1:假設(shè)輸入圖像為x0,將其表示為
其中,
和偏移;
步驟a2:第l個卷積層的第j個特征圖
其中,g(g)表示進(jìn)行局部響應(yīng)歸一化處理,f(g)表示激活函數(shù),采用不飽和非線性函數(shù):
因此,cnn對輸入圖像x0在第五個卷積層獲取了256張?zhí)卣鲌D
步驟b:預(yù)測行人在監(jiān)控場景中的相對位置;
在截斷的卷積神經(jīng)網(wǎng)絡(luò)模型之后添加第一卷積層和第二卷積層,將監(jiān)控場景的上下文信息融入到卷積神經(jīng)網(wǎng)絡(luò)中,并輸出一張掩碼圖,預(yù)測行人在監(jiān)控場景中的相對位置,詳細(xì)步驟是:
步驟b1:在第一卷積層中,設(shè)置五張?zhí)卣鲌D,分別為一張包含行人信息的特征圖yp和四張不同的包含上下文信息的特征圖
其中,
步驟b2:在第二卷積層中,將每張包含上下文信息的特征圖
步驟b3:確定卷積核
步驟b31:定義單張訓(xùn)練圖像為s,訓(xùn)練圖像s對應(yīng)的真實掩碼圖表示為m,訓(xùn)練集表示為t,為了準(zhǔn)確地預(yù)測監(jiān)控場景中行人的位置和選擇性地學(xué)習(xí)監(jiān)控場景的上下文信息,建立以下目標(biāo)函數(shù):
其中,
為誤差項,表示輸出掩碼圖與真實掩碼圖之間的累計誤差;
為正則化項,限定了平移卷積核tq的解空間,參數(shù)θ提高了漏報的懲罰,本系統(tǒng)中θ=0.1,避免輸出掩碼圖全部為零的情況;⊙表示兩個矩陣之間的點乘操作,參數(shù)λ是誤差項和正則化項之間的平衡因子,其取值大小為λ=100;
步驟b32:采用隨機(jī)梯度下降算法更新卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù),訓(xùn)練學(xué)習(xí)率的取值為0.01;通常情況下,由于監(jiān)控場景的訓(xùn)練樣本較少,可以訓(xùn)練卷積核
步驟b4:融合行人信息和所有上下文信息,形成一張關(guān)于行人位置的掩碼圖z,具體計算方式如下:
其中,函數(shù)g(·)采用sigmoid激活函數(shù)。掩碼圖z中所有元素的取值范圍為0到1之間,表示行人在輸入圖像中相應(yīng)位置的概率值;
步驟c:對掩碼圖z進(jìn)行后處理,估計包含行人位置的邊界框;
步驟c1:將掩碼圖z的尺寸按比例放大,直至與輸入圖像的尺寸相同,然后利用合適的閾值將融合了上下文信息的掩碼圖z進(jìn)行二值化;
步驟c2:根據(jù)不同的監(jiān)控場景,設(shè)定多個尺寸的邊界框,在掩碼圖z上逐像素滑動邊界框,如果邊界框中元素值的總和超過邊界框面積的75%,則判定此時邊界框中包含行人,保留此邊界框,否則滑動到下一個位置進(jìn)行判斷;
步驟c3:利用非最大抑制算法合并所有相交的邊界框,如果尺寸大的邊界框包含尺寸小的邊界框,則刪除尺寸小的邊界框。
與現(xiàn)有技術(shù)相比,本發(fā)明所述的一種監(jiān)控場景下融合上下文信息的行人位置檢測方法,通過在卷積神經(jīng)網(wǎng)絡(luò)中增添特殊的卷積層,選擇性地學(xué)習(xí)上下文信息,相較于現(xiàn)有檢測方法,提高了監(jiān)控場景下行人位置檢測的準(zhǔn)確度。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。