技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于深度學(xué)習(xí)的人類行為分析方法,屬于視頻和圖像處理技術(shù)領(lǐng)域。
背景技術(shù):
:
隨著信息技術(shù)的不斷發(fā)展、城市信息化應(yīng)用水平不斷提升,智慧城市建設(shè)成為社會(huì)建設(shè)的一個(gè)趨勢。目前,監(jiān)控?cái)z像頭已遍布中國大地的每個(gè)街頭,晝夜不停地監(jiān)視和錄像。在改善社會(huì)治安的同時(shí),產(chǎn)生海量視頻信息,對(duì)成千上萬的監(jiān)控平臺(tái)進(jìn)行監(jiān)控將耗費(fèi)大量的人力、物力和時(shí)間。傳統(tǒng)的人海戰(zhàn)術(shù),因其效率低下,容易錯(cuò)過關(guān)鍵目標(biāo),常常使視頻監(jiān)控處于“監(jiān)而不控”的狀態(tài)。而智能視頻監(jiān)控系統(tǒng),能夠在節(jié)約人力、物力和時(shí)間的成本的同時(shí),進(jìn)一步解決目前視頻監(jiān)控“監(jiān)而不控”的病態(tài),從而更加智能、快速、準(zhǔn)確地分析出視頻中發(fā)生的事件。
目前國內(nèi)外關(guān)于視頻監(jiān)控中人類行為分析技術(shù)存在著不少急待解決的問題:
1)在對(duì)視頻監(jiān)控中的人物進(jìn)行檢測的方法大都是基于幀的,不同幀之間的同一個(gè)人無法建立相互聯(lián)系,而行為是包含時(shí)空信息的,這就需要將前后幀上面同一個(gè)人的行為進(jìn)行關(guān)聯(lián)。
2)行為分析比較看重時(shí)間和空間特征,很多深度學(xué)習(xí)算法在輸入的時(shí)候直接采用縮放方法來使得輸入規(guī)模一樣,但是這種方法在處理輸入源尺度不一致的問題時(shí),容易破壞輸入的空間特征。
3)現(xiàn)有的行為識(shí)別方法能夠很好地利用行為的空間特征進(jìn)行識(shí)別,但是有很多沒有考慮行為的時(shí)間特征,或者沒有考慮時(shí)間和空間特征的充分融合,將時(shí)間和空間特征孤立開來,這樣就會(huì)使得提取的特征不具有代表性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于深度學(xué)習(xí)的人類行為分析方法,能夠自動(dòng)對(duì)現(xiàn)實(shí)監(jiān)控場景下人進(jìn)行檢測與跟蹤,并可較為準(zhǔn)確地對(duì)其行為進(jìn)行分析,給出相關(guān)類別,適應(yīng)性強(qiáng)、效果好。
上述的目的通過以下技術(shù)方案實(shí)現(xiàn):
基于深度學(xué)習(xí)的人類行為分析方法,該方法包括兩個(gè)階段:標(biāo)注訓(xùn)練階段和應(yīng)用階段;
所述標(biāo)注階段包括如下步驟:
s1:對(duì)多個(gè)監(jiān)控場景視頻數(shù)據(jù)進(jìn)行相關(guān)人物的標(biāo)注,用于訓(xùn)練人物檢測卷積神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)微調(diào)和參數(shù)優(yōu)化方法來得到人物檢測模型;
s2:進(jìn)行人物行為序列提??;
s3:對(duì)提取的人物的行為序列進(jìn)行標(biāo)注,用于訓(xùn)練行為識(shí)別卷積神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)微調(diào)和參數(shù)優(yōu)化方法來得到行為識(shí)別模型;
所述應(yīng)用階段包括針對(duì)實(shí)際監(jiān)控場景的視頻,使用與標(biāo)注訓(xùn)練階段相同的人物行為序列提取方法,將提取出來的行為視頻序列及其對(duì)應(yīng)的光流矢量圖像化序列作為行為識(shí)別卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過行為識(shí)別模型進(jìn)行行為分類。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的進(jìn)行人物行為序列提取的方法包括如下步驟:
s21:對(duì)使用人物檢測模型對(duì)視頻序列中的人物進(jìn)行檢測、建模、預(yù)估、關(guān)聯(lián);
s22:對(duì)同一人物的行為進(jìn)行區(qū)域提取,形成該人物的行為視頻序列;
s23:提取行為視頻序列的光流矢量圖像化序列:采用相鄰的幀之間的光流場估計(jì)方法在提取行為視頻序列的光流矢量信息,然后將光流矢量值屬于固定范圍光流信息歸一化到0-255之間,將光流矢量圖像化,然后根據(jù)先后順序進(jìn)行堆疊,得到光流矢量圖像化序列。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的對(duì)使用人物檢測模型對(duì)視頻序列中的人物進(jìn)行檢測、建模、預(yù)估、關(guān)聯(lián)的具體方法是:
s211:使用人物檢測模型來對(duì)視頻當(dāng)前幀上面的人物進(jìn)行檢測,得到檢測包圍盒;
s212:對(duì)前一幀中檢測到的人物建立模型[x,y,s,r,x′,y′,s′],其中(x,y),s,r分別是前一幀中包圍盒的質(zhì)心坐標(biāo)、面積和長寬比例,(x′,y′),s′表示建模人物分配到的包圍盒信息;
s213:假設(shè)人物在當(dāng)前幀上面包圍盒的長寬比例與上一幀相同,根據(jù)已建模人物在前一幀包圍盒的信息,使用卡爾曼濾波對(duì)其在當(dāng)前幀上面包圍盒的信息進(jìn)行預(yù)估,得到預(yù)估包圍盒;
假設(shè)人物在t-1時(shí)刻的最佳狀態(tài)p(t-1|t-1),該狀態(tài)是個(gè)包含了該人物在t-1時(shí)刻的坐標(biāo)和其對(duì)應(yīng)速度信息的向量。根據(jù)公式(1)對(duì)該人物在t時(shí)刻的狀態(tài)進(jìn)行預(yù)測,得到p(t|t-1),
p(t|t-1)=ap(t-1|t-1)(1)
利用公式(2)來計(jì)算公式(1)中預(yù)測值的協(xié)方差,其中,c(t|t-1)是p(t|t-1)對(duì)應(yīng)的協(xié)方差,q(t)是系統(tǒng)協(xié)方差,
c(t|t-1)=ac(t-1|t-1)at+q(t)(2)
利用公式(3)計(jì)算卡爾曼增益k(t),其中r是觀測結(jié)果的不確定性,
k(t)=c(t|t-1)ht(hc(t|t-1)ht+r)-1(3)
s214:然后根據(jù)公式(4)計(jì)算當(dāng)前幀上面的檢測包圍盒與預(yù)估包圍盒的重合度,再使用匈牙利優(yōu)化算法根據(jù)重合度將檢測包圍盒分配給建模人物,
根據(jù)公式(3)得到的卡爾曼增益和實(shí)際分配包圍盒的狀態(tài)zk來計(jì)算t時(shí)刻人物的最佳狀態(tài),
p(t|t)=p(t|t-1)+k(t)(zk-hp(t|t-1))(5)
獲得t時(shí)刻的最佳狀態(tài)p(t|t)后,使用公式(6)更新t時(shí)刻的協(xié)方差c(t|t),繼續(xù)迭代預(yù)估、關(guān)聯(lián)相鄰幀上面相同的人物,
c(t|t)=c(t|t-1)-k(t)hc(t|t-1)(6)
公式(1)至(6)中,a是狀態(tài)轉(zhuǎn)移矩陣,h是觀測矩陣。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的對(duì)同一人物的行為進(jìn)行區(qū)域提取,形成該人物的行為視頻序列,具體是:根據(jù)人物一系列行為中各包圍盒的大小,重新定義整個(gè)過程中包含該人物行為的最優(yōu)包圍盒,采用最優(yōu)包圍盒來將視頻中該人物的行為分割出來,以得到尺度相同的單一人物的行為視頻序列同時(shí)記錄序列包圍盒質(zhì)心坐標(biāo)信息。
所述的基于深度學(xué)習(xí)的人類行為分析方法,所述的提取行為視頻序列的光流矢量圖像化序列的具體方法是:
采用相鄰的幀之間的光流場估計(jì)方法在提取行為視頻序列的光流矢量信息,然后根據(jù)公式(7)將正負(fù)thresh范圍光流信息歸一化到0-255之間。
其中,img(i,j)表示得到光流矢量圖像上(i,j)位置出的灰度值,thresh是設(shè)定的閾值,光流場估計(jì)過程中假設(shè)相鄰幀運(yùn)動(dòng)細(xì)微,因此這里的thresh可以選取例如20之類的細(xì)小數(shù)值,然后根據(jù)先后順序?qū)⒌玫剿胶痛怪狈较虻墓饬魇噶繄D像進(jìn)行堆疊,得到光流矢量圖像化序列。
有益效果:
本發(fā)明避免了傳統(tǒng)方法特征設(shè)計(jì)、提取過程中復(fù)雜的計(jì)算,能夠自動(dòng)對(duì)現(xiàn)實(shí)監(jiān)控場景下人進(jìn)行檢測與跟蹤,并可較為準(zhǔn)確地對(duì)其行為進(jìn)行分析,給出相關(guān)類別。
附圖說明
圖1是本發(fā)明基于深度學(xué)習(xí)的人類行為分析方法框架圖;
圖2是本發(fā)明人物行為序列提取方法流程圖;
圖3是本發(fā)明3d行為識(shí)別網(wǎng)絡(luò)框架圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施方式,進(jìn)一步闡明本發(fā)明,應(yīng)理解下述具體實(shí)施方式僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。
請(qǐng)參閱附圖,圖1是本發(fā)明基于深度學(xué)習(xí)的人類行為分析方法框架圖;圖2是本發(fā)明人物行為序列提取方法流程圖;圖3是本發(fā)明3d行為識(shí)別網(wǎng)絡(luò)框架圖。
本發(fā)明提供了一種基于深度學(xué)習(xí)的人類行為分析方法。該方法包括兩個(gè)階段:標(biāo)注訓(xùn)練階段和應(yīng)用階段。標(biāo)注訓(xùn)練階段:首先需要標(biāo)注一定數(shù)量的人物監(jiān)控視頻數(shù)據(jù);這些數(shù)據(jù)被用來訓(xùn)練人物檢測卷積神經(jīng)網(wǎng)絡(luò),得到人物檢測模型;使用人物檢測模型對(duì)監(jiān)控視頻中的人物進(jìn)行檢測、建模、預(yù)估、關(guān)聯(lián);對(duì)關(guān)聯(lián)后的相同人物提取行為視頻序列,提取行為視頻序列的光流矢量圖像化序列,并對(duì)行為序列進(jìn)行行為類別標(biāo)注,同時(shí);使用行為視頻序列和對(duì)應(yīng)的光流矢量圖像化序列訓(xùn)練行為識(shí)別卷積神經(jīng)網(wǎng)絡(luò),得到行為識(shí)別模型。應(yīng)用階段:使用人物檢測模型對(duì)實(shí)際監(jiān)控場景的視頻中的人物進(jìn)行檢測、建模、預(yù)估、關(guān)聯(lián);對(duì)關(guān)聯(lián)后的相同人物提取行為視頻序列,提取行為視頻序列的光流矢量圖像化序列,并對(duì)行為序列進(jìn)行行為類別標(biāo)注;將行為視頻序列和光流矢量圖像化序列作為行為識(shí)別網(wǎng)絡(luò)的輸入,利用行為識(shí)別模型對(duì)其行為進(jìn)行分類。
下面通過具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步闡述:
1)針對(duì)實(shí)際監(jiān)控場景的視頻,使用人物行為序列提取方法:
1.1)對(duì)使用人物檢測模型對(duì)視頻序列中的人物進(jìn)行檢測、建模、預(yù)估、關(guān)聯(lián)。
1.1.1)使用人物檢測模型來對(duì)視頻當(dāng)前幀上面的人物進(jìn)行檢測,得到檢測包圍盒;
1.1.2)對(duì)前一幀中檢測到的人物建立模型[x,y,s,r,x′,y′,s′],其中(x,y),s,r分別是前一幀中包圍盒的質(zhì)心坐標(biāo)、面積和長寬比例,(x′,y′),s′表示建模人物分配到的包圍盒信息;
1.1.3)假設(shè)人物在當(dāng)前幀上面包圍盒的長寬比例與上一幀相同,根據(jù)已建模人物在前一幀包圍盒的信息,使用卡爾曼濾波對(duì)其在當(dāng)前幀上面包圍盒的信息進(jìn)行預(yù)估,得到預(yù)估包圍盒;
假設(shè)人物在t-1時(shí)刻的最佳狀態(tài)p(t-1|t-1),該狀態(tài)是個(gè)包含了該人物在t-1時(shí)刻的坐標(biāo)和其對(duì)應(yīng)速度信息的向量。根據(jù)公式(1)對(duì)該人物在t時(shí)刻的狀態(tài)進(jìn)行預(yù)測,得到p(t|t-1)。
p(t|t-1)=ap(t-1|t-1)(1)
利用公式(2)來計(jì)算公式(1)中預(yù)測值的協(xié)方差,其中,c(t|t-1)是p(t|t-1)對(duì)應(yīng)的協(xié)方差,q(t)是系統(tǒng)協(xié)方差。
c(t|t-1)=ac(t-1|t-1)at+q(t)(2)
利用公式(3)計(jì)算卡爾曼增益k(t),其中r是觀測結(jié)果的不確定性。
k(t)=c(t|t-1)ht(hc(t|t-1)ht+r)-1(3)
1.1.4)然后根據(jù)公式(4)計(jì)算當(dāng)前幀上面的檢測包圍盒與預(yù)估包圍盒的重合度,再使用匈牙利優(yōu)化算法根據(jù)重合度將檢測包圍盒分配給建模人物。
根據(jù)公式(3)得到的卡爾曼增益和實(shí)際分配包圍盒的狀態(tài)zk來計(jì)算t時(shí)刻人物的最佳狀態(tài)。
p(t|t)=p(t|t-1)+k(t)(zk-hp(t|t-1))(5)
獲得t時(shí)刻的最佳狀態(tài)p(t|t)后,使用公式(6)更新t時(shí)刻的協(xié)方差c(t|t),繼續(xù)迭代預(yù)估、關(guān)聯(lián)相鄰幀上面相同的人物。
c(t|t)=c(t|t-1)-k(t)hc(t|t-1)(6)
公式(1)至(6)中,a是狀態(tài)轉(zhuǎn)移矩陣,h是觀測矩陣。
1.2)對(duì)同一人的行為進(jìn)行區(qū)域提取,形成對(duì)應(yīng)的行為視頻序列:
通過記錄同一人在各幀上面包圍盒質(zhì)心以及大小,來確定一個(gè)新的包圍盒,該包圍盒能夠?qū)⒃撔袨榈乃兄w行為都涵蓋進(jìn)去,然后根據(jù)新的包圍盒來將該主體從整個(gè)視頻場景中摳出來,從而得到該主體的行為視頻序列同時(shí)記錄序列包圍盒質(zhì)心坐標(biāo)信息。
1.3)提取行為視頻序列的光流矢量圖像化序列。采用相鄰的幀之間的光流場估計(jì)方法在提取行為視頻序列的光流矢量信息,然后根據(jù)公式(7)將正負(fù)thresh范圍光流信息歸一化到0-255之間。
其中,img(i,j)表示得到光流矢量圖像上(i,j)位置出的灰度值,thresh是設(shè)定的閾值,光流場估計(jì)過程中假設(shè)相鄰幀運(yùn)動(dòng)細(xì)微,因此這里的thresh可以選取例如20之類的細(xì)小數(shù)值。
然后根據(jù)先后順序?qū)⒌玫剿胶痛怪狈较虻墓饬魇噶繄D像進(jìn)行堆疊,得到光流矢量圖像化序列。
2)行為識(shí)別:
根據(jù)步驟1得到的行為視頻序列及其對(duì)應(yīng)的光流矢量圖像化序列作為行為識(shí)別卷積神經(jīng)網(wǎng)絡(luò)的輸入,時(shí)間、空間網(wǎng)絡(luò)采用了三維的卷積和三維的池化操作,在分別提取其時(shí)間、空間特征的過程中就將時(shí)空信息進(jìn)行了部分融合,最終將時(shí)空網(wǎng)絡(luò)提取的時(shí)空信息再次進(jìn)行融合,從而提取出更具有時(shí)空特征的時(shí)間描述符,根據(jù)行為識(shí)別模型來進(jìn)行行為分類。
應(yīng)當(dāng)指出,上述實(shí)施實(shí)例僅僅是為清楚地說明所作的舉例,而并非對(duì)實(shí)施方式的限定,這里無需也無法對(duì)所有的實(shí)施方式予以窮舉。本實(shí)施例中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。