一種多特征融合的人群密度估計方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及視頻分析中人群密度估計方法,更具體的,涉及一種多特征融合的人 群密度估計方法,該方法提取了基于KLT跟蹤的軌跡段數(shù)目作為人群密度估計的新特征, 并將提取的新特征與其它特征相融合,對人群密度進(jìn)行估計。
【背景技術(shù)】
[0002] 在很多公共場合,由于人群密度過高而產(chǎn)生災(zāi)難。為減少公共安全事件的發(fā)生,開 發(fā)一套實時監(jiān)控各種公共場合的人群密度的智能系統(tǒng)是非常重要和急迫的。
[0003] 2001年,Lin發(fā)表文章提出新的人群密度估計算法,該算法首先利用Haar小波變 換和頭部特征的結(jié)合提取目標(biāo),進(jìn)而將檢測的物體特征放入支持向量機(jī)SVM分類器進(jìn)行分 類判斷是否為人類頭部,最后通過計算檢測出來的頭部數(shù)目來做人群數(shù)目統(tǒng)計,該算法在 人群密度小的場景下準(zhǔn)確率比較高。2003年,Zhao和Nevatia在CVPR上發(fā)表一篇文章,首 次介紹基于3D模型匹配的人群密度估計算法,該算法在無遮擋的情況下還是可行的,但是 其復(fù)雜度高、耗時且在遮擋情況下無法匹配等一系列問題注定了其在當(dāng)時無法廣泛應(yīng)用開 來。2005年,Leibe同樣在CVPR上發(fā)表文章提出基于全局特征和局部特征結(jié)合的人群密度 估計,該算法很好地解決了 Lin和Zhao等人算法的缺陷,成功在人群遮擋的情況下很好地 檢測出行人,但是由于其算法耗時大,復(fù)雜度高,無法實時監(jiān)控而缺乏應(yīng)用性。隨后,Rabaud 和Bel〇ngie2006年在CVPR上發(fā)表一篇文章,該文章利用KLT跟蹤算法和聚類算法結(jié)合的 方法對人群密度進(jìn)行估計,但是卻被固定人群所限制。
[0004] 在實際應(yīng)用中,對每個個體進(jìn)行識別分割的方法其實是非常不可取的,不僅容易 錯檢漏檢,而且對個體精確分割常常導(dǎo)致整個算法復(fù)雜度高而失去應(yīng)用性。Chen在2007年 提出團(tuán)塊的概念,通過模糊檢測的方法降低檢測的難度,再在塊中具體做人頭檢測,由論文 中圖所示,改算法利用人頭數(shù)目來計算人群密度。
[0005] 雖然團(tuán)塊的應(yīng)用大大減少了算法的復(fù)雜程度和提高檢測準(zhǔn)確度,但是在人群密集 或者遮擋的場景下還是會表現(xiàn)其不足。Kilambi在2008年提出了利用最小化函數(shù)來估計人 群密度,但是該算法只能估計人群密度的等級而無法精確計算。
[0006] 現(xiàn)存的研究往往都是在全局中應(yīng)用單一回歸模型,把特征向量映射成行人數(shù)量來 進(jìn)行人群密度估計。由于攝像頭與被拍攝場景有視覺差原因,圖像中距離較遠(yuǎn)的物體面積 比較小,而距離較近的物體面積比較大,所以存在透視效應(yīng)。這種方法重點在于前景像素, 邊緣特征,與KLT跟蹤軌跡段數(shù)目特征的提取,攝像頭遠(yuǎn)近比例過度依賴透視歸一化處理, 處理不得當(dāng)即會帶來嚴(yán)重的影響。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是為了克服現(xiàn)有技術(shù)的不足,提出一種克服了單一依靠透視歸一化 帶來的局限性的多特征融合的人群密度估計方法。
[0008] 本發(fā)明的目的通過以下的技術(shù)方案實現(xiàn):
[0009] -種多特征融合的人群密度估計方法,包括以下步驟:
[0010] (1)對每一幀進(jìn)行透視歸一化處理,并將每一幀分塊。
[0011] ⑵計算出基于KLT跟蹤的軌跡段數(shù)目特征。所用KLT追蹤,是用仿射運動建立個 體目標(biāo)運動模型,即J(AX+d) = I(X),其中A是變形矩陣,d是偏移向量,且A= I+D,I是單 位矩陣,D為零矩陣,即A = I,J(X+d) = I (X);是像素點的坐標(biāo),I (X)是像素點X的像素 值,若干個像素點的像素值組成一幅圖像;J (X)是I (X)通過AX+d變換后像素點X的像素 值,再最小化式子ε = J J w[J(AX+d)-I(X)]2? (X)dX,得到提取軌跡段所用模型Zd = e, W是特征窗口,ω (X)是加權(quán)函數(shù),最簡單的情況是ω (X) = 1,令其等于高斯函數(shù);其中:
[0015] 采用模型Zd = e計算出了每一個特征窗口中心點的位移d,得到了一系列的軌跡 段,計算出軌跡段的數(shù)目,作為人群密度估計的特征,其中丟棄少于等于5幀的軌跡段。
[0016] (3)采用高斯混合GMM算法進(jìn)行運動前景檢測,采用Canny算法提取邊緣,計算出 視頻幀的前景分割區(qū)域特征、GLCM紋理分析特征、LBP紋理特征、像素統(tǒng)計特征。
[0017] (4)人群特征的比較選擇;對現(xiàn)存的人群密度估計算法的特征,前景分割區(qū)域特 征、GLCM紋理分析特征、LBP紋理特征、像素統(tǒng)計特征,和步驟(1)中提出的軌跡段數(shù)目特 征,在不同場景下進(jìn)行實驗對比,找到對人群密度估計最適合的特征組合:GLCM紋理特征+ 像素統(tǒng)計特征+軌跡段數(shù)目特征。
[0018] (5)將軌跡段數(shù)目特征、像素統(tǒng)計特征和紋理特征融合,放在不同的回歸模型中訓(xùn) 練,找到最適合的回歸模型。通過實驗證明線性回歸模型能取得最好的效果。
[0019] 本發(fā)明是提取出一種新的個體目標(biāo)特征,并將其與現(xiàn)有的像素統(tǒng)計特征,紋理特 征相融合,并在此基礎(chǔ)上提出將視頻幀分塊提取特征,再將特征合成一個字典后進(jìn)行統(tǒng)一 回歸,從而更好地進(jìn)行人群密度估計,克服了單一依靠透視歸一化帶來的局限性。該方法比 現(xiàn)有方法準(zhǔn)確率提高了 15%。
[0020] 本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:
[0021] 1、本發(fā)明提出的基于KLT跟蹤的軌跡段數(shù)目特征,相對于其他特征維度較低,所 以算法復(fù)雜度低。
[0022] 2、本發(fā)明相對于復(fù)雜度也較低的GLCM紋理特征,在平均平方誤差下降了 7.6%, 平均偏離誤差下降了 9. 4%。
[0023] 3、本發(fā)明將軌跡段數(shù)目特征、像素統(tǒng)計特征和GLCM紋理特征融合,克服了單特征 情況下的缺陷,也比目前常用的像素統(tǒng)計和GLCM紋理兩個特征融合的效果好很多,平均偏 離誤差下降了 15.45%。
[0024] 4、本發(fā)明將提出的將視頻幀分塊的算法,比未分塊的算法準(zhǔn)確率提升了 9. 2%。
【附圖說明】
[0025] 圖1為本發(fā)明的操作流程圖。
[0026] 圖2為UCSD數(shù)據(jù)集示意圖。
[0027] 圖3為mall數(shù)據(jù)集示意圖。
[0028] 圖4為本發(fā)明提出的基于KLT跟蹤的軌跡段數(shù)目與行人數(shù)量關(guān)系圖。
[0029] 圖5為一個目標(biāo)行人的軌跡段示意圖。
[0030] 圖6為基于分塊的人群密度估計算法的流程圖。
[0031] 圖7為多特征融合示意圖。
[0032] 圖8基于分塊特征的實驗對比圖。
[0033] 圖9為人群密度估計效果圖。
【具體實施方式】
[0034] 下面結(jié)合實例和附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實施方式不限于 此。
[0035] 圖1給出了本發(fā)明的操作過程,如圖1所示,一種多特征融合的人群密度估計,包 括以下步驟:
[0036] (1)收集UCSD行人數(shù)據(jù)集,這個數(shù)據(jù)集是加州大學(xué)圣地亞哥分校UCSD計算機(jī)視 覺實驗室在校園內(nèi)布的固定數(shù)字?jǐn)z像頭,錄制了一個小時的視頻幀。視頻背景是在校園走 道,視頻中最小人數(shù)為11人,最多人數(shù)有46人。原視頻分辨率為740*480,幀率為30fps, 經(jīng)過降低采樣該數(shù)據(jù)集是分辨率為238*158、幀率為IOfps的視頻。本實施例采用視頻中前 2000幀圖像,前2000幀只有行人,并且已經(jīng)人工標(biāo)定了視頻中實際人數(shù),如圖2為UCSD數(shù) 據(jù)集示意圖。本實施例用第601-1400幀共800幀圖像作為訓(xùn)練集,而剩下的作為測試數(shù)據(jù) 集。
[0037] (2)收集mall數(shù)據(jù)集,mall數(shù)據(jù)集是通過公共監(jiān)控視頻在某大型超市內(nèi)部,經(jīng)過 兩個月的時間拍攝的視頻,視頻分辨率為320*240,幀率小于2fps,最小人數(shù)是13人,而最 大人數(shù)達(dá)到了 53人。如圖3為mall數(shù)據(jù)集示意圖。用前800幀作為訓(xùn)練集,而剩下作為 測試集。
[0038] (3)設(shè)置三個實驗衡量指標(biāo),平均絕對誤差mae,平均平方誤差mse平均偏離誤差 mde〇