本發(fā)明涉及行為識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于骨骼關(guān)節(jié)特征和表面特征的融合框架進(jìn)行人體行為識(shí)別的方法。
背景技術(shù):
行為識(shí)別距今有很長(zhǎng)的研究歷史,有調(diào)查顯示,骨骼和表面的特征與2D形狀的表示密切相關(guān)。關(guān)鍵的問(wèn)題包括組內(nèi)變化,例如人們姿勢(shì)變化、畸變、自遮擋等和組外的噪聲,例如不同行為可能在實(shí)踐中有相似的外觀。早期的行為識(shí)別方法主要處理色彩視頻。在這些方法中,不變的關(guān)鍵點(diǎn)經(jīng)常被作為局部特征來(lái)捕獲目標(biāo)的行為。然而,這些通過(guò)色彩視頻提供的信息在實(shí)際中通常不足以精確的來(lái)識(shí)別人類的行為。
基于骨骼的表示能夠在2D圖形中很好的學(xué)習(xí),因?yàn)闇?zhǔn)確的3D結(jié)構(gòu)(3D骨骼)能夠通過(guò)高性價(jià)比的深度感應(yīng)器獲得,它使得更多的關(guān)注落在人類行為識(shí)別上,如利用隱式的馬爾可夫鏈來(lái)反應(yīng)3D關(guān)節(jié)的轉(zhuǎn)移概率,使用條件隨機(jī)域來(lái)構(gòu)建3D關(guān)節(jié)位置模型?;谳喞谋硎疽簿哂辛己玫挠绊?,在早期的研究中,基于關(guān)鍵點(diǎn)的策略也經(jīng)常被利用,并且基于運(yùn)動(dòng)軌跡的方法也被提出。更多的,整體性的方法最近越來(lái)越流行。最近幾年,高性價(jià)比深度相機(jī),例如kinect RGB-D傳感器,已經(jīng)引起了人們的關(guān)注。這樣的相機(jī)能夠提供場(chǎng)景中的3D深度信息。因此,行為的識(shí)別能從深度信息中獲益。
在基于深度的行為識(shí)別中,比較容易獲得強(qiáng)大的3D骨骼關(guān)節(jié)的位置,因此基于骨骼的3D關(guān)節(jié)特征被用于捕獲人類不變的特點(diǎn)。因?yàn)榛诠趋赖奶卣髂軌蚶媚繕?biāo)的粗糙結(jié)構(gòu)信息,能自然地定位由人類行為引起的非剛性畸變。另外,通過(guò)Kinect傳感器捕捉的濃密的3D點(diǎn)云能提供準(zhǔn)確的人們的信息。因此,幾何外觀與表面結(jié)合作為人類的3D輪廓,可以對(duì)行為識(shí)別提供足夠的有效信息。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于針對(duì)上述技術(shù)存在的缺陷,提出了一種新的結(jié)合骨骼局部關(guān)節(jié)特征和全局表面特征的融合框架進(jìn)行行為識(shí)別的方法,首先,收集整個(gè)序列的關(guān)節(jié)特征和表面特征,并且分別地訓(xùn)練支持向量機(jī)(SVM)模型;然后,把上述特征融合到基于新的后驗(yàn)分解的融合框架中進(jìn)行人體行為識(shí)別。本發(fā)明不但能夠提供人體每個(gè)行為的獨(dú)特性信息,同時(shí),由于該方法融合了人們的局部深度特征和全局深度信息,因此,能夠識(shí)別具有挑戰(zhàn)性的人體行為。
本發(fā)明是通過(guò)如下技術(shù)方案實(shí)現(xiàn)的:一種基于骨骼關(guān)節(jié)特征和表面特征融合的人體行為識(shí)別方法,其特征在于,包括以下步驟:
步驟1:獲取局部深度關(guān)節(jié)特征:采用人體骨骼關(guān)節(jié)特征來(lái)構(gòu)建人類活動(dòng)的局部變化模型;
步驟1.1:獲取深度視頻序列:采用Kinect傳感器獲得帶有深度信息的視頻序列;
步驟1.2:捕捉骨骼并計(jì)算關(guān)節(jié)之間的距離:采用骨骼跟蹤器檢測(cè)所述深度視頻序列中每一幀的關(guān)節(jié)數(shù)量并計(jì)算關(guān)節(jié)之間的距離,這些距離信息構(gòu)成多維向量1;
步驟1.3:獲取關(guān)節(jié)周圍的點(diǎn)云數(shù)量:從所述深度視頻序列的每一幀中獲得3D點(diǎn)云,定位每個(gè)關(guān)節(jié)在點(diǎn)云中的位置,圍繞關(guān)節(jié)獲得方形區(qū)域,然后把方形區(qū)域劃分為小的區(qū)域,計(jì)算每個(gè)小區(qū)域中存在的點(diǎn)云數(shù)量,構(gòu)成新的向量2;
步驟1.4:量化關(guān)節(jié)局部特征:將所述深度視頻序列每一幀的向量1和向量2進(jìn)行組合,這些組合共同表示出人體行為的局部特征;
步驟2:獲取全局深度表面特征:采用4D空間的法向量分布來(lái)構(gòu)建人類活動(dòng)的全局變化模型;
步驟2.1:獲取表面地圖:由Kinect獲取帶有深度信息的視頻序列,每一個(gè)視頻都有T幀圖片序列,每一張圖片都是帶有深度信息的3D點(diǎn)云圖像;
步驟2.2:計(jì)算全局表面特征:在每一幀的3D點(diǎn)云圖像的基礎(chǔ)上增加時(shí)間軸構(gòu)成4D空間,之后將4D空間分成不同的區(qū)域,在每個(gè)區(qū)域中都計(jì)算相應(yīng)的法向量,用4D空間的法向量分布來(lái)表明人體運(yùn)動(dòng)的全局特性;
步驟2.3:量化全局表面特征:通過(guò)對(duì)4D空間中的每個(gè)法向量和每個(gè)封閉型4D圖形上的點(diǎn)進(jìn)行內(nèi)積計(jì)算后,量化相應(yīng)區(qū)域的數(shù)據(jù),構(gòu)成全局表面特征直方圖;
步驟3:訓(xùn)練與融合:為整個(gè)序列收集上述局部深度關(guān)節(jié)特征和全局深度表面特征,并分別對(duì)收集到的上述局部深度關(guān)節(jié)特征和全局深度表面特征進(jìn)行訓(xùn)練SVM模型,得到相應(yīng)局部深度關(guān)節(jié)特征和全局深度表面特征所對(duì)應(yīng)標(biāo)簽的后驗(yàn)概率,然后基于條件概率的最大化將上述兩種特征融合成為一套統(tǒng)一框架。
本發(fā)明具有如下有益效果:本發(fā)明主要采用一種統(tǒng)一的框架融合了骨骼局部關(guān)節(jié)特征和全局深度表面特征,并將每一個(gè)單獨(dú)的特征分解為子對(duì)象,對(duì)每一個(gè)子對(duì)象進(jìn)行訓(xùn)練支持向量機(jī)模型,代替原始的特征向量,為每個(gè)子對(duì)象選擇最有區(qū)分度的特征;本發(fā)明不需要依賴任何特殊描述,能夠提供人體每個(gè)行為的獨(dú)特性信息,同時(shí),由于該方法融合了人們的局部深度信息和全局深度信息,因此,能夠識(shí)別具有挑戰(zhàn)性的人體行為。
附圖說(shuō)明
圖1為本發(fā)明所述的人體行為識(shí)別方法流程圖
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的說(shuō)明。
一種基于骨骼關(guān)節(jié)特征和表面特征融合的人體行為識(shí)別方法,其特征在于,包括以下步驟:
步驟1:獲取局部深度關(guān)節(jié)特征:采用人體骨骼關(guān)節(jié)特征來(lái)構(gòu)建人類活動(dòng)的局部變化模型;
步驟1.1:獲取深度視頻序列:采用Kinect傳感器獲得帶有深度信息的視頻序列;
步驟1.2:捕捉骨骼并計(jì)算關(guān)節(jié)之間的距離:對(duì)于帶有T幀的視頻序列Vi,使用骨骼跟蹤器跟蹤每一幀的每一關(guān)節(jié),并建立3D全局坐標(biāo)系和帶有深度信息的基于屏幕的坐標(biāo)系;
為了統(tǒng)一關(guān)節(jié)在不同圖像中所處的位置,對(duì)坐標(biāo)數(shù)據(jù)采取歸一標(biāo)準(zhǔn)化處理:
假設(shè)關(guān)節(jié)數(shù)量為Q(通常關(guān)節(jié)數(shù)量為20),則每個(gè)關(guān)節(jié)都有三個(gè)坐標(biāo)q=(xq,t,yq,t,zq,t),然后用如下公式計(jì)算每對(duì)關(guān)節(jié)之間的距離,fj(q,g)代表關(guān)節(jié)(q,g)對(duì)之間的距離:
fj(q,g)=|xq,t-xg,t|+|yq,t-yg,t|+|zq,t-zg,t|
因此,對(duì)任何兩個(gè)不同的關(guān)節(jié)分別求出之間的距離并可以構(gòu)成Q-1維向量P(t,i)。
步驟1.3:獲取關(guān)節(jié)周圍的點(diǎn)云數(shù)量:由于計(jì)算關(guān)節(jié)之間距離信息的不足,并且識(shí)別運(yùn)動(dòng)引起的事物的相互作用產(chǎn)生的效果可以更準(zhǔn)確的判斷人體行為,應(yīng)測(cè)量關(guān)節(jié)周圍的點(diǎn)云數(shù)量;從所述深度視頻序列的每一幀中獲取3D點(diǎn)云后,在點(diǎn)云圖上定位關(guān)節(jié)在點(diǎn)云中的位置,定義關(guān)節(jié)為q,圍繞q劃分出立方體區(qū)域,像素為Nw×Nh×Nd;立方體區(qū)域進(jìn)一步劃分為w×h×d個(gè)小區(qū)域,每個(gè)小區(qū)域含有x×y×z像素,其中之后計(jì)算出每個(gè)小區(qū)域中的點(diǎn)云數(shù)量;在此幀定位的關(guān)節(jié)周圍,所有小區(qū)域包含的點(diǎn)云數(shù)量構(gòu)成w×h×d維向量O(t,i)。
步驟1.4:量化關(guān)節(jié)局部特征:對(duì)上述兩種向量P(t,i)和O(t,i)進(jìn)行組合即構(gòu)成關(guān)節(jié)的局部特征,局部特征表示為:L(t,i)=(P(t,i),O(t,i));最終把所有幀的所有關(guān)節(jié)局部特征向量整合在一起即構(gòu)成了一個(gè)行為采樣量化后的局部特征集,局部特征集表示為:(L(t,i)|i∈[1,n],t∈[1,m],i∈Z,t∈z]。
步驟2:獲取全局深度表面特征:采用4D空間的法向量分布來(lái)構(gòu)建人類活動(dòng)的全局變化模型;
步驟2.1:獲取表面地圖:由Kinect獲取帶有深度信息的視頻序列,每一個(gè)視頻 都有T幀圖片序列,每一張圖片都是帶有深度信息的3D點(diǎn)云圖像;
步驟2.2:計(jì)算全局表面特征:首先在每一幀的3D點(diǎn)云圖像的基礎(chǔ)上增加時(shí)間軸構(gòu)成4D空間,之后將每一幀的4D空間分成W×h×t個(gè)時(shí)空區(qū)域,在每個(gè)區(qū)域中計(jì)算相應(yīng)的法向量構(gòu)成集合N,N={nj},對(duì)于4D空間來(lái)說(shuō),行為的全局信息即為法向量的分布,用4D空間的法向量分布來(lái)表明人體運(yùn)動(dòng)的全局特性。
步驟2.3:量化全局表面特征:通過(guò)對(duì)4D空間中的每個(gè)法向量和每個(gè)封閉型4D圖形上的點(diǎn)進(jìn)行內(nèi)積計(jì)算后,量化相應(yīng)區(qū)域的數(shù)據(jù),構(gòu)成全局表面特征直方圖;對(duì)每個(gè)4D空間空間使用帶有120個(gè)頂點(diǎn)的四維體進(jìn)行量化,點(diǎn)集為P={pi};之后計(jì)算每個(gè)法向量和點(diǎn)的內(nèi)積,因此,4D法向量的初步的統(tǒng)一分布的公式為:這代表了每個(gè)時(shí)空空間法向量在4D區(qū)域的投影。
原始的全局表面特征是Ho=(Pr(pi|N)|pi∈p)。為了獲得最終的全局特征來(lái)訓(xùn)練和練習(xí),需要對(duì)每個(gè)時(shí)空區(qū)域獲得的數(shù)據(jù)進(jìn)行串聯(lián)。
步驟3:訓(xùn)練與融合:在步驟1和步驟2中獲取了行為的局部深度關(guān)節(jié)特征和全局深度表面特征,之后對(duì)它們進(jìn)行分別訓(xùn)練;用fi,j表示第i個(gè)視頻的第i個(gè)特征,本實(shí)施方式中的j為2,行為識(shí)別的目標(biāo)是推斷視頻集的標(biāo)簽即li∈{1,2,…,L},為了方便討論,每個(gè)視頻都只描述一種行為,因此,人體行為識(shí)別是求得最大的后驗(yàn)概率,即l*=argmaxp(l|Vi);因?yàn)槊總€(gè)特征對(duì)標(biāo)簽來(lái)說(shuō)是相互獨(dú)立的,因此可展開(kāi)如式:p(li|fi,j)指的是fi,j特征的標(biāo)簽后驗(yàn)概率;使用SVM模型來(lái)訓(xùn)練p(li|fi,j),例如:
p(l=c|fi,j)ccexp(s(fi,j)),其中,s(fi,j)由下式獲取:
訓(xùn)練完上述兩種類型后,進(jìn)行相乘融合成一個(gè)統(tǒng)一框架來(lái)進(jìn)行人體行為識(shí)別。
前述實(shí)施例和優(yōu)點(diǎn)僅是示例性的,并不應(yīng)被理解為限制本公開(kāi)。本發(fā)明可容易地應(yīng)用于其它類型的設(shè)備。此外,本公開(kāi)的示例性實(shí)施例的描述是解釋性的,并不限制權(quán)利要求的范圍,許多的替換、修改和變化對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)是明顯的。