基于局部時空特征描述與金字塔詞匯樹的視頻行為識別方法
【技術領域】
[0001] 本發(fā)明涉及一種基于局部時空特征描述和金字塔詞匯樹的視頻行為識別方法。
【背景技術】
[0002] 隨著計算機視覺領域的研究不斷深入、信號和圖像處理技術的不斷更新和發(fā)展, 行為識別日益成為一項具有挑戰(zhàn)性的研究內容。行為識別是機器視覺的一項基礎工作,也 是許多視頻挖掘應用的關鍵技術?;谝曨l的人體行為識別課題的主要研究內容是對采集 到的視頻中的運動人體進行行為檢測,并對行為作特征提取和描述,構造有效的人體行為 識別模型來自動分析視頻數據,理解視頻中運動人體的行為內容,以正確識別視頻中的人 體行為類別,并不斷提高行為識別精度。
[0003] 綜觀國內外人體行為識別領域的相關研究,人體行為識別出現(xiàn)了兩大研究方向: 基于全局特征的人體行為識別和基于局部特征的人體行為識別。
[0004] 基于全局特征的人體行為識別將整個運動人體作為檢測和識別的對象。首先,采 用背景差法、軌跡追蹤或其他方法定位視頻中的運動人體,提取包含運動人體在內的興趣 區(qū)域。然后,計算興趣區(qū)域中運動人體的輪廓、姿態(tài)、軌跡等信息,生成人體行為的全局特 征。最后,利用得到的人體行為全局特征進行訓練和建模,實現(xiàn)對視頻中運動人體行為的分 類與識別?;谌痔卣鞯娜梭w行為識別得到的行為特征包含了豐富的信息,有很強的行 為識別能力。
[0005] 基于局部特征的人體行為識別將運動人體看作由若干個身體支部構成的集合,對 運動人體身上發(fā)生顯著變化的局部區(qū)域(如手肘、膝蓋、腿、腳等)進行檢測和識別。首先,定 位視頻數據中在空間維度和時間維度上都發(fā)生明顯變化的關鍵像素點。然后,提取這些關 鍵像素點附近的視頻信息,計算得到人體行為的局部特征。最后,對獲得的人體行為局部特 征進行學習、訓練,構造分類模型,實現(xiàn)人體行為的分類與識別。
[0006] 盡管視頻中的人體行為識別課題已經成為機器視覺研究領域的一大熱點,眾多國 內外學者對人體行為識別已展開了多方面的深入研究,各種行之有效的人體行為識別模型 及其改進也被不斷提出,但是,面臨各種真實環(huán)境的復雜性、現(xiàn)實場景的多樣性以及運動人 體的差異性,識別視頻中的人體行為仍極具挑戰(zhàn)。例如,復雜背景中的人體行為識別、多人 交互情況下的人體行為識別、多種動作連續(xù)發(fā)生的人體行為識別等復雜條件下的人體行為 識別的正確率都有待進一步提高。這種多樣化的、更為復雜的人體行為識別場景正是將來 人體行為識別應用領域的發(fā)展趨勢,具有長遠的、典型的現(xiàn)實意義。
[0007] 利用傳統(tǒng)LBP(Local Binary Patterns)算法對視頻紋理進行描述的方法只考慮 了鄰點與閾值之間的關系并沒有考慮鄰點和鄰點之間的關系。LBP在被擴展到三維后即 LBP-T0P算法同樣繼承了它的缺點,而且由于三維時空特性,LBP-T0P算法對時域和空域進 行相同編碼忽略了時域和空域特征的差異性。而傳統(tǒng)詞袋模型忽略了視覺單詞的時序特 性,也忽略了視覺單詞之間的關系。
【發(fā)明內容】
[0008] 針對LBP-T0P算法忽略了鄰點之間的關系而丟失了鄰域結構信息的問題,以及忽 略了時空特征在時域和空域上變化所具有差異性的問題,本發(fā)明提出了一種基于局部時空 特征描述與金字塔詞匯樹的視頻行為識別方法,該方法對時空興趣點所形成的時空立方體 切片的時域和空域采取不同的時空紋理描述策略。
[0009] 為了實現(xiàn)上述目的,本發(fā)明采用的技術方案如下:
[0010] 基于局部時空特征描述與金字塔詞匯樹的視頻行為識別方法,包括以下步驟:
[0011] 步驟1特征的提取:
[0012] 步驟1.1首先將視頻數據集轉換成大小為圖像高度*圖像寬度*視頻幀數的矩陣數 據;
[0013] 步驟1.2設置局部時空立方體特征提取方法的相關參數:空間尺度〇、時間尺度τ、 響應閾值R-thresh以及時空興趣點個數;
[0014] 步驟1.3通過計算視頻數據中的每一個像素點響應值R,如果計算得到的像素點的 響應值R>R-thresh,則提取并保存該像素點的(X,y,t)坐標及響應值R;
[0015] 步驟1.4將提取出來的像素點根據其響應值R的大小進行降序排列,選取前η個像 素點作為時空興趣點;
[0016] 步驟1.5在找到響應值比較高的興趣點后,就以興趣點為中心生成時空子區(qū)域,用 時空子區(qū)域中的信息對行為特征進行描述;
[0017] 步驟2特征的描述:
[0018] 步驟2.1首先使用Avg-LBP算法將鄰域的均值代替中心點像素灰度值作為閾值中 心實現(xiàn)對時空紋理的描述,Avg-LBP算法的計算公式為:
[0019]
[0020]
[0021 ] P為鄰域像素數,gP為鄰域中的P鄰點的灰度值為P個鄰點的像素均值; * /.-(1
[0022]步驟2.2在時域和空域使用dLBP描述子對8鄰域的方向信息進行描述,描述了鄰域 之間的變化率和變化方向,計算公式為:
[0023]
[0024] 其中,P'=P/2,gc為鄰域中心像素點的灰度值,gP,和g P是沿中心點方向上中心點 兩側P'鄰點和P鄰點的灰度值;
[0025]步驟2.3利用TLBP描述子描述鄰域像素之間的關系,其在每一行中比較了行中像 素的關系,按行順序的將像素灰度值進行比較并進行模式統(tǒng)計,計算公式為:
[0026]
尸
[0027] 步驟3構造模型,進行識別:
[0028] 步驟3.1基于等多視覺詞匯森林的金字塔匹配核構造算法先將人體行為表示成 SMVVF的直方圖向量:令X為某段視頻的時空興趣點集合,< 為第m個VVF第1層的直方圖向 量,假設用…表示第m個視覺詞匯森林直方圖向量, ?F21~是第1層的權重,則多重視覺詞匯森林直方圖向量2Hx,...,mHx),M為多重 視覺詞匯森林中詞匯森林的個數;
[0029] 步驟3.2然后將直方圖向量轉換為PMK核特征;
[0030] 步驟3.3將PMK核特征用于SVM分類,實現(xiàn)對視頻行為的識別。
[0031] 所述步驟1.4中時空興趣點的提取方法是通過線性可分的濾波器對視頻序列進行 處理來實現(xiàn):空域上使用二維Gaussian濾波對圖像進行加權平滑處理,目的是為了降噪;在 時域上,使用一維Gabor濾波器捕捉像素在時序上的紋理變化;通過一個響應函數來判斷每 一個像素的響應值,響應值高的就可以作為興趣點,響應函數如下:
[0032] R=(I*g*hev)2+(I*g*h〇d)2
[0033] 公式中I為視頻圖像,g = g (X,y,σ)為空間維度的2維平滑高斯核函數,hgv和h〇d為 時域中正交的一維Gabor濾波器,分別定義為:
[0034]
[0035]
[0036] 而參數〇和1,對應為高斯濾波的空間尺度和Gabor濾波的時間尺度。
[0037]所述步驟2的具體過程為:在時空立方體上,以時空興趣點為中心在xy、xt、yt三個 正交平面上等距離取三個切片圖像,對每一幅切片圖像使用Avg-LBP算法進行描述,將描述 結果進行串聯(lián),形成Avg-LBP聯(lián)合直方圖,對立方體每一幅切片圖像使用dLBP算法進行描 述,將切描述結果進行串聯(lián),形成dLBP聯(lián)合直方圖;接著對立方體中的xt和yt切片圖像使用 TLBP算法進行描述并進行串聯(lián),形成TLBP聯(lián)合直方圖;最后將切片圖像的Avg-LBP直方圖、 dLBP直方圖和TLBP直方圖進行串聯(lián),得到聯(lián)合直方圖形成DT-LBPT0P特征。
[0038]本發(fā)明與現(xiàn)有技術相比,其顯著優(yōu)點為:(1)特征描述方法采用DT-LBPT0P算法,解 決了鄰域之間變化率以及變化方向的問題。(2)另對時域采取針對性的時空紋理描述策略, 對時域鄰域像素使用TLBP(Local Binary Pattern)描述子進行描述,反映紋理在時序上的 變化特性。(3)分類模型提出使用多重等規(guī)模子集視覺詞匯森林,用金字塔匹配核快速計算 高維無序特征間的的相似度,建立了 一種新型分類模型。
【附圖說明】
[0039] 圖1為人體行為識別模型的一般性框架;
[0040] 圖2為本發(fā)明DT-LBPT0P算法向量組成示意圖;
[0041] 圖3為dLBP編碼的四個基本方向;
[0042] 圖4為dLBP的編碼規(guī)則;
[0043] 圖5為TLBP算法描述示意圖。
【具體實施方式】
[0044] 本實施例以公開的人體運動視頻數據集KTH數據集進行行為識別。
[0045] 首先對數據集進行特征提取,包括以下步驟:
[0046] 將行為個數設置為對應的六種行為(walk),慢跑(jog),跑(run),揮手(hand wave)和鼓掌(hand clap),每個視頻提取的興趣點數設置為200。將立方體局部時空特征提 取方法的相關參數設置為:空間尺度〇 = 2.4、時間尺度τ = 1.6、響應閾值R-threSh = 2eT4。設 置立方體 LBP 描述子參數 iscuboid = 1,P = 1,R = 8,ExtFLAG = 1,GradFLAG = 1。
[0047] 通過轉換程序將原視頻數據轉換成大小為圖像高度*圖像寬度*視頻幀數的矩陣 數據。
[0048] 通過特征提取程序計算視頻數據中的每一個像素點響應值R,如果計算得到的像 素點的響應值R>R-thresh,就提取并保存該像素點的(X,y,t)坐標及響應值R。
[0049]將提取出來的像素點根據其響應值R的大小進行降序排列,選取前ncuboids個像 素點作為時空興趣點。
[0050]在找到響應值比較高的興趣點后,就以興趣點為中心生成時空子區(qū)域。
[0051 ] 特征提取之后對特征進行特征描述,包括以下步驟:
[0052] 在時空立方體以后,以時空興趣點為中心在Xy、Xt、yt三個正交平面上等距離取三 個切片圖像,對每一幅切片圖像使用Avg-LBP算法進行描述,將描述結果進行串聯(lián),形成 Avg-LBP聯(lián)合直方圖,對立方體每一幅切片圖像使用dLBP算法進行描述,將切描述結果進行 串聯(lián),形成dLBP聯(lián)合直方圖;接著對立方體中的xt和y t切片圖像使用TLBP算法進行描述并 進行串聯(lián),形成TLBP聯(lián)合直方圖;最后將切片圖像的Avg-LBP直方圖、dLBP直方圖和TLBP直 方圖進行串聯(lián),得到聯(lián)合直方圖形成DT-LBPT0P特征。
[0053] LBP(Local Binary Patterns)紋理特征算法具有旋轉不變性和灰度不變性。其最 初的定義為:在3 X 3的窗口中,把窗口的中心像素灰度值作為閾值,將其鄰域的8個相鄰像 素點的灰度值與其進行比較,如果鄰點像素灰度值大于中心像素灰度值,則標記該像素點 為1,否則為0。這樣,將3*3鄰域的標記結果串聯(lián)起來就得到了一個8比特的無符號數,即得 到了該窗口的LBP值,將該無符號數轉換為十進制數就得到了該中心像素點的LBP模式值。 LBP算法擴展到三維空間并將其稱之為LBP_T0P(LBP three orthogonal planes),原理是 在時空立方體中以興趣點為中心,取XY、XT、YT三個正交平面面作為視頻切片分別計算LBP 編碼,從而得到三個切片的描述直方圖,然后將三個直方圖進行串聯(lián),