建立圖像處理中基于運動信息的背景模型的方法

文檔序號：7757572閱讀：255來源：國知局

專利名稱：建立圖像處理中基于運動信息的背景模型的方法
技術領域：
本發(fā)明涉及的是一種圖像處理技術領域的建模方法，具體涉及是一種建立圖像處理中基于運動信息的背景模型的方法。
背景技術：
隨著視頻監(jiān)控的廣泛使用，視頻數(shù)據(jù)的處理技術得到了很大的關注，例如行人檢測、跟蹤，物體建模及姿態(tài)估計等方面的研究。而背景減除被普遍的應用在各種技術中，用于提取視頻中的前景部分，這部分通常包括感興趣的研究對象，例如人或車輛及其他物品等。對于傳統(tǒng)的背景減除方法來說，其背景模型通常需要預先給定，例如拍攝一段背景的視頻，然后根據(jù)每個像素點的顏色的統(tǒng)計特征——均值及方差——來建立背景的模型。這樣方法存在兩個問題，一是需要額外的步驟來建立背景模型，二是所建立的背景模型是靜態(tài) 的，當背景環(huán)境發(fā)生改變后即失效。因此，能夠直接從同時包含運動前景及背景的連續(xù)視頻幀中建立背景模型，將是對傳統(tǒng)方法的重大改進。在現(xiàn)有技術文獻中，常用的背景建模方法是Stauffer和Grimson于1999年在 Proc. IEEEConf. on Computer Vision and Pattern Recognition 的論文 Adaptive background mixturemodels for real-time tracking(在實時足艮蹤中的自適應背景混合模型)中提出的基于高斯混合模型的方法。他們的方法可以適應緩慢的光照變化和由例如樹枝晃動或陰影引起的多模態(tài)顏色分布。但由于沒有利用前景的運動信息，這種方法會出現(xiàn) 拖影問題，即物體的緩慢移動會在得到的前景分割中留下歷史的運動痕跡。因此，本領域需要一種能夠利用前景的運動信息來建立背景模型的方法。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術的不足，提出一種建立圖像處理中基于運動信息的背景模型的方法。本發(fā)明無需額外的背景采集步驟，利用運動信息來初步估計圖像的前景部分，再利用多幅圖像中去除前景后的不完整背景對每一幀建立背景模型，最后利用背景減除即能得到精確的前景分割。在物體及行人跟蹤、運動分析等方面具有廣泛的實際應用。本發(fā)明是通過以下技術方案實現(xiàn)的本發(fā)明對于輸入視頻中的每一對相鄰幀圖像，通過條件隨機場估計每一個像素點的運動場(光流)。然后將速度大于一定閾值的像素點作為前景點，這樣將得到對每一幀圖像得到一個前景的初始分割。對于輸入序列中的每一幀，都可以得到一個這樣的初始分割。如果將背景看作一個在低維度變化的空間，那么其中每一幅經(jīng)過初始分割的圖像都可以被看作一個具有缺失數(shù)據(jù)的樣本點。其中缺失的部分就是被前景擋住的分別。對于這一系列具有缺失數(shù)據(jù)的樣本點，本方法利用缺失數(shù)據(jù)下的主成分分析方法來重建出這個低維的背景空間。將每一幀中部分缺失的背景重投影到這個低維空間中，即可恢復當前幀的背景。本發(fā)明包括以下步驟
1.相鄰幀間運動場的估計對輸入視頻的每一對相鄰幀，該方法利用運動前后像素灰度的不變性估計整幅圖像每個像素點的運動場。其中速度大于一定閾值的像素點被作為是前景點，得到一個初始的前景分割。2.利用缺失數(shù)據(jù)建立背景模型在步驟1中的到的每一幀均可以看作是原背景空間中的一個缺失了部分數(shù)據(jù)的樣本點。通過視頻中一系列的缺失部分數(shù)據(jù)的樣本點，重建出原背景空間。隨后通過重投影，得到每一幀的背景模型。與現(xiàn)有技術相比，本發(fā)明所提出的方法無需額外的背景采集步驟，同時能夠適應背景的線性變化，對于利用背景減除來提取前景具有實際使用價值，并優(yōu)于原有的方法。

圖1為輸入視頻中的相鄰兩幀。圖2為根據(jù)圖1中的相鄰幀得到的運動場的大小。圖3為根據(jù)運動場的大小，將速度不為零的點設為前景點的分割結果。圖4為根據(jù)一系列的不完整背景圖像得到的背景模型。
具體實施例方式以下結合附圖對本發(fā)明的實施例作詳細說明以下實施例在以本發(fā)明技術方案為前提下進行實施，給出了詳細的實施方式和過程，但本發(fā)明的保護范圍不限于下述的實施例。實施例1.相鄰幀間運動場的估計。圖1為實施例中輸入視頻里的兩幅幀的圖像。運動前后像素灰度的不變性是指對于一個像素點所對應的物體點來說，當它由第一幀運動到第二幀時，由于在時間和空間上的間隔都很短，可以假設該點的灰度是保持不變的。在這個條件，利用條件隨機場可以求解出每個像素點對應的運動矢量。將第k幀的運動場記為vk，假設在像素點χ處的運動矢量Vk(X)僅和其相鄰像素點y的運動矢量Vk(y)及相鄰這兩幀的圖像gH、gk相關，即p[vk(x) |vk(y), gk_i; gk, y ^ χ] = p[vk(x) |vk(y), gk_i; gk, y e N(x)] (1)其中N(x)是指與χ相鄰像素點的集合。在這樣的前提下，可以將求解最大后驗概率解變成估計最小能量問題。系統(tǒng)的能量定義為E(Vk 1 & ) = Σ Eda,a iVk (X)丨'^J+ Σ Esmoo,h iVkh O) 1 S '^J(2)
義x’ysN其中兩個能量項分別定義如下Edata表示當前像素賦值為Vk(X)的能量，用來衡量運動下物體像素點的灰度不變性。當一個點從Xlri點運動了 Vk(X)到達Xk點后，如果灰度變化越小，那么該能量項越小，反之亦然。這個能量項定義如下Edata [vk (χ) I gH，gk] = λ min{ I gk-! [x_vk (x) ] _gk (x) I , a} (3)這里添加了一個截止項α，使得當灰度變化大于α時，其能量不再增加。這用于處理當相鄰幀間發(fā)生遮擋的情況。λ是一個調(diào)節(jié)能量大小的縮放因子。另一個能量項Es_th表示相鄰像素點χ、y的運動矢量分別為Vk(X)和vk(y)時的能量，用來衡量相鄰像素點間的運動連續(xù)性，定義如下Esmooth [vk (χ), vk (y) Igk^1, gk] = d (gk, χ, y) min [ | vk (χ) -vk (y) | , β] (4)這里β是和式(3)中的α類似的截止項。d(gk，χ, y)是一個描述圖像&中X、 y像素上特征變化的函數(shù)，當在x、y處圖像變化較大時，這個函數(shù)的值減小，當變化平緩時，函數(shù)值增加。這樣處理的原因是因為對于相鄰像素點間的運動連續(xù)性在物體邊緣處并不成立，而物體邊緣處的圖像變化一般較大，因此減少此時的能量項。這里選取以下函數(shù) 這里Δ (χ)，Δ (y)是χ、y處圖像的拉普拉斯變換。最后，通過置信傳播算法計算使得定義在相鄰幀間運動場的能量項最小的取值。這個值就是對于運動場的最大后驗估計。對于實施例中圖1給出的兩個相鄰幀，其估計得到的運動場的大小如圖2所示。其中越亮的點表示運動速度越大，可見圖中人物擺動的手臂是運動速度最快的部分。在這個運動場上，設定速度大于零的點(即所有發(fā)生運動的點)為前景點，這樣得到的分割結果如圖3所示。可以看到，這個初步的分割結果雖然不是一個前景物體的準確分割，但是卻有效的去除了運動的部分。這樣，剩下的部分就可以看作是一幅不完整的背
旦 2.利用缺失數(shù)據(jù)建立背景模型主成份分析方法作為圖像分析的常用方法，對于一幀圖像來說，其像素灰度值可以序列化為一個大的向量。主成分分析的主要用處是降低維度，對于一個η維向量X，可以通過一個矩陣W將其投影為一個k維向量y y = ffTx (6)這里的W是一個kXη維的矩陣。能夠使得y在k空間中逼近χ的最佳取值W即稱為主成份。對于背景建模來說，雖然像素點的數(shù)量巨大，但是像素灰度間存在著很強的關聯(lián) 性，也就是說背景的變化是在一個非常低的維度內(nèi)。對于一幅mXn大小的圖像M，每一行看作一個η維向量。因此，當投影到主成份上時，每個值Yi是一個m維向量對于步驟一中提供的一系列不完整的背景圖像，可以通過期望最大算法求解該主成份分析問題，在實施例上的結果如圖4所示。于是所求出的圖像均值Mtl和主成份Ci (i = 1,2, ···，(!)可用于對背景建模。另Pi表示原圖像在第i個主成份上的投影，那么背景可重建為M, + ^liPiCi⑶，即為得到的背景模型。
權利要求
一種建立圖像處理中基于運動信息的背景模型的方法，其特征在于，包括以下步驟步驟一.相鄰幀間運動場的估計對輸入視頻的每一對相鄰幀，用運動前后像素灰度的不變性估計整幅圖像每個像素點的運動場；其中速度大于一定閾值的像素點被作為是前景點，得到一個初始的前景分割；步驟二.利用缺失數(shù)據(jù)建立背景模型在步驟一中的到的每一幀均可以看作是原背景空間中的一個缺失了部分數(shù)據(jù)的樣本點；通過視頻中一系列的缺失部分數(shù)據(jù)的樣本點，重建出原背景空間；隨后通過重投影，得到每一幀的背景模型。
2.根據(jù)權利要求1所述的建立圖像處理中基于運動信息的背景模型的方法，其特征是，所述的運動前后像素灰度的不變性是指對于一個像素點所對應的物體點來說，當它由第一幀運動到第二幀時，由于在時間和空間上的間隔都很短，假設該點的灰度是保持不變的，在這個條件，利用條件隨機求解出每個像素點對應的運動矢量。
3.根據(jù)權利要求1所述的建立圖像處理中基于運動信息的背景模型的方法，其特征是，所述的運動矢量通過以下方法獲得將第k幀的運動場記為vk，假設在像素點X處的運動矢量Vk (χ)僅和其相鄰像素點y的運動矢量Vk(y)及相鄰這兩幀的圖像gH、gk相關，即P [vk (x) Vk (y), gk_1 gk, y 乒 X] = p[vk(x) vk (y), gk_1 gk, y e N(x)] 其中N(x)是指與χ相鄰像素點的集合；在這樣的前提下，可以將求解最大后驗概率解變成估計最小能量問題系統(tǒng)的能量定義為E(vk I 仏)=Σ E-a [Vt (■*) I ,仏]+ Σ ^smoothχx’ysN其中兩個能量項分別定義如下=Edata表示當前像素賦值為Vk(X)的能量，用來衡量運動下物體像素點的灰度不變性；當一個點從Xlri點運動了 Vk(X)到達Xk點后，如果灰度變化越小，那么該能量項越小，反之亦然。
4.根據(jù)權利要求1所述的建立圖像處理中基于運動信息的背景模型的方法，其特征是，所述的能量項定義如下Edata [vk (χ) I gk_!, gk] = λ min {| gk_! [x_vk (χ) ] -gk (χ) |, α } (3) 這里添加了一個截止項α，使得當灰度變化大于α時，其能量不再增加，這用于處理當相鄰幀間發(fā)生遮擋的情況，λ是一個調(diào)節(jié)能量大小的縮放因子；另一個能量項E—表示相鄰像素點x、y的運動矢量分別為Vk(X)和Vk(y)時的能量，用來衡量相鄰像素點間的運動連續(xù)性，定義如下Esmooth [Vk (X)，Vk (y) Igk-I，gk] = d (gk, X, y) min [ | vk (χ) -vk (y) |, β] 這里β是和式⑶中的α類似的截止項。d(gk，x，y)是一個描述圖像&中乂、7像素上特征變化的函數(shù)，當在X、Y處圖像變化較大時，這個函數(shù)的值減小，當變化平緩時，函數(shù) 值增加；因此減少此時的能量項，選取以下函數(shù) 這里Δ (χ)，Δ (y)是χ、y處圖像的拉普拉斯變換；最后，通過置信傳播法計算使得定義在相鄰幀間運動場的能量項最小的取值。
5.根據(jù)權利要求1所述的建立圖像處理中基于運動信息的背景模型的方法，其特征是，所述的步驟二具體是指對于一幀圖像來說，其像素灰度值可以序列化為一個大的向量，對于一個η維向量X，通過一個矩陣W將其投影為一個k維向量y : ν =這里的W是一個kXn維的矩陣，能夠使得y在k空間中逼近χ的最佳取值W即稱為主成份；像素灰度間存在著關聯(lián)性，對于一幅mXn大小的圖像M，每一行看作一個η維向量，因此，當投影到主成份上時，每個值Yi是一個m維向量 Y = MW對于步驟一中提供的一系列不完整的背景圖像，可求解該主成份，所求出的圖像均值 M0和主成份Ci (i = 1,2,…，d)可用于對背景建模，另Pi表示原圖像在第i個主成份上的投影，那么背景可重建為，即為得到的背景模型。
全文摘要
一種圖像處理技術領域的建立圖像處理中基于運動信息的背景模型的方法。包括1)相鄰幀間運動場的估計對輸入視頻的每一對相鄰幀，該方法利用運動前后像素灰度的不變性估計整幅圖像每個像素點的運動場。其中速度大于一定閾值的像素點被作為是前景點，得到一個初始的前景分割。2)利用缺失數(shù)據(jù)建立背景模型在步驟1中的到的每一幀均可以看作是原背景空間中的一個缺失了部分數(shù)據(jù)的樣本點。通過視頻中一系列的缺失部分數(shù)據(jù)的樣本點，重建出原背景空間。隨后通過重投影，得到每一幀的背景模型。
文檔編號H04N7/18GK101916449SQ20101025954
公開日2010年12月15日申請日期2010年8月21日優(yōu)先權日2010年8月21日
發(fā)明者劉允才, 孫兵, 張鳴, 李科申請人:上海交通大學

完整全部詳細技術資料下載