一種面向視頻編碼的背景建模方法
【專利說明】一種面向視頻編碼的背景建模方法
[0001]
技術(shù)領(lǐng)域
[0002]本發(fā)明屬于視頻編碼技術(shù)領(lǐng)域,特別是涉及一種新的基于圖像塊的背景建模方法。
[0003]
【背景技術(shù)】
[0004]隨著多媒體視頻技術(shù)的廣泛應(yīng)用,需要存儲(chǔ)或傳輸?shù)囊曨l數(shù)據(jù)量也越來越大。為了節(jié)省存儲(chǔ)或傳輸代價(jià),需要高效壓縮這些視頻數(shù)據(jù)。
[0005]目前,視頻編碼標(biāo)準(zhǔn)主要是針對(duì)通用視頻應(yīng)用而設(shè)計(jì)的,沒有針對(duì)固定攝像頭的視頻應(yīng)用(如視頻監(jiān)控、視頻會(huì)議等)作充分優(yōu)化。因此,在編碼這些視頻數(shù)據(jù)時(shí),可以充分利用攝像頭固定這一特點(diǎn),改進(jìn)現(xiàn)有編碼標(biāo)準(zhǔn),進(jìn)一步提高壓縮效率。
[0006]改進(jìn)的方法之一是進(jìn)行背景建模。通過把建模得到的背景圖像用作長(zhǎng)期參考幀,可以有效消除背景冗余,從而提高編碼效率。因此,很多研究者在現(xiàn)有的視頻編碼標(biāo)準(zhǔn)中引入了背景建模方法,如【文獻(xiàn)I】。
[0007]但是,這些方法在提高了編碼效率的同時(shí),也存在一些需要改進(jìn)的地方,主要體現(xiàn)在:
1、對(duì)于被運(yùn)動(dòng)前景長(zhǎng)期遮擋的背景區(qū)域,如擁擠的人流或車流、持續(xù)噴發(fā)的噴泉等,由于這些背景區(qū)域總是在運(yùn)動(dòng)或被遮擋,因此很難得到理想的建模結(jié)果。但以幀為單位的背景建模方法必須對(duì)這些區(qū)域進(jìn)行建模以得到一個(gè)完整的背景幀,而對(duì)這些區(qū)域的建模結(jié)果往往是模糊的,在編碼時(shí)也基本上不會(huì)被參考。因此,對(duì)該區(qū)域建模不但浪費(fèi)了碼率,也浪費(fèi)了計(jì)算時(shí)間。
[0008]2、由于多種原因,背景也會(huì)發(fā)生變化,因此背景建模一段時(shí)間后,需要及時(shí)更新,即建模新的背景以替代過時(shí)的背景。由于背景內(nèi)容很多時(shí)候只是局部更新,因此現(xiàn)有的以幀為單位進(jìn)行背景建模就會(huì)導(dǎo)致一個(gè)兩難問題:如果頻繁更新則用于表示背景的碼率過高(沒有變化的背景區(qū)域也要重新建模,而建模結(jié)果需要占用碼率),降低了總體編碼效率;如果降低更新頻率則預(yù)測(cè)質(zhì)量也會(huì)降低,同樣也降低了總體編碼效率。
[0009]3、現(xiàn)有的背景建模方法同一時(shí)刻基本上只保存一個(gè)背景幀(若保存多個(gè)完整的背景幀則需要大量存儲(chǔ)空間),因而不能有效地對(duì)周期性的背景進(jìn)行建模(比如反復(fù)被車輛遮擋又重現(xiàn)的路面,一般需要建模多次,浪費(fèi)了碼率)
因此,有必要提出一種新的技術(shù)方案來解決上述問題。
[0010]【文獻(xiàn)l】Xianguo Zhang.Background-Modeling-Based Adaptive Predict1nfor Surveillance Video Coding.1EEE Transact1n on Image Processing.2014.
【發(fā)明內(nèi)容】
[0011]為了解決上述的技術(shù)問題,本發(fā)明提出了一種面向視頻編碼的高效的基于塊的背景建模方法。
[0012]本發(fā)明所采用的技術(shù)方案是:一種面向視頻編碼的背景建模方法,其特征在于,包括以下步驟:
步驟1:針對(duì)來自固定攝像頭的視頻序列的編碼,在圖像塊而不是幀的層次上進(jìn)行背景建模;同時(shí),為了便于解碼,在重構(gòu)圖像序列上按顯示順序進(jìn)行背景建模;重構(gòu)圖像序列中所有圖像按BxB像素劃分成圖像塊,因此一個(gè)視頻序列可以看作是MxN個(gè)圖像塊序列,其中MxB=W, NxB=H, W為圖像寬度,H為圖像高度;
步驟2:每個(gè)圖像塊序列各自獨(dú)立地進(jìn)行背景建模,圖像塊序列背景建模過程中用到的數(shù)據(jù)結(jié)構(gòu)有背景塊判斷緩存和背景塊緩存;所述的背景塊判斷緩存是長(zhǎng)度為K塊的隊(duì)列,所述的背景塊緩存是長(zhǎng)度為L(zhǎng)塊的隊(duì)列,二者初始時(shí)都為空;圖像塊序列背景建模過程包括以下子步驟:
步驟2.1:將當(dāng)前重構(gòu)圖像塊加入到背景塊判斷緩存的隊(duì)尾;
步驟2.2:如果當(dāng)前重構(gòu)圖像塊與某些背景塊相似,則先刪除所有現(xiàn)存的與當(dāng)前重構(gòu)圖像塊相似的背景塊,再把當(dāng)前重構(gòu)圖像塊加入到背景塊緩存隊(duì)列的隊(duì)尾;本流程完畢;否則,則繼續(xù)進(jìn)行下述步驟2.3的判斷;
步驟2.3:如果背景塊判斷緩存中已有K塊,則判斷它們是否都相似?
若是,則認(rèn)為當(dāng)前重構(gòu)圖像塊是背景塊,先刪除所有現(xiàn)存的與當(dāng)前重構(gòu)圖像塊相似的背景塊,再把當(dāng)前重構(gòu)圖像塊加入到背景塊緩存隊(duì)列的隊(duì)尾;本流程完畢;
若否,則當(dāng)前重構(gòu)圖像塊不是背景塊;
步驟3:對(duì)于每一個(gè)采用幀間編碼方式的待編碼原始圖像塊,先進(jìn)行標(biāo)準(zhǔn)的幀間搜索,再附加搜索對(duì)應(yīng)位置的背景圖像塊緩存中的每一個(gè)背景塊;如果某背景塊是最佳參考?jí)K,則記錄其在背景圖像塊緩存中的序號(hào);在編碼一幀原始圖像時(shí)所有被實(shí)際參考的背景塊在各自背景圖像塊緩存中的序號(hào)構(gòu)成背景塊選擇位圖,該位圖用某種方式進(jìn)行壓縮后,保存在碼流中傳給解碼端,解碼時(shí)采用與編碼時(shí)相同的背景建模算法,結(jié)合背景塊選擇位圖,重構(gòu)出相同的虛擬參考幀,以實(shí)現(xiàn)正確解碼;
步驟4:當(dāng)前幀編碼完畢后,同時(shí)也得到了重構(gòu)圖像。該重構(gòu)圖像先按步驟I所述方式劃分為圖像塊,每一個(gè)圖像塊再按步驟2所述方式進(jìn)行背景建模,如果是背景塊,則在步驟3中作為附加的備選參考?jí)K。如此重復(fù)直到所有幀編碼完畢。
[0013]作為優(yōu)選,步驟3中所述的最佳參考?jí)K即編碼代價(jià)最小的塊,現(xiàn)有編碼標(biāo)準(zhǔn)中有一個(gè)代價(jià)函數(shù)專門計(jì)算編碼代價(jià),有多種計(jì)算方式備選,用戶可在編碼前通過編碼配置文件指定,在此本發(fā)明沿用用戶當(dāng)前選擇的計(jì)算方式。
[0014]作為優(yōu)選,步驟3中所述的位圖用某種方式進(jìn)行壓縮,采用的是算術(shù)編碼方式進(jìn)行壓縮。
[0015]作為優(yōu)選,步驟2中一幀圖像編碼完成后,重構(gòu)幀中所有滿足上述條件的背景塊加入到相應(yīng)的背景圖像塊緩存中,若空間溢出則可按某種規(guī)則淘汰。
[0016]作為優(yōu)選,所述的空間溢出則可按某種規(guī)則淘汰,采用的是先進(jìn)先出規(guī)則。
[0017]作為優(yōu)選,步驟2中兩個(gè)圖像塊是否相似的判斷方法為:
步驟2.2.1:兩圖像塊相減,得到殘差; 步驟2.2.2:對(duì)殘差進(jìn)行變換、量化;
步驟2.2.3:判斷殘差進(jìn)行變換、量化后是否可用SKIP方式表示?
若是,則認(rèn)為兩圖像塊相似;
若否,則認(rèn)為兩圖像塊不相似。
[0018]本發(fā)明提供的一種背景建模方法,通過在圖像塊的基礎(chǔ)上選擇性地進(jìn)行局部背景建模、局部背景更新、局部多重背景保持,以克服現(xiàn)有以幀為單位的背景建模方法中存在的上述問題,從而降低背景建模的開銷,提高背景模型的預(yù)測(cè)質(zhì)量,最終提高視頻編碼的總體壓縮效率。
[0019]
【附圖說明】
[0020]圖1:本發(fā)明實(shí)施例的流程圖;
圖2:本發(fā)明實(shí)施例的擴(kuò)展的幀間搜索流程圖。
[0021]
【具體實(shí)施方式】
[0022]為了便于本領(lǐng)域普通技術(shù)人員理解和實(shí)施本發(fā)明,下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實(shí)施示例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0023]請(qǐng)見圖1和圖2,本發(fā)明提供的一種面向視頻編碼的背景建模方法,包括以下步驟:
步驟1:針對(duì)來自固定攝像頭的視頻序列的編碼,在圖像塊而不是幀的層次上進(jìn)行背景建模;同時(shí),為了便于解碼,在重構(gòu)圖像序列上按顯示順序進(jìn)行背景建模;重構(gòu)圖像序列中所有圖像按BxB像素劃分成圖像塊(如16x16像素的宏塊,或其它尺寸),因此一個(gè)視頻序列可以看作是MxN