欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多人臉視頻顯著性的HEVC壓縮編碼方法與流程

文檔序號(hào):11657736閱讀:227來源:國知局
一種基于多人臉視頻顯著性的HEVC壓縮編碼方法與流程

本發(fā)明屬于計(jì)算機(jī)視覺領(lǐng)域,具體設(shè)計(jì)一種通過機(jī)器學(xué)習(xí)來預(yù)測多人臉視頻顯著性的方法,并基于檢測到的視頻顯著性,提出了一種基于hevc(highefficiencyvideocoding)視頻壓縮方法。



背景技術(shù):

有研究表明,當(dāng)人們觀看一片較大范圍的場景時(shí),他們通常將關(guān)注點(diǎn)集中在一塊小的區(qū)域,該區(qū)域被稱為顯著性區(qū)域。而其他區(qū)域受到較少的關(guān)注,被稱之為邊緣區(qū)域。因此,視覺關(guān)注度是人類視覺系統(tǒng)處理龐大數(shù)據(jù)量的一個(gè)顯著能力。顯著性檢測是一種針對(duì)圖像或者視頻有效預(yù)測人類可能的視覺關(guān)注區(qū)域的方法。近年來,顯著性檢測被廣泛運(yùn)用于物體檢測,圖像重定向,視覺質(zhì)量評(píng)估以及視頻編碼。

另外,本發(fā)明發(fā)現(xiàn),視頻中如果出現(xiàn)人臉,則人臉區(qū)域是整個(gè)視頻尤為顯著并受極大關(guān)注的區(qū)域。統(tǒng)計(jì)得到,在含人臉視頻中,人臉區(qū)域的像素個(gè)數(shù)僅占整個(gè)畫面的21%,然而卻吸引了95%的關(guān)注度。并且,在多人臉視頻中,關(guān)注點(diǎn)往往集中在其中某個(gè)人臉上。因此,研究多人臉視頻的顯著性具有不可忽略的意義。盡管現(xiàn)已有很多顯著性檢測方法,但是關(guān)于多人臉視頻的顯著性檢測方法卻十分稀少,并且考慮到視頻多幀相關(guān)性以及受關(guān)注人臉狀態(tài)轉(zhuǎn)移的機(jī)器學(xué)習(xí)方法幾乎不存在。

另一方面,隨著近年來多媒體通信的快速發(fā)展,視頻分辨率及傳輸流量也迅速增加。然而,網(wǎng)絡(luò)帶寬并不能完全承受如此龐大的傳輸流量。因此,在視頻編碼過程中,需要更大程度地減少冗余,提高效率。通常,視頻的輸出是人眼,所以在視頻壓縮編碼過程中,需要以最小感知失真為優(yōu)化目標(biāo)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明針對(duì)目前并不完善的顯著性檢測方法提出一種基于自定義的機(jī)器學(xué)習(xí)方法——多隱馬爾科夫模型(multiplehiddenmarkovmodel,m-hmm)的多人臉顯著性檢測方法,并提出一種基于多人臉視頻顯著性的hevc壓縮編碼方法。

本發(fā)明提供了一種多人臉顯著性檢測方法,實(shí)現(xiàn)步驟如下:

步驟一、建立包含視覺關(guān)注點(diǎn)分布的多人臉視頻數(shù)據(jù)庫,檢測數(shù)據(jù)庫中視頻中的人臉并提取臉部特征。

步驟二、建立并訓(xùn)練多隱馬爾科夫模型,包括:

(1)統(tǒng)計(jì)每個(gè)人臉在每一幀落入的關(guān)注點(diǎn)百分比,用該關(guān)注點(diǎn)百分比判斷人臉顯著性變化,該關(guān)注點(diǎn)百分比“增加”、“減少”及“不變”分別代表人臉的顯著性變化增加、減少和保持不變;

(2)建立多隱馬爾科夫模型,具體是:設(shè)同一時(shí)刻總共有n個(gè)隱藏狀態(tài),其中第n個(gè)隱藏狀態(tài)代表該時(shí)刻第n個(gè)人臉的顯著性變化,其中第t幀第n個(gè)隱藏狀態(tài)由第t幀第n個(gè)人臉的觀測特征和前一幀狀態(tài)決定;定義人臉權(quán)重表示第t幀每個(gè)人臉區(qū)域落入的關(guān)注點(diǎn)占落入所有人臉關(guān)注點(diǎn)的百分比,一個(gè)隱藏狀態(tài)連接一個(gè)隱藏單元n個(gè)隱藏單元與n個(gè)人臉權(quán)重之間為全連接網(wǎng)絡(luò)。n=1,2,…,n。所述的觀測特征包括所提取的臉部特征。

(3)通過最大似然估計(jì)算法,學(xué)習(xí)得到m-hmm的隱藏狀態(tài)轉(zhuǎn)移矩陣和觀測狀態(tài)轉(zhuǎn)移矩陣。

(4)利用訓(xùn)練得到的m-hmm預(yù)測每個(gè)人臉受關(guān)注度的變化,預(yù)測得到最終的顯著性圖譜。

本發(fā)明基于提出的多人臉顯著性檢測方法,還提供了一種視頻編碼方法,利用本發(fā)明預(yù)測得到的顯著性圖譜進(jìn)一步指導(dǎo)視頻編碼過程中的碼率分配,來提升視頻的主觀質(zhì)量。所述視頻編碼方法嵌入在高效率視頻編碼標(biāo)準(zhǔn)hevc的r-λ碼率控制模型上,首先定義每權(quán)重比特bpw,根據(jù)預(yù)測的顯著性圖譜計(jì)算每一個(gè)編碼單元ctu的平均bpw,然后將bpw代替每像素比特bpp來計(jì)算編碼需要的量化參數(shù)qp,最后將視頻的每一幀通過hevc進(jìn)行編碼。

本發(fā)明的優(yōu)點(diǎn)和積極效果在于:

(1)本發(fā)明基于多人臉視頻顯著性的hevc壓縮編碼方法,建立了一個(gè)龐大的視覺顯著性視頻數(shù)據(jù)庫,為后續(xù)研究提供幫助。

(2)本發(fā)明基于多人臉視頻顯著性的hevc壓縮編碼方法,提出了一種檢測多人臉視頻顯著性的方法,在進(jìn)行預(yù)測時(shí)采用m-hmm模型,通過實(shí)驗(yàn)證明顯著性檢測結(jié)果性能好。

(3)本發(fā)明基于多人臉視頻顯著性的hevc壓縮編碼方法,根據(jù)預(yù)測到的多人臉顯著性圖譜來指導(dǎo)視頻編碼過程中的碼率分配,在資源有限的情況下有效地提升了壓縮后視頻的主觀質(zhì)量。

附圖說明

圖1為本發(fā)明實(shí)現(xiàn)多人臉顯著性檢測及進(jìn)行視頻壓縮的總體流程圖;

圖2為本發(fā)明實(shí)施例建立數(shù)據(jù)庫采用的不同視頻種類示例圖;

圖3為本發(fā)明使用的說話檢測框架示意圖;

圖4為嘴唇邊緣寬高示意圖;

圖5為hmm結(jié)構(gòu)圖;

圖6為m-hmm結(jié)構(gòu)圖;

圖7為同一視頻多幀顯著性圖譜展示;

圖8為不同視頻顯著性圖譜展示;

圖9為本發(fā)明基于顯著性檢測的視頻編碼方案框圖;

圖10為本發(fā)明的視頻壓縮方案結(jié)果圖示;(a)為傳統(tǒng)hevc方案,(b)為本發(fā)明方案。

具體實(shí)施方式

下面結(jié)合附圖與具體實(shí)例對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步的詳細(xì)說明。

本發(fā)明提供的一種基于多人臉視頻顯著性的hevc壓縮編碼方法,包括視覺顯著性數(shù)據(jù)庫的建立、顯著性檢測模型的構(gòu)建、通過實(shí)驗(yàn)對(duì)本發(fā)明有效性的檢驗(yàn)、基于所檢測到的顯著性圖譜建立本發(fā)明的視頻壓縮編碼方法。

首先,通過眼球追蹤實(shí)驗(yàn),建立一個(gè)對(duì)多人臉視頻的視覺關(guān)注點(diǎn)分布的數(shù)據(jù)庫,并自動(dòng)檢測圖像中的人臉并提取臉部特征。然后,將關(guān)注點(diǎn)數(shù)據(jù)和提取到的臉部特征進(jìn)行預(yù)處理,使之轉(zhuǎn)換成合適m-hmm的形式。

接著,定義并構(gòu)建顯著性檢測模型,由多通道構(gòu)成:說話、轉(zhuǎn)頭、正\側(cè)臉、顏色、對(duì)比度、方向。其中,前三個(gè)屬于高維人臉特征通道,需要由學(xué)習(xí)得到的m-hmm預(yù)測,后三者屬于低維圖像特征通道,可由現(xiàn)有顯著性預(yù)測算法gbvs模型得到。同時(shí),對(duì)顯著性檢測的技術(shù)效果進(jìn)行評(píng)估與分析。

最后,利用預(yù)測得到的視頻顯著性圖譜,對(duì)傳統(tǒng)hevc視頻壓縮編碼的碼率分配部分進(jìn)行進(jìn)一步的指導(dǎo),以達(dá)到有限比特?cái)?shù)的情況下盡可能提升視頻主觀質(zhì)量的目標(biāo)。

本發(fā)明基于多人臉視頻顯著性的hevc壓縮編碼方法,整體步驟如圖1所示。步驟一和二實(shí)現(xiàn)了多人臉顯著性檢測方法,步驟三基于上兩步驟進(jìn)行視頻壓縮。

步驟一、建立數(shù)據(jù)庫。

步驟101、通過眼球追蹤實(shí)驗(yàn),記錄觀測者在自由觀看模式下對(duì)多人臉視頻的關(guān)注點(diǎn),建立包含視覺關(guān)注點(diǎn)分布的多人臉視頻數(shù)據(jù)庫。

本發(fā)明實(shí)施例,數(shù)據(jù)庫中包含65個(gè)多人臉視頻,并且是由3名志愿者在獨(dú)立的環(huán)境下分別在youtube網(wǎng)站和優(yōu)酷網(wǎng)站上隨機(jī)挑選出來。該65個(gè)視頻:(1)分辨率均為1280×720;(2)時(shí)長均在20秒左右;(3)包含人臉個(gè)數(shù)從1人到27人不等;(4)在眼球追蹤實(shí)驗(yàn)播放時(shí)均由h.264壓縮得到;(4)種類分為7類:電視劇\電影(12個(gè))、群體采訪(12個(gè))、個(gè)人采訪(8個(gè))、視頻會(huì)議(6個(gè))、綜藝節(jié)目(7個(gè))、音樂視頻\脫口秀(10個(gè))、小組討論(10個(gè)),具體見圖2及表1。

表1本發(fā)明數(shù)據(jù)庫的視頻分類

在眼球追蹤實(shí)驗(yàn)中,39人(26男、13女,年齡在20-49之間)作為被試參與實(shí)驗(yàn),其中僅有2名被試對(duì)顯著性檢測有相關(guān)背景知識(shí),其余被試均對(duì)該領(lǐng)域和該實(shí)驗(yàn)毫無經(jīng)驗(yàn)。該實(shí)驗(yàn)使用的眼動(dòng)儀(用于追蹤眼球轉(zhuǎn)動(dòng))型號(hào)為tobiix2-60,頻率為60hz。被試觀看視頻所用lcd顯示屏大小為23英寸。實(shí)驗(yàn)過程中,被試被要求坐在一個(gè)距離lcd顯示屏60厘米左右的舒適的椅子上。在觀看視頻之前,被試還需要通過眼動(dòng)儀進(jìn)行一個(gè)9點(diǎn)矯正。然后,被試者開始自由視角觀看隨機(jī)順序播放的視頻。為了避免被試眼部疲勞,本發(fā)明將65個(gè)視頻分成3組,每組播放完畢后有5分鐘的休息時(shí)間。另外,視頻播放過程中,每兩個(gè)視頻之間會(huì)有一個(gè)10秒的黑屏間隔。最終,該實(shí)驗(yàn)總共收集到1,011,647個(gè)視覺關(guān)注點(diǎn)。

步驟102、對(duì)數(shù)據(jù)庫進(jìn)行分析并提取臉部特征作為機(jī)器學(xué)習(xí)的輸入。本發(fā)明可以采用以下方法但不限于以下方法。

步驟(1)、運(yùn)用已有算法自動(dòng)檢測數(shù)據(jù)庫中視頻的人臉并標(biāo)定特征點(diǎn),同時(shí)匹配視頻中每個(gè)人臉并給他們編號(hào)。

先通過現(xiàn)有先進(jìn)技術(shù)檢測視頻中的人臉并標(biāo)定特征點(diǎn)。為了提升人臉檢測的性能,進(jìn)一步通過視頻相鄰幀之間的時(shí)序信息解決一些惡劣情況(比如遮擋、光線暗等),即通過線性插值的方法將漏檢補(bǔ)全。另外,通過相鄰幀各個(gè)人臉之間的歐幾里得距離將不同幀同一人臉匹配起來。由于多人臉視頻中人們運(yùn)動(dòng)幅度不大,因此定義當(dāng)分屬于相鄰兩幀的某兩個(gè)人臉的歐幾里得距離小于一定閾值the,則該兩個(gè)人臉屬于同一個(gè)人。該閾值the定義如下:

其中w和h分別是檢測到人臉的寬和高,γ是控制人臉匹配敏感度的參數(shù),這里設(shè)為0.5。

步驟(2)、通過視頻中人臉內(nèi)部的圖像信息,提取每個(gè)人臉的3種特征(說話、轉(zhuǎn)頭、正\側(cè)臉)。

通過分析數(shù)據(jù)庫,發(fā)現(xiàn)說話這一行為會(huì)導(dǎo)致當(dāng)前人臉區(qū)域吸引大量的關(guān)注度。因此,本發(fā)明通過訓(xùn)練一種分類器來進(jìn)行說話檢測。如圖3,首先提取嘴部特征:嘴部運(yùn)動(dòng)(運(yùn)動(dòng)強(qiáng)度和方向)、嘴部幾何特征(伸長度)、嘴部紋理(嘴部灰度直方圖)。其次,將上述提取的特征輸入到一種分類器,本發(fā)明使用并不限于支持向量機(jī)(supportvectormachine,svm),得到最終說話行為的分類結(jié)果。

具體來說,首先利用光流法來檢測嘴部區(qū)域每個(gè)像素的運(yùn)動(dòng)矢量,記錄嘴部區(qū)域的平均運(yùn)動(dòng)強(qiáng)度(公式(2))和方向梯度直方圖(公式(3)):

其中,是嘴部區(qū)域的平均運(yùn)動(dòng)強(qiáng)度,r是嘴部區(qū)域,#(r)代表嘴部區(qū)域r的像素個(gè)數(shù),o(·)是每個(gè)像素的光流運(yùn)動(dòng)矢量。計(jì)算方向直方圖時(shí),運(yùn)動(dòng)方向被平均劃分成l份,每份的范圍為360°/l。histl是第l個(gè)方向的梯度直方圖,ol(x,y)表示第l個(gè)方向的光流運(yùn)動(dòng)矢量,(x,y)表示像素點(diǎn)的坐標(biāo)。l是運(yùn)動(dòng)方向總數(shù),這里設(shè)置l為8。

接下來,利用嘴部區(qū)域的特征點(diǎn)定義嘴部幾何特征——伸長度。定義嘴唇外邊緣的高和寬分別為a和b,嘴唇內(nèi)邊緣的高和寬分別為c和d,如圖4所示,則嘴部的伸長度可由如下算得:

其中v即嘴部伸長度,它能較好地表示嘴部張合的幾何信息。

同時(shí),嘴部區(qū)域紋理的變化也作為說話檢測的特征。有研究表明,說話會(huì)影響嘴部區(qū)域的灰度值分布。因此,先將嘴部區(qū)域通過閾值將其二值化,然后計(jì)算平均二值灰度:

其中,b(·)代表嘴部區(qū)域每個(gè)像素點(diǎn)的二值灰度。

最后,將上述特征輸入到分類器svm進(jìn)行訓(xùn)練,對(duì)說話檢測這樣一個(gè)二分類問題(說話或不說話)進(jìn)行分類。其中,svm使用的是徑向基(radialbiasfunction,rbf)作為內(nèi)核。輸入特征向量為嘴部運(yùn)動(dòng)強(qiáng)度嘴部運(yùn)動(dòng)方向直方圖[hist1,…,histl],嘴部伸長度v,以及分別在三個(gè)相鄰幀的平均二值灰度b。于是,說話與否的狀態(tài)就可作為一種高維特征被檢測。

關(guān)于轉(zhuǎn)頭和正\側(cè)臉特征可以通過人臉檢測及特征點(diǎn)定位得到。在所使用的人臉特征點(diǎn)定位技術(shù)中,檢測出68個(gè)特征點(diǎn)表示正臉,39個(gè)特征點(diǎn)表示側(cè)臉。同樣地,轉(zhuǎn)頭特征可以通過正\側(cè)臉的變化得到。本發(fā)明發(fā)現(xiàn),轉(zhuǎn)頭的動(dòng)作一般影響關(guān)注度會(huì)持續(xù)1秒,因此在檢測到頭部姿勢有變化后1秒內(nèi)的幀都會(huì)被標(biāo)定為轉(zhuǎn)頭。其中,轉(zhuǎn)頭也分為兩種情況:正臉轉(zhuǎn)側(cè)臉,及側(cè)臉轉(zhuǎn)正臉。

步驟二、根據(jù)所建立的數(shù)據(jù)庫以及對(duì)數(shù)據(jù)的分析,建立并訓(xùn)練m-hmm。

步驟201、對(duì)數(shù)據(jù)庫中眼球追蹤數(shù)據(jù)以及步驟102提取的特征進(jìn)行預(yù)處理,為訓(xùn)練m-hmm做準(zhǔn)備。

步驟(1)、統(tǒng)計(jì)數(shù)據(jù)庫視頻中每一幀每一個(gè)人臉區(qū)域落入的關(guān)注點(diǎn)個(gè)數(shù)。計(jì)算每一個(gè)人臉在當(dāng)前幀落入的關(guān)注點(diǎn)個(gè)數(shù)占當(dāng)前幀所有人臉落入的關(guān)注點(diǎn)個(gè)數(shù)總和的百分比。

步驟(2)、設(shè)定每個(gè)人臉在每一幀落入的關(guān)注點(diǎn)百分比“增加”、“減少”及“不變”作為m-hmm的三個(gè)狀態(tài),并將步驟102提取的臉部特征分別作為m-hmm的觀測狀態(tài)。

設(shè)該m-hmm的某個(gè)隱馬爾科夫模型hmm在第t幀的高維觀測特征(如說話、轉(zhuǎn)頭、正\側(cè)臉)為ft,隱藏狀態(tài)為st,代表某一人臉的顯著性變化。即st∈{+δ1,0,-δ2},其中δ1(>0)和δ2(>0)分別代表顯著性“增加”和“減少”的值,st=0表示該人臉的顯著性保持不變。在該hmm中,當(dāng)前時(shí)刻的狀態(tài)st依賴于前一時(shí)刻的狀態(tài)st-1以及觀測特征ft。因此一個(gè)視頻的某幀顯著性圖主要決定于觀測的高維特征以及前一幀的人臉顯著性。

步驟202、用步驟201預(yù)處理后的數(shù)據(jù),訓(xùn)練并學(xué)習(xí)m-hmm。

步驟(1)、定義隱馬爾科夫模型(hiddenmarkovmodel,hmm),即一個(gè)含有隱含未知參數(shù)的馬爾科夫過程,以及m-hmm。

hmm是一種基于觀測特征預(yù)測隱藏狀態(tài)轉(zhuǎn)移的統(tǒng)計(jì)馬爾科夫過程,它被廣泛應(yīng)用于機(jī)器學(xué)習(xí)和信號(hào)處理領(lǐng)域,如圖5所示,s1,s2,…,st表示不同時(shí)間的隱藏狀態(tài),f1,f2,…,ft為對(duì)應(yīng)時(shí)間的觀測特征。在本發(fā)明中,hmm被擴(kuò)展成m-hmm,即將多個(gè)hmm組合起來,如圖6。

具體來說,對(duì)于m-hmm,同一時(shí)刻總共有n個(gè)隱藏狀態(tài),而本發(fā)明中每個(gè)隱藏狀態(tài)(在這n個(gè)隱藏狀態(tài)中)代表該第t幀每個(gè)人臉的顯著性變化(“增加”、“減少”或“不變”),此處定義為是第t幀第n個(gè)隱藏狀態(tài),這里與m-hmm中第n個(gè)hmm中st相同,它由高維觀測特征和前一幀決定。接下來,引入一種全連接網(wǎng)絡(luò)于m-hmm中,如圖6。其中,定義為人臉權(quán)重,表示第t幀每個(gè)人臉區(qū)域落入的關(guān)注點(diǎn)占落入所有人臉關(guān)注點(diǎn)的百分比,而為隱藏單元。n為人臉編號(hào)個(gè)數(shù),每個(gè)人臉的顯著性變化對(duì)應(yīng)一個(gè)hmm。是需要預(yù)測的數(shù)據(jù),在訓(xùn)練階段給出準(zhǔn)確的值進(jìn)行訓(xùn)練。

因?yàn)?imgfile="bda0001240034390000069.gif"wi="304"he="77"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>所以將通過softmax激活函數(shù)得到最終的具體計(jì)算過程如下:

其中,被定義為

步驟(2)、通過最大似然估計(jì)算法,學(xué)習(xí)得到m-hmm的隱藏狀態(tài)轉(zhuǎn)移矩陣和觀測狀態(tài)轉(zhuǎn)移矩陣,每個(gè)hmm共享該參數(shù)集。

步驟203、利用學(xué)習(xí)得到的m-hmm預(yù)測每個(gè)人臉受關(guān)注度的變化,并經(jīng)過后處理得到最終的顯著性圖。

步驟(1)、利用m-hmm,通過維特比算法,得到所有高維特征通道人臉關(guān)注度權(quán)重的預(yù)測結(jié)果。

利用m-hmm,通過維特比算法,得到所有高維特征通道人臉關(guān)注度權(quán)重的預(yù)測結(jié)果定義這些高維特征表示為k為高維特征個(gè)數(shù),表示第t幀第n個(gè)人臉的第k個(gè)高維特征。

本發(fā)明實(shí)施例中,定義的高維特征包括:表示該人臉說話(=1)或不說話(=0),代表該人臉是否正在從正臉轉(zhuǎn)向側(cè)臉,表示該人臉是否正在從側(cè)臉轉(zhuǎn)向正臉,表示該人臉目前屬于正臉(=1)還是側(cè)臉(=0)。

步驟(2)、將所有高維特征通道的預(yù)測結(jié)果分別轉(zhuǎn)換成高維特征顯著性圖譜。

設(shè)某一特征通道的預(yù)測結(jié)果在第t幀的顯著性圖譜為通過下式(8)計(jì)算得到。

其中,表示第t幀第n個(gè)人臉通過觀測特征生成的顯著性圖,代表第n個(gè)人臉的中心偏至權(quán)重,即距離視頻中心越遠(yuǎn),人臉的顯著性相對(duì)越低。這里用高斯模型來擬合:

式中,σ是高斯模型的標(biāo)準(zhǔn)差,反映了中心偏至的程度;表示第t幀第n個(gè)人臉中心距離視頻中心的歐幾里得距離。

步驟(3)、通過顯著性預(yù)測模型,得到顏色、對(duì)比度、方向的低維特征顯著性圖譜。

通過顯著性預(yù)測模型(gbvs),得到顏色、對(duì)比度、方向結(jié)合的低維特征顯著性圖譜,并分別定義為

步驟(4)、將上述所有特征通道的顯著性圖譜通過加權(quán)求和得到最終的顯著性預(yù)測圖。

因此,所有高維特征通過m-hmm以及公式(8)得到高維人臉顯著性圖于是,先將該高維人臉顯著性圖通過加權(quán)求和結(jié)合:

其中,ωk表示第k個(gè)高維特征通道的權(quán)重。為了獲得每個(gè)高維特征通道的權(quán)重,本發(fā)明通過凸線性規(guī)劃(disciplinedconvexprogramming,cvx)解決如下優(yōu)化方程:

其中,分別代表在總共l個(gè)訓(xùn)練視頻幀的高維特征多通道顯著性圖和真實(shí)人類關(guān)注點(diǎn)圖。

接下來,將最終得到的高維特征顯著性圖與低維特征顯著性圖通過加權(quán)求和的方式結(jié)合起來。其中,權(quán)重通過在訓(xùn)練數(shù)據(jù)集的最小二乘擬合得到。最終,多人臉視頻每一幀的顯著性圖st便可得到。

步驟204、為本發(fā)明所提出的顯著性檢測結(jié)果進(jìn)行展示與檢驗(yàn)。

本發(fā)明隨機(jī)選取數(shù)據(jù)庫中的視頻進(jìn)行顯著性檢測,并將本發(fā)明與現(xiàn)有算法的檢測結(jié)果分別展示,如圖7和圖8。圖7表示同一視頻不同幀的顯著性檢測結(jié)果,結(jié)果顯示本發(fā)明在同一視頻的顯著性人臉追蹤上性能最優(yōu);圖8表示不同視頻的隨機(jī)某一幀顯著性檢測結(jié)果,結(jié)果顯示本發(fā)明能在多種視頻中表現(xiàn)最好性能。

步驟三、基于本發(fā)明提出的顯著性檢測方法設(shè)計(jì)一種視頻編碼方法。

具體方法如下,如圖9所示。

步驟301、利用本發(fā)明所得到的顯著性圖進(jìn)一步指導(dǎo)視頻編碼過程中的碼率分配,來提升視頻的主觀質(zhì)量。

一種基于多人臉顯著性檢測的視頻編碼方法,即對(duì)檢測出的顯著人臉分配更多的比特?cái)?shù)資源,這樣可以在碼率有限的情況下,提升視頻的主觀質(zhì)量。主觀質(zhì)量即人類對(duì)視頻質(zhì)量的直觀感受和評(píng)估。

一種基于多人臉顯著性檢測的視頻編碼方法,被嵌入在高效率視頻編碼標(biāo)準(zhǔn)(highefficiencyvideocoding,hevc)的r-λ碼率控制模型上,被稱為感知碼率控制方案。具體而言,傳統(tǒng)的hevc碼率控制算法通過給定目標(biāo)碼率對(duì)率失真優(yōu)化問題進(jìn)行求解得到每一個(gè)編碼單元(codingtreeunit,ctu)的每像素比特(bitperpixel,bpp)。本發(fā)明定義每權(quán)重比特(bitperweight,bpw)代替bpp,通過權(quán)重的思想反映不同區(qū)域的顯著性強(qiáng)弱。設(shè)bpwt,i表示第t幀第i個(gè)像素的bpw,則得第j個(gè)ctu在第t幀的目標(biāo)碼率rt,j為:

其中it,j表示第t幀第j個(gè)ctu內(nèi)的像素集合。在對(duì)多人臉視頻的某一幀進(jìn)行編碼之前,公式(12)中的bpwt,i可以通過本發(fā)明提出的顯著性檢測方法預(yù)測的顯著性圖譜st得到。令st(i)為第t幀第i個(gè)像素的預(yù)測顯著性值,則

其中rt和it分別為目標(biāo)碼率和第t幀的像素個(gè)數(shù)。

接下來,每個(gè)ctu的平均bpw可被估計(jì)得

其中#(it,j)表示第j個(gè)ctu內(nèi)的像素個(gè)數(shù)。于是,本發(fā)明用代替?zhèn)鹘y(tǒng)碼率控制算法中的平均bpp,去計(jì)算編碼需要的量化參數(shù)(quantizationparameter,qp),對(duì)于第j個(gè)ctu在第t幀的量化參數(shù)具體計(jì)算如下:

其中,對(duì)于每個(gè)ctu,λt,j是優(yōu)化中的拉格朗日乘子,而qpt,j作為量化參數(shù)qp是碼率控制模塊的輸出。另外,αt,j和βt,j為r-λ模型的參數(shù);c1和c2即qp估計(jì)的擬合參數(shù)。最后,視頻的每一幀通過hevc進(jìn)行編碼,圖9總結(jié)了本發(fā)明的感知碼率控制流程。

步驟302、對(duì)本發(fā)明所提出的視頻壓縮編碼方法的結(jié)果進(jìn)行簡單展示與檢驗(yàn)。

本發(fā)明對(duì)所提出的視頻壓縮編碼方法進(jìn)行簡單展示與檢驗(yàn)。本發(fā)明隨機(jī)選取其中一個(gè)壓縮后測試視頻的某一幀進(jìn)行展示,如圖10所示,同樣可得本發(fā)明在某些顯著性區(qū)域?qū)τ趥鹘y(tǒng)算法能更好地提升質(zhì)量。

本發(fā)明通過對(duì)多人臉視頻顯著性的檢測,對(duì)視頻壓縮的碼率分配過程進(jìn)行控制,適用于對(duì)視頻主觀質(zhì)量有要求但設(shè)備無法傳輸或存儲(chǔ)較大比特率視頻的情況下。盡管本發(fā)明已參照具體實(shí)施方式進(jìn)行描述和舉例說明,但是并不意味著本發(fā)明限于該描述的實(shí)施方式。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
延寿县| 太和县| 大连市| 明光市| 桐庐县| 保康县| 张家港市| 栖霞市| 葵青区| 青铜峡市| 丹东市| 沿河| 大城县| 淮滨县| 海丰县| 瓦房店市| 渑池县| 宁陕县| 偏关县| 崇信县| 古丈县| 娱乐| 防城港市| 土默特右旗| 公主岭市| 静宁县| 依兰县| 喀喇沁旗| 信宜市| 思茅市| 中山市| 鄱阳县| 陆丰市| 二连浩特市| 尉氏县| 依安县| 宁都县| 清徐县| 镇江市| 巴中市| 吉林省|