專利名稱:基于分水嶺算法的視頻對(duì)象提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種視頻對(duì)象提取和視頻信號(hào)處理方法,具體講是一種基于分水嶺算法的視頻對(duì)象提取方法。屬于計(jì)算機(jī)視覺研究領(lǐng)域。
背景技術(shù):
視頻對(duì)象提取技術(shù)是計(jì)算機(jī)視覺和模式識(shí)別的重要研究對(duì)象之一,不僅具有很高的理論價(jià)值,而且在許多實(shí)際問題中,如基于內(nèi)容的視頻監(jiān)控、運(yùn)動(dòng)檢測(cè)等方面都得到了廣泛的應(yīng)用。同時(shí),視頻對(duì)象提取也是一項(xiàng)比較復(fù)雜的技術(shù),牽涉到幾何學(xué)、數(shù)學(xué)形態(tài)學(xué)、計(jì)算技術(shù)等許多領(lǐng)域,研究至今已經(jīng)提出了很多算法,這些算法一般從視頻對(duì)象的某些關(guān)鍵屬性出發(fā),建立相應(yīng)的數(shù)學(xué)模型,使模型以視頻對(duì)象的這些屬性為唯一解或者局部最優(yōu)解。然后就利用數(shù)值計(jì)算或計(jì)算機(jī)模擬的方法對(duì)模型進(jìn)行求解,從而完成對(duì)視頻對(duì)象的提取。
分水嶺(watershed segmentation)算法是一種基于塊的靜態(tài)圖象分割算法,也是一種常用的視頻對(duì)象提取算法。在水線分割算法中,通過得到聚水盆就可以劃分出相應(yīng)的不同的圖象區(qū)域,這種思想時(shí)比較直觀的。經(jīng)文獻(xiàn)檢索發(fā)現(xiàn),圖象的水線分割有兩類方法,第一類方法(S H Collins.Terrain parameters directly from a digitalterrain model.Canadian Surveyor,加拿大測(cè)量29(5)507-518,1975)是從每個(gè)象素出發(fā)獲得到達(dá)拓?fù)淝婢植孔畹蛥^(qū)域的下降路線,一個(gè)聚水盆就是由所有匯到同一個(gè)局部最低區(qū)域的下降路線組成,這種方法計(jì)算量非常大,而且精度不高。第二類方法(L Vincent and P Soille.Watershed in digital spacesAn efficient algorithm basedon immersion simulations.IEEE Transactions on Pattern Analysis and MachineIntelligence,IEEE模式識(shí)別與機(jī)器視覺雜志13(6)583-598,1991)與第一類方法正好相反,是從聚水盆的盆底出發(fā),采用模擬注水的方法(盆底看作是連通的)當(dāng)相鄰的聚水盆中的水溢出時(shí)相遇點(diǎn)連成線就形成了分水嶺,該算法效率高,精度好,是比較普遍使用的一種分水嶺算法。但是傳統(tǒng)的分水嶺算法最大的缺點(diǎn)就是過分割現(xiàn)象,即有時(shí)會(huì)出現(xiàn)大量的分割圖象塊,這主要是噪聲和圖象內(nèi)容本身比較復(fù)雜造成的,也是分水嶺算法本身無法克服的。
發(fā)明內(nèi)容
本發(fā)明目的在于克服現(xiàn)有視頻內(nèi)容監(jiān)控技術(shù)的缺陷,提供一種高效,準(zhǔn)確的基于分水嶺算法的視頻對(duì)象提取方法。使其解決視頻對(duì)象提取計(jì)算量大,準(zhǔn)確性不高的問題,從而使視頻監(jiān)控的效率和實(shí)用性大大提高,為進(jìn)一步進(jìn)行的視頻對(duì)象跟蹤,監(jiān)控視頻對(duì)象狀態(tài)提供可靠的依據(jù)。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的,本發(fā)明首先獲得視頻輸入的初始幀,然后根據(jù)用戶事先生成的監(jiān)控區(qū)域配置文件確定需要提取的視頻對(duì)象所在的局部矩形區(qū)域,接著在已經(jīng)確定的各矩形區(qū)域中分別進(jìn)行預(yù)處理(濾波去噪)、分水嶺分割以及顏色分析和區(qū)域聚類處理,最后存儲(chǔ)提取的視頻對(duì)象。
以下對(duì)本發(fā)明作進(jìn)一步的說明,方法包括如下步驟(1)視頻幀讀取以RGB的格式讀入圖象數(shù)據(jù),然后分別轉(zhuǎn)換為YUV12和HSI格式的數(shù)據(jù)保存;(2)預(yù)處理采用Roberts算子計(jì)算原圖象的梯度圖象,然后用中值濾波的方法對(duì)梯度圖象去噪聲,減少由于噪聲引起的過分割;中值濾波器窗口大小的選擇應(yīng)兼顧濾波效果和運(yùn)算速度。
(3)圖象分割采用分水嶺算法對(duì)圖象進(jìn)行塊分割。具體說以圖象的灰度作為第三維建立三維拓?fù)鋱D,用Vincent和Soille提出的模擬注水的方法提取拓?fù)鋱D表面的分水嶺,自然形成不同的區(qū)域,完成圖象的塊分割;(4)顏色分析和區(qū)域聚合對(duì)每一對(duì)相鄰塊,首先計(jì)算它們的顏色相似度。一般來說,彩色數(shù)字圖象的顏色空間取RGB空間,但是就子色彩空間的區(qū)分度來說,其它顏色空間,如HSV,HSI和CIE更加便于分析和計(jì)算。在本發(fā)明中選取HSI作為顏色空間,H表示色調(diào),S表示飽和度,I表示亮度。圖象中的每一個(gè)塊的灰度均值可以計(jì)算出來,塊合并的閾值由人的視覺特征一JND(Just Noticeable Difference)來確定設(shè)在某一個(gè)子色彩空間中相鄰兩個(gè)塊各自的灰度均值分別為I1和I2,如果|I1-I2|<min(JDN(I1),JND(I2))。則將這兩個(gè)塊合并成一個(gè)塊。
(5)弱邊界的處理經(jīng)過顏色聚類處理后,再消除弱邊界,即對(duì)每一條相鄰塊之間的邊界,檢驗(yàn)邊界上的梯度大于某一設(shè)定閾值的象素的比例,若該比例超過50%則認(rèn)為是強(qiáng)邊界予以保留,反之則認(rèn)為是弱邊界,相應(yīng)的鄰塊進(jìn)行合并;(6)視頻對(duì)象保存以象素鏈表的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)視頻對(duì)象的存儲(chǔ)。
由于視頻監(jiān)控的實(shí)時(shí)性要求,本發(fā)明采用了局部對(duì)象提取技術(shù),即由用戶首先采用配置文件的方式向程序提供需要監(jiān)控的物體所在的矩形區(qū)域,程序就在該局部范圍內(nèi)進(jìn)行對(duì)象提取。與從整幀范圍進(jìn)行全局對(duì)象提取相比,這種局部對(duì)象提取方法不僅準(zhǔn)確性高而且計(jì)算量顯著下降,分割、聚類的速度完全可以達(dá)到實(shí)時(shí)監(jiān)控的要求。
本發(fā)明的針對(duì)傳統(tǒng)的分水嶺算法易產(chǎn)生過分割的缺陷,采用基于顏色信息的象素塊聚合的方法,結(jié)合弱邊界檢測(cè)和消除技術(shù),很好的解決了過分割的問題,進(jìn)一步提高了視頻對(duì)象提取的準(zhǔn)確性。提取出來的視頻對(duì)象以像素鏈表的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),非常便于數(shù)據(jù)的分析和使用。在象素塊聚類的過程中需要用到的閾值將根據(jù)人類視覺特性來確定,可以在程序執(zhí)行過程中由計(jì)算機(jī)計(jì)算得到,不需要用戶事先取定,因此使本技術(shù)的智能化水平進(jìn)一步提高。
本發(fā)明具有實(shí)質(zhì)性特點(diǎn)和顯著進(jìn)步,本發(fā)明采用基于顏色信息的塊聚類算法,能夠較好的減輕過分割現(xiàn)象,比較準(zhǔn)確地提取出視頻對(duì)象,該方法在基于內(nèi)容的視頻監(jiān)控領(lǐng)域尚數(shù)首創(chuàng),可以解決視頻對(duì)象提取計(jì)算量大,準(zhǔn)確性不高的問題,從而使視頻監(jiān)控的效率和實(shí)用性大大提高。本發(fā)明被用于對(duì)場(chǎng)景中的指定監(jiān)控物體進(jìn)行提取,實(shí)驗(yàn)表明,算法的實(shí)時(shí)性強(qiáng),經(jīng)過聚類處理后得到的象素塊與被監(jiān)控物體基本一致,為進(jìn)一步進(jìn)行視頻對(duì)象的跟蹤奠定了很好的基礎(chǔ)。
具體實(shí)施例方式
下面結(jié)合本發(fā)明在“設(shè)備實(shí)時(shí)視頻監(jiān)控”實(shí)驗(yàn)中的應(yīng)用,具體闡述其實(shí)施方式。在該實(shí)施例中,用戶首先采用配置文件的方式向程序提供以上三個(gè)監(jiān)控的物體所在的矩形區(qū)域,程序就在該局部范圍內(nèi)進(jìn)行對(duì)象提取,具體步驟如下(1)視頻幀讀取。輸入的視頻幀的格式是320*240的RGB圖象,根據(jù)相應(yīng)變換矩陣的分別將RGB格式轉(zhuǎn)換為YUV12和HSI格式的數(shù)據(jù)保存;(2)預(yù)處理。對(duì)視頻幀的亮度灰度圖,采用Roberts算子計(jì)算梯度圖象,然后用中值濾波的方法對(duì)得到的梯度圖象去噪聲,中值濾波器采用5*5正方型濾波窗口,能夠有效滿足濾波效果和實(shí)時(shí)性要求。
(3)圖象分割。對(duì)濾波后的梯度圖象用模擬注水的方法進(jìn)行塊分割,分割結(jié)果表明的確存在過分割現(xiàn)象,三個(gè)監(jiān)控對(duì)象本身都被分成了許多小塊,為了使被監(jiān)控對(duì)象盡量以一個(gè)塊或少數(shù)幾個(gè)相鄰塊的形式出現(xiàn),必須進(jìn)行聚合處理;(4)顏色分析和區(qū)域聚合。利用步驟1中得到的HSI格式的圖象數(shù)據(jù)進(jìn)行顏色分析和塊聚類;
(5)弱邊界的處理。在步驟(4)的同時(shí)結(jié)合弱邊界消除技術(shù)進(jìn)一步減少圖象塊的個(gè)數(shù),使分割結(jié)果更加精確;(6)視頻對(duì)象保存,以象素鏈表的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)三個(gè)視頻監(jiān)控對(duì)象的存儲(chǔ)。
實(shí)際監(jiān)控效果表明,采用以上方法能夠精確地提取出指定對(duì)象的輪廓,而且效率很高,可以滿足實(shí)時(shí)監(jiān)控的要求。提取出的對(duì)象用于跟蹤,當(dāng)對(duì)象狀態(tài)發(fā)生一定變化后程序會(huì)及時(shí)報(bào)警,當(dāng)對(duì)象狀態(tài)恢復(fù)后程序也會(huì)發(fā)出相應(yīng)的提示信息,這反映出對(duì)象提取的效果是顯著的。
權(quán)利要求
1.一種基于分水嶺算法的視頻對(duì)象提取方法,其特征在于,首先獲得視頻輸入的初始幀,然后根據(jù)用戶事先生成的監(jiān)控區(qū)域配置文件確定需要提取的視頻對(duì)象所在的局部矩形區(qū)域,接著在已經(jīng)確定的各矩形區(qū)域中分別進(jìn)行預(yù)處理、分水嶺分割以及顏色分析和區(qū)域聚類處理,最后存儲(chǔ)提取的視頻對(duì)象。
2.根據(jù)權(quán)利要求1所述的基于分水嶺算法的視頻對(duì)象提取方法,其特征是,對(duì)本發(fā)明的方法限定如下(1)視頻幀讀取,(2)預(yù)處理,(3)圖象分割,(4)顏色分析和區(qū)域聚合,(5)弱邊界的處理,(6)視頻對(duì)象保存。
3.根據(jù)權(quán)利要求2所述的基于分水嶺算法的視頻對(duì)象提取方法,其特征是,對(duì)本發(fā)明的方法進(jìn)一步限定如下(1)視頻幀讀取以RGB的格式讀入圖象數(shù)據(jù),然后分別轉(zhuǎn)換為YUV12和HSI格式的數(shù)據(jù)保存;(2)預(yù)處理采用Roberts算子計(jì)算原圖象的梯度圖象,然后用中值濾波的方法對(duì)梯度圖象去噪聲,減少由于噪聲引起的過分割,中值濾波器窗口大小的選擇兼顧濾波效果和運(yùn)算速度;(3)圖象分割采用分水嶺算法對(duì)圖象進(jìn)行塊分割,即以圖象的灰度作為第三維建立三維拓?fù)鋱D,用Vincent和Soille提出的模擬注水的方法提取拓?fù)鋱D表面的分水嶺,自然形成各區(qū)域,完成圖象的塊分割;(4)顏色分析和區(qū)域聚合設(shè)一幅灰度圖象經(jīng)過分水嶺算法處理后被分為k個(gè)區(qū)域,得到塊鄰接關(guān)系圖;(5)弱邊界的處理經(jīng)過顏色聚類處理后,再消除弱邊界,即對(duì)每一條相鄰塊之間的邊界,檢驗(yàn)邊界上的梯度大于某一設(shè)定閾值的象素的比例,若該比例超過50%則認(rèn)為是強(qiáng)邊界予以保留,反之則認(rèn)為是弱邊界,相應(yīng)的鄰塊進(jìn)行合并;(6)視頻對(duì)象保存以象素鏈表的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)視頻對(duì)象的存儲(chǔ)。
4.根據(jù)權(quán)利要求3所述的基于分水嶺算法的視頻對(duì)象提取方法,其特征是,步驟(4)具體實(shí)現(xiàn)如下首先計(jì)算相鄰塊的顏色相似度,選取HSI作為顏色空間,H表示色調(diào),S表示飽和度,I表示亮度,圖象中的每一個(gè)塊的灰度均值計(jì)算出來,塊合并的閾值由人的視覺特征一JND來確定設(shè)在某一個(gè)子色彩空間中相鄰兩個(gè)塊各自的灰度均值分別為I1和I2,如果|I1-I2|<min(JDN(I1),JND(I2)),則將這兩個(gè)塊合并成一個(gè)塊。
全文摘要
一種基于分水嶺算法的視頻對(duì)象提取方法,屬于計(jì)算機(jī)視覺研究領(lǐng)域。本發(fā)明首先獲得視頻輸入的初始幀,然后根據(jù)用戶事先生成的監(jiān)控區(qū)域配置文件確定需要提取的視頻對(duì)象所在的局部矩形區(qū)域,接著在已經(jīng)確定的各矩形區(qū)域中分別進(jìn)行預(yù)處理、分水嶺分割以及顏色分析和區(qū)域聚類處理,最后存儲(chǔ)提取的視頻對(duì)象。本發(fā)明方法在基于內(nèi)容的視頻監(jiān)控領(lǐng)域尚數(shù)首創(chuàng),可以解決視頻對(duì)象提取計(jì)算量大,準(zhǔn)確性不高的問題,從而使視頻監(jiān)控的效率和實(shí)用性大大提高。本發(fā)明被用于對(duì)場(chǎng)景中的指定監(jiān)控物體進(jìn)行提取,實(shí)驗(yàn)表明,算法的實(shí)時(shí)性強(qiáng),經(jīng)過聚類處理后得到的象素塊與被監(jiān)控物體基本一致,為進(jìn)一步進(jìn)行視頻對(duì)象的跟蹤奠定了很好的基礎(chǔ)。
文檔編號(hào)G06K9/34GK1529284SQ0315140
公開日2004年9月15日 申請(qǐng)日期2003年9月29日 優(yōu)先權(quán)日2003年9月29日
發(fā)明者楊樹堂, 李建華, 須澤中, 郭禮華, 袁曉彤 申請(qǐng)人:上海交通大學(xué)