專利名稱:基于區(qū)域的規(guī)??勺兊膱D像編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及圖像編碼,更具體地涉及規(guī)??勺兊暮突趦?nèi)容的可以隨機地訪問的數(shù)字靜態(tài)圖像的壓縮和解壓。
因特網(wǎng)和數(shù)字媒體應(yīng)用的快速發(fā)展提出持續(xù)的和不斷增長的要求,需要一種新的圖像編碼工具,用于將通常大的和瑣碎的原始圖像數(shù)據(jù)文件減縮為壓縮形式。然而,在設(shè)計新的編碼工具時,開發(fā)者提出的要求已不再只是所得位流的緊湊性。終端用戶以及它們的應(yīng)用不斷地要求一些特征,例如規(guī)??勺冃?、針對誤差的穩(wěn)固性以及基于內(nèi)容的可訪問性。
照片或動畫影片是人類眼睛所看到的三維對象的二維表示。這些用于記錄二維圖像的方法是“連續(xù)的”或“模擬的”重現(xiàn)。數(shù)字圖像是這些模擬圖像的不連續(xù)逼近,其中這些模擬圖像由一串鄰近的具有變化的顏色或強度的點或畫面元素(像素)組成。在計算機或電視顯示器上,數(shù)字圖像由投影至玻璃屏幕上的像素表示,以供操作人員觀看。專用于描繪具體圖像的像素數(shù)量稱為它的分辨率,也即,所用像素愈多則其分辨率愈高。
中等分辨率的單色圖像-黑白圖像稱為“灰度”-中每條水平線包含640個像素。一個典型圖像包括480條水平行或線,而這些線中的每條線包含640個像素。因此,在單個640×480像素的圖像中總共顯示了307,200個像素。如果單色圖像的每個像素需要一個字節(jié)的數(shù)據(jù)來描述它(即或黑或白),則只是一個黑白圖像就總共需要307,200個字節(jié)來描述它?,F(xiàn)代灰度圖像使用不同級別的強度來描繪黑度,因此使用八位或256個級別的灰度。所得圖像文件因此更大。
對于彩色圖像,圖像中每個像素的顏色通常由三個變量決定紅(R)、綠(G)和藍(B)。按照不同比例將這些顏色混合起來,計算機就可以顯示色譜的不同顏色??捎糜诒硎救N顏色中的每一種的品種愈多,則可以顯示的顏色愈多。例如為表示256種紅色濃淡,需要一個八位數(shù)。這個顏色的值的范圍因而是0-255。因此用于表示一個像素所需的總位數(shù)是24位-紅、綠和藍各八位,通常稱為RGB888格式。因此,一個給定的RGB畫面具有三個平面,紅、綠和藍,以及畫面中每個像素的顏色范圍是0-16.78百萬,或R×G×B=256×256×256。因此一個640×480像素的標準彩色圖像需要在計算機系統(tǒng)中存儲或表示大約7.4兆位的數(shù)據(jù)。將水平和垂直分辨率乘以表示全彩色范圍所需位數(shù)即640×480×24=7,372,800位,即得此數(shù)。
標準的、通??捎玫挠布m然是不斷增長地快速和可供使用,但仍然發(fā)現(xiàn)在處理這類規(guī)模的文件時慢而不實用。在交互式應(yīng)用和因特網(wǎng)使用的情況下,這點更為突出。交互式應(yīng)用要求對多媒體數(shù)據(jù)進行非??斓亩喾较蛱幚?。由于它們持續(xù)地保持大的規(guī)模,圖像文件已經(jīng)成為開發(fā)真實的、交互式計算機應(yīng)用程序的限制速率的因素。在因特網(wǎng)的情況下,終端用戶和應(yīng)用程序更為調(diào)制解調(diào)器和其他傳輸媒體的緩慢步伐所限制。例如,由于普通電話公司使用的實際線路和交換功能,使得一秒期間當今能夠在電話線上傳輸?shù)男畔⒘肯拗茷槊棵?3,600位。因此,在此波特率下,具有7,372,800位的數(shù)據(jù)的單個全彩色RGB888640×480像素頁面在傳輸時將占用大約三分半鐘。
有許多用于壓縮圖像數(shù)據(jù)的方法,并且是熟悉技術(shù)的人所熟知的。這些方法中的某些方法是“無損失”壓縮;即,在解碼和解壓時它們恢復(fù)原始數(shù)據(jù)而不損失或省略數(shù)據(jù)。因為它們的相對減縮比是小的,然而這些無損失技術(shù)不能滿足對于圖像壓縮技術(shù)的所有現(xiàn)有要求。其他壓縮方法是不可逆的并且稱為“有損失”。這些不可逆方法能夠提供大量壓縮,但其結(jié)果是損失數(shù)據(jù)。在圖像文件中,通過將人類眼睛對其具有有限的敏感度或者沒有敏感度的圖像的某些方面省略而實際上得到高壓縮比。在編碼后,對該減縮的數(shù)據(jù)集應(yīng)用逆過程以便將它解壓和恢復(fù)原始圖像的合理的摹真本。有損失壓縮技術(shù)也可與無損失方法一起使用于數(shù)據(jù)壓縮和圖像保真度的可變混合。
壓縮的位流的緊湊性通常由與相應(yīng)的未壓縮圖像數(shù)據(jù)的規(guī)模相比較的流的規(guī)模來量度。緊湊性的定量量度為壓縮比或者選代地為位率,其中壓縮比=(原始圖像數(shù)據(jù)的總字節(jié)數(shù))/(壓縮圖像所需總字節(jié)數(shù))及位率=(解壓所需總字節(jié)數(shù))/(原始圖像的像素數(shù))一般而言,壓縮比愈高(或位率愈低),則壓縮位流的緊湊性愈高。對于所有數(shù)據(jù)壓縮技術(shù)而言,緊湊性始終是主要關(guān)心的內(nèi)容。
壓縮圖像文件的最通用格式中的一個是GIF格式。GIF代表“圖形圖像格式”,它由Compuserve公司開發(fā)來提供一種裝置,用于從一個撥號顧客傳送圖像至另一個顧客,甚至能越過不同計算機硬件平臺。它是相對的舊格式,曾經(jīng)設(shè)計于處理256種顏色的調(diào)色板-與24位顏色不同的8位。開發(fā)出來后,對于大多數(shù)個人計算機而言,它是近于現(xiàn)代的技術(shù)。
“GIF”格式使用8位顏色查詢表(有時稱為CLUT)來識別顏色值。如果原始圖像是8位灰度照片,則“GIF”格式產(chǎn)生一個壓縮的無損失圖像文件。灰度圖像通常只有256級灰度。使用壓縮信息的“運行長度編碼”(RLE)機制來進行壓縮,同時存儲GIF文件。如果原始文件是24位彩色圖形圖像,則首先將它映射為一個8位CLUT,然后使用RLE進行壓縮。在將原始24位(16.7百萬)顏色重新映射為有限的8位(256種顏色)CLUT時會有損失。RLE編碼將重現(xiàn)一個未壓縮圖像,它與重現(xiàn)映射的8位圖像完全相同,但與原始24位圖像不同。當在一行像素間有許多著色變化時,RLE不是壓縮圖像的有效方法。當多行像素具有相同顏色或者當只使用很有限數(shù)量的顏色時,它非常有效。
靜態(tài)圖像格式的其他實際標準是JPEG格式。JPEG代表聯(lián)合照片專家組。JPEG使用有損失壓縮方法來建立最終文件。JPEG文件可以比它們的GIF關(guān)系更進一步壓縮,以及它們能夠比GIF格式中使用的8位表保持更深的顏色。大部分JPEG壓縮軟件向用戶提供在圖像質(zhì)量與壓縮量之間的選擇。在10∶1壓縮比的情況下,大部分圖像看起來很像原始圖像,并且保持很好的全彩色再現(xiàn)。如果壓至100∶1,則圖像將會包含塊狀圖像的人為現(xiàn)象,這實際上將降低質(zhì)量。不像GIF,JPEG在壓縮圖像時不單獨使用RLE,它使用漸進式工具組來得到最終文件。
JPEG首先根據(jù)圖像的亮度和色度將圖像自其原始顏色空間改換為歸一化顏色空間(一個有損失過程)。亮度對應(yīng)于光亮信息而色度則對應(yīng)于色調(diào)信息。測試結(jié)果表明人類眼睛對亮度變化比對顏色或色調(diào)變化更為敏感。使用離散余弦變換(DCT)將數(shù)據(jù)記錄于8×8像素塊上,這也產(chǎn)生某些圖像損失。它有效地在這些離散區(qū)域內(nèi)將圖像重新采樣,然后使用更有效的標準的RLE編碼(也可用其他編碼方案)來產(chǎn)生最終文件。編碼比例愈高則圖像損失愈大,因此愈能覺察到8×8像素人為現(xiàn)象。
所涉及的技術(shù)的一個要求是它們應(yīng)該具有規(guī)??勺冃缘奶匦?屬性。規(guī)??勺冃杂脕砹慷仍诙啻蠓秶鷥?nèi)壓縮的位流能夠部分地解碼并且使用于傳輸?shù)慕K端。在滿足漸進式處理的這種需要時,規(guī)模可變性已經(jīng)成為新一代數(shù)字圖像編碼技術(shù)的標準要求。通常以像素精度和空間分辨率表示的規(guī)??勺冃允庆o態(tài)圖像壓縮的兩個基本要求。
為在保證圖像保真度的同時達到規(guī)??勺冃?,在圖像壓縮技術(shù)的最新成就中已包括根據(jù)“小波”的多分辨率分解。小波是算術(shù)函數(shù),只在二次大戰(zhàn)之后才首先得到廣泛的學術(shù)應(yīng)用。小波一詞從以下事實導(dǎo)得基本函數(shù)(或“母小波”)一般積分為零,因此圍繞x軸“波動”。其他特性例如小波是標準正交或?qū)ΨQ的特性能用于保證正和逆小波變換的快速和容易的計算,即在解碼中尤其有用。
基于小波的變換的另一個重要優(yōu)點是可以用更緊湊的方式用小波來表示許多類型的信號或圖像。例如,為達到同樣精度,具有不連續(xù)性的圖像和具有尖峰的圖像通常采用實際上比基于正弦或余弦的函數(shù)更少的小波基本函數(shù)。這意味著基于小波的方法具有獲得更高圖像壓縮比的潛力。對于同樣精度,根據(jù)小波系數(shù)重現(xiàn)的圖像看起來比使用福里哀(正弦或余弦)變換所得圖像更好。這似乎標示著小波方案所產(chǎn)生的圖像更易為人類視覺系統(tǒng)所接受。
小波將圖像變換為其原始圖像的粗糙的低分辨率版本,然后一系列增強操作為圖像增加細而又細的細節(jié)。此多分辨率性質(zhì)很好地適用于網(wǎng)絡(luò)化應(yīng)用,其中要求規(guī)??勺冃院蛢?yōu)美的退化。例如,多機種網(wǎng)絡(luò)可能包括非常高的帶寬部分和28.8調(diào)制解調(diào)器連接以及它們之間的所有元件。很好的做法是將同樣視頻信號送至網(wǎng)絡(luò)的所有部分,將更細的細節(jié)拋掉并且將低分辨率圖像送至網(wǎng)絡(luò)中具有低帶寬的各部分。它將粗糙的低分辨率圖像包卷于到達整個網(wǎng)絡(luò)的最高優(yōu)先級包中,從而使小波很好地適用于這種應(yīng)用。這些增強操作屬于低優(yōu)先級包,這些包可能送達網(wǎng)絡(luò)的較低帶寬部分。
編碼圖像的低分辨率性質(zhì)也在有噪音通信信道例如無線網(wǎng)絡(luò)或有故障網(wǎng)絡(luò)中支持優(yōu)美的退化。包含低分辨率基本圖像的高優(yōu)先級包被重新傳輸,如果出現(xiàn)誤差則將增強操作取消。
基于內(nèi)容的編碼和可訪問性是圖像壓縮領(lǐng)域中進一步的新方向。先前公開的編碼技術(shù)例如JPEG并不支持用于規(guī)定和操縱圖像的具體區(qū)域的能力?;趦?nèi)容的隨機可訪問性也不是任何新的基于小波技術(shù)中所要求的功能。舉幾個例子,對此特征提出要求的終端用戶應(yīng)用包括多媒體數(shù)據(jù)庫查詢,因特網(wǎng)服務(wù)器-客戶交互操作,圖像內(nèi)容產(chǎn)生和編輯,遠程醫(yī)療診斷和交互式娛樂。
對多媒體數(shù)據(jù)庫的基于內(nèi)容的查詢要求得到那些能夠查找具有感興趣對象的圖像材料的機制的支持。基于內(nèi)容的對因特網(wǎng)或本地盤組的超連接可使圖像內(nèi)所需對象用作信息漫游的入口點。基于內(nèi)容的編輯允許內(nèi)容供應(yīng)商以面向?qū)ο蠡蚧趨^(qū)域的方式操縱圖像材料的屬性?;趦?nèi)容的交互操作允許數(shù)字內(nèi)容訂戶或遠程研究者根據(jù)他們的感興趣區(qū)域來選擇性地控制圖像信息傳輸。簡而言之,此基于內(nèi)容的可訪問性允許將語義上有意義的視覺對象用作圖像數(shù)據(jù)的表示、解釋、操縱和檢索的基礎(chǔ)。
本發(fā)明的一個目的是提供圖像壓縮中的基于區(qū)域的編碼。根據(jù)本發(fā)明的一個方面,提供了一種基于區(qū)域的方法,用于將數(shù)字靜態(tài)圖像編碼和解碼,以便產(chǎn)生一個規(guī)??勺兊膬?nèi)容可訪問的壓縮位流,該方法包括以下步驟將初始圖像數(shù)據(jù)分解和排序為多分辨率子圖像階層;確定感興趣區(qū)域;定義一個用于識別感興趣區(qū)域的區(qū)域掩模;為感興趣區(qū)域?qū)^(qū)域掩模編碼;確定隨后分辨率級別的區(qū)域掩模;及根據(jù)多分辨率系數(shù)的幅值將區(qū)域數(shù)據(jù)掃描和漸進式地進行分類。
根據(jù)本發(fā)明的另一個方面,提供了一種設(shè)備,用于對數(shù)字靜態(tài)圖像進行基于區(qū)域的編碼和解碼,以便產(chǎn)生一個規(guī)??勺兊膬?nèi)容可訪問的壓縮位流,該設(shè)備包括用于將初始圖像數(shù)據(jù)分解和排序為多分辨率子圖像階層的裝置;用于確定感興趣區(qū)域的裝置;用于定義一個用于識別感興趣區(qū)域的區(qū)域掩模的裝置;用于為感興趣區(qū)域?qū)^(qū)域掩模編碼的裝置;用于確定隨后分辨率級別的區(qū)域掩模的裝置;及根據(jù)多分辨率系數(shù)的幅值將區(qū)域數(shù)據(jù)掃描和漸進式地進行分類的裝置。
根據(jù)本發(fā)明的又一個方面,提供了一種基于區(qū)域的系統(tǒng),用于對數(shù)字靜態(tài)圖像進行編碼和解碼,以便產(chǎn)生一個規(guī)??勺兊膬?nèi)容可訪問的壓縮位流,該系統(tǒng)包括以下步驟將初始圖像數(shù)據(jù)分解和排序為多分辨率子圖像階層;確定感興趣區(qū)域;定義一個用于識別感興趣區(qū)域的區(qū)域掩模;為感興趣區(qū)域?qū)^(qū)域掩模編碼;確定隨后分辨率級別的區(qū)域掩模;及根據(jù)多分辨率系數(shù)的幅值將區(qū)域數(shù)據(jù)掃描和漸進式地進行分類。
結(jié)合以下附圖和說明來考慮本發(fā)明,將能更好地理解本發(fā)明,附圖中類似名詞用于標示類似特征。
圖1是本壓縮系統(tǒng)和體系結(jié)構(gòu)的詳細的多路徑流表示。
圖2是對圖像“Lena”的使用基于小波的變換所得多分辨率分解階層的表示。
圖3是感興趣區(qū)域的編碼的本發(fā)明“幾何”方案的原理表示。
圖4是應(yīng)用于感興趣區(qū)域的編碼的“領(lǐng)先1”概念的圖形表示。
圖5是應(yīng)用于靜態(tài)圖像“Lena”的三種類型的區(qū)域信息方案的表示。
圖6是使用應(yīng)用于靜態(tài)圖像“Lena”的離散余弦變換(DCT)的重要區(qū)域的編碼的表示。
圖7是區(qū)域階層形成方法的流程圖。
圖8是算法A51和隨后分辨率級別的區(qū)域掩模的向下采樣的操作的流程圖。
圖9是用于掃描區(qū)域編碼數(shù)據(jù)的兩個不同方法的表示。
圖10是使用區(qū)域收縮方法對區(qū)域數(shù)據(jù)進行掃描的優(yōu)選方法的流程圖。
圖11是在系統(tǒng)的壓縮側(cè)的多路復(fù)用器內(nèi)將數(shù)據(jù)包裝的順序的詳細流程圖。
圖12是壓縮系統(tǒng)的多路復(fù)用器的內(nèi)部體系結(jié)構(gòu)的流程圖。
圖13是系統(tǒng)的解壓側(cè)的多路分解器的內(nèi)部體系結(jié)構(gòu)的流程圖。
圖14是解壓系統(tǒng)和體系結(jié)構(gòu)的詳細多路徑流表示。
圖1表示用于圖像數(shù)據(jù)壓縮的方法和系統(tǒng)的總體系結(jié)構(gòu)。在本發(fā)明的優(yōu)選實施例中,初始圖像數(shù)據(jù)作為位像輸入至系統(tǒng),通過本發(fā)明的系統(tǒng)后作為壓縮位流輸出。
壓縮編碼過程的第一步是將初始數(shù)據(jù)變換或分解為多分辨率分解階層或MDH。本發(fā)明的優(yōu)選實施例應(yīng)用離散小波變換來完成此分解。讀者知道有其他變換可供使用,在本發(fā)明中它們可以完全一樣好地提供使用。此外,為完成初始圖像數(shù)據(jù)的內(nèi)容可訪問的壓縮,并不必須完成此基于分辨率的分解。本發(fā)明的基礎(chǔ)是能夠以許多不同格式處理數(shù)據(jù)的模塊體系結(jié)構(gòu)。
在多分辨率分解之后,優(yōu)選實施例的下一個階段是MDH數(shù)據(jù)的區(qū)域格式化和編碼。讀者能注意到,此步驟可應(yīng)用于初始圖像數(shù)據(jù),或者應(yīng)用于已經(jīng)使用不同技術(shù)變換為多分辨率階層的數(shù)據(jù)。系統(tǒng)的這個步驟分為兩部分,區(qū)域階層的形成或確定以及這些區(qū)域形狀的隨后編碼。這些數(shù)據(jù)形成多區(qū)域數(shù)據(jù)通道,用于本發(fā)明系統(tǒng)的下一個階段中。
在根據(jù)數(shù)據(jù)的“區(qū)域的”性質(zhì)將數(shù)據(jù)編碼之后,必須將數(shù)據(jù)再一次分類以便為終端用戶保留規(guī)模可變性。“區(qū)域化”數(shù)據(jù)的漸進式分類是系統(tǒng)的獨一的和新穎的方法,用于有效地和可壓縮地組織數(shù)據(jù)以便保持圖像保真性,它的規(guī)??勺冃院突趦?nèi)容的可訪問性。
在完成系統(tǒng)的分類階段之后,接著完成數(shù)據(jù)的平均信息量編碼。平均信息量編碼是技術(shù)中熟知的數(shù)據(jù)壓縮的無損失方法。它基于統(tǒng)計學預(yù)測方法,以及進一步對最終數(shù)據(jù)流的緊湊特性作出貢獻。
最后,包括一個多路復(fù)用或MUX模塊,用于管理從以上過程步驟中獲得的不同類型數(shù)據(jù)的流動。本發(fā)明的多路復(fù)用器允許用戶通過漸進式傳輸控制來使數(shù)據(jù)的“位束”(bit-budget)流向解壓器。對于此特征的要求可能是由數(shù)據(jù)傳輸中有限可用資源或者終端用戶處理用的有限可用資源所提出的。在進行多路復(fù)用之后,可通過不同媒體將所得壓縮位流傳輸至本發(fā)明的解碼部分。
圖2是在將本發(fā)明的初始圖像數(shù)據(jù)編碼過程中第一步的圖形闡述。如前所述,有數(shù)個不同方法可用于將初始圖像數(shù)據(jù)分解或變換從而組織不同分辨率級別。讀者可以回憶,這是為了實現(xiàn)規(guī)模可變的和/或優(yōu)美的退化傳輸所需的階層?,F(xiàn)在可用的不同類型的變換包括小波、KL變換、小波包變換、上舉(lifting)方案、窗口福里哀變換和離散余弦變換。在本發(fā)明的優(yōu)選實施例中,所用的具體小波是基于上舉方案的。然而熟悉技術(shù)的人知道本發(fā)明的體系結(jié)構(gòu)支持其他小波變換或者為終端用戶的具體目的而設(shè)計的其他變換。
在圖2中我們看到使用優(yōu)選實施例的小波將數(shù)據(jù)集lx,y通過基于多分辨率的變換所得典型結(jié)果。測試圖像“Lena”已根據(jù)分辨率級別變換為數(shù)據(jù)階層并且表示在三個空間方向內(nèi)。這是“多分辨率分解階層”或MDH數(shù)據(jù)集。本發(fā)明按照缺省方式實現(xiàn)3或5個不同分解級別。在圖2中我們還看到在每個分辨率級別上由HL、HH和LH表示的三個空間方向,其中HL表示水平平面上的高通掃描和垂直平面上的低通掃描,HH表示兩個平面上都是高通掃描以及LH是水平平面上的低通掃描和垂直平面上的高通掃描。LL或兩個平面上都是低通掃描的情況用于表示在任何具體分辨率級別上的無意義信息,但可在階層中隨后的分辨率級別上解釋。
在已經(jīng)以此方式將數(shù)據(jù)分解和組織后,過程中的下一步是將數(shù)據(jù)編碼以便允許實現(xiàn)以上所述的內(nèi)容可訪問性。為完成此目的,本發(fā)明首先定義一個“感興趣區(qū)域”,其次將一個“掩模”公式化以便描述它,然后將該信息編碼以使它成為壓縮數(shù)據(jù)流的一部分。
為完成本系統(tǒng)這個階段中提出的重要概念是幾何漸進式編碼的想法。當試圖完成基于區(qū)域的編碼而同時保留規(guī)??勺冃詴r強制性的做法是將順序V(分辨率系數(shù)的幅值-MDH數(shù)據(jù))與多區(qū)域數(shù)據(jù)(即與關(guān)系R)關(guān)聯(lián)起來。這導(dǎo)致圖3中提出的編碼的幾何方案。在現(xiàn)有技術(shù)中,組合方案(左側(cè))使用采樣值(在變換系數(shù)平面中的零)來預(yù)測較高的分辨率級別中一組零出現(xiàn)的可能性。也就是在此基礎(chǔ)上獲得表示的緊湊性。與此同時,應(yīng)該知道在分辨率低級別上傳輸期間出現(xiàn)的任何誤差都會在預(yù)測的每個級別上造成嚴重的反響。
在本發(fā)明采用的幾何方案(右側(cè))中,通過使用一個幾何形狀來覆蓋采樣(零)的大集合,然后將此形狀編碼而獲得表示的緊湊性。在此方案中,MDH中的感興趣區(qū)域以幾何對象的形式來表示,然后將類似區(qū)域和曲線和緊湊代碼都公式化以便描述這些幾何對象。幾何對象的緊湊編碼使用圖4中的領(lǐng)先1曲線C。使用此公式化和編碼方法所得優(yōu)點包括區(qū)域的精細描述、這些區(qū)域的緊湊表示和針對以上所述類型的傳輸誤差的穩(wěn)固性。
因此,給出MDH中系數(shù)子集{Cij}后,無論這些系數(shù)的掃描順序如何,它們的絕對值的分布都包含三部分(圖4)。領(lǐng)先1曲線C包含自最高有效位開始查找所有系數(shù)的二進制表示的第一非零位。細化區(qū)段包含領(lǐng)先1之后的所有系數(shù)的二進制位。零區(qū)段包含在所有系數(shù)的領(lǐng)先1之前的所有零。因此,如果所有系數(shù)的數(shù)量是n*N位,及細化區(qū)段的區(qū)域是|x|位,及零區(qū)段的區(qū)域是|0|位,則|x|+|0|=(n-1)*N位,因為曲線C的長度是N。
為完成這些數(shù)據(jù)的無損失編碼,必須精確地記錄曲線C和細化區(qū)段的信息。以緊湊性表示的編碼器的性能根據(jù)它將零區(qū)段編碼的能力來確定,或者等效地根據(jù)它將曲線C編碼的能力來確定。為實現(xiàn)以順序V表示的規(guī)??勺冃?,希望曲線C不在其高度上增長。這通過以下所述的漸進式部分分類過程來完成。
為回至建立多區(qū)域數(shù)據(jù)的過程起點,本發(fā)明的優(yōu)選實施例設(shè)想三種用于確定感興趣區(qū)域的方法。在圖5中我們看到系統(tǒng)支持1.用戶定義區(qū)域。在此方案中,該區(qū)域或由交互式過程(即其中用戶使用輸入設(shè)備例如鼠標來規(guī)定感興趣區(qū)域),或由另一個應(yīng)用程序來確定。然后根據(jù)此用戶定義區(qū)域?qū)ⅰ把谀!惫交?。這個區(qū)域公式化方法由圖5a)表示。
2.鋪貼。在鋪貼方案中,找到標準規(guī)模的象素塊來形成區(qū)域。在JPEG中可以考慮例如8×8的塊為通過鋪貼規(guī)定的區(qū)域。當處理非常大的圖像例如計算機輔助設(shè)計和制造中生成的圖像時,鋪貼也可用作區(qū)域形成的合適方法。在圖5b)中闡述區(qū)域公式化的鋪貼方法。
3.自動化區(qū)域公式化。此自動化過程由圖5c)表示。自動化區(qū)域階層公式化的任務(wù)是將MDH數(shù)據(jù)或原始圖像數(shù)據(jù)分段為幾何區(qū)域階層。在本發(fā)明中發(fā)展了一種變換域分段方案。在此過程的優(yōu)選實施例中,通過測量區(qū)域的絕對值或通過測量“區(qū)域重要性”來將MDH數(shù)據(jù)分段為空間分離的區(qū)域,其中區(qū)域重要性是感興趣區(qū)域內(nèi)所有系數(shù)的總重要性的組合量度。在本發(fā)明中,我們考慮兩種類型的區(qū)域重要性平均重要性和加權(quán)重要性。平均區(qū)域重要性是該區(qū)域內(nèi)所有系數(shù)的系數(shù)重要性的平均值,以及加權(quán)區(qū)域重要性是該區(qū)域內(nèi)所有系數(shù)的系數(shù)重要性的加權(quán)平均值。
本發(fā)明的自動化區(qū)域公式化是通過使用兩個分段算法中的一個來完成的。這些算法中的第一個是全邏輯方案,其中閾值2n-1,2n-2,…,20用于順序地將MDH數(shù)據(jù)排序,其中知道最大MDH系數(shù)(|Cij|)<2n。
第二個分段方案是基于部分邏輯方案的。在此方案中,由專家用戶確定,只將2的一定冪次用作閾值。
在使用任何一個方案對MDH數(shù)據(jù)加用閾值后,對MDH平面上的每個空間位置標上一個與相應(yīng)的閾值有關(guān)的獨一標記。因此,如果“n”個閾值用于方案中,則整個MDH平面標上n+1個不同標記。此標記集形成區(qū)域掩模。
在圖5(c)中,我們看到圖像Lena的自動化分段的結(jié)果。在多分辨率分解階段期間生成的MDH系數(shù)分為三個范圍。在本發(fā)明的優(yōu)選實施例中,這些范圍是0-15、16-31和32-64。
回憶到MDH數(shù)據(jù)結(jié)構(gòu)包含多分辨率級別和多空間方向,可以想象,MDH數(shù)據(jù)的分段操作可以如下完成將一個公共掩模加于所有分辨率級別和所有方向上;將不同掩模加于不同方向上而為每個方向內(nèi)的所有分辨率級別保留一個公共掩模;將不同掩模加于不同分辨率級別上而為任何給定分辨率級別的所有方向保留一個公共掩模;或者將不同掩模加于不同分辨率和方向。
在本發(fā)明的優(yōu)選實施例中,由于不同方向之間的自身類似性,已經(jīng)選擇第一方案。在任何給定分辨率級別上,邊界信息(與忙碌區(qū)域或具有高反差區(qū)域相關(guān)的信息)包含于集合HH1、HL1和LH1中。一般而言,由于集合HH、HL和LH在不同方向撲獲到低通特征,它們之中沒有一個能單獨提供該分辨率級別上的完整邊界描述。當三個方向中的任何一個內(nèi)出現(xiàn)一個事件時,必須恰當?shù)卮_定邊界“事件”。因此以下操作用于分辨率級別1處的公共重要性測試。
H1=max{HH1,HL1,LH1}。
也即,一個區(qū)域的重要性由在該位置處三個方向中的任何一個內(nèi)出現(xiàn)的最大值所決定。
對此操作的選代做法是H1=a*HH1+b*HL1+c*LH1,其中a+b+c=1。
對不同分辨率和方向使用公共掩模的其他理由包括不同分辨率級別處的自身類似性和只有一個掩模時的計算效率。這就是計算一個公共掩模通常在計算上比計算多個掩模便宜。
區(qū)域形狀編碼的任務(wù)是為在區(qū)域形成步驟中產(chǎn)生的區(qū)域掩模找到一個正確的和緊湊的代碼。形狀代碼的緊湊性和正確性兩者都對整個編碼系統(tǒng)的效率有著直接影響。在本發(fā)明的體系結(jié)構(gòu)中,支持多個形狀編碼方案,但在優(yōu)選實施例中使用以下基于DCT的區(qū)域通道。
在此方案中,使用區(qū)域掩模的福里哀特性將它編碼。通過在頻域內(nèi)進行低通濾波,可以使用高正確度和使用少量DCT系數(shù)將多區(qū)域掩模的全局形狀進行編碼。圖6闡述如同加于Lena圖像上一樣的DCT編碼區(qū)域掩模的圖形例子。通過使用DCT變換來描述掩模,可以實際上完成壓縮操作。
在MDH數(shù)據(jù)的情況下,只使用一個DCT來在最高分辨率級別上生成公共掩模。通過向下采樣來得到低分辨率級別上的其他掩模。圖7闡述從區(qū)域公式化階段開始的通過基于區(qū)域的數(shù)據(jù)表的編碼的數(shù)據(jù)流動。此過程稱為算法A50,它是一個自底向頂?shù)膮^(qū)域階層形成方法并且包括以下步驟(1)計算H1=max{LH1,HL1,HH1},即對于k=1至N:H1[k]=max(LH1[k],HL1[k],HH1[k]);(2)將區(qū)域形成方案用于公共重要性掩模H1上以便獲得一個分區(qū)掩模M1。
(3)將低通濾波器用于DCT變換過的掩模M1上以便獲得M1′(4)將M1′向下采樣以便在較低分辨率級別上獲得掩模M2,M3,…,ML(見下面的算法A51)(5)將掩模{M1′,M2,…,ML}加于相應(yīng)的系數(shù)層上以便將MDH分段為各區(qū)域。
在以上步驟(3)之后,使用算法A51來完成過程以便將最高分辨率級別(M1)處的掩模轉(zhuǎn)換后用于較低分辨率級別,如圖8中所闡述。
算法A51掩模向下采樣假設(shè)theta1>theta2>theta3。假設(shè)M1中的區(qū)域都標上theta值。
For(I=2,3…,b)For(Mi的所有x和y)Mi(x,y)=max{Mi-1(2x,2y),Mi-1(2x,2y+1),Mi-1(2x+1,2y),Mi-1(2x+2,2y+2)}
雖然有其他方法用于獲得較低分辨率級別上的掩模,但上面給出的向下采樣算法(A51)精確地保留不同分辨率級別上的區(qū)域形狀。還有,以上算法在計算上是有效的。
再參照圖1,現(xiàn)在數(shù)據(jù)已經(jīng)通過多分辨率分解以及區(qū)域公式化和編碼兩者。在此階段中已經(jīng)根據(jù)數(shù)據(jù)的圖形內(nèi)容將數(shù)據(jù)重新組織,雖然區(qū)域分段過程在所有方向內(nèi)保留不同分辨率級別上的區(qū)域形狀,但它不保留在不同級別和方向的相應(yīng)的區(qū)域內(nèi)系數(shù)值范圍。換言之,在不同分辨率級別上和所有方向內(nèi)繼承了關(guān)系R,但一般而言并不能精確地保留順序V。漸進式分類的任務(wù)是為所有區(qū)域通道重新建立順序V。
數(shù)據(jù)的漸進式分類的第一步是對由區(qū)域形成和編碼所生成的區(qū)域進行掃描。當掃描這些數(shù)據(jù),當在掃描過程中遇到MDH系數(shù)時,就建立它們的相應(yīng)的表。對于熟悉技術(shù)的人很明顯,取決于準備掃描和轉(zhuǎn)換為線性表的數(shù)據(jù)的特性,可以通過確定用于掃描區(qū)域數(shù)據(jù)的最佳方法而取得效率。
一般而言,設(shè)想兩種掃描順序;線性掃描和基于“區(qū)域收縮”原理的掃描。本發(fā)明的優(yōu)選實施例使用軟件開關(guān)來確定采用兩個掃描策略中的哪個。這個開關(guān)表征數(shù)據(jù)的特征,然后實施合適的策略。
對區(qū)域形成和編碼中生成的數(shù)據(jù)進行掃描的第一方法是每個系數(shù)的簡單線性分析和列表。在此策略中,從區(qū)域數(shù)據(jù)的頂部一行的最左位置處開始對系數(shù)掃描以及一行一行地繼續(xù)下去,一直下至底部一行的最右位置。應(yīng)用于具體區(qū)域的這個策略闡述于圖9(a)中。雖然該線性掃描策略便于實施,但此方法的主要問題是它可能破壞數(shù)據(jù)所固有的下降或上升順序,從而敗壞最終得到的位流的緊湊性。在山脊地形或類似的輪廓形狀的情況下這的確如此。然而,對于精確模式和緩慢變化的值,線性掃描是相對地有效的。
用于掃描基于區(qū)域的系數(shù)的第二策略是基于區(qū)域收縮原理的。此方法闡述于圖9(b)中并且以算術(shù)形式表示于下面的算法A62中。
算法A62輸入標記L,掩模[m][n],inBuf[m][n];輸出outBuf[N].步驟1K=0;J0=min{J;mask[I][J]=L};J1=max{J:maxk[I][J]=L};步驟2While(J0<=J1)do{步驟2.1For(J=J0;J<=J1;J++){While((Find I0=left{I:mask[J][I]=L})=true)do{Find I1=right{I:mask[J][I]=L});Append inBuf[J][I0]to outBuf[K++];Mask[J][I0]=NIL;If(I1<>I0){Append InBuf[J][I1]to outBuf[K++];Mask[J][I1]=NIL;}}}步驟2.2(Update J0 and J1.)J0=min{J:mask[J][I]=L};J1=max{J:mask[J][I]=L};}圖10進一步闡述區(qū)域收縮過程。對于很多情況例如山脊地形,區(qū)域收縮的掃描方法可以有效地和高效率地保留數(shù)據(jù)的幅值數(shù)量級。
無論使用何種掃描順序來產(chǎn)生區(qū)域R的線性表L,總是需要進行分類以便建立順序V。在本發(fā)明中,采用的方法是部分地按照順序上升至領(lǐng)先1曲線的級別。因此,給定一個表L={C1,C2,Cm},即分解系數(shù)所生成的表,就實施以下漸進式編碼算法
算法A620。漸進式分類步驟1對于L中的每一項Ci,輸出第n個msb(Ci);步驟2對于具有msb=1的項目,輸出跟隨于msb之后的值,并且將它們從L中取消步驟3使n=n-1并回至步驟1此算法部分地而不是全部地將表“L”分類直至2的冪次。它的漸進式過程的含意在于可在任何給定點將輸出數(shù)據(jù)截尾但卻使解碼器收到最有價值的信息。最后,它并不擴展表L為得到L的完全的無損失的分類,分類輸出的總長度與L相同。
當許多項目都具有很小值時,算法A620將遇到效率不高的問題。在此情況下,使用相當多數(shù)量的位束來記錄每個項目的二進制表示中領(lǐng)先1之前的0。以下算法確定和使用閾值“b”來將這些低值系數(shù)與具有較高值的系數(shù)分離,從而改進此性能。
算法A621雙分區(qū)漸進式分類步驟1對于預(yù)定的0<=b<=n ,為L中的每一項Ci檢查是否|Ci|<2b,將那些具有大于閾值的值的項目輸出至L1以及那些具有較小值的項目輸出至L2;步驟2對于L1中的那些項目使用算法A620,從n開始;步驟3對于L2中的那些項目使用算法A620,從b開始;對漸進式分類有兩個基本要求。(1)當將分類過程的輸出位流解碼時,它應(yīng)該按照V的下降順序產(chǎn)生數(shù)據(jù)。(2)當在任何點處將位流截尾從而只將部分數(shù)據(jù)重建時,應(yīng)該在重建數(shù)據(jù)中使信息量最大。
平均信息量編碼再參照圖1,可以看出系統(tǒng)中的下一個階段是數(shù)據(jù)的平均信息量編碼。平均信息量編碼是數(shù)據(jù)壓縮技術(shù)中熟知的一個無損失方法。它是基于二進制代碼的固有特性和類似數(shù)據(jù)串的重復(fù)性的。它是基于預(yù)測方法的。在本發(fā)明中,由于從本發(fā)明的漸進式分類中所得兩種數(shù)據(jù)類型的統(tǒng)計學特性不同,已經(jīng)使用兩種不同平均信息量編碼方法。類型B數(shù)據(jù)是用于形成領(lǐng)先1曲線的數(shù)據(jù),而類型A數(shù)據(jù)是用于在領(lǐng)先1曲線之下的精確區(qū)段中的所有數(shù)據(jù)的。這可從圖中看出。
多路復(fù)用編碼系統(tǒng)中的多路復(fù)用和解碼系統(tǒng)中的多路分解這一對功能向編碼器和解碼器提供交互手段,用于對壓縮圖像的位率和質(zhì)量提供靈活控制。
位束控制中的交互性由以下事實反映出來編碼器和解碼器兩者都可對位束的確定和定位過程進行控制。多路復(fù)用器確定和使用一個基本位束(BBB)來確定壓縮位流的總位數(shù)。在多路分解過程中,使用一個解碼位束(DBB)來在解碼前進一步選擇性地刪節(jié)位流。
多路復(fù)用器的功能闡述于圖12中,它包括(1)給定用于將整個圖像編碼的基本位束(BBB)后,確定每個分辨率級別和區(qū)域通道的位束。
(2)將來自不同通道的數(shù)據(jù)交織成單個位流。在截尾之后,把來自不同區(qū)域、方向和分辨率級別的分類的、截尾的數(shù)據(jù)打包以便產(chǎn)生最終位流。闡述于圖11中的用于將數(shù)據(jù)打包的缺省順序是a.在不同分辨率級別處從最低分辨率至最高分辨率將數(shù)據(jù)打包,即其順序為級別5->級別4->級別3->級別2->級別1。
b.在每個分辨率級別內(nèi),對三個方向不規(guī)定優(yōu)選順序。缺省順序是按照順序HL->LH->HH來掃描數(shù)據(jù)。
c.在給定的分辨率級別的具體方向內(nèi),從最高區(qū)域標記向最低標記掃描區(qū)域。
在已經(jīng)建立了壓縮位流之后,本發(fā)明的優(yōu)選實施例設(shè)想一個解碼過程,能夠用于重建圖像。取決于位束和在建立壓縮位流期間所采取的步驟,可以使用針對初始圖像數(shù)據(jù)的完全保真度來恢復(fù)原始圖像,或者選代地稍微損失些信息。
作為本系統(tǒng)的編碼側(cè)的多路復(fù)用器的補充,在本發(fā)明的解碼側(cè)包括了一個多路分解部件,它在圖13中得到闡述。本發(fā)明的優(yōu)選實施例的附加特征是用戶能夠在系統(tǒng)的解碼端確定他們自己的位束以及可能使用任意的確定值來將數(shù)據(jù)截尾。此“解碼位束”是在多路分解步驟之前確定的并且闡述于圖10中。
圖14闡述本系統(tǒng)的解碼側(cè)的其余部分。對于極大部分而言,該解碼過程只簡單地是系統(tǒng)的編碼側(cè)出現(xiàn)的步驟的逆步驟。
多路分解器的功能(圖14)是(1)將壓縮位流拆包為單獨的數(shù)據(jù)表;及(2)使用解碼位束(DBB)來將數(shù)據(jù)表截尾。為向應(yīng)用提供以空間區(qū)域、空間分辨率、像素精度和空間方向表示的全色譜規(guī)??勺冃?,設(shè)計了一組位束控制方案。
可以在不背離權(quán)利要求書中定義的本發(fā)明范圍的情況下對本發(fā)明實施例作出不同變動、修改和調(diào)整。
權(quán)利要求
1.一種基于區(qū)域的、用于將數(shù)字靜態(tài)圖像編碼和解碼從而產(chǎn)生規(guī)模可變的內(nèi)容可訪問的壓縮位流的方法,包括以下步驟將初始圖像數(shù)據(jù)分解和排序為多分辨率子圖像階層;確定感興趣區(qū)域;定義一個用于識別感興趣區(qū)域的區(qū)域掩模;為感興趣區(qū)域?qū)^(qū)域掩模編碼;確定隨后分辨率級別的區(qū)域掩模;及根據(jù)多分辨率系數(shù)的幅值將區(qū)域數(shù)據(jù)掃描和漸進式地進行分類。
2.權(quán)利要求1中定義的方法,其中多分辨率子圖像階層在小波變換的基礎(chǔ)上組成。
3.權(quán)利要求1中定義的方法,其中多分辨率子圖像階層在基于福里哀的變換的基礎(chǔ)上組成。
4.權(quán)利要求1中定義的方法,其中多分辨率子圖像階層使用初始圖像數(shù)據(jù)組成。
5.權(quán)利要求1中定義的方法,其中通過自動化過程來確定感興趣區(qū)域。
6.權(quán)利要求1中定義的方法,其中通過用戶定義來確定感興趣區(qū)域。
7.權(quán)利要求1中定義的方法,其中在福里哀變換的基礎(chǔ)上將區(qū)域掩模編碼。
8.權(quán)利要求1中定義的方法,其中在小波變換的基礎(chǔ)上將區(qū)域掩模編碼。
9.權(quán)利要求1中定義的方法,其中以線性方式掃描基于區(qū)域的數(shù)據(jù)以便建立多分辨率系數(shù)表。
10.權(quán)利要求1中定義的方法,其中使用區(qū)域收縮協(xié)議來掃描基于區(qū)域的數(shù)據(jù)以便建立多分辨率系數(shù)表。
11.權(quán)利要求1中定義的方法,其中使用漸進式部分分類規(guī)范將多分辨率系數(shù)表分類。
12.權(quán)利要求1中定義的方法,其中使用漸進式分類規(guī)范及使用在預(yù)定分區(qū)基礎(chǔ)上劃分的數(shù)據(jù)將多分辨率系數(shù)表分類。
13.權(quán)利要求1中定義的方法,還包括使用軟件開關(guān)來確定平均信息量編碼的最佳方法的步驟。
14.權(quán)利要求1中定義的方法,還包括使用多路復(fù)用協(xié)議把來自不同區(qū)域和分辨率通道的壓縮數(shù)據(jù)組合為一個集成的位流從而允許編碼器和解碼器兩者都能選擇性地和交互地控制位束和壓縮圖像質(zhì)量的步驟。
15.一種用于對數(shù)字靜態(tài)圖像進行基于區(qū)域的編碼和解碼以便產(chǎn)生一個規(guī)??勺兊膬?nèi)容可訪問的壓縮位流的設(shè)備,該設(shè)備包括用于將初始圖像數(shù)據(jù)分解和排序為多分辨率子圖像階層的裝置;用于確定感興趣區(qū)域的裝置;用于定義一個用于識別感興趣區(qū)域的區(qū)域掩模的裝置;用于為感興趣區(qū)域?qū)^(qū)域掩模編碼的裝置;用于確定隨后分辨率級別的區(qū)域掩模的裝置;及根據(jù)多分辨率系數(shù)的幅值將區(qū)域數(shù)據(jù)掃描和漸進式地進行分類的裝置。
16.權(quán)利要求15中定義的設(shè)備,其中使用小波變換來組成多分辨率子圖像階層。
17.權(quán)利要求15中定義的設(shè)備,其中使用基于福里哀的變換來組成多分辨率子圖像階層。
18.權(quán)利要求15中定義的設(shè)備,其中使用初始圖像數(shù)據(jù)來組成多分辨率子圖像階層。
19.權(quán)利要求15中定義的設(shè)備,其中通過自動化過程來確定感興趣區(qū)域。
20.權(quán)利要求15中定義的設(shè)備,其中由用戶來確定感興趣區(qū)域。
21.權(quán)利要求15中定義的設(shè)備,其中使用福里哀變換將區(qū)域掩模編碼。
22.權(quán)利要求15中定義的設(shè)備,其中使用小波變換將區(qū)域掩模編碼。
23.權(quán)利要求15中定義的設(shè)備,其中以線性方式掃描基于區(qū)域的數(shù)據(jù)以便建立多分辨率系數(shù)表。
24.權(quán)利要求15中定義的設(shè)備,其中使用區(qū)域收縮協(xié)議來掃描基于區(qū)域的數(shù)據(jù)以便建立多分辨率系數(shù)表。
25.權(quán)利要求15中定義的設(shè)備,其中使用漸進式部分分類規(guī)范將多分辨率系數(shù)表分類。
26.權(quán)利要求15中定義的設(shè)備,其中使用漸進式分類規(guī)范及使用在預(yù)定分區(qū)基礎(chǔ)上劃分的數(shù)據(jù)將多分辨率系數(shù)表分類。
27.權(quán)利要求15中定義的設(shè)備,它在確定平均信息量編碼的最佳裝置中使用軟件開關(guān)。
28.權(quán)利要求15中定義的設(shè)備,還包括用于把來自不同區(qū)域和分辨率通道的壓縮數(shù)據(jù)組合為一個集成的位流從而允許編碼器和解碼器兩者都能選擇性地和交互地控制位束和壓縮圖像質(zhì)量的多路復(fù)用裝置。
29.一種基于區(qū)域的、用于對數(shù)字靜態(tài)圖像進行編碼和解碼以便產(chǎn)生一個規(guī)??勺兊膬?nèi)容可訪問的壓縮位流的系統(tǒng),包括以下步驟將初始圖像數(shù)據(jù)分解和排序為多分辨率子圖像階層;確定感興趣區(qū)域;定義一個用于識別感興趣區(qū)域的區(qū)域掩模;為感興趣區(qū)域?qū)^(qū)域掩模編碼;確定隨后分辨率級別的區(qū)域掩模;及根據(jù)多分辨率系數(shù)的幅值將區(qū)域數(shù)據(jù)掃描和漸進式地進行分類。
全文摘要
公開了一種用于對數(shù)字靜態(tài)圖像進行編碼和解碼以便產(chǎn)生一個規(guī)??勺兊幕趦?nèi)容的可以隨機地訪問的壓縮位流的基于區(qū)域的系統(tǒng)、方法和體系結(jié)構(gòu)。根據(jù)本系統(tǒng),將初始圖像數(shù)據(jù)分解和排序為多分辨率子圖像階層。然后確定感興趣區(qū)域。定義一個用于識別感興趣區(qū)域的區(qū)域掩模并且將它編碼。然后根據(jù)多分辨率系數(shù)的幅值將這些數(shù)據(jù)分類以便產(chǎn)生規(guī)??勺兊幕趦?nèi)容的可以隨機地訪問的壓縮位流。
文檔編號H04N1/413GK1316161SQ99810425
公開日2001年10月3日 申請日期1999年7月15日 優(yōu)先權(quán)日1998年7月15日
發(fā)明者王孟, 學東·楊, 利·曲, 布倫特·西蒙 申請人:數(shù)字加速器公司