用于編碼圖像的方法和裝置的制作方法

文檔序號：7644969閱讀：231來源：國知局

專利名稱：：用于編碼圖像的方法和裝置的制作方法
技術領域：
：本發(fā)明涉及一般編碼和代碼轉換多重圖像對象，特別是涉及控制采用了可變時間分辨率的多重圖像對象的編碼和代碼轉換的系統(tǒng)。這些標準，是以圖像序列的空間和時間壓縮為主來使用的較低級的技術規(guī)范。作為共同的特征，這些標準，是對每個幀進行壓縮。通過采用這些標準，對于范圍很廣的應用可以實現(xiàn)高壓縮比。在MPEG-4(多媒體應用)等新的圖像編碼標準中(參照“InformationTechnology--GenericCodingofaudio/visualobjects”ISO/IECFDIS14496-2(MPEG4Visual)、1998年11月)，可以作為個別的圖像對象平面(VOP)編碼和譯碼任意形狀的對象。對象可以是可視的、語音、自然的、合成的、圖元、復合的或它們的組合。圖像對象被構成為能形成復合對象或“景物”。新近浮出水面的MPEG-4標準，意欲使集成自然和合成材料的、訪問是很普遍的交互式圖像等多媒體應用成為可能。MPEG-4考慮了基于內容的相互作用。例如，有時想從一個圖像將移動的人物或對象“剪貼”到其他圖像上。在這種類型的應用中，假定多媒體內容中的對象，是用某種類型的分割處理來進行識別的。例如，可參照由Lin等人在1999年6月4日所提出的美國專利申請第09/326,750號、“MethodforOrderingImageSpacestoSearchforObjectSurfaces”。在圖像發(fā)送中，這些壓縮標準是為減低網絡所需帶寬(可利用的位速率)的量所必要的。網絡可以表示無線通道或因特網。無論在哪種情況下，網絡，在要發(fā)送內容的時候由于必須要分解資源，所以，限定容量和內容。長年以來，在使設備能穩(wěn)定發(fā)送圖像內容、使內容的質量適應于可利用的網絡資源的體系結構和處理過程方面付出了巨大努力。為了分配每個編碼時間的位(Bit)數(shù)采用速率控制。速率控制，要確保由編碼器所生成的位流滿足緩沖器制約。速率控制過程，試圖使被編碼過的信號的質量為最好，同時，要提供一定的位速率。關于基于MPEG-2等幀的編碼，請參照1998年12月8日由Uz等人所發(fā)布的美國專利第5,847,761號“Methodforperformingratecontrolinavideoencoderwhichprovidesabitbudgetforeachframewhileemployingvirtualbuffersandvirtualbufferverifiers”。關于基于MPEG-4等對象的編碼，請參照1999年10月19日由Sun和Vetro所發(fā)布的美國專利第5,969,764號“Adaptivevideocodingmethod”。在內容已經被編碼了的場合，流，例如，為了對付可利用的位速率的減少在通過網絡被發(fā)送之前，有時還要變換已經壓縮過的位流。位流變換或“代碼轉換”，可以分類成位速率變換、分辨率變換、以及語法變換。在位速率變換中，包含有恒定的位速率(CBR)與可變的位速率(VBR)之間的位速率換算和變換。位速率換算的基本功能，是接收輸入位流、生成符合接收設備的新的負荷制約的被換算過的輸出位流。位流定標器，是使源位流與接收負荷一致的代碼轉換器或過濾器。如圖7所示，通常，換算可由代碼轉換器100來完成。在完美的情況下，代碼轉換器擁有譯碼器110和編碼器120。被壓縮的輸入位流101，由輸入速率Rin完全譯碼，由新的輸出速率Rout102編碼，生成輸出位流103。通常，輸出速率比輸入速率還低。但是，實際上，將被譯碼過的位流編碼是非常復雜的，所以，不進行在代碼轉換器中的完全譯碼和完全編碼、而代之以對被壓縮過的或部分被譯碼過的位流進行代碼轉換。在“ArchitecturesforMPEGcompressedbitstreamscaLing”、IEEETransactionsonCircuitsandSystemsforVideoTechnology、1996年4月刊中，由Sun等人公布了對MPEG-2的初期研究。在這個文獻中，示出了改變了復雜性和體系結構的4個速率降低方法。圖8示出了例示的方法。在這個體系結構中，圖像位流只是部分的被譯碼。具體的說，輸入位流201的宏塊，被210可變長譯碼(VLD)。輸入位流，還被220延遲、被230逆量化(IQ)、生成離散余弦變換(DCT)系數(shù)。一旦給與了所希望的輸出位速率，部分被譯碼過的數(shù)據被240分析、將新的量化器的設定在250中應用于DCT宏塊。這些被再量化的宏塊，接著，被260可變長編碼(VLC)，可形成較低速率的新輸出位流203。這個方式，比圖7所示的方式還要簡單得多。原因是再次使用運動向量，而不必要逆DCT操作。在由Assuncao等人所作的最新研究中，在1998年12月刊載于IEEETransactionsonCircuitsandSystemsforVideoTechnology、953到957頁的“Afrequencydomainvideotranscoderfordynamicbit-ratereductionofMPEG-2bitstreams”中，對于相同任務的被簡化了的體系結構，作了描述。Assuncao等人，采用了在頻域中工作的移動補償(MC)回路用于漂移補償。為進行頻域內的宏塊的迅速計算得到了近似矩陣。拉格朗日最優(yōu)化被應用在用于代碼轉換的最佳量化器換算。Sorial等人的其他研究、“JointtranscodingofmultipleMPEGVideobitstreams”、ProceedingsoftheInternationalSymposiumonCircuitsandSystems、1999年5月刊，示出了共同代碼轉換多重MPEG-2位流的方法。也請參照由Vetro等人于1999年10月1日所提出的美國專利申請第09/410，552號“EstimatingRate-DistortionCharacteristicsofBinaryShapeDate”。若依據現(xiàn)有的壓縮標準，為了編碼紋理信息所分配的位(Bit)數(shù)，由量化參數(shù)(QP)來控制。上述的文獻也是同樣的。根據原來位流中所包含的信息變更QP，這樣，來降低紋理位的速率。為了高效的實施，信息，通常在被壓縮過的域內被直接抽取，它可包含有關宏塊的移動或DCT宏塊的殘余能量的度量。這個類型的分析，在圖8的位分配分析器240中可以找到。除了上述現(xiàn)有的代碼轉換法外，還刊載出了幾個新的代碼轉換法。請參照例如，2000年2月14日由Vetro等人所提出的美國專利申請第09/504,323號“Object-BasedBitstreamTranscoder”。在這個文獻中，對于克服現(xiàn)有代碼轉換系統(tǒng)的限制的信息發(fā)送系統(tǒng)，作了闡述。現(xiàn)有的系統(tǒng)，在可降低的速率的量中受到某些制約。另外，現(xiàn)有的系統(tǒng)，不考慮整體的感知質量，說得更確切些，是控制PSNR等客觀的量度。在由Vetro等人所闡述的系統(tǒng)中，變換更加靈活，質量的測量也從現(xiàn)有的每位不同中掙脫出來。Vetro，用非常特有的方法歸納整理圖像內容。在基于對象的幀結構內，各個圖像對象用不同的質量被代碼轉換。質量的區(qū)別，可以與空間質量或時間上的分辨率(質量)相關聯(lián)。時間分辨率在景物內的對象間變化時，重要的是，所有的對象相互要維持某種類型的時間同步。若能維持時間同步，接收設備就能這樣構成對象能規(guī)定所重新構筑的景物內的所有的像素。在景物內沒有規(guī)定的像素，可以由背景和前景對象來生成。或者，重復的對象，用不同的時間分辨率被取樣，在所重新構成的景物內出現(xiàn)“空洞(holes)”。因此，在改變編碼或代碼轉換中的多重對象的時間分辨率的場合，維持同步，是至關重要的。為了進一步例示這點，讓我們來考慮這樣的景物有比較靜止的背景對象(例如，空白的墻壁)和正在移動的人等活動的前景對象。背景，由比較低的時間分辨率(例如，每1秒10幀)可以編碼。前景對象，由每秒30幀的比較高的時間分辨率編碼。只要前景對象不大移動，這是良好的。但是，萬一前景對象相對于背景一移動，在背景的部分就出現(xiàn)“空洞”，不能由前景對象堵住。本發(fā)明的目的，是要解決上述問題，使其能夠用可變時間分辨率進行多重對象的編碼和代碼轉換。面向由MPEG標準委員會所進行的最近的標準化的機構，正式上是被叫做“MultimediaContentDescriptionInterface”的MPEG-7。請參照“MPEG-7Context、ObjectivesandTechnicalRoadmap”、ISO/IECN2861、1999年7月號。實質上，這個標準，計劃要導入可以用來描述各種類型的多媒體內容的描述符集和描述方式。描述符和描述方式，與內容本身相關連，并考慮特定用戶所關心的材料的迅速而高效的檢索。重要的是要注意，這個標準，不是取代以前的編碼標準，而是將它構筑在其它標準(特別是，MPEG-4)表述之上。這是由于，將多媒體內容分解為不同的對象、將特有的描述符集合分配給了各對象的緣故。另外，這個標準，與保存內容的形式是獨立的。期望MPEG-7的主要應用，是在檢索和取得方面的應用。請參照“MPEG-7Applications”、ISO/IECN2861、1999年7月。在簡單的應用中，用戶要指定特定對象的幾個屬性。在這個低級的表現(xiàn)中，這些屬性，可以包含記述特定對象的紋理、移動、以及形狀的描述符。表現(xiàn)、比較形狀的方法，在由Lin等人于1999年6月4日所提出的美國專利申請第09/326,759號“MethodforOrderingImageSpacestoRepresentObjectShapes”中，作了闡述，描述移動動作的方法，在由Divakaran等人于1999年9月27日所提出的美國專利申請第09/406,444號“ActivityDescriptorforVideoSequences”中，作了闡述。為了得到較高級的表現(xiàn)，可以考慮將幾個低級的描述符組合起來的更復雜的記述方式。事實上，這些記述方式，可以包含其它的記述方式。請參照“MPEG-7MultimediaDescriptionSchemesWD(V1.0)”ISO/IECN3113、1999年12月和由Lin等人于1999年8月30日所提出的美國專利申請第09/385,169號“Methodforrepresentingandcomparingmultimediacontent”。用這些描述符和描述方式，用戶可以訪問用編碼器或代碼轉換器在過去不能得到的圖像內容的特性。例如，這些特性，可以表示被假定為是代碼轉換器不能訪問的未來預測信息。編碼器或代碼轉換器訪問這些特性，是僅在起初由內容得到這些特性的場合，亦即，在預先處理內容、并將其存儲到擁有相關的元數(shù)據的數(shù)據庫的場合。信息本身可以是語法或語義。所謂語法信息，是指內容的物理上的和邏輯上的信號方式，而所謂語義信息，是指內容的概念上的意思。對于圖像序列，語法要素可以與特定對象的顏色、形狀、以及移動有關。另一方面，語義要素則可指事件的時間和場所、圖像序列內的人名等不能從低級描述符中抽出的信息。希望維持基于用于擁有可變時間分辨率的景物中的圖像對象的對象的編碼器或代碼轉換器內的同步。再者，希望用圖像內容元數(shù)據來識別這樣的變化。圖像是未被壓縮的數(shù)據的場合，在編碼器中進行分割、組合、以及編碼。對于被壓縮過的圖像，多路分解、組合、以及編碼是在代碼轉換器中進行。后者的場合，壓縮圖像中的對象的邊界塊，被用來抽出形狀特征。在本發(fā)明的一個模式中，不同的對象可以有不同的時間分辨率或幀速率。圖4是本發(fā)明的代碼轉換器的方框圖，圖5是本發(fā)明的編碼方法的流程圖，圖6是由圖5的方法所采用的例示的編碼方法的流程圖，圖7是現(xiàn)有的代碼轉換器的方框圖，圖8是現(xiàn)有的部分譯碼器/編碼器的方框圖。希望為對人的面部等更感興趣的對象提供更高的空間質量。這同樣也適用于時間分辨率。但是，在時間分辨率中，存在有重大的微妙性。即，必須要維持景物內的對象間的同步，以便于能規(guī)定所再構筑的景物內的所有的畫素。需要注意的是，壓縮圖像的圖像再構筑，是由大部分的圖像標準(MPEG-1/2/4)的技術規(guī)范部分來規(guī)定，是由現(xiàn)有的譯碼器來處理。因此，對于譯碼器，在本說明書中不再贅述。本說明書中記載的方法和裝置，可適用于基于對象的編碼和代碼轉換系統(tǒng)、以及實時性和非實時性應用。輸入圖像，在編碼過程中不壓縮、而在代碼轉換過程中被壓縮。輸出圖像，在編碼過程中和代碼轉換過程被壓縮。在本說明書中記載的機構和技巧，可以無縫地集成到現(xiàn)有設備的總體結構中。結構問題圖1表示2個圖像對象、即被分割成了前景對象301和后景對象302的景物303。景物，通過組合2個對象可以進行再構筑。在這個簡單的例子中，前景對象是移動的人，后景對象是靜止的墻壁。需要注意的是前景對象和后景對象的畫素，在初始的幀中，規(guī)定景物內的所有的畫素。在將這2個對象用同樣的時間分辨率編碼的場合，在接收設備內的圖像再構筑中在對象的構成方面沒有問題。所再構筑的景物303內的畫素都被規(guī)定了。但是，在對象用不同的時間分辨率被編碼的場合，要產生問題。例如，用15Hz的幀速率編碼背景，而前景，用第1速率的2倍30Hz的幀速率被編碼。一般，2個對象具有獨立的移動，在各幀中改變與各自相關連的畫素。再者，需要注意的是，盡管前景對象還可以做到相對比較靜止，但卻具有較背景對象更高的內部移動。例如，前景紋理豐富，具有移動的雙眼、嘴唇以及其他移動的面部的特征部分，相反，背景是空白的墻壁。因此，希望要用比背景更高的空間和時間分辨率來編碼前景。在本實施例子中，如圖2的圖像序列所示，前景對象相對于背景對象在移動。在從序列401到403中，時間從左移向右。此處，序列401，是用比較低的時間分辨率所編碼過的背景對象；序列402，是用比較高的時間分辨率所編碼過的前景對象；序列403，是被再構筑過的景物。在序列403中，在每隔1幀中產生空洞404。這些空洞，在不更新相鄰的對象或重復的對象的場合，是由1個對象的移動而產生的。空洞，是與哪個對象都不能關聯(lián)的景物的未被覆蓋的區(qū)域，且畫素未被規(guī)定。當再同步(例如隔1幀)對象時空洞就消失。形狀變形度量用于控制和執(zhí)行關于本發(fā)明的對象的時間分辨率的決定的方法和裝置，表示在景物中的形狀變化(變形)量。在本說明書中，對于為此目的所能抽出的許多的形狀特征作了闡述。例如，1個形狀特征，測定即時的對象的形狀差。在抽出和比較了各種各樣的對象的形狀特征之后，編碼器，可以決定在編碼過程中或代碼轉換過程中對于各對象所使用的時間分辨率的量。要即時地測定關于各對象的形狀差。形狀差，與對象間的時間分辨率中的變動量成反比。在固定的時間量中，小的差，表示較大的變動，而大的差，則表示較小的變動。如果再同步對象的間隔的持續(xù)時間變的更長，所保存的位(Bit)，可以被分配給要求更好質量的對象。時間度量最佳合成對象的方法按如下的方式動作。定期的對圖像進行采樣，即時地找出各對象形狀間的差。在對象的形狀差即時地小的場合，增加用于測定差的采樣周期。將采樣周期一直持續(xù)增加到差比指定的閾值D還大。在這個時刻，輸出幀，決定再同步擁有該差的圖像對象，或者要合成對象的新的頻率。頻率可以是基于同步幀之間的平均、最小、或中間時間間隔的。這個頻率，可以用來決定對于每個各種圖像對象的最佳的時間速率。基于差的形狀特征為了簡單起見，考慮僅在2個景物之間的、即從1個幀到下個幀的形狀特征的差。但是，這樣的形狀特征，還可能與在各種各樣的輔助提示級別上的景物相關聯(lián)。輔助提示級別，在2000年4月11日由Vetro等人所提出的美國專利申請第09/546,717號、“AdaptableBitstreamVideoDeliverySystem”中被定義了。在本申請中參照這個文獻作了引用。用抽出形狀特征的輔助提示級別(cuelevel)，時間控制器，可以提供用于達到景物內的對象的時間分辨率的各種各樣的方法。這些方法，可以適用于編碼器和代碼轉換器雙方。漢明距離在本申請中考慮的第1個差，就是眾所周知的漢明距離。漢明距離測定作為2個形狀間的差的畫素個數(shù)。首先，考慮2元形狀，即，分割(α)值僅可以是0或1的場合。此處，0指的是分段面中的透明畫素；1指的是分段面中的不透明畫素。這種情況下，漢明距離d，由下式定義d=Σn=0N-1Σm=0M-1|α1(m,n)-α2(m,n)|]]>其中，α1(m，n)和α2(m，n)是不同時間中對應的分段面。豪斯多夫距離另一個被廣泛采用的形狀差測定，是豪斯多夫距離。豪斯多夫距離，是作為2個畫素集合間的最大函數(shù)來被定義的。h(A，B)＝max{min{d(a，b)}}其中，a和b，分別是2個圖像對象的集合A和B的畫素，d(a，b)是這些畫素間的歐幾里德距離。上述的度量，表示到集合B最近似畫素的集合A中的畫素的最大距離。原因是這個度量不是對稱的。即，h(A，B)和h(B，A)是不等的，更一般定義，用下式表示。H(A，B)＝max{h(A，B)，h(B，A)}需要注意的是這些差的測定，在畫素-域內計算時是最準確的，但在上述的計算中還可以采用來自壓縮-域的近似數(shù)據。畫素-域數(shù)據，雖然在編碼器中容易得到，但對于代碼轉換器來說，譯碼形狀數(shù)據，在計算上不能實現(xiàn)。而代之以，用某種計算上有效的方法可以近似數(shù)據?；诤陦K的形狀特征例如，在MPEG-4中，形狀，用各種各樣不同的摸式編碼、在宏塊級別上進行。例如，在模式內，形狀宏塊，作為不透明宏塊、透明宏塊、或邊界宏塊被編碼。不言而喻，邊界塊來規(guī)定對象的形狀。這些編碼模式，可以用來再構筑2元形狀的宏塊級別的輪廓。不言而喻，不如畫素級別的量度準確，但在復雜性觀點上來看是完全可以實現(xiàn)的。編碼器的結構圖3表示基于本發(fā)明的對象的編碼器500。編碼器具有開關510、形狀編碼器520、移動預估器530、移動補償器540、移動編碼器550、紋理編碼器560、VOP存儲器570、多路轉換器580、輸出緩沖器590、以及元數(shù)據存儲單元591。編碼器，還具有用于進行QP紋理分析器、時間分析器、形狀分析器、以及元數(shù)據分析器593～596的速率控制單元(RCU)592。向編碼器500的輸入，是基于對象的圖像(輸入)501。圖像由圖像序列數(shù)據、以及規(guī)定各圖像對象的邊界的分段面(α)構成。編碼器的動作形狀編碼器520，處理各對象的形狀，通過MUX580和緩沖器590將形狀編碼的結果寫入輸出位流(輸出)509。形狀數(shù)據還可用于移動預估器530、移動補償器540、以及紋理編碼器560。特別是形狀數(shù)據還被用來抽出關于各對象的形狀特征。將對象及其關聯(lián)的形狀和移動特征，存儲到VOP存儲器570。在移動預估器530中，對于個各宏塊決定移動向量。移動向量還被編碼、并通過MUX和緩沖器將其寫入到輸出位流。用從移動預估器所得到的移動向量，由存儲在VOP存儲器570中的圖像對象數(shù)據形成移動被補償過的預測。由輸入對象被541減去這個預測、并生成殘余宏塊的集合。這些殘余的宏塊，被加到紋理編碼器，并將相應的數(shù)據寫入輸出位流。紋理編碼依據由RCU提供的QP控制信號來動作。RCU592的量化參數(shù)(QP)，參與對各圖像對象選擇適當?shù)牧炕瘏?shù)QP。這是用模式、通過依據所分配的速率預估表預估對應的量化參數(shù)QP來進行的。下面詳細闡述時間分析。簡單說來，時間分析參與在編碼過程中和代碼轉換過程中控制各對象的時間分辨率。在現(xiàn)有技術中，如上所述(參照圖8)，為了避免構成問題，所有圖像對象的時間分辨率都是同樣的。因此，在現(xiàn)有技術中，關于各種各樣的對象的時間分辨率，并未被分開獨立考慮。另外在現(xiàn)有技術中，時間分析，在緩沖器有溢出危險的情況下提供了用來跳過所有圖像對象的信號。本發(fā)明，提供更良好的解決方法。例如，比較靜止的對象，用比較快移動對象還慢的幀速率編碼，可以降低整個位速率。在本發(fā)明中，考慮可變時間質量。在本發(fā)明中，用可變時間分辨率可以進行圖像對象的編碼和代碼轉換。形狀分析595，抽出由時間分析所用的形狀特征，參與決定可變時間分辨率是否能不發(fā)生問題的完成、即，即使在各種各樣的對象的的時間編碼速率不同的場合下能否避免空洞。形狀分析，可以在實時編碼模式中作用。此處，數(shù)據，是由VOP存儲器570取得。但是，在編碼器還從與形狀特征(即，已經存在的內容的記述)相關聯(lián)的元數(shù)據存儲單元591接收元數(shù)據的場合，這樣的元數(shù)據，可以用來替代來自VOP存儲器570的形狀數(shù)據，或可以與形狀數(shù)據一起使用。元數(shù)據由元數(shù)據分析處理，與形狀分析同樣，元數(shù)據，幫助決定對各圖像對象的最佳的時間分辨率時的時間分析。代碼轉換器的結構圖4表示基于本發(fā)明的另一種實施方式的對象的代碼轉換器600高級方框圖。此處，輸入圖像是已經被壓縮過的。代碼轉換器600，具有信號分離器(DE-MUX)601、多路轉換器(MUX)602、以及輸出緩沖器603。代碼轉換器600，還具有基于依據控制信息604由代碼轉換控制單元(TCU)610所作用的一個或1個以上對象的代碼轉換器630。單元TCU，具有現(xiàn)狀分析器、QP紋理分析器、時間分析器、以及元數(shù)據分析器611～614。被壓縮過的輸入位流605，由信號分離器分割成基于1個或1個以上對象的基本位流?；趯ο蟮奈涣?，可以是串行或并行的。位流605的整體位速率是Rin。來自代碼轉換器600的被壓縮過的位流606具有整體位速率Rout，且Rout＜Rin。信號分離器601，將1個或1個以上的基本位流提供給基于對象的各代碼轉換器630，基于對象的代碼轉換器，將對象數(shù)據給與TCU610。代碼轉換器，換算基本位流。在被轉交給輸出緩沖器603之前，由多路轉換器602構成被換算過的基本位流，并由此將其轉交給接收設備。輸出緩沖器603，還將速率反饋信息608給與TCU。如上所述，由TCU提供被轉交給各代碼轉換器的控制信息604。如圖4所示，TCU擔負著形狀數(shù)據和紋理的分析611、612。在分析過程中，TCU還可以使用網絡數(shù)據609。TCU還進行元數(shù)據分析614。通過時間質量的分析，使采用可變時間分辨率的代碼轉換成為可能。編碼/代碼轉換方法圖5表示本發(fā)明的用于編碼和代碼轉換圖像輸入701的方法700的步驟。在這個方法中所使用的圖像輸入701，在編碼器500的情況下，是未被壓縮的圖像，在代碼轉換器600的情況下，是被壓縮過的圖像。在步驟710中，圖像輸入701被分割成對象711。步驟720中，從各對象中即時地抽出形狀特征721。形狀抽出，如上所述，可以是根據距離和宏塊進行。步驟730中，即時地從各對象有選擇的抽出移動特征。在為決定最佳的時間分辨率所抽出的可考慮的其它特征中，包括有編碼復雜性、例如，空間復雜性、DCT復雜性、紋理復雜性等。在步驟740中，組合所抽出的特征，在步驟750中，在編碼和代碼轉換各種對象711的時候，來決定所用的時間分辨率741。例示的編碼方案圖6表示幾個基于即時分析圖像對象的展開形狀的例示的編碼方案。此處，輸入是第1和第2所抽出的對象序列801～802。圖線810和820，畫出了形狀特征，例如，在時間(t)內的形狀差(Δ)。需要注意的是時間t1和t2間的對象性狀是比較一定的。圖線811和821，有選擇的畫出了經過一定時間的各對象內部移動特征。要注意的是第1對象內部移動非常小，而第2對象內部移動卻非常高。結合器850(RCU592或TCU610)，考慮用大致是最大、合計、比較、或其他的組合函數(shù)所抽出的特征，來決定在實際編碼中如何將所得到的位最好地在各對象間進行分配。在方案831中，在時間區(qū)間[t1、t2]中，第1對象完全不編碼，將所得到的所有位分配給第2對象。這可以有在時間t1和t2中圖像的質量達到可觀察的顯著突然變化的效果。在較好的方案832中，在時間區(qū)間[t1、t2]中，可以用更低的時間分辨率，或者最好是逐漸減少分辨率，而后逐漸增加。在方案833中，在時間區(qū)間[t0、t1]和[t2、tend]中將更多的位分配給第2對象，接著，在時間區(qū)間[t1、t2]中，反映第2對象的更高的內部移動。上述的新的自由度，使基于對象的代碼轉換框架對于網絡應用成為非常富有特色且是熱切希望的。正如MPEG-2和H.263編碼標準那樣，MPEG-4應用移動補償和DCT來活用圖像的空間-時間冗余。結果，基于本發(fā)明的對象的代碼轉換器的核心，是適應上述的MPEG-2代碼轉換器。主要的區(qū)別是，形狀信息被包含在位流內，關于紋理編碼，為了預測關于塊內的DC和AC要配置工具。要注意到紋理的代碼轉換實際上依賴于形狀數(shù)據，這點也很重要。換句話說，不能簡單的分析、忽視形狀數(shù)據。順應位流的文法依賴于編碼形狀數(shù)據。顯然，基于本發(fā)明的對象的輸入和輸出位流605、606，與基于現(xiàn)有的幀的圖像程序截然不同。另外，MPEG-2不容許動態(tài)的幀跳躍。在MPEG-2中，GOP結構和基準幀通常都是被固定的。非實時方案的場合，內容651和對應的內容描述符652被存儲在數(shù)據庫中。內容描述符，由特征抽出器640生成，這個特征抽出器640，接收基于輸入對象的位流605。一到了發(fā)送內容的時間，輸入位流，如上所述，被給與信號分離器601和代碼轉換器。元數(shù)據，在TCU內被發(fā)送給元數(shù)據分析器614。時間分析的功能性基于對象的編碼器和代碼轉換器中的時間控制器的主要目的，是要避免上述的(參照圖2)結構問題、使接收設備側的構成景物的質量為最高。為了在這些制約之下使質量最好，要盡量活用信號內的時間冗余。根據大部分的圖像編碼方式，在移動補償過程中，要除去時間冗余。但是，對于所有的編碼單元或宏塊要指定移動向量，可能是超出了實際需要。除了對于移動向量的位，還必須要編碼移動補償差的殘余。重要的是，為了要使質量為最高，沒有必要在每個時間來編碼所有的對象。這樣，這些保存位，在不同的時間中，還可以用于其他重要的對象。在非實時的方案中，時間控制器，用形狀變形量度(規(guī)格)，來表示景物內的形狀中的移動量。這個測定，可以與在美國專利申請第09/546,717號中所規(guī)定那樣的各種輔助提示級別上的景物有關連。時間控制器可以提供給與景物內的對象的時間分辨率沖擊的各種方法。這些方法，可以適用于編碼器和代碼轉換器。在實時的方案中，時間控制器以同樣的方式作用。但是，由于潛在的制約限定了觀察，所以只考慮因果數(shù)據。故此，時間編碼決定，是被當即進行的。如上所述，形狀變形量度的抽出，可以在畫素或壓縮域中進行。需要注意的是，不管變形信息是從何處抽出，在時間控制的決定過程中可以導入容許誤差。換言之，在規(guī)定領域中的增益是相當大的場合，有的應用，也可以容許少量沒有被規(guī)定的領域。這種場合，規(guī)定間的加權值。此處，0意味著在形狀的邊界沒有移動；1意味著形狀邊界完全不同。加權值是先前所規(guī)定過的形狀變形度量的函數(shù)，可以對應于百分數(shù)或規(guī)格化值。另一方面，在全然不考慮結構問題的應用中，這個加權值，不存在。更確切的說，只有極端的加權值(即，0或1)是有效的。在接收沒有規(guī)定某種可容許量的畫素的狀況下，利用簡單的后處理插補技術或基于誤差-隱蔽的其他技術可以回收這些畫素?？勺儠r間分辨率編碼的效果和優(yōu)點本發(fā)明的時間控制器提供以下效果和優(yōu)點。決定利用可變時間分辨率可以編碼或代碼轉換對象的瞬間。將被固定的不均勻的幀速率分配給圖像分割的對象。抽出或找出關鍵幀，以便可進行內容的摘要。改善位分配或對于對象形狀的變化大的圖像的部分(幀)保存位。這樣的幀，要求比形狀信息需要的更多的位。為了維持紋理信息的質量還可以要求附加位。通過例示上述實施方式說明了本發(fā)明，不言而喻，在本發(fā)明的精神和范圍內，可以進行各種適應性修改和改變。因此，附加的權利要求范圍的目的在于，涵蓋在本發(fā)明的真正精神和范圍內的這樣的所有的變形和修改。權利要求1.一種用于編碼圖像的方法，包含將上述圖像分割成多個對象的步驟；從各對象中即時地抽出形狀特征的步驟；將上述形狀特征即時地組合、并即時地決定關于各對象的時間分辨率的步驟；根據上述對象對應的時間分辨率對各對象進行編碼的步驟。2.權利要求1記載的用于編碼圖像的方法，其中上述圖像是未經壓縮的數(shù)據，在編碼器中進行上述分割、組合以及編碼。3.權利要求1記載的用于編碼圖像的方法，其中上述圖像是壓縮過的數(shù)據，在代碼轉換器中進行上述分割、組合以及編碼。4.權利要求1記載的用于編碼圖像的方法，其中依據不同的相應的時間分辨率來編碼至少2個對象。5.權利要求1記載的用于編碼圖像的方法，還包含即時地測定各對象的形狀差，進而抽出各對象的形狀特征的步驟。6.權利要求5記載的用于編碼圖像的方法，其中被編碼過的對象的時間分辨率，與上述被編碼過的對象相關的形狀差成比例。7.權利要求5記載的用于編碼圖像的方法，其中上述形狀差，是測定作為上述對象間的差的畫素數(shù)的漢明距離。8.權利要求3記載的用于編碼圖像的方法，其中上述被分割過的對象，有2元形狀，由下式來定義漢明距離dd=Σn=0N-1Σm=0M-1|α1(m,n)-α2(m,n)|]]>其中，α1(m，n)和α2(m，n)是不同時間內對應的分段面。9.權利要求5記載的用于編碼圖像的方法，其中上述形狀差，是作為與上述對象相關的畫素集合間的最大函數(shù)所定義的豪斯多夫距離。10.權利要求9記載的用于編碼圖像的方法，其中上述最大函數(shù)是h(A，B)＝max{min{d(a，b)}}其中，a和b是第1和第2對象集合A和B的各自的畫素，d(a，b)是上述畫素間的歐幾里德距離。11.權利要求1記載的用于編碼圖像的方法，其中上述圖像包含多個幀，各個幀包含多個宏塊，上述宏塊作為不透明塊、透明塊以及邊界塊被編碼。12.權利要求1記載的用于編碼圖像的方法，還包含將上述對象的形狀特征作為元數(shù)據來編碼的步驟。13.權利要求1記載的用于編碼圖像的方法，還包含即時地抽出來自各對象的移動特征的步驟；將上述移動特征和上述形狀特征即時地組合起來、進而即時地決定關于各對象的時間分辨率的步驟。14.權利要求1記載的用于編碼圖像的方法，還包含從各對象即時地抽出編碼的復雜性的步驟；將上述編碼的復雜性和上述形狀特征組合起來、進而即時地決定關于各對象的時間分辨率的步驟。15.權利要求1記載的用于編碼圖像的方法，其中可從上述圖像的多個輔助提示級別抽出上述對象的上述形狀特征。16.一種用于編碼圖像的裝置，包括將上述圖像分割成多個對象的裝置；從各對象即時地抽出形狀特征的裝置；即時地組合上述形狀特征、并即時地決定有關各對象的時間分辨率的裝置；根據上述對象對應的時間分辨率對各對象進行編碼的步驟。17.權利要求16記載的用于編碼圖像的裝置，其中上述分割和抽出的裝置，具有形狀編碼器、移動預估器、移動補償器以及紋理編碼器。18.權利要求16記載的用于編碼圖像的裝置，其中將上述對象和形狀特征存儲到存儲器內。19.權利要求16記載的用于編碼圖像的裝置，其中上述圖像不被壓縮，上述組合的裝置是速率控制單元。20.權利要求16記載的用于編碼圖像的裝置，其中上述圖像被壓縮，上述組合的裝置是代碼轉換控制單元。全文摘要圖像首先被分割成圖像對象。在圖像未被壓縮的場合,分割是用分段面進行。在圖像被壓縮的場合,分割是采用信號分離器。即時地、從被分割過的各對象抽出形狀特征。組合所抽出的形狀特征,對各對象即時地決定時間分辨率。隨后,時間分辨率被用于作為被壓縮過的輸出圖像編碼或代碼轉換各種圖像對象。文檔編號H04N7/26GK1386376SQ01802111公開日2002年12月18日申請日期2001年3月8日優(yōu)先權日2000年5月26日發(fā)明者A·維特羅,H·孫申請人:三菱電機株式會社

完整全部詳細技術資料下載