專利名稱:基于實用函數(shù)描述的最優(yōu)視頻解碼的方法和系統(tǒng)的制作方法
相關(guān)專利的交叉引用本專利申請是基于申請?zhí)枮?0/376,129,2002年4月26日提交的及申請?zhí)枮?0/384,939,2002年5月31日提交的美國臨時專利申請,它們加入這里完全為了參考,并要求對它們的優(yōu)先權(quán)。
發(fā)明
背景技術(shù):
領(lǐng)域本發(fā)明涉及經(jīng)過網(wǎng)絡(luò)提交多媒體內(nèi)容的技術(shù),更具體地涉及由于透明地并適應(yīng)地經(jīng)過廣泛范圍的網(wǎng)絡(luò)傳輸多媒體內(nèi)容。
背景技術(shù):
在21世紀(jì)初期,因特網(wǎng)在交換所有形式的多媒體信息在商業(yè)和消費者中間得到廣泛的使用,圖形技術(shù),文本,聲頻,視頻和其它形式的信息在用戶中不間斷地共享。為了將帶寬需求減少到可處理的等級,多媒體信息常常以標(biāo)準(zhǔn)格式的壓縮的比特流的形式存儲和傳輸。例如,在視聽覺信息情況,廣泛使用JPEG,Motion JPEG,MPEG-1,MPEG-2,MPEG-4,H.261,H.263。
不幸的是,雖然開發(fā)了許多不同類型的標(biāo)準(zhǔn)化多媒體內(nèi)容,并在因特網(wǎng)上可用,當(dāng)前不存在標(biāo)準(zhǔn)的方法對那樣的內(nèi)容控制其訪問,提交,管理和保護(hù)。認(rèn)識到此需要,電影圖象專家組(“MPEG”)為了開發(fā)解決方案最近開始了MPEG-21多媒體架構(gòu)開創(chuàng)工作。如在國際標(biāo)準(zhǔn)化組織(“ISO”)文檔ISO/IECJTC1/SC29/WG11/NS231(2002)中進(jìn)一步描述,MPEG-21的目標(biāo)之一是開發(fā)用于以集成和協(xié)調(diào)的方式提交不同類型內(nèi)容的技術(shù),使得內(nèi)容提交過程對廣泛領(lǐng)域的多媒體用戶是完全透明。
為了實現(xiàn)那樣技術(shù),MPEG-7的部分7提出稱為“數(shù)字項目適應(yīng)-DigitalItem Adaptation”的概念。此概念涉及組成數(shù)字項目的源和描述的適應(yīng)性,以達(dá)到對來自任何類型終端和網(wǎng)絡(luò)的通過多媒體的可互操作的透明訪問。通過實施數(shù)字項目適應(yīng),網(wǎng)絡(luò)中的用戶將不會感覺到網(wǎng)絡(luò)和有關(guān)終端的問題,它們常常影響多媒體內(nèi)容的提交,如網(wǎng)絡(luò)擁堵,質(zhì)量限制,和服務(wù)的可靠性,可以想象,社會各界的用戶都能在他(她)們個人能接收的質(zhì)量水平上共享多媒體的演示。
可能譯碼是最常見的資源適應(yīng)的方法之一,它避免了必須對不同的網(wǎng)絡(luò)帶寬和不同的終端存儲不同的壓縮格式的內(nèi)容。在MPEG-7,提出所謂的譯碼暗示(Trancoding Hints),以便通過在盡可能保持質(zhì)量的同時減少計算的復(fù)雜性能更好地譯碼。
不同的是,提出的MPEG-7譯碼暗示未提供有關(guān)可行的譯碼操作符和它們期望的性能的信息來滿足規(guī)定的目標(biāo)速率。它們看來不提供對滿足為確保透明的適應(yīng)的多媒體內(nèi)容的提交所必須的多種要求有用的解決方案。因而,仍然需要一種技術(shù),用于通過網(wǎng)絡(luò)向具有不同可接收的質(zhì)量等級的廣泛范圍的多媒體用戶提交多種類型的多媒體內(nèi)容。
發(fā)明概述本發(fā)明的一個目標(biāo)是提供一種技術(shù),用于通過網(wǎng)絡(luò)向具有不同可接收的質(zhì)量等級的廣泛范圍的多媒體用戶提交多種類型的多媒體內(nèi)容。
本發(fā)明的另一個目標(biāo)是提供多媒體內(nèi)容描述技術(shù),它對滿足若干要求有用。
為滿足這些目標(biāo)和參考下面進(jìn)一步描述變得明確的本發(fā)明的其他目標(biāo),本發(fā)明提供了用于從壓縮的多媒體信息生成基于實用性的描述符的技術(shù)。較佳的方法包括下列步驟接收至少一段壓縮的多媒體信息的步驟;基于一個或多個適應(yīng)性操作確定基于實用性的描述符信息的二個或多個部分,每個對應(yīng)于單獨的目標(biāo)速率;通過基于實用性的描述符信息的每個部分,適應(yīng)經(jīng)壓縮的多媒體段,以生成適應(yīng)的多媒體段;使用質(zhì)量管理方法以生成對每個適應(yīng)的多媒體段的質(zhì)量測量;和根據(jù)基于實用性的描述符信息和相應(yīng)的質(zhì)量測量生成基于實用性的描述符。
在一較佳實施例中,壓縮的多媒體信息是MPEG-4數(shù)據(jù),且利用10到20個基于實用性的描述符信息的部分?;趯嵱眯缘拿枋龇畔⒌闹T部分可以均勻的或非均勻地采樣。較有利的是,適應(yīng)操作包括幀丟失,或者通過丟失第一B幀,或者丟失所有B幀,且還能包括系統(tǒng)丟失。
在另外實施例中,本發(fā)明提供用于向二個或多個用戶提交壓縮的多媒體信息的系統(tǒng)和方法,每個信息具有不同的目標(biāo)比特率。在一種安排中,方法包括下列步驟接收至少一段壓縮的多媒體信息和相應(yīng)的基于實用性的描述符;將該基于實用性的描述符分折成各部分,每個對應(yīng)于對每個用戶的單獨的目標(biāo)比特率;選擇對應(yīng)于對每個用戶的單獨的目標(biāo)比特率的基于實用性的描述符部分;通過對每個用戶選擇的基于實用性的描述符部分,適應(yīng)該經(jīng)壓縮的多媒體段。在適應(yīng)步驟中,能利用來自用戶或來自網(wǎng)絡(luò)的目標(biāo)比特率反饋信息。
加入本專利說明并組成其一部分的附圖示出了本發(fā)明的較佳實施例,并用于解釋本發(fā)明的原理。
附圖簡述
圖1是示出在適應(yīng)空間,實用空間,和資源空間之間的關(guān)系的功能圖;圖2是接本發(fā)明的示例系統(tǒng)的方框圖;圖3是示出通過幀丟失和系數(shù)丟失的組合定義的二維適應(yīng)空間的原理圖;圖4是示出按本發(fā)明的示例實用函數(shù)的圖;圖5(a)-(c)是示出圖4中所示的示例實用性函數(shù)的各種變化的圖;圖6是按本發(fā)明的示例性基于實用性的描述工具的原理圖;和圖7是按本發(fā)明的示例性基于實用性的描述符的原理圖。
在這些圖中,除非另作說明,相同的參照序號和字符采用同一標(biāo)記示出實施例的類似特征,單元,組件或部分。此外,本發(fā)明將參考諸圖結(jié)合示例性發(fā)明詳述參考圖1,將描述本發(fā)明的一示例性實施例?;趯嵱脩训募軜?gòu)通過模型化下列關(guān)鍵參數(shù)之間的關(guān)系提供有效的視頻適應(yīng)的系統(tǒng)方法適應(yīng)操作、資源、和實用性。一般而言,適應(yīng)操作采取空間域適應(yīng),時間域適應(yīng),或基于對象的適應(yīng)的形式,空間域適應(yīng)能包括空間分辨率縮減和質(zhì)量或信噪比適應(yīng),如重新量化或CDT系數(shù)丟失。時間域適應(yīng)包括幀丟失,而基于對象的適應(yīng)能包括視頻對象優(yōu)先化和/或丟失。由那些適應(yīng)方法的任一種確定的具體操作在這里被稱為適應(yīng)操作。
資源包括從終端設(shè)備和網(wǎng)絡(luò)能力的可得到的支撐,如帶寬,計算能力,容量,和顯示尺寸等。實用性包括從具體適應(yīng)操作導(dǎo)致的內(nèi)容的質(zhì)量。實用性能以客觀方式質(zhì)量,如通過確定峰值信噪比(“PSNR”),或如通過主觀的質(zhì)量打分以主觀方式質(zhì)量。圖4示出適應(yīng)、資源和實用性的多維空間和它們在應(yīng)用到MPEG-4壓縮視頻時的互相關(guān)系。
適應(yīng)空間110表示對一個式多個選定的適應(yīng)方法的所有可能的適應(yīng)操作的概念空間。適應(yīng)空間的每一維度代表一類適應(yīng)操作,并具有表示相關(guān)的適應(yīng)操作的某個主要指數(shù)。例如,在幀丟失和系數(shù)丟失均被利用時,在適應(yīng)空間中有兩個維度幀丟失和系數(shù)丟失。幀丟失的維度能通過幀丟失的量賦以指數(shù),如不丟失、在圖形的子組(“GOP”)中丟失的所有B幀(子GOP包括從I或P幀開始持續(xù)到下一I或P幀的一組順序幀),在每個GOP中丟失的所有B和P幀.系數(shù)丟失維度能通過由系數(shù)丟失達(dá)到的速率減少的百分比來賦以指數(shù),如無丟失,10%,20%等,能以這樣方式定義適應(yīng)空間中的一組離散點,每一點代表由幀丟失和系數(shù)丟失的具體組合指定的適應(yīng)操作。
在某些應(yīng)用中,資源限制能包括若干類型的資源。例如,為了對某些手持設(shè)備提供視頻流服務(wù),如空是分辨力或計算能力等因素也;應(yīng)與帶寬一起考慮。通常,所有滿意的資源類型由多維資源空間表示。實用性空間能包括多維中的屬性。除PSNR以外,如平均的看法尺度(“MOS”)的主觀偏愛,時間上的光滑性能一起包括在其他維度中。
再參考圖1,視頻段101是經(jīng)受適應(yīng)操作的單位,每一點代表在適應(yīng)空間中的特定適應(yīng)操作。適應(yīng)的視頻段具有分別表示成資源和實用性空間中對應(yīng)點的資源和實用性的最終值。在資源空間中打陰影的主方體代表由應(yīng)用規(guī)定的資源約束。注意,可以存在滿足同一資源需求的多個適應(yīng)操作。映射到資源空間中一點的適應(yīng)空間中的橢圓型區(qū)域示出那樣的實用性值。適應(yīng)空間中的矩形區(qū)域代表那樣的恒定實用性組。
使用基于實用性的架構(gòu),視頻適應(yīng)能如下公式化給定某些資源約束,確定最優(yōu)適應(yīng)操作,使得適應(yīng)的視頻的實用性最大化。因為大多數(shù)看來認(rèn)為在UMA范式中的適應(yīng)問題能如此公式化,那樣受資源約束的實用性最大化能認(rèn)為是多媒體適應(yīng)的基本情況。雖然作業(yè)受資源約束聽實用性最大化的例子,這里揭示的是針對優(yōu)化幀丟失和系數(shù)丟失譯碼來滿足可用的帶寬,本專業(yè)技術(shù)人員理解,本發(fā)明的基于實用性的架構(gòu)能容易地包括在實用性空間中的約束,并針對整個資源的最小化。
接著參考圖2,將描述按本發(fā)明的系統(tǒng)。服務(wù)器計算機210適應(yīng)于接收存儲的視頻211和/或其播的視頻212。視頻最好以壓縮形式,如MPEG-1,MPEG-2或MPEG-4,雖然能提供未壓縮的數(shù)字的視頻給服務(wù)器,在那里進(jìn)行壓縮。服務(wù)器210包括以任何可用的編程語言書寫的軟件,用于根據(jù)接收的視頻以基于實用性的描述符的形式生成實用性函數(shù),按本發(fā)明及下面的詳述,該描述符是對壓縮的視頻的某些修改的表征,如通過消除導(dǎo)致預(yù)定等級質(zhì)量的雙向預(yù)測(“B”)幀丟失或系數(shù)。壓縮的域視頻和相關(guān)的實用性函數(shù)經(jīng)過如因特網(wǎng)或具有足夠帶寬來發(fā)送該壓縮的視頻以轉(zhuǎn)移網(wǎng)絡(luò)提交。發(fā)送的信息由網(wǎng)絡(luò)計算機230接收,后者轉(zhuǎn)而用作系統(tǒng)的視頻適應(yīng)引擎。
具體說來,網(wǎng)絡(luò)計算機230包括也以任何可用的編程語言書寫的軟件,以便將輸入的壓縮視頻適應(yīng)到由相關(guān)接入網(wǎng)絡(luò)240服務(wù)的若干客戶機設(shè)備250、251、252、253的特定帶寬需求。按本發(fā)明和下面的詳述,網(wǎng)絡(luò)計算機230使用由服務(wù)器210生成為基于實用性的描述符,以便將輸入的壓縮視頻適應(yīng)到那樣的帶寬需求。此外,網(wǎng)絡(luò)計算機230能從客戶機用戶接收偏愛信息241,和/或從網(wǎng)絡(luò)接收可用的帶寬信息242,以便優(yōu)化其適應(yīng)操作。
接入網(wǎng)絡(luò)240可以是因特網(wǎng),內(nèi)聯(lián)網(wǎng),或?qū)S芯W(wǎng)絡(luò),如將移動電話用戶終端253鏈接到網(wǎng)絡(luò)計算機230的無線網(wǎng)絡(luò)。在帶寬有限的網(wǎng)絡(luò)上的視頻流的應(yīng)用中,通過適應(yīng)工具,擬提交的視頻流的比特率實時地適應(yīng)到隨時變換的帶寬。
在較佳安排中,服務(wù)器計算機210使用幀丟失和系數(shù)丟失的組合,用于將不能伸縮的視頻適應(yīng)到動態(tài)帶寬。然而本專業(yè)技術(shù)人員理解,能使用其它譯碼技術(shù)來調(diào)節(jié)視頻流的比特率,用于動態(tài)帶寬適應(yīng),如重編碼,DCT系統(tǒng)的重新變化,基于對象的譯碼,和圖象尺寸的縮減。精細(xì)粒度可伸縮性(“FGS”-Fine-Granular-ScalabiLity)以及它的已作為MPEG-4中新的可伸縮的編碼工具采用的某些變化形式也能通過選擇合適數(shù)目的可伸縮流的比特平面,將FGS流動態(tài)適應(yīng)到隨時間變化的帶寬。
幀丟失和系數(shù)丟失是用低的計算復(fù)雜性的速率適應(yīng)的簡單方法,因為它們涉及通過壓縮的域處理,截斷對應(yīng)于擬丟失的具體幀的DCT系數(shù)的符號的比特序列部分。此外,對于在移動無線網(wǎng)絡(luò)上視頻流的應(yīng)用,它們更適合于低延時實時操作,這是在譯碼代理中非常需要的。
此外,幀丟失和系數(shù)丟失的組合使能通過調(diào)節(jié)空間和時間質(zhì)量適應(yīng)視頻流的速率;幀丟失通過丟失某些幀調(diào)節(jié)幀速率;系數(shù)丟失通過丟失與高頻分量有關(guān)的某些DCT系數(shù)調(diào)節(jié)空間質(zhì)量。由于組合了兩個或多個譯碼方法,增加了速率減少的動態(tài)范圍。
接著描述幀丟失。幀丟失是典型種類的時間譯碼,它通過從輸入視頻流丟失某些幀來調(diào)節(jié)幀速率。由于其有效性和簡單性,它常在視頻流應(yīng)用中用于帶寬變化的速率適應(yīng)。要考慮的一個因素是擬丟失的幀的選擇。例如,當(dāng)由編碼幀(“P幀”)被丟失時,與丟失的幀的有關(guān)幀被重新編碼。
因此,較佳的是通過考慮輸入視頻湛流的序列結(jié)構(gòu),在圖形(“GOP”)單位中只丟失沒有解碼依賴性的那些B幀和/或P幀。幀丟失只提供對目標(biāo)速率的粗略近似,因為能去除的最小數(shù)據(jù)單位是一個完整的幀。因而,通過指定擬丟失的幀類型,而不是通過由丟失擬達(dá)到的減少速率來確定可能的幀丟失操作。
對于在錨定幀之間具有3個圖象的子組(M=3),能如下確定依賴于假定的GOP中丟失一個B幀;丟失所有B幀,和丟失所有B幀和P幀,這導(dǎo)致只有I幀的序列。對于在兩個相繼錨幀之間具有一個I圖形的子組(M=1)的GOP,認(rèn)為P幀從每個GOP末端丟失,使得最P幀丟失,最后兩個P幀丟失,到在每個GOP中所有P幀丟失。
雖然擬丟失幀的幀選擇是有限制的,由于比特率減少的量以及單獨由于質(zhì)量,此方法已十分足夠,或可以結(jié)合系數(shù)丟失(下面討論),以平衡幀丟失的希望的時間適應(yīng)與系數(shù)丟失的空間適應(yīng)。應(yīng)當(dāng)注意,丟失幀能引起幀跳動,因為丟失的幀通常被前面的幀替代。在錨定幀之間具有多于一個圖形(M>1)的GOP結(jié)構(gòu)的第一種情況,定義的譯碼操作均勻地將丟失的幀分布在時間范圍內(nèi),導(dǎo)致更良好的時間質(zhì)量。另一方面,需要專門的動態(tài)參與者,他在在(M=1)的GOP的情況對每個來自經(jīng)譯碼的流的解碼的幀調(diào)節(jié)演示時間,以減少由于不均勻地在GOP丟失幀引起的煩人的效果。
接著描述系數(shù)丟失。在執(zhí)行DCT系數(shù)上頻率域的操作的空間適應(yīng)中存在兩個基本方法。第一種是重新量化,即通過利用粗略的量化等級修改量化系數(shù),以減少比特率。第二種是系數(shù)丟失,其中對圖象質(zhì)量不太重要的高頻系數(shù)被截去。系數(shù)丟失是較佳的,因為它比重新量化更適合快速處理,而重新量化需要實行重編碼類型的算法。
更具體說,假設(shè)在每塊終點一組DCT系數(shù)全程碼被消除,在截斷后被保持的每塊中的DCT系數(shù)碼的數(shù)稱為斷點。對每塊的斷點能使用拉格陰日優(yōu)化確定,它在逐幀的基礎(chǔ)上滿足所需目標(biāo)速率的同時最小化由系數(shù)丟失引起的失真。在優(yōu)化的速率失真公式中,能采用不需要存儲器的算法,那樣的算法不考慮由于移動補償引起的累計誤差,且由于每個圖形的簡單性將其處理成內(nèi)編碼圖形。不顧累計誤差沒有很大影響質(zhì)量且允許達(dá)到基本優(yōu)化(在0.3dB內(nèi))的特性。
在給定的視頻段和目標(biāo)速率中,我們首先假設(shè)均勻丟失,它給出不同幀之間的均勻速率減少。然而在單個幀中,我們完成上述優(yōu)化的非均勻丟失,它用塊中不同的斷點給出不同的速率減少,同時滿足給定幀的目標(biāo)速率。
與幀丟失不同,在那里因為能被去除的最小數(shù)據(jù)單位是一個完整的幀,能縮減的率是限于若干值,而系數(shù)丟失通過調(diào)節(jié)丟失的系數(shù)的量在速率縮減的上界之內(nèi)提供十分精確地滿足可用帶寬的能力并提供可用的帶寬,較佳地,只丟失AC DCT系數(shù),以避免當(dāng)所有系數(shù)丟失時引起的某些復(fù)雜的語法改變并確保最小的必須質(zhì)量。速度減少的上界取決于輸入的視頻流??梢酝ㄟ^規(guī)定擬達(dá)到的速率減少的百分比,而不是直接規(guī)定丟失的系數(shù)本身來確定許多系數(shù)丟失操作。例如,系數(shù)丟失(10%)的表示通過系數(shù)丟失輸入視頻流的位速流的10%的減少。
接著描述幀丟失與系數(shù)丟失的組合。對較高的速率減少,單獨的幀丟失或系數(shù)丟失不足以適應(yīng)可用的帶寬。而且,雖然通過使用系數(shù)丟失,連續(xù)速率適應(yīng)雖可能的,通過幀丟失只有少數(shù)離散點是可達(dá)到的。因而,幀丟失和系數(shù)丟失的組合能夠擴展可減少速率的動態(tài)范圍。兩者的組合通過優(yōu)化空間和時間質(zhì)量之間的權(quán)衡還能比單使用任一種技術(shù)產(chǎn)生更好的百分比質(zhì)量,尤其對大的速率減少。例如,為了在很低的幀速率下減少幀跳動,在滿足同一速率減少的同時,時間的分辨力能與空間質(zhì)量權(quán)衡。
接著參考圖3,示出由幀丟失和系數(shù)丟失的組合確定的二維適應(yīng)空間。每點代表幀丟失/系數(shù)丟失組合的譯碼操作。注意,在系數(shù)丟失和幀丟失的組合中應(yīng)考慮操作次序的影響。例如,有兩種不同次序的操作的組合達(dá)到同一點310∶20%的系數(shù)丟失接著B幀丟失,或B幀丟失接著20%系數(shù)丟失。若采用基于速率的均勻系數(shù)丟失,其中貫穿諸幀應(yīng)用相同的速率減少,則兩者情況的結(jié)果是相同的。然而,在各幀之間分配不同的減少速率,以根據(jù)速率分配達(dá)到整體優(yōu)化的系數(shù)丟失的情況,不同的操作次序?qū)е聹p少速率和質(zhì)量的不同結(jié)果。雖然本專利揭示針對前者,本發(fā)明考慮兩種情況。
接著描述實用性函數(shù)的生成。一般而言,圖1中示出的適應(yīng)性空間,資源空是,和實用性空間之間的關(guān)系能根據(jù)實用性函數(shù)模型化。實用性函數(shù)能定義成將用戶的滿意指數(shù)表示成資源的函數(shù)的媒體質(zhì)量的度量。在本發(fā)明的情況,適應(yīng)空間是指定幀丟失和系數(shù)丟失的組合的二維空間,資源空間包括隨時間變化的可用帶寬,而實用性空間包括譯碼的視頻流的信噪比測量。
接著參考圖4,示出由應(yīng)用到以1.5Mbps編碼并在小于200Kbps的帶寬范圍上適應(yīng)的,以前存儲的MPEG-4壓縮的視頻數(shù)據(jù)“Coastguard”的,由組合的幀丟失/系數(shù)丟失譯碼方法生成的示例實用性函數(shù)。圖4是畫出的Kbits/(千比特/秒)的目標(biāo)速率對PSNR的圖,并示出四條曲線410,420,430,440,它們代表目標(biāo)速率和PSNR質(zhì)量之間的關(guān)系,每個對應(yīng)在示例實用性函數(shù)中不同的適應(yīng)操作。
在該例中,利用四個不同的幀丟失操作和六種系數(shù)丟失操作。幀丟失操作包括無幀丟失,每個子GOP中丟失一個B幀,丟失所有B幀,和丟失所有B幀和P幀。六個系數(shù)丟失操作設(shè)成原始測試視頻流的比特率的0%,10%,20%,30%,40%和50%的減少。以此方式存在23種組合操作,它們采用確定的幀丟失和系數(shù)丟失操作的不同組合。那些23個操作示作在曲線420,430,440和450中的離散點,它們分別示出當(dāng)不丟失幀420,丟失一個B幀430,丟失所有B幀440,和丟失所有B幀和P幀時對各種系數(shù)丟失操作的點的組。
圖4還示出通過級聯(lián)完全解碼和重新編碼獲得的重編碼曲線410,因而能看作對譯碼操作的性能比較的參照。重要的是應(yīng)注意,對給定的目標(biāo)帶寬,具有滿足同一目標(biāo)速率的多個適應(yīng)操作。選擇帶有最高視頻實用性的最優(yōu)操作。
如圖4所示,實用性函數(shù)依賴于視頻內(nèi)容的類型,輸入視頻流的選擇的編碼參數(shù),和應(yīng)用的譯碼方法。共享同一內(nèi)容類型和譯碼方法的給定視頻段,生成實用性函數(shù)需要通過測試所有可能的操作對一族確定的適應(yīng)操作重復(fù)計算PSNR質(zhì)量和速率。
接著描述對直播視頻的實用性函數(shù)生成。對先前記錄的視頻,如圖4的情況實用性函數(shù)能在服務(wù)器中離線處理,其中計算開銷是不重要的。然而由于需要大量的重復(fù)計算,此選擇對直播視頻通常是不可接收的解決方法。因而,可使用基于內(nèi)容的實用性預(yù)測解決方法來預(yù)測在直播視頻中的實用性函數(shù)。
通常,視頻能映射到事先根據(jù)可計算的內(nèi)容特征,如從壓縮的流中提取的移動活動和空間活動,準(zhǔn)備的各不相同的實用性分布類別。因而,對直播視頻事先準(zhǔn)備對應(yīng)于預(yù)期的輸入視頻流的實用性函數(shù)。
形成對直播實用性函數(shù)的預(yù)測是兩步的過程,首先利用適應(yīng)的內(nèi)容分類循環(huán);第二步利用實時估計路徑。在適應(yīng)的內(nèi)容分類循環(huán)中離線生成和分類復(fù)蓋整個內(nèi)容的類型的一組實用性函數(shù)。隨后,當(dāng)接收直播視頻流時,實時估計路徑對每個視頻段選擇相關(guān)的實用性函數(shù),以便實時地保持相同的內(nèi)容。
接著描述實用性函數(shù)的描述。在基于實用性的架構(gòu)中,表示適應(yīng)、資源、和實用性空間的分布的實用性函數(shù)與相關(guān)的視頻流一起提交給如位于網(wǎng)絡(luò)計算機230的適應(yīng)性引擎。該描述符的主要目的是描述三個空間(適應(yīng)、資源、和實用性)的分布和它們之間的關(guān)系,以便以有效的方式支撐各種類型的使用情況。描述符應(yīng)向適應(yīng)性引擎提供關(guān)于什么是滿足受阻制的資源和有關(guān)的實用性的可能適應(yīng)性操作的足夠信息。
為了描述如圖4的實用性函數(shù),將比特率的范圍采樣到有限的點組,然后使用采樣的資源點作為索引描述能達(dá)到該資源及相關(guān)的PSNR值的所有可行的幀丟失一系數(shù)丟失組合操作。一般,多維資源空間上的有限點組在描述中被定義成索引。
能根據(jù)適應(yīng)空間的分布的特征,通過考慮描述的有效懷和采樣點的數(shù)目選擇資源空間的線性或非線性采樣。在資源及對應(yīng)的適應(yīng)操作和實用性的兩個相繼的點之間的內(nèi)播也以線性或非線性的方式進(jìn)行。然而在適應(yīng)性的情況,應(yīng)該注意,不象系數(shù)丟失的情況,在不同幀丟失操作之間內(nèi)播是不可行的。
通過規(guī)定具體的適應(yīng)方法,受限制的資源、和按照預(yù)期的應(yīng)用的實用性,描述符能支撐大部分資源受限制的情況。
某些適應(yīng)操作能不借助質(zhì)量單獨定義。例如,“在每幀中通過丟失DCT系數(shù),10%地減少比特率[表示成系數(shù)丟失(10%)]”的操作不規(guī)定擬丟失的確切的系數(shù)組。不同的實現(xiàn)能選擇不同的組,且導(dǎo)致稍為不同的實用性值。結(jié)果,關(guān)系到特定操作的實用性值是不可靠的。
另一方面,某些適應(yīng)方法由于它們借助適應(yīng)性的明確的表示格式不引起含糊的結(jié)果。例如,如JPEG-2000和MPEG-4FGS那樣可伸縮的壓縮格式提供明確定義的可伸縮的層次。只要解碼器符合這些標(biāo)準(zhǔn),這些層次的子集能以按照相同的產(chǎn)生的質(zhì)量的方式截斷。
為了著手解決此不明確的問題利用質(zhì)量分級。在某些應(yīng)用中,每個適應(yīng)的媒體的實用性的絕對值是不重要的,但相反,在滿足同一資源的不同適應(yīng)操作中某些值的相對等級能是關(guān)鍵的。在那些情況,達(dá)到等級一致性的或然率高于絕對值的一致性。在此意義上,描述符描述等級而非實用性值,以便即使由于不明確該質(zhì)量值不可靠,仍提供質(zhì)量的概念。此外,描述符能包括表示分等級是否在各實現(xiàn)中一致的標(biāo)志。假設(shè)在實際的實現(xiàn)中存在某些一致性,能獲得該標(biāo)志的經(jīng)驗值。
接著參考圖5(a)-(c),示出為獲得一致性標(biāo)志的值根據(jù)系數(shù)丟失的不同實現(xiàn)導(dǎo)出的實用性函數(shù)的變化。圖5(a)是圖4的翻版;圖5(b)示出應(yīng)用于同樣數(shù)據(jù)的同一曲線,不同的是選擇宏塊優(yōu)化;圖5(c)再次示出應(yīng)用于同樣數(shù)據(jù)的同一曲線,不同的是使用純基于速率的均勻系統(tǒng)丟失,沒有塊之間的優(yōu)化。
如圖5(a)-(c)所示,在不同實現(xiàn)的實用性函數(shù)中有值得注意的實用性值的變化。能有若干操作,帶有達(dá)到同一比特率的不同的質(zhì)量。在除了圖5(c)中由陰影框復(fù)蓋的范圍外比特率范圍的某些部分中,那樣借助質(zhì)量的等速率操作的等級在不同的實現(xiàn)中是一致的。即使在陰影框中,根據(jù)操作存在等級的一致性。即,丟失所有B幀和丟失和系數(shù)丟失的操作不論什么實現(xiàn)具有最壞的實用性。根據(jù)此觀察,描述符對每個操作符描述等級和可選的標(biāo)志,以完全表示等級的一致性。
接著參考圖6,示出示例性基于實用性的描述符。描述符提供一組適應(yīng)性描述符610,其中每一個通過包括資源和實用性單元和實用性函數(shù)描述與一適應(yīng)性方法相關(guān)的實用性函數(shù)。描述符使能按照通過規(guī)定由如組合的幀丟失和系數(shù)丟失的屬性列舉之一的預(yù)期情況,選擇確定的適應(yīng)性方法。
資源620和實用性630描述符分別確定受限制的資源,和與擬借助名字和單位描述的實用性函數(shù)640相關(guān)的實用性。尤其是允許資源域或620的多個示例適應(yīng)于多維資源空間。實用性函數(shù)(Utility Function)描述符640將一組可能的適應(yīng)運算符和相關(guān)的實用性表示成資源點的函數(shù)。
接著參考圖7,示出示例的實用性函數(shù)描述符640。實用性函數(shù)描述符640包括一組資源點710,其每一個包括一組適應(yīng)性操作符Adaption Operator)720,以描述滿足由資源值Resource Value)730描述的受限制的資源的采樣值的所有可能的適應(yīng)性操作。通過選擇對應(yīng)的單元描述具體適應(yīng)性方法的特定適應(yīng)性操作。例如幀系數(shù)丟失(Frame Coeff Dropping)740能用于通過規(guī)定擬被丟失的幀的類型和數(shù)目,以及由于截斷系數(shù)擬減少的比特率的百分比,描述幀丟失/系數(shù)丟失組合譯碼的特定操作。如上注意到,能使用如小波減少(WaveletReduction)750那樣的其他操作,以便通過規(guī)定擬被截斷的等級和比特平面的數(shù)目描述具體的小波減少的操作。適應(yīng)性操作符FGS770能用于通過規(guī)定FGS幀的比特平面的數(shù)目,和/或擬從增強的層次截斷的FGST幀的比特平面的數(shù)目,描述FPEG-4的精細(xì)粒度可伸縮性(“FGS”)流的具體操作。
除了適應(yīng)性操作外,相關(guān)的實用性值由Utility Value(實用性值760描述。在規(guī)定適應(yīng)性操作中適應(yīng)性方法發(fā)生在明確的地方,例示了Utility Rank Information(實用性等級信息)761而非Utility Value,來描述與代表等級的一致性的可選的一致性Flag(標(biāo)志)的屬性相關(guān)的操作的等級。
上面僅示出本發(fā)明的原理。按這里的教義,對描述的實施例的各種修改和更改對于本專業(yè)的技術(shù)人員是顯而易見的。因而可以理解,本專業(yè)技術(shù)人員能設(shè)計各種系統(tǒng)和方法,它們雖然不是這里明顯示出或描述的,但體現(xiàn)了本發(fā)明的原則,因而在本發(fā)明的精神和范圍之中。
權(quán)利要求
1.用于從壓縮的多媒體信息生成基于實用性的描述符的方法,所述方法包括下列步驟(a)接收所述壓縮的多媒體信息至少一段;(b)根據(jù)一個或多個適應(yīng)性操作確定基于實用性的描述符信息的二個或多個部分,其每一個對應(yīng)于對所述一個或多個適應(yīng)性操作的特定的一個或多個資源的約束;(c)借助所述基于實用性的描述符信息的所述兩個或多個部分的每一個適應(yīng)所述接收的經(jīng)壓縮的多媒體段,以生成兩個或多個適應(yīng)的多媒體段,每個對應(yīng)于所述兩個或多個部分的不同者;(d)使用質(zhì)量測量方法以生成對所述兩個或多個適應(yīng)的多媒體段的每一個的質(zhì)量測量;和(e)根據(jù)所述兩個或多個部分的所述基于實用性的描述符信息和所述對應(yīng)的質(zhì)量測量生成基于實用性的描述等。
2.如權(quán)利要求1的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括MPEG-4數(shù)據(jù)。
3.如權(quán)利要求1的方法,其特征在于,所述壓縮的多媒體信息包括MPEG-2數(shù)據(jù)。
4.如權(quán)利要求1的方法,其特征在于,所述壓縮的多媒體信息包括MPEG-1數(shù)據(jù)。
5.如權(quán)利要求1的方法,其特征在于,所述資源約束包括目標(biāo)速率信息。
6.如權(quán)利要求1的方法,其特征在于,所述確定步驟包括根據(jù)一個或多個適應(yīng)性操作確定基于實用性的描述符信息的5個到100個部分。
7.如權(quán)利要求6的方法,其特征在于,所述的基于實用性的描述符信息的部分包括均勻采樣的數(shù)據(jù)。
8.如權(quán)利要求6的方法,其特征在于,所述基于實用性的描述符信息部分包括非均勻采樣的數(shù)據(jù)。
9.如權(quán)利要求6的方法,其特征在于,所述確定步驟包括根據(jù)兩個或多個適應(yīng)性操作確定基于實用性的描述符信息的十個或更多部分。
10.如權(quán)利要求1的方法,其特征在于,所述確定步驟包括根據(jù)兩個或多個適應(yīng)性操作確定基于實用性的描述符信息的兩個或多個部分。
11.如權(quán)利要求1的方法,其特征在于,所述一個或多個適應(yīng)性操作包括丟失幀。
12.如權(quán)利要求11的方法,其特征在于,所述幀包括所述接收的段的圖形的每個子組中的第一B幀。
13.如權(quán)利要求11的方法,其特征在于,所述幀包括在所述接收的段的圖形的每個組中的所有B幀。
14.如權(quán)利要求11的方法,其特征在于,所述一個或多個適應(yīng)性操作還包括DCT系數(shù)丟失。
15.如權(quán)利要求1的方法,其特征在于,所述一個或多個適應(yīng)性操作還包括MPEG-4精細(xì)粒度可伸縮性流的截斷。
16.如權(quán)利要求15的方法,其特征在于,所述一個或多個適應(yīng)性操作還包括指定一系列擬截去的MPEG-4FSG幀的比特平面。
17.如權(quán)利要求15的方法,其特征在于,所述一個或多個適應(yīng)性操作還包括指定一系列擬截去的FGST幀的比特平面。
18.如權(quán)利要求15的方法,其特征在于,所述一個或多個適應(yīng)性操作還包括指定一系列擬截去的FSG幀和FGST幀的比特平面。
19.如權(quán)利要求1的方法,其特征在于,還包括在步驟(c)之前,從兩個或多個可用的測量方法選擇所述質(zhì)量測量方法的步驟。
20.如權(quán)利要求1的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括存儲的視頻信息。
21.如權(quán)利要求1的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括直播的視頻信息。
22.如權(quán)利要求1的方法,其特征在于,還包括在步驟(e)之前將所述質(zhì)量測量分等級的步驟。
23.用于向一個或多個用戶提交經(jīng)壓縮的多媒體信息的方法,每個用戶具有一個或多個資源約束,所述方法包括下列步驟(a)接收至少一段所述經(jīng)壓縮的多媒體信息和對應(yīng)的基于實用性的描述符;(b)將所述基于實用性的描述符分折成兩個或多個部分描述信息,每部分對應(yīng)于不同的一個或多個資源約束;(c)對所述一個或多個用戶的每一個,選擇所述兩個或多個基于實用性描述符信息部分中的一個(若有的話),它對應(yīng)于對所述用戶的所述資源約束;和(d)對所述一個或多個用戶的每一個,借助所述選下的基于實用性的描述符信息部分適應(yīng)所述接收的經(jīng)壓縮的多媒體段。
24.如權(quán)利要求23的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括MPEG-4數(shù)據(jù)。
25.如權(quán)利要求23的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括MPEG-2數(shù)據(jù)。
26.如權(quán)利要求23的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括MPEG-1數(shù)據(jù)。
27.如權(quán)利要求23的方法,其特征在于,所述資源約束包括目標(biāo)速率信息。
28.如權(quán)利要求23的方法,其特征在于,還包括內(nèi)插的步驟,對于在步驟(c)中未選擇所述兩個或多個基于實用性描述符信息部分中的所述一個或多個用戶的每一個,在來自所述兩個或多個基于實用性的描述符信息部分的兩個相繼的基于實用性的描述符信息部分之間,生成一內(nèi)插的基于實用性的描述符,它近似地對應(yīng)于對所述用戶的所述資源約束。
29.如權(quán)利要求23的方法,其特征在于,所述分折步驟包括將所述接收的基于實用性的描述符分折成5個到100個部分,每部分對應(yīng)于一個或多個資源約束的單獨組。
30.如權(quán)利要求23的方法,其特征在于,基于實用性的描述符信息的所述諸部分被均勻地采樣。
31.如權(quán)利要求23的方法,其特征在于,基于實用性的描述符信息的所述諸部分被非均勻地采樣。
32.如權(quán)利要求23的方法,其特征在于,所述適應(yīng)步驟包括丟失幀。
33.如權(quán)利要求32的方法,其特征在于,所述幀包括所述接收的段的圖形的每個子組中的第一B幀。
34.如權(quán)利要求32的方法,其特征在于,所述幀包括所述接收的段的圖形的每個組中的所有B幀。
35.如權(quán)利要求32的方法,其特征在于,所述幀包括在所述接收的段的圖形的每個組的末端的一個P幀。
36.如權(quán)利要求23的方法,其特征在于,所述適應(yīng)步驟還包括DCT系統(tǒng)丟失。
37.如權(quán)利要求23的方法,其特征在于,所述適應(yīng)步驟還包括MPEG-4精細(xì)粒度可伸縮性流的截斷。
38.如權(quán)利要求23的方法,其特征在于,所述資源約束包括目標(biāo)速率信息,且還包括從所述一個或多個用戶的至少一個接收用戶偏愛信息的步驟,且其中所述適應(yīng)步驟還包括對所述對應(yīng)的用戶使用所述的用戶偏愛信息。
39.如權(quán)利要求23的方法,其特征在于,所述資源約束包括目標(biāo)速率信息,且還包括從對應(yīng)于所述一個或多個用戶的至少一個的網(wǎng)絡(luò)接收目標(biāo)比特速率反饋的步驟,且其中所述適應(yīng)步驟還包括對所述對應(yīng)用戶使用所述反饋。
40.如權(quán)利要求23的方法,其特征在于,所述適應(yīng)步驟還包括為適應(yīng)所述接收的經(jīng)壓縮的多媒體段使用預(yù)定的網(wǎng)絡(luò)帶寬參數(shù)。
41.如權(quán)利要求23的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括存儲的視頻信息。
42.如權(quán)利要求23的方法,其特征在于,所述經(jīng)壓縮的多媒體信息包括直播的視頻信息。
43.用于將經(jīng)壓縮的多媒體信息提交給一個或多個用戶終端的系統(tǒng),每個具有不同的目標(biāo)比特速率,其特征在于,所述系統(tǒng)包括(a)一內(nèi)容提交計算機,適應(yīng)于(i)接收所述經(jīng)壓縮的多媒體信息的至少一般和對應(yīng)的基于實用性的描述符;(ii)將所述接收的基于實用性的描述符分折成兩個或多個描述信息的部分,每一部分對應(yīng)于單獨的目標(biāo)比特速率;(iii)對所述一個或多個用戶的每一個選擇所述兩個或多個基于實用性的描述符信息部中的一個(若有的話),它對應(yīng)于對所述用戶的所述單獨的目標(biāo)比特速率;(iv)對所述一個或多個用戶的每一個借助一對應(yīng)的選擇的基于實用性的描述符信息部分適應(yīng)所述接收的經(jīng)壓縮的多媒體段;和(v)對所述一個或多個用戶的每一個輸出所述經(jīng)適應(yīng)的對應(yīng)的經(jīng)壓縮的多媒體段;(b)一個連接到所述內(nèi)容提交計算機并接收每個所述輸出的適應(yīng)的經(jīng)壓縮的多媒體段的網(wǎng)絡(luò),以便發(fā)送所述輸?shù)倪m應(yīng)的經(jīng)壓縮的多媒體段到所述一個或多個用戶終端;和(c)一個或多個用戶終端,每個連接到所述網(wǎng)絡(luò)并適應(yīng)于接收對應(yīng)的適應(yīng)的經(jīng)壓縮的多媒體段。
44.如權(quán)利要求43的系統(tǒng),其特征在于,所述內(nèi)容提交計算機還適應(yīng)于內(nèi)插,對于不能被選擇的所述兩個或多個基于實用性描述符信息部中的所述一個或多個用戶的每一個,在來自所述兩個或多個基于實用性的描述符信息部分的兩個相繼的基于實用性的描述符信息部分之間生成一內(nèi)插的基于實用性的描述符。
45.一個用于規(guī)定將經(jīng)壓縮的多媒體信息提交給一個或多個用戶終端的基于實用性的描述符,每個受到一個或多個資源約束,所述描述符包括(a)一個或多個適應(yīng)性描述符,其每一個描述與適應(yīng)方法相關(guān)的實用性函數(shù);和(b)一個或多個實用性函數(shù)描述符,其每一個代表適應(yīng)于將經(jīng)壓縮的多媒體信息提交給一個或多個受到對應(yīng)的一個或多個資源約束的用戶的一組適應(yīng)性操作符表述。
46.如權(quán)利要求45的描述符,其特征在于,所述資源約束包括目標(biāo)速率信息。
47.如權(quán)利要求45的描述符,其特征在于,還包括定義至少一個與所述一個或多個實用性函數(shù)描述符相關(guān)的對應(yīng)的約束的資源的一個或多個資源描述符。
48.如權(quán)利要求45的描述符,其特征在于,還包括定義至少一個與所述一個或多個實用性函數(shù)描述符相關(guān)的對應(yīng)的約束的實用性的一個或多個實用性描述符。
全文摘要
揭示了用于從經(jīng)壓縮的多媒體信息生成基于實用性的描述符的技術(shù)。較佳的方法包括接收至少一段經(jīng)壓縮的多媒體信息;根據(jù)一個或多個適應(yīng)性操作確定基于實用性的描述符信息的兩個或多個部分,每個對應(yīng)于單獨的目標(biāo)速率;借助基于實用性的描述符信息的各部分的每一個適應(yīng)經(jīng)壓縮的多媒體段,以生成適應(yīng)的多媒體段;使用質(zhì)量管理方法生成對每個適應(yīng)的多媒體段的測量;和根據(jù)基于實用性的描述符信息的各部分和對應(yīng)的質(zhì)量測量生成基于實用性的描述符。
文檔編號H04N7/12GK1689324SQ03815065
公開日2005年10月26日 申請日期2003年4月25日 優(yōu)先權(quán)日2002年4月26日
發(fā)明者J·-G·金, Y·王, S·-F·常, K·康, J·金 申請人:紐約市哥倫比亞大學(xué)托管會, 電子學(xué)及電信學(xué)研究所