專利名稱:可縮放視頻和音頻通信系統(tǒng)中的改進(jìn)視圖布局管理的制作方法
可縮放視頻和音頻通信系統(tǒng)中的改進(jìn)視圖布局管理相關(guān)申請的交叉引用本申請要求2008年6月9日提交的題為“用于可縮放視頻和音頻通信系統(tǒng)中 的改進(jìn)視圖布局管理的系統(tǒng)和方法(System and Method for ImprovedView Layout Management in Scalable Video and Audio CommunicationSystems),,的美國臨時(shí)申請 No. 61/060,072 的優(yōu)先權(quán)。本申請與共同受讓的題為“用于使用可縮放視頻編碼的可縮放和低延遲視頻會(huì) 議的系統(tǒng)禾口方法(System and Method for Scalable and Low-DelayVideoconferencing Using Scalable Video Coding) ” 的國際專利申請 No. PCT/US06/028365 以及題為“用 于使用可縮放視頻編碼的視頻會(huì)議和組合可縮放視頻會(huì)議服務(wù)器的系統(tǒng)和方法(System and Method forVideoconferencing Using Scalable Video Coding and Compositing ScalableVideo Conferencing Servers) ”的PCT/US06/62569相關(guān),上述申請通過引用整體 結(jié)合于此。領(lǐng)域本申請涉及視頻通信系統(tǒng)。具體而言,本發(fā)明涉及用于管理一個(gè)或多個(gè)顯示器上 的不同的可縮放視頻源的多個(gè)視圖的布局。
背景技術(shù):
存在其中可在一個(gè)或多個(gè)視頻顯示器上呈現(xiàn)多個(gè)視頻視圖的若干應(yīng)用。一個(gè)示例 是多點(diǎn)視頻會(huì)議系統(tǒng),其中一個(gè)或多個(gè)視頻流到達(dá)接收器,并且必須在公共的顯示器上呈 現(xiàn)。出于該目的,高端視頻會(huì)議系統(tǒng)實(shí)際上可采用兩個(gè)或更多個(gè)顯示器。隨著參與者數(shù)量增 加,在給定顯示區(qū)域上填充所有視頻窗口變得不可能。同時(shí),如果該顯示器是計(jì)算機(jī)的顯示 器,則它可能由其它應(yīng)用程序共享,因此用戶可能將該視頻會(huì)議應(yīng)用程序窗口限制至計(jì)算 機(jī)屏幕的子集。另一示例是視頻監(jiān)視應(yīng)用,其中來自多個(gè)攝像機(jī)的饋送可到達(dá)控制站處, 在控制站處這些饋送必須在一個(gè)或多個(gè)物理顯示器設(shè)備(計(jì)算機(jī)或TV監(jiān)視器)中顯示。另 一應(yīng)用是多節(jié)目電視,其中單個(gè)設(shè)備同時(shí)顯示多個(gè)節(jié)目。此外,隨著視頻編程在因特網(wǎng)上越 來越多地出現(xiàn),創(chuàng)建提供與模擬或數(shù)字TV的傳統(tǒng)畫中畫模式相似的功能但具有較大視圖 集的播放器是容易的。多個(gè)視圖在給定屏幕上的組織典型地遵循矩形網(wǎng)格組織模式來執(zhí)行。例如,在四 個(gè)相同大小的饋送的情況下,可將屏幕劃分成較小視圖或窗口的2X2矩形陣列,并在每個(gè) 饋送自己的窗口中顯示每個(gè)饋送。典型地,較小視圖包含原始饋送的按比例縮小版本,因此 它們能放在所分配的屏幕區(qū)域內(nèi)。在諸如視頻會(huì)議的常規(guī)應(yīng)用中,還常常在較大視圖(例 如占據(jù)屏幕的一個(gè)角落)中顯示活動(dòng)發(fā)言人,同時(shí)在該主視圖周圍該主視圖側(cè)面的較小視 圖中顯示其它參與者。在使用代碼轉(zhuǎn)換多點(diǎn)控制單元(MCU)的傳統(tǒng)視頻會(huì)議系統(tǒng)中,各個(gè)饋送的合成在 MCU自身處進(jìn)行。MCU接收來自發(fā)送參與者的傳入饋送、將它們解碼、然后在適當(dāng)縮小之后 將它們合成為新的幀。然后MCU將經(jīng)合成信號編碼,并發(fā)送至預(yù)期的接收者。如果MCU支持個(gè)性化布局,則合成和編碼可針對每個(gè)接收者單獨(dú)地進(jìn)行。給定的參與者選擇所需布局, 并通知MCU以使其產(chǎn)生所需合成。合成選項(xiàng)是在MCU處預(yù)配置的,從而對可用模式的任何 改變需要其重新設(shè)計(jì)或重新編程。在視頻播放器接收和顯示多個(gè)視頻源(很可能也來自不同位置)的一般設(shè)定中, 播放器負(fù)責(zé)將各個(gè)視頻畫面按比例縮小和合成為所顯示的圖像。這為播放器提供以其選擇 的任何方式組織布局的靈活性,但也導(dǎo)致作為各個(gè)源的比特率總和的總比特率要求。反之, 在利用代碼轉(zhuǎn)換MCU的視頻會(huì)議設(shè)定中,所接收的合成信號的比特率是單個(gè)視頻源的比特 率。然而,應(yīng)注意,MCU解碼并重新編碼視頻流的需要增加了相當(dāng)長的等待時(shí)間,而且需要 大量計(jì)算功率。在以多視頻視圖為特征的系統(tǒng)中解決靈活性、復(fù)雜度以及比特率開銷之間的折衷 時(shí)的基本限制在于此類系統(tǒng)典型地利用傳統(tǒng)的單層視頻編碼解碼器,諸如H. 264AVC.VC-U MPEG-4、MPEG-2以及VP6/VP7的事實(shí)。替代的編碼技術(shù)是分層或可縮放編碼??煽s放編 碼被用于產(chǎn)生兩個(gè)或更多個(gè)“縮放”比特流,這兩個(gè)或更多個(gè)“縮放”比特流以帶寬高效的 方式在相應(yīng)數(shù)量的保真點(diǎn)處共同表示給定媒體。可縮放性可按照多個(gè)不同維度來提供。例 如,視頻信號可在不同層中以CIF和QCIF分辨率、且以7. 5、15以及30幀每秒(fps)的幀 率被可縮放編碼。取決于編碼解碼器的結(jié)構(gòu),空間分辨率和幀率的任何組合可從編碼比特 流中獲得。與不同層相對應(yīng)的比特可作為單獨(dú)的比特流發(fā)送(例如每層一個(gè)比特流),或它 們可被一起多路復(fù)用成一個(gè)或多個(gè)比特流。為便于在此描述,與給定層相對應(yīng)的編碼比特 也可被稱為該層的比特流,即使在多個(gè)層被復(fù)用成單個(gè)比特流并發(fā)送的情況下也如此。特別設(shè)計(jì)用于提供可縮放性特征的視頻編碼解碼器包括例如MPEG-2(IS0/IEC 13818-2,也稱為ITU-T H. 262)以及近來開發(fā)的H. 264可縮放視頻編碼(H. 264 SVC)擴(kuò)展 (2007年11月的ITU-T推薦H. 264的附錄G,通過引用整體結(jié)合于此)??煽s放音頻編碼解 碼器包括 ITU-T G. 729. 1 和 Speex (參見 www. speex. org)。特別設(shè)計(jì)用于視頻通信的可縮放視頻編碼(SVC)技術(shù)也在共同受讓的題為“利用 可縮放視頻編碼的用于可縮放和低延遲的視頻會(huì)議的系統(tǒng)和方法(System and Method for Scalable and Low-Delay VideoconferencingUsing Scalable Video Coding),,的國際專 利申請No. PCT/US06/028365中進(jìn)行了描述。注意,即使并非特別設(shè)計(jì)成可縮放的編碼解碼 器也能在時(shí)間維度上呈現(xiàn)可縮放性特性(例如MPEG-2或H. 264AVC)??煽s放編碼解碼器典型地具有金字塔比特流結(jié)構(gòu)。以HJ64SVC為例,通過利用標(biāo) 準(zhǔn)!1.264技術(shù)(高級視頻編碼4¥0對源進(jìn)行編碼而獲得第一保真點(diǎn)。通過對所得的編碼 誤差(原始信號與第一保真點(diǎn)的解碼版本之間的差別)進(jìn)行編碼并在該編碼誤差自身的比 特流中發(fā)送該編碼誤差,可獲得附加的保真點(diǎn)。該金字塔結(jié)構(gòu)是非常常見的(例如,曾用于 MPEG-2和MPEG-4)。第一(最低)保真水平比特流被稱為基本層,而提供附加保真點(diǎn)的比 特流被稱為增強(qiáng)層。該保真增強(qiáng)可以在任何保真維度中進(jìn)行。例如,對于視頻而言,它可以 是時(shí)間(幀率)、質(zhì)量(信噪比或SNI )、空間(畫面大小)或3-D (例如具有立體增強(qiáng)層)。 對于音頻而言,它可以是時(shí)間(每秒樣本數(shù))、質(zhì)量(SNR)或附加聲道??煽s放或分層表示的另一示例是多描述編碼。這里,該構(gòu)造不是金字塔形的每層 獨(dú)立可解碼,并提供基本保真水平的表示;然而,如果一個(gè)以上層對解碼器可用,則可提供 原始信號的較高保真水平的解碼表示。一個(gè)示例是將視頻信號的奇數(shù)和偶數(shù)畫面作為兩個(gè)獨(dú)立的比特流來發(fā)送。每個(gè)比特流單獨(dú)提供第一保真水平,而從其它比特流接收的任何信 息可被用于增強(qiáng)該第一保真水平。按照這種觀念,任一個(gè)流可充當(dāng)基本層。如果接收了所 有流,則獲得由特定表示所提供的原始信號的最高質(zhì)量水平的完整表示。分層表示的另一示例是多播。在該情況下,原始信號的兩個(gè)或更多個(gè)獨(dú)立表示在 它們自身的比特流中被編碼并發(fā)送。例如,這通常被用于發(fā)送標(biāo)準(zhǔn)清晰度TV素材和高清晰 度TV素材。注意,多播是其中未使用層間預(yù)測的金字塔形可縮放編碼的特殊情況。在下文 中,所有此類分層編碼技術(shù)被稱為可縮放編碼,除非明確地另外指明。可縮放編碼為基于分組的視頻和音頻通信提供重要的優(yōu)點(diǎn),包括延遲減少、復(fù)雜 度降低以及系統(tǒng)可縮放性改進(jìn)。國際專利申請NO.PCT/US06/028365公開了其中可縮放視頻通信服務(wù)器(“SVCS”) (或在可縮放音頻信號的情況下為可縮放音頻通信服務(wù)器(“SACS”))可利用音頻信號的 可縮放方面通過為活動(dòng)發(fā)言人發(fā)送全清晰度信號并為多個(gè)其它參與者發(fā)送基本層(例如 通過計(jì)算得出的音量來確定優(yōu)先級)來確保發(fā)言人之間的平滑過渡。例如,標(biāo)準(zhǔn)的基于PC的硬件平臺上主存的SVCS單元可支持100個(gè)或更多個(gè)用戶。 有效地主存與大量用戶會(huì)話的能力給視圖布局管理帶來了挑戰(zhàn),因?yàn)槔缭?0-15個(gè)以上 用戶的情況下難以在單個(gè)顯示器上有效地組合所有用戶。所公開的主題給出了用于高效地 管理此類系統(tǒng)中的視圖布局的系統(tǒng)和方法。
發(fā)明內(nèi)容
所公開的主題利用可縮放編碼,并提供用于管理多個(gè)視頻視圖的布局的技術(shù),從 而向終端用戶提供就屏幕大小、長寬比以及所包括的視圖數(shù)量而言完全的靈活性,同時(shí)降 低比特率要求。所公開的主題還提供用于利用用戶偏好和可由服務(wù)器提供或在接收器本地 計(jì)算的輔助數(shù)據(jù)的組合來使多個(gè)視頻視圖的布局自動(dòng)化的技術(shù)。所公開的主題的各個(gè)實(shí)施例包括用于經(jīng)由通信網(wǎng)絡(luò)傳送多個(gè)視頻信號以及可能 存在的相關(guān)聯(lián)音頻信號以呈現(xiàn)給一個(gè)或多個(gè)終端用戶的視聽通信系統(tǒng),其中視頻信號被可 縮放地編碼成包括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層。接收器接收多個(gè)視頻和任何相關(guān) 聯(lián)的音頻信號、基于一組標(biāo)準(zhǔn)確定所顯示視頻信號的布局、并傳達(dá)與所確定布局有關(guān)的信 息。顯示器利用所確定的布局顯示所接收的一個(gè)或多個(gè)視頻信號。一個(gè)或多個(gè)服務(wù)器經(jīng)由 該通信網(wǎng)絡(luò)接收與所確定的布局有關(guān)的信息,并發(fā)送多個(gè)視頻和任何相關(guān)聯(lián)的音頻信號。 一個(gè)或多個(gè)服務(wù)器被配置成針對多個(gè)視頻信號中的每一個(gè)選擇性地傳送用于以所確定的 布局顯示視頻信號所必需的基本層或基本層和一個(gè)或多個(gè)增強(qiáng)層。在所公開主題的一些實(shí)施例中,音頻信號被可縮放地編碼成包括基本層和一個(gè)或 多個(gè)增強(qiáng)層的多個(gè)層,其中一個(gè)或多個(gè)服務(wù)器選擇性地僅發(fā)送所確定的布局所必需的音頻 信號層的數(shù)據(jù)。在所公開主題的一些實(shí)施例中,一個(gè)或多個(gè)服務(wù)器通過使用每個(gè)相關(guān)聯(lián)音頻信 號的音頻活動(dòng)指示符以及關(guān)聯(lián)視頻信號是否在所確定的布局中顯示的指示來確定哪些音 頻信號被選擇性地發(fā)送,以使具有最高活動(dòng)性的一個(gè)或多個(gè)音頻信號的音頻信號數(shù)據(jù)被發(fā) 送,且與在所確定布局中顯示的一個(gè)或多個(gè)視頻信號相關(guān)聯(lián)的音頻信號數(shù)據(jù)被發(fā)送,以及 與余下視頻信號相關(guān)聯(lián)的音頻信號數(shù)據(jù)不被發(fā)送。
所公開主題的各個(gè)實(shí)施例包括一種用于經(jīng)由通信網(wǎng)絡(luò)傳送被可縮放地編碼成包 括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)視頻信號以及可能存在的關(guān)聯(lián)音頻信號以向一個(gè)或 多個(gè)終端用戶呈現(xiàn)的方法,該方法包括基于一組標(biāo)準(zhǔn)確定顯示多個(gè)視頻信號的布局、傳達(dá) 與所確定布局有關(guān)的信息、選擇性地僅傳送以所確定布局顯示視頻信號所必需的視頻信號 層以及任何關(guān)聯(lián)音頻信號的數(shù)據(jù)、接收選擇性傳送的數(shù)據(jù)以及利用所確定的布局顯示多 個(gè)視頻信號。所公開主題的各個(gè)實(shí)施例還包括一種用于呈現(xiàn)經(jīng)由通信網(wǎng)絡(luò)從一個(gè)或多個(gè)服務(wù) 器接收的多個(gè)視頻信號以及可能存在的關(guān)聯(lián)音頻信號的系統(tǒng),其中視頻信號被可縮放地編 碼成包括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層。接收器從通信網(wǎng)絡(luò)接收多個(gè)視頻和任何關(guān) 聯(lián)的音頻信號、基于一組標(biāo)準(zhǔn)確定顯示一個(gè)或多個(gè)所接收視頻信號的布局、并經(jīng)由通信網(wǎng) 絡(luò)傳達(dá)所確定布局作為反饋,該反饋包括選擇性傳送可能存在的所確定布局的視頻信號層 的指令。連接至接收器的顯示器利用所確定的布局顯示所接收的一個(gè)或多個(gè)視頻信號。所公開主題的各個(gè)實(shí)施例還包括一種用于傳送多個(gè)視頻信號以及一個(gè)或多個(gè)關(guān) 聯(lián)音頻信號的系統(tǒng),其中視頻信號被可縮放地編碼成包括基本層和一個(gè)或多個(gè)增強(qiáng)層的多 個(gè)層。一個(gè)或多個(gè)服務(wù)器接收用于選擇性地傳送與所確定布局相對應(yīng)的視頻信號層,并選 擇性地僅傳送以所確定布局顯示視頻信號所必需的視頻信號層的數(shù)據(jù)的指令。附圖簡述
圖1是示出根據(jù)所公開主題的原理的從一個(gè)或多個(gè)服務(wù)器向接收器遞送多個(gè)可 縮放視頻和音頻流的示例性音頻和視頻通信系統(tǒng)的一般體系結(jié)構(gòu)的框圖;圖2是示出使用代碼轉(zhuǎn)換MCU作為服務(wù)器的音頻和視頻會(huì)議系統(tǒng)的框圖;圖3是示出根據(jù)所公開主題的原理的音頻和視頻通信系統(tǒng)的體系結(jié)構(gòu)的框圖,該 系統(tǒng)使用可縮放視頻和音頻編碼,并經(jīng)由SVCS/SACS服務(wù)器向接收器遞送多個(gè)音頻和視頻 流,且其中這些流在接收器上被合成/混合;圖4 (a) - (g)描繪根據(jù)所公開主題的原理的示例性標(biāo)準(zhǔn)模式矩形視圖;圖5(a)_(b)是示出根據(jù)所公開主題的原理的用于計(jì)算交錯(cuò)矩形布局和矩陣矩形 布局的視圖擴(kuò)展的參數(shù)的示圖;圖6(a)_(c)描繪根據(jù)所公開主題的原理的示例性標(biāo)準(zhǔn)模式和放大模式六邊形 (包括旋轉(zhuǎn)六邊形)布局;圖7是示出根據(jù)所公開主題的原理的用于展示(旋轉(zhuǎn))六邊形布局相對于矩形矩 陣和交錯(cuò)布局的下視圖擴(kuò)展的參數(shù)的示圖;圖8 (a)-(d)描繪根據(jù)所公開主題的原理的示例性放大模式矩形視圖;圖9(a)_(c)描繪根據(jù)所公開主題的原理的利用交錯(cuò)矩形和六邊形視圖的放大模 式和包括凹入放大視圖的六邊形視圖的示例性組合;圖10描繪根據(jù)所公開主題的原理的接收器處的視頻會(huì)議應(yīng)用程序的示例性用戶 界面,其包括被切換至標(biāo)準(zhǔn)模式布局視圖的布局選擇按鈕和預(yù)覽按鈕;圖11描繪根據(jù)所公開主題的原理的接收器處的視頻會(huì)議應(yīng)用程序的示例性用戶 界面,其包括被切換至放大模式布局視圖的布局選擇按鈕;圖12描繪根據(jù)所公開主題的原理的接收器處的視頻會(huì)議應(yīng)用程序的示例性用戶 界面,其包括用于選擇要在屏幕上顯示的視圖數(shù)量和選擇自動(dòng)視圖確定模式的下拉菜單;
圖13(a)_(b)描繪根據(jù)所公開主題的原理的示例布局表?xiàng)l目及其相應(yīng)的映射;圖14描繪根據(jù)所公開主題的原理的目標(biāo)屏幕尺寸上的布局的大小調(diào)整和定位;圖15描繪根據(jù)所公開主題的原理的布局選擇過程的框圖;圖16描繪根據(jù)所公開主題的原理的視圖分配過程的布局重新處理部分的框圖;圖17描繪根據(jù)所公開主題的原理的視圖分配過程的布局初始化部分的框圖;以 及圖18(a)_(b)描繪根據(jù)所公開主題的原理的被組合在布局中的具有不同長寬比 的視圖流的裁切和手動(dòng)掃視。除非另外指明,否則全部附圖中的相同附圖標(biāo)記和符號用來表示所示實(shí)施例的相 同特征、元素、組件、或部分。而且,當(dāng)現(xiàn)在將參考附圖詳細(xì)描述所公開的主題時(shí),這一描述 是結(jié)合說明性實(shí)施例來完成的。詳細(xì)描述圖1描繪根據(jù)一示例性實(shí)施例的系統(tǒng)體系結(jié)構(gòu)100,其中一個(gè)或多個(gè)服務(wù)器經(jīng)由 網(wǎng)絡(luò)102向接收器101提供視頻和音頻流。圖1示出兩個(gè)此類服務(wù)器,其中服務(wù)器1提供 流1,而服務(wù)器2提供兩個(gè)流——流2和流3。服務(wù)器1和服務(wù)器2可以是可縮放視頻通信 服務(wù)器(SVCS)系統(tǒng)和/或可縮放音頻通信服務(wù)器(SACS)系統(tǒng),它們將從其它參與者(未 在附圖中示出)接收的數(shù)據(jù)轉(zhuǎn)發(fā)至接收器,或它們可以是獨(dú)立的媒體服務(wù)器(例如從存儲(chǔ) 體訪問內(nèi)容)。注意,此處的“參與者”也可以是僅發(fā)送系統(tǒng),諸如僅執(zhí)行編碼的單元(例如 編碼和發(fā)送直播TV信號的系統(tǒng))。示例性實(shí)施例使用公知的用于編碼視頻信號的商用H. 264標(biāo)準(zhǔn)和用于音頻的 Speex可縮放編碼解碼器(參見web站點(diǎn)誦.speex. org)。一些流可利用單層AVC來編碼, 而另一些流可利用其可縮放擴(kuò)展SVC來編碼。類似地,一些Speex音頻流可僅包含窄帶數(shù) 據(jù)(8KHz),而其它Speex音頻流可包含窄帶以及分別包含寬帶(16KHz)或超寬帶(32KHz) 音頻??墒褂锰娲目煽s放編碼解碼器,諸如MPEG-4/部分2,或用于視頻的H. 263++或用 于音頻的G. 729. I(EV)。該網(wǎng)絡(luò)可以是任何基于分組的網(wǎng)絡(luò);例如基于IP的網(wǎng)絡(luò),諸如因特網(wǎng)。在示例性實(shí)施例中,接收器是諸如PC或蘋果計(jì)算機(jī)、臺式機(jī)或膝上計(jì)算機(jī)的運(yùn)行 軟件應(yīng)用程序的通用計(jì)算機(jī)。接收器還可以是被設(shè)計(jì)成例如利用商用操作系統(tǒng)的嵌入式版 本來僅運(yùn)行單個(gè)軟件應(yīng)用程序的專用計(jì)算機(jī),或甚至是被設(shè)計(jì)成執(zhí)行接收應(yīng)用程序的功能 的獨(dú)立設(shè)備。軟件應(yīng)用程序負(fù)責(zé)與服務(wù)器通信以建立連接,以及接收、解碼并顯示或回放所 接收的視頻和/或音頻流。它也可向服務(wù)器傳送回其自己編碼的視頻和/或音頻流。此類 源于接收器的流可以是對附連至接收器的攝像機(jī)和話筒的輸出的實(shí)時(shí)編碼的結(jié)果,或它們 可以是在接收器上本地存儲(chǔ)的或可從接收器經(jīng)由網(wǎng)絡(luò)訪問的文件服務(wù)器上存儲(chǔ)的預(yù)編碼 視頻和音頻。在一個(gè)實(shí)施例中,接收器配備有相連的攝像機(jī)和話筒,并將所產(chǎn)生的視頻和音 頻信號編碼并經(jīng)由一個(gè)或多個(gè)服務(wù)器發(fā)送至其它參與者。根據(jù)SVCS/SACS體系結(jié)構(gòu),接收器負(fù)責(zé)在其顯示器上合成從服務(wù)器接收的已解 碼視頻流,并混合和回放已解碼音頻流。注意,諸如代碼轉(zhuǎn)換MCU的傳統(tǒng)多點(diǎn)視頻服務(wù)器在 服務(wù)器自身上為所有接收參與者執(zhí)行該功能一次,或?yàn)槊總€(gè)接收參與者單獨(dú)執(zhí)行該功能。 接收器執(zhí)行其自身合成的能力為用戶提供極大的靈活性,但如果未正確設(shè)計(jì)則會(huì)引起較高的比特率要求。圖2描繪具有三個(gè)發(fā)送方的傳統(tǒng)系統(tǒng)的典型示例發(fā)送方1、發(fā)送方2以及發(fā)送方 3、服務(wù)器201以及接收器203。服務(wù)器201作為代碼轉(zhuǎn)換MCU 它從發(fā)送方1、2以及3中的 每一個(gè)分別接收音頻(A)流1A、2A和3A以及視頻(V)流1V、2V和3V,將這些信號解碼,并 根據(jù)接收器203經(jīng)由信令通路202指示給服務(wù)器201的所需布局來合成視頻。已解碼音頻 信號也在服務(wù)器201處被混合。所得的合成視頻和混合音頻信號由服務(wù)器201編碼,并作 為兩個(gè)獨(dú)立的流被發(fā)送至接收器203:混合音頻流A (混合)和合成視頻流V (合成)。注 意,這些流實(shí)際可被發(fā)送至接收器203,并經(jīng)由單個(gè)連接(例如單個(gè)實(shí)時(shí)協(xié)議(RTP)端口) 進(jìn)行復(fù)用。接收器203將音頻和視頻信號解碼并回放。圖2進(jìn)一步描繪接收器的屏幕210 的示例布局,其中在顯示框1中顯示的發(fā)送方1被示為大于分別在顯示框2和3中顯示的 發(fā)送方2和3。在服務(wù)器201和接收器203之間傳達(dá)的音頻和視頻流的總比特率要求是在 接收器屏幕210的分辨率下的單個(gè)流的比特率要求。注意,未被實(shí)際內(nèi)容覆蓋的屏幕的任 何區(qū)域(即源自任何一個(gè)參與者的像素)也必須由服務(wù)器201編碼。然而,其編碼開銷將 典型地小,由于這些區(qū)域在每個(gè)畫面中不變,因此用于諸如H. 264的編碼解碼器的預(yù)測編 碼可將預(yù)測錯(cuò)誤減小至少量。如果操作接收器203的用戶希望切換至不同的布局,則必須經(jīng)由信令通路202將 該布局傳達(dá)至服務(wù)器201,以使服務(wù)器201改變其合成過程。去往服務(wù)器201和來自服務(wù)器 201的傳輸延遲以及服務(wù)器201處的任何處理延遲的組合將引起從用戶在應(yīng)用程序軟件中 作出請求的時(shí)刻開始到新布局出現(xiàn)在接收器屏幕210上的時(shí)刻的明顯延遲。圖3描繪了圖2中示出的同一通信情形,但圖3的情形是基于在視頻和音頻信號 中使用了可縮放編碼的假定的。具體而言,假定視頻信號利用H. ^HSVC被編碼為具有兩層 空間可縮放性、且基本層與增強(qiáng)層之間的水平或垂直畫面尺寸之比為2 (例如VGA和QVGA)。 類似地,音頻信號被編碼為具有兩層可縮放性——窄帶(基本)和寬帶(增強(qiáng))。從每個(gè)發(fā) 送方(1、2、3)到服務(wù)器305的通路1A、2A、3A、1V、2V、3V根據(jù)信號類型來標(biāo)注,A代表音頻, V代表視頻,且對于每個(gè)流中存在的層而言,B代表基本,E代表增強(qiáng)。對于從服務(wù)器305到 接收器307的通路301、302、303,發(fā)送方的編號(1到幻被添加至該標(biāo)注。作為示例,“1: A/B+E, V/B”表示該流包含來自發(fā)送方1的數(shù)據(jù),其中對音頻存在基本層和增強(qiáng)層二者,而 對視頻僅存在基本層。因此,圖3中的通路301被標(biāo)注為“1 :A/B+E,V/B+E”,表明該流包含 來自發(fā)送方1的數(shù)據(jù),其中對音頻和視頻二者而言均存在基本層和增強(qiáng)層。繼續(xù)參照圖3,發(fā)送方中的每一個(gè)(1、2、;3)發(fā)送音頻和視頻信號中的每一個(gè)的基 本層和增強(qiáng)層的一些組合。特定的層選擇可由發(fā)送方與接收器307之間的可用比特率、發(fā) 送方(1、2、;3)處可用的可用設(shè)備(例如低分辨率攝像機(jī)相對于高分辨率攝像機(jī))或其它因 素支配。如下所討論,它也可歸因于來自服務(wù)器305的不需要增強(qiáng)層的指示(例如,任一接 收參與者都沒有以全分辨率看到的發(fā)送方(1、2、;3)的視頻增強(qiáng)層)。所公開主題的一個(gè)焦點(diǎn)是當(dāng)使用可縮放編碼時(shí)接收器307的操作及其與服務(wù)器 305的交互。假定接收器307在特定的時(shí)間點(diǎn)已選擇了某個(gè)屏幕尺寸。該尺寸可以是接收 器的監(jiān)視器310的物理尺寸(以像素表示),或如果該應(yīng)用程序窗口未覆蓋整個(gè)屏幕,則它 可以是該物理尺寸的一部分。在下文中,單詞“屏幕”用于無差別地表示整個(gè)物理屏幕(當(dāng) 該應(yīng)用程序處于全屏模式或處于獨(dú)立實(shí)現(xiàn)中)或該應(yīng)用程序窗口的可用于視頻顯示的區(qū)域。還可進(jìn)一步假定,用戶在接收器307處已選擇了特定布局,其中來自發(fā)送方1的視 頻以全分辨率顯示,而來自發(fā)送方2和3的視頻以全分辨率的3/4顯示。如果所有視頻信 號都具有VGA的全分辨率(640 X 480像素),則發(fā)送方1的視圖將具有640 X 480的尺寸,而 發(fā)送方2和3的視圖將具有480X360的尺寸。為適配這些視圖,在圖3所示的布局中,在 保持屏幕的長寬比為4 3的同時(shí),需要至少1120X840的矩形大小。從代碼轉(zhuǎn)換MCU發(fā)送此合成視圖所需的比特率開銷可如下地估算??杉俣∕CU 視頻編碼器以某個(gè)固定的每像素平均比特?cái)?shù)操作。于是通過對所顯示像素相對于VGA信 號的像素進(jìn)行計(jì)數(shù),可估算合成畫面所需的總比特率。所顯示像素的總數(shù)是VGA信號的 1+2*0. 752,即2. 125。該計(jì)算忽略了空白空間,該空白空間被假定為可用可忽略數(shù)量的比特 來編碼。因此合成視頻的總比特率將為利用單層H. 264AVC編碼的單個(gè)VGA信號所需的總 比特率的2. 125倍。繼續(xù)參照圖3和以上作出的布局假定,在示例性實(shí)施例中,接收器307指示服務(wù)器 305 1)為發(fā)送方1傳送全分辨率視頻(基本和增強(qiáng)),2)僅為來自發(fā)送方2的視頻傳送基本層,以及3)僅為來自發(fā)送方3的視頻傳送基本層。接收器307選擇以將來自發(fā)送方2和3的視頻的接收切換至僅基本層,因?yàn)樗?將基本層信號(0¥6々或320乂對0)升頻采樣至所需的3/4VGA分辨率080 X 360),且與接收 全分辨率VGA信號并將其降頻采樣至3/4VGA相比視覺差別非常小。升頻采樣和合成過程 在接收器307自身處進(jìn)行;服務(wù)器305僅被告知哪些層分組要轉(zhuǎn)發(fā)至特定接收器307。該情況下所需的總比特率可如下地估算。用于具有比例2的空間可縮放性的基本 層與增強(qiáng)層之間的典型比例為3 1。換言之,基本層比特率是增強(qiáng)層比特率的1/3,或總比 特率的0. 25。服務(wù)器到接收器的視頻通路因此需要VGA信號的比特率的1+2*0. 25或1. 5 倍。算上與相比實(shí)現(xiàn)如由PSNR測量的相同質(zhì)量的單層編碼可縮放相關(guān)聯(lián)的10%比特率開 銷,總比特率為1.5X 110%或1.65。與代碼轉(zhuǎn)換MCU情況相比(2. 125),本技術(shù)將比特率要 求降低了 22%。如果服務(wù)器不是SVCS也不是MCU,而是簡單地將多個(gè)視頻流轉(zhuǎn)發(fā)給接收器,則總 比特率要求開銷為3,因?yàn)榻邮詹@示了三個(gè)視圖。在沒有可縮放性或代碼轉(zhuǎn)換的情況下, 接收器別無選擇,只能接收所有視圖的全分辨率信號,并適當(dāng)?shù)貓?zhí)行縮放。所公開主題的可 縮放設(shè)計(jì)的一競爭優(yōu)勢在本情況下甚至更顯著,其提供45 %的比特率減少。在參與者數(shù)量 增多的情況下,這些益處被進(jìn)一步放大。在音頻通信應(yīng)用的背景下,與簡單的轉(zhuǎn)發(fā)服務(wù)器相比,通過使用具有可縮放編碼 的SACS體系結(jié)構(gòu)可獲得相似的益處。這里假定使用了如國際專利申請NO.PCT/US06/62569 中描述的“活動(dòng)加上N個(gè)最近發(fā)言者(activ印Ius N most recent speakers) ”技術(shù)??蛇M(jìn) 一步假定N為1,活動(dòng)發(fā)言者來自發(fā)送方1,且下一更近發(fā)言者是發(fā)送方2。注意,語音活動(dòng) 水平可在發(fā)送方或服務(wù)器自身處計(jì)算。利用該信息,且假定使用圖3的布局,服務(wù)器傳送來自發(fā)送方1的基本和增強(qiáng)音頻 信號、來自發(fā)送方2的僅基本音頻層,且不傳送來自發(fā)送方3的音頻。其總比特率要求比執(zhí)行其自己的混合的代碼轉(zhuǎn)換服務(wù)器的總比特率要求稍高,但比簡單轉(zhuǎn)發(fā)服務(wù)器的總比特率 要求的2/3低。如下所討論地,包括N個(gè)最近記憶的活動(dòng)發(fā)言者指示可在視頻布局自動(dòng)化 中被有利地使用(不論是否使用可縮放音頻編碼)。前一示例證實(shí)了使用布局管理技術(shù)結(jié)合可縮放編碼以及接收器-服務(wù)器信令的 優(yōu)點(diǎn),以便于在低得多的比特率要求下在接收器處獲得提高的靈活性。雖然已解釋了示例,但本文公開內(nèi)容的示教可更一般地應(yīng)用于更廣泛的具有實(shí)際 意義的布局。布局可被分成兩大類或模式標(biāo)準(zhǔn)以及放大。在標(biāo)準(zhǔn)模式下,所有參與者(在 屏幕上示出的)以相同的視圖大小示出。在放大模式下,一個(gè)或多個(gè)視圖以較大尺寸示出, 而其它視圖以較小視圖尺寸示出。如服務(wù)器305或接收器307所確定地,視頻會(huì)議設(shè)定中 的放大視圖可對應(yīng)于一個(gè)或多個(gè)活動(dòng)發(fā)言者。在除視聽通信之外的應(yīng)用中,例如觀看多源 廣播內(nèi)容時(shí),放大視圖可以是用戶在接收器307處選擇以較大視圖大小示出的源。圖4(a)_(g)描繪使用矩形視圖組織的 示例性標(biāo)準(zhǔn) 模式布局。屏幕內(nèi)的每個(gè)視圖 是矩形的。在一個(gè)實(shí)施例中,這些矩形可遵循原始信號的畫面長寬比。圖4(a)是視頻會(huì)議 系統(tǒng)中常見的典型的2X2矩陣布局。圖4(b)是所有視圖垂直堆疊的情況,而圖4(c)水平 地顯示它們。雖然屏幕區(qū)域看起來與典型的監(jiān)視器屏幕長寬比(16 9或4 3)不一致, 但該屏幕可以是在計(jì)算機(jī)上運(yùn)行的應(yīng)用程序窗口的區(qū)域,從而用戶可選擇這樣的視圖以便 于能夠在同一計(jì)算機(jī)監(jiān)視器上看到其它窗口。
圖4(d)也是4路矩形視圖,但這次上下視圖位于屏幕的中線上。初看上 去,該視 圖看起來具有就總像素而言其總屏幕面積比圖4(a)的總屏幕面積大的缺點(diǎn)。實(shí)際上,如果 每個(gè)視圖具有寬度W和高度H(以像素表示),則圖4(a)的屏幕大小是2WX2H,而圖4(d) 中的屏幕大小是3HX2W。然而,從感覺上而言,圖4(d)中的布局會(huì) 具有在每個(gè)視圖中呈現(xiàn) 為居中的對象彼此更近的優(yōu)點(diǎn)。通過計(jì)算位于屏幕中心點(diǎn)的將包圍屏幕上示出的所有視圖 的中心的最小圓圈的半徑,可看出這一優(yōu)點(diǎn)。半徑越小表明呈現(xiàn)為位于各視圖中心的視圖 的對象彼此越近。這 使觀看者利用直接視覺和周邊視覺兩者來察覺每個(gè)視圖中的動(dòng)作容易 得多。該圓圈的半徑與視圖的高度之比在此被定義為特定布局的“視圖擴(kuò)展”,且通過“V” 表不。圖5(a)_(b)描繪4視圖情況下的矩陣和交錯(cuò)矩形圖案,且示出各種尺寸。對于圖 5 (a)中示出的2 X 2矩形矩陣,最小包圍圓圈的半徑&將是Rm+^ = U(WlH)2+
其中r = W/H是視圖長寬比。對于圖5(b)中示出的交錯(cuò)1X2X1圖案的情況,半徑&將等于H(因?yàn)橥ǔ/2 < H),因此
Vs^- = I(2)假設(shè)視圖長寬比r通常為4/3或16/9,矩陣圖案的視圖擴(kuò)展將分別為0. 83和 1.02。因此,該矩陣圖案的視圖擴(kuò)展在低長寬比下比交錯(cuò)圖案低,而在高長寬比下稍高(高 2% )。返回圖4(e)_(g),其中描繪了與圖4(b)_(d)相似的布局,這次為3個(gè)視圖。注意,這次無法構(gòu)造矩陣(假定所有視圖具有完全相同的尺寸)。這些布局選項(xiàng)與以下詳細(xì)描述 的布局自動(dòng)化相關(guān)。這些布局結(jié)構(gòu)可推廣至任意數(shù)量的用戶。可能的限制是屏幕的大小 (邏輯大小或物理大小),以及用戶觀看可接受的最小視圖。隨著視圖數(shù)量增加,將它們?nèi)?部適配到屏幕上是不可能的,因此必須使用如下所詳細(xì)描述的自動(dòng)選擇機(jī)制。在圖5(a)_(b)的背景下討論的視圖擴(kuò)展可通過考慮非矩形模式來推廣。來自 取樣理論的相關(guān)問題是找出使用最小數(shù)量的取樣點(diǎn)來根據(jù)其樣本正確重構(gòu)給定的帶寬 受限信號的取樣模式。對于2D各向同性譜,即圓形的帶寬受限2D函數(shù),最優(yōu)的取樣模 式是其中軸具有45度角從而產(chǎn)生由六邊形組成的Voronoi棋盤形格局的網(wǎng)格(參見例 如D. P. Petersen和D. Midleton的“η維歐幾里得空間中的波數(shù)有限函數(shù)的取樣和重構(gòu) (Sampling andReconstruction of Wave-number Limited Functions in n-dimensional EuclideanSpaces) ”,Inf. Control, 5 :279-323,1962)。Voronoi 棋盤形格局將 2_D 平面分 解成與網(wǎng)格上的一個(gè)點(diǎn)最接近的點(diǎn)的集合。等效地,當(dāng)每個(gè)六邊形被其內(nèi)切圓盤代替(最 高充填效率)時(shí),六邊形棋盤形格局圖案產(chǎn)生最“滿”的空間。利用該性質(zhì),可設(shè)計(jì)諸如圖6(a)_(c)中示出的圖案的布局圖案。圖6(a)是5路 六邊形標(biāo)準(zhǔn)模式布局,而圖6 (b)是5路放大模式布局,其中單個(gè)放大視圖的大小被示為其 它參與者的大小的兩倍。六邊形“單元”也可以旋轉(zhuǎn)30°來使用,因此其兩個(gè)頂點(diǎn)垂直地取 向。具有旋轉(zhuǎn)六邊形圖案的7路標(biāo)準(zhǔn)模式布局的示例在圖6(c)中示出。六邊形布局在參 與者數(shù)量多的情況下愈發(fā)有效。如同矩陣和交錯(cuò)矩形視圖,此處也能計(jì)算可包圍4路六邊形布局中的所有四個(gè)視 圖中心的最小圓圈的半徑&,從而可獲得視圖擴(kuò)展。對于具有邊長S的正六邊形,其最大直 徑為2S,其最小直徑為純。圖7示出每個(gè)六邊形的高度是其最小直徑,即
權(quán)利要求
1.一種用于經(jīng)由通信網(wǎng)絡(luò)傳送多個(gè)視頻信號以及關(guān)聯(lián)音頻信號(如果存在)以呈現(xiàn)給 一個(gè)或多個(gè)終端用戶的視聽通信系統(tǒng),其中所述視頻信號被可縮放地編碼成包括基本層和 一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,所述系統(tǒng)包括接收器,所述接收器被配置成經(jīng)由所述通信網(wǎng)絡(luò)接收多個(gè)視頻和任何關(guān)聯(lián)音頻信號、 基于一組標(biāo)準(zhǔn)確定所顯示視頻信號的布局、并傳達(dá)與所確定布局有關(guān)的信息;連接至所述 接收器的顯示器,所述顯示器被配置成利用所確定的布局顯示所接收的一個(gè)或多個(gè)視頻信 號;以及連接至所述通信網(wǎng)絡(luò)的一個(gè)或多個(gè)服務(wù)器,所述一個(gè)或多個(gè)服務(wù)器適于經(jīng)由所述通 信網(wǎng)絡(luò)接收與所確定的布局有關(guān)的信息,并被配置成傳送所述多個(gè)視頻和任何關(guān)聯(lián)音頻信 號;其中所述一個(gè)或多個(gè)服務(wù)器被配置成針對所述多個(gè)視頻信號中的每一個(gè),選擇性地傳 送用于以所確定的布局顯示所述視頻信號所必需的基本層或基本層和一個(gè)或多個(gè)增強(qiáng)層 (如果存在)。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述多個(gè)視頻中的至少一個(gè)和關(guān)聯(lián)音頻信 號被預(yù)壓縮,且其中所述一個(gè)或多個(gè)服務(wù)器進(jìn)一步被配置成從本地或遠(yuǎn)程存儲(chǔ)體訪問所述 預(yù)壓縮視頻和關(guān)聯(lián)音頻信號。
3.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述多個(gè)視頻中的至少一個(gè)和關(guān)聯(lián)音頻信 號被實(shí)時(shí)壓縮,且其中所述一個(gè)或多個(gè)服務(wù)器進(jìn)一步被配置成對來自附連至所述一個(gè)或多 個(gè)服務(wù)器的視頻或音頻源的所述實(shí)時(shí)壓縮視頻和關(guān)聯(lián)音頻信號編碼。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述一個(gè)或多個(gè)服務(wù)器中的至少一個(gè)進(jìn)一 步被配置成經(jīng)由所述通信網(wǎng)絡(luò)從連接至所述一個(gè)或多個(gè)服務(wù)器中的至少一個(gè)的傳送系統(tǒng) 獲得所述多個(gè)視頻中的一個(gè)或多個(gè)及關(guān)聯(lián)音頻信號。
5.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述關(guān)聯(lián)音頻信號被可縮放地編碼成包括 基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,且其中所述一個(gè)或多個(gè)服務(wù)器進(jìn)一步被配置成選擇 性地僅傳送所確定的布局所必需的音頻信號層的數(shù)據(jù)。
6.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述一個(gè)或多個(gè)服務(wù)器進(jìn)一步被配置成通 過使用每個(gè)關(guān)聯(lián)音頻信號的音頻活動(dòng)指示符和關(guān)聯(lián)視頻信號是否在所確定的布局中顯示 的指示來確定哪些音頻信號被選擇性地傳送,以使具有最高活動(dòng)性的一個(gè)或多個(gè)音頻信號 的音頻信號數(shù)據(jù)被傳送,且與在所確定布局中顯示的一個(gè)或多個(gè)視頻信號相關(guān)聯(lián)的音頻信 號數(shù)據(jù)被傳送,以及與余下視頻信號相關(guān)聯(lián)的音頻信號數(shù)據(jù)不被傳送。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述關(guān)聯(lián)音頻信號被可縮放地編碼成包括 基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,且其中所述一個(gè)或多個(gè)服務(wù)器進(jìn)一步被配置成選擇 性地傳送具有最高活動(dòng)指示符的一個(gè)或多個(gè)音頻信號的基本層和增強(qiáng)層音頻信號數(shù)據(jù),以 及與在所確定布局中顯示的一個(gè)或多個(gè)視頻信號相關(guān)聯(lián)的一個(gè)或多個(gè)音頻信號的基本層 音頻信號數(shù)據(jù)。
8.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述音頻活動(dòng)指示符在所述一個(gè)或多個(gè)服 務(wù)器處計(jì)算。
9.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述音頻活動(dòng)指示符被預(yù)先計(jì)算,且與所述 視頻信號和關(guān)聯(lián)音頻信號相組合對所述一個(gè)或多個(gè)服務(wù)器可用。
10.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成針對所確定布 局保持視圖數(shù)量N和放大視圖數(shù)量P,其中P的范圍為從0到N-1,以及總數(shù)M個(gè)視頻信號 中的每一個(gè)具有關(guān)聯(lián)音頻信號,且在初始化或N或P變化時(shí)通過以下步驟確定新布局并將 視圖分配給所述新布局按照音頻活動(dòng)減少將所述M個(gè)信號排序到清單F中;如果N或P變化,首先將F中在所確定布局中占據(jù)視圖的每個(gè)視頻信號分配給所述新 布局中與所述視頻信號在所確定布局中分配到的視圖交迭最大的視圖;然后將F中余下未分配的每個(gè)視頻信號按順序分配到所述新布局中的下一可用視圖 中,直到F中的所有視頻信號被處理,或直到所述新布局中的所有視圖分配到視頻信號。
11.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成針對所確定布 局保持視圖數(shù)量N和放大視圖數(shù)量P,其中P的范圍為從0到N-1,以及總數(shù)M個(gè)視頻信號 中的每一個(gè)具有關(guān)聯(lián)音頻信號,且其中在某些時(shí)間實(shí)例時(shí)或M變化時(shí)通過以下步驟重新將 視圖分配給所確定布局按照關(guān)聯(lián)音頻活動(dòng)減少將所述M個(gè)視頻信號排序到清單F中;按順序分配F中的前面P個(gè)視頻信號,以使如果視頻信號已分配到放大視圖,則它保持其當(dāng)前放大視圖,否則如果替代的視頻信號曾分配到標(biāo)準(zhǔn)視圖,則它分配到曾分配到之前分配了放大視 圖的視頻信號中具有最小關(guān)聯(lián)音頻活動(dòng)的視頻信號的放大視圖,且之前分配了放大視圖的 視頻信號中具有最小關(guān)聯(lián)音頻活動(dòng)的所述視頻信號分配到所述替代視頻信號的原始標(biāo)準(zhǔn) 視圖,否則如果視頻信號之前未曾分配到放大或標(biāo)準(zhǔn)視圖,則它分配到曾分配到之前分配了 放大視圖的視頻信號中具有最小關(guān)聯(lián)音頻活動(dòng)的視頻信號的放大視圖,而之前分配了放大 視圖的視頻信號中具有最小關(guān)聯(lián)音頻活動(dòng)的視頻信號被插入清單G ;將F中的最前面的max {N-P-1G |,0}個(gè)視頻信號按順序分配給當(dāng)前布局中的下一可用 自由視圖;將G中的視頻信號按順序分配給當(dāng)前布局中的余下可用自由視圖。
12.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成通過如下步驟 確定目標(biāo)屏幕尺寸的布局訪問可能布局的表;利用第一組標(biāo)準(zhǔn)從所述可能布局的表中選 擇一個(gè)或多個(gè)候選布局;將每個(gè)候選布局適配在所述目標(biāo)屏幕尺寸中;以及基于第二組標(biāo) 準(zhǔn)選擇所述候選布局中的零個(gè)或一個(gè)。
13.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述第一組標(biāo)準(zhǔn)包括所述布局中可用的 視圖總數(shù)等于數(shù)量N。
14.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述第一組標(biāo)準(zhǔn)包括所述布局中可用的 視圖總數(shù)等于數(shù)量N,且數(shù)量等于數(shù)量P的視圖的尺寸大于余下N-P個(gè)視圖的尺寸。
15.如權(quán)利要求12所述的系統(tǒng),其特征在于,所述第一組標(biāo)準(zhǔn)包括具有其視圖總數(shù)小 于或等于所述接收器所接收的視頻信號M的數(shù)量的布局。
16.如權(quán)利要求12所述的系統(tǒng),其特征在于可能布局的所述表將每個(gè)布局表示為一組參數(shù),所述參數(shù)至少包括以形成二維陣列的 基本視圖構(gòu)件塊的單位表示的所述布局的水平和垂直尺寸,以及每個(gè)視圖的比例因子以及視圖的左上角在視圖構(gòu)件塊二維陣列中的水平和垂直定位;通過選擇適當(dāng)?shù)囊晥D構(gòu)件塊寬度和高度,以使所述布局在垂直或水平維度中的至少一 個(gè)維度上適配目標(biāo)屏幕尺寸,并且使所得的視圖構(gòu)件塊長寬比在最小和最大值的給定范圍 內(nèi),來將每個(gè)候選布局適配在目標(biāo)屏幕尺寸中;以及第二組標(biāo)準(zhǔn)包括通過計(jì)算評分函數(shù)來對每個(gè)候選布局打分;選擇具有所述評分函數(shù) 的最高值的候選布局;以及如果選擇了多個(gè)候選布局則利用篩選函數(shù)來計(jì)算分?jǐn)?shù),從而標(biāo) 識單個(gè)候選布局,且僅在所述單個(gè)候選布局的最小視圖尺寸大于指定值時(shí)使用所述單個(gè)候 選布局。
17.如權(quán)利要求16所述的系統(tǒng),其特征在于,具有N個(gè)視圖的布局的所述評分函數(shù)是P 個(gè)最大視圖的最小視圖尺寸和余下的N-P個(gè)視圖的最小尺寸的加權(quán)平均值,其中P可以是 O0
18.如權(quán)利要求17所述的系統(tǒng),其特征在于,所述篩選函數(shù)包括附加的加權(quán)項(xiàng),所述附 加加權(quán)項(xiàng)表示特定布局的自組織偏好,且被存儲(chǔ)在可能布局表中的每個(gè)布局的條目中。
19.如權(quán)利要求16所述的系統(tǒng),其特征在于,所述篩選函數(shù)等于布局的所有視圖的總 尺寸。
20.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成確定一布局, 以使所確定布局中的多個(gè)視圖所產(chǎn)生的由所述接收器所接收的視頻信號的總比特率在限 制內(nèi)。
21.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成確定一布局, 以使所確定布局中的多個(gè)視圖所產(chǎn)生的要解碼的像素總數(shù)在限制內(nèi)。
22.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成基于所接收視 頻信號的數(shù)量來自動(dòng)確定布局。
23.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成如果所顯示 的多個(gè)視頻信號中的一個(gè)或多個(gè)視頻信號在所確定布局中的所分配視圖中被裁切,則所述 接收器允許用戶在所分配視圖內(nèi)手動(dòng)掃視所顯示的多個(gè)視頻信號中的所述一個(gè)或多個(gè)視 頻信號。
24.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成如果所述多 個(gè)所顯示的視頻信號中的一個(gè)或多個(gè)視頻信號在所確定布局中的已分配視圖中被裁切,則 所述接收器在所述多個(gè)所顯示的視頻信號中的一個(gè)或多個(gè)視頻信號中自動(dòng)檢測對象的頭 部的存在和位置,并在所分配視圖中掃視所述一個(gè)或多個(gè)所顯示視頻信號,以使所述對象 的頭部完全顯示。
25.一種用于經(jīng)由通信網(wǎng)絡(luò)傳送被可縮放地編碼成為包括基本層和一個(gè)或多個(gè)增強(qiáng)層 的多個(gè)層的多個(gè)視頻信號以及關(guān)聯(lián)音頻信號(如果存在)以向一個(gè)或多個(gè)終端用戶呈現(xiàn)的 方法,包括基于一組標(biāo)準(zhǔn)確定顯示所述多個(gè)視頻信號的布局;傳達(dá)與所確定布局有關(guān)的信息;以及選擇性地僅傳送用于以所確定布局顯示所述視頻信號所必需的視頻信號層的數(shù)據(jù)以 及任何關(guān)聯(lián)音頻信號;接收所述選擇性傳送的數(shù)據(jù);以及利用所確定布局顯示所述多個(gè)視頻信號。
26.如權(quán)利要求25所述的方法,其特征在于,所述多個(gè)視頻中的至少一個(gè)和關(guān)聯(lián)音頻 信號被預(yù)壓縮,所述方法進(jìn)一步包括從本地或遠(yuǎn)程存儲(chǔ)體訪問所述預(yù)壓縮視頻和關(guān)聯(lián)音頻信號。
27.如權(quán)利要求25所述的方法,其特征在于,所述多個(gè)視頻中的至少一個(gè)和關(guān)聯(lián)音頻 信號被實(shí)時(shí)壓縮,所述方法進(jìn)一步包括對來自視頻或音頻源的所述實(shí)時(shí)壓縮視頻和關(guān)聯(lián)音頻信號編碼。
28.如權(quán)利要求25所述的方法,其特征在于,還包括從傳送系統(tǒng)獲得所述多個(gè)視頻中的一個(gè)或多個(gè)視頻和關(guān)聯(lián)音頻信號。
29.如權(quán)利要求25所述的方法,其特征在于,所述關(guān)聯(lián)音頻信號被可縮放地編碼成包 括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,所述方法進(jìn)一步包括僅傳送所確定布局所必需的關(guān)聯(lián)音頻信號層的數(shù)據(jù)。
30.如權(quán)利要求25所述的方法,其特征在于,還包括通過使用每個(gè)相關(guān)聯(lián)音頻信號的音頻活動(dòng)指示符和關(guān)聯(lián)視頻信號是否在所確定的布 局中顯示的指示來確定哪些音頻信號被選擇性地傳送,以使具有最高活動(dòng)性的一個(gè)或多個(gè) 音頻信號的音頻信號數(shù)據(jù)被傳送,且與在所確定布局中顯示的一個(gè)或多個(gè)視頻信號相關(guān)聯(lián) 的音頻信號數(shù)據(jù)被傳送,以及與余下視頻信號相關(guān)聯(lián)的音頻信號數(shù)據(jù)不被傳送。
31.如權(quán)利要求30所述的方法,其特征在于,所述關(guān)聯(lián)音頻信號被可縮放地編碼成包 括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,所述方法進(jìn)一步包括選擇性地傳送具有最高活動(dòng)指示符的一個(gè)或多個(gè)音頻信號的基本層和增強(qiáng)層音頻信 號數(shù)據(jù),以及與在所確定布局中顯示的一個(gè)或多個(gè)視頻信號相關(guān)聯(lián)的一個(gè)或多個(gè)音頻信號 的基本層音頻信號數(shù)據(jù)。
32.如權(quán)利要求30所述的方法,其特征在于,還包括針對所確定布局保持視圖數(shù)量N和放大視圖數(shù)量P,其中P的范圍為從0到N-1,以及 總數(shù)M個(gè)視頻信號中的每一個(gè)具有關(guān)聯(lián)音頻信號,且在初始化或N或P變化時(shí)通過以下步 驟確定新布局并將視圖分配給所述新布局按照音頻活動(dòng)減少將所述M個(gè)信號排序到清單F中;如果N或P變化,首先將F中在所確定布局中占據(jù)視圖的每個(gè)視頻信號分配給所述新 布局中與所述視頻信號在所確定布局中被分配的視圖交迭最大的視圖;然后將F中余下未分配的每個(gè)視頻信號按順序分配到所述新布局中的下一可用視圖 中,直到F中的所有視頻信號被處理,或直到所述新布局中的所有視圖分配到視頻信號。
33.如權(quán)利要求30所述的方法,其特征在于,還包括針對所確定布局保持視圖數(shù)量N和放大視圖數(shù)量P,其中P的范圍為從0到N-1,以及 總數(shù)M個(gè)視頻信號中的每一個(gè)具有關(guān)聯(lián)音頻信號,且在某個(gè)時(shí)間實(shí)例或在M變化時(shí)通過以 下步驟將視圖重新分配給新布局按照關(guān)聯(lián)音頻活動(dòng)減少將所述M個(gè)視頻信號排序到清單F中;按順序分配F中的前面P個(gè)視頻信號,以使如果視頻信號分配到所確定布局中的放大視圖,則它在新布局中保持它的當(dāng)前放大視否則如果替代的視頻信號在所確定布局中曾分配到標(biāo)準(zhǔn)視圖,則它在新布局中分配到 曾分配到分配了所確定布局中的放大視圖的視頻信號中具有最小關(guān)聯(lián)音頻活動(dòng)的視頻信 號的放大視圖,且分配了所確定布局中的放大視圖的視頻信號中具有最小關(guān)聯(lián)音頻活動(dòng)的 所述視頻信號在新布局中分配到來自所確定布局的所述替代視頻信號的標(biāo)準(zhǔn)視圖,否則如果視頻信號之前在所確定布局中未曾分配到放大或標(biāo)準(zhǔn)視圖,則它在新布局中 分配到曾分配到之前在所確定布局中分配了放大視圖的視頻信號中具有最小關(guān)聯(lián)音頻活 動(dòng)的視頻信號的放大視圖,而之前在所確定布局中分配了放大視圖的視頻信號中具有最小 關(guān)聯(lián)音頻活動(dòng)的視頻信號被插入清單G ;將F中的最前面的maX{N-P-|G|,0}個(gè)視頻信號按順序分配給新布局中的下一可用自 由視圖;將G中的視頻信號按順序分配給新布局中的余下可用自由視圖。
34.如權(quán)利要求25所述的方法,其特征在于,還包括通過如下步驟確定目標(biāo)屏幕尺寸的布局訪問可能布局表;利用第一組標(biāo)準(zhǔn)從所述可 能布局表中選擇一個(gè)或多個(gè)候選布局;將每個(gè)候選布局適配在所述目標(biāo)屏幕尺寸中;以及 基于第二組標(biāo)準(zhǔn)選擇所述候選布局中的零個(gè)或一個(gè)。
35.如權(quán)利要求34所述的方法,其特征在于,所述第一組標(biāo)準(zhǔn)包括所述布局中可用的 視圖總數(shù)等于數(shù)量N。
36.如權(quán)利要求34所述的方法,其特征在于,所述第一組標(biāo)準(zhǔn)包括所述布局中可用的 視圖總數(shù)等于數(shù)量N,且數(shù)量等于P的視圖的尺寸大于余下N-P個(gè)視圖的尺寸。
37.如權(quán)利要求34所述的方法,其特征在于,所述第一組標(biāo)準(zhǔn)包括具有其中其視圖總 數(shù)小于或等于所述接收器所接收的視頻信號M的數(shù)量的布局。
38.如權(quán)利要求34所述的方法,其特征在于,還包括在可能布局表中將每個(gè)布局表示為一組參數(shù),所述參數(shù)至少包括以形成二維陣列的基 本視圖構(gòu)件塊的單位表示的所述布局的水平和垂直尺寸,以及每個(gè)視圖的比例因子與視圖 的左上角在視圖構(gòu)件塊二維陣列中的水平和垂直定位;其中將每個(gè)候選布局適配在目標(biāo)屏幕尺寸中包括選擇適當(dāng)?shù)囊晥D構(gòu)件塊寬度和高度,以使所述布局在垂直或水平維度中的至少一個(gè)維 度上適配目標(biāo)屏幕尺寸,并且使所得的視圖構(gòu)件塊長寬比在最小和最大值的給定范圍內(nèi); 以及其中所述第二組標(biāo)準(zhǔn)包括通過計(jì)算評分函數(shù)來對每個(gè)候選布局打分;選擇具有所述 評分函數(shù)的最高值的候選布局;以及如果選擇了多個(gè)候選布局則利用篩選函數(shù)來計(jì)算分 數(shù),從而標(biāo)識單個(gè)候選布局,且僅在所述單個(gè)候選層的最小視圖尺寸大于指定值時(shí)使用所 述單個(gè)候選布局。
39.如權(quán)利要求38所述的方法,其特征在于,具有N個(gè)視圖的布局的所述評分函數(shù)是P 個(gè)最大視圖的最小視圖尺寸和余下的N-P個(gè)視圖的最小尺寸的加權(quán)平均值,其中P可以是 O0
40.如權(quán)利要求39所述的方法,其特征在于,所述篩選函數(shù)包括附加的加權(quán)項(xiàng),所述附 加加權(quán)項(xiàng)表示特定布局的自組織偏好,且被存儲(chǔ)在可能布局表中的每個(gè)布局的條目中。
41.如權(quán)利要求38所述的方法,其特征在于,所述篩選函數(shù)等于布局的所有視圖的總尺寸。
42.如權(quán)利要求25所述的方法,其特征在于,還包括確定一布局,以使所確定布局中的視圖數(shù)量所產(chǎn)生的接收視頻信號的總比特率在限制內(nèi)。
43.如權(quán)利要求25所述的方法,其特征在于,還包括確定一布局,以使所確定布局中的視圖數(shù)量所產(chǎn)生的待解碼像素總數(shù)量在限制內(nèi)。
44.如權(quán)利要求25所述的方法,其特征在于,還包括 基于接收信號的數(shù)量自動(dòng)確定布局。
45.如權(quán)利要求25所述的方法,其特征在于,還包括如果多個(gè)所顯示視頻信號中的一個(gè)或多個(gè)視頻信號在所確定布局中的分配視圖中被 裁切,則允許用戶在所分配視圖中手動(dòng)地掃視多個(gè)所顯示視頻信號中的所述一個(gè)或多個(gè)視頻信號。
46.如權(quán)利要求25所述的方法,其特征在于,還包括如果多個(gè)所顯示視頻信號中的一個(gè)或多個(gè)視頻信號在所確定布局中的分配視圖中被 裁切,則在多個(gè)所顯示視頻信號中的所述一個(gè)或多個(gè)視頻信號中自動(dòng)檢測對象的頭部的存 在和位置;以及在所分配視圖中掃視所述一個(gè)或多個(gè)所顯示視頻信號,以使所述對象的頭部完全顯示 ο
47.一種用于呈現(xiàn)經(jīng)由通信網(wǎng)絡(luò)從一個(gè)或多個(gè)服務(wù)器接收的多個(gè)視頻信號以及關(guān)聯(lián)音 頻信號(如果存在)的系統(tǒng),其中所述視頻信號被可縮放地編碼成包括基本層和一個(gè)或多 個(gè)增強(qiáng)層的多個(gè)層,所述系統(tǒng)包括接收器,所述接收器被配置成從所述通信網(wǎng)絡(luò)接收所述多個(gè)視頻和任何關(guān)聯(lián)音頻信號; 基于一組標(biāo)準(zhǔn)確定顯示所接收視頻信號中的一個(gè)或多個(gè)視頻信號的布局;以及 經(jīng)由所述通信網(wǎng)絡(luò)傳達(dá)所確定布局作為反饋;以及連接至所述接收器的顯示器,所述顯示器被配置成利用所確定布局顯示所接收的一個(gè) 或多個(gè)視頻信號;其中所述反饋包括用于選擇性傳送所確定布局的所述視頻信號層(如果存在)的指令。
48.如權(quán)利要求47所述的系統(tǒng),其特征在于,所述關(guān)聯(lián)音頻信號被可縮放地編碼成包 括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,且其中所述反饋進(jìn)一步包括用于選擇性地傳送所 確定布局的音頻信號層的指令。
49.如權(quán)利要求47所述的系統(tǒng),其特征在于,所述接收器進(jìn)一步被配置成通過如下步 驟確定目標(biāo)屏幕尺寸的布局訪問可能布局表;利用第一組標(biāo)準(zhǔn)從所述可能布局表中選擇 一個(gè)或多個(gè)候選布局;將每個(gè)候選布局適配在所述目標(biāo)屏幕尺寸中;以及基于第二組標(biāo)準(zhǔn) 選擇所述候選布局中的零個(gè)或一個(gè)。
50.一種用于傳送多個(gè)視頻信號以及一個(gè)或多個(gè)關(guān)聯(lián)音頻信號的系統(tǒng),其中視頻信號 被可縮放地編碼成包括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,所述系統(tǒng)包括一個(gè)或多個(gè)服務(wù)器,所述一個(gè)或多個(gè)服務(wù)器被配置成接收用于選擇性傳送與所確定布局相對應(yīng)的視頻信號層的指令;以及選擇性地僅傳送用于以所確定布局顯示所述視頻信號所必需的視頻信號層的數(shù)據(jù)。
51.如權(quán)利要求50所述的系統(tǒng),其特征在于,所述一個(gè)或多個(gè)關(guān)聯(lián)音頻信號被可縮放 地編碼成包括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,且其中所述指令進(jìn)一步包括用于選擇 性地傳送所確定布局的音頻信號層的指令。
52.如權(quán)利要求50所述的系統(tǒng),其特征在于,所述一個(gè)或多個(gè)關(guān)聯(lián)音頻信號被可縮放 地編碼成包括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)層,且其中所述一個(gè)或多個(gè)服務(wù)器進(jìn)一步 被配置成選擇性地傳送具有最高活動(dòng)指示符的一個(gè)或多個(gè)音頻信號的基本層和增強(qiáng)層音頻信 號數(shù)據(jù),以及與在所確定布局中包含的一個(gè)或多個(gè)視頻信號相關(guān)聯(lián)的音頻信號的基本層音 頻信號數(shù)據(jù)。
全文摘要
一種用于經(jīng)由通信網(wǎng)絡(luò)傳送被可縮放地編碼成為包括基本層和一個(gè)或多個(gè)增強(qiáng)層的多個(gè)視頻信號以及關(guān)聯(lián)音頻信號(如果存在)以向一個(gè)或多個(gè)終端用戶呈現(xiàn)的系統(tǒng)和方法。用于顯示多個(gè)視頻信號的布局基于一組標(biāo)準(zhǔn)來確定,而且僅以所確定布局顯示視頻信號所必需的視頻信號層的數(shù)據(jù)以及任何關(guān)聯(lián)音頻信號經(jīng)由通信網(wǎng)絡(luò)被選擇性地傳送。
文檔編號H04N11/02GK102090069SQ200980127625
公開日2011年6月8日 申請日期2009年6月9日 優(yōu)先權(quán)日2008年6月9日
發(fā)明者A·埃萊夫塞里埃茲, J·P·阿德拉戈納 申請人:維德約股份有限公司