使用因特網(wǎng)協(xié)議保持流式音頻和視頻的同步的制作方法

文檔序號：7947463閱讀：459來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：使用因特網(wǎng)協(xié)議保持流式音頻和視頻的同步的制作方法
技術(shù)領(lǐng)域：
一般而言，本發(fā)明涉及數(shù)字電影播放系統(tǒng)，具體來說，涉及用于在播放過程中同步數(shù)字電影的音頻和視頻內(nèi)容的方法和設(shè)備。
背景技術(shù)：
“數(shù)字電影”的概念包括使用數(shù)字技術(shù)生產(chǎn)、交付并在劇院或電影院呈現(xiàn)聽覺/視覺材料的過程。數(shù)字電影節(jié)目通常在諸如DVD-ROM、磁帶或計算機硬盤驅(qū)動器之類的物理介質(zhì)上以壓縮和加密的形式分發(fā)，并且通?？梢酝ㄟ^使用衛(wèi)星或其他寬帶通信路徑靠電子傳輸?shù)姆绞絹矸职l(fā)。
數(shù)字電影播放系統(tǒng)控制進行數(shù)字電影放映所需的過程。這些過程包括接收或存儲數(shù)字電影節(jié)目，將其解壓縮或解密為可以由數(shù)字內(nèi)容解碼器進行處理的數(shù)字視頻或音頻數(shù)據(jù)流，對數(shù)據(jù)流的內(nèi)容進行解碼以獲取可以用于驅(qū)動視頻顯示器或音頻放大器的信號，以及控制其他功能，如在電影劇場可以發(fā)現(xiàn)的特殊效果、幕布或劇場照明等。
由于各種商業(yè)原因，必須以單獨的數(shù)據(jù)流傳送和處理視頻和音頻內(nèi)容。例如，一個影片的視頻數(shù)據(jù)可以用多個音頻數(shù)據(jù)集合來進行分發(fā)，所述音頻集合具有不同語言或影響影片評級的語音的粗俗差異。在播放時，可以選擇相應(yīng)的音頻數(shù)據(jù)以便與視頻數(shù)據(jù)一起呈現(xiàn)。視頻數(shù)據(jù)和所選擇的音頻數(shù)據(jù)在獨立的流中向設(shè)備傳輸，以便進行諸如內(nèi)容解碼之類的處理。
典型的數(shù)字電影播放系統(tǒng)包括多個設(shè)備，它們通過電力網(wǎng)彼此進行通信，電力網(wǎng)類似于用于將計算機互連起來的許多網(wǎng)絡(luò)。這些網(wǎng)絡(luò)使用被稱為傳輸控制協(xié)議/因特網(wǎng)協(xié)議(TCP/IP)的通信協(xié)議，常常遵循通常被稱為以太網(wǎng)的標(biāo)準(zhǔn)，在IEEE 802.3標(biāo)準(zhǔn)中對該標(biāo)準(zhǔn)進行了描述。選擇此網(wǎng)絡(luò)和協(xié)議可以簡化實現(xiàn)數(shù)字電影播放系統(tǒng)的任務(wù)，因為使用它們所需要的電接口以及邏輯接口以及過程都是現(xiàn)成的，并具有相對比較低的成本。令人遺憾的是，使用這種網(wǎng)絡(luò)和協(xié)議使得對視頻和音頻數(shù)據(jù)流的處理和呈現(xiàn)難以同步。
在視頻和音頻數(shù)據(jù)流之間缺少同步可能會在本打算同時出現(xiàn)的視頻和音頻內(nèi)容中的事件中引入時間差異。如果時間差異足夠大，那么，結(jié)果可能對觀眾造成困擾。同步誤差可能由播放系統(tǒng)中的計時誤差所引起，或者它們可以由視頻和音頻數(shù)據(jù)流內(nèi)傳送的控制播放系統(tǒng)的操作的控制信息中的錯誤所引起?？刂菩畔㈠e誤的產(chǎn)生來源可能有多種，包括在創(chuàng)作或制作視頻/音頻內(nèi)容的母版過程中產(chǎn)生的錯誤，將數(shù)據(jù)流從一種數(shù)據(jù)格式或標(biāo)準(zhǔn)轉(zhuǎn)換為另一種，視頻和音頻內(nèi)容的長度的差異，當(dāng)從一個節(jié)目切換到另一個節(jié)目時，產(chǎn)生對準(zhǔn)誤差。
有在各種上下文中用于同步音頻和視頻數(shù)據(jù)流的已知方法，包括在諸如IP網(wǎng)絡(luò)之類的網(wǎng)絡(luò)上以數(shù)據(jù)包傳輸?shù)牧鞯耐健＿@些方法中有許多是為用于網(wǎng)絡(luò)延遲不可預(yù)測，音頻或視頻內(nèi)容的數(shù)據(jù)包丟失或接收時有錯誤，以及競爭網(wǎng)絡(luò)流量是可變的情況而設(shè)計的。用于保持獨立的視頻和音頻數(shù)據(jù)流之間的同步的常見的方法包括從落后于一個數(shù)據(jù)流的另一個數(shù)據(jù)流中丟棄信息的數(shù)據(jù)包，調(diào)整對數(shù)據(jù)流進行處理的設(shè)備的處理時鐘的速度，以及截斷解碼或從接收到的數(shù)據(jù)包恢復(fù)數(shù)據(jù)的進程。
與數(shù)字視頻和音頻內(nèi)容的其他應(yīng)用不同，數(shù)字電影播放系統(tǒng)不應(yīng)該丟棄視頻和音頻內(nèi)容的數(shù)據(jù)包，恢復(fù)的視頻和音頻內(nèi)容的質(zhì)量必須保持在其最高的水平。在某些實現(xiàn)方式中對處理時鐘的速度的調(diào)整不可能進行，或者無吸引力，因為它在放映時會產(chǎn)生明顯的扭曲。

發(fā)明內(nèi)容
本發(fā)明的目標(biāo)是提供分離的的視頻和音頻數(shù)據(jù)流的同步，以便視頻和音頻數(shù)據(jù)是完整的。
根據(jù)本發(fā)明的一個方面，通過導(dǎo)出傳送視頻和音頻內(nèi)容的視頻和音頻數(shù)據(jù)包序列的定時信息并通過有選擇地延遲數(shù)據(jù)包來實現(xiàn)同步，來同步音頻/視頻節(jié)目的音頻內(nèi)容和視頻內(nèi)容。向此定時信息應(yīng)用知覺模型，以獲取視頻和音頻數(shù)據(jù)包序列之間的感覺到的錯位的度量。如果感覺到的錯位的度量表明音頻數(shù)據(jù)包太早，則使音頻數(shù)據(jù)包延遲一個量，以便根據(jù)知覺模型，音頻和視頻數(shù)據(jù)包序列之間的感覺到的錯位減少。如果感覺到的錯位的度量表明音頻數(shù)據(jù)包太晚，則使視頻數(shù)據(jù)包和音頻數(shù)據(jù)包兩者都延遲相應(yīng)的量，以便根據(jù)知覺模型，音頻和視頻數(shù)據(jù)包序列之間的感覺到的錯位減少。
通過參考下列討論和附圖，可以更好地理解本發(fā)明的各種功能以及其優(yōu)選實施例，在幾個附圖中，類似的參考編號表示相同的元素。下列討論和圖形的內(nèi)容是只作為示例來闡述的，不應(yīng)該理解為對本發(fā)明的范圍的限制。

圖1是數(shù)字電影網(wǎng)絡(luò)的功能示意方框圖。
圖2是數(shù)字電影播放系統(tǒng)的功能示意方框圖。
圖3包括用于保持視頻和音頻數(shù)據(jù)的同步的組件的數(shù)字電影播放系統(tǒng)中的影片播放器的示意方框圖。
圖4是可以用來實現(xiàn)本發(fā)明的各個方面的設(shè)備的示意方框圖。
具體實施例方式
A.引言圖1顯示了具有多個播放系統(tǒng)的數(shù)字電影網(wǎng)絡(luò)。典型的系統(tǒng)對于數(shù)字電影影院綜合體中的每一個劇場都具有一個播放系統(tǒng)；然而，網(wǎng)絡(luò)和設(shè)備可以以多種方式來組織和安裝，包括，例如單個劇場中多個播放系統(tǒng)，具有一個或多個屏幕。這后一種方案允許多個數(shù)字電影節(jié)目同時在一個劇場中放映。
請參看圖1，影院管理服務(wù)器10、網(wǎng)關(guān)30以及播放系統(tǒng)40a、40b使用影院網(wǎng)絡(luò)交換機20通過網(wǎng)絡(luò)彼此連接在一起。優(yōu)選情況下，使用了千兆以太網(wǎng)或1000Base-T網(wǎng)絡(luò)。影院管理服務(wù)器10執(zhí)行各種服務(wù)，包括對數(shù)字電影網(wǎng)絡(luò)中的播放系統(tǒng)40a、40b的管理和總體控制。網(wǎng)關(guān)30是可選的，提供了數(shù)字電影網(wǎng)絡(luò)和一個或多個通信路徑之間的通信鏈路，如衛(wèi)星通信鏈路33或地球?qū)拵ЬW(wǎng)37?；蛘?，網(wǎng)關(guān)也可以集成到交換機20中，以提供單一交換機/網(wǎng)關(guān)或路由器設(shè)備。通信路徑可以用來提供諸如電影宣傳材料和數(shù)字電影節(jié)目解密密鑰之類的信息。也可以提供虛擬專用網(wǎng)絡(luò)或類似的功能，以更好地保護諸如解密密鑰之類的敏感信息。
在數(shù)字電影網(wǎng)絡(luò)的優(yōu)選實現(xiàn)方式中，每一個播放系統(tǒng)40都可以在功能上獨立于網(wǎng)絡(luò)中的所有其他播放系統(tǒng)。相應(yīng)的播放系統(tǒng)40可以提供數(shù)字電影放映，無需從任何其他播放系統(tǒng)中的設(shè)備提供服務(wù)。播放系統(tǒng)可以以各種方式來實現(xiàn)。下面將描述一種方式。
B.播放系統(tǒng)如圖2所示的示意方框圖顯示了播放系統(tǒng)40的一種實現(xiàn)方式，包括影片存儲器41、影片播放器42、顯示器43、音頻處理器44、自動化接45以及交換機49。交換機49提供了影片播放器42之外的所有這些設(shè)備之間的網(wǎng)絡(luò)連接。通信路徑51、53、54直接將影片播放器42分別連接到影片存儲器41、顯示器43以及音頻處理器44。
影片存儲器41通過通信路徑52連接到網(wǎng)絡(luò)交換機20，并充當(dāng)文件服務(wù)器，用于接收和存儲一個或多個數(shù)字電影節(jié)目。影片存儲器41可以存儲影片配置、影片時間表、以及涉及授權(quán)、數(shù)字權(quán)限管理和加密的信息。在優(yōu)選的實現(xiàn)方式中，影片存儲器41還充當(dāng)動態(tài)主機配置協(xié)議(DHCP)服務(wù)器，以控制向播放系統(tǒng)40中的設(shè)備分配網(wǎng)絡(luò)IP地址，并可以實現(xiàn)服務(wù)位置協(xié)議(SLP)用戶和服務(wù)代理，以便有助于在播放系統(tǒng)內(nèi)提供服務(wù)。分別在因特網(wǎng)征求意見資料(RFC)1541和RFC 2165中描述了DHCP和SLP。影片存儲器41從存儲的節(jié)目中提取視頻和音頻信息，將提取的信息重新格式化為編碼過的數(shù)據(jù)流，并將編碼過的數(shù)據(jù)流提供到影片播放器42。優(yōu)選情況下，編碼過的數(shù)據(jù)流通過直接連接了影片存儲器41和影片播放器42的寬帶通信路徑51(如專用1000Base-T以太網(wǎng)路徑)從前者傳送到后者。在典型的實現(xiàn)方式中，編碼過的表示傳送根據(jù)一些標(biāo)準(zhǔn)進行編碼的視頻信息，如國際標(biāo)準(zhǔn)化組織(ISO)電影專家小組(MPEG)文件SO/IEC 13818-1到13818-9中描述的MPEG-2標(biāo)準(zhǔn)，或ISO/IEC 154442000中描述的JPEG-2000標(biāo)準(zhǔn)，并傳送音頻信息，該音頻信息可以作為脈碼調(diào)制(PCM)數(shù)據(jù)、MetaAudio增強PCM數(shù)據(jù)或通過諸如MetaAudio Dolby F之類的編碼過程產(chǎn)生的數(shù)據(jù)來進行編碼。位于加利福尼亞舊金山的Dolby Laboratories所推出的Dolby Show Store DSS100是合適的影片存儲器41的一個示例。
影片播放器42是數(shù)字內(nèi)容解碼器，該解碼器對編碼過的數(shù)據(jù)流進行解碼，以獲取數(shù)字視頻和數(shù)字音頻信息，所述數(shù)字視頻和數(shù)字音頻信息通過通信路徑53、54分別提供到顯示器43和音頻處理器44。編碼過的表示可以是加密的。如果是加密的，影片播放器42使用相應(yīng)的視頻內(nèi)容解密密鑰，對視頻內(nèi)容進行解密。優(yōu)選情況下，使用諸如聯(lián)邦信息處理標(biāo)準(zhǔn)(FIPS)出版物197中所描述的技術(shù)，并利用由諸如RSA Cryptography Standard PKCS #1 v2.1或在IEEE1363-2000標(biāo)準(zhǔn)中所描述那些技術(shù)所提供的密鑰生成和交換。影片存儲器41從影院管理服務(wù)器10接收相應(yīng)的視頻內(nèi)容解密密鑰，可以存儲此密鑰，隨后根據(jù)需要將它傳給影片播放器42，也可以將密鑰傳遞給影片播放器42而不存儲它。
在一個實現(xiàn)方式中，影片存儲器41接收視頻內(nèi)容解密密鑰的加密的版本，該加密過的視頻內(nèi)容解密密鑰是使用唯一地與影片播放器42關(guān)聯(lián)的公鑰進行加密的。影片播放器42使用其自己的私鑰對加密的視頻內(nèi)容解密密鑰進行解密，根據(jù)需要，使用視頻內(nèi)容解密密鑰對視頻信息進行解密和解碼，并且如果需要，對解碼過的視頻信息進行加密，供隨后交付到顯示器43。加密可以遵循一些標(biāo)準(zhǔn)或其他規(guī)范，如提出的電影與電視工程師學(xué)會(SMPTE)DC28.4標(biāo)準(zhǔn)，也可以遵循與顯示器43兼容的專有的過程。位于加利福尼亞舊金山的DolbyLaboratories所推出的Dolby Show Player，DSP100是合適的影片播放器42的一個示例。
顯示器43從影片播放器42接收解碼過的視頻信息，在必要時，對該信息進行解密，并呈現(xiàn)視頻信息以供觀看。顯示器基本上可以是能夠呈現(xiàn)視頻信息的任何設(shè)備，如液晶顯示器(LCD)面板或能夠?qū)D像投射到屏幕或其他顯示介質(zhì)中的投影儀。優(yōu)選情況下，解碼過的視頻信息通過寬帶通信路徑53，以符合高清晰度串行數(shù)據(jù)接口(HD-SDI)的形式(如SMPTE 292M標(biāo)準(zhǔn)所描述的)直接從影片播放器42傳送到顯示器43。Barco N.V.，Pres.Kennedypark 35，8500Kortrijk，Belgium所推出的DP 100型投影儀是合適的顯示器43的一個示例。
音頻處理器44從影片存儲器42接收音頻信息，在必要時，對音頻信息進行解碼，并根據(jù)需要施加過濾和均衡，以產(chǎn)生可以供揚聲器或其他聲換能器放大后呈現(xiàn)的信號。位于加利福尼亞舊金山的Dolby Laboratories所推出的CP650型電影聲音處理器是合適的音頻處理器44的一個示例。優(yōu)選情況下，音頻信息通過直接連接影片播放器42和音頻處理器44的寬帶通信路徑54從前者傳送給后者，并遵循SMPTE 276M標(biāo)準(zhǔn)。
自動化接45響應(yīng)通過交換機49接收到的命令產(chǎn)生信號，以控制特殊效果、劇場照明，幕布及影院自動化系統(tǒng)中的其他組件。位于加利福尼亞舊金山的Dolby Laboratories所推出的NetworkAutomation Interface NA10是合適的自動化接口的一個示例。
交換機49切換播放系統(tǒng)40的網(wǎng)絡(luò)內(nèi)的通信。在優(yōu)選實現(xiàn)方式中，它支持1000Mb/s或更快的網(wǎng)絡(luò)，如1000Base-T網(wǎng)絡(luò)。
C.影片存儲器下面所描述的本發(fā)明的一種實現(xiàn)方式被集成到接收和處理編碼過的視頻和音頻數(shù)據(jù)的影片播放器42中。視頻數(shù)據(jù)遵循上文所提及的MPEG-2標(biāo)準(zhǔn)。視頻和音頻數(shù)據(jù)根據(jù)內(nèi)容流式協(xié)議(CSP)以數(shù)據(jù)包的形式組織。影片存儲器41響應(yīng)它在符合材料交換格式(MXF)的數(shù)據(jù)文件中讀取的數(shù)據(jù)，產(chǎn)生符合CSP的數(shù)據(jù)流。MXF是一種被提議的標(biāo)準(zhǔn)，當(dāng)前正處于被SMPTE W25技術(shù)委員會針對廣播應(yīng)用領(lǐng)域接受的過程中。如果需要，本發(fā)明的各個方面可以集成到其他設(shè)備中或播放系統(tǒng)的某些部件中。本發(fā)明的原理可以用來使符合其他標(biāo)準(zhǔn)的視頻和音頻數(shù)據(jù)流同步。
上文所提及的Dolby Show Store DSS100使用了CSP。使用此協(xié)議對本發(fā)明不是必不可少的，但是，也是如上文所提及的，其使用確實提供了可以由Dolby Show Player DSP 100進行處理的數(shù)據(jù)流。通過使用CSP，影片存儲器41將視頻和音頻數(shù)據(jù)組織為數(shù)據(jù)包。每一個視頻數(shù)據(jù)包都具有傳送視頻數(shù)據(jù)的數(shù)據(jù)部分和傳送控制信息的標(biāo)頭部分，控制信息包括“卷ID”、視頻“卷幀計數(shù)”、視頻“幀分數(shù)偏移”、視頻“幀時間偏移”，以及視頻“幀速率”。每一個音頻數(shù)據(jù)包都具有傳送音頻數(shù)據(jù)的數(shù)據(jù)部分和傳送控制信息的標(biāo)頭部分，控制信息包括卷ID、音頻“卷幀計數(shù)”、音頻“幀分數(shù)偏移”、音頻“采樣速率”，以及音頻“幀速率”。
對于這里所描述的實現(xiàn)方式，影片存儲器41存儲了以“軌跡文件”組織的MXF文件。每一個軌跡文件中的數(shù)據(jù)都代表節(jié)目材料的“卷”的視頻內(nèi)容或音頻內(nèi)容，原則上對應(yīng)于由常規(guī)的影片的卷傳送的視覺或聽覺材料。軌跡文件可以代表諸如電影之類的節(jié)目的全部或一部分。通常，標(biāo)準(zhǔn)長度的電影的數(shù)據(jù)被組織在一組多個視頻磁跡文件中和一組多個音頻磁跡文件中，它們中每一個都按順序播放，以產(chǎn)生視頻和音頻數(shù)據(jù)流。隨著影片存儲器41讀取軌跡文件，它在符合CSP的數(shù)據(jù)流中產(chǎn)生信息的數(shù)據(jù)包。視頻數(shù)據(jù)包傳送相應(yīng)的視頻幀的視頻數(shù)據(jù)。音頻數(shù)據(jù)包傳送可以對應(yīng)于相應(yīng)的視頻幀的一段時間內(nèi)或基本上可能需要的任何其他時間段的音頻數(shù)據(jù)。
卷ID和卷幀計數(shù)是由影片存儲器41產(chǎn)生的。從在時間上彼此關(guān)聯(lián)的相應(yīng)的視頻和音頻軌跡文件對，產(chǎn)生數(shù)據(jù)包，為這些數(shù)據(jù)包產(chǎn)生了唯一的卷ID。“卷幀計數(shù)”以幀為單位代表從該軌跡文件開始相應(yīng)的幀在軌跡文件內(nèi)的位置。從軌跡文件獲取上文所提及的諸如“幀分數(shù)偏移”之類的其他控制信息，并將它們插入到符合CSP數(shù)據(jù)包的標(biāo)頭中。
D.影片播放器如圖3所示的示意方框圖顯示了影片播放器42的一種實現(xiàn)方式。視頻緩沖器61接收和存儲在通過通信路徑51從影片存儲器41接收到的CSP視頻數(shù)據(jù)流中傳送的視頻內(nèi)容的數(shù)據(jù)包?？梢允褂贸Ｒ?guī)的網(wǎng)絡(luò)協(xié)議來控制視頻數(shù)據(jù)包從影片存儲器41傳輸?shù)揭曨l緩沖器61中。隨后，存儲在視頻緩沖器61中的視頻內(nèi)容的數(shù)據(jù)包被傳遞到視頻解碼器63，以便解碼為解碼過的視頻幀，然后，沿著通信路徑53傳遞到如上文所描述的顯示器43。編碼過的數(shù)據(jù)包與時鐘同步地傳遞到視頻解碼器63，該時鐘以等于由視頻解碼器63輸出解碼過的幀的速率的恒定的速率運轉(zhuǎn)。此速率是視頻幀速率。在每一個數(shù)據(jù)包中傳送的編碼過的數(shù)據(jù)的量不是恒定的。結(jié)果，傳遞到視頻解碼器63的編碼過的數(shù)據(jù)的比特速率或數(shù)據(jù)速率將改變。
緩沖器62是可選的，在需要以變化非常大的數(shù)據(jù)速率向視頻解碼器63提供視頻數(shù)據(jù)的系統(tǒng)中可以使用。通過允許視頻緩沖器61以較低成本的存儲電路(它們不能以滿足視頻解碼器63的需求的峰值速率提供視頻數(shù)據(jù))實現(xiàn)，其使用可以降低實施費用。在此可選配置中，視頻緩沖器61以滿足視頻解碼器63的平均數(shù)據(jù)速率要求的速率向緩沖器62提供視頻數(shù)據(jù)。緩沖器62存儲了足夠的視頻數(shù)據(jù)，以便它可以以實現(xiàn)最可能的圖像質(zhì)量的所需的幀速率所需要的最高數(shù)據(jù)速率向視頻解碼器63提供最大可能的視頻內(nèi)容數(shù)據(jù)包。
音頻緩沖器64接收和存儲在通過通信路徑51從影片存儲器41接收到的CSP音頻數(shù)據(jù)流中傳送的音頻內(nèi)容的數(shù)據(jù)包。可以使用常規(guī)的網(wǎng)絡(luò)協(xié)議來控制音頻數(shù)據(jù)包從影片存儲器41傳輸?shù)揭纛l緩沖器64中。如上文所描述的，由處理器65讀取存儲在音頻緩沖器64中的音頻內(nèi)容的數(shù)據(jù)包，并沿著通信路徑54傳遞到音頻處理器44。
剩余的組件對視頻解碼器63和處理器65的操作進行控制，以便可以實現(xiàn)視頻和音頻數(shù)據(jù)之間的同步，并在播放過程中保持同步。
E.同步1.概述如上所述，這里所描述的實現(xiàn)方式對封裝在CSP數(shù)據(jù)流中的視頻和音頻數(shù)據(jù)進行處理，CSP數(shù)據(jù)流是從存儲在根據(jù)提議的MXF標(biāo)準(zhǔn)格式化的軌跡文件中的數(shù)據(jù)產(chǎn)生的。這些特定編碼標(biāo)準(zhǔn)所需的此特定實現(xiàn)方式所特有的特點不是本發(fā)明的基本特點。
請參看圖3，以恒定的速率與其信號標(biāo)記了視頻幀周期的開始的時鐘同步地從視頻緩沖器61中讀取編碼過的視頻數(shù)據(jù)的數(shù)據(jù)包。在從視頻緩沖器61中讀取視頻數(shù)據(jù)包時，解碼器模型67對在視頻數(shù)據(jù)包中傳送的信息進行分析，以獲取那些數(shù)據(jù)包的視頻定時信息。被傳遞到同步控制器66的此定時信息表明相應(yīng)的視頻數(shù)據(jù)包將由視頻解碼器63作為解碼過的視頻幀輸出的時間。下面將描述此模型可以獲取視頻定時信息的一種方式。
原則上，通過基本上沿著從影片存儲器41到顯示器43的輸入端的路徑的任何地方的視頻數(shù)據(jù)包，可以獲得視頻定時信息，但首選在被輸入到解碼器63之前對數(shù)據(jù)包進行分析的方案，因為可以更輕松地調(diào)節(jié)視頻和音頻數(shù)據(jù)流的相對對準(zhǔn)。圖中所顯示的特定方案是有吸引力的，因為解碼器模型67可以在視頻數(shù)據(jù)包以相對適度的數(shù)據(jù)速率傳遞給緩沖器62的過程中對視頻數(shù)據(jù)包中的數(shù)據(jù)進行分析，而不是必須在數(shù)據(jù)以大大可變的速率(包括高得多峰值速率，存在于緩沖器62的輸出端)傳遞時對數(shù)據(jù)進行分析。
也可以與上文所提及的視頻幀速率時鐘同步地從音頻緩沖器64中讀取音頻數(shù)據(jù)。在許多實現(xiàn)方式中，不能預(yù)期音頻數(shù)據(jù)包與視頻數(shù)據(jù)包對準(zhǔn)，并且以不等于視頻幀速率的速率來讀取視頻數(shù)據(jù)包。在從音頻緩沖器64中讀取音頻數(shù)據(jù)包時，處理器65對音頻數(shù)據(jù)包中傳送的信息進行分析，以獲取音頻定時信息。被傳遞到同步控制器66的此定時信息表明相應(yīng)的音頻數(shù)據(jù)包將沿著通信路徑54輸出的時間。下面將描述此處理器可以獲取音頻數(shù)據(jù)包的音頻定時信息的一種方式。
同步控制器66分別從解碼器模型67和處理器65接收視頻定時信息和音頻定時信息，并在每一個視頻幀的開始判斷視頻和音頻數(shù)據(jù)流的相對對準(zhǔn)。此信息被傳遞到知覺模型68，該模型導(dǎo)出兩個數(shù)據(jù)流之間的任何定時錯位或同步誤差的可感覺性的度量。響應(yīng)可感覺性的度量，同步控制器66調(diào)節(jié)視頻數(shù)據(jù)包和/或音頻數(shù)據(jù)包的相對定時，以減少被認為是可感覺到的任何調(diào)諧錯位。下面將描述執(zhí)行此任務(wù)的方式。優(yōu)選的實現(xiàn)方式包括可選偏移控制器69。在這些實現(xiàn)方式中，同步控制器66解決定時對準(zhǔn)中的由偏移控制器69指定的任何需要的偏移。例如，可能需要偏移，以解決音頻處理器44中的處理延遲。
2.知覺模型視頻和音頻數(shù)據(jù)流之間的同步的誤差將導(dǎo)致畫面和聲音彼此不協(xié)調(diào)。取決于誤差的大小，此錯位可能對觀眾造成困擾。有許多事件具有視覺和聽覺線索，如爆炸、腳步聲和語音。語音中的同步誤差可能是最煩人的，一般被稱為“口型吻合”誤差。標(biāo)題為“Relative Timingof Sound and Vision for Broadcasting”的國際電信聯(lián)盟(ITU)文件TTU-R BT.1359-1中，如果誤差超出由“Threshold of Detectability”定義的時間間隔范圍，將同步誤差分類為明顯的，如果誤差超出由“Threshold of Acceptability”定義的時間間隔范圍，則將誤差分類為無法接受。根據(jù)此文件，由Threshold of Detectability定義的時間間隔從+45毫秒到-125毫秒，由Threshold of Acceptability定義的時間間隔從+90毫秒到-190毫秒，其中，正數(shù)表明音頻先于視頻。
在一個實現(xiàn)方式中，知覺模型68提供了具有三個值的感覺到的錯位的度量。一個值(如零)，表明，定時錯位，如果有的話，在由Threshold of Detectability定義的時間間隔范圍之內(nèi)。第二個值(如+1)表明，音頻比視頻超前了超出了由Threshold of Detectability定義的時間間隔范圍的量。第三個值(如+1)表明，音頻比視頻超前了超出了由Threshold of Detectability定義的時間間隔范圍的量?？梢允褂酶鞣N各樣的模型。
3.視頻定時(視頻解碼器模型)與上文所提及的視頻幀時鐘同步地，解碼器模型67導(dǎo)出每一個視頻幀周期的相應(yīng)的視頻數(shù)據(jù)包的視頻定時信息。
通過向視頻數(shù)據(jù)包中傳送的信息應(yīng)用解碼器模型67來獲取視頻定時信息。相應(yīng)的視頻數(shù)據(jù)包的此定時信息表明將由視頻解碼器63輸出從該相應(yīng)的視頻數(shù)據(jù)包解碼的視頻數(shù)據(jù)的時間。在下面的段落中描述了從根據(jù)上文所提及的CSP格式化的視頻數(shù)據(jù)包獲取視頻定時信息的一種方式。
符合CSP的視頻數(shù)據(jù)流中的每一個視頻數(shù)據(jù)包都具有標(biāo)頭部分和數(shù)據(jù)部分，所述標(biāo)頭部分有控制信息，所述數(shù)據(jù)部分有代表幀中的圖像或可視節(jié)目的畫面的數(shù)據(jù)。相應(yīng)的數(shù)據(jù)包的標(biāo)頭包括解碼-順序視頻“卷幀計數(shù)”，對于相應(yīng)的軌跡文件的數(shù)據(jù)流中的每一個連續(xù)的視頻數(shù)據(jù)包，該計數(shù)增大1，還包括視頻率“幀速”和視頻“幀分數(shù)偏移”，從中可以導(dǎo)出視頻定時信息。從可以表達為下列公式的計算中獲取解碼時間戳(DTS) DTS代表相應(yīng)的數(shù)據(jù)包中傳送的數(shù)據(jù)將被視頻解碼器63解碼并輸出的順序或相對時間。數(shù)據(jù)包被解碼的順序不一定是對應(yīng)的解碼過的數(shù)據(jù)被解碼器輸出的順序，后者可以被稱為“呈現(xiàn)順序”。
可以從DTS和也在視頻數(shù)據(jù)包標(biāo)頭中傳送的視頻幀時間偏移(TO)值導(dǎo)出按呈現(xiàn)順序的每一個數(shù)據(jù)包的相對時間或視頻呈現(xiàn)時間(VPT)。下面將說明達到這一目的的一種方式。
每一個視頻數(shù)據(jù)包都被分為三種類型中的一種，通常被稱為I數(shù)據(jù)包、P數(shù)據(jù)包和B數(shù)據(jù)包，表明了是如何對數(shù)據(jù)包中的視頻數(shù)據(jù)進行編碼的，以及將如何對它進行解碼。I數(shù)據(jù)包傳送被獨立于視頻節(jié)目中的所有其他幀進行編碼的數(shù)據(jù)，因此，可以獨立于視頻數(shù)據(jù)流中的所有其他數(shù)據(jù)包地對它進行解碼。P數(shù)據(jù)包傳送使用從視頻節(jié)目中的前面的幀預(yù)測的值而進行編碼的數(shù)據(jù)，在沒有對對應(yīng)于前面的幀的數(shù)據(jù)包進行解碼的情況下，不能對它進行解碼。例如，一個P數(shù)據(jù)包可以依賴于緊前面的I數(shù)據(jù)包，或者也可以依賴于另一個P數(shù)據(jù)包，而該另一個P數(shù)據(jù)包又直接或間接地依賴于一個I數(shù)據(jù)包。B數(shù)據(jù)包傳送使用從視頻數(shù)據(jù)流中的后面的幀預(yù)測的值(并且可能從前面的幀)而進行編碼的數(shù)據(jù)，在沒有對對應(yīng)于那些前面的和后面的幀的數(shù)據(jù)包進行解碼的情況下，不能對它進行解碼。
表I中顯示的信息代表視頻數(shù)據(jù)流中的數(shù)據(jù)包序列的一個示例。

表I此序列中的數(shù)據(jù)包按解碼順序來顯示，如DTS的值所表達的。由TO值來表達從DTS導(dǎo)出VPT所需要的調(diào)整。此推導(dǎo)可以表達為

例如，類型P的第二個數(shù)據(jù)包的VPT是DTS+TO＝2+2＝4。類型B的第三個數(shù)據(jù)包的VPT是DTS+TO＝3+(-1)＝2。
對于這里所顯示的示例，DTS的值是任意選擇的整數(shù)，而視頻幀速率是任意選擇的等于1，以簡化討論。
這些數(shù)據(jù)包的VPT表示將從這些數(shù)據(jù)包解碼的幀的呈現(xiàn)順序。幀的呈現(xiàn)順序是I1B3B4P2B6B7P5，其中，序列中的每一個元素的下標(biāo)是對應(yīng)的數(shù)據(jù)包的DTS。
符合MPEG-2的視頻數(shù)據(jù)流中的編碼過的視頻數(shù)據(jù)包被組織為以I數(shù)據(jù)包開始的Group of Pictures(GOP)中。例如，表I中所按解碼順序顯示的數(shù)據(jù)包序列可以是一個GOP。雖然解碼順序中的每一個GOP都以I數(shù)據(jù)包開始，但是，I數(shù)據(jù)包不一定對應(yīng)于GOP的將由視頻解碼器輸出的第一個幀。這可以通過可以是一個GOP的數(shù)據(jù)包序列的另一個示例看出，由表II中顯示的信息來代表。

表II此序列中的數(shù)據(jù)包也是按解碼順序來顯示的。以與上文所討論的相同的方式根據(jù)DTS和TO導(dǎo)出VPT。在此示例中，第一個B數(shù)據(jù)包可能依賴于前面的GOP中的一個數(shù)據(jù)包。
這些數(shù)據(jù)包的VPT表示，將從這些數(shù)據(jù)包解碼的幀的呈現(xiàn)順序是B2B3I1B5B6P4，其中，序列中的每一個元素的下標(biāo)是對應(yīng)的數(shù)據(jù)包的DTS。
如果時間T1是GOP中的第一個數(shù)據(jù)包被輸入到視頻解碼器的時間，而T2是為該GOP輸出解碼過的數(shù)據(jù)的第一個幀的時間，那么，這兩個時間之間的時間間隔(T2-T1)是常數(shù)，可以被稱為該解碼器的解碼延遲。由于在視頻解碼器63中發(fā)生了幀的重新排序，所以，一個GOP內(nèi)的單個幀的解碼延遲不是常數(shù)。解碼器模型67根據(jù)進入解碼器的數(shù)據(jù)包的DTS，導(dǎo)出由視頻解碼器63輸出的幀的VPT。在一個實現(xiàn)方式中，如上文所描述的，解碼器模型67根據(jù)DTS來計算VPT，并解決緩沖器62中的緩沖延遲、解碼延遲，以及在視頻解碼器63中發(fā)生的幀重新排序。模型的這種實現(xiàn)方式甚至對于異常情況(如中途開始播放)能夠通過GOP判斷正確的VPT值，因為模型解決視頻解碼器63的實際操作。
在另一個實現(xiàn)方式中，解碼器模型67使用先進先出(FIFO)緩沖器，該緩沖器具有解決緩沖器62和視頻解碼器63中的延遲的長度。隨著視頻數(shù)據(jù)包被傳遞到緩沖器62，關(guān)聯(lián)的DTS值被推入FIFO。隨著由視頻解碼器63輸出視頻幀，從FIFO中讀取時間值，作為該幀的VPT。從計算上來說，此實現(xiàn)方式的復(fù)雜程度比上文所描述的實現(xiàn)方式稍小一些，但它不能通過GOP判斷異常情況(如中途開始播放)的正確的VPT。
對于任何一個實現(xiàn)方式，VPT代表從視頻解碼器63輸出相應(yīng)的視頻數(shù)據(jù)包的解碼過的視頻幀，以供顯示器43呈現(xiàn)。
4.音頻定時符合CSP的音頻數(shù)據(jù)流中的每一個音頻數(shù)據(jù)包都具有標(biāo)頭部分和數(shù)據(jù)部分，所述標(biāo)頭部分有控制信息，所述數(shù)據(jù)部分有代表音頻樣本的幀的數(shù)據(jù)。數(shù)據(jù)部分可以傳送代表幀中的單個樣本的PCM數(shù)據(jù)，它也可以傳送一組數(shù)據(jù)，該組數(shù)據(jù)代表已經(jīng)使用一些塊編碼進程(如轉(zhuǎn)換編碼或塊縮放)編碼過的音頻樣本的幀。由數(shù)據(jù)包標(biāo)頭中的信息指定音頻幀中的由一個數(shù)據(jù)包代表的樣本的數(shù)量。通常，標(biāo)頭指定了音頻采樣速率和音頻幀速率。通過將音頻采樣速率除以音頻幀速率，可以計算出音頻幀中的樣本數(shù)量。
標(biāo)頭部分還包括控制信息，根據(jù)該控制信息，可以導(dǎo)出音頻呈現(xiàn)時間(APT)。在下面的段落中描述了可以從符合CSP的音頻數(shù)據(jù)包獲取音頻定時信息的一種方式。
相應(yīng)的數(shù)據(jù)包的標(biāo)頭包括音頻卷幀計數(shù)，對于相應(yīng)的軌跡文件的數(shù)據(jù)流中的每一個連續(xù)的數(shù)據(jù)包，該計數(shù)增大1。從可以表達為下列公式的計算中獲取按呈現(xiàn)順序的每一個數(shù)據(jù)包的開始的相對時間，或音頻幀時間(AFT) 在從音頻緩沖器64中讀取一個音頻數(shù)據(jù)包時，處理器65確定對應(yīng)于該數(shù)據(jù)包的每一個音頻幀的AFT。與上文所提及的視頻幀時鐘同步地，處理器65確定音頻數(shù)據(jù)流中的與當(dāng)前視頻幀周期的開始最接近地對準(zhǔn)的樣本周期的音頻呈現(xiàn)時間(APT)。在典型的情況下，此對準(zhǔn)位置并不與音頻幀的開始重合，而是在一個幀內(nèi)的某處出現(xiàn)。在這些情況下，通過外推法根據(jù)其中出現(xiàn)了對準(zhǔn)位置的幀的開始的AFT獲取對準(zhǔn)位置的定時信息?？梢砸愿鞣N方式執(zhí)行此外推法。一種方式可以表達為其中，K＝音頻幀的開始和當(dāng)前視頻幀的開始之間的樣本周期數(shù)量。
5.同步控制同步控制器66負責(zé)實現(xiàn)和保持視頻和音頻數(shù)據(jù)流之間的同步。下面的討論描述了如何使用本發(fā)明的原理來在播放過程中保持同步；然而，也可以使用這些相同的原理在播放開始時實現(xiàn)同步。如果需要，也可以使用基本上任何已知的同步技術(shù)來實現(xiàn)播放開始時的初始同步。
根據(jù)需要監(jiān)視和調(diào)整視頻和音頻數(shù)據(jù)流的相對對準(zhǔn)，以通過延遲對視頻數(shù)據(jù)包和音頻數(shù)據(jù)包的處理，保持所需要的極限內(nèi)的同步。在一個實現(xiàn)方式中，通過在整數(shù)的視頻幀周期內(nèi)暫停從視頻緩沖器61讀取視頻數(shù)據(jù)，延遲對視頻數(shù)據(jù)包的處理，通過在可以等于音頻樣本周期的整數(shù)倍或音頻幀周期的整數(shù)倍的指定的時間段內(nèi)暫停從音頻緩沖器64讀取數(shù)據(jù)，延遲對音頻數(shù)據(jù)的處理。
對于每一個視頻幀，同步控制器66獲取當(dāng)前視頻幀的視頻定時信息以及音頻數(shù)據(jù)流中的實際與視頻幀的開始對準(zhǔn)的位置的音頻定時信息。此定時信息被傳遞到知覺模型68，該模型判斷兩個數(shù)據(jù)流之間的任何錯位是否是可感覺到的。在一個實現(xiàn)方式中，這是通過判斷視頻和音頻時間之間的差異是否超出由上文所提及的ITU Threshold ofDetectability定義的時間間隔之外。
如果知覺模型68表明沒有可感覺到的錯位，則繼續(xù)對兩個數(shù)據(jù)流進行正常的處理從視頻緩沖器61讀取視頻數(shù)據(jù)，并將它傳給視頻解碼器63，從音頻緩沖器64讀取音頻數(shù)據(jù)，并將它通信路徑54傳給音頻處理器44。
如果音頻和視頻時間表明音頻數(shù)據(jù)流早于視頻數(shù)據(jù)流，并且知覺模型68表明數(shù)據(jù)流之間的錯位是可感覺到的，那么，繼續(xù)對視頻數(shù)據(jù)流進行正常的處理，但同步控制器66指示處理器65將對音頻數(shù)據(jù)流的處理延遲指定的時間間隔DA，它要么是音頻幀周期的整數(shù)倍，要么是音頻樣本周期的整數(shù)倍。確定此時間間隔的持續(xù)時間DA的一種方式可以表達為其中，VPT＝當(dāng)前視頻幀的呈現(xiàn)時間；APT＝當(dāng)前音頻樣本的呈現(xiàn)時間；PA＝根據(jù)需要的音頻幀周期或音頻樣本周期；以及在此時間間隔中，處理器65將諸如零值樣本之類的數(shù)據(jù)或以前的樣本的值插入到沿著路徑54傳遞的音頻數(shù)據(jù)流中。如果音頻數(shù)據(jù)包傳送由塊編碼過程產(chǎn)生的數(shù)據(jù)，則優(yōu)選情況下，零值數(shù)據(jù)被插入在從音頻緩沖器64中讀取的下一個音頻數(shù)據(jù)包的前面。在此實現(xiàn)方式中，音頻處理器44可以通過屏蔽其輸出或通過重復(fù)以前的樣本來對對插入的數(shù)據(jù)作出響應(yīng)。被屏蔽的時間間隔后面的音頻的振幅可以逐漸地從非常低的電平朝著需要的正常電平的方向增大。如果影片播放器42或音頻處理器44在它輸出先于延遲的音頻樣本之前得到了延遲的通知，那么，根據(jù)需要，被屏蔽的時間間隔前面的音頻的振幅可以逐漸地朝著非常低的電平的方向縮小。
如果視頻和音頻時間表明視頻數(shù)據(jù)流早于音頻數(shù)據(jù)流，并且知覺模型68表明數(shù)據(jù)流之間的錯位是可感覺到的，那么，則同步控制器66指示視頻解碼器63將對視頻數(shù)據(jù)流的處理延遲指定的時間間隔Dv，Dv是視頻幀周期的整數(shù)倍，它指示處理器65將對音頻數(shù)據(jù)流處理延遲指定的時間間隔DA，如上所述，它要么是音頻幀周期的整數(shù)倍，要么是音頻樣本周期的整數(shù)倍。確定兩個時間間隔的持續(xù)時間的一種方式可以表達為其中，Pv＝視頻幀周期。
在時間間隔Dv過程中，視頻解碼器63將一個或多個視頻幀的數(shù)據(jù)插入到沿著路徑53傳遞的視頻數(shù)據(jù)流中。這些插入的幀可以是以前的視頻幀的重復(fù)，也可以代表任何任意圖像，如沒有亮度的圖像，通常叫做“黑色幀”。在時間間隔Da中，如上文所描述的，處理器65將諸如零值樣本之類的數(shù)據(jù)插入到沿著路徑54傳遞的音頻數(shù)據(jù)流中。
在典型的實現(xiàn)方式中，視頻幀周期大致為40毫秒，而音頻樣本周期大致為20μs。對音頻數(shù)據(jù)流的對準(zhǔn)的調(diào)整通?？梢砸员葘τ谝曨l數(shù)據(jù)流進行的細得多的增量進行。
對相對對準(zhǔn)的調(diào)整也可以由數(shù)據(jù)流中傳送的源材料的變化，如從宣傳尾部變換到主要電影功能，通過視頻或音頻幀速率或音頻采樣率的變化，或指定操作員指定的偏移的變化來觸發(fā)。
每當(dāng)從一個軌跡文件切換到另一個軌跡文件時，影片存儲器41的一個實現(xiàn)方式產(chǎn)生不同的卷ID、并為從新的軌跡文件產(chǎn)生的數(shù)據(jù)包重置初始幀計數(shù)(Frame Count)為零。在有些情況下，影片存儲器41可以在不同的時間在視頻軌跡文件和音頻軌跡文件之間切換。在此情況下，影片播放器42的優(yōu)選實現(xiàn)方式暫停進行任何對準(zhǔn)的變化，直到兩個數(shù)據(jù)流中的數(shù)據(jù)包具有匹配的卷ID。
F.實現(xiàn)方式集成了本發(fā)明的各個方面的設(shè)備可以以各種方式來實現(xiàn)，包括由計算機或某些其他設(shè)備執(zhí)行的軟件，其他設(shè)備包括比較專業(yè)化的組件，如連接到類似于通用計算機中的那些組件的組件的數(shù)字信號處理器(DSP)電路。圖4是可以用來實現(xiàn)本發(fā)明的各個方面的設(shè)備70的示意方框圖。處理器72提供了計算資源。RAM 73是供處理器72用來執(zhí)行處理過程的系統(tǒng)隨機存取存儲器(RAM)。ROM 74代表某種形式的永久存儲器，如用于存儲對設(shè)備70進行操作所需要的程序的只讀存儲器(ROM)，還可能用于實現(xiàn)本發(fā)明的各個方面。I/O控件75代表用于通過通信信道76、77接收和傳輸信號的接口電路。在所顯示的實施例中，所有主要系統(tǒng)組件都連接到總線71，該總線可以代表一個以上的物理或邏輯總線；然而，總線體系結(jié)構(gòu)不是實現(xiàn)本發(fā)明所需要的。
在由通用計算機系統(tǒng)實現(xiàn)的實施例中，可以包括額外的組件，用于連接到諸如鍵盤或鼠標(biāo)和顯示器，以及用于控制具有諸如磁帶或磁盤或光學(xué)介質(zhì)之類的存儲介質(zhì)的存儲設(shè)備78。存儲介質(zhì)可以用來記錄操作系統(tǒng)、實用程序和應(yīng)用程序的指令的程序，并可以包括實現(xiàn)本發(fā)明的各個方面的程序。優(yōu)選情況下，可以使計算機系統(tǒng)能容忍硬件故障。達到這一目的一種方式是提供冗余組件(如雙電源)和冗余存儲設(shè)備，并使用能夠檢測并對故障作出反應(yīng)的操作系統(tǒng)。
實施本發(fā)明的各個方面所需的功能可以通過以多種方式實現(xiàn)的組件來執(zhí)行，包括離散邏輯組件、集成電路、一個或多個ASIC和/或程序控制的處理器。實現(xiàn)這些組件的方式對本發(fā)明來說不重要。
本發(fā)明的軟件實現(xiàn)方式可以通過諸如基帶或調(diào)制通信路徑之類的各種機器可讀的介質(zhì)，在包括從超聲波到紫外線頻率的頻譜范圍內(nèi)進行傳遞，或通過使用了基本上任何記錄技術(shù)(包括磁帶、磁卡或磁盤、光卡或光盤)，以及包括紙張的介質(zhì)上的可檢測的標(biāo)記來傳送信息的存儲介質(zhì)來進行傳遞。
權(quán)利要求
1.一種用于處理音頻/視頻節(jié)目的音頻內(nèi)容和視頻內(nèi)容的方法，其中，該方法包括接收傳送第一控制信息和音頻內(nèi)容的音頻數(shù)據(jù)包序列，并從第一控制信息中獲取音頻數(shù)據(jù)包序列中相應(yīng)的音頻數(shù)據(jù)包的音頻時間信息；接收傳送第二控制信息和視頻內(nèi)容的視頻數(shù)據(jù)包序列，并從第二控制信息中獲取視頻數(shù)據(jù)包序列中相應(yīng)的視頻數(shù)據(jù)包的視頻時間信息；根據(jù)音頻時間信息和視頻時間信息確定相應(yīng)的音頻數(shù)據(jù)包與相應(yīng)的視頻數(shù)據(jù)包的相對時間對準(zhǔn)，并向相對時間對準(zhǔn)應(yīng)用知覺模型，以獲取相應(yīng)的音頻數(shù)據(jù)包和相應(yīng)的視頻數(shù)據(jù)包之間的感覺到的錯位的度量；如果感覺到的錯位的度量表明相應(yīng)的音頻數(shù)據(jù)包在相應(yīng)的視頻數(shù)據(jù)包的所需要的時間對準(zhǔn)之前一個超過第一閾值的時間間隔，將相應(yīng)的音頻數(shù)據(jù)包的全部或一部分延遲第一量，以便根據(jù)知覺模型，延遲的相應(yīng)音頻數(shù)據(jù)包和相應(yīng)的視頻數(shù)據(jù)包之間的感覺到的錯位減少；以及如果感覺到的錯位的度量表明相應(yīng)的音頻數(shù)據(jù)包在相應(yīng)的視頻數(shù)據(jù)包的所需要的時間對準(zhǔn)之后一個超過第二閾值的時間間隔，將相應(yīng)的視頻數(shù)據(jù)包延遲第二量，將相應(yīng)的音頻數(shù)據(jù)包的全部或一部分延遲第三量，以便根據(jù)知覺模型，延遲的相應(yīng)的音頻數(shù)據(jù)包和延遲的相應(yīng)的視頻數(shù)據(jù)包之間的感覺到的錯位減少。
2.根據(jù)權(quán)利要求1所述的方法，其中在相應(yīng)的音頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表具有音頻幀周期的聽覺信息的間隔，在相應(yīng)的視頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表具有視頻幀周期的視覺信息的間隔；第一量等于音頻幀周期的整數(shù)倍；第二量等于視頻幀周期的整數(shù)倍；以及第三量等于音頻幀周期的整數(shù)倍。
3.根據(jù)權(quán)利要求1所述的方法，其中在相應(yīng)的音頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表多個樣本，每一個樣本都具有音頻樣本周期，在相應(yīng)的視頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表具有視頻幀周期的視覺信息的間隔；第一量等于音頻樣本周期的的整數(shù)倍；第二量等于視頻幀周期的整數(shù)倍；以及第三量等于音頻樣本周期的的整數(shù)倍。
4.根據(jù)權(quán)利要求1所述方法，該方法包括通過外推法從傳送相應(yīng)的音頻數(shù)據(jù)包的開始的時間的第一控制信息獲取音頻時間信息。
5.根據(jù)權(quán)利要求1所述的方法，包括將信息插入到從被延遲的所有或部分相應(yīng)的音頻數(shù)據(jù)包產(chǎn)生的音頻數(shù)據(jù)流中；以及減少插入的信息前面的音頻內(nèi)容的播放電平，增大插入的信息后面的音頻內(nèi)容的播放電平。
6.根據(jù)權(quán)利要求1所述的方法，其中從通信網(wǎng)絡(luò)接收音頻數(shù)據(jù)包序列和視頻數(shù)據(jù)包序列，并存儲在設(shè)備中的一個或多個緩沖器中；以及使用用于控制網(wǎng)絡(luò)中的通信的協(xié)議來控制存儲信息在一個或多個緩沖器中的存儲。
7.根據(jù)權(quán)利要求1所述方法，該方法確定第一量、第二量和第三量，以便感覺到的錯位減少到這樣的程度，即根據(jù)知覺模型不會感覺到所述錯位。
8.一種傳送可由設(shè)備執(zhí)行的指令的程序的介質(zhì)，所述程序被執(zhí)行以執(zhí)行用于處理音頻/視頻節(jié)目的音頻內(nèi)容和視頻內(nèi)容的方法，其中，該方法包括接收傳送第一控制信息和音頻內(nèi)容的音頻數(shù)據(jù)包序列，并從第一控制信息中獲取音頻數(shù)據(jù)包序列中相應(yīng)的音頻數(shù)據(jù)包的音頻時間信息；接收傳送第二控制信息和視頻內(nèi)容的視頻數(shù)據(jù)包序列，并從第二控制信息中獲取視頻數(shù)據(jù)包序列中相應(yīng)的視頻數(shù)據(jù)包的視頻時間信息；根據(jù)音頻時間信息和視頻時間信息確定相應(yīng)的音頻數(shù)據(jù)包與相應(yīng)的視頻數(shù)據(jù)包的相對時間對準(zhǔn)，并向相對時間對準(zhǔn)應(yīng)用知覺模型，以獲取相應(yīng)的音頻數(shù)據(jù)包和相應(yīng)的視頻數(shù)據(jù)包之間的感覺到的錯位的度量；如果感覺到的錯位的度量表明相應(yīng)的音頻數(shù)據(jù)包在相應(yīng)的視頻數(shù)據(jù)包的所需要的時間對準(zhǔn)之前一個超過第一閾值的時間間隔，將相應(yīng)的音頻數(shù)據(jù)包的全部或一部分延遲第一量，以便根據(jù)知覺模型，延遲的相應(yīng)的音頻數(shù)據(jù)包和相應(yīng)的視頻數(shù)據(jù)包之間的感覺到的錯位減少；以及如果感覺到的錯位的度量表明相應(yīng)的音頻數(shù)據(jù)包在相應(yīng)的視頻數(shù)據(jù)包的所需要的時間對準(zhǔn)之后一個超過第二閾值的時間間隔，將相應(yīng)的視頻數(shù)據(jù)包延遲第二量，將相應(yīng)的音頻數(shù)據(jù)包的全部或一部分延遲第三量，以便根據(jù)知覺模型，延遲的相應(yīng)的音頻數(shù)據(jù)包和延遲的相應(yīng)的視頻數(shù)據(jù)包之間的感覺到的錯位減少。
9.根據(jù)權(quán)利要求8所述的介質(zhì)，其中在相應(yīng)的音頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表具有音頻幀周期的聽覺信息的間隔，在相應(yīng)的視頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表具有視頻幀周期的視覺信息的間隔；第一量等于音頻幀周期的整數(shù)倍；第二量等于視頻幀周期的整數(shù)倍；以及第三量等于音頻幀周期的整數(shù)倍。
10.根據(jù)權(quán)利要求8所述的介質(zhì)，其中在相應(yīng)的音頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表多個樣本，每一個樣本都具有音頻樣本周期，在相應(yīng)的視頻數(shù)據(jù)包中傳送的數(shù)據(jù)代表具有視頻幀周期的視覺信息的間隔；第一量等于音頻樣本周期的整數(shù)倍；第二量等于視頻幀周期的整數(shù)倍；以及第三量等于音頻樣本周期的整數(shù)倍。
11.根據(jù)權(quán)利要求8所述的介質(zhì)，其中，所述方法包括通過外推法從傳送相應(yīng)的音頻數(shù)據(jù)包的開始的時間的第一控制信息獲取音頻時間信息。
12.根據(jù)權(quán)利要求8所述的介質(zhì)，其中，所述方法包括將信息插入到從被延遲的所有或部分相應(yīng)的音頻數(shù)據(jù)包產(chǎn)生的音頻數(shù)據(jù)流中；以及減少插入的信息前面的音頻內(nèi)容的播放電平，增大插入的信息后面的音頻內(nèi)容的播放電平。
13.根據(jù)權(quán)利要求8所述的介質(zhì)，其中從通信網(wǎng)絡(luò)接收音頻數(shù)據(jù)包序列和視頻數(shù)據(jù)包序列，并存儲在設(shè)備中的一個或多個緩沖器中；以及使用用于控制網(wǎng)絡(luò)中的通信的協(xié)議來控制信息在一個或多個緩沖器中的存儲。
14.根據(jù)權(quán)利要求8所述的介質(zhì)，其中，所述方法確定第一量、第二量和第三量，以便感覺到的錯位減少到這樣的程度，即根據(jù)知覺模型不會感覺到所述錯位。
全文摘要
數(shù)字電影網(wǎng)絡(luò)中的播放系統(tǒng)，通過導(dǎo)出視頻和音頻數(shù)據(jù)流中傳送的信息的數(shù)據(jù)包的定時信息，檢查定時信息以判斷在兩個數(shù)據(jù)流之間是否有很可能可感覺到的錯位，如果錯位被認為是可感覺到的，則向一個或兩個數(shù)據(jù)流中引入延遲，以校正錯位，從而同步視覺和聽覺內(nèi)容的放映。如果音頻數(shù)據(jù)流先于視頻數(shù)據(jù)流，則音頻數(shù)據(jù)流被延遲音頻樣本周期的整數(shù)倍。如果視頻數(shù)據(jù)流先于音頻數(shù)據(jù)流，則視頻數(shù)據(jù)流被延遲視頻幀的整數(shù)倍，音頻數(shù)據(jù)流被延遲音頻樣本周期的整數(shù)倍。減少插入的信息前面的音頻內(nèi)容的播放電平，增大插入的信息后面的音頻內(nèi)容的播放電平。
文檔編號H04N7/24GK1969561SQ200580020154
公開日2007年5月23日申請日期2005年4月8日優(yōu)先權(quán)日2004年6月18日
發(fā)明者特雷弗·達維斯, 約翰·D·庫林, 格普·拉克什米納拉亞納, 馬丁·J.·理查茲申請人:杜比實驗室特許公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：特雷弗.達維斯;約翰.D.庫林;格普.拉克什米納拉亞納;馬丁.J..理查茲
技術(shù)所有人：杜比實驗室特許公司
我是此專利的發(fā)明人

上一篇：無線從設(shè)備的制作方法
上一篇：設(shè)備管理系統(tǒng)和設(shè)備管理命令調(diào)度方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

因特網(wǎng)協(xié)議相關(guān)技術(shù)

因特網(wǎng)使用的協(xié)議是相關(guān)技術(shù)

因特網(wǎng)的路由選擇協(xié)議相關(guān)技術(shù)

五層因特網(wǎng)協(xié)議棧相關(guān)技術(shù)

因特網(wǎng)協(xié)議棧相關(guān)技術(shù)

因特網(wǎng)協(xié)議族相關(guān)技術(shù)

因特網(wǎng)使用的互聯(lián)協(xié)議相關(guān)技術(shù)

因特網(wǎng)主要傳輸協(xié)議相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用因特網(wǎng)協(xié)議保持流式音頻和視頻的同步的制作方法