專利名稱:一種快速播放多媒體信息的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體領(lǐng)域,尤其涉及一種快速播放多媒體信息的系統(tǒng)和方法。
背景技術(shù):
數(shù)字多媒體包含聲音和視覺(jué)信號(hào)的數(shù)字媒體。通常播放器的工作是把媒 體信息中的聲音和視頻信息分離,分別解碼,并且同步播放。
隨著各種新的編解碼方案的提出,視頻播放的質(zhì)量越來(lái)越高,如
MPEG-4, H.264等。從以前的普通電視到高清電視,隨著視頻播放質(zhì)量的 提高,人們對(duì)媒體信息中的音頻播放質(zhì)量也越來(lái)越重視。從早先的MEPG-1 Layer3到后來(lái)的AAC等優(yōu)秀的編碼方案,音質(zhì)的提高帶給人們更高的享受。
下面著重介紹目前廣泛使用的MEPG-2 AAC音頻解碼過(guò)程。
圖l描述了 MPEG-2 AAC音頻解碼的基本結(jié)構(gòu)。解碼器中包括了必選 和可選的模塊。圖中數(shù)據(jù)的流向是從左至右,由上至下。解碼器的任務(wù)是找 出比特流中對(duì)量化音頻頻i普的描述,解出量化值和其他重建信息,恢復(fù)量化 頻譜,通過(guò)比特流里的可用模塊對(duì)恢復(fù)的頻譜處理,從而逼近輸入比特流給 出的實(shí)際信號(hào)頻語(yǔ),最后將頻語(yǔ)值從頻域變換到時(shí)域中去,其中增益控制模 塊是可選的。在重建初始化和頻鐠重建的定標(biāo)之后,提供了一系列的可選模 塊對(duì)一段或者更多的頻i普進(jìn)行修正,使編碼效率更高。對(duì)于每一個(gè)運(yùn)作在頻 域的可選模塊,默認(rèn)的選項(xiàng)是"通過(guò)",在任何情況下,當(dāng)該項(xiàng)操作被省略 時(shí),其輸入端的頻譜信號(hào)不作修改地直接通過(guò)該模塊。
比特流去格式化模塊的輸入是MPEG-2 AAC比特流。去格式化器將 MPEG-2 AAC數(shù)據(jù)流的各部分分離成為對(duì)應(yīng)各個(gè)模塊的數(shù)據(jù)部分,并且提 供給該模塊與之有關(guān)的比特流信息。
比特流去格式化器的輸出是 無(wú)噪聲編碼頻譜的分區(qū)信息; 無(wú)噪聲編碼的頻譜; M/S的判決信息(可選); 預(yù)測(cè)器狀態(tài)信息(可選);
強(qiáng)度立體聲控制信息和耦合聲道控制信息(均可選); 時(shí)域噪聲整形(TNS)信息(可選); 濾波器控制信息; 增益控制信息(可選)。
無(wú)噪聲解碼模塊從比特流去格式化器取得信息,分析該信息,對(duì)霍夫曼 碼字解碼,重建量化頻譜以及霍夫曼編碼和DPCM編碼的比例因子。
無(wú)噪聲解碼模塊的輸入是 無(wú)噪聲編碼頻譜的分區(qū)信息;
無(wú)噪聲編碼的頻譜。 無(wú)噪聲解碼模塊的輸出是 比例因子的解碼整型表示; 頻語(yǔ)的量化值。
反量化模塊獲得頻譜的量化值,將整型值轉(zhuǎn)化成非歸一化的重建頻譜。 量化器是非均勻量化。
反量化模塊的輸入是
頻語(yǔ)的量化值。 反量化模塊的輸出是
非歸一化的反量化頻譜。
比例因子模塊將比例因子的整型表示轉(zhuǎn)化為真實(shí)值,與相應(yīng)的非歸 一化 反量化頻語(yǔ)相乘。比例因子模塊的輸入是比例因子的整型表示;非歸一化的反量化頻i普。 比例因子模塊的輸出是歸一化的反量化頻譜。M/S模塊在M/S判決信息的控制下,將頻譜對(duì)從中間/旁邊轉(zhuǎn)化成為左/ 右,從而>|是高編碼效率。M/S模塊的輸入是M/S判決信息;與成對(duì)聲道相關(guān)的,歸一化的反量化頻鐠。 M/S模塊的輸出是經(jīng)過(guò)M/S解碼的、與成對(duì)聲道相關(guān)的、歸一化的反量化頻譜。 對(duì)于每個(gè)聲道單獨(dú)編碼的歸一化的反量化頻鐠,M/S模塊不加處理,而 是讓它們直接通過(guò)不加修改。如果M/S模塊不可用,所有的頻譜都不加修 改i也直4妄通過(guò)。預(yù)測(cè)模塊是編碼器中預(yù)測(cè)的逆過(guò)程。它將編碼時(shí)預(yù)測(cè)模塊去除的冗余重 新引入,并由預(yù)測(cè)狀態(tài)信息加以控制。該模塊由一個(gè)二階后向自適應(yīng)預(yù)測(cè)器 實(shí)現(xiàn)。預(yù)測(cè)模塊的輸入是預(yù)測(cè)器狀態(tài)信息;歸一化的反量化頻譜。 預(yù)測(cè)模塊的輸出是 使用預(yù)測(cè)器后的歸 一化的反量化頻i普。 如果未使用預(yù)測(cè),歸 一化的反量化頻i普不加修改地直接通過(guò)。強(qiáng)度立體聲/耦合模塊完成成對(duì)頻譜的強(qiáng)度立體聲解碼。此外,在耦合 控制信息的控制下,它將非獨(dú)立切換耦合聲道的有關(guān)信息加到該點(diǎn)的頻譜之 上。強(qiáng)度立體聲/耦合模塊的輸入是 反量化頻譜;強(qiáng)度立體聲控制信息和耦合控制信息。強(qiáng)度立體聲/耦合模塊的輸出是經(jīng)過(guò)強(qiáng)度和耦合聲道解碼后的反量化頻譜。如果這個(gè)模塊的任一部分被禁用,反量化頻譜不加修改地直接通過(guò)該模 塊。強(qiáng)度立體聲模塊和M/S模塊的安排使得對(duì)于給定的任何比例因子頻段 和一簇頻語(yǔ)對(duì)而言,M/S和強(qiáng)度立體聲的操作是互斥的。時(shí)域噪聲整形(TNS)模塊對(duì)編碼噪聲的精細(xì)時(shí)間結(jié)構(gòu)加以控制。在編 碼器中,TNS將所處理的時(shí)域信號(hào)包絡(luò)變平坦。對(duì)于解碼器,在TNS信息 的控制下,用相反的過(guò)程來(lái)恢復(fù)真實(shí)的時(shí)域包絡(luò)。這種恢復(fù)是通過(guò)對(duì)部分頻 語(yǔ)數(shù)據(jù)的濾波來(lái)完成。TNS模塊的輸入是反量化的頻譜;TNS信息。 TNS模塊的輸出是反量化的頻譜; 如果該模塊被禁用,反量化頻譜值不加修改地直接通過(guò)。
濾波器組模塊為編碼器中頻率映射的相反過(guò)程,由濾波器組控制信息和 可能存在的增益控制信息加以表示。濾波器組使用了改進(jìn)離散余弦反變換(IMDCT)。如果沒(méi)有使用增益控制模塊,按window—sequence的取值不同, IMDCT的輸入由1024線或128線的頻譜系數(shù)構(gòu)成;相反,如果使用了增益 控制模塊,濾波器組的輸入則由四組256線或32線的頻譜系數(shù)構(gòu)成,其取 決于window—sequence的^f直。濾波器組模塊的輸入是反量化的頻i普;濾波器組的控制信息。 濾波器組模塊的輸出是重建的時(shí)域音頻信號(hào)。如果存在增益控制模塊,它會(huì)在該模塊輸入端信號(hào)的4個(gè)頻帶上分別加 上一個(gè)獨(dú)立的時(shí)域增益控制(這4個(gè)頻帶是由編碼器的增益控制模塊的PQF 濾波器組生成的)。然后,它將4個(gè)頻帶組合起來(lái)并通過(guò)增益控制模塊重建 時(shí)間波形。增益控制模塊的輸入是重建的時(shí)域音頻信號(hào);增益控制信息。 增益控制模塊的輸出是重建的時(shí)域音頻信號(hào);如果增益控制模塊沒(méi)有激活,重建的時(shí)域音頻信號(hào)直接從濾波器組通 過(guò),成為解碼器的輸出。該模塊僅用于采樣頻率可分級(jí)(SSR)框架。如上所述,MPEG-2 AAC解碼器使用了大量的技術(shù)手段來(lái)保證正常速度 的播放質(zhì)量。然而,在數(shù)字多媒體的實(shí)際使用中,有很多時(shí)候需要快進(jìn)、快 退播放但又能完整反映媒體信息。研究表明,聽者以兩倍速度聽教育材料兩 次比以正常速度聽材料一次更有效,因此實(shí)現(xiàn)4某體信息的高品質(zhì)快速播放在
教育與學(xué)習(xí)中將得到廣泛應(yīng)用。媒體編輯的后期制作也可以用高品質(zhì)快速播 放功能加快編輯瀏覽速度,提高處理效率。高品質(zhì)的快進(jìn)、快退技術(shù)還可在 多媒體郵件系統(tǒng)中加速信息的表達(dá),以使接受者在較短時(shí)間內(nèi)獲得更多信 息。除此之外,高質(zhì)量的快進(jìn)、快退技術(shù)還可應(yīng)用到媒體信息檢索中,便于 檢索者快速準(zhǔn)確的查找出有用信息。對(duì)于視頻快速播放,現(xiàn)有的方法是加快幀的播放速度。通常是采用均勻跳幀解碼的方式。即假設(shè)要加快的速度為a,則在解碼的時(shí)候每隔a-l個(gè)幀 抽出一幀,組成新的-見頻流。這樣產(chǎn)生的—見頻畫面會(huì)有跳躍現(xiàn)象,運(yùn)動(dòng)連貫 性降低。對(duì)于音頻播放,現(xiàn)有播放器采用如下方法假設(shè)解碼后的原始音頻數(shù)據(jù) 的釆樣頻率是a,如果播放的時(shí)候單位時(shí)間內(nèi)播放b*a個(gè)樣值,則播放速度 就會(huì)提高到以前的b倍。但是如果單純采用提高聲音數(shù)據(jù)的抽樣頻率的方 法,由于播放速度高于默認(rèn)采樣速度,這時(shí)候聲音會(huì)變得尖銳,失去了原有 的音色。如果播放速度較快,會(huì)完全聽不清內(nèi)容。綜上所述,對(duì)于現(xiàn)在得到普遍應(yīng)用的視頻音頻播放器系統(tǒng),還沒(méi)有專門 針對(duì)高品質(zhì)快速播放功能提出靈活有效的解決方案,如何設(shè)計(jì)一個(gè)兼容現(xiàn)有 播放器結(jié)構(gòu),同時(shí)具有高品質(zhì)快速播放功能的多媒體播放器,已成為需要解 決的問(wèn)題。發(fā)明內(nèi)容分析現(xiàn)有的播放器解碼結(jié)構(gòu),之所以無(wú)法勝任高品質(zhì)快速播放的要求, 主要有兩個(gè)原因其一是沒(méi)有考慮到快速播放功能的重要性;其二是音頻快 速播放處理手段不足。由于對(duì)高品質(zhì)快速播放功能的重要性認(rèn)識(shí)不足,現(xiàn)有 播放器在設(shè)計(jì)之初沒(méi)有為高品質(zhì)快速播放作出考慮,從而沒(méi)有設(shè)計(jì)相應(yīng)的體 系結(jié)構(gòu)。大多數(shù)播放器快速播放的時(shí)候只是簡(jiǎn)單的加快聲音樣值播放速度, 或干脆不播放聲音,造成快進(jìn)的時(shí)候無(wú)法有效獲得聲音信息。使用者在快進(jìn) 的時(shí)候通常是為了瀏覽整個(gè)多媒體信息,如果沒(méi)有高品質(zhì)快進(jìn)功能的解碼 器,沒(méi)有好的快進(jìn)效果,將減少使用者的信息獲取量。如上述AAC解碼的 介紹,它在正常速度下有著很高的音質(zhì),但快進(jìn)的時(shí)候,就無(wú)法得到令人滿
意的效果。本發(fā)明依據(jù)上述原因,擴(kuò)展了現(xiàn)有播放器體系結(jié)構(gòu),在兼容現(xiàn)有功能的 同時(shí),加入了不損失品質(zhì)的快速音頻播放能力,并提供了與視頻信號(hào)同步的 方法,從而獲得高品質(zhì)的快速播放效果。本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種快速播放多媒體信息的系統(tǒng)和 方法,解決多媒體信息快進(jìn)、快退播放時(shí)不能實(shí)現(xiàn)高品質(zhì)伴音的同步快速播 放的問(wèn)題。為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了 一種快速播放多媒體信息的方法,包括以下步驟a、 對(duì)音頻進(jìn)行快速解碼;b、 對(duì)所述音頻分段;c、 對(duì)所述音頻進(jìn)行互相關(guān)判斷和耦合刪除處理。 進(jìn)一步地,上述方法還可包括以下步驟d、 對(duì)所述音頻排序;e、 通過(guò)音頻序號(hào)標(biāo)志位所在的時(shí)刻確定相應(yīng)的纟見頻幀所在時(shí)刻,并抽 出該^見頻幀;f、 將音頻、視頻同步并控制播放速度。進(jìn)一步地,上述方法還可包括,在所述步驟a之前,對(duì)所述音頻、視頻 進(jìn)行分離。進(jìn)一步地,上述方法還可包括,所述步驟d中,對(duì)所述音頻排序包括快 進(jìn)排序、快退排序,其中所述快退排序是將前后所述音頻序號(hào)顛倒。進(jìn)一步地,上述方法還可包括,所述步驟d中,包括以下步驟dl、選擇所述音頻的疊加點(diǎn);d2、疊加所述音頻。進(jìn)一步地,上述方法還可包括,所述步驟dl中,采用互相關(guān)計(jì)算所述 音頻疊加點(diǎn),以互相關(guān)最大的點(diǎn)為起點(diǎn)。進(jìn)一步地,上述方法還可包括,所述步驟d2中,疊加所述音頻時(shí)采用加權(quán)函數(shù)實(shí)現(xiàn)所述音頻過(guò)渡段的平滑連接,該加權(quán)函數(shù)是斜坡函數(shù)。進(jìn)一步地,上述方法還可包括,所述步驟e中,所述音頻序號(hào)標(biāo)志位是所述音頻的中點(diǎn)。進(jìn)一步地,上述方法還可包括,所述步驟f中,通過(guò)比較所述音頻和所 述視頻幀的序號(hào),將所述音頻與所述視頻信息同步播放。本發(fā)明還提供了 一種快速播放多媒體信息的系統(tǒng),包括 快速音頻解碼模塊,用于對(duì)音頻信號(hào)快速解碼;時(shí)域音頻分段模塊,用于所述快速音頻解碼模塊對(duì)音頻信號(hào)快速解碼后 的脈沖編碼信號(hào)進(jìn)行分段;快進(jìn)快退排序模塊,用于所述時(shí)域音頻分段模塊進(jìn)行分段后對(duì)音頻段進(jìn) 行排序處理;音頻時(shí)域刪除與耦合模塊,用于所述快進(jìn)快退排序模塊進(jìn)行排序處理后 對(duì)音頻-歐進(jìn)行互相關(guān)判斷和耦合刪除處理;音視頻分離模塊,用于對(duì)音頻信號(hào)快速解碼之前對(duì)多媒體信息的音頻、 視頻進(jìn)行分離。進(jìn)一步地,上述系統(tǒng)還可包括,跳幀視頻解碼模塊,用于對(duì)視頻跳幀解碼;音視頻同步與播放速度控制模塊,用于接收用戶給定的播放速度參數(shù), 控制音頻、視頻信號(hào)的壓縮程度,并使加速后的音頻和視頻信號(hào)同步;音頻播放模塊,用于播放處理后的音頻數(shù)據(jù);視頻播放模塊,用于播放跳幀視頻。進(jìn)一步地,上述系統(tǒng)還可包括,所述音視頻同步與播放速度控制模塊中 包括音視頻同步模塊,用于比較音頻和視頻幀的序號(hào),同步播放音頻與視頻 信息。與現(xiàn)有技術(shù)相比,由于本發(fā)明釆用了一種快速播放多媒體信息的系統(tǒng)和 方法,解決了多媒體信息快進(jìn)、快退播放時(shí)不能實(shí)現(xiàn)高品質(zhì)伴音的同步快速 播放的問(wèn)題。
圖1是MPEG-2 AAC音頻解碼的流程圖;圖2是本發(fā)明具體實(shí)施方式
的一種快速播放多媒體信息方法的流程圖;圖3是本發(fā)明具體實(shí)施方式
的一種快速播放多媒體信息的系統(tǒng)的結(jié)構(gòu) 示意圖;圖4是本發(fā)明具體實(shí)施方式
利用音頻時(shí)域刪除與耦合算法進(jìn)行第一輪 語(yǔ)音操作的示意圖;圖5是本發(fā)明具體實(shí)施方式
的跳幀視頻解碼的示意圖;圖6是本發(fā)明具體實(shí)施方式
的視頻實(shí)施流程圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作詳細(xì)說(shuō)明。在快速播放多媒體信息的系統(tǒng)中,包含音頻部分、視頻部分和音視頻同 步與播放速度控制部分。音頻部分,包含快速音頻解碼、時(shí)域音頻分段、快進(jìn)快退排序、音頻時(shí) 域刪除與耦合。快速音頻解碼一般在視頻文件中,音頻部分都是經(jīng)過(guò)壓縮的。如果要對(duì)它進(jìn)行處理需 要對(duì)它進(jìn)行解碼。常用的解碼方法如AC3, DTS等解碼完畢都是直接播放。 在本系統(tǒng)中,由于還要進(jìn)行后續(xù)處理,因此解碼速度需要加快,以便給后續(xù) 操作留有提前量。時(shí)域音頻分^a:解碼后的音頻以脈沖調(diào)制編碼的形式存在。要對(duì)音頻數(shù)據(jù)進(jìn)行時(shí)域刪除 與耦合處理,首先要對(duì)音頻數(shù)據(jù)進(jìn)行分段。分段長(zhǎng)度不宜太長(zhǎng)。對(duì)于音頻時(shí) 域刪除與耦合處理,由于固定了疊加長(zhǎng)度,則在每一段中,有些數(shù)據(jù)處理不 到。若分段過(guò)長(zhǎng),則可能有些信息會(huì)未經(jīng)處理直接播放,破壞了最終合成音
頻的音質(zhì)一致性。分段長(zhǎng)度也不能太短。由于疊加過(guò)程中,會(huì)判斷前后兩段 之間的互相關(guān)性,若分段太短,則對(duì)互相關(guān)判斷不利。快進(jìn)快退排序在快速播放中,不僅有正向的快速播放,還可能有后退的快速播放。逆 序快速播放在現(xiàn)有的各種播放器上均無(wú)實(shí)現(xiàn)的功能,但在編輯和快速瀏覽中 有著重要的作用。實(shí)現(xiàn)逆序快速播放的關(guān)鍵是對(duì)音頻段進(jìn)行排序。由于采用互相關(guān)作為選 擇疊加點(diǎn)的標(biāo)準(zhǔn),在音頻分段完成后,前后兩段之間進(jìn)行耦合疊加前,要對(duì) 兩段音頻進(jìn)行互相關(guān)判斷,找出互相關(guān)性最大的一點(diǎn)作為疊加的起始點(diǎn)。在 逆序快速播放中,疊加的先后順序和互相關(guān)搜索方向改變,但在各段內(nèi)部還 是順序播放。這依賴于對(duì)音頻段的索引編號(hào)的改變。 一個(gè)簡(jiǎn)單的方法是,將 前后序號(hào)顛倒,使得音頻段的順序改變,然后采用常規(guī)方法進(jìn)行時(shí)域刪除與 耦合處理。音頻時(shí)域刪除與耦合在音頻時(shí)域刪除與耦合算法中,最后的步驟是在找出各段之間互相關(guān)性 最大的點(diǎn)之后,以此為起點(diǎn)隊(duì)兩段音頻進(jìn)行疊加,從而縮短總體長(zhǎng)度,表現(xiàn) 出加快播放速度的效果。在疊加時(shí)采用加權(quán)函數(shù)來(lái)實(shí)現(xiàn)過(guò)渡段的平滑連接。 這里采用簡(jiǎn)單的斜坡函數(shù),只要采樣率足夠大,如在正常錄音采樣率8kHz 下,就可達(dá)到較好的效果。但對(duì)于低碼率的音頻數(shù)據(jù),還需要采取其他的窗 函數(shù)或者處理手段來(lái)平滑兩段語(yǔ)音。音頻時(shí)域刪除與耦合算法,是一種在語(yǔ)音信號(hào)處理領(lǐng)域被廣泛運(yùn)用的算 法。這種算法利用將同 一語(yǔ)音的不同的輸入段之間進(jìn)行首尾疊加耦合的方 法,實(shí)現(xiàn)對(duì)語(yǔ)音段時(shí)間長(zhǎng)度的調(diào)整。它采用互相關(guān)作為選擇疊加點(diǎn)的標(biāo)準(zhǔn)。 在疊加時(shí)采用加權(quán)函數(shù)來(lái)實(shí)現(xiàn)過(guò)渡段的平滑連接。針對(duì)這一原理在不同的應(yīng) 用領(lǐng)域中的實(shí)際運(yùn)用,音頻時(shí)域刪除與耦合算法之所以受到重視,主要是因 為它實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單,同時(shí),這種算法的質(zhì)量較好而計(jì)算量又適中,所 以有了很大的發(fā)展。在本發(fā)明具體實(shí)施方式
中,在綜合出新的信號(hào)時(shí)采用了固定的疊加長(zhǎng)
度,而普通算法的這個(gè)疊加長(zhǎng)度是可變的。這種方法的一大貢獻(xiàn)在于,在選 擇疊加位置時(shí),可以采用預(yù)測(cè)的方法,不需要每次都去進(jìn)行位置的計(jì)算,從 而降低了計(jì)算資源消耗。圖4是本發(fā)明具體實(shí)施方式
利用音頻時(shí)域刪除與耦 合算法進(jìn)行第一輪語(yǔ)音操作的示意圖。-現(xiàn)頻部分,包含跳幀纟見頻解碼。跳幀一見頻解碼為了達(dá)到快速播放的目的,同樣需要對(duì)視頻進(jìn)行快速解碼。為了降低計(jì) 算資源消耗,可以依據(jù)播放速度的不同,進(jìn)行不同程度的跳幀解碼。圖5是本發(fā)明具體實(shí)施方式
的跳幀視頻解碼的示意圖。在對(duì)音頻段進(jìn)行排序的時(shí)候,得到原始多媒體信息中每幀視頻對(duì)應(yīng)的音 頻段標(biāo)志位所在時(shí)刻。當(dāng)音頻信息經(jīng)過(guò)壓縮后,音頻段標(biāo)志位之間的時(shí)間間 隔變小,從而使對(duì)應(yīng)的-見頻幀時(shí)間間隔變小。正常情況下,視頻是以每秒 24幀的速度播放。即每幀間隔l/24秒。由于此時(shí)與音頻對(duì)應(yīng)的一見頻幀間隔 已經(jīng)變小,可以每隔1/24秒的長(zhǎng)度取出附近最接近的一幀,并組成新的快 進(jìn)-見頻進(jìn)行播放。音視頻同步與播放速度控制部分由于視頻與音頻都進(jìn)行了加快速度的播放,兩者之間的同步匹配就成了 影響最終效果的重要因素。當(dāng)音頻分段完畢并進(jìn)行排序后,音視頻同步與播 放速度控制模塊控制音頻時(shí)域刪除與耦合模塊對(duì)音頻段進(jìn)行互相關(guān)計(jì)算和 匹配耦合,縮短總體長(zhǎng)度,使之形成符合用戶的指令的快速播放音頻。由于音頻段都有相應(yīng)的編號(hào),并且壓縮后每段的長(zhǎng)度互不相同,可以根 據(jù)正常狀態(tài)下音頻段和視頻幀之間的對(duì)應(yīng)關(guān)系,形成加速后的音頻與視頻關(guān) 系,并據(jù)此將音頻和視頻同步。視頻幀依據(jù)同步控制命令以與音頻播放速度 相適應(yīng)的速度進(jìn)行播放,從而最終達(dá)到總體的快速播放。針對(duì)上述思路,對(duì)本發(fā)明進(jìn)行更詳細(xì)的具體實(shí)施方式
的描述
首先進(jìn)行音頻實(shí)施方案,同時(shí)進(jìn)行視頻實(shí)施方案,最后進(jìn)行音視頻同步 與播放速度控制方案。音頻實(shí)施方案整個(gè)算法首先將語(yǔ)音段中的前w個(gè)數(shù)值取出來(lái),直接存入到輸出序列 中;然后根據(jù)Sa的值取出下一段語(yǔ)音,也就是從第Sa個(gè)點(diǎn)開始取, 一直取 W個(gè)點(diǎn);然后將這W個(gè)點(diǎn)中的前Wov個(gè)點(diǎn)與輸出序列的最后Wov個(gè)點(diǎn)進(jìn) 行比較,比較它們之間的一致性;記錄比較的情況,然后整個(gè)分析窗口 (即 截取W個(gè)點(diǎn)的窗口 )向后移動(dòng)一個(gè)樣值,再將新的序列中的前Wov個(gè)點(diǎn)與 輸出序列中的后Wov個(gè)點(diǎn)進(jìn)行比較,同時(shí)記錄下比較結(jié)果;這樣依次做 Kmax次,然后取出比較結(jié)果中最一致的那種情況;將這種情況下,所截取 的語(yǔ)音序列的前Wov個(gè)點(diǎn)與輸出序列的最后Wov個(gè)點(diǎn)按某種方式進(jìn)行疊 加,然后再將W個(gè)點(diǎn)的窗口中剩余的Ss個(gè)點(diǎn)存入到輸出序列中去;至此完 成了一輪語(yǔ)音操作。下一輪語(yǔ)音段處理,與上面基本相同,只不過(guò)從輸入序 列中截取的語(yǔ)音段不是從原先的起點(diǎn)開始而是在原先的起點(diǎn)的基礎(chǔ)上向后 延時(shí)Sa個(gè)點(diǎn)。xm[n]表示第m段語(yǔ)音信號(hào),x[n]表示原始信號(hào)的序列,兩者的關(guān)系可以 用下面的等式表示<formula>formula see original document page 15</formula>km是第m個(gè)分析窗口的移動(dòng)量,km值的變化范圍是O至Kmax;對(duì)于 每一個(gè)分析窗口 , km值取遍這些值,同時(shí)比較每次語(yǔ)音段的前Wov個(gè)點(diǎn)與 輸出序列中的最后Wov個(gè)點(diǎn)的一致性;取出其中一致性最好的那個(gè)語(yǔ)音段 將其前Wov個(gè)點(diǎn)疊加到輸出序列中去。例如疊加時(shí)所用的窗口用b(n)表示, 輸出序列用y[n]表示,那么<formula>formula see original document page 15</formula>
每執(zhí)行一次疊加,輸入信號(hào)的起始點(diǎn)增加Sa,輸出信號(hào)長(zhǎng)度增長(zhǎng)Ss,可 見一個(gè)足夠長(zhǎng)的語(yǔ)音信號(hào)的壓縮比可近似為Ss/Sa。調(diào)整兩者的長(zhǎng)度即可得 到不同的播放速度。b(n)的選擇應(yīng)使得輸入與輸出序列之間實(shí)現(xiàn)平滑的連接,這里采用簡(jiǎn)單 的斜坡函數(shù),只要采樣率足夠大,就可達(dá)到較好的語(yǔ)音效果。下面是km值的確定方法采用互相關(guān)系數(shù)表示一致性程度。
<formula>formula see original document page 16</formula>
對(duì)于km的求取是降低時(shí)間復(fù)雜度的重要一步。實(shí)際上,不需要每輪處 理數(shù)據(jù)時(shí)都去計(jì)算一遍km,計(jì)算一遍km會(huì)花去不少時(shí)間。假定在任何一 點(diǎn),最多有兩個(gè)窗口會(huì)在這點(diǎn)上重疊。現(xiàn)在考慮第m個(gè)窗口,從輸出端的 最后Wov個(gè)點(diǎn)可以看出,它其實(shí)就是輸入序列中的某些點(diǎn)y [mSs+n] =y [ (m-1) Ss+ (Ss+n) ] =x [ (m-l) Sa+km-1 + (Ss+n) ] =x [mSa+t m +n] 其中L =、—,+(&-S")從上面幾個(gè)等式可以看出如果0^tm^Kmax。那么,不需要計(jì)算km的 值,只需要將km的值直接取為tm就可以了 ,而如果tm的值超出了上面的 這個(gè)范圍,就必須按照前面的計(jì)算方法進(jìn)行計(jì)算。對(duì)于采用互相關(guān)法求km, 作如下改動(dòng)因式中只是比較關(guān)系,只需要比較fo[W^就可以了,這樣就避 免了開方這一復(fù)雜的運(yùn)算。同時(shí),由于對(duì)所有的k值,^W都是一樣的,所 以比較時(shí)不需要去考慮《W,因此對(duì)于每一個(gè)k值,只要最后比較 (《W)2/《[W即可。一見頻實(shí)施方案本發(fā)明的視頻實(shí)施方案主要基于MPEG2。在標(biāo)準(zhǔn)MPEG2中,系統(tǒng)、
視頻和音頻都有一個(gè)時(shí)間模式,它的端到端延遲——從信號(hào)進(jìn)入解碼器到信號(hào)從解碼器輸出一一是一個(gè)常數(shù),它包括下面一些延時(shí)解碼緩沖,解碼和顯示。作為此時(shí)間模式的一部分,所有視頻圖像和音頻采樣僅被顯示一次, 除非有意被編成反碼。系統(tǒng)流編碼包含的時(shí)間信息可以保證實(shí)現(xiàn)具有恒定端 到端延遲常數(shù)的系統(tǒng)。所有的時(shí)序被定義為共同的系統(tǒng)時(shí)鐘,被作為系統(tǒng)時(shí)序時(shí)鐘。在程序流 中這個(gè)時(shí)鐘與視頻或音頻釆樣時(shí)鐘之間有一個(gè)嚴(yán)格的特定比率,或者稍有區(qū) 別但仍足以提供精確的端到端時(shí)序和時(shí)鐘恢復(fù)。程序流與系統(tǒng)時(shí)序時(shí)鐘的同步是通過(guò)顯示時(shí)間標(biāo)簽(PTS)來(lái)完成的。MPEG-2的編碼圖像被分為三類,分別稱為I幀,P幀和B幀。I幀圖像采用幀內(nèi)編碼方式,即只利用了單幀圖像內(nèi)的空間相關(guān)性,而 沒(méi)有利用時(shí)間相關(guān)性。P幀和B幀圖像采用幀間編碼方式,即同時(shí)利用了空 間和時(shí)間上的相關(guān)性。P幀圖像只采用前向時(shí)間預(yù)測(cè),可以提高壓縮效率和 圖像質(zhì)量。P幀圖像中可以包含幀內(nèi)編碼的部分,即P幀中的每一個(gè)宏塊可 以是前向預(yù)測(cè),也可以是幀內(nèi)編碼。B幀圖^象釆用雙向時(shí)間預(yù)測(cè),可以大大 提高壓縮倍數(shù)。在本發(fā)明中,由于播放速度可能不是整數(shù)倍,因此常規(guī)的快速解碼手段 并不合適??紤]到在圖像組(GOP)結(jié)構(gòu)中除了 I幀和P幀以外,還可能出 現(xiàn)B幀,因此,單純的平均抽幀方法也不合適,因?yàn)锽幀的解碼需要靠P 幀的參考。圖6描述了本發(fā)明具體實(shí)施方式
的具體^L頻實(shí)施流程在標(biāo)準(zhǔn)解碼和顯示才莫塊之間加入幀緩沖和幀選4奪器;MPEG2 一見頻流在 快速解碼模塊里被解成標(biāo)準(zhǔn)視頻幀序列,送入幀緩沖。幀選擇器根據(jù)音頻段 與視頻幀之間的對(duì)應(yīng)關(guān)系,找出與壓縮后的音頻信號(hào)標(biāo)志位序列對(duì)應(yīng)的視頻 幀序列1#出顯示。音視頻同步與播放速度控制方案在快進(jìn)快退排序模塊中,由于已經(jīng)對(duì)音頻段進(jìn)行了排序編號(hào),通過(guò)音頻 段的長(zhǎng)度,以及釆樣速率,可以得到每段音頻在總體時(shí)間中所在的時(shí)刻;因 此可以得到與每個(gè)音頻段對(duì)應(yīng)的視頻段位置信息;在音頻快進(jìn)壓縮的過(guò)程 中,可以保留每段音頻的編號(hào)。具體方法是由于每段音頻長(zhǎng)度為W,疊加長(zhǎng)度為Wov,并且規(guī)定了 Wov小于W,則每,殳音頻中,總有一部分未,皮處理;一^l殳情況下,Wov長(zhǎng) 度的選擇總是小于W/2,因此不妨把每段音頻W/2的那個(gè)點(diǎn)作為標(biāo)志位, 來(lái)確定該段的序號(hào);音頻壓縮完成后,由于編號(hào)沒(méi)有改變,可以找到與之對(duì) 應(yīng)的視頻幀;通過(guò)跳幀解碼的方式,解壓出該幀;最后播放時(shí),同步模塊通 過(guò)比較音頻和視頻幀的序號(hào),就可以同步播放音頻與視頻信息。以上所述僅為本發(fā)明的示意具體實(shí)施方式
,應(yīng)當(dāng)知道這可以有許多變 型,這種變型不被認(rèn)為是脫離本發(fā)明的示意具體實(shí)施方式
的精神和范圍,并 且所有這樣的本領(lǐng)域普通技術(shù)人員顯而易見的變型被包含在所附權(quán)利要求 的范圍之內(nèi)。
權(quán)利要求
1、一種快速播放多媒體信息的方法,包括以下步驟a、對(duì)音頻進(jìn)行快速解碼;b、對(duì)所述音頻分段;c、對(duì)所述音頻進(jìn)行互相關(guān)判斷和耦合刪除處理。
2、 如權(quán)利要求l所述的方法,其特征在于,還包括以下步驟d、 對(duì)所述音頻排序;e、 通過(guò)音頻序號(hào)標(biāo)志位所在的時(shí)刻確定相應(yīng)的視頻幀所在時(shí)刻,并抽 出該^L頻幀;f、 將音頻、視頻同步并控制播放速度。
3、 如權(quán)利要求l所述的方法,其特征在于,在所述步驟a之前,對(duì) 所述音頻、視頻進(jìn)行分離。
4、 如權(quán)利要求2所述的方法,其特征在于,所述步驟d中,對(duì)所述 音頻排序包括快進(jìn)排序、快退排序,其中所述快退排序是將前后所述音頻序 號(hào)顛倒。
5、 如權(quán)利要求4所述的方法,其特征在于,所述步驟d中,包括以 下步驟dl、選擇所述音頻的疊加點(diǎn);d2、疊加所述音頻。
6、 如權(quán)利要求5所述的方法,其特征在于,所述步驟dl中,采用互 相關(guān)計(jì)算所述音頻疊加點(diǎn),以互相關(guān)最大的點(diǎn)為起點(diǎn)。
7、 如權(quán)利要求5所述的方法,其特征在于,所述步驟d2中,疊加所 述音頻時(shí)采用加權(quán)函數(shù)實(shí)現(xiàn)所述音頻過(guò)渡段的平滑連接,該加權(quán)函數(shù)是斜坡函數(shù)。
8、 如權(quán)利要求2所述的方法,其特征在于,所述步驟e中,所述音 頻序號(hào)標(biāo)志位是所述音頻的中點(diǎn)。
9、 如權(quán)利要求2所述的方法,其特征在于,所述步驟f中,通過(guò)比 較所述音頻和所述視頻幀的序號(hào),將所述音頻與所述視頻信息同步播放。
10、 一種快速播放多媒體信息的系統(tǒng),其特征在于,包括 快速音頻解碼模塊,用于對(duì)音頻信號(hào)快速解碼;時(shí)域音頻分段才莫塊,用于所述快速音頻解碼模塊對(duì)音頻信號(hào)快速解碼后 的脈沖編碼信號(hào)進(jìn)行分段;快進(jìn)快退排序模塊,用于所述時(shí)域音頻分段模塊進(jìn)行分段后對(duì)音頻段進(jìn) 行排序處理;音頻時(shí)域刪除與耦合模塊,用于所述快進(jìn)快退排序模塊進(jìn)行排序處理后 對(duì)音頻段進(jìn)行互相關(guān)判斷和耦合刪除處理;音視頻分離模塊,用于對(duì)音頻信號(hào)快速解碼之前對(duì)多媒體信息的音頻、 視頻進(jìn)行分離。
11、 如權(quán)利要求IO所述的系統(tǒng),其特征在于,還包括 跳幀視頻解碼模塊,用于對(duì)視頻跳幀解碼;音視頻同步與播放速度控制模塊,用于接收用戶給定的播放速度參數(shù), 控制音頻、視頻信號(hào)的壓縮程度,并使加速后的音頻和視頻信號(hào)同步;音頻播放模塊,用于播放處理后的音頻數(shù)據(jù);-見頻播放模塊,用于播放跳幀^見頻。
12、 如權(quán)利要求11所述的系統(tǒng),其特征在于,所述音視頻同步與播放 速度控制模塊中包括音視頻同步模塊,用于比較音頻和視頻幀的序號(hào),同步播放音頻與視頻化息。
全文摘要
本發(fā)明公開了一種快速播放多媒體信息的系統(tǒng)和方法,包括用于對(duì)音頻信號(hào)快速解碼的快速音頻解碼模塊;用于所述快速音頻解碼模塊對(duì)音頻信號(hào)快速解碼后的脈沖編碼信號(hào)進(jìn)行分段的時(shí)域音頻分段模塊;用于所述時(shí)域音頻分段模塊進(jìn)行分段后對(duì)音頻段進(jìn)行排序處理的快進(jìn)快退排序模塊;用于所述快進(jìn)快退排序模塊進(jìn)行排序處理后對(duì)音頻段進(jìn)行互相關(guān)判斷和耦合刪除處理的音頻時(shí)域刪除與耦合模塊;用于對(duì)音頻信號(hào)快速解碼之前對(duì)多媒體信息的音頻、視頻進(jìn)行分離的音視頻分離模塊。應(yīng)用本發(fā)明,解決了多媒體信息快進(jìn)、快退播放時(shí)不能實(shí)現(xiàn)高品質(zhì)伴音的同步快速播放的問(wèn)題。
文檔編號(hào)H04N7/26GK101106723SQ200710118619
公開日2008年1月16日 申請(qǐng)日期2007年7月10日 優(yōu)先權(quán)日2007年7月10日
發(fā)明者勤 張, 李傳珍, 暉 王, 王雨田 申請(qǐng)人:中國(guó)傳媒大學(xué)