專(zhuān)利名稱(chēng):一種實(shí)用的基于小波變換的聲音編解碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及現(xiàn)代信息處理領(lǐng)域中一個(gè)快速發(fā)展的分枝——聲音壓縮編解碼器。
目前廣泛采用的寬帶音頻壓縮,主要采用MPEG-1或2、杜比AC-3等標(biāo)準(zhǔn),用于CD、MD、MPC、VCD、DVD、HDTV和電影配音等。
MPEG音頻壓縮標(biāo)準(zhǔn)為許多音頻數(shù)據(jù)定義了多種聲音處理方法,都采用了子帶劃分并利用人類(lèi)聽(tīng)覺(jué)心理聲學(xué)模型壓縮的方法。
MPEG音頻的基本處理方法為子帶分解將輸入的音頻信號(hào)分解成多個(gè)頻帶,然后進(jìn)行比例因子處理和量化,每一個(gè)子帶的量化步長(zhǎng)選擇由頻域分析函數(shù)完成對(duì)采樣值進(jìn)行編碼(層次1和2為定長(zhǎng),層次3為Huffman(赫夫曼)可變長(zhǎng)編碼),并用附加信息進(jìn)行格式化以便于傳輸。解碼器解包并對(duì)系數(shù)和附加信息進(jìn)行解碼和逆量化,將樣本映射回重構(gòu)值;在每個(gè)子帶上都用合適的比例因子將其放大,并應(yīng)用子帶分解去覆蓋一個(gè)時(shí)域信號(hào)。數(shù)字音頻信號(hào)源,不管是單聲道還是立體聲,采樣頻率對(duì)于MPEG-1為32、44.1或48kHz,或?qū)τ贛PEG-2為16、22.05、24、44.1或48kHz。源數(shù)據(jù)都要進(jìn)行子帶分解,比例因子處理并量化后進(jìn)行編碼。解碼器首先逆編碼,逆量化,逆縮放和子帶組合重構(gòu)源信號(hào)。
在子帶分解方面,對(duì)于層1和層2,MPEG采用32個(gè)等帶寬正交鏡像濾波器組(QMF)進(jìn)行子帶濾波;對(duì)于層3,MPEG采用QMF后緊跟MDCT的方法使頻率分辨率提高到一個(gè)更好的層次。通過(guò)該濾波器可以有效地分離出最多576個(gè)子頻帶。子帶分解都嚴(yán)格采樣,每個(gè)子帶的采樣率乘以子帶數(shù)應(yīng)為總的采樣率。MPEG標(biāo)準(zhǔn)在進(jìn)行比例因子處理、量化、編碼和多通道壓縮以后形成一個(gè)音頻信號(hào)完整的壓縮系統(tǒng)。
在現(xiàn)有音視頻信號(hào)的壓縮處理方法中,都采用了子帶分解來(lái)進(jìn)行壓縮編碼。例如在MPEG中,利用32個(gè)等帶寬的多相濾波器組(multiple phase filterbands)對(duì)信號(hào)進(jìn)行處理,得到32個(gè)等寬子帶上的信號(hào)樣本,進(jìn)而通過(guò)心理聲學(xué)模型對(duì)各個(gè)子帶樣本進(jìn)行壓縮。
等帶寬多相濾波器組的優(yōu)勢(shì)是各子帶濾波器的階數(shù)相同,計(jì)算中不存在延遲問(wèn)題,且濾波器具有較好的抗混疊性質(zhì)。但是利用等帶寬的濾波器組的不可避免的缺陷在于不能充分的利用人耳的聽(tīng)覺(jué)特性實(shí)現(xiàn)冗余信息的最大限度的去除,即實(shí)現(xiàn)更高壓縮比下的無(wú)失真編碼。對(duì)人類(lèi)聽(tīng)覺(jué)特點(diǎn)的大量實(shí)驗(yàn)研究表明,人類(lèi)的聽(tīng)覺(jué)系統(tǒng)可以按頻率分布劃分出一個(gè)非等帶寬的頻帶組合,在各個(gè)頻帶范圍內(nèi)人耳對(duì)聲音的敏感程度有明顯的不同,把這些頻帶范圍稱(chēng)為臨界子帶(critical subband)。
本發(fā)明目的是針對(duì)MPEG寬帶音頻壓縮處理方法的改進(jìn)。利用小波和小波包變換的時(shí)頻局域化和多分辨率分析性質(zhì),本發(fā)明基于小波包方法構(gòu)造了基于人類(lèi)聽(tīng)覺(jué)特征的非等寬子帶濾波器以取代現(xiàn)有方法中的等帶寬子帶濾波器。在得到更為貼近臨界子帶的子帶劃分后,可以更好地利用心理聲學(xué)模型進(jìn)行壓縮,為在保證重構(gòu)音質(zhì)透明的情況下進(jìn)一步提高壓縮比提供了可能。
本發(fā)明的目的實(shí)現(xiàn)方法編碼器為將音頻取樣數(shù)據(jù)存入緩沖池,通過(guò)多個(gè)小波濾波器組卷積,進(jìn)行臨界采樣,確定尺度因子;同時(shí)音頻取樣數(shù)據(jù)經(jīng)富里葉變換和尺度因子確定信號(hào)掩蔽比;尺度因子進(jìn)行編碼,由信號(hào)掩蔽比和目標(biāo)碼率調(diào)整后的目標(biāo)碼率與尺度因子編碼確定量化子帶系數(shù),進(jìn)行比特信息編碼;解碼器為解碼信息進(jìn)行解包,對(duì)子帶信息無(wú)失真解碼,恢復(fù)高頻耦合子帶系數(shù),各組子帶系數(shù)存入緩沖池進(jìn)行采樣,經(jīng)小波重構(gòu)濾波器組卷積重構(gòu),重復(fù)子帶采樣和小波重構(gòu)濾波器組卷積,還原音頻數(shù)據(jù)。
采用本專(zhuān)利發(fā)明的聲音編解碼器,對(duì)寬帶音頻信號(hào)的音樂(lè)進(jìn)行處理時(shí),在同樣采用心理聲學(xué)模型1的情況下,其無(wú)失真壓縮率(主觀意義上)比通常MPEG要有明顯提高。
對(duì)MP1中采用心理聲學(xué)模型1的情況下,其無(wú)失真壓縮率約為4倍;而對(duì)采用小波變換+心理聲學(xué)模型1,其無(wú)失真壓縮率約為8倍。
圖1為臨界頻帶的典型劃分圖。
圖2為臨界頻帶帶寬示意圖。
圖3為本發(fā)明中小波包子帶分解的示意圖。
圖4為本發(fā)明小波分解子帶與MPEG均勻子帶的對(duì)比示意圖。
圖5為本發(fā)明針對(duì)雙聲道立體聲小波編碼器流程框圖。
圖6為本發(fā)明針對(duì)雙聲道立體聲小波解碼器流程框圖。
數(shù)字音頻壓縮編碼技術(shù)能夠以比較低的速率獲得高質(zhì)量的編碼效果,其基本原理在于1)設(shè)法消除音頻信號(hào)的冗余度;2)充分利用人耳聽(tīng)覺(jué)特性。
本發(fā)明所提出的“基于小波的音頻編解碼器”就是在此基礎(chǔ)之上提出并完成的。
本發(fā)明的一個(gè)重大的技術(shù)創(chuàng)新在于用小波技術(shù)取代傳統(tǒng)的濾波器組,結(jié)合人耳的聽(tīng)覺(jué)特性,實(shí)現(xiàn)高增益、高質(zhì)量的音頻編碼,并有效解決了小波技術(shù)應(yīng)用于音頻壓縮編解碼中的幾項(xiàng)核心問(wèn)題。為了體現(xiàn)小波技術(shù)在音頻壓縮編碼中的優(yōu)勢(shì),首先要明確人耳的聽(tīng)覺(jué)特性在提高數(shù)字音頻壓縮質(zhì)量的至關(guān)重要的作用。
正常人可以聽(tīng)到頻率范圍在20Hz~20kHz,強(qiáng)度范圍為-5dB~130dB的聲音,并具有判別響度、音調(diào)和音色的本領(lǐng)。人耳的聽(tīng)覺(jué)特性涉及了有關(guān)心理聲學(xué)和生理聲學(xué)等方面的問(wèn)題。
人耳聽(tīng)覺(jué)特性在寬帶音頻編碼中的應(yīng)用主要體現(xiàn)在以下幾個(gè)方面聽(tīng)覺(jué)的強(qiáng)度和頻率范圍特性;掩蔽效應(yīng)及人耳的高頻定位特性。前者是在編碼中將聽(tīng)閾曲線(xiàn)以下的聲音信號(hào)濾掉,以減少記錄傳輸?shù)男畔⒘?,?jié)約編碼的比特?cái)?shù)。利用掩蔽效應(yīng)原理,低于掩蔽門(mén)限的弱信號(hào)可不做編碼,以提高比特利用率;并將量化噪聲控制在掩蔽門(mén)限以下,從而節(jié)省了量化的比特?cái)?shù),消除聲音的聽(tīng)覺(jué)無(wú)關(guān)度。根據(jù)人耳的高頻定位特性,在多通道立體聲編碼中可以對(duì)高頻成分特殊處理,大量減少高頻信息冗余,提高壓縮效率。本發(fā)明中采用了聯(lián)合立體聲技術(shù)和交叉會(huì)話(huà)技術(shù)以減少多通道中的高頻聽(tīng)覺(jué)冗余。
在本發(fā)明中,利用聽(tīng)覺(jué)的前向掩蔽效應(yīng),在保證較高的編碼增益下,有效的抑制因時(shí)域分辨率不足而造成的“預(yù)回聲”現(xiàn)象。在變換編碼中,時(shí)域幀長(zhǎng)(即時(shí)域窗長(zhǎng)度)的選擇受兩個(gè)互相矛盾的因素制約幀長(zhǎng)越大,則編碼增益越高;而過(guò)大的幀長(zhǎng)將會(huì)使時(shí)域分辨率降低,而產(chǎn)生嚴(yán)重的“預(yù)回聲”。因此,選擇一個(gè)合適的幀長(zhǎng),使編碼增益和“預(yù)回聲”的抑制都達(dá)到一個(gè)最佳的平衡點(diǎn),是很重要的。實(shí)驗(yàn)證明,當(dāng)幀長(zhǎng)縮短到2ms~5ms時(shí),由于前向掩蔽效應(yīng),“預(yù)回聲”會(huì)被其后面的沖擊響應(yīng)所掩蔽。例如,在48kHz采樣時(shí),窗長(zhǎng)為256時(shí),其時(shí)域分辨率為2.7ms,由于前掩蔽效應(yīng),人耳察覺(jué)不到“預(yù)回聲”。
在本發(fā)明中,利用掩蔽效應(yīng),確定量化級(jí)別,控制量化噪聲使之低于或盡可能接近人耳的掩蔽門(mén)限,實(shí)現(xiàn)無(wú)失真音頻編碼以及在低碼率下提高音頻編碼的主觀質(zhì)量。在心理聲學(xué)中,一個(gè)純音可以被以它為中心,且具有一定帶寬的連續(xù)噪聲所掩蔽,若在這一頻帶內(nèi)噪聲功率等于該純音的功率,此時(shí)該純音處于剛好能被聽(tīng)到的臨界狀態(tài),即稱(chēng)這一頻帶為臨界帶寬(單位為Bark)。臨界頻帶的一個(gè)典型劃分如圖1所示。臨界頻帶是編碼中子帶劃分的心理學(xué)依據(jù)。人耳對(duì)音頻信號(hào)的分析以臨界頻帶為基礎(chǔ),類(lèi)似一個(gè)非等帶寬濾波器組,在不同的子帶中差異很大,子帶編碼就是利用了這一性質(zhì)而設(shè)計(jì)出來(lái)。因此,臨界頻帶是編碼中子帶劃分的心理聲學(xué)依據(jù)。在子帶編碼中,子帶的劃分應(yīng)盡量與人耳臨界頻帶的寬度接近,以便更好的適應(yīng)人耳的聽(tīng)覺(jué)特性。
在傳統(tǒng)的子帶編碼中,這一要求并沒(méi)有能夠得到很好的滿(mǎn)足。原因在于,能夠接近人耳的聽(tīng)覺(jué)特性的非等帶寬濾波器組設(shè)計(jì)涉及一些技術(shù)方面的困難。例如,MPEG用32個(gè)等帶寬的子帶濾波器組來(lái)劃分人耳聽(tīng)覺(jué)的頻率帶寬,如圖2所示。在這種子帶的劃分中,在低頻部分一個(gè)子帶包含多個(gè)臨界頻帶,而在高頻部分,一個(gè)臨界頻帶有被分成多個(gè)子帶,子帶的利用效率很低,不可能很好的逼近人耳的聽(tīng)覺(jué)特性(在低頻部分尤其如此)。但其優(yōu)點(diǎn)在于,等帶寬多相濾波器組的優(yōu)勢(shì)是各子帶濾波器的階數(shù)相同,計(jì)算中不存在延遲問(wèn)題,且濾波器具有較好的抗混疊性質(zhì)。利用這種濾波器組進(jìn)行音頻壓縮編碼,技術(shù)實(shí)現(xiàn)上比較簡(jiǎn)單,但人耳的聽(tīng)覺(jué)特性的利用率是有限的,很難實(shí)現(xiàn)高壓縮比的無(wú)失真編碼?;谛〔ǖ囊纛l壓縮技術(shù),就是為了從根本上解決傳統(tǒng)音頻壓縮編碼中的上述瓶頸問(wèn)題而提出的。小波分析是本世紀(jì)五十年代以來(lái)發(fā)展很快的一項(xiàng)技術(shù),具有信號(hào)時(shí)頻局部化分析和多尺度分析的能力,極大的推動(dòng)了數(shù)字信號(hào)處理技術(shù)的發(fā)展。在有限個(gè)子帶分解中,基于小波的子帶分解可以更好的接近人耳的臨界頻帶,即更好的利用人耳的心理聽(tīng)覺(jué)特性。本發(fā)明中的一個(gè)小波包子帶分解實(shí)例如圖3所示。
本編碼器與解碼器采用的分解樹(shù)及合成樹(shù)如圖3所示,它的子帶分布范圍與MPEG2比較如下(以48kHz為例),請(qǐng)與圖1“MPEG子帶濾波器組頻帶劃分與臨界頻帶帶寬的比較”,可以發(fā)現(xiàn)本發(fā)明分解的子帶比32個(gè)均勻子帶更適合人的心理聲學(xué)模型,本發(fā)明實(shí)現(xiàn)的小波分解可以實(shí)現(xiàn)低頻多子帶,高頻寬子帶。
本發(fā)明編碼實(shí)施例(1)移入128點(diǎn)新樣本于緩沖池,同時(shí)從緩沖池中移出128點(diǎn)最舊的樣本(此緩沖池長(zhǎng)度為1250個(gè)點(diǎn));(2)將該緩沖池中的序列分別與16個(gè)小波分析濾波器(分析濾波器的獲得見(jiàn)本專(zhuān)利第六部分)卷積,并進(jìn)行臨界再采樣,獲16個(gè)分解序列對(duì)應(yīng)16個(gè)頻帶,由于子帶的非均勻性,各子帶的再采樣率是不一樣的,具體如下子帶1~4抽樣各為1個(gè)樣本,子帶5~6各為2個(gè)樣本,子帶7~13各為8個(gè)樣本,子帶14~15各為16個(gè)樣本,子帶16為32個(gè)樣本;(3)以3*128點(diǎn)為一個(gè)群,這樣各子帶中的樣本數(shù)為原來(lái)的三倍,即子帶1~4中各有3個(gè)樣本,子帶5~6各有6個(gè)樣本,子帶7~13各有24個(gè)樣本,子帶14~15各有48個(gè)樣本,子帶16有96個(gè)樣本;分別找出各子帶的尺度因子(方法同MP2),將各子帶歸一化;(4)同時(shí)該3*128點(diǎn)的頻譜信息,代入心理聲學(xué)模型(1或2),求得各子帶的量化位數(shù)(細(xì)節(jié)見(jiàn)本專(zhuān)利第五部分);(5)根據(jù)(4)獲得的量化位數(shù)量化各子帶中的樣本,量化方法如下設(shè)每子帶的量化位數(shù)為a,該子帶的樣本數(shù)為Num,則各樣本的量化后結(jié)果為bb=a>>(16-Num)(6)無(wú)失真編碼(采用霍夫曼編碼);(7)打包,編碼輸出。
本發(fā)明解碼實(shí)施例(1)輸入編碼序列,以與編碼過(guò)程相反的順序解包及霍夫曼解,還原為16個(gè)子帶上的樣本,推入16個(gè)緩沖池;(2)將各子帶上的樣本反量化,同時(shí)除于尺度因子;
(3)相應(yīng)于編碼過(guò)程(2)中的再采樣,將各子帶上的樣本間插零值,具體個(gè)數(shù)為子帶1~4中2個(gè)樣本間插入127個(gè)零,子帶5~6中2個(gè)樣本間插入63個(gè)零,子帶7~13中2個(gè)樣本間插入15個(gè)零,子帶14~15中2個(gè)樣本間插入7個(gè)零,子帶16中2個(gè)樣本間插入3個(gè)零;(4)將16個(gè)緩沖池中的序列與合成濾波器組分別卷積各得128個(gè)數(shù)據(jù),將16個(gè)128點(diǎn)對(duì)應(yīng)相加的一128點(diǎn)序列,該序列即為輸出值;(5)輸出該序列。
根據(jù)子帶的特點(diǎn),為減少計(jì)算量和存儲(chǔ)空間,解碼過(guò)程有快速方法,該方法可以極大地降低計(jì)算量,并極大地降低了存儲(chǔ)空間。該快速方法有另外的專(zhuān)利給出。
權(quán)利要求
1.一種實(shí)用的基于小波變換的聲音編解碼器,其特征在于編碼器為將音頻取樣數(shù)據(jù)存入緩沖池,通過(guò)多個(gè)小波濾波器組卷積,進(jìn)行臨界采樣,確定尺度因子;同時(shí)音頻取樣數(shù)據(jù)經(jīng)富里葉變換和尺度因子確定信號(hào)掩蔽比;尺度因子進(jìn)行編碼,由信號(hào)掩蔽比和目標(biāo)碼率調(diào)整后的目標(biāo)碼率與尺度因子編碼確定量化子帶系數(shù),進(jìn)行比特信息編碼;解碼器為解碼信息進(jìn)行解包,對(duì)子帶信息無(wú)失真解碼,恢復(fù)高頻耦合子帶系數(shù),各組子帶系數(shù)存入緩沖池進(jìn)行采樣,經(jīng)小波重構(gòu)濾波器組卷積重構(gòu),重復(fù)子帶采樣和小波重構(gòu)濾波器組卷積,還原音頻數(shù)據(jù)。
全文摘要
本發(fā)明涉及現(xiàn)代信息處理領(lǐng)域中一個(gè)快速發(fā)展的分枝——聲音壓縮編解碼器。本發(fā)明其特征在于編碼器為將音頻取樣數(shù)據(jù)存入緩沖池,通過(guò)多個(gè)小波濾波器組卷積,進(jìn)行臨界采樣,確定尺度因子;同時(shí)音頻取樣數(shù)據(jù)經(jīng)富里葉變換和尺度因子確定信號(hào)掩蔽比;尺度因子進(jìn)行編碼,由信號(hào)掩蔽比和目標(biāo)碼率調(diào)整后的目標(biāo)碼率與尺度因子編碼確定量化子帶系數(shù),進(jìn)行比特信息編碼。本發(fā)明的一個(gè)重大的技術(shù)創(chuàng)新在于用小波技術(shù)取代傳統(tǒng)的濾波器組,結(jié)合人耳的聽(tīng)覺(jué)特性,實(shí)現(xiàn)高增益、高質(zhì)量的音頻編碼。
文檔編號(hào)G10L19/00GK1318904SQ01109619
公開(kāi)日2001年10月24日 申請(qǐng)日期2001年3月13日 優(yōu)先權(quán)日2001年3月13日
發(fā)明者陳笑天, 潘興德, 顧春來(lái) 申請(qǐng)人:北京阜國(guó)數(shù)字技術(shù)有限公司