專(zhuān)利名稱(chēng):低比特率音頻編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及寬帶信號(hào)的編碼和解碼,更具體地,本發(fā)明涉及音頻信號(hào)的編碼和解碼。本發(fā)明涉及編碼器和解碼器,還涉及根據(jù)本發(fā)明編碼的音頻流以及其上存儲(chǔ)有這樣的音頻流的數(shù)據(jù)存儲(chǔ)媒體。
背景技術(shù):
當(dāng)發(fā)射寬帶信號(hào)例如諸如語(yǔ)音的音頻信號(hào)時(shí),使用壓縮或編碼技術(shù)來(lái)降低信號(hào)的帶寬或比特率。
圖1顯示了一種已知的參數(shù)編碼方案,特別地,顯示了在本發(fā)明中使用的并描述在WO 01/69593中的正弦編碼器。在該編碼器中,將輸入音頻信號(hào)x(t)分成若干(可能重疊)時(shí)間段或幀,通常每個(gè)具有20ms(毫秒)的持續(xù)時(shí)間。每個(gè)段被分解成瞬態(tài)的正弦和噪聲分量。還有可能導(dǎo)出輸入音頻信號(hào)的其他分量,諸如諧波復(fù)合波,雖然這些和本發(fā)明的目的并不相關(guān)。
在圖1的正弦分析器130內(nèi),使用利用幅度、頻率和相位參數(shù)表示的多條正弦曲線來(lái)模擬每個(gè)段的信號(hào)x2。通常通過(guò)執(zhí)行提供時(shí)間間隔的譜表示的傅立葉變換(FT)來(lái)提取這個(gè)信息,用于分析時(shí)間間隔,其中譜表示包括頻率,每個(gè)頻率的幅度,以及每個(gè)頻率的相位,其中每個(gè)相位被“環(huán)繞(wrap)”即在范圍{-π,π}內(nèi)。一旦估計(jì)了段的正弦信息,則啟動(dòng)跟蹤算法。這個(gè)算法使用價(jià)格函數(shù)(cost function)將不同段中的正弦曲線在逐個(gè)段的基礎(chǔ)上相互鏈接,以獲得所謂的軌跡。因此,跟蹤算法得到正弦碼Cs,其包括在特定時(shí)刻開(kāi)始、在多個(gè)時(shí)間段上對(duì)于某個(gè)持續(xù)時(shí)間展開(kāi)、并且隨后停止的正弦軌跡。
在這樣的正弦編碼中,通常發(fā)射在編碼器中形成的軌跡的頻率信息。這可以利用非常簡(jiǎn)單的方式并利用相對(duì)低的成本來(lái)實(shí)現(xiàn),因?yàn)檐壽E僅具有緩慢變化的頻率。因此,通過(guò)時(shí)間差分編碼,能夠有效地傳輸頻率信息。通常,也能在時(shí)間上差分編碼幅度。
與頻率相對(duì)照,相位隨時(shí)間更快速變化。如果頻率是恒定的,則相位將隨時(shí)間線性變化,并且頻率變化會(huì)導(dǎo)致相應(yīng)的相位偏離線性航線。作為軌跡分段索引的函數(shù),相位將具有近似線性的行為。因此,編碼相位的傳輸是更加復(fù)雜的。然而,當(dāng)發(fā)送時(shí),相位被限制到{-π,π}范圍,即相位被環(huán)繞,正如利用傅立葉變換所提供的一樣。因?yàn)橄辔坏倪@個(gè)模2π表示,相位的結(jié)構(gòu)的幀間關(guān)系被丟失,并且初看起來(lái)仿佛是隨機(jī)可變的。
然而,因?yàn)橄辔皇穷l率的積分(integral),所以相位是冗余的,并且原則上無(wú)需發(fā)送。這被稱(chēng)為相位連續(xù)并顯著降低了比特率。
在相位連續(xù)中,僅發(fā)送每個(gè)軌跡的第一條正弦曲線,以節(jié)省比特率。從軌跡的初始相位以及頻率中,計(jì)算每個(gè)后續(xù)的相位。由于頻率被量化并且不總是非常精確估計(jì)的,所以連續(xù)相位將偏離測(cè)量的相位。實(shí)驗(yàn)表明相位連續(xù)惡化了音頻信號(hào)的質(zhì)量。
發(fā)送每個(gè)正弦曲線的相位能夠增加在接收機(jī)端上解碼信號(hào)的質(zhì)量,但這也導(dǎo)致比特率/帶寬的顯著增加。因此,聯(lián)合(joint)頻率/相位量化器導(dǎo)致沿著軌跡單調(diào)增加展開(kāi)的相位,其中在該量化器中,使用測(cè)量的頻率以及鏈接信息展開(kāi)具有在-π和π之間的值的正弦軌跡的測(cè)量相位。在這樣的編碼器中,使用自適應(yīng)差分脈碼調(diào)制(ADPCM)量化器來(lái)量化展開(kāi)的相位,并將其傳輸?shù)浇獯a器。解碼器從展開(kāi)的相位軌跡中得到正弦曲線的頻率以及相位。
在相位連續(xù)中,僅發(fā)送編碼的頻率,并且在解碼器上利用相位和頻率之間的積分關(guān)系從頻率數(shù)據(jù)中恢復(fù)相位。然而,已知的是當(dāng)使用相位連續(xù)時(shí),不能完美地恢復(fù)相位。如果例如由于頻率內(nèi)的測(cè)量誤差或由于量化噪聲而出現(xiàn)頻率誤差,使用積分關(guān)系重建的相位通常將顯示具有漂移特性的誤差。這是因?yàn)轭l率誤差具有近似隨機(jī)的特性。低頻率誤差被積分放大,并因此恢復(fù)的相位將趨向漂移偏離實(shí)際測(cè)量的相位。這導(dǎo)致可聽(tīng)見(jiàn)的假象。
這顯示在圖2a中,其中Ω和Ψ分別是軌跡的真實(shí)頻率和真實(shí)相位。在編碼器和解碼器中,頻率和相位具有用字母“I”表示的積分關(guān)系。編碼器中的量化處理被模擬為添加的噪聲n。在解碼器中,恢復(fù)的相位 因此包括兩個(gè)分量真實(shí)相位Ψ和噪聲相位ε2,其中恢復(fù)相位的頻譜以及噪聲ε2的功率譜密度函數(shù)具有明顯的低頻特性。
因此,可以看出在相位連續(xù)中,由于恢復(fù)的相位是低頻信號(hào)的積分,所以恢復(fù)的相位本身是低頻信號(hào)。然而,在重建處理中引入的噪聲在這個(gè)低頻范圍內(nèi)也是主要的。因此,難以為了過(guò)濾在編碼期間引入的噪聲n而分離這些源。
在常規(guī)的量化方法中,頻率和相位相互獨(dú)立地進(jìn)行量化。通常,對(duì)相位參數(shù)應(yīng)用統(tǒng)一的標(biāo)量量化器。由于知覺(jué)原因,應(yīng)當(dāng)比較高頻率更準(zhǔn)確地量化較低頻率。因此,使用ERB或Bark函數(shù)將頻率轉(zhuǎn)換成非均勻表示,并然后均勻地進(jìn)行量化,得到非均勻量化器。同樣,能夠發(fā)現(xiàn)物理原因在諧波復(fù)合波中,較高諧波頻率比較低頻率更趨向于具有較高的頻率變化。
當(dāng)聯(lián)合量化頻率和相位時(shí),頻率相關(guān)的量化準(zhǔn)確性不是直接的。均勻量化方案的使用導(dǎo)致低質(zhì)量聲音重建。
在相位ADPCM量化器中使用的用于量化軌跡的第一元素的初始量化準(zhǔn)確度(即,量化準(zhǔn)確度,也被稱(chēng)為量化網(wǎng)格(quantization grid))的選擇是下面兩種情形之間的平衡-能夠跟隨難以預(yù)測(cè)的展開(kāi)相位的速度。這樣的一個(gè)例子是其頻率正在快速變化的軌跡;以及-能夠跟隨易于預(yù)測(cè)的展開(kāi)相位的準(zhǔn)確度。這樣的一個(gè)例子是其頻率幾乎恒定的軌跡。
如果初始量化網(wǎng)格太細(xì),相位ADPCM量化器可能不能跟隨難以預(yù)測(cè)的展開(kāi)相位。如果是這種情形,則在軌跡內(nèi)產(chǎn)生大的量化誤差,并引入可聽(tīng)到的失真。這導(dǎo)致比特率的增加。如果另一方面初始量化網(wǎng)格太粗,則在易于預(yù)測(cè)的軌跡內(nèi)會(huì)出現(xiàn)接通振蕩(switching-onoscillation),如在圖7中所示的那樣,其中原始軌跡的頻率類(lèi)似階梯改變。在該圖中,使用大約1.9Hz的精確度來(lái)估計(jì)原始頻率。估計(jì)頻率的振蕩可能是可聽(tīng)見(jiàn)的,而這是不希望的。
發(fā)明內(nèi)容
本發(fā)明提供一種使用低比特率編碼寬帶信號(hào)特別是諸如語(yǔ)音信號(hào)的音頻信號(hào)的方法。在正弦編碼器中,每個(gè)音頻段估計(jì)多條正弦曲線。利用頻率、幅度和相位表示正弦曲線。通常,獨(dú)立于頻率來(lái)量化相位。特別地,對(duì)于低比特率量化器,本發(fā)明顯著地改進(jìn)了解碼信號(hào)質(zhì)量。
根據(jù)本發(fā)明,利用合適的初始量化網(wǎng)格來(lái)編碼軌跡,其中在一組可能的初始網(wǎng)格中選擇合適的初始量化網(wǎng)格。這些初始網(wǎng)格從細(xì)到粗變化。僅使用兩個(gè)可能的初始網(wǎng)格獲得好的結(jié)果,但是也能夠使用幾個(gè)網(wǎng)格。如果在一系列時(shí)間段中特定軌跡內(nèi)的頻率變化小于預(yù)定值,則使用更細(xì)的量化網(wǎng)格來(lái)量化該軌跡。該方法避免了圖7中的振蕩問(wèn)題。關(guān)于選擇初始網(wǎng)格的信息需要被發(fā)送到解碼器。
這得到了利用低比特率發(fā)送相位信息的優(yōu)點(diǎn),同時(shí)保持了在所有頻率上好的相位準(zhǔn)確度和信號(hào)質(zhì)量。這個(gè)方法的優(yōu)點(diǎn)是改進(jìn)了相位準(zhǔn)確度,并因此改進(jìn)了聲音質(zhì)量,特別是在僅使用小數(shù)目的比特來(lái)量化相位和頻率值時(shí)。另一方面,使用較少的比特,能夠獲得所要求的聲音質(zhì)量。
圖1顯示了其中實(shí)施本發(fā)明的實(shí)施例的現(xiàn)有技術(shù)的音頻編碼器;圖2a顯示了現(xiàn)有技術(shù)系統(tǒng)中相位和頻率之間的關(guān)系;圖2b顯示了根據(jù)本發(fā)明的音頻系統(tǒng)中相位和頻率之間的關(guān)系;圖3a和3b顯示了圖1的音頻編碼器的正弦編碼器組成元件的優(yōu)選實(shí)施例;圖4顯示了其中實(shí)施本發(fā)明的實(shí)施例的音頻播放器;和圖5a和5b顯示了圖4的音頻播放器的正弦合成器組成元件的優(yōu)選實(shí)施例;圖6顯示了包括根據(jù)本發(fā)明的音頻編碼器和音頻播放器的系統(tǒng);和圖7顯示了原始頻率軌跡以及利用不同量化網(wǎng)格由相位ADPCM量化器進(jìn)行的兩個(gè)估算的例子。
具體實(shí)施例方式
現(xiàn)在,將參考
本發(fā)明的優(yōu)選實(shí)施例,其中相同的組成元件用相同的標(biāo)號(hào)來(lái)表示并執(zhí)行相同的功能,除非另有指明。在本發(fā)明的優(yōu)選實(shí)施例中,編碼器1是在WO 01/69593、圖1中所述類(lèi)型的正弦編碼器。這個(gè)現(xiàn)有技術(shù)編碼器及其相應(yīng)解碼器的操作已被充分說(shuō)明,并且在此僅提供涉及本發(fā)明的說(shuō)明。
在現(xiàn)有技術(shù)和本發(fā)明的優(yōu)選實(shí)施例中,音頻編碼器1以某種抽樣頻率來(lái)抽樣輸入的音頻信號(hào),得到音頻信號(hào)的數(shù)字表示x(t)。然后,編碼器1將抽樣的輸入信號(hào)分成三個(gè)分量瞬態(tài)信號(hào)分量,持續(xù)的確定分量,以及持續(xù)的隨機(jī)分量。音頻編碼器1包括瞬態(tài)編碼器11、持續(xù)編碼器13以及噪聲編碼器14。
瞬態(tài)編碼器11包括瞬態(tài)檢測(cè)器(TD)110、瞬態(tài)分析器(TA)111以及瞬態(tài)合成器(TS)112。首先,信號(hào)x(t)進(jìn)入瞬態(tài)檢測(cè)器110。該檢測(cè)器110估計(jì)是否存在瞬態(tài)信號(hào)分量及其位置。這個(gè)信息被饋送到瞬態(tài)分析器111。如果確定了瞬態(tài)信號(hào)分量的位置,瞬態(tài)分析器111試圖提取瞬態(tài)信號(hào)分量(主要部分)。這優(yōu)選地在估計(jì)的開(kāi)始位置處開(kāi)始匹配形狀函數(shù)與信號(hào)分段,并且通過(guò)采用例如多個(gè)(少量)正弦分量來(lái)確定在形狀函數(shù)下面的內(nèi)容。在瞬態(tài)碼CT中包含這個(gè)信息,并且在WO 01/69593中提供了更具體的關(guān)于產(chǎn)生瞬態(tài)碼CT的詳細(xì)信息。
瞬態(tài)碼CT被提供給瞬態(tài)合成器112。在減法器16中從輸入信號(hào)x(t)中減去合成的瞬態(tài)信號(hào)分量,得到信號(hào)x1。使用增益控制機(jī)制GC(12)來(lái)從x1中產(chǎn)生x2。
信號(hào)x2被提供給正弦編碼器13,其中在正弦分析器(SA)130中分析該信號(hào),確定(確定的)正弦分量。因此,能夠看出,雖然瞬態(tài)分析器的存在是需要的,但不是必要的,并且沒(méi)有這樣的分析器也能實(shí)施本發(fā)明??蛇x地,如上所述,本發(fā)明還能夠例如使用諧波復(fù)分析器來(lái)實(shí)現(xiàn)。簡(jiǎn)單地說(shuō),正弦編碼器將輸入信號(hào)x2編碼為從一個(gè)幀分段鏈接到下一個(gè)幀分段的正弦分量的軌跡。
現(xiàn)在參考圖3a,以和現(xiàn)有技術(shù)中相同的方式,在優(yōu)選實(shí)施例中,輸入信號(hào)x2的每個(gè)分段在傅立葉變換(FT)單元40中被變換到頻域。對(duì)于每個(gè)分段,F(xiàn)T單元提供測(cè)量的幅度A、相位φ以及頻率ω。如前所述,利用傅立葉變換提供的相位的范圍被限制在-π≤φ<π。跟蹤算法(TA)單元42提取每個(gè)段的信息,并通過(guò)采用適當(dāng)?shù)膬r(jià)格函數(shù),將正弦曲線從一個(gè)分段鏈接到下一個(gè)分段,于是產(chǎn)生每個(gè)軌跡的一系列測(cè)量的相位φ(k)和頻率ω(k)。
和現(xiàn)有技術(shù)相對(duì)照,分析器130所最終產(chǎn)生的正弦碼Cs包括相位信息,并且在解碼器中從這個(gè)信息中重建頻率。
然而,如上所述,測(cè)量的相位被環(huán)繞,這意味著它被限制到模2π表示(形式)。因此,在優(yōu)選實(shí)施例中,分析器包括相位展開(kāi)器(PU)44,其中模2π相位表示被展開(kāi),以揭示軌跡的結(jié)構(gòu)幀間相位行為Ψ。因?yàn)檎臆壽E中的頻率是幾乎恒定的,所以將明白,展開(kāi)相位Ψ通常將是近似線性增加(或降低)函數(shù),并且這使得相位的便宜傳輸即利用低比特率是可能的。將展開(kāi)相位Ψ作為輸入提供給相位編碼器(PE)46,其作為輸出提供適于傳輸?shù)牧炕谋硎倦娖絩。
現(xiàn)在,參考相位展開(kāi)器44的操作,如上所述,軌跡的瞬時(shí)相位Ψ和瞬時(shí)頻率Ω利用下式相關(guān)ψ(t)=∫T01Ω(τ)dτ+ψ(T0)---(1)]]>其中T0是基準(zhǔn)時(shí)刻。
在幀k=K,K+1...K+L-1中的正弦軌跡具有測(cè)量的頻率ω(k)(以每秒弧度來(lái)表示)和測(cè)量的相位φ(k)(用弧度來(lái)表示)。幀的中心之間的距離利用U(以秒表示的更新速率)來(lái)給出。假定測(cè)量的頻率是假定的基本連續(xù)的時(shí)間頻率軌跡Ω的抽樣,ω(k)=Ω(kU),并類(lèi)似地,測(cè)量的相位是相關(guān)聯(lián)的連續(xù)時(shí)間相位軌跡Ψ的抽樣,φ(k)=Ψ(kU)mod(2π)。對(duì)于正弦編碼,假定Ω是近似恒定的函數(shù)。
假定頻率在分段內(nèi)是幾乎恒定的,則等式1可近似為下面ψ(kU)=1(k-1)UkUΩ(t)dt+ψ((k-1)U)---(2)]]>≈{ω(k)+ω(k-1)}U/2+ψ((k-1)U)]]>因此,可以看出,如果已知給定分段的相位和頻率以及下一分段的頻率,則有可能估計(jì)下一分段的展開(kāi)相位值,并且對(duì)于軌跡內(nèi)的每一分段,以此類(lèi)推。
在優(yōu)選實(shí)施例中,相位展開(kāi)器確定在時(shí)刻k的展開(kāi)因子m(k)ψ(kU)=φ(k)+m(k)2π(3)展開(kāi)因子m(k)將必須添加以獲得展開(kāi)相位的循環(huán)的數(shù)目告訴展開(kāi)器44。
組合等式2和3,相位展開(kāi)器如下確定遞增式展開(kāi)因子e(k)2πe(k)=2π{(k)-m(k-1)}={ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}其中e應(yīng)是整數(shù)。然而,由于測(cè)量和模型誤差,遞增式展開(kāi)因子將不確切地是整數(shù),于是
e(k)=round([{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π))假定模型和測(cè)量誤差是小的。
如果具有遞增展開(kāi)因子e,則根據(jù)等式(3)的m(k)被計(jì)算為累加和,其中不喪失一般性,相位展開(kāi)器從m(k)=0的第一幀K開(kāi)始,并從m(k)和φ(k)中確定(展開(kāi))相位Ψ(kU)。
實(shí)際上,抽樣數(shù)據(jù)Ψ(kU)和Ω(kU)由于測(cè)量誤差而失真φ(k)=ψ(kU)+ε1(k),ω(k)=Ω(kU)+ε2(k),其中ε1和ε2分別是相位誤差和頻率誤差。為了防止展開(kāi)因子的確定變得模糊,需要利用足夠精確度來(lái)確定測(cè)量數(shù)據(jù)。因此,在優(yōu)選實(shí)施例中,限制跟蹤,以致于δ(k)=e(k)-[{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π)<δ0其中δ是舍入運(yùn)算中的誤差。誤差δ主要是由與U相乘引起的ω中的誤差來(lái)確定。假定從具有抽樣頻率Fs的輸入信號(hào)的抽樣版本的傅立葉變換的最大絕對(duì)值中確定ω,并且該傅立葉變換的解析度是2π/La,La是分析量值。為了在考慮的限制之內(nèi),我們得到LuU=δ0]]>這意味著,分析量值應(yīng)當(dāng)大于更新量值的幾倍,以使展開(kāi)是精確的,例如設(shè)定δ0=1/4,分析量值應(yīng)當(dāng)是更新量值的四倍(忽略相位測(cè)量中的誤差ε1)。
可以采取以避免舍入運(yùn)算中的判決誤差的第二預(yù)防措施是適當(dāng)?shù)囟x軌跡。在跟蹤單元42中,正弦軌跡通常通過(guò)考慮幅度和頻率差來(lái)定義。此外,還有可能考慮鏈接標(biāo)準(zhǔn)中的相位信息。例如,我們可根據(jù)下式將相位預(yù)測(cè)誤差ε定義為測(cè)量值和預(yù)測(cè)值 之間的差值
ϵ={φ(k)-φ~(k)}mod2π]]>其中預(yù)測(cè)值可取為φ~(k)=φ(k-1)+{ω(k)-ω(k-1)}U/2]]>因此,優(yōu)選地跟蹤單元42禁止其中ε大于某個(gè)值(例如,ε>π/2)的軌跡,得到e(k)的明確定義。
此外,編碼器能夠計(jì)算諸如在解碼器中將是可利用的相位和頻率。如果在解碼器中將變得可用的相位或頻率和例如在編碼器中出現(xiàn)的相位和/或頻率相差太大,則能夠決定中斷軌跡,即,發(fā)信號(hào)表示軌跡的結(jié)束,并使用當(dāng)前的頻率和相位及其鏈接的正弦數(shù)據(jù)開(kāi)始新的軌跡。
相位展開(kāi)器(PU)44產(chǎn)生的抽樣的展開(kāi)相位Ψ(kU)被作為輸入提供給相位編碼器(PE)46,以產(chǎn)生一組表示電平r。具有單調(diào)變化特征諸如展開(kāi)相位的有效傳輸?shù)募夹g(shù)通常是已知的。在優(yōu)選實(shí)施例中,圖3b,采用自適應(yīng)差分脈碼調(diào)制(ADPCM)。在此,使用預(yù)測(cè)器(PF)48來(lái)估計(jì)下一軌跡分段的相位,并且只在量化器(Q)50中編碼差值。由于期望Ψ是近似線性的函數(shù),并且為了簡(jiǎn)單起見(jiàn),選擇預(yù)測(cè)器48為二階濾波器的形式y(tǒng)(k+1)=2x(k)-x(k-1)其中x是輸入,而y是輸出。然而,可以看出,也有可能采取其他的函數(shù)關(guān)系(包括更高階關(guān)系),并包括濾波器系數(shù)的自適應(yīng)(前向或后向)適配。在優(yōu)選實(shí)施例中,為了簡(jiǎn)便,使用后向自適應(yīng)控制機(jī)制(QC)52來(lái)控制量化器50。也有可能使用前向自適應(yīng)控制,但這將需要額外的比特率開(kāi)銷(xiāo)。
如將明白的,用于軌跡的編碼器(和解碼器)的初始化從知道開(kāi)始相位φ(0)和頻率ω(0)開(kāi)始。這些利用獨(dú)立的機(jī)制進(jìn)行量化和傳輸。此外,在編碼器的量化控制器52以及解碼器內(nèi)的對(duì)應(yīng)控制器62內(nèi)使用的初始量化步驟(圖5b)是在編碼器和解碼器中進(jìn)行傳輸或設(shè)定到特定值。最后,軌跡的結(jié)束可以在獨(dú)立的支流中發(fā)信號(hào)通知,或作為相位的比特流中的唯一符號(hào)來(lái)通知。
展開(kāi)相位的開(kāi)始頻率在編碼器以及解碼器中都是已知的。基于這個(gè)頻率,選擇量化精度。對(duì)于以較低頻率開(kāi)始的展開(kāi)相位軌跡,和以較高頻率開(kāi)始的展開(kāi)相位軌跡相比,選擇更精確的量化網(wǎng)格,即,更高的清晰度。
在ADPCM量化器中,從軌跡內(nèi)在前相位中預(yù)測(cè)/估計(jì)展開(kāi)相位Ψ(k),其中k表示軌跡內(nèi)的數(shù)目。然后,量化并傳輸預(yù)測(cè)相位Ψ(k)和展開(kāi)相位Ψ(k)之間的差值。量化器適用于軌跡內(nèi)的每個(gè)展開(kāi)相位。當(dāng)預(yù)測(cè)誤差小時(shí),量化器限制可能值的范圍,并且量化能夠變得更為精確。另一方面,當(dāng)量化誤差大時(shí),量化器使用更粗的量化。
圖3b中的量化器Q量化預(yù)測(cè)誤差Δ,這利用下式來(lái)計(jì)算Δ(k)=ψ(k)-ψ~(k)]]>可使用查詢(xún)表來(lái)量化預(yù)測(cè)誤差Δ。為此,保持一個(gè)表Q。例如,對(duì)于2比特ADPCM量化器,Q的初始表可以類(lèi)似于表1所示的表格。
表1用于第一連續(xù)的量化表Q如下完成量化。將預(yù)測(cè)誤差Δ和邊界b進(jìn)行比較,以滿(mǎn)足下式bli<Δ≤bui從滿(mǎn)足上述關(guān)系的i的值中,利用r=i計(jì)算表示電平r。
在表示表R中存儲(chǔ)相關(guān)的表示電平r,這顯示在表2中。
表2用于第一連續(xù)的表示表R為了軌跡中下一正弦分量的量化,表Q和R的表項(xiàng)利用因子c來(lái)相乘。
Q(k+1)=Q(k)·cR(k+1)=R(k)·c在解碼軌跡期間,根據(jù)生成的表示電平r來(lái)定標(biāo)兩個(gè)表。如果對(duì)于當(dāng)前子幀,r是1或2(內(nèi)部電平),則量化表的比例因子c被設(shè)定為c=2-1/4由于c<1,軌跡中下一正弦曲線的頻率和相位變得更準(zhǔn)確。如果r是0或3(外部電平),則比例因子被設(shè)定為c=21/2由于c>1,軌跡中下一正弦曲線的量化精確度降低。使用這些因子,通過(guò)兩個(gè)按比例縮小,可以取消一個(gè)按比例放大。按比例放大和按比例縮小之間的差異導(dǎo)致按比例放大的快速開(kāi)始,而對(duì)應(yīng)的按比例縮小需要兩步。
為了避免量化表中非常小或非常大的表項(xiàng),只在內(nèi)部電平的絕對(duì)值在π/64和3π/4之間,才進(jìn)行自適應(yīng)。在此一種情況中,c被設(shè)定為1。
在解碼器中,僅保持表R,以便將接收的表示電平r轉(zhuǎn)換為量化的預(yù)測(cè)誤差。這個(gè)解量化操作是由圖5b中的塊DQ執(zhí)行的。
使用上述設(shè)定,重建聲音的質(zhì)量需要改進(jìn)。根據(jù)本發(fā)明,使用基于開(kāi)始頻率的用于展開(kāi)相位軌跡的不同的初始表。借此,獲得更好的聲音質(zhì)量。這是如下完成的。基于軌跡的第一頻率,定標(biāo)初始表Q和R。在表3中,和頻率范圍一起給出比例因子。如果軌跡的第一頻率位于某個(gè)頻率范圍內(nèi),則選擇適當(dāng)?shù)谋壤蜃?,并且利用這個(gè)比例因子來(lái)劃分表R和Q。端點(diǎn)也能夠取決于軌跡的第一頻率。在解碼器中,執(zhí)行相應(yīng)的處理,以便從正確的初始表R開(kāi)始。
表3頻率相關(guān)的比例因子和初始表表3顯示了用于2比特ADPCM量化器的頻率相關(guān)的比例因子以及對(duì)應(yīng)的初始表Q和R的示例。音頻頻率范圍0-22050Hz被分成四個(gè)頻率子范圍??梢钥闯觯鄬?duì)于較高的頻率范圍,在較低的頻率范圍范圍中相位精度改善了。
頻率子范圍以及頻率相關(guān)的比例因子的數(shù)目可以變化,并可以進(jìn)行選擇以適應(yīng)不同目的和要求。如上所述,表3中的頻率相關(guān)的初始表Q和R能夠動(dòng)態(tài)地按比例放大和縮小,以適應(yīng)從一個(gè)時(shí)間段到下一個(gè)時(shí)間段的相位的演化。
在例如3比特ADPCM量化器中,用3比特定義的8個(gè)量化間隔的初始邊界可定義為如下Q={-∞ -1.41 -0.707 -0.35 0 0.35 0.707 1.41∞},并可以具有最小網(wǎng)格尺寸π/64和最大網(wǎng)格尺寸π/2。表示表R可能看上去類(lèi)似R={-2.117,-1.0585,-0.5285,-0.1750,0.1750,0.5285,1.0585,2.117}。在這種情況中也可以使用如表3所示的類(lèi)似的頻率相關(guān)的表Q和R的初始化。
根據(jù)利用正弦編碼器生成的正弦碼Cs,由正弦合成器(SS)131以與對(duì)于解碼器中的正弦合成器(SS)132所述的相同方式重建正弦信號(hào)分量。在減法器17中從正弦編碼器13的輸入x2中減去這個(gè)信號(hào),得到剩余信號(hào)x3。正弦編碼器13產(chǎn)生的剩余信號(hào)x3被傳送到優(yōu)選實(shí)施例的噪聲分析器14,其產(chǎn)生表示這個(gè)噪聲的噪聲碼CN,例如,如在國(guó)際專(zhuān)利申請(qǐng)?zhí)朠CT/EP00/04599中所描述的。
最后,在多路復(fù)用器15中,構(gòu)成音頻流AS,其包括碼CT、Cs和CN。音頻流AS被提供給例如數(shù)據(jù)總線、天線系統(tǒng)、存儲(chǔ)媒體等。
圖4顯示了適于解碼音頻流AS’的音頻播放器3,該音頻流例如是由圖1的編碼器1產(chǎn)生的,從數(shù)據(jù)總線、天線系統(tǒng)、存儲(chǔ)媒體等獲得的。在解多路復(fù)用器30中解多路復(fù)用音頻流AS’,以獲得碼CT、Cs和CN。這些碼分別被提供給瞬態(tài)合成器31、正弦合成器32以及噪聲合成器33。根據(jù)瞬態(tài)碼CT,在瞬態(tài)合成器31中計(jì)算瞬態(tài)信號(hào)分量。在瞬態(tài)碼表示形狀函數(shù)的情形中,根據(jù)接收參數(shù),計(jì)算形狀。此外,根據(jù)正弦分量的頻率和幅度,計(jì)算形狀內(nèi)容。如果瞬態(tài)碼CT指示步(間隔),則不計(jì)算任何瞬態(tài)值??偟乃矐B(tài)信號(hào)yT是所有瞬態(tài)值的和。
包括分析器130編碼的信息的正弦碼Cs由正弦合成器32用于生成信號(hào)ys。現(xiàn)在,參考圖5a和5b,正弦合成器32包括和相位編碼器46相兼容的相位解碼器(PD)56。在此,解量化器(DQ)60和二階預(yù)測(cè)濾波器(PF)64一起根據(jù)以下內(nèi)容產(chǎn)生展開(kāi)相位 (的估計(jì))表示電平r;提供給預(yù)測(cè)濾波器(PF)64的初始信息 和 以及用于量化控制器(QC)62的初始量化步長(zhǎng)。
如圖2b所示,可以從展開(kāi)相位 通過(guò)差分恢復(fù)出頻率。假定解碼器中的相位誤差是近似白的,并且由于差分放大了高頻,所以差分可以與低通濾波器組合,以降低噪聲,并因此在解碼器上獲得頻率的準(zhǔn)確估計(jì)。
在優(yōu)選實(shí)施例中,濾波單元(FR)58近似差分,這對(duì)于通過(guò)諸如前向、后向或中央差的處理從展開(kāi)相位中獲得頻率 是必需的。這允許解碼器產(chǎn)生相位 和頻率 作為輸出,這兩個(gè)值可以常規(guī)方式用于合成編碼信號(hào)的正弦分量。
同時(shí),因?yàn)樾盘?hào)的正弦分量正被合成,所以將噪聲碼CN送入噪聲合成器NS33,該合成器主要是濾波器,具有近似噪聲頻譜的頻率響應(yīng)。NS33通過(guò)用噪聲碼CN濾波白噪聲信號(hào),產(chǎn)生重建噪聲yN??偟男盘?hào)y(t)包括瞬態(tài)信號(hào)yT和任一幅度分解(g)與正弦信號(hào)ys和噪聲信號(hào)yN之和的乘積的和。音頻播放器包括兩個(gè)加法器36和37,以便將相應(yīng)的信號(hào)相加??偟男盘?hào)被提供給諸如是揚(yáng)聲器的輸出單元35。
圖6顯示了根據(jù)本發(fā)明的包括圖1所示的音頻編碼器1和圖4所示的音頻播放器3的音頻系統(tǒng)。這樣的系統(tǒng)提供以及記錄特征。通過(guò)可以是無(wú)線連接、數(shù)據(jù)總線20或存儲(chǔ)媒體的通信信道2,從音頻編碼器提供音頻流AS給音頻播放器。在通信信道2是存儲(chǔ)媒體的情況中,該存儲(chǔ)媒體可以固定在系統(tǒng)中,或者也可以是可拆卸的盤(pán)、存儲(chǔ)卡或芯片或其他固態(tài)存儲(chǔ)器。通信信道2可以是音頻系統(tǒng)的一部分,然而通常是在音頻系統(tǒng)的外部。
來(lái)自若干相繼分段的編碼數(shù)據(jù)被鏈接。這是如下完成的。對(duì)于每個(gè)分段,確定多條正弦曲線(例如,使用FFT)。正弦曲線包括頻率、幅度和相位。每個(gè)分段正弦曲線的數(shù)目是變化的。一旦確定了分段的正弦曲線,則進(jìn)行分析,以連接到前一分段中的正弦曲線。這稱(chēng)為“鏈接”或“跟蹤”。該分析基于當(dāng)前分段的正弦曲線和在前分段的所有正弦曲線之間的差別。和在前分段中具有最小差別的正弦曲線進(jìn)行鏈接/跟蹤。如果即使最小差別也大于某個(gè)閾值,則不進(jìn)行到前一分段的正弦曲線的連接。以這樣的方式,創(chuàng)建或“誕生”新的正弦曲線。
正弦曲線之間的差別使用“價(jià)格函數(shù)”來(lái)確定,該函數(shù)使用正弦曲線的頻率、幅度或相位。對(duì)于每個(gè)分段,執(zhí)行這個(gè)分析。結(jié)果是用于音頻信號(hào)的大量軌跡。軌跡具有這樣的起源(birth),其是與在前分段的正弦曲線沒(méi)有連接的正弦曲線。無(wú)差別地編碼起源正弦曲線。連接到在前分段的正弦曲線的正弦曲線被稱(chēng)為連續(xù)部分,并且它們相對(duì)于在前分段的正弦曲線有差別地進(jìn)行編碼。這節(jié)省了大量比特,因?yàn)閮H僅編碼差別而不是絕對(duì)值。
根據(jù)本發(fā)明,如果例如對(duì)于每個(gè)軌跡使用一組兩個(gè)可能的初始網(wǎng)格,則必須發(fā)送指示實(shí)際使用兩個(gè)初始網(wǎng)格之中哪一個(gè)的一個(gè)比特給解碼器。在編碼器中,檢查沿著軌跡的頻率,以確定和預(yù)定閾值相比較的頻率差別。如果該差別超過(guò)了閾值,則選擇粗的網(wǎng)格,否則選擇更細(xì)的網(wǎng)格。該頻率差可以在頻率之間的數(shù)字差或另一個(gè)不是差別的統(tǒng)計(jì)數(shù)量,諸如標(biāo)準(zhǔn)偏差。
這改進(jìn)了音頻質(zhì)量。相應(yīng)地,如果對(duì)于每個(gè)軌跡使用一組四個(gè)可能的初始網(wǎng)格,必須傳送指示使用四個(gè)初始網(wǎng)格之中哪一個(gè)的兩個(gè)比特給解碼器。通常,300比特/秒的比特率與該方法相關(guān)聯(lián),對(duì)于在[1]中所述的編碼器,操作在比特率12500比特/秒上。然而,可通過(guò)使用下面本發(fā)明的方法來(lái)降低比特率,同時(shí)保持音頻質(zhì)量。
在編碼器中,利用更精細(xì)的初始量化網(wǎng)格(例如,比用于不滿(mǎn)足下述兩個(gè)條件a)和b)的剩余軌跡的初始量化網(wǎng)格細(xì)兩倍)來(lái)編碼是如下的軌跡a)至少預(yù)定數(shù)目的幀(例如5幀)長(zhǎng),和b)在第二往上至第五幀中,最高和最低頻率之間的差值小于預(yù)定值。
優(yōu)選地,在至少具有一個(gè)至少預(yù)定數(shù)目幀(例如,5幀)長(zhǎng)的軌跡的初始化的幀中,下面的條件之一將應(yīng)用-幀內(nèi)沒(méi)有軌跡使用細(xì)的量化網(wǎng)格來(lái)編碼。在這種情況中,發(fā)送“0”到解碼器,并且無(wú)需發(fā)送進(jìn)一步的信息給解碼器;或-至少一個(gè)軌跡使用細(xì)的量化網(wǎng)格來(lái)編碼。在這種情況中,發(fā)送“1”給解碼器,并對(duì)于是至少預(yù)定數(shù)目幀(例如,5幀)長(zhǎng)的每個(gè)軌跡,指示它是使用細(xì)的還是粗的初始量化網(wǎng)格來(lái)編碼。解碼器可使用跟蹤信息來(lái)確定哪一些軌跡具有至少預(yù)定數(shù)目幀的長(zhǎng)度。
在編碼器中使用上述編碼方法,允許解碼器確定軌跡是利用細(xì)的或粗的初始量化網(wǎng)格來(lái)編碼。
當(dāng)應(yīng)用本發(fā)明的方法到[1]中所述的編碼器時(shí),在總的比特率12500比特/秒上要求大約100比特/秒。當(dāng)采用多于兩個(gè)的初始網(wǎng)格時(shí),本發(fā)明方法的比特率降低版本(100比特/秒)和常規(guī)版本(300比特/秒)之間的比特率的增益實(shí)際上能夠顯著增加。
參考文獻(xiàn)[1]Gerard Hotho and Rob Sluijter,Alow bit rate audio and speech sinusoidalcoder for narrowband signals,In Proc,1st IEEE Benelux workshop on MPCA-2002,pages 1-4,Leuven,Belgium,November 15,2002.
權(quán)利要求
1.一種編碼信號(hào)的方法,該方法包括以下步驟對(duì)于多個(gè)順序時(shí)間段中的每一個(gè),提供相應(yīng)組的抽樣信號(hào)值(x(t));分析抽樣信號(hào)值(x(t)),以便對(duì)于多個(gè)順序分段中的每一個(gè)確定一個(gè)或多個(gè)正弦分量,每個(gè)正弦分量包括頻率值(Ω)和相位值(Ψ);跨越多個(gè)順序分段,鏈接正弦分量,以提供正弦軌跡;對(duì)于多個(gè)順序分段的每一個(gè)中的每個(gè)正弦軌跡,確定預(yù)測(cè)相位值 作為至少在前分段的相位值的函數(shù);對(duì)于每個(gè)正弦軌跡,確定包括通常單調(diào)變化值的測(cè)量相位值(Ψ);對(duì)于每個(gè)軌跡,選擇軌跡內(nèi)的多條正弦曲線;對(duì)于每個(gè)軌跡,將正弦碼(Cs)量化為分段的預(yù)測(cè)相位值 和測(cè)量相位值(Ψ)的函數(shù),其中基于選擇正弦曲線的頻率來(lái)量化正弦碼(Cs);以及生成包括表示頻率和相位的正弦碼(Cs)以及鏈接信息的編碼信號(hào)(AS)。
2.根據(jù)權(quán)利要求1的方法,其中選擇預(yù)定時(shí)間段內(nèi)的兩條正弦曲線,以及基于這兩條正弦曲線之間的頻率差,量化正弦碼(Cs)。
3.根據(jù)權(quán)利要求1的方法,其中基于選擇正弦曲線的頻率的標(biāo)準(zhǔn)偏差,量化正弦碼(Cs)。
4.根據(jù)權(quán)利要求2的方法,其中在第一正弦軌跡中,第一和第二頻率值(Ω)具有第一差值,使用第一量化網(wǎng)格來(lái)量化正弦碼(Cs),以及在第二正弦軌跡中,第一和第二頻率值(Ω)具有小于第一差值的第二差值,使用比第一量化網(wǎng)格更細(xì)或等于第一量化網(wǎng)格的第二量化網(wǎng)格來(lái)量化正弦碼(Cs)。
5.根據(jù)權(quán)利要求4的方法,進(jìn)一步包括以下步驟生成表示在時(shí)間段中是否使用第二量化網(wǎng)格來(lái)量化一個(gè)或多個(gè)正弦碼(Cs)的代碼。
6.根據(jù)權(quán)利要求4的方法,其中編碼信號(hào)(AS)包括取決于第一和第二量化精度是否相等的代碼。
7.根據(jù)權(quán)利要求1的方法,其中軌跡的正弦碼(Cs)包括初始相位值和初始頻率值,以及預(yù)測(cè)步驟采用初始頻率值和初始相位值來(lái)提供第一預(yù)測(cè)。
8.根據(jù)權(quán)利要求1的方法,其中每個(gè)鏈接分段的相位值被確定為以下的函數(shù)前一分段的頻率以及鏈接分段的頻率的積分;和在前分段的相位,其中正弦分量包含范圍{-π;π}內(nèi)的相位值(Ψ)。
9.根據(jù)權(quán)利要求1的方法,其中正弦碼的量化包括確定每個(gè)預(yù)測(cè)相位值之間的相位差 以及相應(yīng)觀察的相位值(Ψ)。
10.根據(jù)權(quán)利要求6的方法,其中生成步驟包括將量化步長(zhǎng)控制為量化的正弦碼(Cs)的函數(shù)。
11.根據(jù)權(quán)利要求8的方法,其中正弦碼(Cs)包括軌跡結(jié)束的指示符。
12.根據(jù)權(quán)利要求1的方法,其中該方法進(jìn)一步包括以下步驟使用正弦碼(Cs),合成正弦分量;從抽樣信號(hào)值(x(t))中減去合成的信號(hào)值,以提供一組表示音頻信號(hào)的剩余分量的值(x3);通過(guò)確定參數(shù),模擬音頻信號(hào)的剩余分量,近似剩余分量;和在音頻流(AS)中包括這些參數(shù)。
13.根據(jù)權(quán)利要求1的方法,其中抽樣信號(hào)值(x1)表示從中已去除了瞬態(tài)分量的音頻信號(hào)。
14.一種解碼音頻流(AS’)的方法,該音頻流(AS’)包括表示頻率與相位的正弦碼(Cs)的軌跡和鏈接信息以及關(guān)于量化網(wǎng)格的信息,該方法包括以下步驟接收包括音頻流(AS’)的信號(hào);解量化正弦碼(Cs),從而獲得展開(kāi)的解量化的相位值 其中正弦碼(Cs)基于有關(guān)量化網(wǎng)格的信息被解量化;從解量化的展開(kāi)的相位值(Ψ)中,計(jì)算頻率值 以及采用解量化的頻率和相位值 來(lái)合成音頻信號(hào)(y(t))的正弦分量。
15.根據(jù)權(quán)利要求14的方法,其中有關(guān)量化網(wǎng)格的信息包括指示在一系列預(yù)定數(shù)目的時(shí)間段中是否使用除默認(rèn)量化網(wǎng)格之外的量化網(wǎng)格來(lái)量化正弦碼(Cs)的一個(gè)或多個(gè)軌跡的代碼,該方法進(jìn)一步包括使用鏈接信息來(lái)確定哪些軌跡使用除默認(rèn)量化網(wǎng)格之外的量化網(wǎng)格來(lái)量化。
16.根據(jù)權(quán)利要求14的方法,其中將每個(gè)鏈接的正弦分量的相位值確定為以下的函數(shù)在前分段的頻率和鏈接分段的頻率的積分;在前分段的相位,以及其中正弦分量包括在范圍(-π;π)內(nèi)的相位值。
17.根據(jù)權(quán)利要求14的方法,其中量化網(wǎng)格被控制為量化的正弦碼(Cs)的函數(shù)。
18.一種音頻編碼器,用于處理多個(gè)順序時(shí)間段中的每一個(gè)的相應(yīng)組的抽樣信號(hào)值,該編碼器包括分析器,用于分析抽樣信號(hào)值,以確定多個(gè)順序分段中的每一個(gè)的一個(gè)或多個(gè)正弦分量,每個(gè)正弦分量包括頻率值和相位值;鏈接器(13),用于跨越多個(gè)順序分段鏈接正弦分量,以提供正弦軌跡;相位展開(kāi)器(44),用于對(duì)于多個(gè)順序分段的每一個(gè)中的每一個(gè)正弦軌跡確定預(yù)測(cè)相位值 作為至少在前分段的相位值的函數(shù),并且用于對(duì)于每個(gè)正弦軌跡確定包括通常單調(diào)變化值的測(cè)量相位值(Ψ);量化器(50),用于將正弦碼(Cs)量化為分段的預(yù)測(cè)相位值 和測(cè)量相位值(Ψ)的函數(shù),其中基于第一時(shí)間段內(nèi)的第一頻率值(Ω)以及第二時(shí)間段內(nèi)的第二頻率值(Ω)來(lái)量化正弦碼(Cs),在一系列預(yù)定數(shù)目的時(shí)間段中選擇第一和第二時(shí)間段;和用于提供包括表示頻率和相位的正弦碼(Cs)的編碼信號(hào)(AS)的裝置(15)。
19.根據(jù)權(quán)利要求16的音頻編碼器,其中量化器(50)適于在第一正弦軌跡中,第一和第二頻率值(Ω)具有第一差值,使用第一量化網(wǎng)格來(lái)量化正弦碼(Cs),以及在第二正弦軌跡中,第一和第二頻率值(Ω)具有小于第一差值的第二差值,使用比第一量化網(wǎng)格更細(xì)或等于第一量化網(wǎng)格的第二量化網(wǎng)格來(lái)量化正弦碼(Cs)。
20.一種音頻播放器,包括用于讀取編碼的音頻信號(hào)(AS’)的裝置,其中編碼的音頻信號(hào)包括表示鏈接正弦分量的每個(gè)軌跡的頻率和相位的正弦碼(Cs)的軌跡、相位和鏈接信息以及關(guān)于量化網(wǎng)格的信息,解量化器,用于解量化正弦碼(Cs),從而獲得展開(kāi)的解量化的相位值 其中基于有關(guān)量化網(wǎng)格的信息來(lái)解量化正弦碼(Cs);并用于從解量化的展開(kāi)的相位值(Ψ)中計(jì)算頻率值 和合成器,用于采用生成的相位和頻率值 來(lái)合成音頻信號(hào)的正弦分量(y(t))。
21.一種音頻系統(tǒng),包括如權(quán)利要求16所述的音頻編碼器以及如權(quán)利要求20所述的音頻播放器。
22.一種音頻流,包括表示在音頻信號(hào)的多個(gè)順序時(shí)間段上鏈接的正弦分量的軌跡的正弦碼(Cs),這些碼表示預(yù)測(cè)相位值作為至少在前分段的相位值的函數(shù),測(cè)量的相位值包括通常單調(diào)變化值,正弦碼(Cs)被量化為分段的預(yù)測(cè)相位值 和測(cè)量相位值(Ψ)的函數(shù),其中根據(jù)分段的預(yù)測(cè)相位值 和測(cè)量相位值(Ψ)來(lái)量化正弦碼(Cs),其中基于第一時(shí)間段內(nèi)的第一頻率值(Ω)以及第二時(shí)間段內(nèi)的第二頻率值(Ω)來(lái)量化正弦碼(Cs),第一和第二時(shí)間段是在一系列預(yù)定數(shù)目的時(shí)間段中選擇的。
23.一種存儲(chǔ)媒體,在其上面存儲(chǔ)著如權(quán)利要求20所述的音頻流。
全文摘要
在正弦音頻編碼器中,每個(gè)音頻分段估計(jì)多條正弦曲線。利用頻率、幅度和相位來(lái)表示正弦曲線。本發(fā)明使用軌跡相關(guān)的相位量化。使用從一組可能的初始網(wǎng)格中選擇的適當(dāng)?shù)某跏?例如,頻率相關(guān)的)量化網(wǎng)格來(lái)編碼軌跡,這些可能的初始網(wǎng)格可以從細(xì)到粗改變。如果在一系列的時(shí)間段中,特定軌跡內(nèi)的頻率變化小于預(yù)定值,則使用更細(xì)的量化網(wǎng)格來(lái)量化該軌跡。本發(fā)明顯著改進(jìn)了解碼的信號(hào)質(zhì)量,特別是對(duì)于低比特率量化器。
文檔編號(hào)G10L19/093GK1846253SQ200480025493
公開(kāi)日2006年10月11日 申請(qǐng)日期2004年8月25日 優(yōu)先權(quán)日2003年9月5日
發(fā)明者G·H·霍托, A·J·格里特斯 申請(qǐng)人:皇家飛利浦電子股份有限公司