專利名稱:合成分析語音編碼器中用于進行語音編碼的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及語音和音頻信號編碼,更具體地說,涉及合成分析編解碼器中的一種改進激勵建模過程。
語音和音頻編碼算法在無線通信、多媒體和語音存儲系統(tǒng)中得到廣泛的應用。既節(jié)省傳輸和存儲容量,又使合成信號的質(zhì)量保持在高水平上,這種需求推動了編碼算法的發(fā)展。這些要求經(jīng)常互相茅盾,因此通常必須在容量和質(zhì)量之間折衷。在電信系統(tǒng)中采用語音編碼尤其重要,這是因為在頻譜資源相對有限的環(huán)境中傳送全部語音頻譜可能需要大量帶寬。因此通過采用語音編碼和解碼來使用信號壓縮技術(shù),這對以低比特率來進行高效的語音傳送是絕對必要的。
圖1顯示了一種用于傳送和/或存儲數(shù)字音頻信號以便隨后在輸出端進行再現(xiàn)的例示過程。將語音信號y(k)輸入編碼器100以便將該信號編碼成原信號的編碼數(shù)字表示。將所得的比特流發(fā)送到通信信道(例如無線信道)或存儲媒體110如固態(tài)存儲器、磁或光存儲媒體中。該比特流從信道/存儲媒體110輸入到解碼器120中,由解碼器120對其進行解碼,以便以輸出信號 的形式再現(xiàn)原信號y(k)。
語音編碼算法和系統(tǒng)可以根據(jù)所用標準按不同方式來分類。一種對它們進行分類的方式是將其劃分成波形編解碼器、參數(shù)編解碼器和混合編解碼器。顧名思義,波形編解碼器試圖盡可能精確地保持正被編碼的波形而不必太注意語音信號的特征。波形編解碼器還具有相對簡單且通常在嘈雜環(huán)境中性能好的優(yōu)點。但是,它們一般需要較高比特率來產(chǎn)生高質(zhì)量的語音?;旌暇幋a器組合利用波形和參數(shù)技術(shù),即它們通常采用參數(shù)方法來建模,例如用LPC濾波器來對聲帶建模。然后采用被分類為波形編碼的方法對該濾波器的輸入信號進行編碼。目前,廣泛采用混合編解碼器以范圍在8-12千比特/秒之間的比特率來產(chǎn)生接近無線線路的語音質(zhì)量。
在許多目前的混合編解碼器中,所傳送的參數(shù)采用合成分析(AbS)方法來加以確定,這種方法使對應于每個可能參數(shù)值的重建語音信號和源信號之間的所選擇的失真判據(jù)最小。因此將這些編解碼器稱為AbS語音編解碼器。作為示例,在典型的AbS編解碼器中,從碼書中提取候選激勵信號,并由LPC濾波器進行濾波,在該LPC濾波器中,計算濾波信號和輸入信號之間的誤差,以便選擇提供最小誤差的激勵。
在典型的AbS語音編解碼器中,輸入語音信號按幀進行處理。通常,幀長度為10-30毫秒,也可利用后續(xù)幀的5-15毫秒的預測段。在每一幀中,由編碼器來確定語音信號的參數(shù)化表示。這些參數(shù)經(jīng)過量化,以數(shù)字形式通過通信信道傳送或存儲在存儲媒體中。在接收端,解碼器根據(jù)接收的參數(shù)形成表示原信號的合成語音信號。
合成分析語音編解碼器的一種重要類型是編碼激勵線性預測(CELP)語音編解碼器,這種語音編解碼器廣泛用于許多無線數(shù)字通信系統(tǒng)。CELP是高效的閉環(huán)合成分析編碼方法,已經(jīng)證明,這種編碼方法對范圍在4-16千比特/秒的低比特率系統(tǒng)非常有效。在CELP編解碼器中,將語音分段成若干幀(例如10-30毫秒幀),以便確定最佳線性預測和基頻濾波參數(shù)組并按幀進行量化。進一步將各語音幀劃分成一定數(shù)量的子幀(如5毫秒幀),其中,針對每個子幀,搜索激勵碼書以得到最佳再現(xiàn)原語音信號的量化預測系統(tǒng)的輸入向量。
多數(shù)AbS編解碼器基本的基礎(chǔ)結(jié)構(gòu)非常相似。通常它們采用一類線性預測編碼(LPC)技術(shù),例如時變基頻預測器和LPC濾波器的級聯(lián)。全極點的LPC濾波器表示為1A(q,s)=11+a1(s)q-1+a2(s)q-2+...+ana(s)q-na,----(1)]]>其中,q-1是單位延遲算子,s是子幀索引,此濾波器用于對語音信號的短時頻譜包絡建模。LPC濾波器的階na通常為8-12。如下形式的基頻預測器1B(q,s)=11-b(s)q-τ(s)----(2)]]>利用語音的基頻周期性來對語音信號頻譜的精細結(jié)構(gòu)建模。通常增益b(s)局限于間隔為
的樣點,基頻滯后τ(s)局限于間隔為[20,140]的樣點。(假定采樣頻率為8000赫茲)?;l預測器也叫做長期預測(LTP)濾波器。
圖2顯示一種示范性AbS語音編碼器簡化功能框圖。激勵信號uc(k)由激勵發(fā)生器200來產(chǎn)生。激勵發(fā)生器200通常稱為激勵碼書,其中,將信號與增益g(s)205相乘以形成級聯(lián)濾波器225的輸入信號。由延遲q-τ(s)215和增益b(s)210構(gòu)成的反饋環(huán)路表示LTP濾波器。LTP濾波器對信號的周期性(這種周期性尤其與濁音相關(guān))建模,其中,將之前的周期性語音用作當前子幀中語音的近似,并采用固定的激勵如代數(shù)碼書來對誤差進行編碼。級聯(lián)濾波器225的輸出信號是合成語音信號 在此編碼器中,通過從原語音信號y(k)中減去該合成語音 從而計算得到誤差信號e(k)。誤差最小化過程235用于選擇由激勵發(fā)生器200所提供的最佳激勵信號。通常,在所述誤差最小化過程之前應用感覺加權(quán)濾波器,以便設(shè)計所述誤差信號的頻譜形狀,使得誤差信號不大聽得到。
盡管AbS語音編解碼器通常以低比特率提供很好的性能,但它們通常需要較多計算。另一特征就是,在低比特率條件下,例如比特率低于4千比特/秒時,要與原語音信號波形匹配成為進一步提高編碼效率的苛刻約束。這一般地適用于對包括濁音、清音和爆破音的語音的編碼。盡管已經(jīng)提出了若干用于改進對濁音建模的解決方案,但至今尚未在對非平穩(wěn)語音如爆破音建模方面取得實質(zhì)性的改進。正如本專業(yè)的技術(shù)人員所知,爆破音和濁音往往是突發(fā)性的,例如在諸如/p/、/k/和/t/的閉塞輔音中。這些語音波形尤其難于在現(xiàn)有技術(shù)的低比特率AbS編解碼器中加以精確地建模,原因在于由于缺少對原激勵作精確建模的比特,故在原信號和編碼激勵信號之間存在明顯的失配。總體波形形狀的差異因參數(shù)估計方法而使得編碼激勵的能量比理想激勵的能量小得多。這經(jīng)常導致在較低能級上聽起來不自然的合成語音。
圖3說明當采用具有較高脈沖群體密度的碼書(碼書1),即脈沖位置較密的網(wǎng)格時CELP編解碼器所得的合成激勵。其中還顯示了當采用具有較低脈沖群體密度的碼書(碼書2)時所得的合成激勵。在上部圖A中,顯示了聲音/p/的理想激勵。在兩個碼書中,對40個樣點的子幀采用了兩個正脈沖或負脈沖。各碼書的例示脈沖位置和移位分別示于表1和表2中。從底部圖C中可以看出,用表2的碼書建立的激勵信號具有比理想激勵(參見上部圖)低得多的能級,這是因為可能的脈沖位置與理想激勵中的脈沖位置匹配不好。相反,當利用碼書1時,能量明顯較高,因為脈沖位置與理想激勵的非常匹配,如中間的圖B所示。對這兩個碼書而言,每一子幀僅采用了一個脈沖增益,且未采用自適應碼書。
表1
表2上述合成激勵之間相應的能量差異在采用具有較少脈沖位置的碼書時非常明顯,這樣,較低能量導致不令人滿意且?guī)缀趼牪坏降穆曇?。鑒于以上所述,所以需要一種改進的方法,使得AbS語音編解碼器能夠在包含非平穩(wěn)語音的語音信號中更精確地產(chǎn)生高質(zhì)量的語音。
已經(jīng)作了簡要說明,根據(jù)本發(fā)明的實施例和相關(guān)特征,本發(fā)明的方法方面提供了一種對語音信號進行編碼的方法,其特征在于在編碼器中采用具有第一位置網(wǎng)格的第一激勵碼書和具有第二位置網(wǎng)格的第二激勵碼書來對語音信號進行編碼,以產(chǎn)生編碼的激勵信號,其中,所述第一位置網(wǎng)格包含高于所述第二位置網(wǎng)格的脈沖位置群體密度。
在本發(fā)明的另一方法方面中,提供了一種將語音信號從發(fā)送端傳送到接收端的方法,所述方法包括如下這些步驟在發(fā)送端用編碼器對語音激勵信號進行編碼;將該編碼激勵信號傳送到接收端;以及用解碼器對該編碼激勵信號進行解碼以在接收端產(chǎn)生合成語音;其中,所述方法的特征在于在編碼器中利用具有第一位置網(wǎng)格的第一激勵碼書和具有第二位置網(wǎng)格的激勵碼書對語音激勵信號進行編碼,以產(chǎn)生編碼激勵信號,此編碼激勵信號在解碼器中利用第二激勵碼書進行解碼,其中,所述第一位置網(wǎng)格包含高于所述第二位置網(wǎng)格的脈沖位置群體密度。
在本發(fā)明的裝置方面,提供了一種用于對語音信號進行編碼的編碼器,其特征在于所述編碼器包括用于對語音信號進行編碼的第一激勵碼書和第二激勵碼書,其中,述第一激勵碼書包含高于所述第二激勵碼書的脈沖位置群體密度。
在本發(fā)明的另一裝置方面,提供了一種包括用于對語音信號進行解碼和編碼的語音編解碼器的裝置,所述裝置的特征在于所述裝置還包括用于編碼器的第一脈沖碼書和用于解碼器的第二脈沖碼書,其中,所述第一碼書包含高于所述第二碼書的脈沖位置群體密度。
本發(fā)明及其其它目的和優(yōu)點可以通過參照如下說明,并結(jié)合附圖而獲得最佳的理解,附圖中圖1顯示了數(shù)字音頻信號的示范性傳送和/或存儲;圖2顯示了示范性合成分析(AbS)語音編碼器的簡化功能框圖;圖3顯示了用具有不同數(shù)量的脈沖位置的碼書來生成的激勵信號中的能含量的差異;圖4顯示了示范性AbS編碼過程的示意圖;圖5顯示了本發(fā)明的實施例所建模的理想激勵信號;圖6說明示范性理想激勵信號的示范性“峰”值輪廓(contour);圖7顯示了相位擴散濾波(phase dispersion filtering)對編碼激勵信號的影響;圖8說明利用了本發(fā)明的語音編解碼器的示范性裝置;以及圖9顯示了包含本發(fā)明的編解碼器的示范性移動終端的基本功能框圖。
如前述部分所述,對現(xiàn)有技術(shù)的AbS語音編解碼器而言,通常難于精確地對包含爆破音或清音的語音段建模。高質(zhì)量的語音可以憑借對語音信號的更好的理解和有關(guān)人類感知特性的豐富知識來獲得。例如,人們已知某些類型的編碼失真因被信號掩蔽掉而不可感知,利用這一特點并結(jié)合信號冗余,就可以低比特率獲得改善的語音質(zhì)量。
圖4顯示示范性AbS編碼過程的示意圖。應注意,對每個子幀不一定要執(zhí)行所有功能部件。舉一示例如下在IS-641語音編解碼器中,將每一幀劃分成例如四個子幀,每幀確定LPC濾波參數(shù)一次;每幀確定開環(huán)滯后兩次;而每幀確定閉環(huán)滯后、LTP增益、激勵信號及其增益四次。對IS-641編解碼器的更為詳盡的討論參見TIA/EIAIS-641-A(“TDMA蜂窩/PCS-無線接口、增強全速率語音編碼器、修訂版A”)。
在塊410中,根據(jù)輸入語音信號確定LPC濾波器的系數(shù)。通常,對語音信號作加窗處理,將其分成若干分段,并利用例如Levinson-Durbin算法確定LPC濾波器系數(shù)。應注意,術(shù)語語音信號指從聲音信號(如語音或音樂)中獲取的任何類型的信號,所述聲音信號可以是語音信號本身或數(shù)字化信號、殘余信號(residual signal)等。在許多編解碼器中,通常為每一子幀確定LPC系數(shù)。在這種情況下,可以為中間子幀內(nèi)插系數(shù)。在塊420中,用A(q,s)來對輸入語音濾波,以得到LPC殘余信號。隨后將LPC殘余信號饋送通過LPC濾波器1/A(q,s),以重建原語音信號。因此有時也將其稱為理想激勵。
在塊430中,通過求出使語音或LPC殘余信號的自相關(guān)值最高的延遲值來確定開環(huán)滯后。在塊440中,通過從語音信號中減去LPC濾波器的零輸入響應來計算用于閉環(huán)滯后搜索的目標信號x(k)。這樣做是為了將LPC濾波器的初始狀態(tài)的影響納入考慮,以便平滑地形成信號。在塊450中,通過使目標信號和合成語音信號之間的誤差平均平方和最小,這樣來搜索閉環(huán)滯后和增益。搜索閉環(huán)滯后是圍繞開環(huán)滯后值來進行的。例如,開環(huán)滯后值是不用AbS來搜索的估計值,而是圍繞該值來搜索閉環(huán)滯后。通常,將整數(shù)精度用于開環(huán)滯后搜索,而可將分數(shù)精度用于閉環(huán)滯后搜索。詳細說明可以在例如前面提到的IS-641規(guī)范中找到。
在塊460中,通過從閉環(huán)滯后搜索的目標信號中減去LTP濾波器的貢獻量(contribution),從而計算激勵搜索的目標信號x2(k)。然后在塊470中通過使目標信號和合成語音信號之間的誤差平方和最小來搜索激勵信號及其增益。通常,在這一級采用一些啟發(fā)式規(guī)則來避免對碼書作窮舉式搜索以得到所有可能的激勵信號,從而減少搜索時間。在塊480中,對編碼器中的濾波狀態(tài)進行更新,以使它們與解碼器中的濾波狀態(tài)保持一致。應注意,編碼過程還包括對要傳送的參數(shù)進行量化,這里為簡化起見已省略了對此的討論。
在現(xiàn)有技術(shù)中,通過使目標信號和合成語音信號之間的誤差平方和最小來搜索最佳激勵序列和LTP增益以及激勵序列,J(g(s),uc(s))=||x2(s)-x^2(s)||2=||x2(s)-g(s)H(s)uc(s)||2,----(3)]]>其中,x2(s)是搜索范圍中的由x2(k)個樣點構(gòu)成的目標向量, 是對應的合成信號,uc(s)是圖2和圖3中所示的激勵向量。H(s)是LPC濾波器的脈沖響應矩陣,而g(s)是增益。最佳增益可以通過將成本函數(shù)對增益的偏導數(shù)設(shè)為零而得到g(s)=x2(s)TH(s)uc(s)uc(s)TH(s)TH(s)uc(s).----(4)]]>其中,通過將(4)代入(3)就得到下式J(uc(s))=x2(s)Tx2(s)-(x2(s)TH(s)uc(s))2uc(s)TH(s)TH(s)uc(s).----(5)]]>通常通過使等式(5)的后面一項最大來搜索最佳激勵,可以在搜索該激勵之前計算x2(s)TH(s)TH(s)。
在本發(fā)明中,介紹了一種在合成分析編解碼器中于非平穩(wěn)語音段期間進行激勵建模的方法。所述方法利用了聲感覺特性,即利用了人類耳朵對語音信號中的精確相位信息不敏感的特性,由此放寬了對編碼激勵信號的波形匹配約束。最好將此特性應用于非平穩(wěn)語音或清音中。此外,對編碼激勵引入自適應相位擴散,以便有效地保持重要的相關(guān)信號特征。
在本發(fā)明的實施例中,在固定碼書激勵生成過程中放寬了波形匹配約束條件。在此實施例中,采用了兩個脈沖位置碼書;碼書1和碼書2用于導出傳送的激勵及其增益。只有第一脈沖位置碼書用于編碼器中,且該碼書包含密集位置網(wǎng)格(或腳本(script))。第二碼書較為稀疏并包括傳送的脈沖位置,它同時用于編碼器和解碼器中。所傳送的激勵信號連同相應的增益可以用如下方式來獲得。首先,利用碼書1來搜索最佳激勵信號及其增益。由于碼書1具有相對密集的網(wǎng)格,故有效地保持了理想激勵信號的形狀和能量。其次,通過例如從碼書2中找到與從第1個碼書中找到的第i個相同脈沖的位置最接近的位置,從而將找到的脈沖位置量化到碼書2中的可能位置。因此,可以通過例如對下式求極小值來導出第i個脈沖的量化脈沖位置Q(xi,1)d(xi,1,Q(xi,1))=minyij,2∈Ci,2|xi,1-yij,2|,----(6)]]>其中xi,1是第一碼書1的第i個脈沖的位置,Ci,2包含碼書2中第i個脈沖的可能脈沖位置。將利用碼書1獲得的增益值傳送給解碼器。應注意,雖然在本說明書中引用了術(shù)語脈沖和脈沖位置,但例如也可采用其它類型的表示(如樣點、波形、小波)來標記碼書中的位置或表示編碼信號中的脈沖。應注意,雖然以上引用了脈沖和脈沖位置,但例如也可采用其它類型的表示(如波形、小波)來標記碼書中的位置或表示編碼信號中的脈沖。
圖5顯示分別由利用了根據(jù)表1和表2的碼書1和碼書2的本發(fā)明的實施例來建模的圖3的理想激勵。從圖中可以看出,利用碼書1和碼書2的組合比現(xiàn)有技術(shù)中僅利用一個碼書更有效地保持了理想激勵的能量和形狀。在這兩種情況中,比特率均保持相同。
另一重要方面是編碼激勵信號的能量擴散。為了模仿理想激勵的能量擴散,對編碼激勵信號引入了自適應濾波機制。存在若干濾波方法可以配合本發(fā)明使用。在本實施例中,采用了這樣的濾波方法,其中,期望的擴散是通過使編碼激勵信號的適當?shù)南辔环至侩S機化而得以實現(xiàn)的。有關(guān)此濾波機制的更為詳細的討論,感興趣的讀者可以參考R.Hagen、E.Ekudden以及B.Johansson和W.B.Kleijn的“消除CELP中的稀疏激勵非自然信號(artifact)”(Proceedings ofIEEE International Conference on Acoustics,Speech,and SignalProcessing,Seattle,May 1998.)在所述濾波方法中,定義了閾頻率,大于該閾頻率時,就將相位分量隨機化,而小于該閾頻率時,相位分量保持不變。已經(jīng)觀測到,僅在解碼器中對編碼信號執(zhí)行相位擴散就已取得了高質(zhì)量信號。在本實施例中,引入了閾頻率的自適應方法,以控制擴散量。閾頻率可從理想激勵信號的“峰”值導出,其中,所述“峰”值定義了幀內(nèi)的能量擴散。通常針對理想激勵r(n)定義的“峰”值P如下式給出P=1/NΣn=0N-1r2(n+1)1/NΣn=0N-1|r(n+1)|,----(7)]]>其中,N是幀長度,根據(jù)幀長度可計算“峰”值,r(n)是理想激勵信號。
圖6說明示范性激勵信號的示范性“峰”值輪廓。上部圖A顯示了理想的激勵信號,而底部圖B顯示了用80個樣點的幀,利用等式(7)來生成的相應的“峰”值輪廓。從圖中可以看出,所得的值很好地表示了信號峰值特征并與理想激勵的一般峰值活動(peakactivity)很好地關(guān)聯(lián),因為已知明顯的峰值活動表示爆破音。
在本實施例中,對編碼激勵引入了自適應相位擴散,以便更好地保持理想激勵的能量擴散。編碼語音信號的能量包絡的總體形狀對于聽起來自然的合成語音是重要的。由于人類的感覺特性,已知例如在爆破音期間,對于高質(zhì)量的語音編碼,精確定位信號峰位置或精確表示頻譜包絡并不是至關(guān)重要的。
自適應閾頻率在本發(fā)明中定義為“峰”值函數(shù),大于自適應閾頻率時將相位信息隨機化,這種。應注意,可以采用幾種方法來定義這種關(guān)系。一個但決不意味著唯一的示例是可以定義如下的分段線性函數(shù)dispthr=απ,P<Plowαπ+(P-Plow)(π-απ)/(Phigh-Plow),Plow≤P≤Phigh,π,P>Phigh----(8)]]>其中α∈
確定閾頻率的下界,低于閾頻率下界擴散就保持恒定,而Plow和Phigh確定“峰”值范圍,在該“峰”值范圍之外閾頻率保持恒定。
圖7顯示相位擴散濾波對編碼激勵信號的影響。除爆破音/p/、/t/和/k/以外,圖6所示的理想激勵信號是用IS-641編解碼器來建模的,其中,配合采用兩個固定碼書的所述方法,每40個樣點用一個增益值。這里應注意,在爆破音期間忽略LTP信息的影響。在上圖A中,引入了未經(jīng)相位擴散而獲得的編碼激勵。下圖B顯示使用參數(shù)值Plow=1.5,Phigh=3和α=0.5的相位擴散激勵。為了能夠使用所述相位擴散方法,必須將有關(guān)閾頻率的信息從編碼端發(fā)送給解碼器。在解碼器中,使用未擴散或已擴散激勵信號來更新所需存儲器。由于采用了自適應濾波的創(chuàng)新技術(shù),使得合成語音非常自然,這從圖7的B圖中可以看出。
圖8說明示范性地將本發(fā)明的語音編解碼器810應用于諸如移動終端之類的裝置800中。此外,裝置800還可以表示實現(xiàn)了本發(fā)明澈語音編解碼器810的網(wǎng)絡無線基站或語音存儲器或者語音傳信裝置圖9顯示了包含本發(fā)明的語音編解碼器的示范性移動終端的基本功能框圖。在傳送過程中,用麥克風900來接收用戶發(fā)出的語音信號并在A/D(模數(shù))轉(zhuǎn)換器905中采樣。然后在根據(jù)本發(fā)明的實施例的語音編碼器910中對數(shù)字化的語音信號進行編碼。在塊915中對編碼信號執(zhí)行基頻信號處理以提供適當?shù)男诺谰幋a。然后將信道編碼信號轉(zhuǎn)換為射頻信號并通過雙工濾波器925從發(fā)射機920發(fā)射該射頻信號。雙工濾波器925允許在發(fā)射和接收射頻信號時均使用天線930。接收到的射頻信號由接收支路935進行處理,其中,由根據(jù)本發(fā)明實施例的解碼器940對它們進行解碼。解碼的語音信號通過D/A(數(shù)模)轉(zhuǎn)換器945發(fā)送,目的是先轉(zhuǎn)換為模擬信號,再發(fā)送到揚聲器950以再現(xiàn)合成語音。
本發(fā)明旨在提供一種既提高AbS編解碼器中的編碼語音質(zhì)量,又不會增加比特率的技術(shù)。這是通過放寬對非平穩(wěn)(爆破音)語音信號或清音語音信號的波形匹配約束條件而得以實現(xiàn)的,所述這些語音信號處于精確的基頻信息通常在感知上對聽者而言不重要的位置上。應注意,本發(fā)明不限于所述的用于檢測爆破音的“峰”值方法,還可以成功地采用任何其它合適的方法。作為例子,可以采用測量本地信號質(zhì)量如變化率或能量的技術(shù)。此外,還可以采用利用了標準偏差或相關(guān)性的技術(shù)來檢測爆破音。
盡管本發(fā)明已參照其具體的實施例作了說明,但對本專業(yè)的技術(shù)人員來說,顯然可以進行各種變化和修改。具體地說,本發(fā)明概念不限應用于語音信號,而是可應用于例如音樂和其它類型的可聽聲音。因此意圖在于,不應對如下權(quán)利要求書作限制性的解釋,而是應該將其視為包括可從所公開的發(fā)明主題導出的各種變化和修改。
權(quán)利要求
1.一種用于對語音信號進行編碼的方法,其特征在于在編碼器中采用具有第一位置網(wǎng)格的第一激勵碼書和具有第二位置網(wǎng)格的第二激勵碼書來對所述語音信號進行編碼,以產(chǎn)生編碼的激勵信號,其中,所述第一位置網(wǎng)格包含高于所述第二位置網(wǎng)格的脈沖位置群體密度。
2.如權(quán)利要求1所述的方法,其特征在于所述方法由低比特率合成分析語音(AbS)編解碼器來實現(xiàn)。
3.如權(quán)利要求1所述的方法,其特征在于所述編碼包括如下步驟利用所述第一激勵碼書來獲得脈沖序列,其中,所述脈沖序列包括位于根據(jù)所述第一激勵碼書的第一組位置上的多個脈沖;以及使所述第一組位置的脈沖位置移位以獲得根據(jù)所述第二激勵碼書的第二組位置。
4.如權(quán)利要求1所述的方法,其特征在于所述方法應用于所述語音信號的非平穩(wěn)語音段。
5.如權(quán)利要求1所述的方法,其特征在于所述方法最好應用于通過監(jiān)測通常表示非平穩(wěn)語音的“峰”值等級而加以確定的語音信號的非平穩(wěn)語音段。
6.如前述權(quán)利要求中任意一項所述的方法,其特征在于所述第一激勵碼書的群體密度大約為所述第二激勵碼書的5至10倍。
7.如前述權(quán)利要求中任意一項所述的方法,其特征在于所述“峰”值用于計算后續(xù)相位隨機化的擴散值。
8一種將語音信號從發(fā)送端傳送到接收端的方法,包括如下這些步驟在所述發(fā)送端用編碼器對語音激勵信號進行編碼;將所述編碼激勵信號傳送到所述接收端;以及用解碼器對所述編碼激勵信號進行解碼以在所述接收端產(chǎn)生合成語音;其中,所述方法的特征在于在所述編碼器中利用具有第一位置網(wǎng)格的第一激勵碼書和具有第二位置網(wǎng)格的激勵碼書對所述語音激勵信號進行編碼,以產(chǎn)生編碼激勵信號,此編碼激勵信號在所述解碼器中利用所述第二激勵碼書進行解碼,其中,所述第一位置網(wǎng)格包含高于所述第二位置網(wǎng)格的脈沖位置群體密度。
9.如權(quán)利要求8所述的方法,其特征在于所述方法由低比特率合成分析(AbS)語音編碼器來執(zhí)行。
10.如權(quán)利要求8所述的方法,其特征在于所述方法應用于所述語音信號的非平穩(wěn)語音段。
11.如權(quán)利要求8所述的方法,其特征在于所述方法最好應用于通過監(jiān)測通常表示非平穩(wěn)語音的“峰”值等級而加以確定的語音信號的非平穩(wěn)語音段。
12.如權(quán)利要求8所述的方法,其特征在于將所述“峰”值或擴散信息從所述編碼器傳送到所述解碼器以便用于所述解碼信號的相位隨機化。
13.如前述權(quán)利要求8所述的方法,其特征在于所述第一激勵碼書的群體密度大約為所述第二激勵碼書的5至10倍。
14.如權(quán)利要求11或12所述的方法,其特征在于所述“峰”值用于計算所述解碼信號的后續(xù)相位隨機化的擴散值。
15.一種用于對語音信號進行編碼的編碼器,其特征在于所述編碼器包括用于對所述語音信號進行編碼的第一激勵碼書和第二激勵碼書,其中,所述第一激勵碼書包含高于所述第二激勵碼書的脈沖位置群體密度。
16.如權(quán)利要求15所述的方法,特征在于所述編碼器包含在低比特率合成分析(AbS)語音編碼器中。
17.如權(quán)利要求15所述的編碼器,其特征在于所述編碼器還包括利用所述第一激勵碼書獲得脈沖序列的部件,其中,所述脈沖序列包括位于根據(jù)所述第一激勵碼書的第一組位置上的多個脈沖;以及使所述第一組位置的脈沖位置移位以獲得根據(jù)所述第二激勵碼書的第二組位置的部件。
18.如權(quán)利要求15所述的編碼器,其特征在于所述編碼器包括用于檢測所述語音信號中非平穩(wěn)段的部件。
19.如權(quán)利要求15所述的編碼器,其特征在于所述編碼器包括用于計算所述語音信號段的“峰”值的部件。
20.如權(quán)利要求19所述的編碼器,其特征在于所述編碼器包括用于根據(jù)所述“峰”值計算后續(xù)相位隨機化的擴散值的部件。
21.一種包括用于對語音信號進行編碼和解碼的語音編解碼器的裝置,所述裝置的特征在于所述裝置還包括用于所述編碼器的第一脈沖碼書和用于所述解碼器的第二脈沖碼書,其中,所述第一碼書包含高于所述第二碼書的脈沖位置群體密度。
22.如權(quán)利要求21所述的裝置,其特征在于所述裝置包括用于檢測所述語音信號中非平穩(wěn)段的部件。
23.如權(quán)利要求21所述的裝置,其特征在于所述裝置還包括利用所述第一激勵碼書來獲得脈沖序列的部件,其中,所述脈沖序列包括位于根據(jù)所述第一激勵碼書的第一組位置上的多個脈沖;以及使所述第一組位置的脈沖位置移位以獲得根據(jù)所述第二激勵碼書的第二組位置的部件。
24.如權(quán)利要求21所述的裝置,其特征在于所述裝置是移動終端。
25.如權(quán)利要求21所述的裝置,其特征在于所述裝置是無線基站。
26.如權(quán)利要求21所述的裝置,其特征在于所述裝置是語音存儲器或語音通信裝置。
全文摘要
本發(fā)明公開了一種提高低比特率合成分析(AbS)語音編解碼器中編碼語音質(zhì)量的方法。在本發(fā)明實施例中,此目的是這樣來取得的通過適當?shù)厥咕幋a激勵信號的脈沖位置移位,從而放寬語音信號的非平穩(wěn)爆破語音段的波形匹配的約束條件。通過所述移位得到這樣的編碼信號該編碼信號的相位信息未精確匹配處于感知上對聽者不重要的位置上的原信號。此外,對編碼激勵信號引入了一種自適應相位擴散技術(shù),以便有效地保持信號特征如原信號的能量擴展度。
文檔編號G10L19/10GK1650156SQ02812450
公開日2005年8月3日 申請日期2002年6月5日 優(yōu)先權(quán)日2001年6月21日
發(fā)明者A·P·?;鶎?申請人:諾基亞有限公司