用于語音解碼器中幀差錯隱藏的改善的譜參數(shù)代替的制作方法

文檔序號：2823859閱讀：245來源：國知局

專利名稱：用于語音解碼器中幀差錯隱藏的改善的譜參數(shù)代替的制作方法
技術領域：
本發(fā)明涉及語音解碼器，更具體地說，涉及用于處理語音解碼器接收的壞幀的方法。
背景技術：
在數(shù)字蜂窩系統(tǒng)中，比特流被說成要通過將移動臺連接至基站的通信信道經(jīng)空中接口發(fā)送。比特流被組織成幀、包括語音幀。傳輸期間是否出現(xiàn)錯誤取決于主要的信道條件。檢測到包含錯誤的語音幀簡稱為壞幀。根據(jù)先有技術，在出現(xiàn)壞幀時，從以前的正確參數(shù)(無錯誤語音幀)導出的語音參數(shù)可代替壞幀的語音參數(shù)。通過進行此類代替來處理壞幀的目的是隱藏錯誤語音幀的損壞的語音參數(shù)，而不引起語音質量明顯下降。
新式語音編解碼器通過處理短段、即上述幀中的語音信號來工作。語音編解碼器的幀長度一般為20ms，在假定8kHz的抽樣頻率時，它對應160個語音樣值。在所謂的寬帶編解碼器中，幀長度可仍為20ms，但假定16kHz的抽樣頻率時，它可對應于320個語音樣值。幀可進一步分為多個子幀。
對于每一幀，編碼器確定輸入信號的參數(shù)表示。參數(shù)被量化，然后通過通信信道以數(shù)字形式發(fā)送。解碼器根據(jù)收到的參數(shù)產(chǎn)生合成語音信號(見

圖1)。
一般提取的編碼參數(shù)組包括用于短期預測的譜參數(shù)(所謂的線性預測編碼參數(shù)或LPC參數(shù))、用于信號長期預測的參數(shù)(所謂的長期預測參數(shù)或LTP參數(shù))、各種增益參數(shù)以及最后的激勵參數(shù)。
所謂的線性預測編碼是一種用于將語音編碼以便經(jīng)通信信道傳輸?shù)膹V泛使用的有效方法；它表示聲道的頻率整形屬性。LPC參數(shù)化表征短段語音的譜形狀。LPC參數(shù)可表示為LSF(線譜頻率)或者等價的ISP(導抗譜對)。ISP是通過將反濾波器傳遞函數(shù)A(z)分解為一組的一個偶對稱而另一個奇對稱的兩個傳遞函數(shù)而獲得的。ISP也稱為導抗譜頻率(ISF)，是z-單位圓上的這些多項式根。線譜對(也稱為線譜頻率)可用與導抗譜對相同的方法來定義；這些表示之間的差異在于變換算法，它將LP濾波器系數(shù)轉換為另一種LPC參數(shù)表示(LSP或ISP)。
有時，發(fā)送編碼語音參數(shù)所經(jīng)過的通信信道的條件不良，導致比特流中出現(xiàn)錯誤，即，導致幀差錯(并因此導致壞幀)。有兩種幀差錯丟失幀和損壞幀。在損壞幀中，只有一部分描述特定語音段(一般為20ms持續(xù)時間)的參數(shù)損壞。在幀差錯的丟失幀類型中，幀已完全損壞或者根本未收到。
在用于傳遞語音的基于分組的傳輸系統(tǒng)(在此系統(tǒng)中，幀通常作為單個分組傳送)中，比如有時由普通因特網(wǎng)連接提供的系統(tǒng)中，可能存在數(shù)據(jù)分組(或幀)從不到達預定接收機的情況，或者數(shù)據(jù)分組(或幀)太遲到達，以致由于說出的語音的實時性而無法使用它。這種幀稱為丟失幀。在此情況下，損壞幀是確實到達(通常在單個分組內(nèi))接收機的幀，但它包含一些例如由循環(huán)冗余校驗(CRC)指示的錯誤參數(shù)。這是通常在電路交換連接中的情況，如全球移動通信系統(tǒng)(GSM)連接的系統(tǒng)中的連接，其中，損壞幀的誤碼率(BER)通常低于5％。
因此可以看出，對于壞幀的兩種情況(損壞幀和丟失幀)，對出現(xiàn)壞幀的最佳校正響應是不同的。因為在損壞幀的情況下，存在關于參數(shù)的不可靠信息，而在丟失幀的情況下，沒有可用信息，所以有不同的響應。
根據(jù)先有技術，在收到的語音幀中檢測到錯誤時，則開始代替和靜噪過程；雖然利用了錯誤幀中諸如碼激勵線性預測參數(shù)(CELP)或更簡單的激勵參數(shù)之類的最不重要參數(shù)，但是壞幀的語音參數(shù)被替換為前一好幀的衰減或修改值。
在根據(jù)先有技術的一些方法中，(在接收機中)使用了稱為參數(shù)歷史的緩沖器，其中存儲了最后無差錯接收的語音參數(shù)。當無差錯地收到幀時，參數(shù)歷史被更新并且該幀傳送的語音參數(shù)被用于解碼。通過CRC校驗或一些其它檢錯方法檢測到壞幀時，壞幀指示符(BFI)被設為真，并且隨后會開始參數(shù)隱藏(對相應的壞幀進行代替和靜音)；參數(shù)隱藏的先有技術方法使用參數(shù)歷史來隱藏損壞的幀。如上所述，當收到的幀被歸類為壞幀時(BFI設為真)，可使用壞幀中的一些語音參數(shù)；例如，在ETSI(歐洲電信標準協(xié)會)規(guī)范06.91規(guī)定的GSMAMR(自適應多速率)語音編解碼器的損壞幀代替的示例方案中，始終使用來自信道的激勵矢量。語音幀丟失時(包括在諸如一些基于IP的傳輸系統(tǒng)中，幀到達太遲而無法使用的情況)，顯然無法使用丟失幀中的參數(shù)。
在一些先有技術系統(tǒng)中，最后接收的好的譜參數(shù)在稍微向常數(shù)預定平均值移位后，代替壞幀的譜參數(shù)。根據(jù)GSM 06.91 ETSI規(guī)范，隱藏以LSF格式進行，并且由以下算法給出For i＝0 to N-1LSF_q1(i)＝α*past_LSF_q(i)+(1-α)*mean_LSF(i)；(公式1.0)LSF_q2(i)＝LSF_q1(i)；其中α＝0.95，并且N是所用線性預測(LP)濾波器的階數(shù)。量LSF_q1是第二子幀的量化LSF矢量，并且量LSF_q2是第四子幀的量化LSF矢量。第一和第三子幀的LSF矢量是由這兩個矢量內(nèi)插得到的。(幀n中第一子幀的LSF矢量是由幀n-1、即前一幀的第四子幀的LSF矢量內(nèi)插得到的)。量past_LSF_q是來自前一幀的量LSF_q2。量mean_LSF是其分量為預定常數(shù)的矢量；分量并不取決于解碼語音序列。具有恒定分量的量mean_LSF產(chǎn)生恒定語音譜。
此類先有技術系統(tǒng)始終將譜系數(shù)向恒定量調整，該量在此表示為mean_LSF(i)。通過對長時期和對若干個連續(xù)講話人取平均值而得出常量。因此，此類系統(tǒng)只提供折衷的解決方案，而不是對任何特定說話者或情況最佳的解決方案；折中方案是在合成語音中留下令人討厭的非自然信號和使聲音聽起來更自然(即合成語音的質量)之間進行的權衡。
在出現(xiàn)損壞語音幀的情況下，所需的是一種改善的譜參數(shù)代替，可以是同時基于語音參數(shù)歷史的分析和錯誤幀的代替。錯誤語音幀的合適代替對由比特流產(chǎn)生的合成語音的質量有顯著影響。
發(fā)明的公開因此，本發(fā)明提供一種方法和相應設備，用于隱藏在提供合成語音時要由解碼器解碼的幀中的幀差錯的影響，通過通信信道把各幀提供給解碼器，各幀提供解碼器在合成語音中使用的參數(shù)，所述方法包括以下步驟確定幀是否為壞幀；以及根據(jù)預定數(shù)量的最近收到的好幀的譜參數(shù)的至少部分自適應平均值，提供對壞幀的參數(shù)的代替。
在本發(fā)明的另一方面，所述方法還包括確定壞幀是傳送平穩(wěn)語音還是非平穩(wěn)語音的步驟，另外還包括以取決于壞幀是傳送平穩(wěn)還是非平穩(wěn)語音的方式執(zhí)行為壞幀提供代替的步驟。在本發(fā)明的又一方面，在壞幀傳送平穩(wěn)語音的情況下，使用預定數(shù)量的最近收到的好幀的參數(shù)的平均值，執(zhí)行對壞幀提供代替的步驟。在本發(fā)明的又一方面，在壞幀傳送非平穩(wěn)語音的情況下，至多使用預定數(shù)量的最近收到的好幀的參數(shù)平均值的預定部分，執(zhí)行對壞幀提供代替的步驟。
在本發(fā)明的另一方面，所述方法還包括確定壞幀是否符合預定標準的步驟，如果符合，則使用壞幀而不是代替壞幀。在具有此步驟的本發(fā)明的又一方面，預定標準包括進行四種比較之中的一種或多種比較幀間比較、幀內(nèi)比較、兩點比較以及單點比較。
從另一角度來看，本發(fā)明是一種用于隱藏在提供合成語音時要由解碼器解碼的幀中的幀差錯的影響的方法，通過通信信道把各幀提供給解碼器，各幀提供解碼器在合成語音中使用的參數(shù)，所述方法包括以下步驟確定幀是否為壞幀；對壞幀的參數(shù)提供代替，在代替中，以前的導抗譜頻率(ISF)向下式給出的部分自適應平均值偏移ISFq(i)＝α*past_ISFq(i)+(1-α)*ISFmean(i)，i＝0...16，其中α＝0.9，ISFq(i)是當前幀的ISF矢量的第i分量；past_ISFq(i)是前一幀的ISF矢量的第i分量；ISFmean(i)是作為自適應平均值和恒定預定平均值ISF矢量的組合的矢量的第i分量，并采用下列公式計算ISFmean(i)＝β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i)，i＝0...16，其中β＝0.75，ISFadaptive_mean(i)=13Σi=02past_ISFq(i)]]>并且只要BFI＝0就更新，其中BFI是壞幀指示符，以及ISFconst_mean(i)是從ISF矢量的長期平均值形成的矢量的第i分量。
附圖簡述通過考慮下面結合附圖的詳細說明，可以理解本發(fā)明的上述和其它目的、特征以及優(yōu)點，圖中圖1是根據(jù)先有技術、用于發(fā)射或存儲語音和音頻信號的系統(tǒng)的部件框圖；圖2是說明在平穩(wěn)語音情況下相鄰幀的LSF系數(shù)
的曲線圖，其中Y軸表示頻率，X軸表示幀；圖3是說明在非平穩(wěn)語音情況下相鄰幀的LSF系數(shù)
的曲線圖，其中Y軸表示頻率，X軸表示幀；
圖4是說明在先有技術方法中絕對譜偏差的曲線圖；圖5是說明在本發(fā)明中絕對譜偏差的曲線圖(表示本發(fā)明提供的譜參數(shù)代替優(yōu)于先有技術方法)，其中，圖中最高條形(表示最大可能余量)近似于零；圖6是說明檢測到壞幀時，根據(jù)某種先有技術如何將比特分類的示意流程圖；圖7是本發(fā)明的綜合方法的流程圖；以及圖8是說明用于確定指示為具有錯誤的幀的LSF是否可接受的標準的各方面的成組的兩個圖表。
實現(xiàn)本發(fā)明的最佳模式根據(jù)本發(fā)明，在語音信號通過通信信道(圖1)傳輸后，解碼器檢測到壞幀時，根據(jù)對最近通過通信信道傳遞的譜參數(shù)的分析，隱藏該語音信號的損壞的譜參數(shù)(由其它譜參數(shù)來代替它們)。有效隱藏壞幀的損壞的譜參數(shù)很重要，這不但是因為損壞的譜參數(shù)可引起非自然信號(明顯不是語音的可聽見聲音)，而且是因為隨后的無差錯語音幀的主觀質量會降低(至少在使用線性預測量化時)。
根據(jù)本發(fā)明的分析還利用譜參數(shù)、如線譜頻率(LSF)的譜影響的局部化性質。LSF的譜影響被說成是局部化的，這是因為如果量化和編碼過程不利地改變了一個LSF參數(shù)，則LP譜只在LSF參數(shù)所表示的頻率附近改變，而譜的其余部分保持不變。
本發(fā)明一般用于丟失幀或損壞幀。
根據(jù)本發(fā)明，在出現(xiàn)壞幀的情況下，分析器根據(jù)以前接收的語音參數(shù)的歷史來確定譜參數(shù)隱藏。分析器確定解碼語音信號的類型(即它是平穩(wěn)的還是非平穩(wěn)的)。語音參數(shù)的歷史用于對解碼語音信號進行分類(是否為平穩(wěn)的信號，更明確地說，是否為有聲的)；使用的歷史可以主要從最近的LTP值和譜參數(shù)導出。
術語“平穩(wěn)語音信號”和“有聲語音信號”實際上意義相同；有聲語音序列通常是相對平穩(wěn)的信號，而無聲語音序列通常是不平穩(wěn)的信號。在此使用術語“平穩(wěn)語音信號”和“非平穩(wěn)語音信號”是因為該術語更準確。
如用于幀對應語音的幀中所示，根據(jù)自適應激勵功率和總激勵功率的比率，幀可歸類為有聲幀或無聲幀(也可以是平穩(wěn)或非平穩(wěn)幀)。(幀包含參數(shù)，自適應激勵和總激勵均根據(jù)參數(shù)構成；之后，可計算出總功率。)如果語音序列是平穩(wěn)的，則如上所述隱藏損壞的譜參數(shù)的先有技術方法并不是特別有效。這是因為平穩(wěn)的相鄰譜參數(shù)變化緩慢，所以先前的好譜值(不是損壞或丟失的譜值)通常是對于后面譜系數(shù)的好估計值，更具體地說，優(yōu)于前一幀中向恒定平均值變化的譜參數(shù)，而先有技術將使用該恒定平均值來替代壞的譜參數(shù)(以隱藏它們)。圖2說明平穩(wěn)語音信號(更具體地說，是有聲語音信號)的LSF特性，作為譜參數(shù)的一個示例；它說明平穩(wěn)語音的相鄰幀的LSF系數(shù)
，其中Y軸表示頻率，X軸表示幀，表明對于平穩(wěn)語音，LSF在幀之間的變化確實相當緩慢。
在平穩(wěn)語音段期間，使用以下算法，根據(jù)本發(fā)明執(zhí)行隱藏(對于丟失幀或損壞幀)For i＝0 to N-1(一幀內(nèi)的元素)adaptive_mean_LSF_vector(i)＝(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K；LSF_q1(i)＝α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i)；(2.1)LSF_q2(i)＝LSF_q1(i).
其中α可近似為0.95，N是LP濾波器的階數(shù)，K是自適應長度。LSF_q1(i)是第二子幀的量化LSF矢量以及LSF_q2(i)是第四子幀的量化LSF矢量。第一和第三子幀的LSF矢量是由這兩個矢量內(nèi)插的。量past_LSF_good(i)(0)與來自前一好幀的量LSF_q2(i-1)的值相等。量past_LSF_good(i)(n)是來自前面第n+1個好幀(即在當前壞幀之前n+1個幀的好幀)的LSF參數(shù)矢量的分量。最后，量adaptive_mean_LSF(i)是前面好LSF矢量的平均值(算術平均值)(即，它是矢量的分量，各個分量是前面好LSF矢量的相應分量的平均值)。
已經(jīng)證明，與先有技術的方法相比，本發(fā)明的自適應平均值方法改善了合成語音的主觀質量。該證明使用了模擬，其中通過引入錯誤的通信信道發(fā)送語音。每次檢測到壞幀時，均會計算譜誤差。通過從原始譜中減去在壞幀期間用于隱藏的譜，獲得譜誤差。通過從譜誤差中取絕對值來計算絕對誤差。圖4和圖5分別表示了先有技術中和本發(fā)明方法中LSF的絕對偏差的柱狀圖。最佳錯誤隱藏的誤差接近于零，即當誤差接近于零時，用于隱藏的譜參數(shù)與原始(損壞或丟失的)譜參數(shù)非常接近。從圖4和圖5的柱狀圖可以看出，在平穩(wěn)語音序列期間，對于隱藏錯誤，本發(fā)明的自適應平均值方法(圖5)優(yōu)于先有技術的方法(圖4)。
如上所述，非平穩(wěn)信號(或較不準確地說，無聲信號)的譜系數(shù)在相鄰幀之間波動，正如圖3所示，圖3是說明在非平穩(wěn)語音的情況下相鄰幀的LSF的曲線圖，其中Y軸表示頻率，X軸表示幀。在這種情況下，最佳隱藏方法與平穩(wěn)語音信號的情況不同。對于非平穩(wěn)語音，本發(fā)明根據(jù)以下算法(非平穩(wěn)算法)為壞(損壞或丟失)的非平穩(wěn)語音段提供隱藏For i＝0 to N-1partly_adaptive_mean_LSF(i)＝β*mean_LSF(i)+(1-β)*adaptive_mean_LSF(i)；(2.3)LSF_q1(i)＝α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i)；(2.2)LSF_q2(i)＝LSF_q1(i)；其中N是LP濾波器的階數(shù)，其中α一般近似為0.90，其中LSF_q1(i)和LSF_q2(i)是如公式(2.1)中的當前幀的兩組LSF矢量，其中past_LSF_q(i)是來自前面好幀的LSF_q2(i)，其中partly_adaptive_mean_LSF(i)是自適應平均值LSF矢量和平均LSF矢量的組合，其中adaptive_mean_LSF(i)是最后K個好LSF矢量的平均值(當BFI未被置位時更新)，以及其中mean_LSF(i)是恒定平均LSF并且在用于合成語音的編解碼器的設計過程中產(chǎn)生，它是一些語音數(shù)據(jù)庫的平均LSF。參數(shù)β一般近似為0.75，是用于表示語音與非平穩(wěn)相對比的平穩(wěn)程度的值。(有時，它根據(jù)長期預測激勵能量與固定碼本激勵能量之比來計算，或者更精確地說，采用以下公式計算β=1+voiceFactor2]]>其中voiceFactor=energypitch-energyinnovationenergypitch+energyinnovation,]]>其中energypitch是音調激勵能量，energyinnovation是更新碼激勵能量。當大部分能量是在長期預測激勵中時，被解碼的語音大部分是平穩(wěn)的。當大部分能量是在固定碼本激勵中時，語音大部分是非平穩(wěn)的。)對于β＝1.0，公式(2.3)簡化為先有技術的公式(1.0)。對于β＝0.0，公式(2.3)簡化為本發(fā)明用于平穩(wěn)語音段的公式(2.1)。對于復雜性敏感的實現(xiàn)(在將復雜度保持到合理水平是很重要的應用中)，β可固定為某個折中值，例如對于平穩(wěn)和非平穩(wěn)語音段都為0.75。
專門用于丟失幀的譜參數(shù)隱藏。
在丟失幀的情況下，只有以前譜參數(shù)的信息可用。代替的譜參數(shù)是根據(jù)基于例如頻譜和LTP(長期預測)值的參數(shù)歷史的標準來計算的；LTP參數(shù)包括LTP增益和LTP滯后值。LTP表示當前幀與前一幀的相關性。例如，用于計算代替的譜參數(shù)的標準可區(qū)別是用自適應LSF平均值還是如先有技術中用恒定平均值來修正最后好的LSF的情況。
專門用于損壞幀的備選譜參數(shù)隱藏語音幀被破壞時(相對于丟失)，本發(fā)明的隱藏程序可進一步優(yōu)化。在此類情況下，當語音解碼器收到譜參數(shù)時，它們可能是完全或部分正確的。例如，在基于分組的連接中(如在普通TCP/IP因特網(wǎng)連接中)，損壞幀隱藏方法通常是不可行的，因為對于TCP/IP類型的連接，通常所有壞幀均是丟失幀，但是對于其它類型的連接，例如在電路交換GSM或EDGE連接中，可使用本發(fā)明的損壞幀隱藏方法。因此，對于分組交換連接，不能采用下面的備選方法，但是對于電路交換連接，由于在此類連接中壞幀至少有時(并且實際上經(jīng)常)只是損壞幀，因此可以使用該方法。
根據(jù)GSM規(guī)范，如果在信道解碼過程中使用CRC校驗或其它檢錯機制之后BFI標記被置位，則檢測到壞幀。檢錯機制用于在主觀上最高有效位、即對合成語音質量有最大影響的那些位中檢測錯誤。在一些先有技術方法中，當一幀被指示為壞幀時，最高有效位不會被使用。然而，一幀可能只有幾個比特錯誤(即使一個比特錯誤也足以使BFI標記置位)，所以即使大部分比特是正確的，整個幀也可能被丟棄。CRC校驗只是簡單地檢測幀是否包含錯誤幀，但不估計BER(誤碼率)。圖6說明檢測到壞幀時如何根據(jù)先有技術將比特分類。圖6中，顯示的單個幀每次一個比特(從左到右)經(jīng)通信信道傳遞到解碼器，信道條件使得CRC校驗中包括的幀的一些比特已損壞，因此BFI被設置為1。
從圖6可以看出，即使收到的幀有時包含許多正確比特(當信道條件較好時幀中的BER通常較小)，先有技術也不會使用它們。相反，本發(fā)明嘗試估計收到的參數(shù)是否損壞，如果它們未損壞，則本發(fā)明會使用它們。
表1表明在自適應多速率(AMR)寬帶(WB)解碼器的示例中根據(jù)本發(fā)明的損壞幀隱藏后面的概念。

表1.損壞的語音幀中正確譜參數(shù)的百分比。
在AMR WB解碼器的情況下，信道載干比(C/I)在大約9dB到10dB的范圍內(nèi)時，采用模式12.65kbit/s是一個好的選擇。從表1可以看出，使用GMSK(高斯最小頻移鍵控)調制方案時，在C/I介于9到10dB范圍內(nèi)的GSM信道條件的情況中，收到的壞幀大約35-50％具有完全正確的頻譜。此外，所有壞幀的譜參數(shù)系數(shù)大約75-85％是正確的。如上所述，由于譜影響的局部化性質，因而可使用壞幀中的譜參數(shù)信息。C/I在6-8dB或更小的范圍中的信道條件太差，因而不應使用12.65kbit/s模式；而是應使用其它較低的模式。
在損壞幀的情況下，本發(fā)明的基本概念是根據(jù)標準(下文描述)，使用損壞幀中的信道比特來對損壞幀進行解碼。頻譜系數(shù)的標準是根據(jù)正被解碼的信號的語音參數(shù)的先前值。檢測到壞幀時，如果符合標準，則使用接收的LSF或其它經(jīng)信道傳遞的譜參數(shù)；換言之，如果接收的LSF符合標準，則如同該幀不是壞幀一樣、在解碼中正常使用它們。否則，即，如果來自信道的LSF不符合標準，則使用公式(2.1)或(2.2)，根據(jù)上述的隱藏方法來計算壞幀的頻譜。通過使用例如頻譜距離計算、比如所謂的Itakura-Saito頻譜距離的計算，可實現(xiàn)接受譜參數(shù)的標準。(例如，參閱John R Deller Jr，John H.L.Hansen和John G.Proakis的“Discrete-Time Processing of Speech Signals”第329頁，由IEEE Press出版，2000)
在平穩(wěn)語音信號的情況下，接受來自信道的譜參數(shù)的標準應該非常嚴格。如圖3所示，在平穩(wěn)序列期間(根據(jù)定義)，譜系數(shù)非常穩(wěn)定，因而平穩(wěn)語音信號的損壞的LSF(或其它語音參數(shù))通?？扇菀妆粰z測到(由于它們與未損壞的相鄰幀的LSF有顯著差別，因此可以區(qū)分它們與未損壞的LSF)。另一方面，對于非平穩(wěn)語音信號，則標準不必如此嚴格；非平穩(wěn)語音信號的頻譜允許具有較大的變化。對于非平穩(wěn)語音信號，正確譜參數(shù)的精確性就可聽到的非自然信號而論并不嚴格，因為對于非平穩(wěn)語音(即或多或少的無聲語音)，不管語音參數(shù)是否正確，沒有可聽到的非自然信號是可靠的。換言之，即使譜參數(shù)的比特已損壞，根據(jù)標準它們?nèi)匀豢山邮?，因為帶有一些損壞比特的非平穩(wěn)語音的譜參數(shù)通常不會產(chǎn)生任何可聽到的非自然信號。根據(jù)本發(fā)明，在損壞幀的情況下，通過使用關于收到的LSF的所有可用信息以及通過根據(jù)傳送的語音特性來選擇使用哪些LSF，使合成語音的主觀質量降低得盡量少。
因此，雖然本發(fā)明包括隱藏損壞幀的方法，但在傳送非平穩(wěn)語音的損壞幀的情況下，作為備選方案，它也包含使用這樣一種標準，如果符合該標準，將使解碼器按現(xiàn)狀使用損壞幀；換言之，即使BFI被置位，也會使用該幀。該標準實際上是用來區(qū)別損壞幀是可用還是不可用的閾值；該閾值基于損壞幀的譜參數(shù)和最近收到的好幀的譜參數(shù)的差異程度。
與使用例如損壞的LTP滯后值等其它損壞的參數(shù)相比，使用可能損壞的譜參數(shù)對可聽到的非自然信號可能更敏感。為此，用于確定是否使用可能損壞的譜參數(shù)的標準應特別可靠。在一些實施例中，使用最大譜距離(從前一幀中的相應譜參數(shù)開始，超出該距離后，不使用可疑的譜參數(shù))作為標準是有利的；在這種實施例中，可使用眾所周知的Itakura-Saito距離計算來量化要與閾值相比較的譜距離?；蛘?，可使用譜參數(shù)的固定或自適應統(tǒng)計值來確定是否使用可能損壞的譜參數(shù)。此外，諸如增益參數(shù)等其它語音參數(shù)也可用于產(chǎn)生標準。(如果與最近的好幀中的值相比，當前幀中的其它語音參數(shù)并不是極為不同，則只要收到的譜參數(shù)也符合標準，或許可以使用這些譜參數(shù)。換言之，諸如LTP增益之類的其它參數(shù)可用作設置用于確定是否使用接收的譜參數(shù)的適當標準的附加分量。其它語音參數(shù)的歷史可用于改善的語音特性識別。例如，歷史可用于確定解碼語音序列具有平穩(wěn)還是非平穩(wěn)特性。當知道解碼語音序列的屬性時，更易于從損壞幀中檢測可能正確的譜參數(shù)，并且更易于估計在接收的損壞幀中預計傳送了哪些類型的譜參數(shù)值。)根據(jù)優(yōu)選實施例中的本發(fā)明，現(xiàn)在參考圖8，如上文所述，用于確定是否使用損壞幀的譜參數(shù)的標準是基于譜距離的概念。更具體地說，為確定是否符合接受損壞幀的LSF系數(shù)的標準，接收機的處理器執(zhí)行一種算法，檢查與最后好幀的LSF系數(shù)相比，該LSF系數(shù)沿頻率軸移動的距離，最后好幀的LSF系數(shù)與一些預定數(shù)量的較早、最近的幀的LSF系數(shù)一起存儲在LSF緩沖器中。
根據(jù)優(yōu)選實施例的標準包括進行四種比較中的一種或多種比較幀間比較、幀內(nèi)比較、兩點比較以及單點比較。
在第一種比較、即幀間比較中，損壞幀的相鄰幀中LSF矢量元素之間的差別與先前幀的相應差別進行比較。差別按以下公式確定dn(i)＝|Ln-1(i)-Ln(i)|，1≤i≤P-1，其中P是幀的譜系數(shù)的數(shù)量，Ln(i)是損壞幀的第i個LSF元素，以及Ln-1(i)是損壞幀之前的幀的第i個LSF元素。如果與dn-1(i)、dn-2(i)、...、dn-k(i)相比，差別dn(i)太大，則丟棄損壞幀的LSF元素Ln(i)，其中k是LSF緩沖器的長度。
第二種比較、即幀內(nèi)比較是同一幀中相鄰LSF矢量元素間的差別的比較。第n幀的候選第i個LSF元素Ln(i)與第n幀的第(i-1)個LSF元素Ln-1(i)之間的距離按以下公式確定en(i)＝Ln(i-1)-Ln(i)，2≤i≤P-1，其中P是譜系數(shù)的數(shù)量，en(i)是LSF元素之間的距離。距離是在幀的所有LSF矢量元素之間計算的。如果與en-1(i)、en-2(i)、...、en-k(i)相比，差別en(i)太大或太小，則LSF元素Ln(i)和Ln(i-1)中的一個或另一個或兩個元素將被丟棄。
第三種比較是兩點比較，它確定是否出現(xiàn)涉及候選LSF元素Ln(i)的交叉，即，在順序上低于候選元素的元素Ln(i-1)是否具有比候選LSF元素Ln(i)更大的值。交叉表明一個或多個嚴重損壞的LSF值。通常所有交叉LSF元素會被丟棄。
第四種比較是單點比較，它將候選LSF矢量元素Ln(i)的值與最小LSF元素Lmin(i)和最大LSF元素Lmax(i)進行比較，最小和最大LSF元素都是從LSF緩沖器中計算的，并且，如果Ln(i)在最小和最大LSF元素構成的范圍之外，則丟棄候選LSF元素。
如果丟棄損壞幀的LSF元素(基于以上或其它標準)，則根據(jù)使用公式(2.2)的算法來計算LSF元素的新值。
現(xiàn)在參考圖7，它表示本發(fā)明的綜合方法的流程圖，指明用于平穩(wěn)和非平穩(wěn)語音幀以及用于與丟失的非平穩(wěn)語音幀相對的損壞幀的不同規(guī)定。
討論本發(fā)明可應用于移動臺或移動網(wǎng)元中的語音解碼器。它也可應用于具有錯誤傳輸信道的系統(tǒng)中所使用的任何語音解碼器。
發(fā)明范圍應當理解，上述方案只是說明本發(fā)明原理的應用。具體地說，應當理解，雖然為了具體說明而采用線譜來說明和描述本發(fā)明，但本發(fā)明也包含使用諸如導抗譜對之類的其它等效參數(shù)。在不脫離本發(fā)明的精神和范圍的情況下，本領域的技術人員可設計大量的修改和替代方案，并且所附權利要求書旨在涵蓋此類修改和方案。
權利要求
1.一種用于隱藏在提供合成語音時要由解碼器解碼的幀中的幀差錯的影響的方法，通過通信信道把所述幀提供給所述解碼器，各幀提供所述解碼器在合成語音時使用的參數(shù)，所述方法包括以下步驟a)確定幀是否為壞幀；以及b)根據(jù)預定數(shù)量的最近收到的好幀的譜參數(shù)的至少部分自適應平均值，提供對所述壞幀的所述參數(shù)的代替。
2.如權利要求1所述的方法，其特征在于，還包括確定所述壞幀傳送平穩(wěn)語音還是非平穩(wěn)語音的步驟，以及按照取決于所述壞幀傳送平穩(wěn)還是非平穩(wěn)語音的方式，執(zhí)行為所述壞幀提供代替的步驟。
3.如權利要求2所述的方法，其特征在于，在壞幀傳送平穩(wěn)語音的情況下，使用預定數(shù)量的最近收到的好幀的參數(shù)的平均值，執(zhí)行為所述壞幀提供代替的步驟。
4.如權利要求3所述的方法，其特征在于，在壞幀傳送平穩(wěn)語音的情況下并且如果使用線性預測(LP)濾波器，則根據(jù)以下算法執(zhí)行為所述壞幀提供代替的步驟For i＝0 to n-1adaptive_mean_LSF_vector(i)＝(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K；LSF_q1(i)＝α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i)；LSF_q2(i)＝LSF_q1(i)；其中α是預定參數(shù)，N是所述LP濾波器的階數(shù)，K是自適應長度，LSF_q1(i)是第二子幀的量化LSF矢量，LSF_q2(i)是第四子幀的量化LSF矢量，past_LSF_good(i)(0)等于來自前一好幀的量LSF_q2(i-1)的值，past_LSF_good(i)(n)是來自前面第n+1個好幀的LSF參數(shù)的矢量的分量以及adaptive_mean_LSF(i)是所述前面好LSF矢量的平均值。
5.如權利要求2所述的方法，其特征在于，在壞幀傳送非平穩(wěn)語音的情況下，至多使用預定數(shù)量的最近收到的好幀的參數(shù)的平均值的預定部分，執(zhí)行為所述壞幀提供代替的步驟。
6.如權利要求2所述的方法，其特征在于，在壞幀傳送非平穩(wěn)語音的情況下并且如果使用線性預測(LP)濾波器，則根據(jù)以下算法執(zhí)行為所述壞幀提供代替的步驟For i＝0 to N-1partly_adaptive_mean_LSF(i)＝β*mean_LSF(i)+(1-β)*adaptive_mean_LSF(i)；LSF_q1(i)＝α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i)；LSF_q2(i)＝LSF_q1(i)；其中N是LP濾波器的階數(shù)，α和β是預定參數(shù)，LSF_q1(i)是第二子幀的量化LSF矢量，LSF_q2(i)是第四子幀的量化LSF矢量，past_LSF_q(i)是來自前一好幀的LSF_q2(i)的值；partly_adaptive_mean_LSF(i)是自適應平均值LSF矢量和平均LSF矢量的組合，adaptive_mean_LSF(i)是最后K個好LSF矢量的平均值以及mean_LSF(i)是恒定平均LSF。
7.如權利要求1所述的方法，其特征在于，還包括確定所述壞幀是否符合預定標準并且如果符合、則使用所述壞幀而不是代替所述壞幀的步驟。
8.如權利要求7所述的方法，其特征在于，所述預定標準涉及進行四種比較中的一種或多種比較幀間比較、幀內(nèi)比較、兩點比較以及單點比較。
9.一種用于隱藏在提供合成語音時要由解碼器解碼的幀中的幀差錯的影響的方法，通過通信信道把所述幀提供給所述解碼器，各幀提供所述解碼器在合成語音中使用的參數(shù)，所述方法包括以下步驟a)確定幀是否為壞幀；以及b)提供對所述壞幀的參數(shù)的代替，在代替中，以前的導抗譜頻率(ISF)向以下公式給出的部分自適應平均值偏移ISFq(i)＝α*past_ISFq(i)+(1-α)*ISFmean(i)，其中i＝0...16，其中α＝0.9，ISFq(i)是當前幀的ISF矢量的第i分量，past_ISFq(i)是前一幀的ISF矢量的第i分量，ISFmean(i)是作為自適應平均值和恒定預定平均值ISF矢量的組合的矢量的第i分量，并采用以下公式計算ISFmean(i)＝β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i)，其中i＝0...16，其中β＝0.75，其中ISFadaptive_mean(i)=13Σi=02past_ISFq(i)]]>并且只要BFI＝0就更新，其中BFI是壞幀指示符，以及其中ISFconst_mean(i)是從ISF矢量的長期平均中形成的矢量的第i分量。
10.一種用于隱藏在提供合成語音時要由解碼器解碼的幀中的幀差錯的影響的設備，通過通信信道把所述幀提供給所述解碼器，各幀提供所述解碼器在合成語音中使用的參數(shù)，所述設備包括a)用于確定幀是否為壞幀的裝置；以及b)根據(jù)預定數(shù)量的最近收到的好幀的譜參數(shù)的至少部分自適應平均值、為所述壞幀的參數(shù)提供代替的裝置。
11.如權利要求10所述的設備，其特征在于，還包括確定所述壞幀傳送平穩(wěn)還是非平穩(wěn)語音的裝置，以及所述用于為壞幀提供代替的裝置按照取決于所述壞幀傳送平穩(wěn)還是非平穩(wěn)語音的方式執(zhí)行所述代替。
12.如權利要求11所述的設備，其特征在于，在壞幀傳送平穩(wěn)語音的情況下，為所述壞幀提供代替的所述裝置使用預定數(shù)量的最近收到的好幀的參數(shù)的平均值執(zhí)行代替。
13.如權利要求12所述的設備，其特征在于，在壞幀傳送平穩(wěn)語音的情況下并且如果使用線性預測(LP)濾波器，為所述壞幀提供代替的所述裝置可根據(jù)以下算法工作For i＝0 to n-1adaptive_mean_LSF_vector(i)＝(past_LSF_good(i)(0)+past_LSF_good(i)(1)+...+past_LSF_good(i)(K-1))/K；LSF_q1(i)＝α*past_LSF_good(i)(0)+(1-α)*adaptive_mean_LSF(i)；LSF_q2(i)＝LSF_q1(i)；其中α是預定參數(shù)，N是所述LP濾波器的階數(shù)，K是自適應長度，LSF_q1(i)是第二子幀的量化LSF矢量，LSF_q2(i)是第四子幀的量化LSF矢量，past_LSF_good(i)(0)等于來自前一好幀的量LSF_q2(i-1)的值，past_LSF_good(i)(n)是來自前面第n+1個好幀的LSF參數(shù)的矢量的分量以及adaptive_mean_LSF(i)是所述前面好LSF矢量的平均值。
14.如權利要求11所述的設備，其特征在于，在壞幀傳送非平穩(wěn)語音的情況下，為所述壞幀提供代替的所述裝置至多使用預定數(shù)量的最近收到的好幀的參數(shù)的平均值的預定部分來執(zhí)行代替。
15.如權利要求11所述的設備，其特征在于，在壞幀傳送非平穩(wěn)語音的情況下并且如果使用線性預測(LP)濾波器，則為所述壞幀提供代替的所述裝置可根據(jù)以下算法工作For i＝0 to N-1partly_adaptive_mean_LSF(i)＝β*mean_LSF(i)+(1-β)*adaptive_mean_LSF(i)；LSF_q1(i)＝α*past_LSF_good(i)(0)+(1-α)*partly_adaptive_mean_LSF(i)；LSF_q2(i)＝LSF_q1(i)；其中N是LP濾波器的階數(shù)，α和β是預定參數(shù)，LSF_q1(i)是第二子幀的量化LSF矢量，LSF_q2(i)是第四子幀的量化LSF矢量，past_LSF_q(i)是來自前一好幀的LSF_q2(i)的值；partly_adaptive_mean_LSF(i)是自適應平均值LSF矢量和平均LSF矢量的組合，adaptive_mean_LSF(i)是最后K個好LSF矢量的平均值以及mean_LSF(i)是恒定平均LSF。
16.如權利要求10所述的設備，其特征在于，還包括確定所述壞幀是否符合預定標準并且如果符合、則使用所述壞幀而不是代替所述壞幀的裝置。
17.如權利要求16所述的設備，其特征在于，所述預定標準涉及進行四種比較中的一種或多種比較幀間比較、幀內(nèi)比較、兩點比較以及單點比較。
18.一種用于隱藏在提供合成語音時要由解碼器解碼的幀中的幀差錯的影響的設備，通過通信信道把所述幀提供給所述解碼器，各幀提供所述解碼器在合成語音中使用的參數(shù)，所述設備包括a)用于確定幀是否為壞幀的裝置；以及b)用于為所述壞幀的參數(shù)提供代替的裝置，在代替中以前的導抗譜頻率(ISF)向以下公式給出的部分自適應平均值偏移ISFq(i)＝α*past_ISFq(i)+(1-α)*ISFmean(i)，其中i＝0...16，其中α＝0.9，ISFq(i)是當前幀的ISF矢量的第i分量，past_ISFq(i)是前一幀的ISF矢量的第i分量，ISFmean(i)是作為自適應平均值和恒定預定平均值ISF矢量的組合的矢量的第i分量，并采用以下公式計算ISFmean(i)＝β*ISFconst_mean(i)+(1-β)*ISFadaptive_mean(i)，其中i＝0...16，其中β＝0.75，其中ISFadaptive_mean(i)=13Σi=02past_ISFq(i)]]>并且只要BFI＝0就更新，其中BFI是壞幀指示符，以及其中ISFconst_mean(i)是從ISF矢量的長期平均中形成的矢量的第i分量。
全文摘要
使用基于最近收到的好幀的至少部分自適應平均值的值來代替壞幀(壞幀是損壞的幀或丟失的幀)的譜參數(shù)的值，從而隱藏由語音解碼器經(jīng)通信信道接收的壞幀的影響，但是在損壞幀的情況下(相對于丟失幀)，如果壞幀符合預定標準，則使用該壞幀本身。隱藏的目的是為壞幀尋找最適合的參數(shù)，以便盡量提高合成語音的主觀質量。
文檔編號G10L11/06GK1535461SQ01820937
公開日2004年10月6日申請日期2001年10月17日優(yōu)先權日2000年10月23日
發(fā)明者J·梅基寧, H·J·米科拉, J·維尼奧, J·羅托拉-普基拉, J 梅基寧, 嵐, 欣普基拉, 米科拉申請人:諾基亞有限公司

完整全部詳細技術資料下載