專利名稱:使用編碼方案選擇模型以減少對(duì)幀差錯(cuò)敏感性的預(yù)測(cè)語(yǔ)音編碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及語(yǔ)音處理領(lǐng)域,具體說(shuō)涉及用于減少預(yù)測(cè)語(yǔ)音編碼器中對(duì)幀差錯(cuò)情況的敏感性的方法和設(shè)備。
背景技術(shù):
通過(guò)數(shù)字技術(shù)進(jìn)行語(yǔ)音傳輸已經(jīng)被廣為應(yīng)用,特別是在長(zhǎng)距離和數(shù)字無(wú)線電話應(yīng)用中。因此,這就使得人們對(duì)在維持重構(gòu)語(yǔ)音可感知質(zhì)量的情況下,如何判定可以在信道上發(fā)送的最少信息量產(chǎn)生興趣。如果語(yǔ)音僅是通過(guò)簡(jiǎn)單的采樣和數(shù)字化就能發(fā)送,那么,就需要大約64千位/秒(kbps)的數(shù)據(jù)率來(lái)達(dá)到傳統(tǒng)模擬電話的語(yǔ)音質(zhì)量。然而,通過(guò)使用語(yǔ)音分析,繼之以進(jìn)行合適的編碼、發(fā)送以及在接收機(jī)端的再合成,就可以實(shí)現(xiàn)數(shù)據(jù)率的明顯減少。
使用通過(guò)提取有關(guān)人聲生成模型的參數(shù)以壓縮語(yǔ)音的技術(shù)的裝置稱為語(yǔ)音編碼器。語(yǔ)音編碼器將輸入的語(yǔ)音信號(hào)分成時(shí)間塊或分析幀。語(yǔ)音編碼器通常包括編碼器和解碼器。編碼器對(duì)輸入的語(yǔ)音幀進(jìn)行分析以提取某些相關(guān)參數(shù),并隨后將參數(shù)量化成二進(jìn)制表示,即一組位或二進(jìn)制數(shù)據(jù)包。數(shù)據(jù)包在通信信道上發(fā)送給接收機(jī)和解碼器。解碼器對(duì)數(shù)據(jù)包進(jìn)行處理,將它們?nèi)チ炕援a(chǎn)生參數(shù),并且使用這些去量化參數(shù)進(jìn)行語(yǔ)音幀的再合成。
語(yǔ)音編碼器的一個(gè)功能在于通過(guò)去除語(yǔ)音中固有的所有自然冗余以便將數(shù)字化語(yǔ)音信號(hào)壓縮為低位率信號(hào)。數(shù)字壓縮通過(guò)用一組參數(shù)代表輸入語(yǔ)音幀,并使用量化以便用一組位來(lái)表示這些參數(shù)來(lái)實(shí)現(xiàn)。如果輸入的語(yǔ)音幀具有位數(shù)Ni,并且由語(yǔ)音編碼器產(chǎn)生的數(shù)據(jù)包具有位數(shù)No,則語(yǔ)音編碼器達(dá)到的壓縮系數(shù)為Cr=Ni/No。其關(guān)鍵是在達(dá)到目標(biāo)壓縮系數(shù)的情況下,保持經(jīng)解碼語(yǔ)音的高品質(zhì)語(yǔ)音。一種語(yǔ)音編碼器的性能取決于(1)上述語(yǔ)音模型或分析和合成處理組合執(zhí)行效果如何,以及(2)在目標(biāo)No位/幀的位率下,執(zhí)行參數(shù)量化處理的效果如何。語(yǔ)音模型的目的是對(duì)每個(gè)幀用一小組參數(shù)捕獲語(yǔ)音信號(hào)的本質(zhì)或目標(biāo)語(yǔ)音品質(zhì)。
語(yǔ)音編碼器設(shè)計(jì)中最重要的方面可能是對(duì)能描述語(yǔ)音信號(hào)的一組較好參數(shù)(包括矢量)的檢索。一組較好參數(shù)需要一較低系統(tǒng)帶寬用于重構(gòu)精確語(yǔ)音信號(hào)的再合成。間距(pitch)、信號(hào)功率、譜包絡(luò)(或共振峰)、振幅和相頻譜是語(yǔ)音編碼參數(shù)的一些示例。
語(yǔ)音編碼器可以作為時(shí)域編碼器實(shí)現(xiàn)。該編碼器試圖通過(guò)使用高時(shí)間分辨率處理以每次對(duì)語(yǔ)音的小片斷進(jìn)行編碼(通常是5微秒(ms)子幀)來(lái)捕獲時(shí)域語(yǔ)音波形。對(duì)于每個(gè)子幀,依據(jù)本領(lǐng)域各種已知算法可以從代碼本空間找到高精確的代表?;蛘撸Z(yǔ)音編碼器可以作為頻域編碼器實(shí)現(xiàn),該編碼器試圖用一組參數(shù)捕獲輸入語(yǔ)音幀的短期語(yǔ)音頻譜(分析),并且使用相應(yīng)的合成處理以便從頻譜參數(shù)中重新創(chuàng)建語(yǔ)音波形。參數(shù)量化器通過(guò)根據(jù)在A.Gersho & R.M.Gray的VectorQuantization and Signal Compression(1992)中所述的已有量化技術(shù)用所存儲(chǔ)的代碼矢量代表來(lái)表示這些參數(shù),從而保存了這些參數(shù)。
一種熟知的時(shí)域語(yǔ)音編碼器是在L.B.Rabiner & R.W.Schafer的DigitalProcessing of Speech Signals 396-453(1978)(在此通過(guò)參考引入)中所述的代碼激勵(lì)線性預(yù)測(cè)(CELP)編碼器。在CELP編碼器中,通過(guò)線性預(yù)測(cè)(LP)分析消除了語(yǔ)音信號(hào)中的短期相關(guān)或冗余,該分析查明短期共振峰濾波器的系數(shù)。將短期預(yù)測(cè)濾波器應(yīng)用于輸入語(yǔ)音幀產(chǎn)生LP殘余信號(hào),該信號(hào)被長(zhǎng)期預(yù)測(cè)濾波器參數(shù)和后續(xù)隨機(jī)代碼本進(jìn)行進(jìn)一步的模型化和量化。這樣,CELP編碼將對(duì)時(shí)域語(yǔ)音波形的編碼任務(wù)分成對(duì)LP短期濾波器系數(shù)的編碼和對(duì)LP殘余編碼的單獨(dú)任務(wù)。時(shí)域編碼可以以固定速率(即對(duì)每個(gè)幀都使用相同的位數(shù)No)或以可變速率(對(duì)不同幀內(nèi)容類型使用不同的位率)來(lái)執(zhí)行。可變速率編碼器試圖僅使用能獲得目標(biāo)品質(zhì)水平的編譯碼器參數(shù)進(jìn)行編碼所需的位數(shù)。一種示范可變速率CELP編碼器在美國(guó)專利號(hào)5,414,796(已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過(guò)參考完全引入)中有描述。
時(shí)域編碼器例如CELP編碼器通常依靠高位數(shù)No每幀以保留時(shí)域語(yǔ)音波形的精確性。這種編碼器通常通過(guò)相對(duì)較大的位數(shù)No每幀(例如8kbps或以上)來(lái)提供優(yōu)異的語(yǔ)音品質(zhì)。然而,在低位率(4kbps和以下),由于有限的可用位數(shù),時(shí)域編碼器就不能保持高品質(zhì)以及穩(wěn)定的性能。在低位率時(shí),有限的代碼本空間限制了傳統(tǒng)時(shí)域編碼器的波形匹配能力,該能力在更高速率商業(yè)應(yīng)用中得到很成功的使用。因此,盡管隨著時(shí)間進(jìn)行不斷地改進(jìn),許多以低位率工作的CELP編碼系統(tǒng)遭受到明顯的能感知失真的困擾,該失真通常以噪聲來(lái)表征。
現(xiàn)在人們對(duì)開(kāi)發(fā)以中等到低位率(即在2.4到4kbps及以下)工作的高質(zhì)量語(yǔ)音編碼器有著濃厚的研究興趣和強(qiáng)烈的商業(yè)需求。其應(yīng)用領(lǐng)域包括無(wú)線電話、衛(wèi)星通信、因特網(wǎng)電話、各種多媒體以及語(yǔ)音流應(yīng)用、語(yǔ)音信箱以及其他語(yǔ)音存儲(chǔ)系統(tǒng)。其驅(qū)動(dòng)力來(lái)自對(duì)高性能的需要和對(duì)在包丟失情況下穩(wěn)定性能的需求。近來(lái)各種語(yǔ)音編碼標(biāo)準(zhǔn)化計(jì)劃也是推動(dòng)低速率語(yǔ)音編碼算法研究和開(kāi)發(fā)的另一直接驅(qū)動(dòng)力。低速率語(yǔ)音編碼器可以在每個(gè)容許的應(yīng)用帶寬上創(chuàng)建更多的信道或用戶,并且,與適合的信道編碼附加層結(jié)合的低速率語(yǔ)音編碼器能夠符合編碼器規(guī)范的整體位預(yù)算,并在信道差錯(cuò)情況下,提供穩(wěn)固的性能。一種示范低速率編碼器是在美國(guó)申請(qǐng)序列號(hào)09/217,341名為VARIABLE SPEECH CODING,1998.12.21申請(qǐng)(已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過(guò)參考完全引入)中所述的原型間距周期(PPP)語(yǔ)音編碼器。
在傳統(tǒng)的預(yù)測(cè)語(yǔ)音編碼器中,例如CELP編碼器、PPP編碼器以及波形插值(WI)編碼器,編碼方案主要依賴過(guò)去的輸出。因此,如果解碼器接收到幀差錯(cuò)或幀消除,解碼器必須自身創(chuàng)建被懷疑幀的最佳替代。解碼器通常使用重復(fù)先前輸出的智能幀。因?yàn)榻獯a器必須創(chuàng)建自己的替代,解碼器和編碼器就喪失了彼此的同步性。因而,當(dāng)下一幀到達(dá)解碼器時(shí),如果該幀經(jīng)過(guò)預(yù)先編碼,解碼器就查閱不同于編碼器所使用的先前輸出。這就在語(yǔ)音品質(zhì)和語(yǔ)音編碼器性能方面引起下降。語(yǔ)音編碼器越是依賴預(yù)測(cè)編碼技術(shù)(即語(yǔ)音編碼器預(yù)先對(duì)越多的幀進(jìn)行編碼),性能方面就會(huì)有越大的下降。這樣,就需要一種能減少預(yù)測(cè)語(yǔ)音編碼器中對(duì)幀差錯(cuò)情況的敏感性方法。
發(fā)明內(nèi)容
本發(fā)明針對(duì)一種減少預(yù)測(cè)語(yǔ)音編碼器中對(duì)幀差錯(cuò)情況的敏感性的方法。因此,在本發(fā)明的一個(gè)方面中,提供了一種語(yǔ)音編碼器。該語(yǔ)音編碼器最好包括至少一種預(yù)測(cè)編碼模式;至少一種非預(yù)測(cè)編碼模式;以及與至少一種預(yù)測(cè)編碼模式和至少一種非預(yù)測(cè)編碼模式結(jié)合的處理器,該處理器配置用于通過(guò)根據(jù)編碼語(yǔ)音幀的模型所選的編碼模式引起對(duì)連續(xù)語(yǔ)音幀的編碼,該模型包括至少一個(gè)用非預(yù)測(cè)編碼模式進(jìn)行編碼的語(yǔ)音幀。
在本發(fā)明的另一方面,提供了一種對(duì)語(yǔ)音幀進(jìn)行編碼的方法。該方法最好包括用預(yù)測(cè)編碼模式對(duì)預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼的步驟;在執(zhí)行用預(yù)測(cè)編碼模式對(duì)預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼的步驟之后,用非預(yù)測(cè)編碼模式對(duì)至少一個(gè)語(yǔ)音幀進(jìn)行編碼;以及為了產(chǎn)生多個(gè)依據(jù)模型編碼的語(yǔ)音幀重復(fù)兩個(gè)編碼步驟。
在本發(fā)明的另一方面,提供了一種語(yǔ)音編碼器。該語(yǔ)音編碼器最好包括用于用預(yù)測(cè)編碼模式對(duì)預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼的裝置;在用預(yù)測(cè)編碼模式對(duì)預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼之后,用于用非預(yù)測(cè)編碼模式對(duì)至少一個(gè)語(yǔ)音幀進(jìn)行編碼的裝置;以及用于產(chǎn)生多個(gè)依據(jù)模型編碼的語(yǔ)音幀的裝置,該模型包括至少一個(gè)用非預(yù)測(cè)編碼模式編碼的語(yǔ)音幀。
在本發(fā)明的另一方面,提供了一種對(duì)語(yǔ)音幀進(jìn)行編碼的方法。該方法最好包括多模型中的多個(gè)語(yǔ)音幀進(jìn)行編碼的步驟,該模型包括至少一個(gè)經(jīng)預(yù)測(cè)編碼的語(yǔ)音幀和至少一個(gè)經(jīng)非預(yù)測(cè)編碼的語(yǔ)音幀。
在本發(fā)明的另一方面,提供了一種對(duì)語(yǔ)音幀進(jìn)行編碼的方法。該方法最好包括多模型中的多個(gè)語(yǔ)音幀進(jìn)行編碼的步驟,該模型包括至少一個(gè)經(jīng)深度預(yù)測(cè)編碼的語(yǔ)音幀和至少一個(gè)經(jīng)輕度預(yù)測(cè)編碼的語(yǔ)音幀。
圖1是在每個(gè)端由語(yǔ)音編碼器中止的通信信道的框圖。
圖2是可以在圖1的語(yǔ)音編碼器中使用的編碼器框圖。
圖3是可以在圖1的語(yǔ)音編碼器中使用的解碼器框圖。
圖4是說(shuō)明語(yǔ)音編碼決策處理的流程圖。
圖5A是語(yǔ)音信號(hào)振幅與時(shí)間比較的圖例,而圖5B是線性預(yù)測(cè)(LP)殘余振幅與時(shí)間比較的圖例。
圖6是配置使用編碼模式選擇模型的語(yǔ)音編碼器框圖。
圖7是由語(yǔ)音編碼器例如圖8的語(yǔ)音編碼器所執(zhí)行的用來(lái)采用編碼模式選擇模型的方法步驟流程圖。
具體實(shí)施例方式
在圖1中,第一編碼器100接收經(jīng)數(shù)字化的語(yǔ)音采樣s(n),并且對(duì)采樣s(n)進(jìn)行編碼用于在傳輸媒體102或通信信道102上發(fā)送給第一解碼器104。傳輸媒體102可以是,例如陸基通信線路、在基站和衛(wèi)星之間的鏈路、在蜂窩或PCS電話和基站之間的無(wú)線通信信道或在蜂窩或PCS電話和衛(wèi)星之間的無(wú)線通信信道。如下所述,語(yǔ)音采樣s(n)最好以各種代碼本索引和量化噪聲的形式進(jìn)行編碼。解碼器104對(duì)經(jīng)編碼的語(yǔ)音采樣進(jìn)行解碼,并且合成輸出語(yǔ)音信號(hào)sSYNTH(n)。如下所述,解碼處理最好包括使用發(fā)送的代碼本索引對(duì)各種代碼本進(jìn)行檢索以判定用于合成輸出語(yǔ)音信號(hào)sSYNTH(n)的合適值。對(duì)于相反方向的傳輸,第二編碼器106對(duì)在通信信道108上發(fā)送的數(shù)字化語(yǔ)音采樣s(n)進(jìn)行編碼。第二解碼器110對(duì)經(jīng)編碼的語(yǔ)音采樣進(jìn)行接收并解碼,產(chǎn)生合成的輸出語(yǔ)音信號(hào)sSYNTH(n)。
語(yǔ)音采樣s(n)代表了根據(jù)本領(lǐng)域的各種已知方法中的任意方法,包括脈沖編碼調(diào)制(PCM)、壓擴(kuò)μ-律或A-律,進(jìn)行數(shù)字化和量化的語(yǔ)音信號(hào)。如本領(lǐng)域所熟知,語(yǔ)音采樣s(n)組成了輸入數(shù)據(jù)幀,其中每個(gè)幀由預(yù)定數(shù)目的數(shù)字化語(yǔ)音采樣s(n)組成。這些幀還可以進(jìn)一步細(xì)分為子幀。在示范實(shí)施例中,每個(gè)幀包括4個(gè)子幀。在示范實(shí)施例中,使用了8kHz的采樣率,每20ms的幀包括有160個(gè)采樣。在下述實(shí)施例中,數(shù)據(jù)傳輸率最好可以基于幀間進(jìn)行變化。例如,數(shù)據(jù)傳輸率可以從全速到半速到1/4速到1/8速進(jìn)行變化。因?yàn)閷?duì)于含有相對(duì)較少語(yǔ)音信息的幀可以有選擇性地使用較低的位率,所以,變化的數(shù)據(jù)傳輸率具有優(yōu)勢(shì)。如本領(lǐng)域的熟練技術(shù)人員所知,可以使用各種采樣率、幀大小以及數(shù)據(jù)傳輸率。
第一編碼器100和第二解碼器110一起組成第一語(yǔ)音編碼器或語(yǔ)音編譯碼器。語(yǔ)音編碼器可以用于任意發(fā)送語(yǔ)音信號(hào)的通信裝置中包括,例如蜂窩或PCS電話、基站和/或基站控制器。同樣,第二編碼器106和第一解碼器104一起組成第二語(yǔ)音編碼器。本領(lǐng)域的熟練技術(shù)人員可以了解語(yǔ)音編碼器可以用數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)、離散門邏輯、固件或任意傳統(tǒng)的可編程軟件模塊以及微處理器來(lái)實(shí)現(xiàn)。軟件模塊可以駐留在RAM存儲(chǔ)器、閃存、寄存器或本領(lǐng)域已知的任何其他形式的可寫存儲(chǔ)媒體中?;蛘?,可以用任意傳統(tǒng)的處理器、控制器或狀態(tài)機(jī)來(lái)替代微處理器。特別為語(yǔ)音編碼設(shè)計(jì)的示范ASIC在美國(guó)專利號(hào)5,727,123(已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過(guò)參考完全引入)以及美國(guó)申請(qǐng)序列號(hào)08/197,417名為VOCODER ASIC,1994.2.16申請(qǐng)(已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過(guò)參考完全引入)中有描述。
在圖2中,可以在語(yǔ)音編碼器中使用的編碼器200包括模式判定模塊202、間距估計(jì)模塊204、LP分析模塊206、LP分析濾波器208、LP量化模塊210以及殘余量化模塊212。輸入語(yǔ)音幀s(n)提供給模式判定模塊202,間距估計(jì)模塊204、LP分析模塊206、LP分析濾波器208。模式判定模塊202依據(jù)每個(gè)輸入語(yǔ)音幀s(n)的周期性、能量、信噪比(SNR)或零交叉率和其他特征,產(chǎn)生模式索引IM和模式M。根據(jù)周期性對(duì)語(yǔ)音幀進(jìn)行分類的各種方法在美國(guó)專利號(hào)5,911,128(已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過(guò)參考完全引入)中有描述。這些方法也包括在電信工業(yè)協(xié)會(huì)臨時(shí)標(biāo)準(zhǔn)TIA/EIA IS-127以及TIA/EIA IS-733。在上述美國(guó)申請(qǐng)序列號(hào)09/217,341中也描述了一種示范模式判定方法。
間距估計(jì)模塊204依據(jù)每個(gè)輸入語(yǔ)音幀s(n)產(chǎn)生間距索引IP和延遲值P0。LP分析模塊206對(duì)每個(gè)輸入語(yǔ)音幀s(n)執(zhí)行線性預(yù)測(cè)分析以產(chǎn)生LP參數(shù)α,LP參數(shù)α提供給LP量化模塊210。LP量化模塊210還接收了模式M,因而以獨(dú)立模式方式執(zhí)行量化處理。LP量化模塊210產(chǎn)生LP索引ILP和經(jīng)量化的LP參數(shù) 。除輸入語(yǔ)音幀s(n)之外,LP分析濾波器208還接收經(jīng)量化的LP參數(shù) 。LP分析濾波器208產(chǎn)生LP殘余信號(hào)R[n],它代表在輸入語(yǔ)音幀s(n)和依據(jù)經(jīng)量化的線性預(yù)測(cè)參數(shù) 所重構(gòu)的語(yǔ)音之間的誤差。LP殘余R[n]、模式M以及經(jīng)量化的LP參數(shù) 提供給殘余量化模塊212。依據(jù)這些值,殘余量化模塊212產(chǎn)生殘余索引IR以及經(jīng)量化的殘余信號(hào) [n]。
在圖3中,可以在語(yǔ)音編碼器中使用的解碼器300包括LP參數(shù)解碼模塊302、殘余解碼模塊304、模式解碼模塊306以及LP合成濾波器308。模式解碼模塊306接收并解碼模式索引IM,從中產(chǎn)生模式M。LP參數(shù)解碼模塊302接收模式M以及LP索引ILP。LP參數(shù)解碼模塊302對(duì)接收的值進(jìn)行解碼以產(chǎn)生經(jīng)量化的LP參數(shù) 。殘余解碼模塊304接收殘余索引IR,間距索引IP以及模式索引IM。殘余解碼模塊304對(duì)所接收的值進(jìn)行解碼以產(chǎn)生經(jīng)量化的殘余信號(hào) 。經(jīng)量化的殘余信號(hào) 以及經(jīng)量化的LP參數(shù) 提供給LP合成濾波器308,它從中合成出經(jīng)解碼的輸出語(yǔ)音信號(hào) 在上述美國(guó)專利號(hào)5,414,796和美國(guó)申請(qǐng)序列號(hào)09/217,341中描述了用于圖2編碼器200以及圖3解碼器300的模塊的各種操作和實(shí)現(xiàn)技術(shù)。
如圖4流程圖所說(shuō)明,根據(jù)一實(shí)施例的語(yǔ)音編碼器遵循一組處理傳輸語(yǔ)音采樣的步驟。在步驟400中,語(yǔ)音編碼器接收連續(xù)幀中的語(yǔ)音信號(hào)數(shù)字采樣。依據(jù)接收的給定幀,語(yǔ)音編碼器進(jìn)入步驟402。在步驟402中,語(yǔ)音編碼器檢測(cè)幀的能量。該能量是幀語(yǔ)音活動(dòng)的量度。語(yǔ)音檢測(cè)是通過(guò)對(duì)數(shù)字化語(yǔ)音采樣的振幅平方求和,并將所得能量與閾值比較來(lái)執(zhí)行。在一個(gè)實(shí)施例中,依據(jù)背景噪聲的變化水平來(lái)修改閾值。在上述美國(guó)專利號(hào)5,414,796中描述了一種示范可變閾值語(yǔ)音活動(dòng)檢測(cè)器。某些無(wú)聲語(yǔ)音聲音可以是非常低能量的采樣,它們很容易被錯(cuò)誤作為背景噪聲進(jìn)行編碼。為了防止這種情況的發(fā)生,如在上述美國(guó)專利號(hào)5,414,796中所述,可以使用低能量采樣頻譜傾斜以便將無(wú)聲語(yǔ)音從背景噪聲中區(qū)分開(kāi)來(lái)。
在檢測(cè)幀能量之后,語(yǔ)音編碼器進(jìn)入步驟404。在步驟404中,語(yǔ)音編碼器判定所檢測(cè)的幀能量是否足以作為含有語(yǔ)音信息的幀進(jìn)行分類。如果所檢測(cè)的幀能量在預(yù)定閾值水平之下,語(yǔ)音編碼器就進(jìn)入步驟406。在步驟406中,語(yǔ)音編碼器將幀作為背景噪聲(即非語(yǔ)音或靜默)。在一個(gè)實(shí)施例中,背景噪聲以1/8速進(jìn)行編碼。如果在步驟404中,所檢測(cè)的幀能量符合或超過(guò)預(yù)定閾值水平,該幀就分類為語(yǔ)音,并且語(yǔ)音編碼器進(jìn)入步驟408。
在步驟408中,語(yǔ)音編碼器判定幀是否是無(wú)聲幀,即語(yǔ)音編碼器檢驗(yàn)幀的周期性。周期性判定的各種已知方法包括,例如使用零交叉和使用歸一自動(dòng)糾錯(cuò)函數(shù)(NACFs)。在上述美國(guó)專利號(hào)5,911,128以及美國(guó)申請(qǐng)序列號(hào)09/217,341中特別對(duì)使用零交叉和使用NACFs來(lái)檢測(cè)周期性進(jìn)行了描述。另外,上述用于將有聲語(yǔ)音從無(wú)聲語(yǔ)音中區(qū)分開(kāi)來(lái)的方法包括在了電信工業(yè)協(xié)會(huì)臨時(shí)標(biāo)準(zhǔn)TIA/EIA IS-127和TIA/EIA IS-733中。如果在步驟408中判定幀是無(wú)聲語(yǔ)音,語(yǔ)音編碼器進(jìn)入步驟410。在步驟410中,語(yǔ)音編碼器將該幀作為無(wú)聲幀進(jìn)行編碼。在一個(gè)實(shí)施例中,無(wú)聲語(yǔ)音幀以1/4速進(jìn)行編碼。如果在步驟408中判定幀不是無(wú)聲語(yǔ)音,語(yǔ)音編碼器就進(jìn)入步驟412。
在步驟412中,如在上述美國(guó)專利號(hào)5,911,128中所述,語(yǔ)音編碼器使用在本領(lǐng)域已知的周期檢測(cè)方法來(lái)判定該幀是否是過(guò)渡語(yǔ)音。如果判定該幀是過(guò)渡語(yǔ)音,語(yǔ)音編碼器就進(jìn)入步驟414。在步驟414中,該幀就作為過(guò)渡語(yǔ)音(即從無(wú)聲語(yǔ)音到有聲語(yǔ)音的過(guò)渡)進(jìn)行編碼。在一個(gè)實(shí)施例中,根據(jù)在美國(guó)申請(qǐng)序列號(hào)09/307,294名為MULTIPULSE INTERPOLATIVE CODING OFTRANSITION SPEECH FRAMES,1999.5.7申請(qǐng)(已轉(zhuǎn)讓給本發(fā)明的受讓人,并通過(guò)參考完全引入)中所述的多脈沖內(nèi)插編碼方法對(duì)過(guò)渡語(yǔ)音幀進(jìn)行編碼。在另一實(shí)施例中,過(guò)渡語(yǔ)音幀以全速進(jìn)行編碼。
如果在步驟412中語(yǔ)音編碼器判定該幀不是過(guò)渡語(yǔ)音,語(yǔ)音編碼器就進(jìn)入步驟416。在步驟416中,語(yǔ)音編碼器將該幀作為有聲語(yǔ)音進(jìn)行編碼。在一個(gè)實(shí)施例中,有聲語(yǔ)音幀可以以半速進(jìn)行編碼。也可以以全速對(duì)有聲語(yǔ)音幀進(jìn)行編碼。然而,本領(lǐng)域的熟練技術(shù)人員可以理解通過(guò)利用有聲幀的穩(wěn)態(tài)性質(zhì),以半速對(duì)有聲幀進(jìn)行編碼允許編碼器節(jié)約有用的帶寬。而且,不考慮用于編碼有聲有聲語(yǔ)音的速率,有聲語(yǔ)音優(yōu)勢(shì)是可以使用從過(guò)去的幀得到的信息進(jìn)行編碼,并且因此,稱為周期性編碼。
熟練技術(shù)人員可以理解語(yǔ)音信號(hào)或?qū)?yīng)的LP殘余可以通過(guò)遵循在圖4中所述的步驟進(jìn)行編碼。噪聲、無(wú)聲、過(guò)渡和有聲語(yǔ)音的波形特征可以視作為在圖5A中圖例的時(shí)間函數(shù)。噪聲、無(wú)聲、過(guò)渡和有聲LP殘余的波形特征可以視作是圖5B圖例的時(shí)間函數(shù)。
在一個(gè)實(shí)施例中,如圖6所示,周期性對(duì)一定比例的幀進(jìn)行編碼的語(yǔ)音編碼器500配置用于通過(guò)使用確定性的編碼方案選擇模型以減少對(duì)幀差錯(cuò)情況的敏感性。語(yǔ)音編碼器500包括初始參數(shù)計(jì)算模塊502、分類模塊504、控制處理器506、多種(N種)預(yù)測(cè)編碼模式508、510(為了簡(jiǎn)潔,僅示出兩種預(yù)測(cè)編碼模式508、510,剩余的預(yù)測(cè)編碼模式由虛線表示),以及至少一種非預(yù)測(cè)編碼模式512。初始參數(shù)計(jì)算模塊502與分類模塊504耦合。分類模塊506與控制處理器506以及各種編碼模式508、510、512耦合??刂铺幚砥饕才c各種編碼模式508、510、512耦合。
經(jīng)數(shù)字化的語(yǔ)音采樣s(n)由語(yǔ)音編碼器500接收,并輸入給初始參數(shù)計(jì)算模塊502。初始參數(shù)計(jì)算模塊502從語(yǔ)音采樣s(n)中獲得各種初始參數(shù),包括例如線性預(yù)測(cè)系數(shù)(LPC系數(shù))、線頻譜配對(duì)(LSP)系數(shù)、歸一自動(dòng)糾正函數(shù)(NACFs)、開(kāi)環(huán)延遲參數(shù)、帶能量、零交叉率以及共振峰殘余信號(hào)。各種初始參數(shù)的計(jì)算和使用為本領(lǐng)域所熟知,并在上述美國(guó)專利號(hào)5,414,796和美國(guó)申請(qǐng)序列號(hào)09/217,341中有描述。
這些初始參數(shù)提供給分類模塊504。依據(jù)這些初始參數(shù)值,分類模塊504依據(jù)上面參照?qǐng)D4描述的分類步驟對(duì)語(yǔ)音幀進(jìn)行分類。幀分類提供給控制處理器506,并且語(yǔ)音幀提供給各種編碼模式508、510、512。
控制處理器506最好配置用于依據(jù)哪個(gè)模式最適用于當(dāng)前幀語(yǔ)音屬性,而在多種編碼模式508、510、512之間進(jìn)行動(dòng)態(tài)逐幀轉(zhuǎn)換。為每個(gè)幀選擇特定的編碼模式508、510、512,以便在解碼器(未示出)處保持可接受信號(hào)再現(xiàn)情況下,達(dá)到最低可用位率。這樣,當(dāng)語(yǔ)音信號(hào)s(n)的屬性變化時(shí),語(yǔ)音編碼器500的位率也隨時(shí)間改變,這種處理稱為可變速率語(yǔ)音編碼。
在本發(fā)明的一個(gè)實(shí)施例中,控制處理器506依據(jù)當(dāng)前語(yǔ)音幀的分類指示使用一個(gè)特定的預(yù)測(cè)編碼模式508、510。預(yù)測(cè)編碼模式508、510之一是一種CELP編碼模式,這種模式在上述美國(guó)專利號(hào)5,414,796中有描述。預(yù)測(cè)編碼模式508、510中的另一模式是PPP編碼模式,這種模式在上述美國(guó)申請(qǐng)序列號(hào)0/217,341中有描述。還是預(yù)測(cè)編碼模式508、510的另一模式可以是WI編碼模式。
在一個(gè)實(shí)施例中,非預(yù)測(cè)編碼模式512是輕度預(yù)測(cè)或低存儲(chǔ)編碼方案。預(yù)測(cè)編碼模式508、510最好是深度編碼模式。在一個(gè)替代實(shí)施例中,非預(yù)測(cè)編碼模式512是一種完全非預(yù)測(cè)或無(wú)需存儲(chǔ)編碼方案。完全非預(yù)測(cè)編碼方案可以是,例如語(yǔ)音采樣s(n)的PCM編碼,語(yǔ)音采樣s(n)的壓擴(kuò)μ-律或語(yǔ)音采樣s(n)的A-律。
而在結(jié)合圖6所述的實(shí)施例中示出一種非預(yù)測(cè)編碼模式512,本領(lǐng)域的熟練技術(shù)人員可以理解可以使用超過(guò)一種的非預(yù)測(cè)編碼模塊。如果使用了超過(guò)一種的非預(yù)測(cè)編碼模塊,該非預(yù)測(cè)編碼模塊的類型可以改變。而且,在使用超過(guò)一種的非預(yù)測(cè)編碼模塊的替代實(shí)施例中,非預(yù)測(cè)編碼模塊中的一部分或全部都是輕度預(yù)測(cè)編碼模塊。并且在其他實(shí)施例中,非預(yù)測(cè)編碼模塊中的一部分或全部都是完全的非預(yù)測(cè)編碼模塊。
在一個(gè)實(shí)施例中,在確定期間,最好由控制處理器506插入非預(yù)測(cè)編碼模式512??刂铺幚砥?06在幀中創(chuàng)建具有長(zhǎng)度為F的模型。在一個(gè)實(shí)施例中,長(zhǎng)度F取決于最長(zhǎng)的幀差錯(cuò)影響容許持續(xù)時(shí)間。最長(zhǎng)容許時(shí)間最好提前從聽(tīng)眾的個(gè)人立場(chǎng)來(lái)確定。在另一實(shí)施例中,長(zhǎng)度F由控制處理器506進(jìn)行周期性變化。在其他實(shí)施例中,長(zhǎng)度F由控制處理器506進(jìn)行隨機(jī)或偽隨機(jī)變化。一種示范再現(xiàn)模型是PPPN,其中P代表預(yù)測(cè)編碼模式508、510,而N表示非預(yù)測(cè)或輕度預(yù)測(cè)編碼模式512。在替代實(shí)施例中,插入了多種非預(yù)測(cè)編碼模式。一種示范模型是PPNPPN。在模型長(zhǎng)度F改變的實(shí)施例中,模型PPPN可以遵循模型PPN,該模型PPN可以遵循模型PPPNPN等。
在一種實(shí)施例中,語(yǔ)音編碼器,例如圖6的語(yǔ)音編碼器500,執(zhí)行在圖7流程圖中所述的算法步驟以智能化地在確定間隔中插入低存儲(chǔ)或無(wú)需存儲(chǔ)編碼方案。在步驟600中,控制處理器(未示出)設(shè)定計(jì)數(shù)變量i等于0。隨后,控制處理器進(jìn)入步驟602。在步驟602中,控制處理器依據(jù)當(dāng)前幀的語(yǔ)音內(nèi)容分類為當(dāng)前語(yǔ)音幀選擇預(yù)測(cè)編碼模式。隨后,控制處理器進(jìn)入步驟604。在步驟604中,控制處理器用所選的預(yù)測(cè)編碼模式對(duì)當(dāng)前幀進(jìn)行編碼。隨后,控制處理器進(jìn)入步驟606。在步驟606中,控制處理器遞增計(jì)數(shù)變量i。隨后,控制處理器進(jìn)入步驟608。
在步驟608中,控制處理器判定計(jì)數(shù)變量i是否大于預(yù)定閾值T。預(yù)定閾值T可以依據(jù)幀差錯(cuò)影響的最長(zhǎng)容許持續(xù)時(shí)間,如最長(zhǎng)容許時(shí)間提前從目標(biāo)聽(tīng)眾的立場(chǎng)來(lái)確定。在特定實(shí)施例中,預(yù)定閾值T在流程圖的預(yù)定重復(fù)次數(shù)期間保持不變,并隨后由控制處理器改變?yōu)椴煌念A(yù)定值。如果計(jì)數(shù)變量i不大于預(yù)定閾值T,控制處理器返回步驟602以便為下一語(yǔ)音幀選擇預(yù)測(cè)編碼模式。另一方面,如果計(jì)數(shù)變量i大于預(yù)定閾值T,控制處理器進(jìn)入步驟610。在步驟610中,控制處理器用非預(yù)測(cè)或輕度預(yù)測(cè)編碼模式對(duì)下一語(yǔ)音幀進(jìn)行編碼。隨后,控制處理器返回步驟600,再次設(shè)定計(jì)數(shù)變量i等于0。
本領(lǐng)域的熟練技術(shù)人員可以認(rèn)識(shí)到圖7的流程圖可以進(jìn)行修改以結(jié)合不同的預(yù)測(cè)編碼和非預(yù)測(cè)或輕度預(yù)測(cè)編碼語(yǔ)音幀的再現(xiàn)模型。例如,計(jì)數(shù)變量i可以隨流程圖的每次重復(fù)或在預(yù)定次數(shù)重復(fù)流程圖之后,或偽隨機(jī),或隨機(jī)進(jìn)行變化?;蛘撸缭诓襟E610中可以用非預(yù)測(cè)編碼模式或輕度預(yù)測(cè)編碼模式對(duì)下兩個(gè)幀進(jìn)行編碼?;蛘?,例如,在步驟610中,可以用非預(yù)測(cè)編碼模式或輕度預(yù)測(cè)編碼模式對(duì)任意預(yù)定數(shù)目的幀,或隨機(jī)選定數(shù)目的幀,或偽隨機(jī)選定數(shù)目的幀,或隨流程圖的每次重復(fù)以預(yù)定方式變化的許多幀進(jìn)行編碼。
在一個(gè)實(shí)施例中,圖6的語(yǔ)音編碼器500是一種可變速率語(yǔ)音編碼器500,并且最好保持語(yǔ)音編碼器500的平均位率。在特定實(shí)施例中,在模型中所使用的每個(gè)預(yù)測(cè)編碼模式508、510以彼此不同的速率進(jìn)行編碼,并且非預(yù)測(cè)編碼模式512以不同于任意預(yù)測(cè)編碼模式508、510所使用的速率進(jìn)行編碼。在另一特定實(shí)施例中,預(yù)測(cè)編碼模式508、510以相對(duì)較低的位率進(jìn)行編碼,而非預(yù)測(cè)編碼模式512以相對(duì)較高的位率進(jìn)行編碼。因此,每隔F個(gè)幀就插入一次高質(zhì)量、低存儲(chǔ)或無(wú)需存儲(chǔ)的編碼方案,而在連續(xù)的高位率幀之間使用中-高質(zhì)量、深度預(yù)測(cè)、低位率的編碼方案,產(chǎn)生減少的平均編碼率。而與任意預(yù)測(cè)語(yǔ)音編碼器相比的優(yōu)勢(shì)在于,這種技術(shù)特別適用于低位率語(yǔ)音編碼器,在其中可以僅通過(guò)使用深度預(yù)測(cè)編碼方案來(lái)達(dá)到良好的語(yǔ)音品質(zhì)。由于它們的預(yù)測(cè)性質(zhì),這樣的低位率語(yǔ)音編碼器更加容易受到由幀差錯(cuò)引起的不良影響。通過(guò)周期性插入高位率、非預(yù)測(cè)編碼模式512,而同時(shí)保持各種低位率的預(yù)測(cè)編碼模式508、510,就可以同時(shí)達(dá)到所需的良好語(yǔ)音品質(zhì)和低平均編碼率。
在一個(gè)實(shí)施例中,通過(guò)將語(yǔ)音片斷中的所有幀以重復(fù)、確定模型進(jìn)行編碼,使得平均編碼率最好在預(yù)定平均率保持恒定或接近恒定,這樣平均率就等于R。一種示范模型是PPN,其中P代表預(yù)測(cè)編碼的幀,而N代表非預(yù)測(cè)或輕度預(yù)測(cè)編碼的幀。在這種模型中,第一幀以R/2進(jìn)行預(yù)測(cè)編碼,第二幀以R/2速率進(jìn)行預(yù)期編碼,而第三幀以2R速率進(jìn)行非預(yù)測(cè)或輕度預(yù)測(cè)編碼。隨后,重復(fù)模型等。這樣,平均編碼率為R。
另一示范模型是PPPN。在這種模型中,第一幀以R/2速率進(jìn)行預(yù)測(cè)編碼,第二幀以R速率進(jìn)行預(yù)期編碼,第三幀以R/2速率進(jìn)行預(yù)測(cè)編碼,而第四幀以2R速率進(jìn)行非預(yù)測(cè)或輕度預(yù)測(cè)編碼。隨后,重復(fù)模型等。這樣,平均編碼率為R。
另一示范模型是PPNPPN。在這種模型中,第一幀以R/2速率進(jìn)行編碼,第二幀以R/2速率進(jìn)行編碼,第三幀以2R速率進(jìn)行編碼,第四幀以R/3速率進(jìn)行編碼,第五幀以R/3速率進(jìn)行編碼,而第六幀以7R/3速率進(jìn)行編碼。隨后,重復(fù)模型等。這樣,平均編碼率為R。
另一示范模型是PPNPN。在這種模型中,第一幀以R/3速率進(jìn)行編碼,第二幀以R/3速率進(jìn)行編碼,第三幀以R/3速率進(jìn)行編碼,第四幀以3R速率進(jìn)行編碼,第五幀以R/2速率進(jìn)行編碼,而第六幀以3R/2速率進(jìn)行編碼。隨后,重復(fù)模型等。這樣,平均編碼率為R。
另一示范模型是PPNNPPN。在這種模型中,第一幀以R/3速率進(jìn)行編碼,第二幀以R/3速率進(jìn)行編碼,第三幀以2R速率進(jìn)行編碼,第四幀以2R速率進(jìn)行編碼,第五幀以R/2速率進(jìn)行編碼,第六幀以R/2速率進(jìn)行編碼,而第七幀以4R/3速率進(jìn)行編碼。隨后,重復(fù)模型等。這樣,平均編碼率為R。
本領(lǐng)域的熟練技術(shù)人員可以理解也能使用任意上述模型的任意循環(huán)輪轉(zhuǎn)。本領(lǐng)域的熟練技術(shù)人員也可以認(rèn)識(shí)到上述模型以及其他模型可以以所選的隨機(jī)或偽隨機(jī),或?qū)嶋H周期的任意順序結(jié)合在一起。本領(lǐng)域的熟練技術(shù)人員可以進(jìn)一步理解可以使用任意組編碼率,使得這些編碼率平均為在模型持續(xù)時(shí)間上(F幀)所需的平均編碼率R。
強(qiáng)制要進(jìn)行非預(yù)測(cè)或輕度編碼的幀以高速率進(jìn)行編碼會(huì)使得幀差錯(cuò)的影響僅持續(xù)與模型一樣長(zhǎng)的時(shí)間,而保持了語(yǔ)音片斷的所需平均編碼率R。實(shí)際上,如果語(yǔ)音片斷沒(méi)有包括確切的F個(gè)幀(模型長(zhǎng)度)的倍數(shù),控制處理器可以配置用于對(duì)模型進(jìn)行智能輪換以達(dá)到或多或少更低的平均速率。如果語(yǔ)音片斷的所需有效平均編碼率R改為通過(guò)以固定速率R對(duì)片斷中的所有幀進(jìn)行編碼來(lái)實(shí)現(xiàn),并且速率R對(duì)于使用預(yù)測(cè)來(lái)說(shuō)相對(duì)較低,語(yǔ)音編碼器將非常易受持續(xù)的幀差錯(cuò)影響。
本領(lǐng)域的熟練技術(shù)人員可以理解,雖然,上述實(shí)施例是基于可變速率語(yǔ)音編碼器,但基于模型的方案(例如上述這些方案)也可以適用于固定速率的預(yù)測(cè)語(yǔ)音編碼器。如果固定速率的預(yù)測(cè)語(yǔ)音編碼器是低位率語(yǔ)音編碼器,幀差錯(cuò)情況就會(huì)對(duì)語(yǔ)音編碼器有不利影響。非預(yù)測(cè)編碼或輕度預(yù)測(cè)編碼幀可能具有比以相同低速率編碼的預(yù)測(cè)編碼幀更低的品質(zhì)。不過(guò)每隔F個(gè)幀就引入一非預(yù)測(cè)編碼或輕度預(yù)測(cè)編碼幀就會(huì)消除每隔F個(gè)幀的幀差錯(cuò)影響。
這樣,就已經(jīng)描述了一種用于在預(yù)測(cè)語(yǔ)音編碼器中使用編碼方案選擇模型以減少對(duì)幀差錯(cuò)情況敏感性的新穎方法和設(shè)備。本領(lǐng)域的熟練技術(shù)人員可以理解結(jié)合在此揭示的實(shí)施例所描述的各種說(shuō)明邏輯框和算法步驟可以通過(guò)電子硬件、計(jì)算機(jī)軟件或兩者的結(jié)合來(lái)實(shí)現(xiàn)。各種說(shuō)明部件、框和步驟通常依據(jù)其功能性進(jìn)行描述這些功能性是由硬件或軟件來(lái)實(shí)現(xiàn)是取決于特定的應(yīng)用和施加在整個(gè)系統(tǒng)上的設(shè)計(jì)約束。熟練技術(shù)人員認(rèn)識(shí)到在情況下的硬件和軟件的交換性,以及如何能針對(duì)每個(gè)特定應(yīng)用最佳地實(shí)現(xiàn)所述功能性。作為示例,結(jié)合在此揭示的實(shí)施例所描述的各種說(shuō)明邏輯框和算法步驟可以由數(shù)字信號(hào)處理器(DSP)、專用集成電路(ASIC)、分立門或晶體管邏輯、分立的硬件部件,例如寄存器和FIFO、執(zhí)行一組固件指令的處理器或任意傳統(tǒng)可編程軟件模塊以及處理器來(lái)實(shí)現(xiàn)或執(zhí)行。處理器最好是微處理器,但作為替代,處理器可以是任意傳統(tǒng)的處理器、控制器、微控制器或狀態(tài)機(jī)。軟件模塊可以駐留在RAM存儲(chǔ)器、閃存、寄存器或不利于已知的任意其他形式的可寫存儲(chǔ)媒體。本領(lǐng)域的熟練技術(shù)人員可以進(jìn)一步理解在上述整個(gè)描述中所參照的數(shù)據(jù)、指令、命令、信息、信號(hào)、位、符號(hào)和芯片最好由電壓、電流、電磁波、磁場(chǎng)或粒子、光場(chǎng)或粒子、或其任意結(jié)合來(lái)表示。
本發(fā)明的較佳實(shí)施例已經(jīng)示出,并進(jìn)行了描述。在不背離本發(fā)明的精神和范疇的情況下,對(duì)于本領(lǐng)域的熟練技術(shù)人員來(lái)說(shuō),對(duì)這些實(shí)施例各種修改將是顯而易見(jiàn)的。因而,除下述權(quán)利要求外,本發(fā)明并不受其他限制。
權(quán)利要求
1.一種語(yǔ)音編碼器,其特征在于,包括至少一種預(yù)測(cè)編碼模式;至少一種非預(yù)測(cè)編碼模式;以及與所述至少一種預(yù)測(cè)編碼模式和至少一種非預(yù)測(cè)編碼模式結(jié)合的處理器,所述處理器配置用于通過(guò)根據(jù)編碼語(yǔ)音幀的模型所選的編碼模式引起對(duì)連續(xù)語(yǔ)音幀進(jìn)行編碼,所述模型包括至少一個(gè)用所述非預(yù)測(cè)編碼模式進(jìn)行編碼的語(yǔ)音幀。
2.如權(quán)利要求1所述的語(yǔ)音編碼器,其特征在于,所述至少一種非預(yù)測(cè)編碼模式包括一種非預(yù)測(cè)編碼模式。
3.如權(quán)利要求1所述的語(yǔ)音編碼器,其特征在于,所述至少一種非預(yù)測(cè)編碼模式是一種輕度預(yù)測(cè)編碼模式。
4.如權(quán)利要求1所述的語(yǔ)音編碼器,其特征在于,所述至少一種非預(yù)測(cè)編碼模式是一種完全的非預(yù)測(cè)編碼模式。
5.如權(quán)利要求1所述的語(yǔ)音編碼器,其特征在于,所述處理器進(jìn)一步配置用于維持編碼語(yǔ)音幀模型的平均編碼率。
6.如權(quán)利要求1所述的語(yǔ)音編碼器,其特征在于,所述編碼語(yǔ)音幀模型包括用至少一種預(yù)測(cè)編碼模式進(jìn)行編碼的多個(gè)語(yǔ)音幀,用至少一種預(yù)測(cè)編碼模式進(jìn)行編碼的語(yǔ)音幀數(shù)由聽(tīng)眾預(yù)先確定。
7.如權(quán)利要求1所述的語(yǔ)音編碼器,其特征在于,所述模型是再現(xiàn)模型。
8.如權(quán)利要求1所述的語(yǔ)音編碼器,其特征在于,所述模型是變化模型。
9.一種對(duì)語(yǔ)音幀進(jìn)行編碼的方法,其特征在于,包括下述步驟用預(yù)測(cè)編碼模式對(duì)預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼;在執(zhí)行用預(yù)測(cè)編碼模式對(duì)預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼的步驟之后,用非預(yù)測(cè)編碼模式對(duì)至少一個(gè)語(yǔ)音幀進(jìn)行編碼;以及重復(fù)所述兩個(gè)編碼步驟,以便產(chǎn)生多個(gè)依據(jù)模型編碼的語(yǔ)音幀。
10.如權(quán)利要求9所述的方法,其特征在于,所述模型是再現(xiàn)模型。
11.如權(quán)利要求9所述的方法,其特征在于,所述模型是變化模型。
12.如權(quán)利要求9所述的方法,其特征在于,所述非預(yù)測(cè)編碼模式是輕度預(yù)測(cè)編碼模式。
13.如權(quán)利要求9所述的方法,其特征在于,所述非預(yù)測(cè)編碼模式是完全的非預(yù)測(cè)編碼模式。
14.如權(quán)利要求9所述的方法,其特征在于,進(jìn)一步包括維持編碼語(yǔ)音幀模型的平均編碼率的步驟。
15.如權(quán)利要求9所述的方法,其特征在于,所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀由聽(tīng)眾預(yù)先確定。
16.如權(quán)利要求9所述的方法,其特征在于,進(jìn)一步包括改變所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀的步驟。
17.如權(quán)利要求16所述的方法,其特征在于,所述改變步驟包括周期性改變所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀。
18.如權(quán)利要求16所述的方法,其特征在于,所述改變步驟包括隨機(jī)改變所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀。
19.一種語(yǔ)音編碼器,其特征在于,包括用于用預(yù)測(cè)編碼模式對(duì)預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼的裝置;在用所述預(yù)測(cè)編碼模式對(duì)所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀進(jìn)行編碼之后,用于用非預(yù)測(cè)編碼模式對(duì)至少一個(gè)語(yǔ)音幀進(jìn)行編碼的裝置;以及用于產(chǎn)生多個(gè)依據(jù)模型編碼的語(yǔ)音幀的裝置,所述模型包括至少一個(gè)用所述非預(yù)測(cè)編碼模式進(jìn)行編碼的語(yǔ)音幀。
20.如權(quán)利要求19所述的語(yǔ)音編碼器,其特征在于,所述模型是再現(xiàn)模型。
21.如權(quán)利要求19所述的語(yǔ)音編碼器,其特征在于,所述模型是變化模型。
22.如權(quán)利要求19所述的語(yǔ)音編碼器,其特征在于,所述非預(yù)測(cè)編碼模式是輕度預(yù)測(cè)編碼模式。
23.如權(quán)利要求19所述的語(yǔ)音編碼器,其特征在于,所述非預(yù)測(cè)編碼模式是完全的非預(yù)測(cè)編碼模式。
24.如權(quán)利要求19所述的語(yǔ)音編碼器,其特征在于,進(jìn)一步包括用于維持編碼語(yǔ)音幀模型的平均編碼率的裝置。
25.如權(quán)利要求19所述的語(yǔ)音編碼器,其特征在于,所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀由聽(tīng)眾預(yù)先確定。
26.如權(quán)利要求19所述的語(yǔ)音編碼器,其特征在于,進(jìn)一步包括用于改變所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀的裝置。
27.如權(quán)利要求26所述的語(yǔ)音編碼器,其特征在于,所述改變裝置包括用于周期性改變所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀的裝置。
28.如權(quán)利要求26所述的語(yǔ)音編碼器,其特征在于,所述改變裝置包括用于隨機(jī)改變所述預(yù)定數(shù)量的連續(xù)語(yǔ)音幀的裝置。
29.一種對(duì)語(yǔ)音幀進(jìn)行編碼的方法,其特征在于,包括以一種模型對(duì)多個(gè)語(yǔ)音幀進(jìn)行編碼的步驟,所述模型包括至少一個(gè)預(yù)測(cè)編碼語(yǔ)音幀和至少一個(gè)非預(yù)測(cè)編碼語(yǔ)音幀。
30.如權(quán)利要求29所述的方法,其特征在于,所述模型是再現(xiàn)模型。
31.如權(quán)利要求29所述的方法,其特征在于,所述模型是變化模型。
32.一種對(duì)語(yǔ)音幀進(jìn)行編碼的方法,其特征在于,包括以一種模型對(duì)多個(gè)語(yǔ)音幀進(jìn)行編碼的步驟,所述模型包括至少一個(gè)深度預(yù)測(cè)編碼語(yǔ)音幀和至少一個(gè)輕度預(yù)測(cè)編碼語(yǔ)音幀。
33.如權(quán)利要求32所述的方法,其特征在于,所述模型是再現(xiàn)模型。
34.如權(quán)利要求32所述的方法,其特征在于,所述模型是變化模型。
全文摘要
一種在預(yù)測(cè)語(yǔ)音編碼器中使用編碼方案選擇模型(pattern)以減少對(duì)幀差錯(cuò)狀態(tài)敏感性的方法和設(shè)備包括配置用于從多種預(yù)測(cè)編碼模式中進(jìn)行選擇的語(yǔ)音編碼器。在預(yù)定數(shù)量的語(yǔ)音幀已經(jīng)預(yù)測(cè)編碼之后,語(yǔ)音編碼器用非預(yù)測(cè)編碼模式或輕度預(yù)測(cè)編碼模式對(duì)幀進(jìn)行編碼。預(yù)定數(shù)量的幀可以提前由聽(tīng)眾的主觀立場(chǎng)確定。預(yù)定數(shù)量的幀可以進(jìn)行周期性變化。通過(guò)對(duì)每個(gè)連續(xù)模型或組或預(yù)測(cè)編碼語(yǔ)音幀保持平均編碼位率,就能保持語(yǔ)音編碼器的平均編碼位率,所述語(yǔ)音幀包括至少一種非預(yù)測(cè)編碼或輕度預(yù)測(cè)編碼的語(yǔ)音幀。
文檔編號(hào)G10L19/00GK1402869SQ00814971
公開(kāi)日2003年3月12日 申請(qǐng)日期2000年10月26日 優(yōu)先權(quán)日1999年10月28日
發(fā)明者S·曼祖那什, A·P·德佳科, A·K·阿南薩帕德曼那伯漢, E·L·T·喬依 申請(qǐng)人:高通股份有限公司