欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種超幀聲道參數(shù)平滑和抽取矢量量化的方法

文檔序號(hào):7507304閱讀:211來源:國(guó)知局
專利名稱:一種超幀聲道參數(shù)平滑和抽取矢量量化的方法
技術(shù)領(lǐng)域
本發(fā)明屬于語音編碼技術(shù)領(lǐng)域,特別涉及多幀聯(lián)合處理低碼率參數(shù)語音編碼技術(shù)。
背景技術(shù)
語音編碼在通信系統(tǒng)、語音存儲(chǔ)回放系統(tǒng)、具有語音功能的消費(fèi)類產(chǎn)品中有廣泛的應(yīng)用。近些年來國(guó)際電信聯(lián)盟(ITU)、一些區(qū)域組織和一些國(guó)家相繼制定了一系列語音壓縮編碼標(biāo)準(zhǔn),在編碼速率為1.2kb/s到16kb/s上得到了令人滿意的語音質(zhì)量。目前國(guó)內(nèi)外的研究主要集中在1.2kb/s以下速率高質(zhì)量語音壓縮編碼上,主要用于無線通信、保密通信、大容量語音存儲(chǔ)回放等。由于編碼速率太低,必須采用多幀聯(lián)合(即超幀)處理的參數(shù)語音編碼技術(shù),其中最關(guān)鍵的是如何對(duì)聲道參數(shù)進(jìn)行量化,因?yàn)槁暤绤?shù)量化所需要的比特?cái)?shù)最高,對(duì)它量化的質(zhì)量將決定語音可懂度。
直接對(duì)聲道A參數(shù)量化效果不好,因此需要將聲道A參數(shù)轉(zhuǎn)成線譜對(duì)參數(shù),然后再進(jìn)行量化。如圖1所示,該方法包括以下步驟(1)對(duì)輸入語音信號(hào)樣點(diǎn)按時(shí)間順序分幀,將連續(xù)的若干幀組成一個(gè)超幀;(2)對(duì)超幀按時(shí)間順序進(jìn)行處理,然后對(duì)當(dāng)前超幀中的每一幀提取聲道A參數(shù);(3)將當(dāng)前超幀中的每一幀提取的聲道A參數(shù)轉(zhuǎn)換成線譜對(duì)參數(shù);(4)再?gòu)脑摼€譜對(duì)參數(shù)中減去相應(yīng)的直流分量,該直流分量是用大量語音樣本統(tǒng)計(jì)得到的;(5)然后利用已處理過的上一個(gè)超幀線譜對(duì)參數(shù)對(duì)當(dāng)前超幀中的每一幀線譜對(duì)參數(shù)的進(jìn)行預(yù)測(cè),從去直流線譜對(duì)參數(shù)中減去該預(yù)測(cè)值,得到當(dāng)前超幀的余量線譜對(duì)參數(shù);(6)再對(duì)預(yù)測(cè)余量參數(shù)進(jìn)行矢量量化,得到的量化后的預(yù)測(cè)余量參數(shù)加上對(duì)應(yīng)的直流分量和預(yù)測(cè)值后得到量化后的線譜對(duì)參數(shù);同時(shí)將量化后的預(yù)測(cè)余量參數(shù)送入延遲單元,延遲一個(gè)超幀為下一個(gè)超幀預(yù)測(cè)使用;(7)最后將量化后的線譜對(duì)參數(shù)轉(zhuǎn)換成聲道A參數(shù),得到量化后的聲道A參數(shù)。
上述已有技術(shù)對(duì)線譜對(duì)參數(shù)不做平滑,直接進(jìn)行處理,并且對(duì)于超幀全部線譜對(duì)參數(shù)進(jìn)行矢量量化。對(duì)于1200b/s以上速率參數(shù)編碼,由于量化線譜對(duì)參數(shù)可用比特?cái)?shù)較多,可以用上述直接方法對(duì)線譜對(duì)參數(shù)量化,仍然能夠得到好的量化效果。對(duì)于更低碼率語音參數(shù)編碼,由于可用比特?cái)?shù)少,又沒有平滑有效去除參數(shù)的隨機(jī)擾動(dòng),因而聲道參數(shù)量化精度低,量化效率及量化效果差,進(jìn)而得到語音質(zhì)量不好。

發(fā)明內(nèi)容
本發(fā)明的目的是為克服已有技術(shù)的不足之處,提出一種超幀聲道參數(shù)平滑和重要幀抽取矢量量化的方法。該方法能夠去除聲道參數(shù)高頻隨機(jī)擾動(dòng),比較好的利用幀之間、超幀之間的相關(guān)性,提高聲道參數(shù)量化精度,并降低所需運(yùn)算量。特別適用于更低碼率語音參數(shù)編碼。
本發(fā)明提出的超幀聲道參數(shù)量化方法,包括以下步驟(1)對(duì)輸入語音信號(hào)樣點(diǎn)按時(shí)間順序分幀,將連續(xù)的若干幀組成一個(gè)超幀;(2)對(duì)當(dāng)前超幀中的每一幀提取聲道A參數(shù);(3)將當(dāng)前超幀中的每一幀聲道A參數(shù)轉(zhuǎn)換成線譜對(duì)參數(shù);(4)對(duì)當(dāng)前超幀線譜對(duì)參數(shù)按時(shí)間方向平滑,去除該參數(shù)的高頻隨機(jī)擾動(dòng);(5)對(duì)當(dāng)前超幀中的每一幀提取清濁音參數(shù);(6)對(duì)當(dāng)前超幀的清濁音參數(shù)進(jìn)行矢量量化,得到當(dāng)前超幀量化后的清濁音參數(shù)量化值;(7)根據(jù)當(dāng)前超幀清濁音參數(shù)量化值確定當(dāng)前超幀模式;(8)根據(jù)當(dāng)前超幀的模式確定當(dāng)前超幀抽取幀的模式,被抽取的幀定為重要幀,其余的幀定為非重要幀;(9)根據(jù)當(dāng)前超幀的模式確定當(dāng)前超幀中重要幀中每一個(gè)線譜對(duì)參數(shù)的直流分量,并從每一個(gè)線譜對(duì)參數(shù)中減去相應(yīng)的直流分量;(10)根據(jù)當(dāng)前超幀模式和前一個(gè)超幀的模式確定一組重要幀線譜對(duì)參數(shù)預(yù)測(cè)系數(shù);(11)利用該組預(yù)測(cè)系數(shù)和前一超幀中最后一幀量化后的余量線譜對(duì)參數(shù)計(jì)算預(yù)測(cè)值;從當(dāng)前超幀重要幀中每一個(gè)已去直流線譜對(duì)參數(shù)中減去相應(yīng)的預(yù)測(cè)值,得到當(dāng)前超幀重要幀的余量線譜對(duì)參數(shù);(12)對(duì)當(dāng)前超幀中重要幀的余量線譜對(duì)參數(shù)進(jìn)行矢量量化,得到當(dāng)前超幀量化后的重要幀余量線譜對(duì)參數(shù);(13)將上述步驟(9)得到的直流分量和上述步驟(11)得到的預(yù)測(cè)值加到量化后的重要幀余量線譜對(duì)參數(shù)中得到量化后的重要幀線譜對(duì)參數(shù);(14)利用量化后的重要幀線譜對(duì)參數(shù),通過插值的方法產(chǎn)生量化后的非重要幀線譜對(duì)參數(shù);(15)將當(dāng)前超幀量化后的重要幀線譜對(duì)參數(shù)及非重要幀線譜對(duì)參數(shù)轉(zhuǎn)換成聲道A參數(shù),得到量化后的聲道A參數(shù)。
本發(fā)明的對(duì)線譜對(duì)參數(shù)在量化之前先對(duì)線譜對(duì)參數(shù)進(jìn)行低頻濾波的平滑的方法可采用離散余弦變換,丟棄高頻系數(shù),然后再做反離散余弦變換,得到平滑后的線譜對(duì)參數(shù)。
本發(fā)明確定當(dāng)前超幀中重要幀和非重要幀的具體方法為將每一個(gè)超幀最后一幀定為重要幀(這樣做可以使前后超幀更好的銜接),第一幀定為非重要幀,以便利用前一超幀中的最后一幀的插值能力;其它幀確定原則是語音段中影響可懂度大的幀定為重要幀(例如語音起始段、過渡段等,它們可以從量化后的當(dāng)前超幀清濁音參數(shù)看出),還需要考慮要有利于插值,盡量使非重要幀不相鄰。
如果編碼速率較高,對(duì)于非重要幀的插值誤差矢量量化方法可采用與它前后相鄰最近的兩個(gè)重要幀的量化后的線譜對(duì)參數(shù)插值產(chǎn)生,插值誤差可以忽略;也可以用少量比特做矢量量化,以達(dá)到更好的全超幀聲道參數(shù)矢量量化精度。
本發(fā)明的特點(diǎn)及技術(shù)效果本發(fā)明的特點(diǎn)是對(duì)線譜對(duì)參數(shù)在量化之前先進(jìn)行平滑,去除參數(shù)的高頻隨機(jī)擾動(dòng),然后根據(jù)當(dāng)前超幀的模式去除非重要幀,只對(duì)重要幀線譜對(duì)參數(shù)量化,量化后的非重要幀的線譜對(duì)參數(shù)是通過量化后的重要幀線譜對(duì)參數(shù)進(jìn)行插值得到的。傳統(tǒng)語音生成模型認(rèn)為人在發(fā)音過程中聲道形狀在短時(shí)間內(nèi)是保持不變的,實(shí)際上由于動(dòng)作、呼吸及其它一些原因,聲道管壁會(huì)有一定的隨機(jī)運(yùn)動(dòng),因此造成提取的聲道參數(shù)會(huì)有小的隨機(jī)擾動(dòng)。這種擾動(dòng)使聲道參數(shù)分布擴(kuò)散,降低幀與幀之間聲道參數(shù)的相關(guān)性,并使聲道參數(shù)矢量量化誤差加大。本發(fā)明通過試驗(yàn),發(fā)現(xiàn)去除聲道參數(shù)高頻隨機(jī)擾動(dòng)后合成出的語音和原始語音幾乎聽不出差別。去除高頻隨機(jī)擾動(dòng)后的聲道參數(shù)分布范圍縮小、幀之間的相關(guān)性增加,有利于提高預(yù)測(cè)增益和插值精度,也有利于矢量量化的精度。
本發(fā)明采用跨超幀離散余弦變換,丟棄變換的高頻分量,達(dá)到去除高頻隨機(jī)擾動(dòng)、平滑聲道參數(shù)的目的。試驗(yàn)測(cè)試表明,經(jīng)過這樣平滑的聲道參數(shù)矢量量化精度提高十分顯著。
平滑后的聲道參數(shù)幀與幀之間相關(guān)性得到增強(qiáng),一個(gè)幀的聲道參數(shù)可以用它相鄰兩邊幀的聲道參數(shù)插值來近似,不一定花費(fèi)比特對(duì)它量化。本發(fā)明提出抽取重要幀聲道參數(shù)量化的方法,對(duì)于提取重要幀后剩余的非重要幀不做量化,而是使用量化后的重要幀通過插值來得到。這樣每個(gè)超幀所需要量化的聲道參數(shù)數(shù)目得到降低,如果使用同樣數(shù)目比特進(jìn)行矢量量化,可以提高量化的精度,由于矢量量化維數(shù)減小,使量化運(yùn)算量也得到降低。
本方法可以提高聲道參數(shù)的量化精度,使合成語音具有更高的可懂性。該方法適合300~1200b/s低速率參數(shù)語音編碼。


圖1為已有技術(shù)的超幀聲道參數(shù)矢量量化方法流程框圖。
圖2為本發(fā)明提出的超幀聲道參數(shù)平滑和抽取矢量量化方法流程框圖。
具體實(shí)施例方式
本發(fā)明提出的超幀聲道參數(shù)矢量量化的方法結(jié)合附圖及實(shí)施例進(jìn)一步說明如下本發(fā)明的方法流程如圖2所示,包括以下步驟(1)對(duì)輸入語音信號(hào)樣點(diǎn)按時(shí)間順序分幀,將連續(xù)的若干幀組成一個(gè)超幀;(2)對(duì)當(dāng)前超幀中的每一幀提取聲道A參數(shù);(3)將當(dāng)前超幀中的每一幀聲道A參數(shù)轉(zhuǎn)換成線譜對(duì)參數(shù);(4)對(duì)當(dāng)前超幀線譜對(duì)參數(shù)進(jìn)行低頻濾波的按時(shí)間方向平滑;(5)對(duì)當(dāng)前超幀中的每一幀提取清濁音參數(shù);(6)對(duì)當(dāng)前超幀的清濁音參數(shù)進(jìn)行矢量量化,得到當(dāng)前超幀量化后的清濁音參數(shù)量化值;(7)根據(jù)當(dāng)前超幀清濁音參數(shù)量化值確定當(dāng)前超幀模式;(8)根據(jù)當(dāng)前超幀的模式確定當(dāng)前超幀抽取幀的模式,被抽取的幀定為重要幀,其余的幀定為非重要幀;(9)根據(jù)當(dāng)前超幀的模式確定當(dāng)前超幀中重要幀中每一個(gè)線譜對(duì)參數(shù)的直流分量,并從每一個(gè)線譜對(duì)參數(shù)中減去相應(yīng)的直流分量;(10)根據(jù)當(dāng)前超幀模式和前一個(gè)超幀的模式確定一組重要幀線譜對(duì)參數(shù)預(yù)測(cè)系數(shù);(11)利用該組預(yù)測(cè)系數(shù)和前一超幀中最后一幀量化后的余量線譜對(duì)參數(shù)(通過多模式預(yù)測(cè)器)計(jì)算預(yù)測(cè)值;從當(dāng)前超幀重要幀中每一個(gè)已去直流線譜對(duì)參數(shù)中減去相應(yīng)的預(yù)測(cè)值,得到當(dāng)前超幀重要幀的余量線譜對(duì)參數(shù);(12)對(duì)當(dāng)前超幀中重要幀的余量線譜對(duì)參數(shù)進(jìn)行矢量量化,得到當(dāng)前超幀量化后的重要幀余量線譜對(duì)參數(shù);(13)將上述步驟(9)得到的直流分量和上述步驟(11)得到的預(yù)測(cè)值加到量化后的重要幀余量線譜對(duì)參數(shù)中得到量化后的重要幀線譜對(duì)參數(shù);(14)利用量化后的重要幀線譜對(duì)參數(shù),通過插值的方法產(chǎn)生量化后的非重要幀線譜對(duì)參數(shù);(15)將當(dāng)前超幀量化后的重要幀線譜對(duì)參數(shù)及非重要幀線譜對(duì)參數(shù)轉(zhuǎn)換成聲道A參數(shù),得到量化后的聲道A參數(shù)。
本發(fā)明上述方法各步驟的具體實(shí)施例分別詳細(xì)說明如下上述方法步驟(1)對(duì)輸入語音信號(hào)樣點(diǎn)按時(shí)間順序分幀,將連續(xù)的若干幀組成一個(gè)超幀的實(shí)施例是按8khz頻率采樣、已經(jīng)過高通濾波去除工頻干擾的語音樣點(diǎn)。每20ms,也就是160個(gè)語音樣點(diǎn)構(gòu)成一幀,連續(xù)6幀組成一個(gè)超幀(根據(jù)編碼速率選擇一個(gè)超幀所晗幀的數(shù)目,例如編碼速率為1200b/s可以選3幀,600b/s選6幀等)。
上述方法步驟(2)的實(shí)施例為按美國(guó)政府2400b/s多帶激勵(lì)的線性預(yù)測(cè)(MELP)語音編碼算法標(biāo)準(zhǔn)所描述的方法對(duì)當(dāng)前超幀中的每一幀都提取10階聲道A參數(shù)an=[a1n,a2n,…,a10n](n=1,2,…,6)。
上述方法步驟(3)的實(shí)施例為按美國(guó)政府2400b/s多帶激勵(lì)的線性預(yù)測(cè)(MELP)語音編碼算法標(biāo)準(zhǔn)所描述的方法將當(dāng)前超幀中的每一幀聲道A參數(shù)轉(zhuǎn)換成線譜對(duì)參數(shù)fn=[f1n,f2n,…,f10n],(n=1,2,…,6)。
上述方法步驟(4)的實(shí)施例為設(shè)上一超幀最后一個(gè)幀的線譜對(duì)參數(shù)為fi0(i=1,2,…,10),下一個(gè)超幀頭一幀和第二幀線譜對(duì)參數(shù)為fi7,fi8(i=1,2,…,10)。對(duì)這三個(gè)超幀的有關(guān)9幀線譜對(duì)參數(shù)按時(shí)間方向進(jìn)行9點(diǎn)離散余弦變換,設(shè)變換系數(shù)為Fi(l),(l=0,1,…,8;i=1,2,…,10),只計(jì)算低頻6組變換系數(shù),這相當(dāng)于用丟掉3組高頻系數(shù)去除高頻隨機(jī)擾動(dòng)Fi(l)=ω(l)Σn=08fincos(2n+1)lπ18,(l=0,1,···,5;i=1,2,···,10)]]>式中ω(l)=1/9,l=02/9,1≤l≤8]]>用這6組低頻變換系數(shù)計(jì)算經(jīng)過平滑的當(dāng)前超幀線譜對(duì)參數(shù)fn=[f1n,f2n,…,f10n],(n=1,2,…,6)如下式f‾in=Σl=05ω(l)Fi(l)cos(2n+1)lπ18,(n=1,2,···,6;i=1,2,···,10)]]>
上述方法步驟(5)的實(shí)施例為按美國(guó)政府2400b/s多帶激勵(lì)的線性預(yù)測(cè)(MELP)語音編碼算法標(biāo)準(zhǔn)所描述的方法對(duì)當(dāng)前超幀中的每一幀都提取5個(gè)子帶的清濁音參數(shù),子帶為清音用“0”表示,子帶為濁音用“1”表示。這樣一個(gè)超幀中6個(gè)幀總共有30個(gè)子帶清濁音參數(shù),構(gòu)成一個(gè)30維的矢量,每一維的值為“0”或“1”,記做BB=[B(0),B(1),···,B(5)]=[b1(0),b2(0),···,b5(0),······,b1(5),b2(5),···,b5(5)]]]>上述方法步驟(6)中的實(shí)施例為對(duì)上述清濁音矢量B用4比特矢量量化,總共有16種超幀清濁音矢量量化值,每一個(gè)矢量量化值對(duì)應(yīng)一種超幀模式;本實(shí)施例的矢量量化值碼表由表1給出,對(duì)應(yīng)的超幀模式也在表1中給出。量化失真測(cè)度采用加權(quán)歐氏距離準(zhǔn)則,即使下式所示的失真D最小D=(B-Bi)·W·(B-Bi)T其中Bi(i=0,1,…,15)是矢量量化碼本中的一個(gè)碼字,加權(quán)矩陣W是一個(gè)對(duì)角矩陣,其值用來表示各子帶重要性的不同。通常低帶最重要,隨著頻帶的升高重要性依次降低,對(duì)每幀的5個(gè)子帶分配不同的權(quán)重,在本實(shí)施例中,5個(gè)子帶權(quán)重的比例為16∶8∶4∶2∶1,反映了低頻子帶比高頻子帶更重要,從而加權(quán)矩陣W如下所示 每個(gè)碼字都代表了超幀的一種模式,也就是說,通過超幀清濁判決參數(shù)的量化,可以確定超幀的模式。清濁音矢量量化碼字是通過對(duì)訓(xùn)練語音樣本統(tǒng)計(jì)得到的出現(xiàn)次數(shù)最多的16種超幀清濁音矢量。
上述方法步驟(7)的實(shí)施例為通過步驟(5)的實(shí)施例中對(duì)清濁音矢量B量化的結(jié)果,利用表1確定當(dāng)前超幀的模式,記作B0,下標(biāo)“0”表示當(dāng)前超幀。
上述方法步驟(8)的實(shí)施例為利用步驟(7)確定的當(dāng)前超幀的模式,通過查表1確定當(dāng)前超幀的重要幀和非重要幀。表1重要幀的確定是根據(jù)當(dāng)前超幀清濁音量化結(jié)果和前述原則來決定的。本實(shí)施例采用每超幀含4個(gè)重要幀,2個(gè)非重要幀。第1幀總是定為非重要幀,可以利用前一超幀的第6幀的插值能力。第6幀總是定為重要幀,以保證超幀之間插值的連續(xù)性。其它重要幀的選取則考慮該幀對(duì)語音可懂性是否重要和是否有利于插值來確定。
另外一種抽取的方法可以采用均勻抽取方式,例如1、3、5幀定為非重要幀,2、4、6幀定為重要幀。但效果沒有本實(shí)施例的方法好。
表1超幀清濁音矢量量化碼表和對(duì)應(yīng)的超幀模式及重要幀序號(hào)

上述方法步驟(9)的實(shí)施例為使用上述步驟(7)的實(shí)施例方法得到的當(dāng)前超幀模式B0確定當(dāng)前超幀各重要幀線譜對(duì)參數(shù)的直流分量矢量dn(F0)=(d1n,d2n,···,d10n),n∈(2,3,···,6),]]>并從對(duì)應(yīng)的線譜對(duì)參數(shù)中減去直流分量,得到去直流分量后的線譜對(duì)參數(shù)ln=[l1n,l2n,…,l10n]n∈(2,3,…,6)ln=fn-dn(F0),n∈(2,3,…,6)直流分量dn(F0)=(d1n,d2n,···,d10n),n∈(2,3,···,6)]]>是用訓(xùn)練語音得到的。本實(shí)施例的具體做法是將訓(xùn)練語音按超幀模式分成16個(gè)子集,對(duì)每個(gè)子集的線譜對(duì)參數(shù)分別求平均值即得到線譜對(duì)參數(shù)直流分量。
上述方法步驟(10)的實(shí)施例為根據(jù)當(dāng)前超幀模式B0和前一超幀模式B-1的轉(zhuǎn)移模式(B-1,B0)確定一組線譜對(duì)參數(shù)預(yù)測(cè)系數(shù)矩陣an(B-1,B0),n∈(2,3,…,6),它是一個(gè)10×10的矩陣。
上述方法步驟(11)的實(shí)施例為利用上述步驟(10)的實(shí)施例方法得到的預(yù)測(cè)系數(shù)矩陣an(B-1,B0)和前一超幀中最后一幀量化后的去直流線譜對(duì)參數(shù)矢量l^-16=(l-1,16,l-1,26,···,l-1,106)]]>計(jì)算預(yù)測(cè)值,并從上述步驟(7)的實(shí)施例得到的當(dāng)前超幀中重要幀的每一個(gè)已去直流線譜對(duì)參數(shù)ln=[l1n,l2n,…,l10n],n∈(2,3,…,6)中減去相應(yīng)的預(yù)測(cè)值,得到當(dāng)前超幀重要幀的余量線譜對(duì)參數(shù)rn=(r1n,r2n,···,r10n),n∈(2,3,···,6),]]>即rn=ln-αn(B-1,B0)·(l^-15)T,n∈(2,3,···,6)]]>上式中的T代表轉(zhuǎn)置。預(yù)測(cè)系數(shù)矩陣an(B-1,B0)是用訓(xùn)練語音得到的。本實(shí)施例的具體做法是按轉(zhuǎn)移模式(B-1,B0)將訓(xùn)練語音分集,對(duì)每個(gè)集分別求an(B-1,B0),使下式最小minE(Σi∈(2,3,···,6)(li-αi(B-1,B0)·l^-1)2)]]>式中E代表求平均。
上述方法步驟(12)的實(shí)施例的具體做法為將當(dāng)前超幀中4個(gè)重要幀的40個(gè)余量線譜對(duì)參數(shù)組成2個(gè)20維的矢量,第一個(gè)矢量由各重要幀的前5個(gè)余量線譜對(duì)參數(shù)組成,第二個(gè)矢量由各重要幀的后5個(gè)余量線譜對(duì)參數(shù)組成,然后分別用24和21個(gè)比特進(jìn)行分級(jí)矢量量化,分級(jí)比特?cái)?shù)分別為9、8、7和8、7、6。
上述方法步驟(13)中將相應(yīng)的直流分量和預(yù)測(cè)值加到當(dāng)前超幀相應(yīng)的量化后的余量線譜對(duì)參數(shù)中,得到當(dāng)前超幀重要幀量化后的線譜對(duì)參數(shù),即f^n=r^n+αn(F-1,F0)·(l^-15)T+d(F0),n∈(2,3,···,6)]]>式中 和 分別是當(dāng)前超幀中第n幀量化后的線譜對(duì)參數(shù)矢量和量化后的余量線譜對(duì)參數(shù)矢量,該幀應(yīng)該屬于重要幀。
上述方法步驟(14)的實(shí)施例具體做法為當(dāng)兩個(gè)非重要幀不相鄰時(shí),它們的量化后的線譜對(duì)參數(shù)分別由各自所相鄰的兩個(gè)重要幀插值得到,設(shè)n為非重要幀序號(hào),那么f^in=12f^in-1+12f^in+1---n∈(1,2,···,5),(i=1,2,···,10)]]>當(dāng)兩個(gè)非重要幀相鄰時(shí),設(shè)它們的幀序號(hào)分別為n和n+1,那么它們的線譜對(duì)參數(shù)由下式插值得到
f^in=23f^in-1+13f^in+2]]>f^in+1=13f^in-1+23f^in+2---n∈(1,2,···,5),(i=1,2,···,10)]]>上述方法步驟(15)的實(shí)施例為按照美國(guó)政府2400b/s多帶激勵(lì)的線性預(yù)測(cè)(MELP)語音編碼算法標(biāo)準(zhǔn)所描述的方法將量化后的線譜對(duì)參數(shù) 轉(zhuǎn)換成聲道A參數(shù),即得到量化后的聲道A參數(shù)。
權(quán)利要求
1.一種超幀聲道參數(shù)平滑和抽取矢量量化的方法,其特征在于,該方法包括以下步驟(1)對(duì)輸入語音信號(hào)樣點(diǎn)按時(shí)間順序分幀,將連續(xù)的若干幀組成一個(gè)超幀;(2)對(duì)當(dāng)前超幀中的每一幀提取聲道A參數(shù);(3)將當(dāng)前超幀中的每一幀聲道A參數(shù)轉(zhuǎn)換成線譜對(duì)參數(shù);(4)對(duì)當(dāng)前超幀線譜對(duì)參數(shù)進(jìn)行低頻濾波的按時(shí)間方向平滑處理;(5)對(duì)當(dāng)前超幀中的每一幀提取清濁音參數(shù);(6)對(duì)當(dāng)前超幀的清濁音參數(shù)進(jìn)行矢量量化,得到當(dāng)前超幀量化后的清濁音參數(shù)量化值;(7)根據(jù)當(dāng)前超幀清濁音參數(shù)量化值確定當(dāng)前超幀模式;(8)根據(jù)當(dāng)前超幀的模式確定當(dāng)前超幀抽取幀的模式,被抽取的幀定為重要幀,其余的幀定為非重要幀;(9)根據(jù)當(dāng)前超幀的模式確定當(dāng)前超幀中重要幀中每一個(gè)線譜對(duì)參數(shù)的直流分量,并從每一個(gè)線譜對(duì)參數(shù)中減去相應(yīng)的直流分量;(10)根據(jù)當(dāng)前超幀模式和前一個(gè)超幀的模式確定一組重要幀線譜對(duì)參數(shù)預(yù)測(cè)系數(shù);(11)利用這一組預(yù)測(cè)系數(shù)和前一超幀中最后一幀量化后的余量線譜對(duì)參數(shù)計(jì)算預(yù)測(cè)值;從當(dāng)前超幀重要幀中每一個(gè)已去直流線譜對(duì)參數(shù)中減去相應(yīng)的預(yù)測(cè)值,得到當(dāng)前超幀重要幀的余量線譜對(duì)參數(shù);(12)對(duì)當(dāng)前超幀重要幀的余量線譜對(duì)參數(shù)進(jìn)行矢量量化,得到當(dāng)前超幀量化后的重要幀余量線譜對(duì)參數(shù);(13)將上述步驟(9)得到的直流分量和上述步驟(11)得到的預(yù)測(cè)值加到量化后的重要幀余量線譜對(duì)參數(shù)中得到量化后的重要幀線譜對(duì)參數(shù);(14)利用量化后的重要幀線譜對(duì)參數(shù),通過插值的方法產(chǎn)生量化后的非重要幀線譜對(duì)參數(shù);(15)將當(dāng)前超幀量化后的線譜對(duì)參數(shù)轉(zhuǎn)換成聲道A參數(shù),得到量化后的聲道A參數(shù)。
2.按權(quán)利要求1所述的方法,其特征在于,所述步驟(4)中對(duì)當(dāng)前超幀線譜對(duì)參數(shù)按時(shí)間方向平滑的方法,采用跨超幀離散余弦變換(DCT)去除高頻分量,然后進(jìn)行離散余弦反變換得到平滑后的線譜對(duì)參數(shù)。
3.按權(quán)利要求1所述的方法,其特征在于,所述步驟(8)中確定當(dāng)前超幀抽取幀的模式確定重要幀的方法為,將每一個(gè)超幀最后一幀定為重要幀,第一幀定為非重要幀,其它幀根據(jù)以下原則確定為重要幀語音段中影響可懂度大、有利于插值及盡量使非重要幀不相鄰。
4.按權(quán)利要求1所述的方法,其特征在于,所述步驟(14)非重要幀線譜對(duì)參數(shù)量化值采用與它前后相鄰最近的兩個(gè)重要幀的量化后的線譜對(duì)參數(shù)插值產(chǎn)生,插值誤差忽略或用比特進(jìn)行矢量量化。
全文摘要
本發(fā)明涉及超幀聲道參數(shù)矢量量化方法,屬于低速率語音壓縮編碼技術(shù)領(lǐng)域。該方法首先對(duì)輸入語音信號(hào)樣點(diǎn)按時(shí)間順序分幀,將連續(xù)的若干幀組成一個(gè)超幀;對(duì)當(dāng)前超幀中的每一幀提取聲道A參數(shù),然后轉(zhuǎn)換成線譜對(duì)參數(shù),并進(jìn)行平滑;對(duì)當(dāng)前超幀中的每一幀提取清濁音參數(shù)、進(jìn)行矢量量化,再根據(jù)量化值確定當(dāng)前超幀的模式,進(jìn)而確定當(dāng)前超幀中的重要幀和非重要幀;從當(dāng)前超幀中重要幀線譜對(duì)參數(shù)中減去直流分量,從重要幀去直流線譜對(duì)參數(shù)中減去預(yù)測(cè)值后進(jìn)行矢量量化;利用量化后重要幀線譜對(duì)參數(shù)插值得到非重要幀量化后的線譜對(duì)參數(shù);將量化后的線譜對(duì)參數(shù)轉(zhuǎn)換成聲道A參數(shù)。這種方法可以提高聲道參數(shù)的量化精度,適用于300~1200bps語音編碼。
文檔編號(hào)H03M7/30GK1632863SQ200410096618
公開日2005年6月29日 申請(qǐng)日期2004年12月3日 優(yōu)先權(quán)日2004年12月3日
發(fā)明者崔慧娟, 唐昆, 趙永剛, 趙銘 申請(qǐng)人:清華大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
绍兴市| 密云县| 潼关县| 鄂托克旗| 沛县| 白河县| 固原市| 集贤县| 四川省| 缙云县| 云霄县| 乐业县| 广水市| 忻州市| 泰安市| 潞西市| 博客| 康乐县| 桃园县| 平邑县| 南康市| 成武县| 锡林郭勒盟| 隆化县| 黔西县| 齐齐哈尔市| 镇赉县| 井陉县| 石阡县| 井冈山市| 丹江口市| 阿合奇县| 睢宁县| 宜兴市| 太仆寺旗| 盐池县| 布拖县| 海盐县| 昌吉市| 栾城县| 金乡县|