多模式多級(jí)碼本聯(lián)合優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及低速率語音編碼矢量量化技術(shù)領(lǐng)域,具體地說,涉及一種多模式多級(jí) 碼本聯(lián)合優(yōu)化方法。
【背景技術(shù)】
[0002] 隨著音頻技術(shù)的發(fā)展,低速率語音編碼在無線通信、衛(wèi)星通信等領(lǐng)域有著廣泛的 應(yīng)用。
[0003] 在低速率語音編碼中,由于受到存儲(chǔ)量及運(yùn)算量的限制,往往采用受約束的矢量 量化方式,其中包括樹型矢量量化、分類矢量量化、多級(jí)矢量量化、變換域矢量量化等,以降 低碼本的存儲(chǔ)量和運(yùn)算量。其中,以多級(jí)矢量量化最為常用。另一方面,分模式矢量量化 雖然會(huì)增加一定的存儲(chǔ)量,但是它可以在不額外增加比特的情況下,有效的降低量化誤差。 在低速率語音編碼的眾多應(yīng)用領(lǐng)域中,往往時(shí)刻伴隨著誤碼的存在。對(duì)于多模式多級(jí)矢量 量化,一旦發(fā)生誤碼,不僅各級(jí)碼本索引會(huì)出錯(cuò),而且模式的選擇也會(huì)出錯(cuò),這樣在解碼端 合成的參數(shù)往往與編碼端的輸入?yún)?shù)出現(xiàn)較大的偏差,嚴(yán)重影響合成語音的可懂度和舒適 度。
[0004] 傳統(tǒng)的分模式多級(jí)矢量量化,以信源最優(yōu)為準(zhǔn)則進(jìn)行碼本訓(xùn)練和碼本的聯(lián)合優(yōu) 化,由于不考慮信道誤碼情況,信源最優(yōu)的多模式多級(jí)矢量量化的系統(tǒng)失真即為量化失真。 這樣訓(xùn)練出來的最優(yōu)碼字均勻分布在整個(gè)量化空間中,而一旦發(fā)生誤碼,整個(gè)系統(tǒng)失真也 會(huì)比較大。
[0005] 基于上述情況,現(xiàn)有的多模式多級(jí)碼本訓(xùn)練中,誤碼對(duì)系統(tǒng)失真的影響較大,影響 了對(duì)反量化碼字以及合成語音的質(zhì)量。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種多模式多級(jí)碼本聯(lián)合優(yōu)化方法,以解決現(xiàn)有的多模式 多級(jí)碼本訓(xùn)練中,誤碼對(duì)系統(tǒng)失真的影響較大的技術(shù)問題。
[0007] 本發(fā)明提供一種多模式多級(jí)碼本聯(lián)合優(yōu)化方法,包括:
[0008] 步驟1,輸出待量化矢量;
[0009] 步驟2,對(duì)所述待量化矢量進(jìn)行訓(xùn)練,獲得各模式各級(jí)初始化碼本,其中,級(jí)數(shù)為 M;
[0010] 步驟3,對(duì)所述各模式各級(jí)初始化碼本進(jìn)行碼本索引的重排,獲得新的碼本;
[0011] 步驟4,對(duì)所述待量化矢量,利用新的碼本,尋找使得系統(tǒng)失真最小的最優(yōu)胞腔和 量化索引;
[0012] 步驟5,對(duì)于第m級(jí)碼本,利用本級(jí)的輸入殘差矢量和對(duì)應(yīng)的量化索引,更新本級(jí) 各模式最優(yōu)碼字,其中,m的初始值為1;
[0013]步驟6,比較m與M的值;
[0014] 如果m〈M,則將m的值加1,并返回步驟4;
[0015] 如果m=M,則進(jìn)行步驟7 ;
[0016] 步驟7,判斷迭代次數(shù)t是否達(dá)到預(yù)設(shè)值T,其中,t的初始值為1 ;
[0017] 如果t〈T,則將t的值加1,將m的值重置為1,并返回步驟4 ;
[0018] 如果t=T,則進(jìn)行步驟8;
[0019] 步驟8,獲取最后一次迭代得出的碼本。
[0020] 優(yōu)選的是,所述步驟1,具體為:
[0021] 在低速率語音編碼中,對(duì)語音庫根據(jù)分模式依據(jù)參數(shù)的量化索引作為模式的編 號(hào),輸出待量化參數(shù)在各模式下待量化矢量。
[0022] 所述語音庫優(yōu)選為具有設(shè)定采樣頻率的、具有一定時(shí)長的、包含多種音色的標(biāo)準(zhǔn) 中文語音庫。所述設(shè)定采樣頻率優(yōu)選為8kHz。
[0023] 優(yōu)選的是,所述步驟2,具體為:
[0024] 將各模式待量化矢量作為碼本訓(xùn)練和聯(lián)合優(yōu)化的輸入矢量,分別采用基于模擬退 火的碼本訓(xùn)練方法,按照各級(jí)分配的比特?cái)?shù)進(jìn)行多級(jí)碼本訓(xùn)練,獲得各模式各級(jí)初始化碼 本。
[0025] 優(yōu)選的是,所述步驟3,具體為:
[0026] 對(duì)所述各模式各級(jí)初始化碼本,采用基于禁忌搜索的方法進(jìn)行碼本索引的重排, 獲得新的碼本。
[0027] 優(yōu)選的是,T的取值范圍在20至40之間。
[0028] 本發(fā)明帶來了以下有益效果:本發(fā)明提供的多模式多級(jí)碼本聯(lián)合優(yōu)化方法中,通 過多次迭代獲得信道最優(yōu)的多模式多級(jí)矢量量化的最優(yōu)碼本,其中的碼字并不是當(dāng)前胞腔 的質(zhì)心,而是各個(gè)胞腔質(zhì)心通過誤碼轉(zhuǎn)移概率加權(quán)平均得到的。相比于現(xiàn)有的信源最優(yōu)的 多模式多級(jí)矢量量化方式,本發(fā)明中最優(yōu)碼字之間的距離比較小,一旦發(fā)生誤碼,整個(gè)系統(tǒng) 失真也會(huì)顯著減小,從而減弱了誤碼對(duì)系統(tǒng)失真的影響,提高了系統(tǒng)的抗誤碼性能。因此, 在多模式多級(jí)矢量量化和傳輸過程中,能夠有效降低信道誤碼情況下反量化碼字與輸入?yún)?數(shù)的系統(tǒng)失真,并有效提高信道誤碼情況下合成語音的質(zhì)量。
[0029] 本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變 得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利 要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【附圖說明】
[0030] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要的 附圖做簡(jiǎn)單的介紹:
[0031] 圖1是本發(fā)明實(shí)施例提供的多模式多級(jí)碼本聯(lián)合優(yōu)化方法的流程圖。
【具體實(shí)施方式】
[0032] 以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式,借此對(duì)本發(fā)明如何應(yīng)用 技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。需要說明 的是,只要不構(gòu)成沖突,本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合, 所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。
[0033] 本發(fā)明實(shí)施例提供一種多模式多級(jí)碼本聯(lián)合優(yōu)化方法,可應(yīng)用于低速率語音編碼 中。如圖1所示,該方法包括:
[0034] Sl:輸出待量化矢量。
[0035] 具體的,在低速率語音編碼中,對(duì)語音庫根據(jù)分模式依據(jù)參數(shù)的量化索引作為模 式的編號(hào),輸出待量化參數(shù)在各模式下待量化矢量。其中,語音庫優(yōu)選為具有設(shè)定采樣頻率 的、具有一定時(shí)長的、包含多種音色的標(biāo)準(zhǔn)中文語音庫。
[0036] 本實(shí)施例中采用的語音庫的采樣頻率為8kHz,時(shí)長可以為數(shù)個(gè)小時(shí),其中包含不 同性別、不同年齡的多種音色。對(duì)該語音庫,線譜對(duì)參數(shù)每20ms提取10維系數(shù),去預(yù)測(cè)、去 均值后作為待量化參數(shù),并利用清濁音參數(shù)的量化索引作為模式編號(hào)。
[0037] S2 :對(duì)待量化矢量進(jìn)行訓(xùn)練,獲得各模式各級(jí)初始化碼本。
[0038] 具體的,將各模式待量化矢量作為碼本訓(xùn)練和聯(lián)合優(yōu)化的輸入矢量,分別采用基 于模擬退火的碼本訓(xùn)練方法,按照各級(jí)分配的比特?cái)?shù)進(jìn)行多級(jí)碼本訓(xùn)練,獲得各模式各級(jí) 初始化碼本。
[0039] 對(duì)于典型的多模式多級(jí)矢量量化器,U種模式M級(jí)的語音編碼器Q將K維(K= 10) 的輸入矢量X= [Xl,x2, . . .XK]映射到對(duì)應(yīng)的模式U和索引/"=忙名,..4},得到對(duì)應(yīng)的碼
【主權(quán)項(xiàng)】
1. 一種多模式多級(jí)碼本聯(lián)合優(yōu)化方法,其特征在于,包括: 步驟1,輸出待量化矢量; 步驟2,對(duì)所述待量化矢量進(jìn)行訓(xùn)練,獲得各模式各級(jí)初始化碼本,其中,級(jí)數(shù)為M; 步驟3,對(duì)所述各模式各級(jí)初始化碼本進(jìn)行碼本索引的重排,獲得新的碼本; 步驟4,對(duì)所述待量化矢量,利用新的碼本,尋找使得系統(tǒng)失真最小的最優(yōu)胞腔和量化 索引; 步驟5,對(duì)于第m級(jí)碼本,利用本級(jí)的輸入殘差矢量和對(duì)應(yīng)的量化索引,更新本級(jí)各模 式最優(yōu)碼字,其中,m的初始值為1 ; 步驟6,比較m與M的值; 如果m〈M,則將m的值加1,并返回步驟4 ; 如果m=M,則進(jìn)行步驟7; 步驟7,判斷迭代次數(shù)t是否達(dá)到預(yù)設(shè)值T,其中,t的初始值為1 ; 如果t〈T,則將t的值加1,將m的值重置為1,并返回步驟4 ; 如果t=T,則進(jìn)行步驟8 ; 步驟8,獲取最后一次迭代得出的碼本。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1,具體為: 在低速率語音編碼中,對(duì)語音庫根據(jù)分模式依據(jù)參數(shù)的量化索引作為模式的編號(hào),輸 出待量化參數(shù)在各模式下待量化矢量。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述語音庫為具有設(shè)定采樣頻率的、具有 一定時(shí)長的、包含多種音色的標(biāo)準(zhǔn)中文語音庫。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述設(shè)定采樣頻率為8kHz。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2,具體為: 將各模式待量化矢量作為碼本訓(xùn)練和聯(lián)合優(yōu)化的輸入矢量,分別采用基于模擬退火的 碼本訓(xùn)練方法,按照各級(jí)分配的比特?cái)?shù)進(jìn)行多級(jí)碼本訓(xùn)練,獲得各模式各級(jí)初始化碼本。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3,具體為: 對(duì)所述各模式各級(jí)初始化碼本,采用基于禁忌搜索的方法進(jìn)行碼本索引的重排,獲得 新的碼本。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,T的取值范圍在20至40之間。
【專利摘要】本發(fā)明公開了一種多模式多級(jí)碼本聯(lián)合優(yōu)化方法,屬于低速率語音編碼矢量量化技術(shù)領(lǐng)域,解決了現(xiàn)有的多模式多級(jí)碼本訓(xùn)練中,誤碼對(duì)系統(tǒng)失真的影響較大的技術(shù)問題。該多模式多級(jí)碼本聯(lián)合優(yōu)化方法包括:輸出待量化矢量;對(duì)所述待量化矢量進(jìn)行訓(xùn)練,獲得各模式各級(jí)初始化碼本;對(duì)所述各模式各級(jí)初始化碼本進(jìn)行碼本索引的重排,獲得新的碼本;對(duì)所述待量化矢量,利用新的碼本,尋找使得系統(tǒng)失真最小的最優(yōu)胞腔和量化索引;利用輸入殘差矢量和對(duì)應(yīng)的量化索引,更新各級(jí)各模式最優(yōu)碼字,并迭代至預(yù)設(shè)次數(shù);獲取最后一次迭代得出的碼本。
【IPC分類】G10L19-107, G10L19-038
【公開號(hào)】CN104795074
【申請(qǐng)?zhí)枴緾N201510121820
【發(fā)明人】徐敬德, 崔慧娟, 唐昆
【申請(qǐng)人】清華大學(xué), 信瑞遞(北京)科技有限公司
【公開日】2015年7月22日
【申請(qǐng)日】2015年3月19日