專利名稱::基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法
技術(shù)領(lǐng)域:
基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法屬于語(yǔ)音編碼
技術(shù)領(lǐng)域:
,特別涉及語(yǔ)音編碼參數(shù)量化技術(shù)。
背景技術(shù):
:語(yǔ)音編碼在通信系統(tǒng)、語(yǔ)音存儲(chǔ)回放系統(tǒng)、具有語(yǔ)音功能的消費(fèi)類產(chǎn)品中有廣泛的應(yīng)用。目前國(guó)內(nèi)外的研究主要集中在L2kb/s以下速率高質(zhì)量語(yǔ)音壓縮編碼上,主要用于無(wú)線通信、保密通信、大容量語(yǔ)音存儲(chǔ)回放、IP電話等。高質(zhì)量低速率語(yǔ)音編碼技術(shù)是語(yǔ)音信號(hào)處理領(lǐng)域中的重要研究課題之一。由于編碼速率太低,必須采用多幀聯(lián)合(即超幀)處理的參數(shù)語(yǔ)音編碼技術(shù)。在超低速率語(yǔ)音編碼算法中,編碼參數(shù)通常進(jìn)行基于超幀模式的多碼本矢量量化,各編碼參數(shù)的量化碼本在不同超幀模式下具有相同的尺寸。原有方法的流程如圖1所示,包括以下步驟-(1)根據(jù)語(yǔ)音編碼算法分配給帶通清濁音參數(shù)的量化比特?cái)?shù)訓(xùn)練其量化碼本;(2)根據(jù)帶通清濁音參數(shù)的量化碼本確定不同的編碼超幀模式;(3)根據(jù)語(yǔ)音編碼算法分配給基音周期參數(shù),線譜頻率參數(shù)、短時(shí)幀能量參數(shù)的量化比特?cái)?shù),分別訓(xùn)練各參數(shù)在不同超幀模式下的碼本。不同的超幀模式下,各參數(shù)量化采用不同的量化碼本,但是相同參數(shù)在不同超幀模式下碼本尺寸相同。
發(fā)明內(nèi)容本發(fā)明的目的是改進(jìn)已有的多參數(shù)矢量量化技術(shù),超低速率語(yǔ)音編碼算法比特資源十分有限,而各個(gè)參數(shù)的量化精度都需要進(jìn)一步的提高,原有方法并沒(méi)有完全利用參數(shù)在不同超幀模式下統(tǒng)計(jì)特性的差異。為此,本文提出了一種基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法,對(duì)各編碼參數(shù)在不同超幀模式下碼本的尺寸進(jìn)行聯(lián)合優(yōu)化,實(shí)驗(yàn)結(jié)果表明,該聯(lián)合優(yōu)化算法能夠明顯降低各參數(shù)的量化誤差,提高聲碼器合成語(yǔ)音的質(zhì)量。本發(fā)明提出的基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法,包括以下步驟步驟(1)根據(jù)語(yǔ)音編碼算法中分配給帶通清濁音參數(shù)矢量量化的比特?cái)?shù)確定量化碼本的尺寸M,M=2,同時(shí)用模擬退火算法訓(xùn)練得到帶通清濁音參數(shù)的量化碼本;步驟(2)根據(jù)帶通清濁音矢量量化的碼本將編碼模式分為M種超幀模式;步驟(3)以Z&,-2+"p為準(zhǔn)則,對(duì)不同超幀模式下基音周期矢量的碼本尺寸初始值聯(lián)合調(diào)整,即依據(jù)所述準(zhǔn)則增大全濁音超幀模式下的基音周期碼本尺寸,降低全清音或者清音子幀超過(guò)三幀的超幀模式下基音周期碼本尺寸,^,表示第/個(gè)超幀模式下,基音周期矢量量化碼本的尺寸,%、分別表示用于量化清濁音參數(shù)、基音周期矢量的比特?cái)?shù);步驟(4)以|;5>^,=2"*++"'為準(zhǔn)則,在步驟(3)已調(diào)整好不同超幀模式下基音周期碼/=1本尺寸的基礎(chǔ)上,對(duì)不同超幀模式下線譜頻率矢量的碼本尺寸動(dòng)態(tài)調(diào)整,即依據(jù)準(zhǔn)則增大基音周期碼本較小的超幀模式下的線譜頻率參數(shù)碼本尺寸,降低基音周期碼本較大的超幀模式下線譜頻率參數(shù)碼本尺寸,其中&.表示第/個(gè)超幀模式下,線譜頻率參數(shù)矢量最后一級(jí)的量化碼本尺寸,w,表示用于量化線譜頻率參數(shù)矢量最后一級(jí)的比特?cái)?shù);步驟(5)以|]&,&&,=2"'++"'+為準(zhǔn)則,在步驟(4)已調(diào)整好基音周期和線譜頻率參;=1數(shù)矢量碼本尺寸的基礎(chǔ)上,對(duì)不同超幀模式下短時(shí)幀能量矢量的碼本尺寸動(dòng)態(tài)調(diào)整,即依據(jù)準(zhǔn)則增大基音周期與線譜頻率參數(shù)碼本較小的超幀模式下的短時(shí)幀能量參數(shù)碼本尺寸,降低其他超幀模式下短時(shí)幀能量參數(shù)碼本尺寸,其中&,表示第/個(gè)超幀模式下,短時(shí)幀能量矢量的碼本尺寸,表示用于量化短時(shí)幀能量矢量的比特?cái)?shù);步驟(6)基于步驟(2)中得到的超幀模式及步驟(3)至步驟(5)中得到的此超幀模式下各參數(shù)碼本尺寸,分別對(duì)基音周期、線譜頻率參數(shù)、短時(shí)幀能量矢量訓(xùn)練碼本。本發(fā)明的特點(diǎn)為在超低速率語(yǔ)音編碼算法中進(jìn)行基于超幀模式的多碼本矢量量化,充分利用參數(shù)在不同超幀模式下統(tǒng)計(jì)特性的差異,例如在某種出現(xiàn)概率較大或比較重要的超幀模式下,可以增大某種參數(shù)的碼本尺寸。以此例推,對(duì)各參數(shù)在不同超幀模式下碼本的尺寸進(jìn)行聯(lián)合優(yōu)化,從而提高了量化精度。將本文提出的這種基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法運(yùn)用在一種基于MELP的300bps聲碼器上,實(shí)驗(yàn)結(jié)果表明,該聯(lián)合優(yōu)化算法能夠明顯降低各參數(shù)的量化誤差,提高聲碼器合成語(yǔ)音的質(zhì)量。圖1為原有方法的基于超幀模式的多碼本矢量量化算法流程框圖。圖2為本發(fā)明提出的基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法流程框圖。具體實(shí)施方式本發(fā)明提出的基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法結(jié)合附圖及實(shí)施例進(jìn)一步說(shuō)明如下本發(fā)明的方法流程如圖2所示,包括以下步驟步驟(1)根據(jù)語(yǔ)音編碼算法中分配給帶通清濁音參數(shù)矢量量化的比特?cái)?shù)^確定量化碼本的尺寸M,M=2"N同時(shí)用模擬退火算法訓(xùn)練得到帶通清濁音參數(shù)的量化碼本;步驟(2)根據(jù)帶通清濁音矢量量化的碼本將編碼模式分為M種超幀模式;步驟(3)以£&,=2"4+為準(zhǔn)則,對(duì)不同超幀模式下基音周期矢量的碼本尺寸初始值聯(lián)合調(diào)整,即依據(jù)所述準(zhǔn)則增大全濁音超幀模式下的基音周期碼本尺寸,降低全清音或者清音子幀超過(guò)三幀的超幀模式下基音周期碼本尺寸,、,表示第/個(gè)超幀模式下,基音周期矢量量化碼本的尺寸,、分別表示用于量化清濁音參數(shù)、基音周期矢量的比特?cái)?shù);步驟(4)以|]&,5;,=2'"++"'為準(zhǔn)則,在步驟(3)已調(diào)整好不同超幀模式下基音周期碼Ml本尺寸的基礎(chǔ)上,對(duì)不同超幀模式下線譜頻率矢量的碼本尺寸動(dòng)態(tài)調(diào)整,即依據(jù)準(zhǔn)則增大基音周期碼本較小的超幀模式下的線譜頻率參數(shù)碼本尺寸,降低基音周期碼本較大的超幀模式下線譜頻率參數(shù)碼本尺寸,其中&表示第/個(gè)超幀模式下,線譜頻率參數(shù)矢量最后一級(jí)的量化碼本尺寸,",表示用于量化線譜頻率參數(shù)矢量最后一級(jí)的比特?cái)?shù);步驟(5)以l;&,&5;,=2""","'+為準(zhǔn)則,在步驟(4)已調(diào)整好基音周期和線譜頻率參'=1數(shù)矢量碼本尺寸的基礎(chǔ)上,對(duì)不同超幀模式下短時(shí)幀能量矢量的碼本尺寸動(dòng)態(tài)調(diào)整,即依據(jù)準(zhǔn)則增大基音周期與線譜頻率參數(shù)碼本較小的超幀模式下的短時(shí)幀能量參數(shù)碼本尺寸,降低其他超幀模式下短時(shí)幀能量參數(shù)碼本尺寸,其中&,表示第/個(gè)超幀模式下,短時(shí)幀能量矢量的碼本尺寸,"g表示用于量化短時(shí)幀能量矢量的比特?cái)?shù);步驟(6)基于步驟(2)中得到的超幀模式及步驟(3)至步驟(5)中得到的此超幀模式下各參數(shù)碼本尺寸,分別對(duì)基音周期、線譜頻率參數(shù)、短時(shí)幀能量矢量訓(xùn)練碼本。上述方法步驟(1)的實(shí)施例為根據(jù)語(yǔ)音編碼算法中分配給帶通清濁音參數(shù)矢量量化的比特?cái)?shù)確定量化碼本的尺寸M,比特分配方案參考美國(guó)政府多帶激勵(lì)的線性預(yù)測(cè)(MELP)語(yǔ)音編碼算法標(biāo)準(zhǔn)。在基于MELP的300bps聲碼器中,用于量化帶通清濁音參數(shù)的比特?cái)?shù)為4,M=2"*=16。同吋訓(xùn)練得到帶通清濁音參數(shù)的量化碼本,量化碼本的訓(xùn)練方法參見楊行峻等人編著的《語(yǔ)音信號(hào)數(shù)字處理》中描述的模擬退火算法。上述方法步驟(2)的實(shí)施例為根據(jù)步驟(1)中訓(xùn)練得到的帶通清濁音矢量量化的碼本將編碼模式分為M種超幀模式。清濁音矢量量化碼字是通過(guò)對(duì)訓(xùn)練語(yǔ)音樣本統(tǒng)計(jì)得到的出現(xiàn)次數(shù)最多的16種超幀清濁音矢量,每個(gè)碼字代表了超幀的一種超幀模式,對(duì)應(yīng)的超幀模式在表l中給出。表1帶通清濁音參數(shù)矢量量化碼本和對(duì)應(yīng)的超幀模式<table>tableseeoriginaldocumentpage7</column></row><table>00000000000000000000000000000014111111111111111110001000000000151100010000000011100lll]l111116上述方法步驟(3)的實(shí)施例為基于超幀模式對(duì)基音周期的碼本尺寸進(jìn)行優(yōu)化。此時(shí)準(zhǔn)則為f;&,=2"',,其中=4、=8。由表1可見,超幀模式中含有全清音幀(0000000000,=100000000000000000000)和全濁音幀(111111111111111111111111111111)。清音幀的基音周期為固定值50;濁音幀的基音周期取值范圍為[18,148],需要高效量化。清音幀越多的超幀模式其碼本尺寸越小,動(dòng)態(tài)調(diào)整的具體步驟如下a.設(shè)置各超幀模式下基音周期碼本尺寸初值,Spl=Sp2=...=S一=256;b.將全清音超幀模式的碼本尺寸縮減為1,對(duì)應(yīng)碼矢為(50,50,50,50,50,50);節(jié)省出來(lái)的碼本尺寸增加到全濁音超幀模式上。c.將含清音幀超過(guò)3幀以上的超幀模式碼本尺寸縮減一半,節(jié)省出來(lái)的碼本尺寸增加到全濁音超幀模式上。得到16種超幀模式下基音周期參數(shù)各量化碼本的尺寸如表2所示。表2基音周期參數(shù)(i3)各超幀模式(M)下碼本尺寸<table>tableseeoriginaldocumentpage8</column></row><table>上述方法步驟(4)的實(shí)施例為在步驟(3)已確定不同超幀模式下基音周期的碼本尺寸基礎(chǔ)上,對(duì)線譜頻率參數(shù)矢量進(jìn)行碼本尺寸動(dòng)態(tài)調(diào)整。鑒于運(yùn)算量和存儲(chǔ)量的考慮,目前只對(duì)線譜頻率參數(shù)多級(jí)矢量量化的最后一級(jí)采用了此方法。此時(shí)準(zhǔn)則為|>p,&=2"'+"P+"',其中&也相應(yīng)地表示線譜頻率參數(shù)多級(jí)矢量量化最后一級(jí)的碼本大??;w,=5相應(yīng)地表示用于量化線譜頻率參數(shù)多級(jí)矢量量化最后一級(jí)的比特?cái)?shù)。首先,設(shè)定不同超幀模式下,線譜頻率參數(shù)多級(jí)矢量量化最后一級(jí)的碼本尺寸大小為2"',縮減基音周期碼本尺寸較大的超幀模式下線譜頻率參數(shù)最后一級(jí)的量化碼本尺寸,增加到基音周期碼本尺寸較小的超幀模式下線譜頻率參數(shù)的量化碼本尺寸。最終確定線譜頻率參數(shù)最后一級(jí)量化碼本的大小如表3所示。表3線譜頻率參數(shù)最后一級(jí)(/)各超幀模式(7kf)下碼本尺寸<table>tableseeoriginaldocumentpage8</column></row><table>上述方法步驟(5)的實(shí)施例為在已確定不同超幀模式下基音周期及線譜頻率參數(shù)碼本尺寸的基礎(chǔ)上,調(diào)整短時(shí)幀能量矢量在各超幀模式下的碼本尺寸。此時(shí)準(zhǔn)則為,<formula>formulaseeoriginaldocumentpage9</formula>其中&,表示第z'個(gè)超幀模式下,短時(shí)幀能量矢量的碼本尺寸<formula>formulaseeoriginaldocumentpage9</formula>,表示用于量化短時(shí)幀能量矢量的比特?cái)?shù)。首先,設(shè)定不同超幀模式下短時(shí)幀能量參數(shù)碼本尺寸大小都為2??s減基音周期及線譜頻率參數(shù)碼本尺寸較大的超幀模式下短時(shí)幀能量參數(shù)的量化碼本尺寸,增加到基音周期及線譜頻率參數(shù)碼本尺寸較小的超幀模式下短時(shí)幀能量參數(shù)的量化碼本尺寸。得到16種超幀模式下短時(shí)幀能量參數(shù)各量化碼本的尺寸如表4所示。表4短時(shí)幀能量參數(shù)(G)各超幀模式(M)下碼本尺寸<table>tableseeoriginaldocumentpage9</column></row><table>上述方法步驟(3)至步驟(5),在理想情況下,依據(jù)準(zhǔn)則<formula>formulaseeoriginaldocumentpage9</formula>,同<formula>formulaseeoriginaldocumentpage9</formula>時(shí)調(diào)整各超幀模式下基音周期、線譜頻率參數(shù)、短時(shí)幀能量參數(shù)矢量的碼本尺寸,將得到各參數(shù)在不同超幀模式下的最優(yōu)的碼本尺寸。但聯(lián)合動(dòng)態(tài)分配多個(gè)編碼參數(shù)的碼本尺寸難以實(shí)現(xiàn),故而采用分步分項(xiàng)解決的方案。上述方法步驟(6)的實(shí)施例為根據(jù)步驟(2)中得到的超幀模式及步驟(3)至步驟(5)中得到的此超幀模式下的各參數(shù)碼本尺寸,分別對(duì)基音周期、線譜頻率參數(shù)、短時(shí)幀能量參數(shù)矢量重新訓(xùn)練碼本。碼本訓(xùn)練方法參見楊行峻等人編著的《語(yǔ)音信號(hào)數(shù)字處理》中描述的模擬退火算法。權(quán)利要求1.基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法,其特征在于,該方法在編碼端依次按以下步驟實(shí)現(xiàn)步驟(1)根據(jù)語(yǔ)音編碼算法中分配給帶通清濁音參數(shù)矢量量化的比特?cái)?shù)nb確定量化碼本的尺寸M,M=2nb同時(shí)用模擬退火算法訓(xùn)練得到帶通清濁音參數(shù)的量化碼本;步驟(2)根據(jù)帶通清濁音矢量量化的碼本將編碼模式分為M種超幀模式;步驟(3)以<math-cwu><![CDATA[<math><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>S</mi><mi>pi</mi></msub><mo>=</mo><msup><mn>2</mn><mrow><msub><mi>n</mi><mi>b</mi></msub><mo>+</mo><msub><mi>n</mi><mi>p</mi></msub></mrow></msup></mrow></math>]]></math-cwu><!--imgid="icf0001"file="S2008101051363C00012.gif"wi="23"he="9"top="97"left="49"img-content="drawing"img-format="tif"orientation="portrait"inline="no"/-->為準(zhǔn)則,對(duì)不同超幀模式下基音周期矢量的碼本尺寸初始值聯(lián)合調(diào)整,即依據(jù)所述準(zhǔn)則增大全濁音超幀模式下的基音周期碼本尺寸,降低全清音或者清音子幀超過(guò)三幀的超幀模式下基音周期碼本尺寸,Spi表示第i個(gè)超幀模式下,基音周期矢量量化碼本的尺寸,nb、np分別表示用于量化清濁音參數(shù)、基音周期矢量的比特?cái)?shù);步驟(4)以<math-cwu><![CDATA[<math><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>S</mi><mi>pi</mi></msub><msub><mi>S</mi><mi>li</mi></msub><mo>=</mo><msup><mn>2</mn><mrow><msub><mi>n</mi><mi>b</mi></msub><mo>+</mo><msub><mi>n</mi><mi>p</mi></msub><mo>+</mo><msub><mi>n</mi><mi>l</mi></msub></mrow></msup></mrow></math>]]></math-cwu><!--imgid="icf0002"file="S2008101051363C00013.gif"wi="30"he="9"top="152"left="49"img-content="drawing"img-format="tif"orientation="portrait"inline="no"/-->為準(zhǔn)則,在步驟(3)已調(diào)整好不同超幀模式下基音周期碼本尺寸的基礎(chǔ)上,對(duì)不同超幀模式下線譜頻率矢量的碼本尺寸動(dòng)態(tài)調(diào)整,即依據(jù)準(zhǔn)則增大基音周期碼本較小的超幀模式下的線譜頻率參數(shù)碼本尺寸,降低基音周期碼本較大的超幀模式下線譜頻率參數(shù)碼本尺寸,其中Sli表示第i個(gè)超幀模式下,線譜頻率參數(shù)矢量最后一級(jí)的量化碼本尺寸,nl表示用于量化線譜頻率參數(shù)矢量最后一級(jí)的比特?cái)?shù);步驟(5)以<math-cwu><![CDATA[<math><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msub><mi>S</mi><mi>pi</mi></msub><msub><mi>S</mi><mi>li</mi></msub><msub><mi>S</mi><mi>gi</mi></msub><mo>=</mo><msup><mn>2</mn><mrow><msub><mi>n</mi><mi>b</mi></msub><mo>+</mo><msub><mi>n</mi><mi>p</mi></msub><mo>+</mo><msub><mi>n</mi><mi>l</mi></msub><mo>+</mo><msub><mi>n</mi><mi>g</mi></msub></mrow></msup></mrow></math>]]></math-cwu><!--imgid="icf0003"file="S2008101051363C00014.gif"wi="39"he="9"top="215"left="49"img-content="drawing"img-format="tif"orientation="portrait"inline="no"/-->為準(zhǔn)則,在步驟(4)已調(diào)整好基音周期和線譜頻率參數(shù)矢量碼本尺寸的基礎(chǔ)上,對(duì)不同超幀模式下短時(shí)幀能量矢量的碼本尺寸動(dòng)態(tài)調(diào)整,即依據(jù)準(zhǔn)則增大基音周期與線譜頻率參數(shù)碼本較小的超幀模式下的短時(shí)幀能量參數(shù)碼本尺寸,降低其他超幀模式下短時(shí)幀能量參數(shù)碼本尺寸,其中Sgi表示第i個(gè)超幀模式下,短時(shí)幀能量矢量的碼本尺寸,ng表示用于量化短時(shí)幀能量矢量的比特?cái)?shù);步驟(6)基于步驟(2)中得到的超幀模式及步驟(3)至步驟(5)中得到的此超幀模式下各參數(shù)碼本尺寸,分別對(duì)基音周期、線譜頻率參數(shù)、短時(shí)幀能量矢量訓(xùn)練碼本。全文摘要基于超幀模式的多矢量多碼本尺寸聯(lián)合優(yōu)化方法屬于語(yǔ)音壓縮編碼
技術(shù)領(lǐng)域:
,其特征在于,該方法首先根據(jù)帶通清濁音參數(shù)分配的量化比特?cái)?shù)訓(xùn)練其量化碼本,并根據(jù)量化碼本確定編碼的超幀模式;根據(jù)基音周期參數(shù)、線譜頻率參數(shù)、短時(shí)幀能量參數(shù)分配的量化比特?cái)?shù),聯(lián)合分配各超幀模式下三者的碼本尺寸;依據(jù)不同超幀模式下各參數(shù)的碼本尺寸訓(xùn)練其對(duì)應(yīng)的量化碼本,對(duì)上述三個(gè)參數(shù)矢量分別進(jìn)行矢量量化,該方法可提高上述參數(shù)量化精度,減小合成語(yǔ)音誤差,增強(qiáng)清晰度,最適合低速率語(yǔ)音編碼。文檔編號(hào)G10L19/00GK101261835SQ20081010513公開日2008年9月10日申請(qǐng)日期2008年4月25日優(yōu)先權(quán)日2008年4月25日發(fā)明者昆唐,崔慧娟,曄李,明許申請(qǐng)人:清華大學(xué)