專利名稱:一種基于多描述格型矢量量化技術的語音編碼方法
技術領域:
本發(fā)明涉及通信領域,特別涉及多描述格型矢量量化技術的語音 編碼方法,屬于網絡通信領域。
背景技術:
多描述編碼是1979年的香農信息論會議上由Gersho、 0zarow等 人提出。它將單個信號編碼成兩個(或兩個以上)獨立的比特流,這 些獨立的比特流稱為描述。每個描述都可以單獨解碼,并得到質量上 可接受的原始信號;而且多個描述之間存在互補的信息,隨著正確接 收到的描述的數量的增加,解碼出的信號質量也在逐步提高。值得注 意的是,多描述編碼不同于常規(guī)的可分級編碼,常規(guī)的方法編碼出的 基本層是至關重要的,如果失去基本層,剩下的其他比特流將毫無用 處。而多描述編碼技術可以利用正確接收到的任何一個描述符重構出 有用的原始信號,隨著接收到描述符數量的增加,編碼出來的語音質 量也逐步提高。相比較分層編碼更適合存在分組丟失的網絡上提高系 統的性能。
Jayant最早在他的論文"分組丟失對波形編碼的影響以及通過奇 偶樣點內插來提升質量"("Effects of packet losses in waveform coded speech and improvements due to an odd-even sample-interpolation procedure" IEEE Trans. Co咖un. , vol. 29, pp. 101-109, Feb. 1981.)設計出一個簡單有效的多描述波形編碼 系統。該編碼系統將奇數樣點和偶數樣點分別放入兩個描述中,用 DPCM進行編碼,并在兩條信道中傳輸。當兩個描述同時收到時,它 就是一個普通的DPCM解碼器。而當只收到一個描述時,采用自適應 內插法進行恢復,得到帶有頻譜混疊的信號。為了降低混疊的影響, 這類編碼器需要提高采樣率,從而使編碼速率比較高,而且當有描述
丟失時,信號的混疊也會嚴重的影響恢復質量。
Dong Lin在她的論文"基于LSP適用于實時低速率IP語音的多 描述編碼算法,,("LSP-based multiple-description coding for real-time low bit-rate voice over IP " Multimedia, IEEE Transactions on , vol. 7, no. 1pp. 167_ 178, Feb. 2005)中設 計出一個基于CELP結構的多描述參數語音編碼系統。這類多描述參 數語音編碼算法相對于波形多描述編碼算法而言,具有較高的壓縮效 率。它根據參數的統計特性將參數分配到兩個描述中。因為參數之間 的依賴性,以及對誤差的敏感性,使得兩個描述中有大量重復的參數 才可以單獨解碼,降低了系統的壓縮率。而且參數在分解的過程中, 也不靈活,有諸多限制。
本發(fā)明就是為了解決上述這些不足,相對于波形多描述編碼方 法,本發(fā)明因采用格型矢量量化技術,所以在保持較低的延時和算法 復雜度的情況下,還能保證足夠的壓縮率;相對于參數多描述編碼方 法,本發(fā)明直接對加權語音的頻譜進行量化,不需要提取基音周期等 參數,即使在噪聲環(huán)境下也不會發(fā)生誤判,抵抗噪聲的能力更強。
發(fā)明內容
本發(fā)明要解決分組語音傳輸過程中,分組丟失影響系統性能的問 題,提供了一種基于多描述格型矢量量化的多描述語音編碼方法,涉 及到對加權語音信號進行格型矢量量化,并對量化后的索引進行多描 述標注。
本發(fā)明的技術方案
首先對語音信號進行LPC分析,并進行感知加權,再通過時頻變 換將加權語音信號變換到頻域;在頻域,經過幅度調整之后的信號被 分解成矢量,用格型矢量量化法進行量化,量化后的格點按照多描述 格型矢量量化的方法分解成兩個描述(相應子格點的索引);兩個描 述分別在信道中傳輸;在接收端根據信道的傳輸狀態(tài)對參數進行解 析,根據解析的結果重建矢量,從而重建感知加權語音信號的頻譜, 再通過時頻反變換變化到時域。最后通過感知去加權濾波器得到最終 的重建語音信號。
本發(fā)明用到的技術方案中涉及到對輸入信號進行LPC分析。為提
5
高LPC分析的精度,若輸入信號為寬帶語音信號需進行預加重處理, 若輸入信號為窄帶語音則直接進行LPC分析;LPC分析的窗長大于 實際處理的語音信號的窗長;利用LPC分析之后的參數對輸入語音 進行感知加權。
本發(fā)明用到的技術方案中涉及到通過時頻變換方法將加權語音 信號從時域變換到頻域;變換方法可以是離散傅里葉變換、離散余弦 變換等。
本發(fā)明用到的技術方案中涉及到在形成格型量化的碼本時,不同 的編碼速率對應不同的碼本尺寸,需要根據實際的系統速率要求確定 格型量化的碼本尺寸。根據碼本尺寸所確定的量化范圍,對加權語音 信號的頻譜幅度進行調整。使其充分利用量化器的動態(tài)范圍。
本發(fā)明用到的技術方案中涉及到根據格型量化的維數,將加權語 音信號的頻譜的實部虛部分開,組成相應維數的矢量,并進行格型矢
本發(fā)明用到的技術方案中涉及到根據多描述格型矢量量化技術 的標注方法,將量化索引映射成兩個子格的索引,該映射可以在一個 小范圍內首先確立,然后根據格型本身的結構特性和平移屬性將這種 格點到兩個子格點的映射關系擴展到整個量化空間。
本發(fā)明用到的技術方案中涉及到解碼的過程依賴于每個描述的 傳輸狀態(tài),如果兩個描述(子格索引)都正確接收,就可以根據多描 述格型矢量量化的映射關系,找到中心描述。如果只有一個描述正確 接收,那么就用單個描述來恢復信號。如果所有的描述都丟失,則采 用靜音替代的方法進行恢復。
本發(fā)明用到的技術方案中涉及到將恢復后的矢量重新組合成信 號的頻譜,并進行能量調整,再利用與編碼端相同的時頻變換方法將 信號從頻域變換到時域。
本發(fā)明用到的技術方案中涉及到合成的時域信號通過感知去加 重后得到重建語音信號。
本發(fā)明有益的效果是編碼器采用了多描述的思想,這樣語音信 號在傳輸過程中,如果包含一個描述的分組丟失,仍然可以從另外正 確接收的分組中部分的恢復原始信號,從而提高了系統的穩(wěn)定性。而 且在對信號進行編碼的過程中,采用了格型矢量量化的方法,該方法
算法復雜度低,所以編解碼時不會引入大量的算法時延,而且不需要 存儲量化碼本,節(jié)省了編解碼器中的存儲空間。
圖l一本發(fā)明的系統組成框圖2 —A2格中格點與索引為31的子格點的位置關系; 圖3 —A2格中格點與索引為31子格點對的對應關系。
具體實施例方式
下面結合附圖和實施例對本發(fā)明作進一步介紹。本發(fā)明主要針對 如何提高語音信號在分組網絡上的傳輸質量的問題。適合分組語音傳 輸。
如圖l所示,本發(fā)明方法包括對編碼端和解碼端的處理。編碼端 包括感知加權、時頻變換、能量調整與格型矢量量化以及多描述標注; 而解碼端包括,參數解析、能量調整與頻譜矢量恢復、時頻反變換以 及去加權。各個部分的實現細節(jié)如下
如圖1所示,編碼端首先需要對語音信號進行加權,得到加權語
音信號,而在解碼端需要進行相反的去加權過程。操作細節(jié)如下
a) 根據語音信號的短時特性,可以將語音信號分成20ms左右的 幀,對每幀語音進行LPC分析,為了避免LPC分析的邊界效應,可 以將LPC的分析窗長大于實際處理的語音幀長。為了提高LPC的精 度而又不引入較大的計算量,可以將語音幀分成若干子幀,將LPC 系數對每個子幀進行內插。
b) 在子幀的基礎上進行感知加權,如果輸入信號是寬帶語音信號, 則加權濾波器為『(勻=—(小^=0.92,而&_— =1/(1-/ p一1) 為預加重濾波器,其中/ ,0.68;如果是窄帶語音信號,則采用 『0)=」0/^)作為加權濾波器。
c) LPC分析的系數需要傳輸到解碼端,在兩個描述中重復。
d) 在解碼端對恢復出來的加權語音信號采用去加權濾波器l/r② 進行處理,從而得到重建的語音信號。
如圖1所示,在編碼端需要將加權語音信號從時域變化到頻域, 而在解碼端需要將重建頻域的加權語音信號轉化到時域。
a) 在編碼端建議采,的方法為離散傅里葉變換。表達式為 綠)=——^
其中丄,ii3ff的樣點個數。
b) 在解碼端同樣建g采用離散反傅里葉變換。表達式為<formula>formula see original document page 8</formula>其中丄ror是l5,T的樣點個數。
如圖l所示,在編碼端需要對變換到頻域的加權語音信號組成矢 量并進行能量調整,而在解碼端需要將量化的索引轉化為矢量并重新 組成加權語音信號的頻譜。
a) 建議將X(Q的每個復數的實部和虛部組成一個二維矢量,用A2 格進行矢量量化。在量化之前需要根據預先設定的比特率確定量化器 的量化范圍,不同的比特率對應不同的量化半徑,比特率越高量化的 半徑就越大。對矢量的能量進行調整,使得能量最大的矢量距離原點 的距離與量化半徑相等。能量調整公式如下<formula>formula see original document page 8</formula>其中&為量化范圍,《M為幅度的最大值。幅度的最大值4皿采用標 量量化傳送到接收端。而每個矢量的量化索引送入多描述標注模塊。
b) 在接收端,從參數解析模塊得到A2格量化的索引,送入能量調 整與頻譜矢量恢復模塊。首先將A2格索引計算出實際的矢量,每個 矢量分解得到能量未調整的加權語音信號一個頻率樣點的實部和虛 部。這樣所有的矢量就構成了能量未調整的加權語音信號的頻譜。能 量調整的過程與模塊的過程相反。首先得到解量化的幅度的最大值 A皿,然后通過<formula>formula see original document page 8</formula> 得到能量調整后的重建加權語音信號。其中帶波浪線的字母表示接量 化后的重建信號。
如圖1所示,在編碼端需要將格的量化索引映射成兩個子格索引, 子格索弓I在信道中傳輸。而在解碼端需要對輸入矢量進行參數解析, 根據不同的傳輸狀態(tài)確定不同的恢復策略。
令A代表一個格,用A'cA表示與A幾何相似的子格。所謂相似是 指A'通過旋轉和尺度變換可以得到A。更確切的,如果G和G'分別表 示A和A'的生成矩陣。A'與A相似意味著G'"WM,其中c為非零標
量,U為行列式為±1的整數矩陣,B為實數正交矩陣。子格的索引
iV = IA / A'l為A'和八基本體積的比值,也是A'的 一個Voronoi包腔中格 點的數量。以A2格為例說明格與子格的對應關系。如圖2所示為A2 格中格點以及索引為31的子格點的結構圖。 建議采用的方法仍然以A2格為例
a) 首先根據A2格與子格的關系,在較小的范圍內R找到格點到子 格點的對應關系。最終決定兩個描述之間冗余的大小。
在如圖2所示的范圍內(格點位于坐標原點的Voronoi域,其最 遠端距離原點的半徑設為R格點到子格點對的對應關系如圖3所示。 如果輸入矢量落在這個范圍內,當它被量化到每一個格點時,就可以 根據圖3的對應關系,找到與之對應的兩個子格點。
b) 如果輸入矢量的能量超過了 R,那么就需要對輸入矢量進行平 移運算。首先將輸入矢量量化到離它最近的子格點上,然后做輸入矢 量與該子格點的矢量差,得到的差矢量的能量在范圍R之內,從而 找到差失量所對應的兩個子格點,再將這兩個子格點分別與距離輸入 矢量最近的子格點作矢量和就得到了最終需要在網絡上傳輸的兩個 子格點。
c) 在解碼端,參數解析模塊根據傳輸狀態(tài)確定最終的恢復方案。
1、 如果只有一個描述(子格樣點)正確接收,就用子格矢量來恢 復加權語音信號的頻率點,此時的誤差較大。
2、 如果兩個描述都正確接收了,就采用兩個子格點到格點的映射 關系,通過兩個子格點的坐標找到格點的坐標,從而恢復出格點。并 用格點矢量來恢復加權語音信號的頻率點。
權利要求
1.一種基于多描述格型矢量量化技術的語音編碼方法,其特征在于該方法首先對語音信號進行LPC分析,并進行感知加權,再通過時頻變換將加權語音信號變換到頻域;在頻域,經過幅度調整之后的信號被分解成矢量,用格型矢量量化法進行量化,量化后的格點按照多描述格型矢量量化的方法分解成兩個描述(相應子格點的索引);兩個描述分別在信道中傳輸;在接收端根據信道的傳輸狀態(tài)對參數進行解析,根據解析的結果重建矢量,從而重建感知加權語音信號的頻譜,再通過時頻反變換變化到時域;最后通過感知去加權濾波器得到最終的重建語音信號。
2. 如權利要求1所述的基于多描述格型矢量量化技術的語音編 碼算法,其特征在于,該方法的主要步驟有-a) 對輸入語音信號進行LPC分析,并進行感知加權;b) 通過時頻變換方法將加權后的語音信號轉換到頻域;c) 對信號的頻譜進行能量調整,將信號頻譜參數的實部虛部組合 在一起形成矢量,并用格型矢量量化算法對信號矢量進行量 化;d) 根據標注方程,將量化后的索引映射到兩個描述;e) 根據傳輸狀態(tài)對傳輸參數進行解析;f) 重建矢量,并進行能量調整重新合成信號的頻譜;g) 并采用時頻變換將信號從頻域變化到時域;h) 感知去加權。
3. 如權利要求2要求所述的一種基于多描述格型矢量量化技術 的語音編碼方法,其特征在于對輸入語音信號進行LPC分析;為 提高LPC分析的精度,若輸入信號為寬帶語音信號需進行預加重處 理,若輸入信號為窄帶語音則直接進行LPC分析;LPC分析的窗長 大于實際處理的語音信號的窗長;利用LPC分析之后的參數對輸入 語音進行感知加權。
4. 如權利要求2所述的一種基于多描述格型矢量量化技術的語 音編碼方法,其特征在于通過時頻變換方法將加權語音信號從時域變換到頻域;變換方法可以是離散傅里葉變換、離散余弦變換等。
5. 如權利要求2所述一種基于多描述格型矢量量化技術的語音編碼方法,其特征在于在形成格型量化的碼本時,不同的編碼速率 對應不同的碼本尺寸,需要根據實際的系統速率要求確定格型量化的碼本尺寸;根據碼本尺寸所確定的量化范圍,對加權語音信號的頻譜 幅度進行調整,使其充分利用量化器的動態(tài)范圍;根據格型量化的維 數,將加權語音信號的頻譜的實部虛部分開,組成相應維數的矢量, 并進行格型矢量量化。
6. 如權利要求2所述的一種基于多描述格型矢量量化技術的語 音編碼方法,其特征在于根據多描述格型矢量量化技術的標注方法, 將量化索引映射成兩個子格的索引,在信道中傳輸;而且解碼的過程 依賴于每個描述的傳輸狀態(tài),如果兩個描述(子格索引)都正確接收, 就可以根據多描述格型矢量量化的映射關系,找到中心描述;如果只 有一個描述正確接收,那么就用單個描述來恢復信號;如果所有的描 述都丟失,則采用必要的差錯隱藏算法。
7. 根據權利要求2所述的一種基于多描述格型矢量量化技術的 語音編碼方法,其特征在于將恢復后的矢量重新組合成信號的頻譜, 并進行能量調整,再利用與編碼端相同的時頻變換方法將信號從頻域 變換到時域。
8. 根據權利要求2所述的一種基于多描述格型矢量量化技術的 語音編碼方法,其特征在于合成的時域信號通過感知去加重得到重建語音信號。
全文摘要
本發(fā)明涉及一種基于多描述格型矢量量化的語音編碼方法,屬于通信領域。本發(fā)明主要用于分組語音傳輸。該算法首先對語音信號進行LPC分析,并進行感知加權,再將加權語音信號變換到頻域。在頻域,信號被分解成矢量,采用格型矢量量化方法進行量化,最后量化后的格點按照多描述格型矢量量化的標注方法分解成兩個描述(相應子格點的索引)在信道中傳輸,從而提高了系統的傳輸可靠性。因為該算法基于格型量化技術,算法復雜度和編碼延時較低。
文檔編號G10L19/02GK101110214SQ20071012014
公開日2008年1月23日 申請日期2007年8月10日 優(yōu)先權日2007年8月10日
發(fā)明者匡鏡明, 趙勝輝, 玥 郎 申請人:北京理工大學