專利名稱:一種語音信號增強方法及裝置的制作方法
技術領域:
本發(fā)明涉及語音信號處理領域,尤其涉及一種語音信號增強方法及裝置。
背景技術:
實際的語音通訊多發(fā)生在嘈雜的噪聲環(huán)境中,如,工廠中的手機通訊會受
到機器轟鳴聲的影響;火車駕駛室中的語音通信會受到電才幾運行和鐵軌碰撞聲 的干擾。在這樣的噪聲環(huán)境中,為從帶噪語音信號中獲得盡可能純凈的原始語 音,改善語音質量,提高語音的清晰度和可懂度,需要對輸入的語音信號進行 語音信號增強處理。
按照拾取語音信號的話筒數(shù)目,語音增強分為單通道和多通道兩種類型。 單通道語音增強系統(tǒng)只需要一個話筒,硬件資源要求低,算法復雜性較小,但 是消噪性能優(yōu)先。
基于統(tǒng)計模型的單通道語音增強技術主要采用頻域加權的方法。如,對時 域語音信號進行傅里葉變換,獲得頻域語音信號;再獲得頻域信號的信噪比估 計,根據(jù)該估計計算權重;根據(jù)計算出來的權重對頻域語音信號進行加權后進 行傅里葉逆變換,獲得經(jīng)過增強處理后的時域語音信號。
多通道語音增強系統(tǒng)使用麥克風(話筒)陣列獲得多通道語音信號,在多 通道語音信號中包含了豐富的空間信息和時間信息,具有更大的性能提升空間。 在基于信號和陣列處理理論的麥克風陣列波束形成技術中,麥克風陣列是由按 一定幾何形狀排列的一組麥克風組成。相對與傳統(tǒng)的單麥克風語音增強算法, 麥克風陣列具有空間指向性,能夠提取特定方向的有用信號,可以一定程度上 抑制噪聲。波束形成是一種通過控制波束的方向和形狀,從干擾中提取目標信 號的技術。延遲-相加波束形成是一種對各個麥克風的信號進行時延和相加處理 的基本的波束形成方法,其原理如圖1所示。
其中S(t)為聲源信號,Yn(t)為第n個麥克接收到的信號,Wn是第n個麥克 的權重,Z(t)為陣列輸出,通過將每個麥克接收到的信號乘以權重并進行相應的延遲相加得到期望的信號。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn),現(xiàn)有的多通道語音增強系統(tǒng)的語音增 強技術中,通過多個通道輸入的各路信號的權重值的計算都是與其他通道輸入 的信號相互獨立的,沒有考慮到各通道信號的相關性,使得加權后輸出信噪比 仍然不高。
發(fā)明內容
本發(fā)明所要解決的技術問題在于,提供一種語音信號增強方法及裝置,可 充分利用各通道信號的相關性,使該語音信號增強后的信號具有較高的信噪比。
為此, 一方面,本發(fā)明的實施例提供了一種語音信號增強方法,包括獲 得多路語音信號中各路語音信號的先驗信噪比和后驗信噪比;根據(jù)所述多路語 音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號的信號參數(shù);根據(jù)所述信 號參數(shù)和所述各路語音信號的先驗信噪比和后驗信噪比獲得聯(lián)合建模的所述各 路語音信號的加權系數(shù);利用所述各路語音信號的加權系數(shù)對所述對應的各路 多路語音信號分別進行加權,獲得加權后的多路語音信號;對所述加權后的多 路語音信號進行合成,獲得增強后的語音信號。
另一方面,本發(fā)明的實施例提供了一種語音信號增強裝置,包括信噪比 獲取單元,用于獲得多路語音信號中各路語音信號的先驗信噪比和后驗信噪比; 參數(shù)獲取單元,用于根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多 路語音信號的信號參數(shù);系數(shù)計算單元,用于根據(jù)所述信號參數(shù)和所述各路語 音信號的先驗信噪比和后驗信噪比獲得聯(lián)合建模的所述各路語音信號的加權系 數(shù);加權單元,用于利用所述各路語音信號的加權系數(shù)對所述對應的各路多路 語音信號分別進行加權,獲得加權后的多路語音信號;合成單元,用于對所述 加權后的多路語音信號進行合成,獲得增強后的語音信號。
在本發(fā)明實施例所提供的技術方案中,由于在獲取每路加權系數(shù)時,均考 慮了各路輸入的語音信號的先驗信噪比和后驗信噪比信息,對多路輸入信號進 行了聯(lián)合建模,充分利用了多路信號間的相關性,提高了加權后的輸出信號的 信噪比。
7圖1是現(xiàn)有的麥克風陣列波束形成技術中延遲相加波束形成的原理示意圖; 圖2是本發(fā)明中語音信號增強方法的一個具體實施例的流程示意圖; 圖3是本發(fā)明中語音信號增強方法的另一個具體實施例的流程示意圖; 圖4是本發(fā)明中語音信號增強裝置的一個具體實施例的組成示意圖; 圖5是本發(fā)明中語音信號增強裝置的另 一個具體實施例的組成示意圖。
具體實施例方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清 楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是 全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造 性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
下面參考附圖對本發(fā)明的實施例進行描述。參見圖2,為本發(fā)明中語音信號 增強方法的 一個具體實施例的流程示意圖。該流程包括
201 、獲得多路語音信號中各路語音信號的先驗信噪比和后驗信噪比。
202、根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號 的信號參數(shù)。
所述多路語音信號的統(tǒng)計模型可以包括比傳統(tǒng)的高斯統(tǒng)計模型(或稱高斯 模型)更精準的語音模型,如超高斯模型、拉普拉斯模型以及增廣高斯模型等, 上述這些模型的模型參數(shù)可以較傳統(tǒng)的高斯模型更好的體現(xiàn)出多路語音信號的 信號特性。所述模型參數(shù)可以包括多路語音信號的幅度,多路語音能量譜密度, 多路語音信號幅度的概率密度,還可以包括伽馬函數(shù)信息等其他模型參數(shù)。
通過實際的多路語音信號和實際語音系統(tǒng)的情況,根據(jù)模型參數(shù)可以獲得, 在當前的環(huán)境下該多路語音信號的信號參數(shù)。如,超高斯模型中的參數(shù)〃和、
所述的超高斯模型可以包括下面的實例但也不僅限于下述表示實例,
<formula>formula see original document page 8</formula>拉普拉斯模型可以包括下面的實例但也不僅限于下述表示實例,
其中,多語音信號的信號特性通過模型參數(shù)表示包括A語音信號的幅度, ^為語音能量鐠密度,r為Gamma函數(shù),^和v為所述超高斯模型的參數(shù),P(^) 為A的概率密度。)
203、根據(jù)所述模型參數(shù)和所述各路所述語音信號的先驗信噪比和后驗信噪 比獲得聯(lián)合建模的每路所述語音信號的加權系數(shù)。
其中,獲得加權系數(shù)的方法可以根據(jù)單通道的統(tǒng)計模型的加權系數(shù)獲得。 如,對于超高斯模型,根據(jù)最小均方誤差估計,獲得的單通道下的加權系數(shù), 如下面的實例所示
^ 2 V-l/2
Cz = m + ,/k +-
1 p
m =---廠
其中,G為單通道加權系數(shù), 2 4#, ^和v為超高斯模型中的參數(shù), 《和z為估計先驗SNR和后驗SNR。
再考慮各路信號的信號延遲,可以獲得聯(lián)合建模的每路所述語音信號的加 權系數(shù),如,下述為超高斯模型下的聯(lián)合建模的第m路語音信號的加權系數(shù)
/=1
其中,M是聯(lián)合建模中所述語音信號的總路數(shù),(^是第m路語音信號的加 權系數(shù),^是第m路語音信號的先驗信噪比,^是第m路語音信號的后驗信噪 比,a和u是超高斯模型的參數(shù)。
《和k分別是對應的各路語音信號的先驗信噪比和后驗信噪比。在本實例 中,i的取值范圍為1 M,即用1 M路信號的估計(《和^ )來計算第m路語 音信號的加權系數(shù),考慮了M路信號的相關性,實現(xiàn)了聯(lián)合建模。
將m分別從1到M取值,即可獲得所有輸入的各路所述語音信號的加權系數(shù)。
204、根據(jù)所述加權系數(shù)對所述輸入的多路語音信號分別進行加權,獲得加 權后的多路語音信號。
9205、對所述加權后的多路語音信號進行合成,獲得增強后的語音信號。其 中,合成的方法包括時域或頻域的自適應波束形成處理方法,或是延遲-相加波 束形成處理方法;通過合成處理可以獲得至少 一路進行了語音信號增強的語音 信號,通常只需要輸出一路語音信號即可,但是在實際中也可能對多路進行不 同的合成,獲得一路以上的增強的語音信號。
若進行頻域的自適應波束形成處理,則在步驟201中,可對輸入的多路時 域語音信號分別進行時頻變換,獲得多路頻域語音信號;再獲得所述多路頻域 語音信號的先驗信噪比和后驗信噪比。則相應的后續(xù)步驟中都是對頻域語音信 號進行處理,在步驟205中,對所述加權后的多路頻域語音信號進行頻域自適 應波束形成處理,獲得至少一路進行了語音信號增強的頻域語音信號;再對所 述進行了語音信號增強的頻域語音信號進行時頻變換,獲得進行了語音信號增 強的時域語音信號。
在具體實現(xiàn)時,由于語音信號是實時產(chǎn)生的,需要對實時輸入的語音信號 進行分幀加窗處理,再以分幀加窗后獲得的各個重疊的語音幀分別進行增強處 理,并最終根據(jù)處理結果結合各幀的實際重疊情況,實時獲得增強后的語音信 號。
如圖3所示,為本發(fā)明中語音信號增強方法的另一個具體實施例的流程示 意圖。該流程包括
301、 分幀加窗系統(tǒng)的輸入為時域帶噪語音信號,進入M個麥克風,如 M=4。本例中分幀加窗可采用半交疊的漢寧窗(hann窗),幀長為512點,時域 帶噪音語音信號經(jīng)過分幀加窗后輸出一幀一幀的幀長為512點的時域語音幀, 獲得M路時域語音幀信號。
302、 傅里葉變換(FFT):對上述M路時域語音幀進行FFT變換,將時域 信號轉變?yōu)轭l域信號。
303、 對M路頻域語音幀分別進行信噪比估計。其中,進行信噪比估計包括, 計算每個通道的噪聲能量譜密度和語音能量譜密度,并根據(jù)第i個通道的噪聲能 量譜密度和語音能量譜密度獲得第i個通道的先驗SNR和后驗SNR,當i從l M 取值時,即獲得M路頻域語音幀的先驗SNR和后驗SNR。
具體方法如下所示
1、根據(jù)第m路頻域語音幀得到第m路的估計的噪聲能量語密度《("和估計的語音能量譜密度S("。 柳豐
2、根據(jù)式 W,獲得后驗SNR Z,其中,^"為帶噪語音信號的離 散傅里葉(DFT)幅值;
根據(jù)下式獲得先驗SNR^:
扭)= 斑+(1 - 抓旨W—1]
其中,4(W為語音信號的DFT幅值, …"w。
3 、 m分別在1 M取值,獲得M路信號的先驗SNR和后驗SNR。
304、根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號 的信號參數(shù)。
中心極限理論假設無論時域采樣點的功率譜密度函數(shù)(PDF )是多少,語音 和噪聲的DFT系數(shù)的分布都將收斂于高斯PDF,該假設的前提是采樣點各自統(tǒng) 計獨立并且采樣點之間的相關性相對于幀長是很小的。語音信號的高斯模型如 下
其中A為語音的幅度,^為語音能量譜密度。
但是在實際情況中,通常存在相關的噪聲或混響,使得高斯模型不能精確 描述帶噪信號的統(tǒng)計特性。因此本實施例中采用超高斯模型來作為多路語音信 號的統(tǒng)計模型以獲得多路語音信號的信號參數(shù)。
其中,超高斯模型的模型參數(shù)是針對所有路語音信號而言的,不是單獨根 據(jù)某一路語音信號計算獲得的,而是根據(jù)實際情況獲得的,如,根據(jù)當前環(huán)境 情況得到的經(jīng)驗值。
本步與步驟301~303并無固定的順序關系,只要在304之前獲得即可。
305、加權系數(shù)計算。
考慮各路信號的相對延遲,可以獲得聯(lián)合建模的每路所述語音信號的加權
系數(shù)為:其中,G^是第m路語音信號的加權系數(shù),^是第m路語音信號的先驗SNR, "是第m路語音信號的后驗SNR, M為總的語音信號的路數(shù),^和"為超高斯 模型中相應的參數(shù),《和"分別代表對應的第i個通道的估計先驗SNR和后驗 SNR, i取值為1~M。
這樣,就可以根據(jù)上式獲得聯(lián)合建模的加權系數(shù)&的計算,得到&, m為
306、 根據(jù)&對第m路頻域語音幀進行加權,其中,m取值為1~M,獲得 M路頻域語音幀加權后的信號。
307、 對加權后的M路頻域語音幀進行自適應波束形成處理,輸出一路頻域 信號。自適應波束形成法包括基于頻域最小均方誤差的自適應波束形成法、基 于特征空間的自適應波束形成法、基于麥克風陣列的自適應波束形成法等。
其中,基于麥克風陣列的自適應波束形成方法包括 假設陣列有M個麥克風,接收信號的頻域相關空間矩陣表示為<formula>formula see original document page 12</formula>其中x(/)為頻率f處陣列接收的信號矢量。
選取一系列頻點/;, i=l, 2...D,其中D為頻點總數(shù),自適應波束形成方法 在每個頻點上選取滿足下式的權向量w(/)為相應頻點的最優(yōu)權向量,
<formula>formula see original document page 12</formula> 其中為語音信號在該頻點的方向矢量。 然后,在頻域進行加權后求和,可得到加權后的信號為<formula>formula see original document page 12</formula>
即可得到輸出的一路頻域信號。
308、 對輸出的一路頻域信號進行傅里葉逆變換(IFFT變換),得到一路時 域信號。
其中,對于多幀信號,由于分幀加窗時,各幀是有交疊的,所以經(jīng)過增強 處理后的一路多幀信號可通過適當?shù)膐verlap add處理形成一路時域語音信號。
采用上述實施例所提供的技術方案,由于采用更精確的語音模型來取代傳 統(tǒng)的高斯統(tǒng)計模型,提高了估計精度;對M路輸入信號進行聯(lián)合建模獲得加權 系數(shù),充分利用了 M路信號間的相關性,使得加權后的輸出信噪比提高;同時, 由于頻域的系數(shù)相對時域更加集中在某個區(qū)域,而自適應算法的收斂性是通過逼近這些目標值的近似程度來體現(xiàn)的,因此,采用頻域自適應波束形成算法可 以獲得較快的收斂速度。
相應的,本發(fā)明還提供了語音信號增強裝置的具體實施例,如圖4所示, 該裝置包括
信噪比獲取單元10,用于獲得多路語音信號中各路語音信號的先驗信噪比 和后驗信噪比。如圖5所示,信噪比獲取單元10可包括第一時頻轉換模塊101, 用于對輸入的多路時域語音信號分別進行時頻變換,獲得多路頻域語音信號; 信噪比獲取模塊102,用于獲得所述多路頻域語音信號的先驗信噪比和后驗信噪 比。其中,第一時頻轉換沖莫塊101還用于對輸入的多路時域語音信號進行分幀 加窗,獲得多路時域語音幀,并對所述多路時域語音幀分別進行時頻變換,獲 得多路頻域語音幀。
參數(shù)獲取單元20,用于根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得 所述多路語音信號的信號參數(shù)。所述多路語音信號的統(tǒng)計才莫型可以包括比傳統(tǒng)
的高斯統(tǒng)計模型(或稱高斯模型)更精準的語音模型,如超高斯模型、拉普拉 斯模型以及增廣高斯模型等,上述這些模型的模型參數(shù)可以較傳統(tǒng)的高斯模型
更好的體現(xiàn)出多路語音信號的信號特性。所述模型參數(shù)可以包括多路語音信號 的幅度,多路語音能量譜密度,多路語音信號幅度的概率密度,還可以包括伽 馬函數(shù)信息等其他模型參數(shù)。
其中,所述的超高斯模型可以包括下面的實例但也不僅限于下述表示實例,
=丄"二 exp(-〃》
拉普拉斯模型可以包括下面的實例但也不^f義限于下述表示實例,
p(j)-丄exp(—
其中,多語音信號的信號特性通過模型參數(shù)表示包括A語音信號的幅度, ^為語音能量譜密度,r為Gamma函數(shù),^和v為所述超高斯模型的參數(shù),^々 為A的概率密度。)
系數(shù)計算單元30,用于根據(jù)所述模型參數(shù)和所述各路所述語音信號的先驗 信噪比和后驗信噪比獲得聯(lián)合建模的每路所述語音信號的加權系數(shù),進一步的 可以是,根據(jù)所述信號參數(shù)、所述各路語音信號的先驗信噪比和后驗信噪比, 基于最小均方誤差估計和各路信號的信號延遲,獲得聯(lián)合建模的所述各路語音
13信號的加權系數(shù)。
如圖5所示,系數(shù)計算單元30包括取值模塊301,用于對m分別從l到 M進行取值;m路計算模塊302,用于根據(jù)取值模塊301對m的取值,根據(jù)下 式獲得聯(lián)合建模的第m路所述語音信號的加權系數(shù)
<formula>formula see original document page 14</formula>
其中,M是聯(lián)合建模中所述語音信號的總路數(shù),(^是第m路語音信號的加 權系數(shù),^是第m路語音信號的先驗信噪比,^是第m路語音信號的后驗信噪 比,《和^分別是對應的各路語音信號的先驗信噪比和后驗信噪比,a和u是超 高斯模型的參數(shù)。
加權單元40,用于利用所述各路語音信號的加權系數(shù)對所述對應的各路多 路語音信號分別進行加權,獲得加權后的多路語音信號;
合成單元50,用于對所述加權后的多路語音信號進行合成,獲^f尋增強后的 語音信號。其中,合成的方法包括時域或頻域的自適應波束形成處理方法,或 是延遲-相加波束形成處理方法;通過合成處理可以獲得至少一路進4亍了語音信 號增強的語音信號,通常只需要輸出一路語音信號即可,但是在實際中也可能 對多路進行不同的合成,獲得一路以上的增強的語音信號。
如果釆用頻域的自適應波束形成方法,則如圖5所示,合成單元50可包括 波束形成模塊501,用于對所述加權后的多路頻域語音信號進行頻域自適應波束 形成處理,獲得至少一路進行了語音信號增強的頻域語音信號,其具體處理過 程可參見圖3中的相關說明;第二時頻轉換模塊502,用于對所述進4亍了語音信 號增強的頻域語音信號進行時頻變換,獲得進行了語音信號增強的時域語音信 號。
在本實施例所提供的技術方案中,由于采用更精確的語音模型來取代傳統(tǒng) 的高斯統(tǒng)計模型,提高了估計精度;對M路輸入信號進行聯(lián)合建才莫獲得加權系 數(shù),充分利用了 M贈"言號間的相關性,使得加權后的輸出信噪比提高;同時, 由于頻域的系數(shù)相對時域更加集中在某個區(qū)域,而自適應算法的收斂性是通過 逼近這些目標值的近似程度來體現(xiàn)的,因此,采用頻域自適應波束形成算法可 以獲得較快的收斂速度。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的 單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也 可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)全各單元上。 可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目 的。本領域普通技術人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實施。
通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到各實施 方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件。
基于這樣的理解,上述技術方案本質上或者說對現(xiàn)有技術^:出貢獻的部分可以 以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介 質中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備 (可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行各個實施例或者實施例 的某些部分所述的方法。
以上所述的實施方式,并不構成對該技術方案保護范圍的限定。任何在上 述實施方式的精神和原則之內所作的修改、等同替換和改進等,均應包含在該 技術方案的保護范圍之內。
1權利要求
1、一種語音信號增強方法,其特征在于,所述方法包括獲得多路語音信號中各路語音信號的先驗信噪比和后驗信噪比;根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號的信號參數(shù);根據(jù)所述信號參數(shù)和所述各路語音信號的先驗信噪比和后驗信噪比獲得聯(lián)合建模的所述各路語音信號的加權系數(shù);利用所述各路語音信號的加權系數(shù)對所述對應的各路多路語音信號分別進行加權,獲得加權后的多路語音信號;對所述加權后的多路語音信號進行合成,獲得增強后的語音信號。
2、如權利要求1所述的方法,其特征在于,所述統(tǒng)計模型包括超高斯模型、或拉普拉斯模型、或增廣高斯模型,所述統(tǒng)計模型的模型參數(shù)包括超高斯模型中的參數(shù)、或拉普拉斯才莫型中的參數(shù)、或增廣高斯模型中的參數(shù)。
3、如權利要求2所述的方法,其特征在于,所述統(tǒng)計模型為超高斯模型,所述超高斯模型可表示為<formula>formula see original document page 2</formula>其中,A為語音信號的幅度,^為語音能量鐠密度,r為Gamma函數(shù),〃和v為所述超高斯模型的參數(shù),PW)為A的概率密度。
4、如權利要求1至3中任一項所述的方法,其特征在于,所述根據(jù)所述信號參數(shù)和所述各路語音信號的先驗信噪比和后驗信噪比獲得聯(lián)合建模的所述各if各語音信號的加權系數(shù)包括根據(jù)所述信號參數(shù)、所述各路語音信號的先驗信噪比和后^r信噪比,基于最小均方誤差估計和各路信號的信號延遲,獲得聯(lián)合建模的所述各路語音信號的加權系數(shù)。
5、如權利要求4所述的方法,其特征在于,所述根據(jù)所述模型參數(shù)和所述各路所述語音信號的先驗信噪比和后驗信噪比獲得聯(lián)合建模的每路所述語音信號的加權系數(shù)包括,根據(jù)超高斯模型獲得聯(lián)合建模的第m路所述語音信號的加權系數(shù)為其中,M是聯(lián)合建模中所述語音信號的總路數(shù),C^是第m路語音信號的加權系數(shù),^是第m路語音信號的先驗信噪比,^是第m路語音信號的后驗信噪比,《.和y,.分別是對應的各路語音信號的先驗信噪比和后驗信噪比,a和u是根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號的信號參數(shù);所述m分別從1到M取值,獲得所有輸入的各路所述語音信號的加權系數(shù)。
6、如權利要求5所述的方法,其特征在于,所述根據(jù)輸入的多路語音信號獲得各路所述語音信號的先驗信噪比和后驗信噪比包括對輸入的多路時域語音信號分別進行時頻變換,獲得多路頻域語音信號;獲得所述多路頻域語音信號的先驗信噪比和后驗信噪比。
7、如權利要求6所述的方法,其特征在于,所述對所述加權后的多路語音信號進行合成,獲得增強后的語音信號包括對所述加權后的多i 各頻域語音信號進行頻域自適應波束形成處理,獲得至少 一路進行了語音信號增強的頻域語音信號;對所述進行了語音信號增強的頻域語音信號進行時頻變換,獲得進行了語音信號增強的時域語音信號。
8、如權利要求6所述的方法,其特征在于,在所述對輸入的多路時域語音信號分別進行時頻變換,獲得多路頻域語音信號之前包括,對輸入的多路時域語音信號進行分幀加窗,獲得多路時域語音幀;所述對輸入的多路時域語音信號分別進行時頻變換,獲得多路頻域語音卞號為,對所述多路時域語音幀分別進行時頻變換,獲得多路頻域語音幀。
9、 一種語音信號增強裝置,其特征在于,所述裝置包括信噪比獲取單元,用于獲得多路語音信號中各路語音信號的先驗信噪比和后馬^[言,噪比;參數(shù)獲取單元,用于根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號的信號參數(shù);系數(shù)計算單元,用于根據(jù)所述信號參數(shù)和所述各路語音信號的先驗信噪比和后驗信噪比獲得聯(lián)合建模的所述各路語音信號的加權系數(shù);加權單元,用于利用所述各路語音信號的加權系數(shù)對所述對應的各路多路語音信號分別進行加權,獲得加權后的多路語音信號;合成單元,用于對所述加權后的多路語音信號進行合成,獲得增強后的語音信號。
10、如權利要求9所述的裝置,其特征在于,參數(shù)獲取單元可用于根據(jù)所述多路語音信號的超高斯模型的模型參數(shù)、或拉普拉斯模型中的參數(shù)、或增廣高斯模型中的參數(shù)獲得所述多路語音信號的信號參數(shù)。
11、如權利要求IO所述的裝置,其特征在于,所述參數(shù)獲取單元用于才艮據(jù)所述多路語音信號的超高斯模型的參數(shù)獲得所述多路語音信號的信號參數(shù),所述超高斯沖莫型可表示為其中,A為語音信號的幅度,^為語音能量語密度,r為Gamma函數(shù),^和v為所述超高斯模型的參數(shù),P")為A的概率密度。
12、如權利要求9至11中任一項所述的裝置,其特征在于,所述系數(shù)計算單元還用于根據(jù)所述信號參數(shù)、所述各路語音信號的先驗信噪比和后驗信噪比,基于最小均方誤差估計和各路信號的信號延遲,獲得聯(lián)合建模的所述各路語音信號的加權系數(shù)。
13、如權利要求12所述的裝置,其特征在于,所述系數(shù)計算單元包括取值模塊,用于對m分別從1到M進行取值;m路計算模塊,用于根據(jù)取值模塊對m的取值,根據(jù)超高斯模型獲得聯(lián)合建模的第m路所述語音信號的加權系數(shù)為p _、/ 1/M _ 〃/ _ 〃 ,2,《 '=i z V '=i z其中,M是聯(lián)合建模中所述語音信號的總路數(shù),C^是第m路語音信號的加權系數(shù),C是第m路語音信號的先驗信噪比,^是第m路語音信號的后驗信噪比,《和^分別是對應的各路語音信號的先驗信噪比和后驗信噪比,^和"是根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號的信號參數(shù)。
14、如權利要求13所述的裝置,其特征在于,信噪比獲取單元包括第一時頻轉換模塊,用于對輸入的多路時域語音信號分別進行時頻變換,獲得多路頻域語音信號;信噪比獲取模塊,用于獲得所述多路頻域語音信號的先驗信噪比和后驗f噪比。
15、如權利要求14所述的裝置,其特征在于,所述第一時頻轉換模塊還用于對輸入的多路時域語音信號進行分幀加窗,獲得多路時域語音幀,并對所述多路時域語音幀分別進行時頻變換,獲得多路頻域語音幀。
16、如權利要求14所述的裝置,其特征在于,所述合成單元包括波束形成模塊,用于對所述加權后的多路頻域語音信號進行頻域自適應波束形成處理,獲得至少一路進行了語音信號增強的頻域語音信號;第二時頻轉換模塊,用于對所述進行了語音信號增強的頻域語音信號進行時頻變換,獲得進行了語音信號增強的時域語音信號。
全文摘要
本發(fā)明公開了一種語音信號增強方法及裝置,該方法包括獲得多路語音信號中各路語音信號的先驗信噪比和后驗信噪比;根據(jù)所述多路語音信號的統(tǒng)計模型的模型參數(shù)獲得所述多路語音信號的信號參數(shù);根據(jù)所述信號參數(shù)和所述各路語音信號的先驗信噪比和后驗信噪比獲得聯(lián)合建模的所述各路語音信號的加權系數(shù);利用所述各路語音信號的加權系數(shù)對所述對應的各路多路語音信號分別進行加權,獲得加權后的多路語音信號;對所述加權后的多路語音信號進行合成,獲得增強后的語音信號。本發(fā)明實施例中的技術方案,充分利用了多路信號間的相關性,提高了經(jīng)過加權后的輸出信號的信噪比。
文檔編號G10L21/00GK101685638SQ20081019877
公開日2010年3月31日 申請日期2008年9月25日 優(yōu)先權日2008年9月25日
發(fā)明者清 張, 毅 楊 申請人:華為技術有限公司