語音增強的方法

文檔序號：2831182閱讀：328來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音增強的方法
專利說明語音增強的方法 技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音增強的方法。
背景技術(shù)：
由于大量環(huán)境噪聲的存在，麥克風(fēng)采集到的語音信號普遍信噪比不夠高，所以需要通過語音增強的方法來提升輸入語音的信噪比。相關(guān)技術(shù)的語音增強的方法需要使用VAD(Voice Activity Detection，語音激活檢測)來區(qū)分語音信號部分和噪聲信號部分，所以需要的計算量和存儲空間都偏大，對硬件的要求比較高，在制成專用芯片時需要的硅的面積也比較大，必將增加成本。
因此實有必要對相關(guān)技術(shù)的語音增強的方法進行改良。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種資源需求量小的語音增強的方法。
本發(fā)明的目的是這樣實現(xiàn)的一種語音增強的方法，其包括如下步驟 ①將聲音采集裝置采集到的帶噪語音信號用芯片進行分幀處理，再加窗變換到頻域； ②用子帶分析濾波器將變換到頻域后的帶噪語音信號劃分為若干子帶，則相鄰兩子帶間設(shè)有子帶區(qū)間，再計算每個子區(qū)間的能量并進行平滑，得到經(jīng)平滑后的每個子帶區(qū)間的能量； ③用最小值統(tǒng)計法找出每個子帶區(qū)間的噪聲能量； ④用頻譜減算法根據(jù)經(jīng)平滑后的每個子帶區(qū)間的能量和統(tǒng)計出的噪聲能量求出每個子帶區(qū)間的倍乘因子； ⑤用計算的倍乘因子對每個子帶區(qū)間的變換到頻域后的帶噪語音信號進行處理，得到全頻帶增強后的語音信號； ⑥用子帶綜合濾波器把全頻帶增強后的語音信號合成為語音譜； ⑦把語音譜變換到時間域得到變換到時域后的全頻帶增強后的語音信號，再把相鄰的變換到時域后的全頻帶增強后的語音信號的重疊部分進行相加操作后得到最終輸出信號。
與相關(guān)技術(shù)比較，本發(fā)明語音增強的方法避免了VAD的使用，其方法簡單，資源需求量小。使用了很小的計算量，實現(xiàn)了一定的信噪比提升。

圖1為本發(fā)明的語音增強的方法的流程示意圖。
具體實施方式

本發(fā)明語音增強的方法，其包括如下步驟 ①將聲音采集裝置采集到的帶噪語音信號用芯片進行分幀處理，再加窗變換到頻域； ②用子帶分析濾波器將變換到頻域后的帶噪語音信號劃分為若干子帶，則相鄰兩子帶間設(shè)有子帶區(qū)間，再計算每個子區(qū)間的能量并進行平滑，得到經(jīng)平滑后的每個子帶區(qū)間的能量； ③用最小值統(tǒng)計法找出每個子帶區(qū)間的噪聲能量； ④用頻譜減算法根據(jù)經(jīng)平滑后的每個子帶區(qū)間的能量和統(tǒng)計出的噪聲能量求出每個子帶區(qū)間的倍乘因子； ⑤用計算的倍乘因子對每個子帶區(qū)間的變換到頻域后的帶噪語音信號進行處理，得到全頻帶增強后的語音信號； ⑥用子帶綜合濾波器把全頻帶增強后的語音信號合成為語音譜； ⑦把語音譜變換到時間域得到變換到時域后的全頻帶增強后的語音信號，再把相鄰的變換到時域后的全頻帶增強后的語音信號的重疊部分進行相加操作后得到最終輸出信號。
本發(fā)明選取帶噪語音信號的頻率為8KHZ。
對在時域中的帶噪語音信號進行分幀，是將帶噪語音信號以幀為單位等分成若干帶噪信號單元。所述帶噪信號單元由采樣點組成，本發(fā)明中選取了8KHz的采樣頻率，根據(jù)短時譜分析的需要，幀長一般設(shè)定成10～35ms之間，本實施方式以32ms分幀，即一幀帶噪信號單元設(shè)有256個采樣點，自然地，任意一幀帶噪信號單元具有一定的幀長，本發(fā)明中任意幀的幀長為256。為了防止相鄰兩幀的帶噪信號單元間的塊效應(yīng)，在分幀時要使相鄰兩幀的帶噪信號單元之間有一定的混疊部分，即，本幀數(shù)據(jù)中有D個數(shù)據(jù)為前一幀數(shù)據(jù)的部分數(shù)據(jù)，其中混疊部分描述如下 s(n)＝d(m，D+n) 0≤n<L 其中s表示輸入帶噪語音信號 d(m，n)＝d(m-1，L+n) 0≤n<D 其中，d表示當前幀的256點采樣信號，因為任意一幀的長度為256，重疊率為75％，所以重疊部分的采樣點個數(shù)D＝192。相鄰幀的帶噪信號單元的第一個采樣點相隔的距離L＝256-192＝64。
本發(fā)明相鄰兩幀的帶噪信號單元之間可以具有50％～75％的重疊率。本實施方式選取相鄰兩幀的帶噪信號單元之間具有75％的重疊率，即以從前向后的順序，本幀75％的帶噪信號單元和前一幀，以從后向前的順序，75％的帶噪語音信號單元一致。
加窗操作中所定義的窗函數(shù)是一個長度等于幀長256點的漢明窗，定義如下 win(n)＝{ 0.54—0.46cos(2*π*n/M) 0≤n≤M-1 0其余n } 其中，M為任意一幀的長度，即256；加窗后的信號為 g(n)＝win(n)*d(m，n)0≤n≤M-1 頻域的變換用通用的離散傅利葉變換算法來實現(xiàn)，所述離散傅利葉變換英文名稱為Discrete Fourier Transform，簡稱DFT。0≤k≤M-1 其中，M＝256，為離散傅利葉變換的計算長度。
這樣就將帶噪語音信號s從時域變換到了頻域。
變換到頻域后的帶噪語音信號包括語音信號和噪聲信號，該信號以幀為單位劃分為若干子帶，則相鄰子帶設(shè)有子帶區(qū)間。
本發(fā)明采用子帶分析濾波器劃分子帶。劃分子帶操作很容易實現(xiàn)，因為DFT操作已經(jīng)相當于把本發(fā)明的8KHz的帶寬等份成256等分。根據(jù)采樣定理約束，本發(fā)明選取256個子帶中有效的、頻率較低的129個子帶進行處理。
本發(fā)明，用如下公式計算每個子區(qū)間的能量并進行平滑 E(k)＝｜G(k)｜2 0≤k≤N-1 Pxn(m，k)＝αPxn(m-1，k)+(1-α)E(k)0≤k≤N-1 其中，Pxn表示經(jīng)平滑后的每個子帶區(qū)間的能量，m表示當前幀的序號，k表示當前的子帶的序號，α＝0.81056表示平滑因子。N為選取的子帶總數(shù)，即129。
經(jīng)平滑后的每個子帶區(qū)間的能量包括語音能量和噪聲能量。
本發(fā)明，每個子帶區(qū)間的噪聲能量的尋找采用了R.Martin提出的最小值統(tǒng)計方法找出每個子帶區(qū)間的噪聲能量。該方法通過假設(shè)噪聲能量是平穩(wěn)和連續(xù)的，而語音能量是有間斷的。所以可以對過去一段時間內(nèi)每個子區(qū)間平滑后的能量進行搜索，找到能量的最小值作為噪聲能量。
Pn(m，k)＝min(Pxn(m，k)，Pxn(m-1，k)，...) 0≤k≤N-1 其中，m表示當前幀的序號，k表示當前的子帶的序號，N＝129，搜索的時間大約為1.5秒鐘。
該搜索的時間1.5秒鐘大致等于188幀信號對應(yīng)的時間長度。得到該數(shù)據(jù)的具體方法為考慮到75％的重疊，188幀對應(yīng)的時間長度188*0.032*(1-75％)＝1.504。即本發(fā)明是對過去188幀經(jīng)平滑后的每個子帶區(qū)間的能量進行比較，其中的最小值作為該子帶當前時刻的噪聲能量。
求倍乘因子模塊應(yīng)用了幅度譜減法的原理，給要減去的噪聲能量乘以一個大于1的因子進一步提高語音增強的效果。本發(fā)明利用經(jīng)平滑后的每個子帶區(qū)間的能量和統(tǒng)計出的噪聲能量求出每個子帶區(qū)間的倍乘因子，計算公式為 0≤k≤N-1 其中，q為倍乘因子，m表示當前幀的序號，k表示當前的子帶的序號，N＝129子帶總數(shù)，σ表示一個大于1的因子，對于頻率為400Hz以下的子帶，它的值隨頻率的增大而減小，對于400Hz以上的子帶就穩(wěn)定在1.3。由于統(tǒng)計出來的噪聲往往比平均值要小，所以σ的作用是使系統(tǒng)減去比原來更加多的噪聲，達到更好的去噪效果。
將子帶分析濾波器輸出的每個子帶區(qū)間變換到頻域后的帶噪語音信號G乘以倍乘因子后，得到的就是該子帶區(qū)間增強后的語音信號，129個子帶區(qū)間的增強后語音信號構(gòu)成了全頻帶增強后的語音信號。
H(k)＝q(k)*G(k) 0≤k≤N-1 其中，N＝129子帶總數(shù)，H(k)為第k個子帶區(qū)間的語音增強后的信號。
子帶綜合濾波器把全頻帶增強后的語音信號合成為語音譜。本發(fā)明把129個子帶的增強后的語音信號通過共軛變換求出256點完整的語音譜。
H(k)＝{H(k) 0≤k≤N-1H(M-k)N≤k≤M-1} 其中，N＝129子帶總數(shù)，M＝256，即幀長。
最后的時域變換及輸出部分進行的操作有第一步逆DFT變換，把語音譜變換到時間域得到變換到時域后的全頻帶增強后的語音信號。
第二步將相鄰的變換到時域后的全頻帶增強后的語音信號的重疊部分進行相加操作。
時域的變換用通用的逆DFT(逆離散傅利葉變換)實現(xiàn)。0≤k≤M-1 其中，M＝256，為幀長。h為變換到時域后的全頻帶增強后的語音信號。
相鄰的變換到時域后的全頻帶增強后的語音信號的重疊部分相加可以用如下的方法來表示。
h′(n)＝{h(m，n)+h(m-1，n+L)；0≤n<M-Lh(m，n)；M-L≤k<L} L＝64為相鄰的幀信號開始處的距離，M＝256，為幀長。h’代表完成相加操作后的最終輸出信號。
與相關(guān)技術(shù)相比較，本發(fā)明語音增強的方法有效地利用了頻譜減算法計算量小的特點，避免了VAD的使用，其方法簡單，資源需求量小。使用了很小的計算量，實現(xiàn)了一定的信噪比提升。
以上所述僅為本發(fā)明的較佳實施方式，本發(fā)明的保護范圍并不以上述實施方式為限，但凡本領(lǐng)域普通技術(shù)人員根據(jù)本發(fā)明所揭示內(nèi)容所作的等效修飾或變化，皆應(yīng)納入權(quán)利要求書中記載的保護范圍內(nèi)。
權(quán)利要求
1、一種語音增強的方法，其特征在于包括如下步驟
①將聲音采集裝置采集到的帶噪語音信號用芯片進行分幀處理，再加窗變換到頻域；
②用子帶分析濾波器將變換到頻域后的帶噪語音信號劃分為若干子帶，則相鄰兩子帶間設(shè)有子帶區(qū)間，再計算每個子區(qū)間的能量并進行平滑，得到經(jīng)平滑后的每個子帶區(qū)間的能量；
③用最小值統(tǒng)計法找出每個子帶區(qū)間的噪聲能量；
④用頻譜減算法根據(jù)經(jīng)平滑后的每個子帶區(qū)間的能量和統(tǒng)計出的噪聲能量求出每個子帶區(qū)間的倍乘因子；
⑤用計算的倍乘因子對每個子帶區(qū)間的變換到頻域后的帶噪語音信號進行處理，得到全頻帶增強后的語音信號；
⑥用子帶綜合濾波器把全頻帶增強后的語音信號合成為語音譜；
⑦把語音譜變換到時間域得到變換到時域后的全頻帶增強后的語音信號，再把相鄰的變換到時域后的全頻帶增強后的語音信號的重疊部分進行相加操作后得到最終輸出信號。
2.根據(jù)權(quán)利要求1所述的語音增強的方法，其特征在于所述分幀處理的信號中，相鄰兩幀間重疊部分在50％至75％之間。
3、根據(jù)權(quán)利要求2所述的語音增強的方法，其特征在于所述任意幀的長度在10～35ms左右。
4、根據(jù)權(quán)利要求3所述的語音增強的方法，其特征在于所述變換到頻域后的帶噪語音信號選取129個子帶區(qū)間。
5、根據(jù)權(quán)利要求4所述的語音增強的方法，其特征在于對所述每個子帶區(qū)間過去1.5秒的時間內(nèi)的計算每個子帶區(qū)間的能量進行平滑比較，找到該子帶區(qū)間的最小語音能量作為噪聲能量。
6、根據(jù)權(quán)利要求5所述的語音增強的方法，其特征在于求倍乘因子的模塊應(yīng)用了幅度頻譜減算法的原理，并給要減去的噪聲能量乘以一個大于1的因子進一步提高語音增強的效果。
全文摘要
一種語音增強的方法，其包括如下步驟①對帶噪語音信號進行分幀，加窗變換到頻域；②將變換到頻域后的帶噪語音信號劃分為若干子帶，則相鄰兩子帶間設(shè)有子帶區(qū)間；③找出每個子帶區(qū)間的噪聲能量；④求出每個子帶區(qū)間的倍乘因子；⑤得到全頻帶增強后的語音信號；⑥合成語音譜；⑦輸出信號。本發(fā)明語音增強的方法資源需求量小。
文檔編號G10L19/02GK101477800SQ20081024210
公開日2009年7月8日申請日期2008年12月31日優(yōu)先權(quán)日2008年12月31日
發(fā)明者黃松華, 堯王申請人:瑞聲聲學(xué)科技(深圳)有限公司, 瑞聲聲學(xué)科技(常州)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃松華;王堯
技術(shù)所有人：瑞聲聲學(xué)科技（深圳）有限公司;瑞聲聲學(xué)科技(常州)有限公司
我是此專利的發(fā)明人

上一篇：一種用于音頻內(nèi)容識別的同步方法
上一篇：可調(diào)節(jié)音效的聲音擴展管及其音箱的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音增強相關(guān)技術(shù)

語音增強算法相關(guān)技術(shù)

麥克風(fēng)陣列語音增強相關(guān)技術(shù)

語音震顫增強相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音增強的方法