語音信號處理方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種語音信號處理方法和裝置,屬于音頻處理【技術領域】。所述方法包括:獲取麥克風采集的語音信號;檢測語音信號是否屬于清音信號,清音信號包括正常清音信號和噴麥信號,噴麥信號是指氣流從發(fā)聲者嘴巴噴至麥克風而產(chǎn)生的語音信號;若語音信號屬于清音信號,則檢測語音信號是否屬于噴麥信號;若語音信號屬于噴麥信號,則對語音信號進行抑制處理,該抑制處理包括能量衰減處理、刪除處理和靜默處理中的至少一種。本發(fā)明解決了相關技術中針對噴麥的處理方式存在實時性差和效率低的問題;提高了噴麥處理的實時性和效率,且無需人工后期修復,達到了自動檢測抑制噴麥的效果。
【專利說明】語音信號處理方法和裝置
【技術領域】
[0001] 本發(fā)明涉及音頻處理【技術領域】,特別涉及一種語音信號處理方法和裝置。
【背景技術】
[0002] 在人們的日常工作和生活中經(jīng)常會用到麥克風。在使用麥克風說話或唱歌時,卻 常常會遇到噴麥的困擾。
[0003] 針對噴麥,常用的處理方式包括如下兩種:第一,人們在使用麥克風時,控制嘴巴 和麥克風之間的距離、角度,以盡可能地減少噴麥情況的發(fā)生;第二,采用后期人工修復的 方式,由技術人員從錄制的音頻中找出噴麥位置,并進行手動衰減處理。
[0004] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)上述技術至少存在以下問題:上述第一種方 式無法完全避免噴麥情況的發(fā)生,而上述第二種方式在處理實時性和處理效率方面也存在 很大不足。
【發(fā)明內(nèi)容】
[0005] 為了解決上述技術中針對噴麥的處理方式存在實時性差和效率低的問題,本發(fā)明 實施例提供了一種語音信號處理方法和裝置。所述技術方案如下:
[0006] 第一方面,提供了一種語音信號處理方法,所述方法包括:
[0007] 獲取麥克風采集的語音信號;
[0008] 檢測所述語音信號是否屬于清音信號,所述清音信號包括正常清音信號和噴麥信 號,所述噴麥信號是指氣流從發(fā)聲者嘴巴噴至所述麥克風而產(chǎn)生的語音信號;
[0009] 若所述語音信號屬于所述清音信號,則檢測所述語音信號是否屬于所述噴麥信 號;
[0010] 若所述語音信號屬于所述噴麥信號,則對所述語音信號進行抑制處理,所述抑制 處理包括能量衰減處理、刪除處理和靜默處理中的至少一種。
[0011] 可選的,所述對所述語音信號進行抑制處理之前,還包括:
[0012] 將所述語音信號的頻帶劃分為N個子頻帶,N彡2且N為整數(shù);
[0013] 計算所述語音信號在所述N個子頻帶內(nèi)的能量分布;
[0014] 根據(jù)所述能量分布確定所述語音信號的噴麥類型。
[0015] 可選的,所述對所述語音信號進行抑制處理,包括:
[0016] 若所述語音信號的噴麥類型為帶正常清音的噴麥信號,則根據(jù)所述能量分布將所 述N個子頻帶劃分為清音頻段、銜接頻段和噴麥頻段;計算所述銜接頻段中每個子頻帶內(nèi) 各個頻點的平均能量;根據(jù)所述平均能量的最小值對所述噴麥頻段內(nèi)各個頻點的能量進行 衰減;
[0017]或者,
[0018] 若所述語音信號的噴麥類型為不帶正常清音的輕噴麥信號,則根據(jù)所述能量分布 將所述N個子頻帶劃分為高頻噴麥頻段和低頻噴麥頻段;計算所述高頻噴麥頻段內(nèi)各個頻 點的平均能量;根據(jù)所述平均能量對所述低頻噴麥頻段內(nèi)各個頻點的能量進行衰減;
[0019]或者,
[0020] 若所述語音信號的噴麥類型為不帶正常清音的強噴麥信號,則根據(jù)預設衰減系數(shù) 對所述語音信號中各個頻點的能量進行衰減。
[0021] 可選的,所述檢測所述語音信號是否屬于所述噴麥信號,包括:
[0022] 獲取所述語音信號的頻域分布特性;
[0023] 根據(jù)所述頻域分布特性檢測所述語音信號是否屬于所述噴麥信號。
[0024] 可選的,當所述頻域分布特性為能量譜重心時,所述獲取所述語音信號的頻域分 布特性,包括:
[0025] 按照如下公式計算所述語音信號的能量譜重心WF(i):
【權利要求】
1. 一種語音信號處理方法,其特征在于,所述方法包括: 獲取麥克風采集的語音信號; 檢測所述語音信號是否屬于清音信號,所述清音信號包括正常清音信號和噴麥信號, 所述噴麥信號是指氣流從發(fā)聲者嘴巴噴至所述麥克風而產(chǎn)生的語音信號; 若所述語音信號屬于所述清音信號,則檢測所述語音信號是否屬于所述噴麥信號; 若所述語音信號屬于所述噴麥信號,則對所述語音信號進行抑制處理,所述抑制處理 包括能量衰減處理、刪除處理和靜默處理中的至少一種。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述對所述語音信號進行抑制處理之前, 還包括: 將所述語音信號的頻帶劃分為N個子頻帶,N> 2且N為整數(shù); 計算所述語音信號在所述N個子頻帶內(nèi)的能量分布; 根據(jù)所述能量分布確定所述語音信號的噴麥類型。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述對所述語音信號進行抑制處理,包 括: 若所述語音信號的噴麥類型為帶正常清音的噴麥信號,則根據(jù)所述能量分布將所述N個子頻帶劃分為清音頻段、銜接頻段和噴麥頻段;計算所述銜接頻段中每個子頻帶內(nèi)各個 頻點的平均能量;根據(jù)所述平均能量的最小值對所述噴麥頻段內(nèi)各個頻點的能量進行衰 減; 或者, 若所述語音信號的噴麥類型為不帶正常清音的輕噴麥信號,則根據(jù)所述能量分布將所 述N個子頻帶劃分為高頻噴麥頻段和低頻噴麥頻段;計算所述高頻噴麥頻段內(nèi)各個頻點的 平均能量;根據(jù)所述平均能量對所述低頻噴麥頻段內(nèi)各個頻點的能量進行衰減; 或者, 若所述語音信號的噴麥類型為不帶正常清音的強噴麥信號,則根據(jù)預設衰減系數(shù)對所 述語音信號中各個頻點的能量進行衰減。
4. 根據(jù)權利要求1所述的方法,其特征在于,所述檢測所述語音信號是否屬于所述噴 麥信號,包括: 獲取所述語音信號的頻域分布特性; 根據(jù)所述頻域分布特性檢測所述語音信號是否屬于所述噴麥信號。
5. 根據(jù)權利要求4所述的方法,其特征在于,當所述頻域分布特性為能量譜重心時,所 述獲取所述語音信號的頻域分布特性,包括: 按照如下公式計算所述語音信號的能量譜重心WF(i):
其中,i表示所述語音信號在語音序列中的幀序號,i> 0且i為整數(shù);L表示第i幀語 音信號的幀長,L彡1且L為整數(shù);k表示所述第i幀語音信號中第k個頻點,ke[0,L-1] 且k為整數(shù);|Y(k,i) |2表示所述第i幀語音信號中第k個頻點的能量; 所述根據(jù)所述頻域分布特性檢測所述語音信號是否屬于所述噴麥信號,包括: 檢測所述語音信號的能量譜重心WF(i)是否小于能量譜重心閾值; 若小于所述能量譜重心閾值,則確定所述語音信號屬于所述噴麥信號。
6. 根據(jù)權利要求1至5任一所述的方法,其特征在于,所述檢測所述語音信號是否屬于 清音信號,包括: 檢測所述語音信號是否屬于非濁音信號,所述非濁音信號包括所述清音信號和非人聲 信號; 若所述語音信號屬于所述非濁音信號,則計算所述語音信號的第一特征值,所述第一 特征值為能量或者倒譜距離; 根據(jù)所述第一特征值檢測所述語音信號是否屬于所述清音信號。
7. 根據(jù)權利要求6所述的方法,其特征在于,所述檢測所述語音信號是否屬于非濁音 信號,包括: 計算所述語音信號的第二特征值,所述第二特征值為譜熵值、過零率、相關性、分形維 數(shù)中的任意一種;根據(jù)所述第二特征值檢測所述語音信號是否屬于所述非濁音信號; 或者, 檢測所述語音信號是否存在預定特性,所述預定特性為基音周期、諧波、共振峰中的任 意一種;若所述語音信號不存在所述預定特性,則確定所述語音信號屬于所述非濁音信號。
8. 根據(jù)權利要求1至5任一所述的方法,其特征在于,所述檢測所述語音信號是否屬于 清音信號,包括: 計算所述語音信號的第一特征值,所述第一特征值為能量或者倒譜距離; 根據(jù)所述第一特征值檢測所述語音信號是否屬于所述人聲信號,所述人聲信號包括所 述清音信號和濁音信號; 若所述語音信號屬于所述人聲信號,則計算所述語音信號的第二特征值,所述第二特 征值為譜熵值、過零率、相關性、分形維數(shù)中的任意一種; 根據(jù)所述第二特征值檢測所述語音信號是否屬于所述清音信號。
9. 根據(jù)權利要求1至5任一所述的方法,其特征在于,所述檢測所述語音信號是否屬于 清音信號,包括: 計算所述語音信號的第一特征值,所述第一特征值為能量或者倒譜距離; 根據(jù)所述第一特征值檢測所述語音信號是否屬于所述人聲信號,所述人聲信號包括所 述清音信號和濁音信號; 若所述語音信號屬于所述人聲信號,則檢測所述語音信號是否存在預定特性,所述預 定特性為基音周期、諧波、共振峰中的任意一種; 若所述語音信號不存在所述預定特性,則確定所述語音信號屬于所述清音信號。
10. -種語音信號處理裝置,其特征在于,所述裝置包括: 語音獲取模塊,用于獲取麥克風采集的語音信號; 清音檢測模塊,用于檢測所述語音信號是否屬于清音信號,所述清音信號包括正常清 音信號和噴麥信號,所述噴麥信號是指氣流從發(fā)聲者嘴巴噴至所述麥克風而產(chǎn)生的語音信 號; 噴麥檢測模塊,用于當所述語音信號屬于所述清音信號時,檢測所述語音信號是否屬 于所述噴麥信號; 噴麥抑制模塊,用于當所述語音信號屬于所述噴麥信號時,對所述語音信號進行抑制 處理,所述抑制處理包括能量衰減處理、刪除處理和靜默處理中的至少一種。
11. 根據(jù)權利要求10所述的裝置,其特征在于,所述裝置還包括: 頻帶劃分模塊,用于將所述語音信號的頻帶劃分為N個子頻帶,N> 2且N為整數(shù); 能量計算模塊,用于計算所述語音信號在所述N個子頻帶內(nèi)的能量分布; 類型確定模塊,用于根據(jù)所述能量分布確定所述語音信號的噴麥類型。
12. 根據(jù)權利要求11所述的裝置,其特征在于,所述噴麥抑制模塊,包括: 第一頻段劃分單元,用于當所述語音信號的噴麥類型為帶正常清音的噴麥信號時,根 據(jù)所述能量分布將所述N個子頻帶劃分為清音頻段、銜接頻段和噴麥頻段;第一能量計算 單元,用于計算所述銜接頻段中每個子頻帶內(nèi)各個頻點的平均能量;第一能量衰減單元,用 于根據(jù)所述平均能量的最小值對所述噴麥頻段內(nèi)各個頻點的能量進行衰減; 或者, 第二頻段劃分單元,用于當所述語音信號的噴麥類型為不帶正常清音的輕噴麥信號 時,根據(jù)所述能量分布將所述N個子頻帶劃分為高頻噴麥頻段和低頻噴麥頻段;第二能量 計算單元,用于計算所述高頻噴麥頻段內(nèi)各個頻點的平均能量;第二能量衰減單元,用于根 據(jù)所述平均能量對所述低頻噴麥頻段內(nèi)各個頻點的能量進行衰減; 或者, 第三能量衰減單元,用于當所述語音信號的噴麥類型為不帶正常清音的強噴麥信號 時,根據(jù)預設衰減系數(shù)對所述語音信號中各個頻點的能量進行衰減。
13. 根據(jù)權利要求10所述的裝置,其特征在于,所述噴麥檢測模塊,包括:頻域分布獲 取單元和噴麥檢測單元; 所述頻域分布獲取單元,用于獲取所述語音信號的頻域分布特性; 所述噴麥檢測單元,用于根據(jù)所述頻域分布特性檢測所述語音信號是否屬于所述噴麥 信號。
14. 根據(jù)權利要求13所述的裝置,其特征在于, 所述頻域分布獲取單元,還用于當所述頻域分布特性為能量譜重心時,按照如下公式 計算所述語音信號的能量譜重心WF(i):
其中,i表示所述語音信號在語音序列中的幀序號,i> 0且i為整數(shù);L表示第i幀語 音信號的幀長,L彡1且L為整數(shù);k表示所述第i幀語音信號中第k個頻點,ke[0,L-1] 且k為整數(shù);|Y(k,i) |2表示所述第i幀語音信號中第k個頻點的能量; 所述噴麥檢測單元,還包括:重心檢測子單元和噴麥確定子單元; 所述重心檢測子單元,用于檢測所述語音信號的能量譜重心WF(i)是否小于能量譜重 心閾值; 所述噴麥確定子單元,用于當所述語音信號的能量譜重WWF(i)小于所述能量譜重心 閾值時,確定所述語音信號屬于所述噴麥信號。
15. 根據(jù)權利要求10至14任一所述的裝置,其特征在于,所述清音檢測模塊,包括:非 濁音檢測單元、第一特征值計算單元和第一清音檢測單元; 所述非濁音檢測單元,用于檢測所述語音信號是否屬于非濁音信號,所述非濁音信號 包括所述清音信號和非人聲信號; 所述第一特征值計算單元,用于當所述語音信號屬于所述非濁音信號時,計算所述語 音信號的第一特征值,所述第一特征值為能量或者倒譜距離; 所述第一清音檢測單元,用于根據(jù)所述第一特征值檢測所述語音信號是否屬于所述清 音信號。
16. 根據(jù)權利要求15所述的裝置,其特征在于,所述非濁音檢測單元,包括: 第二特征值計算子單元,用于計算所述語音信號的第二特征值,所述第二特征值為譜 熵值、過零率、相關性、分形維數(shù)中的任意一種;非濁音檢測子單元,用于根據(jù)所述第二特征 值檢測所述語音信號是否屬于所述非濁音信號; 或者, 特性檢測子單元,用于檢測所述語音信號是否存在預定特性,所述預定特性為基音周 期、諧波、共振峰中的任意一種;非濁音確定子單元,用于當所述語音信號不存在所述預定 特性時,確定所述語音信號屬于所述非濁音信號。
17. 根據(jù)權利要求10至14任一所述的裝置,其特征在于,所述清音檢測模塊,包括:第 一計算單元、人聲檢測單元、第二計算單元和第二清音檢測單元; 所述第一計算單元,用于計算所述語音信號的第一特征值,所述第一特征值為能量或 者倒譜距離; 所述人聲檢測單元,用于根據(jù)所述第一特征值檢測所述語音信號是否屬于所述人聲信 號,所述人聲信號包括所述清音信號和濁音信號; 所述第二計算單元,用于當所述語音信號屬于所述人聲信號時,計算所述語音信號的 第二特征值,所述第二特征值為譜熵值、過零率、相關性、分形維數(shù)中的任意一種; 所述第二清音檢測單元,用于根據(jù)所述第二特征值檢測所述語音信號是否屬于所述清 音信號。
18. 根據(jù)權利要求10至14任一所述的裝置,其特征在于,所述清音檢測模塊,包括:第 一計算單元、人聲檢測單元、特性檢測單元和清音確定單元; 所述第一計算單元,用于計算所述語音信號的第一特征值,所述第一特征值為能量或 者倒譜距離; 所述人聲檢測單元,用于根據(jù)所述第一特征值檢測所述語音信號是否屬于所述人聲信 號,所述人聲信號包括所述清音信號和濁音信號; 所述特性檢測單元,用于當所述語音信號屬于所述人聲信號時,檢測所述語音信號是 否存在預定特性,所述預定特性為基音周期、諧波、共振峰中的任意一種; 所述清音確定單元,用于當所述語音信號不存在所述預定特性時,確定所述語音信號 屬于所述清音信號。
【文檔編號】G10L25/93GK104409081SQ201410692947
【公開日】2015年3月11日 申請日期:2014年11月25日 優(yōu)先權日:2014年11月25日
【發(fā)明者】肖純智 申請人:廣州酷狗計算機科技有限公司