本公開涉及用于增強語音可懂度的方法和聽力設備。該聽力設備包括用于提供包括語音信號和噪聲信號的輸入信號的輸入變換器,以及配置為處理輸入信號的處理單元,其中處理單元配置為用于對輸入信號執(zhí)行基于碼本的方法處理。
背景技術:
由于其廣泛的應用范圍,在過去幾十年中由背景噪聲劣化的語音的增強已經(jīng)是令人感興趣的話題。一些重要的應用是數(shù)字助聽器、免提移動通信和語音識別設備。語音增強系統(tǒng)的目標是改進劣化語音的質量和可懂度。已經(jīng)開發(fā)的語音增強算法可以主要分類為頻譜減法方法、基于統(tǒng)計模型的方法和基于子空間的方法。已經(jīng)發(fā)現(xiàn)傳統(tǒng)的單通道語音增強算法以改善語音質量,但是在存在非平穩(wěn)背景噪聲的情況下沒有成功地改善語音可懂度。在助聽器用戶中通常遇到的集擾噪聲(babblenoise)被認為是高度非平穩(wěn)噪聲。因此,在這種情況下對語音可懂度的改善是非常期望的。
技術實現(xiàn)要素:
例如,在存在非平穩(wěn)背景噪聲的情況下,對聽力設備中的改善的語音可懂度是需要的。
公開了用于增強語音可懂度的聽力設備。聽力設備包括用于提供包括語音信號和噪聲信號的輸入信號的輸入變換器。聽力設備包括配置為用于處理輸入信號的處理單元。聽力設備包括耦合到處理單元的輸出的聲學輸出變換器,用于將來自處理單元的輸出信號轉換為音頻輸出信號。處理單元配置為對輸入信號執(zhí)行基于碼本的方法處理。處理單元配置為用于基于基于碼本的方法處理來確定輸入信號的一個或多個參數(shù)。處理單元配置為用于使用所確定的一個或多個參數(shù)執(zhí)行輸入信號的卡爾曼濾波。處理單元配置為使得輸出信號由于卡爾曼濾波而增強了語音可懂度。
還公開了用于增強聽力設備中的語音可懂度的方法。該方法包括提供包括語音信號和噪聲信號的輸入信號。該方法包括對輸入信號執(zhí)行基于碼本的方法處理。該方法包括基于基于碼本的方法處理確定輸入信號的一個或多個參數(shù)。該方法包括使用所確定的一個或多個參數(shù)執(zhí)行輸入信號的卡爾曼濾波。該方法包括使得輸出信號由于卡爾曼濾波而增強了語音可懂度。
所公開的方法和聽力設備提供在語音可懂度方面,而且在存在非平穩(wěn)背景噪聲的情況下,增強或改善聽力設備中的輸出信號。因此,聽力設備的用戶將在改善了語音的可懂度的情況下接收或聽到輸出信號。這是優(yōu)點,特別是在非平穩(wěn)背景噪聲的存在下,諸如通常在例如助聽器用戶中遇到的集擾噪聲。
因為執(zhí)行輸入信號的卡爾曼濾波,所以輸出信號而增強了語音可懂度。為執(zhí)行卡爾曼濾波,應當確定要用作卡爾曼濾波的輸入的輸入信號的一個或多個參數(shù)。通過對輸入信號執(zhí)行基于碼本的方法處理確定這些一個或多個參數(shù)。
可以通過諸如短期客觀可懂度(stoi)和分段信噪比(segsnr)以及語音質量的感知評估(pesq)的客觀測量評估增強的或改善的語音可懂度。
輸入信號z(n)可以稱為有噪聲信號z(n),因為它包括噪聲和語音。因此,輸入信號包括可以稱為純語音信號s(n)的語音信號s(n)。輸入信號z(n)還包括噪聲信號w(n)。語音信號可以稱為輸入信號的語音部分。噪聲信號可以稱為輸入信號的噪聲部分。輸入信號的噪聲信號或噪聲部分可以是背景噪聲,諸如非平穩(wěn)背景噪聲,例如集擾噪聲。
因此,碼本可以包括噪聲碼本和/或語音碼本。例如,通過諸如在交通噪聲、自助餐廳噪聲等的有噪聲環(huán)境中記錄來訓練碼本,可以生成噪聲碼本。這樣的有噪聲環(huán)境可以是認為的背景噪聲或構成背景噪聲。例如,通過在有噪聲的環(huán)境中的這些記錄,可以獲得20-30毫秒(ms)的噪聲的頻譜。
例如,通過記錄人的語音來訓練碼本,可以生成語音碼本。
碼本,例如語音碼本可以是說話人特定碼本或通用碼本??梢酝ㄟ^記錄來自用戶經(jīng)常談話的人的語音來訓練說話人特定碼本。可以在諸如沒有背景噪聲的理想條件下記錄語音。據(jù)此,例如可以獲得20-30ms的語音的頻譜。
聽力設備可以是數(shù)字聽力設備。聽力設備可以是助聽器、免提移動通信設備、語音識別設備等。
輸入變換器可以是麥克風。輸出變換器可以是接收器或揚聲器。
在輸入信號的卡爾曼濾波中使用的卡爾曼濾波器可以是單通道卡爾曼濾波器或多通道卡爾曼濾波器。
一個或多個參數(shù)可以是定義頻譜的形式的頻譜包絡的參數(shù)。
一個或多個參數(shù)可以包括或可以是線性預測系數(shù)(lpc)和/或短期預測器(stp)參數(shù)和/或自回歸(ar)參數(shù)。線性預測系數(shù)連同激勵方差可以包括或可以稱為短期預測器(stp)參數(shù)和/或自回歸(ar)參數(shù)。
在一些實施例中,輸入信號被劃分為一個或多個幀,其中一個或多個幀可以包括表示語音信號的主幀和/或表示噪聲信號的次級幀和/或表示靜音的第三幀。噪聲碼本可以用于表示噪聲信號的次級幀。語音碼本可以用于表示語音信號的主幀。
在一些實施例中,一個或多個參數(shù)包括短期預測器(stp)參數(shù)。因此,參數(shù)通??梢苑Q為短期預測器(stp)參數(shù)。自回歸參數(shù)可以是短期預測器(stp)參數(shù)。線性預測系數(shù)(lpc)可以是短期預測器(stp)參數(shù),或者可以包括在短期預測器(stp)參數(shù)中。
在一些實施例中,一個或多個參數(shù)包括以下中的一個或多個:
第一參數(shù),其是由語音線性預測系數(shù)(lpc)和噪聲線性預測系數(shù)(lpc)組成的狀態(tài)演化矩陣c(n),
第二參數(shù),其是語音激勵信號的方差σu2(n),和/或
第三參數(shù),其是噪聲激勵信號的方差σv2(n)。
在一些實施例中,假設一個或多個參數(shù)在20毫秒的幀上是恒定的。在語音增強中使用卡爾曼濾波器可以需要狀態(tài)演化矩陣c(n)、語音激勵信號的方差σu2(n)和噪聲激勵信號的方差σv2(n)是已知的,所述狀態(tài)演化矩陣c(n)由語音線性預測系數(shù)(lpc)和噪聲線性預測系數(shù)(lpc)組成。由于語音的準平穩(wěn)特性,可以假設這些參數(shù)在25毫秒(ms)的幀上是恒定的。
在一些實施例中,確定一個或多個參數(shù)包括使用關于以線性預測系數(shù)(lpc)的形式存儲在基于碼本的方法處理中使用的碼本中的語音頻譜形狀和/或噪聲頻譜形狀的先驗信息。噪聲碼本可以包括噪聲頻譜形狀,并且語音碼本可以包括語音頻譜形狀。
在一些實施例中,在基于碼本的方法處理中使用的碼本是通用語音碼本或說話人特定訓練碼本。還可以使通用碼本更加特定,諸如提供通用女性語音碼本、和/或通用男性語音碼本、和/或通用兒童語音碼本。因此,如果來自說話的人的輸入頻譜不被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,而是被識別為女性說話人,則可以通過處理單元選擇通用女性語音碼本。相應地,如果來自說話的人的輸入頻譜不被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,而是被識別為男性說話人,則可以通過處理單元選擇通用男性語音碼本。并且如果來自說話的人的輸入頻譜不被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,而是被識別為兒童說話人,則可以通過處理單元選擇通用兒童語音碼本。
在一些實施例中,通過在理想條件下記錄與聽力設備的用戶相關的特定人的語音生成說話人特定訓練碼本。特定的人可以是聽力設備用戶經(jīng)常談話的人,例如,親密的家庭成員,例如,配偶、子女、父母或兄弟姐妹,以及親密的朋友和同事。理想條件可以是沒有背景噪聲、完全沒有噪聲、語音的良好接收等的條件??梢酝ㄟ^在20-30ms上記錄和保存頻譜來生成碼本,其可以是聲音或聲音片段,其可以是聲音的最小部分以提供針對每個特定的人或說話人的頻譜包絡。
在一些實施例中,自動選擇在基于碼本的方法處理中使用的碼本。在一些實施例中,選擇基于輸入信號的頻譜,和/或基于用于每個可用碼本的短期客觀可懂度(stoi)的測量。因此,如果來自說話的人的輸入頻譜被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,則可以由處理單元選擇該說話人特定訓練碼本。如果來自說話的人的輸入頻譜不被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,則可以由處理單元選擇通用碼本。如果來自說話的人的輸入頻譜不被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,而是被識別為女性說話人,則可以由處理單元選擇通用女性語音碼本。相應地,如果來自說話的人的輸入頻譜不被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,而是被識別為男性說話人,則可以由處理單元選擇通用男性語音碼本。并且如果來自說話的人的輸入頻譜不被處理單元識別為對應于說話人特定訓練碼本針對其而存在的特定人,而是被識別為兒童說話人,則可以由處理單元選擇通用兒童語音碼本。
在一些實施例中,卡爾曼濾波包括提供語音信號的最小均方估計器(mmse)的固定滯后卡爾曼平滑器。
在一些實施例中,卡爾曼平滑器包括計算輸入信號的狀態(tài)向量和誤差協(xié)方差矩陣的先驗估計和后驗估計。
在一些實施例中,在線譜頻率(lsf)域中執(zhí)行語音信號的短期預測器(stp)參數(shù)的加權求和。短期預測器(stp)參數(shù)或自回歸(ar)參數(shù)的加權求和應當優(yōu)選地在線譜頻率(lsf)域中而不是在線性預測系數(shù)(lpc)域中執(zhí)行。在線譜頻率(lsf)域中的加權求和可以保證產(chǎn)生穩(wěn)定的逆濾波器,在線性預測系數(shù)(lpc)域中并不總是這樣。
在一些實施例中,聽力設備是第一聽力設備,第一聽力設備配置為與配置為由用戶佩戴的雙耳聽力設備系統(tǒng)中的第二聽力設備通信。因此,用戶可以佩戴兩個聽力設備,例如在左耳中或左耳處的第一聽力設備,以及例如在右耳中或右耳處的第二聽力設備。兩個聽力設備可以彼此通信,以向用戶提供最佳可能的聲音輸出。兩個聽力設備可以是配置為由需要在雙耳中進行聽力補償?shù)挠脩襞宕鞯闹犉鳌?/p>
在一些實施例中,第一聽力設備包括用于提供左耳輸入信號的第一輸入變換器,所述左耳輸入信號包括左耳語音信號和左耳噪聲信號。在一些實施例中,第二聽力設備包括用于提供右耳輸入信號的第二輸入變換器,所述右耳輸入信號包括右耳語音信號和右耳噪聲信號。在一些實施例中,第一聽力設備包括第一處理單元,第一處理單元配置為用于基于基于碼本的方法處理確定左耳輸入信號的一個或多個左參數(shù)。在一些實施例中,第二聽力設備包括第二處理單元,第二處理單元配置為用于基于基于碼本的方法處理確定右耳輸入信號的一個或多個右參數(shù)。因此,第一聽力設備和第一處理單元可以確定左耳輸入信號的左參數(shù)。第二聽力設備和第二處理單元可以確定右耳輸入信號的右參數(shù)。因此,可以為每個耳朵確定一組參數(shù)。替代地,可以選擇第一聽力設備或第二聽力設備中的一個作為主要聽力設備或主控聽力設備,并且該主要或主控聽力設備可以執(zhí)行對于兩個聽力設備的輸入信號的處理,并且因此執(zhí)行對于雙耳輸入信號的處理,由此主要或主控聽力設備的處理單元可以確定左耳輸入信號和右耳輸入信號的參數(shù)。
本發(fā)明涉及包括上述和下面描述的聽力設備和方法以及相應的方法、聽力設備、系統(tǒng)、網(wǎng)絡、套件、用途和/或產(chǎn)品裝置的不同方面,每個產(chǎn)生結合首先提及的方面描述的益處和優(yōu)點中的一個或多個,并且每個具有對應于結合首先提及的方面描述的和/或在所附權利要求中公開的實施例的一個或多個實施例。
附圖說明
通過以下參照附圖對其示例性實施例的詳細描述,上述和其他特征和優(yōu)點對本領域技術人員將變得顯而易見,其中:
圖1a示意性地示出用于增強語音可懂度的聽力設備。
圖1b示意性地示出用于增強聽力設備中的語音可懂度的方法。
圖2、圖3和圖4分別示出用于增強語音可懂度的方法的短期客觀可懂度(stoi)、分段信噪比(segsnr)和語音質量的感知評估(pesq)分數(shù)的比較。
圖5示意性地示出用于來自雙耳輸入信號的短期預測器(stp)參數(shù)的估計的框圖。
圖6a和圖6b分別示出雙耳信號的短期客觀可懂度(stoi)和語音質量的感知評估(pesq)結果的比較。
附圖標記列表
2聽力設備
4輸入變換器
6處理單元
8輸出變換器
10聽力設備用戶
12左耳輸入信號zl(n)或左耳處的有噪聲信號
14右耳輸入信號zr(n)或右耳處的有噪聲信號
16噪聲碼本
18語音碼本
20由在左耳處的有噪聲頻譜和建模的有噪聲頻譜之間的itakurasaito距離組成的左耳的距離向量
22由在右耳處的有噪聲頻譜和建模的有噪聲頻譜之間的itakurasaito距離組成的右耳的距離向量
24左耳和右耳的組合權重
26建模的有噪聲頻譜(16和18之和)左耳
28建模的有噪聲頻譜(16和18之和)右耳
30頻譜包絡左耳
32頻譜包絡右耳
34左耳的itakurasaito失真
36右耳的itakurasaito失真
38有噪聲頻譜左耳
40有噪聲頻譜右耳
101提供包括語音信號和噪聲信號的輸入信號z(n)
102對輸入信號z(n)執(zhí)行基于碼本的方法處理
103基于步驟102中的基于碼本的方法處理確定輸入信號z(n)的一個或多個參數(shù)
104使用從步驟103確定的一個或多個參數(shù)執(zhí)行輸入信號z(n)的卡爾曼濾波
105使得輸出信號由于步驟104中的卡爾曼濾波而增強了語音可懂度。
具體實施方式
下面參照附圖描述各種實施例。類似的參考標號始終指類似的元件。因此,將不相對于每個附圖的描述詳細描述類似的元件。還應當注意,附圖僅旨在便于實施例的描述。它們不旨在作為所要求保護的發(fā)明的詳盡描述或者作為對所要求保護的發(fā)明的保護范圍的限制。另外,所示實施例不需要具有所示的所有方面或優(yōu)點。即使沒有這樣示出,或者即使沒有這樣明確描述,結合具體實施例描述的方面或優(yōu)點不一定限于該實施例,并且可以在任何其他實施例中實踐。
貫穿全文,相同的參考標號用于同一或對應的部分。
圖1a示意性地示出用于增強語音可懂度的聽力設備2。
聽力設備2包括用于提供包括語音信號s(n)和噪聲信號w(n)的輸入信號z(n)或有噪聲信號z(n)的輸入變換器4,例如麥克風。
聽力設備2包括配置為處理輸入信號z(n)的處理單元6。
聽力設備2包括耦合到處理單元6的輸出的聲學輸出變換器8,例如接收器或揚聲器,用于將來自處理單元6的輸出信號轉換成音頻輸出信號。
處理單元6配置為用于對輸入信號z(n)執(zhí)行基于碼本的方法處理。
處理單元6配置為用于基于基于碼本的方法處理確定輸入信號z(n)的一個或多個參數(shù)。
處理單元6配置為用于使用所確定的一個或多個參數(shù)執(zhí)行輸入信號z(n)的卡爾曼濾波。
處理單元6配置為使得輸出信號由于卡爾曼濾波而增強了語音可懂度。
本聽力設備和方法涉及基于卡爾曼濾波器的語音增強框架。用于語音增強的卡爾曼濾波可以用于白背景噪聲、或用于有色噪聲,其中使用近似的估計最大化算法來估計運行卡爾曼濾波器所需的語音和噪聲短期預測器(stp)參數(shù)。本聽力設備和方法使用基于碼本的方法用于估計語音和噪聲短期預測器(stp)參數(shù)。諸如短期客觀可懂度(stoi)和分段snr(segsnr)的客觀測量已經(jīng)用于本聽力設備和方法中,以在存在集擾噪聲的情況下評估增強算法的性能。對于本聽力設備和方法已經(jīng)研究了在通用語音碼本上具有說話人特定訓練碼本對算法性能的影響。在下文中,將解釋所使用的信號模型和假設。將詳細解釋語音增強框架。還將介紹實驗和結果。
現(xiàn)在介紹將要使用的信號模型和假設。根據(jù)以下等式假設語音信號s(n)與噪聲信號w(n)相加干涉以形成輸入信號z(n),語音信號s(n)也稱為純語音信號s(n),輸入信號z(n)也稱為有噪聲信號z(n):
還可以假設噪聲和語音在統(tǒng)計上是獨立的或彼此不相關的。可以將純語音信號s(n)建模為隨機自回歸(ar)過程,由以下等式表示:
其中
a(n)=[a1(n),a2(n),...ap(n)]t
是包含語音線性預測系數(shù)(lpc)的向量,s(n-1)=[s(n-1),...s(n-p)]t,p是對應于語音信號的自回歸(ar)過程的階數(shù),并且u(n)是具有零平均值和激勵方差σu2(n)的白高斯噪聲(wgn)。
根據(jù)以下等式,還可以將噪聲信號建模為自回歸(ar)過程
其中
b(n)=[b1(n),b2(n),...bq(n)]t
是包含噪聲線性預測系數(shù)(lpc)的向量,w(n-1)=[w(n-1),...w(n-q)]t,q是對應于噪聲信號的自回歸(ar)過程的階數(shù),并且v(n)是具有零平均值和激勵方差σv2(n)的白高斯噪聲(wgn)。線性預測系數(shù)(lpc)連同激勵方差通常構成短期預測器(stp)參數(shù)。
在本聽力設備和方法中,可以使用基于卡爾曼濾波的單通道語音增強技術。圖1b)示出語音增強框架的基本框圖。從圖中可以看出,也稱為有噪聲信號的輸入信號z(n)作為輸入被饋送到卡爾曼濾波的卡爾曼平滑器,并且使用基于碼本的方法估計用于運行卡爾曼平滑器的語音和噪聲短期預測器(stp)參數(shù)。下面解釋基于卡爾曼濾波器的語音增強的原理,并且稍后解釋基于碼本的語音和噪聲短期預測器(stp)參數(shù)的估計。
圖1b)示意性地示出用于增強聽力設備中的語音可懂度的方法。
在步驟101中,該方法包括提供包括語音信號和噪聲信號的輸入信號z(n)。
在步驟102中,該方法包括對輸入信號z(n)執(zhí)行基于碼本的方法處理。
在步驟103中,該方法包括基于步驟102中的基于碼本的方法處理確定輸入信號z(n)的一個或多個參數(shù)。參數(shù)可以是短期預測器(stp)參數(shù)。
在步驟104中,該方法包括使用從步驟103確定的一個或多個參數(shù)執(zhí)行輸入信號z(n)的卡爾曼濾波。
在步驟105中,該方法包括使得輸出信號由于步驟104中的卡爾曼濾波而增強了語音可懂度。
用于語音增強的卡爾曼濾波器:
卡爾曼濾波器使我們能夠以遞歸方式估計由線性隨機差分等式支配的過程的狀態(tài)。在最小化平方誤差的平均值的意義上,它可以是最優(yōu)線性估計器。本節(jié)解釋具有更平滑延遲d≥p的固定滯后卡爾曼平滑器的原理??柭交骺梢蕴峁┱Z音信號s(n)的最小均方誤差(mmse)估計,其可以表示為
從語音增強視角使用卡爾曼濾波器可需要等式(2)中的自回歸(ar)信號模型寫為如下所示的狀態(tài)空間
s(n)=a(n)s(n-1)+γ1u(n),(5)
其中狀態(tài)向量s(n)=[s(n)s(n-1)...s(n-d)]t是包含d+1個最近語音樣本的(d+1)×1向量,γ1=[1,0...0]t是(d+1)×1向量,并且a(n)是如下所示的(d+1)×(d+1)語音狀態(tài)演化矩陣
類似地,用于(3)中所示的噪聲信號w(n)的自回歸(ar)模型可以以狀態(tài)空間形式寫為
w(n)=b(n)w(n-1)+γ2v(n),(7)
其中狀態(tài)向量w(n)=[w(n)w(n-1)...w(n-q+1)]t是包含q個最近噪聲樣本的q×1向量,γ2=[1,0...0]t是q×1向量,并且b(n)是如下所示的q×q噪聲狀態(tài)演化矩陣
等式(5)和等式(7)中的狀態(tài)空間等式可以組合在一起以形成如(9)中所示的級聯(lián)狀態(tài)空間等式
其可以重寫為
x(n)=c(n)x(n-1)+γ3y(n),(10)
其中x(n)是級聯(lián)狀態(tài)空間向量,c(n)是級聯(lián)狀態(tài)演化矩陣,
并且
因此,等式(1)可以重寫為
z(n)=γtx(n),(11)
其中
由等式(10)和等式(11)分別表示的最終狀態(tài)空間等式和測量等式可以隨后用于卡爾曼濾波器等式(等式12-等式17)的公式化,見下文。由等式(12)和等式(13)表示的卡爾曼平滑器的預測級可以分別計算狀態(tài)向量
和誤差協(xié)方差矩陣
m(n|n-1)
的先驗估計
卡爾曼增益可以如等式(14)所示計算
k(n)=m(n|n-1)γ[γtm(n|n-1)γ]-1。(14)
計算狀態(tài)向量和誤差協(xié)方差矩陣的后驗估計的卡爾曼平滑器的校正級可以寫為
m(n|n)=(i-k(n)γt)m(n|n-1)。(16)
最后,如等式(17)所示,在時間索引n-d處使用卡爾曼平滑器的增強的輸出信號
在卡爾曼濾波器的情況下,d+1=p,并且如下所示,可以通過取狀態(tài)向量的后驗估計的第一條目獲得在時間索引n處的增強的信號
基于碼本的自回歸stp參數(shù)估計:
如上所述,從語音增強視角使用卡爾曼濾波器可需要狀態(tài)演化矩陣c(n)、語音激勵信號的方差σu2(n)和噪聲激勵信號的方差σv2(n)是已知的,所述狀態(tài)演化矩陣c(n)由語音線性預測系數(shù)(lpc)和噪聲線性預測系數(shù)(lpc)組成。由于語音的準平穩(wěn)特性,可以假設這些參數(shù)在20-25毫秒(ms)的幀上是恒定的。本節(jié)使用基于碼本的方法解釋這些參數(shù)的最小均方誤差(mmse)估計。該方法可以使用關于以線性預測系數(shù)(lpc)的形式存儲在訓練碼本中的語音和噪聲頻譜形狀的先驗信息??梢约壜?lián)要估計的參數(shù)以形成單個向量
參數(shù)θ的最小均方誤差(mmse)估計可以寫為
其中z表示有噪聲樣本的幀。使用貝葉斯定理,等式(19)可以重寫為
其中θ表示要估計的參數(shù)的支持空間。讓我們定義
其中ai是語音碼本(大小為ns)的第i個條目,bj是噪聲碼本(大小為nw)的第j個條目,并且
表示取決于ai、bj和z的語音和噪聲激勵方差的最大似然(ml)估計??梢愿鶕?jù)以下等式估計語音和噪聲激勵方差的最大似然(ml)估計,
其中
并且
是對應于語音碼本的第i個條目的頻譜包絡,
是對應于噪聲碼本的第j個條目的頻譜包絡,pz(ω)是對應于有噪聲信號z(n)的頻譜包絡。因此,等式(20)的離散對應部分可以寫為
其中最小均方誤差(mmse)估計可以表示為具有與以下成比例的權重的θij的加權線性組合
p(z|θij)
其可以根據(jù)以下等式計算
其中
是在有噪聲頻譜和建模的有噪聲頻譜之間的itakurasaito失真。應當注意,等式(23)中的自回歸(ar)參數(shù)的加權求和將優(yōu)選地在線譜頻率(lsf)域中而不是在線性預測系數(shù)(lpc)域中執(zhí)行。在線譜頻率(lsf)域中的加權求和可以保證產(chǎn)生穩(wěn)定的逆濾波器,在線性預測系數(shù)(lpc)域中并不總是這樣。
實驗:
本節(jié)描述為評估上述語音增強框架而執(zhí)行的實驗。已經(jīng)用于評估的客觀測量是短期客觀可懂度(stoi)、語音質量的感知評估(pesq)和分段信噪比(segsnr)。該實驗的測試集由來自來自chime數(shù)據(jù)庫的重新采樣到8khz的四個不同說話人:兩個男性和兩個女性說話人的語音組成。用于模擬的噪聲信號是來自noizeus數(shù)據(jù)庫的多談話者集擾聲。如上所述,每25ms估計增強過程所需的語音和噪聲stp參數(shù)。可以使用對來自timit數(shù)據(jù)庫的10分鐘語音的訓練樣本的廣義勞埃德算法(gla)生成用于估計stp參數(shù)的語音碼本。噪聲碼本可以使用兩分鐘的集擾聲生成。語音和噪聲ar模型的階數(shù)可以選擇為14。已經(jīng)用于實驗的參數(shù)總結在下面的表1中。
表1.實驗設置
估計的短期預測器(stp)參數(shù)隨后由固定滯后卡爾曼平滑器(具有d=40)用于增強。這里還研究了具有說話人特定碼本而不是通用語音碼本的效果??梢允褂脕碜愿信d趣的特定說話人的五分鐘語音的訓練樣本由廣義勞埃德算法(gla)生成說話人特定碼本。在訓練集中不包括用于測試的語音樣本。經(jīng)驗上注意到64個條目的說話人碼本大小是足夠的。利用用于短期預測器(stp)參數(shù)的估計的語音碼本和說話人碼本的卡爾曼平滑器的系統(tǒng)分別表示為ks-語音模型和ks-說話人模型。將結果與基于廣義伽馬先驗(mmse-ggp)的ephraim-malah(em)方法和現(xiàn)有技術的最小均方誤差(mmse)估計器進行比較。
圖2、圖3和圖4分別示出上述方法的短期客觀可懂度(stoi)、分段信噪比(segsnr)和語音質量的感知評估(pesq)分數(shù)的比較。從圖2可以看出,根據(jù)短期客觀可懂度(stoi),使用基于廣義伽馬先驗(mmse-ggp)的ephraim-malah(em)和最小均方誤差(mmse)估計器獲得的增強的信號具有比有噪聲信號更低的可懂度分數(shù)。使用ks-語音模型和ks-說話人模型獲得的增強的信號與有噪聲信號相比顯示出更高的可懂度分數(shù)??梢钥闯觯捎诙唐诳陀^可懂度(stoi)分數(shù)顯示高達6%的增加,所以使用說話人特定碼本而不是通用語音碼本是有益的。圖3和圖4中所示的分段信噪比(segsnr)和語音質量的感知評估(pesq)結果還指示ks-說話人模型和ks-語音模型比其他方法執(zhí)行得更好。還進行了非正式聽力測試以評估算法的性能。
因此,提供基于卡爾曼濾波器的語音增強的聽力設備和方法是有利的,并且其中使用基于碼本的方法估計運行卡爾曼濾波器所需的參數(shù)。使用諸如短期客觀可懂度(stoi)、分段信噪比(segsnr)和語音質量的感知評估(pesq)的客觀測量在存在集擾噪聲的情況下評估方法的性能。實驗結果指示,根據(jù)客觀測量,本文介紹的方法能夠提高語音質量和語音可懂度。此外,應當注意到,具有說話人特定訓練碼本而不是通用語音碼本可以顯示短期客觀可懂度(stoi)分數(shù)高達6%的增加。
雙耳聽力系統(tǒng)
當我們接觸雙耳有噪聲信號,即輸入信號時,本節(jié)考慮使用基于碼本的方法的語音和噪聲短期預測器(stp)參數(shù)的估計。估計的短期預測器(stp)參數(shù)可以進一步用于雙耳有噪聲信號的增強。在下面首先介紹將使用的信號模型和假設。然后解釋在雙耳情況中的短期預測器(stp)參數(shù)的估計,并且討論實驗結果。
信號模型:
左耳和右耳處的雙耳有噪聲信號或輸入信號分別由zl(n)和zr(n)表示。如等式(27)中所示的表示在左耳處的有噪聲信號zl(n),其中sl(n)是左耳的純語音分量,并且wl(n)是左耳的噪聲分量。
如等式(28)所示的類似地表示在右耳處的有噪聲信號
進一步可以假設語音信號和噪聲信號可以表示為自回歸(ar)過程??梢约僭O語音源在收聽者即聽力設備的用戶的前面,并且因此可以假設左耳和右耳處的純語音分量由相同的自回歸(ar)過程表示。也可以假設左耳和右耳處的噪聲分量由相同的自回歸(ar)過程表示。對應于自回歸(ar)過程的短期預測器(stp)參數(shù)可以由線性預測系數(shù)(lpc)和激勵信號的方差構成。對應于語音的短期預測器(stp)參數(shù)可以表示為
其中a是線性預測系數(shù)(lpc)系數(shù)的向量,并且
是對應于語音自回歸(ar)過程的激勵方差。類似地,對應于噪聲自回歸(ar)過程的短期預測器(stp)參數(shù)可以表示為
方法:
這里的目標是在給定雙耳有噪聲信號或輸入信號的情況下估計對應于語音和噪聲自回歸(ar)過程的短期預測器(stp)參數(shù)。讓我們將要估計的參數(shù)表示為
θ=[θsθw]。
將參數(shù)θ的最小均方誤差(mmse)估計寫為等式(29)和等式(30):
讓我們定義
其中ai是語音碼本(大小為ns)的第i個條目,bj是噪聲碼本(大小為nw)的第j個條目,并且
表示激勵方差的最大似然(ml)估計。將(30)的離散對應部分寫為等式(31):
第i、j碼本組合的權重由以下確定
p(zl,zr|θij)
假設左有噪聲信號或輸入信號與右有噪聲信號或輸入信號的建模誤差是條件獨立的,則
p(zl,zr|θij)
可以寫為等式(32):
p(zl,zr|θij)=p(zl|θij)p(zr|θij)
似然的對數(shù)
p(zl|θij)
可以寫為在左耳的有噪聲頻譜
和建模的有噪聲頻譜
之間的負itakurasaito失真。
對右耳使用相同的結果
p(zl,zr|θij)
可以寫為等式(33)和等式(34):
然后可以通過將等式(34)代入等式(31)獲得短期預測器(stp)參數(shù)的估計。在圖5中示出所提出的方法的框圖。
圖5示意性地示出用于來自雙耳輸入信號或有噪聲信號的短期預測器(stp)參數(shù)的估計的框圖。圖5示出聽力設備用戶10、左耳輸入信號zl(n)12或左耳處的有噪聲信號12以及右耳輸入信號zr(n)14或右耳處的有噪聲信號14、噪聲碼本16和語音碼本18、左耳的距離向量20和右耳的距離向量22以及組合權重24。頻譜包絡30用于左耳輸入信號zl(n)12以在左耳處形成有噪聲頻譜38。頻譜包絡32用于右耳輸入信號zr(n)14以在右耳處形成有噪聲頻譜40。噪聲碼本16表示建模的噪聲頻譜。語音碼本18表示建模的語音頻譜。將噪聲碼本16和語音碼本18加在一起(求和)以形成用于左耳的建模的有噪聲頻譜26和用于右耳的建模的有噪聲頻譜28。建模的有噪聲頻譜26和28可以相同。對于所有碼本組合,在建模的有噪聲頻譜26(左耳)、28(右耳)和實際的有噪聲頻譜38(左耳)、40(右耳)之間計算用于左耳的itakurasaito失真或is測量34和用于右耳的itakurasaito失真或is測量36,其給出用于左耳的距離向量20和用于右耳的距離向量22。然后組合這些權重以形成左耳和右耳的組合權重24。
因此,對于每個耳朵,通過計算建模的有噪聲頻譜和接收的有噪聲頻譜之間的itakurasaito距離執(zhí)行在雙耳情況下的短期預測器(stp)參數(shù)的估計。然后組合這些距離以獲得具體碼本組合的權重。
實驗結果:
本節(jié)解釋獲得的短期客觀可懂度(stoi)和語音質量的感知評估(pesq)結果。估計的短期預測器(stp)參數(shù)可以用于對雙耳有噪聲信號的增強。通過首先利用產(chǎn)生的脈沖響應卷積純語音并且隨后與雙耳集擾噪聲相加生成有噪聲信號。圖6a和圖6b分別示出短期客觀可懂度(stoi)和語音質量的感知評估(pesq)結果的比較。可以看出,短期預測器(stp)參數(shù)的雙耳估計顯示短期客觀可懂度(stoi)分數(shù)增加高達2.5%,并且語音質量的感知評估(pesq)分數(shù)增加0.08。因此,在雙耳聽力系統(tǒng)中輸出信號是進一步語音可懂度增強的。
卡爾曼濾波
卡爾曼濾波,也稱為線性二次估計(lqe),是一種算法,該算法使用在一段時間內觀察到的包含統(tǒng)計噪聲和其他不準確度的一系列測量,并且產(chǎn)生趨向于比單獨基于單個測量的未知變量的估計更精確的未知變量的估計。
卡爾曼濾波器可以應用于在諸如信號處理的領域中使用的時間序列分析中。
卡爾曼濾波器算法在兩步過程中工作。在預測步驟中,卡爾曼濾波器產(chǎn)生當前狀態(tài)變量的估計及其不確定性。一旦觀察到下一次測量的結果(必然被一定量的誤差破壞,包括隨機噪聲),則使用加權平均值更新這些估計,其中更多的權重被給予具有更高確定性的估計。該算法是遞歸的。它可以實時運行,僅使用當前輸入測量和先前計算的狀態(tài)及其不確定性矩陣;不需要額外的過去信息。
卡爾曼濾波器可以不需要誤差是高斯型的任何假設。然而,在所有誤差都是高斯分布的特殊情況下,卡爾曼濾波器可以產(chǎn)生精確的條件概率估計。
可以提供對卡爾曼濾波方法的擴展和推廣,諸如在非線性系統(tǒng)上工作的擴展卡爾曼濾波器和無跡卡爾曼濾波器。基礎模型可以是類似于隱馬爾可夫模型的貝葉斯模型,但是其中潛在變量的狀態(tài)空間是連續(xù)的,并且其中所有潛在和觀察變量可以具有高斯分布。
卡爾曼濾波器使用系統(tǒng)的動力學模型、對該系統(tǒng)的已知控制輸入以及多個順序測量,以形成系統(tǒng)的變化量(其狀態(tài))的估計,其優(yōu)于通過單獨使用任何一個測量所獲得的估計。
通常在一定程度上估計基于模型的所有測量和計算。有噪聲數(shù)據(jù)、和/或描述系統(tǒng)如何變化的等式中的近似、和/或未考慮的外部因素對系統(tǒng)狀態(tài)的推斷值引入一些不確定性??柭鼮V波器可以使用加權平均利用新測量對系統(tǒng)的狀態(tài)的預測進行平均。權重的目的是具有更好(即,更小)的估計不確定性的值更“受信任”。權重可以從協(xié)方差計算,該協(xié)方差是系統(tǒng)的狀態(tài)的預測的估計不確定性的度量。加權平均的結果可以是可以位于預測狀態(tài)和測量狀態(tài)之間的新狀態(tài)估計,并且可以具有比單獨的更好的估計不確定性。該過程可以在每個時間步長重復,其中新估計及其協(xié)方差通知在下面的迭代中使用的預測。這意味著卡爾曼濾波器可以遞歸地工作并且可以僅需要系統(tǒng)狀態(tài)的最后的“最佳猜測”而不是整個歷史來計算新的狀態(tài)。
因為測量的確定性可難以精確測量,所以可以根據(jù)增益確定濾波器的行為??柭鲆婵梢允菧y量和當前狀態(tài)估計的相對確定性的函數(shù),并且可以被“調諧”以實現(xiàn)具體的性能。利用高增益,濾波器可以對測量施加更大的權重,并且因此可以更緊密地遵循它們。利用低增益,濾波器可以更緊密地遵循模型預測,消除噪聲,但可以降低響應性。在極端情況下,增益為1可以導致濾波器完全忽略狀態(tài)估計,而增益為零可以導致測量被忽略。
當對濾波器執(zhí)行實際計算時,狀態(tài)估計和協(xié)方差可以編碼成矩陣以處理單個計算集合中涉及的多個維度。這允許表示在任何轉變模型或協(xié)方差中的不同狀態(tài)變量之間的線性關系。
卡爾曼濾波器可以基于在時域中離散的線性動態(tài)系統(tǒng)??梢栽诮⒃谟煽梢园ǜ咚乖肼暤恼`差擾動的線性算符上的馬爾可夫鏈上對它們建模。系統(tǒng)的狀態(tài)可以表示為實數(shù)的向量。在每個離散時間增量處,可以將線性算符應用于狀態(tài)以生成新狀態(tài),其中混入了一些噪聲,以及可選地來自系統(tǒng)上的控制器的一些信息(如果它們是已知的)。然后,與更多噪聲混合的另一線性算符可以從真(“隱藏”)狀態(tài)生成觀察到的輸出。
為了使用卡爾曼濾波器以在僅給定一系列有噪聲觀察的情況下估計過程的內部狀態(tài),可以根據(jù)卡爾曼濾波器的框架對過程進行建模。如下所述,對于每個時間步長k,這意味著指定以下矩陣:fk,狀態(tài)轉變模型;hk,觀察模型;qk,過程噪聲的協(xié)方差;rk,觀察噪聲的協(xié)方差;并且有時bk,控制輸入模型。
根據(jù)以下等式,卡爾曼濾波器模型可以假設在時間k處的真實狀態(tài)是從在(k-1)處的狀態(tài)演進的
xk=fkxk-1+bkuk+wk
其中
·fk是應用于先前狀態(tài)xk-1的狀態(tài)轉變模型;
·bk是應用于控制向量uk的控制輸入模型;
·wk是假設從具有協(xié)方差qk的零均值多變量正態(tài)分布中得出的過程噪聲。
wk~n(0,qk)
在時間k處,根據(jù)以下等式進行真實狀態(tài)xk的觀察(或測量)zk
zk=hkxk+vk
其中hk是將真實狀態(tài)空間映射到觀察空間的觀察模型,并且vk是假設為具有協(xié)方差rk的零均值高斯白噪聲的觀察噪聲。
vk~n(0,rk)
初始狀態(tài)和每個步長處的噪聲向量{x0,w1,...,wk,v1...vk}都可以假設為相互獨立的。
卡爾曼濾波器可以是遞歸估計器。這意味著僅需要來自先前時間步長的估計狀態(tài)和當前測量來計算當前狀態(tài)的估計。與批估計技術相反,可以不需要觀察和/或估計的歷史。在下文中,符號
濾波器的狀態(tài)由兩個變量表示:
·
·pk|k,后驗誤差協(xié)方差矩陣(狀態(tài)估計的估計準確度的度量)。
卡爾曼濾波器可以寫為單個等式,然而其可以被概念化為兩個不同的階段:“預測”和“更新”。預測階段可以使用來自先前時間步長的狀態(tài)估計來產(chǎn)生當前時間步長處的狀態(tài)的估計。該預測狀態(tài)估計也稱為先驗狀態(tài)估計,因為雖然它是當前時間步長處的狀態(tài)的估計,但其可以不包括來自當前時間步長處的觀察信息。在更新階段中,當前先驗預測可以與當前觀察信息組合以精細化狀態(tài)估計。該改善的估計稱為后驗狀態(tài)估計。
通常,兩個階段交替,其中預測使狀態(tài)前進,直到下一個預定觀察,并且更新包括觀察。然而,這可以不是必要的;如果觀察由于某種原因不可用,則可以跳過更新并且可以執(zhí)行多個預測步驟。同樣,如果多個獨立觀察同時可用,則可以執(zhí)行多個更新步驟(通常利用不同的觀察矩陣hk)。
預測:
預測(先驗)狀態(tài)估計
預測(先驗)估計協(xié)方差
更新:
新息(innovation)或測量殘差
新息(或殘差)協(xié)方差
最優(yōu)卡爾曼增益
更新(后驗)狀態(tài)估計
更新(后驗)估計協(xié)方差pk|k=(i-kkhk)pk|k-1
用于上述更新的估計協(xié)方差的公式可以僅對最優(yōu)卡爾曼增益有效。使用其他增益值可以需要更復雜的公式。
不變式:
如果模型是準確的,并且
·
·
其中e[ξ]是ξ的期望值,協(xié)方差矩陣可以準確地反映估計的協(xié)方差:
·
·
·
最優(yōu)性和性能:
從理論上看,卡爾曼濾波器在以下情況下是最優(yōu)的:a)模型完全匹配實際系統(tǒng),b)進入噪聲是白噪聲,以及c)噪聲的協(xié)方差是精確已知的。在估計協(xié)方差之后,評估濾波器的性能(即,是否可以改善狀態(tài)估計質量)可以是有用的。如果卡爾曼濾波器最優(yōu)地工作,則新息序列(輸出預測誤差)可以是白噪聲,因此新息的白度性質可以測量濾波器性能。不同的方法可用于該目的。
導出后驗估計協(xié)方差矩陣:
從關于如上所述的誤差協(xié)方差pk|k的不變式開始
將
并且將
以及zk
并集中誤差向量:
由于測量誤差vk與其他項不相關,因此該式變?yōu)?/p>
通過向量協(xié)方差的性質,該式變?yōu)?/p>
其中,使用關于pk|k-1的不變式以及rk的定義變?yōu)?/p>
該公式可以對于kk的任何值有效。結果證明,如果kk是最優(yōu)卡爾曼增益,則可以進一步簡化,如下所示。
卡爾曼增益導出:
卡爾曼濾波器可以是最小均方誤差(mmse)估計器。后驗狀態(tài)估計中的誤差可以是
當尋求最小化該向量的幅度的平方的期望值時,
當其關于增益矩陣的矩陣導數(shù)為零時,跡可以被最小化。使用梯度矩陣規(guī)則和涉及的矩陣的對稱性我們發(fā)現(xiàn)
求解對于kk的該式產(chǎn)生卡爾曼增益:
稱為最優(yōu)卡爾曼增益的該增益是在使用時可以產(chǎn)生mmse估計的增益。
后驗誤差協(xié)方差公式的簡化:
當卡爾曼增益等于上述導出的最優(yōu)值時,可以簡化用于計算后驗誤差協(xié)方差的公式。在右側,將我們的卡爾曼增益公式的兩側乘以skkkt,就可以得出
返回參考我們對于后驗誤差協(xié)方差的展開公式,
我們發(fā)現(xiàn)最后兩項抵消,得到
pk|k=pk|k-1-kkhkpk|k-1=(i-kkhk)pk|k-1。
該公式在計算上更容易,并且因此在實踐中幾乎總是使用,但僅可對于最優(yōu)增益是正確的。如果算術精度異常低導致數(shù)值穩(wěn)定性的問題,或者如果有意使用非最優(yōu)卡爾曼增益,則該簡化不可以應用;而是可以使用如上導出的后驗誤差協(xié)方差公式。
固定滯后平滑器:
最優(yōu)固定滯后平滑器可以使用從z1到zk的測量為給定的固定滯后n提供最優(yōu)估計
其中:
·
·
●具有i=1,...,n-1的各種
●經(jīng)由以下方案計算增益:
k(i)=p(i)ht[hpht+r]-1
以及
p(i)=p[[f-kh]t]i
其中p和k是預測誤差協(xié)方差和標準卡爾曼濾波器(即,pt|t-1)的增益。
如果估計誤差協(xié)方差被定義為使得
那么我們有:xt-i的估計的改善由下式給出:
盡管已經(jīng)示出和描述了具體的特征,但是應當理解,它們不旨在限制所要求保護的發(fā)明,并且對于本領域技術人員來說顯而易見的是,在不脫離所要求保護的發(fā)明的保護范圍的情況下可以進行各種改變和修改。因此,說明書和附圖應被認為是說明性的而不是限定性的。要求保護的本發(fā)明旨在覆蓋所有替代、修改和等同物。