專利名稱:用于語音增強(qiáng)的噪聲方差估計(jì)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號(hào)處理。更具體地,本發(fā)明涉及在噪聲環(huán)境下 的語音增強(qiáng)和澄清。
引用結(jié)合
以下參考文獻(xiàn)每一個(gè)都通過引用全部結(jié)合于此 [1] Y. Ephraim and D. Malah, "Speech enhancement using a minimum
mean square error short time spectral amplitude estimator," 7>a"j.
^coK 5^eecA, S/^"a//VocMf/wg, vol. 32, pp. 1109-1121, Dec. 1984. [2] N. Virag, "Single channel speech enhancement based on masking
properties of the human auditory system,"7>*aw. iS^eecA
Ji^'o/Vocess/rtg, vol. 7, pp. 126-137, Mar. 1999. [3] R. Martin, "Spectral subtraction, based.on minimum statistics," in /Voc.
五OS/尸CO, 1994, pp. 1182-1185. [4] P. J. Wolfe and S. J. Godsill, "Efficient alternatives to Ephraim and
Malah suppression rule for audio signal enhancement,"五W /1S7尸
/owma/ ow /4jt / /zW 57gwa/ /Voc咖'wg, vol. 2003, Issue 10, Pages 1043-
1051, 2003. Y. Ephraim, H. Lev-Ari and W. J. J. Roberts, "A brief survey of Speech Enhancement," The Electronic Handbook, CRC Press, April 2005.
背景技術(shù):
我們生活在噪聲世界。來自自然源以及人類活動(dòng)的環(huán)境噪聲無處 不在。在話音通信期間,環(huán)境噪聲與預(yù)期的語音信號(hào)同時(shí)被發(fā)送,不 利地影響接收信號(hào)的質(zhì)量。這個(gè)問題可以通過用來去除這樣的不想要的噪聲分量的語音增強(qiáng)技術(shù)而得到緩和,由此產(chǎn)生更清晰的和更易懂 的信號(hào)。
大多數(shù)語音增強(qiáng)系統(tǒng)依賴于各種形式的自適應(yīng)濾波操作。這樣的
系統(tǒng)衰減具有低信噪比(SNR)的噪聲語音信號(hào)的時(shí)間/頻率(T/F)區(qū)域, 同時(shí)保持具有高SNR的那些區(qū)域。語音的關(guān)鍵分量因此被保持而噪聲 分量被大大地減小,通常,這樣的濾波操作由諸如數(shù)字信號(hào)處理(DSP) 芯片那樣的計(jì)算裝置在數(shù)字域中執(zhí)行。
子頻帶域處理是在其中實(shí)施這樣的自適應(yīng)濾波操作的優(yōu)選方式之 一。概略地,時(shí)域中的不改變的語音信號(hào)通過使用濾波器組,諸如離 散傅立葉變換(DFT),被變換成各種子頻帶。在每個(gè)子頻帶內(nèi)的信號(hào) 隨后按照語音與噪聲的已知統(tǒng)計(jì)特性被抑制到想要的量。最后,在子 頻帶域中的噪聲抑制信號(hào)通過使用逆濾波器組而被變換到時(shí)域,以產(chǎn) 生增強(qiáng)的語音信號(hào),其質(zhì)量高度依賴于抑制過程的細(xì)節(jié)。
現(xiàn)有技術(shù)語音增強(qiáng)器的例子在圖1中示出。通過將包含清晰語言 以及噪聲的模擬語音信號(hào)數(shù)字化而生成輸入。這個(gè)未改變的音頻信號(hào) y(n),其中n-0,l,…oo是時(shí)間指數(shù)(time index),隨后被發(fā)送到分析濾波 器組裝置或功能("分析濾波器組(Analysis Filterbank) ")2,從而產(chǎn)生 多個(gè)子頻帶信號(hào),Yk(m), k=l,...K, m=0,l,...oo,其中k是子頻帶號(hào), 而m是每個(gè)子頻帶信號(hào)的時(shí)間指數(shù)。子頻帶信號(hào)由于在分析濾波器組 2中的下采樣操作,比起y(n)具有較低的采樣速率。然后通過使用噪 聲方差估計(jì)器裝置或功能("噪聲方差估計(jì)器(Noise Variance Estimator ),,)4,用子頻帶信號(hào)作為輸入來估計(jì)每個(gè)子頻帶的噪聲電平。 本發(fā)明的噪聲方差估計(jì)器4不同于在現(xiàn)有技術(shù)中已知的那些噪聲方差 估計(jì)器,并將在下面具體地參照?qǐng)D2a和2b進(jìn)行描述。根據(jù)所估計(jì)的 噪聲電平,在抑制規(guī)則裝置或功能("抑制規(guī)則(Su卯ression Rule ),> 中確定適當(dāng)?shù)囊种圃鲆鎔k,并把它如下地施加到子頻帶信號(hào)
用乘法器符號(hào)8符號(hào)表示把抑制增益這樣地施加到子頻帶 號(hào)。最后,? k(m)被發(fā)送到合成濾波器組裝置或功能("合成濾波器組 (Synthesis Filterbank) ,,)10,以4更產(chǎn)生增強(qiáng)的語音信號(hào)y (n)。為了呈 現(xiàn)清晰起見,圖1示出了生成和施加抑制增益到多個(gè)子頻帶信號(hào)(k)中 的僅僅一個(gè)子頻帶信號(hào)的細(xì)節(jié)。
用于每個(gè)子頻帶的適當(dāng)?shù)囊种屏颗c它的噪聲電平強(qiáng)烈相互關(guān)聯(lián)。 而這又由噪聲信號(hào)的方差來確定,其中對(duì)于零均值高斯概率分布,該 方差被定義為噪聲信號(hào)的均方值。顯然,精確的噪聲方差估計(jì)對(duì)于系 統(tǒng)的性能是關(guān)鍵的。
通常,噪聲方差是不可先驗(yàn)得到的,而必須從未改變的音頻信號(hào) 中估計(jì)出來。眾所周知,"清晰的,,噪聲信號(hào)的方差可以通過在大的時(shí) 間塊上對(duì)于噪聲幅度的平方值執(zhí)行時(shí)間平均運(yùn)算,而被估計(jì)出。然而, 因?yàn)槲锤淖兊囊纛l信號(hào)包含干凈的語音和噪聲,這樣的方法不能直接 應(yīng)用。
以前已經(jīng)提出許多噪聲方差估計(jì)策略用來解決這個(gè)問題。最簡(jiǎn)單 的解決方案是在語音增強(qiáng)系統(tǒng)的初始化級(jí),當(dāng)語音信號(hào)還不存在時(shí)估 計(jì)噪聲方差(參考文獻(xiàn)[l])。然而,這個(gè)方法只在噪聲信號(hào)以及噪聲方 差是相對(duì)平穩(wěn)時(shí)才很好地起作用。
對(duì)于非平穩(wěn)噪聲的精確處理,已經(jīng)提出了更復(fù)雜的方法。例如, 話音活動(dòng)檢測(cè)(VAD)估計(jì)器利用獨(dú)立的檢測(cè)器來確定語音信號(hào)的存 在。噪聲方差僅僅在它不存在的時(shí)間期間才被更新(參考文獻(xiàn)2)。這 個(gè)方法有兩個(gè)缺點(diǎn)。首先,當(dāng)音頻信號(hào)具有噪聲時(shí)很難得到可靠的 VAD結(jié)果,這又影響噪聲方差估計(jì)結(jié)果的可靠性。第二,這個(gè)方法妨 礙當(dāng)語音信號(hào)存在時(shí)更新噪聲方差估值的可能性。由于在其中語音電 平弱的時(shí)間期間噪聲方差估值仍舊可以被可靠地更新,所以后 一 問題 導(dǎo)致低效率。
另一個(gè)廣泛引用的、對(duì)這個(gè)問題的解決方案是最小值統(tǒng)計(jì)方法(參 考文獻(xiàn)[3)。原則上,該方法保持對(duì)于每個(gè)子頻帶的歷史樣本的信號(hào)電 平的記錄,并根據(jù)最小記錄值來估計(jì)噪聲方差。在這個(gè)方法背后的基 本原理是,語音信號(hào)通常是自然具有停頓的開/關(guān)過程。另外,當(dāng)存在語音信號(hào)時(shí),信號(hào)電平通常大得多。所以,如果記錄足夠長(zhǎng)的時(shí)間的 話,來自該算法的最小信號(hào)電平很可能是來自語音停頓部分,從而產(chǎn) 生可靠的估計(jì)噪聲電平。
無論如何,最小值統(tǒng)計(jì)方法具有高的存儲(chǔ)器要求,因此不能應(yīng)用 于只具有有限的可用存儲(chǔ)器的設(shè)備。
發(fā)明內(nèi)容
按照本發(fā)明的第一方面,由語音和噪聲分量組成的音頻信號(hào)的語 音分量被增強(qiáng)。音頻信號(hào)從時(shí)域變換成頻域中的多個(gè)子頻帶。隨后處 理音頻信號(hào)的子頻帶。處理包括響應(yīng)于控制,自適應(yīng)地減小一些子頻 帶的增益??刂浦辽俨糠质菑囊纛l信號(hào)的噪聲分量的方差的估值得到 的。該估值又是從音頻信號(hào)的噪聲分量的幅度的以前估值的平均值得 到的。音頻信號(hào)中具有大于預(yù)定的估值偏差的最大量的估值偏差的噪 聲分量的幅度的估值從音頻信號(hào)中的噪聲分量的幅度的以前估值的平 均值中被排除或減小其在音頻信號(hào)的噪聲分量的幅度的以前估值的平 均值中的加權(quán)。最后,處理后的音頻信號(hào)再?gòu)念l域變換成時(shí)域,以便 提供其中語音分量被增強(qiáng)的音頻信號(hào)。本發(fā)明的這個(gè)方面還可包括估 計(jì)在音頻信號(hào)中的噪聲分量的幅度作為音頻信號(hào)的噪聲分量中的方差 的估值、音頻信號(hào)的語音分量中的方差的估值、和音頻信號(hào)的幅度的 函數(shù)。
按照本發(fā)明的另 一方面,得到由語音和噪聲分量組成的音頻信號(hào) 的噪聲分量中的方差的估值。在音頻信號(hào)的噪聲分量中的方差的估值 是從音頻信號(hào)中的噪聲分量的幅度的以前估值的平均值得到的。音頻 信號(hào)中具有大于預(yù)定的估值偏差的最大量的估值偏差的噪聲分量的幅 度的估值從在音頻信號(hào)中的噪聲分量的幅度的以前估值的平均值中被 排除或減小其在音頻信號(hào)中的噪聲分量的幅度的以前估值的平均值中 的加權(quán)。本發(fā)明的這個(gè)方面還可包括估計(jì)在音頻信號(hào)中的噪聲分量的 幅度作為音頻信號(hào)的噪聲分量中的方差的估值、音頻信號(hào)的語音分量 中的方差的估值、和音頻信號(hào)的幅度的函數(shù)。
7按照本發(fā)明的以上方面的任一方面,在音頻信號(hào)中的噪聲分量的 幅度的以前估值的平均值中,音頻信號(hào)中具有大于閾值的數(shù)值的噪聲 分量的幅度的估值被排除或減小其加權(quán)。
上述的閾值可以是\|/(l+f(m))id(m)的函數(shù),其中f是所估計(jì)的 先驗(yàn)信噪比,4是音頻信號(hào)的噪聲分量的估計(jì)方差,和vi/是由預(yù)定的估 計(jì)偏差的最大量確定的常數(shù)。
備。被存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序可以使得計(jì)算機(jī)執(zhí)行這 樣的方法中的任一種。
本發(fā)明的一個(gè)目的是提供在語音存在以及不存在期間起作用的、 能夠估計(jì)語音和噪聲分量的相對(duì)強(qiáng)度的語音增強(qiáng)。
本發(fā)明的另一個(gè)目的是提供不管是否存在重大的噪聲分量,都能 夠估計(jì)語音和噪聲分量的相對(duì)強(qiáng)度的語音增強(qiáng)。
本發(fā)明的再一個(gè)目的是提供可用于具有有限的可用存儲(chǔ)器的設(shè)備 的語音增強(qiáng)。
本發(fā)明的這些和其它特征和優(yōu)點(diǎn)將在以下的說明和所附權(quán)利要求 中,皮闡述或變得更明白。所述特征和優(yōu)點(diǎn)可以借助于在所附權(quán)利要求 中具體地指出的裝置和組合而被實(shí)現(xiàn)和得到。而且,本發(fā)明的特征和 優(yōu)點(diǎn) 白。
圖l是顯示現(xiàn)有技術(shù)語音增強(qiáng)器的功能框圖。
圖2a是按照本發(fā)明的各方面的示例性噪聲方差估計(jì)器的功能框 圖。這樣的噪聲方差估計(jì)器可被使用來改進(jìn)諸如圖l的例子中的那種 的現(xiàn)有技術(shù)語音增強(qiáng)器或可被使用于其它目的。
圖2b是對(duì)于理解圖2a的噪聲方差估計(jì)器的操作有用的流程圖。
圖3顯示作為針對(duì)四個(gè)真實(shí)的SNR的數(shù)值所估計(jì)的先驗(yàn)SNR的 函數(shù)的、噪聲幅度的偏差的估計(jì)的理想化的曲線圖。
具體實(shí)施例方式
這里使用的縮略詞和術(shù)語的詞匯表在附錄A中給出。符號(hào)及其各 自的定義的列表在附錄B中給出。附錄A和附錄B是本發(fā)明的一個(gè)整 體部分,它們形成本專利申請(qǐng)的部分。
按照本發(fā)明的各方面的噪聲方差估計(jì)器的示例性實(shí)施例的框圖顯 示于圖2a中。它可以與諸如圖1的那種的語音增強(qiáng)器集成在一起,以 便估計(jì)每個(gè)子頻帶的噪聲電平。例如,按照本發(fā)明的各方面的噪聲方 差估計(jì)器可被利用作為圖1的噪聲方差估計(jì)器4,因此提供改進(jìn)的語 音增強(qiáng)器。給噪聲方差估計(jì)器的輸入是未改變的子頻帶信號(hào)Y(m),它 的輸出是更新后的噪聲方差估值的數(shù)值。
為了說明起見,噪聲方差估計(jì)器的特征可能在于具有三個(gè)主要的 部件噪聲幅度估計(jì)器裝置或功能("噪聲幅度估計(jì)(Estimation of Noise Amplitude ) ,,)12、響應(yīng)于噪聲幅度估計(jì)工作的噪聲方差估計(jì)裝 置或功能("噪聲方差估計(jì)(Estimation of Noise Variance) ,,)14、和語 音方差估計(jì)裝置或功能("語音方差估計(jì)(Estimate of Speech Variance) ,,)16。圖2a的噪聲方差估計(jì)器例子還包括延時(shí)18,用z域 符號(hào)表示("Z"")示出。
圖2a的噪聲方差估計(jì)器例子的運(yùn)行可以還參照?qǐng)D2b的流程圖而 被最好地了解。將會(huì)意識(shí)到,這里以各種例子顯示和描述的各種設(shè)備、 功能和處理可被顯示為以與這里圖上顯示的方式不同的方式^皮組合或 分開。例如,當(dāng)用計(jì)算機(jī)軟件指令序列實(shí)施時(shí),圖2a和2b的所有功 能可以由在適當(dāng)?shù)臄?shù)字信號(hào)處理硬件中運(yùn)行的多線程軟件指令序列來 實(shí)施,在這種情形下,在圖上顯示的例子中的各種裝置和功能可以對(duì) 應(yīng)于軟件指令的各部分。
噪聲分量的幅度被估計(jì)(噪聲幅度估計(jì)12,圖2a;估計(jì)N(m) 24, 圖2b)。因?yàn)橐纛l輸入信號(hào)包含語音和噪聲;這樣的估計(jì)只能通過利 用區(qū)分一個(gè)部件與另一個(gè)部件的統(tǒng)計(jì)差值而完成。而且,噪聲分量的 幅度可以經(jīng)由適當(dāng)修改當(dāng)前被使用于語音分量幅度的估計(jì)的現(xiàn)有統(tǒng)計(jì)模型而被估計(jì)(參考文獻(xiàn)[4和[5)。
這樣的語音和噪聲模型通常假設(shè)語音和噪聲分量是不相關(guān)的零均 值高斯分布。關(guān)鍵的模型參數(shù),更具體地,語音分量方差和噪聲分量 方差,必須從未改變的輸入音頻信號(hào)被估計(jì)出。如上所述,語音和噪 聲分量的統(tǒng)計(jì)特性是完全不同的。在大多數(shù)情形下,噪聲分量的方差 是相對(duì)穩(wěn)定的。相反,語音信號(hào)是"開/關(guān)"過程,它的方差即使在幾 毫秒內(nèi)也可以急劇地改變。因此,噪聲分量的方差的估計(jì)牽涉到相對(duì) 長(zhǎng)的時(shí)間窗口 ,而用于語音分量的類似操作可能只牽涉到當(dāng)前的和以 前的輸入樣本。后者的例子是在參考文獻(xiàn)[l]中提出的"判決引導(dǎo)方法 (decision-directed method)"。
一旦統(tǒng)計(jì)模型及其語音和噪聲分量的分布參數(shù)被確定,從音頻信 號(hào)估計(jì)語音和噪聲分量的幅度就是可行的。在示例性實(shí)施例中,在參 考文獻(xiàn)[4中以前介紹的、用于估計(jì)語音分量的幅度的最小均方差 (MMSE)功率估計(jì)器適用于估計(jì)噪聲分量的幅度。估計(jì)器模型的選擇 對(duì)于本發(fā)明不是關(guān)鍵的。
簡(jiǎn)言之,MMSE功率估計(jì)器首先根據(jù)統(tǒng)計(jì)模型以及未改變的音頻 信號(hào),分別確定語音和噪聲分量的概率分布。然后確定噪聲幅度為使 得估計(jì)誤差的均方值最小的數(shù)值。
最后,在準(zhǔn)備進(jìn)行隨后的計(jì)算時(shí),通過把所估計(jì)的噪聲幅度的平 方的當(dāng)前絕對(duì)值包括在總的噪聲方差中,而更新噪聲分量的方差。這 個(gè)附加值變?yōu)樵诤侠黹L(zhǎng)的緩存器上的累加運(yùn)算的一部分,它包含當(dāng)前 的以及以前的噪聲分量幅度。為了進(jìn)一步改進(jìn)噪聲方差估計(jì)的精度, 可以結(jié)合有偏估計(jì)避免方法。
噪聲幅度估計(jì)
(噪聲幅度估計(jì)12,圖2a;估計(jì)N(m) 24,圖2b)
如圖1、 2a和2b(20)所示,加到噪聲方差估計(jì)器(在本上下文中,
"噪聲方差估計(jì)器,,是圖1的方塊4,以及是圖2a的單元12、 l4、 l6、
和18的組合)的輸入是子頻帶<formula>formula see original document page 11</formula>
其中X(m)是語音分量,以及D(m)是噪聲分量。這里m是時(shí)間指數(shù), 以及子頻帶號(hào)下標(biāo)k被省略,因?yàn)橥粋€(gè)噪聲方差估計(jì)器被使用于每 個(gè)子頻帶??梢约僭O(shè),分析濾波器組生成復(fù)數(shù)量,如DFT所做的那樣。 這里,子頻帶分量也是復(fù)數(shù)的,以及可被進(jìn)一步表示為
)exp(;+)) (3)
Z(w)=Z(m)exp(_/. (m)) (4)
和
Z)(m) = 7V"(m)exp(y-(m)) (5)
其中R(m), A(m)和N(m)分別是未改變的音頻信號(hào)、語音和噪聲分量 的幅度,以及S(m), oc(m)和Am)是它們各自的相位。
通過假設(shè)語音和噪聲分量是不相關(guān)的零均值高斯分布,X(m)的幅 度可以通過使用在參考文獻(xiàn)4中得到的下列MMSE功率估計(jì)器而被估 計(jì)出
= GSP (6) 其中增益函數(shù)由下式給出
其中
r ", 、" 、、— i "附)。+"^
(7)
(8)
(9)
和
(10)
這里、(m)和人d(m)分別是語音分量和噪聲分量的方差?!?m)和y(m) 常常被解譯為先驗(yàn)和后驗(yàn)分量對(duì)噪聲比,這里就采用該表示法。換句
ii話說,"先驗(yàn)"SNR是假設(shè)的(而實(shí)際上未知的)語音方差(因此稱為"先 驗(yàn)"的)對(duì)噪聲方差的比值;"后驗(yàn),,SNR是觀察到的信號(hào)的幅度平方 (因此稱為"后驗(yàn)"的)對(duì)噪聲方差的比值。
在MMSE功率估計(jì)器模型中,語音和噪聲分量的各自方差可以被 互換,以便估計(jì)噪聲分量的幅度
其中
々(m卜Gsp(《'(m)j'(m)).i (m)
,)嘲
(11)
(12)
以及
(13)
i吾音方差4古i十
(語音方差估計(jì)16,圖2a;估計(jì)^(m)22,圖2b) 語音分量方差ix(m)的估計(jì)可以通過使用在參考文獻(xiàn)[ll中提出的 判決引導(dǎo)方法來計(jì)算
ix (w) = /i (m — 1) + (1 - //)畫(/ 2 (w) — & (m), 0) (14)
這里
0《//<1 (15)
是預(yù)先選擇的常數(shù),以及A(m)是語音分量幅度的估值。下面描述噪聲 分量方差估值id(m)的計(jì)算。
噪聲幅度估計(jì)(從以上繼續(xù)) 噪聲分量幅度的估值最后由下式給出
年)Gsp(f(m)W(附)).i (m) (16)
其中以及
,(m)- ^ 、 乂 (18)
雖然在本例中利用了復(fù)數(shù)濾波器組,但修改用于僅僅具有實(shí)數(shù)值 的濾波器組的公式是容易的。
上述的方法僅僅作為例子給出。根據(jù)應(yīng)用,可以采用更復(fù)雜的或 更簡(jiǎn)單的方法。多麥克風(fēng)輸入也可以被使用來得到噪聲幅度的更好的 估值。
噪聲方差估計(jì)
(噪聲方差估計(jì)14,圖2a;估計(jì)人a(m) 26,圖2b)
在給定的時(shí)間指數(shù)m時(shí)輸入的子頻帶中的噪聲分量部分地由它的
方差Xd(m)確定。對(duì)于零均值高斯,這被定義為噪聲分量的幅度的平方
的均值
&(附)= )} (19)
這里,數(shù)學(xué)期望E(N、m"是對(duì)于在時(shí)間指數(shù)m時(shí)噪聲分量的概率分布 而取的。
通過假設(shè)噪聲分量是平穩(wěn)的和各態(tài)歷經(jīng)的,Xd(m)可以通過對(duì)于先 驗(yàn)估計(jì)的噪聲幅度執(zhí)行時(shí)間平均操作而得到。更具體地,時(shí)間指數(shù) (m+l)的噪聲方差Xd(m+l)可以通過執(zhí)行以前估計(jì)的噪聲幅度的平方的 加4又平均而#皮估計(jì)出
£w(z)々2(m — !-) 4 — + = - (20)
,'=0
其中w(i), i-0,…,oo是加權(quán)函數(shù)。實(shí)際上,w(i)可被選擇為長(zhǎng)度為L(zhǎng)的 窗口 w(i)-l, i-0,…,L-l。在矩形窗口方法(RWM)中,估計(jì)的噪聲方 差由下式給出
4(M + 1)=4S々2(m —0 (21)也有可能使用指數(shù)窗口
(22) 其中
0<^<1. (23)
在移動(dòng)平均方法(MAM)中,估計(jì)出的噪聲方差是噪聲幅度的平方 的移動(dòng)平均值
4 (m +1) = (1 -々)4 (m) + M2 (m) (24)
其中初始值義d(O)可被設(shè)置為合理地選擇的預(yù)定值。 偏差估計(jì)避免
偶爾地,模型不能提供語音和噪聲分量的精確表示。在這些情形 下,噪聲方差估計(jì)可以變?yōu)椴痪_的,由此產(chǎn)生非常偏差的結(jié)果。已 經(jīng)開發(fā)了偏差估計(jì)避免(BEA)方法來緩和這個(gè)問題。
實(shí)際上,BEA把變小的權(quán)重分配給噪聲幅度估值々(m),以使得 to (附)=£ 一2 -々2 (m))/£ {//2 (—} (25)
其中偏差,bias(m),大于預(yù)定的最大值Bmax,即
&+)|〉5, (26)
噪聲幅度估值々(m)的精確性受到模型的精度支配,具體地是語音 和噪聲分量的方差,如在以前部分中所描述的那樣。因?yàn)樵肼暦至渴?相對(duì)平穩(wěn)的,所以它的方差隨時(shí)間緩慢演化。為此,分析假設(shè) 4(+人(m) (27)
相比而言,語音分量本質(zhì)上是瞬變的,且易于產(chǎn)生大的錯(cuò)誤。假 設(shè)真實(shí)的先驗(yàn)SNR是
n附)",(附)A/W (28)
而所估計(jì)的先驗(yàn)SNR是W(m)的估值偏差實(shí)際上由下式給出
(l + j(m))
(30)
顯然,如果
(31)
則可以具有無偏估計(jì)器,以及
=中2(寺&(附) (32)
正如在圖3上看到的,估值偏差相對(duì)于圖上的虛線,即零偏差線, 是不對(duì)稱的。圖的下部指示對(duì)于^的變化值的變化的估值偏差值,而 圖的上部顯示對(duì)于f或礦的很小的依賴性。
對(duì)于感興趣的SNR范圍,噪聲幅度的低估(under-extimation),即
£{》2(—}<五{^2('")} (33)
將導(dǎo)致正的偏差,這對(duì)應(yīng)于圖的上部。正如可以看到的那樣,影響是 相對(duì)小的,所以不成問題。
然而,圖的下部對(duì)應(yīng)于其中語音分量的方差被低估的情形,這導(dǎo) 致大的負(fù)的估值偏差,如公式(30)給出的那樣,即
(34)
和
或,可替換地 《
和
!(m)<l
(35)
(36)
(37)
以及對(duì)于^的不同數(shù)值的強(qiáng)的依賴性。這些是其中噪聲幅度的估值太 大的情形。因此,給予這樣的幅度以減小的權(quán)重或全部避免。 實(shí)際上,經(jīng)驗(yàn)教導(dǎo)了這樣的可疑幅度R(m)滿足/ 2(附)〉"l + ^));i,(w) (38) 其中\(zhòng)|/是預(yù)定的正的常數(shù)。這個(gè)規(guī)則提供對(duì)于偏差的較低約束
6!.as(/n)> (39)
其中
"2(萬隠+l) (40)
總之,正偏差是可忽略的。如果在公式(16)中定義的、且與公式(38) 一致的所估計(jì)的噪聲幅度&(m)被給予減小的權(quán)重的話,負(fù)偏差是可維 持的。在實(shí)際的應(yīng)用中,由于Xd(m)的數(shù)值是未知的,公式(38)的規(guī)則 可4皮近似為
/ 2(w)〉w(l + f(w))4(w) (41)
其中
= (42)
& w
BEA方法的兩個(gè)這樣的例子是利用BEA的矩形窗口方法(RWM) 和利用BEA的移動(dòng)平均方法(MAM)。在前一實(shí)施方案中,被給予與 公式(38)—致的樣本的權(quán)重是零
^(附+1)=42:々2(0 (43)
丄
其中Om是對(duì)于時(shí)間指數(shù)m,包含滿足下式的L個(gè)最接近的&(i)的集 合
(44)
在后一實(shí)施方案中,可利用減小的權(quán)重來包括這樣的樣本 & (m +1) = (1 -艱(m) + M2 (附) (45)
其中<formula>formula see original document page 17</formula>
(46)
A else.
和
完成圖2b流程圖的描述后,然后時(shí)間指數(shù)m增大l("nH"in+l" 56),并重復(fù)圖2b的過程。
實(shí)施方式
本發(fā)明可以以硬件或軟件或它們的組合(例如,可編程的邏輯陣列) 來實(shí)施。除非另外闡述,作為本發(fā)明的一部分被包括的過程不是固有 地與任何特定的計(jì)算機(jī)或其他設(shè)備相關(guān)。具體地,可以使用各種具有 按照這里的教導(dǎo)編寫的程序的通用機(jī)器,或構(gòu)建更專用的設(shè)備(例如, 集成電路)來執(zhí)行需要的方法步驟可以是更方便的。因此,本發(fā)明可以 以在一個(gè)或多個(gè)可編程計(jì)算機(jī)系統(tǒng)上執(zhí)行的一個(gè)或多個(gè)計(jì)算機(jī)程序來 實(shí)施,每個(gè)可編程計(jì)算機(jī)系統(tǒng)包括至少一個(gè)處理器、至少一個(gè)數(shù)據(jù)存 儲(chǔ)系統(tǒng)(包括易失性和非易失性存儲(chǔ)器和/或存儲(chǔ)單元)、至少一個(gè)輸入 設(shè)備或端口、和至少一個(gè)輸出設(shè)備或端口。程序代碼被施加到輸入數(shù) 據(jù)上以執(zhí)行這里描述的功能和生成輸出信息。輸出信息以已知的方式 ,皮施加到一個(gè)或多個(gè)輸出i殳備。
每個(gè)這樣的程序可以以任何想要的計(jì)算機(jī)語言(包括機(jī)器、匯編、
或高級(jí)別過程、邏輯或面向?qū)ο蟮木幊陶Z言)來實(shí)施,以便與計(jì)算機(jī)系
統(tǒng)通信。無論如何,語言可以是匯編或解譯的語言。
每個(gè)這樣的計(jì)算機(jī)程序優(yōu)選地被存儲(chǔ)在或下載到由通用或?qū)S每?編程計(jì)算機(jī)可讀的存儲(chǔ)媒體或裝置(例如,固態(tài)存儲(chǔ)器或媒體、磁或光
媒體),用于當(dāng)存儲(chǔ)媒體或裝置被計(jì)算機(jī)系統(tǒng)讀取以便執(zhí)行這里描述的 過程時(shí)配置和操作計(jì)算機(jī)。本發(fā)明的系統(tǒng)還可以被認(rèn)為是被實(shí)現(xiàn)為計(jì) 算機(jī)可讀的存儲(chǔ)介質(zhì),其被配置有計(jì)算機(jī)程序,其中這樣配置的存儲(chǔ)
-卞l功能。
已經(jīng)描述了本發(fā)明的許多實(shí)施例。無論如何,將會(huì)看到,可以作出各種修改而不背離本發(fā)明的精神和范圍。例如,這里描述的某些步驟可以獨(dú)立地排序,因此可以以與所描述的次序不同的次序來執(zhí)行。
18附錄A縮略語和術(shù)語詞匯表
BEA 偏差估計(jì)避免
DFT 離散4專立葉變換
DSP 數(shù)字信號(hào)處理
MAM 移動(dòng)平均方法
RWM 矩形窗口方法
SNR 信噪比
T/F 時(shí)間/頻率
VAD i吾音端點(diǎn)檢觀'J (voice activity detection)附錄B符號(hào)列表
y(w), w = 0,1,…,oo數(shù)字化時(shí)間信號(hào)
增強(qiáng)的語音信號(hào)
&(附),a = i,...,a:,w=o,i"."oo子頻帶信號(hào)k
增強(qiáng)的子頻帶信號(hào)k
X(m)子頻帶k的語音分量
D(m)子頻帶k的噪聲分量
gk用于子頻帶k的抑制增益
R(m)噪聲語音幅度
噪聲語音相位
A(m)語音分量幅度
X(m)所估計(jì)的語音分量幅度
a(m)語音分量相位
N(m)噪聲分量幅度
&(m)所估計(jì)的噪聲分量幅度
^(m)噪聲分量相位
Gsp增益函數(shù)
入x(m)語音分量方差
;x(m)所估計(jì)的語音分量方差
入d(m)噪聲分量方差
ad(m)所估計(jì)的噪聲分量方差
先驗(yàn)語音分量對(duì)噪聲比
y(m)后驗(yàn)語音分量對(duì)噪聲比
《,(m)先驗(yàn)噪聲分量對(duì)語音比
Y,(m)后驗(yàn)噪聲分量對(duì)語音比
a預(yù)先選擇的常數(shù)
針對(duì)偏差估值預(yù)先選擇的
權(quán)利要求
1.一種用于增強(qiáng)包括語音分量和噪聲分量的音頻信號(hào)中的語音分量的方法,包括把音頻信號(hào)從時(shí)域變換成頻域中的多個(gè)子頻帶;處理音頻信號(hào)的子頻帶,所述處理包括響應(yīng)于控制,自適應(yīng)地減小所述子頻帶中的一些子頻帶的增益,其中所述控制至少部分地從音頻信號(hào)的噪聲分量的方差的估值得到,該估值又是從音頻信號(hào)中的噪聲分量的幅度的以前估值的平均值得到的,其中音頻信號(hào)中具有大于預(yù)定的估值偏差的最大量的估值偏差的噪聲分量的幅度的估值從音頻信號(hào)中的噪聲分量的幅度的以前估值的平均值中被排除或減小其在音頻信號(hào)中的噪聲分量的幅度的以前估值的平均值中的加權(quán);以及把處理后的音頻信號(hào)從頻域變換到時(shí)域,以便提供其中語音分量被增強(qiáng)的音頻信號(hào)。
2. —種用于得出包括語音分量和噪聲分量的音頻信號(hào)的噪聲分 量的方差的估值的方法,包括從音頻信號(hào)中的噪聲分量的幅度的以前估值的平均值得出音頻信 號(hào)的噪聲分量的方差的所述估值,其中音頻信號(hào)中具有大于預(yù)定的估 值偏差的最大量的估值偏差的噪聲分量的幅度的估值從音頻信號(hào)中的 噪聲分量的幅度的以前估值的平均值中被排除或減小其在音頻信號(hào)的 噪聲分量的幅度的以前估值的平均值中的加權(quán)。
3. 按照權(quán)利要求1或權(quán)利要求2的方法,其中在音頻信號(hào)中的噪 聲分量的幅度的以前估值的平均值中,音頻信號(hào)中具有大于閾值的數(shù) 值的噪聲分量的幅度的估值被排除或減小其加權(quán)。
4. 按照權(quán)利要求3的方法,其中在音頻信號(hào)中的噪聲分量的幅度 的每個(gè)估值是音頻信號(hào)的噪聲分量的方差的估值、音頻信號(hào)的語音分量的方差的估值、和音頻信號(hào)的幅度的函數(shù)。
5. 按照權(quán)利要求3的方法,其中所述閾值是"1 +《—))4(—的函 數(shù),其中^是所估計(jì)的先驗(yàn)信噪比,id是音頻信號(hào)的噪聲分量中的所估 計(jì)的方差,和v是由所述預(yù)定的估計(jì)偏差的最大量確定的常數(shù)。
6. 按照權(quán)利要求5的方法,其中在音頻信號(hào)中的噪聲分量的幅度 的每個(gè)估值是音頻信號(hào)的噪聲分量的方差的估值、音頻信號(hào)的語音分 量的方差的估值、和音頻信號(hào)的幅度的函數(shù)。
7. 按照權(quán)利要求1或權(quán)利要求2的方法,其中在音頻信號(hào)中的噪 聲分量的幅度的每個(gè)估值是音頻信號(hào)的噪聲分量的方差的估值、音頻 信號(hào)的語音分量的方差的估值、和音頻信號(hào)的幅度的函數(shù)。
8. —種適于執(zhí)行權(quán)利要求1到7中的任一項(xiàng)的方法的設(shè)備。
9. 一種被存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的用于使計(jì)算機(jī)執(zhí)行權(quán)利要 求1到7中的任一項(xiàng)的方法的計(jì)算機(jī)程序。
全文摘要
本公開描述了用于具要有限的可用存儲(chǔ)器的設(shè)備的語音增強(qiáng)方法。該方法適用于非常嘈雜的環(huán)境,并且能夠在存在以及不存在語音期間估計(jì)語音分量和噪聲分量的相對(duì)強(qiáng)度。
文檔編號(hào)G10L21/02GK101647061SQ200880008886
公開日2010年2月10日 申請(qǐng)日期2008年3月14日 優(yōu)先權(quán)日2007年3月19日
發(fā)明者俞容山 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司