專(zhuān)利名稱(chēng):非線(xiàn)性譜減缺失分量估計(jì)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到計(jì)算機(jī)技術(shù)應(yīng)用技術(shù),特別是語(yǔ)音識(shí)別技術(shù)中根據(jù)局部信噪比,估計(jì)語(yǔ)音特征矢量受噪聲掩蔽的分量的非線(xiàn)性譜減缺失分量估計(jì)技術(shù)。
背景技術(shù):
噪聲魯棒性問(wèn)題是語(yǔ)音識(shí)別技術(shù)目前面臨的主要挑戰(zhàn)之一,深入研究基于數(shù)據(jù)重建的語(yǔ)音識(shí)別魯棒性技術(shù),具有重要的理論意義和廣泛應(yīng)用價(jià)值。
當(dāng)兩個(gè)響度不等的聲音作用于人耳時(shí),響度較高的頻率成分的存在會(huì)影響到對(duì)響度較低的頻率成分的感知,使其變得不易察覺(jué),這種現(xiàn)象稱(chēng)為掩蔽效應(yīng)。根據(jù)人耳掩蔽效應(yīng),人們提出了缺失特征方法。缺失特征方法認(rèn)為噪聲和語(yǔ)音在時(shí)間~頻率域上不同區(qū)域具有不同局部信噪比,并進(jìn)行缺失分量估計(jì),即把局部信噪比較低的區(qū)域標(biāo)記為“缺失矢量”,而局部信噪比較高的區(qū)域標(biāo)記為“可靠矢量”,然后進(jìn)行語(yǔ)音識(shí)別。
缺失分量估計(jì)是缺失特征方法應(yīng)用于魯棒語(yǔ)音識(shí)別的基礎(chǔ),對(duì)缺失特征方法的性能有重要的影響。譜減法假設(shè)語(yǔ)音信號(hào)是平穩(wěn)或者緩變的,并根據(jù)歷史噪聲功率譜估計(jì)當(dāng)前噪聲功率譜。譜減法可以估計(jì)出語(yǔ)音每個(gè)美子帶內(nèi)的信噪比,因此可以用于缺失分量估計(jì)。
譜減法假設(shè)噪聲是平穩(wěn)或者緩變的,并利用歷史噪聲譜估計(jì)當(dāng)前噪聲譜。基于譜減法的缺失分量估計(jì)方法和步驟如下1)假設(shè)噪聲為平穩(wěn)或者緩變信號(hào),且在語(yǔ)音的起始部分僅僅包括了噪聲。使用若干起始美子帶特征的平均作為噪聲子帶特征矢量的估計(jì);2)估計(jì)在每個(gè)美子帶內(nèi)的局部信噪比;首先,估計(jì)每個(gè)美子帶內(nèi)噪聲能量 其中,NSi(k)表示受噪聲破壞的語(yǔ)音第i幀美子帶特征的第k個(gè)分量(對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的受噪聲破壞語(yǔ)音的能量); 表示噪聲第i幀美子帶特征的第k個(gè)分量的估計(jì)(對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的噪聲能量估計(jì))。α,噪聲更新系數(shù),定義了根據(jù)當(dāng)前信號(hào),噪聲能量估計(jì)更新速度的快慢;β,噪聲門(mén)限,定義了更新噪聲能量估計(jì)的信號(hào)能量門(mén)限。
然后,估計(jì)每個(gè)美子帶內(nèi)的局部信噪比SN^Ri(k)=10Log10(NSi(k)-N^i(k)N^i(k))---(2)]]>3)缺失分量估計(jì) 掩蔽門(mén)限δ是判斷特征是否可靠的門(mén)限。δ的取值范圍根據(jù)人耳掩蔽效應(yīng)進(jìn)行選擇和調(diào)整。
基于譜減法的缺失分量估計(jì)算法根據(jù)當(dāng)前輸入信號(hào)能量,調(diào)整噪聲譜估計(jì),進(jìn)而進(jìn)行局部信噪比估計(jì),根據(jù)局部信噪比估計(jì)完成缺失分量估計(jì)。一系列實(shí)驗(yàn)表明,基于譜減法的缺失分量估計(jì)算法在處理非平穩(wěn)噪聲時(shí)遇到了困難如果噪聲譜估計(jì)根據(jù)當(dāng)前輸入信號(hào)能量更新得比較快,在靜音段,噪聲譜能夠得到較好的估計(jì),但是在語(yǔ)音段,噪聲譜估計(jì)受到語(yǔ)音譜的影響發(fā)生較大誤差;如果噪聲譜估計(jì)根據(jù)當(dāng)前輸入信號(hào)能量更新得比較慢,在語(yǔ)音段,噪聲譜估計(jì)受到語(yǔ)音譜的影響較小,但是在靜音段,噪聲譜不能很好得到跟隨和估計(jì)。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決這些問(wèn)題,通過(guò)調(diào)整參數(shù)A、B、C、N,使非線(xiàn)性譜減缺失分量估計(jì)算法達(dá)到如下目的在信噪比較大的語(yǔ)音段,α取較大值,噪聲子帶特征矢量的估計(jì)更新較慢;在信噪比較低的靜音段,α取較小值,噪聲子帶特征矢量的估計(jì)更新較快。
為了達(dá)到上述目的,本發(fā)明的技術(shù)解決方案是提出一種非線(xiàn)性譜減缺失分量估計(jì)方法,是根據(jù)局部信噪比,估計(jì)語(yǔ)音受噪聲掩蔽部份的缺失分量,其通過(guò)調(diào)整參數(shù)A、B、C、N,使在信噪比較大的語(yǔ)音段,噪聲更新系數(shù)α取較大值,噪聲子帶特征矢量的估計(jì)更新較慢;在信噪比較低的靜音段,噪聲更新系數(shù)α取較小值,噪聲子帶特征矢量的估計(jì)更新較快。
所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其算法步驟包括第一步,噪聲子帶特征矢量估計(jì)若噪聲為平穩(wěn)或者緩變信號(hào),且在語(yǔ)音的起始部分僅包括噪聲,使用若干起始美子帶特征矢量平均作為噪聲矢量估計(jì);當(dāng)噪聲為非平穩(wěn)噪聲的時(shí)候,首先對(duì)含噪語(yǔ)音進(jìn)行基于能量的端點(diǎn)檢測(cè),然后,利用噪聲段美子帶特征矢量平均作為噪聲矢量的估計(jì);第二步,估計(jì)在每個(gè)美子帶內(nèi)的局部信噪比根據(jù)含噪語(yǔ)音能量和噪聲能量估計(jì),估計(jì)新輸入信號(hào)與噪聲的信噪比SN^R=10log10(NSi-N^i-1N^i-1)]]>其中,NSi為含噪語(yǔ)音能量, 為上一楨的噪聲能量估計(jì);根據(jù)信噪比估計(jì),構(gòu)造如下函數(shù),根據(jù)新輸入信號(hào)與噪聲能量比估計(jì),計(jì)算噪聲更新系數(shù)α
α=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>得到噪聲更新系數(shù)α后,估計(jì)每個(gè)美子帶內(nèi)噪聲能量Ni′(k)=(1-α)NSi(k)+αN^i-1(k)]]>估計(jì)每個(gè)美子帶內(nèi)的局部信噪比SN^Ri(k)=10Log10(NSi(k)-N^i(k)N^i(k))]]>第三步,缺失分量估計(jì) 其中,δ是判斷特征是否可靠的門(mén)限。
所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其算法第二步中,其中,0≤A≤1,為更新范圍系數(shù),用來(lái)調(diào)整噪聲更新系數(shù)α的取值范圍,確定了A取值,即確定了噪聲更新系數(shù)α的取值范圍A≤α<1。
所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其所述噪聲更新系數(shù)α,決定了根據(jù)當(dāng)前信號(hào)更新噪聲能量估計(jì)的快慢。
所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其算法第二步中,其中α=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>公式中β=[B*(SN^R-C)]2N>0,]]>調(diào)整β的取值可以改變?cè)肼暩孪禂?shù)α的取值;選擇不同B、C、N,可以獲得不同的β計(jì)算公式,稱(chēng)B為擴(kuò)展系數(shù),C為信噪比偏移,N為更新階數(shù)。
所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其算法第二步中,其中每個(gè)美子帶內(nèi)噪聲能量公式的NSi(k)表示受噪聲破壞的語(yǔ)音第I幀美子帶特征的第k個(gè)分量,即對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的受噪聲破壞語(yǔ)音的能量; 表示噪聲第I幀美子帶特征的第k個(gè)分量的估計(jì),即對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的噪聲能量估計(jì)。
所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其在非平穩(wěn)Babble噪聲環(huán)境下,非線(xiàn)性譜減缺失分量估計(jì)方法明顯降低了缺失分量估計(jì)誤差;在語(yǔ)音段,語(yǔ)音美子帶特征矢量更接近原始純凈語(yǔ)音特征矢量;在靜音段,有效的去除了基于譜減法的缺失分量估計(jì)方法引起的“偽語(yǔ)音”特征矢量;在平穩(wěn)高斯白噪聲環(huán)境下,非線(xiàn)性譜減缺失分量估計(jì)方法的性能和基于譜減法的缺失分量估計(jì)算法的性能接近。
圖1為噪聲對(duì)語(yǔ)音美子帶特征矢量的破壞示意圖,(圖中的漢語(yǔ)語(yǔ)音是談到汽車(chē)定點(diǎn)(tan2 dao4 qi4 chel ding4 dian3);圖2為含噪語(yǔ)音的缺失分量估計(jì)圖。
具體實(shí)施例方式
算法描述基于譜減法的缺失分量估計(jì)方法面臨的最大的挑戰(zhàn)來(lái)自于噪聲譜估計(jì)。在靜音段,缺失分量估計(jì)算法希望噪聲譜估計(jì)能夠根據(jù)當(dāng)前輸入信號(hào)快速進(jìn)行更新;而在語(yǔ)音段由于語(yǔ)音信號(hào)能量較高,如果根據(jù)當(dāng)前輸入信號(hào)進(jìn)行快速更新,有可能在噪聲譜估計(jì)中引入較多語(yǔ)音譜信息,估計(jì)誤差變大,因此在語(yǔ)音段,缺失分量估計(jì)算法希望噪聲譜估計(jì)根據(jù)當(dāng)前輸入信號(hào)進(jìn)行更新的速度較慢。
為了達(dá)到這個(gè)目的,對(duì)基于譜減法的缺失分量估計(jì)方法,提出了如下的非線(xiàn)性譜減缺失分量估計(jì)方法1)噪聲子帶特征矢量估計(jì)譜減法假設(shè)噪聲為平穩(wěn)或者緩變信號(hào),且在語(yǔ)音的起始部分僅包括噪聲,使用若干起始美子帶特征矢量平均作為噪聲矢量估計(jì)。當(dāng)噪聲為非平穩(wěn)噪聲的時(shí)候,使用該方法初始化噪聲子帶特征矢量的估計(jì)并不能取得明顯的效果。為了更好的初始化噪聲功率譜,首先對(duì)含噪語(yǔ)音進(jìn)行基于能量的端點(diǎn)檢測(cè),然后,利用噪聲段美子帶特征矢量平均作為噪聲矢量的估計(jì)。
2)估計(jì)在每個(gè)美子帶內(nèi)的局部信噪比;根據(jù)含噪語(yǔ)音能量和噪聲能量估計(jì),估計(jì)新輸入信號(hào)與噪聲的信噪比SN^R=10log10(NSi-N^i-1N^i-1)---(4)]]>其中,NSi為含噪語(yǔ)音能量, 為上一楨的噪聲能量估計(jì)。根據(jù)信噪比估計(jì),構(gòu)造如下函數(shù),根據(jù)新輸入信號(hào)與噪聲能量比估計(jì),計(jì)算噪聲更新系數(shù)αα=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N----(5)]]>其中,0≤A≤1,用來(lái)調(diào)整噪聲更新系數(shù)α的取值范圍,稱(chēng)之為更新范圍系數(shù)。確定了A取值,即確定了噪聲更新系數(shù)α的取值范圍A≤α<1。
通過(guò)調(diào)整更新范圍系數(shù)A,希望達(dá)到如下目的在信噪比較高的語(yǔ)音段,α取較大值,噪聲子帶特征矢量更新較慢;在信噪比較低的靜音段,α取較小值,噪聲子帶特征矢量更新較快。
β=[B*(SN^R-C)]2N>0,]]>是與信噪比有關(guān)的量,調(diào)整β的取值可以改變?cè)肼暩孪禂?shù)α的取值。選擇不同B、C、N,可以獲得不同的β計(jì)算公式,稱(chēng)B為擴(kuò)展系數(shù),C為信噪比偏移,N為更新階數(shù)。
得到噪聲更新系數(shù)α后,估計(jì)每個(gè)美子帶內(nèi)噪聲能量N′i(k)=(1-α)NSi(k)+αN^i-1(k)---(6)]]>
其中,NSi(k)表示受噪聲破壞的語(yǔ)音第i幀美子帶特征的第k個(gè)分量(對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的受噪聲破壞語(yǔ)音的能量); 表示噪聲第i幀美子帶特征的第k個(gè)分量的估計(jì)(對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的噪聲能量估計(jì))。噪聲更新系數(shù)α,決定了根據(jù)當(dāng)前信號(hào)更新噪聲能量估計(jì)的快慢。
估計(jì)每個(gè)美子帶內(nèi)的局部信噪比SN^Ri=10Log10(NSi(k)-N^i(k)N^i(k))---(7)]]>3)缺失分量估計(jì) 其中,δ是判斷特征是否可靠的門(mén)限。
人耳對(duì)聲音的感知具有明顯的非線(xiàn)性特性,在語(yǔ)音特征中融入一些反映人耳聽(tīng)覺(jué)特性的因素能夠顯著提高語(yǔ)音識(shí)別系統(tǒng)的性能,考慮到聽(tīng)覺(jué)系統(tǒng)的臨界帶效應(yīng),通常選用在美頻率域上均勻分布的三角濾波器組對(duì)語(yǔ)音特征矢量進(jìn)行子帶特征分析,在語(yǔ)音識(shí)別技術(shù)中得到了廣泛的應(yīng)用。
下面,將以語(yǔ)音美(Mel)子帶特征矢量的缺失分量估計(jì)來(lái)說(shuō)明基于非線(xiàn)性譜減缺失分量估計(jì)方法。
純凈語(yǔ)音受到噪聲破壞后,美子帶特征的形態(tài)和分布發(fā)生了比較大的畸變,因此將造成語(yǔ)音識(shí)別系統(tǒng)性能大大下降,如圖1所示。從圖1可以看出,噪聲破壞了純凈語(yǔ)音特征矢量的形態(tài)和分布,由于噪聲特性和強(qiáng)度的不同,不同的噪聲對(duì)語(yǔ)音特征的破壞作用也不同。
缺失分量估計(jì)的目的是把語(yǔ)音特征S分為兩個(gè)矢量受到噪聲嚴(yán)重破壞的“缺失矢量”Sm和未受到噪聲破壞的“可靠矢量”S°。圖2給出了對(duì)含噪語(yǔ)音(高斯白噪聲、Babble噪聲,SNR=15dB)進(jìn)行缺失分量估計(jì)的結(jié)果。
從缺失分量估計(jì)的結(jié)果看,基于譜減法的缺失分量估計(jì)帶來(lái)了噪聲平穩(wěn)性限制對(duì)受高斯白噪聲破壞的語(yǔ)音,基于譜減法的缺失分量估計(jì)取得了相對(duì)較好的結(jié)果,但由于語(yǔ)音特征的隨機(jī)性,也出現(xiàn)了一定的估計(jì)誤差;對(duì)非平穩(wěn)babble噪聲,基于譜減法的缺失分量估計(jì)效果不太理想在語(yǔ)音段,美子帶特征“可靠矢量”的分布和數(shù)值出現(xiàn)了較大誤差;同時(shí),在信噪比很低,不會(huì)出現(xiàn)美子帶特征“可靠矢量”的靜音段,出現(xiàn)了大量“可靠矢量”(參見(jiàn)圖2)。
實(shí)驗(yàn)結(jié)果表明,在非平穩(wěn)Babble噪聲環(huán)境下,非線(xiàn)性譜減缺失分量估計(jì)方法明顯降低了缺失分量估計(jì)誤差。因此,在語(yǔ)音段,語(yǔ)音美子帶特征矢量更接近原始純凈語(yǔ)音特征矢量;在靜音段,有效的去除了基于譜減法的缺失分量估計(jì)方法引起的“偽語(yǔ)音”特征矢量。在平穩(wěn)高斯白噪聲環(huán)境下,非線(xiàn)性譜減缺失分量估計(jì)方法的性能和基于譜減法的缺失分量估計(jì)算法的性能比較接近。
因此,在信噪較高的情況下,無(wú)論噪聲是非平穩(wěn)Babble噪聲還是平穩(wěn)高斯白噪聲環(huán)境下,非線(xiàn)性譜減缺失分量估計(jì)方法都具有良好性能。
權(quán)利要求
1.一種非線(xiàn)性譜減缺失分量估計(jì)方法,該方法根據(jù)局部信噪比,估計(jì)語(yǔ)音受噪聲掩蔽的語(yǔ)音子帶特征“缺失”分量,其特征為通過(guò)調(diào)整參數(shù)A、B、C、N,使在信噪比較大的語(yǔ)音段,噪聲更新系數(shù)α取較大值,噪聲子帶特征矢量的估計(jì)更新較慢;在信噪比較低的靜音段,噪聲更新系數(shù)α取較小值,噪聲子帶特征矢量的估計(jì)更新較快。
2.如權(quán)利要求1所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其特征為算法步驟包括第一步,噪聲子帶特征矢量估計(jì)若噪聲為平穩(wěn)或者緩變信號(hào),且在語(yǔ)音的起始部分僅包括噪聲,使用若干起始美子帶特征矢量平均作為噪聲矢量估計(jì);當(dāng)噪聲為非平穩(wěn)噪聲的時(shí)候,首先對(duì)含噪語(yǔ)音進(jìn)行基于能量的端點(diǎn)檢測(cè),然后,利用噪聲段美子帶特征矢量平均作為噪聲矢量的估計(jì);第二步,估計(jì)在每個(gè)美子帶內(nèi)的局部信噪比根據(jù)含噪語(yǔ)音能量和噪聲能量估計(jì),估計(jì)新輸入信號(hào)與噪聲的信噪比SN^R=10log10(NSi-N^i-1N^i-1)]]>其中,NSi為含噪語(yǔ)音能量, 為上一楨的噪聲能量估計(jì);根據(jù)信噪比估計(jì),構(gòu)造如下函數(shù),根據(jù)新輸入信號(hào)與噪聲能量比估計(jì),計(jì)算噪聲更新系數(shù)αα=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>得到噪聲更新系數(shù)α后,估計(jì)每個(gè)美子帶內(nèi)噪聲能量N′i(k)=(1-α)NSi(k)+αN^i-1(k)]]>估計(jì)每個(gè)美子帶內(nèi)的局部信噪比SN^Ri(k)=10Log10(NSi(k)-N^i(k)N^i(k))]]>第三步,缺失分量估計(jì) 其中,δ是判斷特征是否可靠的門(mén)限。
3.如權(quán)利要求2所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其特征為算法第二步中,其中,0 ≤A≤1,為更新范圍系數(shù),用來(lái)調(diào)整噪聲更新系數(shù)α的取值范圍,確定了A取值,即確定了噪聲更新系數(shù)α的取值范圍A≤α<1。
4.如權(quán)利要求2或3所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其特征為當(dāng)α取較大值時(shí),在信噪比較高的語(yǔ)音段,噪聲子帶特征矢量更新較慢;當(dāng)α取較小值時(shí),在信噪比較低的靜音段,噪聲子帶特征矢量更新較快。
5.如權(quán)利要求2或3所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其特征為所述噪聲更新系數(shù)α,決定了根據(jù)當(dāng)前信號(hào)更新噪聲能量估計(jì)的快慢。
6.如權(quán)利要求2所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其特征為算法第二步中,其中α=A+[B*(SN^R-C)]2N1+[B*(SN^R-C)]2N]]>公式中β=[B*(SN^R-C)]2N>0,]]>調(diào)整β的取值可以改變?cè)肼暩孪禂?shù)α的取值;選擇不同B、C、N,可以獲得不同的β計(jì)算公式,稱(chēng)B為擴(kuò)展系數(shù),C為信噪比偏移,N為更新階數(shù)。
7.如權(quán)利要求2所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其特征為算法第二步中,其中每個(gè)美子帶內(nèi)噪聲能量公式的NSi(k)表示受噪聲破壞的語(yǔ)音第I幀美子帶特征的第k個(gè)分量,即對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的受噪聲破壞語(yǔ)音的能量; 表示噪聲第I幀美子帶特征的第k個(gè)分量的估計(jì),即對(duì)應(yīng)第k個(gè)美三角子帶內(nèi)的噪聲能量估計(jì)。
8.如權(quán)利要求1所述的非線(xiàn)性譜減缺失分量估計(jì)方法,其特征為在非平穩(wěn)Babble噪聲環(huán)境下,非線(xiàn)性譜減缺失分量估計(jì)方法明顯降低了缺失分量估計(jì)誤差;在語(yǔ)音段,語(yǔ)音美子帶特征矢量更接近原始純凈語(yǔ)音特征矢量;在靜音段,有效的去除了基于譜減法的缺失分量估計(jì)方法引起的“偽語(yǔ)音”特征矢量;在平穩(wěn)高斯白噪聲環(huán)境下,非線(xiàn)性譜減缺失分量估計(jì)方法的性能和基于譜減法的缺失分量估計(jì)算法的性能接近。
全文摘要
一種根據(jù)局部信噪比,估計(jì)受噪聲掩蔽的語(yǔ)音子帶特征分量的方法。其特征為通過(guò)調(diào)整參數(shù)A、B、C、N,使在信噪比較大的語(yǔ)音段,噪聲更新系數(shù)α取較大值,噪聲子帶特征矢量的估計(jì)更新較慢;在信噪比較低的靜音段,噪聲更新系數(shù)α取較小值,噪聲子帶特征矢量的估計(jì)更新較快。在信噪較高的情況下,無(wú)論是非平穩(wěn)噪聲還是平穩(wěn)噪聲,非線(xiàn)性譜減缺失分量估計(jì)方法都具有良好性能。
文檔編號(hào)G10L15/00GK1514431SQ0312749
公開(kāi)日2004年7月21日 申請(qǐng)日期2003年8月8日 優(yōu)先權(quán)日2003年8月8日
發(fā)明者杜利民, 羅宇 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所