專利名稱:語音識別的概率加權(quán)平均缺失特征數(shù)據(jù)重建方法
技術(shù)領(lǐng)域:
本發(fā)明方法涉及到計(jì)算機(jī)技術(shù)應(yīng)用技術(shù),特別是語音識別技術(shù)中根據(jù)未受噪聲掩蔽的語音特征,利用概率加權(quán)平均估計(jì)受噪聲破壞的語音特征的技術(shù)。
背景技術(shù):
噪聲魯棒性問題是語音識別技術(shù)目前面臨的主要挑戰(zhàn)之一,深入研究基于數(shù)據(jù)重建的語音識別魯棒性技術(shù),具有重要的理論意義和廣泛應(yīng)用價(jià)值。
當(dāng)兩個(gè)響度不等的聲音作用于人耳時(shí),響度較高的頻率成分的存在會(huì)影響到對響度較低的頻率成分的感知,使其變得不易察覺,這種現(xiàn)象稱為掩蔽效應(yīng)[吳宗濟(jì)、林茂燦,1989]。根據(jù)人耳掩蔽效應(yīng),人們提出了數(shù)據(jù)重建方法。數(shù)據(jù)重建方法認(rèn)為噪聲和語音在時(shí)間~頻率域上不同區(qū)域具有不同局部信噪比,并進(jìn)行缺失分量估計(jì),即把局部信噪比較低的區(qū)域標(biāo)記為“缺失矢量”,而局部信噪比較高的區(qū)域標(biāo)記為“可靠矢量”,然后重建“缺失矢量”,得到完整矢量后進(jìn)行語音識別。
20世紀(jì)90年代后期以來,根據(jù)“可靠矢量”重建“缺失矢量”的技術(shù)受到很多研究人員的關(guān)注。傳統(tǒng)的數(shù)據(jù)重建方法假設(shè)語音的特征矢量可以用N個(gè)高斯模型的碼書進(jìn)行單碼字量化,并根據(jù)高斯模型集的參數(shù)分布,重建“缺失矢量”。國內(nèi)外相關(guān)的工作很多,典型技術(shù)流程可以總結(jié)如下首先,根據(jù)“可靠矢量”估計(jì)語音特征矢量在高斯模型集中所屬的高斯模型;其次,根據(jù)語音特征矢量高斯模型參數(shù)分布,基于最大后驗(yàn)概率準(zhǔn)則估計(jì)“缺失矢量”,完成數(shù)據(jù)重建;基于高斯模型集的美子帶特征重建算法在重建出完整語音特征矢量的同時(shí),也引入了多種重建誤差。引起特征矢量重建誤差的主要來源有1)根據(jù)“可靠矢量”,估計(jì)語音特征矢量在高斯模型集中所屬的高斯模型時(shí),出現(xiàn)歸類錯(cuò)誤;2)語音特征矢量分布不符合標(biāo)準(zhǔn)單高斯分布;能量較低,持續(xù)時(shí)間短的音子容易被噪聲破壞,因此更多的語音成分都具有較低的信噪比,被標(biāo)記為“缺失矢量”,使歸類錯(cuò)誤大大增加。同樣,當(dāng)語音特征矢量分布不符合標(biāo)準(zhǔn)單高斯分布,利用高斯模型參數(shù)進(jìn)行數(shù)據(jù)重建必然會(huì)引入一定的重建誤差。
發(fā)明內(nèi)容
本發(fā)明的目的是為了改善數(shù)據(jù)重建效果,降低估計(jì)誤差,提出了基于概率加權(quán)平均的數(shù)據(jù)重建算法。
該算法假設(shè)純凈語音的美子帶特征矢量可以用N個(gè)高斯模型的碼書進(jìn)行多碼字量化,即把特征S所屬高斯模型候選范圍從1個(gè)擴(kuò)大到K個(gè),并根據(jù)候選高斯模型產(chǎn)生“可靠矢量”的概率,對K個(gè)重建特征進(jìn)行加權(quán)平均,得到“缺失矢量”的估計(jì)。候選模型數(shù)K可以根據(jù)實(shí)際應(yīng)用的要求進(jìn)行選擇,使基于概率加權(quán)平均的數(shù)據(jù)重建算法在不同應(yīng)用環(huán)境取得較好的綜合性能。
數(shù)學(xué)模型中心極限定理說明,如果一個(gè)隨機(jī)變量是由大量相互獨(dú)立的隨機(jī)因素的綜合影響所形成,而且每個(gè)因素在總的影響中所起的作用都很微小的情況下,隨機(jī)變量的分布往往近似的服從高斯分布(正態(tài)分布)。因此,高斯模型是最常用的概率分布模型,得到了廣泛的應(yīng)用。
基于高斯模型集的數(shù)據(jù)重建算法選擇具有完整協(xié)方差矩陣的高斯模型集合來描述語音特征矢量的分布,并假設(shè)所有漢語純凈語音特征矢量都來自N個(gè)高斯模型構(gòu)成的高斯模型集。
對于純凈語音特征矢量S,高斯模型的概率密度函數(shù)為PMj(S)=exp{-12(s-μj)iθj-1(s-μj)}(2π)π2|θj|12---(1)]]>
其中,μj,θj是第j個(gè)高斯模型的均值矢量和協(xié)方差矩陣(1≤j≤N),n是語音特征矢量維數(shù),N是高斯模型集中高斯模型數(shù)目。
算法描述經(jīng)過缺失分量估計(jì),語音特征矢量S分為兩個(gè)矢量“缺失矢量”Sm和“可靠矢量”So,表示為S=[SoSm],基于概率加權(quán)平均的語音數(shù)據(jù)重建算法按照如下步驟完成語音特征數(shù)據(jù)重建過程1)候選高斯模型估計(jì)首先,根據(jù)So估計(jì)語音特征矢量S在高斯模型集中產(chǎn)生概率最大的K個(gè)高斯模型,表示為[jk*] 其中,argmaxk()表示求集合中概率最大的K個(gè)候選模型的操作,P(Mj)是出現(xiàn)第j個(gè)高斯模型的先驗(yàn)概率;PMj(So)表示模型Mj產(chǎn)生語音特征“可靠矢量”So的概率,即是第j個(gè)高斯模型對“可靠矢量”So的邊緣化概率PMj(So)=∫PMj(S)dSm=∫PMj(SmSo)dSm---(3)]]>語音特征矢量S的概率分布為高斯分布,對其的任何的子矢量邊緣化后,其概率分布仍為高斯分布。得到簡化的邊緣化概率計(jì)算公式PMj(So)=exp{-12(So-μjo)iθjoo-1(So-μjo)}(2π)nπo2|θjoo|12---(4)]]>其中,μjo表示第j個(gè)高斯模型中“可靠矢量”所對應(yīng)的均值矢量;
θjoo表示第j個(gè)高斯模型中“可靠矢量”所對應(yīng)的協(xié)方差矩陣;no表示“可靠矢量”的維數(shù)。
2)分別重建“缺失矢量”根據(jù)K個(gè)高斯模型[jk*]中每個(gè)高斯模型參數(shù),按照如下公式分別重建“缺失矢量”S^km=μjk*m+θjk*moθjk*oo-1(So-μjk*o)---(5)]]>重建得到的K個(gè)特征矢量表示為 3)計(jì)算K個(gè)重建特征矢量 的概率加權(quán)重建系數(shù)αk=P(MkSo)Σk∈[jk*]P(MkSo)---(6)]]>K個(gè)概率加權(quán)重建系數(shù)表示為[αk]。
4)概率加權(quán)平均根據(jù)概率加權(quán)系數(shù)[αk]對重建特征矢量 進(jìn)行加權(quán)平均,加權(quán)平均得到的均值矢量作為缺失特征矢量的估計(jì)S^m=Σk=1K(αk×S^km)---(7)]]>最后,得到重建后的完整矢量S^=[SoS^m].]]>候選模型K的選擇基于概率加權(quán)平均的語音數(shù)據(jù)重建算法擴(kuò)大了候選模型的范圍,降低了因?yàn)槟P驼`判引起的錯(cuò)誤,減輕了模型分布不符合高斯分布的影響,語音特征幀間連續(xù)性較好。另一方面,擴(kuò)大候選模型范圍,導(dǎo)致語音特征重建運(yùn)算量增加,不利于該算法的實(shí)時(shí)實(shí)現(xiàn)。
圖1給出了受高斯白噪聲破壞的語音經(jīng)過理想缺失分量估計(jì)后,調(diào)整候選模型數(shù)K的范圍,進(jìn)行基于概率加權(quán)平均的數(shù)據(jù)重建實(shí)驗(yàn)的結(jié)果。在其他條件完全一致的情況下,給出了候選模型數(shù)K對系統(tǒng)性能的影響。
隨著候選模型數(shù)K的增加,語音識別系統(tǒng)性能逐步提高。說明增加候選模型數(shù)K降低了重建誤差,提高了美子帶特征的連續(xù)性,從而提高了識別系統(tǒng)的性能。但是隨著候選模型數(shù)K的增加,語音識別系統(tǒng)的音節(jié)正確率和音節(jié)準(zhǔn)確率逐步的提高幅度逐漸變緩。另一方面,隨著候選模型數(shù)K的增加,語音特征重建運(yùn)算量也線性增加,不利于該算法的實(shí)時(shí)實(shí)現(xiàn)。因此,候選模型數(shù)K可以根據(jù)實(shí)際應(yīng)用的要求進(jìn)行選擇,使基于概率加權(quán)平均的數(shù)據(jù)重建算法在不同應(yīng)用環(huán)境取得較好的綜合性能。
本發(fā)明方法能顯著提高語音識別系統(tǒng)對噪聲的魯棒性能。
圖1候選模型數(shù)K對語音識別系統(tǒng)的影響(高斯模型數(shù)N=256);圖2含噪語音的缺失分量估計(jì);圖3含噪語音經(jīng)過理想缺失分量估計(jì)、基于概率加權(quán)平均的數(shù)據(jù)重建實(shí)驗(yàn)結(jié)果。
具體實(shí)施例方式
人耳對聲音的感知具有明顯的非線性特性,在語音特征中融入一些反映人耳聽覺特性的因素能夠顯著提高語音識別系統(tǒng)的性能,考慮到聽覺系統(tǒng)的臨界帶效應(yīng),通常選用在美頻率域上均勻分布的三角濾波器組對語音特征矢量進(jìn)行子帶特征分析,在語音識別技術(shù)中得到了廣泛的應(yīng)用。下面,將以語音美(Mel)子帶特征矢量的數(shù)據(jù)重建為例來說明基于概率加權(quán)平均的數(shù)據(jù)重建算法。
經(jīng)過缺失分量估計(jì),語音特征S分為兩個(gè)矢量“缺失矢量”Sm和“可靠矢量”So,圖2給出了對含噪語音(高斯白噪聲、Babble噪聲,SNR=15dB)的缺失分量估計(jì)結(jié)果。
如圖2所示,含噪語音的缺失分量估計(jì),缺失分量估計(jì)結(jié)果圖中空白部分表示該部分語音受到噪聲的嚴(yán)重破壞,屬于“缺失矢量”,保留下來的是未受噪聲嚴(yán)重破壞的“可靠矢量”。(A)列是對受Babble噪聲破壞的語音進(jìn)行理想缺失分量估計(jì)的結(jié)果,(B)列是對受高斯白噪聲破壞的語音進(jìn)行理想缺失分量估計(jì)的結(jié)果(圖中的漢語語音是“談到汽車定點(diǎn)(tan2 dao4 qi4 che1 ding4 dian3)”)從圖2可以看出,噪聲破壞了純凈語音特征矢量的形態(tài)和分布,由于噪聲特性和強(qiáng)度的不同,不同的噪聲對語音特征的破壞作用也不同。
缺失分量估計(jì)完成后,根據(jù)“可靠矢量”和高斯模型集分布,按基于概率加權(quán)平均的數(shù)據(jù)重建算法重建出完整特征矢量,如圖3所示,含噪語音經(jīng)過理想缺失分量估計(jì)、基于概率加權(quán)平均的數(shù)據(jù)重建實(shí)驗(yàn)結(jié)果,(A)列是對受Babble噪聲破壞的語音進(jìn)行數(shù)據(jù)重建的結(jié)果,(B)列是對受高斯白噪聲破壞的語音進(jìn)行數(shù)據(jù)重建的結(jié)果(圖中的漢語語音是“談到汽車定點(diǎn)(tan2 dao4 qi4 che1 ding4 dian3)”)從圖3可以看出,基于概率加權(quán)平均的缺失特征數(shù)據(jù)重建算法能夠重建出受高斯白噪聲破壞的美子帶特征,重建后的美子帶特征較好的重現(xiàn)了原始純凈語音段美子帶特征的形態(tài)和分布,因此能夠提高語音識別系統(tǒng)的噪聲魯棒性能。
權(quán)利要求
1.一種語音識別的基于概率加權(quán)平均的數(shù)據(jù)重建方法,其特征在于,把語音特征矢量所屬高斯模型候選范圍從1個(gè)擴(kuò)大到K個(gè),并根據(jù)候選高斯模型產(chǎn)生“可靠矢量”的概率,對K個(gè)重建特征進(jìn)行加權(quán)平均,得到“缺失矢量”的估計(jì)。
2.如權(quán)利要求1所述的數(shù)據(jù)重建方法,其特征在于,所述語音特征矢量分布可以用多個(gè)標(biāo)準(zhǔn)單高斯分布概率加權(quán)平均的方式表示。
3.如權(quán)利要求1所述的數(shù)據(jù)重建方法,其特征在于,所述候選模型數(shù)K可以根據(jù)實(shí)際要求進(jìn)行選擇,使基于概率加權(quán)平均的數(shù)據(jù)重建方法在不同應(yīng)用環(huán)境取得較好的綜合性能。
4.如權(quán)利要求1所述的數(shù)據(jù)重建方法,其特征在于,重建算法按照如下步驟完成語音特征數(shù)據(jù)重建過程第一步,候選高斯模型估計(jì)首先,根據(jù)So估計(jì)語音特征S在高斯模型集中產(chǎn)生概率最大的K個(gè)高斯模型,表示為[jk*] 其中,argmaxk()表示求集合中概率最大的K個(gè)候選模型的操作,P(Mj)是出現(xiàn)第j個(gè)高斯模型的先驗(yàn)概率;PMj(So)表示模型Mj產(chǎn)生語音特征“可靠矢量”So的概率,即是第j個(gè)高斯模型對“可靠矢量”So的邊緣化概率PMj(So)=exp{-12(So-μjo)tθjoo-1(So-μjo)}(2π)no2|θjoo|12]]>其中,μjo表示第j個(gè)高斯模型中“可靠矢量”所對應(yīng)的均值矢量;θjoo表示第j個(gè)高斯模型中“可靠矢量”所對應(yīng)的協(xié)方差矩陣;no表示“可靠矢量”的維數(shù)。第二步,分別重建“缺失矢量”根據(jù)K個(gè)高斯模型[jk*]中每個(gè)高斯模型參數(shù),按照如下公式分別重建“缺失矢量”S^km=μjk*m+θjk*moθjk*oo-1(So-μjk*o)]]>重建得到的K個(gè)特征矢量表示為 第三步,計(jì)算K個(gè)重建特征矢量 的概率加權(quán)重建系數(shù)αk=P(MkSo)Σk∈[jk*]P(MkSo)]]>K個(gè)概率加權(quán)重建系數(shù)表示為[αk]。第四步,概率加權(quán)平均根據(jù)概率加權(quán)系數(shù)[αk]對重建特征矢量 進(jìn)行加權(quán)平均,加權(quán)平均得到的均值矢量作為缺失特征矢量的估計(jì)S^m=Σk=1K(αk×S^km)]]>第五步,得到重建后的完整矢量S^=[SoS^m].]]>
全文摘要
本發(fā)明方法涉及到計(jì)算機(jī)技術(shù)應(yīng)用技術(shù),特別是語音識別技術(shù)中根據(jù)未受噪聲掩蔽的語音特征,利用概率加權(quán)平均估計(jì)受噪聲破壞的語音特征的技術(shù)。語音識別的基于概率加權(quán)平均的語音數(shù)據(jù)重建算法把語音特征矢量S在高斯模型集中所屬的高斯模型候選范圍從1個(gè)擴(kuò)大到K個(gè),并根據(jù)候選高斯模型產(chǎn)生“可靠矢量”的概率,對K個(gè)重建特征進(jìn)行加權(quán)平均,得到“缺失矢量”的估計(jì)。本發(fā)明方法降低了因?yàn)槟P驼`判引起的錯(cuò)誤,減輕了模型分布不符合高斯分布的影響,從而更好的重建出完整的語音特征矢量,提高了語音識別系統(tǒng)的噪聲魯棒性能。候選模型數(shù)K可以根據(jù)實(shí)際應(yīng)用的要求進(jìn)行選擇,使基于概率加權(quán)平均的數(shù)據(jù)重建算法在不同應(yīng)用環(huán)境取得較好的綜合性能。
文檔編號G10L15/00GK1571012SQ0314725
公開日2005年1月26日 申請日期2003年7月11日 優(yōu)先權(quán)日2003年7月11日
發(fā)明者杜利民, 羅宇 申請人:中國科學(xué)院聲學(xué)研究所