專利名稱:基于稀疏分解與重構(gòu)的魯棒語音特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及稀疏分解與重構(gòu)的語音特征提取方法。
背景技術(shù):
讓機器能像人一樣感知和理解語音一直是人類的夢想,語音識別為這一夢想帶來了希望。經(jīng)過幾十年發(fā)展,語音識別技術(shù)取得了巨大成就,從最初的孤立詞識別到如今的大詞表連續(xù)語音識別(Large Vocabulary Continue Speech Recognition,LVCSR),語音識別技術(shù)已經(jīng)邁出實驗室并逐步走向應(yīng)用。在理想環(huán)境下,目前的小詞表以及中等詞表識別系統(tǒng)的識別率能達(dá)到99%以上,LVCSR系統(tǒng)識別率也能超過95%,但在噪聲情況下,識別率將急劇下降。數(shù)十年來,研究者們嘗試用各種方法來增強語音識別系統(tǒng)的魯棒性,雖取得了一定進展,但目前的語音識別系統(tǒng)仍然難以適應(yīng)復(fù)雜的應(yīng)用環(huán)境。噪聲在現(xiàn)實應(yīng)用中廣泛存在,這些種噪聲可能是加性的,可能是卷積性的,也可能是兩者的混合。一般認(rèn)為,外部環(huán)境噪聲呈加性,信道影響呈卷積性。特別地,當(dāng)訓(xùn)練環(huán)境沒有噪聲而測試環(huán)境存在噪聲,或者訓(xùn)練環(huán)境和測試環(huán)境存在不同的噪聲,將會引起環(huán)境失配。環(huán)境失配必然導(dǎo)致語音特征參數(shù)的分布存在偏差進而影響系統(tǒng)性能。為了增強語音識別系統(tǒng)的環(huán)境魯棒性,研究者們提出了大量的方法。這些方法大致可分為兩類,即特征增強和模型補償。特征增強試圖從畸變語音中提取魯棒特征。這類方法或先對信號去噪然后提取特征,例如譜減,維納濾波,卡爾曼濾波,子空間法等,或直接補償特征,例如倒譜均值方差規(guī)正(C印stral Mean Normalization,CMN),特征彎折,短時高斯化,相關(guān)譜濾波(RelAtive SpecTrAl,RASTA),非線性濾波等。模型補償則試圖修改聲學(xué)模型來適應(yīng)環(huán)境,典型的有并行混合模型(Parallel Model Combination,PMC),泰勒級數(shù)展開(Vector Taylor Series,VTS)以及各種自適應(yīng)方法如最大似然線性回歸(Maximum Likelihood Linear Regression,MLLR),最大后驗概率(Maxi-mum A-Posteriori,MAP)等。雖然研究者們提出了各種方法試圖解決語音識別系統(tǒng)的噪聲魯棒性問題,但其效果仍然無法滿足現(xiàn)實應(yīng)用需求。一方面,應(yīng)用環(huán)境復(fù)雜多變,存在著各種難以預(yù)測的時變噪聲;另一方面,目前的方法普遍基于噪聲的平穩(wěn)性假設(shè),且需要對噪聲建模以實現(xiàn)噪聲譜的估計。這決定了目前的方法在噪聲平穩(wěn)時能取得較好的效果,在復(fù)雜的時變噪聲情況下無法取得理想的效果。近年來,隨著稀疏分解與重構(gòu)理論的成熟,信號的稀疏表示在信號處理各個領(lǐng)域展示出了巨大的潛力。信號滿足稀疏性是指信號被分解在某個原子字典上時,僅有少量原子的系數(shù)不為零。現(xiàn)實中的大量信號,諸如圖像,語音等都滿足稀疏性或近似稀疏。另一方面,從人的認(rèn)知角度上看,大量研究表明,人的感知神經(jīng)系統(tǒng)總是從海量的神經(jīng)元中,同時激活極少一部分以實現(xiàn)對外部刺激的編碼。也就是說,人在感知外部刺激獲取信息時,也遵從稀疏性原則。信號的稀疏表示在信號壓縮、分析、去噪等各個方面均表現(xiàn)出了巨大的潛力。信號的稀疏分解與重構(gòu)存在的問題CN 102290047 A
說明書
2/8頁1、原子字典的選取目前的各種方法大多需要反復(fù)迭代,具有較高的時間復(fù)雜度, 而且難以滿足信號投影后稀疏;2、信號的稀疏分解目前的稀疏分解方法滿足的準(zhǔn)則有稀疏性和重構(gòu)誤差最小準(zhǔn)則,考慮語音信號和噪聲信號的時間相關(guān)性的較少;3、信號的重構(gòu)目前的方法大多數(shù)等概率地考慮原子的貢獻,忽略了原子的先驗概率以及各個原子相互轉(zhuǎn)換的概率。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有1、原子字典的選取具有較高的時間復(fù)雜度,而且難以滿足信號投影后稀疏;2、信號的稀疏分解考慮語音信號和噪聲信號的時間相關(guān)性的較少;3、信號的重構(gòu)忽略了原子的先驗概率以及各個原子相互轉(zhuǎn)換的概率的問題,提供一種基于稀疏分解與重構(gòu)的魯棒語音特征提取方法。基于稀疏分解與重構(gòu)的魯棒語音特征提取方法,它包括具體步驟如下步驟一、預(yù)處理,將讀入的語音進行分幀、加窗,使語音從時間序列轉(zhuǎn)變?yōu)閹蛄校?步驟二、作離散傅立葉變換,并求功率譜
權(quán)利要求
1.基于稀疏分解與重構(gòu)的魯棒語音特征提取方法,其特征是它包括具體步驟如下步驟一、預(yù)處理,將讀入的語音進行分幀、加窗,使語音從時間序列轉(zhuǎn)變?yōu)閹蛄?;步驟二、作離散傅立葉變換,并求功率譜:
2.根據(jù)權(quán)利要求1所述基于稀疏分解與重構(gòu)的魯棒語音特征提取方法,其特征在于步驟一的輸入的是語音的離散時間信號,預(yù)處理時,采用漢明窗
3.根據(jù)權(quán)利要求2所述基于稀疏分解與重構(gòu)的魯棒語音特征提取方法,其特征在于步驟三的具體過程是在滿足重構(gòu)訓(xùn)練樣本誤差最小的情況下從訓(xùn)練語音幀中選取具有代表性的幀作為原子;對于噪聲原子,考慮動態(tài)更新,以追蹤時變噪聲的影響,提出算法I 算法I輸入訓(xùn)練語音巾貞/,/2,.../r(功率譜); 輸出原子字典Φ(具有代表性樣本集合> 初始化Φ = [ ], threshold = 1.2 for 每幀/J = I,...,Γ
4.根據(jù)權(quán)利要求3所述基于稀疏分解與重構(gòu)的魯棒語音特征提取方法,其特征在于步驟四的具體過程是對混噪語音幀的稀疏分解,就是混噪語音在冗余字典上的稀疏表示; 語音分量被表示在語音原子上,噪聲分量被表示在噪聲原子上;在重構(gòu)時,將所有噪聲分量上的系數(shù)置為0,僅保留語音聲量上的非零系數(shù);推導(dǎo)這一原理假定有語音原子0X=
和噪聲原子Φν=
組成原子字典Φ =[Φ3Φν];混噪語音1 = s+v,其中s為清晰語音,ν為噪聲;混噪語音在冗余字典上的分解
5.根據(jù)權(quán)利要求3所述基于稀疏分解與重構(gòu)的魯棒語音特征提取方法,其特征在于步驟五的具體過程是對于步驟三訓(xùn)練的原子字典,統(tǒng)計各個原子被使用到的次數(shù),累加起來除以語音幀總數(shù)作為對應(yīng)原子的先驗概率;對原子之間的轉(zhuǎn)移概率也做相同的統(tǒng)計,建立原子轉(zhuǎn)移矩陣;重構(gòu)時利用貝葉斯公式,在滿足最大后驗概率的準(zhǔn)則下重構(gòu)清晰語音幀的頻譜。
全文摘要
基于稀疏分解與重構(gòu)的魯棒語音特征提取方法,涉及稀疏分解與重構(gòu)的語音特征提取方法,解決了1、原子字典的選取具有較高的時間復(fù)雜度,而且難以滿足信號投影后稀疏;2、信號的稀疏分解考慮語音信號和噪聲信號的時間相關(guān)性的較少;3、信號的重構(gòu)忽略了原子的先驗概率以及各個原子相互轉(zhuǎn)換的概率的問題,它包括具體步驟如下步驟一、預(yù)處理;步驟二、作離散傅立葉變換,并求功率譜;步驟三、原子字典訓(xùn)練,保存;步驟四、稀疏分解;步驟五、語音譜重構(gòu);步驟六、加梅爾三角濾波器并取對數(shù);步驟七、得到梅爾倒譜系數(shù)與梅爾倒譜稀疏拼接,形成魯棒特征。用于多媒體信息處理領(lǐng)域。
文檔編號G10L15/02GK102290047SQ201110283908
公開日2011年12月21日 申請日期2011年9月22日 優(yōu)先權(quán)日2011年9月22日
發(fā)明者何勇軍, 韓紀(jì)慶 申請人:哈爾濱工業(yè)大學(xué)