一種環(huán)境自適應(yīng)的語音混響消除方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及語音混響消除領(lǐng)域技術(shù),尤其是指一種環(huán)境自適應(yīng)的語音混響消除方 法和系統(tǒng)。
【背景技術(shù)】
[0002] 在室內(nèi)采集語音信號時,若聲源與采集的麥克風(fēng)距離較遠(yuǎn),就會有混響。過大的混 響會嚴(yán)重影響語音的清晰度和可懂度。在語音識別和說話人識別系統(tǒng)中,混響的出現(xiàn)將會 使訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)不匹配影響系統(tǒng)的性能,嚴(yán)重時還可能導(dǎo)致系統(tǒng)無法正常工作。此 時,一種有效的混響的消除方法就變得極其重要了。常用的混響消除算法大多是從語音中 估計出混響分量,然后進(jìn)行混響消除,然而運在實際中是很困難的。
[0003] 文獻(xiàn)[K丄ebart,2001 ]使用Po lack混響統(tǒng)計模型的單麥克風(fēng)混響消除系統(tǒng)。該混 響消除系統(tǒng)根據(jù)混響時間來構(gòu)造化lack混響統(tǒng)計模型,利用化lack混響統(tǒng)計模型估計出后 期混響功率譜,最后采用譜減法去除后期混響,達(dá)到語音增強的效果。由于該技術(shù)要求已知 混響時間先估計出后期混響后采用譜減法求解出沒受污染部分的分量,實現(xiàn)混響消除。然 而實際應(yīng)用中很難直接得到準(zhǔn)確的混響時間,運導(dǎo)致采用譜減法去除后期混響時常會引入 一些人工噪聲。在過估計時,會產(chǎn)生音樂噪聲;欠估計時會有噪聲殘留。
[0004] 文獻(xiàn)[Marc Delcroix,2014]提供了WPE(Weighted Prediction lirror)算法的混 響消除方法。該方法采用線性濾波的方法進(jìn)行混響消除。首先對語音進(jìn)行短時傅里葉變換 (Sho;rt-time Fourier Transform,STFT);然后在頻域通過迭代估計出一組最優(yōu)的線性濾 波器的參數(shù);最后采用線性濾波器對STFT系數(shù)進(jìn)行濾波,得到語音中消除混響后的STFT系 數(shù)估計,實現(xiàn)對混響的消除。該算法在進(jìn)行迭代估計時需要進(jìn)行較多的運算,并且濾波器的 長度需要人為設(shè)定。實際應(yīng)用環(huán)境中,混響的影響并不是固定的,采用固定的濾波器長度將 很難實現(xiàn)在不同環(huán)境下的穩(wěn)定工作。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明針對現(xiàn)有技術(shù)存在之缺失,其主要目的是提供一種環(huán)境自適應(yīng) 的語音混響消除方法和系統(tǒng),其能夠?qū)Υ蠖鄶?shù)的室內(nèi)環(huán)境下的語音混響進(jìn)行消除,并且能 夠迅速的適應(yīng)室內(nèi)環(huán)境的變化,實現(xiàn)對室內(nèi)混響環(huán)境的自適應(yīng)。
[0006] 為實現(xiàn)上述目的,本發(fā)明采用如下之技術(shù)方案:
[0007] -種環(huán)境自適應(yīng)的語音混響消除方法,包括有W下步驟:
[000引步驟100:使用混響模型訓(xùn)練裝置訓(xùn)練混響模型,并且將訓(xùn)練得到的混響模型存儲 于音頻處理裝置的第二存儲器中;
[0009] 步驟200 :采用RT60獲取裝置獲取當(dāng)前環(huán)境下的RT60值,并且發(fā)送給音頻處理裝 置;
[0010] 步驟300:輸入獲取到的數(shù)字語音信號;
[0011] 步驟400:使用音頻處理裝置中的第二特征提取模塊提取輸入語音的MFCC,具體步 驟與混響模型訓(xùn)練裝置中的特征提取一致;
[0012]步驟500:將原始的特征經(jīng)過前5帖后4帖的擴(kuò)展,形成320維數(shù)據(jù),再將320維數(shù)據(jù) 的每一維進(jìn)行均值方差歸一化處理;
[0013] 步驟600:根據(jù)獲取到的RT60值,讀取第一存儲器里對應(yīng)的混響模型;
[0014] 步驟700:根據(jù)輸入的歸一化MFCC特征及混響模型,通過混響模型的參數(shù)對輸入的 語音特征進(jìn)行映射得到混響消除后的語音特征,也就是將提取的歸一化MFCC特征作為輸 入,根據(jù)混響模型的參數(shù)得到不帶混響的語音特征;
[0015] 步驟800:輸出混響消除后的語音特征,該輸出可作為魯棒性語音特征供語音識別 或說話人識別使用。
[0016] 作為一種優(yōu)選方案,所述步驟100中包括有W下步驟:
[0017] 步驟101:整理語料,混響語音采用在安靜語音的基礎(chǔ)上卷積加入房間脈沖響應(yīng)獲 得;
[0018] 步驟102:按所在的混響時間區(qū)間分別使用第一特征提取模塊提取帶混響的語音 及安靜語音的MFCC;
[0019] 步驟103:將原始的特征經(jīng)過前5帖后4帖的擴(kuò)展,形成320維數(shù)據(jù),再將320維數(shù)據(jù) 的每一維進(jìn)行均值方差歸一化處理;
[0020] 步驟104:構(gòu)建編碼器,編碼器的形式采用DAE的形式,使用RBM堆疊的方式構(gòu)建深 度置信網(wǎng)絡(luò);
[0021 ]步驟105:訓(xùn)練編碼器,分別訓(xùn)練各個混響時間區(qū)間內(nèi)的語音特征,并得到對應(yīng)的 混響模型;
[0022] 步驟106:將第二存儲器中的所有混響模型及對應(yīng)的一些參數(shù)存儲到音頻處理裝 置中的第二存儲器里。
[0023] 作為一種優(yōu)選方案,所述步驟200中包括有W下步驟:
[0024] 步驟201:使用RT60獲取模塊獲取當(dāng)前時刻的RT60估計值;
[0025] 步驟202:使用存儲器存儲RT60獲取模塊測得的RT60值;
[0026] 步驟203:使用算數(shù)平均模塊,估計出當(dāng)前時刻的RT60"真值";
[0027] 步驟204:采用第一無線接口向音頻處理裝置發(fā)送RT60的"真值"。
[00%] -種環(huán)境自適應(yīng)的語音混響消除系統(tǒng),包括有混響模型訓(xùn)練裝置、RT60獲取裝置 W及音頻處理裝置;該混響模型訓(xùn)練裝置包括有第一特征提取模塊、編碼模塊和模型存儲 器,該第一特征提取模塊連接編碼模塊,該編碼模塊連接模型存儲器;該RT60獲取裝置包括 有RT60獲取模塊、第一存儲器、算數(shù)平均模塊和第一無線接口,該RT60獲取模塊連接第一存 儲器,該第一存儲器連接算數(shù)平均模塊,該算數(shù)平均模塊連接第一無線接口;該音頻處理裝 置包括有第二特征提取模塊、解碼模塊、第二無線接口和第二存儲器,該第二特征提取模塊 連接解碼模塊,該第二無線接口連接第二存儲器,該第二存儲器連接解碼模塊,前述第一無 線接口無線連接第二無線接口,前述模型存儲器連接第二存儲器。
[0029] 本發(fā)明與現(xiàn)有技術(shù)相比具有明顯的優(yōu)點和有益效果,具體而言,由上述技術(shù)方案 可知:
[0030] 首先,考慮到RT60值的大小可W近似表征房間的混響量的大小及特殊的室內(nèi)應(yīng)用 環(huán)境(RT60的值會在一個較小的范圍內(nèi)),本發(fā)明中將RT60值按大小分成多個區(qū)間,使用區(qū) 間內(nèi)的語音特征來訓(xùn)練混響模型,使得數(shù)據(jù)訓(xùn)練的更加充分,混響模型更有針對性;其次, 通過結(jié)合當(dāng)前環(huán)境的RT60值所在區(qū)間和使用對應(yīng)區(qū)間的混響模型進(jìn)行解碼的方法實現(xiàn)了 對不同房間環(huán)境的自適應(yīng);再者,由于采用深度網(wǎng)絡(luò)訓(xùn)練模型,在實際應(yīng)用時就不需要估計 混響分量,直接根據(jù)模型參數(shù)進(jìn)行解碼即可得到混響消除后的語音特征,減少了計算量。
[0031] 為更清楚地闡述本發(fā)明的結(jié)構(gòu)特征和功效,下面結(jié)合附圖與具體實施例來對本發(fā) 明進(jìn)行詳細(xì)說明。
【附圖說明】
[0032] 圖1是本發(fā)明之較佳實施例的系統(tǒng)框圖;
[0033] 圖2是本發(fā)明之較佳實施例中RBM的結(jié)構(gòu)示意圖;
[0034] 圖3是本發(fā)明之較佳實施例中降噪自動編碼器的結(jié)構(gòu)示意圖;
[0035] 圖4是本發(fā)明之較佳實施例中采用的網(wǎng)絡(luò)結(jié)構(gòu)圖;
[0036] 圖5是本發(fā)明之較佳實施例中混響模型預(yù)訓(xùn)練和微調(diào)過程示意圖;
[0037] 圖6是本發(fā)明之較佳實施例原理流程圖;
[0038] 圖7是本發(fā)明之較佳實施例混響模型訓(xùn)練和RT60獲取流程圖。
[0039] 附圖標(biāo)識說明:
[0040] 10、混響模型訓(xùn)練裝置 11、第一特征提取模塊
[0041] 12、編碼模塊 13、模型存儲器
[0042] 20、RT60獲取裝置 2URT60獲取模塊
[0043] 22、第一存儲器 23、算術(shù)平均模塊
[0044] 24、第一無線接口 30、音頻處理裝置
[0045] 31、第二特征提取模塊 32、解碼模塊
[0046] 33、第二無線接口 34、第二存儲器
【具體實施方式】
[0047] 本發(fā)明公開一種環(huán)境自適應(yīng)的語音混響消除系統(tǒng),該系統(tǒng)主要包括有混響模型訓(xùn) 練裝