統(tǒng)1還包括輸入模塊11和輸出模塊13。輸入模塊11連接到用于與將要增強(qiáng)的 語音有關(guān)的數(shù)據(jù)的輸入和用于收集與增強(qiáng)語音將要被輸出到的地方的實(shí)時(shí)噪聲條件有關(guān) 的數(shù)據(jù)的輸入。所輸入的數(shù)據(jù)的類型可采用多種形式,下文將進(jìn)行詳述。輸入15可以是允 許用戶直接輸入數(shù)據(jù)的接口。備選地,輸入可以是用于從外部存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)接收數(shù)據(jù)的 接收機(jī)。
[0064] 連接到輸出模塊13的輸出是音頻輸出17。
[0065] 在使用中,系統(tǒng)1通過數(shù)據(jù)輸入15接收數(shù)據(jù)。在處理器3上執(zhí)行的程序5以將參 照圖2-圖8描述的方式增強(qiáng)輸入的語音。
[0066] 圖2是示出了程序5所提供的處理步驟的流程圖。在一種實(shí)施例中,為了增強(qiáng)或 提高語音的易懂性,所述系統(tǒng)包括頻譜整形步驟S21和動(dòng)態(tài)范圍壓縮步驟S23。這些步驟示 于圖3中。頻譜整形步驟S21的輸出被遞送到動(dòng)態(tài)范圍壓縮步驟S23。
[0067] 步驟S21在頻域中操作,并且其目的是增加語音信號的"清脆"和"干凈"質(zhì)量,并 因此改善語音的易懂性(甚至在清晰(不嘈雜)條件中)。這可以通過銳化共振峰信息(根 據(jù)對清晰語音的觀察)和使用預(yù)加重濾波器減少頻譜傾斜(根據(jù)對Lombard語音的觀察) 來實(shí)現(xiàn)。該子系統(tǒng)的特定特性適應(yīng)于語音幀濁音化的程度。
[0068] 圖3中更為詳細(xì)地示出了步驟S21和S23。針對該目的,將所應(yīng)用的若干頻譜操作 全部組合成包含兩級的算法:
[0069] ⑴自適應(yīng)級S31(針對語音段的濁音屬性);以及
[0070] (ii)如圖4所示的固定級S33。
[0071] 在該實(shí)施例中,頻譜易懂性改善應(yīng)用于自適應(yīng)頻譜整形級S31內(nèi)。在該實(shí)施例中, 自適應(yīng)頻譜整形級包括:第一變換,其是共振峰銳化變換;和第二變換,其是頻譜傾斜變平 變換。第一和第二變換兩者都適應(yīng)于語音的濁音屬性,給定為每個(gè)語音幀的濁音化概率。這 些自適應(yīng)濾波器級用來抑制經(jīng)過處理的信號中(尤其是語音的摩擦音、沉默或其它"安靜" 區(qū)域中)的偽像(artefact)。
[0072] 給定一個(gè)語音幀,步驟S35中所確定的池音化概率被定義為:
[0073]
【主權(quán)項(xiàng)】
1. 一種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的語音易懂性增強(qiáng)系統(tǒng),該系統(tǒng)包括: 語音輸入,用于接收要增強(qiáng)的語音; 噪聲輸入,用于接收關(guān)于所述嘈雜環(huán)境的實(shí)時(shí)信息; 增強(qiáng)語音輸出,用于輸出增強(qiáng)的語音;以及 處理器,被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸出的 所述增強(qiáng)的語音, 所述處理器被配置為: 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音; 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出;以及 測量所述噪聲輸入處的信噪比; 其中所述頻譜整形濾波器包括控制參數(shù),所述動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及根據(jù) 所測量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述處理器被配置為更新所述動(dòng)態(tài)范圍壓縮的控 制參數(shù)。
3. 根據(jù)權(quán)利要求2所述的系統(tǒng),其中所述動(dòng)態(tài)范圍壓縮的控制參數(shù)用來控制將由所述 動(dòng)態(tài)范圍壓縮應(yīng)用的增益。
4. 根據(jù)權(quán)利要求3所述的系統(tǒng),其中所述動(dòng)態(tài)范圍壓縮被配置為對在所述語音輸入處 接收的語音的能量進(jìn)行重新分布,以及更新控制參數(shù)以使其隨著信噪比的增加逐漸抑制能 量的重新分布。
5. 根據(jù)權(quán)利要求3所述的系統(tǒng),其中控制參數(shù)和信噪比之間存在線性關(guān)系。
6. 根據(jù)權(quán)利要求3所述的系統(tǒng),其中控制參數(shù)和信噪比之間存在非線性關(guān)系。
7. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)還包括能量存儲(chǔ)箱,所述能量存儲(chǔ)箱是 所述系統(tǒng)中設(shè)置的存儲(chǔ)器且被配置為存儲(chǔ)在增強(qiáng)之前在所述語音輸入處接收的所述語音 的總能量,所述處理器還被配置為使用所述能量存儲(chǔ)箱將能量從語音的高能量部分重新分 布到低能量部分。
8. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述頻譜整形濾波器包括自適應(yīng)頻譜整形級和固 定頻譜整形級。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述自適應(yīng)頻譜整形級包括共振峰成形濾波器和 用于減少頻譜傾斜的濾波器。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其中第一控制參數(shù)被設(shè)置為控制所述共振峰成形濾 波器,第二控制參數(shù)被配置為控制所述用于減少頻譜傾斜的濾波器,以及根據(jù)所述信噪比 對所述第一控制參數(shù)和/或所述第二控制參數(shù)進(jìn)行更新。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其中所述第一控制參數(shù)和/或所述第二控制參數(shù)與 所述信噪比線性相關(guān)。
12. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)還被配置為與噪聲測量無關(guān)地根據(jù)所 述輸入語音來修改所述頻譜整形濾波器。
13. 根據(jù)權(quán)利要求12所述的系統(tǒng),其中所述處理器被配置為在應(yīng)用所述頻譜整形濾波 器時(shí)估計(jì)最大濁音化概率,以及所述系統(tǒng)被配置為每m秒更新所述最大濁音化概率,其中m 是從2到10的值。
14. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述系統(tǒng)還被配置為與噪聲測量無關(guān)地根據(jù)所 述輸入語音來修改所述動(dòng)態(tài)范圍壓縮。
15. 根據(jù)權(quán)利要求14所述的系統(tǒng),其中所述處理器被配置為在應(yīng)用動(dòng)態(tài)范圍壓縮時(shí)估 計(jì)在所述語音輸入處接收的語音的信號包絡(luò)的最大值,以及所述系統(tǒng)被配置為每m秒更新 輸入語音的信號包絡(luò)的最大值,其中m是從2到10的值。
16. 根據(jù)權(quán)利要求1所述的系統(tǒng),其中逐幀地估計(jì)信噪比,以及使用針對前一幀的信噪 比來更新當(dāng)前幀的參數(shù)。
17. 根據(jù)權(quán)利要求16所述的系統(tǒng),其中在具有1秒到3秒的長度的幀上測量信噪比。
18. 根據(jù)權(quán)利要求1所述的系統(tǒng),被配置為在多個(gè)位置輸出增強(qiáng)的語音,所述系統(tǒng)包括 對應(yīng)于多個(gè)位置的多個(gè)噪聲輸入,所述處理器被配置為應(yīng)用多個(gè)頻譜整形濾波器和多個(gè)相 應(yīng)的動(dòng)態(tài)范圍壓縮級,從而針對每個(gè)噪聲輸入存在頻譜整形濾波器和動(dòng)態(tài)范圍壓縮級對, 所述處理器被配置為根據(jù)從相應(yīng)的噪聲輸入測量的信噪比來更新每個(gè)頻譜整形濾波器和 動(dòng)態(tài)范圍壓縮級對的控制參數(shù)。
19. 一種用于增強(qiáng)要輸出的語音的語音易懂性增強(qiáng)系統(tǒng),該系統(tǒng)包括: 語音輸入,用于接收要增強(qiáng)的語音; 增強(qiáng)語音輸出,用于輸出增強(qiáng)的語音;以及 處理器,被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸出的 所述增強(qiáng)的語音,所述處理器被配置為: 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;以及 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出; 其中所述頻譜整形濾波器包括控制參數(shù),所述動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及根據(jù) 在所述語音輸入處接收的語音來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少 一個(gè)。
20. -種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的方法,該方法包括: 接收要增強(qiáng)的語音; 在噪聲輸入處接收關(guān)于嘈雜環(huán)境的實(shí)時(shí)信息; 將從所述語音輸入接收的語音轉(zhuǎn)換成增強(qiáng)的語音;以及 輸出所述增強(qiáng)的語音, 其中轉(zhuǎn)換所述語音包括: 測量所述噪聲輸入處的信噪比; 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;以及 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出; 其中所述頻譜整形濾波器包括控制參數(shù),所述動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及根據(jù) 所測量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
21. -種用于增強(qiáng)語音易懂性的方法,該方法包括: 接收要增強(qiáng)的語音; 將從語音輸入接收的語音轉(zhuǎn)換成增強(qiáng)的語音;以及 輸出所述增強(qiáng)的語音, 其中轉(zhuǎn)換所述語音包括: 將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;以及 將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出; 其中所述頻譜整形濾波器包括控制參數(shù),所述動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及根據(jù) 在所述語音輸入處接收的語音來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少 一個(gè)。
22. -種載體介質(zhì),包括:計(jì)算機(jī)可讀代碼,被配置為使計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求20所 述的方法。
23. -種載體介質(zhì),包括:計(jì)算機(jī)可讀代碼,被配置為使計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求21所 述的方法。
【專利摘要】一種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的語音易懂性增強(qiáng)系統(tǒng),該系統(tǒng)包括:語音輸入,用于接收要增強(qiáng)的語音;噪聲輸入,用于接收關(guān)于嘈雜環(huán)境的實(shí)時(shí)信息;增強(qiáng)語音輸出,用來輸出增強(qiáng)的語音;以及處理器,被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸出的增強(qiáng)的語音,所述處理器被配置為:將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音;將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出;以及測量所述噪聲輸入處的信噪比,其中頻譜整形濾波器包括控制參數(shù),動(dòng)態(tài)范圍壓縮包括控制參數(shù),以及其中根據(jù)所測量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
【IPC分類】G10L21-0208, G10L21-0364, G10L21-0216
【公開號】CN104823236
【申請?zhí)枴緾N201480003236
【發(fā)明人】約安尼斯·斯蒂利亞諾
【申請人】株式會(huì)社東芝
【公開日】2015年8月5日
【申請日】2014年11月7日
【公告號】WO2015067958A1