語音處理系統(tǒng)的制作方法_2

文檔序號：8501181閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語音處理系統(tǒng)的制作方法

統(tǒng)1還包括輸入模塊11和輸出模塊13。輸入模塊11連接到用于與將要增強(qiáng)的語音有關(guān)的數(shù)據(jù)的輸入和用于收集與增強(qiáng)語音將要被輸出到的地方的實(shí)時(shí)噪聲條件有關(guān) 的數(shù)據(jù)的輸入。所輸入的數(shù)據(jù)的類型可采用多種形式，下文將進(jìn)行詳述。輸入15可以是允許用戶直接輸入數(shù)據(jù)的接口。備選地，輸入可以是用于從外部存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)接收數(shù)據(jù)的接收機(jī)。
[0064] 連接到輸出模塊13的輸出是音頻輸出17。
[0065] 在使用中，系統(tǒng)1通過數(shù)據(jù)輸入15接收數(shù)據(jù)。在處理器3上執(zhí)行的程序5以將參照圖2-圖8描述的方式增強(qiáng)輸入的語音。
[0066] 圖2是示出了程序5所提供的處理步驟的流程圖。在一種實(shí)施例中，為了增強(qiáng)或提高語音的易懂性，所述系統(tǒng)包括頻譜整形步驟S21和動(dòng)態(tài)范圍壓縮步驟S23。這些步驟示于圖3中。頻譜整形步驟S21的輸出被遞送到動(dòng)態(tài)范圍壓縮步驟S23。
[0067] 步驟S21在頻域中操作，并且其目的是增加語音信號的"清脆"和"干凈"質(zhì)量，并因此改善語音的易懂性（甚至在清晰（不嘈雜）條件中）。這可以通過銳化共振峰信息（根據(jù)對清晰語音的觀察）和使用預(yù)加重濾波器減少頻譜傾斜（根據(jù)對Lombard語音的觀察）來實(shí)現(xiàn)。該子系統(tǒng)的特定特性適應(yīng)于語音幀濁音化的程度。
[0068] 圖3中更為詳細(xì)地示出了步驟S21和S23。針對該目的，將所應(yīng)用的若干頻譜操作全部組合成包含兩級的算法：
[0069] ⑴自適應(yīng)級S31(針對語音段的濁音屬性）；以及
[0070] (ii)如圖4所示的固定級S33。
[0071] 在該實(shí)施例中，頻譜易懂性改善應(yīng)用于自適應(yīng)頻譜整形級S31內(nèi)。在該實(shí)施例中，自適應(yīng)頻譜整形級包括：第一變換，其是共振峰銳化變換；和第二變換，其是頻譜傾斜變平變換。第一和第二變換兩者都適應(yīng)于語音的濁音屬性，給定為每個(gè)語音幀的濁音化概率。這些自適應(yīng)濾波器級用來抑制經(jīng)過處理的信號中（尤其是語音的摩擦音、沉默或其它"安靜" 區(qū)域中）的偽像（artefact)。
[0072] 給定一個(gè)語音幀，步驟S35中所確定的池音化概率被定義為：
[0073]
【主權(quán)項(xiàng)】
1. 一種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的語音易懂性增強(qiáng)系統(tǒng)，該系統(tǒng)包括：語音輸入，用于接收要增強(qiáng)的語音；噪聲輸入，用于接收關(guān)于所述嘈雜環(huán)境的實(shí)時(shí)信息；增強(qiáng)語音輸出，用于輸出增強(qiáng)的語音；以及處理器，被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸出的所述增強(qiáng)的語音，所述處理器被配置為：將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音；將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出；以及測量所述噪聲輸入處的信噪比；其中所述頻譜整形濾波器包括控制參數(shù)，所述動(dòng)態(tài)范圍壓縮包括控制參數(shù)，以及根據(jù) 所測量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
2. 根據(jù)權(quán)利要求1所述的系統(tǒng)，其中所述處理器被配置為更新所述動(dòng)態(tài)范圍壓縮的控制參數(shù)。
3. 根據(jù)權(quán)利要求2所述的系統(tǒng)，其中所述動(dòng)態(tài)范圍壓縮的控制參數(shù)用來控制將由所述動(dòng)態(tài)范圍壓縮應(yīng)用的增益。
4. 根據(jù)權(quán)利要求3所述的系統(tǒng)，其中所述動(dòng)態(tài)范圍壓縮被配置為對在所述語音輸入處接收的語音的能量進(jìn)行重新分布，以及更新控制參數(shù)以使其隨著信噪比的增加逐漸抑制能量的重新分布。
5. 根據(jù)權(quán)利要求3所述的系統(tǒng)，其中控制參數(shù)和信噪比之間存在線性關(guān)系。
6. 根據(jù)權(quán)利要求3所述的系統(tǒng)，其中控制參數(shù)和信噪比之間存在非線性關(guān)系。
7. 根據(jù)權(quán)利要求1所述的系統(tǒng)，其中所述系統(tǒng)還包括能量存儲(chǔ)箱，所述能量存儲(chǔ)箱是所述系統(tǒng)中設(shè)置的存儲(chǔ)器且被配置為存儲(chǔ)在增強(qiáng)之前在所述語音輸入處接收的所述語音的總能量，所述處理器還被配置為使用所述能量存儲(chǔ)箱將能量從語音的高能量部分重新分布到低能量部分。
8. 根據(jù)權(quán)利要求1所述的系統(tǒng)，其中所述頻譜整形濾波器包括自適應(yīng)頻譜整形級和固定頻譜整形級。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng)，其中所述自適應(yīng)頻譜整形級包括共振峰成形濾波器和用于減少頻譜傾斜的濾波器。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng)，其中第一控制參數(shù)被設(shè)置為控制所述共振峰成形濾波器，第二控制參數(shù)被配置為控制所述用于減少頻譜傾斜的濾波器，以及根據(jù)所述信噪比對所述第一控制參數(shù)和/或所述第二控制參數(shù)進(jìn)行更新。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其中所述第一控制參數(shù)和/或所述第二控制參數(shù)與所述信噪比線性相關(guān)。
12. 根據(jù)權(quán)利要求1所述的系統(tǒng)，其中所述系統(tǒng)還被配置為與噪聲測量無關(guān)地根據(jù)所述輸入語音來修改所述頻譜整形濾波器。
13. 根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述處理器被配置為在應(yīng)用所述頻譜整形濾波器時(shí)估計(jì)最大濁音化概率，以及所述系統(tǒng)被配置為每m秒更新所述最大濁音化概率，其中m 是從2到10的值。
14. 根據(jù)權(quán)利要求1所述的系統(tǒng)，其中所述系統(tǒng)還被配置為與噪聲測量無關(guān)地根據(jù)所述輸入語音來修改所述動(dòng)態(tài)范圍壓縮。
15. 根據(jù)權(quán)利要求14所述的系統(tǒng)，其中所述處理器被配置為在應(yīng)用動(dòng)態(tài)范圍壓縮時(shí)估計(jì)在所述語音輸入處接收的語音的信號包絡(luò)的最大值，以及所述系統(tǒng)被配置為每m秒更新輸入語音的信號包絡(luò)的最大值，其中m是從2到10的值。
16. 根據(jù)權(quán)利要求1所述的系統(tǒng)，其中逐幀地估計(jì)信噪比，以及使用針對前一幀的信噪比來更新當(dāng)前幀的參數(shù)。
17. 根據(jù)權(quán)利要求16所述的系統(tǒng)，其中在具有1秒到3秒的長度的幀上測量信噪比。
18. 根據(jù)權(quán)利要求1所述的系統(tǒng)，被配置為在多個(gè)位置輸出增強(qiáng)的語音，所述系統(tǒng)包括對應(yīng)于多個(gè)位置的多個(gè)噪聲輸入，所述處理器被配置為應(yīng)用多個(gè)頻譜整形濾波器和多個(gè)相應(yīng)的動(dòng)態(tài)范圍壓縮級，從而針對每個(gè)噪聲輸入存在頻譜整形濾波器和動(dòng)態(tài)范圍壓縮級對，所述處理器被配置為根據(jù)從相應(yīng)的噪聲輸入測量的信噪比來更新每個(gè)頻譜整形濾波器和動(dòng)態(tài)范圍壓縮級對的控制參數(shù)。
19. 一種用于增強(qiáng)要輸出的語音的語音易懂性增強(qiáng)系統(tǒng)，該系統(tǒng)包括：語音輸入，用于接收要增強(qiáng)的語音；增強(qiáng)語音輸出，用于輸出增強(qiáng)的語音；以及處理器，被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸出的所述增強(qiáng)的語音，所述處理器被配置為：將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音；以及將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出；其中所述頻譜整形濾波器包括控制參數(shù)，所述動(dòng)態(tài)范圍壓縮包括控制參數(shù)，以及根據(jù) 在所述語音輸入處接收的語音來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
20. -種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的方法，該方法包括：接收要增強(qiáng)的語音；在噪聲輸入處接收關(guān)于嘈雜環(huán)境的實(shí)時(shí)信息；將從所述語音輸入接收的語音轉(zhuǎn)換成增強(qiáng)的語音；以及輸出所述增強(qiáng)的語音，其中轉(zhuǎn)換所述語音包括：測量所述噪聲輸入處的信噪比；將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音；以及將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出；其中所述頻譜整形濾波器包括控制參數(shù)，所述動(dòng)態(tài)范圍壓縮包括控制參數(shù)，以及根據(jù) 所測量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
21. -種用于增強(qiáng)語音易懂性的方法，該方法包括：接收要增強(qiáng)的語音；將從語音輸入接收的語音轉(zhuǎn)換成增強(qiáng)的語音；以及輸出所述增強(qiáng)的語音，其中轉(zhuǎn)換所述語音包括：將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音；以及將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出；其中所述頻譜整形濾波器包括控制參數(shù)，所述動(dòng)態(tài)范圍壓縮包括控制參數(shù)，以及根據(jù) 在所述語音輸入處接收的語音來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
22. -種載體介質(zhì)，包括：計(jì)算機(jī)可讀代碼，被配置為使計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求20所述的方法。
23. -種載體介質(zhì)，包括：計(jì)算機(jī)可讀代碼，被配置為使計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求21所述的方法。
【專利摘要】一種用于增強(qiáng)將在嘈雜環(huán)境中輸出的語音的語音易懂性增強(qiáng)系統(tǒng)，該系統(tǒng)包括：語音輸入，用于接收要增強(qiáng)的語音；噪聲輸入，用于接收關(guān)于嘈雜環(huán)境的實(shí)時(shí)信息；增強(qiáng)語音輸出，用來輸出增強(qiáng)的語音；以及處理器，被配置為將從所述語音輸入接收的語音轉(zhuǎn)換成將由所述增強(qiáng)語音輸出輸出的增強(qiáng)的語音，所述處理器被配置為：將頻譜整形濾波器應(yīng)用于經(jīng)由所述語音輸入接收的語音；將動(dòng)態(tài)范圍壓縮應(yīng)用于所述頻譜整形濾波器的輸出；以及測量所述噪聲輸入處的信噪比，其中頻譜整形濾波器包括控制參數(shù)，動(dòng)態(tài)范圍壓縮包括控制參數(shù)，以及其中根據(jù)所測量的信噪比來實(shí)時(shí)更新動(dòng)態(tài)范圍壓縮或頻譜整形的控制參數(shù)中的至少一個(gè)。
【IPC分類】G10L21-0208, G10L21-0364, G10L21-0216
【公開號】CN104823236
【申請?zhí)枴緾N201480003236
【發(fā)明人】約安尼斯·斯蒂利亞諾
【申請人】株式會(huì)社東芝
【公開日】2015年8月5日
【申請日】2014年11月7日
【公告號】WO2015067958A1

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音處理相關(guān)技術(shù)

語音處理芯片相關(guān)技術(shù)

matlab語音處理相關(guān)技術(shù)

語音處理軟件相關(guān)技術(shù)

matlab語音處理工具箱相關(guān)技術(shù)

自然語音處理相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音處理系統(tǒng)的制作方法_2