一種聾啞人發(fā)音糾正方法與流程

文檔序號：40449932發(fā)布日期：2024-12-27 09:14閱讀：10來源：國知局

本發(fā)明屬于發(fā)音糾正方法，具體涉及一種聾啞人發(fā)音糾正方法。

背景技術：

1、聾啞人一般存在發(fā)音困難的問題，主要原因在于無法聽到自己的聲音和他人的語音，因此無法準確地模仿和掌握語音的發(fā)音方式。聾啞人缺乏對語音的聽覺反饋，無法調(diào)節(jié)和糾正自己的發(fā)音。此外，由于他們無法聽到語音的細微差別，也很難區(qū)分和掌握不同音素之間的差異，導致發(fā)音不準確或混淆。因此，聾啞人通常需要通過口形、手勢和其他輔助工具來進行交流，而發(fā)音能力受到一定的限制。

2、為了幫助聾啞人學習發(fā)音，現(xiàn)有技術提出了多種方式評估聾啞人的發(fā)音準確性，并針對性提出糾正建議，然而現(xiàn)有技術一般僅通過與聾啞人發(fā)聲音頻與參考音頻的簡單比對實現(xiàn)對發(fā)音準確性的評估，缺乏對發(fā)音準確性的全面評估方法，導致糾正效果較差。

技術實現(xiàn)思路

1、本發(fā)明要解決的技術問題在于克服現(xiàn)有技術中發(fā)音糾正方法的發(fā)音準確性評估不夠全面導致糾正效果較差的缺陷，從而提供一種聾啞人發(fā)音糾正方法。

2、一種聾啞人發(fā)音糾正方法，包括以下步驟：

3、步驟s1：標注標準音頻數(shù)據(jù)中的發(fā)音單元，提取標準音頻數(shù)據(jù)中的梅爾頻率倒譜系數(shù)和濾波器組特征，基于所述梅爾頻率倒譜系數(shù)和濾波器組特征建立深度神經(jīng)網(wǎng)絡隱馬爾可夫模型的聲學模型；

4、步驟s2：顯示跟讀文本，錄制發(fā)音者跟讀音頻；

5、步驟s3：通過模數(shù)轉(zhuǎn)換器將根據(jù)音頻轉(zhuǎn)換為用戶音頻數(shù)據(jù)；

6、步驟s4：將用戶音頻數(shù)據(jù)輸入所述聲學模型，獲取發(fā)音單元的文本；

7、步驟s5：通過動態(tài)時間規(guī)整算法，將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行時間軸對齊；

8、步驟s6：對根據(jù)音頻進行評分，包括準確度分數(shù)、流暢性分數(shù)、完整性分數(shù)和韻律分數(shù)。

9、進一步的，還包括步驟s7：將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行比對，識別發(fā)音錯誤，確定錯誤原因，并生成糾正建議。

10、進一步的，所述步驟s7中，糾正建議包括：使用不同顏色區(qū)分顯示用戶音頻數(shù)據(jù)波形圖中的正確發(fā)音部分和錯誤發(fā)音部分。

11、進一步的，所述步驟s7中，糾正建議包括：根據(jù)對應的發(fā)音位置，顯示動態(tài)的口型模型，展示對應部分正確發(fā)音時嘴唇和舌頭的位置，以及發(fā)音時氣流的方向。

12、進一步的，所述步驟s7中，糾正建議包括：將錯誤發(fā)音對應的正確發(fā)音聲音頻率轉(zhuǎn)換成振動，利用手環(huán)振動傳遞給發(fā)音者。

13、進一步的，所述步驟s5中，通過計算尋找最佳的時間軸對齊路徑將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行時間軸對齊。

14、進一步的，所述步驟s6中，所述準確度分數(shù)的計算方法為：其中c表示用戶音頻數(shù)據(jù)中正確發(fā)音的發(fā)音單元數(shù)量，n表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)量。

15、進一步的，所述步驟s6中，所述流暢性分數(shù)的計算方法為：其中u＝{u1,u2,...,un}表示用戶音頻數(shù)據(jù)的特征向量，s＝{s1,s2,...,sm}表示標準音頻數(shù)據(jù)的特征向量，d(u,s)表示用戶音頻數(shù)據(jù)的特征向量u和標準音頻數(shù)據(jù)的特征向量s之間的距離。

16、進一步的，所述步驟s6中，所述完整性分數(shù)的計算方法為：其中l(wèi)u表示用戶音頻數(shù)據(jù)的有效發(fā)音單元數(shù)，ls表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)。

17、進一步的，所述步驟s6中，所述韻律分數(shù)的計算方法為其中，xi和yi表示用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)兩個波形在相同時間點i處的數(shù)值，n表示數(shù)據(jù)點數(shù)量，rmse可以評估用戶音頻數(shù)據(jù)和標準音頻數(shù)據(jù)在相同時間點上的相似度作為評判韻律分數(shù)的指標。

18、有益效果：本發(fā)明屬于發(fā)音糾正方法技術領域，具體公開了一種聾啞人發(fā)音糾正方法，本發(fā)明通過標注標準音頻數(shù)據(jù)中的發(fā)音單元，提取標準音頻數(shù)據(jù)中的梅爾頻率倒譜系數(shù)和濾波器組特征，并建立深度神經(jīng)網(wǎng)絡隱馬爾可夫模型的聲學模型，能夠有效提取標準音頻數(shù)據(jù)中的聲學特征，并通過聲學模型將用戶音頻轉(zhuǎn)換為文本，同時通過動態(tài)時間規(guī)整算法與標準音頻數(shù)據(jù)進行時間軸對齊，從而為用戶音頻提供精準評分，幫助用戶更清晰地了解自己的發(fā)音能力，實現(xiàn)更高效的糾正和學習。

技術特征：

1.一種聾啞人發(fā)音糾正方法，其特征在于，包括以下步驟：

2.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法，其特征在于，還包括步驟s7：將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行比對，識別發(fā)音錯誤，確定錯誤原因，并生成糾正建議。

3.根據(jù)權利要求2所述的一種聾啞人發(fā)音糾正方法，其特征在于，所述步驟s7中，糾正建議包括：使用不同顏色區(qū)分顯示用戶音頻數(shù)據(jù)波形圖中的正確發(fā)音部分和錯誤發(fā)音部分。

4.根據(jù)權利要求2所述的一種聾啞人發(fā)音糾正方法，其特征在于，所述步驟s7中，糾正建議包括：根據(jù)對應的發(fā)音位置，顯示動態(tài)的口型模型，展示對應部分正確發(fā)音時嘴唇和舌頭的位置，以及發(fā)音時氣流的方向。

5.根據(jù)權利要求2所述的一種聾啞人發(fā)音糾正方法，其特征在于，所述步驟s7中，糾正建議包括：將錯誤發(fā)音對應的正確發(fā)音聲音頻率轉(zhuǎn)換成振動，利用手環(huán)振動傳遞給發(fā)音者。

6.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法，其特征在于，通過計算尋找最佳的時間軸對齊路徑，將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行時間軸對齊。

7.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法，其特征在于，所述步驟s6中，所述準確度分數(shù)的計算方法為：其中c表示用戶音頻數(shù)據(jù)中正確發(fā)音的發(fā)音單元數(shù)量，n表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)量。

8.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法，其特征在于，所述步驟s6中，所述流暢性分數(shù)的計算方法為：其中u＝{u1,u2,...,un}表示用戶音頻數(shù)據(jù)的特征向量，s＝{s1,s2,...,sm}表示標準音頻數(shù)據(jù)的特征向量，d(u,s)表示用戶音頻數(shù)據(jù)的特征向量u和標準音頻數(shù)據(jù)的特征向量s之間的距離。

9.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法，其特征在于，所述步驟s6中，所述完整性分數(shù)的計算方法為：其中l(wèi)u表示用戶音頻數(shù)據(jù)的有效發(fā)音單元數(shù)，ls表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)。

10.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法，其特征在于，所述步驟s6中，所述韻律分數(shù)的計算方法為其中，xi和yi表示用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)兩個波形在相同時間點i處的數(shù)值，n表示數(shù)據(jù)點數(shù)量，rmse可以評估用戶音頻數(shù)據(jù)和標準音頻數(shù)據(jù)在相同時間點上的相似度作為評判韻律分數(shù)的指標。

技術總結(jié)
本發(fā)明屬于發(fā)音糾正方法技術領域，具體公開了一種聾啞人發(fā)音糾正方法，本發(fā)明通過標注標準音頻數(shù)據(jù)中的發(fā)音單元，提取標準音頻數(shù)據(jù)中的梅爾頻率倒譜系數(shù)和濾波器組特征，并建立深度神經(jīng)網(wǎng)絡隱馬爾可夫模型的聲學模型，能夠有效提取標準音頻數(shù)據(jù)中的聲學特征，并通過聲學模型將用戶音頻轉(zhuǎn)換為文本，同時通過動態(tài)時間規(guī)整算法與標準音頻數(shù)據(jù)進行時間軸對齊，從而為用戶音頻提供精準評分，幫助用戶更清晰地了解自己的發(fā)音能力，實現(xiàn)更高效的糾正和學習。

技術研發(fā)人員：宋凱,晉昊
受保護的技術使用者：長沙翊豐汽車科技有限公司
技術研發(fā)日：
技術公布日：2024/12/26

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：宋凱,晉昊
技術所有人：長沙翊豐汽車科技有限公司
我是此專利的發(fā)明人

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種聾啞人發(fā)音糾正方法與流程