本發(fā)明屬于發(fā)音糾正方法,具體涉及一種聾啞人發(fā)音糾正方法。
背景技術:
1、聾啞人一般存在發(fā)音困難的問題,主要原因在于無法聽到自己的聲音和他人的語音,因此無法準確地模仿和掌握語音的發(fā)音方式。聾啞人缺乏對語音的聽覺反饋,無法調(diào)節(jié)和糾正自己的發(fā)音。此外,由于他們無法聽到語音的細微差別,也很難區(qū)分和掌握不同音素之間的差異,導致發(fā)音不準確或混淆。因此,聾啞人通常需要通過口形、手勢和其他輔助工具來進行交流,而發(fā)音能力受到一定的限制。
2、為了幫助聾啞人學習發(fā)音,現(xiàn)有技術提出了多種方式評估聾啞人的發(fā)音準確性,并針對性提出糾正建議,然而現(xiàn)有技術一般僅通過與聾啞人發(fā)聲音頻與參考音頻的簡單比對實現(xiàn)對發(fā)音準確性的評估,缺乏對發(fā)音準確性的全面評估方法,導致糾正效果較差。
技術實現(xiàn)思路
1、本發(fā)明要解決的技術問題在于克服現(xiàn)有技術中發(fā)音糾正方法的發(fā)音準確性評估不夠全面導致糾正效果較差的缺陷,從而提供一種聾啞人發(fā)音糾正方法。
2、一種聾啞人發(fā)音糾正方法,包括以下步驟:
3、步驟s1:標注標準音頻數(shù)據(jù)中的發(fā)音單元,提取標準音頻數(shù)據(jù)中的梅爾頻率倒譜系數(shù)和濾波器組特征,基于所述梅爾頻率倒譜系數(shù)和濾波器組特征建立深度神經(jīng)網(wǎng)絡隱馬爾可夫模型的聲學模型;
4、步驟s2:顯示跟讀文本,錄制發(fā)音者跟讀音頻;
5、步驟s3:通過模數(shù)轉(zhuǎn)換器將根據(jù)音頻轉(zhuǎn)換為用戶音頻數(shù)據(jù);
6、步驟s4:將用戶音頻數(shù)據(jù)輸入所述聲學模型,獲取發(fā)音單元的文本;
7、步驟s5:通過動態(tài)時間規(guī)整算法,將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行時間軸對齊;
8、步驟s6:對根據(jù)音頻進行評分,包括準確度分數(shù)、流暢性分數(shù)、完整性分數(shù)和韻律分數(shù)。
9、進一步的,還包括步驟s7:將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行比對,識別發(fā)音錯誤,確定錯誤原因,并生成糾正建議。
10、進一步的,所述步驟s7中,糾正建議包括:使用不同顏色區(qū)分顯示用戶音頻數(shù)據(jù)波形圖中的正確發(fā)音部分和錯誤發(fā)音部分。
11、進一步的,所述步驟s7中,糾正建議包括:根據(jù)對應的發(fā)音位置,顯示動態(tài)的口型模型,展示對應部分正確發(fā)音時嘴唇和舌頭的位置,以及發(fā)音時氣流的方向。
12、進一步的,所述步驟s7中,糾正建議包括:將錯誤發(fā)音對應的正確發(fā)音聲音頻率轉(zhuǎn)換成振動,利用手環(huán)振動傳遞給發(fā)音者。
13、進一步的,所述步驟s5中,通過計算尋找最佳的時間軸對齊路徑將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行時間軸對齊。
14、進一步的,所述步驟s6中,所述準確度分數(shù)的計算方法為:其中c表示用戶音頻數(shù)據(jù)中正確發(fā)音的發(fā)音單元數(shù)量,n表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)量。
15、進一步的,所述步驟s6中,所述流暢性分數(shù)的計算方法為:其中u={u1,u2,...,un}表示用戶音頻數(shù)據(jù)的特征向量,s={s1,s2,...,sm}表示標準音頻數(shù)據(jù)的特征向量,d(u,s)表示用戶音頻數(shù)據(jù)的特征向量u和標準音頻數(shù)據(jù)的特征向量s之間的距離。
16、進一步的,所述步驟s6中,所述完整性分數(shù)的計算方法為:其中l(wèi)u表示用戶音頻數(shù)據(jù)的有效發(fā)音單元數(shù),ls表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)。
17、進一步的,所述步驟s6中,所述韻律分數(shù)的計算方法為其中,xi和yi表示用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)兩個波形在相同時間點i處的數(shù)值,n表示數(shù)據(jù)點數(shù)量,rmse可以評估用戶音頻數(shù)據(jù)和標準音頻數(shù)據(jù)在相同時間點上的相似度作為評判韻律分數(shù)的指標。
18、有益效果:本發(fā)明屬于發(fā)音糾正方法技術領域,具體公開了一種聾啞人發(fā)音糾正方法,本發(fā)明通過標注標準音頻數(shù)據(jù)中的發(fā)音單元,提取標準音頻數(shù)據(jù)中的梅爾頻率倒譜系數(shù)和濾波器組特征,并建立深度神經(jīng)網(wǎng)絡隱馬爾可夫模型的聲學模型,能夠有效提取標準音頻數(shù)據(jù)中的聲學特征,并通過聲學模型將用戶音頻轉(zhuǎn)換為文本,同時通過動態(tài)時間規(guī)整算法與標準音頻數(shù)據(jù)進行時間軸對齊,從而為用戶音頻提供精準評分,幫助用戶更清晰地了解自己的發(fā)音能力,實現(xiàn)更高效的糾正和學習。
1.一種聾啞人發(fā)音糾正方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法,其特征在于,還包括步驟s7:將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行比對,識別發(fā)音錯誤,確定錯誤原因,并生成糾正建議。
3.根據(jù)權利要求2所述的一種聾啞人發(fā)音糾正方法,其特征在于,所述步驟s7中,糾正建議包括:使用不同顏色區(qū)分顯示用戶音頻數(shù)據(jù)波形圖中的正確發(fā)音部分和錯誤發(fā)音部分。
4.根據(jù)權利要求2所述的一種聾啞人發(fā)音糾正方法,其特征在于,所述步驟s7中,糾正建議包括:根據(jù)對應的發(fā)音位置,顯示動態(tài)的口型模型,展示對應部分正確發(fā)音時嘴唇和舌頭的位置,以及發(fā)音時氣流的方向。
5.根據(jù)權利要求2所述的一種聾啞人發(fā)音糾正方法,其特征在于,所述步驟s7中,糾正建議包括:將錯誤發(fā)音對應的正確發(fā)音聲音頻率轉(zhuǎn)換成振動,利用手環(huán)振動傳遞給發(fā)音者。
6.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法,其特征在于,通過計算尋找最佳的時間軸對齊路徑,將用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)進行時間軸對齊。
7.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法,其特征在于,所述步驟s6中,所述準確度分數(shù)的計算方法為:其中c表示用戶音頻數(shù)據(jù)中正確發(fā)音的發(fā)音單元數(shù)量,n表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)量。
8.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法,其特征在于,所述步驟s6中,所述流暢性分數(shù)的計算方法為:其中u={u1,u2,...,un}表示用戶音頻數(shù)據(jù)的特征向量,s={s1,s2,...,sm}表示標準音頻數(shù)據(jù)的特征向量,d(u,s)表示用戶音頻數(shù)據(jù)的特征向量u和標準音頻數(shù)據(jù)的特征向量s之間的距離。
9.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法,其特征在于,所述步驟s6中,所述完整性分數(shù)的計算方法為:其中l(wèi)u表示用戶音頻數(shù)據(jù)的有效發(fā)音單元數(shù),ls表示標準音頻數(shù)據(jù)中的發(fā)音單元數(shù)。
10.根據(jù)權利要求1所述的一種聾啞人發(fā)音糾正方法,其特征在于,所述步驟s6中,所述韻律分數(shù)的計算方法為其中,xi和yi表示用戶音頻數(shù)據(jù)和對應的標準音頻數(shù)據(jù)兩個波形在相同時間點i處的數(shù)值,n表示數(shù)據(jù)點數(shù)量,rmse可以評估用戶音頻數(shù)據(jù)和標準音頻數(shù)據(jù)在相同時間點上的相似度作為評判韻律分數(shù)的指標。