本發(fā)明屬于人工智能領域,涉及語音識別技術,具體是語音識別數(shù)據(jù)預處理平臺。
背景技術:
1、語音識別允許用戶通過自然語言與計算機或智能設備進行交互,而無需手動輸入或依賴其他物理界面,這種方式可以顯著減少輸入時間,提高操作效率,特別是在需要快速輸入大量信息或進行實時交互的場景中;語音識別技術使得人機交互更加自然和直觀,用戶無需學習特定的命令或語言結構,就可以與設備進行交流,語音識別降低了使用門檻使得更多用戶能夠輕松地使用智能設備和服務;對于有視力障礙或手部運動障礙的用戶來說,語音識別技術提供了一種有效的輔助手段,使他們能夠更方便地獲取信息、使用設備和服務,隨著技術的不斷進步,語音識別系統(tǒng)的準確性和可靠性也在不斷提高,推動了相關領域的創(chuàng)新和應用;語音識別技術可以實時收集和處理大量的語音數(shù)據(jù),為數(shù)據(jù)分析、挖掘和應用提供了豐富的資源,以便于幫助企業(yè)了解用戶需求和行為習慣,從而制定更有效的市場策略和服務方案。
2、現(xiàn)有技術(公開號為cn106710587a的發(fā)明專利申請)公開了一種語音識別數(shù)據(jù)預處理方法,現(xiàn)有技術通過提供一種語音識別數(shù)據(jù)預處理方法,包括標準音頻文件組織模塊、標準文本編輯模塊、發(fā)音詞典配置模塊、語音模型生成模塊、標準音特征數(shù)據(jù)識別處理模塊;保存最終生成標準音數(shù)據(jù)模型到文件系統(tǒng),在應用產(chǎn)品中直接加載預生成數(shù)據(jù)模型進行對用戶錄音進行識別評分;現(xiàn)有技術通過整理編輯需要識別評分的文段,句子,單詞等文本,未考慮到編輯標準文本過于繁瑣,可能會導致語音識別數(shù)據(jù)預處理效率低下的問題。
3、本發(fā)明提供了語音識別數(shù)據(jù)預處理平臺,以解決以上技術問題。
技術實現(xiàn)思路
1、本發(fā)明旨在至少解決現(xiàn)有技術中存在的技術問題之一;為此,本發(fā)明提出了語音識別數(shù)據(jù)預處理平臺,用于解決現(xiàn)有技術通過整理編輯需要識別評分的文段,句子,單詞等文本,未考慮到編輯標準文本過于繁瑣,可能會導致語音識別數(shù)據(jù)預處理效率低下的技術問題。
2、為實現(xiàn)上述目的,本發(fā)明的第一方面提供了語音識別數(shù)據(jù)預處理平臺,包括:
3、前端聲學處理模塊:通過音頻采集器收集環(huán)境中的語音信號;利用高通濾波器對語音信號的高頻信號進行補償;通過語音分幀技術將語音信號劃分成若干短時小幀,在若干短時小幀上應用窗口函數(shù)獲得模擬語音信號;將模擬語音信號轉換為數(shù)字語音信號,通過濾波技術去除數(shù)字語音信號中的干擾信號;其中,濾波技術包括:噪聲抑制、回聲消除;
4、特征提取模塊:通過梅爾頻率倒譜系數(shù)提取數(shù)字語音信號的初始特征向量;通過動態(tài)差分系數(shù)分析數(shù)字語音信號的動態(tài)變化率;根據(jù)初始特征向量和動態(tài)變化率分析得到最終特征向量;
5、數(shù)據(jù)分組模塊:計算最終特征向量的均值和標準差,根據(jù)均值和標準差對數(shù)字語音信號進行分類。
6、優(yōu)選的,所述利用高通濾波器對語音信號的高頻信號進行補償,包括:
7、將語音信號劃分成若干樣本,從若干樣本中選取一個樣本作為目標樣本;將目標樣本標記為x[n],將目標樣本的前一個樣本標記為x[n-1];
8、通過差分方程y[n]=x[n]-α×x[n-1]計算得到預加重處理后的部分語音信號值;其中,α為大于0且小于1的比例系數(shù);
9、利用差分方程對語音信號中的若干樣本進行預加重處理得到若干部分語音信號,將若干部分語音信號整合成語音信號一;
10、初始化一階高通濾波器,利用一階高通濾波器對語音信號一中的高頻信號進行補償,得到語音信號二。
11、需要說明的是,α取值越接近1,高頻部分的增強效果越明顯;α的值過大時會導致信號失真或引入不必要的噪聲。
12、本發(fā)明通過使用高通濾波器對高頻信號進行補償,可以恢復頻譜的平衡,不僅使語音信號在低頻到高頻的整個頻帶內都具有較好的信噪比和頻譜特性,還能讓語音信號的特征更加突出,有助于改善語音的聽覺效果,從而提升語音的清晰度。
13、優(yōu)選的,所述通過語音分幀技術將語音信號劃分成若干短時小幀,包括:
14、調取語音信號二,根據(jù)幀長和幀移滑動窗口在語音信號二上滑動,得到幀間隔,根據(jù)幀間隔將語音信號二進行分割,形成若干短時小幀。
15、需要說明的是,幀移是連續(xù)幀之間的時間間隔,通常小于或等于幀長;常見的幀移是幀長的一半或更小。
16、本發(fā)明通過設置幀移為幀長的一半或更小,使幀內信號具有足夠的穩(wěn)定性,不僅能避免幀間信息丟失,還有助于保留相鄰幀之間的相關信息。
17、優(yōu)選的,所述在若干短時小幀上應用窗口函數(shù)獲得模擬語音信號,包括:
18、調取若干短時小幀,將幀長作為窗口函數(shù)的長度n;
19、通過公式w(n)=0.54-0.46*cos(2*π*n/(n-1))計算得出漢明窗函數(shù);其中,n表示從0到n-1的整數(shù);
20、將漢明窗函數(shù)應用于若干短時小幀,得到加窗后的若干幀信號;將若干幀信號整合成模擬語音信號。
21、本發(fā)明通過加窗實現(xiàn)平滑幀的邊界,減少頻譜泄漏。在分幀后,對每一幀應用窗函數(shù),以減少幀邊界的不連續(xù)性;通過漢明窗在窗口兩端逐漸衰減到零減少幀邊界效應;
22、優(yōu)選的,所述通過濾波技術去除數(shù)字語音信號中的干擾信號,包括:
23、通過雙門限法設置兩個特征閾值,通過快速傅里葉變換技術提取數(shù)字語音信號的特征值;
24、判斷特征值是否處于兩個特征閾值之間;是,則判定數(shù)字語音信號符合要求,并保留數(shù)字語音信號;否,則判定對應的數(shù)字語音信號為干擾信號,利用濾波技術對干擾信號進行濾波;其中,特征值包括:幀信號的能量值以及過零率。
25、本發(fā)明通過去除或減弱那些特征值不在預設范圍內的信號部分,可以顯著提升最終處理的語音信號的質量,有助于減少背景噪聲、電磁干擾、其他聲源干擾等對目標語音信號的影響;通過設定特征閾值并據(jù)此判斷信號是否為干擾信號,并采取相應的濾波措施,減少了因外部因素導致的系統(tǒng)性能下降或失效的風險。
26、優(yōu)選的,所述通過雙門限法設置兩個特征閾值,包括:
27、根據(jù)短時能量和短時過零率通過雙門限法設置兩個特征閾值t1、t2,其中,t1用于粗略判斷語音是否開始,t2用于確定語音的起始和結束時間;
28、通過聲學模型識別語音和非語音信號,并預測語音的起始和結束時間。
29、需要說明的是,對于非語音活動時間段內以及包含異常特征的幀,判定為錯誤數(shù)據(jù)或無關信息,直接進行去除;其中,異常特征包括:過高或過低的能量、過零率的幀;聲學模型包括:語音識別模型以及隱馬爾可夫模型;
30、本發(fā)明通過設置閾值分級,以t1作為低門限,用于初步篩選可能包含語音的幀段,減少了對明顯非語音段的進一步處理;以t2作為高門限,則用于更精確地確定語音信號的起始和結束,提高了檢測的準確性;通過使用雙門限法可以減少不必要的計算,使系統(tǒng)能夠更有效地利用計算資源,提升了系統(tǒng)的性能。
31、優(yōu)選的,所述通過梅爾頻率倒譜系數(shù)提取數(shù)字語音信號的初始特征向量,包括:
32、調取若干數(shù)字語音信號,對數(shù)字語音信號進行快速傅里葉變換;將傅里葉變換后的頻譜通過梅爾濾波器組,得到梅爾刻度上的能量分布;對每個梅爾刻度上的能量取對數(shù)并進行離散余弦變換,將結果映射到倒譜域;取離散余弦變換后的前n個系數(shù)作為初始特征向量。
33、需要說明的是,梅爾濾波器組在低頻區(qū)域密集分布,在高頻區(qū)域稀疏分布。
34、本發(fā)明通過從原始語音信號中提取出與語音識別和其他語音處理任務相關的關鍵特征,這些特征通常具有較低的維度,且能夠有效地描述語音信號的音質、音調、音長和音量等特性,這些特征向量能夠代表語音的本質內容,并降低數(shù)據(jù)維度,便于后續(xù)的模型匹配和分析。
35、優(yōu)選的,所述通過動態(tài)差分系數(shù)分析數(shù)字語音信號的動態(tài)變化率,包括:
36、提取數(shù)字語音信號的差分系數(shù),根據(jù)差分系數(shù)對數(shù)字語音信號進行識別得到動態(tài)變化率;其中,差分系數(shù)包括一階差分系數(shù)以及二階差分系數(shù);一階差分系數(shù)表示梅爾頻率倒譜系數(shù)隨時間的變化率,二階差分系數(shù)表示梅爾頻率倒譜系數(shù)隨時間變化率的變化率。
37、本發(fā)明通過差分處理語音信號,使信號中的細微變化得以保留并放大,這些細微變化在原始信號中可能由于噪聲或其他干擾而被掩蓋;這些細節(jié)信息對于提高識別的準確性至關重要;而且差分系數(shù)能夠區(qū)分不同類型的語音信號,如清音、濁音以及不同音素之間的過渡等,這些差異在差分系數(shù)中表現(xiàn)得更為明顯,有助于提高識別系統(tǒng)對不同語音信號的區(qū)分能力。
38、優(yōu)選的,所述根據(jù)均值和標準差對數(shù)字語音信號進行分類,包括:
39、將第i幀的第j個特征值標記為vij,將幀的總數(shù)標記為n;
40、通過公式計算得出每一個特征向量在所有語音幀中的均值;
41、通過公式計算得出每一個特征向量在所有語音幀中的標準差;
42、通過公式進行特征向量規(guī)范化;
43、將規(guī)范化后的特征向量作為分類輸入序列,調取信號分類模型;將分類輸入序列輸入信號分類模型中,得到對應的數(shù)字語音信號的類型;其中,信號分類模型基于人工智能模型構建。
44、需要說明的是,在計算均值和標準差時,通常使用訓練數(shù)據(jù)計算這些統(tǒng)計量,并在訓練和測試的過程中使用相同的統(tǒng)計量;在進行特征向量規(guī)范化時,將每個特征值縮放到均值為0、標準差為1的范圍內,有助于模型更好地學習特征之間的關系。
45、本發(fā)明通過均值作為信號中直流分量的大小,能夠反映語音信號的整體水平或基準線;而標準差可以反映信號數(shù)值相對于均值的波動程度,在語音信號處理中,標準差可以揭示信號的穩(wěn)定性和變異性;通過結合均值和標準差兩個特征,可以對數(shù)字語音信號進行更全面的描述和分類,這種綜合判斷方法比單一特征分類更為準確和可靠;
46、優(yōu)選的,所述信號分類模型基于人工智能模型構建,包括:
47、獲取標準訓練數(shù)據(jù);其中,標準訓練數(shù)據(jù)包括與分類輸入序列內容屬性相一致的標準輸入數(shù)據(jù),以及與信號分類內容屬性相一致的標準輸出數(shù)據(jù);
48、利用標準訓練數(shù)據(jù)對人工智能模型進行訓練,將訓練好的人工智能模型標記為信號分類模型;其中,人工智能模型包括卷積神經(jīng)網(wǎng)絡模型或者長短記憶神經(jīng)網(wǎng)絡模型。
49、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
50、1.本發(fā)明包括前端聲學處理模塊、特征提取模塊以及數(shù)據(jù)分組模塊,其中在前端聲學處理模塊進行預加重處理,能夠補償高頻信號在傳輸過程中的衰減,使得整個頻段的信號更加均衡,有利于后續(xù)處理;分幀與加窗操作將連續(xù)的語音信號分割成短時的小段,并在每一幀上應用窗口函數(shù),減少幀邊界效應,使得處理更加高效;通過特征提取模塊能夠最大限度地減少環(huán)境噪聲、通信信道質量差異等因素對語音特征產(chǎn)生的不利影響,增強系統(tǒng)的魯棒性;通過數(shù)據(jù)分組模塊將數(shù)據(jù)分組可以使得同類數(shù)據(jù)更加緊湊,異類數(shù)據(jù)更加分散,有助于在訓練聲學模型時,更好地捕捉數(shù)據(jù)的內在規(guī)律和特征,提高模型的泛化能力。
51、2.設置閾值分級,以t1作為低門限,用于初步篩選可能包含語音的幀段,減少了對明顯非語音段的進一步處理;以t2作為高門限,則用于更精確地確定語音信號的起始和結束,提高了檢測的準確性;通過使用雙門限法可以減少不必要的計算,使系統(tǒng)能夠更有效地利用計算資源,提升了系統(tǒng)的性能。