本發(fā)明涉及語音識別領域,尤其涉及一種噪音識別方法、裝置、設備及存儲介質。
背景技術:
1、隨著人工智能的發(fā)展,語音識別技術已廣泛應用于多個領域。然而,在實際應用中,語音數據往往會受到各種背景噪音的干擾,如交通噪聲、風噪等,這些噪聲會顯著降低語音數據的清晰度,增加語音識別的難度。
2、目前,大多現有的噪音識別方法在處理語音數據時,對噪聲的識別精度不高,影響語音識別結果。
技術實現思路
1、本申請?zhí)峁┝艘环N噪音識別方法、裝置、設備及存儲介質,用于提高噪聲識別精度。
2、第一方面,本申請實施例提供一種噪音識別方法,所述方法包括:
3、獲取語音數據;
4、將所述語音數據對應的時域特征和頻域特征輸入第一模型,獲得所述第一模型輸出的噪音識別結果;所述噪聲識別結果指示所述語音數據中的噪聲的頻率分布;
5、根據所述語音數據中的噪聲的頻率分布對所述語音數據進行處理。
6、本發(fā)明實施例中,將語音數據中時域特征和頻域特征輸入第一模型,利用第一模型對時域特征和頻域特征進行深層次分析,可以更準確區(qū)分和識別語音數據中的不同噪聲類型,提供噪聲的頻率分布,顯著提高了噪聲識別的效果。
7、在一種可能的實施例中,根據所述語音數據確定所述語音數據對應的的頻譜分析結果;根據所述頻譜分析結果按照時間先后順序和預設步長獲取多個隨機窗口的時域特征和頻域特征;其中,所述語音數據對應的時域特征包括所述多個隨機窗口的時域特征的統(tǒng)計結果;所述語音數據對應的頻域特征包括所述多個隨機窗口下的頻域特征的統(tǒng)計結果。
8、在本實施例中,通過對語音數據進行頻譜分析,可以得到時域特征;通過傅里葉變換,從時域轉換為頻域,得到頻域特征;并結合這兩種特征,形成對語音數據更全面的特征描述。此外,按照時間順序和預設步長獲取多個隨機窗口,可以更細致地分析語音數據在不同時間段內的特征。
9、在一種可能的實施例中,所述多個隨機窗口的時域特征包括方差和/或峰值;所述多個隨機窗口的頻域特征包括頻率譜和/或功率譜。
10、在本實施例中,選取方差和/或峰值作為時域特征,能夠反映語音信號的波動性和極端值情況,有助于識別語音信號中的突變和不穩(wěn)定部分;選取頻率譜和/或功率譜作為頻域特征,能夠反映信號在不同頻率上的能量分布,提高噪聲識別的準確率。
11、在一種可能的實施例中,獲取歷史通話數據;根據所述歷史通話數據確定所述歷史通話數據中的噪聲數據;根據所述噪聲數據對應的時域特征和頻域特征訓練所述第一模型。
12、在本實施例中,通過使用真實的歷史通話記錄對dnn模型進行訓練,使得dnn模型能夠學習到實際通話環(huán)境中噪聲的真實特征,有助于訓練出識別準確率更高的第一模型。
13、在一種可能的實施例中,所述噪聲識別結果還指示所述語音數據包括的噪聲的類型;所述噪聲的類型包括風噪、鳴笛或電流聲中的一種或多種。
14、在本實施例中,噪聲識別結果為頻率分布,其中,不同類型的噪聲具有獨特的頻率分布特征,這些頻率分布特征可以幫助有效區(qū)別噪音類型。
15、第二方面,本申請還提供一種噪聲識別裝置,所述裝置包括:通信單元和處理單元;
16、所述通信單元,用于獲取語音數據;
17、所述處理單元,用于將所述語音數據對應的時域特征和頻域特征輸入第一模型,獲得所述第一模型輸出的噪音識別結果;所述噪聲識別結果指示所述語音數據中的噪聲的頻率分布;還用于根據所述語音數據中的噪聲的頻率分布對所述語音數據進行處理。
18、在一種可能的實施例中,所述處理單元,用于:
19、在根據所述語音數據確定所述語音數據對應的的頻譜分析結果時,根據所述頻譜分析結果按照時間先后順序和預設步長獲取多個隨機窗口的時域特征和頻域特征;
20、其中,所述語音數據對應的時域特征包括所述多個隨機窗口的時域特征的統(tǒng)計結果;
21、所述語音數據對應的頻域特征包括所述多個隨機窗口下的頻域特征的統(tǒng)計結果。
22、在一種可能的實施例中,所述多個隨機窗口的時域特征包括方差和/或峰值;所述多個隨機窗口的頻域特征包括頻率譜和/或功率譜。
23、在一種可能的實施例中,所述通信單元,用于:
24、獲取歷史通話數據;
25、所述處理單元,還用于:
26、根據所述歷史通話數據確定所述歷史通話數據中的噪聲數據;
27、根據所述噪聲數據對應的時域特征和頻域特征訓練所述第一模型。
28、在一種可能的實施例中,所述噪聲識別結果還指示所述語音數據包括的噪聲的類型;所述噪聲的類型包括風噪、鳴笛或電流聲中的一種或多種。
29、第三方面,本申請?zhí)峁┮环N噪聲識別設備,包括:
30、存儲器,用于存儲程序指令;
31、處理器,用于調用所述存儲器中存儲的程序指令,按照獲得的程序指令執(zhí)行第一方面中任一項所述的方法包括的步驟。
32、第四方面,本申請?zhí)峁┮环N計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令當被計算機執(zhí)行時,使所述計算機執(zhí)行第一方面中任一項所述的方法。
33、第五方面,本申請?zhí)峁┝艘环N計算機程序產品,所述計算機程序產品包括:計算機程序代碼,當所述計算機程序代碼在計算機上運行時,使得計算機執(zhí)行第一方面中任一項所述的方法。
1.一種噪聲識別方法,其特征在于,該方法包括:
2.如權利要求1所述的方法,其特征在于,還包括:
3.如權利要求2所述的方法,其特征在于,所述多個隨機窗口的時域特征包括方差和/或峰值;
4.如權利要求1所述的方法,其特征在于,還包括:
5.如權利要求1所述的方法,其特征在于,所述噪聲識別結果還指示所述語音數據包括的噪聲的類型;所述噪聲的類型包括風噪、鳴笛或電流聲中的一種或多種。
6.一種噪聲識別裝置,其特征在于,該裝置包括:通信單元和處理單元;
7.如權利要求6所述的裝置,其特征在于,所述處理單元,用于:在根據所述語音數據確定所述語音數據對應的的頻譜分析結果時,根據所述頻譜分析結果按照時間先后順序和預設步長獲取多個隨機窗口的時域特征和頻域特征;
8.如權利要求7所述的裝置,其特征在于,所述多個隨機窗口的時域特征包括方差和/或峰值;所述多個隨機窗口的頻域特征包括頻率譜和/或功率譜。
9.如權利要求6所述的裝置,其特征在于,所述通信單元,還用于:獲取歷史通話數據;
10.如權利要求6所述的裝置,其特征在于,所述噪聲識別結果還指示所述語音數據包括的噪聲的類型;所述噪聲的類型包括風噪、鳴笛或電流聲中的一種或多種。
11.一種噪聲識別設備,其特征在于,包括:
12.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令當被計算機執(zhí)行時,使所述計算機執(zhí)行如權利要求1-5中任一項所述的方法。
13.一種計算機程序產品,其特征在于,所述計算機程序產品包括:計算機程序代碼,當所述計算機程序代碼在計算機上運行時,使得計算機執(zhí)行上述如權利要求1-5中任一項所述的方法。