本公開涉及計(jì)算機(jī),尤其涉及一種語音處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們對(duì)實(shí)時(shí)語音通訊系統(tǒng)的依賴程度越來越高,如遠(yuǎn)程協(xié)作系統(tǒng)和智能終端。然而,這些實(shí)時(shí)語音通訊系統(tǒng)在使用過程中,麥克風(fēng)采集到的語音信號(hào)可能會(huì)受到各種復(fù)雜的聲學(xué)條件的影響而同時(shí)存在多種失真的情況,如包括噪聲、混響、設(shè)備采集失真、丟包、編碼失真和前處理?yè)p傷等,嚴(yán)重影響了語音質(zhì)量和可理解性。
2、相關(guān)技術(shù)中的語音增強(qiáng)方式僅能去除語音中的環(huán)境噪聲和混響,無法恢復(fù)同時(shí)存在多種失真場(chǎng)景下的損傷語音信號(hào),導(dǎo)致語音質(zhì)量和可懂度較低。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供一種語音處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以至少解決相關(guān)技術(shù)中無法恢復(fù)同時(shí)存在多種失真場(chǎng)景下的損傷語音信號(hào),導(dǎo)致語音質(zhì)量和可懂度較低的問題。本公開的技術(shù)方案如下:
2、根據(jù)本公開實(shí)施例的第一方面,提供一種語音處理方法,包括:
3、獲取損傷語音信號(hào),提取所述損傷語音信號(hào)的語音特征,得到損傷語音特征;
4、將所述損傷語音特征輸入至語音損傷修復(fù)模型的修復(fù)語音生成網(wǎng)絡(luò),得到生成的修復(fù)語音特征;所述語音損傷修復(fù)模型基于樣本損傷語音信號(hào)和所述樣本損傷語音信號(hào)對(duì)應(yīng)的樣本語音信號(hào)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練得到,所述樣本損傷語音信號(hào)通過對(duì)所述樣本語音信號(hào)進(jìn)行多重失真處理得到;
5、按照預(yù)設(shè)的多個(gè)子頻帶對(duì)所述修復(fù)語音特征進(jìn)行劃分,得到各所述子頻帶對(duì)應(yīng)的子修復(fù)語音特征;
6、將各所述子頻帶對(duì)應(yīng)的子修復(fù)語音特征輸入至所述語音損傷修復(fù)模型的多頻帶語音增強(qiáng)網(wǎng)絡(luò),通過所述多頻帶語音增強(qiáng)網(wǎng)絡(luò)中對(duì)應(yīng)各所述子頻帶的語音增強(qiáng)子網(wǎng)絡(luò)對(duì)相應(yīng)子修復(fù)語音特征進(jìn)行語音增強(qiáng)處理,得到各所述子頻帶的增強(qiáng)語音特征;
7、基于各所述子頻帶的增強(qiáng)語音特征,生成所述損傷語音信號(hào)對(duì)應(yīng)的深度修復(fù)語音信號(hào)。
8、在一些示例性的實(shí)施方式中,所述提取所述損傷語音信號(hào)的語音特征,得到損傷語音特征包括:
9、通過對(duì)所述損傷語音信號(hào)進(jìn)行短時(shí)傅里葉變換得到復(fù)數(shù)譜特征,并將所述復(fù)數(shù)譜特征作為所述損傷語音特征。
10、在一些示例性的實(shí)施方式中,所述基于各所述子頻帶的增強(qiáng)語音特征,生成所述損傷語音信號(hào)對(duì)應(yīng)的深度修復(fù)語音信號(hào)包括:
11、對(duì)各所述子頻帶的增強(qiáng)語音特征進(jìn)行拼接,得到融合增強(qiáng)語音特征;
12、對(duì)所述融合增強(qiáng)語音特征進(jìn)行逆短時(shí)傅里葉變換,得到所述損傷語音信號(hào)對(duì)應(yīng)的深度修復(fù)語音信號(hào)。
13、在一些示例性的實(shí)施方式中,所述將所述損傷語音特征輸入至語音損傷修復(fù)模型的修復(fù)語音生成網(wǎng)絡(luò),得到生成的修復(fù)語音特征包括:
14、將所述損傷語音特征輸入至所述修復(fù)語音生成網(wǎng)絡(luò)的編碼器進(jìn)行編碼處理,得到編碼結(jié)果;
15、通過所述修復(fù)語音生成網(wǎng)絡(luò)的時(shí)序卷積神經(jīng)網(wǎng)絡(luò)層對(duì)所述編碼結(jié)果進(jìn)行特征提取,得到中間時(shí)序特征向量;
16、通過所述修復(fù)語音生成網(wǎng)絡(luò)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層對(duì)所述中間時(shí)序特征向量進(jìn)行特征提取,得到目標(biāo)時(shí)序特征向量;
17、將所述目標(biāo)時(shí)序特征向量輸入至所述修復(fù)語音生成網(wǎng)絡(luò)的解碼器進(jìn)行語音特征重構(gòu),得到所述生成的修復(fù)語音特征。
18、在一些示例性的實(shí)施方式中,所述方法還包括:
19、獲取樣本損傷語音信號(hào)和所述樣本損傷語音信號(hào)對(duì)應(yīng)的樣本語音信號(hào);所述樣本損傷語音信號(hào)通過對(duì)所述樣本語音信號(hào)進(jìn)行多重失真處理得到;
20、分別提取所述樣本損傷語音信號(hào)和所述樣本語音信號(hào)分別的語音特征,得到樣本損傷語音特征和對(duì)應(yīng)的樣本語音特征;
21、基于所述樣本損傷語音特征和對(duì)應(yīng)的樣本語音特征訓(xùn)練語音修復(fù)生成對(duì)抗網(wǎng)絡(luò),所述語音修復(fù)生成對(duì)抗網(wǎng)絡(luò)包括所述修復(fù)語音生成網(wǎng)絡(luò),所述修復(fù)語音生成網(wǎng)絡(luò)用于基于所述樣本損傷語音特征生成樣本修復(fù)語音特征;
22、按照所述多個(gè)子頻帶對(duì)基于所述修復(fù)語音生成網(wǎng)絡(luò)生成的樣本修復(fù)語音特征進(jìn)行劃,得到各所述子頻帶對(duì)應(yīng)的子樣本修復(fù)語音特征;
23、將各所述子頻帶對(duì)應(yīng)的子樣本修復(fù)語音特征輸入至待訓(xùn)練的多頻帶語音增強(qiáng)網(wǎng)絡(luò),通過所述待訓(xùn)練的多頻帶語音增強(qiáng)網(wǎng)絡(luò)中對(duì)應(yīng)各所述子頻帶的語音增強(qiáng)子網(wǎng)絡(luò)對(duì)相應(yīng)子樣本修復(fù)語音特征進(jìn)行語音增強(qiáng)處理,得到各子頻帶的樣本增強(qiáng)語音特征;
24、基于各子頻帶的樣本增強(qiáng)語音特征與相應(yīng)子頻帶的子樣本修復(fù)語音特征之間的差異,訓(xùn)練所述待訓(xùn)練的多頻帶語音增強(qiáng)網(wǎng)絡(luò),得到經(jīng)訓(xùn)練的所述多頻帶語音增強(qiáng)網(wǎng)絡(luò)。
25、在一些示例性的實(shí)施方式中,所述基于所述樣本損傷語音特征和對(duì)應(yīng)的樣本語音特征訓(xùn)練語音修復(fù)生成對(duì)抗網(wǎng)絡(luò)包括:
26、將所述樣本損傷語音特征輸入至待訓(xùn)練的修復(fù)語音生成網(wǎng)絡(luò),得到所述樣本損傷語音特征對(duì)應(yīng)的生成修復(fù)語音特征;
27、固定所述待訓(xùn)練的修復(fù)語音生成網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),以最大化所述樣本損傷語音特征對(duì)應(yīng)的生成修復(fù)語音特征與所述樣本損傷語音特征對(duì)應(yīng)的樣本語音特征之間的差異為訓(xùn)練目標(biāo),訓(xùn)練待訓(xùn)練的語音修復(fù)判別網(wǎng)絡(luò)直至收斂,得到經(jīng)訓(xùn)練的語音修復(fù)判別網(wǎng)絡(luò);
28、固定所述語音修復(fù)判別網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),以最小化所述樣本損傷語音特征對(duì)應(yīng)的生成修復(fù)語音特征與所述樣本損傷語音特征之間的差異為訓(xùn)練目標(biāo),訓(xùn)練所述待訓(xùn)練的修復(fù)語音生成網(wǎng)絡(luò)直至收斂,得到經(jīng)訓(xùn)練的所述修復(fù)語音生成網(wǎng)絡(luò);
29、其中,所述語音修復(fù)生成對(duì)抗網(wǎng)絡(luò)包括所述修復(fù)語音生成網(wǎng)絡(luò)和所述語音修復(fù)判別網(wǎng)絡(luò)。
30、在一些示例性的實(shí)施方式中,所述基于各子頻帶的樣本增強(qiáng)語音特征與相應(yīng)子頻帶的子樣本修復(fù)語音特征之間的差異,訓(xùn)練所述待訓(xùn)練的多頻帶語音增強(qiáng)網(wǎng)絡(luò),得到經(jīng)訓(xùn)練的所述多頻帶語音增強(qiáng)網(wǎng)絡(luò),包括:
31、對(duì)于每個(gè)子頻帶,基于所述子頻帶的樣本增強(qiáng)語音特征與所述子頻帶的子樣本修復(fù)語音特征之間的差異,確定所述子頻帶對(duì)應(yīng)的損失值;
32、對(duì)各所述子頻帶對(duì)應(yīng)的損失值進(jìn)行加權(quán)求和,得到總損失值;
33、基于所述總損失值反向調(diào)整每個(gè)所述語音增強(qiáng)子網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),并基于調(diào)整后的網(wǎng)絡(luò)參數(shù)繼續(xù)迭代訓(xùn)練直至滿足預(yù)設(shè)訓(xùn)練結(jié)束條件,得到經(jīng)訓(xùn)練的所述多頻帶語音增強(qiáng)網(wǎng)絡(luò)。
34、在一些示例性的實(shí)施方式中,所述對(duì)樣本語音信號(hào)進(jìn)行多重失真處理包括:
35、隨機(jī)從多種預(yù)設(shè)失真類型中選取多個(gè)目標(biāo)失真類型;所述多種預(yù)設(shè)失真類型表征實(shí)時(shí)語音通訊鏈路中存在的失真類型;
36、基于所述多個(gè)目標(biāo)失真類型中各目標(biāo)失真類型對(duì)應(yīng)的語音損傷仿真方式,對(duì)所述樣本語音信號(hào)進(jìn)行多種失真損傷的混合,得到所述樣本語音信號(hào)對(duì)應(yīng)的樣本損傷語音信號(hào)。
37、根據(jù)本公開實(shí)施例的第二方面,提供一種語音處理裝置,包括:
38、損傷語音特征確定單元,被配置為執(zhí)行獲取損傷語音信號(hào),提取所述損傷語音信號(hào)的語音特征,得到損傷語音特征;
39、修復(fù)語音特征生成單元,被配置為執(zhí)行將所述損傷語音特征輸入至語音損傷修復(fù)模型的修復(fù)語音生成網(wǎng)絡(luò),得到生成的修復(fù)語音特征;所述語音損傷修復(fù)模型基于樣本損傷語音信號(hào)和所述樣本損傷語音信號(hào)對(duì)應(yīng)的樣本語音信號(hào)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練得到,所述樣本損傷語音信號(hào)通過對(duì)所述樣本語音信號(hào)進(jìn)行多重失真處理得到;
40、修復(fù)語音特征劃分單元,被配置為執(zhí)行按照預(yù)設(shè)的多個(gè)子頻帶對(duì)所述修復(fù)語音特征進(jìn)行劃分,得到各所述子頻帶對(duì)應(yīng)的子修復(fù)語音特征;
41、子頻帶增強(qiáng)單元,被配置為執(zhí)行將各所述子頻帶對(duì)應(yīng)的子修復(fù)語音特征輸入至所述語音損傷修復(fù)模型的多頻帶語音增強(qiáng)網(wǎng)絡(luò),通過所述多頻帶語音增強(qiáng)網(wǎng)絡(luò)中對(duì)應(yīng)各所述子頻帶的語音增強(qiáng)子網(wǎng)絡(luò)對(duì)相應(yīng)子修復(fù)語音特征進(jìn)行語音增強(qiáng)處理,得到各所述子頻帶的增強(qiáng)語音特征;
42、修復(fù)語音信號(hào)生成單元,被配置為執(zhí)行基于各所述子頻帶的增強(qiáng)語音特征,生成所述損傷語音信號(hào)對(duì)應(yīng)的深度修復(fù)語音信號(hào)。
43、在一些示例性的實(shí)施方式中,所述損傷語音特征確定單元,在提取所述損傷語音信號(hào)的語音特征得到損傷語音特征時(shí),具體被配置為執(zhí)行通過對(duì)所述損傷語音信號(hào)進(jìn)行短時(shí)傅里葉變換得到復(fù)數(shù)譜特征;所述復(fù)數(shù)譜特征作為所述損傷語音特征。
44、在一些示例性的實(shí)施方式中,所述修復(fù)語音信號(hào)生成單元包括:
45、子頻帶語音特征拼接單元,被配置為執(zhí)行對(duì)各所述子頻帶的增強(qiáng)語音特征進(jìn)行拼接,得到融合增強(qiáng)語音特征;
46、逆短時(shí)傅里葉變換單元,被配置為執(zhí)行對(duì)所述融合增強(qiáng)語音特征進(jìn)行逆短時(shí)傅里葉變換,得到所述損傷語音信號(hào)對(duì)應(yīng)的深度修復(fù)語音信號(hào)。
47、在一些示例性的實(shí)施方式中,所述修復(fù)語音特征生成單元包括:
48、編碼單元,被配置為執(zhí)行將所述損傷語音特征輸入至所述修復(fù)語音生成網(wǎng)絡(luò)的編碼器進(jìn)行編碼處理,得到編碼結(jié)果;
49、時(shí)序卷積單元,被配置為執(zhí)行通過所述修復(fù)語音生成網(wǎng)絡(luò)的時(shí)序卷積神經(jīng)網(wǎng)絡(luò)層對(duì)所述編碼結(jié)果進(jìn)行特征提取,得到中間時(shí)序特征向量;
50、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)處理單元,被配置為執(zhí)行通過所述修復(fù)語音生成網(wǎng)絡(luò)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)層對(duì)所述中間時(shí)序特征向量進(jìn)行特征提取,得到目標(biāo)時(shí)序特征向量;
51、解碼單元,被配置為執(zhí)行將所述目標(biāo)時(shí)序特征向量輸入至所述修復(fù)語音生成網(wǎng)絡(luò)的解碼器進(jìn)行語音特征重構(gòu),得到所述生成的修復(fù)語音特征
52、在一些示例性的實(shí)施方式中,所述裝置還包括模型訓(xùn)練單元,所述模型訓(xùn)練單元包括:
53、樣本獲取單元,被配置為執(zhí)行獲取樣本損傷語音信號(hào)和所述樣本損傷語音信號(hào)對(duì)應(yīng)的樣本語音信號(hào);所述樣本損傷語音信號(hào)通過對(duì)所述樣本語音信號(hào)進(jìn)行多重失真處理得到;
54、語音特征提取單元,被配置為執(zhí)行分別提取所述樣本損傷語音信號(hào)和所述樣本語音信號(hào)分別的語音特征,得到樣本損傷語音特征和對(duì)應(yīng)的樣本語音特征;
55、生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練單元,被配置為執(zhí)行基于所述樣本損傷語音特征和對(duì)應(yīng)的樣本語音特征訓(xùn)練語音修復(fù)生成對(duì)抗網(wǎng)絡(luò),所述語音修復(fù)生成對(duì)抗網(wǎng)絡(luò)包括所述修復(fù)語音生成網(wǎng)絡(luò),所述修復(fù)語音生成網(wǎng)絡(luò)用于基于所述樣本損傷語音特征生成樣本修復(fù)語音特征;
56、子頻帶劃分單元,被配置為執(zhí)行按照所述多個(gè)子頻帶對(duì)基于所述修復(fù)語音生成網(wǎng)絡(luò)生成的樣本修復(fù)語音特征進(jìn)行劃分,得到各所述子頻帶對(duì)應(yīng)的子樣本修復(fù)語音特征;
57、子頻帶增強(qiáng)單元,被配置為執(zhí)行將各所述子頻帶對(duì)應(yīng)的子樣本修復(fù)語音特征輸入至待訓(xùn)練的多頻帶語音增強(qiáng)網(wǎng)絡(luò),通過所述待訓(xùn)練的多頻帶語音增強(qiáng)網(wǎng)絡(luò)中對(duì)應(yīng)各所述子頻帶的語音增強(qiáng)子網(wǎng)絡(luò)對(duì)相應(yīng)子樣本修復(fù)語音特征進(jìn)行語音增強(qiáng)處理,得到各子頻帶的樣本增強(qiáng)語音特征;
58、多頻帶語音增強(qiáng)網(wǎng)絡(luò)訓(xùn)練單元,被配置為執(zhí)行基于各子頻帶的樣本增強(qiáng)語音特征與相應(yīng)子頻帶的子樣本修復(fù)語音特征之間的差異,訓(xùn)練所述待訓(xùn)練的多頻帶語音增強(qiáng)網(wǎng)絡(luò),得到經(jīng)訓(xùn)練的所述多頻帶語音增強(qiáng)網(wǎng)絡(luò)。
59、在一些示例性的實(shí)施方式中,所述生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練單元包括:
60、生成單元,被配置為執(zhí)行將所述樣本損傷語音特征輸入至待訓(xùn)練的修復(fù)語音生成網(wǎng)絡(luò),得到所述樣本損傷語音特征對(duì)應(yīng)的生成修復(fù)語音特征;
61、判別網(wǎng)絡(luò)訓(xùn)練單元,被配置為執(zhí)行固定所述待訓(xùn)練的修復(fù)語音生成網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),以最大化所述樣本損傷語音特征對(duì)應(yīng)的生成修復(fù)語音特征與所述樣本損傷語音特征對(duì)應(yīng)的樣本語音特征之間的差異為訓(xùn)練目標(biāo),訓(xùn)練待訓(xùn)練的語音修復(fù)判別網(wǎng)絡(luò)直至收斂,得到經(jīng)訓(xùn)練的語音修復(fù)判別網(wǎng)絡(luò);
62、生成網(wǎng)絡(luò)訓(xùn)練單元,被配置為執(zhí)行固定所述語音修復(fù)判別網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),以最小化所述樣本損傷語音特征對(duì)應(yīng)的生成修復(fù)語音特征與所述樣本損傷語音特征之間的差異為訓(xùn)練目標(biāo),訓(xùn)練所述待訓(xùn)練的修復(fù)語音生成網(wǎng)絡(luò)直至收斂,得到經(jīng)訓(xùn)練的所述修復(fù)語音生成網(wǎng)絡(luò);
63、其中,所述語音修復(fù)生成對(duì)抗網(wǎng)絡(luò)包括所述修復(fù)語音生成網(wǎng)絡(luò)和所述語音修復(fù)判別網(wǎng)絡(luò)。
64、在一些示例性的實(shí)施方式中,所述多頻帶語音增強(qiáng)網(wǎng)絡(luò)訓(xùn)練單元包括:
65、子頻帶損失確定單元,被配置為執(zhí)行對(duì)于每個(gè)子頻帶,基于所述子頻帶的樣本增強(qiáng)語音特征與所述子頻帶的子樣本修復(fù)語音特征之間的差異,確定所述子頻帶對(duì)應(yīng)的損失值;
66、總損失確定單元,被配置為執(zhí)行對(duì)各所述子頻帶對(duì)應(yīng)的損失值進(jìn)行加權(quán)求和,得到總損失值;
67、參數(shù)調(diào)整單元,被配置為執(zhí)行基于所述總損失值反向調(diào)整每個(gè)所述語音增強(qiáng)子網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),并基于調(diào)整后的網(wǎng)絡(luò)參數(shù)繼續(xù)迭代訓(xùn)練直至滿足預(yù)設(shè)訓(xùn)練結(jié)束條件,得到經(jīng)訓(xùn)練的所述多頻帶語音增強(qiáng)網(wǎng)絡(luò)。
68、在一些示例性的實(shí)施方式中,所述裝置還包括:
69、目標(biāo)失真類型確定單元,被配置為執(zhí)行隨機(jī)從多種預(yù)設(shè)失真類型中選取多個(gè)目標(biāo)失真類型;所述多種預(yù)設(shè)失真類型表征實(shí)時(shí)語音通訊鏈路中存在的失真類型;
70、樣本損傷語音信號(hào)仿真單元,被配置為執(zhí)行基于所述多個(gè)目標(biāo)失真類型中各目標(biāo)失真類型對(duì)應(yīng)的語音損傷仿真方式,對(duì)所述樣本語音信號(hào)進(jìn)行多種失真損傷的混合,得到所述樣本語音信號(hào)對(duì)應(yīng)的樣本損傷語音信號(hào)。
71、根據(jù)本公開實(shí)施例的第三方面,提供一種電子設(shè)備,包括:
72、處理器;
73、用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;
74、其中,所述處理器被配置為執(zhí)行所述指令,以實(shí)現(xiàn)上述第一方面的語音處理方法。
75、根據(jù)本公開實(shí)施例的第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時(shí),使得電子設(shè)備能夠執(zhí)行上述第一方面的語音處理方法。
76、根據(jù)本公開實(shí)施例的第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面的語音處理方法。
77、本公開實(shí)施例通過將損傷語音信號(hào)的損傷語音特征輸入至語音損傷修復(fù)模型的修復(fù)語音生成網(wǎng)絡(luò)以得到生成的修復(fù)語音特征,并按照預(yù)設(shè)的多個(gè)子頻帶對(duì)該修復(fù)語音特征進(jìn)行劃分得到各子頻帶對(duì)應(yīng)的子修復(fù)語音特征,進(jìn)而將各子頻帶對(duì)應(yīng)的子修復(fù)語音特征輸入至語音損傷修復(fù)模型的多頻帶語音增強(qiáng)網(wǎng)絡(luò),通過該多頻帶語音增強(qiáng)網(wǎng)絡(luò)中對(duì)應(yīng)各子頻帶的語音增強(qiáng)網(wǎng)絡(luò)對(duì)相應(yīng)子修復(fù)語音特征進(jìn)行語音增強(qiáng)處理得到各子頻帶的增強(qiáng)語音特征,并基于各子頻帶的增強(qiáng)語音特征生成損傷語音信號(hào)對(duì)應(yīng)的深度修復(fù)語音信號(hào),從而以兩階段生成式修復(fù)方式可以恢復(fù)同時(shí)受多種失真干擾的損傷語音,實(shí)現(xiàn)多失真損傷語音的深度修復(fù),可以在多種失真同時(shí)存在的場(chǎng)景下,顯著提升語音質(zhì)量和可懂度。
78、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。