本技術(shù)涉及音頻處理的,尤其是涉及一種動態(tài)降噪與多語音增強(qiáng)的方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、在教室、會議室等場所進(jìn)行遠(yuǎn)錄播視頻或遠(yuǎn)程視頻時,通常只設(shè)置一個拾音器來采集室內(nèi)的音頻,室內(nèi)的不同方位與拾音器距離不同,使得聲源遠(yuǎn)近不一,所采集的音頻往往不均衡且存在外界噪聲的干擾,使得另一接收側(cè)輸出的音質(zhì)差,嚴(yán)重影響另一接收側(cè)用戶的視聽質(zhì)量,無法滿足視聽需求。
2、目前,常采用預(yù)設(shè)噪聲模型對室內(nèi)拾音器采集的聲音進(jìn)行降噪以及聲源增強(qiáng)處理,但是該預(yù)設(shè)噪聲模型所能體現(xiàn)降噪效果的場景為靜態(tài)環(huán)境場景,對于動態(tài)變化的噪聲環(huán)境來說卻存在降噪響應(yīng)不足的情況,從而導(dǎo)致最終的降噪效果不佳。
技術(shù)實現(xiàn)思路
1、為了提高音頻的降噪效果,實現(xiàn)對取證數(shù)據(jù)的存儲讀取活動進(jìn)行有效監(jiān)控,本技術(shù)提供一種動態(tài)降噪與多語音增強(qiáng)的方法、系統(tǒng)、設(shè)備及介質(zhì)。
2、第一方面,本技術(shù)提供一種動態(tài)降噪與多語音增強(qiáng)的方法,采用如下的技術(shù)方案:
3、一種動態(tài)降噪與多語音增強(qiáng)的方法,包括:
4、獲取拾音器所采集的當(dāng)前聲音信號以及歷史聲音信號;
5、對所述歷史聲音信號進(jìn)行音頻曲線捕捉,得到與所述歷史聲音信號對應(yīng)的音頻曲線以及與所述音頻曲線對應(yīng)的降噪標(biāo)簽,所述降噪標(biāo)簽為音頻曲線進(jìn)行分類結(jié)果的標(biāo)注,所述分類結(jié)果至少包括未降噪、已降噪、獲取音頻曲線時的動態(tài)環(huán)境類別以及歷史聲音信號在最初生成時的動態(tài)環(huán)境類別;
6、根據(jù)所述音頻曲線以及所述降噪標(biāo)簽對音頻曲線降噪模型進(jìn)行訓(xùn)練,得到訓(xùn)練完成的音頻曲線降噪模型;
7、對所述當(dāng)前聲音信號進(jìn)行音頻曲線捕捉,得到所述當(dāng)前聲音信號的當(dāng)前音頻曲線,并將所述當(dāng)前音頻曲線輸入至所述音頻曲線降噪模型中進(jìn)行降噪,得到降噪處理后的當(dāng)前音頻曲線;
8、基于所述降噪處理后的當(dāng)前音頻曲線生成降噪聲音信號,并將所述降噪聲音信號發(fā)送至用戶終端設(shè)備。
9、1.在一種可能實現(xiàn)的方式中,所述根據(jù)所述音頻曲線以及所述降噪標(biāo)簽對音頻曲線降噪模型進(jìn)行訓(xùn)練,得到訓(xùn)練完成的音頻曲線降噪模型,包括:
10、將所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線輸入所述音頻曲線降噪模型,以生成降噪后的音頻曲線;
11、獲取音頻樣本集,所述音頻樣本集中的音頻樣本包括所述降噪后的音頻曲線和降噪標(biāo)簽為已降噪的所述音頻曲線;
12、將所述音頻樣本輸入所述降噪判定模型,以得到對所述音頻樣本的判定結(jié)果,所述判定結(jié)果包括未降噪、已降噪以及所述音頻樣本的動態(tài)環(huán)境類別;
13、根據(jù)所述判定結(jié)果得到音頻網(wǎng)絡(luò)的損失函數(shù),根據(jù)所述損失函數(shù)分別調(diào)整所述音頻曲線降噪模型和降噪判定模型的參數(shù),直到所述音頻網(wǎng)絡(luò)收斂,確定訓(xùn)練完成的音頻曲線降噪模型。
14、2.在一種可能實現(xiàn)的方式中,所述方法還包括:
15、將所述降噪標(biāo)簽為未降噪的任一所述音頻曲線輸入辨別模型中,以判斷所述降噪標(biāo)簽為未降噪的任一所述音頻曲線是否屬于噪聲,所述噪聲的信噪比低于預(yù)設(shè)信噪比;
16、若辨別模型判斷不屬于噪聲,則所述降噪標(biāo)簽為未降噪的任一所述音頻曲線滿足所述預(yù)設(shè)條件。
17、3.在一種可能實現(xiàn)的方式中,所述辨別模型包括線性層和殘差網(wǎng)絡(luò),所述判斷所述標(biāo)簽為未降噪的任一所述音頻樣本是否屬于噪聲,包括:
18、通過所述線性層對所述降噪標(biāo)簽為未降噪的任一所述音頻曲線進(jìn)行升維,并通過reshape函數(shù)將升維后的音頻曲線調(diào)整為二維數(shù)據(jù);
19、將所述二維數(shù)據(jù)輸入殘差網(wǎng)絡(luò)進(jìn)行特征提取,以輸出是否為噪聲的判斷結(jié)果。
20、4.在一種可能實現(xiàn)的方式中,所述音頻曲線降噪模型采用u型網(wǎng)絡(luò),所述u型網(wǎng)絡(luò)包括編碼器和解碼器,所述生成降噪后的音頻曲線包括:
21、通過編碼器對所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線進(jìn)行特征提取,并得到第一特征;
22、通過解碼器用于對所述第一特征進(jìn)行升維和信息恢復(fù),以得到與所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線維度相同的融合數(shù)據(jù);
23、將所述融合數(shù)據(jù)與所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線進(jìn)行相加,得到所述降噪后的音頻曲線。
24、5.在一種可能實現(xiàn)的方式中,所述降噪判定模型包括特征提取層、最大池化層、平均池化層、第一多層感知機(jī)和第二多層感知機(jī),所述得到對所述音頻樣本的判斷結(jié)果包括:
25、通過所述特征提取層對所述音頻樣本進(jìn)行特征提取,并得到第二特征;分別通過所述最大池化層和所述平均池化層對所述第二特征進(jìn)行降維,以分別得到第三特征和第四特征;
26、將所述第三特征和第四特征輸入第一多層感知機(jī),以得到對所述音頻樣本的動態(tài)環(huán)境類別的判斷結(jié)果,將所述第三特征和第四特征輸入第二多層感知機(jī),以得到對所述音頻樣本是否為已降噪的判斷結(jié)果。
27、第二方面,本技術(shù)提供一種動態(tài)降噪與多語音增強(qiáng)的系統(tǒng),采用如下的技術(shù)方案:
28、信號獲取模塊,用于獲取拾音器所采集的當(dāng)前聲音信號以及歷史聲音信號;
29、第一捕捉模塊,用于對所述歷史聲音信號進(jìn)行音頻曲線捕捉,得到與所述歷史聲音信號對應(yīng)的音頻曲線以及與所述音頻曲線對應(yīng)的降噪標(biāo)簽,所述降噪標(biāo)簽為音頻曲線進(jìn)行分類結(jié)果的標(biāo)注,所述分類結(jié)果至少包括未降噪、已降噪、獲取音頻曲線時的動態(tài)環(huán)境類別以及歷史聲音信號在最初生成時的動態(tài)環(huán)境類別;
30、模型訓(xùn)練模塊,用于根據(jù)所述音頻曲線以及所述降噪標(biāo)簽對音頻曲線降噪模型進(jìn)行訓(xùn)練,得到訓(xùn)練完成的音頻曲線降噪模型;;
31、第二捕捉模塊,用于對所述當(dāng)前聲音信號進(jìn)行音頻曲線捕捉,得到所述當(dāng)前聲音信號的當(dāng)前音頻曲線,并將所述當(dāng)前音頻曲線輸入至所述音頻曲線降噪模型中進(jìn)行降噪,得到降噪處理后的當(dāng)前音頻曲線;
32、信號發(fā)送模塊,用于基于所述降噪處理后的當(dāng)前音頻曲線生成降噪聲音信號,并將所述降噪聲音信號發(fā)送至用戶終端設(shè)備。
33、在一種可能的實現(xiàn)方式中,所述模型訓(xùn)練模塊在根據(jù)所述音頻曲線以及所述降噪標(biāo)簽對音頻曲線降噪模型進(jìn)行訓(xùn)練,得到訓(xùn)練完成的音頻曲線降噪模型時,具體用于:
34、將所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線輸入所述音頻曲線降噪模型,以生成降噪后的音頻曲線;
35、獲取音頻樣本集,所述音頻樣本集中的音頻樣本包括所述降噪后的音頻曲線和降噪標(biāo)簽為已降噪的所述音頻曲線;
36、將所述音頻樣本輸入所述降噪判定模型,以得到對所述音頻樣本的判定結(jié)果,所述判定結(jié)果包括未降噪、已降噪以及所述音頻樣本的動態(tài)環(huán)境類別;
37、根據(jù)所述判定結(jié)果得到音頻網(wǎng)絡(luò)的損失函數(shù),根據(jù)所述損失函數(shù)分別調(diào)整所述音頻曲線降噪模型和降噪判定模型的參數(shù),直到所述音頻網(wǎng)絡(luò)收斂,確定訓(xùn)練完成的音頻曲線降噪模型。
38、在另一種可能的實現(xiàn)方式中,所述系統(tǒng)還包括:降噪辨別模塊以及條件確定模塊,其中,
39、所述降噪辨別模塊,用于將所述降噪標(biāo)簽為未降噪的任一所述音頻曲線輸入辨別模型中,以判斷所述降噪標(biāo)簽為未降噪的任一所述音頻曲線是否屬于噪聲,所述噪聲的信噪比低于預(yù)設(shè)信噪比;
40、所述條件確定模塊,用于當(dāng)辨別模型判斷不屬于噪聲時,所述降噪標(biāo)簽為未降噪的任一所述音頻曲線滿足所述預(yù)設(shè)條件。
41、在另一種可能的實現(xiàn)方式中,所述辨別模型包括線性層和殘差網(wǎng)絡(luò),所述降噪辨別模塊在判斷所述標(biāo)簽為未降噪的任一所述音頻樣本是否屬于噪聲時,具體用于:
42、通過所述線性層對所述降噪標(biāo)簽為未降噪的任一所述音頻曲線進(jìn)行升維,并通過reshape函數(shù)將升維后的音頻曲線調(diào)整為二維數(shù)據(jù);
43、將所述二維數(shù)據(jù)輸入殘差網(wǎng)絡(luò)進(jìn)行特征提取,以輸出是否為噪聲的判斷結(jié)果。
44、在另一種可能的實現(xiàn)方式中,所述音頻曲線降噪模型采用u型網(wǎng)絡(luò),所述u型網(wǎng)絡(luò)包括編碼器和解碼器,所述生成降噪后的音頻曲線具體用于;
45、通過編碼器對所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線進(jìn)行特征提取,并得到第一特征;
46、通過解碼器用于對所述第一特征進(jìn)行升維和信息恢復(fù),以得到與所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線維度相同的融合數(shù)據(jù);
47、將所述融合數(shù)據(jù)與所述降噪標(biāo)簽為未降噪且滿足預(yù)設(shè)條件的所述音頻曲線進(jìn)行相加,得到所述降噪后的音頻曲線。
48、在另一種可能的實現(xiàn)方式中,所述降噪判定模型包括特征提取層、最大池化層、平均池化層、第一多層感知機(jī)和第二多層感知機(jī),所述得到對所述音頻樣本的判斷結(jié)果,具體用于:
49、通過所述特征提取層對所述音頻樣本進(jìn)行特征提取,并得到第二特征;分別通過所述最大池化層和所述平均池化層對所述第二特征進(jìn)行降維,以分別得到第三特征和第四特征;
50、將所述第三特征和第四特征輸入第一多層感知機(jī),以得到對所述音頻樣本的動態(tài)環(huán)境類別的判斷結(jié)果,將所述第三特征和第四特征輸入第二多層感知機(jī),以得到對所述音頻樣本是否為已降噪的判斷結(jié)果。
51、第三方面,本技術(shù)提供一種電子設(shè)備,采用如下的技術(shù)方案:
52、一種電子設(shè)備,該電子設(shè)備包括:
53、至少一個處理器;
54、存儲器;
55、至少一個應(yīng)用程序,其中所述至少一個應(yīng)用程序被存儲在存儲器中并被配置為由至少一個處理器執(zhí)行,所述至少一個應(yīng)用程序配置用于:執(zhí)行上述動態(tài)降噪與多語音增強(qiáng)的方法。
56、第四方面,本技術(shù)提供一種計算機(jī)可讀存儲介質(zhì),采用如下的技術(shù)方案:
57、一種計算機(jī)可讀存儲介質(zhì),包括:存儲有能夠被處理器加載并執(zhí)行上述動態(tài)降噪與多語音增強(qiáng)的方法的計算機(jī)程序。
58、綜上所述,本技術(shù)包括以下至少一種有益技術(shù)效果:
59、在通過拾音器對室內(nèi)的聲音進(jìn)行采集傳輸時,為降低拾音器采集聲音中的噪聲以及對采集語音的增強(qiáng),?本技術(shù)采用一種動態(tài)降噪與多語音增強(qiáng)的方法,具體的,獲取拾音器所采集的當(dāng)前聲音信號以及歷史聲音信號,燃煤后對歷史聲音信號進(jìn)行音頻曲線捕捉,得到與歷史聲音信號對應(yīng)的音頻曲線以及與音頻曲線對應(yīng)的降噪標(biāo)簽,降噪標(biāo)簽為音頻曲線進(jìn)行分類結(jié)果的標(biāo)注,分類結(jié)果至少包括未降噪、已降噪、獲取音頻曲線時的動態(tài)環(huán)境類別以及歷史聲音信號在最初生成時的動態(tài)環(huán)境類別,然后根據(jù)音頻曲線以及降噪標(biāo)簽對音頻曲線降噪模型進(jìn)行訓(xùn)練,得到訓(xùn)練完成的音頻曲線降噪模型,然后對當(dāng)前聲音信號進(jìn)行音頻曲線捕捉,得到當(dāng)前聲音信號的當(dāng)前音頻曲線,并將當(dāng)前音頻曲線輸入至音頻曲線降噪模型中進(jìn)行降噪,得到降噪處理后的當(dāng)前音頻曲線,然后基于降噪處理后的當(dāng)前音頻曲線生成降噪聲音信號,并將降噪聲音信號發(fā)送至用戶終端設(shè)備,從而在將拾音器采集的聲音傳輸至用戶終端設(shè)備之前,對其聲音進(jìn)行降噪增強(qiáng)處理,達(dá)到了提高音頻降噪的效果。