本公開涉及計(jì)算機(jī),尤其涉及語音增強(qiáng)、深度學(xué)習(xí)等人工智能,具體涉及一種語音處理方法、語音處理模型的訓(xùn)練方法、裝置及設(shè)備。
背景技術(shù):
1、車載語音交互可以將用戶的語音指令轉(zhuǎn)化為車機(jī)可理解的指令,然后通過語音合成技術(shù)將系統(tǒng)的反饋信息以語音形式傳達(dá)給用戶。車載語音交互技術(shù),廣泛應(yīng)用于車載導(dǎo)航、車載娛樂、車載通訊、車輛控制、智能助理等車載場(chǎng)景。
2、但是,在手機(jī)導(dǎo)航或者手機(jī)刷短視頻等場(chǎng)景,由于無法屏蔽手機(jī)的聲音,會(huì)影響對(duì)用戶的語音識(shí)別準(zhǔn)確率,從而無法準(zhǔn)確地判斷的用戶意圖,影響交互體驗(yàn),甚至存在手機(jī)干擾與車機(jī)進(jìn)行交互的可能,使車機(jī)做出錯(cuò)誤的反饋。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種語音處理方法、語音處理模型的訓(xùn)練方法、裝置及設(shè)備。
2、根據(jù)本公開的第一方面,提供了一種語音處理方法,包括:
3、獲取車輛內(nèi)目標(biāo)音區(qū)對(duì)應(yīng)的唇動(dòng)視頻及所述車輛內(nèi)的混合語音;
4、對(duì)所述混合語音進(jìn)行語音增強(qiáng),以獲取所述目標(biāo)音區(qū)對(duì)應(yīng)的初始語音;
5、對(duì)所述唇動(dòng)視頻進(jìn)行特征提取,以獲取唇動(dòng)特征;
6、對(duì)所述初始語音進(jìn)行特征提取,以獲取音頻特征;
7、根據(jù)所述音頻特征及所述唇動(dòng)特征,確定所述目標(biāo)音區(qū)對(duì)應(yīng)的目標(biāo)語音。
8、根據(jù)本公開的第二方面,提供了一種語音處理模型的訓(xùn)練方法,包括:
9、獲取樣本音區(qū)對(duì)應(yīng)的樣本語音、第一唇動(dòng)視頻及第一語音標(biāo)簽;
10、將所述第一唇動(dòng)視頻輸入初始語音處理模型中的唇動(dòng)編碼器,得到樣本唇動(dòng)特征;
11、將所述樣本語音輸入所述初始語音處理模型中的初始音頻編碼中,得到樣本音頻特征,
12、將所述樣本唇動(dòng)特征及所述樣本音頻特征,輸入所述初始語音處理模型中的初始增強(qiáng)網(wǎng)絡(luò)中,以獲取所述樣本音區(qū)對(duì)應(yīng)的第一預(yù)測(cè)語音;
13、根據(jù)所述第一預(yù)測(cè)語音與所述第一語音標(biāo)簽之間的差異,對(duì)所述初始音頻編碼器及所述初始增強(qiáng)網(wǎng)絡(luò)進(jìn)行修正,以獲取語音處理模型,所述語音處理模型用于實(shí)現(xiàn)如第一方面所述的語音處理方法。
14、根據(jù)本公開的第三方面,提供了一種語音處理裝置,包括:
15、第一獲取模塊,用于獲取車輛內(nèi)目標(biāo)音區(qū)對(duì)應(yīng)的唇動(dòng)視頻及所述車輛內(nèi)的混合語音;
16、第二獲取模塊,用于對(duì)所述混合語音進(jìn)行語音增強(qiáng),以獲取所述目標(biāo)音區(qū)對(duì)應(yīng)的初始語音;
17、第一提取模塊,用于對(duì)所述唇動(dòng)視頻進(jìn)行特征提取,以獲取唇動(dòng)特征;
18、第二提取模塊,用于對(duì)所述初始語音進(jìn)行特征提取,以獲取音頻特征;
19、確定模塊,用于根據(jù)所述音頻特征及所述唇動(dòng)特征,確定所述目標(biāo)音區(qū)對(duì)應(yīng)的目標(biāo)語音。
20、根據(jù)本公開的第四方面,提供了一種語音處理模型的訓(xùn)練裝置,包括:
21、獲取模塊,用于獲取樣本音區(qū)對(duì)應(yīng)的樣本語音、第一唇動(dòng)視頻及第一語音標(biāo)簽;
22、第一提取模塊,用于將所述第一唇動(dòng)視頻輸入初始語音處理模型中的唇動(dòng)編碼器,得到樣本唇動(dòng)特征;
23、第二提取模塊,用于將所述樣本語音輸入所述初始語音處理模型中的初始音頻編碼中,得到樣本音頻特征,
24、預(yù)測(cè)模塊,用于將所述樣本唇動(dòng)特征及所述樣本音頻特征,輸入所述初始語音處理模型中的初始增強(qiáng)網(wǎng)絡(luò)中,以獲取所述樣本音區(qū)對(duì)應(yīng)的第一預(yù)測(cè)語音;
25、修正模塊,用于根據(jù)所述第一預(yù)測(cè)語音與所述第一語音標(biāo)簽之間的差異,對(duì)所述初始音頻編碼器及所述初始增強(qiáng)網(wǎng)絡(luò)進(jìn)行修正,以獲取語音處理模型,所述語音處理模型用于實(shí)現(xiàn)如第一方面所述的語音處理方法。
26、根據(jù)本公開的第五方面,提供了一種電子設(shè)備,包括:
27、至少一個(gè)處理器;以及
28、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
29、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行如第一方面所述的語音處理方法,或者執(zhí)行如第二方面所述的語音處理模型的訓(xùn)練方法。
30、根據(jù)本公開第六方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行如第一方面所述的語音處理方法,或者執(zhí)行如第二方面所述的語音處理模型的訓(xùn)練方法。
31、根據(jù)本公開的第七方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面所述的語音處理方法的步驟,或者實(shí)現(xiàn)如第二方面所述的語音處理模型的訓(xùn)練方法的步驟。
32、本公開提供的語音處理方法、語音處理模型的訓(xùn)練方法、裝置及設(shè)備,存在如下
33、有益效果:
34、本公開實(shí)施例中,先獲取車輛內(nèi)目標(biāo)音區(qū)對(duì)應(yīng)的唇動(dòng)視頻及車輛內(nèi)的混合語音,之后對(duì)混合語音進(jìn)行語音增強(qiáng),以獲取目標(biāo)音區(qū)對(duì)應(yīng)的初始語音,進(jìn)而對(duì)唇動(dòng)視頻進(jìn)行特征提取,以獲取唇動(dòng)特征,對(duì)初始語音進(jìn)行特征提取,以獲取音頻特征,最后根據(jù)音頻特征及唇動(dòng)特征,確定目標(biāo)音區(qū)對(duì)應(yīng)的目標(biāo)語音。由此,可以先對(duì)混合語音進(jìn)行純語音增強(qiáng),得到純語音增強(qiáng)后目標(biāo)音區(qū)對(duì)應(yīng)的初始語音,進(jìn)而結(jié)合目標(biāo)音區(qū)對(duì)應(yīng)的唇動(dòng)視頻,進(jìn)一步對(duì)純語音增強(qiáng)后的初始語音進(jìn)行多模態(tài)增強(qiáng),從而提高了用戶語音識(shí)別的準(zhǔn)確率,進(jìn)而可以準(zhǔn)確地判斷用戶意圖,使車機(jī)可以做出正確的反饋,提升用戶體驗(yàn)。
35、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種語音處理方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)所述唇動(dòng)視頻進(jìn)行特征提取,以獲取唇動(dòng)特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述對(duì)所述初始語音進(jìn)行特征提取,以獲取音頻特征,包括:
4.根據(jù)權(quán)利要求1或3所述的方法,其中,所述根據(jù)所述音頻特征及所述唇動(dòng)特征,確定所述目標(biāo)音區(qū)對(duì)應(yīng)的目標(biāo)語音,包括:
5.根據(jù)權(quán)利要求1所述的方法,其中,在所述獲取車輛內(nèi)目標(biāo)音區(qū)對(duì)應(yīng)的唇動(dòng)視頻及所述車輛內(nèi)的混合語音之前,還包括:
6.根據(jù)權(quán)利要求5所述的方法,其中,所述獲取車輛內(nèi)目標(biāo)音區(qū)對(duì)應(yīng)的唇動(dòng)視頻,包括:
7.根據(jù)權(quán)利要求6所述的方法,其中,所述根據(jù)每幀圖像對(duì)應(yīng)的第二檢測(cè)結(jié)果,對(duì)所述視頻數(shù)據(jù)進(jìn)行唇部區(qū)域提取,以獲取所述唇動(dòng)視頻,包括:
8.根據(jù)權(quán)利要求7所述的方法,其中,還包括:
9.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)所述混合語音進(jìn)行語音增強(qiáng),以獲取所述目標(biāo)音區(qū)對(duì)應(yīng)的初始語音,包括:
10.一種語音處理模型的訓(xùn)練方法,包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,還包括:
12.根據(jù)權(quán)利要求10所述的方法,其中,所述將所述樣本唇動(dòng)特征及所述樣本音頻特征,輸入所述初始語音處理模型中的初始增強(qiáng)網(wǎng)絡(luò)中,以獲取所述樣本音區(qū)對(duì)應(yīng)的第一預(yù)測(cè)語音,包括:
13.根據(jù)權(quán)利要求10所述的方法,其中,還包括:
14.一種語音處理裝置,包括:
15.根據(jù)權(quán)利要求14所述的裝置,其中,所述第一提取模塊,用于:
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述第二提取模塊,用于:
17.根據(jù)權(quán)利要求14或16所述的裝置,其中,所述確定模塊,用于:
18.根據(jù)權(quán)利要求14所述的裝置,其中,還包括第一處理模塊,用于:
19.根據(jù)權(quán)利要求18所述的裝置,其中,所述第一獲取模塊,用于:
20.根據(jù)權(quán)利要求19所述的裝置,其中,所述第一獲取模塊,用于:
21.根據(jù)權(quán)利要求20所述的裝置,其中,還包括第二處理模塊,用于:
22.根據(jù)權(quán)利要求14所述的裝置,其中,所述第二獲取模塊,用于:
23.一種語音處理模型的訓(xùn)練裝置,包括:
24.根據(jù)權(quán)利要求23所述的裝置,其特征在于,還包括處理模塊,用于:
25.根據(jù)權(quán)利要求23所述的裝置,其中,所述預(yù)測(cè)模塊,用于:
26.根據(jù)權(quán)利要求23所述的裝置,其中,第一獲取模塊,用于:
27.一種電子設(shè)備,包括:
28.一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行權(quán)利要求1-9中任一項(xiàng)所述的方法,或者執(zhí)行權(quán)利要求10-13中任一項(xiàng)所述的方法。
29.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-9中任一項(xiàng)所述方法的步驟,或者實(shí)現(xiàn)權(quán)利要求10-13中任一項(xiàng)所述方法的步驟。