本發(fā)明屬于機器翻譯,具體地說,是涉及一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)。
背景技術(shù):
1、隨著人工智能的發(fā)展和國際交流的增多,機器翻譯顯示了它的高效性,但是現(xiàn)有的機器翻譯技術(shù)方案基本都體現(xiàn)在文本翻譯上,在視頻翻譯方面還欠缺完整高質(zhì)量的技術(shù)方案。
2、視頻翻譯主要包括兩個方面,視頻內(nèi)容翻譯和語音合成,現(xiàn)有視頻翻譯技術(shù)方案存在以下問題:
3、(1)視頻翻譯只支持字幕翻譯或者語音合成,并沒有實現(xiàn)端到端視頻翻譯。
4、(2)字幕翻譯不支持編輯功能,用戶無法自定義和校對字幕翻譯內(nèi)容。
5、(3)語音合成難度大,包括合成流暢度、音畫同步、多角色配音等問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于人工智能的端到端視頻翻譯方法,以解決現(xiàn)有技術(shù)所存在的技術(shù)問題。
2、為了實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案如下:
3、一種基于人工智能的端到端視頻翻譯方法,包括以下步驟:
4、(1)處理用戶上傳的視頻文件:提取視頻文件中的原始音頻文件,處理后得到人聲音頻文件和背景音樂音頻文件;
5、(2)生成可自定義的雙語字幕文件:(21)使用whisper模型進行語音識別,將所述的人聲音頻文件轉(zhuǎn)為原始字幕文件,該原始字幕文件區(qū)分了每段說話區(qū)間的起止時間和字幕內(nèi)容;(22)使用speakerrecognition模型對所述的人聲音頻文件中每段說話區(qū)間進行說話人識別,并為每個說話人都提供一個默認的音色;(23)使用lanmt機翻引擎對原始字幕文件的字幕內(nèi)容進行翻譯;(24)整合所述(21)、(22)和(23)得到的內(nèi)容,每個有聲區(qū)對應(yīng)一條字幕內(nèi)容,整合所有的有聲區(qū),生成用戶可自定義的雙語字幕文件;
6、(3)基于步驟(2)中的雙語字幕文件,進行語音合成,得到合成語音;
7、(4)視頻合成,生成最終的翻譯后視頻。
8、優(yōu)選的,所述(1)中通過spleeter模型進行人聲、背景音樂分離,同時使用mdx-net、deecho-aggressive模型對音頻文件進行降噪、去混響處理,得到人聲音頻文件和背景音樂音頻文件。
9、優(yōu)選的,所述(2)中,生成的雙語字幕文件返回給用戶,用戶可以對每條字幕文件中的所有內(nèi)容進行修改,得到用戶自定義的字幕文件。
10、優(yōu)選的,所述(3)中,語音合成的具體方法如下:(31)使用tacotron?和?wavenet算法進行基礎(chǔ)的語音合成,得到基礎(chǔ)合成語音數(shù)據(jù);(32)基于基礎(chǔ)合成語音數(shù)據(jù),使用vall-e算法模擬說話人的語調(diào)、情緒、口音;(33)使用vits算法進行聲紋模擬;(34)使用hp2模型進行降噪處理,消除電音,得到最終的合成語音。
11、優(yōu)選的,所述(3)還包括:對合成語音進行靜音段剪切和添加處理,然后,通過wsloa算法對處理后的合成語音進行變速不變調(diào)處理。
12、優(yōu)選的,所述(4)中,視頻合成的方法如下:(41)將所述原始音頻文件替換為步驟(3)得到的合成語音;(42)將背景音樂音頻文件附加到視頻中;(43)將用戶自定義的字幕文件添加到視頻中,生成最終的翻譯后視頻。
13、為了實現(xiàn)上述目的,本發(fā)明還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行,以實現(xiàn)所述的基于人工智能的端到端視頻翻譯方法。
14、為了實現(xiàn)上述目的,本發(fā)明還提供了一種基于人工智能的端到端視頻翻譯裝置,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述基于人工智能的端到端視頻翻譯裝置執(zhí)行所述的基于人工智能的端到端視頻翻譯方法。
15、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:
16、(1)本發(fā)明通過語音識別、機器翻譯、語音合成、視頻合成等技術(shù)實現(xiàn)端到端的視頻翻譯,實現(xiàn)完整的視頻的自動譯配,極大方便用戶使用。
17、(2)本發(fā)明提供字幕編輯功能,用戶可以自定義字幕文件內(nèi)容和格式,對字幕進行調(diào)整和校對。
18、(3)本發(fā)明使用了音頻分離和降噪算法,保證語音識別的準確性;使用語音合成、音色克隆、聲紋模擬算法,使得合成音頻效果更好。
1.一種基于人工智能的端到端視頻翻譯方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(1)中通過spleeter模型進行人聲、背景音樂分離,同時使用mdx-net、deecho-aggressive模型對音頻文件進行降噪、去混響處理,得到人聲音頻文件和背景音樂音頻文件。
3.根據(jù)權(quán)利要求2所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(2)中,生成的雙語字幕文件返回給用戶,用戶可以對每條字幕文件中的所有內(nèi)容進行修改,得到用戶自定義的字幕文件。
4.根據(jù)權(quán)利要求3所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(3)中,語音合成的具體方法如下:(31)使用tacotron?和?wavenet算法進行基礎(chǔ)的語音合成,得到基礎(chǔ)合成語音數(shù)據(jù);(32)基于基礎(chǔ)合成語音數(shù)據(jù),使用vall-e算法模擬說話人的語調(diào)、情緒、口音;(33)使用vits算法進行聲紋模擬;(34)使用hp2模型進行降噪處理,消除電音,得到最終的合成語音。
5.根據(jù)權(quán)利要求4所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(3)還包括:對合成語音進行靜音段剪切和添加處理,然后,通過wsloa算法對處理后的合成語音進行變速不變調(diào)處理。
6.根據(jù)權(quán)利要求5所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(4)中,視頻合成的方法如下:(41)將所述原始音頻文件替換為步驟(3)得到的合成語音;(42)將背景音樂音頻文件附加到視頻中;(43)將用戶自定義的字幕文件添加到視頻中,生成最終的翻譯后視頻。
7.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行,以實現(xiàn)如權(quán)利要求1~6中任一項所述的基于人工智能的端到端視頻翻譯方法。
8.一種基于人工智能的端到端視頻翻譯裝置,其特征在于,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述基于人工智能的端到端視頻翻譯裝置執(zhí)行如權(quán)利要求1~6中任一項所述的基于人工智能的端到端視頻翻譯方法。