欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)與流程

文檔序號:40515063發(fā)布日期:2024-12-31 13:24閱讀:8來源:國知局
一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)與流程

本發(fā)明屬于機器翻譯,具體地說,是涉及一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)。


背景技術(shù):

1、隨著人工智能的發(fā)展和國際交流的增多,機器翻譯顯示了它的高效性,但是現(xiàn)有的機器翻譯技術(shù)方案基本都體現(xiàn)在文本翻譯上,在視頻翻譯方面還欠缺完整高質(zhì)量的技術(shù)方案。

2、視頻翻譯主要包括兩個方面,視頻內(nèi)容翻譯和語音合成,現(xiàn)有視頻翻譯技術(shù)方案存在以下問題:

3、(1)視頻翻譯只支持字幕翻譯或者語音合成,并沒有實現(xiàn)端到端視頻翻譯。

4、(2)字幕翻譯不支持編輯功能,用戶無法自定義和校對字幕翻譯內(nèi)容。

5、(3)語音合成難度大,包括合成流暢度、音畫同步、多角色配音等問題。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于人工智能的端到端視頻翻譯方法,以解決現(xiàn)有技術(shù)所存在的技術(shù)問題。

2、為了實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案如下:

3、一種基于人工智能的端到端視頻翻譯方法,包括以下步驟:

4、(1)處理用戶上傳的視頻文件:提取視頻文件中的原始音頻文件,處理后得到人聲音頻文件和背景音樂音頻文件;

5、(2)生成可自定義的雙語字幕文件:(21)使用whisper模型進行語音識別,將所述的人聲音頻文件轉(zhuǎn)為原始字幕文件,該原始字幕文件區(qū)分了每段說話區(qū)間的起止時間和字幕內(nèi)容;(22)使用speakerrecognition模型對所述的人聲音頻文件中每段說話區(qū)間進行說話人識別,并為每個說話人都提供一個默認的音色;(23)使用lanmt機翻引擎對原始字幕文件的字幕內(nèi)容進行翻譯;(24)整合所述(21)、(22)和(23)得到的內(nèi)容,每個有聲區(qū)對應(yīng)一條字幕內(nèi)容,整合所有的有聲區(qū),生成用戶可自定義的雙語字幕文件;

6、(3)基于步驟(2)中的雙語字幕文件,進行語音合成,得到合成語音;

7、(4)視頻合成,生成最終的翻譯后視頻。

8、優(yōu)選的,所述(1)中通過spleeter模型進行人聲、背景音樂分離,同時使用mdx-net、deecho-aggressive模型對音頻文件進行降噪、去混響處理,得到人聲音頻文件和背景音樂音頻文件。

9、優(yōu)選的,所述(2)中,生成的雙語字幕文件返回給用戶,用戶可以對每條字幕文件中的所有內(nèi)容進行修改,得到用戶自定義的字幕文件。

10、優(yōu)選的,所述(3)中,語音合成的具體方法如下:(31)使用tacotron?和?wavenet算法進行基礎(chǔ)的語音合成,得到基礎(chǔ)合成語音數(shù)據(jù);(32)基于基礎(chǔ)合成語音數(shù)據(jù),使用vall-e算法模擬說話人的語調(diào)、情緒、口音;(33)使用vits算法進行聲紋模擬;(34)使用hp2模型進行降噪處理,消除電音,得到最終的合成語音。

11、優(yōu)選的,所述(3)還包括:對合成語音進行靜音段剪切和添加處理,然后,通過wsloa算法對處理后的合成語音進行變速不變調(diào)處理。

12、優(yōu)選的,所述(4)中,視頻合成的方法如下:(41)將所述原始音頻文件替換為步驟(3)得到的合成語音;(42)將背景音樂音頻文件附加到視頻中;(43)將用戶自定義的字幕文件添加到視頻中,生成最終的翻譯后視頻。

13、為了實現(xiàn)上述目的,本發(fā)明還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行,以實現(xiàn)所述的基于人工智能的端到端視頻翻譯方法。

14、為了實現(xiàn)上述目的,本發(fā)明還提供了一種基于人工智能的端到端視頻翻譯裝置,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述基于人工智能的端到端視頻翻譯裝置執(zhí)行所述的基于人工智能的端到端視頻翻譯方法。

15、與現(xiàn)有技術(shù)相比,本發(fā)明具備以下有益效果:

16、(1)本發(fā)明通過語音識別、機器翻譯、語音合成、視頻合成等技術(shù)實現(xiàn)端到端的視頻翻譯,實現(xiàn)完整的視頻的自動譯配,極大方便用戶使用。

17、(2)本發(fā)明提供字幕編輯功能,用戶可以自定義字幕文件內(nèi)容和格式,對字幕進行調(diào)整和校對。

18、(3)本發(fā)明使用了音頻分離和降噪算法,保證語音識別的準確性;使用語音合成、音色克隆、聲紋模擬算法,使得合成音頻效果更好。



技術(shù)特征:

1.一種基于人工智能的端到端視頻翻譯方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(1)中通過spleeter模型進行人聲、背景音樂分離,同時使用mdx-net、deecho-aggressive模型對音頻文件進行降噪、去混響處理,得到人聲音頻文件和背景音樂音頻文件。

3.根據(jù)權(quán)利要求2所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(2)中,生成的雙語字幕文件返回給用戶,用戶可以對每條字幕文件中的所有內(nèi)容進行修改,得到用戶自定義的字幕文件。

4.根據(jù)權(quán)利要求3所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(3)中,語音合成的具體方法如下:(31)使用tacotron?和?wavenet算法進行基礎(chǔ)的語音合成,得到基礎(chǔ)合成語音數(shù)據(jù);(32)基于基礎(chǔ)合成語音數(shù)據(jù),使用vall-e算法模擬說話人的語調(diào)、情緒、口音;(33)使用vits算法進行聲紋模擬;(34)使用hp2模型進行降噪處理,消除電音,得到最終的合成語音。

5.根據(jù)權(quán)利要求4所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(3)還包括:對合成語音進行靜音段剪切和添加處理,然后,通過wsloa算法對處理后的合成語音進行變速不變調(diào)處理。

6.根據(jù)權(quán)利要求5所述的基于人工智能的端到端視頻翻譯方法,其特征在于,所述(4)中,視頻合成的方法如下:(41)將所述原始音頻文件替換為步驟(3)得到的合成語音;(42)將背景音樂音頻文件附加到視頻中;(43)將用戶自定義的字幕文件添加到視頻中,生成最終的翻譯后視頻。

7.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行,以實現(xiàn)如權(quán)利要求1~6中任一項所述的基于人工智能的端到端視頻翻譯方法。

8.一種基于人工智能的端到端視頻翻譯裝置,其特征在于,包括:處理器和存儲器;所述存儲器用于存儲計算機程序;所述處理器與所述存儲器相連,用于執(zhí)行所述存儲器存儲的計算機程序,以使得所述基于人工智能的端到端視頻翻譯裝置執(zhí)行如權(quán)利要求1~6中任一項所述的基于人工智能的端到端視頻翻譯方法。


技術(shù)總結(jié)
本發(fā)明屬于機器翻譯技術(shù)領(lǐng)域,提供了一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì),其中,方法包括(1)處理用戶上傳的視頻文件:提取視頻文件中的原始音頻文件,處理后得到人聲音頻文件和背景音樂音頻文件;(2)生成可自定義的雙語字幕文件:(3)基于步驟(2)中的雙語字幕文件,進行語音合成,得到合成語音;(4)視頻合成,生成最終的翻譯后視頻。本發(fā)明通過語音識別、機器翻譯、語音合成、視頻合成等技術(shù)實現(xiàn)端到端的視頻翻譯,實現(xiàn)完整的視頻的自動譯配,極大方便用戶使用。

技術(shù)研發(fā)人員:朱憲超,駱敏,霍展羽,李晶
受保護的技術(shù)使用者:四川語言橋信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
绥阳县| 田林县| 东方市| 阜康市| 齐齐哈尔市| 班玛县| 望奎县| 株洲县| 永福县| 崇礼县| 浑源县| 平利县| 会东县| 台安县| 古浪县| 山阳县| 三门县| 梁平县| 峨边| 隆化县| 六枝特区| 永仁县| 阿拉善右旗| 兴国县| 武汉市| 开封县| 舞钢市| 宜宾县| 通化县| 天长市| 汉中市| 韶山市| 云安县| 邢台县| 高淳县| 连云港市| 江西省| 永济市| 田东县| 伊宁县| 南丹县|