一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)與流程

文檔序號：40515063發(fā)布日期：2024-12-31 13:24閱讀：8來源：國知局

本發(fā)明屬于機器翻譯，具體地說，是涉及一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)。

背景技術(shù)：

1、隨著人工智能的發(fā)展和國際交流的增多，機器翻譯顯示了它的高效性，但是現(xiàn)有的機器翻譯技術(shù)方案基本都體現(xiàn)在文本翻譯上，在視頻翻譯方面還欠缺完整高質(zhì)量的技術(shù)方案。

2、視頻翻譯主要包括兩個方面，視頻內(nèi)容翻譯和語音合成，現(xiàn)有視頻翻譯技術(shù)方案存在以下問題：

3、（1）視頻翻譯只支持字幕翻譯或者語音合成，并沒有實現(xiàn)端到端視頻翻譯。

4、（2）字幕翻譯不支持編輯功能，用戶無法自定義和校對字幕翻譯內(nèi)容。

5、（3）語音合成難度大，包括合成流暢度、音畫同步、多角色配音等問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于人工智能的端到端視頻翻譯方法，以解決現(xiàn)有技術(shù)所存在的技術(shù)問題。

2、為了實現(xiàn)上述目的，本發(fā)明采取的技術(shù)方案如下：

3、一種基于人工智能的端到端視頻翻譯方法，包括以下步驟：

4、（1）處理用戶上傳的視頻文件：提取視頻文件中的原始音頻文件，處理后得到人聲音頻文件和背景音樂音頻文件；

5、（2）生成可自定義的雙語字幕文件：（21）使用whisper模型進行語音識別，將所述的人聲音頻文件轉(zhuǎn)為原始字幕文件，該原始字幕文件區(qū)分了每段說話區(qū)間的起止時間和字幕內(nèi)容；（22）使用speakerrecognition模型對所述的人聲音頻文件中每段說話區(qū)間進行說話人識別，并為每個說話人都提供一個默認的音色；（23）使用lanmt機翻引擎對原始字幕文件的字幕內(nèi)容進行翻譯；（24）整合所述（21）、（22）和（23）得到的內(nèi)容，每個有聲區(qū)對應(yīng)一條字幕內(nèi)容，整合所有的有聲區(qū)，生成用戶可自定義的雙語字幕文件；

6、（3）基于步驟（2）中的雙語字幕文件，進行語音合成，得到合成語音；

7、（4）視頻合成，生成最終的翻譯后視頻。

8、優(yōu)選的，所述（1）中通過spleeter模型進行人聲、背景音樂分離，同時使用mdx-net、deecho-aggressive模型對音頻文件進行降噪、去混響處理，得到人聲音頻文件和背景音樂音頻文件。

9、優(yōu)選的，所述（2）中，生成的雙語字幕文件返回給用戶，用戶可以對每條字幕文件中的所有內(nèi)容進行修改，得到用戶自定義的字幕文件。

10、優(yōu)選的，所述（3）中，語音合成的具體方法如下：（31）使用tacotron?和?wavenet算法進行基礎(chǔ)的語音合成，得到基礎(chǔ)合成語音數(shù)據(jù)；（32）基于基礎(chǔ)合成語音數(shù)據(jù)，使用vall-e算法模擬說話人的語調(diào)、情緒、口音；（33）使用vits算法進行聲紋模擬；（34）使用hp2模型進行降噪處理，消除電音，得到最終的合成語音。

11、優(yōu)選的，所述（3）還包括：對合成語音進行靜音段剪切和添加處理，然后，通過wsloa算法對處理后的合成語音進行變速不變調(diào)處理。

12、優(yōu)選的，所述（4）中，視頻合成的方法如下：（41）將所述原始音頻文件替換為步驟（3）得到的合成語音；（42）將背景音樂音頻文件附加到視頻中；（43）將用戶自定義的字幕文件添加到視頻中，生成最終的翻譯后視頻。

13、為了實現(xiàn)上述目的，本發(fā)明還提供了一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行，以實現(xiàn)所述的基于人工智能的端到端視頻翻譯方法。

14、為了實現(xiàn)上述目的，本發(fā)明還提供了一種基于人工智能的端到端視頻翻譯裝置，包括：處理器和存儲器；所述存儲器用于存儲計算機程序；所述處理器與所述存儲器相連，用于執(zhí)行所述存儲器存儲的計算機程序，以使得所述基于人工智能的端到端視頻翻譯裝置執(zhí)行所述的基于人工智能的端到端視頻翻譯方法。

15、與現(xiàn)有技術(shù)相比，本發(fā)明具備以下有益效果：

16、（1）本發(fā)明通過語音識別、機器翻譯、語音合成、視頻合成等技術(shù)實現(xiàn)端到端的視頻翻譯，實現(xiàn)完整的視頻的自動譯配，極大方便用戶使用。

17、（2）本發(fā)明提供字幕編輯功能，用戶可以自定義字幕文件內(nèi)容和格式，對字幕進行調(diào)整和校對。

18、（3）本發(fā)明使用了音頻分離和降噪算法，保證語音識別的準確性；使用語音合成、音色克隆、聲紋模擬算法，使得合成音頻效果更好。

技術(shù)特征：

1.一種基于人工智能的端到端視頻翻譯方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于人工智能的端到端視頻翻譯方法，其特征在于，所述（1）中通過spleeter模型進行人聲、背景音樂分離，同時使用mdx-net、deecho-aggressive模型對音頻文件進行降噪、去混響處理，得到人聲音頻文件和背景音樂音頻文件。

3.根據(jù)權(quán)利要求2所述的基于人工智能的端到端視頻翻譯方法，其特征在于，所述（2）中，生成的雙語字幕文件返回給用戶，用戶可以對每條字幕文件中的所有內(nèi)容進行修改，得到用戶自定義的字幕文件。

4.根據(jù)權(quán)利要求3所述的基于人工智能的端到端視頻翻譯方法，其特征在于，所述（3）中，語音合成的具體方法如下：（31）使用tacotron?和?wavenet算法進行基礎(chǔ)的語音合成，得到基礎(chǔ)合成語音數(shù)據(jù)；（32）基于基礎(chǔ)合成語音數(shù)據(jù)，使用vall-e算法模擬說話人的語調(diào)、情緒、口音；（33）使用vits算法進行聲紋模擬；（34）使用hp2模型進行降噪處理，消除電音，得到最終的合成語音。

5.根據(jù)權(quán)利要求4所述的基于人工智能的端到端視頻翻譯方法，其特征在于，所述（3）還包括：對合成語音進行靜音段剪切和添加處理，然后，通過wsloa算法對處理后的合成語音進行變速不變調(diào)處理。

6.根據(jù)權(quán)利要求5所述的基于人工智能的端到端視頻翻譯方法，其特征在于，所述（4）中，視頻合成的方法如下：（41）將所述原始音頻文件替換為步驟（3）得到的合成語音；（42）將背景音樂音頻文件附加到視頻中；（43）將用戶自定義的字幕文件添加到視頻中，生成最終的翻譯后視頻。

7.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行，以實現(xiàn)如權(quán)利要求1~6中任一項所述的基于人工智能的端到端視頻翻譯方法。

8.一種基于人工智能的端到端視頻翻譯裝置，其特征在于，包括：處理器和存儲器；所述存儲器用于存儲計算機程序；所述處理器與所述存儲器相連，用于執(zhí)行所述存儲器存儲的計算機程序，以使得所述基于人工智能的端到端視頻翻譯裝置執(zhí)行如權(quán)利要求1~6中任一項所述的基于人工智能的端到端視頻翻譯方法。

技術(shù)總結(jié)
本發(fā)明屬于機器翻譯技術(shù)領(lǐng)域，提供了一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)，其中，方法包括（1）處理用戶上傳的視頻文件：提取視頻文件中的原始音頻文件，處理后得到人聲音頻文件和背景音樂音頻文件；（2）生成可自定義的雙語字幕文件：（3）基于步驟（2）中的雙語字幕文件，進行語音合成，得到合成語音；（4）視頻合成，生成最終的翻譯后視頻。本發(fā)明通過語音識別、機器翻譯、語音合成、視頻合成等技術(shù)實現(xiàn)端到端的視頻翻譯，實現(xiàn)完整的視頻的自動譯配，極大方便用戶使用。

技術(shù)研發(fā)人員：朱憲超,駱敏,霍展羽,李晶
受保護的技術(shù)使用者：四川語言橋信息技術(shù)有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱憲超,駱敏,霍展羽,李晶
技術(shù)所有人：四川語言橋信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種衍生生物質(zhì)硬碳材料粉化裝置的制作方法
上一篇：一種發(fā)電裝置及新能源汽車的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)與流程

一種基于人工智能的端到端視頻翻譯方法、裝置及介質(zhì)與流程