一種語音生成方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號：40621947發(fā)布日期：2025-01-10 18:27閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本技術(shù)涉及人工智能，尤其涉及一種語音生成方法、裝置、設(shè)備及介質(zhì)。

背景技術(shù)：

1、語音生成技術(shù)，即文本到語音(text-to-speech,tts)技術(shù)，是一種前沿的人工智能技術(shù)。該技術(shù)涵蓋了語音識別、語音合成等多個環(huán)節(jié)，可以實現(xiàn)從文字到聲音的轉(zhuǎn)換。語音生成技術(shù)在多個領(lǐng)域展現(xiàn)了廣泛的應(yīng)用價值。在教育領(lǐng)域，它可以為學(xué)生和教師提供語音輔導(dǎo)和教學(xué)資源；在智能客服系統(tǒng)中，能夠模擬真人語音，提供24/7的自動客戶服務(wù)；在娛樂和游戲領(lǐng)域，為游戲角色創(chuàng)建獨(dú)特的語音，增強(qiáng)用戶體驗。

2、語音生成技術(shù)其核心問題在于如何生成自然、流暢、富有表現(xiàn)力的語音?，F(xiàn)有的語音生成系統(tǒng)生成的語音往往缺乏自然度和表現(xiàn)力，無法準(zhǔn)確傳達(dá)說話人的情感和語氣，難以實現(xiàn)對語音風(fēng)格、音色等方面的精細(xì)控制，無法滿足個性化語音合成的需求。因此，亟需開發(fā)出一種更加智能和自然的語音生成技術(shù)。

技術(shù)實現(xiàn)思路

1、本技術(shù)實施例的目的在于提出一種語音生成方法、裝置、設(shè)備及介質(zhì)，以解決現(xiàn)有語音生成系統(tǒng)生成的語音缺乏自然度和表現(xiàn)力，無法準(zhǔn)確傳達(dá)說話人的情感和語氣，難以實現(xiàn)語音風(fēng)格、音色等方面的精細(xì)控制，無法滿足個性化語音合成的需求的問題。

2、為了解決上述技術(shù)問題，本技術(shù)實施例提供一種語音生成方法，采用了如下的技術(shù)方案：

3、獲取待轉(zhuǎn)換文本，待轉(zhuǎn)換文本用于轉(zhuǎn)換為目標(biāo)合成語音；對待轉(zhuǎn)換文本進(jìn)行聲碼轉(zhuǎn)換處理，得到待轉(zhuǎn)換文本的多個語音特征信息；計算每個語音特征信息與目標(biāo)語音碼本的各種語音碼本特征信息之間的相似度，目標(biāo)語音碼本為基于日常語音處理得到的語音碼本；基于相似度，從目標(biāo)語音碼本中確定待轉(zhuǎn)換文本對應(yīng)的多個目標(biāo)語音碼本特征信息；采用目標(biāo)解碼器，將多個目標(biāo)語音碼本特征信息轉(zhuǎn)換為語音，得到待轉(zhuǎn)換文本對應(yīng)的目標(biāo)合成語音，目標(biāo)解碼器為基于日常語音訓(xùn)練得到的解碼器。

4、進(jìn)一步的，對待轉(zhuǎn)換文本進(jìn)行聲碼轉(zhuǎn)換處理，得到待轉(zhuǎn)換文本的多個語音特征信息的步驟，具體包括：

5、提取待轉(zhuǎn)換文本的多個文本特征信息；將多個文本特征信息輸入預(yù)設(shè)的文本解碼器進(jìn)行解碼，得到待轉(zhuǎn)換文本的多個語音特征信息。

6、進(jìn)一步的，提取待轉(zhuǎn)換文本的多個文本特征信息的步驟，具體包括：

7、對待轉(zhuǎn)換文本進(jìn)行預(yù)處理，得到多個文本分詞，基于預(yù)設(shè)的詞匯表，將每個文本分詞轉(zhuǎn)換為特征向量；將特征向量輸入預(yù)設(shè)的文本編碼器，得到多個文本特征信息。

8、進(jìn)一步的，在計算每個語音特征信息與目標(biāo)語音碼本的各種語音碼本特征信息之間的相似度的步驟之前，還包括：

9、獲取日常語音，將日常語音輸入預(yù)設(shè)的編碼器，得到多個語音隱變量信息；從預(yù)設(shè)的參考碼本中確定表征多個語音隱變量信息的目標(biāo)碼本特征信息；將目標(biāo)碼本特征信息輸入預(yù)設(shè)的解碼器，得到日常語音對應(yīng)的合成語音，基于日常語音和合成語音，計算損失函數(shù)；基于損失函數(shù)調(diào)整編碼器的編碼參數(shù)以及調(diào)整解碼器的解碼參數(shù)，返回執(zhí)行將日常語音輸入預(yù)設(shè)的編碼器，得到多個語音隱變量信息的步驟，直到損失函數(shù)收斂達(dá)到預(yù)設(shè)的收斂閾值為止；將損失函數(shù)收斂達(dá)到預(yù)設(shè)的收斂閾值時的編碼器和解碼器確定為目標(biāo)編碼器、目標(biāo)解碼器，將損失函數(shù)收斂達(dá)到預(yù)設(shè)的收斂閾值時的多個語音隱變量信息確定為目標(biāo)語音隱變量信息；基于目標(biāo)語音隱變量信息，構(gòu)建目標(biāo)語音碼本。

10、進(jìn)一步的，從預(yù)設(shè)的參考碼本中確定表征多個語音隱變量信息的目標(biāo)碼本特征信息的步驟，具體包括：

11、計算多個語音隱變量信息與預(yù)設(shè)的參考碼本的每個維度的碼本特征信息之間的信息相似度，得到多個相似度結(jié)果；基于相似度結(jié)果，從參考碼本中確定表征多個語音隱變量信息的目標(biāo)碼本特征信息。

12、進(jìn)一步的，基于日常語音和合成語音，計算損失函數(shù)的步驟，具體包括：

13、將合成語音與日常語音輸入預(yù)設(shè)的區(qū)分器，得到合成語音與日常語音之間的差異值；將差異值作為編碼器和解碼器的對抗損失，計算合成語音的語音信號與日常語音的語音信號之間的均方誤差；將均方誤差與對抗損失進(jìn)行相加，得到編碼器和解碼器的損失函數(shù)。

14、進(jìn)一步的，基于目標(biāo)語音隱變量信息，構(gòu)建目標(biāo)語音碼本的步驟，具體包括：

15、對目標(biāo)語音隱變量信息進(jìn)行聚類，得到多個語音特征簇；獲取每個語音特征簇的中心點的語音特征信息，基于語音特征信息構(gòu)建目標(biāo)語音碼本。

16、進(jìn)一步的，計算每個語音特征信息與目標(biāo)語音碼本的各種語音碼本特征信息之間的相似度的步驟，具體包括：

17、計算每個語音特征信息與目標(biāo)語音碼本的多個語音碼本特征信息之間的余弦距離；基于余弦距離，確定每個語音特征信息與多個語音碼本特征信息之間的相似度。

18、進(jìn)一步的，采用目標(biāo)解碼器，將多個目標(biāo)語音碼本特征信息轉(zhuǎn)換為語音，得到待轉(zhuǎn)換文本對應(yīng)的目標(biāo)合成語音的步驟，具體包括：

19、采用目標(biāo)解碼器的聲學(xué)模型，將多個目標(biāo)語音碼本特征信息進(jìn)行特征映射處理，得到聲學(xué)特征序列；采用目標(biāo)解碼器的聲碼器，將聲學(xué)特征序列轉(zhuǎn)換為語音波形，得到多個語音波形數(shù)據(jù)；采用目標(biāo)解碼器對多個語音波形數(shù)據(jù)進(jìn)行拼接，生成語音信號，輸出語音信號對應(yīng)的語音，得到待轉(zhuǎn)換文本對應(yīng)的目標(biāo)合成語音。

20、為了解決上述技術(shù)問題，本技術(shù)實施例還提供一種語音生成裝置，采用了如下的技術(shù)方案：

21、獲取模塊，用于獲取待轉(zhuǎn)換文本，待轉(zhuǎn)換文本用于轉(zhuǎn)換為目標(biāo)合成語音；

22、聲碼轉(zhuǎn)換模塊，用于對待轉(zhuǎn)換文本進(jìn)行聲碼轉(zhuǎn)換處理，得到待轉(zhuǎn)換文本的多個語音特征信息；

23、計算模塊，用于計算每個語音特征信息與目標(biāo)語音碼本的各種語音碼本特征信息之間的相似度，目標(biāo)語音碼本為基于日常語音處理得到的語音碼本；

24、第一確定模塊，用于基于相似度，從目標(biāo)語音碼本中確定待轉(zhuǎn)換文本對應(yīng)的多個目標(biāo)語音碼本特征信息；

25、語音轉(zhuǎn)換模塊，用于采用目標(biāo)解碼器，將多個目標(biāo)語音碼本特征信息轉(zhuǎn)換為語音，得到待轉(zhuǎn)換文本對應(yīng)的目標(biāo)合成語音，目標(biāo)解碼器為基于日常語音訓(xùn)練得到的解碼器。

26、為了解決上述技術(shù)問題，本技術(shù)實施例還提供一種計算機(jī)設(shè)備，包括存儲器和處理器，存儲器中存儲有計算機(jī)可讀指令，處理器執(zhí)行計算機(jī)可讀指令時實現(xiàn)如上述語音生成方法的步驟。

27、為了解決上述技術(shù)問題，本技術(shù)實施例還提供一種計算機(jī)可讀存儲介質(zhì)，計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)可讀指令，計算機(jī)可讀指令可被至少一個處理器執(zhí)行，以使至少一個處理器執(zhí)行如上述語音生成方法的步驟。

28、與現(xiàn)有技術(shù)相比，本技術(shù)實施例主要有以下有益效果：通過提取待轉(zhuǎn)換文本的多個語音特征信息，并與目標(biāo)語音碼本中的特征信息進(jìn)行精細(xì)匹配，可以確保生成的合成語音在音高、音長、音強(qiáng)等語音特征上更加接近自然語音，從而提升語音合成的自然度和流暢性。使用日常語音訓(xùn)練得到的目標(biāo)語音碼本和目標(biāo)解碼器，可以針對特定說話人的語音特征進(jìn)行建模和合成，從而實現(xiàn)個性化語音的生成。這對于需要模擬特定人物聲音的應(yīng)用場景，如虛擬角色配音、語音助手個性化定制等具有重要意義。通過計算語音特征信息與目標(biāo)語音碼本特征信息之間的相似度，并基于相似度選取對應(yīng)的特征信息進(jìn)行合成，可以確保生成的語音在內(nèi)容上與原始的待轉(zhuǎn)換文本高度一致，同時提高語音合成的準(zhǔn)確性和效率。該語音生成方案在醫(yī)療、教育、娛樂等多個領(lǐng)域都具有廣泛的應(yīng)用前景。例如，在醫(yī)療領(lǐng)域，可以用于生成患者教育材料、輔助醫(yī)生進(jìn)行遠(yuǎn)程診療等；在教育領(lǐng)域，可以用于制作有聲讀物、提供個性化學(xué)習(xí)輔導(dǎo)等；在娛樂領(lǐng)域，則可以用于游戲角色配音、虛擬偶像聲音生成等。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：石巖,陳閩川,王少軍
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語音生成方法、裝置、設(shè)備及介質(zhì)與流程

一種語音生成方法、裝置、設(shè)備及介質(zhì)與流程