用于語音模型個(gè)性化的可擴(kuò)縮模型特化框架的制作方法

文檔序號：40579616發(fā)布日期：2025-01-07 20:19閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本公開涉及用于語音模型個(gè)性化的可擴(kuò)縮模型特化框架。

背景技術(shù)：

1、語音轉(zhuǎn)換模型可以用于將源說話者的語音修改成另一種形式，而不改變語音的語言學(xué)信息。例如，語音轉(zhuǎn)換模型可以產(chǎn)生用戶的語音的轉(zhuǎn)錄。替代地，語音轉(zhuǎn)換模型可以將用戶的語音轉(zhuǎn)換成呈另一語言的語音的音頻波形。機(jī)器學(xué)習(xí)方法可以用于準(zhǔn)確地訓(xùn)練語音轉(zhuǎn)換模型并且高效地將語音轉(zhuǎn)換成另一種形式。語音轉(zhuǎn)換模型通常是在大型數(shù)據(jù)集上訓(xùn)練并因此一般適于大型用戶集的大型模型。

技術(shù)實(shí)現(xiàn)思路

1、本公開的一個(gè)方面提供了一種用于使用子模型來偏置語音轉(zhuǎn)換模型的計(jì)算機(jī)實(shí)現(xiàn)的方法。該計(jì)算機(jī)實(shí)現(xiàn)的方法在由數(shù)據(jù)處理硬件執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作，該操作包括：獲得語音轉(zhuǎn)換模型，該語音轉(zhuǎn)換模型被配置為將人類語音的輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。該操作包括：接收語音轉(zhuǎn)換請求，該語音轉(zhuǎn)換請求包括輸入音頻數(shù)據(jù)和說話者標(biāo)識(shí)符，該輸入音頻數(shù)據(jù)對應(yīng)于由與非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語，該說話者標(biāo)識(shí)符唯一地識(shí)別目標(biāo)說話者。該操作進(jìn)一步包括：使用說話者標(biāo)識(shí)符來激活特定子模型以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。該操作還包括：使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將與和非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語相對應(yīng)的輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范(canonical)流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)。

2、本公開的實(shí)現(xiàn)方式可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型是在泛化訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練的，并且是說話者獨(dú)立和領(lǐng)域獨(dú)立的。在一些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型包括編碼器，該編碼器被配置為對與話語相對應(yīng)的輸入音頻數(shù)據(jù)進(jìn)行編碼。在這些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型還包括解碼器，該解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入，并且生成與話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)作為輸出。在這些實(shí)現(xiàn)方式中，該編碼器可以包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。在這些實(shí)現(xiàn)方式中，該子模型可以包括設(shè)置在編碼器的自注意力塊的堆疊中的自注意力塊中的每一個(gè)之間的殘差適配器的堆疊。進(jìn)一步地，在這些實(shí)現(xiàn)方式中，每個(gè)殘差適配器可以包括歸一化層，之后是具有到瓶頸維度的向下投影的前饋層，和非線性激活，以及具有向上投影的另一前饋層。在這些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型可以進(jìn)一步包括單詞片解碼器，該單詞片解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入，并且生成與話語的轉(zhuǎn)錄相對應(yīng)的文本表示作為輸出。替代地，在這些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型可以進(jìn)一步包括音素解碼器，該音素解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入，并且生成話語的音素表示作為輸出。

3、該輸入音頻數(shù)據(jù)可以包括輸入譜圖或輸入音頻波形中的一者，并且該輸出音頻數(shù)據(jù)可以包括輸出譜圖或輸出音頻波形中的一者。在一些實(shí)現(xiàn)方式中，激活特定子模型以用于偏置語音轉(zhuǎn)換模型包括從各自與不同類型的非典型語音相關(guān)聯(lián)的多個(gè)子模型之中選擇與和目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型相關(guān)聯(lián)的特定子模型。該實(shí)現(xiàn)方式進(jìn)一步包括：將特定子模型加載到語音轉(zhuǎn)換模型中以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。

4、本公開的另一方面提供了一種用于使用子模型來偏置語音轉(zhuǎn)換模型的系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)處理硬件以及與數(shù)據(jù)處理硬件通信的存儲(chǔ)器硬件。該存儲(chǔ)器硬件存儲(chǔ)指令，該指令當(dāng)在數(shù)據(jù)處理硬件上被執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作。該操作包括：獲得語音轉(zhuǎn)換模型，該語音轉(zhuǎn)換模型被配置為將人類語音的輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。該操作包括：接收語音轉(zhuǎn)換請求，該語音轉(zhuǎn)換請求包括輸入音頻數(shù)據(jù)和說話者標(biāo)識(shí)符，該輸入音頻數(shù)據(jù)對應(yīng)于由與非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語，該說話者標(biāo)識(shí)符唯一地識(shí)別目標(biāo)說話者。該操作進(jìn)一步包括：使用說話者標(biāo)識(shí)符來激活特定子模型以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。該操作還包括：使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將與和非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語相對應(yīng)的輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)。

5、該方面可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型是在泛化訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練的，并且是說話者獨(dú)立和領(lǐng)域獨(dú)立的。在一些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型包括編碼器，該編碼器被配置為對與話語相對應(yīng)的輸入音頻數(shù)據(jù)進(jìn)行編碼。在這些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型還包括解碼器，該解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入，并且生成與話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)作為輸出。在這些實(shí)現(xiàn)方式中，該編碼器可以包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。在這些實(shí)現(xiàn)方式中，該子模型可以包括設(shè)置在編碼器的自注意力塊的堆疊中的自注意力塊中的每一個(gè)之間的殘差適配器的堆疊。進(jìn)一步地，在這些實(shí)現(xiàn)方式中，每個(gè)殘差適配器可以包括歸一化層，之后是具有到瓶頸維度的向下投影的前饋層，和非線性激活，以及具有向上投影的另一前饋層。在這些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型可以進(jìn)一步包括單詞片解碼器，該單詞片解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入，并且生成與話語的轉(zhuǎn)錄相對應(yīng)的文本表示作為輸出。替代地，在這些實(shí)現(xiàn)方式中，該語音轉(zhuǎn)換模型可以進(jìn)一步包括音素解碼器，該音素解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入，并且生成話語的音素表示作為輸出。

6、該輸入音頻數(shù)據(jù)可以包括輸入譜圖或輸入音頻波形中的一者，并且該輸出音頻數(shù)據(jù)可以包括輸出譜圖或輸出音頻波形中的一者。在一些實(shí)現(xiàn)方式中，激活特定子模型以用于偏置語音轉(zhuǎn)換模型包括從各自與不同類型的非典型語音相關(guān)聯(lián)的多個(gè)子模型之中選擇與和目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型相關(guān)聯(lián)的特定子模型。該實(shí)現(xiàn)方式進(jìn)一步包括：將特定子模型加載到語音轉(zhuǎn)換模型中以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。

7、本公開的一個(gè)或多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)在附圖和以下描述中進(jìn)行闡述。根據(jù)說明書和附圖以及根據(jù)權(quán)利要求，其他方面、特征和優(yōu)點(diǎn)將顯而易見。

技術(shù)特征：

1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，當(dāng)在數(shù)據(jù)處理硬件(154)上被執(zhí)行時(shí)使所述數(shù)據(jù)處理硬件(154)執(zhí)行操作，所述操作包括：

2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中所述語音轉(zhuǎn)換模型(200)：

3.如權(quán)利要求1或2所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中所述語音轉(zhuǎn)換模型(200)包括：

4.如權(quán)利要求1至3中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中所述編碼器(310)包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。

5.如權(quán)利要求1至4中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中所述子模型(215)包括設(shè)置在所述編碼器(310)的自注意力塊的所述堆疊中的所述自注意力塊中的每一個(gè)之間的殘差適配器(361)的堆疊。

6.如權(quán)利要求1至5中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中每個(gè)殘差適配器(361)包括歸一化層，之后是具有到瓶頸維度的向下投影的前饋層，和非線性激活，以及具有向上投影的另一前饋層。

7.如權(quán)利要求1至6中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括單詞片解碼器(320,?320b)，所述單詞片解碼器(320,?320b)被配置為：

8.如權(quán)利要求1至7中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括音素解碼器(320,?320c)，所述音素解碼器(320,?320c)被配置為：

9.如權(quán)利要求1至8中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中：

10.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600)，其中激活所述特定子模型(215)以用于偏置所述語音轉(zhuǎn)換模型(200)包括：

11.一種系統(tǒng)(100)，包括：

12.如權(quán)利要求11所述的系統(tǒng)(100)，其中所述語音轉(zhuǎn)換模型(200)：

13.如權(quán)利要求11或12所述的系統(tǒng)(100)，其中所述語音轉(zhuǎn)換模型(200)包括：

14.如權(quán)利要求11至13中任一項(xiàng)所述的系統(tǒng)(100)，其中所述編碼器(310)包括各自具有多頭注意力機(jī)制的自注意力塊的堆疊。

15.如權(quán)利要求11至14中任一項(xiàng)所述的系統(tǒng)(100)，其中所述子模型(215)包括設(shè)置在所述編碼器(310)的自注意力塊的所述堆疊中的所述自注意力塊中的每一個(gè)之間的殘差適配器(361)的堆疊。

16.如權(quán)利要求11至15中任一項(xiàng)所述的系統(tǒng)(100)，其中每個(gè)殘差適配器(361)包括歸一化層，之后是具有到瓶頸維度的向下投影的前饋層，和非線性激活，以及具有向上投影的另一前饋層。

17.如權(quán)利要求11至16中任一項(xiàng)所述的系統(tǒng)(100)，其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括單詞片解碼器(320,?320b)，所述單詞片解碼器(320,?320b)被配置為：

18.如權(quán)利要求11至17中任一項(xiàng)所述的系統(tǒng)(100)，其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括音素解碼器(320,?320c)，所述音素解碼器(320,?320c)被配置為：

19.如權(quán)利要求11至18中任一項(xiàng)所述的系統(tǒng)(100)，其中：

20.如權(quán)利要求11至19中任一項(xiàng)所述的系統(tǒng)(100)，其中激活所述特定子模型(215)以用于偏置所述語音轉(zhuǎn)換模型(200)包括：

技術(shù)總結(jié)
一種用于語音轉(zhuǎn)換的方法(600)包括：獲得語音轉(zhuǎn)換模型(200)，語音轉(zhuǎn)換模型被配置為將輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。方法進(jìn)一步包括：接收語音轉(zhuǎn)換請求(105)，語音轉(zhuǎn)換請求包括與和非典型語音相關(guān)聯(lián)的話語(108)相對應(yīng)的輸入音頻數(shù)據(jù)(102)以及唯一地識(shí)別目標(biāo)說話者(104)的說話者標(biāo)識(shí)符(103)。方法包括：使用說話者標(biāo)識(shí)符來激活特定子模型(215)以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。方法包括：使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范流暢語音表示(224)相對應(yīng)的輸出音頻數(shù)據(jù)。

技術(shù)研發(fā)人員：法迪·比亞德希,友正·陳,霞·張,奧列格·雷巴科夫,安德魯·M·羅森貝格,佩德羅·J·莫雷諾·門吉巴爾
受保護(hù)的技術(shù)使用者：谷歌有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：法迪·比亞德希,友正·陳,霞·張,奧列格·雷巴科夫,安德魯·M·羅森貝格,佩德羅·J·莫雷諾·門吉巴爾
技術(shù)所有人：谷歌有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：一種石油廢水油水分離裝置的制作方法
上一篇：一種快速拿取的畜牧獸醫(yī)用疫苗存放裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于語音模型個(gè)性化的可擴(kuò)縮模型特化框架的制作方法