欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于語音模型個(gè)性化的可擴(kuò)縮模型特化框架的制作方法

文檔序號:40579616發(fā)布日期:2025-01-07 20:19閱讀:9來源:國知局
用于語音模型個(gè)性化的可擴(kuò)縮模型特化框架的制作方法

本公開涉及用于語音模型個(gè)性化的可擴(kuò)縮模型特化框架。


背景技術(shù):

1、語音轉(zhuǎn)換模型可以用于將源說話者的語音修改成另一種形式,而不改變語音的語言學(xué)信息。例如,語音轉(zhuǎn)換模型可以產(chǎn)生用戶的語音的轉(zhuǎn)錄。替代地,語音轉(zhuǎn)換模型可以將用戶的語音轉(zhuǎn)換成呈另一語言的語音的音頻波形。機(jī)器學(xué)習(xí)方法可以用于準(zhǔn)確地訓(xùn)練語音轉(zhuǎn)換模型并且高效地將語音轉(zhuǎn)換成另一種形式。語音轉(zhuǎn)換模型通常是在大型數(shù)據(jù)集上訓(xùn)練并因此一般適于大型用戶集的大型模型。


技術(shù)實(shí)現(xiàn)思路

1、本公開的一個(gè)方面提供了一種用于使用子模型來偏置語音轉(zhuǎn)換模型的計(jì)算機(jī)實(shí)現(xiàn)的方法。該計(jì)算機(jī)實(shí)現(xiàn)的方法在由數(shù)據(jù)處理硬件執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作,該操作包括:獲得語音轉(zhuǎn)換模型,該語音轉(zhuǎn)換模型被配置為將人類語音的輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。該操作包括:接收語音轉(zhuǎn)換請求,該語音轉(zhuǎn)換請求包括輸入音頻數(shù)據(jù)和說話者標(biāo)識(shí)符,該輸入音頻數(shù)據(jù)對應(yīng)于由與非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語,該說話者標(biāo)識(shí)符唯一地識(shí)別目標(biāo)說話者。該操作進(jìn)一步包括:使用說話者標(biāo)識(shí)符來激活特定子模型以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。該操作還包括:使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將與和非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語相對應(yīng)的輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范(canonical)流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)。

2、本公開的實(shí)現(xiàn)方式可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型是在泛化訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練的,并且是說話者獨(dú)立和領(lǐng)域獨(dú)立的。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型包括編碼器,該編碼器被配置為對與話語相對應(yīng)的輸入音頻數(shù)據(jù)進(jìn)行編碼。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型還包括解碼器,該解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)作為輸出。在這些實(shí)現(xiàn)方式中,該編碼器可以包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。在這些實(shí)現(xiàn)方式中,該子模型可以包括設(shè)置在編碼器的自注意力塊的堆疊中的自注意力塊中的每一個(gè)之間的殘差適配器的堆疊。進(jìn)一步地,在這些實(shí)現(xiàn)方式中,每個(gè)殘差適配器可以包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括單詞片解碼器,該單詞片解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的轉(zhuǎn)錄相對應(yīng)的文本表示作為輸出。替代地,在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括音素解碼器,該音素解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成話語的音素表示作為輸出。

3、該輸入音頻數(shù)據(jù)可以包括輸入譜圖或輸入音頻波形中的一者,并且該輸出音頻數(shù)據(jù)可以包括輸出譜圖或輸出音頻波形中的一者。在一些實(shí)現(xiàn)方式中,激活特定子模型以用于偏置語音轉(zhuǎn)換模型包括從各自與不同類型的非典型語音相關(guān)聯(lián)的多個(gè)子模型之中選擇與和目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型相關(guān)聯(lián)的特定子模型。該實(shí)現(xiàn)方式進(jìn)一步包括:將特定子模型加載到語音轉(zhuǎn)換模型中以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。

4、本公開的另一方面提供了一種用于使用子模型來偏置語音轉(zhuǎn)換模型的系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)處理硬件以及與數(shù)據(jù)處理硬件通信的存儲(chǔ)器硬件。該存儲(chǔ)器硬件存儲(chǔ)指令,該指令當(dāng)在數(shù)據(jù)處理硬件上被執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作。該操作包括:獲得語音轉(zhuǎn)換模型,該語音轉(zhuǎn)換模型被配置為將人類語音的輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。該操作包括:接收語音轉(zhuǎn)換請求,該語音轉(zhuǎn)換請求包括輸入音頻數(shù)據(jù)和說話者標(biāo)識(shí)符,該輸入音頻數(shù)據(jù)對應(yīng)于由與非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語,該說話者標(biāo)識(shí)符唯一地識(shí)別目標(biāo)說話者。該操作進(jìn)一步包括:使用說話者標(biāo)識(shí)符來激活特定子模型以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。該操作還包括:使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將與和非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語相對應(yīng)的輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)。

5、該方面可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型是在泛化訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練的,并且是說話者獨(dú)立和領(lǐng)域獨(dú)立的。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型包括編碼器,該編碼器被配置為對與話語相對應(yīng)的輸入音頻數(shù)據(jù)進(jìn)行編碼。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型還包括解碼器,該解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)作為輸出。在這些實(shí)現(xiàn)方式中,該編碼器可以包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。在這些實(shí)現(xiàn)方式中,該子模型可以包括設(shè)置在編碼器的自注意力塊的堆疊中的自注意力塊中的每一個(gè)之間的殘差適配器的堆疊。進(jìn)一步地,在這些實(shí)現(xiàn)方式中,每個(gè)殘差適配器可以包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括單詞片解碼器,該單詞片解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的轉(zhuǎn)錄相對應(yīng)的文本表示作為輸出。替代地,在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括音素解碼器,該音素解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成話語的音素表示作為輸出。

6、該輸入音頻數(shù)據(jù)可以包括輸入譜圖或輸入音頻波形中的一者,并且該輸出音頻數(shù)據(jù)可以包括輸出譜圖或輸出音頻波形中的一者。在一些實(shí)現(xiàn)方式中,激活特定子模型以用于偏置語音轉(zhuǎn)換模型包括從各自與不同類型的非典型語音相關(guān)聯(lián)的多個(gè)子模型之中選擇與和目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型相關(guān)聯(lián)的特定子模型。該實(shí)現(xiàn)方式進(jìn)一步包括:將特定子模型加載到語音轉(zhuǎn)換模型中以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。

7、本公開的一個(gè)或多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)在附圖和以下描述中進(jìn)行闡述。根據(jù)說明書和附圖以及根據(jù)權(quán)利要求,其他方面、特征和優(yōu)點(diǎn)將顯而易見。



技術(shù)特征:

1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(600),當(dāng)在數(shù)據(jù)處理硬件(154)上被執(zhí)行時(shí)使所述數(shù)據(jù)處理硬件(154)執(zhí)行操作,所述操作包括:

2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200):

3.如權(quán)利要求1或2所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200)包括:

4.如權(quán)利要求1至3中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述編碼器(310)包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。

5.如權(quán)利要求1至4中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述子模型(215)包括設(shè)置在所述編碼器(310)的自注意力塊的所述堆疊中的所述自注意力塊中的每一個(gè)之間的殘差適配器(361)的堆疊。

6.如權(quán)利要求1至5中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中每個(gè)殘差適配器(361)包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。

7.如權(quán)利要求1至6中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括單詞片解碼器(320,?320b),所述單詞片解碼器(320,?320b)被配置為:

8.如權(quán)利要求1至7中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括音素解碼器(320,?320c),所述音素解碼器(320,?320c)被配置為:

9.如權(quán)利要求1至8中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中:

10.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中激活所述特定子模型(215)以用于偏置所述語音轉(zhuǎn)換模型(200)包括:

11.一種系統(tǒng)(100),包括:

12.如權(quán)利要求11所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200):

13.如權(quán)利要求11或12所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200)包括:

14.如權(quán)利要求11至13中任一項(xiàng)所述的系統(tǒng)(100),其中所述編碼器(310)包括各自具有多頭注意力機(jī)制的自注意力塊的堆疊。

15.如權(quán)利要求11至14中任一項(xiàng)所述的系統(tǒng)(100),其中所述子模型(215)包括設(shè)置在所述編碼器(310)的自注意力塊的所述堆疊中的所述自注意力塊中的每一個(gè)之間的殘差適配器(361)的堆疊。

16.如權(quán)利要求11至15中任一項(xiàng)所述的系統(tǒng)(100),其中每個(gè)殘差適配器(361)包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。

17.如權(quán)利要求11至16中任一項(xiàng)所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括單詞片解碼器(320,?320b),所述單詞片解碼器(320,?320b)被配置為:

18.如權(quán)利要求11至17中任一項(xiàng)所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括音素解碼器(320,?320c),所述音素解碼器(320,?320c)被配置為:

19.如權(quán)利要求11至18中任一項(xiàng)所述的系統(tǒng)(100),其中:

20.如權(quán)利要求11至19中任一項(xiàng)所述的系統(tǒng)(100),其中激活所述特定子模型(215)以用于偏置所述語音轉(zhuǎn)換模型(200)包括:


技術(shù)總結(jié)
一種用于語音轉(zhuǎn)換的方法(600)包括:獲得語音轉(zhuǎn)換模型(200),語音轉(zhuǎn)換模型被配置為將輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。方法進(jìn)一步包括:接收語音轉(zhuǎn)換請求(105),語音轉(zhuǎn)換請求包括與和非典型語音相關(guān)聯(lián)的話語(108)相對應(yīng)的輸入音頻數(shù)據(jù)(102)以及唯一地識(shí)別目標(biāo)說話者(104)的說話者標(biāo)識(shí)符(103)。方法包括:使用說話者標(biāo)識(shí)符來激活特定子模型(215)以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。方法包括:使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范流暢語音表示(224)相對應(yīng)的輸出音頻數(shù)據(jù)。

技術(shù)研發(fā)人員:法迪·比亞德希,友正·陳,霞·張,奧列格·雷巴科夫,安德魯·M·羅森貝格,佩德羅·J·莫雷諾·門吉巴爾
受保護(hù)的技術(shù)使用者:谷歌有限責(zé)任公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
临汾市| 南皮县| 阳朔县| 花莲市| 苍溪县| 乐至县| 衡水市| 曲沃县| 军事| 淮北市| 通许县| 娄底市| 班戈县| 太和县| 苍溪县| 开鲁县| 衡阳市| 临沧市| 夹江县| 章丘市| 来宾市| 九台市| 桂林市| 马尔康县| 朝阳市| 武穴市| 邹城市| 望城县| 金山区| 时尚| 沿河| 社旗县| 迁安市| 宜宾市| 彭阳县| 渝中区| 奉化市| 陵川县| 高雄市| 罗江县| 抚州市|