本公開涉及用于語音模型個(gè)性化的可擴(kuò)縮模型特化框架。
背景技術(shù):
1、語音轉(zhuǎn)換模型可以用于將源說話者的語音修改成另一種形式,而不改變語音的語言學(xué)信息。例如,語音轉(zhuǎn)換模型可以產(chǎn)生用戶的語音的轉(zhuǎn)錄。替代地,語音轉(zhuǎn)換模型可以將用戶的語音轉(zhuǎn)換成呈另一語言的語音的音頻波形。機(jī)器學(xué)習(xí)方法可以用于準(zhǔn)確地訓(xùn)練語音轉(zhuǎn)換模型并且高效地將語音轉(zhuǎn)換成另一種形式。語音轉(zhuǎn)換模型通常是在大型數(shù)據(jù)集上訓(xùn)練并因此一般適于大型用戶集的大型模型。
技術(shù)實(shí)現(xiàn)思路
1、本公開的一個(gè)方面提供了一種用于使用子模型來偏置語音轉(zhuǎn)換模型的計(jì)算機(jī)實(shí)現(xiàn)的方法。該計(jì)算機(jī)實(shí)現(xiàn)的方法在由數(shù)據(jù)處理硬件執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作,該操作包括:獲得語音轉(zhuǎn)換模型,該語音轉(zhuǎn)換模型被配置為將人類語音的輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。該操作包括:接收語音轉(zhuǎn)換請求,該語音轉(zhuǎn)換請求包括輸入音頻數(shù)據(jù)和說話者標(biāo)識(shí)符,該輸入音頻數(shù)據(jù)對應(yīng)于由與非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語,該說話者標(biāo)識(shí)符唯一地識(shí)別目標(biāo)說話者。該操作進(jìn)一步包括:使用說話者標(biāo)識(shí)符來激活特定子模型以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。該操作還包括:使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將與和非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語相對應(yīng)的輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范(canonical)流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)。
2、本公開的實(shí)現(xiàn)方式可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型是在泛化訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練的,并且是說話者獨(dú)立和領(lǐng)域獨(dú)立的。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型包括編碼器,該編碼器被配置為對與話語相對應(yīng)的輸入音頻數(shù)據(jù)進(jìn)行編碼。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型還包括解碼器,該解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)作為輸出。在這些實(shí)現(xiàn)方式中,該編碼器可以包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。在這些實(shí)現(xiàn)方式中,該子模型可以包括設(shè)置在編碼器的自注意力塊的堆疊中的自注意力塊中的每一個(gè)之間的殘差適配器的堆疊。進(jìn)一步地,在這些實(shí)現(xiàn)方式中,每個(gè)殘差適配器可以包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括單詞片解碼器,該單詞片解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的轉(zhuǎn)錄相對應(yīng)的文本表示作為輸出。替代地,在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括音素解碼器,該音素解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成話語的音素表示作為輸出。
3、該輸入音頻數(shù)據(jù)可以包括輸入譜圖或輸入音頻波形中的一者,并且該輸出音頻數(shù)據(jù)可以包括輸出譜圖或輸出音頻波形中的一者。在一些實(shí)現(xiàn)方式中,激活特定子模型以用于偏置語音轉(zhuǎn)換模型包括從各自與不同類型的非典型語音相關(guān)聯(lián)的多個(gè)子模型之中選擇與和目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型相關(guān)聯(lián)的特定子模型。該實(shí)現(xiàn)方式進(jìn)一步包括:將特定子模型加載到語音轉(zhuǎn)換模型中以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。
4、本公開的另一方面提供了一種用于使用子模型來偏置語音轉(zhuǎn)換模型的系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)處理硬件以及與數(shù)據(jù)處理硬件通信的存儲(chǔ)器硬件。該存儲(chǔ)器硬件存儲(chǔ)指令,該指令當(dāng)在數(shù)據(jù)處理硬件上被執(zhí)行時(shí)使數(shù)據(jù)處理硬件執(zhí)行操作。該操作包括:獲得語音轉(zhuǎn)換模型,該語音轉(zhuǎn)換模型被配置為將人類語音的輸入話語直接轉(zhuǎn)換成合成語音的對應(yīng)輸出話語。該操作包括:接收語音轉(zhuǎn)換請求,該語音轉(zhuǎn)換請求包括輸入音頻數(shù)據(jù)和說話者標(biāo)識(shí)符,該輸入音頻數(shù)據(jù)對應(yīng)于由與非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語,該說話者標(biāo)識(shí)符唯一地識(shí)別目標(biāo)說話者。該操作進(jìn)一步包括:使用說話者標(biāo)識(shí)符來激活特定子模型以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與由說話者標(biāo)識(shí)符識(shí)別的目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。該操作還包括:使用由所激活的特定子模型偏置的語音轉(zhuǎn)換模型來將與和非典型語音相關(guān)聯(lián)的目標(biāo)說話者說出的話語相對應(yīng)的輸入音頻數(shù)據(jù)轉(zhuǎn)換成與由目標(biāo)說話者說出的話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)。
5、該方面可以包括以下可選特征中的一個(gè)或多個(gè)。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型是在泛化訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練的,并且是說話者獨(dú)立和領(lǐng)域獨(dú)立的。在一些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型包括編碼器,該編碼器被配置為對與話語相對應(yīng)的輸入音頻數(shù)據(jù)進(jìn)行編碼。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型還包括解碼器,該解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的合成規(guī)范流暢語音表示相對應(yīng)的輸出音頻數(shù)據(jù)作為輸出。在這些實(shí)現(xiàn)方式中,該編碼器可以包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。在這些實(shí)現(xiàn)方式中,該子模型可以包括設(shè)置在編碼器的自注意力塊的堆疊中的自注意力塊中的每一個(gè)之間的殘差適配器的堆疊。進(jìn)一步地,在這些實(shí)現(xiàn)方式中,每個(gè)殘差適配器可以包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括單詞片解碼器,該單詞片解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成與話語的轉(zhuǎn)錄相對應(yīng)的文本表示作為輸出。替代地,在這些實(shí)現(xiàn)方式中,該語音轉(zhuǎn)換模型可以進(jìn)一步包括音素解碼器,該音素解碼器被配置為接收來自編碼器的經(jīng)編碼音頻數(shù)據(jù)作為輸入,并且生成話語的音素表示作為輸出。
6、該輸入音頻數(shù)據(jù)可以包括輸入譜圖或輸入音頻波形中的一者,并且該輸出音頻數(shù)據(jù)可以包括輸出譜圖或輸出音頻波形中的一者。在一些實(shí)現(xiàn)方式中,激活特定子模型以用于偏置語音轉(zhuǎn)換模型包括從各自與不同類型的非典型語音相關(guān)聯(lián)的多個(gè)子模型之中選擇與和目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型相關(guān)聯(lián)的特定子模型。該實(shí)現(xiàn)方式進(jìn)一步包括:將特定子模型加載到語音轉(zhuǎn)換模型中以用于偏置語音轉(zhuǎn)換模型以辨識(shí)與目標(biāo)說話者相關(guān)聯(lián)的非典型語音的類型。
7、本公開的一個(gè)或多個(gè)實(shí)現(xiàn)方式的細(xì)節(jié)在附圖和以下描述中進(jìn)行闡述。根據(jù)說明書和附圖以及根據(jù)權(quán)利要求,其他方面、特征和優(yōu)點(diǎn)將顯而易見。
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法(600),當(dāng)在數(shù)據(jù)處理硬件(154)上被執(zhí)行時(shí)使所述數(shù)據(jù)處理硬件(154)執(zhí)行操作,所述操作包括:
2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200):
3.如權(quán)利要求1或2所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200)包括:
4.如權(quán)利要求1至3中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述編碼器(310)包括各自具有多頭自注意力機(jī)制的自注意力塊的堆疊。
5.如權(quán)利要求1至4中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述子模型(215)包括設(shè)置在所述編碼器(310)的自注意力塊的所述堆疊中的所述自注意力塊中的每一個(gè)之間的殘差適配器(361)的堆疊。
6.如權(quán)利要求1至5中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中每個(gè)殘差適配器(361)包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。
7.如權(quán)利要求1至6中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括單詞片解碼器(320,?320b),所述單詞片解碼器(320,?320b)被配置為:
8.如權(quán)利要求1至7中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括音素解碼器(320,?320c),所述音素解碼器(320,?320c)被配置為:
9.如權(quán)利要求1至8中任一項(xiàng)所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中:
10.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法(600),其中激活所述特定子模型(215)以用于偏置所述語音轉(zhuǎn)換模型(200)包括:
11.一種系統(tǒng)(100),包括:
12.如權(quán)利要求11所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200):
13.如權(quán)利要求11或12所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200)包括:
14.如權(quán)利要求11至13中任一項(xiàng)所述的系統(tǒng)(100),其中所述編碼器(310)包括各自具有多頭注意力機(jī)制的自注意力塊的堆疊。
15.如權(quán)利要求11至14中任一項(xiàng)所述的系統(tǒng)(100),其中所述子模型(215)包括設(shè)置在所述編碼器(310)的自注意力塊的所述堆疊中的所述自注意力塊中的每一個(gè)之間的殘差適配器(361)的堆疊。
16.如權(quán)利要求11至15中任一項(xiàng)所述的系統(tǒng)(100),其中每個(gè)殘差適配器(361)包括歸一化層,之后是具有到瓶頸維度的向下投影的前饋層,和非線性激活,以及具有向上投影的另一前饋層。
17.如權(quán)利要求11至16中任一項(xiàng)所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括單詞片解碼器(320,?320b),所述單詞片解碼器(320,?320b)被配置為:
18.如權(quán)利要求11至17中任一項(xiàng)所述的系統(tǒng)(100),其中所述語音轉(zhuǎn)換模型(200)進(jìn)一步包括音素解碼器(320,?320c),所述音素解碼器(320,?320c)被配置為:
19.如權(quán)利要求11至18中任一項(xiàng)所述的系統(tǒng)(100),其中:
20.如權(quán)利要求11至19中任一項(xiàng)所述的系統(tǒng)(100),其中激活所述特定子模型(215)以用于偏置所述語音轉(zhuǎn)換模型(200)包括: