本公開涉及語音分段與自動語音識別。
背景技術(shù):
1、現(xiàn)代自動語音識別(asr)系統(tǒng)不僅專注于提供高質(zhì)量(例如,低詞錯誤率),而且還專注于提供低延遲(例如,用戶說話與轉(zhuǎn)錄出現(xiàn)之間的短暫延遲)。例如,當(dāng)現(xiàn)今使用實現(xiàn)asr系統(tǒng)的裝置時,通常會期望asr系統(tǒng)以對應(yīng)于實時或甚至比實時更快的流式傳輸方式對話語進行解碼。
技術(shù)實現(xiàn)思路
1、本公開的一個方面提供一種聯(lián)合分段與自動語音識別(asr)模型,該聯(lián)合分段與自動語音識別(asr)模型包括編碼器和解碼器。該編碼器被配置為:接收表征一個或多個話語的聲學(xué)幀的序列作為輸入;并且在多個輸出步驟中的每一個中,為聲學(xué)幀的序列中的對應(yīng)聲學(xué)幀生成高階特征表示。該解碼器被配置為:接收由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入;并且在該多個輸出步驟中的每一個中生成:可能的語音識別假設(shè)的概率分布;以及關(guān)于對應(yīng)輸出步驟是否對應(yīng)于語音段結(jié)束的指示。該聯(lián)合分段與asr模型是用一組訓(xùn)練樣本進行訓(xùn)練,該組訓(xùn)練樣本中的每個訓(xùn)練樣本包括:表征口頭話語的音頻數(shù)據(jù);以及口頭話語的對應(yīng)轉(zhuǎn)錄,該對應(yīng)轉(zhuǎn)錄具有語音段結(jié)束真實值詞元,該語音段結(jié)束真實值詞元是基于應(yīng)用于訓(xùn)練樣本的一組基于啟發(fā)式的規(guī)則和例外自動地插入到對應(yīng)轉(zhuǎn)錄中的。
2、本公開的實現(xiàn)方式可以包括以下可選特征中的一個或多個。在一些實現(xiàn)方式中,解碼器包括預(yù)測網(wǎng)絡(luò)、第一聯(lián)合網(wǎng)絡(luò)和第二聯(lián)合網(wǎng)絡(luò)。預(yù)測網(wǎng)絡(luò)被配置為在該多個輸出步驟中的每一個中:接收由最后的softmax層輸出的非空白符號的序列作為輸入;并且生成隱藏表示。第一聯(lián)合網(wǎng)絡(luò)被配置為:接收由預(yù)測網(wǎng)絡(luò)在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入;并且在該多個輸出步驟中的每一個中生成關(guān)于對應(yīng)輸出步驟是否對應(yīng)于語音段結(jié)束的指示。第二聯(lián)合網(wǎng)絡(luò)被配置為:接收由預(yù)測網(wǎng)絡(luò)在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示作為輸入;并且在該多個輸出步驟中的每一個中,生成可能的語音識別假設(shè)的概率分布。
3、在一些示例中,在該多個輸出步驟中的每一個中,在預(yù)測網(wǎng)絡(luò)處被作為輸入接收的先前非空白符號的序列包括由最后的softmax層輸出的n個先前非空白符號的序列。此處,預(yù)測網(wǎng)絡(luò)被配置為通過以下操作生成隱藏表示:對于n個先前非空白符號的序列中的每個非空白符號,生成相應(yīng)嵌入;并且通過對相應(yīng)嵌入求平均來生成平均嵌入,該平均嵌入包括隱藏表示。在一些示例中,預(yù)測網(wǎng)絡(luò)包括v2嵌入查找表。在一些實現(xiàn)方式中,訓(xùn)練過程通過以下操作用該組訓(xùn)練樣本來訓(xùn)練該聯(lián)合分段與asr模型:在第一階段期間,訓(xùn)練第二聯(lián)合網(wǎng)絡(luò)以學(xué)習(xí)如何預(yù)測由每個訓(xùn)練樣本的音頻數(shù)據(jù)表征的口頭話語的對應(yīng)轉(zhuǎn)錄;并且在訓(xùn)練第二聯(lián)合網(wǎng)絡(luò)之后,在第二階段期間,使用與經(jīng)訓(xùn)練的第二聯(lián)合網(wǎng)絡(luò)相同的參數(shù)來初始化第一聯(lián)合網(wǎng)絡(luò),并且使用插入到由每個訓(xùn)練樣本的音頻數(shù)據(jù)表征的口頭話語的對應(yīng)轉(zhuǎn)錄中的語音段結(jié)束真實值詞元。
4、在一些實現(xiàn)方式中,編碼器包括因果編碼器,該因果編碼器包括conformer層或transformer層的堆疊。在一些示例中,語音段結(jié)束真實值詞元是在沒有任何人工標注的情況下自動地插入到對應(yīng)轉(zhuǎn)錄中的。
5、在一些示例中,應(yīng)用于該組訓(xùn)練樣本中的每個訓(xùn)練樣本的該組基于啟發(fā)式的規(guī)則和例外包括:在對應(yīng)轉(zhuǎn)錄的末尾處插入真實值語音段結(jié)束詞元;以及在與音頻數(shù)據(jù)的非語音段對齊的位置處將真實值語音段結(jié)束詞元插入到對應(yīng)轉(zhuǎn)錄中,該非語音段具有滿足閾值持續(xù)時間的持續(xù)時間,除非該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為加長詞的詞后面,或者該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為填充詞的詞后面。在一些實現(xiàn)方式中,當(dāng)口頭話語中的詞的音素持續(xù)時間滿足標準差閾值時,口頭話語中的詞被標識為加長詞。在一些示例中,在訓(xùn)練該聯(lián)合分段與asr模型之后,解碼器被配置為早于標識聲學(xué)幀的序列中滿足閾值持續(xù)時間的多個連續(xù)的非語音聲學(xué)幀,發(fā)出關(guān)于對應(yīng)輸出步驟對應(yīng)于語音段結(jié)束的指示。在一些實現(xiàn)方式中,該聯(lián)合分段與asr模型經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實值標簽的概率。
6、本公開的另一個方面提供一種計算機實現(xiàn)的方法,該計算機實現(xiàn)的方法在數(shù)據(jù)處理硬件上執(zhí)行,從而導(dǎo)致數(shù)據(jù)處理硬件執(zhí)行操作,這些操作包括:接收表征一個或多個話語的聲學(xué)幀的序列;以及在該多個輸出步驟中的每一個中:由聯(lián)合分段與自動語音識別(asr)模型的編碼器為聲學(xué)幀的序列中的對應(yīng)聲學(xué)幀生成高階特征表示;并且由該聯(lián)合分段與asr模型的解碼器生成:可能的語音識別假設(shè)的概率分布;以及關(guān)于對應(yīng)輸出步驟是否對應(yīng)于語音段結(jié)束的指示。該聯(lián)合分段與asr模型是用一組訓(xùn)練樣本進行訓(xùn)練,該組訓(xùn)練樣本中的每個訓(xùn)練樣本包括:表征口頭話語的音頻數(shù)據(jù);以及口頭話語的對應(yīng)轉(zhuǎn)錄,該對應(yīng)轉(zhuǎn)錄具有語音段結(jié)束真實值詞元,該語音段結(jié)束真實值詞元是基于應(yīng)用于訓(xùn)練樣本的一組基于啟發(fā)式的規(guī)則和例外自動地插入到對應(yīng)轉(zhuǎn)錄中的。
7、本公開的實現(xiàn)方式可以包括以下可選特征中的一個或多個。在一些實現(xiàn)方式中,操作還包括在該多個輸出步驟中的每一個中,使用解碼器的預(yù)測網(wǎng)絡(luò)基于由最后的softmax層輸出的非空白符號的序列來生成隱藏表示;生成關(guān)于對應(yīng)輸出步驟是否對應(yīng)于語音段結(jié)束的指示包括:使用解碼器的第一聯(lián)合網(wǎng)絡(luò),基于由預(yù)測網(wǎng)絡(luò)在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示來生成關(guān)于對應(yīng)輸出步驟是否對應(yīng)于語音段結(jié)束的指示;并且生成可能的語音識別假設(shè)的概率分布包括:使用解碼器的第二聯(lián)合網(wǎng)絡(luò),基于由預(yù)測網(wǎng)絡(luò)在該多個輸出步驟中的每一個中生成的隱藏表示以及由編碼器在該多個輸出步驟中的每一個中生成的高階特征表示來生成可能的語音識別假設(shè)的概率分布。
8、在一些示例中,在預(yù)測網(wǎng)絡(luò)處被作為輸入接收的先前非空白符號的序列包括由最后的softmax層輸出的n個先前非空白符號的序列;并且使用預(yù)測網(wǎng)絡(luò)生成隱藏表示包括通過以下操作來生成隱藏表示:對于n個先前非空白符號的序列中的每個非空白符號,生成相應(yīng)嵌入;并且通過對相應(yīng)嵌入求平均來生成平均嵌入,該平均嵌入包括隱藏表示。在一些實現(xiàn)方式中,預(yù)測網(wǎng)絡(luò)包括v2嵌入查找表。在一些示例中,訓(xùn)練過程通過以下操作用該組訓(xùn)練樣本來訓(xùn)練該聯(lián)合分段與asr模型:在第一階段期間,訓(xùn)練第二聯(lián)合網(wǎng)絡(luò)以學(xué)習(xí)如何預(yù)測由每個訓(xùn)練樣本的音頻數(shù)據(jù)表征的口頭話語的對應(yīng)轉(zhuǎn)錄;并且在訓(xùn)練第二聯(lián)合網(wǎng)絡(luò)之后,在第二階段期間:使用與經(jīng)訓(xùn)練的第二聯(lián)合網(wǎng)絡(luò)相同的參數(shù)來初始化第一聯(lián)合網(wǎng)絡(luò);并且使用插入到由每個訓(xùn)練樣本的音頻數(shù)據(jù)表征的口頭話語的對應(yīng)轉(zhuǎn)錄中的語音段結(jié)束真實值詞元。
9、在一些實現(xiàn)方式中,編碼器包括因果編碼器,該因果編碼器包括conformer層或transformer層的堆疊。在一些示例中,語音段結(jié)束真實值詞元是在沒有任何人工標注的情況下自動地插入到對應(yīng)轉(zhuǎn)錄中的。在一些實現(xiàn)方式中,應(yīng)用于該組訓(xùn)練樣本中的每個訓(xùn)練樣本的該組基于啟發(fā)式的規(guī)則和例外包括:在對應(yīng)轉(zhuǎn)錄的末尾處插入真實值語音段結(jié)束詞元;以及在與音頻數(shù)據(jù)的非語音段對齊的位置處將真實值語音段結(jié)束詞元插入到對應(yīng)轉(zhuǎn)錄中,該非語音段具有滿足閾值持續(xù)時間的持續(xù)時間,除非該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為加長詞的詞后面,或者該音頻數(shù)據(jù)的非語音段跟在口頭話語中被標識為填充詞的詞后面。在一些示例中,當(dāng)口頭話語中的詞的音素持續(xù)時間滿足標準差閾值時,口頭話語中的詞被標識為加長詞。在一些實現(xiàn)方式中,在訓(xùn)練該聯(lián)合分段與asr模型之后,操作還包括:早于標識聲學(xué)幀的序列中滿足閾值持續(xù)時間的多個連續(xù)的非語音聲學(xué)幀,由解碼器發(fā)出關(guān)于對應(yīng)輸出步驟對應(yīng)于語音段結(jié)束的指示。
10、在一些示例中,該聯(lián)合分段與asr模型經(jīng)過訓(xùn)練以最大化發(fā)出語音段結(jié)束真實值標簽的概率。
11、本公開的一個或多個實現(xiàn)方式的細節(jié)在附圖和以下描述中進行闡述。從說明書和附圖中以及從權(quán)利要求書中,其他方面、特征和優(yōu)點將顯而易見。