本發(fā)明涉及語(yǔ)音識(shí)別,尤其涉及基于偏移和卷積自適應(yīng)的非母語(yǔ)中文語(yǔ)音識(shí)別方法與系統(tǒng)。
背景技術(shù):
1、針對(duì)現(xiàn)有非母語(yǔ)口音數(shù)據(jù)稀缺、并且目前大多數(shù)模型的訓(xùn)練數(shù)據(jù)是以母語(yǔ)為主的標(biāo)準(zhǔn)發(fā)音,導(dǎo)致模型對(duì)非母語(yǔ)學(xué)習(xí)者的不同口音缺乏適應(yīng)性。低資源語(yǔ)音識(shí)別是指在數(shù)據(jù)資源有限的情況下進(jìn)行的語(yǔ)音識(shí)別研究。通常涉及到非主流語(yǔ)言或方言,其標(biāo)注數(shù)據(jù)稀缺,難以用于訓(xùn)練強(qiáng)大的語(yǔ)音識(shí)別系統(tǒng)。?在這種背景下,研究者們嘗試使用各種技術(shù),如遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、自監(jiān)督學(xué)習(xí)等來(lái)提高系統(tǒng)的性能。例如,預(yù)訓(xùn)練模型如?wav2vec?2.0?和hubert?已經(jīng)在多語(yǔ)言環(huán)境中顯示出其對(duì)低資源語(yǔ)音識(shí)別的顯著改進(jìn)。
2、在低資源口音語(yǔ)音識(shí)別任務(wù)中,自監(jiān)督預(yù)訓(xùn)練模型的微調(diào)可以帶來(lái)性能提升。然而,傳統(tǒng)的微調(diào)方法在計(jì)算資源上成本較高,且難以適應(yīng)多任務(wù)學(xué)習(xí)場(chǎng)景,如個(gè)性化?asr。為了解決這些問(wèn)題,自適應(yīng)微調(diào)方法應(yīng)運(yùn)而生。自適應(yīng)微調(diào)通過(guò)在預(yù)訓(xùn)練編碼器的各層之間插入輕量級(jí)的自適應(yīng)模塊,并僅更新這些模塊的參數(shù),從而避免了對(duì)編碼器參數(shù)的大規(guī)模修改。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的問(wèn)題。
2、本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:提供一種基于偏移和卷積自適應(yīng)的非母語(yǔ)中文語(yǔ)音識(shí)別方法,包括以下步驟:
3、選擇預(yù)訓(xùn)練模型構(gòu)建非母語(yǔ)中文語(yǔ)音識(shí)別模型;
4、采用選擇性訓(xùn)練的方式訓(xùn)練非母語(yǔ)中文語(yǔ)音識(shí)別模型;
5、利用訓(xùn)練好的非母語(yǔ)中文語(yǔ)音識(shí)別模型實(shí)現(xiàn)非母語(yǔ)中文語(yǔ)音識(shí)別;
6、所述非母語(yǔ)中文語(yǔ)音識(shí)別模型包括依次連接的預(yù)處理層、transformer編碼器和全連接層;
7、預(yù)處理層將輸入的原始語(yǔ)音信號(hào)轉(zhuǎn)換為特征向量;
8、transformer編碼器包括多個(gè)依次連接的編碼器層,每個(gè)編碼器層包括依次連接的自注意力子層、tba模塊、前饋層和卷積自適應(yīng)模塊;自注意力子層將輸入信號(hào)轉(zhuǎn)換為語(yǔ)音幀,第一個(gè)編碼器層的自注意力子層的輸入信號(hào)為預(yù)處理層輸出的特征向量,其它編碼器層的自注意力子層的輸入信號(hào)為前一個(gè)編碼器層輸出的特征加權(quán)向量;tba模塊根據(jù)語(yǔ)音幀生成重要性權(quán)重和偏置項(xiàng),并輸出偏置向量到前饋層;前饋層將偏置向量轉(zhuǎn)換為表示向量;卷積自適應(yīng)模塊將表示向量轉(zhuǎn)換為特征加權(quán)向量;
9、全連接層基于最后一個(gè)編碼器層輸出的特征加權(quán)向量輸出一個(gè)轉(zhuǎn)換向量,通過(guò)轉(zhuǎn)換向量得到預(yù)測(cè)文本。
10、優(yōu)選的,所述選擇預(yù)訓(xùn)練模型構(gòu)建非母語(yǔ)中文語(yǔ)音識(shí)別模型,包括以下步驟:
11、選擇預(yù)訓(xùn)練語(yǔ)音模型wav2vec2.0作為預(yù)訓(xùn)練模型;
12、在預(yù)訓(xùn)練語(yǔ)音模型wav2vec2.0的自注意力子層和前饋層之間插入tba模塊,在前饋層之后添加卷積自適應(yīng)模塊和全連接層;
13、所述tba模塊包括一個(gè)可訓(xùn)練的偏置向量和一個(gè)線性層;所述卷積自適應(yīng)模塊包括層歸一化、三個(gè)一維卷積和壓縮激發(fā)模塊。
14、優(yōu)選的,所述自注意力子層將輸入信號(hào)轉(zhuǎn)換為語(yǔ)音幀,具體為:輸入信號(hào)經(jīng)過(guò)自注意力子層后的輸出,通過(guò)殘差連接再與輸入信號(hào)相加,再進(jìn)行層歸一化,得到語(yǔ)音幀,表示第i個(gè)語(yǔ)音幀片段,表示語(yǔ)音幀片段數(shù)量。
15、優(yōu)選的,所述tba模塊根據(jù)語(yǔ)音幀生成重要性權(quán)重和偏置項(xiàng)并輸出偏置向量到前饋層,具體為:
16、語(yǔ)音幀輸入到tba模塊,線性層生成相應(yīng)語(yǔ)音幀的重要性權(quán)重,表示為:
17、;
18、其中,為第個(gè)語(yǔ)音幀的權(quán)重,取值為1,2,…;
19、由語(yǔ)音幀的重要性權(quán)重與偏置向量進(jìn)行加權(quán),生成偏置項(xiàng),表示為:
20、;
21、其中,表示哈達(dá)瑪積;
22、將偏置項(xiàng)與語(yǔ)音幀進(jìn)行殘差連接得到上下文相關(guān)的偏置向量,表示為:
23、。
24、優(yōu)選的,所述卷積自適應(yīng)模塊將表示向量轉(zhuǎn)換為特征加權(quán)向量,包括以下步驟:
25、表示向量對(duì)齊后進(jìn)入卷積自適應(yīng)模塊,進(jìn)行層歸一化后得到;
26、將依次輸入到三個(gè)一維卷積層,得到卷積表示向量,計(jì)算公式如下所示:
27、;
28、其中,、、分別表示第一至第三一維卷積層的操作;
29、卷積表示向量輸入到壓縮激發(fā)模塊,得到特征加權(quán)向量。
30、優(yōu)選的,所述壓縮激發(fā)模塊獲得特征加權(quán)向量的過(guò)程,包括以下步驟:
31、對(duì)輸入的卷積表示向量進(jìn)行全局平均池化,得到一個(gè)包含所有語(yǔ)音幀且所有通道的全局池化向量,表示為:
32、;
33、其中,是語(yǔ)音幀的數(shù)量,是語(yǔ)音幀通道維度,為在第個(gè)通道上的特征值;
34、對(duì)全局池化向量進(jìn)行兩個(gè)全連接層的變換,得到一個(gè)全局變換向量,表示為:
35、;
36、其中,和分別表示sigmoid激活函數(shù)和relu激活函數(shù),和分別表示兩個(gè)全連接層的權(quán)重矩陣;
37、對(duì)卷積表示向量和全局變換向量進(jìn)行相乘得到特征加權(quán)向量。
38、優(yōu)選的,所述采用選擇性訓(xùn)練的方式訓(xùn)練非母語(yǔ)中文語(yǔ)音識(shí)別模型,具體為:只訓(xùn)練tba模塊和卷積自適應(yīng)層的參數(shù),同時(shí)凍結(jié)預(yù)訓(xùn)練模型的參數(shù);
39、訓(xùn)練所采用的優(yōu)化函數(shù)表示為:
40、;
41、;
42、;
43、其中,是tba模塊和卷積自適應(yīng)層的參數(shù),是訓(xùn)練后的最優(yōu)參數(shù),是損失函數(shù),是訓(xùn)練數(shù)據(jù)集的大小,是第個(gè)語(yǔ)音樣本經(jīng)過(guò)模型后輸出的轉(zhuǎn)換向量,是第個(gè)語(yǔ)音樣本的標(biāo)簽序列,是由推導(dǎo)而來(lái)的條件概率,是學(xué)習(xí)率。
44、優(yōu)選的,所述利用訓(xùn)練好的非母語(yǔ)中文語(yǔ)音識(shí)別模型實(shí)現(xiàn)非母語(yǔ)中文語(yǔ)音識(shí)別,包括以下步驟:
45、將待識(shí)別的原始語(yǔ)音信號(hào)輸入到訓(xùn)練好的非母語(yǔ)中文語(yǔ)音識(shí)別模型,得到轉(zhuǎn)換向量;
46、根據(jù)預(yù)先設(shè)置的詞與向量轉(zhuǎn)換表,由轉(zhuǎn)換向量推導(dǎo)出候選字符序列的概率,選擇概率最大的字符序列作為預(yù)測(cè)文本,表示為:
47、;
48、其中,表示預(yù)測(cè)文本,是根據(jù)轉(zhuǎn)換向量推導(dǎo)出來(lái)的條件概率。
49、本發(fā)明還提供一種基于偏移和卷積自適應(yīng)的非母語(yǔ)中文語(yǔ)音識(shí)別系統(tǒng),包括:
50、模型構(gòu)建模塊,選擇預(yù)訓(xùn)練模型構(gòu)建非母語(yǔ)中文語(yǔ)音識(shí)別模型;
51、模型訓(xùn)練模塊,采用選擇性訓(xùn)練的方式訓(xùn)練非母語(yǔ)中文語(yǔ)音識(shí)別模型;
52、語(yǔ)音識(shí)別模塊,利用訓(xùn)練好的非母語(yǔ)中文語(yǔ)音識(shí)別模型實(shí)現(xiàn)非母語(yǔ)中文語(yǔ)音識(shí)別;
53、所述非母語(yǔ)中文語(yǔ)音識(shí)別模型包括依次連接的預(yù)處理層、transformer編碼器和全連接層;
54、預(yù)處理層將輸入的原始語(yǔ)音信號(hào)轉(zhuǎn)換為特征向量;
55、transformer編碼器包括多個(gè)依次連接的編碼器層,每個(gè)編碼器層包括依次連接的自注意力子層、tba模塊、前饋層和卷積自適應(yīng)模塊;自注意力子層將輸入信號(hào)轉(zhuǎn)換為語(yǔ)音幀,第一個(gè)編碼器層的自注意力子層的輸入信號(hào)為預(yù)處理層輸出的特征向量,其它編碼器層的自注意力子層的輸入信號(hào)為前一個(gè)編碼器層輸出的特征加權(quán)向量;tba模塊根據(jù)語(yǔ)音幀生成重要性權(quán)重和偏置項(xiàng),并輸出偏置向量到前饋層;前饋層將偏置向量轉(zhuǎn)換為表示向量;卷積自適應(yīng)模塊將表示向量轉(zhuǎn)換為特征加權(quán)向量;
56、全連接層基于最后一個(gè)編碼器層輸出的特征加權(quán)向量輸出一個(gè)轉(zhuǎn)換向量,通過(guò)轉(zhuǎn)換向量得到預(yù)測(cè)文本。
57、本發(fā)明具有如下有益效果:
58、(1)為了提高任務(wù)域可轉(zhuǎn)移性,本發(fā)明通過(guò)在預(yù)訓(xùn)練語(yǔ)音模型的中間表示中引入基于語(yǔ)音token的任務(wù)表示偏移(token?bias?adapter,?tba),顯著提升了模型對(duì)特定下游任務(wù)的適應(yīng)性。tba模塊根據(jù)每個(gè)語(yǔ)音token的重要性動(dòng)態(tài)調(diào)整表示偏移量,這不僅保留了預(yù)訓(xùn)練階段獲得的通用語(yǔ)言知識(shí),還使得模型能夠更準(zhǔn)確地將表示向量映射到相關(guān)任務(wù)域,特別是在非母語(yǔ)中文語(yǔ)音識(shí)別等場(chǎng)景中表現(xiàn)出色;
59、(2)本發(fā)明引入了一種基于卷積神經(jīng)網(wǎng)絡(luò)(cnns)的輕量級(jí)自適應(yīng)適配器convadapter,即卷積自適應(yīng)模塊,通過(guò)融合局部感受野內(nèi)的通道信息,有效地提取并利用預(yù)訓(xùn)練模型中的編碼知識(shí),同時(shí)保持了模型的輕量化特性。這種設(shè)計(jì)使得convadapter在學(xué)習(xí)特定任務(wù)信息時(shí)表現(xiàn)出色,而不顯著增加模型的計(jì)算負(fù)擔(dān);
60、(3)結(jié)合tba和卷積自適應(yīng)模塊的技術(shù)特征,本發(fā)明在非母語(yǔ)中文語(yǔ)音識(shí)別任務(wù)中展現(xiàn)出顯著的有益效果。通過(guò)提高模型對(duì)語(yǔ)音token重要性的理解以及有效提取編碼知識(shí),這種技術(shù)組合不僅增強(qiáng)了模型的識(shí)別準(zhǔn)確性,還提升了其在多語(yǔ)言環(huán)境或全球化應(yīng)用中的適應(yīng)性。
61、以下結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明,但本發(fā)明不局限于實(shí)施例。