欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng)

文檔序號(hào):40443804發(fā)布日期:2024-12-24 15:18閱讀:30來(lái)源:國(guó)知局
一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng)

本發(fā)明涉及語(yǔ)音識(shí)別,尤其涉及一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng)。


背景技術(shù):

1、近年來(lái),自動(dòng)語(yǔ)音識(shí)別(automatic?speech?recognition,asr)技術(shù)在多個(gè)領(lǐng)域獲得了廣泛應(yīng)用。然而,針對(duì)少數(shù)民族語(yǔ)言,如藏語(yǔ)等資源稀缺語(yǔ)言,其語(yǔ)音識(shí)別系統(tǒng)的性能仍然存在諸多挑戰(zhàn)。在藏語(yǔ)的三大方言中,現(xiàn)有公開(kāi)數(shù)據(jù)集以衛(wèi)藏方言的標(biāo)注語(yǔ)音數(shù)據(jù)集規(guī)模最大,安多方言次之,而康巴方言的數(shù)據(jù)量最為有限,少于6小時(shí),屬于極低資源語(yǔ)言。因此,當(dāng)前藏語(yǔ)語(yǔ)音識(shí)別的研究主要集中于衛(wèi)藏方言和安多方言領(lǐng)域,康巴方言由于數(shù)據(jù)匱乏,相關(guān)研究十分稀少,導(dǎo)致缺乏高性能、可靠的康巴方言語(yǔ)音識(shí)別模型。這一現(xiàn)狀嚴(yán)重限制了康巴方言在語(yǔ)音識(shí)別技術(shù)中的應(yīng)用與發(fā)展。

2、為了提升極低資源語(yǔ)言的語(yǔ)音識(shí)別性能,當(dāng)前研究有以下兩類方法:

3、1.擴(kuò)充數(shù)據(jù)集方法,包括:

4、1.1采用數(shù)據(jù)增強(qiáng)技術(shù),如增加噪聲,譜擴(kuò)展等,通過(guò)擴(kuò)展訓(xùn)練數(shù)據(jù)集,提升模型對(duì)極低資源語(yǔ)言的適應(yīng)性;

5、1.2增加人工標(biāo)注數(shù)據(jù)以擴(kuò)充訓(xùn)練數(shù)據(jù)集。

6、2.改進(jìn)模型方法,包括:

7、2.1基于大量其他語(yǔ)言的語(yǔ)音數(shù)據(jù)預(yù)訓(xùn)練語(yǔ)音識(shí)別模型,再通過(guò)少量目標(biāo)語(yǔ)言數(shù)據(jù)進(jìn)行微調(diào),快速提升極低資源語(yǔ)言的語(yǔ)音識(shí)別效果,減少對(duì)標(biāo)注數(shù)據(jù)的依賴;

8、2.2基于自監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí),通過(guò)無(wú)標(biāo)簽數(shù)據(jù)訓(xùn)練模型,使其在資源匱乏的場(chǎng)景下仍能學(xué)習(xí)到語(yǔ)音特征,提升模型的泛化能力。

9、2.3通過(guò)多語(yǔ)言/多方言聯(lián)合訓(xùn)練方法,將目標(biāo)語(yǔ)言與其他語(yǔ)言的數(shù)據(jù)聯(lián)合訓(xùn)練,利用不同語(yǔ)言之間的共同特征,可以提高模型對(duì)目標(biāo)語(yǔ)言的語(yǔ)音識(shí)別能力。

10、然而,對(duì)于康巴方言,人工標(biāo)注數(shù)據(jù)的擴(kuò)充需要大量康巴方言母語(yǔ)者的參與,耗時(shí)且成本高昂,限制了數(shù)據(jù)集資源的擴(kuò)充,因此目前缺少通過(guò)人工標(biāo)注改善語(yǔ)音識(shí)別性能的研究。

11、為此,本發(fā)明提出了一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在的缺陷,而提出的一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng)。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:

3、一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),包括未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊、基于語(yǔ)音合成的偽音頻數(shù)據(jù)收集模塊、初始模型訓(xùn)練模塊、模型推理模塊、數(shù)據(jù)選擇與增強(qiáng)模塊、模型迭代訓(xùn)練模塊。

4、進(jìn)一步地,所述未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊用于從公開(kāi)的網(wǎng)絡(luò)資源中收集未標(biāo)注的康巴語(yǔ)音數(shù)據(jù);

5、所述未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊包括:

6、網(wǎng)絡(luò)爬蟲(chóng)模塊,用于從公共網(wǎng)絡(luò)上爬取康巴語(yǔ)音數(shù)據(jù);

7、人工切分模塊,與所述網(wǎng)絡(luò)爬蟲(chóng)模塊相連接,用于對(duì)爬取的語(yǔ)音數(shù)據(jù)進(jìn)行句子級(jí)別的切分;

8、數(shù)據(jù)預(yù)處理模塊,與所述人工切分模塊相連接,用于對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,規(guī)整數(shù)據(jù);

9、數(shù)據(jù)整合模塊,與所述數(shù)據(jù)預(yù)處理模塊相連接,用于將所有數(shù)據(jù)統(tǒng)一標(biāo)記、存儲(chǔ),整合成最終的未標(biāo)注康巴方言語(yǔ)音數(shù)據(jù)集。

10、進(jìn)一步地,所述基于語(yǔ)音合成的偽音頻數(shù)據(jù)收集模塊用于通過(guò)語(yǔ)音合成技術(shù),根據(jù)藏文文本生成康巴方言的偽音頻數(shù)據(jù)。

11、進(jìn)一步地,所述初始模型訓(xùn)練模塊基于已有人工標(biāo)注數(shù)據(jù)集訓(xùn)練初始康巴方言語(yǔ)音識(shí)別模型。

12、進(jìn)一步地,所述模型推理模塊與所述未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊、基于語(yǔ)音合成的偽音頻數(shù)據(jù)收集模塊和初始模型訓(xùn)練模塊相連接,用于基于已訓(xùn)練的語(yǔ)音識(shí)別模型,對(duì)未標(biāo)注語(yǔ)音數(shù)據(jù)及合成偽語(yǔ)音識(shí)別為藏文文本。

13、進(jìn)一步地,所述數(shù)據(jù)選擇與增強(qiáng)模塊與所述模型推理模塊相連接,用于從未標(biāo)注語(yǔ)音數(shù)據(jù)及合成偽語(yǔ)音中選擇可靠的語(yǔ)音-文本對(duì),并與人工標(biāo)注語(yǔ)音識(shí)別數(shù)據(jù)集共同擴(kuò)展為訓(xùn)練數(shù)據(jù)集。

14、進(jìn)一步地,所述模型迭代訓(xùn)練模塊與所述模型推理模塊和數(shù)據(jù)選擇與增強(qiáng)模塊相連接,用于基于擴(kuò)充的訓(xùn)練數(shù)據(jù)集迭代強(qiáng)化訓(xùn)練語(yǔ)音識(shí)別模型性能,最終獲得高準(zhǔn)確率的藏語(yǔ)康巴方言語(yǔ)音識(shí)別模型。

15、相比于現(xiàn)有技術(shù),本發(fā)明的有益效果在于:

16、1、本發(fā)明中提供的基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng)通過(guò)未標(biāo)注的語(yǔ)音數(shù)據(jù)及語(yǔ)音合成的偽音頻擴(kuò)充訓(xùn)練數(shù)據(jù)集規(guī)模,利用自增強(qiáng)學(xué)習(xí)的思想迭代優(yōu)化語(yǔ)音識(shí)別模型,最終在極低資源的康巴方言語(yǔ)音識(shí)別上獲得更好的性能;

17、2、本發(fā)明不僅提高了藏語(yǔ)康巴方言語(yǔ)音識(shí)別性能,還獲得了一批可用的帶有高準(zhǔn)確率的標(biāo)簽的語(yǔ)音識(shí)別數(shù)據(jù)集;

18、3、本發(fā)明可以推廣到其他語(yǔ)言,特別是低資源語(yǔ)言的語(yǔ)音識(shí)別訓(xùn)練中,具有較高的應(yīng)用價(jià)值。



技術(shù)特征:

1.一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),其特征在于,包括未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊(1)、基于語(yǔ)音合成的偽音頻數(shù)據(jù)收集模塊(2)、初始模型訓(xùn)練模塊(3)、模型推理模塊(4)、數(shù)據(jù)選擇與增強(qiáng)模塊(5)、模型迭代訓(xùn)練模塊(6)。

2.根據(jù)權(quán)利要求1所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),其特征在于,所述未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊(1)用于從公開(kāi)的網(wǎng)絡(luò)資源中收集未標(biāo)注的康巴語(yǔ)音數(shù)據(jù);

3.根據(jù)權(quán)利要求2所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),其特征在于,所述基于語(yǔ)音合成的偽音頻數(shù)據(jù)收集模塊(2)用于通過(guò)語(yǔ)音合成技術(shù),根據(jù)藏文文本生成康巴方言的偽音頻數(shù)據(jù)。

4.根據(jù)權(quán)利要求3所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),其特征在于,所述初始模型訓(xùn)練模塊(3)基于已有人工標(biāo)注數(shù)據(jù)集訓(xùn)練初始康巴方言語(yǔ)音識(shí)別模型。

5.根據(jù)權(quán)利要求4所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),其特征在于,所述模型推理模塊(4)與所述未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊(1)、基于語(yǔ)音合成的偽音頻數(shù)據(jù)收集模塊(2)和初始模型訓(xùn)練模塊(3)相連接,用于基于已訓(xùn)練的語(yǔ)音識(shí)別模型,對(duì)未標(biāo)注語(yǔ)音數(shù)據(jù)及合成偽語(yǔ)音識(shí)別為藏文文本。

6.根據(jù)權(quán)利要求5所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),其特征在于,所述數(shù)據(jù)選擇與增強(qiáng)模塊(5)與所述模型推理模塊(4)相連接,用于從未標(biāo)注語(yǔ)音數(shù)據(jù)及合成偽語(yǔ)音中選擇可靠的語(yǔ)音-文本對(duì),并與人工標(biāo)注語(yǔ)音識(shí)別數(shù)據(jù)集共同擴(kuò)展為訓(xùn)練數(shù)據(jù)集。

7.根據(jù)權(quán)利要求6所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),其特征在于,所述模型迭代訓(xùn)練模塊(6)與所述模型推理模塊(4)和數(shù)據(jù)選擇與增強(qiáng)模塊(5)相連接,用于基于擴(kuò)充的訓(xùn)練數(shù)據(jù)集迭代強(qiáng)化訓(xùn)練語(yǔ)音識(shí)別模型性能,最終獲得高準(zhǔn)確率的藏語(yǔ)康巴方言語(yǔ)音識(shí)別模型。


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng),涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,包括未標(biāo)注語(yǔ)音數(shù)據(jù)收集模塊、基于語(yǔ)音合成的偽音頻數(shù)據(jù)收集模塊、初始模型訓(xùn)練模塊、模型推理模塊、數(shù)據(jù)選擇與增強(qiáng)模塊、模型迭代訓(xùn)練模塊。本發(fā)明中提供的基于自增強(qiáng)學(xué)習(xí)的藏語(yǔ)康巴方言語(yǔ)音識(shí)別系統(tǒng)通過(guò)未標(biāo)注的語(yǔ)音數(shù)據(jù)及語(yǔ)音合成的偽音頻擴(kuò)充訓(xùn)練數(shù)據(jù)集規(guī)模,利用自增強(qiáng)學(xué)習(xí)的思想迭代優(yōu)化語(yǔ)音識(shí)別模型,最終在極低資源的康巴方言語(yǔ)音識(shí)別上獲得更好的性能;本發(fā)明不僅提高了藏語(yǔ)康巴方言語(yǔ)音識(shí)別性能,還獲得了一批可用的帶有高準(zhǔn)確率的標(biāo)簽的語(yǔ)音識(shí)別數(shù)據(jù)集;本發(fā)明可以推廣到其他語(yǔ)言,特別是低資源語(yǔ)言的語(yǔ)音識(shí)別訓(xùn)練中,具有較高的應(yīng)用價(jià)值。

技術(shù)研發(fā)人員:戚肖克,劉佳洛,趙小兵
受保護(hù)的技術(shù)使用者:中國(guó)政法大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
武定县| 定安县| 平湖市| 阳曲县| 五莲县| 汤原县| 资中县| 宁武县| 凤城市| 班戈县| 永州市| 晋江市| 黔西县| 庄浪县| 桓仁| 香格里拉县| 云龙县| 晋江市| 峨眉山市| 南川市| 恩平市| 吴堡县| 陇西县| 淮阳县| 南投市| 基隆市| 资兴市| 上杭县| 红原县| 赤水市| 金昌市| 白城市| 曲松县| 临漳县| 九龙城区| 即墨市| 穆棱市| 辉县市| 钟祥市| 白山市| 特克斯县|