語音識別糾錯(cuò)模型訓(xùn)練方法、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程

文檔序號：40574283發(fā)布日期：2025-01-03 11:38閱讀：24來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音識別糾錯(cuò)模型訓(xùn)練方法、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程

本申請涉及語音識別，尤其涉及一種語音識別糾錯(cuò)模型訓(xùn)練方法、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。

背景技術(shù)：

1、由于自動(dòng)語音識別(automatic?speech?recognition,asr)技術(shù)在進(jìn)行語音識別時(shí)，語音到文本的轉(zhuǎn)換過程中會(huì)產(chǎn)生錯(cuò)誤，語音識別糾錯(cuò)的需求也隨之產(chǎn)生。語音識別的錯(cuò)誤中有些是由于同音不同字的名稱(如人名、地名、公司名等)或者代詞(如她、它、他等)引起的，在沒有上下文的情況下，這些錯(cuò)誤通常難以被糾正。

2、目前，在訓(xùn)練用于進(jìn)行語音糾錯(cuò)的大語言模型時(shí)，訓(xùn)練數(shù)據(jù)中通常也會(huì)包括這些無法糾正的錯(cuò)誤，模型也無法有效學(xué)習(xí)，不能對這類錯(cuò)誤進(jìn)行有效糾正。但模型的訓(xùn)練過程中會(huì)將這些錯(cuò)誤計(jì)入模型損失并進(jìn)行迭代訓(xùn)練，浪費(fèi)了不必要的計(jì)算資源和時(shí)間，影響模型訓(xùn)練效率。

3、上述內(nèi)容僅用于輔助理解本申請的技術(shù)方案，并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。

技術(shù)實(shí)現(xiàn)思路

1、本申請的主要目的在于提供一種語音識別糾錯(cuò)模型訓(xùn)練方法、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品，旨在解決目前的語音識別糾錯(cuò)模型的訓(xùn)練效率低的技術(shù)問題。

2、為實(shí)現(xiàn)上述目的，本申請?zhí)岢鲆环N語音識別糾錯(cuò)模型訓(xùn)練方法，所述的語音識別糾錯(cuò)模型訓(xùn)練方法包括：

3、獲取第一訓(xùn)練文本，通過預(yù)設(shè)的大語言模型分別對所述第一訓(xùn)練文本和對應(yīng)的第一真實(shí)文本中的預(yù)設(shè)類型文本的字符位置插入標(biāo)記，得到第二訓(xùn)練文本和第二真實(shí)文本，其中，所述預(yù)設(shè)類型為語音識別糾錯(cuò)中不能通過上下文糾正的文本類型；

4、將所述第二訓(xùn)練文本輸入初始語音識別糾錯(cuò)模型，得到預(yù)測糾錯(cuò)文本；

5、根據(jù)所述預(yù)測糾錯(cuò)文本和所述第二真實(shí)文本，計(jì)算損失函數(shù)值，其中，在所述損失函數(shù)值的計(jì)算過程中，忽略標(biāo)記過的預(yù)設(shè)類型的文本；

6、基于所述第二訓(xùn)練文本和所述損失函數(shù)值對所述初始語音識別糾錯(cuò)模型進(jìn)行迭代訓(xùn)練，得到目標(biāo)語音識別糾錯(cuò)模型。

7、在一實(shí)施例中，所述通過預(yù)設(shè)的大語言模型分別對所述第一訓(xùn)練文本和對應(yīng)的第一真實(shí)文本中的預(yù)設(shè)類型文本的字符位置插入標(biāo)記，得到第二訓(xùn)練文本和第二真實(shí)文本的步驟包括：

8、將所述第一訓(xùn)練文本和對應(yīng)的提示詞輸入到所述大語言模型中，通過所述大語言模型輸出第二訓(xùn)練文本；

9、將所述第一真實(shí)文本和對應(yīng)的提示詞輸入到所述大語言模型中，通過所述大語言模型輸出第二真實(shí)文本；

10、其中，所述提示詞用于指示所述大語言模型在所述預(yù)設(shè)類型文本的字符位置插入標(biāo)記。

11、在一實(shí)施例中，所述通過所述大語言模型輸出第二訓(xùn)練文本的步驟包括：

12、通過所述大語言模型識別所述第一訓(xùn)練文本中的預(yù)設(shè)類型文本的字符位置；

13、通過所述大語言模型在所述預(yù)設(shè)類型文本的字符位置前后插入預(yù)設(shè)標(biāo)記，得到并輸出第二訓(xùn)練文本。

14、在一實(shí)施例中，所述根據(jù)所述預(yù)測糾錯(cuò)文本和所述第二真實(shí)文本，計(jì)算損失函數(shù)值的步驟包括：

15、將所述預(yù)測糾錯(cuò)文本和所述第二真實(shí)文本輸入預(yù)設(shè)的損失函數(shù)，確定對應(yīng)的損失函數(shù)值；

16、其中，所述損失函數(shù)中至少包括標(biāo)記矩陣，所述標(biāo)記矩陣用于表征標(biāo)記過的預(yù)設(shè)類型的文本的位置，用于在計(jì)算損失函數(shù)值時(shí)忽略標(biāo)記過的預(yù)設(shè)類型的文本的影響。

17、在一實(shí)施例中，在所述將所述預(yù)測糾錯(cuò)文本和所述第二真實(shí)文本輸入預(yù)設(shè)的損失函數(shù)，確定對應(yīng)的損失函數(shù)值的步驟前，所述方法還包括：

18、獲取所述預(yù)測糾錯(cuò)文本或所述第二真實(shí)文本中每個(gè)位置的標(biāo)記情況；

19、根據(jù)所述標(biāo)記情況，生成標(biāo)記矩陣，其中，在所述標(biāo)記矩陣中，標(biāo)記過的位置記為0，未標(biāo)記過的位置記為1。

20、在一實(shí)施例中，在所述獲取第一訓(xùn)練文本的步驟之后，所述方法還包括：

21、判斷所述第一訓(xùn)練文本中是否包括預(yù)設(shè)類型的文本；

22、若是，則執(zhí)行所述通過預(yù)設(shè)的大語言模型分別對所述第一訓(xùn)練文本和對應(yīng)的第一真實(shí)文本中的預(yù)設(shè)類型文本的字符位置插入標(biāo)記，得到第二訓(xùn)練文本和第二真實(shí)文本的步驟；

23、若否，則根據(jù)所述第一訓(xùn)練文本和所述第一真實(shí)文本訓(xùn)練所述初始語音識別糾錯(cuò)模型，得到目標(biāo)語音識別糾錯(cuò)模型。

24、在一實(shí)施例中，所述基于所述第二訓(xùn)練文本和所述損失函數(shù)值對所述初始語音識別糾錯(cuò)模型進(jìn)行迭代訓(xùn)練，得到目標(biāo)語音識別糾錯(cuò)模型的步驟包括：

25、調(diào)整所述初始語音識別糾錯(cuò)模型的模型參數(shù)，并將所述第二訓(xùn)練文本中的訓(xùn)練集文本輸入到調(diào)整后的初始語音識別糾錯(cuò)模型中，獲得新的預(yù)測糾錯(cuò)文本；

26、基于新的預(yù)測糾錯(cuò)文本對應(yīng)的第二真實(shí)文本確定調(diào)整后的初始語音識別糾錯(cuò)模型的損失函數(shù)值；

27、若所述損失函數(shù)值未收斂，則返回執(zhí)行所述調(diào)整所述初始語音識別糾錯(cuò)模型的模型參數(shù)的步驟，直到所述損失函數(shù)值收斂后，將所述初始語音識別糾錯(cuò)模型置為目標(biāo)語音識別糾錯(cuò)模型。

28、此外，為實(shí)現(xiàn)上述目的，本申請還提出一種電子設(shè)備，所述設(shè)備包括：存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如上文所述的語音識別糾錯(cuò)模型訓(xùn)練方法的步驟。

29、此外，為實(shí)現(xiàn)上述目的，本申請還提出一種存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的語音識別糾錯(cuò)模型訓(xùn)練方法的步驟。

30、此外，為實(shí)現(xiàn)上述目的，本申請還提供一種計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文所述的語音識別糾錯(cuò)模型訓(xùn)練方法的步驟。

31、本申請?zhí)岢隽艘环N語音識別糾錯(cuò)模型訓(xùn)練方法，在語音識別糾錯(cuò)模型訓(xùn)練方法中，首先獲取第一訓(xùn)練文本，通過預(yù)設(shè)的大語言模型分別對所述第一訓(xùn)練文本和對應(yīng)的第一真實(shí)文本中的預(yù)設(shè)類型文本的字符位置插入標(biāo)記，得到第二訓(xùn)練文本和第二真實(shí)文本，其中，所述預(yù)設(shè)類型為語音識別糾錯(cuò)中不能通過上下文糾正的文本類型，本申請的技術(shù)方案中采用大語言模型對文本中不能通過上下文糾正的文本類型的文本進(jìn)行標(biāo)記，相比人工標(biāo)記方式有效地提高了文本標(biāo)記的效率，再將所述第二訓(xùn)練文本輸入初始語音識別糾錯(cuò)模型，得到預(yù)測糾錯(cuò)文本，然后根據(jù)所述預(yù)測糾錯(cuò)文本和所述第二真實(shí)文本，計(jì)算損失函數(shù)值，其中，在所述損失函數(shù)值的計(jì)算過程中，忽略標(biāo)記過的預(yù)設(shè)類型的文本，由于在計(jì)算損失函數(shù)值時(shí)忽略了預(yù)設(shè)類型的文本，也就忽略了預(yù)設(shè)類型的文本出現(xiàn)錯(cuò)誤時(shí)的函數(shù)損失，最后基于所述第二訓(xùn)練文本和所述損失函數(shù)值對所述初始語音識別糾錯(cuò)模型進(jìn)行迭代訓(xùn)練，得到目標(biāo)語音識別糾錯(cuò)模型，損失函數(shù)的計(jì)算將不會(huì)受到標(biāo)記過的文本的影響，從而避免梯度反向傳播到這些部分，使模型訓(xùn)練中能更專注于糾正能夠糾正的錯(cuò)誤和有意義的錯(cuò)誤，傾斜更多的計(jì)算資源和時(shí)間在能提升糾正準(zhǔn)確率的部分，實(shí)現(xiàn)了計(jì)算資源的充分利用，從而提高了語音識別糾錯(cuò)模型的訓(xùn)練效率和糾錯(cuò)準(zhǔn)確率。

技術(shù)特征：

1.一種語音識別糾錯(cuò)模型訓(xùn)練方法，其特征在于，所述語音識別糾錯(cuò)模型訓(xùn)練方法包括：

2.如權(quán)利要求1所述的語音識別糾錯(cuò)模型訓(xùn)練方法，其特征在于，所述通過預(yù)設(shè)的大語言模型分別對所述第一訓(xùn)練文本和對應(yīng)的第一真實(shí)文本中的預(yù)設(shè)類型文本的字符位置插入標(biāo)記，得到第二訓(xùn)練文本和第二真實(shí)文本的步驟包括：

3.如權(quán)利要求2所述的語音識別糾錯(cuò)模型訓(xùn)練方法，其特征在于，所述通過所述大語言模型輸出第二訓(xùn)練文本的步驟包括：

4.如權(quán)利要求1所述的語音識別糾錯(cuò)模型訓(xùn)練方法，其特征在于，所述根據(jù)所述預(yù)測糾錯(cuò)文本和所述第二真實(shí)文本，計(jì)算損失函數(shù)值的步驟包括：

5.如權(quán)利要求4所述的語音識別糾錯(cuò)模型訓(xùn)練方法，其特征在于，在所述將所述預(yù)測糾錯(cuò)文本和所述第二真實(shí)文本輸入預(yù)設(shè)的損失函數(shù)，確定對應(yīng)的損失函數(shù)值的步驟前，所述方法還包括：

6.如權(quán)利要求1所述的語音識別糾錯(cuò)模型訓(xùn)練方法，其特征在于，在所述獲取第一訓(xùn)練文本的步驟之后，所述方法還包括：

7.如權(quán)利要求1至6任一項(xiàng)所述的語音識別糾錯(cuò)模型訓(xùn)練方法，其特征在于，所述基于所述第二訓(xùn)練文本和所述損失函數(shù)值對所述初始語音識別糾錯(cuò)模型進(jìn)行迭代訓(xùn)練，得到目標(biāo)語音識別糾錯(cuò)模型的步驟包括：

8.一種電子設(shè)備，其特征在于，所述設(shè)備包括：存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述計(jì)算機(jī)程序配置為實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音識別糾錯(cuò)模型訓(xùn)練方法的步驟。

9.一種存儲(chǔ)介質(zhì)，其特征在于，所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語音識別糾錯(cuò)模型訓(xùn)練方法的步驟。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的方法。

技術(shù)總結(jié)
本申請公開了一種語音識別糾錯(cuò)模型訓(xùn)練方法、電子設(shè)備、介質(zhì)及程序產(chǎn)品，涉及語音識別技術(shù)領(lǐng)域，語音識別糾錯(cuò)模型訓(xùn)練方法包括：獲取第一訓(xùn)練文本，通過預(yù)設(shè)的大語言模型分別對第一訓(xùn)練文本和對應(yīng)的第一真實(shí)文本中的預(yù)設(shè)類型文本的字符位置插入標(biāo)記，得到第二訓(xùn)練文本和第二真實(shí)文本；將第二訓(xùn)練文本輸入初始語音識別糾錯(cuò)模型，得到預(yù)測糾錯(cuò)文本；根據(jù)預(yù)測糾錯(cuò)文本和第二真實(shí)文本，計(jì)算損失函數(shù)值，損失函數(shù)值的計(jì)算過程中忽略標(biāo)記過的文本；基于第二訓(xùn)練文本和損失函數(shù)值對初始語音識別糾錯(cuò)模型進(jìn)行迭代訓(xùn)練，得到目標(biāo)語音識別糾錯(cuò)模型。本申請的技術(shù)方案避免語音識別糾錯(cuò)模型在無法糾正的錯(cuò)誤上浪費(fèi)計(jì)算資源和時(shí)間，提高了訓(xùn)練效率。

技術(shù)研發(fā)人員：葛嫻,宋元峰,姜迪
受保護(hù)的技術(shù)使用者：深圳前海微眾銀行股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葛嫻,宋元峰,姜迪
技術(shù)所有人：深圳前海微眾銀行股份有限公司
我是此專利的發(fā)明人

上一篇：一種阿福拉納的合成方法與流程
上一篇：一種具有高PSR和瞬態(tài)響應(yīng)增強(qiáng)的LDO電路的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音識別模型訓(xùn)練相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識別糾錯(cuò)模型訓(xùn)練方法、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程

語音識別糾錯(cuò)模型訓(xùn)練方法、電子設(shè)備、介質(zhì)及程序產(chǎn)品與流程