專利名稱:一種語音識(shí)別應(yīng)用領(lǐng)域中的置信度快速計(jì)算方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音識(shí)別技術(shù)領(lǐng)域,具體的說,本發(fā)明涉及一種語音識(shí)別應(yīng)用領(lǐng)域中 的置信度快速計(jì)算方法。
背景技術(shù):
在語音識(shí)別及其相關(guān)的諸多應(yīng)用領(lǐng)域中,置信度的計(jì)算都是一個(gè)非常重要的部 分。置信度用于評(píng)價(jià)某事件的可靠程度,在形式上,可以將其定義為函數(shù)C(A),A為事件空 間{~,4,...4...}中的一個(gè)元素,C(A)滿足若發(fā)生事件A1的可靠性比發(fā)生A2高,則有 C(A1) > C(A2)。置信度可以對(duì)語音識(shí)別系統(tǒng)的識(shí)別結(jié)果進(jìn)行假設(shè)檢驗(yàn),通過試驗(yàn)設(shè)定的閾 值對(duì)識(shí)別結(jié)果的可靠性進(jìn)行評(píng)價(jià),定位結(jié)果中的錯(cuò)誤,從而提高識(shí)別系統(tǒng)的識(shí)別率和穩(wěn)健 性。在關(guān)鍵詞檢測(cè)中,置信度被用于對(duì)虛警和漏檢率的控制;而在發(fā)音評(píng)估中,置信度被當(dāng) 作為發(fā)音是否正確的測(cè)度;在命令詞識(shí)別領(lǐng)域,置信度被用于某些無關(guān)詞匯的拒識(shí)??傊?與語音識(shí)別相關(guān)的各個(gè)應(yīng)用中,幾乎都需應(yīng)用到置信度這一指標(biāo)。置信度有很多種計(jì)算方式,包括基于假設(shè)檢驗(yàn)的置信度,基于后驗(yàn)概率的置信度, 以及基于多種預(yù)測(cè)特征融合的置信度等等。在目前的基于隱馬爾可夫模型的語音識(shí)別系統(tǒng) 中,最常用且有效的置信度是基于后驗(yàn)概率的置信度。傳統(tǒng)的基于聲學(xué)層信息的后驗(yàn)概率 主要有以下兩種1)基于幀平均的后驗(yàn)概率2)基于音素累計(jì)概率的后驗(yàn)概率前者需要對(duì)每一幀語音在整個(gè)聲學(xué)空間(所有的隱馬爾可夫狀態(tài))上計(jì)算觀察概 率,后者在計(jì)算后驗(yàn)概率的分母的時(shí)候需要對(duì)一個(gè)音素循環(huán)網(wǎng)絡(luò)進(jìn)行解碼。這兩個(gè)算法的 時(shí)間復(fù)雜度都相當(dāng)高,因此在實(shí)際應(yīng)用中難以推廣。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)計(jì)算復(fù)雜度高的缺點(diǎn),提供一種快速而又不降低性 能的聲學(xué)層置信度(下文中簡(jiǎn)稱為置信度)計(jì)算方法。此方法以后驗(yàn)概率置信度為基礎(chǔ), 做了一系列的改進(jìn)。本發(fā)明中,對(duì)某個(gè)識(shí)別單元的置信度采用如下公式計(jì)算 其中分子P(0|M。ph)表示當(dāng)前識(shí)別單元語音段0在表征當(dāng)前識(shí)別單元cph的隱馬 爾可夫模型M。ph上計(jì)算的累積概率;分母贓P(01 it^)表示當(dāng)前語音段在識(shí)別單元集合 中所有識(shí)別單元模型上的累積概率的最大值。在實(shí)際的計(jì)算過程中,對(duì)分母部分,本發(fā)明首先構(gòu)建了一個(gè)包含所有識(shí)別單元的 隱馬爾可夫模型網(wǎng)絡(luò),如圖1所示。網(wǎng)絡(luò)中的每條路徑代表一個(gè)識(shí)別單元,如圖中的phi、ph2等表示的是識(shí)別單元1、識(shí)別單元2等。此處的識(shí)別單元是音素(phone),也可以是其他 的語音單元(如音節(jié)等)。在圖1中,一個(gè)識(shí)別單元用一個(gè)包含三個(gè)狀態(tài)的隱馬爾科夫模型 來表征,此處的狀態(tài)數(shù)也可以是其他的任意數(shù)目。對(duì)當(dāng)前的語音幀序列,在這個(gè)網(wǎng)絡(luò)上進(jìn)行 Viterbi搜索,在結(jié)束節(jié)點(diǎn)上的最優(yōu)累積概率即為分母^;J。在這個(gè)過程中,本 發(fā)明還可以采用有效的剪枝策略減少計(jì)算量,比如,可采用beam剪枝和/或n-best剪枝。 其中,Beam剪枝是語音識(shí)別中常用的一種提高搜索效率的方法,其基本思想是在搜索過程 中,將那些累積概率比較低的路徑當(dāng)做不應(yīng)該出現(xiàn)的路徑而直接剪掉。N-best剪枝的思想 是在搜索過程中,始終保持一定數(shù)量的路徑,將所有路徑按照累積概率排序,剪除那些概率 較低且超出規(guī)定數(shù)量的路徑。Beam剪枝的具體方法如下1.計(jì)算當(dāng)前幀在所有狀態(tài)上的累積概率;2.計(jì)算所有狀態(tài)上的當(dāng)前累積概率的最大值maxProb ;3.檢查每一條路徑,如果這條路徑上所有狀態(tài)的最大累積概率小于 maxProb-curBeam,這條路徑即被剪掉,之后的計(jì)算中不再考慮此路徑;4.重新設(shè)定 curBeam 為 curBeam+beamStep ;5.新的語音幀到來,轉(zhuǎn)到步驟1,重復(fù)以上步驟。其中,curBeam的處理當(dāng)前語音幀時(shí)所設(shè)定的beam值,在搜索過程開始時(shí),為其設(shè) 定一初始值,此初始值表示為beamBase ;beamStep是隨著搜索過程的推進(jìn),每次對(duì)curBeam 的增加量,它的值等于(beamMax-beamBase)/frameNum,其中beamMax為剪枝過程中所允許 的最大beam值,frameNum是當(dāng)前語音段的幀數(shù)。n-best剪枝的具體方法如下1.計(jì)算當(dāng)前幀的所有狀態(tài)的累積概率;2.將所有路徑按照此路徑上的最大累積概率降序排序;3.保留前curBestNum條路徑,剪除其后概率較小的路徑4.重新設(shè)定 curBestNum 為 bestNumBase-bestNumStep X curFrameNum5.新的語音幀到來,轉(zhuǎn)到1,重復(fù)以上步驟。其中,curBestNum是在處理當(dāng)前語音幀時(shí)所需保留的路徑數(shù)目,在搜索過程開始 時(shí),為其設(shè)定初始值,此初始值表示為bestNumBase,curFrameNum是當(dāng)前已處理的語音幀 數(shù),bestNumSt印設(shè)為(bestMin-bestBase)/frameNum, bestNumMin 為搜索過程結(jié)束時(shí)所保 留的最少的路徑數(shù)目。在實(shí)際執(zhí)行過程中,beam剪枝和n-best剪枝是同時(shí)進(jìn)行的。本發(fā)明具有下列技術(shù)效果通過簡(jiǎn)化后驗(yàn)概率分母的計(jì)算方式,以及通過采用多種剪枝方式,在不降低性能 的前提下,大大減少所需概率計(jì)算次數(shù),有效降低算法的時(shí)間復(fù)雜度,提高置信度計(jì)算速度。
圖1是為計(jì)算本發(fā)明中的后驗(yàn)概率的分母所構(gòu)建的識(shí)別單元隱馬爾可夫模型網(wǎng) 絡(luò)的示意圖2是本發(fā)明用于發(fā)音準(zhǔn)確度的計(jì)算時(shí)的流程圖。
具體實(shí)施例方式下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步描述實(shí)施例本實(shí)施例是一個(gè)用于發(fā)音評(píng)估中的置信度計(jì)算方法。在發(fā)音評(píng)估中,置信度實(shí)際 上就是發(fā)音準(zhǔn)確度。如圖2所示,該用于發(fā)音評(píng)估中的置信度計(jì)算方法包含如下步驟1)前端處理對(duì)輸入語音進(jìn)行預(yù)處理,進(jìn)行特征提?。辉诒緦?shí)施例中,將輸入數(shù)據(jù)進(jìn)行16K采樣率數(shù)字化(此處也可采用其他的采樣率, 比如,8K,32K等等),并進(jìn)行預(yù)加重、分幀、加窗處理,對(duì)每一幀提取MFCC(mel-frequency c印stral coefficient)特征矢量及兩階差分矢量。2)強(qiáng)制對(duì)齊將1)中得到的語音特征序列與參考文本進(jìn)行強(qiáng)制對(duì)齊,得到特征序 列與識(shí)別單元序列的對(duì)應(yīng)關(guān)系。此處以音素作為本實(shí)施例的識(shí)別單元。在實(shí)際應(yīng)用中,識(shí) 別單元還可以是音節(jié),單詞等語音單元。在本實(shí)施例中,其處理過程為首先將參考文本根據(jù)字典以及聲學(xué)模型轉(zhuǎn)化為隱馬 爾可夫模型狀態(tài)序列,然后采用Viterbi算法解碼得到最佳匹配路徑,即得到語音特征幀 與音素的對(duì)應(yīng)序列。這個(gè)對(duì)應(yīng)序列描述了每個(gè)音素在整段語音中的位置,即起始的時(shí)間點(diǎn)。 這些時(shí)間點(diǎn)將整段的特征序列切分成一個(gè)個(gè)的音素片段。在下面的步驟中,將根據(jù)這些時(shí) 間點(diǎn),對(duì)每一個(gè)音素計(jì)算其后驗(yàn)概率。3)后驗(yàn)概率計(jì)算對(duì)音素序列中的每一個(gè)音素用本發(fā)明中的計(jì)算方法計(jì)算其后 驗(yàn)概率,作為置信度輸出,也即為此音素的發(fā)音準(zhǔn)確度。此處,公式⑴中的0即為本音素所對(duì)應(yīng)的特征幀序列,也即在強(qiáng)制對(duì)齊過程中所 切分出來的音素特征片段本實(shí)施例中的剪枝算法中所涉及的各項(xiàng)參數(shù)在本實(shí)施例中設(shè)置如下beamBase = 5000beamMax = 16000bestNumBase =音素總數(shù)-10bestNumMin = 5實(shí)驗(yàn)驗(yàn)證采用漢語單詞和句子數(shù)據(jù)(包含100個(gè)單字詞,100個(gè)雙字詞,以及100個(gè)短句,短 句的長(zhǎng)度在15個(gè)字以內(nèi))作為測(cè)試數(shù)據(jù)。由30個(gè)人在安靜環(huán)境下朗讀這些單詞和句子, 男女各15個(gè)。語音數(shù)據(jù)按照16K,16bit,單聲道的格式來存儲(chǔ)。采用如下方法來構(gòu)造負(fù)樣 本(發(fā)音錯(cuò)誤的樣本)對(duì)上述的朗讀數(shù)據(jù),從中隨機(jī)挑選一些音節(jié),通過修改參考文本的 方式來構(gòu)造負(fù)樣本。這樣,對(duì)單字詞數(shù)據(jù)和句子數(shù)據(jù),分別包含約30%的負(fù)樣本(以音節(jié)為 單位來計(jì)算)。對(duì)發(fā)音質(zhì)量評(píng)估的性能采用對(duì)錯(cuò)讀音節(jié)檢測(cè)的等錯(cuò)率(EER)來評(píng)價(jià),系統(tǒng)的 速度采用實(shí)時(shí)率來評(píng)價(jià)。使用兩種不同的方法來計(jì)算發(fā)音準(zhǔn)確度,一種是前面所述的基于音素累計(jì)概率的 后驗(yàn)概率方法,一種是本文所提出的快速置信度計(jì)算方法。它們的準(zhǔn)確性和實(shí)時(shí)率比較如 下 從上表中看出,本文所提出的快速置信度計(jì)算方法,在保證等錯(cuò)率指標(biāo)基本不變 的情況下,速度提高了約3倍,提升效果顯著。
權(quán)利要求
一種語音識(shí)別應(yīng)用領(lǐng)域中的置信度快速計(jì)算方法,其特征在于,1)對(duì)一個(gè)識(shí)別單元,計(jì)算當(dāng)前語音段在當(dāng)前識(shí)別單元模型上的累積概率,將其作為后驗(yàn)概率的分子;2)計(jì)算當(dāng)前語音段在所有識(shí)別單元模型上的累積概率的最大值,將其作為后驗(yàn)概率的分母;3)將步驟1)的分子與步驟2)得出的分母相除得出后驗(yàn)概率,并將該后驗(yàn)概率作為當(dāng)前識(shí)別單元的置信度。
2.如權(quán)利要求1所述的置信度快速計(jì)算方法,其特征在于,所述的后驗(yàn)概率采用如下 公式計(jì)算 其中,分子P (O ι Mcph)表示當(dāng)前識(shí)別單元語音段0在當(dāng)前識(shí)別單元cph的隱馬爾可夫模 型M。ph上計(jì)算的累積概率;分母^…表示當(dāng)前語音段在當(dāng)前語言的識(shí)別單元集合中所有識(shí)別單元模型上的累積概率的最大值。
3.如權(quán)利要求1所述的置信度快速計(jì)算方法,其特征在于,所述步驟1)中,構(gòu)建一個(gè)包 含所有識(shí)別單元模型的模型并聯(lián)網(wǎng)絡(luò),然后通過Viterbi搜索算法搜索最佳的路徑,以結(jié) 束節(jié)點(diǎn)上的最優(yōu)概率作為所述后驗(yàn)概率的分母。
4.如權(quán)利要求1所述的置信度快速計(jì)算方法,其特征在于,所述步驟2)中,在Viterbi 搜索算法中,采用beam剪枝和/或n-best剪枝的方法以降低搜索復(fù)雜度。
5.如權(quán)利要求3所述的置信度快速計(jì)算方法,其特征在于,所述的模型并聯(lián)網(wǎng)絡(luò)中的 每條路徑表示一個(gè)隱馬爾可夫模型,每個(gè)隱馬爾可夫模型代表一個(gè)識(shí)別單元,由若干個(gè)狀 態(tài)組成;所述的模型并聯(lián)網(wǎng)絡(luò)包含一個(gè)連接到所有隱馬爾可夫模型起始狀態(tài)的開始節(jié)點(diǎn)和 一個(gè)連接到所有隱馬爾可夫模型結(jié)束狀態(tài)的結(jié)束節(jié)點(diǎn)。
6.如權(quán)利要求4所述的置信度快速計(jì)算方法,其特征在于,所述的beam剪枝方法包含 如下步驟a)設(shè)定初始的beam為curBeam;b)計(jì)算當(dāng)前幀在所有狀態(tài)上的累積概率;c)計(jì)算所有狀態(tài)上的當(dāng)前累積概率的最大值maxProb;d)檢查每一條路徑,如果這條路徑上的最大累積概率小于maxProb-curBeam,這條路 徑即被剪掉,之后的計(jì)算中不再考慮此路徑;e)curBeam累加beamSt印,為事先設(shè)定的累加量,即每過一幀,當(dāng)前的beam增加 beamStep ;f)新的語音幀到來,重新執(zhí)行步驟a)。
7.如權(quán)利要求4所述的置信度快速計(jì)算方法,其特征在于,所述的n-best剪枝方法包 含如下步驟a)設(shè)定初始的需保留的路徑數(shù)目curBestNum;b)計(jì)算當(dāng)前幀的所有狀態(tài)的累積概率;c)將所有路徑按照此路徑上的最大累積概率降序排序;d)保留前curBestNum條路徑,剪除其后概率較小的路徑;e)根據(jù)當(dāng)前已處理的語音幀數(shù)重新設(shè)定curBestNum;f)新的語音幀到來,重新執(zhí)行步驟a)。
全文摘要
本發(fā)明涉及一種語音識(shí)別應(yīng)用領(lǐng)域中的置信度的快速計(jì)算方法。此方法采用一種改進(jìn)的后驗(yàn)概率作為置信度。此后驗(yàn)概率的分母用當(dāng)前語音段在所有識(shí)別單元上的累積概率的最大值來代替。在分母的計(jì)算過程中,首先構(gòu)建了一個(gè)包含所有識(shí)別單元的隱馬爾可夫模型網(wǎng)絡(luò),然后采用Viterbi算法在此網(wǎng)絡(luò)上搜索最佳路徑累積概率。在搜索過程中,采用了beam剪枝和n-best剪枝的方法來降低觀察概率的計(jì)算次數(shù),有效降低了時(shí)間復(fù)雜度。本算法可大大提高置信度的計(jì)算效率,而且基本不降低置信度的性能,便于推廣應(yīng)用。
文檔編號(hào)G10L15/04GK101894549SQ20101021803
公開日2010年11月24日 申請(qǐng)日期2010年6月24日 優(yōu)先權(quán)日2010年6月24日
發(fā)明者劉常亮, 潘復(fù)平, 董濱, 顏永紅 申請(qǐng)人:中國科學(xué)院聲學(xué)研究所