專利名稱::基于語種對(duì)的鑒別式語種識(shí)別模型建立方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于語音識(shí)別領(lǐng)域,具體地說,涉及一種基于語種對(duì)的鑒別式模型建立方法,可用于語種識(shí)別。
背景技術(shù):
:語種識(shí)別是指使用計(jì)算機(jī)從一段語音信號(hào)中自動(dòng)識(shí)別出其語言的種類。語種識(shí)別技術(shù)主要用于多語種人機(jī)交互、語音信息偵聽以及語音文檔檢索等系統(tǒng)。語種識(shí)別模型可以分為描述性模型和鑒別性模型兩類。描述性模型對(duì)各語種的分布進(jìn)行建模,側(cè)重于使用非參數(shù)化或參數(shù)化的方法對(duì)每個(gè)語種進(jìn)行刻畫,如早期的VQ(矢量量化)和后來的G匪(高斯混合模型),以及PPRLM(并行音素識(shí)別器后接語言模型)等;而鑒別性模型對(duì)各語種的分類面進(jìn)行建模,側(cè)重于分類,如近期興起的SVM(支持矢量機(jī))、SVMGSV(基于G匪超矢量的SVM)和PPR-VSM(并行音素識(shí)別器后接矢量空間模型)等。在語種識(shí)別中,描述性模型一般具有較好的推廣能力,特別是對(duì)于沒有參與訓(xùn)練的集外語種,也不容易出現(xiàn)虛警;而鑒別性模型一般具有更好的分類能力,其識(shí)別性能通常高于傳統(tǒng)的描述性模型。后來,學(xué)者們陸續(xù)采用一些鑒別性的準(zhǔn)則對(duì)原來的描述性模型進(jìn)行訓(xùn)練,并通過模型插值等手段使其兼有描述性模型和鑒別性模型的優(yōu)點(diǎn),從而識(shí)別性能顯著提高。在連續(xù)語音識(shí)別領(lǐng)域,目前比較廣泛使用的鑒別性準(zhǔn)則有(MCE)最小分類錯(cuò)誤、(匪I)最大互信息、(MPE)最小音素錯(cuò)誤等準(zhǔn)則。本發(fā)明主要涉及到G匪模型的鑒別式建模。對(duì)于該模型,傳統(tǒng)的建模方法是基于ML(最大似然)準(zhǔn)則的,它采用一種"各掃自家門前雪"的描述性策略,每個(gè)語種的模型僅用本類的數(shù)據(jù)訓(xùn)練,使似然度最大化。但事實(shí)上各個(gè)語種的似然度的最大化只能保證模型對(duì)數(shù)據(jù)描述得更好,卻并不一定有利于分類,換句話說,ML準(zhǔn)則并不能保證最好的識(shí)別性能。2003年至2006年期間,Qu和Matejka等人將匪I準(zhǔn)則引入語種識(shí)別中的G匪建模,匪I準(zhǔn)則采用一種"統(tǒng)籌兼顧"的鑒別性策略,使訓(xùn)練數(shù)據(jù)和語種類別之間的互信息最大化,從而使識(shí)別性能得到了很大的提高。但是由于匪I準(zhǔn)則是同時(shí)將每一個(gè)語種與其他所有語種進(jìn)行鑒別,沒有充分考慮各語種間的混淆情況;另外匪I準(zhǔn)則從整體考慮,目標(biāo)函數(shù)的要求十分嚴(yán)格,考慮到實(shí)際數(shù)據(jù)分布情況復(fù)雜,各語種的數(shù)據(jù)量不同,混淆程度也各異,再加上迭代算法僅能達(dá)到局部極值等原因,這種的準(zhǔn)則可能無法達(dá)到。
發(fā)明內(nèi)容為了解決現(xiàn)有匪I準(zhǔn)則的不足,本發(fā)明提供一種基于語種對(duì)的鑒別式建模方法,首先從鑒別信息的角度出發(fā),從易混語種對(duì)的鑒別入手,放松對(duì)匪I準(zhǔn)則的約束。使用數(shù)字集成電路實(shí)現(xiàn)時(shí),采用本發(fā)明耗費(fèi)的存儲(chǔ)和運(yùn)算模塊資源與匪I方法相同,而等錯(cuò)率相對(duì)降低25%。本發(fā)明的特征在于所述方法是在數(shù)字集成電路芯片中按以下步驟實(shí)現(xiàn)的[OOO9]步驟(1):初始化在所述集成電路中建立以下模塊特征提取模塊、最大似然ML準(zhǔn)則訓(xùn)練模塊、分子統(tǒng)計(jì)量計(jì)算模塊、分母統(tǒng)計(jì)量計(jì)算模塊、分子統(tǒng)計(jì)量平滑模塊、更新系數(shù)計(jì)算模塊以及模型參數(shù)更新模塊;步驟(2):對(duì)CallFriend數(shù)據(jù)庫(kù)12個(gè)語種的電話對(duì)話語音通過所述特征提取模塊提取7維Mel頻率倒譜系數(shù)MFCC,再計(jì)算偏移差分倒譜SDC特征向量,其計(jì)算公式為sk(i)=x(i+3k+l)-x(i+3k-l),k=0,1,,6其中x(i)表示第i幀MFCC特征向量,k為SDC特征向量的塊標(biāo)號(hào),k=O,l,...,6,共7塊,每塊7維,連同7維MFCC特征一起拼接成56維的特征向量;步驟(3):在所述最大似然ML準(zhǔn)則訓(xùn)練模塊中,用Baum-Welch算法對(duì)步驟(2)中得到的數(shù)據(jù)進(jìn)行最大似然ML訓(xùn)練,得到所述12個(gè)語種高斯混合模型G匪的初始參數(shù),其中第l個(gè)語種的參數(shù)用、表示二(w化,/^,o^,g-l,…,G^,1=1,.…,L其中下標(biāo)g表示高斯分量標(biāo)號(hào),每個(gè)語種含G個(gè)高斯分量,下標(biāo)1表示語種標(biāo)號(hào),1=l,...,L,共L二12個(gè)語種,巧g表示第l個(gè)語種第g個(gè)高斯分量的權(quán)重,i^g表示第l個(gè)語種第g個(gè)高斯分量的均值,olg2表示第1個(gè)語種第g個(gè)高斯分量的方差;步驟(4):分別用分子統(tǒng)計(jì)量計(jì)算模塊和分母統(tǒng)計(jì)量計(jì)算模塊計(jì)算所述各語種的分子統(tǒng)計(jì)量和分母統(tǒng)計(jì)量在所述分子統(tǒng)計(jì)量中零階分子統(tǒng)計(jì)量e71(1)=|j|jC(01—階分子統(tǒng)計(jì)量^""(義)=ii;c(0A(0二階分子統(tǒng)計(jì)量《T(義2)=ii《r(0《(0在所述分母統(tǒng)計(jì)量中零階分母統(tǒng)計(jì)量e,(1)=££7:(01廣=1/=1—階分母統(tǒng)計(jì)量《"(義)=i;i;c(0&(0,-=1'=1二階分母統(tǒng)計(jì)量《(。C(/)'《(O其中上標(biāo)"皿m"代表分子項(xiàng),上標(biāo)"den"代表分母項(xiàng),9(1)、9(x)代;\0和6(;^)9(x2)分別代表零階、一階和二階統(tǒng)計(jì)量,x《為所述特征向量的隨機(jī)變量,R為總段數(shù),r=1,2,...,R,i;為第r段語音的幀數(shù),i=1,2,...,H(i)代表第r段語音的第i幀特征向量的取值,Ylgr(i)為第l個(gè)語種分子項(xiàng)中Xr(i)屬于第g個(gè)高斯分量的后驗(yàn)概率,Ylg,n(i)為第1個(gè)語種分母項(xiàng)中屬于第g個(gè)高斯分量的后驗(yàn)概率,其中《",0,J]A^(W);~,《.)/to"(0廣_丄其中下標(biāo)g'是不同于g的高斯分量標(biāo)號(hào),下標(biāo)l'是不同于l的語種標(biāo)號(hào),AA(z力);/v《)表示均值為i^,方差為。lg2的高斯分布在隨機(jī)變量取值為Xr(i)時(shí)的概率密度,PA(X」1)為第r段語音在第l個(gè)語種參數(shù)下的條件概率密度&(《1,)=£|>fg#(^(0;,《),k為修正因子,取值為6/%,對(duì)所有語種l,G循環(huán)進(jìn)行上述計(jì)算;1,=1g=lL和所有高斯分1,零階分子統(tǒng)計(jì)量elg(l)表示所有R段的各段語音的各幀特征向量分別屬于第g個(gè)高斯分量的后驗(yàn)概率Ylgrnum(i)之和,一階分子統(tǒng)計(jì)量elg(x)《r"(Y)表示所有R段的各段語音的各幀特征向量分別屬于第g個(gè)高斯分量的后驗(yàn)概率Ylgrn(i)與本幀特征向t的乘積之和,二階分子統(tǒng)計(jì):ig'(x2)《rx《2)表示所有r段的各段語音的各幀特征向分別屬于第g個(gè)高斯分量的后驗(yàn)概率Ylgrn(i)與本幀特征向量平方的乘積之和,對(duì)于各階分母統(tǒng)計(jì)量依此類推;步驟(5):對(duì)步驟(4)中得到的分子統(tǒng)計(jì)用e丄廣(i)+一代替elgn(i),t進(jìn)行平滑處理《r(i)代替e工"(x),用《:'m(A"2)代替e工"(x2)其中t1為平滑因子,取值為100,對(duì)所有語種1=1,...,L和所有高斯分量g=G循環(huán)進(jìn)行上述計(jì)算;步驟(6):由分子統(tǒng)計(jì)量和分母統(tǒng)計(jì)量計(jì)算模型參數(shù)1118和0^的更新系數(shù)D^其中Dmin是關(guān)于D的一元二次方程的兩個(gè)解中較大的一個(gè)1,.《力2+[((義2)-《(義2))+(1)_《(1))(《+/4)-2(《"W-《nW)+[『(1)-《n(l))(Cn(f)一C(義2))一K訓(xùn)W—《(義))2]=0々gVV々g、V八"feV1"乂^fe、"〃、々gV"乂"g對(duì)所有語種1=1,...,L和所有高斯分量g=1,...,G循環(huán)進(jìn)行上述計(jì)算;步驟(7):修正模型參數(shù)Plg禾P。lg2,得到新的模型參數(shù)1和&1:『_c《,)+Ag(《+/4)2對(duì)所有語種i=i,...,l和所有高斯分量g=i,...,g循環(huán)進(jìn)行上述計(jì)算;步驟(8):設(shè)定所有R段語音數(shù)據(jù)的目標(biāo)函數(shù)^(義)為當(dāng)?shù)螖?shù)大于20次或相鄰兩次迭代目標(biāo)函數(shù)的變化量小于1.0X10—5則停止迭代,否則,用!^代替i^,&《,代替。18,轉(zhuǎn)步驟(4)。本發(fā)明的有益效果是,可以從語種對(duì)的局部入手,然后再通盤考慮,目標(biāo)函數(shù)要求比標(biāo)準(zhǔn)匪i準(zhǔn)則松,考慮到實(shí)際數(shù)據(jù)分布情況復(fù)雜,各語種的數(shù)據(jù)量不同,混淆程度也各異,再加上迭代算法僅能達(dá)到局部極值等原因,該方法更能抓住語種間的鑒別性信息,從而獲得更好的識(shí)別性能。圖1是本發(fā)明進(jìn)行基于語種對(duì)的鑒別式模型建立的硬件結(jié)構(gòu)和步驟框圖。圖2是本發(fā)明進(jìn)行基于語種對(duì)的鑒別式模型建立的流程框圖。具體實(shí)施例方式我們將觀測(cè)特征和語種類別都作為隨機(jī)變量看待,其中特征隨機(jī)變量(矢量)為x,y,它的一個(gè)可能取值為X,其樣本空間是連續(xù)的特征空間X;語種類別隨機(jī)變量為£,它的一個(gè)可能取值為1,其樣本空間是離散的語種類別空間ii-0,2,…,A,L為語種數(shù)。語種識(shí)別的建模過程本質(zhì)上是估計(jì)每個(gè)語種的概率密度函數(shù),如果將語種類別也看成隨機(jī)變量的話,就是估計(jì)條件概率密度函數(shù)PA(XI1)。此處下標(biāo)表示條件概率密度函數(shù)依賴于參數(shù)A,或者換句話說我們就是要估計(jì)決定概率密度函數(shù)的參數(shù)。每個(gè)語種背后總有一個(gè)真實(shí)的分布支配其產(chǎn)生觀測(cè)特征,我們不妨設(shè)實(shí)際的條件概率密度函數(shù)為q(Xll)。這樣q(Xll)與p入(Xll)之間的K-L距離(條件鑒別信息)為、…,'、(塌假設(shè)存在一個(gè)估計(jì)的條件概率密度函數(shù)/^'W(XM),它表示語種在12}中取值且X^和,獨(dú)立時(shí)的分布,這時(shí)《""(1|0=《""(1)=S^"l^^"q(XlD與g")(II,)之間的K-L距離為SL尸,剛log工)O《=Pi.6,A、7八〃它描述了語種在{1"12}范圍內(nèi)取值時(shí)q(Xll)與"小"背景之間的K-L距離。這僅是一個(gè)語種對(duì)的情況,進(jìn)一步考慮所有語種對(duì)的情況,可定義/(義)4Z》(一'";単)L詞4nl^)4i:L麟"。gfnlS^'e£〃義再計(jì)算它與/(《,p;^l二)的差,可得A師)=£kw)log-(,o1/;w臺(tái)vr乂時(shí)等式漸進(jìn)成立。略去式中的1/R,并引式中,R為訓(xùn)練數(shù)據(jù)的段數(shù),0表示R-入修正因子K,可得,)=》Og-n(A(mf尸("+^(x,iff尸(r、w'式中,\代表第r段訓(xùn)練數(shù)據(jù),lr代表第r段訓(xùn)練數(shù)據(jù)的語種。這樣我們就得到了一個(gè)新的目標(biāo)函數(shù),與匪I準(zhǔn)則不同的是,匪I側(cè)重目標(biāo)語種與其他所有語種的和進(jìn)行鑒別,而我們這里側(cè)重目標(biāo)語種與其他語種兩兩進(jìn)行鑒別,這個(gè)準(zhǔn)則首先針對(duì)每對(duì)語種,然后再對(duì)所有"語種對(duì)"求和,所以我們稱之為P匪I準(zhǔn)則(基于語種對(duì)的匪I準(zhǔn)則)。如果我們認(rèn)為每個(gè)語種的先驗(yàn)概率是相等的,此時(shí)P(lr)和P(1')是可以略去的,這樣目標(biāo)函數(shù)變成了6/7頁為了優(yōu)化該目標(biāo)函數(shù),我們采用弱輔助函數(shù)法進(jìn)行迭代。首先根據(jù)各語種數(shù)據(jù)分別計(jì)算分子統(tǒng)計(jì)量和分母統(tǒng)計(jì)量c(i)=ii>r(o,i+[(《""(i)-《,"(義2)-C(義2))-(《■w-《nw)2]=0的兩個(gè)解中較大的一個(gè);最后計(jì)算新的模型參數(shù)S_《,)-《,+/\'《n(l)-《n(l)+Dfe^den'數(shù)~如圖1所示,實(shí)施本發(fā)明的具體步驟如下(1)首先對(duì)語音數(shù)據(jù)提取特征,得到特征矢量;(2)采用Baum-Welch算法進(jìn)行ML訓(xùn)練,得到初始G匪模型參數(shù);(3)利用GMM模型對(duì)特征矢量計(jì)算計(jì)算所有語種和所有高斯分量的分子和分母統(tǒng)(4)對(duì)計(jì)算所有語種和所有高斯分量的分子統(tǒng)計(jì)量進(jìn)行平滑;(5)由平滑后的分子統(tǒng)計(jì)量和分母統(tǒng)計(jì)量計(jì)算所有語種和所有高斯分量的更新系(6)按更新公式對(duì)計(jì)算所有語種和所有高斯分量的G匪模型參數(shù)進(jìn)行更新;本發(fā)明實(shí)驗(yàn)采用國(guó)際上標(biāo)準(zhǔn)的NIST2003語種評(píng)測(cè)數(shù)據(jù),共12個(gè)語種,含1280段長(zhǎng)約為30秒的電話對(duì)話語音,訓(xùn)練數(shù)據(jù)采用CallFriend數(shù)據(jù)庫(kù)語音,特征矢量采用7維的MFCC(Mel頻率倒譜系數(shù))加上49維的SDC(偏移差分倒譜)特征。將所有測(cè)試段對(duì)每個(gè)語種分別進(jìn)行語種確認(rèn),調(diào)節(jié)虛警率和漏報(bào)率相等時(shí),可以得到系統(tǒng)的等錯(cuò)率,采用各語種平均的等錯(cuò)率作為系統(tǒng)的評(píng)價(jià)指標(biāo),等錯(cuò)率越低,表明系統(tǒng)性能越好。實(shí)驗(yàn)中,采用G匪作為分類器,每個(gè)G匪由256個(gè)高斯分量構(gòu)成。先用Bauman-Welch算法迭代8次作為初始模型,然后分別采用匪I準(zhǔn)則以及本發(fā)明提供的基于語種對(duì)的鑒別式方法進(jìn)行建模。實(shí)驗(yàn)表明采用匪I建模,語種識(shí)別等錯(cuò)率為2.13%;而采用本發(fā)明所提建模方法,語種識(shí)別等錯(cuò)率為1.58%,相對(duì)降低25.8%。可見,本發(fā)明提出的基于語種對(duì)的鑒別式語種識(shí)別模型建立方法用于語種識(shí)別可使其性能有較大提高。權(quán)利要求基于語種對(duì)的鑒別式語種識(shí)別模型建立方法,其特征在于,所述方法是在數(shù)字集成電路芯片中依次按以下步驟實(shí)現(xiàn)的步驟(1)初始化在所述集成電路中建立以下模塊特征提取模塊、最大似然ML準(zhǔn)則訓(xùn)練模塊、分子統(tǒng)計(jì)量計(jì)算模塊、分母統(tǒng)計(jì)量計(jì)算模塊、分子統(tǒng)計(jì)量平滑模塊、更新系數(shù)計(jì)算模塊以及模型參數(shù)更新模塊;步驟(2)對(duì)CallFriend數(shù)據(jù)庫(kù)12個(gè)語種的電話對(duì)話語音通過所述特征提取模塊提取7維Mel頻率倒譜系數(shù)MFCC,再計(jì)算偏移差分倒譜SDC特征向量,其計(jì)算公式為sk(i)=x(i+3k+1)-x(i+3k-1),k=0,1,...,6其中x(i)表示第i幀MFCC特征向量,k為SDC特征向量的塊標(biāo)號(hào),k=0,1,...,6,共7塊,每塊7維,連同7維MFCC特征一起拼接成56維的特征向量{x(i),s0(i),s1(i),…,s6(i)};步驟(3)在所述最大似然ML準(zhǔn)則訓(xùn)練模塊中,用Baum-Welch算法對(duì)步驟(2)中得到的數(shù)據(jù)進(jìn)行最大似然ML訓(xùn)練,得到所述12個(gè)語種高斯混合模型GMM的初始參數(shù),其中第l個(gè)語種的參數(shù)用λl表示<mrow><msub><mi>λ</mi><mi>l</mi></msub><mo>=</mo><mo>{</mo><msub><mi>w</mi><mi>lg</mi></msub><mo>,</mo><msub><mi>μ</mi><mi>lg</mi></msub><mo>,</mo><msubsup><mi>σ</mi><mi>lg</mi><mn>2</mn></msubsup><mo>,</mo><mi>g</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>G</mi><mo>}</mo><mo>,</mo></mrow>l=1,...,L其中下標(biāo)g表示高斯分量標(biāo)號(hào),每個(gè)語種含G個(gè)高斯分量,下標(biāo)l表示語種標(biāo)號(hào),l=1,...,L,共L=12個(gè)語種,wlg表示第l個(gè)語種第g個(gè)高斯分量的權(quán)重,μlg表示第l個(gè)語種第g個(gè)高斯分量的均值,σlg2表示第l個(gè)語種第g個(gè)高斯分量的方差;步驟(4)分別用分子統(tǒng)計(jì)量計(jì)算模塊和分母統(tǒng)計(jì)量計(jì)算模塊計(jì)算所述各語種的分子統(tǒng)計(jì)量和分母統(tǒng)計(jì)量在所述分子統(tǒng)計(jì)量中零階分子統(tǒng)計(jì)量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><mn>1</mn></mrow>一階分子統(tǒng)計(jì)量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msub><mi>X</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>二階分子統(tǒng)計(jì)量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msubsup><mi>X</mi><mi>r</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>在所述分母統(tǒng)計(jì)量中零階分母統(tǒng)計(jì)量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><mn>1</mn></mrow>一階分母統(tǒng)計(jì)量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msub><mi>X</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>二階分母統(tǒng)計(jì)量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msubsup><mi>X</mi><mi>r</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>其中上標(biāo)“num”代表分子項(xiàng),上標(biāo)“den”代表分母項(xiàng),θ(1)、θ(χ)和θ(χ2)分別代表零階、一階和二階統(tǒng)計(jì)量,χ為所述特征向量的隨機(jī)變量,R為總段數(shù),r=1,2,...,R,Tr為第r段語音的幀數(shù),i=1,2,...,Tr,Xr(i)代表第r段語音的第i幀特征向量的取值,γlgrnum(i)為第l個(gè)語種分子項(xiàng)中Xr(i)屬于第g個(gè)高斯分量的后驗(yàn)概率,γlgrden(i)為第l個(gè)語種分母項(xiàng)中Xr(i)屬于第g個(gè)高斯分量的后驗(yàn)概率,其中<mrow><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>γ</mi><mi>lgr</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo></mtd><mtd><mi>l</mi><mo>=</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>l</mi><mo>≠</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr></mtable></mfenced></mrow><mrow><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>γ</mi><mi>lgr</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mfrac><mn>1</mn><mi>L</mi></mfrac><mrow><mo>(</mo><munderover><mi>Σ</mi><mrow><msup><mi>l</mi><mo>′</mo></msup><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><mfrac><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup></mrow><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup><mo>+</mo><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><msup><mi>l</mi><mo>′</mo></msup><mo>)</mo></mrow><mi>K</mi></msup></mrow></mfrac><mo>+</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mo>,</mo><mi>l</mi><mo>=</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr><mtr><mtd><msub><mi>γ</mi><mi>lgr</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mfrac><mn>1</mn><mi>L</mi></mfrac><mfrac><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup></mrow><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><msub><mi>l</mi><mi>r</mi></msub><mo>)</mo></mrow><mi>K</mi></msup><mo>+</mo><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup></mrow></mfrac><mo>,</mo><mi>l</mi><mo>≠</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr></mtable></mfenced></mrow>其中下標(biāo)g′是不同于g的高斯分量標(biāo)號(hào),下標(biāo)l′是不同于l的語種標(biāo)號(hào),(Xr(i);μlg,σlg2)表示均值為μlg,方差為σlg2的高斯分布在隨機(jī)變量取值為Xr(i)時(shí)的概率密度,pλ(Xr|l)為第r段語音在第l個(gè)語種參數(shù)下的條件概率密度K為修正因子,取值為6/Tr,對(duì)所有語種l=1,...,L和所有高斯分量g=1,...,G循環(huán)進(jìn)行上述計(jì)算;零階分子統(tǒng)計(jì)量θlgnum(1)表示所有R段的各段語音的各幀特征向量分別屬于第g個(gè)高斯分量的后驗(yàn)概率γlgrnum(i)之和,一階分子統(tǒng)計(jì)量θlgnum(χ)表示所有R段的各段語音的各幀特征向量分別屬于第g個(gè)高斯分量的后驗(yàn)概率γlgrnum(i)與本幀特征向量的乘積之和,二階分子統(tǒng)計(jì)量θlgnum(χ2)表示所有R段的各段語音的各幀特征向量分別屬于第g個(gè)高斯分量的后驗(yàn)概率γlgrnum(i)與本幀特征向量平方的乘積之和,對(duì)于各階分母統(tǒng)計(jì)量依此類推;步驟(5)對(duì)步驟(4)中得到的分子統(tǒng)計(jì)量進(jìn)行平滑處理用θlgnum(1)+τI代替θlgnum(1),用代替θlgnum(χ),用代替θlgnum(χ2),其中τI為平滑因子,取值為100,對(duì)所有語種l=1,...,L和所有高斯分量g=1,...,G循環(huán)進(jìn)行上述計(jì)算;步驟(6)由分子統(tǒng)計(jì)量和分母統(tǒng)計(jì)量計(jì)算模型參數(shù)μlg和σlg2的更新系數(shù)Dlg<mrow><msub><mi>D</mi><mi>lg</mi></msub><mo>=</mo><mi>max</mi><mo>{</mo><msub><mrow><mn>2</mn><mi>D</mi></mrow><mi>min</mi></msub><mo>,</mo><msubsup><mrow><mn>2</mn><mi>θ</mi></mrow><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>}</mo></mrow>其中Dmin是關(guān)于D的一元二次方程的兩個(gè)解中較大的一個(gè)<mrow><msubsup><mi>σ</mi><mi>lg</mi><mn>2</mn></msubsup><msup><mi>D</mi><mn>2</mn></msup><mo>+</mo><mo>[</mo><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mo>(</mo><msubsup><mi>σ</mi><mi>lg</mi><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>μ</mi><mi>lg</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>-</mo><mn>2</mn><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>)</mo></mrow><msub><mi>μ</mi><mi>lg</mi></msub><mo>]</mo><mi>D</mi></mrow><mrow><mo>+</mo><mo>[</mo><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><msup><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>]</mo><mo>=</mo><mn>0</mn></mrow>對(duì)所有語種l=1,...,L和所有高斯分量g=1,...,G循環(huán)進(jìn)行上述計(jì)算;步驟(7)修正模型參數(shù)μlg和σlg2,得到新的模型參數(shù)和對(duì)所有語種l=1,...,L和所有高斯分量g=1,...,G循環(huán)進(jìn)行上述計(jì)算;步驟(8)設(shè)定所有R段語音數(shù)據(jù)的目標(biāo)函數(shù)為當(dāng)?shù)螖?shù)大于20次或相鄰兩次迭代目標(biāo)函數(shù)的變化量小于1.0×10-5則停止迭代,否則,用代替μlg,代替σlg,轉(zhuǎn)步驟(4)。F2009102353933C0000028.tif,F2009102353933C0000032.tif,F2009102353933C0000033.tif,F2009102353933C0000034.tif,F2009102353933C0000035.tif,F2009102353933C0000044.tif,F2009102353933C0000045.tif,F2009102353933C0000046.tif,F2009102353933C0000047.tif,F2009102353933C0000048.tif,F2009102353933C0000049.tif,F2009102353933C00000410.tif,F2009102353933C00000411.tif全文摘要基于語種對(duì)的鑒別式語種識(shí)別模型建立方法涉及一種用于語種識(shí)別的建模方法,其特征在于所述方法首先對(duì)語音數(shù)據(jù)提取特征得到特征矢量,接著采用Baum-Welch算法進(jìn)行ML訓(xùn)練得到初始GMM模型參數(shù),然后利用GMM模型對(duì)特征矢量計(jì)算分子項(xiàng)和分母統(tǒng)計(jì)量,并對(duì)分子統(tǒng)計(jì)量進(jìn)行平滑,由平滑后的分子統(tǒng)計(jì)量和分母統(tǒng)計(jì)量計(jì)算更新系數(shù),最后按更新公式對(duì)GMM模型參數(shù)進(jìn)行更新。該建模方法從語種對(duì)的局部入手,更能抓住語種間的鑒別性信息,從而獲得更好的識(shí)別性能??梢杂糜谡Z種識(shí)別模型的鑒別式建模。文檔編號(hào)G10L15/02GK101702314SQ20091023539公開日2010年5月5日申請(qǐng)日期2009年10月13日優(yōu)先權(quán)日2009年10月13日發(fā)明者劉加,張衛(wèi)強(qiáng)申請(qǐng)人:清華大學(xué)