專利名稱:一種高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種說話人識(shí)別方法,特別是一種高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法。
背景技術(shù):
目前,說話人識(shí)別系統(tǒng)所采用的方法主要包括以下幾種1、基于矢量量化(Vector Quantization, VQ)的說話人識(shí)別方法。該方法在訓(xùn)練階段首先從訓(xùn)練語音中提取特征向量,然后使用此特征向量通過聚類生成說話人模板;識(shí)別時(shí),首先對(duì)待識(shí)別的語音提取特征向量,然后依次計(jì)算此特征向量和系統(tǒng)中已有模板的距離,并選取距離最小的模板對(duì)應(yīng)的說話人作為本次識(shí)別的結(jié)果。每個(gè)模板只描述了該說話人語音特征向量在向量空間中的統(tǒng)計(jì)分布情況,在訓(xùn)練和測(cè)試語音較短的情況下,該方法的識(shí)別率會(huì)較低。2、基于高斯混合模型(Gaussion Mixture Models,GMM)的說話人識(shí)別方法。該方法在訓(xùn)練階段,通過期望最大化(Expectation Maximization, EM)算法,使用多個(gè)高斯分布的概率密度函數(shù)的組合逼近每個(gè)注冊(cè)人語音信號(hào)特征向量在概率空間的分布;識(shí)別時(shí),通過求解被識(shí)別語音特征向量相對(duì)于已知模型的最大后驗(yàn)概率來確定被識(shí)別信號(hào)所對(duì)應(yīng)的說話人。為了得到準(zhǔn)確的最大后驗(yàn)概率,要求模型必須能充分刻畫向量信號(hào)在概率空間的分布,這就要求訓(xùn)練樣本要足夠多、模型階數(shù)足夠大、訓(xùn)練時(shí)間足夠長(zhǎng),不適用于樣本少、樣本數(shù)據(jù)不均衡情況下的說話人識(shí)別。3、基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的說話人識(shí)別方法。該方法在訓(xùn)練階段,通過一定的訓(xùn)練算法使網(wǎng)絡(luò)能夠?qū)W習(xí)語音特征向量在空間的分布特征, 從注冊(cè)信號(hào)的向量空間映射至注冊(cè)信號(hào)對(duì)應(yīng)的說話人;識(shí)別時(shí),將被識(shí)別的語音特征向量輸入已訓(xùn)練好的網(wǎng)絡(luò),得到識(shí)別結(jié)果。由于信號(hào)在向量空間中的分布存在著一定的隨機(jī)性, 使得學(xué)習(xí)后的神經(jīng)網(wǎng)絡(luò)對(duì)輸入特征向量空間的劃分存在著一定的誤差,從而影響了識(shí)別的正確率。因此,需要一種新的技術(shù)方案以解決上述問題。
發(fā)明內(nèi)容
針對(duì)上述現(xiàn)有技術(shù)所存在的問題和不足,本發(fā)明的目的是提供一種克服高斯混合模型需要較長(zhǎng)訓(xùn)練和識(shí)別數(shù)據(jù)的缺點(diǎn)以及提高識(shí)別率的高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的的說話人識(shí)別方法。為實(shí)現(xiàn)上述目的,本發(fā)明高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法可采用如下技術(shù)方案一種高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,該方法包括以下步驟(1)參數(shù)處理流程,該流程包括一、輸入語音信號(hào),對(duì)其分幀并提取每幀的特征向量,生成第一矩陣;二、使用K均值算法對(duì)提取到的特征向量進(jìn)行聚類;三、對(duì)聚類結(jié)果進(jìn)行EM迭代;四、得到高斯混合模型參數(shù),并將參數(shù)合成為量子神經(jīng)網(wǎng)絡(luò)的輸入矢量;(2)訓(xùn)練流程合成用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)向量并對(duì)量子神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;(3)識(shí)別流程對(duì)待識(shí)別語音信號(hào)按步驟⑴進(jìn)行參數(shù)處理并輸入訓(xùn)練好的量子神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。本發(fā)明高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法與現(xiàn)有技術(shù)相比具有以下優(yōu)點(diǎn)1、高斯混合模型在訓(xùn)練和識(shí)別過程中均需要較多的數(shù)據(jù)樣本,從而降低了其實(shí)用性。本方法采用高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的識(shí)別方法,結(jié)合了概率統(tǒng)計(jì)模型和判決模型的優(yōu)點(diǎn),能在較小數(shù)據(jù)樣本條件下進(jìn)行識(shí)別,克服了高斯混合模型需要較長(zhǎng)訓(xùn)練和識(shí)別數(shù)據(jù)的缺點(diǎn),更適用于樣本數(shù)據(jù)少,樣本數(shù)據(jù)不均衡(即某一類數(shù)據(jù)特別少)情況下的說話人識(shí)別,尤其是面向移動(dòng)通信和互聯(lián)網(wǎng)語音的說話人識(shí)別。2、傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)方法,直接將特征向量空間映射到說話人目標(biāo)向量空間, 不能剔除離散度大的向量對(duì)分類的影響,因而降低了識(shí)別率;本方法首先使用高斯混合模型對(duì)語音信號(hào)特征向量的分布情況進(jìn)行概率統(tǒng)計(jì),并將統(tǒng)計(jì)所得參數(shù)經(jīng)量子神經(jīng)網(wǎng)絡(luò)映射至目標(biāo)向量空間,使分類的準(zhǔn)確性得到提高;同時(shí)由于基于多層傳遞函數(shù)的量子神經(jīng)網(wǎng)絡(luò)本身具有一定的模糊性,能對(duì)存在交叉數(shù)據(jù)和模糊邊界的說話人語音數(shù)據(jù)進(jìn)行有效判決, 因而能有效提高識(shí)別系統(tǒng)的識(shí)別率。
圖1為本發(fā)明高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法的流程圖。圖2為本發(fā)明高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法中采用的量子神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施方式
,進(jìn)一步闡明本發(fā)明,應(yīng)理解下述具體實(shí)施方式
僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。本發(fā)明提供了一種高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,用以對(duì)說話人身份進(jìn)行自動(dòng)辨識(shí),本方法所設(shè)計(jì)系統(tǒng)功能的實(shí)現(xiàn)分為訓(xùn)練和識(shí)別兩個(gè)階段。訓(xùn)練階段,首先逐個(gè)對(duì)訓(xùn)練語音信號(hào)進(jìn)行參數(shù)處理,并將結(jié)果存入數(shù)據(jù)庫,之后從數(shù)據(jù)庫取出所有數(shù)據(jù)對(duì)量子神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;識(shí)別階段,首先對(duì)識(shí)別語音信號(hào)進(jìn)行參數(shù)處理,之后將處理結(jié)果輸入訓(xùn)練好的量子神經(jīng)網(wǎng)絡(luò),則網(wǎng)絡(luò)的輸出經(jīng)過一定處理后便能得到識(shí)別結(jié)果。請(qǐng)結(jié)合圖1所示,該高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法包括以下步驟(1)參數(shù)處理流程,參數(shù)處理流程包括一、輸入語音信號(hào),對(duì)其分幀并提取每幀的特征向量,生成第一矩陣X,該第一矩陣X為DXB的矩陣,其中D為幀長(zhǎng),B為幀數(shù);二、使用K均值算法對(duì)提取到的特征向量進(jìn)行聚類;三、對(duì)聚類結(jié)果進(jìn)行EM迭代;四、得到高斯混合模型參數(shù),并將參數(shù)合成為量子神經(jīng)網(wǎng)絡(luò)的輸入矢量;
其中
權(quán)利要求
1.一種高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,其特征在于,該方法包括以下步驟(1)參數(shù)處理流程,該流程包括一、輸入語音信號(hào),對(duì)其分幀并提取每幀的特征向量, 生成第一矩陣;二、使用K均值算法對(duì)提取到的特征向量進(jìn)行聚類;三、對(duì)聚類結(jié)果進(jìn)行EM 迭代;四、得到高斯混合模型參數(shù),并將參數(shù)合成為量子神經(jīng)網(wǎng)絡(luò)的輸入矢量;(2)訓(xùn)練流程合成用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)向量并對(duì)量子神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;(3)識(shí)別流程對(duì)待識(shí)別語音信號(hào)按步驟(1)進(jìn)行參數(shù)處理并輸入訓(xùn)練好的量子神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別。
2.根據(jù)權(quán)利要求1所述的高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,其特征在于所述步驟(1)中的使用K均值算法對(duì)每幀語音的特征向量進(jìn)行聚類包括以下步驟(a)輸入語音信號(hào),對(duì)其分幀并提取每幀的特征向量,生成第一矩陣X,該第一矩陣X為 DXB的矩陣,其中D為幀長(zhǎng),B為幀數(shù),X中的第t列即是從第t幀語音信號(hào)中提取的特征向量,記為^ ;從第一矩陣X中隨機(jī)選取M列作為初始的聚類中心;(b)對(duì)第一矩陣X中的所有列,按最小距離準(zhǔn)則劃分到相應(yīng)的類別;(c)重新計(jì)算聚類中心;(d)如果滿足結(jié)束條件則執(zhí)行(e),否則跳到(b)繼續(xù)執(zhí)行;(e)分別計(jì)算^U、E,其中ι是M維向量,
3.根據(jù)權(quán)利要求2所述的高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,其特征在于所述步驟(1)中對(duì)聚類結(jié)果進(jìn)行EM迭代包括以下步驟(a)根據(jù)EM算法,按以下表達(dá)式對(duì)高斯混合模型參數(shù)>、U、E進(jìn)行更新
4.根據(jù)權(quán)利要求3所述的高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,其特征在于所述步驟(1)將高斯混合模型的參數(shù)合成為量子神經(jīng)網(wǎng)絡(luò)的輸入矢量包括以下步驟從>、U、E合成M個(gè)神經(jīng)網(wǎng)絡(luò)的輸入向量,其中合成的第k個(gè)輸入向量記J-·rp/JiJ-·為 “「[義,而,… ],R = 2XD + 1,其中,aKl[x,,2”..,&則]= ,[X、_D+2,...,XM ] 二 ek。
5.根據(jù)權(quán)利要求4所述的高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,其特征在于所述步驟O)中合成用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)向量包括以下步驟針對(duì)信號(hào)η,則合成的目標(biāo)向量記為 = [ tN f,且丨滿足
6.根據(jù)權(quán)利要求5所述的高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,其特征在于所述步驟O)中對(duì)量子神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括以下步驟(a)將所有的訓(xùn)練輸入向量逐次輸入量子神經(jīng)網(wǎng)絡(luò),量子神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)采用三層前向神經(jīng)網(wǎng)絡(luò),其中輸入層的節(jié)點(diǎn)數(shù)目為R,&A^J表示第k個(gè)輸入向量;輸出層為N個(gè)節(jié)點(diǎn),隱層為H個(gè)節(jié)點(diǎn),總^, ,…,^^丄[[/…/…..,/^^分別為輸出層和隱層在輸入向量為^時(shí)的響應(yīng),神經(jīng)網(wǎng)絡(luò)的相鄰層節(jié)點(diǎn)全互連,同層節(jié)點(diǎn)之間不相連;其中,隱層的傳遞函數(shù)為 sgm(x) = —^,t為輸入權(quán)值矩陣,S為量子間隔數(shù)目,θ r為量子間隔; 、‘1 + e將所有的訓(xùn)練輸入向量逐次輸入量子神經(jīng)網(wǎng)絡(luò),并得到對(duì)應(yīng)的網(wǎng)絡(luò)輸出向量;(b)計(jì)算(a)步所得網(wǎng)絡(luò)輸出向量和目標(biāo)向量的誤差,并計(jì)算所有誤差的平方和,依據(jù)后向傳播算法,沿誤差曲面的梯度下降方向調(diào)整網(wǎng)絡(luò)的輸入、輸出參數(shù)矩陣;(c)計(jì)算隱層神經(jīng)元的平均類條件方差;采用后向傳播算法,沿類條件方差曲面的梯度下降方向調(diào)整網(wǎng)絡(luò)的量子神經(jīng)間隔,具體地,對(duì)于類別(;(屬于第η個(gè)說話人的輸入向量和目標(biāo)向量均記為屬于類別Cn),第i個(gè)隱層量子神經(jīng)元輸出的類條件方差為其中
7.根據(jù)權(quán)利要求6所述的高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法,其特征在于所述步驟(3)中對(duì)待識(shí)別語音信號(hào)按步驟(1)進(jìn)行參數(shù)處理得到參數(shù)向量后進(jìn)行識(shí)別的方法包括以下步驟(a)將所有參數(shù)向量輸入網(wǎng)絡(luò),并得到輸出向量,記第k個(gè)參數(shù)向量
全文摘要
本發(fā)明提供一種高斯混合模型和量子神經(jīng)網(wǎng)絡(luò)聯(lián)合的說話人識(shí)別方法。包括在訓(xùn)練階段,對(duì)輸入的訓(xùn)練語音信號(hào)分幀并提取特征參數(shù),生成特征參數(shù)向量;之后,使用K均值方法和EM算法取得特征參數(shù)向量的高斯混合模型參數(shù),最后使用所有訓(xùn)練語音信號(hào)的高斯混合模型參數(shù)訓(xùn)練量子神經(jīng)網(wǎng)絡(luò)。在識(shí)別階段,得到被識(shí)別人語音的高斯混合模型參數(shù),之后將此模型參數(shù)輸入之前已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),得到識(shí)別結(jié)果;本發(fā)明適用于樣本數(shù)據(jù)少,樣本數(shù)據(jù)不均衡情況下的說話人識(shí)別;同時(shí)利用量子神經(jīng)網(wǎng)絡(luò)本身所具有的能對(duì)存在交叉數(shù)據(jù)和模糊邊界的說話人語音數(shù)據(jù)進(jìn)行有效判決的能力,提高系統(tǒng)正確識(shí)別率。
文檔編號(hào)G10L17/00GK102201236SQ20111008494
公開日2011年9月28日 申請(qǐng)日期2011年4月6日 優(yōu)先權(quán)日2011年4月6日
發(fā)明者張雄偉, 徐志軍, 王耿, 王金明 申請(qǐng)人:中國(guó)人民解放軍理工大學(xué)