概率線性鑒別分析模型生成方法和說(shuō)話人聚類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及的技術(shù)領(lǐng)域包括語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、說(shuō)話人聚類和語(yǔ)音信號(hào)處理, 具體地說(shuō),本發(fā)明涉及概率線性鑒別分析模型生成方法和說(shuō)話人聚類方法及系統(tǒng)。
【背景技術(shù)】
[0002] 說(shuō)話人聚類是通過(guò)分析多個(gè)語(yǔ)音樣本,將屬于同一說(shuō)話人的語(yǔ)音樣本歸為一類, 可用于多人對(duì)話語(yǔ)音的說(shuō)話人識(shí)別。說(shuō)話人聚類不同于說(shuō)話人識(shí)別,是一種無(wú)監(jiān)督學(xué)習(xí)過(guò) 程。說(shuō)話人聚類方法通常包括特征提取、距離計(jì)算、層次化凝聚聚類算法等過(guò)程。
[0003] 特征提取過(guò)程通常提取語(yǔ)音樣本中表征說(shuō)話人信息的聲學(xué)特征,包括梅爾頻率 倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,MFCC)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient, LPCC)、感知線性預(yù)測(cè)系數(shù)(Perceptual Linear Prediction,PLP)、線譜對(duì)系數(shù)(Linear Spectrum Pairs,LSP)等。
[0004] 距離計(jì)算方法包括貝葉斯信息準(zhǔn)則(Bayesian Information Criteria, BIC)、 KL 距離(Kullback-Leiber Distance,KLD)、廣義似然比距離(Generalized Likelihood Ratio, GLR)、交叉熵似然比距離(Cross Likelihood Ratio, CLR)等。其過(guò)程為:首先對(duì)每 段語(yǔ)音樣本建立高斯模型,計(jì)算高斯模型間的距離測(cè)度,將距離最近的語(yǔ)音樣本進(jìn)行合并 形成新的高斯模型,再計(jì)算新的高斯模型間的距離測(cè)度,再將距離最近的語(yǔ)音樣本進(jìn)行合 并形成新的高斯模型,這個(gè)過(guò)程一直迭代直至滿足停止條件。在現(xiàn)有的距離計(jì)算方法中,通 常采用最大后驗(yàn)估計(jì)準(zhǔn)則(Maximum a Posterior,MAP)對(duì)說(shuō)話人語(yǔ)音樣本建立單高斯或混 合高斯模型;在說(shuō)話人聚類的應(yīng)用場(chǎng)景中,通過(guò)MAP得到的模型受數(shù)據(jù)量的限制不能準(zhǔn)確 描述語(yǔ)音樣本的分布情況,由此不能很好地表征某類說(shuō)話人語(yǔ)音的統(tǒng)計(jì)特性,從而得到的 模型間的距離測(cè)度也不夠準(zhǔn)確。
[0005] 傳統(tǒng)的說(shuō)話人聚類算法通常采用層次化凝聚聚類算法,類初始值選擇不合適會(huì)嚴(yán) 重影響聚類效果,而且類別數(shù)目難以確定。
[0006] 近年來(lái)總變化因子分析的方法在說(shuō)話人識(shí)別領(lǐng)域取得了很好的效果,已成為現(xiàn)在 說(shuō)話人識(shí)別系統(tǒng)的主流算法。而概率線性鑒別分析(Probabilistic Linear Discriminant Analysis,PLDA)正是對(duì)低維的總變化量因子進(jìn)行建模,在消除信道影響的基礎(chǔ)上,更好的 學(xué)習(xí)說(shuō)話人類內(nèi)和類間信息,從而能夠更準(zhǔn)確地表示兩個(gè)總變化量因子之間的相似度。目 前還未有把基于總變化因子的PLDA模型應(yīng)用于說(shuō)話人識(shí)別領(lǐng)域的方法。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于克服現(xiàn)有說(shuō)話人聚類方法中存在的語(yǔ)音樣本相似度測(cè)量不準(zhǔn) 確問(wèn)題和初始類難以確定的問(wèn)題,從而提供一種提高語(yǔ)音樣本相似度測(cè)量準(zhǔn)確性和確定合 適的初始類的說(shuō)話人聚類方法。
[0008] 為了實(shí)現(xiàn)上述目的,本發(fā)明提供了概率線性鑒別分析模型生成方法和說(shuō)話人聚類 方法;其中概率線性鑒別分析模型生成方法包括如下步驟:
[0009] 步驟101),采集一定數(shù)量的語(yǔ)音數(shù)據(jù)作為訓(xùn)練語(yǔ)句,并進(jìn)行預(yù)處理;
[0010] 步驟102),提取預(yù)處理后的訓(xùn)練語(yǔ)句的梅爾頻率倒譜系數(shù)特征;
[0011] 步驟103),基于預(yù)處理后的訓(xùn)練語(yǔ)句的梅爾頻率倒譜系數(shù)特征計(jì)算每個(gè)訓(xùn)練語(yǔ)句 的總變化量因子;
[0012] 步驟104),基于所有訓(xùn)練語(yǔ)句的總變化量因子生成概率線性鑒別分析模型;所述 概率線性鑒別分析模型包括:說(shuō)話人矩陣和概率線性鑒別分析模型的殘差方差矩陣。
[0013] 本發(fā)明提供的說(shuō)話人聚類方法,該方法基于上述技術(shù)方案生成的概率線性鑒別分 析模型,該方法包括如下步驟:
[0014] 步驟201),對(duì)待聚類說(shuō)話人語(yǔ)句進(jìn)行預(yù)處理;所述待聚類說(shuō)話人語(yǔ)句的個(gè)數(shù)為S ;
[0015] 步驟202),提取預(yù)處理后的待聚類說(shuō)話人語(yǔ)句的梅爾頻率倒譜系數(shù)特征;
[0016] 步驟203),基于預(yù)處理后的待聚類說(shuō)話人語(yǔ)句的梅爾頻率倒譜系數(shù)特征計(jì)算所有 待聚類說(shuō)話人語(yǔ)句的總變化量因子;
[0017] 步驟204),基于所述的概率線性鑒別分析模型計(jì)算兩兩待聚類說(shuō)話人語(yǔ)句的總變 化量因子的概率線性鑒別分析距離;
[0018] 步驟205),基于概率線性鑒別分析距離確定的密度值選擇初始的類別數(shù)目和每個(gè) 類包含的語(yǔ)句;
[0019] 步驟206),通過(guò)聚類算法獲取最終的類別數(shù)目和每個(gè)類包含的語(yǔ)句。
[0020] 上述技術(shù)方案中,在步驟205)中,所述基于概率線性鑒別分析距離確定的密度值 選擇初始的類別數(shù)目和每個(gè)類包含的語(yǔ)句包括:
[0021] 選擇與第p(p = 1…S)個(gè)語(yǔ)句總變化量因子的PLDA距離最小的K個(gè)語(yǔ)句,所選擇 的K個(gè)語(yǔ)句集合記為Bp,所述K可以通過(guò)經(jīng)驗(yàn)和統(tǒng)計(jì)規(guī)律優(yōu)選獲得;計(jì)算K個(gè)PLDA距離的 均值為:
[0022] …P:
[0023] 其中,wp為第p個(gè)語(yǔ)句的總變化量因子,wq為為第q個(gè)語(yǔ)句的總變化量因子;d p為 第P個(gè)語(yǔ)句的的密度值;對(duì)應(yīng)的K+1個(gè)語(yǔ)句的總變化量因子的均值為:
[0024]
[0025] 巧為上述K+1個(gè)語(yǔ)句的類中心;dp越小表明以%為類中心時(shí)類的密集程度越 商;
[0026] 對(duì)S個(gè)密度值dp(p = 1…S)按照從小到大進(jìn)行排序,然后按順序選擇Μ個(gè)dp對(duì)應(yīng) 的類中心%,所述Μ可以通過(guò)經(jīng)驗(yàn)和統(tǒng)計(jì)規(guī)律優(yōu)選獲得;對(duì)其中的第m(m = 1…M)個(gè)類中 心,從所有訓(xùn)練語(yǔ)句中選擇與其PLDA距離最小的gni個(gè)語(yǔ)句劃分為同一類,類表示為所包含 Μ 的語(yǔ)句集合:= {gni個(gè)語(yǔ)句},gni取隨機(jī)值,滿足=心對(duì)應(yīng)的類中心為類中包含的訓(xùn) m=\ 練語(yǔ)句的總變化量因子的均值,計(jì)算方法為:
[0027]
[0028] 所述初始類別數(shù)目為M,所述每個(gè)類包含的語(yǔ)句為集合,其中m = 1,"·Μ ;
[0029] 初始類中心為I'其中m = 1,…Μ。
[0030] 上述技術(shù)方案中,在步驟206)中,所述聚類算法為Κ均值層次聚類算法或?qū)哟位?凝聚聚類算法。
[0031] 此外,本發(fā)明還提供了說(shuō)話人聚類系統(tǒng),所述的系統(tǒng)包含:
[0032] 前端處理模塊,用于對(duì)待聚類說(shuō)話人語(yǔ)句進(jìn)行預(yù)處理;
[0033] 特征提取模塊,用于提取預(yù)處理后的待聚類說(shuō)話人語(yǔ)句的梅爾頻率倒譜系數(shù)特 征;
[0034] 總變化量因子計(jì)算模塊,用于計(jì)算所有待聚類說(shuō)話人語(yǔ)句的總變化量因子;
[0035] 概率線性鑒別分析建模模塊:用于采集一定數(shù)量的語(yǔ)音數(shù)據(jù)作為訓(xùn)練語(yǔ)句,并進(jìn) 行預(yù)處理;提取預(yù)處理后的訓(xùn)練語(yǔ)句的梅爾頻率倒譜系數(shù)特征;基于預(yù)處理后的訓(xùn)練語(yǔ)句 的梅爾頻率倒譜系數(shù)特征計(jì)算每個(gè)訓(xùn)練語(yǔ)句的總變化量因子;基于所有訓(xùn)練語(yǔ)句的總變化 量因子生成概率線性鑒別分析模型;
[0036] 概率線性鑒別分析距離計(jì)算模塊,用于基于概率線性鑒別分析模型兩兩計(jì)算待聚 類說(shuō)話人語(yǔ)句的總變化量因子的概率線性鑒別分析距離;
[0037] 初始類選擇模塊,用于基于PLDA距離確定的密度值選擇初始類,所述初始類包括 初始類別數(shù)目和每個(gè)類包含的語(yǔ)句;
[0038] 聚類模塊,用于通過(guò)聚類算法獲取最終的類別數(shù)目和每個(gè)類包含的語(yǔ)句。
[0039] 本發(fā)明相對(duì)于現(xiàn)有說(shuō)話人聚類方法具有以下優(yōu)點(diǎn):
[0040] 1、本發(fā)明采用的說(shuō)話人聚類方法將高維超矢量映射到低維空間,然后對(duì)低維矢量 進(jìn)行總變化因子分析建模,這能夠更好地描述說(shuō)話人類內(nèi)和類間信息,使距離測(cè)度更準(zhǔn)確。
[0041] 2、本發(fā)明采用的說(shuō)話人聚類方法依據(jù)密度值選擇初始類別數(shù)目和每個(gè)類包含的 語(yǔ)句,然后經(jīng)過(guò)迭代不斷合并和更新類,從而達(dá)到穩(wěn)定的聚類效果,并可獲得最終的類別數(shù) 目。
【附圖說(shuō)明】
[0042] 圖1是本發(fā)明的PLDA模型生成方法流程圖;
[0043] 圖2是本發(fā)明的說(shuō)話人聚類方法流程圖;
[0044] 圖3是本發(fā)明的說(shuō)話人聚類系統(tǒng)連接圖。
【具體實(shí)施方式】
[0045] 下面通過(guò)附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
[0046] 參照?qǐng)D1,PLDA模型生成方法的流程包括:
[0047] 步驟101),采集一定數(shù)量的語(yǔ)音數(shù)據(jù)作為訓(xùn)練語(yǔ)句,并進(jìn)行預(yù)處理;
[0048] 所述訓(xùn)練語(yǔ)句的個(gè)數(shù)為# = ^",_,其中I為說(shuō)話人的個(gè)數(shù),ni為第i個(gè)說(shuō)話人所 Μ 說(shuō)的語(yǔ)句數(shù)。
[0049] 所述預(yù)處理包括:基于時(shí)頻分析的方法對(duì)訓(xùn)練語(yǔ)句進(jìn)行分段,再采用高斯混合模 型(GMM)判斷每一段是否屬于無(wú)效語(yǔ)音,所述無(wú)效語(yǔ)音例如為:彩鈴、振鈴、傳真音、或靜 音,依據(jù)判斷結(jié)果刪除訓(xùn)練語(yǔ)句的無(wú)效語(yǔ)音,保留訓(xùn)練語(yǔ)句的有效語(yǔ)音;
[0050] 步驟102),提取預(yù)處理后的訓(xùn)練語(yǔ)句的MFCC特征;
[0051] 所述MFCC特征包括18維的基本倒譜特征和對(duì)基本倒譜特征進(jìn)行特征補(bǔ)償后的 18維特征,所述特征補(bǔ)償包括高階差分、倒譜均值減、倒譜方差規(guī)整、相關(guān)頻譜(Relative Spectral, Rasta)濾波,所述MFCC特征的維數(shù)為36維。
[0052] 步驟103),基于預(yù)處理后的訓(xùn)練語(yǔ)句的MFCC特征計(jì)算每個(gè)訓(xùn)練語(yǔ)句的總變化量 因子;具體計(jì)算方法如下:
[0053] 假設(shè)第i (i = 1··· I)個(gè)說(shuō)話人的第j (j = 1···γ〇個(gè)語(yǔ)句有L幀匕,y2. . .,yj,其 MFCC特征的維數(shù)為F,其中F = 36 ;第i個(gè)說(shuō)話人的第j個(gè)語(yǔ)句的Baum-Welch統(tǒng)計(jì)量的計(jì) 算方法為:
[0054]
[0055] {~L
[0056] 其中,c為高斯索引,c = 1,2,...,C,C為高斯數(shù),取1024;Ω為全局背景模型 (UBM)的方差;
[0057] 基于UBM的均值中心化的一階Baum-Welch統(tǒng)計(jì)量為:
[0058]
? , , ^
[0059] 其中,為UBM第c個(gè)高斯分量的均值;
[0060] 第i個(gè)說(shuō)話人的第j個(gè)語(yǔ)句總變化量因子的計(jì)算公式為:
[0061]
[0062] 其中,N(u)為CFXCF維對(duì)角塊矩陣,CF = CXF,相應(yīng)的對(duì)角塊為;/(")為 CFX1超向量,由g拼接而成;矩陣T表示總變化空間,模型的對(duì)角協(xié)方差陣,T和 *EM算法訓(xùn)練得到。
[0063] 步驟104),基于所有訓(xùn)練語(yǔ)句的總變化量因子生成PLDA模型;
[0064] 所有訓(xùn)練語(yǔ)句的總變化量因子的均值為:
[0065]
.(1):
[0066] 說(shuō)話人矩陣為:
[0067]
(2)
[0068] PLDA模型的殘差方差矩陣為:
[0069]
(3 )
[0070] 其中,Zl~N(0, I)為第i個(gè)說(shuō)話人的隱含因子,E[Zl]和可2乂]是Zl的后驗(yàn)分布 的一階期望和二階期望,計(jì)算方法如下:
[0071] (4>
[0072] (5)
[0073] 對(duì)PLDA模型參數(shù)V,Σ 2的估計(jì)采用EM算法,計(jì)算過(guò)程為:
[0074] 首先給定PLDA模型參數(shù)的初值V,Σ2,利用上述公式(4)、(5)計(jì)算一階期望E[Zl] 和二階期望£[&:,;],再利用上述公式(2)和(3