概率線性鑒別分析模型生成方法和說(shuō)話人聚類方法及系統(tǒng)的制作方法

文檔序號(hào)：9709465閱讀：495來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

概率線性鑒別分析模型生成方法和說(shuō)話人聚類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及的技術(shù)領(lǐng)域包括語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、說(shuō)話人聚類和語(yǔ)音信號(hào)處理，具體地說(shuō)，本發(fā)明涉及概率線性鑒別分析模型生成方法和說(shuō)話人聚類方法及系統(tǒng)。
【背景技術(shù)】
[0002] 說(shuō)話人聚類是通過(guò)分析多個(gè)語(yǔ)音樣本，將屬于同一說(shuō)話人的語(yǔ)音樣本歸為一類，可用于多人對(duì)話語(yǔ)音的說(shuō)話人識(shí)別。說(shuō)話人聚類不同于說(shuō)話人識(shí)別，是一種無(wú)監(jiān)督學(xué)習(xí)過(guò) 程。說(shuō)話人聚類方法通常包括特征提取、距離計(jì)算、層次化凝聚聚類算法等過(guò)程。
[0003] 特征提取過(guò)程通常提取語(yǔ)音樣本中表征說(shuō)話人信息的聲學(xué)特征，包括梅爾頻率倒譜系數(shù)（Mel-Frequency Cepstrum Coefficient，MFCC)、線性預(yù)測(cè)倒譜系數(shù)（Linear Prediction Cepstrum Coefficient, LPCC)、感知線性預(yù)測(cè)系數(shù)（Perceptual Linear Prediction，PLP)、線譜對(duì)系數(shù)（Linear Spectrum Pairs，LSP)等。
[0004] 距離計(jì)算方法包括貝葉斯信息準(zhǔn)則（Bayesian Information Criteria, BIC)、 KL 距離（Kullback-Leiber Distance，KLD)、廣義似然比距離（Generalized Likelihood Ratio, GLR)、交叉熵似然比距離（Cross Likelihood Ratio, CLR)等。其過(guò)程為：首先對(duì)每段語(yǔ)音樣本建立高斯模型，計(jì)算高斯模型間的距離測(cè)度，將距離最近的語(yǔ)音樣本進(jìn)行合并形成新的高斯模型，再計(jì)算新的高斯模型間的距離測(cè)度，再將距離最近的語(yǔ)音樣本進(jìn)行合并形成新的高斯模型，這個(gè)過(guò)程一直迭代直至滿足停止條件。在現(xiàn)有的距離計(jì)算方法中，通常采用最大后驗(yàn)估計(jì)準(zhǔn)則（Maximum a Posterior,MAP)對(duì)說(shuō)話人語(yǔ)音樣本建立單高斯或混合高斯模型；在說(shuō)話人聚類的應(yīng)用場(chǎng)景中，通過(guò)MAP得到的模型受數(shù)據(jù)量的限制不能準(zhǔn)確描述語(yǔ)音樣本的分布情況，由此不能很好地表征某類說(shuō)話人語(yǔ)音的統(tǒng)計(jì)特性，從而得到的模型間的距離測(cè)度也不夠準(zhǔn)確。
[0005] 傳統(tǒng)的說(shuō)話人聚類算法通常采用層次化凝聚聚類算法，類初始值選擇不合適會(huì)嚴(yán) 重影響聚類效果，而且類別數(shù)目難以確定。
[0006] 近年來(lái)總變化因子分析的方法在說(shuō)話人識(shí)別領(lǐng)域取得了很好的效果，已成為現(xiàn)在說(shuō)話人識(shí)別系統(tǒng)的主流算法。而概率線性鑒別分析（Probabilistic Linear Discriminant Analysis，PLDA)正是對(duì)低維的總變化量因子進(jìn)行建模，在消除信道影響的基礎(chǔ)上，更好的學(xué)習(xí)說(shuō)話人類內(nèi)和類間信息，從而能夠更準(zhǔn)確地表示兩個(gè)總變化量因子之間的相似度。目前還未有把基于總變化因子的PLDA模型應(yīng)用于說(shuō)話人識(shí)別領(lǐng)域的方法。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的在于克服現(xiàn)有說(shuō)話人聚類方法中存在的語(yǔ)音樣本相似度測(cè)量不準(zhǔn) 確問(wèn)題和初始類難以確定的問(wèn)題，從而提供一種提高語(yǔ)音樣本相似度測(cè)量準(zhǔn)確性和確定合適的初始類的說(shuō)話人聚類方法。
[0008] 為了實(shí)現(xiàn)上述目的，本發(fā)明提供了概率線性鑒別分析模型生成方法和說(shuō)話人聚類方法；其中概率線性鑒別分析模型生成方法包括如下步驟：
[0009] 步驟101)，采集一定數(shù)量的語(yǔ)音數(shù)據(jù)作為訓(xùn)練語(yǔ)句，并進(jìn)行預(yù)處理；
[0010] 步驟102)，提取預(yù)處理后的訓(xùn)練語(yǔ)句的梅爾頻率倒譜系數(shù)特征；
[0011] 步驟103)，基于預(yù)處理后的訓(xùn)練語(yǔ)句的梅爾頻率倒譜系數(shù)特征計(jì)算每個(gè)訓(xùn)練語(yǔ)句的總變化量因子；
[0012] 步驟104)，基于所有訓(xùn)練語(yǔ)句的總變化量因子生成概率線性鑒別分析模型；所述概率線性鑒別分析模型包括：說(shuō)話人矩陣和概率線性鑒別分析模型的殘差方差矩陣。
[0013] 本發(fā)明提供的說(shuō)話人聚類方法，該方法基于上述技術(shù)方案生成的概率線性鑒別分析模型，該方法包括如下步驟：
[0014] 步驟201)，對(duì)待聚類說(shuō)話人語(yǔ)句進(jìn)行預(yù)處理；所述待聚類說(shuō)話人語(yǔ)句的個(gè)數(shù)為S ;
[0015] 步驟202)，提取預(yù)處理后的待聚類說(shuō)話人語(yǔ)句的梅爾頻率倒譜系數(shù)特征；
[0016] 步驟203)，基于預(yù)處理后的待聚類說(shuō)話人語(yǔ)句的梅爾頻率倒譜系數(shù)特征計(jì)算所有待聚類說(shuō)話人語(yǔ)句的總變化量因子；
[0017] 步驟204)，基于所述的概率線性鑒別分析模型計(jì)算兩兩待聚類說(shuō)話人語(yǔ)句的總變化量因子的概率線性鑒別分析距離；
[0018] 步驟205)，基于概率線性鑒別分析距離確定的密度值選擇初始的類別數(shù)目和每個(gè) 類包含的語(yǔ)句；
[0019] 步驟206)，通過(guò)聚類算法獲取最終的類別數(shù)目和每個(gè)類包含的語(yǔ)句。
[0020] 上述技術(shù)方案中，在步驟205)中，所述基于概率線性鑒別分析距離確定的密度值選擇初始的類別數(shù)目和每個(gè)類包含的語(yǔ)句包括：
[0021] 選擇與第p(p = 1…S)個(gè)語(yǔ)句總變化量因子的PLDA距離最小的K個(gè)語(yǔ)句，所選擇的K個(gè)語(yǔ)句集合記為Bp，所述K可以通過(guò)經(jīng)驗(yàn)和統(tǒng)計(jì)規(guī)律優(yōu)選獲得；計(jì)算K個(gè)PLDA距離的均值為：
[0022] …P:
[0023] 其中，wp為第p個(gè)語(yǔ)句的總變化量因子，wq為為第q個(gè)語(yǔ)句的總變化量因子；d p為第P個(gè)語(yǔ)句的的密度值；對(duì)應(yīng)的K+1個(gè)語(yǔ)句的總變化量因子的均值為：
[0024]
[0025] 巧為上述K+1個(gè)語(yǔ)句的類中心；dp越小表明以％為類中心時(shí)類的密集程度越商；
[0026] 對(duì)S個(gè)密度值dp(p = 1…S)按照從小到大進(jìn)行排序，然后按順序選擇Μ個(gè)dp對(duì)應(yīng) 的類中心％，所述Μ可以通過(guò)經(jīng)驗(yàn)和統(tǒng)計(jì)規(guī)律優(yōu)選獲得；對(duì)其中的第m(m = 1…M)個(gè)類中心，從所有訓(xùn)練語(yǔ)句中選擇與其PLDA距離最小的gni個(gè)語(yǔ)句劃分為同一類，類表示為所包含 Μ 的語(yǔ)句集合：= {gni個(gè)語(yǔ)句}，gni取隨機(jī)值，滿足=心對(duì)應(yīng)的類中心為類中包含的訓(xùn) m=\ 練語(yǔ)句的總變化量因子的均值，計(jì)算方法為：
[0027]
[0028] 所述初始類別數(shù)目為M，所述每個(gè)類包含的語(yǔ)句為集合，其中m = 1，"·Μ ;
[0029] 初始類中心為I'其中m = 1，…Μ。
[0030] 上述技術(shù)方案中，在步驟206)中，所述聚類算法為Κ均值層次聚類算法或?qū)哟位?凝聚聚類算法。
[0031] 此外，本發(fā)明還提供了說(shuō)話人聚類系統(tǒng)，所述的系統(tǒng)包含：
[0032] 前端處理模塊，用于對(duì)待聚類說(shuō)話人語(yǔ)句進(jìn)行預(yù)處理；
[0033] 特征提取模塊，用于提取預(yù)處理后的待聚類說(shuō)話人語(yǔ)句的梅爾頻率倒譜系數(shù)特征；
[0034] 總變化量因子計(jì)算模塊，用于計(jì)算所有待聚類說(shuō)話人語(yǔ)句的總變化量因子；
[0035] 概率線性鑒別分析建模模塊：用于采集一定數(shù)量的語(yǔ)音數(shù)據(jù)作為訓(xùn)練語(yǔ)句，并進(jìn) 行預(yù)處理；提取預(yù)處理后的訓(xùn)練語(yǔ)句的梅爾頻率倒譜系數(shù)特征；基于預(yù)處理后的訓(xùn)練語(yǔ)句的梅爾頻率倒譜系數(shù)特征計(jì)算每個(gè)訓(xùn)練語(yǔ)句的總變化量因子；基于所有訓(xùn)練語(yǔ)句的總變化量因子生成概率線性鑒別分析模型；
[0036] 概率線性鑒別分析距離計(jì)算模塊，用于基于概率線性鑒別分析模型兩兩計(jì)算待聚類說(shuō)話人語(yǔ)句的總變化量因子的概率線性鑒別分析距離；
[0037] 初始類選擇模塊，用于基于PLDA距離確定的密度值選擇初始類，所述初始類包括初始類別數(shù)目和每個(gè)類包含的語(yǔ)句；
[0038] 聚類模塊，用于通過(guò)聚類算法獲取最終的類別數(shù)目和每個(gè)類包含的語(yǔ)句。
[0039] 本發(fā)明相對(duì)于現(xiàn)有說(shuō)話人聚類方法具有以下優(yōu)點(diǎn)：
[0040] 1、本發(fā)明采用的說(shuō)話人聚類方法將高維超矢量映射到低維空間，然后對(duì)低維矢量進(jìn)行總變化因子分析建模，這能夠更好地描述說(shuō)話人類內(nèi)和類間信息，使距離測(cè)度更準(zhǔn)確。
[0041] 2、本發(fā)明采用的說(shuō)話人聚類方法依據(jù)密度值選擇初始類別數(shù)目和每個(gè)類包含的語(yǔ)句，然后經(jīng)過(guò)迭代不斷合并和更新類，從而達(dá)到穩(wěn)定的聚類效果，并可獲得最終的類別數(shù) 目。
【附圖說(shuō)明】
[0042] 圖1是本發(fā)明的PLDA模型生成方法流程圖；
[0043] 圖2是本發(fā)明的說(shuō)話人聚類方法流程圖；
[0044] 圖3是本發(fā)明的說(shuō)話人聚類系統(tǒng)連接圖。
【具體實(shí)施方式】
[0045] 下面通過(guò)附圖和實(shí)施例，對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
[0046] 參照?qǐng)D1，PLDA模型生成方法的流程包括：
[0047] 步驟101)，采集一定數(shù)量的語(yǔ)音數(shù)據(jù)作為訓(xùn)練語(yǔ)句，并進(jìn)行預(yù)處理；
[0048] 所述訓(xùn)練語(yǔ)句的個(gè)數(shù)為# = ^",_，其中I為說(shuō)話人的個(gè)數(shù)，ni為第i個(gè)說(shuō)話人所 Μ 說(shuō)的語(yǔ)句數(shù)。
[0049] 所述預(yù)處理包括：基于時(shí)頻分析的方法對(duì)訓(xùn)練語(yǔ)句進(jìn)行分段，再采用高斯混合模型（GMM)判斷每一段是否屬于無(wú)效語(yǔ)音，所述無(wú)效語(yǔ)音例如為：彩鈴、振鈴、傳真音、或靜音，依據(jù)判斷結(jié)果刪除訓(xùn)練語(yǔ)句的無(wú)效語(yǔ)音，保留訓(xùn)練語(yǔ)句的有效語(yǔ)音；
[0050] 步驟102)，提取預(yù)處理后的訓(xùn)練語(yǔ)句的MFCC特征；
[0051] 所述MFCC特征包括18維的基本倒譜特征和對(duì)基本倒譜特征進(jìn)行特征補(bǔ)償后的 18維特征，所述特征補(bǔ)償包括高階差分、倒譜均值減、倒譜方差規(guī)整、相關(guān)頻譜（Relative Spectral, Rasta)濾波，所述MFCC特征的維數(shù)為36維。
[0052] 步驟103)，基于預(yù)處理后的訓(xùn)練語(yǔ)句的MFCC特征計(jì)算每個(gè)訓(xùn)練語(yǔ)句的總變化量因子；具體計(jì)算方法如下：
[0053] 假設(shè)第i (i = 1··· I)個(gè)說(shuō)話人的第j (j = 1···γ〇個(gè)語(yǔ)句有L幀匕，y2. . .，yj，其 MFCC特征的維數(shù)為F，其中F = 36 ;第i個(gè)說(shuō)話人的第j個(gè)語(yǔ)句的Baum-Welch統(tǒng)計(jì)量的計(jì) 算方法為：
[0054]
[0055] {~L
[0056] 其中，c為高斯索引，c = 1，2，...，C，C為高斯數(shù)，取1024;Ω為全局背景模型 (UBM)的方差；
[0057] 基于UBM的均值中心化的一階Baum-Welch統(tǒng)計(jì)量為：
[0058]
? , , ^
[0059] 其中，為UBM第c個(gè)高斯分量的均值；
[0060] 第i個(gè)說(shuō)話人的第j個(gè)語(yǔ)句總變化量因子的計(jì)算公式為：
[0061]
[0062] 其中，N(u)為CFXCF維對(duì)角塊矩陣，CF = CXF，相應(yīng)的對(duì)角塊為；/(")為 CFX1超向量，由g拼接而成；矩陣T表示總變化空間，模型的對(duì)角協(xié)方差陣，T和 *EM算法訓(xùn)練得到。
[0063] 步驟104)，基于所有訓(xùn)練語(yǔ)句的總變化量因子生成PLDA模型；
[0064] 所有訓(xùn)練語(yǔ)句的總變化量因子的均值為：
[0065]
.(1):
[0066] 說(shuō)話人矩陣為：
[0067]
(2)
[0068] PLDA模型的殘差方差矩陣為：
[0069]
(3 )
[0070] 其中，Zl~N(0, I)為第i個(gè)說(shuō)話人的隱含因子，E[Zl]和可2乂]是Zl的后驗(yàn)分布的一階期望和二階期望，計(jì)算方法如下：
[0071] (4>
[0072] (5)
[0073] 對(duì)PLDA模型參數(shù)V，Σ 2的估計(jì)采用EM算法，計(jì)算過(guò)程為：
[0074] 首先給定PLDA模型參數(shù)的初值V，Σ2，利用上述公式（4)、（5)計(jì)算一階期望E[Zl] 和二階期望￡[&：,;]，再利用上述公式（2)和（3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊琳;索宏彬;周若華;顏永紅;
技術(shù)所有人：中國(guó)科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司;
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

線性概率模型相關(guān)技術(shù)

概率生成模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

概率線性鑒別分析模型生成方法和說(shuō)話人聚類方法及系統(tǒng)的制作方法