基于先驗知識規(guī)整協(xié)方差的概率線性鑒別說話人識別方法
【技術領域】
[0001] 本發(fā)明涉及聲紋識別領域,具體涉及一種基于先驗知識規(guī)整協(xié)方差的概率線性鑒 別分析說話人識別方法。
【背景技術】
[0002] 說話人識別技術是利用語音信號中所包含的說話人特征信息,對其背后的真實身 份做出判決和識別的技術。說話人識別技術目前已在身份識別、視頻會議、訪問控制、軍事 刑偵等諸多領域得到了廣泛的應用,發(fā)展成為越來越重要的現(xiàn)代生物特征認證技術。近 年來,基于總變化因子的說話人識別方法成為說話人識別領域的主流方法,它不嚴格區(qū)分 說話人和信道,將它們當作一個整體來建模。通過該技術,每句語音在混合高斯背景模型 (UBM)上的一階統(tǒng)計超矢量被映射為固定長度的低維向量,與此同時,較大程度上地保留了 說話人信息,因此該低維向量也被稱作身份向量(ivector)。針對這個低維的總變化因子, 學界提出了許多基于有監(jiān)督學習的信道補償和后端建模技術,概率線性鑒別分析(PLDA) 因其優(yōu)異的性能得到了廣泛的關注。
[0003] PLDA是一個典型的生成式模型,它把總變化因子分解為描述不同說話人的類間差 異的說話人分量以及描述同一說話人的類內差異的信道分量,如下所示:
[0004] Tilj= Φ β ,+ e
[0005] 其中n u表示訓練語音數(shù)據(jù)中第i個說話人的第j個ivector,Φ是說話人空間 矩陣,β i是第i個說話人的低維說話人向量,e u則是不能被說話人空間捕獲到的殘差項。
[0006] -般來說,都假定β JPe u兩個分量統(tǒng)計獨立,并且服從高斯分布。殘差項的分 布用一個統(tǒng)一的全局協(xié)方差矩陣Σ來描述。φ和Σ是未知量,需要通過大量有標注的訓 練數(shù)據(jù)去得到最優(yōu)的Φ和Σ,然后將其用在注冊數(shù)據(jù)和測試數(shù)據(jù)之上,得到注冊數(shù)據(jù)和測 試數(shù)據(jù)在該空間內兩兩之間的似然度評分,并以此來判斷測試語音與注冊語音是否來自同 一個人。
[0007] 然而,上述算法框架的局限在于,每句語音的幀長、信噪比等各類物理特性不盡相 同,用全局協(xié)方差矩陣去描述殘差分布所訓練出來的概率線性鑒別分析模型顯然會與真實 模型有一定偏差,并且會把每句語音固有的可以幫助提升識別性能的有用信息抹去。
【發(fā)明內容】
[0008] 為了上述克服說話人識別當中現(xiàn)有的概率線性判別模型訓練過程中的局限性,經 過大量的實驗以及性能調優(yōu)后,本發(fā)明提供一種基于先驗知識規(guī)整協(xié)方差的概率線性鑒別 說話人識別方法。該方法能夠根據(jù)訓練語音中任意有用的先驗知識,如語音時長、信噪比, 甚至是上一輪訓練出的模型或其它模型得出的評分信息,來對當前概率線性鑒別分析模型 進行規(guī)整訓練。
[0009] 為達到上述目的,本發(fā)明采用的技術方案是:
[0010] -種基于先驗知識規(guī)整協(xié)方差的概率線性鑒別說話人識別方法,是利用訓練語音 的有效已知信息去規(guī)整概率線性鑒別分析模型的協(xié)方差假設以及迭代過程,包括以下步 驟:
[0011] 1)采集每條訓練語音固有的物理信息或者主客觀評分信息,記作信息Cllj,下標i、 j表示該信息屬于第i個說話人的第j條訓練語音;
[0012] 2)用信息Clu對概率線性鑒別分析模型中刻畫殘差項的協(xié)方差矩陣進行規(guī)整;
[0013] 3)利用規(guī)整后的協(xié)方差矩陣,獲取第i個說話人的身份向量ivector的平均的條 件分布;
[0014]
[0015] 其中,F(xiàn)1表示第i個訓練說話人的所有身份向量ivector的平均向量,它的均值向 量是Φ β y
是協(xié)方差,Φ是說話人空間矩陣,M1是第i個訓練說話人的語音 總條數(shù),β i是第i個說話人的低維說話人向量,是一個隱含變量;
[0016] 根據(jù)貝葉斯公式,得出隱含變量P1在給定平均向量F1下的后驗概率,均值向量 為:
[0017] 其中,I為單位矩陣,X i為第i個人的所有身份向量ivector的加和向量;
[0018] 根據(jù)EM算法,得出已知后驗概率PW1IF1)的均值向量E(P 1)下的每次說話人空 間矩陣Φ以及協(xié)方差矩陣Σ的更新公式如下:
[0019]
[0020]
[0021] 通過交替更新E(P1)和Φ、Σ的值迭代直至收斂,取得最優(yōu)的φ和Σ值,完成 說話人識別中的概率線性鑒別分析模型的訓練,得到訓練好的概率線性鑒別分析模型;
[0022] 4)采用由步驟3)得到的訓練好的概率線性鑒別分析模型對待鑒別的是語音進行 鑒別。
[0023] 上述步驟1)中的信息Cl1,可以是該語音的幀長,信噪比,其它模型識別后得出的評 分信息或者本模型上一輪識別后得出的評分信息等等。
[0024] 進一步的,所述步驟2)的規(guī)整方法如下: CN 105139856 A 仇叱卞> 3/5 頁
[0025]
[0026] 其中Σ是全局的協(xié)方差矩陣,!!和¥是規(guī)整系數(shù),通過不斷調整找到最優(yōu)取值,
整體構成一個規(guī)整項,其將全局的協(xié)方差矩陣映射為針對每條訓練語音自適應的 獨立項。
[0027] 與現(xiàn)有技術相比,本發(fā)明的有益效果是:能夠根據(jù)任意關于訓練語音的有用信息 去規(guī)整概率線性鑒別分析模型的協(xié)方差假設以及迭代過程,最終訓練出更具有區(qū)分性、更 能反映真實情況的概率線性鑒別分析模型。同時,引入兩個規(guī)整系數(shù)使得模型可調,能針對 各類不同的規(guī)整信息進行自適應達到最優(yōu)。
[0028] 采用本發(fā)明訓練得出的模型比傳統(tǒng)模型在相同數(shù)據(jù)集上得出的說話人識別評 測效果有明顯提升,在國際權威說話人識別評測數(shù)據(jù)庫中能使等錯誤率(EER)相對下降 10% -20%〇
【附圖說明】
[0029] 圖1為本發(fā)明中選取訓練語音固有的物理信息的流程圖。
[0030] 圖2為本發(fā)明中選取上一次訓練模型得出的評分信息作為本次模型訓練先驗知 識的迭代規(guī)整流程圖。
【具體實施方式】
[0031] 附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附 圖某些部件會有省略、放大或縮小,并不代表實際產品的尺寸;
[0032] 對于本領域技術人員來說,附圖中某些公知結構及其說明可能省略是可以理解 的。下面結合附圖和實施例對本發(fā)明的技術方案做進一步的說明。
[0033] 圖1為本發(fā)明中選取訓練語音固有的物理信息如時長、信噪比以及其它模型得出 的評分信息作為本次模型訓練先驗知識的一次規(guī)整過程本實施例選取訓練語音的時長作 為先驗知識進行協(xié)方差規(guī)整。
[0034] 圖2為本發(fā)明中選取上一次訓練模型得出的評分信息作為本次模型訓練先驗知 識的迭代規(guī)整過程。