專利名稱:用于語種識別的約束異方差線性鑒別分析方法
技術領域:
本發(fā)明屬于語音識別領域,具體地說,涉及一種約束異方差線性鑒別分析方法,可用于語種識別中高維特征矢量的快速降維和去相關處理。
背景技術:
語種識別是指使用機器從一段語音信號中識別出其語言的種類。語種識別主要用于多語種人機口語對話、語音翻譯、跨語言語音檢索以及語音偵聽等系統(tǒng)。
目前語種識別中使用最為普遍的特征是MFCC(Mel頻率倒譜系數(shù))及其衍生特征。在衍生特征中最為成功的是SDC(偏移差分倒譜)特征,它充分利用了語音信號中的時序信息,提高了特征的鑒別性。SDC特征實際上是由K塊一階差分特征拼接而成的,假設第t幀的基本特征為{cj(t),j=1,2,...,N},其中N為基本特征維數(shù),下標j為維數(shù)索引,如附圖1所示SDC可以表示為 s(iN+j)(t)=cj(t+iS+b)-cj(t+iS-b),j=1,2,...,N;i=0,1,...,K-1 其中b為計算一階差分特征時的幀數(shù)差,一般取值為1;K為塊數(shù),一般取值為7;S為各塊之間的偏移幀數(shù),一般取值為3。
另外還有一種常用的衍生特征是差分特征,一般包括一階差分和二階差分。一階差分特征為 其中D為差分窗的大小,一般取值為2。同理,由一階差分進行計算即可得到二階差分。實驗證明,在語種識別中SDC特征比差分特征更為有效。
SDC特征之所以能取得成功,主要是因為它的時間跨度比較大,含有了較多的時序信息。但是從其計算過程也可以看到它也存在一定的問題SDC實質上是由若干塊一階差分拼接而成的,拼接以前各幀的特征存在一定的相關性,拼接以后變成了一幀特征內各維之間的相關性,這不利于后端分類器對其建模。為了解決這一問題,可以先將基本特征依次拼接成一個高維的超矢量,然后采用HLDA(異方差線性鑒別分析)方法進行處理,這樣既能去除各維之間的相關性,又能降低特征的維數(shù),減輕后端分類器的運算復雜度。但是,由于超矢量維數(shù)很高,對于大量數(shù)據(jù)而言,直接采用HLDA算法運算量極大,按目前數(shù)字集成電路芯片的計算能力幾乎不能實現(xiàn)。
發(fā)明內容
為了克服現(xiàn)有HLDA算法應用于高維超矢量時存在的問題,本發(fā)明提供一種CHLDA(約束異方差線性鑒別分析)算法,大大降低了運算量。使用數(shù)字集成電路實現(xiàn)時,與HLDA算法相比,采用本發(fā)明可使芯片運算模塊節(jié)約資源90%以上。
本發(fā)明的特征在于,所述方法是在數(shù)字集成電路芯片中按以下步驟實現(xiàn)的(如附圖2所示) 步驟(1)把一幀語音信號輸入到N維特征提取電路,得到N維Mel頻率倒譜系數(shù)MFCC的基本特征矢量,N=10, 步驟(2)用步驟(1)所述的方法提取出連續(xù)M幀語音信號的Mel頻率倒譜系數(shù)MFCC的N維基本特征矢量,M=21,并輸入到一個倒譜矩陣形成電路,得到一個倒譜矩陣C
步驟(3)把步驟(2)得到的倒譜矩陣C輸入到一個串并轉換電路,按行展開,得到一個超矢量特征c 步驟(4)把步驟(3)得到的超矢量特征c輸入到一個分路器,分成N塊 其中c(n)=[cn1 cn2…cnM]T代表超矢量特征中的第n塊,T代表轉置, 步驟(5)對每個語種的語音數(shù)據(jù)均按照步驟(1)-(4)進行操作,假設一共有L個語種,第1個語種可得到超矢量特征I1幀,所有語種共得到超矢量特征I幀,即 步驟(6)按以下步驟用一個邏輯電路分塊計算各語種的超矢量特征的統(tǒng)計量和所有語種總的超矢量特征的統(tǒng)計量,n=1,2,....,N 步驟(6.1)計算第1個語種的各幀中第n塊超矢量特征c(n)的均值
計算第1個語種的第n塊超矢量特征c(n)的協(xié)方差矩陣
其中∑g(i)=l表示對所有幀中屬于第1個語種的特征矢量求和; 步驟(6.2)計算所有語種第n塊超矢量特征c(n)的總均值m(n) 計算所有語種第n塊超矢量特征c(n)的總協(xié)方差矩陣T(n) 步驟(7)用一個變換矩陣運算電路按以下步驟分塊計算超矢量特征的變換矩陣,n=1,2,....,N 步驟(7.1)初始化第n塊變換矩陣為單位陣A(n)=I, 步驟(7.2)把上述第n塊變換矩陣劃分為兩部分 其中,其中
代表第n塊變換矩陣A(n)的前U(n)行,
代表剩下的M-U(n)行,M=21, 步驟(7.3)按下式計算第n塊變換矩陣的第m行
其中
是中間變量H(n)矩陣的第m行 H(n)=det(A(n))(A(n))-1, 為
的對角線元素
其中det代表求矩陣的行列式,diag代表取矩陣的對角線元素, 步驟(7.4)當達到20次迭代或兩次迭代det(A(n))數(shù)值相對變化小于1/1000時,停止迭代,否則轉步驟(7.2)繼續(xù)迭代, 步驟(8)用變換矩陣A(n)對超矢量特征
)分塊進行變換,得到新的特征矢量x(n),i=1,2,...,I,n=1,2,....,N 步驟(9)取出所述特征矢量x(n)的前U(n)維,得到
n=1,2,....,N,再用一個合路器把各塊特征依次進行拼接,得到新的特征矢量
圖1是SDC特征示意圖。
圖2是本發(fā)明進行CHLDA特征變換的硬件結構和步驟框圖。
圖3是本發(fā)明進行CHLDA特征變換的流程框圖。
具體實施例方式 假設c是超矢量特征,對于HLDA算法來講,其目標是尋找一個線性變換矩陣A,使得 x=Ac 為變換后得到新矢量,其鑒別性信息的壓縮到前面若干維。本發(fā)明中c是由基本特征拼接而成的,由于求取基本特征時已經進行過DCT(離散余弦變換),這樣基本特征幀內的相關性已經較弱,問題的關鍵編程去除基本特征幀間的相關性?;氐降棺V矩陣C,我們可以只研究橫向變換,相應的變換矩陣A應具有對角塊狀矩陣的形式,即
另外,根據(jù)超矢量特征的特點,我們通過理論推導和實驗驗證,可以證明其協(xié)方差矩陣具有近似對角塊狀矩陣的形式,即
基于以上考慮,本發(fā)明對HLDA問題進行解耦,可以分解成N個獨立的小規(guī)模HLDA問題。一般的HLDA問題對A和W矩陣是沒有限制的,本發(fā)明針對具體應用情況引入了對角塊狀矩陣的約束條件,在此基礎上,又將整個“大”問題簡化成若干”小“問題,所以我們將這種算法稱為約束HLDA(CHLDA)算法。
本發(fā)明將超矢量特征表示為 其中c(n)相當于倒譜矩陣C中第n行轉置形成的列向量,即超矢量特征的第n塊。
假設一共有L個語種,第1個語種的特征矢量有I1幀,所有語種的特征矢量共有I幀,這樣可以分塊計算第1個語種的均值和協(xié)方差矩陣 其中∑g(i)=l表示對第1個語種的特征矢量求和??偩岛涂倕f(xié)方差矩陣為 然后根據(jù)上述統(tǒng)計量即可分塊計算CHLDA變換矩陣,一共N個塊狀矩陣,第n個矩陣的迭代公式為 (1)初始化變換矩陣為單位陣A(n)=I; (2)將變換矩陣劃分為兩部分 其中,其中
代表A(n)的前U(n)行,
代表剩下的M-U(n)行,然后計算H(n)矩陣和矩陣 H(n)=det(A(n))(A(n))-1
其中det代表求矩陣的行列式,diag代表取矩陣的對角線元素; (3)計算新的變換矩陣,矩陣第m行的計算公式為 其中
是H(n)矩陣的第m行,如果滿足一定迭代步數(shù)或兩次迭代數(shù)值變化不大時,停止迭代,否則轉步驟(2)繼續(xù)迭代。
然后利用每個變換矩陣分塊對原始特征進行變換,得到新的特征矢量最后將每個新的特征矢量進行降維,x(n)保留前U(n)維,得到
對各塊特征進行拼接可得到新的特征矢量 如附圖3所示,實施本發(fā)明的具體步驟如下 (1)首先由語音信號進行MFCC特征提取,得到多幀N維的MFCC基本特征矢量; (2)選取連續(xù)M幀MFCC特征并列放置,形成倒譜矩陣; (3)將倒譜矩陣按行展開,形成超矢量特征; (4)由超矢量特征分塊計算均值和協(xié)方差統(tǒng)計量; (5)按迭代公式分塊計算變換矩陣; (6)使用變換矩陣對超矢量分塊進行變換,對各塊特征進行降維和拼接,得到新的特征矢量。
本發(fā)明實驗采用國際上標準的NIST 2003語種評測數(shù)據(jù),共12個語種,含1280段長約為30秒的電話對話語音,訓練數(shù)據(jù)采用CallFriend數(shù)據(jù)庫語音。
對SDC特征和本發(fā)明提出的CHLDA變換的特征進行對比測試。將所有測試段對每個語種分別進行語種確認,調節(jié)虛警率和漏報率相等時,可以得到系統(tǒng)的等錯率,采用各語種平均的等錯率作為系統(tǒng)的評價指標,等錯率越低,表明系統(tǒng)性能越好。
實驗中,采用GMM(高斯混合模型)作為分類器,每個GMM由256個高斯分量構成。分別采用最大互信息方法進行訓練,先用Bauman-Welch算法迭代8次,再用擴展的Bauman-Welch算法迭代20次。
SDC特征的N-b-S-K參數(shù)采用7-1-3-7(包含C0),再加上7維MFCC特征,共形成共56維的特征矢量。CHLDA變換采用的參數(shù)為N=10,M=21。n從1到10,第n塊保留的維數(shù)為11-n,即第1塊保留的維數(shù)為10,第2塊保留的維數(shù)為9,......,第10塊保留的維數(shù)為1,這樣最后形成了一個保留了55維,即拼接成55維的特征矢量。
實驗表明采用SDC特征,語種識別等錯率為2.93%;采用CHLDA變換后的特征,語種識別等錯率為2.35%??梢?,本發(fā)明提出的約束異方差線性鑒別分析方法用于語種識別可使其性能有較大提高。另外,在數(shù)字集成電路實現(xiàn)時,與HLDA算法相比,采用本發(fā)明運算模塊節(jié)約資源90%。
權利要求
1.用于語種識別的約束異方差線性鑒別分析方法,其特征在于,所述方法是在數(shù)字集成電路芯片中依次按以下步驟實現(xiàn)的
步驟(1)把一幀語音信號輸入到N維特征提取電路,得到N維Mel頻率倒譜系數(shù)MFCC的基本特征矢量,N=10,
步驟(2)用步驟(1)所述的方法提取出連續(xù)M幀語音信號的Mel頻率倒譜系數(shù)MFCC的N維基本特征矢量,M=21,并輸入到一個倒譜矩陣形成電路,得到一個倒譜矩陣C
步驟(3)把步驟(2)得到的倒譜矩陣C輸入到一個串并轉換電路,按行展開,得到一個超矢量特征c
步驟(4)把步驟(3)得到的超矢量特征c輸入到一個分路器,分成N塊
其中c(n)=[cn1 cn2…cnM]T代表超矢量特征中的第n塊,T代表轉置,
步驟(5)對每個語種的語音數(shù)據(jù)均按照步驟(1)-(4)進行操作,假設一共有L個語種,第1個語種可得到超矢量特征I1幀,所有語種共得到超矢量特征I幀,即
步驟(6)按以下步驟用一個邏輯電路分塊計算各語種的超矢量特征的統(tǒng)計量和所有語種總的超矢量特征的統(tǒng)計量,n=1,2,....,N步驟(6.1)計算第1個語種的各幀中第n塊超矢量特征c(n)的均值
i=1,2,...,I,
計算第1個語種的第n塊超矢量特征c(n)的協(xié)方差矩陣
其中∑g(i)=l表示對所有幀中屬于第1個語種的特征矢量求和;
步驟(6.2)計算所有語種第n塊超矢量特征c(n)的總均值m(n)
計算所有語種第n塊超矢量特征c(n)的總協(xié)方差矩陣T(n)
步驟(7)用一個變換矩陣運算電路按以下步驟分塊計算超矢量特征的變換矩陣,n=1,2,....,N
步驟(7.1)初始化第n塊變換矩陣為單位陣A(n)=I,
步驟(7.2)把上述第n塊變換矩陣劃分為兩部分
其中,其中
代表第n塊變換矩陣A(n)的前U(n)行,
代表剩下的M-U(n)行,M=21,
步驟(7.3)按下式計算第n塊變換矩陣的第m行
其中
是中間變量H(n)矩陣的第m行
H(n)=det(A(n))(A(n))-1,
為
的對角線元素
其中det代表求矩陣的行列式,diag代表取矩陣的對角線元素,
步驟(7.4)當達到20次迭代或兩次迭代det(A(n))數(shù)值相對變化小于1/1000時,停止迭代,否則轉步驟(7.2)繼續(xù)迭代,
步驟(8)用變換矩陣A(n)對超矢量特征
分塊進行變換,得到新的特征矢量x(n),i=1,2,...,I,n=1,2,....,N
步驟(9)取出所述特征矢量x(n)的前U(n)維,得到
n=1,2,....,N,再用一個合路器把各塊特征依次進行拼接,得到新的特征矢量
全文摘要
用于語種識別的約束異方差線性鑒別分析方法涉及一種高維特征矢量的降維和去相關處理方法,其特征在于,所述方法首先由語音信號提取MFCC特征,選取連續(xù)M幀MFCC特征并列放置得到倒譜矩陣,然后將其按行展開,形成超矢量,再分塊計算超矢量的均值和協(xié)方差,并用迭代法分塊計算變換矩陣,接著用變換矩陣對超矢量分塊進行變換,最后將各塊進行降維和拼接處理,可得到新的特征矢量。該方法計算量小,得到的特征矢量去除了各維之間的相關性,鑒別性高且維數(shù)低??梢杂糜谡Z種識別。
文檔編號G10L15/02GK101546555SQ200910081899
公開日2009年9月30日 申請日期2009年4月14日 優(yōu)先權日2009年4月14日
發(fā)明者張衛(wèi)強, 加 劉 申請人:清華大學