一種基于分組統(tǒng)計(jì)的hmm聲紋識(shí)別簽到方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及聲紋識(shí)別技術(shù)領(lǐng)域,更具體地,涉及一種基于分組統(tǒng)計(jì)的HMM聲紋識(shí) 別簽到方法及系統(tǒng)。
【背景技術(shù)】
[0002] 在嵌入式操作系統(tǒng)中實(shí)現(xiàn)聲紋識(shí)別簽到,通常需要對(duì)輸入的聲紋進(jìn)行預(yù)處理,將 數(shù)據(jù)傳輸?shù)椒?wù)器,進(jìn)而生成聲紋模型,模式匹配,最后輸出并記錄結(jié)果。其中,聲紋模型引 用了隱馬爾可夫模型(HMM)的兩個(gè)參數(shù)(Β,π),該模型的訓(xùn)練采用了 Baum_WelCh算法。一 般可以用λ = (Α,Β,π)三元組來(lái)簡(jiǎn)潔的表示一個(gè)隱馬爾可夫模型。隱馬爾可夫模型實(shí) 際上是標(biāo)準(zhǔn)馬爾可夫模型的擴(kuò)展,添加了可觀測(cè)狀態(tài)集合和這些狀態(tài)與隱含狀態(tài)之間的概 率關(guān)系。模式匹配通常采取Viterbi算法進(jìn)行模式匹配。張衛(wèi)清的《語(yǔ)音識(shí)別算法的研宄》 提供了詳細(xì)的Viterbi算法及隱馬爾科夫模型的描述。傳統(tǒng)模式匹配算法,需要對(duì)所有模 板進(jìn)行匹配,當(dāng)模板數(shù)量增加時(shí),匹配過(guò)程所消耗的時(shí)間而隨之增加,也即當(dāng)要識(shí)別的聲紋 數(shù)量較大時(shí),識(shí)別效率和實(shí)時(shí)性較差,進(jìn)而導(dǎo)致簽到效率低下。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明旨在至少在一定程度上解決上述技術(shù)問(wèn)題。
[0004] 本發(fā)明的首要目的是克服上述現(xiàn)有技術(shù)所述的識(shí)別效率和實(shí)時(shí)性較差缺陷,提供 一種識(shí)別效率和實(shí)時(shí)性高的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法。
[0005] 本發(fā)明的進(jìn)一步目的是提供一種識(shí)別效率和實(shí)時(shí)性高的基于分組統(tǒng)計(jì)的HMM聲 紋識(shí)別簽到系統(tǒng)。
[0006] 為解決上述技術(shù)問(wèn)題,本發(fā)明的技術(shù)方案如下:
[0007] -種基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法,通過(guò)簽到客戶端采集聲紋信號(hào),并 通過(guò)網(wǎng)絡(luò)傳輸至簽到服務(wù)器進(jìn)行簽到,所述方法包括以下步驟:
[0008] Sl :采集簽到者的聲紋信號(hào);
[0009] S2 :對(duì)聲紋信號(hào)進(jìn)行預(yù)處理,其預(yù)處理過(guò)程依次包括預(yù)加重、分幀、加窗和端點(diǎn)檢 測(cè),將預(yù)處理后的聲紋信號(hào)通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器;
[0010] S3 :對(duì)聲紋信號(hào)進(jìn)行聲紋特征參數(shù)提??;
[0011] S4:生成分組特征參數(shù),包括生成簽到者分組特征參數(shù)以及生成分組模型的分組 特征參數(shù);
[0012] S5:根據(jù)分組模型的每個(gè)分組的分組特征參數(shù)與簽到者聲紋的分組特征參數(shù),判 斷簽到者是否為某個(gè)分組的成員;
[0013] S6 :對(duì)簽到者的聲紋進(jìn)行判定。
[0014] 在一種優(yōu)選的方案中,步驟S2中,對(duì)聲紋信號(hào)進(jìn)行預(yù)處理具體包括以下步驟:
[0015] S2. 1 :預(yù)加重,在預(yù)加重過(guò)程中,
[0016] 傳遞函數(shù)為:H(Z) = 1-0. 9375Z'
[0017] 得到的信號(hào)為:兔")= S ⑷-().9375S(?-1). ?
[0018] S2. 2 :分幀,以10~20ms為間隔將聲紋信號(hào)分為若干幀,一幀為一個(gè)基本單位;
[0019] S2. 3 :加窗,采用了漢明窗函數(shù)來(lái)進(jìn)行窗化,即:寫(/〇 ='(") u{/z),〇彡η彡N-1, 其中
【主權(quán)項(xiàng)】
1. 一種基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法,其特征在于,通過(guò)簽到客戶端采集聲 紋信號(hào),并通過(guò)網(wǎng)絡(luò)傳輸至簽到服務(wù)器進(jìn)行簽到,所述方法包括以下步驟: 51 :采集簽到者的聲紋信號(hào); 52 :對(duì)聲紋信號(hào)進(jìn)行預(yù)處理,其預(yù)處理過(guò)程依次包括預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè),將 預(yù)處理后的聲紋信號(hào)通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器; 53 :對(duì)聲紋信號(hào)進(jìn)行聲紋特征參數(shù)提??; 54 :生成分組特征參數(shù),包括生成簽到者分組特征參數(shù)以及生成分組模型的分組特征 參數(shù); 55 :根據(jù)分組模型的每個(gè)分組的分組特征參數(shù)與簽到者聲紋的分組特征參數(shù),判斷簽 到者是否為某個(gè)分組的成員; 56 :對(duì)簽到者的聲紋進(jìn)行判定。
2. 根據(jù)權(quán)利要求1所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法,其特征在于,步驟 S2中,對(duì)聲紋信號(hào)進(jìn)行預(yù)處理具體包括以下步驟: S2. 1 :預(yù)加重,在預(yù)加重過(guò)程中, 傳遞函數(shù)為:H(z) = 1-0. 9375Z-1, 得到的信號(hào)為:負(fù)")=5'(")-〇.9375外7 - 1); S2. 2 :分幀,以10~20ms為間隔將聲紋信號(hào)分為若干幀,一幀為一個(gè)基本單位; S2. 3 :加窗,采用了漢明窗函數(shù)來(lái)進(jìn)行窗化,即:與(〃)=XiO) vt</?),0彡η彡N-1,其 中:Μ") = 0-54-0.46( ),0 < η < N-I ; N-I 52. 4 :端點(diǎn)檢測(cè),通過(guò)信號(hào)的短時(shí)過(guò)零率和短時(shí)能量?jī)蓚€(gè)系數(shù)來(lái)檢測(cè)聲紋信號(hào)的端點(diǎn) 的,兩個(gè)系數(shù)的公式如下: 短時(shí)能量:沖)=ΣΙλ?Ι, n=l 短時(shí)過(guò)零率:zcvi(z) = [l.r? - +1)|。
3. 根據(jù)權(quán)利要求1所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法,其特征在于,步驟 S3中,對(duì)聲紋信號(hào)進(jìn)行聲紋特征參數(shù)提取,具體包括以下步驟: 53. 1 :對(duì)聲紋信號(hào)進(jìn)行快速傅里葉變換獲取能量頻譜; S3. 2 :將能量頻譜乘以一組N個(gè)三角帶通濾波器,求得每一個(gè)濾波器輸出的對(duì)數(shù)能量 (Log Energy) Ek,所述的N個(gè)三角帶通濾波器在梅爾頻率(Mel Frequency)上是平均分布 的,梅爾頻率mel (f)和一般頻率f的關(guān)系式為: mel(f) = 2595*logl0(l+f/700); S3. 3 :將得到的N個(gè)對(duì)數(shù)能量Ek帶入離散余弦轉(zhuǎn)換(DCT),求出L階的Mel-scale Cepstrum參數(shù),得到L個(gè)倒頻譜參數(shù),離散余弦轉(zhuǎn)換公式如下: Cm= Ncos [m* (k_0. 5) *p/N] *E k,m = 1,2, · · ·,L ; S3. 4:提取聲紋信號(hào)一個(gè)幀的對(duì)數(shù)能量,一個(gè)幀的對(duì)數(shù)能量定義為一個(gè)幀內(nèi)訊號(hào)的平 方和,再取以10為底的對(duì)數(shù)值,再乘以10 ; 53. 5 :提取聲紋信號(hào)的差量倒頻譜參數(shù),差量倒頻譜參數(shù)表示倒頻譜參數(shù)相對(duì)于時(shí)間 的斜率,公式如下:
這里M的值取2或3, t代表音框的數(shù)目,Cm⑴指第t框的倒頻譜參數(shù)。
4. 根據(jù)權(quán)利要求1所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法,其特征在于,步驟 S4中,生成分組特征參數(shù)的方法具體包括以下步驟: 54. 1 :分組集合的生成,包括: (1) 將每個(gè)簽到人的聲紋信號(hào)特征參數(shù)矩陣MK(P,J)按列求平均值,得到一維向量,表 示為Vk(J),其中K為簽到人編號(hào),P為聲紋信號(hào)特征參數(shù)的值,J為聲紋特征參數(shù)的階數(shù); (2) 設(shè)X= IV1(JhV2CJ),...,Vn(J) },其中η為簽到人的個(gè)數(shù),對(duì)矩陣X使用K均值聚類 算法進(jìn)行m次聚類,設(shè)Vk(J)在第i次聚類時(shí),被分在第G K(i)組,設(shè)Gk= {GK(1),GK(2),..., Gk(m) },其中m為聚類次數(shù),K為簽到人編碼; ⑶設(shè)Gk均值為GM κ,方差為GDK,F(xiàn)k= GM K*GDK,對(duì)F使用K均值進(jìn)行聚類,得出分組集 合 GNij; S4. 2 :分組集合的訓(xùn)練,使用分組統(tǒng)計(jì)分析算法生成分組模型,依次對(duì)每個(gè)簽到人的樣 本參數(shù)用DTW算法匹配其與分組模型的中心距離,距離最小者為目標(biāo)分組,然后檢驗(yàn)?zāi)繕?biāo) 分組是否包含輸入特征參數(shù)所表示的詞語(yǔ),若包含則表示分類正確,若不包含則將該詞加 入目標(biāo)分組; S4. 3 :分組特征參數(shù)的生成,包括簽到者分組特征參數(shù)的生成以及分組模型的分組特 征參數(shù)的生成; 簽到者聲紋分組特征參數(shù)的生成:設(shè)簽到者的聲紋Sk的特征參數(shù)矩陣為:Sk (P,J)。對(duì) Sk(P,J)按列求平均值,得到一維向量,可表示為SVk(J),即為Sk的分組特征參數(shù); 分組模型的分組特征參數(shù)的生成:設(shè)分組模型i的分組特征參數(shù)為GFi,結(jié)合S4. 1中生 成的Vk(J)和GNij則: GFj= (VGN (J)+ V(1n (J) + ...+V(fN (J))/n ?,Ι l2 l η ο
5. 根據(jù)權(quán)利要求1所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法,其特征在于,步驟 S5中,判斷簽到者是否為某個(gè)分組的成員的具體方法為:采用DTW算法計(jì)算分組模型的每 個(gè)分組的分組特征參數(shù)與簽到者聲紋分組特征參數(shù)的歐式距離,選擇距離最近的分組特征 參數(shù)所在的分組作為簽到者的分組判定結(jié)果,即簽到者屬于該分組。
6. 根據(jù)權(quán)利要求1所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法,其特征在于,步驟 S6中,對(duì)簽到者的具體身份進(jìn)行判定的方法為: S6. 1 :簽到者的音色、音調(diào)特征參數(shù)的生成與訓(xùn)練,音色特征參數(shù)引用HMM模型的輸出 概率矩陣表示,音調(diào)特征參數(shù)引用HMM模型的狀態(tài)轉(zhuǎn)移概率矩陣;通過(guò)Baum-WelCh(向前向 后算法)算法對(duì)音色、音調(diào)特征參數(shù)進(jìn)行訓(xùn)練; S6. 2 :簽到者的聲紋判定,使用Viterbi算法計(jì)算簽到者聲紋對(duì)應(yīng)的輸出概率,將輸出 概率最大者判定為匹配結(jié)果。
7. -種基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到系統(tǒng),其特征在于,所述系統(tǒng)包括簽到客戶 端和簽到服務(wù)器端,客戶端和服務(wù)器端通過(guò)網(wǎng)絡(luò)連接; 簽到客戶端包括: 聲紋采集模塊:用于采集簽到者的聲紋信號(hào)并輸出到預(yù)處理模塊; 預(yù)處理模塊:包括順次連接的預(yù)加重單元、分幀處理單元、窗化處理單元和端點(diǎn)檢測(cè)單 元,用于依次對(duì)聲紋信號(hào)進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè),然后將聲紋信號(hào)通過(guò)網(wǎng)絡(luò)傳 輸?shù)椒?wù)器端; 簽到服務(wù)器端包括: 網(wǎng)絡(luò)服務(wù)模塊:用于通過(guò)網(wǎng)絡(luò)與簽到客戶端進(jìn)行通信; 聲紋特征提取模塊:用于對(duì)聲紋信號(hào)提取聲紋特征參數(shù); 分組統(tǒng)計(jì)分析模塊:用于用于根據(jù)預(yù)先生成的分組模型中每個(gè)分組的分組特征參數(shù)與 簽到者語(yǔ)音的聲紋特征參數(shù),判斷簽到者是否為某個(gè)分組的成員; 聲紋識(shí)別模塊:對(duì)簽到者的聲紋進(jìn)行判定。
8. 根據(jù)權(quán)利要求7所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到系統(tǒng),其特征在于,所述簽 到服務(wù)器端還包括數(shù)據(jù)持久化模塊和數(shù)據(jù)庫(kù),數(shù)據(jù)持久化模塊用于將簽到者聲紋識(shí)別結(jié)果 持久化到數(shù)據(jù)庫(kù)中。
9. 根據(jù)權(quán)利要求7所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到系統(tǒng),其特征在于,所述簽 到服務(wù)器端還包括控制與反饋模塊,所述簽到客戶端模塊還包括顯示面板模塊,所述控制 與反饋模塊用于將簽到者聲紋識(shí)別的結(jié)果反饋給顯示面板模塊,顯示面板模塊用于顯示簽 到者聲紋識(shí)別的結(jié)果。
10. 根據(jù)權(quán)利要求7所述的基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到系統(tǒng),其特征在于,所述 簽到客戶端采用android移動(dòng)終端。
【專利摘要】本發(fā)明提出一種基于分組統(tǒng)計(jì)的HMM聲紋識(shí)別簽到方法及系統(tǒng),首先簽到客戶端采集簽到者的聲紋信號(hào),對(duì)聲紋信號(hào)依次進(jìn)行預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè)的預(yù)處理并通過(guò)網(wǎng)絡(luò)傳輸至服務(wù)器,然后簽到服務(wù)器端對(duì)聲紋信號(hào)進(jìn)行聲紋特征參數(shù)提取,生成簽到者分組特征參數(shù)以及生成分組模型的分組特征參數(shù);根據(jù)分組模型的每個(gè)分組的分組特征參數(shù)與簽到者聲紋的分組特征參數(shù),判斷簽到者是否為某個(gè)分組的成員;最后對(duì)簽到者的聲紋進(jìn)行判定。本發(fā)明能在簽到人數(shù)量較大的情況下,實(shí)現(xiàn)實(shí)時(shí)、高效的聲紋識(shí)別簽到,減少公用設(shè)備的投入,既方便又高效,本發(fā)明系統(tǒng)和方法的結(jié)合實(shí)現(xiàn)了高識(shí)別效率、高實(shí)時(shí)性的聲紋識(shí)別簽到。
【IPC分類】G10L15-14, G10L15-30
【公開(kāi)號(hào)】CN104732972
【申請(qǐng)?zhí)枴緾N201510109362
【發(fā)明人】張晶, 姚敏鋒, 王金礦
【申請(qǐng)人】廣東外語(yǔ)外貿(mào)大學(xué)
【公開(kāi)日】2015年6月24日
【申請(qǐng)日】2015年3月12日