專利名稱:基于嵌入式的開集說話人識別方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號處理領(lǐng)域的說話人識別,尤其是涉及采用開集方式的說話人識別系統(tǒng),特別涉及利用嵌入式系統(tǒng)實(shí)現(xiàn)的開集說話人識別系統(tǒng)。
背景技術(shù):
通過查閱相關(guān)資料和有關(guān)專利,主要引證下列專利 國名公開號
公開日期 1. 中國CN 101350196A2009.7.19 2. 中國CN 101064043A2007.10.31 3. 中國CN 1746972A 2006.3.15 專利1(CN101350196A)申請公開了一種任務(wù)相關(guān)的說話人身份確認(rèn)片上系統(tǒng)及其確認(rèn)方法。使用專用的語音處理芯片UniLite400進(jìn)行系統(tǒng)的硬件設(shè)計(jì),對說話人確認(rèn)方法進(jìn)行系統(tǒng)實(shí)現(xiàn)。在芯片UniLite400接收到語音后,提取12維美爾頻率倒譜系數(shù)和短時歸一化對數(shù)能量共13維,作為說話人的語音特征參數(shù),采用動態(tài)規(guī)劃的矢量匹配技術(shù)進(jìn)行用戶的訓(xùn)練和確認(rèn)。專利2(CN 101064043A)申請公開了一種聲紋門禁系統(tǒng)及其應(yīng)用。采用兩個微處理器進(jìn)行系統(tǒng)硬件設(shè)計(jì),采集到的語音信號經(jīng)過預(yù)處理模塊,提取大幀特征、DTW模板特征和DCT模板特征數(shù)據(jù)作為說話的語音特征參數(shù)。在用戶進(jìn)行語音模型的訓(xùn)練時,首先錄制10遍語音口令,每個口令經(jīng)過預(yù)處理模塊形成一個訓(xùn)練樣本集,按時間順序保存,訓(xùn)練DTW和DCT模板。然后進(jìn)行人工神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練。在進(jìn)行用戶識別時,首先進(jìn)行DCT特征比對,得到最小距離的N個用戶,然后使用DTW特征比對,得到一個最小距離的用戶,最后利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行最后的用戶識別。專利3(CN 1746972A)申請公開了一種語音鎖。由電子信號處理電路和鎖具動作執(zhí)行機(jī)構(gòu)構(gòu)成,電子信號處理電路由語音接收裝置、語音預(yù)處理模塊、訓(xùn)練模塊、識別模塊和開鎖模塊構(gòu)成。語音接收裝置接收被識別人的語音信號,并把語音信號傳送至所述的語音預(yù)處理模塊,語音預(yù)處理模塊通過所述的鍵盤取得用戶ID號碼,對用戶ID號碼進(jìn)行確認(rèn),確認(rèn)ID號碼有效以后,對語音信號進(jìn)行語音分析處理,提取語音的微特征參數(shù),并將ID號碼和語音微特征參數(shù)輸入到訓(xùn)練和識別模塊中。訓(xùn)練模塊接收語音預(yù)處理的處理結(jié)果并對該ID號碼相對應(yīng)的語音樣本進(jìn)行訓(xùn)練,形成主人獨(dú)有的語音鑰匙聲紋編碼,識別模塊根據(jù)語音預(yù)處理模塊提供的ID號碼,利用多層聚類神經(jīng)網(wǎng)絡(luò)識別出說話人。
上述專利在解決本申請的技術(shù)要求方面主要存在下面幾點(diǎn)問題 1.專利1采用專用的語音處理芯片UniLite400進(jìn)行系統(tǒng)的硬件設(shè)計(jì),導(dǎo)致的外圍芯片類型的選擇受到限制。專利2采用兩個微處理器進(jìn)行系統(tǒng)硬件設(shè)計(jì),增加了系統(tǒng)的成本。
2.當(dāng)用戶數(shù)大于1時,實(shí)際的說話人識別系統(tǒng)是一個開集的識別系統(tǒng),不僅要判斷待識別語音是屬于參考說話人中的哪一個,同時對于系統(tǒng)的冒認(rèn)者還要給出一個拒絕的格外判定。然而上述專利對說話人確認(rèn)系統(tǒng)進(jìn)行嵌入式系統(tǒng)的實(shí)現(xiàn),無法滿足開集方式的說話人識別系統(tǒng)的實(shí)際要求。
3.為了增強(qiáng)系統(tǒng)的通用性,使系統(tǒng)能夠適應(yīng)不同的應(yīng)用環(huán)境,系統(tǒng)安全等級的設(shè)定十分重要。上述專利沒有考慮系統(tǒng)安全等級的問題,無法使系統(tǒng)適應(yīng)于不同的應(yīng)用場合。
4.功耗問題嚴(yán)重制約著嵌入式系統(tǒng)的應(yīng)用與發(fā)展,尤其是對于便攜式的嵌入式系統(tǒng)。上述專利沒有考慮系統(tǒng)實(shí)際應(yīng)用的功耗問題。
在本專利中,解決了上述說話人識別系統(tǒng)實(shí)用化過程中存在的四個問題。
發(fā)明內(nèi)容
本發(fā)明提供一種基于嵌入式的開集說話人識別方法及其系統(tǒng),以解決上述說話人識別系統(tǒng)實(shí)用化過程中存在的四個問題。
本發(fā)明一種基于嵌入式的開集說話人識別方法,采取的技術(shù)方案包括下列步驟 一、語音信號的預(yù)處理和特征提取 首先都要將采集到的語音信號進(jìn)行預(yù)處理和特征提取,得到說話人的語音特征參數(shù); 語音信號的預(yù)處理和特征提取處理的對象是一幀由AD采樣得到的短時幀信號,為了保證實(shí)時性,需要在下一幀語音信號的采樣結(jié)束之前完成前一幀信號的預(yù)處理和特征提??;語音信號的預(yù)處理主要包括語音信號的小數(shù)據(jù)、尖峰及飽和處理、加窗、頻域上的語音增強(qiáng)、端點(diǎn)檢測。
為了防止采樣過程中存在的尖峰干擾及過小的采樣數(shù)據(jù),在進(jìn)行加窗之前,首先對輸入的語音信號進(jìn)行前端處理,刪除小數(shù)據(jù)、尖峰干擾及飽和幀,具體過程是當(dāng)采集一幀語音信號以后,計(jì)算該幀語音信號幅度絕對值的均值和最大值,首先將均值與設(shè)定閾值比較來判斷小數(shù)據(jù)幀,如果均值小于設(shè)定閾值1,則認(rèn)為該幀信號為小數(shù)據(jù)幀,舍去,返回等待處理下一幀采樣信號。否則,接著判斷是否存在尖峰信號,如果最大值與均值的比值大于設(shè)定閾值2,則認(rèn)為該幀采樣信號存在尖峰信號,舍去,返回等待處理下一幀采樣信號。否則,判斷該幀中飽和的點(diǎn)數(shù)與該幀信號點(diǎn)數(shù)的比值是否大于閾值3,如果大于則認(rèn)為該幀飽和點(diǎn)數(shù)太多,舍去,返回等待處理下一幀采樣信號。否則,對語音信號后序的進(jìn)行預(yù)處理; 在對語音信號進(jìn)行小數(shù)據(jù)、尖峰及飽和處理后,采用漢明窗對語音信號進(jìn)行加窗。利用循環(huán)維納濾波的擴(kuò)展譜相減法對加窗后的語音信號進(jìn)行頻域上的語音增強(qiáng),去除語音信號中的噪聲干擾。具體過程如下。
1)計(jì)算背景噪聲幅度譜的初始平滑估計(jì)值|N0(ejw)|。
這里假設(shè)帶噪語音前N_noise幀為純噪聲信號,則可以利用其幅度的統(tǒng)計(jì)平均來估計(jì)|NN_noise(ejw)|,其遞推公式為 n=1,...,N_noise 其中|N′n(ejw)|2為背景噪聲的第n次統(tǒng)計(jì)估計(jì)值,|N′0(ejw)|2=0。|Xn(ejw)|2為第n個噪聲幀的功率譜。得到初始值|N0(ejw)|=|N′N_noise(ejw)|。
2)利用幅度譜相減法計(jì)算語音信號的幅度譜初始平滑估計(jì)|S0(ejw)|;|S0(ejw)|=||XN_noise(ejw)|-|N0(ejw)|| 其中|XN_noise(ejw)|為第N_noise幀噪聲的幅度譜。
3)令幀變量n=1; 4)計(jì)算第n+N_noise幀的維納濾波器的傳遞函數(shù) 5)對帶噪語音信號幅度譜進(jìn)行濾波,得到當(dāng)前幀背景噪聲幅度譜的估計(jì)值
6)計(jì)算增強(qiáng)后信號的幅度譜
7)利用當(dāng)前幀噪聲幅度譜估計(jì)
對背景噪聲的平滑估計(jì)值
進(jìn)行更新。
其中p為比例因子,它與時間常數(shù)τ之間滿足 8)計(jì)算信號幅度譜的平滑估計(jì)|Sn(ejw)|; |Sn(ejw)|=||Xn(ejw)|-|Nn(ejw)|| 9)幀變量n=n+1;如果n>總幀數(shù)N,則結(jié)束,得到增強(qiáng)后的語音幅度譜的估計(jì)值
作為輸出;否則到步驟3)繼續(xù)執(zhí)行; 在對語音信號進(jìn)行增強(qiáng)以后,采用平均分段信噪比的方法對語音信號進(jìn)行端點(diǎn)檢測。計(jì)算增強(qiáng)后語音的幀平均分段信噪比fn 其中p為信號幅度譜的長度。如果fn大于閾值,則認(rèn)為是該幀信號是語音幀,需要進(jìn)行特征提取,否則,認(rèn)為該幀信號是非語音幀,等待處理下一短時幀采樣信號。
對語音幀信號進(jìn)行特征提取,提取19維Mel倒譜系數(shù)及其19維一階動態(tài)參數(shù)、16維線性預(yù)測倒譜系數(shù)、韻律特征的靜態(tài)和一階動態(tài)參數(shù),共56維特征參數(shù)組合作為說話人語音的特征參數(shù); 二、參考說話人語音模型的訓(xùn)練 參考說話人輸入訓(xùn)練語音經(jīng)采樣、預(yù)處理和特征提取后,得到參考說話人訓(xùn)練的語音特征參數(shù)X,將X分為兩部分X={Xtr,Xsrt},一部分用于參考說話人語音模型的形成,定義為訓(xùn)練模型參數(shù)Xtr,另一部分用于訓(xùn)練識別過程,定義為訓(xùn)練識別參數(shù)Xsrt;因此,參考說話人語音模型的訓(xùn)練包括兩個部分,參考說話人語音模型的形成和參考說話人的訓(xùn)練識別過程;具體過程如下 (1).參考說話人語音模型的形成 采用基于模糊核矢量量化的說話人識別算法對參考說話人的語音模型進(jìn)行訓(xùn)練。模糊核矢量量化器將原始空間通過非線性映射到高維特征空間,利用模糊核聚類算法設(shè)計(jì)矢量量化器,在高維特征空間中對參考說話人的訓(xùn)練語音特征進(jìn)行模糊聚類分析,并將得到的每個類中心{vi},i=1,...,c(這里c為聚類數(shù)),作為參考說話人的語音模型,即第q個參考說話人的模型可以表示為λ(q)={vi},i=1,...,c,從而完成了第q個參考說話人語音模型的訓(xùn)練。
令Xtr={x1,x2,...xN}為訓(xùn)練特征參數(shù),包含N個特征參數(shù),xk是其中的一個特征參數(shù)矢量,其維數(shù)為d維。第q個參考說話人語音模型訓(xùn)練的具體實(shí)現(xiàn)過程如下。
1)確定聚類數(shù)c、迭代終止條件ε∈(0,1)、迭代次數(shù)T,模糊加權(quán)指數(shù)m∈[1,2.5]; 2)采用分裂法初始化類中心vi,i=1,2,...,c; 3)更新隸屬度函數(shù)
i=1,...,c;k=1,...,N; 這里 其中K(xk,xl)、K(xj,xk)、K(xk,xk)均表示兩個向量之間核函數(shù)。采用高斯核函數(shù)保證樣本的線性可分性,設(shè)兩個矢量x,y之間的核函數(shù)為 其中σ為高斯核函數(shù)的寬度,通常取3~7。
4)若或迭代次數(shù)等于預(yù)定迭代次數(shù)T,則算法繼續(xù),否則轉(zhuǎn)到步驟3)。
5)計(jì)算類中心
i=1,...c,并將聚類中心組成第q個說話人的語音模型,迭代結(jié)束。
i=1,...,c i=1,...,c (2).參考說話人的訓(xùn)練識別過程 使用核函數(shù)將第q個參考說話人訓(xùn)練識別的特征參數(shù)Xsrt={x1,x2,...xM}(M為特征參數(shù)的個數(shù))映射到高維特征空間,在高維特征空間中,分別計(jì)算訓(xùn)練識別參數(shù)Xsrt與第q個參考說話人模型λ(q)以及背景模型λUBM的匹配失真值D(Xsrt;λ(q))和D(Xsrt;λUBM);如果D(Xsrt;λ(q))>D(Xsrt;λUBM),則認(rèn)為第q個參考說話人訓(xùn)練語音前后不一致,可能存在干擾或沒有輸入完全的情況,該參考說話人需要重新進(jìn)行訓(xùn)練。否則,根據(jù)兩個失真的差值確定第q個參考說話人確認(rèn)的初始閾值;其中特征參數(shù)與模型之間的匹配失真值為 這里,背景模型是描述與說話人無關(guān)的語音模型,采用大量的語音數(shù)據(jù),利用模糊核矢量量化器訓(xùn)練得到的λUBM={vi},i=1,...,c;背景模型需要事先存儲在程序存儲器中,作為已知數(shù)據(jù)直接使用; 在參考說話人語音模型形成之后,判斷參考說話人語音模型是否可靠,如果可靠,則產(chǎn)生參考說話人確認(rèn)的初始閾值,并對參考說話人語音模型和確認(rèn)的初始閾值進(jìn)行存儲,否則,需要用戶重新完成模型的訓(xùn)練過程;對于參考說話人數(shù)為Q的開集說話人識別系統(tǒng),要完成Q個參考說話人的訓(xùn)練,需要重復(fù)Q參考說話人語音模型的訓(xùn)練; 三、開集模式匹配 對于開集的說話人識別系統(tǒng)而言,用戶存在不屬于集合內(nèi)參考說話人的情況,因此對于一個開集說話人識別的模式匹配過程需要先進(jìn)行說話人辨認(rèn),然后進(jìn)行說話人確認(rèn); 在開集識別階段,待識別用戶輸入識別語音經(jīng)采樣、預(yù)處理和特征提取后,得到待識別用戶語音特征參數(shù)Xsr,首先利用Xsr和參考說話人的語音模型進(jìn)行辨認(rèn),找到與待識別語音最匹配的參考說話人i,作為辨認(rèn)的結(jié)果,然后利用參考說話人i的確認(rèn)閾值,對待識別語音進(jìn)行說話人確認(rèn),得到最后的識別結(jié)果; (1).說話人辨認(rèn) 采用模糊核矢量量化的最近近鄰分類器完成說話人的辨認(rèn)。利用每個參考說話人的語音模型在特征空間中依次對待識別用戶語音特征參數(shù)Xsr進(jìn)行量化,并計(jì)算每個參考說話人語音模型量化時產(chǎn)生的量化失真D(q),q=1,...,Q,其中Q為參考說話人的個數(shù)。對于說話人辨認(rèn)而言,使用最近近鄰分類器選擇最小D(q)的參考說話人語音模型所對應(yīng)的參考說話人作為的辨認(rèn)結(jié)果。
如果參考說話人i產(chǎn)生的量化誤差D(i)最小,則辨認(rèn)結(jié)果result=i。
(2).說話人確認(rèn) 計(jì)算待識別語音特征參數(shù)Xsr與背景模型λUBM的匹配失真值D(Xsr;λUBM),如果辨認(rèn)結(jié)果result=i,則利用辨認(rèn)過程產(chǎn)生的最小失真D(i)與該匹配失真D(Xsr;λUBM)的差值進(jìn)行確認(rèn)決策。首先計(jì)算背景模型的失真D(Xsr;λUBM)和辨認(rèn)過程產(chǎn)生的最小失真D(i)的差值,如果該差值小于0,則認(rèn)為冒認(rèn)者,身份驗(yàn)證失敗;否則,通過不同的安全設(shè)置,對說話人進(jìn)行進(jìn)一步的確認(rèn); 如果安全級別處于低級,則認(rèn)為待識別說話人為集合內(nèi)參考說話人,身份驗(yàn)證成功,但不更新參考說話人確認(rèn)閾值,否則認(rèn)為冒認(rèn)者,身份驗(yàn)證失敗; 如果安全級別處于中級,將上述差值與參考說話人i的確認(rèn)閾值DT(i)進(jìn)行比較,如果差值大于DT(i),則認(rèn)為待識別說話人為集合內(nèi)參考說話人,身份驗(yàn)證成功,并更新參考說話人確認(rèn)閾值 DT_new(i)=(1-pp)*DT(i)+pp*差值;其中pp在
分別與語音信號采集單元[102]、數(shù)據(jù)存儲單元[103]、人機(jī)接口單元[104]、通信接口單元[106]連接,電源管理模塊[105]與語音信號處理單元連接,人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。
上述系統(tǒng)以語音信號處理單元[101]為核心,控制語音信號采集單元[102]、系統(tǒng)數(shù)據(jù)存儲單元[103]、人機(jī)接口單元[104]和通信接口單元[106]完成相應(yīng)的功能。
本發(fā)明的優(yōu)點(diǎn)在于,采用基于模糊核矢量量化的開集說話人識別方法對說話人的語音模型進(jìn)行訓(xùn)練和識別,包括語音信號的預(yù)處理和特征提取、基于模糊核矢量量化的參考說話人語音模型的訓(xùn)練、基于模糊核矢量量化的最近近鄰分類器的開集模式匹配方法。在語音信號的預(yù)處理和特征提取階段,對由AD采樣得到的短時幀采樣信號進(jìn)行處理,保證系統(tǒng)的實(shí)時性要求。增加了語音信號的小數(shù)據(jù)、尖峰及飽和處理,并采用循環(huán)維納濾波的擴(kuò)展譜相減的語音增強(qiáng)算法,提高輸入語音的質(zhì)量。參考說話人語音模型的訓(xùn)練不僅形成參考說話人的語音模型,同時在訓(xùn)練識別過程對形成的語音模型進(jìn)行可靠性判斷,并對產(chǎn)生可靠語音模型的參考說話人產(chǎn)生說話人確認(rèn)的初始閾值,提高了模型產(chǎn)生的可靠性。開集模式匹配采用先辨認(rèn)后確認(rèn)的模式匹配方法,利用模糊核矢量量化的最近近鄰分類器完成說話人的辨認(rèn),利用辨認(rèn)過程產(chǎn)生的最小失真與待識別語音參數(shù)與背景模型的匹配失真值的差值,根據(jù)不同安全設(shè)置,對說話人的確認(rèn)采用不同的判決決策,使系統(tǒng)能夠適應(yīng)不同的應(yīng)用場合,同時提高了系統(tǒng)的安全性能。設(shè)計(jì)嵌入式系統(tǒng)對上述開集說話人識別方法進(jìn)行嵌入式實(shí)現(xiàn),該系統(tǒng)具有實(shí)時性高、識別性能好、低功耗、低成本、便攜、通用性強(qiáng)等特點(diǎn)。
圖1是開集說話人識別方法框圖。
圖2是本發(fā)明的語音信號的預(yù)處理和特征提取流程圖。
圖3是本發(fā)明的小數(shù)據(jù)、尖峰干擾及飽和處理流程圖。
圖4是本發(fā)明參考說話人語音模型的訓(xùn)練流程圖。
圖5是開集說話人識別模式匹配框圖。
圖6是基于嵌入式的開集說話人識別系統(tǒng)結(jié)構(gòu)示意圖。
圖7是本發(fā)明的用戶操作界面。
圖8a是本發(fā)明的存儲單元硬件系統(tǒng)邏輯圖。
圖8b是本發(fā)明的AD芯片AIC23與DSPVC5416接口框圖。
圖8c是本發(fā)明的AIC23的電路連接原理圖。
圖8d鍵盤顯示擴(kuò)展芯片HD7279A與DSPVC5416接口框圖。
圖8e是本發(fā)明的鍵盤電路原理圖. 圖8f是本發(fā)明的指示模塊電路示意圖。
具體實(shí)施方案 實(shí)施例1基于嵌入式的開集說話人識別方法 一、語音信號的預(yù)處理和特征提取 首先都要將采集到的語音信號進(jìn)行預(yù)處理和特征提取,得到說話人的語音特征參數(shù)。
語音信號的預(yù)處理和特征提取處理的對象是一幀由AD采樣得到的短時幀語音信號,為了保證實(shí)時性,需要在下一幀語音信號的采樣結(jié)束之前完成前一幀信號的預(yù)處理和特征提??;語音信號的預(yù)處理和特征提取過程如圖2所示,語音信號的預(yù)處理主要包括語音信號的小數(shù)據(jù)、尖峰及飽和處理、加窗、頻域上的語音增強(qiáng)、端點(diǎn)檢測。
為了防止采樣過程中存在的尖峰干擾及過小的采樣數(shù)據(jù),在進(jìn)行加窗之前,首先對輸入的語音信號進(jìn)行前端處理,刪除小數(shù)據(jù)、尖峰干擾及飽和幀,具體過程如圖3所示。當(dāng)采集一幀語音信號以后,計(jì)算該幀語音信號幅度絕對值的均值和最大值,首先將均值與設(shè)定閾值比較來判斷小數(shù)據(jù)幀,如果均值小于設(shè)定閾值1,則認(rèn)為該幀信號為小數(shù)據(jù)幀,舍去,返回等待處理下一幀采樣信號。否則,接著判斷是否存在尖峰信號,如果最大值與均值的比值大于設(shè)定閾值2,則認(rèn)為該幀采樣信號存在尖峰信號,舍去,返回等待處理下一幀采樣信號。否則,判斷該幀中飽和的點(diǎn)數(shù)與該幀信號點(diǎn)數(shù)的比值是否大于閾值3,如果大于則認(rèn)為該幀飽和點(diǎn)數(shù)太多,舍去,返回等待處理下一幀采樣信號。否則,對語音信號后序的進(jìn)行預(yù)處理。
在對語音信號進(jìn)行小數(shù)據(jù)、尖峰及飽和處理后,采用漢明窗對語音信號進(jìn)行加窗。利用循環(huán)維納濾波的擴(kuò)展譜相減法對加窗后的語音信號進(jìn)行頻域上的語音增強(qiáng),去除語音信號中的噪聲干擾。對加窗后的語音信號進(jìn)行頻域上的語音增強(qiáng),去除語音信號中的噪聲干擾。具體過程如下。
1)計(jì)算背景噪聲幅度譜的初始平滑估計(jì)值|N0(ejw)|。
這里假設(shè)帶噪語音前N_noise幀為純噪聲信號,則可以利用其幅度的統(tǒng)計(jì)平均來估計(jì)|NN_noise(ejw)|,其遞推公式為 n=1,...,N_noise 其中|N′n(ejw)|2為背景噪聲的第n次統(tǒng)計(jì)估計(jì)值,|N′0(ejw)|2=0。|Xn(ejw)|2為第n個噪聲幀的功率譜。得到初始值|N0(ejw)|=|N′N_noise(ejw)|。
2)利用幅度譜相減法計(jì)算語音信號的幅度譜初始平滑估計(jì)|S0(ejw)|; |S0(ejw)|=||XN_noise(ejw)|-|N0(ejw)|| 其中|XN_noise(ejw)|為第N_noise幀噪聲的幅度譜。
3)令幀變量n=1; 4)計(jì)算第n+N_noise幀的維納濾波器的傳遞函數(shù) 5)對帶噪語音信號幅度譜進(jìn)行濾波,得到當(dāng)前幀背景噪聲幅度譜的估計(jì)值
6)計(jì)算增強(qiáng)后信號的幅度譜
7)利用當(dāng)前幀噪聲幅度譜估計(jì)
對背景噪聲的平滑估計(jì)值|Nn(ejw)|進(jìn)行更新。
其中p為比例因子,它與時間常數(shù)τ之間滿足 8)計(jì)算信號幅度譜的平滑估計(jì)|Sn(ejw)|; |Sn(ejw)|=||Xn(ejw)|-|Nn(ejw)|| 9)幀變量n=n+1;如果n>總幀數(shù)N,則結(jié)束,得到增強(qiáng)后的語音幅度譜的估計(jì)值
作為輸出;否則到步驟3)繼續(xù)執(zhí)行; 在對語音信號進(jìn)行增強(qiáng)以后,采用平均分段信噪比的方法對語音信號進(jìn)行端點(diǎn)檢測。計(jì)算增強(qiáng)后語音的幀平均分段信噪比fn 其中p為信號幅度譜的長度。如果fn大于閾值,則認(rèn)為是該幀信號是語音幀,需要進(jìn)行特征提取,否則,認(rèn)為該幀信號是非語音幀,等待處理下一短時幀采樣信號。
對語音幀信號進(jìn)行特征提取,提取19維Mel倒譜系數(shù)及其19維一階動態(tài)參數(shù)、16維線性預(yù)測倒譜系數(shù)、韻律特征的靜態(tài)和一階動態(tài)參數(shù),共56維特征參數(shù)組合作為說話人語音的特征參數(shù)。
二、參考說話人語音模型的訓(xùn)練 參考說話人輸入訓(xùn)練語音經(jīng)采樣、預(yù)處理和特征提取后,得到參考說話人訓(xùn)練的語音特征參數(shù)X,將X分為兩部分X={Xtr,Xsrt},一部分用于參考說話人語音模型的形成,定義為訓(xùn)練模型參數(shù)Xtr,另一部分用于訓(xùn)練識別過程,定義為訓(xùn)練識別參數(shù)Xsrt。因此,參考說話人語音模型的訓(xùn)練包括兩個部分,參考說話人語音模型的形成和參考說話人的訓(xùn)練識別過程。具體過程如圖4所示。
1.參考說話人語音模型的形成 采用基于模糊核矢量量化的說話人識別算法對參考說話人的語音模型進(jìn)行訓(xùn)練。模糊核矢量量化器將原始空間通過非線性映射到高維特征空間,利用模糊核聚類算法設(shè)計(jì)矢量量化器,在高維特征空間中對參考說話人的訓(xùn)練語音特征進(jìn)行模糊聚類分析,并將得到的每個類中心{vi},i=1,...,c(這里c為聚類數(shù)),作為參考說話人的語音模型,即第q個參考說話人的模型可以表示為λ(q)={vi},i=1,...,c,從而完成了第q個參考說話人語音模型的訓(xùn)練。
令Xtr={x1,x2,...xN}為訓(xùn)練特征參數(shù),包含N個特征參數(shù),xk是其中的一個特征參數(shù)矢量,其維數(shù)為d維。第q個參考說話人語音模型訓(xùn)練的具體實(shí)現(xiàn)過程如下。
6)確定聚類數(shù)c、迭代終止條件ε∈(0,1)、迭代次數(shù)T,模糊加權(quán)指數(shù)m∈[1,2.5]; 7)采用分裂法初始化類中心vi,i=1,2,...,c; 8)更新隸屬度函數(shù)
i=1,..,c;k=1,...,N; 這里 其中K(xk,xl)、K(xj,xk)、K(xk,xk)均表示兩個向量之間核函數(shù)。采用高斯核函數(shù)保證樣本的線性可分性,設(shè)兩個矢量x,y之間的核函數(shù)為 其中σ為高斯核函數(shù)的寬度,通常取3~7。
9)若或迭代次數(shù)等于預(yù)定迭代次數(shù)T,則算法繼續(xù),否則轉(zhuǎn)到步驟3)。
10)計(jì)算類中心
i=1,...c,并將聚類中心組成第q個說話人的語音模型,迭代結(jié)束。
i=1,...,c i=1,...,c 2.參考說話人的訓(xùn)練識別過程 下面以第q個參考說話人為例,介紹一下參考說話人的訓(xùn)練識別過程。
使用核函數(shù)將第q個參考說話人訓(xùn)練識別的特征參數(shù)Xsrt={x1,x2,...xM}(M為特征參數(shù)的個數(shù))映射到高維特征空間,在高維特征空間中,分別計(jì)算訓(xùn)練識別參數(shù)Xsrt與第q個參考說話人模型λ(q)以及背景模型λUBM的匹配失真值D(Xsrt;λ(q))和D(Xsrt;λUBM)。如果D(Xsrt;λ(q))>D(Xsrt;λUBM),則認(rèn)為第q個參考說話人訓(xùn)練語音前后不一致,可能存在干擾或沒有輸入完全的情況,該參考說話人需要重新進(jìn)行訓(xùn)練。否則,根據(jù)兩個失真的差值確定第q個參考說話人確認(rèn)的初始閾值。其中特征參數(shù)與模型之間的匹配失真值為 這里,背景模型是描述與說話人無關(guān)的語音模型,采用大量的語音數(shù)據(jù),利用模糊核矢量量化器訓(xùn)練得到的λUBM={vi},i=1,...,c。背景模型需要事先存儲在程序存儲器中,作為已知數(shù)據(jù)直接使用。
在參考說話人語音模型形成之后,判斷參考說話人語音模型是否可靠,如果可靠,則產(chǎn)生參考說話人確認(rèn)的初始閾值,并對參考說話人語音模型和確認(rèn)的初始閾值進(jìn)行存儲,否則,需要用戶重新完成模型的訓(xùn)練過程。對于參考說話人數(shù)為Q的開集說話人識別系統(tǒng),要完成Q個參考說話人的訓(xùn)練,需要重復(fù)Q參考說話人語音模型的訓(xùn)練。
三、開集模式匹配 對于開集的說話人識別系統(tǒng)而言,用戶存在不屬于集合內(nèi)參考說話人的情況,因此對于一個開集說話人識別的模式匹配過程需要先進(jìn)行說話人辨認(rèn),然后進(jìn)行說話人確認(rèn)。開集模式匹配框圖如圖5所示。
在開集識別階段,待識別用戶輸入識別語音經(jīng)采樣、預(yù)處理和特征提取后,得到待識別用戶語音特征參數(shù)Xsr,首先利用Xsr和參考說話人的語音模型進(jìn)行辨認(rèn),找到與待識別語音最匹配的參考說話人i,作為辨認(rèn)的結(jié)果,然后利用參考說話人i的確認(rèn)閾值,對待識別語音進(jìn)行說話人確認(rèn),得到最后的識別結(jié)果。
1.說話人辨認(rèn) 采用模糊核矢量量化的最近近鄰分類器完成說話人的辨認(rèn)。利用每個參考說話人的語音模型在特征空間中依次對待識別用戶語音特征參數(shù)Xsr進(jìn)行量化,并計(jì)算每個參考說話人語音模型量化時產(chǎn)生的量化失真D(q),q=1,..,Q,其中Q為參考說話人的個數(shù)。對于說話人辨認(rèn)而言,使用最近近鄰分類器選擇最小D(q)的參考說話人語音模型所對應(yīng)的參考說話人作為的辨認(rèn)結(jié)果。
如果參考說話人i產(chǎn)生的量化誤差D(i)最小,則辨認(rèn)結(jié)果result=i。
2.說話人確認(rèn) 計(jì)算待識別語音特征參數(shù)Xsr與背景模型λUBM的匹配失真值D(Xsr;λUBM),如果辨認(rèn)結(jié)果result=i,則利用辨認(rèn)過程產(chǎn)生的最小失真D(i)與該匹配失真D(Xsr;λUBM)的差值進(jìn)行確認(rèn)決策。首先計(jì)算背景模型的失真D(Xsr;λUBM)和辨認(rèn)過程產(chǎn)生的最小失真D(i)的差值,如果該差值小于0,則認(rèn)為冒認(rèn)者,身份驗(yàn)證失敗。否則,通過不同的安全設(shè)置,對說話人進(jìn)行進(jìn)一步的確認(rèn)。
如果安全級別處于低級,則認(rèn)為待識別說話人為集合內(nèi)參考說話人,身份驗(yàn)證成功,但不更新參考說話人確認(rèn)閾值,否則認(rèn)為冒認(rèn)者,身份驗(yàn)證失敗。
如果安全級別處于中級,將上述差值與參考說話人i的確認(rèn)閾值DT(i)進(jìn)行比較,如果差值大于DT(i),則認(rèn)為待識別說話人為集合內(nèi)參考說話人,身份驗(yàn)證成功,并更新參考說話人確認(rèn)閾值 DT_new(i)=(1-pp)*DT(i)+pp*差值;其中pp在
分別與語音信號采集單元[102]、數(shù)據(jù)存儲單元[103]、人機(jī)接口單元[104]、通信接口單元106]連接,電源管理模塊[105]與語音信號處理單元連接,人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。上述系統(tǒng)以語音信號處理單元[101]為核心,控制語音信號采集單元[102]、系統(tǒng)數(shù)據(jù)存儲單元[103]、人機(jī)接口單元[104]和通信接口單元[106]完成相應(yīng)的功能。
語音信號處理單元[101]采用TI公司54X系列的增強(qiáng)型數(shù)字信號處理器(DSPDigital Signal Processor)TMS320VC5416完成語音信號的預(yù)處理、說話人語音個性特征的提取、說話人聲紋識別建模、相似度匹配等系統(tǒng)所需的運(yùn)算,同時還作為核心微處理芯片對外圍芯片進(jìn)行接口控制操作。
TMS320VC5416(以下簡稱VC5416)是為實(shí)現(xiàn)低功耗、高性能而專門設(shè)計(jì)的定點(diǎn)DSP芯片,也是TI公司TMS320VC54x系列DSP中性價(jià)比最高的一款芯片。
語音采集單元[102]由麥克和可編程增益、采樣率調(diào)節(jié)A/D轉(zhuǎn)換器組成,由DSP控制完成語音信號的增益控制和數(shù)字化處理。DSP采用DMA方式對由麥克輸入的語音進(jìn)行采樣,在采樣的同時可以對采集的前一幀語音信號進(jìn)行預(yù)處理和特征提取,預(yù)處理的時間小于一幀語音信號的采樣時間,因此保證了系統(tǒng)的實(shí)時性。
數(shù)據(jù)存儲單元[103]使用FLASH存儲器實(shí)現(xiàn)DSP程序代碼以及用戶語音模型信息的永久存儲,并構(gòu)建基于FLASH的DSP脫機(jī)獨(dú)立運(yùn)行系統(tǒng)。當(dāng)用戶進(jìn)行訓(xùn)練、刪除、識別操作后,系統(tǒng)自動完成用戶信息的在線實(shí)時更新。
人機(jī)接口單元[104]由狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊組成。其中狀態(tài)指示模塊、鍵盤模塊和顯示模塊都由鍵盤顯示擴(kuò)展芯片控制。系統(tǒng)的指示模塊,由三個指示燈和一個蜂鳴器組成,指示系統(tǒng)當(dāng)前的狀態(tài)并提示用戶進(jìn)行相應(yīng)的操作。系統(tǒng)的鍵盤模塊由數(shù)字按鍵及功能按鍵組成,其中數(shù)字按鍵包括0-9的10個數(shù)字,功能鍵包括訓(xùn)練、識別、刪除、取消、確認(rèn)、安全鍵等。顯示模塊可以由LED數(shù)碼管或LCD顯示器構(gòu)成,系統(tǒng)的用戶操作界面如圖7所示。
啟動模塊包括總電源開關(guān)和呼吸模式開關(guān),系統(tǒng)采用電池供電,由電源管理模塊[105]進(jìn)行電壓轉(zhuǎn)換,整個嵌入式系統(tǒng)的上電都由總電源開關(guān)控制。呼吸模式開關(guān)采用紅外掃描的方式,實(shí)現(xiàn)系統(tǒng)的休眠與啟動。當(dāng)用戶到來時,紅外掃描電路觸發(fā),系統(tǒng)啟動開始進(jìn)行語音的錄入。這樣不但降低了本發(fā)明的功耗,而且使本發(fā)明不需要長期處于連續(xù)工作狀態(tài),延長了系統(tǒng)電池的使用壽命。
通信接口單元[106]采用有線或無線兩種模式和上位機(jī)進(jìn)行通信,二者可自動切換。
本發(fā)明采用四種方式對系統(tǒng)進(jìn)行低功耗設(shè)計(jì)。
(1)低電壓供電的CMOS器件。包括低電壓供電的DSP芯片、存儲單元Flash、用于邏輯控制的CPLD、以及語音采集轉(zhuǎn)換芯片; (2)分時/分區(qū)供電技術(shù)。利用電源開關(guān)對電源進(jìn)行分割,從而控制系統(tǒng)的各個部分,使系統(tǒng)在休眠或掉電工作時關(guān)掉外圍電路的電源,僅僅保留DSP的電源; (3)DSP的節(jié)電模式。在系統(tǒng)無人操作時,令DSP進(jìn)入空閑方式,使DSP處于休眠狀態(tài); (4)多種工作頻率在線變換技術(shù)。動態(tài)改變DSP的工作時鐘,在等待中斷還有非語音處理等DSP相對空閑階段,降低DSP系統(tǒng)的工作時鐘,當(dāng)需要DSP進(jìn)行高速運(yùn)算時,再提高DSP系統(tǒng)的工作時鐘。
一個完整的訓(xùn)練過程。
(1)啟動電源總開關(guān); (2)通過用戶界面操作,按“訓(xùn)練”鍵,然后按數(shù)字鍵選擇用戶ID號碼,按“確認(rèn)”鍵,進(jìn)入訓(xùn)練狀態(tài)。黃燈亮,用戶對著MIC輸入訓(xùn)練語音,直至黃燈滅為止。用戶輸入的訓(xùn)練語音應(yīng)為3~4字的短語或詞組,如“請開門”,“我回來了”等,輸入語音約為3秒。如果用戶按下“訓(xùn)練”鍵后20秒之內(nèi)沒有操作,則自動取消訓(xùn)練操作,關(guān)閉電源。
(3)用戶等待系統(tǒng)運(yùn)算。對訓(xùn)練語音數(shù)據(jù)進(jìn)行特征參數(shù)提取,并分成訓(xùn)練模型參數(shù)和訓(xùn)練識別參數(shù)。
(4)利用訓(xùn)練模型參數(shù)產(chǎn)生用戶語音模型。利用訓(xùn)練識別參數(shù)判斷用戶是否訓(xùn)練成功。
(5)如果蜂鳴器“嘀”的一聲綠燈亮,說明訓(xùn)練成功,產(chǎn)生說話人確認(rèn)的初始閾值,并將說話人的語音模型和初始閾值存儲到Flash存儲器中。否則“嘀、嘀、嘀”三聲紅燈亮,說明訓(xùn)練失敗,用戶需返回步驟1重新訓(xùn)練。
一個完整的識別過程包括 (1)啟動呼吸模式開關(guān),使系統(tǒng)由休眠狀態(tài)進(jìn)入識別狀態(tài); (2)黃燈亮,用戶對著MIC輸入識別語音,直至黃燈熄滅為止,識別語音約為1秒。
(3)用戶等待系統(tǒng)運(yùn)算。
(4)如果蜂鳴器“嘀”的一聲,同時綠燈亮,則用戶身份得到驗(yàn)證,顯示模塊顯示用戶對應(yīng)的ID號碼;否則“嘀、嘀、嘀”三聲,紅燈亮,身份驗(yàn)證失敗,顯示模塊顯示與其最相近用戶的ID號碼。
權(quán)利要求
1.一種基于嵌入式的開集說話人識別方法,其特征在于包括下列步驟
一、語音信號的預(yù)處理和特征提取
首先都要將采集到的語音信號進(jìn)行預(yù)處理和特征提取,得到說話人的語音特征參數(shù);
語音信號的預(yù)處理和特征提取處理的對象是一幀AD采樣得到的短時幀信號,為了保證實(shí)時性,需要在下一幀語音信號的采樣結(jié)束之前完成前一幀信號的預(yù)處理和特征提?。徽Z音信號的預(yù)處理主要包括語音信號的小數(shù)據(jù)、尖峰及飽和處理、加窗、頻域上的語音增強(qiáng)、端點(diǎn)檢測;
為了防止采樣過程中存在的尖峰干擾及過小的采樣數(shù)據(jù),在進(jìn)行加窗之前,首先對輸入的語音信號進(jìn)行前端處理,刪除小數(shù)據(jù)、尖峰干擾及飽和幀,具體過程是當(dāng)采集一幀語音信號以后,計(jì)算該幀語音信號幅度絕對值的均值和最大值,首先將均值與設(shè)定閾值比較來判斷小數(shù)據(jù)幀,如果均值小于設(shè)定閾值1,則認(rèn)為該幀信號為小數(shù)據(jù)幀,舍去,返回等待處理下一幀采樣信號;否則,接著判斷是否存在尖峰信號,如果最大值與均值的比值大于設(shè)定閾值2,則認(rèn)為該幀采樣信號存在尖峰信號,舍去,返回等待處理下一幀采樣信號;否則,判斷該幀中飽和的點(diǎn)數(shù)與該幀信號點(diǎn)數(shù)的比值是否大于閾值3,如果大于則認(rèn)為該幀飽和點(diǎn)數(shù)太多,舍去,返回等待處理下一幀采樣信號;否則,對語音信號后序的進(jìn)行預(yù)處理; 在對語音信號進(jìn)行小數(shù)據(jù)、尖峰及飽和處理后,采用漢明窗對語音信號進(jìn)行加窗;利用循環(huán)維納濾波的擴(kuò)展譜相減法對加窗后的語音信號進(jìn)行頻域上的語音增強(qiáng),去除語音信號中的噪聲干擾。具體過程如下;
1)計(jì)算背景噪聲幅度譜的初始平滑估計(jì)值|N0(ejw)|;
這里假設(shè)帶噪語音前N_noise幀為純噪聲信號,則可以利用其幅度的統(tǒng)計(jì)平均來估計(jì)|NN_noise(ejw)|,其遞推公式為
其中|N′n(ejw)|2為背景噪聲的第n次統(tǒng)計(jì)估計(jì)值,|N′0(ejw)|2=0;|Xn(ejw)|2為第n個噪聲幀的功率譜;得到初始值|N0(ejw)|=|N′N_noise(ejw)|;
2)利用幅度譜相減法計(jì)算語音信號的幅度譜初始平滑估計(jì)|S0(ejw)|;
|S0(ejw)|=‖XN_noise(ejw)|-|N0(ejw)‖
其中|XN_noise(ejw)|為第N_noise幀噪聲的幅度譜。
3)令幀變量n=1;
4)計(jì)算第n+N_noise幀的維納濾波器的傳遞函數(shù)
5)對帶噪語音信號幅度譜進(jìn)行濾波,得到當(dāng)前幀背景噪聲幅度譜的估計(jì)值
6)計(jì)算增強(qiáng)后信號的幅度譜
7)利用當(dāng)前幀噪聲幅度譜估計(jì)
對背景噪聲的平滑估計(jì)值|Nn(ejw)|進(jìn)行更新;
其中p為比例因子,它與時間常數(shù)τ之間滿足
8)計(jì)算信號幅度譜的平滑估計(jì)|Sn(ejw)|;
|Sn(ejw)|=‖Xn(ejw)|-|Nn(ejw)‖
9)幀變量n=n+1;如果n>總幀數(shù)N,則結(jié)束,得到增強(qiáng)后的語音幅度譜的估計(jì)值
作為輸出;否則到步驟3)繼續(xù)執(zhí)行;
在對語音信號進(jìn)行增強(qiáng)以后,采用平均分段信噪比的方法對語音信號進(jìn)行端點(diǎn)檢測。計(jì)算增強(qiáng)后語音的幀平均分段信噪比fn
其中p為信號幅度譜的長度。如果fn大于閾值,則認(rèn)為是該幀信號是語音幀,需要進(jìn)行特征提取,否則,認(rèn)為該幀信號是非語音幀,等待處理下一短時幀采樣信號;
對語音幀信號進(jìn)行特征提取,提取19維Mel倒譜系數(shù)及其19維一階動態(tài)參數(shù)、16維線性預(yù)測倒譜系數(shù)、韻律特征的靜態(tài)和一階動態(tài)參數(shù),共56維特征參數(shù)組合作為說話人語音的特征參數(shù);
二、參考說話人語音模型的訓(xùn)練
參考說話人輸入訓(xùn)練語音經(jīng)采樣、預(yù)處理和特征提取后,得到參考說話人訓(xùn)練的語音特征參數(shù)X,將X分為兩部分X={Xtr,Xsrt},一部分用于參考說話人語音模型的形成,定義為訓(xùn)練模型參數(shù)Xtr,另一部分用于訓(xùn)練識別過程,定義為訓(xùn)練識別參數(shù)Xsrt;因此,參考說話人語音模型的訓(xùn)練包括兩個部分,參考說話人語音模型的形成和參考說話人的訓(xùn)練識別過程;具體過程如下
(1).參考說話人語音模型的形成
采用基于模糊核矢量量化的說話人識別算法對參考說話人的語音模型進(jìn)行訓(xùn)練。模糊核矢量量化器將原始空間通過非線性映射到高維特征空間,利用模糊核聚類算法設(shè)計(jì)矢量量化器,在高維特征空間中對參考說話人的訓(xùn)練語音特征進(jìn)行模糊聚類分析,并將得到的每個類中心{vi},i=1,...,c(這里c為聚類數(shù)),作為參考說話人的語音模型,即第q個參考說話人的模型可以表示為λ(q)={vi},i=1,...,c,從而完成了第q個參考說話人語音模型的訓(xùn)練;
令Xtr={x1,x2,...xN}為訓(xùn)練特征參數(shù),包含N個特征參數(shù),xk是其中的一個特征參數(shù)矢量,其維數(shù)為d維。第q個參考說話人語音模型訓(xùn)練的具體實(shí)現(xiàn)過程如下
1)確定聚類數(shù)c、迭代終止條件ε∈(0,1)、迭代次數(shù)T,模糊加權(quán)指數(shù)m∈[1,2.5];
2)采用分裂法初始化類中心vi,i=1,2,...,c;
3)更新隸屬度函數(shù)
i=1,...,c;k=1,..,N;
這里
其中K(xk,xl)、K(xj,xk)、K(xk,xk)均表示兩個向量之間核函數(shù);采用高斯核函數(shù)保證樣本的線性可分性,設(shè)兩個矢量x,y之間的核函數(shù)為
其中σ為高斯核函數(shù)的寬度,通常取3~7;
4)若
或迭代次數(shù)等于預(yù)定迭代次數(shù)T,則算法繼續(xù),否則轉(zhuǎn)到步驟3);
5)計(jì)算類中心
i=1,...c,并將聚類中心組成第q個說話人的語音模型,迭代結(jié)束;
(2).參考說話人的訓(xùn)練識別過程使用核函數(shù)將第q個參考說話人訓(xùn)練識別的特征參數(shù)Xsrt={x1,x2,...XM}(M為特征參數(shù)的個數(shù))映射到高維特征空間,在高維特征空間中,分別計(jì)算訓(xùn)練識別參數(shù)Xsrt與第q個參考說話人模型λ(q)以及背景模型λUBM的匹配失真值D(Xsrt;λ(q))和D(Xsrt;λUBM);如果D(Xsrt;λ(q))>D(Xsrt;λUBM),則認(rèn)為第q個參考說話人訓(xùn)練語音前后不一致,可能存在干擾或沒有輸入完全的情況,該參考說話人需要重新進(jìn)行訓(xùn)練。否則,根據(jù)兩個失真的差值確定第q個參考說話人確認(rèn)的初始閾值;其中特征參數(shù)與模型之間的匹配失真值為
這里,背景模型是描述與說話人無關(guān)的語音模型,采用大量的語音數(shù)據(jù),利用模糊核矢量量化器訓(xùn)練得到的λUBM={vi},i=1,...,c;背景模型需要事先存儲在程序存儲器中,作為已知數(shù)據(jù)直接使用;
在參考說話人語音模型形成之后,判斷參考說話人語音模型是否可靠,如果可靠,則產(chǎn)生參考說話人確認(rèn)的初始閾值,并對參考說話人語音模型和確認(rèn)的初始閾值進(jìn)行存儲,否則,需要用戶重新完成模型的訓(xùn)練過程;對于參考說話人數(shù)為Q的開集說話人識別系統(tǒng),要完成Q個參考說話人的訓(xùn)練,需要重復(fù)Q參考說話人語音模型的訓(xùn)練;
三、開集模式匹配
對于開集的說話人識別系統(tǒng)而言,用戶存在不屬于集合內(nèi)參考說話人的情況,因此對于一個開集說話人識別的模式匹配過程需要先進(jìn)行說話人辨認(rèn),然后進(jìn)行說話人確認(rèn);
在開集識別階段,待識別用戶輸入識別語音經(jīng)采樣、預(yù)處理和特征提取后,得到待識別用戶語音特征參數(shù)Xsr,首先利用Xsr和參考說話人的語音模型進(jìn)行辨認(rèn),找到與待識別語音最匹配的參考說話人i,作為辨認(rèn)的結(jié)果,然后利用參考說話人i的確認(rèn)閾值,對待識別語音進(jìn)行說話人確認(rèn),得到最后的識別結(jié)果;
(1).說話人辨認(rèn)
采用模糊核矢量量化的最近近鄰分類器完成說話人的辨認(rèn);利用每個參考說話人的語音模型在特征空間中依次對待識別用戶語音特征參數(shù)Xsr進(jìn)行量化,并計(jì)算每個參考說話人語音模型量化時產(chǎn)生的量化失真D(q),q=1,..,Q,其中Q為參考說話人的個數(shù)。對于說話人辨認(rèn)而言,使用最近近鄰分類器選擇最小D(q)的參考說話人語音模型所對應(yīng)的參考說話人作為的辨認(rèn)結(jié)果;
如果參考說話人i產(chǎn)生的量化誤差D(i)最小,則辨認(rèn)結(jié)果result=i;
2.說話人確認(rèn)
計(jì)算待識別語音特征參數(shù)Xsr與背景模型λUBM的匹配失真值D(Xsr;λUBM),如果辨認(rèn)結(jié)果result=i,則利用辨認(rèn)過程產(chǎn)生的最小失真D(i)與該匹配失真D(Xsr;λUBM)的差值進(jìn)行確認(rèn)決策;首先計(jì)算背景模型的失真D(Xsr;λUBM)和辨認(rèn)過程產(chǎn)生的最小失真D(i)的差值,如果該差值小于0,則認(rèn)為冒認(rèn)者,身份驗(yàn)證失?。环駝t,通過不同的安全設(shè)置,對說話人進(jìn)行進(jìn)一步的確認(rèn);
如果安全級別處于低級,則認(rèn)為待識別說話人為集合內(nèi)參考說話人,身份驗(yàn)證成功,但不更新參考說話人確認(rèn)閾值,否則認(rèn)為冒認(rèn)者,身份驗(yàn)證失?。?br>
如果安全級別處于中級,將上述差值與參考說話人i的確認(rèn)閾值DT(i)進(jìn)行比較,如果差值大于DT(i),則認(rèn)為待識別說話人為集合內(nèi)參考說話人,身份驗(yàn)證成功,并更新參考說話人確認(rèn)閾值
DT_new(i)=(1-pp)*DT(i)+pp*差值;其中pp在
分別與語音信號采集單元[102]、數(shù)據(jù)存儲單元[103]、人機(jī)接口單元[104]、通信接口單元106]連接,電源管理模塊[105]與語音信號處理單元連接,人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。
全文摘要
本發(fā)明涉及一種基于嵌入式的開集說話人識別方法及其系統(tǒng),涉及語音信號處理領(lǐng)域的說話人識別。包括下列步驟一、語音信號的預(yù)處理和特征提取,二、參考說話人語音模型的訓(xùn)練,三、開集模式匹配,識別系統(tǒng)包括語音信號處理單元分別與語音信號采集單元、數(shù)據(jù)存儲單元、人機(jī)接口單元、通信接口單元連接,電源管理模塊與語音信號處理單元連接,人機(jī)接口單元包括狀態(tài)指示模塊、鍵盤模塊、顯示模塊、啟動模塊。本發(fā)明的優(yōu)點(diǎn)在于能夠適應(yīng)不同的應(yīng)用場合,同時提高了系統(tǒng)的安全性能。設(shè)計(jì)嵌入式系統(tǒng)對上述開集說話人識別方法進(jìn)行嵌入式實(shí)現(xiàn),該系統(tǒng)具有實(shí)時性高、識別性能好、低功耗、低成本、便攜、通用性強(qiáng)等特點(diǎn)。
文檔編號G10L17/00GK101770774SQ200910218160
公開日2010年7月7日 申請日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者林琳, 孫曉穎, 陳建, 燕學(xué)智, 胡封曄, 溫泉, 王波, 魏小麗 申請人:吉林大學(xué)