一種雙模語音身份識(shí)別方法

文檔序號(hào)：2825494閱讀：426來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種雙模語音身份識(shí)別方法
【專利摘要】本發(fā)明公開了一種雙模語音身份識(shí)別方法，應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識(shí)別系統(tǒng)，所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫，將密碼識(shí)別和聲紋識(shí)別集成到一個(gè)身份識(shí)別系統(tǒng)。本發(fā)明的技術(shù)效果：本發(fā)明提出基于孤立詞識(shí)別即密碼識(shí)別和說話人識(shí)別即聲紋識(shí)別的雙模語音身份鑒別方法，在不大量增加計(jì)算量的前提下，大大提高了以單一說話人聲紋特征識(shí)別的鑒別系統(tǒng)的穩(wěn)定性，增加了這類系統(tǒng)的實(shí)用價(jià)值，提高了識(shí)別系統(tǒng)安全性。通過雙重判定，能夠在一定程度上克服由于模仿導(dǎo)致的說話人識(shí)別系統(tǒng)誤判的缺點(diǎn)，又能克服單一語音密碼鑒別系統(tǒng)密碼容易泄露的缺點(diǎn)。
【專利說明】一種雙模語音身份識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識(shí)別技術(shù)，具體涉及一種雙模語音身份識(shí)別方法。
【背景技術(shù)】 [0002]說話人識(shí)別是指使用機(jī)器算法從一段語音信號(hào)提取獨(dú)特的特征信息，由此識(shí)別出說話人的身份。該技術(shù)主要用于基于語音的身份確認(rèn)、語音偵聽、法庭證物鑒定等。說話人識(shí)別的方法主要包括矢量量化(VQ)、支持向量機(jī)(SVM)、高斯混合模型(GMM)等。其中，VQ及其改進(jìn)算法較為簡(jiǎn)單，且性能表現(xiàn)良好，在說話人識(shí)別中一直廣泛應(yīng)用。
[0003]目前，基于說話人識(shí)別的身份確認(rèn)技術(shù)已經(jīng)開始運(yùn)用到智能門禁系統(tǒng)中來。但是，由于語音信號(hào)的不確定性以及人聲的可模仿性，單純基于說話人特征的識(shí)別系統(tǒng)很難在實(shí)際的應(yīng)用中保持良好的魯棒性。

【發(fā)明內(nèi)容】

[0004]考慮到孤立詞識(shí)別在對(duì)單詞和短語識(shí)別上出色的性能，本發(fā)明提供了一種以單詞或者短語為語音密碼，將其識(shí)別作為身份識(shí)別系統(tǒng)的判別元素之一，然后結(jié)合說話人聲紋特征進(jìn)行身份權(quán)限判定。
[0005]本發(fā)明解決上述技術(shù)問題的方案是:一種雙模語音身份識(shí)別方法，應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識(shí)別系統(tǒng)，所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫，包括如下步驟:
步驟1，用戶對(duì)聲音采集裝置說出輸入語音，采集裝置采集該輸入語音；
步驟2，密碼識(shí)別，采集裝置將采集的輸入語音輸入信息處理裝置，所述的信息處理裝置將所述輸入語音與語音密碼特征庫進(jìn)行模板匹配，計(jì)算得到匹配距離；
步驟3，聲紋識(shí)別，所述的信息處理裝置將所述的輸入語音進(jìn)行聲紋特征提取，并對(duì)提取的聲紋特征與聲紋特征庫進(jìn)行歐式距離計(jì)算；
步驟4，將密碼識(shí)別和聲紋識(shí)別所得的結(jié)果結(jié)合，如果密碼識(shí)別和聲紋識(shí)別的結(jié)果一致，則判定說話者身份確認(rèn)有效；否則，認(rèn)為身份鑒別失敗。
[0006]本發(fā)明還包括以下改進(jìn)方案:
所述的語音密碼特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號(hào)，所述錄入的語音信號(hào)由信息處理裝置進(jìn)行預(yù)處理并提取語音密碼特征，對(duì)符合要求的語音密碼特征保存至語音密碼特征庫。
[0007]所述的聲紋特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號(hào)，所述錄入的語音信號(hào)由信息處理裝置進(jìn)行預(yù)處理并提取聲紋特征，對(duì)提取的聲紋特征進(jìn)行LBG算法進(jìn)行矢量量化，量化后的聲紋特征即為用戶碼本，所述碼本保持至聲紋特征庫。
[0008]所述的預(yù)處理包括對(duì)語音信號(hào)進(jìn)行預(yù)加重處理，所述的預(yù)加重的形式如下:

Jr(Jl) — xQl} -12x(Jc—IX Ar —
所述的β力預(yù)加重系數(shù)，取值為0.90-0.98。[0009]所述的預(yù)加重處理由一階零點(diǎn)數(shù)字濾波器實(shí)現(xiàn)，所述濾波器頻域?qū)?yīng)的形式是
Jff(Z)=I 瓜1。
[0010]所述的預(yù)處理還包括對(duì)預(yù)加重后的語音信號(hào)進(jìn)行分幀加窗處理，所述的分幀加窗處理包括將預(yù)加重后的語音信號(hào)分成每幀10-30ms短時(shí)語音信號(hào)，并對(duì)每幀語音信號(hào)加上hamming 窗。
[0011]所述的預(yù)處理還包括對(duì)分幀后的語音進(jìn)行端點(diǎn)檢測(cè)，所述端點(diǎn)檢測(cè)完成后對(duì)語音信號(hào)進(jìn)行MFCC特征提取，生產(chǎn)語音密碼特征庫。
[0012]所述的預(yù)處理依次包括預(yù)加重、分幀加窗和端點(diǎn)檢測(cè)。
[0013]本發(fā)明的技術(shù)效果:
本發(fā)明提出基于孤立詞識(shí)別即密碼識(shí)別和說話人識(shí)別即聲紋識(shí)別的雙模語音身份鑒別方法，在不大量增加計(jì)算量的前提下，大大提高了以單一說話人聲紋特征識(shí)別的鑒別系統(tǒng)的穩(wěn)定性，增加了這類系統(tǒng)的實(shí)用價(jià)值，提高了識(shí)別系統(tǒng)安全性。通過雙重判定，能夠在一定程度上克服由于模仿導(dǎo)致的說話人識(shí)別系統(tǒng)誤判的缺點(diǎn)，又能克服單一語音密碼鑒別系統(tǒng)密碼容易泄露的缺點(diǎn)。
[0014]
【專利附圖】

【附圖說明】
[0015]圖1本發(fā)明的總流程圖。
[0016]圖2孤立詞識(shí)別流程框圖。
[0017]圖3說話人識(shí)別流程框圖。
【具體實(shí)施方式】
[0018]本發(fā)明公開了一種雙模語音身份識(shí)別方法，應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識(shí)別系統(tǒng)，所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫，將密碼識(shí)別和聲紋識(shí)別集成到一個(gè)身份識(shí)別系統(tǒng)，提高了以單一說話人聲紋特征識(shí)別的鑒別系統(tǒng)的穩(wěn)定性，增加了這類系統(tǒng)的實(shí)用價(jià)值，提高了識(shí)別系統(tǒng)安全性。
[0019]請(qǐng)參閱圖1為本發(fā)的總流程圖。
[0020]步驟101，用戶對(duì)聲音采集裝置說出輸入語音，采集裝置采集該輸入語音；
步驟102，信息處理裝置對(duì)輸入語音進(jìn)行信號(hào)的預(yù)處理；
步驟103，對(duì)預(yù)處理完成后的信號(hào)進(jìn)行端點(diǎn)檢測(cè)；
步驟104，進(jìn)一步的對(duì)信號(hào)進(jìn)行特征提取，所述的特征包括密碼特征和聲紋特征；
步驟105A，所述的信息處理裝置將所述處理后的輸入語音的密碼特征與語音密碼特征庫進(jìn)行模板匹配，計(jì)算得到匹配距離；
步驟105B，所述的信息處理裝置將所述處理后的輸入語音的聲紋特征與聲紋特征庫進(jìn)行歐式距離計(jì)算；
步驟106，將密碼識(shí)別和聲紋識(shí)別所得的結(jié)果結(jié)合，如果密碼識(shí)別和聲紋識(shí)別的結(jié)果一致，則判定說話者身份確認(rèn)有效；否則，認(rèn)為身份鑒別失敗。
[0021]所述的預(yù)處理還包括對(duì)預(yù)加重后的語音信號(hào)進(jìn)行分幀加窗處理，所述的分幀加窗處理包括將預(yù)加重后的語音信號(hào)分成每幀10-30ms短時(shí)語音信號(hào)，并對(duì)每幀語音信號(hào)加上hamming窗。所述的預(yù)處理包括對(duì)語音信號(hào)進(jìn)行預(yù)加重處理，所述的預(yù)加重的形式如下:
【權(quán)利要求】
1.一種雙模語音身份識(shí)別方法，應(yīng)用于包括聲音采集裝置和信息處理裝置的身份識(shí)別系統(tǒng)，所述的系統(tǒng)還包括語音密碼特征庫和聲紋特征庫，其特征在于，包括如下步驟: 步驟1，用戶對(duì)聲音采集裝置說出輸入語音，采集裝置采集該輸入語音；步驟2，密碼識(shí)別，采集裝置將采集的輸入語音輸入信息處理裝置，所述的信息處理裝置將所述輸入語音與語音密碼特征庫進(jìn)行模板匹配，計(jì)算得到匹配距離；步驟3，聲紋識(shí)別，所述的信息處理裝置將所述的輸入語音進(jìn)行聲紋特征提取，并對(duì)提取的聲紋特征與聲紋特征庫進(jìn)行歐式距離計(jì)算；步驟4，將密碼識(shí)別和聲紋識(shí)別所得的結(jié)果結(jié)合，如果密碼識(shí)別和聲紋識(shí)別的結(jié)果一致，則判定說話者身份確認(rèn)有效；否則，認(rèn)為身份鑒別失敗。
2.根據(jù)權(quán)利要求1所述的一種雙模語音身份識(shí)別方法，其特征在于，所述的語音密碼特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號(hào)，所述錄入的語音信號(hào)由信息處理裝置進(jìn)行預(yù)處理并提取語音密碼特征，對(duì)符合要求的語音密碼特征保存至語音密碼特征庫。
3.根據(jù)權(quán)利要求1所述的一種雙模語音身份識(shí)別方法，其特征在于，所述的聲紋特征由用戶在使用前經(jīng)聲音采集裝置錄入語音信號(hào)，所述錄入的語音信號(hào)由信息處理裝置進(jìn)行預(yù)處理并提取聲紋特征，對(duì)提取的聲紋特征進(jìn)行LBG算法進(jìn)行矢量量化，量化后的聲紋特征即為用戶碼本，所述碼本保持至聲紋特征庫。
4.根據(jù)權(quán)利要求2所述的一種雙模語音身份識(shí)別方法，其特征在于，所述的預(yù)處理包括對(duì)語音信號(hào)進(jìn)行預(yù)加重處理，所述的預(yù)加重的形式如下:
5.根據(jù)權(quán)利要求5所述的一`種雙模語音身份識(shí)別方法，其特征在于，所述的預(yù)加重處理由一階零點(diǎn)數(shù)字濾波器實(shí)現(xiàn)，所述濾波器頻域?qū)?yīng)的形式是方O = ?
6.根據(jù)權(quán)利要求5所述的一種雙模語音身份識(shí)別方法，其特征在于，所述的預(yù)處理還包括對(duì)預(yù)加重后的語音信號(hào)進(jìn)行分幀加窗處理，所述的分幀加窗處理包括將預(yù)加重后的語音信號(hào)分成每幀10-30ms短時(shí)語音信號(hào)，并對(duì)每幀語音信號(hào)加上hamming窗。
7.根據(jù)權(quán)利要求7所述的一種雙模語音身份識(shí)別方法，其特征在于，所述的預(yù)處理還包括對(duì)分幀后的語音進(jìn)行端點(diǎn)檢測(cè)，所述端點(diǎn)檢測(cè)完成后對(duì)語音信號(hào)進(jìn)行MFCC特征提取，生產(chǎn)語音密碼特征庫。
8.根據(jù)權(quán)利要求3所述的一種雙模語音身份識(shí)別方法，其特征在于，所述的預(yù)處理依次包括預(yù)加重、分幀加窗和端點(diǎn)檢測(cè)。
9.根據(jù)權(quán)利要求1所述的一種雙模語音身份識(shí)別方法，其特征在于，所述步驟I還包括對(duì)輸入語音進(jìn)行預(yù)處理、端點(diǎn)檢測(cè)和特征提取。
10.根據(jù)權(quán)利要求9所述的一種雙模語音身份識(shí)別方法，其特征在于，所述的預(yù)處理包括預(yù)加重和分幀加窗。
【文檔編號(hào)】G10L17/02GK103794207SQ201210420105
【公開日】2014年5月14日申請(qǐng)日期:2012年10月29日優(yōu)先權(quán)日:2012年10月29日
【發(fā)明者】曾向陽, 鄧剛, 王志剛申請(qǐng)人:西安遠(yuǎn)聲電子科技有限公司

完整全部詳細(xì)技術(shù)資料下載