專利名稱:一種基于語音辨識的移動終端的身份驗證方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種身份驗證的方法,具體涉及一種基于語音辨識的移動終端的身份驗 證方法。
背景技術(shù):
手機(以及其他的移動終端設(shè)備)作為無線移動通信終端設(shè)備已經(jīng)成為人們?nèi)粘9?作、學(xué)習(xí)和生活的重要組成部分,語音通話、短信、彩信、彩鈴等基本手機功能已經(jīng)得 到了相當(dāng)廣泛的推廣和使用。隨著手機功能的逐漸強大和完善,目前基于有線網(wǎng)絡(luò)的很 多應(yīng)用將逐漸的過渡到無線網(wǎng)絡(luò),中、高檔手機將提供針對移動商務(wù)的各種服務(wù),為移 動通信帶來新的更大的需求,同時也給手機的身份驗證等安全性能提出了更高的要求。 在商務(wù)活動中,必然要進行身份識別與驗證,由于有意或者無心造成的手機身份錯認(rèn)產(chǎn) 生的經(jīng)濟糾紛,必須盡可能的避免,為用戶提供一個安全便捷的移動交易環(huán)境。而現(xiàn)有 手機開發(fā)技術(shù)中,正缺乏能夠進行身份有效識別的手段和方法。中國科學(xué)院聲學(xué)研究所和北京中科信利技術(shù)有限公司在公開號為CN1455389的專 利(專利號為02148684.0)公開了一種語音識別系統(tǒng)及用于語音識別系統(tǒng)的特征矢量集的 壓縮方法,該種用于語音識別系統(tǒng)的特征矢量集的壓縮方法,在對語音特征矢量集聚 類得到碼本的過程中,增加了根據(jù)子集合中矢量數(shù)及矢量的總距離度量來動態(tài)合并和分 裂子集合的步驟,減小了聚類后集合中矢量與其對應(yīng)的碼字的距離度量總和,提高了聚 類算法的精度,將本發(fā)明方法壓縮后的碼本應(yīng)用于語音識別系統(tǒng)中,可在保證語音系統(tǒng) 識別性能的同時,大大降低了系統(tǒng)的存儲量,本發(fā)明還公開一種語音識別系統(tǒng),用特征 碼本和概率表代替聲學(xué)模型,在解碼的過程中不需要計算高斯概率,只須從預(yù)先存儲的概率表中査找出所需的概率值,大大減少了解碼運算量,因而可極大地提高系統(tǒng)的識別 速度。其缺陷在于數(shù)據(jù)運算量仍然過大,而且識別過程仍然較為復(fù)雜,這樣,如需在 類似于手機這種硬件資源不夠豐富的電子終端上應(yīng)用這種識別方法,依然比較困難。 綜合上述,基于語音辨識的移動終端的身份驗證方法尚需要進一步改進。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種基于語音辨識的移動終端的身份驗證的方 法,用以在通過移動終端進行商務(wù)活動之前實現(xiàn)對手機用戶的身份識別與管理,并且該方法可靠性好,且容易實施。本發(fā)明解決上述技術(shù)問題所采用的技術(shù)方案為一種基于語音辨識的移動終端的身 份驗證方法,其特征在于步驟依次為(1) 獲取作為模板的參考音頻樣本,并將該參考音頻樣本進行音頻參數(shù)化,生成 參考矢量樹,生成參考柱狀圖;(2) 獲取當(dāng)前的音頻樣本,并將該音頻樣本進行音頻參數(shù)化,生成當(dāng)前矢量樹,生成當(dāng)前柱狀圖;(3) 模板對比根據(jù)距離計算方法計算參考柱狀圖和當(dāng)前柱狀圖的距離;(4) 根據(jù)所得距離并且與預(yù)先設(shè)定的閾值進行比較取得最后的判斷結(jié)論,如通過 論證,使移動終端啟動服務(wù)程序,沒有通過論證,則退出返回,終止服務(wù)程序;(5) 結(jié)束。所述的音頻參數(shù)化其步驟依次為(1)音頻加權(quán)平均窗口化,將一系列連續(xù)的音頻數(shù)據(jù)分成若干小段;(2)梅爾比例化過程,對于每一個窗口,通過離散傅立葉變換DFT 計算能量譜,該頻譜系數(shù)是由一個頻率刻度的非線性圖來加權(quán)的;(3)通過另一個離散 傅立葉變換DFT把加權(quán)的梅爾頻譜轉(zhuǎn)換成對數(shù)倒頻譜系數(shù),將所述音頻轉(zhuǎn)化成多維的 特征矢量。所述的生成柱狀圖的方法為通過統(tǒng)計所有被量化類數(shù)據(jù)的葉子的概率來獲取類屬 性,并依據(jù)每一片葉子包含特征矢量數(shù)目的概率生成柱狀圖。所述的作為模板的參考音頻樣本通過一個或多個樣本的訓(xùn)練來獲得參考音頻的矢 量樹和柱狀圖,對于多個樣本的情況,具體方法在于通過多個樣本的融合,從而合成一 個新的模板樣本,使身份認(rèn)證更加準(zhǔn)確。所述的音頻參數(shù)化采用n+l維的特征矢量,即n維的MFCC加上能量,且n為10 20之間的整數(shù),包括端點,便于計算和儲存。所述的距離計算是采用歐幾里得距離計算方法或者是采用余弦距離計算方法來計 算兩個樣本柱狀圖的距離。所述的音頻樣本獲取界面在移動終端上,并利用移動終端內(nèi)已有的錄音功能錄下語 音文件,減少了手機端開發(fā)的工作。所述的語音文件通過移動終端的彩信功能將其發(fā)送到遠(yuǎn)端語音辨識服務(wù)器,進行處 理和對比,對比結(jié)果返回到移動終端,這樣僅需要在手機上增加一個語音錄入的界面即 可以實現(xiàn)手機端語音的輸入輸出,充分利用服務(wù)器處理速度快、儲存量大優(yōu)勢,降低對 移動終端硬件上的要求與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于該方法步驟簡單,數(shù)據(jù)運箅量小,易于實現(xiàn),且可靠性高。另外,還可以考慮引入在遠(yuǎn)端語音辨識服務(wù)器具有的高效語音辨識軟件的 協(xié)助,實現(xiàn)一個在手機上可以使用的基于語音辨識的身份驗證系統(tǒng);通過利用手機內(nèi)已 有的錄音、彩信功能,僅需要在手機上增加一個語音錄入的界面即可以實現(xiàn)手機端語音 的輸入輸出,減少了手機端開發(fā)的工作;僅需要用戶在中、高檔手機上安裝語音辨識系 統(tǒng)輸入界面與驗證返回輸出結(jié)果界面,以及一個語音錄入功能選擇鍵,根據(jù)人的音頻特 征進行身份驗證,可靠性高;本方法實施簡單容易,只要在現(xiàn)有的移動終端中集成一段 語音識別程序即可,并且通過本地或遠(yuǎn)程的識別來決定實現(xiàn)身份驗證。
圖1:本發(fā)明的流程圖;圖2為音頻矢量樹的結(jié)構(gòu)示意圖;圖3為與音頻矢量樹對應(yīng)的柱狀圖示意圖;圖4為音頻參數(shù)化和矢量樹的邏輯關(guān)系示意圖。
具體實施方式
以下結(jié)合附圖實施例對本發(fā)明作進一步詳細(xì)描述。將該語音辨識方法做成一個軟件模塊并內(nèi)置于移動終端(如手機,以下以手機為例 來說明),以下為該移動終端基于語音辨識的身份驗證的過程具體步驟如下-(l)連接和待機步驟開機后,手機通過無線通信單元和網(wǎng)絡(luò)連接單元,連接移動 網(wǎng)絡(luò)運營商或者服務(wù)商的服務(wù)器,開通彩信服務(wù)。如果連接全部成功,即到下一步,網(wǎng) 絡(luò)未覆蓋或者沒有開通彩信服務(wù)等情況,出現(xiàn)了部分或者全部不成功,則顯示單元將給 出提示和報錯信息。(2) 讀取步驟手機身份識別機器在"待機狀態(tài)"下進入語音錄入界面,讀取用戶 輸入的系統(tǒng)保護密碼(一段音頻,比如用戶說"進入系統(tǒng)")。手機將獲取的音頻轉(zhuǎn)化為 語音文件,并將其發(fā)送到遠(yuǎn)端語音辨識服務(wù)器,由于目前手機的數(shù)字處理能力較弱,因 此才將具體的語音辨識工作放在遠(yuǎn)端的服務(wù)器,隨著手機的功能不斷增強,以至可以在本地完成類似的工作,則在本地完成更為方便,即可以免去通過彩信發(fā)送語音數(shù)據(jù)的步 驟。(3) 比較步驟語音辨識服務(wù)器上的聲音辨識系統(tǒng)軟件根據(jù)事先輸入的用戶系統(tǒng)語 音口令與當(dāng)前得到的用戶口令進行矢量樹特征抽取、對比分析,如果在置信區(qū)間內(nèi)則表 明通過驗證,并進入下一步,否則退出程序。(4)確認(rèn)步驟手機身份語音辨識系統(tǒng)通過輸出顯示模塊顯示用戶信息以及所選的 服務(wù)類別,讓用戶確認(rèn),如果用戶再次認(rèn)可,手機語音辨識身份認(rèn)證將啟動移動商務(wù)模 塊,如果用戶不如認(rèn)可,則中止服務(wù)并退出相關(guān)程序。下面詳細(xì)地給出該基于語音辨識的身份驗證方法的每個流程 1音頻參數(shù)化獲取一個采樣頻率為16KHZ的音頻文件,并將該音頻文件參數(shù)化成梅爾倒頻譜參 數(shù)(MFCC)加上一個能量期。因此,該音頻文件(波形)就被轉(zhuǎn)化成一系列13維的特 征矢量,即12維的MFCC加上能量,此處可以選擇一系列n+l維的特征矢量,n—般 10 20之間的整數(shù),包括端點。該參數(shù)化對于語音識別和說話者身份識別是很高效的。音頻參數(shù)化的步驟(1) 首先,音頻在重疊步驟中是加權(quán)平均窗口化,將一系列連續(xù)的音頻數(shù)據(jù)分成 若千小段。每一個窗口是25mS寬的且是重疊的,每一秒內(nèi)有500個窗口以及特征矢量。(2) 然后,對于每一個窗口,通過離散傅立葉變換(DFT)計算能量譜。該頻譜 系數(shù)是由一個頻率刻度的非線性圖來加權(quán)的,這個過程叫做梅爾比例化。(3) 最后是進一步通過另一個離散傅立葉變換(DFT)把加權(quán)的梅爾頻譜轉(zhuǎn)換成 對數(shù)倒頻譜系數(shù)。因此,該采樣頻率為16KHz的音頻波形,在500Hz的速度下就被轉(zhuǎn) 化成13維的特征矢量。2生成矢量樹矢量樹的結(jié)構(gòu)如圖2所示。圖中的方塊代表子節(jié)點,從它引出的分枝叫做矢量樹的 葉子,用圓圈標(biāo)識。每個葉子代表一個特征量,矢量樹的層次和葉子的個數(shù)決定了對比 中可用的特征量的多少。在生成矢量樹步驟中,涉及到2棵樹, 一棵是作為對比模板的參考矢量樹簡稱參考 樹, 一棵為當(dāng)前音頻采樣樣本所對應(yīng)的當(dāng)前矢量樹,簡稱為當(dāng)前樹。對于參考樹的獲得,可以是經(jīng)過一個或多個樣本訓(xùn)練來得到。特征矢量的集合為樹,每一個特征矢量對應(yīng)樹中的一片葉子,樹只是特征矢量的空 間組織形式,實際上,計算機比較的是多個葉子或多個特征矢量組成的字符串。一個樹型結(jié)構(gòu)的量化器是距離測量方法的關(guān)鍵。 一旦數(shù)據(jù)被參數(shù)化,量化樹就會通 過盡可能多的訓(xùn)練數(shù)據(jù)發(fā)展成離散狀態(tài)。這樣的樹就是矢量量化器;判別性訓(xùn)練確保了 它能利用不同的標(biāo)志位把特征矢量從不同的類中區(qū)別出來。基于樹的量化器是被監(jiān)測的,也就是說與普通的最小失真矢量量化器相比,矢量空 間會被離散為更多的區(qū)域。被監(jiān)測的訓(xùn)練就意味著在忽略其他可變性后,量化器能得到 不同類樣本之間的鑒定性區(qū)別。例如,在說話者識別方面,當(dāng)忽略了巨大的但是不重要 的口頭音子(例如元音和摩擦音)之間的可變性時,該系統(tǒng)就能區(qū)分出說話者之間微小 的嗓音的區(qū)別。經(jīng)過論證,與許多其他的方法相比,該樹型結(jié)構(gòu)能更好的處理維度的問題,這是因 為每一個節(jié)點只考慮一維。與其他的必須計算所有維數(shù)的方法對比,對類的辨別沒有影 響的維數(shù)在本樹型結(jié)構(gòu)中是可以忽略的。3生成柱狀圖樹把特征空間劃分成若干個非重疊區(qū)域或者單元,每一個相當(dāng)于樹的一片葉子。通 過用一個特殊的類給每一片葉子加上標(biāo)注,該樹能被當(dāng)作分類器。這樣的分類器并不健 全,正如一般的類都會重疊,所以一片典型的葉子會包含許多不同類的數(shù)據(jù)。獲取類屬 性的最好的辦法就是觀察所有被量化類數(shù)據(jù)的葉子的概率。200毫秒的數(shù)據(jù)會產(chǎn)生100 個特征矢量(忽略窗口效應(yīng)),因而就有IOO個不同的葉子標(biāo)注。如果用一個柱狀圖來描 述葉子的概率,也就是說如果100個未知的矢量中有14個被分類屬于葉子j,則葉子j 在柱狀圖中的箱柱(概率值)就是(U4。該柱狀圖可以獲得基本的類屬性,起到了一個 參考模板的作用。依據(jù)每一片葉子包含特征矢量數(shù)目的概率生成柱狀圖,該柱狀圖在實際應(yīng)用中作為 參考模板,即基于該模板,通過計算"距離"來獲得相似度。 柱狀圖的示意圖如圖3。 4柱狀圖距離計算和比較參考音頻楱板對應(yīng)第一棵樹,具有對應(yīng)的柱狀圖;當(dāng)前音頻采樣對應(yīng)第二棵樹,也具有對應(yīng)的柱狀圖;通過計算2個柱狀圖的距離來 比較柱狀圖的相似度。樹型量化器是特別實用的,它可以依賴數(shù)據(jù)數(shù)目來改變大小。每一片葉子都有一個 柱狀圖中的箱柱與之相對應(yīng),因此樹的大小會直接決定柱狀圖模板的大小。如果數(shù)據(jù)很 少,柱狀圖中許多箱柱都為O,該圖的效果并不好。修剪樹會導(dǎo)致柱狀圖中箱柱減少, 而該箱柱可以更好的特征化數(shù)據(jù)。按照這種方式,可以通過調(diào)整自由參數(shù)的數(shù)目來滿足 實際需要。一旦模板(本段中的"模板"指上述的矢量樹和柱狀圖)用在不同音頻源的計算, 測量模板之間的相似性就能成為聲學(xué)相似性的度量。盡管很難選擇一個合適的距離測量 方法來比較模板,但是實際上一些簡單的方法能起到很好的作用。目前已經(jīng)有多種距離測量方法用于實踐,下面介紹兩種方法 (1)歐幾里得距離<formula>formula see original document page 7</formula> (i)以上公式中的p (i)對應(yīng)當(dāng)前的采樣樣本柱形圖的具體值,q (i)對應(yīng)參考音頻樣 本的柱形圖的具體值。這種方法把柱狀圖看成是N維空間的矢量,并計算他們之間的距 離值(即上式中等號左邊的計算結(jié)果)。該方法已經(jīng)成功的運用在語音身份識別方面。本發(fā)明主要采用這種距離測量方法。 (2)余弦距離<formula>formula see original document page 8</formula> (2)公式中的p (i)、 q (i)的含義同上,這種方法也是把柱狀圖看成是N維空間的矢 量,并計算他們之間角度的余弦值。這種方法對于矢量的相對大小不夠靈敏, 一般更多 的運用在測量文本文檔相似性方面。最后根據(jù)計算得到的距離值與預(yù)先設(shè)定的可信值進行比較,當(dāng)小于可信值時,可以 認(rèn)為當(dāng)前采樣的語音與參考模板的語音相同,否則認(rèn)為不相同,并由此決定是否通過系 統(tǒng)驗證。其中閾值的選擇需要考慮具體情況。過大或過小的值都不利于得到滿意的結(jié)果。
權(quán)利要求
1. 一種基于語音辨識的移動終端的身份驗證方法,其特征在于步驟依次為(1)獲取作為模板的參考音頻樣本,并將該參考音頻樣本進行音頻參數(shù)化,生成參考矢量樹,生成參考柱狀圖;(2)獲取當(dāng)前的音頻樣本,并將該音頻樣本進行音頻參數(shù)化,生成當(dāng)前矢量樹,生成當(dāng)前柱狀圖;(3)模板對比根據(jù)距離計算方法計算參考柱狀圖和當(dāng)前柱狀圖的距離;(4)根據(jù)所得距離并且與預(yù)先設(shè)定的閾值進行比較取得最后的判斷結(jié)論;(5)結(jié)束。
2、 根據(jù)權(quán)利要求1所述的身份驗證方法,其特征在于所述的音頻參數(shù)化其步驟依 次為(1)音頻加權(quán)平均窗口化,將一系列連續(xù)的音頻數(shù)據(jù)分成若干小段;(2) 梅爾比例化過程,對于每一個窗口,通過離散傅立葉變換DFT計算能量譜, 該頻譜系數(shù)是由一個頻率刻度的非線性圖來加權(quán)的;(3) 通過另一個離散傅立葉變換DFT把加權(quán)的梅爾頻譜轉(zhuǎn)換成對數(shù)倒頻譜系數(shù), 將所述音頻轉(zhuǎn)化成多維的特征矢量。
3、 根據(jù)權(quán)利要求1或2所述的身份驗證方法,其特征在于所述的生成柱狀圖的方 法通過統(tǒng)計所有被量化類數(shù)據(jù)的葉子的概率來獲取類屬性,并依據(jù)每一片葉子包含特 征矢量數(shù)目的概率生成柱狀圖。
4、 根據(jù)權(quán)利要求3所述的身份驗證方法,其特征在于所述的作為模板的參考音頻 樣本通過多個樣本的訓(xùn)練來獲得參考音頻的矢量樹和柱狀圖,具體方法在于通過多個樣 本的融合,從而合成一個新的模板樣本。
5、 根據(jù)權(quán)利要求4所述的身份驗證方法,其特征在于所述的音頻參數(shù)化采用n+l 維的特征矢量,就是n維MFCC加上能量,n為10 20之間的整數(shù),包括端點。
6、 根據(jù)權(quán)利要求5所述的身份驗證方法,其特征在于所述的距離計算方法是采用 歐幾里得距離計算方法或者是采用余弦距離計算方法來計算所述的柱狀圖的距離。
7、 根據(jù)權(quán)利要求6所述的身份驗證方法,其特征在于所述的音頻樣本獲取界面在 移動終端上,并利用移動終端內(nèi)己有的錄音功能錄下語音文件。
8、 根據(jù)權(quán)利要求7所述的身份驗證方法,其特征在于所述的語音文件通過移動終 端的彩信功能將其發(fā)送到遠(yuǎn)端語音辨識服務(wù)器,進行處理和對比,對比結(jié)果返回到移動 終端。
全文摘要
一種基于語音辨識的移動終端的身份驗證方法,其特征在于其步驟依次為(1)獲取作為模板的參考音頻樣本,并將該參考音頻樣本進行音頻參數(shù)化,生成作為參考矢量樹,生成參考柱狀圖;(2)獲取當(dāng)前的音頻樣本,并將該音頻樣本進行音頻參數(shù)化,生成當(dāng)前矢量樹,生成當(dāng)前柱狀圖;(3)模板對比根據(jù)距離計算方法計算參考柱狀圖和當(dāng)前柱狀圖的距離;(4)根據(jù)所得距離并且與預(yù)先設(shè)定的閾值進行比較取得最后的判斷結(jié)論;(5)結(jié)束。該方法根據(jù)人的音頻特征進行身份驗證,可靠性高而其實施簡單便利。
文檔編號H04Q7/32GK101222703SQ20071006668
公開日2008年7月16日 申請日期2007年1月12日 優(yōu)先權(quán)日2007年1月12日
發(fā)明者嚴(yán)佳琦, 吳亦平, 王世杰, 全 薛 申請人:杭州波導(dǎo)軟件有限公司