聲紋模型自動重建的方法和裝置的制造方法_2

文檔序號：8300070閱讀：來源：國知局

音數(shù)據(jù)，使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù)，并使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型，通過實時獲取時間窗管道中當前用戶的最新語音數(shù)據(jù)，并使用最新的語音數(shù)據(jù)生成聲紋模型，保證了聲紋模型對說話人識別的準確性，同時也維持了系統(tǒng)的魯棒性。
【附圖說明】
[0041]圖1是本申請實施例一中的一種聲紋模型自動重建的方法的流程圖；
[0042]圖2是本申請實施例二中的一種聲紋模型自動重建的方法的流程圖；
[0043]圖3是本申請語音數(shù)據(jù)幀端點檢測的示意圖；
[0044]圖4是本申請時變數(shù)據(jù)庫的存儲方式示意圖；
[0045]圖5是本申請語音信號預處理模塊處理語音數(shù)據(jù)的示意圖；
[0046]圖6是本申請時間窗管道中的更新語音數(shù)據(jù)的示意圖；
[0047]圖7是本申請參數(shù)化的語音數(shù)據(jù)幀對應的音素的空間分布信息示意圖；
[0048]圖8是實現(xiàn)本申請聲紋模型自動重建方法的示意圖；
[0049]圖9是本申請實施例三中的一種聲紋模型自動重建裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0050]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結(jié)合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0051]參照圖1，示出了本申請一種聲紋模型自動重建的方法，包括:
[0052]步驟101:將語音數(shù)據(jù)以時間點為標簽構(gòu)建時變數(shù)據(jù)庫，其中，所述時變數(shù)據(jù)庫包括:參數(shù)化的語音數(shù)據(jù)、語音數(shù)據(jù)對應的音素、語音數(shù)據(jù)對應的音素的空間分布信息和每個音素對應的語音數(shù)據(jù)幀，其中，語音數(shù)據(jù)對應參數(shù)化的語音數(shù)據(jù)。
[0053]合理的存儲和表示時變的語音數(shù)據(jù)是整個發(fā)明實現(xiàn)的第一步，因此，時變數(shù)據(jù)庫的設計和存儲方法是至關(guān)重要的。由此本申請?zhí)岢鰧⒄Z音數(shù)據(jù)以時間為標簽構(gòu)建用戶的時變數(shù)據(jù)庫。
[0054]步驟102:以時間窗管道為基本單元，按照語音數(shù)據(jù)的時間順序獲取時變數(shù)據(jù)庫中參數(shù)化的語音數(shù)據(jù)，其中，所述時間窗管道包括多組語音數(shù)據(jù)。
[0055]時間窗管道是指根據(jù)實際情況設定合理連續(xù)時間長度的數(shù)據(jù)緩沖區(qū)，其中的語音數(shù)據(jù)用于聲紋模型訓練，該數(shù)據(jù)緩沖區(qū)稱為時間窗管道。隨著時間的推移，時間窗管道中的語音數(shù)據(jù)同步更新，使得聲紋模型得以重新訓練，從而實現(xiàn)新老聲紋模型的更迭。
[0056]時間窗管道中可容納的語音數(shù)據(jù)的數(shù)據(jù)量10至20段語音數(shù)據(jù)，根據(jù)實際情況各段語音數(shù)據(jù)可以是文本相關(guān)的，也可以是文本無關(guān)的。
[0057]根據(jù)語音內(nèi)容，說話人識別可以分為文本相關(guān)(Text-Dependent)和文本無關(guān)(Text-1ndependent)兩種方式。文本相關(guān)的說話人識別要求說話人按規(guī)定的文本內(nèi)容發(fā)音。而文本無關(guān)的說話人識別則不需要事先確定語音內(nèi)容。文本相關(guān)可以直接利用規(guī)定文本中的音節(jié)或者音素等語音信息，通常文本相關(guān)優(yōu)于文本無關(guān)的系統(tǒng)，然而，在很多實際應用中無法使用特定的文本，而且人類能夠不依賴說話的內(nèi)容而辨別說話人。
[0058]步驟103:確定獲取的參數(shù)化的語音數(shù)據(jù)對應的音素的空間分布信息，根據(jù)確定的所述音素的空間分布的信息篩選時間窗管道中的語音數(shù)據(jù)，獲得篩選后的多組語音數(shù)據(jù)。
[0059]步驟104:使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù)。
[0060]步驟105:使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型。
[0061]使用建立的聲紋模型對用戶進行說話人識別。
[0062]通過本實施例，首先，將語音數(shù)據(jù)以時間點為標簽構(gòu)建時變數(shù)據(jù)庫，使用時變數(shù)據(jù)庫存儲用戶各個時間段的語音數(shù)據(jù)，同時將語音數(shù)據(jù)進行語音數(shù)據(jù)幀的參數(shù)化處理，從而大大降低了時變數(shù)據(jù)庫的存儲成本。
[0063]其次，本申請通過以時間窗管道為基本單元，按照語音數(shù)據(jù)的時間順序獲取時變數(shù)據(jù)庫中的參數(shù)化的語音數(shù)據(jù)，根據(jù)確定出的參數(shù)化的語音數(shù)據(jù)對應的音素的空間分布信息篩選時間窗管道中的語音數(shù)據(jù)，獲得篩選后的多組語音數(shù)據(jù)，使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù)，并使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型，通過實時獲取時間窗管道中當前用戶的最新語音數(shù)據(jù)，并使用最新的語音數(shù)據(jù)生成聲紋模型，保證了聲紋模型對說話人識別的準確性，同時也維持了系統(tǒng)的魯棒性。
[0064]參照圖2，示出了本申請實施例二中的一種聲紋模型自動重建的方法的流程圖。
[0065]步驟201:構(gòu)建時變數(shù)據(jù)庫。
[0066]在時變數(shù)據(jù)庫的構(gòu)建中，單純的存儲語音數(shù)據(jù)文件不僅難以組織而且還占用大量存儲空間，不利于時變數(shù)據(jù)庫的管理維護和持續(xù)性存儲。因此，在時變數(shù)據(jù)庫的前端加入語音信號預處理模塊，語音信號預處理模塊的作用是刪除語音數(shù)據(jù)中的靜音部分語音、消減噪聲影響。
[0067]語音信號預處理模塊對語音數(shù)據(jù)進行端點檢測(Voice Activity Detect1n，VDA)，使用基于能量的語音端點檢測方法對語音數(shù)據(jù)進行端點檢測，檢測方法包括:以語音數(shù)據(jù)幀為單位，依次統(tǒng)計每幀語音數(shù)據(jù)幀中各采樣點對應的能量，并將能量低于規(guī)定閾值的語音數(shù)據(jù)刪除，保留能量較高且穩(wěn)定的語音數(shù)據(jù)，如圖3所示。
[0068]使用美爾頻域倒譜系數(shù)MFCC將所述語音數(shù)據(jù)按照語音數(shù)據(jù)幀進行參數(shù)化處理，獲取參數(shù)化的語音數(shù)據(jù)。
[0069]參數(shù)化處理過程中，使用公式(1)，實現(xiàn)O階MFCC特征到對應一階Delta和二階Delta特征的轉(zhuǎn)換。
[0070]pFrame [i] = (2* (f2 [i] _b2 [i]) + (J^1 [i] Hd1 [i]))/10.(I)
[0071]其中，pFrame[i]表示參數(shù)化的語音數(shù)據(jù)幀，f\[i]、f2[i]分別代表第i幀語音的前面第一幀和前面第二幀的特征值；bi[i]、b2[i]分別代表第i幀語音的后面第一幀和后面第二幀的特征值。二階Delta則可在一階Delta的基礎上通過公式(I)迭代即可求得參數(shù)化的語音數(shù)據(jù)，以此獲取語音幀的前后連續(xù)關(guān)系
[0072]使用語音識別器識別語音數(shù)據(jù)，獲得語音數(shù)據(jù)對應的音素；
[0073]使用音素匹配器識別語音數(shù)據(jù)幀，獲得語音數(shù)據(jù)幀對應的音素的空間分布信息。
[0074]根據(jù)參數(shù)化的語音數(shù)據(jù)、語音數(shù)據(jù)幀對應的音素的空間分布信息和語音數(shù)據(jù)對應的音素構(gòu)建時變數(shù)據(jù)庫。
[0075]構(gòu)建的時變數(shù)據(jù)庫的存儲方式如圖4所示，其中，語音數(shù)據(jù)與參數(shù)化的語音數(shù)據(jù)具有對應關(guān)系，語音數(shù)據(jù)與語音數(shù)據(jù)的音素也就有對應關(guān)系，通過語音數(shù)據(jù)的關(guān)系可以得到參數(shù)化的語音數(shù)據(jù)與語音數(shù)據(jù)的音素也具有相應的對應關(guān)系，并且每個音素與語音數(shù)據(jù)幀也具有相應的對應關(guān)系。本申請的時變數(shù)據(jù)庫采用樹形的存數(shù)結(jié)構(gòu)，便于時變數(shù)據(jù)庫的管理，方便查詢和檢錯。
[0076]基于上述方法，參見圖5示出了實現(xiàn)本方法的應用實例。以一條wav格式IMb大小的語音數(shù)據(jù)為例。首先，對IM語音數(shù)據(jù)進行端點檢測，獲得穩(wěn)定的語音數(shù)據(jù)，即600Kb的語音數(shù)據(jù)。其次，語音數(shù)據(jù)以幀為單位，使用美爾頻域倒譜系數(shù)MFCC將語音數(shù)據(jù)按照語音數(shù)據(jù)幀進行參數(shù)化處理，獲取參數(shù)化的

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

聲紋模型相關(guān)技術(shù)

聲紋識別相關(guān)技術(shù)

聲紋相關(guān)技術(shù)

聲紋識別軟件相關(guān)技術(shù)

聲紋識別技術(shù)相關(guān)技術(shù)

聲紋鎖相關(guān)技術(shù)

聲紋鑒定相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲紋模型自動重建的方法和裝置的制造方法_2