音數(shù)據(jù),使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù),并使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型,通過實時獲取時間窗管道中當前用戶的最新語音數(shù)據(jù),并使用最新的語音數(shù)據(jù)生成聲紋模型,保證了聲紋模型對說話人識別的準確性,同時也維持了系統(tǒng)的魯棒性。
【附圖說明】
[0041]圖1是本申請實施例一中的一種聲紋模型自動重建的方法的流程圖;
[0042]圖2是本申請實施例二中的一種聲紋模型自動重建的方法的流程圖;
[0043]圖3是本申請語音數(shù)據(jù)幀端點檢測的示意圖;
[0044]圖4是本申請時變數(shù)據(jù)庫的存儲方式示意圖;
[0045]圖5是本申請語音信號預處理模塊處理語音數(shù)據(jù)的示意圖;
[0046]圖6是本申請時間窗管道中的更新語音數(shù)據(jù)的示意圖;
[0047]圖7是本申請參數(shù)化的語音數(shù)據(jù)幀對應的音素的空間分布信息示意圖;
[0048]圖8是實現(xiàn)本申請聲紋模型自動重建方法的示意圖;
[0049]圖9是本申請實施例三中的一種聲紋模型自動重建裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0050]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0051]參照圖1,示出了本申請一種聲紋模型自動重建的方法,包括:
[0052]步驟101:將語音數(shù)據(jù)以時間點為標簽構(gòu)建時變數(shù)據(jù)庫,其中,所述時變數(shù)據(jù)庫包括:參數(shù)化的語音數(shù)據(jù)、語音數(shù)據(jù)對應的音素、語音數(shù)據(jù)對應的音素的空間分布信息和每個音素對應的語音數(shù)據(jù)幀,其中,語音數(shù)據(jù)對應參數(shù)化的語音數(shù)據(jù)。
[0053]合理的存儲和表示時變的語音數(shù)據(jù)是整個發(fā)明實現(xiàn)的第一步,因此,時變數(shù)據(jù)庫的設計和存儲方法是至關(guān)重要的。由此本申請?zhí)岢鰧⒄Z音數(shù)據(jù)以時間為標簽構(gòu)建用戶的時變數(shù)據(jù)庫。
[0054]步驟102:以時間窗管道為基本單元,按照語音數(shù)據(jù)的時間順序獲取時變數(shù)據(jù)庫中參數(shù)化的語音數(shù)據(jù),其中,所述時間窗管道包括多組語音數(shù)據(jù)。
[0055]時間窗管道是指根據(jù)實際情況設定合理連續(xù)時間長度的數(shù)據(jù)緩沖區(qū),其中的語音數(shù)據(jù)用于聲紋模型訓練,該數(shù)據(jù)緩沖區(qū)稱為時間窗管道。隨著時間的推移,時間窗管道中的語音數(shù)據(jù)同步更新,使得聲紋模型得以重新訓練,從而實現(xiàn)新老聲紋模型的更迭。
[0056]時間窗管道中可容納的語音數(shù)據(jù)的數(shù)據(jù)量10至20段語音數(shù)據(jù),根據(jù)實際情況各段語音數(shù)據(jù)可以是文本相關(guān)的,也可以是文本無關(guān)的。
[0057]根據(jù)語音內(nèi)容,說話人識別可以分為文本相關(guān)(Text-Dependent)和文本無關(guān)(Text-1ndependent)兩種方式。文本相關(guān)的說話人識別要求說話人按規(guī)定的文本內(nèi)容發(fā)音。而文本無關(guān)的說話人識別則不需要事先確定語音內(nèi)容。文本相關(guān)可以直接利用規(guī)定文本中的音節(jié)或者音素等語音信息,通常文本相關(guān)優(yōu)于文本無關(guān)的系統(tǒng),然而,在很多實際應用中無法使用特定的文本,而且人類能夠不依賴說話的內(nèi)容而辨別說話人。
[0058]步驟103:確定獲取的參數(shù)化的語音數(shù)據(jù)對應的音素的空間分布信息,根據(jù)確定的所述音素的空間分布的信息篩選時間窗管道中的語音數(shù)據(jù),獲得篩選后的多組語音數(shù)據(jù)。
[0059]步驟104:使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù)。
[0060]步驟105:使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型。
[0061]使用建立的聲紋模型對用戶進行說話人識別。
[0062]通過本實施例,首先,將語音數(shù)據(jù)以時間點為標簽構(gòu)建時變數(shù)據(jù)庫,使用時變數(shù)據(jù)庫存儲用戶各個時間段的語音數(shù)據(jù),同時將語音數(shù)據(jù)進行語音數(shù)據(jù)幀的參數(shù)化處理,從而大大降低了時變數(shù)據(jù)庫的存儲成本。
[0063]其次,本申請通過以時間窗管道為基本單元,按照語音數(shù)據(jù)的時間順序獲取時變數(shù)據(jù)庫中的參數(shù)化的語音數(shù)據(jù),根據(jù)確定出的參數(shù)化的語音數(shù)據(jù)對應的音素的空間分布信息篩選時間窗管道中的語音數(shù)據(jù),獲得篩選后的多組語音數(shù)據(jù),使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù),并使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型,通過實時獲取時間窗管道中當前用戶的最新語音數(shù)據(jù),并使用最新的語音數(shù)據(jù)生成聲紋模型,保證了聲紋模型對說話人識別的準確性,同時也維持了系統(tǒng)的魯棒性。
[0064]參照圖2,示出了本申請實施例二中的一種聲紋模型自動重建的方法的流程圖。
[0065]步驟201:構(gòu)建時變數(shù)據(jù)庫。
[0066]在時變數(shù)據(jù)庫的構(gòu)建中,單純的存儲語音數(shù)據(jù)文件不僅難以組織而且還占用大量存儲空間,不利于時變數(shù)據(jù)庫的管理維護和持續(xù)性存儲。因此,在時變數(shù)據(jù)庫的前端加入語音信號預處理模塊,語音信號預處理模塊的作用是刪除語音數(shù)據(jù)中的靜音部分語音、消減噪聲影響。
[0067]語音信號預處理模塊對語音數(shù)據(jù)進行端點檢測(Voice Activity Detect1n,VDA),使用基于能量的語音端點檢測方法對語音數(shù)據(jù)進行端點檢測,檢測方法包括:以語音數(shù)據(jù)幀為單位,依次統(tǒng)計每幀語音數(shù)據(jù)幀中各采樣點對應的能量,并將能量低于規(guī)定閾值的語音數(shù)據(jù)刪除,保留能量較高且穩(wěn)定的語音數(shù)據(jù),如圖3所示。
[0068]使用美爾頻域倒譜系數(shù)MFCC將所述語音數(shù)據(jù)按照語音數(shù)據(jù)幀進行參數(shù)化處理,獲取參數(shù)化的語音數(shù)據(jù)。
[0069]參數(shù)化處理過程中,使用公式(1),實現(xiàn)O階MFCC特征到對應一階Delta和二階Delta特征的轉(zhuǎn)換。
[0070]pFrame [i] = (2* (f2 [i] _b2 [i]) + (J^1 [i] Hd1 [i]))/10.(I)
[0071]其中,pFrame[i]表示參數(shù)化的語音數(shù)據(jù)幀,f\[i]、f2[i]分別代表第i幀語音的前面第一幀和前面第二幀的特征值;bi[i]、b2[i]分別代表第i幀語音的后面第一幀和后面第二幀的特征值。二階Delta則可在一階Delta的基礎上通過公式(I)迭代即可求得參數(shù)化的語音數(shù)據(jù),以此獲取語音幀的前后連續(xù)關(guān)系
[0072]使用語音識別器識別語音數(shù)據(jù),獲得語音數(shù)據(jù)對應的音素;
[0073]使用音素匹配器識別語音數(shù)據(jù)幀,獲得語音數(shù)據(jù)幀對應的音素的空間分布信息。
[0074]根據(jù)參數(shù)化的語音數(shù)據(jù)、語音數(shù)據(jù)幀對應的音素的空間分布信息和語音數(shù)據(jù)對應的音素構(gòu)建時變數(shù)據(jù)庫。
[0075]構(gòu)建的時變數(shù)據(jù)庫的存儲方式如圖4所示,其中,語音數(shù)據(jù)與參數(shù)化的語音數(shù)據(jù)具有對應關(guān)系,語音數(shù)據(jù)與語音數(shù)據(jù)的音素也就有對應關(guān)系,通過語音數(shù)據(jù)的關(guān)系可以得到參數(shù)化的語音數(shù)據(jù)與語音數(shù)據(jù)的音素也具有相應的對應關(guān)系,并且每個音素與語音數(shù)據(jù)幀也具有相應的對應關(guān)系。本申請的時變數(shù)據(jù)庫采用樹形的存數(shù)結(jié)構(gòu),便于時變數(shù)據(jù)庫的管理,方便查詢和檢錯。
[0076]基于上述方法,參見圖5示出了實現(xiàn)本方法的應用實例。以一條wav格式IMb大小的語音數(shù)據(jù)為例。首先,對IM語音數(shù)據(jù)進行端點檢測,獲得穩(wěn)定的語音數(shù)據(jù),即600Kb的語音數(shù)據(jù)。其次,語音數(shù)據(jù)以幀為單位,使用美爾頻域倒譜系數(shù)MFCC將語音數(shù)據(jù)按照語音數(shù)據(jù)幀進行參數(shù)化處理,獲取參數(shù)化的