聲紋識別方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種聲紋識別方法和裝置。其中,該方法包括:提取待識別聲紋中的第一聲紋特征,其中,第一聲紋特征中至少包括待識別聲紋的小波特征;至少根據(jù)第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算待識別聲紋的識別度;判斷識別度是否大于預(yù)定閾值;若判斷出識別度大于預(yù)定閾值,則識別出待識別聲紋為目標(biāo)聲紋。本發(fā)明解決了由于采用現(xiàn)有的聲紋識別方法所導(dǎo)致的識別不準(zhǔn)確的技術(shù)問題。
【專利說明】聲紋識別方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種聲紋識別方法和裝置。
【背景技術(shù)】
[0002]如今,為了增強(qiáng)對重要信息的安全管理,越來越多的人開始對重要信息使用加密鑒權(quán)處理,比如:指紋識別、面部識別、聲紋識別。其中,聲紋識別(VoiaprintRecognit1n, VPR),也稱為說話人識別(Speaker Recognit1n),包括兩類,分別是說話人辨認(rèn)(Speaker Identificat1n)和說話人確認(rèn)(Speaker Verificat1n)。前者用以判斷某段語音是若干人中的哪一個(gè)所說的,是“多選一”問題;而后者用以確認(rèn)某段語音是否是指定的某個(gè)人所說的,是“一對一判別”問題。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),而銀行交易時(shí)則需要確認(rèn)技術(shù)。
[0003]目前常用的聲紋識別方式中最廣泛使用的特征是梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)、線性預(yù)測倒譜系數(shù)(Linear Predict1nCepstrum Coefficients,LPCC)及其時(shí)差特征。然而,采用上述特征識別聲紋的方式上述還不夠完善,比如同一個(gè)人的聲音易受身體狀況、年齡、情緒等的影響;比如不同的麥克風(fēng)和信道對聲紋識別產(chǎn)生不同的影響;比如環(huán)境噪音對聲紋識別產(chǎn)生干擾;又比如多個(gè)說話人混合說話時(shí)每個(gè)人的聲紋特征不易提取…綜上,現(xiàn)有的聲紋識別方式所得到的識別結(jié)果因容易受到各種因素干擾而造成識別不準(zhǔn)確的問題。進(jìn)一步,對于與文本無關(guān)的聲紋識別,由于所采集的聲紋多樣并不唯一確定,進(jìn)而導(dǎo)致所要建立的識別模型較復(fù)雜,且建立周期較長,從而導(dǎo)致聲紋識別的穩(wěn)定性和識別準(zhǔn)確度也較差。
[0004]針對現(xiàn)有技術(shù)中的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供了一種聲紋識別方法和裝置,以至少解決由于采用現(xiàn)有的聲紋識別方法所導(dǎo)致的識別不準(zhǔn)確的技術(shù)問題。
[0006]根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種聲紋識別方法,包括:提取待識別聲紋中的第一聲紋特征,其中,上述第一聲紋特征中至少包括上述待識別聲紋的小波特征;至少根據(jù)上述第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算上述待識別聲紋的識別度;判斷上述識別度是否大于預(yù)定閾值;若判斷出上述識別度大于上述預(yù)定閾值,則識別出上述待識別聲紋為目標(biāo)聲紋。
[0007]可選地,在上述提取待識別聲紋中的第一聲紋特征之前,還包括:采集上述待識別聲紋;至少根據(jù)上述第一聲紋特征中的第一聲紋特征向量調(diào)整預(yù)先建立的聲紋通用模型中與上述第一聲紋特征向量對應(yīng)的聲紋特征向量參數(shù),以構(gòu)造出與上述待識別聲紋相適應(yīng)的上述聲紋識別模型中的上述第二聲紋特征中的第二聲紋特征向量。
[0008]可選地,上述第一聲紋特征中包括多個(gè)上述第一聲紋特征向量,上述第二聲紋特征中包括多個(gè)上述第二聲紋特征向量,其中,上述至少根據(jù)上述第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算上述待識別聲紋的識別度包括:計(jì)算上述第一聲紋特征中的每個(gè)上述第一聲紋特征向量與上述第二聲紋特征中每個(gè)與上述第一聲紋特征向量相對應(yīng)的上述第二聲紋特征向量的向量距離;根據(jù)計(jì)算得到的多個(gè)上述向量距離計(jì)算上述第一聲紋特征與上述第二聲紋特征的目標(biāo)距離;至少利用上述第一聲紋特征與上述第二聲紋特征的上述目標(biāo)距離計(jì)算上述待識別聲紋的識別度。
[0009]可選地,在采集上述待識別聲紋之前,還包括:采集多個(gè)聲紋并提取上述多個(gè)聲紋中每個(gè)聲紋的第三聲紋特征,以構(gòu)建多個(gè)與上述聲紋相對應(yīng)的背景聲紋模型,其中,上述第三聲紋特征中包括多個(gè)第三聲紋特征向量;根據(jù)上述背景聲紋模型建立上述聲紋通用模型。
[0010]可選地,上述至少利用上述第一聲紋特征與上述第二聲紋特征的距離計(jì)算上述待識別聲紋的識別度包括:計(jì)算上述第一聲紋特征分別與多個(gè)上述背景聲紋模型對應(yīng)的每個(gè)上述聲紋的上述第三聲紋特征的背景距離;根據(jù)多個(gè)上述背景距離計(jì)算距離平均值及距離標(biāo)準(zhǔn)差;計(jì)算上述第一聲紋特征與上述第二聲紋特征的上述目標(biāo)距離與上述距離平均值的差值;計(jì)算上述差值與上述距離標(biāo)準(zhǔn)差的比值,將上述比值作為上述待識別聲紋的上述識別度。
[0011]可選地,上述小波特征包括實(shí)小波特征和/或復(fù)小波特征,其中,上述提取待識別聲紋中的第一聲紋特征包括:檢測上述待識別聲紋中的濁音區(qū)間;在每個(gè)上述濁音區(qū)間中檢測基音區(qū)間,并在每個(gè)上述基音區(qū)間中提取上述聲紋特征的上述實(shí)小波特征和/或上述復(fù)小波特征。
[0012]可選地,上述在每個(gè)上述基音區(qū)間中提取上述聲紋特征的上述實(shí)小波特征和/或上述復(fù)小波特征包括:在每個(gè)上述基音區(qū)間中提取預(yù)定的特征向量,并根據(jù)小波濾波器將多個(gè)上述基音區(qū)間中的上述特征向量劃分為預(yù)定長度的樣本向量,并將上述預(yù)定長度的樣本向量歸一化;對歸一化后的上述預(yù)定長度的樣本向量執(zhí)行以下至少一種小波變換:對歸一化后的上述預(yù)定長度的樣本向量進(jìn)行實(shí)小波變換,以得到第一預(yù)定頻帶的實(shí)部系數(shù),并在上述第一預(yù)定頻帶中選擇滿足第一預(yù)定條件的頻帶進(jìn)行采樣,以得到上述第一聲紋特征中的上述實(shí)小波特征;對歸一化后的上述預(yù)定長度的樣本向量進(jìn)行雙樹復(fù)小波變換,以得到第二預(yù)定頻帶的實(shí)部系數(shù)和虛部系數(shù),并在上述第二預(yù)定頻帶中選擇滿足第二預(yù)定條件的頻帶進(jìn)行采樣,以得到上述第一聲紋特征中的上述復(fù)小波特征。
[0013]可選地,在檢測上述待識別聲紋中的濁音區(qū)間之后,上述提取待識別聲紋中的第一聲紋特征還包括:提取上述待識別聲紋中每一幀的梅爾倒譜系數(shù),以得到上述第一聲紋特征中的上述梅爾倒譜系數(shù)特征;根據(jù)上述梅爾倒譜系數(shù)計(jì)算上述待識別聲紋中每一幀的差分梅爾倒譜系數(shù)特征,以得到上述第一聲紋特征中的上述差分梅爾倒譜系數(shù)特征。
[0014]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種聲紋識別裝置,包括:提取單元,用于提取待識別聲紋中的第一聲紋特征,其中,上述第一聲紋特征中至少包括上述待識別聲紋的小波特征;計(jì)算單元,用于至少根據(jù)上述第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算上述待識別聲紋的識別度;判斷單元,用于判斷上述識別度是否大于預(yù)定閾值;識別單元,用于在判斷出上述識別度大于上述預(yù)定閾值時(shí),識別出上述待識別聲紋為目標(biāo)聲紋。
[0015]可選地,上述裝置還包括:采集單元,用于在上述提取待識別聲紋中的第一聲紋特征之前,采集上述待識別聲紋;調(diào)整單元,用于至少根據(jù)上述第一聲紋特征中的第一聲紋特征向量調(diào)整預(yù)先建立的聲紋通用模型中與上述第一聲紋特征向量對應(yīng)的聲紋特征向量參數(shù),以構(gòu)造出與上述待識別聲紋相適應(yīng)的上述聲紋識別模型中的上述第二聲紋特征中的第二聲紋特征向量。
[0016]可選地,上述第一聲紋特征中包括多個(gè)上述第一聲紋特征向量,上述第二聲紋特征中包括多個(gè)上述第二聲紋特征向量,上述計(jì)算單元包括:第一計(jì)算模塊,用于計(jì)算上述第一聲紋特征中的每個(gè)上述第一聲紋特征向量與上述第二聲紋特征中每個(gè)與上述第一聲紋特征向量相對應(yīng)的上述第二聲紋特征向量的向量距離;第二計(jì)算模塊,用于根據(jù)計(jì)算得到的多個(gè)上述向量距離計(jì)算上述第一聲紋特征與上述第二聲紋特征的目標(biāo)距離;第三計(jì)算模塊,用于至少利用上述第一聲紋特征與上述第二聲紋特征的上述目標(biāo)距離計(jì)算上述待識別聲紋的識別度。
[0017]可選地,上述裝置還包括:采集單元,用于采集多個(gè)聲紋并提取上述多個(gè)聲紋中每個(gè)聲紋的第三聲紋特征,以構(gòu)建多個(gè)與上述聲紋相對應(yīng)的背景聲紋模型,其中,上述第三聲紋特征中包括多個(gè)第三聲紋特征向量;建立單元,用于根據(jù)上述背景聲紋模型建立上述聲紋通用模型。
[0018]可選地,上述第三計(jì)算模塊包括:第一計(jì)算子模塊,用于計(jì)算上述第一聲紋特征分別與多個(gè)上述背景聲紋模型對應(yīng)的每個(gè)上述聲紋的上述第三聲紋特征的背景距離;第二計(jì)算子模塊,用于根據(jù)多個(gè)上述背景距離計(jì)算距離平均值及距離標(biāo)準(zhǔn)差;第三計(jì)算子模塊,用于計(jì)算上述第一聲紋特征與上述第二聲紋特征的上述目標(biāo)距離與上述距離平均值的差值;第四計(jì)算子模塊,用于計(jì)算上述差值與上述距離標(biāo)準(zhǔn)差的比值,將上述比值作為上述待識別聲紋的上述識別度。
[0019]可選地,上述小波特征包括實(shí)小波特征和/或復(fù)小波特征,上述提取單元包括:檢測模塊,用于檢測上述待識別聲紋中的濁音區(qū)間;第一提取模塊,用于在每個(gè)上述濁音區(qū)間中檢測基音區(qū)間,并在每個(gè)上述基音區(qū)間中提取上述聲紋特征的上述實(shí)小波特征和/或上述復(fù)小波特征。
[0020]可選地,上述第一提取模塊包括:第一提取子模塊,用于在每個(gè)上述基音區(qū)間中提取預(yù)定的特征向量,并根據(jù)小波濾波器將多個(gè)上述基音區(qū)間中的上述特征向量劃分為預(yù)定長度的樣本向量,并將上述預(yù)定長度的樣本向量歸一化;變換子模塊,用于對歸一化后的上述預(yù)定長度的樣本向量執(zhí)行以下至少一種小波變換:對歸一化后的上述預(yù)定長度的樣本向量進(jìn)行實(shí)小波變換,以得到第一預(yù)定頻帶的實(shí)部系數(shù),并在上述第一預(yù)定頻帶中選擇滿足第一預(yù)定條件的頻帶進(jìn)行采樣,以得到上述第一聲紋特征中的上述實(shí)小波特征;對歸一化后的上述預(yù)定長度的樣本向量進(jìn)行雙樹復(fù)小波變換,以得到第二預(yù)定頻帶的實(shí)部系數(shù)和虛部系數(shù),并在上述第二預(yù)定頻帶中選擇滿足第二預(yù)定條件的頻帶進(jìn)行采樣,以得到上述第一聲紋特征中的上述復(fù)小波特征。
[0021]可選地,上述提取單元還包括:第二提取模塊,用于在檢測上述待識別聲紋中的濁音區(qū)間之后,提取上述待識別聲紋中每一幀的梅爾倒譜系數(shù),以得到上述第一聲紋特征中的上述梅爾倒譜系數(shù)特征;第三計(jì)算模塊,用于根據(jù)上述梅爾倒譜系數(shù)計(jì)算上述待識別聲紋中每一幀的差分梅爾倒譜系數(shù)特征,以得到上述第一聲紋特征中的上述差分梅爾倒譜系數(shù)特征。
[0022]在本發(fā)明實(shí)施例中,在提取待識別聲紋中第一聲紋特征后,至少根據(jù)第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算待識別聲紋的識別度,在判斷出識別度大于預(yù)定閾值時(shí),識別出上述第一聲紋特征為目標(biāo)聲紋,其中,上述第一聲紋特征中包括小波特征,也就是說,在原有特征的基礎(chǔ)上結(jié)合聲紋的小波特征,從而提高聲紋識別系統(tǒng)的精確性和穩(wěn)定性。進(jìn)而克服了現(xiàn)有的聲紋識別方式的識別結(jié)果因容易受各種因素干擾而造成識別不準(zhǔn)確的問題。進(jìn)一步,通過直接與聲紋識別模型進(jìn)行比較,減小了模型建立的復(fù)雜度和建立周期,從而提高了聲紋識別的穩(wěn)定性和識別效率。
【專利附圖】
【附圖說明】
[0023]構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0024]圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的聲紋識別方法的流程圖;
[0025]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的聲紋識別方法中UBM模型建立的流程圖;
[0026]圖3是根據(jù)本發(fā)明實(shí)施例的一種可選的聲紋識別方法中提取特征的流程圖;以及
[0027]圖4是根據(jù)本發(fā)明實(shí)施例的一種可選的聲紋識別裝置的示意圖。
【具體實(shí)施方式】
[0028]需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0029]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0030]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0031]實(shí)施例1
[0032]根據(jù)本發(fā)明實(shí)施例,提供了一種聲紋識別方法,如圖1所示,該方法包括:
[0033]S102,提取待識別聲紋中的第一聲紋特征,其中,第一聲紋特征中至少包括待識別聲紋的小波特征;
[0034]S104,至少根據(jù)第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算待識別聲紋的識別度;
[0035]S106,判斷識別度是否大于預(yù)定閾值;
[0036]S108,若判斷出識別度大于預(yù)定閾值,則識別出待識別聲紋為目標(biāo)聲紋。
[0037]可選地,在本實(shí)施例中,上述聲紋識別方法可以但不限于應(yīng)用于利用聲紋進(jìn)行身份辨認(rèn)及身份鑒證的過程中,例如,在銀行交易時(shí)對交易對象預(yù)先注冊了聲紋識別模型,當(dāng)需要對交易對象進(jìn)行身份驗(yàn)證時(shí),則采用上述聲紋識別方法,在判斷出交易對象的聲紋的識別度滿足預(yù)定閾值時(shí),可識別出為同一聲紋后再進(jìn)行交易,從而保證交易的安全性。上述舉例只是一種示例,本實(shí)施例對此不做任何限定。
[0038]可選地,在本實(shí)施例中,上述待識別聲紋中的第一聲紋特征可以包括但不限于:多個(gè)第一聲紋特征向量,上述第二聲紋特征可以包括但不限于:多個(gè)第二聲紋特征向量??蛇x地,在本實(shí)施例中,上述第一聲紋特征可以包括但不限于:4個(gè)實(shí)小波特征、4個(gè)雙樹復(fù)小波特征、梅爾倒譜系數(shù)特征、差分梅爾倒譜系數(shù)特征。其中,上述小波特征中包括以下至少之一:實(shí)小波、復(fù)小波。
[0039]可選地,在本實(shí)施例中,上述聲紋識別模型可以但不限于:根據(jù)待識別聲紋中聲紋特征的多個(gè)聲紋特征向量對聲紋通用模型進(jìn)行調(diào)整后,得到與待識別聲紋相適應(yīng)的用于識別上述待識別聲紋的模型。其中,上述通用模型可以但不限于:采集多人的聲紋并從每個(gè)人的聲紋中提取聲紋特征,根據(jù)聲紋特征分別建立與每個(gè)人的聲紋相對應(yīng)的背景聲紋模型,再對上述多個(gè)背景聲紋模型中的第三聲紋特征進(jìn)行聚類,進(jìn)而建立聲紋通用模型。例如,通用背景模型(Un iversa I Background Mode 1,UBM)。
[0040]例如,圖2所示為根據(jù)多個(gè)說話人建立UBM模型的流程圖,其中,一個(gè)聲紋特征中包括10個(gè)聲紋特征向量(即10類特征)。具體而言,如步驟S202,采集多人的聲紋并從每個(gè)人的聲紋中提取10類特征,然后對每類特征進(jìn)行聚類(例如,包括32個(gè)中心),如步驟S204,則步驟S206,得到包含32碼字的10個(gè)碼本(即10個(gè)聲紋特征向量對應(yīng)的聲紋特征參數(shù))的UBM模型。進(jìn)一步,每個(gè)說話人還可根據(jù)自身的聲紋特征建立背景聲紋模型。
[0041]通過本申請?zhí)峁┑膶?shí)施例,在提取待識別聲紋中第一聲紋特征后,至少根據(jù)第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算待識別聲紋的識別度,在判斷出識別度大于預(yù)定閾值時(shí),識別出上述第一聲紋特征為目標(biāo)聲紋,其中,上述第一聲紋特征中包括小波特征,也就是說,在原有特征的基礎(chǔ)上結(jié)合聲紋的小波特征,從而提高聲紋識別系統(tǒng)的精確性和穩(wěn)定性。進(jìn)而克服了現(xiàn)有的聲紋識別方式的識別結(jié)果因容易受各種因素干擾而造成識別不準(zhǔn)確的問題。進(jìn)一步,通過直接與聲紋識別模型進(jìn)行比較,減小了模型建立的復(fù)雜度和建立周期,從而提高了聲紋識別的穩(wěn)定性和識別效率。
[0042]作為一種可選的方案,在提取待識別聲紋中的第一聲紋特征之前,還包括:
[0043]SI,采集待識別聲紋;
[0044]S2,至少根據(jù)第一聲紋特征中的第一聲紋特征向量調(diào)整預(yù)先建立的聲紋通用模型中與第一聲紋特征向量對應(yīng)的聲紋特征向量參數(shù),以構(gòu)造出與待識別聲紋相適應(yīng)的聲紋識別模型中的第二聲紋特征中的第二聲紋特征向量。
[0045]可選地,在本實(shí)施例中,上述采集待識別聲紋的方式可以包括但不限于:利用麥克風(fēng)采集時(shí)長為5秒的待識別人聲,其中,采用的音頻的格式是采樣率16KHz、量化深度16位,單聲。
[0046]可選地,在本實(shí)施例中,上述第一聲紋特征中可以包括但不限于多個(gè)第一聲紋特征向量,上述第二聲紋特征中可以包括但不限于多個(gè)第二聲紋特征向量。例如,每個(gè)聲紋特征包括10個(gè)VQ碼本,也就是說,每個(gè)第一聲紋特征向量對應(yīng)一個(gè)VQ碼本,其中,每個(gè)VQ碼本對應(yīng)一組特征集。
[0047]可選地,在本實(shí)施例中,根據(jù)第一聲紋中的多個(gè)第一聲紋特征向量調(diào)整聲紋通用模型,以得到與待識別聲紋相適應(yīng)的聲紋識別模型,從而便于利用上述聲紋識別模型實(shí)現(xiàn)對之后采集的聲紋進(jìn)行識別。
[0048]通過本申請?zhí)峁┑膶?shí)施例,在提取待識別聲紋中的第一聲紋特征之前,通過調(diào)整通用模型以得到與待識別聲紋相適應(yīng)的聲紋識別模型,實(shí)現(xiàn)對待識別聲紋的預(yù)先注冊,從而使得在聲紋識別時(shí)可以根據(jù)預(yù)先注冊的聲紋識別模型直接進(jìn)行準(zhǔn)確識別,減小了模型建立的復(fù)雜度和建立周期,進(jìn)而提高了聲紋識別的可靠性及效率。
[0049]作為一種可選的方案,第一聲紋特征中包括多個(gè)第一聲紋特征向量,第二聲紋特征中包括多個(gè)第二聲紋特征向量,其中,至少根據(jù)第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算待識別聲紋的識別度包括:
[0050]SI,計(jì)算第一聲紋特征中的每個(gè)第一聲紋特征向量與第二聲紋特征中每個(gè)與第一聲紋特征向量相對應(yīng)的第二聲紋特征向量的向量相似度;
[0051]S2根據(jù)計(jì)算得到的多個(gè)向量相似度計(jì)算第一聲紋特征與第二聲紋特征的目標(biāo)距離;
[0052]S3,至少利用第一聲紋特征與第二聲紋特征的目標(biāo)距離計(jì)算待識別聲紋的識別度。
[0053]可選地,在本實(shí)施例中,上述計(jì)算第一聲紋特征中的第一聲紋特征向量與第二聲紋特征中的第二聲紋特征向量的向量相似度包括:計(jì)算第一聲紋特征向量與第二聲紋特征向量之間的距離。
[0054]具體結(jié)合以下示例進(jìn)行說明,例如,待識別聲紋的第一聲紋特征中的第一聲紋特征向量與聲紋識別模型的第二聲紋特征中的第二聲紋特征向量之間的向量距離為a,對多個(gè)向量距離進(jìn)行歸一化處理,并加權(quán)求和得到第一聲紋特征與第二聲紋特征的目標(biāo)距離S。至少根據(jù)上述到第一聲紋特征與第二聲紋特征的目標(biāo)距離S計(jì)算第一聲紋特征的識別度。其中,上述權(quán)重可以但不限于根據(jù)不同特征向量的重要程度預(yù)先設(shè)置,本實(shí)施例中不限于此。
[0055]通過本申請?zhí)峁┑膶?shí)施例,通過計(jì)算第一聲紋特征與第二聲紋特征中多個(gè)聲紋特征向量的向量距離,對多個(gè)向量距離進(jìn)行加權(quán)求和后準(zhǔn)確計(jì)算出第一聲紋特征與第二聲紋特征的目標(biāo)距離,進(jìn)而保證了聲紋識別度的準(zhǔn)確性。
[0056]作為一種可選的方案,在采集待識別聲紋之前,還包括:
[0057]SI,采集多個(gè)聲紋并提取多個(gè)聲紋中每個(gè)聲紋的第三聲紋特征,以構(gòu)建多個(gè)與聲紋相對應(yīng)的背景聲紋模型,其中,第三聲紋特征中包括多個(gè)第三聲紋特征向量;
[0058]S2,根據(jù)背景聲紋模型建立聲紋通用模型。
[0059]通過本申請?zhí)峁┑膶?shí)施例,通過采集多個(gè)說話人的聲紋以建立多個(gè)背景聲紋模型,以實(shí)現(xiàn)根據(jù)背景聲紋模型建立包含多人聲紋特征的聲紋通用模型,從而便于預(yù)先建立用于聲紋識別的聲紋識別模型,進(jìn)而達(dá)到了縮短模型建立周期,提高了聲紋識別的識別效率的效果。
[0060]作為一種可選的方案,至少利用第一聲紋特征與第二聲紋特征的距離計(jì)算待識別聲紋的識別度包括:
[0061]SI,計(jì)算第一聲紋特征分別與多個(gè)背景聲紋模型對應(yīng)的每個(gè)聲紋的第三聲紋特征的背景距離;
[0062]S2,根據(jù)多個(gè)背景距離計(jì)算距離平均值及距離標(biāo)準(zhǔn)差;
[0063]S3,計(jì)算第一聲紋特征與第二聲紋特征的目標(biāo)距離與距離平均值的差值;
[0064]S4,計(jì)算差值與距離標(biāo)準(zhǔn)差的比值,將比值作為待識別聲紋的識別度。
[0065]可選地,假設(shè)待識別聲紋的第一聲紋特征與第二聲紋特征的目標(biāo)距離用S標(biāo)識,共采集i個(gè)聲紋建立i個(gè)背景聲紋模型,其中,第一聲紋特征與i個(gè)聲紋對應(yīng)的i個(gè)第三聲紋特征的背景距離分別是Di,D2,D3,…Di,進(jìn)一步,通過計(jì)算得到上述多個(gè)背景距離的距離平均值為U,距離標(biāo)準(zhǔn)差為O。則通過以下公式計(jì)算待識別聲紋的識別度:
[0066]s,= (S-U)/ ο (I)
[0067]進(jìn)一步,判斷上述識別聲紋的識別度S,與預(yù)定閾值的大小關(guān)系,若判斷出大于預(yù)定閾值,則認(rèn)為待識別聲紋為目標(biāo)聲紋。
[0068]需要說明的是,由于采集待識別聲紋與建立聲紋識別模型的硬件環(huán)境與條件可能發(fā)生變化,例如,麥克型號變化,則可能導(dǎo)致待識別聲紋的第一聲紋特征與聲紋識別模型的第二聲紋特征之間產(chǎn)生較大變化,進(jìn)而影響對待識別聲紋的判斷,因而,進(jìn)一步結(jié)合背景聲紋模型中的聲紋特征計(jì)算待識別聲紋的識別度,進(jìn)一步保證了待識別聲紋的識別度的準(zhǔn)確性。
[0069]具體結(jié)合以下示例說明,如果采用與建立背景聲紋模型相同的聲卡、麥克風(fēng)進(jìn)行錄音,此時(shí)錄音后提取的待識別聲紋的聲紋特征與聲紋識別模型的距離較近,與背景聲紋模型的距離也較近,而如果采用與建立背景聲紋模型不同的聲卡、麥克風(fēng)進(jìn)行錄音,錄音后提取特征的待識別聲紋與聲紋識別模型的距離則較遠(yuǎn),與背景聲紋模型的距離也較遠(yuǎn),然而,雖然距離都較遠(yuǎn),但是與聲紋識別模型的距離相比較來說待識別聲紋與背景聲紋模型的距離還是更接近。
[0070]通過本申請?zhí)峁┑膶?shí)施例,通過結(jié)合預(yù)先注冊的聲紋識別模型與背景聲紋模型計(jì)算待識別聲紋的識別度,從而克服了由于采集待識別聲紋的環(huán)境與條件發(fā)生變化所導(dǎo)致的待識別聲紋的識別度計(jì)算不準(zhǔn)確的問題。
[0071]作為一種可選的方案,小波特征包括實(shí)小波特征和/或復(fù)小波特征,其中,提取待識別聲紋中的第一聲紋特征包括:
[0072]SI,檢測待識別聲紋中的濁音區(qū)間;
[0073]S2,在每個(gè)濁音區(qū)間中檢測基音區(qū)間,并在每個(gè)基音區(qū)間中提取聲紋特征的實(shí)小波特征和/或復(fù)小波特征。
[0074]可選地,在本實(shí)施例中,上述在每個(gè)基音區(qū)間中提取聲紋特征的實(shí)小波特征和/或復(fù)小波特征包括:
[0075]S22,在每個(gè)基音區(qū)間中提取預(yù)定的特征向量,并根據(jù)小波濾波器將多個(gè)基音區(qū)間中的特征向量劃分為預(yù)定長度的樣本向量,并將預(yù)定長度的樣本向量歸一化;
[0076]S24,對歸一化后的預(yù)定長度的樣本向量執(zhí)行以下至少一種小波變換:
[0077]I)對歸一化后的預(yù)定長度的樣本向量進(jìn)行實(shí)小波變換,以得到第一預(yù)定頻帶的實(shí)部系數(shù),并在第一預(yù)定頻帶中選擇滿足第一預(yù)定條件的頻帶進(jìn)行采樣,以得到第一聲紋特征中的實(shí)小波特征;
[0078]2)對歸一化后的預(yù)定長度的樣本向量進(jìn)行雙樹復(fù)小波變換,以得到第二預(yù)定頻帶的實(shí)部系數(shù)和虛部系數(shù),并在第二預(yù)定頻帶中選擇滿足第二預(yù)定條件的頻帶進(jìn)行采樣,以得到第一聲紋特征中的復(fù)小波特征。
[0079]可選地,在本實(shí)施例中,上述樣本向量可以但不限于根據(jù)所采用的小波濾波器的長度決定。
[0080]可選地,在本實(shí)施例中,在檢測待識別聲紋中的濁音區(qū)間之后,上述提取待識別聲紋中的第一聲紋特征還包括:
[0081]S3,提取待識別聲紋中每一幀的梅爾倒譜系數(shù),以得到第一聲紋特征中的梅爾倒譜系數(shù)特征;
[0082]S4,根據(jù)梅爾倒譜系數(shù)計(jì)算待識別聲紋中每一幀的差分梅爾倒譜系數(shù)特征,以得到第一聲紋特征中的差分梅爾倒譜系數(shù)特征。
[0083]例如,如圖3中S302-S306所示,對待識別聲紋進(jìn)行濁音區(qū)間檢測,然后進(jìn)行預(yù)加重處理,其中,預(yù)加重處理是一種高通濾波器。具體的公式如下:
[0084]y(n) = x(n)-0.9375*x(n_l) (2)
[0085]對預(yù)加重處理后的聲紋進(jìn)行特征提取,如圖3中S308-S318所示,進(jìn)行3階實(shí)小波變換、3階雙數(shù)復(fù)小波變換、提取梅爾倒譜系數(shù),根據(jù)梅爾倒譜系數(shù)計(jì)算差分梅爾倒譜系數(shù),進(jìn)而得到10組20維的聲紋特征向量,其中,上述步驟S308與S310可以同時(shí)進(jìn)行,步驟標(biāo)號不對本實(shí)施例進(jìn)行限定。
[0086]通過本申請?zhí)峁┑膶?shí)施例,通過提取聲紋特征中的小波特征,實(shí)現(xiàn)在原有特征的基礎(chǔ)上結(jié)合小波特征構(gòu)成新特征,由于小波特征反映原有特征不能使用的語音特征,從而實(shí)現(xiàn)提高了聲紋識別系統(tǒng)的精確性和穩(wěn)定性。
[0087]具體結(jié)合以下示例進(jìn)行描述,假設(shè)上述聲紋識別應(yīng)用于銀行身份鑒證過程中,銀行B預(yù)先獲取預(yù)定數(shù)量說話人聲紋建立背景聲紋模型,進(jìn)而再根據(jù)這些背景聲紋模型建立聲紋通用模型,用戶A在銀行B保存了較為重要的資料,希望通過聲紋識別方式鑒權(quán)保護(hù),則可以對用戶A的聲紋提取聲紋特征建立聲紋識別模型。進(jìn)一步,用戶A之后需要在銀行C讀取資料時(shí),為了避免由于聲音采集的硬件設(shè)備發(fā)生變化所造成的識別誤差,則可采用本實(shí)施例中提供的聲紋識別方法,通過提取用戶A的聲紋特征,根據(jù)用戶A預(yù)先注冊的聲紋識別模型及背景聲紋模型來計(jì)算用戶A的聲紋識別度,從而保證用戶A的身份鑒證的正確性,及所保存的物品的安全性。
[0088]具體地,以聲紋識別模型中的聲紋特征中包括10個(gè)聲紋特征向量為例。
[0089]例如,從數(shù)十個(gè)說話人的語音數(shù)據(jù)中提取的特征分別構(gòu)建背景聲紋模型,其中,背景聲紋模型中包括10個(gè)VQ碼本,每個(gè)VQ碼本中10個(gè)特征,如美爾倒譜、差分美爾倒譜和4個(gè)實(shí)小波特征、4個(gè)復(fù)小波特征,每個(gè)特征為20維向量。進(jìn)一步根據(jù)背景聲紋模型建立UBM模型。進(jìn)一步,對待識別聲紋進(jìn)行注冊,采集待識別聲紋并從中提取特征,通過UBM模型的VQ碼本適應(yīng)每個(gè)特征組,進(jìn)而構(gòu)造出聲紋識別模型中的VQ碼本(即第二聲紋特征中的第二聲紋特征向量)。
[0090]進(jìn)一步,提取每個(gè)碼本中的梅爾倒譜系數(shù)、差分梅爾倒譜系數(shù)和8個(gè)小波特征(4個(gè)實(shí)小波和4個(gè)復(fù)合小波)。
[0091]具體而言,在輸入信號{s(i):1 = 0,...,N-l}中檢測濁音區(qū)間;使用能量,如低、高頻帶的能量比,過零率來檢測濁音區(qū)間。再對輸入信號進(jìn)行預(yù)加重處理。
[0092]sr (i) = s(i)-0.9375*s(1-l),i = 1,...,N-1 ;
[0093]然后對預(yù)加重處理后的聲紋執(zhí)行以下操作:
[0094]SI,計(jì)算每幀的美爾倒譜系數(shù),每幀有360個(gè)樣本,幀間隔為180個(gè)樣本。
[0095]計(jì)算出來的美爾倒譜向量的維度是20。
[0096](MFCCi, i = 0,..., Nm-1j ;
[0097](MFCCi= {MFCC j (k)} ;k = 0,...,19};
[0098]S2,對于每幀,計(jì)算美爾倒譜向量的差分構(gòu)成差分美爾倒譜向量。
[0099]DMFCCi = MFCC ^-MFCCh ;
[0100]S3,在每個(gè)濁音區(qū)間都要檢測基音區(qū)間,對獲得的每個(gè)基音區(qū)間,計(jì)算基音同步的實(shí)小波和復(fù)小波特征。
[0101]其中,在輸入語音信號{s(i):1 =0,...,N-1}中檢測到的基音區(qū)間和最大峰值。其中N是語音區(qū)間的長度,Np是基音區(qū)間的數(shù)量,每個(gè)基音區(qū)間的起始位置和長度如下:
[0102]{Pit_st (i):1 = 0,...,Np-1};
[0103]{Pit_ln (i):1 = 0,...,Np-1};
[0104]進(jìn)一步,實(shí)小波的計(jì)算方式如下:
[0105]對每個(gè)基音區(qū)間提取4個(gè)20維的特征向量,對于每個(gè)基音區(qū)間,裁剪出包含那個(gè)區(qū)間和其之前和之后的兩組一定數(shù)量的樣本的區(qū)間,得到如下向量:
[0106]{s (Pit_st (i) -11),...,s (Pit_st (i) + (Pit_ln (i) +IJ , i = 0,..., Np-1 ;
[0107]然后,將該向量歸一化使其范數(shù)為I。
[0108]對于上述向量,進(jìn)行一個(gè)三階段實(shí)小波(例如Daubechies小波)包變換得到八個(gè)系數(shù)序列:
[0109](Rffi0I,! = 1,...,8 ;
[0110](Rffi0I = (RWiciQOhk = 1,...,Μ;
[0111]每個(gè)對應(yīng)一個(gè)特定的頻帶,每個(gè)系數(shù)序列長度相同,且長度相當(dāng)于1/8的基音區(qū)間長度。
[0112]在上述得到的8個(gè)序列中,對應(yīng)于低頻帶的4個(gè)序列進(jìn)行重采樣,產(chǎn)生4個(gè)20維的向量:
[0113]師,i= 1,...,4 ;
[0114]Rffi= {Rff i(k)}k = I,...,20 ;
[0115]進(jìn)一步,復(fù)小波的計(jì)算方式如下:
[0116]對每個(gè)基音區(qū)間提取4個(gè)20維特征向量,對于每個(gè)基音區(qū)間,裁剪除包含那個(gè)區(qū)間和其之前和之后的兩組一定數(shù)量的樣本的區(qū)間,得到的向量歸一化使其范數(shù)為I。
[0117]對于上述區(qū)間,做一個(gè)三階段的雙樹復(fù)小波包變換(DT-CWPT),以得到對應(yīng)于8個(gè)頻帶的系數(shù),每個(gè)頻帶有實(shí)部系數(shù)和虛部系數(shù),其中,每個(gè)系數(shù)序列長度相同,且長度相當(dāng)于1/8的基音區(qū)間長度。對于每個(gè)頻帶,由實(shí)部和虛部序列得到一個(gè)絕對值序列。
[0118]在上述得到的8個(gè)序列中,對應(yīng)于低頻帶的4個(gè)序列進(jìn)行重采樣,產(chǎn)生4個(gè)20維的向量:
[0119]師,i= 1,...,4 ;
[0120]Cffi= {Cff(k) Jk = I,...,20 ;
[0121]S4,根據(jù)上述提取出的10組特征集,采用測試標(biāo)準(zhǔn)方法進(jìn)行歸一化計(jì)算,已得到待識別聲紋與聲紋識別模型的相似度,當(dāng)判斷出相似度大于預(yù)定閾值時(shí),則可識別出為同一聲紋,即待識別的說話人與所建立的聲紋識別模型中的是同一人。
[0122]實(shí)施例2
[0123]根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述聲紋識別方法的聲紋識別裝置,如圖4所示,該裝置包括:
[0124]I)提取單元402,用于提取待識別聲紋中的第一聲紋特征,其中,第一聲紋特征中至少包括待識別聲紋的小波特征;
[0125]2)計(jì)算單元404,用于至少根據(jù)第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算待識別聲紋的識別度;
[0126]3)判斷單元406,用于判斷識別度是否大于預(yù)定閾值;
[0127]4)識別單元408,用于在判斷出識別度大于預(yù)定閾值時(shí),識別出待識別聲紋為目標(biāo)聲紋。
[0128]可選地,在本實(shí)施例中,上述聲紋識別裝置可以但不限于應(yīng)用于利用聲紋進(jìn)行身份辨認(rèn)及身份鑒證的過程中,例如,在銀行交易時(shí)對交易對象預(yù)先注冊了聲紋識別模型,當(dāng)需要對交易對象進(jìn)行身份驗(yàn)證時(shí),則采用上述聲紋識別方法,在判斷出交易對象的聲紋的識別度滿足預(yù)定閾值時(shí),可識別出為同一聲紋后再進(jìn)行交易,從而保證交易的安全性。上述舉例只是一種示例,本實(shí)施例對此不做任何限定。
[0129]可選地,在本實(shí)施例中,上述待識別聲紋中的第一聲紋特征可以包括但不限于:多個(gè)第一聲紋特征向量,上述第二聲紋特征可以包括但不限于:多個(gè)第二聲紋特征向量。可選地,在本實(shí)施例中,上述第一聲紋特征可以包括但不限于:4個(gè)實(shí)小波特征、4個(gè)雙樹復(fù)小波特征、梅爾倒譜系數(shù)特征、差分梅爾倒譜系數(shù)特征。其中,上述小波特征中包括以下至少之一:實(shí)小波、復(fù)小波。
[0130]可選地,在本實(shí)施例中,上述聲紋識別模型可以但不限于:根據(jù)待識別聲紋中聲紋特征的多個(gè)聲紋特征向量對聲紋通用模型進(jìn)行調(diào)整后,得到與待識別聲紋相適應(yīng)的用于識別上述待識別聲紋的模型。其中,上述通用模型可以但不限于:采集多人的聲紋并從每個(gè)人的聲紋中提取聲紋特征,根據(jù)聲紋特征分別建立與每個(gè)人的聲紋相對應(yīng)的背景聲紋模型,再對上述多個(gè)背景聲紋模型中的第三聲紋特征進(jìn)行聚類,進(jìn)而建立聲紋通用模型。例如,通用背景模型(Universal Background Model,UBM)。
[0131]例如,圖2所示為根據(jù)多個(gè)說話人建立UBM模型的流程圖,其中,一個(gè)聲紋特征中包括10個(gè)聲紋特征向量(即10類特征)。具體而言,如步驟S202,采集多人的聲紋并從每個(gè)人的聲紋中提取10類特征,然后對每類特征進(jìn)行聚類(例如,包括32個(gè)中心),如步驟S204,則步驟S206,得到包含32碼字的10個(gè)碼本(即10個(gè)聲紋特征向量對應(yīng)的聲紋特征參數(shù))的UBM模型。進(jìn)一步,每個(gè)說話人還可根據(jù)自身的聲紋特征建立背景聲紋模型。
[0132]通過本申請?zhí)峁┑膶?shí)施例,在提取待識別聲紋中第一聲紋特征后,至少根據(jù)第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算待識別聲紋的識別度,在判斷出識別度大于預(yù)定閾值時(shí),識別出上述第一聲紋特征為目標(biāo)聲紋,其中,上述第一聲紋特征中包括小波特征,也就是說,在原有特征的基礎(chǔ)上結(jié)合聲紋的小波特征,從而提高聲紋識別系統(tǒng)的精確性和穩(wěn)定性。進(jìn)而克服了現(xiàn)有的聲紋識別方式的識別結(jié)果因容易受各種因素干擾而造成識別不準(zhǔn)確的問題。進(jìn)一步,通過直接與聲紋識別模型進(jìn)行比較,減小了模型建立的復(fù)雜度和建立周期,從而提高了聲紋識別的穩(wěn)定性和識別效率。
[0133]作為一種可選的方案,上述裝置還包括:
[0134]I)采集單元,用于在提取待識別聲紋中的第一聲紋特征之前,采集待識別聲紋;
[0135]2)調(diào)整單元,用于至少根據(jù)第一聲紋特征中的第一聲紋特征向量調(diào)整預(yù)先建立的聲紋通用模型中與第一聲紋特征向量對應(yīng)的聲紋特征向量參數(shù),以構(gòu)造出與待識別聲紋相適應(yīng)的聲紋識別模型中的第二聲紋特征中的第二聲紋特征向量。
[0136]可選地,在本實(shí)施例中,上述采集待識別聲紋的方式可以包括但不限于:利用麥克風(fēng)采集時(shí)長為5秒的待識別人聲,其中,采用的音頻的格式是采樣率16KHz、量化深度16位,單聲。
[0137]可選地,在本實(shí)施例中,上述第一聲紋特征中可以包括但不限于多個(gè)第一聲紋特征向量,上述第二聲紋特征中可以包括但不限于多個(gè)第二聲紋特征向量。例如,每個(gè)聲紋特征包括10個(gè)VQ碼本,也就是說,每個(gè)第一聲紋特征向量對應(yīng)一個(gè)VQ碼本,其中,每個(gè)VQ碼本對應(yīng)一組特征集。
[0138]可選地,在本實(shí)施例中,根據(jù)第一聲紋中的多個(gè)第一聲紋特征向量調(diào)整聲紋通用模型,以得到與待識別聲紋相適應(yīng)的聲紋識別模型,從而便于利用上述聲紋識別模型實(shí)現(xiàn)對之后采集的聲紋進(jìn)行識別。
[0139]通過本申請?zhí)峁┑膶?shí)施例,在提取待識別聲紋中的第一聲紋特征之前,通過調(diào)整通用模型以得到與待識別聲紋相適應(yīng)的聲紋識別模型,實(shí)現(xiàn)對待識別聲紋的預(yù)先注冊,從而使得在聲紋識別時(shí)可以根據(jù)預(yù)先注冊的聲紋識別模型直接進(jìn)行準(zhǔn)確識別,減小了模型建立的復(fù)雜度和建立周期,進(jìn)而提高了聲紋識別的可靠性及效率。
[0140]作為一種可選的方案,第一聲紋特征中包括多個(gè)第一聲紋特征向量,第二聲紋特征中包括多個(gè)第二聲紋特征向量,計(jì)算單元404包括:
[0141]I)第一計(jì)算模塊,用于計(jì)算第一聲紋特征中的每個(gè)第一聲紋特征向量與第二聲紋特征中每個(gè)與第一聲紋特征向量相對應(yīng)的第二聲紋特征向量的向量距離;
[0142]2)第二計(jì)算模塊,用于根據(jù)計(jì)算得到的多個(gè)向量距離計(jì)算第一聲紋特征與第二聲紋特征的目標(biāo)距離;
[0143]3)第三計(jì)算模塊,用于至少利用第一聲紋特征與第二聲紋特征的目標(biāo)距離計(jì)算待識別聲紋的識別度。
[0144]可選地,在本實(shí)施例中,上述計(jì)算第一聲紋特征中的第一聲紋特征向量與第二聲紋特征中的第二聲紋特征向量的向量相似度包括:計(jì)算第一聲紋特征向量與第二聲紋特征向量之間的距離。
[0145]具體結(jié)合以下示例進(jìn)行說明,例如,待識別聲紋的第一聲紋特征中的第一聲紋特征向量與聲紋識別模型的第二聲紋特征中的第二聲紋特征向量之間的向量距離為a,對多個(gè)向量距離進(jìn)行歸一化處理,并加權(quán)求和得到第一聲紋特征與第二聲紋特征的目標(biāo)距離S。至少根據(jù)上述到第一聲紋特征與第二聲紋特征的目標(biāo)距離S計(jì)算第一聲紋特征的識別度。其中,上述權(quán)重可以但不限于根據(jù)不同特征向量的重要程度預(yù)先設(shè)置,本實(shí)施例中不限于此。
[0146]通過本申請?zhí)峁┑膶?shí)施例,通過計(jì)算第一聲紋特征與第二聲紋特征中多個(gè)聲紋特征向量的向量距離,對多個(gè)向量距離進(jìn)行加權(quán)求和后準(zhǔn)確計(jì)算出第一聲紋特征與第二聲紋特征的目標(biāo)距離,進(jìn)而保證了聲紋識別度的準(zhǔn)確性。
[0147]作為一種可選的方案,上述裝置還包括:
[0148]I)采集單元,用于采集多個(gè)聲紋并提取多個(gè)聲紋中每個(gè)聲紋的第三聲紋特征,以構(gòu)建多個(gè)與聲紋相對應(yīng)的背景聲紋模型,其中,第三聲紋特征中包括多個(gè)第三聲紋特征向量;
[0149]2)建立單元,用于根據(jù)背景聲紋模型建立聲紋通用模型。
[0150]通過本申請?zhí)峁┑膶?shí)施例,通過采集多個(gè)說話人的聲紋以建立多個(gè)背景聲紋模型,以實(shí)現(xiàn)根據(jù)背景聲紋模型建立包含多人聲紋特征的聲紋通用模型,從而便于預(yù)先建立用于聲紋識別的聲紋識別模型,進(jìn)而達(dá)到了縮短模型建立周期,提高了聲紋識別的識別效率的效果。
[0151]作為一種可選的方案,第三計(jì)算模塊包括:
[0152]I)第一計(jì)算子模塊,用于計(jì)算第一聲紋特征分別與多個(gè)背景聲紋模型對應(yīng)的每個(gè)聲紋的第三聲紋特征的背景距離;
[0153]2)第二計(jì)算子模塊,用于根據(jù)多個(gè)背景距離計(jì)算距離平均值及距離標(biāo)準(zhǔn)差;
[0154]3)第三計(jì)算子模塊,用于計(jì)算第一聲紋特征與第二聲紋特征的目標(biāo)距離與距離平均值的差值;
[0155]4)第四計(jì)算子模塊,用于計(jì)算差值與距離標(biāo)準(zhǔn)差的比值,將比值作為待識別聲紋的識別度。
[0156]可選地,假設(shè)待識別聲紋的第一聲紋特征與第二聲紋特征的目標(biāo)距離用S標(biāo)識,共采集i個(gè)聲紋建立i個(gè)背景聲紋模型,其中,第一聲紋特征與i個(gè)聲紋對應(yīng)的i個(gè)第三聲紋特征的背景距離分別是Di,D2,D3,…Di,進(jìn)一步,通過計(jì)算得到上述多個(gè)背景距離的距離平均值為U,距離標(biāo)準(zhǔn)差為O。則通過以下公式計(jì)算待識別聲紋的識別度:
[0157]s,= (S-U)/ ο (3)
[0158]進(jìn)一步,判斷上述識別聲紋的識別度S,與預(yù)定閾值的大小關(guān)系,若判斷出大于預(yù)定閾值,則認(rèn)為待識別聲紋為目標(biāo)聲紋。
[0159]需要說明的是,由于采集待識別聲紋與建立聲紋識別模型的硬件環(huán)境與條件可能發(fā)生變化,例如,麥克型號變化,則可能導(dǎo)致待識別聲紋的第一聲紋特征與聲紋識別模型的第二聲紋特征之間產(chǎn)生較大變化,進(jìn)而影響對待識別聲紋的判斷,因而,進(jìn)一步結(jié)合背景聲紋模型中的聲紋特征計(jì)算待識別聲紋的識別度,進(jìn)一步保證了待識別聲紋的識別度的準(zhǔn)確性。
[0160]具體結(jié)合以下示例說明,如果采用與建立背景聲紋模型相同的聲卡、麥克風(fēng)進(jìn)行錄音,此時(shí)錄音后提取的待識別聲紋的聲紋特征與聲紋識別模型的距離較近,與背景聲紋模型的距離也較近,而如果采用與建立背景聲紋模型不同的聲卡、麥克風(fēng)進(jìn)行錄音,錄音后提取特征的待識別聲紋與聲紋識別模型的距離則較遠(yuǎn),與背景聲紋模型的距離也較遠(yuǎn),然而,雖然距離都較遠(yuǎn),但是與聲紋識別模型的距離相比較來說待識別聲紋與背景聲紋模型的距離還是更接近。
[0161]通過本申請?zhí)峁┑膶?shí)施例,通過結(jié)合預(yù)先注冊的聲紋識別模型與背景聲紋模型計(jì)算待識別聲紋的識別度,從而克服了由于采集待識別聲紋的環(huán)境與條件發(fā)生變化所導(dǎo)致的待識別聲紋的識別度計(jì)算不準(zhǔn)確的問題。
[0162]作為一種可選的方案,小波特征包括實(shí)小波特征和/或復(fù)小波特征,提取單元402包括:
[0163]I)檢測模塊,用于檢測待識別聲紋中的濁音區(qū)間;
[0164]2)第一提取模塊,用于在每個(gè)濁音區(qū)間中檢測基音區(qū)間,并在每個(gè)基音區(qū)間中提取聲紋特征的實(shí)小波特征和/或復(fù)小波特征。
[0165]可選地,在本實(shí)施例中,上述第一提取模塊包括:
[0166]I)第一提取子模塊,用于在每個(gè)基音區(qū)間中提取預(yù)定的特征向量,并根據(jù)小波濾波器將多個(gè)基音區(qū)間中的特征向量劃分為預(yù)定長度的樣本向量,并將預(yù)定長度的樣本向量歸一化;
[0167]2)變換子模塊,用于對歸一化后的預(yù)定長度的樣本向量執(zhí)行以下至少一種小波變換:對歸一化后的預(yù)定長度的樣本向量執(zhí)行以下至少一種小波變換:
[0168](I)對歸一化后的預(yù)定長度的樣本向量進(jìn)行實(shí)小波變換,以得到第一預(yù)定頻帶的實(shí)部系數(shù),并在第一預(yù)定頻帶中選擇滿足第一預(yù)定條件的頻帶進(jìn)行采樣,以得到第一聲紋特征中的實(shí)小波特征;
[0169](2)對歸一化后的預(yù)定長度的樣本向量進(jìn)行雙樹復(fù)小波變換,以得到第二預(yù)定頻帶的實(shí)部系數(shù)和虛部系數(shù),并在第二預(yù)定頻帶中選擇滿足第二預(yù)定條件的頻帶進(jìn)行采樣,以得到第一聲紋特征中的復(fù)小波特征。
[0170]可選地,在本實(shí)施例中,上述樣本向量可以但不限于根據(jù)所采用的小波濾波器的長度決定。
[0171]作為一種可選的方案,提取單元402還包括:
[0172]I)第二提取模塊,用于在檢測待識別聲紋中的濁音區(qū)間之后,提取待識別聲紋中每一幀的梅爾倒譜系數(shù),以得到第一聲紋特征中的梅爾倒譜系數(shù)特征;
[0173]2)第三計(jì)算模塊,用于根據(jù)梅爾倒譜系數(shù)計(jì)算待識別聲紋中每一幀的差分梅爾倒譜系數(shù)特征,以得到第一聲紋特征中的差分梅爾倒譜系數(shù)特征。
[0174]可選地,在本實(shí)施例中,上述樣本向量可以但不限于根據(jù)所采用的小波濾波器的長度決定。
[0175]可選地,在本實(shí)施例中,在檢測待識別聲紋中的濁音區(qū)間之后,上述提取待識別聲紋中的第一聲紋特征還包括:
[0176]S3,提取待識別聲紋中每一幀的梅爾倒譜系數(shù),以得到第一聲紋特征中的梅爾倒譜系數(shù)特征;
[0177]S4,根據(jù)梅爾倒譜系數(shù)計(jì)算待識別聲紋中每一幀的差分梅爾倒譜系數(shù)特征,以得到第一聲紋特征中的差分梅爾倒譜系數(shù)特征。
[0178]例如,如圖3中S302-S306所示,對待識別聲紋進(jìn)行濁音區(qū)間檢測,然后進(jìn)行預(yù)加重處理,其中,預(yù)加重處理是一種高通濾波器。具體的公式如下:
[0179]y(n) = x(n)-0.9375*x(n_l) (4)
[0180]對預(yù)加重處理后的聲紋進(jìn)行特征提取,如圖3中S308-S318所示,進(jìn)行3階實(shí)小波變換、3階雙數(shù)復(fù)小波變換、提取梅爾倒譜系數(shù),根據(jù)梅爾倒譜系數(shù)計(jì)算差分梅爾倒譜系數(shù),進(jìn)而得到10組20維的聲紋特征向量,其中,上述步驟S308與S310可以同時(shí)進(jìn)行,步驟標(biāo)號不對本實(shí)施例進(jìn)行限定。
[0181]通過本申請?zhí)峁┑膶?shí)施例,通過提取聲紋特征中的小波特征,實(shí)現(xiàn)在原有特征的基礎(chǔ)上結(jié)合小波特征構(gòu)成新特征,由于小波特征反映原有特征不能使用的語音特征,從而實(shí)現(xiàn)提高了聲紋識別系統(tǒng)的精確性和穩(wěn)定性。
[0182]上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0183]需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
[0184]在上述實(shí)施例中,對各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0185]在本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
[0186]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0187]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0188]所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲在一個(gè)計(jì)算機(jī)可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、移動終端、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0189]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種聲紋識別方法,其特征在于,包括: 提取待識別聲紋中的第一聲紋特征,其中,所述第一聲紋特征中至少包括所述待識別聲紋的小波特征; 至少根據(jù)所述第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算所述待識別聲紋的識別度; 判斷所述識別度是否大于預(yù)定閾值; 若判斷出所述識別度大于所述預(yù)定閾值,則識別出所述待識別聲紋為目標(biāo)聲紋。
2.根據(jù)權(quán)利要求1所述的聲紋識別方法,其特征在于,在所述提取待識別聲紋中的第一聲紋特征之前,還包括: 采集所述待識別聲紋; 至少根據(jù)所述第一聲紋特征中的第一聲紋特征向量調(diào)整預(yù)先建立的聲紋通用模型中與所述第一聲紋特征向量對應(yīng)的聲紋特征向量參數(shù),以構(gòu)造出與所述待識別聲紋相適應(yīng)的所述聲紋識別模型中的所述第二聲紋特征中的第二聲紋特征向量。
3.根據(jù)權(quán)利要求2所述的聲紋識別方法,其特征在于,所述第一聲紋特征中包括多個(gè)所述第一聲紋特征向量,所述第二聲紋特征中包括多個(gè)所述第二聲紋特征向量,其中,所述至少根據(jù)所述第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算所述待識別聲紋的識別度包括: 計(jì)算所述第一聲紋特征中的每個(gè)所述第一聲紋特征向量與所述第二聲紋特征中每個(gè)與所述第一聲紋特征向量相對應(yīng)的所述第二聲紋特征向量的向量距離; 根據(jù)計(jì)算得到的多個(gè)所述向量距離計(jì)算所述第一聲紋特征與所述第二聲紋特征的目標(biāo)距離; 至少利用所述第一聲紋特征與所述第二聲紋特征的所述目標(biāo)距離計(jì)算所述待識別聲紋的識別度。
4.根據(jù)權(quán)利要求3所述的聲紋識別方法,其特征在于,在采集所述待識別聲紋之前,還包括: 采集多個(gè)聲紋并提取所述多個(gè)聲紋中每個(gè)聲紋的第三聲紋特征,以構(gòu)建多個(gè)與所述聲紋相對應(yīng)的背景聲紋模型,其中,所述第三聲紋特征中包括多個(gè)第三聲紋特征向量; 根據(jù)所述背景聲紋模型建立所述聲紋通用模型。
5.根據(jù)權(quán)利要求4所述的聲紋識別方法,其特征在于,所述至少利用所述第一聲紋特征與所述第二聲紋特征的距離計(jì)算所述待識別聲紋的識別度包括: 計(jì)算所述第一聲紋特征分別與多個(gè)所述背景聲紋模型對應(yīng)的每個(gè)所述聲紋的所述第三聲紋特征的背景距離; 根據(jù)多個(gè)所述背景距離計(jì)算距離平均值及距離標(biāo)準(zhǔn)差; 計(jì)算所述第一聲紋特征與所述第二聲紋特征的所述目標(biāo)距離與所述距離平均值的差值; 計(jì)算所述差值與所述距離標(biāo)準(zhǔn)差的比值,將所述比值作為所述待識別聲紋的所述識別度。
6.根據(jù)權(quán)利要求1所述的聲紋識別方法,其特征在于,所述小波特征包括實(shí)小波特征和/或復(fù)小波特征,其中,所述提取待識別聲紋中的第一聲紋特征包括: 檢測所述待識別聲紋中的濁音區(qū)間; 在每個(gè)所述濁音區(qū)間中檢測基音區(qū)間,并在每個(gè)所述基音區(qū)間中提取所述聲紋特征的所述實(shí)小波特征和/或所述復(fù)小波特征。
7.根據(jù)權(quán)利要求6所述的聲紋識別方法,其特征在于,所述在每個(gè)所述基音區(qū)間中提取所述聲紋特征的所述實(shí)小波特征和/或所述復(fù)小波特征包括: 在每個(gè)所述基音區(qū)間中提取預(yù)定的特征向量,并根據(jù)小波濾波器將多個(gè)所述基音區(qū)間中的所述特征向量劃分為預(yù)定長度的樣本向量,并將所述預(yù)定長度的樣本向量歸一化; 對歸一化后的所述預(yù)定長度的樣本向量執(zhí)行以下至少一種小波變換: 對歸一化后的所述預(yù)定長度的樣本向量進(jìn)行實(shí)小波變換,以得到第一預(yù)定頻帶的實(shí)部系數(shù),并在所述第一預(yù)定頻帶中選擇滿足第一預(yù)定條件的頻帶進(jìn)行采樣,以得到所述第一聲紋特征中的所述實(shí)小波特征; 對歸一化后的所述預(yù)定長度的樣本向量進(jìn)行雙樹復(fù)小波變換,以得到第二預(yù)定頻帶的實(shí)部系數(shù)和虛部系數(shù),并在所述第二預(yù)定頻帶中選擇滿足第二預(yù)定條件的頻帶進(jìn)行采樣,以得到所述第一聲紋特征中的所述復(fù)小波特征。
8.根據(jù)權(quán)利要求7所述的聲紋識別方法,其特征在于,在檢測所述待識別聲紋中的濁音區(qū)間之后,所述提取待識別聲紋中的第一聲紋特征還包括: 提取所述待識別聲紋中每一幀的梅爾倒譜系數(shù),以得到所述第一聲紋特征中的所述梅爾倒譜系數(shù)特征; 根據(jù)所述梅爾倒譜系數(shù)計(jì)算所述待識別聲紋中每一幀的差分梅爾倒譜系數(shù)特征,以得到所述第一聲紋特征中的所述差分梅爾倒譜系數(shù)特征。
9.一種聲紋識別裝置,其特征在于,包括: 提取單元,用于提取待識別聲紋中的第一聲紋特征,其中,所述第一聲紋特征中至少包括所述待識別聲紋的小波特征; 計(jì)算單元,用于至少根據(jù)所述第一聲紋特征與聲紋識別模型中的第二聲紋特征計(jì)算所述待識別聲紋的識別度; 判斷單元,用于判斷所述識別度是否大于預(yù)定閾值; 識別單元,用于在判斷出所述識別度大于所述預(yù)定閾值時(shí),識別出所述待識別聲紋為目標(biāo)聲紋。
10.根據(jù)權(quán)利要求9所述的聲紋識別裝置,其特征在于,還包括: 采集單元,用于在所述提取待識別聲紋中的第一聲紋特征之前,采集所述待識別聲紋; 調(diào)整單元,用于至少根據(jù)所述第一聲紋特征中的第一聲紋特征向量調(diào)整預(yù)先建立的聲紋通用模型中與所述第一聲紋特征向量對應(yīng)的聲紋特征向量參數(shù),以構(gòu)造出與所述待識別聲紋相適應(yīng)的所述聲紋識別模型中的所述第二聲紋特征中的第二聲紋特征向量。
11.根據(jù)權(quán)利要求10所述的聲紋識別裝置,其特征在于,所述第一聲紋特征中包括多個(gè)所述第一聲紋特征向量,所述第二聲紋特征中包括多個(gè)所述第二聲紋特征向量,所述計(jì)算單元包括: 第一計(jì)算模塊,用于計(jì)算所述第一聲紋特征中的每個(gè)所述第一聲紋特征向量與所述第二聲紋特征中每個(gè)與所述第一聲紋特征向量相對應(yīng)的所述第二聲紋特征向量的向量距離; 第二計(jì)算模塊,用于根據(jù)計(jì)算得到的多個(gè)所述向量距離計(jì)算所述第一聲紋特征與所述第二聲紋特征的目標(biāo)距離; 第三計(jì)算模塊,用于至少利用所述第一聲紋特征與所述第二聲紋特征的所述目標(biāo)距離計(jì)算所述待識別聲紋的識別度。
12.根據(jù)權(quán)利要求11所述的聲紋識別裝置,其特征在于,還包括: 采集單元,用于采集多個(gè)聲紋并提取所述多個(gè)聲紋中每個(gè)聲紋的第三聲紋特征,以構(gòu)建多個(gè)與所述聲紋相對應(yīng)的背景聲紋模型,其中,所述第三聲紋特征中包括多個(gè)第三聲紋特征向量; 建立單元,用于根據(jù)所述背景聲紋模型建立所述聲紋通用模型。
13.根據(jù)權(quán)利要求12所述的聲紋識別裝置,其特征在于,所述第三計(jì)算模塊包括: 第一計(jì)算子模塊,用于計(jì)算所述第一聲紋特征分別與多個(gè)所述背景聲紋模型對應(yīng)的每個(gè)所述聲紋的所述第三聲紋特征的背景距離; 第二計(jì)算子模塊,用于根據(jù)多個(gè)所述背景距離計(jì)算距離平均值及距離標(biāo)準(zhǔn)差; 第三計(jì)算子模塊,用于計(jì)算所述第一聲紋特征與所述第二聲紋特征的所述目標(biāo)距離與所述距離平均值的差值; 第四計(jì)算子模塊,用于計(jì)算所述差值與所述距離標(biāo)準(zhǔn)差的比值,將所述比值作為所述待識別聲紋的所述識別度。
14.根據(jù)權(quán)利要求9所述的聲紋識別裝置,其特征在于,所述小波特征包括實(shí)小波特征和/或復(fù)小波特征,所述提取單元包括: 檢測模塊,用于檢測所述待識別聲紋中的濁音區(qū)間; 第一提取模塊,用于在每個(gè)所述濁音區(qū)間中檢測基音區(qū)間,并在每個(gè)所述基音區(qū)間中提取所述聲紋特征的所述實(shí)小波特征和/或所述復(fù)小波特征。
15.根據(jù)權(quán)利要求14所述的聲紋識別裝置,其特征在于,所述第一提取模塊包括: 第一提取子模塊,用于在每個(gè)所述基音區(qū)間中提取預(yù)定的特征向量,并根據(jù)小波濾波器將多個(gè)所述基音區(qū)間中的所述特征向量劃分為預(yù)定長度的樣本向量,并將所述預(yù)定長度的樣本向量歸一化;變換子模塊,用于對歸一化后的所述預(yù)定長度的樣本向量執(zhí)行以下至少一種小波變換: 對歸一化后的所述預(yù)定長度的樣本向量進(jìn)行實(shí)小波變換,以得到第一預(yù)定頻帶的實(shí)部系數(shù),并在所述第一預(yù)定頻帶中選擇滿足第一預(yù)定條件的頻帶進(jìn)行采樣,以得到所述第一聲紋特征中的所述實(shí)小波特征; 對歸一化后的所述預(yù)定長度的樣本向量進(jìn)行雙樹復(fù)小波變換,以得到第二預(yù)定頻帶的實(shí)部系數(shù)和虛部系數(shù),并在所述第二預(yù)定頻帶中選擇滿足第二預(yù)定條件的頻帶進(jìn)行采樣,以得到所述第一聲紋特征中的所述復(fù)小波特征。
16.根據(jù)權(quán)利要求15所述的聲紋識別裝置,其特征在于,所述提取單元還包括: 第二提取模塊,用于在檢測所述待識別聲紋中的濁音區(qū)間之后,提取所述待識別聲紋中每一幀的梅爾倒譜系數(shù),以得到所述第一聲紋特征中的所述梅爾倒譜系數(shù)特征; 第三計(jì)算模塊,用于根據(jù)所述梅爾倒譜系數(shù)計(jì)算所述待識別聲紋中每一幀的差分梅爾倒譜系數(shù)特征,以得到所述第一聲紋特征中的所述差分梅爾倒譜系數(shù)特征。
【文檔編號】G10L15/02GK104485102SQ201410815733
【公開日】2015年4月1日 申請日期:2014年12月23日 優(yōu)先權(quán)日:2014年12月23日
【發(fā)明者】李光日 申請人:智慧眼(湖南)科技發(fā)展有限公司