專利名稱:結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及一種說話人識別裝置,尤其是利用說話人聲音的獨(dú)特生物測定學(xué)特征來識別說話人身份的裝置。
背景技術(shù):
信息時代的最重要的特征就是數(shù)字化,而且隨著科技的發(fā)展人的身份也越來越數(shù)字化和隱性化。那么在高度信息化的時代如何準(zhǔn)確鑒別個人身份,保證個人信息的安全呢?在各種諸如銀行帳號、信用卡、網(wǎng)絡(luò)登陸等領(lǐng)域都需要很多需要牢記的密碼,而且這些密碼一旦被盜將給用戶造成巨大的損失。
近幾年出現(xiàn)了一種生物認(rèn)證技術(shù),它利用說話人聲音的獨(dú)特生物測定學(xué)特征來識別說話人身份。這是非常自然和方便的一種生物測定手段,它具有比較低的用戶侵犯性。同時,語音的采集設(shè)備比較簡單,也比較便宜,而且語音能利用現(xiàn)有電話網(wǎng)絡(luò)進(jìn)行遠(yuǎn)程傳輸,這在很大程度上是其他生物測定手段不可替代的。它利用說話人之間發(fā)音器官上的個性差異、發(fā)音聲道之間的個性差異、發(fā)音習(xí)慣之間的個性差異等不同級別上的差異,交叉利用聲學(xué)、語言學(xué)、心理學(xué)、人工智能、數(shù)字信號處理、信息理論、模式識別理論、最優(yōu)化理論、計算機(jī)科學(xué)等多種學(xué)科,并且隨著科技的迅速發(fā)展,語音識別系統(tǒng)也日趨成熟。
目前出現(xiàn)的語音識別技術(shù)主要分為基于聲紋技術(shù)和基于語義技術(shù),它們各有優(yōu)劣。那么充分利用它們各自的優(yōu)勢來改善語音識別系統(tǒng)的性能是我們的發(fā)明目的之一。我們可以很自然地想到把兩種方法串聯(lián)起來使用,這樣肯定可以增加系統(tǒng)的安全性,但是這種簡單的串接,并沒有使這兩種方法各自的優(yōu)勢完全發(fā)揮出來,也沒有彌補(bǔ)他們各自的缺點(diǎn)。為了更有效的利用各種技術(shù)的優(yōu)勢,我們必須仔細(xì)分析一下他們各自的優(yōu)點(diǎn)和缺點(diǎn)。
表1 說話人確認(rèn)技術(shù)比較
表1說明了這兩種技術(shù)的優(yōu)劣。
基于聲紋的說話人確認(rèn)擁有生物測定身份識別技術(shù)的幾乎所有優(yōu)點(diǎn)。但是它也有前面所講的語音信號不穩(wěn)定等挑戰(zhàn)和困難,而且對于實用系統(tǒng)來講,它同時還有一些其他缺陷。
基于語義的說話人確認(rèn)是通過對說話人私人信息的確認(rèn)來區(qū)分不同說話人。所以嚴(yán)格的講,語義信息確認(rèn)不能算作一種生物測定手段,它也就沒有生物測定技術(shù)所擁有的優(yōu)勢。
我們的目的在于用語義信息確認(rèn)來替代基于聲紋確認(rèn)的訓(xùn)練過程,在基于聲紋確認(rèn)的準(zhǔn)備工作還沒有完成之前來進(jìn)行識別工作。同時語義信息確認(rèn)還可以幫助聲紋確認(rèn)搜集所需的訓(xùn)練語料,等基于聲紋識別的準(zhǔn)備工作完成之后,我們可以把二者結(jié)合起來,進(jìn)一步增強(qiáng)系統(tǒng)的安全性。
并且本發(fā)明的結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng)具有很高的準(zhǔn)確率,結(jié)構(gòu)也比較簡單,易于市場化。
發(fā)明內(nèi)容
本發(fā)明為解決其技術(shù)問題所采取的技術(shù)方案是根據(jù)說話人的聲紋特征通過GMM模型(高斯混合模型)建立聲紋模型;通過電話等語音輸入設(shè)備錄入語音,對聲音進(jìn)行預(yù)處理;對處理后的聲音根據(jù)一定的聲紋模型進(jìn)行聲紋特征提取;同時進(jìn)行文本判斷;用聲紋特征和文本判斷來識別說話人身份。
本發(fā)明包括如下幾個子系統(tǒng)特征提取、聲學(xué)模型建模、基于語義的說話人確認(rèn)VIV(語義信息確認(rèn))系統(tǒng)、文本有關(guān)和文本無關(guān)的聲紋確認(rèn)系統(tǒng)。各子系統(tǒng)在特征、統(tǒng)計模型的選擇、目標(biāo)模型和背景模型的建模以及統(tǒng)計確認(rèn)都有其各自的特點(diǎn)達(dá)到本發(fā)明的目的。
其中,特征提取子系統(tǒng)中,本發(fā)明采用的特征為美標(biāo)度倒譜系數(shù)(MFCCMel-FrequencyCepstrum Coeffiecients)及其差分。其中,在基于聲紋的說話人確認(rèn)中,采用16階MFCC,并使用半升正弦窗進(jìn)行倒譜提升;在語義信息確認(rèn)中,采用12階MFCC,并使用升正弦窗進(jìn)行倒譜提升。
聲學(xué)模型建模系統(tǒng)中,本發(fā)明采用兩種統(tǒng)計模型,一是隱馬爾可夫模型,二是高斯混合模型。隱馬爾可夫模型用于文本有關(guān)的聲學(xué)模型中,高斯模型用于文本無關(guān)的聲學(xué)模型中。
基于語義的說話人確認(rèn)VIV(語義信息確認(rèn))系統(tǒng)中,語義信息確認(rèn)不同于傳統(tǒng)的聲紋說話人確認(rèn),它確認(rèn)的是語音的內(nèi)容,需要用戶對私人的信息保密,安全性不如聲紋說話人確認(rèn)系統(tǒng)。但由于語義信息確認(rèn)所需要的正模型和反模型都是事先訓(xùn)練好的,所以在進(jìn)行確認(rèn)的時候不需要再進(jìn)行訓(xùn)練,這是它優(yōu)于聲紋確認(rèn)的最大優(yōu)勢,也是我們采用它作為本發(fā)明的一個子系統(tǒng)的原因。
基于聲紋的說話人確認(rèn)系統(tǒng)中,本發(fā)明分文本無關(guān)和文本有關(guān)兩種情況建立了說話人確認(rèn)系統(tǒng),其中對于文本有關(guān)的聲紋確認(rèn)系統(tǒng)是基于HMM聲學(xué)建模的,而對于文本無關(guān)的圣文確認(rèn)是基于GMM聲學(xué)建模的。
結(jié)合語義和聲紋的說話人確認(rèn)系統(tǒng)中,本發(fā)明融合了基于語義的說話人確認(rèn)系統(tǒng)和基于聲紋的說話人識別系統(tǒng),在確認(rèn)時又分為兩個階段,每一階段同時提供了語義和聲紋的確認(rèn)。第一階段結(jié)合文本無關(guān)的聲紋確認(rèn)和VIV進(jìn)行聯(lián)合確認(rèn)。第二階段結(jié)合文本有關(guān)的聲紋確認(rèn)和VIV進(jìn)行聯(lián)合確認(rèn)。
這樣,系統(tǒng)中就沒有了單一的基于聲紋的說話人確認(rèn)系統(tǒng)所需要的冗長訓(xùn)練過程。我們可以達(dá)到用戶負(fù)擔(dān)最小而性能最佳的組合。
但是,在系統(tǒng)使用初期,我們?nèi)绻麅H僅使用語義信息確認(rèn)進(jìn)行身份認(rèn)證,用戶必須完全對私有信息文本的安全保密負(fù)責(zé),系統(tǒng)沒有任何防范措施,這時的系統(tǒng)是很脆弱的。為了增加初期系統(tǒng)的安全性,同時又不要給用戶增加太多負(fù)擔(dān),我們提出,通過很少的語料訓(xùn)練一個文本無關(guān)的聲紋確認(rèn)系統(tǒng),用它來輔助語義信息確認(rèn)技術(shù)來進(jìn)行初期的身份認(rèn)證工作。
圖1是語義信息確認(rèn)和聲紋識別的結(jié)合的結(jié)構(gòu)簡圖;圖2是結(jié)合語義和聲紋的說話人確認(rèn)系統(tǒng)注冊階段;圖3是結(jié)合語義和聲紋的說話人確認(rèn)系統(tǒng)確認(rèn)階段;具體實施方式
結(jié)合附圖對本發(fā)明作進(jìn)一步描述。
本發(fā)明包括如下幾個子系統(tǒng)特征提取、聲學(xué)模型建模、基于語義的說話人確認(rèn)VIV(語義信息確認(rèn))系統(tǒng)、文本有關(guān)和文本無關(guān)的聲紋確認(rèn)系統(tǒng)。本發(fā)明的總系統(tǒng)在使用時包括以下幾個階段1.注冊階段每個用戶在使用系統(tǒng)時,首先必須注冊每個用戶的私人信息,然后才能使用系統(tǒng)進(jìn)行身份確認(rèn)。與一般說話人識別系統(tǒng)一樣,結(jié)合語義和聲紋的說話人確認(rèn)系統(tǒng)仍然分為注冊和確認(rèn)兩部分,但兩部分的結(jié)構(gòu)和任務(wù)都有較大的不同。
注冊階段,系統(tǒng)需要完成的功能包括收集并存儲用戶的私人信息,建立相應(yīng)的目錄結(jié)構(gòu);收集每個注冊用戶的語料,訓(xùn)練文本無關(guān)的聲紋確認(rèn)中的目標(biāo)GMM模型(高斯混合模型)。
注冊階段的流程如圖2所示。
系統(tǒng)登錄時向用戶提問的問題是根據(jù)用戶注冊時填寫的個人信息產(chǎn)生的,因此必須考慮了收集信息項的針對性和區(qū)分度。在我們的系統(tǒng)中最后確定下面信息項姓名、籍貫、出生年月日、一項個人愛好、一本喜歡的書。
因為在進(jìn)行VIV(語義信息確認(rèn))和文本有關(guān)的聲紋確認(rèn)過程都需要根據(jù)私人信息來生成HMM復(fù)合模型(隱馬爾可夫模型),所以需要將用戶私人信息根據(jù)漢語的詞法和統(tǒng)計模型將漢字轉(zhuǎn)化為帶調(diào)拼音串。
對于文本無關(guān)的聲紋確認(rèn),每個用戶目標(biāo)模型從UBM(全局背景模型)自適應(yīng)訓(xùn)練得到。一般來說,從UBM自適應(yīng)得到一個目標(biāo)GMM需要1~2分鐘的語料,但考慮到系統(tǒng)的使用方便性,并且文本無關(guān)的聲紋確認(rèn)的性能可以從與VIV的結(jié)合中得到補(bǔ)償,所以我們選用的訓(xùn)練語料只有20~30秒。我們通過統(tǒng)計分析3年《人民日報》文本,得到一些覆蓋所有聲韻母(不考慮語調(diào)和協(xié)同發(fā)音)的文字。
2.確認(rèn)階段結(jié)合語義和聲紋的說話人確認(rèn)系統(tǒng)在確認(rèn)的時候又分為兩個階段,系統(tǒng)在每一個階段都同時提供了語義和聲紋的確認(rèn)●第一階段結(jié)合文本無關(guān)的聲紋確認(rèn)和VIV進(jìn)行聯(lián)合確認(rèn)●第二階段結(jié)合文本有關(guān)的聲紋確認(rèn)和VIV進(jìn)行聯(lián)合確認(rèn)文本有關(guān)的聲紋確認(rèn)性能要高于文本無關(guān)的聲紋確認(rèn),所以我們要盡可能快的切換到第二階段。兩個階段的切換取決于該用戶的目標(biāo)HMM是否已經(jīng)訓(xùn)練好(后臺自動進(jìn)行)。確認(rèn)階段的流程如圖3所示。
為了進(jìn)一步增加系統(tǒng)的安全性,確認(rèn)語句是從對應(yīng)用戶私人信息的5個問題中隨機(jī)抽取的,在實際使用時問題數(shù)目可以進(jìn)一步增加。
第二階段的文本有關(guān)的聲紋確認(rèn)一般需要多次訓(xùn)練語料來訓(xùn)練說話人的目標(biāo)HMM模型,這是一個比較冗長的過程,而且在單一的系統(tǒng)中很難保證訓(xùn)練語料的準(zhǔn)確性(比如我回答錯了問題,但系統(tǒng)也把這句話作為訓(xùn)練語料),這會造成模型的準(zhǔn)確性下降,直接影響了第二階段的確認(rèn)系統(tǒng)性能。
在我們的系統(tǒng)中,第一階段的確認(rèn)同時還擔(dān)負(fù)著為第二階段確認(rèn)搜集訓(xùn)練語料的任務(wù)。我們把這個搜集語料的過程隱藏在第一階段的確認(rèn)中,既讓用戶感覺不到這個過程的存在,大大增加系統(tǒng)的用戶友好性;同時只用通過了第一階段的確認(rèn)語句作為訓(xùn)練語料來訓(xùn)練說話人的目標(biāo)HMM模型,保證了訓(xùn)練語料是屬于該說話人的內(nèi)容正確的語音,這就大大加強(qiáng)了第二階段文本有關(guān)的聲紋確認(rèn)的準(zhǔn)確性。
我們的系統(tǒng)搜集到用戶5次以上的確認(rèn)語料時開始訓(xùn)練說話人的目標(biāo)HMM模型,并切換到第二階段確認(rèn)。隨著用戶登錄次數(shù)的增加,訓(xùn)練語料也越來越多,目標(biāo)HMM模型也越來越精確,根據(jù)前面的討論,系統(tǒng)的性能也隨之提高。
3.似然得分融合階段要同時對確認(rèn)語音進(jìn)行聲紋和語音的確認(rèn),而且使得兩個確認(rèn)的結(jié)果能夠結(jié)合起來,就必須使其結(jié)果在一個共同的標(biāo)準(zhǔn)下,所以我們還必須再次對似然得分進(jìn)行歸一化,使得基于聲紋的得分和基于語音的得分在假設(shè)檢驗的層次上是可以比較的。
VIV的似然得分的分布在0~1之間,而且可以直接反映系統(tǒng)的性能,所以我們選VIV的得分作為基準(zhǔn),將基于聲紋的說話人確認(rèn)的得分歸一化到0~1的范圍中來。同時,也必須按照同樣的尺度對門限進(jìn)行歸一化處理。最后,我們的比較判別準(zhǔn)則為 這里L(fēng)LRviv為VIV的得分,LLRvp為歸一化到0~1之間的聲紋確認(rèn)的得分,Tviv為VIV系統(tǒng)的門限Tvp為歸一化到0~1之間的聲紋確認(rèn)系統(tǒng)的門限,w為權(quán)重。
我們采樣分段線性函數(shù)對聲紋確認(rèn)的得分進(jìn)行歸一化。首先,找到聲紋確認(rèn)得分的最大值和最小值,然后用下式計算歸一化的似然得分LLRvp=min(LLRvporigin),ifLLRvporigin≤min(LLRvporigin)LLRvporigin-min(LLRvporigin)max(LLRvporigin)-min(LLRvporigin),ifmin(LLRvporigin)<LLRvporigin<max(LLRvporigin)max(LLRvporigin),ifLLRvporigin≥max(LLRvporigin)]]>對于聲紋確認(rèn)系統(tǒng)的門限,可以通過下式計算得到Tvp=Tvporigin-LLRvporiginmax(LLRvporigin)-min(LLRvporigin)]]>通過上面的分段線性映射,我們將基于聲紋的說話人確認(rèn)的最后得分和門限也歸一化到0~1之間,使其可以和VIV的得分直接相加進(jìn)行融合。
4.系統(tǒng)分析階段第一階段確認(rèn)性能在第一階段的VIV和文本無關(guān)的聲紋確認(rèn)的結(jié)合中,我們用每個測試者最后一次的5遍錄音中的5個問題(說話人相同,內(nèi)容相同)測試系統(tǒng)的錯誤拒絕率,錯誤接收率的測試分三種情況●說話人不同,內(nèi)容相同用每個測試者最后一次的5遍錄音中的最后一句話●說話人不同,內(nèi)容不同交叉使用最后一次的5遍錄音中的第一個問題去測試●說話人相同,內(nèi)容不同對每個問題對應(yīng)的文本進(jìn)行改動,比如將所有說話人的名字文本改為“張三豐”在第一階段VIV保證了確認(rèn)語句的內(nèi)容,而聲紋確認(rèn)則保證了說話人的正確性,對于單個系統(tǒng)是不能同時完成這些任務(wù)的。我們可以針對系統(tǒng)的要求不同,以及用戶對自己的私有信息的保密程度,對VIV和文本無關(guān)的聲紋確認(rèn)取不同的權(quán)重,平衡系統(tǒng)的性能。
第二階段確認(rèn)性能在第二階段的VIV和文本無有的聲紋確認(rèn)的結(jié)合中。我們用每個測試者的前兩次的10遍錄音訓(xùn)練每個人的目標(biāo)HMM模型,用最后一次的5遍錄音中的5個問題(說話人相同,內(nèi)容相同)測試系統(tǒng)的錯誤拒絕率,用每個測試者最后一次的5遍錄音中的最后一句話(說話人不同,內(nèi)容相同)以及交叉使用最后一次的5遍錄音中的第一個問題(說話人不同,內(nèi)容不同)去測試系統(tǒng)的錯誤接收率。
第二階段的系統(tǒng)性能要高于第一階段,而且也要高于單一采用語義確認(rèn)或者文本有關(guān)的聲紋確認(rèn)。對于寬帶系統(tǒng)來說,當(dāng)文本有關(guān)的聲紋確認(rèn)的權(quán)重取0.95時性能最好,而窄帶系統(tǒng)則在權(quán)重為0.85的時候性能最佳。
我們分別實現(xiàn)了一個寬帶和窄帶的結(jié)合語義和聲紋的說話人確認(rèn)系統(tǒng),可以看出,它有一些單一系統(tǒng)所不具備的優(yōu)勢,比如對用戶隱藏了訓(xùn)練過程,增加了系統(tǒng)的方便性;同時確認(rèn)語句的聲紋的內(nèi)容,增加了系統(tǒng)的安全性。
我們利用本發(fā)明系統(tǒng)已經(jīng)成功研制出可應(yīng)用的產(chǎn)品。我們的產(chǎn)品中采用的是美國Dialogic公司的D41/ESC型號的電話語音卡,在用戶撥入電話時自動接通并播放錄音與用戶交互,在用戶取消服務(wù)或服務(wù)結(jié)束之后自動切斷通話。系統(tǒng)開啟四個服務(wù)端口,支持同時接入四路電話,第一個端口作為用戶注冊使用,在注冊請求時自動開啟,完成用戶注冊的功能;余下三個端口均可一直開啟,隨時接收用戶電話撥入,接收用戶電話按鍵輸入,并語音提示用戶完成預(yù)定操作,同時錄制用戶聲音,利用結(jié)合了語義與聲紋的說話人確認(rèn)技術(shù)來確認(rèn)用戶身份,完成用戶確認(rèn)的功能。
權(quán)利要求1.一種結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng),其特征在于該系統(tǒng)包括外部設(shè)備和內(nèi)部子系統(tǒng)部分,外部設(shè)備包括電話語音卡和服務(wù)端口,內(nèi)部子系統(tǒng)部分包括特征提取部分、聲學(xué)模型建模部分、基于語義的說話人確認(rèn)VIV(語義信息確認(rèn))部分、文本有關(guān)和文本無關(guān)的聲紋確認(rèn)部分,各個子系統(tǒng)部分相互連接共同實現(xiàn)對說話人身份的確認(rèn)。
2.根據(jù)權(quán)利要求1所述的結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng),其特征在于使用時,通過使用一個電話語音卡,在用戶撥入電話時自動接通并播放錄音與用戶交互,使用中系統(tǒng)開啟四個服務(wù)端口,支持同時接入四路電話,第一個端口作為用戶注冊使用,在注冊請求時自動開啟,完成用戶注冊的功能;余下三個端口均可一直開啟,隨時接收用戶電話撥入,接收用戶電話按鍵輸入,并語音提示用戶完成預(yù)定操作,同時錄制用戶聲音,利用結(jié)合了語義與聲紋的說話人確認(rèn)技術(shù)來確認(rèn)用戶身份,完成用戶確認(rèn)的功能。
3.根據(jù)權(quán)利要求1所述的結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng),其特征是特征提取部分采用美標(biāo)度倒譜系數(shù)(MFCC)及其差分,而且,在基于聲紋的說話人確認(rèn)部分中,采用16階MFCC,并使用半升正弦窗進(jìn)行倒譜提升;在語義信息確認(rèn)部分中,采用12階MFCC,并使用升正弦窗進(jìn)行倒譜提升。
4.根據(jù)權(quán)利要求1所述的結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng),其特征是聲學(xué)模型建模部分采用兩種統(tǒng)計模型,一是隱馬爾可夫模型,二是高斯混合模型,隱馬爾可夫模型用于文本有關(guān)的聲學(xué)模型中,高斯模型用于文本無關(guān)的聲學(xué)模型中。
5.根據(jù)權(quán)利要求1所述的結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng),其特征是文本有關(guān)和文本無關(guān)的聲紋確認(rèn)部分建立了說話人確認(rèn)系統(tǒng),其中對于文本有關(guān)的聲紋確認(rèn)系統(tǒng)是基于HMM聲學(xué)建模的,而對于文本無關(guān)的圣文確認(rèn)是基于GMM聲學(xué)建模的,結(jié)合語義和聲紋的說話人確認(rèn)部分并融合了基于語義的說話人確認(rèn)系統(tǒng)和基于聲紋的說話人識別系統(tǒng)。
6.根據(jù)權(quán)利要求5所述的結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng),其特征是文本有關(guān)和文本無關(guān)的聲紋確認(rèn)部分在確認(rèn)說話人身份時又分為兩個階段,每一階段同時提供了語義和聲紋的確認(rèn)第一階段結(jié)合文本無關(guān)的聲紋確認(rèn)和VIV進(jìn)行聯(lián)合確認(rèn),第二階段結(jié)合文本有關(guān)的聲紋確認(rèn)和VIV進(jìn)行聯(lián)合確認(rèn)。
專利摘要一種結(jié)合語義和聲紋信息的說話人身份確認(rèn)系統(tǒng),其特征在于該裝置包括外部設(shè)備和內(nèi)部子系統(tǒng)部分,外部設(shè)備包括電話語音卡和服務(wù)端口,內(nèi)部子系統(tǒng)部分包括特征提取部分、聲學(xué)模型建模部分、基于語義的說話人確認(rèn)VIV(語義信息確認(rèn))部分、文本有關(guān)和文本無關(guān)的聲紋確認(rèn)部分,各個子系統(tǒng)部分相互連接共同實現(xiàn)對說話人身份的確認(rèn)我們的目的在于用語義信息確認(rèn)來替代基于聲紋確認(rèn)的訓(xùn)練過程,在基于聲紋確認(rèn)的準(zhǔn)備工作還沒有完成之前來進(jìn)行識別工作。同時語義信息確認(rèn)還可以幫助聲紋確認(rèn)搜集所需的訓(xùn)練語料,等基于聲紋識別的準(zhǔn)備工作完成之后,我們可以把二者結(jié)合起來,進(jìn)一步增強(qiáng)系統(tǒng)的安全性。
文檔編號G10L17/00GK2763935SQ20032012687
公開日2006年3月8日 申請日期2003年12月12日 優(yōu)先權(quán)日2003年12月12日
發(fā)明者遲惠生, 吳璽宏, 朱杰彬, 曲天書, 羅定生, 吳昊, 黃松芳 申請人:北京大學(xué), 遲惠生, 吳璽宏