欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲紋模型訓(xùn)練方法、聲紋識別方法及裝置的制造方法

文檔序號:10688571閱讀:602來源:國知局
聲紋模型訓(xùn)練方法、聲紋識別方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種聲紋模型訓(xùn)練方法、聲紋識別方法及裝置,屬于語音識別領(lǐng)域。所述方法包括:獲取未知用戶朗讀第二字符串所產(chǎn)生的測試語音信號,第二字符串包括按序排列的若干字符;從測試語音信號中提取出各個字符所對應(yīng)的聲紋特征序列;根據(jù)目標(biāo)用戶的與n種基礎(chǔ)字符分別對應(yīng)的n個GMM,構(gòu)建與第二字符串對應(yīng)的HMM;計(jì)算聲紋特征序列與HMM的相似度分?jǐn)?shù);當(dāng)相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將未知用戶識別目標(biāo)用戶。在本發(fā)明中,目標(biāo)用戶的與各個基礎(chǔ)字符分別對應(yīng)的GMM之間考慮了每種基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在音素層面的差異性,且HMM模型還考慮了各個基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在時域上的相關(guān)性,能夠極大地提高識別準(zhǔn)確率。
【專利說明】
聲紋模型訓(xùn)練方法、聲紋識別方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明實(shí)施例涉及語音識別領(lǐng)域,特別涉及一種聲紋模型訓(xùn)練方法、聲紋識別方 法及裝置。
【背景技術(shù)】
[0002] 聲紋識別是一種利用聲紋特征信息對未知用戶進(jìn)行身份確認(rèn)的技術(shù)。聲紋識別可 用于門禁系統(tǒng)、支付系統(tǒng)等需要識別用戶身份的場景。目前的聲紋識別通常采用文本相關(guān) 識別。
[0003] 聲紋識別通常包括兩個過程:目標(biāo)用戶的注冊過程和未知用戶的身份識別過程。 在目標(biāo)用戶的注冊過程中,系統(tǒng)會提供一個注冊字符串供目標(biāo)用戶朗讀,該注冊字符串通 常包括順序排列的若干個數(shù)字和/或字母,系統(tǒng)采集目標(biāo)用戶朗讀時產(chǎn)生的注冊語音信號, 并根據(jù)注冊語音信號訓(xùn)練得到目標(biāo)用戶的高斯混合模型(Gaussian Mixture Model,GMM); 在未知用戶的身份識別過程中,將未知用戶朗讀一個識別字符串時的測試語音信號與目標(biāo) 用戶的GMM進(jìn)行相似度匹配,當(dāng)相似度大于預(yù)設(shè)閾值時,將未知用戶識別為目標(biāo)用戶。
[0004] 在實(shí)現(xiàn)本發(fā)明實(shí)施例的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:在上述 方法中,注冊語音信號中與各個基礎(chǔ)字符對應(yīng)的音頻內(nèi)容存在相關(guān)性,該注冊語音信號包 含了豐富的信息用于表征未知用戶的特征,但目標(biāo)用戶的GMM是一種文本無關(guān)的模型,無法 利用注冊語音信號中豐富的信息。

【發(fā)明內(nèi)容】

[0005] 有鑒于此,本發(fā)明實(shí)施例提供了一種聲紋模型訓(xùn)練方法、聲紋識別方法及裝置。所 述技術(shù)方案如下:
[0006] 第一方面,提供了一種聲紋模型訓(xùn)練方法,所述方法包括:
[0007]采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號,所述第一字符串包括m個 按序排列的字符,所述m個字符包括η種互不相同的基礎(chǔ)字符,m和η均為正整數(shù)且m多η;
[0008] 從所述注冊語音信號中提取出每個字符所對應(yīng)的聲紋特征;
[0009] 以所述目標(biāo)用戶的各個所述字符所對應(yīng)的所述聲紋特征為第一樣本數(shù)據(jù),對預(yù)設(shè) 的通用背景模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的混合高斯模型;
[0010] 以所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),對所述 目標(biāo)用戶的所述混合高斯模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的 所述混合高斯模型;
[0011] 存儲所述目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型,所述η個混合 高斯模型用于構(gòu)建與第二字符串對應(yīng)的隱馬爾可夫模型。
[0012] 第二方面,提供了一種聲紋識別方法,所述方法包括:
[0013] 獲取未知用戶朗讀第二字符串所產(chǎn)生的測試語音信號,所述第二字符串包括k個 按序排列的字符,所述k個字符包括η種互不相同的基礎(chǔ)字符中的全部字符或部分字符,k和 η均為正整數(shù);
[0014] 從所述測試語音信號中提取出各個字符所對應(yīng)的聲紋特征序列;
[0015] 根據(jù)目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型,構(gòu)建與所述第二字 符串對應(yīng)的隱馬爾科夫模型;
[0016] 計(jì)算所述聲紋特征序列與所述隱馬爾科夫模型的相似度分?jǐn)?shù);
[0017] 當(dāng)所述相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將所述未知用戶識別所述目標(biāo)用戶。
[0018] 第三方面,提供了一種聲紋模型訓(xùn)練裝置,所述裝置包括:
[0019] 采集模塊,用于采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號,所述第一 字符串包括m個按序排列的字符,所述m個字符包括η種互不相同的基礎(chǔ)字符,m和η均為正整 數(shù)且m彡η;
[0020] 提取模塊,用于從所述注冊語音信號中提取出每個字符所對應(yīng)的聲紋特征;
[0021 ]第一訓(xùn)練模塊,用于以所述目標(biāo)用戶的各個所述字符所對應(yīng)的所述聲紋特征為第 一樣本數(shù)據(jù),對預(yù)設(shè)的通用背景模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的混合高斯模型;
[0022] 第二訓(xùn)練模塊,用于以所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第 二樣本數(shù)據(jù),對所述目標(biāo)用戶的所述混合高斯模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的與第i種 基礎(chǔ)字符所對應(yīng)的所述混合高斯模型;
[0023] 存儲模塊,用于存儲所述目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模 型,所述η個混合高斯模型用于構(gòu)建與第二字符串對應(yīng)的隱馬爾可夫模型。
[0024] 第四方面,提供了一種聲紋識別裝置,所述裝置包括:
[0025] 獲取模塊,用于獲取未知用戶朗讀第二字符串所產(chǎn)生的測試語音信號,所述第二 字符串包括k個按序排列的字符,所述k個字符包括η種互不相同的基礎(chǔ)字符中的全部字符 或部分字符,k和η均為正整數(shù);
[0026] 提取模塊,用于從所述測試語音信號中提取出各個字符所對應(yīng)的聲紋特征序列;
[0027] 構(gòu)建模塊,用于根據(jù)目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型,構(gòu) 建與所述第二字符串對應(yīng)的隱馬爾科夫模型;
[0028] 計(jì)算模塊,用于計(jì)算所述聲紋特征序列與所述隱馬爾科夫模型的相似度分?jǐn)?shù); [0029]識別模塊,用于當(dāng)所述相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將所述未知用戶識別所述目 標(biāo)用戶。
[0030] 本發(fā)明實(shí)施例提供的聲紋模型訓(xùn)練方法帶來的有益效果是:
[0031] 通過根據(jù)目標(biāo)用戶的各個字符所對應(yīng)的聲紋特征,將UBM訓(xùn)練得到目標(biāo)用戶的 GMM,將目標(biāo)用戶的GMM訓(xùn)練得到目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個GMM,n個GMM用于 構(gòu)建與第二字符串對應(yīng)的HMM;解決了目標(biāo)用戶的GMM是一個文本無關(guān)的模型,無法利用注 冊語音信號中豐富的信息的問題;達(dá)到了對于每個目標(biāo)用戶,訓(xùn)練得到與若干個基礎(chǔ)字符 分別對應(yīng)的GMM,各個GMM之間考慮了每種基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在音素層面的差異性, 此外該若干個GMM還能夠用于構(gòu)建與識別字符串所對應(yīng)的HMM模型,HMM模型還考慮了各個 基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在時域上的相關(guān)性,從而能夠極大地增加目標(biāo)用戶的聲紋模型在 身份識別階段的識別準(zhǔn)確率;
[0032] 本發(fā)明實(shí)施例提供的聲紋識別方法帶來的有益效果是:
[0033] 通過將測試語音信號的聲紋特征序列,與多個基礎(chǔ)字符對應(yīng)的GMM所構(gòu)建的HMM計(jì) 算相似度分?jǐn)?shù),從而對未知用戶進(jìn)行身份識別;解決了目標(biāo)用戶的GMM是一個文本無關(guān)的模 型,無法利用注冊語音信號中豐富的信息的問題;達(dá)到了對于每個目標(biāo)用戶,與各個基礎(chǔ)字 符分別對應(yīng)的GMM之間考慮了每種基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在音素層面的差異性,且HMM模 型還考慮了各個基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在時域上的相關(guān)性,從而能夠極大地增加目標(biāo)用 戶的聲紋模型在身份識別階段的識別準(zhǔn)確率。
【附圖說明】
[0034] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0035] 圖1是本發(fā)明一個實(shí)施例提供的基于隨機(jī)字符串的聲紋識別方法的原理示意圖;
[0036] 圖2是本發(fā)明一個實(shí)施例提供的聲紋模型訓(xùn)練方法的流程圖;
[0037]圖3是圖2所示聲紋模型訓(xùn)練方法的原理示意圖;
[0038] 圖4是本發(fā)明另一個實(shí)施例提供的聲紋模型訓(xùn)練方法的流程圖;
[0039] 圖5是圖4所示聲紋模型訓(xùn)練方法所涉及的語音信息標(biāo)注過程的原理示意圖;
[0040] 圖6是圖4所示聲紋模型訓(xùn)練方法所涉及的模型訓(xùn)練過程的原理示意圖;
[0041 ]圖7是本發(fā)明一個實(shí)施例提供的聲紋識別方法的流程圖;
[0042] 圖8是本發(fā)明另一個實(shí)施例提供的聲紋識別方法的流程圖;
[0043] 圖9是圖8所示聲紋識別方法所構(gòu)建的HMM的模型示意圖;
[0044] 圖10是本發(fā)明一個實(shí)施例提供的聲紋模型訓(xùn)練裝置的方框圖;
[0045]圖11是本發(fā)明另一個實(shí)施例提供的聲紋識別裝置的方框圖。
【具體實(shí)施方式】
[0046] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0047] 本發(fā)明實(shí)施例提供了一種基于隨機(jī)字符串的聲紋識別方法及裝置。該基于隨機(jī)字 符串的聲紋識別方法及裝置可應(yīng)用于所有需要識別未知用戶身份的場景中。用于生成隨機(jī) 字符串的基礎(chǔ)字符可以是阿拉伯?dāng)?shù)字、英文字母或其他語言字符等,每個基礎(chǔ)字符通常是 一個數(shù)字或一個字符,但不排除若干個數(shù)字或若干個字符的整體作為一個基礎(chǔ)字符的可能 性。為了簡化描述,本發(fā)明實(shí)施例中以每個基礎(chǔ)字符為一個阿拉伯?dāng)?shù)字為例來舉例說明。
[0048] 基于隨機(jī)字符串的聲紋識別方法分為兩個階段,如圖1所示:
[0049] 第一,目標(biāo)用戶的注冊階段12;
[0050] 在注冊階段,聲紋識別裝置隨機(jī)生成一個注冊字符串,并在顯示界面中顯示該數(shù) 字字符串。目標(biāo)用戶朗讀該注冊字符串,聲紋識別裝置采集該目標(biāo)用戶在朗讀時的注冊語 音信號,然后對注冊語音信號進(jìn)行聲紋特征提取和聲紋模型訓(xùn)練,得到目標(biāo)用戶的聲紋模 型。在每個目標(biāo)用戶的聲紋模型中,包含若干個GMM(Gaussian Mixture Model,混合高斯模 型),每個GMM與一種數(shù)字對應(yīng)。
[0051 ]比如,該注冊字符串是數(shù)字字符串0185851,包含了四種數(shù)字"0"、"Γ、"5"、"8",則 每個目標(biāo)用戶的聲紋模型中,包含與數(shù)字"〇"對應(yīng)的GMM、與數(shù)字T對應(yīng)的GMM、與數(shù)字"5" 對應(yīng)的GMM、與數(shù)字"8"對應(yīng)的GMM。
[0052]第二,未知用戶的身份識別階段14。
[0053]在身份識別階段,聲紋識別裝置再根據(jù)數(shù)字集合"0"、"Γ、"5"和"8"隨機(jī)生成一個 識別字符串,并在顯示界面中顯示該識別字符串,未知用戶朗讀該識別字符串,聲紋識別裝 置采集該未知用戶在朗讀時的測試語音信號,然后對測試語音信號進(jìn)行聲紋特征提取,采 用各個目標(biāo)用戶對應(yīng)的聲紋模型構(gòu)建與數(shù)字字符串對應(yīng)的HMM(Hidden Markov Model,隱 馬爾科夫模型),計(jì)算未知用戶的聲紋特征與各個HMM的相似度,將相似度最高且相似度高 于閾值的一個HMM所對應(yīng)的目標(biāo)用戶,作為未知用戶的身份識別結(jié)果。
[0054]比如,再次隨機(jī)生成的識別字符串為數(shù)字字符串85851510,則聲紋識別裝置根據(jù) 每個目標(biāo)用戶的與數(shù)字"〇"、"Γ、"5"、"8"各自對應(yīng)的GMM,構(gòu)建與識別字符串"85851510"對 應(yīng)的HMM,計(jì)算未知用戶的聲紋特征與各個目標(biāo)用戶的HMM的相似度,在相似度最高且相似 度高于閾值的HMM是目標(biāo)用戶B時,將目標(biāo)用戶B作為未知用戶的身份識別結(jié)果。
[0055] 下面采用不同的實(shí)施例對上述兩個過程分別進(jìn)行闡述。
[0056] 圖2示出了本發(fā)明一個實(shí)施例提供的聲紋模型訓(xùn)練方法的方法流程圖。該聲紋模 型訓(xùn)練方法可以應(yīng)用于聲紋識別系統(tǒng)中。該聲紋模型訓(xùn)練方法包括:
[0057]步驟201,采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號,預(yù)定字符串包括 m個按序排列的字符,m個字符包括η種互不相同的基礎(chǔ)字符;
[0058]第一字符串是用于目標(biāo)用戶的注冊階段的字符串??蛇x地,該第一字符串是隨機(jī) 生成的字符串。m,n均為正整數(shù),且m彡η。
[0059]比如,第一字符串是"12358948",共8個字符,包括了7種互不相同的基礎(chǔ)字符"1"、 "2,,"3,,"4,,"5,,"8,,"9,,
[0060]步驟202,從注冊語音信號中提取出每個字符所對應(yīng)的聲紋特征;
[0061]比如,從原始語音信號中提取出與字符"Γ對應(yīng)的語音片段、與字符"Γ對應(yīng)的語 音片段、與字符"2"對應(yīng)的語音片段、與字符"3"對應(yīng)的語音片段、與字符"4"對應(yīng)的語音片 段、與字符"5"對應(yīng)的語音片段、與字符"8"對應(yīng)的語音片段、與字符"9"對應(yīng)的語音片段。
[0062]然后,從每個字符對應(yīng)的語音片段中提取與該字符對應(yīng)的聲紋特征。
[0063]步驟203,根據(jù)目標(biāo)用戶的各個字符所對應(yīng)的聲紋特征為第一樣本數(shù)據(jù),對預(yù)設(shè)的 UBM進(jìn)行訓(xùn)練,得到目標(biāo)用戶的GMM;
[0064] UBM(Universal Background Model,通用背景模型)是預(yù)先構(gòu)建的全部由數(shù)字訓(xùn) 練得到的通用模型。UBM具有身份無關(guān)且文本無關(guān)的特性。身份無關(guān)是指UBM不考慮用戶身 份差異,不對應(yīng)某一個或某幾個特定的用戶;文本無關(guān)是指UBM不考慮數(shù)字(字符)差異,不 對應(yīng)某一個或某幾個特定的數(shù)字,如圖3中的UBM32所示。
[0065] 可選地,采用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)根據(jù)目標(biāo)用戶的各 個聲紋特征,對UBM中的參數(shù)進(jìn)行調(diào)整,從而自適應(yīng)得到目標(biāo)用戶的GMM。
[0066]目標(biāo)用戶的GMM具有身份相關(guān)且文本無關(guān)的特征。身份相關(guān)是指該GMM對應(yīng)特定的 目標(biāo)用戶;文本無關(guān)是指該GMM不考慮數(shù)字(基礎(chǔ)字符)差異,不對應(yīng)某一個或某幾個特定的 數(shù)字,如圖3中的目標(biāo)用戶的GMM34所示。
[0067]步驟204,以目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),對 目標(biāo)用戶的GMM進(jìn)行訓(xùn)練,得到目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的GMM;
[0068] 可選地,采用最大后驗(yàn)概率(Maximum A Posteriori,MAP)算法根據(jù)目標(biāo)用戶的與 第i種字符所對應(yīng)的聲紋特征,對目標(biāo)用戶的GMM中的參數(shù)進(jìn)行調(diào)整,從而自適應(yīng)得到目標(biāo) 用戶的與第i種基礎(chǔ)字符所對應(yīng)的GMM。與第i種基礎(chǔ)字符所對應(yīng)的GMM具有身份相關(guān)且文本 相關(guān)的特征,身份相關(guān)是指該GMM對應(yīng)特定的目標(biāo)用戶;文本相關(guān)是指該GMM對應(yīng)特定的數(shù) 字,如圖3中的與各種基礎(chǔ)字符分別對應(yīng)的GMM36所示。
[0069] 比如,根據(jù)目標(biāo)用戶A的與數(shù)字"8"所對應(yīng)的聲紋特征,對目標(biāo)用戶A的GMM中的參 數(shù)進(jìn)行調(diào)整,從而得到目標(biāo)用戶A的與數(shù)字"8"所對應(yīng)的GMM。
[0070] 重復(fù)執(zhí)行步驟204,得到目標(biāo)用戶的與各個單個字符分別對應(yīng)的η個GMM。
[0071] 步驟205,存儲目標(biāo)用戶的與η種單個字符分別對應(yīng)的η個GMM,n個GMM用于構(gòu)建與 第二字符串對應(yīng)的HMM。
[0072]存儲目標(biāo)用戶的η個GMM至模型庫,以便在后續(xù)未知用戶的身份識別階段中,使用 目標(biāo)用戶的η個GMM構(gòu)建與第二字符串對應(yīng)的ΗΜΜ。
[0073]綜上所述,本實(shí)施例提供的聲紋模型訓(xùn)練方法,通過根據(jù)目標(biāo)用戶的各個字符所 對應(yīng)的聲紋特征,將UBM訓(xùn)練得到目標(biāo)用戶的GMM,將目標(biāo)用戶的GMM訓(xùn)練得到目標(biāo)用戶的與 η種基礎(chǔ)字符分別對應(yīng)的η個GMM,n個GMM用于構(gòu)建與第二字符串對應(yīng)的ΗΜΜ;解決了目標(biāo)用 戶的GMM是一個文本無關(guān)的模型,無法利用注冊語音信號中豐富的信息的問題;達(dá)到了對于 每個目標(biāo)用戶,訓(xùn)練得到與若干個基礎(chǔ)字符分別對應(yīng)的GMM,各個GMM之間考慮了每種基礎(chǔ) 字符對應(yīng)的音頻內(nèi)容在音素層面的差異性,此外該若干個GMM還能夠用于構(gòu)建與識別字符 串所對應(yīng)的HMM模型,HMM模型還考慮了各個基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在時域上的相關(guān)性, 從而能夠極大地增加目標(biāo)用戶的聲紋模型在身份識別階段的識別準(zhǔn)確率。
[0074]圖4示出了本發(fā)明一個實(shí)施例提供的聲紋模型訓(xùn)練方法的方法流程圖。該聲紋模 型訓(xùn)練方法可以應(yīng)用于聲紋識別系統(tǒng)中。本實(shí)施例以該聲紋模型訓(xùn)練方法包括:
[0075]步驟401,隨機(jī)生成第一字符串并進(jìn)行顯示。
[0076] 可選地,聲紋識別系統(tǒng)中存儲有基礎(chǔ)字符集合。以基礎(chǔ)字符是數(shù)字為例,基礎(chǔ)字符 集合包括:〇、1、2、3、4、5、6、7、8、9。
[0077] 可選地,聲紋識別系統(tǒng)以基礎(chǔ)字符集合中的基礎(chǔ)字符為元素,按照隨機(jī)算法隨機(jī) 生成第一字符串。第一字符串包括m個按序排列的字符,m個字符包括η種互不相同的基礎(chǔ)字 符,m和η均為正整數(shù)且m多η。也即,每個基礎(chǔ)字符可在第一字符串中的不同字符位置出現(xiàn)多 次??蛇x地,為了提高模型覆蓋率,第一字符串可包括基礎(chǔ)字符集合中的全部基礎(chǔ)字符。 [0078] 比如,第一字符串為1981753651240;又比如,第一字符串為01580518。
[0079]聲紋識別系統(tǒng)將第一字符串顯示在顯示屏上,供待注冊的目標(biāo)用戶朗讀。可選地, 聲紋識別系統(tǒng)還在顯示屏上顯示輔助信息,示意性的輔助信息為"請?jiān)谔崾疽艉?,朗讀出下 述數(shù)字串:01580518"。
[0080] 可選地,除了隨機(jī)生成方式之外,第一字符串還可以是預(yù)設(shè)的固定不變的字符串。
[0081] 步驟402,采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號。
[0082] 聲紋識別系統(tǒng)通過麥克風(fēng)采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號。
[0083] 步驟403,識別注冊語音信號中的有效語音片段和無效語音片段。
[0084] 由于目標(biāo)用戶在朗讀各個字符時,相鄰兩個字符之間存在停頓時間,所以注冊語 音信號中即包括有效語音片段,又包括無效語音片段。無效語音片段可以是完全靜音的片 段,即靜音段;也可以是包含噪音的片段,即噪音段。
[0085] 聲紋識別系統(tǒng)需要識別出注冊語音信號中的有效語音片段和無效語音片段。圖5 示意性的示出了該識別過程的原理示意圖。聲紋識別系統(tǒng)通過語音識別引擎對注冊語音信 號50進(jìn)行標(biāo)注,兩個相鄰的有效語音片段(圖中波形信號所在的語音片段)之間的區(qū)域?yàn)闊o 效語音片段,不參與后續(xù)的計(jì)算過程。
[0086] 可選地,對注冊語音信號進(jìn)行標(biāo)注后,相應(yīng)的語音標(biāo)注信息按照(起始時刻、終止 時刻、基礎(chǔ)字符)的格式進(jìn)行保存,例如圖4的語音標(biāo)注信息如表一所示:
[0087] 表一
[0089] 其中,1.86是指第一個基礎(chǔ)字符"0"在注冊語音信號中的起始時刻,2.36是指第一 個基礎(chǔ)字符"〇"在注冊語音信號中的終止時刻;3.07是指第二個基礎(chǔ)字符"Γ在注冊語音信 號中的起始時刻,3.60是指第二個基礎(chǔ)字符"Γ在注冊語音信號中的終止時刻;10.11是指 最后一個基礎(chǔ)字符"8"在注冊語音信號中的起始時刻,10.55是指最后一個基礎(chǔ)字符"8"在 注冊語音信號中的終止時刻。
[0090] 步驟404,將注冊語音信號中的第j個有效語音片段,提取為與第一字符串中的第j 個字符所對應(yīng)的語音片段。
[0091] 聲紋識別系統(tǒng)將注冊語音信號中的第一個有效語音片段,提取為與第一字符串中 的第一個字符所對應(yīng)的語音片段;將注冊語音信號中的第二個有效語音片段,提取為與第 一字符串中的第二個字符所對應(yīng)的語音片段,以此類推,注冊語音信號中的最后一個有效 語音片段,提取為與第一字符串中的最后一個字符所對應(yīng)的語音片段。
[0092] 比如,結(jié)合圖5,將注冊語音信號中"1.86-2.36"所對應(yīng)的語音片段提取為與第一 個字符"0"對應(yīng)的語音片段。
[0093] 步驟405,提取與第j個字符所對應(yīng)的語音片段的聲紋特征。
[0094] 每個語音片段相當(dāng)于一個短時語音幀序列,聲紋識別系統(tǒng)提取與第j個字符所對 應(yīng)的語音片段中的MFCC(Mel Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或PLP (Perceptual Linear Predict ive,感知線性預(yù)測系數(shù)),作為與第j個字符所對應(yīng)的語音 片段的聲紋特征。
[0095]需要說明的是,j為大于等于1且小于等于m個正整數(shù)??蛇x地,存在位于不同排序 位置但實(shí)質(zhì)相同的字符,比如在第一字符串"01580518"中,第一個字符和第五個字符均為 基礎(chǔ)字符"0",此時可提取到與基礎(chǔ)字符"0"對應(yīng)的兩個聲紋特征。
[0096]若第一字符串中包括η種基礎(chǔ)字符,則可得到與η種基礎(chǔ)字符分別對應(yīng)的聲紋特 征。
[0097]步驟406,以目標(biāo)用戶的各個基礎(chǔ)字符所對應(yīng)的聲紋特征為第一樣本數(shù)據(jù),采用最 大后驗(yàn)概率算法對預(yù)設(shè)的UBM中的參數(shù)進(jìn)行調(diào)整,得到目標(biāo)用戶的GMM。
[0098] UBM是預(yù)先構(gòu)建的全部由數(shù)字訓(xùn)練得到的通用背景模型。UBM具有身份無關(guān)且文本 無關(guān)的特性。示意性的,采用人數(shù)大于1000人、時長超過20小時的語音樣本,不考慮數(shù)字的 差異,訓(xùn)練得到UBM。
[0099] UBM的數(shù)學(xué)表達(dá)式為:
[0100]
[0101] 其中,P(X)代表UBM的概率分布,C代表UBM中共有C個高斯模塊,進(jìn)行加和,COi代表 第i個高斯模塊的權(quán)重,代表第i個高斯模塊的均值,N(X)代表高斯分布,X代表輸入的樣 本,樣本也即聲紋特征。
[0102] 在本步驟中,不考慮基礎(chǔ)字符之間的特征差異,將目標(biāo)用戶的所有基礎(chǔ)字符對應(yīng) 的所有聲紋特征作為輸入的第一樣本數(shù)據(jù),對UBM進(jìn)行訓(xùn)練。在訓(xùn)練過程中,通過最大后驗(yàn) 概率算法對UBM中的參數(shù)進(jìn)行調(diào)整,從而得到目標(biāo)用戶的GMM。
[0103] 步驟407,以目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),采 用最大后驗(yàn)概率算法對目標(biāo)用戶的GMM中的參數(shù)進(jìn)行調(diào)整,得到目標(biāo)用戶的與第i種基礎(chǔ)字 符所對應(yīng)的GMM。
[0104] 在本步驟中,需要考慮基礎(chǔ)字符之間的特征差異,只使用于第i種基礎(chǔ)字符所對應(yīng) 的聲紋特征作為輸入的第二樣本數(shù)據(jù),對目標(biāo)用戶的GMM進(jìn)行二次訓(xùn)練。在訓(xùn)練過程中,通 過最大后驗(yàn)概率算法對目標(biāo)用戶的GMM中的參數(shù)進(jìn)行調(diào)整,得到目標(biāo)用戶的與第i種基礎(chǔ)字 符所對應(yīng)的GMM。
[0105] 比如,根據(jù)目標(biāo)用戶的與數(shù)字"0"所對應(yīng)的聲紋特征作為輸入樣本,對目標(biāo)用戶的 GMM進(jìn)行二次訓(xùn)練,得到目標(biāo)用戶的與數(shù)字"0"所對應(yīng)的聲紋特征。
[0106] 當(dāng)存在η種基礎(chǔ)字符對應(yīng)的聲紋特征時,執(zhí)行步驟407后,聲紋識別系統(tǒng)檢測i是否 等于n,若i小于n,則令i = i+l,再次執(zhí)行步驟407。
[0107] 對于每個目標(biāo)用戶,最終訓(xùn)練得到與η種基礎(chǔ)字符分別對應(yīng)的η個GMM,基礎(chǔ)字符與 GMM--對應(yīng),
[0108] 示意性的參考圖6,第一字符串是01580518,最終訓(xùn)練得到目標(biāo)用戶的聲紋模型 中,包括與4個基礎(chǔ)字符對應(yīng)的GMM,分別是ID_0對應(yīng)的GMM、ID_1對應(yīng)的G麗、ID_5對應(yīng)的 GMM、ID_8 對應(yīng)的 GMM。
[0109] 步驟408,存儲目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個G麗,η個G麗用于構(gòu)建與 第二字符串對應(yīng)的ΗΜΜ。
[0110] 聲紋識別模塊存儲目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個GMM。
[0111] 第二字符串是身份識別過程中所使用的字符串??蛇x的,第二字符串是基于η種基 礎(chǔ)字符中的全部字符或部分字符所隨機(jī)生成的字符串。每種基礎(chǔ)字符可在第二字符串的不 同順序位置出現(xiàn),且每種基礎(chǔ)字符可在第二字符串的不同順序位置出現(xiàn)多次。
[0112] 綜上所述,本實(shí)施例提供的聲紋模型訓(xùn)練方法,通過根據(jù)目標(biāo)用戶的各個字符所 對應(yīng)的聲紋特征,將UBM訓(xùn)練得到目標(biāo)用戶的GMM,將目標(biāo)用戶的GMM訓(xùn)練得到目標(biāo)用戶的與 η種基礎(chǔ)字符分別對應(yīng)的η個GMM,n個GMM用于構(gòu)建與第二字符串對應(yīng)的ΗΜΜ;解決了目標(biāo)用 戶的GMM是一個文本無關(guān)的模型,無法利用注冊語音信號中豐富的信息的問題;達(dá)到了對于 每個目標(biāo)用戶,訓(xùn)練得到與若干個基礎(chǔ)字符分別對應(yīng)的GMM,各個GMM之間考慮了每種基礎(chǔ) 字符對應(yīng)的音頻內(nèi)容在音素層面的差異性,此外該若干個GMM還能夠用于構(gòu)建與識別字符 串所對應(yīng)的HMM模型,HMM模型還考慮了各個基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在時域上的相關(guān)性, 從而能夠極大地增加目標(biāo)用戶的聲紋模型在身份識別階段的識別準(zhǔn)確率。
[0113] 圖7示出了本發(fā)明一個實(shí)施例提供的聲紋識別方法的流程圖。該聲紋識別方法可 應(yīng)用于聲紋識別系統(tǒng)中,該聲紋識別系統(tǒng)可以與圖2或圖4所提及的聲紋識別系統(tǒng)屬于同一 設(shè)備,也可以與圖2或圖4所提及的聲紋識別系統(tǒng)屬于不同設(shè)備。該聲紋識別方法包括:
[0114] 步驟701,獲取未知用戶朗讀第二字符串所產(chǎn)生的測試語音信號。
[0115] 可選地,第二字符串包括k個按序排列的字符,k個字符包括η種互不相同的基礎(chǔ)字 符中的全部字符或部分字符,k和η均為正整數(shù)。
[0116] 可選地,η種互不相同的基礎(chǔ)字符是目標(biāo)用戶的注冊過程所使用的η種基礎(chǔ)字符。
[0117] 可選地,第二字符串是隨機(jī)生成的或固定不變的,第二字符串與第一字符串相同 或不相同均可。比如,第二字符串是數(shù)字字符串"851185"。
[0118] 步驟702,從注冊語音信號中提取出各個字符所對應(yīng)的聲紋特征序列。
[0119] 步驟703,根據(jù)目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個GMM,構(gòu)建與第二字符串 對應(yīng)的ΗΜΜ。
[0120] 比如,目標(biāo)用戶的η個GMM包括與4個基礎(chǔ)字符對應(yīng)的GMM,分別是ID_0對應(yīng)的GMM、 ID_1對應(yīng)的GMM、ID_5對應(yīng)的GMM、ID_8對應(yīng)的GMM。
[0121] 由于第二字符串僅包括基礎(chǔ)字符"Γ "5" "8",則利用ID j對應(yīng)的GMM、ID_5對應(yīng)的 G麗、ID_8對應(yīng)的(MM,構(gòu)建出與第二字符串"851185"對應(yīng)的HMM。
[0122] 步驟704,計(jì)算測試語音信號與隱馬爾科夫模型的相似度分?jǐn)?shù)。
[0123] 步驟705,當(dāng)相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將未知用戶識別目標(biāo)用戶。
[0124] 綜上所述,本實(shí)施例提供的聲紋識別方法,通過將測試語音信號的聲紋特征序列, 與多個基礎(chǔ)字符對應(yīng)的GMM所構(gòu)建的HMM計(jì)算相似度分?jǐn)?shù),從而對未知用戶進(jìn)行身份識別; 解決了目標(biāo)用戶的GMM是一個文本無關(guān)的模型,無法利用注冊語音信號中豐富的信息的問 題;達(dá)到了對于每個目標(biāo)用戶,與各個基礎(chǔ)字符分別對應(yīng)的GMM之間考慮了每種基礎(chǔ)字符對 應(yīng)的音頻內(nèi)容在音素層面的差異性,且HMM模型還考慮了各個基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在 時域上的相關(guān)性,從而能夠極大地增加目標(biāo)用戶的聲紋模型在身份識別階段的識別準(zhǔn)確 率。
[0125] 圖8示出了本發(fā)明一個實(shí)施例提供的聲紋識別方法的流程圖。該聲紋識別方法可 應(yīng)用于聲紋識別系統(tǒng)中,該聲紋識別系統(tǒng)可以與圖2或圖4所提及的聲紋識別系統(tǒng)屬于同一 設(shè)備,也可以與圖2或圖4所提及的聲紋識別系統(tǒng)屬于不同設(shè)備。該聲紋識別方法包括:
[0126] 步驟801,基于η種基礎(chǔ)字符,隨機(jī)生成第二字符串并進(jìn)行顯示。
[0127] 可選地,聲紋識別系統(tǒng)中存儲有基礎(chǔ)字符集合。以基礎(chǔ)字符是數(shù)字為例,基礎(chǔ)字符 集合可以包括:〇、1、2、3、4、5、6、7、8、9。
[0128] 可選地,聲紋識別系統(tǒng)以基礎(chǔ)字符集合中的基礎(chǔ)字符為元素,按照隨機(jī)算法隨機(jī) 生成第二字符串。第二字符串包括k個按序排列的字符,k個字符包括η種互不相同的基礎(chǔ)字 符中的全部字符或部分字符,k和η均為正整數(shù),通常k^n。也即,一個基礎(chǔ)字符可在第二字 符串中的不同字符位置出現(xiàn)多次。比如,第二字符串為851185。
[0129]可選地,η種互不相同的基礎(chǔ)字符是目標(biāo)用戶的注冊過程所使用的η種基礎(chǔ)字符。 [0130]聲紋識別系統(tǒng)將第二字符串顯示在顯示屏上,供未知用戶朗讀??蛇x地,聲紋識別 系統(tǒng)還在顯示屏上顯示輔助信息,示意性的輔助信息為"請?jiān)谔崾疽艉?,朗讀出下述數(shù)字 串:851185"。
[0131] 可選地,除了隨機(jī)生成方式之外,第二字符串還可以是預(yù)設(shè)的固定不變的字符串。
[0132] 步驟802,從測試語音信號中提取出各個字符所對應(yīng)的聲紋特征序列;
[0133] 由于未知用戶在朗讀各個字符時,相鄰兩個字符之間存在停頓時間,所以測試語 音信號中即包括有效語音片段,又包括無效語音片段。無效語音片段可以是靜音段或噪音 段。
[0134] 聲紋識別系統(tǒng)識別出測試語音信號中的有效語音片段和無效語音片段,并對有效 語音片段進(jìn)行標(biāo)注。該過程可以參考步驟403中的相關(guān)描述。
[0135] 聲紋識別系統(tǒng)將測試語音信號中的第j個有效語音片段,提取為與第一字符串中 的第j個字符所對應(yīng)的語音片段,并提取與第j個字符所對應(yīng)的語音片段的聲紋特征。
[0136] 每個語音片段相當(dāng)于一個短時語音幀序列,聲紋識別系統(tǒng)提取與第j個字符所對 應(yīng)的語音片段中的MFCC或PLP,作為與第j個字符所對應(yīng)的語音片段的聲紋特征。由于測試 語音信號中包括k個字符,所以聲紋識別系統(tǒng)能夠提取到按序排列的k組聲紋特征,每組聲 紋特征中包括數(shù)量不等的語音幀的MFCC或PLP,所有的聲紋特征按照時間戳進(jìn)行排序后,形 成測試語音信號的聲紋特征序列。
[0137]比如,對于第1個字符"8",提取到時長1000毫秒的一組聲紋特征,若每個語音幀的 幀長為20毫秒左右,則該組聲紋特征中存在大約50個聲紋特征;對于第2個字符"5",提取到 時長10 20暈秒的一組聲紋特征,若每個語音幀的幀長為2 0暈秒左右,則該組聲紋特征中存 在大約51個聲紋特征,諸如此類,不再--贅述。
[0138]換句話說,在不同時刻順序排列的50個聲紋特征均對應(yīng)于第1個字符"8",在隨后 排列的51個聲紋特征均對應(yīng)于第2個字符"5",諸如此類,不再一一贅述。
[0139]步驟803,獲取第二字符串的第X個字符,從目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的 η個GMM中,將與第X個字符對應(yīng)的GMM,確定為隱馬爾科夫模型的第X階狀態(tài)模型;
[0140] 以第二字符串為"851185"為例,獲取第二字符串的第1個字符"8",從目標(biāo)用戶的 與η種基礎(chǔ)字符分別對應(yīng)的η個GMM中,將與第1個字符"8"對應(yīng)的GMM,確定為隱馬爾科夫模 型的第1階狀態(tài)模型;
[0141] 獲取第二字符串的第1個字符"8",從目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個 GMM中,將與第1個字符"8"對應(yīng)的GMM,確定為隱馬爾科夫模型的第1階狀態(tài)模型;
[0142] 獲取第二字符串的第2個字符"5",從目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個 GMM中,將與第2個字符"5"對應(yīng)的GMM,確定為隱馬爾科夫模型的第2階狀態(tài)模型;
[0143]獲取第二字符串的第3個字符"1",從目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個 GMM中,將與第3個字符"Γ對應(yīng)的GMM,確定為隱馬爾科夫模型的第3階狀態(tài)模型;
[0144]獲取第二字符串的第4個字符"1",從目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個 GMM中,將與第4個字符"Γ對應(yīng)的GMM,確定為隱馬爾科夫模型的第4階狀態(tài)模型;
[0145]獲取第二字符串的第5個字符"8",從目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個 GMM中,將與第5個字符"8"對應(yīng)的GMM,確定為隱馬爾科夫模型的第5階狀態(tài)模型;
[0146] 獲取第二字符串的第6個字符"5",從目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個 GMM中,將與第6個字符"5"對應(yīng)的GMM,確定為隱馬爾科夫模型的第6階狀態(tài)模型。
[0147] 由于第二字符串包括k個字符,所以步驟803會執(zhí)行k次。
[0148] 步驟804,將每一階狀態(tài)模型的自轉(zhuǎn)概率和跳轉(zhuǎn)概率設(shè)置為預(yù)設(shè)值,構(gòu)建得到與第 二字符串對應(yīng)的隱馬爾科夫模型。
[0149] 每一階HMM狀態(tài)模型包括狀態(tài)概率分布、自轉(zhuǎn)概率和跳轉(zhuǎn)概率。對于聲紋特征序列 中時刻t對應(yīng)的聲紋特征,第X階狀態(tài)模型的狀態(tài)概率分布表示該聲紋特征符合第X階狀態(tài) 模型所對應(yīng)的基礎(chǔ)字符的概率,自轉(zhuǎn)概率表示觀測特征從時刻t對應(yīng)的聲紋特征轉(zhuǎn)到時刻t + 1對應(yīng)的聲紋特征時,從第X階狀態(tài)模型保持在第X階狀態(tài)模型的概率;跳轉(zhuǎn)概率表示觀測 特征從時刻t對應(yīng)的聲紋特征轉(zhuǎn)到時刻t+Ι對應(yīng)的聲紋特征時,從第X階狀態(tài)模型跳轉(zhuǎn)至第X +1階狀態(tài)模型的概率。
[0150] 可選地,將每一階狀態(tài)模型的自轉(zhuǎn)概率和跳轉(zhuǎn)概率均設(shè)置為0.5。
[0151] 經(jīng)過本步驟所生成的HMM模型,示意性的參考圖9所示。
[0152] 步驟805,將聲紋特征序列輸入HMM,采用維特比分配算法計(jì)算出最大似然概率,將 最大似然概率確定為相似度分?jǐn)?shù)。
[0153] 由于在聲紋特征序列中,每個字符通常對應(yīng)順序排列的連續(xù)多個聲紋特征,聲紋 特征序列中的聲紋特征數(shù)量大于HMM中的GMM模型數(shù)量,所以對于HMM中的每一階狀態(tài)模型, 可能存在順序排列的連續(xù)多個聲紋特征與之對應(yīng)。在將聲紋特征序列輸入HMM后,按照不同 的GMM跳轉(zhuǎn)路徑,能夠計(jì)算出該聲紋特征序列對應(yīng)的多個概率。維特比(Viterbi)分配算法 能夠計(jì)算出該聲紋特征序列輸入HMM后的最大似然概率,聲紋識別算法將該最大似然概率 確定為該聲紋特征序列與HMM模型的相似度分?jǐn)?shù)。
[0154] 可選地,該相似度分?jǐn)?shù)采用對數(shù)log進(jìn)行表示。
[0155] 需要說明的是,基于每個目標(biāo)用戶的η個GMM,都可構(gòu)建與第二字符串所對應(yīng)的 ΗΜΜ。所以目標(biāo)用戶為Z個時,與第二字符串所對應(yīng)的HMM也為Z個,步驟805也會對應(yīng)的執(zhí)行Z 次。但在一些場景下,僅需要確認(rèn)未知用戶是否為某一個特定的目標(biāo)用戶即可,此時,步驟 805僅需要執(zhí)行1次即可。
[0156] 步驟806,當(dāng)相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將未知用戶識別目標(biāo)用戶。
[0157] 將測試語音信號的聲紋特征序列輸入各個目標(biāo)用戶的HMM后,得到多個相似度分 數(shù)。將每個相似度分?jǐn)?shù)與預(yù)設(shè)閾值相比,若相似度分?jǐn)?shù)大于預(yù)設(shè)閾值,則聲紋識別系統(tǒng)將未 知用戶的身份識別為目標(biāo)用戶。
[0158] 反之,若相似度分?jǐn)?shù)小于預(yù)設(shè)閾值,則聲紋識別系統(tǒng)確定未知用戶與目標(biāo)用戶不 匹配,聲紋識別系統(tǒng)可以讓未知用戶重新測試,或拒絕未知用戶進(jìn)行后續(xù)操作。
[0159] 綜上所述,本實(shí)施例提供的聲紋識別方法,通過將測試語音信號的聲紋特征序列, 與多個基礎(chǔ)字符對應(yīng)的GMM所構(gòu)建的HMM計(jì)算相似度分?jǐn)?shù),從而對未知用戶進(jìn)行身份識別; 解決了目標(biāo)用戶的GMM是一個文本無關(guān)的模型,無法利用注冊語音信號中豐富的信息的問 題;達(dá)到了對于每個目標(biāo)用戶,與各個基礎(chǔ)字符分別對應(yīng)的GMM之間考慮了每種基礎(chǔ)字符對 應(yīng)的音頻內(nèi)容在音素層面的差異性,且HMM模型還考慮了各個基礎(chǔ)字符對應(yīng)的音頻內(nèi)容在 時域上的相關(guān)性,從而能夠極大地增加目標(biāo)用戶的聲紋模型在身份識別階段的識別準(zhǔn)確 率。
[0160] 需要說明的是,聲紋識別系統(tǒng)可以由一個終端實(shí)現(xiàn),也可以由終端和服務(wù)器組合 實(shí)現(xiàn)。當(dāng)由終端和服務(wù)器組合實(shí)現(xiàn)時,語音采集階段和聲紋特征提取階段可由終端執(zhí)行,而 聲紋模型的訓(xùn)練過程和/或聲紋識別過程可由服務(wù)器執(zhí)行。
[0161] 在一些可能的實(shí)施例中,聲紋模型的訓(xùn)練過程由第一聲紋識別系統(tǒng)執(zhí)行,并將訓(xùn) 練得到的目標(biāo)用戶的η個GMM保存在共享模型庫,而聲紋識別過程由第二聲紋識別系統(tǒng)執(zhí) 行,第二聲紋識別系統(tǒng)從共享模型庫獲取并使用目標(biāo)用戶的η個GMM,以生成第二字符串以 及構(gòu)建與第二字符串對應(yīng)的HMM模型。
[0162] 在一個具體的例子中,在1000人訓(xùn)練樣本,29萬次測試中(其中身份匹配的測試在 1萬次左右,不匹配測試約在28萬次),能夠?qū)崿F(xiàn)千分之一錯誤率下68.88 %的召回率,等錯 概率(EER,Equal Error Rate)為4.52%,相較于傳統(tǒng)的文本無關(guān)建模方法,性能提升超過 30%以上。
[0163] 圖10示出了本發(fā)明一個實(shí)施例提供的聲紋模型訓(xùn)練裝置的結(jié)構(gòu)方框圖。該聲紋模 型訓(xùn)練裝置可以通過專用硬件電路,或,軟硬件的結(jié)合實(shí)現(xiàn)成為聲紋識別系統(tǒng)的全部或者 一部分。所述裝置包括:
[0164] 采集模塊1010,用于采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號,所述 第一字符串包括m個按序排列的字符,所述m個字符包括η種互不相同的基礎(chǔ)字符,m和η均為 正整數(shù)且m彡η;
[0165] 提取模塊1020,用于從所述注冊語音信號中提取出每個字符所對應(yīng)的聲紋特征;
[0166] 第一訓(xùn)練模塊1030,用于以所述目標(biāo)用戶的各個所述字符所對應(yīng)的所述聲紋特征 為第一樣本數(shù)據(jù),對預(yù)設(shè)的通用背景模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的混合高斯模型;
[0167] 第二訓(xùn)練模塊1040,用于以所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征 為第二樣本數(shù)據(jù),對所述目標(biāo)用戶的所述混合高斯模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的與 第i種基礎(chǔ)字符所對應(yīng)的所述混合高斯模型;
[0168] 存儲模塊1050,用于存儲所述目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯 模型,所述η個混合高斯模型用于構(gòu)建與第二字符串對應(yīng)的隱馬爾可夫模型。
[0169] 在可選的實(shí)施例中,所述裝置,還包括:
[0170]顯示模塊1060,用于隨機(jī)生成所述第一字符串進(jìn)行顯示。
[0171 ]在可選的實(shí)施例中,所述提取模塊1020,包括:
[0172] 識別單元,用于識別所述注冊語音信號中的有效語音片段和無效語音片段,所述 無效語音片段包括靜音段和/或噪音段;
[0173] 片段提取單元,用于將所述注冊語音信號中的第j個有效語音片段,提取為與所述 第一字符串中的第j個字符所對應(yīng)的語音片段;
[0174]特征提取單元,用于提取與所述第j個字符所對應(yīng)的語音片段的聲紋特征。
[0175] 在可選的實(shí)施例中,所述特征提取單元,用于提取與所述第j個字符所對應(yīng)的語音 片段中的梅爾倒譜系數(shù)MFCC或感知線性預(yù)測系數(shù)PLP,作為與所述第j個字符所對應(yīng)的語音 片段的聲紋特征。
[0176] 在可選的實(shí)施例中,所述第一訓(xùn)練模塊1030,具體用于以所述目標(biāo)用戶的各個所 述基礎(chǔ)字符所對應(yīng)的所述聲紋特征為第一樣本數(shù)據(jù),采用最大后驗(yàn)概率算法對預(yù)設(shè)的通用 背景模型中的參數(shù)進(jìn)行調(diào)整;將調(diào)整參數(shù)后的所述通用背景模型確定為所述目標(biāo)用戶的混 合高斯模型。
[0177] 在可選的實(shí)施例中,所述第二訓(xùn)練模塊1040,具體用于以所述目標(biāo)用戶的與第i種 基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),采用最大后驗(yàn)概率算法對所述目標(biāo)用戶的混 合高斯模型中的參數(shù)進(jìn)行調(diào)整;將調(diào)整參數(shù)后的所述目標(biāo)用戶的混合高斯模型,確定為所 述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的所述混合高斯模型。
[0178] 需要說明的是,當(dāng)聲紋識別系統(tǒng)由終端和服務(wù)器組合實(shí)現(xiàn)時,上述的采集模塊 1010、提取模塊1020和顯示模塊1060可由終端中的專用硬件電路或軟硬件的組合實(shí)現(xiàn);上 述第一訓(xùn)練模塊1030、第二訓(xùn)練模塊1040和存儲模塊1050可由服務(wù)器中的專用硬件電路或 軟硬件的組合實(shí)現(xiàn)。但本發(fā)明實(shí)施例對此不加以限定,比如,上述的提取模塊1020也可以服 務(wù)器中的專用硬件電路實(shí)現(xiàn),或,軟硬件的組合實(shí)現(xiàn)。
[0179] 圖11示出了本發(fā)明一個實(shí)施例提供的聲紋識別裝置的結(jié)構(gòu)方框圖。該聲紋識別裝 置可以通過專用硬件電路,或,軟硬件的結(jié)合實(shí)現(xiàn)成為聲紋識別系統(tǒng)的全部或者一部分。所 述裝置包括:
[0180] 獲取模塊1110,用于獲取未知用戶朗讀第二字符串所產(chǎn)生的測試語音信號,所述 第二字符串包括k個按序排列的字符,所述k個字符包括η種互不相同的基礎(chǔ)字符中的全部 字符或部分字符,k和η均為正整數(shù);
[0181] 提取模塊1120,用于從所述測試語音信號中提取出各個字符所對應(yīng)的聲紋特征序 列;
[0182] 構(gòu)建模塊1130,用于根據(jù)目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模 型,構(gòu)建與所述第二字符串對應(yīng)的隱馬爾科夫模型;
[0183] 計(jì)算模塊1140,用于計(jì)算所述聲紋特征序列與所述隱馬爾科夫模型的相似度分 數(shù);
[0184] 識別模塊1150,用于當(dāng)所述相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將所述未知用戶識別所 述目標(biāo)用戶。
[0185] 在可選的實(shí)施例中,所述裝置,還包括:
[0186] 顯示模塊1160,用于基于所述η種基礎(chǔ)字符,隨機(jī)生成所述第二字符串進(jìn)行顯示。
[0187] 在可選的實(shí)施例中,所述構(gòu)建模塊1130,具體用于獲取所述第二字符串的第X個字 符,X為大于等于1且小于等于k的正整數(shù);從所述目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個 混合高斯模型中,將與所述第X個字符對應(yīng)的所述混合高斯模型,確定為所述隱馬爾科夫模 型的第X階狀態(tài)模型;將每一階狀態(tài)模型的自轉(zhuǎn)概率和跳轉(zhuǎn)概率設(shè)置為預(yù)設(shè)值,構(gòu)建得到與 所述第二字符串對應(yīng)的所述隱馬爾科夫模型。
[0188] 在可選的實(shí)施例中,所述計(jì)算模塊1140,具體用于將所述聲紋特征序列輸入所述 隱馬爾科夫模型,采用維比特分配算法計(jì)算出最大似然概率,將所述最大似然概率確定為 所述相似度分?jǐn)?shù)。
[0189] 需要說明的是,當(dāng)聲紋識別系統(tǒng)由終端和服務(wù)器組合實(shí)現(xiàn)時,上述的獲取模塊 1110、提取模塊1120和顯示模塊1160可由終端中的專用硬件電路實(shí)現(xiàn),或,軟硬件的組合實(shí) 現(xiàn);上述構(gòu)建模塊1130、計(jì)算模塊1140和識別模塊1150可由服務(wù)器中的專用硬件電路或軟 硬件的組合實(shí)現(xiàn)。但本發(fā)明實(shí)施例對此不加以限定,比如,上述的提取模塊1120也可以服務(wù) 器中的專用硬件電路實(shí)現(xiàn),或,軟硬件的組合實(shí)現(xiàn)。
[0190] 本發(fā)明實(shí)施例所述的軟硬件的組合,通常是指處理器運(yùn)行存儲器中的一個或一個 以上的程序指令,來實(shí)現(xiàn)上述方法實(shí)施例所提供的步驟或者上述裝置實(shí)施例中的"模塊或 單元"。
[0191] 需要說明的是:上述實(shí)施例提供的聲紋模型訓(xùn)練裝置在訓(xùn)練聲紋模型時,僅以上 述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同 的功能模塊完成,即將設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或 者部分功能。另外,上述實(shí)施例提供的聲紋模型訓(xùn)練裝置與聲紋模型訓(xùn)練方法實(shí)施例屬于 同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí)施例,這里不再贅述。
[0192] 上述實(shí)施例提供的聲紋識別裝置在聲紋識別時,僅以上述各功能模塊的劃分進(jìn)行 舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將設(shè)備 的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實(shí)施 例提供的聲紋識別裝置與聲紋識別方法實(shí)施例屬于同一構(gòu)思,其具體實(shí)現(xiàn)過程詳見方法實(shí) 施例,這里不再贅述
[0193] 上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0194] 本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過硬件 來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計(jì)算機(jī)可讀 存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0195] 以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和 原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種聲紋模型訓(xùn)練方法,其特征在于,所述方法包括: 采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號,所述第一字符串包括m個按序 排列的字符,所述m個字符包括η種互不相同的基礎(chǔ)字符,m和η均為正整數(shù)且m多η; 從所述注冊語音信號中提取出每個字符所對應(yīng)的聲紋特征; 以所述目標(biāo)用戶的各個所述字符所對應(yīng)的所述聲紋特征為第一樣本數(shù)據(jù),對預(yù)設(shè)的通 用背景模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的混合高斯模型; 以所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),對所述目標(biāo) 用戶的所述混合高斯模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的所述 混合尚斯t旲型; 存儲所述目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型,所述η個混合高斯 模型用于構(gòu)建與第二字符串對應(yīng)的隱馬爾可夫模型。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采集目標(biāo)用戶朗讀預(yù)定字符串所產(chǎn)生 的語音信號之前,還包括: 隨機(jī)生成所述第一字符串進(jìn)行顯示。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述注冊語音信號中提取出每個字 符所對應(yīng)的聲紋特征,包括: 識別所述注冊語音信號中的有效語音片段和無效語音片段,所述無效語音片段包括靜 音段和/或噪音段; 將所述注冊語音信號中的第j個有效語音片段,提取為與所述第一字符串中的第j個字 符所對應(yīng)的語音片段; 提取與所述第j個字符所對應(yīng)的語音片段的聲紋特征。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述提取與第j個字符所對應(yīng)的語音片段 的聲紋特征,包括: 提取與所述第j個字符所對應(yīng)的語音片段中的梅爾倒譜系數(shù)MFCC或感知線性預(yù)測系數(shù) PLP,作為與所述第j個字符所對應(yīng)的語音片段的聲紋特征。5. 根據(jù)權(quán)利要求1至4任一所述的方法,其特征在于,所述以所述目標(biāo)用戶的各個所述 基礎(chǔ)字符所對應(yīng)的所述聲紋特征為第一樣本數(shù)據(jù),對預(yù)設(shè)的通用背景模型進(jìn)行訓(xùn)練,得到 所述目標(biāo)用戶的混合高斯模型,包括: 以所述目標(biāo)用戶的各個所述基礎(chǔ)字符所對應(yīng)的所述聲紋特征為第一樣本數(shù)據(jù),采用最 大后驗(yàn)概率算法對預(yù)設(shè)的通用背景模型中的參數(shù)進(jìn)行調(diào)整; 將調(diào)整參數(shù)后的所述通用背景模型確定為所述目標(biāo)用戶的混合高斯模型。6. 根據(jù)權(quán)利要求1至4任一所述的方法,其特征在于,所述以所述目標(biāo)用戶的與第i種基 礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),對所述目標(biāo)用戶的所述混合高斯模型進(jìn)行訓(xùn) 練,得到所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的所述混合高斯模型,包括: 以所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),采用最大后 驗(yàn)概率算法對所述目標(biāo)用戶的混合高斯模型中的參數(shù)進(jìn)行調(diào)整; 將調(diào)整參數(shù)后的所述目標(biāo)用戶的混合高斯模型,確定為所述目標(biāo)用戶的與第i種基礎(chǔ) 字符所對應(yīng)的所述混合高斯模型。7. -種聲紋識別方法,其特征在于,所述方法包括: 獲取未知用戶朗讀第二字符串所產(chǎn)生的測試語音信號,所述第二字符串包括k個按序 排列的字符,所述k個字符包括η種互不相同的基礎(chǔ)字符中的全部字符或部分字符,k和η均 為正整數(shù); 從所述測試語音信號中提取出各個字符所對應(yīng)的聲紋特征序列; 根據(jù)目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型,構(gòu)建與所述第二字符串 對應(yīng)的隱馬爾科夫模型; 計(jì)算所述聲紋特征序列與所述隱馬爾科夫模型的相似度分?jǐn)?shù); 當(dāng)所述相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將所述未知用戶識別所述目標(biāo)用戶。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述獲取未知用戶朗讀第二字符串所產(chǎn)生 的測試語音信號之前,還包括: 基于所述η種基礎(chǔ)字符,隨機(jī)生成所述第二字符串進(jìn)行顯示。9. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)目標(biāo)用戶的與η種基礎(chǔ)字符分別 對應(yīng)的η個混合高斯模型,,構(gòu)建與所述第二字符串對應(yīng)的隱馬爾科夫模型,包括: 獲取所述第二字符串的第X個字符,X為大于等于1且小于等于k的正整數(shù); 從所述目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型中,將與所述第X個字 符對應(yīng)的所述混合高斯模型,確定為所述隱馬爾科夫模型的第X階狀態(tài)模型; 將每一階狀態(tài)模型的自轉(zhuǎn)概率和跳轉(zhuǎn)概率設(shè)置為預(yù)設(shè)值,構(gòu)建得到與所述第二字符串 對應(yīng)的所述隱馬爾科夫模型。10. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述計(jì)算所述聲紋特征序列與所述隱馬 爾科夫模型的相似度分?jǐn)?shù),包括: 將所述聲紋特征序列輸入所述隱馬爾科夫模型,采用維特比分配算法計(jì)算出最大似然 概率,將所述最大似然概率確定為所述相似度分?jǐn)?shù)。11. 一種聲紋模型訓(xùn)練裝置,其特征在于,所述裝置包括: 采集模塊,用于采集目標(biāo)用戶朗讀第一字符串所產(chǎn)生的注冊語音信號,所述第一字符 串包括m個按序排列的字符,所述m個字符包括η種互不相同的基礎(chǔ)字符,m和η均為正整數(shù)且 m^n; 提取模塊,用于從所述注冊語音信號中提取出每個字符所對應(yīng)的聲紋特征; 第一訓(xùn)練模塊,用于以所述目標(biāo)用戶的各個所述字符所對應(yīng)的所述聲紋特征為第一樣 本數(shù)據(jù),對預(yù)設(shè)的通用背景模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的混合高斯模型; 第二訓(xùn)練模塊,用于以所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣 本數(shù)據(jù),對所述目標(biāo)用戶的所述混合高斯模型進(jìn)行訓(xùn)練,得到所述目標(biāo)用戶的與第i種基礎(chǔ) 字符所對應(yīng)的所述混合高斯模型; 存儲模塊,用于存儲所述目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型,所 述η個混合高斯模型用于構(gòu)建與第二字符串對應(yīng)的隱馬爾可夫模型。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置,還包括: 顯示模塊,用于隨機(jī)生成所述第一字符串進(jìn)行顯示。13. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述提取模塊,包括: 識別單元,用于識別所述注冊語音信號中的有效語音片段和無效語音片段,所述無效 語音片段包括靜音段和/或噪音段; 片段提取單元,用于將所述注冊語音信號中的第j個有效語音片段,提取為與所述第一 字符串中的第j個字符所對應(yīng)的語音片段; 特征提取單元,用于提取與所述第j個字符所對應(yīng)的語音片段的聲紋特征。14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述特征提取單元,用于提取與所述第j 個字符所對應(yīng)的語音片段中的梅爾倒譜系數(shù)MFCC或感知線性預(yù)測系數(shù)PLP,作為與所述第j 個字符所對應(yīng)的語音片段的聲紋特征。15. 根據(jù)權(quán)利要求11至14任一所述的裝置,其特征在于,所述第一訓(xùn)練模塊,具體用于 以所述目標(biāo)用戶的各個所述基礎(chǔ)字符所對應(yīng)的所述聲紋特征為第一樣本數(shù)據(jù),采用最大后 驗(yàn)概率算法對預(yù)設(shè)的通用背景模型中的參數(shù)進(jìn)行調(diào)整;將調(diào)整參數(shù)后的所述通用背景模型 確定為所述目標(biāo)用戶的混合高斯模型。16. 根據(jù)權(quán)利要求11至14任一所述的裝置,其特征在于,所述第二訓(xùn)練模塊,具體用于 以所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的聲紋特征為第二樣本數(shù)據(jù),采用最大后驗(yàn)概 率算法對所述目標(biāo)用戶的混合高斯模型中的參數(shù)進(jìn)行調(diào)整;將調(diào)整參數(shù)后的所述目標(biāo)用戶 的混合高斯模型,確定為所述目標(biāo)用戶的與第i種基礎(chǔ)字符所對應(yīng)的所述混合高斯模型。17. -種聲紋識別裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取未知用戶朗讀第二字符串所產(chǎn)生的測試語音信號,所述第二字符 串包括k個按序排列的字符,所述k個字符包括η種互不相同的基礎(chǔ)字符中的全部字符或部 分字符,k和η均為正整數(shù); 提取模塊,用于從所述測試語音信號中提取出各個字符所對應(yīng)的聲紋特征序列; 構(gòu)建模塊,用于根據(jù)目標(biāo)用戶的與η種基礎(chǔ)字符分別對應(yīng)的η個混合高斯模型,構(gòu)建與 所述第二字符串對應(yīng)的隱馬爾科夫模型; 計(jì)算模塊,用于計(jì)算所述聲紋特征序列與所述隱馬爾科夫模型的相似度分?jǐn)?shù); 識別模塊,用于當(dāng)所述相似度分?jǐn)?shù)大于預(yù)設(shè)閾值時,將所述未知用戶識別所述目標(biāo)用 戶。18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述裝置,還包括: 顯示模塊,用于基于所述η種基礎(chǔ)字符,隨機(jī)生成所述第二字符串進(jìn)行顯示。19. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述構(gòu)建模塊,具體用于獲取所述第二 字符串的第X個字符,X為大于等于1且小于等于k的正整數(shù);從所述目標(biāo)用戶的與η種基礎(chǔ)字 符分別對應(yīng)的η個混合高斯模型中,將與所述第X個字符對應(yīng)的所述混合高斯模型,確定為 所述隱馬爾科夫模型的第X階狀態(tài)模型;將每一階狀態(tài)模型的自轉(zhuǎn)概率和跳轉(zhuǎn)概率設(shè)置為 預(yù)設(shè)值,構(gòu)建得到與所述第二字符串對應(yīng)的所述隱馬爾科夫模型。20. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述計(jì)算模塊,具體用于將所述聲紋特 征序列輸入所述隱馬爾科夫模型,采用維比特分配算法計(jì)算出最大似然概率,將所述最大 似然概率確定為所述相似度分?jǐn)?shù)。
【文檔編號】G10L17/04GK106057206SQ201610388231
【公開日】2016年10月26日
【申請日】2016年6月1日
【發(fā)明人】李為, 錢柄樺, 金星明, 李科, 吳富章, 吳永堅(jiān), 黃飛躍
【申請人】騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
名山县| 江门市| 乐昌市| 中西区| 正阳县| 上饶市| 都安| 菏泽市| 望谟县| 德安县| 蒙自县| 临澧县| 哈巴河县| 新余市| 正蓝旗| 澳门| 化德县| 湄潭县| 江孜县| 高邑县| 溧阳市| 肇东市| 蕲春县| 依兰县| 济阳县| 临洮县| 卢龙县| 基隆市| 广宗县| 永修县| 泗阳县| 金川县| 波密县| 平南县| 中宁县| 乐山市| 甘孜| 武城县| 独山县| 海林市| 沙坪坝区|