欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種聲紋識(shí)別方法和裝置的制造方法

文檔序號(hào):10727062閱讀:475來源:國知局
一種聲紋識(shí)別方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種聲紋識(shí)別方法和裝置,其中所述方法包括:獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息;對(duì)所述驗(yàn)證語音信息進(jìn)行語音識(shí)別得到所述驗(yàn)證語音信息中包含的分別與所述第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片段;提取各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征;根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量;計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù),若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用戶確定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。采用本發(fā)明,可有效提高聲紋識(shí)別準(zhǔn)確率。
【專利說明】
一種聲紋識(shí)別方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及聲音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種聲紋識(shí)別方法和裝置。
【背景技術(shù)】
[0002] 聲紋識(shí)別作為一種生物信息識(shí)別的方法,包括用戶注冊和用戶身份識(shí)別兩個(gè)階 段。注冊階段將語音通過一系列處理映射為用戶模型。在識(shí)別階段對(duì)于一段身份未知的語 音,與模型進(jìn)行相似度的匹配,進(jìn)而對(duì)未知語音的身份與注冊語音的身份是否一致進(jìn)行判 斷?,F(xiàn)有的聲紋建模方法通常是從文本無關(guān)的層面進(jìn)行建模以實(shí)現(xiàn)對(duì)說話人身份特征的描 述,但是文本無關(guān)的建模方式在用戶朗讀不同內(nèi)容時(shí),識(shí)別準(zhǔn)確率較低,難以滿足要求。

【發(fā)明內(nèi)容】

[0003] 有鑒于此,本發(fā)明實(shí)施例提供一種聲紋識(shí)別方法和裝置,可有效提高聲紋識(shí)別準(zhǔn) 確率。
[0004] 為了解決上述技術(shù)問題,本發(fā)明實(shí)施例提供了一種聲紋識(shí)別方法,所述方法包括:
[0005] 獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息;
[0006] 對(duì)所述驗(yàn)證語音信息進(jìn)行語音識(shí)別得到所述驗(yàn)證語音信息中包含的分別與所述 第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片段;
[0007] 提取各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征;
[0008] 根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用 背景模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量;
[0009] 計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字 符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù),若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用 戶確定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。
[0010] 相應(yīng)地,本發(fā)明實(shí)施例還提供了一種聲紋識(shí)別裝置,所述裝置包括:
[0011] 語音獲取模塊,用于獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息;
[0012] 語音片段識(shí)別模塊,用于對(duì)所述驗(yàn)證語音信息進(jìn)行語音識(shí)別得到所述驗(yàn)證語音信 息中包含的分別與所述第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片段;
[0013] 聲紋特征提取模塊,用于提取驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特 征;
[0014] 特征模型訓(xùn)練模塊,用于根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù) 設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量;
[0015] 相似度判斷模塊,用于計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注 冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù);
[0016] 用戶識(shí)別模塊,用于若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用戶確 定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。
[0017] 本實(shí)施例通過獲取驗(yàn)證用戶的驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋 特征,結(jié)合預(yù)設(shè)的相應(yīng)字符的UBM訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量,并通 過將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與注冊語音信息中相應(yīng)字符的特征向量進(jìn) 行相似度比較,從而確定驗(yàn)證用戶的的用戶身份,該方式用以比較的用戶特征向量與具體 字符對(duì)應(yīng),充分考慮到用戶朗讀不同字符時(shí)的聲紋特征,從而可有效提高聲紋識(shí)別準(zhǔn)確率。
【附圖說明】
[0018] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0019] 圖1是本發(fā)明實(shí)施例中的聲紋識(shí)別方法的階段概述示意圖;
[0020] 圖2是本發(fā)明實(shí)施例中的一種聲紋識(shí)別方法的流程示意圖;
[0021] 圖3是本發(fā)明實(shí)施例中從語音信息中識(shí)別得到多個(gè)字符對(duì)應(yīng)的語音片段的原理示 意圖;
[0022] 圖4是本發(fā)明實(shí)施例中從語音信息中獲取各個(gè)字符對(duì)應(yīng)的特征向量的原理示意 圖;
[0023] 圖5是本發(fā)明實(shí)施例中注冊用戶的聲紋注冊流程示意圖;
[0024] 圖6是本發(fā)明另一實(shí)施例中的聲紋識(shí)別方法的流程示意圖;
[0025] 圖7是本發(fā)明實(shí)施例中的一種聲紋識(shí)別裝置的結(jié)構(gòu)示意圖;
[0026] 圖8是本發(fā)明實(shí)施例中的語音片段識(shí)別模塊的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0028] 本發(fā)明實(shí)施例提供了一種聲紋識(shí)別方法及裝置。該聲紋識(shí)別方法及裝置可應(yīng)用于 所有需要識(shí)別未知用戶身份的場景或設(shè)備中。用于進(jìn)行聲紋識(shí)別的字符串中的字符可以是 阿拉伯?dāng)?shù)字、英文字母或其他語言字符等。為了簡化描述,本發(fā)明實(shí)施例中的字符以阿拉伯 數(shù)字為例進(jìn)行舉例說明。
[0029] 本發(fā)明實(shí)施例中的聲紋識(shí)別方法可以分為兩個(gè)階段,如圖1所示:
[0030] 1)注冊用戶的聲紋注冊階段
[0031] 在聲紋注冊階段,注冊用戶可以朗讀一個(gè)注冊字符串(即后文出現(xiàn)的第二字符 串),聲紋識(shí)別裝置采集該注冊用戶在朗讀該注冊字符串時(shí)的注冊語音信息,然后對(duì)注冊語 音信息進(jìn)行聲音識(shí)別得到所述注冊語音信息中包含的分別與所述注冊字符串中的多個(gè)字 符對(duì)應(yīng)的語音片段,進(jìn)而對(duì)各個(gè)字符對(duì)應(yīng)的語音片段進(jìn)行聲紋特征提取和聲紋模型訓(xùn)練, 包括根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景 模型(Universal Background Model,UBM,即GMM-UBM)訓(xùn)練得到注冊語音信息中各個(gè)字符 對(duì)應(yīng)的特征向量,然后聲紋識(shí)別裝置可以分別為不同的注冊用戶將其在聲紋注冊階段朗讀 的注冊語音信息中的多個(gè)字符對(duì)應(yīng)的特征向量保存在聲紋識(shí)別裝置的模型庫中。
[0032]比如,注冊字符串是數(shù)字字符串0185851,包含了四種數(shù)字"0"、"Γ、"5"、"8",則聲 紋識(shí)別裝置根據(jù)注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段進(jìn)行聲紋特征提取和聲紋模型 訓(xùn)練,得到"〇"、"Γ、"5"、"8"對(duì)應(yīng)的語音片段的聲紋特征,進(jìn)而結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的 UBM訓(xùn)練得到注冊語音信息中各個(gè)字符對(duì)應(yīng)的特征向量,包括與數(shù)字"0"對(duì)應(yīng)的特征向量、 與數(shù)字"Γ對(duì)應(yīng)的特征向量、與數(shù)字"5"對(duì)應(yīng)的特征向量以及與數(shù)字"8"對(duì)應(yīng)的特征向量。 [0033] 2)驗(yàn)證用戶的身份識(shí)別階段
[0034]在身份識(shí)別階段,驗(yàn)證用戶即未知身份的用戶朗讀一個(gè)驗(yàn)證字符串(即后文出現(xiàn) 的第一字符串,所述第二字符串與所述第一字符串擁有至少一個(gè)相同的字符),聲紋識(shí)別裝 置采集該驗(yàn)證用戶在朗讀該驗(yàn)證字符串時(shí)的驗(yàn)證語音信息,然后對(duì)驗(yàn)證語音信息進(jìn)行聲音 識(shí)別得到所述驗(yàn)證語音信息中包含的分別與所述驗(yàn)證字符串中的多個(gè)字符對(duì)應(yīng)的語音片 段,進(jìn)而對(duì)各個(gè)字符對(duì)應(yīng)的語音片段進(jìn)行聲紋特征提取和聲紋模型訓(xùn)練,包括根據(jù)所述各 個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的UBM訓(xùn)練得到驗(yàn)證語音信 息中各個(gè)字符對(duì)應(yīng)的特征向量,最后計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè) 的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù),若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn) 證門限,則將所述驗(yàn)證用戶確定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。
[0035]比如,驗(yàn)證字符串為數(shù)字字符串85851510,則聲紋識(shí)別裝置根據(jù)驗(yàn)證用戶朗讀時(shí) 產(chǎn)生的驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段進(jìn)行聲紋特征提取和聲紋模型訓(xùn)練,得到 "0"、"Γ、"5"、"8"對(duì)應(yīng)的GMM,進(jìn)而結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的UBM可以計(jì)算得到驗(yàn)證用戶 的驗(yàn)證語音信息的特征向量,包括與數(shù)字"0"對(duì)應(yīng)的特征向量、與數(shù)字"Γ對(duì)應(yīng)的特征向量、 與數(shù)字"5"對(duì)應(yīng)的特征向量以及與數(shù)字"8"對(duì)應(yīng)的特征向量,進(jìn)而分別計(jì)算驗(yàn)證語音信息中 的"0"、"Γ、"5"、"8"對(duì)應(yīng)的特征向量分別與注冊語音信息中的"0"、"Γ、"5"、"8"對(duì)應(yīng)的特 征向量之間的相似度分?jǐn)?shù),若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用戶確定 為所述注冊語音信息對(duì)應(yīng)的注冊用戶。
[0036] 需要指出的是,上述注冊用戶的聲紋注冊階段和驗(yàn)證用戶的身份識(shí)別階段可以在 同一設(shè)備或裝置中實(shí)現(xiàn),也可以分別在不同的設(shè)備或裝置中實(shí)現(xiàn),例如注冊用戶的聲紋注 冊階段在第一設(shè)備中實(shí)施,進(jìn)而第一設(shè)備將注冊語音信息中的多個(gè)字符對(duì)應(yīng)的特征向量發(fā) 送給第二設(shè)備,從而可以在第二設(shè)備中實(shí)施驗(yàn)證用戶的身份識(shí)別階段。
[0037] 下面通過具體實(shí)施例分別對(duì)上述兩個(gè)過程進(jìn)行詳細(xì)闡述。
[0038] 圖2是本發(fā)明實(shí)施例中的一種聲紋識(shí)別方法的流程示意圖,如圖所示本實(shí)施例中 的聲紋識(shí)別方法流程可以包括:
[0039] S201,獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息。
[0040]所述驗(yàn)證用戶即未知身份的用戶,需要通過聲紋識(shí)別裝置驗(yàn)證其用戶身份。所述 第一字符串是用于驗(yàn)證用戶進(jìn)行身份驗(yàn)證的字符串,可以是隨機(jī)生成的,也可以是預(yù)設(shè)固 定的一個(gè)字符串,例如與預(yù)先生成的注冊語音信息對(duì)應(yīng)的第二字符串至少部分相同的一個(gè) 字符串。具體的,所述字符串可以包含m個(gè)字符,其中有η個(gè)互不相同的字符,m,n均為正整 數(shù),且m^n。
[0041 ]比如,第一字符串是"12358948",共8個(gè)字符,包括了7種互不相同的字符"Γ、"2"、 ??β?? "4,,"5,,"8,,"9,,
[0042]在可選實(shí)施例中,聲紋識(shí)別裝置可以生成并顯示所述第一字符串,讓驗(yàn)證用戶根 據(jù)顯示的所述第一字符串進(jìn)行朗讀。
[0043] S202,對(duì)所述驗(yàn)證語音信息進(jìn)行語音識(shí)別得到所述驗(yàn)證語音信息中包含的分別與 所述第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片段。
[0044] 如圖3所示,聲紋識(shí)別裝置可以通過語音識(shí)別以及聲音強(qiáng)度過濾,將所述驗(yàn)證語音 信息劃分得到多個(gè)字符對(duì)應(yīng)的語音片段,可選的還可以將無效語音片段剔除掉,不參與后 續(xù)的處理過程。
[0045] S203,提取各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征。
[0046]具體的,聲紋識(shí)別裝置可以提取各個(gè)字符對(duì)應(yīng)的語音片段中的MF C C (M e 1 Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個(gè)字符所對(duì)應(yīng)的語音片段的聲紋特征。
[0047] S204,根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng) 的通用背景模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量;
[0048]本發(fā)明實(shí)施例中的所述通用背景模型UBM,是一種將大量說話人的特定數(shù)字的語 音段混合訓(xùn)練而成的混合高斯模型,表征對(duì)應(yīng)數(shù)字的語音在特征空間中的分布,又由于訓(xùn) 練數(shù)據(jù)來源于大量的說話人,因此它不表征某一類具體的說話人,具有身份無關(guān)的特性,可 看作是一種通用背景模型。示意性的,可以采用說話人數(shù)大于1000人、時(shí)長超過20小時(shí)的語 音樣本,并且各個(gè)字符的出現(xiàn)頻率相對(duì)均衡,訓(xùn)練得到UBMWBM的數(shù)學(xué)表達(dá)式為:
[0049] P(x) = Ei=i---caiN(x|yi, Σ?)............式(1)
[0050] 其中,Ρ (X)代表UBM的概率分布,C代表UBM中共有C個(gè)高斯模塊,進(jìn)行加和,ai代表 第i個(gè)高斯模塊的權(quán)重,w代表第i個(gè)高斯模塊的均值,Σ:代表第i個(gè)高斯模塊的方差,N(x) 代表高斯分布,X代表輸入的樣本,樣本也即聲紋特征。
[0051] 聲紋識(shí)別裝置可以將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為 訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)對(duì)預(yù)設(shè)的相應(yīng)字符對(duì) 應(yīng)的通用背景模型的參數(shù)進(jìn)行調(diào)整,即在將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲 紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的 參數(shù),使得后驗(yàn)概率P(x)最大,從而可以根據(jù)使得后驗(yàn)概率P(x)最大的參數(shù)確定驗(yàn)證語音 信息中相應(yīng)字符對(duì)應(yīng)的特征向量。
[0052]由于大量的實(shí)驗(yàn)和論文驗(yàn)證了 UBM模型中每個(gè)高斯模塊的均值可以用于區(qū)分說話 人的身份信息,我們定義UBM模型的均值超向量為:
[0054] 從而,聲紋識(shí)別裝置可以將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征 作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)對(duì)預(yù)設(shè)的相應(yīng)字 符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,即在將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語 音片段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后驗(yàn)概率P (X)最大,從而可以將使得后驗(yàn)概率P(x)最大的均值超向量作為驗(yàn)證語音信息中相應(yīng)字符 對(duì)應(yīng)的特征向量。
[0055] 在另一可選實(shí)施例中,為了降低超向量的高維度帶來的收斂速度慢的問題,我們 通過基于概率的主成分分析方法(PPCA,probabilistic principal component analysis) 將均值超向量的變化范圍限制在一個(gè)子空間中,聲紋識(shí)別裝置可以將驗(yàn)證語音信息中各個(gè) 字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng) 字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,并結(jié)合預(yù)設(shè)的超向量子空間矩陣從而得 到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。具體實(shí)現(xiàn)中,可以采用下式對(duì)預(yù)設(shè)的相應(yīng)字 符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,使得調(diào)整后的相應(yīng)字符對(duì)應(yīng)的通用背景模 型的后驗(yàn)概率最大:
[0056] Μ = πι+Τω,其中Μ代表調(diào)整后的某個(gè)字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗(yàn)證 語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量,即在將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實(shí)現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗(yàn)概率P(x)最大,從而可以將使得后驗(yàn)概率P(x)最大的ω作為驗(yàn)證語音信息中 相應(yīng)字符對(duì)應(yīng)的特征向量。所述超向量子空間矩陣Τ為根據(jù)所述高斯混合模型的均值超向 量中各個(gè)維度向量之間的相關(guān)性確定得到的。
[0057] S205,計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相 應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù),若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn) 證用戶確定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。
[0058] 具體的,聲紋識(shí)別裝置在可以在聲紋注冊階段獲取到注冊用戶的注冊語音信息, 并通過與本實(shí)施例相類似的聲紋特征提取和聲紋模型訓(xùn)練,可以得到注冊語音信息中各個(gè) 字符的語音片段對(duì)應(yīng)的特征向量。所述注冊語音信息,可以是聲紋識(shí)別裝置獲取注冊用戶 朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一字符串擁有至少一個(gè) 相同的字符,即所述注冊語音信息對(duì)應(yīng)的第二字符串與所述第一字符串至少部分相同。進(jìn) 而在可選實(shí)施例中,聲紋識(shí)別裝置還可以從外部獲取所述注冊語音信息中相應(yīng)字符對(duì)應(yīng)的 特征向量,即注冊用戶通過其他設(shè)備錄入了注冊語音信息后,其他設(shè)備或者服務(wù)器通過聲 紋特征提取和聲紋模型訓(xùn)練得到注冊語音信息中各個(gè)字符的語音片段對(duì)應(yīng)的特征向量,聲 紋識(shí)別裝置通過從其他設(shè)備或者服務(wù)器獲取到所述注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征 向量,從而在驗(yàn)證用戶的身份識(shí)別階段用以與驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量進(jìn) 行比較。
[0059] 具體實(shí)現(xiàn)中,所述相似度分?jǐn)?shù)是聲紋識(shí)別裝置將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的 特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量進(jìn)行比較后,衡量相同字符的 兩個(gè)特征向量之間的相似程度的分值。在可選實(shí)施例中,可以計(jì)算驗(yàn)證語音信息中各個(gè)字 符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量之間的余弦距離值 作為所述相似度分?jǐn)?shù),即通過下式計(jì)算某個(gè)字符分別在驗(yàn)證語音信息中對(duì)應(yīng)的特征向量和 注冊語音信息中的特征向量之間的相似度分?jǐn)?shù):
[0061]其中,下標(biāo)i表示第i個(gè)驗(yàn)證語音信息和注冊語音信息中共有的字符,c^Uar)表 示該字符在驗(yàn)證語音信息中對(duì)應(yīng)的特征向量,表示該字符在注冊語音信息中對(duì) 應(yīng)的特征向量。若驗(yàn)證語音信息和注冊語音信息中包含多個(gè)相同的字符,則可以根據(jù)上式 計(jì)算得到的各個(gè)字符的相似度分?jǐn)?shù)取均值,若各個(gè)字符的相似度分?jǐn)?shù)均值達(dá)到對(duì)應(yīng)的預(yù)設(shè) 驗(yàn)證門限,則將所述驗(yàn)證用戶確定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。若存在多位注冊 用戶,例如圖1所示的注冊用戶A、B以及C,可以根據(jù)驗(yàn)證用戶某個(gè)字符的特征向量與各個(gè)注 冊用戶的相應(yīng)字符的特征向量的相似度,當(dāng)某個(gè)注冊用戶的相應(yīng)字符的特征向量與驗(yàn)證語 音的該字符的特征向量的相似度分?jǐn)?shù)最高且相似度達(dá)到預(yù)設(shè)驗(yàn)證門限,則將該注冊用戶作 為驗(yàn)證用戶的身份識(shí)別結(jié)果。
[0062]在可選實(shí)施例中,若所述驗(yàn)證語音信息中存在同一字符出現(xiàn)不止一次,例如出現(xiàn) 如圖2所示的驗(yàn)證語音信息中0、1、5以及8分別都出現(xiàn)了2次,那么可以按照兩次字符0對(duì)應(yīng) 的語音片段處理得到的特征向量分別與預(yù)設(shè)的注冊語音信息中字符〇的特征向量的相似度 分?jǐn)?shù)的平均值,作為本次驗(yàn)證語音信息中字符〇的特征向量與預(yù)設(shè)的注冊語音信息中字符〇 的特征向量的相似度分?jǐn)?shù),以此類推。
[0063]需要指出的是,衡量兩個(gè)特征向量之間的相似度的方式還有很多,以上僅是本發(fā) 明提供的一種實(shí)施方式,本領(lǐng)域技術(shù)人員在本發(fā)明公開的方案的基礎(chǔ)上可以無需創(chuàng)造性勞 動(dòng)地獲得更多的計(jì)算驗(yàn)證語音信息和注冊語音信息中共有的字符的特征向量的相似度分 數(shù)的方式,本發(fā)明無需窮舉。
[0064]從而,本實(shí)施例通過獲取驗(yàn)證用戶的驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符的UBM訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量, 并通過將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與注冊語音信息中相應(yīng)字符的特征向 量進(jìn)行相似度比較,從而確定驗(yàn)證用戶的的用戶身份,該方式用以比較的用戶特征向量與 具體字符對(duì)應(yīng),充分考慮到用戶朗讀不同字符時(shí)的聲紋特征,從而可有效提高聲紋識(shí)別準(zhǔn) 確率。
[0065]圖5是本發(fā)明實(shí)施例中注冊用戶的聲紋注冊流程示意圖,如圖所示本實(shí)施例中的 聲紋注冊流程可以包括:
[0066] S501,獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與 所述第一字符串擁有至少一個(gè)相同的字符。
[0067] 所述注冊用戶即確定合法身份的用戶,所述第二字符串是用于采集注冊用戶聲紋 特征向量的字符串,可以是隨機(jī)生成的,也可以是預(yù)設(shè)固定的一個(gè)字符串。具體的,所述第 二字符串也可以包含m個(gè)字符,其中有η個(gè)互不相同的字符,m,n均為正整數(shù),且m彡η。
[0068] 在可選實(shí)施例中,聲紋識(shí)別裝置可以生成并顯示所述第二字符串,讓注冊用戶根 據(jù)顯示的所述第二字符串進(jìn)行朗讀。
[0069] S502,對(duì)所述注冊語音信息進(jìn)行語音識(shí)別得到所述注冊語音信息中包含的分別與 所述第二字符串中的多個(gè)字符對(duì)應(yīng)的語音片段;
[0070] 聲紋識(shí)別裝置可以通過語音識(shí)別以及聲音強(qiáng)度過濾,將所述驗(yàn)證語音信息劃分得 到多個(gè)字符對(duì)應(yīng)的語音片段,可選的還可以將無效語音片段剔除掉,不參與后續(xù)的處理過 程。
[0071] S503,提取注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征。
[0072] 具體的,聲紋識(shí)別裝置可以提取各個(gè)字符對(duì)應(yīng)的語音片段中的M F C C (M e 1 Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個(gè)字符所對(duì)應(yīng)的語音片段的聲紋特征。
[0073] S504,根據(jù)注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相 應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到注冊語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。
[0074] UBM的表達(dá)式可以參考前文實(shí)施例。聲紋注冊流程的該步驟與聲紋識(shí)別流程的 S204類似,聲紋識(shí)別裝置可以將注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為 訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)對(duì)預(yù)設(shè)的相應(yīng)字符對(duì) 應(yīng)的通用背景模型的參數(shù)進(jìn)行調(diào)整,即在將注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲 紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的 參數(shù),使得后驗(yàn)概率P(x)最大,從而可以根據(jù)使得后驗(yàn)概率P(x)最大的參數(shù)確定注冊語音 信息中相應(yīng)字符對(duì)應(yīng)的特征向量。
[0075] 而由于UBM模型中每個(gè)高斯模塊的均值可以用于區(qū)分說話人的身份信息,聲紋識(shí) 別裝置可以將注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采 用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模 型的均值超向量進(jìn)行調(diào)整,即在將注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作 為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后驗(yàn)概率P(x)最大,從而可以將 使得后驗(yàn)概率P(x)最大的均值超向量作為注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量。
[0076] 在另一可選實(shí)施例中,可以采用下式對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均 值超向量進(jìn)行調(diào)整,使得調(diào)整后的相應(yīng)字符對(duì)應(yīng)的通用背景模型的后驗(yàn)概率最大:
[0077] Μ = πι+Τω,其中Μ代表調(diào)整后的某個(gè)字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為注冊 語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量,即在將注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實(shí)現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗(yàn)概率P(x)最大,從而可以將使得后驗(yàn)概率P(x)最大的ω作為注冊語音信息中 相應(yīng)字符對(duì)應(yīng)的特征向量。
[0078] 圖6是本發(fā)明另一實(shí)施例中的聲紋識(shí)別方法的流程示意圖,如圖所示本實(shí)施例中 的聲紋識(shí)別方法可以包括以下流程:
[0079] S601,隨機(jī)生成第一字符串并進(jìn)行顯示。
[0080] S602,獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息。
[0081 ] S603,識(shí)別所述驗(yàn)證語音信息中的有效語音片段和無效語音片段。
[0082] 具體的,可以根據(jù)聲音強(qiáng)度對(duì)驗(yàn)證語音進(jìn)行劃分,將聲音強(qiáng)度較小的語音片段視 為無效語音片段(例如包括靜音段和脈沖噪聲)。
[0083] S604,對(duì)所述有效語音片段進(jìn)行語音識(shí)別得到分別與所述第一字符串中的多個(gè)字 符對(duì)應(yīng)的語音片段。
[0084] 可以通過語音識(shí)別,得到分別與所述第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片段。
[0085] S605,確定所述驗(yàn)證語音信息中的多個(gè)字符的語音片段的排序與所述第一字符串 中的相應(yīng)字符的排序一致。
[0086] 為了有效避免注冊用戶的語音信息被盜錄或非法拷貝后用以進(jìn)行聲紋識(shí)別,可以 每次隨機(jī)生成不同的第一字符串,并在本步驟判斷驗(yàn)證語音信息中的多個(gè)字符的語音片段 的排序是否與第一字符串中的相應(yīng)字符的排序一致,若不一致,則可以判斷聲紋識(shí)別失敗, 若與第一字符串中的相應(yīng)字符的排序一致,則執(zhí)行后續(xù)流程。
[0087] S606,提取各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征。
[0088]具體的,聲紋識(shí)別裝置可以提取各個(gè)字符對(duì)應(yīng)的語音片段中的MF C C (M e 1 Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個(gè)字符所對(duì)應(yīng)的語音片段的聲紋特征。
[0089] S607,將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù) 據(jù),采用最大后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào) 整,從而估計(jì)得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。
[0090] 由于大量的實(shí)驗(yàn)和論文驗(yàn)證了 UBM模型中每個(gè)高斯模塊的均值可以用于區(qū)分說話 人的身份信息,聲紋識(shí)別裝置可以將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征 作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)對(duì)預(yù)設(shè)的相應(yīng)字 符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,即在將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語 音片段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后驗(yàn)概率P (X)最大,從而可以將使得后驗(yàn)概率P(x)最大的均值超向量作為驗(yàn)證語音信息中相應(yīng)字符 對(duì)應(yīng)的特征向量。
[0091] 在另一可選實(shí)施例中,為了降低超向量的高維度帶來的收斂速度慢的問題,聲紋 識(shí)別裝置可以采用下式對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,使 得調(diào)整后的相應(yīng)字符對(duì)應(yīng)的通用背景模型的后驗(yàn)概率最大:
[0092] Μ = πι+Τω,其中Μ代表調(diào)整后的某個(gè)字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗(yàn)證 語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量,即在將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實(shí)現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗(yàn)概率P(x)最大,從而可以將使得后驗(yàn)概率P(x)最大的ω作為驗(yàn)證語音信息中 相應(yīng)字符對(duì)應(yīng)的特征向量。
[0093] S608,計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相 應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù),若相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將驗(yàn)證用戶確 定為注冊語音信息對(duì)應(yīng)的注冊用戶。
[0094] 本實(shí)施例中,聲紋識(shí)別裝置可以計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與 預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量之間的余弦距離值作為所述相似度分?jǐn)?shù), 即通過下式計(jì)算某個(gè)字符分別在驗(yàn)證語音信息中對(duì)應(yīng)的特征向量和注冊語音信息中的特 征向量之間的相似度分?jǐn)?shù):
[0096] 其中,下標(biāo)i表示第i個(gè)驗(yàn)證語音信息和注冊語音信息中共有的字符,cojtar)表 示該字符在驗(yàn)證語音信息中對(duì)應(yīng)的特征向量,表示該字符在注冊語音信息中對(duì) 應(yīng)的特征向量。若驗(yàn)證語音信息和注冊語音信息中包含多個(gè)相同的字符,則可以根據(jù)上式 計(jì)算得到的各個(gè)字符的相似度分?jǐn)?shù)取均值,若各個(gè)字符的相似度分?jǐn)?shù)均值達(dá)到對(duì)應(yīng)的預(yù)設(shè) 驗(yàn)證門限,則將所述驗(yàn)證用戶確定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。若存在多位注冊 用戶,例如圖1所示的注冊用戶A、B以及C,可以根據(jù)驗(yàn)證用戶某個(gè)字符的特征向量與各個(gè)注 冊用戶的相應(yīng)字符的特征向量的相似度,當(dāng)某個(gè)注冊用戶的相應(yīng)字符的特征向量與驗(yàn)證語 音的該字符的特征向量的相似度分?jǐn)?shù)最高且相似度達(dá)到預(yù)設(shè)驗(yàn)證門限,則將該注冊用戶作 為驗(yàn)證用戶的身份識(shí)別結(jié)果。
[0097] 從而,本實(shí)施例通過將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與注冊語音信息 中相應(yīng)字符的特征向量進(jìn)行相似度比較,并且結(jié)合了語音片段的時(shí)序判斷,可以進(jìn)一步確 保驗(yàn)證用戶的的用戶身份的準(zhǔn)確性。
[0098] 圖7是本發(fā)明實(shí)施例中的一種聲紋識(shí)別裝置的結(jié)構(gòu)示意圖,如圖所示本實(shí)施例中 的聲紋識(shí)別裝置可以包括:
[0099]語音獲取模塊710,用于獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息。
[0100] 所述驗(yàn)證用戶即未知身份的用戶,需要通過聲紋識(shí)別裝置驗(yàn)證其用戶身份。所述 第一字符串是用于驗(yàn)證用戶進(jìn)行身份驗(yàn)證的字符串,可以是隨機(jī)生成的,也可以是預(yù)設(shè)固 定的一個(gè)字符串,例如與預(yù)先生成的注冊語音信息對(duì)應(yīng)的第二字符串至少部分相同的一個(gè) 字符串。具體的,所述字符串可以包含m個(gè)字符,其中有η個(gè)互不相同的字符,m,n均為正整 數(shù),且m^n。
[0101] 比如,第一字符串是"12358948",共8個(gè)字符,包括了7種互不相同的字符"Γ、"2"、 ??β?? "4,,"5,,"8,,"9,,
[0102] 語音片段識(shí)別模塊720,用于對(duì)所述驗(yàn)證語音信息進(jìn)行語音識(shí)別得到所述驗(yàn)證語 音信息中包含的分別與所述第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片段。
[0103] 如圖3所示,語音片段識(shí)別模塊720可以通過語音識(shí)別以及聲音強(qiáng)度過濾,將所述 驗(yàn)證語音信息劃分得到多個(gè)字符對(duì)應(yīng)的語音片段,可選的還可以將無效語音片段剔除掉, 不參與后續(xù)的處理過程。
[0104] 在可選實(shí)施例中,所述語音片段識(shí)別模塊如圖8所示進(jìn)一步可以包括:
[0105]有效片段識(shí)別單元721,用于識(shí)別所述驗(yàn)證語音信息中的有效語音片段和無效語 首片段。
[0106] 具體的,有效片段識(shí)別單元721可以根據(jù)聲音強(qiáng)度對(duì)驗(yàn)證語音進(jìn)行劃分,將聲音強(qiáng) 度較小的語音片段視為無效語音片段(例如包括靜音段和脈沖噪聲)。
[0107] 語音識(shí)別單元722,用于對(duì)所述有效語音片段進(jìn)行語音識(shí)別得到分別與所述第一 字符串中的多個(gè)字符對(duì)應(yīng)的語音片段。
[0108] 聲紋特征提取模塊730,用于提取驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲 紋特征。
[0109] 具體的,聲紋特征提取模塊730可以提取各個(gè)字符對(duì)應(yīng)的語音片段中的MFCC(Mel Frequency Cepstrum Coefficient,梅爾倒譜系數(shù))或 PLP(Perceptual Linear Predictive,感知線性預(yù)測系數(shù)),作為各個(gè)字符所對(duì)應(yīng)的語音片段的聲紋特征。
[0110] 特征模型訓(xùn)練模塊740,用于根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合 預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。
[0111] 特征模型訓(xùn)練模塊740可以將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特 征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)對(duì)預(yù)設(shè)的相應(yīng) 字符對(duì)應(yīng)的通用背景模型的參數(shù)進(jìn)行調(diào)整,即在將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片 段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景 模型的參數(shù),使得后驗(yàn)概率P(x)最大,從而特征模型訓(xùn)練模塊740可以根據(jù)使得后驗(yàn)概率P (X)最大的參數(shù)確定驗(yàn)證語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量。
[0112] 由于大量的實(shí)驗(yàn)和論文驗(yàn)證了 UBM模型中每個(gè)高斯模塊的均值可以用于區(qū)分說話 人的身份信息,我們定義UBM模型的均值超向量為:
[0114] 從而,特征模型訓(xùn)練模塊740可以將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法(Maximum A Posteriori,MAP)對(duì)預(yù)設(shè) 的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,即在將驗(yàn)證語音信息中各個(gè)字符 對(duì)應(yīng)的語音片段的聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整均值超向量,使得后 驗(yàn)概率P( x)最大,特征模型訓(xùn)練模塊740可以將使得后驗(yàn)概率P(x)最大的均值超向量作為 驗(yàn)證語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量。
[0115] 在另一可選實(shí)施例中,為了降低超向量的高維度帶來的收斂速度慢的問題,我們 通過基于概率的主成分分析方法(PPCA,probabilistic principal component analysis) 將均值超向量的變化范圍限制在一個(gè)子空間中,特征模型訓(xùn)練模塊740可以將驗(yàn)證語音信 息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法對(duì)預(yù) 設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,并結(jié)合預(yù)設(shè)的超向量子空間矩 陣從而得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。具體實(shí)現(xiàn)中,特征模型訓(xùn)練模塊740 可以采用下式對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,使得調(diào)整后 的相應(yīng)字符對(duì)應(yīng)的通用背景模型的后驗(yàn)概率最大:
[0116] Μ = πι+Τω,其中Μ代表調(diào)整后的某個(gè)字符的通用背景模型的均值超向量,m代表調(diào) 整前的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗(yàn)證 語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量,即在將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征作為輸入樣本代入式(1)后,通過不斷調(diào)整ω可以實(shí)現(xiàn)調(diào)整式(1)中的均值超向 量,使得后驗(yàn)概率P(x)最大,從而可以將使得后驗(yàn)概率P(x)最大的ω作為驗(yàn)證語音信息中 相應(yīng)字符對(duì)應(yīng)的特征向量。所述超向量子空間矩陣Τ為根據(jù)所述高斯混合模型的均值超向 量中各個(gè)維度向量之間的相關(guān)性確定得到的。
[0117] 相似度判斷模塊750,用于計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè) 的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù)。
[0118] 具體的,聲紋識(shí)別裝置在可以在聲紋注冊階段獲取到注冊用戶的注冊語音信息, 并通過語音片段識(shí)別模塊720、聲紋特征提取模塊730以及特征模型訓(xùn)練模塊740,可以得到 注冊語音信息中各個(gè)字符的語音片段對(duì)應(yīng)的特征向量。所述注冊語音信息,可以是聲紋識(shí) 別裝置獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一 字符串擁有至少一個(gè)相同的字符,即所述注冊語音信息對(duì)應(yīng)的第二字符串與所述第一字符 串至少部分相同。進(jìn)而在可選實(shí)施例中,聲紋識(shí)別裝置還可以從外部獲取所述注冊語音信 息中相應(yīng)字符對(duì)應(yīng)的特征向量,即注冊用戶通過其他設(shè)備錄入了注冊語音信息后,其他設(shè) 備或者服務(wù)器通過聲紋特征提取和聲紋模型訓(xùn)練得到注冊語音信息中各個(gè)字符的語音片 段對(duì)應(yīng)的特征向量,聲紋識(shí)別裝置通過從其他設(shè)備或者服務(wù)器獲取到所述注冊語音信息中 相應(yīng)字符對(duì)應(yīng)的特征向量,從而在驗(yàn)證用戶的身份識(shí)別階段相似度判斷模塊750用以與驗(yàn) 證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量進(jìn)行比較。
[0119] 具體實(shí)現(xiàn)中,所述相似度分?jǐn)?shù)是聲紋識(shí)別裝置將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的 特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量進(jìn)行比較后,衡量相同字符的 兩個(gè)特征向量之間的相似程度的分值。在可選實(shí)施例中,相似度判斷模塊750可以計(jì)算驗(yàn)證 語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量 之間的余弦距離值作為所述相似度分?jǐn)?shù),即通過下式計(jì)算某個(gè)字符分別在驗(yàn)證語音信息中 對(duì)應(yīng)的特征向量和注冊語音信息中的特征向量之間的相似度分?jǐn)?shù):
[0121] 其中,下標(biāo)i表示第i個(gè)驗(yàn)證語音信息和注冊語音信息中共有的字符,c^Uar)表 示該字符在驗(yàn)證語音信息中對(duì)應(yīng)的特征向量,表示該字符在注冊語音信息中對(duì) 應(yīng)的特征向量。在可選實(shí)施例中,若所述驗(yàn)證語音信息中存在同一字符出現(xiàn)不止一次,例如 出現(xiàn)如圖2所示的驗(yàn)證語音信息中0、1、5以及8分別都出現(xiàn)了 2次,那么可以按照兩次字符0 對(duì)應(yīng)的語音片段處理得到的特征向量分別與預(yù)設(shè)的注冊語音信息中字符0的特征向量的相 似度分?jǐn)?shù)的平均值,作為本次驗(yàn)證語音信息中字符〇的特征向量與預(yù)設(shè)的注冊語音信息中 字符〇的特征向量的相似度分?jǐn)?shù),以此類推。
[0122] 需要指出的是,衡量兩個(gè)特征向量之間的相似度的方式還有很多,以上僅是本發(fā) 明提供的一種實(shí)施方式,本領(lǐng)域技術(shù)人員在本發(fā)明公開的方案的基礎(chǔ)上可以無需創(chuàng)造性勞 動(dòng)地獲得更多的計(jì)算驗(yàn)證語音信息和注冊語音信息中共有的字符的特征向量的相似度分 數(shù)的方式,本發(fā)明無需窮舉。
[0123] 用戶識(shí)別模塊760,用于若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用戶 確定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。
[0124] 若驗(yàn)證語音信息和注冊語音信息中包含多個(gè)相同的字符,則用戶識(shí)別模塊760可 以根據(jù)相似度判斷模塊750計(jì)算得到的各個(gè)字符的相似度分?jǐn)?shù)取均值,若各個(gè)字符的相似 度分?jǐn)?shù)均值達(dá)到對(duì)應(yīng)的預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用戶確定為所述注冊語音信息對(duì)應(yīng)的 注冊用戶。若存在多位注冊用戶,例如圖1所示的注冊用戶A、B以及C,用戶識(shí)別模塊760可以 根據(jù)驗(yàn)證用戶某個(gè)字符的特征向量與各個(gè)注冊用戶的相應(yīng)字符的特征向量的相似度,當(dāng)某 個(gè)注冊用戶的相應(yīng)字符的特征向量與驗(yàn)證語音的該字符的特征向量的相似度分?jǐn)?shù)最高且 相似度達(dá)到預(yù)設(shè)驗(yàn)證門限,則將該注冊用戶作為驗(yàn)證用戶的身份識(shí)別結(jié)果。
[0125] 進(jìn)而在可選實(shí)施例中,所述語音獲取模塊710,還用于獲取注冊用戶朗讀第二字符 串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一字符串擁有至少一個(gè)相同的字符;
[0126] 所述語音片段識(shí)別模塊720,還用于對(duì)所述注冊語音信息進(jìn)行語音識(shí)別得到所述 注冊語音信息中包含的分別與所述第二字符串中的多個(gè)字符對(duì)應(yīng)的語音片段;
[0127] 所述聲紋特征提取模塊730,還用于提取注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片 段的聲紋特征;
[0128] 所述特征模型訓(xùn)練模塊740,還用于根據(jù)所述注冊語音信息中各個(gè)字符對(duì)應(yīng)的語 音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到注冊語音信息中各 個(gè)字符對(duì)應(yīng)的特征向量。
[0129] 在可選實(shí)施例中,聲紋識(shí)別裝置進(jìn)一步還可以包括:
[0130]字符排序確定模塊770,用于確定所述驗(yàn)證語音信息中的多個(gè)字符的語音片段的 排序與所述第一字符串中的相應(yīng)字符的排序一致。
[0131] 為了有效避免注冊用戶的語音信息被盜錄或非法拷貝后用以進(jìn)行聲紋識(shí)別,可以 每次隨機(jī)生成不同的第一字符串,并在本步驟判斷驗(yàn)證語音信息中的多個(gè)字符的語音片段 的排序是否與第一字符串中的相應(yīng)字符的排序一致,若不一致,則可以判斷聲紋識(shí)別失敗, 若與第一字符串中的相應(yīng)字符的排序一致,則可以通知聲紋特征提取模塊730或特征模型 訓(xùn)練模塊740執(zhí)行針對(duì)該驗(yàn)證語音信息的特征提取和聲紋訓(xùn)練。
[0132] 在可選實(shí)施例中,聲紋識(shí)別裝置進(jìn)一步還可以包括:
[0133] 字符串顯示模塊700,用于隨機(jī)生成所述第一字符串并進(jìn)行顯示。
[0134] 從而,本實(shí)施例通過獲取驗(yàn)證用戶的驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符的UBM訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量, 并通過將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與注冊語音信息中相應(yīng)字符的特征向 量進(jìn)行相似度比較,從而確定驗(yàn)證用戶的的用戶身份,該方式用以比較的用戶特征向量與 具體字符對(duì)應(yīng),充分考慮到用戶朗讀不同字符時(shí)的聲紋特征,從而可有效提高聲紋識(shí)別準(zhǔn) 確率。
[0135] 在實(shí)際測試實(shí)例中,在1000人訓(xùn)練樣本,29萬次測試中(其中身份匹配的測試在1 萬次左右,不匹配測試約在28萬次),能夠?qū)崿F(xiàn)千分之一錯(cuò)誤率下79.8%的召回率,等錯(cuò)概 率(EER,Equal Error Rate)為3.39%,相較于傳統(tǒng)的文本無關(guān)建模方法,聲紋識(shí)別性能提 升超過40%以上。
[0136] 本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以 通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì) 中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁 碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。
[0137] 以上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范 圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【主權(quán)項(xiàng)】
1. 一種聲紋識(shí)別方法,其特征在于,所述方法包括: 獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息; 對(duì)所述驗(yàn)證語音信息進(jìn)行語音識(shí)別得到所述驗(yàn)證語音信息中包含的分別與所述第一 字符串中的多個(gè)字符對(duì)應(yīng)的語音片段; 提取各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征; 根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景 模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量; 計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì) 應(yīng)的特征向量的相似度分?jǐn)?shù),若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用戶確 定為所述注冊語音信息對(duì)應(yīng)的注冊用戶。2. 如權(quán)利要求1所述的聲紋識(shí)別方法,其特征在于,所述獲取驗(yàn)證用戶朗讀第一字符串 所產(chǎn)生的驗(yàn)證語音信息之前還包括: 獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所述第二字符串與所述第一字 符串擁有至少一個(gè)相同的字符; 對(duì)所述注冊語音信息進(jìn)行語音識(shí)別得到所述注冊語音信息中包含的分別與所述第二 字符串中的多個(gè)字符對(duì)應(yīng)的語音片段; 提取注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征; 根據(jù)注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng) 的通用背景模型訓(xùn)練得到注冊語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。3. 如權(quán)利要求1所述的聲紋識(shí)別方法,其特征在于,所述根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音 片段的聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè) 字符對(duì)應(yīng)的特征向量包括: 將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,從而估計(jì)得 到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。4. 如權(quán)利要求3所述的聲紋識(shí)別方法,其特征在于,所述將驗(yàn)證語音信息中各個(gè)字符對(duì) 應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng)字符對(duì) 應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,從而估計(jì)得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的 特征向量包括: 將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,并結(jié)合預(yù)設(shè) 的超向量子空間矩陣從而得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。5. 如權(quán)利要求4所述的聲紋識(shí)別方法,其特征在于,所述將驗(yàn)證語音信息中各個(gè)字符對(duì) 應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng)字符對(duì) 應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,并結(jié)合預(yù)設(shè)的超向量子空間矩陣從而得到驗(yàn)證 語音信息中各個(gè)字符對(duì)應(yīng)的特征向量包括: 將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用下式 對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,使得調(diào)整后的相應(yīng)字符對(duì) 應(yīng)的通用背景模型的后驗(yàn)概率最大: M = m+Tc〇,其中Μ代表調(diào)整后的某個(gè)字符的通用背景模型的均值超向量,m代表調(diào)整前 的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗(yàn)證語音 信息中相應(yīng)字符對(duì)應(yīng)的特征向量。6. 如權(quán)利要求4所述的聲紋識(shí)別方法,其特征在于,所述超向量子空間矩陣為根據(jù)所述 通用背景模型中各個(gè)高斯模塊的權(quán)重之間的相關(guān)性確定得到的。7. 如權(quán)利要求1所述的聲紋識(shí)別方法,其特征在于,所述計(jì)算驗(yàn)證語音信息中各個(gè)字符 對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù)包括: 計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì) 應(yīng)的特征向量之間的余弦距離值作為所述相似度分?jǐn)?shù)。8. 如權(quán)利要求1所述的聲紋識(shí)別方法,其特征在于,所述對(duì)所述驗(yàn)證語音信息進(jìn)行語音 識(shí)別得到所述驗(yàn)證語音信息中包含的分別與所述第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片 段包括: 識(shí)別所述驗(yàn)證語音信息中的有效語音片段和無效語音片段; 對(duì)所述有效語音片段進(jìn)行語音識(shí)別得到分別與所述第一字符串中的多個(gè)字符對(duì)應(yīng)的 語音片段。9. 如權(quán)利要求1所述的聲紋識(shí)別方法,其特征在于,所述將所述驗(yàn)證用戶確定為所述注 冊語音信息對(duì)應(yīng)的注冊用戶之前還包括: 確定所述驗(yàn)證語音信息中的多個(gè)字符的語音片段的排序與所述第一字符串中的相應(yīng) 字符的排序一致。10. 如權(quán)利要求1-9中任一項(xiàng)所述的聲紋識(shí)別方法,其特征在于,所述獲取驗(yàn)證用戶朗 讀第一字符串所產(chǎn)生的驗(yàn)證語音信息之前還包括: 隨機(jī)生成所述第一字符串并進(jìn)行顯示。11. 一種聲紋識(shí)別裝置,其特征在于,所述裝置包括: 語音獲取模塊,用于獲取驗(yàn)證用戶朗讀第一字符串所產(chǎn)生的驗(yàn)證語音信息; 語音片段識(shí)別模塊,用于對(duì)所述驗(yàn)證語音信息進(jìn)行語音識(shí)別得到所述驗(yàn)證語音信息中 包含的分別與所述第一字符串中的多個(gè)字符對(duì)應(yīng)的語音片段; 聲紋特征提取模塊,用于提取驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征; 特征模型訓(xùn)練模塊,用于根據(jù)所述各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征,結(jié)合預(yù)設(shè)的 相應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量; 相似度判斷模塊,用于計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語 音信息中相應(yīng)字符對(duì)應(yīng)的特征向量的相似度分?jǐn)?shù); 用戶識(shí)別模塊,用于若所述相似度分?jǐn)?shù)達(dá)到預(yù)設(shè)驗(yàn)證門限,則將所述驗(yàn)證用戶確定為 所述注冊語音信息對(duì)應(yīng)的注冊用戶。12. 如權(quán)利要求11所述的聲紋識(shí)別裝置,其特征在于, 所述語音獲取模塊,還用于獲取注冊用戶朗讀第二字符串所產(chǎn)生的注冊語音信息,所 述第二字符串與所述第一字符串擁有至少一個(gè)相同的字符; 所述語音片段識(shí)別模塊,還用于對(duì)所述注冊語音信息進(jìn)行語音識(shí)別得到所述注冊語音 信息中包含的分別與所述第二字符串中的多個(gè)字符對(duì)應(yīng)的語音片段; 所述聲紋特征提取模塊,還用于提取注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋 特征; 所述特征模型訓(xùn)練模塊,還用于根據(jù)所述注冊語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的 聲紋特征,結(jié)合預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型訓(xùn)練得到注冊語音信息中各個(gè)字符對(duì) 應(yīng)的特征向量。13. 如權(quán)利要求11所述的聲紋識(shí)別裝置,其特征在于,所述特征向量計(jì)算模塊用于: 將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,從而估計(jì)得 到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。14. 如權(quán)利要求13所述的聲紋識(shí)別裝置,其特征在于,所述特征向量計(jì)算模塊用于: 將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用最大 后驗(yàn)概率算法對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,并結(jié)合預(yù)設(shè) 的超向量子空間矩陣從而得到驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量。15. 如權(quán)利要求14所述的聲紋識(shí)別裝置,其特征在于,所述特征向量計(jì)算模塊具體用 于: 將驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的語音片段的聲紋特征作為訓(xùn)練樣本數(shù)據(jù),采用下式 對(duì)預(yù)設(shè)的相應(yīng)字符對(duì)應(yīng)的通用背景模型的均值超向量進(jìn)行調(diào)整,使得調(diào)整后的相應(yīng)字符對(duì) 應(yīng)的通用背景模型的后驗(yàn)概率最大: M = m+Tc〇,其中Μ代表調(diào)整后的某個(gè)字符的通用背景模型的均值超向量,m代表調(diào)整前 的相應(yīng)字符的通用背景模型的均值超向量,T為預(yù)設(shè)的超向量子空間矩陣,ω即為驗(yàn)證語音 信息中相應(yīng)字符對(duì)應(yīng)的特征向量。16. 如權(quán)利要求14所述的聲紋識(shí)別裝置,其特征在于,所述超向量子空間矩陣為根據(jù)所 述高斯混合模型的均值超向量中各個(gè)維度向量之間的相關(guān)性確定得到的。17. 如權(quán)利要求11所述的聲紋識(shí)別裝置,其特征在于,所述相似度判斷模塊用于: 計(jì)算驗(yàn)證語音信息中各個(gè)字符對(duì)應(yīng)的特征向量與預(yù)設(shè)的注冊語音信息中相應(yīng)字符對(duì) 應(yīng)的特征向量之間的余弦距離值作為所述相似度分?jǐn)?shù)。18. 如權(quán)利要求11所述的聲紋識(shí)別裝置,其特征在于,所述語音片段識(shí)別模塊包括: 有效片段識(shí)別單元,用于識(shí)別所述驗(yàn)證語音信息中的有效語音片段和無效語音片段; 語音識(shí)別單元,用于對(duì)所述有效語音片段進(jìn)行語音識(shí)別得到分別與所述第一字符串中 的多個(gè)字符對(duì)應(yīng)的語音片段。19. 如權(quán)利要求11所述的聲紋識(shí)別裝置,其特征在于,還包括: 字符排序確定模塊,用于確定所述驗(yàn)證語音信息中的多個(gè)字符的語音片段的排序與所 述第一字符串中的相應(yīng)字符的排序一致。20. 如權(quán)利要求11-19中任一項(xiàng)所述的聲紋識(shí)別裝置,其特征在于,還包括: 字符串顯示模塊,用于隨機(jī)生成所述第一字符串并進(jìn)行顯示。
【文檔編號(hào)】G10L17/04GK106098068SQ201610416650
【公開日】2016年11月9日
【申請日】2016年6月12日 公開號(hào)201610416650.3, CN 106098068 A, CN 106098068A, CN 201610416650, CN-A-106098068, CN106098068 A, CN106098068A, CN201610416650, CN201610416650.3
【發(fā)明人】李為, 錢柄樺, 金星明, 李科, 吳富章, 吳永堅(jiān), 黃飛躍
【申請人】騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
和静县| 黑水县| 三门峡市| 宁陵县| 宾阳县| 双牌县| 淅川县| 繁峙县| 巨野县| 五峰| 睢宁县| 玉田县| 娄烦县| 古交市| 寿光市| 大邑县| 同心县| 凤冈县| 扎赉特旗| 安康市| 水富县| 莱芜市| 横峰县| 大同市| 云浮市| 克什克腾旗| 苗栗市| 乐都县| 武隆县| 光泽县| 通州区| 上虞市| 井冈山市| 湘阴县| 广宁县| 伊通| 仁寿县| 天祝| 平陆县| 恭城| 株洲市|