欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

聲紋模型自動重建的方法和裝置的制造方法

文檔序號:8300070閱讀:438來源:國知局
聲紋模型自動重建的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及計算機及信息服務(wù)技術(shù)領(lǐng)域,特別是涉及一種聲紋模型自動重建的方法和裝置。
【背景技術(shù)】
[0002]說話人識別技術(shù),又稱為聲紋識別技術(shù),主要是基于語音中說話人包含的個性特征的信息,利用計算機以及各種信息識別技術(shù),自動地實現(xiàn)說話人身份的確認(rèn)。
[0003]近幾年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,語音作為一種非接觸性信息載體,人們可以依靠各種移動終端設(shè)備,例如:手機、麥克風(fēng)和IP電話等,隨時隨地的完成語音采集,并通過網(wǎng)絡(luò)傳輸和后臺服務(wù)器來實現(xiàn)人機交互和說話人身份識別。
[0004]目前說話人識別最為主流的技術(shù)路線是GMM-UBM框架或者全變量子空間的1-vector模型。對于GMM-UBM框架米用混合高斯模型(Gaussian Mixture Model,GMM)模擬每個說話人模型及單獨的通用背景模型(Universal Background Model,UBM),每個說話人的數(shù)十秒語音借助充分語音訓(xùn)練得到的通用背景模型(UBM),通過模型自適應(yīng)的方法得到能夠反映說話人自身特征的高斯混合模型(GMM),并使用GMM-UBM進行說話人身份確定。而對于1-vector模型則是預(yù)先通過最大期望EM算法迭代求得一個線性變換矩陣T,語音片段借助該線性變換矩陣訓(xùn)練得到對應(yīng)的1-vector模型,并使用該1-vector模型進行說話人身份確定。
[0005]上述框架在進行說話人身份確定時存在以下問題:首先,從生理學(xué)角度看,說話人的生理特性和發(fā)音特性是隨時間不斷發(fā)生變化的。例如,聲道長度的變化,基音頻率的變化等。這種變化分為短期變化(一天內(nèi)不同時段的變化)、中期變化(一年內(nèi)的變化)、長期變化(年齡段的變化),由于時間變化的不確定性,無法得到一個穩(wěn)定且魯棒的說話人模型,從而在進行說話人身份確定時,存在說話人識別正確率低的問題,同時,如果持續(xù)性的讓用戶提供大量的建模語音必然會大大影響用戶的使用體驗。
[0006]其次,錄音的通訊設(shè)備或者移動終端,由于長時間的使用也會出現(xiàn)設(shè)備老化、信號不穩(wěn)等情況,在一定程度上影響到錄音準(zhǔn)確性和保真度。

【發(fā)明內(nèi)容】

[0007]本申請?zhí)峁┮环N聲紋模型自動重建的方法和裝置,以解決由于時間變化導(dǎo)致說話人模型波動,進而導(dǎo)致話說人識別正確率低的問題。
[0008]為了解決上述問題,本申請公開了一種聲紋模型自動重建的方法,包括:
[0009]將語音數(shù)據(jù)以時間點為標(biāo)簽構(gòu)建時變數(shù)據(jù)庫,其中,所述時變數(shù)據(jù)庫包括:參數(shù)化的語音數(shù)據(jù)、語音數(shù)據(jù)對應(yīng)的音素和語音數(shù)據(jù)對應(yīng)的音素的空間分布信息;
[0010]以時間窗管道為基本單元,按照語音數(shù)據(jù)的時間順序獲取時變數(shù)據(jù)庫中參數(shù)化的語音數(shù)據(jù),其中,所述時間窗管道包括多組語音數(shù)據(jù);
[0011]確定獲取的參數(shù)化的語音數(shù)據(jù)對應(yīng)的音素的空間分布信息,根據(jù)確定的所述音素的空間分布信息篩選時間窗管道中的語音數(shù)據(jù),獲得篩選后的多組語音數(shù)據(jù);
[0012]使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù);
[0013]使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型。
[0014]優(yōu)選地,將語音數(shù)據(jù)以時間點為標(biāo)簽構(gòu)建時變數(shù)據(jù)庫的步驟包括:
[0015]使用美爾頻域倒譜系數(shù)將所述語音數(shù)據(jù)以語音數(shù)據(jù)幀為基本單位進行參數(shù)化處理,獲取參數(shù)化的語音數(shù)據(jù);
[0016]使用語音識別器識別語音數(shù)據(jù),獲得語音數(shù)據(jù)對應(yīng)的音素;
[0017]根據(jù)參數(shù)化的語音數(shù)據(jù)和語音數(shù)據(jù)對應(yīng)的音素構(gòu)建時變數(shù)據(jù)庫。
[0018]優(yōu)選地,根據(jù)確定的所述音素的空間分布的信息篩選時間窗管道中的語音數(shù)據(jù),獲得篩選后的多組語音數(shù)據(jù)的步驟包括:
[0019]當(dāng)新的參數(shù)化的語音數(shù)據(jù)進入時間窗管道中時,將新的參數(shù)化的語音數(shù)據(jù)的音素空間分布信息分別與時間窗管道中的原語音數(shù)據(jù)對應(yīng)的音素的空間分布信息進行匹配,將匹配概率最高的時間窗管道中的原語音數(shù)據(jù)更新為新的參數(shù)化的語音數(shù)據(jù);
[0020]根據(jù)更新結(jié)果獲得篩選后的多組語音數(shù)據(jù)。
[0021]優(yōu)選地,還包括:當(dāng)時間窗管道中的語音數(shù)據(jù)更新頻率超過一定閾值時,采用模型自適應(yīng)的方式創(chuàng)建聲紋模型。
[0022]優(yōu)選地,所述時間窗管道中可容納的語音數(shù)據(jù)的數(shù)據(jù)量為10至20段語音數(shù)據(jù),各段語音數(shù)據(jù)可以是文本相關(guān)或文本無關(guān)。
[0023]為了解決上述問題,本申請還公開了一種聲紋模型自動重建的裝置,包括:
[0024]構(gòu)建模塊,用于將語音數(shù)據(jù)以時間點為標(biāo)簽構(gòu)建時變數(shù)據(jù)庫,其中,所述時變數(shù)據(jù)庫包括:參數(shù)化的語音數(shù)據(jù)、語音數(shù)據(jù)對應(yīng)的音素和語音數(shù)據(jù)對應(yīng)的音素的空間分布信息;
[0025]獲取模塊,用于以時間窗管道為基本單元,按照語音數(shù)據(jù)的時間順序獲取時變數(shù)據(jù)庫中參數(shù)化的語音數(shù)據(jù),其中,所述時間窗管道包括多組語音數(shù)據(jù);
[0026]確定模塊,用于確定獲取的參數(shù)化的語音數(shù)據(jù)對應(yīng)的音素的空間分布信息,根據(jù)確定的所述音素的空間分布的信息篩選時間窗管道中的語音數(shù)據(jù),獲得篩選后的多組語音數(shù)據(jù);
[0027]篩選模型,用于使用篩選后的多組語音數(shù)據(jù)更新時間窗管道中的語音數(shù)據(jù);
[0028]建立模塊,用于使用更新后的時間窗管道中的語音數(shù)據(jù)建立時間窗管道的聲紋模型。
[0029]優(yōu)選地,構(gòu)建模塊在將語音數(shù)據(jù)以時間點為標(biāo)簽構(gòu)建時變數(shù)據(jù)庫包括:
[0030]使用美爾頻域倒譜系數(shù)將所述語音數(shù)據(jù)按照語音數(shù)據(jù)幀進行參數(shù)化處理,獲取參數(shù)化的語音數(shù)據(jù);
[0031]使用語音識別器識別語音數(shù)據(jù),獲得語音數(shù)據(jù)對應(yīng)的音素;
[0032]根據(jù)參數(shù)化的語音數(shù)據(jù)和語音數(shù)據(jù)對應(yīng)的音素構(gòu)建時變數(shù)據(jù)庫。
[0033]優(yōu)選地,確定模塊在根據(jù)確定的所述音素的空間分布的信息篩選時間窗管道中的語音數(shù)據(jù),獲得篩選后的多組語音數(shù)據(jù)包括:
[0034]當(dāng)新的參數(shù)化的語音數(shù)據(jù)進入時間窗管道中時,將新的參數(shù)化的語音數(shù)據(jù)的音素空間分布信息分別與時間窗管道中的原語音數(shù)據(jù)對應(yīng)的音素的空間分布信息進行匹配,將匹配概率最高的時間窗管道中的原語音數(shù)據(jù)更新為新的參數(shù)化的語音數(shù)據(jù);
[0035]根據(jù)更新結(jié)果獲得篩選后的多組語音數(shù)據(jù)。
[0036]優(yōu)選地,還包括:當(dāng)時間窗管道中的語音數(shù)據(jù)更新頻率超過一定閾值時,采用模型自適應(yīng)的方式創(chuàng)建聲紋模型。
[0037]優(yōu)選地,所述時間窗管道中可容納的語音數(shù)據(jù)的數(shù)據(jù)量為10至20段語音數(shù)據(jù),各段語音數(shù)據(jù)中的文本之間文本相關(guān)或文本無關(guān)。
[0038]與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點:
[0039]本申請首先,將語音數(shù)據(jù)以時間點為標(biāo)簽構(gòu)建時變數(shù)據(jù)庫,使用時變數(shù)據(jù)庫存儲用戶各個時間段的語音數(shù)據(jù),同時將語音數(shù)據(jù)進行語音數(shù)據(jù)幀的參數(shù)化處理,從而大大降低了時變數(shù)據(jù)庫的存儲成本。
[0040]其次,本申請通過以時間窗管道為基本單元,按照語音數(shù)據(jù)的時間順序獲取時變數(shù)據(jù)庫中的參數(shù)化的語音數(shù)據(jù),根據(jù)確定出的參數(shù)化的語音數(shù)據(jù)對應(yīng)的音素的空間分布信息篩選時間窗管道中的語音數(shù)據(jù),獲得篩選后的多組語
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
台山市| 大名县| 东平县| 舒兰市| 鞍山市| 龙海市| 蒙自县| 岫岩| 新竹市| 民和| 苍山县| 伊春市| 荔波县| 稷山县| 汶上县| 墨脱县| 唐海县| 南木林县| 滕州市| 双江| 玛纳斯县| 桃江县| 宁国市| 界首市| 启东市| 阿拉善左旗| 拉孜县| 曲靖市| 醴陵市| 新闻| 石台县| 天峨县| 沭阳县| 西城区| 扎兰屯市| 莒南县| 贵州省| 澄迈县| 台东市| 康马县| 阜新市|