欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于聯(lián)合深度學(xué)習(xí)的文本相關(guān)的說話人識別方法

文檔序號:8413617閱讀:450來源:國知局
基于聯(lián)合深度學(xué)習(xí)的文本相關(guān)的說話人識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及的是一種智能語音領(lǐng)域的技術(shù),具體是一種基于聯(lián)合深度學(xué)習(xí)的文本 相關(guān)的說話人識別方法。
【背景技術(shù)】
[0002] 說話人識別,是指在給定聲音信息時,接受或拒絕某個說話人的身份認證。說話人 識別技術(shù)目前已在諸多領(lǐng)域得到了廣泛的應(yīng)用,例如:身份驗證、互聯(lián)網(wǎng)安全、人機交互、銀 行證券系統(tǒng)、軍事刑偵等。說話人識別技術(shù)分為文本相關(guān)的說話人識別和文本無關(guān)的說話 人識別。前者要求訓(xùn)練模型的語料與測試語料一致,后者則無此要求。文本相關(guān)的說話人 識別主要分為特征提取、模型訓(xùn)練和分類識別三大模塊。研宄表明,傳統(tǒng)的文本相關(guān)的說話 人識別的主要問題存在于說話人的特征提取上,現(xiàn)有的特征提取方法在說話人個性特征的 表現(xiàn)力上以及魯棒性方面有著諸多不足。
[0003] 近年來現(xiàn)有的技術(shù)中,說話人識別在特征提取部分經(jīng)常采用的特征參數(shù)主要有線 性預(yù)測系數(shù)、梅爾倒譜系數(shù)和基音及共振峰系數(shù),這些特征提取的方法在表征說話人個性 的特征方面尚有不足,從而影響識別精度。此外,這些方法都利用了語音信號的短時平穩(wěn) 性,丟失了語音信號的動態(tài)特征,魯棒性較差,識別效果不理想。
[0004] 在識別模型部分,主流的方法主要為高斯混合模型-通用背景模型(GMM - UBM)和 隱馬爾可夫模型(HMM)。這兩種方法適合處理連續(xù)信號,受極大似然準(zhǔn)則的限制,在區(qū)分類 別上能力較弱,其處理結(jié)果只能反映同類樣本的相似性,卻不能較好地區(qū)分不同類樣本之 間的區(qū)別,因此,其識別效果較差。
[0005] 經(jīng)過對現(xiàn)有技術(shù)的檢索發(fā)現(xiàn),中國專利文獻號CN103700370A公開(公告)日 2014. 04. 02,公開了一種廣播電視語音識別方法及系統(tǒng),包括:根據(jù)廣播電視數(shù)據(jù)提取出音 頻數(shù)據(jù);對音頻數(shù)據(jù)進行預(yù)處理,得到特征文本數(shù)據(jù);將特征文本數(shù)據(jù)發(fā)送給云服務(wù)器進 行識別處理,得到男女聲識別、說話人識別以及語音識別結(jié)果;對數(shù)據(jù)預(yù)處理、男女聲識別、 說話人識別以及語音識別結(jié)果進行融合以及結(jié)構(gòu)化文本標(biāo)識,生成結(jié)構(gòu)化的語音識別結(jié) 果。該方法對現(xiàn)有語音識別方法進行改進,融合各種廣播電視數(shù)據(jù)預(yù)處理技術(shù)以及廣播電 視語音識別方法,對語音數(shù)據(jù)針對廣播電視行業(yè)的數(shù)據(jù)處理要求進行識別處理,對各識別 結(jié)果進行融合并生成結(jié)構(gòu)化的語音識別結(jié)果,能夠為后續(xù)廣播電視節(jié)目的其他業(yè)務(wù)的智能 化處理提供基礎(chǔ)數(shù)據(jù),且處理速度加快并提高準(zhǔn)確度。但該技術(shù)為文本不相關(guān),在同等條件 下與文本相關(guān)說話人識別技術(shù)的識別準(zhǔn)確率有較大差距;并且該技術(shù)針對廣播電視行業(yè)的 數(shù)據(jù)進行了適應(yīng)性訓(xùn)練,在廣播電視的語言環(huán)境中較有優(yōu)勢,但不適應(yīng)其他情況,如簽到系 統(tǒng)等。
[0006] 中國專利文獻號CN103971690A公開(公告)日2014. 08. 06,公開了一種聲紋識別 方法和裝置。方法包括:基于無標(biāo)注語音數(shù)據(jù)建立深層神經(jīng)網(wǎng)絡(luò)初級模型,并且基于有標(biāo)注 語音數(shù)據(jù)對該深層神經(jīng)網(wǎng)絡(luò)初級模型進行訓(xùn)練,以獲取深層神經(jīng)網(wǎng)絡(luò)二級模型;利用該深 層神經(jīng)網(wǎng)絡(luò)二級模型注冊說話人高層聲紋特征與說話人標(biāo)識;接收測試語音數(shù)據(jù),基于該 深層神經(jīng)網(wǎng)絡(luò)二級模型從測試語音數(shù)據(jù)中提取測試語音高層聲紋特征,并且基于該測試語 音高層聲紋特征確定說話人標(biāo)識。通過深層神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)語音信號當(dāng)中包含能夠抵御 噪聲干擾的高層次說話人信息,可以有效抵御噪聲干擾。但該技術(shù)在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時需要 在初級模型的基礎(chǔ)上使用有標(biāo)定的語音數(shù)據(jù)以獲取深層網(wǎng)絡(luò)二級模型,這個過程耗費時間 和計算資源較多;并且該技術(shù)只考慮了語音信號的聲音特性,而沒有考慮文本特性。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明針對現(xiàn)有傳統(tǒng)的說話人識別的方法具有特征提取不能準(zhǔn)確表征說話人的 個性特征以及丟失語音信號的動態(tài)特征、魯棒性較差等局限性以及識別效果不佳的缺點, 提出一種基于聯(lián)合深度學(xué)習(xí)的文本相關(guān)的說話人識別方法,在特征提取階段,利用聯(lián)合深 度學(xué)習(xí)提取j -vector (joint vector,聯(lián)合特征向量),且在識別驗證階段采用線性差分分 析作為分類器。本發(fā)明能夠極大地提高文本相關(guān)的說話人識別的精確度。
[0008] 本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
[0009] 本發(fā)明包括以下步驟:
[0010] 步驟1)從待檢測音頻中提出得到FBANK(對數(shù)譜特征)系數(shù),具體為:
[0011] 1. 1建立一系列帶通濾波器,優(yōu)選采用三角窗濾波器;
[0012] 1. 2將頻域上的聲音信號輸入這些濾波器,每一個帶通濾波器輸出一位FBank系 數(shù),它等于此帶通濾波器內(nèi)的信號之和;
[0013] 1. 3計算后得到Mel域上的FBank系數(shù)。
[0014] 步驟2)建立神經(jīng)網(wǎng)絡(luò);
[0015] 所述的神經(jīng)網(wǎng)絡(luò)具有4個隱層,每層1024個結(jié)點。
[0016] 所述的神經(jīng)網(wǎng)絡(luò)優(yōu)選采用具有多個隱層且每層多個結(jié)點的深度神經(jīng)網(wǎng)絡(luò),該深度 神經(jīng)網(wǎng)絡(luò)中的Background和development集的數(shù)據(jù)被用來訓(xùn)練特征提取神經(jīng)網(wǎng)絡(luò)。在這 個深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,194個類被使用了(bkg和dev共194個說話人)。
[0017] 對比度散度算法(Contrastive Divergence)用于受限波爾茲曼機(RBM)的訓(xùn)練 得到網(wǎng)絡(luò)參數(shù)初始值,基于SGD(隨機梯度下降算法)的后向傳播算法用于深度神經(jīng)網(wǎng)絡(luò)的 參數(shù)調(diào)整。
[0018] 所述的后向傳播算法的后向傳播過程中,學(xué)習(xí)率由模擬退火和盡早停止策略確 定。
[0019] 所述的深度神經(jīng)網(wǎng)絡(luò)的損失函數(shù)是交叉熵,且有一個系數(shù)為10 62的歐氏距離 (L2 - norm)權(quán)重衰減項,因此在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時將文本信息和說話人同時考慮在內(nèi), 直接將說話人和文本信息的損失函數(shù)相加得到新的損失函數(shù)。由于梯度的線性特性,每項 系數(shù)的梯度可以被獨立地計算,然后每個非輸出層的系數(shù)可以被新的損失函數(shù)(兩個損失 函數(shù)的和)的梯度所更新,即將文本信息的交叉熵和說話人信息的交叉熵線性相加。當(dāng)兩 個網(wǎng)絡(luò)的性能不能被提升時,學(xué)習(xí)率就開始下降。
[0020] 步驟3)對步驟1得到的FBANK系數(shù)進行幀擴展后輸入步驟2中建立的神經(jīng)網(wǎng)絡(luò) 進行計算,得到待測音頻的j - vector,具體為:
[0021] 3. 1將輸入的語音信號數(shù)字化,并分離為說話人特征和文本特征兩部分;
[0022] 3. 2將說話人特征和文本特征分別輸入神經(jīng)網(wǎng)絡(luò),并計算在輸出層得到輸出;
[0023] 3. 3將輸出層的說話人特征和文本特征線性疊加,得到待測音頻的j - vector。
[0024] 所述的幀擴展是指:擴展至39維的FBank系數(shù)。
[0025] 步驟4)訓(xùn)練LDA (線性差分分析)模型并得到預(yù)測閾值,具體為:
[0026] 4. 1將LDA模型的訓(xùn)練樣本采用步驟1~3方式處理,得到Background和 development集中數(shù)據(jù)的j - vector后,分別對其進行歸一化處理,作為訓(xùn)練集;
[0027] 4. 2通過訓(xùn)練集對LDA模型的訓(xùn)練標(biāo)定,得到預(yù)測閾值。
[0028] 所述的LDA模型為:每個類密度可以由多維高斯分布建模:
【主權(quán)項】
1. 一種基于聯(lián)合深度學(xué)習(xí)的文本相關(guān)的說話人識別方法,其特征在于,包括以下步 驟: 步驟1)從待檢測音頻中提出得到FBANK系數(shù); 步驟2)建立神經(jīng)網(wǎng)絡(luò); 步驟3)對步驟1得到的FBANK系數(shù)進行幀擴展后輸入步驟2中建立的神經(jīng)網(wǎng)絡(luò)進行 計算,得到待測音頻的j - vector ; 步驟4)訓(xùn)練LDA模型并得到預(yù)測閾值; 步驟5)將待測試的說話人的注冊音頻的j - vector和待測試的說話人的測試音頻的 j - vector歸一化后輸入帶有預(yù)測閾值的LDA模型,并得到預(yù)測結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的步驟1具體包括: 1. 1)建立一系列帶通濾波器; 1. 2)將頻域上的聲音信號輸入上述濾波器,每一個帶通濾波器輸出一位FBank系數(shù); 1. 3)計算后得到Mel域上的FBank系數(shù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征是,帶通濾波器具有31幀窗且每邊15幀。
4. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的神經(jīng)網(wǎng)絡(luò)具有4個隱層,每層1024個 結(jié)點。
5. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的步驟3具體包括: 3. 1)將輸入的語音信號數(shù)字化,并分離為說話人特征和文本特征兩部分; 3.2)將說話人特征和文本特征分別輸入神經(jīng)網(wǎng)絡(luò),并計算在輸出層得到輸出; 3. 3)將輸出層的說話人特征和文本特征線性疊加,得到待測音頻的j - vector。
6. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的幀擴展是指:擴展至39維的FBank系 數(shù)。
7. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的步驟4具體包括: 4. 1)將LDA模型的訓(xùn)練樣本采用步驟1~3方式處理,得到Background和 development集中數(shù)據(jù)的j - vector后,分別對其進行歸一化處理,作為訓(xùn)練集; 4. 2)通過訓(xùn)練集對LDA模型的訓(xùn)練標(biāo)定,得到預(yù)測閾值。
8. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的LDA模型為:每個類密度可以由多維 高斯分布建模:八〇) = g1 其中:Σ k和別是第k個類的協(xié) (27T)2|2fe|2 方差、均值矩陣,該LDA模型假定:Σ,= \Vk,且后驗概率由貝葉斯公式給出:Pr(G = k|X = x) = Ejd其中:31 k是第k個類的先驗概率。
9. 根據(jù)權(quán)利要求1所述的方法,其特征是,所述的預(yù)測閾值是指:經(jīng)訓(xùn)練后,使得在該 預(yù)測閾值下,錯誤地識別出冒認者比率等于錯誤地未識別出冒認者比率,即LDA模型錯誤 地將同一說話人的注冊音頻和測試音頻認為不是同一說話人的比率等于LDA錯誤地將不 同說話人的注冊音頻和測試音頻認為是同一說話人的比率。
10. -種實現(xiàn)上述任一權(quán)利要求所述方法的系統(tǒng),其特征在于,包括:對數(shù)譜特征提取 模塊、深度神經(jīng)網(wǎng)絡(luò)模塊、以及特征空間分裂模塊,其中:對數(shù)譜特征提取模塊與深度神經(jīng) 網(wǎng)絡(luò)模塊相連并傳輸對數(shù)譜特征信息,深度神經(jīng)網(wǎng)絡(luò)模塊與特征空間分裂模塊相連并傳輸 語音高層聲紋特征信息。
【專利摘要】一種智能語音領(lǐng)域的基于聯(lián)合深度學(xué)習(xí)的文本相關(guān)的說話人識別方法,首先從待檢測音頻中提出得到FBANK系數(shù),經(jīng)幀擴展后輸入神經(jīng)網(wǎng)絡(luò)進行計算,得到待測音頻的j‐vector;再訓(xùn)練LDA模型并得到預(yù)測閾值,最后將待測試的說話人的注冊音頻的j‐vector和待測試的說話人的測試音頻的j‐vector歸一化后輸入帶有預(yù)測閾值的LDA模型,并得到預(yù)測結(jié)果。本發(fā)明能夠極大地提高文本相關(guān)的說話人識別的精確度。
【IPC分類】G10L17-02, G10L17-18
【公開號】CN104732978
【申請?zhí)枴緾N201510107647
【發(fā)明人】陳楠昕, 葛凌廷, 顧昊, 常烜愷, 錢彥旻, 俞凱
【申請人】上海交通大學(xué), 蘇州思必馳信息科技有限公司
【公開日】2015年6月24日
【申請日】2015年3月12日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
肇源县| 兴业县| 太和县| 日土县| 通化县| 云龙县| 临海市| 仁化县| 通榆县| 黄大仙区| 临城县| 苏尼特右旗| 满洲里市| 天长市| 黄山市| 类乌齐县| 绥宁县| 稷山县| 惠来县| 积石山| 抚远县| 理塘县| 澜沧| 咸阳市| 平泉县| 泸水县| 祁阳县| 衡山县| 嘉兴市| 柳河县| 和政县| 博白县| 张家港市| 酒泉市| 铁力市| 湖州市| 青海省| 临安市| 资源县| 岱山县| 长葛市|