語音數(shù)據(jù)處理方法和裝置的制造方法
【專利摘要】本發(fā)明公開了一種語音數(shù)據(jù)處理方法和裝置。該方法包括:獲取多個(gè)語音樣本中每個(gè)語音樣本的I?Vector向量,并確定多個(gè)語音樣本中的目標(biāo)種子樣本;分別計(jì)算目標(biāo)種子樣本的I?Vector向量與目標(biāo)剩余語音樣本的I?Vector向量之間的余弦距離,目標(biāo)剩余語音樣本為多個(gè)語音樣本中除目標(biāo)種子樣本之外的語音樣本;至少按照余弦距離從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本,目標(biāo)語音樣本的I?Vector向量與目標(biāo)種子樣本的I?Vector向量之間的余弦距離高于第一預(yù)定閾值。本發(fā)明解決了相關(guān)技術(shù)無法采用人工標(biāo)注方法對語音數(shù)據(jù)進(jìn)行清洗導(dǎo)致語音數(shù)據(jù)清洗效率低的技術(shù)問題。
【專利說明】
語音數(shù)據(jù)處理方法和裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種語音數(shù)據(jù)處理方法和裝置。
【背景技術(shù)】
[0002] 在人工智能的各個(gè)領(lǐng)域,數(shù)據(jù)是至關(guān)重要的,很多時(shí)候數(shù)據(jù)的質(zhì)量起著決定性的 作用。而實(shí)際情況中的數(shù)據(jù)質(zhì)量多是參差不齊的,需要近一步對其進(jìn)行處理。數(shù)據(jù)處理一般 是指去除數(shù)據(jù)中的"噪聲",保留需要的真正數(shù)據(jù)。在聲紋識別領(lǐng)域,通過互聯(lián)網(wǎng)獲取到的特 定人的聲紋語音樣本多數(shù)情況下都是不純的,除了包含非人聲等噪聲之外,往往還可能包 含有其他人的說話語音。如何將噪聲和其他人聲清洗掉,只保留該特定人的聲紋語音樣本, 是當(dāng)今面臨的主要問題。
[0003] 目前,為了從包含有噪聲和其他人聲紋的語音數(shù)據(jù)中獲取特定人的聲紋語音樣 本,通常采用人工標(biāo)注方法,人工辨識一段包含特定人的聲紋、其他人聲紋以及噪聲的語音 數(shù)據(jù)中具體哪段語音樣本屬于特定人的聲紋,并將包含噪聲和其他人聲紋的語音樣本手工 剪掉。這種人工標(biāo)注方法對語音數(shù)據(jù)進(jìn)行清洗費(fèi)時(shí)費(fèi)力,且效率低下。
[0004] 針對上述的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例提供了一種語音數(shù)據(jù)處理方法和裝置,以至少解決相關(guān)技術(shù)無法采 用人工標(biāo)注方法對語音數(shù)據(jù)進(jìn)行清洗導(dǎo)致語音數(shù)據(jù)清洗效率低的技術(shù)問題。
[0006] 根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種語音數(shù)據(jù)處理方法,包括:獲取多個(gè)語 音樣本中每個(gè)語音樣本的I-Vector向量,并確定多個(gè)語音樣本中的目標(biāo)種子樣本;分別計(jì) 算目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離,其 中,目標(biāo)剩余語音樣本為多個(gè)語音樣本中除目標(biāo)種子樣本之外的語音樣本;以及至少按照 余弦距離從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本,其中,目標(biāo)語音 樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距離高于第一預(yù)定閾值。
[0007] 根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種語音數(shù)據(jù)處理裝置,包括:獲取模 塊,用于獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector向量,并確定多個(gè)語音樣本中的目 標(biāo)種子樣本;計(jì)算模塊,用于分別計(jì)算目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本 的I-Vector向量之間的余弦距離,其中,目標(biāo)剩余語音樣本為多個(gè)語音樣本中除目標(biāo)種子 樣本之外的語音樣本;以及過濾模塊,用于至少按照余弦距離從多個(gè)語音樣本或目標(biāo)剩余 語音樣本中過濾得到目標(biāo)語音樣本,其中,目標(biāo)語音樣本的I-Vector向量與目標(biāo)種子樣本 的I-Vector向量之間的余弦距離高于第一預(yù)定閾值。
[0008] 在本發(fā)明實(shí)施例中,利用I-Vector聲紋識別技術(shù)采用自動(dòng)聚類的方式對語音數(shù)據(jù) 進(jìn)行清洗,通過獲取每個(gè)語音樣本的I-Vector向量,從中確定目標(biāo)種子樣本;分別計(jì)算目標(biāo) 種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離,至少按照 余弦距離從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到與目標(biāo)種子樣本的I-Vector向 量之間的余弦距離高于第一預(yù)定閾值,達(dá)到了無需人工參與自動(dòng)對語音數(shù)據(jù)進(jìn)行清洗的目 的,從而實(shí)現(xiàn)了提高對語音數(shù)據(jù)清洗的效率的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)無法采用人 工標(biāo)注方法對語音數(shù)據(jù)進(jìn)行清洗導(dǎo)致語音數(shù)據(jù)清洗效率低的技術(shù)問題。
【附圖說明】
[0009] 此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0010] 圖1是根據(jù)本發(fā)明實(shí)施例的語音數(shù)據(jù)處理方法的硬件環(huán)境的示意圖;
[0011] 圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的語音數(shù)據(jù)處理方法的流程圖;
[0012]圖3是根據(jù)本發(fā)明實(shí)施例的I-Vector向量的獲取過程的示意圖;
[0013] 圖4是根據(jù)本發(fā)明實(shí)施例的從多個(gè)目標(biāo)語音樣本中確定目標(biāo)種子樣本的流程圖;
[0014] 圖5是根據(jù)本發(fā)明實(shí)施例的一種優(yōu)選的語音數(shù)據(jù)處理方法的流程圖;
[0015] 圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的語音數(shù)據(jù)處理裝置的示意圖;
[0016] 圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的語音數(shù)據(jù)處理裝置的示意圖;
[0017] 圖8是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
[0018] 圖9是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
[0019] 圖10是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
[0020] 圖11是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;
[0021] 圖12是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理裝置的示意圖;以及
[0022] 圖13是根據(jù)本發(fā)明實(shí)施例的一種終端的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0023] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人 員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0024]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用 的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或 描述的那些以外的順序?qū)嵤4送?,術(shù)語"包括"和"具有"以及他們的任何變形,意圖在于覆 蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于 清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品 或設(shè)備固有的其它步驟或單元。
[0025] 首先,在對本發(fā)明實(shí)施例進(jìn)行描述的過程中出現(xiàn)的部分名詞或者術(shù)語適用于如下 解釋:
[0026] I-Vector聲紋識別技術(shù),也成身份因子識別技術(shù),它不嘗試去強(qiáng)制分開說話人空 間和信道空間,而是直接設(shè)置一個(gè)全局變化空間(Total Variability Space),它包含了語 音數(shù)據(jù)中所有可能的信息。然后通過因子分析的方法,得到全局變化空間的載荷因子,這個(gè) 就叫做I-Vector聲紋識別技術(shù)。其維度遠(yuǎn)遠(yuǎn)低于高斯超向量。在這個(gè)因子上,用一個(gè)簡單的 區(qū)分說話人之間的方法,就是讓不同說話人之間的距離變大,而同一個(gè)說話人受噪聲影響 的各個(gè)語句之間的距離變小。顯然的,這就是現(xiàn)行鑒別分析方法的目標(biāo),將說話人之間的差 異,視為類間矩陣,將噪聲帶來的差異,視為類內(nèi)矩陣,然后應(yīng)用概率化的現(xiàn)行鑒別分析方 法估計(jì)得到I-vector矩陣,在這個(gè)I-vector矩陣上映射出來的就是反應(yīng)說話人身份的信息 向量的I _vector向量。
[0027] 實(shí)施例1
[0028]根據(jù)本發(fā)明實(shí)施例,提供了一種語音數(shù)據(jù)處理方法的方法實(shí)施例。
[0029] 可選地,在本實(shí)施例中,上述語音數(shù)據(jù)處理方法可以應(yīng)用于如圖1所示的由服務(wù)器 102和終端104所構(gòu)成的硬件環(huán)境中。如圖1所示,服務(wù)器102通過網(wǎng)絡(luò)與終端104進(jìn)行連接, 上述網(wǎng)絡(luò)包括但不限于:廣域網(wǎng)、城域網(wǎng)或局域網(wǎng),終端104并不限定于PC、手機(jī)、平板電腦 等。本發(fā)明實(shí)施例的語音數(shù)據(jù)處理方法可以由服務(wù)器102來執(zhí)行,也可以由終端104來執(zhí)行, 還可以是由服務(wù)器102和終端104共同執(zhí)行。其中,終端104執(zhí)行本發(fā)明實(shí)施例的語音數(shù)據(jù)處 理方法也可以是由安裝在其上的客戶端來執(zhí)行。
[0030] 圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的語音數(shù)據(jù)處理方法的流程圖,如圖2所示, 該方法可以包括以下步驟:
[0031] 步驟S22,獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector向量,并確定多個(gè)語音樣 本中的目標(biāo)種子樣本;
[0032]步驟S24,分別計(jì)算目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離,其中,目標(biāo)剩余語音樣本為多個(gè)語音樣本中除目標(biāo)種子樣本 之外的語音樣本;
[0033] 步驟S26,至少按照余弦距離從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到目 標(biāo)語音樣本,其中,目標(biāo)語音樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的 余弦距離高于第一預(yù)定閾值。
[0034] 通過上述步驟S22至步驟S26,通過獲取每個(gè)語音樣本的I-Vector向量,從中確定 目標(biāo)種子樣本;分別計(jì)算目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向 量之間的余弦距離,至少按照余弦距離從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到與 目標(biāo)種子樣本的I-Vector向量之間的余弦距離高于第一預(yù)定閾值,達(dá)到了無需人工參與自 動(dòng)對語音數(shù)據(jù)進(jìn)行清洗的目的,進(jìn)而解決了相關(guān)技術(shù)無法采用人工標(biāo)注方法對語音數(shù)據(jù)進(jìn) 行清洗導(dǎo)致語音數(shù)據(jù)清洗效率低的技術(shù)問題,實(shí)現(xiàn)了提高對語音數(shù)據(jù)清洗的效率的技術(shù)效 果。
[0035]需要說明的是,對于一個(gè)語音數(shù)據(jù)中的任意一個(gè)語音樣本,經(jīng)過處理后均能得到 一個(gè)該語音樣本的I-Vector向量,其中,I-Vector向量為I-Vector矩陣中用于反映說話人 身份的信息向量,各個(gè)語音樣本之間的差異可以通過計(jì)算兩個(gè)語音樣本的I-Vector向量之 間的余弦距離來表征,兩者之間的余弦距離越接近1,則說明兩者越接近,反之說明兩者差 異越大。對于同一個(gè)特定人的語音樣本,每個(gè)語音樣本的I-Vector向量之間的余弦距離應(yīng) 該接近1,差異很小。因此,本發(fā)明實(shí)施例采用基于語音樣本的I-Vector向量之間的余弦距 離來對各個(gè)語音樣本進(jìn)行聚類,以達(dá)到對語音數(shù)據(jù)進(jìn)行清洗的目的。
[0036]為了便于理解如何利用本發(fā)明實(shí)施例的語音數(shù)據(jù)處理方法對語音數(shù)據(jù)進(jìn)行清洗, 此處首先對步驟S22提供的技術(shù)方案中如何獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector 向量進(jìn)行詳細(xì)介紹,具體如下:
[0037] 作為一種可選的實(shí)施例,步驟S22獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector 向量可以包括以下步驟:
[0038] 步驟S221,分別獲取多個(gè)語音樣本中每個(gè)語音樣本的語音特征參數(shù)。
[0039] 需要說明的是,一個(gè)語音數(shù)據(jù)中可以包括多個(gè)語音樣本,每個(gè)語音樣本可能對應(yīng) 特定人聲紋、其他人聲紋或者噪聲,其中,特定人聲紋、其他人聲紋或者噪聲的語音樣本的 語音特征參數(shù)均不相同,該語音特征參數(shù)可以用于表征該語音樣本的聲紋信息??蛇x地,該 語音特征參數(shù)可以包括但不僅限于所包含的聲紋類型以及每種類型聲紋的頻率和強(qiáng)度等 信息。
[0040] 作為一種可選的實(shí)施例,步驟S221可以包括以下步驟:
[0041] 步驟S2211,將語音樣本處理成采樣率分別為第一采樣率和第二采樣率的脈沖編 碼調(diào)制信號。
[0042] 步驟S2212,從脈沖編碼調(diào)制信號中提取語音特征參數(shù)。
[0043] 步驟S2213,對語音特征參數(shù)進(jìn)行能量檢測和歸一化處理。
[0044] 需要說明的是,此處的第一采樣率和第二采樣率可以依據(jù)實(shí)際需求進(jìn)行設(shè)定和調(diào) 整,且第一采樣率和第二采樣率不同,該可選實(shí)施例并不對此做具體限定。該可選實(shí)施例通 過將語音樣本處理成采樣率不同的脈沖編碼調(diào)制信號并從該脈沖編碼調(diào)制信號中提取用 于標(biāo)識該語音樣本聲紋信息的語音特征參數(shù),可以達(dá)到提高提取到的語音特征參數(shù)的精確 度的效果。在提取到語音特征參數(shù)之后通過對其進(jìn)行能量檢測和歸一化處理,能夠達(dá)到提 高語音特征參數(shù)穩(wěn)定性和準(zhǔn)確性的效果。需要說明的是,從脈沖編碼調(diào)制信號中提取的語 音特征參數(shù)可以為對從脈沖編碼調(diào)制信號中提取的MFCC特征取其一階和二階統(tǒng)計(jì)量拼接 而成的特征。還需要說明的是,為了提高提取到的語音特征參數(shù)的穩(wěn)定性和準(zhǔn)確性,該可選 實(shí)施例還可以對提取到的語音特征參數(shù)進(jìn)行語音活性檢測等,此處不再一一舉例說明。
[0045] 在實(shí)際應(yīng)用場景中,該可選實(shí)施例可以利用ffmpeg軟件將每個(gè)語音樣本處理成采 樣率分別為8K和16bit的脈沖編碼調(diào)制PCM文件,具體操作命令為:ffmpeg-y-loglevel quiet-i原始語音文件-acodec pam_sl61e_ar 8000-ac 1目標(biāo)語音文件名.pcm。然后從中 提取MFCC特征,具體可以取幀長為20ms,兩幀間10ms重疊,使用11^1:1313的¥;[00613(?工具包或 者HTK語音識別包等工具提取MFCC特征,一般取前20維。然后取這20維的MFCC特征的一階和 二階統(tǒng)計(jì)量拼接起來作為該語音樣本的語音特征參數(shù)。針對提取到的MFCC特征可以對其進(jìn) 行能量檢測、語音活性檢測和歸一化處理。
[0046] 步驟S222,利用預(yù)先訓(xùn)練完成的I-Vector矩陣獲取每個(gè)語音樣本的I-Vector向 量,其中,I-Vector矩陣用于指示語音樣本的語音特征參數(shù)對應(yīng)的I-Vector向量。
[0047] 需要說明的是,在獲取每個(gè)語音樣本的語音特征參數(shù)之后,可以利用預(yù)先訓(xùn)練完 成的I-Vector矩陣獲取每個(gè)語音樣本的I-Vector向量。需要說明的是,I-Vector矩陣可以 用于指示語音樣本的語音特征參數(shù)對應(yīng)的I-Vector向量。
[0048]作為一種可選的實(shí)施例,I-Vector矩陣可以通過以下步驟訓(xùn)練得到,具體如下:
[0049]步驟S2221,分別獲取多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣本的 語音特征參數(shù)。
[0050] 需要說明的是,此處的獲取多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣 本的語音特征參數(shù)可以由步驟S2211至步驟S2213得到,此處不再對其進(jìn)行詳細(xì)描述。在實(shí) 際應(yīng)用場景中可以選取100個(gè)小時(shí)以上的語音數(shù)據(jù)作為I-Vector矩陣的訓(xùn)練數(shù)據(jù),可以利 用步驟S2211至步驟S2213分別獲取每個(gè)語音樣本的語音特征參數(shù)。
[0051] 步驟S2222,依據(jù)多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音 特征參數(shù)從預(yù)先訓(xùn)練完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型為利用 多個(gè)用于訓(xùn)練高斯混合模型的語音樣本中每個(gè)語音樣本的語音特征參數(shù)訓(xùn)練得到的模型。
[0052] 需要說明的是,高斯混合模型,也即GMM模型可以利用多個(gè)用于訓(xùn)練GMM模型的語 音樣本中每個(gè)語音樣本的語音特征參數(shù)訓(xùn)練得到。在實(shí)際訓(xùn)練GMM模型時(shí),可以隨機(jī)選取50 個(gè)小時(shí)左右的語音數(shù)據(jù)作為背景模型的訓(xùn)練數(shù)據(jù)。按照步驟S2211至步驟S2213獲取上述語 音數(shù)據(jù)中各個(gè)語音樣本的語音特征參數(shù)之后,利用得到的語音特征參數(shù)訓(xùn)練GMM模型,其 中,一般制定512個(gè)以上的組件。此處需要說明的是,統(tǒng)一背景模型(也即UBM模型)其實(shí)是一 個(gè)大型的GMM模型,用來訓(xùn)練表示與說話人無關(guān)的特征分別。該UBM模型的訓(xùn)練數(shù)據(jù)是盡量 包含各種信道下的所有人的語音數(shù)據(jù),訓(xùn)練UBM模型也就是訓(xùn)練GMM模型,所采用的算法可 以是EM算法,當(dāng)EM算法不收斂時(shí),即可以認(rèn)為訓(xùn)練結(jié)束。
[0053] 在獲取到多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音特征參 數(shù)之后,可以利用預(yù)先訓(xùn)練完成的GMM|旲型從中提取尚斯超向量,尚斯超向量也即各個(gè)GMM 模型的均值拼接后形成的超高維度向量。
[0054] 步驟S2223,利用高斯超向量訓(xùn)練I-Vector矩陣。
[0055]需要說明的是,I-Vector技術(shù)是基于單一空間的跨信道算法,它不區(qū)分說話人空 間的信息和信道空間信息。對于任何一句單獨(dú)的語音樣本,都可以分解為背景模型mo和反 映每個(gè)說話人特征的Tws,高斯超向量GSV可表示如下M s = mo+Tws,其中,Ms是C*F維的高斯超 向量GSV; mo是與說話者無關(guān)且信道無關(guān)的OF維超向量,由UBM模型的均值向量拼接而成;ws 即總變化因子I-Vector,維數(shù)為N,是一組服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)向量;T是總變化空間矩 陣,維數(shù)為CF*N。在對I-Vector訓(xùn)練階段,根據(jù)大量語音數(shù)據(jù)訓(xùn)練集,利用因子分析算法,從 中估計(jì)出總變化空間矩陣T;在得到總變化空間后,將高維的高斯超向量GSV在矩陣T所表示 的總變化子空間中進(jìn)行投影,最終得到低維的總體變化因子,即為I-Vector向量。
[0056] 圖3是根據(jù)本發(fā)明實(shí)施例的I-Vector向量的獲取過程的示意圖,如圖3所示,圖3只 列舉了兩個(gè)語音樣本的I-Vector向量的獲取過程,應(yīng)當(dāng)理解對于多個(gè)語音樣本中的其他語 音樣本也可以通過圖3所示的獲取過程得到其I-Vector向量。如圖3所示,首先從語音樣本 中提取MFCC特征;然后利用預(yù)先訓(xùn)練完成的UBM模型從中提取高斯超向量GSV;然后利用預(yù) 先訓(xùn)練得到的總變化空間矩陣T,也即I-Vector矩陣獲取I-Vector向量,最后利用預(yù)先訓(xùn)練 完成的線性鑒別模塊PLDA模型依據(jù)獲取到的I-Vector向量對語音樣本進(jìn)行過濾。
[0057] 在步驟S22提供的技術(shù)方案中,獲取到多個(gè)語音樣本中每個(gè)語音樣本的I-Vector 向量之后,本發(fā)明實(shí)施例還需要從多個(gè)語音樣本中確定目標(biāo)種子樣本,其中,目標(biāo)種子樣本 可以有多個(gè)語音樣本中的至少一個(gè)語音樣本拼接而成,多個(gè)語音樣本中拼接成目標(biāo)種子樣 本所需的至少一個(gè)語音樣本的個(gè)數(shù)可以依據(jù)目標(biāo)種子樣本實(shí)際需求的音頻時(shí)長進(jìn)行調(diào)整。
[0058] 作為一種可選的實(shí)施例,從多個(gè)語音樣本中確定目標(biāo)種子樣本可以由以下的迭代 過程確定。需要說明的是,該迭代過程的初始化可以包括:當(dāng)前種子樣本被初始化為由多個(gè) 語音樣本中的至少一個(gè)語音樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始 化為空。圖4是根據(jù)本發(fā)明實(shí)施例的從多個(gè)目標(biāo)語音樣本中確定目標(biāo)種子樣本的流程圖,如 圖4所示,確定多個(gè)語音樣本中的目標(biāo)種子樣本可以包括:重復(fù)執(zhí)行以下操作,直到確定出 目標(biāo)種子樣本:
[0059] 步驟S223,分別計(jì)算當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向量之間的余弦距離,其中,當(dāng)前剩余語音樣本為多個(gè)語音樣本中除當(dāng)前種子樣本 之外的語音樣本。
[0060] 需要說明的是,兩個(gè)向量之間的余弦距離可以通過以下歐幾里得點(diǎn)積公式推到:
[0061] a · b= | a | | b | cosB
[0062] 當(dāng)給定兩個(gè)I-Vector向量A和B時(shí),其余弦相似性Θ由點(diǎn)積和向量長度給出,如下式 所示:
[0064]其中,Ai和Bi分別代表向量Α和Β的各個(gè)分量。有上式可知,相似性范圍從-1至1,其 中,-1代表兩個(gè)向量指向的方向正好相反,1代表兩個(gè)向量指向相同,〇代表兩個(gè)向量之間是 獨(dú)立的,在-1至1之間的值則代表兩個(gè)向量之間的相似性或相異性。
[0065]需要說明的是,多個(gè)語音樣本中除當(dāng)前種子樣本外的當(dāng)前剩余語音樣本的個(gè)數(shù)可 以為多個(gè),貝當(dāng)前種子樣本的I-Vector向量和當(dāng)前剩余語音樣本的I-Vector向量之間的余 弦距離也為多個(gè),當(dāng)前剩余語音樣本中的每個(gè)語音樣本的I-Vector向量與當(dāng)前種子樣本的 I-Vector向量之間的余弦距離可以由上述公式計(jì)算得到。
[0066]步驟S224,判斷第一平均值與第二平均值之間的差值是否小于第二預(yù)定閾值。
[0067] 第一平均值為當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向 量之間的余弦距離的平均值,第二平均值為上一輪種子樣本的I-Vector向量與上一輪剩余 語音樣本的I-Vector向量之間的余弦距離的平均值,上一輪剩余語音樣本為多個(gè)語音樣本 中除上一輪種子樣本之外的語音樣本。需要說明的是,上一輪種子樣本的I-Vector向量與 上一輪剩余語音樣本中每個(gè)語音樣本的I-Vector向量之間的余弦距離也可以按照上述公 式計(jì)算得到。該可選實(shí)施例每確定一次種子樣本就會計(jì)算一次該種子樣本的I-Vector向量 與剩余語音樣本的I-Vector向量之間的余弦距離的平均值。從初始化開始,每計(jì)算兩次平 均值之后,該可選實(shí)施例就會比較前后兩次計(jì)算得到的平均值的差值是否小于第二預(yù)定閾 值。需要說明的是,第二預(yù)定閾值可以依據(jù)實(shí)際需求設(shè)定或調(diào)整。
[0068] 在判斷第一平均值和第二平均值的差值小于第二預(yù)定閾值時(shí),該可選實(shí)施例執(zhí)行 步驟S225,否則執(zhí)行步驟S226。
[0069] 步驟S225,若差值小于第二預(yù)定閾值,則確定當(dāng)前種子樣本為目標(biāo)種子樣本。
[0070] 當(dāng)?shù)谝黄骄岛偷诙骄档牟钪敌∮诘诙A(yù)定閾值時(shí),迭代過程終止,確定當(dāng) 前種子樣本即為目標(biāo)種子樣本。在確定目標(biāo)種子樣本之后,即可利用該目標(biāo)種子樣本執(zhí)行 步驟S24和步驟S26,以達(dá)到按照余弦距離過濾語音樣本,進(jìn)而實(shí)現(xiàn)對語音數(shù)據(jù)進(jìn)行清洗的 目的。
[0071] 步驟S226,若差值大于或等于第二預(yù)定閾值,則將當(dāng)前種子樣本作為上一輪種子 樣本,從當(dāng)前剩余語音樣本中選擇語音樣本,將選擇出的語音樣本拼接成當(dāng)前種子樣本,并 將當(dāng)前剩余語音樣本作為上一輪剩余語音樣本,返回執(zhí)行步驟S223。
[0072] 當(dāng)?shù)谝黄骄岛偷诙骄档牟钪荡笥诨虻扔诘诙A(yù)定閾值時(shí),說明迭需要繼續(xù) 迭代,則將當(dāng)前種子樣本作為上一輪種子樣本,從當(dāng)前剩余語音樣本中選擇語音樣本并將 選擇出的語音樣本拼接成當(dāng)前種子樣本,將當(dāng)前剩余語音樣本作為上一輪剩余語音樣本, 繼續(xù)返回執(zhí)行步驟S223,繼續(xù)下次迭代過程,直至確定前后兩次計(jì)算得到的余弦距離的平 均值的差值小于第二預(yù)定閾值時(shí)結(jié)束該迭代過程。
[0073] 上述步驟通過迭代過程從多個(gè)語音樣本中確定目標(biāo)種子樣本,在迭代過程中按照 I-Vector向量之間的余弦距離進(jìn)行聚類,能夠?qū)崿F(xiàn)對多個(gè)語音樣本進(jìn)行差異性聚類的目 的。
[0074] 作為一種可選的實(shí)施例,步驟S226中從當(dāng)前剩余語音樣本中選擇語音樣本可以包 括以下步驟:
[0075]步驟S2262,將當(dāng)前剩余語音樣本按照余弦距離從小到大的順序進(jìn)行排序。
[0076]步驟S2264,從排序后的當(dāng)前剩余語音樣本中選擇靠前的一個(gè)或多個(gè)語音樣本,其 中,靠前的一個(gè)或多個(gè)語音樣本拼接成的當(dāng)前種子樣本的音頻時(shí)長為第三預(yù)定閾值。
[0077]需要說明的是,在計(jì)算得到當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本中 每個(gè)語音樣本的I-Vector向量之間的余弦距離后,且在不滿足迭代過程終止的條件時(shí),該 可選實(shí)施例需要重新確定當(dāng)前種子樣本,在確定當(dāng)前種子樣本時(shí),可以首先對這些余弦距 離按照由小到大的順序進(jìn)行排序,排序的目的是為了方便快速地確定余弦距離較小的至少 一個(gè)語音樣本,以便于將這些余弦距離較小的語音樣本拼接成當(dāng)前種子樣本。
[0078] 還需要說明的是,在將余弦距離較小的至少一個(gè)語音樣本拼接成當(dāng)前種子樣本 時(shí),需要考慮依據(jù)實(shí)際需求確定的種子樣本的音頻時(shí)長,并按照該音頻時(shí)長確定拼接成當(dāng) 前種子樣本所需的語音樣本的個(gè)數(shù)。此處當(dāng)前種子樣本的音頻時(shí)長的參考值為第三預(yù)定閾 值,其中,第三預(yù)定閾值可以依據(jù)實(shí)際需求進(jìn)行設(shè)定或調(diào)整,此處不做具體限定。
[0079] 在步驟S24提供的技術(shù)方案中,在確定目標(biāo)種子樣本之后,多個(gè)語音樣本中除目標(biāo) 種子樣本之外的語音樣本為目標(biāo)剩余語音樣本,其中,目標(biāo)剩余語音樣本的個(gè)數(shù)可以是一 個(gè),也可以是多個(gè)。需要說明的是,目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本中每 個(gè)語音樣本的I-Vector向量之間的余弦距離的計(jì)算方法與上述步驟S223介紹的方法相同, 此處不再贅述。當(dāng)目標(biāo)剩余語音樣本的個(gè)數(shù)為多個(gè)時(shí),計(jì)算得到的目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離也為多個(gè),這些余弦距離 均在-1至1范圍內(nèi),且其中有可能存在至少兩個(gè)相同的余弦距離。
[0080] 在步驟S26提供的技術(shù)方案中,可以按照步驟S24計(jì)算得到的余弦距離獲取目標(biāo)語 音樣本,其中,目標(biāo)語音樣本是從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到的語音樣 本。需要說明的是,對多個(gè)語音樣本或目標(biāo)剩余語音樣本進(jìn)行過濾所依據(jù)的條件為目標(biāo)語 音樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距離高于第一預(yù)定閾 值,其中,第一預(yù)定閾值可以依據(jù)實(shí)際需求進(jìn)行設(shè)定或調(diào)整,此處不做具體限定。依據(jù)過濾 條件從多個(gè)語音樣本或目標(biāo)剩余語音樣本進(jìn)行過濾得到的目標(biāo)語音樣本的個(gè)數(shù)可以是一 個(gè),也可以是多個(gè)。
[0081] 在實(shí)際應(yīng)用場景中,通過上述步驟得到的目標(biāo)語音樣本即為對包含特定人聲紋、 其他人聲紋以及噪聲的語音數(shù)據(jù)進(jìn)行清洗,獲取到的特定人聲紋的語音樣本。通過上述步 驟,能夠解決相關(guān)技術(shù)無法采用人工標(biāo)注方法對語音數(shù)據(jù)進(jìn)行清洗導(dǎo)致語音數(shù)據(jù)清洗效率 低的技術(shù)問題,進(jìn)而達(dá)到提高對語音數(shù)據(jù)清洗的效率的技術(shù)效果。
[0082] 作為一種可選的實(shí)施例,步驟S26至少按照余弦距離從多個(gè)語音樣本或目標(biāo)剩余 語音樣本中過濾得到目標(biāo)語音樣本可以包括以下步驟:
[0083] 步驟S262,判斷目標(biāo)剩余語音樣本的數(shù)量是否大于等于第四預(yù)定閾值。
[0084]步驟S264,在目標(biāo)剩余語音樣本的數(shù)量大于等于第四預(yù)定閾值時(shí),按照余弦距離 從目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本。
[0085]步驟S266,在目標(biāo)剩余語音樣本的數(shù)量小于第四預(yù)定閾值時(shí),按照余弦距離以及 目標(biāo)種子樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距離從多個(gè)語 音樣本中過濾得到目標(biāo)語音樣本。
[0086] 需要說明的是,步驟S26得到的目標(biāo)語音樣本可以從多個(gè)語音樣本中過濾得到,也 可以從目標(biāo)剩余語音樣本中過濾得到。該可選實(shí)施例以目標(biāo)剩余語音樣本的數(shù)量作為依據(jù) 確定是從多個(gè)語音樣本中過濾,還是從目標(biāo)剩余語音樣本中過濾。具體地,當(dāng)目標(biāo)剩余語音 樣本的數(shù)量大于等于第四預(yù)定閾值時(shí),該可選實(shí)施例可以按照目標(biāo)種子樣本的I-Vector向 量與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離從目標(biāo)剩余語音樣本中過濾得到 目標(biāo)語音樣本,從目標(biāo)剩余語音樣本中選擇余弦距離高于第一預(yù)定閾值的語音樣本作為目 標(biāo)語音樣本。當(dāng)目標(biāo)剩余語音樣本的數(shù)量小于第四預(yù)定閾值時(shí),該可選實(shí)施例可以按照目 標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離以及目 標(biāo)種子樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距離從多個(gè)語音 樣本中過濾得到目標(biāo)語音樣本,此處需要同時(shí)考慮目標(biāo)種子樣本的I-Vector向量與目標(biāo)種 子樣本的I-Vector向量之間的余弦距離,從多個(gè)語音樣本中選擇余弦距離高于第一預(yù)定閾 值的語音樣本作為目標(biāo)語音樣本。
[0087] 該可選實(shí)施例依據(jù)目標(biāo)剩余語音樣本的數(shù)量確定是從多個(gè)語音樣本中過濾得到 目標(biāo)語音樣本,還是從目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本,能夠保證在目標(biāo)剩余 語音樣本較少時(shí)亦能準(zhǔn)確地過濾得到目標(biāo)語音樣本,達(dá)到了提高對語音數(shù)據(jù)進(jìn)行清洗后得 到的所需的語音樣本的精確到的效果。
[0088] 本發(fā)明還提供了一種優(yōu)選實(shí)施例,圖5是根據(jù)本發(fā)明實(shí)施例的一種優(yōu)選的語音數(shù) 據(jù)處理方法的流程圖,如圖5所示,該優(yōu)選實(shí)施例可以包括以下步驟:
[0089] 步驟S51,從多個(gè)語音樣本中隨機(jī)選取一定量的語音樣本作為種子樣本,并獲取種 子樣本和剩余語音樣本的I-Vector向量。
[0090] 步驟S52,依次計(jì)算各個(gè)語音樣本的I-Vector向量與種子樣本的I-Vector向量之 間的余弦距離。
[0091] 步驟S53,判斷是否收斂,即判斷當(dāng)前種子樣本I-Vector向量與當(dāng)前剩余語音樣本 I-Vector向量之間的余弦距離的平均值是否與上一輪計(jì)算得到的余弦距離的平均值的差 值是否小于一定閾值,如果是,則執(zhí)行步驟S54,否則執(zhí)行步驟S55。
[0092]步驟S54,按一定距離閾值選取余弦距離大于等于該距離閾值的語音樣本作為語 音數(shù)據(jù)清洗后的結(jié)果,將余弦距離小于該距離閾值認(rèn)為是噪聲或者其他人聲紋,并對其進(jìn) 行過濾掉。至此,對語音數(shù)據(jù)的清洗結(jié)束。
[0093]步驟S55,選取與種子樣本的I-Vector向量的余弦距離較近的語音樣本作為下一 輪迭代的種子樣本,返回執(zhí)行步驟S52。
[0094] 舉例說明:
[0095] 假如目標(biāo)文件夾下面共有100個(gè)語音樣本,其中有60個(gè)是A人的,剩下為其他人的 樣本或者各類噪聲。隨機(jī)從這1〇〇個(gè)語音樣本中,選取5分鐘的音頻數(shù)據(jù),首次選取的時(shí)候, 盡量選取時(shí)長較短的文件,盡量包含較多的語音樣本。根據(jù)概率分布,這樣被選取的語音樣 本中屬于A的樣本占多數(shù)。將選取的語音樣本拼接起來,如果超過5分鐘,使用ffmpeg截取5 分鐘的數(shù)據(jù)作為種子樣本,對種子樣本提取I-Vector向量作為種子樣本的特征。
[0096] 假如本輪選取了 10個(gè)語音樣本作為種子樣本,則對剩下的90個(gè)語音樣本分別提取 I-Vector向量,然后與種子樣本的I-Vector向量計(jì)算之間的余弦距離,再對90個(gè)語音樣本 的余弦距離取平均值記為 SC〇re_itN,N為迭代的輪數(shù)。
[0097] 如果score_i tN-score_i t (N-1)的絕對值小于閾值(該閾值一般經(jīng)統(tǒng)計(jì)得到),停 止迭代,轉(zhuǎn)下一步;否則選取得分最高即與種子樣本的余弦距離較近的語音樣本,拼接成5 分鐘的音頻作為下一輪迭代的種子樣本,然后進(jìn)行下一步迭代。
[0098] 按一定距離閾值Th(該距離閾值Th也由經(jīng)驗(yàn)得到)只選取距離大于Th的語音樣本 作為語音數(shù)據(jù)清洗后的結(jié)果,低于Th的語音樣本可認(rèn)為是噪聲或者非本人,至此自動(dòng)清洗 結(jié)束。
[0099]在本發(fā)明實(shí)施例的語音數(shù)據(jù)處理方法中,語音數(shù)據(jù)自動(dòng)清洗所采用的就是基于I-Vector向量余弦距離的自動(dòng)聚類方法,只不過,在具體實(shí)施的過程中,不關(guān)注最終會聚出幾 個(gè)類別,而只關(guān)注包含樣本最多的某一特定類,其他包含樣本較少的類別,可以認(rèn)為是噪聲 或者不是本人的樣本而丟棄。本發(fā)明可以大量減小人力成本,同時(shí)也為海量高質(zhì)量語音數(shù) 據(jù)的產(chǎn)生提供了可能。本發(fā)明最終以樣本間余弦距離的方式提供結(jié)果,具備一定的靈活性, 可根據(jù)實(shí)際需要,靈活選取最終的過濾距離閾值,在樣本質(zhì)量和數(shù)量之間做權(quán)衡。本發(fā)明除 了在訓(xùn)練UBM-G麗模型和I-Vector矩陣時(shí)比較費(fèi)時(shí)外,其他步驟計(jì)算速度均非常迅速,而 UBM-GMM模型和I-Vector矩陣只需要訓(xùn)練一次。
[0100]需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列 的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)?依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知 悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明 所必須的。
[0101] 通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施 例的方法可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多 情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有 技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲 介質(zhì)(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī),計(jì)算 機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0102] 實(shí)施例2
[0103]根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述語音數(shù)據(jù)處理方法的語音數(shù)據(jù)處 理裝置。圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的語音數(shù)據(jù)處理裝置的示意圖,如圖6所示,該 裝置可以包括:
[0104] 獲取模塊62,用于獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector向量,并確定多 個(gè)語音樣本中的目標(biāo)種子樣本;計(jì)算模塊64,用于分別計(jì)算目標(biāo)種子樣本的I-Vector向量 與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離,其中,目標(biāo)剩余語音樣本為多個(gè)語 音樣本中除目標(biāo)種子樣本之外的語音樣本;以及過濾模塊66,用于至少按照余弦距離從多 個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本,其中,目標(biāo)語音樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距離高于第一預(yù)定閾值。
[0105] 需要說明的是,該實(shí)施例中的獲取模塊62可以用于執(zhí)行本申請實(shí)施例1中的步驟 S22,該實(shí)施例中的計(jì)算模塊64可以用于執(zhí)行本申請實(shí)施例1中的步驟S24,該實(shí)施例中的過 濾模塊66可以用于執(zhí)行本申請實(shí)施例1中的步驟S26。
[0106]此處需要說明的是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不 限于上述實(shí)施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如 圖1所示的硬件環(huán)境中,可以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn)。
[0107] 通過上述模塊,可以解決了相關(guān)技術(shù)無法采用人工標(biāo)注方法對語音數(shù)據(jù)進(jìn)行清洗 導(dǎo)致語音數(shù)據(jù)清洗效率低的技術(shù)問題,進(jìn)而達(dá)到提高對語音數(shù)據(jù)清洗的效率的技術(shù)效果。
[0108] 作為一種可選的實(shí)施例,圖7是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖7所示,獲取模塊62可以包括:第一子獲取模塊621,用于分別獲取多個(gè) 語音樣本中每個(gè)語音樣本的語音特征參數(shù);第二子獲取模塊622,用于利用預(yù)先訓(xùn)練完成的 I-Vector矩陣獲取每個(gè)語音樣本的I-Vector向量,其中,I-Vector矩陣用于指示語音樣本 的語音特征參數(shù)對應(yīng)的I-Vector向量。
[0109] 需要說明的是,該實(shí)施例中的第一子獲取模塊621可以用于執(zhí)行本申請實(shí)施例1中 的步驟S221,該實(shí)施例中的第二子獲取模塊622可以用于執(zhí)行本申請實(shí)施例1中的步驟 S222。此處需要說明的是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于 上述實(shí)施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1 所示的硬件環(huán)境中,可以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn)。
[0110] 作為一種可選的實(shí)施例,圖8是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖8所示,第一子獲取模塊621可以包括:采樣模塊6211,用于將語音樣本 處理成采樣率分別為第一采樣率和第二采樣率的脈沖編碼調(diào)制信號;第二提取模塊6212, 用于提取從脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及處理模塊6213,用于對語音特征 參數(shù)進(jìn)行能量檢測和歸一化處理。
[0111] 需要說明的是,該實(shí)施例中的采樣模塊6211可以用于執(zhí)行本申請實(shí)施例1中的步 驟S2211,該實(shí)施例中的第二提取模塊6212可以用于執(zhí)行本申請實(shí)施例1中的步驟S2212,該 實(shí)施例中的處理模塊6213可以用于執(zhí)行本申請實(shí)施例1中的步驟S2213。此處需要說明的 是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于上述實(shí)施例1所公開的 內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1所示的硬件環(huán)境中,可 以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn)。
[0112] 作為一種可選的實(shí)施例,圖9是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖9所示,I-Vector矩陣通過以下模塊訓(xùn)練得到:第三子獲取模塊6221,用 于分別獲取多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音特征參數(shù);第一 提取模塊6222,用于依據(jù)多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音特 征參數(shù)從預(yù)先訓(xùn)練完成的高斯混合模型中提取高斯超向量,其中,高斯混合模型為利用多 個(gè)用于訓(xùn)練高斯混合模型的語音樣本中每個(gè)語音樣本的語音特征參數(shù)訓(xùn)練得到的模型;訓(xùn) 練模塊6223,用于利用高斯超向量訓(xùn)練I-Vector矩陣。
[0113]需要說明的是,該實(shí)施例中的第三子獲取模塊6221可以用于執(zhí)行本申請實(shí)施例1 中的步驟S2221,該實(shí)施例中的第一提取模塊6222可以用于執(zhí)行本申請實(shí)施例1中的步驟 S2222,該實(shí)施例中的訓(xùn)練模塊6223可以用于執(zhí)行本申請實(shí)施例1中的步驟S2223。此處需要 說明的是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于上述實(shí)施例1所 公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1所示的硬件環(huán)境 中,可以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn)。
[0114] 作為一種可選的實(shí)施例,圖10是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖10所示,當(dāng)前種子樣本被初始化為由多個(gè)語音樣本中的至少一個(gè)語音 樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始化為空,其中,獲取模塊62可 以包括:重復(fù)執(zhí)行以下模塊中的操作,直到確定出目標(biāo)種子樣本:第一子計(jì)算模塊623,用于 分別計(jì)算當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向量之間的余弦 距離,其中,當(dāng)前剩余語音樣本為多個(gè)語音樣本中除當(dāng)前種子樣本之外的語音樣本;第一判 斷模塊624,用于判斷第一平均值與第二平均值之間的差值是否小于第二預(yù)定閾值,其中, 第一平均值為當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向量之間的 余弦距離的平均值,第二平均值為上一輪種子樣本的I-Vector向量與上一輪剩余語音樣本 的I-Vector向量之間的余弦距離的平均值,上一輪剩余語音樣本為多個(gè)語音樣本中除上一 輪種子樣本之外的語音樣本;確定模塊625,用于若差值小于第二預(yù)定閾值,則確定當(dāng)前種 子樣本為目標(biāo)種子樣本;選擇模塊626,用于若差值大于或等于第二預(yù)定閾值,則將當(dāng)前種 子樣本作為上一輪種子樣本,從當(dāng)前剩余語音樣本中選擇語音樣本,將選擇出的語音樣本 拼接成當(dāng)前種子樣本,并將當(dāng)前剩余語音樣本作為上一輪剩余語音樣本。
[0115] 需要說明的是,該實(shí)施例中的第一子計(jì)算模塊623可以用于執(zhí)行本申請實(shí)施例1中 的步驟S223,該實(shí)施例中的第一判斷模塊624可以用于執(zhí)行本申請實(shí)施例1中的步驟S224, 該實(shí)施例中的確定模塊625可以用于執(zhí)行本申請實(shí)施例1中的步驟S225,該實(shí)施例中的選擇 模塊626可以用于執(zhí)行本申請實(shí)施例1中的步驟S226。此處需要說明的是,上述模塊與對應(yīng) 的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于上述實(shí)施例1所公開的內(nèi)容。需要說明的 是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1所示的硬件環(huán)境中,可以通過軟件實(shí)現(xiàn), 也可以通過硬件實(shí)現(xiàn)。
[0116] 作為一種可選的實(shí)施例,圖11是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖11所示,選擇模塊626可以包括:排序模塊6262,用于將當(dāng)前剩余語音樣 本按照余弦距離從小到大的順序進(jìn)行排序;第一子選擇模塊6264,用于從排序后的當(dāng)前剩 余語音樣本中選擇靠前的一個(gè)或多個(gè)語音樣本,其中,靠前的一個(gè)或多個(gè)語音樣本拼接成 的當(dāng)前種子樣本的音頻時(shí)長為第三預(yù)定閾值。
[0117]需要說明的是,該實(shí)施例中的排序模塊6262可以用于執(zhí)行本申請實(shí)施例1中的步 驟S2262,該實(shí)施例中的第一子選擇模塊6264可以用于執(zhí)行本申請實(shí)施例1中的步驟S2264。 此處需要說明的是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于上述 實(shí)施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1所示 的硬件環(huán)境中,可以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn)。
[0118] 作為一種可選的實(shí)施例,圖12是根據(jù)本發(fā)明實(shí)施例的另一種可選的語音數(shù)據(jù)處理 裝置的示意圖,如圖12所示,過濾模塊66可以包括:第二判斷模塊662,用于判斷目標(biāo)剩余語 音樣本的數(shù)量是否大于等于第四預(yù)定閾值;第一子過濾模塊664,用于在目標(biāo)剩余語音樣本 的數(shù)量大于等于第四預(yù)定閾值時(shí),按照余弦距離從目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音 樣本;第二子過濾模塊666,用于在目標(biāo)剩余語音樣本的數(shù)量小于第四預(yù)定閾值時(shí),按照余 弦距離以及目標(biāo)種子樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距 離從多個(gè)語音樣本中過濾得到目標(biāo)語音樣本。
[0119] 需要說明的是,該實(shí)施例中的第一子過濾模塊664可以用于執(zhí)行本申請實(shí)施例1中 的步驟S262,該實(shí)施例中的第一子過濾模塊664可以用于執(zhí)行本申請實(shí)施例1中的步驟 S262,該實(shí)施例中的第二子過濾模塊666可以用于執(zhí)行本申請實(shí)施例1中的步驟S262。此處 需要說明的是,上述模塊與對應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場景相同,但不限于上述實(shí)施 例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在如圖1所示的硬 件環(huán)境中,可以通過軟件實(shí)現(xiàn),也可以通過硬件實(shí)現(xiàn)。
[0120] 實(shí)施例3
[0121] 根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述語音數(shù)據(jù)處理方法的服務(wù)器或終 端。
[0122] 圖13是根據(jù)本發(fā)明實(shí)施例的一種終端的結(jié)構(gòu)框圖,如圖13所示,該終端可以包括: 一個(gè)或多個(gè)(圖中僅示出一個(gè))處理器201、存儲器203、以及傳輸裝置205(如上述實(shí)施例中 的發(fā)送裝置),如圖13所示,該終端還可以包括輸入輸出設(shè)備207。
[0123] 其中,存儲器203可用于存儲軟件程序以及模塊,如本發(fā)明實(shí)施例中的語音數(shù)據(jù)處 理方法和裝置對應(yīng)的程序指令/模塊,處理器201通過運(yùn)行存儲在存儲器203內(nèi)的軟件程序 以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的語音數(shù)據(jù)處理方法。存儲器 203可包括高速隨機(jī)存儲器,還可以包括非易失性存儲器,如一個(gè)或者多個(gè)磁性存儲裝置、 閃存、或者其他非易失性固態(tài)存儲器。在一些實(shí)例中,存儲器203可進(jìn)一步包括相對于處理 器201遠(yuǎn)程設(shè)置的存儲器,這些遠(yuǎn)程存儲器可以通過網(wǎng)絡(luò)連接至終端。上述網(wǎng)絡(luò)的實(shí)例包括 但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。
[0124] 上述的傳輸裝置205用于經(jīng)由一個(gè)網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù),還可以用于處理器與 存儲器之間的數(shù)據(jù)傳輸。上述的網(wǎng)絡(luò)具體實(shí)例可包括有線網(wǎng)絡(luò)及無線網(wǎng)絡(luò)。在一個(gè)實(shí)例中, 傳輸裝置205包括一個(gè)網(wǎng)絡(luò)適配器(Network Interface Controller,NIC),其可通過網(wǎng)線 與其他網(wǎng)絡(luò)設(shè)備與路由器相連從而可與互聯(lián)網(wǎng)或局域網(wǎng)進(jìn)行通訊。在一個(gè)實(shí)例中,傳輸裝 置205為射頻(Radio Frequency,RF)模塊,其用于通過無線方式與互聯(lián)網(wǎng)進(jìn)行通訊。
[0125] 其中,具體地,存儲器203用于存儲應(yīng)用程序。
[0126] 處理器201可以通過傳輸裝置205調(diào)用存儲器203存儲的應(yīng)用程序,以執(zhí)行下述步 驟:獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector向量,并確定多個(gè)語音樣本中的目標(biāo)種 子樣本;分別計(jì)算目標(biāo)種子樣本的Hector向量與目標(biāo)剩余語音樣本的I-Vector向量之間 的余弦距離,其中,目標(biāo)剩余語音樣本為多個(gè)語音樣本中除目標(biāo)種子樣本之外的語音樣本; 以及至少按照余弦距離從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本,其 中,目標(biāo)語音樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距離高于第 一預(yù)定閾值。
[0127] 處理器201還用于執(zhí)行下述步驟:重復(fù)執(zhí)行以下操作,直到確定出目標(biāo)種子樣本: 分別計(jì)算當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向量之間的余弦 距離,其中,當(dāng)前剩余語音樣本為多個(gè)語音樣本中除當(dāng)前種子樣本之外的語音樣本;判斷第 一平均值與第二平均值之間的差值是否小于第二預(yù)定閾值,其中,第一平均值為當(dāng)前種子 樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向量之間的余弦距離的平均值,第二 平均值為上一輪種子樣本的I-Vector向量與上一輪剩余語音樣本的I-Vector向量之間的 余弦距離的平均值,上一輪剩余語音樣本為多個(gè)語音樣本中除上一輪種子樣本之外的語音 樣本;若差值小于第二預(yù)定閾值,則確定當(dāng)前種子樣本為目標(biāo)種子樣本;若差值大于或等于 第二預(yù)定閾值,則將當(dāng)前種子樣本作為上一輪種子樣本,從當(dāng)前剩余語音樣本中選擇語音 樣本,將選擇出的語音樣本拼接成當(dāng)前種子樣本,并將當(dāng)前剩余語音樣本作為上一輪剩余 語音樣本。
[0128] 處理器201還用于執(zhí)行下述步驟:將當(dāng)前剩余語音樣本按照余弦距離從小到大的 順序進(jìn)行排序;從排序后的當(dāng)前剩余語音樣本中選擇靠前的一個(gè)或多個(gè)語音樣本,其中,靠 前的一個(gè)或多個(gè)語音樣本拼接成的當(dāng)前種子樣本的音頻時(shí)長為第三預(yù)定閾值。
[0129] 處理器201還用于執(zhí)行下述步驟:判斷目標(biāo)剩余語音樣本的數(shù)量是否大于等于第 四預(yù)定閾值;在目標(biāo)剩余語音樣本的數(shù)量大于等于第四預(yù)定閾值時(shí),按照余弦距離從目標(biāo) 剩余語音樣本中過濾得到目標(biāo)語音樣本;在目標(biāo)剩余語音樣本的數(shù)量小于第四預(yù)定閾值 時(shí),按照余弦距離以及目標(biāo)種子樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間 的余弦距離從多個(gè)語音樣本中過濾得到目標(biāo)語音樣本。
[0130]處理器201還用于執(zhí)行下述步驟:分別獲取多個(gè)語音樣本中每個(gè)語音樣本的語音 特征參數(shù);利用預(yù)先訓(xùn)練完成的I-Vector矩陣獲取每個(gè)語音樣本的I-Vector向量,其中,I-Vector矩陣用于指示語音樣本的語音特征參數(shù)對應(yīng)的I-Vector向量。
[0131] 處理器201還用于執(zhí)行下述步驟:分別獲取多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣 本中每個(gè)語音樣本的語音特征參數(shù);依據(jù)多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語 音樣本的語音特征參數(shù)從預(yù)先訓(xùn)練完成的高斯混合模型中提取高斯超向量,其中,高斯混 合模型為利用多個(gè)用于訓(xùn)練高斯混合模型的語音樣本中每個(gè)語音樣本的語音特征參數(shù)訓(xùn) 練得到的模型;利用高斯超向量訓(xùn)練I-Vector矩陣。
[0132] 處理器201還用于執(zhí)行下述步驟:將語音樣本處理成采樣率分別為第一采樣率和 第二采樣率的脈沖編碼調(diào)制信號;從脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及對語音 特征參數(shù)進(jìn)行能量檢測和歸一化處理。
[0133] 采用本發(fā)明實(shí)施例,提供了一種對語音數(shù)據(jù)自動(dòng)清洗的方案。通過獲取每個(gè)語音 樣本的I-Vector向量,從中確定目標(biāo)種子樣本;分別計(jì)算目標(biāo)種子樣本的I-Vector向量與 目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離,至少按照余弦距離從多個(gè)語音樣本或 目標(biāo)剩余語音樣本中過濾得到與目標(biāo)種子樣本的I-Vector向量之間的余弦距離高于第一 預(yù)定閾值,達(dá)到了無需人工參與自動(dòng)對語音數(shù)據(jù)進(jìn)行清洗的目的,進(jìn)而解決了相關(guān)技術(shù)無 法采用人工標(biāo)注方法對語音數(shù)據(jù)進(jìn)行清洗導(dǎo)致語音數(shù)據(jù)清洗效率低的技術(shù)問題,實(shí)現(xiàn)了提 高對語音數(shù)據(jù)清洗的效率的技術(shù)效果。
[0134] 可選地,本實(shí)施例中的具體示例可以參考上述實(shí)施例1和實(shí)施例2中所描述的示 例,本實(shí)施例在此不再贅述。
[0135] 本領(lǐng)域普通技術(shù)人員可以理解,圖13所示的結(jié)構(gòu)僅為示意,終端可以是智能手機(jī) (如Android手機(jī)、iOS手機(jī)等)、平板電腦、掌上電腦以及移動(dòng)互聯(lián)網(wǎng)設(shè)備(Mobile Internet Devices,MID)、PAD等終端設(shè)備。圖13其并不對上述電子裝置的結(jié)構(gòu)造成限定。例如,終端還 可包括比圖13中所示更多或者更少的組件(如網(wǎng)絡(luò)接口、顯示裝置等),或者具有與圖13所 示不同的配置。
[0136] 本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可 以通過程序來指令終端設(shè)備相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì) 中,存儲介質(zhì)可以包括:閃存盤、只讀存儲器(Read-Only Memory,ROM)、隨機(jī)存取器(Random Access Memory,RAM)、磁盤或光盤等。
[0137] 實(shí)施例4
[0138] 本發(fā)明的實(shí)施例還提供了一種存儲介質(zhì)??蛇x地,在本實(shí)施例中,上述存儲介質(zhì)可 以用于執(zhí)行語音數(shù)據(jù)處理方法的程序代碼。
[0139] 可選地,在本實(shí)施例中,上述存儲介質(zhì)可以位于上述實(shí)施例所示的網(wǎng)絡(luò)中的多個(gè) 網(wǎng)絡(luò)設(shè)備中的至少一個(gè)網(wǎng)絡(luò)設(shè)備上。
[0140] 可選地,在本實(shí)施例中,存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:
[0141] S1,獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector向量,并確定多個(gè)語音樣本中 的目標(biāo)種子樣本;
[0142] S2,分別計(jì)算目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量 之間的余弦距離,其中,目標(biāo)剩余語音樣本為多個(gè)語音樣本中除目標(biāo)種子樣本之外的語音 樣本;
[0143] S3,至少按照余弦距離從多個(gè)語音樣本或目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音 樣本,其中,目標(biāo)語音樣本的I-Vector向量與目標(biāo)種子樣本的I-Vector向量之間的余弦距 離高于第一預(yù)定閾值。
[0144] 可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:重復(fù)執(zhí)行以下 操作,直到確定出目標(biāo)種子樣本:分別計(jì)算當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音 樣本的I-Vector向量之間的余弦距離,其中,當(dāng)前剩余語音樣本為多個(gè)語音樣本中除當(dāng)前 種子樣本之外的語音樣本;判斷第一平均值與第二平均值之間的差值是否小于第二預(yù)定閾 值,其中,第一平均值為當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向 量之間的余弦距離的平均值,第二平均值為上一輪種子樣本的I-Vector向量與上一輪剩余 語音樣本的I-Vector向量之間的余弦距離的平均值,上一輪剩余語音樣本為多個(gè)語音樣本 中除上一輪種子樣本之外的語音樣本;若差值小于第二預(yù)定閾值,則確定當(dāng)前種子樣本為 目標(biāo)種子樣本;若差值大于或等于第二預(yù)定閾值,則將當(dāng)前種子樣本作為上一輪種子樣本, 從當(dāng)前剩余語音樣本中選擇語音樣本,將選擇出的語音樣本拼接成當(dāng)前種子樣本,并將當(dāng) 前剩余語音樣本作為上一輪剩余語音樣本。
[0145] 可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:將當(dāng)前剩余語 音樣本按照余弦距離從小到大的順序進(jìn)行排序;從排序后的當(dāng)前剩余語音樣本中選擇靠前 的一個(gè)或多個(gè)語音樣本,其中,靠前的一個(gè)或多個(gè)語音樣本拼接成的當(dāng)前種子樣本的音頻 時(shí)長為第三預(yù)定閾值。
[0146] 可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:判斷目標(biāo)剩余 語音樣本的數(shù)量是否大于等于第四預(yù)定閾值;在目標(biāo)剩余語音樣本的數(shù)量大于等于第四預(yù) 定閾值時(shí),按照余弦距離從目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本;在目標(biāo)剩余語音 樣本的數(shù)量小于第四預(yù)定閾值時(shí),按照余弦距離以及目標(biāo)種子樣本的I-Vector向量與目標(biāo) 種子樣本的I-Vector向量之間的余弦距離從多個(gè)語音樣本中過濾得到目標(biāo)語音樣本。
[0147] 可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:分別獲取多個(gè) 語音樣本中每個(gè)語音樣本的語音特征參數(shù);利用預(yù)先訓(xùn)練完成的I-Vector矩陣獲取每個(gè)語 音樣本的I-Vector向量,其中,I-Vector矩陣用于指示語音樣本的語音特征參數(shù)對應(yīng)的I-Vector 向量。
[0148] 可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:分別獲取多個(gè) 用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音特征參數(shù);依據(jù)多個(gè)用于訓(xùn)練I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音特征參數(shù)從預(yù)先訓(xùn)練完成的高斯混合模型 中提取高斯超向量,其中,高斯混合模型為利用多個(gè)用于訓(xùn)練高斯混合模型的語音樣本中 每個(gè)語音樣本的語音特征參數(shù)訓(xùn)練得到的模型;利用高斯超向量訓(xùn)練I-Vector矩陣。
[0149] 可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:將語音樣本處 理成采樣率分別為第一采樣率和第二采樣率的脈沖編碼調(diào)制信號;從脈沖編碼調(diào)制信號中 提取語音特征參數(shù);以及對語音特征參數(shù)進(jìn)行能量檢測和歸一化處理。
[0150] 可選地,本實(shí)施例中的具體示例可以參考上述實(shí)施例1和實(shí)施例2中所描述的示 例,本實(shí)施例在此不再贅述。
[0151] 可選地,在本實(shí)施例中,上述存儲介質(zhì)可以包括但不限于:U盤、只讀存儲器(R0M, Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、移動(dòng)硬盤、磁碟或者 光盤等各種可以存儲程序代碼的介質(zhì)。
[0152] 上述本發(fā)明實(shí)施例序號僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0153] 上述實(shí)施例中的集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品 銷售或使用時(shí),可以存儲在上述計(jì)算機(jī)可讀取的存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技 術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟 件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在存儲介質(zhì)中,包括若干指令用以使得一 臺或多臺計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所 述方法的全部或部分步驟。
[0154] 在本發(fā)明的上述實(shí)施例中,對各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有 詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
[0155] 在本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的客戶端,可通過其它的方 式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一 種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者 可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之 間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連 接,可以是電性或其它的形式。
[0156]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0157] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單 元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0158] 以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng) 視為本發(fā)明的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種語音數(shù)據(jù)處理方法,其特征在于,包括: 獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector向量,并確定所述多個(gè)語音樣本中的目 標(biāo)種子樣本; 分別計(jì)算所述目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量之 間的余弦距離,其中,所述目標(biāo)剩余語音樣本為所述多個(gè)語音樣本中除所述目標(biāo)種子樣本 之外的語音樣本;以及 至少按照所述余弦距離從所述多個(gè)語音樣本或所述目標(biāo)剩余語音樣本中過濾得到目 標(biāo)語音樣本,其中,所述目標(biāo)語音樣本的I-Vector向量與所述目標(biāo)種子樣本的I-Vector向 量之間的余弦距離高于第一預(yù)定閾值。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)前種子樣本被初始化為由所述多個(gè)語音 樣本中的至少一個(gè)語音樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始化為 空,其中,確定所述多個(gè)語音樣本中的目標(biāo)種子樣本包括:重復(fù)執(zhí)行以下操作,直到確定出 所述目標(biāo)種子樣本: 分別計(jì)算所述當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣本的I-Vector向量之 間的余弦距離,其中,所述當(dāng)前剩余語音樣本為所述多個(gè)語音樣本中除所述當(dāng)前種子樣本 之外的語音樣本; 判斷第一平均值與第二平均值之間的差值是否小于第二預(yù)定閾值,其中,所述第一平 均值為所述當(dāng)前種子樣本的I-Vector向量與所述當(dāng)前剩余語音樣本的I-Vector向量之間 的余弦距離的平均值,所述第二平均值為所述上一輪種子樣本的I-Vector向量與所述上一 輪剩余語音樣本的I-Vector向量之間的余弦距離的平均值,所述上一輪剩余語音樣本為所 述多個(gè)語音樣本中除所述上一輪種子樣本之外的語音樣本; 若所述差值小于所述第二預(yù)定閾值,則確定所述當(dāng)前種子樣本為所述目標(biāo)種子樣本; 若所述差值大于或等于所述第二預(yù)定閾值,則將所述當(dāng)前種子樣本作為所述上一輪種 子樣本,從所述當(dāng)前剩余語音樣本中選擇語音樣本,將選擇出的所述語音樣本拼接成所述 當(dāng)前種子樣本,并將所述當(dāng)前剩余語音樣本作為所述上一輪剩余語音樣本。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述當(dāng)前剩余語音樣本中選擇語音樣本 包括: 將所述當(dāng)前剩余語音樣本按照余弦距離從小到大的順序進(jìn)行排序; 從排序后的所述當(dāng)前剩余語音樣本中選擇靠前的一個(gè)或多個(gè)語音樣本,其中,所述靠 前的一個(gè)或多個(gè)語音樣本拼接成的所述當(dāng)前種子樣本的音頻時(shí)長為第三預(yù)定閾值。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,至少按照所述余弦距離從所述多個(gè)語音樣 本或所述目標(biāo)剩余語音樣本中過濾得到目標(biāo)語音樣本包括: 判斷所述目標(biāo)剩余語音樣本的數(shù)量是否大于等于第四預(yù)定閾值; 在所述目標(biāo)剩余語音樣本的數(shù)量大于等于所述第四預(yù)定閾值時(shí),按照所述余弦距離從 所述目標(biāo)剩余語音樣本中過濾得到所述目標(biāo)語音樣本; 在所述目標(biāo)剩余語音樣本的數(shù)量小于所述第四預(yù)定閾值時(shí),按照所述余弦距離以及所 述目標(biāo)種子樣本的I-Vector向量與所述目標(biāo)種子樣本的I-Vector向量之間的余弦距離從 所述多個(gè)語音樣本中過濾得到所述目標(biāo)語音樣本。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取多個(gè)語音樣本中每個(gè)語音樣本的I- Vector向量包括: 分別獲取所述多個(gè)語音樣本中每個(gè)語音樣本的語音特征參數(shù); 利用預(yù)先訓(xùn)練完成的I-Vector矩陣獲取所述每個(gè)語音樣本的I-Vector向量,其中,所 述I-Vector矩陣用于指示所述語音樣本的語音特征參數(shù)對應(yīng)的I-Vector向量。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述I-Vector矩陣通過以下步驟訓(xùn)練得 到: 分別獲取多個(gè)用于訓(xùn)練所述I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音特征參 數(shù); 依據(jù)所述多個(gè)用于訓(xùn)練所述I-Vector矩陣的語音樣本中每個(gè)語音樣本的語音特征參 數(shù)從預(yù)先訓(xùn)練完成的高斯混合模型中提取高斯超向量,其中,所述高斯混合模型為利用多 個(gè)用于訓(xùn)練所述高斯混合模型的語音樣本中每個(gè)語音樣本的語音特征參數(shù)訓(xùn)練得到的模 型; 利用所述高斯超向量訓(xùn)練所述I -Ve c tor矩陣。7. 根據(jù)權(quán)利要求5或6所述的方法,其特征在于,獲取語音樣本的語音特征參數(shù)包括: 將所述語音樣本處理成采樣率分別為第一采樣率和第二采樣率的脈沖編碼調(diào)制信號; 從所述脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及 對所述語音特征參數(shù)進(jìn)行能量檢測和歸一化處理。8. -種語音數(shù)據(jù)處理裝置,其特征在于,包括: 獲取模塊,用于獲取多個(gè)語音樣本中每個(gè)語音樣本的I-Vector向量,并確定所述多個(gè) 語音樣本中的目標(biāo)種子樣本; 計(jì)算模塊,用于分別計(jì)算所述目標(biāo)種子樣本的I-Vector向量與目標(biāo)剩余語音樣本的I-Vector向量之間的余弦距離,其中,所述目標(biāo)剩余語音樣本為所述多個(gè)語音樣本中除所述 目標(biāo)種子樣本之外的語音樣本;以及 過濾模塊,用于至少按照所述余弦距離從所述多個(gè)語音樣本或所述目標(biāo)剩余語音樣本 中過濾得到目標(biāo)語音樣本,其中,所述目標(biāo)語音樣本的I-Vector向量與所述目標(biāo)種子樣本 的I-Vector向量之間的余弦距離高于第一預(yù)定閾值。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,當(dāng)前種子樣本被初始化為由所述多個(gè)語音 樣本中的至少一個(gè)語音樣本拼接得到,上一輪種子樣本和上一輪剩余語音樣本被初始化為 空,其中,所述獲取模塊包括:重復(fù)執(zhí)行模塊,用于重復(fù)執(zhí)行以下模塊中的操作,直到確定出 所述目標(biāo)種子樣本: 第一子計(jì)算模塊,用于分別計(jì)算所述當(dāng)前種子樣本的I-Vector向量與當(dāng)前剩余語音樣 本的I-Vector向量之間的余弦距離,其中,所述當(dāng)前剩余語音樣本為所述多個(gè)語音樣本中 除所述當(dāng)前種子樣本之外的語音樣本; 第一判斷模塊,用于判斷第一平均值與第二平均值之間的差值是否小于第二預(yù)定閾 值,其中,所述第一平均值為所述當(dāng)前種子樣本的I-Vector向量與所述當(dāng)前剩余語音樣本 的I-Vector向量之間的余弦距離的平均值,所述第二平均值為所述上一輪種子樣本的I-Vector向量與所述上一輪剩余語音樣本的I-Vector向量之間的余弦距離的平均值,所述上 一輪剩余語音樣本為所述多個(gè)語音樣本中除所述上一輪種子樣本之外的語音樣本; 確定模塊,用于若所述差值小于所述第二預(yù)定閾值,則確定所述當(dāng)前種子樣本為所述 目標(biāo)種子樣本; 選擇模塊,用于若所述差值大于或等于所述第二預(yù)定閾值,則將所述當(dāng)前種子樣本作 為所述上一輪種子樣本,從所述當(dāng)前剩余語音樣本中選擇語音樣本,將選擇出的所述語音 樣本拼接成所述當(dāng)前種子樣本,并將所述當(dāng)前剩余語音樣本作為所述上一輪剩余語音樣 本。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述選擇模塊包括: 排序模塊,用于將所述當(dāng)前剩余語音樣本按照余弦距離從小到大的順序進(jìn)行排序; 第一子選擇模塊,用于從排序后的所述當(dāng)前剩余語音樣本中選擇靠前的一個(gè)或多個(gè)語 音樣本,其中,所述靠前的一個(gè)或多個(gè)語音樣本拼接成的所述當(dāng)前種子樣本的音頻時(shí)長為 第三預(yù)定閾值。11. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述過濾模塊包括: 第二判斷模塊,用于判斷所述目標(biāo)剩余語音樣本的數(shù)量是否大于等于第四預(yù)定閾值; 第一子過濾模塊,用于在所述目標(biāo)剩余語音樣本的數(shù)量大于等于所述第四預(yù)定閾值 時(shí),按照所述余弦距離從所述目標(biāo)剩余語音樣本中過濾得到所述目標(biāo)語音樣本; 第二子過濾模塊,用于在所述目標(biāo)剩余語音樣本的數(shù)量小于所述第四預(yù)定閾值時(shí),按 照所述余弦距離以及所述目標(biāo)種子樣本的I-Vector向量與所述目標(biāo)種子樣本的I-Vector 向量之間的余弦距離從所述多個(gè)語音樣本中過濾得到所述目標(biāo)語音樣本。12. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲取模塊包括: 第一子獲取模塊,用于分別獲取所述多個(gè)語音樣本中每個(gè)語音樣本的語音特征參數(shù); 第二子獲取模塊,用于利用預(yù)先訓(xùn)練完成的I-Vector矩陣獲取所述每個(gè)語音樣本的I-Vector向量,其中,所述I-Vector矩陣用于指示所述語音樣本的語音特征參數(shù)對應(yīng)的I-Vector 向量。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述I-Vector矩陣通過以下模塊訓(xùn)練得 到: 第三子獲取模塊,用于分別獲取多個(gè)用于訓(xùn)練所述I-Vector矩陣的語音樣本中每個(gè)語 音樣本的語音特征參數(shù); 第一提取模塊,用于依據(jù)所述多個(gè)用于訓(xùn)練所述I-Vector矩陣的語音樣本中每個(gè)語音 樣本的語音特征參數(shù)從預(yù)先訓(xùn)練完成的高斯混合模型中提取高斯超向量,其中,所述高斯 混合模型為利用多個(gè)用于訓(xùn)練所述高斯混合模型的語音樣本中每個(gè)語音樣本的語音特征 參數(shù)訓(xùn)練得到的模型; 訓(xùn)練模塊,用于利用所述高斯超向量訓(xùn)練所述I-Vector矩陣。14. 根據(jù)權(quán)利要求12或13所述的裝置,其特征在于,所述第一子獲取模塊包括: 采樣模塊,用于將所述語音樣本處理成采樣率分別為第一采樣率和第二采樣率的脈沖 編碼調(diào)制彳目號; 第二提取模塊,用于提取從所述脈沖編碼調(diào)制信號中提取語音特征參數(shù);以及 處理模塊,用于對所述語音特征參數(shù)進(jìn)行能量檢測和歸一化處理。
【文檔編號】G10L21/0272GK105869645SQ201610178300
【公開日】2016年8月17日
【申請日】2016年3月25日
【發(fā)明人】金星明, 李為, 鄭昉勱, 吳富章, 朱碧磊, 錢柄樺, 李科, 吳永堅(jiān), 黃飛躍
【申請人】騰訊科技(深圳)有限公司