本發(fā)明涉及語音識別領(lǐng)域,更具體地,涉及一種說話人確認(rèn)方法及裝置。
背景技術(shù):
說話人確認(rèn)是通過聲音特征對說話人進(jìn)行身份驗(yàn)證的方法。在進(jìn)行說話人確認(rèn)時(shí),用戶先預(yù)留一段聲音,然后輸入驗(yàn)證語音。將驗(yàn)證語音與系統(tǒng)預(yù)留語音進(jìn)行對比,即可判斷該用戶是否存在。
目前,說話人確認(rèn)方法以統(tǒng)計(jì)模型為主,性能較好的說話人確認(rèn)方法一般基于i-vector模型和plda模型。i-vector模型對語音信號建立如下線性模型:
x=tw+v
其中,x為語音信號的mfcc特征,t為一個(gè)低秩矩陣,w為句子向量,即i-vector,v為高斯噪聲。該模型事實(shí)上是一個(gè)概率pca模型。實(shí)際應(yīng)用中,一般將語音空間分成若干區(qū)域,對每個(gè)區(qū)域進(jìn)行上述線性建模。所有區(qū)域共享句子向量w。w是一個(gè)低維向量,包含說話人、說話內(nèi)容、信道等信息。為提高對說話人的區(qū)分性,引入plda模型:
w=hu+kc+n
其中u為說話人向量,c為表達(dá)向量,包括發(fā)音方式,信道等,n為高斯噪聲。plda將說話人特征和表達(dá)特征區(qū)分開。
上述模型基于通用的mfcc特征,通過模型將說話人信息分離出來。該方法基于信號的分布狀態(tài)建模,因此需要較多的數(shù)據(jù)才能得到較好的結(jié)果,而且計(jì)算量較大,且容易受到信道、噪聲和時(shí)變的影響。
技術(shù)實(shí)現(xiàn)要素:
為克服上述需要數(shù)據(jù)多、計(jì)算量大且魯棒性差的問題或者至少部分地解決上述問題,本發(fā)明提供一種說話人確認(rèn)方法及裝置。
根據(jù)本發(fā)明的一個(gè)方面,提供一種說話人確認(rèn)方法,包括:
獲取第二語音;
將預(yù)先獲取的第一語音和所述第二語音轉(zhuǎn)換成對應(yīng)的第一聲譜圖和第二聲譜圖;
使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取,獲取對應(yīng)的第一特征和第二特征;
使用時(shí)延神經(jīng)網(wǎng)絡(luò)對所述第一特征和所述第二特征進(jìn)行特征提取,獲取對應(yīng)的第三特征和第四特征;
根據(jù)所述第三特征和所述第四特征對說話人進(jìn)行確認(rèn)。
具體地,在使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取之前,還包括:
對所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
具體地,在使用時(shí)延神經(jīng)網(wǎng)絡(luò)對所述第一特征和所述第二特征進(jìn)行特征提取之前,還包括:
對所述第一特征和所述第二特征進(jìn)行降維。
具體地,所述使用時(shí)延神經(jīng)網(wǎng)絡(luò)對所述第一特征和所述第二特征進(jìn)行特征提取,獲取對應(yīng)的第三特征和第四特征,包括:
分別對所述第一語音和所述第二語音中的幀進(jìn)行拼接;
對所述第一語音中拼接后的幀對應(yīng)的所述第一特征和所述第二語音中拼接后的幀對應(yīng)的所述第二特征進(jìn)行降維;
對降維后的所述第一特征和第二特征進(jìn)行線性變換,獲取對應(yīng)的第三特征和第四特征。
具體地,對所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,包括:
使用交叉熵函數(shù)作為目標(biāo)函數(shù)對所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
根據(jù)本發(fā)明的另一個(gè)方面,提供一種說話人確認(rèn)裝置,包括:
獲取單元,用于獲取第二語音;
轉(zhuǎn)換單元,用于將預(yù)先獲取的第一語音和所述第二語音轉(zhuǎn)換成對應(yīng)的第一聲譜圖和第二聲譜圖;
第一提取單元,用于使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取,獲取對應(yīng)的第一特征和第二特征;
第二提取單元,用于使用時(shí)延神經(jīng)網(wǎng)絡(luò)對所述第一特征和所述第二特征進(jìn)行特征提取,獲取對應(yīng)的第三特征和第四特征;
確認(rèn)單元,用于根據(jù)所述第三特征和所述第四特征對說話人進(jìn)行確認(rèn)。
具體地,還包括:
訓(xùn)練單元,用于對所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
具體地,還包括:
第一降維單元,用于對所述第一特征和所述第二特征進(jìn)行降維。
具體地,所述第二提取單元包括:
拼接子單元,用于分別對所述第一語音和所述第二語音中的幀進(jìn)行拼接;
第二降維子單元,用于對所述第一語音中拼接后的幀對應(yīng)的所述第一特征和所述第二語音中拼接后的幀對應(yīng)的所述第二特征進(jìn)行降維;
變換子單元,用于對降維后的所述第一特征和第二特征進(jìn)行線性變換,獲取對應(yīng)的第三特征和第四特征。
具體地,所述訓(xùn)練單元具體用于:
使用交叉熵函數(shù)作為目標(biāo)函數(shù)對所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
本發(fā)明提出一種說話人確認(rèn)方法及裝置,通過將卷積神經(jīng)網(wǎng)絡(luò)和時(shí)延神經(jīng)網(wǎng)絡(luò)相結(jié)合,對所述第一語音和所述第二語音進(jìn)行兩次特征提取,將最終提取的第三特征和所述第四特征進(jìn)行比較,從而實(shí)現(xiàn)對說話人的確認(rèn),本發(fā)明計(jì)算簡單,魯棒性強(qiáng),能達(dá)到很好的識別效果。
附圖說明
圖1為本發(fā)明實(shí)施例提供的說話人確認(rèn)方法流程圖;
圖2為所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖;
圖3為本發(fā)明實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖;
圖4為本發(fā)明又一實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖;
圖5為本發(fā)明又一實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖;
圖6為本發(fā)明又一實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
圖1為本發(fā)明實(shí)施例提供的說話人確認(rèn)方法流程圖,包括:s1,獲取第二語音;s2,將預(yù)先獲取的第一語音和所述第二語音轉(zhuǎn)換成對應(yīng)的第一聲譜圖和第二聲譜圖;s3,使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取,獲取對應(yīng)的第一特征和第二特征;s4,使用時(shí)延神經(jīng)網(wǎng)絡(luò)對所述第一特征和所述第二特征進(jìn)行特征提取,獲取對應(yīng)的第三特征和第四特征;s5,根據(jù)所述第三特征和所述第四特征對說話人進(jìn)行確認(rèn)。
具體地,s1中,獲取所述第二語音,所述第二語音為說話人新錄入的語音,是需要驗(yàn)證的語音。s2中,所述第一語音為說話人預(yù)先錄入的語音,每一條第一語音對應(yīng)有一個(gè)說話人標(biāo)簽,根據(jù)所述說話人標(biāo)簽?zāi)芪ㄒ淮_認(rèn)說話人。所述第一語音可以包括多個(gè)說話人的語音,每個(gè)說話人可以對應(yīng)有一條或多條第一語音。將所有的所述第一語音轉(zhuǎn)換成第一聲譜圖,將所述第二語音轉(zhuǎn)換成第二聲譜圖。所述第一聲譜圖和所述第二聲譜圖的橫軸表示時(shí)間,縱軸表示頻率,顏色或亮度表示幅度。
s3中,使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取。所述卷積網(wǎng)絡(luò)可以包括多個(gè)卷積層。每個(gè)卷積層的卷積核的個(gè)數(shù)和大小可以根據(jù)需要進(jìn)行調(diào)整。在使用每個(gè)卷積核對所述第一聲譜圖和所述第二聲譜圖進(jìn)行卷積時(shí),都會生成一個(gè)特征平面。每個(gè)卷積層后可以接一個(gè)池化層。所述池化層可以為最大池化層或平均池化層。所述池化層的窗口可以重疊,也可以不重疊。所述池化層的窗口大小可以根據(jù)需要進(jìn)行調(diào)整??梢允褂玫碗A矩陣對第二個(gè)所述池化層得到的特征平面進(jìn)行降維,但不限于此種降維方式。
s4中,所述時(shí)延網(wǎng)絡(luò)可以包括多個(gè)時(shí)延層,每個(gè)時(shí)延層分別對所述第一語音和所述第二語音中的幀進(jìn)行拼接,并對所述第一語音中拼接后的幀對應(yīng)的所述第一特征和所述第二語音中拼接后的幀對應(yīng)的所述第二特征進(jìn)行降維。本發(fā)明不限于降維的方法。然后對降維后的所述第一特征和第二特征進(jìn)行線性變換,獲取對應(yīng)的第三特征和第四特征。由于所述第一特征和所述第二特征也為聲譜圖,聲譜圖的橫坐標(biāo)表示時(shí)間,所述第一語音和所述第二語音中的每一幀也有對應(yīng)的時(shí)間。因此,所述第一語音中拼接后的幀對應(yīng)的所述第一特征為所述第一語音中從拼接后的幀中的第一幀到最后一幀時(shí)間段內(nèi)的第一特征,所述第二語音中拼接后的幀對應(yīng)的所述第二特征為所述第二語音中從拼接后的幀中的第一幀到最后一幀時(shí)間段內(nèi)的第二特征。
s5中,將所述驗(yàn)證語音通過所述神經(jīng)網(wǎng)絡(luò)進(jìn)行前向計(jì)算,提取所述第一語音和所述第二語音中每一幀的特征??梢愿鶕?jù)每一幀的特征使用任何統(tǒng)計(jì)模型對說話人進(jìn)行確認(rèn)。如分別計(jì)算所述第一語音和所述第二語音中每一幀的特征的平均值,計(jì)算所述第二語音中每一幀的特征的平均值和每條所述第一語音中每一幀的平均值之間的距離。所述距離可以為余弦相似度。但不限于此種距離。當(dāng)計(jì)算出的余弦相似度大于預(yù)設(shè)閾值時(shí),則根據(jù)所述第一語音對應(yīng)的說話人標(biāo)簽確認(rèn)當(dāng)前說話人。
本實(shí)施例通過將卷積神經(jīng)網(wǎng)絡(luò)和時(shí)延神經(jīng)網(wǎng)絡(luò)相結(jié)合,對所述第一語音和所述第二語音進(jìn)行兩次特征提取,將最終提取的第三特征和所述第四特征進(jìn)行比較,從而實(shí)現(xiàn)對說話人的確認(rèn),本發(fā)明計(jì)算簡單,魯棒性強(qiáng),能達(dá)到很好的識別效果。
圖2為所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖,如圖2所示,所示卷積神經(jīng)網(wǎng)絡(luò)的輸入為頻譜圖。所述卷積神經(jīng)網(wǎng)絡(luò)有兩個(gè)卷積層,第一個(gè)卷積層的卷積核為128個(gè),每個(gè)卷積核的大小為6x33;第一個(gè)池化層的池化窗口大小為3x11。第二個(gè)卷積層的卷積核為256個(gè),每個(gè)卷積核的大小為2x8。第二個(gè)池化層的池化窗口大小為2x4。對第二個(gè)池化層得到的256個(gè)特征平面進(jìn)行降維,降維成512個(gè)特征,對應(yīng)512個(gè)神經(jīng)元。所述時(shí)延網(wǎng)絡(luò)有兩個(gè)時(shí)延層,每個(gè)時(shí)延層通過時(shí)序拼接對上下文信息進(jìn)行擴(kuò)展。第一個(gè)時(shí)延層拼接前后各2幀信號,第二個(gè)時(shí)延層拼接前后各4幀信號。每個(gè)時(shí)延層后接一個(gè)降維層。每個(gè)降維層將延時(shí)層進(jìn)行降維,輸出400個(gè)特征。對所述第二個(gè)時(shí)延層的降維層的輸出的400個(gè)特征進(jìn)行線性變換。
在上述實(shí)施例的基礎(chǔ)上,本實(shí)施中在使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取之前,還包括對所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
具體地,在訓(xùn)練前,獲取需要確認(rèn)的說話人的語音,將需要確認(rèn)的說話人的語音作為訓(xùn)練集。在進(jìn)行訓(xùn)練時(shí),將所述語音中的每一個(gè)幀作為學(xué)習(xí)樣本,經(jīng)過所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)兩次特征提取后,計(jì)算所述兩次特征提取前后該幀的特征之間的距離,確認(rèn)該幀的說話人是否為該幀對應(yīng)的說話人標(biāo)簽,使用說話人確認(rèn)的誤差信息反向調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)。目標(biāo)函數(shù)為交叉熵函數(shù)。訓(xùn)練時(shí)使用的后向反饋算法可以為nsgd(naturalstochasticgradientdescent,自然隨機(jī)梯度下降)算法或任何深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。
本實(shí)施例中,使用語音中的每一個(gè)幀作為學(xué)習(xí)樣本對所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù),該種訓(xùn)練方法需要的數(shù)據(jù)少,使用優(yōu)化的參數(shù)能提高說話人確認(rèn)的準(zhǔn)確性。
圖3為本發(fā)明實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖,如圖3所示,包括獲取單元1、轉(zhuǎn)換單元2、第一提取單元3、第二提取單元4和確認(rèn)單元5,其中:
所述獲取單元1用于獲取第二語音;所述轉(zhuǎn)換單元2用于將預(yù)先獲取的第一語音和所述第二語音轉(zhuǎn)換成對應(yīng)的第一聲譜圖和第二聲譜圖;所述第一提取單元3用于使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取,獲取對應(yīng)的第一特征和第二特征;所述第二提取單元4用于使用時(shí)延神經(jīng)網(wǎng)絡(luò)對所述第一特征和所述第二特征進(jìn)行特征提取,獲取對應(yīng)的第三特征和第四特征;所述確認(rèn)單元5用于根據(jù)所述第三特征和所述第四特征對說話人進(jìn)行確認(rèn)。
具體地,所述獲取單元1獲取所述第二語音。所述第二語音為說話人新錄入的語音,是需要驗(yàn)證的語音。所述轉(zhuǎn)換單元2將所有的所述第一語音轉(zhuǎn)換成第一聲譜圖,將所述第二語音轉(zhuǎn)換成第二聲譜圖。所述第一語音為說話人預(yù)先錄入的語音,每一條第一語音對應(yīng)有一個(gè)說話人標(biāo)簽,根據(jù)所述說話人標(biāo)簽?zāi)芪ㄒ淮_認(rèn)說話人。所述第一語音可以包括多個(gè)說話人的語音,每個(gè)說話人可以對應(yīng)有一條或多條第一語音。所述第一聲譜圖和所述第二聲譜圖的橫軸表示時(shí)間,縱軸表示頻率,顏色或亮度表示幅度。
所述第一提取單元3使用卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取。所述卷積網(wǎng)絡(luò)可以包括多個(gè)卷積層。每個(gè)卷積層的卷積核的個(gè)數(shù)和大小可以根據(jù)需要進(jìn)行調(diào)整。在使用每個(gè)卷積核對所述第一聲譜圖和所述第二聲譜圖進(jìn)行卷積時(shí),都會生成一個(gè)特征平面。每個(gè)卷積層后可以接一個(gè)池化層。所述池化層可以為最大池化層或平均池化層。所述池化層的窗口可以重疊,也可以不重疊。所述池化層的窗口大小可以根據(jù)需要進(jìn)行調(diào)整。
所述時(shí)延網(wǎng)絡(luò)可以包括多個(gè)時(shí)延層,所述時(shí)延網(wǎng)絡(luò)包括多個(gè)全連接的時(shí)延層,每個(gè)時(shí)延層中的所述第二提取單元4通過拼接前后各幀對上下文信息進(jìn)行擴(kuò)展。拼接前后各幀的數(shù)目可以根據(jù)需要進(jìn)行設(shè)置。
所述確認(rèn)單元5將所述驗(yàn)證語音通過所述神經(jīng)網(wǎng)絡(luò)進(jìn)行前向計(jì)算,提取所述第一語音和所述第二語音中每一幀的特征??梢愿鶕?jù)每一幀的特征使用任何統(tǒng)計(jì)模型對說話人進(jìn)行確認(rèn)。如分別計(jì)算所述第一語音和所述第二語音中每一幀的特征的平均值,計(jì)算所述第二語音中每一幀的特征的平均值和每條所述第一語音中每一幀的平均值之間的距離。所述距離可以為余弦相似度。但不限于此種距離。當(dāng)計(jì)算出的余弦相似度大于預(yù)設(shè)閾值時(shí),則根據(jù)所述第一語音對應(yīng)的說話人標(biāo)簽確認(rèn)當(dāng)前說話人。
本實(shí)施例通過將卷積神經(jīng)網(wǎng)絡(luò)和時(shí)延神經(jīng)網(wǎng)絡(luò)相結(jié)合,對所述第一語音和所述第二語音進(jìn)行兩次特征提取,將最終提取的第三特征和所述第四特征進(jìn)行比較,從而實(shí)現(xiàn)對說話人的確認(rèn),本發(fā)明計(jì)算簡單,魯棒性強(qiáng),能達(dá)到很好的識別效果。
圖4為本發(fā)明實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖,如圖4所示,在上述實(shí)施例的基礎(chǔ)上,還包括:訓(xùn)練單元6,用于對所述卷積神經(jīng)網(wǎng)絡(luò)和所述時(shí)延神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
具體地,在訓(xùn)練前,獲取需要確認(rèn)的說話人的語音,將需要確認(rèn)的說話人的語音作為訓(xùn)練集。在進(jìn)行訓(xùn)練時(shí),所述訓(xùn)練單元6,將所述語音中的每一個(gè)幀作為學(xué)習(xí)樣本,經(jīng)過所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)兩次特征提取后,計(jì)算所述兩次特征提取前后該幀的特征之間的距離,確認(rèn)該幀的說話人是否為該幀對應(yīng)的說話人標(biāo)簽,使用說話人確認(rèn)的誤差信息反向調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù)。目標(biāo)函數(shù)為交叉熵函數(shù)。訓(xùn)練時(shí)使用的后向反饋算法可以為nsgd(naturalstochasticgradientdescent,自然隨機(jī)梯度下降)算法或任何深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法。
本實(shí)施例中,使用語音中的每一個(gè)幀作為學(xué)習(xí)樣本對所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)和所述卷積神經(jīng)網(wǎng)絡(luò)中的參數(shù),該種訓(xùn)練方法需要的數(shù)據(jù)少,使用優(yōu)化的參數(shù)能提高說話人確認(rèn)的準(zhǔn)確性。
圖5為本發(fā)明實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖,如圖5所示,在上述各實(shí)施例的基礎(chǔ)上,還包括:第一降維子單元7,用于對所述第一特征和所述第二特征進(jìn)行降維。
具體地,使用所述卷積神經(jīng)網(wǎng)絡(luò)對所述第一聲譜圖和所述第二聲譜圖進(jìn)行特征提取時(shí),每個(gè)卷積核生成一張?zhí)卣髌矫妗.?dāng)卷積核的數(shù)量很多時(shí),會生成很多張?zhí)卣髌矫?,每張平面上有很多特征,雖然每個(gè)卷積層后接一個(gè)池化層,但特征數(shù)量依然很多,會大大降低計(jì)算速度。所以需要對所述卷積神經(jīng)網(wǎng)絡(luò)提取的所述第一特征或所述第二特征進(jìn)行降維??梢允褂玫碗A矩陣進(jìn)行降維,本實(shí)施例不限于降維的方法。本實(shí)施例通過對所述第一特征和所述第二特征進(jìn)行降維,大大提高了計(jì)算速度。
圖6為本發(fā)明實(shí)施例提供的說話人確認(rèn)裝置結(jié)構(gòu)圖,如圖6所示,在上述各實(shí)施例的基礎(chǔ)上,所述第二提取單元4包括拼接子單元41、第二降維子單元42和變換子單元43,其中:
所述拼接子單元41用于分別對所述第一語音和所述第二語音中的幀進(jìn)行拼接;所述第二降子維單元42用于對所述第一語音中拼接后的幀對應(yīng)的所述第一特征和所述第二語音中拼接后的幀對應(yīng)的所述第二特征進(jìn)行降維;所述變換子單元43用于對降維后的所述第一特征和第二特征進(jìn)行線性變換,獲取對應(yīng)的第三特征和第四特征。
具體地,每個(gè)延時(shí)層中所述拼接子單元41拼接的幀的數(shù)目相同,不同延時(shí)層中所述拼接子單元41拼接的幀的數(shù)目可以不同。拼接窗口可以重疊。所述第二降維子單元42對每個(gè)時(shí)延層中拼接的幀對應(yīng)的特征平面進(jìn)行降維。由于所述第一特征和所述第二特征也為聲譜圖,聲譜圖的橫坐標(biāo)表示時(shí)間,所述第一語音和所述第二語音中的每一幀也有對應(yīng)的時(shí)間。因此,所述第一語音中拼接后的幀對應(yīng)的所述第一特征為所述第一語音中從拼接后的幀中的第一幀到最后一幀時(shí)間段內(nèi)的第一特征,所述第二語音中拼接后的幀對應(yīng)的所述第二特征為所述第二語音中從拼接后的幀中的第一幀到最后一幀時(shí)間段內(nèi)的第二特征??梢詫λ龅谝惶卣骱退龅诙卣魃系钠揭拼翱谥械奶卣魅∑骄?,用一個(gè)特征值為所述平均值的特征替代所述平移窗口中的特征,從而實(shí)現(xiàn)降維。本發(fā)明不限于對所述特征平面進(jìn)行降維的方法。所述變換子單元43對降維后的特征進(jìn)行線性變換。可以用邏輯斯蒂回歸模型進(jìn)行線性變換。
本發(fā)明實(shí)施例使用時(shí)延神經(jīng)網(wǎng)絡(luò)對所述第一特征和所述第二特征進(jìn)行特征提取,獲取對應(yīng)的第三特征和第四特征,所述時(shí)延神經(jīng)網(wǎng)絡(luò)對特征具有較強(qiáng)的提取能力,為說話人的準(zhǔn)確確認(rèn)奠定基礎(chǔ)。
最后,本申請的方法僅為較佳的實(shí)施方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。