本發(fā)明屬于信息處理領(lǐng)域,具體涉及基于說話人識別技術(shù)的口語測評身份認證方法。
背景技術(shù):
英語作為一門外語,學習起來比較不易,需要在日常生活、教學中營造充分的語言環(huán)境,來輔助學員學習,因此口語測評便成為了廣泛使用的手段之一。老師在課堂上會盡力營造語言環(huán)境,幫助學員學習英語,但這不能夠讓老師完全掌握每個學員的真實情況以及學習過程中需要糾正的發(fā)音等其它問題。口語測評就可以解決這個問題,口語測評用于課下學員自行完成口語測試,并將測試結(jié)果上傳給老師,老師能夠了解每個學員的真實情況,并糾正不同學員的發(fā)音等。這就要求口語測評系統(tǒng)中增加身份識別的功能,對測評人的身份進行判斷。
常用的身份識別技術(shù)包括指紋、虹膜、人臉、手寫簽名、以及語音的身份認證技術(shù)。語音是身份信息的重要載體,與人臉、指紋等其他生物特征相比,語音的獲取成本低廉,使用簡單,便于遠程數(shù)據(jù)采集,且基于語音的人機交流界面更為友好,因此說話人識別技術(shù)成為重要的自動身份認證技術(shù)。
為此亟需提供一種基于說話人識別技術(shù)的口語測評身份認證方法,能夠準確高效地對口語測評過程中測評人的身份進行識別。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供一種基于說話人識別技術(shù)的口語測評身份認證方法,能夠準確高效地對口語測評過程中測評人的身份進行識別。
基于說話人識別技術(shù)的口語測評身份認證方法,包括以下步驟:
S1:用戶注冊時,獲取并分析用戶的語音信息,得到標準語音模板,初始化身份認證分數(shù);
S2:當用戶啟動口語測評功能時,根據(jù)測評的總時長T、身份認證分數(shù)S計算得到認證次數(shù)和認證時間;
S3:當認證時間到達時,獲取用戶的語音信息,并與標準語音模板進行對比,如果匹配,本次認證成功;否則返回步驟S3對下一次認證時間進行監(jiān)測;
S4:根據(jù)本次口語測評的認證結(jié)果更新身份認證分數(shù)。
優(yōu)選地,所述步驟S1還包括:實時檢測是否接收到老師反饋的身份認證分數(shù),如果是,更新身份認證分數(shù)。
優(yōu)選地,所述步驟S1中,所述語音信息為多條,通過麥克風直接獲取或是從用戶的測試數(shù)據(jù)庫中調(diào)取。
優(yōu)選地,所述步驟S2具體為:
S2a:計算認證次數(shù)A,A=5T/S;
S2b:計算認證時間:Pi=Pi-1+B;其中,Pi-1=0,B為0~12S之間的隨機數(shù)。
優(yōu)選地,所述步驟S3具體為:
S3a:當認證時間Pi到達時,設(shè)定認證錯誤次數(shù)為0;
S3b:判斷在預(yù)設(shè)的延長時間內(nèi)是否接收到用戶的語音信息,如果是,執(zhí)行步驟S3c;否則,認證失敗次數(shù)累積1,返回步驟S2;
S3c:認證錯誤次數(shù)是否達到預(yù)設(shè)的認證錯誤上限值,如果是,認證失敗次數(shù)累積1,返回步驟S2;否則,執(zhí)行步驟S3d;
S3d:將接收的語音信息與標準語音模板進行對比,如果匹配,返回步驟S3a對下一次認證時間進行監(jiān)測;如果不匹配,認證錯誤次數(shù)累加1,返回步驟S3b。
優(yōu)選地,所述步驟S4中,身份認證分數(shù)為認證失敗次數(shù)的倒數(shù)。
優(yōu)選地,該方法分析用戶的語音信息時,首先構(gòu)建若干個分類器,然后將分類器進行融合,得到標準語音模板。
優(yōu)選地,所述分類器的構(gòu)建方法如下:
首先,提取語音信息相應(yīng)的JFA話者超向量,從JFA超向量中的均值向量中選取一個新的維度較低的子空間;然后,采用主成分分析方法對該子空間中的特征向量進行最優(yōu)降維,將其投影到維度為J的低維子空間中;其次,在該低維子空間中,應(yīng)用隨機采樣技術(shù)得到若干個隨機子空間;最后,對于每個隨機子空間,分別進行類內(nèi)協(xié)方差規(guī)整以及非參數(shù)線性區(qū)分分析,從而得到每個隨機子空間對應(yīng)的投影矩陣,即分類器。
優(yōu)選地,采用動態(tài)融合方法對分類器的輸出進行融合。
優(yōu)選地,所述動態(tài)融合方法具體為:
首先,對來自大量說話人的開發(fā)集語音數(shù)據(jù)集X進行分析,根據(jù)一定的準則將其劃分為K個子集SK;然后,用每個分類器對各個子集中的語音數(shù)據(jù)進行測試,統(tǒng)計相應(yīng)的得分輸出;最后,將得分平均值作為確定分類器在各個集合上的權(quán)重。
由上述技術(shù)方案可知,本發(fā)明提供的基于說話人識別技術(shù)的口語測評身份認證方法,能夠根據(jù)學員以往的身份識別結(jié)果更新身份認證次數(shù),從而得到下次口語測評中的認證次數(shù),根據(jù)學員以往口語測評的誠信度確定下次認證次數(shù),誠信度差,增加下次口語測評過程中的認證次數(shù),從而實現(xiàn)準確高效地對口語測評過程中測評人的身份進行識別。
附圖說明
為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹。在所有附圖中,類似的元件或部分一般由類似的附圖標記標識。附圖中,各元件或部分并不一定按照實際的比例繪制。
圖1為基于說話人識別技術(shù)的口語測評身份認證方法的流程圖。
圖2為基于聯(lián)合因子分析超向量的多分類器構(gòu)建示意圖。
圖3為基礎(chǔ)分類器局部分類置信度的確定方法示意圖。
具體實施方式
下面將結(jié)合附圖對本發(fā)明技術(shù)方案的實施例進行詳細的描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,因此只作為示例,而不能以此來限制本發(fā)明的保護范圍。需要注意的是,除非另有說明,本申請使用的技術(shù)術(shù)語或者科學術(shù)語應(yīng)當為本發(fā)明所屬領(lǐng)域技術(shù)人員所理解的通常意義。
基于說話人識別技術(shù)的口語測評身份認證方法,如圖1所示,包括以下步驟:
S1:用戶注冊時,獲取并分析用戶的語音信息,得到標準語音模板,初始化身份認證分數(shù);
S2:當用戶啟動口語測評功能時,根據(jù)測評的總時長T、身份認證分數(shù)S計算得到認證次數(shù)和認證時間;
S3:當認證時間到達時,獲取用戶的語音信息,并與標準語音模板進行對比,如果匹配,本次認證成功;否則返回步驟S3對下一次認證時間進行監(jiān)測;
S4:根據(jù)本次口語測評的認證結(jié)果更新身份認證分數(shù)。
采用該方法實現(xiàn)口語測評過程的身份認證時,避免了每答一道題就需要進行一次身份認證,認證次數(shù)過多,降低了口語測評的效率。同時也避免了身份認證次數(shù)太少,起不到監(jiān)督的作用。該方法通過上次口語測評的誠信度(即身份認證分數(shù))來決定下次口語測評過程中的身份認證次數(shù),即身份認證分數(shù)越低,誠信度越差,說明學員存在作弊行為的可能性越高,針對這種學員,增加下次口語測評過程中身份認證次數(shù)。反之,針對身份認證分數(shù)越高,誠信度越好的學員,減小下次口語測評過程中身份認證次數(shù)。具體實施時,身份認證分數(shù)的取值范圍為0~10。用戶注冊時,默認身份認證分數(shù)為1,處于最低等級。該方法能夠根據(jù)學員以往的身份識別結(jié)果更新身份認證次數(shù),從而得到下次口語測評中的認證次數(shù),根據(jù)學員以往口語測評的誠信度確定下次認證次數(shù),誠信度差,增加下次口語測評過程中的認證次數(shù),從而實現(xiàn)準確高效地對口語測評過程中測評人的身份進行識別。
所述步驟S1還包括:實時檢測是否接收到老師反饋的身份認證分數(shù),如果是,更新身份認證分數(shù)。該方法還可以接收老師反饋的身份認證分數(shù),如果老師在聽測評結(jié)果的過程中,發(fā)現(xiàn)學員有作弊或找人代讀的現(xiàn)象時,可以根據(jù)作弊程度評分,作弊程度嚴重,分數(shù)越低。通過老師反饋身份認證分數(shù)和以往統(tǒng)計的學員的誠信度兩方面來監(jiān)控學員的口語測評,能夠更好地實現(xiàn)對學員的監(jiān)督,能夠高效完成口語測評。
所述步驟S1中,所述語音信息為多條,通過麥克風直接獲取或是從用戶的測試數(shù)據(jù)庫中調(diào)取。該方法在啟動口語測評之前,還可以設(shè)有試用模板,試用模板用于模擬正式口語測評的場景,在用戶進入試用模板使用時,將用戶的語音信息存入測試數(shù)據(jù)庫,作為后期標準語音模板調(diào)用的基礎(chǔ)。
所述步驟S2具體為:
S2a:計算認證次數(shù)A,A=5T/S;
S2b:計算認證時間:Pi=Pi-1+B;其中,Pi-1=0,B為0~12S之間的隨機數(shù)。
認證次數(shù)A與測評的總時長T成正比,與身份認證分數(shù)S成反比,即總時長T越長,認證次數(shù)越多,身份認證分數(shù)S越高,認證次數(shù)越少。A采用四舍五入法取整。認證時間的選取是隨機的,隨機的認證時間能夠更準確的了解到學員的真實情況。當認證時間Pi大于總時長T時,設(shè)定Pi等于總時長T,T和B單位為秒,S的單位為次。
所述步驟S3具體為:
S3a:當認證時間Pi到達時,設(shè)定認證錯誤次數(shù)為0;
S3b:判斷在預(yù)設(shè)的延長時間內(nèi)是否接收到用戶的語音信息,如果是,執(zhí)行步驟S3c;否則,認證失敗次數(shù)累積1,返回步驟S2;
S3c:認證錯誤次數(shù)是否達到預(yù)設(shè)的認證錯誤上限值,如果是,認證失敗次數(shù)累積1,返回步驟S2;否則,執(zhí)行步驟S3d;
S3d:將接收的語音信息與標準語音模板進行對比,如果匹配,返回步驟S3a對下一次認證時間進行監(jiān)測;如果不匹配,認證錯誤次數(shù)累加1,返回步驟S3b。
認證錯誤上限值用于衡量在一次身份認證過程中最多錯誤次數(shù),優(yōu)選為3。認證錯誤原因可能為找別人代讀、語音信號收到干擾、周圍環(huán)境復(fù)雜等引起的。延長時間主要用于衡量語音信號的有效性。由于認證時間是隨機的,所以如果是本人在做口語測評時,當隨機彈出需要進行認證時,則能夠快速接收到用戶的語音信息,并進行認證。如果是找別人代讀,則可能就需要代讀人找到用戶進行認證,自然接收到用戶的語音信息的時間就要長些。所以延長時間不宜設(shè)置太長,優(yōu)選為5-10秒。如果延長時間到達時,依然沒有接收到用戶的語音信息,則認為此次身份認證失敗。如果在延長時間內(nèi)接收到語音信息,如果匹配此次身份認證成功。如果不匹配,認證錯誤,當認證錯誤次數(shù)到達認證錯誤上限值時,判定為此次身份認證失敗。
所述步驟S4中,身份認證分數(shù)為認證失敗次數(shù)的倒數(shù)。即認證失敗次數(shù)越多,身份認證分數(shù)越少,則下次口語測評過程中認證次數(shù)就越多。反之,認證失敗次數(shù)越少,身份認證分數(shù)越大,則下次口語測評過程中認證次數(shù)就越少。
本實施例針對說話人識別方法,提出一種動態(tài)自適應(yīng)的多分類器融合方法。在此方法中,充分考慮了各個基礎(chǔ)分類器的局部分類性能,避免線性融合方法中權(quán)重較高的分類器將權(quán)重較低的分類器的局部分類能力淹沒,進而提高對測試語音的識別結(jié)果可靠度。該方法分析用戶的語音信息時,首先構(gòu)建若干個分類器,然后將分類器進行融合,得到標準語音模板。
1、分類器的構(gòu)建。
如圖2所示,本發(fā)明中以聯(lián)合因子分析話者超向量(JFA)作為說話人的特征表達,采用雙層子空間采樣方法來構(gòu)建多個基礎(chǔ)分類器,該算法中的第一層子空間采樣是針對組成聯(lián)合因子分析話者超向量的各個高斯成分的均值來進行的,目的是去除一部分冗余信息,確定一個合適維度的子空間;第二層則是在第一層子空間經(jīng)過PCA最優(yōu)降維后所得到的更低維度的子空間中進行隨機采樣,形成若干個新的子空間。
聯(lián)合因子分析話者超向量與傳統(tǒng)的GMM-UBM均值超向量在組成結(jié)構(gòu)上是一樣的,都可以看成是由GMM模型中各個高斯成分的均值向量按順序拼接而成。所以本發(fā)明提出的子空間采樣算法中的第一層子空間的采樣是以聯(lián)合因子分析超向量中的均值向量為基本單元的來進行的。具體來講,給定第i個說話人的第h條語音的情況下,假設(shè)UBM模型的高斯成分數(shù)目為N,則該條語音數(shù)據(jù)相應(yīng)的JFA超向量Mih可以表示為N個高斯均值向量的組合:Mih=[mih1,mih2,...,mihN]。主要步驟包括:
1)提取開發(fā)集中每條語音相應(yīng)的JFA話者超向量Mih。
2)為了在高維原始特征空間中初步去除一部分冗余信息,從組成JFA超向量中的均值向量中選取一部分形成一個新的維度較低的子空間,該子空間包含了JFA超向量中的大部分有用信息,設(shè)該子空間中的低維度特征向量Sih表示為:Sih=[m'ih1,m'ih2,...,m'ihk]。
3)由于特征向量Sih仍然具有較高的維度,且各個維度的數(shù)值分布比較稀疏,所以仍包含著大量的冗余信息。接下來采用主成分分析方法對特征向量Sih進行最優(yōu)降維,將其投影到維度為J的低維子空間中。
4)在經(jīng)過PCA降維后所得到的子空間中,應(yīng)用隨機采樣技術(shù)得到若干個隨機子空間。
5)對于每個隨機子空間,分別進行類內(nèi)協(xié)方差規(guī)整以及非參數(shù)線性區(qū)分分析,從而得到一個投影矩陣,相應(yīng)于每個隨機子空間的投影矩陣可以表示為兩個投影矩陣的乘積,即類內(nèi)協(xié)方差規(guī)整投影矩陣與非參數(shù)線性區(qū)分分析投影矩陣的乘積。
根據(jù)以上步驟中的子空間分析結(jié)果,對于每個子空間可以得到一個子空間分類器。
2、自適應(yīng)多分類器融合。
如圖3所示,本發(fā)明采用在PCA空間進行隨機采樣的方法來構(gòu)建基礎(chǔ)分類器,該方法基于不同的特征子集進行,所以各個基礎(chǔ)分類器之間既有差異性又有一定的互補性。采用動態(tài)融合方法將多個基礎(chǔ)分類器的輸出進行有效融合,則可以大幅提高說話人確認系統(tǒng)的性能。
在訓練階段,為了對基礎(chǔ)分類器的局部分類能力進行評價,首先對來自大量說話人的開發(fā)集語音數(shù)據(jù)集X進行分析,根據(jù)一定的準則將其劃分為K個子集S1,S2,...,SK,劃分到同一集合中的語音數(shù)據(jù)之間在某種程度上具有一定的相似性,再用每個基礎(chǔ)分類器對各個集合中的語音數(shù)據(jù)進行測試,統(tǒng)計相應(yīng)的得分輸出,最后將得分平均值作為確定分類器在各個集合上的測試結(jié)果置信度的依據(jù)。通過這種方式,可以獲得基礎(chǔ)分類器在各個集合上的分類能力,最終確定融合算法中每個基礎(chǔ)分類器在各個集合上的置信度向量w1,w2,...,wQ。每個置信度向量包含K個值,代表該分類器對某一集合上的分類置信度。
結(jié)合本文要解決的問題,動態(tài)多分類器融合過程可以概括為以下幾個步驟:
1)選定合適的開發(fā)集語料庫,設(shè)該語料庫包含N個不同的說話人,每個說話人有兩條語音數(shù)據(jù)。在開發(fā)集語料中,從每個說話人語音中取出一條組成訓練集X1,剩余的作為參照集X2。
2)根據(jù)聯(lián)合因子分析理論,提取開發(fā)集語料中所有語音的說話人因子,假設(shè)來自訓練集的說話人因子序列表示為
3)以Y1作為輸入,訓練出一個混合成分數(shù)目較小的高斯混合模型,表示為λ={wi,μi,Σi},i=1,...,K。其中參數(shù)wi、μi和Σi分別代表高斯混合模型中各個高斯成分的權(quán)重、均值和協(xié)方差。設(shè)說話人因子對GMM模型中第i個高斯成分的占有率為當時,將劃分到第k個子集Sk中去,通過這種方式,將訓練集中的所有說話人因子劃分到K個不同的集合中。
4)按照上一步驟中對說話人因子的劃分結(jié)果,將相應(yīng)的訓練語音也分成K個集合。
5)對于某一集合Sk,將其中的訓練語音及其對應(yīng)的來自于同一說話人的參照集中的語音數(shù)據(jù)投影到第q個隨機子空間中,分別得到訓練語音和參照語音的參考向量。
6)計算出訓練語音和參照語音參考向量之間的余弦距離,以此作為第q個NLDA分類器的測試得分輸出。
7)計算第q個NLDA分類器在集合Sk上的所有測試得分的平均值作為該分類器在集合Sk上的分類置信度。相應(yīng)的,該基礎(chǔ)分類器的局部分類置信度向量可以表示為
8)在多分類器融合階段,對于某一待測語音,首先按照聯(lián)合因子分析理論提取其相應(yīng)的說話人因子,然后再根據(jù)訓練過程中對開發(fā)集數(shù)據(jù)的劃分準則將待測語音數(shù)據(jù)劃分到某一集合Sk中去,最后以各個基礎(chǔ)分類器在集合Sk上的分類置信度值作為權(quán)重對所有基礎(chǔ)分類器的輸出進行線性融合。
基礎(chǔ)分類器局部分類置信度的確定過程中,假設(shè)某些說話人的個性特征之間具有一定的相似性,且這些具有相似性的說話人的語音特征在分布規(guī)律上也有一定的相似性,在特征空間中處于某一個局部區(qū)域中。本發(fā)明中,將不同長度的說話人語音特征向量序列通過聯(lián)合因子分析技術(shù)轉(zhuǎn)換成具有固定長度且去除了部分信道影響的JFA話者超向量。JFA話者超向量在高維特征空間中的分布情況反應(yīng)了不同說話人個性特征的分布。而本章中采用說話人因子的分布來近似模擬JFA話者超向量的分布情況,這是由于:
1)JFA話者超向量往往具有很高的維度,采用常用的統(tǒng)計數(shù)學模型很難對高維向量的分布規(guī)律進行準確建模。
2)為了保證不丟失大部分有用信息,將JFA話者超向量投影到非參數(shù)線性區(qū)分子空間后仍然具有較高的維度。
3)說話人因子相對于上一步驟中的投影后的JFA話者向量來說維度較低,且說話人因子的提取過程也是基于聯(lián)合因子分析算法的,所以也包含了必要的說話人個性信息,可以反映JFA話者超向量的分布。
從以上內(nèi)容可以看出,在本發(fā)明提出的多分類器融合方法中,根據(jù)待測語音數(shù)據(jù)在說話人因子空間中所處的區(qū)域來確定各個基礎(chǔ)分類器在得分融合過程中的權(quán)重。由于每條待測語音的說話人因子具有不同的分布情況,所以各個基礎(chǔ)分類器的權(quán)重是隨著待測語音的不同而動態(tài)變化的。值得說明的是,本發(fā)明的多分類器融合算法中,各個基礎(chǔ)分類器的融合權(quán)重可以在測試之前確定,這種方式大大提高了融合系統(tǒng)的實時性。
3、評測系統(tǒng)性能。
實驗數(shù)據(jù)取自NIST 2008說話人評測數(shù)據(jù)庫,其中訓練和測試語音仍選用核心評測任務(wù)中的男性電話訓練對電話測試部分作為評測數(shù)據(jù)集來衡量說話人確認系統(tǒng)的性能。UBM的訓練數(shù)據(jù)來自Switchboard II phase 2,Switchboard II phase 3,Switchboard Cellular Part 2以及NIST SRE 2004,2005,2006中的電話語音數(shù)據(jù),共有2048個高斯成分。
用以訓練非參數(shù)子空間區(qū)分分析投影矩陣的開發(fā)集數(shù)據(jù)均取自NIST SRE 2004、2005、2006數(shù)據(jù)庫中的電話語音,共包含563個說話人,每個說話人有8條語音數(shù)據(jù)。
聯(lián)合因子分析系統(tǒng)中UBM與以上所述相同,說話人空間載荷矩陣的秩為300,本征信道空間載荷矩陣的秩為100,殘差載荷矩陣由UBM模型中的各個高斯成分的對角協(xié)方差矩陣中的對角線元素拼接而成。
本發(fā)明中所采用的主成分分析、類內(nèi)協(xié)方差規(guī)整以及非參數(shù)線性區(qū)分分析投影矩陣的維度分別為:(51×k)×J,(E1+E2)×799,799×550。隨機子空間的數(shù)目即基礎(chǔ)分類器的數(shù)目Q設(shè)定為10。非參數(shù)線性區(qū)分分析中,近鄰樣本的數(shù)目設(shè)定為4。
經(jīng)過原始特征空間中的子空間采樣后,我們獲得了新的特征向量Sih。假設(shè)在第一層子空間采樣中,我們最終選取了排序后的JFA話者超向量中的前1280個高斯均值向量。但是該特征向量的維度相對于開發(fā)集中的訓練樣本來說仍然很高。所以為了訓練出穩(wěn)定可靠的子空間分類器,需要將新的特征向量進一步投影到低維的PCA子空間,這里設(shè)經(jīng)過PCA降維后的特征向量的維度是J。在進行隨機采樣之前,為了保證各個基礎(chǔ)子空間分類器的性能,首先將含有較多信息量的前E1個主元分量固定下來,隨機采樣算法僅應(yīng)用于剩下的J-E1個主元分量,從中隨機選取E2個主元分量構(gòu)成維度為E1+E2的隨機子空間。
在第二層采樣空間實驗中,J的值固定為1200或者1300,該值是通過交叉驗證確定的較優(yōu)值。E1+E2的值固定為800。對于每個組合(E1,E2),我們隨機創(chuàng)建了10個子空間,即10個基礎(chǔ)分類器。
第一組實驗考察了動態(tài)自適應(yīng)融合算法的性能隨著聚類數(shù)目K而變化的情況。由于聚類方法采用的是GMM算法,且訓練數(shù)據(jù)有限,故K的取值分別設(shè)置為8、16、及32。實驗結(jié)果列出與表1中。
表1動態(tài)自適應(yīng)融合方法實驗結(jié)果
表1中,當K為8,16,32時,動態(tài)自適應(yīng)融合結(jié)果對E1和E2所有組合條件下的EER與minDCF的均值分別為:4.02,2.20;3.89,2.14;4.02,2.20。由此可見當K的取值為12時,融合后的系統(tǒng)性能最佳。原因在于,當聚類數(shù)目K的值較小時,不能有效地將相似說話人的特征向量聚集在一起,基礎(chǔ)分類器的局部分類能力不能被有效地反映出來,造成其局部分類置信度的估計不夠準確;反之,當K的值相對于訓練數(shù)據(jù)的規(guī)模來說較大時,用于聚類的GMM模型的復(fù)雜度增加,模型參數(shù)在估計過程中容易出現(xiàn)過擬合現(xiàn)象,造成基礎(chǔ)分類器的局部分類置信度不能被有效估計。第一組實驗結(jié)果充分表明當K的值為16時,可以使得基礎(chǔ)分類器的局部分類置信度的估計更為準確。
第二組實驗則對比分析了本發(fā)明所提出的動態(tài)自適應(yīng)融合方法(DY)與線性融合算法(LR),以及經(jīng)典的應(yīng)用于說話人確認領(lǐng)域中基于Logistic回歸算法(LG)的融合效果,其中動態(tài)自適應(yīng)融合方法中聚類數(shù)目K=16。
表2不同融合方法的比較
表2中列出了E1和E2在不同組合情況下的三種融合算法的結(jié)果,對于每種組合構(gòu)建出10個基礎(chǔ)分類器。從中可以看出,對于每組實驗,本發(fā)明所提出的動態(tài)自適應(yīng)融合方法均能獲得最低的EER值,其次是基于Logistic回歸的融合算法,線性融合系統(tǒng)具有最高的EER,性能最差。在minDCF方面,動態(tài)自適應(yīng)融合算法在除第三組實驗以外的每組實驗中基本都能獲得最低的檢測代價。特別是在第五組實驗中,動態(tài)自適應(yīng)融合的EER為3.76,minDCF為2.08,系統(tǒng)性能達到最好,比基于Logistic回歸融合算法的最小EER值相對降低了3.7%,比線性融合相應(yīng)的最小EER值相對降低了6.6%。這充分表明本文提出的基于隨機子空間采樣的動態(tài)多分類器融合算法的有效性,而且該融合算法適用于任何子空間分類器,具有很好的推廣性。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當中。