說話人模板的壓縮、合并裝置和方法，以及說話人認(rèn)證的制作方法

文檔序號：2823539閱讀：230來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：說話人模板的壓縮、合并裝置和方法，以及說話人認(rèn)證的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理技術(shù)，具體地涉及說話人模板(speaker template)的壓縮、合并以及說話人認(rèn)證(speaker authentification)的技術(shù)。
背景技術(shù)：
利用每個人說話時的發(fā)音特點(diǎn)可以識別出不同的說話人，從而可以進(jìn)行說話人的認(rèn)證。在K.Yu，J.Mason，J.Oglesby發(fā)表的文章“Speakerrecognition using hidden Markov models，dynamic time warping andvector quantisation”(Vision，Image and Signal Processing，IEEProceedings，Vol.142，Oct.1995，pp.313-18)中介紹了常見的三種說話人識別引擎技術(shù)HMM，DTW和VQ。
通常，說話人認(rèn)證的過程包括注冊(enrollment)和驗證(evaluation)兩個階段。在注冊階段，根據(jù)說話人(用戶)本人朗讀的包含密碼的語音，生成該說話人的說話人模板；在驗證階段，根據(jù)說話人模板判斷測試語音是否為該說話人本人說出的相同密碼的語音。因此，說話人模板的質(zhì)量對于整個認(rèn)證過程非常重要。
已知為了提高說話人模板的質(zhì)量，可以采用多個訓(xùn)練語音來構(gòu)建一個說話人模板。首先選定一個訓(xùn)練語音作為初始模板，然后用DTW的方法將第二個訓(xùn)練語音與之時間對齊，并用兩段語音中相對應(yīng)的特征向量的平均來生成一個新的模板，然后再將第三個訓(xùn)練語音與新模板時間對齊，如此循環(huán)直到所有的訓(xùn)練語音都結(jié)合到一個獨(dú)立的模板中，即所謂的模板合并。詳細(xì)內(nèi)容可以參考W.H.Abdulla、D.Chow和G.Sin發(fā)表的文章“Cross-words reference template for DTW-based speech recognitionsystems”(IEEE TENCON 2003，pp.1576-1579)。
另一方面，如果需要進(jìn)行模板壓縮以節(jié)約存儲空間，通常會對模板中的特征向量序列進(jìn)行簡單的降采樣。詳細(xì)內(nèi)容可以參考X.Wen和R.Liu發(fā)表的文章“Enhancing the stability of speaker verification withcompressed templates”(ISCSLP 2002，pp.111-114)。但是，采用這種方式壓縮模板時會對模板的質(zhì)量產(chǎn)生影響，并最終導(dǎo)致驗證錯誤的增加。
進(jìn)而，當(dāng)僅有少量的訓(xùn)練語音時，往往所有的模板共用一個先驗閾值。這樣，由于閾值的針對性差，也會導(dǎo)致驗證錯誤率提高的問題。

發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題，本發(fā)明提供了說話人模板的壓縮方法和裝置、將多個說話人模板合并的方法和裝置、說話人認(rèn)證的注冊方法和裝置、說話人認(rèn)證的驗證方法和裝置、以及說話人認(rèn)證系統(tǒng)。
根據(jù)本發(fā)明的一個方面，提供了一種說話人模板的壓縮方法，其中，該說話人模板包含多個特征向量，該方法包括根據(jù)一個碼本，為說話人模板中的每個上述特征向量指定一個碼字，其中上述碼本包含多個碼字以及每個碼字對應(yīng)的特征向量；以及將上述說話人模板中相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替。
進(jìn)而，還可以將壓縮后的上述說話人模板中的特征向量對應(yīng)的碼字序列保存為背景模板。
根據(jù)本發(fā)明的另一個方面，提供了一種將多個說話人模板合并的方法，包括利用前面所述的說話人模板的壓縮方法，分別對上述多個說話人模板進(jìn)行壓縮；以及對上述壓縮后的多個說話人模板進(jìn)行DTW合并。
根據(jù)本發(fā)明的另一個方面，提供了一種將多個說話人模板合并的方法，包括對上述多個說話人模板進(jìn)行DTW合并，形成一個單獨(dú)模板；以及利用前面所述的說話人模板的壓縮方法，對上述合并后的說話人模板進(jìn)行壓縮。
根據(jù)本發(fā)明的另一個方面，提供了一種將多個說話人模板合并的方法，包括利用前面所述的說話人模板的壓縮方法，對上述多個說話人模板中的至少一個說話人模板進(jìn)行壓縮；以及將上述壓縮后的至少一個說話人模板與其它的說話人模板DTW合并。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證的注冊方法，包括根據(jù)說話人輸入的多個語音生成多個說話人模板；以及利用前面所述的將多個說話人模板合并的方法，將上述生成的多個說話人模板合并。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證的驗證方法，包括輸入語音；以及根據(jù)說話人模板，判斷該輸入的語音是否為說話人本人說出的注冊密碼語音，其中，上述說話人模板是利用前面所述的說話人模板的壓縮方法生成的。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證的驗證方法，包括輸入語音；以及根據(jù)說話人模板和背景模板，判斷該輸入的語音是否為說話人本人說出的注冊密碼語音，其中，上述說話人模板和背景模板是利用前面所述的說話人模板的壓縮方法生成的。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人模板的壓縮裝置，其中，該說話人模板包含多個特征向量，包括碼字指定單元(code designatingunit)，其根據(jù)一個碼本為說話人模板中的每個上述特征向量指定一個碼字，其中上述碼本包含多個碼字以及每個碼字對應(yīng)的特征向量；以及向量合并單元(vector merging unit)，其將上述說話人模板中相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替。
根據(jù)本發(fā)明的另一個方面，提供了一種將多個說話人模板合并的裝置，包括前面所述的說話人模板的壓縮裝置；以及DTW合并裝置(DTWmerging unit)，用于對兩個說話人模板進(jìn)行DTW合并。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證的注冊裝置，包括模板生成裝置(template generator)，用于根據(jù)說話人輸入的語音生成說話人模板；以及前面所述的將多個說話人模板合并的裝置，將由上述模板生成裝置生成的多個說話人模板合并。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證的驗證裝置，包括語音輸入單元(utterance input unit)，用于輸入語音；聲學(xué)特征提取單元(acoustic feature extractor)，用于從上述輸入的語音提取聲學(xué)特征；以及匹配得分計算單元(matching score calculator)，用于計算上述提取出的聲學(xué)特征與相應(yīng)的說話人模板的DTW匹配得分，其中，上述說話人模板是利用前面所述的說話人模板的壓縮方法生成的；其中，通過比較上述計算出的DTW匹配得分和預(yù)先設(shè)定的分辨閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證的驗證裝置，包括語音輸入單元(utterance input unit)，用于輸入語音；聲學(xué)特征提取單元(acoustic feature extractor)，用于從上述輸入的語音提取聲學(xué)特征；匹配得分計算單元(matching score calculator)，計算上述提取出的聲學(xué)特征與說話人模板的DTW匹配得分，以及計算上述提取出的聲學(xué)特征與背景模板的DTW匹配得分，其中上述說話人模板和背景模板是利用前面所述的說話人模板的壓縮方法生成的；以及歸一化單元(normalizing unit)，其利用上述提取出的聲學(xué)特征與上述背景模板的DTW匹配得分，對上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分進(jìn)行歸一化；其中，比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證的驗證裝置，包括語音輸入單元(utterance input unit)，用于輸入語音；聲學(xué)特征提取單元(acoustic feature extractor)，用于從上述輸入的語音提取聲學(xué)特征；匹配得分計算單元(matching score calculator)，用于計算上述提取出的聲學(xué)特征與說話人模板的DTW匹配得分，以及計算上述說話人模板與背景模板的DTW匹配得分；其中上述說話人模板和背景模板是利用前面所述的說話人模板的壓縮方法生成的；以及歸一化單元(normalizing unit)，其利用上述說話人模板與上述背景模板的DTW匹配得分，對上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分進(jìn)行歸一化；其中，比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
根據(jù)本發(fā)明的另一個方面，提供了一種說話人認(rèn)證系統(tǒng)，包括前面所述的說話人認(rèn)證的注冊裝置；以及前面所述的說話人認(rèn)證的驗證裝置。

相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明，能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明一個實施例的說話人模板的壓縮方法的流程圖；圖2是根據(jù)本發(fā)明另一個實施例的說話人模板的壓縮方法的流程圖；圖3A～3C是根據(jù)本發(fā)明的三個實施例的將多個說話人模板合并的方法的流程圖；圖4是根據(jù)本發(fā)明的一個實施例的說話人認(rèn)證的驗證方法的流程圖；圖5是根據(jù)本發(fā)明的另一個實施例的說話人認(rèn)證的驗證方法的流程圖；圖6是根據(jù)本發(fā)明的再另一個實施例的說話人認(rèn)證的驗證方法的流程圖；圖7是根據(jù)本發(fā)明一個實施例的說話人模板的壓縮裝置的方框圖；圖8是根據(jù)本發(fā)明一個實施例的將多個說話人模板合并的裝置的方框圖；圖9是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的注冊裝置的方框圖；圖10是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證裝置的方框圖；圖11是根據(jù)本發(fā)明另一個實施例的說話人認(rèn)證的驗證裝置的方框圖；以及圖12是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證系統(tǒng)的方框圖。
具體實施例方式
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進(jìn)行詳細(xì)的說明。
圖1是根據(jù)本發(fā)明一個實施例的說話人模板的壓縮方法的流程圖。如圖1所示，首先在步驟101，在碼本中為需要壓縮的說話人模板中的每個特征向量查找與之最接近的特征向量。在本實施例中使用的碼本是在整個應(yīng)用的聲學(xué)空間中訓(xùn)練出的碼本，例如，對于中文語言應(yīng)用環(huán)境來說，該碼本需要能夠涵蓋中文語音的聲學(xué)空間；對于英文語言應(yīng)用環(huán)境來說，該碼本則需要能夠涵蓋英文語音的聲學(xué)空間。當(dāng)然，對于一些特殊用途的應(yīng)用環(huán)境，也可以相應(yīng)的改變碼本所涵蓋的聲學(xué)空間。
本實施例的碼本包含多個碼字以及每個碼字對應(yīng)的特征向量。碼字的數(shù)量取決于聲學(xué)空間的大小、希望的壓縮比例和希望的壓縮質(zhì)量。聲學(xué)空間越大需要的碼字的數(shù)量越大。在同樣的聲學(xué)空間的條件下，碼字的數(shù)量越小，壓縮比例越高；碼字的數(shù)量越大，壓縮的模板質(zhì)量越高。根據(jù)本發(fā)明的一個優(yōu)選實施例，在普通中文語音的聲學(xué)空間下，碼字的數(shù)量優(yōu)選為256至512。當(dāng)然，根據(jù)不同需要，可以適當(dāng)調(diào)節(jié)碼本的碼字?jǐn)?shù)量和涵蓋的聲學(xué)空間。
在本步驟中，可以通過計算說話人模板中的特征向量和碼本中每個特征向量的距離(例如，歐氏距離)，來找出最接近的特征向量。
接著，在步驟105，將碼本中與該最接近的特征向量對應(yīng)的碼字指定給說話人模板中對應(yīng)的特征向量。
然后，將說話人模板中相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替。具體地，根據(jù)本實施例，首先，計算上述相鄰且碼字相同的一組特征向量的平均向量，然后，用計算的平均向量代替上述相鄰且碼字相同的一組特征向量。
如果在說話人模板中存在有多組這樣的相鄰且碼字相同的多個特征向量，則可以按照上述方式逐一地進(jìn)行替換。這樣，逐一地將多個特征向量替換為一個特征向量，說話人模板中的特征向量的數(shù)量就減少了，模板也就被壓縮了。
通過以上描述可知，如果采用本實施例的說話人模板的壓縮方法，可以對說話人模板進(jìn)行壓縮，在本優(yōu)選實施例的情況下可以將說話人模板壓縮到原長度的約三分之一，大大節(jié)省了系統(tǒng)所需的存儲空間。并且，由于不是采用單純的降采樣，而是將接近的連續(xù)特征向量(相鄰且碼字相同的多個特征向量)用它們的平均代替，系統(tǒng)的性能還得到了提高。
在此需要指出，在本優(yōu)選實施例中雖然采用MFCC(Mel FrequencyCepstrum Coefficient，Mel頻率倒譜系數(shù))的方式來表示語音的聲學(xué)特征。但是，本發(fā)明對此并沒有特別的限制，也可以采用已知的和未來的其它方式來表示語音的聲學(xué)特征，例如，LPCC(Linear Predictive CepstrumCoefficient，線性預(yù)測倒譜系數(shù))或者其它基于能量、基音頻率或小波分析等得到的各種系數(shù)等，只要是能夠表現(xiàn)說話人的個人語音特點(diǎn)即可。
另外，根據(jù)本實施例的一個變形例，不是將接近的連續(xù)特征向量(相鄰且碼字相同的多個特征向量)用它們的平均代替，而是，從相鄰且碼字相同的一組特征向量中隨機(jī)選擇一個代表向量，用這個代表向量代替這些相鄰且碼字相同的多個特征向量。
可替代地，也可以從相鄰且碼字相同的多個特征向量中選擇與碼本中該碼字對應(yīng)的特征向量最接近的特征向量作為代表向量，用這個代表向量代替這些相鄰且碼字相同的多個特征向量。
另外，可替代地，也可以用碼本中與該碼字對應(yīng)的特征向量代替這些相鄰且碼字相同的多個特征向量。
另外，可替代地，也可以計算相鄰且被指定的碼字相同的多個特征向量的每一個和上述碼本中與該碼字對應(yīng)的特征向量的距離；然后，從這些相鄰且碼字相同的多個特征向量中除去一個或多個距離最遠(yuǎn)的特征向量，計算剩余的特征向量的平均向量；最后用計算出的平均向量代替上述相鄰且碼字相同的多個特征向量。
圖2是根據(jù)本發(fā)明另一個實施例的說話人模板的壓縮方法的流程圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖2所示，本實施例的說話人模板的壓縮方法的步驟101至110與圖1所示的實施例相同，在此不再重復(fù)。
在用一個特征向量代替模板中相鄰且碼字相同的多個特征向量(步驟110)之后，在步驟215，將壓縮后的說話人模板中的特征向量對應(yīng)的碼字序列保存為背景模板。具體地，經(jīng)過前面步驟101至110將說話人模板壓縮之后，模板中包含有相對于原始模板數(shù)量減少了的特征向量，這些特征向量構(gòu)成了一個特征向量序列，并且，每個特征向量都被指定了一個碼字，于是，這個特征向量序列也就對應(yīng)了一個碼字序列。在本步驟中，就是將這個碼字序列保存作為背景模板。
這樣，本實施例的說話人模板的壓縮方法不僅可以生成一個壓縮了的說話人模板，而且還生成了一個背景模板。這個背景模板將被后面描述的說話人認(rèn)證的驗證方法和裝置用來對匹配得分進(jìn)行歸一化，從而提高驗證的準(zhǔn)確性。
在同一發(fā)明構(gòu)思下，圖3A～3C是根據(jù)本發(fā)明的三個實施例的將多個說話人模板合并的方法的流程圖。下面就結(jié)合圖3，對這些實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖3A所示，該實施例的將多個說話人模板合并的方法，首先在步驟3101，利用前面所述實施例的說話人模板的壓縮方法，分別對要合并的多個說話人模板進(jìn)行壓縮。
然后，在步驟3105，逐一地對壓縮后的多個說話人模板進(jìn)行DTW合并。具體地，可以采用現(xiàn)有的模板合并方法，如前面引用的W.H.Abdulla、D.Chow和G.Sin發(fā)表的文章“Cross-words reference template forDTW-based speech recognition systems”(IEEE TENCON 2003，pp.1576-1579)中所描述的那樣，首先選定一個模板作為初始模板，然后用DTW的方法將第二個模板與之時間對齊，并用兩個模板中相對應(yīng)的特征向量的平均來生成一個新的模板，然后再將第三個模板與新模板時間對齊，如此循環(huán)直到所有的訓(xùn)練語音都結(jié)合到一個單獨(dú)的模板中。在本申請中，將這種模板合并方法稱為DTW合并。
通過上面描述可知，如果采用本實施例的將多個說話人模板合并的方法，由于每一個說話人模板在DTW合并之前已經(jīng)用前面實施例的模板壓縮方法進(jìn)行了壓縮，因此，合并后的說話人模板的長度大大減小，從而可以節(jié)省存儲空間。
如圖3B所示，該實施例的將多個說話人模板合并的方法，首先在步驟3201，逐一地對多個說話人模板進(jìn)行DTW合并，形成一個單獨(dú)的模板。
然后，在步驟3205，利用前面所述實施例的說話人模板的壓縮方法，對DTW合并后的單獨(dú)說話人模板進(jìn)行壓縮。
如果采用本實施例的將多個說話人模板合并的方法，由于在DTW合并后，又用前面實施例的模板壓縮方法對說話人模板進(jìn)行了壓縮，因此，合并后的說話人模板的長度大大減小，從而可以節(jié)省存儲空間。
如圖3C所示，該實施例的將多個說話人模板合并的方法，首先在步驟3301，利用前面所述實施例的說話人模板的壓縮方法，對要合并的多個說話人模板中的一個模板進(jìn)行壓縮。
然后，在步驟3305，逐一地將壓縮后的說話人模板與剩下的模板進(jìn)行DTW合并。在此需要指出，在步驟3305的DTW合并過程中，需要以壓縮后的說話人模板為基準(zhǔn)模板。因為，DTW合并后的模板中的特征向量的數(shù)量是以基準(zhǔn)模板為準(zhǔn)的，也就是說，在兩個模板DTW對齊之后，以基準(zhǔn)模板的每個特征向量為單位進(jìn)行平均和合并。因此，如果以未壓縮的模板為基準(zhǔn)模板進(jìn)行DTW合并，那么最后就取得不了減少特征向量的數(shù)量的效果。
通過上面描述可知，如果采用本實施例的將多個說話人模板合并的方法，同樣可以減小說話人模板的長度，從而可以節(jié)省存儲空間。
另外，在步驟3301中，也可以利用上書壓縮方法，將要合并的多個模板中的一個以上的模板壓縮。
在同一發(fā)明構(gòu)思下，根據(jù)本發(fā)明的一個實施例，還提供了一種說話人認(rèn)證的注冊方法。本實施例的說話人認(rèn)證的注冊方法，首先，根據(jù)說話人輸入的多個語音生成多個說話人模板。具體地，可以采用以往的生成模板方式，例如，采樣提取語音中的聲學(xué)特征，根據(jù)提取出的聲學(xué)特征形成說話人模板。關(guān)于聲學(xué)特征和模板內(nèi)容，前面已經(jīng)進(jìn)行了說明，在此不再重復(fù)。
接著，利用前面所述實施例的將多個說話人模板合并的方法，將生成的多個說話人模板合并。
這樣，如果采用本實施例的說話人認(rèn)證的注冊方法，與以往的方法相比，可以減小生成的說話人模板的長度，從而可以節(jié)省存儲空間。并且，由于不是采用單純的降采樣的方式，所以不會過多地影響說話人模板的質(zhì)量。
在同一發(fā)明構(gòu)思下，圖4是根據(jù)本發(fā)明的一個實施例的說話人認(rèn)證的驗證方法的流程圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖4所示，首先在步驟401，輸入測試語音。接著，在步驟405，從上述輸入的測試語音提取聲學(xué)特征。與前面描述的實施例相同，本發(fā)明對于聲學(xué)特征并沒有特別的限制，可以采用例如，MFCC、LPCC或者其它基于能量、基音頻率或小波分析等得到的各種系數(shù)等，只要是能夠表現(xiàn)說話人的個人語音特點(diǎn)即可；但是，應(yīng)當(dāng)與用戶注冊時生成的說話人模板中采用的方式相對應(yīng)。
接著，在步驟410，計算提取出的聲學(xué)特征與說話人模板中包含的聲學(xué)特征的DTW匹配距離。在此，本實施例中的說話人模板是利用前面實施例的說話人模板的壓縮方法生成的說話人模板。
然后，在步驟415，判斷上述DTW匹配距離是否小于預(yù)先設(shè)定的分辨閾值。如果是，則在步驟420認(rèn)定是同一說話人說出的相同的密碼，驗證成功；如果否，則在步驟425認(rèn)定驗證失敗。
通過以上描述可知，如果采用本實施例的說話人認(rèn)證的驗證方法，可以利用前面實施例的說話人模板的壓縮方法生成的說話人模板，對用戶進(jìn)行語音驗證。由于說話人模板的數(shù)據(jù)量大大減小，因此，驗證時可以大大減少運(yùn)算量和存儲空間，可以適用于處理能力和存儲能力有限的終端設(shè)備。
圖5是根據(jù)本發(fā)明的另一個實施例的說話人認(rèn)證的驗證方法的流程圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
本實施例與圖4所示的實施例的區(qū)別在于，本實施例不僅使用了由前面實施例的說話人模板的壓縮方法生成的說話人模板，而且使用了由前面實施例的說話人模板的壓縮方法生成的背景模板來對判決進(jìn)行歸一化。
如圖5所示，在步驟401至410，本實施例與前面圖4所示的實施例基本相同。接著，在步驟515，計算從測試語音中提取出的聲學(xué)特征與背景模板的DTW匹配得分。具體地，如前面實施例所述，背景模板包含與壓縮后的說話人模板中的特征向量對應(yīng)的碼字序列。在本步驟中，根據(jù)碼本中與上述碼字序列中每個碼字對應(yīng)的特征向量，將背景模板中的碼字序列轉(zhuǎn)換為特征向量序列；然后，計算由背景模板轉(zhuǎn)換的特征向量序列與從測試語音中提取出的聲學(xué)特征的DTW匹配得分。
接著，在步驟520，利用測試語音的聲學(xué)特征與上述背景模板的DTW匹配得分，對測試語音的聲學(xué)特征與說話人模板的DTW匹配得分進(jìn)行歸一化。即，測試語音的聲學(xué)特征與說話人模板的DTW匹配得分減去測試語音的聲學(xué)特征與上述背景模板的DTW匹配得分。
接著，在步驟525，比較上述歸一化后的DTW匹配得分和一個閾值，來判斷測試語音是否為說話人本人說出的注冊密碼語音。
如果歸一化后的DTW匹配得分小于閾值，則在步驟530，認(rèn)定是同一說話人說出的相同的密碼，驗證成功；如果否，則在步驟535認(rèn)定驗證失敗。
通過以上描述可知，如果采用本實施例的說話人認(rèn)證的驗證方法，可以利用前面實施例的說話人模板的壓縮方法生成的說話人模板，對用戶進(jìn)行語音驗證。由于說話人模板的數(shù)據(jù)量大大減小，因此，驗證時可以大大減少運(yùn)算量和存儲空間，可以適用于處理能力和存儲能力有限的終端設(shè)備。進(jìn)而，本實施例也為基于模板匹配的說話人驗證系統(tǒng)提供了匹配得分的歸一化方法。這樣相當(dāng)于為每一個模板設(shè)置了不同的最優(yōu)閾值，使得系統(tǒng)性能大大提高。也就是說，即使采用統(tǒng)一的閾值，也可以根據(jù)不同的說話人模板和背景模板進(jìn)行適當(dāng)?shù)呐袛唷?br> 圖6是根據(jù)本發(fā)明的另一個實施例的說話人認(rèn)證的驗證方法的流程圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
本實施例與圖5所示的實施例類似，不僅使用了利用前面實施例的說話人模板的壓縮方法生成的說話人模板，而且使用了前面實施例的說話人模板的壓縮方法生成的背景模板來對判決進(jìn)行歸一化。
如圖6所示，在步驟401至410，本實施例與前面圖4和圖5所示的實施例基本相同。接著，在步驟615，計算背景模板與說話人模板的DTW匹配得分。具體地，如前面實施例所述，背景模板包含與壓縮后的說話人模板中的特征向量對應(yīng)的碼字序列。在本步驟中，根據(jù)碼本中與上述碼字序列中每個碼字對應(yīng)的特征向量，將背景模板中的碼字序列轉(zhuǎn)換為特征向量序列；然后，計算由背景模板轉(zhuǎn)換的特征向量序列與說話人模板中的聲學(xué)特征的DTW匹配得分。
接著，在步驟620，利用背景模板與說話人模板的DTW匹配得分，對測試語音的聲學(xué)特征與說話人模板的DTW匹配得分進(jìn)行歸一化。即，測試語音的聲學(xué)特征與說話人模板的DTW匹配得分減去背景模板與說話人模板的DTW匹配得分。
接著，在步驟625，比較上述歸一化后的DTW匹配得分和一個閾值，來判斷測試語音是否為說話人本人說出的注冊密碼語音。
如果歸一化后的DTW匹配得分小于閾值，則在步驟630，認(rèn)定是同一說話人說出的相同的密碼，驗證成功；如果否，則在步驟635認(rèn)定驗證失敗。
通過以上描述可知，如果采用本實施例的說話人認(rèn)證的驗證方法，可以利用前面實施例的說話人模板的壓縮方法生成的說話人模板，對用戶進(jìn)行語音驗證。由于說話人模板的數(shù)據(jù)量大大減小，因此，驗證時可以大大減少運(yùn)算量和存儲空間，可以適用于處理能力和存儲能力有限的終端設(shè)備。進(jìn)而，本實施例也為基于模板匹配的說話人驗證系統(tǒng)提供了匹配得分的歸一化方法。這樣相當(dāng)于為每一個模板設(shè)置了不同的最優(yōu)閾值，使得系統(tǒng)性能大大提高。也就是說，即使采用統(tǒng)一的閾值，也可以根據(jù)不同的說話人模板和背景模板進(jìn)行適當(dāng)?shù)呐袛唷?br> 在同一發(fā)明構(gòu)思下，圖7是根據(jù)本發(fā)明一個實施例的說話人模板的壓縮裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖7所示，本實施例的說話人模板的壓縮裝置700包括碼字指定單元(code designating unit)701，其根據(jù)碼本為說話人模板中的每個特征向量指定一個碼字，關(guān)于碼本和說話人模板的內(nèi)容，前面已經(jīng)進(jìn)行了描述在此不再重復(fù)；向量合并單元(vector merging unit)705，其將說話人模板中相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替。
進(jìn)而，說話人模板的壓縮裝置700還包括向量距離計算單元(vectordistance calculator)703，用于計算兩個向量之間的距離；和碼字查找單元(code search unit)704，其利用向量距離計算單元703，在碼本中查找與一個給定的特征向量最接近的特征向量及其對應(yīng)的碼字。這樣，碼字指定單元701可以利用碼字查找單元704，為說話人模板中的每個特征向量在碼本中找到一個最接近的特征向量，并將其對應(yīng)的碼字指定給模板中的該特征向量。
如圖7所示，說話人模板的壓縮裝置700還包括平均向量計算單元(average vector calculator)706，用于計算多個特征向量的平均向量。這樣，向量合并單元705就可以用平均向量計算單元706計算相鄰且碼字相同的多個特征向量的平均向量，來代替上述相鄰且碼字相同的多個特征向量。
另外，根據(jù)本實施例的一個變形例，上述向量合并單元705也可以用平均向量計算單元706計算相鄰且被指定的碼字相同的多個特征向量中除去至少一個距離最遠(yuǎn)的特征向量剩余的特征向量的平均向量，來代替上述相鄰且碼字相同的多個特征向量。
可替代地，上述向量合并單元705也可以從相鄰且碼字相同的多個特征向量中隨機(jī)選擇一個代表向量來代替上述相鄰且碼字相同的多個特征向量。
可替代地，上述向量合并單元705也可以從相鄰且碼字相同的多個特征向量中選擇與碼本中該碼字對應(yīng)的特征向量最接近的特征向量來代替上述相鄰且碼字相同的多個特征向量。
可替代地，上述向量合并單元705也可以用碼本中與該碼字對應(yīng)的特征向量代替上述相鄰且碼字相同的多個特征向量。
另外，根據(jù)本實施例的一個變形例，說話人模板的壓縮裝置700還可以包括背景模板生成單元(background template generator)，其將壓縮后的說話人模板中的特征向量對應(yīng)的碼字序列保存為背景模板。
本實施例的說話人模板的壓縮裝置700及其各個組成部分，可以由專用的電路或芯片構(gòu)成，也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且，本實施例的說話人模板的壓縮裝置700，操作上可以實現(xiàn)前面實施例的說話人模板的壓縮方法。
在同一發(fā)明構(gòu)思下，圖8是根據(jù)本發(fā)明一個實施例的將多個說話人模板合并的裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖8所示，本實施例的將多個說話人模板合并的裝置800，包括說話人模板的壓縮裝置700，其可以是前面結(jié)合圖7描述的實施例的說話人模板的壓縮裝置；以及DTW合并裝置(DTW merging unit)801，用于對兩個說話人模板進(jìn)行DTW合并，如前面所述，可以采用現(xiàn)有的DTW合并方法，將兩個說話人模板合并。
本實施例的將多個說話人模板合并的裝置800及其各個組成部分，可以由專用的電路或芯片構(gòu)成，也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且，本實施例的將多個說話人模板合并的裝置800，操作上可以實現(xiàn)前面結(jié)合圖3A～3C描述的實施例的將多個說話人模板合并的方法。
在同一發(fā)明構(gòu)思下，圖9是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的注冊裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖9所示，本實施例的說話人認(rèn)證的注冊裝置900，包括模板生成裝置(template generator)901，用于根據(jù)說話人輸入的語音生成說話人模板，如前面所述，可以采用以往的生成模板方式，例如，采樣提取語音中的聲學(xué)特征，根據(jù)提取出的聲學(xué)特征形成說話人模板；以及說話人模板合并裝置800，其可以是前面結(jié)合圖7描述的實施例的將多個說話人模板合并的裝置，用于將由模板生成裝置901生成的多個說話人模板合并。
本實施例的說話人認(rèn)證的注冊裝置900及其各個組成部分，可以由專用的電路或芯片構(gòu)成，也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且，本實施例的說話人認(rèn)證的注冊裝置900，操作上可以實現(xiàn)前面實施例的說話人認(rèn)證的注冊方法。
在同一發(fā)明構(gòu)思下，圖10是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證的驗證裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖10所示，本實施例的說話人認(rèn)證的驗證裝置1000，包括語音輸入單元(utterance input unit)1001，用于輸入語音；聲學(xué)特征提取單元(acoustic feature extractor)1002，用于從上述輸入的語音提取聲學(xué)特征；匹配得分計算單元(matching score calculator)1003，用于計算由聲學(xué)特征提取單元1002提取出的聲學(xué)特征與說話人模板1004的DTW匹配得分，其中，說話人模板1004是前面所述實施例的說話人模板的壓縮方法生成的。本實施例的說話人認(rèn)證的驗證裝置1000通過比較上述計算出的DTW匹配得分和預(yù)先設(shè)定的分辨閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
本實施例的說話人認(rèn)證的驗證裝置1000及其各個組成部分，可以由專用的電路或芯片構(gòu)成，也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且，本實施例的說話人認(rèn)證的驗證裝置1000，操作上可以實現(xiàn)前面結(jié)合圖4說明的實施例的說話人認(rèn)證的驗證方法。
圖11是根據(jù)本發(fā)明的另一個實施例的說話人認(rèn)證的驗證裝置的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖11所示，與前面實施例相同，本實施例的說話人認(rèn)證的驗證裝置1100包括語音輸入單元1001和聲學(xué)特征提取單元1002。與前面實施例的不同之處在于，本實施例除了使用前面實施例的說話人模板的壓縮方法生成的說話人模板1004以外，還使用前面所述實施例的說話人模板的壓縮方法生成的背景模板1103。
本實施例的說話人認(rèn)證的驗證裝置1100還包括匹配得分計算單元(matching score calculator)1101，計算由聲學(xué)特征提取單元1002提取出的聲學(xué)特征與說話人模板1004的DTW匹配得分，并且計算由聲學(xué)特征提取單元1002提取出的聲學(xué)特征與背景模板1103的DTW匹配得分；以及歸一化單元(normalizing unit)1102，其利用提取出的聲學(xué)特征與背景模板的DTW匹配得分，對提取出的聲學(xué)特征與說話人模板的DTW匹配得分進(jìn)行歸一化。這樣，本實施例的說話人認(rèn)證的驗證裝置1100就可以比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
可替代地，根據(jù)本實施例的一個變形例，匹配得分計算單元(matchingscore calculator)1101，也可以計算由聲學(xué)特征提取單元1002提取出的聲學(xué)特征與說話人模板1004的DTW匹配得分，并且計算說話人模板1004與背景模板1103的DTW匹配得分。歸一化單元(normalizing unit)1102，則利用說話人模板1004與背景模板1103的DTW匹配得分，對提取出的聲學(xué)特征與說話人模板1004的DTW匹配得分進(jìn)行歸一化。這樣，本變形例的說話人認(rèn)證的驗證裝置1100也可以比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
本實施例的說話人認(rèn)證的驗證裝置1100及其各個組成部分，可以由專用的電路或芯片構(gòu)成，也可以通過計算機(jī)(處理器)執(zhí)行相應(yīng)的程序來實現(xiàn)。并且，本實施例的說話人認(rèn)證的驗證裝置1100，操作上可以實現(xiàn)前面結(jié)合圖5和圖6說明的實施例的說話人認(rèn)證的驗證方法。
在同一發(fā)明構(gòu)思下，圖12是根據(jù)本發(fā)明一個實施例的說話人認(rèn)證系統(tǒng)的方框圖。下面就結(jié)合該圖，對本實施例進(jìn)行描述。對于那些與前面實施例相同的部分，適當(dāng)省略其說明。
如圖12所示，本實施例的說話人認(rèn)證系統(tǒng)包括注冊裝置900，其可以為前面實施例描述的說話人認(rèn)證的注冊裝置；以及驗證裝置1100，其可以為前面實施例描述的說話人認(rèn)證的驗證裝置。由注冊裝置900生成的說話人模板，通過任意的通信方式，例如，網(wǎng)絡(luò)、內(nèi)部信道、磁盤等記錄媒體等，傳遞給驗證裝置1100。
這樣，如果采用本實施例的說話人認(rèn)證系統(tǒng)，由于說話人模板的數(shù)據(jù)量大大減小，因此，驗證時可以大大減少運(yùn)算量和存儲空間。進(jìn)而，如果在驗證裝置1100中使用背景模板進(jìn)行歸一化，還可以進(jìn)一步提高系統(tǒng)性能以上雖然通過一些示例性的實施例對本發(fā)明的說話人模板的壓縮方法和裝置、將多個說話人模板合并的方法和裝置、說話人認(rèn)證的注冊方法和裝置、說話人認(rèn)證的驗證方法和裝置、以及說話人認(rèn)證系統(tǒng)。進(jìn)行了詳細(xì)的描述，但是以上這些實施例并不是窮舉的，本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此，本發(fā)明并不限于這些實施例，本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種說話人模板的壓縮方法，其中，該說話人模板包含多個特征向量，該方法包括根據(jù)一個碼本，為說話人模板中的每個上述特征向量指定一個碼字，其中上述碼本包含多個碼字以及每個碼字對應(yīng)的特征向量；以及將上述說話人模板中相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替。
2.根據(jù)權(quán)利要求1所述的說話人模板的壓縮方法，其中，上述為每個上述特征向量指定一個碼字的步驟包括為說話人模板中的每個上述特征向量查找碼本中與之最接近的特征向量；以及將上述最接近的特征向量對應(yīng)的碼字指定給上述說話人模板中的該特征向量。
3.根據(jù)權(quán)利要求1-2的任意一項所述的說話人模板的壓縮方法，其中，上述將相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替的步驟包括計算上述相鄰且碼字相同的多個特征向量的平均向量；以及用上述計算的平均向量代替上述相鄰且碼字相同的多個特征向量。
4.根據(jù)權(quán)利要求1-2的任意一項所述的說話人模板的壓縮方法，其中，上述將相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替的步驟包括從上述相鄰且碼字相同的多個特征向量中隨機(jī)選擇一個代表向量；以及用上述代表向量代替上述相鄰且碼字相同的多個特征向量。
5.根據(jù)權(quán)利要求1-2的任意一項所述的說話人模板的壓縮方法，其中，上述將相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替的步驟包括從上述相鄰且碼字相同的多個特征向量中選擇與碼本中該碼字對應(yīng)的特征向量最接近的特征向量作為代表向量；以及用上述代表向量代替上述相鄰且碼字相同的多個特征向量。
6.根據(jù)權(quán)利要求1-2的任意一項所述的說話人模板的壓縮方法，其中，上述將相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替的步驟包括用上述碼本中與該碼字對應(yīng)的特征向量代替上述相鄰且碼字相同的多個特征向量。
7.根據(jù)權(quán)利要求1-2的任意一項所述的說話人模板的壓縮方法，其中，上述將相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替的步驟包括計算上述相鄰且被指定的碼字相同的多個特征向量的每一個和上述碼本中與該碼字對應(yīng)的特征向量的距離；計算上述相鄰且碼字相同的多個特征向量中除去至少一個上述計算出的距離最遠(yuǎn)的特征向量剩余的特征向量的平均向量；以及用上述計算的平均向量代替上述相鄰且碼字相同的多個特征向量。
8.根據(jù)前面任意一項權(quán)利要求所述的說話人模板的壓縮方法，進(jìn)一步包括將壓縮后的上述說話人模板中的特征向量對應(yīng)的碼字序列保存為背景模板。
9.一種將多個說話人模板合并的方法，包括利用權(quán)利要求1～8任意一項所述的說話人模板的壓縮方法，分別對上述多個說話人模板進(jìn)行壓縮；以及對上述壓縮后的多個說話人模板進(jìn)行DTW合并。
10.一種將多個說話人模板合并的方法，包括對上述多個說話人模板進(jìn)行DTW合并，形成一個單獨(dú)模板；以及利用權(quán)利要求1～8任意一項所述的說話人模板的壓縮方法，對上述合并后的說話人模板進(jìn)行壓縮。
11.一種將多個說話人模板合并的方法，包括利用權(quán)利要求1～8任意一項所述的說話人模板的壓縮方法，對上述多個說話人模板中的至少一個說話人模板進(jìn)行壓縮；以及將上述壓縮后的至少一個說話人模板與其它的說話人模板DTW合并。
12.一種說話人認(rèn)證的注冊方法，包括根據(jù)說話人輸入的多個語音生成多個說話人模板；以及利用權(quán)利要求9～11任意一項所述的將多個說話人模板合并的方法，將上述生成的多個說話人模板合并。
13.一種說話人認(rèn)證的驗證方法，包括輸入語音；以及根據(jù)說話人模板，判斷該輸入的語音是否為說話人本人說出的注冊密碼語音，其中，上述說話人模板是利用權(quán)利要求1～8任意一項所述的說話人模板的壓縮方法生成的。
14.根據(jù)權(quán)利要求13所述的說話人認(rèn)證的驗證方法，其中，判斷該輸入的語音是否為說話人本人說出的注冊密碼語音的步驟包括從上述輸入的語音提取聲學(xué)特征；計算上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分；以及比較上述計算出的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
15.一種說話人認(rèn)證的驗證方法，包括輸入語音；以及根據(jù)說話人模板和背景模板，判斷該輸入的語音是否為說話人本人說出的注冊密碼語音，其中，上述說話人模板和背景模板是利用權(quán)利要求8所述的說話人模板的壓縮方法生成的。
16.根據(jù)權(quán)利要求15所述的說話人認(rèn)證的驗證方法，其中，判斷該輸入的語音是否為說話人本人說出的注冊密碼語音的步驟包括從上述輸入的語音提取聲學(xué)特征；計算上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分；計算上述提取出的聲學(xué)特征與上述背景模板的DTW匹配得分；利用上述提取出的聲學(xué)特征與上述背景模板的DTW匹配得分，對上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分進(jìn)行歸一化；以及比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
17.根據(jù)權(quán)利要求15所述的說話人認(rèn)證的驗證方法，其中，判斷該輸入的語音是否為說話人本人說出的注冊密碼語音的步驟包括從上述輸入的語音提取聲學(xué)特征；計算上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分；計算上述說話人模板與上述背景模板的DTW匹配得分；利用上述說話人模板與上述背景模板的DTW匹配得分，對上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分進(jìn)行歸一化；以及比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
18.一種說話人模板的壓縮裝置，其中，該說話人模板包含多個特征向量，包括碼字指定單元(code designating unit)，其根據(jù)一個碼本為說話人模板中的每個上述特征向量指定一個碼字，其中上述碼本包含多個碼字以及每個碼字對應(yīng)的特征向量；以及向量合并單元(vector merging unit)，其將上述說話人模板中相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替。
19.根據(jù)權(quán)利要求18所述的說話人模板的壓縮裝置，進(jìn)一步包括向量距離計算單元(vector distance calculator)，用于計算兩個向量之間的距離；以及碼字查找單元(code search unit)，其利用上述向量距離計算單元，在碼本中查找與一個給定的特征向量最接近的特征向量及其對應(yīng)的碼字。
20.根據(jù)權(quán)利要求18-19的任意一項所述的說話人模板的壓縮裝置，進(jìn)一步包括平均向量計算單元(average vector calculator)，用于計算多個特征向量的平均向量。
21.根據(jù)權(quán)利要求20所述的說話人模板的壓縮裝置，其中，上述向量合并單元，用上述平均向量計算單元計算的上述相鄰且碼字相同的多個特征向量的平均向量代替上述相鄰且碼字相同的多個特征向量。
22.根據(jù)權(quán)利要求20所述的說話人模板的壓縮裝置，上述向量合并單元，用上述平均向量計算單元計算的上述相鄰且被指定的碼字相同的多個特征向量中除去至少一個距離最遠(yuǎn)的特征向量剩余的特征向量的平均向量代替上述相鄰且碼字相同的多個特征向量。
23.根據(jù)權(quán)利要求18-19的任意一項所述的說話人模板的壓縮裝置，其中，上述向量合并單元，從上述相鄰且碼字相同的多個特征向量中隨機(jī)選擇一個代表向量來代替上述相鄰且碼字相同的多個特征向量。
24.根據(jù)權(quán)利要求18-19的任意一項所述的說話人模板的壓縮裝置，其中，上述向量合并單元，從上述相鄰且碼字相同的多個特征向量中選擇與碼本中該碼字對應(yīng)的特征向量最接近的特征向量來代替上述相鄰且碼字相同的多個特征向量。
25.根據(jù)權(quán)利要求18-19的任意一項所述的說話人模板的壓縮裝置，其中，上述向量合并單元，用上述碼本中與該碼字對應(yīng)的特征向量代替上述相鄰且碼字相同的多個特征向量。
26.根據(jù)權(quán)利要求18-25的任意一項所述的說話人模板的壓縮裝置，進(jìn)一步包括背景模板生成單元(background template generator)，其將壓縮后的上述說話人模板中的特征向量對應(yīng)的碼字序列保存為背景模板。
27.一種將多個說話人模板合并的裝置，包括根據(jù)權(quán)利要求18～26的任意一項所述的說話人模板的壓縮裝置；以及DTW合并裝置(DTW merging unit)，用于對兩個說話人模板進(jìn)行DTW合并。
28.一種說話人認(rèn)證的注冊裝置，包括模板生成裝置(template generator)，用于根據(jù)說話人輸入的語音生成說話人模板；以及根據(jù)權(quán)利要求27所述的將多個說話人模板合并的裝置，將由上述模板生成裝置生成的多個說話人模板合并。
29.一種說話人認(rèn)證的驗證裝置，包括語音輸入單元(utterance input unit)，用于輸入語音；聲學(xué)特征提取單元(acoustic feature extractor)，用于從上述輸入的語音提取聲學(xué)特征；以及匹配得分計算單元(matching score calculator)，用于計算上述提取出的聲學(xué)特征與相應(yīng)的說話人模板的DTW匹配得分，其中，上述說話人模板是利用權(quán)利要求1～8的任意一項所述的說話人模板的壓縮方法生成的；其中，通過比較上述計算出的DTW匹配得分和預(yù)先設(shè)定的分辨閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
30.一種說話人認(rèn)證的驗證裝置，包括語音輸入單元(utterance input unit)，用于輸入語音；聲學(xué)特征提取單元(acoustic feature extractor)，用于從上述輸入的語音提取聲學(xué)特征；匹配得分計算單元(matching score calculator)，計算上述提取出的聲學(xué)特征與說話人模板的DTW匹配得分，以及計算上述提取出的聲學(xué)特征與背景模板的DTW匹配得分，其中上述說話人模板和背景模板是利用權(quán)利要求8所述的說話人模板的壓縮方法生成的；以及歸一化單元(normalizing unit)，其利用上述提取出的聲學(xué)特征與上述背景模板的DTW匹配得分，對上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分進(jìn)行歸一化；其中，比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
31.一種說話人認(rèn)證的驗證裝置，包括語音輸入單元(utterance input unit)，用于輸入語音；聲學(xué)特征提取單元(acoustic feature extractor)，用于從上述輸入的語音提取聲學(xué)特征；匹配得分計算單元(matching score calculator)，用于計算上述提取出的聲學(xué)特征與說話人模板的DTW匹配得分，以及計算上述說話人模板與背景模板的DTW匹配得分；其中上述說話人模板和背景模板是利用權(quán)利要求8所述的說話人模板的壓縮方法生成的；以及歸一化單元(normalizing unit)，其利用上述說話人模板與上述背景模板的DTW匹配得分，對上述提取出的聲學(xué)特征與上述說話人模板的DTW匹配得分進(jìn)行歸一化；其中，比較上述歸一化后的DTW匹配得分和一個閾值，判斷輸入的語音是否為說話人本人說出的注冊密碼語音。
32.一種說話人認(rèn)證系統(tǒng)，包括根據(jù)權(quán)利要求28所述的說話人認(rèn)證的注冊裝置；以及根據(jù)權(quán)利要求29～31的任意一項所述的說話人認(rèn)證的驗證裝置。
全文摘要
本發(fā)明提供了說話人模板的壓縮方法和裝置、將多個說話人模板合并的方法和裝置、說話人認(rèn)證的注冊方法和裝置、說話人認(rèn)證的驗證方法和裝置、以及說話人認(rèn)證系統(tǒng)。該說話人模板包含多個特征向量。本發(fā)明的說話人模板的壓縮方法包括根據(jù)一個碼本，為說話人模板中的每個上述特征向量指定一個碼字，其中上述碼本包含多個碼字以及每個碼字對應(yīng)的特征向量；以及將上述說話人模板中相鄰且被指定的碼字相同的多個特征向量用一個特征向量代替。
文檔編號G10L17/00GK1963918SQ200510115300
公開日2007年5月16日申請日期2005年11月11日優(yōu)先權(quán)日2005年11月11日
發(fā)明者欒劍, 郝杰申請人:株式會社東芝

完整全部詳細(xì)技術(shù)資料下載