專利名稱:語音處理中基于高斯模型的動(dòng)態(tài)時(shí)間彎曲系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明主要涉及在語音處理領(lǐng)域內(nèi)用于表示語音的模型。更確切地說,本發(fā)明涉及一種建模技術(shù),其優(yōu)先采用獨(dú)立文本統(tǒng)計(jì)學(xué)聲音空間建模和臨時(shí)序列建模來形成支持語音和講話者自動(dòng)識(shí)別領(lǐng)域的建模系統(tǒng)和方法,所述系統(tǒng)和方法包括定位(spotting mode)模式,并且比傳統(tǒng)的統(tǒng)計(jì)建模技術(shù)明顯減少了注冊數(shù)據(jù)。
背景技術(shù):
語音建模技術(shù)目前已廣泛用于從語音識(shí)別到講話者查驗(yàn)/辨別等不同的應(yīng)用領(lǐng)域。當(dāng)前大多數(shù)系統(tǒng)使用隱式馬爾科夫模型(HMM)來解決大量詞匯、連續(xù)語音識(shí)別等富有挑戰(zhàn)性的問題。隱式馬爾科夫模型以多種狀態(tài)來表示語音,其中每種狀態(tài)對(duì)應(yīng)于不同的聲音單元。使用前,從識(shí)別方式公知的人類語言實(shí)例中構(gòu)建一組隱式馬爾科夫模型。在訓(xùn)練時(shí),進(jìn)行統(tǒng)計(jì)分析以產(chǎn)生存儲(chǔ)在隱式馬爾科夫模型中的概率數(shù)據(jù)。將這些概率數(shù)據(jù)存儲(chǔ)在預(yù)先確定的狀態(tài)轉(zhuǎn)換模型(HMM模型)中,所述模型存儲(chǔ)從一種狀態(tài)到下一種狀態(tài)的遍歷似然性以及在每一種狀態(tài)下產(chǎn)生給定聲音單元的似然性。通常,以浮點(diǎn)數(shù)的形式存儲(chǔ)似然數(shù)據(jù),所述浮點(diǎn)數(shù)代表平均值、方差和/或加權(quán)參數(shù)等高斯參數(shù)。
就訓(xùn)練資料的需求而言,以隱式馬爾科夫模型為基礎(chǔ)的識(shí)別系統(tǒng)是非常昂貴的。它們對(duì)識(shí)別系統(tǒng)有很高的存儲(chǔ)器要求和處理器速度要求。此外,傳統(tǒng)的隱式馬爾科夫模型識(shí)別系統(tǒng)往往采用額外的端點(diǎn)檢測形式的預(yù)處理來鑒別實(shí)際輸入的語音(即,為進(jìn)行識(shí)別而應(yīng)檢驗(yàn)的信號(hào)部分)和背景噪音(即,應(yīng)忽略的信號(hào)部分)。
在可用少量注冊數(shù)據(jù)的場合,常常使用稱之為動(dòng)態(tài)時(shí)間彎曲(DTW)的不同技術(shù)。動(dòng)態(tài)時(shí)間彎曲過程試圖在先前的訓(xùn)練模板模型和輸入的序列之間尋找“最低成本”校正(alignment)。通常,這種模型是通過下述方式構(gòu)建的,即,捕捉輸入的訓(xùn)練語音,把所述語音分解成相同尺寸的幀,然后通過例如倒頻譜處理或快速傅里葉變換處理等多種公知處理技術(shù)中的一種將每一幀表示成一組聲音矢量。使用時(shí),通過抽取聲音矢量和計(jì)算每個(gè)瞬時(shí)幀的分?jǐn)?shù)逐幀處理輸入的檢驗(yàn)語音。預(yù)先確定引入和刪除誤差的懲罰值(penalties)并且選擇具有最低累積分?jǐn)?shù)的序列作為最好的適配。
動(dòng)態(tài)時(shí)間彎曲系統(tǒng)在跟蹤瞬時(shí)語音發(fā)音序列時(shí)工作得很出色。與隱式馬爾科夫模型識(shí)別器相比,它們僅需要少量的訓(xùn)練數(shù)據(jù)而且真正考慮了聲音的臨時(shí)結(jié)構(gòu)信息(TSI)。
然而,動(dòng)態(tài)時(shí)間彎曲系統(tǒng)存在明顯缺點(diǎn)。當(dāng)在目標(biāo)事件(例如,將要定位的目標(biāo)單詞)中存在大量可變性的情況下,這些系統(tǒng)不能很好地工作。DTW系統(tǒng)也很難適用于新條件。因此,當(dāng)條件相對(duì)穩(wěn)定時(shí),可以有效地利用DTW系統(tǒng)進(jìn)行包含定位應(yīng)用的單詞和講話者的識(shí)別。當(dāng)在目標(biāo)事件(單詞或講話者)中存在很大的可變性或在遇到的環(huán)境中存在很大可變性時(shí),所述系統(tǒng)將不能很好地適應(yīng)。
在必須進(jìn)行講話者查驗(yàn)/辨別的場合,常選擇采用被稱為高斯混合模型(GMM)的第三種建模系統(tǒng)。高斯混合模型實(shí)質(zhì)上是一種單態(tài)隱式馬爾科夫模型。逐幀捕捉輸入的訓(xùn)練語音,并將輸入的訓(xùn)練語音表示成一組聲音矢量(例如,應(yīng)用倒頻譜處理或FFT處理)。搜集和組合從多個(gè)講話者訓(xùn)練語音實(shí)例中得到聲音矢量從而產(chǎn)生代表該講話者的單個(gè)混合模型。遺憾的是,這種建模過程放棄了所有臨時(shí)信息。因此,丟失了與幀到幀之間實(shí)際存在的臨時(shí)結(jié)構(gòu)(TSI)有關(guān)的信息。
盡管上述每一種建模系統(tǒng)在選定的語音范圍內(nèi)都有其自身的位置,但是,在沒有與大型配套的隱式馬爾科夫模型系統(tǒng)相關(guān)的大量訓(xùn)練資料的情況下,特別是在需要提高講話者查驗(yàn)/辨別特性或提高單詞定位應(yīng)用的特性范圍內(nèi)還是留下了希望改進(jìn)的空間。本發(fā)明通過使用專用的新型建模系統(tǒng)實(shí)現(xiàn)了這種改進(jìn),所述系統(tǒng)能建立很好的模型模板序列信息并能很好地處理可變性,從而能容易地調(diào)節(jié)聲音空間中的變化。
發(fā)明內(nèi)容
本發(fā)明提供了一種新型語音建模技術(shù),這種技術(shù)我們稱之為高斯動(dòng)態(tài)時(shí)間彎曲(GDW)。GDW語音模型提供了代表聲音空間的上層;代表講話者空間的中層;和代表注冊語音臨時(shí)結(jié)構(gòu)的下層,所述注冊語音建立在等空間時(shí)間間隔或幀的基礎(chǔ)上。這三層是分級(jí)構(gòu)筑的中間層與上層相連,下層與中間層相連。
按照另一方面,本發(fā)明提供一種用于構(gòu)建GDW語音模型的方法,其中,通過多個(gè)講話者構(gòu)建上層聲音空間模型。然后根據(jù)聲音空間模型,利用與一個(gè)講話者(或一組講話者)有關(guān)的注冊語音構(gòu)筑適合每個(gè)講話者(或一組講話者)的中層講話者模型。然后,通過依次表示與對(duì)應(yīng)于該事件的有效注冊語音相關(guān)的每個(gè)時(shí)間間隔來構(gòu)建下層的TSI(臨時(shí)結(jié)構(gòu)信息)。目標(biāo)事件由單詞(或短語)構(gòu)成而且可以是單詞本身(單詞識(shí)別范圍)或是兩者(單詞、講話者辨別)(以密碼為基礎(chǔ)的講話者識(shí)別范圍)。與給定目標(biāo)事件對(duì)應(yīng)的GDW語音模型由三個(gè)分級(jí)連接的元素構(gòu)成聲音空間模型,講話者模型和TSI(臨時(shí)結(jié)構(gòu)信息)模型。
按照另一方面,本發(fā)明提供一種構(gòu)建語音模型的通用方法,其中根據(jù)從多個(gè)講話者獲得的多個(gè)發(fā)音構(gòu)成聲音空間模型。然后,通過利用從單個(gè)講話者或一組講話者得到的注冊語音進(jìn)行聲音空間模型適配來構(gòu)建講話者模型。隨后通過聲音空間模型構(gòu)建臨時(shí)結(jié)構(gòu)信息模型、講話者模型和與目標(biāo)事件對(duì)應(yīng)的注冊語音。
下面將參照以下的說明和附圖來進(jìn)一步理解本發(fā)明、本發(fā)明的目的和優(yōu)點(diǎn)。
通過詳細(xì)的說明和附圖將能更完整地理解本發(fā)明,其中圖1是表示本發(fā)明所述高斯動(dòng)態(tài)時(shí)間彎曲(GDW)模型主要結(jié)構(gòu)的方框圖;圖2和圖3包括表示如何構(gòu)建和訓(xùn)練GDW模型的流程圖;圖4是GDW模型更詳細(xì)的分級(jí)模型圖,其對(duì)于理解如何將聲音空間、講話者空間和臨時(shí)結(jié)構(gòu)信息存儲(chǔ)到GDW模型中是非常有用的;圖5是對(duì)比模型圖,其表示本發(fā)明的GDW模型和傳統(tǒng)模型,例如高斯混合模型(GMM)和傳統(tǒng)的動(dòng)態(tài)時(shí)間彎曲(DTW)模型之間的一些差異;圖6是時(shí)間彎曲的校正圖,其對(duì)于理解如何通過優(yōu)選實(shí)施例的臨時(shí)序列處理系統(tǒng)完成DTW解碼是非常有用的;和圖7表示在優(yōu)選實(shí)施例中對(duì)減少計(jì)算用存儲(chǔ)器需求非常有用的幀相關(guān)加權(quán)視窗系統(tǒng)。
具體實(shí)施例方式
以下對(duì)優(yōu)選實(shí)施例的說明實(shí)際上僅是示例性的,其并不試圖限制本發(fā)明、本發(fā)明的應(yīng)用或用途。
高斯動(dòng)態(tài)時(shí)間彎曲(GDW)模型優(yōu)選系統(tǒng)和方法的核心是分級(jí)構(gòu)筑的模型,我們稱之為高斯動(dòng)態(tài)時(shí)間彎曲(GDW)模型。如下面將更全面解釋的那樣,該模型的基礎(chǔ)是統(tǒng)計(jì)學(xué)聲音空間信息、統(tǒng)計(jì)學(xué)講話者空間信息和與注冊語音相關(guān)的統(tǒng)計(jì)學(xué)臨時(shí)結(jié)構(gòu)信息。因此,GDW語音模型捕捉與語音系統(tǒng)使用環(huán)境有關(guān)的聲音空間信息。GDW模型還捕捉與提供注冊語音的講話者聲音特征有關(guān)的信息。最后,GDW模型捕捉臨時(shí)結(jié)構(gòu)信息和與注冊語音本身的發(fā)音內(nèi)容有關(guān)的信息。在后一方面,諸如“賽車”等注冊語音與“密西西比”(Mississippi)的發(fā)音以及與“停車場”的發(fā)音具有明顯不同的TSI圖形。
GDW語音模型的一個(gè)極好的方面是通過針對(duì)每個(gè)臨時(shí)段對(duì)高斯參數(shù)進(jìn)行不同的改變來構(gòu)建臨時(shí)序列信息模型,所述高斯參數(shù)還用于表示聲音空間和講話者空間信息。優(yōu)選的是,對(duì)于給定的臨時(shí)段只選擇和改變少量參數(shù)。本優(yōu)選實(shí)施例代表了聲音空間可變性信息、與講話者有關(guān)的信息、和臨時(shí)序列信息,其中聲音空間可變性信息包含(GDW模型)上層高斯協(xié)方差參數(shù);與講話者有關(guān)的信息包含GDW模型中間層的高斯平均值參數(shù),臨時(shí)序列信息包含用于格式化高斯混合模型的GDW模型下層加權(quán)值。
圖1表示GDW方法的一般原理。如圖所示,GDW模型捕捉與聲音空間10有關(guān)的先前知識(shí)和與臨時(shí)結(jié)構(gòu)信息(臨時(shí)約束)12有關(guān)的先前知識(shí)。將聲音空間10的先前知識(shí)送到統(tǒng)計(jì)聲音空間建模系統(tǒng)14,該建模系統(tǒng)還接收作為輸入信號(hào)的聲音數(shù)據(jù)16。聲音數(shù)據(jù)16代表或來源于在訓(xùn)練期間和在檢驗(yàn)階段(即,在使用期間)提供的注冊語音。
將臨時(shí)約束的先前知識(shí)12同樣輸送到臨時(shí)約束處理系統(tǒng)18。臨時(shí)約束處理系統(tǒng)采用了下面將更全面解釋的動(dòng)態(tài)時(shí)間彎曲(DTW)算法。一般來說,臨時(shí)寸約束處理系統(tǒng)將定義在注冊訓(xùn)練期間和檢驗(yàn)期間(即,在使用過程中)使用的臨時(shí)序列信息(TSI)約束。
系統(tǒng)14和18的相應(yīng)輸出送到GDW的核心系統(tǒng)20,核心系統(tǒng)20將做出響應(yīng)從而對(duì)統(tǒng)計(jì)聲音空間建模系統(tǒng)14和臨時(shí)約束處理系統(tǒng)18之間的信息交換和修正進(jìn)行管理。GDW的核心20最終將構(gòu)建和管理GDW模型22。
GDW模型由三個(gè)等級(jí)的層構(gòu)成。在上層,所述模型包括一般的聲音空間模型,也稱作背景模型(BM)32,所述背景模型描繪的是全局(global)聲音空間和全局記錄條件。與背景模型32相關(guān)的等級(jí)是一組包括中間層38的講話者模型。該層的每一個(gè)模型代表特定講話者的語音特性(對(duì)于指定的一個(gè)講話者或一組講話者)并且在下面將象征性地標(biāo)以符號(hào)X。
講話者模型38是描繪講話者(或一組講話者)全局聲音空間的聲學(xué)模型。講話者模型源于背景模型(在此為等級(jí)關(guān)系)。下一等級(jí)的GDW模型元素是用TSI模型表示的臨時(shí)結(jié)構(gòu)信息模型。該層的TSI模型42由一組具有連續(xù)順序(order)的幀相關(guān)模型構(gòu)成。對(duì)于目標(biāo)事件的每一幀n,將相應(yīng)的幀相關(guān)模型表示為Xn并且所述幀相關(guān)模型可從相應(yīng)的X模型中推出。
上述模型層的等級(jí)關(guān)系和存儲(chǔ)在這些分級(jí)層中的信息特性使GDW模型變得非常豐富、緊湊和耐用(Robust)。這樣可在GDW模型的基礎(chǔ)上依次賦予語音處理系統(tǒng)在具有潛在的大目標(biāo)事件可變性和環(huán)境可變性條件下完成詞匯識(shí)別和語音識(shí)別(借助定位模式)的能力。正如在以下部分中將更加全面描述的那樣,當(dāng)構(gòu)建講話者X模型時(shí)將采用聲音空間信息(通常是在改變噪聲條件的情況下通過多個(gè)講話者構(gòu)筑)。X模型捕捉與注冊的講話者(或一組講話者)有關(guān)的信息,但是用X模型構(gòu)建的信息模型是聲音空間模型的變型,因此,至少部分保留了來自背景模型的聲音空間信息。同樣,用X模型來構(gòu)建相應(yīng)的臨時(shí)結(jié)構(gòu)信息(TSI)模型。TSI模型由一組幀相關(guān)模型構(gòu)成,因此,幀相關(guān)模型捕捉與特定目標(biāo)事件發(fā)音有關(guān)的臨時(shí)信息,同時(shí)保留來自講話者模型X和背景模型BM的信息。
GDW模型的訓(xùn)練圖2和圖3表示目前優(yōu)選的訓(xùn)練GDW模型的方法。理解了如何進(jìn)行模型訓(xùn)練就能進(jìn)一步深入了解GDW模型的特性和它的很多優(yōu)點(diǎn)。
參照?qǐng)D2,在30中搜集多個(gè)講話者的數(shù)據(jù)和用這些數(shù)據(jù)構(gòu)建背景模型32??梢詮亩鄠€(gè)不同的發(fā)音中和在多個(gè)不同的背景噪音條件下抽取多個(gè)講話者的聲音數(shù)據(jù)30??梢杂枚喾N不同的統(tǒng)計(jì)學(xué)聲音建模技術(shù)構(gòu)建背景模型32。在本優(yōu)選實(shí)施例中,用快速傅里葉變換(FFT)或倒頻譜技術(shù)來獲得和處理聲音數(shù)據(jù)以便抽取一組聲音矢量。然后對(duì)聲音矢量進(jìn)行統(tǒng)計(jì)分析以便構(gòu)筑代表聲音空間的聲音模型,所述聲音空間是通過在聲音數(shù)據(jù)捕捉期間所用環(huán)境中的講話者群體確定的。按照這一方面,術(shù)語“聲音空間”是指由聲音數(shù)據(jù)覆蓋的抽象數(shù)學(xué)空間,而不是指捕捉數(shù)據(jù)的實(shí)際空間(盡管實(shí)際空間的環(huán)境混響特性和背景噪音對(duì)聲音空間有影響)。
在本優(yōu)選實(shí)施例中,可以使用任何合適的聲音數(shù)據(jù)30的聲音建模模型。例如,可以使用高斯混合模型GMM或隱式馬爾科夫模型HMM??梢愿鶕?jù)先前獲得的聲學(xué)知識(shí)量來選擇GMM或HMM。如果獲得的量很大,優(yōu)選HMM模型;如果獲得的數(shù)據(jù)量很小,則優(yōu)選GMM模型。在任一情況下,均可使用傳統(tǒng)的方式(優(yōu)選使用期望值最大化算法)來訓(xùn)練模型。在訓(xùn)練模型的過程中,可以使用最大似然標(biāo)準(zhǔn)來建立最佳標(biāo)準(zhǔn)。
為了表示完整的背景模型聲音空間,常常用幾百個(gè)高斯分量來構(gòu)筑模型。如果已經(jīng)選擇高斯混合模型(GMM)作為背景模型(BM),則所用的似然參數(shù)是每個(gè)分量給出的幀的似然加權(quán)平均值,其中用相應(yīng)的平均矢量和協(xié)方差矩陣來表示一個(gè)分量。因此,對(duì)于以GMM為基礎(chǔ)的背景模型而言,可以根據(jù)下面的公式1來確定似然性。
l(y|G)=Σi=1Rwi.N(,μi,Σi)]]>(公式1)其中,y是聲音矢量,G是GMM,g是G的分量數(shù)目,wl是第i個(gè)分量的加權(quán)值,μl是元素的平均值,∑i是分量的(對(duì)角線)協(xié)方差矩陣,和N()是正態(tài)概率密度函數(shù)。
就基于HMM的背景模型而言,似然參數(shù)是給出HMM相應(yīng)狀態(tài)的輸入幀的似然性,該模型是可用公式1計(jì)算似然性的GMM模型。然而,在這種情況下,用維特比解碼來確定與輸入幀順序?qū)?yīng)的狀態(tài)的最佳順序。
在構(gòu)筑了背景模型32之后,從注冊的講話者獲取聲音數(shù)據(jù)在36中用聲音數(shù)據(jù)34與背景模型適配并由此構(gòu)建如38所示的講話者模型X。盡管可以使用各種不同的適配技術(shù),但是當(dāng)前優(yōu)選的技術(shù)采用最大A后驗(yàn)(MAP)適配。在優(yōu)選實(shí)施例中,僅適配混合分量的高斯平均值參數(shù)。
在前面的步驟中,構(gòu)建背景模型(BM)。該模型本身包含與使用系統(tǒng)的環(huán)境有關(guān)的聲音信息。根據(jù)該模型,講話者模型(X)保持環(huán)境信息,而且將該信息加到與每個(gè)參與注冊的特定講話者相關(guān)的信息中。把下面將要討論的后處理步驟加到與對(duì)應(yīng)于給定目標(biāo)事件的句式相關(guān)的講話者模型(X)臨時(shí)序列信息中。
圖2中示出了將臨時(shí)構(gòu)建的信息編碼成GDW模型的后處理步驟,其從步驟40開始,并延續(xù)到圖3。在步驟40中,根據(jù)每個(gè)注冊循環(huán)的相應(yīng)講話者模型38構(gòu)建GDW TSI模型。TSI模型由圖2中42所示一個(gè)模型/每幀構(gòu)成。這些模型可以通過適配高斯加權(quán)分量從講話者(X)模型中推出。下面的公式2表示如何用MAP適配算法來適配加權(quán)分量。加權(quán)的MAP適配可以用直接內(nèi)插策略來實(shí)現(xiàn)。
wiXm=α.wiX+(1-α).w^iXm]]>andw^iXm=wiX.N(y,μi,Σi)Σj=1gwjX.N(y,μj,Σj)]]>(公式2)其中,wiXm是用y數(shù)據(jù)子集從X推出的第n個(gè)狀態(tài)/幀相關(guān)模型的第i個(gè)分量的最終(適配的)加權(quán)值,wiXn是根據(jù)y子集算出的相應(yīng)的預(yù)計(jì)加權(quán)值,wlx是作為在先信息的模型X的第i個(gè)分量的加權(quán)值,α是適配系數(shù)。
在構(gòu)筑了給定目標(biāo)事件的初始組GDW TSI之后(與目標(biāo)事件對(duì)應(yīng)的每個(gè)注冊循環(huán)的一個(gè)TSI模型),在44中計(jì)算交叉距離矩陣。所述矩陣代表每個(gè)TSI模型42和每個(gè)聲音數(shù)據(jù)34注冊循環(huán)之間的所有距離。此后,計(jì)算每個(gè)TSI模型和該組注冊循環(huán)之間的平均距離并選擇具有最小平均距離的TSI模型48作為最佳或“中心模型”。
構(gòu)筑了中心模型之后,進(jìn)行附加的適配,從而更嚴(yán)格地為所有與該目標(biāo)事件相關(guān)聯(lián)的注冊語音確定模型。在步驟56中完成這種模型適配??梢酝ㄟ^將中心模型52與聲音數(shù)據(jù)34匹配(圖2),然后如圖所示進(jìn)行單次或反復(fù)多次適配來完成所述適配。最后得到合適的中心模型58,在所需要的語音處理領(lǐng)域中,該模型可作為對(duì)應(yīng)于目標(biāo)事件的TSI模型使用。
GDW建模和傳統(tǒng)建模的比較圖4中示出的GDW技術(shù)包含三個(gè)層次構(gòu)建的模型。上層是背景模型(BM)層32。中間層包括從BM得出的講話者(X)模型38。下層包括由一組幀相關(guān)模型42構(gòu)成的臨時(shí)結(jié)構(gòu)信息(TSI)模型,所述幀相關(guān)模型依次從相應(yīng)的X中得出。TSI模型包括給定句式的語音內(nèi)容和臨時(shí)結(jié)構(gòu)信息。上層實(shí)例與中間層實(shí)例和下層實(shí)例相結(jié)合構(gòu)成GDW目標(biāo)事件模型。
圖4表示在這三層中如何利用相應(yīng)的聲音空間。如標(biāo)號(hào)60所示,背景模型(BM)覆蓋的聲音空間包含對(duì)應(yīng)于講話者的聲音空間62。如標(biāo)號(hào)64所示,每個(gè)講話者模型(例如講話者模型3)包含與TSI模型對(duì)應(yīng)的數(shù)據(jù)66,所述TSI模型包括一組幀相關(guān)模型和所述模型之間的臨時(shí)序列。
在本優(yōu)選實(shí)施例中,GDW的每一層包括一組高斯模型。在上層(BM),聲音空間模型通過高斯協(xié)方差參數(shù)引入了聲音可變性。
在中間層,用高斯平均值參數(shù)更具體地表示由與講話者相關(guān)的所有注冊資料給出的講話者特性。
將臨時(shí)語音結(jié)構(gòu)信息本身與講話者表達(dá)的語音內(nèi)容相結(jié)合。GDW模型下層的TSI模型考慮了所述臨時(shí)信息。該信息主要用幀相關(guān)模型的混合加權(quán)參數(shù)表示。
盡管本發(fā)明的GDW建模系統(tǒng)在很多方面與傳統(tǒng)的建模技術(shù)不同,但是在此重中這些差別中的一部分差異是很有益,下面將說明模型訓(xùn)練過程。圖5中對(duì)GDW建模系統(tǒng)和傳統(tǒng)的GMM及DTM建模系統(tǒng)進(jìn)行了比較。如圖中所示,GMM建模系統(tǒng)未捕捉臨時(shí)序列信息(TSI),因此,未嵌入TSI約束。DTW建模系統(tǒng)捕捉了臨時(shí)序列信息,然而,該系統(tǒng)嵌入了極少的聲音空間模型。本發(fā)明的GDW系統(tǒng)捕捉了其他系統(tǒng)能夠做到的捕捉聲音空間模型信息和TSI約束。
實(shí)現(xiàn)本優(yōu)選實(shí)施例的其他細(xì)節(jié)TSI處理如上所述,GDW建模系統(tǒng)在用講話者模型構(gòu)建TSI模型分量、幀相關(guān)模型時(shí),考慮了語音事件的臨時(shí)序列信息。為此,在本優(yōu)選實(shí)施例中使用了動(dòng)態(tài)時(shí)間彎曲算法。DTW算法試圖在輸入信號(hào)(用聲音矢量流表示)和由多個(gè)預(yù)定的幀相關(guān)高斯模型構(gòu)成的模型之間找出適合每個(gè)臨時(shí)瞬間的最佳校正。按照這一方面,GDW系統(tǒng)與HMM模型明顯不同,其在HMM模型的狀態(tài)和輸入信號(hào)的幀之間沒有預(yù)定的相關(guān)性。
圖6表示目前優(yōu)選的DTW解碼。在GDW系統(tǒng)中,DTW算法受三個(gè)要素的控制罰函數(shù)組,輸入幀和TSI幀相關(guān)模型之間的本地距離,和臨時(shí)約束調(diào)節(jié)參數(shù)。
罰函數(shù)組包括兩個(gè)函數(shù)。第一函數(shù)在幾個(gè)輸入幀與一個(gè)幀相關(guān)模型相關(guān)時(shí)給出懲罰值。第二函數(shù)在一個(gè)輸入幀與幾個(gè)幀相關(guān)模型相關(guān)時(shí)給出懲罰值。圖6示出了這兩種懲罰的實(shí)例。
目前優(yōu)選的實(shí)施例中的某些實(shí)施例也采用調(diào)節(jié)系數(shù)來控制影響系統(tǒng)工作的臨時(shí)約束程度。這可以通過引入調(diào)節(jié)系數(shù)來實(shí)現(xiàn)。首先,在幀相關(guān)模型的適配過程中用alpha參數(shù)(公式2的)值使幀相關(guān)模型的特性衰減。如果將alpha置于1,則幀相關(guān)模型全部相等(對(duì)于給定的目標(biāo)事件而言),而且臨時(shí)約束的影響將會(huì)很低。如果將alpha置于0,模型完全自由,應(yīng)對(duì)臨時(shí)約束給予強(qiáng)烈關(guān)注。在計(jì)算本地距離時(shí)可以選擇歸一化系數(shù)。這樣做的作用是平衡或調(diào)節(jié)臨時(shí)信息在目標(biāo)事件所有方面行使權(quán)力的限度。
計(jì)算幀的似然性用于匹配的本地距離DTW解碼需要計(jì)算每個(gè)輸入幀和每個(gè)幀相關(guān)模型之間的距離(即,相似性測量)。該距離可從測量幀特性的似然比中得出。比例式的分子是給定的幀相關(guān)模型的幀的似然性而分母接近給定的全局事件模型X的幀的似然性。為了考慮幀中有益的信息,利用X和BM(背景模型)的結(jié)合來估計(jì)分母。更準(zhǔn)確地說,通過下式進(jìn)行本地距離匹配LocalDist(y,Xn)=NormDist(log(l(y|Xn)beta.l(y|X)+(1-beta).l(y|BM)))]]>(公式3)其中y是輸入幀,Xn是幀相關(guān)模型,X是全局事件模型,BM是背景模型而beta是組合系數(shù)。
NormDist是()是用于把似然比轉(zhuǎn)換成與距離等同的記錄的歸一化函數(shù)NormDist(a)=0ifa>Max,1ifa<Min,(Max-a)(Max-Min)else]]>(公式4)
其中Max和Min是輸入的極限。
在上述兩個(gè)公式中,LocalDist()測量的是與全局目標(biāo)模型相比,幀模型是否更靠近輸入幀。當(dāng)該測量相關(guān)時(shí),用BM模型進(jìn)行加權(quán),由此可以說明輸入幀是否相關(guān)。將函數(shù)進(jìn)行歸一化處理以便輸出
空間。
匹配記錄最終的匹配記錄是本地距離和DTW懲罰的結(jié)合,所述DTW懲罰通過選定路徑中的本地距離進(jìn)行加權(quán)。
由于幀相關(guān)模型結(jié)構(gòu)而使得存儲(chǔ)器尺寸和計(jì)算成本降低如果在某種程度上是基于統(tǒng)計(jì)學(xué)的建模系統(tǒng),那么,GDW模型通常需要存儲(chǔ)和計(jì)算大量的高斯分量。因此,需要根據(jù)應(yīng)用情況考慮計(jì)算機(jī)的資源條件。此外,盡管將GDW的下層模型(TSI幀相關(guān)模型)看作是完整的高斯模型,但其實(shí)際上表示的是中間層模型(X)的變型,而中間層表示的是上層模型(BM)的變型。只有當(dāng)必須存儲(chǔ)和重新計(jì)算變化的元素時(shí),該結(jié)構(gòu)才允許保留存儲(chǔ)器空間和計(jì)算資源。在目前的優(yōu)選實(shí)施例中,對(duì)于給定的幀相關(guān)模型而言,只存儲(chǔ)了取入“適配窗”中的極少數(shù)高斯分量加權(quán)值并且只重新計(jì)算給定幀相關(guān)模型的相應(yīng)值。
如圖7所示,視窗系統(tǒng)僅選擇所有有效高斯分量的子集,和僅存儲(chǔ)選定分量的加權(quán)值。所有其他分量都在上層模型中采集或直接從上層模型中算出。
用兩個(gè)量之和來計(jì)算已知Xn時(shí)y(測試幀)的似然性(相對(duì)于事件X的第n個(gè)幀相關(guān)模型)SumAdapted(和適配)()以及SumNonAdapted(和不適配)()。SumAdapted()表示選定的所述幀相關(guān)模型(視窗中)分量分享;而SumNonAdapted()表示其他分量分享。在公式5中進(jìn)一步示出了所述似然性。
l(y|Xn)=SumAdapted(y,Xn)+SumNonAdapted(y,Xn,X)(公式5)其中SumAdapted()表示在幀相關(guān)模型中選定的分量分享,而SumNonAdapted()表示收集到X(相應(yīng)的講話者模型)中的其他分量的分享。
下面的公式6和7表示如何計(jì)算SumAdapted()和SumNonAdapted()
SumAdapted(y,Xn)=ΣimWiXnl(y|giX)]]>(公式6)其中WiXn是在幀模型Xn中選定的第i個(gè)分量的加權(quán)值,I(y|gix)是已知X的第i(高斯)個(gè)分量時(shí)y的似然性,m是加權(quán)視窗的尺寸。
SumNonAdapted(y,Xn,X)=(l(y|X)-ΣimWiX.l(y|giX))*NormWeight(X,Xn)]]>NormWeight(X,Xn)=1-ΣimWiXn1-ΣimWiX]]>(公式7)其中WiXn是在幀相關(guān)模型Xn中選定的第i個(gè)分量的加權(quán)值,Wix是X中相應(yīng)分量的加權(quán)值,l(y|gix)是已知X的第i(高斯)個(gè)分量時(shí)y的似然性,m是加權(quán)視窗的尺寸,和l(y|X)是已知X(相應(yīng)的講話者模型)時(shí)y的似然性。
在公式7中,應(yīng)注意SumNonAdapted()是已知幀相關(guān)模型(收集到相應(yīng)的X模型中的)的不適配部分時(shí)輸入幀的似然性,用把X模型中的分量加權(quán)值之和加到1的方式對(duì)不適配部分進(jìn)行歸一化處理。
GDW模型的一些用途講話者識(shí)別講話者識(shí)別是一種能從GDW技術(shù)中獲益的語音處理的應(yīng)用。在這種應(yīng)用中,BM模型可以適應(yīng)于比較大的GMM(例如2048個(gè)分量)。目標(biāo)事件可以包括講話者確認(rèn)和密碼(結(jié)合)。
可相對(duì)于由對(duì)準(zhǔn)過程(臨時(shí)結(jié)構(gòu)信息子系統(tǒng))給出的每一對(duì)(幀相關(guān)模型,輸入幀)計(jì)算以幀為基礎(chǔ)的記錄。公式8中給出了記錄函數(shù),BioScore()BioScore(y,Xn)=log((local.l(y|Xn))+(1-local)l(y|X)l(y|BM))]]>(公式8)其中y是輸入幀,X是講話者模型,Xn是幀相關(guān)模型,BM是背景模型而local是0和1之間的加權(quán)值,稱為LocalBioWeight。
BioScore()表示輸入幀和相應(yīng)的幀相關(guān)模型之間的相似性測量。為了拒絕非信息幀(例如非語音幀),而用BM模型將BioScore()進(jìn)行歸一化處理。由local(本地)參數(shù)給出幀相關(guān)目標(biāo)模型(與全局目標(biāo)模型相比)。通常,將本地參數(shù)置1,提供對(duì)幀相關(guān)模型的所有控制。最終的記錄是用相應(yīng)的幀參量加權(quán)的BioScore()算術(shù)平均值。
詞匯識(shí)別的應(yīng)用詞匯識(shí)別的應(yīng)用(潛在的定位模式)是能從GDW系統(tǒng)獲益極大的另一種應(yīng)用。與傳統(tǒng)的DTW或HMM方法相比,其主要優(yōu)點(diǎn)在于通過全局GMM與新的講話者或新的環(huán)境條件適配而形成適配潛能。如果需要的話,可以僅移動(dòng)普通模型(在該文獻(xiàn)中的X和UBM)的分量,用詞匯相關(guān)的模式進(jìn)行適配。
本發(fā)明的說明實(shí)際上僅僅是示例性的,因此,未脫離本發(fā)明要點(diǎn)的變型應(yīng)視為落在本發(fā)明的范圍內(nèi)。這些變型不應(yīng)視為脫離了本發(fā)明的構(gòu)思和范圍。
權(quán)利要求
1.一種用于構(gòu)建語音模型的方法,包括用從多個(gè)講話者獲得的多個(gè)發(fā)音構(gòu)建聲音空間模型;通過用從至少一個(gè)講話者得到的注冊語音與聲音空間模型適配構(gòu)建講話者模型;識(shí)別與所述注冊語音相關(guān)的臨時(shí)結(jié)構(gòu);和以所述講話者的注冊語音為基礎(chǔ)構(gòu)建語音模型,同時(shí)將所述注冊語音的臨時(shí)結(jié)構(gòu)保存在所述的語音模型中。
2.根據(jù)權(quán)利要求1所述的方法,其中通過構(gòu)建一組能變換成一組幀的幀相關(guān)模型而將所述注冊語音的臨時(shí)結(jié)構(gòu)保存到所述語音模型中。
3.根據(jù)權(quán)利要求2所述的方法,其中所述一組幀具有相關(guān)的時(shí)間基準(zhǔn),該基準(zhǔn)是根據(jù)所述注冊語音的時(shí)間建立的并且直接保存所述注冊語音的時(shí)間。
4.根據(jù)權(quán)利要求1所述的方法,其中所述聲音空間模型、所述講話者模型和所述臨時(shí)結(jié)構(gòu)共享一個(gè)共用的等級(jí)關(guān)系。
5.根據(jù)權(quán)利要求1所述的方法,其中通過統(tǒng)計(jì)建模構(gòu)建所述聲音空間模型。
6.根據(jù)權(quán)利要求1所述的方法,其中通過從多個(gè)講話者獲取語音、從獲得的讀音中抽取特征并用高斯參數(shù)表示所抽取的特征來構(gòu)建所述聲音空間模型。
7.根據(jù)權(quán)利要求1所述的方法,其中用隱式馬爾科夫模型表示所述聲音空間模型。
8.根據(jù)權(quán)利要求1所述的方法,其中用高斯混合模型表示所述聲音空間模型。
9.根據(jù)權(quán)利要求1所述的方法,其中通過統(tǒng)計(jì)建模來構(gòu)建所述講話者模型,并且通過使后面的適配最大化來完成適配聲音空間模型的步驟。
10.根據(jù)權(quán)利要求1所述的方法,其中通過統(tǒng)計(jì)建模來構(gòu)建所述臨時(shí)結(jié)構(gòu)信息模型,所述統(tǒng)計(jì)建模采用了適合多種注冊語音發(fā)音的講話者模型和聲音空間模型。
11.根據(jù)權(quán)利要求10所述的方法,其中通過構(gòu)建適合多種注冊語音發(fā)音中每一種發(fā)音的臨時(shí)結(jié)構(gòu)信息模型、然后選擇最佳的臨時(shí)結(jié)構(gòu)信息模型來進(jìn)一步建立所述臨時(shí)結(jié)構(gòu)信息模型。
12.根據(jù)權(quán)利要求10所述的方法,進(jìn)一步包括根據(jù)所述注冊語音的發(fā)音來適配所述臨時(shí)結(jié)構(gòu)信息模型。
13.一種構(gòu)建語音模型的方法,包括根據(jù)從多個(gè)講話者獲得的多個(gè)發(fā)音構(gòu)建聲音空間模型;通過利用從至少一個(gè)講話者得到的注冊語音進(jìn)行聲音空間模型適配來構(gòu)建講話者模型;通過將講話者模型表示成多個(gè)幀相關(guān)模型而構(gòu)建臨時(shí)結(jié)構(gòu)信息模型,所述多個(gè)幀相關(guān)模型對(duì)應(yīng)于與所述注冊語音相關(guān)的順序時(shí)間間隔;和通過用所述注冊語音、所述講話者模型和所述聲音空間模型進(jìn)行臨時(shí)結(jié)構(gòu)信息模型適配來構(gòu)建所述的語音模型。
14.根據(jù)權(quán)利要求13所述的方法,進(jìn)一步包括將所述聲音空間模型表示成多個(gè)高斯參數(shù)。
15.根據(jù)權(quán)利要求13所述的方法,進(jìn)一步包括將所述聲音空間模型表示成包括高斯平均值參數(shù)的多個(gè)參數(shù),而且其中通過適配所述高斯平均值參數(shù)來完成適配聲音空間模型的步驟。
16.根據(jù)權(quán)利要求13所述的方法,進(jìn)一步包括將所述聲音空間模型表示成包括高斯加權(quán)參數(shù)的多個(gè)參數(shù),而且其中通過適配所述高斯加權(quán)參數(shù)來完成適配臨時(shí)模型的步驟。
17.根據(jù)權(quán)利要求13所述的方法,其中通過從至少一個(gè)單個(gè)講話者獲得多個(gè)注冊語音實(shí)例并構(gòu)建以幀為基礎(chǔ)的臨時(shí)結(jié)構(gòu)信息模型進(jìn)一步構(gòu)建所述臨時(shí)模型。
18.一種分級(jí)的語音模型包括代表聲音空間的第一層;代表講話者空間的第二層;代表注冊語音臨時(shí)結(jié)構(gòu)的第三層,所述臨時(shí)結(jié)構(gòu)與預(yù)定的幀結(jié)構(gòu)相對(duì)應(yīng)。
19.根據(jù)權(quán)利要求18所述的語音模型,其中所述第一層是一組高斯模型參數(shù)。
20.根據(jù)權(quán)利要求18所述的語音模型,其中所述第二層是一組高斯模型平均值參數(shù)。
21.根據(jù)權(quán)利要求18所述的語音模型,其中所述第三層是一組高斯模型加權(quán)參數(shù)。
22.根據(jù)權(quán)利要求18所述的語音模型,其中所述第二層與所述第一層有等級(jí)關(guān)系。
23.根據(jù)權(quán)利要求18所述的語音模型,其中所述第三層與所述第二層有等級(jí)關(guān)系。
24.根據(jù)權(quán)利要求23所述的語音模型,其中在調(diào)節(jié)所述第三層和所述第二層之間影響程度的適配系數(shù)的基礎(chǔ)上,所述第三層與所述第二層相關(guān)。
25.語音處理系統(tǒng),包括語音識(shí)別器,其具有一組可測試輸入語音發(fā)音的概率模型;所述一組概率模型的結(jié)構(gòu)包含代表聲音空間的第一層;代表講話者空間的第二層;代表臨時(shí)語音結(jié)構(gòu)的第三層,所述臨時(shí)結(jié)構(gòu)與預(yù)定的幀結(jié)構(gòu)相對(duì)應(yīng)。
26.根據(jù)權(quán)利要求25所述的語音處理系統(tǒng),其中所述一組概率模型存儲(chǔ)注冊的發(fā)音而所述語音識(shí)別器完成詞匯定位功能。
27.根據(jù)權(quán)利要求25所述的語音處理系統(tǒng),其中所述一組概率模型存儲(chǔ)注冊的發(fā)音而所述語音識(shí)別器完成講話者識(shí)別功能。
28.根據(jù)權(quán)利要求25所述的語音處理系統(tǒng),其中所述第一層是一組高斯模型參數(shù)。
29.根據(jù)權(quán)利要求25所述的語音處理系統(tǒng),其中所述第二層是一組高斯平均值參數(shù)。
30.根據(jù)權(quán)利要求25所述的語音處理系統(tǒng),其中所述第三層是一組高斯加權(quán)參數(shù)。
31.根據(jù)權(quán)利要求25所述的語音處理系統(tǒng),其中所述第二層與所述第一層有等級(jí)關(guān)系。
32.根據(jù)權(quán)利要求25所述的語音處理系統(tǒng),其中所述第三層與所述第二層有等級(jí)關(guān)系。
33.根據(jù)權(quán)利要求32所述的語音處理系統(tǒng),其中在調(diào)節(jié)所述第三層和所述第二層之間影響程度的適配系數(shù)的基礎(chǔ)上,所述第三層與所述第二層相關(guān)。
全文摘要
高斯動(dòng)態(tài)時(shí)間彎曲模型提供了一種表示聲音圖形的分級(jí)統(tǒng)計(jì)模型。模型的第一層代表普通的聲音空間;第二層代表每個(gè)講話者空間而第三層代表包含在每個(gè)注冊語音發(fā)音中的臨時(shí)結(jié)構(gòu)信息,所述臨時(shí)結(jié)構(gòu)信息以相等區(qū)間的時(shí)間間隔為基礎(chǔ)。這三層是分級(jí)構(gòu)筑的第二層從第一層中得出,第三層從第二層中得出。該模型在語音處理應(yīng)用領(lǐng)域,特別是在用定位識(shí)別模式的詞匯和講話者識(shí)別領(lǐng)域非常有用。
文檔編號(hào)G10L15/00GK1514432SQ20031012124
公開日2004年7月21日 申請(qǐng)日期2003年12月15日 優(yōu)先權(quán)日2002年12月18日
發(fā)明者杰-弗朗索瓦·波納斯特雷, 菲利蒲·摩林, 杰-克勞德·約庫阿, 摩林, 偷隆ぴ伎獍, 杰-弗朗索瓦 波納斯特雷 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社