專利名稱:語音識別系統(tǒng)和方法
技術領域:
本發(fā)明總體上涉及語音識別系統(tǒng),尤其是使用對數(shù)-線性模型利用多種語音特征的語音識別系統(tǒng)。
背景技術:
語音識別系統(tǒng)用來識別來自未知的語音發(fā)聲的單詞序列。在一種舉例的語音識別系統(tǒng)中,用特征提取器從未知的發(fā)聲提取語音特征,比如倒頻譜(cepstra)和增量倒頻譜(delta cepstra)特征,以表征所述未知的發(fā)聲。然后進行搜索,比較從未知的發(fā)聲提取出來的特征與語音單元(比如短語、單詞、音節(jié)、音素、次音素等)模型,從而計算不同的單詞序列假設的概率分數(shù)。一般,通過去除不太可能的假設來限制搜索空間。與最高分數(shù)或者最高似然性或者最高概率相關的單詞序列被識別為所述未知的發(fā)聲。除了聲音模型之外,在計算單詞序列假設的總體分數(shù)時,還使用語言模型。語言模型用于確定不同的單詞序列的相對似然性。
通過訓練操作,確定語音識別模型的參數(shù)。語音識別模型可以用來對作為聲音特征的序列的語音,或者由次音素、音素、音節(jié)、單詞、短語等的不可觀測的“真實(正確,true,truth)”狀態(tài)序列產(chǎn)生的觀測結果建模。從訓練操作輸出的模型參數(shù)常常被估計為將訓練觀察結果的似然性最大化。通過將訓練數(shù)據(jù)的似然性最大化,確定用于語音識別的參數(shù)的最優(yōu)集合。語音識別系統(tǒng)利用在給定觀測到的語音信號的情況下的最大后驗概率來確定單詞序列,從而識別未知的語音發(fā)聲。通過搜索過程確定最佳的單詞序列假設,所述搜索過程考慮搜索空間內(nèi)所有可能的假設的分數(shù)。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的作為舉例的方面,提供了一種語音識別系統(tǒng)。
根據(jù)本發(fā)明的各種實施例,提供了具有多種語音特征的對數(shù)-線性模型的組合以識別未知的語音發(fā)聲。
根據(jù)本發(fā)明的各種實施例,所述語音識別系統(tǒng)對假設的后驗概率(posterior probability),也就是在給定觀測到的語音信號(以及可能的其它信息)的情況下語言單元序列的條件概率,使用一種對數(shù)-線性模型進行建模。
根據(jù)這些舉例的方面,后驗模型(posterior model)在給定的觀測到的語音特征以及后驗模型的參數(shù)的前提下,獲取語言單元序列的概率。
根據(jù)本發(fā)明的這些舉例的方面,可以在給定多種語音特征的情況下使用單詞序列假設的概率來確定所述后驗模型。也就是,根據(jù)這些舉例的方面,在給定多種語音特征的情況下,使用帶有定時信息和標記的單詞序列的概率來確定后驗模型。
根據(jù)本發(fā)明的各個舉例的方面,所使用的語音特征可以包括異步的、重疊的以及統(tǒng)計上不獨立的語音特征。
根據(jù)本發(fā)明的各個舉例的方面,使用對數(shù)-線性模型(log-linearmodel),其中,可以使用少量的或者不完全的訓練數(shù)據(jù)來訓練參數(shù)。
根據(jù)本發(fā)明的各個舉例的方面,并非在訓練中使用的所有特征都需要出現(xiàn)在檢測/識別中。
圖1圖示了實現(xiàn)本發(fā)明的舉例的方面的一個舉例的語音處理系統(tǒng);圖2圖示了實現(xiàn)本發(fā)明的舉例的方面的一個舉例的語音識別系統(tǒng);圖3圖示了實現(xiàn)本發(fā)明的舉例的方面的一個舉例的語音處理器;圖4圖示了實現(xiàn)本發(fā)明的舉例的方面的一個舉例的解碼器;
圖5是一個流程圖,圖示了根據(jù)本發(fā)明的舉例的方面的數(shù)據(jù)訓練;圖6是根據(jù)本發(fā)明的舉例的方面的語音識別的流程圖。
具體實施例方式
下面的說明詳細描述了如何實現(xiàn)本發(fā)明的作為舉例的各個方面。在整個說明書中,要參考附圖1到6。當參考附圖時,類似的結構和部件用類似的附圖標記表示。
優(yōu)選實施例的說明在圖1中,圖示了實現(xiàn)本發(fā)明的舉例的各方面的一個舉例的語言處理系統(tǒng)1000。需要注意,圖1的語音處理系統(tǒng)只是用于說明的目的,它只是能夠實現(xiàn)本發(fā)明的各個方面的無數(shù)結構中的一種代表性結構。因此,不應將本發(fā)明視為局限于示于圖中的系統(tǒng)結構。
如圖1所示,該語言處理系統(tǒng)1000包括一個電話系統(tǒng)210、一個語音傳輸系統(tǒng)220、一個語音輸入裝置230以及一個服務器300。終端110-120通過電話網(wǎng)絡215連接到電話系統(tǒng)210,終端140-150通過數(shù)據(jù)網(wǎng)絡225連接到語音傳輸系統(tǒng)220。如圖1所示,電話系統(tǒng)210、語音傳輸系統(tǒng)220和語音輸入裝置230被連接到語音識別系統(tǒng)300。該語音識別系統(tǒng)300還被連接到一個語音數(shù)據(jù)庫310。
在工作時,一個遠程用戶通過網(wǎng)絡215或者225從終端110-150之一發(fā)送語音,或者直接從語音輸入裝置230發(fā)送語音。響應該輸入的語音,終端110-150運行各種語音識別和終端應用。
語音識別系統(tǒng)300接收所述輸入的應用,并將語音識別結果提供給輸入終端或者輸入裝置。
該語音識別系統(tǒng)300可以包括或者可以連接到一個語音數(shù)據(jù)庫310,該語音數(shù)據(jù)庫包括訓練數(shù)據(jù)、語音模型、元數(shù)據(jù)、語音數(shù)據(jù)以及它們的正確轉換、語言和發(fā)音模型,等等。該語音識別系統(tǒng)300然后將最優(yōu)的單詞序列作為識別結果輸出,它或者可以提供一個與置信度分數(shù)對應的單詞序列假設結果的陣列。
根據(jù)本發(fā)明的各個舉例的方面,所述陣列可以具有多種實施方式,包括用圖表概括假設結果的集合,所述圖表可以具有復雜的拓撲結構。應當理解,如果圖表包括環(huán),則假設結果的集合可能是無限的。
如上所述,盡管上述實施例以特定的實施例描述了語言處理系統(tǒng)1000,該語言處理系統(tǒng)1000可以是現(xiàn)有技術中已知的用于語音處理的任何系統(tǒng)。因此,可以預期,語言處理系統(tǒng)1000可以被配置為包括本領域普通技術人員所知的各種拓撲結構和協(xié)議。
例如,可以理解,盡管圖1僅僅圖示了2個終端和一個語音輸入裝置,本發(fā)明的各個舉例的方面不限于任何特定數(shù)目的終端和輸入裝置。因此,可以預期,可以在本發(fā)明中應用任何數(shù)目的終端和輸入裝置。
圖2圖示了實現(xiàn)本發(fā)明的舉例的各方面的一個舉例的語音識別系統(tǒng)300。如圖2所示,該語音識別系統(tǒng)300包括一個語音處理器320、一個存儲裝置340、一個輸入裝置360和一個輸出裝置380,它們都通過總線395連接起來。
在工作時,語音識別系統(tǒng)300的處理器320通過輸入裝置360從在終端110-150或者語音輸入裝置230處的用戶接收包括未知的發(fā)聲和元數(shù)據(jù)的輸入語音數(shù)據(jù),所述元數(shù)據(jù)比如是呼叫者ID、發(fā)話者性別、通道條件等等。然后,語音處理器320根據(jù)存儲在存儲裝置340中或者通過輸入裝置360從數(shù)據(jù)庫310接收的合適的模型來進行語音識別。該語音處理器320然后通過輸出裝置380將識別結果發(fā)送到在請求終端110-150或者語音輸入裝置230處的用戶,或者計算機媒介(計算機媒介可以執(zhí)行對于用戶所說的內(nèi)容來說合適的動作)。
盡管圖2圖示了語音識別系統(tǒng)的一種特定形式,應當理解,其它的布局也是可能的,本發(fā)明的各個方面不限于這樣的布局。
在上述實施例中,該語音處理器320可以根據(jù)存儲在存儲器340或者數(shù)據(jù)庫310中的數(shù)據(jù)來提供識別結果。但是,可以理解,本發(fā)明的各個舉例的方面不限于這種布局。
圖3圖解了實現(xiàn)本發(fā)明的舉例的各方面的一個舉例的語音處理器320。如圖3所示,該語音處理器320包括一個解碼器322,該解碼器利用與使用對數(shù)-線性模型的語音識別有關的語言單元的后驗概率來識別未知的發(fā)聲。也就是,根據(jù)所確定的概率,解碼器322確定具有最高概率的最優(yōu)單詞序列,并將該單詞序列作為識別的輸出結果進行輸出。解碼器可以對可能假設陣列進行修剪,以限制搜索空間,減少計算時間。
解碼器322還被連接到一個訓練存儲器325和模型存儲器327,訓練存儲器325存儲用于訓練的語音數(shù)據(jù)和它們的正確轉換,模型存儲器327存儲從訓練操作獲得的模型參數(shù)。
圖4進一步詳細地圖示了圖3的解碼器。如圖4所示,解碼器322包括一個特征提取器3222、一個對數(shù)-線性函數(shù)3224和一個搜索裝置3226。
在工作時,在訓練操作期間,將訓練數(shù)據(jù)輸入與來自訓練存儲器325的正確單詞轉換一起輸入到解碼器322中,在這里產(chǎn)生模型參數(shù)并輸出到模型存儲器327,以便在語音識別操作中使用。在語音識別操作過程中,將未知的語音數(shù)據(jù)與訓練操作期間存儲在模型存儲器327中的模型參數(shù)一起輸入到解碼器322中,輸出最優(yōu)的單詞序列。
如圖3和圖4所示,在訓練操作期間,將訓練數(shù)據(jù)與元數(shù)據(jù)以及真實數(shù)據(jù)一起輸入到特征提取器3222中,所述真實數(shù)據(jù)(truth)來自真實數(shù)據(jù)部件(truth element)325,可以由正確轉換組成,正確轉換一般是單詞,但也可以是其它語言單位,比如短語、音節(jié)、音素、聲音語音學特征(acoustic phonetic features)、次音素,等等。一起輸入的還可能但不一定有用于將正確轉換中的語言單位與相應的語音片斷相匹配的時間對準信息(time alignments)。也就是,執(zhí)行訓練操作以確定正確數(shù)據(jù)的最大似然性。特征提取器3222使用多種提取部件從輸入數(shù)據(jù)提取多種特征。應當理解,根據(jù)本發(fā)明的舉例的各方面,所述各特征最好是異步的、重疊的以及統(tǒng)計上不獨立的等。所述提取部件包括但不限于直接匹配部件、同步語音部件、語言語義語用特征部件,等等。
例如,作為舉例的直接匹配部件可以相對于數(shù)據(jù)庫中的各種參考語音片斷計算動態(tài)時間扭曲分數(shù)(dynamic time warping score)。可以從傳統(tǒng)特征比如嘜耳倒頻譜(mel cepstra)特征獲得同步語音特征。聲音語音學特征可以是異步特征,包括語言區(qū)別特征比如聲帶的牽動(voicing)、發(fā)音位置(place of articulation)等。
應當理解,根據(jù)本發(fā)明的各個實施例,這些特征提取器中的任何一個都不需要是完全精確的。特征可以包括也可以不包括從特定單詞序列假設提取的較高級信息,例如從語義或者語法分析樹或者從語用或者語義相關性提取的較高級信息。特征還可以是元數(shù)據(jù)比如發(fā)話者信息、說話速度、通道條件等。
然后將所述多個提取的特征提供給一個對數(shù)-線性函數(shù)3224,該函數(shù)利用所述對數(shù)-線性模型的參數(shù),在給定提取的特征(可能還有假設的語言單元與語音數(shù)據(jù)的特定時間對準)的前提下,計算假設的語言單元或者序列的后驗概率。在訓練過程中,正確的單詞序列是已知的,例如,通過人工轉換語音來創(chuàng)建正確的序列。但是,由于發(fā)音的變化等,可能存在構成單詞序列的多個有效的語言單位選擇,例如音素。所有有效的序列可以被簡潔地表達為一個陣列(lattice)。另外,任何特定單元序列對語音的正確時間對準可以是也可以不是已知的。訓練器(圖中未圖示)以可能的與語音的時間對準來使用提取的特征、正確的單詞序列或者語言單位序列,以優(yōu)化對數(shù)-線性模型的參數(shù)。
這樣,在訓練時,對數(shù)-線性輸出可以被提供給搜索裝置3225,該搜索裝置可以進一步求精,提供更好的語言單位序列選擇,以及語言單位序列和語音的更精確的時間對準。然后將該新的對準循環(huán)回特征提取器3222作為反饋(FEEDBACK),第二次重復所述過程以優(yōu)化模型參數(shù)。應當理解,通過人工標注或者通過隱式馬爾可夫模型技術(hidden Markov model),初始時間對準可以自展(bootstrapped)。這樣,確定了對應于最佳似然性的模型參數(shù),作為訓練模型參數(shù),然后送往模型數(shù)據(jù)部件327,在這里它們被存儲起來用于以后的語音識別操作。
在本發(fā)明的各種實施例中,用下述算法中的任何一種算法訓練所述對數(shù)-線性模型。所述算法包括改進的迭代縮放(iterative scaling)、迭代縮放、有前置條件的共軛梯度,等等。訓練的結果是在某些標準方面優(yōu)化模型的參數(shù),所述標準比如是最大似然性或者受某些約束的最大熵(平均信息量)。訓練由一個訓練器(未圖示)進行。該訓練器使用特征提取器提供的特征、正確的語言單元序列以及相應的與語音的時間對準。
在一個實施例中,通過現(xiàn)有技術的隱式馬爾可夫模型識別系統(tǒng)(未圖示)進行預處理,以提取所述特征,并排列目標單元序列。例如,可以用隱式馬爾可夫模型將語音幀與最優(yōu)的次音素狀態(tài)序列(sub-phone state sequence)對準,確定排序最前的高斯分布(Gaussian)。也就是,在隱式馬爾可夫模型內(nèi),傳統(tǒng)特征比如嘜耳倒頻譜(mel cepstra)特征的高斯概率模型,這種模型是預定的語音幀的最佳匹配。在此實施例中,次音素狀態(tài)訓練和排序的高斯數(shù)據(jù)是用來訓練對數(shù)-線性模型的特征。
應當理解,此實施例只是一個特定的實現(xiàn)方式,在本發(fā)明的各個方面,也可以使用許多其它的使用對數(shù)-線性模型的訓練實施例。
在語音識別操作期間,要識別的語音數(shù)據(jù)與元數(shù)據(jù)一道被輸入到特征提取器3222中,一道輸入的還可能有包括搜索裝置3226的當前搜索空間的陣列。該陣列可以是由基于隱式馬爾可夫模型的已知技術預先生成的,或者是基于前一輪識別產(chǎn)生的。該陣列是在該搜索空間中考慮的各種可能的假設的分數(shù)/概率的當前集合的簡潔表達。特征提取器3222然后從輸入數(shù)據(jù)利用多個提取部件提取多個特征。應當理解,根據(jù)本發(fā)明的各個舉例的方法,所述特征可以是異步的、重疊的、統(tǒng)計上不獨立的特征等。所述提取部件包括但不限于直接匹配部件、同步語音部件、聲音語音學部件、語言語義語用特征部件,等等。然后將所提取的所述多個特征提供給對數(shù)-線性函數(shù)3224。
設置所述搜索裝置3226來確定所有可能的單詞序列中的最優(yōu)單詞序列。在一個實施例中,通過剪除不太可能的單詞序列,所述搜索裝置3226將搜索限制到最有希望的候選結果。該搜索裝置3226就所有或者部分單詞或者其它單元序列的似然性參考所述對數(shù)-線性函數(shù)3224。搜索裝置3226所考慮的搜索空間可以由一個陣列連同分數(shù)/概率來表示,該陣列是積極考慮下的假設結果的簡潔表達。這樣的陣列被輸入到搜索裝置,約束搜索空間,或者約束搜索裝置3226完成工作后的輸出,以更新陣列中的概率或者剪除不太可能的路徑。該搜索裝置3226也可以有利地以非對數(shù)-線性的方式將來自對數(shù)-線性函數(shù)3224的概率/分數(shù)與來自其它模型比如語言模型、隱式馬爾可夫模型等的概率/分數(shù)組合起來,所述非對數(shù)-線性的方式比如是在進行動態(tài)范圍補償(dynamic range compensation)之后的線性內(nèi)插。但是,語言模型和隱式馬爾可夫模型信息也可以被當作在對數(shù)-線性函數(shù)3224中被組合的特征。
搜索裝置3226的輸出是搜索空間中所有的假設結果中具有最高后驗概率的最優(yōu)單詞序列。所述輸出也可以輸出一個經(jīng)過高度修剪的陣列,其中,一個例子可以是高度似然假設結果的N最佳列表,它們可以由計算機媒介用來采取進一步動作。搜索裝置3226也可以輸出一個具有更新的分數(shù)和可能的對準的陣列,所述更新的分數(shù)和可能的對準可以被反饋給特征提取器3222和對數(shù)-線性函數(shù)3224,以對分數(shù)/概率求精。應當理解,根據(jù)本發(fā)明的各個實施例,該最后一步是可選的。
如上面的實施例所述,在本發(fā)明的舉例的各方面的語音識別系統(tǒng)中,在搜索空間中存在許多可能的單詞序列,這些單詞序列理論上由詞匯表中的任何單詞序列構成,因此,由解碼器322進行一種有效率的搜索操作,以獲得最優(yōu)單詞序列。應當理解,如圖4中的反饋環(huán)所示,可以應用單遍解碼(single-pass decoding)或者多遍解碼(multiple-passdecoding),其中,可以在第一遍中使用一個粗糙的模型來產(chǎn)生一個陣列或者頂級假設的列表,然后可以循環(huán)回去,在隨后的一遍中用更細致的模型重新計分。
在多遍解碼中,評估陣列中每一個單詞序列的概率。每一個具體單詞序列的概率可能與其組成次音素狀態(tài)序列的最佳排列的概率相關。應當理解,根據(jù)本發(fā)明的各個實施例,可以在任何種類的排列過程(alignment process)中找到最佳排列的狀態(tài)序列,而本發(fā)明不限于任何特定的排列。
使用新的模型進行具有最高概率的單詞序列的選擇,以進行單詞識別。
應當理解,根據(jù)本發(fā)明的各種實施例,可以將來自各種模型的概率與來自本發(fā)明的各個實施例的對數(shù)-線性模型的概率試探地組合起來。特別地,可以組合多個分數(shù),包括通過動態(tài)范圍補償后的線性內(nèi)插后傳統(tǒng)的隱式馬爾可夫模型似然性分數(shù)、語音模型分數(shù),與來自本發(fā)明的各個實施例的對數(shù)-線性模型的概率分數(shù)。
根據(jù)本發(fā)明的各個實施例,搜索裝置3226在確定不同序列的分數(shù)/概率時反復參考對數(shù)-線性函數(shù)3224。該搜索裝置3226參考所述陣列來確定要考慮什么樣的假設。陣列中的每一個路徑對應于一個單詞序列,并具有存儲在該陣列中的相關概率。
在本發(fā)明的上述實施例中,基于給定多個語音特征的情況下假設結果的后驗概率,確定對數(shù)-線性模型。對數(shù)-線性模型允許以統(tǒng)一的方式進行多特征的潛在組合。例如,可以將異步和重疊特征形式上混合起來。
作為一個簡單的例子,后驗概率可以被表示為與給定了聲音序列的情況下某個假設結果相關的序列的概率 其中Hj是包含單詞(或者其它語言單位)序列wlk=w1w2...wk的一個序列的第j個假設結果;i是表示第i個單詞(或者單元)的下標;k是所述假設結果中單詞(單元)的數(shù)量;T是語音信號的長度(例如幀數(shù));wlk是與假設結果Hj有關的單詞序列;olT是聲音觀測結果序列。
在上述等式(1)中,條件概率可以用一個最大熵對數(shù)-線性模型來表示P(wi|w1i-1,o1T)=eΣjλjfj(wi,w1i-1,o1T)Z(w1i-1,w1T),---(2)]]>其中λ1是對數(shù)-線性模型的參數(shù);f1是提取的多個特征;Z是確保等式2是真正的概率(和為1)的歸一化因子。歸一化因子是條件變量的函數(shù)。
如上面的實施例所示,根據(jù)本發(fā)明的各個舉例的方面,示于圖1到4的語音識別系統(tǒng)用對數(shù)-線性模型對與語音識別有關的語言單元的后驗概率進行建模。如上所示,后驗模型在給定了觀測到的語音特征和后驗模型的參數(shù)的前提下獲取語言單元的概率。這樣,后驗模型可以在給定了多個語音特征的前提下確定單詞序列假設結果的概率。
應當理解,上述表達只是一個例子。根據(jù)本發(fā)明的各個方面,可以應用無數(shù)的變型。例如,序列wlk不一定是單詞序列,也可以是短語、音節(jié)、音素、次音素單元的序列,以及與說出的句子相關的類似單元。另外,要理解,本發(fā)明的各個方面的模型因此可以應用在語言等級結構的不同層次,并且所述特征可以包括許多種可能,包括同步的和異步的,不相交的和重疊的,相關的和不相關的,片斷的和超片斷的,聲音語音學的,等級語言學的,元數(shù)據(jù),更高級的知識,等等。
根據(jù)本發(fā)明的各個舉例的方面進行建模時,所使用的語音特征可以包括異步的、重疊的和統(tǒng)計上不獨立的語音特征。
在本發(fā)明的各個方面,一個特征可以被定義為具有下述屬性的函數(shù)f
其中 表示決定概率的每一樣東西,可以包括上下文和觀測結果,b是表示條件事件的某些屬性的二元函數(shù),w是目標(或者預測)狀態(tài)/單元比如單詞,α是該函數(shù)的權重。
也就是,一個特征是一個取決于上下文和觀測結果的可計算的函數(shù),可以認為其對于特定的上下文/觀測結果和特定的預測例如wi被激發(fā)或者變?yōu)榛顒拥摹?br>
應當理解,函數(shù)α的權重可以等于1或0,或者是實數(shù)值。例如,在一個實施例中,權重α可以與是否在語音信號中檢測到屬性這一事實的置信度有關,或者與該屬性的重要性有關。
根據(jù)本發(fā)明的各個舉例的方面,從解碼器322輸出的陣列可以由多于一個的分數(shù)組成。例如,可以獲得最前預定數(shù)量的匹配的分數(shù)。另外,搜索裝置3226可以使用其它數(shù)據(jù),包括諸如下述信息的信息從隱式馬爾可夫模型解碼器獲得的隱式馬爾可夫模型分數(shù),動態(tài)時間扭曲的不同匹配級的分數(shù)比如單詞對音節(jié)對音位變體。
組合不同的分數(shù)的一個舉例的方法是使用對數(shù)-線性模型,然后訓練該對數(shù)-線性模型的參數(shù)。
例如,可以用不同分數(shù)的線性組合的和的指數(shù)給出路徑Hi的后驗概率的對數(shù)-線性模型P(Hi)=exp(-Σw∈HiΣjαjFwj)/Z---(4)]]>其中
Fwj是單詞w跨過的片段的第j個分數(shù)特征。例如,如果用各種已知的動態(tài)時間扭曲和隱式馬爾可夫模型技術(圖中未明確圖示)獲得的最前10個動態(tài)時間扭曲分數(shù)和隱式馬爾可夫分數(shù)被返回,則對于陣列中的每一個單詞來說有11個分數(shù)特征。
Z是指數(shù)項在所有路徑(H1...3)上的和Z=Σiexp(-Σw∈HiΣjαjFwj]]>給出的歸一化常數(shù),需要它來確保等式(4)是真正的概率,也就是和為1。
對于在訓練數(shù)據(jù)上產(chǎn)生的陣列,可以通過在所有的訓練數(shù)據(jù)上求假設結果的概率的最大值來估計參數(shù)αj。應當理解,上述實施例只是一個例子,由于可以使用等級結構分段,可以通過加入音節(jié)和音位變體特征來修改上述等式(4)。所述權重參數(shù)αj可以具有自己的依賴性。例如,它們可以是單詞長度的函數(shù),或者用于該單詞/音節(jié)/音素等的訓練樣本的數(shù)量的函數(shù)。
還應當理解,等式(4)可以進一步推廣,使得其指數(shù)是推廣特征的加權和,每一個推廣特征是路徑Hi以及聲音觀測序列olT的函數(shù)。
另外,應當理解,在此架構中還可以包括其它表示“非言語信息”的特征(所述非言語信息比如是檢測和訓練序列是否來自同一性別、同一發(fā)話者、同一噪聲條件、同一音素上下文,等等),本發(fā)明的各個舉例的方面不限于上述實施例。
在其它的實施例中,單個的單詞分數(shù)Ewj本身可以被采納為來自對數(shù)-線性模型的后驗單詞概率。即使使用大量的特征,也可以非常容易地計算對數(shù)-線性模型。特征的例子包括動態(tài)時間扭曲、隱式馬爾可夫模型,等等。
根據(jù)本發(fā)明的各舉例的方面,用對數(shù)-線性模型來最佳地利用探測到的特征的任何給定集合,而不使用關于不存在的特征的假設。也就是,與其它需要在訓練和檢測操作中使用同一組特征的模型比如隱式馬爾可夫模型不同,對數(shù)-線性模型不對未觀測的特征進行假設,因此當某些特征因為噪聲掩蓋而不能被觀測時,對數(shù)-線性模型將對其它可用特征加以最佳利用。
根據(jù)本發(fā)明的舉例的各方面,通過用對數(shù)-線性模型訓練已知的模型,或者通過用要與本發(fā)明的對數(shù)-線性模型組合的已知模型進行解碼,語音識別系統(tǒng)完全利用已知的模型,以獲得第一陣列。
根據(jù)本發(fā)明的各個實施例,在一個傳統(tǒng)高斯分布混合模型中,提供了對數(shù)-線性模型,其除了利用許多可能的特征之外,還利用作為傳統(tǒng)的短時頻譜特征的最佳匹配的高斯分布的同一性(identities of theGassians)以及語音片斷與大量訓練數(shù)據(jù)的匹配,該混合模型包括頻譜特征比如在隱式馬爾可夫模型中廣泛使用的嘜耳倒頻譜特征的高斯分布的加權組合。
根據(jù)本發(fā)明的各個舉例的方面,可以獲得不需要在訓練中使用的所有特征都在檢測/識別操作中出現(xiàn)這樣的好處。也就是,如果使用對數(shù)-線性模型之外的模型,則如果在訓練中使用的特征不在檢測中出現(xiàn),則會獲得“失配條件”,性能就差。因此,如果在訓練中使用的某些特征被噪聲遮蔽而在檢測數(shù)據(jù)中不存在,則除了對數(shù)-線性模型以外的模型的使用常常導致失敗。
圖5圖示了根據(jù)本發(fā)明的各個舉例的方面,用于數(shù)據(jù)訓練的方法的流程圖。開始于步驟5000,控制前進到步驟5100,在這里將訓練數(shù)據(jù)和元數(shù)據(jù)輸入到解碼器中。該數(shù)據(jù)包含一般收集并預先存儲在訓練存儲器中的語音數(shù)據(jù),包括所存儲的正確值。應當理解,元數(shù)據(jù)可以包括諸如發(fā)話者性別或者身份、記錄通道、發(fā)話者的個人簡檔這樣的信息。所述正確值(truth)一般可以由真人轉換員創(chuàng)建的正確單詞序列轉換構成。接下來,在步驟5200,將一個模型輸入解碼器。該模型是預先存儲在模型存儲器中的一般模型。然后在步驟5300,輸入一個預先存儲的陣列??刂七^程然后前進到步驟5400。
在步驟5400,提取多個特征,進行搜索。這些特征包括從傳統(tǒng)的頻譜特征比如嘜耳倒頻譜以及時間導數(shù)、聲音語音學或者與發(fā)音有關的區(qū)別特征比如聲帶的牽動、發(fā)音位置等的特征,來自與語音片斷的動態(tài)時間扭曲匹配的分數(shù),從特定單詞序列假設提取的,例如從語義或者語法分析樹、語用或者語義相關性等提取的更高級信息,語速和通道條件,等等。應當理解,在本步驟中提取的某些特征可以包括將在此過程中被更新的對數(shù)-線性模型或者其它模型。
根據(jù)本發(fā)明的各種實施例,在此步驟中,用對數(shù)-線性函數(shù)確定具有分數(shù)的陣列、目標函數(shù)和輔助統(tǒng)計數(shù)據(jù)。應當理解,由于在此過程中要訓練多個模型,也就是給出總體分數(shù)的對數(shù)-線性模型以及任何其它用于特征提取的模型,要計算多個目標函數(shù)。頂層目標函數(shù)是要被最大化的完全后驗似然性。應當理解,有多種用于特征提取的目標函數(shù)。在各種實施例中,這些目標函數(shù)種類包括后驗似然性、直接似然性、距離等。
在此步驟中,探索與正確單詞序列轉換一致的不同單元序列假設以及它們的相應的時間對準(時間排列),確定部分和全部(整個)序列的概率。經(jīng)過修剪的組合的結果確定一個帶分數(shù)的更新陣列。
應當理解,根據(jù)本發(fā)明的各個舉例的方面,在此步驟中計算的輔助統(tǒng)計數(shù)據(jù)可以包括梯度函數(shù),以及使用輔助函數(shù)技術進行優(yōu)化所需的其它統(tǒng)計數(shù)據(jù)。
下一步,在步驟5500,判斷目標函數(shù)是否足夠接近優(yōu)化。應當理解,有多種最優(yōu)性檢驗標準,包括目標函數(shù)或者梯度的增加的閾值。如果沒有達到最優(yōu)性,則控制過程前進到步驟5600,在這里更新模型,然后控制過程返回步驟5200。在步驟5600,用輔助統(tǒng)計數(shù)據(jù)對模型進行更新。還應當理解有多種更新模型的方法,包括但不限于準牛頓梯度(quasi-Newton gradient)搜索、推廣的迭代縮放(iterative scaling)、擴展的鮑姆-韋爾奇方法(Baum-Welch),以及期望值最大化。
還應當理解,有效率的實現(xiàn)方式可以在一個迭代中只更新參數(shù)的一個子集,這樣,在步驟5400,只需要執(zhí)行有限的計算。這種限制可以包括只更新單個特征提取器。
如果已經(jīng)達到了最優(yōu),控制過程前進到步驟5700,其中輸出模型參數(shù)。然后,在步驟5900,過程結束。
圖6圖示了根據(jù)本發(fā)明的各個舉例的方面的語音識別方法的流程圖。始于步驟6000,控制過程前進到步驟6100,其中,將檢測輸入輸入到解碼器。根據(jù)本發(fā)明的各實施例,從遠程終端的用戶通過電話或者數(shù)據(jù)網(wǎng)絡接收所述檢測數(shù)據(jù),或者從位于語音輸入裝置的用戶接收所述檢測數(shù)據(jù)。所述數(shù)據(jù)還可以包括元數(shù)據(jù)比如發(fā)話者性別或者身份、記錄通道、發(fā)話者個人簡檔等等。下一步,在步驟6200,輸入模型。在訓練操作中該模型被存儲在模型存儲器327中。然后,在步驟6300,輸入一個預存的假設陣列??刂迫缓笄斑M到步驟6400。
在步驟6400,提取多個特征,用這些特征的對數(shù)-線性模型執(zhí)行搜索。這些特征包括來自傳統(tǒng)頻譜特征的特征。應當理解,在此步驟中提取的某些特征可以用對數(shù)-線性模型或者其它模型確定。
在此步驟中,探索不同的單元序列假設連同它們的相應時間排列,確定部分和全部(整個)序列的概率。應當理解,此步驟的該搜索受前一輸入陣列的約束。經(jīng)過修剪的組合的結果確定一個帶分數(shù)的更新陣列。應當理解,該更新陣列的一個特定實施例可以是單個最可能的假設。
下面,在步驟6500,判斷是否需要再來一遍。如果需要再來一遍,則控制過程返回到步驟6200。應當理解用在以后各遍中的特征和模型可以變化。步驟6400的陣列輸出可以用作步驟6300的輸入陣列。或者,如果不需要再來一便,則控制前進到步驟6600,在這里輸出最優(yōu)單詞序列。也就是,輸出對應于陣列中具有最高分數(shù)的假設的單詞序列。應當理解,在另外的實施例中,輸出陣列。
然后過程前進到步驟6700,過程結束。
上面對本發(fā)明的描述是用于說明的目的,而不是要窮盡本發(fā)明或者將本發(fā)明限制到這里所公開的具體形式??紤]到上述公開內(nèi)容,其它的修改和變動是可能的。因此,這里所公開的實施例只是為了更好地解釋本發(fā)明的原理,其實際應用使得本領域的普通技術人員能夠以各種實施方式和對本發(fā)明的特定用途合適的各種修改來最佳地利用本發(fā)明。所附權利要求應當理解為包括本發(fā)明的除現(xiàn)有技術之外的其它各種實施方式。
權利要求
1.一種語音識別系統(tǒng),包括提取多個語音特征的特征提取器;接收所述多個語音特征以在給定提取的多個語音特征的前提下確定假設的語言單元的后驗概率的對數(shù)-線性函數(shù);以及搜索裝置,參考所述對數(shù)-線性函數(shù),確定未知的發(fā)聲的識別輸出。
2.如權利要求1所述的語音識別系統(tǒng),其中,所述對數(shù)-線性函數(shù)用一個對數(shù)-線性模型對所述后驗概率建模。
3.如權利要求1所述的語音識別系統(tǒng),其中,所述語音特征包括異步、重疊以及統(tǒng)計上不獨立的語音特征中的至少一個。
4.如權利要求1所述的語音識別系統(tǒng),其中,至少一個提取的所述語音特征源自不完全的數(shù)據(jù)。
5.如權利要求1所述的語音識別系統(tǒng),還包括一個反饋環(huán)(loopback)。
6.如權利要求1所述的語音識別系統(tǒng),其中,使用檢測數(shù)據(jù)和訓練數(shù)據(jù)之間的直接匹配來提取所述特征。
7.一種語音識別方法,包括提取多個語音特征;在給定提取的多個語音特征的前提下,確定假設的語言單元的后驗概率;以及利用一個對數(shù)-線性函數(shù),確定未知的發(fā)聲的識別輸出。
8.如權利要求7所述的語音識別方法,其中,所述對數(shù)-線性函數(shù)使用一個對數(shù)-線性模型對所述后驗概率建模。
9.如權利要求7所述的語音識別方法,其中,所述語音特征包括異步、重疊以及統(tǒng)計上不獨立的語音特征中的至少一個。
10.如權利要求7所述的語音識別方法,其中,至少一個所述語音特征源自不完全的數(shù)據(jù)。
11.如權利要求7所述的語音識別方法,還包括一個回送步驟。
12.如權利要求7所述的語音識別方法,其中,利用檢測數(shù)據(jù)和訓練數(shù)據(jù)之間的直接匹配來提取所述特征。
全文摘要
本發(fā)明公開了一種語音識別系統(tǒng)和方法。在語音識別系統(tǒng)中,提供對數(shù)-線性模型與多個語音特征的組合,以識別未知的語音發(fā)聲。該語音識別系統(tǒng)用對數(shù)-線性模型對與語音識別有關的語言單元的后驗概率進行建模。該后驗模型在給定了觀測到的語音特征和后驗模型的參數(shù)的前提下獲取語言單元的概率??梢栽诮o定了多個語音特征的前提下用單詞序列假設的概率確定所述后驗模型。利用從少量的數(shù)據(jù)或者不完全的數(shù)據(jù)得到的特征來使用對數(shù)-線性模型。所使用的語音特征可以包括異步、重疊和統(tǒng)計上不獨立的特征。不是所有在訓練中使用的特征都需要出現(xiàn)在檢測/識別中。
文檔編號G10L15/00GK1622196SQ20041005868
公開日2005年6月1日 申請日期2004年7月28日 優(yōu)先權日2003年11月28日
發(fā)明者斯科特·E·阿克塞羅德, 斯里拉姆·維斯瓦納·巴拉克漢, 斯坦利·F·陳, 高雨青, 拉梅什·A·戈皮納特, 郭宏光, 貝諾特·邁松, 大衛(wèi)·那哈姆, 邁克爾·阿蘭·皮奇尼, 喬治·A·薩翁, 杰弗里·G·芝威哥 申請人:國際商業(yè)機器公司