專利名稱:語音識別系統(tǒng)中的逆向追蹤矩陣存儲方法
本申請涉及語音識別,更具體地說是涉及語音識別系統(tǒng)中存儲逆向追蹤網(wǎng)格信息的方法。
在一個依賴說話者的語音識別系統(tǒng)中,使用者必須登錄他們在使用該系統(tǒng)時所希望得到的詞匯詞。一個詞匯“詞”可以是單個的被說出的詞或一個短語,而所選擇的詞匯詞依賴于具體的應用。例如,在便攜式無線電話中語音識別的實現(xiàn)可能需要使用者提供經常被呼叫者的名字和地址(例如“Fred辦公室”),或在用戶界面中通??傻玫降某S锰匦运玫拿?例如“蓄電池安時計”,“消息”,或“電話鎖定”)。
在登錄過程中,語音識別系統(tǒng)響應使用者的輸入,對每個詞匯詞提取出代表樣板。在一些系統(tǒng)中,這種樣板由一個含有一系列狀態(tài)的隱式馬爾科夫模型(HMM)表示。每個狀態(tài)表示一個語言發(fā)音(utterance)的有限一段這里使用“發(fā)音”表示一個“詞匯詞”,它可以包含一個或多個詞。HMM的每個狀態(tài)的統(tǒng)計表示是使用由使用者發(fā)音的具體詞匯詞的一個或多個登錄語音樣本計算出來的。這是通過幀的狀態(tài)賦值(frame-to-state assignment)來完成的。
這種狀態(tài)賦值用于訓練和語音識別兩種操作方式。具體地說,被賦值的狀態(tài)用于在訓練方式中建立模型,該模型在語音識別方式過程中作為比較基準。在語音識別操作方式中,對輸入發(fā)音的賦值能用于產生得分(score)信息和把輸入的發(fā)音與所存儲參考模型進行比較。
對位算法(alignment algorithm),例如Viterbi算法,用于發(fā)音的幀到狀態(tài)對位。這種對位算法提供了語言發(fā)音對模型的最好匹配,用于把詞匯詞發(fā)音的每一幀賦予該模型的單個狀態(tài)。利用這一賦值能改善對每個狀態(tài)的統(tǒng)計表示。
在幀對位過程中,通過找出發(fā)音幀與模型中狀態(tài)的最佳匹配來定義一個“路徑”。為做到這一點,在每一幀對HMM的每個狀態(tài)進行估值。如果被考查的語音已達到幀t,則這一估值過程的一部分確定哪些狀態(tài)導致的給定狀態(tài)在幀t-1處是最佳的。態(tài)。對于被完整連接的HMM,任何狀態(tài)都能轉移到其他狀態(tài)。所以,N個路徑進入每個狀態(tài)是可能的,這里N是狀態(tài)數(shù)。
利用這種技術,在對位算法過程中需要跟蹤哪些語音幀被映射到模型中的每個狀態(tài)。如果使用傳統(tǒng)的技術,這需要大的存儲器?,F(xiàn)有技術方法使用一個陣列,稱作逆向追蹤(traceback)矩陣,用于存儲每個幀的信息,詳細說明到達每個狀態(tài)的最好路徑。這通常需要一個大小為N×T的陣列,這里N是模型中的狀態(tài)數(shù),T是在一個發(fā)音中的最大幀數(shù)。由于N等于20和T等于300是常有的事,這種實現(xiàn)需要6000字存儲器。
為了能在便攜式裝置上實現(xiàn)依賴于說話者的訓練算法,例如在無線通信裝置上,在那里只有很小的隨機存儲存儲器(RAM)能被利用,因此需要有一種用于存儲逆向追蹤信息的技術使所需存儲器最小。于是,需要一種方法,它能在較小的存儲器中存儲為訓練一個HMM所需的逆向追蹤信息。
圖1是以方框圖形式說明一無線電話的電路圖。
圖2是以方框圖形式說明根據(jù)圖1的無線電話中的,語音識別電路的輸入電路。
圖3說明一個左到右隱式馬爾科夫模型,它帶有兩個被分成幀的相關語言發(fā)音。
圖4說明逆向追蹤網(wǎng)格,它伴有左到右模型中的所有可能的狀態(tài)轉移路徑,但不允許跳躍轉移。
圖5是使用狀態(tài)轉移類型記錄的逆向追蹤路徑的狀態(tài)轉移路徑的存儲器陣列。
圖6是說明在對位算法中信息存儲的流程圖。
圖7是說明對最好路徑產生幀到狀態(tài)對位操作的流程圖。
圖8說明對應于圖4的左到右無跳躍HMM。
圖9是能用于圖6流程圖的部分流程圖,以包含一個狀態(tài)跳躍。
圖10是能用于圖7流程圖的部分流程圖,以包含一個狀態(tài)跳躍。
這里公開一種用于語音識別的逆向追蹤矩陣更新和存儲的方法。在一依賴于說話者的登錄過程中,說話者提供被登錄語言發(fā)音的一次或多次重復。使用幀對位過程使這些發(fā)音的每一個匹配于一個現(xiàn)有的隱式馬爾科夫模型。在完成這一過程中,記錄發(fā)音中的短時分析幀和模型的各狀態(tài)之間對應關系的方法的有效性受到為每個狀態(tài)和幀存儲轉移類型(transition type)的影響。
圖1中公開的裝置100中能有利地利用本發(fā)明。為了說明的目的,這里把裝置100描述為一個便攜式無線電話,但它可以是一個計算機、一個個人數(shù)字助理或任何其他能有利地利用語音識別的裝置,特別是能利用高效存儲語音識別系統(tǒng)優(yōu)點的裝置。圖示的無線電話包括發(fā)射機102和接收機104,它們連于天線106。發(fā)射機102和接收機104連于一個呼叫處理器108,它完成呼叫處理功能??梢杂脭?shù)字信號處理器(DSP)、微處理器、微控制器、可編程邏輯單元、上述兩種或多種的組合、或任何其他適當?shù)臄?shù)字電路,來實現(xiàn)呼叫處理器108。
呼叫處理器108與存儲器110相連。存儲器110包含RAM、電可擦可編程只讀存儲器(EEPROM)、只讀存儲器(ROM)、閃爍ROM或類似存儲器,或者這些存儲器類型的兩種或多種的組合。存儲器110支持呼叫處理器108的操作,包括語音識別操作,而且必須包括一個電子可變存儲器以支持狀態(tài)轉移路徑存儲器。下文中將對此作更詳細描述??商峁㏑OM用于存儲該裝置的操作程序。
音頻電路112向呼叫處理器108提供來自送話器114的數(shù)字化信號。音頻電路112驅動揚聲器116響應來自呼叫處理器108的數(shù)字信號。
呼叫處理器108與一顯示處理器120相連。顯示處理器是可選的,如果希望對裝置100有附加的處理器支持的話。具體地說,顯示處理器120向顯示器126提供顯示控制信號和接收來自各鍵124的輸入。顯示處理器120能由微處理器、微控制器、數(shù)字信號處理器、可編程邏輯單元,它們的組合或類似裝置來實現(xiàn)。存儲器122與顯示處理器相連以支持其中的數(shù)字邏輯。存儲器122能用RAM、EEPROM、ROM、閃爍ROM、或其類似物、或兩種或多種這些類型存儲器的組合來實現(xiàn)。
參考圖2,由送話器114接收的音頻信號在音頻電路112的模一數(shù)轉換器202中被轉換成數(shù)字信號。本領域技術人員將會理解,音頻電路112提供額外的信號處理,如濾波,為了簡練,這里將不予描述。呼叫處理器108在送話器114輸出模擬信號的被處理的數(shù)字信號表示上完成特征提取204,并產生一組代表使用者發(fā)音的特征矢量。對每個短時分析窗產生一個特征矢量。短時分析窗是一幀,在這里所舉的實施例中是20ms。這樣,每幀有一個特征矢量。處理器108把這些特征用于語音識別206或訓練207。
在訓練過程中,發(fā)音的特征矢量被用于建立HMM形式的樣板,它們存儲在存儲器208中。在語音識別過程中,代表輸入發(fā)音的特征矢量與在存儲器208中存儲的詞匯詞樣板作比較,以確定使用者說了什么。系統(tǒng)可以輸出一個最好匹配、一組最好匹配、或可選地無匹配輸出。存儲器208最好是存儲器110(圖1)的非易失存儲器部分,例如可以是EEPROM或閃爍ROM。如這里所用的那樣,“詞”可以是不只一個詞,例如“John Doe”,或單個詞,如“call(呼叫)”。
如前文概述的那樣,存儲器208中存儲的詞匯詞是在訓練方式下創(chuàng)建的。例如,所存儲的詞匯詞在初始時每個是從兩個訓練信號,即發(fā)音U1和U2(圖3)中提取出來的,由各自的特征矢量組成,發(fā)音U1代表在訓練過程中說話者第一次說出一個特定詞時所存儲的信號。發(fā)音U2代表在訓練過程中說話者第二次說出一個特定詞時的信號。在所舉出的實例中,發(fā)音U1的長度不同于發(fā)音U2。本領域技術人中將會理解,可以使用多些或少些發(fā)音。
因為幀有相同長度,而發(fā)音UI和U2有不同長度,當每個發(fā)音由幀代表時,有不同長度的發(fā)音U1和U2將相應地有不同的幀數(shù)。多個幀F(xiàn)t構成一個發(fā)音。雖然通常發(fā)音將被標識為Ft,這里t是從1到T,但在圖3的表示符號中發(fā)音的幀被標認識Fab,這里a是發(fā)音號,b是幀號。具體地說,發(fā)音U1有10幀,即F11,F(xiàn)12,F(xiàn)13,F(xiàn)14,F(xiàn)15,F(xiàn)16,F(xiàn)17,F(xiàn)18,F(xiàn)19和F110。發(fā)音2有12幀,即F21,F(xiàn)22,F(xiàn)23,F(xiàn)24,F(xiàn)25,F(xiàn)26,F(xiàn)27,F(xiàn)28,F(xiàn)29,F(xiàn)210,F(xiàn)211和F212。作為舉例,每幀含有代表20毫秒聲音的特征。
可以以任何方便的方式產生特征矢量。例如,一個特征矢量可以含有由A/D轉換器202(圖2)輸出產生的倒譜(cepstral)和δ-倒譜(delta-cepstral)特征。
參考圖3,初始時由發(fā)音U1的幀F(xiàn)11和F12以及發(fā)音U2的幀F(xiàn)21和F22構成狀態(tài)1(s1)。這些幀值用于初始時計算構成狀態(tài)1統(tǒng)計表示的某些或全部參數(shù)。在最佳實施例中,統(tǒng)計表示是來自發(fā)音U1和發(fā)音U2的幀的均值。這樣,狀態(tài)1初始時被設為發(fā)音U1的幀F(xiàn)11和F12及發(fā)音U12的幀F(xiàn)21和F22的均值。本領域技術人員將理解,在狀態(tài)中也可包括一個方差。也生成其他狀態(tài)的統(tǒng)計表示。第二狀態(tài)s2是發(fā)音U1的幀F(xiàn)13和F14及發(fā)音U2的幀F(xiàn)23和F24之值的均值。類似地,狀態(tài)s3是發(fā)音U1的幀F(xiàn)15和F16及發(fā)音U2的幀F(xiàn)25和F26之值的均值。狀態(tài)s4是發(fā)音U1的幀F(xiàn)17和F18及發(fā)音U2的幀F(xiàn)27、F28和F29的均值。
如上文中所舉實例那樣,在發(fā)音U2中的額外幀被分配給最后兩個狀態(tài)。如果第二發(fā)音只有一個額外幀,則只有最后一個狀態(tài)得到一個額外幀。如果第二發(fā)音有三個額外幀,則最后三個狀態(tài)的每一個被分配一個額外幀。類似地,如果第一發(fā)音有額外幀,例如四個額外幀,則最后四個狀態(tài)將每個有一個額外幀。如果任一發(fā)音比另一發(fā)音多五個幀,則每個狀態(tài)從有較多幀的發(fā)音接收三幀,而從有較少幀的發(fā)音接收二幀。
上文中提供的幀分配是作為一個例子說明初始時可以怎樣把幀分配給狀態(tài)以及怎樣能構成狀態(tài)的統(tǒng)計表示。然而,本領域技術人員將會理解,對于初始狀態(tài)分配和狀態(tài)的統(tǒng)計表示存在大量的其他方法,所以本發(fā)明不限制于上述環(huán)境。
在本例中,使用了五個狀態(tài),而不管發(fā)音的長度。本領域技術人員將會理解,可以使用任何數(shù)量的狀態(tài),預計對每個發(fā)音將利用十個以上狀態(tài)。此外,狀態(tài)數(shù)可以被固定,不管發(fā)音的長度如何,或者狀態(tài)數(shù)依賴于發(fā)音的長度。在下文的討論中所針對的系統(tǒng)對任何發(fā)音都使用五個狀態(tài),而不管其長度。
一旦由發(fā)音U1和U2的幀統(tǒng)計創(chuàng)建了狀態(tài)s1至s5,便創(chuàng)建了一個隱式馬爾科夫模型(HMM)。呼叫處理器108利用一種對位算法使每個狀態(tài)通過所創(chuàng)建的HMM狀態(tài)。然后這種對位能被用于重新估計狀態(tài)的統(tǒng)計表示。具體地說,運行這位算法,以根據(jù)所考慮的每個路徑的得分,確定從任何一點返回時的最好路徑,這將針對圖4作一般性描述。如這里所用的那樣,一個點是指網(wǎng)格400中的一個幀和狀態(tài)的位置。路徑穿過這些點延伸。
本領域技術人員將會理解,網(wǎng)格400(圖4)顯示對于8個幀從狀態(tài)1到狀態(tài)5的所有返回路徑。一個附加限制是各幀必須分配著與前一幀相同的狀態(tài)或者緊跟前一幀的狀態(tài)之后的那個狀態(tài)(不能有任何狀態(tài)被跳過)。這與語音識別系統(tǒng)中幀到狀態(tài)的分配相一致,而且顯著地減少了為記錄數(shù)據(jù)路徑所需的逆向追蹤信息量。對模型內從狀態(tài)到狀態(tài)的可能路徑所作的這種限制有助于更好地模擬語言發(fā)音中聲音事件的順序、有序特征。通常,HMM狀態(tài)轉移在性質上被限制于從左到右,如圖4所示,這里進入一特定狀態(tài)n的可允許路徑或者來自本狀態(tài)(從sn到sn的“自循環(huán)”)或者來自先前的狀態(tài)(從s(n-1)到sn的“單步轉移”)。圖8說明從左到右無跳躍HMM。已經證明,這種HMM體系結構對于許多語音識別任務都是有效的。本發(fā)明使用這種對受限狀態(tài)轉移的知識,并在逆向追蹤矩陣方面進一步改進,從而顯著減小了為記錄逆向追蹤路徑所需存儲器的大小。
在圖4的網(wǎng)格400中,一種狀態(tài)轉移類型和狀態(tài)間每個允許路徑相關。狀態(tài)轉移類型1被分配給自循環(huán),而狀態(tài)轉移類型0被分配給狀態(tài)變化。在這一模型中能表示出跳躍狀態(tài),但將需要二位或更多位的狀態(tài)轉移類型指示符,因為單個二進制位不能區(qū)分三個或更多轉移類型。不論是在哪種情況中,由于使用n-位符號陣列記錄由對位算法(例如Viterbi對位算法)計算出的路徑信息,使用狀態(tài)轉移類型相當大地減小了為存儲路徑所需存儲器大小。本領域技術人員將會理解,n是一個小的數(shù),在1或2個二進位的量級,而在傳統(tǒng)的逆向追蹤矩陣存儲方案中使用8位或16位來標識前一個狀態(tài)。
作為舉例,用于幀5(圖4中水平軸上的5號)的Viterbi算法確定從幀5中每個狀態(tài)(狀態(tài)1(s1)、狀態(tài)2(s2)、狀態(tài)3(s3)、狀態(tài)4(s4)及狀態(tài)5(s5))返回的最好路徑(即產生最好得分的從每個狀態(tài)的返回路徑)。具體地說,該算法考慮從點A的返回路徑的得分或概率,它代表對全部頭五個幀該路徑位于狀態(tài)1的概率。這是必定的,因為條件是當前幀必須與前一幀有同一狀態(tài)或者是高于前一幀狀態(tài)的一個狀態(tài)。
該算法對于點B產生一個從點B穿過點G的返回路徑相關的得分以及從點B穿過點H的返回路徑的得分。對于點C,Viterbi算法產生伴隨從點C穿過點H的路徑得分及伴隨從點C穿過點I的路徑得分。對于點D,Viterbi算法考慮伴隨從點D穿過點I的返回路徑得分及伴隨從點D穿過點J的返回路徑得分。對于點E,Viterbi算法產生伴隨從點E穿過點J的返回路徑得分及伴隨從點E穿過點K的返回路徑得分。在計算這些得分之后,對每個狀態(tài)產生最高得分的路徑轉移類型被保留下來,作為到達這五幀中每個狀態(tài)的路徑。
雖然本發(fā)明可應用于允許最大2n個到任何狀態(tài)的轉移的左-右模型,但在所示實施例中只有兩個轉移類型是可允許的自循環(huán)和單步轉移。這里逆向追蹤矩陣存儲器是二進制標志陣列500(圖5),它記錄下采用了兩個可能轉移的哪一個。這兩個可能路徑是代表自循環(huán)的1和代有從較低狀態(tài)到較高狀態(tài)一步的0。相鄰幀不能跳過一狀態(tài)和要求時間上較遲的幀所處狀態(tài)不能低于先前幀的狀態(tài)這兩個條件限制了可能路徑的數(shù)目,對于這種情況這一實施例特別有利。
圖5的存儲器陣列500代表對于有五個可能狀態(tài)的八個幀穿過矩陣的路徑。X位置代表不必顧及的情況。對于來自幀的8的返回路徑,狀態(tài)s5即在右上角的0指示曾穿過幀7,狀態(tài)s4,到達狀態(tài)5的幸存(survivor)路徑。在狀態(tài)4下幀7的0指示該路徑穿過幀6,狀態(tài)s3。在幀6,狀態(tài)3,中的0指示穿過幀5,狀態(tài)s2,的返回路徑。在幀5,狀態(tài)s2,中的1指示穿過幀4,狀態(tài)s2,的路徑。在幀4,狀態(tài)s2中的0指示穿過幀3,狀態(tài)s1,的路徑。對于頭兩個幀,路徑還穿過狀態(tài)1。用這同一種方法,對幀8,狀態(tài)s4,s3,s2和s1的每一個的幸存路徑能類似地逆向追蹤。這樣,可以看到,在存儲器110的RAM中存儲的二進制數(shù)能被用于代表對位算法的幸存路徑。
現(xiàn)在參考圖6描述存儲器110中存儲的處理器108的操作。初始時,如框602中所示,第一幀的各狀態(tài)被設定。第一狀態(tài)將被設為1,對幀1的狀態(tài)2至5是X,這是不必顧及,因為它們可作為不可能狀態(tài)被忽略。然后幀計數(shù)器被置為2,狀態(tài)計數(shù)器被置為1,如框604中所示。
對于當前幀和狀態(tài)(它是圖4中網(wǎng)格400上的一點),處理器108計算一自循環(huán)的得分,該自循環(huán)是從當前幀中的狀態(tài)sN穿過先前幀中的狀態(tài)sN的返回路徑,如框606中所示。還對于一狀態(tài)轉移導出其得分,該狀態(tài)轉移是從當前幀中的狀態(tài)sN穿過先前幀中狀態(tài)sN-1的返回路徑,如框608中所示。
在步驟610,處理器108確定自循環(huán)或狀態(tài)轉移有較好的得分。如果自循環(huán)有較好得分,則對當前狀態(tài)和幀(即當前幀的狀態(tài)sN)把狀態(tài)轉移類型1存儲在存儲器110的RAM中,如框612中所示。否則,把0存于存儲器110的RAM中用作一個狀態(tài)轉移,如框614中所示。
狀態(tài)計數(shù)器被增1,如框616所示。在決策框618中,處理器確定是否已對當前幀中的各個狀態(tài)計算了轉移類型。如果最后一個狀態(tài)尚未被計算,則處理器返回到步驟608,去計算下一狀態(tài)的轉移類型,這一計算是在框606處開始的。
如果在決策框616確定,當前幀的最后一個狀態(tài)已被考慮,則如框620中所示,處理器110對幀計數(shù)器增1并把狀態(tài)計數(shù)器復位為1。然后處理器確定剛考慮的幀是否是最后幀。如果不是,則處理器返回到步驟606,對下一幀開始狀態(tài)分配過程。
如果在框622中確定,剛才考慮的幀是一次發(fā)音的最后一幀,則處理器110必須把具有最好得分的路徑轉換為一個狀態(tài)分配模型,如果一個模型是當前被訓練的模型的話。在識別過程中,只有得分將被使用,到HMM的路徑轉換開始時是從最后一幀的最后一個狀態(tài)往回進行的,對該狀態(tài)輸出轉移類型,如框702所示。在決策框704中處理器110確定該轉移類型是否為自循環(huán)。如果它是一個自循環(huán),如框708所示,則把前一個幀狀態(tài)置成當前幀的同一狀態(tài)。否則,如框706所示,把先前幀狀態(tài)置成下一個較低狀態(tài)。
在步驟709,狀態(tài)保持(dwell)時間,或者說持續(xù)時間計數(shù)器可以被增1,如果希望保持跟蹤這些保持時間的話。如果提供了這個可選的計數(shù)器,則在步驟706,當?shù)谝淮伪惠斎胍粋€狀態(tài)時把狀態(tài)保持時間計數(shù)器初始化為1,并對每個狀態(tài)提供一個計數(shù)器。
在步驟710,處理器108對幀計數(shù)器減1。在步驟704、706和708中標識出的先前幀狀態(tài)被存儲,以用于先前幀,而與那個點、幀和狀態(tài)相關聯(lián)的狀態(tài)轉移類型被輸出,如框712所示。如果幀狀態(tài)輸出不是第一幀,則處理器返回到決策框704。如果在決策框714中確定第一幀狀態(tài)已被存儲,則如框716中所示,狀態(tài)賦值模型已經完成。狀態(tài)賦值模型包含把幀特征向適當狀態(tài)的分配。這一信息可被存儲供訓練或用于更新一個被存儲的模型。
現(xiàn)在將針對一個二維陣列L描述一個偽代碼實現(xiàn),并用狀態(tài)s標志第一維,用語音幀F(xiàn)標志第二維,這里陣列的大小是N×T。我們還將定義符號1代表同狀態(tài)轉移(自循環(huán)),符號0代表從前一狀態(tài)的轉移。由于只有兩個可能的符號,可以使用單個二進位存儲它們。當進行Viterbi對位時,可用如下算法記錄狀態(tài)轉移對所有語言幀(t=1到T)對HMM的所有狀態(tài)(s=1到N)如果到狀態(tài)s的最好路徑來自狀態(tài)s,則L[s][t]=1
否則(最好路徑必定來自前一狀態(tài))L[s][t]=0條件語句結束對所有狀態(tài)結束對所有語言幀結束在訓練過程中,通常對位的目標是找出該發(fā)音的每個幀的狀態(tài)賦值。如果我們希望把狀態(tài)賦值記錄到一個陣列A[t]中,那么這一賦值能被容易地從轉移矩陣L按如下作法恢復出來把狀態(tài)s初始化為最后狀態(tài)N對所有語言幀,從終點開始(t=T到1)A[t]=s如果L[s][t]=0,則s=s-1條件語句結束對所有語言幀結束如前面提到的那樣,上述算法在不允許狀態(tài)跳躍的簡化情況中工作得最好。如果允許狀態(tài)跳躍,則需要對陣列L增加另一符號,增加這一陣列的存儲需求和類型得分計算606、608的次數(shù)。
在對位過程中,追蹤其中某特定狀態(tài)已被占有的幀的個數(shù)也是有用的。這一信息可被用于分配狀態(tài)持續(xù)時間罰值(penalty),如在題為“有選擇地把一罰值賦予語音識別系統(tǒng)所伴隨概率的方法”的未決專利申請中公開的那樣,該專利申請與本申請在同一時期受理,報告號為Cs10104,以Daniel Poppert的名字受理,在這里把它的公開引入作為參考。這一保持時間信息在陣列L中被完全地表示。在時間t其狀態(tài)s已被占有的幀的個數(shù)稱作D[s][t],可按下述方式找到把D[s][t]初始化為1當(L[s][t-D[s][t]]=1)時D[s][t]增1“當…時”語句結束本公開的識別系統(tǒng)使用簡單的單個位標志陣列減少了逆向追蹤信息的存儲器足跡。如圖4所示,它主要是想用于不允許狀態(tài)跳躍的HMM簡單情況,盡管它也能以增大存儲器為代價擴展到更一般的情況。
用圖9替換圖6中的框608至614,則圖6的流程圖能被修改成容納一個狀態(tài)跳躍。具體地說,在框609中計算一跳躍得分Pskip。如果在框610中確定一自循環(huán)有最好得分,則如步驟614中所示,一個11(兩個二進制位)被存儲在RAM208中。在框610中的“否”決定之后,處理器108確定是否PD比Pskip更好。如果確定一個單步伴隨有最好得分,則如步驟614中所示,一個00(兩個二進制位)被存儲在RAM208中。如果確定該狀態(tài)跳躍有最好得分,則如步驟613中所示,一個10被存儲在RAM中。如圖10所示,通過增加705和707,并修改步驟704,能使圖7修改成容納一個跳躍。具體地說,步驟704尋找一個轉移類型11,它是一個自循環(huán)。如果該狀態(tài)類型不是一個自循環(huán),則處理器檢查看它是否為00,這里00指示步驟705中一個單狀態(tài)步。如果不是,則如步驟707中所示,處理器108把前一幀標識為低于當前幀的兩個狀態(tài)。否則,處理器把它作為單步對待。
本領域技術人員將會理解,通過類似的過程擴展,能容納更多的狀態(tài)跳躍。對每個狀態(tài)/幀所存儲的二進制位的實際個數(shù)將依賴于所允許的跳躍個數(shù)。
盡管在上述描述和附圖中已描述和圖示了本發(fā)明,但應該理解,這一描述只是一種舉例,本領域技術人員能做出大量的改變和修改而不離開本發(fā)明的精神和范圍。盡管本發(fā)明在便攜無線裝置(如蜂窩無線電話)中找到了具體應用,但本發(fā)明能被應用于利用語音識別的任何裝置,包括尋呼機、電子組織器(electronic organizer)、計算機、以及電話裝備。本發(fā)明只應受下列權利要求書的限制。
權利要求
1.一種語音識別裝置,含有如下步驟接收一個語言發(fā)音;產生一個代表該語言發(fā)音的信號;把代表該發(fā)音的信號分成幀;用一種對位算法把幀分配成狀態(tài);以及通過對每個狀態(tài)把一狀態(tài)轉移類型存儲到存儲器中來存儲代表幀到狀態(tài)分配的路徑,這里狀態(tài)轉移類型標識到每個狀態(tài)的狀態(tài)轉移。
2.如權利要求1中定義的方法,這里存儲器為每個狀態(tài)存儲到該狀態(tài)的最好路徑。
3.如權利要求1中定義的方法,這里狀態(tài)轉移類型是由一二進制信號表示。
4.如權利要求3中定義的方法,這里二進制信號是一個單邏輯位。
5.如權利要求1中定義的方法,這里狀態(tài)轉移類型由一多位信號表示。
6.如權利要求1中定義的方法,還包括使用狀態(tài)轉移類型創(chuàng)建幀到狀態(tài)賦值記錄來產生幀到狀態(tài)賦值記錄的步驟。
7.如權利要求6中定義的方法,這里的幀到狀態(tài)對位是從最后幀開始使用狀態(tài)轉移類型進行逆向路徑跟蹤來創(chuàng)建的。
8.如權利要求6中定義的方法,還包括恢復狀態(tài)保持時間的步驟。
9.如權利要求8中定義的方法,其中狀態(tài)保持時間是從狀態(tài)轉移信息中提取的。
10.如權利要求8中定義的方法,其中在逆向追蹤矩陣以恢復狀態(tài)賦值記錄的同時對每個狀態(tài)的自循環(huán)進行計數(shù),從而導出狀態(tài)保持時間。
全文摘要
一個裝置(100)包括一個語音識別系統(tǒng)(204、206、207、208),它產生代表語言發(fā)音的信號,語言被分解成代表該語音的幀(Ft)。利用一對位算法把幀分配到狀態(tài)(s1-s5)。利用狀態(tài)轉移類型把代表幀到狀態(tài)分配的路徑存儲到存儲器(110)中,這里狀態(tài)轉移類型標識到每個狀態(tài)的狀態(tài)轉移。
文檔編號G10L15/14GK1264890SQ0010240
公開日2000年8月30日 申請日期2000年2月23日 優(yōu)先權日1999年2月23日
發(fā)明者杰弗里·阿瑟·繆尼爾, 丹尼爾·查爾斯·鮑伯特 申請人:摩托羅拉公司