語音識別裝置及其方法

文檔序號：2831056閱讀：240來源：國知局

專利名稱：語音識別裝置及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種使用語法片段的語音識別裝置，該語法片段是在對基于語法表達的、要被識別的語句執(zhí)行語音識別處理時，將基于語法表達的語句劃分為一個或多個語句片段的語法片段。
背景技術(shù)：
在語音識別領(lǐng)域內(nèi)，一種通過對輸入語音的語音特征以及與基于語法描述的要被識別的語句對應的語音特征模型進行匹配來進行語音識別的語音識別裝置被廣泛使用。
作為該描述識別詞匯的語法，可以使用基于語句網(wǎng)絡(luò)的表達、上下文
無關(guān)語法(Context-Free Grammar, CFG )以及有限狀態(tài)語法(Finite State Grammar, FSG )等。
這些語法被存儲在語音識別裝置的內(nèi)部的規(guī)定存儲裝置中，并且根據(jù) 語音識別處理的進展從匹配單元參閱這些語法。在語音識別處理期間可以進4亍多次的這種參閱。因此，為了高速地進4亍語音識別處理，語法應該4皮存儲在可以高速存取的存儲裝置中。當要被識別的詞匯數(shù)量增加時，描述要被識別的詞匯的語法的大小也會相應增加。因此，為了對大量的詞匯進行語音識別處理，就需要用于存儲語法的大容量存儲裝置。換句話說，語音識別裝置需要具有可高速存取的大容量存儲裝置，以便于高速地對大量詞匯執(zhí)行語音識別處理。
但是，可高速存取的存儲裝置需要比只能低速存取的存儲裝置要高的成本。由于存儲裝置的成本隨著容量而增加，因此可高速存取的大容量存
儲裝置的成本會纟艮高。因此，由于上述的成本問題，語音識別裝置就有可
能不具備可高速存取的大容量存儲裝置。在這種情況下，取而代之地就會使用只能夠進行低速存取但容量較大的存儲裝置。這種存儲裝置存在這樣
的問題從匹配單元參閱語法的速度會降低，并且因此，語音識別處理的速度也會降低。
作為一種用于解決該問題的方法，提出有一種在日本專利No.3546633 中公開的技術(shù)(下文稱為相關(guān)技術(shù))(參見第14頁，圖l)。在該相關(guān)技術(shù)中，語法被分為語法片段，其中每個語法片段是匯集一組語法規(guī)則并概括化而成的，并且所有的這些語法片段都被存儲在只能夠進行低速存取但容量較大的存儲裝置(存儲裝置l:例如HDD)中。此外，在識別處理中匹配單元所參閱的語法片段被存儲在能夠高速存取但容量較小的存儲裝置 (存儲裝置2:例如RAM)中。此外，根據(jù)由該匹配單元執(zhí)行的處理的進展，僅將該匹配單元應該參閱的語法片段從存儲裝置1傳輸至存儲裝置2。換句話說，當匹配單元最近應該參閱的語法片段沒有存儲在存儲裝置2中時，匹配單元執(zhí)行的處理暫時中斷，并且將相應的語法片段從存儲裝置1 傳輸至存儲裝置2。當完成該傳輸時，再次開始由該匹配單元執(zhí)行的處理。
根據(jù)該相關(guān)技術(shù)，只有該匹配單元需要參閱的語法片段必須被存儲，因此存儲裝置1的容量能夠減小。
例如，考慮如下的情況對于具有諸如日本的地址之類的層次結(jié)構(gòu)的要被識別的詞匯，為各層次的各組(縣名、市名、鎮(zhèn)名)準備語法片段。在這種情況下，匹配單元應該參閱的語法片段限于與各層次中要被識別的候選相關(guān)的語法片段。換句話說，在由該匹配單元執(zhí)行的處理中，當出現(xiàn) "Kanagawa-ken"作為要被識別的縣名的候選時，在接著的處理中僅參閱描述了與該"Kanagawa-ken"相關(guān)的市名和鎮(zhèn)名的語法片段。結(jié)果，能夠限制應該存儲在上述存儲裝置1中的語法片段的數(shù)量，并且因此能夠進一步減小該存儲裝置1的容量。由于由該匹配單元參閱的語法片段被存儲在可高速存取的存儲裝置1中，因此可以保持高速地從匹配單元參閱語法片段。換句話說，才艮據(jù)相關(guān)技術(shù)，能夠抑制與存儲裝置1的容量增長相關(guān)的成本增加，同時高速地執(zhí)行語音識別處理。
但是，在該相關(guān)技術(shù)中，當匹配單元最近應該參閱的語法片段沒有存
儲在存儲裝置2中時，該匹配單元就會暫時停止處理，直到相應的語法片段被從存儲裝置1傳輸至存儲裝置2,并且當該傳輸完成時由匹配單元再次開始該處理。在這種情況下，當花費時間來傳輸語法片段時，由匹配單元執(zhí)行的處理、即語音識別處理的執(zhí)行將被延遲一個與傳輸語法片段所需的等待時間對應的時間量。
一般地，為了將數(shù)據(jù)從某一存儲裝置傳輸至另一存儲裝置，就會產(chǎn)生延遲時間，其中該延遲時間依賴于存儲裝置之間傳輸路徑的速度。在相關(guān) 技術(shù)中，由于設(shè)想從只能低速存取的存儲裝置1傳輸語法片段，因此也會產(chǎn)生延遲時間，其中該延遲時間對應于從存儲裝置1讀出語法片段的時間。在相關(guān)技術(shù)中，延遲時間的總長度為語音識別處理的延遲時間，因此語音識別處理的速度也會相應地降低。
換句話說，在相關(guān)技術(shù)中，存在如下問題由于傳輸語法片段所需的等待時間而使得語音識別處理的速度降低，因此就無法高速地對大量詞匯執(zhí)行語音識別處理。

發(fā)明內(nèi)容
鑒于上述問題，本發(fā)明的目的在于提供一種能夠防止由于傳輸語法片段所需的等待時間而導致的語音識別處理速度的降低、從而實現(xiàn)高速的語音識別處理的語音識別裝置及其方法。
根據(jù)本發(fā)明的實施例，提供了一種語音識別裝置，包括生成單元，其被配置為對于具有任意的時間寬度的各幀，根據(jù)輸入語音的特征生成語音特征序列；模型存儲單元，其具有多個基于語法表達的語句以及通過劃分各個語句而得到的一個或多個連續(xù)的語句片段，該模型存儲單元被配置為存儲狀態(tài)轉(zhuǎn)移模型，該狀態(tài)轉(zhuǎn)移模型用與上述語音特征相關(guān)的狀態(tài)-狀態(tài) 轉(zhuǎn)移表示各個語句片段的語音特征的時間系列變化；第一語法存儲單元，其存儲與屬于上述各語句的一個或多個連續(xù)的語句片段相關(guān)的語法片段；笫二語法存儲單元，其存儲至少一部分從第一語法存儲單元傳輸?shù)纳鲜稣Z 法片段，并能夠以比第一語法存儲單元所需的更短的讀取時間來讀出存儲
在其中的信息；第一匹配單元，其通過參閱存儲在第二語法存儲單元中的語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，來獲得由生成單元針對每個幀生成的語音特征序列的、狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；
語法傳輸單元，當?shù)?一匹配單元獲得狀態(tài)轉(zhuǎn)移模型的所述狀態(tài)中最終狀態(tài) 的前向概率時，其將與接續(xù)在所述連續(xù)的語句片段中的一個之后的后續(xù)語
句片段相關(guān)的語法片段從第一語法存儲單元傳輸至第二語法存儲單元；第二匹配單元，其通過參閱存儲在第二語法存儲單元中的語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，對于接續(xù)在上述語音特征序列之后、由生成單元針對每個幀生成的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；第三匹配單元，其通過參閱被傳輸?shù)降诙Z法存儲單元的上述后續(xù)語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，對于各個幀的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；識別控制單元，其(1)對各個語句進行識別，(2)使第一匹配單元工作，直到開始后續(xù)語法片段的傳輸，(3)從傳輸?shù)拈_始到完成，與傳輸并行地使第二匹配單元工作，U)—旦該傳輸完成，使第三匹配單元工作，以及 (5)重復(2)至(4)的操作，直到屬于各個語句的語句片段的所有操作完成，以獲得各個語句的最終的前向概率；以及識別單元，其輸出一語句作為語音特征序列的識別結(jié)果，其中該語句在多個語句的各個的最終的前向概率中給出了最高的前向概率。
根據(jù)本發(fā)明的實施例，匹配操作與語法片段的傳輸并行地執(zhí)行，從而能夠防止由于用于等待語法片段的傳輸?shù)牡却龝r間而導致的語音識別處理的速度的降低，并且能夠?qū)崿F(xiàn)高速的語音識別處理。

圖1是示出才艮據(jù)本發(fā)明第一實施例的語音識別裝置的結(jié)構(gòu)例子的方框
圖2示出了要被識別的語句的例子；
圖3是描述要被識別的語句的語法的例子；
圖4是將描述要被識別的語句的語法劃分為一個或多個語法片段的例
子；
圖5是HMM的例子；
圖6是連接多個對應于語句片段的HMM而成的HMM的例子；圖7是具有多次轉(zhuǎn)移的HMM的例子；
圖8是用于說明對與多個語句片段對應的HMM狀態(tài)序列進行匹配的
圖9是用于說明根據(jù)第一實施例的由第一匹配單元執(zhí)行的匹配處理的
圖IO是表示執(zhí)行相關(guān)技術(shù)中的匹配處理的情況的圖；圖11是用于說明由第一匹配單元執(zhí)行的匹配處理的圖；圖12是用于說明由第二匹配單元執(zhí)行的匹配處理的圖；圖13是用于說明由第一匹配單元執(zhí)行的匹配處理的圖；圖14是第一實施例的流程圖15是示出根據(jù)第二實施例的語音識別裝置的結(jié)構(gòu)例子的方框圖；圖16是用于說明由第一匹配單元和第二匹配單元執(zhí)行的匹配處理的
圖17是用于說明由第三匹配單元執(zhí)行的匹配處理的圖；以及
圖18是第二實施例的流程圖。
標號說明
101:特征提取單元，102:第一語法存儲單元，103:第二語法存儲單元，104:語法傳輸單元，105:模型存儲單元，106:識別控制單元，107: 第一匹配單元，108:第二匹配單元。
具體實施方式
第一實施例
現(xiàn)在參照圖1至圖14描述才艮據(jù)本發(fā)明第一實施例的語音識別裝置。(1)語音識別裝置的結(jié)構(gòu) 圖1是示出根據(jù)第一實施例的語音識別裝置的結(jié)構(gòu)例子的方框圖。
該語音識別裝置包括特征提取單元101、第一語法存儲單元102、笫二語法存儲單元103、語法傳輸單元104、模型存儲單元105、識別控制單元 106、第一匹配單元107以及第二匹配單元108。
可以由存儲在計算機中的程序來實現(xiàn)各個單元101至108的功能。下面通過對各個塊的說明來詳細描述該語音識別裝置。 (2 )特征提取單元101
特征提取單元101對于具有某一時間寬度的每一幀，根據(jù)輸入的語音信號生成語音特征序列X(t)=(x(l)， x(2)，…，x(T))。在該表示中，x(t)表示第t幀t的語音特征。在這種情況下，設(shè)定l=<t=<T，并且t = 1對應于作為語音識別的目標的輸入語音的開始位置，并且t - T對應于輸入語音的
結(jié)束位置。
具有一維或一維以上的元素的向量被用于語音特征。這樣的語音特征向量以Mel頻率倒鐠系數(shù)(MFCC)為例。該MFCC是這樣的一種方法通過對于幀t的語音頻鐠，取Mel濾波器組輸出的對數(shù)值，進而應用離散余弦變換(DCT)進行提取出較低階成分的倒頻i瞽(cepstrum)分析，來生成語音特征向量。
在特征提取單元101中使用的語音特征，不限于MFCC，而可以使用任意的語音特征。
(3)第一語法存儲單元102
第一語法存儲單元102存儲描述要被識別的語句的語法。該語法以一個或多個對于語句片段的每一個劃分而成的語法片段的形式存儲。下面將使用圖2至圖4來描述語句片段和語法片段的例子。 (3-1)語句片段
圖2是示出要被識別的語句的表，其是各自包括四個語句片段的7個要被識別的語句的例子。在圖2中，用Wn (n:單詞編號)表示構(gòu)成要被識別的語句的語句片段。
(3誦2 )語法
圖3是描述圖2中所示的要被識別的語句的語法的例子。圖3中的語法包括節(jié)點Nn (n:節(jié)點編號)以及連接節(jié)點間的有向弧線。節(jié)點中的ST和ED表示各個語法的開始和結(jié)束。對于各個弧線，都賦予語句片段Wn，并且通過沿著從開始節(jié)點ST到結(jié)束節(jié)點ED延伸的弧線來獲得要被識別的語句。例如，在圖3所示的語法中，通過從開始節(jié)點 ST開始，沿著被賦予了單詞Wll、 W21、 W31以及W41的弧線，直到結(jié) 束節(jié)點ED，來獲得圖2中句子編號1所表示的要被識別的語句 "W11-W21-W31-W41"。 (3-3)語法片段
圖4例示了將基于圖3中的語法表達的語句劃分為一個或多個語句片段、與這些語句片段相關(guān)的語法片段的例子。
在圖4的例子中，圖3中的語法被劃分為6個語法片段A-F。圖4中的每個語法片段都由圖3中的語法以及弧線的一部分構(gòu)成。例如，圖4中的語法片段A由圖3的語法中開始節(jié)點ST、弧線Wll和W22以及能夠從該弧線到達的節(jié)點Nil和N12構(gòu)成。
語法片段A中的節(jié)點Nil和語法片段B中的節(jié)點Nll為相同節(jié)點，其表示該語法片IS: A和語法片段B能夠通過節(jié)點Nil相接。換句話說，語法片段B為語法片段A的后續(xù)語法片段。因此，當語法通過弧線Wll 從語法片段A的節(jié)點ST到達節(jié)點Nil時，它還能進一步沿著源自語法片段B的節(jié)點Nll的弧線繼續(xù)。這種關(guān)系同樣也可應用于其他語法片段，并且該語法片段與該其他語法片段通過相同的節(jié)點相連。
利用這種連接關(guān)系，圖4中的語法片段表示與圖3所示語法中相同的要被識別的詞匯。
(3-4)劃分語法的方法
圖4示出的是圖3中的語法被劃分為6個語法片段的例子。但是，可以根據(jù)語音識別裝置的用戶的需求來選擇劃分方法。
例如，可以如圖4中的語法片段C那樣，通過從語法片段的開始直到
末尾沿著多個弧線來對語法進行劃分。
作為選擇，也可以如語法片段F那樣，對語法進行劃分，以便具有多個在前語法片段。
不僅如圖4中的例子所示將語法劃分為6個語法片段，而可以將語法劃分為一個或多個的任意數(shù)量的語法片段。
并且，可以匯集例如圖4中的語法片段B和語法片段E那樣沒有彼此接連關(guān)系的節(jié)點和弧線的集合而確定為一個語法片段，或者進而細化語法片段B而劃分為兩個語法片段。 (3-5)存儲內(nèi)容
第一語法存儲單元102存儲全部的圖4中所示的一個或多個語法片段。換句話說，存儲為了描述要被識別的語句所需的所有語法片段。
因此，第一語法存儲單元102必須具有足夠的容量來存儲所有的語法片段。這種情況下所需的存儲容量與語法的大小、即要被識別的語句的數(shù) 量成比例。當要被識別的語句數(shù)量如所有的日本的地址那樣相對較大時，第一語法存儲單元102相應地也需要具有較大的容量。
作為這樣的大容量存儲裝置，可以采用硬盤驅(qū)動器(HDD) 該大容量存儲裝置并不僅限于HDD,而也可以采用其他任意的存儲裝置。 (4 )第二語法存儲單元103
第二語法存儲單元103存儲圖4中所示的語法片段中的一個或多個語
法片段。
由于下面所述的原因，第二語法存儲單元103的容量相對小于笫一語法存儲單元102。但是，基于下述原因，第二語法存儲單元103優(yōu)選地是可高速存取的存儲單元。從第二語法存儲單元103獲取數(shù)據(jù)的讀出時間需要比從第一語法存儲單元102獲取數(shù)據(jù)的讀出時間要短。
作為可高速存取的存儲裝置，可以采用隨機存取存儲器(RAM)。該可高速存取的存儲裝置不限于RAM，而可以采用任意的存儲裝置。 (5 )語法傳輸單元104
語法傳輸單元104將語法片段從第一語法存儲單元102傳輸至第二語
法存儲單元103,其中該語法片段是在由后面描述的第一匹配單元107執(zhí) 行的匹配處理中需要參閱的。
在后面描述的第一匹配單元107的匹配處理開始之前的階段，包括有語法的開始節(jié)點的語法片段被預先從第一語法存儲單元102傳輸至第二語法存儲單元103。
在圖4所示例子中，包括開始節(jié)點ST的語法片段A被預先傳輸給笫二語法存儲單元103。該第一匹配單元107在存儲于第二語法存儲單元103 中的語法片段中參閱包括有開始節(jié)點的語法片段，并開始匹配處理。 (6)模型存儲單元105
模型存儲單元105存儲狀態(tài)轉(zhuǎn)移模型，其中該狀態(tài)轉(zhuǎn)移模型表示要被識別的語句或語句片段的語音特征。下文中，該狀態(tài)轉(zhuǎn)移模型被簡單表示為"聲音模型"。
作為適于語音識別的聲音模型，可以是隱馬爾可夫模型(Hidden MarkovModel, HMM )。該HMM被用以下內(nèi)容定義一個或多個狀態(tài) Si、初始狀態(tài)的集合SS、最終狀態(tài)的集合SF、從某一狀態(tài)Sj到某一狀態(tài) Si的轉(zhuǎn)移概率Aji、從某一狀態(tài)Sj到某一狀態(tài)Si的轉(zhuǎn)移路徑中語音特征向量x的輸出概率Bji (x)以及狀態(tài)Si的初始概率PSi。在這種情況下，設(shè) 定Xi^〈NS并且l-〈j-〈NS,其中NS是構(gòu)成HMM的狀態(tài)總數(shù)。
圖5示出了 HMM的一個例子。圖5示出的是狀態(tài)數(shù)NS-4的HMM 的例子，并且其是在語音識別中通常使用的、稱為左-右型的拓樸(結(jié)構(gòu)) 的應M。
作為HMM的特點，能夠通過將對應于某一語句片段的多個HMM連接在一起來獲得更長語句的HMM。例如，如圖6所示，通過將對應于語句片段Wll以及語句片段W21的兩個HMM連接在一起來獲得語句 "W11-W21"的HMM。下文中，以使用圖5中所示的HMM作為聲音模型為前提來繼續(xù)說明。
這里，所謂"狀態(tài)轉(zhuǎn)移模型(聲音模型)，，，表示語音特征的時間系列變化，并且該狀態(tài)轉(zhuǎn)移模型中的"各個狀態(tài)，，表示在該時間系列變化中
的某一時間點上的語音特征。如圖5所示，通過利用轉(zhuǎn)移(箭頭)連接這些狀態(tài)，能夠?qū)⒄Z音特征的時間系列變化表示為整個聲音模型。更具體地, "各個狀態(tài)"輸出某一時間點上的語音特征的"輸出概率"，并且使用輸出概率根據(jù)如下的表達式(1)至(3)來計算"前向概率"。
作為聲音模式，能夠使用包括圖5中的例子的任何HMM。例如，使用如圖7的HMM那樣具有多個轉(zhuǎn)移路徑的HMM。聲音模型不限于 HMM,而也可以采用如時間系列模板模型那樣具有狀態(tài)轉(zhuǎn)移的任意模型。 (7)第一匹配單元107
第一匹配單元107對語音特征序列以及聲音模型進行匹配。
(7-1)匹配方法下面4笛述該匹配方法。
(7-1-1 )計算自HMM的輸出概率
對于語音特征序列X，計算對應于要被識別的某一語句w的HMM的輸出概率P(Xlw)。這里，設(shè)定1=<評=<\￥,并且W是要被識別的語句的總數(shù)。當表達式P(X!w)被簡寫為P(X)時，用表達式(l)、表達式(2)以及表達式(3)來計算P(X)。
P(X)-maxi(ot(i， T))(其中SicSF) ... (1) oc(i， O)-PSi (其中SicSS) ... (2) oc(i, t) = max i(Aji*Bji(x(t))*a(j， t-l))…(3) 其中，a(i， t)是從HMM的初始狀態(tài)轉(zhuǎn)移到第t幀的HMM的狀態(tài) Si的前向;f既率。
在HMM中，由于從初始狀態(tài)到笫t幀的狀態(tài)Si的轉(zhuǎn)移路徑存在多個，因此應該將前向概率計算為多個轉(zhuǎn)移路徑的各個的前向概率的總和。但是，在表達式(3 )中，從多個轉(zhuǎn)移路徑中選擇提供最大的前向概率的轉(zhuǎn)移路徑，并且將其前向概率確定為第t幀的狀態(tài)Si的前向概率。該方法被稱為維特
比(Viterbi)方法。在語音識別領(lǐng)域內(nèi)，公知的，該維特比方法是求取多個轉(zhuǎn)移路徑的前向概率的總和的方法的優(yōu)選近似。
第一匹配單元107，如表達式(1)所示，利用第T幀的狀態(tài)Si的前
向概率來計算針對于語音特征序列X的要被識別的語句w的輸出概率 P(X|w)，其中狀態(tài)Si為SicSF。
還有，對于多個要被識別的語句w計算輸出概率P(Xlw)，并且將其中提供最大的輸出概率的要被識別的語句w輸出作為匹配結(jié)果。 (7-1-2)參閱變量的方法
從對應于要,皮識別的語句w的HMM提供表達式(1)、表達式(2 ) 以及表達式(3)中依賴于HMM的變量，即初始狀態(tài)的集合SS、最終狀態(tài)的集合SF、轉(zhuǎn)移概率Aji、輸出概率Bji以及初始概率PSi。
通過參閱由第二語法存儲單元103中存儲的一個或多個語法片段描述的要被識別的語句及其語句片段，以及參閱存儲在模型存儲單元105中的、對應于要被識別的語句及其語句片段的HMM來獲得這些變量。
因此，為了足夠高速地執(zhí)行第一匹配單元107中的處理，應該高速地進行對要被識別的語句及其語句片段的參閱。因此，需要能夠高速地參閱存儲在第二語法存儲單元103中的一個或多個語法片段。換句話說，第二語法存儲單元103優(yōu)選地能夠高速存取。
如表達式(3)所示的，用按照第t幀的增加的遞推公式來計算針對于語音特征序列X的HMM的狀態(tài)Si的前向概率cx(i， t)。
因此，即使在并不是所有的語法片段都存儲在第二語法存儲單元103 中，而是只有要被識別的語句的語句片段能夠被參閱時，也可以開始基于表達式(3)的前向概率的計算。
例如，當使用如圖4中所例示的語法片段時，如果圖4的語法片段中包括開始節(jié)點ST的語法片段A存儲在第二語法存儲單元103中，則通過
的HMM，能夠開始基于表達式(3)的前向概率的計算。 (7-2 )傳輸方法
為了能夠進4亍上述參閱處理，該語法傳輸單元104預先將包含開始節(jié) 點的語法片段從第一語法存儲單元102傳輸至第二語法存儲單元103。
接著，語法傳輸單元104根據(jù)第一匹配單元107的處理的進展，將后
續(xù)語法片段從第一語法存儲單元102傳輸至第二語法存儲羊元103。下面參照圖4來描述該傳輸方法。
首先，開展對于HMM的表達式(3)的前向概率的計算，其中該HMM 對應于由圖4的語法片段A描述的語句片段Wll。
接著，當開展時，計算對應于該語句片段Wll的HMM的最終狀態(tài) 的前向概率。
接著，由于第一匹配單元107需要參閱對應于該語句片段Wll的后續(xù) 語句片段W21和W22的HMM，以便于進一步推進該前向概率的計算，因此語法傳輸單元104將語法片段B傳輸給第二語法存儲單元103。
隨后，第一匹配單元107通過參閱由作為所傳輸?shù)暮罄m(xù)語法片段的語法片段B描述的后續(xù)語句片段W21和W22，進而從模型存儲單元105參閱與其對應的HMM，能夠繼續(xù)基于表達式(3)的匹配處理。
以這種方式，通過語法傳輸單元104根據(jù)第一匹配單元107的處理的進展來傳輸所需的語法片段，能夠有效地限制用第二語法存儲單元103存儲的語法片段的數(shù)量。例如，為了在參閱圖4中所示的語法片段時計算要 4皮識別的語句"W11-W21-W31-W41"的輸出概率，可以是^f又四個語法片段A、 B、 D和F必須被存儲在第二語法存儲單元103中。這時，通過以提供比其他語句片段更高的前向概率的語句片段為對象，優(yōu)先地傳輸包括有這些語句片段的后續(xù)語句片段的語法片段，能夠?qū)崿F(xiàn)對于要傳輸?shù)恼Z法片段的有效選擇。因此，與第一語法存儲單元102的容量相比，第二語法存儲單元103的容量能夠減小。 (7-3)問題
但是，當與相關(guān)技術(shù)中同樣只使用第一匹配單元107時，會產(chǎn)生如下問題處理的執(zhí)4亍將被延遲與由語法傳輸單元104執(zhí)行的語法片段的傳輸所需的傳輸時間對應的時間量。下面參照圖8-10來描述該問題。
圖8示出了 HMM狀態(tài)序列，該HMM狀態(tài)序列是在用圖4中所示的語法片段的集合表達的語法以及要被識別的語句中，在計算針對語句 "W11-W21"的前向概率中應該計算前向概率的HMM狀態(tài)序列，其中語
句"W11-W21"是與由語法片段A描述的語法片段Wll以及由語法片段 B描述的語法片段W21接續(xù)的語句。圖8中的縱軸示出了對應于語句片段 Wll的HMM狀態(tài)序列S1 S3以及對應于語句片段W21的HMM狀態(tài)序列S4 S6。圖8中的橫軸示出了各個幀的語音特征序列。圖8中的縱軸與橫軸的交點表示幀t的HMM的狀態(tài)Si,并且需要對于這些交集計算前向概率oc(i， t)。這些交點之間的弧線表示HMM的狀態(tài)之間的轉(zhuǎn)移路徑。
第一匹配單元107通過根據(jù)表達式(3)計算各個交點的前向概率，來推進匹配處理。在初始狀態(tài)下，只有語法片段A被存儲在第二語法存儲單元103中。因此，只有對應于由語法片段A描述的語句片段Wll的HMM 狀態(tài)序列Sl-S3才能夠被參閱。該情況在圖9中示出。
在圖9中，用虛線表示對應于由還未被傳輸至第二語法存儲單元103 中的語法片段B描述的語句片段W21的HMM狀態(tài)序列。第一匹配單元 107首先計算對應于語句片段W11的HMM狀態(tài)序列的前向概率。在圖9 所示的例子中，在第3幀(t=3)的時間點，直到語句片段Wll的最終狀態(tài)S3的前向概率oc(3， 3)的計算已完成。在圖9中，前向概率的計算結(jié)果被圖示為陰影線的點。為了進一步繼續(xù)前向概率的計算，需要參閱對應于由語法片段B描述的語句片段W21的HMM狀態(tài)序列。因此，在該時間點上，語法傳輸單元104將語法片段B從第一語法存儲單元102傳輸至第二語法存儲單元103。
這里，當僅僅使用了第一匹配單元107時，在語法片段的傳輸完成了的時間點，重新開始第一匹配單元107的匹配處理。換句話說，如圖10 在框線內(nèi)所示出的，對于笫4幀(t=4)之后的幀的語音特征序列，計算對應于語句片段Wll和語句片段W21的HMM狀態(tài)序列S1 S6的前向概率。這時，前向概率的計算被暫時中斷，直到語法傳輸單元104完成了對于語法片段的傳輸為止。因此，第一匹配單元107的處理被延遲與語法傳輸單元104執(zhí)行的語法片段的傳輸所需的傳輸時間對應的時間量，其在整體上成為該語音識別裝置的處理延遲。
當將為了在第tl幀~第t2幀(tl < t2 )之間執(zhí)行以HMM狀態(tài)序列中
的第i狀態(tài) 第j狀態(tài)(i<j)為對象的匹配處理、即前向概率的計算所需
的時間表示為D(tl:t2， Si:Sj)時，用下面的表達式(4)來給出在圖8-10 所示的匹配處理中，為了直到第6幀(t = 6 )為止計算HMM狀態(tài)序列Sl-S6 的前向概率所需的時間D(l:6， S1:S6)。
D(l:6， S1:S6)-D1(1:3， S1:S3) + Dt(B) + Dl(4:6， S1:S6) "(4) 其中Dt(B)是在語法傳輸單元104中為了傳輸語法片段B所需的傳輸等待時間，并且Dl()為第一匹配單元107為了計算前向概率所需的時間。一般地，當在不同的兩個存儲裝置之間傳輸數(shù)據(jù)時，就會產(chǎn)生某一長度的傳輸?shù)却龝r間。
當使用只能低速存取的大容量存儲裝置作為第一語法存儲單元102 時，在開始傳輸語法片段時，也會產(chǎn)生用于從第一語法存儲單元102讀出語法片段的等待時間。
根據(jù)這些因素，用于傳輸任意的語法片段g的時間Dt(g)會增加。因此，即使能夠利用可高速存取的第二語法存儲單元103使前向概率的計算所需的處理時間高速化，傳輸語法片段所需的時間也會增加，結(jié)果就會產(chǎn)生如下問題計算前向概率所需的時間D(tl:t2， Si:Sj)增加了。 (7-4)解決該問題的手段
鑒于上述問題，在第一實施例中，提供了將在后面描述的第二匹配單元108和識別控制單元106,并且與語法片段的傳輸并行地激活該第二匹配單元108,以4更解決該問題。下面描述用于解決該問題的操作。 (8)第二匹配單元108
與第一匹配單元107的情況同樣，第二匹配單元108也根據(jù)表達式(1 )、表達式(2)以及表達式(3)對語音特征序列和聲音模型進行匹配。但是，在語法傳輸單元104傳輸語法片段時，第二匹配單元108與語法片段的傳輸并行地執(zhí)行匹配處理。下面參照圖11~13來描述該處理的情況。圖11~13 與圖8~10同樣，示出了由第一匹配單元107和第二匹配單元108執(zhí)行的前向概率的計算的情況。
(8-1)傳輸語法片段期間的處理
圖11與圖9同樣，示出了在第3幀(t=3)的時間點，直到語句片段 Wll的最終狀態(tài)S3的前向概率a(3, 3)的計算已完成的狀態(tài)。圖11中所示的前向概率的計算由如上所述的第一匹配單元107來執(zhí)行。
從這一時間點開始，語法傳輸單元104將語法片段B從第一語法存儲單元102傳輸至第二語法存儲單元103。
與該語法片段的傳輸并行地，第二匹配單元108對已經(jīng)存儲在第二語法存儲單元103中的語法片段A執(zhí)行匹配處理、即對應于由語法片段A描述的語句片段Wll的HMM狀態(tài)序列的前向概率的計算。該狀態(tài)在圖12 中示出。
圖12示出了在由語法傳輸單元104執(zhí)行的語法片段的傳輸期間，由第二匹配單元108執(zhí)行的前向概率的計算的狀態(tài)。如圖12中的框線內(nèi)的區(qū)域所示，第二匹配單元108對從第4幀(t=4)到第6幀(t=6)的語音特征序列，計算對應于由語法片段A描述的語句片段Wll的HMM狀態(tài)序列 S1 S3的前向概率。
第二匹配單元108中的前向概率的計算持續(xù)到語法傳輸單元104完成了語法片段的傳輸為止。這里，如圖12所示，在第二匹配單元108完成了針對笫6幀(t=6)的語音特征的前向概率的計算的時間點，認為語法傳輸單元104執(zhí)行的對于語法片段的傳輸已完成。 (8-2)傳輸語法片段之后的處理
在語法片段的傳輸完成了的時間點，由第二匹配單元108執(zhí)行的處理結(jié)束，并且由第一匹配單元107執(zhí)行的匹配處理再次開始。
這時，第一匹配單元107的計算前向概率的范圍，是在圖13的框線內(nèi) 表示的范圍。換句話說，對于從第4幀(t=4)到第6幀(t=6)的語音特征序列，計算對應于由最近傳輸?shù)恼Z法片段B描述的語句片段W21的 HMM狀態(tài)序列S4 S6的前向概率。與示出了不使用第二匹配單元而僅用笫一匹配單元107來計算前向概率的情況的圖IO相比，在圖13的框線內(nèi) 表示的范圍在計算前向概率的范圍上得以被限制
因此，與表達式(4)的情況相比，為了直到第6幀(t-6)計算HMM
狀態(tài)序列S1 S6的前向概率所需的時間D(l:6， S1:S6)減少了。更具體地，用下面的表達式(5 )給出使用第二匹配單元108的情況下為了計算前向概率所需的時間D(1:6， S1:S6)。
D(l:6， S1:S6)-D1(1:3， S1:S3) + Dt(B) + Dl(4:6， S4:S6) …(5) 其中傳輸語法片段B所需的時間Dt(B)等于在第二匹配單元108中對于從第4幀(t=4 )到第6幀(t=6 )的語音特征序列計算HMM狀態(tài)序列 S1 S3的前向概率所需的時間。即，Dt(B)-D2(4:6， S1:S3)。因此，可以將表達式(5)變形為表達式(6)。
D(l:6， S1:S6) = D1(1:3, S1:S3) + D2(4:6， S1:S3) + Dl(4:6， S4:S6)...
(6)
第一匹配單元107和第二匹配單元108之間在計算前向概率的時間上沒有差別。即，D2(4:6， S1:S3) = D1(4:6， S1:S3)。因此，可以進一步將表達式(6)變形為表達式(7)。
D(l:6， S1:S6) = D1(1:3， S1:S3) + Dl(4:6， S1:S3) + Dl(4:6， S4:S6)= Dl(l:3， S1:S3) + D1(4:6， S1:S3) …(7)。 (8-3)并行處理的效果
如果對表達式(4)和表達式(7)進行比較，則當傳輸語法片段所需的時間變?yōu)镈t(B)-0時，表達式(7)等于表達式(4)，并且左側(cè)小于表達式(4)。
換句話說，通過由第二匹配單元108與語法片段的傳輸并行地執(zhí)行處理，能夠從為了計算前向概率所需的時間D中消除傳輸語法片段B所需的
時間的影響。
因此，能夠通過減小第二語法存儲單元103的容量來抑制成本的增加，并且能夠執(zhí)行高速的匹配處理，而不會受到由語法傳輸單元104執(zhí)行的語法片段從第一語法存儲單元102至第二語法存儲單元103的傳輸所需的時間的影響。
(9)識別控制單元106
識別控制單元106監(jiān)視語法傳輸單元104的語法片段的傳輸狀態(tài)，并
根據(jù)傳輸狀態(tài)在第一匹配單元107與第二匹配單元108之間切換操作。
換句話說，當語法傳輸單元104根據(jù)由第一匹配單元107進行的匹配
處理的進展開始傳輸語法片段時，識別控制單元106將操作從第一匹配單
元107切換至第二匹配單元108,以由該第二匹配單元108與語法片段的
傳輸并行地執(zhí)行匹配操作。
一旦語法傳輸單元104完成了語法片段的傳輸，識別控制單元106就
將操作從第二匹配單元108切換至第一匹配單元107，以重新開始由該第
一匹配單元107執(zhí)4亍的處理。 (10 )操作
現(xiàn)在參照圖14描述第一實施例的操作。圖14是表示第一實施例的操作的例子的流程圖。
由于特征提取單元101的操作流程對于本領(lǐng)域的技術(shù)人員來說是明了的，因此在該流程圖中省略了對該部分內(nèi)容的描述。下面逐個步驟地(操作步驟S1至S7)描述基于圖14所示的流程圖的操作。
(Sl):語法傳輸單元104根據(jù)由第一匹配單元107執(zhí)行的匹配處理的進展，判斷是否需要傳輸語法片段。當需要傳輸語法片段時，該處理前進至步驟S4。如果不需要，則處理前進至步驟S2。
(S2 ):第一匹配單元107參閱存儲在笫二語法存儲單元103中的語法片段，并進行匹配處理。
(53) :當由第一匹配單元107或第二匹配單元108執(zhí)行的對于與輸入語音的末端對應的語音特征的匹配處理完成時，處理前進至步驟S7。如果沒有，則處理前進至步驟S1，以繼續(xù)匹配處理。
(54) :語法傳輸單元104將笫一匹配單元107所需的語法片段從第一語法存儲單元102傳輸至第二語法存儲單元103。
(S5 ):第二匹配單元108參閱存儲在第二語法存儲單元103中的語法片段，并且與語法傳輸單元104執(zhí)行的語法片段的傳輸并行地執(zhí)行匹配處理。
(S6 ):識別控制單元106監(jiān)視語法傳輸單元104執(zhí)行的語法片段的
傳輸?shù)臓顟B(tài)。當語法片段的傳輸完成時，處理前進至步驟S3。當語法片段的傳輸未完成時，處理前進至步驟S5，在其中第二匹配單元108繼續(xù)處理。
(S7):第一匹配單元107或第二匹配單元108輸出提供最高的前向概率的要被識別的語句，作為識別結(jié)果。
(11 )優(yōu)點
以這種方式，在第一實施例中，能夠通過減小第二語法存儲單元103 的容量來抑制語音識別裝置的成本的增加，并且能夠?qū)崿F(xiàn)高速的匹配處理，而不會受到用于等待由語法傳輸單元104執(zhí)行的語法片段從第一語法存儲單元102至第二語法存儲單元103的傳輸?shù)膫鬏數(shù)却龝r間的影響。 (12)變體
本發(fā)明并不限于第一實施例，在實施階段，在不脫離本發(fā)明的范圍的情況下，可以對組成要素進行修改?？梢愿鶕?jù)需要通過對該實施例中所公開的多個組成要素進行組合而按照各種方式對本發(fā)明進行修改。例如，可以從該實施例中公開的所有組成要素中去掉一些組成要素。并且，可以根據(jù)需要對不同實施例中的組成要素進行組合。
例如，在上述實施例中，提供了兩個匹配單元，即第一匹配單元107 和笫二匹配單元108，并且利用識別控制單元106來切換這些匹配單元的操作。
但是，也可以采用這樣一種結(jié)構(gòu)利用單個匹配單元代替第一匹配單元107和笫二匹配單元108,并且該匹配單元根據(jù)來自識別控制單元106 的指示，對其內(nèi)部處理進行切換，使得該匹配單元的操作等同于笫一匹配單元107或第二匹配單元108的操作。
第二實施例
現(xiàn)在參照圖11、圖12以及圖15-18來描述# 據(jù)第二實施例的語音識別裝置。
(1)第二實施例的特征根據(jù)第一實施例中用于利用第一匹配單元107和第二匹配單元108執(zhí) 行的前向概率的計算的表達式(3),第t幀的前向概率的計算僅僅依賴于
前一幀t-l的前向^既率以及幀t的語音特征X(t)。因此，當在匹配處理中計
算第t幀的前向概率oc(i, t)時，可以僅存儲第t-l幀的前向概率oc(i， t-l) (l=<i=<NS)，以對于第t幀的語音特征x(t)計算前向概率。
以這種方式，通過在計算第t幀的前向概率時僅存儲第t-l幀的前向概率cc(i， t-l)而忽略掉其他計算完畢的前向概率，可以顯著降低為了存儲任意的前向概率所需的存儲器量。
還有，通過僅參閱第t幀的語音特征x(t)而忽略掉第t幀之前的幀的語
音特征序列，也能夠顯著降低為了存儲任意的前向概率所需的存儲器量。如下面所述，第二實施例的優(yōu)點就在于，在匹配單元執(zhí)行的前向概率的計算的過程中，為了存儲前向概率以及語音特征序列所需的存儲器量被
顯著降低。
(2)語音識別裝置的結(jié)構(gòu)
圖15是示出了根據(jù)第二實施例的語音識別裝置的結(jié)構(gòu)例子的方框圖。
該語音識別裝置基本上具有與表示第一實施例的圖1中所示的方框圖相同的結(jié)構(gòu)，包才舌特征提取單元101、第一語法存儲單元102、第二語法存儲單元103、語法傳輸單元104、模型存儲單元105、識別控制單元106、第一匹配單元107以及第二匹配單元108。第二實施例還包括第三匹配單元109、語音特征存儲單元110以及概率存儲單元111。
在下面的說明中，僅對與第一實施例不同的部分進行描述。 (3 )語音特征存儲單元110
語音特征存儲單元110與幀編號相關(guān)聯(lián)地存儲在語法傳輸單元104傳輸語法片段期間、在由第二匹配單元108執(zhí)行的匹配處理中被參閱的語音特征序列。下面參照圖12和圖16來描述該操作。
圖12中框線內(nèi)的區(qū)域表示第二匹配單元108執(zhí)行的前向概率的計算的狀態(tài)。在圖12所示的例子中，在從第4幀(t=4)至第6幀(t-6)之間，計算與由語法片段A描述的語句片段Wll對應的HMM狀態(tài)序列S1 S3 的前向概率。這時，語音特征存儲單元IIO，如圖16中在框線內(nèi)(語音特征序列)所例示的那樣，與幀編號關(guān)聯(lián)起來存儲在第二匹配單元108進行
的匹配處理中被參閱的語音特征序列x(4)、 x(5)和x(6)。
(4) 概率存儲單元lll
當?shù)谝黄ヅ鋯卧?07和第二匹配單元108，到與包括后續(xù)語句片段的語句片段對應的HMM狀態(tài)序列的最終狀態(tài)為止，計算出了前向概率時，概率存儲單元111就會與幀編號關(guān)聯(lián)起來存儲相應的最終狀態(tài)的狀態(tài)編號及其前向概率。
下面參照圖11、 12和16描述該操作。
圖11示出了第一匹配單元107計算與由語法片段A描述的語句片段 Wll對應的HMM狀態(tài)序列的前向概率的計算的狀態(tài)。在圖ll中，計算笫3幀(t =3)的、與語句片段Wll對應的HMM狀態(tài)序列的最終狀態(tài) S3的前向概率。
圖12的框線內(nèi)的區(qū)域示出了第二匹配單元108執(zhí)行的、與由語法片段 A描述的語句片段Wll對應的HMM狀態(tài)序列的前向概率的計算的狀態(tài)。該前向概率的計算與語法傳輸單元104執(zhí)行的語法片段B的傳輸并行地執(zhí)行。
圖16是將圖11和圖12組合在一起的圖，其匯總地示出了由此前描述的第一匹配單元107和第二匹配單元108執(zhí)行的前向概率的計算的狀態(tài)。圖16的框線內(nèi)的區(qū)域是由第一匹配單元107和第二匹配單元108計算的、 HMM狀態(tài)序列中的最終狀態(tài)S3的前向概率。
在圖17所示的例子中，在從第3幀(t=3 )到第6幀(t=6 )期間，計算最終狀態(tài)S3的前向概率。這時，概率存儲單元111與幀編號關(guān)聯(lián)起來存儲圖17的框線內(nèi)所示的HMM狀態(tài)序列中的最終狀態(tài)S3的狀態(tài)編號以及前向概率a(3， 3)、 ct(3, 4)、 oc(3， 5)和ot(3, 6)。
(5) 第三匹配單元109
從語法傳輸單元104完成了語法片段的傳輸?shù)臅r間點開始，第三匹配單元109對于存儲在語音特征存儲單元110中的語音特征序列，計算與由語法傳輸單元104已傳輸了的后續(xù)語法片段描述的要被識別的詞匯及其語句片段對應的HMM狀態(tài)序列的前向概率。在計算該前向概率時，參閱與
存儲在概率存儲單元111中的在前語句片段對應的HMM狀態(tài)序列的最終狀態(tài)的前向概率。下面利用圖17中的例子來描述該操作。
圖17的由虛線框包圍的區(qū)域示出了圖16的例子中存儲在語音特征存儲單元110中的語音特征序列x(4)、 x(5)和x(6)以及存儲在概率存儲單元 111中的前向概率oc(3, 3)、 oc(3， 4)、 oc(3， 5)和oc(3， 6)。圖17的框線內(nèi)示出了第三匹配單元109針對存儲在語音特征存儲單元110中的語音特征序列的HMM狀態(tài)序列的前向概率的計算的狀態(tài)。這時，為了計算圖17 的框線內(nèi)的HMM狀態(tài)序列的前向概率，就需要參閱圖17的由虛線框包圍的語音特征序列x(4)、 x(5)和x(6)以及前向概率oc(3， 3)、 oc(3， 4)、 oc (3, 5)和a(3, 6)。這些值被存儲在如上所述的語音特征存儲單元110和概率存儲單元111中。
為了利用第三匹配單元109計算第t幀的前向概率，除了存儲在語音特征存儲單元110中的語音特征序列以及存儲在概率存儲單元111中的最終狀態(tài)的前向概率以外，僅存儲第t-l幀的前向概率oc(i， t-l)即可。在圖 17所示的例子中，為了計算第5幀(t=5)的前向概率ot(i， 5)(4=<i=<5)，僅存儲在第4幀(t=4 )計算的前向概率oc (i， 4) (1=4)即可。并且，為了計算第6幀(t=6)的前向概率，僅存儲在第5幀(t=5)計算的前向概率即可，而無需存儲在第4幀(t=4)計算的前向概率。以這種方式，在第三匹配單元109執(zhí)行的前向概率的計算中，計算過程中應該存儲的前向概率oc (i, t)的數(shù)量能夠顯著減少。
在由第一匹配單元107和第二匹配單元108執(zhí)行的前向概率的計算中也是，為了計算第t幀的前向概率，僅存儲第t-l幀的前向概率即可。因此，計算過程中應該存儲的前向概率的數(shù)量能夠顯著減少。
該第一匹配單元107和第二匹配單元108僅參閱第t幀的語音特征x(t) 即可，而無需存儲其他的語音特征序列。 (6)識別控制單元106
該識別控制單元106監(jiān)視語法傳輸單元104的語法片段的傳輸狀態(tài)，并根據(jù)傳輸狀態(tài)在第一匹配單元107、第二匹配單元108以及第三匹配單
元109之間切換操作。
首先，當語法傳輸單元104根據(jù)由第一匹配單元107進行的匹配處理的進展開始傳輸語法片段時，識別控制單元106將操作從第一匹配單元107 切換至第二匹配單元108，以由該笫二匹配單元108與語法片段的傳輸并行地執(zhí)行匹配操作。
接著，一旦語法傳輸單元104完成了語法片段的傳輸，識別控制單元 106就將操作從第二匹配單元108切換至第三匹配單元109，以由第三匹配單元109開始執(zhí)4亍匹配處理。
接著，在第三匹配單元109完成了針對存儲在語音特征存儲單元110 中的語音特征序列的匹配處理的時間點，識別控制單元106將操作從第三匹配單元109切換至第一匹配單元107，以重新開始由該第一匹配單元107 執(zhí)4亍的匹配處理。 (7 )操作
現(xiàn)在參照圖18描述第二實施例的操作。圖18是表示第二實施例的操作的例子的流程圖。
由于特征提取單元101的操作流程對于本領(lǐng)域的技術(shù)人員來說是明了的，因此在該流程圖中省略了對該部分內(nèi)容的描述。下面逐個步驟地(操作步驟S1至S15)描述基于圖18所示的流程圖的操作。
(51) :語法傳輸單元104根據(jù)由第一匹配單元107執(zhí)行的匹配處理的進展，判斷是否需要傳輸語法片段。當需要傳輸語法片段時，該處理前進至步驟S4。如果不需要，則處理前進至步驟S2。
(52) :第一匹配單元107參閱存儲在第二語法存儲單元103中的語法片,殳，并進4亍匹配處理。
(53) :概率存儲單元111,在第一匹配單元107計算出的前向概率中，與幀編號關(guān)聯(lián)起來存儲與具有后續(xù)語句的語句片段對應的HMM狀態(tài) 序列的最終狀態(tài)的前向概率。
(54) :當由第一匹配單元107或第二匹配單元108執(zhí)行的對于與輸入語音的末端對應的語音特征的匹配處理完成時，處理前進至步驟S7。如
果沒有，則處理前進至步驟S1，以繼續(xù)匹配處理。
(S5):語法傳輸單元104將第一匹配單元107所需的語法片段從第一語法存儲單元102傳輸至第二語法存儲單元103。
(S6 ):第二匹配單元108參閱存儲在第二語法存儲單元103中的語法片段，并且與語法傳輸單元104執(zhí)行的語法片段的傳輸并行地執(zhí)行匹配處理。
(57) :語音特征存儲單元110與幀編號關(guān)聯(lián)起來存儲在第二匹配單元108執(zhí)行的前向概率的計算中參閱的語音特征序列。
(58) :概率存儲單元lll，在第二匹配單元108計算出的前向概率中，與幀編號關(guān)聯(lián)起來存儲與具有后續(xù)語句的語句片段對應的HMM狀態(tài) 序列的最終狀態(tài)的前向概率。
(S9 ):識別控制單元106監(jiān)視語法傳輸單元104執(zhí)行的語法片段的傳輸?shù)臓顟B(tài)。當語法片段的傳輸完成時，處理前進至步驟SIO。當語法片段的傳輸未完成時，處理前進至步驟S6，在其中第二匹配單元108繼續(xù)處理。
(510) :第三匹配單元109，對于存儲在語音特征存儲單元110中的語音特征序列，參閱存儲在概率存儲單元111中的HMM狀態(tài)序列的最終狀態(tài)的前向概率，并執(zhí)行匹配處理。
(511) :識別控制單元106監(jiān)視第三匹配單元109，并且當?shù)谌ヅ?單元109的處理完成時，處理前進至步驟Sll。如果未完成，則處理前進至步驟SIO，其中第三匹配單元109繼續(xù)處理。
(512) :笫一匹配單元107、第二匹配單元108、第一匹配單元109 輸出提供最高的前向概率的要被識別的語句，作為識別結(jié)果。
(8 )優(yōu)點
如上所述，才艮據(jù)第二實施例，在第一匹配單元107、第二匹配單元108 以及第三匹配單元109執(zhí)行的前向概率的計算的過程中，用于存儲前向概率和語音特征序列的存儲器量能夠顯著降低。 (9)變體
本發(fā)明并不限于上面描述的實施例，在實施階段，在不脫離本發(fā)明的范圍的情況下，可以對組成要素進行修改?？梢愿鶕?jù)需要通過對該實施例中所公開的多個組成要素進行組合而按照各種方式對本發(fā)明進行修改。例如，可以從該實施例中公開的所有組成要素中去掉一些組成要素。并且，可以根據(jù)需要對不同實施例中的組成要素進行組合。
例如，在第二實施例中，提供了三個匹配單元，即第一匹配單元107、第二匹配單元108以及第三匹配單元109,并且利用識別控制單元106來切換這些匹配單元的操作。
但是，也可以采用這樣一種結(jié)構(gòu)利用單個匹配單元代替第一匹配單元107、笫二匹配單元108、第三匹配單元109，并且該匹配單元根據(jù)來自識別控制單元106的指示，對其內(nèi)部處理進行切換，使得該匹配單元的操作等同于第一匹配單元107、第二匹配單元108、第三匹配單元109的操作。
第三實施例
下面參照圖1描述根據(jù)第三實施例的語音識別裝置。根據(jù)第三實施例的語音識別裝置的結(jié)構(gòu)例子與圖1中所示的根據(jù)第一實施例的語音識別裝置的結(jié)構(gòu)例子相同。在第三實施例中，語法傳輸單元 104以及識別控制單元106的一部分操作與第一實施例不同。因此，僅對笫三實施例中識別控制單元106的操作進行說明。
(1) 第三實施例的特征
根據(jù)第三實施例，在語法傳輸單元104執(zhí)行的語法片段的傳輸中，當即使經(jīng)過了預定的時間也還未完成語法片段的傳輸時，語法片段的傳輸就會被中止。但是，可以根據(jù)在由第二匹配單元108執(zhí)行的處理中參閱的幀的數(shù)量來確定該預定時間。
換句話說，它可以被確定為"從開始語法片段的傳輸開始的100毫秒"。它還可以被確定為"從開始語法片段的傳輸開始、第二匹配單元108完成了針對5幀的量的語音特征序列的前向概率的計算的時間點"。該時間的值可以是任意的。
(2) 識別控制單元106
識別控制單元106監(jiān)視語法傳輸單元104執(zhí)行的語法片段的傳輸?shù)臓?態(tài)，并根據(jù)該傳輸?shù)臓顟B(tài)在第一匹配單元107和第二匹配單元108之間切
換操作。
這時，當語法傳輸單元104執(zhí)行的語法片段的傳輸中止時，與語法片段的傳輸并行地操作的第二匹配單元108的處理也會停止，接著將操作從第二匹配單元108切換至第一匹配單元107,并由該第一匹配單元107重新開始處理。作為選擇，第二匹配單元108的處理停止，并且語音識別裝置的所有處理都停止，并將由語法傳輸單元104執(zhí)行的語法片段的傳輸被中止的情況通知給語音識別裝置的用戶。 (3 )優(yōu)點
根據(jù)第三實施例，在語法傳輸單元104執(zhí)行的語法片段的傳輸中，當即使經(jīng)過了預定的時間也還未完成語法片段的傳輸時，語法傳輸單元104 就會中止語法片段的傳輸，并且識別控制單元106將操作從第二匹配單元 108切換至第一匹配單元107，以繼續(xù)匹配處理。
一般地，在從一個存儲裝置到另一個存儲裝置的數(shù)據(jù)傳輸中，因存儲裝置或數(shù)據(jù)傳輸路徑中出現(xiàn)的不能預料的問題，數(shù)據(jù)傳輸速度有可能急劇降低或者數(shù)據(jù)傳輸有可能失敗。當在語法傳輸單元104執(zhí)行的語法片段的傳輸期間出現(xiàn)這樣的語法片段的傳輸速度急劇降低或傳輸失敗時，由該語法傳輸單元104執(zhí)行的語法片段的傳輸就不能完成，因此該語音識別裝置的操作狀態(tài)就會停滯不前。
因此，根據(jù)第三實施例，通過由語法傳輸單元104檢測這樣的語法片段的傳輸速度的急劇降低或傳輸失敗，并使該語法傳輸單元104和識別控制單元106進行操作，來防止該語音識別裝置的操作狀態(tài)的停滯不前。
權(quán)利要求
1.一種語音識別裝置，包括生成單元，其被配置為對于具有任意的時間寬度的各幀，根據(jù)輸入語音的特征生成語音特征序列；模型存儲單元，其具有多個基于語法表達的語句以及通過劃分各個語句而得到的一個或多個連續(xù)的語句片段，該模型存儲單元被配置為存儲狀態(tài)轉(zhuǎn)移模型，該狀態(tài)轉(zhuǎn)移模型用與上述語音特征相關(guān)的狀態(tài)-狀態(tài)轉(zhuǎn)移表示各個語句片段的語音特征的時間系列變化；第一語法存儲單元，其被配置為存儲與屬于上述各語句的一個或多個連續(xù)的語句片段相關(guān)的語法片段；第二語法存儲單元，其被配置為存儲至少一部分從第一語法存儲單元傳輸?shù)纳鲜稣Z法片段，并能夠以比第一語法存儲單元所需的更短的讀取時間來讀出存儲在其中的信息；第一匹配單元，其被配置為通過參閱存儲在第二語法存儲單元中的語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，來獲得由生成單元針對每個幀生成的語音特征序列的、狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；語法傳輸單元，其被配置為當?shù)谝黄ヅ鋯卧@得狀態(tài)轉(zhuǎn)移模型的所述狀態(tài)中最終狀態(tài)的前向概率時，將與接續(xù)在所述連續(xù)的語句片段中的一個之后的后續(xù)語句片段相關(guān)的語法片段從第一語法存儲單元傳輸至第二語法存儲單元；第二匹配單元，其被配置為通過參閱存儲在第二語法存儲單元中的語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，對于接續(xù)在上述語音特征序列之后、由生成單元針對每個幀生成的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；第三匹配單元，其被配置為通過參閱被傳輸?shù)降诙Z法存儲單元的上述后續(xù)語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，對于各個幀的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；識別控制單元，其被配置為(1)對各個語句進行識別，(2)使第一匹配單元工作，直到開始后續(xù)語法片段的傳輸，(3)從傳輸?shù)拈_始到完成，與傳輸并行地使第二匹配單元工作，(4)一旦該傳輸完成，使第三匹配單元工作，以及(5)重復(2)至(4)的操作，直到屬于各個語句的語句片段的所有操作完成，以獲得各個語句的最終的前向概率；以及識別單元，其被配置為輸出一語句作為語音特征序列的識別結(jié)果，其中該語句在多個語句的各個的最終的前向概率中給出了最高的前向概率。
2. 根據(jù)權(quán)利要求l的裝置，其中上述第一匹配單元和第三匹配單元相互集成在一起。
3. 根據(jù)權(quán)利要求l的裝置，還包括概率存儲單元，其被配置為與直到最終狀態(tài)的狀態(tài)編號以及直到幀中的當前一個幀的幀編號相關(guān)聯(lián)地，存儲由第一匹配單元獲得的連續(xù)的語句片段中所述一個的最終狀態(tài)的前向概率以及由第二匹配單元獲得的后續(xù)語句片段的最終狀態(tài)的前向概率；以及語音特征存儲單元，其被配置為與幀編號相關(guān)聯(lián)地存儲各個幀的后續(xù) 語音特征序列；其中第三匹配單元通過參閱所傳輸?shù)暮罄m(xù)語法片段、所存儲的最終狀態(tài)的前向概率、狀態(tài)編號以及幀編號，對于所存儲的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率。
4. 根據(jù)權(quán)利要求l的裝置，其中當即使經(jīng)過了預定時間后也還未完成傳輸時，語法傳輸單元停止后續(xù)語法片段的傳輸。
5. 根據(jù)權(quán)利要求4的裝置，其中當即使經(jīng)過了預定時間后也還未完成傳輸時，識別控制單元使第一匹配單元工作。
6. —種語音識別方法，其由包括以下部件的語音識別裝置執(zhí)行模型存儲單元，其具有多個基于語法表達的語句以及通過劃分各個語句而得到的一個或多個連續(xù)的語句片段，該模型存儲單元被配置為存儲狀態(tài)轉(zhuǎn)移模型，該狀態(tài)轉(zhuǎn)移模型用與上述語音特征相關(guān)的狀態(tài)-狀態(tài)轉(zhuǎn)移表示各個語句片段的語音特征的時間系列變化；第一語法存儲單元，其被配置為存儲與屬于上述各語句的一個或多個連續(xù)的語句片段相關(guān)的語法片段；第二語法存儲單元，其被配置為存儲從笫一語法存儲單元傳輸?shù)乃?步驟或一個步驟的語法片段，并能夠以比第一語法存儲單元所需的更短的讀取時間來讀出存儲在其中的信息；該方法包括生成步驟，對于具有任意的時間寬度的各幀，根據(jù)輸入語音的特征生成語音特征序列；第一匹配步驟，通過參閱存儲在第二語法存儲單元中的語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，來獲得在生成步驟中針對每個幀生成的語音特征序列的、狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；語法傳輸步驟，當在第一匹配步驟中獲得狀態(tài)轉(zhuǎn)移模型的所述狀態(tài)中最終狀態(tài)的前向概率時，將與接續(xù)在所述連續(xù)的語句片段中的一個之后的后續(xù)語句片段相關(guān)的語法片段從第一語法存儲單元傳輸至第二語法存儲單元；第二匹配步驟，通過參閱存儲在第二語法存儲單元中的語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，對于接續(xù)在上述語音特征序列之后、在生成步驟中針對每個幀生成的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；第三匹配步驟，通過參閱被傳輸?shù)降诙Z法存儲單元的上述后續(xù)語法片段以及存儲在模型存儲單元中的狀態(tài)轉(zhuǎn)移模型，對于各個幀的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率；識別控制步驟，(1)對各個語句進行識別，(2)使笫一匹配步驟工作，直到開始后續(xù)語法片段的傳輸，(3)從傳輸?shù)拈_始到完成，與傳輸并行地使第二匹配步驟工作，(4)一旦該傳輸完成，使第三匹配步驟工作，以及(5)重復(2)至(4)的操作，直到屬于各個語句的語句片段的所有操作完成，以獲得各個語句的最終的前向概率；以及識別步驟，輸出一語句作為語音特征序列的識別結(jié)果，其中該語句在多個語句的各個的最終的前向概率中給出了最高的前向概率。
7. 根據(jù)權(quán)利要求6的方法，其中上述第一匹配步驟和第三匹配步驟相互結(jié)合在一起。
8. 根據(jù)權(quán)利要求6的方法，其中上述語音識別裝置還包括概率存儲單元，其被配置為與直到最終狀態(tài)的狀態(tài)編號以及直到幀中的當前一個幀的幀編號相關(guān)聯(lián)地，存儲由第一匹配步驟獲得的連續(xù)的語句片段中所述一個的最終狀態(tài)的前向概率以及由第二匹配步驟獲得的后續(xù)語句片段的最終狀態(tài)的前向概率；以及語音特征存儲單元，其被配置為與幀編號相關(guān)聯(lián)地存儲各個幀的后續(xù) 語音特征序列；在該方法中，第三匹配步驟通過參閱所傳輸?shù)暮罄m(xù)語法片段、所存儲的最終狀態(tài)的前向概率、狀態(tài)編號以及幀編號，對于所存儲的后續(xù)語音特征序列，獲得狀態(tài)轉(zhuǎn)移模型的各個狀態(tài)的前向概率。
9. 根據(jù)權(quán)利要求8的方法，其中當即使經(jīng)過了預定時間后也還未完成傳輸時，語法傳輸步驟停止后續(xù)語法片段的傳輸。
10. 根據(jù)權(quán)利要求9的方法，其中當即使經(jīng)過了預定時間后也還未完成傳輸時，識別控制步驟使第一匹配步驟工作。
全文摘要
一種語音識別裝置包括第一語法存儲單元，其被配置為存儲一個或多個語法片段；第二語法存儲單元，其被配置為存儲一個或多個語法片段；第一匹配單元，其被配置為通過參閱存儲在第二語法存儲單元中的語法片段，執(zhí)行匹配處理；語法傳輸單元，其被配置為將后續(xù)語法片段從第一語法存儲單元傳輸至第二語法存儲單元；第二匹配單元，其被配置為與語法傳輸單元并行地進行操作并且通過參閱存儲在第二語法存儲單元中的語法片段，執(zhí)行匹配處理；以及識別控制單元，其被配置為監(jiān)視由語法傳輸單元執(zhí)行的后續(xù)語法片段的傳輸?shù)臓顟B(tài)，并通過根據(jù)語法片段的傳輸?shù)臓顟B(tài)切換其操作來使兩個匹配單元工作。
文檔編號G10L15/00GK101369425SQ20081016861
公開日2009年2月18日申請日期2008年8月15日優(yōu)先權(quán)日2007年8月17日
發(fā)明者酒井優(yōu) 申請人:株式會社東芝

完整全部詳細技術(shù)資料下載