專利名稱:字識別設(shè)備、字識別方法和字識別程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及字識別設(shè)備、字識別方法和字識別程序。更特別地,本發(fā)明涉及的字識別設(shè)備、字識別方法和字識別程序即便在外部語音模型不能很好地處理輸入的發(fā)音時也能夠適當(dāng)?shù)貓?zhí)行語音識別,并且,本發(fā)明的字識別設(shè)備、字識別方法和字識別程序使用了通過對字長度的歸一化處理而得到的歸一化累計(jì)相似性,并適合于使用具有很少的狀態(tài)數(shù)的關(guān)鍵字模型進(jìn)行語音識別。
背景技術(shù):
圖1是表示一個包含兩端都連接在外部語音模型上的關(guān)鍵字的關(guān)鍵字模型λ配置的概念圖。在本例中相似性使用似然性(概率)表示。
把輸入語音分成幀并且輸出該輸入語音的特性參數(shù)。此處的特性參數(shù)是對每個頻帶的能量進(jìn)行向量量化或其類似處理而得到的。更明確地,通常使用線性預(yù)測系數(shù)、LPC倒頻譜、或者每個頻帶的能量等的向量量化。
另一方面,從關(guān)鍵字?jǐn)?shù)據(jù)庫輸出關(guān)鍵字的發(fā)聲數(shù)據(jù)并且從外部語音數(shù)據(jù)庫輸出外部語音的發(fā)聲數(shù)據(jù),以及通過將關(guān)鍵字的兩端都和外部語音模型相連接來產(chǎn)生關(guān)鍵字模型。然后從聲學(xué)模型數(shù)據(jù)庫取出聲學(xué)模型和對應(yīng)于關(guān)鍵字模型發(fā)音數(shù)據(jù)的轉(zhuǎn)移概率以便產(chǎn)生關(guān)鍵字模型的特性參數(shù)。
然后,由關(guān)鍵字似然性計(jì)算設(shè)備計(jì)算并輸出在輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字似然性。
具體來說,通過在逐幀為基礎(chǔ)的每個狀態(tài)中比較輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)來計(jì)算似然性(發(fā)生概率)并且該結(jié)果作為在每個時間點(diǎn)上給定狀態(tài)的狀態(tài)似然性而被輸出。
實(shí)際上,為了改進(jìn)語音識別率準(zhǔn)備了兩種類型的數(shù)據(jù)庫(關(guān)鍵字?jǐn)?shù)據(jù)庫和外部語音數(shù)據(jù)庫),產(chǎn)生了包含兩端與外部語音模型連接的關(guān)鍵字的關(guān)鍵字模型和包含兩端與外部語音模型連接的外部語音模型,以及使用累計(jì)關(guān)鍵字似然性以識別關(guān)鍵字,該似然性由根據(jù)包含該關(guān)鍵字模型的路徑的維特比算法方法來確定。
在根據(jù)一種模型(諸如對任何語音都輸出特別小的距離的補(bǔ)白(Filler)模型)利用維特比算法方法執(zhí)行語音識別時,關(guān)鍵字的狀態(tài)數(shù)越少,則發(fā)音參數(shù)特性和關(guān)鍵字參數(shù)特性之間的累積距離越小,因而越難于提取正確的關(guān)鍵字。為了解決這個問題,有的語音識別技術(shù)使用通過累積距離對字長度進(jìn)行歸一化而得到的歸一化累積距離作為判斷識別結(jié)果的根據(jù)以避免對字的長度的依賴。例如,在日本專利申請公報(bào)出版物No.6-167994第0099段公開了一種技術(shù),它使用語音分段的歸一化幀計(jì)數(shù)以便對最終概率(一種累積的相似性)進(jìn)行歸一化。
實(shí)際上為了提高語音識別準(zhǔn)確性,準(zhǔn)備了兩種數(shù)據(jù)庫類型(關(guān)鍵字?jǐn)?shù)據(jù)庫和外部語音數(shù)據(jù)庫),產(chǎn)生了包含其兩端都與通配符模型連接的關(guān)鍵字的關(guān)鍵字模型和外部語音模型,使用維特比算法方法從包含關(guān)鍵字模型的路徑中計(jì)算累積關(guān)鍵字距離,并且使用維特比算法方法從包含外部模型的路徑中計(jì)算累積外部語音距離。從累積關(guān)鍵字距離中減去累積外部語音距離,并且把所得差值進(jìn)行對字長度的歸一化以輸出用于語音識別的歸一化累積距離。
通常,在HMM(隱馬爾可夫模型)中狀態(tài)延續(xù)時間的概率密度是一個對數(shù)函數(shù)。然而這只能滿足一個不現(xiàn)實(shí)的狀態(tài)持續(xù)時間而不能提供合適的語音模型。
為了解決這個問題,可以利用一項(xiàng)技術(shù)(不完全馬爾可夫模型),它涉及把狀態(tài)持續(xù)時間的概率密度明顯地引入到HMM中并從語音數(shù)據(jù)庫中得到它們。
現(xiàn)在將描述如何使用維特比算法方法計(jì)算累積距離(一種累積相似性)。
圖3是一個表明所包含的關(guān)鍵字的兩端都連接在通配符模型上的關(guān)鍵字模型λ的配置的概念圖。
圖4表示了在使用維特比算法方法計(jì)算累積距離D(t,m)時的網(wǎng)格圖,此時如圖3所示的關(guān)鍵字模型λ輸出的符號序列為{a,b,a)。
箭頭方向顯示了狀態(tài)的轉(zhuǎn)移。根據(jù)通常被用于語音識別的關(guān)鍵字模型λ,只有兩種可能的狀態(tài)轉(zhuǎn)移類型,轉(zhuǎn)移到和當(dāng)前狀態(tài)相同的狀態(tài)以及轉(zhuǎn)移到當(dāng)前狀態(tài)的下一個狀態(tài),如圖3中所示。因而在圖4中只使用了兩種箭頭平移的箭頭表示轉(zhuǎn)移到與當(dāng)前狀態(tài)相同的狀態(tài)以及向上斜的箭頭表示轉(zhuǎn)移到下一個狀態(tài)。在圖4的網(wǎng)格中,垂直方向表示模型的狀態(tài)而平行方向表示幀(時間)的前移。
下面給出描述根據(jù)網(wǎng)格圖計(jì)算圖3中輸出的符號序列為{a,b,a}時的累積距離D(t,m)的例子。
另外,符號a表示通配符而符號b表示關(guān)鍵字模型。在圖4的網(wǎng)格圖中符號a是由頂層和底層的行表示的外部語音狀態(tài)。符號b是在表示外部語音狀態(tài)的兩行之間所夾的三行所表示的關(guān)鍵字本身。圖5表示符號序列和關(guān)鍵字模型之間的對應(yīng)關(guān)系。
在初始狀態(tài),在每個時間點(diǎn)(幀編號)上每個狀態(tài)的狀態(tài)距離被計(jì)算并存儲在狀態(tài)距離表P(t,m)中。使用從時間序列上的輸入發(fā)音的每個預(yù)定幀中取出的特性參數(shù)(每個頻帶的能量的量化向量)以及存儲在關(guān)鍵字?jǐn)?shù)據(jù)庫中的關(guān)鍵字特性參數(shù)來計(jì)算通常被用作狀態(tài)距離的距離(歐幾里德距)。
這里使用的模型具有狀態(tài)iS(INITIAL)作為它的初始狀態(tài),這意味著在時間點(diǎn)t=1時的初始狀態(tài)是狀態(tài)iS(INITIAL)。狀態(tài)S1作為狀態(tài)iS(INITIAL)時的狀態(tài)距離P(1,1)為P(1,1)=0。其它的狀態(tài)S2,S3,S4,S5所分別對應(yīng)的狀態(tài)距離P(1,2),P(1,3),P(1,4),P(1,5)理論上最好是無窮大(∝)。然而由于在數(shù)學(xué)計(jì)算中不能處理無窮大,因此在計(jì)算中使用比實(shí)際計(jì)算中可以得到的距離值大得多的值Rfm代替。因而,輸入狀態(tài)S1的累積距離D(1,1)=0并使用充分大的數(shù)值Rfm作為其它狀態(tài)S2,S3,S4,S5的累積距離D(1,2),D(1,3),D(1,4),D(1,5)。
隨著時間的前移,在時間點(diǎn)t=2時狀態(tài)S1的累積距離D(2,1)由狀態(tài)S1在時間點(diǎn)t=1時的累積距離D(1,1)、狀態(tài)S1在時間點(diǎn)t=2時的狀態(tài)距離P(2,1)以及轉(zhuǎn)移的擬合程度b(S1,S2)的和給出即D(2,1)=D(1,1)+P(2,1)+b(S1,S2)。因而輸入D(1,1)+P(2,1)+b(S1,S2)作為時間點(diǎn)t=2時狀態(tài)S1的累積距離D(2,1)。
轉(zhuǎn)移擬合度b(u,v)是狀態(tài)u將會轉(zhuǎn)移到狀態(tài)v的概率的指標(biāo)。它的值是當(dāng)已知一個聲學(xué)模型時,從狀態(tài)u和狀態(tài)v之間連接的頻率得出的。
在維特比算法方法中,狀態(tài)S2在時間點(diǎn)t=2時的累積距離D(2,2)是下面兩個和值中較小的即狀態(tài)S1在時間點(diǎn)t=1時的累積距離D(1,1)、狀態(tài)S2在時間點(diǎn)t=2時的狀態(tài)距離P(2,2)以及轉(zhuǎn)移的擬合度b(S1,S2)之和,即D(1,1)+P(2,2)+b(S1,S2);和狀態(tài)S2在時間點(diǎn)t=1時的累積距離D(1,2)、狀態(tài)S2在時間點(diǎn)t=2時的狀態(tài)距離P(2,2)以及轉(zhuǎn)移的擬合度b(S2,S2)之和,即D(1,2)+P(2,2)+b(S2,S2)。因而輸入D(2,2)=Min{D(1,1)+P(2,2)+b(S1,S2),D(1,2)+P(2,2)+b(S2,S2)}作為狀態(tài)S2在時間點(diǎn)t=2時的累積距離D(2,2)。
此時,狀態(tài)轉(zhuǎn)移信息被輸入到表示狀態(tài)轉(zhuǎn)移的有或者無的狀態(tài)轉(zhuǎn)移信息表I(2,2)。例如,如果D(1,1)+P(2,2)+b(S1,S2)≥D(1,2)+P(2,2)+b(S2,S2),那么當(dāng)前的累積距離是D(2,2)=D(1,2)+P(2,2)+b(S2,S2),意味著當(dāng)前狀態(tài)D(1,2)與前一狀態(tài)相同。因而狀態(tài)轉(zhuǎn)移信息I(2,2)包含一個顯示沒有狀態(tài)轉(zhuǎn)移的符號或者數(shù)值,例如“Auto”。反之,如果D(1,1)+P(2,2)+b(S1,S2)<D(1,2)+P(2,2)+b(S2,S2),那么當(dāng)前累積距離是D(2,2)=D(1,1)+P(2,2)+b(S1,S2),意味著發(fā)生從前一狀態(tài)D(1,1)的轉(zhuǎn)移。結(jié)果,狀態(tài)轉(zhuǎn)移信息I(2,2)包含了一個顯示狀態(tài)轉(zhuǎn)移的符號或者數(shù)值,例如“Next”。
實(shí)際上,如上所述由于該充分大的值Rfm被賦給D(1,2),因此D(1,1)+P(2,2)+b(S1,S2)<D(1,2)+P(2,2)+b(S2,S2)成立,而狀態(tài)轉(zhuǎn)移信息I(2,2)中包含符號“Next”,這顯示發(fā)生了從狀態(tài)D(1,1)到狀態(tài)D(2,2)的轉(zhuǎn)移。
進(jìn)而,在維特比算法方法中,時間點(diǎn)t=2時狀態(tài)S3的累積距離D(2,3)也是以下兩個和中較小的即狀態(tài)S2在時間點(diǎn)t=1時的累積距離D(1,2)、狀態(tài)S 3在時間點(diǎn)t=2時的狀態(tài)距離P(2,3)以及轉(zhuǎn)移的擬合度b(S2,S3)之和,即D(1,2)+P(2,3)+b(S2,S3);和狀態(tài)S3在時間點(diǎn)t=1時的累積距離D(1,3)、狀態(tài)S3在時間點(diǎn)t=2時的狀態(tài)距離P(2,3)以及轉(zhuǎn)移的擬合度b(S3,S3)之和,即D(1,3)+P(2,3)+b(S3,S3)。因而輸入D(2,3)=Min{D(1,2)+P(2,3)+b(S2,S 3),D(1,3)+P(2,3)+b(S 3,S3))作為狀態(tài)S3在時間點(diǎn)t=2時的累積距離D(2,2)。根據(jù)狀態(tài)轉(zhuǎn)移情況狀態(tài)轉(zhuǎn)移信息I(2,3)中包含“Auto”或者“next”。
與此相似,狀態(tài)S4在時間點(diǎn)t=2時的累積距離D(2,4)是D(1,3)+P(2,4)+b(S3,S4)和D(1,4)+P(2,4)+b(S4,S4)中較小的。根據(jù)狀態(tài)轉(zhuǎn)移情況,狀態(tài)轉(zhuǎn)移信息I(2,4)中包含“Auto”或者“next”。
同樣,狀態(tài)S5在時間點(diǎn)t=2時的累積距離D(2,5)是D(1,4)+P(2,5)+b(S4,S5)和D(1,5)+P(2,5)+b(S5,S5)中較小的。根據(jù)狀態(tài)轉(zhuǎn)移情況,狀態(tài)轉(zhuǎn)移信息I(2,5)中包含含“Auto”或者“next”。
隨著狀態(tài)進(jìn)一步轉(zhuǎn)移,狀態(tài)S1到S5在時間點(diǎn)t=3的累積距離D(3,1)到D(3,5)也被計(jì)算,并確定和存儲狀態(tài)轉(zhuǎn)移信息I(3,1)到I(3,5)。
對狀態(tài)S1到S5在時間點(diǎn)t=4到t=12時的累積距離D和轉(zhuǎn)移信息I也同樣地計(jì)算并且作為狀態(tài)S1到S5的累積距離D(12,m)(m在1到5之間)輸入到圖4中最右列中。
在網(wǎng)格圖中,模型在輸出符號序列時的累積距離出現(xiàn)在右上角,這表示最后一幀的最終的狀態(tài)。因而在圖4的網(wǎng)格中,關(guān)鍵字模型λ輸出符號序列P{a,b,a)時的累積距離為D(12,5)。
如果在對符號序列λ進(jìn)行維特比處理期間記錄下狀態(tài)信息I,并且完成對符號序列λ的維特比處理,那么采取的路徑可以從記錄下的狀態(tài)轉(zhuǎn)移信息I中得到。根據(jù)狀態(tài)轉(zhuǎn)移信息I從最后一幀的最終狀態(tài)開始對軌跡進(jìn)行回溯,就可以得到表示符號序列λ轉(zhuǎn)移處理的狀態(tài)序列(最佳路徑)。
另一方面,用于歸一化處理的字長度通常是與語音分段相對應(yīng)的關(guān)鍵字分段,如前面提到的文件中已公開的。
對所有存儲在關(guān)鍵字?jǐn)?shù)據(jù)庫中的符號序列(例如{a,b,b))執(zhí)行上述的處理,并把具有最小歸一化累積距離的符號序列作為識別結(jié)果而輸出。
然而,當(dāng)關(guān)鍵字是使用字識別設(shè)備從發(fā)音中提取時,如果發(fā)音的分段比關(guān)鍵字分段長會降低識別的效果。
發(fā)明人觀察了阻礙語音識別性能提高的情況并且發(fā)現(xiàn)性能不高的外部語音模型和非關(guān)鍵字分段(此后稱為外部語音分段)不正確的匹配會導(dǎo)致低似然性,正是這個現(xiàn)象構(gòu)成了阻礙。
圖2中表示了似然性的時間變化和實(shí)際輸出的錯誤關(guān)鍵字以及應(yīng)當(dāng)輸出的關(guān)鍵字(今后稱為“正確的關(guān)鍵字”)的最佳路徑上的累積似然性。上面的圖表示似然性的時間變化而下面的圖表示累積似然的時間變化。由于該圖對應(yīng)似然性,所以曲線向右傾斜。在最初的關(guān)鍵字段(CS到CF),正確的關(guān)鍵字的似然性很高,但是在外部語音分段(ES到CS),外部語音似然性在某處有一個特別小的值。如果沒有包含在發(fā)音中的關(guān)鍵字偶然地和實(shí)際發(fā)聲的外部語音匹配而外部語音似然很小,那么這一錯誤關(guān)鍵字的累積似然趨向于變得大于包含在發(fā)音中的實(shí)際的關(guān)鍵字。發(fā)明者發(fā)現(xiàn)由于這個影響關(guān)鍵字模型的累積似然在語音分段的結(jié)束點(diǎn)(SE)小于外部語音模型的累積似然,使得維特比處理產(chǎn)生了錯誤的結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種不會因?yàn)橥獠空Z音模型的性能不能和外部語音分段中的發(fā)音匹配而受到影響的字識別設(shè)備、字識別方法和字識別程序。
本發(fā)明提供了一種不會因?yàn)橥獠空Z音模型不能足夠精確地和外部語音分段中的發(fā)音匹配而受到影響的字識別設(shè)備、字識別方法和字識別程序。
然而,在使用通過累積距離對字長度進(jìn)行歸一化而得到歸一化距離的字識別方法中,如果沒有包含在發(fā)音中的關(guān)鍵字產(chǎn)生了匹配,那么由維特比算法方法得到的最佳路徑就不能正確的適配輸入發(fā)音。特別地,當(dāng)因?yàn)殛P(guān)鍵字模型的一個狀態(tài)繼續(xù)很長時間,字長度被認(rèn)為大于實(shí)際分析中可能的字長度時,如果使用與作為字長度的語音分段相對應(yīng)的歸一化幀計(jì)數(shù)來對累積距離進(jìn)行歸一化,那么輸出關(guān)鍵字的字長度越長,該關(guān)鍵字的歸一化累積距離越小。因此也許輸出的是不包含在發(fā)音中并且其累積距離小于正確的關(guān)鍵字的歸一化累積距離的關(guān)鍵字。特別地,如果一個比包含在發(fā)音中的關(guān)鍵字的關(guān)鍵字模型具有較少的狀態(tài)數(shù)的關(guān)鍵字模型被用于匹配,表示該關(guān)鍵字本身的狀態(tài)通常會持續(xù)很長時間。結(jié)果,由于同一狀態(tài)已持續(xù)很長時間,計(jì)算所得的該錯誤關(guān)鍵字的估計(jì)字長將大于相應(yīng)地實(shí)際預(yù)測的字長并且將根據(jù)這一估計(jì)輸出該關(guān)鍵字分段的歸一化幀計(jì)數(shù)。因此,不能正確檢測到狀態(tài)轉(zhuǎn)移并且被估計(jì)的該字長度長得不切實(shí)際,這樣導(dǎo)致了小的歸一化累積距離。這會引起問題,使得不包含在發(fā)音中的關(guān)鍵字被作為識別的關(guān)鍵字而輸出。
如果使用不包含在發(fā)音中的關(guān)鍵字的關(guān)鍵字模型進(jìn)行匹配,得到的最佳路徑不一定對應(yīng)于實(shí)際可利用的路徑。如果使用最佳路徑進(jìn)行歸一化處理,也許會導(dǎo)致一個很小的歸一化累積距離。因此,很容易會把錯誤的關(guān)鍵字作為識別關(guān)鍵字輸出。
使用歸一化累積距離進(jìn)行語音識別時會識別出錯誤的關(guān)鍵字的原因在于即便是狀態(tài)轉(zhuǎn)移繼續(xù)了不切實(shí)際長的時間也不會采取任何措施處理,本發(fā)明就是基于這種認(rèn)識作出的。本發(fā)明的另一個目的是提供字識別設(shè)備、字識別方法和字識別程序,它可以避免選取一條不切實(shí)際的長路徑作為最佳路徑并且因此把錯誤的關(guān)鍵字作為被識別關(guān)鍵字輸出。
正常地,HMM允許一個不切實(shí)際的長狀態(tài)持續(xù)時間,這樣會降低識別準(zhǔn)確性。不完全馬爾可夫模型包含大量的計(jì)算,使它很難實(shí)行實(shí)時處理。
在字識別中,如果不包含在發(fā)音中的關(guān)鍵字產(chǎn)生了匹配,使用維特比算法方法得到的最佳路徑不能正確的與輸入發(fā)音相一致。特別地,其字長度被認(rèn)為大于實(shí)際被分析的關(guān)鍵字的可能長度的關(guān)鍵字會被輸出,因?yàn)槟骋魂P(guān)鍵字模型的一種狀態(tài)持續(xù)了很長時間。特別是如果關(guān)鍵字模型的狀態(tài)數(shù)小于包含在發(fā)音中的關(guān)鍵字的關(guān)鍵字模型并被用于匹配時,表示關(guān)鍵字本身狀態(tài)通常會持續(xù)很長時間。
如果沒有關(guān)鍵字被包含在發(fā)音中,使用維特比算法方法得到的最佳路徑可能不會與輸入發(fā)音相一致。因此,累積距離變小并且容易把錯誤的關(guān)鍵字作為被識別關(guān)鍵字輸出。
進(jìn)行語音識別時會識別出錯誤的關(guān)鍵字的原因在于即便是狀態(tài)轉(zhuǎn)移繼續(xù)了不切實(shí)際長的時間也不會采取任何措施處理,本發(fā)明就是基于這種認(rèn)識作出的。本發(fā)明的另一個目的是提供字識別設(shè)備、字識別方法和字識別程序,它可以避免選取一條不切實(shí)際的長路徑作為最佳路徑并且因此把錯誤的關(guān)鍵字作為被識別關(guān)鍵字輸出。
以下將描述本發(fā)明。附帶地,在附圖中使用的參考數(shù)字將插入到以下的描述中以助于理解本發(fā)明,但是這并不打算把本發(fā)明限制在圖里所表示的形式中。
本發(fā)明的以上目的可以使用字識別設(shè)備完成,它具有諸如CPU等可以從輸入發(fā)音中提取語音分段的特性參數(shù)生成裝置5,它把語音分段分割成幀,并產(chǎn)生發(fā)音的特性參數(shù);諸如HD等的聲學(xué)模型數(shù)據(jù)庫6,它在子字級別級存儲語音的特性參數(shù);諸如CPU等的關(guān)鍵字模型生成裝置8,它使用從諸如HD等的關(guān)鍵字?jǐn)?shù)據(jù)庫7中輸出的關(guān)鍵字的發(fā)聲數(shù)據(jù)以及從該聲學(xué)模型數(shù)據(jù)庫(中)輸出的特性參數(shù)生成關(guān)鍵字模型;諸如CPU等的關(guān)鍵字相似性計(jì)算裝置11,21,它計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字相似性;以及諸如CPU等的累積關(guān)鍵字相似性計(jì)算裝置14,24,32,42,它計(jì)算該關(guān)鍵字模型的累積相似性。
在本發(fā)明的字識別設(shè)備的一個方面,該累積關(guān)鍵字相似性計(jì)算裝置14,24,32,42使用維特比算法方法計(jì)算該關(guān)鍵字模型的累積相似性。
在本發(fā)明字識別設(shè)備的另一個方面,該字識別設(shè)備進(jìn)一步具有諸如CPU等的外部語音模型生成裝置10,它使用從諸如HD等的外部語音數(shù)據(jù)庫9輸出的外部語音發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫6輸出的特性參數(shù)以生成外部語音模型;以及諸如CPU等的外部語音相似性計(jì)算裝置12,22,它計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性。
在本發(fā)明的字識別設(shè)備的更進(jìn)一步方面,字識別設(shè)備進(jìn)一步具有諸如CPU等的限值設(shè)定裝置13,23,其中如果外部語音相似性超出了預(yù)設(shè)范圍,則該限值設(shè)定裝置13,23把預(yù)設(shè)值作為外部語音相似性輸出。
這樣,如果外部語音相似性超出了預(yù)設(shè)范圍,則把一個預(yù)設(shè)值作為外部語音相似性輸出。因而即使外部語音模型不能很好地匹配外部語音分段中的發(fā)音,它的影響也可以被消除。
從而,累積相似性的是使用維特比算法方法來計(jì)算的。
在本發(fā)明的字識別設(shè)備的進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置11計(jì)算語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字似然性;外部語音相似性計(jì)算裝置12計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間外部語音似然性;如果外部語音似然性小于預(yù)設(shè)值,則限值設(shè)定裝置13把預(yù)設(shè)值作為外部語音似然性輸出;并且該累積相似性計(jì)算裝置14計(jì)算關(guān)鍵字模型的累積似然性。
這樣,如果外部語音似然性小于預(yù)設(shè)值,就把預(yù)設(shè)值作為外部語音似然性輸出。因而,即便外部語音模型不能很好的匹配外部語音分段中的發(fā)音,它的影響也可以被消除。
在本發(fā)明的字識別設(shè)備更進(jìn)一步方面,關(guān)鍵字相似性計(jì)算裝置21計(jì)算該發(fā)音的特性參數(shù)和該關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;諸如CPU等的外部語音相似性計(jì)算裝置22計(jì)算該發(fā)音的特性參數(shù)和該外部語音模型的特性參數(shù)之間的外部語音距離;如果外部語音距離大于預(yù)定值,則該限值設(shè)定裝置23輸出預(yù)設(shè)值作為外部語音距離;并且該累積相似性計(jì)算裝置24計(jì)算該關(guān)鍵字模型的累積距離。
這樣,如果外部語音大于預(yù)設(shè)值,該預(yù)設(shè)值被作為外部語音距離輸出。因而,即便外部語音模型不能很好的與外部語音分段中的發(fā)音進(jìn)行匹配,所帶來的影響也可以被消除。
如果外部語音相似性超出了預(yù)設(shè)范圍,則依照本發(fā)明的該字識別設(shè)備輸出預(yù)設(shè)值作為外部語音相似性。因而,即便外部語音模型不能很好的與外部語音分段中的發(fā)音進(jìn)行匹配,所帶來的影響也可以被消除。
在本發(fā)明的字識別設(shè)備更進(jìn)一步方面,該累積關(guān)鍵字相似性計(jì)算裝置32,42輸出狀態(tài)轉(zhuǎn)移信息;并且該字識別設(shè)備還具有諸如CPU等的字長計(jì)算裝置34,44,它根據(jù)從連續(xù)自轉(zhuǎn)移的數(shù)目中減去預(yù)設(shè)值獲得的數(shù)目來處理字長,以及諸如CPU等的累積相似性歸一化裝置35,45,它根據(jù)累積關(guān)鍵字相似性和字長使該發(fā)音的累積相似性歸一化。
這樣,可以從輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性,以及然后使用該字長計(jì)算裝置輸出的字長歸一化累積相似性。
在本發(fā)明的字識別設(shè)備更進(jìn)一步方面,該字識別設(shè)備還提供諸如CPU等的外部語音模型生成裝置10,它使用從外部語音數(shù)據(jù)庫9中輸出的外部語音的發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫6輸出的特性參數(shù)生成外部語音模型;以及諸如CPU等的外部語音相似性計(jì)算裝置12,22,它計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性;諸如CPU等的累積外部語音相似性計(jì)算裝置33,43,它計(jì)算該外部語音模型的累積相似性,其中該累積相似性歸一化裝置35,45根據(jù)累積關(guān)鍵字相似性、累積外部語音相似性以及字長使發(fā)音的累積相似性歸一化。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字相似性和累積外部語音相似性并且然后使用由字長計(jì)算裝置輸出的字長以歸一化累積相似性。
這使得對輸入發(fā)音通過分割提取語音分段獲得的幀生成特性參數(shù)的管理成為可能。
在本發(fā)明的字識別設(shè)備的更進(jìn)一步方面,該累積相似性歸一化裝置35,45通過把該累積關(guān)鍵字相似性和累積外部語音相似性之間的差除以字長而完成對累積相似性的歸一化。
這樣,可以通過把累積關(guān)鍵字相似性和累積外部語音相似性之間的差除以字長而完成對累積相似性的歸一化。
在本發(fā)明的字識別設(shè)備的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置21計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;該外部語音相似性計(jì)算裝置22計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音距離;該累積關(guān)鍵字相似性計(jì)算裝置42在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字距離;該累積外部語音相似性計(jì)算裝置43計(jì)算該外部語音模型的外部語音距離;該字長計(jì)算裝置44直到連續(xù)的自轉(zhuǎn)移的數(shù)目超過了預(yù)定值并發(fā)生了向不同狀態(tài)之間的轉(zhuǎn)移之前不會給字長增加任何東西;以及該累積相似性歸一化裝置45根據(jù)累積關(guān)鍵字距離、累積外部語音距離以及字長而使發(fā)音的累積距離歸一化。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字距離和累積外部語音距離并且然后使用由字長計(jì)算裝置輸出的字長而使累積距離歸一化。
在本發(fā)明的字識別設(shè)備的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置11計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;該外部語音相似性計(jì)算裝置12計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的似然性;該累積關(guān)鍵字相似性計(jì)算裝置32在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算關(guān)鍵字似然性;該累積外部語音相似性計(jì)算裝置33計(jì)算該外部語音模型的累積外部語音似然性;該字長計(jì)算裝置34直到連續(xù)的自轉(zhuǎn)移的數(shù)目超過預(yù)定值并發(fā)生了向不同狀態(tài)的轉(zhuǎn)移時給字長增加一個大于1的值;并且該累積相似性歸一化裝置35根據(jù)累積關(guān)鍵字似然性、累積外部語音似然性以及字長對發(fā)音的累積似然進(jìn)行歸一化處理。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字似然性和累積外部語音似然性并且然后使用由字長計(jì)算裝置輸出的字長使累積似然性歸一化。
即便由維特比算法方法決定的最佳路徑中包含一個持續(xù)了很長時間的狀態(tài),依照本發(fā)明的字識別設(shè)備也不會向字長增加任何超過自轉(zhuǎn)移門限數(shù)字的任何數(shù)字。因而可以阻止由于字長歸一化導(dǎo)致輸出錯誤的關(guān)鍵字。
在本發(fā)明的字識別處理裝置的更進(jìn)一步方面,該字識別設(shè)備還具有諸如CPU的持續(xù)時間控制裝置52,其中該累積關(guān)鍵字相似性計(jì)算裝置42輸出狀態(tài)轉(zhuǎn)移信息;并且當(dāng)連續(xù)的自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時該持續(xù)時間控制裝置52給累積關(guān)鍵字相似性增加一個預(yù)定值。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字似然性,并且然后當(dāng)連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時給累積關(guān)鍵字相似性增加一個預(yù)定值。
在本發(fā)明的字識別設(shè)備的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置21計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;并且該累積關(guān)鍵字相似性計(jì)算裝置42計(jì)算累積關(guān)鍵字距離。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字似然性,并且然后當(dāng)連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時給累積關(guān)鍵字相似性增加一個預(yù)定值。
在本發(fā)明的字識別設(shè)備的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置11計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間匹配的似然性;并且該累積關(guān)鍵字相似性計(jì)算裝置32計(jì)算關(guān)鍵字似然性。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字似然性,并且然后當(dāng)連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時給累積關(guān)鍵字相似性增加一個預(yù)定值。
即便由維特比算法方法決定的最佳路徑中包含一個持續(xù)了很長時間的狀態(tài),依照本發(fā)明的該字識別設(shè)備根據(jù)通過向累積相似性增加了預(yù)定值而得到的經(jīng)調(diào)整的累積關(guān)鍵字相似性執(zhí)行維特比處理。因而可以消除不現(xiàn)實(shí)的自轉(zhuǎn)移連續(xù)狀況。
本發(fā)明的以上目的可以通過字識別方法達(dá)到,該方法具有特性參數(shù)生成處理,用于從輸入發(fā)音中提取語音分段,分割成幀并且生成該發(fā)音的特性參數(shù);關(guān)鍵字模型生成處理,用于使用從諸如HD的關(guān)鍵字?jǐn)?shù)據(jù)庫7中輸出的關(guān)鍵字發(fā)聲數(shù)據(jù)以及從諸如HD的聲學(xué)模型數(shù)據(jù)庫6輸出的特性參數(shù)生成關(guān)鍵字模型,該數(shù)據(jù)庫6中以子字的級別存儲語音的特性參數(shù);關(guān)鍵字相似性計(jì)算處理,用于計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字相似性;以及累積關(guān)鍵字相似性計(jì)算處理,用于計(jì)算該關(guān)鍵字模型的累積相似性。
在本發(fā)明的字識別方法的一個方面,在累積關(guān)鍵字相似性計(jì)算處理中使用維特比算法方法計(jì)算累積相似性。
在本發(fā)明的字識別方法的另一個方面,該字識別方法還具有外部語音模型生成處理,它使用從諸如HD等的外部語音數(shù)據(jù)庫9輸出的外部語音發(fā)聲數(shù)據(jù)以及從該聲學(xué)模型數(shù)據(jù)庫6中輸出的特性參數(shù)生成外部語音模型;以及外部語音相似性計(jì)算處理,它計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性。
在本發(fā)明的字識別方法的更進(jìn)一步方面,該字識別方法還提供限值設(shè)定處理,其中如果外部語音相似性超出了預(yù)設(shè)值,在限值設(shè)定處理中輸出預(yù)設(shè)值作為外部語音相似性。
這樣,如果外部語音相似性超出了預(yù)設(shè)值,輸出預(yù)設(shè)值作為外部語音相似性。因而即便外部語音模型不能很好的和外部語音分段中的發(fā)音進(jìn)行匹配,所帶來的影響也可以被消除。
在本發(fā)明的字識別方法的更進(jìn)一步方面,在關(guān)鍵字相似性計(jì)算處理中,計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間匹配的關(guān)鍵字似然性;在外部語音相似性計(jì)算處理中,計(jì)算發(fā)音的特性參數(shù)和外部語音的特性參數(shù)之間匹配的外部語音似然性;如果外部語音似然小于預(yù)設(shè)值,在限值設(shè)定處理中輸出該預(yù)設(shè)值作為外部語音似然性;并且在累積相似性計(jì)算處理中計(jì)算該關(guān)鍵字模型的累積似然性。
這樣,如果外部語音似然性小于預(yù)設(shè)值,該預(yù)設(shè)值作為外部語音似然性被輸出。因而,即便外部語音模型不能很好的和外部語音分段中的發(fā)音匹配,也可以消除由此帶來的影響。
在本發(fā)明的字識別方法的更進(jìn)一步方面,在關(guān)鍵字相似性計(jì)算處理中計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;外部語音相似性計(jì)算處理計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音距離;如果外部語音距離大于預(yù)設(shè)值,則在限值設(shè)定處理中把該預(yù)設(shè)值作為外部語音距離輸出;并且在累積相似性計(jì)算處理中計(jì)算該關(guān)鍵字模型的累積距離。
這樣,如果外部語音似然大于預(yù)設(shè)值,該預(yù)設(shè)值作為外部語音似然性而被輸出。因而,即便外部語音模型不能很好地執(zhí)行和外部語音分段中的發(fā)音匹配,也可以消除由此帶來的影響。
在本發(fā)明的字識別方法的更進(jìn)一步方面,在累積關(guān)鍵字相似性計(jì)算處理中,輸出狀態(tài)轉(zhuǎn)移信息;并且該字識別設(shè)備還提供字長計(jì)算處理,它根據(jù)通過在連續(xù)自轉(zhuǎn)移的數(shù)目中減去預(yù)設(shè)值所獲得的數(shù)字來處理字長,以及累積相似性歸一化處理,它根據(jù)累積關(guān)鍵字相似性和字長對發(fā)音的累積相似性進(jìn)行歸一化。
這樣可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性并且然后使用從字長計(jì)算裝置輸出的字長對累積相似性進(jìn)行歸一化。
在本發(fā)明的字識別方法的更進(jìn)一步方面,該字識別方法還提供外部語音模型生成處理,它使用從外部語音數(shù)據(jù)庫9中輸出的外部語音發(fā)聲數(shù)據(jù)以及從聲學(xué)模型數(shù)據(jù)庫6中輸出的特性參數(shù)生成外部語音模型;以及外部語音相似性計(jì)算處理,它計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性,累積外部語音相似性計(jì)算處理,它計(jì)算外部語音模型的累積相似性,其中在累積相似性歸一化處理中根據(jù)累積關(guān)鍵字相似性、累積外部語音相似性以及字長對發(fā)音的累積相似性進(jìn)行歸一化。
這樣,可以從輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字似然性和累積外部語音似然性并且然后使用由字長計(jì)算裝置輸出的字長對累積似然性歸一化。
在本發(fā)明的字識別方法的更進(jìn)一步方面,在累積相似性歸一化處理中,通過把累積關(guān)鍵字相似性和累積外部語音相似性之間的差值除以字長而完成對累積相似性的歸一化處理。
這樣可以通過把累積關(guān)鍵字相似性和累積外部語音相似性之間的差值除以字長完成對累積相似性的歸一化處理。
在本發(fā)明的字識別方法的更進(jìn)一步方面,在關(guān)鍵字相似性計(jì)算處理中,計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;在外部語音相似性計(jì)算處理中,計(jì)算發(fā)音特性參數(shù)和外部語音特性參數(shù)之間的外部語音距離;在累積關(guān)鍵字相似性計(jì)算處理中,在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字距離;在累積外部語音相似性計(jì)算處理中,計(jì)算外部語音模型的累積外部語音距離;在字長計(jì)算處理中,直到連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)設(shè)值并且發(fā)生向不同狀態(tài)的轉(zhuǎn)移之前不向字長增加任何東西;以及在累積相似性歸一化處理中,根據(jù)累積關(guān)鍵字距離、累積外部語音距離和字長對累積距離進(jìn)行歸一化。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字距離和累積外部語音距離并且然后使用由字長計(jì)算裝置輸出的字長對累積距離歸一化。
在本發(fā)明的字識別方法更進(jìn)一步方面,在關(guān)鍵字相似性計(jì)算處理中,計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間匹配的似然性;在外部語音相似性計(jì)算處理中,計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間匹配的似然性;在累積關(guān)鍵字相似性計(jì)算處理中,在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字似然性;在累積外部語音相似性計(jì)算處理中,計(jì)算外部語音模型的累積外部語音似然;在字長計(jì)算處理中,直到當(dāng)連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)定值并且發(fā)生到不同狀態(tài)的轉(zhuǎn)移時才向字長增加一個大于1的值;在累積相似性歸一化處理中,根據(jù)累積關(guān)鍵字似然、累積外部語音似然以及字長對發(fā)音的累積似然進(jìn)行歸一化處理。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字似然和累積外部語音似然并且然后使用由字長計(jì)算裝置輸出的字長歸一化累積似然。
在本方面的字識別方法的更進(jìn)一步方面,該字識別方法還提供持續(xù)時間控制處理,其中在累積關(guān)鍵字相似性計(jì)算處理中,輸出狀態(tài)轉(zhuǎn)移信息;并且在持續(xù)時間控制處理中,當(dāng)連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)定值時就對累積關(guān)鍵字相似性增加一個預(yù)定值。
這樣,可以由輸入的發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性并且然后當(dāng)連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)設(shè)值時對累積關(guān)鍵字相似性增加一個預(yù)定值。
在本發(fā)明的字識別方法的更進(jìn)一步方面,在關(guān)鍵字相似性計(jì)算處理中,計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;并且在累積關(guān)鍵字相似性計(jì)算處理中,計(jì)算累積關(guān)鍵字距離。
這樣,可以由輸入的發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性并且然后當(dāng)連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)設(shè)值時就對累積關(guān)鍵字相似性增加一個預(yù)定值。
在本發(fā)明的字識別方法的更進(jìn)一步方面,在關(guān)鍵字相似性計(jì)算處理中,計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;并且在累積關(guān)鍵字相似性計(jì)算處理中,計(jì)算累積關(guān)鍵字似然性。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性并且然后當(dāng)連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)設(shè)值時就對累積關(guān)鍵字相似性增加一個預(yù)定值。
本發(fā)明的以上目標(biāo)可以通過在包括在字識別設(shè)備中的計(jì)算機(jī)上運(yùn)行的字識別程序來完成,其中該字識別程序使計(jì)算機(jī)具有以下功能特性參數(shù)生成裝置5,用于從輸入發(fā)音中提取語音分段、把語音分段分割成幀并生成該發(fā)音的特性參數(shù);聲學(xué)模型數(shù)據(jù)庫6,用于在子字的級別上存儲語音的特性參數(shù);關(guān)鍵字模型生成裝置8,它使用從關(guān)鍵字?jǐn)?shù)據(jù)庫7輸出的關(guān)鍵字發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫6輸出的特性參數(shù)生成關(guān)鍵字模型;關(guān)鍵字相似性計(jì)算裝置11,12,用于計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字相似性;以及累積關(guān)鍵字相似性計(jì)算裝置14,24,32,42,用于計(jì)算該關(guān)鍵字模型的累積相似性。
本發(fā)明的字識別程序的一方面,累積關(guān)鍵字相似性計(jì)算裝置14,24,32,42使用維特比算法方法計(jì)算累積相似性。
在本發(fā)明的字識別程序的另一個方面,外部語音模型生成裝置10使用從外部語音數(shù)據(jù)庫9輸出的外部語音發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫6輸出的特性參數(shù)生成外部語音模型;以及外部語音相似性計(jì)算裝置12,22計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性。
在本發(fā)明的字識別程序的更進(jìn)一步方面,該字識別程序還使計(jì)算機(jī)具有進(jìn)一步的如限值設(shè)定裝置13,23的功能,其中如果外部語音相似性超出了預(yù)設(shè)范圍,則該限值設(shè)定裝置13,23把預(yù)設(shè)值作為外部語音相似性輸出。
這樣,如果外部語音相似性超出了預(yù)設(shè)范圍,就把一個預(yù)設(shè)值作為外部語音相似性輸出。因而,即使外部語音模型不能很好地執(zhí)行以匹配外部語音分段中的發(fā)音,也可以消除所帶來的影響。
在本發(fā)明的字識別程序的進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置11計(jì)算語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字似然性;該外部語音相似性計(jì)算裝置12計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音似然性;如果外部語音似然性小于預(yù)設(shè)值,則限值設(shè)定裝置13把預(yù)設(shè)值作為外部語音似然性輸出;并且該累積相似性計(jì)算裝置14計(jì)算關(guān)鍵字模型的累積似然性。
這樣,如果外部語音似然性小于預(yù)設(shè)值,就把預(yù)設(shè)值作為外部語音似然性輸出。因而,即便外部語音模型不能很好的執(zhí)行以匹配外部語音分段中的發(fā)音,它所帶來的影響也可以被消除。
在本發(fā)明的字識別程序更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置21計(jì)算該發(fā)音的特性參數(shù)和該關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;該字識別程序使計(jì)算機(jī)具有功能如外部語音相似性計(jì)算裝置22計(jì)算該發(fā)音的特性參數(shù)和該外部語音模型的特性參數(shù)之間的外部語音距離;如果外部語音距離大于預(yù)定值,則該限值設(shè)定裝置23輸出預(yù)設(shè)值作為外部語音距離;并且該累積相似性計(jì)算裝置24計(jì)算該關(guān)鍵字模型的累積距離。
這樣,如果外部語音大于預(yù)設(shè)值,該預(yù)設(shè)值被作為外部語音距離而輸出。因而,即便外部語音模型不能很好地執(zhí)行以便與外部語音分段中的發(fā)音進(jìn)行匹配,它所帶來的影響也可以被消除。
在本發(fā)明的字識別設(shè)備更進(jìn)一步方面,該累積關(guān)鍵字相似性計(jì)算裝置32,42輸出狀態(tài)轉(zhuǎn)移信息;并且該字識別程序還使計(jì)算機(jī)具有功能如字長計(jì)算裝置34,44,它根據(jù)從相繼的自轉(zhuǎn)移數(shù)目中減去預(yù)設(shè)值而獲得的數(shù)目來處理字長,以及累積相似性歸一化裝置35,45,它根據(jù)累積關(guān)鍵字相似性和字長使該發(fā)音的累積相似性歸一化。
這樣,可以從輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性,以及然后使用該字長計(jì)算裝置輸出的字長使累積相似性歸一化。
在本發(fā)明的字識別程序的更進(jìn)一步方面,外部語音生成裝置10使用從外部語音數(shù)據(jù)庫9中輸出的外部語音的發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫輸出的特性參數(shù)生成外部語音模型;以及外部語音相似性計(jì)算裝置12,22計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性;累積外部語音相似性計(jì)算裝置33,43計(jì)算該外部語音模型的累積相似性,其中該累積相似性歸一化裝置35,45根據(jù)累積關(guān)鍵字相似性、累積外部語音相似性以及字長使該發(fā)音的累積相似性歸一化。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字相似性和累積外部語音相似性并且然后使用由字長計(jì)算裝置輸出的字長使累積相似性歸一化。
在本發(fā)明的字識別設(shè)備的更進(jìn)一步方面,該累積相似性歸一化裝置35,45通過把該累積關(guān)鍵字相似性和累積外部語音相似性之間的差除以字長而完成對累積相似性的歸一化。
這樣,可以通過把累積關(guān)鍵字相似性和累積外部語音相似性之間的差除以字長而完成對累積相似性的歸一化。
在本發(fā)明的字識別程序的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置21計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;該外部語音相似性計(jì)算裝置22計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音距離;該累積關(guān)鍵字相似性計(jì)算裝置42在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字距離;該累積外部語音相似性計(jì)算裝置43計(jì)算該外部語音模型的外部語音距離;該字長計(jì)算裝置44直到連續(xù)的自轉(zhuǎn)移的數(shù)目超過了預(yù)定值并發(fā)生不同狀態(tài)之間的轉(zhuǎn)移之前不會給字長增加任何東西;以及該累積相似性歸一化裝置45根據(jù)累積關(guān)鍵字距離、累積外部語音距離以及字長使發(fā)音的累積距離歸一化。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字距離和累積外部語音距離并且然后使用由字長計(jì)算裝置輸出的字長使累積距離歸一化。
在本發(fā)明的字識別程序的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置11計(jì)算發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;該外部語音相似性計(jì)算裝置12計(jì)算發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的似然性;該累積關(guān)鍵字相似性計(jì)算裝置32在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算關(guān)鍵字似然性;該累積外部語音相似性計(jì)算裝置33計(jì)算該外部語音模型的累積外部語音似然性;該字長計(jì)算裝置34直到連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)定值并發(fā)生向不同狀態(tài)的轉(zhuǎn)移時向字長增加一個大于1的值;并且該累積相似性歸一化裝置35根據(jù)累積關(guān)鍵字似然性、累積外部語音似然性以及字長對發(fā)音的累積似然進(jìn)行歸一化處理。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型和外部語音模型、計(jì)算累積關(guān)鍵字似然性和累積外部語音似然性并且然后使用由字長計(jì)算裝置輸出的字長使累積似然性歸一化。
在本發(fā)明的字識別處理程序的更進(jìn)一步方面,該字識別程序還使得計(jì)算機(jī)具有的功能如持續(xù)時間控制裝置52,其中該累積關(guān)鍵字相似性計(jì)算裝置42輸出狀態(tài)轉(zhuǎn)移信息;并且當(dāng)連續(xù)的自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時,該持續(xù)時間控制裝置52給累積關(guān)鍵字相似性增加一個預(yù)定值。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性,并且然后當(dāng)連續(xù)的自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時為累積關(guān)鍵字相似性增加一個預(yù)定值。
在本發(fā)明的字識別程序的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置21計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;并且該累積關(guān)鍵字相似性計(jì)算裝置42計(jì)算累積關(guān)鍵字距離。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性,并且然后當(dāng)連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時為累積關(guān)鍵字相似性增加一個預(yù)定值。
在本發(fā)明的字識別程序的更進(jìn)一步方面,該關(guān)鍵字相似性計(jì)算裝置11計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;并且該累積關(guān)鍵字相似性計(jì)算裝置32計(jì)算累積關(guān)鍵字似然性。
這樣,可以由輸入發(fā)音生成特性參數(shù)、生成關(guān)鍵字模型、計(jì)算累積關(guān)鍵字相似性,并且然后當(dāng)連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值時為累積關(guān)鍵字相似性增加一個預(yù)定值。
圖1是表示由兩端都和外部語音模型連接的關(guān)鍵字組成的關(guān)鍵字模型λ結(jié)構(gòu)的概念圖;圖2是表示當(dāng)錯誤的關(guān)鍵字和正確的關(guān)鍵字依照現(xiàn)有技術(shù)被輸出時似然性和累積似然性隨時間而變化的圖;圖3是由兩端都和通配符模型連接的關(guān)鍵字構(gòu)成的關(guān)鍵字模型λ的結(jié)構(gòu)的框圖;圖4是當(dāng)使用維特比算法方法計(jì)算累積距離時所使用的網(wǎng)格的圖;圖5是表示符號序列和關(guān)鍵字模型之間對應(yīng)關(guān)系的圖;圖6是表示依照本發(fā)明的第一實(shí)施例的字識別設(shè)備原理結(jié)構(gòu)的框圖;圖7是表示字識別設(shè)備運(yùn)作概況的流程圖;圖8是當(dāng)錯誤關(guān)鍵字和正確關(guān)鍵字根據(jù)本發(fā)明被輸出時似然性和累積似然性隨時間而變化的圖;圖9是表示依照第二實(shí)施例的原理結(jié)構(gòu)的框圖;圖10是依照該第二實(shí)施例的操作概況的流程圖;圖11是表示依照本發(fā)明的第三實(shí)施例的字識別設(shè)備的原理配置的框圖;圖12表示依照本發(fā)明的第三實(shí)施例的字識別設(shè)備操作概況的流程圖;圖13是表示依照本發(fā)明的第三實(shí)施例的字識別設(shè)備的字長計(jì)算處理(步驟25)的詳細(xì)流程圖;圖14是表示依照本發(fā)明的第四實(shí)施例的字識別設(shè)備的操作概況的流程圖;圖15是表示依照本發(fā)明的第四實(shí)施例的字識別設(shè)備的字長計(jì)算處理(步驟30)的詳細(xì)流程圖;圖16是表示依照本發(fā)明的第五實(shí)施例的字識別設(shè)備原理結(jié)構(gòu)的框圖;圖17是表示依照本發(fā)明的第五實(shí)施例字識別裝置的操作概況的流程圖;圖18是表示依照本發(fā)明第五實(shí)施例的字識別設(shè)備的字長計(jì)算處理(步驟34)的詳細(xì)流程圖;圖19是表示依照本發(fā)明的第六實(shí)施例的字識別設(shè)備操作概況的流程圖;圖20是表示依照本發(fā)明的第七實(shí)施例字識別設(shè)備的原理結(jié)構(gòu)的框圖;圖21是表示依照本發(fā)明的第七實(shí)施例的字識別設(shè)備的操作概況的流程圖;圖22是表示依照本發(fā)明的第八實(shí)施例的字識別設(shè)備的原理結(jié)構(gòu)的框圖;圖23是表示依照本發(fā)明的第八實(shí)施例的字識別設(shè)備的操作概況的流程圖。
具體實(shí)施例方式
(第一實(shí)施例)下面將參考
依照本發(fā)明第一實(shí)施例的字識別設(shè)備。
圖6是表示依照本發(fā)明第一實(shí)施例的字識別設(shè)備原理結(jié)構(gòu)的框圖。
在本實(shí)施例中使用似然性(概率)表示相似性。如圖6所示依照本實(shí)施例的該字識別設(shè)備包括一個麥克風(fēng)1、LPF(低通濾波器)2、A/D轉(zhuǎn)換器3、語音分段提取處理器4、作為特性參數(shù)生成裝置的特性參數(shù)生成器5、作為聲學(xué)模型數(shù)據(jù)庫的聲學(xué)模型存儲器6、作為關(guān)鍵字?jǐn)?shù)據(jù)庫的關(guān)鍵字存儲器7、作為關(guān)鍵字模型生成裝置的關(guān)鍵字模型生成器8、作為外部語音數(shù)據(jù)庫的外部語音存儲器9、作為外部語音生成裝置的外部語音模型生成器10、作為關(guān)鍵字相似性計(jì)算裝置和關(guān)鍵字似然性計(jì)算裝置的關(guān)鍵字似然性計(jì)算器11、作為外部語音相似性計(jì)算裝置和外部語音似然性計(jì)算裝置的外部語音似然性計(jì)算器12、作為限值設(shè)定裝置的限值設(shè)定器13、作為累積相似性計(jì)算裝置和累積似然性計(jì)算裝置的維特比處理器14以及關(guān)鍵字識別器17。
首先,輸入語音被麥克風(fēng)1轉(zhuǎn)換成電信號。然后高頻部分被LPF2從電信號中去除。
從LPF2中得到的語音模擬信號被A/D轉(zhuǎn)換器3以預(yù)定抽樣率轉(zhuǎn)換成數(shù)字信號。
該語音分段提取處理器4包括例如一個CPU(中央處理單元)。它從輸入的數(shù)字信號中提取語音分段。
該特性參數(shù)生成器5包括例如一個CPU。它把語音分段提取處理器4提取的語音分段進(jìn)一步分割成幀并從這些幀生成輸入語音的特性參數(shù)。通常使用線性預(yù)測系數(shù)的量化向量、LPC倒頻譜或者每個頻帶內(nèi)的能量作為特性參數(shù)。
該聲學(xué)存儲器6包括例如HD(硬盤)。它在子字級別(即音素或者音節(jié)級)上存儲聲學(xué)模型。當(dāng)發(fā)聲數(shù)據(jù)被輸入時,它根據(jù)相應(yīng)聲學(xué)模型生成特性參數(shù)。該聲學(xué)模型存儲器6也存儲轉(zhuǎn)移概率。
該關(guān)鍵字存儲器7包括例如HD。它以發(fā)聲數(shù)據(jù)的形式存儲關(guān)鍵字。
該關(guān)鍵字模型生成器8包括例如CPU。它提取從關(guān)鍵字存儲器7輸出的關(guān)鍵字并通過把被提取的關(guān)鍵字兩端和外部語音模型連接生成關(guān)鍵字模型。然后,它通過從聲學(xué)模型存儲器6中提取和關(guān)鍵字模型的發(fā)聲數(shù)據(jù)對應(yīng)的聲學(xué)模型而生成關(guān)鍵字模型的特性參數(shù)。
該外部語音存儲器9包括例如HD。它以發(fā)聲數(shù)據(jù)的形式存儲外部語音。
該外部語音模型生成器包括例如CPU。它提取從外部語音存儲器9輸出的外部語音模型并通過把被提取的外部語音兩端和外部語音模型連接而生成外部語音模型。然后,它通過從聲學(xué)模型存儲器6中提取的與外部語音模型的發(fā)聲數(shù)據(jù)對應(yīng)的聲學(xué)模型,生成外部語音模型的特性參數(shù)。
該關(guān)鍵字似然性計(jì)算器11包括例如CPU。它計(jì)算并輸出在語音的特性參數(shù)和關(guān)鍵字模型特性參數(shù)之間的似然性(關(guān)鍵字似然性)。
該外部語音似然性計(jì)算器12包括例如CPU。它計(jì)算并輸出該語音的特性參數(shù)和關(guān)鍵字模型特性參數(shù)之間的似然性(外部語音似然性)。
該限值設(shè)定器13包括例如CPU。如果由外部語音似然性計(jì)算器12輸出的外部語音似然性小于預(yù)設(shè)值,它把預(yù)設(shè)值作為外部語音似然性輸出。
維特比處理器14包括例如CPU。它在輸出表示存在或者不存在狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移信息的同時計(jì)算與外部語音模型連接的關(guān)鍵字模型的累積似然性。
關(guān)鍵字識別器17包括例如CPU。它使用維特比處理器14輸出的累積似然性執(zhí)行語音識別。
下面參考圖7說明具有以上結(jié)構(gòu)的字識別設(shè)備的操作概況。
圖7是表示字識別設(shè)備的操作概況的流程圖。
首先,執(zhí)行初始化處理(步驟1),以便為維特比處理做準(zhǔn)備。
通過麥克風(fēng)1輸入的自發(fā)語音被LPF2濾波并被A/D轉(zhuǎn)換器3以預(yù)定抽樣率進(jìn)行A/D轉(zhuǎn)換。然后語音分段提取處理器4從自發(fā)語音中提取語音分段并且特性參數(shù)生成器5生成特性參數(shù)。
當(dāng)初始化處理(步驟1)完成后,開始生成關(guān)鍵字模型和外部語音模型的處理(步驟2)。
該關(guān)鍵字模型生成器8從關(guān)鍵字存儲器7和外部語音存儲器9提取關(guān)鍵字和外部語音并通過在被提取的關(guān)鍵字兩端連接外部語音模型生成關(guān)鍵字模型。另一方面,該外部語音生成器10提取從外部語音存儲器9輸出的外部語音并生成外部語音模型。然后,關(guān)鍵字模型生成器8和外部語音模型生成器10從聲學(xué)模型存儲器6提取聲學(xué)模型和它們的與關(guān)鍵字模型和外部語音模型發(fā)聲數(shù)據(jù)相對應(yīng)的轉(zhuǎn)移概率并生成關(guān)鍵字模型和外部語音模型的特性參數(shù)。
在結(jié)束生成關(guān)鍵字模型和外部語音模型的處理(步驟2)后,執(zhí)行關(guān)鍵字似然性計(jì)算處理(步驟3)、外部語音似然性計(jì)算處理(步驟4)以及外部語音似然性調(diào)整處理(步驟5)。我們以關(guān)鍵字似然性計(jì)算處理開始描述。
該關(guān)鍵字似然性計(jì)算器11使用該輸入語音的特性參數(shù)和該關(guān)鍵字模型的特性參數(shù)計(jì)算并輸出關(guān)鍵字似然性。
具體來說,該關(guān)鍵字似然性計(jì)算器11通過比較步驟1中生成的該輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)以逐幀為基礎(chǔ)計(jì)算關(guān)鍵字似然性,并把結(jié)果作為給定狀態(tài)在每個時間點(diǎn)上的狀態(tài)似然性P以狀態(tài)似然性表P(t,m)的形式輸出到維特比處理器14。
下面說明與步驟3并行執(zhí)行的外部語音似然性計(jì)算處理(步驟4)和在步驟4后執(zhí)行的外部語音似然性調(diào)整處理(步驟5)。
該外部語音似然計(jì)算器12計(jì)算在輸入語音的特性參數(shù)和外部語音模型的特性參數(shù)之間的似然性。這一計(jì)算的處理方式與步驟3中對輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性的計(jì)算相似。
在完成外部語音似然性計(jì)算處理(步驟4)后,就開始外部語音似然性調(diào)整處理(步驟5)。
該限值設(shè)定器13判斷在外部語音似然性計(jì)算處理(步驟4)中輸出的外部語音似然性是否小于預(yù)設(shè)值。如果外部語音似然性等于或者大于該預(yù)設(shè)值,限值設(shè)定器13把外部語音似然性輸出到維特比處理器14。如果外部語音似然性小于該預(yù)設(shè)值,限值設(shè)定器13把這一預(yù)設(shè)值作為外部語音似然性輸出到維特比處理器14。
在關(guān)鍵字似然性計(jì)算處理(步驟3)、外部語音似然性計(jì)算處理(步驟4)以及外部語音似然性調(diào)整處理(步驟5)結(jié)束后,就執(zhí)行維特比處理(步驟6)。
維特比處理器14根據(jù)在關(guān)鍵字似然性計(jì)算處理(步驟3)中輸出的輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的狀態(tài)似然性P計(jì)算累積似然性。
在維特比處理(步驟6)結(jié)束后,根據(jù)輸出的累積似然性在關(guān)鍵字識別處理(步驟7)對關(guān)鍵字進(jìn)行識別和判定。
接下來,參考圖8對本實(shí)施例的操作進(jìn)行描述。圖8時表示在錯誤關(guān)鍵字(未包含在發(fā)音中的關(guān)鍵字)和正確關(guān)鍵字(包含在發(fā)音中的關(guān)鍵字)被輸出時,最佳路徑上似然性和累積似然性隨時間的變化,其中使用與圖2中相同的語音模型。所使用的似然性是對數(shù)似然性。
當(dāng)該外部語音的似然性低于限定值時,該似然性被該限定值代替。這可防止在正確關(guān)鍵字的起始點(diǎn)(CS)以前正確關(guān)鍵字的似然性會比錯誤關(guān)鍵字小得太多。因此,在發(fā)音的結(jié)束點(diǎn)(SE)正確關(guān)鍵字的似然性比錯誤關(guān)鍵字大,使得有可能輸出正確關(guān)鍵字。
本實(shí)施例具有以下優(yōu)點(diǎn)。
即便外部語音模型不能精確地匹配發(fā)音也可以輸出正確的關(guān)鍵字。
由于對外部語音似然性的限值處理不需要很高的性能,因而可以被容易地合并到只具有諸如導(dǎo)航系統(tǒng)那樣的有限資源的語音識別裝置中。
另外,該第一實(shí)施例不僅限于上述例子,還可以做以下修改。
在步驟3和步驟4中所使用的相似性可以是對數(shù)似然性。使用對數(shù)似然性使我們可以利用加法和減法來計(jì)算累積似然性(步驟4),這樣可加快計(jì)算處理。
(第二實(shí)施例)將參考附圖來說明依照本發(fā)明第二實(shí)施例的字識別設(shè)備。
圖9是表示依照本發(fā)明第二實(shí)施例的字識別裝置的原理結(jié)構(gòu)的框圖。和第一實(shí)施例中相同的部件采用與第一實(shí)施例相同的標(biāo)號并省略對它們的詳細(xì)描述。
本實(shí)施例與第一實(shí)施例的不同在于相似性使用距離表示,而第一實(shí)施例的相似性使用似然性(概率)表示。其它部分與第一實(shí)施例相似。
如圖9所示依照本實(shí)施例的該字識別設(shè)備包括作為關(guān)鍵字相似性計(jì)算裝置和關(guān)鍵字距離計(jì)算裝置的關(guān)鍵字距離計(jì)算器21、作為外部語音相似性計(jì)算裝置和外部語音距離計(jì)算裝置的外部語音距離計(jì)算器22、作為限值設(shè)定裝置的限值設(shè)定器23、作為累積相似性計(jì)算裝置和累積距離計(jì)算裝置的維特比處理器24該關(guān)鍵字距離計(jì)算器21由例如CPU組成。它計(jì)算并輸出在輸入語音的特性參數(shù)和關(guān)鍵字模型特性參數(shù)之間的距離(關(guān)鍵字距離)。
該外部語音距離計(jì)算器22由例如CPU組成。它計(jì)算并輸出在該輸入語音的特性參數(shù)和外部語音模型特性參數(shù)之間的距離(外部語音距離)。
該限值設(shè)定器23由例如CPU組成。如果由外部語音距離計(jì)算器22輸出的外部語音距離大于預(yù)設(shè)值,它把預(yù)設(shè)值作為外部語音距離輸出。
維特比處理器24由例如CPU組成。它計(jì)算與外部語音模型連接的關(guān)鍵字模型的累積距離。
下面參考圖10說明具有以上結(jié)構(gòu)的該字識別設(shè)備的操作概況。
圖10是表示依照該第二實(shí)施例的字識別設(shè)備的操作概況的流程圖。與第一實(shí)施例中相同的部件采用相同的索引數(shù)字表示,并且省略對它們的描述。
如第一實(shí)施例中那樣,在完成生成關(guān)鍵字模型以及外部語音模型的處理(步驟2)后,就執(zhí)行關(guān)鍵字距離計(jì)算處理(步驟13)、外部語音距離計(jì)算處理(步驟14)以及外部語音距離調(diào)整處理(步驟15)。下面以關(guān)鍵字距離計(jì)算處理(步驟13)開始描述。
該關(guān)鍵距離計(jì)算器21計(jì)算并輸出在該輸入語音的特性參數(shù)和該關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離。
具體來說,該關(guān)鍵字距離計(jì)算器11通過比較步驟1中生成的該輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù),以逐幀為基礎(chǔ)計(jì)算關(guān)鍵字距離,并把結(jié)果作為給定狀態(tài)在每個時間點(diǎn)上的狀態(tài)距離P以狀態(tài)距離表的形式輸出到維特比處理器24。
下面說明與步驟3并行執(zhí)行的外部語音距離計(jì)算處理(步驟14)和在步驟14后執(zhí)行的外部語音距離調(diào)整處理(步驟15)。
該外部語音距離計(jì)算器22計(jì)算并輸出在輸入語音的特性參數(shù)和外部語音模型的特性參數(shù)之間的距離。
在完成外部語音距離計(jì)算處理(步驟14)后,就開始外部語音距離調(diào)整處理(步驟15)。
該限值設(shè)定器23判斷在外部語音距離計(jì)算處理(步驟14)中輸出的外部語音距離是否大于預(yù)設(shè)值。如果外部語音距離不大于該預(yù)設(shè)值,則限值設(shè)定器23把外部語音距離輸出到維特比處理器24。如果外部語音距離大于該預(yù)設(shè)值,限值設(shè)定器23把預(yù)設(shè)值作為外部語音距離輸出到維特比處理器24。
在關(guān)鍵字距離計(jì)算處理(步驟13)、外部語音距離計(jì)算處理(步驟14)以及外部語音距離調(diào)整處理(步驟15)結(jié)束后,就執(zhí)行維特比處理(步驟16)。
維特比處理器24根據(jù)在關(guān)鍵字距離計(jì)算處理(步驟13)中輸出的輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的匹配的狀態(tài)距離,使用維特比算法方法計(jì)算累積距離。在第二實(shí)施例中,由于相似性使用距離表示,距離越小相似性越高。因此在維特比算法方法中轉(zhuǎn)移到狀態(tài)i的兩個箭頭里,選擇具有比較小的累積距離的分支。維特比處理器24把維特比處理結(jié)束時判定的最后一幀的最后一個狀態(tài)的累積距離輸出到關(guān)鍵字識別器17。
在維特比處理(步驟16)完成后,根據(jù)輸出的累積距離在關(guān)鍵字識別處理(步驟17)中對該關(guān)鍵字進(jìn)行識別和判定。
另外,該第二實(shí)施例不僅限于上述例子,還可以做以下修改。
盡管在以上例子中使用了歐幾里德距離,但是也可以選用馬哈朗諾比斯距離(Maha lanobis distance)或者漢明距離。簡而言之,本發(fā)明中不僅可以使用歐幾里德距,而且還可以使用任何可用數(shù)值表示相似性差異的參數(shù)。
可以對第一實(shí)施例和第二實(shí)施例做以下修改。
在以上例子中使用維特比算法方法作為匹配方法,但是也可以使用DP匹配或者其它技術(shù)。換而言之,依照本發(fā)明,在語音識別中可以使用的模型不局限于維特比模型,也可以使用其它的模型,只要這些模型可以根據(jù)它們表示的是關(guān)鍵字的狀態(tài)還是外部語音的狀態(tài)作出區(qū)分。
在以上實(shí)施例中使用不同部件執(zhí)行不同功能在第一實(shí)施例中的關(guān)鍵字模型生成器8、關(guān)鍵字似然性計(jì)算器11、維特比處理器14、外部語音模型生成器10、外部語音似然性計(jì)算器12以及限值設(shè)定器13;以及在第二實(shí)施例中的關(guān)鍵字模型生成器8、關(guān)鍵字距離計(jì)算器21、維特比處理器24、外部語音模型生成器10、外部語音距離計(jì)算器22以及限值設(shè)定器23。然而由于所有的部件使用相同的內(nèi)部處理,因?yàn)榭梢栽诜謺r的基礎(chǔ)上使用單一計(jì)算裝置執(zhí)行不同功能。這樣可以減少部件的數(shù)目,從而減少該字識別設(shè)備的制造費(fèi)用。
除了在所附的權(quán)利要求中的技術(shù)要點(diǎn)以外,下面將描述可以從以上實(shí)施例中得到的技術(shù)要點(diǎn)以及它們的優(yōu)點(diǎn)。
在權(quán)利要求4到6、18到20以及32到34中的任一條所建議的本發(fā)明中,用于計(jì)算累積相似性的該累積裝置可以使用DP匹配方法。換言之,可以用在依照本發(fā)明的語音識別中的模型不局限于基于維特比的模型,還可以使用其它的模型,只要這些模型可以根據(jù)它們表示的是關(guān)鍵字的狀態(tài)還是外部語音的狀態(tài)進(jìn)行劃分。
(第三實(shí)施例)下面參考
依照本發(fā)明的第三實(shí)施例的字識別裝置。
圖11是表示依照本發(fā)明的第三實(shí)施例的字識別裝置原理配置的框圖。與以上實(shí)施例中相同的部件使用相同的參考數(shù)字標(biāo)記并且省略對它們的具體描述。
在本實(shí)施例中使用距離表示相似性。如圖11所示,依照本實(shí)施例的該字識別設(shè)備包括一個麥克風(fēng)1、一個LPF(低通濾波器)2、A/D轉(zhuǎn)換器3、作為特性參數(shù)生成裝置的特性參數(shù)生成器5、作為聲學(xué)模型數(shù)據(jù)庫的聲學(xué)模型存儲器6、作為關(guān)鍵字?jǐn)?shù)據(jù)庫的關(guān)鍵字存儲器7、作為關(guān)鍵字模型生成裝置的關(guān)鍵字模型生成器8、作為外部語音數(shù)據(jù)庫的外部語音存儲器9、作為外部語音生成裝置的外部語音模型生成器10、作為關(guān)鍵字相似性計(jì)算裝置和關(guān)鍵字距離計(jì)算裝置的關(guān)鍵字距離計(jì)算器21、作為外部語音相似性計(jì)算裝置和外部語音距離計(jì)算裝置的外部語音距離計(jì)算器22、作為累積關(guān)鍵字相似性計(jì)算裝置和累積關(guān)鍵字距離計(jì)算裝置的關(guān)鍵字維特比計(jì)算器42、作為累積外部語音相似性計(jì)算裝置和累積外部語音距離計(jì)算裝置的外部語音維特比計(jì)算器43、作為字長計(jì)算裝置的字長計(jì)算器44、作為累積相似性歸一化裝置和累積距離歸一化裝置的累積距離歸一化處理器45以及關(guān)鍵字識別器17。
該關(guān)鍵字距離計(jì)算器21由例如CPU組成。它計(jì)算并輸出在輸入語音的特性參數(shù)和關(guān)鍵字模型特性參數(shù)之間的關(guān)鍵字距離。
該外部語音距離計(jì)算器22由例如CPU組成。它計(jì)算并輸出在該輸入語音的特性參數(shù)和外部語音模型特性參數(shù)之間的外部語音距離。
該關(guān)鍵字維特比計(jì)算器42由例如CPU組成。它在輸出表示是否發(fā)生狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字距離。
該外部語音維特比計(jì)算器43由例如CPU組成。它計(jì)算外部語音模型的累積外部語音距離。
該字長計(jì)算器44由例如CPU組成。它使用由關(guān)鍵字維特比計(jì)算器42輸出的狀態(tài)轉(zhuǎn)移信息來計(jì)算字長。
該累積距離歸一化處理器45由例如CPU組成。它根據(jù)字長計(jì)算器44輸出的字長,使用累積關(guān)鍵字距離和累積外部語音距離計(jì)算歸一化的累積距離。
下面參考圖12描述具有以上結(jié)構(gòu)的字識別設(shè)備的操作概況。
圖12是表示該字識別設(shè)備操作概況的流程圖。
首先,執(zhí)行初始化處理(步驟21),以便為維特比處理做準(zhǔn)備。
由麥克風(fēng)1輸入的語音信號通過LPF2以及A/D轉(zhuǎn)換器3到達(dá)特性參數(shù)生成器5,該生成器然后從語音信號中提取語音分段、將它分成幀,并且從這些幀生成輸入語音的特性參數(shù)。
當(dāng)初始化處理(步驟21)完成后,開始生成關(guān)鍵字模型和外部語音模型的處理(步驟22)。
關(guān)鍵字和外部語音可從關(guān)鍵字存儲器7和外部語音存儲器9中提取得到。通配符模型與關(guān)鍵字的兩端連接以生成關(guān)鍵字模型。也同樣生成外部語音模型。連接到關(guān)鍵字模型和外部語音模型的是相同的通配符模型。從聲學(xué)模型存儲器6中提取與關(guān)鍵字模型和外部語音模型的發(fā)聲數(shù)據(jù)相對應(yīng)的轉(zhuǎn)移擬合程度和聲學(xué)模型,然后生成關(guān)鍵字模型和外部語音模型的特性參數(shù)。
在結(jié)束生成關(guān)鍵字模型和外部語音模型的處理(步驟22)后,執(zhí)行關(guān)鍵字距離計(jì)算處理(步驟23)和外部語音距離計(jì)算處理(步驟26)。下面說明關(guān)鍵字距離計(jì)算處理(步驟26)和它的后續(xù)處理(步驟24和25)。
關(guān)鍵字距離計(jì)算器21對輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的距離進(jìn)行計(jì)算并輸出。
具體來說,該關(guān)鍵字距離計(jì)算器21通過比較步驟21中生成的該輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù),在逐幀的基礎(chǔ)上計(jì)算用距離表示的關(guān)鍵字相似性,并把結(jié)果作為給定狀態(tài)在每個時間點(diǎn)上的狀態(tài)距離P輸出到狀態(tài)距離表P(t,m)。
在完成關(guān)鍵字距離計(jì)算處理(步驟23)后,開始關(guān)鍵字維特比計(jì)算處理(步驟24)。
該關(guān)鍵字維特比計(jì)算器42根據(jù)在關(guān)鍵字距離計(jì)算處理(步驟23)中輸出的在輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的狀態(tài)距離P,使用維特比算法方法計(jì)算累積關(guān)鍵字距離。該關(guān)鍵字維特比計(jì)算器42把指示是否存在狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移信息I(t,m)以與幀變化同步的方式輸出到字長計(jì)算器44。
在執(zhí)行關(guān)鍵字維特比計(jì)算處理(步驟24)的同時,并發(fā)執(zhí)行字長計(jì)算處理(步驟25)。
使用從關(guān)鍵字維特比計(jì)算器42輸出的狀態(tài)轉(zhuǎn)移信息I(t,m),該字長計(jì)算器44計(jì)算字長并把它輸出到累積距離歸一化處理器45。
具體來說,字長計(jì)算器根據(jù)步驟24輸出的狀態(tài)轉(zhuǎn)移信息I(t,m)觀察自轉(zhuǎn)移是否繼續(xù)。由于狀態(tài)轉(zhuǎn)移信息的輸出意味著發(fā)生了幀改變,因此當(dāng)狀態(tài)轉(zhuǎn)移信息輸出時該字長計(jì)算器44使字長增加。然而如果從一個狀態(tài)轉(zhuǎn)移到相同狀態(tài)的數(shù)目(自轉(zhuǎn)移的數(shù)目)超過了預(yù)設(shè)數(shù)目(自轉(zhuǎn)移的門限數(shù)目),即便幀改變該字長計(jì)算器44也不會使字長增加,直到發(fā)生了到不同狀態(tài)的轉(zhuǎn)移。這樣,當(dāng)自轉(zhuǎn)移持續(xù)了不切實(shí)際的長時間時,該字長計(jì)算器44會阻止字長繼續(xù)增加。
實(shí)驗(yàn)顯示自轉(zhuǎn)移門限的合適的數(shù)目根據(jù)字長而變化。它還和抽樣頻率等因素有關(guān)。它被設(shè)定成以不使自然語音的特征被取消掉為準(zhǔn)。
這樣就結(jié)束了字長計(jì)算處理(步驟25)。
接下來,說明與步驟23到25并發(fā)執(zhí)行的外部語音距離計(jì)算處理(步驟26)以及隨后執(zhí)行的外部語音維特比計(jì)算處理(步驟27)。
該外部語音距離計(jì)算器22對輸入語音的特性參數(shù)和外部語音模型的特性參數(shù)之間的距離進(jìn)行計(jì)算并輸出。這一計(jì)算是以與步驟23中計(jì)算在輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的距離相似的方式進(jìn)行的。
在完成外部語音距離計(jì)算處理(步驟26)后,執(zhí)行外部語音維特比計(jì)算處理(步驟27)。
該外部語音維特比計(jì)算器43根據(jù)由外部語音距離計(jì)算處理(步驟26)中輸出的在輸入語音的特性參數(shù)和外部語音模型的特性參數(shù)之間的距離,使用維特比算法方法來計(jì)算累積外部語音距離。
這樣結(jié)束了外部語音維特比計(jì)算處理(步驟27)。
接下來,說明字長歸一化處理(步驟28)。
在完成字長計(jì)算處理(步驟25)和外部語音維特比計(jì)算處理(步驟27)后,執(zhí)行字長歸一化處理(步驟28)。
在步驟25和27以后,當(dāng)接收到累積關(guān)鍵字距離和累積外部語音距離時,累積距離歸一化處理器45從累計(jì)關(guān)鍵字距離中減去累積外部語音距離,用從字長計(jì)算器44中輸出的字長對差值進(jìn)行歸一化,因而計(jì)算歸一化的累積距離。
在完成字長歸一化處理(步驟28)后,在下面的語音識別處理(步驟29)中使用歸一化累積距離執(zhí)行語音識別。
圖13是表示按照第三實(shí)施例的字長計(jì)算器44的字長計(jì)算處理(步驟25)包括字長控制的詳細(xì)流程圖。另外,要輸入以下數(shù)據(jù)狀態(tài)轉(zhuǎn)移信息I、自轉(zhuǎn)移計(jì)數(shù)器R、字長計(jì)數(shù)器L、當(dāng)前幀號碼n以及當(dāng)前狀態(tài)號碼m。
在步驟121中,字長計(jì)算器44判斷當(dāng)前幀號碼為n并當(dāng)前狀態(tài)號碼為m的狀態(tài)轉(zhuǎn)移信息I(n,m)中是否指示為從不同狀態(tài)的轉(zhuǎn)移。如果判斷結(jié)果為“True”(真)(來自不同狀態(tài)的轉(zhuǎn)移),則該字長計(jì)算器44進(jìn)入步驟122,但是如果判斷結(jié)果是“False”(假)(自轉(zhuǎn)移)則進(jìn)入步驟123。
在步驟122,由于判斷結(jié)果為“True”(來自不同狀態(tài)的轉(zhuǎn)移),從當(dāng)前狀態(tài)開始計(jì)數(shù)自轉(zhuǎn)移的數(shù)目,因而自轉(zhuǎn)移計(jì)數(shù)器R(n,m)被復(fù)位為0。同時,轉(zhuǎn)移源的字長L(n-1,m-1)被存儲到當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的字長L(n,m)。
在步驟123,由于判斷結(jié)果為“False”(自轉(zhuǎn)移),因此繼續(xù)從前一幀的號碼對自轉(zhuǎn)移的數(shù)目進(jìn)行計(jì)數(shù),所以轉(zhuǎn)移源的自轉(zhuǎn)移計(jì)數(shù)器R(n-1,m)加1并用該結(jié)果替換當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的自轉(zhuǎn)移計(jì)數(shù)器R(n,m)。同時,轉(zhuǎn)移源的字長L(n-1,m)被存儲到當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的字長L(n,m)中。然后字長計(jì)算器44進(jìn)入到步驟124。
在步驟124字長計(jì)算器44判斷當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的自轉(zhuǎn)移計(jì)數(shù)器R(n,m)指示的值是否等于或者大于預(yù)定門限Thresh。如果判斷結(jié)果為“True”(自轉(zhuǎn)移計(jì)數(shù)器R(n,m)指示的值等于或者大于預(yù)定門限Thresh),該字長計(jì)數(shù)器L(n,m)不增加。如果判斷結(jié)果為“False”(自轉(zhuǎn)移計(jì)數(shù)器R(n,m)指示的值小于預(yù)定門限),字長計(jì)算器44進(jìn)入步驟125。
在步驟125,字長計(jì)算器44判斷當(dāng)前狀態(tài)m是否表示為一關(guān)鍵字。如果步驟125中的判斷結(jié)果為“True”,則在步驟126中當(dāng)前幀號碼為n、狀態(tài)號碼為m的L(n,m)增1。如果結(jié)果是“False”(m表示外部語音的狀態(tài)),則字長計(jì)數(shù)器L(n,m)不增加。
當(dāng)在前N個幀中前M個狀態(tài)的字長被輸出到字長歸一化處理中時,每個狀態(tài)號碼為m幀號碼為n的由步驟121到126所決定的字長和自轉(zhuǎn)移計(jì)數(shù)被存儲。
本實(shí)施例具有以下優(yōu)點(diǎn)。
由于步驟22中連接到關(guān)鍵字模型和外部語音模型上的是同一個通配符,通過步驟28從累積關(guān)鍵字距離中減去累積外部語音距離,可以通過消除很有可能包含在語音分段開始和結(jié)束中的外部語音,以提取關(guān)鍵字本身的累積距離。
因此可以避免出現(xiàn)這樣的現(xiàn)象,即由于不現(xiàn)實(shí)地過長的最佳路徑而導(dǎo)致語音參數(shù)與不包含在發(fā)音中但卻具有比較小的狀態(tài)數(shù)的關(guān)鍵字模型相匹配,使得正確的關(guān)鍵字的歸一化累積距離小于錯誤的關(guān)鍵字的歸一化累積距離。
由于字長控制處理只需要極低的性能,因此可以被方便的集成到諸如導(dǎo)航系統(tǒng)這樣的資源受限的語音識別設(shè)備中。
(第四實(shí)施例)參考圖14對依照本發(fā)明第四實(shí)施例的字識別設(shè)備進(jìn)行說明。
圖14是表示依照第四實(shí)施例的字識別設(shè)備操作概況的流程圖。在此省略與第三實(shí)施例中相同的部件的具體描述。
根據(jù)第三實(shí)施例,當(dāng)自轉(zhuǎn)移數(shù)目超過自轉(zhuǎn)移門限數(shù)目時,監(jiān)視狀態(tài)轉(zhuǎn)移信息I(t,m)的該字長計(jì)算器44在步驟25中不會增加字長。然而根據(jù)第四實(shí)施例,在完成步驟24和27以后,就直接計(jì)算字長(步驟210),而跳過步驟25。
具體來說,根據(jù)第四實(shí)施例,在步驟24和27完成后,流程進(jìn)行到字長計(jì)算處理(步驟30),在此根據(jù)步驟24中記錄的狀態(tài)轉(zhuǎn)移信息I對超過自轉(zhuǎn)移門限數(shù)目的自轉(zhuǎn)移數(shù)目進(jìn)行計(jì)數(shù)。字長是通過從被判斷為語音分段的分段的幀數(shù)中減去超過自轉(zhuǎn)移門限數(shù)目的數(shù)目。
在完成字長計(jì)算處理(步驟30)后,流程轉(zhuǎn)到字長歸一化處理(步驟31)。
累積距離歸一化處理器45從累積關(guān)鍵字距離中減去累積外部語音距離,使用由字長計(jì)算器44輸出的字長對差值進(jìn)行歸一化處理,從而計(jì)算歸一化的累積距離。
在完成字長歸一化處理(步驟31)后,在隨后的語音識別處理(步驟29)利用歸一化累積距離執(zhí)行語音識別。
圖15是詳細(xì)表示按照第四實(shí)施例的字長計(jì)算器44的字長計(jì)算處理(步驟30)包括字長控制的流程圖。
首先,執(zhí)行初始化處理(步驟131)以進(jìn)行字長控制。具體來說,在當(dāng)前的幀號碼n和當(dāng)前的狀態(tài)號碼m分別被設(shè)定為關(guān)鍵字模型的最大提取幀長N和最大狀態(tài)號碼M時,字長計(jì)數(shù)器WordLen、自轉(zhuǎn)移計(jì)數(shù)器Alen以及超額計(jì)數(shù)器Overpath都被置為0。
在完成初始化處理(步驟131)后,利用步驟132到140所示的回溯計(jì)算字長。
首先字長計(jì)算器44判斷當(dāng)前分析的狀態(tài)是否為關(guān)鍵字狀態(tài)(步驟132)。如果當(dāng)前狀態(tài)是關(guān)鍵字狀態(tài),該字長計(jì)數(shù)器WordLen增1(步驟133)。如果當(dāng)前狀態(tài)是外部語音狀態(tài),不增加WordLen。
接下來,字長計(jì)算器44判斷當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的狀態(tài)轉(zhuǎn)移信息I(n,m)是否表示一個來自不同狀態(tài)的轉(zhuǎn)移(步驟134)。如果該狀態(tài)轉(zhuǎn)移信息I(n,m)表示是來自不同狀態(tài)的轉(zhuǎn)移(YES),則當(dāng)前狀態(tài)號碼m減1,并且自轉(zhuǎn)移計(jì)數(shù)器Alen被初始化為0(步驟135)。
如果狀態(tài)轉(zhuǎn)移信息I(n,m)表示是自轉(zhuǎn)移(NO),字長計(jì)算器44對自轉(zhuǎn)移計(jì)數(shù)器Alen加1并且判斷自轉(zhuǎn)移計(jì)數(shù)所指示的值是否等于或者大于預(yù)定門限Thresh(步驟137)。如果自轉(zhuǎn)移計(jì)數(shù)顯示一個等于或者大于預(yù)設(shè)門限Thresh的值,該字長計(jì)算器44對超額字計(jì)數(shù)器Overpath加1(步驟138)。如果自轉(zhuǎn)移計(jì)數(shù)器顯示一個小于預(yù)定門限的值,該字長計(jì)算器44不增加超額字計(jì)數(shù)器Overpath。
在根據(jù)狀態(tài)轉(zhuǎn)移信息執(zhí)行相應(yīng)處理(步驟134到步驟138)后,字長計(jì)算器44對當(dāng)前幀號碼n減1(步驟139)。
然后,字長計(jì)算器44判斷當(dāng)前幀號碼是否已經(jīng)達(dá)到第一幀(步驟140)。如果當(dāng)前幀號碼已經(jīng)返回到該第一幀,則從字長計(jì)數(shù)器WordLen的值中減去超額字計(jì)數(shù)器Overpath的值(步驟141)并把差值作為字長的計(jì)算結(jié)果輸出。
重復(fù)步驟132到140,直到當(dāng)前幀到達(dá)該第一幀。
本實(shí)施例具有以下優(yōu)點(diǎn)。
由于本實(shí)施例中使用已被記錄下以用于回溯的狀態(tài)轉(zhuǎn)移信息I,因此可以減小字長計(jì)算的負(fù)載。
另外,第四實(shí)施例并不只限于以上描述的例子,還可以進(jìn)行以下修改。
在上述實(shí)施例中,使用被記錄以用于回溯的狀態(tài)轉(zhuǎn)移信息I來計(jì)算超過自轉(zhuǎn)移門限數(shù)目的自轉(zhuǎn)移數(shù)目。備選地,超過自轉(zhuǎn)移門限數(shù)目的自轉(zhuǎn)移數(shù)目可以被分開存儲。這樣可以在由于某些原因引起了需要對狀態(tài)信息I的覆蓋時確保程序的靈活性。
(第五實(shí)施例)下面,參考
依照本發(fā)明第五實(shí)施例的字識別設(shè)備。
圖16是表示根據(jù)依照本發(fā)明第五實(shí)施例的字識別設(shè)備原理結(jié)構(gòu)的框圖。與以上實(shí)施例相同的部件使用相同的參考數(shù)字標(biāo)記并省略對它們的詳細(xì)描述。
本實(shí)施例與第三實(shí)施例的不同在于相似性使用似然性(概率)表示,而在第三實(shí)施例中使用距離表示相似性。其余部分和第三實(shí)施例相似以。
如圖16所示依照本實(shí)施例的字識別設(shè)備包括作為關(guān)鍵字相似性計(jì)算裝置和關(guān)鍵字似然性計(jì)算裝置的關(guān)鍵字似然性計(jì)算器11、作為外部語音相似性計(jì)算裝置和外部語音似然性計(jì)算裝置的外部語音似然性計(jì)算器12、作為累積關(guān)鍵字相似性計(jì)算裝置和累積關(guān)鍵字似然性計(jì)算裝置的關(guān)鍵字維特比計(jì)算器32、作為累積外部語音相似性計(jì)算裝置和累積外部語音似然性計(jì)算裝置的外部語音維特比計(jì)算器33、作為字長計(jì)算裝置的字長計(jì)算器34、作為累積相似性歸一化裝置和累積似然性歸一化裝置的累積距離歸一化處理器35。
該關(guān)鍵字維特比計(jì)算器32由例如CPU組成。它在輸出指示是否存在狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字似然。
該外部語音維特比計(jì)算器33由例如CPU組成。它計(jì)算外部語音模型的累積外部語音似然性。
該字長計(jì)算器34由例如CPU組成。它使用關(guān)鍵字維特比計(jì)算器32輸出的狀態(tài)轉(zhuǎn)移信息來計(jì)算字長。
該累積似然性歸一化處理器35由例如CPU組成。它根據(jù)字長計(jì)算器3 4輸出的字長,使用累積關(guān)鍵字似然性和累積外部語音似然性使累積似然性歸一化。
下面參考圖17描述具有以上結(jié)構(gòu)的字識別設(shè)備的操作概況。
圖17是表示依照該第五實(shí)施例的字識別設(shè)備操作概況的流程圖。與第三實(shí)施例中相同的部件使用相同的數(shù)字標(biāo)記并省略對它們的具體描述。
和在第三實(shí)施例中一樣,在完成關(guān)鍵字模型和外部語音模型生成處理(步驟22)后,就執(zhí)行關(guān)鍵字似然性計(jì)算處理(步驟32)和外部語音似然性計(jì)算處理(步驟34)。下面描述該關(guān)鍵字似然性計(jì)算處理(步驟32)和后續(xù)處理(步驟33和34)。
關(guān)鍵字似然性計(jì)算器11對輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性進(jìn)行計(jì)算并輸出。
具體來說,該關(guān)鍵字似然性計(jì)算器11通過比較步驟21中生成的該輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù),以逐幀為基礎(chǔ)計(jì)算似然性,并把結(jié)果作為給定狀態(tài)在每個時間點(diǎn)上的狀態(tài)似然性輸出到狀態(tài)似然性表。
在完成關(guān)鍵字似然性計(jì)算處理(步驟32)后,開始關(guān)鍵字維特比計(jì)算處理(步驟33)。
該關(guān)鍵字維特比計(jì)算器32根據(jù)在關(guān)鍵字似然計(jì)算處理(步驟32)中輸出的輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性,使用維特比算法方法計(jì)算累積關(guān)鍵字似然性。在第五實(shí)施例中由于使用似然性表示相似性,似然性越高,相似性越高。因此在維特比算法方法中,在兩個轉(zhuǎn)移到狀態(tài)I的箭頭之中選取具有較高累積似然性的箭頭。該關(guān)鍵字維特比計(jì)算器32與幀的變化同步地把表示是否存在狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移信息輸出到字長計(jì)算器34。
在執(zhí)行關(guān)鍵字維特比計(jì)算處理(步驟33)的同時,并發(fā)執(zhí)行字長計(jì)算處理(步驟34)。
該字長計(jì)算器34使用從關(guān)鍵字維特比計(jì)算器32輸出的狀態(tài)轉(zhuǎn)移信息計(jì)算字長并把結(jié)果輸出到累積似然性歸一化處理器35。
具體來說,字長計(jì)算器34根據(jù)步驟33輸出的狀態(tài)轉(zhuǎn)移信息觀察自轉(zhuǎn)移是否繼續(xù)。由于狀態(tài)轉(zhuǎn)移信息的輸出意味著發(fā)生了幀改變,因此當(dāng)狀態(tài)轉(zhuǎn)移信息輸出時該字長計(jì)算器34增加字長。另外,如果自轉(zhuǎn)移的數(shù)目超過了自轉(zhuǎn)移的門限數(shù)目,字長計(jì)算器34除了在發(fā)生了轉(zhuǎn)移到不同狀態(tài)之前在每次有狀態(tài)轉(zhuǎn)移信息輸出時要增加字長以外,還根據(jù)超出自轉(zhuǎn)移門限數(shù)目的自轉(zhuǎn)移數(shù)目將該字長增加一個預(yù)定值。
此處的預(yù)定值應(yīng)足夠大以在使用字長對累積似然性歸一化時消除不切實(shí)際的連續(xù)自轉(zhuǎn)移的影響。它可以通過學(xué)習(xí)決定。
這樣結(jié)束字長計(jì)算處理(步驟34)。
接下來,說明與步驟32到34并發(fā)執(zhí)行的外部語音似然性計(jì)算處理(步驟35)以及后續(xù)執(zhí)行的外部語音維特比計(jì)算處理(步驟36)。
外部語音似然性計(jì)算器12計(jì)算輸入語音的特性參數(shù)和外部語音模型的特性參數(shù)之間匹配的似然性。
在完成外部語音似然計(jì)算處理(步驟35)后,開始外部語音維特比計(jì)算處理(步驟36)。
該外部語音維特比計(jì)算器33根據(jù)由外部語音似然性計(jì)算處理(步驟35)中輸出的輸入語音的特性參數(shù)和外部語音模型的特性參數(shù)之間匹配的似然性,使用維特比算法方法計(jì)算累積外部語音似然性。由于使用似然表示相似性,似然性越高,相似性越高,因此在維特比算法方法中對轉(zhuǎn)移到狀態(tài)i的兩個箭頭中選取具有比較高的累積似然性的箭頭。
這樣結(jié)束外部語音維特比計(jì)算處理(步驟36)。
接下來,說明字長歸一化處理(步驟37)。
在完成字長計(jì)算處理(步驟34)和外部語音維特比計(jì)算處理(步驟36)后,執(zhí)行字長歸一化處理(步驟37)。
在步驟34和36以后,當(dāng)接收到累積關(guān)鍵字似然性和累積外部語音似然性時,累積似然性歸一化處理器35從累計(jì)關(guān)鍵字似然性中減去累積外部語音似然性,用從字長計(jì)算器34中輸出的字長對差值進(jìn)行歸一化,由此計(jì)算歸一化累積似然性。
在完成字長歸一化處理(步驟37)后,在下面的語音識別處理(步驟29)中使用歸一化累積似然性執(zhí)行語音識別。
圖18是表示按照本發(fā)明第五實(shí)施例的字長計(jì)算器34的字長計(jì)算處理(步驟34)包括字長控制的詳細(xì)流程圖。另外,要輸入以下數(shù)據(jù)狀態(tài)轉(zhuǎn)移信息I、自轉(zhuǎn)移計(jì)數(shù)器R、字長計(jì)數(shù)器L、當(dāng)前幀號碼n以及當(dāng)前狀態(tài)號碼m。
在步驟151中,字長計(jì)算器34判斷當(dāng)前幀號碼為n并當(dāng)前狀態(tài)號碼為m的狀態(tài)轉(zhuǎn)移信息I(n,m)中是否指示為從不同狀態(tài)的轉(zhuǎn)移。如果判斷結(jié)果為“True”(來自不同狀態(tài)的轉(zhuǎn)移),該字長計(jì)算器34進(jìn)入步驟152,但是如果判斷結(jié)果是“False”(自轉(zhuǎn)移)進(jìn)入步驟153。
在步驟152,由于判斷結(jié)果為“True”(來自不同狀態(tài)的轉(zhuǎn)移),從當(dāng)前狀態(tài)開始計(jì)數(shù)自轉(zhuǎn)移的數(shù)目,因而自轉(zhuǎn)移計(jì)數(shù)器R(n,m)被復(fù)位為0。同時,轉(zhuǎn)移源的字長L(n-1,m-1)被存儲到當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的字長L(n,m)。
在步驟153,由于判斷結(jié)果為“False”(自轉(zhuǎn)移),從前一幀號碼繼續(xù)對自轉(zhuǎn)移的數(shù)目進(jìn)行計(jì)數(shù),因而轉(zhuǎn)移源的自轉(zhuǎn)移計(jì)數(shù)器R(n-1,m)加1并用結(jié)果替換當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的自轉(zhuǎn)移計(jì)數(shù)器R(n,m)。同時,轉(zhuǎn)移源的字長L(n-1,m)被存儲到當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的字長L(n,m)。然后字長計(jì)算器34進(jìn)入到步驟154。
在步驟154字長計(jì)算器34判斷當(dāng)前幀號碼為n、當(dāng)前狀態(tài)號碼為m的自轉(zhuǎn)移計(jì)數(shù)器R(n,m)指示的值是否等于或者大于預(yù)定門限Thresh。如果判斷結(jié)果為“True”(自轉(zhuǎn)移計(jì)數(shù)器R(n,m)指示的值等于或者大于預(yù)定門限Thresh),大于1的預(yù)定常數(shù)ck被加到字長計(jì)數(shù)器L(n,m)(步驟157)中。如果判斷結(jié)果為“False”(自轉(zhuǎn)移計(jì)數(shù)器R(n,m)指示的值小于預(yù)定門限),字長計(jì)算器34進(jìn)入步驟155。
在步驟155,字長計(jì)算器34判斷當(dāng)前狀態(tài)m是否表示關(guān)鍵字。如果步驟155中的判斷結(jié)果為“True”,在步驟156中當(dāng)前幀號碼為n、狀態(tài)號碼為m的字長計(jì)數(shù)器L(n,m)增1。如果判斷結(jié)果是“False”(m表示外部語音的狀態(tài)),大于1的預(yù)定常數(shù)ck被加到字長計(jì)數(shù)器L(n,m)(步驟157)。
當(dāng)在前N個幀中前M個狀態(tài)的字長和自轉(zhuǎn)移計(jì)數(shù)被輸出到字長歸一化處理中時,每個狀態(tài)號碼為m幀號碼為n、由步驟151到157所決定的字長和自轉(zhuǎn)移計(jì)數(shù)被存儲。
另外,該第五實(shí)施例并不局限與以上所描述的例子還可以做以下改變。
所使用的相似性可以是對數(shù)似然性。對數(shù)似然性的使用使得使用加和減計(jì)算累積似然性成為可能,從而加速了計(jì)算處理。
如第四實(shí)施例中一樣,字長計(jì)算裝置可以像超過的次數(shù)同樣多的次數(shù)存儲超過自轉(zhuǎn)移門限數(shù)目的數(shù)目并添加一個預(yù)定值到該字長。同樣,超過門限值數(shù)目的該次數(shù)可以根據(jù)狀態(tài)轉(zhuǎn)移信息決定。這樣可以減少在維特比處理中字長計(jì)算的計(jì)算負(fù)載。
(第六實(shí)施例)參考圖19對依照本發(fā)明第六實(shí)施例的字識別設(shè)備進(jìn)行說明。
圖19是表示依照第六實(shí)施例的字識別設(shè)備操作概況的流程圖。根據(jù)以上所述的第三實(shí)施例,在完成維特比處理和字長計(jì)算后,使用維特比處理的最終輸出和字長計(jì)算器的最終輸出對字長進(jìn)行歸一化。然而,根據(jù)第六實(shí)施例,在維特比處理中選定要轉(zhuǎn)移到的狀態(tài)后,使用那時字長對那時累積距離進(jìn)行歸一化并使用歸一化結(jié)果選擇要轉(zhuǎn)移到的狀態(tài)。
首先,執(zhí)行初始化處理(步驟161)以進(jìn)行字長控制。具體來說,當(dāng)前的幀號碼n和當(dāng)前的狀態(tài)號碼m分別被設(shè)定為1的同時,字長表L和自轉(zhuǎn)移計(jì)數(shù)表R被初始化為0。
然后,開始包括字長計(jì)算在內(nèi)的詳細(xì)的維特比處理。判斷當(dāng)前幀號碼n是否已經(jīng)到達(dá)語音分段中的幀號碼N(步驟162)。如果當(dāng)前幀還未到達(dá)結(jié)束點(diǎn),步驟163到步驟172中的包括字長計(jì)算在內(nèi)的維特比處理被重復(fù)執(zhí)行直到最后一幀被處理完。當(dāng)最后一幀處理完成后,執(zhí)行步驟175中的處理。
如步驟162中的情形一樣,在步驟163中判斷當(dāng)前狀態(tài)計(jì)數(shù)m是否已經(jīng)到達(dá)關(guān)鍵字模型的最后一個狀態(tài)。如果當(dāng)前狀態(tài)已經(jīng)到達(dá)最后狀態(tài),幀計(jì)數(shù)n增1,狀態(tài)計(jì)數(shù)被初始化為1(步驟174),并且返回到步驟162。如果當(dāng)前狀態(tài)還未到達(dá)最后狀態(tài),則對每個狀態(tài)重復(fù)步驟164到172中包含字長計(jì)算在內(nèi)的維特比處理。
在步驟164,生成維特比處理期間用于比較當(dāng)前狀態(tài)累積距離的信息。Da表示前一幀中當(dāng)前狀態(tài)的歸一化累積距離,而Db表示前一幀中前一狀態(tài)的歸一化累積距離。使用前一幀中當(dāng)前狀態(tài)的累積外部語音距離U(n-1)、字長L(n-1,m)以及字長L(n-1,m-1)計(jì)算Da和Db。具體來說,Da由轉(zhuǎn)移源的累積距離D(n-1,m)減去前一幀的累積外部語音距離U(n-1)給出,以上各項(xiàng)都除以轉(zhuǎn)移源的字長L(n-1,m)。如果L(n-1,m)=0,則Da由轉(zhuǎn)移源的累積距離D(n-1,m)減去前一幀的累積外部語音距離U(n-1)給出。相似地,Db由轉(zhuǎn)移源的累積距離D(n-1,m-1)減去前一幀的累積外部語音距離U(n-1)給出,以上各項(xiàng)都除以轉(zhuǎn)移源的字長L(n-1,m)。如果L(n-1,m)=0,Db由轉(zhuǎn)移源的累積距離D(n-1,m-1)減去前一幀的累積外部語音距離U(n-1)給出。
在步驟165,判斷由步驟164得到的兩個值Da和Db是否滿足Da≤Db。
如果步驟165中的判斷結(jié)果是“True”,則當(dāng)前幀中當(dāng)前狀態(tài)的距離值P(n,m)被加到前一幀中當(dāng)前狀態(tài)的累積距離D(n-1,m)中,并且結(jié)果被用來取代當(dāng)前幀中當(dāng)前狀態(tài)的累積距離D(n,m)。同樣,為了表示自轉(zhuǎn)移,增1的自轉(zhuǎn)移計(jì)數(shù)器R(n,m-1)被用來取代自轉(zhuǎn)移計(jì)數(shù)器R(n,m)。進(jìn)而,由于Da≤Db為真,為了表示幀號碼為n狀態(tài)號碼為m的轉(zhuǎn)移源是幀號碼為n-1狀態(tài)號碼為m,使用L(n-1,m)取代字長變量Length。
在步驟167中,判斷自轉(zhuǎn)移計(jì)數(shù)器R(n,m)表示的是否為一個等于或者小于預(yù)定門限的值Thresh。如果步驟167中的判斷結(jié)果為“True”,判斷當(dāng)前狀態(tài)m是否屬于關(guān)鍵字分段(步驟169)。如果步驟169的判斷結(jié)果為“True”,則字長變量Length增1。如果步驟167或者步驟169的判斷結(jié)果為“False”,則流程跳過步驟170直接到步驟171。
如果步驟165中的判斷結(jié)果是“False”,則在步驟168中計(jì)算累積距離D(n,m)、將自轉(zhuǎn)移計(jì)數(shù)器R(n,m)初始化并且計(jì)算字長變量Length。這意味著幀號碼n狀態(tài)號碼m的轉(zhuǎn)移源是幀號碼n-1狀態(tài)m-1。簡而言之,此處的轉(zhuǎn)移是來自不同狀態(tài)的轉(zhuǎn)移。因此幀號碼n狀態(tài)號碼m的累積距離D(n,m)可以由轉(zhuǎn)移源的累積距離D(n-1,m-1)與當(dāng)前狀態(tài)的距離值P(n,m)的和給出。同樣,由于轉(zhuǎn)移是來自不同狀態(tài)的轉(zhuǎn)移,自轉(zhuǎn)移計(jì)數(shù)器R(n,m)被初始化為0并且使用轉(zhuǎn)移源的字長L(n-1,m-1)取代Length變量。當(dāng)步驟167的判斷結(jié)果為“True”時,進(jìn)入后續(xù)步驟169和170。
在步驟171,暫時存儲的Length變量被存儲在字長計(jì)數(shù)器L(n,m)中。在步驟171后,狀態(tài)計(jì)數(shù)器m在步驟172中增1。
在步驟172中狀態(tài)計(jì)數(shù)器增加后,流程轉(zhuǎn)到步驟163判斷最后狀態(tài)。
當(dāng)直到最后一幀為止的所有幀都已經(jīng)經(jīng)過了步驟162到步驟174后,在步驟175中使用字長L(N,M)和累積外部語音距離U(N)對最后一幀中的最后一個狀態(tài)的累積距離D(N,M)進(jìn)行歸一化以獲得歸一化累積距離D’(N,M)。具體來說,從步驟174中獲得的累積距離D(N,M)中減去累積外部語音距離U(N)并且把結(jié)果除以字長L(N,M)以獲得D’(N,M),然后把D’(N,M)作為計(jì)算結(jié)構(gòu)輸出。
根據(jù)本實(shí)施例,由于反應(yīng)字長的累積距離可以用在維特比處理的狀態(tài)中,因此可以進(jìn)一步改善識別的性能。
另外,對第一實(shí)施例到第六實(shí)施例可以做如下改變。
在上述例子中,使用維特比算法方法作為匹配方法,但是也可以使用DP匹配或者其它技術(shù)。換言之,依照本發(fā)明可用在語音識別中的模型不僅限于基于維特比的模型,也可以使用其它的模型,只要這些模型是根據(jù)它們表示的是關(guān)鍵字狀態(tài)還是外部語音狀態(tài)而進(jìn)行劃分的。
盡管在上述實(shí)施例中字長歸一化、字長計(jì)算以及外部語音距離計(jì)算是分開執(zhí)行的,但如果可以在幀的級別上對三個進(jìn)程實(shí)現(xiàn)同步,就可以在維特比處理中比較不同狀態(tài)的累積距離同時,使用歸一化累計(jì)距離。那樣,由于維特比處理的狀態(tài)轉(zhuǎn)移信息是根據(jù)歸一化累積距離生成的,因此可以進(jìn)一步改善識別性能。
盡管在以上例子中使用了歐幾里德距離,但是也可以選用馬哈朗諾比斯距離(Mahalanobis distance)或者漢明距離。簡而言之,本發(fā)明中不僅可以使用歐幾里德距離,而且還可以使用任何可以用數(shù)值來表示相似性差異的參數(shù)。
在以上實(shí)施例中使用不同的部件執(zhí)行不同功能在第三實(shí)施例時是關(guān)鍵字模型生成器8、關(guān)鍵字距離計(jì)算器21、關(guān)鍵字維特比計(jì)算器42、外部語音模型生成器10、外部語音距離計(jì)算器22以及外部語音維特比計(jì)算器43;以及在第五實(shí)施例時是關(guān)鍵字模型生成器8、關(guān)鍵字似然性計(jì)算器11、關(guān)鍵字維特比計(jì)算器32、外部語音生成器10、外部語音似然性計(jì)算器12以及外部語音維特比計(jì)算器33。然而,由于各部件使用相同的處理,因此可以使用單個部件在分時的基礎(chǔ)上執(zhí)行多種功能。這樣減少了部件數(shù)目,從而減少了字識別設(shè)備的制造花費(fèi)。
除了在權(quán)利要求中公開的技術(shù)要點(diǎn)以外,還可以從以上實(shí)施例中得出以下技術(shù)要點(diǎn)和它們的優(yōu)點(diǎn)。
在權(quán)利要求8、10、11、22、24、25、36、38以及39中任意一項(xiàng)所限定的本發(fā)明中,用于計(jì)算累積相似性的計(jì)算裝置也可以使用DP匹配方法。換言之,依照本發(fā)明用于語音識別中的模型不僅限于基于維特比的模型,而且還可以使用其它模型,只要這些模型可以根據(jù)它們表示的是關(guān)鍵字狀態(tài)還是外部語音狀態(tài)進(jìn)行劃分。
在權(quán)利要求10、24以及38中任意一項(xiàng)所限定的本發(fā)明中,該字長計(jì)算裝置可以存儲超過自轉(zhuǎn)移門限數(shù)目的自轉(zhuǎn)移數(shù)目,并且在使用該字長對累積距離進(jìn)行歸一化處理之前通過從幀的號碼中減去超過門限數(shù)目的該數(shù)目。這樣可以減少維特比處理期間的字長計(jì)算負(fù)載。
在權(quán)利要求11、25以及39中的任意一項(xiàng)所限定的本發(fā)明中,該字長計(jì)算裝置可以存儲超過自轉(zhuǎn)移門限數(shù)目的自轉(zhuǎn)移數(shù)目,并且在使用該字長對累積距離進(jìn)行歸一化處理之前把預(yù)定的值與超過數(shù)同樣次數(shù)加到字長上。這樣可以減少維特比處理期間的字長計(jì)算負(fù)載。
(第七實(shí)施例)以下將參考
依照本發(fā)明第七實(shí)施例的字識別設(shè)備。
圖20是表示根據(jù)依照本發(fā)明第七實(shí)施例的字識別設(shè)備原理結(jié)構(gòu)的框圖。與以上實(shí)施例相同的部件使用相同的參考數(shù)字標(biāo)記并省略對它們的詳細(xì)描述。
在本實(shí)施例中使用距離表示相似性。如圖20所示,依照本實(shí)施例的該字識別設(shè)備包括一個麥克風(fēng)1、一個LPF2、A/D轉(zhuǎn)換器3、作為特性參數(shù)生成裝置的特性參數(shù)生成器4、作為聲學(xué)模型數(shù)據(jù)庫的聲學(xué)模型存儲器5、作為關(guān)鍵字模型數(shù)據(jù)庫的關(guān)鍵字存儲器6、作為關(guān)鍵字模型生成裝置的關(guān)鍵字模型生成器7、外部語音存儲器8、作為關(guān)鍵字相似性計(jì)算裝置和關(guān)鍵字距離計(jì)算裝置的關(guān)鍵字距離計(jì)算器21、作為累積關(guān)鍵字相似性計(jì)算裝置和累積關(guān)鍵字距離計(jì)算裝置的關(guān)鍵字維特比計(jì)算器42、作為持續(xù)時間控制裝置的持續(xù)時間控制器52以及關(guān)鍵字識別器53。
該關(guān)鍵字維特比計(jì)算器42由例如CPU組成。它在把表示狀態(tài)轉(zhuǎn)移是如何發(fā)生的狀態(tài)轉(zhuǎn)移信息輸出到持續(xù)時間控制器52的同時,使用從持續(xù)時間控制器52輸出的被調(diào)整的累積關(guān)鍵字距離來計(jì)算累積關(guān)鍵字距離。
該持續(xù)時間控制器52由例如CPU組成。如果從一個狀態(tài)到同一狀態(tài)的連續(xù)轉(zhuǎn)移數(shù)目(自轉(zhuǎn)移數(shù)目)超過預(yù)設(shè)數(shù)目(自轉(zhuǎn)移門限數(shù)目),則該持續(xù)時間控制器52把通過加一個預(yù)定值到累積關(guān)鍵字距離而得到的調(diào)整過的累積關(guān)鍵字距離輸出到關(guān)鍵字維特比計(jì)算器42。
該關(guān)鍵字識別器53由例如CPU組成。它使用關(guān)鍵字維特比計(jì)算器42輸出的累積關(guān)鍵字距離識別關(guān)鍵字。
下面參考圖21說明具有以上構(gòu)造的字識別設(shè)備的操作概況。
圖21是表示該字識別設(shè)備操作概況的流程圖。
首先,執(zhí)行初始化處理(步驟51),以便為維特比處理做準(zhǔn)備。
由麥克風(fēng)1輸入的語音信號通過LPF2以及A/D轉(zhuǎn)換器3到達(dá)特性參數(shù)生成器4,該生成器然后從語音信號中提取語音分段、將它分成幀,并且從這些幀生成輸入語音的特性參數(shù)。
當(dāng)初始化處理(步驟51)完成后,就開始生成關(guān)鍵字模型和外部語音模型的處理(步驟52)。
關(guān)鍵字和外部語音可從關(guān)鍵字存儲器6和外部語音存儲器8中提取得到。通配符模型與關(guān)鍵字的兩端連接以生成關(guān)鍵字模型。從聲學(xué)模型存儲器5中提取與關(guān)鍵字模型的發(fā)聲數(shù)據(jù)相對應(yīng)的轉(zhuǎn)移擬合程度和聲學(xué)模型,然后生成關(guān)鍵字模型的特性參數(shù)。
在結(jié)束關(guān)鍵字模型生成處理(步驟52)后,執(zhí)行關(guān)鍵字距離計(jì)算處理(步驟53)。
關(guān)鍵字距離計(jì)算器21對在輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的距離進(jìn)行計(jì)算并輸出。
具體來說,該關(guān)鍵字距離計(jì)算器21通過比較步驟51中生成的該輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù),以幀為基礎(chǔ)計(jì)算用距離表示的關(guān)鍵字相似性,并把結(jié)果作為給定狀態(tài)在每個時間點(diǎn)上的狀態(tài)距離P輸出到狀態(tài)距離表P(t,m)。
在完成關(guān)鍵字距離計(jì)算處理(步驟53)后,開始關(guān)鍵字維特比計(jì)算處理(步驟54)。
該關(guān)鍵字維特比計(jì)算器42根據(jù)在關(guān)鍵字距離計(jì)算處理(步驟53)中輸出的輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的狀態(tài)距離P,使用維特比算法方法計(jì)算累積關(guān)鍵字距離。該關(guān)鍵字維特比計(jì)算器42把指示是否存在狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移信息I(t,m)與該時刻的累積關(guān)鍵字距離一起與幀的變化同步地輸出到持續(xù)時間控制器52。
使用從關(guān)鍵字維特比計(jì)算器42輸出的狀態(tài)轉(zhuǎn)移信息I(t,m),持續(xù)時間控制器52判斷自轉(zhuǎn)移的數(shù)目是否超過了自轉(zhuǎn)移門限數(shù)目。如果超過了門限數(shù)目,該持續(xù)時間控制器52把通過把預(yù)定值加到累積關(guān)鍵字距離而獲得的調(diào)整過的累積關(guān)鍵字距離輸出到關(guān)鍵字維特比計(jì)算器42。
具體來說,該持續(xù)時間控制器52根據(jù)狀態(tài)轉(zhuǎn)移信息I(t,m)觀測自轉(zhuǎn)移是否繼續(xù)。由于狀態(tài)轉(zhuǎn)移信息的輸出意味著發(fā)生了幀的變化,如果自轉(zhuǎn)移數(shù)目超過了自轉(zhuǎn)移門限數(shù)目,則該持續(xù)時間控制器52把調(diào)整過的累積關(guān)鍵字距離輸出到該關(guān)鍵字維特比計(jì)算器42。
實(shí)驗(yàn)表明合適的自轉(zhuǎn)移門限數(shù)目根據(jù)字而變化。它也隨抽樣頻率等因素而變化。它的設(shè)定應(yīng)該以不會使自然語音的特性被取消為標(biāo)準(zhǔn)。
當(dāng)在語音部分相同的聲音持續(xù)了一個不切實(shí)際長的時間時,會超過自轉(zhuǎn)移門限數(shù)目。由于被添加到累積距離(也就是累積相似性)以消除該不切實(shí)際的發(fā)音的預(yù)定值是一個正值,因此調(diào)整過的累積關(guān)鍵字距離比該未被調(diào)整的累積關(guān)鍵字距離具有更大的值。
在所有幀的關(guān)鍵字維特比計(jì)算處理(步驟54)完成以后,在隨后的語音識別處理(步驟55)中使用被輸出的累積距離進(jìn)行語音識別。
本實(shí)施例具有以下優(yōu)點(diǎn)。
如果超過了自轉(zhuǎn)移的門限數(shù)目,根據(jù)通過把預(yù)定值(正值)加到累積關(guān)鍵字距離而獲得的調(diào)整過的累積關(guān)鍵字距離來執(zhí)行維特比處理。這樣可以消除自轉(zhuǎn)移數(shù)目持續(xù)過長時間的情形。
由于持續(xù)時間控制需要很低的吞吐量,它可以被容易的集成到諸如導(dǎo)航系統(tǒng)這樣的資源受限的語音識別設(shè)備。
(第八實(shí)施例)下面參考
依照本發(fā)明第八實(shí)施例的字識別設(shè)備。
圖22是表示依照第八實(shí)施例的該字識別設(shè)備原理構(gòu)造的框圖。與以上實(shí)施例相同的部件使用同樣的參考數(shù)字標(biāo)記并且省略對它們的詳細(xì)說明。
本實(shí)施例和第七實(shí)施例的不同在于相似性使用似然性(概率)表示,而在第七實(shí)施例中使用距離表示相似性。其它與第七實(shí)施例相似。
如圖22所示,依照本實(shí)施例的該字識別設(shè)備包括作為關(guān)鍵字相似性計(jì)算裝置和關(guān)鍵字似然性計(jì)算裝置的關(guān)鍵字似然性計(jì)算器11、作為累積關(guān)鍵字相似性計(jì)算裝置和累積關(guān)鍵字似然性計(jì)算裝置的關(guān)鍵字維特比計(jì)算器32、作為持續(xù)時間控制裝置的持續(xù)時間控制器51以及關(guān)鍵字識別器17。
該持續(xù)時間控制器51由例如CPU組成。如果自轉(zhuǎn)移數(shù)目超過了自轉(zhuǎn)移的門限數(shù)目,該持續(xù)時間控制器51把通過加一個預(yù)定值到累積關(guān)鍵字似然性而得到的調(diào)整過的累積關(guān)鍵字似然性輸出到關(guān)鍵字維特比計(jì)算器32。
下面參考圖23說明具有以上構(gòu)造的字識別設(shè)備的操作概況。
圖23是表示依照第八實(shí)施例的該字識別設(shè)備操作概況的流程圖。與第七實(shí)施例中相同的部件使用相同的索引數(shù)字標(biāo)記并在此省略對它們的詳細(xì)描述。
如在第七實(shí)施例中那樣,在完成關(guān)鍵字模型生成處理(步驟52)以后就執(zhí)行關(guān)鍵字似然性計(jì)算處理(步驟63)。
關(guān)鍵字似然性計(jì)算器11對在輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性進(jìn)行計(jì)算并輸出。
具體來說,該關(guān)鍵字似然性計(jì)算器11通過比較步驟51中生成的該輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù),在逐幀的基礎(chǔ)上計(jì)算用距離表示的關(guān)鍵字相似性,并把結(jié)果作為給定狀態(tài)在每個時間點(diǎn)上的狀態(tài)距離P輸出到狀態(tài)似然性表。
在完成關(guān)鍵字似然計(jì)算處理(步驟63)后,就開始關(guān)鍵字維特比計(jì)算處理(步驟64)。
該關(guān)鍵字維特比計(jì)算器32根據(jù)在關(guān)鍵字距離計(jì)算處理(步驟63)中輸出的輸入語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的狀態(tài)似然性P,使用維特比算法方法計(jì)算累積關(guān)鍵字似然性。在第五實(shí)施例中,由于使用似然性表示相似性,似然性越高,相似性越高。因此在維特比算法方法中,在轉(zhuǎn)移到狀態(tài)i的兩個箭頭中選取具有比較高的累積似然性的箭頭。該關(guān)鍵字維特比計(jì)算器32把指示是否存在狀態(tài)轉(zhuǎn)移的狀態(tài)轉(zhuǎn)移信息與該時刻的累積關(guān)鍵字似然性一起以與幀變化同步的方式輸出到持續(xù)時間控制器51。
使用從關(guān)鍵字維特比計(jì)算器32輸出的狀態(tài)轉(zhuǎn)移信息I,持續(xù)時間控制器51判斷自轉(zhuǎn)移的數(shù)目是否超過了自轉(zhuǎn)移門限數(shù)目。如果超過了門限數(shù)目,該持續(xù)時間控制器51把通過把預(yù)定值加到累積關(guān)鍵字似然性而獲得的調(diào)整過的累積關(guān)鍵字似然性輸出到關(guān)鍵字維特比計(jì)算器32。
具體來說,該持續(xù)時間控制器51根據(jù)狀態(tài)轉(zhuǎn)移信息,觀測自轉(zhuǎn)移是否繼續(xù)。由于狀態(tài)轉(zhuǎn)移信息的輸出意味著發(fā)生了幀的變化,如果自轉(zhuǎn)移數(shù)目超過了自轉(zhuǎn)移門限數(shù)目,則該持續(xù)時間控制器52把調(diào)整過的累積關(guān)鍵字似然輸出到該關(guān)鍵字維特比計(jì)算器32。
當(dāng)在語音部分相同的聲音持續(xù)了一個不切實(shí)際長的時間時,會超過自轉(zhuǎn)移門限數(shù)目。由于被添加到累積似然性(也就是累積相似性)以消除該不切實(shí)際的發(fā)音的預(yù)定值是一個負(fù)值,因此調(diào)整過的累積關(guān)鍵字似然性比該未被調(diào)整的累積關(guān)鍵字似然性具有較小的值。
在所有幀的關(guān)鍵字維特比計(jì)算處理(步驟64)完成以后,在隨后的語音識別處理(步驟65)中使用被輸出的累積似然性進(jìn)行語音識別。
本實(shí)施例具有以下優(yōu)點(diǎn)。
如果超過了自轉(zhuǎn)移的門限數(shù)目,根據(jù)通過把預(yù)定值(負(fù)值)加到累積關(guān)鍵字似然性而獲得的調(diào)整過的累積關(guān)鍵字似然性執(zhí)行維特比處理。這樣可以消除自轉(zhuǎn)移數(shù)目持續(xù)過長時間的情形。
另外,第五實(shí)施例并不局限于以上的例子,還可以做以下修改。
所用的相似性可以是對數(shù)似然性。使用對數(shù)似然性使得可以使用加法和減法來計(jì)算累積似然性,這樣加速了計(jì)算處理。
另外,對第一到第八實(shí)施例可做以下修改。
在上述例子中使用維特比算法方法作為匹配方法,但是也可以選用DP匹配或者其它技術(shù)。換言之,可以用于根據(jù)本發(fā)明的語音識別中的模型不僅限于基于維特比的模型,并且還可以使用其它的模型,只要它們是按照表示關(guān)鍵字狀態(tài)還是外部語音狀態(tài)而劃分的。
盡管在以上例子中使用了歐幾里德距離,但是也可以選用馬哈朗諾比斯距離或者漢明距離。簡而言之,本發(fā)明中不僅可以使用歐幾里德距,而且還可以使用任何可用數(shù)值來表示相似性差異的參數(shù)。
在不脫離本發(fā)明的精神和基本特征的情況下,可以用其它特定形式實(shí)現(xiàn)本發(fā)明。因而本實(shí)施例的各方面僅用于示例而非限制本發(fā)明,因而,由所附權(quán)利要求而非前述描述所定義的本發(fā)明范圍以及在權(quán)利要求等價的內(nèi)涵和范圍內(nèi)的各種變化都包含在此的。
權(quán)利要求
1.一種字識別設(shè)備,其特征在于特性參數(shù)生成裝置(5),它從輸入發(fā)音中提取語音分段、把語音分段分割成幀并產(chǎn)生發(fā)音的特性參數(shù);聲學(xué)模型數(shù)據(jù)庫(6),它在子字級別上存儲語音的特性參數(shù);關(guān)鍵字模型生成裝置(8),它使用從關(guān)鍵字?jǐn)?shù)據(jù)庫(7)中輸出的關(guān)鍵字以及從該聲學(xué)模型數(shù)據(jù)庫(6)中輸出的特性參數(shù)的發(fā)聲數(shù)據(jù)來生成關(guān)鍵字模型;關(guān)鍵字相似性計(jì)算裝置(11,21),它計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字相似性;累積關(guān)鍵字相似性計(jì)算裝置(14,24,32,42),它計(jì)算該關(guān)鍵字模型的累積相似性。
2.依照權(quán)利要求1的該字識別設(shè)備,其特征在于該累積關(guān)鍵字相似性計(jì)算裝置(14,24,32,42)使用維特比算法方法計(jì)算該關(guān)鍵字模型的累積相似性。
3.依照權(quán)利要求2的該字識別設(shè)備,其特征進(jìn)一步在于外部語音模型生成裝置(10),它使用從外部語音數(shù)據(jù)庫(9)輸出的外部語音發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫(6)輸出的特性參數(shù)來生成外部語音模型;以及外部語音相似性計(jì)算裝置(12,22),它計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性。
4.依照權(quán)利要求3的該字識別設(shè)備,還包括限值設(shè)定裝置(13,23),其特征在于如果外部語音相似性超出了預(yù)設(shè)范圍,該限值設(shè)定裝置(13,23)把一個預(yù)設(shè)值作為外部語音相似性輸出。
5.依照權(quán)利要求4的該字識別設(shè)備,其特征在于該關(guān)鍵字相似性計(jì)算裝置(11)計(jì)算在語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字似然性;外部語音相似性計(jì)算裝置(12)計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音似然性;如果外部語音似然性小于預(yù)設(shè)值,則限值設(shè)定裝置(13)把預(yù)設(shè)值作為外部語音似然性輸出;以及該累積相似性計(jì)算裝置(14)計(jì)算關(guān)鍵字模型的累積似然性。
6.依照權(quán)利要求4的該字識別設(shè)備,其特征在于關(guān)鍵字相似性計(jì)算裝置(21)計(jì)算在該發(fā)音的特性參數(shù)和該關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;外部語音相似性計(jì)算裝置(22)計(jì)算在該發(fā)音的特性參數(shù)和該外部語音模型的特性參數(shù)之間的外部語音距離;如果外部語音距離大于預(yù)定值,則該限值設(shè)定裝置(23)輸出預(yù)設(shè)值作為外部語音距離;以及該累積相似性計(jì)算裝置(24)計(jì)算該關(guān)鍵字模型的累積距離。
7.依照權(quán)利要求2的該字識別設(shè)備,其特征在于累積關(guān)鍵字相似性計(jì)算裝置(32,42)輸出狀態(tài)轉(zhuǎn)移信息;以及該字識別設(shè)備還提供字長計(jì)算裝置(34,44),它根據(jù)從連續(xù)自轉(zhuǎn)移的數(shù)目中減去預(yù)設(shè)值而獲得的數(shù)字來處理字長,以及累積相似性歸一化裝置(35,45),它根據(jù)累積關(guān)鍵字相似性和字長對該發(fā)音的累積相似性進(jìn)行歸一化。
8.依照權(quán)利要求7的該字識別設(shè)備,還包括外部語音模型生成裝置(10),它使用從外部語音數(shù)據(jù)庫(9)中輸出的外部語音的發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫(6)輸出的特性參數(shù)來生成外部語音模型;以及外部語音相似性計(jì)算裝置(12,22),它計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性,累積外部語音相似性計(jì)算裝置(33,43),它計(jì)算該外部語音模型的累積相似性,其特征在于該累積相似性歸一化裝置(35,45)根據(jù)累積關(guān)鍵字相似性、累積外部語音相似性以及字長對發(fā)音的累積相似性進(jìn)行歸一化。
9.依照權(quán)利要求8的該字識別設(shè)備,其特征在于該累積相似性歸一化裝置(35,45)通過把該累積關(guān)鍵字相似性和累積外部語音相似性之間的差除以字長而完成對累積相似性的歸一化。
10.依照權(quán)利要求9的該字識別設(shè)備,其特征在于該關(guān)鍵字相似性計(jì)算裝置(21)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;該外部語音相似性計(jì)算裝置(22)計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音距離;該累積關(guān)鍵字相似性計(jì)算裝置(42)在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字距離;該累積外部語音相似性計(jì)算裝置(43)計(jì)算該外部語音模型的外部語音距離;如果連續(xù)自轉(zhuǎn)移的數(shù)目超過了預(yù)定值,則該字長計(jì)算裝置(44)直到并發(fā)生向不同狀態(tài)的轉(zhuǎn)移之前不會給字長增加任何東西;以及該累積相似性歸一化裝置(45)根據(jù)累積關(guān)鍵字距離、累積外部語音距離以及字長對發(fā)音的累積距離進(jìn)行歸一化。
11.依照權(quán)利要求9的該字識別設(shè)備,其特征在于該關(guān)鍵字相似性計(jì)算裝置(11)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;該外部語音相似性計(jì)算裝置(12)計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的似然性;該累積關(guān)鍵字相似性計(jì)算裝置(32)在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字似然性;該累積外部語音相似性計(jì)算裝置(33)計(jì)算該外部語音模型的累積外部語音似然性;如果連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)定值,則該字長計(jì)算裝置(34)直到發(fā)生向不同狀態(tài)的轉(zhuǎn)移時才向字長增加一個大于1的值;以及該累積相似性歸一化裝置(35)根據(jù)累積關(guān)鍵字似然性、累積外部語音似然性以及字長對發(fā)音的累積似然進(jìn)行歸一化。
12.依照權(quán)利要求2的該字識別設(shè)備,還包括持續(xù)時間控制裝置(52),其特征在于該累積關(guān)鍵字相似性計(jì)算裝置(42)輸出狀態(tài)轉(zhuǎn)移信息;以及如果連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值,則該持續(xù)時間控制裝置(52)給累積關(guān)鍵字相似性增加一個預(yù)定值。
13.依照權(quán)利要求12的該字識別設(shè)備,其特征在于該關(guān)鍵字相似性計(jì)算裝置(21)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;以及該累積關(guān)鍵字相似性計(jì)算裝置(42)計(jì)算累積關(guān)鍵字距離。
14.依照權(quán)利要求12的該字識別設(shè)備,其特征在于該關(guān)鍵字相似性計(jì)算裝置(11)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;以及該累積關(guān)鍵字相似性計(jì)算裝置(32)計(jì)算關(guān)鍵字似然性。
15.一種字識別方法,其特征在于特性參數(shù)生成處理,用于從輸入發(fā)音中提取語音分段,將它分割成幀并且生成該發(fā)音的特性參數(shù);關(guān)鍵字模型生成處理,用于使用從關(guān)鍵字?jǐn)?shù)據(jù)庫(7)中輸出的關(guān)鍵字發(fā)聲數(shù)據(jù)以及從聲學(xué)模型數(shù)據(jù)庫(6)輸出的特性參數(shù)來生成關(guān)鍵字模型,該數(shù)據(jù)庫(6)中在子字級別上存儲語音的特性參數(shù);關(guān)鍵字相似性計(jì)算處理,用于計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字相似性;以及累積關(guān)鍵字相似性計(jì)算處理,用于計(jì)算該關(guān)鍵字模型的累積相似性。
16.依照權(quán)利要求15的該字識別方法,其特征在于在累積關(guān)鍵字相似性計(jì)算處理中使用維特比算法方法計(jì)算累積相似性。
17.依照權(quán)利要求16的該字識別方法,其特征還在于外部語音模型生成處理,它使用從外部語音數(shù)據(jù)庫(9)輸出的外部語音發(fā)聲數(shù)據(jù)以及從該聲學(xué)模型數(shù)據(jù)庫(6)中輸出的特性參數(shù)來生成外部語音模型;以及外部語音相似性計(jì)算處理,它計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性。
18.依照權(quán)利要求17的該字識別方法,還包括一個限值設(shè)定處理,其特征在于如果外部語音相似性超出了預(yù)設(shè)范圍,在限值設(shè)定處理中輸出預(yù)設(shè)值作為外部語音相似性。
19.依照權(quán)利要求18的該字識別方法,其特征在于在關(guān)鍵字相似性計(jì)算處理中,計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字似然性;在外部語音相似性計(jì)算處理中,計(jì)算在發(fā)音的特性參數(shù)和外部語音的特性參數(shù)之間的外部語音似然性;如果外部語音似然性小于預(yù)設(shè)值,在限值設(shè)定處理中輸出該預(yù)設(shè)值作為外部語音似然性;以及在累積相似性計(jì)算處理中計(jì)算該關(guān)鍵字模型的累積似然性。
20.依照權(quán)利要求18的該字識別方法,其特征在于在關(guān)鍵字相似性計(jì)算處理中計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;由外部語音相似性計(jì)算處理計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音距離;如果外部語音距離大于預(yù)設(shè)值,在限值設(shè)定處理中,把該預(yù)設(shè)值作為外部語音距離輸出;以及在累積相似性計(jì)算處理中計(jì)算該關(guān)鍵字模型的累積距離。
21.依照權(quán)利要求16中的該字識別方法,其特征在于在累積關(guān)鍵字相似性計(jì)算處理中輸出狀態(tài)轉(zhuǎn)移信息;以及該字識別方法還包括字長計(jì)算處理,它根據(jù)通過從連續(xù)自轉(zhuǎn)移的數(shù)目中減去預(yù)設(shè)值而獲得的數(shù)字來處理字長,以及累積相似性歸一化處理,它根據(jù)累積關(guān)鍵字相似性和字長對發(fā)音的累積相似性進(jìn)行歸一化。
22.依照權(quán)利要求21的該字識別方法,還包括外部語音模型生成處理,它使用從外部語音數(shù)據(jù)庫(9)中輸出的外部語音發(fā)聲數(shù)據(jù)以及從聲學(xué)模型數(shù)據(jù)庫(6)中輸出的特性參數(shù)來生成外部語音模型;以及外部語音相似性計(jì)算處理,它計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性,累積外部語音相似性計(jì)算處理,它計(jì)算外部語音模型的累積相似性,其特征在于,在累積相似性歸一化處理中根據(jù)累積關(guān)鍵字相似性、累積外部語音相似性以及字長對發(fā)音的累積相似性進(jìn)行歸一化。
23.依照權(quán)利要求22的該字識別方法,其特征在于,在該累積相似性歸一化處理中通過把累積關(guān)鍵字相似性和累積外部語音相似性之間的差值除以字長來完成對累積相似性的歸一化處理。
24.依照權(quán)利要求23的該字識別方法,其特征在于在關(guān)鍵字相似性計(jì)算處理中,計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;在外部語音相似性計(jì)算處理中,計(jì)算在發(fā)音特性參數(shù)和外部語音特性參數(shù)之間的外部語音距離;在累積關(guān)鍵字相似性計(jì)算處理中,在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字距離;在累積外部語音相似性計(jì)算處理中,計(jì)算外部語音模型的累積外部語音距離;在字長計(jì)算處理中,如果連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)設(shè)值,則直到發(fā)生向不同狀態(tài)的轉(zhuǎn)移之前不向字長增加任何東西;以及在累積相似性歸一化處理中,根據(jù)累積關(guān)鍵字距離、累積外部語音距離和字長對累積距離進(jìn)行歸一化。
25.依照權(quán)利要求23的該字識別方法,其特征在于在關(guān)鍵字相似性計(jì)算處理中,計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;在外部語音相似性計(jì)算處理中,計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的似然性;在累積關(guān)鍵字相似性計(jì)算處理中,在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字似然性;在累積外部語音相似性計(jì)算處理中,計(jì)算外部語音模型的累積外部語音似然性;在字長計(jì)算處理中,如果連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)定值,則直到發(fā)生向不同狀態(tài)的轉(zhuǎn)移時才向字長增加一個大于1的值;以及在累積相似性歸一化處理中,根據(jù)累積關(guān)鍵字似然性、累積外部語音似然性以及字長對該發(fā)音的累積似然性進(jìn)行歸一化處理。
26.依照權(quán)利要求16的該字識別方法,還包括持續(xù)時間控制處理,其特征在于在累積關(guān)鍵字相似性計(jì)算處理中,輸出狀態(tài)轉(zhuǎn)移信息;以及在持續(xù)時間控制處理中,如果連續(xù)的自轉(zhuǎn)移數(shù)目超過預(yù)定值,則對累積關(guān)鍵字相似性增加一個預(yù)定值。
27.依照權(quán)利要求26的該字識別方法,其特征在于在關(guān)鍵字相似性計(jì)算處理中,計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;以及在累積關(guān)鍵字相似性計(jì)算處理中,計(jì)算累積關(guān)鍵字距離。
28.依照權(quán)利要求26的該字識別方法,其特征在于在關(guān)鍵字相似性計(jì)算處理中,計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;以及在累積關(guān)鍵字相似性計(jì)算處理中,計(jì)算累積關(guān)鍵字似然性。
29.運(yùn)行在被包括在字識別設(shè)備中的計(jì)算機(jī)上的字識別程序,其特征在于該字識別程序使計(jì)算機(jī)具有以下功能特性參數(shù)生成裝置(5),它從輸入的發(fā)音中提取語音分段、把語音分段分割成幀并生成該發(fā)音的特性參數(shù);聲學(xué)模型數(shù)據(jù)庫(6),它在子字級別上存儲語音的特性參數(shù);關(guān)鍵字模型生成裝置(8),它使用從關(guān)鍵字?jǐn)?shù)據(jù)庫(7)輸出的關(guān)鍵字發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫(6)輸出的特性參數(shù)來生成關(guān)鍵字模型;關(guān)鍵字相似性計(jì)算裝置(11,12),它計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字相似性;以及累積關(guān)鍵字相似性計(jì)算裝置(14,24,32,42),它計(jì)算該關(guān)鍵字模型的累積相似性。
30.依照權(quán)利要求29的該字識別程序,特征在于該累積關(guān)鍵字相似性計(jì)算裝置(14,24,32,42)使用維特比算法方法計(jì)算該關(guān)鍵字模型的累積相似性。
31.依照權(quán)利要求30的該字識別程序,其特征在于該字識別程序使計(jì)算機(jī)還具有以下功能外部語音模型生成裝置(10),它使用從外部語音數(shù)據(jù)庫(9)輸出的外部語音發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫(6)輸出的特性參數(shù)來生成外部語音模型;以及外部語音相似性計(jì)算裝置(12,22),它計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性。
32.依照權(quán)利要求31的該字識別程序,該字識別程序使該計(jì)算機(jī)還具有作為限值設(shè)定裝置(13,23)的功能,其特征在于如果外部語音相似性超出了預(yù)設(shè)范圍,該限值設(shè)定裝置(13,23)把預(yù)設(shè)值作為外部語音相似性輸出。
33.依照權(quán)利要求32的該字識別程序,其特征在于該關(guān)鍵字相似性計(jì)算裝置(11)計(jì)算在語音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字似然性;該外部語音相似性計(jì)算裝置(12)計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音似然性;如果外部語音似然性小于預(yù)設(shè)值,則該限值設(shè)定裝置(13)把預(yù)設(shè)值作為外部語音似然性輸出;以及該累積相似性計(jì)算裝置(14)計(jì)算關(guān)鍵字模型的累積似然。
34.依照權(quán)利要求32的該字識別程序,其特征在于該關(guān)鍵字相似性計(jì)算裝置(21)計(jì)算在該發(fā)音的特性參數(shù)和該關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;該字識別程序使計(jì)算機(jī)具有作為外部語音相似性計(jì)算裝置(22)的功能,該裝置用于計(jì)算在該發(fā)音的特性參數(shù)和該外部語音模型的特性參數(shù)之間的外部語音距離;如果外部語音距離大于預(yù)定值,則該限值設(shè)定裝置(23)輸出預(yù)設(shè)值作為外部語音距離;以及該累積相似性計(jì)算裝置(24)計(jì)算該關(guān)鍵字模型的累積距離。
35.依照權(quán)利要求30的該字識別程序,其特征在于該累積關(guān)鍵字相似性計(jì)算裝置(32,42)輸出狀態(tài)轉(zhuǎn)移信息;以及該字識別程序還使計(jì)算機(jī)具有以下功能字長計(jì)算裝置(34,44)它根據(jù)從連續(xù)的自轉(zhuǎn)移數(shù)目中減去預(yù)設(shè)值而獲得的數(shù)目來處理字長,以及累積相似性歸一化裝置(35,45),它根據(jù)累積關(guān)鍵字相似性和字長對該發(fā)音的累積相似性進(jìn)行歸一化。
36.依照權(quán)利要求35的該字識別程序,其中該字識別程序使該計(jì)算機(jī)具有以下功能外部語音生成裝置(10),它使用從外部語音數(shù)據(jù)庫(9)中輸出的外部語音的發(fā)聲數(shù)據(jù)和從聲學(xué)模型數(shù)據(jù)庫輸出的特性參數(shù)生成外部語音模型;以及外部語音相似性計(jì)算裝置(12,22),它計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音相似性,累積外部語音相似性計(jì)算裝置(33,43),它計(jì)算該外部語音模型的累積相似性,其特征在于,該累積相似性歸一化裝置(35,45)根據(jù)累積關(guān)鍵字相似性、累積外部語音相似性以及字長對該發(fā)音的累積相似性進(jìn)行歸一化。
37.依照權(quán)利要求36的該字識別程序,其特征在于,該累積相似性歸一化裝置(35,45)通過把該累積關(guān)鍵字相似性和累積外部語音相似性之間的差除以字長來完成對累積相似性的歸一化。
38.依照權(quán)利要求37的該字識別程序,其特征在于該關(guān)鍵字相似性計(jì)算裝置(21)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;該外部語音相似性計(jì)算裝置(22)計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的外部語音距離;該累積關(guān)鍵字相似性計(jì)算裝置(42)在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字距離;該累積外部語音相似性計(jì)算裝置(43)計(jì)算該外部語音模型的外部語音距離;如果連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)定值,則該字長計(jì)算裝置(44)直到發(fā)生向不同狀態(tài)的轉(zhuǎn)移之前不會給字長增加任何東西;以及該累積相似性歸一化裝置(45)根據(jù)累積關(guān)鍵字距離、累積外部語音距離以及字長對發(fā)音的累積距離進(jìn)行歸一化。
39.依照權(quán)利要求37的該字識別程序,其特征在于該關(guān)鍵字相似性計(jì)算裝置(11)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;該外部語音相似性計(jì)算裝置(12)計(jì)算在發(fā)音的特性參數(shù)和外部語音模型的特性參數(shù)之間的似然性;該累積關(guān)鍵字相似性計(jì)算裝置(32)在輸出狀態(tài)轉(zhuǎn)移信息的同時計(jì)算累積關(guān)鍵字似然性;該累積外部語音相似性計(jì)算裝置(33)計(jì)算該外部語音模型的累積外部語音似然性;如果連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)定值,則該字長計(jì)算裝置(34)直到發(fā)生向不同狀態(tài)的轉(zhuǎn)移時才向字長增加一個大于1的值;以及該累積相似性歸一化裝置(35)根據(jù)累積關(guān)鍵字似然性、累積外部語音似然性以及字長對發(fā)音的累積似然性進(jìn)行歸一化。
40.依照權(quán)利要求30的該字識別程序,該字識別程序使計(jì)算機(jī)進(jìn)一步具有作為持續(xù)時間控制裝置(52)的功能,其特征在于該累積關(guān)鍵字相似性計(jì)算裝置(42)輸出狀態(tài)轉(zhuǎn)移信息;以及如果連續(xù)自轉(zhuǎn)移的數(shù)目超過預(yù)設(shè)值,則該持續(xù)時間控制裝置(52)給累積關(guān)鍵字相似性增加一個預(yù)定值。
41.依照權(quán)利要求40的該字識別程序,其特征在于該關(guān)鍵字相似性計(jì)算裝置(21)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字距離;以及該累積關(guān)鍵字相似性計(jì)算裝置(42)計(jì)算累積關(guān)鍵字距離。
42.依照權(quán)利要求40的該字識別程序,其特征在于該關(guān)鍵字相似性計(jì)算裝置(11)計(jì)算在發(fā)音的特性參數(shù)和關(guān)鍵字模型的特性參數(shù)之間的似然性;以及該累積關(guān)鍵字相似性計(jì)算裝置(32)計(jì)算累積關(guān)鍵字似然性。
全文摘要
該字識別設(shè)備配有一個特性參數(shù)生成器(5),它從輸入發(fā)音中提取語音分段、把分段分割成幀以及生成該發(fā)音的特性參數(shù);一個聲學(xué)模型存儲器(6),它在子字級別上存儲語音的特性參數(shù);關(guān)鍵字模型生成器(8),它使用從關(guān)鍵字存儲器(7)中輸出的關(guān)鍵字的發(fā)聲數(shù)據(jù)和從該聲學(xué)模型存儲器(6)輸出的特性參數(shù),生成關(guān)鍵字模型;一個關(guān)鍵字似然性計(jì)算器(11,21),它計(jì)算在該發(fā)音的特性參數(shù)和該關(guān)鍵字模型的特性參數(shù)之間的關(guān)鍵字相似性;以及一個維特比處理器(14,24,32,42),它計(jì)算該關(guān)鍵字模型的累積相似性。
文檔編號G10L15/14GK1471078SQ0314530
公開日2004年1月28日 申請日期2003年7月3日 優(yōu)先權(quán)日2002年7月3日
發(fā)明者小林載 申請人:日本先鋒公司