專利名稱:話音識別拒絕方法
技術領域:
本發(fā)明一般涉及通信領域,尤其涉及話音(voice)識別系統(tǒng)。
背景技術:
話音識別(VR)代表賦予機器模擬智能以識別用戶命令或用戶有聲命令并有助于人們與機器聯(lián)系的最重要的技術之一。VR還代表理解人們語音(speech)的關鍵技術。應用根據(jù)聲學語音信號而恢復語言消息的技術的系統(tǒng)稱為話音識別器。話音識別器一般包括聲學處理器與字解碼器,前者提取實現(xiàn)輸入原始語音的VR所必需的信息承載(bearing)特征或矢量序列,后者對此特征或矢量序列作解碼以產(chǎn)生與輸入發(fā)音(utterance)相對應的有意義且想要的輸出格式,諸如一語言文字序列。為提高某一給定系統(tǒng)的性能,需要訓練該系統(tǒng)具備諸有效參數(shù)。換言之,系統(tǒng)在能最佳地工作之前需要進行學習。
聲學處理器代表話音識別器中的前端語音分析子系統(tǒng)。響應于輸入語音信號,聲學處理器表征隨時間變化的語音信號的適當表示。聲學處理器應丟棄無關的信息,如背景噪聲、信道失真、講話者特征和說話方式等。有效的聲學處理法向話音識別器提供增強的聲學鑒別能力。為此,要分析的有用特性就是短時譜包絡。表征短時譜包絡的兩種常用譜分析技術是線性預測編碼(LPC)與基于濾波器組(filterbank)的譜建模。在轉(zhuǎn)讓給本發(fā)明受讓人的5,414,796號美國專利(這里引用其全部內(nèi)容作為參考)以及L.B.Rabiner與R.W.Schafer所著的“語音信號的數(shù)字處理(Digital Processing of Speech Signals)”(396-453(1978))(這里也引用其全部內(nèi)容作為參考)中,都描述了示例的LPC技術。
由于安全性,VR(常稱作語音識別)的應用變得越發(fā)重要。例如,VR可以用來代替人工按壓無線電話鍵板上的按鈕。這在用戶駕駛車輛的同時啟動電話呼叫時尤其重要。在使用無VR的電話時,駕駛者必須從方向盤上騰出一只手,看著電話鍵板,同時按下按鈕撥號呼叫。這些動作易發(fā)生車禍。語音使能電話(即為語音識別所設計的電話)能讓駕駛者一面安排電話呼叫,一面繼續(xù)觀察路面。一種免提的車輛配套系統(tǒng)還能讓駕駛者在啟動呼叫時仍可保持將雙手放在方向盤上。
語音識別裝置分成講話者相關裝置或講話者無關裝置。講話者無關裝置能接受來自任何用戶的話音命令。講話者相關裝置更常用,它被訓練成識別來自特定用戶的命令。講話者相關VR裝置通常工作于兩個階段,即訓練階段與識別階段。在訓練階段中,VR系統(tǒng)提醒用戶把系統(tǒng)詞匯中的每個單詞講一二遍,讓系統(tǒng)能認識用戶對這些特定單詞或短語的語音特征。或者,對于語音VR裝置,通過讀出專門編寫的一篇或多篇短文從而覆蓋這種語言中的全部音素來實現(xiàn)訓練。免提車輛配套系統(tǒng)的一種示例詞匯表可以包括鍵板上的數(shù)字;關鍵詞“call(通話)”、“send(發(fā)送)”、“dial(撥號)”、“cancel(取消)”、“clear(清除)”、“add(添加)”、“delete(刪除)”、“history(歷史)”、“program(編程)”、“yes(是)”與“no(否)”;以及預定數(shù)目的經(jīng)常通話的同事、朋友或家人的名字。訓練一旦完成,用戶說出訓練過的關鍵詞就能在識別階段啟動呼叫。例如,如果名字“John”是訓練過的名字之一,則用戶說出短語“Call John(呼叫 John)”就能啟動對John的呼叫。VR系統(tǒng)將識別單詞“Call”和“John”,并撥出用戶先前作為John的電話號碼所輸入的號碼。
VR系統(tǒng)的通過量可以定義為用戶成功通過識別任務的實例的百分數(shù)。一項識別任務通常包括多個步驟。例如,在用無線電話進行話音撥號時,通過量指用戶以VR系統(tǒng)成功地完成電話呼叫的次數(shù)的平百分數(shù)。以VR實現(xiàn)成功電話呼叫所需的步驟數(shù)依據(jù)各次呼叫而變化。一般而言,VR系統(tǒng)的通過量主要取決于兩個因素,即VR系統(tǒng)的識別精度與人機接口。用戶主觀感受到的VR系統(tǒng)性能以通過量為基礎。因此,為提高通過量,要求VR系統(tǒng)具有高的識別精度和智能型人機接口。
發(fā)明內(nèi)容
本發(fā)明旨在一種具有高識別精度和智能型人機接口以提高通過量的VR系統(tǒng)。因此,在本發(fā)明的一個方面中,在話音識別系統(tǒng)中俘獲發(fā)音的方法最好包括以下步驟如果在此發(fā)音同所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同該發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系,則接受該發(fā)音;如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系,則對該發(fā)音應用N-best(N-最佳)算法;如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果的所述至少一個差值之間存在第三預定關系,則拒絕該發(fā)音。
在本發(fā)明的第二方面中,話音識別系統(tǒng)最好包括配置成從一發(fā)音的數(shù)字化語音樣本中提取語音參數(shù)的聲學處理器;以及與該聲學處理器耦合的處理器,該處理器配置成(1)如果在該發(fā)音與所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同該發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系,則接受該發(fā)音,(2)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系,則對該發(fā)音應用N-best算法,或者(3)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果的所述至少一個差值之間存在第三預定關系,則拒絕該發(fā)音。
在本發(fā)明的再一個方面中,話音識別系統(tǒng)最好包括如果在該發(fā)音與所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同該發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系,則接受該發(fā)音的裝置;如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系,則對該發(fā)音應用N-best算法的裝置;以及如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果的所述至少一個差值之間存在第三預定關系,則拒絕該發(fā)音的裝置。
在本發(fā)明的還有一個方面中,話音識別系統(tǒng)最好包括從一發(fā)音的數(shù)字化語音樣本中提取語音參數(shù)的裝置;以及一裝置,用于(1)如果在該發(fā)音與所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同該發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系,則接受該發(fā)音,(2)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系,則對該發(fā)音應用N-best算法,或者(3)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果的所述至少一個差值之間存在第三預定關系,則拒絕該發(fā)音。
附圖概述
圖1是話音識別系統(tǒng)的框圖。
圖2是VR系統(tǒng)拒絕方案的記分(score)對記分變化的曲線,示出了拒絕、N-best和接受區(qū)域。
較佳實施例的詳細描述根據(jù)圖1所示的一個實施例,話音識別系統(tǒng)10包括模擬-數(shù)字轉(zhuǎn)換器(A/D)12、聲學處理器14、VR模板數(shù)據(jù)庫16、模式比較邏輯18與判斷邏輯20。VR系統(tǒng)10可以駐留在例如無線電話或免提車輛配套系統(tǒng)中。
在VR系統(tǒng)10處于語音識別階段時,某人(未圖示)說出某個單詞或短語,產(chǎn)生一語音信號。該語音信號由常規(guī)換能器(也未圖示)轉(zhuǎn)換成語音電信號s(t)并提供給A/D 12,A/D 12按公知的采樣方法(如脈沖編碼調(diào)制(PCM))將該語音信號s(t)轉(zhuǎn)換成數(shù)字化的語音樣本s(n)。
將語音樣本s(n)供給聲學處理器14作參數(shù)確定。聲學處理器14產(chǎn)生一組提取的參數(shù),以對輸入語音信號s(t)的特征進行建模。可根據(jù)許多公知的語音參數(shù)確定技術中的任一種確定這些參數(shù),這些技術包括例如上述5,414,796號美國專利中所述,進行編碼并應用基于快速富利葉變換(FFT)的倒譜系數(shù)的語音編碼器。聲學處理器14可實現(xiàn)為數(shù)字信號處理器(DSP)。DSP可包括語音編碼器?;蛘?,可把聲學處理器14實現(xiàn)為語音編碼器。
也可在VR系統(tǒng)10的訓練期間進行參數(shù)確定,其中把VR系統(tǒng)10的所有詞匯表單詞的一組模板按路由傳給VR模板數(shù)據(jù)庫16以永久地存儲在其中??梢杂欣匕裋R模板數(shù)據(jù)庫16實現(xiàn)為任何常規(guī)形式的非易失性存儲媒體,諸如快閃存儲器。這使得在斷開VR系統(tǒng)10的的電源時,讓模板保持在VR模板數(shù)據(jù)庫16中。
將該組參數(shù)提供給模式比較邏輯18。模式比較邏輯18有利地檢測一發(fā)音的起點與終點,計算動態(tài)聲學特征(諸如,時間導數(shù)、二階時間導數(shù)等),通過選擇相關幀而壓縮聲學特征,并且對靜態(tài)與動態(tài)聲學特征進行量化。如在Lawrence Rabiner與Biing-Hwang Juang著的“語音識別基礎(Fundamentals of SpeechRecognition)”(1993)中,對終點檢測、動態(tài)聲學特征求導、模式壓縮與模式量化的各種公知方法作了描述,這里引用其全部內(nèi)容作為參考。
模式比較邏輯18將該組參數(shù)與存儲在VR模板數(shù)據(jù)庫16中的所有模板作比較。把比較結(jié)果或該組參數(shù)與存儲在VR模板數(shù)據(jù)庫16中的所有模板之間的距離提供給判斷邏輯20。判斷邏輯20可以(1)從VR模板數(shù)據(jù)庫16中選出與該組參數(shù)最緊密匹配的模板,或可以(2)應用“N-best”選擇算法,該算法在預定匹配閾值內(nèi)選擇N個最緊密的匹配;或可以(3)拒絕該組參數(shù)。若使用N-best算法,則詢問此人想要哪一種選擇。判斷邏輯20的輸出是對已說過詞匯表中的哪一個單詞的判斷。例如,在N-best的情況下,此人可能說“John Anders”,而VR系統(tǒng)10可能回答“Did you say John Andrews(你說了John Anders是嗎)?”。然后,此人再答“John Anders”。接著,VR系統(tǒng)10可能再答“Did you say John Anders(你說了John Auders是嗎)?”。此人再答“Yes(是)”,此時VR系統(tǒng)10就啟動一電話呼叫的撥號。
可以有利地把模式比較邏輯18與判斷邏輯20實現(xiàn)為微處理器?;蛘撸砂涯J奖容^邏輯18與判斷邏輯20實現(xiàn)為任何常規(guī)形式的處理器、控制器或狀態(tài)機。VR系統(tǒng)10可以是例如專用集成電路(ASIC)。VR系統(tǒng)10的識別精度可以是VR系統(tǒng)10能多好地正確識別說出的詞匯表中的單詞或短語的量度。例如,95%的識別精度表明,VR系統(tǒng)10在100次中有95次正確地識別出詞匯表中的單詞。
在一實施例中,如圖2所示,將記分與記分變化曲線分成接受、N-Best與拒絕諸區(qū)域。這些區(qū)域按公知的線性鑒別分析技術用線來分離,這些技術在RichardO.Duda與Peter E.Hart著的“模式分類與情景分析(Pattern Classification andScene Analysis)”(1973)中有描述,這里引用其全部內(nèi)容作為參考。如上所述,模式比較邏輯18給至VR系統(tǒng)10的每個發(fā)音輸入分配對應于存儲在VR模板數(shù)據(jù)庫16中的每一模板的比較結(jié)果或與其的距離。這些距離或“記分”有利的是在多個幀上相加的N維矢量空間中矢量之間的Euclidean距離。在一實施例中,矢量空間是一二十四維矢量空間,在二十個幀上累積記分,而且該記分是一整數(shù)距離。本領域的技術人員應該理解,完全可把記分表示為小數(shù)或其它值。本領域內(nèi)的技術人員還應理解,可用其他度量來替代Euclidean距離,因而記分可以是例如概率量度、似然性量度等。
對于一給定的發(fā)音與一來自VR模板數(shù)據(jù)庫16的給定VR模板,記分越低(即發(fā)音與VR模板之間的距離越小),則發(fā)音與VR模板之間的匹配越緊密。對于每個發(fā)音,判斷邏輯20相對于該記分同有關VR模板數(shù)據(jù)庫16中第二最緊密匹配的記分(即第二最低記分)之間的差值分析有關VR模板數(shù)據(jù)庫16中最緊密匹配的記分。如圖2的曲線所示,“記分”是針對“記分變化”繪制的,且限定了三個區(qū)域。拒絕區(qū)代表記分相對高且該記分與下一最低記分之差相對小的區(qū)域。如果一發(fā)音落在拒絕區(qū)內(nèi),則判斷邏輯20就拒絕該發(fā)音。接受區(qū)代表記分相對低且該記分與下一最低記分之差相對大的區(qū)域。如果一發(fā)音落在接受區(qū)內(nèi),則判斷邏輯20就接受該發(fā)音。N-best區(qū)位于拒絕區(qū)與接收區(qū)之間。N-best區(qū)代表記分小于拒絕區(qū)的記分或該記分與下一最低記分之差大于拒絕區(qū)中的記分差值的區(qū)域。N-best區(qū)也代表記分大于接受區(qū)中的記分或者該記分與下一最低記分之差小于接受區(qū)中的記分差值的區(qū)域,只要N-best區(qū)中該記分的差值大于一預定的記分變化閾值。如上所述,如果一發(fā)音落在N-best區(qū)內(nèi),則判斷邏輯20就對該發(fā)音應用N-best算法。
在參考圖2描述的實施例中,第一線段將拒絕區(qū)與N-best區(qū)分離。第一線段與“記分”軸在預定記分閾值處相交。第一線段的斜率也是預定的。第二線段將N-best區(qū)與接受區(qū)分離。第二線段的斜率預定為與第一線段的斜率相同,因而第一與第二線段平行。第三線段從“記分變化”軸上的一個預定變化閾值開始垂直延伸,與第二線段的終點相遇。本領域的技術人員可理解,第一與第二線段不一定要平行,可以有任意分配的斜率。另外不一定使用第三線段。
在一實施例中,記分閾值是375,變化閾值為28,若第二線段的終點延伸,則第二線段應在值250處與“記分”軸相交,因而第一與第二線段的斜率都為1。如果記分值大于記分變化值加375,則該發(fā)音被拒絕。反之,如果記分值大于記分變化值加250或該記分變化值小于28,則對發(fā)音應用N-best算法。否則,接受該發(fā)音。
在參照圖2描述的實施例中,線性鑒別分析應用了兩個量綱。量綱“記分”代表一給定的發(fā)音與從多個帶通濾波器(未圖示)的輸出中導出的一給定VR模板之間的距離。量綱“記分變化”代表最低記分(即最緊密匹配的記分)與下一最低記分(即下一最緊密匹配發(fā)音的記分)之差。在另一實施例中,量綱“記分”代表一給定發(fā)音與從該發(fā)音的倒譜系數(shù)中導出的一給定VR模板之間的距離。在另一實施例中,量綱“記分”代表一給定發(fā)音與從該發(fā)音的線性預測編碼(LPC)系數(shù)中導出的一給定VR模板之間的距離。從在上述5,414,796號美國專利中描述了導出一發(fā)音的LPC系數(shù)與倒譜系數(shù)的技術。
在其他實施例中,線性鑒別分析不限于二個量綱。相應地,相互對應地分析基于帶通濾波器輸出的第一記分、基于倒譜系數(shù)的第二記分和記分變化。或者,相互對應地分析基于帶通濾波器輸出的第一記分、基于倒譜系數(shù)的第二記分、基于LPC系數(shù)的第三記分和記分變化。本領域的技術人員很容易理解,量綱“記分”不必限于任何特定數(shù)。本領域內(nèi)的技術人員容易理解,記分量綱的數(shù)目不僅僅由VR系統(tǒng)詞匯表中的單詞數(shù)來限定。本領域內(nèi)的技術人員還應理解,所采用的記分的類型不必局限于任何特定的記分類型,而可包括本領域公知的任何記分方法。另外,本領域的技術人員也容易理解,“記分變化”的量綱數(shù)不必局限于一或任何特定數(shù)目。例如,在一實施例中,相對于最緊密匹配同下一最緊密匹配之間的記分變化來分析記分,相對于最緊密匹配同第三最緊密匹配之間的記分變化來分析記分。本領域內(nèi)的技術人員很容易理解,記分變化量綱的數(shù)目不僅僅由VR系統(tǒng)詞匯表中的單詞數(shù)目來限定。
這樣,已描述了一種以線性鑒別分析為基礎的新型改進話音識別拒絕方案。本領域的技術人員應該理解,可用數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、分立的門或晶體管邏輯、分立的硬件元件(諸如寄存器與FIFO)、執(zhí)行一組固件指令的處理器或任何常規(guī)可編程軟件模塊與處理器來實施或執(zhí)行結(jié)合這里所揭示的實施例描述的各種示例的邏塊組件與算法步驟。處理器最好是微處理器,但在另一替代方式中,處理器可以是任何常規(guī)的處理器、控制器、微控制器或狀態(tài)機。軟件模塊可駐留在RAM存儲器、快閃存儲器、寄存器或本領域中公知的任何其它形式的可寫存儲媒體中。技術人員還應理解,用電壓、電流、電磁波、磁場或粒子、光場或粒子或其任意組合來表示以上描述中可參照的數(shù)據(jù)、指令、命令、信息、信號、位、碼元和碼片。
已經(jīng)示出和描述了本發(fā)明的較佳實施例。然而,本領域的技術人員將明白,可對這里揭示的諸實施例作出各種替換而不違背本發(fā)明的精神或范圍,因而本發(fā)明只限于下述的權利要求書。
權利要求
1.一種在話音識別系統(tǒng)中捕獲發(fā)音的方法,包括以下步驟如果在所述發(fā)音與所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系,則接受該發(fā)音;如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系,則對所述發(fā)音應用N-best算法;以及如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的差值之間存在第三預定關系,則拒絕所述發(fā)音。
2.如權利要求1所述的方法,其特征在于所述至少一個比較結(jié)果包括多個比較結(jié)果,至少一個其他比較結(jié)果包括多個其它比較結(jié)果。
3.如權利要求1所述的方法,其特征在于所述至少一個差值包括多個差值。
4.如權利要求1所述的方法,其特征在于所存儲的單詞包括話音識別系統(tǒng)的詞匯表中的最佳候選單詞,而所存儲的至少一個其他單詞包括話音識別系統(tǒng)的詞匯表中的下一最佳候選單詞。
5.如權利要求1所述的方法,其特征在于所述至少一個比較結(jié)果包括至少一個最接近的比較結(jié)果,所述至少一個其他比較結(jié)果包括至少一個下一最接近的比較結(jié)果。
6.如權利要求1所述的方法,其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括線性預測編碼系數(shù)。
7.如權利要求1所述的方法,其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括倒譜系數(shù)。
8.如權利要求1所述的方法,其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括帶通濾波器輸出。
9.如權利要求1所述的方法,其特征在于第一、第二與第三預定關系為線性關系。
10.如權利要求1所述的方法,其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之差。
11.如權利要求1所述的方法,其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之間的第一差值以及最接近的比較結(jié)果與第三最接近的比較結(jié)果之間的第二差值。
12.一種話音識別系統(tǒng),其特征在于包括聲學處理器,配置成從一發(fā)音的數(shù)字化語音樣本中提取語音參數(shù);以及耦合到所述聲學處理器的處理器,該處理器配置成(1)如果在該發(fā)音與所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同該發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系,則接受該發(fā)音,(2)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系,則對該發(fā)音應用N-best算法,或者(3)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果的所述至少一個差值之間存在第三預定關系,則拒絕該發(fā)音。
13.如權利要求12所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果包括多個比較結(jié)果,所述至少一個其他比較結(jié)果包括多個其它比較結(jié)果。
14.如權利要求12所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括多個差值。
15.如權利要求12所述的話音識別系統(tǒng),其特征在于所述存儲的單詞包括一話音識別系統(tǒng)的詞匯表中的最佳候選單詞,所述存儲的至少一個其他單詞包括話音識別系統(tǒng)的詞匯表中的下一最佳候選單詞。
16.如權利要求12所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果包括至少一個最接近的比較結(jié)果,所述至少一個其他比較結(jié)果包括至少一個下一最接近的比較結(jié)果。
17.如權利要求12所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括線性預測編碼系數(shù)。
18.如權利要求12所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括倒譜系數(shù)。
19.如權利要求12所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括帶通濾波器輸出。
20.如權利要求12所述的話音識別系統(tǒng),其特征在于所述第一、第二與第三預定關系為線性關系。
21.如權利要求12所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之差。
22.如權利要求1所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之間的第一差值以及最接近的比較結(jié)果與第三最接近的比較結(jié)果之間的第二差值。
23.一種話音識別系統(tǒng),其特征在于包括一裝置,用于在該發(fā)音與所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同該發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系時接受該發(fā)音;一裝置,用于在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系時對該發(fā)音應用N-best算法;以及一裝置,用于在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果的所述至少一個差值之間存在第三預定關系時拒絕所述發(fā)音。
24.如權利要求23所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果包括多個比較結(jié)果,所述至少一個其他比較結(jié)果包括多個其它比較結(jié)果。
25.如權利要求23所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括多個差值。
26.如權利要求23所述的話音識別系統(tǒng),其特征在于所述存儲的單詞包括一話音識別系統(tǒng)的詞匯表中的最佳候選單詞,所述存儲的至少一個其他單詞包括話音識別系統(tǒng)的詞匯表中的下一最佳候選單詞。
27.如權利要求23所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果包括至少一個最接近的比較結(jié)果,所述至少一個其他比較結(jié)果包括至少一個下一最接近的比較結(jié)果。
28.如權利要求23所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括線性預測編碼系數(shù)。
29.如權利要求23所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括倒譜系數(shù)。
30.如權利要求23所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括帶通濾波器輸出。
31.如權利要求23所述的話音識別系統(tǒng),其特征在于所述第一、第二與第三預定關系為線性關系。
32.如權利要求23所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之差。
33.如權利要求1所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之間的第一差值以及最接近的比較結(jié)果與第三最接近的比較結(jié)果之間的第二差值。
34.一種話音識別系統(tǒng),其特征在于包括用于從一發(fā)音的數(shù)字化語音樣本中提取語音參數(shù)的裝置;以及一裝置,用于(1)如果在該發(fā)音與所存儲的單詞的至少一個比較結(jié)果與所述至少一個比較結(jié)果同該發(fā)音與所存儲的至少一個其他單詞之間的至少一個其他比較結(jié)果之間的至少一個差值之間存在第一預定關系,則接受該發(fā)音,(2)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果之間的所述至少一個差值之間存在第二預定關系,則對該發(fā)音應用N-best算法,或者(3)如果在所述至少一個比較結(jié)果與所述至少一個比較結(jié)果同所述至少一個其他比較結(jié)果的所述至少一個差值之間存在第三預定關系,則拒絕該發(fā)音。
35.如權利要求34所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果包括多個比較結(jié)果,所述至少一個其他比較結(jié)果包括多個其它比較結(jié)果。
36.如權利要求34所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括多個差值。
37.如權利要求34所述的話音識別系統(tǒng),其特征在于所述存儲的單詞包括一話音識別系統(tǒng)的詞匯表中的最佳候選單詞,所述存儲的至少一個其他單詞包括話音識別系統(tǒng)的詞匯表中的下一最佳候選單詞。
38.如權利要求34所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果包括至少一個最接近的比較結(jié)果,所述至少一個其他比較結(jié)果包括至少一個下一最接近的比較結(jié)果。
39.如權利要求34所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括線性預測編碼系數(shù)。
40.如權利要求34所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括倒譜系數(shù)。
41.如權利要求34所述的話音識別系統(tǒng),其特征在于所述至少一個比較結(jié)果和所述至少一個其他比較結(jié)果包括帶通濾波器輸出。
42.如權利要求34所述的話音識別系統(tǒng),其特征在于所述第一、第二與第三預定關系為線性關系。
43.如權利要求34所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之差。
44.如權利要求1所述的話音識別系統(tǒng),其特征在于所述至少一個差值包括最接近的比較結(jié)果與下一最接近的比較結(jié)果之間的第一差值以及最接近的比較結(jié)果與第三最接近的比較結(jié)果之間的第二差值。
全文摘要
一種捕獲發(fā)音的話音識別拒絕方法,包括接受發(fā)音、對發(fā)音應用N-best算法或拒絕發(fā)音。若在發(fā)音與存儲的單詞的一個或多個最接近的比較結(jié)果與所述一個或多個最接近的比較結(jié)果和該發(fā)音同存儲的一個或多個其它單詞的一個或多個其它比較結(jié)果之間的一個或多個差值之間存在第一預定關系,就接受該發(fā)音。若在一個或多個最接近的比較結(jié)果與所述一個或多個最接近的比較結(jié)果同一個或多個其它比較結(jié)果的一個或多個差值之間存在第二預定關系,則對發(fā)音應用N-best算法。若在一個或多個最接近的比較結(jié)果與所述一個或多個最接近的比較結(jié)果同一個或多個其它比較結(jié)果的一個或多個差值之間存在第三預定關系,則發(fā)音被拒絕。一個或多個其它比較結(jié)果之一最好是發(fā)音與另一存儲單詞的下一最接近的比較結(jié)果。第一、第二和第三預定關系最好是線性關系。
文檔編號G10L15/22GK1347547SQ00803588
公開日2002年5月1日 申請日期2000年2月4日 優(yōu)先權日1999年2月8日
發(fā)明者畢寧, 張承純, H·加魯達德瑞, A·P·德雅科 申請人:高通股份有限公司