欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

通過分析源信號的冗余特征進(jìn)行穩(wěn)健話音識別的方法

文檔序號:2821045閱讀:253來源:國知局
專利名稱:通過分析源信號的冗余特征進(jìn)行穩(wěn)健話音識別的方法
背景1.發(fā)明領(lǐng)域本發(fā)明涉及話音識別技術(shù)和電路,尤其涉及通過分析源信號的冗余特征進(jìn)行更準(zhǔn)確和容噪的穩(wěn)健話音識別的系統(tǒng)。
2.有關(guān)技術(shù)的描述為了識別語音的根本內(nèi)容,已經(jīng)開發(fā)了多種信號處理技術(shù)對數(shù)字化語音信號進(jìn)行分析。一旦被識別,這個內(nèi)容就可以用來控制手持電話、計算機(jī)、家用電器或其他設(shè)備。一些已知技術(shù)使用語音信號的短時傅立葉譜或“譜圖”,使用加窗傅立葉變換算出它們,在Rabiner等人的《語音識別基礎(chǔ)》(Fundamentals of SpeechRecognition)中對此有更完整的說明,整體引用在此作為參考。


圖1說明一種已知的用于譜分析的譜特征提取器100,包括加窗102、FFT 104、MEL/BARK濾波106、對數(shù)108和RASTA濾波110幾個階段。數(shù)字化輸入語音信號101輸?shù)郊哟半A段102,在這里把輸入信號分隔成較小尺寸的有合適時長的片段,比如20毫秒。FFT階段104對階段102輸出的加窗片段進(jìn)行快速傅立葉變換。MEL/BARK階段106把線性頻譜刻度縮放到不同的比例,使較低頻率的分辨率比較高頻率的分辨率高。在聽覺范圍內(nèi)從低頻到高頻,頻率縮放的分辨率逐漸變粗。MEL縮放和BARK縮放是兩種已知的導(dǎo)致上述頻率伸縮的變換。這兩種縮放(以及一些變體)在語音識別中得到廣泛使用。對數(shù)階段108對輸入數(shù)值取對數(shù),更具體地說,對每個MEL/BARK變換后的譜值進(jìn)行對數(shù)運算。在多種已知的出版物中都描述了上述的階段102-108,其中一個例子就是上面引用的Rabiner等人的《語音識別基礎(chǔ)》一書。
RASTA階段110用預(yù)先定義的帶通濾波器對對數(shù)階段108的輸出進(jìn)行濾波。例如,如果有16個BARK數(shù)值,就會有16個濾波器對每個BARK帶進(jìn)行操作。RASTA階段110可以用任何已知的RASTA處理技術(shù)實現(xiàn),其中一個例子在Hermansky等人的標(biāo)題為“Auditory Model for Parameterization of Speech(語音參數(shù)化的聽覺模型)”的美國專利第5450522號中有描述,整體引用在此。
譜特征提取器100的輸出是譜輸出信號111,然后用各種后續(xù)技術(shù)(沒有示出)對它進(jìn)行處理,得到給出輸入語音信號的預(yù)測內(nèi)容的“識別答案”?;谶@種譜輸出信號111的識別答案在低噪聲環(huán)境下提供很高的準(zhǔn)確度。更有利的是,信噪比下降導(dǎo)致的準(zhǔn)確度緩慢地降級??梢赃M(jìn)一步以各種方式對譜輸出信號進(jìn)行處理。例如,一種方法還對譜輸出信號111做倒譜變換112以得到倒譜輸出信號114。例如,倒譜變換112的一種類型使用離散余弦變換(DCT)然后降低維數(shù)。一般而言, “倒譜”解釋為信號功率譜的對數(shù)的傅立葉逆變換,在下面的參考材料中有更多論述,整體引用在此做為參考A.V.Oppenheim和R.W.Schafer的《離散時間信號處理》(Discrete-Time Signal Processing),J.R.Deller、J.G.Proakis和J.H.L.Hansen的《語音信號的離散時間處理》(Discrete-Time Processing of Speech Signals),L.R.Rabiner和R.W.Schafer的《語音信號的數(shù)字處理》(Digital Processing ofSpeech Signals)。
在計算倒譜114的系統(tǒng)中,使用統(tǒng)計建模技術(shù)對倒譜(而不是譜111)進(jìn)行處理以得到識別答案。把識別答案基于倒譜輸出信號114的一個好處是它們在噪聲電平較低時提供更準(zhǔn)確的話音識別。但是,對這些系統(tǒng)而言,隨著噪聲上升,錯誤率上升很快。因此,譜和倒譜話音識別對于可能遇到寬噪聲電平范圍的應(yīng)用來說都不是完全足夠的。

發(fā)明內(nèi)容
一般而言,本發(fā)明涉及處理數(shù)字化語音信號以進(jìn)行話音識別的方法。常規(guī)方法通過在識別前先去掉輸入語音的冗余特征而尋求簡潔和簡單,本發(fā)明卻與之不同,本發(fā)明有目的地保留并分析源信號的冗余特征,以便在多種聲學(xué)環(huán)境里進(jìn)行準(zhǔn)確的語音識別。對數(shù)字化源語音信號應(yīng)用初級變換,從中提取初級特征。一個例子是應(yīng)用譜變換以提取譜特征。對所述源語音信號或所提取的譜特征應(yīng)用至少一個次級變換的每一個,得到至少一組次級特征。每個次級變換都設(shè)計成產(chǎn)生包含有在所提取的初級特征中已經(jīng)有的一些信息的數(shù)據(jù)。然后,使用至少一個預(yù)先確定的函數(shù)把所述初級特征和所述次級特征進(jìn)行聯(lián)合。通過對這一聯(lián)合和一組預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
本發(fā)明給其用戶提供了很多不同的優(yōu)勢。首先,本發(fā)明在不犧牲低噪聲環(huán)境下的性能的同時,在噪聲電平上升時提供準(zhǔn)確的話音識別。這一點和常規(guī)的倒譜話音識別系統(tǒng)不同,常規(guī)倒譜話音識別系統(tǒng)的性能隨著噪聲上升下降得很快,和常規(guī)的譜話音識別系統(tǒng)也不同,常規(guī)的譜話音識別系統(tǒng)的性能隨著噪聲上升下降較慢,但卻犧牲了低噪聲環(huán)境下的部分性能。本發(fā)明還給用戶提供了很多其他優(yōu)勢和益處,這些優(yōu)勢和益處在本發(fā)明下面的描述中將變得清楚。
附圖簡述圖1是已知的譜和倒譜處理系統(tǒng)的硬件元件及其互連的方框圖。
圖2是話音識別系統(tǒng)的一個實施例的硬件元件及其互連的方框圖。
圖3是數(shù)字?jǐn)?shù)據(jù)處理機(jī)的方框圖。
圖4示出了一種示例性的信號承載媒介。
圖5示出了一種示例性的無線電話。
圖6是使用語音的冗余特征進(jìn)行話音識別的操作順序的流程圖。
發(fā)明詳述結(jié)合附圖理解下面的詳細(xì)描述,本發(fā)明的特性、目的和優(yōu)勢對本領(lǐng)域的熟練技術(shù)人員將變得更清楚。
硬件元件及其互連總體結(jié)構(gòu)本發(fā)明的一個方面涉及話音識別系統(tǒng),該系統(tǒng)可以在多種硬件元件及其互連中實施,一個例子由圖2所示的話音識別系統(tǒng)200描述。系統(tǒng)200用來處理輸入語音信號201,即數(shù)字化語音信號??蛇x擇的是,系統(tǒng)200可以包括一個數(shù)模轉(zhuǎn)換器(DAC)來對模擬輸入語音信號進(jìn)行數(shù)字化。所述輸入語音信號201輸入到譜特征提取器202,譜特征提取器202是從輸入語音信號201中提取譜特征的電路。作為一個例子,提取器202可以用類似于圖1所示的譜特征提取器100那樣的元件實施。
提取器202的輸出202a是一個或多個譜輸出信號,例如譜特征矢量。輸出202a輸入到次級變換模塊204。次級變換模塊204應(yīng)用一個預(yù)先確定的函數(shù)以提供次級輸出204a。在圖示例子中,模塊204應(yīng)用倒譜變換,其中次級輸出204a是一組倒譜矢量。模塊204的次級特征信號204a輸入到特征聯(lián)合模塊206。上述實施例中次級變換模塊204接收提取器202的輸出202a,作為其替代,模塊204也可以接收原始輸入語音信號201。在又一實施例中,可以有多個次級變換模塊204,每個都對輸入語音信號201或譜輸出202a應(yīng)用不同的函數(shù)。
在任一情況下,上述對譜和倒譜特征的描述只是示例性的,但是本發(fā)明的范圍構(gòu)想很多不同的初級變換和次級變換(不限于譜和倒譜)。例如,譜特征提取器202和其譜特征202a可以用任何執(zhí)行一次或較高次變換以產(chǎn)生輸入語音信號的時頻表征的合適的初級特征提取器202來表征。一些例子包括譜變換、小波變換、調(diào)制譜和累積量等等。
每個次級變換都可以通過離散余弦變換(產(chǎn)生倒譜)、主分量變換、或所述初級特征到另一已知的或用戶定義的空間的其他投影來實現(xiàn)。次級特征可以數(shù)學(xué)生成、經(jīng)驗生成或以其他方式生成。無論如何,每組次級特征和所述初級特征“統(tǒng)計上相關(guān)”,意味著所述次級特征通過數(shù)學(xué)函數(shù)和所述初級特征有關(guān)。換句話說,對所述初級特征應(yīng)用數(shù)學(xué)函數(shù)就有可能得到所述次級特征。例如,所述次級特征可以通過相關(guān)(包括但不限于加、減、乘上因子再加、或其他組合)、非線性處理或其他技術(shù)和所述初級特征有關(guān)。所述初級特征可以或者不可以從所述次級特征中數(shù)學(xué)上再生。然后,作為例子,模塊204的倒譜特征與提取器202的譜特征統(tǒng)計上相關(guān),而實際上,圖示的倒譜矢量是用倒譜對譜矢量進(jìn)行數(shù)學(xué)上的變換得到的。因此,輸出202a和204a包含有關(guān)于輸入語音信號201的冗余信息。
在常規(guī)方法中,譜或其他初級輸出信號除了做進(jìn)一步下游(串行)處理外不再用得到,本發(fā)明與之不同,本發(fā)明中譜輸出信號202a和它們在次級變換中的使用是分開分析的。即,輸出信號202a直接輸入到特征聯(lián)合模塊206作分析。
模塊206把譜輸出信號202a和次級輸出信號204a進(jìn)行聯(lián)合。這一聯(lián)合可以以各種方式進(jìn)行。例如,信號202a和204a可以用串聯(lián)、線性判別式分析(LDA)、主分量變換(PCT)或其他對兩個輸入202a和204a一起應(yīng)用的函數(shù)等聯(lián)合。在一個不同的實施例中,模塊206可以包括處理子元件206a和206b,它們分別修改信號202a和204a之一或兩者,然后模塊206把修改后的信號202a和204a進(jìn)行聯(lián)合。如果執(zhí)行了不止一個次級變換204,那么模塊206就可以包括同等數(shù)量的元件206b。每個子元件206a和206b都可以執(zhí)行各種功能,例如用固定或可變的系數(shù)對其輸入信號進(jìn)行縮放(即,相乘)、改變輸入信號的指數(shù)、對輸入信號乘上自身一次或多次(自乘)、或其他一個或多個線性或非線性過程。在本實施例中,修改后的信號用前述技術(shù)之一進(jìn)行聯(lián)合,即串聯(lián)、LDA、PCT等等。
如上所述,可以有多個次級變換模塊204,每個都接收一個諸如輸入信號201或提取器202的輸出202a這樣的輸入信號。在這種實施例中,所述特征聯(lián)合模塊206仍然用于把譜特征信號和次級變換輸出信號聯(lián)合,雖然所述次級變換輸出信號來自多個不同的模塊204。
所述特征聯(lián)合模塊206把其輸出輸入到統(tǒng)計建模引擎208,后者也稱為“識別器”或“模式匹配”單元。引擎208可以通過很多已知的技術(shù)來實現(xiàn),引擎208產(chǎn)生輸出,即識別答案210。所述識別答案210組成系統(tǒng)200對輸入語音信號210的含義的估計。引擎208包括訓(xùn)練輸入208a,用于接收訓(xùn)練引擎208的輸入來識別某種模型或樣本語音模式。作為特例,引擎208可以把模塊206的輸出在查找表中交叉對照以得到輸入語音信號201所表示的含義,即,它的“答案”。
示例性數(shù)字?jǐn)?shù)據(jù)處理裝置如上所述,諸如提取器202、次級變換模塊204、特征聯(lián)合模塊206、統(tǒng)計建模引擎208等數(shù)據(jù)處理實體可以以各種形式實現(xiàn)。例如,每個這類元件(或者兩個或更多元件一起)都可以用數(shù)字?jǐn)?shù)據(jù)處理裝置實現(xiàn),就象圖3所示的數(shù)字?jǐn)?shù)據(jù)處理裝置300的硬件元件及其互連的例示。
裝置300包括耦合到存儲器304的處理器302,例如微處理器、個人電腦、工作站或其他處理機(jī)。在當(dāng)前例子中,存儲器304包括快速存取存儲器306和非易失性存儲器308??焖俅嫒〈鎯ζ?06的一個例子是隨機(jī)存取存儲器(“RAM”),用來存儲由處理器302所執(zhí)行的程序指令。非易失性存儲器308可以是,例如,電池備份RAM、EEPROM、一個或多個諸如“硬驅(qū)”這樣的磁性數(shù)據(jù)存儲盤、磁帶驅(qū)動器或任何其他合適的存儲設(shè)備。裝置300也包括輸入/輸出310,例如線、總線、電纜、電磁鏈路或其他使處理器302與裝置300外部的其他硬件交換數(shù)據(jù)的裝置。
盡管以上具體的描述,然而本領(lǐng)域的普通技術(shù)人員(從本發(fā)明獲益)會認(rèn)識到,上面論述的裝置可以在不同構(gòu)造的機(jī)器上實現(xiàn),而不脫離本發(fā)明的范圍。作為特例,306和308元件之一可以去掉;還有,存儲器304、306和/或308可以在處理器302上提供,或者,甚至可以在裝置300外部提供。
邏輯電路和上面論述的數(shù)字?jǐn)?shù)據(jù)處理裝置形成對比,本發(fā)明的另一種不同的實施例使用邏輯電路而不是由計算機(jī)執(zhí)行的指令來實現(xiàn)系統(tǒng)200的一個或全部元件。依照應(yīng)用在速度、費用、工具成本等方面的特別要求,這種邏輯可以通過構(gòu)造具有成千上萬個微集成晶體管的專用集成電路(“ASIC”)來實現(xiàn)。這種ASIC可以用CMOS、TTL、VLSI或其他合適的構(gòu)件實現(xiàn)。其他替代品包括數(shù)字信號處理芯片(“DSP”)、離散電路(例如電阻器、電容器、二極管、電感器和晶體管)、場可編程門陣列(“FPGA”)、可編程邏輯陣列(“PLA”)等等。
無線電話應(yīng)用在一個示例性應(yīng)用中,話音識別系統(tǒng)200可以和無線電話領(lǐng)域已知的其他電路一起在無線電話500(圖5)中實現(xiàn)。電話500包括揚聲器508、用戶接口510、麥克風(fēng)514、收發(fā)器504、天線506和管理器502。管理器502可以用上面結(jié)合圖3-4論述的電路來實現(xiàn),它管理元件504、508、510和514之間的操作和信號路由。管理器502包括由系統(tǒng)200實施的話音識別模塊502a,用來執(zhí)行這樣的功能電話500的操作者關(guān)于撥號、呼叫管理等等語音命令的解碼。
操作已經(jīng)描述了本發(fā)明的結(jié)構(gòu)特征,現(xiàn)在將描述本發(fā)明的操作方面。常規(guī)方法通過在分析前去掉輸入語音的冗余特征而尋求操作的簡潔和簡單,本發(fā)明與之不同,本發(fā)明有目的地分析源信號的冗余特征,以便在多種聲學(xué)環(huán)境里進(jìn)行準(zhǔn)確的話音識別。
信號承載媒介不論本發(fā)明的功能使用一個或多個機(jī)器可執(zhí)行的程序順序在哪里實現(xiàn),這些順序都可以在各種形式的媒介上實施。在圖3的情況下,這種信號承載媒介可以是,例如,存儲器304或其他信號承載媒介,例如磁性數(shù)據(jù)存儲盤400(圖4),由處理器302直接或間接地存取。不論包含在存儲器306、磁盤400或其他地方,這些指令都可以被存儲在多種機(jī)器可讀的數(shù)據(jù)存儲媒介上。一些例子包括直接存取存儲器(例如,常規(guī)的“硬驅(qū)”、廉價磁盤冗余陣列(“RAID”)、或其他直接存取存儲設(shè)備(“DASD”)),諸如磁帶或光帶這樣的串行存取存儲器,電子非易失性存儲器(例如,ROM、EPROM或EEPROM),電池備份RAM,光學(xué)存儲器(例如,CD-ROM、WORM、DVD、數(shù)字光帶),紙“打孔”卡,或其他合適的信號承載媒介,包括模擬或數(shù)字傳輸媒介與模擬通信鏈路以及無線通信。在本發(fā)明的說明性實施例中,機(jī)器可讀指令可以是從匯編語言或C語言等語言編譯得到的軟件目標(biāo)代碼。
邏輯電路和上面論述的信號承載媒介形成對比,可以使用邏輯電路而不是使用指令處理機(jī)來實現(xiàn)本發(fā)明的部分或全部功能。因此,這些邏輯電路配置成執(zhí)行能實現(xiàn)本發(fā)明方法的操作。這些邏輯電路可以使用上面論述的很多不同類型的電路來實現(xiàn)。
操作的總體順序圖6顯示的順序600說明了一個示例性的話音識別過程。一般而言,這個順序用來通過分析冗余特征來處理語音信號提供更加噪聲穩(wěn)健的話音識別。為了解釋方便,但沒有任何有意的限制,圖6的例子在上述話音識別系統(tǒng)200的環(huán)境中描述。
所述順序從步驟602開始,在步驟602進(jìn)行系統(tǒng)200的訓(xùn)練。在所述訓(xùn)練步驟602中,具有期望特征的輸入語音信號201(“訓(xùn)練語音”)輸入到譜特征提取器202,而步驟604、606和608(在下面論述)使用這個輸入語音信號執(zhí)行。例如,訓(xùn)練語音可以是模型語音(對于和說話人無關(guān)的系統(tǒng)),或是特定人的樣本語音(對于和說話人有關(guān)的系統(tǒng))。特征提取模塊206的輸出形成話音識別模板,通過以下使話音識別模板與訓(xùn)練語音有關(guān)準(zhǔn)備訓(xùn)練輸入208a(表示訓(xùn)練語音的內(nèi)容),把輸入208a提供給統(tǒng)計建模引擎208,并指示引擎208在將來系統(tǒng)200遇到和訓(xùn)練語音相似的語音的任何時候產(chǎn)生期望的識別答案。例如,如果訓(xùn)練語音信號201是單詞“l(fā)esson”,就把文本“l(fā)esson”輸入到和訓(xùn)練語音信號201相關(guān)的引擎208。更多對訓(xùn)練的論述可以在很多資料中找到,因為很多訓(xùn)練話音識別系統(tǒng)的不同技術(shù)在本領(lǐng)域內(nèi)是眾所周知的。一些示例性的訓(xùn)練方法在如下材料中有論述,每個材料整體引用在此作為參考(1)1999年2月8日提交的標(biāo)題為“VoiceRecognition Rejection Scheme(話音識別拒絕方法)”的美國專利申請第09/248513號,(2)1999年1月4日提交的標(biāo)題為“System and Method forSegmentation and Recognition of Speech Signals(用于語音信號分段和識別的系統(tǒng)和方法)”的美國專利申請第09/225891號,(3)2000年7月13日提交的標(biāo)題為“Method and Apparatus for Constructing Voice Templates for aSpeaker-Independent Voice Recognition System(為和說話人無關(guān)的話音識別系統(tǒng)構(gòu)建話音模板的方法和裝置)”的美國專利申請第09/615572號。按照要求或需要,可以在以后進(jìn)行附加的訓(xùn)練(沒有示出)。
在實施了一些訓(xùn)練602后,把非訓(xùn)練輸入語音信號201輸入到譜特征提取器202(步驟604)。這個信號201就是要求話音識別的信號。也是在步驟604,提取器202對輸入語音信號201進(jìn)行譜變換,從輸入語音信號201中提取譜特征,并且把所提取的譜特征作為輸出202a。一個示例性的譜特征提取技術(shù)包括線性預(yù)測編碼(LPC),LPC在標(biāo)題為“可變速率編碼器”的美國專利第5414796號中有論述,整體引用在此做為參考;LPC在上面引用的Rabiner等人的《語音信號數(shù)字處理》參考材料中也有論述。
在步驟606中,次級變換模塊204對譜輸出202a應(yīng)用次級變換。在示例性例子中,模塊204對譜輸出202a應(yīng)用倒譜變換。可選擇的是,步驟606也可以和圖示變換204并行地執(zhí)行一個或多個附加的次級變換(倒譜或其他類型)。如上所述,所有次級變換都和步驟604的譜變換在統(tǒng)計上有關(guān),意味著在輸出202a和204b中帶有一些共同的信息。
在步驟608,模塊206把譜輸出202a和模塊204及任何其他的次級變換模塊(如果實現(xiàn)的話)的次級輸出204a進(jìn)行聯(lián)合。為了論述方便,當(dāng)前例子僅限于使用單次次級變換的情況。如上所述,步驟608的聯(lián)合可以以不同方式進(jìn)行。例如,模塊206可以用串聯(lián)、LDA、PCT或其他函數(shù)把信號202a和204a進(jìn)行聯(lián)合。在一個不同的實施例中,處理子元件206a和206b首先分開修改一個或多個信號202a和204a,然后模塊206把修改后的信號進(jìn)行聯(lián)合。每個子元件206a和206b可以執(zhí)行這樣的函數(shù)例如用固定或可變的系數(shù)對輸入信號進(jìn)行縮放(即,相乘),改變輸入信號的指數(shù),對輸入信號乘上自身一次或多次(自乘),或其他一個或多個線性或非線性處理。在本實施例中,被206a和206b修改后的信號用上述技術(shù)之一,即串聯(lián)、LDA、PCT等等,進(jìn)行聯(lián)合。
在步驟610,統(tǒng)計建模引擎208產(chǎn)生識別答案,表示輸入語音信號201的估計內(nèi)容。通過對來自模塊206的信號和在步驟602中準(zhǔn)備的一組預(yù)先確定的話音識別模板進(jìn)行模式匹配,從而執(zhí)行步驟610。
其他實施例前面的描述給出了本發(fā)明的許多示例性實施例,同時,對本領(lǐng)域的熟練技術(shù)人員來說,很明顯,在不脫離所附權(quán)利要求書中定義的本發(fā)明范圍內(nèi)可以進(jìn)行不同的變化和修改。還有,雖然本發(fā)明的元件可能以單數(shù)形式描述或申明,但除非特別表明限于單數(shù),否則都構(gòu)想包括復(fù)數(shù)形式。另外,本領(lǐng)域的普通技術(shù)人員會認(rèn)識到所述操作順序為了解釋或申明的目的必須以某種特定次序提出,但本發(fā)明構(gòu)想這種特定次序之外的各種變化。
權(quán)利要求
1.對語音信號進(jìn)行處理的一種方法,所述方法包括以下操作對數(shù)字輸入語音信號應(yīng)用初級變換,從中提取初級特征;對所述輸入語音信號和所述初級特征之一應(yīng)用至少一個次級變換的每一個,以得到和所述初級特征統(tǒng)計上相關(guān)的次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,包括所述初級特征和所述次級特征的聯(lián)合;通過對所述聯(lián)合信號和預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
2.如權(quán)利要求1所述的方法,其特征在于,所述初級變換是譜變換。
3.如權(quán)利要求1所述的方法,其特征在于,所述初級變換是輸入語音信號的時頻表征的產(chǎn)物。
4.如權(quán)利要求1所述的方法,其特征在于,所述初級變換是譜變換,而所述次級變換是倒譜變換。
5.如權(quán)利要求1所述的方法,其特征在于,所述預(yù)先確定的函數(shù)包括至少使用下面方法中的一種對所述初級特征和所述次級特征進(jìn)行聯(lián)合線性判別式分析,主分量變換,串聯(lián)。
6.如權(quán)利要求1所述的方法,其特征在于,所述預(yù)先確定的函數(shù)包括分別修改一個或多個如下特征初級特征,次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,所述聯(lián)合信號是包括任何修改的所述初級特征和包括任何修改的所述次級特征的聯(lián)合。
7.如權(quán)利要求6所述的方法,其特征在于,所述分別修改操作的每一個至少包括下面方法中的一種縮放,改變功率,自乘,求冪。
8.如權(quán)利要求1所述的方法,其特征在于,還包括通過對預(yù)先確定的訓(xùn)練信號執(zhí)行每一個所述應(yīng)用和產(chǎn)生操作而形成話音識別模板。
9.一種確實實施機(jī)器可讀的指令程序的承載信號的媒介,所述指令可以由數(shù)字處理裝置執(zhí)行以執(zhí)行處理語音信號的操作,所述操作包括對數(shù)字輸入語音信號應(yīng)用初級變換,從中提取初級特征;對所述輸入語音信號和所述初級特征之一應(yīng)用至少一個次級變換的每一個,以得到和所述初級特征統(tǒng)計上相關(guān)的次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,所述聯(lián)合信號包括所述初級特征和所述次級特征的聯(lián)合;通過對所述聯(lián)合信號和預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
10.如權(quán)利要求9所述的媒介,其特征在于,所述初級變換是譜變換。
11.如權(quán)利要求9所述的媒介,其特征在于,所述初級變換是輸入語音信號的時頻表征的產(chǎn)物。
12.如權(quán)利要求9所述的媒介,其特征在于,所述初級變換是譜變換,而所述次級變換是倒譜變換。
13.如權(quán)利要求9所述的媒介,其特征在于,所述預(yù)先確定的函數(shù)是至少使用下面方法中的一種對所述初級特征和所述次級特征進(jìn)行聯(lián)合線性判別式分析,主成份轉(zhuǎn)移,串聯(lián)。
14.如權(quán)利要求9所述的媒介,其特征在于,所述預(yù)先確定的函數(shù)包括分別修改一個或多個如下特征初級特征,次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,所述聯(lián)合信號是包括任何修改的所述初級特征和包括任何修改的所述次級特征的聯(lián)合。
15.如權(quán)利要求14所述的媒介,其特征在于,所述分別修改操作的每一個至少包括下面方法中的一種縮放,改變功率,自乘,求冪。
16.如權(quán)利要求9所述的媒介,其特征在于,還包括通過對預(yù)先確定的訓(xùn)練信號執(zhí)行所述應(yīng)用和產(chǎn)生操作的每一個而形成話音識別模板。
17.配制成執(zhí)行處理數(shù)字信號的操作的多個互連的電導(dǎo)元件的電路,所述操作包括對數(shù)字輸入語音信號應(yīng)用初級變換,從中提取初級特征;對所述輸入語音信號和所述初級特征之一應(yīng)用至少一個次級變換的每一個,得到和所述初級特征統(tǒng)計上相關(guān)的次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,所述聯(lián)合信號包括所述初級特征和所述次級特征的聯(lián)合;通過對所述聯(lián)合信號和預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
18.如權(quán)利要求17所述的電路,其特征在于,所述初級變換是譜變換。
19.如權(quán)利要求17所述的電路,其特征在于,所述初級變換是輸入語音信號的時頻表征的產(chǎn)物。
20.如權(quán)利要求17所述的電路,其特征在于,所述初級變換是譜變換,而所述次級變換是倒譜變換。
21.如權(quán)利要求17所述的電路,其特征在于,所述預(yù)先確定的函數(shù)是至少使用下面方法中的一種對所述初級特征和所述次級特征進(jìn)行聯(lián)合線性判別式分析,主分量變換,串聯(lián)。
22.如權(quán)利要求17所述的電路,其特征在于,所述預(yù)先確定的函數(shù)包括分別修改一個或多個如下特征初級特征,次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,所述聯(lián)合信號是包括任何修改的所述初級特征和包括任何修改的所述次級特征的聯(lián)合。
23.如權(quán)利要求22所述的電路,其特征在于,所述分別修改操作的每一個至少包括下面方法中的一種縮放,改變功率,自乘,求冪。
24.如權(quán)利要求17所述的電路,其特征在于,還包括通過對預(yù)先確定的訓(xùn)練信號執(zhí)行所述應(yīng)用和產(chǎn)生操作的每一個而形成話音識別模板。
25.一種話音識別系統(tǒng),包括初級特征提取器,應(yīng)用初級函數(shù)從數(shù)字輸入語音信號中提取初級特征;至少一個次級變換模塊,每個都對所述輸入語音信號和所述初級特征之一組成的輸入應(yīng)用次級函數(shù),以產(chǎn)生和所述初級特征統(tǒng)計上相關(guān)的次級特征;耦合到所述初級特征提取器和所述次級變換模塊的每一個的特征聯(lián)合模塊,應(yīng)用一個或多個預(yù)先確定的函數(shù)對所述初級特征和所述次級特征進(jìn)行聯(lián)合以形成一個聯(lián)合信號;統(tǒng)計建模引擎,耦合到所述特征聯(lián)合模塊,通過對所述聯(lián)合信號和預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
26.一種話音識別系統(tǒng),包括初級特征提取器裝置,應(yīng)用初級函數(shù)從數(shù)字輸入語音信號中提取初級特征;次級變換裝置,對所述輸入語音信號和所述初級特征之一組成的輸入應(yīng)用至少一個次級函數(shù),以產(chǎn)生和所述初級特征統(tǒng)計上相關(guān)的次級特征;特征聯(lián)合裝置,應(yīng)用一個或多個預(yù)先確定的函數(shù)對所述初級特征和所述次級特征進(jìn)行聯(lián)合以形成一個聯(lián)合信號;統(tǒng)計建模裝置,通過對所述聯(lián)合信號和預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
27.一種無線通信設(shè)備,包括耦合到天線的收發(fā)器;揚聲器;麥克風(fēng);用戶接口;耦合到包括收發(fā)器、揚聲器、麥克風(fēng)和用戶接口在內(nèi)元件的用來管理所述元件的操作的管理器,所述管理器包括配置成執(zhí)行以下操作的話音識別系統(tǒng)對數(shù)字輸入語音信號應(yīng)用初級變換,從中提取初級特征;對所述輸入語音信號和所述初級特征之一應(yīng)用至少一個次級變換的每一個,以得到和所述初級特征統(tǒng)計上相關(guān)的次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,所述聯(lián)合信號是所述初級特征和所述次級特征的聯(lián)合;通過對所述聯(lián)合信號和預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
28.一種無線通信設(shè)備,包括耦合到天線的收發(fā)器;揚聲器;麥克風(fēng);用戶接口;用于管理收發(fā)器、揚聲器、麥克風(fēng)和用戶接口的裝置所述用于管理的裝置還包括執(zhí)行話音識別的裝置,通過對數(shù)字輸入語音信號應(yīng)用初級變換,從中提取初級特征;對所述輸入語音信號和所述初級特征之一應(yīng)用至少一個次級變換的每一個,以得到和所述初級特征統(tǒng)計上相關(guān)的次級特征;至少應(yīng)用一個預(yù)先確定的函數(shù)以形成一個聯(lián)合信號,所述聯(lián)合信號是所述初級特征和所述次級特征的聯(lián)合;通過對所述聯(lián)合信號和預(yù)先確定的話音識別模板進(jìn)行模式匹配而產(chǎn)生識別答案。
全文摘要
通過分析冗余特征對數(shù)字化語音信號進(jìn)行處理以提供更穩(wěn)健的話音識別的方法。對源語音信號應(yīng)用初級變換,從中提取初級特征。對所述源語音信號或?qū)λ崛〉某跫壧卣鲬?yīng)用至少一個次級變換的每一個,以得到至少一組和所述初級特征統(tǒng)計上相關(guān)的次級特征。然后至少應(yīng)用一個預(yù)先確定的函數(shù)對所述初級特征和所述次級特征進(jìn)行聯(lián)合。通過對這一聯(lián)合和預(yù)先確定的話音識別模板進(jìn)行模式匹配產(chǎn)生識別答案。
文檔編號G10L15/20GK1653519SQ03810691
公開日2005年8月10日 申請日期2003年3月19日 優(yōu)先權(quán)日2002年3月20日
發(fā)明者N·馬拉亞斯, H·加魯達(dá)德里 申請人:高通股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
嘉祥县| 葫芦岛市| 昌宁县| 耒阳市| 双鸭山市| 松阳县| 莱阳市| 彩票| 昭通市| 阳新县| 自治县| 阳春市| 启东市| 阿勒泰市| 汽车| 汤原县| 临泽县| 壶关县| 东乡县| 汉川市| 文登市| 富裕县| 双辽市| 荥阳市| 慈溪市| 库伦旗| 江达县| 高雄县| 福州市| 凤庆县| 万安县| 安乡县| 阿鲁科尔沁旗| 房山区| 大连市| 平凉市| 安化县| 庆安县| 揭东县| 孟连| 大姚县|