專利名稱:提取特征向量用于語(yǔ)音識(shí)別的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音識(shí)別,尤其涉及提取特征向量以實(shí)現(xiàn)高語(yǔ)音識(shí)別率的方法。
背景技術(shù):
在語(yǔ)音識(shí)別鄰域,主要使用的兩種語(yǔ)音識(shí)別方法是隱馬爾可夫模型(HMM)和動(dòng)態(tài)時(shí)間偏斜(DTW)。
在基于HMM的語(yǔ)音識(shí)別方法中,HMM參數(shù)是在訓(xùn)練階段獲取的并且存儲(chǔ)在語(yǔ)音數(shù)據(jù)庫(kù)中,并且馬爾可夫處理器使用最大似然(ML)方法搜索具有最高識(shí)別率的模型。提取語(yǔ)音識(shí)別所必須的特征向量,并且使用提取的特征向量執(zhí)行訓(xùn)練和語(yǔ)音識(shí)別。
在所述訓(xùn)練階段,通常使用最大期望值(EM)算法或Baum-Welch重估算法獲取HMM參數(shù)。Viterbi算法通常用于語(yǔ)音識(shí)別階段。
為了增加語(yǔ)音識(shí)別率,可執(zhí)行Wiener濾波預(yù)處理。也可通過(guò)使用諸如語(yǔ)言模型的考慮語(yǔ)法的技術(shù)來(lái)增加語(yǔ)音識(shí)別速率。
因?yàn)榭蓪?duì)于連續(xù)語(yǔ)音識(shí)別(CSR)使用基于HMM的語(yǔ)音識(shí)別方法適用于大量的詞匯識(shí)別并提供卓越的識(shí)別率,所以近來(lái)基于HMM的語(yǔ)音識(shí)別方法得到愈加廣泛的應(yīng)用。
在基于DTW的語(yǔ)音識(shí)別方法中,比較通用模式和給定輸入模式并且確定它們之間的類似性。例如,一個(gè)單詞或單詞序列的持續(xù)時(shí)間是基于說(shuō)話人是誰(shuí)、說(shuō)話人的感情以及說(shuō)話人說(shuō)話所處環(huán)境而變化的?;贒TW的語(yǔ)音識(shí)別方法作為用于非線性優(yōu)化這一持續(xù)時(shí)間之間偏差的方法在作為用于非線性優(yōu)化這一持續(xù)時(shí)間之間偏差的方法的部分優(yōu)化基礎(chǔ)上執(zhí)行總體優(yōu)化。
DTW通常用于識(shí)別單獨(dú)的詞,并且通常聯(lián)合小量詞匯表使用??赏ㄟ^(guò)添加對(duì)應(yīng)于新詞匯的新模式很方便地修改該詞匯表。
HMM和DTW識(shí)別方法通過(guò)提取涉及語(yǔ)音的完整頻譜形狀執(zhí)行語(yǔ)音識(shí)別。然而這些方法的一個(gè)限制是它們不考慮組成語(yǔ)音的話音與非話音聲音的區(qū)別。
發(fā)明內(nèi)容
由上所述,本發(fā)明通過(guò)其各個(gè)方面、實(shí)施例和/或特定特征或子組件的一個(gè)或多個(gè),旨在實(shí)現(xiàn)如下特指優(yōu)點(diǎn)的一個(gè)或多個(gè)。
本發(fā)明的一個(gè)目標(biāo)是提供一種方法用于提取特征向量以完成高速率語(yǔ)音識(shí)別。為了完成這些和其他優(yōu)點(diǎn)并與本發(fā)明的目的相一致,作為在此具體表達(dá)并廣泛描述提取特征向量用于語(yǔ)音識(shí)別的方法包括從輸入信號(hào)中提取一個(gè)表示所述輸入信號(hào)的某一表征是話音還是非話音聲音的參數(shù),以及基于提取出的參數(shù)識(shí)別語(yǔ)音。本方法還包括基于提取出的參數(shù)提取特征向量。
優(yōu)選地,使用如下方程計(jì)算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長(zhǎng)度。優(yōu)選地,k的值為1,2和3其中之一。
提取出的參數(shù)大于或等于當(dāng)輸入信號(hào)包括話音聲音時(shí)的閾值,并且小于當(dāng)輸入信號(hào)包括非話音聲音時(shí)的閾值。對(duì)語(yǔ)音的識(shí)別可以包括利用基于隱馬爾可夫模型的識(shí)別方法、基于動(dòng)態(tài)時(shí)間偏斜的識(shí)別方法以及基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法中的一種。也可使用其他語(yǔ)音識(shí)別方法和模型。
根據(jù)一個(gè)實(shí)施例,本方法可包括基于提取出的參數(shù)生成指明輸入信號(hào)是包括話音聲音還是非話音聲音的一個(gè)比特,并且基于該生成的比特識(shí)別所述語(yǔ)音。本方法還包括將差分系數(shù)和加速系數(shù)的至少一個(gè)添加給提取參數(shù)。
根據(jù)另一個(gè)實(shí)施例,本方法還包括從所述輸入信號(hào)中提取對(duì)應(yīng)于話音的完整頻譜形狀的至少一個(gè)特征向量,并且基于提取出的特征向量以及提取出的參數(shù)的至少一個(gè)來(lái)識(shí)別語(yǔ)音。能在可用的節(jié)距(pitch)范圍內(nèi)計(jì)算該參數(shù)。
也提供包括了用來(lái)識(shí)別語(yǔ)音的程序的計(jì)算機(jī)可讀介質(zhì)。該程序包括指令,用于從輸入信號(hào)中提取一個(gè)表示輸入信號(hào)的某一表征是話音還是非話音聲音的參數(shù),并且基于該提取出的參數(shù)識(shí)別語(yǔ)音。該程序還包括基于提取出的參數(shù)提取特征向量的指令。
優(yōu)選地,使用如下方程計(jì)算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長(zhǎng)度。優(yōu)選地,k的值為1,2和3其中之一。
提取出的參數(shù)大于或等于當(dāng)輸入信號(hào)包括話音聲音時(shí)的閾值,并且小于當(dāng)輸入信號(hào)包括非話音聲音時(shí)的閾值。用于識(shí)別語(yǔ)音的指令可以包括利用基于隱馬爾可夫模型的識(shí)別方法、基于動(dòng)態(tài)時(shí)間偏斜的識(shí)別方法以及基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法中的一種的指令。也可使用其他語(yǔ)音識(shí)別模型和方法。
根據(jù)一個(gè)實(shí)施例,該程序也可包括基于提取出的參數(shù)生成指明輸入信號(hào)是包括話音聲音還是非話音聲音的一個(gè)比特,并且基于該生成的比特識(shí)別所述語(yǔ)音。該程序還可包括將差分系數(shù)和加速系數(shù)中的至少一個(gè)添加給提取出參數(shù)的指令。
本發(fā)明上述的和其他的目標(biāo)、特征、方面和優(yōu)點(diǎn)從隨后結(jié)合了附圖的詳細(xì)描述中,本發(fā)明上述的和其他的目標(biāo)、特征、方面和優(yōu)點(diǎn)將變得顯而易見(jiàn)。
隨后將通過(guò)本發(fā)明實(shí)施例的非限制性實(shí)例并參考附圖,本發(fā)明將進(jìn)行進(jìn)一步地詳細(xì)描述,所述附圖中相同的編號(hào)表示類似的部件。
在附圖中圖1是示出了根據(jù)本發(fā)明提取特征向量用于語(yǔ)音識(shí)別的方法的流程圖;以及圖2A-2D示出了話音和非話音聲音的典型波形。
具體實(shí)施例方式
現(xiàn)將對(duì)本發(fā)明的較佳實(shí)施例做出詳細(xì)參考,并將結(jié)合附圖示出本發(fā)明的實(shí)例。
本發(fā)明的一種方法包括基于對(duì)某聲音是話音的還是非話音的判定生成一個(gè)參數(shù),并且在訓(xùn)練階段和識(shí)別階段使用該參數(shù),連同涉及語(yǔ)音完整頻譜形狀的特征向量。將使用存儲(chǔ)在記錄介質(zhì)(諸如但不限于存儲(chǔ)器)內(nèi)的計(jì)算機(jī)程序?qū)崿F(xiàn)本方法。
人類語(yǔ)音包括話音聲音和非話音聲音。當(dāng)說(shuō)話期間聲帶振動(dòng)就會(huì)產(chǎn)生話音聲音,而當(dāng)聲帶不振動(dòng)所產(chǎn)生的話音就是非話音聲音。
所有的元音以及爆破音[b]、[d]和[g]都是話音聲音。而爆破音[k]、[p]和[t]以及摩擦音[f]、[th]、[s]和[sh]是非話音聲音。雖然爆破音[p]和[b](以及[d]和[t]、[g]和[k])的發(fā)音類似,但是基于該爆破音是話音的還是非話音的(例如‘pig’對(duì)‘big’)會(huì)形成完全不同的單詞。因此,一個(gè)音素可被分類成話音聲音或者非話音聲音。
下文中,將參考附圖描述本發(fā)明的較佳實(shí)施例。
本領(lǐng)域普通技術(shù)人員應(yīng)該理解的是在對(duì)本發(fā)明的描述中,如果認(rèn)為對(duì)相關(guān)已知功能或結(jié)構(gòu)的詳細(xì)解釋會(huì)不必要地轉(zhuǎn)移本發(fā)明的主旨,那么就省略這些解釋。
圖1是示出了根據(jù)本發(fā)明提取特征向量用于語(yǔ)音識(shí)別的方法的流程圖。
參考圖1,從話音信號(hào)中提取涉及第一輸入話音信號(hào)整體頻譜形狀的特征向量(S110)。
涉及所述話音信號(hào)整體頻譜形狀的特征向量可以包括線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)以及知覺(jué)線性預(yù)測(cè)系數(shù)(PLPC)等等中的至少一種。
根據(jù)本發(fā)明的所述方法,也可從話音信號(hào)中涉及存在于話音信號(hào)中的話音和非話音聲音的特征向量(S120)。例如可以通過(guò)提取涉及該聲音是話音的還是非話音的參數(shù)、實(shí)驗(yàn)性地獲取適當(dāng)?shù)脑鲆嬷?G)并且加權(quán)所述提取出的參數(shù)來(lái)生成特征向量。
可使用多種方法確定某聲音是話音的還是非話音的。相對(duì)簡(jiǎn)單的方法包括使用如下方程式rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k]]>在這里,Nf表示確定某聲音是話音還是非話音的幀長(zhǎng)度。如果k=1,那么上述方程式表示平均幅度差函數(shù)(AMDF)。如果k=2,那么上述方程式就類似于自相關(guān)函數(shù)的平方。
所述k值可以是從1到3的任意常數(shù)。實(shí)驗(yàn)法已經(jīng)示出當(dāng)k=2時(shí)出現(xiàn)最佳結(jié)果。然而,k=1具有的優(yōu)勢(shì)在于不需要乘法。這樣為了節(jié)距提取,最適k值應(yīng)該是1或2。雖然k值可以是從1到3的任意常數(shù),但是在如下描述的實(shí)施例中,k的值為2。當(dāng)k=2時(shí)會(huì)導(dǎo)致如下方程式所示的自相關(guān)函數(shù),并將參考圖2A-2D對(duì)其進(jìn)行描述。所述方程式為
rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k]]>圖2A-2D示出了話音和非話音聲音的典型波形。圖2A和2B示出了話音聲音,圖2C和2D示出了非話音聲音,而圖2B和2D示出了自相關(guān)函數(shù)。
如圖2A和2B所示,話音聲音的波形包括了重復(fù)模式。而圖2C和2D中示出的非話音聲音的波形則不包括重復(fù)模式。
如果在節(jié)距可能存在的范圍內(nèi)檢查maxrx[n],那么rx0]與maxrx[n]在圖2B中幾乎相同,但是在圖2D中大為不同。
rx
與maxrx[n]的比率(η)可由以下方程式表示η=maxrx‾[n]rx‾
]]>假設(shè)可用的節(jié)距范圍是50到500Hz,那么在8kHz的采樣頻率下,n的值是從16到160。
如果η=maxηx‾[n]rx‾
]]>并且16≤n≤160,那么η值在如圖2B中所示的話音信號(hào)中約為0.75,而在如圖2D中所示的非話音信號(hào)中約為0.25。
因此,如果輸入信號(hào)的η值較大,那么該輸入信號(hào)就很可能是話音信號(hào)。如果輸入信號(hào)的η值較小,那么該輸入信號(hào)就很可能是非話音信號(hào)。所以通過(guò)對(duì)η值和閾值的比較,如果η值大于或等于該閾值就確定某輸入信號(hào)是話音信號(hào)而如果η值小于該閾值就確定輸入信號(hào)是非話音信號(hào)。
所述n的范圍可根據(jù)采樣速率變化。
此外,可以生成表示參數(shù)η的值是大于還是小于所述閾值的1比特指示符。然而優(yōu)選地是參數(shù)η本身可用于提取特征向量,因?yàn)槿绻徽_地生成1比特指示符,則可能劣化識(shí)別符的性能。
在訓(xùn)練階段和識(shí)別階段內(nèi)利用提取出的特征向量(S130)。提取出的向量可以通過(guò)基于HMM或基于DTW的方法添加參數(shù)用于增加識(shí)別率,并且可在使用神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別方法中使用。
此外為了改善性能,也可利用諸如差分系數(shù)或加速系數(shù)的特征向量。
如上所述,通過(guò)生成以輸入信號(hào)是話音的還是非話音聲音為特征的參數(shù)以及通過(guò)在訓(xùn)練階段和識(shí)別階段利用該參數(shù)用于語(yǔ)音識(shí)別,本發(fā)明的提取特征向量用于語(yǔ)音識(shí)別的方法達(dá)到了改善語(yǔ)音識(shí)別率的目的。
因?yàn)楸景l(fā)明在不背離其精神或本質(zhì)特性的情況下能夠以不同的形式被具體表達(dá),所以應(yīng)該理解上述實(shí)施例不限于任何前述細(xì)節(jié);除非特別指出,否則上述實(shí)施例應(yīng)被廣泛解釋為落于所附權(quán)利要求限定的精神和范圍之內(nèi),因此所有的改變和修改都落于權(quán)利要求或旨在包含所述權(quán)利要求的等效物范圍內(nèi)。
在一個(gè)實(shí)施例中,諸如專用集成電路、可編程邏輯陣列或其他硬件設(shè)備的專用的硬件實(shí)現(xiàn)可被構(gòu)建,用于實(shí)現(xiàn)在此描述的一種或多種方法。應(yīng)用可以包括各種實(shí)施例的裝置和系統(tǒng),它們可廣泛地包括各種電子或計(jì)算機(jī)系統(tǒng)。在此描述的一個(gè)或多個(gè)實(shí)施例可以使用帶有可在各模塊間通信的相關(guān)控件和數(shù)據(jù)信號(hào)的兩個(gè)或更多指定的互連硬件模塊或者設(shè)備,或是作為應(yīng)用專用集成電路的部分來(lái)實(shí)現(xiàn)各種功能。因此,本發(fā)明包括軟件、固件和硬件實(shí)現(xiàn)。
與本發(fā)明揭示的各個(gè)實(shí)施例相一致,可通過(guò)計(jì)算機(jī)可執(zhí)行的軟件程序?qū)崿F(xiàn)在此描述的本方法。此外在一個(gè)示例的非限制性實(shí)施例中,實(shí)現(xiàn)可包括分布式處理、組件/目標(biāo)分布式處理以及并行處理。另外還可以構(gòu)建虛擬計(jì)算機(jī)系統(tǒng)處理用于實(shí)現(xiàn)在此描述的一種或多種方法和功能。
本發(fā)明的揭示還考慮到包括有指令或接收并處理響應(yīng)于某傳播信號(hào)的指令的計(jì)算機(jī)可讀介質(zhì)。術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”包括單介質(zhì)或多介質(zhì),諸如集中式或分布式數(shù)據(jù)庫(kù)和/或存儲(chǔ)一個(gè)或多個(gè)指令集的相關(guān)高速緩存和服務(wù)器。術(shù)語(yǔ)“計(jì)算機(jī)可讀介質(zhì)”還包括能夠存儲(chǔ)、編碼或執(zhí)行可由處理器執(zhí)行的指令集的任何介質(zhì),或者是使得計(jì)算機(jī)系統(tǒng)執(zhí)行在此揭示的方法和操作的任何一個(gè)或多個(gè)的任何介質(zhì)。
在特定的非限制性的典型實(shí)施例中,計(jì)算機(jī)可讀介質(zhì)包括諸如存儲(chǔ)器卡或其他裝有一個(gè)或多個(gè)非易失性只讀存儲(chǔ)器的封裝的固態(tài)存儲(chǔ)器,此外,計(jì)算機(jī)可讀介質(zhì)可以是隨機(jī)存取存儲(chǔ)器或者其他易失性的可重寫(xiě)的存儲(chǔ)器。另外,計(jì)算機(jī)可讀介質(zhì)包括磁光或光學(xué)介質(zhì),諸如盤(pán)片、磁帶或者能夠捕獲諸如在傳輸設(shè)備上通信的信號(hào)的載波信號(hào)的其他存儲(chǔ)設(shè)備。電子郵件附件的數(shù)字文件或者其他自包含的信息歸檔文件或者歸檔文件組也可考慮作為等效于實(shí)際存儲(chǔ)介質(zhì)的分布式介質(zhì)。因此,該揭示可考慮包括任何計(jì)算機(jī)可讀介質(zhì)或者可存儲(chǔ)數(shù)據(jù)或指令的分布式介質(zhì)以及任何其他的等效和后續(xù)媒介。
雖然本發(fā)明的說(shuō)明描述的組件和功能可在參考了特定標(biāo)準(zhǔn)和協(xié)議的特定實(shí)施例中實(shí)現(xiàn),但是本發(fā)明不限于這些標(biāo)準(zhǔn)和實(shí)施例。每一個(gè)標(biāo)準(zhǔn)、協(xié)議或語(yǔ)音都表示了最新的實(shí)例。本質(zhì)上功能相同但更快或更有效的等效物周期性地代替這些標(biāo)準(zhǔn)。因此,具有相同或類似功能的代替標(biāo)準(zhǔn)和協(xié)議都被認(rèn)為是等效的。
在此描述的實(shí)施例的說(shuō)明旨在提供對(duì)各種實(shí)施例結(jié)構(gòu)的大致理解。這些說(shuō)明并非旨在用作對(duì)利用可在此描述的結(jié)構(gòu)或方法的所述裝置和相同的元素和特征的完全描述。許多其他實(shí)施例在本領(lǐng)域普通技術(shù)人員閱讀過(guò)該揭示后將變得顯而易見(jiàn)??梢岳貌脑摻沂局袑?dǎo)出其他實(shí)施例,使得做出結(jié)構(gòu)上和邏輯上的代替和改變都不背離本揭示的范圍。此外,該說(shuō)明僅僅是代表性的。因此,該揭示和圖像應(yīng)被認(rèn)為是示意性的,而不是限制性的。
該揭示的一個(gè)或多個(gè)實(shí)施例在此可被單獨(dú)地和/或統(tǒng)一地稱為術(shù)語(yǔ)“發(fā)明”,僅出于方便使用該術(shù)語(yǔ),而并非自愿限制對(duì)任何特定發(fā)明或發(fā)明概念的應(yīng)用的范圍限制。此外,雖然已經(jīng)在此示出并描述了特定實(shí)施例,但應(yīng)該認(rèn)識(shí)到任何設(shè)計(jì)用于完成相同或類似目的的后續(xù)結(jié)構(gòu)都可代替示出的特定實(shí)施例。該揭示旨在覆蓋任何或全部的各個(gè)實(shí)施例的后續(xù)改編或者變化。上述實(shí)施例的組合以及未在此特定描述的其他實(shí)施例對(duì)于閱讀了該說(shuō)明的本領(lǐng)域普通技術(shù)人員來(lái)說(shuō)都是顯而易見(jiàn)的。
以上揭露的主題被認(rèn)為是示意性而非限制性的,并且所附權(quán)利要求旨在覆蓋所有落于本發(fā)明真實(shí)精神和范圍內(nèi)的修改、增強(qiáng)和其他實(shí)施例。這樣為了法律允許的最大范圍,本發(fā)明的范圍是由隨后的權(quán)利要求及其等效物的最廣可允許解釋所確定的,并且不被前述詳細(xì)描述所限制。
雖然在此描述的本發(fā)明參考了若干典型實(shí)施例,但是可以理解的是已使用的詞匯是描述性和說(shuō)明性的詞匯,而非限制性的詞匯。因?yàn)楸景l(fā)明能夠以不同形式被具體表達(dá)而不背離其精神和本質(zhì)特征,所以應(yīng)該理解除非特別指出,上述實(shí)施例不限于前述任何細(xì)節(jié)。而且上述實(shí)施例應(yīng)該被解釋為位于由所附權(quán)利要求限定的本發(fā)明的精神和范圍內(nèi)。因此,正如在此陳述并改進(jìn)地,可在所附權(quán)利要求的范圍內(nèi)做出改變,而不背離本發(fā)明在其各個(gè)方面的范圍和精神。
權(quán)利要求
1.一種用于識(shí)別語(yǔ)音的方法,包括從輸入信號(hào)中提取一參數(shù),它表示作為話音或非話音聲音的輸入信號(hào)的表征;以及基于所述提取出的參數(shù)識(shí)別語(yǔ)音。
2.如權(quán)利要求1所述的方法,其特征在于,還包括基于所述提取出的參數(shù)提取特征向量。
3.如權(quán)利要求1所述的方法,其特征在于,使用如下方程式計(jì)算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定聲音是話音還是非話音的幀的長(zhǎng)度。
4.如權(quán)利要求3所述的方法,其特征在于,k值為1,2和3其中之一。
5.如權(quán)利要求1所述的方法,其特征在于,當(dāng)輸入信號(hào)包括話音聲音時(shí),所述提取出的參數(shù)大于或等于閾值。
6.如權(quán)利要求1所述的方法,其特征在于,當(dāng)輸入信號(hào)包括非話音聲音時(shí),所述提取出的參數(shù)小于閾值。
7.如權(quán)利要求1所述的方法,其特征在于,識(shí)別語(yǔ)音包括利用基于隱馬爾可夫模型的識(shí)別方法。
8.如權(quán)利要求1所述的方法,其特征在于,識(shí)別語(yǔ)音包括利用基于動(dòng)態(tài)時(shí)間偏斜的識(shí)別方法。
9.如權(quán)利要求1所述的方法,其特征在于,識(shí)別語(yǔ)音包括利用基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法。
10.如權(quán)利要求1所述的方法,其特征在于,還包括基于所述提取出的參數(shù),生成指示所述輸入信號(hào)包括話音聲音還是非話音聲音的比特;以及基于已生成的比特識(shí)別所述語(yǔ)音。
11.如權(quán)利要求1所述的方法,其特征在于,還包括添加差分系數(shù)和加速系數(shù)的至少一個(gè)給所述提取出的參數(shù)。
12.一種用于識(shí)別語(yǔ)音的方法,包括從輸入信號(hào)中提取對(duì)應(yīng)于語(yǔ)音的全部頻譜形狀的至少一個(gè)特征向量;從所述輸入信號(hào)中一參數(shù),它表示作為話音或非話音聲音的輸入信號(hào)的表征;以及基于至少一個(gè)提取出的特征向量以及提取出的參數(shù)識(shí)別語(yǔ)音。
13.如權(quán)利要求12所述的方法,其特征在于,在可用間距范圍內(nèi)使用如下方程式計(jì)算參數(shù)η=maxrx‾[n]rx‾
]]>其中,自相關(guān)函數(shù)rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長(zhǎng)度。
14.如權(quán)利要求12所述的方法,其特征在于,當(dāng)輸入信號(hào)包括話音聲音時(shí),所述提取出的參數(shù)大于或等于閾值。
15.如權(quán)利要求12所述的方法,其特征在于,當(dāng)輸入信號(hào)包括非話音聲音時(shí),所述提取出的參數(shù)小于閾值。
16.如權(quán)利要求12所述的方法,其特征在于,識(shí)別語(yǔ)音包括利用隱馬爾可夫模型識(shí)別方法、動(dòng)態(tài)時(shí)間偏斜識(shí)別方法以及神經(jīng)網(wǎng)絡(luò)識(shí)別方法中的一種。
17.如權(quán)利要求12所述的方法,其特征在于,還包括基于所述提取出的參數(shù),生成指示所述輸入信號(hào)包括話音聲音或非話音聲音的比特;以及基于已生成的比特識(shí)別所述語(yǔ)音。
18.如權(quán)利要求12所述的方法,其特征在于,還包括添加差分系數(shù)和加速系數(shù)的至少一個(gè)給所述提取出的參數(shù)。
19.一種包括用于識(shí)別語(yǔ)音的程序的計(jì)算機(jī)可讀介質(zhì),所述程序包括指令用于從輸入信號(hào)中提取一參數(shù),它表示作為話音或非話音聲音的輸入信號(hào)的表征;以及基于所述提取出的參數(shù)識(shí)別語(yǔ)音。
20.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述程序還包括基于所述提取出的參數(shù)提取特征向量的指令。
21.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,使用如下方程式計(jì)算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長(zhǎng)度。
22.如權(quán)利要求21所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,k值為1,2和3其中之一。
23.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,當(dāng)輸入信號(hào)包括話音聲音時(shí),所述提取出的參數(shù)大于或等于閾值。
24.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,當(dāng)輸入信號(hào)包括非話音聲音時(shí),所述提取出的參數(shù)小于閾值。
25.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,用于識(shí)別語(yǔ)音的指令包括利用基于隱馬爾可夫模型的識(shí)別方法的指令。
26.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,用于識(shí)別語(yǔ)音的指令包括利用基于動(dòng)態(tài)時(shí)間偏斜的識(shí)別方法的指令。
27.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,用于識(shí)別語(yǔ)音的指令包括利用基于神經(jīng)網(wǎng)絡(luò)的識(shí)別方法的指令。
28.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述程序還包括指令用于基于所述提取出的參數(shù),生成指示所述輸入信號(hào)包括話音信號(hào)或非話音聲音的比特;以及基于已生成的比特識(shí)別所述語(yǔ)音。
29.如權(quán)利要求19所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述程序還包括用于添加差分系數(shù)和加速系數(shù)的至少一個(gè)給所述提取出的參數(shù)的指令。
全文摘要
揭示了一種用于識(shí)別語(yǔ)音能夠達(dá)到高識(shí)別率的方法。所述方法包括從輸入信號(hào)中提取表示該輸入信號(hào)的作為話音還是非話音聲音特征的參數(shù),從輸入信號(hào)中提取對(duì)應(yīng)于語(yǔ)音完整頻譜形狀的至少一個(gè)特征向量,以及在訓(xùn)練階段和識(shí)別階段使用提取出的參數(shù)以及提取出的至少一個(gè)特征向量來(lái)識(shí)別語(yǔ)音。
文檔編號(hào)G10L15/08GK1819017SQ20051013702
公開(kāi)日2006年8月16日 申請(qǐng)日期2005年12月13日 優(yōu)先權(quán)日2004年12月13日
發(fā)明者金燦佑 申請(qǐng)人:Lg電子株式會(huì)社