專利名稱::漢語普通話話音識別的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種應(yīng)用聲母和韻母的相似性向量進行漢語普通話話音識別的方法和設(shè)備。本發(fā)明的目的在于改善識別準確度和降低所需的建立在用于漢語普通話話音識別系統(tǒng)的單數(shù)字信號處理(DSP)芯片上的存儲規(guī)模。本發(fā)明更為具體的目的在于提出不僅旨在根據(jù)漢語聲母和韻母音素相似性提高漢語普通話話音識別率,而且還旨在降低所需的存儲規(guī)模的方法。二十多年以來,對普通話話音識別技術(shù)的研究和開發(fā)已經(jīng)成了不僅在學術(shù)領(lǐng)域中,而且在面向商業(yè)的私營公司中的熱門話題。顯然,人類的話音是根據(jù)聲道的形狀及其瞬時的變化產(chǎn)生的,取決于發(fā)音器官的形狀或大小的聲道形狀必然是因人而異的。另一方面,也取決于發(fā)出的字的聲道的時間順序模式也有很小的具體差別。因此,可以將發(fā)音的特征分成兩個要素即聲道的形狀和瞬時模式。前者因說話者的不同差別很大,而后者差別是比較小的。所以如果對取決于聲道形狀的區(qū)別以某種方式進行標準化,則僅利用少量說話者的發(fā)音即可對具體人的話音實現(xiàn)識別。聲道形狀的不同將導致不同的頻譜。一種用于對說話者的頻譜區(qū)別進行標準化的方法是通過采用將話音輸入與為非特定說話者建立的音素樣板比較的方法對話音輸入進行分類。該運算實現(xiàn)了并不特別取決于說話者區(qū)別的相似性。同時聲道的瞬時模式被認為只有很小的差別。話音是人類最基本的通信手段,此點是促使了解話音生成機理的動因。諸如聲音的重疊振蕩的非線性、聲道發(fā)音器的動態(tài)、語言規(guī)律的知識和聲門源與聲道耦合聲學效應(yīng)等領(lǐng)域都是不斷進行研究的領(lǐng)域。通過對基本話音分析的不間斷的研究實現(xiàn)了話音合成、編碼和識別等新穎的和更實用的手段。在歷史發(fā)展的進程中J.Q.斯圖爾德(1922)研制出第一個用于對話音?;娜娮泳W(wǎng)絡(luò)。由老式的話音處理系統(tǒng)到最新的進展,我們了解了就聲道發(fā)音器的位置和移動、其時間波形特性的變化和諸如格式位置和帶寬等頻域特性等方面的話音聲學。由于需要發(fā)音器進行有限的移動,以便產(chǎn)生每個聲音,所以話音發(fā)生系統(tǒng)是不能進行即刻變化的。與聽覺系統(tǒng)不同,所述聽覺系統(tǒng)僅用于聽的目的,而用于生成話音的器官還承擔其它的諸如呼吸、吃東西和發(fā)出氣味等功能。就人際的話音通信的目的而言,考慮的僅是由說話者產(chǎn)生的聲音信號。事實上,還存在許多與之并列的人與電子之間的通信。受人的生成話音的器官和聽覺系統(tǒng)的限制,典型的人類話音通信被限定在7-8kHz帶寬上。旨在進行測定的對聲道的研究和理解自然話音信號與生理機理,即生成話音的人體聲道機理和聽取話音的人體聽覺系統(tǒng)間的關(guān)系科學,被稱作“聲學”。最新的方案對人類的說和聽的人體系統(tǒng)進行評價并且通過數(shù)字化將這些人類的通信信號變成參數(shù),例如聲學特征抽取。人類的聲音特征因人而異,即每個人都具有其獨自的聲音特征。通常用于不受說話者區(qū)別影響的話音識別的標準模式是通過對說話者的話音數(shù)據(jù)進行統(tǒng)計處理實現(xiàn)的。其中有幾種比較方法,例如一種應(yīng)用統(tǒng)計距離量度的方法和一種應(yīng)用神經(jīng)網(wǎng)絡(luò)模型的方法,例如臺灣專利303452;和隱式馬爾可夫模型(HMM),例如臺灣專利283774和269036。尤其是報導了許多采用連續(xù)混合高斯密度模型成功的實現(xiàn)的隱式馬爾可夫模型(HMM)。采用這些方法時,應(yīng)用作為特征參數(shù)的頻譜參數(shù)進行話音識別并且通常需要大量的說話者,以進行訓練。為實現(xiàn)高的識別率還要付出巨大的存儲代價。如果由少量的說話者可以實現(xiàn)用于不受說話者區(qū)別影響的話音識別的標準模式,則測定的規(guī)模將可大大小于通常的方式。因而可以節(jié)省人力和測定并且話音識別方法則易于用于各種應(yīng)用。為實現(xiàn)上述目的,我們提出應(yīng)用作為特征參數(shù)的相似性向量的話音識別設(shè)備的發(fā)明。根據(jù)此方法,由少量的說話者訓練出的字樣板在對不受說話者區(qū)別影響的識別時可實現(xiàn)高的識別率。為了在實際應(yīng)用時實現(xiàn)話音識別技術(shù),話音識別設(shè)備必須耐躁聲環(huán)境并且針對的是來自背景躁聲的字,而不是針對發(fā)音。另外,話音識別設(shè)備必須作為便攜式設(shè)備必須保持高的質(zhì)量性能。出于此考慮,本發(fā)明集中在用于便攜式設(shè)備的漢語話音識別系統(tǒng)內(nèi)的小規(guī)模的編程編碼,但高準確度的識別率。有許多用于英語話音識別的算法和方法,然而漢語就其話語表達而言具有一些完全不同于西方語言的主要的特性。例如公知的區(qū)別是每個漢字的聲調(diào)信息和單音節(jié)聲音模式。就漢語話語的字而言,漢語口語是雙音節(jié)的語言,其中一個字由在最后的元音前面的輔音或鼻音構(gòu)成。在前面的輔音被稱作“聲母”。聲母的發(fā)音時間很短并通過韻母起作用,而韻母在前面具有一個過渡部分。例如漢字“關(guān)”《メㄢ(g+uanl)或“心”T一ㄣ(s+ingl)等。韻母的中間部分是固定不變的并且對韻母組的整個集是相同的。每個韻母的結(jié)束部分的特征是有一個發(fā)音的或不發(fā)音的結(jié)束輔音。普通話共有21個聲母和一個輕聲母和36個韻母,所述韻母包括組成整個韻母的中間過渡和輕韻母。如果不考慮四聲,則共有409個普通話音節(jié)集。如果將聲調(diào)與音素組合在一起,則共有1345個不同的普通話音節(jié)。漢語口語的另外一個特征是發(fā)音特性的同音異意性,其中具有相同音素的不同的聲調(diào)表示不同的漢字。為實現(xiàn)漢語口語的準確的識別率,以有效的、關(guān)鍵性的和健全的方式由漢語話音信號提取相關(guān)信息的處理過程是重要的技術(shù)。有許多用于漢語話音識別的方法,其中包括有用于對話音信號的時間變化特性進行特征化的頻譜分析以及使話音信號耐各種記錄環(huán)境的信號預(yù)處理和后處理。這些方法通常與數(shù)字信號處理(DSP)技術(shù)和許多數(shù)學模型和公式相關(guān)聯(lián),例如DFT(離散型傅立葉變換)(或FFT(快速傅立葉變換))、有限脈沖響應(yīng)(FIR)、Z變換、線性預(yù)測編碼(LPC)、神經(jīng)網(wǎng)絡(luò)和隱式馬爾可夫模型(HMM)。盡管提出了許多用于漢語話音識別的數(shù)學模型,但這些方法用少量的訓練說話者數(shù)據(jù)庫仍不能提高識別準確度。在以基本的傳統(tǒng)的聲母-韻母結(jié)構(gòu)為基礎(chǔ)的用于漢語話音識別的方案中,應(yīng)用的是漢語聲母-韻母特性。該傳統(tǒng)的方案采用此方法用于將作為聲母和韻母鏈接的輸入音節(jié)?;?。但對該方案的應(yīng)用并不意味著將輸入的音節(jié)明顯地分為兩部分。采用這種聲母-韻母結(jié)構(gòu)的模化,必須通過對聲母和韻母的鑒別實現(xiàn)對音節(jié)集的識別。在應(yīng)用聲母-韻母特征的系統(tǒng)中,對聲母和韻母的識別是必不可少的部分。在最初階段,幾名發(fā)明人,例如在臺灣專利273615、278174(美國專利US5704004)和219993提出的用于分別識別聲母和韻母的方法。美國專利US5704004是臺灣專利278174的同族專利。音節(jié)首先被分成兩部分并且對其進行分別識別。即聲母首先由音節(jié)分出并根據(jù)諸如零交叉率、平均能量和音節(jié)時間等提取的特征被分類成發(fā)音的和不發(fā)音的部分。接著,采用這些特征向量建立特征編碼簿。應(yīng)用有限狀態(tài)向量量化可以實現(xiàn)識別。在這些傳統(tǒng)的系統(tǒng)中,首先了解韻母。所以可以在被識別的韻母組中進行輔音分類。根據(jù)實驗結(jié)果,該傳統(tǒng)的方案的識別準確度只能達到93%(臺灣專利273615)。同時,這些方案為進行處理必須建立無數(shù)的說話者的大型的話音大全。故提出本發(fā)明,不僅旨在改善識別準確度,而且也旨在實現(xiàn)一種可降低編程編碼規(guī)模的漢語話音識別系統(tǒng)的設(shè)備。本發(fā)明旨在提出一種采用作為特征參數(shù)的相似性向量的高準確度的不受說話者區(qū)別影響的漢語話音識別系統(tǒng)。在躁聲環(huán)境條件下包括臺灣的106個城市名稱的字識別率的實驗結(jié)果達97.3%。本發(fā)明的漢語話音的識別率大大高于傳統(tǒng)的方法(例如臺灣專利273615、278174)。其準確度高于其它傳統(tǒng)的方法4.5%。本發(fā)明的目的在于提出采用聲母/韻母相似性向量的用于漢語普通話話音識別的設(shè)備,以便提高漢語話音識別準確度并降低所需的存儲規(guī)模。本發(fā)明的目的還在于提出采用聲母/韻母相似性向量的漢語普通話話音識別的方法。一種漢語普通話識別的方法包括如下步驟根據(jù)聲母部分訓練音素相似性向量(PSV)模型,以便建立一具有訓練出的聲母部分模型參數(shù)的聲母部分模型;根據(jù)韻母部分訓練音素相似性向量(PSV),以便建立一具有訓練出的韻母部分模型參數(shù)的模型;訓練話音音節(jié)的音素相似性向量,以便采用作為音節(jié)模型的啟始參數(shù)的訓練出的聲母部分參數(shù)值和訓練出的韻母部分參數(shù)值建立音節(jié)模型;采用音節(jié)模型對目標話音取樣進行操作;根據(jù)目標話音取樣與音節(jié)模型的符合度對作為目標話音音節(jié)的目標話音取樣進行識別,和對作為與目標話音音節(jié)相符的漢字的目標話音取樣加以表示。一種漢語普通話識別方法另外還包括如下步驟根據(jù)通用的上下文關(guān)系的漢字順序訓練動態(tài)時間Warp編譯器,以便建立漢語模型;采用漢語模型對目標音節(jié)取樣中的目標話音音節(jié)順序進行操作;對作為與漢語模型相符的目標話音音節(jié)一致的漢字的目標話音取樣加以表示;和對作為與目標話音音節(jié)相符的順序一致的漢字順序的目標話音取樣加以表示。一種漢語普通話話音識別設(shè)備,包括一個話音信號濾波器,用于接收話音信號和產(chǎn)生經(jīng)濾波的模擬信號;一個模/數(shù)(A/D)轉(zhuǎn)換器,用于將話音信號轉(zhuǎn)換成數(shù)字話音信號;一個計算機,該計算機與A/D轉(zhuǎn)換器連接,用于接收和處理數(shù)字信號;一個音調(diào)鑒頻器,該鑒頻器與計算機連接,用于對話音信號的音調(diào)頻率特征進行檢測,從而實現(xiàn)對話音信號中的聲音進行識別;一個話音信號預(yù)處理器,該處理器與計算機連接,用于對話音信號的音節(jié)的結(jié)束點進行檢測,從而實現(xiàn)對音節(jié)的開始和結(jié)束的確定;和一個訓練部分,該部分與計算機連接,用于對聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型進行訓練并用于根據(jù)聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型的訓練出的參數(shù)對音節(jié)模型進行訓練。下面將結(jié)合優(yōu)選實施例并對照附圖對本發(fā)明的這些和其它目的和特征加以詳細的說明,其中對相同的部分采用相同的附圖標記加以標示。圖中示出圖1為本發(fā)明的優(yōu)選實施例的系統(tǒng)框圖;圖2為本發(fā)明輸入部分的處理過程的框圖;圖3為本發(fā)明的音頻分析部分的處理過程的框圖;圖4為本發(fā)明的相似性計算部分的處理過程的框圖;圖5為本發(fā)明的濾波和模/數(shù)信號轉(zhuǎn)換的詳細的處理框圖;圖6為本發(fā)明的模/數(shù)轉(zhuǎn)換的電路圖;圖7為本發(fā)明的帶通濾波器的詳細的處理框圖8為本發(fā)明的線性預(yù)測編碼(LPC)分析功能塊的詳細的處理框圖;圖9示出本發(fā)明的相似性計算和相似性參數(shù)生成的處理過程和及其算法;圖10示出本發(fā)明的識別部分的處理過程;圖11為用于本發(fā)明的音素模型化的漢語基本音節(jié)和聲調(diào)信息表;圖12、13和14為本發(fā)明的用于音素模型化的漢語詳細的音素信息表;圖15為本發(fā)明的動態(tài)編程表;和圖16示出用于實驗性的字樣板的106個城市名稱。本發(fā)明采用用少量的訓練說話者用于漢語普通話話音識別的系統(tǒng)和方法克服了現(xiàn)有技術(shù)的缺陷和制約。在本發(fā)明的話音識別系統(tǒng)中共有五個部分,即輸入部分20、音頻分析部分30、相似性計算部分40、識別部分50和輸出部分60。本發(fā)明宜在一規(guī)模-集成的器件中實現(xiàn)對音節(jié)的聲母和韻母的判定,以便實現(xiàn)對漢字的發(fā)音信息的鑒別。圖1示出本發(fā)明的用于漢語話音識別的結(jié)構(gòu)。在本發(fā)明的設(shè)備中,輸入部分20用于對人的話音信號輸入進行處理。圖2為輸入部分20的基本方框圖。由于人的話音是一種模擬信號,故必須將來自受話器輸入端的信號轉(zhuǎn)換成數(shù)字信號,以便用計算機(S205和S210)進行進一步的測定。通常,人的話音頻率在125Hz至3.5KHz的范圍內(nèi),因而必須在模/數(shù)轉(zhuǎn)換器的前面建立一個低通濾波器,以便獲得真實的人的話音信號并將來自實際環(huán)境的多余的躁聲信號濾除(S215)。圖3為音頻分析部分30的基本框圖。在該音頻分析部分30中有三個專用的處理方框(S305、S310和S315),包括帶通濾波器、特征參數(shù)的提取和線性預(yù)測編碼(LPC)分析模型。在音頻分析部分30后面進行計算,圖4為相似性計算部分40的框圖。本發(fā)明以用戶產(chǎn)生一個話音信號開始,實施一給定的任務(wù)。第二步,首先對話音輸出進行識別,其中話音信號根據(jù)音素樣板被譯碼成有意義的音素系列。音頻分析部分30對話音輸入和提取的線性預(yù)測編碼(LPC)對數(shù)倒頻譜系數(shù)和能量的增量進行分析。提取的參數(shù)與多種音素樣板進行比較,并且在相似性計算部分40中對靜態(tài)音素相似性和音素的一次回歸系數(shù)進行計算。此后,這些音素樣板的時間順序用于確定空間相似系數(shù)向量并求出回歸系數(shù)向量。假定所有的音素的協(xié)方差矩陣都是相同的,在相似性測量部分40應(yīng)用馬哈朗諾比斯距離算法進行距離測量。由后處理器求出被識別的字的意義,后處理器應(yīng)用動態(tài)編程,將輸入的字與實際的字和預(yù)先通過音素相似性計算被識別的字進行比較。因此,后處理可根據(jù)預(yù)先的音素結(jié)果作出判定,此點將降低所有識別模式的復雜性。最后,識別系統(tǒng)以話音輸出方式或類似的以提出實施的旨在促使用戶進一步輸入的動作要求對用戶作出響應(yīng)。下面不僅對每個過程,而且還對算法進行說明,以便對本發(fā)明設(shè)備的詳細的處理過程加以闡述。圖5示出模/數(shù)信號轉(zhuǎn)換的處理過程。絕大部分信號就其本質(zhì)而言是模擬形式的,因而需要進行模/數(shù)轉(zhuǎn)換處理,該轉(zhuǎn)換處理包括如下步驟1)模擬輸入信號,該信號的時間和振幅是連續(xù)的。2)取樣信號,該信號的振幅是連續(xù)的,但僅在離散的時間點上被定義。3)數(shù)字信號,x(n)(n=0,1,…)。該信號僅在離散的時間點上存在并且在每個時間點上只能有2B個數(shù)值中的一個。圖6為A/D轉(zhuǎn)換器的電路圖。圖7示出音頻分析部分的帶通濾波器的詳細的處理步驟。取樣的話音信號,s(n),通過Q個帶通濾波器,輸出信號Si(n)=s(n)*hi(n),1≤i≤Q]]>=Σm=0Ml-1hi(m)s(n-m)]]>其中設(shè)定第i個帶通濾波器的脈沖響應(yīng)是持續(xù)時間為Mi取樣的hi(m)。同時設(shè)定第i個帶通濾波器的輸出是頻率為wi的純正弦波,即Si=aisin(win)。如果采用作為非線性的全波檢波器,即f(Si(n))=Si(n)當Si(n)≥0時=-Si(n)當Si(n)<時則可以用Vi(n)=f(Si(n))=Si(n)·W(n)表示非線性輸出,其中W(n)=+1當Si(n)≥0時=-1當Si(n)<0時在非線性處理后,低通濾波器起著將高頻部分濾除的作用。盡管低通信號的頻譜不是一個純直流的脈沖,但代之的是在直流附近的低頻段內(nèi)含有的信號信息。因此末級的低通濾波器的重要作用在于去掉不需要的頻率峰值。在降低取樣速率的步驟中,對低通濾出的信號,ti(n)以40-60Hz的速率重新取樣,并且采用振幅壓縮方案對信號的動態(tài)范圍進行壓縮。在分析器的輸出端上,當采用的取樣速率為50Hz并且應(yīng)用一7比特對數(shù)振幅壓縮器時,則得到的信息速率為16路×50(取樣/秒/路)×7(比特/取樣),或5600(比特/秒)。因此,就此取樣舉例而言,可將比特率減少到1/40。圖8中示出音頻分析部分的LPC分析模型。LPC方法曾長期用于大量的識別器。尤其是隱含在LPC模型后面的基本構(gòu)思在于,在時間n,S(in)時的特定的話音取樣可以近似等于在后的p個話音取樣的線性結(jié)合,即S’(n)≈a1S(n-1)+a2S(n-2)+…+apS(n-P),其中系數(shù)a1,a2……,ap設(shè)定為話音分析幀的常數(shù)。在本發(fā)明的設(shè)備中,確定數(shù)值a1,a2,……,ap為0.95。在幀分組步驟中,對預(yù)加重的話音信號進行預(yù)處理,S’(n),被組成N個取樣的幀,所述幀與相鄰的幀間隔M個幀。設(shè)定,用x1(n)表示話音的第1個幀,并且在整個話音信號中有L個幀,則xi(n)=S’(Ml+n),n=0,1,……N-1,l=0,1,……,L-1。在本發(fā)明的設(shè)備中,N和M的值分別為300和100,所述值與8kHz的話音取樣速率相符。此后,處理中的下一步驟是對每個幀開窗口,以便最大限度地減少在每個幀開始和結(jié)束處的信號不連續(xù)性。在本發(fā)明的系統(tǒng)中,將窗口定義為w(n),0≤n≤N-1,并且開窗口的結(jié)果是信號x1’=x1(n)w(n),0≤n≤N-1。本發(fā)明的設(shè)備用于LPC自動修正方法的窗口是漢明窗口,其式為w(n)=0.54-0.46cos(2πn/N-1),0≤n≤N-1。據(jù)此,進行自動修正分析。接著對每個開窗口的信號的幀進行自動修正,得出ri(m)=Σn=0N-1-mxi′(n)xi′(n+m),----m=0,1,.....,p]]>其中,最大的自動修正值,p,是LPC分析的階。下一個處理級是LPC分析,該分析將每個p+1自動修正的幀轉(zhuǎn)換成“LPC參數(shù)集”,其中集可以是LPC系數(shù)、反射系數(shù)、記錄區(qū)域比系數(shù)和對數(shù)倒頻譜系數(shù)。在本發(fā)明的系統(tǒng)中,應(yīng)用了杜賓(Durbin)方法并給出下述算法的式子E(0)=r(0)ai(i)=kiαj(i)=αj(i-1)-kiαi-ji-1]]>E(i)=(1-ki2)E(i-1)]]>可以在i=1,2,……,p的情況下,遞歸地對上述等式組進行計算,并且最后的解為am=LPC系數(shù)=am(p),l≤m≤p。在求出LPC分析系數(shù)后,將LPC參數(shù)轉(zhuǎn)換成對數(shù)倒頻譜系數(shù),對該系數(shù)的處理在下面還將述及。可以直接由LPC系數(shù)集推導出的該非常重要的LPC參數(shù)集,該參數(shù)集是LPC對數(shù)倒頻譜系數(shù),c(m)。應(yīng)用的遞歸是C0=lnδ2Cm=αmΣk=1m-1(km)Ckαm-k,-----1≤m≤p]]>Cm=Σk=1m-1(k/m)Ckαm-k,----m>p]]>其中δ2是LPC模型的增益相。至今我們已得到了輸入向量C,該向量由許多幀中的LPC對數(shù)倒頻譜系數(shù)和能量增量構(gòu)成。圖9示出本發(fā)明的設(shè)備相似性計算部分的詳細的處理步驟及其算法。在該相似性計算部分中采用了馬哈朗諾比斯距離作為距離量度,其中設(shè)定所有音素的協(xié)方差矩陣是相同的。輸入向量c由十個幀中的LPC對數(shù)倒頻譜系數(shù)和能量增量構(gòu)成。如在圖9中的第一個方框所示,輸入向量c的表示式如下c=(v1,c1c,c11,…v10,…,c1013)t,其中ck1表示第k個幀的第i個LPC對數(shù)倒頻譜系數(shù)并且vk表示第k個幀的能量增量。對輸入向量c和音素樣板(音素p)之間的音素相似性的計算如下Lp=ap·c-bpap=2∑-1·μpbp=μp.∑-1·μp,其中μp是音素p的平均向量,并且∑表示協(xié)方差矩陣。在獲得靜態(tài)音素相似性之后,應(yīng)用50毫秒以上的靜態(tài)協(xié)方差矩陣計算出音素相似性的回歸系數(shù)。作為由少許說話者的話音獲得的作為輔音和元音的分-字單元的鏈接產(chǎn)生字樣板。具體地說,在相似性計算部分中,包括有音素樣板,該音素樣板由漢語的聲母部分和韻母部分構(gòu)成。漢語的音節(jié)具有聲母和韻母,聲母部分存儲有聲母的正文表示并且韻母部分存儲有韻母的正文表示。共有409種分-字單元。在圖11、12、13和14中示出基本漢語語音音標。據(jù)此,通過對s(i,j)的計算獲得相似性參數(shù),s(i,j)是計算局部相似性(s515)的打分函數(shù),s(i,j)=wdi·ej|di|·|ej|+(1-w)Δdi·Δej|Δdi|·|Δej|]]>其中di表示輸入的第i個幀中的相似性向量,ei表示基準的第j個幀的相似性向量,并且△di和△ei分別是回歸系數(shù)向量,并且’w’是根據(jù)相似性向量和根據(jù)其回歸系數(shù)向量打分的混合比。相似性的軌道是回歸系數(shù),所述回歸系數(shù)系對每個分-字單元的平均數(shù)并存儲在分-字詞典中。本設(shè)備的主要發(fā)明點是,當話音模式輸入到受話器中時,計算出作為特征參數(shù)的相似性向量的時間順序和每個幀的回歸系數(shù)向量。圖10示出識別部分。利用動態(tài)編程(DP)匹配對輸入話音的特征參數(shù)的時間順序與詞典中的基準進行比較并且選出最相似的字作為識別結(jié)果。在該部分中,應(yīng)用了最廣泛采用的被稱作動態(tài)時間Warp編譯(DTW)用于本發(fā)明的字樣板識別處理。DTW基本上是特征-匹配方案,該方案通過DP過程可固有地實現(xiàn)基準集與試驗特征的“時間對齊”。時間對齊系指試驗的話音的時間區(qū)與基準話音的相應(yīng)的區(qū)的匹配的過程。不僅因為通常相同字的不同的發(fā)音由不同的時間構(gòu)成,而且由于字內(nèi)的音素由跨接在發(fā)音上的不同的時間構(gòu)成,所以需要此時間對齊。在圖10的第三個框內(nèi)(S615)示出用字樣板算法進行字匹配的如下的動態(tài)編程D=Σk=1KdN(ik,jk),]]>t(ik)與r(jk)匹配,其中k=1,2,……,K通路為(ik,jk),其中k=1,2……,K累積的距離例如為g(i,j)g(i,j)=max[g(i-1,j-1)+s(i,j)g(i-1,j-2)+s(i,j-1)+s(i,j)g(i-2,j-1)+s(i,j)]]]>圖15分別示出與i和j搜索網(wǎng)格的坐標相關(guān)的試驗和基準特征向量。通過用由10位男性和10位女性,共20個人說的212個字集對本發(fā)明的用于漢語話音識別的設(shè)備的漢語音素樣板進行訓練。所述樣板的訓練是在作為時元的有特色的幀上根據(jù)時間-譜模式進行的。例如元音的時元在時間的中間并且不發(fā)音的輔音的時元在時間的結(jié)束處。在根據(jù)圖16中的包括臺灣的106個城市名稱的實驗結(jié)果中,下表示出傳統(tǒng)的LPC的對數(shù)倒頻譜系數(shù)的識別率的準確度。<tablesid="table1"num="001"><table>特征參數(shù)的差異32位8位6位4位LPC對數(shù)倒頻譜系數(shù)識別率(%)84.374.165.064.9</table></tables>另一方面,根據(jù)圖16的相同的實驗數(shù)據(jù),本發(fā)明的實驗結(jié)果表明,采用本發(fā)明的算法可以大大提高設(shè)備的準確度。<tablesid="table2"num="002"><table>特征參數(shù)的差異32位8位6位4位LPC對數(shù)倒頻譜系數(shù)識別率(%)97.597.597.597.3</table></tables>很明顯,根據(jù)上述兩個表格,本發(fā)明的識別率大大高于傳統(tǒng)設(shè)備的識別率。另外,甚至在采用4比特取樣獲得提取參數(shù)時,本發(fā)明的設(shè)備也能實現(xiàn)較高的準確度。在差不多所有傳統(tǒng)的手段中,都用32比特進行參數(shù)提取(4字節(jié))進行特征表示。但在本發(fā)明的設(shè)備中僅用4比特即可提取參數(shù),而且準確度很高。盡管在上面結(jié)合本發(fā)明的優(yōu)選實施例并對照附圖對本發(fā)明作了說明,但要指出的是,任何變化和變動對本領(lǐng)域的專業(yè)人員都是顯而易見的。這類變化和變動應(yīng)被視為在本發(fā)明的范圍內(nèi)。權(quán)利要求1.一種漢語普通話話音識別方法,包括如下步驟根據(jù)聲母部分訓練音素相似性向量(PSV)模型,建立一具有訓練出的聲母部分模型參數(shù)的聲母部分模型;根據(jù)韻母部分訓練音素相似性向量,建立一具有訓練出的韻母部分模型參數(shù)的韻母部分模型;訓練話音音節(jié)音素相似性向量,采用作為音節(jié)模型的啟始參數(shù)的訓練出的聲母部分參數(shù)值和訓練出的韻母部分參數(shù)值建立音節(jié)模型;采用音節(jié)模型對目標話音取樣進行操作;根據(jù)目標話音取樣與音節(jié)模型的符合度對作為目標話音音節(jié)的目標話音取樣進行識別;和對作為與目標話音音節(jié)一致的漢字的目標話音取樣加以表示。2.按照權(quán)利要求1所述的漢語普通話話音識別方法,另外還包括如下步驟根據(jù)通用的上下文關(guān)系的漢字順序訓練動態(tài)時間Warp編譯器,建立漢語模型;采用漢語模型對目標音節(jié)取樣中的目標話音音節(jié)順序進行操作;對作為與漢語模型相符的目標話音音節(jié)順序一致的漢字順序的目標話音取樣進行表示;和對作為與目標話音音節(jié)相符的順序一致的漢字順序的目標話音取樣進行表示。3.一種漢語普通話話音識別設(shè)備,包括一個話音信號濾波器,用于接收話音信號和產(chǎn)生經(jīng)濾波的模擬信號;一個模/數(shù)(A/D)轉(zhuǎn)換器,用于將話音信號轉(zhuǎn)換成數(shù)字話音信號;一個計算機,該計算機與A/D轉(zhuǎn)換器連接,用于接收和處理數(shù)字信號;一個音調(diào)鑒頻器,該鑒頻器與計算機連接,用于對話音信號的音調(diào)頻率特征進行檢測,從而實現(xiàn)對話音信號的聲音進行識別;一個話音信號預(yù)處理器,該處理器與計算機連接,用于對話音信號的音節(jié)的結(jié)束點進行檢測,從而實現(xiàn)對音節(jié)的開始和結(jié)束的確定;和一個訓練部分,該部分與計算機連接,用于對聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型進行訓練并用于根據(jù)聲母部分音素相似性向量(PSV)模型和韻母部分音素相似性向量(PSV)模型的訓練出的參數(shù)對音節(jié)模型進行訓練。全文摘要本發(fā)明涉及一種采用聲母/韻母音素相似性向量對漢語普通話話音識別的設(shè)備,該設(shè)備可提高漢語話音識別準確度并降低所需的存儲的規(guī)模。一種漢語普通話識別設(shè)備包括一話音信號濾波器、一模/數(shù)轉(zhuǎn)換器、一計算機、一音調(diào)鑒頻器、一話音信號預(yù)處理器和一訓練部分。文檔編號G10L15/00GK1300049SQ0013452公開日2001年6月20日申請日期2000年12月11日優(yōu)先權(quán)日1999年12月10日發(fā)明者楊中和申請人:松下電器產(chǎn)業(yè)株式會社