專利名稱::隱藏式馬可夫模型的中文詞音識別方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明提出一中文詞音的快速識別方法。此方法為基于隱藏式馬可夫模型的一種改良識別方法。隨著計算機技術(shù)的進步與普及,許多用語音識別技術(shù)作為產(chǎn)品開發(fā)策略的主張也跟著被提出及試行。雖然經(jīng)過多方面的努力,語音識別仍被認為是在人工智能及計算機科技上較難處理的問題。用語音作為輸入的方式有許多好處,它提供了自然、快速、免于用手、眼,而且可不拘于場所的一種輸入介面。對中文而言,語音輸入提供了更具吸引力的條件,因為中文的文字輸入比起拼音式的文字,譬如英文要困難得多。然而目前仍存在一些障礙,包括成本高、反應不夠迅速、需要訓練、在噪音環(huán)境、說話速度不定,以及音量大小變化的情況下,功能仍不夠穩(wěn)定,對不成文法的話語(nongrammaticalspeech)仍缺乏處理的能力等等。此外,中文語音中聲母(相當于英文中的輔音)的混淆使得前述的問題更為嚴重。有好幾種在識別率上表現(xiàn)得相當準確的語音識別方法曾被提出。這些方法包括NTTItakura所提的非線性對齊的動態(tài)時間標準法,Carnegie-Mellon大學的DRAGON系統(tǒng)(將語音規(guī)律的知識化成隨機模型stochasticmodelling),Carnegie-Mellon大學的HAPPY系統(tǒng)(結(jié)合了DRAGON及HEARSAY的優(yōu)點,并用網(wǎng)路表示法及光束搜尋法以改善搜尋效率),BellLab的Wilpon系統(tǒng),(用聚集技術(shù)建立較強健的非特定語者詞音識別參考模版),Carnegie-Mellon大學的FEATURE系統(tǒng)(使用與語者無關(guān)的特征免用文法規(guī)則可將英文字母的識別率提升90%以上)。IBM的Tangora系統(tǒng)(可識別大量詞匯的自然文句),BBN的BYBLOS系統(tǒng)(使用了音素間前后文相關(guān)的模型),以及BellLabs的Rabiner系統(tǒng)(用連續(xù)隱藏式馬可夫模型)等。有關(guān)這些技術(shù)優(yōu)點及限制的各方面討論可參考Kai-FuLee所著“AutomaticSpeechRecognitionThedevelopmentoftheSHPHINXSystem”,KluwerAcademicPublishers1989出版。有關(guān)隱藏式馬可夫模型在語音識別上的應用在其上亦有詳細的論述。構(gòu)成中文字音(Syllable)的基本單位有聲母及韻母。而一中文詞音由中文字音串接而成。在識別時,輸入的語音信號A是以一串特征向量表示。例如A可表示成A=X1X2…Xt…XT。Xt即為第t個音框(frame)的特征向量,而T為信號的總音框數(shù)。隱藏式馬可夫模型為一統(tǒng)計式的語音信號的描述方式。在此模型中,語音信號根據(jù)某種概率分布產(chǎn)生。而此概率分布隨時間逐漸改變。換言之,在某一階段(某段時間)信號以某種概率分布呈現(xiàn),但在下一階段會變成另一概率分布呈現(xiàn)。此“階段”在隱藏式馬可夫模型中稱為狀態(tài)(state),每個狀態(tài)i伴隨著一產(chǎn)生信號的概率分布bi(Xt),此被稱為產(chǎn)出的觀測概率。從某一狀態(tài)i轉(zhuǎn)移至狀態(tài)j以狀態(tài)轉(zhuǎn)移概率aij描述。因此基本上隱藏式馬可夫模型由一些可轉(zhuǎn)移的狀態(tài)組成。轉(zhuǎn)移由aij決定而每次轉(zhuǎn)移所產(chǎn)生的信號Xt由bi(Xt)決定。有關(guān)隱藏式馬可夫模型的細節(jié)可參考L.R.Rabiner及B.H.Juang所著的論文“AnIntroductiontoHiddenMarkovModels,”IEEEASSPMagazine(January1986)。下文中“隱藏式馬可夫模型”以此為參考,不再贅述。在本發(fā)明所用的術(shù)語中,含N個詞的詞匯(Vocabulary)集以W={W1,W2…WN}表示,Wi的詞長(即詞中所含的字數(shù))為|Wi|=li。詞Wi所對應的發(fā)聲模型(acousticmodel)為Mi,此模型由字音模型串接而成。字音模型出自集合{C1,C2,C3…}。即M=Ci1Ci2…Ci|Wi|,再往下分解,字音模型Gi由聲母模型mjI及韻母模型mkF組成,即Ci=[mjI]mkF。聲母模型中的中括號表示字音中有可能沒有聲母。聲、韻母模型以隱藏式馬可夫模型表示。在識別時,設輸入語音信號A為詞Wi的發(fā)音。所謂識別即在詞匯W中找出Wi。在本發(fā)明中,所謂全面搜尋(fullsearchprocedure)即是對所在詞匯中的詞音模型Mi(i=1,2…,N)計算由Mi產(chǎn)生A的概率Prob(A|Mi)。具有最大概率的詞Wk即被辨認為會產(chǎn)生A的詞。即k=argMiax(Prob(A|Mi))]]>概率Prob(A|Mi)的計算,是通過具有由左至右(left-to-right)的結(jié)構(gòu)并具有s個狀態(tài)的隱藏式馬可夫模型,對輸入信號A=X1X2…Xt…XT進行的。計算過程中的最佳狀態(tài)通過Viterbi算法獲得。此算法的詳細內(nèi)容亦可在L.R.Rabiner及B.H.Juang的文章中“AnIntroductiontoHiddenMarkovModel”,IEEEASSPMagazine(January1986)中提到,不在此贅述。前面所提到的識別方法稱為全面搜尋法。在此方法中,輸入的語音信號要對所有N個模型作計算,當詞匯數(shù)N很大時,這種作法便非常費時。本發(fā)明的目的在于提出一種改善中文詞音識別的方法。具體而言,在于開發(fā)一快速,特別是在即時(realtime)速度上,基于隱藏式馬可夫模型的一種中文詞音識別方法。本發(fā)明的另一個目的在于提供一種采用所述方法的中文詞音識別裝置。本發(fā)明的目的是這樣實現(xiàn)的,即提出一種基于隱藏式馬可夫模型的快速的中文詞音識別的方法和裝置,所述方法在全面搜尋之前先過濾掉詞匯中大部份的詞,然后再對剩下的少量詞做全面搜尋,如圖1的流程圖所示。輸入信號首先被切割成l個字音段,每段包含一聲母段及韻母段。(聲母段有時空缺)。此步驟以下式表示為A=([s1I]s1F)([s2I]s2F)…([s1I]s1F)其中A為輸入的語音信號,siI(i=1,2…,l)為第i個聲母段落,siF為第i個韻母段落。中括號表示聲母段落可能不在信號中。如前述,每個字音模型Gi是由聲母模型mjI及韻母模型mkF串接而成,即Ci=[mjI]mkF。因此在篩選階段要用到兩組模型的數(shù)據(jù)庫。一組為詞音模型Mn,另一組含J個聲母模型mjI(j=1,2…,J),及K個韻母模型mkF(k=1,2,…K)。下一步驟即對所有的聲韻母段落(即i=1,2,…,l)及對所有的聲韻母模型mjI,mjF(即j=1,2,…,J,k=1,2,…K計算logProb(sjI|mjI)及l(fā)ogProb(siF|mkF)。在本發(fā)明中,在W中每個詞長為l的詞Wn對應的發(fā)聲模型為Mn=([[mn1I]mn1F)([mn2I]mn2F)…([mn1I]mn1F)。因此logProb(Wn)可由下式算出logProb(Wn)=Σr=1l(logProb(srI|mnrI)+logProb(srF|mnrF))]]>輸入的語音信號A,可能為除了l外的別的詞長。因此,必須挑選別的詞長對A再作切割,并用上式再計算一遍,直到詞匯W中所有可能的詞長(通常不外乎2字詞,3字詞或4字詞,即l=2,3或4)均用相同的方式處理過為止。當所有的logProb(Wn)均計算完后,找出前X個具有最大值的詞Wi,i=1,2…,X。這些即為在第一階段時篩選得到的結(jié)果,由原先N個詞的搜尋范圍減到只剩X個詞。在第兩階段中,僅對剩下的X個候選詞作全面搜尋。從而A被辨認為詞Wx,其中x=argMiax(Prob(A|Mi))----i=1,2,...,X]]>所述裝置為采用所述方法實現(xiàn)中文語音識別的裝置,包括存儲第一組數(shù)據(jù)庫的第一存儲裝置和取得第一組數(shù)據(jù)庫的裝置;存儲第二組數(shù)據(jù)庫的第二存儲裝置和取得第二組數(shù)據(jù)庫的裝置;接收一輸入語音信號A的裝置;將輸入語音信號切割成l個段落的裝置;存取該第二存儲裝置并計算logProb(Wn)的裝置;尋找前X個最大logProb(Wn)值的裝置;存取該第一存儲裝置并計算Prob(A|Mn)的裝置;及輸出識別詞Wx的裝置。隱藏式馬可夫模型曾被成功地用在中文詞音識別上。然而,用來執(zhí)行的機器大都是高速計算機。由于計算速度的限制,用較低級(lowend)的計算機,例如個人計算機,在辨認大詞匯集時往往會遭遇到一些困難。本發(fā)明提出的一兩階段的中文詞音識別的方法和裝置,得到了快速而不犧牲識別率的結(jié)果。以下參考附圖詳細說明本發(fā)明的實施例,其中圖1為本發(fā)明兩階段快速識別中文詞的方法流程圖。圖2顯示將一中文詞音信號切割成2段、3段或4段的結(jié)果。本發(fā)明提出一種基于設計模型的改善識別中文詞音的方法。在此方法中涉及二組統(tǒng)計模型數(shù)據(jù)庫,并采用兩階段作法,每一階段均使用到此二組數(shù)據(jù)庫以達到即時或接近即時的快速中文詞音識別。本發(fā)明的詞音識別針對一組含N個詞的詞匯W即W={W1,W2,…WN}每個詞Wi的詞長(所含字的個數(shù))以|Wi|=li表示。因此若詞Wi的發(fā)聲模型(acousticmodel)以Mi表示,則Mi由字音模型串接而成。即若字音模型所成的集合為{C1,C2,C3…},則詞音模型Mi可表示為Mi=Ci1Ci2…Ci|Wi||Wi|即詞音模型Mi中所包含的字音個數(shù)。在中文字音中,每一字音由聲、韻母接序而成。因此,每一字音模型Ci可用聲母模型mjI及韻母模型mkF表示為Ci=[mjI]mkF其中,中括號表示有些字音聲母可能不存在。在本發(fā)明中,聲母模型及韻母模型均以隱藏式馬可夫模型表示。此二組模型數(shù)據(jù)庫,包括詞音模型及聲韻母模型,將在以后的識別過程中使用到。在語音識別時,輸入的語音信號為A。識別的目標即在詞匯W中找出一詞Wj,A即為該詞在正確發(fā)音情況下產(chǎn)生的信號。本發(fā)明提出一種基于隱藏式馬可夫模型,用兩階段步驟處理中文詞音識別的新方法。此方法運用了二組模型數(shù)據(jù)庫。一組為包含詞匯中所有的詞音模型,另一組為聲、韻母的發(fā)聲模型。在兩階段過程中第一階段利用聲、韻母模型在詞匯中篩選出少量的候選詞。然后在第二階段對這些少量的候選詞作全面搜尋。圖1的流程圖說明了此篩選的過程。輸入的語音信號A首先被切割成l段字音段(segment)每個段落包含了一聲母及韻母的子段落(subsegment)或者是聲母段落空缺而只含一韻母段落。若以符號表示即如下式A=([s1I]s1F)([s2I]s2F)…([s1I]s1F)其中sjI(i=1,2,…,l)即為聲母子段落,而siF(i=1,2,…,l)為韻母子段落。中括號表示此段落可能空缺。此一切割的過程通過Viterbi算法完成。然而用來切割的模型是分別由一般聲韻母結(jié)合而成的通用聲、韻母模型。此二模型與一般的聲母及韻母模型結(jié)構(gòu)相同,只是每個狀態(tài)的產(chǎn)出觀測概率為一般聲母及韻母在同一狀態(tài)下觀測概率中的最大值。圖2顯示一輸入語音被切割成2段、3段及4段的結(jié)果。如前述,每個字音模型Ci為一聲母模型mjI(可能空缺)接一韻母模型mkF,即Ci=[mjI]mkF。因此在本發(fā)明的第一階段即涉及J個一般聲母模型mjI(j=1,2,…,J)以及K個一般韻母模型mkF(k=1,2,…,K)。前述用來切割的通用聲母模型由此J個一般聲母模型結(jié)合而成。此通用模型與一般模型有相同的結(jié)構(gòu),而狀態(tài)的產(chǎn)生觀測概率取所有一般聲母中同一狀態(tài)下的最大產(chǎn)出觀測概率。通用韻母也是采用相同的方式由一般韻母結(jié)合形成。有了切割的子段落sjI或siF及一般聲韻母模型mjI,mkF后,下一步即針對所有的段落i(i=1,2…,l)及所有的聲母模型mjIj=1,2,…,J及所有的韻母模型mkFk=1,2,…,K計算logProb(sjI|mjI)及l(fā)ogProb(siF|mkF)。本發(fā)明中,在詞匯W中具有詞長l的每一詞Wn其發(fā)聲模型為Mn=([mn1I]mn1F)([mn2I]mn2F)…([mn1I]mn1F)。而logProb(Wn)的值可由下式而得logProb(Wn)=Σr=1l(logProb(srI|mnrI)+logProb(srF|mnrF))]]>若詞匯中除l外尚有其它的詞長(通常中文詞匯中有2個字詞3字詞或4字詞)則A需再次被切割成其它的詞長并重復以上的步驟直到所有詞長均被處理過為止。當計算出所有的logProb(Wn))后,具有前X個最大logProb(Wn)值的詞Wi,i=1,2,…,X即為被篩選出的第一階段的候選詞。這些候選詞然后被送入第二階段作全面搜尋。若Wi的發(fā)聲模型為Mi,則在作全面搜尋時,所有的Prob(A|Mi)均需計算。具有最大值的詞Wx即為最后的識別結(jié)果。(即A是由詞Wx所產(chǎn)生的語音信號之一)。以數(shù)學式表示如下x=argMiax(Prob(A|Mi))----i=1,2,...,X]]>全面搜尋亦可直接用在整個詞匯上。由于未經(jīng)篩選,Prob(A|Mi)的計算涉及詞匯中所有的N個詞。具有最大值的詞Wk即為識別結(jié)果,即若k=argMiax(Prob(A|Mi))----i=1,2...,N]]>則A被識別為詞Wk。以下將用一些特例驗證本發(fā)明方法的效果。這些特例只是用來方便說明而已。并不表示本發(fā)明方法只能局限于此范圍。在實驗中,使用21個一般聲母模型及36個一般韻母模型。模型以具有3個狀態(tài)由左至右結(jié)構(gòu)的隱藏式馬可夫模型表示,每個狀態(tài)的產(chǎn)出觀測概率為4個高斯分布(GaussianDistribution)的混合。模型中的參數(shù)估計用眾所周知的Baum-Welch重估法得到,關(guān)于這方面的細節(jié)可參考Rabsiner及Juang的文章“AnIntroductiontoHidderMarkovModds”IEEEASSPMagazineJanuary1986,在此不再贅述。切割輸入語音所用的通用聲母及通用韻母模型分別由21個一般聲母模型及36個一般韻母模型結(jié)合而成。在通用模型觀測概率方面,若通用聲母模型在狀態(tài)i的產(chǎn)出觀測概率為BjI(Ot)而在一般聲母的ij(Ot)(j=1,2,…,21),同樣地,若通用韻母模型在狀態(tài)i的產(chǎn)出觀測概率為BiF(Ot)而一般韻母的為bik(Ot)(k=1,2,…36),則BiI(Ot)及BiF(Ot)的值分別為ij(Ot)及bik(Ot)中最大值,如下式所示BiI(Ot)=maxjbij^(Ot),----j=1,2,......21]]>BiF(Ot)=maxkbik‾(Ot),----k=1,2,......36]]>由于轉(zhuǎn)移概率aij對切割結(jié)果幾乎無任何影響,因此通用模型的轉(zhuǎn)移概率取向任一一般模型的轉(zhuǎn)移概率。這些計算步驟的原始程序由附錄給出。三種不同大小的詞匯100個詞、400個詞及945個詞,用來作測試。每個詞音由字音串接而成,而每個字音Gi由一般聲母模型mjI接一韻母模型mkF形成。表1比較了傳統(tǒng)的全面搜尋方法以及本發(fā)明的兩階段識別方法所需要的識別時間。計算系在SUNSPARC10工作站上執(zhí)行。表中數(shù)據(jù)顯示本發(fā)明方法所需時間少于全面搜尋法所需時間并且?guī)缀跖c詞匯大小無關(guān)。此結(jié)果說明本發(fā)明方法對中文大詞匯的識別有快速效果。表1不同候選詞數(shù)(X)所需的識別時間(sec/frame)</tables>表2至表5比較了傳統(tǒng)的全面搜尋方法與本發(fā)明的兩階段方法的識別率。表2-4列出了測試語音數(shù)據(jù)為3名男性語者(M1,M2,M3)所讀的479個詞的識別結(jié)果,詞匯所含的詞數(shù)為480。表5列出了某語者讀100詞的測試結(jié)果。表2</tables><tablesid="table3"num="003"><tablewidth="832">X=206313.15X=306212.94X=406012.53X=505812.11</table></tables>表3<tablesid="table4"num="004"><tablewidth="829">M2錯誤數(shù)錯誤率(%)全面搜尋112.30本發(fā)明方法X=10163.34X=20153.13X=30153.13X=40142.92X=50142.92</table></tables>表4<tablesid="table5"num="005"><tablewidth="831">M3錯誤數(shù)錯誤率(%)全面搜尋5010.44本發(fā)明方法X=104910.23X=20479.81X=30479.81X=404810.02X=504910.23</table></tables>表5<tablesid="table6"num="006"><tablewidth="831">錯誤數(shù)錯誤率(%)全面搜尋55本發(fā)明方法X=1066X=2066X=3066</table></tables>表2-5的結(jié)果說明,用本發(fā)明的兩階段方法獲得的識別率與用全面搜尋法獲得的效果相當。然而本發(fā)明方法卻有較快的識別速度,使得大量詞匯的語音識別可在普遍被使用的個人計算機上執(zhí)行。以上所述僅為本發(fā)明優(yōu)選實施例的說明,但本發(fā)明并不受限于此,本領(lǐng)域的普通技術(shù)人員,在本發(fā)明說明書的公開之下,進行的任意變化,都不脫離所附權(quán)利要求規(guī)定的范圍。權(quán)利要求1.一種中文詞音識別方法,包括以下的步驟(a)取得第一組數(shù)據(jù)庫,其中該第一組數(shù)據(jù)庫包括一組含N個中文詞的詞匯集,此詞匯集以W={W1,W2,...,WN}表示,每個詞Wi有個發(fā)聲模型Mi,此模型由字音模型串接而成,字音模型的集合以{C1,C2,C3…}表示,每個字音模型Ci是由聲母模型后接一韻母模型形成,其中聲母模型可能空缺,聲母模型及韻母模型均以統(tǒng)計模型表示;(b)取得第二組數(shù)據(jù)庫,其中該第二組數(shù)據(jù)庫包括一組J個聲母模型mjI(j=1,2,...,J)及另一組K個韻母模型mkF(k=1,2,...,K);(c)接收一輸入語音信號A;(d)將輸入語音信號切割成l個段落(segment),其中該l為一整數(shù),而輸入語音信號可以以下式表示A=([s1I]s1F)([s2I]s2F)…([s1I]s1F)其中siI(i=1,2,...,l)為聲母子段落,而siF(i=1,2,...l)為韻母子段落,[]表示有些聲母子段落可能為空段落;(e)對詞匯W中的每一個詞長為l的詞Wn,此詞的發(fā)聲模型為Mn=([mn1I]mn1F)([mn2I]mn2F)…([mn1I]mn1F),由下式計算logProb(Wn),logProb(Wn)=Σr=1l(logProb(srI|mnrI)+logProb(srF|mnrF));]]>(f)在詞匯W中找X個詞,這些詞的logProb(Wn)值在詞匯W中的所有詞的logProb(Wn)值中為前X個最大值,設這些X個詞的集合為W’;(g)對每個在詞匯W’內(nèi)的詞Wn,計算Prob(A|Mn)(n=1,2,…,X),即在已知Mn模型下產(chǎn)生A的概率;及(h)輸出識別出的詞Wx,其中x=argMnax(Prob(A|Mn))----n=1,2...,X.]]>2.如權(quán)利要求1所述的方法,其中聲母模型與韻母模型均用隱藏式馬可夫模型表示。3.如權(quán)利要求1所述的方法,其中輸入語音信號采用Viterbi算法進行切割。4.如權(quán)利要求1所述的方法,其中包括用不同的詞長l重復步驟(d)及(e)。5.如權(quán)利要求4所述的方法,其中所述不同的詞長l分別為2,3及4。6.如權(quán)利要求1所述的方法,其中X是個等于或大于10的整數(shù)。7.如權(quán)利要求1所述的方法,其中X是個整數(shù),且至少是N的2%。8.一種中文詞音識別裝置,包含(a)取得第一組數(shù)據(jù)庫的裝置,其中該第一組數(shù)據(jù)庫包括一組含N個中文詞的詞匯集,此詞匯集以W={W1,W2,…WN}表示,每個詞Wi有個發(fā)聲模型Mi,此模型由字音模型串接而成,字音模型的集合以{C1,C2,C3…}表示,每個字音模型Ci是由聲母模型后接一韻母模型形成,其中聲母模型可能空缺,聲母模型及韻母模型均以統(tǒng)計模型表示;(b)取得第二組數(shù)據(jù)庫的裝置,其中該第二組數(shù)據(jù)庫包括一組J個聲母模型mjI(i=1,2,...,J)及另一組K個韻母模型mkF(k=1,2,...K);(c)接收一輸入語音信號A的裝置;(d)將輸入語音信號切割成l個段落的裝置,其中該l為一整數(shù),而輸入語音信號可以以下式表示A=([s1I]s1F)([s2I]s2F)…([s1I]s1F)其中sjI(i=1,2,...,l)為聲母子段落,而siF(i=1,2,...l)為韻母子段落,[]表示有些聲母子段落可能為空段落;(e)對詞匯W中的每一個詞長為l的詞Wn,此詞的發(fā)聲模型為Mn=([mn1I]mn1F)([mn2I]mn2F)…([mn1I]mn1F),由下式計算logProb(Wn)的裝置,logProb(Wn)=Σr=1l(logProb(srI|mnrI)+logProb(srF|mnrF))]]>(f)在詞匯W中找X個詞的logProb(Wn)值在前X個最大值范圍內(nèi)的裝置,設這些X個詞的集合為W’;(g)對每個在詞匯W’內(nèi)的詞Wn,計算Prob(A|Mn)(n=1,2,...X),即在已知Mn模型下產(chǎn)生A的概率的裝置;及(h)輸出識別出的詞Wx的裝置,其中x=argMnax(Prob(A|Mn))----n=1,2,...,X]]>。9.如權(quán)利要求8所述的裝置,其中聲母模型與韻母模型均用隱藏式馬可夫模型表示。10.如權(quán)利要求8所述的裝置,其中輸入語音信號采用Viterbi算法進行切割。11.如權(quán)利要求8所述的裝置,其中包括用不同的詞長l重復所述步驟(d)及(e)。12.如權(quán)利要求11所述的裝置,其中所述不同的詞長l分別為2,3及4。13.如權(quán)利要求8所述的裝置,其中X是個等于或大于10的整數(shù)。14.如權(quán)利要求8所述的裝置,其中X是個整數(shù),且至少是N的2%。15.一種中文詞音識別裝置,包含(a)第一存儲裝置以儲存第一組數(shù)據(jù)庫,其中該第一組數(shù)據(jù)庫包括一組含N個中文詞的詞匯集,此詞匯集以W={W1,W2,…WN}表示,每個詞Wi有個發(fā)聲模型Mi,此模型由字音模型串接而成,字音模型的集合以{C1,C2,C3...}表示,每個字音模型Gi是由聲母模型后接一韻母模型形成,其中聲母模型可能空缺,聲母模型及韻母模型均以統(tǒng)計模型表示;(b)第二存儲裝置以儲存第二組數(shù)據(jù)庫,其中該第二組數(shù)據(jù)庫包括一組J個聲母模型mjI(j=1,2,...,J)及另一組K個韻母模型mkF(k=1,2,...,K);(c)接收一輸入語音信號A的裝置;(d)將輸入語音信號切割成l個段落的裝置,其中該l為一整數(shù),而輸入語音信號可以以下式表示A=([s1I]s1F)([s2I]s2F)…([s1I]s1F)其中siI(i=1,2,...,l)為聲母子段落,而siF(i=1,2,...l)為韻母子段落,[]表示有些聲母子段落可能為空段落;(e)存取該第二存儲裝置,并對詞匯W中每一個詞長為l的詞Wn,計算logProb(Wn)的裝置,該詞的發(fā)聲模型為Mn=([mn1I]mn1F)([mn2I]mn2F)…([mn1I]mn1F),logProb(Wn)可由下式計算,logProb(Wn)=Σr=1l(logProb(srI|mnrI)+logProb(srF|mnrF))]]>(f)在詞匯W中找X個詞的logProb(Wn)值在前X個最大值范圍內(nèi)的裝置,設這些X個詞的集合為W’;(g)存取該第一存儲裝置,并對每個在詞匯W’內(nèi)的詞Wn,計算Prob(A|Mn)(n=1,2,…X),即在已知Mn模型下產(chǎn)生A概率的裝置;及(h)輸出識別出的詞Wx的裝置,其中x=argMnax(Prob(A|Mn))----n=1,2,...,X]]>。16.如權(quán)利要求15所述的裝置,其中聲母模型與韻母模型均用隱藏式馬可夫模型表示。17.如權(quán)利要求15所述的裝置,其中輸入語音信號采用Viterbi算法進行切割。18.如權(quán)利要求15所述的裝置,其中包括用不同的詞長l重復所述步驟(d)及(e)。19.如權(quán)利要求15所述的裝置,其中所述不同的詞長l分別為2,3及4。20.如權(quán)利要求19所述的裝置,其中X是個等于或大于10的整數(shù)。21.如權(quán)利要求15所述的裝置,其中X是個整數(shù),且至少是N的2%。全文摘要一種基于隱藏式馬可夫模型的中文詞音識別方法和裝置,其特點是采用兩階段步驟處理中文詞音識別并運用了二組模型數(shù)據(jù)庫;一組為包含詞匯中所有的詞音模型,另一組為聲、韻母的發(fā)聲模型;在兩階段過程中第一階段利用聲、韻母模型在詞匯中篩選出少量的候選詞。然后在第二階段對這些少量的候選詞作全面搜尋。與通常的全面搜尋方法相比,它具有快速而又不犧牲識別率的優(yōu)點,因而可以應用在個人計算機上。文檔編號G10L15/14GK1177775SQ9612260公開日1998年4月1日申請日期1996年9月26日優(yōu)先權(quán)日1996年9月26日發(fā)明者彭吳忠謀申請人:財團法人工業(yè)技術(shù)研究院