專利名稱:連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及連續(xù)語音識別技術(shù),尤其涉及在連續(xù)語音識別中用于自動生成標(biāo)點(diǎn)符號的裝置及方法。
一般的語音識別系統(tǒng)可以如
圖1所示。該系統(tǒng)中,一般包括一個語音模型7和一個語言模型8。語音模型7包括所識別語言中的常用文字的發(fā)音。這種發(fā)音是利用統(tǒng)計(jì)方法從多數(shù)人對某個文字的閱讀發(fā)音中總結(jié)出來的,代表了該文字的一般發(fā)音特征。語言模型8包括所識別語言中的常用文字的使用方法。
圖1所示的連續(xù)語音識別系統(tǒng)的工作過程為,語音檢測裝置1采集用戶的語音,例如將語言表示為語音采樣,將該語音采樣送到發(fā)音概率計(jì)算裝置2。發(fā)音概率計(jì)算裝置2對語音模型7中的每個發(fā)音給出其與語音采樣是否相同的概率估值。文字概率計(jì)算裝置5,根據(jù)從大量語料中總結(jié)出的語言規(guī)律,給出對語言模型8中的文字是否是當(dāng)前上下文情況下應(yīng)出現(xiàn)的文字的概率估值。文字匹配裝置3,將發(fā)音概率計(jì)算裝置2計(jì)算的概率估值與文字概率計(jì)算裝置5計(jì)算的概率估值結(jié)合起來,計(jì)算一個聯(lián)合概率(該聯(lián)合概率值表示將語音采樣識別為該文字的可能性),取聯(lián)合概率值最大的文字,作為語音識別的結(jié)果。上下文產(chǎn)生裝置4利用上述識別結(jié)果修改當(dāng)前的上下文,以便識別下一個語音采樣所用。文字輸出裝置6輸出所識別的文字。
上述的連續(xù)語音識別過程可以以字、詞或短語為單位進(jìn)行。因此,后文中的文字指單字、單詞或短語。
當(dāng)前的連續(xù)語音識別系統(tǒng)中,為了對識別結(jié)果加注標(biāo)點(diǎn)符號,需要在口授期間講出這些標(biāo)點(diǎn)符號,然后由語音識別系統(tǒng)識別。例如,為了完全識別“喂!你好?!?,講話人必須說出“喂驚嘆號你好句號”。也就是說,在現(xiàn)有的語音識別系統(tǒng)中,要求講話人將標(biāo)點(diǎn)符號轉(zhuǎn)化為語音(即講出標(biāo)點(diǎn)符號),再由語音識別系統(tǒng)識別為相應(yīng)的標(biāo)點(diǎn)符號。此時要求語言模型中包括標(biāo)點(diǎn)符號,即語言模型8能夠給出每個標(biāo)點(diǎn)符號是否是當(dāng)前上下文情況下應(yīng)出現(xiàn)的標(biāo)點(diǎn)符號的概率估值。
但是,在利用上述語音識別系統(tǒng)對自然講話活動(例如,會議,無線電廣播電視節(jié)目等)作文字記錄時,不能期望人們講出標(biāo)點(diǎn)符號。另外,在口授期間講出標(biāo)點(diǎn)符號是極不自然的事情。即使被要求這樣做,人們在講話或讀文章時,常常忘記講出標(biāo)點(diǎn)符號。再者,在即興演講口授時,每句話直接來自于思維,多數(shù)人很難正確地判斷應(yīng)使用的標(biāo)點(diǎn)符號,很難講出正確的標(biāo)點(diǎn)符號并同時保證講話的流利性。這也許是因?yàn)樵谌粘K玫闹形目谡Z中很少用到或根本不用標(biāo)點(diǎn)符號。
因此,在連續(xù)語音識別中,急需一種自動生成標(biāo)點(diǎn)符號的裝置及方法,它應(yīng)該是便于使用的,不要求在講話時講出標(biāo)點(diǎn)符號,因而不影響用戶的正常講話。
本發(fā)明的第一個目的在于提供一種連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置。
本發(fā)明的第二個目的在于提供一種連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成方法。
為實(shí)現(xiàn)第一個目的,本發(fā)明提供一種連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置,包括語音識別裝置,用于將用戶語音識別為文字,所述語音識別裝置還識別所述用戶語音中的準(zhǔn)噪聲;并且還包括準(zhǔn)噪聲標(biāo)記裝置,用于標(biāo)記語音識別裝置的輸出結(jié)果中的準(zhǔn)噪聲;標(biāo)點(diǎn)符號產(chǎn)生裝置,用于根據(jù)含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型,找到在準(zhǔn)噪聲標(biāo)記裝置所標(biāo)記的每個準(zhǔn)噪聲處最可能的準(zhǔn)標(biāo)點(diǎn)符號,產(chǎn)生與該最可能的準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
本發(fā)明還提供一種連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置,包括語音識別裝置,用于將用戶語音識別為文字;標(biāo)點(diǎn)符號位置指示裝置,用于在用戶口授期間對用戶的操作作出響應(yīng),產(chǎn)生一個位置指示信號,該位置指示信號指示語音識別裝置的輸出結(jié)果中的一個位置;準(zhǔn)標(biāo)點(diǎn)概率計(jì)算裝置(10),用于對含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型中的每個準(zhǔn)標(biāo)點(diǎn)符號,給出其是語音識別裝置的輸出結(jié)果中應(yīng)出現(xiàn)的一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值;標(biāo)點(diǎn)符號匹配裝置,根據(jù)準(zhǔn)標(biāo)點(diǎn)概率計(jì)算裝置計(jì)算的概率估值,找到在位置指示信號所指示的位置處的準(zhǔn)標(biāo)點(diǎn)符號,生成與該準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
為實(shí)現(xiàn)第二個目的,本發(fā)明提供一種連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成方法,包括語音識別步驟,將用戶語音識別為文字,該語音識別步驟還識別用戶語音中的準(zhǔn)噪聲;并且還包括以下步驟準(zhǔn)噪聲標(biāo)記步驟,標(biāo)記語音識別步驟的輸出結(jié)果中的準(zhǔn)噪聲;標(biāo)點(diǎn)符號產(chǎn)生步驟,根據(jù)含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型,找到在準(zhǔn)噪聲標(biāo)記步驟中所標(biāo)記的每個準(zhǔn)噪聲處最可能的準(zhǔn)標(biāo)點(diǎn)符號,產(chǎn)生與最可能的準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
本發(fā)明還提供一種連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成方法,包括語音識別步驟,用于將用戶語音識別為文字;標(biāo)點(diǎn)符號位置指示步驟,用于在用戶口授期間對用戶的操作作出響應(yīng),產(chǎn)生一個位置指示信號,該位置指示信號指示語音識別步驟的輸出結(jié)果中的一個位置;準(zhǔn)標(biāo)點(diǎn)概率計(jì)算步驟,用于對含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型中的每個準(zhǔn)標(biāo)點(diǎn)符號,給出其是語音識別步驟的輸出結(jié)果中應(yīng)出現(xiàn)的一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值;標(biāo)點(diǎn)符號匹配步驟,根據(jù)準(zhǔn)標(biāo)點(diǎn)概率計(jì)算步驟計(jì)算的概率估值,找到在位置指示信號所指示的位置處的準(zhǔn)標(biāo)點(diǎn)符號,生成與準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
根據(jù)本發(fā)明的裝置和方法,用戶不必再講出標(biāo)點(diǎn)符號,系統(tǒng)能夠自動生成標(biāo)點(diǎn)符號。因此,利用本發(fā)明的裝置和方法,不影響用戶講話的流利性,提高語音識別系統(tǒng)中標(biāo)點(diǎn)符號生成的正確性和快速性。
通過結(jié)合附圖對本發(fā)明最佳實(shí)施方式進(jìn)行更詳細(xì)地描述之后,本發(fā)明的其他目的和特征將會更加明顯。
圖1是現(xiàn)有技術(shù)的連續(xù)語音識別系統(tǒng)的構(gòu)成示意圖;圖2是根據(jù)本發(fā)明的連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置第一實(shí)施方式的一般結(jié)構(gòu)示意圖;圖3是根據(jù)本發(fā)明的連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成方法第一實(shí)施方式的一般流程圖;圖4是根據(jù)本發(fā)明的連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成方法第二實(shí)施方式的一般流程圖。
首先介紹本發(fā)明中用到的幾個概念。
人們在日常講話中,除了發(fā)出與語言文字相應(yīng)的連續(xù)語音之外,往往還發(fā)出一些噪聲,比如吸氣聲、咂嘴聲等等。這些噪聲不能被識別為語言文字。另外,在連續(xù)語音之間也可能有沉默。在一般的語音識別系統(tǒng)中,未對這些噪聲和沉默進(jìn)行利用,而是簡單地過濾掉。發(fā)明人通過實(shí)驗(yàn)發(fā)現(xiàn),這些噪聲和沉默與應(yīng)該加注的標(biāo)點(diǎn)符號之間有一定的聯(lián)系。比如,在讀文章時,如果遇到句號“?!保藗兞?xí)慣地沉默較長時間;如果遇到逗號“,”,往往沉默較短的時間,并短促地吸氣;而在遇到頓號“、”時,只沉默較短時間,并不吸氣。因此,在本發(fā)明的方法中,對這些噪聲和沉默加以利用。
另外,當(dāng)流利地講出兩個文字,而中間沒有語音或沉默時,它們之間可能存在標(biāo)點(diǎn)符號。為了便于實(shí)現(xiàn)本發(fā)明的方法,在連續(xù)兩個文字之間,人為地加入一個“無聲音”符號。在本文中,將噪聲、沉默和“無聲音”定義為準(zhǔn)噪聲。因此,在任何兩個文字的語音之間,總是有一個準(zhǔn)噪聲。
所有的準(zhǔn)噪聲構(gòu)成了準(zhǔn)噪聲集合D。于是,D={“無聲音”,沉默,吸氣聲,咂嘴聲,...}在一種語言中,標(biāo)點(diǎn)符號的加注是有一定規(guī)則的。為便于計(jì)算機(jī)實(shí)現(xiàn)標(biāo)點(diǎn)符號的自動加注,需要從大量的含有標(biāo)點(diǎn)符號的語料中利用統(tǒng)計(jì)方法總結(jié)出標(biāo)點(diǎn)符號加注規(guī)則。為了便于實(shí)現(xiàn)本發(fā)明的方法,在文本中不應(yīng)出現(xiàn)標(biāo)點(diǎn)符號的地方,人為地加入一個稱為“無標(biāo)點(diǎn)”的符號。在本文中,將標(biāo)點(diǎn)符號和“無標(biāo)點(diǎn)”符號定義為準(zhǔn)標(biāo)點(diǎn)符號。因此,在任何兩個文字之間,總是有一個準(zhǔn)標(biāo)點(diǎn)符號。
所有的準(zhǔn)標(biāo)點(diǎn)符號構(gòu)成了準(zhǔn)標(biāo)點(diǎn)符號集合M。
M={“無標(biāo)點(diǎn)”,“句號”,“逗號”,“驚嘆號”,“頓號”,...}標(biāo)點(diǎn)符號的自動生成,包括兩個必要步驟。第一,確定在哪里加注標(biāo)點(diǎn)符號,即標(biāo)點(diǎn)符號位置的確定。第二,確定應(yīng)加注什么標(biāo)點(diǎn)符號,即標(biāo)點(diǎn)符號種類的確定。后文中先描述較復(fù)雜的第一實(shí)施方式,它能自動完成標(biāo)點(diǎn)符號位置的確定和標(biāo)點(diǎn)符號種類的確定。然后,描述需要用戶在口授時指示標(biāo)點(diǎn)符號位置的第二實(shí)施方式。
圖2示出根據(jù)本發(fā)明的連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置第一實(shí)施方式的一般結(jié)構(gòu)示意圖。在圖2中,標(biāo)號1代表語音檢測裝置,2’代表發(fā)音及準(zhǔn)噪聲概率計(jì)算裝置,3代表文字匹配裝置,4代表上下文產(chǎn)生裝置4,5代表文字概率計(jì)算裝置,6’代表識別結(jié)果輸出裝置,7’代表含有準(zhǔn)噪聲的語音模型,8代表語言模型。以上各部件與圖1中所示相應(yīng)部件功能相同或類似。另外,標(biāo)號9代表準(zhǔn)噪聲標(biāo)記裝置,10代表準(zhǔn)標(biāo)點(diǎn)概率計(jì)算裝置,11代表含有準(zhǔn)標(biāo)點(diǎn)的語言模型,12代表含有標(biāo)點(diǎn)符號的上下文產(chǎn)生裝置,13代表標(biāo)點(diǎn)符號匹配裝置,14代表準(zhǔn)標(biāo)點(diǎn)符號條件下準(zhǔn)噪聲的概率計(jì)算裝置,15代表準(zhǔn)標(biāo)點(diǎn)符號與準(zhǔn)噪聲對照表。
在圖2中,將準(zhǔn)噪聲集合D中每個成員的相應(yīng)語音增加到含有準(zhǔn)噪聲的語音模型7’(與圖1的語音模型7作用類似)中。因此,含有準(zhǔn)噪聲的語音模型7’中的一個成員或者對應(yīng)一個文字的發(fā)音,或者對應(yīng)一個準(zhǔn)噪聲。發(fā)音及準(zhǔn)噪聲概率計(jì)算裝置2’對含有準(zhǔn)噪聲的語音模型7’中的每個發(fā)音或噪聲給出其與語音采樣是否相近的概率估值。含有準(zhǔn)噪聲的語音模型稱為第一語音模型AM1,它不但包括每個文字的發(fā)音,而且還包括與每個準(zhǔn)噪聲相應(yīng)的語音。
將準(zhǔn)標(biāo)點(diǎn)符號集合M中的每個成員增加到含有準(zhǔn)標(biāo)點(diǎn)的語言模型11。當(dāng)然,也可以將所有準(zhǔn)標(biāo)點(diǎn)符號增加到語言模型8中,作為同一個模型。不同的實(shí)現(xiàn)方式不構(gòu)成對本發(fā)明的限制。文字概率計(jì)算裝置5與圖1中的文字概率計(jì)算裝置5相同,將其所使用的語言模型稱為第一語言模型LM1。第一語言模型LM1包括所識別的語言中常用的每個文字。
因此,與圖1中所示裝置類似地,利用語音檢測裝置1、發(fā)音及準(zhǔn)噪聲概率計(jì)算裝置(AM1)2’、文字匹配裝置3、上下文產(chǎn)生裝置4、文字概率計(jì)算裝置(LM1)5、含有準(zhǔn)噪聲的語音模型7’以及語言模型8,能夠?qū)⑺鶛z測的語音譯碼為相應(yīng)的文字或準(zhǔn)噪聲。將這一譯碼結(jié)果稱為第一序列。利用準(zhǔn)噪聲標(biāo)記裝置9,標(biāo)記第一序列中的其他準(zhǔn)噪聲,例如“無聲音”。
準(zhǔn)標(biāo)點(diǎn)概率計(jì)算裝置10,在當(dāng)前上下文(含有準(zhǔn)標(biāo)點(diǎn)符號)的情況下,根據(jù)從大量含有標(biāo)點(diǎn)符號的語料中總結(jié)出的語言規(guī)則,對含有準(zhǔn)標(biāo)點(diǎn)的語言模型11中的準(zhǔn)標(biāo)點(diǎn)符號是否是下一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值。將該裝置所使用的語言模型11稱為第二語言模型LM2。構(gòu)造第二語言模型時,保留了語料中的所有標(biāo)點(diǎn)符號。因此,第二語言模型LM2包括每個準(zhǔn)標(biāo)點(diǎn)符號。例如,設(shè)c為當(dāng)前上下文,m為準(zhǔn)標(biāo)點(diǎn)符號,則LM2的作用是計(jì)算P(m|c)。
準(zhǔn)標(biāo)點(diǎn)符號條件下準(zhǔn)噪聲的概率計(jì)算裝置14,利用第二語音模型AM2給出在某個準(zhǔn)標(biāo)點(diǎn)符號處出現(xiàn)特定準(zhǔn)噪聲的概率估值。第二語音模型AM2是利用統(tǒng)計(jì)方法在大量語料的基礎(chǔ)上構(gòu)造的。在第二語音模型AM2的構(gòu)造過程中,找到準(zhǔn)標(biāo)點(diǎn)符號與準(zhǔn)噪聲的相應(yīng)對,將這些相應(yīng)的對存儲在準(zhǔn)標(biāo)點(diǎn)符號與準(zhǔn)噪聲對照表15中。準(zhǔn)標(biāo)點(diǎn)符號條件下準(zhǔn)噪聲的概率計(jì)算裝置14,根據(jù)準(zhǔn)標(biāo)點(diǎn)符號與準(zhǔn)噪聲對照表15,計(jì)算條件概率P(d|m),其中m為準(zhǔn)標(biāo)點(diǎn)符號,d為準(zhǔn)噪聲。第二語音模型AM2的具體構(gòu)造過程將在后文詳述。
當(dāng)然,這樣的條件概率P(d|m)可以預(yù)先利用大量語料通過統(tǒng)計(jì)方法計(jì)算得到,并存儲在相應(yīng)的表中。在實(shí)際生成標(biāo)點(diǎn)符號的過程中,通過查表求得相應(yīng)的條件概率值。也就是說,準(zhǔn)標(biāo)點(diǎn)符號條件下準(zhǔn)噪聲的概率計(jì)算裝置可以采用不同的方式實(shí)現(xiàn),這些不同的實(shí)現(xiàn)方式不構(gòu)成對本發(fā)明的限制。
標(biāo)點(diǎn)符號匹配裝置13,將準(zhǔn)標(biāo)點(diǎn)概率計(jì)算裝置10計(jì)算的概率估值P(m|c)與準(zhǔn)標(biāo)點(diǎn)符號條件下準(zhǔn)噪聲的概率計(jì)算裝置14計(jì)算的概率估值P(d|m)結(jié)合起來,對于含有準(zhǔn)標(biāo)點(diǎn)的語言模型11中的每一個準(zhǔn)標(biāo)點(diǎn)符號計(jì)算一個相關(guān)概率P(d|m)*P(m|c)(該相關(guān)概率值表示將準(zhǔn)噪聲識別為一個準(zhǔn)標(biāo)點(diǎn)符號的可能性),取相關(guān)概率值最大的準(zhǔn)標(biāo)點(diǎn)符號,作為自動生成的準(zhǔn)標(biāo)點(diǎn)符號。這一過程可以表示為MML=argmax mAM2(d,m)*LM2(m,c)其中,m為準(zhǔn)標(biāo)點(diǎn)符號,d為準(zhǔn)噪聲,c為上下文,并且AM2(d,m)=P(d|m),LM2(m,c)=P(m|c)。
當(dāng)m=“無標(biāo)點(diǎn)”時,表示在上下文的條件下應(yīng)出現(xiàn)的是文字而不是標(biāo)點(diǎn)符號,所以
P(“無標(biāo)點(diǎn)”|c)=∑P(w|c)。
w=文字含標(biāo)點(diǎn)的上下文產(chǎn)生裝置12利用上述生成的準(zhǔn)標(biāo)點(diǎn)符號修改當(dāng)前的上下文,以便處理下一個準(zhǔn)噪聲。識別結(jié)果輸出裝置6’輸出所識別出的文字和自動生成的準(zhǔn)標(biāo)點(diǎn)符號(或者轉(zhuǎn)換為普通標(biāo)點(diǎn)符號)。
作為根據(jù)本發(fā)明的標(biāo)點(diǎn)符號自動生成裝置的第二實(shí)施方式,另外一種連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置,經(jīng)上述第一實(shí)施方式變化而成。主要區(qū)別在于,它包括一個標(biāo)點(diǎn)符號位置指示裝置,用于在用戶口授期間對用戶的操作作出響應(yīng),產(chǎn)生一個位置指示信號,該位置指示信號指示語音識別裝置的輸出結(jié)果中的一個位置。該位置指示裝置例如可以是一個鼠標(biāo)器,或者是另外的專用硬件。還包括準(zhǔn)標(biāo)點(diǎn)概率計(jì)算裝置(10),用于對含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型中的每個準(zhǔn)標(biāo)點(diǎn)符號,給出其是語音識別裝置的輸出結(jié)果中應(yīng)出現(xiàn)的一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值;標(biāo)點(diǎn)符號匹配裝置,根據(jù)準(zhǔn)標(biāo)點(diǎn)概率計(jì)算裝置計(jì)算的概率估值,找到在位置指示信號所指示的位置處的準(zhǔn)標(biāo)點(diǎn)符號,生成與該準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
采用上述標(biāo)點(diǎn)符號自動生成裝置,不必利用準(zhǔn)噪聲,省略了第一語音模型AM1中的準(zhǔn)噪聲部分和第二語音模型AM2,并且更容易實(shí)現(xiàn),同時也提供了更高的精確性。但是對于用戶而言,卻不如第一實(shí)施方式那樣便于使用。
圖3是根據(jù)本發(fā)明的在語音識別中的標(biāo)點(diǎn)符號自動生成方法第一實(shí)施方式的流程圖。
在步驟S31,開始語音識別過程。該步驟中,清空所有內(nèi)部變量,比如上下文c。
在步驟S32,檢測用戶讀一個詞的語音。在步驟S33,利用第一語音模型AM1和第一語言模型LM1,將用戶語音解碼為文字或準(zhǔn)噪聲。比如,當(dāng)用戶讀以下中文句子“這蘋果是紅的,不是綠的?!睍r,只讀其中的文字。于是,通過循環(huán)執(zhí)行以下各步,可將用戶語音解碼為以下第一序列“這蘋果是紅的(吸氣聲)不是綠的(沉默)”。
在步驟S34,標(biāo)記上述第一序列中的準(zhǔn)噪聲。這里的準(zhǔn)噪聲,是指其他未能由步驟S33解碼出來的準(zhǔn)噪聲。在該實(shí)施方式中,在連續(xù)兩個文字之間,加入一個“無聲音”符號,以便于實(shí)現(xiàn)。于是,形成以下第二序列“這(無聲音)蘋果(無聲音)是(無聲音)紅的(吸氣聲)不是(無聲音)綠的(沉默)”。
在步驟S35,對于所有準(zhǔn)標(biāo)點(diǎn)符號m,計(jì)算在當(dāng)前上下文c情況下的條件概率P(m|c)。
在步驟S36,對于所有準(zhǔn)噪聲d,計(jì)算在各個準(zhǔn)標(biāo)點(diǎn)符號m情況下的條件概率P(d|m)。另一種方案是,預(yù)先將對于所有準(zhǔn)噪聲d和準(zhǔn)標(biāo)點(diǎn)符號m的概率值P(d|m)利用大量語料根據(jù)統(tǒng)計(jì)方法計(jì)算出來,存儲在一個表中,通過查表來實(shí)現(xiàn)步驟S36。
在步驟S37,找到使P(d|m)*P(m|c)最大的準(zhǔn)標(biāo)點(diǎn)符號MML,即計(jì)算MML=argmax mP(d|m)*P(m|c),步驟S35、S36和S37也可以認(rèn)為是這樣一種過程對于所述第二序列中的每個準(zhǔn)噪聲d及其上下文c,利用第二語音模型(AM2)和第二語言模型(LM2),找到最佳準(zhǔn)標(biāo)點(diǎn)符號MML,使得MML=argmax mAM2(d,m)*LM2(m,c)其中m是一準(zhǔn)標(biāo)點(diǎn)符號,并且AM2(d,m)=P(d|m)LM2(m,c)=P(m|c)當(dāng)m=“無標(biāo)點(diǎn)”時,LM2(“無標(biāo)點(diǎn)”,c)=P(“無標(biāo)點(diǎn)”|c)=∑ 計(jì)數(shù)(c,w)w≠標(biāo)點(diǎn)即,所有非標(biāo)點(diǎn)文字w的P(w|c)之和。
在步驟S38,將MML作為自動生成的準(zhǔn)標(biāo)點(diǎn)符號,并且更新當(dāng)前的上下文c。于是,形成以下第三序列“這(無標(biāo)點(diǎn))蘋果(無標(biāo)點(diǎn))是(無標(biāo)點(diǎn))紅的(逗號)不是(無標(biāo)點(diǎn))綠的(句號)”。
在步驟S39,判斷連續(xù)語音識別是否結(jié)束。如果沒有結(jié)束,則轉(zhuǎn)到步驟S2。否則進(jìn)行到步驟S310。
在步驟S310,輸出所識別的文字和自動生成的標(biāo)點(diǎn)符號。該步驟中,可以用實(shí)際的標(biāo)點(diǎn)符號替換準(zhǔn)標(biāo)點(diǎn)符號。例如,輸出如下結(jié)果“這蘋果是紅的,不是綠的?!?。
在步驟S311,過程結(jié)束。
在此需要說明的是,上述第一序列、第二序列和第三序列是隨著用戶讀每一個詞時通過循環(huán)執(zhí)行步驟S32至S38而逐漸生成的。也就是說,上述過程是實(shí)時進(jìn)行的。即不必在對整個句子完成解碼之后才進(jìn)行標(biāo)點(diǎn)符號的自動生成,而是可以實(shí)時地生成標(biāo)點(diǎn)符號。一旦對構(gòu)成上下文的文字完成解碼,則可以根據(jù)上下文產(chǎn)生標(biāo)點(diǎn)符號。當(dāng)然,完全可以以句子為單位進(jìn)行語音識別。這些不構(gòu)成對本發(fā)明的限制。
如前文所述,第二語音模型AM2是在大量語料的基礎(chǔ)上構(gòu)造的。例如,可以通過下述方法構(gòu)造。
(1)以一段訓(xùn)練文本,例如“w1w2,w3。w4”為例,在訓(xùn)練文本中標(biāo)記準(zhǔn)標(biāo)點(diǎn)符號。于是得到w1“無標(biāo)點(diǎn)”w2逗號w3句號w4(2)讓訓(xùn)練人員讀該段文本“w1w2,w3。w4”,但是不讀標(biāo)點(diǎn);(3)利用第一語音模型AM1和第一語言模型LM1對訓(xùn)練人員的語音串進(jìn)行解碼。由于上述文本中存在標(biāo)點(diǎn)符號,所以訓(xùn)練人員在讀時有一定的閱讀習(xí)慣。w1和w2之間沒有任何標(biāo)點(diǎn)符號,可能連續(xù)地讀出它們。讀出w2之后,遇到一個逗號,可能稍停片刻并吸氣。然后,讀w3,并沉默(由于有句號)。最后,讀出w4。例如,解碼輸出可以是w1 w2吸氣w3沉默w4(4)在解碼輸出中標(biāo)記準(zhǔn)噪聲。對于上例,得到w1“無聲音”w2吸氣w3沉默w4(5)對準(zhǔn)標(biāo)點(diǎn)符號m與相應(yīng)的準(zhǔn)噪聲d進(jìn)行配對,得到(“無標(biāo)點(diǎn)”,“無聲音”)(逗號,吸氣)
(句號,沉默)對于一種準(zhǔn)標(biāo)點(diǎn)符號m和一種準(zhǔn)噪聲d,存在著一種對應(yīng)關(guān)系,稱為(m,d)對。(m,d)對的數(shù)目表示為c(m,d)。訓(xùn)練文本,即語料和訓(xùn)練人員應(yīng)該是足夠多的,能夠概括各種準(zhǔn)標(biāo)點(diǎn)符號,和一般人的閱讀習(xí)慣。所以c(m,d)一般是大于1的。
(6)將P(d|m)粗略估計(jì)為c(m,d)/c(m),其中c(m)是對于所有準(zhǔn)噪聲d’相應(yīng)的c(m,d’)之和。
以上是構(gòu)造第二語音模型AM2的一種方法。當(dāng)然,也可以利用其他方法構(gòu)造具有同樣功能的語音模型AM2。
以上參照圖2和圖3所述的標(biāo)點(diǎn)符號自動生成裝置和方法中,不需要用戶在口授時講出標(biāo)點(diǎn)符號,也不需要用戶指示標(biāo)點(diǎn)符號的位置。但是,因?yàn)椴煌脩粲胁煌拈喿x習(xí)慣,所以將準(zhǔn)噪聲作為判斷標(biāo)點(diǎn)符號位置的條件之一,必然存在著一定的誤差。
在以下所述的第二實(shí)施方式中,在用戶的口授中需要標(biāo)點(diǎn)符號時,要求用戶在口授的同時給予確定的指示。這種確定的指示例如通過按擊鼠標(biāo)按鍵或?qū)S糜布韺?shí)現(xiàn)。因此,不必利用準(zhǔn)噪聲,省略了第一語音模型AM1中的準(zhǔn)噪聲部分和第二語音模型AM2,并且更容易實(shí)現(xiàn),同時也提供了更高的精確性。但是對于用戶而言,卻不如第一實(shí)施方式那樣便于使用。
根據(jù)本發(fā)明的標(biāo)點(diǎn)符號自動生成方法的第二實(shí)施方式如圖4所示包括以下步驟在步驟S41,開始語音識別過程。該步驟中,清空所有內(nèi)部變量,比如上下文c。
在步驟S42,檢測用戶語音。在步驟S4,利用普通的語音模型AM和語言模型LM,將用戶語音解碼為文字。
在步驟S45,確定用戶在口授期間所指示標(biāo)點(diǎn)符號位置。
在步驟S47,利用第二語言模型LM2,找到最佳準(zhǔn)標(biāo)點(diǎn)符號MML,使得MML=argmax mLM2(m,c)其中m是一個標(biāo)點(diǎn)符號,并且LM2(m,c)=P(m|c)。
在步驟S48,將MML作為自動生成的準(zhǔn)標(biāo)點(diǎn)符號,并且更新當(dāng)前的上下文c。
在步驟S49,判斷連續(xù)語音識別是否結(jié)束。如果沒有結(jié)束,則轉(zhuǎn)到步驟S42。否則進(jìn)行到步驟S410。
在步驟S410,輸出所識別的文字和自動生成的標(biāo)點(diǎn)符號。該步驟中,可以用實(shí)際的標(biāo)點(diǎn)符號替換準(zhǔn)標(biāo)點(diǎn)符號。
在步驟S411,過程結(jié)束。
現(xiàn)在描述第三實(shí)施方式。它介于第一實(shí)施方式與第二實(shí)施方式之間。該第三實(shí)施方式與第二實(shí)施方式的不同在于,雖然要求用戶在口授期間需要標(biāo)點(diǎn)符號時進(jìn)行確定的指示,但是不要求用戶采取任何機(jī)械動作,而是采用特定的聲音動作,例如“咂嘴”以產(chǎn)生任何可檢測的噪聲,或者有意地沉默,來指示標(biāo)點(diǎn)符號。這樣,更有利于用戶流利地講話。第三實(shí)施方式與第一實(shí)施方式的不同在于,用戶在口授期間在標(biāo)點(diǎn)符號處所產(chǎn)生的是特定的聲音動作,增加了自然噪聲與用于指示標(biāo)點(diǎn)的聲音之間的區(qū)別。在構(gòu)造第二語音模型AM2時,對訓(xùn)練人也有同樣的要求。通過實(shí)踐證明,在自動生成標(biāo)點(diǎn)符號時,第三實(shí)施方式比第一實(shí)施方式具有更高的精確性。
本發(fā)明的方法不必限于后期處理,即不必在對整個句子完成解碼之后才進(jìn)行標(biāo)點(diǎn)符號的自動生成,而是可以實(shí)時地進(jìn)行。也就是說,一旦對構(gòu)成上下文的文字完成解碼,即可以根據(jù)上下文自動生成標(biāo)點(diǎn)符號。
雖然如上所述描述了本發(fā)明的最佳實(shí)施方式,但是應(yīng)該認(rèn)識到,對于本領(lǐng)域內(nèi)熟練的技術(shù)人員而言,在不背離本發(fā)明的實(shí)質(zhì)和范圍的情況下,可以對上述實(shí)施方式進(jìn)行各形式的修改和變更。因此,本發(fā)明的保護(hù)范圍內(nèi)權(quán)利要求書限定。
權(quán)利要求
1.連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置,包括用于識別用戶語音并將所述用戶語音轉(zhuǎn)換為文字的裝置(1,2,3,5),其特征在于所述用于識別用戶語音的裝置(1,2,3,5)還識別所述用戶語音中的準(zhǔn)噪聲;并且其特征在于還包括用于標(biāo)記所述用于識別用戶語音的裝置(1,2,3,5)的輸出結(jié)果中的準(zhǔn)噪聲的裝置(9);用于根據(jù)含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型,找到在所述用于標(biāo)記準(zhǔn)噪聲的裝置(9)所標(biāo)記的每個準(zhǔn)噪聲處最可能的準(zhǔn)標(biāo)點(diǎn)符號,產(chǎn)生與所述最可能的準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號的裝置(10,14,13)。
2.根據(jù)權(quán)利要求1的裝置,其特征在于所述用于產(chǎn)生標(biāo)點(diǎn)符號的裝置包括用于對含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型中的每個準(zhǔn)標(biāo)點(diǎn)符號,計(jì)算其是所述用于識別用戶語音的裝置的輸出結(jié)果中應(yīng)出現(xiàn)的一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值的裝置(10);用于計(jì)算特定準(zhǔn)標(biāo)點(diǎn)符號處出現(xiàn)特定準(zhǔn)噪聲的概率估值的裝置(14);用于根據(jù)所計(jì)算的所述概率估值,找到在所述用于標(biāo)記準(zhǔn)噪聲的裝置(9)所標(biāo)記的每個準(zhǔn)噪聲處最可能的準(zhǔn)標(biāo)點(diǎn)符號,生成與所述最可能的準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號的裝置(13)。
3.連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置,包括用于識別用戶語音并將用戶語音轉(zhuǎn)換為文字的裝置(1,2,3,5),其特征在于還包括用于在用戶口授期間對用戶的操作作出響應(yīng),產(chǎn)生一個位置指示信號的裝置,所述位置指示信號指示所述用于識別用戶語音的裝置(1,2,3,5)的輸出結(jié)果中的一個位置;用于對含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型中的每個準(zhǔn)標(biāo)點(diǎn)符號,計(jì)算其是所述用于識別用戶語音的裝置的輸出結(jié)果中應(yīng)出現(xiàn)的一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值的裝置(10);用于根據(jù)所計(jì)算的所述概率估值,找到在所述位置指示信號所指示的位置處的準(zhǔn)標(biāo)點(diǎn)符號,生成與所述準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號的裝置(13)。
4.連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成方法,包括識別用戶語音并將用戶語音轉(zhuǎn)換為文字的步驟,其特征在于在所述識別用戶語音的步驟中還識別所述用戶語音中的準(zhǔn)噪聲;并且其特征在于還包括以下步驟標(biāo)記所述識別用戶語音的步驟的輸出結(jié)果中的準(zhǔn)噪聲;根據(jù)含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型,找到在所述標(biāo)記準(zhǔn)噪聲的步驟中所標(biāo)記的每個準(zhǔn)噪聲處最可能的準(zhǔn)標(biāo)點(diǎn)符號,產(chǎn)生與所述最可能的準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
5.根據(jù)權(quán)利要求4的方法,其特征在于所述產(chǎn)生標(biāo)點(diǎn)符號的步驟包括以下步驟對含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型中的每個準(zhǔn)標(biāo)點(diǎn)符號,計(jì)算其是所述識別用戶語音的步驟的輸出結(jié)果中應(yīng)出現(xiàn)的一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值;計(jì)算特定準(zhǔn)標(biāo)點(diǎn)符號處出現(xiàn)特定準(zhǔn)噪聲的概率估值;根據(jù)所計(jì)算的所述概率估值,找到在所述標(biāo)記準(zhǔn)噪聲的步驟中所標(biāo)記的每個準(zhǔn)噪聲處最可能的準(zhǔn)標(biāo)點(diǎn)符號,生成與所述最可能的準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
6.連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成方法,包括識別用戶語音并將用戶語音轉(zhuǎn)換為文字的步驟,其特征在于還包括以下步驟在用戶口授期間對用戶的操作作出響應(yīng),產(chǎn)生一個位置指示信號,所述位置指示信號指示所述識別用戶語音的步驟的輸出結(jié)果中的一個位置;用于對含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型中的每個準(zhǔn)標(biāo)點(diǎn)符號,計(jì)算其是所述識別用戶語音的步驟的輸出結(jié)果中應(yīng)出現(xiàn)的一個準(zhǔn)標(biāo)點(diǎn)符號的概率估值;根據(jù)所計(jì)算的所述概率估值,找到在所述位置指示信號所指示的位置處的準(zhǔn)標(biāo)點(diǎn)符號,生成與所述準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號。
全文摘要
連續(xù)語音識別中的標(biāo)點(diǎn)符號自動生成裝置,包括用于識別用戶語音并將所述用戶語音轉(zhuǎn)換為文字的裝置(1,2,3,5),該用于識別用戶語音的裝置(1,2,3,5)還識別用戶語音中的準(zhǔn)噪聲;還包括:用于標(biāo)記裝置(1,2,3,5)的輸出結(jié)果中的準(zhǔn)噪聲的裝置(9);用于根據(jù)含有準(zhǔn)標(biāo)點(diǎn)符號的語言模型,計(jì)算在裝置(9)所標(biāo)記的每個準(zhǔn)噪聲處最可能的準(zhǔn)標(biāo)點(diǎn)符號,產(chǎn)生與最可能的準(zhǔn)標(biāo)點(diǎn)符號相應(yīng)的標(biāo)點(diǎn)符號的裝置(10,14,13)。
文檔編號G10L15/28GK1235312SQ9810836
公開日1999年11月17日 申請日期1998年5月13日 優(yōu)先權(quán)日1998年5月13日
發(fā)明者唐道南, 朱曉瑾, 沈麗琴 申請人:國際商業(yè)機(jī)器公司