欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對語音識別結(jié)果中的錯誤進行校正的方法和語音識別系統(tǒng)的制作方法

文檔序號:2820824閱讀:790來源:國知局
專利名稱:對語音識別結(jié)果中的錯誤進行校正的方法和語音識別系統(tǒng)的制作方法
技術(shù)領域
本發(fā)明涉及語音識別技術(shù),具體地說涉及使用語音信息對語音識別結(jié)果中的錯誤進行校正的方法和使用該方法的語音識別系統(tǒng)。
語音識別技術(shù)是一種利用計算機和數(shù)字信號處理技術(shù)準確地識別人的語音(如字、詞、子句、句子等)的技術(shù)。語音識別的基礎是提取待識別語音的各種有效特征,形成待識別的語音模式,并與存儲在計算機內(nèi)存中的樣本模式相比較,再通過模式分類方法進行識別是什么字、什么詞等。語音識別過程是對音節(jié)或詞等語言成份的識別過程。無疑語音識別是一種快速地將文本輸入到計算機中的有效方式。雖然目前對語音識別有大量研究,但由于語言的復雜性,在連續(xù)語音、話者無關、大詞匯的識別方面還處于探索階段。識別的準確率永遠不會達到100%,所以對語音識別結(jié)果中的錯誤進行校正是必不可少的步驟。
在錯誤校正過程中各種輸入方式的友好性和有效性是非常重要的,因為它們是完成語音識別過程的一部分,并且有可能是用戶是否接受語音輸入方式的決定性因素。通常采用諸如手寫輸入或各種基于筆畫的輸入方式來糾正語音識別結(jié)果中的錯誤,因為語音識別系統(tǒng)的用戶一般來說不愿意使用鍵盤或不熟悉鍵盤,這些用戶更希望使用接近自然書寫習慣的基于筆形的手寫輸入方式,如手寫輸入、基于筆畫或筆畫類型的輸入方式。但是,由于手寫識別技術(shù)亦不太成熟,從而降低了校正語音識別結(jié)果中的錯誤的效率。目前各種糾正語音識別結(jié)果中的錯誤的方法都沒有利用語音識別過程中產(chǎn)生的有用的語音信息。本發(fā)明的目的就是有效地利用語音識別過程中產(chǎn)生的語音信息提高語音識別的糾錯效率,即提高糾錯的可靠性和速度。
本發(fā)明充分利用在語音識別過程中得到的語音信息使采用各種基于筆形的輸入方法對語音識別結(jié)果中的錯誤進行校正的效率得到提高。本發(fā)明自動保存和處理來自語音識別過程的有效的語音信息。這是通過內(nèi)部數(shù)據(jù)轉(zhuǎn)換以及加入涉及各個統(tǒng)計模型的評估過程來實現(xiàn)的。本發(fā)明使用混淆矩陣產(chǎn)生語音模型并將語音模型和字、詞級語言模型配合使用來優(yōu)化糾錯處理。
根據(jù)本發(fā)明的一個方面提供一種對語音識別結(jié)果中的錯誤進行校正的方法,包括對輸出的語音識別結(jié)果中的錯誤進行標記;用基于字形輸入的方法輸入與標記的錯誤相對應的正確字符;對基于字形的輸入進行識別;顯示候選的正確字符;用戶從候選的正確字符中選出所需字符;和使用選出的字符代替錯誤的字符,所述方法的特征在于還包括步驟使用錯誤字符的語音信息來對候選的正確字符進行篩選處理。
根據(jù)本發(fā)明的另一個方面提供一種語音識別系統(tǒng),包括采集用戶語音的語音檢測裝置;對語音模型中的每個發(fā)音計算出其與語音采樣是否相同的概率估值的發(fā)音概率計算裝置;根據(jù)語言模型計算文字在當前上下文情況下出現(xiàn)的概率估值的文字概率計算裝置;對所述發(fā)音概率計算裝置和文字概率計算裝置的計算結(jié)果進行綜合以得出與聯(lián)合最大概率值對應的文字作為語音識別結(jié)果的文字匹配裝置;利用識別結(jié)果修改上下文的上下文產(chǎn)生裝置;以及文字輸出裝置,所述語音識別系統(tǒng)的特征在于還包括一個錯誤校正裝置,用戶可以利用該錯誤校正裝置對文字輸出裝置輸出的語音識別結(jié)果中的錯誤進行標記,用基于字形輸入的方法輸入與標記的錯誤相對應的正確字符,而所述錯誤校正裝置對基于字形的輸入進行識別、產(chǎn)生候選的正確字符并利用錯誤字符的語音信息對候選的正確字符進行篩選處理。
通過以下結(jié)合附圖對本發(fā)明最佳實施方式進行的詳細描述,本發(fā)明的其它目的和特征將會更加明顯。


圖1為根據(jù)本發(fā)明一個實施例對語音識別結(jié)果中的錯誤進行校正的具體操作流程;圖2為根據(jù)本發(fā)明一個實施例對語音識別結(jié)果中的錯誤進行校正的方法的一般流程圖;圖3為根據(jù)本發(fā)明的一個實施例利用從混淆矩陣中得出的語音信息對候選字符進行篩選過程的一般流程圖;圖4為現(xiàn)有技術(shù)的語音識別系統(tǒng)的構(gòu)成示意圖;圖5為根據(jù)本發(fā)明一個實施例的可以對識別結(jié)果中的錯誤進行校正的語音識別系統(tǒng);和圖6為根據(jù)本發(fā)明一個實施例的錯誤糾正屏幕。
在圖1中示出了根據(jù)本發(fā)明一個實施例的通過手寫輸入對語音識別結(jié)果中的錯誤進行校正的操作流程。當發(fā)現(xiàn)語音識別結(jié)果中存在錯誤時,可以按如下過程進行校正步驟101用戶進行口述,重復多次以得到正確結(jié)果;步驟102在屏幕上顯示語音識別(SR)結(jié)果;步驟103用戶標記待校正的錯誤;步驟104系統(tǒng)使用錯誤字符的音標來檢索與該錯誤字符相關的語音信息(按統(tǒng)計模型形式)并將語音信息和語言模型配合使用,以對候選者排隊并對候選者進行選擇;步驟105用戶借助各種輸入方法,如手寫輸入方法,來輸入與標記的錯誤字符對應的正確字符;步驟106當在各種輸入過程中完成了識別過程時,系統(tǒng)利用步驟104中的模型對當前候選者清單中的候選者排隊以獲得較高的準確性和較高的速度;步驟107將由此產(chǎn)生的候選者清單的一部分或全部顯示在屏幕上;步驟108用戶通過光標等選擇正確的字符。
圖2示出了對于采用基于筆畫的鍵盤或手寫輸入時,語音識別結(jié)果中的錯誤的恢復過程,如圖2所示步驟201用戶完成第一遍口述;步驟202在顯示器上顯示語音識別(SR)結(jié)果;步驟203用戶檢驗結(jié)果,如果識別結(jié)果中沒有錯誤,則不需校正,則輸入過程結(jié)束。如果在語音識別結(jié)果中存在一個或多個錯誤,用戶標記待校正的錯誤。這可以是由多個字組成的詞。用戶通常要求顯示一個侯選者清單。如果在清單中存在正確的字符,則用戶直接到步驟209,否則用戶轉(zhuǎn)到步驟204。對于語音識別結(jié)果中的每個錯誤可以重復執(zhí)行該步驟。
步驟204用戶通過語音輸入與標記的錯誤字符(字、詞)對應的正確字符(字、詞)。語音識別機將只使用語音模型對其進行譯碼(即禁止語言模型)。如果在屏幕上顯示出正確的字符(字、詞)作為候選者,則用戶轉(zhuǎn)到步驟209;步驟205如果屏幕上顯示的字符(字、詞)仍不正確,用戶可以重復執(zhí)行步驟204;步驟206當錯誤持續(xù)存在時,用戶開始輸入正確的字符,即輸入字符的筆畫序列;步驟207系統(tǒng)根據(jù)從步驟204中得到的錯誤字符的發(fā)音類型,從混淆矩陣中檢索和錯誤字符相關的統(tǒng)計模型。該模型俘獲錯誤字符的統(tǒng)計意義上來說最有用的特征,它可以由錯誤字符的第一個聲母或拼音字母的分布組成;步驟208由步驟207中獲得的語音模型和字、詞級語言模型配合使用,導出在連續(xù)的筆畫輸入過程中對候選的字符(字、詞)的似然性的概率估計。使用這些集成模型對基于筆畫輸入而產(chǎn)生的候選者進行排列以提高糾錯效率;步驟209用戶通過光標等選擇所需的正確字符,并輸入其在候選者清單中的序號。
以下結(jié)合圖3,描述一個根據(jù)本發(fā)明一個具體的實施例利用從混淆矩陣中得出的語音信息對候選字符進行篩選的過程。
利用來自語音識別過程的語音信息的目的是有效地對候選的字符(字、詞)進行排隊。以下詳細地描述對于給定的錯誤字符(字、詞),如何從預先產(chǎn)生的混淆矩陣中提取語音信息。還將描述如何在這種概率統(tǒng)計模型的基礎上結(jié)合語言模型來對候選字符(字、詞)進行篩選。
首先介紹如何產(chǎn)生混淆矩陣。假定混淆矩陣是事先由語音輸入錯誤數(shù)據(jù)產(chǎn)生的,它俘獲連續(xù)語音輸入中所有音節(jié)的錯誤概率。
將漢語中的音節(jié)集定義為
SSet={S1,S2…,SN}為了得到每個識別結(jié)果中的錯誤E的候選者,我們需要得到在給定識別字符的音節(jié)和其上下文情況下每個候選者的概率,即P(C|SHE,H)其中C代表某一候選者,SHE是識別出的字符的音節(jié)序列,包括識別錯誤字符本身的音節(jié)和其最近的歷史情況,即SHE=S(H)+S(E),其中S(H)代表H的音節(jié)序列,S(E)代表E的音節(jié)序列。H是其語境的歷史情況。然后我們根據(jù)上述概率值對候選者排隊。
使用Bayes規(guī)則,我們可以得出P(C|SHE'H)=P(CSHEH)P(SHEH)=P(SHEH|C)P(C)P(SHEH)]]>因為SHE是純語音,并且H是純語言事件,所以我們可以將它們認為是完全獨立的變量。并且確定給定的識別出的字符的SHE和H。所以上述等式可以簡化為 為了實用,我們將P(C|SHE)簡化為P(CS|SE),其中CS表示C的音節(jié),SE是識別錯誤字符的音節(jié)。這種簡化表明我們忽略了語音上下文S(H),并將具有相同音節(jié)的字符組成一類。
在訓練時,我們采用M個測試者,每個測試者讀N個測試語句。我們按音節(jié)不管語言模型來對這些測試者的語句進行識別。
對測試語句中的每個音節(jié)ST,如果將其識別為SD,其中SD可以是ST本身,我們將在混淆矩陣中對Count(ST-SD)加1。然后,我們可以得到將ST識別為SD的概率 其中ST,SD∈SSet,Count(ST-SD)是將ST識別為SD的次數(shù),∑Count(ST-SM)是一行ST的累加,它代表ST被識別為任何音節(jié)的總次數(shù)SM∈SSet。我們在最終的混淆矩陣中保存P(SD|ST)。
同時,我們可以得到P(ST)=Count(ST)ΣCount(Sm)------(2)]]>對于所有SM∈訓練數(shù)據(jù)混淆矩陣 通過使用混淆矩陣,我們得到識別出的音節(jié)SD,并且我們想得到SD來自于給定的ST的概率,即(ST|SD)。使用Bayes規(guī)則,我們得到P(ST|SD)=P(SD|ST)P(ST)P(SD)]]>當我們計算P(CS|SE)時,P(CS|SE)=P(ST=CS|SD=SE)=P(SD=SE|ST=CS)P(ST=CS)P(SD=SE)]]>對于所有候選者P(SD=SE)都相同,所以在對候選者排隊時,P(SD=SE)是沒用的。我們從混淆矩陣中能得到P(SD=SE|ST=CS)以及公式(2)中的P(ST=CS)。
盡管上述方法適合于用戶在首次完成他/她的語音輸入之后列出候選者并相對于特定的錯誤字符尋找候選者(上述錯誤恢復過程中的步驟203),這里我們將注意力放在用戶已重復對錯誤的字符進行語音輸入,但仍失敗,并準備采用基于筆形的輸入方法的情形(步驟206)。這表明在正確的字符以具體方式讀出之后,錯誤仍然存在。
于是可以由在一具體語音輸入環(huán)境中記錄下來的錯誤字符來訓練混淆矩陣。這種混淆矩陣可以和語言模型一起來使用以對筆形輸入過程中產(chǎn)生的候選者進行排隊。
為了防止混淆矩陣中各數(shù)據(jù)項不準確(由于訓練數(shù)據(jù)不充分、不熟悉的發(fā)音,等),可以使用下述方式修改混淆矩陳以補充原始的混淆矩陣方法。我們首先將音節(jié)聚集成不同的起始韻母組(包括起始韻母丟失的組)并按上述相同的方式產(chǎn)生韻母混淆矩陣。我們還可以將音節(jié)聚集成不同的聲母組并產(chǎn)生聲母混淆矩陳。這些矩陣將給出兩個獨立的語音模型,它們可以和字、詞級語言模型配合使用來對有效的被認為是正確的字、詞的全部的似然做出估計。
圖3描述了根據(jù)本發(fā)明的一個具體實施例利用從混淆矩陣中得出的語音信息對候選者進行篩選的過程。
步驟301對用戶基于筆形的輸入進行識別產(chǎn)生候選者清單C={C1,C2…Cn};步驟302對于候選者清單C={C1,C2…Cn}中的每一候選者Ci,從混淆矩陣中得出其音節(jié)SCi與識別錯誤字符音節(jié)SE的似然性;步驟303判斷從混淆矩陣中得出的似然性是否大于一閾值Slim如果判斷結(jié)果為小于Slim則從候選者清單中去掉該候選者,并對下一個候選者執(zhí)行步驟302;步驟304如果判斷結(jié)果為從混淆矩陣中得出的仍然性大于等于閾值Slim,則將此候選者保留作為待顯示給用戶的候選者清單中的成員,對下一個候選者執(zhí)行步驟302;步驟305在對C={C1,C2…Cn}中所有候選者執(zhí)行了以上步驟后,將保留在候選者清單中的候選者顯示給用戶。
例如在某個語音識別過程中將“世”識別成“是”,為了校正錯誤,我們借助基于筆形的輸入方法輸入了筆畫“一”,這時C={一廠丁二七十才寸士世}如果不利用語音信息,正確的“世”在很靠后的位置,但通過以上步驟301-305的處理,顯示給用戶的候選者清單將是C={十士世}
由此可以看出借助語音信息可以提高錯誤校正的效率。
此外,我們可以使用語言模型(LM)來對候選者清單來做進一步限定。為了使用LM來裁剪候選者清單,我們注意到,由于假設錯誤是發(fā)生在單個字輸入環(huán)境中,我們只需考慮一元文法語言模型。換句話說,在對有效的候選者進行評估和排序過程中,我們僅簡單地在語音模型中加入單字頻率。我們還可以對語音和語言模型加權(quán),對于不熟悉的題目可以減小語言模型的權(quán)值。
此外,對于基于筆畫的輸入,可以根據(jù)筆畫或筆畫類型序列將所有涵蓋的字符集組織成樹形結(jié)構(gòu)。當依次輸入筆畫(筆畫類型)時,系統(tǒng)對產(chǎn)生的樹形結(jié)構(gòu)進行遍歷,只保留有效的分枝。可以使用組合的語音(混淆矩陣)以及語言模型來對當前有效的候選者排隊,這是基于它們整體似然值來完成的。
可以對這種聲音輔助筆畫輸入的有效性進行如下的估計。在不借助任何現(xiàn)有的語音信息獨立地使用筆畫/筆畫類型輸入系統(tǒng)時,平均需要5.36個筆畫才能把常用漢字集中的6763個漢字限制到10個以下候選者上。當我們使用字、詞級語言模型來處理多字詞時,每個漢字的有效筆畫數(shù)可以減少到3.12。
當借助現(xiàn)有的語音信息輸入筆畫時,如果我們假設錯誤字符的第一個拼音字母90%為正確的,則為了俘獲上層10個候選者清單中的正確候選者,所需平均筆畫數(shù)不會超過2.8(或3.7)。如果假設90%的聲母是正確的,則俘獲正確候選者所需筆畫數(shù)不會超過2.5(或3.4)。使用聲母和韻母信息的這兩個模型共同工作,可以使所需輸入的平均筆畫數(shù)不會超過1.0027。
如果通過長度為100的混淆集的混淆矩陣提供已有的語音信息,而在頂層10個候選者中語音識別機不能提供正確的字符,則需要基于筆畫的輸入方法。如果10-100混淆集可以涵蓋60%的錯誤字符的正確候選者,我們的初始混淆矩陣數(shù)據(jù)導致所需輸入筆畫數(shù)為3.572。通過使用語音模型和字符及語言模型可以獲得這些數(shù)字。通過字詞級預測方式,每個字符所需的平均有效筆畫數(shù)會進一步降低。估計為2.2-2.56。
如果在錯誤詞中有其它錯誤的字符,則其它錯誤字符的混淆矩陣與語言模型一起用來分別提供待估測的字符候選者。也可以估計每個字符的平均有效筆畫數(shù)。
由此可以看出通過使用語音信息可以使語音識別錯誤的校正效率大大提高。以下描述一下使用這種語音輔助方法的進行錯誤校正的語音識別系統(tǒng)。
如圖4所示,一般的語音識別系統(tǒng)包括一個語音模型7和一個語言模型8。語音模型7包括所識別語言中的常用文字的發(fā)音。這種發(fā)音是利用統(tǒng)計方法從多數(shù)人對某個文字的閱讀發(fā)音中總結(jié)出來的,代表了該文字的一般發(fā)音特征。語言模型8包括所識別語言中常用文字的使用方法。
圖4所示的連續(xù)語音識別系統(tǒng)的工作過程為,語音檢測裝置1采集用戶的語音,例如將語言表示為語音采樣,將該語音采樣送到發(fā)音概率計算裝置2。發(fā)音概率計算裝置2對語音模型7中的每個發(fā)音給出其與語音采樣是否相同的概率估值。文字概率計算裝置5,根據(jù)從大量語料中總結(jié)出的語言規(guī)律,給出對語言模型8中的文字是否是當前上下文情況下應出現(xiàn)的文字的概率估值。文字匹配裝置3,將發(fā)音概率計算裝置2計算的概率估值與文字概率計算裝置5計算的概率估值結(jié)合起來,計算一個聯(lián)合概率(該聯(lián)合概率值表示將語音采樣識別為該文字的可能性),聯(lián)合概率值最大的文字,作為語音識別的結(jié)果。上下文產(chǎn)生裝置4利用上述識別結(jié)果修改當前的上下文,以便為識別下一個語音采樣所用。文字輸出裝置6輸出所識別的文字。
圖5示出了根據(jù)本發(fā)明一個優(yōu)選實施例的可以對語音識別結(jié)果中的錯誤進行校正的語音識別系統(tǒng),在該系統(tǒng)中,用戶通過基于筆形的輸入裝置9輸入正確的字符,而錯誤校正裝置10要據(jù)語音模型7和語言模型8對候選者清單產(chǎn)生裝置11產(chǎn)生的候選者清單進行篩選。
基于筆形的輸入裝置可以是書寫板也可以是輸入筆畫或筆畫類型的裝置。在不增加硬件的情況可以通過以下幾種方式實現(xiàn)筆畫輸入1.使用通用鍵盤上的一個子區(qū)域設計漢字筆畫或筆畫類型用于輸入筆畫。筆畫類型可以使筆畫的輸入更為簡單和可靠。
2.在錯誤校正屏幕上設計虛擬的按鍵集。
3.用戶可以使用鼠標來標識所希望的筆畫。可以開發(fā)一個識別系統(tǒng)來識別整個筆畫或筆畫類型集。
4.也可以使用語音來輸入筆畫或筆畫類型。
此外,在對語音識別結(jié)果中的錯誤進行校正過程中,當用戶標記了錯誤之后,根據(jù)請求可以彈出一個候選者清單。在此我們描述一個錯誤校正屏幕的設計。如圖6所示,該錯誤校正屏幕由用于輸入五種筆畫類型的虛擬鍵盤和其右側(cè)的候選者清單組成。當用戶開始使用虛擬鍵盤輸入筆畫類型時,其右側(cè)的候選者清單將自動更改,每輸入一筆畫類型,將顯示新的頂層候選者。在同一屏幕上集成候選者清單和虛擬筆畫鍵盤的用戶接口將更便于提高錯誤校正的速度。
以上結(jié)合具體實施例描述了根據(jù)本發(fā)明的對語音識別結(jié)果中的錯誤進行校正的方法和具有錯誤校正功能的語音識別系統(tǒng)。對于本領域技術(shù)人員來說很明顯,在不背離本發(fā)明的精神前提下,可以對本發(fā)明做出許多修改,本發(fā)明旨在包括所有這些修改和變型,本發(fā)明的保護范圍由所附權(quán)利要求書來限定。
權(quán)利要求
1.一種對語音識別結(jié)果中的錯誤進行校正的方法,包括步驟對輸出的語音識別結(jié)果中的錯誤進行標記;用基于字形輸入的方法輸入與標記的錯誤相對應的正確字符;對基于字形的輸入進行識別;顯示候選的正確字符;用戶從候選的正確字符中選出所需字符;和使用選出的字符代替錯誤的字符,所述方法的特征在于還包括步驟使用錯誤字符的語音信息來對候選的正確字符進行篩選處理。
2.根據(jù)權(quán)利要求1的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于所述語音識別為漢語語音識別,并且所述字符為漢語中的字、詞或字、詞的組合。
3.根據(jù)權(quán)利要求1或2的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于所述錯誤字符的語音信息來自于語音識別階段中用戶的口述。
4.根據(jù)權(quán)利要求1或2的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于所述錯誤字符的語音信息是在錯誤校正階段從用戶口述中得到的。
5.根據(jù)權(quán)利要求1或2的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于所述語音信息為使用混淆矩陣得出的語音模型。
6.根據(jù)權(quán)利要求5的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于所述語音模型和字、詞級語言模型配合使用,以對候選的字符進行篩選處理。
7.根據(jù)權(quán)利要求1或2的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于使用樹形結(jié)構(gòu)來組織候選字符,并使用所述語音信息對樹形結(jié)構(gòu)進行裁剪。
8.根據(jù)權(quán)利要求7的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于所述語音信息為使用混淆矩陣得出的語音模型。
9.根據(jù)權(quán)利要求8的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于所述語音模型可以和字、詞級語言模型配合使用,以有效地對樹形結(jié)構(gòu)進行裁剪。
10.根據(jù)權(quán)利要求1或2的對語音識別結(jié)果中的錯誤進行校正的方法,其特征在于在同一屏幕上集成候選的正確字符和虛擬的筆畫鍵盤。
11.一種可以對語音識別結(jié)果中的錯誤進行校正的語音識別系統(tǒng),該語音識別系統(tǒng)包括采集用戶語音的語音檢測裝置;對語音模型中的每個發(fā)音計算出其與語音采樣是否相同的概率估值的發(fā)音概率計算裝置;根據(jù)語言模型計算文字在當前上下文情況下出現(xiàn)的概率估值的文字概率計算裝置;對所述發(fā)音概率計算裝置和文字概率計算裝置的計算結(jié)果進行綜合以得出與聯(lián)合最大概率值對應的文字作為語音識別結(jié)果的文字匹配裝置;利用識別結(jié)果修改上下文的上下文產(chǎn)生裝置;以及文字輸出裝置,所述語音識別系統(tǒng)的特征在于還包括一個錯誤校正裝置,用戶可以利用該錯誤校正裝置對文字輸出裝置輸出的語音識別結(jié)果中的錯誤進行標記,用基于字形輸入的方法輸入與標記的錯誤相對應的正確字符,而所述錯誤校正裝置對基于字形的輸入進行識別、產(chǎn)生候選的正確字符并利用錯誤字符的語音信息對候選的正確字符進行篩選處理。
12.根據(jù)權(quán)利要求11的語音識別系統(tǒng),其特征在于所述語音識別為漢語語音識別,并且所述字符為漢語中的字、詞或字、詞的組合。
13.根據(jù)權(quán)利要求11或12的語音識別系統(tǒng),其特征在于所述錯誤字符的語音信息來自于語音識別階段中用戶的口述。
14.根據(jù)權(quán)利要求11或12的語音識別系統(tǒng),其特征在于所述錯誤字符的語音信息是在錯誤校正階段從用戶口述中得到的。
15.根據(jù)權(quán)利要求11或12的語音識別系統(tǒng),其特征在于所述語音信息為使用混淆矩陣得出的語音模型。
16.根據(jù)權(quán)利要求15的語音識別系統(tǒng),其特征在于所述語音模型和字、詞級語言模型配合使用,以對候選的字符進行篩選處理。
17.根據(jù)權(quán)利要求11或12的語音識別系統(tǒng),其特征在于使用樹形結(jié)構(gòu)來組織候選字符,并使用所述語音信息對樹形結(jié)構(gòu)進行裁剪。
18.根據(jù)權(quán)利要求17的語音識別系統(tǒng),其特征在于所述語音信息為使用混淆矩陣得出的語音模型。
19.根據(jù)權(quán)利要求18的語音識別系統(tǒng),其特征在于所述語音模型可以和字、詞級語言模型配合使用,以有效地對樹形結(jié)構(gòu)進行裁剪。
20.根據(jù)權(quán)利要求11或12的語音識別系統(tǒng),其特征在于在同一屏幕上集成候選的正確字符和虛擬的筆畫鍵盤。
全文摘要
本發(fā)明公開了一種可以對語音識別結(jié)果中的錯誤進行校正的方法和語音識別系統(tǒng)。本發(fā)明的錯誤校正方法包括步驟:對輸出的語音識別結(jié)果中的錯誤進行標記;用基于字形輸入的方法輸入與標記的錯誤相對應的正確字符;對基于字形的輸入進行識別;顯示候選的正確字符;用戶從候選的正確字符中選出所需字符;和使用選出的字符代替錯誤的字符,所述方法的特征在于還包括步驟:使用錯誤字符的語音信息來對候選的正確字符進行篩選處理。
文檔編號G10L15/22GK1282072SQ9911069
公開日2001年1月31日 申請日期1999年7月27日 優(yōu)先權(quán)日1999年7月27日
發(fā)明者唐道南, 蘇輝, 王茜鶯, 沈麗琴, 秦勇 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
松滋市| 南陵县| 济宁市| 昭平县| 宁远县| 龙川县| 海伦市| 武清区| 合阳县| 仪陇县| 临武县| 师宗县| 房产| 石家庄市| 永定县| 高唐县| 石柱| 龙里县| 辰溪县| 瓮安县| 原平市| 明光市| 镇远县| 澄迈县| 普兰县| 汕头市| 宜宾市| 全椒县| 班玛县| 凌云县| 吉林省| 海城市| 札达县| 北辰区| 颍上县| 深州市| 淮安市| 石城县| 尼玛县| 寿宁县| 澄江县|