通過比較所識別的文本中的語音學(xué)序列與手動輸入的校正詞的語音學(xué)轉(zhuǎn)換來校正通過語...的制作方法

文檔序號：2819404閱讀：291來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：通過比較所識別的文本中的語音學(xué)序列與手動輸入的校正詞的語音學(xué)轉(zhuǎn)換來校正通過語 ...的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種校正設(shè)備，用于為所說的文本而校正通過語音識別設(shè)備而識別的文本，其中用于所說文本的所說詞的所識別文本包括正確識別的詞和不正確識別的詞。
本發(fā)明進一步涉及一種校正方法，用于為所說文本而校正通過語音識別設(shè)備而識別的文本，其中用于所說文本的所說詞的所識別文本包括正確識別的詞和不正確識別的詞。
2.背景技術(shù)這樣的校正設(shè)備和這樣的校正方法從文檔US 5,909,667中是已知的，在其中公開了聽寫設(shè)備。已知的聽寫設(shè)備由運行語音識別軟件和詞處理軟件的計算機形成。已知聽寫設(shè)備的用戶可將文本說到連接于計算機的話筒中。形成語音識別工具的語音識別軟件將已知詞指定給所說文本的每個所說詞，借助這種方式為所說的文本獲得了所識別的文本。所識別的文本包含所謂的正確識別的詞，其匹配用戶實際說的詞，以及所謂的不正確識別的詞，其不匹配用戶實際說的詞。通過形成詞處理工具的詞處理軟件，所識別的文本被呈現(xiàn)于連接于計算機的屏幕上。
已知聽寫設(shè)備亦形成校正設(shè)備，其包含詞處理軟件和語音識別軟件兩者，并且借助它可將不正確識別的詞替換成校正詞。為此，用戶標記不正確識別的詞，用計算機的鍵盤輸入校正詞，然后輸入確認，從而使所標記的不正確識別的詞被替換成輸入校正詞。
為簡化對要替換的不正確識別的詞的標記，已知聽寫設(shè)備的用戶可將要替換的不正確識別的詞—所謂的記號詞—再一次說到話筒中。語音識別軟件隨即為這個所說的記號詞識別所識別的記號詞，而詞處理軟件在所識別的文本中搜索所識別的記號詞。如果通過比較所識別文本中的詞的字母序列發(fā)現(xiàn)了所識別的記號詞，則詞處理設(shè)備將標記該記號詞。在說了記號詞之后，用戶必須檢查要替換的詞實際上是否被標記。如果是，則用戶使用鍵盤輸入校正詞和確認以實施替換。
對于已知聽寫設(shè)備，已顯露出以下缺點，即正是那些在所識別的文本中包含的不正確識別的詞對于語音識別軟件來說難以識別，因此在識別記號詞的過程中亦發(fā)生高錯誤率。作為結(jié)果，所識別的文本信息的其它詞而不是不正確識別的詞被相對頻繁地標記用于替換，這意味著附加的工作。已顯露出的已知聽寫設(shè)備另外的缺點是用戶必須執(zhí)行相對多的不同動作(話筒和鍵盤)以替換不正確識別的詞。
3.發(fā)明內(nèi)容本發(fā)明的目的是創(chuàng)建如在第一段中指定的校正設(shè)備和如在第二段中指定的校正方法，在其中避免了上述缺點。
為實現(xiàn)以上目的，在這樣的校正設(shè)備中提供了發(fā)明性特點以使該校正設(shè)備可通過以下方式來表征。一種校正設(shè)備，用于校正所說的文本通過語音識別設(shè)備而識別的文本，其中用于所說文本的所說詞的所識別文本包括正確識別的詞和不正確識別的詞，該設(shè)備具有輸入裝置，用于接收至少一個手動輸入的校正詞以將至少一個不正確識別的詞替換成至少一個校正詞；并具有轉(zhuǎn)換裝置，用于將至少輸入校正詞在語音學(xué)上轉(zhuǎn)換成音素序列；并具有搜索裝置，用于在所識別文本的詞的音素序列中尋找所述至少一個校正詞的音素序列，并用于發(fā)出位置信息，該位置信息標識音素序列基本上匹配所述至少一個校正詞的音素序列的所識別文本中的至少一個詞位置；并具有輸出裝置，用于發(fā)出位置信息以使在所識別文本信息中能夠標記由位置信息所標識的至少一個詞。
為實現(xiàn)以上目的，在這樣的校正方法中提供了發(fā)明性特點以使該校正方法可通過以下方式來表征。
一種校正方法，用于校正所說的文本通過語音識別設(shè)備而識別的文本，其中用于所說文本的所說詞的所識別文本包括正確識別的詞和不正確識別的詞，以下步驟被處理接收至少一個手動輸入的校正詞以將至少一個不正確識別的詞替換成至少一個校正詞；將至少輸入校正詞從語音學(xué)上轉(zhuǎn)換成音素序列；在所識別文本的詞的音素序列中搜索所述至少一個校正詞的音素序列并發(fā)出位置信息，該信息標識音素序列基本上匹配所述至少一個校正詞的音素序列的所識別文本中的至少一個詞的位置；發(fā)出位置信息以使在所識別文本信息中能夠標記由的位置信息所標識的至少一個詞。
本發(fā)明基于以下認識，即由語音識別設(shè)備不正確識別的詞和應(yīng)當實際上已被識別的詞——即應(yīng)被正確識別的詞——常常聽起來很相似。對于這樣的聽起來相似的詞，具體而言例如“four”和“for”，已知語音識別設(shè)備的錯誤率常常是特別高的。
作為依照本發(fā)明的特點的結(jié)果，用戶不需要標記他想要替換成校正詞的不正確識別的詞，所述校正詞應(yīng)當實際上已被識別。校正設(shè)備通過統(tǒng)計方法確定輸入校正詞的音素序列，該音素序列表示所述校正詞的聲音。然后通過比較音素序列，校正設(shè)備在所識別的文本中搜索聽起來類似于所述校正詞的詞。
有利的是，在所識別的文本信息中很可能被替換的不正確識別的詞由此通過輸入校正詞而自動標記。用戶可通過輸入確認來實現(xiàn)對所標記的詞的替換，或者通過輸入接下來的信息使所識別的文本信息的另外聽起來相似的詞被標記。
語音識別設(shè)備的已知校正設(shè)備使能夠同步再現(xiàn)所說的詞和所識別文本的關(guān)聯(lián)所識別詞以便于校正不正確識別的詞。當這些已知校正設(shè)備的用戶注意到不正確識別的詞時，他中斷同步再現(xiàn)并執(zhí)行用用戶輸入的詞對不正確識別的詞的替換。然后用戶再次激活同步再現(xiàn)以尋找并校正所識別文本中另外的不正確識別的詞。
依照權(quán)利要求2和權(quán)利要求9的措施，獲得了以下優(yōu)點，即用戶一開始輸入校正詞，同步再現(xiàn)就被自動中斷。
依照權(quán)利要求3和權(quán)利要求10的措施，獲得了以下優(yōu)點，即用戶一通過輸入應(yīng)將被自動標記的詞替換成輸入校正詞的確認而確認，同步再現(xiàn)的中斷再次被自動終止。
在同步再現(xiàn)中，校正設(shè)備的用戶在當前在聲學(xué)上被再現(xiàn)并且在同步再現(xiàn)期間在光學(xué)上被標記的詞的環(huán)境下識別不正確識別的詞。依照權(quán)利要求4和權(quán)利要求11的措施，獲得了以下優(yōu)點，即搜索裝置在最初在聽起來相似的詞的中斷時在所識別文本中標記的詞的緊鄰處查找，并且在最初標記這個。如果用戶應(yīng)通過輸入接下來的信息而開始進一步的搜索，則搜索區(qū)域被加寬。
在語音識別過程中，語音識別設(shè)備首先確定與所說文本關(guān)聯(lián)的音素序列，并且基于該音素序列來識別所識別的文本。依照權(quán)利要求5和權(quán)利要求12的措施，獲得了以下優(yōu)點，即在其搜索校正詞的音素序列的過程中，搜索裝置使用已由語音識別設(shè)備確定的音素序列。這在校正設(shè)備形成語音識別設(shè)備的一部分時是特別有利的。
為增加搜索裝置的可靠性，已被證明有利的是，聽起來很相似的音素在搜索中被列為相同的音素。這樣，例如，在英語詞的音素序列中，音素“v”和“f”以及“t”和“d”在搜索裝置的搜索中被看作是相同的。
4.

在以下將參照實施例來詳述本發(fā)明，然而本發(fā)明不局限于該實施例。
圖1示出處理語音識別軟件和詞處理軟件并形成校正設(shè)備的計算機，所述校正設(shè)備用于為所說的文本而校正由語音識別設(shè)備識別的文本。
圖2到5示出通過圖1計算機的校正設(shè)備呈現(xiàn)在監(jiān)視器上的屏幕信息。
5.具體實施方式
圖1示出計算機1，其形成語音識別設(shè)備2、詞處理設(shè)備3和校正設(shè)備4。語音識別設(shè)備2和校正設(shè)備4借助計算機1所處理的語音識別軟件而形成，而詞處理設(shè)備3借助計算機1所處理的詞處理軟件而形成。
話筒5、揚聲器6、監(jiān)視器7和鍵盤8被連接于計算機1。計算機1的用戶可將文本說到話筒5中，在其上包括該所說文本的所說文本信息GTI作為模擬音頻信號被輸出到語音識別設(shè)備2的語音識別裝置9。
如長期以來所知的，語音識別裝置9被設(shè)計成識別待被相關(guān)于所說文本信息GTI的所識別文本信息ETI。為此，語音識別裝置9將所說文本信息GTI作為數(shù)字音頻數(shù)據(jù)存儲在初始存儲器級10中。在借助語音識別裝置9的語音識別過程的處理中，語音識別裝置9首先將包含音素的音素序列相關(guān)于所說文本信息GTI。如通常所知的，音素是小聲學(xué)單位，而詞的音素序列再現(xiàn)所說詞的聲學(xué)印象。例如，詞“DAYS”被分配了音素序列“d Y z”。
在語音識別過程的隨后處理中，從所說文本信息GTI確定的音素序列被搜索于詞典存儲器中，在其中為大量詞的每個而存儲了相關(guān)音素序列。如果所檢測的音素序列已被發(fā)現(xiàn)于詞典存儲器中，則相關(guān)音素序列被確定為可能識別的詞。用于所檢測音素序列的可能識別詞的序列然后被搜索于語音模型存儲器中，并且可能識別詞的最可能序列作為用于所說文本信息GTI的所識別文本信息被存儲在第二存儲級11中。
所識別文本信息ETI包含由匹配用戶實際說的詞的所謂正確識別詞形成的正確識別文本信息RETI。所識別文本信息ETI亦包含由不匹配用戶實際說的詞的所謂不正確識別詞形成的不正確識別文本信息FETI。如將在以下更詳細討論的，由語音識別設(shè)備9不正確識別的詞和應(yīng)當實際上已被識別的詞——即所說詞——常常聽起來很相似。
在語音識別過程中，鏈接信息LI亦被確定，并被存儲在第三存儲器級12中。鏈接信息LI為所說文本信息GTI的每個詞而標識所識別文本信息ETI的關(guān)聯(lián)識別詞，并且使能同步再現(xiàn)工作模式，如將在以下更詳細討論的。所述語音識別過程是長期以來所知的，因此不再涉及其任何更多的細節(jié)。
詞處理設(shè)備3被設(shè)計成讀取被存儲在第二存儲器級11中的所識別文本信息ETI并將包括該所識別文本信息ETI的屏幕信息BI輸出到監(jiān)視器7。從鍵盤8，可通過校正設(shè)備4的輸入裝置13將校正信息傳遞到詞處理設(shè)備3上，從而編輯或改變所識別文本信息ETI，然后由此限定可被存儲在校正設(shè)備4的第四存儲器級14中的經(jīng)校正的文本信息KTI。
當同步再現(xiàn)工作模式被激活時，計算機1被設(shè)計成自動標記在監(jiān)視器7上呈現(xiàn)的所識別文本信息ETI的詞，并且通過揚聲器6同步地，即同時地在聲學(xué)上再現(xiàn)由鏈接信息LI分配的所說詞。為此，詞處理設(shè)備3從對應(yīng)的存儲器級10、11和12中讀取所識別文本信息ETI和所說文本信息GTI以及鏈接信息LI。
當同步再現(xiàn)工作模式被激活時，用戶可檢查所呈現(xiàn)的所標記的詞是否為剛才已在聲學(xué)上被再現(xiàn)的所說詞而被正確識別。該特點被已知為“同步回放”并且被描述于例如US 5,031,113中，因此不再涉及其任何更多的細節(jié)。
校正設(shè)備4進一步包括輸入裝置13、第四存儲器級14、第五存儲器級15、轉(zhuǎn)換裝置16和搜索裝置17。轉(zhuǎn)換裝置16被設(shè)計成通過統(tǒng)計方法從語音學(xué)上轉(zhuǎn)換詞。被分配給在詞典存儲器中存儲的詞的所存音素序列由這些裝置讀取。未被存儲在詞典存儲器中的詞被分解成分離的音節(jié)，并且通過組合來自詞典存儲器的這些音節(jié)的音素來確定關(guān)聯(lián)的音素序列。
當通過按壓鍵盤8上的鍵在計算機1中激活同步再現(xiàn)工作模式時，轉(zhuǎn)換裝置16從第二存儲器級11讀取所識別文本信息ETI并執(zhí)行對整個所識別文本信息ETI的語音學(xué)轉(zhuǎn)換。作為對所識別文本信息ETI的語音學(xué)轉(zhuǎn)換的結(jié)果，轉(zhuǎn)換裝置16發(fā)出用于所識別文本信息ETI的音素信息PI(ETI)，其包含用于所識別文本的詞的音素序列并被存儲在第五存儲器級15中。
輸入裝置13被進一步設(shè)計成接收用鍵盤8手動輸入的校正詞的校正信息KWI以將所識別文本的不正確識別的詞替換成校正詞。轉(zhuǎn)換裝置16被進一步設(shè)計成對校正信息KWI在語音學(xué)上轉(zhuǎn)換并發(fā)出用于校正信息KWI的音素信息PI(KWI)，為了這個目的，校正信息KWI可被饋送給轉(zhuǎn)換裝置16。
轉(zhuǎn)換裝置16被設(shè)計成將用于校正信息KWI的音素信息PI(KWI)發(fā)給搜索裝置17。搜索裝置17被設(shè)計成在所識別文本的詞的音素序列中尋找所述至少一個校正詞的音素序列并發(fā)出位置信息PI，其標識音素序列基本上匹配所述至少一個校正詞的音素序列的所識別文本中的至少一個詞的位置。
搜索裝置17進一步形成用于發(fā)出位置信息PI的裝置以使能標記所識別文本信息ETI中由位置信息PI標識的至少一個詞。為此，搜索裝置將用于待被標記的詞的位置信息PI傳遞給詞處理裝置3，其又將對應(yīng)的屏幕信息BI傳遞到監(jiān)視器7上。依照本發(fā)明的校正設(shè)備的進一步的功能和優(yōu)點將以下在用于計算機1的圖2到5中呈現(xiàn)的應(yīng)用實例的基礎(chǔ)上被更詳細地描述。
在應(yīng)用實例中，假定計算機1的用戶將詞“ONE TWO THREE FOURFIVE SIX SEVEN EIGHT NIGHT TEN”說到話筒5中。在語音識別裝置9的語音識別過程中，所識別詞“1 2 3 FOR 5 6 7 DAYS 9 THEN”的所識別文本信息ETI被相關(guān)于對應(yīng)的所說文本信息GTI。
所識別文本信息ETI包含用于不正確識別詞“FOR”、“DAYS”和“THEN”的不正確識別文本信息FETI。如可從表1看到的，不正確識別的詞和實際上應(yīng)被識別的所說詞的音素序列很相似，這就是為什么語音識別裝置9在識別中出錯。
表1在應(yīng)用實例中，進一步假定用戶通過按壓鍵盤8上的鍵來激活同步再現(xiàn)工作模式。圖2中所示的屏幕信息BI然后被呈現(xiàn)于監(jiān)視器7上。當同步再現(xiàn)工作模式被激活時，監(jiān)視器7上的顯示被分成CORRECTIONEDITOR和CORRECTION WINDOW。緊接著在激活同步再現(xiàn)工作模式之后，CORRECTION EDITOR示出匹配所識別文本的所識別文本信息ETI的經(jīng)校正文本的經(jīng)校正文本信息KTI。CORRECTION WINDOW示出用戶用鍵盤8輸入的校正詞；以下將涉及其細節(jié)。
緊接著在激活同步再現(xiàn)工作模式之后，詞處理裝置3從對所說文本信息GTI的第一詞“ONE”的聲學(xué)再現(xiàn)開始，并且用記號信息MI來標記所識別文本信息ETI的關(guān)聯(lián)所識別詞“1”。用戶可由此很容易地看到所識別的詞實際上匹配所說的詞。
在所說文本信息GTI的第四詞“FOUR”在聲學(xué)上被再現(xiàn)并在光學(xué)上被標記時，用戶注意到該詞被不正確地識別并在其鍵盤8上輸入詞“4”——其應(yīng)當實際上已被識別——作為校正詞或作為校正信息KWI。
校正設(shè)備4現(xiàn)在被有利地設(shè)計成在用戶開始用鍵盤8輸入校正詞的時刻自動中斷同步再現(xiàn)工作模式。作為此事的結(jié)果，對所說文本信息GTI的聲學(xué)再現(xiàn)被中斷，并且光標信息CI被示出于記號信息MI的當前位置，如可在圖3中看到的。因此，用戶有利地不需要按壓任何另外的鍵以中斷同步再現(xiàn)工作模式。
緊接著在激活同步再現(xiàn)工作模式之后，轉(zhuǎn)換裝置16已轉(zhuǎn)換了所識別文本信息ETI并將由此確定的用于所識別文本信息ETI的音素信息PI(ETI)存儲在第五存儲器級15中。用戶一輸入校正詞，轉(zhuǎn)換裝置16就轉(zhuǎn)換輸入校正信息KWI并將用于校正信息KWI的所確定的音素信息PI(KWI)傳遞到搜索裝置17上。
搜索裝置17現(xiàn)在開始在光標信息CI的當前位置之前的M＝5個詞和之后的N＝3個詞的可調(diào)搜索區(qū)域中搜索所識別文本信息(ETI)的音素信息PI(ETI)中的校正詞的校正信息KWI的音素信息PI(KWI)。由于在所識別文本信息ETI的搜索區(qū)域中音素信息PI(KWI)＝“for”匹配不正確識別文本信息FETI的音素信息PI(ETI)“for”，搜索裝置17將所識別文本信息ETI的第四詞的位置確定為位置信息PI。搜索裝置17然后將所確定的位置信息PI傳遞到詞處理設(shè)備3上，在其上不正確識別的詞“FOR”——如圖4中所示——被用記號信息MI標記。
這具有以下優(yōu)點，即用戶——在注意到不正確識別的詞并中斷同步再現(xiàn)工作模式之后——不需要標記要替換的不正確識別的詞。有利的是，為將不正確識別的詞“FOR”替換成輸入校正詞“4”，用戶僅需輸入確認，這可例如通過按壓鍵盤8的“ENTER”鍵來實現(xiàn)。因此，可以以特別簡單且快速的方式來執(zhí)行用應(yīng)當實際上已被識別的詞對不正確識別的詞的替換。
有利的是，對同步再現(xiàn)工作模式的中斷亦通過輸入確認來終止，從而使對所識別文本信息ETI的關(guān)聯(lián)識別詞的同步聲學(xué)再現(xiàn)和光學(xué)標記被恢復(fù)。
在所識別文本信息ETI的所述音素信息PI(ETI)的搜索區(qū)域中對校正信息KWI的音素信息PI(KWI)的搜索產(chǎn)生了以下優(yōu)點，即如果相同的詞再次出現(xiàn)在所識別文本中的不同位置處，則亦以特定的可靠性來尋找要替換的不正確識別的詞。如果在搜索區(qū)域中的搜索不成功，則搜索裝置17被有利地設(shè)計成對搜索區(qū)域進行步進擴展。
如果圖4中標記的詞不是用戶想要用輸入校正詞替換的詞，則他可輸入接下來的信息NI，從而使搜索裝置17在經(jīng)擴展的搜索區(qū)域中再次搜索，如果有的話。搜索裝置17一檢測到另一個先前未標記的詞的音素信息PI(ETI)和PI(KWI)，搜索裝置17就將該所檢測的詞的位置作為位置信息PI傳遞到詞處理設(shè)備3上。
這具有以下優(yōu)點，即如果由校正設(shè)備4自動標記的詞不是用戶想要用輸入校正詞替換的詞，則僅通過按壓鍵盤8上的鍵，用戶可導(dǎo)致自動標記顯示出與校正詞的音素信息PI(KWI)的接近匹配的搜索區(qū)域中的不同詞。
搜索裝置17現(xiàn)在被發(fā)展成在搜索基本上匹配的音素序列的過程中忽略與所比較的音素序列不同但聽起來相似的音素。例如，在此，音素“o”和“@”被列為聽起來相似以使僅在這兩個音素上不同的所比較音素序列被評價為匹配。
這提供了以下優(yōu)點，即即使有正在比較的音素序列的小差異，搜索裝置17亦到達結(jié)果，從而標記所識別文本信息ETI中的詞。
應(yīng)指出，可替換的是，搜索裝置17可將在語音識別過程的處理中由語音識別裝置確定的音素信息用作用于所識別文本信息ET I的音素信息PI(ETI)。這將產(chǎn)生以下優(yōu)點，即轉(zhuǎn)換裝置不必轉(zhuǎn)換所識別文本信息ETI，并且第五存儲器級不需要被提供。
亦特別有利的是提供校正設(shè)備作為語音識別設(shè)備的一部分并使同步再現(xiàn)工作模式由校正設(shè)備來實施。因此可使用通常出售的詞處理軟件，如“Word for Windows”。
應(yīng)指出，亦可輸入幾個詞作為校正信息KWI以同時替換一個或幾個不正確識別的詞。應(yīng)指出，可由計算機用戶來設(shè)置搜索區(qū)域。這樣，用戶實際上可選擇處于N＝1到N＝500和M＝1到M＝500的范圍內(nèi)的任何值。
應(yīng)指出，可替換的是，可有利地僅對將在搜索區(qū)域中發(fā)現(xiàn)的所識別文本信息ETI的詞執(zhí)行語音學(xué)轉(zhuǎn)換。
應(yīng)指出，借助專業(yè)轉(zhuǎn)換服務(wù)，依照本發(fā)明的校正設(shè)備可被用于專門優(yōu)點，這是因為這種轉(zhuǎn)換服務(wù)中的轉(zhuǎn)換器僅手動校正語音識別設(shè)備不正確識別的詞，因此實際上以下條件總是符合，即不正確識別的詞的和待識別的實際上所說的詞的音素序列很相似。
權(quán)利要求
1.一種校正設(shè)備(4)，用于校正所說的文本通過語音識別設(shè)備(2)而識別的文本(ETI)，其中用于所說文本(GTI)的所說詞的所識別文本(ETI)包括正確識別的詞和不正確識別的詞(FETI)，該設(shè)備具有輸入裝置(13)，用于接收至少一個手動輸入的校正詞(KWI)以將至少一個不正確識別的詞(FETI)替換成至少一個校正詞(KWI)；并具有轉(zhuǎn)換裝置(16)，用于將至少輸入校正詞(KWI)在語音學(xué)上轉(zhuǎn)換成音素序列(PI(KWI))；并具有搜索裝置(17)，用于在所識別文本的詞的音素序列(PI(KTI))中尋找所述至少一個校正詞(KWI)的音素序列(PI(KWI))并用于發(fā)出位置信息(PI)，該位置信息標識音素序列基本上匹配所述至少一個校正詞(KWI)的音素序列(PI(KWI))的所識別文本(ETI)中的至少一個詞的位置；并具有輸出裝置(17)，用于發(fā)出位置信息(PI)以使能標記所識別文本信息(ETI)中由位置信息(PI)所標識的至少一個詞。
2.權(quán)利要求1的校正設(shè)備(4)，其中校正設(shè)備(4)被設(shè)計成當校正詞(KWI)中斷同步再現(xiàn)，在其中所說文本的所說詞(GTI)在聲學(xué)上被再現(xiàn)并且對于所說詞(GTI)的所識別文本(ETI)中的所識別詞同步地在光學(xué)上被標記。
3.權(quán)利要求2的校正設(shè)備(4)，其中校正設(shè)備(4)被設(shè)計成當用所述至少一個校正詞(KWI)對由位置信息(PI)標識的至少一個詞的替換已通過手動輸入確認而確認時，終止同步再現(xiàn)的中斷。
4.權(quán)利要求2的校正設(shè)備(4)，其中搜索裝置(17)被設(shè)計成在被包含于所識別文本的搜索區(qū)域中的詞的音素序列(PI(ETI))中搜索所述至少一個校正詞(KWI)的音素序列(PI(KWI))，所述搜索區(qū)域由中斷同步再現(xiàn)之前所識別文本(ETI)中的最后被標記的詞之前的M個詞和之后的N個詞來限定。
5.權(quán)利要求1的校正設(shè)備(4)，其中搜索裝置(17)被設(shè)計成在由語音識別設(shè)備(2)從所說文本(GTI)的所說詞而確定的音素序列中搜索所述至少一個校正詞(KWI)的音素序列(PI(KWI))。
6.權(quán)利要求5的校正設(shè)備(4)，其中校正設(shè)備(4)被設(shè)計成形成語音識別設(shè)備(2)的一部分。
7.權(quán)利要求1的校正設(shè)備(4)，其中搜索裝置(17)被設(shè)計成在搜索基本上匹配的音素序列的過程中忽略與所比較的音素序列不同但聽起來相似的音素。
8.一種校正方法，用于校正所說的文本通過語音識別設(shè)備(2)而識別的文本(ETI)，其中用于所說文本(GTI)的所說詞的所識別文本(ETI)包括正確識別的詞和不正確識別的詞(FETI)，以下步驟被處理接收至少一個手動輸入的校正詞(KWI)以將至少一個不正確識別的詞(FETI)替換成至少一個校正詞(KWI)；將至少輸入校正詞(KWI)在語音學(xué)上轉(zhuǎn)換成音素序列(PI(KWI))；在所識別文本(ETI)的詞的音素序列(PI(ETI))中搜索所述至少一個校正詞(KWI)的音素序列并發(fā)出位置信息(PI)，該位置信息標識音素序列基本上匹配所述至少一個校正詞(KWI)的音素序列的所識別文本(ETI)中的至少一個詞的位置；發(fā)出位置信息(PI)以便在所識別文本信息(ETI)中能夠標記由位置信息(PI)所標識的至少一個詞。
9.權(quán)利要求8的校正方法，其中以下進一步的過程步驟被執(zhí)行當校正詞(KWI)被手動輸入時，中斷同步再現(xiàn)，在其中所說文本的所說詞(GTI)在聲學(xué)上被再現(xiàn)并且對于所說詞(GTI)的所識別文本(ETI)中的所識別詞同步地在光學(xué)上被標記。
10.權(quán)利要求9的校正方法，其中以下進一步的過程步驟被執(zhí)行當用所述至少一個校正詞(KWI)對由位置信息(PI)標識的至少一個詞的替換已通過手動輸入確認而確認時，終止同步再現(xiàn)的中斷。
11.權(quán)利要求9的校正方法，其中以下進一步的過程步驟被執(zhí)行在被包含于所識別文本(ETI)的搜索區(qū)域中的詞的音素序列中搜索所述至少一個校正詞(KWI)的音素序列，所述搜索區(qū)域由中斷同步再現(xiàn)之前所識別文本(ETI)中的最后被標記的詞之前的M個詞和之后的N個詞來限定。
12.權(quán)利要求8的校正方法，其中以下進一步的過程步驟被執(zhí)行在由語音識別設(shè)備(2)從所說文本(GTI)的所說詞而確定的音素序列中搜索所述至少一個校正詞(KWI)的音素序列(PI(KWI))。
13.權(quán)利要求8的校正方法，其中以下進一步的過程步驟被執(zhí)行搜索基本上匹配的音素序列，與所比較的音素序列不同但聽起來相似的音素被忽略。
全文摘要
一種用于語音識別設(shè)備(2)的校正設(shè)備(4)被提供，借助它可特別簡單地執(zhí)行對所識別文本(ETI)的不正確識別的詞(FETI)的替換。校正設(shè)備(4)基于以下認識，即不正確識別的詞和應(yīng)當實際上已被識別的詞的音素序列很相似，并且自動標記顯示出與用戶手動輸入的校正詞(KWI)相似的音素序列的所識別文本(WTI)中的詞。
文檔編號G10L15/22GK1555553SQ02818132
公開日2004年12月15日申請日期2002年9月10日優(yōu)先權(quán)日2001年9月17日
發(fā)明者W·格施溫特納, W 格施溫特納申請人:皇家飛利浦電子股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：W.格施溫特納
技術(shù)所有人：皇家飛利浦電子股份有限公司
我是此專利的發(fā)明人

上一篇：通信系統(tǒng)中文本到話音的本地編碼的制作方法
上一篇：聲波裝置的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

通過比較所識別的文本中的語音學(xué)序列與手動輸入的校正詞的語音學(xué)轉(zhuǎn)換來校正通過語...的制作方法