具有替換命令的語音識別方法

文檔序號：2822657閱讀：234來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：具有替換命令的語音識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音識別方法，其具有通過口述命令對錯誤識別的文本信息部分進(jìn)行編輯的文本編輯方法。
本發(fā)明還涉及一種計算機(jī)程序產(chǎn)品，其可直接裝入到數(shù)字計算機(jī)的內(nèi)存儲器且包括軟件代碼段。
US-A-5794189披露了這樣的語音識別方法和這樣的計算機(jī)程序產(chǎn)品，且其通過連接麥克風(fēng)與監(jiān)視器的計算機(jī)進(jìn)行處理。已知的語音識別方法具有短期文本編輯方法，通過該方法可借助于口述命令對單詞進(jìn)行編輯，該單詞位于識別文本的最后識別句子中，被語音識別方法錯誤識別了。
當(dāng)使用者注意到通過語音識別方法最后識別的句子中存在錯誤識別的單詞時，他發(fā)出一個單音節(jié)口述命令“oops(唬)”聲音進(jìn)入麥克風(fēng)。隨后，打開了語音識別方法的編輯框，其中含有存在錯誤的句子。然后使用者可以再次說出被錯誤識別的句子，之后通過短期文本編輯方法分析在識別錯誤句子期間確定的語音分析信息，設(shè)法在錯誤句子中找出被錯誤識別的單詞，并且用重新口述和識別的單詞將其替換。當(dāng)使用者用另一個單音節(jié)口述命令確認(rèn)該替換時，重新口述的單詞替換了識別文本的錯誤句子中被錯誤識別的單詞且編輯框關(guān)閉。
已經(jīng)證實利用已知的短期編輯方法的缺點是，使用者不得不在各個不同的時刻依照正確次序且根據(jù)監(jiān)視器上顯示的信息，說出兩個不同的單個單詞命令(oops；accept)(唬；接受)以及替換單詞從而進(jìn)入麥克風(fēng)，這過程相當(dāng)復(fù)雜。而且，已經(jīng)證實利用已知的短期編輯方法的缺點是，在錯誤句子中被錯誤識別的單詞的發(fā)現(xiàn)不具有充分的可靠性。
已知的語音識別方法還包含有文件文本編輯方法，在運(yùn)行文件的整個文本中編輯單詞?？梢詫﹀e誤地或正確地得到識別的單詞以及通過計算機(jī)擊鍵輸入的單詞進(jìn)行編輯。當(dāng)使用者想要改變文本中的一個單詞的時候，他說出“select(選擇)”外加他想要改變的單詞進(jìn)入計算機(jī)的麥克風(fēng)，這樣展現(xiàn)了一種用于標(biāo)記單詞的雙單詞口述命令。而后已知的文件文本編輯方法生成整個文件文本的樹結(jié)構(gòu)且在按照該樹結(jié)構(gòu)中檢索由口述單詞識別的文本。
當(dāng)計算機(jī)選擇并標(biāo)記文本中的單詞且將其顯示在監(jiān)視器上時，使用者可以用單個的口述命令確認(rèn)或者取消該選擇。當(dāng)使用者確認(rèn)該選擇并隨后說出新的單詞進(jìn)入麥克風(fēng)時，新的單詞替換了標(biāo)記的單詞。
已經(jīng)證實已知的文件編輯方法的缺點是，使用者不得不在幾個時間點依照正確的次序且根據(jù)監(jiān)視器上顯示的信息，說出兩個不同的口述命令(“select”；“accept”)(對應(yīng)譯文“選擇”；“接受”)以及替換單詞外加新的單詞以輸入麥克風(fēng)，這過程相當(dāng)復(fù)雜。該已知的文件編輯方法進(jìn)一步的缺點是，要被替換的單詞的發(fā)現(xiàn)不具有充分的可靠性。
本發(fā)明的一個目的是消除上述問題且提供一種與第一段所述一致的改進(jìn)的語音識別方法和一種與第二段所述一致的改進(jìn)的計算機(jī)程序產(chǎn)品。為了實現(xiàn)這個目的，將依照本發(fā)明的特征提供在這樣的一個語音識別方法中，以致該語音識別方法的特征是如下文所述的方法。
一種語音識別方法，其具有利用在第二文本信息中識別的四個單詞的口述命令對第一文本信息的錯誤識別的文本信息部分進(jìn)行編輯的文本編輯方法，該語音識別方法包括下述步驟·接受語音信息和對第一文本信息與第二文本信息的識別；·檢查在第二文本信息中的第一位置的單詞是否匹配四單詞口述命令的第一口述命令部分，并且檢查在第二文本信息中第三位置或更遠(yuǎn)位置的單詞是否匹配四單詞口述命令的第三口述命令部分，此時如果檢查得到肯定的結(jié)果，則執(zhí)行文本編輯方法的下一步驟；·檢查第一文本信息是否包含有錯誤識別的文本信息部分，其特征表現(xiàn)為在第二文本信息中第一口述命令部分和第三口述命令部分之間的第二口述命令部分，此時如果檢查得到肯定的結(jié)果，則執(zhí)行文本編輯方法的下一步驟；·用新的文本信息部分替換第一文本信息的錯誤識別文本信息部分，其中新的文本信息部分作為四單詞口述命令中位于第三口述命令部分之后的第四口述命令部分包含在第二文本信息中。
作為這個發(fā)明目的的實現(xiàn)方案，這樣的計算機(jī)程序產(chǎn)品具有依照本發(fā)明的特有特征，計算機(jī)程序產(chǎn)品的特征描述見下文。
計算機(jī)程序產(chǎn)品，其可直接裝入到數(shù)字計算機(jī)的內(nèi)存儲器且包括軟件代碼段，當(dāng)該產(chǎn)品在計算機(jī)上運(yùn)行時計算機(jī)執(zhí)行如權(quán)利要求1所述語音識別方法的步驟。
結(jié)果，使用者可通過只說出四個單詞的口述命令一次來實現(xiàn)用新的單詞替換錯誤識別的單詞。例如，使用者可說出“replace test by text(用text替換test)”來實現(xiàn)用單詞“text”替換錯誤識別的單詞“test”。此外，在對錯誤識別的文本信息進(jìn)行替換之前，可執(zhí)行重新計算，按該計算確定具有最大正確識別概率的第一文本信息，同時使用了對第一文本信息識別期間確定的語音分析信息和包含在口述命令中的附加信息。包含在口述命令中的信息還包括發(fā)音極其相近的錯誤識別單詞“test”和正確識別單詞“text”的發(fā)音信息。語音識別方法利用這個附加信息因此而具有對第一文本信息重新計算的非常精確的語音信息的處理方法，其結(jié)果是重新計算期間確定的編輯信息非?？煽慷苓_(dá)到使用者期望的替換目的。
在下述情形下其具有很大的優(yōu)點口述命令不是針對整個文件，而是僅針對第一文本信息的文本部分，該部分剛好顯示在監(jiān)視器上。當(dāng)口述命令導(dǎo)致一個錯誤替換時，可以非常簡便地取消掉，例如通過口述命令“undo(取消)”。
已經(jīng)證實利用權(quán)利要求1所述語音識別方法便于提供權(quán)利要求2所述的方法。獲得的優(yōu)點是，口述期間使用者可以在糾正錯誤識別的單詞之后立即繼續(xù)進(jìn)行口述，而不需要給出用于光標(biāo)定位的口述命令。
已經(jīng)證實利用權(quán)利要求1所述語音識別方法便于提供權(quán)利要求3所述的方法。其優(yōu)點是，對錯誤識別的單詞進(jìn)行替換的口述命令，該命令可以非常方便地說出，但仍然包含了替換所需的所有信息。
依照權(quán)利要求4中請求的方法，為了識別第二文本信息，為每個口述命令部分確定了多個選項文本信息部分。隨后，對于第二文本信息，為每個口述命令部分選定選項文本信息部分，用以獲取對第二文本信息正確識別的最大的總概率，以整體識別第二文本信息。當(dāng)識別一個四單詞口述命令時，可能會出現(xiàn)文本信息部分沒有包含在第二文本信息中的情況，而其他的選項文本信息部分之一表征顯示在監(jiān)視器上的被錯誤識別單詞。
依照權(quán)利要求4的方法獲得這樣的優(yōu)點，當(dāng)包含在第二文本信息中的第二口述命令部分的選項文本信息部分不能在第一文本信息中找到的時候，也將不包含在第二文本信息中的第二口述命令的選項文本信息部分作為錯誤識別的文本信息部分在第一文本信息中進(jìn)行檢索。這進(jìn)一步提高了在第一文本信息中找到錯誤識別文本信息部分的可靠性。
依照權(quán)利要求5的方法獲得這樣的優(yōu)點，如果在口述命令中作為第四口述命令部分說出來的新的文本信息部分被錯誤識別了—就象在第一文本信息中的錯誤識別的文本信息部分一樣—則將具有對第二文本信息正確識別的第二大的總概率的并且在第四口述命令單詞之后識別的一個選項文本信息部分定義為新的文本信息部分。結(jié)果，進(jìn)一步提高了用新的文本信息部分對識別錯誤的文本信息部分進(jìn)行替換的可靠性。
本發(fā)明的這些以及其他方面將結(jié)合下面所述的實施例來闡述并通過這些實施例變得清楚。
在附圖中

圖1以方框圖的形式概略性地顯示了計算機(jī)，其執(zhí)行具有文本編輯方法的語音識別方法，圖2顯示了具有文本編輯方法的語音識別方法的流程圖，其通過圖1所示的計算機(jī)執(zhí)行，圖3顯示了四個單詞語音命令的結(jié)構(gòu)和作為四個單詞語音命令被計算機(jī)識別的第二文本信息，圖4顯示了口述信息部分和由計算機(jī)識別作為口述信息部分選項的第二文本信息的文本信息部分。
圖1顯示了連接有麥克風(fēng)2與監(jiān)視器3的計算機(jī)1。將存儲在CD-ROM上的語音識別軟件裝入到計算機(jī)1的主存儲器，其軟件構(gòu)成了計算機(jī)程序產(chǎn)品。計算機(jī)1還包括處理器、硬盤以及用于處理語音識別軟件的其它裝置，所述其它裝置都是現(xiàn)在慣常使用的，因而沒有在圖1中進(jìn)一步顯示。
當(dāng)語音識別軟件裝入到計算機(jī)1的主存儲器時，計算機(jī)1執(zhí)行具有文本編輯方法的語音識別方法，用以利用四單詞口述命令SB對錯誤識別的文本信息部分TW進(jìn)行編輯。該具有文本編輯方法的語音識別方法具有圖2中顯示的流程4中的步驟。
當(dāng)計算機(jī)1的使用者講話聲音進(jìn)入麥克風(fēng)2的時候，包含有語音信息SI的模擬麥克風(fēng)信號MS通過麥克風(fēng)2進(jìn)入計算機(jī)1。計算機(jī)1包括模數(shù)轉(zhuǎn)換器5，其可應(yīng)用于模擬麥克風(fēng)信號MS。模數(shù)轉(zhuǎn)換器5用于將模擬麥克風(fēng)信號MS轉(zhuǎn)化為數(shù)字信號，且用于生成數(shù)字聲頻數(shù)據(jù)AD，其包含在麥克風(fēng)信號MS中包含的語音信息SI。
計算機(jī)1包括識別裝置6、語境存儲器7以及語音模型存儲器8。在語境存儲器7中存儲音素信息PI與文本信息部分TTI。音素信息PI包含一系列用于使聲音具有特色的音素。當(dāng)使用者說出作為語音信息SI的存儲在語境存儲器7中的音素信息PI時，文本信息部分TTI包含由一個或多個待通過語音識別方法識別的單詞組成的文本。當(dāng)執(zhí)行語音識別方法時，計算機(jī)1只可以識別存儲在語境存儲器7中的單詞且將它們生成為文本信息TI。
在語音模型存儲器8中存儲關(guān)于語言中慣用的一串單詞的概率信息WI。例如，單詞序列“this is a test”的總概率要大于單詞序列“this his a test”。
可通過模數(shù)轉(zhuǎn)換器5將聲頻數(shù)據(jù)AD送給識別裝置6。將包含在聲頻數(shù)據(jù)AD中的語音信息SI細(xì)分為指定其音素信息PI的口述信息部分STI，所述細(xì)分發(fā)生在識別裝置6執(zhí)行語音識別方法的時候。在語境存儲器7中搜索口述信息部分STI的音素信息PI，之后確定指定給這些音素信息PI的文本信息部分TTI且存儲在語境存儲器7中。
假如搜索的音素信息PI沒有在語境存儲器7中找到，則將確定存儲在語境存儲器7中且與搜索的音素信息PI相近的多個音素信息元素PI并且存儲指定到這些音素信息元素PI的文本信息部分TTI。將為口述信息部分STI的音素信息PI確定的文本信息部分TTI列入選項表，作為口述命令部分STI的選項文本信息部分ATI。在圖4中顯示了這樣的選項表AT。
在確定選項文本信息部分ATI之后，識別裝置6計算存儲在語音模型存儲器8中的概率信息WI，且確定選項文本信息部分ATI作為具有最大正確識別總概率的識別文本信息TI的排序。
識別裝置6使用久為人知的通常稱作隱馬爾可夫模型來識別指定給接收的語音信息SI的文本信息TI。在本發(fā)明中不再進(jìn)一步討論對指定給接收的語音信息SI的文本信息TI的識別。
計算機(jī)還包括用于存儲語音分析信息SAI的語音分析存儲裝置9，當(dāng)執(zhí)行語音識別方法時由識別裝置6確定SAI。除了其它信息之外，語音分析信息SAI還包含口述信息部分STI以及相聯(lián)系的音素信息PI，以及列入選項表AT的選項文本信息部分ATI。本領(lǐng)域?qū)I(yè)人員通常將這樣的語音分析信息SAI稱為“格子”(lattice)。
計算機(jī)1還包括替換裝置10，通過識別裝置6識別的文本信息TI加到其上，文本信息TI的信息形成第一文本信息TI1或第二文本信息TI2。替換裝置10用于檢查識別的文本信息TI是否具有四單詞口述命令結(jié)構(gòu)SB＝“REPLACE A WITH B(用B替換A)”(其如圖3所示)。四單詞口述命令SB提供用于替換被錯誤識別的單詞，將結(jié)合圖1中所示具體裝置的應(yīng)用實施例對其進(jìn)行進(jìn)一步說明。
口述命令SB的第一個單詞構(gòu)成了第一口述命令部分SB1＝“REPLACE”，而口述命令SB的第三個或另一個單詞構(gòu)成了第三口述命令部分SB3＝“WITH”，其中象這樣的第一口述命令部分SB1與第三口述命令部分SB3在口述命令部分SB中起重要作用。在口述命令SB中的第二個單詞以及，如有必要的話還有第三個與第四個單詞構(gòu)成了第二口述命令部分SB2，其用字母“A”代表。第二口述命令部分SB2表征在監(jiān)視器1上顯示的第一文本信息TI1中的錯誤識別的文本信息部分TW。跟隨在第三口述命令部分SB3＝“WITH”后面的單詞構(gòu)成了第四口述命令部分SB4，其用字母“B”代表。第四口述命令部分SB4表征替換在第一文本信息TI1中的錯誤識別的文本信息部分TW的新的文本信息部分TN。這個也將結(jié)合應(yīng)用實施例來進(jìn)行更加詳盡地說明。
當(dāng)替換裝置10沒有在識別裝置6識別的文本信息TI中發(fā)現(xiàn)四單詞口述命令SB結(jié)構(gòu)的時候，替換裝置10用于將該文本信息TI生成為未修改的第一文本信息TI1。相反，當(dāng)替換裝置10在該文本信息TI中發(fā)現(xiàn)了四單詞口述命令SB結(jié)構(gòu)的時候，替換裝置10用于檢查在識別的第一文本信息TI1中是否包含錯誤識別的文本信息部分TF，TF由第二口述命令部分SB2表示。假設(shè)這個檢查的結(jié)果是口述命令的錯誤識別的文本信息部分TF作為錯誤識別的文本信息部分TW包含在第一文本信息TI1中，則替換裝置10將檢測信息DI送到識別裝置6，該檢測信息DI表征錯誤識別的文本信息部分TW在第一文本信息TI1的位置。
當(dāng)識別裝置6接收到檢測信息DI時，其執(zhí)行重算，其中導(dǎo)致對在第一文本信息TI1中最接近錯誤識別的單詞TW的單詞的識別的語音分析信息SAI，和導(dǎo)致對第二口述命令部分SB2的單詞TF與第四口述命令部分SB4的單詞TN的識別的語音分析信息SAI，兩者被共同處理。通過這種方式，使用者說了兩遍但卻在第一文本信息中被錯誤識別的單詞TN的聲音信息是可利用的，而且在第一文本信息中錯誤識別的單詞TW的正確發(fā)音的聲音信息也是可利用的。識別裝置6重算的結(jié)果是，識別裝置6將編輯信息EI送到替換裝置10，該信息表征要在第一文本信息TI1中執(zhí)行的替換。下文中將結(jié)合應(yīng)用實施例對此作進(jìn)一步說明。
計算機(jī)1還包括編輯裝置11，其用于處理第一文本信息TI1和送到編輯裝置11的編輯信息EI。編輯裝置11對第一文本信息TI1進(jìn)行處理且將這個信息作為待顯示的模擬監(jiān)視器信號DS送到監(jiān)視器3。編輯裝置11在接收到編輯信息EI后用新的文本信息部分TN來替換第一文本信息TI1中錯誤識別的文本信息部分TW，其中TN表示為第四口述命令部分SB4所表征。下文中將結(jié)合應(yīng)用實施例對此作進(jìn)一步說明。
計算機(jī)1的鍵盤12可將輸入信息II傳送給編輯裝置11，計算機(jī)1的用戶可以通過該信息輸入文本且對監(jiān)視器3上顯示的第一文本信息TI1進(jìn)行輸入并編輯。編輯裝置11具有編輯程序功能，在計算機(jī)1上運(yùn)行，該程序例如可用軟件程序“Word for Windows”形成。
在下文中，結(jié)合圖1中所示計算機(jī)1的應(yīng)用實施例來描述具有文本編輯方法的語音識別方法的優(yōu)點。依照該應(yīng)用實施例，假定計算機(jī)1的使用者將語音識別程序裝入計算機(jī)1的主內(nèi)存中，然后在圖2中流程4的塊13開始執(zhí)行語音識別方法。
在塊14識別裝置6檢查計算機(jī)1的使用者是否說話而聲音進(jìn)入麥克風(fēng)2以及語音信息SI是否已經(jīng)傳送到識別裝置6。依照該應(yīng)用實施例，假定使用者開始講述歐洲專利協(xié)定的條款52(1)的文本“Europeanpatents shall be......”話音進(jìn)入麥克風(fēng)2，然后相應(yīng)的語音信息SI通過模數(shù)轉(zhuǎn)換器5傳送到識別裝置6。
隨后，識別裝置6在接收語音信息SI的塊14執(zhí)行期間進(jìn)行識別，且在塊15執(zhí)行如上所述的語音識別方法。然后將在識別文本信息TI的同時確定的語音分析信息SAI存儲在語音分析存儲裝置9中。作為執(zhí)行語音識別方法的結(jié)果，識別裝置6將下面的文本信息TI傳送到替換裝置10，此時使用者口述的單詞“invention”被錯誤地識別為單詞TW1＝“INVASION”，且使用者口述的單詞“NEW”被錯誤地識別為單詞TW2＝“FEW”。
文本信息TI＝“European patents shall be granted for anyinvasionwhich are susceptible of industrialapplication，which arefewand which involve an inventivestep.The following in particular shall not be regarded asinventions within the meaning of paragraph 1”。
在塊16替換裝置10執(zhí)行文本編輯方法的第一部分，并且接著檢查從識別裝置6接收的文本信息TI中是否具有四單詞口述命令SB結(jié)構(gòu)，以探知識別的文本信息TI是第一文本信息TI1還是第二文本信息TI2。由于識別裝置6識別的文本信息TI中不存在單詞“REPLACE”或“WITH”，因此替換裝置10將分別識別的文本信息TI作為第一文本信息TI1傳送到編輯裝置11。
然后在塊17，編輯裝置11將第一文本信息TI1作為監(jiān)視器信號DS傳送到監(jiān)視器3，如圖1所示監(jiān)視器3顯示第一文本信息TI1，之后再次執(zhí)行流程4中的程序塊14。光標(biāo)C此時位于第一文本信息TI1的最后的符號“”之后的位置處，表征編輯裝置11的下一個輸入點位置。
依照該應(yīng)用實施例，現(xiàn)在假定使用者注意到口述單詞“INVENTION”被錯誤識別了，且第一文本信息TI1包含了錯誤識別的單詞TW1＝“INVASION”。然后使用者將希望對該錯誤識別的單詞TW1＝“INVASION”進(jìn)行編輯，且將其替換為新的單詞TN＝“INVENTION”，識別裝置6應(yīng)當(dāng)正確地將口述單詞識別為TN＝“INVENTION”而不是錯誤識別的單詞TW1＝“INVASION”。因此，使用者說出口述命令第二文本信息TI2＝“REPLACE INVASION WITH INVENTION(用INVENTION替代INVASION)”，聲音進(jìn)入麥克風(fēng)2(圖3)。
在塊14執(zhí)行期間，識別裝置6對接收到的語音信號SI進(jìn)行識別，且在塊15執(zhí)行語音識別方法用于處理接收到的語音信號SI，此時針對這個而確定的語音分析信息SAI存儲在語音分析存儲裝置9中。在塊16，對識別裝置6識別的文本信息TI進(jìn)行檢查，且探知在識別文本信息TI中包含有四單詞口述命令SB結(jié)構(gòu)，其后將該識別文本信息TI存儲為第二文本信息TI2。
繼而-如圖3所示-將包含在第二文本信息TI2中的文本信息部分TTI分配給口述命令部分SB。將文本信息部分TF1＝“INVASION”識別為第二口述命令部分SB2，其表示在第一文本信息TI1中的錯誤文本信息部分TW1＝“INVASION”。而且，將文本信息部分TI1＝“INVESION”識別為第四口述命令部分SB4，其表示用于替換第一文本信息TI1中錯誤單詞的新的單詞。接著，在塊18運(yùn)行文本編輯方法。
在塊18，替換裝置10檢查第二口述命令部分SB2的文本信息部分TF1＝“INVASION”是否存在于第一文本信息TI1中。這個檢查的結(jié)果是，第一文本信息TI1中的第八個單詞TW1＝“INVASION”匹配第二口述命令部分SB2的文本信息部分TF1＝“INVASION”。然后替換裝置10將檢測信息DI傳送到識別裝置6，該檢測信息DI表征第一文本信息TI1中的第八個單詞。
在塊19，替換裝置10檢查包含在口述命令SB中的新的單詞IN1＝“INVENTION”是否等于錯誤識別的單詞TW1＝“INVASION”。這一點將結(jié)合圖1所示計算機(jī)1的第二個應(yīng)用實施例來作進(jìn)一步討論。
當(dāng)接收到檢測信息DI時，識別裝置6執(zhí)行程序塊20，其中對口述命令部分STI進(jìn)行“重算”，假定其已導(dǎo)致對在第一文本信息TI1中鄰近第八個單詞的單詞(“...granted for anyinvasionwhichare...”)進(jìn)行識別，且已導(dǎo)致對第二口述命令部分SB2的單詞“INVASION”以及第四口述命令部分SB4的單詞“INVENSION”進(jìn)行識別。在這個處理過程中還應(yīng)該考慮到第一文本信息TI1與第二文本信息TI2的識別期間存儲的語音分析信息SAI。
在“重算”期間，識別裝置6為更好地進(jìn)行識別，讓一些信息作為附加信息可利用，這些是，應(yīng)當(dāng)已經(jīng)識別到了對第一文本信息TI1中第八個單詞的正確單詞“INVENTION”，以及使用者在第二口述命令部分SB2中就象他曾經(jīng)的發(fā)音一樣對錯誤識別的單詞進(jìn)行發(fā)音。由于這個“重算”利用了附加信息，因此隨之進(jìn)行的替換具有高度可靠性。此外，這些附加信息可用于對存儲在語境存儲器7中的音素信息PI與文本信息部分TTI、以及存儲在語音模型存儲器8中的概率信息WI作適應(yīng)修改。
“重算”的結(jié)果是，識別裝置6將編輯信息EI傳送到替換裝置10，其中替換裝置10表示當(dāng)前正確識別的新的單詞“INVENTION”和作為替換位置的在第一文本信息TI1中第八個單詞的位置。作為這個“重算”的結(jié)果還有，可以確定這樣的編輯信息EI，關(guān)于對此時由第二口述命令部分SB2表示的圍繞在單詞“invention”周圍的單詞進(jìn)行替換。這是基于如下情況，根據(jù)概率信息WI的估算，假如對在第一文本信息TI1中圍繞在新的單詞周圍的那些單詞進(jìn)行改變，會使得對第一文本信息TI1正確識別的總概率變大。
為了結(jié)束程序塊20的執(zhí)行，識別裝置6將在重算期間非?？煽孔R別的文本信息部分TN＝“INVENTION”、以及適當(dāng)?shù)膰@在第八個單詞周圍的單詞的改變的文本信息部分作為編輯信息EI傳送給替換裝置10。替換裝置10將識別裝置6確定的編輯信息EI傳送給編輯裝置11，之后繼續(xù)執(zhí)行文本編輯方法進(jìn)行到程序塊21。
在程序塊21，編輯裝置11將光標(biāo)C定位到第一文本信息TI1中第八個單詞TW1＝“INVASION”，之后繼續(xù)執(zhí)行文本編輯方法進(jìn)行到程序塊22。在程序塊22，用新的單詞TN1＝“INVENTION”替換第八個單詞TW1＝“INVASION”。在隨后執(zhí)行的程序塊23，光標(biāo)C回到初始位置，即第一文本信息TI1中最后一個符號“”后面的位置。
這樣做的優(yōu)點是，只通過一個口述命令SB就實現(xiàn)了用新的單詞TN1＝“INVENTION”對錯誤識別的單詞TW1＝“INVASION”的替換，識別裝置6實際上識別認(rèn)可了新的單詞TN1而不是錯誤識別的單詞TW1。另外的優(yōu)點是，光標(biāo)C在錯誤識別的單詞被替換之后，立即回復(fù)到第一文本信息TI1中的適當(dāng)位置，以繼續(xù)對歐洲專利協(xié)定專利法第52條的口述。
這里存在一個極大的優(yōu)點是，來自在重算期間為確定正確替換識別錯誤單詞的信息使用效率很高。
在下面，將參照計算機(jī)1的第二個應(yīng)用實施例來說明計算機(jī)1進(jìn)一步的優(yōu)點。依照第二個應(yīng)用實施例，假定計算機(jī)1的使用者想要用此處實際口述的單詞“NEW”替換第一文本信息TI1中的錯誤識別單詞TW2＝“FEW”。為了實現(xiàn)這個目的，使用者說出口述命令SB＝“REPLACEFEW WITH NEW(用NEW替換FEW)”而話音進(jìn)入麥克風(fēng)2，之后流程4繼續(xù)進(jìn)行到程序塊15。
在程序塊15執(zhí)行語音識別方法，識別裝置6為每個口述命令部分STI確定了多個選項文本信息部分AT1且放入選項表AT，如圖4所示。對于第二口述命令部分ST2，單詞TF2＝“SUE”作為第一選項文本信息部分AT1輸入選項表AT，而單詞TF3＝“FEW”僅作為第二選項文本信息部分AT2輸入選項表AT。對于第三口述命令部分ST3，單詞“BY”作為第一選項文本信息部分AT1輸入選項表AT，而單詞“LIE”作為第二選項文本信息部分AT2輸入選項表AT。最后，口述命令中口述的單詞“NEW”被錯誤識別了，且對于第四口述命令部分ST4單詞TN2＝“FEW”作為第一選項文本信息部分AT1輸入選項表AT。單詞TN3＝“NEW”僅作為第二選項文本信息部分AT2輸入選項表AT，而單詞“HUGH”作為第三選項文本信息部分AT3輸入選項表AT。
由于當(dāng)使用者說出口述命令SB時他對單詞“FEW”的發(fā)音不清楚，識別裝置6認(rèn)定對第二口述命令部分STI而言單詞“SUE”具有比單詞“FEW”要大的正確識別概率。對于使用者發(fā)音的單詞“NEW”的識別，語音識別方法在識別第一文本信息TI1期間已經(jīng)存在了問題，因此單詞“FEW”也被認(rèn)定具有較大的正確識別概率。因此，假定選項文本信息部分“REPLACE SUE BY FEW(用FEW替換SUE)”是第二文本信息TI2中的最可幾變體，且識別裝置6將其作為識別文本信息TI傳送到替換裝置10。
當(dāng)執(zhí)行程序塊16時，替換裝置10檢測到包含四單詞口述命令SB的結(jié)構(gòu)，之后流程4繼續(xù)進(jìn)行到程序塊18。當(dāng)執(zhí)行程序塊18時，替換裝置10檢查作為第二口述命令SB2包含在第二文本信息TI2中的單詞TF2＝“SUE”是否包含在第一文本信息TI1中。這個檢查表明單詞TF2＝“SUE”沒有出現(xiàn)在第一文本信息TI1中，則繼續(xù)執(zhí)行文本編輯方法到程序塊24。
當(dāng)執(zhí)行程序塊24時，替換裝置10讀存儲在語音分析存儲裝置9中的選項表AT且檢查為第二口述命令部分STI2存儲的選項文本信息部分ATI是否包含在第一文本信息TI1中。作為該檢查的結(jié)果，替換裝置10檢測第二選項文本信息部分ATI2-從而單詞TF3＝“FEW”-是包含在第一文本信息TI1中的第十七個單詞。
其優(yōu)點是，即使當(dāng)?shù)诙谑雒畈糠諷B2由于口述命令SB的不清楚發(fā)音而被錯誤識別了的時候，使用者所想要替換的單詞也會得到正確替換。在執(zhí)行程序塊24之后，執(zhí)行程序塊19。
在程序塊19，替換裝置10檢查包含在口述命令SB中的新的單詞TN2＝“FEW”是否等于錯誤識別的單詞TW2＝“FEW”。檢查的結(jié)果是兩個單詞相同，因此繼續(xù)執(zhí)行文本編輯方法從而進(jìn)入程序塊25。
在程序塊25，替換裝置10將第二最可幾選項文本信息部分AT2＝“FEW”而不是最大可能的選項文本信息部分AT1＝“FEW”確定為新的單詞。隨后，如前所述，執(zhí)行程序塊20至23且用單詞TN3＝“NEW”替換在第一文本信息TI1中的單詞TW2＝“FEW”。
其優(yōu)點是，假如在第一文本信息TI1中已經(jīng)被錯誤識別的單詞在口述命令SB中也被錯誤識別了，執(zhí)行計算機(jī)1的使用者所希望的替換的可能性仍然很大。如果利用擴(kuò)展的四單詞口述命令進(jìn)行的這樣的一個替換沒能得到使用者所希望的結(jié)果，則可以一種非常簡便的方式說出口述命令“UNDO”取消最后一次替換。
人們可能已經(jīng)覺察到了，在流程4中的程序塊14、15與17對應(yīng)語音識別方法，而程序塊16以及18至25對應(yīng)著文本編輯方法。
人們可能還已經(jīng)覺察到了，四單詞口述命令的每一部分都包含著一個或多個單詞。而且，當(dāng)說出四個單詞的口述命令時第三口述命令部分也可以用一個停頓構(gòu)成。在那種情況下，依照第一應(yīng)用實施例，使用者將發(fā)聲說出四個單詞的口述命令“REPLACE INVASION”停頓“INVENTION”。在那種情況下，四個單詞的口述命令特征在于在第二文本信息部分TI2中的第一位置的單詞和在第二文本信息部分TI2中的第二個或更遠(yuǎn)的單詞之后由識別裝置識別出的停頓。
權(quán)利要求
1.一種具有文本編輯方法的語音識別方法(4)，所述文本編輯方法用于利用在第二文本信息(TI2)中識別的四個單詞的口述命令(SB)對在第一文本信息(TI1)中錯誤識別的文本信息部分(TW)進(jìn)行編輯，該語音識別方法(4)包括下屬步驟·接收語音信息(SI)且對第一文本信息(TI1)與第二文本信息(TI2)進(jìn)行識別；·檢查位于第二文本信息(TI2)中第一位置的單詞是否匹配四個單詞的口述命令(SB)的第一口述命令部分(SB1)，且檢查位于第二文本信息(TI2)中第三位置或更遠(yuǎn)位置的單詞是否匹配四個單詞的口述命令(SB)的第三口述命令部分(SB3)，此時，如果檢查得到肯定的結(jié)果，則執(zhí)行文本編輯方法的下一步；·檢查第一文本信息(TI1)是否包含錯誤識別的信息部分(TW)，錯誤識別的信息部分(TW)的特征為在第一口述命令部分(SB1)與第三口述命令部分(SB3)之間的第二文本信息(TI2)中的第二口述命令部分(SB2)，此時，如果檢查得到肯定的結(jié)果，則執(zhí)行文本編輯方法的下一步；·用第二文本信息(TI2)包含的新的文本信息部分(TN)對第一文本信息(TI1)中的錯誤識別的信息部分(TW)進(jìn)行替換，作為四個單詞的口述命令(SB)中位于第三口述命令部分(SB3)之后的第四口述命令部分(SB4)。
2.一種如權(quán)利要求1所述的語音識別方法(4)，其中在對錯誤識別的信息部分(TW)進(jìn)行替換之后，將光標(biāo)(C)定位在最近識別的第一文本信息(TI1)的末尾，所述光標(biāo)(C)表征通過語音識別方法(4)識別的進(jìn)一步的文本信息(TI)的輸入點位置。
3.一種如權(quán)利要求1所述的語音識別方法(4)，其中四個單詞的口述命令(SB)具有結(jié)構(gòu)“REPLACE A WITH B(用B替換A)”，且其中第二口述命令部分“A”表征錯誤識別的單詞，第四口述命令部分“B”表征要被實際識別的單詞而不是錯誤識別的單詞。
4.一種如權(quán)利要求1所述的語音識別方法，其中提供了下述步驟·為當(dāng)對第二文本信息(TI2)進(jìn)行識別時接收到的口述信息(SI)的每個口述信息部分(STI)確定選項文本信息部分(ATI)，此時包含在第二文本信息(TI2)中的選項文本信息部分(ATI)具有最大的正確識別第二文本信息(TI2)的總概率，·檢查第一文本信息(TI1)是否包含錯誤識別的信息部分(TW)，所述錯誤識別的信息部分(TW)的特征為不包含在第二文本信息(TI2)中的第二口述命令部分(SB2)的選項文本信息部分(ATI)之一，且如果檢查得到肯定的結(jié)果，則用新的文本信息部分(TN)對錯誤識別的信息部分(TW)進(jìn)行替換。
5.一種如權(quán)利要求1所述的語音識別方法，其中還提供了下述步驟·為當(dāng)對第二文本信息(TI2)進(jìn)行識別時接收到的口述信息(SI)的每個口述信息部分(STI)確定選項文本信息部分(ATI)，此時包含在第二文本信息(TI2)中的選項文本信息部分(ATI)具有最大的正確識別第二文本信息(TI2)的總的概率；·檢查包含在第一文本信息(TI1)中的錯誤識別的信息部分(TW)是否匹配包含在第二文本信息(TI2)中的新的文本信息(TN)，此時，如果檢查得到肯定的結(jié)果，則將為新的文本信息(TN)確定的選項文本信息部分(ATI)存儲作為新的文本信息(TN)。
6.一種計算機(jī)程序產(chǎn)品，其可直接裝入到數(shù)字計算機(jī)(1)的內(nèi)存儲器且包括軟件代碼段，同時當(dāng)該程序產(chǎn)品在計算機(jī)(1)上運(yùn)行時計算機(jī)(1)執(zhí)行權(quán)利要求1所述的語音識別方法(4)的步驟。
7.一種如權(quán)利要求6所述的計算機(jī)程序產(chǎn)品，其中計算機(jī)程序產(chǎn)品存儲在計算機(jī)可讀取的介質(zhì)上。
全文摘要
一種具有文本編輯方法的語音識別方法(4)，所述文本編輯方法利用在第二文本信息(TI2)中識別的四個單詞的口述命令(SB)對在第一文本信息(TI1)中錯誤識別的文本信息部分(TW)進(jìn)行編輯，語音識別方法(4)包括下屬步驟接收語音信息(SI)且對第一文本信息(TI1)與第二文本信息(TI2)進(jìn)行識別；檢查位于第二文本信息(TI2)中第一位置的單詞是否匹配四個單詞的口述命令(SB)的第一口述命令部分(SB1)，且檢查位于第二文本信息(TI2)中第三或更遠(yuǎn)位置的單詞是否匹配四個單詞的口述命令(SB)的第三口述命令部分(SB3)，此時，如果檢查得到肯定的結(jié)果，則執(zhí)行文本編輯方法的下一步；檢查第一文本信息(TI1)是否包含錯誤識別的信息部分(TW)，錯誤識別的信息部分(TW)的特征為第二文本信息(TI2)中位于第一口述命令部分(SB1)與第三口述命令部分(SB3)之間的第二口述命令部分(SB2)，此時，如果檢查得到肯定的結(jié)果，則執(zhí)行文本編輯方法的下一步；用新的文本信息部分(TN)對第一文本信息(TI1)中的錯誤識別的信息部分(TW)進(jìn)行替換，新的文本信息部分(TN)在第二文本信息(TI2)中包含作為四個單詞的口述命令(SB)中位于第三口述命令部分(SB3)之后的第四口述命令部分(SB4)。
文檔編號G10L15/22GK1394331SQ01803464
公開日2003年1月29日申請日期2001年8月24日優(yōu)先權(quán)日2000年9月8日
發(fā)明者H·烏特申請人:皇家菲利浦電子有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：H.烏特
技術(shù)所有人：皇家菲利浦電子有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別測試方法相關(guān)技術(shù)

語音識別方法相關(guān)技術(shù)

語音識別的方法相關(guān)技術(shù)

語音識別的主要方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

具有替換命令的語音識別方法