用于電話消息錄制的編輯系統(tǒng)和方法

文檔序號：7582700閱讀：149來源：國知局

專利名稱：用于電話消息錄制的編輯系統(tǒng)和方法
政府信息美國政府已付清本發(fā)明的許可并且在有限環(huán)境下有權要求專利所有者在由Defense and Advanced Research projects Agence(DARPA)授予的轉讓MDA972-97-C-0012的適當條款下許可它人。
本發(fā)明涉及用于語音識別的編輯系統(tǒng)，更詳細地說，本發(fā)明涉及用來編輯自一電話所錄制的語音的系統(tǒng)和方法。
近年來在個人通信方面的進展趨向于通過例如語音、多媒體(圖形和語音)、文本(電子郵件、尋呼電話接收機)等多種通道將信息傳送給用戶。由于這些進展，產(chǎn)生了統(tǒng)一的消息傳送的概念，從而由用戶通過各種媒介所接收的消息被存貯在一單一的存貯器中，并且可由用戶在他的/她的設備中重新得到或檢索到。另外，該用戶可具有僅僅具有非常有限能力的個人數(shù)字輔助裝置(PDA)，通過它來獲取他的消息。但是，通常即使最簡單的PDA也可支持文本的接收，但它不可能支持多媒體信號的接收。因此，它必須將語音和多媒體信號轉換成文本，從而使這些信號可容易地被存取。言外之意在用于通信的帶寬要求方面，即對于傳送來說文本信號所需的帶寬要小于話音所需的帶寬。
語音郵件是一種通用的消息傳送系統(tǒng)，在這種系統(tǒng)中一個人的語音被記錄并隨后由該消息的接收者所播放。因此，統(tǒng)一的消息傳送的一個重要方面是能夠將這種消息轉換成文本。這當然可使用自動語音識別算法來實現(xiàn)。但是，語音郵件消息通常表示越過一未知的(留言的發(fā)話人可以在半途中或在隔壁房間)電話帶寬信道而被記錄的自發(fā)語音，并且因此表示一用于自動語音識別系統(tǒng)的極具挑戰(zhàn)性的任務。因此，存在有所錄制的文本充滿錯誤而使該消息的接收者無法對所有消息譯碼的危險。因而，它有利于插入某種形式的反饋機構，從而使留言人可以檢驗該錄制的質量并且如有必要可以對它進行校正。
因此，必須存在有一用來將語音數(shù)據(jù)轉換為文本的交互式系統(tǒng)和方法，并且插入由語言錄制的文本的校正特性。
根據(jù)本發(fā)明，一種用于接收語音和將語音轉換為文本的消息傳送系統(tǒng)包括有一用來接收由用戶輸入的語音的第一服務器，一用來將語音轉換成文本的語音識別系統(tǒng)，一用來將文本轉換成語音而用來播放由用戶校正的合成語音的語音合成器和用來啟動用戶去校正該語音從而將所校正的語音通過一通信系統(tǒng)作為文本而傳送的校正機構。
在另外的實施例中，通過該通信系統(tǒng)而傳送的文本可包括有傳送到一尋呼電話接收機、郵件或傳真中的一種。該校正機構可促使用戶去選擇用于校正的該語音輸入的部分。該語音識別服務器可將診斷數(shù)據(jù)提供給該校正機構以指示被校正的語音輸入的部分。該校正機構可以促使用戶去重錄用于校正的該語音輸入的部分。該系統(tǒng)可進一步包括一語言翻譯服務器，用來將該語音輸入轉換為文本從而以不同語言通過通信系統(tǒng)進行傳送。該系統(tǒng)還可進一步包括一發(fā)話人識別服務器，用來識別用戶和用來調整用于由該語音識別服務器識別的語音的語音識別模式。
一種用于通用消息傳送系統(tǒng)的校正消息的方法包括記錄一音頻消息的步驟，利用語音識別系統(tǒng)將該消息錄制為文本的步驟，根據(jù)所錄制的文本提供用來播放用于校正的消息的語音的步驟，識別所校正的消息部分的步驟，通過重錄該所識別的部分校正該消息的步驟和通過一通信系統(tǒng)輸出該文本的步驟。
一種利用機器可讀取的程序存貯裝置，該程序存貯裝置確實包含有一通過該機器可執(zhí)行多個指令的程序以執(zhí)行用于對在一通用消息系統(tǒng)中的消息提供校正的方法步驟，該方法步驟包括有記錄一音頻消息的步驟，利用語音識別系統(tǒng)將該消息錄制為文本的步驟，根據(jù)所錄制的文本提供用來插放用于校正的消息的語音的步驟，識別被校正的消息的部分的步驟，通過重錄該所識別部分校正該消息的步驟和通過一通信系統(tǒng)輸出該文本的步驟。
在各個可由該程序存貯裝置所執(zhí)行的方法中，音頻消息最好是由電話來記錄。識別被校正的消息部分的步驟可以包括提供來自該語音識別服務器的用來確定該消息部分的校正的可能性的診斷數(shù)據(jù)的步驟。識別被校正的消息部分的步驟可以包括收聽該播放消息和選擇被校正部分的步驟。通過重錄所識別部分而校正該消息的步驟可以包括重錄該消息的部分的步驟，利用語音識別服務器變換所重錄的部分以修正該文本的步驟，根據(jù)所修正的文本播放重錄部分語音的步驟和如果滿意的話批準消息部分的步驟?？梢园ㄒ远喾N語言中的一種記錄消息的步驟?？梢园ㄍㄟ^該通信系統(tǒng)以多種語言中的一種輸出文本的步驟。還可以包括識別與語音識別模型相關的一用戶并且提供該模式以識別該用戶的音頻輸入的步驟。
通過下面結合附圖對所述實施例的詳細說明可使本發(fā)明的這些和其它目的、特性和優(yōu)點變得更為明顯。
參考下面的附圖通過對下述最佳實施例的說明將詳細描述本發(fā)明。

圖1是根據(jù)本發(fā)明的具有一校正機構的一通用消息傳送系統(tǒng)的方框/流程圖；和圖2是根據(jù)本發(fā)明的用于校正消息的流程圖。
本發(fā)明涉及用于語音識別的編輯系統(tǒng)，更詳細地說，本發(fā)明涉及一種用于編輯自一電話的語音所錄制的消息的系統(tǒng)和方法。
將會了解到的是，圖1-2中所示的各個部分可以硬件、軟件或軟件和硬件的組合來實施。最好是，這些元件是在一個或多個具有處理器和存貯器以及輸入/輸出接口的適當編程的通用數(shù)字計算機中以軟件的形式來實施。參見該圖，圖中相同的標號表示相同或相似部分。圖1的方框/流程圖相應于通常稱之為系統(tǒng)10的統(tǒng)一消息傳送系統(tǒng)/方法。消息服務器12是接收/發(fā)送和存貯所有消息的通用集線器。消息服務器12可通過計算機14、或通過電話16、或以幾種信息形式(郵件18、傳真20、錄音郵件22、頁面24、還有某些電話和個人數(shù)字輔助設備(PDA)也可接收文本消息)、或鍵控例如刪除、答復等在消息服務器12上的用戶消息來進行存取。另外，消息服務器12還可以讓用戶直接通過郵件18、傳真20或頁面24來接收消息。該用戶通過電話所接收的消息還可存貯在消息服務器12中，但也可將另外的電話服務器26作為從電話16和消息服務器12所得到的語音之間的一中間橋梁。在另一實施例中，電話服務器26可包括在消息服務器12之中。電話服務器還對在系統(tǒng)10的部分構件中的信息流進行控制。
將會了解到術語“服務器”被用來指明運行于同一計算機或最好是可經(jīng)過一個網(wǎng)絡進行訪問的不同計算機上的一個程序或計算機。
現(xiàn)在將說明在一系統(tǒng)/方法中一用戶可使用電話16給另一用戶留一消息，和說明在該方法中包含的各個系統(tǒng)組成部分的功能。
由第一用戶給出一電話呼叫并由電話服務器26所獲取，電話服務器26隨后向第一用戶給出對保留與另一用戶相關的消息或取出第一用戶的消息或處理第一用戶的消息的選擇。這些選擇通過由電話服務器26所提供的提示而提供給第一用戶。第一用戶隨后可被提供一個選擇一個選項的機會，這種選擇可以通過予定的音調(對于選擇1按壓1，對于選擇2按壓2等)或者通過記錄第一用戶的語音應答并利用語音識別服務器32將該語音應答轉換成文本來確定，它類似于這里所參考的發(fā)表在1995年International Acoustics speechand Signal processing論文集中由L.R.Bahl等所著的“Performance of theIBM Large Vocabulary Confinuous Speech Recognifion system on ARPA wallstreet Journal Task”中所描述的系統(tǒng)。該被識別的文本用來檢測哪一選項被該用戶選用。
在第一用戶希望對另一用戶留一消息的場合，系統(tǒng)10將存貯一消息的選擇直接作為一語音消息或將該消息轉換為文本給予第一用戶。該用戶選擇一種上面所提到的可以通過一音調或由語音所規(guī)定的選擇。在該用戶希望發(fā)送一頁面到一數(shù)字尋呼機，或者以不同語音發(fā)送該消息的場合，它必須將該語音轉換為文本。
如果該用戶規(guī)定了這個選擇，隨后電話服務器26給出一提示通知該用戶記錄該消息。一旦該消息被記錄(該消息的終止最好是由檢驗該線上無聲，或通過用戶按壓一鍵來判斷的)，并且所記錄的話音被裝載到語音識別服務器32中。語音識別服務器利用自動語音識別算法(可以利用自然語言處理去過濾該錄制)將該語音錄制為文本，并且隨同某些診斷(諸如在該發(fā)聲中的每一字所產(chǎn)生的相似性方面，或涉及在該發(fā)聲中的每一字的置信度測重，或每一字或子字的持續(xù)時間等)將所錄制的文本傳送回該電話服務器26。
電話服務器26隨后將該文本和診斷傳送到語音合成服務器34，語音合成服務器34產(chǎn)生合成了的語音并且將該語音發(fā)送回電話服務器26。電話服務器26隨后根據(jù)本發(fā)明通過電話線將該語音向該用戶播出(應注意的是這種語音相應于由語音識別服務器32所產(chǎn)生的可能是全部為錯誤的錄制)。
將該語音向用戶播出的一個目的是能使該用戶校正不滿意的或不正確的區(qū)域。電話服務器26隨后向該用戶提供一個選擇以校正該消息。
與一校正機構36相關的該語音的播放可由幾個步驟來實現(xiàn)。某些例子包括(i)電話服務器26向該用戶播放全部消息并且如果它是不滿意或不正確的則用戶要求重錄該消息，(ii)電話服務器26使用從語音識別服務器32接收的置信度進行診斷以確定具有低置信度的錄制區(qū)域并且用戶要求僅僅校正這些區(qū)域，(iii)電話服務器26根據(jù)某一測量，例如根據(jù)所經(jīng)過的時間或根據(jù)在該語音中的暫停將該錄制截斷為若干部分，并向該用戶播放每一部分并向該用戶給出分別地校正每一部分的選擇。另外的校正方法也由本發(fā)明來考慮。
利用校正機構36，該用戶可以校正該消息的任何所希望部分，這可以不同步驟來實現(xiàn)。這些例子包括(i)該用戶按壓在電話16上的一鍵以指明接收或拒絕該消息(或該部分消息)，并且重錄該部分，隨后以如上述(ii)所述的相似方式來處理，該用戶說“是”或“OK”或保持沉默以指明接收該消息或者用戶說“不”以指明拒絕該消息。在這種情況中，該用戶的回答被記錄或被錄制成文本并且該被錄制的文本(是，OK，沉默或不)確定用戶選擇的選項。
當用戶滿意該錄制之后，電話服務器26將該文本與所記錄的語音一起傳送給消息服務器12，隨著指令而存貯它以用于后面的存取，作為由該用戶通過一通信網(wǎng)絡或系統(tǒng)的選擇，或者通過郵件18、傳真20或頁面24傳送該文本。
在另一實施例中，如果用戶希望以另外的語言來傳送該消息，則電話服務器26將該文本傳送到語言翻譯服務器38，語言翻譯服務器38使用自動翻譯算法將該文本轉換為不同的語言并且將該翻譯的文本傳送回電話服務器26，電話服務器26隨后將該翻譯的文本傳送給消息服務器12以便進一步進行處理。
通常，如果在進行該語音錄制的同時使用揚聲器特性或發(fā)話人適應模式，則語音識別服務器32的語音識別特性被改善。因此，電話服務器26還可與發(fā)話人識別服務器40通信以確定該呼叫用戶的身份，或者換句話說用戶可要求說出他/她的名字并且隨同發(fā)話人獨立模式使用語音識別服務器32以錄制該語音并且使用該錄制以確定該用戶的身份。一旦它被確定，語音識別服務器32可將被修整的模式用于該特殊用戶或用戶組(如果可用的話)以錄制他/她的語音。
在另外的實施例中，在消息服務器中存貯的消息可被傳送到多重計算/地址/器件。例如，一被保存的被錄制的消息可傳送到第一用戶組的一尋呼接收機，電子郵件到第二用戶組和/或傳真到第三用戶。系統(tǒng)10還可以使用例如一頁面或一傳真等不同的媒體將相同消息傳送到一單個用戶。另外，語音合成服務器34可用來合成一文本消息并將它傳送到一電話或一語音郵件系統(tǒng)。在其它的實施例中，每一用戶可具有一個人網(wǎng)頁(webpage)42，與消息被對于這個用戶錄制時，卷筒紙頁被自動地更新。網(wǎng)頁42通過諸如因特網(wǎng)之類的通信網(wǎng)絡而被存取。
參見圖2，如果該用戶規(guī)定記錄一消息，在框102中給出要求用戶記錄該消息的提示。在框104中，通過說話，一消息被記錄到電話或其它聲學器件(該消息的終止最好通過檢驗線上的寂靜，或通過該用戶按壓一鍵來確定)，并且將所記錄的語音裝載到一語音識別服務器32(圖1)中。在框106中，語音識別服務器32利用自動語音識別算法(可以使用自然語言處理以對該錄制濾波)將該語音錄制為文本，并且隨同某些診斷(諸如在該發(fā)聲中的每一字所產(chǎn)生的相似性方面，或涉及在該發(fā)聲中的每一字的置信度測量，或每一字或子字的持續(xù)時間等)將所錄制的文本傳送回該電話服務器26。
在框108中，電話服務器26隨后將該文本和診斷傳送給語音合成服務器34，語音合成服務器34產(chǎn)生合成的語音并將該語音傳送回電話服務器26。電話服務器26根據(jù)本發(fā)明隨后通過電話線將該語音向該用戶播出(應注意的是這種語音相應于由語音服務器32所產(chǎn)生的可能是全部為錯誤的錄制)。
在框110中，該用戶校正在該消息中的不滿意或不正確的區(qū)域。用于校正的該語音的插放可由幾個步驟來實現(xiàn)。某些例子包括(i)整個消息被播放給用戶并且如果它不滿意或不正確則用戶要求重錄該消息，(ii)根據(jù)語音識別服務器32所接收的置信度診斷來確定具有低置信度的錄制區(qū)域并且用戶要求僅僅校正這些區(qū)域，(iii)根據(jù)某一測量，例如根據(jù)所經(jīng)過的時間或根據(jù)在該語音中的暫停該錄制被截斷為若干部分，向該用戶播放每一部分并向該用戶給出分別地校正每一部分的選擇。另外的校正方法也由本發(fā)明來考慮。
該消息的各部分可分別地被校正。某些例子包括(i)該用戶按壓電話16上的一個鍵以指明接收或拒絕該消息(或部分消息)，并且重錄該部分，隨后以如上所述(ii)所述的相似方式來處理，該用戶說“是”或“OK”或保持沉默以指明接收該消息或者用戶說“不”以指明拒絕該消息。在這種情況中，該用戶的回答被記錄或被錄制成文本并且該被錄制的文本(是，OK，沉默或不)確定用戶選擇的選擇。
在框112中，當該用戶滿意該錄制之后，電話服務器26將該文本與所記錄的語音一起傳送給消息服務器12，隨著指令而存貯它以用于后面的存取，作為由該用戶的選擇，通過郵件18，傳真20或頁面24傳送該文本。如果用戶選擇通過諸如一電話系統(tǒng)的通信網(wǎng)絡來傳送，該消息可被轉換為不同的語言。另外，用戶可以規(guī)定一種其中記錄了所述消息的語言。這可以是上述發(fā)話人識別處理的一部分。
已說明了編輯系統(tǒng)的一系統(tǒng)和方法以及用于電話消息錄制的方法的最佳實施例(這些是想要例證性說明的而不受其限制)，應注意的是本領域的普通技術人員根據(jù)上述教導可對這些實施例進行修改和變型。因此，在所附權利要求所提出的本發(fā)明的精神和范圍之內可對所披露的本發(fā)明的特定實施例進行變化。按專利法的要求對本發(fā)明作了詳細的說明，在所附權利要求中陳述了所要求和所希望的保護。
權利要求
1.一種用來接收語音和將該語音轉換為文本的消息傳送系統(tǒng)，包括第一服務器，用來接收由用戶輸入的語音；語音識別系統(tǒng)，用來將該語音轉換為文本；語音合成器，用來將該文本轉換成合成語音，播放該合成語音以由用戶進行校正；和校正機構，用來使該用戶能夠校正合成語音，從而使該校正后的語音被作為用于通過一通信系統(tǒng)而傳送的文本被提供。
2.如權利要求1的系統(tǒng)，其中用來通過通信系統(tǒng)傳送的文本包括向一文本讀取裝置的傳送。
3.如權利要求1的系統(tǒng)，其中該校正機構提示該用戶去選擇用于校正的語音輸入的部分。
4.如權利要求1的系統(tǒng)，其中該語音識別服務器將診斷數(shù)據(jù)提供給該校正機構以指明須要校正的語音輸入的部分。
5.如權利要求1的系統(tǒng)，其中該校正機構提示用戶去重錄用于校正的語音輸入的部分。
6.如權利要求1的系統(tǒng)，進一步包括一個語言翻譯服務器，用于以不同的語言將輸入的語音轉換成用于經(jīng)過所述通信系統(tǒng)傳送的文本。
7.如權利要求1的系統(tǒng)，進一步包括一講話人識別服務器，用來識別所述用戶和用于利用語音識別服務器調節(jié)與所述語音識別相關的語音模式。
8.一種用于通用消息傳送系統(tǒng)校正消息的方法，包括步驟重錄一音頻消息；利用一語音識別系統(tǒng)將該消息錄制為文本；根據(jù)所錄制的文本提供語音以用于播放與校正相關的消息；識別要被校正的部分消息；通過重錄被識別部分校正該消息；和通過一通信系統(tǒng)輸出校正后的文本。
9.如權利要求8的方法，其中該音頻消息由電話所記錄。
10.如權利要求8的方法，其中識別要被校正的消息的部分的步驟包括從該語音識別服務器提供用來確定該消息的部分的正確的似然性的診斷數(shù)據(jù)的步驟。
11.如權利要求8的方法，其中識別要被校正的消息的部分的步驟包括收聽所播放的消息和選擇要被校正的部分的步驟。
12.如權利要求8的方法，其中通過重錄所識別部分校正該消息的步驟包括有步驟重錄該消息的部分；利用該語音識別服務器轉換重錄部分以修正該文本；根據(jù)修正的文本播放重錄部分的話音，和如果可以接受，批準所述消息的部分。
13.如權利要求8的方法，進一步包括以多種語言中的一種語言記錄該消息的步驟。
14.如權利要求8的方法，進一步包括通過一通信系統(tǒng)以多種語言中的一種語言輸出該文本的步驟。
15.如權利要求8的方法，進一步包括步驟識別與語音識別模型有關的用戶；和應用該模型以識別該用戶的音頻輸入。
16.一種可由機器讀取的程序存貯裝置，該程序存貯裝置包括一通過該機器可執(zhí)行指令的一程序以執(zhí)行用于在一通用消息系統(tǒng)中提供對消息校正的方法步驟，該方法步驟包括記錄一音頻消息；利用語音識別系統(tǒng)將該消息錄制為文本；根據(jù)所錄制的文本提供語音以播放與校正相關的消息；識別要被校正的消息的部分；通過重錄該被識別部分校正該消息；和通過一通信系統(tǒng)輸出所校正的文本。
17.如權利要求16的程序存貯裝置，其中該音頻消息由電話所記錄。
18.如權利要求16的程序存貯裝置，其中識別要被校正的信息的部分的步驟包括為了確定該消息的部分的正確的似然性而提供來自語音識別服務器的診斷數(shù)據(jù)的步驟。
19.如權利要求16的程序存貯裝置，其中識別被校正的該消息的部分的步驟包括收聽該播放消息和選擇被校正部分的步驟。
20.如權利要求16的程序存貯裝置，其中通過重錄所識別部分校正該消息的步驟包括有步驟重錄該消息的部分；利用語音識別服務器轉換被重錄的部分以修正該文本；根據(jù)所修正文本播放被重錄部分的語音；和如果滿意，批準該消息的部分。
21.如權利要求16的方法，進一步包括以多種語言中的一種語言記錄該消息的步驟。
22.如權利要求16的方法，進一步包括通過一通信系統(tǒng)以多種語言中的一種語言輸出該文本的步驟。
23.如權利要求16的方法，進一步包括步驟識別與語音識別模型有關的一用戶；和應用該模型以識別該用戶的音頻輸入。
全文摘要
根據(jù)本發(fā)明的一種消息傳送系統(tǒng),用來通過一電話接收語音和將該語音轉換為文本,該系統(tǒng)包括一用來接收由一用戶輸入的語音的第一服務器,一用來將語音轉換為文本的語音識別系統(tǒng),一為了播放由用戶進行校正的合成語音用來將文本轉換成語音的語音合成器和用來使該用戶能夠校正合成語音從而該校正語音作為用于傳送的文本通過一通信系統(tǒng)而被提供的校正機構。還披露了根據(jù)本發(fā)明的一方法。
文檔編號H04M3/53GK1255011SQ99110989
公開日2000年5月31日申請日期1999年7月2日優(yōu)先權日1998年11月3日
發(fā)明者穆昆德·帕德曼那布翰, 邁克爾·比珍尼, 戴維·奈翰姆, 塞里木·路克斯申請人:國際商業(yè)機器公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：穆昆德.帕德曼那布翰;邁克爾.比珍尼;戴維.奈翰姆;塞里木.路克斯
技術所有人：國際商業(yè)機器公司
我是此專利的發(fā)明人

上一篇：多扇區(qū)化基站收發(fā)信臺系統(tǒng)的制作方法
上一篇：數(shù)字廣播數(shù)據(jù)接收裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于電話消息錄制的編輯系統(tǒng)和方法