專利名稱:一種實現(xiàn)語音識別功能的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種實現(xiàn)語音識別功能的方法,特別是涉及一種H.248協(xié)議 作為控制協(xié)議來實現(xiàn)語音識別功能的方法。
技術(shù)背景語音識別功能指把用戶輸入的語音,按規(guī)定的語法識別,轉(zhuǎn)換成文本。如在某個交互應(yīng)用中,系統(tǒng)先向用戶播放提示音"你需要水,可樂,還是果汁?"。用戶可以通過語音回答,用戶發(fā)音只能是包括"水,可樂,果汁,不 需要"這幾個關(guān)鍵詞的語音,系統(tǒng)可以對用戶的語音識別,然后向用戶提供 選擇的商品。在固定或者移動網(wǎng)絡(luò)應(yīng)用中,要求用戶輸入時, 一般有以下兩種方法一種方法是用戶輸入DTMF (Dual Tone Multi-Frequency,雙音多頻)音。 如在上述的交互應(yīng)用中,當(dāng)用戶輸入l時,表示選擇"水";輸入2時,表示 選擇"可樂";輸入3時,表示選擇"果汁",輸入其它鍵,表示"不需要"。 這種方法在H.248協(xié)議中已有完善的定義。另一種方法是用戶直接輸入語音,系統(tǒng)可以將用戶輸入的語音傳輸給另 一通話方,或者進(jìn)行錄音,或者進(jìn)行語音識別處理。通過語音識別處理可以完成和DTMF輸入類似的功能,系統(tǒng)可以根據(jù)用 戶的語音來確定用戶的選擇。使用語音識別的優(yōu)點是,用戶可以通過語音直 接和系統(tǒng)交互,不需要其它輔助輸入設(shè)備,如用按鍵輸入DTMF,從而簡化 了用戶的輸入方式。隨著語音識別技術(shù)的完善,其將成為主流的輸入方式。H. 248協(xié)議中通過包定義了豐富的媒體資源控制方法,例如I. H.248.9協(xié)議高級媒體服務(wù)器包(Advanced Media Server Package)定義的方法有(1)播放語音片段可以按URI (Uniform Resource Identifier,統(tǒng)一資源標(biāo)識)指示語音片斷的位置,可以指示播放語音片斷的重復(fù)次數(shù)、每次播放之間的間隔時間、音量、速度等參數(shù);(2) 放音收號播放提示音和DTMF (Dual Tone Multi-Frequency,雙 音多頻)收號交互進(jìn)行;(3) 錄音可返回錄音文件的標(biāo)識或者存放位置。2. H.248.7協(xié)議定義使用放音標(biāo)識播放錄音的方法;3. H.248.16協(xié)議定義了復(fù)雜的收號操作方法。但是,在H.248協(xié)議中并未定義上述用戶直接輸入語音的方法,而媒體 資源應(yīng)用環(huán)境需要使用語音識別功能,就此,本發(fā)明提供一種通過H.248協(xié) 議實現(xiàn)語音識別功能的方法。 發(fā)明內(nèi)容本發(fā)明的目的是提供一種實現(xiàn)語音識別功能的方法。 本發(fā)明的實現(xiàn)語音識別功能的方法,其中,媒體資源控制設(shè)備通過H.248 協(xié)議,控制媒體資源處理設(shè)備實現(xiàn)對用戶輸入語音的識別。該方法包括以下步驟步驟一,媒體資源控制設(shè)備通過定義H.248協(xié)議擴展包,在H.248消息 中攜帶擴展包參數(shù),指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的語音識別處 理;步驟二,媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用語音識別器執(zhí)行 語音識別處理;以及步驟三,媒體資源處理設(shè)備在完成語音識別后將識別結(jié)果上報媒體資源 控制設(shè)備。其中,上述語音至少包括普通語音,該參數(shù)中攜帶有普通語音的識別語 法參數(shù)。當(dāng)上述識別語法參數(shù)為普通語音的識別語法時,媒體資源處理設(shè)備根據(jù) 該語法調(diào)用語音識別器執(zhí)行語音識別。其中,上述識別語法可以為一特定字 符串,嵌入在H.248消息中,媒體資源處理設(shè)備接收到此參數(shù)后,直接提取 字符串,調(diào)用語音識別器進(jìn)行語音識別。當(dāng)語音識別語法預(yù)先存儲在媒體資源處理設(shè)備或者外部服務(wù)器上時,該 識別語法參數(shù)為識別語法文件的標(biāo)識和存儲位置信息,媒體資源處理設(shè)備根據(jù)存儲位置信息從本地或者外部服務(wù)器中讀取語法文件后將其放入緩存,然 后語音識別器依據(jù)讀取的語法文件進(jìn)行語音識別。其中,上述的識別語法參數(shù)進(jìn)一步包括進(jìn)行語音識別時使用的參數(shù),該 參數(shù)包括指示是否僅識別普通語音的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)調(diào) 用語音識別器執(zhí)行語音識別。進(jìn)一步,上述進(jìn)行語音識別時使用的參數(shù)還包括指示識別時長的參數(shù), 媒體資源處理設(shè)備根據(jù)該參數(shù)確定識別時間的長短。進(jìn)一步,上述進(jìn)行語音識別時使用的參數(shù)還包括指示等待時長的參數(shù), 媒體資源處理設(shè)備根據(jù)該參數(shù)確定等待用戶輸入時間的長短。進(jìn)一步,上述進(jìn)行語音識別時使用的參數(shù)還包括指示識別語種的參數(shù), 媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時采用的語言種類。進(jìn)一步,上述進(jìn)行語音識別時使用的參數(shù)還包括指示識別精度的參數(shù), 媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時所要求的識別精度。進(jìn)一步,所述進(jìn)行語音識別時使用的參數(shù)還包括指示識別靈敏度的參數(shù), 媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn)行普通語音識別時所要求的識別靈敏 度。進(jìn)一步,上述進(jìn)行語音識別時使用的參數(shù)還包括指示錄音存放位置的參 數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)從指定位置讀取用戶輸入的錄黃。進(jìn)一步,上述進(jìn)行語音識別時使用的參數(shù)還包括指示錄音存放位置的參 數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)從指定位置讀取用戶輸入的錄音。在上述方法中,在步驟二中媒體資源處理設(shè)備調(diào)用語音識別器進(jìn)^語音 識別過程中,進(jìn)一步包括步驟21,媒體資源控制設(shè)備指示媒體資源處理設(shè)備檢測語音識別過程中 發(fā)生的異常事件。其中,異常事件包括等待用戶輸入超時、識別超時、用戶輸入和語法 不匹配、語法文件不存在、語法文件讀取錯誤、不能識別、識別錯誤、媒體 資源處理設(shè)備的軟硬件錯誤。并且,在步驟21之后且在步驟三之前進(jìn)一步包括步驟22,媒體資源處理設(shè)備根據(jù)上述指示對語音識別過程進(jìn)行檢測,并將檢測結(jié)果反饋給媒體資源控制設(shè)備。進(jìn)一步,進(jìn)行語音識別時使用的參數(shù)還包括指示語音識別異常時返回錯 誤碼的參數(shù),媒體資源處理設(shè)備在檢測到語音識別過程中發(fā)生的異常事件時, 根據(jù)該參數(shù)將相應(yīng)的錯誤碼反饋給媒體資源控制設(shè)備。與現(xiàn)有技術(shù)相比,本發(fā)明的方法可以在H.248協(xié)議上實現(xiàn)用戶輸入的普 通語音的識別,這樣,用戶可以通過語音直接和系統(tǒng)交互,不需要其它輔助 輸入設(shè)備,從而簡化了用戶的輸入方式。
圖1為WCDMAIMS網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。 圖2為在固定軟交換網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。 圖3為本發(fā)明實現(xiàn)語音識別功能的方法的流程圖。
具體實施方式
圖1為WCDMAIMS網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。其中,應(yīng) 用服務(wù)器1用于處理各種業(yè)務(wù),例如對用戶放音、收號、會議、錄音等。業(yè) 務(wù)呼叫會話控制設(shè)備2用于處理路由,將應(yīng)用服務(wù)器發(fā)出的消息正確地轉(zhuǎn)發(fā) 給媒體資源控制設(shè)備3,或者將媒體資源控制設(shè)備3發(fā)出的消息正確地路由 到應(yīng)用服務(wù)器1。媒體資源控制設(shè)備3用于控制媒體資源,其根據(jù)應(yīng)用服務(wù) 器1的要求,選擇相應(yīng)的媒體資源處理設(shè)備4并控制媒體資源的處理。媒體 資源處理設(shè)備4用于媒體資源的處理,在媒體資源控制設(shè)備3的控制下,完 成應(yīng)用服務(wù)器1下發(fā)的媒體資源操作處理。其中,應(yīng)用服務(wù)器l、業(yè)務(wù)呼叫會話控制設(shè)備2、以及媒體資源控制設(shè)備 3之間采用的接口使用SIP協(xié)議和XML協(xié)議,或者是SIP協(xié)議和類似XML 的協(xié)議(例如VXML)。媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之間采用 的接口為Mp接口,使用H.248協(xié)議。媒體資源處理設(shè)備4的對外接口為Mb 接口, 一般采用RTP協(xié)議承載用戶媒體流。圖2為在固定軟交換網(wǎng)絡(luò)中,處理媒體資源業(yè)務(wù)的網(wǎng)絡(luò)架構(gòu)。其中,媒 體資源服務(wù)器(MediaResource Server, MRS)相當(dāng)于WCDMAIMS網(wǎng)絡(luò)中的 媒體資源控制設(shè)備3和媒體資源處理設(shè)備4的功能,應(yīng)用服務(wù)器相當(dāng)于 WCDMA IMS網(wǎng)絡(luò)中的應(yīng)用服務(wù)器1和業(yè)務(wù)呼叫會話控制設(shè)備2的功能,以及軟交換設(shè)備和應(yīng)用服務(wù)器1功能大致相同。本發(fā)明所提供通過H.248協(xié)議實現(xiàn)語音識別功能的方法可以應(yīng)用于圖1 所示的WCDMAIMS網(wǎng)絡(luò)、以及圖2所示的固定軟交換網(wǎng)絡(luò)中的媒體資源處 理。同樣也可以應(yīng)用于其它網(wǎng)絡(luò),如CDMA網(wǎng)絡(luò)和固定IMS網(wǎng)絡(luò),其媒體 資源應(yīng)用場景的架構(gòu)和業(yè)務(wù)流程和上述WCDMA IMS的基本相同,以及 WCDMA、 CDMA電路軟交換網(wǎng)絡(luò),其媒體資源應(yīng)用架構(gòu)和業(yè)務(wù)流程和固定 軟交換網(wǎng)絡(luò)基本相同。也就是,本發(fā)明可以應(yīng)用于所有通過H.248協(xié)議控制 媒體資源設(shè)備實現(xiàn)語音識別功能的情況。以下將以應(yīng)用于WCDMAIMS為例,同時參考
本發(fā)明所提供的 通過H.248協(xié)議實現(xiàn)語音識別功能的方法。通常,語音識別包括普通語音的識別和DTMF音的識別,兩者一般是可 以同時發(fā)生的,對DTMF音的識別和普通語音的識別分別使用的是不同的技 術(shù),所需要的控制過程和參數(shù)也有很大差別。由于在H.248協(xié)議中已經(jīng)定義 了對于DTMF音的檢測,因此,本發(fā)明重點在于對普通語音的識別,以及對 普通語音和DTMF音的同時識別。這里,由于本發(fā)明只涉及圖1所示媒體資源控制設(shè)備3和媒體資源處理 設(shè)備4之間的處理過程,而其他過程同現(xiàn)有WCDMAIMS網(wǎng)絡(luò)中的處理過程 相同,因此,為了簡化而只對媒體資源控制設(shè)備3和媒體資源處理設(shè)備4之 間的處理過程進(jìn)行描述。如圖3所示,為媒體資源控制設(shè)備3和媒體資源處理設(shè)備4進(jìn)行媒體資 源的控制和處理的流程圖。步驟1,媒體資源控制設(shè)備3向媒體資源處理設(shè)備4發(fā)出進(jìn)行語音識別 的指示。具體地,媒體資源控制設(shè)備3通過定義H.248協(xié)議擴展包,在H.248消 息中攜帶擴展包參數(shù),從而指示媒體資源處理設(shè)備執(zhí)行語音識別。H.248協(xié) 議包定義如下包名稱(PackageName): 自動語音識別包(ASRpackage)包標(biāo)識(PackageID) asrp(Ox )說明(Description) 略,參見以上方案說明版本(Version): 1 擴展(Extends): 無1. 屬性(Properties) 無2. 事件(Events) 請參閱后述對事件的定義部分。3. 信號(Signals) 請參閱后述對信號的定義部分。4. 統(tǒng)計(Statistics) 無5. 處理(Procedure)對應(yīng)后述的整個方案的過程。這里的語音識別包括普通語音的識別和DTMF音的識別。DTMF的識別 語法在H.248協(xié)議中已有定義。普通語音識別需攜帶識別語法,有兩種方法 可以攜帶識別語法參數(shù)(1) 在H,248消息的參數(shù)中攜帶識別語法 識別語法是一個特定格式的字符串,如 #JSGFvl.O;Gramar drink;Public <returncommands> = 7_K |可樂|果汁|不需要 該字符串的格式不被處理H.248協(xié)議的功能實體識別,只是作為一個串 嵌入在H.248消息中。媒體資源處理設(shè)備4接收到此參數(shù)后,可以直接提取 字符串并將提取的字符串交給語音識別器處理,其中,該語音識別器可以設(shè) 置于媒體資源處理設(shè)備4中,也可以獨立設(shè)置。(2) 在H.248消息參數(shù)中攜帶語音識別語法文件的標(biāo)識和存儲位置信息 語音識別語法可以預(yù)先存儲在媒體資源處理設(shè)備4或者其它外部服務(wù)器上,H.248消息中攜帶該語法文件的標(biāo)識和存儲位置信息。 文件的標(biāo)識可以是符合文件命名規(guī)范的任意字符串; 文件的存儲位置信息有三種形式-A. 本地可直接存取的文件,如drink.gmB. 通過file:〃方式存取的文件,如file://huawei/drink.graC. 通過http:/7方式存取的文件,如http://huawei/drink.gra 媒體資源處理設(shè)備4接收到此參數(shù)后,根據(jù)文件的存放位置,先從遠(yuǎn)端服務(wù)器或者本地存儲中讀取語法文件,放入緩存,然后再調(diào)用語音識別器處 理。除了需要在上述的H.248消息中攜帶識別語法或其相關(guān)信息之外,還需 要攜帶執(zhí)行語音識別的參數(shù),這些執(zhí)行語音識別的參數(shù)用于指示媒體資源處 理設(shè)備4執(zhí)行相應(yīng)的語音識別功能。這些可攜帶的參數(shù)包括(1) 是否同時識別DTMF音和普通語音在某些應(yīng)用中,只要求用戶輸入普通語音。若此參數(shù)設(shè)置為是,則無論 用戶輸入語音或者DTMF音,媒體資源處理設(shè)備4都將進(jìn)行普通語音和DTMF音的識別。(2) 識別時長該參數(shù)用于指示識別時間的長短,也就是,用戶開始輸入時,若在規(guī)定 時長內(nèi)語音的識別沒有完成,則超時返回。(3) 用戶沒有輸入時等待時長 該參數(shù)用于指示識別的等待時間的長短,也就是,在開始執(zhí)行識別時,定長時間內(nèi)用戶沒有輸入,則超時返回。(4) 識別的語言種類 該參數(shù)用于指示媒體資源處理設(shè)備進(jìn)行普通語音識別時所采用的語言的種類,遵從例如RFC3066協(xié)議的定義。(5) 識別的精度要求該參數(shù)表示識別的精度要求,可以用O到IOO之間的一個值表示。精度 要求越高,耗費的處理能力越多,識別時間也越長。(6) 靈敏度要求該參數(shù)用于表示語音識別所需要的靈敏度,可以采用0到100之間的一 個值表示。靈敏度越高,受背景噪音的影響越大,靈敏度越低,受背景噪音 的影響越小。(7) 錄音存放位置在進(jìn)行語音識別時,可以對用戶的輸入進(jìn)行錄音,并存放在指定的位置。 該參數(shù)表示用戶的錄音所存放的位置。(8) 是否預(yù)讀取語法文件 當(dāng)識別語法是文件的方式存儲時,此參數(shù)若設(shè)置為是,則在收到請求時,媒體資源處理設(shè)備4就從外部的服務(wù)器讀取語法文件,并緩存在本地,否則識別時再讀取。(9) 語法文件緩存時長該參數(shù)表示媒體資源處理設(shè)備4對從服務(wù)器讀取的語法文件進(jìn)行緩存所 采用的時間長短,如果超時,則視為緩存無效。上述步驟1中所提到的H.248協(xié)議包采用如下定義一.信號(Signal):包括自動語音識別語法文件(ASRGrammar File)信 號或者自動語音識別語法串(ASRGrammarString)信號,分別對應(yīng)于上述兩 種攜帶識別語法參數(shù)的方法。(1)自動語音識別語法文件(ASR Grammar File),用于指示執(zhí)行語音識 別功能。信號名(SignalName): 自動語音識別語法文件信號標(biāo)識(SignalID): asrgf(Ox )說明(Description): 執(zhí)行ASR功能信號類型(SignalType): br時長(Duration): 不可用(NoApplicable)j參數(shù)(Additional Parameter)包括I.參數(shù)名(ParameterName): 參數(shù)標(biāo)識(ParameterID): 說明-類型(Type): 是否可選(Optional):語法文件(GarmmarFile) gf(Ox )ASR識別語法文件名和存儲位置字符串(String)否可能取值(PossibleValue): 默認(rèn)值(Default):II.參數(shù)名-參數(shù)標(biāo)識說明類型-是否可選可能取值默認(rèn)值(Default):合法的文件標(biāo)識和存儲格式 無識別DTMF (Recognize DTMF) rd(Ox )是否同時識別DTMF6num是是,否是III.參數(shù)名 等待識別時間(Wait Recognize Time)參數(shù)標(biāo)識 wrt(Ox )說明 等待識別的時長類型 整數(shù)是否可選 是可能取值 大于O秒默認(rèn)值 無IV.參數(shù)名 等待輸入時間(Wait Input Time)參數(shù)標(biāo)識 wit(Ox )說明 等待用戶輸入的時長類型 整數(shù)是否可選 是可能取值 大于O秒默認(rèn)值 無V.參數(shù)名 語言類型(Language Type)參數(shù)標(biāo)識 lt(Ox )說明 識別語言種類類型 字符串是否可選 是可能取值 遵從RFC3066協(xié)議默認(rèn)值 無VI.參數(shù)名 識別精確度(RecognizeAccuracy)參數(shù)標(biāo)識 ra(Ox )說明 .識別的精確度要求類型 整數(shù)是否可選 是可能取值 0~100默認(rèn)值 無VII.參數(shù)名 識別靈敏度(Recognize Sensitivity)參數(shù)標(biāo)識 ra(Ox )說明 識別的靈敏度要求類型 整數(shù)是否可選 是可能取值 0~100默認(rèn)值 無VIII.參數(shù)名 錄音文件(Record File)參數(shù)標(biāo)識 rf(0x )說明 識別語音的錄音存放位置類型 字符串是否可選 是可能取值 合法的URI串或者本地文件名默認(rèn)值 無IX.參數(shù)名 預(yù)讀取語法(Prefetch Grammar)參數(shù)標(biāo)識 pg(Ox )說明 是否預(yù)讀取語法文件類型s enum是否可選 是可能取值 是,否默認(rèn)值 無X.參數(shù)名 緩存時間(CacheTime)參數(shù)標(biāo)識 ct(Ox )說明 語法文件緩存時長類型 整數(shù)是否可選 是可能取值 大于O秒默認(rèn)值 無(2)自動語音識別語法串(ASR Grammar String),用于指示執(zhí)行語音il 別功能信號名 自動語音識別語法串信號標(biāo)識 ags(0x )說明 按語法串執(zhí)行ASR功能信號類型 br時長 不可用 附加參數(shù)包括-I.參數(shù)名 語法串(Garmmar String)參數(shù)標(biāo)識 gf(0x )說明 ASR識別語法類型 字符串是否可選 否可能取值 合法的識別語法默認(rèn)值 無II.其它參數(shù)和"自動語音識別語法文件"信號的II、 III、 IV、 V、 VI、VII、 VIII相同。步驟2,媒體資源處理設(shè)備4在收到來自媒體資源控制設(shè)備3的語音識 別指示時,進(jìn)行消息確認(rèn),并將確認(rèn)結(jié)果反饋給媒體資源控制設(shè)備3。進(jìn)一 步,媒體資源處理設(shè)備4根據(jù)該消息中的上述參數(shù)執(zhí)行相應(yīng)的處理,例如, 是否同時識別DTMF和普通語音、識別時長、用戶沒有輸入時等待時長、錄 音存放位置、是否預(yù)讀取語法文件、語法文件緩存時長等,并調(diào)用語音識別 器對用戶輸入的語音進(jìn)行識別,例如包括識別的語言種類、精度、靈敏度等。步驟3,媒體資源控制設(shè)備3指示媒體資源處理設(shè)備4檢測語音識別過 程中發(fā)生的事件。步驟4,媒體資源處理設(shè)備4進(jìn)行消息確認(rèn),并將確認(rèn)結(jié)果反饋給媒體 資源控制設(shè)備3。進(jìn)一步,媒體資源處理設(shè)備4對語音識別過程中發(fā)生的事 件(Event)進(jìn)行檢測??赡艿氖录?a.異常情況返回語音識別功能執(zhí)行的錯誤碼媒體資源處理設(shè)備4在執(zhí)行語音識別過程中,若產(chǎn)生異常,要向媒體資源控制設(shè)備返回具體的錯誤碼。錯誤碼的具體值由標(biāo)準(zhǔn)組織統(tǒng)一分配,內(nèi)容 包括(1) 用戶沒有輸入語音的時間超過預(yù)定時間;(2) 語音識別時間超過預(yù)定時間;(3) 用戶輸入語音和識別語法不匹配;(4) 語法文件不存在;(5) 語法文件讀取錯誤;(6) 語音識別的語法錯誤;(7) 不能識別或者識別錯誤;(8) 媒體資源處理設(shè)備4的硬件錯誤;(9) 媒體資源處理設(shè)備4的軟件錯誤;(10) 其它錯誤。b.檢測到用戶開始輸入語音的事件用戶開始輸入語音時,媒體資源處理設(shè)備4可以把檢測到的用戶輸入的 語音類型上報給媒體資源控制設(shè)備3,輸入類型包括DTMF音,以及普通 語音。在步驟4中,H.248協(xié)議包定義的事件具體表示如下 事件-(1)自動語音識別失敗(ASR Failure) 事件名(EventName): 自動語音識別失敗 事件標(biāo)識(EventID): asrfail(0x )說明 語音識別執(zhí)行失敗,返回錯誤碼事件說明參數(shù)(EventDescriptorParameters): 無檢測到的事件參數(shù)(ObservedEventDescriptor Parameters ): I.參數(shù)名(ParameterName): 返回錯誤碼(Return FailureCode)ParameterID (參數(shù)標(biāo)識) rfc(Ox )說明 錯誤碼參數(shù)參數(shù)類型 整數(shù)是否可選 否可能值 以上方案定義的錯誤碼默認(rèn)值 無(2)自動語音識別完成(ASR Success)事件名(EventName): 自動語音識別完成事件標(biāo)識(EventID): asrsucc(Ox )說明 語音識別執(zhí)行成功,返回識別結(jié)果事件說明參數(shù)(EventDescriptorParameters): 無檢測到的事件參數(shù) I.參數(shù)名(ParameterName)-ParameterID (參數(shù)標(biāo)識)說明參數(shù)類型是否可選可能值默認(rèn)值自動語音識別結(jié)果(ASR Result) ar(Ox )識別結(jié)果字符串否DTMF串或者語音文本串 無II.參數(shù)名(ParameterName): ParameterID (參數(shù)標(biāo)識)說明參數(shù)類型是否可選結(jié)果可信度(Result Reliability) rr(Ox )識別結(jié)果可信度整數(shù)是可能值: 默認(rèn)值0~100 100(3)檢測到用戶輸入開始識別(ASRBegin)事件名(EventName): 自動語音識別開始(ASRBegin)事件標(biāo)識(EventID): asrbeg(0x )說明 語音識別執(zhí)行成功,返回識別結(jié)果事件說明參數(shù)(EventDescriptorParameters): 無檢測到的事件參數(shù) I.參數(shù)名(ParameterName): ParameterED (參數(shù)標(biāo)識)說明是否可選可能值默認(rèn)值輸入類型(Input Type) it(Ox )用戶的輸入類型DTMF、普通語音字符串否DTMF,普通語音 無步驟5,當(dāng)媒體資源處理設(shè)備4按媒體資源控制設(shè)備3指示時所攜帶的 參數(shù)完成語音識別后,將在語音識別過程中檢測到的事件上報給控制設(shè)備。 同時,將語音識別器返回的識別結(jié)果的可信度上報媒體資源控制設(shè)備3。識別結(jié)果是一個字符串,可能是DTMF串的識別結(jié)果,也能是普通語音 的識別的結(jié)果。處理11.248協(xié)議的功能實體對此串不能識別,返回給媒體資 源控制設(shè)備3處理。步驟6,媒體資源控制設(shè)備3對媒體資源處理設(shè)備4上報的識別結(jié)果做 出確認(rèn)。通過以上方案,可以在固定或者移動網(wǎng)絡(luò)的媒體資源應(yīng)用中,給用戶提 供語音識別相關(guān)的業(yè)務(wù)應(yīng)用。例如,通過采用語音輸入代替按鍵輸入,用戶 通過語音就可以完成呼叫、査詢等基本功能。本發(fā)明實現(xiàn)語音識別的方法并不限于上述的方案,也可以采用其他的方案,例如,媒體資源控制設(shè)備3可以將上述步驟1和步驟3中的指示同時發(fā) 給媒體資源處理設(shè)備4,此時,媒體資源處理設(shè)備4可以反饋一個確認(rèn)消息 以及相應(yīng)的處理結(jié)果給媒體資源控制設(shè)備3。
權(quán)利要求
1.一種實現(xiàn)語音識別功能的方法,其特征在于,媒體資源控制設(shè)備通過H.248協(xié)議,控制媒體資源處理設(shè)備實現(xiàn)對用戶輸入語音的識別,該方法包括以下步驟步驟一,媒體資源控制設(shè)備通過定義H.248協(xié)議擴展包,在H.248消息中攜帶擴展包參數(shù),指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的語音識別處理;步驟二,媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用語音識別器執(zhí)行語音識別處理;以及步驟三,媒體資源處理設(shè)備在完成語音識別后將識別結(jié)果上報媒體資源控制設(shè)備。
2. 如權(quán)利要求1所述的方法,其特征在于,上述語音至少包括普通語音, 該參數(shù)中攜帶有普通語音的識別語法參數(shù)。
3. 如權(quán)利要求2所述的方法,其特征在于,當(dāng)該識別語法參數(shù)為普通語 音的識別語法時,媒體資源處理設(shè)備根據(jù)該語法調(diào)用語音識別器執(zhí)行語音識 別。
4. 如權(quán)利要求3所述的方法,其特征在于,該識別語法為一特定字符串, 嵌入在H,248消息中,媒體資源處理設(shè)備接收到此參數(shù)后,直接提取字符串, 調(diào)用語音識別器進(jìn)行語音識別。
5. 如權(quán)利要求3所述的方法,其特征在于,當(dāng)語音識別語法預(yù)先存儲在 媒體資源處理設(shè)備或者外部服務(wù)器上時,該識別語法參數(shù)為識別語法文件的 標(biāo)識和存儲位置信息,媒體資源處理設(shè)備根據(jù)存儲位置信息從本地或者外部 服務(wù)器中讀取語法文件后將其放入緩存,然后語音識別器依據(jù)讀取的語法文 件進(jìn)行語音識別。
6. 如權(quán)利要求2所述的方法,其特征在于,戶萬述的識別語法參數(shù)進(jìn)一步 包括進(jìn)行語音識別時使用的參數(shù),該參數(shù)包括指示是否僅識別普通語音的參 數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)調(diào)用語音識別器執(zhí)行語音識別。
7. 如權(quán)利要求6所述的方法,其特征在于,所述進(jìn)行語音識別時使用的參數(shù)進(jìn)一步包括指示識別時長的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)確定識 別時間的長短。8. 如權(quán)利要求7所述的方法,其特征在于,所述進(jìn)行語音識別時使用的 參數(shù)進(jìn)一步包括指示等待時長的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)確定等 待用戶輸入時間的長短。9. 如權(quán)利要求8所述的方法,其特征在于,所述進(jìn)行語音識別時使用的參數(shù)進(jìn)一步包括指示識別語種的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)確定進(jìn) 行普通語音識別時采用的語言種類。10. 如權(quán)利要求9所述的方法,其特征在于,所述進(jìn)行語音識別時使用 的參數(shù)進(jìn)一步包括指示識別精度的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)確定 進(jìn)行普通語音識別時所要求的識別精度。11. 如權(quán)利要求10所述的方法,其特征在于,所述進(jìn)行語音識別時使用 的參數(shù)進(jìn)一步包括指示識別靈敏度的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù)確 定進(jìn)行普通語音識別時所要求的識別靈敏度。12. 如權(quán)利要求ll所述的方法,其特征在于,所述進(jìn)行語音識別時使用 的參數(shù)進(jìn)一步包括指示錄音存放位置的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù) 從指定位置讀取用戶輸入的錄音。13. 如權(quán)利要求12所述的方法,其特征在于,所述進(jìn)行語音識別時使用 的參數(shù)進(jìn)一步包括指示錄音存放位置的參數(shù),媒體資源處理設(shè)備根據(jù)該參數(shù) 從指定位置讀取用戶輸入的錄音。14. 如權(quán)利要求1至13任何一項所述的方法,其特征在于,在步驟二中 媒體資源處理設(shè)備調(diào)用語音識別器進(jìn)行語音識別過程中,進(jìn)一步包括-步驟21,媒體資源控制設(shè)備指示媒體資源處理設(shè)備檢測語音識別過程中 發(fā)生的異常事件。15. 如權(quán)利要求14所述的方法,其特征在于,所述異常事件包括等待 用戶輸入超時、識別超時、用戶輸入和語法不匹配、語法文件不存在、語法 文件讀取錯誤、不能識別、識別錯誤、媒體資源處理設(shè)備的軟硬件錯誤。16. 如權(quán)利要求15所述的方法,其特征在于,在步驟21之后且在步驟 三之前進(jìn)一步包括-步驟22,媒體資源處理設(shè)備根據(jù)上述指示對語音識別過程進(jìn)行檢測,并 將檢測結(jié)果反饋給媒體資源控制設(shè)備。7.如權(quán)利要求16所述的方法,其特征在于,所述進(jìn)行語音識別時使用的參數(shù)進(jìn)一步包括指示語音識別異常時返回錯誤碼的參數(shù),媒體資源處理設(shè) 備在檢測到語音識別過程中發(fā)生的異常事件時,根據(jù)該參數(shù)將相應(yīng)的錯誤碼 反饋給媒體資源控制設(shè)備。
全文摘要
一種實現(xiàn)語音識別功能的方法,其中,媒體資源控制設(shè)備通過H.248協(xié)議,控制媒體資源處理設(shè)備實現(xiàn)對用戶輸入語音的識別。該方法包括以下步驟媒體資源控制設(shè)備通過定義H.248協(xié)議擴展包,在H.248消息中攜帶擴展包參數(shù),指示媒體資源處理設(shè)備執(zhí)行與該參數(shù)相應(yīng)的語音識別處理;媒體資源處理設(shè)備根據(jù)上述消息中的參數(shù)調(diào)用語音識別器執(zhí)行語音識別處理;以及,媒體資源處理設(shè)備在完成語音識別后將識別結(jié)果上報媒體資源控制設(shè)備。該方法可以實現(xiàn)用戶輸入的普通語音的識別,用戶可以通過語音直接和系統(tǒng)交互,不需要其它輔助輸入設(shè)備,從而簡化了用戶的輸入方式。
文檔編號H04M3/42GK101222541SQ200710153069
公開日2008年7月16日 申請日期2005年10月21日 優(yōu)先權(quán)日2005年10月21日
發(fā)明者誠 陳 申請人:華為技術(shù)有限公司