Ivvr菜單生成系統(tǒng)及方法

文檔序號：6582917閱讀：296來源：國知局

專利名稱：Ivvr菜單生成系統(tǒng)及方法
技術領域：
本發(fā)明涉及通信領域，具體而言，涉及一種交互式語音及視頻應答(Interactive Voice and Video Response，簡稱為IVVR)菜單生成系統(tǒng)及方法。
背景技術：
交互式語音及視頻應答(IVVR)，作為一種全新的無線語音及視頻應答增值服務，正在跟隨3G快速發(fā)展被廣泛推廣。視頻電話用戶通過撥打指定號碼，獲得所需信息或者參與互動式服務，并借助視頻和語音的特色，突出其“互動”型功能。但是，現(xiàn)有IVVR制作方式較為復雜，具體可以參見圖1。圖1為相關技術中IVVR菜單生成方法的流程圖。如圖1所示，該流程主要包括以下處理(步驟SlOl-步驟SlO7)步驟SlOl 用戶首先使用DIY軟件制作好資源，需要通過互聯(lián)網(wǎng)上傳到服務器上；步驟S103 :IVVR系統(tǒng)判斷該資源單路的視頻總帶寬是否符合要求(即是否小于 64K)，如果是，執(zhí)行步驟S105，否則，執(zhí)行步驟S107 ；步驟S105 =IVVR系統(tǒng)判斷用戶上傳的資源是否為QCIF視頻流，如果是，則執(zhí)行步驟S107，否則，返回執(zhí)行步驟SlOl ；步驟S107 執(zhí)行除上述判斷以外的其他判斷。如果不符合，則需要用戶重新上傳資源或通過系統(tǒng)轉換資源，返回執(zhí)行步驟S101，如果是，則上傳成功；因而，從上述現(xiàn)有技術的實現(xiàn)原理來看，現(xiàn)有IVVR生成方法存在以下不足(I)IVVR菜單制作只能在線下制作，因而靈活的低，局限性大。
(2)制作過程復雜，不能自動處理IVVR菜單中的視頻和音頻合成，需要制作者較高的專業(yè)性，花費大量的制作時間和精力。(3)線下制作的資源極有可能不符合IVVR系統(tǒng)要求，需要用戶重新上傳或系統(tǒng)重新轉換。

發(fā)明內(nèi)容
針對相關技術中IVVR菜單制作在線下制作，靈活的低、局限性大、制作過程復雜、并可能不符合IVVR系統(tǒng)要求的問題而提出本發(fā)明，為此，本發(fā)明的主要目的在于提供一種改進的IVVR菜單生成系統(tǒng)及方法，以解決上述問題至少之一。根據(jù)本發(fā)明的一個方面，提供了一種交互式語音及視頻應答菜單生成系統(tǒng)。根據(jù)本發(fā)明的交互式語音及視頻應答菜單生成系統(tǒng)包括獲取單元，用于獲取用戶端上傳的文件，其中，文件包括第一文件和第二文件，第一文件包括視頻文件和/或圖片文件，第二文件包括音頻文件和/或文字文件；視頻處理單元，用于將用戶端上傳的第一文件轉換為預定格式的視頻流；音頻處理單元，用于將用戶端上傳的第二文件轉換為預定格式的音頻流；菜單合成單元，用于將視頻流和音頻流生成IVVR菜單。
根據(jù)本發(fā)明的另一方面，提供了一種交互式語音及視頻應答菜單生成方法，其中，該方法應用于IWR菜單生成系統(tǒng)。根據(jù)本發(fā)明的交互式語音及視頻應答菜單生成方法包括IVVR菜單生成系統(tǒng)獲取來自于用戶端上傳的文件，其中，文件包括第一文件和第二文件，第一文件包括視頻文件和/或圖片文件，第二文件包括音頻文件和/或文字文件；IVVR菜單生成系統(tǒng)將用戶端上傳的第一文件轉換為預定格式的視頻流，并將用戶端上傳的第二文件轉換為預定格式的音頻流；IVVR菜單生成系統(tǒng)將視頻流和音頻流生成IVVR菜單。通過本發(fā)明，用戶只需呼入IVVR制作系統(tǒng)，通過上傳視頻、音頻、圖片、文字文件，可實現(xiàn)自動生成IVVR菜單，解決了相關技術中IVVR菜單制作在線下制作，靈活性低、局限性大、制作過程復雜、并可能不符合IVVR系統(tǒng)要求的問題，進而可以提高靈活性、降低局限性、并且方便用戶制作。本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。

此處所說明的附圖用來提供對本發(fā)明的進一步理解，構成本申請的一部分，本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明，并不構成對本發(fā)明的不當限定。在附圖中圖1為相關技術中IVVR菜單生成系統(tǒng)的流程圖；圖2為根據(jù)本發(fā)明實施例的IVVR菜單生成系統(tǒng)的結構框圖；圖3為根據(jù)本發(fā)明優(yōu)選實施例的IVVR菜單生成系統(tǒng)的結構框圖；圖4為根據(jù)本發(fā)明實施例的IVVR菜單生成方法的流程圖；圖5為根據(jù)本發(fā)明優(yōu)選實施例的IVVR菜單生成方法的流程圖。
具體實施例方式功能概述考慮到相關技術中IVVR菜單制作在線下制作，靈活的低、局限性大、制作過程復雜、并可能不符合IVVR系統(tǒng)要求的問題，本發(fā)明實施例提供了一種交互式語音及視頻應答 (IVVR)菜單生成系統(tǒng)，用戶只需呼入IVVR菜單生成系統(tǒng)，通過上傳視頻、音頻、圖片、文字文件，即可實現(xiàn)自動生成IWR菜單。其中，IWR菜單生成系統(tǒng)包括獲取單元，用于獲取用戶端上傳的文件，其中，該文件包括第一文件和第二文件，第一文件包括視頻文件和/或圖片文件，第二文件包括音頻文件和/或文字文件；視頻處理單元，用于將用戶端上傳的第一文件轉換為預定格式的視頻流；音頻處理單元，用于將用戶端上傳的第二文件轉換為預定格式的音頻流；菜單合成單元，用于將視頻流和音頻流生成IVVR菜單。需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本發(fā)明。系統(tǒng)實施例根據(jù)本發(fā)明實施例，首先提供了一種IVVR菜單生成系統(tǒng)。圖2為根據(jù)本發(fā)明實施例的IVVR菜單生成系統(tǒng)的結構框圖。圖3為根據(jù)本發(fā)明優(yōu)選實施例的IVVR菜單生成系統(tǒng)的結構框圖。如圖2所示，根據(jù)本發(fā)明實施例的IVVR菜單生成系統(tǒng)包括獲取單元1、視頻處理單元2、音頻處理單元3、菜單合成單元4，以下結合圖3進行描述。獲取單元1，用于獲取用戶端上傳的文件，其中，文件包括第一文件和第二文件，第一文件包括視頻文件和/或圖片文件，第二文件包括音頻文件和/或文字文件；在具體實施過程中，上述獲取單元1可以通過業(yè)務引導的方式，向用戶提供語音交互界面，引導用戶按一定邏輯流程上傳IVVR菜單生成所需要的文件，并將該文件返回給視頻處理單元和音頻處理單元。其中，上述獲取單元1還需要在視頻文件和音頻文件中分別加入視頻編號和音頻編號，并把這些文件分別發(fā)送給視頻處理單元和音頻處理單元。視頻處理單元2，與獲取單元1相連接，用于將用戶端上傳的第一文件轉換為預定格式的視頻流；優(yōu)選地，視頻處理單元2，用于獲取第一文件中的視頻流，加入時間同步標記，轉換成預定的媒體格式，并根據(jù)視頻編號存儲該視頻流。優(yōu)選地，如圖3所示，視頻處理單元2包括視頻判斷模塊20、視頻過濾模塊22、視頻轉換模塊26。視頻判斷模塊20，用于判斷第一文件是否包括視頻文件，如果是，則將該視頻文件發(fā)送至視頻過濾模塊；優(yōu)選地，若第一文件中包括不可識別的文件，則視頻判斷模塊20將該返回該判斷結果給業(yè)務引導模塊，或者不對該文件作任何處理。視頻過濾模塊22，用于對輸入的視頻文件進行過濾，獲取純視頻流，并發(fā)送至視頻轉換模塊；視頻轉換模塊沈，與視頻過濾模塊22相連接，用于在輸入的視頻流中加入時間同步標記，轉換成預定的媒體式，并輸出至視頻預存模塊；視頻預存模塊觀，連接至視頻轉換模塊沈，用于獲取輸入的視頻流的視頻編號，并根據(jù)視頻編號存儲該視頻流。優(yōu)選地，該視頻處理單元還可以包括圖片轉換模塊M ；則視頻判斷模塊20，還用于判斷第一文件是否包括圖片文件，如果是，則將圖片文件發(fā)送至圖片轉換模塊；圖片轉換模塊M，用于將輸入的圖片文件按照預定幀間隔排序組成視頻流，加入時間同步標記，轉換成預定的媒體格式，并輸出至視頻預存模塊；視頻預存模塊觀，還用于獲取圖片轉換模塊輸入的視頻流的視頻編號，并根據(jù)該視頻編號存儲該視頻流。音頻處理單元3，與獲取單元1相連接，用于將用戶端上傳的第二文件轉換為預定格式的音頻流；優(yōu)選地，音頻處理單元3，用于獲取第二文件中的音頻流，加入時間同步標記，轉換成預定的媒體格式，并根據(jù)音頻編號存儲該音頻流。優(yōu)選地，如圖3所示，音頻處理單元3可以進一步包括音頻判斷模塊30、音頻轉換模塊32、音頻預存模塊36。
音頻判斷模塊30，用于對第二文件進行識別，對識別出的音頻文件的音頻格式的有效性進行判斷，將有效音頻格式的音頻文件發(fā)送至音頻轉換模塊，將識別出的圖片文件發(fā)送至TTS轉換模塊；音頻轉換模塊32，與音頻判斷模塊30相連接，用于將接收到的音頻文件加入時間同步標記，轉換成預定格式的音頻流，并發(fā)送至音頻預存模塊；優(yōu)選地，視頻處理單元還可以包括文語轉換(Text To Speech，簡稱為TTQ轉換模塊；34 ；則音頻判斷模塊30，還用于判斷第二文件是否包括文本文件，如果是，則將文本文件發(fā)送至TTS轉換模塊；TTS轉換模塊34，與音頻判斷模塊30相連接，用于將接收到的文本文件通過文語轉換TTS引擎轉換為音頻文件，并將該音頻文件加入時間同步標記，轉換成預定格式的音頻流，并發(fā)送至音頻預存模塊；音頻預存模塊36，與TTS轉換模塊34相連接，還用于獲取圖片轉換模塊輸入的音頻流的視頻編號，并根據(jù)該音頻編號存儲該音頻流。菜單生成單元4，分別與視頻處理單元2和音頻處理單元3相連接，用于將視頻流和音頻流生成IVVR菜單。優(yōu)選地，菜單生成單元，用于將對應的音頻流和視頻流組成至少一個媒體流組，將至少一個媒體流組組合成媒體流組集合，將媒體流組集合生成IWR菜單，其中，音頻流、視頻流、至少一個媒體流組、媒體流組集合均小于預定閾值。上述預定閾值可以是相同或不同的閾值，例如下文中描述的第一閾值、第二閾值、第三閾值，即可以滿足以下關系第三閾值>第二閾值>第一閾值。具體根據(jù)實際情況預先設定。優(yōu)選地，如圖3所示，菜單生成單元4可以進一步包括IVVR處理模塊40，用于判斷接收到的音頻流或視頻流的大小是否小于第一閾值，如果是，則將音頻流或視頻流發(fā)送至IVVR合成模塊，否則，將音頻流或視頻流發(fā)送至IVVR 壓縮模塊；IVVR合成模塊42，用于將接收到的對應的音頻流和視頻流組成至少一個媒體流組，分別判斷各個媒體流組的大小是否大于第二閾值，在各個媒體流組的大小都小于第二閾值的情況下，將至少一個媒體流組組合成媒體流組集合，判斷媒體流組集合是否小于第三閾值，如果是，則生成IVVR菜單，否則，發(fā)送至IVVR壓縮模塊，其中，第三閾值>第二閾值彡第一閾值；IVVR壓縮模塊44，用于根據(jù)預定的壓縮指令對接收到的媒體流進行壓縮，并將壓縮完成的媒體流發(fā)送至IVVR處理模塊。在具體實施過程中，IVVR處理模塊主要負責接收獲取單元發(fā)送的生成指令并返回處理結果；通過調(diào)用視頻預存模塊的視頻流和音頻預存模塊的音頻流的編號，打包成一組媒體流；判斷該組媒體流大小，例如，以64k為預定閾值，小于64k的媒體流發(fā)送到IVVR合成模塊，大于64k的媒體流發(fā)送到IVVR壓縮模塊。IVVR合成模塊主要負責接收IVVR處理模塊發(fā)送來的媒體流，讀取媒體流和音頻流中的第一幀的時間同步標記，保證該組視頻音頻的同步開始；IVVR合成模塊通過讀取時間同步標記，通過計算視頻音頻流中的時長，統(tǒng)一調(diào)整該媒體流集合中每組幀的時間間隔，把多組媒體流合成媒體流集合，在把該集合的視頻流格式轉換為QCIF后，返回給IVVR處理模塊；判斷合成的媒體流集合的總大小，超過規(guī)定大小的視頻，發(fā)送給IWR壓縮模塊，否則生成IVVR菜單。IVVR壓縮模塊主要收到IVVR 處理模塊的壓縮指令后，對接收的媒體流進行壓縮，壓縮完成的媒體流返回給IVVR處理模塊。通過上述實施例，提供了一種IVVR菜單生成系統(tǒng)，該系統(tǒng)使用非常方便，用戶可以通過任何視頻電話在在任何時刻制作I VVR菜單。且IVVR菜單制作簡單，只需要上傳制作需要的視頻音頻或文本文件即可完成制作。方法實施例根據(jù)本發(fā)明實施例，還提供了一種IVVR菜單生成方法。圖4為根據(jù)本發(fā)明實施例的IVVR菜單生成方法的流程圖。其中，該方法應用于上述IVVR菜單生成系統(tǒng)，如圖4所示，根據(jù)本發(fā)明實施例的IVVR菜單生成方法包括以下處理 (步驟S401-步驟S405)步驟S401 :IVVR菜單生成系統(tǒng)獲取來自于用戶端上傳的文件，其中，文件包括第一文件和第二文件，第一文件包括視頻文件和/或圖片文件，第二文件包括音頻文件和/ 或文字文件；其中，用戶可以根據(jù)引導菜單提示順序上傳文件，上傳第一文件和第二文件的順序根據(jù)引導界面預定方式而定，先后順序在系統(tǒng)中可以調(diào)整。步驟S403 :IVVR菜單生成系統(tǒng)將用戶端上傳的第一文件轉換為預定格式的視頻流，并將用戶端上傳的第二文件轉換為預定格式的音頻流；優(yōu)選地，將用戶端上傳的第一文件轉換為預定格式的視頻流包括以下處理(1)判斷第一文件是否包括視頻文件和/或圖片文件；(2)在第一文件包括視頻文件的情況下，對視頻文件進行過濾，獲取純視頻流，加入時間同步標記，轉換成預定格式的視頻流，和/或，在第一文件包括圖片文件的情況下，將圖片文件按照預定幀間隔排序組成視頻流，加入時間同步標記，轉換成預定格式的視頻流；(3)獲取轉換成預定格式的視頻流的視頻編號，并根據(jù)視頻編號存儲該視頻流。優(yōu)選地，將用戶端上傳的第二文件轉換為預定格式的音頻流包括以下處理(1)判斷第二文件是否包括音頻文件和/或文本文件；(2)在第二文件包括音頻文件的情況下，對該音頻文件的音頻格式的有效性進行判斷，獲取有效音頻格式的音頻文件，加入時間同步標記，轉換成預定格式的音頻流，和/ 或，在第二文件包括文本文件的情況下，將該文本文件通過文語轉換TTS引擎轉換為音頻文件，并將該音頻文件加入時間同步標記，轉換成預定格式的音頻流；(3)獲取轉換成預定格式的音頻流的音頻編號，并根據(jù)音頻編號存儲該音頻流。步驟S405 =IVVR菜單生成系統(tǒng)將視頻流和音頻流生成IVVR菜單。優(yōu)選地，步驟S405具體可以包括以下處理(1)判斷音頻流或視頻流的大小是否大于第一閾值；(2)如果是，根據(jù)預定的壓縮指令對該音頻流或視頻流進行壓縮，否則，將接收到的對應的音頻流和視頻流組成至少一個媒體流組，分別判斷各個媒體流組的大小是否大于第二閾值；(3)在各個媒體流組的大小都小于第二閾值的情況下，將至少一個媒體流組組合成媒體流組集合，判斷媒體流組集合是否小于第三閾值，其中，第三閾值>第二閾值>第一閾值；(4)在媒體流組集合小于第三閾值的情況下，生成IVVR菜單，否則，根據(jù)預定的壓縮指令對媒體流組集合進行壓縮。圖5為根據(jù)本發(fā)明優(yōu)選實施例的IVVR菜單生成方法的流程圖。如圖5所示，根據(jù) 本發(fā)明優(yōu)選實施例的IVVR菜單生成方法包括以下處理(步驟S501-步驟S527)假設用戶要制作一個IVVR菜單。其中，該菜單由一個視頻文件、一個圖片、一個音頻和一段文字轉語音的音頻的合成。一個視頻文件名是“a”(格式為3GP，幀速率lOfps，I 幀間隔5秒，時長20秒，大小70k)，一個圖片文件名是“b” (格式為gif，幀速率lfps，時長 5秒，大小12k)。一個音頻文件名是“c”(格式為AMR，時長10秒，大小12k)，一段文本內(nèi)容是“您好，歡迎使用IVVR菜單制作系統(tǒng)”。該用戶用3G手機撥打IVVR菜單生成系統(tǒng)的接入碼，進入IVVR系統(tǒng)。以下結合圖2和圖3描述的系統(tǒng)描述該方案。步驟S501 用戶的手機界面接收到獲取單元的引導提示“請上傳視頻文件或圖片文件”，用戶按具體引導步驟將“a”文件上傳，獲取單元接收到該文件后，將該文件設置編號為1-1，發(fā)送給視頻處理單元；步驟S503 視頻處理單元中的視頻判斷單元在接收“a”后，判斷出該文件是視頻文件，返回指令給獲取單元。若判斷出該文件是圖像，則跳到步驟S525 ；步驟S505 視頻判斷模塊判斷出該視頻文件格式為3GP，符合系統(tǒng)指定視頻格式，發(fā)送該視頻文件到視頻過濾模塊；步驟S507 視頻過濾模塊將該視頻文件中的音頻內(nèi)容過濾掉，生成純視頻流，并發(fā)送給視頻轉換模塊；步驟S509 視頻轉換模塊接收到純視頻流，并將該視頻流媒體格式轉換成H263格式，調(diào)整幀速率為8fps，設置第一個幀為2秒，在加入時間同步標記后，發(fā)送到視頻預存模塊。視頻預存模塊將接收到的編號為1-1的視頻流存儲到單元內(nèi)第一個位置；步驟S511 獲取單元接收到視頻上傳成功的指令，提示用戶上傳音頻或輸入文字。用戶按引導步驟將“C”文件上傳，獲取單元接收到后，設置該文件編號1-2發(fā)送到音頻處理單元；步驟S513 音頻判斷模塊接收到用戶上傳文件“C”，判斷出該文件為音頻文件，發(fā) 送該音頻文件給音頻處理單元中的音頻轉換模塊。若音頻判斷模塊判斷出用戶輸入文本，發(fā)送給TTS轉換模塊，則跳回步驟S527 ；步驟S515 音頻轉換模塊在接收到音頻文件“C”后，判斷出該音頻媒體格式為 AMR，返回接收成功指令給獲取單元；若判斷出該音頻不是AMR格式，則跳回步驟S511 ；步驟S517 音頻轉換模塊把音頻流轉換音頻碼率為系統(tǒng)統(tǒng)一指定碼率，并加入時間同步標記后，發(fā)送到音頻預存模塊。音頻預存模塊將接收到的編號為1的音頻流存儲到單元內(nèi)第一個位置；步驟S519 獲取單元接收到音頻上傳成功的指令，提示用戶“音頻上傳成功，按1 上傳下一個視頻或圖像，按#結束”；
步驟S521 獲取單元接收到用戶選擇“1”的指令，重復步驟S501到步驟S513，完成一個圖像“b”的上傳和一段文本“您好，歡迎使用IVVR菜單制作系統(tǒng)”的輸入，并設置編號為2-1和2-2 ；步驟S523 獲取單元引導用戶按“#”，確認文件全部上傳完畢，同時發(fā)送生成IVVR 菜單命令給菜單合成單元。菜單合成模塊的IWR處理模塊接收到從視頻預存模塊提取編號為1的視頻流和音頻流，讀取視頻流和音頻流第一幀的時間同步信息，以時間長的視頻或音頻為改組媒體流的標準時長，打包成第一組媒體流組，并把該媒體流組的時間同步標記發(fā)送給IVVR合成模塊；對該組媒體流大小進行計算，若計算出該組媒體流大于第一閾值 (例如，64k)后，則發(fā)送到IVVR壓縮模塊進行壓縮。IVVR壓縮模塊接收到這組媒體流，壓縮成小于第二閾值(例如，64k)的媒體流后，返回給IVVR處理模塊。IVVR合成模塊在讀取IVVR處理模塊的多組媒體流的組同步標記后，調(diào)整I-幀的時間間隔，合成多組媒體流集合，并返回該媒體流集合到IVVR處理模塊。IVVR處理模塊計算該媒體流集合的大小，判斷是否大于第三閾值(例如，64k)，大于64k的媒體流集合發(fā)送到IVVR壓縮模塊進行壓縮后，否則，將該媒體流集合發(fā)送給IWR合成模塊，IWR合成模塊接收媒體流集合，將其轉換成四分之一通用中間格式(Quarter Common Intermediate R)rmat，簡稱為QCIF)格式后，合并成IVVR菜單；步驟S525 視頻轉換模塊接收的為圖片文件，首先把圖片文件按一定幀間隔組成存視頻流后，跳回步驟S509 ；步驟S527 =TTS轉換模塊接收到用戶輸入文字，通過TTS引擎，將文字轉換成語音，并將語音轉換成格式AMR音頻流，同時，在音頻流幀中加入時間同步標記后，跳回步驟 S517。發(fā)送到音頻預存模塊。通過上述實施例，提供了一種IVVR菜單生成方法，用戶制作方便的效果，生成的 IVVR菜單符合IVVR系統(tǒng)要求，其視頻總帶寬小于預定閾值(例如，64K)，視頻流為QCIF，格式為3GP，系統(tǒng)可以直接讀取使用。綜上所述，通過本發(fā)明的上述實施例，提供的IVVR菜單生成方案，用戶可以通過任何視頻電話在任何時刻制作IVVR菜單，用戶只需要上傳制作需要的視頻音頻或文本文件即可完成制作。達到了用戶制作方便的效果，提高了語音撥號在家庭和辦公中的普及應用。顯然，本領域的技術人員應該明白，上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn)，它們可以集中在單個的計算裝置上，或者分布在多個計算裝置所組成的網(wǎng)絡上，可選地，它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn)，從而，可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行，或者將它們分別制作成各個集成電路模塊，或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣，本發(fā)明不限制于任何特定的硬件和軟件結合。以上所述僅為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領域的技術人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種交互式語音及視頻應答IVVR菜單生成系統(tǒng)，其特征在于，所述系統(tǒng)包括獲取單元，用于獲取用戶端上傳的文件，其中，所述文件包括第一文件和第二文件，所述第一文件包括視頻文件和/或圖片文件，所述第二文件包括音頻文件和/或文字文件；視頻處理單元，用于將用戶端上傳的所述第一文件轉換為預定格式的視頻流；音頻處理單元，用于將用戶端上傳的所述第二文件轉換為預定格式的音頻流；菜單合成單元，用于將所述視頻流和所述音頻流生成IVVR菜單。
2.根據(jù)權利要求1所述的系統(tǒng)，其特征在于，所述視頻處理單元，用于獲取所述第一文件中的視頻流，加入時間同步標記，轉換成預定的媒體格式，并根據(jù)視頻編號存儲該視頻流。
3.根據(jù)權利要求1或2所述的系統(tǒng)，其特征在于，所述視頻處理單元包括視頻判斷模塊，用于判斷所述第一文件是否包括視頻文件，如果是，則將所述視頻文件發(fā)送至所述視頻過濾模塊；所述視頻過濾模塊，用于對所述視頻文件進行過濾，獲取純視頻流，并發(fā)送至視頻轉換模塊；所述視頻轉換模塊，用于在輸入的視頻流中加入時間同步標記，轉換成預定的媒體格式，并輸出至視頻預存模塊；所述視頻預存模塊，用于獲取所述視頻轉換模塊輸入的視頻流的視頻編號，并根據(jù)該視頻編號存儲該視頻流。
4.根據(jù)權利要求3所述的系統(tǒng)，其特征在于，所述視頻處理單元還包括圖片轉換模塊；則所述視頻判斷模塊，還用于判斷所述第一文件是否包括圖片文件，如果是，則將所述圖片文件發(fā)送至圖片轉換模塊；所述圖片轉換模塊，用于將輸入的所述圖片文件按照預定幀間隔排序組成視頻流，加入時間同步標記，轉換成預定的媒體格式，并輸出至所述視頻預存模塊；所述視頻預存模塊，還用于獲取所述圖片轉換模塊輸入的視頻流的視頻編號，并根據(jù) 該視頻編號存儲該視頻流。
5.根據(jù)權利要求1所述的系統(tǒng)，其特征在于，所述音頻處理單元，用于獲取所述第二文件中的音頻流，加入時間同步標記，轉換成預定的媒體格式，并根據(jù)音頻編號存儲該音頻流。
6.根據(jù)權利要求1或5所述的系統(tǒng)，其特征在于，所述音頻處理單元包括音頻判斷模塊，用于判斷所述第二文件是否包括音頻文件，如果是，則將所述音頻文件發(fā)送至音頻轉換模塊；所述音頻轉換模塊，用于將所述音頻判斷模塊輸入的音頻文件加入時間同步標記，轉換成預定格式的音頻流，并發(fā)送至音頻預存模塊；所述音頻預存模塊，用于獲取所述音頻轉換模塊輸入的音頻流的音頻編號，并根據(jù)所述音頻編號存儲該音頻流。
7.根據(jù)權利要求6所述的系統(tǒng)，其特征在于，所述音頻處理單元還包括文語TTS轉換模塊；則所述音頻判斷模塊，還用于判斷所述第二文件是否包括文本文件，如果是，則將所述文本文件發(fā)送至TTS轉換模塊；所述TTS轉換模塊，用于將接收到的文本文件通過文語轉換TTS引擎轉換為音頻文件，并將該音頻文件加入時間同步標記，轉換成預定格式的音頻流，并發(fā)送至所述音頻預存模塊；所述音頻預存模塊，還用于獲取所述圖片轉換模塊輸入的音頻流的視頻編號，并根據(jù) 該音頻編號存儲該音頻流。
8.根據(jù)權利要求1所述的系統(tǒng)，其特征在于，所述菜單生成單元，用于將對應的音頻流和視頻流組成至少一個媒體流組，將所述至少一個媒體流組組合成媒體流組集合，將所述媒體流組集合生成所述IWR菜單，其中，所述音頻流、所述視頻流、所述至少一個媒體流組、所述媒體流組集合均小于預定閾值。
9.根據(jù)權利要求1或8所述的系統(tǒng)，其特征在于，所述菜單生成單元包括IVVR處理模塊，用于判斷接收到的音頻流或視頻流的大小是否小于第一閾值，如果是，則將所述音頻流或視頻流發(fā)送至IVVR合成模塊，否則，將所述音頻流或視頻流發(fā)送至IVVR 壓縮模塊；所述IVVR合成模塊，用于將接收到的對應的音頻流和視頻流組成至少一個媒體流組，分別判斷各個媒體流組的大小是否大于第二閾值，在各個媒體流組的大小都小于所述第二閾值的情況下，調(diào)整I-幀的時間間隔，將所述至少一個媒體流組組合成媒體流組集合，判斷所述媒體流組集合是否小于第三閾值，如果是，則生成所述IVVR菜單，否則，發(fā)送至IVVR 壓縮模塊，其中，所述第三閾值 > 所述第二閾值 >所述第一閾值；所述IVVR壓縮模塊，用于根據(jù)預定的壓縮指令對接收到的媒體流進行壓縮，并將壓縮完成的所述媒體流發(fā)送至所述IWR處理模塊。
10.一種交互式語音及視頻應答IVVR菜單生成方法，應用于IVVR菜單生成系統(tǒng)，其特征在于，所述方法包括所述IVVR菜單生成系統(tǒng)獲取來自于用戶端上傳的文件，其中，所述文件包括第一文件和第二文件，所述第一文件包括視頻文件和/或圖片文件，所述第二文件包括音頻文件和/或文字文件；所述IVVR菜單生成系統(tǒng)將用戶端上傳的所述第一文件轉換為預定格式的視頻流，并將用戶端上傳的所述第二文件轉換為預定格式的音頻流；所述IVVR菜單生成系統(tǒng)將所述視頻流和所述音頻流生成IVVR菜單。
11.根據(jù)權利要求10所述的方法，其特征在于，所述將用戶端上傳的所述第一文件轉換為預定格式的視頻流，包括判斷所述第一文件是否包括視頻文件和/或圖片文件；在所述第一文件包括視頻文件的情況下，對所述視頻文件進行過濾，獲取純視頻流，加入時間同步標記，轉換成預定格式的視頻流，和/或，在所述第一文件包括圖片文件的情況下，將所述圖片文件按照預定幀間隔排序組成視頻流，加入時間同步標記，轉換成預定格式的視頻流；獲取所述轉換成預定格式的視頻流的視頻編號，并根據(jù)所述視頻編號存儲該視頻流。
12.根據(jù)權利要求10所述的方法，其特征在于，將用戶端上傳的所述第二文件轉換為預定格式的音頻流包括判斷所述第二文件是否包括音頻文件和/或文本文件；在所述第二文件包括音頻文件的情況下，對該音頻文件的音頻格式的有效性進行判斷，獲取有效音頻格式的音頻文件，加入時間同步標記，轉換成預定格式的音頻流，和/或，在所述第二文件包括文本文件的情況下，將該文本文件通過文語轉換TTS引擎轉換為音頻文件，并將該音頻文件加入時間同步標記，轉換成預定格式的音頻流；獲取所述轉換成預定格式的音頻流的音頻編號，并根據(jù)所述音頻編號存儲該音頻流。
13.根據(jù)權利要求10至12中任一項所述的系統(tǒng)，其特征在于，將所述視頻流和所述音頻流生成IVVR菜單包括在所述音頻流或所述視頻流的大小小于第一閾值的情況下，將接收到的對應的音頻流和視頻流組成至少一個媒體流組，分別判斷各個媒體流組的大小是否大于第二閾值；在各個媒體流組的大小都小于所述第二閾值的情況下，調(diào)整I-幀的時間間隔，將所述至少一個媒體流組組合成媒體流組集合，判斷所述媒體流組集合是否小于第三閾值，其中，所述第三閾值>所述第二閾值>所述第一閾值；在所述媒體流組集合小于所述第三閾值的情況下，生成所述IVVR菜單，否則，根據(jù)預定的壓縮指令對所述媒體流組集合進行壓縮。
全文摘要
本發(fā)明公開了一種交互式語音及視頻應答菜單生成系統(tǒng)及方法，上述系統(tǒng)包括獲取單元，用于獲取用戶端上傳的文件，其中，該文件包括第一文件和第二文件，第一文件包括視頻文件和/或圖片文件，第二文件包括音頻文件和/或文字文件；視頻處理單元，用于將用戶端上傳的第一文件轉換為預定格式的視頻流；音頻處理單元，用于將用戶端上傳的第二文件轉換為預定格式的音頻流；菜單合成單元，用于將視頻流和音頻流生成IVVR菜單。根據(jù)本發(fā)明提供的技術方案，解決了相關技術中IVVR菜單制作在線下制作，靈活性低、局限性大、制作過程復雜、并可能不符合IVVR系統(tǒng)要求的問題，進而可以提高靈活性、降低局限性、并且方便用戶制作。
文檔編號G06F9/44GK102055731SQ200910208719
公開日2011年5月11日申請日期2009年10月27日優(yōu)先權日2009年10月27日
發(fā)明者周龍江, 廖芯, 李滿海, 沈玉娜申請人:中興通訊股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：廖芯;李滿海;周龍江;沈玉娜
技術所有人：中興通訊股份有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

微信自定義菜單生成器相關技術

js動態(tài)生成樹形菜單相關技術

json動態(tài)生成樹形菜單相關技術

adminlte動態(tài)生成菜單相關技術

菜單生成器相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Ivvr菜單生成系統(tǒng)及方法