一種多媒體設(shè)備語音控制系統(tǒng)及方法

文檔序號：2833418閱讀：322來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種多媒體設(shè)備語音控制系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音遙控技術(shù)，更具體地說，涉及一種多媒體設(shè)備語音控制系統(tǒng)及方法。
背景技術(shù)：
繼手機智能化后，電視、投影儀、游戲機等多種多媒體設(shè)備的智能化成為必然趨勢。現(xiàn)有多種多媒體設(shè)備電視一般配備高性能控制芯片，具有開放式平臺和操作系統(tǒng)；可由用戶自行安裝和卸載應(yīng)用程序，此類應(yīng)用程序擴展多媒體設(shè)備的功能；支持用戶通過網(wǎng)絡(luò)進行信息瀏覽和網(wǎng)絡(luò)社交。以智能電視機為例，電視機不再局限于傳統(tǒng)的電視節(jié)目播放功能，還通過運行應(yīng)用程序?qū)崿F(xiàn)音視頻分享，交互娛樂游戲等多種功能。而傳統(tǒng)的按鍵式遙控器已經(jīng)無法滿足多種多媒體功能選擇和操作需求。
現(xiàn)有技術(shù)提出包括觸摸控制、聲音控制、手勢識別、體感控制等多種人機交互方案以實現(xiàn)智能控制，但由于電視機的使用場景限制和使用習(xí)慣問題，仍然沒有一種智能控制方式能夠完全取代手持遙控器，用戶必須借助手持遙控器上的特定功能鍵和數(shù)字鍵組合來進行操控。例如觸摸控制方案需要在借助遙控器上安裝的觸摸感應(yīng)模塊；手勢識別方案其無法快捷地進行常用的節(jié)目頻道跳轉(zhuǎn)控制如用戶想從當(dāng)前的I頻道切換到55頻道，僅采用手勢識別方式操作顯然不如使用傳統(tǒng)遙控器更加快捷；而體感控制方案的問題類似手勢識別方案，通常還需要安裝價格昂貴的深度圖像感應(yīng)模塊才能實現(xiàn)準(zhǔn)確的體感控制功能。而現(xiàn)有技術(shù)聲音識別控制方案的問題在于，一般為清晰地采集用戶的聲音而在遙控器上安裝麥克風(fēng)模塊，仍然需要借助手持遙控器。隨著聲音識別技術(shù)的發(fā)展，聲音識別、語義識別等都已經(jīng)基本達(dá)到實用的階段，而且隨著云計算技術(shù)的普及，許多基于云服務(wù)的語音識別服務(wù)商與智能電視結(jié)合實現(xiàn)語音控制電視。但目前現(xiàn)有技術(shù)方案大多在遙控器上加裝麥克風(fēng)拾音模塊，獲取用戶聲音經(jīng)處理后再傳至云端進行識別處理；即使是采用可以遠(yuǎn)距離拾音的麥克風(fēng)陣列技術(shù)，也存在因電視輸出的聲音、環(huán)境聲音干擾和用戶的非控制指令語音被錯誤解讀為控制指令等問題，影響語音控制電視機等多媒體設(shè)備的效果。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于，提出一種多媒體設(shè)備語音控制系統(tǒng)。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是提供一種多媒體設(shè)備語音控制系統(tǒng)，包括圖像感應(yīng)模塊，采集用戶動作圖像；圖像識別模塊，根據(jù)用戶動作圖像確定控制指令類型或狀態(tài)；語音識別狀態(tài)管理模塊，根據(jù)當(dāng)前的控制指令類型激活或暫停語音識別；拾音模塊，采集語音數(shù)據(jù)；語音識別模塊，對采集到的語音數(shù)據(jù)進行識別，形成控制指令；多媒體功能模塊，執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。優(yōu)選地，上述圖像識別模塊將用戶動作圖像與預(yù)設(shè)的圖像模版比對，選取與用戶動作圖像匹配的控制指令類型；若比對結(jié)果為找到與用戶動作圖像匹配的控制指令類型，則認(rèn)為用戶所在位置為目標(biāo)音源位置，向語音識別狀態(tài)管理模塊發(fā)送目標(biāo)音源所在位置信息、啟動語音識別信息和/或控制指令類型；或若未找到與用戶動作圖像匹配的控制指令類型，則向語音識別狀態(tài)管理模塊發(fā)出比對失敗信息。優(yōu)選地，上述多媒體設(shè)備語音控制系統(tǒng)還包括音束形成模塊，根據(jù)目標(biāo)音源所在位置信息確定拾音方向和拾音接收角。優(yōu)選地，上述拾音模塊為陣列拾音模塊，包括規(guī)則排列的至少一拾音傳感器，根據(jù)拾音方向和拾音接收角的限定采集目標(biāo)音源發(fā)出的語音信號，進行數(shù)字化處理形成語音數(shù)據(jù)后發(fā)送給語音識別模塊。優(yōu)選地，上述語音識別狀態(tài)管理模塊根據(jù)接收到的啟動語音識別信息，向語音識別模塊發(fā)送啟動指令及控制指令類型以激活語音識別，向音束形成模塊發(fā)送目標(biāo)音源所在位置信息，并控制多媒體功能模塊減小多媒體輸出聲音的音量；或根據(jù)接收到的比對失敗信息，向語音識別模塊發(fā)送指令暫停語音識別。
優(yōu)選地，上述語音識別模塊根據(jù)來自語音識別狀態(tài)管理模塊的啟動指令和控制指令類型，對來自拾音模塊的語音數(shù)據(jù)進行識別，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊。優(yōu)選地，上述語音識別模塊包括本地語音識別模塊和云端語音識別模塊；本地語音識別模塊識別語音數(shù)據(jù)，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊；云端語音識別模塊對本地語音識別模塊無法識別的語音數(shù)據(jù)進行語義識別處理，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊。本發(fā)明還提出一種多媒體設(shè)備語音控制方法，包括圖像感應(yīng)模塊采集用戶動作圖像的步驟；圖像識別模塊根據(jù)用戶動作圖像確定控制指令類型或狀態(tài)的步驟；語音識別狀態(tài)管理模塊根據(jù)當(dāng)前的控制指令類型激活或暫停語音識別的步驟；音束形成模塊確定拾音方向和拾音接收角的步驟；陣列拾音模塊根據(jù)拾音方向和拾音接收角的限定采集用戶發(fā)出的語音信號，進行數(shù)字化處理形成語音數(shù)據(jù)的步驟；語音識別模塊對采集到的語音數(shù)據(jù)進行識別，形成控制指令的步驟；多媒體功能模塊執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能的步驟。優(yōu)選地，上述圖像感應(yīng)模塊采集用戶動作圖像；圖像識別模塊將用戶動作圖像與預(yù)設(shè)的圖像模版比對，選取與用戶動作圖像匹配的控制指令類型；若比對結(jié)果為找到與用戶動作圖像匹配的控制指令類型，則認(rèn)為用戶所在位置為目標(biāo)音源位置，向語音識別狀態(tài)管理模塊發(fā)送目標(biāo)音源所在位置信息、啟動語音識別信息和/或控制指令類型；若未找到與用戶動作圖像匹配的控制指令類型，則向語音識別狀態(tài)管理模塊發(fā)出比對失敗信息；語音識別狀態(tài)管理模塊根據(jù)接收到的啟動語音識別信息，向語音識別模塊發(fā)送啟動指令及控制指令類型以激活語音識別，向音束形成模塊發(fā)送目標(biāo)音源所在位置信息，并控制多媒體功能模塊減小多媒體輸出聲音的音量；或根據(jù)接收到的比對失敗信息，向語音識別模塊發(fā)送指令暫停語音識別；音束形成模塊根據(jù)目標(biāo)音源所在位置信息確定拾音方向和拾音接收角；陣列拾音模塊根據(jù)拾音方向和拾音接收角的限定采集目標(biāo)音源發(fā)出的語音信號，進行數(shù)字化處理形成語音數(shù)據(jù)后發(fā)送給語音識別模塊；語音識別模塊根據(jù)來自語音識別狀態(tài)管理模塊的啟動指令和控制指令類型，對來自陣列拾音模塊的語音數(shù)據(jù)進行識別，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊；多媒體功能模塊執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。優(yōu)選地，上述多媒體設(shè)備語音控制方法，其中語音識別模塊包括本地語音識別模塊和云端語音識別模塊，語音識別模塊預(yù)設(shè)語音指令詞典，包括本地語音識別模塊識別語音數(shù)據(jù)，將語音數(shù)據(jù)與語音指令詞典中的單詞模型對比，若語音數(shù)據(jù)與至少一單詞模型相似度大于預(yù)設(shè)閾值，則將語音數(shù)據(jù)解釋為與單詞模型對應(yīng)的控制指令，發(fā)送給多媒體功能模塊；若語音數(shù)據(jù)與至少一單詞模型相似度不大于預(yù)設(shè)閾值，則將語音數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給云端語音識別模塊；云端語音識別模塊對語音數(shù)據(jù)進行語義識別處理，形成控制指令，通過網(wǎng)絡(luò)發(fā)送給多媒體功能模塊。本發(fā)明結(jié)合圖像識別和語音識別技術(shù)，實現(xiàn)不依賴手持遙控器，不使用近距離拾音模塊實現(xiàn)自由便捷的語音控制，有效避免了多媒體設(shè)備輸出的聲音、環(huán)境背景聲音以及用戶的非控制指令語音信號對控制指令語音識別的干擾，實現(xiàn)準(zhǔn)確識別用戶發(fā)出的控制指令。

下面將結(jié)合附圖及實施例對本發(fā)明作進一步說明，附圖中圖I是本發(fā)明一實施例多媒體設(shè)備語音控制系統(tǒng)模塊結(jié)構(gòu)示意圖；圖2是本發(fā)明一實施例預(yù)設(shè)圖像模板示意圖；圖3是本發(fā)明一實施例多媒體設(shè)備語音控制系統(tǒng)詳細(xì)工作流程圖；圖4是本發(fā)明一實施例陣列拾音模塊14排布示意圖；圖5是本發(fā)明一實施例多媒體設(shè)備語音控制系統(tǒng)基本工作流程圖；圖6是本發(fā)明一實施例語音識別模塊15詳細(xì)流程示意圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。參照圖I示出的多媒體設(shè)備語音控制系統(tǒng)模塊結(jié)構(gòu)示意圖，本發(fā)明一實施例多媒體設(shè)備I包括圖像感應(yīng)模塊10，采集用戶動作圖像；圖像識別模塊11，根據(jù)用戶動作圖像確定控制指令類型或狀態(tài)；語音識別狀態(tài)管理模塊12，根據(jù)當(dāng)前的控制指令類型激活或暫停語音識別；拾音模塊14，采集語音數(shù)據(jù)；語音識別模塊15，對采集到的語音數(shù)據(jù)進行識別，形成控制指令；多媒體功能模塊16，執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。參照圖2所示的預(yù)設(shè)圖像模板示意圖，本發(fā)明一實施例的圖像識別模塊11預(yù)設(shè)至少一圖像模版，不同的控制指令類型分別對應(yīng)不同的圖像模板，將對用戶動作圖像與至少一圖像模板比對，若找到與用戶動作圖像相符的圖像模板，則認(rèn)為用戶是目標(biāo)音源，用戶接下來發(fā)出的語音是屬于相應(yīng)控制指令類型的控制指令，如果比對失敗，沒有找到與用戶動作圖像相符的圖像模板，則認(rèn)為用戶的動作不是發(fā)出控制指令，暫停對其語音進行識別。參照圖3示出的多媒體設(shè)備語音控制系統(tǒng)詳細(xì)工作流程圖，圖像識別模塊11對圖像感應(yīng)模塊10發(fā)來的用戶動作圖像進行處理，將處理結(jié)果與預(yù)設(shè)的圖像模版數(shù)據(jù)進行比對，選取與用戶動作圖像匹配的控制指令類型；
若比對結(jié)果為找到與用戶動作圖像匹配的控制指令類型，則認(rèn)為用戶所在位置為目標(biāo)音源位置，向語音識別狀態(tài)管理模塊12發(fā)送目標(biāo)音源所在位置信息、啟動語音識別信息和/或控制指令類型；若未找到與用戶動作圖像匹配的控制指令類型，則向語音識別狀態(tài)管理模塊12發(fā)出比對失敗信息。本發(fā)明的最佳實施例中，圖像識別模塊11需要對特定的用戶動作進行訓(xùn)練。例如多媒體設(shè)備I通過向用戶播放人機交互內(nèi)容，引導(dǎo)用戶將右手自然放置嘴邊做喊話狀的動作，直到動作符合預(yù)設(shè)的與“開始語音遙控”控制指令類型相應(yīng)的第一圖像模版。又如，多媒體設(shè)備I可引導(dǎo)用戶將手掌平攤遮住口部，直到動作符合預(yù)設(shè)的與“靜音”控制指令類型相應(yīng)的第二圖像模板。本發(fā)明提出一實施例還包括音束形成模塊13，根據(jù)目標(biāo)音源所在位置信息確定拾音方向和拾音接收角，結(jié)合陣列拾音技術(shù)可有效消除噪聲，提高語音識別的準(zhǔn)確度。本實施例的拾音模塊14為陣列拾音模塊,包括規(guī)則排列的至少一拾音傳感器,根據(jù)拾音方向和拾音接收角的限定采集目標(biāo)音源發(fā)出的語音信號，進行數(shù)字化處理，消除背景雜音，形成語音數(shù)據(jù)后發(fā)送給語音識別模塊15。參照圖4示出的陣列拾音模塊14排布示意圖，陣列拾音模塊14可包括多個按照規(guī)則幾何形狀排列的拾音傳感器，例如使用等間隔直線排列方式，將多個拾音傳感器水平等間隔排列在圖像感應(yīng)模塊10的兩側(cè)。參照圖3示出的多媒體設(shè)備語音控制系統(tǒng)詳細(xì)工作流程圖，音束形成模塊13確定陣列拾音模塊14采集聲音信號的音束主瓣方向和范圍大小，即拾音方向和拾音接收角，據(jù)此限定陣列拾音模塊14采集目標(biāo)音源發(fā)出的語音信號?，F(xiàn)有常見的音束形成方法包括延遲-累加方法(傳統(tǒng)波束法)、自適應(yīng)波束法及基于后置自適應(yīng)濾波法，這三種方法各有優(yōu)缺點，延遲-累加波束法和后置自適應(yīng)濾波法適用于非相干噪聲和弱相干噪聲消除；而自適應(yīng)波束法適用于消除相干噪聲，對非相干噪聲或散射噪聲消除效果較差。而在本實施例使用環(huán)境中，通常是既有相干噪音，又有非相干噪音，本實施例通過圖像識別目標(biāo)音源的方式來巧妙地實現(xiàn)確定拾音方向和拾音接收角。即使有多個電視觀眾且都處于圖像感應(yīng)識別范圍內(nèi)，也只對目標(biāo)用戶發(fā)出的語音信號進行識別。參照圖3示出的多媒體設(shè)備語音控制系統(tǒng)詳細(xì)工作流程圖，本發(fā)明還提出語音識別狀態(tài)管理模塊12主要負(fù)責(zé)管理控制多媒體設(shè)備語音控制系統(tǒng)的識別狀態(tài)。當(dāng)接收到的是啟動語音識別信息，則向語音識別模塊15發(fā)送啟動指令及控制指令類型以激活語音識另O，向音束形成模塊13發(fā)送目標(biāo)音源所在位置信息，此時用戶發(fā)出的語音信號才被當(dāng)作控制指令，由陣列拾音模塊14發(fā)給語音識別模塊15進行處理；當(dāng)接收到的是比對失敗信息，則向語音識別模塊15發(fā)送指令以暫停語音識別。更進一步的，語音識別狀態(tài)管理模塊12激活語音識別，并控制多媒體功能16模塊減小多媒體輸出聲音的音量，以智能電視為例即控制電視輸出的聲音強度減小至適當(dāng)小于當(dāng)前目標(biāo)音源的語音信號強度。不失一般性的，可以將智能電視輸出的聲音臨時置為靜音狀態(tài)，從而避免電視背景成為噪音干擾語音識別。而若完成語音識別或比對失敗而暫停語音識別，則不啟動語音識別模塊15，智能電視輸出的聲音調(diào)至正常音量，用戶的語音信號將被忽略，從而達(dá)到避免用戶無意識語音命令干擾的目的。本發(fā)明又提出，語音識別模塊15根據(jù)來自語音識別狀態(tài)管理模塊12的啟動指令和控制指令類型，對來自拾音模塊14的語音數(shù)據(jù)進行識別，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊16。本實施例提出，語音識別模塊15預(yù)設(shè)內(nèi)置語音指令詞典，該語音指令詞典中保存經(jīng)過處理的控制指令語音信號單詞模型，包括但不限于“上一頻道”、“下一頻道”、“增大音量”、“減小音量”、“中央一臺”、“湖南衛(wèi)視”等。語音識別模塊15將語音數(shù)據(jù)與語音指令詞典中的單詞模型對比，若語音數(shù)據(jù)與至少一單詞模型相似度大于預(yù)設(shè)閾值，則將語音數(shù)據(jù)解釋為與單詞模型對應(yīng)的控制指令，發(fā)送給多媒體功能模塊16。為實現(xiàn)復(fù)雜的語義識別控制指令，本發(fā)明更進一步提出，語音識別模塊15包括本地語音識別模塊151和云端語音識別模塊152 ;前者負(fù)責(zé)簡單控制指令的識別和處理，包括但不限于換臺、調(diào)整音量、開關(guān)機等；后者負(fù)責(zé)包含語義識別內(nèi)容的復(fù)雜控制指令的識別和處理，采用語音識別云服務(wù)的方式實現(xiàn)。參照圖3示出的多媒體設(shè)備語音控制系統(tǒng)詳細(xì)工作流程圖，本地語音識別模塊 151識別語音數(shù)據(jù)，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊16 ；云端語音識別模塊152可采用具有語義識別能力的語音識別服務(wù)商如科大訊飛提供的在線服務(wù)。如果用戶的語音數(shù)據(jù)在本地語音識別模塊152中無法識別，即語音數(shù)據(jù)與語音指令詞典中的所有單詞模型相似度都不大于預(yù)設(shè)閾值，則將語音數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給云端語音識別模塊152進行語義識別處理，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊16。本發(fā)明還提出一種多媒體設(shè)備語音控制方法，參照圖5示出的多媒體設(shè)備語音控制系統(tǒng)基本工作流程圖，包括步驟SI、圖像感應(yīng)模塊10采集用戶動作圖像；步驟S2、圖像識別模塊11根據(jù)用戶動作圖像確定控制指令類型或狀態(tài)；步驟S3、語音識別狀態(tài)管理模塊12根據(jù)當(dāng)前的控制指令類型激活或暫停語音識別；步驟S4、音束形成模塊13確定拾音方向和拾音接收角；步驟S5、陣列拾音模塊14根據(jù)拾音方向和拾音接收角的限定采集用戶發(fā)出的語音信號，進行數(shù)字化處理形成語音數(shù)據(jù)；步驟S6、語音識別模塊15對采集到的語音數(shù)據(jù)進行識別，形成控制指令；步驟S7、多媒體功能模塊16執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。參照圖3示出的多媒體設(shè)備語音控制系統(tǒng)詳細(xì)工作流程圖，本發(fā)明提出一實施例，包括步驟SI、圖像感應(yīng)模塊10采集用戶動作圖像；步驟S21、圖像識別模塊11將用戶動作圖像與預(yù)設(shè)的圖像模版比對，選取與用戶動作圖像匹配的控制指令類型；若比對結(jié)果為找到與用戶動作圖像匹配的控制指令類型，則進行步驟S22 ;若未找到與用戶動作圖像匹配的控制指令類型，則進行步驟S23 ；步驟S22、圖像識別模塊11認(rèn)為用戶所在位置為目標(biāo)音源位置，向語音識別狀態(tài)管理模塊12發(fā)送目標(biāo)音源所在位置信息、啟動語音識別信息和/或控制指令類型；步驟S23、圖像識別模塊11向語音識別狀態(tài)管理模塊12發(fā)出比對失敗信息；步驟S31、語音識別狀態(tài)管理模塊12分析接收到的信息，如果是啟動語音識別信息則進行步驟S32 ;如果是比對失敗信息則進行步驟S35 ；步驟S32、語音識別狀態(tài)管理模塊12向語音識別模塊15發(fā)送啟動指令及控制指令類型以激活語音識別；步驟S33、語音識別狀態(tài)管理模塊12向音束形成模塊13發(fā)送目標(biāo)音源所在位置信息；步驟S34、語音識別狀態(tài)管理模塊12控制多媒體功能模塊16減小多媒體輸出聲音的音量；步驟S35、語音識別狀態(tài)管理模塊12向語音識別模塊15發(fā)送指令暫停語音識別；步驟S4、音束形成模塊13根據(jù)目標(biāo)音源所在位置信息確定拾音方向和拾音接收角；步驟S51、陣列拾音模塊14根據(jù)拾音方向和拾音接收角的限定采集目標(biāo)音源發(fā)出的語音信號；步驟S52、陣列拾音模塊14對采集到的語音信號進行數(shù)字化處理形成語音數(shù)據(jù)，發(fā)送給語音識別模塊15 ；步驟S61、語音識別模塊15根據(jù)來自語音識別狀態(tài)管理模塊12的啟動指令和控制指令類型，對來自陣列拾音模塊14的語音數(shù)據(jù)進行識別，形成屬于控制指令類型的控制指令，發(fā)送給多媒體功能模塊16 ；步驟S7、多媒體功能模塊16執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。·本實施例的多個模塊及其間的工作關(guān)系均與上述實施例相似，故不贅述。以下舉一具體應(yīng)用示例智能電視I的圖像感應(yīng)模塊10采集到用戶甲在感應(yīng)范圍內(nèi)做出如圖2所示動作。圖像識別模塊11將用戶動作圖像與預(yù)設(shè)的圖像模版比對，發(fā)現(xiàn)與預(yù)設(shè)的“開始語音遙控”控制指令類型對應(yīng)的圖像模板相一致，則認(rèn)為用戶甲所在位置為目標(biāo)音源位置，向語音識別狀態(tài)管理模塊12發(fā)送目標(biāo)音源所在位置信息、啟動語音識別信息和/或控制指令類型；語音識別狀態(tài)管理模塊12根據(jù)收到的啟動語音識別信息向語音識別模塊15發(fā)送啟動指令及控制指令類型以激活語音識別，向音束形成模塊13發(fā)送目標(biāo)音源所在位置信息，保證即使有多個電視觀眾且都處于圖像感應(yīng)識別范圍內(nèi)，只有用戶甲才是目標(biāo)用戶，只對他發(fā)出的語音信號進行識別。音束形成模塊13根據(jù)目標(biāo)音源所在位置信息確定拾音方向和拾音接收角；陣列拾音模塊14根據(jù)拾音方向和拾音接收角的限定采集用戶甲發(fā)出的語音信號“湖南衛(wèi)視”，對其進行數(shù)字化處理形成語音數(shù)據(jù)，發(fā)送給語音識別模塊15。語音識別模塊15對該語音數(shù)據(jù)進行識別，發(fā)現(xiàn)語音數(shù)據(jù)與一單詞模型的相似度大于預(yù)設(shè)閾值，形成“頻道調(diào)整至湖南衛(wèi)視頻道”控制指令，發(fā)送給多媒體功能模塊16。多媒體功能模塊16執(zhí)行控制指令，將頻道調(diào)整至湖南衛(wèi)視頻道?；谏鲜鰧嵤├?，本發(fā)明還提出一種多媒體設(shè)備語音控制方法。參照圖6示出的語音識別模塊15詳細(xì)流程示意圖，語音識別模塊15包括本地語音識別模塊151和云端語音識別模塊152，語音識別模塊15預(yù)設(shè)語音指令詞典，還包括步驟S611、本地語音識別模塊151識別語音數(shù)據(jù)，將語音數(shù)據(jù)與語音指令詞典中的單詞模型對比，若語音數(shù)據(jù)與至少一單詞模型相似度大于預(yù)設(shè)閾值，則進行步驟S612，否則進行步驟S613 ；
步驟S612、本地語音識別模塊151將語音數(shù)據(jù)解釋為與單詞模型對應(yīng)的控制指令，發(fā)送給多媒體功能模塊16 ；步驟S613、將語音數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給云端語音識別模塊152 ；步驟S614、云端語音識別模塊152對語音數(shù)據(jù)進行語義識別處理，形成控制指令，通過網(wǎng)絡(luò)發(fā)送給多媒體功能模塊16。以下舉一具體應(yīng)用示例，本示例的步驟SI到S51均與上一具體應(yīng)用示例相同，故不贅述。陣列拾音模塊14根據(jù)拾音方向和拾音接收角的限定采集用戶甲發(fā)出的語音信號“給我來一首劉德華的歌”，對其進行數(shù)字化處理形成語音數(shù)據(jù)，發(fā)送給語音識別模塊15。語音識別模塊15的本地語音識別模塊151識別語音數(shù)據(jù)，將語音數(shù)據(jù)與語音指令詞典中的單詞模型對比，結(jié)果沒有找到與語音數(shù)據(jù)相似度大于預(yù)設(shè)閾值的單詞模型，則將語音數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給云端語音識別模塊152。云端語音識別模塊152對語音數(shù)據(jù)進行語義識別處理，根據(jù)用戶語音數(shù)據(jù)形成“播放劉德華的歌曲”控制指令，通過網(wǎng)絡(luò)發(fā)送給多媒體功能模塊16。多媒體功能模塊16執(zhí)行該控制指令，通過搜索引擎自動搜索一首劉德華的歌曲，將音頻數(shù)據(jù)下載并發(fā)送給智能電視I內(nèi)置的音樂播放模塊，播放音頻數(shù)據(jù)。本發(fā)明結(jié)合圖像識別和語音識別技術(shù)，實現(xiàn)不依賴手持遙控器，不使用近距離拾音器件實現(xiàn)自由便捷的語音控制，有效避免了多媒體設(shè)備輸出的聲音、環(huán)境背景聲音以及用戶的非控制指令語音信號對控制指令語音識別的干擾，實現(xiàn)準(zhǔn)確識別用戶發(fā)出的控制指令，還可實現(xiàn)多用戶分別或共同控制多媒體設(shè)備。以上僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等，均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種多媒體設(shè)備語音控制系統(tǒng)，其特征在于，包括圖像感應(yīng)模塊，采集用戶動作圖像；圖像識別模塊，根據(jù)用戶動作圖像確定控制指令類型或狀態(tài)；語音識別狀態(tài)管理模塊，根據(jù)當(dāng)前的控制指令類型激活或暫停語音識別；拾音模塊，采集語音數(shù)據(jù)；語音識別模塊，對采集到的語音數(shù)據(jù)進行識別，形成控制指令；多媒體功能模塊，執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。
2.如權(quán)利要求I所述的一種多媒體設(shè)備語音控制系統(tǒng)，其特征在于所述圖像識別模塊將用戶動作圖像與預(yù)設(shè)的圖像模版比對，選取與用戶動作圖像匹配的控制指令類型；若比對結(jié)果為找到與用戶動作圖像匹配的控制指令類型，則認(rèn)為所述用戶所在位置為目標(biāo)音源位置，向語音識別狀態(tài)管理模塊發(fā)送目標(biāo)音源所在位置信息、啟動語音識別信息和/或控制指令類型；或若未找到與用戶動作圖像匹配的控制指令類型，則向語音識別狀態(tài)管理模塊發(fā)出比對失敗息。
3.如權(quán)利要求2所述的一種多媒體設(shè)備語音控制系統(tǒng)，其特征在于還包括音束形成模塊，根據(jù)目標(biāo)音源所在位置信息確定拾音方向和拾音接收角。
4.如權(quán)利要求3所述的一種多媒體設(shè)備語音控制系統(tǒng)，其特征在于所述拾音模塊為陣列拾音模塊，包括規(guī)則排列的至少一拾音傳感器，根據(jù)拾音方向和拾音接收角的限定采集目標(biāo)音源發(fā)出的語音信號，進行數(shù)字化處理形成語音數(shù)據(jù)后發(fā)送給語音識別模塊。
5.如權(quán)利要求4所述的一種多媒體設(shè)備語音控制系統(tǒng)，其特征在于所述語音識別狀態(tài)管理模塊根據(jù)接收到的啟動語音識別信息，向語音識別模塊發(fā)送啟動指令及控制指令類型以激活語音識別，向音束形成模塊發(fā)送目標(biāo)音源所在位置信息，并控制多媒體功能模塊減小多媒體輸出聲音的音量；或根據(jù)接收到的比對失敗信息，向語音識別模塊發(fā)送指令暫停語音識別。
6.如權(quán)利要求5所述的一種多媒體設(shè)備語音控制系統(tǒng)，其特征在于語音識別模塊根據(jù)來自語音識別狀態(tài)管理模塊的啟動指令和控制指令類型，對來自拾音模塊的語音數(shù)據(jù)進行識別，形成屬于所述控制指令類型的控制指令，發(fā)送給多媒體功能模塊。
7.如權(quán)利要求I至5任意一項所述的一種多媒體設(shè)備語音控制系統(tǒng)，其特征在于所述語音識別模塊包括本地語音識別模塊和云端語音識別模塊；本地語音識別模塊識別語音數(shù)據(jù)，形成屬于所述控制指令類型的控制指令，發(fā)送給多媒體功能模塊；云端語音識別模塊對本地語音識別模塊無法識別的語音數(shù)據(jù)進行語義識別處理，形成屬于所述控制指令類型的控制指令，發(fā)送給多媒體功能模塊。
8.一種多媒體設(shè)備語音控制方法，包括圖像感應(yīng)模塊采集用戶動作圖像的步驟；圖像識別模塊根據(jù)用戶動作圖像確定控制指令類型或狀態(tài)的步驟；語音識別狀態(tài)管理模塊根據(jù)當(dāng)前的控制指令類型激活或暫停語音識別的步驟；音束形成模塊確定拾音方向和拾音接收角的步驟；陣列拾音模塊根據(jù)拾音方向和拾音接收角的限定采集用戶發(fā)出的語音信號，進行數(shù)字化處理形成語音數(shù)據(jù)的步驟；語音識別模塊對采集到的語音數(shù)據(jù)進行識別，形成控制指令的步驟；多媒體功能模塊執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能的步驟。
9.如權(quán)利要求8所述的一種多媒體設(shè)備語音控制方法，其特征在于圖像感應(yīng)模塊采集用戶動作圖像；所述圖像識別模塊將用戶動作圖像與預(yù)設(shè)的圖像模版比對，選取與用戶動作圖像匹配的控制指令類型；若比對結(jié)果為找到與用戶動作圖像匹配的控制指令類型，則認(rèn)為所述用戶所在位置為目標(biāo)音源位置，向語音識別狀態(tài)管理模塊發(fā)送目標(biāo)音源所在位置信息、啟動語音識別信息和/或控制指令類型；若未找到與用戶動作圖像匹配的控制指令類型，則向語音識別狀態(tài)管理模塊發(fā)出比對失敗信息；所述語音識別狀態(tài)管理模塊根據(jù)接收到的啟動語音識別信息，向語音識別模塊發(fā)送啟動指令及控制指令類型以激活語音識別，向音束形成模塊發(fā)送目標(biāo)音源所在位置信息，并控制多媒體功能模塊減小多媒體輸出聲音的音量；或根據(jù)接收到的比對失敗信息，向語音識別模塊發(fā)送指令暫停語音識別；音束形成模塊根據(jù)目標(biāo)音源所在位置信息確定拾音方向和拾音接收角；陣列拾音模塊根據(jù)拾音方向和拾音接收角的限定采集目標(biāo)音源發(fā)出的語音信號，進行數(shù)字化處理形成語音數(shù)據(jù)后發(fā)送給語音識別模塊；語音識別模塊根據(jù)來自語音識別狀態(tài)管理模塊的啟動指令和控制指令類型，對來自陣列拾音模塊的語音數(shù)據(jù)進行識別，形成屬于所述控制指令類型的控制指令，發(fā)送給多媒體功能模塊；多媒體功能模塊執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。
10.如權(quán)利要求8或9所述的一種多媒體設(shè)備語音控制方法，其中語音識別模塊包括本地語音識別模塊和云端語音識別模塊，語音識別模塊預(yù)設(shè)語音指令詞典，其特征在于，包括本地語音識別模塊識別語音數(shù)據(jù)，將語音數(shù)據(jù)與所述語音指令詞典中的單詞模型對t匕，若語音數(shù)據(jù)與至少一單詞模型相似度大于預(yù)設(shè)閾值，則將所述語音數(shù)據(jù)解釋為與所述單詞模型對應(yīng)的控制指令，發(fā)送給多媒體功能模塊；若語音數(shù)據(jù)與至少一單詞模型相似度不大于預(yù)設(shè)閾值，則將語音數(shù)據(jù)通過網(wǎng)絡(luò)發(fā)送給所述云端語音識別模塊；所述云端語音識別模塊對語音數(shù)據(jù)進行語義識別處理，形成控制指令，通過網(wǎng)絡(luò)發(fā)送給多媒體功能模塊。
全文摘要
本發(fā)明提出一種多媒體設(shè)備語音控制系統(tǒng)，包括圖像感應(yīng)模塊，采集用戶動作圖像；圖像識別模塊，根據(jù)用戶動作圖像確定控制指令類型或狀態(tài)；語音識別狀態(tài)管理模塊，根據(jù)當(dāng)前的控制指令類型激活或暫停語音識別；拾音模塊，采集語音數(shù)據(jù)；語音識別模塊，對采集到的語音數(shù)據(jù)進行識別，形成控制指令；多媒體功能模塊，執(zhí)行控制指令，向用戶提供相應(yīng)的多媒體功能。本發(fā)明還提出一種多媒體設(shè)備語音控制方法。本發(fā)明結(jié)合圖像識別和語音識別技術(shù)，實現(xiàn)不依賴手持遙控器，不使用近距離拾音模塊實現(xiàn)自由便捷的語音控制，有效避免了多媒體設(shè)備輸出的聲音、環(huán)境背景聲音以及用戶的非控制指令語音信號對控制指令語音識別的干擾，實現(xiàn)準(zhǔn)確識別用戶發(fā)出的控制指令。
文檔編號G10L15/26GK102945672SQ201210374809
公開日2013年2月27日申請日期2012年9月29日優(yōu)先權(quán)日2012年9月29日
發(fā)明者王洪智, 劉樂元, 桑農(nóng), 劉國華申請人:深圳市國華識別科技開發(fā)有限公司

完整全部詳細(xì)技術(shù)資料下載