欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

在基于語(yǔ)音的系統(tǒng)中的應(yīng)用焦點(diǎn)的制作方法

文檔序號(hào):11451736閱讀:374來(lái)源:國(guó)知局
在基于語(yǔ)音的系統(tǒng)中的應(yīng)用焦點(diǎn)的制造方法與工藝

本申請(qǐng)要求于2014年12月19日提交的、標(biāo)題為“applicationfocusinspeech-basedsystems”的美國(guó)專利申請(qǐng)?zhí)?4/578,056的優(yōu)先權(quán),該專利申請(qǐng)通過(guò)引用被全部并入本文。

背景

家、辦公室、汽車和公共空間正變得更有線并與激增的計(jì)算設(shè)備例如上網(wǎng)本計(jì)算機(jī)、平板計(jì)算機(jī)、娛樂(lè)系統(tǒng)和便攜式通信設(shè)備連接。當(dāng)計(jì)算設(shè)備發(fā)展時(shí),用戶與這些設(shè)備交互的方式繼續(xù)發(fā)展。例如,人可通過(guò)機(jī)械設(shè)備(例如鍵盤(pán)、鼠標(biāo)等)、電氣設(shè)備(例如觸摸屏、觸控板等)和光學(xué)設(shè)備(例如運(yùn)動(dòng)檢測(cè)器、攝像機(jī)等)與計(jì)算設(shè)備交互。與計(jì)算設(shè)備交互的另一方式是通過(guò)音頻設(shè)備,其理解人類語(yǔ)音并對(duì)人類語(yǔ)音做出響應(yīng)。

附圖簡(jiǎn)述

參考附圖描述詳細(xì)描述。在附圖中,參考數(shù)字的最左邊的數(shù)字標(biāo)識(shí)參考數(shù)字首次出現(xiàn)的附圖。相同的參考數(shù)字在不同附圖中的使用指示相似或相同的部件或特征。

圖1是包括本地音頻設(shè)備和遠(yuǎn)程基于語(yǔ)音的服務(wù)的話音交互計(jì)算體系結(jié)構(gòu)的方框圖。

圖2是示出在本地音頻設(shè)備和遠(yuǎn)程基于語(yǔ)音的服務(wù)之間的信息流的例子的方框圖。

圖3是示出與將含義路由到不同應(yīng)用有關(guān)的信息流的例子的方框圖。

圖4是示出選擇和/或指定主要活動(dòng)和次要活動(dòng)應(yīng)用的示例方法的流程圖。

圖5是示出實(shí)現(xiàn)對(duì)主要活動(dòng)應(yīng)用的超時(shí)的示例方法的流程圖。

圖6是示出處理來(lái)自本地音頻設(shè)備的音頻以確定由用戶表示的含義并對(duì)含義做出響應(yīng)的示例方法的流程圖。

圖7是示出路由從用戶話語(yǔ)得到的含義的示例方法的流程圖。

圖8是示出本地音頻設(shè)備的選定功能部件的方框圖。

圖9是示出可部分地用于實(shí)現(xiàn)本文所述的基于語(yǔ)音的服務(wù)的服務(wù)器設(shè)備的部件的方框圖。

詳細(xì)描述

本公開(kāi)描述用于與用戶交互以提供服務(wù)的設(shè)備、系統(tǒng)和技術(shù)。如本文公開(kāi)的系統(tǒng)可配置成接收用戶語(yǔ)音并基于從在不同用戶的家中的音頻設(shè)備接收的音頻來(lái)對(duì)用戶語(yǔ)音做出響應(yīng)。

系統(tǒng)可包括基于語(yǔ)音的服務(wù),其由基于網(wǎng)絡(luò)的應(yīng)用訪問(wèn)以結(jié)合家中音頻設(shè)備來(lái)提供服務(wù)。應(yīng)用可作為基于語(yǔ)音的服務(wù)的部分或由第三方提供者實(shí)現(xiàn)。基于語(yǔ)音的服務(wù)允許應(yīng)用從家中音頻設(shè)備接收信息并使用家中音頻設(shè)備來(lái)執(zhí)行操作。

應(yīng)用可將指令音頻設(shè)備執(zhí)行音頻活動(dòng)的命令發(fā)送到音頻設(shè)備。例如,應(yīng)用可指令音頻設(shè)備播放音樂(lè)。作為音頻活動(dòng)的另一例子,應(yīng)用可指令音頻設(shè)備使用基于語(yǔ)音的服務(wù)或音頻設(shè)備的文字到語(yǔ)音能力來(lái)播放語(yǔ)音。

應(yīng)用也可通過(guò)音頻設(shè)備進(jìn)行與用戶的語(yǔ)音對(duì)話。語(yǔ)音對(duì)話包括與用戶的特定行動(dòng)或意圖有關(guān)的一序列語(yǔ)音問(wèn)題、答案和/或陳述。更具體地,語(yǔ)音對(duì)話可包括一系列語(yǔ)音表達(dá),其可包括用戶的話語(yǔ)和由基于語(yǔ)音的服務(wù)產(chǎn)生的語(yǔ)音消息。語(yǔ)音對(duì)話例如可在初始的用戶話語(yǔ)時(shí)開(kāi)始。基于語(yǔ)音的服務(wù)可通過(guò)問(wèn)問(wèn)題例如“你想做什么”來(lái)做出響應(yīng)。用戶可通過(guò)在回答問(wèn)題時(shí)做出陳述來(lái)做出響應(yīng)。這個(gè)過(guò)程可迭代,直到基于語(yǔ)音的服務(wù)能夠確定要采取的特定行動(dòng)或要調(diào)用的功能為止。

應(yīng)用還可配置音頻設(shè)備以響應(yīng)于由音頻設(shè)備本身檢測(cè)或監(jiān)測(cè)的條件來(lái)發(fā)出可聽(tīng)得見(jiàn)的通知。例如,音頻設(shè)備可配置成在一天的指定時(shí)間或在指定的時(shí)間段之后發(fā)出警報(bào)。作為另一例子,音頻設(shè)備可配置成響應(yīng)于結(jié)合家自動(dòng)化或家安全系統(tǒng)檢測(cè)的事件而發(fā)出通知。通知可以是在背景中播放且不要求即時(shí)的用戶注意或交互的被動(dòng)通知。通知可以可選地包括比前景通知更大聲或更顯著并要求用戶的更即時(shí)的行動(dòng)或確認(rèn)的主動(dòng)或前景通知。

音頻設(shè)備的用戶可通過(guò)講話來(lái)向應(yīng)用提供指令。音頻設(shè)備捕獲包括用戶語(yǔ)音的聲音并向基于語(yǔ)音的服務(wù)提供對(duì)應(yīng)的音頻信號(hào)?;谡Z(yǔ)音的服務(wù)在音頻上執(zhí)行自動(dòng)語(yǔ)音識(shí)別(asr)和自然語(yǔ)言理解(nlu)以確定用戶語(yǔ)音的含義。含義作為例子可包括“播放音樂(lè)”、“暫?!?、“停止”、“設(shè)置警報(bào)”、“呼叫bob”、“播放天氣簡(jiǎn)語(yǔ)”、“播放當(dāng)前新聞?wù)?、“訂?gòu)披薩”、“創(chuàng)作電子郵件”、“音量調(diào)大”、“音量調(diào)小”、“消音”、“設(shè)置警報(bào)”、“取消”等。

響應(yīng)于確定用戶語(yǔ)音的含義,基于語(yǔ)音的服務(wù)確定多個(gè)可用或活動(dòng)應(yīng)用中的哪個(gè)應(yīng)被選擇來(lái)對(duì)含義做出響應(yīng)。單獨(dú)的應(yīng)用可向基于語(yǔ)音的服務(wù)注冊(cè)以指示它們能夠操縱的含義??勺?cè)用于操縱單獨(dú)的含義的多個(gè)應(yīng)用。作為例子,可注冊(cè)幾個(gè)應(yīng)用以通過(guò)執(zhí)行關(guān)于由應(yīng)用正執(zhí)行的活動(dòng)的“停止”行動(dòng)來(lái)對(duì)“停止”含義做出響應(yīng)。注意,從“停止”含義產(chǎn)生的行動(dòng)取決于最終被請(qǐng)求操縱含義或?qū)x做出響應(yīng)的應(yīng)用。例如,一個(gè)應(yīng)用可停止播放音樂(lè)而另一音樂(lè)可停止或取消警報(bào)。更一般地,從任何特定的含義產(chǎn)生的行動(dòng)可以不同,取決于接收含義并對(duì)含義做出響應(yīng)的應(yīng)用。在一些情況下,應(yīng)用可通過(guò)發(fā)起隨后的對(duì)話打開(kāi)例如通過(guò)產(chǎn)生對(duì)用戶語(yǔ)音的含義的語(yǔ)音響應(yīng)而對(duì)特定的含義做出響應(yīng)。語(yǔ)音響應(yīng)可請(qǐng)求澄清允許基于語(yǔ)音的服務(wù)完全確定用戶的意圖的信息。在其它情況下,應(yīng)用可通過(guò)執(zhí)行至少部分地通過(guò)含義指示的行動(dòng)來(lái)做出響應(yīng),例如“由藝術(shù)家a演奏音樂(lè)”。

當(dāng)單獨(dú)的應(yīng)用指令音頻設(shè)備發(fā)起活動(dòng)時(shí),應(yīng)用提供與應(yīng)用相關(guān)聯(lián)的應(yīng)用標(biāo)識(shí)符。當(dāng)音頻設(shè)備執(zhí)行活動(dòng)時(shí),音頻設(shè)備將關(guān)于活動(dòng)的事件消息發(fā)送到基于語(yǔ)音的服務(wù)。例如,事件消息可指示所請(qǐng)求的音樂(lè)已開(kāi)始播放,音樂(lè)家列表的特定音軌已開(kāi)始播放,語(yǔ)音已開(kāi)始或結(jié)束,通知被給出,等等。每個(gè)事件消息指示應(yīng)用的應(yīng)用標(biāo)識(shí)符,其負(fù)責(zé)事件所相關(guān)的活動(dòng)。事件消息被傳遞到對(duì)應(yīng)于應(yīng)用標(biāo)識(shí)符的應(yīng)用。

當(dāng)用戶講話時(shí),基于語(yǔ)音的系統(tǒng)執(zhí)行asr和nlu以識(shí)別用戶的語(yǔ)音并確定語(yǔ)音的含義。然而,它可以是語(yǔ)音本身和語(yǔ)音的所確定的含義都不指示語(yǔ)音指向多個(gè)可用應(yīng)用中的哪個(gè)。相應(yīng)地,為了對(duì)用戶語(yǔ)音的所確定的含義做出響應(yīng)的目的,基于語(yǔ)音的系統(tǒng)具有監(jiān)測(cè)音頻設(shè)備的活動(dòng)以留意哪些應(yīng)用應(yīng)被考慮為當(dāng)前活動(dòng)的路由部件。

路由部件通過(guò)監(jiān)測(cè)從音頻設(shè)備接收的事件消息以確定哪個(gè)應(yīng)用或哪些應(yīng)用應(yīng)當(dāng)前被考慮為活動(dòng)的來(lái)工作。更具體地,路由部件跟蹤哪些應(yīng)用負(fù)責(zé)由音頻設(shè)備報(bào)告的最近音頻事件。響應(yīng)于標(biāo)識(shí)有責(zé)任的應(yīng)用的事件消息,路由部件將有責(zé)任的應(yīng)用指定為主要活動(dòng)的或次要活動(dòng)的。主要活動(dòng)應(yīng)用被認(rèn)為具有主要語(yǔ)音焦點(diǎn)。次要活動(dòng)應(yīng)用被認(rèn)為具有次要語(yǔ)音焦點(diǎn)。所識(shí)別的用戶語(yǔ)音的所確定的含義首先被提供到當(dāng)前具有主要語(yǔ)音焦點(diǎn)的應(yīng)用。如果沒(méi)有應(yīng)用具有主要語(yǔ)音焦點(diǎn)或如果具有主要語(yǔ)音焦點(diǎn)的應(yīng)用不能夠操縱含義,則含義被提供到具有次要語(yǔ)音焦點(diǎn)的應(yīng)用。

為了留意哪些應(yīng)用當(dāng)前具有主要和次要語(yǔ)音焦點(diǎn),路由部件監(jiān)測(cè)來(lái)自音頻設(shè)備的關(guān)于音頻設(shè)備播放的音頻的事件消息。單獨(dú)的事件消息標(biāo)識(shí)負(fù)責(zé)音頻的應(yīng)用,且也指示音頻的類別。作為例子,分類可指示音頻是否是用戶交互的部分。如果分類指示音頻是用戶交互的部分,則路由部件將有責(zé)任的應(yīng)用指定為具有主要語(yǔ)音焦點(diǎn)。如果分類指示音頻不是用戶交互的部分,則路由部件將有責(zé)任的應(yīng)用指定為具有次要語(yǔ)音焦點(diǎn)。在所述實(shí)施方案中,只有一個(gè)應(yīng)用(例如最近被指定為主要活動(dòng)的應(yīng)用)具有主要語(yǔ)音焦點(diǎn),且只有一個(gè)應(yīng)用(例如最近被指定為次要活動(dòng)的應(yīng)用)具有次要語(yǔ)音焦點(diǎn)。

更一般地,基于涉及或打算發(fā)起雙向用戶交互的活動(dòng)例如語(yǔ)音對(duì)話和活動(dòng)用戶通知的出現(xiàn)來(lái)準(zhǔn)許主要語(yǔ)音焦點(diǎn)?;诓簧婕半p向用戶交互的活動(dòng)例如被動(dòng)通知和音樂(lè)重放的出現(xiàn)來(lái)準(zhǔn)許次要語(yǔ)音焦點(diǎn)。

圖1示出環(huán)境100,這些技術(shù)可在該環(huán)境中被實(shí)踐。環(huán)境100可包括房間或其它用戶建筑物102。用戶建筑物可包括房屋、辦公室、汽車和其它空間或區(qū)域。

在用戶建筑物102內(nèi)的是用戶104和一個(gè)或多個(gè)音頻設(shè)備106。音頻設(shè)備106在一些實(shí)施方案中可包括具有一個(gè)或多個(gè)麥克風(fēng)、揚(yáng)聲器和網(wǎng)絡(luò)接口或其它通信接口的基于網(wǎng)絡(luò)的或網(wǎng)絡(luò)可訪問(wèn)的設(shè)備。在某些實(shí)施方案中,音頻設(shè)備106也可具有為了用戶交互而設(shè)計(jì)的其它元件,包括按鈕、旋鈕、燈、指示器和各種類型的傳感器、輸入元件和輸出元件。

音頻設(shè)備106從用戶104接收口頭命令并響應(yīng)于該命令而提供服務(wù)。所提供的服務(wù)可包括執(zhí)行行動(dòng)或活動(dòng)、再現(xiàn)媒體、得到和/或提供信息、監(jiān)測(cè)本地條件并基于本地條件來(lái)提供通知、通過(guò)音頻設(shè)備106經(jīng)由所產(chǎn)生的或合成的語(yǔ)音來(lái)提供信息、代表用戶104發(fā)起基于互聯(lián)網(wǎng)的服務(wù),等等。

在圖1所示的實(shí)施方案中,音頻設(shè)備106與網(wǎng)絡(luò)可訪問(wèn)的基于語(yǔ)音的服務(wù)108通信?;谡Z(yǔ)音的服務(wù)108可被實(shí)現(xiàn)為相對(duì)于音頻設(shè)備106遠(yuǎn)程地定位的基于網(wǎng)絡(luò)或基于云的服務(wù)。例如,基于語(yǔ)音的服務(wù)108可由企業(yè)組織和/或服務(wù)提供者實(shí)現(xiàn)以支持位于不同的用戶建筑物102中的多個(gè)音頻設(shè)備106,用戶建筑物又可位于廣泛變化的地理位置上。

基于語(yǔ)音的服務(wù)108在一些實(shí)例中可以是經(jīng)由廣域網(wǎng)例如互聯(lián)網(wǎng)來(lái)維護(hù)和可訪問(wèn)的網(wǎng)絡(luò)可訪問(wèn)計(jì)算平臺(tái)的部分。網(wǎng)絡(luò)可訪問(wèn)計(jì)算平臺(tái)例如這可以使用術(shù)語(yǔ)例如“立即響應(yīng)式計(jì)算”、“軟件即服務(wù)(saas)”、“平臺(tái)計(jì)算”、“網(wǎng)絡(luò)可訪問(wèn)平臺(tái)”、“云服務(wù)”、“數(shù)據(jù)中心”等被提到。

在音頻設(shè)備106和基于語(yǔ)音的服務(wù)108之間的通信可通過(guò)各種類型的數(shù)據(jù)通信網(wǎng)絡(luò)(包括局域網(wǎng)、廣域網(wǎng)和/或公共互聯(lián)網(wǎng))來(lái)實(shí)現(xiàn)。蜂窩和/或其它無(wú)線數(shù)據(jù)通信技術(shù)也可用于與基于語(yǔ)音的服務(wù)108通信。用戶建筑物102可包括本地網(wǎng)絡(luò)支持設(shè)備以便于與基于語(yǔ)音的服務(wù)108通信,例如無(wú)線接入點(diǎn)、網(wǎng)絡(luò)路由器、通信集線器等。

基于語(yǔ)音的服務(wù)108可與各種服務(wù)和/或應(yīng)用交互,支持多個(gè)音頻設(shè)備106。作為例子,這樣的服務(wù)可包括語(yǔ)音處理服務(wù)110。語(yǔ)音處理服務(wù)110可配置成從音頻設(shè)備106接收實(shí)時(shí)音頻或語(yǔ)音信息,以便識(shí)別用戶語(yǔ)音,確定由語(yǔ)音處理的用戶含義,并在用戶含義的履行中執(zhí)行行動(dòng)或提供服務(wù)。例如,用戶可以講預(yù)定義的命令(例如“醒來(lái)”;“睡眠”)或可在與音頻設(shè)備106交互時(shí)使用更隨便的說(shuō)話風(fēng)格(例如,“我想去看電影。請(qǐng)告訴我在本地電影院正播放什么”)。用戶命令本質(zhì)上可以是任何類型的操作,例如數(shù)據(jù)庫(kù)查詢、請(qǐng)求和消費(fèi)娛樂(lè)(例如游戲、找到并播放音樂(lè)、電影或其它內(nèi)容等)、個(gè)人管理(例如記入日歷、做筆記等)、在線購(gòu)物、財(cái)務(wù)交易等。

語(yǔ)音和語(yǔ)音相關(guān)信息可以用很多不同的形式被提供到語(yǔ)音處理服務(wù)110。在一些實(shí)現(xiàn)中,語(yǔ)音相關(guān)信息可包括來(lái)自音頻設(shè)備106的連續(xù)音頻信號(hào)或流??蛇x地,語(yǔ)音相關(guān)信息可包括響應(yīng)于在用戶建筑物102內(nèi)的檢測(cè)到的聲音而被提供到語(yǔ)音處理服務(wù)110的音頻剪輯或段。在一些情況下,音頻設(shè)備106可執(zhí)行語(yǔ)音識(shí)別并向基于語(yǔ)音的服務(wù)108提供以文本的形式的用戶語(yǔ)音。在一些實(shí)現(xiàn)中,基于語(yǔ)音的服務(wù)108可通過(guò)產(chǎn)生或指定語(yǔ)音來(lái)與用戶104交互,語(yǔ)音又由音頻設(shè)備106再現(xiàn)。語(yǔ)音合成可由語(yǔ)音處理服務(wù)110或由音頻設(shè)備106執(zhí)行。

在所述實(shí)施方案中,語(yǔ)音處理服務(wù)110包括用于識(shí)別語(yǔ)音、理解所識(shí)別的語(yǔ)音的含義并用于產(chǎn)生語(yǔ)音的部件或功能。具體地,語(yǔ)音處理服務(wù)110包括自動(dòng)語(yǔ)音識(shí)別(asr)服務(wù)112、自然語(yǔ)言理解(nlu)服務(wù)114和文本到語(yǔ)音(tts)服務(wù)116。也可提供各種其它類型的語(yǔ)音處理功能。

asr服務(wù)112可使用各種技術(shù)來(lái)創(chuàng)建在音頻信號(hào)中表示的語(yǔ)音字的完全的轉(zhuǎn)錄物。例如,asr服務(wù)112可參考各種類型的模型,例如聲模型和語(yǔ)言模型,以識(shí)別在音頻信號(hào)中表示的語(yǔ)音的字。在很多情況下,通過(guò)培訓(xùn)例如通過(guò)對(duì)很多不同類型的語(yǔ)音采樣并手動(dòng)地分類來(lái)創(chuàng)建模型,例如這些模型。

聲模型可將語(yǔ)音表示為對(duì)應(yīng)于音頻波形隨著時(shí)間的過(guò)去的特征的一系列矢量。特征可對(duì)應(yīng)于頻率、音高、振幅和時(shí)間模式??苫谂嘤?xùn)數(shù)據(jù)的大集合來(lái)創(chuàng)建統(tǒng)計(jì)模型例如隱馬爾科夫模型(hmm)和高斯混合模型。所接收的語(yǔ)音的模型接著與培訓(xùn)數(shù)據(jù)的模型比較以找到匹配。

語(yǔ)言模型描述諸如語(yǔ)法規(guī)則、公共字使用和模式、字典含義等的東西,以建立字序列和組合的概率。使用語(yǔ)言模型的語(yǔ)音的分析可取決于上下文,例如出現(xiàn)在當(dāng)前正被分析的語(yǔ)音的任何部分之前或之后的字。

asr可提供識(shí)別候選項(xiàng),其可包括字、短語(yǔ)、句子或語(yǔ)音的其它段。候選項(xiàng)可伴隨有統(tǒng)計(jì)概率,每個(gè)統(tǒng)計(jì)概率指示在對(duì)應(yīng)的候選項(xiàng)的準(zhǔn)確度中的“置信度”。一般,具有最高置信度分?jǐn)?shù)的候選項(xiàng)被選擇為語(yǔ)音識(shí)別的輸出。

nlu服務(wù)114分析由asr服務(wù)112提供的字流,并產(chǎn)生字流的含義的表示。例如,nlu服務(wù)114可使用分析程序和語(yǔ)法規(guī)則來(lái)分析句子并用以容易由計(jì)算機(jī)處理的方式傳達(dá)概念的正式定義的語(yǔ)言產(chǎn)生句子的含義的表示。例如,含義可實(shí)質(zhì)上被表示為槽的分級(jí)集合或幀和槽值,其中每個(gè)槽對(duì)應(yīng)于在語(yǔ)義上定義的概念。因此,句子的含義可在語(yǔ)義上由槽的幀和槽值表示。nlu也可使用從培訓(xùn)數(shù)據(jù)產(chǎn)生的統(tǒng)計(jì)模型和模式來(lái)利用在一般語(yǔ)音中的字之間的統(tǒng)計(jì)相關(guān)性。

基于語(yǔ)音的服務(wù)108可配置成支持多個(gè)基于網(wǎng)絡(luò)的應(yīng)用118。應(yīng)用118通過(guò)基于語(yǔ)音的服務(wù)108與音頻設(shè)備106交互以至少部分地基于由音頻設(shè)備106捕獲或提供的用戶語(yǔ)音結(jié)合音頻設(shè)備106來(lái)提供功能。更特別地,應(yīng)用118配置成通過(guò)基于語(yǔ)音的服務(wù)108的命令服務(wù)120進(jìn)行通信,命令服務(wù)120充當(dāng)設(shè)備代理以從音頻設(shè)備106接收信息并向音頻設(shè)備106提供指令、信息和內(nèi)容。在一些情況下,命令服務(wù)120可使用第一組數(shù)據(jù)格式和/或協(xié)議來(lái)與音頻設(shè)備106通信,允許相對(duì)低級(jí)別或詳細(xì)數(shù)據(jù)的傳輸。命令服務(wù)120可使用第二組數(shù)據(jù)格式和/或協(xié)議來(lái)與應(yīng)用118通信,允許信息在相對(duì)較高的抽象級(jí)別處或使用不同類型的通信協(xié)議來(lái)傳輸。

應(yīng)用118可在一些情況下被實(shí)現(xiàn)為基于web的或基于網(wǎng)絡(luò)的應(yīng)用或服務(wù)。例如,特定的應(yīng)用118可由基于語(yǔ)音的服務(wù)108的提供者或由第三方提供者實(shí)現(xiàn)為服務(wù)器或服務(wù),并可通過(guò)網(wǎng)絡(luò)例如互聯(lián)網(wǎng)與命令服務(wù)120通信。在其它情況下,應(yīng)用118可存在或安裝在與用戶104相關(guān)聯(lián)的物理設(shè)備例如用戶104的計(jì)算機(jī)或移動(dòng)設(shè)備上,并可通過(guò)互聯(lián)網(wǎng)或其它廣域網(wǎng)與命令服務(wù)120通信。

基于語(yǔ)音的服務(wù)108和命令服務(wù)120可配置成根據(jù)web服務(wù)模型來(lái)與音頻設(shè)備106和/或應(yīng)用118交互,且基于語(yǔ)音的服務(wù)108的功能可被實(shí)現(xiàn)為一個(gè)或多個(gè)web服務(wù)。通常,web服務(wù)可包括任何類型的計(jì)算服務(wù),其經(jīng)由包括一個(gè)或多個(gè)基于互聯(lián)網(wǎng)的應(yīng)用層數(shù)據(jù)傳輸協(xié)議例如一種版本的超文本傳輸協(xié)議(http)或另一適當(dāng)?shù)膮f(xié)議的請(qǐng)求接口而對(duì)請(qǐng)求客戶端變得可用。

命令服務(wù)120可暴露一個(gè)或多個(gè)網(wǎng)絡(luò)可訪問(wèn)api或應(yīng)用接口122。api122可被實(shí)現(xiàn)為具有統(tǒng)一資源定位器(url)例如http://storageservice.domain.com的web服務(wù)端點(diǎn)。

應(yīng)用118可由各種賣方和/或提供者設(shè)計(jì)并提供以結(jié)合音頻設(shè)備106來(lái)工作和/或使用音頻設(shè)備106通過(guò)api122和相關(guān)聯(lián)服務(wù)來(lái)提供服務(wù)。應(yīng)用118可提供范圍從電子郵件到游戲的功能。應(yīng)用118可包括啟用語(yǔ)音的應(yīng)用,其響應(yīng)于用戶語(yǔ)音和從用戶語(yǔ)音得到的含義來(lái)執(zhí)行行動(dòng)。相應(yīng)地,應(yīng)用118可使它們的服務(wù)部分地基于語(yǔ)音和由音頻設(shè)備106和語(yǔ)音處理服務(wù)110提供的語(yǔ)音相關(guān)信息,包括所識(shí)別的語(yǔ)音、從語(yǔ)音得到的含義和已從用戶語(yǔ)音解釋的意圖或命令。此外,應(yīng)用118可提供在音頻設(shè)備106上被再現(xiàn)為語(yǔ)音的文本,并可經(jīng)由命令服務(wù)120和api122向或?yàn)橐纛l設(shè)備106提供其它指令和命令。

在一些實(shí)現(xiàn)中,所示應(yīng)用118可以是其它應(yīng)用的部件例如所謂的“小型應(yīng)用”。每個(gè)應(yīng)用或小型應(yīng)用可由應(yīng)用標(biāo)識(shí)符標(biāo)識(shí)。應(yīng)用標(biāo)識(shí)符可由基于語(yǔ)音的服務(wù)108分配或由應(yīng)用本身提供。

作為一個(gè)例子,應(yīng)用可包括向音頻設(shè)備106提供音樂(lè)或其它內(nèi)容以由音頻設(shè)備106顯現(xiàn)的音頻應(yīng)用。

每個(gè)應(yīng)用118可與命令服務(wù)120通信以指示或記錄它能夠操縱的語(yǔ)音含義。多于一個(gè)應(yīng)用118可能能夠操縱任何給定含義或?qū)θ魏谓o定含義做出響應(yīng)??蛇x地,命令服務(wù)120可查詢單獨(dú)的應(yīng)用以從應(yīng)用接收關(guān)于它們是否可或?qū)?duì)某些含義做出響應(yīng)的指示。

命令服務(wù)120包括向適當(dāng)?shù)膽?yīng)用118提供所識(shí)別或所標(biāo)識(shí)的語(yǔ)音含義的路由部件124。如將在下面更詳細(xì)描述的,路由部件124根據(jù)當(dāng)前正由音頻設(shè)備106執(zhí)行的活動(dòng)來(lái)分配主要語(yǔ)音焦點(diǎn)和次要語(yǔ)音焦點(diǎn)。當(dāng)含義被確定時(shí),具有主要焦點(diǎn)(如果有的話)的應(yīng)用首先被給予對(duì)含義做出響應(yīng)的機(jī)會(huì)。

圖2示出可出現(xiàn)在應(yīng)用118和音頻設(shè)備106之間的通信的例子。為了清楚的目的,沒(méi)有示出充當(dāng)通信媒介物的命令服務(wù)120。

應(yīng)用118可使命令202被發(fā)送到音頻設(shè)備106。命令202包括或指定對(duì)應(yīng)于并標(biāo)識(shí)應(yīng)用118的應(yīng)用標(biāo)識(shí)符,其在圖2中被稱為appid。命令202可指定將被音頻設(shè)備106進(jìn)行或執(zhí)行的活動(dòng)。例如,命令可指定由音頻設(shè)備106播放的音頻內(nèi)容,例如音樂(lè)。作為另一例子,命令202可指定將由音頻設(shè)備106轉(zhuǎn)換成語(yǔ)音并播放為音頻的文本。作為另一例子,命令202可配置將由音頻設(shè)備106實(shí)現(xiàn)的通知。

在一些情況下,命令202可指定所命令的活動(dòng)或由音頻設(shè)備106響應(yīng)于活動(dòng)而產(chǎn)生的音頻是否被考慮為交互式的。形成用戶交互的部分的音頻例如作為用戶對(duì)話的部分的語(yǔ)音可被考慮為交互式的。不是用戶交互的部分的音頻例如音樂(lè)可被考慮為非交互式的。某些類型的再現(xiàn)的語(yǔ)音當(dāng)不是用戶交互的部分時(shí)可被考慮為非交互式的。例如,應(yīng)用可產(chǎn)生語(yǔ)音以描述當(dāng)前天氣或交通條件,其不是語(yǔ)音交互的部分且將因此被考慮為非交互式的。

在操作期間,音頻設(shè)備106產(chǎn)生事件消息204并將事件消息204發(fā)送回到命令服務(wù)120。每個(gè)事件消息204描述音頻事件或已出現(xiàn)在音頻設(shè)備106處的其它事件。例如,事件消息204可指定某個(gè)類型的聲音被播放,文本到語(yǔ)音重放已開(kāi)始或結(jié)束,非交互式內(nèi)容已開(kāi)始或停止,內(nèi)容或媒體的重放已進(jìn)行到某個(gè)點(diǎn),媒體項(xiàng)的重放已結(jié)束以及隨后的媒體項(xiàng)的重放已開(kāi)始,等等。事件消息204也可指定音頻通知已由音頻設(shè)備發(fā)起。

每個(gè)事件消息指示負(fù)責(zé)活動(dòng)的應(yīng)用的應(yīng)用標(biāo)識(shí)符(appid),所述音頻事件是該活動(dòng)的一部分。事件消息204可由命令服務(wù)120傳遞到有責(zé)任的應(yīng)用,如由appid指定的,使得有責(zé)任的應(yīng)用可監(jiān)測(cè)它已請(qǐng)求的活動(dòng)的進(jìn)展。

每個(gè)事件消息204也可指定所述音頻是交互式的還是非交互式的。交互式音頻包括是用戶交互的部分的音頻。非交互式音頻是不是用戶交互的部分的音頻。一些事件消息可明確地指定對(duì)應(yīng)的事件是否是交互式的。在其它情況下,事件的性質(zhì)可內(nèi)在地指示對(duì)應(yīng)的事件是否是交互式的。例如,與音樂(lè)重放的狀態(tài)有關(guān)的某些事件可被考慮為非交互式事件,即使關(guān)于這樣的事件的事件消息可以不明確地將事件分類為交互式的或非交互式的。

圖3示出基于語(yǔ)音的服務(wù)108如何處理所接收的用戶話語(yǔ)以向適當(dāng)?shù)膽?yīng)用118提供所確定的含義。音頻設(shè)備106捕獲作為音頻信號(hào)被傳輸?shù)交谡Z(yǔ)音的服務(wù)108的用戶話語(yǔ)或語(yǔ)音302。語(yǔ)音處理服務(wù)110使用asr和nlu來(lái)分析音頻信號(hào)以確定用戶語(yǔ)音302的含義304。路由部件124接收含義304的語(yǔ)義表示。路由部件130也接收并監(jiān)測(cè)事件消息204。

路由部件130監(jiān)測(cè)事件消息204(當(dāng)它們由音頻設(shè)備106產(chǎn)生時(shí))以確定哪個(gè)應(yīng)用118被考慮為當(dāng)前活動(dòng)的。響應(yīng)于事件消息204,路由部件124可標(biāo)識(shí)主要活動(dòng)應(yīng)用和/或次要活動(dòng)應(yīng)用。被標(biāo)識(shí)為主要活動(dòng)應(yīng)用的應(yīng)用被考慮為具有主要語(yǔ)音焦點(diǎn)。被標(biāo)識(shí)為次要活動(dòng)應(yīng)用的應(yīng)用被考慮為具有次要焦點(diǎn)。在本文所述的實(shí)施方案中,只有單個(gè)應(yīng)用被考慮為在任何給定時(shí)間是主要活動(dòng)的,以及只有單個(gè)應(yīng)用被考慮為在任何給定時(shí)間是次要活動(dòng)的,雖然在某些其它實(shí)施方案中情況可能并不總是這樣。

當(dāng)接收到含義304的語(yǔ)義表示時(shí),路由部件124基于主要和次要活動(dòng)的應(yīng)用的以前標(biāo)識(shí)向應(yīng)用118之一提供含義304的表示。通常,主要活動(dòng)的應(yīng)用被給予操縱含義的第一機(jī)會(huì),如果它能夠。否則,如果沒(méi)有當(dāng)前是主要活動(dòng)的應(yīng)用或如果當(dāng)前是主要活動(dòng)的應(yīng)用不能夠操縱含義,則當(dāng)前是次要活動(dòng)的應(yīng)用被給予操縱含義的機(jī)會(huì)。

響應(yīng)于從音頻設(shè)備106接收到事件消息204,作為背景操作來(lái)執(zhí)行將應(yīng)用指定為主要或次要活動(dòng)的。當(dāng)從音頻設(shè)備106接收到話語(yǔ)時(shí),與將應(yīng)用指定為主要或次要活動(dòng)的過(guò)程獨(dú)立和異步地執(zhí)行含義的路由。

圖4示出可由路由部件124執(zhí)行來(lái)基于從音頻設(shè)備106接收的事件消息選擇主要活動(dòng)應(yīng)用和次要活動(dòng)應(yīng)用的示例方法400。

行動(dòng)402包括從音頻設(shè)備接收關(guān)于作為活動(dòng)的部分的由音頻設(shè)備播放的音頻的事件消息204。事件消息204可包括事件描述404和對(duì)應(yīng)于應(yīng)用118的應(yīng)用標(biāo)識(shí)符406,應(yīng)用118負(fù)責(zé)音頻事件和/或活動(dòng),所述音頻事件是該活動(dòng)的部分。

事件消息204可在一些情況下也包含指示音頻事件的音頻是否被考慮為交互式的或非交互式的事件分類408。交互式音頻可包括作為與用戶的語(yǔ)音對(duì)話或交互的部分的語(yǔ)音。其它類型的音頻例如音樂(lè)或不是與用戶的語(yǔ)音對(duì)話或交互的部分的語(yǔ)音可被考慮為背景或非交互式音頻。在一些情況下,事件分類408可從事件消息204省略,且與事件消息204一起提供的事件或其它元數(shù)據(jù)的性質(zhì)可指示對(duì)應(yīng)的事件是否是交互式的。

除了對(duì)話語(yǔ)音以外,響應(yīng)于由音頻設(shè)備106監(jiān)測(cè)的條件而由音頻設(shè)備106產(chǎn)生的某些類型的通知可被考慮為交互式的。雖然這樣的通知不一定是語(yǔ)音對(duì)話的部分,但是它們可被考慮為用戶交互的部分,因?yàn)樗鼈冋?qǐng)求即時(shí)的用戶輸入。例如,通知可包括用戶被期望回復(fù)的可聽(tīng)得見(jiàn)的警報(bào)聲音,例如通過(guò)說(shuō)詞“停止警報(bào)”。

由音頻設(shè)備106響應(yīng)于由音頻設(shè)備106監(jiān)測(cè)的條件而產(chǎn)生的其它類型的通知可被考慮為非交互式的。例如,通知可包括打算向用戶警告非關(guān)鍵條件例如消息或電子郵件的接收的背景聲,這并不打算請(qǐng)求即時(shí)用戶輸入。

通常,分類408或與事件消息相關(guān)聯(lián)的其它信息可指示對(duì)應(yīng)的音頻包括:

是用戶交互的部分的語(yǔ)音;

不是用戶交互的部分的語(yǔ)音;

是用戶交互的部分的音頻內(nèi)容;

不是用戶交互的部分的音頻內(nèi)容;或

響應(yīng)于由音頻設(shè)備檢測(cè)到條件而給出的音頻通知。

音頻通知可包括不是用戶交互的部分的背景音頻通知或是用戶交互的部分的前景音頻通知。

行動(dòng)410包括確定事件分類408或事件消息204的其它數(shù)據(jù)是否指示所接收的事件消息是針對(duì)交互式事件或非交互式事件。在事件消息204明確提供分類408的情況下,這可涉及檢查分類408。否則,行動(dòng)410可包括基于事件的類型或描述來(lái)確定對(duì)應(yīng)的事件是否是交互式的,其中某些事件或某些類型的事件被定義為交互式的,而其它事件或其它類型的事件被定義為非交互式的。在一些情況下,例如與媒體例如音樂(lè)的重放有關(guān)的事件可按照定義被考慮為非交互式的。

如果事件是交互式的,則執(zhí)行行動(dòng)412,其將任何當(dāng)前指定的主要活動(dòng)應(yīng)用而不是有責(zé)任的應(yīng)用指定為不再是主要活動(dòng)。此外,執(zhí)行行動(dòng)414,其將有責(zé)任的應(yīng)用(由應(yīng)用標(biāo)識(shí)符406指示)指定為現(xiàn)在是主要活動(dòng)的并具有主要焦點(diǎn)。

如果事件是非交互式的和/或有責(zé)任的應(yīng)用未被行動(dòng)414指定為主要活動(dòng)的,則執(zhí)行行動(dòng)416,其將任何當(dāng)前指定的主要活動(dòng)應(yīng)用而不是有責(zé)任的應(yīng)用指定為不再是次要活動(dòng)的。此外,執(zhí)行行動(dòng)418,其將有責(zé)任的應(yīng)用(由應(yīng)用標(biāo)識(shí)符406指示)指定為現(xiàn)在是次要活動(dòng)的并具有次要焦點(diǎn)。

注意,某些類型的事件可內(nèi)在地與對(duì)應(yīng)的應(yīng)用相關(guān)聯(lián),且應(yīng)用標(biāo)識(shí)符在這些情況下可被省略。例如,與從音頻設(shè)備106的外圍設(shè)備接收的音頻的重放有關(guān)的消息可內(nèi)在地與應(yīng)用118的特定應(yīng)用相關(guān)聯(lián)。

圖5示出示例方法500,其可關(guān)于已被指定為主要活動(dòng)的有責(zé)任的應(yīng)用執(zhí)行,如在塊502指示的,例如可根據(jù)圖4的方法400發(fā)生。行動(dòng)504包括確定是否預(yù)定義時(shí)間段已過(guò)去或超時(shí)已到期。如果該時(shí)間段已過(guò)去或超時(shí)已到期,則執(zhí)行行動(dòng)506,其除去將有責(zé)任的應(yīng)用作為主要活動(dòng)的指定。如果該時(shí)間段已過(guò)去或超時(shí)未到期,則循環(huán)地重復(fù)行動(dòng)504。每當(dāng)將當(dāng)前指定的主要活動(dòng)應(yīng)用最新指定為主要活動(dòng)的時(shí),可重置時(shí)間段,諸如響應(yīng)于最新接收的事件消息,事件消息導(dǎo)致通過(guò)圖4的行動(dòng)416重新分配主要焦點(diǎn)。

方法500確保主要活動(dòng)應(yīng)用將不失去語(yǔ)音焦點(diǎn),如果指定應(yīng)用的交互式事件的事件消息未在指定的時(shí)間段期間被接收到。應(yīng)用可稍后復(fù)得主要焦點(diǎn),如果指定應(yīng)用的應(yīng)用標(biāo)識(shí)符并指定交互式事件分類的新事件消息被接收到。

圖6示出處理用戶語(yǔ)音的示例方法600。行動(dòng)602包括接收包含用戶語(yǔ)音的音頻信號(hào)。行動(dòng)604包括使用asr來(lái)分析音頻信號(hào)以識(shí)別用戶語(yǔ)音并產(chǎn)生用戶語(yǔ)音的轉(zhuǎn)錄物。行動(dòng)606包括使用nlu來(lái)分析所識(shí)別的語(yǔ)音以確定用戶語(yǔ)音的含義并產(chǎn)生用戶語(yǔ)音及其含義的語(yǔ)義表示。行動(dòng)608包括路由應(yīng)用118的一個(gè)或多個(gè)的表示。

圖7示出將語(yǔ)音含義的語(yǔ)義表示路由到多個(gè)應(yīng)用118之一的示例方法700。行動(dòng)702包括接收含義的表示。行動(dòng)704包括確定在多個(gè)應(yīng)用118當(dāng)中是否有被已指定為主要活動(dòng)的且因此具有主要焦點(diǎn)的應(yīng)用。如果有這樣的主要活動(dòng)應(yīng)用,則執(zhí)行確定主要活動(dòng)應(yīng)用是否可對(duì)含義做出響應(yīng)的行動(dòng)706。可通過(guò)參考指示哪些含義可由哪些應(yīng)用操縱的應(yīng)用的以前記錄來(lái)執(zhí)行行動(dòng)706??蛇x地,可查詢主要活動(dòng)應(yīng)用以確定它當(dāng)前是否可對(duì)含義做出響應(yīng)。如果主要活動(dòng)應(yīng)用可以或?qū)?duì)含義做出響應(yīng),則執(zhí)行向應(yīng)用提供含義的語(yǔ)義表示和/或請(qǐng)求主要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)的行動(dòng)708。在一些情況下,可組合行動(dòng)706和708:含義的表示可連同使應(yīng)用對(duì)含義做出響應(yīng)的請(qǐng)求一起傳遞到主要活動(dòng)應(yīng)用,且應(yīng)用可通過(guò)接受請(qǐng)求或指示應(yīng)用將不對(duì)含義做出響應(yīng)來(lái)做出響應(yīng)。

如果沒(méi)有當(dāng)前主要活動(dòng)的應(yīng)用,如果主要應(yīng)用指示它將不或不能夠?qū)λ_定的含義做出響應(yīng),或如果否則確定主要活動(dòng)應(yīng)用將不對(duì)含義做出響應(yīng),則執(zhí)行行動(dòng)710,其確定在多個(gè)應(yīng)用118當(dāng)中是否有已被指定為次要活動(dòng)的并因此具有次要焦點(diǎn)的應(yīng)用。如果有這樣的次要活動(dòng)應(yīng)用,則執(zhí)行行動(dòng)712,其確定次要活動(dòng)應(yīng)用是否能夠?qū)λ_定的含義做出響應(yīng)??赏ㄟ^(guò)參考指示哪些含義可由哪些應(yīng)用操縱的應(yīng)用的以前記錄來(lái)執(zhí)行行動(dòng)712。可選地,可查詢次要活動(dòng)應(yīng)用以確定它是否可當(dāng)前對(duì)所確定的含義做出響應(yīng)。如果次要活動(dòng)應(yīng)用可以或?qū)?duì)含義做出響應(yīng),則執(zhí)行行動(dòng)714,其向次要活動(dòng)應(yīng)用提供含義的語(yǔ)義表示和/或請(qǐng)求次要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)。在一些情況下,可組合行動(dòng)710和712:含義的語(yǔ)義表示可連同使次要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)的請(qǐng)求一起傳遞到次要活動(dòng)應(yīng)用,且應(yīng)用可通過(guò)接受請(qǐng)求或謝絕該請(qǐng)求來(lái)做出響應(yīng)。

當(dāng)次要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)時(shí)或當(dāng)次要活動(dòng)應(yīng)用指示它可對(duì)含義做出響應(yīng)時(shí),也可執(zhí)行行動(dòng)716。行動(dòng)716包括將次要活動(dòng)應(yīng)用指定為現(xiàn)在是主要活動(dòng)的且因此具有主要語(yǔ)音焦點(diǎn)。當(dāng)應(yīng)用被指定為主要活動(dòng)的時(shí),以前被指定為主要活動(dòng)的任何其它應(yīng)用然后被指定為不再是主要活動(dòng)的。注意,在某些實(shí)施方案中可只對(duì)某些類型的應(yīng)用或事件執(zhí)行行動(dòng)716。作為例子,含義“提高音量”可被考慮為短暫命令或事件,且可以不導(dǎo)致對(duì)應(yīng)的應(yīng)用被給予主要焦點(diǎn)。

如果沒(méi)有當(dāng)前是次要活動(dòng)的應(yīng)用,如果次要活動(dòng)應(yīng)用指示它將不或不能夠?qū)λ_定的含義做出響應(yīng),或如果否則確定次要活動(dòng)應(yīng)用將不對(duì)含義做出響應(yīng),則執(zhí)行行動(dòng)718,其確定在多個(gè)應(yīng)用當(dāng)中是否有可操縱所確定的含義的另一應(yīng)用。可通過(guò)參考指示哪些含義可由哪些應(yīng)用操縱的應(yīng)用的以前記錄來(lái)執(zhí)行行動(dòng)718??蛇x地或此外,可查詢其它應(yīng)用以確定它們是否可當(dāng)前對(duì)含義做出響應(yīng)。如果另一應(yīng)用可操縱含義,則執(zhí)行行動(dòng)720,其向其它應(yīng)用提供含義的表示和/或請(qǐng)求其它應(yīng)用對(duì)含義做出響應(yīng)。

當(dāng)其它應(yīng)用之一對(duì)含義事件做出響應(yīng)時(shí)或當(dāng)否則非活動(dòng)應(yīng)用指示它可對(duì)含義做出響應(yīng)時(shí),也可執(zhí)行行動(dòng)722。行動(dòng)722包括將響應(yīng)應(yīng)用指定為是主要活動(dòng)的且因此具有主要語(yǔ)音焦點(diǎn)。當(dāng)應(yīng)用被指定為主要活動(dòng)的時(shí),以前被指定為主要活動(dòng)的任何其它應(yīng)用然后被指定為不再是主要活動(dòng)的。注意,在某些實(shí)施方案中可只對(duì)不考慮為短暫的某些類型的應(yīng)用或事件執(zhí)行行動(dòng)722。

行動(dòng)718可包括向不同的應(yīng)用以它們向命令服務(wù)120注冊(cè)的順序提供含義的語(yǔ)義表示,較早的已注冊(cè)應(yīng)用被給予優(yōu)于稍后注冊(cè)的應(yīng)用的優(yōu)先級(jí)??蛇x地,每個(gè)應(yīng)用可被請(qǐng)求提供指示含義被預(yù)期針對(duì)應(yīng)用的可能性的置信度水平。例如,音樂(lè)重放應(yīng)用在它當(dāng)前不播放音樂(lè)時(shí)可以將本身考慮是“暫?!焙x的相對(duì)不可能的接收方,即使它以前指示操縱“暫停”含義的能力。含義可接著被提供到提供最高置信度水平的應(yīng)用。

圖8示出音頻設(shè)備106的示例配置。在圖8的例子中,音頻設(shè)備106具有操作邏輯,其包括處理器802和存儲(chǔ)器804。存儲(chǔ)器804可包含以指令的形式的應(yīng)用和程序,指令由處理器802執(zhí)行以執(zhí)行實(shí)現(xiàn)音頻設(shè)備106的期望功能的動(dòng)作或行動(dòng)。存儲(chǔ)器804可以是一種類型的計(jì)算機(jī)存儲(chǔ)介質(zhì),并可包括易失性和非易失性存儲(chǔ)器。因此,存儲(chǔ)器804可包括但不限于ram、rom、eeprom、閃存或其它存儲(chǔ)器技術(shù)。

圖8示出可由音頻設(shè)備106提供并由存儲(chǔ)器804存儲(chǔ)以實(shí)現(xiàn)音頻設(shè)備106的功能的應(yīng)用和/或程序的幾個(gè)例子,但是可在各種實(shí)施方案中提供功能的很多其它應(yīng)用和類型。

音頻設(shè)備106可具有配置成管理在音頻設(shè)備106內(nèi)并耦合到音頻設(shè)備106的硬件和服務(wù)的操作系統(tǒng)806。此外,音頻設(shè)備106可包括音頻處理模塊808,其從用戶建筑物102接收音頻并處理所接收的音頻以執(zhí)行行動(dòng)并響應(yīng)于用戶語(yǔ)音而提供服務(wù)。在一些情況下,音頻處理模塊808可執(zhí)行語(yǔ)音識(shí)別和關(guān)于所接收的音頻的自然語(yǔ)言理解。在其它情況下,音頻處理模塊可將所接收的音頻傳送到基于語(yǔ)音的服務(wù)108,其可使用語(yǔ)音處理服務(wù)110來(lái)執(zhí)行語(yǔ)音處理,例如語(yǔ)音識(shí)別和自然語(yǔ)言理解。音頻處理模塊808可執(zhí)行各種類型的音頻處理,包括過(guò)濾、壓縮等,并可利用數(shù)字信號(hào)處理器或信號(hào)處理的其它方法。

音頻處理模塊808也可負(fù)責(zé)制造或產(chǎn)生語(yǔ)音。例如,音頻設(shè)備106可從基于語(yǔ)音的服務(wù)108接收文本,并可將文本轉(zhuǎn)換成語(yǔ)音??蛇x地,音頻設(shè)備106可接收由音頻處理模塊808處理的音頻信號(hào)用于由音頻設(shè)備106再現(xiàn)。

音頻設(shè)備106可具有配置成建立與基于語(yǔ)音的服務(wù)108的通信信道的通信部件810。各種類型的通信協(xié)議可由通信部件810支持。在一些情況下,通信部件810可配置成使用各種類型的網(wǎng)絡(luò)通信技術(shù)之一通過(guò)api122來(lái)建立與基于語(yǔ)音的服務(wù)108的安全和/或加密通信信道。

音頻設(shè)備106也可具有配置成響應(yīng)于由音頻設(shè)備106執(zhí)行的音頻活動(dòng)來(lái)提供如上所述的事件消息的事件報(bào)告模塊812。在一些實(shí)現(xiàn)中,音頻設(shè)備106可向基于語(yǔ)音的服務(wù)108前攝地提供事件消息。在其它實(shí)現(xiàn)中,基于語(yǔ)音的服務(wù)可輪詢或查詢音頻設(shè)備106以得到事件消息。

除了上面所述的軟件功能以外,音頻設(shè)備106還可實(shí)現(xiàn)各種類型的其它應(yīng)用、功能和/或服務(wù)814。例如,其它服務(wù)814可包括在圖8中被稱為媒體播放器816的音頻功能或應(yīng)用,其用于響應(yīng)于用戶指令或在基于語(yǔ)音的服務(wù)108或應(yīng)用118的指導(dǎo)下播放歌曲或其它類型的音頻。媒體播放器816可從基于語(yǔ)音的服務(wù)108、從應(yīng)用118的一個(gè)或多個(gè)或從第三方服務(wù)例如音樂(lè)服務(wù)、podcast服務(wù)等接收音頻。例如,基于語(yǔ)音的服務(wù)108和/或應(yīng)用118之一可指令音頻設(shè)備106得到并播放來(lái)自第三方服務(wù)的特定歌曲。當(dāng)接收到這個(gè)指令時(shí),音頻設(shè)備106的媒體播放器816可聯(lián)系第三方服務(wù),發(fā)起歌曲的流式傳送或下載,并可接著播放歌曲而沒(méi)有來(lái)自基于語(yǔ)音的服務(wù)108或應(yīng)用118的指令音頻設(shè)備106播放歌曲的另外的指令或信息。類似地,可將音樂(lè)家列表提供到媒體播放器816用于由音頻設(shè)備106的媒體播放器816重放。

音頻設(shè)備106還可包括各種類型的基于硬件的部件或功能,包括設(shè)備接口818和通信接口820。設(shè)備接口818可提供到輔助設(shè)備例如bluetoothtm設(shè)備、遠(yuǎn)程顯現(xiàn)設(shè)備、遠(yuǎn)程傳感器等的連接。通信接口820可包括網(wǎng)絡(luò)接口和允許音頻設(shè)備106連接到基于語(yǔ)音的服務(wù)108并與基于語(yǔ)音的服務(wù)108通信的其它類型的接口。

音頻設(shè)備106可具有各種類型的指示器822,例如用于將操作信息傳遞給用戶104的燈。指示器822可包括led(發(fā)光二極管)、平板顯示元件、文本顯示器等。

音頻設(shè)備106還可具有可包括按鈕、旋鈕、滑塊、觸摸傳感器等的各種類型的物理控件824。物理控件824可用于基本功能,例如啟用/禁用音頻設(shè)備106,設(shè)置音頻設(shè)備106的音頻輸入音量,等等。

音頻設(shè)備106可包括麥克風(fēng)單元826,其包括一個(gè)或多個(gè)麥克風(fēng)以接收音頻輸入,例如用戶話音輸入。麥克風(fēng)單元826在一些實(shí)現(xiàn)中可包括定向麥克風(fēng)陣列,使得來(lái)自不同方向的聲音可選擇性地被接收和/或增強(qiáng)。音頻設(shè)備106還可包括用于音頻的輸出的揚(yáng)聲器828。

除了物理控件824和麥克風(fēng)單元826以外,音頻設(shè)備106還可具有各種其它類型的傳感器830,其可包括靜止和視頻攝像機(jī)、深度傳感器、3d(三維)攝像機(jī)、紅外傳感器、接近度傳感器、用于測(cè)量周圍聲音和光的水平的傳感器等。音頻設(shè)備106還可具有分析能力,其利用來(lái)自傳感器839的信息來(lái)確定用戶建筑物102的特性和在用戶建筑物102內(nèi)的環(huán)境條件。例如,音頻設(shè)備106可能能夠分析光信息以確定房間的3d特性,包括在房間內(nèi)的人或物體的存在和/或身份。作為另一例子,音頻設(shè)備106可能能夠檢測(cè)并評(píng)估房間的音頻特性,以便優(yōu)化音頻重放。

音頻設(shè)備106還可具有用于與用戶104交互的其它用戶接口(ui)元件832。其它ui元件可包括顯示面板、投影儀、觸控板、鍵盤(pán)等。

在某些情況中,音頻設(shè)備106可包括移動(dòng)設(shè)備,例如智能電話、平板計(jì)算機(jī)、眼鏡、手表等。移動(dòng)設(shè)備可具有傳感器,例如羅盤(pán)、加速度計(jì)、陀螺儀、全球定位接收器等以及具有基于應(yīng)用來(lái)確定各種環(huán)境信息并訪問(wèn)基于網(wǎng)絡(luò)的信息資源的能力。

圖9示出可用于實(shí)現(xiàn)基于語(yǔ)音的服務(wù)108的功能的服務(wù)器900的相關(guān)部件和/或可用于提供如本文所述的服務(wù)的其它部件。通常,功能元件可由一個(gè)或多個(gè)服務(wù)器實(shí)現(xiàn),上面所述的各種功能以各種方式分布在不同的服務(wù)器當(dāng)中。服務(wù)器可一起或單獨(dú)地被定位,并被組織為虛擬服務(wù)器、服務(wù)器組和/或服務(wù)器場(chǎng)。所述功能可由單個(gè)實(shí)體或企業(yè)的服務(wù)器提供,或可利用多個(gè)實(shí)體或企業(yè)的服務(wù)器和/或服務(wù)。

在非?;镜呐渲弥?,示例服務(wù)器900可包括由一個(gè)或多個(gè)處理器組成的處理單元902和相關(guān)聯(lián)存儲(chǔ)器904。根據(jù)服務(wù)器900的配置,存儲(chǔ)器904可以是一種類型的計(jì)算機(jī)存儲(chǔ)介質(zhì)并可包括易失性和非易失性存儲(chǔ)器。因此,存儲(chǔ)器904可包括但不限于ram、rom、eeprom、閃存或其它存儲(chǔ)器技術(shù)。

存儲(chǔ)器904可用于存儲(chǔ)由處理單元902可執(zhí)行的任何數(shù)量的功能部件。在很多實(shí)施方案中,這些功能部件包括由處理單元902可執(zhí)行且當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)用于執(zhí)行上面所述的行動(dòng)的操作邏輯的指令或程序。

在存儲(chǔ)器904中存儲(chǔ)的功能部件可包括操作系統(tǒng)906和與遠(yuǎn)程設(shè)備例如計(jì)算機(jī)、媒體消費(fèi)設(shè)備等交互的web服務(wù)部件908。存儲(chǔ)器904還可具有實(shí)現(xiàn)語(yǔ)音處理服務(wù)110、命令服務(wù)120、api122和路由部件124的指令。在一些情況下,應(yīng)用118的一個(gè)或多個(gè)也可被實(shí)現(xiàn)為存儲(chǔ)在存儲(chǔ)器904中的功能部件。

服務(wù)器900當(dāng)然可包括在圖9中沒(méi)有示出的很多其它邏輯、編程和物理部件。

注意,雖然音頻設(shè)備106在本文被描述為在家里使用的話音控制的或基于語(yǔ)音的音頻設(shè)備,但是本文所述的技術(shù)可結(jié)合各種不同類型的設(shè)備例如電信設(shè)備和部件、免提設(shè)備、娛樂(lè)設(shè)備、媒體重放設(shè)備、平板計(jì)算機(jī)、個(gè)人計(jì)算機(jī)、專用設(shè)備等來(lái)實(shí)現(xiàn)。

上面所述的實(shí)施方案可例如使用計(jì)算機(jī)、處理器、數(shù)字信號(hào)處理器、模擬處理器等編程地實(shí)現(xiàn)。然而,在其它實(shí)施方案中,可使用專門(mén)或?qū)S秒娐贰M電路和/或數(shù)字邏輯電路——來(lái)實(shí)現(xiàn)部件、功能或元件的一個(gè)或多個(gè)。

而且,雖然已用某些特征所特有的語(yǔ)言描述了主題,但是應(yīng)理解,在所附權(quán)利要求中定義的主題不一定限于所描述的特定特征。更確切地,特定特征被公開(kāi)為實(shí)現(xiàn)權(quán)利要求的說(shuō)明性形式。

條款

1.一種系統(tǒng),其包括:

命令服務(wù),其配置成:與多個(gè)應(yīng)用通信,與音頻設(shè)備通信,并將命令發(fā)送到音頻設(shè)備以為音頻應(yīng)用執(zhí)行提供音頻內(nèi)容以由音頻設(shè)備播放的活動(dòng),其中命令指定對(duì)應(yīng)于音頻應(yīng)用的應(yīng)用標(biāo)識(shí)符;

控制邏輯,其配置成執(zhí)行包括以下項(xiàng)的動(dòng)作:

從音頻設(shè)備接收關(guān)于由音頻設(shè)備播放的聲音的事件消息,其中事件消息指定對(duì)應(yīng)于音頻應(yīng)用的應(yīng)用標(biāo)識(shí)符;

如果事件消息指示由音頻設(shè)備播放的聲音是與用戶的語(yǔ)音交互的部分,則將音頻應(yīng)用指定為主要活動(dòng)的;

如果事件消息指示由音頻設(shè)備播放的聲音不是與用戶的語(yǔ)音交互的部分,則將音頻應(yīng)用指定為次要活動(dòng)的;

語(yǔ)音識(shí)別服務(wù),其配置成從音頻設(shè)備接收音頻信號(hào)并識(shí)別在音頻信號(hào)中的用戶語(yǔ)音;

語(yǔ)言理解服務(wù),其配置成確定用戶語(yǔ)音的含義;

控制邏輯,其配置成執(zhí)行包括以下項(xiàng)的另外的行動(dòng):

如果在多個(gè)應(yīng)用當(dāng)中存在主要活動(dòng)應(yīng)用,則請(qǐng)求主要活動(dòng)應(yīng)用通過(guò)(a)執(zhí)行至少部分地通過(guò)用戶語(yǔ)音的含義指示的第一行動(dòng)或(b)產(chǎn)生對(duì)用戶語(yǔ)音的第一語(yǔ)音響應(yīng)來(lái)對(duì)用戶語(yǔ)音做出響應(yīng);以及

如果在多個(gè)應(yīng)用當(dāng)中沒(méi)有主要活動(dòng)應(yīng)用且如果在多個(gè)應(yīng)用當(dāng)中存在次要活動(dòng)應(yīng)用,則請(qǐng)求次要活動(dòng)應(yīng)用通過(guò)(a)執(zhí)行至少部分地通過(guò)用戶語(yǔ)音的含義指示的第二行動(dòng)或(b)產(chǎn)生對(duì)用戶語(yǔ)音的第二語(yǔ)音響應(yīng)來(lái)對(duì)用戶語(yǔ)音做出響應(yīng)。

2.如條款1所述的系統(tǒng),其中事件消息指定指示聲音是否是與用戶的語(yǔ)音交互的部分的事件分類,分類指示聲音包括下列項(xiàng)中的至少一個(gè):

是用戶交互的部分的語(yǔ)音;

不是用戶交互的部分的語(yǔ)音;

是用戶交互的部分的音頻內(nèi)容;

不是用戶交互的部分的音頻內(nèi)容;或

響應(yīng)于由音頻設(shè)備檢測(cè)到條件而給出的音頻通知。

3.如條款1所述的系統(tǒng),其中事件消息指示第二音頻是響應(yīng)于由音頻設(shè)備檢測(cè)到條件而給出的通知,動(dòng)作還包括將音頻應(yīng)用指定為主要活動(dòng)的。

4.如條款1所述的系統(tǒng),行動(dòng)還包括:

確定在預(yù)定義時(shí)間段期間沒(méi)有接收到標(biāo)識(shí)音頻應(yīng)用的事件消息;以及

除去音頻應(yīng)用作為主要活動(dòng)的指定。

5.一種方法,其包括:

向音頻設(shè)備提供執(zhí)行活動(dòng)的命令,其中命令從多個(gè)應(yīng)用當(dāng)中標(biāo)識(shí)有責(zé)任的應(yīng)用;

從音頻設(shè)備接收關(guān)于由音頻設(shè)備顯現(xiàn)的聲音的事件消息,事件消息標(biāo)識(shí)有責(zé)任的應(yīng)用;

如果事件消息指示聲音是用戶交互的部分,則將有責(zé)任的應(yīng)用指定為主要活動(dòng)的;

接收由音頻設(shè)備捕獲的語(yǔ)音;

確定語(yǔ)音的含義;以及

如果在多個(gè)應(yīng)用當(dāng)中存在可對(duì)含義做出響應(yīng)的主要活動(dòng)應(yīng)用,則請(qǐng)求主要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)。

6.如條款1所述的方法,其還包括:

如果事件消息不指示音頻是用戶交互的部分,則將有責(zé)任的應(yīng)用指定為次要活動(dòng)的;以及

如果在多個(gè)應(yīng)用當(dāng)中沒(méi)有可對(duì)含義做出響應(yīng)的主要活動(dòng)應(yīng)用,則請(qǐng)求多個(gè)應(yīng)用的次要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)。

7.如條款2所述的方法,其還包括,如果在多個(gè)應(yīng)用當(dāng)中沒(méi)有可對(duì)含義做出響應(yīng)的主要活動(dòng)應(yīng)用,則:

確定次要活動(dòng)應(yīng)用可對(duì)含義做出響應(yīng);以及

將次要活動(dòng)應(yīng)用指定為主要活動(dòng)的。

8.如條款2所述的方法,其還包括:

從主要活動(dòng)應(yīng)用接收主要活動(dòng)應(yīng)用將不對(duì)含義做出響應(yīng)的指示;以及

響應(yīng)于從主要活動(dòng)應(yīng)用接收到指示,請(qǐng)求次要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)。

9.如條款1所述的方法,其還包括在請(qǐng)求主要活動(dòng)應(yīng)用對(duì)含義做出響應(yīng)之前確定主要活動(dòng)應(yīng)用可對(duì)含義做出響應(yīng)。

10.如條款1所述的方法,其中分類指示音頻是下列項(xiàng)中的至少一個(gè):

是用戶交互的部分的語(yǔ)音;

不是用戶交互的部分的語(yǔ)音;

是用戶交互的部分的音頻內(nèi)容;

不是用戶交互的部分的音頻內(nèi)容;或

響應(yīng)于由音頻設(shè)備檢測(cè)到條件而給出的音頻通知。

11.如條款6所述的方法,其中音頻通知包括:

不是用戶交互的部分的背景音頻通知;或

是用戶交互的部分的前景音頻通知。

12.如條款1所述的方法,其中:

命令指定標(biāo)識(shí)有責(zé)任的應(yīng)用的應(yīng)用標(biāo)識(shí)符;以及

事件消息指定應(yīng)用標(biāo)識(shí)符以標(biāo)識(shí)有責(zé)任的應(yīng)用。

13.如條款1所述的方法,其還包括:

確定在預(yù)定義時(shí)間段期間沒(méi)有接收到標(biāo)識(shí)有責(zé)任的應(yīng)用的事件消息;以及

除去有責(zé)任的應(yīng)用作為主要活動(dòng)的指定。

14.一種方法,其包括:

從設(shè)備接收關(guān)于由設(shè)備執(zhí)行的第一行動(dòng)的第一事件消息,第一事件消息從多個(gè)應(yīng)用當(dāng)中標(biāo)識(shí)第一有責(zé)任的應(yīng)用,其中多個(gè)應(yīng)用中的每個(gè)可對(duì)由用戶語(yǔ)音表達(dá)的一個(gè)或多個(gè)含義做出響應(yīng);

確定第一行動(dòng)是用戶交互的部分;

將第一有責(zé)任的應(yīng)用指定為主要活動(dòng)的;

標(biāo)識(shí)第一用戶語(yǔ)音的第一含義;以及

確定在多個(gè)應(yīng)用當(dāng)中有可對(duì)第一含義做出響應(yīng)的主要活動(dòng)應(yīng)用;以及

選擇主要活動(dòng)應(yīng)用以對(duì)第一含義做出響應(yīng)。

15.如條款10所述的方法,其還包括:

從設(shè)備接收關(guān)于由設(shè)備執(zhí)行的第二行動(dòng)的第二事件消息,第二事件消息從多個(gè)應(yīng)用當(dāng)中標(biāo)識(shí)第二有責(zé)任的應(yīng)用;

確定第二行動(dòng)不是用戶交互的部分;

將第二有責(zé)任的應(yīng)用指定為次要活動(dòng)的;

確定第二用戶語(yǔ)音的第二含義;

確定在多個(gè)應(yīng)用當(dāng)中沒(méi)有可對(duì)第二含義做出響應(yīng)的主要活動(dòng)應(yīng)用;以及

選擇次要活動(dòng)應(yīng)用以對(duì)第二含義做出響應(yīng)。

16.如條款11所述的方法,其還包括:

確定第三用戶語(yǔ)音的第三含義;

確定主要活動(dòng)應(yīng)用將不對(duì)第三含義做出響應(yīng);以及

請(qǐng)求次要活動(dòng)應(yīng)用對(duì)第三含義做出響應(yīng)。

17.如條款11所述的方法,其還包括:

確定第三用戶語(yǔ)音的第三含義;

從主要活動(dòng)應(yīng)用接收主要活動(dòng)應(yīng)用將不對(duì)第三含義做出響應(yīng)的指示;以及

請(qǐng)求次要活動(dòng)應(yīng)用對(duì)第三含義做出響應(yīng)。

18.如條款10所述的方法,其中事件消息指示音頻的分類,分類指示音頻是:

是用戶交互的部分的語(yǔ)音;

不是用戶交互的部分的語(yǔ)音;

是用戶交互的部分的音頻內(nèi)容;

不是用戶交互的部分的音頻內(nèi)容;或

響應(yīng)于由音頻設(shè)備檢測(cè)到條件而給出的音頻通知。

19.如條款14所述的方法,其中音頻通知包括:

不是用戶交互的部分的背景音頻通知;或

是用戶交互的部分的前景音頻通知。

20.如條款10所述的方法,其中第一事件消息指定標(biāo)識(shí)第一有責(zé)任的應(yīng)用的應(yīng)用標(biāo)識(shí)符。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
水富县| 福州市| 中牟县| 岚皋县| 合川市| 胶南市| 六安市| 高要市| 和田县| 兰西县| 响水县| 农安县| 上饶县| 青州市| 涞水县| 苍南县| 台北市| 筠连县| 秭归县| 大港区| 甘谷县| 金门县| 横山县| 博爱县| 汪清县| 宝鸡市| 黎城县| 蕲春县| 阆中市| 稻城县| 策勒县| 出国| 外汇| 纳雍县| 屏山县| 江源县| 班玛县| 长泰县| 五华县| 博湖县| 宜春市|