本發(fā)明涉及機器人技術(shù)領(lǐng)域,具體地說,涉及一種用于智能機器人的人機交互方法及裝置。
背景技術(shù):
隨著科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)、計算機技術(shù)以及人工智能技術(shù)的引入,機器人的研究已經(jīng)逐步走出工業(yè)領(lǐng)域,逐漸擴展到了醫(yī)療、保健、家庭、娛樂以及服務(wù)行業(yè)等領(lǐng)域。而人們對于機器人的要求也從簡單重復(fù)的機械動作提升為具有擬人問答、自主性及與其他機器人進行交互的智能機器人,人機交互也就成為決定智能機器人發(fā)展的重要因素。
在人機交互過程中,用戶對智能機器人的交互需求日益增多,需要智能機器人不斷提高自身的交互能力,實現(xiàn)與用戶的多方面交互,滿足用戶的多種多樣的用戶需求。
技術(shù)實現(xiàn)要素:
為解決上述問題,本發(fā)明提供了一種用于智能機器人的人機交互方法,其包括:
交互信息獲取步驟,獲取用戶輸入的多模態(tài)交互信息;
情感信息生成步驟,對所述多模態(tài)交互信息進行解析生成用戶情感參量;
數(shù)據(jù)輸出步驟,根據(jù)所述用戶情感參量生成與所述用戶情感參量匹配的音樂,結(jié)合所述音樂生成多模態(tài)輸出數(shù)據(jù)并輸出。
根據(jù)本發(fā)明的一個實施例,在所述數(shù)據(jù)輸出步驟中,還生成對應(yīng)于所述多模態(tài)交互信息的反饋信息,并將所述音樂作為所述反饋信息的背景音進行輸出。
根據(jù)本發(fā)明的一個實施例,在所述數(shù)據(jù)輸出步驟中,根據(jù)所述用戶情感參量生成與所述用戶情感參量匹配的音樂,具體包括:
根據(jù)所述用戶情感參量確定當(dāng)前情感場景;
獲取與所述當(dāng)前情感場景相對應(yīng)的音樂。
根據(jù)本發(fā)明的一個實施例,在所述情感信息生成步驟中,利用預(yù)設(shè)情感引擎來根據(jù)所述多模態(tài)交互信息生成所述用戶情感參量。
根據(jù)本發(fā)明的一個實施例,所述多模態(tài)交互信息包括以下所列項中的任一項或幾項:
圖像信息、語音信息和文本信息。
本發(fā)明還提供了一種用于智能機器人的人機交互裝置,其包括:
交互信息獲取模塊,其用于獲取用戶輸入的多模態(tài)交互信息;
情感信息生成模塊,其用于對所述多模態(tài)交互信息進行解析生成用戶情感參量;
數(shù)據(jù)輸出模塊,其用于根據(jù)所述用戶情感參量生成與所述用戶情感參量匹配的音樂,結(jié)合所述音樂生成多模態(tài)輸出數(shù)據(jù)并輸出。
根據(jù)本發(fā)明的一個實施例,所述數(shù)據(jù)輸出模塊配置為還生成對應(yīng)于所述多模態(tài)交互信息的反饋信息,并將所述音樂作為所述反饋信息的背景音進行輸出。
根據(jù)本發(fā)明的一個實施例,所述數(shù)據(jù)輸出模塊根據(jù)所述用戶情感參量生成與所述用戶情感參量匹配的音樂,具體包括:
根據(jù)所述用戶情感參量確定當(dāng)前情感場景;
獲取與所述當(dāng)前情感場景相對應(yīng)的音樂。
根據(jù)本發(fā)明的一個實施例,所述情感信息生成模塊配置為利用預(yù)設(shè)情感引擎來根據(jù)所述多模態(tài)交互信息生成所述用戶情感參量。
根據(jù)本發(fā)明的一個實施例,所述多模態(tài)交互信息包括以下所列項中的任一項或幾項:
圖像信息、語音信息和文本信息。
本發(fā)明所提供的用于智能機器人的人機交互方法能夠在播放響應(yīng)多模態(tài)輸出數(shù)據(jù)的同時,輸出與用戶當(dāng)前情緒相匹配的音樂,從而使得用戶感知到智能機器人能夠真正地理解用戶當(dāng)前的情境與情緒,并在理解用戶當(dāng)前情境與情緒的基礎(chǔ)上有趣地給予反饋,進而極大地滿足了用戶對智能機器人的情感需求,這也使得智能機器人更加人性化。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要的附圖做簡單的介紹:
圖1是根據(jù)本發(fā)明一個實施例的用于智能機器人的人機交互方法的實現(xiàn)流程圖;
圖2是根據(jù)本發(fā)明另一個實施例的用于智能機器人的人機交互方法的實現(xiàn)流程圖;
圖3是根據(jù)本發(fā)明一個實施例的用于智能機器人的人機交互裝置的結(jié)構(gòu)示意圖。
具體實施方式
以下將結(jié)合附圖及實施例來詳細(xì)說明本發(fā)明的實施方式,借此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程能充分理解并據(jù)以實施。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個實施例以及各實施例中的各個特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護范圍之內(nèi)。
同時,在以下說明中,出于解釋的目的而闡述了許多具體細(xì)節(jié),以提供對本發(fā)明實施例的徹底理解。然而,對本領(lǐng)域的技術(shù)人員來說顯而易見的是,本發(fā)明可以不用這里的具體細(xì)節(jié)或者所描述的特定方式來實施。
另外,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
在機器人技術(shù)的發(fā)展過程中,人們對機器人的交互需求越來越高,這也就需要機器人能夠更為生動、智能地與用戶進行交互。然而,現(xiàn)有的用于智能機器人的人機交互方法通常只會與用戶進行單一的語音交互或文本交互,這顯然無法滿足現(xiàn)有的交互需求。
針對現(xiàn)有技術(shù)中所存在的問題,本發(fā)明提供了一種新的用于智能機器人的人交互方法,該方法使得智能機器人能夠在輸出相關(guān)數(shù)據(jù)的同時,還能夠輸出與當(dāng)前情境氛圍相適應(yīng)的音樂。
為了更加清楚地闡述本發(fā)明所提供的人機交互方法的實現(xiàn)原理、實現(xiàn)過程以及優(yōu)點,以下分別結(jié)合不同的實施例來對該方法作進一步地說明。
實施例一:
圖1示出了本實施例所提供的用于智能機器人的人機交互方法的實現(xiàn)路程圖。
如圖1所示,本實施例所提供給的人機交互方法首先在步驟S101中獲取用戶輸入的多模態(tài)交互信息。需要指出的是,上述多模態(tài)交互信息可以是諸如語音信息、文本信息、肢體信息、動作信息和視覺信息(即圖像信息)等信息中的某一項或某幾項,本發(fā)明不限于此。
其中,該方法可以通過智能機器人所配置的音頻傳感器(例如麥克風(fēng))來獲取用戶輸入的語音信息,可以通過智能機器人所配置的文本輸入設(shè)備(例如鍵盤)來獲取用戶輸入的文本信息,可以通過智能機器人所配置的視頻傳感器(例如攝像頭)來獲取用戶輸入的視覺信息和/或肢體信息,可以通過配置在智能機器人殼體或內(nèi)部的相應(yīng)傳感器(例如壓力傳感器等)來用戶用戶輸入的動作信息。
在得到多模態(tài)交互信息后,該方法會在步驟S102中對步驟S101中所得到的多模態(tài)交互信息進行解析,從而得到用戶情感參量。本實施例中,該方法在步驟S102中優(yōu)選地利用預(yù)設(shè)情感引擎來根據(jù)上述多模態(tài)交互信息生成用戶情感參量。具體地,對應(yīng)于多模態(tài)交互信息所包含的信息的不同,預(yù)設(shè)情感引擎可以采用不同的方式來生成用戶情感參量。
需要指出的是,在本發(fā)明的不同實施例中,該方法在對獲取到的多模態(tài)交互信息進行解析過程中所使用的預(yù)設(shè)情感引擎既可以是本地情感引擎,也可以是云端情感引擎,還可以是本地情感引擎與云端情感引擎的結(jié)合,本發(fā)明不限于此。
語音既是人的發(fā)聲器官發(fā)出的一種聲波,它就像其他各種聲音一樣,也具有聲音的物理屬性。每一種音都具有一定的音色、音調(diào)、音強和音長。音色也稱為音質(zhì),是一種聲音區(qū)別于其他聲音的基本特征。
音調(diào)是指聲音的高低,它取決于聲波的頻率。而聲波頻率又與發(fā)音體長短、厚薄以及松緊程度有關(guān)。聲音的強弱叫做音強,它是由聲波振動幅度決定的。聲音的長短叫做音長,它取決于發(fā)音時間的長短,一個多音節(jié)的詞,各個音節(jié)的輕重不同,其長短就不一樣,此外不同音長還可以表達不同的語氣和情態(tài)。
因此,本實施例所提供的方法所采用的情感引擎便可以通過提取獲取到的語音信息的相關(guān)特征參數(shù)(例如音色、音調(diào)、音強和音長等),并通過對這些特征參數(shù)進行解析來確定出用戶情感參量。
對于獲取到的文本信息來說,該方法則可以通過對該文本信息進行語法分析,從而生成對應(yīng)于該文本信息的相關(guān)情緒參數(shù),這樣也就確定出了對應(yīng)的用戶情感參量。
例如,對于中文文本信息來說,根據(jù)分析粒度的不同,中文文本信息的情感分析可以分為詞語級、句子級、篇章級和海量級情感傾向性。對于本實施例所提供的方法來說,其主要集中在詞語級以及句子級的情感分析。
詞語傾向性分析的分析對象是單獨的詞語,在分析過程中需要確定出詞語的褒貶性以及極性的強度。作為示例地,正值表示褒義,負(fù)值表示貶義。其中,上述取值的絕對值越大,其褒貶的極性強度也就越大。需要指出的是,在本發(fā)明的不同實施例中,對于詞語傾向性的分析既可以采用基于語義詞典的方式來進行分析,也可以采用大規(guī)模語料庫的方式來進行分析,還可以采用其他合理方式來進行分析,本發(fā)明不限于此。
對于獲取到的視覺信息來說,本實施例所提供的方法所采用的情感引擎可以從上述視覺信息中獲取到相應(yīng)的圖像,并通過圖像處理來確定出圖像所表征的用戶情感參量。具體地,該方法可以對獲取到的圖像進行人臉識別,并對識別到的人臉進行表情解析,從而得到對應(yīng)于該圖像的用戶的表情信息,進而得到用戶情感參量。
在得到用戶情感參量后,該方法會在步驟S103中根據(jù)上述用戶情感參量生成與該用戶情感參量相匹配的音樂,并在步驟S104中結(jié)合步驟S103中生成音樂生成多模態(tài)輸出數(shù)據(jù)并輸出給當(dāng)前用戶。
例如,如果智能機器人的用戶為兒童,該用戶向智能機器人輸入了諸如“我今天得獎了,我真開心”的語音信息,本實施例所提供的人機交互方法通過對該語音信息進行解析可以生成表征用戶當(dāng)前情感處于“開心”狀態(tài)的用戶情感參量。而根據(jù)該用戶情感參量,該方法可以確定出與該用戶情感參量相匹配的音樂應(yīng)為歡快喜悅的音樂,因此,該方法也就可以在步驟S103中生成一段較為歡快喜悅的音樂,并在輸出諸如“你真棒”的語音信息的同時輸出上述音樂,以此來配合用戶的當(dāng)前情緒。
從上述描述中可以看出,本實施例所提供的用于智能機器人的人機交互方法能夠在播放響應(yīng)多模態(tài)輸出數(shù)據(jù)的同時,輸出與用戶當(dāng)前情緒相匹配的音樂,從而使得用戶感知到智能機器人能夠真正地理解用戶當(dāng)前的情境與情緒,并在理解用戶當(dāng)前情境與情緒的基礎(chǔ)上有趣地給予反饋,進而極大地滿足了用戶對智能機器人的情感需求,這也使得智能機器人更加人性化。
實施例二:
圖2示出了本實施例所提供的用于智能機器人的人機交互方法的實現(xiàn)路程圖。
如圖2所示,本實施例所提供的人機交互方法首先在步驟S201中獲取用戶輸入的多模態(tài)交互信息,并在步驟S201中對步驟S201中所獲取到的多模態(tài)交互信息進行解析來生成用戶情感參量。
需要指出的是,本實施例中,上述步驟S201和步驟S202的具體實現(xiàn)原理以及實現(xiàn)過程分別與上述實施例一中步驟S101和步驟S102所闡述的內(nèi)容相同,故在此不再對步驟S201和步驟S202的具體內(nèi)容進行贅述。
在得到用戶情感參量后,本實施例所提供的方法會在步驟S203中根據(jù)上述用戶情感參量來確定當(dāng)前情感場景,并在步驟S204中獲取與當(dāng)前情感場景相對應(yīng)的音樂。
具體地,本實施例中,該方法優(yōu)選地根據(jù)用戶情感參量和交互場景信息來確定當(dāng)前情感場景。其中,當(dāng)前情感場景不僅能夠表征出用戶的當(dāng)前情感狀態(tài),還能夠表征出當(dāng)前交互場景的相關(guān)狀態(tài)。例如,在本發(fā)明的一個實施例中,該方法在步驟S203中確定出的當(dāng)前情感場景表征出用戶當(dāng)前的情感狀態(tài)為“焦慮”狀態(tài),當(dāng)前交互場景為用戶躺在床上準(zhǔn)備睡覺,此時該方法在步驟S204中便可以生成諸如“流水聲”或“海浪拍打沙灘的聲音”等音樂來對用戶進行安撫,從而幫助用戶盡早入睡。
本實施例中,該方法還會在步驟S205中生成對應(yīng)于多模態(tài)交互信息的反饋信息,并在步驟S206中將步驟S204中所得到的音樂作為上述反饋信息的背景音進行輸出。
例如,用戶需要上床睡覺但其情緒較為焦慮,該方法在步驟S204中生成了“海浪拍打沙灘的聲音”,其在步驟S205中還可以生成能夠幫助用戶睡眠的哼唱曲調(diào)來作為反饋信息。該方法可以在步驟S205中同時輸出上述反饋信息和音樂,從而更加有效地安撫用戶情緒并幫助用戶入眠。
本發(fā)明還提供了一種新的用于智能機器人的人機交互裝置,圖3示出了本實施例中該人機交互裝置的結(jié)構(gòu)示意圖。
如圖3所示,本實施例所提供的人機交互裝置優(yōu)選地包括:交互信息獲取模塊301、情感信息生成模塊302以及數(shù)據(jù)輸出模塊303。其中,交互信息獲取模塊301用于獲取用戶輸入的多模態(tài)交互信息。需要指出的是,在本發(fā)明的不同實施例中,述多模態(tài)交互信息可以是諸如語音信息、文本信息、肢體信息、動作信息和視覺信息(即圖像信息)等信息中的某一項或某幾項,本發(fā)明不限于此。
與之對應(yīng)地,交互信息獲取模塊301可以采用不同的合理設(shè)備來實現(xiàn)。例如,交互信息獲取模塊301可以包括智能機器人所配置的音頻采集設(shè)備(例如麥克風(fēng)),并利用該音頻采集設(shè)備來獲取用戶輸入的語音信息;交互信息獲取模塊301還可以包括視覺采集設(shè)備(例如高清攝像頭或體感攝像頭),并利用該視覺采集設(shè)備來獲取用戶輸入的圖像信息和/或肢體信息。
本實施例中,交互信息獲取模塊301在獲取到多模態(tài)交互信息后,會將該多模態(tài)交互信息傳輸至情感信息生成模塊302。其中,情感信息生成模塊302在接收到上述多模態(tài)交互信息后,會對該多模態(tài)交互信息進行解析,從而得到用戶情感參量。
具體地,本實施例中,情感信息生成模塊302可以采用預(yù)設(shè)情感引擎來對接收到的多模態(tài)交互信息進行解析,以得到用戶情感參量。需要指出的是,本實施例中,情感信息生成模塊302根據(jù)多模態(tài)交互信息生成用戶情感參量的具體實現(xiàn)原理與實現(xiàn)過程與上述實施例一中步驟S102所涉及的內(nèi)容類似,故在此不再對情感信息生成模塊302的相關(guān)內(nèi)容進行贅述。
在得到用戶情感參量后,情感信息生成模塊302會將上述用戶情感參量傳輸至數(shù)據(jù)輸出模塊303。數(shù)據(jù)輸出模塊303則可以根據(jù)上述用戶情感參量生成與用戶情感參量相匹配的音樂,并結(jié)合上述音樂生成多模態(tài)輸出數(shù)據(jù)并輸出給當(dāng)前用戶。
本實施例中,數(shù)據(jù)輸出模塊303優(yōu)選地首先根據(jù)用戶情感參量和交互場景信息來確定當(dāng)前情感場景,隨后再獲取與當(dāng)前情感場景相對應(yīng)的音樂。在得到上述音樂后,數(shù)據(jù)輸出模塊303還會生成對應(yīng)于上述多模態(tài)交互信息的反饋信息,并將所得到的音樂作為上述反饋信息的背景音進行輸出。
需要指出的是,本實施例中,數(shù)據(jù)輸出模塊303實現(xiàn)其功能的具體原理以及過程與上述實施例二中步驟S203~步驟S206所涉及的內(nèi)容類似,故在此不再對數(shù)據(jù)輸出模塊303的相關(guān)內(nèi)容進行贅述。
應(yīng)該理解的是,本發(fā)明所公開的實施例不限于這里所公開的特定結(jié)構(gòu)或處理步驟,而應(yīng)當(dāng)延伸到相關(guān)領(lǐng)域的普通技術(shù)人員所理解的這些特征的等同替代。還應(yīng)當(dāng)理解的是,在此使用的術(shù)語僅用于描述特定實施例的目的,而并不意味著限制。
說明書中提到的“一個實施例”或“實施例”意指結(jié)合實施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個實施例中。因此,說明書通篇各個地方出現(xiàn)的短語“一個實施例”或“實施例”并不一定均指同一個實施例。
雖然上述示例用于說明本發(fā)明在一個或多個應(yīng)用中的原理,但對于本領(lǐng)域的技術(shù)人員來說,在不背離本發(fā)明的原理和思想的情況下,明顯可以在形式上、用法及實施的細(xì)節(jié)上作各種修改而不用付出創(chuàng)造性勞動。因此,本發(fā)明由所附的權(quán)利要求書來限定。