本發(fā)明涉及智能對(duì)話領(lǐng)域,特別是涉及一種具有情景分析功能的智能對(duì)話裝置及方法。
背景技術(shù):
隨著科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)、計(jì)算機(jī)技術(shù)以及人工智能技術(shù)的引入,機(jī)器人的研究已經(jīng)逐步走出工業(yè)領(lǐng)域,逐漸擴(kuò)展到了醫(yī)療、保健、家庭、娛樂(lè)以及服務(wù)行業(yè)等領(lǐng)域。而人們對(duì)于機(jī)器人的要求也從簡(jiǎn)單重復(fù)的機(jī)械動(dòng)作提升為具有擬人問(wèn)答、自主性及與其他機(jī)器人進(jìn)行交互的智能機(jī)器人,人機(jī)交互也就成為決定智能機(jī)器人發(fā)展的重要因素。
人機(jī)交互系統(tǒng)作為智能領(lǐng)域核心模塊,扮演著舉足輕重的角色。在日常的人機(jī)交互過(guò)程中,機(jī)器往往是根據(jù)輸入的信息進(jìn)行語(yǔ)義分析、分類,然后進(jìn)而確定反饋語(yǔ)句。參見(jiàn)cn106202270a。這樣的分析相對(duì)人類對(duì)話而言,智能程度遠(yuǎn)遠(yuǎn)不如。精準(zhǔn)不夠,就可能產(chǎn)生過(guò)多的確認(rèn)、反復(fù)流程,或者造成過(guò)多的錯(cuò)誤。因此提升智能機(jī)器人的語(yǔ)言交互能力,是亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問(wèn)題是為了克服現(xiàn)有技術(shù)中人機(jī)對(duì)話裝置沒(méi)有對(duì)用戶進(jìn)行個(gè)性化分析,導(dǎo)致難以做到有針對(duì)性的對(duì)用戶進(jìn)行準(zhǔn)確回答和反饋的缺陷,提供一種具有情景分析功能的智能對(duì)話裝置及方法。
本發(fā)明是通過(guò)下述技術(shù)方案來(lái)解決上述技術(shù)問(wèn)題的:
本發(fā)明提供了一種具有情景分析功能的智能對(duì)話裝置,包括語(yǔ)音輸入模塊、通信模塊、數(shù)據(jù)處理服務(wù)器、內(nèi)容服務(wù)器、輸出模塊:
所述語(yǔ)音輸入模塊與所述通信模塊電連接,所述通信模塊分別與所述數(shù)據(jù)處理服務(wù)器及所述輸出模塊通信連接,所述數(shù)據(jù)處理服務(wù)器與所述內(nèi)容服務(wù)器電連接;
所述語(yǔ)音輸入模塊用于采集用戶輸入的語(yǔ)音信息,并通過(guò)所述通信模塊傳輸至所述數(shù)據(jù)處理服務(wù)器;
所述數(shù)據(jù)處理服務(wù)器用于根據(jù)所述語(yǔ)音信息獲取用戶的當(dāng)前情景信息,并從所述內(nèi)容服務(wù)器中調(diào)取與所述當(dāng)前情景信息相對(duì)應(yīng)的多媒體數(shù)據(jù),并通過(guò)所述通信模塊將所述多媒體數(shù)據(jù)傳輸至所述輸出模塊;
所述輸出模塊用于輸出所述多媒體數(shù)據(jù)。
較佳地,所述數(shù)據(jù)處理服務(wù)器包括聲紋識(shí)別裝置;
所述聲紋識(shí)別裝置用于根據(jù)所述語(yǔ)音信息識(shí)別用戶的聲紋特征,所述當(dāng)前情景信息包括所述聲紋特征。
較佳地,所述數(shù)據(jù)處理服務(wù)器包括語(yǔ)音識(shí)別裝置;
所述語(yǔ)音識(shí)別裝置用于根據(jù)所述語(yǔ)音信息識(shí)別用戶的語(yǔ)義信息,所述當(dāng)前情景信息包括所述語(yǔ)義信息。
較佳地,所述數(shù)據(jù)處理服務(wù)器包括語(yǔ)音轉(zhuǎn)換裝置;
所述語(yǔ)音轉(zhuǎn)換裝置用于將所述語(yǔ)音信息轉(zhuǎn)換為文本信息,所述當(dāng)前情景信息包括所述文本信息。
較佳地,所述智能對(duì)話裝置還包括gps定位裝置,所述gps定位裝置與所述通信模塊電連接;
所述gps定位裝置用于獲取用戶的位置信息,并通過(guò)所述通信模塊傳輸至所述數(shù)據(jù)處理服務(wù)器;
所述數(shù)據(jù)處理服務(wù)器還用于根據(jù)所述位置信息獲取所述當(dāng)前情景信息。
較佳地,所述智能對(duì)話裝置還包括攝像裝置,所述攝像裝置與所述通信模塊電連接;
所述攝像裝置用于獲取用戶的圖像信息,并通過(guò)所述通信模塊傳輸至所述數(shù)據(jù)處理服務(wù)器;
所述數(shù)據(jù)處理服務(wù)器還用于根據(jù)所述圖像信息獲取所述當(dāng)前情景信息。
較佳地,所述圖像信息包括用戶的面部圖像信息;
所述數(shù)據(jù)處理服務(wù)器包括表情識(shí)別裝置;
所述表情識(shí)別裝置用于根據(jù)所述面部圖像信息識(shí)別用戶的面部表情信息,所述當(dāng)前情景信息包括所述面部表情信息。
較佳地,所述數(shù)據(jù)處理服務(wù)器還包括情緒識(shí)別裝置;
所述情緒識(shí)別裝置用于根據(jù)所述面部表情信息識(shí)別用戶的情緒信息,所述當(dāng)前情景信息包括所述情緒信息。
較佳地,所述數(shù)據(jù)處理服務(wù)器還包括虹膜識(shí)別裝置;
所述虹膜識(shí)別裝置用于根據(jù)所述面部表情信息識(shí)別用戶的虹膜信息,所述當(dāng)前情景信息包括所述虹膜信息。
較佳地,所述智能對(duì)話裝置為故事機(jī)或點(diǎn)讀機(jī);所述多媒體數(shù)據(jù)包括音頻數(shù)據(jù)和/或視頻數(shù)據(jù)。
本發(fā)明還提供了一種具有情景分析功能的智能對(duì)話方法,其利用上述的智能對(duì)話裝置實(shí)現(xiàn),所述智能對(duì)話方法包括以下步驟:
s1、采集用戶輸入的語(yǔ)音信息;
s2、根據(jù)所述語(yǔ)音信息獲取用戶的當(dāng)前情景信息,并調(diào)取與所述當(dāng)前情景信息相對(duì)應(yīng)的多媒體數(shù)據(jù);
s3、輸出所述多媒體數(shù)據(jù)。
較佳地,在步驟s2中根據(jù)所述語(yǔ)音信息識(shí)別用戶的聲紋特征,所述當(dāng)前情景信息包括所述聲紋特征。
較佳地,在步驟s2中,根據(jù)所述語(yǔ)音信息識(shí)別用戶的語(yǔ)義信息,所述當(dāng)前情景信息包括所述語(yǔ)義信息。
較佳地,在步驟s2中,將所述語(yǔ)音信息轉(zhuǎn)換為文本信息,所述當(dāng)前情景信息包括所述文本信息。
較佳地,在步驟s2中,獲取用戶的位置信息,根據(jù)所述位置信息獲取所述當(dāng)前情景信息。
較佳地,在步驟s2中,獲取用戶的圖像信息,并根據(jù)所述圖像信息獲取所述當(dāng)前情景信息。
較佳地,所述圖像信息包括用戶的面部圖像信息,在步驟s2中,所述表情識(shí)別裝置根據(jù)所述面部圖像信息識(shí)別用戶的面部表情信息,所述當(dāng)前情景信息包括所述面部表情信息。
較佳地,在步驟s2中,根據(jù)所述面部表情信息識(shí)別用戶的情緒信息,所述當(dāng)前情景信息包括所述情緒信息。
較佳地,在步驟s2中,根據(jù)所述面部表情信息識(shí)別用戶的虹膜信息,所述當(dāng)前情景信息包括所述虹膜信息。
本發(fā)明的積極進(jìn)步效果在于:本發(fā)明能夠?qū)τ脩粼谶M(jìn)行人機(jī)對(duì)話時(shí)對(duì)用戶進(jìn)行情景分析,從而增加了人機(jī)對(duì)話的準(zhǔn)確性和針對(duì)性,通過(guò)分析用戶的真實(shí)情景情況,對(duì)用戶進(jìn)行針對(duì)性的回答和反饋,從而提高了人機(jī)對(duì)話的準(zhǔn)確性。
附圖說(shuō)明
圖1為本發(fā)明的實(shí)施例1的具有情景分析功能的智能對(duì)話裝置的模塊示意圖。
圖2為本發(fā)明的實(shí)施例1的具有情景分析功能的智能對(duì)話裝置的數(shù)據(jù)處理服務(wù)器的結(jié)構(gòu)示意圖。
圖3為本發(fā)明實(shí)施例1的具有情景分析功能的智能對(duì)話方法的流程圖。
圖4為本發(fā)明的實(shí)施例2的具有情景分析功能的智能對(duì)話裝置的模塊示意圖。
圖5為本發(fā)明的實(shí)施例3的具有情景分析功能的智能對(duì)話裝置的模塊示意圖。
圖6為本發(fā)明的實(shí)施例3的具有情景分析功能的智能對(duì)話裝置的數(shù)據(jù)處理服務(wù)器的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面通過(guò)實(shí)施例的方式進(jìn)一步說(shuō)明本發(fā)明,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。
實(shí)施例1
如圖1所示,本實(shí)施例的具有情景分析功能的智能對(duì)話裝置包括語(yǔ)音輸入模塊1、通信模塊2、數(shù)據(jù)處理服務(wù)器3、內(nèi)容服務(wù)器4以及輸出模塊5;
其中,所述語(yǔ)音輸入模塊1與所述通信模塊2(可以為有線通信模塊,也可以為無(wú)線通信模塊,如wi-fi通信模塊等)電連接,所述通信模塊2分別與所述數(shù)據(jù)處理服務(wù)器3及所述輸出模塊5通信連接,所述數(shù)據(jù)處理服務(wù)器3與所述內(nèi)容服務(wù)器4電連接;
所述語(yǔ)音輸入模塊1具體可包括麥克風(fēng),用于采集用戶輸入的語(yǔ)音信息,并通過(guò)所述通信模塊2傳輸至所述數(shù)據(jù)處理服務(wù)器3;
所述數(shù)據(jù)處理服務(wù)器3于根據(jù)所述語(yǔ)音信息獲取用戶的當(dāng)前情景信息,在本實(shí)施例中,如圖2所示,所述數(shù)據(jù)服務(wù)處理器3具體可包括聲紋識(shí)別裝置31、語(yǔ)音識(shí)別裝置32以及語(yǔ)音轉(zhuǎn)換裝置33;所述聲紋識(shí)別裝置31用于根據(jù)所述語(yǔ)音信息識(shí)別用戶的聲紋特征,所述當(dāng)前情景信息可包括所述聲紋特征,所述語(yǔ)音識(shí)別裝置32用于根據(jù)所述語(yǔ)音信息識(shí)別用戶的語(yǔ)義信息,所述當(dāng)前情景信息包括所述語(yǔ)義信息,即利用所述語(yǔ)音識(shí)別裝置32可以識(shí)別出用戶輸入的語(yǔ)音所表達(dá)的語(yǔ)義;所述語(yǔ)音轉(zhuǎn)換裝置33用于將所述語(yǔ)音信息轉(zhuǎn)換為文本信息,所述當(dāng)前情景信息包括所述文本信息,即可以將用戶發(fā)出的語(yǔ)音轉(zhuǎn)換為對(duì)應(yīng)的文字;
所述內(nèi)容服務(wù)器4中則可以預(yù)先存儲(chǔ)用戶不同的情景信息以及與情景信息所對(duì)應(yīng)的多媒體數(shù)據(jù),這樣所述數(shù)據(jù)處理服務(wù)器3在獲取用戶的當(dāng)前情景信息后,就可以從所述內(nèi)容服務(wù)器4中調(diào)取與所述當(dāng)前情景信息相對(duì)應(yīng)的多媒體數(shù)據(jù),并通過(guò)所述通信模塊2將所述多媒體數(shù)據(jù)傳輸至所述輸出模塊5;
在本實(shí)施例的具體實(shí)施過(guò)程中,所述智能對(duì)話裝置具體可以為故事機(jī)或點(diǎn)讀機(jī),所述多媒體數(shù)據(jù)具體可以為音頻數(shù)據(jù)、視頻數(shù)據(jù),這樣,所述內(nèi)容服務(wù)器4具體就可以存儲(chǔ)音頻數(shù)據(jù)、視頻數(shù)據(jù)(例如相應(yīng)的故事、圖片、視頻等),與現(xiàn)有技術(shù)不同的是,本發(fā)明中所述內(nèi)容服務(wù)器存儲(chǔ)的音視頻數(shù)據(jù)是與用戶的情景信息相對(duì)應(yīng)的,在本實(shí)施例中,用戶的情景信息具體通過(guò)語(yǔ)音體現(xiàn),即包括上述的聲紋特征、語(yǔ)義信息及轉(zhuǎn)換后的文本信息等,這樣通過(guò)用戶語(yǔ)音就可以反映出用戶的口音、用戶的性別、用戶的年齡、用戶的情緒等等情景信息,從而所述數(shù)據(jù)處理服務(wù)器3就可以通過(guò)上述這些情景信息從所述內(nèi)容服務(wù)器4中獲取到相匹配的多媒體數(shù)據(jù);
所述輸出模塊4則用于向用戶輸出所述多媒體數(shù)據(jù),所述輸出模塊4具體可以包括揚(yáng)聲器、顯示屏等輸出裝置。
舉一個(gè)具體的例子,例如,如果一名廣東中年男子向本實(shí)施例的智能對(duì)話裝置說(shuō)“我要聽(tīng)一首歌”,這樣所述數(shù)據(jù)處理服務(wù)器3就可以從用戶的語(yǔ)音分析出用戶的口音、用戶的年齡段、用戶的性別等情景信息,從而就會(huì)從所述內(nèi)容服務(wù)器4中查詢出相匹配的多媒體數(shù)據(jù),例如查詢出一首粵語(yǔ)經(jīng)典歌曲,而所述輸出模塊4就可以向用戶播放所述粵語(yǔ)經(jīng)典歌曲。
而如果是一名北京年輕女孩同樣向本實(shí)施例的智能對(duì)話裝置說(shuō)“我要聽(tīng)一首歌”,這樣所述數(shù)據(jù)處理服務(wù)器3就可以從用戶的語(yǔ)音分析出用戶的口音、用戶的年齡段、用戶的性別等情景信息,從而就會(huì)從所述內(nèi)容服務(wù)器4中查詢出相匹配的多媒體數(shù)據(jù),例如查詢出一首適合女生的歌曲,如花仙子主題曲,而所述輸出模塊4就可以向用戶播放花仙子主題曲。
如圖3所示,本實(shí)施例還提供了一種具有情景分析功能的智能對(duì)話方法,其利用上述的智能對(duì)話裝置實(shí)現(xiàn),包括以下步驟:
步驟101、所述語(yǔ)音輸入模塊采集用戶輸入的語(yǔ)音信息,并通過(guò)所述通信模塊傳輸至所述數(shù)據(jù)處理服務(wù)器;
步驟102、所述數(shù)據(jù)處理服務(wù)器根據(jù)所述語(yǔ)音信息獲取用戶的當(dāng)前情景信息,并從所述內(nèi)容服務(wù)器中調(diào)取與所述當(dāng)前情景信息相對(duì)應(yīng)的多媒體數(shù)據(jù),并通過(guò)所述通信模塊將所述多媒體數(shù)據(jù)傳輸至所述輸出模塊;
步驟103、所述輸出模塊輸出所述多媒體數(shù)據(jù)。
其中,在步驟102中,具體可包括:
所述聲紋識(shí)別裝置根據(jù)所述語(yǔ)音信息識(shí)別用戶的聲紋特征,所述當(dāng)前情景信息包括所述聲紋特征;
所述語(yǔ)音識(shí)別裝置根據(jù)所述語(yǔ)音信息識(shí)別用戶的語(yǔ)義信息,所述當(dāng)前情景信息包括所述語(yǔ)義信息;
所述語(yǔ)音轉(zhuǎn)換裝置將所述語(yǔ)音信息轉(zhuǎn)換為文本信息,所述當(dāng)前情景信息包括所述文本信息。
實(shí)施例2
本實(shí)施例的具有情景分析功能的智能對(duì)話裝置與實(shí)施例1基本相同,主要區(qū)別在于:如圖4所示,本實(shí)施例的智能對(duì)話裝置還包括gps定位裝置5,所述gps定位裝置5與所述通信模塊2電連接;
所述gps定位裝置5用于獲取用戶的位置信息,并通過(guò)所述通信模塊2傳輸至所述數(shù)據(jù)處理服務(wù)器3;
在本實(shí)施例中,所述數(shù)據(jù)處理服務(wù)器3會(huì)結(jié)合用戶的語(yǔ)音及用戶的位置來(lái)獲取用戶的當(dāng)前情景信息,然后從所述內(nèi)容服務(wù)器4中獲取相應(yīng)的多媒體數(shù)據(jù)。
例如,同樣是用戶向本實(shí)施例的智能對(duì)話裝置說(shuō)“我要聽(tīng)一段文藝節(jié)目”,如果所述gps定位裝置5定位到用戶位于東北,則所述數(shù)據(jù)處理服務(wù)器3就從所述內(nèi)容服務(wù)器4中獲取東北的二人轉(zhuǎn)節(jié)目,然后播放給用戶;如果所述gps定位裝置5定位到用戶位于天津,則所述數(shù)據(jù)處理服務(wù)器3就從所述內(nèi)容服務(wù)器4中獲取天津的相聲節(jié)目,然后播放給用戶。
本實(shí)施例也提供了一種具有情境分析功能的智能對(duì)話方法,與實(shí)施例1的智能對(duì)話方法的區(qū)別在于,在步驟102中,具體還包括:所述gps定位裝置獲取用戶的位置信息,并通過(guò)所述通信模塊傳輸至所述數(shù)據(jù)處理服務(wù)器;所述數(shù)據(jù)處理服務(wù)器還根據(jù)所述位置信息獲取所述當(dāng)前情景信息。
實(shí)施例3
本實(shí)施例的具有情景分析功能的智能對(duì)話裝置與實(shí)施例2基本相同,主要區(qū)別在于:如圖5所示,本實(shí)施例的智能對(duì)話裝置還包括攝像裝置7,所述攝像裝置7與所述通信模塊2電連接;
所述攝像裝置7用于獲取用戶的圖像信息,并通過(guò)所述通信模塊2傳輸至所述數(shù)據(jù)處理服務(wù)器3;
在本實(shí)施例中,所述數(shù)據(jù)處理服務(wù)器3會(huì)同時(shí)結(jié)合用戶的語(yǔ)音、用戶的位置以及用戶的圖像信息來(lái)獲取用戶的當(dāng)前情景信息,然后從所述內(nèi)容服務(wù)器4中獲取相應(yīng)的多媒體數(shù)據(jù)。
在本實(shí)施例的具體實(shí)施過(guò)程中,如圖6所示,所述數(shù)據(jù)處理服務(wù)器3還包括表情識(shí)別裝置34、情緒識(shí)別裝置35、虹膜識(shí)別裝置36;
所述圖像信息具體可包括用戶的面部圖像信息,所述表情識(shí)別裝置34用于根據(jù)所述面部圖像信息識(shí)別用戶的面部表情信息,所述當(dāng)前情景信息可包括所述面部表情信息;所述情緒識(shí)別裝置35用于根據(jù)所述面部表情信息識(shí)別用戶的情緒信息,所述當(dāng)前情景信息包括所述情緒信息;所述虹膜識(shí)別裝置36用于根據(jù)所述面部表情信息識(shí)別用戶的虹膜信息,所述當(dāng)前情景信息包括所述虹膜信息.
在本實(shí)施例中,在獲取用戶的語(yǔ)音、位置信息的基礎(chǔ)上,還會(huì)考慮到用戶的圖像信息,通過(guò)分析用戶的面部表情來(lái)獲取用戶的情緒以及通過(guò)用戶的虹膜信息(包括瞳孔的縮放變化等)來(lái)獲取用戶的情緒,從而通過(guò)用戶的面部表情來(lái)獲知用戶的情緒、興趣關(guān)注度、專注度等,進(jìn)而可以同時(shí)結(jié)合用戶的語(yǔ)音、位置以及面部表情來(lái)獲取用戶的當(dāng)前情景信息。
從而本實(shí)施例可以通過(guò)對(duì)用戶的語(yǔ)音、照片、位置進(jìn)行綜合判斷,對(duì)用戶發(fā)出的語(yǔ)音進(jìn)行準(zhǔn)確性和針對(duì)性的分析,從而對(duì)用戶進(jìn)行針對(duì)性的回答,提高了人機(jī)對(duì)話的精準(zhǔn)性。
本實(shí)施例也提供了一種具有情境分析功能的智能對(duì)話方法,與實(shí)施例2的智能對(duì)話方法的區(qū)別在于,在步驟102中,具體還包括:所述表情識(shí)別裝置34根據(jù)所述面部圖像信息識(shí)別用戶的面部表情信息,所述當(dāng)前情景信息包括所述面部表情信息;所述情緒識(shí)別裝置35根據(jù)所述面部表情信息識(shí)別用戶的情緒信息,所述當(dāng)前情景信息包括所述情緒信息;所述虹膜識(shí)別裝置36根據(jù)所述面部表情信息識(shí)別用戶的虹膜信息,所述當(dāng)前情景信息包括所述虹膜信息.
雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說(shuō)明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書(shū)限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對(duì)這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。