欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

應用于智能機器人的語音優(yōu)化方法及裝置與流程

文檔序號:12179705閱讀:829來源:國知局
應用于智能機器人的語音優(yōu)化方法及裝置與流程

本發(fā)明涉及智能機器人領域,尤其涉及一種應用于智能機器人的語音優(yōu)化方法及裝置。



背景技術:

隨著智能機器人產品的逐漸普及,更多的智能機器人走進家庭,成為孩子的玩伴和大人的管家。

現(xiàn)有的智能機器人已經能夠與用戶通過語言交流的方式回答用戶的問題或者進行簡單的聊天,但是由于技術上的限制,機器人在與用戶進行語言交流時發(fā)出的聲音還是以機器聲音為主,聲音較為強硬且不帶有感情,因此,現(xiàn)有的人機交互過程會給用戶帶來不好的體驗。

因此,亟需提供一種解決方案,該方案能夠優(yōu)化聲音體驗,讓與機器人進行交互的用戶感覺舒服,提高智能機器人的交互能力,滿足用戶的交互需求。



技術實現(xiàn)要素:

本發(fā)明所要解決的技術問題之一是需要提供一種能夠優(yōu)化聲音體驗,使機器人語音輸出更具有人類語言的特點,提高智能機器人的交互能力的應用于智能機器人的語音優(yōu)化方法及裝置。

為了解決上述技術問題,本申請的實施例首先提供了一種應用于智能機器人的語音優(yōu)化方法,包括:獲取用戶的多模態(tài)輸入數據;響應該多模態(tài)輸入數據生成文本信息;對所述文本信息進行文本分析,并根據分析結果查詢相應的應答信息;在確定滿足設定的觸發(fā)規(guī)則時,將相應的媒體文件與TTS系統(tǒng)生成的響應所述應答信息的TTS語音按照設定規(guī)則輸出。

優(yōu)選地,在如下情況下,確定滿足所述設定的觸發(fā)規(guī)則:

在接收到來自用戶的特定語句信息時;或者,

滿足設定播放媒體文件的播放時間。

優(yōu)選地,將所述媒體文件與TTS語音合成后輸出。

優(yōu)選地,在輸出TTS語音之前輸出所述媒體文件。

根據本發(fā)明的另一方面,還提供了一種應用于智能機器人的語音優(yōu)化裝置,包括:多模態(tài)輸入單元,其用于獲取用戶的多模態(tài)輸入數據;響應單元,其用于響應該多模態(tài)輸入數據生成文本信息;分析單元,其用于對所述文本信息進行文本分析,并根據分析結果查詢相應的應答信息;語音輸出單元,其用于在確定滿足設定的觸發(fā)規(guī)則時,將相應的媒體文件與TTS系統(tǒng)生成的響應所述應答信息的TTS語音按照設定規(guī)則輸出。

優(yōu)選地,在如下情況下,確定滿足所述設定的觸發(fā)規(guī)則:在接收到來自用戶的特定語句信息時;或者,滿足設定播放媒體文件的播放時間。

優(yōu)選地,所述語音輸出單元進一步將所述媒體文件與TTS語音合成后輸出。

優(yōu)選地,所述語音輸出單元進一步在輸出TTS語音之前輸出所述媒體文件。,

與現(xiàn)有技術相比,上述方案中的一個或多個實施例可以具有如下優(yōu)點或有益效果:

本發(fā)明實施例通過對多模態(tài)輸入數據進行文本分析,在確定滿足設定的觸發(fā)規(guī)則時,獲取相應的媒體文件,并將媒體文件與TTS語音按照設定規(guī)則輸出,能夠使機器人語音輸出更加具備人類語言的特點,韻律良好,提高用戶與智能機器人的交互體驗度。

本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明的技術方案而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權利要求書以及附圖中所特別指出的結構和/或流程來實現(xiàn)和獲得。

附圖說明

附圖用來提供對本申請的技術方案或現(xiàn)有技術的進一步理解,并且構成說明書的一部分。其中,表達本申請實施例的附圖與本申請的實施例一起用于解釋本申請的技術方案,但并不構成對本申請技術方案的限制。

圖1是根據本發(fā)明的應用于智能機器人的語音優(yōu)化方法示例一的流程示意圖。

圖2是根據本發(fā)明的應用于智能機器人的語音優(yōu)化方法示例二的流程示意圖。

圖3是根據本發(fā)明的應用于智能機器人的語音優(yōu)化裝置的實施例的結構框圖。

具體實施方式

以下將結合附圖及實施例來詳細說明本發(fā)明的實施方式,借此對本發(fā)明如何應用技術手段來解決技術問題,并達成相應技術效果的實現(xiàn)過程能充分理解并據以實施。本申請實施例以及實施例中的各個特征,在不相沖突前提下可以相互結合,所形成的技術方案均在本發(fā)明的保護范圍之內。

另外,附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

在現(xiàn)有技術中,智能機器人與用戶進行多模態(tài)語音交互時,往往僅是根據TTS系統(tǒng)生成語音交互信息,該語音較為機器化,且較為生硬,給人的感覺不舒服。因此,為了使智能機器人發(fā)出的聲音具備人類聲音的特點,具有韻律,本發(fā)明實施例提供了一種應用于智能機器人的語音優(yōu)化方法。

第一實施例

圖1是根據本發(fā)明實施例的應用于智能機器人的語音優(yōu)化方法示例一的流程示意圖。下面參考圖1對本實施例方法的各個步驟進行說明。

在步驟S110中,獲取用戶的多模態(tài)輸入數據。

需要說明的是,多模態(tài)輸入數據主要包括音頻數據、視頻數據、圖像數據以及用于使機器人能夠輸出一定動作或執(zhí)行軟件或硬件的程序指令。多模態(tài)輸入數據的組合比較復雜,通過對多模態(tài)輸入數據進行分析能夠得到可靠或是有意義的結果,確定多模態(tài)數據發(fā)出者的真實意圖。

在本例中,可以通過智能機器人的圖像采集系統(tǒng)(例如攝像頭)、語音輸入系統(tǒng)(例如麥克風)等來獲取多模態(tài)輸入數據。例如,在用戶與機器人進行語音交互時,用戶向機器人發(fā)出語音信息,未知語音信號經麥克風、話筒之類的語音信號采集設備變換成電信號后輸入到識別系統(tǒng)的輸入端再進行處理。

在步驟S120中,響應該多模態(tài)輸入數據生成文本信息。

由于本例針對的是如何對語音進行優(yōu)化,因此,此處以用戶發(fā)出的語音信息作為多模態(tài)輸入數據為例,來說明后面的步驟流程。

首先,對多模態(tài)輸入數據進行例如去噪之類的預處理,然后將預處理后的語音信息進行語音識別的綜合分析,生成與語音信息對應的文本信息。需要說明的是,語音識別,對于人來說接收到的語音可以立馬轉換為文字信息,但是對于機器人來說接收到的則是數字信號而已。當有人提問“你好嗎?”時,“Ni”這個發(fā)音可以是“泥”也可以是“逆”,所以最終要確定是哪個字還需要語音識別技術來實現(xiàn)計算概率的最大化。在本步驟中,首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板。在識別過程中要根據語音識別的模型,將預先存儲的語音模板與輸入的語音信號的特征進行比較,根據一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據此模板的定義,通過查表就可以給出識別結果。

當然,在其他特殊情況下,多模態(tài)輸入數據可以是用戶輸入的圖像數據,在本步驟中,可以利用文本掃描器對用戶輸入的圖像數據進行掃描,轉換得到與圖像中的文字內容對應的文本信息。

在步驟S130中,對文本信息進行文本分析,并根據分析結果查詢相應的應答信息。

在獲取識別結果之后,利用自然語言處理技術對識別結果進行語義解析。語義分析,指的是將給定的自然語言轉化為反映其意義的某種形式化表示,也就是將人類能夠理解的自然語言轉化為計算機能夠理解的形式語言,做到人與機器的互相溝通。

在獲得解析結果后,計算該解析結果與已設定的知識庫中的內容的語義相似度(問題和問題的相似度),從而在知識庫中搜索與解析結果相匹配的數據。然后,根據匹配結果,在語音交互應答數據庫中查找與該文本信息相應的應答信息。語音交互應答數據庫中存儲了對應各種主題的信息內容,通過將文本分析結果中的特定詞匯與數據庫中的內容進行比對,能夠找到相應的應答信息。

例如,在對文本信息進行解析后的到“天氣真好啊”,其中含有名詞“天氣”,則可以從語音交互應答數據庫中查找到當前時間、當前地點的天氣狀況信息,例如“今天北京的天氣是晴,體感溫度24°,微風”,并將該信息作為應答信息。

在步驟S140中,在接收到來自用戶的特定語句信息時,將相應的媒體文件與TTS系統(tǒng)生成的響應應答信息的TTS語音按照設定規(guī)則輸出。

通過在步驟S130對文本信息進行文本分析后,若分析得到的語義信息屬于特定語句信息庫的內容,也就是說接收到來自用戶的特定語句信息,則調取相應的媒體文件,進行語音輸出。

在一個示例中,預先存儲了包含特定語句信息的特定語句數據庫,在將獲取的語音識別后的文本信息與該特定語句數據庫中的內容進行對比,若文本信息與數據庫中某一內容匹配,則確定滿足設定的觸發(fā)規(guī)則。例如,用戶與機器人聊天時說:“今天天氣真好啊”,通過語音識別技術得到文本信息“今天天氣真好啊”,將該文本信息與特定語句數據庫中的內容進行對比,由于該數據庫中存儲了“天氣真好”,則計算機認為匹配成功,則確定用戶的這一語句滿足設定的觸發(fā)規(guī)則。

媒體文件一般是指文本、動畫、視頻和音頻格式的文件,本發(fā)明實施例主要是類似AVI、MPG、WAV、MID、MP3等格式的音頻格式的文件。在一個例子中,媒體文件可以是語音片段(例如短句、詞或音節(jié))的音頻文件,例如,該音頻文件可以發(fā)出感嘆詞“啊”、“哇”、“嗯”、“哎呀”等聲音,或者可以發(fā)出“么么噠”的表示親吻的擬聲聲音、“呵呵呵”、“哈哈哈”表示笑聲的擬聲聲音。

在一個例子中,在獲取媒體文件的過程中,可以根據預設的文本-媒體對應列表,查找相應的媒體文件。具體來說,預設的文本-媒體對應列表中,關聯(lián)存儲文本和媒體文件,在該列表中的文本一般包含用戶的語氣助詞,或者形容詞,而對應這些語氣助詞或者形容詞的媒體文件可以是僅包含語氣助詞的文件或者表達機器人情緒的語言的文件。例如,在對文本信息進行解析后得到,“天氣真好啊”,其中含有形容詞“好”和語氣助詞“啊”則通過查找得到對應的媒體文件是包含語氣助詞“啊~~~”在內的媒體文件。

在滿足了觸發(fā)規(guī)則后,將相應的媒體文件與TTS系統(tǒng)生成的響應應答信息的TTS語音按照設定規(guī)則輸出。下面說明如何通過TTS系統(tǒng)生成與應答信息對應的TTS語音,對應答信息進行文本解析,解析過程包括文本結構檢測、韻律產生和單元選擇等步驟,

文本結構檢測,主要是根據標點符號進行斷句,并可以確定句子的語氣,如:陳述句、感嘆句、疑問句等。第二是需要對文本規(guī)范化,文本規(guī)范化就是將文本中的非發(fā)音符號變成可發(fā)音的文字過程,如數學符號:2/3、123、12%等。第三,是分詞和詞性標注,這一步是采用自然語言處理技術,對規(guī)范化的文本進行語法詞分詞和詞性標注,比如:句子“美國會通過一項新法案”中的“美國會”,它可能產生“美\國會”和“美國\會”這兩種切分結果。第四是停頓處理,在TTS系統(tǒng)中如果合成語音時沒有停頓,或者在錯誤的地方有停頓,將會導致音質的不自然,甚至會造成句子理解上的錯誤。如:“大熊貓想吃#蘋果”若變成“大熊貓想#吃蘋果”,由于停頓位置不對,造成了句子表達上的錯誤。第五是字音轉換,就是根據上下文環(huán)境給出字母或漢字以正確的發(fā)音,如多音字“惡“的發(fā)音:“e3”,“e4”,“wu4”,就需要根據上下文給出正確讀音。

韻律產生,主要是表征韻律特征的參數,如基頻、時長和能量將被計算或預測,利用的數據是從文本分析部分獲得的上下文信息。

單元選擇,根據待合成的拼音串(音素串)以及它的上下文信息、韻律信息,遵循某一準則,從語料庫中挑選一組最佳的語音單元作為合成基元用于波形拼接。這里的準確其實就是使某一代價函數的值為最小,這個代價函數的值將受到某些因素的影響,比如:韻律的不一致、譜差異和上下文環(huán)境的不匹配等。

最后,TTS系統(tǒng)根據發(fā)音需要從音庫中選擇合適的聲學參數,然后根據從韻律模型中得到的韻律參數,通過合成算法產生TTS語音。在這個過程中涉及波形合成,該合成通常采用兩種策略,一是拼接時不需要韻律修改,另一個是需要韻律修改。如果語料庫的容量很大,包含豐富的語音信息,即各種音段和韻律信息都有,經過單元選擇后,基元和目標單元的差異會很小,在這種情況下,無需韻律修改直接拼接就可以獲得高清晰度和高自然度的合成語言。如果語料庫的容量小,合成基元的韻律信息就有限,那么就首先需要利用信號處理技術對基元進行韻律修改,然后再拼接生成語音。

在生成TTS語音后,將查詢到的相應的媒體文件與TTS語音按照設定規(guī)則輸出。

在一種情況下,可以在輸出TTS語音之前輸出媒體文件。如,用戶說“今天天氣真好啊”,機器人根據決策獲得待回復的應答信息為:今天北京的天氣是晴,體感溫度24°,微風。由于用戶觸發(fā)了“天氣真好啊”這一特定語句,機器人則在回答前加上舒服的“啊~~~”語氣助詞。

在另外一種情況下,可以將媒體文件與TTS語音合成后輸出??梢詫TS語音進行剪裁、壓縮或拉伸處理,將媒體文件插入或拼接到TTS語音中的任何位置,產生合成后的語音文件。

本發(fā)明實施例通過將TTS語音與媒體文件相結合輸出,有助于增加輸出語言的自然度和靈活度,輸出的語音與人類的自然語音更加類似,表達出了單獨合成的TTS語音不能表達出的情感和情緒,提高了用戶與智能機器人的交互體驗。

第二實施例

另外,本發(fā)明還提供了一個實施例,圖2是根據本發(fā)明的應用于智能機器人的語音優(yōu)化方法示例二的流程示意圖。

本實施例方法的步驟S110、S120和S130與第一實施例的前三個步驟類似,與第一實施例不同點在于步驟S140’。與圖1相同的步驟,本例中使用相同的標號來表示,且不再贅述,僅對二者的不同點——步驟S140’進行說明。

在步驟S140’中,在滿足設定播放媒體文件的播放時間時,將相應的媒體文件與TTS系統(tǒng)生成的響應應答信息的TTS語音按照設定規(guī)則輸出。

在本實施例中,預先設定了播放媒體文件的播放時間,例如設定為在TTS語音播放后的3秒播放媒體文件。如,在機器人根據決策回復用戶語音信息只是一個字“是”,則在播放TTS語音后3s,播放包含表示親吻的擬聲詞“么么噠”的媒體文件。上面的時間可以根據實際情況進行設定。

本發(fā)明實施例通過將TTS語音與媒體文件相結合輸出,有助于增加輸出語言的自然度和靈活度,輸出的語音與人類的自然語音更加類似,表達出了單獨合成的TTS語音不能表達出的情感和情緒,提高了用戶與智能機器人的交互體驗。

第三實施例

圖3是根據本發(fā)明的應用于智能機器人的語音優(yōu)化裝置200的實施例的結構框圖。如圖3所示,該裝置包括:多模態(tài)輸入單元210、響應單元220、分析單元230和語音輸出單元240。下面參考圖3來說明本裝置的各個組成部分。

多模態(tài)輸入單元210,其用于獲取用戶的多模態(tài)輸入數據。

在本例中,多模態(tài)輸入單元210可以是智能機器人的圖像采集系統(tǒng)(例如攝像頭)、語音輸入系統(tǒng)(例如麥克風)等,通過這些系統(tǒng)來獲取多模態(tài)輸入數據。例如,在用戶與機器人進行語音交互時,用戶向機器人發(fā)出語音信息,未知語音信號經麥克風、話筒之類的語音信號采集設備變換成電信號后輸入到識別系統(tǒng)的輸入端再進行處理。

響應單元220,其用于響應該多模態(tài)輸入數據生成文本信息。

首先經過預處理,再根據人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征,在此基礎上建立語音識別所需的模板。在識別過程中相應單元220要根據語音識別的模型,將預先存儲的語音模板與輸入的語音信號的特征進行比較,根據一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據此模板的定義,通過查表就可以給出識別結果。

分析單元230,其用于對文本信息進行文本分析,并根據分析結果查詢相應的應答信息。

在獲取識別結果之后,分析單元230利用自然語言處理技術對識別結果進行語義解析。語義分析,指的是將給定的自然語言轉化為反映其意義的某種形式化表示,也就是將人類能夠理解的自然語言轉化為計算機能夠理解的形式語言,做到人與機器的互相溝通。

在獲得解析結果后,分析單元230計算該解析結果與已設定的知識庫中的內容的語義相似度(問題和問題的相似度),從而在知識庫中搜索與解析結果相匹配的數據。然后,根據匹配結果,在語音交互應答數據庫中查找與該文本信息相應的應答信息。語音交互應答數據庫中存儲了對應各種主題的信息內容,通過將文本分析結果中的特定詞匯與數據庫中的內容進行比對,能夠找到相應的應答信息。

語音輸出單元240,其用于在確定滿足設定的觸發(fā)規(guī)則時,將相應的媒體文件與TTS系統(tǒng)生成的響應所述應答信息的TTS語音按照設定規(guī)則輸出。

在如下情況下,確定滿足所述設定的觸發(fā)規(guī)則:在接收到來自用戶的特定語句信息時;或者,滿足設定播放媒體文件的播放時間。

語音輸出單元240進一步將媒體文件與TTS語音合成后輸出?;蛘撸Z音輸出單元進一步在輸出TTS語音之前輸出媒體文件。

本領域的技術人員應該明白,上述的本發(fā)明的各單元或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結合。

雖然本發(fā)明所揭露的實施方式如上,但所述的內容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術領域內的技術人員,在不脫離本發(fā)明所揭露的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作任何的修改與變化,但本發(fā)明的專利保護范圍,仍須以所附的權利要求書所界定的范圍為準。

本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質中,該程序在執(zhí)行時,包括以上全部或部分步驟,所述的存儲介質,如:ROM/RAM、磁碟、光盤等。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平阴县| 新营市| 安义县| 德令哈市| 龙泉市| 长葛市| 岢岚县| 长岭县| 磐安县| 闻喜县| 隆林| 慈利县| 平南县| 永修县| 留坝县| 攀枝花市| 思茅市| 富阳市| 柘城县| 阳山县| 海安县| 包头市| 嘉荫县| 普洱| 葫芦岛市| 襄城县| 东至县| 淮安市| 东辽县| 崇信县| 固始县| 青神县| 靖西县| 宜都市| 巧家县| 阿城市| 天峨县| 彭水| 射洪县| 砚山县| 土默特左旗|