共用一套麥克風陣列的服務(wù)機器人雙語音識別方法與流程

文檔序號：12806137閱讀：647來源：國知局

本發(fā)明涉及一種共用一套麥克風陣列的服務(wù)機器人雙語音識別方法。其特點是在服務(wù)機器人本體上安裝一套麥克風陣列和兩套語音識別系統(tǒng)，其中麥克風陣列為環(huán)形麥克風陣列或線形麥克風陣列，兩套語音識別系統(tǒng)分別為離線語音識別系統(tǒng)和在線語音識別系統(tǒng)。其工作方法是麥克風陣列將獲得的語音信息同時發(fā)給兩套語音識別系統(tǒng)，讓兩套語音識別系統(tǒng)分別進行語音識別并轉(zhuǎn)換成文本，而且各自獲得的文本內(nèi)容與離線語音文本庫（日常對話、命令詞、智能家居控制指令）匹配，則執(zhí)行相應(yīng)操作：離線語音識別系統(tǒng)識別獲得的文本與離線語音文本庫匹配時，使用離線語音識別進行交互；離線語音識別系統(tǒng)識別獲得的文本與離線語音文本庫不匹配時，使用在線語音識別進行交互。這樣做的好處在于讓高頻使用的、重要的交互內(nèi)容（日常對話、命令詞、智能家居控制指令）能夠持續(xù)穩(wěn)定地語音識別和人機交互，提升服務(wù)機器人的實際體驗效果，增強服務(wù)機器人的可用性和易用性。
背景技術(shù)：
：語音識別是將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程。語音識別以語音為研究對象，它是語音信號處理的一個重要研究方向，是模式識別的一個分支。語音識別的研究涉及微機技術(shù)、人工智能、數(shù)字信號處理、模式識別、聲學、語言學和認知科學等許多學科領(lǐng)域，是一個多學科綜合性研究領(lǐng)域。根據(jù)在不同限制條件下的研究任務(wù)，產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括：根據(jù)對說話人說話方式的要求，可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng)；根據(jù)對說話人的依賴程度，可分為特定人和非特定人語音識別系統(tǒng)；根據(jù)詞匯量的大小，可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng)，對于不同的語音識別系統(tǒng)，人們所采用的具體識別方法及技術(shù)不同，但其基本原理都是相同的，即將采集到的語音信號送到特征提取模塊處理，將所得到的語音特征參數(shù)送入模型庫模塊，由聲音模式匹配模塊根據(jù)模型庫對該段語音進行識別，最后得出識別結(jié)果。當前在服務(wù)機器人本體上普遍采用一套語音識別系統(tǒng)，而且都是在線語音識別為主，需要都良好的網(wǎng)絡(luò)環(huán)境支持，如果服務(wù)機器人出現(xiàn)網(wǎng)絡(luò)連接故障或者在線的語音云出口帶寬影響，都會出現(xiàn)語音識別系統(tǒng)失效、延遲，影響人機交互效果。盡管一些語音識別方案公司意識到這個問題，輔助了離線識別功能，即當在線語音識別無法提供在線的語音云識別服務(wù)時，切換到離線語音識別模式，但由于離線語音識別并未根據(jù)場景進行優(yōu)化，離線識別效果差，這種先在線后離線同一時間只有一種語音識別系統(tǒng)的方案并不能很好地滿足現(xiàn)實需求，需要有更合適的在線語音識別和離線語音識別的結(jié)合方案。技術(shù)實現(xiàn)要素：本發(fā)明擬解決在線語音識別和離線語音識別的結(jié)合問題，在線語音識別和離線語音識別方案均通過使用一套麥克風陣列來獲得語音信號，實現(xiàn)日常對話、命令詞、智能家居控制交互的穩(wěn)定的離線語音識別和其它所有內(nèi)容交互的在線語音識別，達到更加流暢、更加可靠的交互效果，從而提升服務(wù)機器人的人機交互體驗效果，增強服務(wù)機器人的可用性和易用性。本發(fā)明采用的技術(shù)方案是：一種共用一套麥克風陣列的服務(wù)機器人雙語音識別方法。其特點是在服務(wù)機器人本體上安裝一套麥克風陣列和兩套語音識別系統(tǒng)，其中麥克風陣列為環(huán)形麥克風陣列或線形麥克風陣列，兩套語音識別系統(tǒng)分別為離線語音識別系統(tǒng)和在線語音識別系統(tǒng)。其工作方法是麥克風陣列將獲得的語音信息同時發(fā)給兩套語音識別系統(tǒng)，讓兩套語音識別系統(tǒng)分別進行語音識別并轉(zhuǎn)換成文本，而且各自獲得的文本內(nèi)容與離線語音文本庫（日常對話、命令詞、智能家居控制指令）匹配，則執(zhí)行相應(yīng)操作：離線語音識別系統(tǒng)識別獲得的文本與離線語音文本庫匹配時，使用離線語音識別進行交互；離線語音識別系統(tǒng)識別獲得的文本與離線語音文本庫不匹配時，使用在線語音識別進行交互。本發(fā)明的有益效果是，很好地解決在線語音識別和離線語音識別的結(jié)合應(yīng)用問題，通過一套麥克風陣列為在線語音識別系統(tǒng)和離線語音識別系統(tǒng)同時提供語音信息，其各自語音識別后與離線語音文本庫進行比對來決定最終交由哪一種語音識別系統(tǒng)進行交互。這樣做的好處在于讓高頻使用的、重要的交互內(nèi)容（日常對話、命令詞、智能家居控制指令）能夠持續(xù)穩(wěn)定地語音識別和人機交互，提升服務(wù)機器人的實際體驗效果，增強服務(wù)機器人的可用性和易用性。附圖說明下面結(jié)合附圖和實施例對本發(fā)明進一步說明。圖1是離線語音識別和在線語音識別結(jié)合應(yīng)用流程圖。具體實施方式在圖1中，當人在服務(wù)機器人周圍說話時，一方面麥克風陣列判斷出人的方位，經(jīng)機器人控制系統(tǒng)驅(qū)動服務(wù)機器人底盤轉(zhuǎn)向，正面朝向人，另一方面離線語音識別系統(tǒng)和在線語音識別系統(tǒng)同時開始語音識別工作，將識別的語音內(nèi)容轉(zhuǎn)換成文本，由于兩套語音識別系統(tǒng)的識別的精準度、模式方式都區(qū)別，因此，可能識別獲得的文本有差別，我們并不要求保存一致。離線語音識別系統(tǒng)、在線語音識別系統(tǒng)分別獲得的語音文本內(nèi)容與離線語音識別應(yīng)用軟件數(shù)據(jù)庫中的離線語音文本庫（日常對話、命令詞、智能家居控制指令）進行比對，如果出現(xiàn)匹配，離線語音識別系統(tǒng)開始進行人機交互及相應(yīng)的指令操作，在線語音識別系統(tǒng)保持沉默，不進行任何語音交互處理。如果不匹配，離線語音識別系統(tǒng)保持沉默，不進行任何語音交互處理，在線語音識別系統(tǒng)啟用語音交互流程。這兩種語音識別系統(tǒng)的結(jié)合使用方法中，何時使用離線語音識別系統(tǒng)、何時使用在線語音識別系統(tǒng)進行語音內(nèi)容交互并不取決于網(wǎng)絡(luò)連接質(zhì)量和現(xiàn)場環(huán)境，而是取決于識別內(nèi)容是否在離線語音文本庫（日常對話、命令詞、智能家居控制指令）的范圍，如在這個范圍中，交由離線語音識別系統(tǒng)處理，如不在這個范圍中，交由在線語音識別系統(tǒng)進行處理。這樣做的好處在于讓高頻使用的、重要的交互內(nèi)容（日常對話、命令詞、智能家居控制指令）能夠持續(xù)穩(wěn)定地語音識別和人機交互，提升服務(wù)機器人的實際體驗效果。在服務(wù)機器人本體上，用于語音識別的麥克風陣列有兩種形式，環(huán)形分布的五個或七個麥克風組成的麥克風陣列、前置安裝的線形排列的兩個或四個麥克風的麥克風陣列。環(huán)形分布的五個或七個麥克風組成的麥克風陣列，其特點是多個麥克風中有一個麥克風部署在模組的中央，其它的麥克風沿圓形外圈均勻角度間隔分布，如五個麥克風方案中的其它四個麥克風，角度間隔90度沿圓形外圈分布，如七個麥克風方案中的其它六個麥克風，角度間隔60度沿圓形外圈分布。正面線形排列的麥克風陣列的特點是多個麥克風呈線形均勻間隔排列，數(shù)量為8個以下的偶數(shù)，最常見的是兩個或四個麥克風。正面線形排列的麥克風陣列采用音源定位方法，音源定位是自動語音識別和自動說話人識別系統(tǒng)的一個重要環(huán)節(jié)，對于提高語音識別系統(tǒng)的性能至關(guān)重要。正面線形排列的麥克風陣列可捕捉從正面不同方向（左側(cè)與右側(cè)）傳來的聲音，通過算法運算使麥克風指向正面的某一個特定方向，放大從該方向捕捉到的音頻信號，同時衰減從其它方向捕捉的音頻信號，整個動作就像一個智能麥克風。無論是環(huán)形分布麥克風陣列還是線形麥克風陣列都采用音源定位方法，音源定位是自動語音識別和自動說話人識別系統(tǒng)的一個重要環(huán)節(jié)，對于提高語音識別系統(tǒng)的性能至關(guān)重要。環(huán)形分布麥克風陣列可360度捕捉從不同方向傳來的聲音，通過算法運算使麥克風指向某一個特定方向（360度角度中的一個），放大從該方向捕捉到的音頻信號（如下圖中主說話人的聲音），同時衰減從其它方向捕捉的音頻信號（如下圖中次說話人的聲音），整個動作就像一個智能麥克風。整個系統(tǒng)由以下幾個子系統(tǒng)組成：音源方向測定、數(shù)據(jù)融合（datafusion）、自動語音識別（asr）和自動說話人（asi）確認。其中，音頻方向測定子系統(tǒng)基于麥克風陣列，運行多個不同的音頻方向估算算法；數(shù)據(jù)融合子系統(tǒng)負責推斷方向，自動語音識別子系統(tǒng)利用傳入的音頻信號增強主音源信號強度，衰減主音源周圍的其它音頻信號。最后，自動說話人確認子系統(tǒng)識別某些關(guān)鍵詞匯，再利用相關(guān)特征與說話人匹配。如果語音識別任務(wù)沒有成功，則反饋給數(shù)據(jù)融合系統(tǒng)，估算新方向傳入的語音，然后驅(qū)動麥克風陣列指向該方向。環(huán)形分布麥克風陣列或線形麥克風陣列獲得的語音信號內(nèi)容，同時交給離線語音識別系統(tǒng)和在線語音識別系統(tǒng)進行使用，尤其是分別進行語音識別后與離線語音文本庫進行比對，看是否能獲得匹配值離線識別語音文本庫是包含了日常對話詞條、命令詞、智能家居控制指令的一個靜態(tài)的文本庫，由標準的日常對話詞條、嚴謹?shù)拿钤~、標準的智能家居控制指令和相關(guān)的近義詞、近音詞組成，示例如下表1：日常對話詞條命令詞智能家居控制指令涵蓋范圍日常問候、簡單對話機器人移動控制、喚醒智能家居產(chǎn)品控制、場景控制標準表達示例晚上好向前走回家模式近義詞示例晚安朝前走我回家了近音詞示例灣上好香前走飛家模式表1：離線識別語音文本庫。離線識別語音文本庫之外的任何交互內(nèi)容詞條，都是在線語音識別系統(tǒng)需要識別的內(nèi)容。這些內(nèi)容未作限定，可能是自由語言交流，也可能是兒童教學、老年陪伴、音樂等。因此，系統(tǒng)工作大批量是，麥克風陣列接收到一條語音信號后，離線語音識別系統(tǒng)和在線語音識別系統(tǒng)同時啟動進行識別，當各自獲得的語音文本內(nèi)容在離線識別語音文本庫（日常對話詞條、命令詞、智能家居控制指令）清單中時，會進入如下的處理流程：離線語音識別系統(tǒng)對語音識別獲得的文本與離線識別語音文本庫匹配時，離線識別語音系統(tǒng)繼續(xù)進行語音交互和執(zhí)行相應(yīng)操作。離線語音識別系統(tǒng)對語音識別獲得的文本與離線識別語音文本庫不匹配時，離線語音識別系統(tǒng)不進行任何語音交互和后續(xù)操作。在線語音識別系統(tǒng)對語音識別獲得的文本與離線識別語音文本庫匹配時，在線識別語音系統(tǒng)保持沉默不進行任何語音交互，只會將該獲得的文本信息抄送一份給離線語音識別系統(tǒng)作為交叉驗證，如果離線語音識別系統(tǒng)未能識別到這個語音內(nèi)容，根據(jù)系統(tǒng)設(shè)定允許在線語音識別作為補充識別時，這條識別的文本內(nèi)容將傳遞給離線語音識別系統(tǒng)，執(zhí)行相應(yīng)的人機交互操作。離線語音識別系統(tǒng)對語音識別獲得的文本與離線識別語音文本庫不匹配時，在線語音識別系統(tǒng)進行語音交互和執(zhí)行相應(yīng)操作。當前第1頁12

完整全部詳細技術(shù)資料下載

當前第1頁1 2