專利名稱:噪聲環(huán)境下語音控制指令產(chǎn)生裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音控制指令產(chǎn)生裝置,尤其是一種在噪聲環(huán)境下使用的語音控制指令產(chǎn)生裝置。
目前現(xiàn)有的技術(shù)中,利用語音識別技術(shù)實(shí)現(xiàn)人的自然語言與機(jī)器對話,即人機(jī)對話,使機(jī)器能聽懂人的語音指令并且去執(zhí)行人所發(fā)出的指令,已有一定的進(jìn)展。例如,美國國際商業(yè)機(jī)器公司申請的美國專利US050950,美國摩托羅拉公司申請的美國專利US08/254,844,美國電報(bào)電話公司申請的美國專利US352251,其主要特征是采用通過空氣傳導(dǎo)的受話器作為語音識別裝置的人的語音的接受器,將接受到的語音在語音識別裝置或計(jì)算機(jī)中進(jìn)行識別。語音識別的重要指標(biāo)是人的語音的正確識別率,由于在相當(dāng)多的使用環(huán)境中除了人發(fā)出的語音之外,存在有環(huán)境噪聲,這種噪聲混雜于指令發(fā)出人的語音之中,使正確識別率大大降低,甚至出現(xiàn)錯(cuò)誤識別,這就限制了利用語音識別技術(shù)正確產(chǎn)生控制指令,實(shí)現(xiàn)人機(jī)對話,在許多實(shí)際場所的應(yīng)用。
本發(fā)明的目的是提供一種在噪聲環(huán)境下使用的正確識別率高的語音識別技術(shù)的語音控制指令產(chǎn)生裝置。
本發(fā)明由模數(shù)和數(shù)模轉(zhuǎn)換器、液晶顯示器、電源、揚(yáng)聲器、語音識別器等部件組成,其特征是在模數(shù)和數(shù)模轉(zhuǎn)換器上通過濾波器連接一個(gè)喉頭送話器,語音識別器則以數(shù)字信號處理器為核心,連接閃速存儲器(Ⅰ)、(Ⅱ)、組合邏輯器、編碼器、驅(qū)動器、看門狗電路組成,模數(shù)和數(shù)模轉(zhuǎn)換器與數(shù)字信號處理器的串行口連接,驅(qū)動器將閃速存儲器(Ⅱ)與數(shù)字信號處理器連接在一起,組合邏輯器分別與閃速存儲器(Ⅰ)、(Ⅱ)、數(shù)字信號處理器連接,并由組合邏輯器通過執(zhí)行電路輸出控制信號。
本發(fā)明由于其語音信號是由喉頭送話器通過濾波器輸入的,并且利用數(shù)字信號處理器為語音識別器的核心對語音命令信號進(jìn)行識別,然后發(fā)出相應(yīng)的控制信號,而喉頭送話器不同于一般的利用空氣傳導(dǎo)的聲音傳感器(如麥克風(fēng)),它必須緊貼發(fā)命令者的喉部,說話時(shí)聲帶發(fā)生振動,喉頭送話器中的碳膜發(fā)生形變,使其電阻發(fā)生變化,從而使其兩端的電壓發(fā)生變化,于是振動信號轉(zhuǎn)化為電信號,即語音信號??諝庵袀鲗?dǎo)的聲波無法使喉頭送話器中的碳膜發(fā)生形變,所以喉頭送話器感受不到空氣傳導(dǎo)的聲音,具有很強(qiáng)的抗干擾能力,可在強(qiáng)噪聲環(huán)境下獲取命令發(fā)出者的語音信號,而濾波器可對喉頭送話器獲得的語音信號進(jìn)行放大和低通濾波,防止頻率混疊,數(shù)字信號處理器則保證語音識別算法和語音壓縮解壓縮等算法的順利實(shí)現(xiàn)。
下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明。
圖1是本發(fā)明語音控制指令發(fā)生裝置的原理圖;圖2是本發(fā)明語音控制指令發(fā)生裝置的電路圖;圖3為語音控制指令發(fā)生裝置軟件總控流程圖;圖4為語音控制指令發(fā)生裝置軟件中識別模塊(rec_mode)流程圖;圖5為語音控制指令發(fā)生裝置軟件中管理模塊(manage_mode)流程圖;圖6為語音控制指令發(fā)生裝置軟件中訓(xùn)練模塊(train_mode)流程圖;本發(fā)明語音控制指令發(fā)生裝置的硬件實(shí)現(xiàn)方案,由圖1和圖2來說明。圖1中系統(tǒng)各功能塊說明如下數(shù)字信號處理芯片(DSP)1采用ADSP2181,時(shí)鐘16.67M,33MIPS,一個(gè)指令周期為30ns;內(nèi)部含16K字?jǐn)?shù)據(jù)存儲器和16K字程序存儲器,用于算法的實(shí)現(xiàn)和接口的控制,ADSP2181還可用ADSP2186來代替。閃速存儲器(Ⅰ)2采用AT29C020,用于存儲程序代碼和初始化數(shù)據(jù);閃速存儲器(Ⅱ)3采用AT29C020,用于存儲語音命令樣本;模數(shù)數(shù)模轉(zhuǎn)換器4采用AD73311,16位D/A和A/D,內(nèi)含增益控制;其作用是將喉頭送話器獲得的模擬語音進(jìn)行A/D變換,然后把數(shù)字化的語音信號送入DSP芯片進(jìn)行處理,還把數(shù)字語音信號進(jìn)行D/A變換,還原為模擬的語音信號,通過語音功率放大器和喇叭還原為聲音。此外可通過采用高于所需采樣頻率的頻率進(jìn)行采樣,配合DSP運(yùn)用升降采樣技術(shù),提高輸入語音信號的信噪比和系統(tǒng)的識別率;看門狗電路5采用MAX705,對ADSP2181的運(yùn)行進(jìn)行監(jiān)視,有問題時(shí)發(fā)出WDG信號;組合邏輯6用可編程邏輯器件實(shí)現(xiàn),通過對數(shù)據(jù)和地址及其他ADSP2181的輸出信號譯碼產(chǎn)生控制信號;編碼器7用MC14419實(shí)現(xiàn)16-4編碼器,把16個(gè)鍵進(jìn)行編碼(4位碼);LCD顯示器816×2點(diǎn)陣顯示模塊;用于顯示提示語及有關(guān)信息;濾波器9對喉頭送話器11信號進(jìn)行預(yù)處理,用運(yùn)算放大器來實(shí)現(xiàn),實(shí)現(xiàn)對弱語音信號的放大和濾波,并實(shí)現(xiàn)喉頭送話器和AD73311之間的阻抗匹配,防止語音基線的漂移;執(zhí)行電路10根據(jù)DSP發(fā)出的語音命令的譯碼結(jié)果,實(shí)現(xiàn)對外部對象的控制。喉頭送話器11語音傳感器,把發(fā)命令者的聲帶振動信號轉(zhuǎn)化為電信號,即模擬語音信號。
圖2是本發(fā)明語音控制指令發(fā)生裝置的具體連接電路圖,執(zhí)行電路因不同控制對象而不同,由使用者視具體情況另行設(shè)計(jì)。圖2中U01為ADSP2181,即數(shù)字信號處理片;U02為AT29C020為閃速存儲器(Ⅰ)2,用于存儲程序代碼和初始化數(shù)據(jù),閃速存儲器(Ⅱ)3不在圖上,它可單獨(dú)做成樣本卡,通過J04與系統(tǒng)連接;U03為GAL16V8,是可編程邏輯器件,通過對ADSP2181部分信號的譯碼實(shí)現(xiàn)對兩片閃速存儲器的控制;U04,MAX705,為看門狗芯片,上電時(shí)產(chǎn)生系統(tǒng)復(fù)位信號RESET,系統(tǒng)有問題時(shí)還能產(chǎn)生監(jiān)視信號WDG;U05為AD73311,是模數(shù)/數(shù)模轉(zhuǎn)換器4,它把由J052或J053送入的由喉頭送話器11獲得的模擬語音信號數(shù)字化,然后通過DR信號線送入ADSP2181的串行口,它還可把從ADSP2181輸出的串行數(shù)據(jù)從DT信號線接收進(jìn)來,然后進(jìn)行D/A變換,通過U12,MC34119,的放大之后通過J051連接到喇叭還原為聲音;U06-U09為驅(qū)動芯片,完成ADSP2181和閃速存儲器(Ⅱ)3之間的地址和數(shù)據(jù)線的驅(qū)動;U10為MC34119,是編碼器7,對4×4鍵盤進(jìn)行編碼,然后通過PF4-PF7輸入到ADSP2181中;U11,MC7805,為穩(wěn)壓芯片;此外J03為鍵盤與系統(tǒng)的連接口,J02為系統(tǒng)與液晶顯示器8的接口,J01為系統(tǒng)與仿真器的接口。
本發(fā)明語音控制指令發(fā)生裝置的軟件實(shí)現(xiàn)方法用圖3-圖6說明。本發(fā)明裝置可采用不同的語音識別算法和語音壓縮算法,可由使用本發(fā)明者選用?,F(xiàn)結(jié)合圖3-圖6說明本發(fā)明語音控制指令發(fā)生裝置的工作過程。
圖3是語音控制指令發(fā)生裝置的軟件總控流程圖。由圖3可見,軟件分為三個(gè)模塊(1)識別模塊rec_mode(2)管理模塊manage_mode(3)訓(xùn)練模塊train_mode。當(dāng)本裝置上電啟動后,處于模式選擇狀態(tài),等待用戶的鍵盤輸入,然后進(jìn)入所選的狀態(tài)。
圖4為語音識別模塊(rec_mode)流程圖,該模塊實(shí)現(xiàn)對喉頭送話器輸入的語音信號進(jìn)行識別,然后把識別的結(jié)果(對應(yīng)該語音命令的編碼)輸出到組合邏輯電路,然后去控制外部控制對象。由圖可見,語音識別的過程首先進(jìn)行語音檢測,判斷是否有語音輸入;若有則對該語音進(jìn)行特征提取,即提取輸入語音的MFCC參數(shù);參數(shù)提取后進(jìn)行參數(shù)比較,即把輸入語音的特征參數(shù)與存儲在閃存中的語音命令的特征參數(shù)(即模板)進(jìn)行比較,確定是否與其中的某個(gè)模板匹配,這里有兩種情況,第一種情況是完全匹配,則被匹配的模板即為輸入的語音命令,這時(shí)候匹配模板對應(yīng)的編碼即為輸入語音命令的編碼,通過數(shù)據(jù)線輸入到組合邏輯,然后去控制外部對象;第二種情況是不完全匹配,這時(shí)候找到三個(gè)最接近的語音命令模板,并把它們的語音分別回放,讓使用者判斷,若其中有一個(gè)是輸入的語音命令,則由用戶確認(rèn)后,把其語音編碼通過數(shù)據(jù)線輸入到組合邏輯,然后去控制外部對象;若三個(gè)都不是輸入的語音命令,則提示讓用戶從新輸入一次語音命令,重復(fù)上述的語音識別過程,直到識別出結(jié)果。
圖5為管理模塊(manage_mode)流程圖,該模塊實(shí)現(xiàn)管理功能,包括命令模板的錄入,查找,刪除,系統(tǒng)詞錄入修改和回放,鍵盤的管理等。
圖6為訓(xùn)練模塊(train_mode)流程圖,該模塊建立語音命令的模板并實(shí)現(xiàn)模板的存儲。語音命令訓(xùn)練的過程首先是語音檢測,即判斷是否有語音輸入;判斷到有語音輸入后,對該語音進(jìn)行兩方面的處理,一是提取該語音的特征,即計(jì)算其MFCC參數(shù),二是對該語音數(shù)據(jù)進(jìn)行壓縮編碼;然后把已記錄的語音回放讓用戶判斷,若用戶鍵入信息表示不滿意語音命令的質(zhì)量,則重復(fù)以上操作,若用戶鍵入信息表示滿意語音命令的質(zhì)量,則提示用戶鍵入語音命令的編碼,然后把輸入的語音命令的特征參數(shù)(即模板)和壓縮后的語音命令及其編碼存入閃速存儲器中,這時(shí)候完成了一次訓(xùn)練的操作。
本發(fā)明在使用時(shí),將喉頭送話器11固定或貼在發(fā)出指令者的喉頭附近位置,用于接受指令發(fā)出者發(fā)出的指令,每個(gè)指令通常為一個(gè)詞組,多個(gè)指令為多個(gè)詞組。濾波器9接受由喉頭送話器11輸出的模擬語音指令信號,經(jīng)濾波器9預(yù)處理后,將處理后的模擬語音指令信號輸入到模數(shù)轉(zhuǎn)換器,形成數(shù)字語音指令信號。數(shù)字語音指令信號輸入至數(shù)字信號處理器1,以數(shù)字信號處理器1為核心組成的語音識別器,識別語音指令信號,形成控制指令,控制指令將輸出到預(yù)定的被控設(shè)備。其中,閃速存儲器(Ⅰ)2用于存儲程序代碼和初始化數(shù)據(jù);閃速存儲器(Ⅱ)3用于存儲經(jīng)過訓(xùn)練學(xué)習(xí)的語音指令樣本;驅(qū)動器完成數(shù)字信號處理器1與閃速存儲器(Ⅱ)3之間的聯(lián)結(jié);組合邏輯器6用于對地址和數(shù)字信號處理器1輸出信號的譯碼并產(chǎn)生控制信號。液晶顯示器8用于使用過程中必要的提示語。電源為本裝置供電。對一般使用場所語音指令條數(shù)在50條之內(nèi),但本發(fā)明語音指令條數(shù)的最大容量為200條。本裝置供多人使用時(shí),可以將閃速存儲器(Ⅱ)3存儲的語音樣本更換,或每人對應(yīng)一個(gè)閃速存儲器(Ⅱ)3制作成語音樣板卡,做成活動插接形式。
本發(fā)明由于采用喉頭送話器作為指令發(fā)出者發(fā)出語音指令的受話器,直接接受指令發(fā)出者發(fā)出指令時(shí)的聲帶振動語音信號,避免了語音在空氣傳導(dǎo)時(shí)混入使用環(huán)境中存在的噪聲,從而避免了由于環(huán)境噪聲混入帶來的正確識別率下降或帶來指令的錯(cuò)誤識別,降低了對于使用環(huán)境的要求。本發(fā)明將適用于公共場所、車間、工地、海陸空的運(yùn)載工具(車、船、飛機(jī)等)中實(shí)行用人的自然語音發(fā)出指令使機(jī)器按指令運(yùn)作,以語音指令代替人的手工操作;對于殘疾人(喪失說話能力者除外)在不便于手工操作時(shí)可使用本發(fā)明裝置;可用于智能玩具中讓玩具按人的語音指令動作;可用于人與機(jī)器人的對話,使機(jī)器人按人的語音指令動作;以及在不存在噪聲環(huán)境下可使用本發(fā)明語音控制指令產(chǎn)生裝置。
權(quán)利要求
1.一種噪聲環(huán)境下語音控制指令產(chǎn)生裝置,包括有模數(shù)和數(shù)模轉(zhuǎn)換器4、液晶顯示器8、電源、揚(yáng)聲器、語音識別器等部件,其特征是在模數(shù)和數(shù)模轉(zhuǎn)換器4上通過一濾波器9連接一個(gè)喉頭送話器11,語音識別器則以數(shù)字信號處理器1為核心,連接閃速存儲器(Ⅰ)2、(Ⅱ)3、組合邏輯器6、編碼器7、驅(qū)動器、看門狗電路5組成,模數(shù)和數(shù)模轉(zhuǎn)換器4與數(shù)字信號處理器1的串行口連接,驅(qū)動器將閃速存儲器(Ⅱ)3與數(shù)字信號處理器連接在一起,組合邏輯器6分別與閃速存儲器(Ⅰ)2、(Ⅱ)3、數(shù)字信號處理器1連接,組合邏輯器6通過執(zhí)行電路10與受控設(shè)備連接。
全文摘要
本發(fā)明是一種噪聲環(huán)境下語音控制指令產(chǎn)生裝置,包括有模數(shù)和數(shù)模轉(zhuǎn)換器、液晶顯示器、電源、揚(yáng)聲器、語音識別器等部件,其特征是在模數(shù)和數(shù)模轉(zhuǎn)換器上通過一濾波器連接一個(gè)喉頭送話器,語音識別器則以數(shù)字信號處理器為核心,連接閃速存儲器(Ⅰ)、(Ⅱ)、組合邏輯器、編碼器、驅(qū)動器、看門狗電路組成,適用于強(qiáng)噪聲環(huán)境。
文檔編號G10L21/02GK1235320SQ9911610
公開日1999年11月17日 申請日期1999年3月31日 優(yōu)先權(quán)日1999年3月31日
發(fā)明者張有為, 張歆奕, 何強(qiáng) 申請人:五邑大學(xué)