專利名稱::電子耳蝸漢語固定電刺激幅度變化模式體外語音處理裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及電子耳蝸恢復(fù)耳聾患者聽覺領(lǐng)域,特別是一種適應(yīng)漢語特征、結(jié)合漢語語音識別技術(shù)的電子耳蝸固定電刺激幅度變化模式體外語音處理裝置及方法。
背景技術(shù):
:電子耳蝸(也被稱為耳蝸埋植、電子耳、仿生耳或人工耳蝸),是目前唯一能使全聾患者恢復(fù)聽覺的裝置。它依靠直接用微弱電流興奮聽神經(jīng)纖維模仿外周聽覺系統(tǒng)的生理功能,產(chǎn)生與正常人耳相似的神經(jīng)發(fā)放模式,從而恢復(fù)患者的聽覺。電子耳蝸可以幫助全聾患者恢復(fù)語言交流能力,增加他們接受教育、就業(yè)和社會交往的機(jī)會。尤其是聾兒,無論是語前聾還是語后聾,當(dāng)借助于助聽器仍然無法聽到聲音時,將導(dǎo)致他們終生失去獲得正常教育的機(jī)會,給家庭和社會增加沉重的負(fù)擔(dān)。電子耳蝸可以幫助他們重新獲得音感,獲取外界的信息和知識,成為對社會有益的人。目前電子耳蝸產(chǎn)品中,大多數(shù)體外語音處理裝置采用了摩托羅拉公司的DSP56000系列DSP。該系列DSP計算速度較慢,功耗較大,片內(nèi)RAM過小,其自帶外設(shè)接口擴(kuò)展時結(jié)構(gòu)復(fù)雜,并不十分適合要求高性能、低功耗的電子耳蝸體外語音處理裝置。同時,現(xiàn)有產(chǎn)品所采用的語音信號處理方法都是基于英語特點(diǎn)開發(fā)的算法,主要符合了印歐語系的特點(diǎn),而漢語作為漢藏語系之一,并不屬于印歐語系的親屬語系,兩者差異較大,這也是造成現(xiàn)有語音處理方法對于漢語的言語識別效果難以讓我國患者滿意的原因之一。因此,高性能、低功耗的電子耳蝸體外語音處理裝置,以及充分利用漢語特性的、利用固定電刺激幅度變化模式編碼傳遞漢語聲調(diào)等豐富信息的電子耳蝸語音處理方法的開發(fā)就顯得格外重要?,F(xiàn)有電子耳蝸產(chǎn)品體外語音處理采用的語音處理方法可分為兩大類,一類是基于特征提取,即提取語音信號的基頻和共振峰等特征,然后產(chǎn)生相應(yīng)電極的刺激信號。一類是基于濾波器組的語音信號處理方法,即對語音信號進(jìn)行分頻段濾波處理。漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié)結(jié)構(gòu)。以《新華字典》第IO版所收漢字為統(tǒng)計對象,漢語共有416個基礎(chǔ)音節(jié)(不含音調(diào)),若考慮音調(diào)信息,則漢語共有標(biāo)準(zhǔn)音節(jié)(包含聲調(diào))1345個。因此,以標(biāo)準(zhǔn)音節(jié)作為語音識別單元對漢語語音進(jìn)行識別,然后利用較高的語音識別率來提高電子耳蝸佩帶者的言語識別能力是可行的;另一方面,漢語是一種聲、韻、調(diào)語言,其中聲調(diào)對于漢語的正確理解具有重要的意義。因此,利用加入聲調(diào)作為識別特征進(jìn)行漢語語音識別,進(jìn)而利用刺激速率對聲調(diào)特征進(jìn)行編碼,同樣對于提高電子耳蝸佩帶者的言語識別能力具有幫助。
發(fā)明內(nèi)容本發(fā)明的目的在于針對目前電子耳蝸存在的上述問題,提供一種電子耳蝸漢語固定電刺激幅度變化模式體外語音處理裝置及方法,以更加有效地恢復(fù)我國耳聾患者的聽力狀況。本發(fā)明電子耳蝸漢語固定電刺激幅度變化模式體外語音處理裝置包括音頻放大采樣模塊,用于將采集的語音信號轉(zhuǎn)換為數(shù)字音頻信號;存儲模塊,它內(nèi)部存儲有語音信號處理程序;數(shù)字信號處理器,它與音頻放大采樣模塊和存儲模塊連接,通過運(yùn)行存儲模塊內(nèi)的語音信號處理程序?qū)σ纛l放大采樣模塊轉(zhuǎn)換后的數(shù)字音頻信號處理,輸出相應(yīng)的電刺激參數(shù);以及,信號傳輸模塊,它與數(shù)字信號處理器連接,用于將所述電刺激參數(shù)傳輸給配套的電子耳蝸體內(nèi)部分;所述語音信號處理程序包括預(yù)處理單元,用于對輸入的語音信號進(jìn)行采樣、分幀;端點(diǎn)檢測單元,用于從預(yù)處理后的每幀信號中獲取語音段;語音識別單元,用于對語音段識別;以及,特征編碼單元,用于對語音識別的結(jié)果進(jìn)行電刺激編碼,它具有固定電刺激幅度變化模式庫,它內(nèi)部存儲有與包含聲調(diào)信息的所有漢語標(biāo)準(zhǔn)音節(jié)——對應(yīng)的固定電刺激幅度變化模式;以及,刺激模式選擇調(diào)整模塊,它根據(jù)語音識別單元對語音段的識別結(jié)果,從固定電刺激模式庫中選出對應(yīng)的電刺激幅度變化模式,并分別根據(jù)語音識別結(jié)果的聲母發(fā)聲頻率、聲調(diào)信息、音長信息對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,最終生成對應(yīng)各個刺激電極的完整電刺激參數(shù)。進(jìn)一步,語音識別單元采用基于隱馬爾可夫模型(H固)的非特定人、中等詞匯量的連續(xù)語音識別算法。該語音識別單元包含語音特征提取模塊,該模塊用于從語音段中提取MFCC(Mel頻率倒譜系數(shù))和一階差分MFCC作為該語音段的特征向量;矢量量化模塊,該模塊根據(jù)由語音庫訓(xùn)練得出的碼本將從語音段提取的特征向量做一次矢量量化;匹配計算模塊,該模塊根據(jù)由語音庫訓(xùn)練得出的詞條模型對量化后的特征向量進(jìn)行匹配計算,得出初步的語音識別結(jié)果;以及,語音理解及調(diào)整模塊,該模塊根據(jù)語義對識別結(jié)果進(jìn)行調(diào)整,得出最終識別結(jié)果。上述固定電刺激幅度變化模式庫中的電刺激幅度變化模式與《新華字典》第10版的1345個標(biāo)準(zhǔn)音節(jié)一一對應(yīng);刺激模式選擇調(diào)整模塊首先根據(jù)語音識別結(jié)果從固定電刺激模式庫中選出對應(yīng)的電刺激幅度變化模式,然后分別根據(jù)語音識別結(jié)果的聲母發(fā)聲頻率、聲調(diào)信息、音長信息等對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,最終生成各個刺激電極的完整電刺激參數(shù)。電刺激參數(shù)包括根據(jù)音節(jié)聲母發(fā)聲頻率或第一個元音發(fā)聲頻率編碼的微電極通道選擇參數(shù);根據(jù)聲調(diào)信息編碼的刺激速率參數(shù);根據(jù)音節(jié)編碼的固定電刺激幅度變化參數(shù);以及,根據(jù)音長信息編碼的刺激時間參數(shù)。上述數(shù)字信號處理器采用TI公司的TMS320VC5509A數(shù)字信號處理器,音頻放大采樣模塊采用美國樓氏電子公司的微機(jī)電式硅微型麥克風(fēng)SP0103NC3-3以及WM8950音頻放大采樣濾波芯片,存儲模塊采用可高速讀寫的鐵電存儲器FM25L512,信號傳輸模塊采用AD9833芯片和ADL5530芯片。還可包括有機(jī)發(fā)光顯示器(0LED),用于顯示各功能模塊的狀態(tài)。本發(fā)明采用基于TPS63細(xì)、TPS65120、TPS71733和TPS3103K33DBV的電源管理沖莫塊控制三節(jié)紐扣電池^是供+5V、+3.3V和+12V工作電壓。本發(fā)明電子耳蝸漢語固定電刺Jt幅度變化模式語音處理方法是在對漢語特征進(jìn)行深入分析的基礎(chǔ)上,利用以音節(jié)為識別單元的語音識別方法以及固定電刺激幅度變化模式產(chǎn)生與調(diào)整等方法綜合研究的結(jié)果。該語音處理方法分為語音信號預(yù)處理、端點(diǎn);險測、語音識別和特4i編碼四個部分,具體包括以下步-驟對輸入的語音信號進(jìn)行采樣、分幀的預(yù)處理步驟;通過端點(diǎn)檢測單元從預(yù)處理后的每幀信號中獲取語音段的步驟;通過語音識別單元對獲取的語音段進(jìn)行識別的步驟;和,根據(jù)語音識別結(jié)果從固定電刺激幅度變化模式庫選出對應(yīng)的電刺激幅度變化模式,并分別根據(jù)語音識別結(jié)果的聲母發(fā)聲頻率、聲調(diào)信息、音長信息對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,生成對應(yīng)各個刺激電極的完整電刺激參數(shù)的步驟,該電刺激參數(shù)用于控制電子耳蝸體內(nèi)部分使配帶者感知該語音信號。本發(fā)明采用以漢語標(biāo)準(zhǔn)音節(jié)為識別單元的語音識別技術(shù),利用固定電刺激幅度變化模式對識別結(jié)果進(jìn)行電刺激編碼與調(diào)整,并基于TMS320VC5509A實(shí)現(xiàn)高性能、低功耗的電子耳蝸體外語音處理裝置,從而更加有效的恢復(fù)電子耳蝸佩戴者的漢語言語識別能力。其主要效果有a)采用了比較成熟的非特定人、中等詞匯量的連續(xù)語音識別技術(shù),該技術(shù)結(jié)合了Mel參數(shù)特征提取、矢量量化、隱馬爾可夫模型模式匹配計算以及語義理解調(diào)整等模塊,語音識別的正確率可以達(dá)到95%左右,從而為提高佩帶者的言語識別率提供了保障。b)在準(zhǔn)確語音識別的基礎(chǔ)上,本發(fā)明采用了和1345個漢語標(biāo)準(zhǔn)音節(jié)——對應(yīng)的固定電刺激幅度變化模式,保證了電刺激模式下佩帶者的言語識別率和語音識別結(jié)杲正確率的相關(guān)性,從而能更好的恢復(fù)使用漢語的電子耳蝸佩帶者的言語恢復(fù)能力。c)本發(fā)明最終生成的電刺激參數(shù)結(jié)合了電刺激的微電極通道選擇模式、固定電刺激幅度變化模式、刺激速率變化模式和刺激時間四大特征,根據(jù)耳蝸的頻率分析特性和漢語語音的音節(jié)頻率分布特性,對上述四個主要參數(shù)進(jìn)行排列組合,最大限度的保留了漢語語音的音色特性,從而能更好的恢復(fù)使用漢語的電子耳蝸佩帶者的言語恢復(fù)能力。d)采用TMS320VC5509A數(shù)字信號處理器為核心處理器,提高了系統(tǒng)運(yùn)算能力,降低了系統(tǒng)功耗。同時由于該芯片片內(nèi)RAM空間大,可以節(jié)省擴(kuò)展外部RAM的模塊,簡化系統(tǒng)設(shè)計。e)采用美國樓氏電子公司出品的微機(jī)電式(MEMS)硅微型麥克風(fēng)SP0103NC3-3,提高了對語音信號的采集質(zhì)量。該種硅微型麥克風(fēng)是一種低成本、高性能以取代傳統(tǒng)駐極體電容式麥克風(fēng)(EMC)的新技術(shù),通過利用集成電路技術(shù)將微型機(jī)械系統(tǒng)與電子組件集成于硅晶面板的表面,集生產(chǎn)高度重復(fù)性、優(yōu)異的聲音性能和將來靈活的擴(kuò)展性能于一身,從語音信號的采集開始就提升音頻信號的質(zhì)量。f)采用基于WM8950芯片的音頻放大采樣模塊,簡化了電路。窗8950集成了差分或單端麥克風(fēng),具備麥克風(fēng)前置放大器(可編程前置放大器增益),無需要外接麥克風(fēng)放大器,外圍器件簡單,工作電壓靈活(2.5V-3.6V),信噪比為95dB,諧波失真為-85dB。該模塊具備可編程高通濾波器以及IIR濾波器,去除高頻噪聲干擾。g)采用可高速讀寫的鐵電存儲器FM25L512,提高了性能,降低了成本。該芯片為帶有工業(yè)兼容SPI接口的512Kb非易失性FRAM,可以直接替代相應(yīng)的EEPR0M、FLASH等存儲設(shè)備,而且性能更佳,并能以高達(dá)20MHz的總線速度執(zhí)行無延時的讀寫操作,同時提供IO年的數(shù)據(jù)保存能力,以及幾乎無限的讀寫次數(shù)和極低的工作電流,能夠提高數(shù)據(jù)采集和存儲能力,靈活配置存儲和RAM空間,并且削減應(yīng)用成本和PCB空間。h)采用有機(jī)發(fā)光顯示器(OLED),提高了性能,降低了能耗。有機(jī)發(fā)光顯示器與傳統(tǒng)的液晶顯示方式不同,無需背光燈,而且OLED顯示屏幕可以做得更輕更薄,可視角度更大,并且能夠顯著節(jié)省電能。圖1是本實(shí)施例電子耳蝸漢語固定電刺激幅度變化模式體外語音處理裝置的結(jié)構(gòu)框圖2是其語音處理方法的結(jié)構(gòu)框圖3是漢語音節(jié)"5,d,S,6"的固定電刺激幅度變化模式刺激幅度分布示意圖。具體實(shí)施例方式下面結(jié)合本發(fā)明的具體實(shí)施方式。如圖1所示,本電子耳蝸漢語固定電刺激幅度變化模式體外語音處理裝置由電源管理模塊3、擴(kuò)展存儲模塊5、數(shù)字信號處理器(DSP)1、音頻放大采樣模塊4、信號傳輸模塊6、顯示模塊2以及數(shù)據(jù)接口7等構(gòu)成。語音信號經(jīng)過硅麥克風(fēng)采集后接入基于WM8950芯片的音頻放大采樣模塊4,處理后的數(shù)字音頻信號接入TMS320VC5509A數(shù)字信號處理器1,處理器1從基于FM25L512的擴(kuò)展存儲模塊5中讀取語音信號處理程序,并對數(shù)字音頻信號進(jìn)行處理,處理結(jié)果輸出到基于AD9833和ADL5530的信號傳輸模塊6,經(jīng)過天線傳輸給體內(nèi)處理部分。所有體外語音處理裝置功能模塊的供電由基于TPS63000、TPS65120、TPS71733和TPS3103K33DBV的電源管理模塊3控制。各功能模塊的狀態(tài)由基于SSD1332的1.04寸OLED顯示模塊2顯示。下面分別介紹各部分模塊的具體實(shí)施例方式數(shù)字信號處理器1采用TI公司的TMS320VC5509A低功耗處理器,提高了系統(tǒng)運(yùn)算能力,降低了系統(tǒng)功耗。該處理器最高主頻200MHz,運(yùn)算功能非常強(qiáng)大,非常適合便攜式設(shè)備的應(yīng)用要求。同時由于該芯片片內(nèi)RAM空間大,無需重新設(shè)計擴(kuò)展電路。芯片還集成了豐富的外設(shè)接口,可以和很多外設(shè)設(shè)備實(shí)現(xiàn)無縫連接,從而節(jié)省外圍元件設(shè)計,簡化系統(tǒng)結(jié)構(gòu)。音頻》欠大采樣才莫塊4采用了美國樓氏電子公司(KnowlesElectronicsLLC)出品的微機(jī)電式(MEMS)硅微型麥克風(fēng)SP0103NC3-3以及WM8950音頻放大采集濾波芯片。其中的硅微型麥克風(fēng)SP0103NC3-3是一種低成本、高性能以取代傳統(tǒng)駐極體電容式麥克風(fēng)(EMC)的新技術(shù)。該麥克風(fēng)釆用了低成本的封裝方式,將MEMS傳感器、CMOSLSI、被動元件的底板和頂板、以及配置于底板與頂板之間的柱利用環(huán)氧樹脂材料FR-4封裝在一起,通過利用集成電路技術(shù)將微型機(jī)械系統(tǒng)與電子組件集成于硅晶面板的表面,集生產(chǎn)高度重復(fù)性、優(yōu)異的聲音性能和將來靈活的擴(kuò)展性能于一身,使得本發(fā)明從語音信號的釆集開始就提升了音頻信號的質(zhì)量。硅麥克風(fēng)采集音頻信號利用基于麗8950芯片的音頻放大采樣模塊進(jìn)行進(jìn)一步的處理和數(shù)字化。WM8950作為一款低功耗、高質(zhì)量的單聲道ADC芯片,采用Sigma-Delta轉(zhuǎn)換技術(shù),釆樣率從8kHz到48kHz靈活可調(diào)。芯片還集成了差分或單端麥克風(fēng),具備麥克風(fēng)前置放大器(可編程前置放大器增益),無需要外接麥克風(fēng)放大器,外圍器件簡單,工作電壓靈活(2.5V-3.6V),數(shù)字電壓可低到1.71V,片內(nèi)的PLL用來從外接參考時鐘提供所需的主時鐘。芯片信噪比為95dB,諧波失真為-85dB。該模塊具備可編程高通濾波器以及IIR濾波器,去除高頻噪聲干擾,性能優(yōu)異。該芯片采用4x4mm24引腳QFN封裝,節(jié)省了硬件空間。WM8950利用I2C接口和McBSPO接口與DSP連接進(jìn)行控制信號和數(shù)據(jù)的傳輸。擴(kuò)展存儲模塊5采用可高速讀寫的鐵電存儲器FM25L512。該芯片為帶有工業(yè)兼容SPI接口的512Kb非易失性FRAM,可以直接替代相應(yīng)的EEPR0M、FLASH等存儲設(shè)備,而且性能更佳,并能以高達(dá)20MHz的總線速度執(zhí)行無延時的讀寫操作,同時提供10年的數(shù)據(jù)保存能力,以及幾乎無限的讀寫次數(shù)和極低的工作電流,能夠提高數(shù)據(jù)采集和存儲能力,靈活配置存儲和RAM空間,并且削減應(yīng)用成本和PCB空間。FM25L512芯片通過數(shù)據(jù)、地址線和片選等控制信號線和數(shù)字信號處理器1進(jìn)行連接。信號傳輸模塊6采用AD9833和ADL5530芯片。AD9833是ADI公司生產(chǎn)的一款低功耗,可編程波形發(fā)生器,能夠產(chǎn)生正弦波、三角波、方波輸出。AD9833無需外接元件,輸出頻率和相位都可通過軟件編程,易于調(diào)節(jié),頻率寄存器是28位的,主頻時鐘為25MHz時,精度為0.lHz,主頻時鐘為lMHz時,精度可以達(dá)到0.004Hz。本發(fā)明中AD9833產(chǎn)生10MHz的正弦波,作為無線傳輸?shù)妮d波信號,載波信號經(jīng)過ASK編碼調(diào)制后由ADL5530放大。ADL5530是ADI公司出品的中頻放大器之一,為支持70MHz、l權(quán)Hz、190MHz、M0MHz與380MHz等最常見的中頻應(yīng)用而專門設(shè)計。該款中頻放大器提供41dBm高線性度,對于最佳信號動態(tài)范圍其噪聲系數(shù)保持在2.5dB,此外還內(nèi)置片上偏置電路、支持1KVClass1CESD。顯示模塊2采用基于有機(jī)發(fā)光顯示器(0LED)的顯示模塊。0LED選用了韓國Kolon公司生產(chǎn)的NVK-064SC001F-S有機(jī)發(fā)光顯示器,分辨率為96x64,65K色彩。有機(jī)發(fā)光顯示器與傳統(tǒng)的液晶顯示方式不同,無需背光燈,而且OLED顯示屏幕可以做得更輕更薄,可視角度更大,并且能夠顯著節(jié)省電能。OLED屏幕由驅(qū)動芯片SSD1332控制。SSD1332顯示驅(qū)動芯片是CMOS型OLED被動式電流驅(qū)動器,具有可編程的刷新率,16級的驅(qū)動主電流調(diào)制,256階對比度以及65K色的色彩控制。內(nèi)置容量為96x64x16位的圖^^數(shù)據(jù)存儲器(GDDRAM),支持顯示屏的分辨率為96x64。驅(qū)動芯片與DSP之間利用外部存儲器接口EMIF進(jìn)行連接。8位數(shù)據(jù)線上的數(shù)據(jù)將作為圖像顯示數(shù)據(jù),根據(jù)WR和RD的選通方式寫入或讀出數(shù)據(jù)緩存GDDRAM;當(dāng)D/C為低時,P3口輸出作為命令,經(jīng)命令譯碼器譯碼,并寫入到相應(yīng)的命令寄存器,控制顯示時序發(fā)生器和行列驅(qū)動模塊,從而控制顯示屏的顯示狀態(tài)。內(nèi)置晶振為顯示時序發(fā)生器產(chǎn)生時鐘,確定掃描信號、驅(qū)動信號、行同步信號和場同步信號產(chǎn)生的時間?;译A譯碼器根據(jù)圖像數(shù)據(jù)確定每個像素點(diǎn)R、G、B三基色各自的驅(qū)動電流值,發(fā)送給列驅(qū)動器,使之產(chǎn)生相應(yīng)大小的驅(qū)動電流。行掃描器的功能主要是產(chǎn)生顯示屏行上的電壓掃描信號,列驅(qū)動器則是提供96x3(RGB)路電流驅(qū)動0LED顯示屏,驅(qū)動電流從0~200uA可256階調(diào)制。電源管理模塊3采用基于TPS63000、TPS65120、TPS71733和TPS3103K33DBV的電源管理模塊。電力由三節(jié)鋅空紐扣電池提供,TPS63000通過升壓/降壓電路將輸出電壓固定在5V,該芯片可在全電池放電電壓范圍內(nèi)高效工作,大大延長了電池壽命。+5V的電壓通過低壓降穩(wěn)壓器TPS71733轉(zhuǎn)換成低紋波的+3.3V電壓。TPS65120則提供OLED顯示模塊需要的+12V和十3.3V電壓。TPS3103K33DBV則負(fù)責(zé)整個電源管理模塊的監(jiān)測和控制。數(shù)據(jù)接口7采用了DSP自帶的USB接口和JTAG接口和PC機(jī)進(jìn)行通訊。參照圖2,本發(fā)明采用的語音處理程序包括預(yù)處理單元Sl,用于對輸入的語音信號進(jìn)行采樣、分幀;端點(diǎn)檢測單元S2,用于從預(yù)處理后的每幀信號中獲取語音段;語音識別單元S3,用于對語音段識別;以及,特征編碼單元S4,用于對語音識別的結(jié)果進(jìn)行電刺激編碼,它具有固定電刺激幅度變化模式庫S42,它內(nèi)部存儲有與包含聲調(diào)信息的所有漢語標(biāo)準(zhǔn)音節(jié)一一對應(yīng)的固定電刺激幅度變化模式;以及,刺激模式選擇調(diào)整模塊S41,它根據(jù)語音識別單元對語音段的識別結(jié)果,從固定電刺激模式庫中選出對應(yīng)的電刺激幅度變化模式,并根據(jù)語音識別結(jié)果的聲母發(fā)聲頻率、聲調(diào)信息、音長信息等對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,最終生成各個刺激電極的完整電刺激參數(shù)。語音識別單元S3采用基于隱馬爾可夫模型(腹M)的非特定人、中等詞匯量的連續(xù)語音識別算法。包含語音特征提取模塊S31,該模塊用于從語音段中提取MFCC(Mel頻率倒譜系數(shù))和一階差分MFCC作為該語音段的特征向量;矢量量化模塊S32,該模塊根據(jù)由語音庫訓(xùn)練得出的碼本S35將從語音段提取的特征向量做一次矢量量化;匹配計算模塊S33,該模塊根據(jù)由語音庫訓(xùn)練得出的詞條模型S36對量化后的特征向量進(jìn)行匹配計算,得出初步的語音識別結(jié)果;以及,語音理解及調(diào)整模塊S34,該模塊根據(jù)語義對識別結(jié)果進(jìn)行調(diào)整,得出最終識別結(jié)果。下面進(jìn)一步詳細(xì)說明。預(yù)處理單元S1主要是對語音信號進(jìn)行采樣、A/D轉(zhuǎn)換、分幀等。采樣利用AD轉(zhuǎn)換器,采樣率為16kHz。分幀是用來實(shí)現(xiàn)分割語音處理單元,從而使語音信號在分割后的單幀處理單元中近似平穩(wěn)。為了體現(xiàn)相鄰兩幀的相關(guān)性,本發(fā)明采用了幀移為幀長1/2的重疊幀。分幀時,為了方便計算,本發(fā)明采用了512點(diǎn)的幀長(32ms),256點(diǎn)的幀移,16位量化。語音信號的端點(diǎn)檢測是指應(yīng)用數(shù)字處理技術(shù)對輸入的語音信號進(jìn)行判斷,準(zhǔn)確找出語音段的起始點(diǎn)和終止點(diǎn)。在語音識別中正確地決定所要識別語音的起點(diǎn)、終點(diǎn)對于提高識別率是非常重要的。在電子耳蝸語音處理方法中,一方面利用準(zhǔn)確的端點(diǎn)檢測技術(shù)能使系統(tǒng)的運(yùn)算時間減少(處理幀數(shù)減少),提高系統(tǒng)的效率;另一方面能夠排除無聲段的噪聲干擾,從而使后續(xù)處理的性能有所提高。本發(fā)明中端點(diǎn)檢測單元S2采用基于倒諳距離門限的端點(diǎn)檢測技術(shù)。倒譜距離測量法根據(jù)每個信號幀與噪聲幀的倒譜距離的軌跡進(jìn)行檢測,它也采用門限判決的方法,只是同能量方法相比,門限值是倒譜距離門限而不是短時能量門限。計算方法如下l)首先計算背景噪聲的倒譜系數(shù),平均后作為背景噪聲倒語系數(shù)的估計值用向量C表示。2)計算每幀信號的倒譜系數(shù),然后計算每幀信號的倒語系數(shù)與噪聲倒譜系數(shù)估計值的倒譜距<formula>formulaseeoriginaldocumentpage12</formula>。公式如下V。式中對應(yīng)于C的倒傳系數(shù);P為倒譜系數(shù)的階數(shù)。3)由步驟2)計算的各幀倒譜距離得到倒譜距離軌跡,然后利用近似能量方法中門限判決的方法檢測語音段和噪聲段,從而得到語音信號的端點(diǎn)。語音識別技術(shù)是本發(fā)明的關(guān)鍵技術(shù)之一。語音識別以語音為研究對象,它是多媒體音頻技術(shù)的一個重要研究方向,是模式識別的一個分支,涉及到生理學(xué)、心理學(xué)、語言學(xué)、計算機(jī)科學(xué)以及信號處理等諸多領(lǐng)域。本發(fā)明采用的是非特定人、中等詞匯量的連續(xù)語音識別技術(shù),主要包括語音特征提取、矢量量化、匹配計算和語義理解及調(diào)整模塊。特征的提取和選擇要綜合考慮到存儲量的限制和識別性能的要求,本發(fā)明采用了在一定程度上模擬了人耳對語音處理特點(diǎn)的Mel參數(shù)-Mel頻率倒譜系數(shù)(Me卜FrequencyCeptralCoefficients,MFCC)及其一階差分作為提取的語音特征,并利用隱馬爾可夫模型(H麗)進(jìn)行模式匹配計算,最后通過漢語語義的理解及調(diào)整得出最終的語音識別結(jié)果。其中,語音特征提取方法如下l)對語音幀進(jìn)行512點(diǎn)的離散傅立葉變換(DFT),該幀語音的頻譜為S(/t,m)=f^(n,)exp(-。對語音的頻譜取模平方就會得到離散功率譜。2)將得到的離散功率譜用三角濾波器組進(jìn)行濾波,得到一組系數(shù)。該組濾波器在頻域上為簡單的三角形,在Mel頻率軸上是均勻分布的。所有濾波器總體上覆蓋了從服z到二分之一的采樣頻率。3)利用的一階差分MFCC作為特征向量。本發(fā)明采用的碼本大小為128,根據(jù)碼本將提取的特征向量做一次矢量量化(VQ)。這樣特征矢量的概率分布就簡化為一個離散的概率分布矩陣。然后根據(jù)數(shù)據(jù)庫訓(xùn)練得出的詞條模型進(jìn)行模型匹配計算,得出初步的語音識別結(jié)果,再根據(jù)語義對結(jié)果進(jìn)行調(diào)整,從而得出語音識別的最終結(jié)果。語音識別結(jié)果確定后,從固定電刺激幅度變化模式庫S42中選取與識別結(jié)果對應(yīng)的幅度變化模式,固定電刺激幅度變化模式庫中的刺激模式是固定對應(yīng)于1345個漢語標(biāo)準(zhǔn)音節(jié)(包含聲調(diào))的刺激幅度變化模式。漢語標(biāo)準(zhǔn)音節(jié)的統(tǒng)計數(shù)據(jù)是以《新華字典》第10版的基礎(chǔ)音節(jié)為標(biāo)準(zhǔn),共計1345個標(biāo)準(zhǔn)音節(jié)(包含聲調(diào)),該1345個標(biāo)準(zhǔn)音節(jié)的固定電刺激幅度變化模式由電聽覺實(shí)驗(yàn)得到。然后根據(jù)語音識別結(jié)果的聲母發(fā)聲頻率、聲調(diào)信息、音長信息等對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,最終生成各個刺激電極的完整電刺激參數(shù)。其中,電子耳蝸微電極通道選擇模式是根據(jù)語音識別結(jié)果的音節(jié)聲母發(fā)聲頻率進(jìn)行編碼。根據(jù)人耳電聽覺的位置-音調(diào)原理,參考漢語語音的音節(jié)頻率表,對1345個標(biāo)準(zhǔn)音節(jié)(包含聲調(diào))根據(jù)其聲母發(fā)聲頻率分為8組,沒有聲母的音節(jié),例如an,ou等則根據(jù)第一個元音的發(fā)聲頻率分組,分出的8組分別對應(yīng)8種電子耳蝸電極通道選擇模式,如表1所示。每種模式同時刺激8個通道,提高了植入者的感知率和識別率,減少了由于個體差異帶來的漏聽和誤聽現(xiàn)象。表l電子耳蝸電極通道選擇模式<table>tableseeoriginaldocumentpage14</column></row><table>刺激速率變化模式是根據(jù)語音識別結(jié)果的聲調(diào)信息進(jìn)行編碼。具體方法是根據(jù)人耳電聽覺的速率-音調(diào)原理和測試得到的患者可感知的電刺激速率變化范圍,在該范圍內(nèi)確定五個不同的電刺激速率,分別用"快"、"較快"、"中"、"較慢"、"慢"表示;將每個音節(jié)的刺激持續(xù)時間分為五個時間段,由五個時間段的刺激速率快慢變化描述該音節(jié)的音調(diào)信息,漢語音節(jié)的四聲調(diào)對應(yīng)的四種不同的電刺激速率變化模式見表2;根據(jù)語音識別結(jié)果的聲調(diào)信息按表2設(shè)置各個音節(jié)的電刺激速率變化模式,即如果音節(jié)的聲調(diào)為"一聲",則其電刺激速率變化模式為"快、快、快、快、快",如果音節(jié)的聲調(diào)為"二聲",則其電刺激速率變化模式為"中、中、較快、快、快",如果音節(jié)的聲調(diào)為"三聲",則其電刺激速率變化模式為"較慢、慢、較慢、中、較快",如果音節(jié)的聲調(diào)為"四聲",則其電刺激速率變化模式為"快、較快、中、較慢、慢"。本發(fā)明釆用四種不同的電刺激速率的變化模式定義漢語的四聲調(diào),輔助刺激幅度等特征構(gòu)成電刺激模式,可以提高植入者對聲調(diào)信息的感知和識別,從而提高對漢語信息的識別能力。表2電刺激速率的變化模式<table>tableseeoriginaldocumentpage15</column></row><table>刺激時間是根據(jù)語音識別結(jié)果的音長信息進(jìn)行編碼。固定電刺激幅度變化模式持續(xù)時間是可變化的,且持續(xù)的時間長短與語音識別結(jié)果音節(jié)的實(shí)際音長信息一致,為植入者傳遞了音長信息。一個音節(jié)的電刺激結(jié)束后,都會有一個固定時間段的靜止時間,便于植入者分隔區(qū)別前后兩個音節(jié)的刺激模式,提高語音識別率。圖3是漢語音節(jié)"5,d,d,6"的固定電刺激幅度變化模式刺激幅度分布示意圖。圖中縱坐標(biāo)代表不同被選中通道,橫坐標(biāo)代表四個音節(jié)固定刺激模式的時間分布,圖中灰度代表固定刺激模式的刺激幅度。本發(fā)明結(jié)合以標(biāo)準(zhǔn)音節(jié)為識別單元的語音識別技術(shù),利用固定電刺激幅度變化模式對識別結(jié)果進(jìn)行電刺激編碼與調(diào)整,完善了適合漢語特征的電子耳蝸語音處理方法,生成了符合方法的刺激電流參數(shù),從而為更好的恢復(fù)我國患者的聽力奠定了基礎(chǔ)o權(quán)利要求1、一種電子耳蝸漢語固定電刺激幅度變化模式體外語音處理裝置,其特征在于包括音頻放大采樣模塊,用于將采集的語音信號轉(zhuǎn)換為數(shù)字音頻信號;存儲模塊,它內(nèi)部存儲有語音信號處理程序;數(shù)字信號處理器,它與音頻放大采樣模塊和存儲模塊連接,通過運(yùn)行存儲模塊內(nèi)的語音信號處理程序?qū)σ纛l放大采樣模塊轉(zhuǎn)換后的數(shù)字音頻信號處理,輸出相應(yīng)的電刺激參數(shù);以及,信號傳輸模塊,它與數(shù)字信號處理器連接,用于將所述電刺激參數(shù)傳輸給配套的電子耳蝸體內(nèi)部分;所述語音信號處理程序包括預(yù)處理單元,用于對輸入的語音信號進(jìn)行采樣、分幀;端點(diǎn)檢測單元,用于從預(yù)處理后的每幀信號中獲取語音段;語音識別單元,用于對語音段識別;以及,特征編碼單元,用于對語音識別的結(jié)果進(jìn)行電刺激編碼,它具有固定電刺激幅度變化模式庫,它內(nèi)部存儲有與包含聲調(diào)信息的所有漢語標(biāo)準(zhǔn)音節(jié)一一對應(yīng)的固定電刺激幅度變化模式;以及,刺激模式選擇調(diào)整模塊,它根據(jù)語音識別單元對語音段的識別結(jié)果,從固定電刺激模式庫中選出對應(yīng)的電刺激幅度變化模式,并分別根據(jù)語音識別結(jié)果的聲母發(fā)聲頻率、聲調(diào)信息、音長信息對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,最終生成對應(yīng)各個刺激電極的完整電刺激參數(shù)。2、根據(jù)權(quán)利要求1所述的體外語音處理裝置,其特征在于所述端點(diǎn)檢測單元采用基于倒譜距離門限的端點(diǎn)檢測算法。3、根據(jù)權(quán)利要求1所述的體外語音處理裝置,其特征在于所述語音識別單元采用基于隱馬爾可夫模型的非特定人、中等詞匯量的連續(xù)語音識別算法。4、根據(jù)權(quán)利要求3所述的體外語音處理裝置,其特征在于所述語音識別單元包含語音特征提取模塊,該模塊用于從語音段中提取MFCC和一階差分MFCC作為該語音段的特征向量;矢量量化模塊,該模塊根據(jù)由語音庫訓(xùn)練得出的碼本將從語音段提取的特征向量做一次矢量量化;匹配計算模塊,該模塊根據(jù)由語音庫訓(xùn)練得出的詞條模型對量化后的特征向量進(jìn)行匹配計算,得出初步的語音識別結(jié)果;以及,語音理解及調(diào)整模塊,該模塊根據(jù)語義對識別結(jié)果進(jìn)行調(diào)整,得出最終識別結(jié)果。5、根據(jù)權(quán)利要求l-4任一項(xiàng)所述的體外語音處理裝置,其特征在于所述數(shù)字信號處理器采用TI公司TMS320VC5509A數(shù)字信號處理器,音頻放大采集模塊采用美國樓氏電子公司的微機(jī)電式硅微型麥克風(fēng)SP0103NC3-3以及WM8950音頻放大采集濾波芯片,存儲模塊采用可高速讀寫的鐵電存儲器FM25L512,信號傳輸模塊釆用AD9833芯片和ADL5530芯片。6、根據(jù)權(quán)利要求5所述的體外語音處理裝置,其特征在于還包括有機(jī)發(fā)光顯示器,用于顯示各功能模塊的狀態(tài)。7、根據(jù)權(quán)利要求5所述的體外語音處理裝置,其特征在于采用基于TPS63000、TPS65120、TPS71733和TPS3103K33DBV的電源管理模塊控制三節(jié)紐扣電池提供+5V、+3.3V和+12V工作電壓。8、一種電子耳蝸漢語固定電刺激幅度變化模式體外語音處理方法,其特征在于包括以下步驟對輸入的語音信號進(jìn)行采樣、分幀的預(yù)處理步驟;通過端點(diǎn)檢測單元從預(yù)處理后的每幀信號中獲取語音段的步驟;通過語音識別單元對獲取的語音段進(jìn)行識別的步驟;和,根據(jù)語音識別結(jié)果,從固定電刺激幅度變化模式庫選出對應(yīng)的電刺激幅度變化模式,并分別根據(jù)語音識別結(jié)果的聲母發(fā)聲頻率、聲調(diào)信息、音長信息對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,生成對應(yīng)各個刺激電極的完整電刺激參數(shù)的步驟,該電刺激參數(shù)用于控制電子耳蝸體內(nèi)部分使配帶者感知該語音信號。9、根據(jù)權(quán)利要求8所述的語音處理方法,其特征在于,根據(jù)語音識別結(jié)果的聲調(diào)信息調(diào)整電刺激速率變化模式的方法為根據(jù)人耳電聽覺的速率-音調(diào)原理和測試得到的患者可感知的電刺激速率變化范圍,在該范圍內(nèi)確定五個不同的電刺激速率,分別用"快"、"較快"、"中"、"較慢"、"慢,,表示;將每個音節(jié)的刺激持續(xù)時間分為五個時間段,由五個時間段的刺激速率快慢變化描述該音節(jié)的聲調(diào)信息,漢語音節(jié)的四聲調(diào)對應(yīng)的四種不同的電刺激速率變化模式見表2;<table>tableseeoriginaldocumentpage4</column></row><table>根據(jù)語音識別結(jié)果的聲調(diào)信息按表2設(shè)置各個音節(jié)的電刺激速率變化模式。10、根據(jù)權(quán)利要求8所述的語音處理方法,其特征在于所述固定電刺激幅度變化模式庫中的電刺激幅度變化模式與《新華字典》第10版的1345個標(biāo)準(zhǔn)音節(jié)一一對應(yīng)。全文摘要一種電子耳蝸漢語固定電刺激幅度變化模式體外語音處理裝置,包括音頻放大采樣模塊、存儲模塊、數(shù)字信號處理器及信號傳輸模塊,其語音信號處理程序包括預(yù)處理單元、端點(diǎn)檢測單元、語音識別單元以及特征編碼單元,特征編碼單元具有固定電刺激幅度變化模式庫和刺激模式選擇調(diào)整模塊,它根據(jù)對語音段的識別結(jié)果,從固定電刺激模式庫中選出對應(yīng)的電刺激幅度變化模式,并對電極通道選擇模式、刺激速率變化模式、刺激時間進(jìn)行調(diào)整,最終生成對應(yīng)各個刺激電極的完整電刺激參數(shù)。本發(fā)明采用以漢語標(biāo)準(zhǔn)音節(jié)為識別單元的語音識別技術(shù),利用固定電刺激幅度變化模式對識別結(jié)果進(jìn)行電刺激編碼與調(diào)整,能更加有效的恢復(fù)電子耳蝸佩戴者的漢語言語識別能力。文檔編號G10L15/14GK101301240SQ20081006731公開日2008年11月12日申請日期2008年5月21日優(yōu)先權(quán)日2008年5月21日發(fā)明者添關(guān),葉大田,濤徐,朱子儼申請人:清華大學(xué)深圳研究生院