專利名稱::一種應(yīng)用于電子耳蝸的語音處理方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及應(yīng)用于語音信號處理,特別涉及一種應(yīng)用于電子耳蝸體外語音處理器的語音處理方法。
背景技術(shù):
:電子耳蝸(cochlearimplant)是唯一能夠幫助重度耳聾患者通過電信號直接刺激殘余聽覺神經(jīng)以恢復(fù)部分聽力的裝置。圖1是電子耳蝸系統(tǒng)的信號處理流程框圖,如圖1所示,經(jīng)麥克風(fēng)采集的語音信號通過預(yù)加重處理以及ADC轉(zhuǎn)換后的數(shù)字信號通過濾波器組或者FFT分為m個通道,每個通道聲音信號的包絡(luò)幅度信息,經(jīng)非線性壓縮變?yōu)閯討B(tài)范圍較小的電信號,編碼后電信號通過射頻發(fā)射,刺激植入體部分電極。語音處理策略將聲音信號轉(zhuǎn)化為電刺激,完成語音信號的量化、濾波、編碼。目前電子耳蝸采用的語音處理方法,由于連續(xù)交錯采樣(continuousinterleavedsampling,CIS)策略可以達到較高的刺激速率和語音識別準確率是唯一被世界三家主要電子耳蝸產(chǎn)品采用的語音處理策略。圖2是現(xiàn)有的CIS語音處理策略原理框圖。如圖2所示,為了提升輸入語音信號的高頻分量,進行預(yù)加重處理,預(yù)加重后信號通過一組帶通濾波器分為m個通道,每個通道經(jīng)全波整流和低通濾波提取包絡(luò),提取的包絡(luò)信息因動態(tài)范圍較大,采用非線性函數(shù)壓縮,通常采用指數(shù)函數(shù)或者對數(shù)函數(shù)將動態(tài)范圍較大的語音信號壓縮到適合于耳聾患者的較窄電剌激動態(tài)范圍。壓縮后的m個通道信號通過射頻發(fā)射,用對稱雙相脈沖序列進行調(diào)制,調(diào)制脈沖序列時序上不同步,脈沖交替出現(xiàn),最后,經(jīng)脈沖序列調(diào)制后的離散序列即作為刺激電極的電刺激信號?,F(xiàn)有的CIS語音策略在總刺激速率一定時,通過調(diào)整脈沖頻率,脈沖寬度,刺激順序,非線性壓縮函數(shù)等參數(shù),調(diào)整每個通道剌激速率。在噪聲級為30dB時,現(xiàn)有CIS語音處理策略的SII值(SII:speechintelligibilityindex言語可懂度)為0.5?,F(xiàn)有CIS語音處理策略在一個刺激周期內(nèi)將m個通道的語音信號傳遞到m個電極,因此在總刺激速率一定的條件下,每個刺激電極獲得的剌激速率較低是目前CIS語音處理策略的不足之處。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種新的應(yīng)用于電子耳蝸的語音處理方法,利用該方法能夠解決在一個刺激周期內(nèi),總刺激速率一定時,提高每個刺激電極刺激速率的問題,以達到傳遞更多語音細節(jié)信息,提高電子耳蝸使用者語音識別的準確率的目的。為實現(xiàn)上述發(fā)明目的,本發(fā)明的一種應(yīng)用于電子耳蝸的語音處理方法,包括如下步驟1)將由麥克風(fēng)采集的語音信號進行預(yù)加重處理,為了提升麥克風(fēng)所采集的語音信號的高頻成分,進行預(yù)加重處理。通常用高通濾波器實現(xiàn)預(yù)加重,高通濾波器可以采用硬件RC濾波器也可以采用數(shù)字IIR、FIR濾波器實現(xiàn);2)通過ADC(Analog-to-digitalconversion,模數(shù)轉(zhuǎn)換器)轉(zhuǎn)換器將采集的語音信號轉(zhuǎn)換為數(shù)字信號,轉(zhuǎn)換后的數(shù)字信號通過I2S格式或者SPI方式傳輸?shù)街魈幚硇酒?,通過ADC將預(yù)加重后的語音信號轉(zhuǎn)換為數(shù)字信號,使得信號可以通過DSP芯片或者專用IC芯片進行處理,通常采樣芯片可完成ADC;3)通過FFT方法或者濾波器組的方法將數(shù)字信號分為m個頻段,即m個通道,每個通道對應(yīng)一個頻段,每個頻段對應(yīng)電極陣列中的一個電極;4)為得到刺激電極電流幅度,對每個通道進行包絡(luò)提取,包絡(luò)提取可以通過希爾伯特變換方法獲得,也可以通過對每個通道的語音信號全波整流后通過一個低通濾波器實現(xiàn);5)計算每個通道提取的包絡(luò)信號的調(diào)制深度(modulationdepth),即計算包絡(luò)信號中最大值和最小值的比值,調(diào)制深度通常應(yīng)用于檢測輸入信號中是否存在語音信號,以估計輸入信號的信噪比。則m個通道得到m個調(diào)制深度的值,將m個調(diào)制深度值進行由大到小的排序;6)選擇m個通道中調(diào)制深度最大的n個通道,并輸出通道的包絡(luò)信號,得到的m個通道的m個調(diào)制深度的值排序后,按照由大到小的順序選擇其中調(diào)制深度最大的n(iKm)個通道,并輸出通道的包絡(luò)幅度;7)采用非線性函數(shù)對調(diào)制深度最大的n個通道的包絡(luò)進行壓縮,使n個通道的動態(tài)范圍滿足聾人較窄的電刺激動態(tài)范圍,未壓縮時,輸出的n個通道包絡(luò)動態(tài)范圍通常達到40dB以上,但重度耳聾患者的動態(tài)范圍通常只有3—10dB,因此需要采用非線性函數(shù)將其進行動態(tài)范圍的壓縮。通常采用的非線性函數(shù)有指數(shù)函數(shù)和對數(shù)函數(shù);8)將n個通道壓縮后的包絡(luò)幅度值以一定的編碼形式(如曼徹斯特編碼、PMW(pulsewidthmodulation,脈寬調(diào)制編碼)等。)編碼后,通過ASK調(diào)制發(fā)射。本發(fā)明采用選擇應(yīng)用于助聽器的客觀評價指標SII(speechintelligibilityindex,言語可懂度)作為發(fā)明的評價體系。在背景噪聲級為30dB時,本發(fā)明的SII值是0.82。SII值在同樣的噪聲級時比現(xiàn)有SII值更大,具有更好的言語可懂度。本發(fā)明的優(yōu)點在于,在電子耳蝸系統(tǒng)中,由于總的剌激速率是有限的,總的頻段數(shù)有限,分配到每個剌激電極的剌激速率是有限的,在較多的m個通道中選擇調(diào)制深度最大的n(n<m)通道來剌激,可以提高每個剌激頻段的刺激速率;根據(jù)調(diào)制深度大小,選擇包含較多語音信號的頻段刺激相應(yīng)的電極,提高使用本發(fā)明的電子耳蝸植入者言語識別的準確率。圖1是典型電子耳蝸信號流程圖2是現(xiàn)有CIS語音處理方法原理示意圖3是本發(fā)明的語音處理方法原理示意圖。具體實施例方式下面結(jié)合附圖和具體實施例對本發(fā)明的一種應(yīng)用于電子耳蝸的語音處理方法進行詳細的說明。圖3是本發(fā)明的語音處理方法的原理框圖。如圖3所示,本發(fā)明的一種應(yīng)用于電子耳蝸的語音處理方法,包括如下步驟-1)將通過麥克風(fēng)采集的語音信號進行預(yù)加重處理,預(yù)加重處理通過高通濾波器實現(xiàn),該高通濾波器采用硬件RC濾波器或者數(shù)字IIR、FIR濾波器;2)通過ADC(Analog-to-digitalconversion,模數(shù)轉(zhuǎn)換器)將預(yù)加重后的語音信號轉(zhuǎn)換為數(shù)字信號,轉(zhuǎn)換后的數(shù)字信號通過I2S格式或者SPI方式傳輸?shù)街魈幚硇酒?)通過FFT方法或者濾波器組的方法將數(shù)字信號分為m個頻段,即m個通道,每個通道對應(yīng)一個頻段,每個頻段對應(yīng)電極陣列中的一個電極;4)為得到刺激電極電流幅度,對每個通道進行包絡(luò)提取,包絡(luò)提取通過希爾伯特變換方法獲得,或者通過對每個通道的語音信號進行全波整流和低通濾波實現(xiàn);5)計算每個通道提取的包絡(luò)信號的調(diào)制深度,即計算包絡(luò)信號中最大值和最小值的比值,調(diào)制深度應(yīng)用于檢測輸入信號中是否存在語音信號,以估計輸入信號的信噪比,m個通道得到m個調(diào)制深度的值,將m個調(diào)制深度值進行由大到小的排序;6)選擇m個通道中調(diào)制深度最大的n個通道,并輸出該n個通道的包絡(luò)信號,得到的m個通道的m個調(diào)制深度的值排序后,按照由大到小的順序選擇其中調(diào)制深度最大的n個通道,輸出通道的包絡(luò)幅度;7)采用非線性函數(shù)對調(diào)制深度最大的n個通道的包絡(luò)進行壓縮,使n個通道的動態(tài)范圍滿足聾人較窄的電剌激動態(tài)范圍;8)將n個通道壓縮后的包絡(luò)幅度值以一定的編碼形式(例如曼徹斯特編碼、PMW(pulsewidthmodulation,脈寬調(diào)制編碼)等)進行編碼后,通過ASK調(diào)制發(fā)射。實施例如圖3所示,輸入的語音信號經(jīng)過提升高頻成分的預(yù)加重處理后,通過由m個帶通濾波器組成的濾波器組,將語音信號分為m個頻帶,通過全波整流和低通濾波得到m個通道的包絡(luò)信號,計算每個通道的調(diào)制深度(modulationdepth),即包絡(luò)的最大值A(chǔ)隨和最小值A(chǔ)min的比值,選擇其中調(diào)制深度最大的n(rKm)個通道,將n個通道的包絡(luò)進行非線性函數(shù)壓縮得到較窄的動態(tài)范圍,將n個通道壓縮后包絡(luò)幅度信息用對稱雙相脈沖序列進行調(diào)制,調(diào)制脈沖序列在時序上不同步,脈沖交替出現(xiàn),消除了通道間的干擾。在總刺激速率一定的條件下,用n(n〈m)個通道刺激電極得到每個通道的剌激速率大于用m個通道刺激電極時每個通道的刺激速率,較多的傳遞了語音信號的時域細節(jié),提高語音識別的準確率。各個步驟具體實施方式如下1)由麥克風(fēng)從外界拾取語音信號,為了提升信號的高頻成分對信號進行預(yù)加重處理。信號預(yù)加重處理采用截止頻率為1.2kHz的1階Butterworth高通濾波器實現(xiàn),其傳遞函數(shù)為-7=6。x(w)+、x("_1)+a'y(w—1);其中b0=0.7736,b!=-0.7736,a!=-0.5472。2)將預(yù)加重后的信號通過采樣芯片進行AD轉(zhuǎn)化??刹捎?4位立體聲模數(shù)轉(zhuǎn)換芯片CS53L21完成采樣信號的AD轉(zhuǎn)換,將轉(zhuǎn)換后的數(shù)字信號通過I2S格式傳輸?shù)街魈幚硇酒?。主處理芯片可為通用DSP芯片(如TMS320VC5502)或者專用IC芯片;3)將語音信號采用帶通濾波器組的方法分為m個通道。各個通道的中心頻率和截止頻率采用耳蝸恒Q的特性(即中心頻率/帶寬=常數(shù))劃分。本發(fā)明中帶通濾波器組可采用4階Butterworth數(shù)字帶通IIR濾波器實現(xiàn),4階Butterworth濾波器組的差分方程為44其中,r和A是表達式中延時的表述變量。另外,本發(fā)明中的通濾波器組也可以采用128階的FIR帶通濾波器,其差分方程為127K")=£6^)x("—W。4)提取帶通濾波器組劃分的m個通道語音信號包絡(luò)幅度信息作為刺激電極的電流幅度。本發(fā)明的語音處理方法中的包絡(luò)提取處理采用每個通道進行全波整流后,通過截止頻率為200Hz、400Hz或者800Hz的低通濾波器實現(xiàn),當通過截止頻率為400Hz的2階Butterworth低通IIR濾波器實現(xiàn)時,低通濾波器差分方程為少(m)_6。x(w)+—+62x(w—2)+a^(w—1)+2>"("—2)其中bo=0.0079;bi=0.0158;b2=0.0079;a!=-1.7329;a2=0.7646另外,該步驟中的包絡(luò)提取也可以通過希爾伯特變換方法獲得。希爾伯特方法理論上可以得到更好的包絡(luò)幅度信息,但是在用硬件系統(tǒng)實現(xiàn)語音處理策略的時候,計算量較大,占用較多的硬件資源和系統(tǒng)功耗,因此本實施方式中采用了全波整流通過低通濾波器的方法。5)得到m個通道的包絡(luò)幅度,計算每個通道的調(diào)制深度,即計算m個通道的包絡(luò)幅度最大值與最小值的比值,以dB為單位6)將計算得到的m個通道調(diào)制深度按照由大到小順序排列。選取m個通道中調(diào)制深度最大的n(n<m)個通道,作為一個刺激周期內(nèi)的刺激通道以剌激對應(yīng)電極。7)發(fā)明中實現(xiàn)動態(tài)范圍壓縮的非線性函數(shù)采用對數(shù)函數(shù)_y=Jlog10x+5,其中;c是壓縮前各個通道包絡(luò)幅度,少是壓縮后輸出;A,B是常數(shù),由電子耳蝸植入者的最小聽閾值THR(T-level)和最舒適度MCL值(C-level)得到,MCX—THR8)壓縮后的包絡(luò)幅度信息以一定的編碼方式(例如曼徹斯特編碼、PMW(pulsewidthmodulation,脈寬調(diào)制編碼)等。)進行編碼后,通過射頻方式發(fā)射。表1給出的是將包含有幅度信息和電極信息的數(shù)據(jù)按照曼徹斯特編碼方式發(fā)送的數(shù)據(jù)格式。表1發(fā)送數(shù)據(jù)格式<table>tableseeoriginaldocumentpage9</column></row><table>表1中發(fā)送的原始數(shù)據(jù)中設(shè)置一個起始位O;8bit數(shù)據(jù)位,即D7、D6、D5、D4、D3、D2、Dl、D0表示傳遞的信息,其中3bit表示電極,5bit表示通道幅度信息;設(shè)置一個停止位l。將原始數(shù)據(jù)進行曼徹斯特編碼后產(chǎn)生發(fā)射數(shù)據(jù)的最后格式。編碼后數(shù)據(jù)經(jīng)ASK調(diào)制發(fā)射。經(jīng)曼徹斯特編碼后的發(fā)送數(shù)據(jù)使原始10bit數(shù)據(jù)變?yōu)?0bit數(shù)據(jù),帶寬的利用率降低一倍,但是這種ASK調(diào)制方式解調(diào)時較簡單,容易恢復(fù)時鐘,從而降低系統(tǒng)的功耗。綜上所述,本發(fā)明提出的一種應(yīng)用于電子耳蝸的語音處理策略,比較現(xiàn)有的CIS策略,在總刺激速率一定的條件下,根據(jù)每個通道語音信號不同的調(diào)制深度值,選擇對語音識別影響較大的含有較多語音信號的通道作為最后的刺激頻段,在一個刺激周期內(nèi),可以提高每個刺激通道的剌激速率,提高語音處理方法使用者的言語識別準確率。本發(fā)明提出了選擇最終刺激通道時,在一個刺激周期內(nèi),不是將帶通濾波器組得到的m個通道刺激電流傳送給m個電極,而是從m個通道中選擇調(diào)制深度最大的n(iKm)個通道輸出來刺激相應(yīng)的n個電極。在總的刺激速率一定的條件下,減少剌激電極的個數(shù),傳遞對語音識別作用較大的通道,對含有較少語音信息的通道不進行刺激,提高每個刺激電極的刺激速率。10權(quán)利要求1、一種應(yīng)用于電子耳蝸的語音處理方法,包括如下步驟1)將通過麥克風(fēng)采集的語音信號進行預(yù)加重處理,預(yù)加重處理通過高通濾波器實現(xiàn),該高通濾波器可采用硬件RC濾波器或者數(shù)字IIR、FIR濾波器;2)通過模數(shù)轉(zhuǎn)換器ADC將預(yù)加重后的語音信號轉(zhuǎn)換為數(shù)字信號,轉(zhuǎn)換后的數(shù)字信號通過I2S格式或者SPI方式傳輸?shù)街魈幚硇酒?)通過FFT方法或者濾波器組的方法將數(shù)字信號分為m個頻段,即m個通道,每個通道對應(yīng)一個頻段,每個頻段對應(yīng)電極陣列中的一個電極;4)為得到刺激電極電流幅度,對每個通道進行包絡(luò)提取,包絡(luò)提取可通過希爾伯特變換方法獲得,或者通過對每個通道的語音信號進行全波整流和低通濾波實現(xiàn);5)計算每個通道提取的包絡(luò)信號的調(diào)制深度,即計算包絡(luò)信號中最大值和最小值的比值,調(diào)制深度應(yīng)用于檢測輸入信號中是否存在語音信號,以估計輸入信號的信噪比,m個通道得到m個調(diào)制深度的值,將m個調(diào)制深度值進行由大到小的排序;6)選擇m個通道中調(diào)制深度最大的n個通道,并輸出該n個通道的包絡(luò)信號,其中n<m;7)采用非線性函數(shù)對調(diào)制深度最大的n個通道的包絡(luò)進行壓縮,使n個通道的動態(tài)范圍滿足聾人較窄的電刺激動態(tài)范圍;8)將n個通道壓縮后的包絡(luò)幅度值以曼徹斯特編碼形式或者脈寬調(diào)制編碼形式進行編碼后,通過ASK調(diào)制發(fā)射。2、如權(quán)利要求l所述的應(yīng)用于電子耳蝸的語音處理方法,其特征在于,所述步驟1)中的信號預(yù)加重處理采用截止頻率為1.2kHz的高通濾波器實現(xiàn),如果采用截止頻率為1.2kHz的1階Butterworth高通濾波器時,其傳遞函數(shù)為X")=6。X(rt)+6'X(M—1)+"J(M—1)其中bo=0.7736;bi=-0.7736;ai=-0.5472。3、如權(quán)利要求1所述的應(yīng)用于電子耳蝸的語音處理方法,其特征在于,所述步驟2)中,所述預(yù)加重后的信號通過采樣芯片進行AD轉(zhuǎn)化,該采樣芯片采用24位立體聲模數(shù)轉(zhuǎn)換芯片CS53L21、或者音頻信號解碼編碼芯片TLV320AIC10。4、如權(quán)利要求l所述的應(yīng)用于電子耳蝸的語音處理方法,其特征在于,所述步驟3)中,當采用帶通濾波器組的方法將數(shù)字信號分為m個通道時,各個通道的中心頻率和截止頻率采用耳蝸恒Q的特性進行劃分,所述帶通濾波器組采用4階Butterworth數(shù)字帶通IIR濾波器或者128階的FIR帶通濾波器,采用4階Butterworth數(shù)字帶通IIR濾波器時,濾波器組的差分方程為<formula>formulaseeoriginaldocumentpage3</formula>采用128階的FIR帶通濾波器時,其差分方程為<formula>formulaseeoriginaldocumentpage3</formula>5、如權(quán)利要求l所述的應(yīng)用于電子耳蝸的語音處理方法,其特征在于,所述步驟4)中,所述包絡(luò)提取處理采用每個通道進行全波整流后,通過截止頻率為200Hz、400Hz或者800Hz的低通濾波器實現(xiàn),如果采用截止頻率為400Hz的2階Butterworth低通濾波器,差分方程為y(w)=60x(w)+夂(w_1)+62jc(w_2)+a_y(n—1)+a2_y(w——2)其中b。=0.0079;bi=0.0158;b2=0.0079;a!=-1.7329;a2=0.7646。6、如權(quán)利要求1所述的應(yīng)用于電子耳蝸的語音處理方法,其特征在于,所述步驟7)中所采用的非線性函數(shù)為指數(shù)函數(shù)或者對數(shù)函數(shù),當采用對數(shù)函數(shù)時其中,x是壓縮前各個通道包絡(luò)幅度,;;是壓縮后輸出;A,B是常數(shù),由電子耳蝸植入者的最小聽閾值THR和最舒適度MCL值得到<formula>formulaseeoriginaldocumentpage3</formula>全文摘要本發(fā)明提供一種應(yīng)用于電子耳蝸的語音處理方法。該方法將輸入的語音信號經(jīng)過提升高頻成分的預(yù)加重處理后,通過由m個帶通濾波器組成的濾波器組,將語音信號分為m個頻帶,通過全波整流和低通濾波得到m個通道的包絡(luò)信號并計算每個通道的調(diào)制深度,選擇其中調(diào)制深度最大的n個通道,將n個通道的包絡(luò)進行非線性函數(shù)壓縮得到較窄的動態(tài)范圍,將n個通道壓縮后包絡(luò)幅度信息用對稱雙相脈沖序列進行調(diào)制,調(diào)制脈沖序列在時序上不同步,脈沖交替出現(xiàn),消除了通道間的干擾。在總刺激速率一定的條件下,用n個通道刺激電極得到每個通道的刺激速率大于用m個通道刺激電極時每個通道的刺激速率,較多的傳遞了語音信號的時域細節(jié),提高語音識別的準確率。文檔編號G10L15/00GK101645267SQ200910081610公開日2010年2月10日申請日期2009年4月3日優(yōu)先權(quán)日2009年4月3日發(fā)明者麗孟,杰崔,靈肖申請人:中國科學(xué)院聲學(xué)研究所