基于帶限正交分量的聲音編碼方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種基于帶限正交分量的聲音編碼方法及系統(tǒng),該方法用于生成人工耳蝸電極的輸入信號,所述方法包含:步驟101)將麥克風(fēng)采集到的音頻信號進行分頻帶處理,得到各分頻帶信號xk(t);步驟102)將分頻帶處理后的信號xk(t)進行正交相干解調(diào),得到兩個帶限正交分量uk(t)和vk(t);步驟103)根據(jù)兩個帶限正交分量計算得到xk(t)的包絡(luò)信號mk,0(t);步驟104)按照一定的組合方式組合uk(t)和vk(t),將組合結(jié)果作為小幅震蕩與mk,0(t)相加,得到刺激信號幅度mk(t);步驟105)將所得刺激信號幅度mk(t)按照人工耳蝸植入者的每個電極通道的感音閾值進行非線性動態(tài)范圍壓縮,得到m'k(t);步驟106)將m'k(t)調(diào)制脈沖串后發(fā)送到人工耳蝸電極上去。
【專利說明】基于帶限正交分量的聲音編碼方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提出了基于帶限正交分量聲音編碼方法和系統(tǒng),適用于人工耳蝸等采用分 頻帶方式的電刺激聽覺輔助設(shè)備,具體涉及一種基于帶限正交分量的聲音編碼方法和系 統(tǒng)。
【背景技術(shù)】
[0002] 聲碼器模型為音頻編碼中的經(jīng)典模型,為了在有限的通信帶寬范圍內(nèi)傳輸語音信 號,聲碼器模型將語音信號進行分頻帶處理,并提取出每個頻帶輸出信號的包絡(luò),將各個頻 帶的包絡(luò)信號和檢測到的音高信息、清濁信息通過通信線路進行傳輸,這樣可以降低數(shù)據(jù) 帶寬。
[0003] 聲碼器模型還被用于語音合成、樂器音合成。另外,有研究表明,僅利用很小數(shù)量 的分頻帶數(shù)的包絡(luò)信息就可以有效的傳達語義。該模型被廣泛的應(yīng)用于人工耳蝸信號處理 策略中來。例如連續(xù)間隔采樣策略(Continuous Interleaved Sampling, CIS),該策略為目 前人工耳蝸產(chǎn)品所采用的主流策略。
[0004] CIS的主要操作流程為:首先將麥克風(fēng)采集到的音頻信號進行分頻帶處理,然后 提取各個頻帶輸出信號的包絡(luò)信號,再根據(jù)聽力師預(yù)先測得的人工耳蝸植入者的各個電極 的有效感知范圍(即最小感知閾值和最大感受門限)進行非線性動態(tài)范圍壓縮,最后調(diào)制電 脈沖序列并送至各個電極。
[0005] 從以上流程可以看出,各個頻帶中僅保留包絡(luò)信息,其他信息被拋棄掉了。有研究 表明,在安靜環(huán)境下植入者利用以上類型的策略已經(jīng)可以獲得良好的言語識別率,但對于 聲調(diào)、首樂等的感知還有待提1?,另外在噪聲環(huán)境下的感知效果也有待提1?。
[0006] 針對上述存在問題,研究者們開始考慮將上面流程中"拋棄"掉的部分重新找回 來,加入到電刺激信號中,這部分信號通常被稱為"精細(xì)結(jié)構(gòu)"。這類研究的基本假設(shè)模型為 "包絡(luò)-精細(xì)結(jié)構(gòu)(Envelope-Fine Structure, EF)"模型或稱為"幅度調(diào)制-頻率調(diào)制"模 型。該模型中將第k個頻帶輸出的信號xk(t)分解為x k(t) =mk(t) ?(^⑴。其中mk(t)為 包絡(luò),ck(t)為精細(xì)結(jié)構(gòu)。
[0007] 在帶通語音信號分解研究中,除了"包絡(luò)-精細(xì)結(jié)構(gòu)"模型外還有一種經(jīng)典的模型 為 Rosen 提出的"包絡(luò)-周期性-精細(xì)結(jié)構(gòu)(Envelpe-Periodicity-Fine Structure, EPF)" 模型。EPF模型采用整流對帶通語音信號進行處理,然后對每個頻帶的整流輸出分別提取 0-50Hz,50-500HZ,>500Hz的部分分別作為包絡(luò)、周期性和精細(xì)結(jié)構(gòu)。
[0008] 根據(jù)心理聲學(xué)理論可知,電刺激聽覺感知與聲刺激聽覺感知有顯著的差異,電刺 激聽覺在信號表達上試圖模擬聲刺激聽覺,但由于目前對于人類聽覺系統(tǒng)的認(rèn)識離完美還 有很大距離,電刺激聽覺的時頻分析能力遠(yuǎn)不及正常聽力者的聲刺激聽覺感知。在現(xiàn)有人 工耳蝸技術(shù)中,位置理論和時間理論就體現(xiàn)得更為直接?;啄ど喜煌恢脤?yīng)不同的感 音頻率,然而同一個電極上的刺激幅度的起伏也會帶給植入者以頻率信息。
[0009] 人工耳蝸信號處理策略中常采用類似的方法取得包絡(luò)信息,只是其中的低通濾波 截止頻率可以根據(jù)實際情況進行選擇。另外一種方法就是采用希爾伯特變換取得帶通信號 的希爾伯特包絡(luò)。
[0010]另外,利用EF模型,研究者們建議將精細(xì)結(jié)構(gòu)信息增加到電刺激信號中來,以增 強植入者在噪聲環(huán)境下的聽音效果。也已經(jīng)有研究者開始嘗試。
[0011] 這些嘗試中,典型的思想是將帶通信號xk(t)建模為準(zhǔn)正弦振蕩形式:
[0012]
【權(quán)利要求】
1. 一種基于帶限正交分量的聲音編碼方法,該方法用于生成人工耳蝸電極的輸入信 號,所述方法包含: 步驟101)將麥克風(fēng)采集到的音頻信號x(t)進行分頻帶處理,得到各分頻帶信號 xk(t),其中,k的取值范圍為" 1-K"且κ的取值為根據(jù)當(dāng)前應(yīng)用設(shè)定的分頻帶數(shù)目,Xk⑴的 頻率范圍為[f;k-B/2, f;k+B/2],f;k為第k個頻帶的中心頻率,B表示當(dāng)前頻帶的帶寬; 步驟102)將分頻帶處理后的信號xk(t)進行正交相干解調(diào),得到兩個帶限正交分量 uk(t)和 vk(t); 步驟103)基于兩個帶限正交分量得到包絡(luò)!,具體計算公式為:
步驟104)按照一定的組合方式組合uk (t)和vk (t),所述組合方式的基本原則為組合 結(jié)果小于包絡(luò)πιΜ (t),且該組合與當(dāng)前時刻的輸入信號xk(t)相關(guān);將組合結(jié)果作為小幅震 蕩與包絡(luò)%(|(〇相加,得到刺激信號幅度m k(t); 步驟105)將所得刺激信號幅度mk(t)按照人工耳蝸植入者的每個電極通道的感音閾 值進行非線性動態(tài)范圍壓縮,得到m'k(t); 步驟106)將m'k(t)調(diào)制脈沖串后發(fā)送到人工耳蝸電極上去。
2. 根據(jù)權(quán)利要求1所述的基于帶限正交分量的聲音編碼方法,其特征在于,所述步驟 102)進一步包含: 首先,將分頻帶信號xk(t)與相乘; 然后,通過低通濾波器得到uk(t)+ivk(t),它的實部uk(t)和虛部v k(t)為兩個帶限正 交分量;其中,低通濾波器的截止頻率在(B/2,2f;k-B/2)范圍中進行選取。
3. 根據(jù)權(quán)利要求1所述的基于帶限正交分量的聲音編碼方法,其特征在于,所述一定 的組合方式具體包含: 組合方式一:
,其中α的取值范圍為(0.5, 1]; 組合方式二,
其中β的取值范圍為(〇, 2]; 其中,上述組合方式中的兩個參數(shù)α和β都是用于調(diào)節(jié)包絡(luò)&(|(〇振蕩的幅度。
4. 根據(jù)權(quán)利要求1所述的基于帶限正交分量的聲音編碼方法,其特征在于,所述包絡(luò) 的提取采用整流加低通濾波的方法或解析信號幅度法獲取。
5. -種基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述系統(tǒng)包含: 若干帶通濾波器,用于將麥克風(fēng)采集到的音頻信號x(t)進行分頻帶處理,得到若干分 頻帶信號xk(t),其中,k的取值范圍為1-K且K的取值為根據(jù)當(dāng)前應(yīng)用所設(shè)定的分頻帶數(shù) 目,x k(t)的頻率范圍為[?·Λ-Β/2,?·Λ+Β/2],f;k為第k個頻帶的中心頻率,B表示當(dāng)前頻帶 的帶寬; 刺激幅度獲取模塊,用于將分頻帶處理后的信號xk(t)進行正交相干解調(diào),得到兩個帶 限正交分量Uk(t)和vk(t);基于兩個帶限正交分量得到包絡(luò)
并在此 基礎(chǔ)上增加依賴于uk(t)和vk(t)變化的小幅震蕩,獲取刺激信號幅度mk(t); 其中,按照一定的組合方式組合uk(t)和vk(t),所述組合方式的基本原則為在包絡(luò) 的基礎(chǔ)上增加小振幅的振蕩,且該振蕩與當(dāng)前時刻的輸入信號相關(guān); 非線性動態(tài)范圍壓縮模塊,用于將所得mk(t)按照人工耳蝸植入者的每個電極通道的 感音閾值進行非線性動態(tài)范圍壓縮,得到m'k(t);和 調(diào)制編碼模塊,用于將所述m'k(t)調(diào)制脈沖串后發(fā)送到人工耳蝸電極上去。
6. 根據(jù)權(quán)利要求5所述的基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述刺激 幅度獲取1?塊進一步包含: 第一處理子模塊,用于將各分頻信號Xk(t)相乘; 低通濾波器,用于對第一處理子模塊輸出的信號進行低通濾波得到uk(t)+ivk(t), 它的實部Uk(t)和虛部vk(t)為兩個帶限正交分量;其中,低通濾波器的截止頻率方位在 (B/2, 2fck-B/2)范圍中進行選取; 組合模塊,用于將低通濾波器輸出的兩個正交分量按照一定的組合方式組合以得到每 個頻帶最終的刺激幅度信息mk(t);和 刺激幅度生成模塊,用于基于低通濾波器輸出的兩個帶限正交分量獲得包絡(luò)信號 ^ (t),并在此基礎(chǔ)上增加小幅振蕩得到刺激信號幅度mk (t)。
7. 根據(jù)權(quán)利要求5所述的基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述組合 模塊采用如下的組合方式: 組合方式一:
,其中α的取值范圍為(0.5, 1];
組合方式二, 其中β的取值范圍為(〇, 2] , 其中,上述組合方式中的兩個參數(shù)α和β都是用于調(diào)節(jié)該振蕩的幅度,兩個參數(shù)越大 則幅度調(diào)制深度越深。
8. 根據(jù)權(quán)利要求5所述的基于帶限正交分量的聲音編碼系統(tǒng),其特征在于,所述包絡(luò) 的提取可采用整流加低通濾波的方法或解析信號幅度法獲取。
【文檔編號】A61F11/04GK104123947SQ201310152857
【公開日】2014年10月29日 申請日期:2013年4月27日 優(yōu)先權(quán)日:2013年4月27日
【發(fā)明者】馮海泓, 孟慶林, 趙建平, 原猛, 陳友元 申請人:中國科學(xué)院聲學(xué)研究所