欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音信號自適應增強系統(tǒng)的制作方法

文檔序號:2829543閱讀:373來源:國知局
專利名稱:語音信號自適應增強系統(tǒng)的制作方法
技術領域
本發(fā)明涉及用于自適應地實時增強語音信號頻響的系統(tǒng)。
背景技術
在麥克風被接收并被輸入到音頻應用的語音信號可受到緩慢變化,或者不隨時間變化的聲環(huán)境或者電音頻路徑的聲或者電特征的有害影響。例如,對于汽車內(nèi)的免提電話系統(tǒng),車內(nèi)聲音或者麥克風特性可能對傳輸?shù)竭h程部件的語音信號的聲音質量或者可懂度有顯著的有害影響。
調整接收的語音信號的頻譜形狀能顯著提高語音信號的質量。例如,可調整語音信號的頻譜形狀以補償過多的背景噪聲。通過增強語音內(nèi)容占優(yōu)頻率范圍的信號,同時衰減背景噪聲占優(yōu)的頻率范圍內(nèi)的信號,整體聲音質量或者信號的可懂度能顯著提高。在其他的應用中,可能希望的是增強不同的頻率范圍并衰減其它的。例如,免提電話系統(tǒng)的理想頻譜形狀與語音識別系統(tǒng)的理想頻譜形狀可能有很大的不同。在第一種情況下,希望同時提高聲音質量和可懂度,在第二種情況下更希望提高語音信道的可懂度而很少或者根本不管真實聲音質量。
圖1示出了兩種不同應用的理想頻率響應的兩個例子。第一種頻率響應曲線10代表想要在具有高信號噪聲比(SNR)的環(huán)境中提供最理想語音質量的頻譜形狀。第二種頻譜響應曲線12示出了想要在低信號對噪聲環(huán)境中提供最理想語音可懂度的頻譜形狀。圖1也示出了VDA(德國汽車工業(yè)協(xié)會)和ITU(國際電信聯(lián)盟)用于免提電話系統(tǒng)中頻率響應的上和下頻譜限制14、16。在一些情況中,也希望調整接收的語音信號的頻譜形狀以與VDA和ITU語音頻譜響應的限制一致。
典型地,由麥克風記錄并輸入到聲音應用的語音信號將具有與應用的理想頻譜形狀有較大不同的頻譜形狀。從而,可以希望調整語音信號的頻譜以更接近與理想的頻譜形狀一致。執(zhí)行這樣調整或者標準化的系統(tǒng)和方法必須能考慮語音信號錄制環(huán)境的聲傳遞函數(shù)特性,和電聲音路徑的頻率響應。此外,這樣的系統(tǒng)和方法必須考慮系統(tǒng)中可能發(fā)生的聲音和電的變化。

發(fā)明內(nèi)容
提供了自適應增強語音信號的系統(tǒng)。本發(fā)明的系統(tǒng)和方法有效地朝目標頻譜形狀,或者理想頻率響應的方向將輸入的語音信號的頻譜標準化??苫诖蛩闶褂迷撜Z音信號的應用選擇目標頻譜形狀。例如,用于將通過汽車內(nèi)免提電話傳輸?shù)恼Z音信號的預期頻譜形狀與將輸入到語音識別系統(tǒng)的語音信號的期望頻譜形狀有很大不同。
根據(jù)本發(fā)明,基于隨時間接收的語音信號計算平均語音頻譜形狀估計??墒褂靡浑AIIR濾波器或“漏積分器(leaky integrator)”計算平均語音頻譜形狀估計。這樣,隨時間的平均語音頻譜形狀估計適于聲音路徑的聲特征中的變化或者可影響系統(tǒng)頻率響應的電音頻路徑中的任何變化。
頻譜修正因子可通過比較平均語音頻譜形狀估計與期望或者目標頻譜形狀進行確定。頻譜修正因子代表接收的語音信號和期望的頻率響應的時間平均頻譜能量的差別的平均。頻譜修正因子可被加到輸入語音信號的頻譜以朝期望頻譜形狀的方向對輸入語音信號頻譜進行標準化,或者調整。
從而,標準化語音信號的方法的實施例將包括確定輸入語音的平均頻譜形狀。該方法還包括比較輸入語音的頻譜形狀與目標頻譜形狀。目標頻譜形狀和隨時間接收的語音的平均頻譜形狀的差別可用于修正輸入語音信號的頻譜。修正的語音信號的頻譜將更接近地匹配要使用語音信號的特定應用的期望頻譜形狀。
根據(jù)另一實施例,語音信號的頻譜響應是實時增強的。頻率子帶分析在輸入語音信號的連續(xù)重疊窗口緩沖區(qū)上被執(zhí)行。每個連續(xù)窗口緩沖區(qū)的頻率子帶分析的結果用于計算平均語音頻譜形狀估計。然后從期望的目標頻譜形狀減去平均語音頻譜形狀估計。目標頻譜形狀和平均語音頻譜形狀之間的差別形成頻譜形狀修正因子。頻譜形狀修正因子然后可被加到對應于輸入語音信號的窗口緩沖區(qū)的頻譜。來自連續(xù)窗口緩沖區(qū)的修正的頻譜然后可重新合成為增強的或者標準化的聲音信號。
另一實施例通過調整接收的語音信號的背景噪聲的頻譜形狀增強語音信號的頻率響應。本實施例包括在語音信號的連續(xù)重疊窗口緩沖區(qū)進行頻率子帶分析。基于接收的信號生成背景噪聲估計。然后,通過從目標背景噪聲頻譜形狀減去背景噪聲估計計算背景噪聲頻譜形狀修正因子。背景噪聲頻譜形狀修正因子然后被加到對應于連續(xù)重疊窗口緩沖區(qū)的頻譜。
然而,另一實施例通過調整接收的語音信號的平均語音頻譜形狀和接收的信號的背景噪聲頻譜形狀的一個或者兩個增強接收的語音信號的質量和可懂度。根據(jù)本實施例,增強語音信號頻率響應的方法也包括在語音信號的連續(xù)重疊窗口緩沖區(qū)上執(zhí)行頻率子帶分析?;谶B續(xù)重疊窗口緩沖區(qū)的頻率子帶分析計算平均語音頻譜形狀估計。根據(jù)平均語音頻譜形狀估計和目標語音頻譜形狀之間的差別來計算語音頻譜形狀修正因子。同樣,估計接收的信號中包括的背景噪聲并且對應于背景噪聲估計和目標背景噪聲頻譜形狀之間的差別計算出背景噪聲頻譜形狀修正因子。組合語音頻譜形狀修正因子和背景噪聲頻譜形狀修正因子以形成整體頻譜形狀修正因子。整體頻譜形狀修正因子然后被應用到對應于接收的語音信號的連續(xù)重疊窗口緩沖區(qū)之一的頻譜。
最后,增強語音信號的頻率響應的系統(tǒng)包括用于接收語音信號的麥克風。A/D轉換器把語音信號轉換為被輸入到處理器的數(shù)字音頻信號。該處理器自適應地確定由麥克風記錄的語音的平均語音頻譜形狀估計。該處理器比較平均語音頻譜形狀估計與目標頻譜形狀。該處理器隨后基于平均語音頻譜形狀估計和目標頻譜形狀之間的差別調整輸入語音信號的頻譜形狀。該處理器輸出具有增強頻率響應的標準化的語音信號,該增強的頻率響應更接近于要使用語音信號的特定應用的理想頻率響應。
該處理器也自適應地確定接收的信號的背景噪聲頻譜形狀估計。該處理器可隨后比較背景噪聲頻譜形狀估計與目標背景噪聲頻譜形狀。該處理器然后可以基于背景噪聲頻譜形狀估計和目標背景噪聲頻譜形狀之間的差別調整輸入語音信號的頻譜形狀。該處理器然后可輸出具有增強頻率響應的標準化語音信號,該頻率響應具有更接近于期望的背景噪聲頻譜形狀的背景噪聲頻譜形狀。
本發(fā)明的其它方面、特征和優(yōu)勢對于考查下面附圖和詳細描述的本領域技術人員將是,或者將變得明顯。這個描述中包含的全部這樣的附加方面、特征和優(yōu)勢將被包括在本發(fā)明的范圍內(nèi),并且由附帶的權利要求進行保護。


圖1是dB頻率曲線,示出了用于兩個不同應用的理想頻率響應,或者目標語音頻譜形狀的兩個實例;圖2是示出了增強語音信號頻率響應的方法的流程圖;圖3示出了時域語音信號和多個重疊窗口緩沖區(qū);圖4是對應于一個窗口緩沖區(qū)的圖3的聲音信號的頻譜的dB頻率曲線;圖5是圖4所示頻譜的頻率壓縮版本的dB頻率曲線和背景噪聲估計;圖6是圖5的壓縮頻譜的dB頻率曲線,其具有減少的背景噪聲(也就是,SNR)和代表比背景噪聲高10dB的信號水平的閾值;圖7是平均語音頻譜形狀估計和目標頻譜形狀的dB頻率曲線;圖8是通過從圖7中所示的目標頻譜形狀減去圖7的平均語音頻譜形狀估計得到的頻譜修正因子的dB頻率曲線;圖9是dB頻率圖,示出了對應于一個窗口緩沖區(qū)的語音信號的原始頻譜(也就是,來自圖4),和增強的或者標準化的語音信號的頻譜;圖10是輸入語音信號的頻譜圖一時間對頻率對dB(以灰度色調表示);圖11是示出了隨時間的平均語音頻譜形狀估計的自適應的頻譜圖;圖12是示出了增強語音信號的頻率響應的方法的可選實施例的流程圖;圖13是根據(jù)本發(fā)明用以增強語音信號的頻率響應的系統(tǒng)的方框圖。
具體實施例方式
提供了實時自適應增強語音信號頻響的系統(tǒng)和方法。該系統(tǒng)和方法補償音頻或者電路徑的任何緩慢變化或者不隨時間變化的聲或者電特征的頻譜效果,其包括,例如,室內(nèi)聲學、麥克風頻率響應和諸如背景噪聲的其它因素等等。系統(tǒng)和方法包括提供接收輸入的語音信號;計算平均語音頻譜形狀估計和背景噪聲估計;計算修正因子,用于調整平均語音頻譜形狀估計以符合目標語音頻譜形狀,或者調整背景噪聲的頻譜形狀,并將修正因子應用到輸入語音信號的連續(xù)窗口緩沖區(qū)的頻譜以便實現(xiàn)特別適應于特定應用的期望目標頻率響應。對應于連續(xù)窗口緩沖區(qū)的修正頻譜可被重新合成到更加適合于要使用語音信號的應用的增強的語音信號。
圖2示出了根據(jù)本發(fā)明的自適應增強語音信號頻響的方法的流程圖100。輸入的語音信號在102被接收。信號可或者可不包括語音內(nèi)容。在104,頻率子帶分析在輸入信號上執(zhí)行。頻率子帶分析導致輸入信號的壓縮的dB頻譜。壓縮的dB頻譜被用于建立平均語音頻譜形狀估計,其依次用于計算語音頻譜形狀修正因子,該因子可被加回到輸入信號的頻譜以建立具有接近期望頻譜形狀的增強的語音信號。
最后,子帶分析104生成的壓縮的dB頻譜被應用到SNR估計和聲音檢測106。SNR估計和聲音檢測106嘗試識別輸入信號的壓縮dB頻譜的哪些頻率槽(frequency bin)包含語音內(nèi)容。在108,被找出具有高SNR并包含語音內(nèi)容的頻率帶的dB值被用以更新的平均語音頻譜形狀估計。平均語音頻譜形狀估計是隨時間接收的語音頻譜形狀的移動平均(running average)。因為平均語音頻譜形狀是移動平均,其緩慢適應并提供接收的輸入信號的語音內(nèi)容頻譜形狀的合理精確估計。平均的語音頻譜形狀說明緩慢變化或者不隨時間變化的系統(tǒng)頻率響應特性,其包括環(huán)境的聲傳遞函數(shù)特性,麥克風的電-聲特性,等等。
平均語音頻譜形狀估計與在112提供的目標語音頻譜形狀進行比較。目標語音頻譜形狀代表特定應用的理想頻率響應,諸如免提電話系統(tǒng)或者聲音識別系統(tǒng)。平均語音頻譜形狀估計和目標語音頻譜形狀之間的差別代表輸入的語音信號的平均頻譜必須被調整以實現(xiàn)期望頻譜形狀的量。在114,通過從目標語音頻譜形狀減去平均語音頻譜形狀確定語音頻譜形狀修正因子。語音頻譜形狀修正因子隨后可被加回到在102接收的原始信號的壓縮dB頻譜。如果期望,在110,背景噪聲抑止可在添加修正因子可選地施加到壓縮的dB頻譜。否則,在116,直接將語音頻譜形狀修正因子施加到壓縮的dB頻譜。修正的或者增強的信號在118重新合成并在120輸出。
圖3示出了根據(jù)圖2概述的方法要被增強的11kHz時域語音信號130。頻率子帶分析在連續(xù)重疊窗口緩沖區(qū)上執(zhí)行??墒褂镁哂?0%重疊的256點漢寧窗(Hanning window)計算窗口緩沖區(qū)。也可使用其它窗口函數(shù)、窗口長度或者重疊百分比值。圖3示出了50%重疊漢寧窗132、134、136、138、140和142。頻率子帶在每個連續(xù)窗口緩沖區(qū)上執(zhí)行。來自每個窗口緩沖區(qū)的頻率子帶分析結果作用于平均語音頻譜形狀估計。為當前描述的目的,將描述單窗口緩沖區(qū)134的分析,同時理解所有其它窗口緩沖區(qū)的分析以相似的方式進行。
在窗口緩沖區(qū)134內(nèi)為信號130的一部分得到了頻率頻譜。頻率頻譜信息可通過各種方法獲得,諸如快速傅立葉變換(FFT)、小波濾波器組、多相濾波器以及其它已知的算法。例如,復雜頻譜可使用256點FFT獲得。復雜頻譜可通過復雜頻譜的絕對值的平方轉換為功率譜Power_Spec(f)=|Complex_spec(f)|2(1)其中Power_Spec是功率譜;Complex_Spec是復雜頻譜;f是頻率槽索引(index)。
功率譜依次可轉化為dB。圖4示出了包含在窗口緩沖區(qū)134中的輸入信號一部分的dB頻譜144。dB頻譜144是256點FFT的結果。
由于濁音語音(voiced speech)段的諧波內(nèi)容(也就是,元音聲(vowel sound)),dB頻譜144包括一定數(shù)目的尖銳峰值和谷值。一般形狀的頻譜包絡可以被通過壓縮dB頻譜144為具有更粗糙的頻率分辨率的頻譜進行分析。頻率壓縮可通過在給定頻率區(qū)域計算加權平均來實現(xiàn)。壓縮的頻譜可具有線性頻率刻度,或者壓縮的頻譜可具有諸如Bark、Mel或者其它依賴于非線性刻度的非線性頻率刻度,以及應用的壓縮技術。壓縮頻譜的頻率子帶可顯示,例如,每個壓縮的子帶86到172Hz的頻率分辨率。對于11kHz輸入信號和256點FFT,這相當于分別在每兩到四個未壓縮頻率槽上計算未壓縮頻譜的平均功率。
圖5示出了基于圖4的未壓縮頻譜144的壓縮頻譜156。如圖所示,壓縮頻譜156維持未壓縮頻譜144的大致形狀。壓縮的頻譜156代表頻率子帶分析104的輸出。為各連續(xù)重疊窗口緩沖區(qū)生成分離的壓縮頻譜。每個作用于語音頻譜形狀估計的計算。由每個連續(xù)窗口緩沖區(qū)的頻率子帶分析更新的平均語音頻譜形狀估計被用于為相應窗口緩沖區(qū)的頻譜計算語音頻譜形狀修正因子。修正因子被加回到相應窗口緩沖區(qū)的壓縮dB頻譜,以將頻譜標準化到期望的目標頻譜形狀。
頻率子帶分析期間生成的壓縮dB頻譜被輸入到SNR估計和聲音檢測106。SNR估計和聲音檢測106的目的是確定壓縮dB信號的哪個頻帶具有強信號噪聲比(SNR)并可能包含語音。只有那些具有高SNR并可能包含語音的壓縮dB信號的頻率子帶被用于更新平均語音頻譜形狀估計。那些具有弱SNR或可能不包含語音的頻帶則無助于計算平均語音頻譜形狀估計。
SNR估計可根據(jù)任意數(shù)目的標準方法進行。例如,圖5包括使用最小統(tǒng)計技術(minimum statistics technique)得到的背景噪聲估計158。各頻率子帶SNR的估計可通過從壓縮的dB頻譜156減去背景噪聲估計158得到。圖6示出了從圖5的壓縮dB頻譜156減去噪聲估計158產(chǎn)生的SNR160。
值得注意的是噪聲估計158不是真正的背景噪聲。它僅是可能將包含在壓縮dB頻譜156中的噪聲的估計。任何給定頻率子帶中的實際噪聲可能高于或者低于背景噪聲估計158中所示的水平。這樣,接近噪聲估計的信號水平不夠可靠。從而,可建立閾值使得只有具有比噪聲估計高出至少等于閾值的量的信號水平的頻率子帶作用于平均語音頻譜形狀估計。圖6示出了這樣的閾值。10dB閾值162代表比背景噪聲估計158高10dB的信號水平。因為壓縮的dB頻譜160代表高于背景噪聲估計158的輸入信號頻譜的部分,比10dB閾值162高的壓縮dB頻譜的部分代表比背景噪聲估計158高10dB以上的原始壓縮dB頻譜156的那些部分。只有比10dB閾值高的壓縮dB頻譜160中的那些頻率子帶作用于平均語音頻譜形狀估計。
可使用不同于10dB的閾值。優(yōu)選地,閾值將在5到15dB之間的范圍內(nèi)。另外,閾值不必要是常數(shù)。依賴于系統(tǒng)的預期噪聲特性,閾值可從一個頻率子帶到下一個變化。例如,在汽車應用中,在存在強背景噪聲能量之處,閾值可設置得更高用于更低的頻率子帶。
平均語音頻譜形狀估計為壓縮頻譜的各頻率子帶而被生成。各連續(xù)重疊窗口緩沖區(qū)的壓縮頻譜作用于平均語音頻譜形狀估計的計算。然而,如上面已經(jīng)注意到的,各單獨頻率子帶的平均語音頻譜形狀估計僅在單獨頻率子帶具有高SNR并包含語音的時候被更新。修改平均語音頻譜形狀估計之前,根據(jù)下式將當前壓縮的dB頻譜的整體水平進行標準化是有益的Spec_Curr_n(f)=Spec_Curr(f)-1N(ΣfNSpec_Curr(f))---(2)]]>其中Sqec_Curr是當前dB壓縮頻譜,并且Spec_Curr_n是在頻率子帶f上整體水平標準化以后的當前dB壓縮頻譜。根據(jù)方程(2)的標準化將確保平均語音頻譜形狀的修改將不會被語音信號整體幅度所偏移。其它水平的標準化技術,諸如加權平均、頻率依賴(frequency-dependent)平均、SNR依賴平均或者其它也可使用的標準化技術。
可根據(jù)漏積分器算法、一階IIR濾波器器或者其它自適濾波或者加權平均算法修改平均語音頻譜形狀。根據(jù)本發(fā)明實施例用于更新平均語音頻譜形狀估計的方程是Spec_Avg(f)=(Spec_Avg(f))*(Adapt_Rate-1)+Spec_Curr_n(f)/Adapt_Rate (3)其中Adapt_Rate=AdaptTimeConstant/SecPerBuffer (4)SecPerBuffer=(FFTSize-BufferOverlap)/Sample Rate(5)Spec_Avg是平均語音頻譜形狀估計。Adap(Rate是控制自適應速度的參數(shù)。Adapt_Rate必須>1。AdaptTimeConstant的適當?shù)闹悼稍诖蠹s2和6秒之間。
平均語音頻譜形狀估計提供了隨時間輸入到系統(tǒng)的語音頻譜形狀的估計。生成平均語音頻譜形狀估計的方式考慮了環(huán)境的緩慢變化或者不隨時間變化的聲特性、麥克風的頻率響應、麥克風相對于說話人的位置和其它將影響系統(tǒng)頻率響應的因素。
給定了平均語音頻譜形狀估計,則可能確定可加到平均語音頻譜形狀估計以將平均語音頻譜形狀估計標準化到期望的目標頻譜形狀的各頻率子帶的修正因子。這些相同的修正因子隨后可被應用到各連續(xù)窗口緩沖區(qū)的單獨頻譜以增強輸入語音信號。修正因子可被直接應用到各窗口緩沖區(qū)的壓縮dB頻譜(例如,來自圖5的頻譜156),或者它們可被外推并應用到窗口緩沖區(qū)的非壓縮dB頻譜(例如,來自圖4的頻譜144)。
圖7示出了平均語音頻譜形狀估計166。也示出了目標頻譜形狀168。目標頻譜形狀可符合汽車中免提電話系統(tǒng)的最佳頻率響應,或者目標頻譜形狀可代表最佳語音頻率響應以提供高理解度的語音信號到語音識別系統(tǒng),或者其它一些應用。在任何情況中,目標頻譜形狀代表實際輸入信號的dB頻譜166要被調整到的最佳頻率響應??赏ㄟ^從平均語音頻譜形狀估計166中減去目標頻譜形狀168計算用于平均語音頻譜形狀估計166的每個子帶的頻譜修正因子。該差別代表必須被加到平均語音頻譜形狀估計166或者從其減去的量,為了使平均語音頻譜形狀估計166的形狀精確匹配目標語音頻譜形狀168。用以確定頻譜修正因子的計算可被表達為Spec_Corr(f)=Spec_Targeta(f)-Spec_Avg(f)(6)其中Spec_Target是目標語音頻譜形狀Spec_Corr是dB頻譜修正因子同樣,頻譜修正值的整體水平可根據(jù)下式進行標準化Spec_Corr(f)=Spec_Corr(f)-1N(ΣlNSpec_Corr(f))---(7)]]>這將允許修正語音頻譜形狀而沒有顯著更改語音信號的整體幅度或者響度??墒褂闷渌鼧藴驶夹g,諸如加權平均或者頻率依賴平均,或者其它的技術。
此外,可限制頻譜修正值以改進算法的健壯性并確保增強語音信號不會產(chǎn)生意外結果或者太徹底地改變語音信號。最大修正因子可如下建立
Spec_Corr(f)=Max(Spec_Corr(f),-Core_dB_Limit) (8)Spec_Corr(f)=Min(Spec_Corr(f),Corr_dB_Limit) (9)Corr_dB_Limit的典型值可在5和15dB之間的范圍內(nèi)。
圖8示出了通過從目標頻譜形狀168減去平均語音頻譜形狀166計算的修正因子170,如方程6中所示,并根據(jù)方程7進行水平的標準化。本發(fā)明假定對應于單獨緩沖窗口的輸入語音信號的實際頻譜將需要與調整平均語音頻譜形狀估計所需要的修正相似的修正。從而,修正因子170可被應用到輸入語音信號各連續(xù)窗口緩沖區(qū)的頻譜。為壓縮平均語音頻譜形狀估計頻譜的各頻率子帶確定上面確定的修正因子值。在被施加到對應于當前窗口緩沖區(qū)的頻譜之前,也就是對應于窗口緩沖區(qū)134的頻譜,修正值可被外推以估計未壓縮FFT dB頻譜的全部頻率槽的修正值。這可使用簡單線性插值法或者三次樣條插值法或者一些其它的算法進行。然后可通過把擴展修正值(單位為dB)加到對應于窗口緩沖區(qū)134的輸入信號的未壓縮頻譜修正相應窗口緩沖區(qū)134的頻譜。圖9中示出了對應于窗口緩沖區(qū)134的修正的頻譜172以及原始頻譜144。
一旦窗口緩沖區(qū)的頻譜已經(jīng)被修正,其可被變換回時域。這需要變換修正的dB頻譜176到幅度譜,并且通過執(zhí)行256點逆FFT或者其它從頻域返回時域的逆變換把幅度譜變換回時域。逆FFT或者其它變換產(chǎn)生的時域信號組成對應于窗口緩沖區(qū)134的增強語音信號。增強的語音信號將具有更類似目標頻譜形狀的平均頻譜形狀。增強的語音信號為各窗口緩沖區(qū)重新合成,并在時域中被重疊和被加到一起。該結果是基本維持隨時間的期望頻譜形狀的重新合成的時域語音信號,其考慮了系統(tǒng)傳遞函數(shù)緩慢變化的特性。該結果是增強的聲音信號,其更好地服務于要使用它的特定應用,該應用可以是語音識別系統(tǒng)、免提電話系統(tǒng)或者一些其它應用。
圖10和11示出了頻譜圖,其圖解了剛描述的方法的自適應品質。兩張圖都顯示了頻率(縱坐標)對時間(橫坐標)對dB(灰度)的曲線。圖10中的曲線180代表未修正的原始語音信號。圖11中的曲線182示出了使用當前方法平均隨時間的語音頻譜形狀估計的自適應。注意到,圖11中輸入信號的大約最初2秒沒有明顯的可辨識頻譜圖案。然而,隨著時間繼續(xù),出現(xiàn)顯著語音能量(也就是圖10,時間=2s之后),圖11中開始出現(xiàn)圖案。顯著的頻譜能量開始出現(xiàn)在大約500Hz-1000Hz、1800Hz-2000Hz和2300Hz-3000Hz之間。低平均頻譜能量被發(fā)現(xiàn)在低于500Hz、1000Hz-1800Hz之間和高于3000Hz。圖11中逐步出現(xiàn)的這些頻譜特性表示平均語音頻譜形狀估計如何隨時間自適應為輸入語音信號的緩慢變化或者不隨時間變化的頻譜特性。
在一些情況中,更理想的是塑造背景噪聲頻率響應而不是語音信號頻率響應。例如,高SNR情況下,背景噪聲不是重要問題,并且增強語音信號頻譜形狀是最合適的。然而,在低SNR情況下,可能更期望的是以背景噪聲頻譜形狀為目標。例如,已經(jīng)發(fā)現(xiàn)具有音質的背景噪聲比寬帶噪聲對聽者有更強的干擾作用。這樣,在一些情況下,平滑背景噪聲頻譜以消除可能另外證明對收聽者有刺激的特定頻率的峰值是有利的。
從而,在另一實施例中,與增強語音部分自身相對,通過以接收的語音信號的背景噪聲頻譜為目標并對其進行塑造來增強語音信號的質量和可懂度。圖12中示出了具體化這種替代方案的流程圖300。圖12中流程圖300和圖2中所示的流程圖100有許多相似之處。事實上,流程圖100中具體表達的自適應增強語音信號的頻率響應的方法在流程圖300中基本被重復。圖2流程圖100中的接收輸入信號102、頻率子帶分析104、SNR估計和聲音檢測106、更新平均語音頻譜形狀估計108、背景噪聲抑止110、目標語音頻譜形狀112和確定語音頻譜形狀修正因子114全部分別在圖12的接收輸入信號302、頻率子帶分析304、SNR估計和聲音檢測306、更新平均語音頻譜形狀估計308、背景噪聲抑止310、目標語音頻譜形狀312和確定的語音頻譜形狀修正因子314找到精確的配套。圖2的應用語音頻譜形狀修正因子116和信號重新合成118同樣在圖12中具有相似物,即應用頻譜修正系數(shù)316和信號重新合成318。然而,下面將更詳細描述,盡管應用頻譜形狀修正因子316和信號重新合成318的功能執(zhí)行與前面實施例中它們的對應物基本相同的功能,它們在稍微不同的輸入上執(zhí)行這些功能。
因為輸入信號302、頻率子帶分析304、SNR估計和聲音檢測306、更新平均語音頻譜形狀估計308、背景噪聲抑止310、目標語音頻譜形狀312和確定語音頻譜形狀修正因子314的功能全部以與關于圖2的上述描述的方式基本相同的方式進行運作,因此這些功能的進一步描述在這里省略。可以充分注意到確定語音頻譜形狀修正因子314的輸出是可加到輸入信號302的頻譜以修正或者標準化輸入信號302的頻譜形狀的語音頻譜形狀修正因子,其非常類似于流程圖100的相應確定語音頻譜形狀修正因子功能114的輸出。然而,在流程圖100具體表達的方法中,語音頻譜形狀修正因子被直接應用到輸入信號的頻譜(在已經(jīng)對輸入語音信號頻譜應用背景噪聲抑止以后可選),在圖14的流程圖300具體表達的方法中,在314確定的語音頻譜形狀修正因子被輸入以確定最后的頻譜修正因子326。確定最后頻譜修正因子326也從確定背景噪聲頻譜形狀修正因子326接收輸入。這樣,根據(jù)本實施例,基于語音頻譜形狀修正因子和背景噪聲頻譜形狀修正因子確定最后的頻譜修正因子。
因為已經(jīng)關于圖2中流程圖100描述了語音頻譜形狀修正因子,僅剩下描述背景噪聲頻譜形狀修正因子的確定。如已經(jīng)描述的,在302接收輸入語音信號。輸入的語音信號可包括背景噪聲。輸入的語音信號在304受到頻率子帶分析。頻率子帶分析的結果是代表輸入語音信號的壓縮的dB刻度頻譜。壓縮的dB語音信號頻譜被輸入到SNR估計和聲音檢測306。SNR估計和聲音檢測306產(chǎn)生被輸入以確定背景噪聲頻譜形狀修正因子326的背景噪聲估計322。背景噪聲估計322提供了在橫跨輸入語音信號302的壓縮dB頻譜各頻率槽的背景噪聲dB形式的估計。背景噪聲估計312可包括不必要的峰值或者對語音信號聲音質量或者可懂度有損害的其它各種頻率特性。因此,期望的是平滑背景噪聲估計或者塑造背景噪聲估計以符合期望的目標背景噪聲頻譜形狀324。目標背景噪聲頻譜形狀被輸入以確定背景噪聲頻譜形狀修正因子326。
背景噪聲估計322和目標背景噪聲頻譜形狀之間的差別代表了背景噪聲估計必須調整以符合目標背景噪聲頻譜形狀的量。與確定的語音頻譜形狀修正因子314類似,確定背景噪聲頻譜修正因子326通過從跨越輸入信號的壓縮dB頻譜的全部頻率槽的背景噪聲估計中減去目標語音頻譜形狀來計算背景噪聲頻譜修正因子。同樣類似于語音頻域形狀修正因子,背景噪聲頻譜形狀修正因子可被直接加到輸入語音信號的壓縮的dB頻譜,以為了塑造包括在輸入語音信號302中的背景噪聲的頻率頻譜。然而,在流程圖300描述的本實施例中,語音頻譜形狀修正因子和背景噪聲頻譜形狀修正因子兩者作用于最終頻譜形狀修正因子。最終頻譜形狀修正因子然后被加到輸入語音信號302的壓縮的dB頻譜中。
確定語音頻譜形狀修正系數(shù)314的輸出和來自確定的背景噪聲頻譜形狀修正因子328的輸出兩者都輸入到確定最終頻譜形狀修正因子328中。根據(jù)本實施例,語音頻譜形狀修正因子和背景噪聲頻譜形狀修正因子根據(jù)公式以相反比例的方式作用于最終頻譜形狀修正因子Final_corr(f)=a*Speech_Corr(f)+(1-a)*Noise_Corr(f)(10)其中Speech_Corr(f)=Speech Spectral Shape Correction Factor(語音頻譜形狀修正因子)Noise_Corr(f)=Background Noise Spectral Shape Correction Factor(背景噪聲頻譜形狀修正因子)Final_Corr(f)=Final Spectral Shape Correction Factor(最終頻譜形狀修正因子)a=SNR DependendMixing Factor(SNR依賴混合因子)0<a<1如果長期SNR為高a→1如果長期SNR為低a→0這樣,在高SNR情況下,語音頻譜形狀修正因子(Speed_Corr(f))起主導作用,并且在低SNR條件下,背景噪聲頻譜形狀修正因子(Noise_Corr(f))起主導作用。一旦最終頻譜形狀修正因子被確定,在316,其被應用到輸入語音信號的頻譜。如同圖2中所示實施例,最終頻譜形狀修正因子被加到從在304的頻率子帶分析輸出的接收的語音信號的dB頻譜。隨后,最終修正的或者增強的頻譜在318重新合成。重新合成進程與關于圖2中描述的實施例的上述內(nèi)容基本相同。最終增強信號在320被輸出。
除上面描述的用于提供增強語音信號的方法以外,本發(fā)明還涉及用于執(zhí)行這樣的語音信號增強方法的系統(tǒng)。圖13示出了這樣的系統(tǒng)200的結構圖。該系統(tǒng)包括麥克風202、A/D轉換器204和信號處理器206。麥克風202捕獲輸入信號。A/D轉換器從麥克風采樣模擬信號并把代表麥克風接收的語音和背景噪聲的數(shù)字信號提供給信號處理器206。處理器206包括執(zhí)行前面描述的在麥克風202捕獲的輸入信號的全部步驟的指令。這樣,處理器在輸入信號上執(zhí)行頻率子帶分析,SNR估計和聲音檢測。處理器為輸入語音信號的每個窗口緩沖區(qū)產(chǎn)生并更新平均語音頻譜形狀估計,并存儲目標語音頻譜形狀。對于各窗口緩沖區(qū),處理器計算頻譜修正因子用于將平均語音頻譜形狀估計匹配到目標語音頻譜形狀。該處理器也可基于背景噪聲估計和存儲的目標背景噪聲頻譜形狀確定背景噪聲頻譜形狀修正因子。該處理器可應用語音頻譜形狀修正因子或者背景噪聲頻譜修正因子到各窗口緩沖區(qū)的頻譜,或者該處理器可應用包括語音頻譜形狀修正因子和背景噪聲頻譜形狀修正因子的合成物的最終修正因子。該處理器隨后把頻譜變換回時域,并重新合成增強的輸出信號208。隨后,輸出信號208可反過來作為輸入被應用到使用增強語音信號的另一系統(tǒng)。
雖然已經(jīng)描述了本發(fā)明的多個實施例,對本領域內(nèi)的普通技術人員來說很顯然在本發(fā)明的范疇之內(nèi)可能還有很多的實施例和實施方式。從而,本發(fā)明除了限于附帶權利要求及其等效物的范疇之外不被限制。
權利要求
1.一種標準化語音信號的方法,其包括確定輸入語音信號的平均頻譜形狀;比較輸入語音信號的所述平均頻譜形狀與目標頻譜形狀;根據(jù)所述目標頻譜形狀和所述平均頻譜形狀之間的差別修正所述語音信號的頻譜。
2.如權利要求1所述的方法,其還包括生成代表所述語音信號的連續(xù)重疊部分的dB頻譜。
3.如權利要求2所述的方法,其中,確定平均頻譜形狀的所述步驟包括,將對應于所述語音信號的各重疊部分的所述dB頻譜的各頻率子帶應用到自適應平均技術。
4.如權利要求3所述的方法,其中,所述自適應平均技術是一階IIR濾波器或者漏積分器。
5.如權利要求2所述的方法,其還包括使背景噪聲估計適應于代表所述輸入語音信號的重疊部分的各dB頻譜,并確定所述dB頻譜具有高SNR的那些頻率子帶和可能包含語音的那些頻率子帶。
6.如權利要求5所述的方法,其中,確定平均頻譜形狀包括,將具有高SNR和可能包含語音的所述輸入語音信號的各重疊部分的所述dB頻譜的所述頻率子帶應用到一階IIR濾波器。
7.如權利要求1所述的方法,其中,將所述平均頻譜形狀與目標頻譜形狀進行比較的所述步驟包括通過從所述目標頻譜形狀減去所述平均頻譜形狀計算頻譜形狀修正因子,并且,其中修正所述語音信號的所述頻譜的所述步驟包括把所述頻譜形狀修正因子加到所述語音信號的頻譜。
8.如權利要求1所述的方法,其中,所述目標頻譜形狀對應于輸入到電話系統(tǒng)的語音信號的理想頻譜形狀。
9.如權利要求1所述的方法,其中,所述目標頻譜形狀對應于輸入到語音識別系統(tǒng)中的語音信號的理想頻譜形狀。
10.一種實時增強語音信號的頻率響應的方法,所述方法包括在所述語音信號的連續(xù)重疊窗口緩沖區(qū)上執(zhí)行頻率子帶分析;基于所述連續(xù)重疊窗口緩沖區(qū)的所述頻率子帶分析計算平均語音頻譜形狀估計;從目標頻譜形狀減去所述平均語音頻譜形狀估計,所述目標頻譜形狀和所述平均語音頻譜形狀估計之間的差別包括頻譜形狀修正因子;以及把所述頻譜形狀修正因子加到對應于一個所述連續(xù)重疊窗口緩沖區(qū)的頻譜。
11.如權利要求10所述的方法,其中,所述連續(xù)重疊窗口緩沖區(qū)包括漢寧窗。
12.如權利要求10所述的方法,其中,在連續(xù)重疊窗口緩沖區(qū)上執(zhí)行頻率子帶分析的所述步驟包括,為各連續(xù)重疊窗口緩沖區(qū)生成所述語音信號的壓縮的dB頻譜。
13.如權利要求12所述的方法,其還包括使背景噪聲估計適應于各連續(xù)重疊窗口緩沖區(qū)。
14.如權利要求13所述的方法,其還包括確定用于各連續(xù)重疊窗口緩沖區(qū)的所述壓縮的dB頻譜的各頻率子帶的信號功率是否比所述背景噪聲估計多出閾值量;確定各連續(xù)重疊窗口緩沖區(qū)的所述壓縮的dB頻譜的各子帶是否可能包含語音;以及對所述信號功率超出所述背景噪聲至少所述閾值量并且可能包含語音的各頻率子帶更新所述平均語音頻譜形狀估計。
15.如權利要求14所述的方法,其中,使用一階IIR濾波器(也就是,漏積分器)計算所述平均語音頻譜形狀估計。
16.如權利要求10所述的方法,其中,使用一階IIR濾波器計算所述平均語音頻譜形狀估計。
17.如權利要求10所述的方法,其還包括從對應于各連續(xù)重疊窗口緩沖區(qū)的所述修正的頻譜重新合成語音信號。
18.如權利要求10所述的方法,其中,所述目標頻譜形狀對應于輸入到電話系統(tǒng)的語音信號的理想頻譜形狀。
19.如權利要求10所述的方法,其中,所述目標頻譜形狀對應于輸入到聲音識別系統(tǒng)的語音信號的理想頻譜形狀。
20.一種用于增強語音信號的頻率響應的系統(tǒng),其包括用于捕獲語音信號的麥克風;用于把所述語音信號轉變?yōu)閿?shù)字語音信號的A/D轉換器;以及處理器,其適于確定所述麥克風接收的語音的平均頻譜形狀,將所述接收的語音的所述平均頻譜形狀與目標頻譜形狀進行比較,并且基于所述輸入語音的所述平均頻譜形狀和所述目標頻譜形狀之間的差別來調整所述接收的語音信號的頻譜。
21.如權利要求20所述的系統(tǒng),其還包括被配置成利用具有所述增強的頻率響應的所述語音信號的應用。
22.如權利要求21所述的系統(tǒng),其中,所述應用是免提電話系統(tǒng)。
23.如權利要求21所述的系統(tǒng),其中,所述應用是語音識別系統(tǒng)。
24.一種增強語音信號的頻率響應的方法,其包括在所述語音信號的連續(xù)重疊窗口緩沖區(qū)上執(zhí)行頻率子帶分析;生成背景噪聲估計;通過從目標背景噪聲頻譜形狀減去所述背景噪聲估計生成背景噪聲頻譜形狀修正因子;并且把所述背景噪聲頻譜形狀修正因子加到對應于一個所述連續(xù)重疊窗口緩沖區(qū)的頻譜。
25.如權利要求24所述的方法,其中,所述連續(xù)重疊窗口緩沖區(qū)包括漢寧窗。
26.如權利要求24所述的方法,其中,在連續(xù)重疊窗口緩沖區(qū)上執(zhí)行頻率子帶分析的所述步驟包括,為各連續(xù)重疊窗口緩沖區(qū)生成所述語音信號的壓縮的dB頻譜。
27.如權利要求24所述的方法,其還包括從對應于各連續(xù)重疊窗口緩沖區(qū)的所述修正的頻譜重新合成語音信號。
28.如權利要求24所述的方法,其中,所述目標背景噪聲頻譜形狀對應于平滑寬帶背景噪聲。
29.一種用于增強語音信號的頻率響應的方法,其包括在所述語音信號的連續(xù)重疊窗口緩沖區(qū)上執(zhí)行頻率子帶分析;基于連續(xù)重疊窗口緩沖區(qū)的所述頻率子帶分析計算平均語音頻譜形狀估計;計算對應于所述平均語音頻譜形狀估計和目標語音頻譜形狀之間的差別的語音頻譜形狀修正因子;生成背景噪聲估計;計算對應于所述背景噪聲估計和目標背景噪聲頻譜形狀之間的差別的背景噪聲頻譜形狀修正因子;基于所述語音頻譜形狀修正因子和所述背景噪聲頻譜形狀修正因子,計算整體頻譜形狀修正因子;以及把所述整體頻譜形狀修正因子加到對應于一個所述連續(xù)重疊窗口緩沖區(qū)的頻譜。
30.如權利要求29所述的方法,其中,計算整體頻譜修正因子的所述步驟包括根據(jù)長期SNR估計逆向地對所述語音頻譜形狀修正因子和所述背景噪聲頻譜形狀修正因子進行加權。
全文摘要
本發(fā)明提供了用于增強語音信號頻率響應的系統(tǒng)。基于輸入語音信號計算經(jīng)時平均語音頻譜形狀估計。可在使用一階IIR濾波或者“漏積分器”的頻域內(nèi)計算平均語音頻譜形狀估計。這樣,平均語音頻譜形狀估計適于隨時間在聲音路徑的聲特性中的變化或者在可影響系統(tǒng)頻率響應的電音頻路徑中的任何變化??赏ㄟ^比較平均語音頻譜形狀估計與期望的目標頻譜形狀確定頻譜修正因子??砂杨l譜修正因子(單位dB)加到輸入語音信號的頻譜中以增強或者調整輸入語音信號的頻譜到期望的頻譜形狀,并且從修正的頻譜重新合成增強的語音信號。
文檔編號G10L21/00GK1971711SQ20061009308
公開日2007年5月30日 申請日期2006年6月20日 優(yōu)先權日2005年6月28日
發(fā)明者P·A·赫瑟林頓, D·吉斯布雷希特 申請人:哈曼貝克自動系統(tǒng)-威美科公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
分宜县| 鄱阳县| 邯郸市| 汨罗市| 全州县| 临颍县| 福海县| 林甸县| 芜湖市| 枣强县| 敦化市| 象州县| 长寿区| 汉源县| 双桥区| 涟源市| 灵山县| 涡阳县| 黔江区| 梅河口市| 湖北省| 孝昌县| 奇台县| 巴东县| 伊吾县| 正宁县| 天门市| 体育| 宜春市| 芒康县| 景谷| 镇原县| 合江县| 苍梧县| 庆云县| 吉木乃县| 澄迈县| 贵州省| 四会市| 西乌| 民丰县|