用于處理聲音信號的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及語音處理,并且更具體地涉及增強包括干擾的語音信號。
【背景技術(shù)】
[0002] 語音增強
[0003] 語音增強方法部分地以改善語音識別為目的嘗試改善已被噪聲或其它干擾處理 劣化的語音的質(zhì)量和明了度。由于存在許多類型的干擾,因此這是困難的問題。通常,語音 混合有來自聽覺上雜亂的環(huán)境的多個競爭聲源的噪聲背景。更為復(fù)雜的是,在實時應(yīng)用中 對計算資源和延遲的操作約束常常使得使用可以代表和適應(yīng)于許多不同的干擾的復(fù)雜模 型不可能。因為簡單方法很難適應(yīng)各種條件,所以通常做出作為基礎(chǔ)的語音和干擾的統(tǒng)計 特性的一些假設(shè)。
[0004] 已知許多不同的增強方法,每個方法都具有對語音和干擾的性質(zhì)的不同的明確或 隱含的假設(shè)。然而,這些方法中的許多改善了信號中的某些部分,但同時常常劣化了其它部 分。
[0005] 集成學習(ensemblelearning)
[0006] 集成學習方法通常將有限的一組替代模型組合,并且利用由每個模型所造成的誤 差的獨立性來減小估計差異,并從而減小誤差率。這些方法在從簡單的投票過程(其中,由 每個模型推定的量被平均)到堆疊(其中二次模型被訓練以按適合于訓練數(shù)據(jù)的方式來執(zhí) 行該組合)變動。作為優(yōu)點,投票方法可以在不考慮實時條件下而被應(yīng)用。而堆疊方法可 以學習更復(fù)雜的組合功能,從而可能得到更好的性能。
[0007] 集成方法已經(jīng)在自動語音識別(ASR)中被廣泛使用,以經(jīng)由諸如識別器輸出投票 誤差還原(ROVER)的投票過程來融合不同識別器的語音識別假設(shè)。該ROVER系統(tǒng)是后識別 處理,其將由多個ASR系統(tǒng)生成的輸出建模為獨立的知識源,該知識源可以被組合并且用 于生成具有降低的錯誤率的輸出。
[0008] 尤其是,相關(guān)的集成ASR方法根據(jù)前端ASR處理而不同。集成ASR方法的主要優(yōu) 點是它們可以使用多種現(xiàn)有的方法來提高性能。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的實施方式提供一種用于處理聲音信號的方法。該方法是基于這樣的認 識:許多方法具有不同的優(yōu)點并且由于不同的缺陷受到損害。本發(fā)明將多個聲音信號增強 過程的優(yōu)勢組合,并將增強問題制定為集成學習框架。增強過程的組合可以大幅改善增強。
[0010] 具體地,該方法由增強過程的集成來增強聲音信號以產(chǎn)生初始增強信號,來處理 作為目標信號和干擾信號的混合物的聲音(語音)信號。然后由集成學習方法將增強信號 組合以確定聲音信號的特征。具體情況是特征是增強聲音(語音)信號。
[0011] 做到這一點的一種可能方式是,在共同域中構(gòu)造每個增強過程的輸出的表示,組 合這些表示使得所組合的表示盡可能接近于與純凈目標信號相關(guān)聯(lián)的表示。
[0012] 具體地,該方法首先由一組增強過程來增強聲音信號以產(chǎn)生一組初始增強信號, 來處理作為目標信號和干擾信號的混合物的聲音信號。然后,向該聲音信號和該一組初始 增強信號應(yīng)用集成學習過程以產(chǎn)生該聲音信號的特征。
【附圖說明】
[0013] 圖1是根據(jù)本發(fā)明的實施方式的用于處理聲音信號的方法的流程圖。
[0014] 圖2是根據(jù)本發(fā)明的實施方式的集成學習過程的流程圖。
【具體實施方式】
[0015] 方法概述
[0016] 圖1示出了根據(jù)我們的發(fā)明的實施方式的用于處理聲音信號101的方法。在優(yōu)選 實施方式中,聲音信號y[t] 101是語音信號x[t]和從聲音上復(fù)雜且嘈雜的環(huán)境104中獲取 的各種干擾信號η的混合物101??梢岳斫獾氖牵摲椒梢杂糜谔幚砥渌愋偷穆曇粜?號,例如,聲納信號或者超聲波信號。
[0017] 在預(yù)處理期間,我們可以每次一幀地采樣和處理該聲音信號,信號的采樣率可以 是16kHz。對于特征,例如,可以使用具有640個樣本的幀長度、50 %重疊、、以及用于分析和 合成的正弦窗口的短時距傅立葉變換(STFT)來獲得信號的共同時間頻率表示??梢岳斫?的是,該方法可以被用于作為目標信號和干擾信號的混合物的任何聲音信號,并且其中,該 增強將目標信號X從噪聲η中分離出來。
[0018] 將一組(集成)J個增強過程[1,一,^110-111在時域中應(yīng)用到輸入信號y[t]以 在時域中產(chǎn)生相對應(yīng)的初始增強信號i,{/] [V] 1Π-112,其中針對每個增強過程有一個增強 信號。過程110-111可以是基于任何數(shù)量和種類的源分離或語音增強過程,例如,矢量泰勒 級數(shù)(VTS)、間接VTS、具有改進的最小控制遞歸平均的最佳改良的最小均方錯誤對數(shù)譜振 幅(OMLSA-niCRA)、最小均方誤差(MMSE)、對數(shù)麗SE過程以及它們的組合。在示例中示出 了兩個。
[0019] 集成學習過程200采用噪聲信號101作為輸入并且組合初始增強信號112-113,以 產(chǎn)生特征f135。可以直接或者間接地表達該特征。例如,間接表達的特征可以是如下所述 固有地選擇信號中感興趣的特征的濾波器或掩碼。直接表達的特征可以是目標聲音信號本 身的波形的估計,或諸如MFCC的目標聲音的常規(guī)ASR特征的估計。
[0020] 在后處理期間,如果特征是諸如濾波器或者掩碼這樣的間接表達的特征,則特征 可以被用于從噪聲輸入信號y[t] 101合成140目標信號x[t] 141。特征135或目標信號141 可以由自動語音識別系統(tǒng)(ASR) 150進一步處理。
[0021] 該方法可以在連接到本領(lǐng)域已知的存儲器和輸入/輸出接口的處理器中執(zhí)行。
[0022] 圖2更詳細示出了示例集成學習過程200。使用聲音信號101,掩碼生成210被應(yīng) 用到每個初始增強信號\[幻以產(chǎn)生初始特征或者掩碼211-212。該掩碼可以是權(quán)重。 使用集成學習過程來估計對應(yīng)于目標聲音信號的目標掩碼。如果目標掩碼是二進制的,則 集成學習過程可以是分類法221,如果目標掩碼是連續(xù)的,則該集成學習過程可以是回歸方 法 222。
[0023] 可以從訓練數(shù)據(jù)學習集成學習過程的參數(shù),針對該訓練數(shù)據(jù),有噪和無噪二者都 是可用的。
[0024] 上述方法的步驟可以在連接到如本領(lǐng)域已知的存儲器以及輸入和輸出接口的處 理器中執(zhí)行??梢詫崟r執(zhí)行該處理。
[0025] 概論
[0026] 在上述方法中,在我們在組合200過程中僅使用初始增強信號的意義上,語音增 強過程的集成被視為黑盒子。我們的目的是能夠使用任意模型并且避免使用不同類型的特 征。
[0027] 因此,我們在與增強過程所使用的域獨立的域中執(zhí)行組合。針對這樣的域的較 好的選擇是短時功率譜,短時功率譜因為其對相位的相對不敏感性以及揭示信號中的時 間和頻率模式的能力而在信號處理中被廣泛應(yīng)用。不管所使用的內(nèi)部表示如何,語音增 強過程在時域中采用"噪聲"信號y[t] 101作為輸入,并將該信號變換成初始增強信號 i,#] !!2-113<在短時功率譜域中,可以通過將掩碼應(yīng)用到有噪輸入信號的頻譜圖來逼近 增強處理。
[0028] 實施方式細節(jié)
[0029] 針對由我們的集成中的各個增強過程產(chǎn)生的初始增強信號112-113,我們生成相 對應(yīng)的針對時間幀η和頻率f的加權(quán)掩碼。我們還生成目標掩碼w\f,其將有噪頻譜 變換成純凈頻譜。為簡單起見,掩碼是函數(shù)并且可以被逼近為二進制掩碼和:。 二進制目標掩碼?對于分類來說是方便的,在于可以提出集成推測增強作為使用來自 各個增強過程的加權(quán)掩碼|Vnif,或它們的二進制對應(yīng)物作為輸入估計二進制掩碼 135。
[0030] 目標信號
[0031] 我們的方法的目標語音信號是最終的增強或"純凈"信號x[t]。時間-頻率掩碼 被應(yīng)用于有噪混合物表示執(zhí)行語音增強。時間-頻率掩碼將權(quán)重W應(yīng)用到聲音輸入 的時間-頻率表示中的各個元素。該表示可以是耳蝸圖、STFT、小波變換等,以強調(diào)由目標 信號主導(dǎo)的區(qū)域并抑制由干擾源主導(dǎo)的區(qū)域。權(quán)重可以是二進制的或連續(xù)的。連續(xù)值可以 被視作目標信號和聲音信號之間的比(如在維納濾波器中),或被視作對應(yīng)的時間-頻率元 素與目標信號相關(guān)聯(lián)的概率。
[0032] 將掩碼限制為二進制值是對一般條件中的最佳掩碼過程的合理逼近。我們假設(shè)噪 聲不穩(wěn)