用于通過具有可變頻譜增益和可動(dòng)態(tài)調(diào)制的硬度的算法對(duì)音頻信號(hào)隔音的方法
【專利摘要】所述方法包括,在頻域中:對(duì)每一當(dāng)前時(shí)間幀(y(k))的頻譜(Y(k,l))的每一頻帶,估計(jì)(18)信號(hào)中的語音存在概率(P(k,l));按照下述各項(xiàng)計(jì)算(16)對(duì)每一當(dāng)前時(shí)間幀的每一頻帶適當(dāng)?shù)念l譜增益(GOMLSA(k,l)):i)在每一頻帶中噪聲能量的估計(jì),ii)在步驟c1)估計(jì)的語音存在概率,以及iii)標(biāo)量最小增益值(Gmin);和通過在每一頻帶應(yīng)用所計(jì)算的增益,來選擇性地減少噪聲(14)。表示隔音硬度參數(shù)的標(biāo)量最小增益值是可在每一連續(xù)時(shí)間幀動(dòng)態(tài)調(diào)制的值(Gmin(k)),其是針對(duì)當(dāng)前時(shí)間幀按照鏈接到當(dāng)前時(shí)間幀的全局變量而計(jì)算的,其中將增量/減量應(yīng)用于最小增益的參數(shù)量標(biāo)量值(Gmin)。
【專利說明】用于通過具有可變頻譜增益和可動(dòng)態(tài)調(diào)制的硬度的算法對(duì)音頻信號(hào)隔音的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及在含噪聲的環(huán)境中的語音處理。
[0002]特別是,本發(fā)明涉及由旨在含噪聲的環(huán)境中使用的“免提式”電話設(shè)備拾取的語音信號(hào)的處理。
【背景技術(shù)】
[0003]這樣的裝置包括一個(gè)或若干個(gè)麥克風(fēng),所述麥克風(fēng)不僅拾取用戶的話音,而且還拾取周圍的噪聲,其中噪聲構(gòu)成了干擾元素,在某些情況下,噪聲可以大到使講話者的詞組難以理解。如果希望實(shí)現(xiàn)語音識(shí)別技術(shù)則情況也是如此,因?yàn)楹茈y在高水平噪聲中夾雜的詞組進(jìn)行形狀識(shí)別。
[0004]與周圍噪聲的相聯(lián)系的困難在汽車中的“免提”裝置的情況中是特別帶有限制的,而不管它們是以集成了所有信號(hào)處理部件和電話通信功能的可移除盒的形式并入到車輛的系統(tǒng)還是的附件中。
[0005]的確,麥克風(fēng)(放置在儀表板處或在乘客室屋頂?shù)纳喜拷?和講話者(其偏遠(yuǎn)程度由驅(qū)動(dòng)位置限制)之間的巨大距離導(dǎo)致相對(duì)于周圍噪聲而只能拾取相對(duì)低水平的語音,這使得難以提取嵌入在噪聲中的有用信號(hào)。附加于滾動(dòng)噪聲的永久固定構(gòu)件,機(jī)動(dòng)車輛典型的非常含噪聲的環(huán)境具有非平穩(wěn)的頻譜特性,即不可預(yù)知地演變?yōu)轵?qū)動(dòng)條件的函數(shù)的特性:在不平的或鵝卵石路面的滾動(dòng)、操作中的汽車收音機(jī)等。
[0006]除了聆聽來自耳機(jī)插入的設(shè)備的音頻源(例如音樂)外,當(dāng)所述設(shè)備是用于通信功能、例如“免提”電話功能的組合麥克風(fēng)/耳機(jī)類型的音頻耳機(jī)時(shí),存在類似的困難。
[0007]在這種情況下,需要提供麥克風(fēng)拾取的所述信號(hào)的足夠的清晰度,即鄰近的講話者(耳機(jī)佩戴者)的語音信號(hào)?,F(xiàn)在,耳機(jī)可在含噪聲的環(huán)境(地鐵、繁華街道、火車等)中使用,使得麥克風(fēng)不僅拾取耳機(jī)佩戴者的語音,而且還拾取了周圍的雜散噪聲。耳機(jī)從噪聲中保護(hù)了佩戴者,尤其是在耳機(jī)是具有從外部隔離耳朵的封閉耳機(jī)的型號(hào)時(shí)、甚至在耳機(jī)設(shè)置有“有源噪聲控制”的功能時(shí)情況如此。但遠(yuǎn)程講話者(在通信信道的另一端)承受麥克風(fēng)拾取的雜散噪聲,疊加到并干擾鄰近講話者(耳機(jī)佩戴者)的語音信號(hào)。特別是,對(duì)理解語音的所必需的話音的某些共振峰通常被嵌入到日常環(huán)境中常遇到的噪聲分量中。
【發(fā)明內(nèi)容】
[0008]本發(fā)明更具體地涉及單信道選擇性隔音技術(shù),即對(duì)單個(gè)信號(hào)操作(與實(shí)施多個(gè)麥克風(fēng)的技術(shù)相反,所述多個(gè)麥克風(fēng)的信號(hào)被明智地結(jié)合并且例如通過波束成形類型或其他的技術(shù)受到空間或光譜相干性的分析)。然而,只要本發(fā)明適用于標(biāo)量信號(hào),則其以相同針對(duì)性適用于通過波束成形技術(shù)從幾個(gè)麥克風(fēng)重構(gòu)的信號(hào)。
[0009]在本情況中,需要操作含噪聲的音頻信號(hào)選擇性隔音,所述含噪聲的音頻信號(hào)通常通過由電話設(shè)備的單個(gè)麥克風(fēng)采集到的信號(hào)進(jìn)行數(shù)字化后而獲得。[0010]本發(fā)明更具體而言旨在基于在頻域中的信號(hào)處理(由比在應(yīng)用傅立葉變換、FFT以后)而添加到降噪改進(jìn)算法的改進(jìn),包括應(yīng)用按照若干語音存在概率估計(jì)器所計(jì)算的頻譜增益。
[0011]更精確地說,來自麥克風(fēng)的信號(hào)y被切割成固定長(zhǎng)度的幀,所述幀彼此重疊或沒有重疊,并且索引k的每個(gè)幀通過FFT調(diào)換到頻域。所得到的頻率信號(hào)Y(k,I)也是離散的,其然后由一組索引I的頻率“瓣”(bin)(頻帶)描述,通常為128個(gè)正頻率瓣。
[0012]對(duì)每個(gè)信號(hào)幀,更新多個(gè)估計(jì)器以確定語音存在的頻率概率P (k,I)。如果該概率高時(shí),則認(rèn)為信號(hào)是一種有用的信號(hào)(語音),并因此對(duì)于所考慮的瓣保留了頻譜增益G(k,I) =1。在相反的情況下,如果該概率低,則該信號(hào)被歸類為噪聲,從而通過應(yīng)用遠(yuǎn)小于I的頻譜衰減增益被降低或甚至被抑制。
[0013]換句話說,該算法的原理在于計(jì)算“頻率掩?!辈⑵鋺?yīng)用到有用信號(hào),該頻率掩模保留了語音信號(hào)的有用信息并消除了寄生噪聲信號(hào)。特別是這種技術(shù)可以由
OM-LSA(Optimally Modified-Log Spectral Amplitude,(經(jīng)最優(yōu)修訂的-Log 頻譜幅
度))的算法來實(shí)現(xiàn),例如在下面那些文獻(xiàn)中所描述的:
[0014][I]1.Cohen and B.Berdugo,“Speech Enhancement tor Non-Stationary NoiseEnvironments”,Signal Processing, Vol.81, Noll,pp.2403-2418, Nov.2001 ;和
[0015][2] 1.Cohen, “Optimal Speech Enhancement Under Signal PresenceUncertainty Using Log-Spectral Amplitude Estimator,,,IEEE Signal ProcessingLetters, Vol.9,No4,pp.113-116,Apr.2002。
[0016]US7454010B1還介紹了一個(gè)類似的算法,其為了計(jì)算頻譜增益,考慮到了在當(dāng)前時(shí)間段內(nèi)存在或不存在語音的信息。
[0017]也可以參考W02007/099222A1 (Parrot),其中描述了 一種實(shí)現(xiàn)語音存在概率計(jì)算的隔首技術(shù)。
[0018]當(dāng)然,這種技術(shù)的效率在于旨在區(qū)分語音和噪聲的語音存在概率估計(jì)器的模型。
[0019]在實(shí)際中,這種算法的實(shí)現(xiàn)碰到一些缺陷,其中主要兩個(gè)缺陷是“音樂噪聲”和“機(jī)器人語音”的出現(xiàn)。
[0020]“音樂噪聲,的特點(diǎn)是非均勻的殘留背景噪聲地毯(carpet),其有利于某些特定頻率。噪聲音就不再自然,這使得聽起來令人不安。這種現(xiàn)象是由于該頻率隔音處理是在沒有語音和噪聲之間鑒頻的時(shí)間時(shí)的相鄰頻率之間的依賴關(guān)系而操作的,因?yàn)樗鎏幚頉]有整合防止兩個(gè)非常不同的鄰近頻譜增益的機(jī)制。現(xiàn)在,僅在噪聲期間,理想地需要均勻的衰減增益以保留噪聲音,但在實(shí)際中,如果頻譜增益是不均質(zhì)的,則隨著頻率音符(notes)在較少衰減的頻率處的出現(xiàn),殘留的噪聲變成“音樂的”,這對(duì)應(yīng)于錯(cuò)誤地檢測(cè)為包含有用信號(hào)的瓣。可以注意到,這種現(xiàn)象是更加顯著的,因?yàn)楦咚p增益的應(yīng)用是經(jīng)認(rèn)可的。
[0021]當(dāng)選擇運(yùn)行具有高頻譜衰減增益的一個(gè)非常激進(jìn)的降噪時(shí),就會(huì)發(fā)生“機(jī)器人語音,或“金屬聲音”現(xiàn)象。在語音存在時(shí),被錯(cuò)誤地檢測(cè)為噪聲的相應(yīng)于語音的頻率將高度衰減,使聲音不自然,甚至完全人工化(聲音的“機(jī)器人化”)。
[0022]這樣的算法所包括的參數(shù)化因此由被認(rèn)為是對(duì)隔音激進(jìn)性的一種折衷,從而消除了最大的噪聲而沒有應(yīng)用過高頻譜衰減增益的不期望影響變得太容易感知。然而,后一個(gè)標(biāo)準(zhǔn)被證明是非常主觀的,且在相對(duì)大的用戶組上,它被證明是很難找到可得到一致批準(zhǔn)的折衷調(diào)整。
[0023]為了盡量減少這種缺陷,為通過應(yīng)用頻譜增益進(jìn)行隔音的技術(shù)所固有的是,“0M-LSA”模型提供了用于施加到標(biāo)識(shí)為噪聲的區(qū)域的衰減增益(表示為對(duì)數(shù)級(jí),從而所述衰減增益在下文中對(duì)應(yīng)為負(fù)值)的下限Gmin的固定化,以便防止過多隔音,以限制上述缺陷的出現(xiàn)。然而,這種解決方案不是最佳的:當(dāng)然,它有助于消除過度降低噪聲的不期望的影響,但同時(shí),它也限制了隔音性能。
[0024]本發(fā)明的問題是補(bǔ)償這種限制,其方式是,使應(yīng)用頻譜增益(通常根據(jù)OM-LSA模型)的噪聲降低的系統(tǒng)更高效,同時(shí)遵守上述約束,即有效地降低了噪聲而不改變語音(語音存在)或噪聲(在噪聲存在的情況下)的自然的方面。換句話說,建議使算法處理的不良影響不可被遠(yuǎn)程講話者感知,同時(shí)強(qiáng)烈地衰減噪聲。
[0025]本發(fā)明的基本思想在于:通過在全局時(shí)間幀而不再是在單個(gè)頻率瓣所觀察的全局指標(biāo)來調(diào)制頻譜增益GmsA的計(jì)算——其是在頻域中為每一瓣計(jì)算出的。
[0026]此調(diào)制將通過如下方式來操作:將衰減增益——其極限是一個(gè)標(biāo)量,通常被稱為“隔音硬度”~的下限Gmin的直接轉(zhuǎn)化成時(shí)間函數(shù)一所述時(shí)間函數(shù)的值將按照時(shí)間描述符(或“全局變量”)來確定,其由所述算法的各種估計(jì)器的狀態(tài)來反映。這些后者將按照按照它們相關(guān)性來選擇以描述已知隔音硬度Gmin的選擇可以被優(yōu)化的已知情況。
[0027]此后,按照本例,應(yīng)用到該對(duì)數(shù)衰減增益Gmin的時(shí)間調(diào)制可以對(duì)應(yīng)于增量或減量:減量是與降噪的更大硬度相關(guān)聯(lián)(絕對(duì)值的較高對(duì)數(shù)增益),相反,這個(gè)負(fù)對(duì)數(shù)增益的增量與較小絕對(duì)值、以及由此與降噪的低硬度相關(guān)聯(lián)。
[0028]事實(shí)上,可以注意到,在該幀級(jí)的觀察可能經(jīng)常使人們有可能糾正算法的某些缺陷,特別是在可能有時(shí)錯(cuò)誤地將噪聲頻率檢測(cè)為語音頻率的噪聲非常大的區(qū)域;從而如果單單檢測(cè)到噪聲幀(在該幀處),則由于更加均勻的隔音,可以進(jìn)行更激進(jìn)的隔音而不由此引入音樂噪聲。
[0029]相反,在含噪聲的語音的時(shí)間段內(nèi),可以進(jìn)行更少隔音以便完美地保留語音同時(shí)確保殘留背景噪聲能量的變化是不可感知的。因此我們有一個(gè)雙杠桿(硬度和均勻性)以根據(jù)考慮到情況——單單噪聲階段、或者語音階段——來將隔音的強(qiáng)度模塊化,其中上面情況任一之間的區(qū)別是由于時(shí)間幀級(jí)別的觀察造成的:
[0030]——在第一實(shí)施例中,優(yōu)化將包括:在合適的方向上調(diào)制隔音硬度Gniin以便更好地減少在單單噪聲階段的噪聲,并且能夠更好地保留語音階段中的語音;
[0031 ] 更精確地說,本發(fā)明提出了一種通過應(yīng)用具有可變頻譜增益、語音存在概率的函數(shù)以對(duì)音頻信號(hào)隔音的方法,以本身已知的方式包括下述連續(xù)步驟:
[0032]a)生成數(shù)字化有噪聲的音頻信號(hào)的連續(xù)時(shí)間幀;
[0033]b)將傅立葉變換應(yīng)用到在步驟a)中生成的幀,以便為時(shí)間幀產(chǎn)生具有多個(gè)預(yù)定頻帶的信號(hào)頻譜;
[0034]c)在頻域中:
[0035]Cl)對(duì)每個(gè)當(dāng)前時(shí)間幀的每個(gè)頻帶,估計(jì)語音存在概率;
[0036]c3)按照下列各項(xiàng)計(jì)算對(duì)每個(gè)當(dāng)前時(shí)間巾貞的每個(gè)頻帶合適的頻譜增益,i)在每個(gè)頻帶中的噪聲能量估計(jì),ii)在步驟Cl)估計(jì)的語音存在概率,和iii)表示隔音硬度參數(shù)的標(biāo)量最小增益值;[0037]c4)通過在每一頻帶應(yīng)用在步驟c3)計(jì)算的增益來選擇性地降低噪聲;
[0038]d)將傅立葉逆變換應(yīng)用到包括在步驟c4)中產(chǎn)生的頻帶的信號(hào)頻譜,以為每個(gè)頻譜遞送隔音信號(hào)時(shí)間幀;和
[0039]e)從在步驟d)遞送的時(shí)間幀中重構(gòu)隔音音頻信號(hào)。
[0040]本發(fā)明的特征是:
[0041]——所述標(biāo)量最小增益值是可以在每一個(gè)連續(xù)的時(shí)間幀被動(dòng)態(tài)地調(diào)制的值;并且
[0042]—所述方法進(jìn)一步包括:在計(jì)算所述頻譜增益步驟c3)之前,以下步驟:
[0043]c2)為當(dāng)前時(shí)間幀,按照在當(dāng)前時(shí)間幀針對(duì)所有頻帶觀察到的全局值來計(jì)算所述可調(diào)制的值;和
[0044]——所述步驟c2)的計(jì)算包括:對(duì)于當(dāng)前時(shí)間幀,應(yīng)用增量/減量,所述增量/減量被加到所述最小增益的參數(shù)化的額定值。
[0045]在本發(fā)明的第一實(shí)施例中,全局變量是在時(shí)域估計(jì)的當(dāng)前時(shí)間幀的信號(hào)噪聲比。
[0046]特別地,可在步驟c2)中通過應(yīng)用下述關(guān)系來計(jì)算標(biāo)量最小增益值:
[0047]Gmin(k) =Gmin+Λ Gmin (SNRyGO) [0048]k為當(dāng)前時(shí)間幀的索引,
[0049]GniinQO為將應(yīng)用到當(dāng)前時(shí)間幀的最小增益,
[0050]Gfflin為最小增益的所述參數(shù)化額定值,
[0051]Δ Gmin (k)為加到Gmin所述增量/減量,和
[0052]SNRy(k)為當(dāng)前時(shí)間幀的信號(hào)噪聲比。
[0053]在本發(fā)明的第二實(shí)施例中,全局變量是在當(dāng)前時(shí)間幀估計(jì)的平均語音概率。
[0054]特別地,可在步驟c2)中通過應(yīng)用下述關(guān)系的應(yīng)用來計(jì)算標(biāo)量最小增益值:
[0055]GniinQO = Gmin+(Pspeech (k)-1).Δ !Gmi^Pspeech (k).A2Gniin
[0056]k為當(dāng)前時(shí)間幀的索引,
[0057]Gmin(k)為將應(yīng)用到當(dāng)前時(shí)間幀的最小增益,
[0058]Gfflin為最小增益的所述參數(shù)化額定值,
[0059]Pspeech(k)為在當(dāng)前時(shí)間幀估計(jì)的平均語音概率,
[0060]Δ ^min為在噪聲階段中加到Gmin的所述增量/減量,和
[0061]A2Gfflin為在語音階段中加到Gmin的所述增量/減量。
[0062]特別地,可以在當(dāng)前時(shí)間幀通過應(yīng)用下式來估計(jì)平均語音概率:
[0063]Pspeech = P (k,?)
[0064]I為頻帶的索引,
[0065]N為頻譜中頻帶的數(shù)目,和
[0066]p(k,I)為在當(dāng)前時(shí)間幀的索引I的頻帶中的語音存在概率。
[0067]在本發(fā)明的第三個(gè)實(shí)施例中,全局變量是檢測(cè)當(dāng)前時(shí)間幀的語音活動(dòng)的布爾信號(hào),其是通過分析時(shí)間幀和/或借助于外部檢測(cè)器在時(shí)域中估計(jì)的。
[0068]特別地,可在步驟c2)中通過應(yīng)用下式來估計(jì)標(biāo)量最小增益值:
[0069]Gmin (k) =Gmin+VAD(k).AGmin
[0070]k為當(dāng)前時(shí)間幀的索引,[0071]Gfflin(k)為將應(yīng)用到當(dāng)前時(shí)間幀的最小增益,
[0072]Gfflin為最小增益的所述參數(shù)化額定值,VAD(k)為檢測(cè)當(dāng)前時(shí)間幀的語音活動(dòng)的布爾信號(hào)的值,和
[0073]Δ Gmin為加到Gmin所述增量/減量。
【專利附圖】
【附圖說明】
[0074]參考附圖,現(xiàn)在將說明本發(fā)明裝置的示例性實(shí)施例,附圖中相同的參考數(shù)字表示全部附圖中相同或功能相似的部件。
[0075]圖1作為一個(gè)功能性方框圖示意性地示出了根據(jù)現(xiàn)有技術(shù)的OM-LSA類型的隔音處理的實(shí)現(xiàn)方式。
[0076]圖2示出了本發(fā)明提供的對(duì)圖1的隔音技術(shù)的改進(jìn)。
【具體實(shí)施方式】
[0077]本發(fā)明的方法是通過軟件手段實(shí)施,在附圖中由多個(gè)對(duì)應(yīng)于由微控制器或數(shù)字信號(hào)處理器執(zhí)行的合適的算法的功能塊系統(tǒng)化示出。雖然,為了本發(fā)明的清楚性,不同的功能表示為獨(dú)立的模塊,但是它們實(shí)現(xiàn)由同一軟件全部執(zhí)行的普通部件和實(shí)際中相應(yīng)部件的多個(gè)功能。
[0078]根據(jù)現(xiàn)有技術(shù)的OM-LSA隔音算法
[0079]作為一個(gè)功能性方框圖,圖1示意性地示出了根據(jù)現(xiàn)有技術(shù)的OM-LSA類型的隔音處理的實(shí)現(xiàn)方式。
[0080]數(shù)字信號(hào)y (n) =x (n) +d (η)包括語音分量χ (η)和噪聲分量d (η) (η為采樣次序),所述數(shù)字信號(hào)被切割(方框10)為重疊或不重疊的固定長(zhǎng)度的分段或時(shí)間幀y(k) (k為幀索引),通常為以8kHz (窄帶電話交換臺(tái))采樣的信號(hào)的256個(gè)樣本的幀。
[0081]然后索引k的每個(gè)時(shí)間幀通過快速傅里葉變換FFT被調(diào)換到頻域(框12):得到的結(jié)果也是離散的信號(hào)或頻譜Y (k,I)其然后由一組頻帶或頻率“瓣”描述(I為瓣指數(shù)),
例如128個(gè)正頻瓣。,為了提供信號(hào)尤0,/),對(duì)每個(gè)瓣合適的頻譜增益G = Gomlsa (k, I)被應(yīng)
用(框14)到頻率信號(hào)Y (k,I):
[0082]
X{k,l)=GOMLSA(k,iyY{k,l)
[0083]一方面按照語音存在概率P (k,I)、另一方面按照參數(shù)Gmin來計(jì)算(框16)頻譜增Sgmcsa(k,I),所述語音存在概率P(k,I)是為每一瓣估計(jì)(框18)的頻率概率,所述參數(shù)Gmin是標(biāo)量最小增益值,通常稱為“隔音硬度”。這個(gè)參數(shù)Gmin固定應(yīng)用到標(biāo)識(shí)為噪聲的區(qū)域的衰減增益的下限,從而避免了由于應(yīng)用過高和/或不均勻頻譜衰減增益而導(dǎo)致音樂噪聲和機(jī)器人語音變得過于顯著的現(xiàn)象。
[0084]所計(jì)算的頻譜增益GmsA(k,I)為下述形式:
[0085]Gomlsa
[0086]因此頻譜增益和語音存在概率的計(jì)算有利地實(shí)現(xiàn)為OM-LSA(優(yōu)化修正的——Log頻譜幅度)類型的算法,所述算法如在(上述)文章中描述的:[0087][2] I Cohen, “Optimal Speech Enhancement Under Signal PresenceUncertainty Using Log-Spectral Amplitude Estimator,,,IEEE Signal ProcessingLetters, Vol.9,No4, pp.113-116,Apr.2002.[0088]本質(zhì)上,被稱為“LSA (Log頻譜幅度)增益”的增益的應(yīng)用使得可以最小化所估計(jì)的信號(hào)幅度的對(duì)數(shù)與原始語音信號(hào)的幅度的對(duì)數(shù)之間的均方距離。該標(biāo)準(zhǔn)表明要進(jìn)行適應(yīng),因?yàn)樗x擇的距離是更好地適應(yīng)人耳的行為,并從而在定性的角度給出了更好的結(jié)
果O
[0089]在所有的情況下重要的是,通過向噪聲非常大的頻率分量應(yīng)用低增益以減少所述分量的能量,同時(shí)使那些具有極少含噪聲的或完全不含噪聲的頻率分量保持不變(通過應(yīng)用等于I的增益)。
[0090]為了計(jì)算最終增益,“0M-LSA”(優(yōu)化修正LSA)算法通過用條件語音存在概率或SPP p(k,I)對(duì)LSA增益進(jìn)行加權(quán)來改進(jìn)了 LSA增益的計(jì)算:當(dāng)語音存在概率是低的時(shí),應(yīng)用的噪聲減少全部是較高的(即應(yīng)用的增益全部是較低的)。
[0091]語音存在概率p(k,I)是一個(gè)參數(shù),該參數(shù)可以取從O到100%的若干不同的值。此參數(shù)是根據(jù)本身已知的技術(shù)計(jì)算出的,在下文中特別公開了其中的例子:
[0092][3]1.Cohen and B.Berdugo, ^Two-Channel Signal Detection and SpeechEnhancement Based on the Transient Beam-to-Reference Ratio,,,IEEE InternationalConference on Acoustics, Speech and Signal Processing ICASSP2003, Hong-Kong,pp.233-236, Apr.2003.[0093]如經(jīng)常在這個(gè)領(lǐng)域中的,所描述的方法目標(biāo)不是精確識(shí)別哪些幀的哪些頻率分量中不存在語音,而是給予O和I之間的置信指數(shù),值I表示該語音是絕對(duì)不存在的(根據(jù)算法),而值O則表示相反。根據(jù)其性質(zhì),該指數(shù)被同化為語音不存在先驗(yàn)概率,即該語音不存在于所考慮的幀的給定頻率分量的概率。它當(dāng)然是一個(gè)非嚴(yán)格的同化,因?yàn)榧词拐Z音的存在的概率是事先概率,由麥克風(fēng)拾取的信號(hào)在每個(gè)時(shí)刻具有兩個(gè)不同狀態(tài)中的僅僅一個(gè):在所考慮的時(shí)刻,它可以要么包括語音,要么不包括語音。然而在實(shí)際中,這種同化卻給出了良好的結(jié)果,這證明了其用處。
[0094]還可以參考W02007/099222A1 (Parrot),其中詳細(xì)描述了來自于這一原理,實(shí)施語音存在概率計(jì)算的隔音技術(shù)。
[0095]所得到的信號(hào)戈=即頻率掩模G_A(k,I)已被施加到的有用信號(hào)Y (k,I),此后經(jīng)歷傅立葉逆變換iFFT (框20),以從頻域變換回時(shí)域。然后所獲得的時(shí)間幀組合在一起(框22),以得到數(shù)字化的隔音信號(hào)。
[0096]根據(jù)本發(fā)明的OM-LSA隔音算法
[0097]圖2示出了引入剛披露的算法的修改。具有相同附圖標(biāo)記的框?qū)?yīng)相同的功能或類似上述公開的功能,正如引用的處理各種信號(hào)。
[0098]在圖1已知的實(shí)施例中,表示隔音硬度的最小增益的標(biāo)量值Gniin被或多或少地按照經(jīng)驗(yàn)來選擇,使得聲音的劣化依然是稍微可聽見的,同時(shí)確保噪聲的一個(gè)可接受的衰減。
[0099]然而如在介紹中披露的,期望單單在噪聲階段執(zhí)行更激進(jìn)的隔音,而不從而引入音樂噪聲;相反,在含噪聲的語音的時(shí)間段中,可能進(jìn)行較少隔音以便完美地保留聲音,同時(shí)確保殘留背景噪聲能量的變化是不可感知的。[0100]根據(jù)該情況(單單的噪聲階段、或者語音階段),可能存在調(diào)制隔音硬度的雙重利益:后者將通過在合適的方向上動(dòng)態(tài)改變Gmin標(biāo)量值來調(diào)制,所述合適方向?qū)螁谓档驮肼暻覍⒏玫鼐S護(hù)語音階段中的語音。
[0101]為了這個(gè)目的,最初恒定的標(biāo)量值Gmin轉(zhuǎn)化(框24)成時(shí)間函數(shù)GminGO,它的值將按照全局變量(也稱為“時(shí)間描述符”)來確定,即作為全局地在幀處、而不是頻率瓣處考慮的變量。這個(gè)全局變量可以由已經(jīng)由算法計(jì)算出的一個(gè)或若干不同估計(jì)器的狀態(tài)來反映,其將根據(jù)情況按照他們的相關(guān)性來選擇。
[0102]特別地,這些估計(jì)可以是:i)信號(hào)噪聲比,ii)平均語音存在概率,和/或iii)語音活動(dòng)檢測(cè)。在所有這些例子中,隔音硬度Gmin變?yōu)楣烙?jì)器定義的時(shí)間函數(shù)Gmin(k),所述估計(jì)器是時(shí)間估計(jì)器,使得可以描述如下已知情況:期望調(diào)制Gmin的值以便通過動(dòng)態(tài)修改信號(hào)隔音/劣化折衷來影響噪聲的降低。
[0103]順便說一句,應(yīng)當(dāng)指出的是,為了使硬度的這種動(dòng)態(tài)調(diào)制不被收聽者感知,應(yīng)提供一個(gè)機(jī)制防止Gmin(k)的突然變化,例如,通過常規(guī)的時(shí)間平滑技術(shù)。因而避免了硬度Gmin(k)的時(shí)間突變成為在殘留噪聲上可聽的,而殘留噪聲例如在滾動(dòng)條件下的駕駛員的情況下通常是穩(wěn)定的。
[0104]時(shí)間描述符:信號(hào)噪聲比
[0105]第一個(gè)實(shí)施例的出發(fā)點(diǎn)是如下觀察:安靜環(huán)境下拾取的語音信號(hào)只有一點(diǎn)點(diǎn),甚至沒有,需要進(jìn)行隔音,并將強(qiáng)大的隔音應(yīng)用到這樣的信號(hào),會(huì)迅速導(dǎo)致聽覺偽像,而沒有從殘留噪聲的單一觀點(diǎn)改善收聽的舒適性。相反,含過多噪聲的信號(hào)可能會(huì)迅速變得難以理解,或造成收聽的逐漸疲勞;在這種情況下,一個(gè)顯著隔音的好處將是不容置疑的,即使以言語可聽劣化(盡管是合理和受控的)為代價(jià)。
[0106]換句話說,當(dāng)未經(jīng)處理信號(hào)是含噪聲的時(shí),噪聲降低將對(duì)有用信號(hào)的理解更有益的。
[0107]這可以通過按照經(jīng)處理的信號(hào)的當(dāng)前噪聲水平的先驗(yàn)信號(hào)噪聲比調(diào)制硬度參數(shù)Gmin而被加以考慮:
[0108]Gmin(k) =Gmin+Λ Gmin (SNRyGO)
[0109]Gnin(k)是被應(yīng)用到當(dāng)前時(shí)間幀的最小增益,
[0110]Gmin是該最小增益的參數(shù)化的額定值,
[0111]AGminOO為加到值Gmin的遞量/減量,和
[0112]SNRy(k)為在時(shí)域中評(píng)估(框26)的當(dāng)前幀的信號(hào)噪聲比,其對(duì)應(yīng)于應(yīng)用到框24的輸入η°①的變量(這樣的“輸入”為符號(hào)化的,且僅僅具有為了示出本發(fā)明實(shí)施例的各種替換可能性的值)。
[0113]時(shí)間描述符:平均語音存在概率
[0114]另一個(gè)用于調(diào)制降低硬度的相關(guān)準(zhǔn)則,可以是對(duì)于所考慮的時(shí)間幀的語音的存在。
[0115]在傳統(tǒng)的算法中,當(dāng)試圖增加隔音硬度Gmin時(shí),“機(jī)器人語音”現(xiàn)象在“音樂噪聲,之前出現(xiàn)。因此,似乎是可能和有利的是,通過用語音存在全局指標(biāo)簡(jiǎn)單地調(diào)制隔音硬度參數(shù),將更大的隔音硬度應(yīng)用到單單噪聲階段;單單在噪聲期間,通過應(yīng)用更大硬度將減小殘留噪聲一其是收聽疲勞的起因一而沒有配對(duì)措施,因?yàn)樵谡Z音階段的硬度可以保持不變。
[0116]由于降噪算法是基于頻率語音存在概率的計(jì)算,所以容易在幀的級(jí)別上基于各種頻率概率獲得語音存在平均指數(shù),以便從包含有用語音的幀中區(qū)分主要由噪聲構(gòu)成的幀。例如可以使用常規(guī)的估計(jì)器:
【權(quán)利要求】
1.一種通過應(yīng)用具有可變頻譜增益的算法的對(duì)音頻信號(hào)隔音的方法,所述可變頻譜增益是語音存在概率的函數(shù),所述方法包括下述連續(xù)的步驟: a)生成(10)數(shù)字化的含噪聲的音頻信號(hào)(y(n))的連續(xù)時(shí)間幀(y(k)) b)將傅立葉變換(12)應(yīng)用在步驟a)中生成的幀,以便為每一信號(hào)時(shí)間幀產(chǎn)生具有多個(gè)預(yù)定的頻帶的信號(hào)頻譜(Y(k,I)); c)在頻域中: cl)對(duì)每一當(dāng)前時(shí)間幀的每一頻帶,估計(jì)(18)語音存在概率(p(k, I));c3)按照下列各項(xiàng)計(jì)算(16)對(duì)每一當(dāng)前時(shí)間幀的每一頻帶適當(dāng)?shù)念l譜增益(GmsA(k,I)):i)每一頻帶中的噪聲能量的估計(jì),ii)在步驟Cl)估計(jì)的語音存在概率,以及iii)表示隔音硬度參數(shù)的標(biāo)量最小增益值(Gmin); c4)通過在每一頻帶應(yīng)用在步驟c3)計(jì)算的增益,選擇性地降低噪聲(14); d)將傅立葉逆變換(20)應(yīng)用于包括步驟c4)中產(chǎn)生的每一頻帶的信號(hào)頻譜(X(kj)),以為每一頻譜遞送隔音信號(hào)時(shí)間幀;和 e)從在步驟d)遞送的時(shí)間幀中重構(gòu)(22)隔音音頻信號(hào); 所述方法的特征在于: ——所述標(biāo)量最小增益值(Gmin)是能夠在每一連續(xù)時(shí)間幀(y(k))處動(dòng)態(tài)調(diào)制的值(Gmin(k));和 ——在計(jì)算所述頻譜增益的步驟C3)前,所述方法進(jìn)一步包括步驟:c2)為所述當(dāng)前時(shí)間幀(y(k)),按照針對(duì)所有頻帶在當(dāng)前時(shí)間幀觀察的全局值(SNRy(k) ;Pspeech(k) ;VAD(k))來計(jì)算(24)所述可調(diào)制的值;和 ——步驟c2)的所述計(jì)算包括對(duì)于當(dāng)前時(shí)間幀,應(yīng)用加到所述最小增益(Gmin)的參數(shù)化額定值的增量 / 減量(Λ Gmin (k) ; Δ ^min ; Δ 2Gmin ; Δ Gmin)。
2.根據(jù)權(quán)利要求1的所述方法,其中所述全局變量是在時(shí)域評(píng)估(26)的當(dāng)前時(shí)間幀的信號(hào)噪聲比(SNRy (k))。
3.根據(jù)權(quán)利要求2的所述方法,其中在步驟c2)通過應(yīng)用下列關(guān)系計(jì)算所述標(biāo)量最小增益值:
Gmin (k) = Gmin+Λ Gmin (SNRyGO)
k是當(dāng)前時(shí)間幀的索引, Gfflin(k)是將應(yīng)用到當(dāng)前時(shí)間幀的最小增益, Gfflin是最小增益的所述參數(shù)化額定值, Δ Gmin (k)為加到Gmin所述增量/減量,和 SNRy (k)為當(dāng)前時(shí)間幀的信號(hào)噪聲比。
4.根據(jù)權(quán)利要求1的所述方法,其中所述全局變量是在當(dāng)前時(shí)間幀評(píng)估(28)的平均語音概率(P_h(k))。
5.根據(jù)權(quán)利要求4的所述方法,其中在步驟c2)通過應(yīng)用下列關(guān)系計(jì)算所述標(biāo)量最小增益值:
Gmin (k) = Gmin+(Pspeech(k)-1).Δ !Gmi^Pspeech (k).A2Gniin
k是當(dāng)前時(shí)間幀的索引,Gfflin(k)是將應(yīng)用到當(dāng)前時(shí)間幀的最小增益, Gfflin是最小增益的所述參數(shù)化額定值, Pspeech (k)是在當(dāng)前時(shí)間幀評(píng)估的平均語音概率, Δ ^fflin是在噪聲階段中加到Gmin的所述增量/減量,和 Δ 2Gmin是在語音階段中加到Gmin的所述增量/減量。
6.根據(jù)權(quán)利要求4的所述方法,其中通過應(yīng)用下列關(guān)系來在當(dāng)前時(shí)間幀評(píng)估所述平均語音概率:
7.根據(jù)權(quán)利要求1的所述方法,其中所述全局變量是對(duì)當(dāng)前時(shí)間幀中的語音活動(dòng)(VAD(k))檢測(cè)的布爾信號(hào),所述布爾信號(hào)是在時(shí)域通過分析時(shí)間幀和/或借助于外部檢測(cè)器而被評(píng)估(30)。
8.根據(jù)權(quán)利要求7的所述方法,其中在步驟c2)通過應(yīng)用下列關(guān)系估計(jì)所述標(biāo)量最小增益值:
Gmin (k) = Gfflin+VAD(k).AGfflin
k是當(dāng)前時(shí)間幀的索引, Gfflin(k)是將應(yīng)用到當(dāng)前時(shí)間幀的最小增益, Gfflin是最小增益的所述參數(shù)化額定值, VAD(k)是對(duì)當(dāng)前時(shí)間幀的語音活動(dòng)的檢測(cè)的布爾信號(hào)的值,和 Δ Gmin是加到Gmin所述增量/減量。
【文檔編號(hào)】G10L21/0232GK104021798SQ201410163809
【公開日】2014年9月3日 申請(qǐng)日期:2014年2月28日 優(yōu)先權(quán)日:2013年2月28日
【發(fā)明者】A·布里奧 申請(qǐng)人:鸚鵡股份有限公司