專利名稱:用于提取和改變輸入信號的混響內(nèi)容的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對輸入信號的混響和非混響分量的分解和變更,且更具體而 言涉及減弱或增強輸入信號的分量的可辨性。該方法能特定地用于減弱或增 強音頻信號中的混響。
在很多情況下,信號中發(fā)現(xiàn)的混響不適于其最終用途,因此我們希望有 變更混響的方法。而且我們希望不用直接測量混響被記錄的聲學(xué)空間就能夠 變更這種混響。
背景技術(shù):
幾乎所有的音頻信號都由原始干信號(original dry signal)和混響的組 合構(gòu)成?;祉懺从诟尚盘柦?jīng)過混響系統(tǒng)。例如,考慮在音樂廳表演的歌手。 在這種情況下,歌手的聲音是干信號,且音樂廳是混響系統(tǒng)。如果我們在音 樂廳中的某個位置放置麥克風(fēng)以記錄產(chǎn)生的聲音,我們將得到其上疊加了音 樂廳的混響特性的干語音信號。即,麥克風(fēng)捕獲了歌手直接發(fā)出的聲音分量 以及由于聲音在音樂廳中傳播而產(chǎn)生的混響分量的混合。
一旦原始干信號上疊加了聲學(xué)空間的混響特性,則極難恢復(fù)原始干信號 (或直接信號分量)。類似地,極難改變混響分量的特性或強度。難點部分 地在于混響依賴于原始干信號這一事實。即,混響是從原始干信號生成的。
而且,我們通常不存取關(guān)于混響系統(tǒng)的任意相關(guān)信息。利用音樂廳中的 歌手的示例,麥克風(fēng)不直接記錄音樂廳的聲學(xué)細節(jié)。而是,它記錄了歌手聲 音在疊加了音樂廳的聲學(xué)特性之后的聲音。
在諸如音樂錄制之類的某些應(yīng)用中,十分希望有一定量的混響,因為它
能對每個音符進行令人愉悅的擴展并能提供有深度和圍繞的感覺。當(dāng)然,某 些聲學(xué)空間(例如,音樂廳)就是比其他聲學(xué)空間更令人感到愉悅。然而,
人們一般不能進入最令人感到愉悅的聲學(xué)空間,所以記錄的聲音的混響分量 可能不會像希望的那樣好。即,混響不能完全適用于該記錄聲音。當(dāng)前,在 這種情況下,不能做出什么來變更記錄聲音的分量。如果記錄聲音缺少混響能量,則可以通過人工混響設(shè)備處理記錄聲音來添加更多的混響能量。然而, 這些設(shè)備產(chǎn)生的混響聽上去不自然,且不能補充記錄聲音中已經(jīng)存在的混響 的音程。相反,如果記錄聲音具有太多的混響,則當(dāng)前也不能做什么來減小 混響分量的水平。如果記錄聲音具有正確的混響量,但是不具有正確的特性, 則當(dāng)前不能做什么來變更混響特性。在這些情況其中每一種情況下,若能夠 修改直接的聲音分量以及混響能量的水平和特性以獲得合適的混響特性,則 是非常有益的。
在其他應(yīng)用中,即使適度的混響也是不適當(dāng)?shù)模驗樗种屏诵盘柕那?晰度和可理解性。例如,在諸如通常使用免提電話的電信會i^的應(yīng)用情況中, 辦公室或會議室的混響可能會具有使語音信號聲音"空洞,,的不利影響。這 通常被稱為雨桶效果。在諸如安全、監(jiān)視和取證之類的其他相關(guān)應(yīng)用中,混 響是極不希望有的,因為它可能減弱語音信號的可理解性。然而,在這些情 況下,典型地不可能對聲學(xué)空間的混響特性做任何控制。在語音識別系統(tǒng)中, 混響降低了系統(tǒng)正確地識別詞語的能力,且因而降低了識別率。如果識別率 變得太低,則語音識別系統(tǒng)可能變得不可用。對于有聽力障礙的人,混響可 能會造成獨特的困難,因為不希望的混響效應(yīng)通常會被他們的聽力障礙所增 大。對于有聽力障礙的人而言,混響對語音可理解性的負面影響通常更為嚴 重。當(dāng)聽力輔助設(shè)備放大聲學(xué)信號以使得聲學(xué)信號更容易被聽到時,它同時 放大了直接聲音分量和混響分量。因此,放大的信號不幫助克服混響的不利 影響。在每一種這樣的應(yīng)用情況中,若能夠減小混響分量的水平使得它相對 于直接聲音分量處于合適的水平將是十分有利的。試圖減小音頻信號中的混 響量一個通常的方法,是^f吏用定向麥克風(fēng)或麥克風(fēng)陣列。定向麥克風(fēng)和麥克
風(fēng)陣列接受從某些方向到達的聲音,且拒絕從其他方向到達的聲音。因此, 如果麥克風(fēng)被放置得很恰當(dāng),則它將接受所需的干信號,同時拒絕某些混響 部分。
定向麥克風(fēng)和麥克風(fēng)陣列的成功使用,需要人們知道所需信號所處的位 置。如果該位置未知,或它隨時間變化,則該方法不能令人滿意地工作,因 為所需的信號也可能被拒絕。而且,由于麥克風(fēng)陣列的物理尺寸,所需的硬 件資源(例如,麥克風(fēng)、放大器等)的數(shù)量的增加以及導(dǎo)致的成本增加,該 方法不適于用在某些應(yīng)用中。相反,在不知道聲學(xué)空間的任何知識并且不知 道聲源的位置的情況下能夠用單個非定向麥克風(fēng)來盲目地將混響分量水平減小到合適的水平,是極其有利的。
在電影和電視作品中,我們聽到的聲音(例如,對話和聲效)具有與我 們在屏幕上所見的圖像相配的混響特性是很重要的。例如,如果圖像指示場 景發(fā)生在小房間中,則聲音應(yīng)具有小房間的混響特性,即使聲音可能實際是
在很大的攝影棚中記錄的。術(shù)語"房間音調(diào)(room tone)"通常在電影和電 視作品中用來描述聲學(xué)空間的聲學(xué)特性。 一般而言,電影和電視作品中的聲 音通常是在極其不同的地點記錄的。例如, 一部分對話可能在拍攝電影時記 錄,而其他部分對話可能在錄音或"配音"室中記錄。這里,演員在觀看他 們表演的視頻的同時吟誦他們的臺詞。這種處理已知為自動對白替換 (ADR),且是十分常用的作法。為了使對話的各個部分聽起來自然而真實, 必須匹配不同記錄聲音的房間音調(diào),使得它們聽起來就好像它們在同樣的聲 學(xué)空間中記錄的一樣。而且,人們通常希望使記錄聲音聽起來就好像它們在 具有特定房間音調(diào)的特定聲學(xué)空間中記錄的 一樣。
在ADR示例中,記錄聲音通常是非常干的,因為錄音或配音室通常是 精心控制的聲學(xué)空間。即,通常在記錄中幾乎沒有混響。在這種情況下,人
們可能希望向記錄聲音中強加以特定房間的混響特性。如果不能直接獲得房 間的聲學(xué)特性,這可能是十分困難的。然而,該房間中記錄的其他記錄聲音
是可以獲得的。在這種情況下,能夠從記錄聲音中提取聲學(xué)空間的聲學(xué)特性 將是十分有用的。能夠向記錄聲音中強加以適當(dāng)?shù)穆晫W(xué)空間的混響特性也是 很有用的。
在對話的不同部分在不同的聲學(xué)空間中記錄而在每一個聲學(xué)空間均具 有相當(dāng)大的混響量的情況下,則任務(wù)是以某種方式匹配不同記錄聲音的混響 特性。為了完成這點,必須在應(yīng)用合適的聲學(xué)空間的混響特性之前,首先去 除進行錄音的房屋的混響特性。如上所述,這是很困難的任務(wù),至今不能得 到滿意的解決。在這種情況下,能夠去除記錄聲音的聲學(xué)特性且然后應(yīng)用適 當(dāng)?shù)穆晫W(xué)空間的聲學(xué)特性是十分有用的。
在一類情形中,音頻信號中發(fā)現(xiàn)的混響是不恰當(dāng)?shù)?,因為混響限制了?們以某種方式處理信號的能力。例如,在音頻數(shù)據(jù)縮減系統(tǒng)中,目標是壓縮 信號,使得較少量的數(shù)據(jù)用于存儲或發(fā)射信號。這種系統(tǒng)使用編碼器來壓縮 信號,且使用解碼器來用于在以后恢復(fù)信號。這些音頻數(shù)據(jù)縮減系統(tǒng)可以是 "無損耗的",在這種情況下,沒有信息因為壓縮處理而丟失,所以能在解碼器處完美地恢復(fù)原始信號。其他版本是"有損耗的",所以在解碼器處恢 復(fù)的信號并不與原始輸入信號完全相同。音頻數(shù)據(jù)縮減系統(tǒng)依賴于在音頻信 號中存在高度冗余。即它們在"可預(yù)測"的音頻信號上工作得最好。然而, 音頻信號中的混響降低了音頻信號的可預(yù)測性。當(dāng)前沒有克服混響效果以改 善音頻數(shù)據(jù)縮減系統(tǒng)的性能的方法。非常希望能夠在解碼器壓縮信號之前將 信號分解成其直接聲音分量和混響分量,且然后在解碼了壓縮信號之后恢復(fù) 混響信號。
混響限制了處理信號的能力的另 一 示例是音頻水印(audio watermarking )。在音頻水印中,目標是在音頻信號中隱藏信息。該隱藏的信 息可用于諸如歌曲的版權(quán)保護之類的事情。音頻水印系統(tǒng)通過對音頻信號做 少量修改來操作。若水印成功,這些修改必須是聽不見的。這里,人們將希 望在歌曲中的非常特殊的時間點處做出修改。然而,如果直接聲音分量和混 響分量由于修改而不再彼此匹配,這種修改就可能變得可聽見。非常希望能 夠去除音頻信號的混響分量,插入音頻水印,然后將混響分量添加回信號。
在另一類情形中,作為某些處理的結(jié)果,信號中發(fā)現(xiàn)的混響變得不恰當(dāng)。 例如,通常對信號進行處理以去除背景噪聲或變更其動態(tài)范圍。該處理通常 變更記錄中的直接聲音分量和混響分量之間的關(guān)系,使得該關(guān)系不再恰當(dāng)。 當(dāng)前沒有在這種處理之后校正混響分量的方法。
通常不便于或不可能測量聲學(xué)空間的聲學(xué)特性。使用我們早先的示例, 盡管我們?nèi)菀撰@得音樂廳中的歌手的記錄聲音,但我們很少進入音樂廳中。 而且,即使我們進入音樂廳,我們也不可能再現(xiàn)錄制時的聲學(xué)條件(例如, 歌手和麥克風(fēng)的位置,觀眾的存在等)。因此,我們希望能夠從混響系統(tǒng)內(nèi) 做出的記錄聲音(或?qū)崟r信號)中提取對該混響系統(tǒng)的描述。最重要的是, 我們希望能夠提取對混響系統(tǒng)的感知相關(guān)方面的描述。至今,沒有方法能足 以滿足這種需要?;祉懴到y(tǒng)的描述可用于分析混響系統(tǒng),作為用于修改或減 弱記錄聲音中的混響特性的系統(tǒng)的一部分,或者作為用于向記錄聲音中強加 混響特性的系統(tǒng)的一部分。
最早的音頻記錄聲音(電影、音樂、電視等)是單聲道的。即它們僅被 記錄到一個聲道。立體聲音頻記錄聲音一般更加使人愉快,因為它們在再現(xiàn) 聲學(xué)空間的混響特性的空間方面做得更好。已經(jīng)開發(fā)出各種處理來將單聲道 記錄聲音轉(zhuǎn)換成立體聲形式。這些技術(shù)被這樣的事實所限制,即它們處理直
10接聲音分量,也處理混響分量。如果能夠分別地處理直接聲音分量和混響分 量,這些技術(shù)將得到極大的改善。當(dāng)前,沒有令人滿意的方法來將信號分解 成直接聲音分量和混響分量以使得它們;故分別處理。
多聲道環(huán)繞聲系統(tǒng)變得越來越流行。盡管立體聲系統(tǒng)具有兩個聲道(且 因而具有兩個揚聲器),但多聲道環(huán)繞聲系統(tǒng)具有多個聲道。典型的多聲道 環(huán)繞聲系統(tǒng)使用5個聲道,且因此使用5個揚聲器。當(dāng)前,可用的多聲道音 頻記錄聲音的數(shù)目是十分有限的。相反,存在很多數(shù)目可用的單聲道和立體 聲記錄聲音。因此十分希望能夠利用單聲道或立體聲音頻信號,從其產(chǎn)生多 聲道音頻信號。完成這點的當(dāng)前方法使用稱為"矩陣解碼"的方法。這些方 法將利用立體聲記錄聲音,并將記錄聲音的不同部分放置到多聲道系統(tǒng)的各 個聲道中。在音樂記錄聲音的情況下,某些樂器將聽上去位于聽眾后面。這 在某些情形下是不希望產(chǎn)生的結(jié)果。例如,當(dāng)播放管弦樂記錄聲音時,人們 一般不希望某些樂器聽上去位于聽眾后面。而是,人們一般希望樂器聽上去 位于聽眾前面,并具有聽上去從聽眾的周圍到達的音樂廳混響效果。
解決該問題的 一個方法是向前面的揚聲器發(fā)送原始立體聲信號,同時還 通過人造混響設(shè)備處理立體聲信號。人造混響設(shè)備的輸出旨在提供對音樂廳 混響的模擬,且這種輸出將被發(fā)送到后面(周圍)的揚聲器。由于若干原因, 該方法并不令人滿意。首先,該方法在立體聲信號中已經(jīng)存在的混響之上添 加了額外的混響。因此,該方法會使得混響的總量不適于該特定記錄。而且, 通過人造混響設(shè)備添加的混響可能不匹配立體聲記錄中的混響特性。這將使 得所得的多聲道信號聽起來不自然。更好的方法將是將立體聲信號分解成其 直接聲音分量和其混響分量。
通過將原始信號分解成直接聲音分量和混響分量,人們可以選^r通過多 聲道人造混響設(shè)備處理直接聲音分量來生成多聲道音頻信號。該方法將避免 添加額外混響的問題,因為信號的混響分量已被去除。該方法還將避免人造 混響與原始記錄中的混響不匹配的問題。
可替換的,通過將原始信號被分解成直接和混響分量,人們可以選擇通 過發(fā)送直接分量到前面的揚聲器來生成多聲道音頻信號。這將維持在再現(xiàn)的 聲場中的樂器的正面布置。原始信號的混響分量將^皮發(fā)送到后揚聲器,或者 它將被分解成子分量且以適當(dāng)?shù)姆绞椒植荚谒械膿P聲器上。該方法將具有 完全從原始記錄聲音的分量生成多聲道信號的顯著優(yōu)點,因而,生成更自然的聲音結(jié)果。當(dāng)前沒有可用方法能將信號分解成直接和混響分量使得以這種 方式產(chǎn)生多聲道信號。
一般而言,如果人們具有混響系統(tǒng)中的聲音的記錄,且人們可以某種方 式直接測量該混響系統(tǒng)的聲學(xué)特性,則,可以從數(shù)學(xué)上對混響系統(tǒng)求逆
(invert),且完全恢復(fù)原始干聲音。該處理已知為逆濾波(inverse filtering )。 然而,沒有精確測量混響系統(tǒng)的提取聲學(xué)特性,就不能完成逆濾波。而且, 所得的逆濾波器專用于一組聲學(xué)特性。不可能通過利用從不同混響系統(tǒng)測量 的聲學(xué)特性,使用逆濾波器從給定混響系統(tǒng)中的記錄聲音來恢復(fù)原始干信 號。例如,為房間中的一個位置得出的逆濾波器對于相同房間中的任意其他 位置是不適用的。使用逆濾波器的其他問題在于它們需要進行大量的計算, 且它們在所得信號上增加了顯著的延遲。在很多實時應(yīng)用中,這種延遲是不 能被接受的。因此,我們希望具有一種方法,在克服逆濾波器在大多數(shù)真實 世界應(yīng)用中不實際的限制的同時,獲得逆濾波器的益處。當(dāng)前沒有可用的方 法足以承擔(dān)該任務(wù)。
如上所述,在很多情況下,音頻信號中發(fā)現(xiàn)的混響不適于它的最終應(yīng)用。 因此,需要能夠修改音頻信號的直接聲音分量和/或混響聲音分量。而且,我 們希望能夠修改混響而不用直接測量它被記錄的聲學(xué)空間。這些問題至今還 沒有^f皮滿意地解決。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,本發(fā)明通過提供用于識別和變更音頻信號的混 響分量的方法和裝置來解決上述需求。
通過在其中記錄或捕獲信號的混響系統(tǒng)確定信號的混響分量?;祉懴到y(tǒng) 的特性完全由其(聲源和麥克風(fēng)之間的)脈沖響應(yīng)描述。通過計算其傅立葉 變換(或某些其他變換),脈沖響應(yīng)還可以在頻域中觀察。傅立葉表達提供 了幅度響應(yīng)和相位響應(yīng)。本發(fā)明依賴于將代表混響系統(tǒng)的脈沖響應(yīng)分割成 塊,其中每個塊代表脈沖響應(yīng)的一部分。本發(fā)明還依賴于通過每個塊的頻域 表達的幅度響應(yīng)估計,來估計脈沖響應(yīng)。因為人耳聽覺系統(tǒng)對短時間內(nèi)的相 位相對不每文感,基于幅度響應(yīng)的表達形成了真實脈沖響應(yīng)的感知適度估計。
根據(jù)本發(fā)明的一個方面,提出了一種方法,用于基于跟蹤時間和頻率上 的信號水平的變化,基于脈沖響應(yīng)的表達,得出幅度響應(yīng)的基于塊的估計。該方法從信號直接得出脈沖響應(yīng)的幅度響應(yīng)的基于塊的估計,而不需要直接 測量脈沖響應(yīng)。該方法依賴于這一事實,即,在任意給定時間點,信號中的 能量由當(dāng)前干信號中的能量加上所有先前信號的混響分量中的能量總和組 成。
本發(fā)明使用脈沖響應(yīng)的幅度響應(yīng)的基于塊的估計來識別和提取與信號 的混響分量相關(guān)的能量。
根據(jù)本發(fā)明的另 一方面,信號的混響分量的特性可以通過調(diào)節(jié)脈沖響應(yīng) 的幅度響應(yīng)的基于塊的估計來變更。
根據(jù)本發(fā)明的另 一方面,從第 一信號得出的源混響系統(tǒng)的混響特性可應(yīng) 用于第二信號。
本發(fā)明的各個方面允許信號的混響分量被變更,使得它更適于其所旨的 最終應(yīng)用。
所述方法和裝置還可以包括感知模型。感知模型的主要目的是減小源于 處理的任意人為的能聽度。這可以通過確定混響信號的哪些部分被混響信號 的其他部分屏蔽來完成。屏蔽是人耳聽覺系統(tǒng)中發(fā)生的現(xiàn)象,通過它,由于 其他信號的存在,使本來能聽見的聲音變得聽不見。通過在處理中包括感知 模型,僅混響信號的可聽部分被提取,因而減小了原始信號的頻率被修改的 數(shù)量。感知模型還提供了內(nèi)部參數(shù)隨時間和頻率的交互,以反應(yīng)人耳的屏蔽 特性。因此,源于修改這些頻率導(dǎo)致的人為影響得到減小。
所述方法和裝置還可以包括一個或多個源模型。 一個源模型的目的是提 供原始干聲源的聲學(xué)特性的模型。第二源模型的目的是提供混響系統(tǒng)的特性
的模型。通過知道原始干信號和混響系統(tǒng)的聲學(xué)特性,可以對輸入信號的哪 些部分源于干信號而哪些部分源于混響做出更好的判斷。例如,大多數(shù)混響 系統(tǒng)(房間)可以被很好地建模為隨時間指數(shù)衰減的系統(tǒng)。
圖1示出了具有聲源和接收麥克風(fēng)的混響室。
圖2示出了具有基于塊的分解的表達的脈沖響應(yīng)的分量。 圖3示出了信號處理器5的示意圖。 圖4示出了時域中的基于塊的巻積。 圖5示出了頻域中的基于塊的巻積。圖6示出了信號向干分量和混響分量的頻域的基于塊的分解。
圖7示出了分解處理器38的頻域的基于塊的巻積操作。 圖8示出了從立體聲輸入信號生成多聲道輸出信號的方法。
具體實施例方式
本發(fā)明提供一種改變信號的混響分量的方法。這一般通過首先獲得潛在
混響系統(tǒng)的脈沖響應(yīng)的頻域表達的感知(perc印tually )相關(guān)估計來完成。 通過使用脈沖響應(yīng)的這種估計,信號被處理,從而提取信號的混響分量,因 而獲得干信號的估計和混響信號的估計。如有需要,可以對干信號和混響信 號作進一步的處理。
聲學(xué)空間的脈沖響應(yīng)提供了對混響系統(tǒng)的完整描述。使用早先的音樂廳 中歌手的例子,混響系統(tǒng)(在這種情況,音樂廳)可以通過歌手和記錄麥克 風(fēng)之間的脈沖響應(yīng)來完整描述。應(yīng)當(dāng)意識到,各種聲學(xué)空間(例如,音樂廳 相對于浴室)的被感知的混響條件可能非常不同。這些差異通過各個空間的 脈沖響應(yīng)中的差異來描述。
通過參考圖1,能夠更好地理解混響系統(tǒng)的脈沖響應(yīng),圖l示出了混響 室2中的聲源s ^ 1與記錄麥克風(fēng)3。如果聲源由脈沖聲音組成,則記錄在 麥克風(fēng)上的將是聲源與麥克風(fēng)之間的混響系統(tǒng)的脈沖響應(yīng)。脈沖響應(yīng)包括直 接聲音分量4,它是到達麥克風(fēng)的第一聲音,因為它具有聲源與麥克風(fēng)之間 的最短距離。直接聲音分量之后,將是一系列反射的聲音(反射物),如圖 中的虛線所示。反射物的到達時間和幅度決定了混響系統(tǒng)的特性。直接聲音 分量之后到達的反射物構(gòu)成了混響分量。因此,混響系統(tǒng)的一個效果是向原 始干信號添加混響。即,混響向原始干信號添加了能量。從數(shù)學(xué)上,這可以 表示為/wW=s W+r"人其中rW是混響信號分量,源于信號sW經(jīng)過由 脈沖響應(yīng)力(7J描述的混響系統(tǒng)。
圖2給出了脈沖響應(yīng)的一個示例。第一垂直線代表直接聲音4,而剩余 的線代表反射物。每條線的高度表示它的幅度,時間軸上的位置表示它的到 達時間。隨著時間的流逝,反射物的數(shù)目增加到不再可能識別單個反射物的 程度。最后,反射發(fā)展為彌散指數(shù)衰減系統(tǒng)。這一般稱為脈沖響應(yīng)的混響拖
14尾(reverberant tail) 11。
所謂的早期反射聲音12在直接聲音分量之后很快到達,且具有與混響
拖尾不同的感知效果。這些早期反射聲音(early reflections)提供了關(guān)
于房間大小以及聲源與麥克風(fēng)之間的距離的感知線索。早期反射聲音十分重
要的原因還在于它們提供了聲音的改善的清晰度和可理解性?;祉懲衔惨蔡?供關(guān)于聲學(xué)空間的感知線索。 一般將聲學(xué)空間的脈沖響應(yīng)劃分成三個概念上
的部分-直接聲音4、早期反射聲音12和混響拖尾11。
注意聲學(xué)空間不具有單個脈沖響應(yīng)是十分重要的。使用圖1的示例,我 們看出,當(dāng)聲源l位于特定位置處且麥克風(fēng)3位于給定位置時,存在一種關(guān) 于房屋的脈沖響應(yīng)。如果聲源和麥克風(fēng)被移動(即使是少量移動),則我們 會具有不同的脈沖響應(yīng)。因此,對于任意給定房間,實際上存在無數(shù)個可能 的脈沖響應(yīng),因為實際上存在無限數(shù)目的位置1和3的可能的組合。
通過計算其傅立葉變換(或其他變換),還可以在頻域觀察脈沖響應(yīng), 且所以混響系統(tǒng)可以完全以頻域表達#^^描述。變量w表示頻率。脈沖響 應(yīng)的傅立葉表達式為我們提供了幅度響應(yīng)和相位響應(yīng)。 一般而言,幅度響應(yīng) 提供了關(guān)于脈沖響應(yīng)中的不同頻率分量的相對水平的信息,而相位信息提供 了關(guān)于頻率分量的時間方面的信息。將聲源1和麥克風(fēng)3從房間中的一個位 置移動到附近的位置,并不會對幅度響應(yīng)具有太多的影響,但它對相位響應(yīng) 具有明顯的影響。即,房間中的鄰近脈沖響應(yīng)具有類似的幅度響應(yīng),但是將
具有非常不同的相位響應(yīng)。
長久以來的經(jīng)驗告訴我們,我們對于給定房間內(nèi)的脈沖響應(yīng)中的差異并 不敏感。例如,當(dāng)我們在房間周圍移動的同時聽到某人談話時,即使在我們 移動時脈沖響應(yīng)連續(xù)發(fā)生變化,我們也不會聽出某人說話的聲音中的明顯改 變。我們聽不出明顯差異的原因在于,因為耳朵主要對脈沖響應(yīng)的總特征敏 感而對于具體細節(jié)不敏感。更具體而言,與脈沖響應(yīng)的幅度響應(yīng)中的變化相 比,耳朵對于相位響應(yīng)中的變化更不敏感。 一般地,耳朵對短時間段中的相 位十分不敏感(D. L. Wang and J. S. Lim, "The unimportance of phase in speech enhancement, ,, IEEE Trans. Acoust. Speech, Signal Processingvol. ASSP-30, no. 4, pp. 679-681, Aug. 1982 )。如上所述,房間中的各種 脈沖響應(yīng)將具有類似的幅度響應(yīng),但是具有十分不同的相位響應(yīng)。
本發(fā)明通過對輸入信號中的混響能量的幅度的估計產(chǎn)生頻域估計來操 作。將混響能量的幅度的這種估計從輸入信號中減去,由此提供對輸入信號 的幅度的估計。混響輸入信號的相位被用于約計原始干信號的相位。如果通 過使用整個脈沖響應(yīng)作為整體來完成該處理,則在處理過的信號中將聽得到 嚴重的時域失真。因此,在本發(fā)明中,整個脈沖響應(yīng)的估計被分成短的塊, 且處理以基于塊的方式執(zhí)行。塊的長度被選擇得足夠短,使得耳朵不能覺察 到由于處理過的輸出信號的相位中的誤差導(dǎo)致的任意時域失真。
一般地,在本發(fā)明中,信號處理器5對輸入信號歷"J 3進行操作,以 將它分解成其不同分量6。這些分量可以包括原始干信號l的估計?(f) 和混響分量r"J的估計 ^)。混響分量的估計F(f)還可以進一步分解成代表 混響信號的不同部分的估計5(0, F2(/), ......, 5(r)的子分量。 一般地,信號
處理器5還可以修改干信號分量估計和混響信號分量估計中的任意部分或全 部。本發(fā)明在頻域中對歷r"進行操作。通過對時間樣本的塊應(yīng)用重疊分析窗 口 21,輸入信號/ ^> 3被轉(zhuǎn)換成頻域表達。時域-頻域處理器22響應(yīng)于輸 入時間樣本產(chǎn)生輸入鐠。為了獲得時域-頻域的轉(zhuǎn)換,時域-頻域處理器可以 執(zhí)行離散傅立葉變換(DFT)、小波變換或其他變換,或可以被分析濾波器組 所代替或?qū)嵤榉治鰹V波組。在該實施例中,使用DFT。應(yīng)當(dāng)意識到,輸入 信號/^^不需要如圖1所示從麥克風(fēng)獲得。本發(fā)明可以對任意音頻信號進行 操作,而不管該信號怎樣產(chǎn)生。
脈沖響應(yīng)估算器24在輸入信號25的頻域表達上操作,以生成脈 沖響應(yīng)^^^的頻域表達的感知相關(guān)估計g(w)23。 一般地,脈沖響應(yīng)估算器 24對輸入信號進行操作以產(chǎn)生#^;,的基于塊的估計。脈沖響應(yīng)的基于塊的
估計包4舌多個塊的估計go), #20), ...... 16,它們對應(yīng)于如圖2
所示的脈沖響應(yīng)的塊/ 。W, 4(0, &(0,......15的頻域估計。
混響調(diào)節(jié)處理器26可操作以響應(yīng)于脈沖響應(yīng)的一個或多個頻域塊估計 16,調(diào)節(jié)輸入信號譜J/ro^的頻率分量,以產(chǎn)生包括輸入信號語#(^^的經(jīng)調(diào)節(jié)的頻率分量的一個或多個混響調(diào)節(jié)頻率譜27。 一般地,混響調(diào)節(jié)處理器
26得出一個或多個混響調(diào)節(jié)頻率譜27,這些譜27將基于輸入信號的某個分 量是原始干信號的部分還是混響信號的部分,而不予處理、放大或減弱輸入 信號的該分量。
信號調(diào)節(jié)器(signal modifier) 28可操作以修改和混合混響調(diào)節(jié)頻率 譜27以及輸入信號譜25的頻率分量,以產(chǎn)生一個或多個輸出頻譜Z,(w), Z2(>), ......, Z一) 29。
頻域-時域處理器30可操作,以響應(yīng)于輸出頻譜產(chǎn)生時間樣本的輸出幀 z,(/), ......, 32。頻域-時域處理器一般執(zhí)行時域-頻域處理器
22的反函數(shù)。因此,在優(yōu)選實施例中,每個頻域-時域處理器執(zhí)行反離散傅 立葉變換(IDFT)。
分解處理器33使用脈沖響應(yīng)#^^的頻域表達的基于塊的估計#0)23 且在輸入信號的頻域表達yfeYw"5上操作,以產(chǎn)生原始干信號的估計^(w)34 和一個或多個混響信號分量的估計gO),《(w), ......, 35。
干信號調(diào)節(jié)器36可操作以調(diào)節(jié)原始干信號的估計S(w)34的頻域分量, 以產(chǎn)生原始干信號的經(jīng)修改的估計S'(w)。混響信號調(diào)節(jié)器37可操作以獨立 地調(diào)節(jié)混響信號分量的一個或多個估計及(w),......, ^(w)的頻率分
量,以產(chǎn)生混響信號分量的經(jīng)修改的估計。
一般地,重組處理器38獲取原始干信號的經(jīng)修改的估計5'(w)和混響信
號分量的經(jīng)修改的估計《O),, ......, & (w),且產(chǎn)生 一 個或多個混響
調(diào)節(jié)頻譜27。
第二輸入信號40可以被提供給重組處理器,以向第二輸入信號 中添加混響。通過向時間樣本的塊應(yīng)用重疊分析窗口 41,輸入信號^(^40 被轉(zhuǎn)換成頻率表達。時域-頻域處理器42響應(yīng)輸入時間樣本而產(chǎn)生輸入譜。 添加的混響的特性由脈沖響應(yīng)23的基于塊的估計來確定。
通過在脈沖響應(yīng)估算器24中包括一個或多個源^^莫型43,可以改善本發(fā) 明的性能。源模型可用于說明混響系統(tǒng)的物理特性。例如,混響系統(tǒng)(房間) 的響應(yīng)傾向于隨時間指數(shù)衰減。通過脈沖響應(yīng)估算器24得出的基于塊的估計能夠被存儲44和檢索,以 用于以后的使用。脈沖響應(yīng)調(diào)節(jié)器45可操作以獨立地調(diào)節(jié)脈沖響應(yīng)的基于 塊的估計的頻率分量,以產(chǎn)生脈沖響應(yīng)的經(jīng)z畛改的基于塊的估計。
通過包括源模型46,可以改善分解處理器33的性能。源模型的一個目 標可以是在判定給定頻帶將怎樣衰減或放大時說明干聲源的物理特性。通過 包括感知模型47,也可以改善分解處理器33的性能。感知模型的一個目標 是限制頻帶被修改的量,使得在提取干信號時,不希望有的混響分量僅被抑 制到其被干信號屏蔽的程度。類似地,在提取混響信號時,不希望有的干信 號分量僅被抑制到被混響信號屏蔽的程度。實際上,感知模型和源模型的方 面可以組合起來。
通過包括源模型48可以改善重組處理器38的性能。源模型的一個目標 可以是當(dāng)判定給定頻帶將怎樣衰減或放大時計算干聲源的物理特性。以通過 包括感知模塊49也可以改善分解處理器38的性能。感知模塊的一個目標是 限制頻帶被修改的量,使得在混響調(diào)節(jié)譜時,不希望的干和混響分量僅被抑 制到它們被所需信號分量呢屏蔽的點。實際上,感知模型和源模型的方面可 以組合。
實際上,源才莫型46、 48和感知模型47、 49的方面可以組合且可以在分 解處理器33和重組處理器38之間共享。
本發(fā)明的各個部分的操作可通過控制器50來獨立地控制。
優(yōu)選實施例
下面描述用于將輸入信號分解成其原始干信號分量和混響分量的優(yōu)選 實施例?;祉懛至勘贿M一步分解成多個子分量。該優(yōu)選實施例將在很多應(yīng)用 中使用,包括改變語音或音樂信號以獲得所需的混響特性、增強語音信號的 可理解性,以及從單聲道、立體聲或多聲道輸入信號生成額外的音頻聲道。
該優(yōu)選實施例是針對輸入信號是單聲道的情況描述的。在描述該實施例 時,假設(shè)輸入信號3由干聲音源s W 1與混響信號分量r W組成,其 中r W是s&,經(jīng)過具有脈沖響應(yīng)力(^的混響系統(tǒng)的結(jié)果。應(yīng)當(dāng)理解,輸入信號3可以通過其他方法生成。
在22,輸入信號fflr"被轉(zhuǎn)換成頻域表達。在本實施例中,采用具有50% 的重疊的根漢寧窗口 ( root-Hanning window) 21的離散傅立葉變換(DFT) 的快速實施。本領(lǐng)域技術(shù)人員將意識到,可以采用其他頻域表達,包括但不 限于離散余弦變換或小波變換。備選地,可以采用濾波器組以提供頻域表達。 還應(yīng)當(dāng)理解其他窗口函數(shù)可以被采用,且重疊量不限于50%。應(yīng)當(dāng)意識到, 可以在時域-頻域轉(zhuǎn)換中使用時間樣本的零值填充(zero-padding ),以減小 處理可能導(dǎo)致的任意時間混淆失真。輸入信號的頻域表達是#(^^ 25。
脈沖響應(yīng)估算器24在輸入信號的頻域表達上操作,以產(chǎn)生脈沖響應(yīng)的 頻域表達的基于塊的估計百(w)23。如圖2所示,脈沖響應(yīng)A"J被劃分成由
,,......, 15組成的B+l個塊,其相應(yīng)的頻域表達為
&(必),......, 16。在本優(yōu)選實施例中,所有的塊具有相同的尺
寸,每個塊的長度為D。脈沖響應(yīng)估算器產(chǎn)生//。(《),......, /^(w)的
一組感知相關(guān)估計(perceptually relevant estimate )。在本實施例中, 這些感知相關(guān)估計#。0), ……,^sO)分別基于/Z。(w), AO),……,
的幅度4古計。
本領(lǐng)域技術(shù)人員將意識到,若濾波器具有足夠的長度,則脈沖響應(yīng)力W 可以合理地通過有限脈沖響應(yīng)(FIR)濾波器來近似。因此,信號/z 6^可以 通過具有脈沖響應(yīng)等于力f"的FIR濾波器處理干信號S^來獲得。可以使 用脈沖響應(yīng)的基于塊的表達15等價地實施這種濾波或巻積操作?;趬K的 實施在圖4中示出。
通過脈沖響應(yīng)等于&(0,......, &(0的B+l個FIR濾波器處理信號
s G人為了時間對準這些FIR濾波器的輸出,信號s Gj被一系列的延遲元件
D) 17來延遲。每個延遲元件提供對D個樣本的延遲,這對應(yīng)于塊FIR 濾波器的長度。每個延遲元件可以實施為長度D的FIR濾波器,這種濾波器 中只有最后的濾波器抽頭不等于零且最后的濾波器抽頭等于1?;趬K的FIR 濾波操作可以在數(shù)學(xué)上描述如下
附(O , s(O * + s(O * 3(r — i>) * A, (f) + ", + 5(f) *《/ — JSD) * )或等效地
其中*代表巻積操作。
如圖4所示,該數(shù)學(xué)描述可以擴展,以明確示出直接信號分量和混響分 量,如下
m(,) = 4'(,),) + r(0
r紐l
其中
包括直接信號分量,且
是混響信號分量7。實際上,因為/z。(,)的長度為D,我們期望混響信號 的最初部分的一部分在s W^。W中。如果D選擇得足夠短,這一般不是問 題。如果D足夠短,則由于人類聽覺系統(tǒng)的掩蔽屬性,s"戶力。W內(nèi)的混響 信號的部分將不被聽見。因此,可以說,s W"。W是直接信號分量的感知 相關(guān)表達,而iY^是混響信號分量的感知相關(guān)表達。
本領(lǐng)域技術(shù)人員將意識到,在時域的巻積等價于頻域中的乘積。因此, 圖4中示出的基于塊的FIR濾波處理可以備選地如圖5所示在頻域執(zhí)行。圖
4中的B+l個FIR濾波器A。(f), W0,......, ^(0現(xiàn)在被它們的頻域等價物
//,(w), ......, //Jw)代替。延遲元件現(xiàn)在由Z—D 18表示,其中D代表
延遲長度。頻域處理因此可以給出為
或等價地
20A剩- £ S((y)z.Kw)
如圖5所示,該數(shù)學(xué)描述可以擴展,以明確示出直接信號分量和混響分 量,如下
及
M(甸=S(w)//J份)+ 2^T(a>),"/^ (0)
其中
是包含直接信號分量的頻域表達,且
》
是混響信號分量19的頻域表達。
本領(lǐng)域技術(shù)人員將意識到,F(xiàn)IR濾波器的效果可以用適當(dāng)?shù)臒o限脈沖響 應(yīng)(IIR)濾波器來取消。因此,如果精確地知道B+l個FIR濾波器
A。(0,/^), ......, 、W,則可以使用合適的HR濾波器結(jié)構(gòu)來從mW恢復(fù)原
始干信號s "人如果已知FIR濾波器的頻域表達/Z。(w), ......, //s(w),
也可以恢復(fù)原始干信號。本發(fā)明利用了這種概念。
在很多情形中,不可能測量或得出/f。(w),......, /^(w)的精確值,
且因而不可能精確地從/T7^恢復(fù)s W。在本發(fā)明中,//。 "s(w)的感知相關(guān)估計用于得出5Yo^的估計。這些感知相關(guān)估計A。(w), g (w), ......, #s(w)分別基于/f。(《) , //' ("),......, (w)的幅度的估計。
脈沖響應(yīng)的頻域表達的基于塊的估計#( )23被提供到分解處理器33。 分解處理器在輸入信號的頻域表達#(^; "5上操作,以生成直接信號分量 34的估計和混響分量35的估計。在優(yōu)選實施例中,分解處理器如圖6所示 那樣操作。從圖中可以看出,分解處理器使用感知相關(guān)濾波器估計g。(w),, ......, #B(W),來生成基于塊的IIR濾波器結(jié)構(gòu)。IIR濾波器結(jié)構(gòu)使
用#(^)作為其輸入,且產(chǎn)生直接信號分量的譜的估計5(w)34和混響信號成 分的譜的估計》(w) 35。處理可以數(shù)學(xué)地描述如下
二 A剩(必)+…+ S(傷K船/^
為更好地理解該#:作,考慮對于輸入信號#,^^的給定塊的處理是有用 的。#。^^包括當(dāng)前干信號塊與的巻積,加上先前干信號塊與巧(w) 的巻積,以及對先前的B個干信號塊做類似操作的結(jié)果。我們現(xiàn)在使用下標 表示干信號的塊,這樣&(w)代表干信號分量的先前第i個塊的頻域表達。倘 若如此,分解處理器的操作可以從數(shù)學(xué)上如下描述
綱-^」
其中S(w)是S,(w)的真實值的估計。在優(yōu)選實施例中,A。(w)被假設(shè)等于 1,因而,得出
因此,在本發(fā)明的優(yōu)選實施例中,干信號分量34的當(dāng)前塊的估計從干 信號的先前塊的仕補"刃汲^多-繞"k沖^應(yīng)的基于塊的估計獲得。應(yīng)當(dāng)注 意,上面等式的(《("風(fēng)(刮+"' + 1^^ )是對混響信號分量35的估計。
即,
22在該優(yōu)選實施例中,全部的混響信號分量被劃分成f個混響子分量
4u'(齒),如下
<formula>formula see original document page 23</formula>
其中il((y) 1H)"'.,B and ^1,'"幻是與頻率相關(guān)的增益向量,其允許全部
混響信號分量被選擇性地在時間和頻率上進行分割。這使得人們可以選擇性 地提取由干聲音與脈沖響應(yīng)特定部分巻積得出的混響信號的恰當(dāng)部分。例 如,由于早期反射聲音12產(chǎn)生的混響信號分量可獨立于混響拖尾11導(dǎo)致的 混響信號分量來提取。類似地,早期響應(yīng)和/或混響拖尾的不同部分可以分 別提取。而且,U的的值可以被選擇,以選擇性地分離混響信號的不同分 量的4氐頻和高頻。
在優(yōu)選實施例中,基于塊的脈沖響應(yīng)通過5+l個塊的頻域表達的幅度來 估計。因此,上述等式可以修改為
響應(yīng),
作:<formula>formula see original document page 23</formula>
輸入信號#。a^的相位被用作以及'A"(極)的相位 在該優(yōu)選實施例中,分解處理器通過對輸入信號應(yīng)用不同增益向量操
<formula>formula see original document page 23</formula>用于干信號分量的增益向量通過下式得出:
;i4(w)f -21 A樹2+".+H(" #一)
.ji/f',!(j—ffi^(/y); Gs (浴)< /V//wC d"(dO
,);
頻率相關(guān)參數(shù)A,""G"'H一防止G.、.(勁)落到某些期望值以下。 在該優(yōu)選實施例中,增益向量是實值向量,因而它僅影響私(^^的幅度。
因此,&(?!肪哂泻?^0^相同的相位響應(yīng)。以類似的方式找到用于混響信號
分量的增益向量。
通過采用感知模型47和源模型46進一步改善增益向量 g(一'(^,)'…'、(一的值。感知模型計算人耳聽覺系統(tǒng)的屏蔽屬性,而源
模型計算聲源的物理特性。在本實施例中,兩個模型被組合且提供在時間和 頻率上對增益向量G",)'C^(6))'…'G^ W)的平滑。時間上的平滑按以下這樣
獲得
<formula>formula see original document page 24</formula>其中r表示處理的當(dāng)前時間幀。7一)為每個頻帶確定隨時間應(yīng)用于增益 向量Gs(一'&,》'…'(^(刮的平滑量。應(yīng)當(dāng)意識到,K必)的不同值可用于每
個增益向量。還應(yīng)當(dāng)意識到,K恣)的值可以隨頻率變化。K恣)的值還可以隨 時間變化,且它們依賴于輸入信號,或依賴于增益向量的值。
人耳聽覺系統(tǒng)的同步屏蔽屬性可以看成是在頻率上平滑和擴展能量的
一種形式。在本實施例中,同步屏蔽可以如下計算
變量5戸'""/(一和孕,^(勸確定了頻率上的同步屏蔽量。在本實施例中, ,她//(但)和艱卿載衂被設(shè)計成能考慮到這一事實,即,聽覺濾波器的帶寬隨
著頻率增加而增加,且因此在較高的頻率處施加更大的擴展。
通過添加估計的屏蔽的影響,來改善增益向量。頻率相關(guān)參數(shù)Mw)確 定屏蔽估計被添加到先前計算的增益向量值的水平
= G;,.r(w) (必) G;—r= G( f (&0 + 〃(&0' .W"oyfo'"g/'2 (想)
該步驟可能導(dǎo)致增益向量值超過1. 0。盡管其他限制也是可行的,在本實施例中,最大增益值限制為l. 0:
JLO; 1.0
對其余的增益向量執(zhí)行類似的操作。這些最終的增益向量被應(yīng)用于輸入 信號J/(^人以產(chǎn)生干信號分量34和混響信號分量35。如有需要,干信號 分量34可以通過干信號調(diào)節(jié)器36修改。在本實施例中,修改可以包括但不 限于水平調(diào)節(jié)、頻率濾波以及動態(tài)范圍處理?;祉懶盘柗至?5通過混響信 號調(diào)節(jié)器37來操作,其中在本實施例中,修改可以包括但不限于水平調(diào)節(jié)、 頻率濾波以及動態(tài)范圍處理。
》0)-她卿[S(0)— 《(咖淑雖(極)J
及;0)-M,[i 3(w)i
《 腺砂0)]
重組處理器38組合修改過的干聲音估計f(w)以及混響信號子分量的修
改過的估計《(w) 《(w).....A("),以產(chǎn)生一個或多個混響調(diào)節(jié)頻-潛27。
重組處理器執(zhí)行的另一操作是向信號60應(yīng)用基于塊的脈沖響應(yīng),以產(chǎn) 生如圖7所示的輸出信號r(級)61?;趬K的脈沖響應(yīng)可以包括通過脈沖響 應(yīng)估算器24得出的原始h(w)r,或修改的形式k《(wf 62。該處理的輸入信 號可以包括i'(")、《("),i ;0y),…'/^(")中的一個或多個,或輔助輸 入信號&(")。
1《^4的不同形式可用于不同的輸入信號。該基于塊的巻積
處理的輸出信號提供了附加的混響調(diào)節(jié)頻語27。重組處理器38包括源模型 和感知模型。在本實施例中,源模型48和感知模型49與分解處理器23的 源模型46和感知模型47相組合。
26未處理的輸入信號M(ffJ)25和混響調(diào)節(jié)頻譜27被提供到信號調(diào)節(jié)器28。 信號調(diào)節(jié)器產(chǎn)生最終的Z個輸出頻譜Z,(w), Z2(w), ......, Z一),它們被轉(zhuǎn)換
到時域以獲得所需的輸出信號z,W,......, 32。在本實施例中,頻
域-時域轉(zhuǎn)換器30由反向離散傅立葉變換(IDFT)的快速實施以及其后的根 漢寧窗口 31組成。
對于將本發(fā)明用于生成單聲道輸出信號(即,Z=l)的應(yīng)用情況,信號
調(diào)節(jié)器28對混響調(diào)節(jié)頻譜27進行操作以將它們組合起來,從而生成具有修 改過的混響特性的輸入信號的修改形式。
對于將本發(fā)明用于從單聲道輸入信號產(chǎn)生額外音頻聲道的應(yīng)用情況,信 號調(diào)節(jié)器28的操作包括對混響調(diào)節(jié)頻譜27進行操作以組合它們,從而生成 兩個或更多的獨特的輸出頻譜Z,(w), Z2( ),……,Z一)。
在某些應(yīng)用中,不需要信號調(diào)節(jié)器28修改未經(jīng)處理的信號25或 經(jīng)混響調(diào)節(jié)的頻i普27,且所以信號調(diào)節(jié)器可以簡單地使這些信號通過,從而 產(chǎn)生最終的輸出頻譜Z,(w), Z2( ),……,Z一)。
優(yōu)選實施例中的先前的步驟需要混響系統(tǒng)的脈沖響應(yīng)的合適的基于塊 的估計。脈沖響應(yīng)估算器24在輸入信號A'/(的25的頻域表達上操作,以生成 脈沖響應(yīng)的基于塊的估計A。(w), Ao),……,#sO)。
兩個因素組合起來確定混響輸入信號M(一25在給定頻率處衰減(或增 長)速度。第一因素是干聲源的衰減(或增長)的速度,第二因素是 混響系統(tǒng)的衰減速度。盡管在給定頻率混響系統(tǒng)(例如音樂廳)的衰減速度 在時間上相對恒定,但干聲源的衰減速度連續(xù)地變化。使用早先的歌手的示 例,在給定頻率,歌手聲音的水平隨時間連續(xù)地上升和下降。因此,在給定 頻率,輸入信號^(w)25的最快衰減速度發(fā)生在干聲源s(t)l停止時,且信 號中的衰減完全由于混響系統(tǒng)的衰減。
如果人們考慮給定頻率,則可以看出估計( )|2的最佳機會是干聲源 在該頻率停止的時刻。此時刻之后的是信號的混響分量r&人且混響 系統(tǒng)的衰減可以被觀察到。倘若如此,可以通過觀察當(dāng)前塊lAf。(w)「的幅度與 先前塊|風(fēng) |2的幅度的比率且估計該比率的最小值來獲得估計#,( )2 。<
/^(G))j n傷as,(0)+jr ; otherwise
其中歷化(6))是大于1.0的某個值,且5是某一較小值。頻率相關(guān)參數(shù)
防止|C,0)|2在不正確的最小值被捕獲,而e防止|c,.( )|2在零值被捕 獲。上述比率的最小值對應(yīng)于該頻率的信號的最快衰減速度,且因此對應(yīng)于 該頻率的l仏(O))f的估計。為所有的塊〃=人...,W在每個頻率co執(zhí)行該處理。 在本實施例中,源模型如下實施
/ = 1,…,S
JC;(級)「; otherwise
參數(shù)」w^^/;(的防止ic,(w)i2和|#,(^2超出預(yù)期在真實聲學(xué)空間中不 會出現(xiàn)的某一值。M^'W^(叫可以隨時間和塊變化。時間平滑^搡作;故應(yīng)用 以提供對|思》|2的更穩(wěn)定的估計
/ ,r (?!?(《+ (,《,(,,)f
其中T表示處理的當(dāng)前時間幀,《^是控制時間平滑量的頻率相關(guān)參
數(shù)。"'》還可以隨時間和塊變化,且其值可以依賴于輸入信號的當(dāng)前塊以及
輸入信號的先前的塊。
在本實施例中,|思(《)|2在頻率上的平滑被實施為源模型的一部分。平滑 量通過剤W)的值確定。/ X&)可以隨頻率和塊變化。
:胸
1-
2
I、
采用基于塊的脈沖響應(yīng)的最終估計'[w"."到來得出用于得出干 聲音的估計以及混響分量的估計的增益向量。已經(jīng)描述了關(guān)于輸入信號是單聲道的情況的優(yōu)選實施例。應(yīng)當(dāng)意識到, 本發(fā)明可以直接擴展成對立體聲和多聲道輸入信號進行操作。當(dāng)輸入信號具 有多于一個的聲道時,應(yīng)當(dāng)理解本發(fā)明可以獨立地在每個聲道上操作,或者 聲道上的操作可以相組合,關(guān)于給定聲道的信息可以用于其他聲道的處理。
脈沖響應(yīng)的Al個塊15、 16不需要具有相等的尺寸。例如,可能希望 使用較短的塊來代表脈沖響應(yīng)的初始部分,以獲得脈沖響應(yīng)的早期反射部分 12的較好的時間分辨率。
脈沖響應(yīng)的Al個塊15可以重疊,或者它們可以如圖2所示沒有任何
重疊。在塊重疊的情況下,窗口函數(shù)可用于提供從塊到塊的平滑過渡。在優(yōu)
選實施例中,塊具有50%的重疊。
在優(yōu)選實施例中,在處理中使用信號和脈沖響應(yīng)的頻域表達的幅度平方 口2。應(yīng)當(dāng)意識到可以使用幅度的其他次冪l「f 。
對于混響被添加到第二輸入信號40的應(yīng)用情況中,重組處理器可 包括如圖7所示的基于塊的頻域FIR濾波器結(jié)構(gòu)。該濾波器由脈沖響應(yīng)塊的 幅度的修改的估計《(份)'"^(w)'…'》"w)組成。在優(yōu)選實施例中,重組處理 器通過向輸入信號應(yīng)用增益向量完成這點。
在優(yōu)選實施例中,分解處理器33和重組處理器"彼此獨立地操作。應(yīng) 當(dāng)意識到,在某些實施例中,兩個處理器的各方面可以組合。
本發(fā)明一般可用于基于輸入信號^Tco"5生成附加音頻聲道。即,本發(fā) 明可用于從具有U個聲道的輸入信號#fo"5生成V個輸出聲道,其中V〉U。 其示例包括從單聲道信號生成立體聲或多聲道信號;從立體聲輸入信號生成 多聲道信號;以及從多聲道輸入信號生成額外的聲道。 一般地,這通過提取 信號的混響分量和將信號的混響分量分解為不同的子分量 《(一,0),,,. ) 35,且分布它們到不同的輸出聲道實現(xiàn)。混響信號的給
定子分量可以被分配給多于一個的輸出聲道。生成的聲道還可以包括干信號 分量的估計34和輸入信號A"一25。
在優(yōu)選實施例中,分解處理器33采用了脈沖響應(yīng)的基于塊的估計 /"^(fi'),/^0y),…,Aa(w)對輸入信號M(的25進行操作,以得出一組合適的感
29知混響子分量。重組處理器38對干信號的估計5'(ty)34和混響子分量35進 行操作,以得出一組經(jīng)混響調(diào)節(jié)的頻譜27。在某些情況下,信號調(diào)節(jié)器28 可以將經(jīng)混響調(diào)節(jié)的頻譜直接分配到最終的V個輸出頻譜 2,一),Z,),…,;..(")29。最終的輸出頻譜被轉(zhuǎn)換到時域30,且被劃分窗口 31, 以提供由^)'A(0'…'^(')32組成的多聲道音頻信號。
在其他情況下,信號調(diào)節(jié)器28可以選擇性地組合兩個或更多的經(jīng)混響 調(diào)節(jié)的頻譜27,以生成V輸出頻譜。信號調(diào)節(jié)器還可以在V輸出頻譜其中的 一個或多個中包括未經(jīng)處理的輸入信號M(創(chuàng))25。
作為示例,參考圖8考慮從立體聲輸入信號(U = 2)生成5聲道(V=5) 輸出信號的方A *愉入信號'("一 70被分解成其直接信號分量4力(")和 混響信號分量《,(一。*去A直接信號分量4^(w4皮發(fā)送到左輸出聲道72, 而左聲道混響信號分量^w^ 皮發(fā)送到左環(huán)繞輸出聲道75。類似地,右輸 入信號71被分解,且右聲道直接信號分量^一(")被發(fā)送到右輸出
聲道73,而右聲道混響信號公普^w,'(似)^右"至il六汰錄.輸A毐i曾74。中間 的輸出聲道74由某種混合&^^)+^,—) + ^'¥ + &4—問'構(gòu)成,其
中A、 ^、 &和^確定分量混合在一起的相對水平。應(yīng)當(dāng)意識到,該示例僅 是虛擬不受限方法之一,通過該方法,本發(fā)明可以分解輸入信號以生成額外 的音頻聲道。
本發(fā)明的其他實施例
1. 一種方法,通過使用脈沖響應(yīng)的頻域表達的基于塊的估計分解信號, 將混響信號分解成直接聲音分量和/或一個或多個混響分量。
1.1、 根據(jù)權(quán)利要求1所述的方法,其中僅基于所述脈沖響應(yīng)的頻 域表達的描述的幅度表達,將所述信號分解成直接聲音分量和/或一個 或多個混響分量。
1.2、 根據(jù)權(quán)利要求1所述的方法,其中使用變換表達,將所述信 號分解成直接聲音分量和/或一個或多個混響分量。
1.3、 根據(jù)權(quán)利要求1所述的方法,其中使用濾波器組表達,將所
30述信號分解成直接聲音分量和/或一個或多個混響分量。
1.4、根據(jù)權(quán)利要求1所述的方法,其中所述信號被分解成直接聲 音分量和/或一個或多個混響分量,且僅僅所述直接聲音分量被輸出。
1. 5 、根據(jù)權(quán)利要求1所述的方法,其中所述信號被分解成直接聲 音分量和/或一個或多個混響分量,且僅輸出混響分量中的一個或多個。 2. —種方法,通過首先使用根據(jù)權(quán)利要求1所述的方法分解混響信號
并在重組所述直接聲音分量和/或一個或多個混響分量之前修改它們,來生 成輸出信號。
2.1、 根據(jù)權(quán)利要求2所述的方法,其中所述處理用于減小電話或 電信會議裝置中的混響。
2.2、 根據(jù)權(quán)利要求2所述的方法,其中所述處理用于增強混響語
音信號的可理解性。
2.3 、根據(jù)權(quán)利要求2所述的方法,其中所述處理用于減小混響,
以增大語音識別系統(tǒng)的識別率。
2.4、 根據(jù)權(quán)利要求2所述的方法,其中所述處理用于通過減小由 于》文大的信號導(dǎo)致的混響來減小7>共廣播系統(tǒng)(public address system)中的聲學(xué)反4責(zé)。
2.5、 根據(jù)權(quán)利要求2所述的方法,其中所述處理用于增強聽力輔 助設(shè)備中的混響語音信號的可理解性。
2. 6 、根據(jù)權(quán)利要求2所述的方法,其中僅所述直接聲音分量被提 耳又和j奮改。
2.7、 根據(jù)權(quán)利要求2所述的方法,其中在將所述直接聲音分量與 一個或多個所述混響分量重組之前,修改所述直接聲音分量。
2. 7. 1、根據(jù)權(quán)利要求2. 7所述的方法,其中所述修改包括 對所述直接聲音分量應(yīng)用減噪(noise reduction)。
2. 7. 2、根據(jù)權(quán)利要求2. 7所述的方法,其中所述修改包括 向所述直接聲音分量添加音頻水印。
2.8、 根據(jù)權(quán)利要求2所述的方法,其中在將所述混響分量與所述直接聲音分量重組之前,修改所述混響分量。
2. 9 、根據(jù)權(quán)利要求2所述的方法,其中在將所述混響分量中的一 個或多個與直接聲音分量組合之前,修改這些分量。
2. 10、根據(jù)權(quán)利要求2所述的方法,其中在組合所述直接聲音和混 響分量之前,修改所述直接聲音與混響聲音的比率。
2. 11、根據(jù)權(quán)利要求2所述的方法,其中在與所述直接聲音分量重 組之前,僅修改某些混響分量。
3. —種方法,使用脈沖響應(yīng)的頻域表達的基于塊的估計,生成由直接 聲音分量和./或 一個或多個混響分量組成的輸出信號。
3.1、 根據(jù)權(quán)利要求3所述的方法,其中所述輸出信號僅基于所述 脈沖響應(yīng)的頻域表達的幅度表達生成。
3.2、 根據(jù)權(quán)利要求3所述的方法,其中使用所述脈沖響應(yīng)的變換 表達來生成所述輸出信號。
3. 3、根據(jù)權(quán)利要求3所述的方法,其中使用所述脈沖響應(yīng)的濾波 器組表達來生成所述輸出信號。
3.4、 根據(jù)權(quán)利要求3所述的方法,其中所述脈沖響應(yīng)的頻域表達 被修改,以生成多個混響輸出信號。
3.4.1、 根據(jù)權(quán)利要求3. 4所述的方法,其中所述多個混
響輸出信號用于從單聲道信號生成立體聲信號。
3.4.2、 根據(jù)權(quán)利要求3. 4所述的方法,其中所述多個混
響輸出信號被用在多聲道環(huán)繞聲音系統(tǒng)中。
3.4.3、 根據(jù)權(quán)利要求3. 4所述的方法,其中所述多個混 響輸出信號被用在三維耳機系統(tǒng)中。
3.5、 根據(jù)權(quán)利要求3所述的方法,其中通過向第二信號的直接聲 音分量應(yīng)用從第一信號得出的脈沖響應(yīng)的頻域表達,來生成所述輸出信 號。
3. 5. 1、根據(jù)權(quán)利要求3. 5所述的方法,其中使用根據(jù)權(quán)利 要求1所述的方法來得出所述第二信號的所述直接聲音分量。
324. 一種通過以下步驟從混響信號提取混響系統(tǒng)的描述的方法
-將基本混響系統(tǒng)的總脈沖響應(yīng)分解成一系列代表脈沖響應(yīng)部分的塊「 -通過比較當(dāng)前幀與先前幀中的信號的頻域表達,來提取關(guān)于每個塊的
脈沖響應(yīng)的頻域表達的估計;
4.1、 根據(jù)權(quán)利要求4所述的方法,其中所述頻域表達的比較基于 對所述信號的頻率分量的變化率的跟蹤。
4. 1. 1、根據(jù)權(quán)利要求4. 1所述的方法,其中最大變化率被 使用。
4, 1. 1. 1、根據(jù)權(quán)利要求4. 1. 1所述的方法,其中用 于塊;'的所述頻域表達/Z,(w)基于min{ M。(的/M,(必)》。 4. 1. 2、根據(jù)權(quán)利要求4. 1所述的方法,其中所述變化率被 平滑。
4.2、 根據(jù)權(quán)利要求4所述的方法,其中通過物理模型限制關(guān)于每 個塊的脈沖響應(yīng)的頻域表達。
4. 2. 1、根據(jù)權(quán)利要求4. 2所述的方法,其中所述混響系統(tǒng) 的物理模型假設(shè)給定時間之后的指數(shù)衰減。
4.3、 根據(jù)權(quán)利要求4所述的方法,其中使用感知模型得出關(guān)于每 個塊的脈沖響應(yīng)的頻域表達。
4. 3. 1、根據(jù)權(quán)利要求4. 3所述的方法,其中所述感知模型 計算耳朵的與頻率相關(guān)的靈敏度。
4.4、 根據(jù)權(quán)利要求4所述的方法,其中不必直接測量真實聲學(xué)空 間的脈沖響應(yīng),就能捕獲所述真實聲學(xué)空間的感知相關(guān)混響特性。
5. —種方法,通過根據(jù)權(quán)利要求1所述的方法分解信號且修改直接聲 音分量和/或脈沖響應(yīng)的頻域表達的基于塊的估計,根據(jù)權(quán)利要求3所述的 方法生成輸出信號。
5. 1、根據(jù)權(quán)利要求5所述的方法,其中在生成所述輸出信號之前, 僅所述直接聲音分量被修改。
5. 1. 1、根據(jù)權(quán)利要求5. 1所述的方法,其中所述修改包括對所述直接聲學(xué)分量進行減噪。
5. 1. 2、根據(jù)權(quán)利要求5. 1所述的方法,其中所述修改包括
向所述直接聲音分量添加音頻水印。
5. 1. 3、根據(jù)權(quán)利要求5. 1所述的方法,其中所述修改包括 所述直接聲音分量的音頻數(shù)據(jù)縮減編碼和解碼。
5. 1. 3. 1、根據(jù)權(quán)利要求5. 1. 3所述的方法,其中所 述分解和壓縮編碼由 一個設(shè)備執(zhí)行,且所述壓縮解碼和輸 出信號生成由另 一設(shè)備執(zhí)行。
5. 1. 3. 2、根據(jù)權(quán)利要求5. 1. 3所述的方法,其中所 述脈沖響應(yīng)的頻域表達的基于塊的估計;故包括在所述經(jīng)
壓縮的音頻位流中。 5. 2、根據(jù)權(quán)利要求5所述的方法,其中根據(jù)權(quán)利要求4所述的方法, 得出脈沖響應(yīng)的頻域表達的基于塊的估計。
3權(quán)利要求
1. 一種估計混響系統(tǒng)的脈沖響應(yīng)的方法,包括以下步驟將來自混響系統(tǒng)的信號抽樣為塊的序列,其中該混響系統(tǒng)具有脈沖響應(yīng);對于所述序列的每個塊,確定與先前塊的幅度相關(guān)的幅度;通過使用確定出的幅度作為用于有限脈沖響應(yīng)濾波器的參數(shù),形成所述脈沖響應(yīng)的估計。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述抽樣步驟是基于時域的。
3. 根據(jù)權(quán)利要求1所述的方法,其中所述抽樣步驟是基于頻域的。
4. 根據(jù)權(quán)利要求1所述的方法,其中所述抽樣步驟提供相等的塊。
5. 根據(jù)權(quán)利要求4所述的方法,其中所述塊是交迭的。
6. 根據(jù)權(quán)利要求1所述的方法,其中所述抽樣步驟使用窗口。
7. 根據(jù)權(quán)利要求1所述的方法,其中所述確定步驟包括求出當(dāng)前幅度 的平方與先前幅度的平方的比。
8. 根據(jù)權(quán)利要求1所述的方法,其中所述確定步驟包括求出當(dāng)前幅度的 q次冪與先前幅度的q次冪的比,其中q是正數(shù)。
9. 根據(jù)權(quán)利要求1所述的方法,其中所迷抽樣步驟使用濾波器組。
10. 才艮據(jù)權(quán)利要求1所述的方法,其中所述形成估計的步驟包括平滑步驟。
11. 一種分解來自混響系統(tǒng)的信號的方法,包括以下步驟將來自混響系統(tǒng)的信號抽樣為塊的序列,其中該混響系統(tǒng)具有脈沖響應(yīng);對于所述序列的每個塊,確定與先前塊的幅度相關(guān)的幅度; 通過使用確定出的幅度作為用于有限脈沖響應(yīng)濾波器的參數(shù),形成所述 月永沖響應(yīng)的估計;對所述信號應(yīng)用估計的脈沖響應(yīng)的求逆,以得出直接信號分量和混響信 號分量其中至少之一。
12. 根據(jù)權(quán)利要求11所述的方法,其中所述抽樣步驟是基于時域的。
13. 根據(jù)權(quán)利要求11所述的方法,其中所述抽樣步驟是基于頻域的。
14. 根據(jù)權(quán)利要求11所述的方法,其中所述抽樣步驟提供相等的塊。
15. 根據(jù)權(quán)利要求14所述的方法,其中所述塊是交迭的。
16. 根據(jù)權(quán)利要求11所述的方法,其中所述抽樣步驟使用窗口。
17. 根據(jù)權(quán)利要求11所述的方法,其中所述確定步驟包括求出當(dāng)前幅 度的平方與先前幅度的平方的比。
18. 根據(jù)權(quán)利要求11所述的方法,其中所述確定步驟包括求出當(dāng)前幅 度的q次冪與先前幅度的q次冪的比,其中q是正數(shù)。
19. 根據(jù)權(quán)利要求11所述的方法,其中所述抽樣步驟使用濾波器組。
20. 根據(jù)權(quán)利要求11所述的方法,其中所述形成估計的步驟包括平滑步驟。
21. 根據(jù)權(quán)利要求11所述的方法,還包括修改直接信號分量和混響信 號分量其中至少之一的步驟。
22. 根據(jù)權(quán)利要求21所述的方法,還包括重組所述修改的直接信號分 量和混響信號分量、修改的直接信號分量和修改的混響信號分量、以及直接 信號分量和修改的混響信號分量其中至少之一的步驟。
23. 根據(jù)權(quán)利要求1所述的方法,還包括向第二信號應(yīng)用有限響應(yīng)濾 波器以產(chǎn)生人造混響信號的步驟。
24. —種分解來自混響系統(tǒng)的信號的方法,包括以下步驟將來自混響系統(tǒng)的信號抽樣為塊的序列,其中該混響系統(tǒng)具有脈沖響應(yīng);對于所述序列的每個塊,確定與先前塊的幅度相關(guān)的幅度; 通過使用確定出的幅度作為用于有限脈沖響應(yīng)濾波器的參數(shù),形成所述 月永沖響應(yīng)的估計;對所述信號應(yīng)用估計的脈沖響應(yīng)的求逆,以得出直接信號分量; 修改所述有限響應(yīng)濾波器和所述直接信號分量其中至少之一;以及 重組/人其修改后的混響信號。
25. 根據(jù)權(quán)利要求24所述的方法,其中所述抽樣步驟是基于時域的。
26. 根據(jù)權(quán)利要求24所述的方法,其中所述抽樣步驟是基于頻域的。
27. 根據(jù)權(quán)利要求24所述的方法,其中所述抽樣步驟提供相等的塊。
28. 根據(jù)權(quán)利要求27所述的方法,其中所述塊是交迭的。
29. 根據(jù)權(quán)利要求24所述的方法,其中所述抽樣步驟使用窗口。
30. 根據(jù)權(quán)利要求24所述的方法,其中所述確定步驟包括求出當(dāng)前幅 度的平方與先前幅度的平方的比。
31. 根據(jù)權(quán)利要求24所述的方法,其中所述確定步驟包括求出當(dāng)前幅 度的q次冪與先前幅度的q次冪的比,其中q是正數(shù)。
32. 根據(jù)權(quán)利要求24所述的方法,其中所述抽樣步驟使用濾波器組。
33. 根據(jù)權(quán)利要求24所述的方法,其中所述形成估計的步驟包括平滑 步驟。
34. —種使用來自混響系統(tǒng)的具有較少聲道的信號生成多聲道信號的 方法,包括以下步驟將來自混響系統(tǒng)的信號抽樣為塊的序列,其中該混響系統(tǒng)具有脈沖響應(yīng);對于所述序列的每個塊,確定與先前塊的幅度相關(guān)的幅度; 通過使用確定出的幅度作為用于有限脈沖響應(yīng)濾波器的參數(shù),形成所述 月永沖響應(yīng)的估計;對所述信號應(yīng)用估計的脈沖響應(yīng)的求逆,以得出直接信號分量和混響信 號分量其中至少之一;重組所述直接信號分量和所述混響信號分量,以生成多聲道信號。
35. 根據(jù)權(quán)利要求34所述的方法,其中所述具有較少聲道的信號是單聲道信號,且所述多聲道信號是立體聲信號。
36.根據(jù)權(quán)利要求34所述的方法,其中所述具有較少聲道的信號是立 體聲信號,且所述多聲道信號是環(huán)繞聲信號。
全文摘要
提供了用于提取和改變輸入信號的混響內(nèi)容的方法和裝置。估計混響系統(tǒng)的脈沖響應(yīng)的方法包括將具有脈沖響應(yīng)的混響系統(tǒng)的信號抽樣為塊的序列;為序列的每個塊,確定與先前塊的幅度相關(guān)的幅度;使用確定出的幅度作為有限脈沖響應(yīng)濾波器的參數(shù)形成脈沖響應(yīng)的估計。利用來自混響系統(tǒng)的具有較少聲道的信號生成多聲道信號的方法包括將來自具有脈沖響應(yīng)的混響系統(tǒng)的信號抽樣為塊的序列;為序列的每個塊,確定與先前塊的幅度相關(guān)的幅度;使用確定的幅度作為有限脈沖響應(yīng)濾波器的參數(shù)形成脈沖響應(yīng)的估計;對信號應(yīng)用估計的脈沖響應(yīng)的求逆以得出直接信號分量和混響信號分量其中至少之一;且重組直接信號分量和混響信號分量以生成多聲道信號。
文檔編號G10K15/00GK101454825SQ200780019237
公開日2009年6月10日 申請日期2007年9月17日 優(yōu)先權(quán)日2006年9月20日
發(fā)明者吉爾伯特·A·J·索洛德里 申請人:哈曼國際工業(yè)有限公司