專利名稱:聲源分離裝置、音頻識別裝置、移動電話機(jī)、聲源分離方法、以及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用多個(gè)傳聲器、從多個(gè)聲源發(fā)出的多個(gè)音頻信號或各 種環(huán)境噪聲等多個(gè)聲音信號混雜的信號分離出從作為目標(biāo)的聲源到來的 聲源信號的聲源分離裝置、音頻識別裝置、移動電話機(jī)、聲源分離方法、 以及程序。
背景技術(shù):
想要在各種環(huán)境下收錄特定的音頻信號等時(shí),.由于周圍環(huán)境中存在 各種噪聲源,因此,難以利用傳聲器僅收錄作為目標(biāo)聲的信號,需要進(jìn) 行某種降噪處理或聲源分離處理。作為特別需要這些處理的示例,可以舉出例如處于汽車環(huán)境的情況。 在汽車環(huán)境下,由于移動電話的普及,在駕駛中使用移動電話進(jìn)行的通 話,通常使用車內(nèi)分幵設(shè)置的傳聲器,通話質(zhì)量顯著下降。并且,在汽 車環(huán)境下,在駕駛中進(jìn)行音頻識別時(shí),也是以相同的狀況進(jìn)行講話,因 此,導(dǎo)致音頻識別性能下降。隨著當(dāng)前的音頻識別技術(shù)的進(jìn)步,關(guān)于對 定常噪聲的音頻識別率下降的問題,可以恢復(fù)所下降性能的相當(dāng)一部分。 但是,以現(xiàn)有的音頻識別技術(shù)難以對應(yīng)的問題是多位說話人同時(shí)講話時(shí) 的識別性能劣化。在當(dāng)前的音頻識別技術(shù)中,識別同時(shí)講話的兩個(gè)人的 混音的技術(shù)較低,因此,出現(xiàn)在使用音頻識別裝置時(shí)限制說話人以外的 同乘者講話、限制同乘者的行動等狀況。作為這些聲源分離的方法,可 以舉出獨(dú)立主成分分析法等,但是這些方法在運(yùn)算量、聲源數(shù)量的變動 等方面仍存在問題,還未得到實(shí)用化。為了解決上述問題,提出了各種使車內(nèi)的多個(gè)傳聲器僅收錄來自特 定安裝方向的音頻的方法,但是難以在汽車內(nèi)確保用于安裝多個(gè)傳聲器的空間,加上成本方面的問題,難以使用特性一致的傳聲器。因此,希 望提出一種使用數(shù)量盡可能少且具有特性偏差的傳聲器進(jìn)行工作的方 式。通常在使用多個(gè)傳聲器的情況下,可以說越是低成本的傳聲器,其 靈敏度特性的偏差越大,各頻率特性上存在約士3dB左右的偏差。這些 特性偏差即使在傳聲器陣列技術(shù)中,在延遲和陣列等加法型陣列處理中 傳聲器陣列性能也仍難以實(shí)現(xiàn)所設(shè)計(jì)的特性,但與在自適應(yīng)陣列等所謂的減法型陣列中使用一個(gè)傳聲器的情況相比,尤其是在l kHZ以下左右的低頻區(qū)域中,有時(shí)性能也惡化。對于傳聲器陣列技術(shù)來說,作為傳感器的傳聲器的特性的偏差成為較大的問題,作為這些的對策,在專利文獻(xiàn)1 5等中提出了使多個(gè)傳聲 器元件的靈敏度一致的方法。以往,關(guān)于利用以少量的傳聲器得到較大效果的自適應(yīng)波束形成處 理技術(shù)的傳聲器陣列,例如非專利文獻(xiàn)l、非專利文獻(xiàn)2中所述,已知有 廣義旁瓣相消器(GSC)、 Frost型波束形成器(beam former)以及參考 信號法等各種方法。眾所周知,自適應(yīng)波束形成處理基本上是通過形成了噪聲源的方向 上具有死角的指向性波束的濾波器來抑制噪聲的處理,其中尤其是廣義旁瓣相消器具有比較良好的性能。但是,在GSC中存在如下問題從與 所設(shè)定的目標(biāo)聲源的方向偏離的方向發(fā)來目標(biāo)信號時(shí),目標(biāo)信號被抵消 而劣化。相對于此,在專利文獻(xiàn)6、 7中公開了如下方法通過使其在頻 域工作來減少計(jì)算量的同時(shí),根據(jù)頻域的濾波系數(shù)逐一檢測說話人方向 和特定噪聲方向,在一定程度上分離出目標(biāo)聲和目標(biāo)聲以外的噪聲,并 用波譜相減,從而降低到來方向不明的噪聲或擴(kuò)散性的噪聲。專利文獻(xiàn)l:日本特開平5-131866號公報(bào)專利文獻(xiàn)2:日本特開2002-99297號公報(bào)專利文獻(xiàn)3:日本特開2003-153372號公報(bào)專利文獻(xiàn)4:日本特開2004-343700號公報(bào)專利文獻(xiàn)5:日本特開2004-289762號公報(bào)專利文獻(xiàn)6:日本特開2001-100800號公報(bào) 專利文獻(xiàn)7:日本特幵2000-47699號公報(bào)非專利文獻(xiàn)1:電子情報(bào)通信學(xué)會編「音響、乂7X厶^f ^夕》処理」非專利文獻(xiàn)2: HAykin著、"ADAptive Filter Theory(PrentiCe HA11)"在將該專利文獻(xiàn)6、 7中記載的自適應(yīng)波束形成和波譜相減組合的技 術(shù)中,傳聲器的元件靈敏度存在偏差的情況下,需要制作壓制了目標(biāo)聲 的參考信號,作為自適應(yīng)濾波器部的輸入信號,然而,由于不能充分壓 制目標(biāo)聲,使目標(biāo)聲中包括自適應(yīng)濾波器部的參考信號和目標(biāo)信號這兩 者,因此,實(shí)施了自適應(yīng)濾波處理的結(jié)果目標(biāo)聲失真,音質(zhì)下降。在初 始反射大的封閉空間中,目標(biāo)聲信號泄漏到參考信號中,發(fā)生相同的問 題。為了解決該問題,釆用如下方法在組裝產(chǎn)品時(shí),測定偏差,制作 校正數(shù)據(jù),在使用時(shí)進(jìn)行校正;或者,在使用時(shí),利用來自特定方向的 基準(zhǔn)信號,測定傳聲器的元件靈敏度的個(gè)體差、周圍溫度或部件的經(jīng)年 變化所引起的逐一變化,進(jìn)行校正,從而校正傳聲器的元件靈敏度,然 而仍存在制造成本增加、何時(shí)再生基準(zhǔn)信號、或如何判斷所收錄的信號 真的是否僅是基準(zhǔn)信號等問題。并且,若關(guān)注于自適應(yīng)濾波器的動作,會發(fā)現(xiàn)通常在自適應(yīng)濾波器 中參考信號和目標(biāo)信號具有較高的相關(guān)性的情況下,不能順利地進(jìn)行自 適應(yīng)濾波器的估計(jì)動作,估計(jì)精度顯著下降。若舉出一個(gè)例子,則有目 標(biāo)聲和噪聲雙方為音頻信號的情況等。相同的問題在回波消除器中也有所發(fā)生,在估計(jì)從遠(yuǎn)端信號混入到 近端信號的回波的自適應(yīng)濾波器中,遠(yuǎn)端、近端同時(shí)有2人進(jìn)行講話時(shí), 產(chǎn)生所謂的雙方同時(shí)講話(double-talk)狀態(tài),回波消除器的動作性能明 顯下降。因此,如何準(zhǔn)確檢測雙方同時(shí)講話狀態(tài)、停止自適應(yīng)濾波器的 參數(shù)估計(jì)、或者延遲估計(jì)速度成為重要的性能維持條件。因此,在該自適應(yīng)濾波器動作中,目標(biāo)聲和特定噪聲雙方均為音頻 的情況下,需要檢測雙方均正在講話的狀態(tài)的同時(shí),雙方均正在講話的頻度越高,停止估計(jì)自適應(yīng)濾波器的頻度上升,其結(jié)果,存在自適應(yīng)濾 波器的噪聲除去性能下降的問題。并且,在產(chǎn)生汽車的行駛噪聲等大的擴(kuò)散性噪聲等的狀況下,由于 擴(kuò)散性噪聲的影響導(dǎo)致自適應(yīng)濾波器的估計(jì)精度下降,因此,其結(jié)果存 在如下問題使用了自適應(yīng)濾波器所估計(jì)的濾波器參數(shù)的說話人方向、 特定噪聲方向的到來方向估計(jì)精度下降,系統(tǒng)整體的性能下降。而且,在上述的專利文獻(xiàn)6、 7所述的方式中,在面向汽車等使用低 成本的傳聲器來構(gòu)成噪聲成分抑制裝置的情況下,車內(nèi)聲源的初始反射 大、r"散性的噪聲成分大、使用的傳聲器元件的偏差大(土3db左右)、駕 駛者和同乘者同時(shí)講話,同時(shí)存在相關(guān)性強(qiáng)的目標(biāo)聲和特定噪聲等的情 況下,自適應(yīng)濾波器部不進(jìn)行所希望的動作,不能作為整體實(shí)現(xiàn)所希望 的動作。發(fā)明內(nèi)容本發(fā)明是鑒于上述問題而進(jìn)行的,其目的在于,提供一種不受傳聲 器元件的靈敏度偏差影響地從多個(gè)聲源發(fā)出的聲源信號所混合的混音中 分離來自目標(biāo)聲源的聲源信號的聲源分離裝置、音頻識別裝置、移動電 話機(jī)、聲源分離方法、以及程序。為了解決上述問題,第一方面所述的發(fā)明為一種聲源分離裝置,所 述聲源分離裝置向相互分開配置的至少2個(gè)傳聲器輸入混合有從多個(gè)聲 源發(fā)出的聲源信號的混音,從該混音中分離出來自目標(biāo)聲源的聲源信號, 所述聲源分離裝置的特征在于,所述聲源分離裝置具備波束形成單元, 其進(jìn)行第一波束形成處理和第二波束形成處理,其中,在所述第一波束 形成處理中,使用第一系數(shù)對來自所述傳聲器的輸出信號進(jìn)行運(yùn)算,從 而使從預(yù)定方向到來的聲源信號衰減,在所述第二波束形成處理中,使 用第二系數(shù)對來自所述傳聲器的輸出信號進(jìn)行運(yùn)算,從而使從相對于連 接2個(gè)傳聲器的直線的垂直線、與所述預(yù)定方向?qū)ΨQ的方向到來的聲源 信號衰減,其中,所述第二系數(shù)與所述第一系數(shù)在頻域上滿足復(fù)共軛關(guān) 系,功率計(jì)算單元,其分別計(jì)算通過所述波束形成單元得到的聲源信號的功率譜信息;以及目標(biāo)聲譜提取單元,其根據(jù)由所述功率計(jì)算單元計(jì) 算出的功率譜信息彼此之間的差分,提取目標(biāo)聲源的波譜信息。根據(jù)該發(fā)明,聲源分離裝置能夠?qū)崿F(xiàn)指向特性不受傳聲器元件的靈 敏度影響的性質(zhì),能夠不受傳聲器元件的靈敏度偏差影響地從混合有從 多個(gè)聲源發(fā)出的聲源信號的混音中分離來自目標(biāo)聲源的聲源信號。第二方面所述的發(fā)明的特征在于,在第一方面所述的聲源分離裝置中,所述波束形成單元對相互分開配置的3個(gè)傳聲器之中任意2個(gè)傳聲 器的組合以及另外2個(gè)傳聲器的組合分別進(jìn)行所述第一波束形成處理和 所述第二波束形成處理。根據(jù)該發(fā)明,能夠提取來自位于以連接3個(gè)傳聲器之中的2個(gè)傳聲 器的直線的垂直線為邊界的各區(qū)域上的目標(biāo)聲源的聲源信號。第三方面所述的發(fā)明的特征在于,在第一方面或第二方面所述的聲 源分離裝置中,所述聲源分離裝置還具備指向性控制單元,所述指向性 控制單元使來自傳聲器的輸出信號發(fā)生延遲。根據(jù)該發(fā)明,通過發(fā)生延遲能夠?qū)⒅赶蛱匦孕U秊樽罴褷顟B(tài),能夠 提高聲源的分離性能。第四方面所述的發(fā)明的特征在于,在第三方面所述的聲源分離裝置 中,所述指向性控制單元使來自2個(gè)傳聲器之中的至少一個(gè)傳聲器的輸 出信號發(fā)生延遲,從而虛擬生成來自3個(gè)傳聲器的輸出信號。根據(jù)該發(fā)明,能夠虛擬生成來自3個(gè)傳聲器的輸出信號,因此,僅 使用2個(gè)傳聲器,就能夠分離提取出從連接2個(gè)傳聲器的直線的垂直線 方向到來的聲源信號。第五方面所述的發(fā)明的特征在于,在第三方面或第四方面所述的聲 源分離裝置中,所述聲源分離裝置還具備到來方向估計(jì)單元,該到來方 向估計(jì)單元估計(jì)所述聲源信號到來的方向,所述指向性控制單元根據(jù)通 過所述到來方向估計(jì)單元估計(jì)的到來方向,使該來自傳聲器的輸出信號 發(fā)生延遲,使得2個(gè)聲源的位置相對于虛擬地連接2個(gè)傳聲器的直線的 垂直線對稱。根據(jù)該發(fā)明,可以進(jìn)行延遲操作,以便得到聲源的高分離性能。第六方面所述的發(fā)明的特征在于,在第一 五方面的任意一項(xiàng)所述 的聲源分離裝置中,所述聲源分離裝置還具備波譜相減單元,該波譜相 減單元對通過所述目標(biāo)聲提取單元提取的功率譜信息進(jìn)行波譜相減處 理。根據(jù)該發(fā)明,通過進(jìn)行波譜相減處理,可以除去到來方向不明的定 常噪聲或擴(kuò)散性的噪聲等。第七方面所述的發(fā)明的特征在于,在第一 六方面的任意一項(xiàng)所述 的聲源分離裝置中,所述聲源分離裝置還具備定常噪聲降低單元,該定 常噪聲降低單元在所述波束形成單元進(jìn)行處理之前進(jìn)行降低噪聲的處 理。根據(jù)該發(fā)明,能夠減少產(chǎn)生音樂噪聲等聽起來不舒服的噪聲。 第八方面所述的發(fā)明提供一種具備對通過第一 七方面的任意一項(xiàng)所述的聲源分離裝置分離出的聲源信號進(jìn)行音頻識別的音頻識別單元的音頻識別裝置。根據(jù)該發(fā)明,能夠根據(jù)高精度地分離出的聲源信號,進(jìn)行高精度的 音頻識別。第九方面所述的發(fā)明的特征在于,在第八方面所述的音頻識別裝置 中,所述音頻識別裝置還具備識別詞匯列表存儲單元,在所述識別詞匯 列表存儲單元中存儲有駕駛席側(cè)識別詞匯列表和副駕席側(cè)識別詞匯列 表,其中,所述駕駛席側(cè)識別詞匯列表是從車輛的駕駛席側(cè)發(fā)出的詞匯 的候選一覽,所述副駕席側(cè)識別詞匯列表是從副駕席側(cè)發(fā)出的詞匯的候 選一覽,所述音頻識別單元根據(jù)在所述識別詞匯列表存儲單元中存儲的 駕駛席側(cè)識別詞匯列表和副駕席側(cè)識別詞匯列表,對通過所述聲源分離 裝置分離出的聲源信號進(jìn)行音頻識別處理。根據(jù)該發(fā)明,音頻識別裝置根據(jù)識別詞匯列表存儲單元中存儲的副 駕席側(cè)識別詞匯列表和駕駛席側(cè)識別詞匯列表進(jìn)行音頻識別處理,因此, 能夠按照駕駛席、副駕席從詞匯列表中選擇最佳的詞匯,能夠高精度地 進(jìn)行音頻識別。第十方面所述的發(fā)明的特征在于,在第八或九方面所述的音頻識別裝置中,所述音頻識別裝置還具備狀態(tài)變換單元,其管理當(dāng)前的車輛 狀態(tài);有效詞匯列表存儲單元,其存儲與車輛狀態(tài)對應(yīng)的副駕席側(cè)和駕 駛席側(cè)的有效詞匯列表;以及控制單元,其根據(jù)由所述狀態(tài)變換單元管 理的當(dāng)前的車輛狀態(tài)和在所述有效詞匯列表存儲單元中存儲的詞匯列 表,判斷通過所述音頻識別單元識別出的詞匯是否有效,根據(jù)其判斷結(jié) 果,進(jìn)行控制。根據(jù)該發(fā)明,根據(jù)當(dāng)前的車輛狀態(tài)和有效詞匯列表,判斷識別出的 詞匯是否有效,根據(jù)判斷結(jié)果進(jìn)行控制,因此,對于車輛內(nèi)的搭乘者來 說,能夠進(jìn)行快捷的控制。并且,能夠自由設(shè)計(jì)有效詞匯列表或控制內(nèi) 容,因此,能夠?qū)κ褂昧艘纛l識別的應(yīng)用程序設(shè)計(jì)賦予自由度。第十一方面的發(fā)明提供一種具備第一 七方面的任意一項(xiàng)所述的聲 源分離裝置的移動電話機(jī)。根據(jù)該發(fā)明,可以在中規(guī)模的會議室等中將移動電話機(jī)用作集聲傳 聲器。第十二方面的發(fā)明提供一種聲源分離方法,其特征在于,所述聲源 分離方法包括聲源信號接收步驟,向相互分開配置的至少2個(gè)傳聲器輸入從多個(gè)聲源發(fā)出的聲源信號;波束形成處理步驟,進(jìn)行第一波束形成處理和第二波束形成處理,其中,在所述第一和第二波束形成處理中,使用頻域中滿足復(fù)共軛關(guān)系的2個(gè)權(quán)重系數(shù)分別對來自所述傳聲器的輸 出信號進(jìn)行運(yùn)算,從而分別使從相對于連接2個(gè)傳聲器的直線的垂直線 對稱的預(yù)定方向到來的聲源信號衰減,功率計(jì)算步驟,分別對在所述波 束形成處理步驟中得到的聲源信號計(jì)算功率譜信息;以及目標(biāo)聲譜提取 步驟,根據(jù)在所述功率計(jì)算步驟中計(jì)算出的功率譜信息彼此之間的差分, 提取目標(biāo)聲源的波譜信息。第十三方面的發(fā)明提供一種程序,其特征在于,所述程序使計(jì)算機(jī) 執(zhí)行如下步驟輸出信號取得步驟,從相互分開配置的至少2個(gè)傳聲器 取得混合有從多個(gè)聲源發(fā)出的聲源信號的輸出信號;波束形成處理步驟, 進(jìn)行第一波束形成處理和第二波束形成處理,其中,在所述第一和第二 波束形成處理中,使用頻域中滿足復(fù)共軛關(guān)系的2個(gè)權(quán)重系數(shù)分別對在所述輸出信號取得步驟中取得的輸出信號進(jìn)行運(yùn)算,從而分別使從相對 于連接2個(gè)傳聲器的直線的垂直線對稱的預(yù)定方向到來的聲源信號衰減, 功率計(jì)算步驟,分別對在所述波束形成處理步驟中得到的聲源信號計(jì)算 功率譜信息;以及目標(biāo)聲譜提取步驟,根據(jù)在所述功率計(jì)算步驟中計(jì)算 出的功率譜信息彼此之間的差分,提取目標(biāo)聲源的波譜信息。根據(jù)本發(fā)明,進(jìn)行通過分別使用在頻域中存在復(fù)共軛關(guān)系的2個(gè)權(quán) 重系數(shù)進(jìn)行運(yùn)算,以分別使從相對于連接2個(gè)傳聲器的直線的垂直線對稱的預(yù)定方向到來的聲源信號衰減的第一波束形成處理和第二波束形成處理,從而分別使與連接2個(gè)傳聲器的直線的垂直線對稱的方向到來的聲源信號衰減,根據(jù)所述第一波束形成處理和所述第二波束形成處理所 得到的關(guān)于各個(gè)聲源信號的功率譜信息彼此的差分提取目標(biāo)聲源的波譜 信息,從而能夠?qū)崿F(xiàn)指向特性不受傳聲器元件的靈敏度影響的性質(zhì),能 夠不受傳聲器元件的靈敏度的偏差地從混合有從多個(gè)聲源發(fā)出的聲源信 號的混音中分離來自目標(biāo)聲源的聲源信號。
圖1是表示本發(fā)明的第1實(shí)施方式的聲源分離系統(tǒng)的基本構(gòu)成的圖。圖2是表示第1實(shí)施方式的傳聲器的種類的一例的圖。圖3是表示第1實(shí)施方式的波束形成部的構(gòu)成的圖。圖4是表示第1實(shí)施方式的功率計(jì)算部的構(gòu)成的圖。圖5是表示第1實(shí)施方式的目標(biāo)聲譜提取部的構(gòu)成的圖。圖6是用于說明第1實(shí)施方式的死角控制型波束形成器的圖。圖7是用于說明第1實(shí)施方式的死角控制型波束形成器的圖。圖8是表示第1實(shí)施方式的差分結(jié)果的指向特性的一例的圖。圖9是用于說明使第1實(shí)施方式的傳聲器的元件靈敏度差變動時(shí)的共軛波束形成的指向特性的圖。圖IO是表示使第1實(shí)施方式的傳聲器的元件靈敏度差變動時(shí)的波束形成單體的指向特性的圖。圖11是表示求出第1實(shí)施方式的聲源分離裝置的360度的指向特性的曲線圖。圖12是表示第1實(shí)施方式的聲源分離裝置的利用了指向特性的兩位 說話人個(gè)別錄音的實(shí)施例的圖。圖13是表示利用了第1實(shí)施方式的聲源分離裝置的指向特性的簡易 免提裝置和用于音頻識別裝置的傳聲器的實(shí)施例的圖。圖14是表示第1實(shí)施方式的評價(jià)實(shí)驗(yàn)中的傳聲器安裝位置的圖。圖15是表示第1實(shí)施方式的評價(jià)實(shí)驗(yàn)的條件的圖。圖16是表示第1實(shí)施方式的評價(jià)實(shí)驗(yàn)結(jié)果的圖。 圖17是表示第2實(shí)施方式的聲源分離系統(tǒng)的構(gòu)成的圖。 圖18是表示第2實(shí)施方式的波束形成的構(gòu)成的圖。 圖19是表示第3實(shí)施方式的聲源分離系統(tǒng)的構(gòu)成的圖。 圖20是表示第3實(shí)施方式的其他聲源分離系統(tǒng)的構(gòu)成的圖。 圖21是表示第3實(shí)施方式的目標(biāo)聲譜提取部的構(gòu)成的圖。 圖22是表示第4實(shí)施方式的聲源分離系統(tǒng)的構(gòu)成的圖。 圖23是表示第5實(shí)施方式的聲源分離系統(tǒng)的構(gòu)成的圖。 圖24是表示第5實(shí)施方式的指向性控制的示例的圖。 圖25是表示第5實(shí)施方式的指向性控制部的構(gòu)成的圖。 圖26是表示第6實(shí)施方式的聲源分離系統(tǒng)的構(gòu)成的圖。 圖27是表示第7實(shí)施方式的聲源分離系統(tǒng)的構(gòu)成的圖。 圖28是用于說明第7實(shí)施方式中分離出的聲源的位置的圖。 圖29是表示第7實(shí)施方式的單一指向性傳聲器的設(shè)置例的圖。 圖30是表示第7實(shí)施方式的目標(biāo)聲提取部的構(gòu)成的一例的圖。 圖31是表示第7實(shí)施方式的目標(biāo)聲提取部的構(gòu)成的一例的圖。 圖32是表示第7實(shí)施方式的目標(biāo)聲提取部的構(gòu)成的一例的圖。 圖33是表示向利用了第7實(shí)施方式的聲源分離裝置的個(gè)人計(jì)算機(jī)輸 入音頻的示例的圖。圖34是用于說明第8實(shí)施方式的目標(biāo)聲范圍和噪聲范圍的圖。圖35是用于說明第8實(shí)施方式的延遲操作的圖。圖36是表示第8實(shí)施方式的指向性控制單元的構(gòu)成例的圖。圖37是表示第8實(shí)施方式的聲源分離裝置系統(tǒng)的構(gòu)成例的圖。圖38是表示第8實(shí)施方式的目標(biāo)聲提取部的處理方式的一例的圖。 圖39是表示第8實(shí)施方式的目標(biāo)聲提取部的處理方式的一例的圖。 圖40是表示第9實(shí)施方式的用于控制車載設(shè)備的音頻識別系統(tǒng)的構(gòu) 成的圖。圖41是表示第10實(shí)施方式的移動電話機(jī)的圖。 圖42是表示第11實(shí)施方式的聲源分離系統(tǒng)的傳聲器排列的圖。 圖43是表示應(yīng)用了第12實(shí)施方式的聲源分離系統(tǒng)的環(huán)境的圖。 圖44是表示第12實(shí)施方式的聲源分離系統(tǒng)所應(yīng)用的講話聲的輸入 狀況的圖。圖45是表示第12實(shí)施方式的導(dǎo)向(guidance)音頻刪除部的構(gòu)成的圖。圖46是表示第12實(shí)施方式的目標(biāo)音頻提取部的構(gòu)成的圖。圖47是表示第12實(shí)施方式的導(dǎo)向音頻刪除部的其他構(gòu)成的圖。圖48是表示第12實(shí)施方式的導(dǎo)向音頻刪除部的其他構(gòu)成中的目標(biāo)音頻提取部的構(gòu)成的圖。圖49是表示第12實(shí)施方式的聲源分離系統(tǒng)所應(yīng)用的其他環(huán)境的圖。 圖50是表示第12實(shí)施方式的聲源分離系統(tǒng)所應(yīng)用的講話聲的其他輸入狀況的圖。圖51是表示第12實(shí)施方式的聲源分離系統(tǒng)的其他構(gòu)成的圖。
具體實(shí)施方式
下面,參照附圖,說明本發(fā)明的實(shí)施方式。 [第1實(shí)施方式]圖1是表示本發(fā)明的第1實(shí)施方式的聲源分離系統(tǒng)的基本構(gòu)成的圖。 該系統(tǒng)由2個(gè)傳聲器(以下稱為"傳聲器")10、 11以及聲源分離裝置1 構(gòu)成。該聲源分離裝置1具有未圖示的用于控制整體并執(zhí)行運(yùn)算處理的 CPU;包括ROM、 RAM、硬盤裝置等存儲裝置的硬件;以及包括存儲于 存儲裝置的程序、數(shù)據(jù)等的軟件。通過這些硬件和軟件實(shí)現(xiàn)圖1所示的功能模塊。2個(gè)傳聲器10、 11是無指向性傳聲器,在平面上相互隔開幾cm左 右而進(jìn)行了設(shè)置。另外,傳聲器IO、 ll基本上為無指向性的傳聲器,但 是,也可以使用圖2所示的單一指向性傳聲器。傳聲器IO、 ll接收從 2個(gè)聲源R1、 R2發(fā)出的信號。此時(shí),2個(gè)聲源R1、 R2分別位于以對連 接2個(gè)傳聲器10、 11的直線畫出的垂直線為邊界分割的2個(gè)區(qū)域(以下稱 為"垂直線的左右"),但是,無需一定處于相對于垂直線成左右對稱的 位置。波譜分析部20、 21分別按照每個(gè)傳聲器輸出對利用該傳聲器10、 11 得到的2個(gè)聲源信號進(jìn)行頻率分析,在波束形成部3中,利用在對連接 2個(gè)傳聲器10、 11的直線畫出的垂直線的左右對稱地形成死角的波束形 成器30、 31對這些進(jìn)行了頻率分析的信號進(jìn)行濾波,在功率計(jì)算部40、 41中計(jì)算該濾波器輸出的功率,在目標(biāo)聲譜提取部50、 51中進(jìn)行如下處 理輸出相對于各個(gè)計(jì)算出差分的結(jié)果為某一定值以上的值,將其以下 設(shè)為零。這些處理不同于通常的對特定噪聲形成死角的處理,在幾個(gè)條 件下形成波束形成部3,實(shí)施上述處理,從而解決現(xiàn)有問題、即由于傳聲 器的元件靈敏度的偏差導(dǎo)致傳聲器陣列的特性下降的問題,與此同時(shí), 能夠針對寬范圍的頻帶實(shí)現(xiàn)以上述垂直線為中心分離來自左右的聲音的 指向特性。下面,詳細(xì)說明各功能模塊。[波束形成部]首先,參照圖3,說明波束形成部3的構(gòu)成。圖3中,將利用波譜 分析部20、波譜分析部21以每個(gè)頻率成分進(jìn)行分解的信號Xl(co)、 X2(co) 設(shè)為輸入,通過乘法器100a、 100b、 100c、 100d分別將各輸入與濾波器 的權(quán)重系數(shù)w"co)、 W2(CO)、 w厶。)、w/(co) (*表示存在復(fù)共軛關(guān)系)相乘, 利用加加法器100e、 100f將2個(gè)相乘結(jié)果相加,作為其輸出,輸出濾波 處理結(jié)果ds"co)、 ds2(co)。如上所述,波束形成部3通過使用復(fù)共軛濾波 系數(shù),從而在連接傳聲器10、 11的直線的垂直線為中心成對稱的位置形成死角。[功率計(jì)算部]接著,參照圖4,說明功率計(jì)算部40、 41。功率計(jì)算部40、 41通過 下述計(jì)算式將來自波束形成器30、波束形成器31的輸出dSl(co)、 ds2(co)變換成功率譜信息PS"CO)、 PS2((D)。pSl(co)=[Re(dSl( ))]2 + [Im(dSl(co))]2ps2(co)=[Re(ds2(co》]2 + [Im(ds2(co》]2 [目標(biāo)聲譜提取部]接著,參照圖5,說明目標(biāo)聲譜提取部50、 51,其中,功率計(jì)算部 40、 41的輸出ps,(co)、 ps2(co)被用作目標(biāo)聲譜提取部50、 51的2個(gè)輸入。 目標(biāo)聲譜提取部50、 51將2個(gè)波束形成器30、 31輸出的功率譜信息作 為輸入,而作為輸出,分別輸出左右的目標(biāo)聲,內(nèi)部由差分計(jì)算部500、 510以及系數(shù)變換部501、 511構(gòu)成。在差分計(jì)算部500中利用減法器500a從波束形成器30的功率譜信 息減去波束形成器31的功率譜信息,同樣地在差分計(jì)算部510中利用減 法器501a從波束形成器31的功率譜信息減去波束形成器30的功率譜信 息,將其結(jié)果分別輸入到系數(shù)變換部501、系數(shù)變換部511。系數(shù)變換部 501、系數(shù)變換部511是分別用于分離左右聲音的模塊,分別將特定閾值 以上的值作為來自目標(biāo)方向的信號輸出波譜信息。此處,閾值的值一般 為"0",然而也可以根據(jù)使用環(huán)境通過實(shí)測求出最佳值,分別進(jìn)行設(shè)定。[動作]接著,參照圖1,說明聲源分離裝置系統(tǒng)整體的動作。 首先,相互隔開幾cm左右設(shè)置2個(gè)無指向性或指向性的傳聲器10、 11,利用傳聲器IO、傳聲器11接收從2個(gè)聲源發(fā)出的信號。此時(shí),利用 波譜分析部20、波譜分析部21對各傳聲器10、 11接收到的2個(gè)聲源信 號相重疊的信號進(jìn)行頻率分析。在此,通常釆用快速傅立葉變換等方法, 也可以采用濾波器組(filter bank)等頻率分析方法。頻率分析處理以 10 msec左右的固定周期進(jìn)行。利用相對于連接傳聲器10、 11的直線的垂直線對稱地形成有死角的 波束形成器30、波束形成器31對頻率分析后的2個(gè)信號進(jìn)行濾波,使來 自特定方向的信號衰減。但是,在此,并不以準(zhǔn)確地估計(jì)特定的聲源到來方向、使死角面向準(zhǔn)確估計(jì)出的聲源方向?yàn)槟康?。使?個(gè)信道的輸 入對每個(gè)頻率成分進(jìn)行濾波,利用功率計(jì)算部40、功率計(jì)算部41將波束形成器30、波束形成器31的輸出變換成功率譜信息的同時(shí),利用相位提 取部60、相位提取部61從波束形成器30、波束形成器31的輸出提取相 位信息A、 &。接著,將利用功率計(jì)算部40、功率計(jì)算部41變換為功 率譜信息的波束形成器30、波束形成器31的輸出發(fā)送到目標(biāo)聲譜提取部 50、目標(biāo)聲譜提取部51,利用目標(biāo)聲譜提取部50提取從右方向(0 90° )到來的聲源信號的功率譜信息,利用目標(biāo)聲譜提取部51提取從左 方向(-90° 0)到來的聲源信號的功率譜信息。將從目標(biāo)聲譜提取部51提取的功率譜信息用作音頻識別處理的前 處理的情況下,將該功率譜信息發(fā)送到未圖示的聲音參數(shù)解析部,進(jìn)行 聲音分析處理。另一方面,需要將所提取的聲源信號的功率譜信息返回 為時(shí)間信號,將利用相位提取部60、相位提取部61所提取的相位信息和 目標(biāo)聲譜提取部50、目標(biāo)聲譜提取部51所提取的波譜信息輸入到時(shí)間波 形變換部70、時(shí)間波形變換部71,進(jìn)行返回為時(shí)間信號信息的處理。[死角控制型波束形成器的設(shè)計(jì)例]接著,在波束形成部3中的波束形成器30、波束形成器31中,在 相對于連接2個(gè)傳聲器10、 11的直線的垂直線對稱的位置形成死角,從 而證明指向特性(指向性)不受傳聲器元件的靈敏度的影響。使用2個(gè)傳聲器元件的情況下,如圖6所示,如下示出將相對于目 標(biāo)方位的增益設(shè)為1、在其他方向02上形成1個(gè)死角(增益O)的死角控 制型波束形成器的設(shè)計(jì)例。將死角控制型波束形成器的輸出信號設(shè)為S(f)=[Sl(f)、 S2(f)]',將觀 測信號設(shè)為X(f)二[x"f)、 X2(f)],時(shí),能夠通過下述式求出某個(gè)頻率f中的死角控制型波束形成器的權(quán)重系數(shù)向量w(f、 e2)=[Wl(f)、 w2(f)]'(其中,,表示轉(zhuǎn)置操作)。 [式1]<formula>formula see original document page 18</formula>此時(shí),<formula>formula see original document page 18</formula>另一方面,如圖7所示,將目標(biāo)方向、死角方向設(shè)置在以連接2個(gè) 傳聲器IO、 11的直線的垂直線為中心、與圖6所示的位置成線對稱的位置時(shí),可以通過以下計(jì)算求出權(quán)重系數(shù)向量w(f、-e,、-e2)二[w"f)、w2(f)]'。[式2]<formula>formula see original document page 18</formula>此時(shí),計(jì)算出[式3]<formula>formula see original document page 18</formula>兩者的關(guān)系為 [式4]<formula>formula see original document page 19</formula>各權(quán)重系數(shù)滿足復(fù)共軛關(guān)系。接著,功率計(jì)算部40、 41、目標(biāo)聲譜提取部50、 51中導(dǎo)出指向半 性。為了計(jì)算指向特性,采用下述式定義權(quán)重向量W、以及方位向量V。 [式5]<formula>formula see original document page 19</formula>這樣,功率計(jì)算部40的輸出ps(co)、功率計(jì)算部41的輸出pS2(co)的指向特性如下表現(xiàn)。[式6]<formula>formula see original document page 19</formula>其中,*表示共軛操作,H表示共軛轉(zhuǎn)置操作。從而,目標(biāo)聲譜提取 部50內(nèi)的差分操作部500的輸出dn(co)可以如下求出。 [式7]<formula>formula see original document page 19</formula>此處,作為表現(xiàn)傳聲器的元件靈敏度偏差的參數(shù)導(dǎo)入a,假設(shè)一個(gè) 傳聲器的元件靈敏度是另一個(gè)傳聲器的元件靈敏度的a倍。此時(shí),單個(gè) 的傳聲器輸出為a倍與對一方信道相乘的權(quán)重為a倍是等價(jià)的,因此, 考慮傳聲器元件靈敏度的偏差,設(shè)w2=awwg2時(shí),[式8]即使傳聲器元件靈敏度改變,指向特性也不改變。 此時(shí),當(dāng)聲源充分遠(yuǎn)離傳聲器的情況下,即為平面波的情況下,方 位向量表示為[式9]7 =其結(jié)果, [式10]V—V2_1exp(-乂 jc/sin。d+)) = — 2 x Re一2xRe,其中,如上所述的方法在球面波的情況下也維持相同性質(zhì)。 圖8示出在從所述垂直線的士45。方向形成死角時(shí)、將維持波束形成 器30、 31的增益的約束條件指定為相對于垂直線對稱的位置(士45。)進(jìn)行 設(shè)計(jì)時(shí)的差分結(jié)果的指向特性例。由圖8可知,以0。方向?yàn)檫吔?,從?方向(從傳聲器10、 11向聲源Rl、 R2的方向看去時(shí)的右方向、以下相 同)(0。 90。)到來的聲源信號為正值,從左方向(-90。 0。)到來的聲源信號 為負(fù)值。從而,能夠在各頻率成分中判斷是從左右哪一方向到來的。 [指向特性的實(shí)驗(yàn)結(jié)果]如上所述,將波束形成器30、波束形成器31的乘法器中使用的權(quán) 重系數(shù)分別設(shè)為復(fù)共軛關(guān)系,進(jìn)行上述處理,從而使陣列傳聲器的指向 特性不受傳聲器的元件靈敏度影響,為了表示該情況,將使傳聲器的元 件靈敏度差a變?yōu)镺db、 +6db、 -6db來計(jì)算指向特性的例子示于圖9。 圖9中沒有示出相對于連接傳聲器10、 11的直線的垂直線對稱的方向的指向特性,但是,該指向特性具有與圖9所示的特性對稱的特性。觀察 圖9可知,當(dāng)增益有所變動時(shí),陣列傳聲器的輸出電平發(fā)生變動,但指 向特性不變動。從而,即使在使用廉價(jià)的傳聲器、傳聲器的元件靈敏度 上存在偏差的情況下,也能夠?qū)崿F(xiàn)穩(wěn)定的指向特性。并且,圖中示出的指向特性在土45。方向形成死角,然而,由該圖可知,由于指向特性具有 寬度,因此,無需相對于實(shí)際的目標(biāo)聲源準(zhǔn)確地形成死角。并且,圖10 示出使傳聲器的元件靈敏度差a變?yōu)? db、 +6 db、 -6 db時(shí)的波束形成單 體的指向特性,由圖10可知,若傳聲器的元件靈敏度存在6db差異,則在特定方向上形成死角這一波束形成器所要求的希望動作基本不能進(jìn) 行。另一方面,作為本發(fā)明的特征最應(yīng)關(guān)注的方面是,實(shí)際使用發(fā)生圖 10所示的指向特性的指向特性下降的波束形成器,作為結(jié)果得到的指向 特性與傳聲器的元件靈敏度均勻的情況相同。利用波束形成器在特定方向形成較尖的死角的方法在理論上用少量 傳聲器也能實(shí)現(xiàn),因此,所測定的信號用于提高SN比,或者用于頻繁作 為自適應(yīng)濾波器使用的廣義旁瓣相消器(side lobe canceller)的參考信號 生成部、即分塊矩陣(blocking matrix)部分,但由于上述的傳聲器的元 件靈敏度差,不能以所設(shè)計(jì)的性能生成死角,成為以量產(chǎn)為目標(biāo)時(shí)不能 在實(shí)際環(huán)境下實(shí)現(xiàn)預(yù)定性能的一大原因。圖11示出使用這樣的聲源分離裝置1求出360度的指向特性的示例。由該圖11可知,聲源分離裝置1具有每180°的指向特性,2個(gè)指 向特性在其邊界上不重疊而分離。但是,將其指向特性不受傳聲器的元 件靈敏度的影響作為進(jìn)一步的特征。在線性陣列的情況下,±90°以上 為與0 ±90°的特性對稱的指向特性。如上所述,指向特性可以以對連 接2個(gè)傳聲器的線垂直畫出的線為邊界分割成2個(gè)區(qū)。圖12和圖13示出利用了該特性的實(shí)施例。圖12表示在音頻記錄裝 置中的應(yīng)用。以往,在會議或討論時(shí),以進(jìn)行會議記錄為目的而使用音 頻記錄裝置。在這種使用例的情況下,由于同時(shí)將周圍的噪聲或2個(gè)人 的聲音錄下,因此有時(shí)難以聽取錄下的內(nèi)容。在這種情況下,使2個(gè)傳 聲器10、 11分別朝向2位說話人,利用聲源分離裝置1分別增強(qiáng)一方的會話內(nèi)容進(jìn)行錄音,從而使得日后容易聽取。通過像這樣利用聲源分離 裝置l,可以分離收集對向的2位說話人的聲音,可以用作會議的議事錄 用錄音,或在會議議事錄中獨(dú)立地同時(shí)音頻識別2位的會話。圖13是表示簡易免提裝置和音頻識別裝置用傳聲器上的應(yīng)用例的 圖。近年來,使用個(gè)人計(jì)算機(jī)進(jìn)行網(wǎng)絡(luò)會議等,而在自家等使用個(gè)人計(jì) 算機(jī)進(jìn)行網(wǎng)絡(luò)會議時(shí),由于個(gè)人計(jì)算機(jī)內(nèi)部不具有回波消除器功能,因 而采取了利用頭戴式耳機(jī)傳聲器等減小從揚(yáng)聲器音頻傳到傳聲器的回聲 的回繞量,然而像頭戴式耳機(jī)傳聲器那樣將器具緊貼在身體的一部分上 的做法不太能被接受。作為其對策,在個(gè)人計(jì)算機(jī)內(nèi)部以軟件方式安裝 回波消除器功能,或者,也可以在個(gè)人計(jì)算機(jī)外部連接內(nèi)置有回波消除 器功能的免提裝置。在個(gè)人計(jì)算機(jī)內(nèi)部安裝回波消除器功能的情況下, 需要取得向揚(yáng)聲器的再生音頻和來自傳聲器的輸入音頻的同步,但存在 再生音頻和輸入音頻之間的延遲大、并且、根據(jù)個(gè)人計(jì)算機(jī)機(jī)種不同延 遲大小也不同等安裝上的問題。并且,在外部連接內(nèi)置有回波消除器功 能的免提裝置時(shí),耗費(fèi)成本。另一方面,在本實(shí)施例中,需要將傳聲器IO、 ll放置在揚(yáng)聲器和說話人之間,但無需與揚(yáng)聲器再生信號取得同步。準(zhǔn)備2個(gè)傳聲器10、 U, 使個(gè)人計(jì)算機(jī)取得來自傳聲器IO、 ll的信號,根據(jù)個(gè)人計(jì)算機(jī)中存儲的軟件執(zhí)行聲源分離,因此,容易安裝。并且,作為在住宅內(nèi)進(jìn)行音頻識別的狀況下最頻繁發(fā)生的環(huán)境,可 以考慮向電視機(jī)及其他被控制設(shè)備使用音頻命令的情況。該情況下,電 視機(jī)及其他被控制設(shè)備的揚(yáng)聲器設(shè)置成從被控制設(shè)備側(cè)面向說話人側(cè), 從揚(yáng)聲器發(fā)出聲音或者發(fā)出各種導(dǎo)向聲音的狀況下,有時(shí)說話人想要通 過聲音向傳聲器裝置輸入控制命令。該情況下,需要利用某種單元使揚(yáng) 聲器的聲音繞回到傳聲器裝置的量衰減,然而通過使用聲源分離裝置1, 能夠容易地分離來自被控制設(shè)備的聲音和來自說話人的聲音,提高音頻 識別性能。[評價(jià)實(shí)驗(yàn)結(jié)果]接著,說明評價(jià)實(shí)驗(yàn)結(jié)果。以往,在汽車內(nèi)的設(shè)備控制及其他目的使用音頻識別。以往雖然建立了降低空調(diào)的送風(fēng)聲、道路噪聲(road noise)、發(fā)動機(jī)聲音等的噪聲的技術(shù),但未能建立不受聲音等影響的音頻 識別技術(shù)。在此基礎(chǔ)上,提供一種可以實(shí)現(xiàn)如下幾點(diǎn)的音頻識別技術(shù)是 很重要的。(1)分離位于駕駛席的駕駛者發(fā)出的聲音和位于副駕席的副 駕席者發(fā)出的聲音(下面稱為"駕駛席和副駕席的音頻");(2)可容許頭 部位置(head position)移動;(3)兼?zhèn)鋵挼牟ㄊ鴮挾群头蛛x性能;(4) 利用少量傳聲器提供功能;(5)使用音頻識別時(shí),不必使駕駛者或副駕 席者沉默。為了表示聲源分離裝置1的有效性,在車內(nèi)使2位說話人同時(shí)進(jìn)行 講話,利用2個(gè)傳聲器進(jìn)行收錄,利用聲源分離裝置進(jìn)行聲源分離,進(jìn) 行音頻識別實(shí)驗(yàn)。該聲源分離裝置是以分離2個(gè)聲源為目的開發(fā)出的, 作為汽車內(nèi)的利用方法,例如可以分離駕駛席和副駕席的音頻。作為用 于該動作的傳聲器的設(shè)置位置,如圖14所示,像安裝位置L1或安裝位 置L2那樣的汽車內(nèi)中央部比較適合。并且,設(shè)置于安裝位置L2的情況 下,室內(nèi)鏡400朝向駕駛者一方,因此,在安裝傳聲器時(shí),可以設(shè)置成 傳聲器的安裝方向大體處于正面,也可以具備后述的指向性控制功能。 在聲源分離裝置1中,由于原本波束寬度就取得較寬,因此,無需準(zhǔn)確 地對準(zhǔn)位置。而且,設(shè)置于安裝位置L2的情況下,為了抑制來自背面的 反射,有時(shí)對傳聲器模塊下功夫,或利用指向性傳聲器的方式比較有效。 圖15示出評價(jià)實(shí)驗(yàn)的條件,圖16示出聲源分離后的音頻識別實(shí)驗(yàn) 結(jié)果。如圖16(a)所示,2位說話人在車內(nèi)講話時(shí)(車內(nèi)同時(shí)講話),僅使用 了單信道傳聲器的現(xiàn)有方法1中的未處理時(shí)中29% (停車時(shí))、27% (以 60km/h行駛時(shí)),通過應(yīng)用本聲源分離方法,改善為78%(停車時(shí))、78%(以60km/h行駛時(shí))。并且,如圖16(b)所示,對將副駕席側(cè)的音頻錯(cuò)誤 地識別為駕駛席側(cè)的音頻發(fā)出音頻識別結(jié)果的比例、或?qū)Ⅰ{駛席側(cè)的音 頻錯(cuò)誤地識別為副駕席側(cè)的音頻發(fā)出音頻識別結(jié)果的比例進(jìn)行評價(jià),則 在僅使用現(xiàn)有的單信道傳聲器時(shí)(車內(nèi)1人講話)中,對全部全講話的93%(拒絕性能7%)輸出某種音頻識別結(jié)果,然而使用了本方法的情況下, 輸出了某種音頻識別結(jié)果的情況為0% (拒絕率100°/。)。并且,將使用了2個(gè)傳聲器的現(xiàn)有例"雑音成分抑圧処理裝置^上t/雑音成分抑圧処理方 法(噪聲成分抑制處理裝置和噪聲成分抑制處理方法)(日本專利第3484112號)"作為現(xiàn)有方法2,比較在停止?fàn)顟B(tài)下的性能?,F(xiàn)有方法2采用如下方式在估計(jì)目標(biāo)聲和噪聲到來方向的同時(shí),進(jìn)行自適應(yīng)波束形成處理,增強(qiáng)目標(biāo)聲和噪聲,從增強(qiáng)了目標(biāo)聲的信號將增強(qiáng)了噪聲的 信號以頻域進(jìn)行波譜相減,為了減少到來方向估計(jì)錯(cuò)誤的影響,進(jìn)行如下處理SP,設(shè)目標(biāo)聲、噪聲的到來方向均為己知(從固定方向到來),求 出自適應(yīng)波束形成部的最佳值之后,同時(shí)播放目標(biāo)聲(說話人1)、噪聲(說話人2),提取目標(biāo)聲。(參見圖16(a)) [第2實(shí)施方式]接著,說明第2實(shí)施方式。圖17示出第2實(shí)施方式的聲源分離系統(tǒng) 的構(gòu)成。在上述的第l實(shí)施方式中,首先利用波譜分析部20、波譜分析 部21將來自傳聲器10、 11的輸入變換成頻率成分,但在本實(shí)施方式中, 首先在時(shí)間區(qū)域上利用波束形成器80和波束形成器81生成死角,生成 將來自特定到來方向的信號衰減的信號,然后,利用波譜分析部20和波 譜分析部21變換成頻率成分。另外,在圖17中對于具有與圖1相同的 功能部分賦予相同符號。波束形成器80、波束形成器81的構(gòu)成可以通過 執(zhí)行以圖18所示的FIR濾波器等形式構(gòu)成的濾波器處理來實(shí)現(xiàn)。此時(shí), 通過將圖3中示出的頻域上存在復(fù)共軛關(guān)系的權(quán)重系數(shù)變換成時(shí)間區(qū)域 的濾波系數(shù),能夠求出FIR濾波器的系數(shù)。[第3實(shí)施方式]接著,說明第3實(shí)施方式。圖19和圖20是示出第3實(shí)施方式的聲 源分離系統(tǒng)的構(gòu)成的圖。如上所述,圖1和圖17所示的目標(biāo)聲譜提取部 50、目標(biāo)聲譜提取部51采用圖5所示的構(gòu)成來實(shí)現(xiàn),使用通過實(shí)驗(yàn)求出 的最佳閾值進(jìn)行聲源分離處理。另一方面,如圖8所示,目標(biāo)聲譜提取 部50、 51中的差分計(jì)算部500、 510的輸出、即dri(co)(i-l、 2)以正面0° 為中心成點(diǎn)對稱的關(guān)系。從而,在目標(biāo)聲譜提取部50、 51中的系數(shù)變換 部501、 511中,若將閾值設(shè)為"0",則僅看差分計(jì)算部500、 510的符 號,符號為正時(shí),作為從右方向(0 90° )來的聲源信號的功率譜信息提取,符號為負(fù)時(shí),作為從左方向(-90° 0)來的聲源信號的功率譜信息提取。因此,在圖l和圖17中示出的整體構(gòu)成可以如圖19和圖20所 示進(jìn)行簡化。圖19和圖20中的目標(biāo)聲譜提取部90以圖21所示的構(gòu)成 實(shí)現(xiàn)。在圖21中,利用功率計(jì)算部40、功率計(jì)算部41計(jì)算出的波束形成 器30、波束形成器31的功率譜信息輸入到目標(biāo)聲譜提取部90內(nèi)部的差 分計(jì)算部900。并且,利用減法器900a進(jìn)行減法處理,在系數(shù)變換部910、 系數(shù)變換部920中分別僅提取來自目標(biāo)方向的聲源信號。具體地說,系 數(shù)變換部910是用于提取來自右方向(0 90° )的聲源的模塊,輸入為 正的情況下,該波譜信息作為來自右方向(0 90° )的信息輸出,輸入 為負(fù)的情況下,作為從目標(biāo)方向之外的方向到來的聲源的波譜信息而不 進(jìn)行輸出。另一方面,系數(shù)變換部920是用于提取來自左方向(-90° 0) 的聲源的模塊,輸入為負(fù)的情況下,該波譜信息作為從左方向(-90° 0) 來的信息輸出,輸入為正的情況下,作為從目標(biāo)方向之外的方向到來的 聲源的波譜信息而不進(jìn)行輸出。通過以上的動作,可以將以連接2個(gè)傳 聲器IO、 11的直線的垂直線為中心從左右方向到來的聲源信號分離。另外,圖19所示的聲源分離系統(tǒng)和圖20所示的聲源分離系統(tǒng)的不 同之處在于,是以頻域進(jìn)行波束形成處理還是以時(shí)間區(qū)域進(jìn)行波束形成 處理。圖19中是以頻域進(jìn)行波束形成處理,圖20中是以時(shí)間區(qū)域進(jìn)行 波束形成處理。[第4實(shí)施方式]接著,說明第4實(shí)施方式。圖22是表示第4實(shí)施方式的聲源分離系 統(tǒng)的構(gòu)成的圖。該圖22所示的波譜相減部100、 101進(jìn)行波譜相減處理, 通過波譜相減處理,除去目標(biāo)聲譜提取部50、目標(biāo)聲譜提取部51所提取 的各目標(biāo)聲上重疊的到來方向不明的定常噪聲或擴(kuò)散性的噪聲等。這種 結(jié)構(gòu)即使在會議室中存在空調(diào)或投影儀等的風(fēng)扇聲等的環(huán)境下使用也很 有效,在汽車內(nèi)使用時(shí)特別有效。在汽車內(nèi)除駕駛者外副駕席上還搭乘 有同乘者的情況等,例如可以使用上述的方式,分別提取駕駛席和副駕 席的音頻。但是,不能夠釆用上述方法除去空調(diào)的送風(fēng)聲、道路噪聲、進(jìn)風(fēng)聲等到來方向不明的音頻或擴(kuò)散性的噪聲。這些噪聲的影響可以通 過在處理的后階段輸入到波譜相減處理來除去。波譜相減處理包括如下 兩種類型使用一個(gè)傳聲器的輸入信號,檢測講話區(qū)間,在無講話區(qū)間 估計(jì)噪聲波譜,在講話區(qū)間換算之前估計(jì)的噪聲成分,進(jìn)行減法運(yùn)算; 使用以噪聲為優(yōu)先收錄的信號和以音頻為優(yōu)先收錄的信號,從以音頻為 優(yōu)先收錄的信號換算以噪聲為優(yōu)先收錄的信號的波譜,進(jìn)行差分。音頻 識別時(shí),大多靠以單傳聲器方式為基本的處理都不夠充分,然而本實(shí)施 方式中仍采用這種方式,本實(shí)施方式的聲源分離系統(tǒng)通過在第1實(shí)施方 式的聲源分離系統(tǒng)中追加講話區(qū)間檢測部110和波譜相減部100、 101來 進(jìn)行對應(yīng)。圖22中,聲源R1、聲源R2是目標(biāo)聲,聲源R3表示到來方向不明 的定常噪聲或擴(kuò)散性的噪聲。這些噪聲大多都不具有明確的指向性。存 在這種噪聲的情況下,在目標(biāo)聲譜提取部的輸出中,具有弱指向性的輸 出大多顯現(xiàn)在提取該方向聲源的目標(biāo)聲譜提取部上,完全沒有指向性的 輸出或踏在道路的接線而產(chǎn)生的沖擊音等被左右提取的波譜交錯(cuò)地檢測 到的情況很多,然而可以利用波譜相減部100、 101除去這些噪聲。另夕卜, 作為波譜相減,可以使用無需講話區(qū)間檢測的連續(xù)型波譜相減。[第5實(shí)施方式]接著,說明第5實(shí)施方式。圖23中示出第5實(shí)施方式的聲源分離系 統(tǒng)的構(gòu)成。本實(shí)施方式中示出如下情況的對策要分離的2個(gè)目標(biāo)聲源 Rl、 R2從相對于連接2個(gè)傳聲器10、 11的直線的垂直線對稱的位置偏 離較大的情況。本實(shí)施方式中,為了進(jìn)行該對策而具備用于檢測2個(gè)目 標(biāo)聲源R1、 R2的大概位置的到來方向估計(jì)部120,使用該到來方向估計(jì) 部120所估計(jì)的2個(gè)目標(biāo)聲源R1、 R2的大概的聲源到來方向信息,以使 指向性控制部140中要分離的2個(gè)目標(biāo)聲源R1、R2盡可能虛擬地相對于 連接2個(gè)傳聲器10、 11的直線的垂直線成對稱的方式,向一方傳聲器輸 入施加延遲操作。圖24中示出2個(gè)聲源Rl、聲源R2相對于連接傳聲器10、傳聲器 11的直線的垂直線旋轉(zhuǎn)了 0T的直線成左右對稱的狀況。該情況下,使一方傳聲器所取得的信號發(fā)生一定延遲量Td,從而可以實(shí)現(xiàn)與旋轉(zhuǎn)了 0T等 效的狀況。并且,預(yù)先針對若干個(gè)中的2個(gè)聲源,根據(jù)相對于連接2個(gè) 傳聲器的直線的垂直線的位置關(guān)系,準(zhǔn)備分離2個(gè)聲源最佳的波束形成器30、 31的濾波器參數(shù),將來自到來方向估計(jì)部120的大體的2個(gè)聲源 的到來方向信息為基礎(chǔ),通過波束形成控制選擇認(rèn)為是最合適用于分離 當(dāng)前狀況的2個(gè)聲源的波束形成器的濾波器參數(shù),從而可以將所選擇的 波束形成器的濾波器參數(shù)設(shè)定在波束形成器30、波束形成器31。圖25示出指向性控制部140的構(gòu)成例。圖25(a)所示的構(gòu)成例示出 如下例子,在頻域中對每個(gè)頻率成分,使一方傳聲器所取得的信號發(fā)生 一定延遲量id時(shí)的例子。圖25(a)所示的構(gòu)成例的情況下,利用乘法器 100a將x,(co)和e-jcoT相乘,從而實(shí)現(xiàn)延遲操作。并且,想要以時(shí)間區(qū)域 進(jìn)行波束形成的情況下,通過圖25(b)所示的FIR濾波器形式的延遲器 100b進(jìn)行濾波處理即可。另外,也可以不使一方傳聲器輸入發(fā)生延遲,而分別使雙方傳聲器 輸入發(fā)生一半延遲,作為整體實(shí)現(xiàn)相同量的延遲操作。即,不使一方傳 聲器所取得的信號發(fā)生延遲量Td,而使一方傳聲器所取得的信號發(fā)生延 遲量Td/2、使另一方傳聲器所取得的信號發(fā)生延遲量-Td/2,從而使整體 的延遲差為Td。[第6實(shí)施方式]接著,說明第6實(shí)施方式。圖26是表示第6實(shí)施方式的聲源分離系 統(tǒng)的構(gòu)成的圖。本實(shí)施方式涉及的聲源分離系統(tǒng)采用了重視聽覺的結(jié)構(gòu), 考慮了在汽車內(nèi)的免提通話等的應(yīng)用。在汽車內(nèi)搭乘有駕駛者和坐在副 駕席的同乘者的情況等,例如可以使用上述的方式分別提取駕駛席和副 駕席的音頻,但是不能利用上述方法除去空調(diào)的送風(fēng)聲、道路噪聲、進(jìn) 風(fēng)聲等到來方向不明確的音頻或擴(kuò)散性的噪聲。這種情況下,如第4實(shí) 施方式中所述,通過在處理的后階段中引入波譜相減處理,可以除去這 些噪聲的影響,這種方式最適合于不涉及音頻識別等聽覺上的音質(zhì)問題 的用途,然而在適用于免提通話裝置用的傳聲器等時(shí),存在聽覺上殘留 被稱之為音樂噪聲的噪聲的問題。本發(fā)明中,以連接2個(gè)傳聲器10、 11的直線的垂直線為中心,分離左右音頻,因此,有時(shí)會出現(xiàn)擴(kuò)散性的噪 聲等其他音頻的指向性不斷地改變的噪聲的情況、不規(guī)則地分為左右的 分離結(jié)果而導(dǎo)致音質(zhì)下降的情況。
因此,在本實(shí)施方式中,本發(fā)明涉及的聲源分離方式利用不受傳聲 器增益的時(shí)間變化影響的情況,將通常在陣列傳聲器處理的后階段中使 用的主濾波器處理引入到波束形成處理的前階段,降低擴(kuò)散性噪聲、定 常噪聲等,防止聲源分離后產(chǎn)生音樂噪聲。
接著,說明第7實(shí)施方式。圖27是示出第7實(shí)施方式的聲源分離系 統(tǒng)的構(gòu)成的圖。該聲源分離系統(tǒng)構(gòu)成為使用3個(gè)傳聲器10、 11、 12分離 3個(gè)聲源。在該圖27中,使用傳聲器10和傳聲器12,傳聲器10和傳聲 器12,分別以連接2個(gè)傳聲器的直線的垂直線為中心分離左右的聲源信 號,使用共計(jì)4個(gè)使用2組傳聲器進(jìn)行分離的聲源信號,利用目標(biāo)聲提 取部160最終分離出從傳聲器10、傳聲器11的正面方向附近到來的聲源 R3。
使用圖28說明以該構(gòu)成分離的聲源,如圖28所示,以連接2個(gè)傳 聲器的直線的垂直線a和垂直線b為中心,可以分離從垂直線的左右到 來的聲源。圖28中,假設(shè)在區(qū)A、 B、 C的各區(qū)域存在聲源,則能夠使 用垂直線a,分離從區(qū)A和區(qū)B、 C的區(qū)域到來的聲源信號,能夠使用垂 直線b,分離從區(qū)A、 B和區(qū)C到來的聲源。圖27中,進(jìn)行這些分離的 模塊為分離部b0和分離部bl。分離部b0從重疊了 3個(gè)聲源的信號分離 來自區(qū)A的區(qū)域的聲源信號Sa(co)和來自區(qū)B、 C區(qū)域的聲源信號 SBmix(CO)、 SCBmix(O))所混合的信號,分離部bl也可以同樣地分離來自區(qū)A、 B區(qū)域的聲源信號SAmk(CO)、 S^ix(CO)所混合的信號和來自區(qū)C區(qū)域的聲
源信號Sc(co),可以在該步驟中分離出Sa(co)和Sc( )。根據(jù)采用這種方式 得到的4個(gè)信號,在功率譜區(qū)域中利用目標(biāo)聲提取部160進(jìn)行預(yù)定操作,
從而能夠求出SB(0))。但是,在此,Sa^(CO)、 SBmix(CO)、 Scmix(CO)表示與其
他信號混合時(shí)的各信號。
上述中,以區(qū)D中沒有聲源信息或即使有電平也很低為前提,然而當(dāng)區(qū)D中存在聲源的情況下,通過在3個(gè)傳聲器10、 11、 12中使用指向 性傳聲器,可以大幅度地減少從區(qū)D混入聲源信號。
圖29示出單一指向性傳聲器的設(shè)置例,通常使用這種指向性傳聲器
時(shí),在陣列傳聲器的波束形成部中,由于各傳聲器之間的指向性的偏差 等導(dǎo)致不能發(fā)揮設(shè)計(jì)時(shí)的性能,然而在本方式中,能夠與原本不受傳聲 器的元件靈敏度偏差影響的情況同樣地實(shí)現(xiàn)不受指向特性的偏差影響的 一定性能。
參照圖30 32,詳細(xì)說明目標(biāo)聲提取部160中的處理方式。圖30 所示的處理方式,與雙信道的波譜相減處理相同的處理方式。即,作為 一方信道信號,求出目標(biāo)聲和干擾聲之間的功率譜之和,作為單方的信 道信號,求出干擾聲的功率譜,因此,通過利用減法器100a進(jìn)行減法運(yùn)
算,能夠求出目標(biāo)聲SB(CO)。
圖31所示的處理方式可以求出2個(gè)在目標(biāo)聲中重疊了干擾聲的音 頻,因此利用加法器101b將它們相加,從而將目標(biāo)聲的功率譜信息設(shè)為 2倍大小,另一方面,利用加法器101a將干擾聲彼此相加,從而求出干 擾聲的功率譜,利用乘法器lOlc對該功率普相乘一定因子(O.E.F 1 2), 利用減法器101d從加法器101b的輸出計(jì)算差分,從而提取出目標(biāo)聲。 另外,在減法器101d的輸出的階段中,由于音量比原音頻信號大,因此, 通過電平調(diào)整部101e調(diào)整電平。
圖32所示的處理方式中,替代圖31所示的加法器101a、 101b,使 用最小值計(jì)算102a、 102b。另外,在圖31中,O.E.F大多在大于1.0的 情況下音質(zhì)良好,在圖32中,O.E.F優(yōu)選為l.O左右。另外,圖32中進(jìn) 行了最小值計(jì)算,但也可以替代最小值計(jì)算,進(jìn)行最大值計(jì)算。
并且,想要分離的目標(biāo)聲源的位置從利用本方法得到的最佳的分離 性能的位置偏離較大的情況,如第5實(shí)施方式中所說明的,使從傳聲器 輸出的輸入信號發(fā)生延遲,虛擬地改變聲源的到來方向,從而可以以得 到盡可能最佳的分離性能的方式進(jìn)行操作。
圖33示出本實(shí)施方式的聲源分離系統(tǒng)的使用例。在向個(gè)人計(jì)算機(jī)輸 入音頻的用途中,使用3個(gè)傳聲器10、 11、 12,以較小的安裝面積,具有指向性地獲得來自個(gè)人計(jì)算機(jī)正面的音頻。 [第8實(shí)施方式]
接著,說明第8實(shí)施方式。在上述的實(shí)施方式中,說明了如下的2 個(gè)實(shí)施方式(1)使用2個(gè)傳聲器,以連接傳聲器之間的直線為中心,將 來自左右的音頻分離;(2)使用3個(gè)傳聲器,將來自正面的音頻和來自左 右的音頻分離,但如圖34所示,也存在如下情況使用2個(gè)傳聲器10、 11,分離提取來自連接2個(gè)傳聲器10、 11的直線的正面方向的音頻。
該情況下,通過指向性控制單元如圖35 (b)所示,使來自2個(gè)傳 聲器IO、 11之中一方傳聲器的輸出信號發(fā)生延遲,虛擬地制作第3信道 的傳聲器位置,可以虛擬地實(shí)現(xiàn)圖35 (a)所示的3個(gè)傳聲器輸入。圖 36中示出進(jìn)行以圖35所示的延遲操作的指向性控制單元的構(gòu)成例。圖中, Di (i=l、 2、 3、 4)表示延遲元件,實(shí)際的延遲操作可以以時(shí)間區(qū)域進(jìn)行 延遲操作,也可以在進(jìn)行波譜分析之后以頻域進(jìn)行延遲操作。
圖37示出本實(shí)施方式涉及的聲源分離裝置系統(tǒng)的構(gòu)成例。指向性 控制單元141、 142由波譜分析部20、 21和進(jìn)行延遲處理的延遲元件構(gòu) 成。作為處理順序,可以先進(jìn)行波譜分析處理之后進(jìn)行延遲處理(圖中 的Type 1);也可以在進(jìn)行延遲處理之后,進(jìn)行波譜分析處理(圖中的 Type2)。指向性控制單元141、 142的輸出信號在本方法NBF之后的模 塊被波束形成器30、 31、功率計(jì)算部40、 41等進(jìn)行處理,處理后的信號 輸入到目標(biāo)聲提取部52。
圖38和圖39示出目標(biāo)聲提取部52中的處理方式的一例。圖38示 出9i和62是相對于連接傳聲器11、 12的直線的垂直線對稱的角度時(shí)的 處理方式的一例,圖39示出9i和02不是相對于所述垂直線對稱的角度 時(shí)的處理方式的一例。
接著,說明第9實(shí)施方式。圖40是示出第9實(shí)施方式涉及的車載設(shè) 備控制用音頻識別系統(tǒng)的構(gòu)成的圖。本實(shí)施方式中,示出在設(shè)置于汽車 等車輛的車載設(shè)備控制用音頻識別系統(tǒng)上應(yīng)用了本發(fā)明的聲源分離裝置 l的例子。本應(yīng)用例中,利用2個(gè)傳聲器10、 ll取得駕駛席和副駕席的音頻,利用聲源分離裝置1將駕駛席和副駕席的音頻分離,分別對分離 出的駕駛席和副駕席的音頻進(jìn)行講話區(qū)間檢測、音頻識別處理,根據(jù)音 頻識別結(jié)果和汽車行駛狀態(tài)或其他駕駛狀態(tài),使用有效的識別結(jié)果,進(jìn) 行設(shè)備控制、系統(tǒng)響應(yīng)等,從而提高車載設(shè)備控制用音頻識別系統(tǒng)的可 靠性和車載設(shè)備控制用音頻識別系統(tǒng)的響應(yīng)的自由性的擴(kuò)張等。
對于車載設(shè)備控制用音頻識別系統(tǒng),作為本系統(tǒng)的特征數(shù)據(jù),存儲 裝置中存儲有副駕席側(cè)識別詞匯列表190、駕駛席側(cè)識別詞匯列表191、
副駕席側(cè)有效詞匯列表210、以及駕駛席側(cè)有效詞匯列表211。駕駛席側(cè) 識別詞匯列表191是從駕駛席側(cè)發(fā)出的詞匯的候補(bǔ)一覽,副駕席側(cè)識別 詞匯列表190是從副駕席側(cè)發(fā)出的詞匯的候補(bǔ)一覽。駕駛席側(cè)有效詞匯 列表211是與車輛的狀態(tài)(汽車行駛狀態(tài)或其他駕駛狀態(tài))對應(yīng)的駕駛 席側(cè)的有效詞匯列表。副駕席側(cè)有效詞匯列表210是與車輛狀態(tài)對應(yīng)的 副駕席側(cè)的有效詞匯列表。此處,"有效"是允許輸出與詞匯(音頻命令) 對應(yīng)的控制命令的狀態(tài)。
使用圖40,說明本系統(tǒng)的動作,駕駛者和副駕席的同乘者所講話的 音頻被2個(gè)傳聲器10、 11收錄,利用聲源分離裝置1分離成駕駛席和副 駕席的音頻之后,分別輸入到作為駕駛者用、副駕席的同乘者用而準(zhǔn)備 的講話區(qū)間檢測部170、 171、音頻識別部180、 181。此時(shí),本發(fā)明的聲 源分離裝置l的輸出中,2人的音頻能夠被高精度地分離,因此,副駕席 側(cè)講話區(qū)間檢測部170、駕駛席側(cè)講話區(qū)間檢測部171能夠高精度地分離 出兩者的講話區(qū)間,同時(shí),可以對副駕席側(cè)音頻識別部180、駕駛席側(cè)音 頻識別部181賦予抑制了對方的音頻的信息,能夠高精度地不受對方講 話影響地進(jìn)行音頻識別處理。
本應(yīng)用例中,分別向各音頻識別部180、 181專門提供用于指示與系 統(tǒng)狀態(tài)無關(guān)地應(yīng)識別怎樣的詞匯的副駕席側(cè)識別詞匯列表190、駕駛席側(cè) 識別詞匯列表191,各音頻識別部180、 181按照該詞匯列表進(jìn)行音頻識 別處理,將音頻識別結(jié)果輸出到控制部'狀態(tài)轉(zhuǎn)換部200。
控制部"狀態(tài)轉(zhuǎn)換部200所具備的狀態(tài)轉(zhuǎn)換部201根據(jù)音頻識別結(jié)果 以及當(dāng)前的狀態(tài),轉(zhuǎn)換到下一狀態(tài)??刂撇?狀態(tài)轉(zhuǎn)換部200所具備的控制部202中,根據(jù)從狀態(tài)轉(zhuǎn)換部201得到的當(dāng)前狀態(tài)和來自音頻識別部180、 181的音頻識別結(jié)果,根據(jù)副駕席側(cè)、駕駛席側(cè)分別準(zhǔn)備的副駕席 側(cè)有效詞匯列表210、駕駛席側(cè)有效詞匯列表211,調(diào)查響應(yīng)哪個(gè)音頻命 令(輸出控制命令)較好。該圖所示的有效詞匯列表210、 211中,對狀態(tài) 和音頻命令的組合以"〇"對應(yīng)起來的情況下,表示可響應(yīng)音頻命令。 例如,在駕駛席側(cè),狀態(tài)為"駕駛中"的情況下,允許響應(yīng)的音頻命令 為"更加"、"開燈"、"安靜",并且,禁止"空調(diào)操作"、"CD"、 "MD"。而且,僅響應(yīng)被允許的音頻命令,進(jìn)行操作空調(diào)或幵燈的控制,從 而車輛的搭乗者能夠在車內(nèi)愉快地度過。并且,能夠提高車載設(shè)備控制 用音頻識別系統(tǒng)的可靠性的同時(shí),可以對使用了音頻識別的應(yīng)用程序制 作更多地提供規(guī)格設(shè)計(jì)的自由度。根據(jù)以上的使用例,可以同時(shí)識別出從駕駛席和副駕席的同乘者同 時(shí)講話的音頻,在任何1人講話的情況下,仍可以可靠地檢測是來自駕 駛席側(cè)的講話還是來自副駕席側(cè)的講話,進(jìn)行識別,因此,能夠不限制 同乘者的行動,個(gè)別設(shè)計(jì)出說話人和針對該說話人的音頻命令的響應(yīng)。[第10實(shí)施方式]接著,說明第10實(shí)施方式。圖41示出本實(shí)施方式的移動電話機(jī)300。 移動電話機(jī)300上搭載有傳聲器10、 ll和未圖示的聲源分離裝置。該移 動電話機(jī)300通常用于可視電話,但是,也可以切換模式,用作集聲傳 聲器。圖41 (a)是示出傳聲器IO、 11作為可視電話用傳聲器工作時(shí)的 情況的圖,圖41 (b)是示出傳聲器IO、 11作為集聲傳聲器工作時(shí)的情 況的圖。可以在中規(guī)模的會議室等中,即不是發(fā)言者要使用傳聲器那樣 的大規(guī)模的會議室、且房間較大聲音較小時(shí)難以聽到發(fā)言者的聲音的場 景下使用。如上述說明,相互隔開設(shè)置最少2個(gè)傳聲器,在以連接2個(gè)傳聲器 的直線的垂直線為中心成左右對稱的角度上利用波束形成器以時(shí)間區(qū)域 或頻域形成死角,在以時(shí)間區(qū)域形成死角的情況下,變換成頻域,計(jì)算 出雙方的波束形成的功率譜的差分,對所得到的結(jié)果進(jìn)行系數(shù)變換,從 而以左右的死角為中心形成具有寬度的指向特性,進(jìn)行聲源分離。這樣,能夠?qū)崿F(xiàn)指向特性不受傳聲器的元件靈敏度影響的性質(zhì),不受傳聲器的 元件靈敏度的偏差影響,對于與聲源到來方向的假想方向之間的偏差以 及較大的初始反射,通過適當(dāng)通過寬的指向特性來覆蓋,可以實(shí)現(xiàn)穩(wěn)定 的2個(gè)聲源的分離特性。 [第ll實(shí)施方式]接著,說明第11實(shí)施方式。圖42中示出了如下例子想要提取的目標(biāo)聲存在于區(qū)A (例如駕駛席的區(qū)),而除此之外的位置(區(qū)B、區(qū)C、 區(qū)D)存在干擾聲的狀況下,提取區(qū)A的目標(biāo)聲。使用了本方法的陣列 傳聲器2001 (例如,在車室內(nèi)配置于前方(例如設(shè)定在室內(nèi)鏡上))的情 況下,可以分離區(qū)A/C (例如駕駛席以及其后部座席的區(qū))和區(qū)B/D (例 如副駕席以及其后部座席的區(qū))中存在的音頻,但不能分離區(qū)A (例如 駕駛席的區(qū))和區(qū)C (例如其后部座席的區(qū))中存在的聲音。但是,通 過將使用了本方法的陣列傳聲器2002如圖所示配置于區(qū)A/B和區(qū)C/D的 邊界的位置,從而可以分離出存在于區(qū)A/B和區(qū)C/D的聲音,因此,可 以僅提取區(qū)A的聲音。具體地說,位于區(qū)A,B,C,D的說話人A,B,C,D同時(shí)講話時(shí),首先可 以使用配置于區(qū)A/B和區(qū)C/D的邊界上的陣列傳聲器2002,分離來自區(qū) A/B的聲音和來自區(qū)C/D的聲音。接著,利用陣列傳聲器2001,分離來 自區(qū)A/C的聲音和來自區(qū)B/D的聲音。最后以各頻域比較使用陣列傳聲 器2001求出的來自區(qū)A/C的聲音和使用陣列傳聲器2002求出的來自區(qū) A/B的聲音,將雙方共同的頻率成分作為來自區(qū)A的聲音進(jìn)行分離。通 過同樣的處理,可以獨(dú)立求出來自各區(qū)B,C,D的聲音。[第l2實(shí)施方式]接著,說明第12實(shí)施方式。圖43假設(shè)了在汽車等的環(huán)境下通過音 頻識別操作設(shè)備的狀況。圖44示出此時(shí)的設(shè)備操作的導(dǎo)向音頻和說話人 的音頻之間的關(guān)系。這種情況下,以催促說話人A講話的定時(shí)的目的從揚(yáng)聲器15發(fā)出"請 講目的地"等導(dǎo)向聲之后,發(fā)出機(jī)械聲例如"噼"等聲音,然后,說話 人A發(fā)出音頻命令。但是,隨著用戶習(xí)慣于利用音頻命令操作設(shè)備,如圖44所示,發(fā)生在導(dǎo)向音頻中存在說話人A開始講話的狀況,導(dǎo)致音頻 識別性能下降。作為針對這種狀況的對策,通常,使用回波消除器,自適應(yīng)地估計(jì) 來自傳聲器10的收錄聲中混有的導(dǎo)向音頻并除去,以進(jìn)行對應(yīng)。另外,作為其他對策,如圖45 圖48所示,對于頻率分析后輸入到向傳聲器 IO的I個(gè)輸入信號,進(jìn)行波譜相減(圖45、圖46),對每個(gè)頻率成分估 計(jì)導(dǎo)向音頻和說話人A的音頻中的哪一種音頻包含較多,僅將包含較多 說話人A的音頻的頻率成分作為說話人A的音頻取出(圖47、圖48)。在此,圖45、圖47中,濾波器部1001是模擬了從揚(yáng)聲器15至傳 聲器10的音頻反射脈沖的濾波器,使用預(yù)先求出的從揚(yáng)聲器15到傳聲 器10的脈沖響應(yīng),也可以通過自適應(yīng)濾波處理自動求出。圖45中的增益操作部1002是用于確定在進(jìn)行波譜相減時(shí)使用的過 減因子(over-subtraction factor)的部分,根據(jù)揚(yáng)聲器15的音量,從l IO左右的增益選擇使用。并且,圖45中的、目標(biāo)音頻提取部1003根據(jù)增益操作部1002和波 譜分析部21的輸出,進(jìn)行圖46所示的處理,將處理結(jié)果的信號輸出到 時(shí)間波形變換部1004。圖47中的、閾值計(jì)算部1011根據(jù)導(dǎo)向音頻的平均能量,確定閾值th。并且,圖47中的、目標(biāo)音頻提取部1012根據(jù)閾值計(jì)算部1011和波 譜分析部21的輸出,進(jìn)行圖48所示的處理,將處理結(jié)果的信號輸出到 時(shí)間波形變換部1004。另外,如圖48所示的th^是用于判斷該圖所示 的X^(co:i為有效輸入的閾值。并且,時(shí)間波形變換部1004進(jìn)行與第一實(shí)施方式中的時(shí)間波形變換 部70、 71相同的處理。但是,在以往方式中,如圖43所示,僅有說話人A進(jìn)行講話的狀況 下,可以通過上述方式的構(gòu)成進(jìn)行對應(yīng),然而如圖49所示,除了說話人 A (例如駕駛席的乘員)之外還存在說話人B (例如,副駕席的乘員)時(shí), 如圖50所示,有時(shí)除了說話人A之外,說話人B也進(jìn)行某些講話,然而上述方式不能對應(yīng)這種狀況。針對這種狀況,可以將圖51所示的本方法和圖45或圖47中示出的 導(dǎo)向音頻刪除部1021 、 1022進(jìn)行組合來對應(yīng)。具體地講,在圖51中,從車內(nèi)的揚(yáng)聲器15再生導(dǎo)向音頻,同時(shí)在 說話人A、說話人B也正在講話的狀況下,向傳聲器10和傳聲器11重 疊輸入導(dǎo)向音頻、說話人A的講話音頻、說話人B的講話音頻。此時(shí), 在導(dǎo)向音頻刪除部1021和導(dǎo)向音頻刪除部1022中,通過圖45或圖47 中所示的方法,除去導(dǎo)向音頻,其結(jié)果,將說話人A的音頻和說話人B 的音頻這兩者音頻重疊的信號作為結(jié)果輸出。并且,在此,為了節(jié)省作 為后處理使用的向本方法輸入時(shí)的計(jì)算,不返回為時(shí)間波形,保持頻率 成分的狀態(tài)下,輸入到本方法(圖1)。在后階段的本方法中,作為輸入, 輸入頻率成分信息,因此,省略波譜分析部的處理,直接向波束形成部 輸入,應(yīng)用本方法,進(jìn)行處理,從而作為輸出結(jié)果,能夠個(gè)別地得到說 話人A的音頻和說話人B的音頻,能夠大幅度地?cái)U(kuò)大音頻識別裝置的可 靠性、提高性能和應(yīng)用程序的自由度。并且,通過上述的各種功能的組合或來自傳聲器的信號的延遲操作, 實(shí)現(xiàn)在正面方向狹窄的指向特性,或者可以僅檢測到來自特定方向的聲 源信號。加上,即使不擴(kuò)大傳聲器間隔,也能夠在到低頻區(qū)域?yàn)橹沟念l域確 保高分離性質(zhì),可以減少安裝空間,可以用于便攜設(shè)備等。另外,在上述的實(shí)施方式中,說明了利用程序?qū)崿F(xiàn)聲源分離系統(tǒng)的 各功能模塊的例子,然而,也可以通過使用電路等,以硬件實(shí)現(xiàn)。產(chǎn)業(yè)上的可利用性可利用于音頻識別裝置、導(dǎo)航裝置、集聲裝置、錄音裝置、利用音 頻命令的設(shè)備控制等、需要高精度分離聲源的所有產(chǎn)業(yè)。
權(quán)利要求
1.一種聲源分離裝置,所述聲源分離裝置向相互分開配置的至少2個(gè)傳聲器輸入混合有從多個(gè)聲源發(fā)出的聲源信號的混音,從該混音中分離出來自目標(biāo)聲源的聲源信號,所述聲源分離裝置的特征在于,所述聲源分離裝置具備波束形成單元,其進(jìn)行第一波束形成處理和第二波束形成處理,其中,在所述第一波束形成處理中,使用第一系數(shù)對來自所述傳聲器的輸出信號進(jìn)行運(yùn)算,從而使從預(yù)定方向到來的聲源信號衰減,在所述第二波束形成處理中,使用第二系數(shù)對來自所述傳聲器的輸出信號進(jìn)行運(yùn)算,從而使從相對于連接2個(gè)傳聲器的直線的垂直線、與所述預(yù)定方向?qū)ΨQ的方向到來的聲源信號衰減,其中,所述第二系數(shù)與所述第一系數(shù)在頻域上滿足復(fù)共軛關(guān)系,功率計(jì)算單元,其分別計(jì)算通過所述波束形成單元得到的聲源信號的功率譜信息;以及目標(biāo)聲譜提取單元,其根據(jù)由所述功率計(jì)算單元計(jì)算出的功率譜信息彼此之間的差分,提取目標(biāo)聲源的波譜信息。
2. 根據(jù)權(quán)利要求1所述的聲源分離裝置,其特征在于,所述波束形 成單元對相互分開配置的3個(gè)傳聲器之中任意2個(gè)傳聲器的組合以及另 外2個(gè)傳聲器組合分別進(jìn)行所述第一波束形成處理和所述第二波束形成 處理。
3. 根據(jù)權(quán)利要求1或2所述的聲源分離裝置,其特征在于,所述聲 源分離裝置還具備指向性控制單元,所述指向性控制單元使來自傳聲器 的輸出信號發(fā)生延遲。
4. 根據(jù)權(quán)利要求3所述的聲源分離裝置,其特征在于,所述指向性 控制單元使來自2個(gè)傳聲器之中的至少一個(gè)傳聲器的輸出信號發(fā)生延遲, 從而虛擬生成來自3個(gè)傳聲器的輸出信號。
5. 根據(jù)權(quán)利要求3或4所述的聲源分離裝置,其特征在于, 所述聲源分離裝置還具備到來方向估計(jì)單元,該到來方向估計(jì)單元估計(jì)所述聲源信號到來的方向,所述指向性控制單元根據(jù)通過所述到來方向估計(jì)單元估計(jì)的到來方 向,使該來自傳聲器的輸出信號發(fā)生延遲,使得2個(gè)聲源的位置相對于虛擬地連接2個(gè)傳聲器的直線的垂直線對稱。
6. 根據(jù)權(quán)利要求1 5中的任意一項(xiàng)所述的聲源分離裝置,其特征在 于,所述聲源分離裝置還具備波譜相減單元,該波譜相減單元對通過所 述目標(biāo)聲提取單元提取的功率譜信息進(jìn)行波譜相減處理。
7. 根據(jù)權(quán)利要求1 6中的任意一項(xiàng)所述的聲源分離裝置,其特征在 于,所述聲源分離裝置還具備定常噪聲降低單元,該定常噪聲降低單元 在所述波束形成單元進(jìn)行處理之前進(jìn)行降低噪聲的處理。
8. —種具備對通過權(quán)利要求1 7中的任意一項(xiàng)所述的聲源分離裝置 分離出的聲源信號進(jìn)行音頻識別的音頻識別單元的音頻識別裝置。
9. 根據(jù)權(quán)利要求8所述的音頻識別裝置,其特征在于, 所述音頻識別裝置還具備識別詞匯列表存儲單元,在所述識別詞匯列表存儲單元中存儲有駕駛席側(cè)識別詞匯列表和副駕席側(cè)識別詞匯列 表,其中,所述駕駛席側(cè)識別詞匯列表是從車輛的駕駛席側(cè)發(fā)出的詞匯 的候選一覽,所述副駕席側(cè)識別詞匯列表是從副駕席側(cè)發(fā)出的詞匯的候 選一覽,所述音頻識別單元根據(jù)在所述識別詞匯列表存儲單元中存儲的駕駛 席側(cè)識別詞匯列表和副駕席側(cè)識別詞匯列表,對通過所述聲源分離裝置 分離出的聲源信號進(jìn)行音頻識別處理。
10. 根據(jù)權(quán)利要求8或9所述的音頻識別裝置,其特征在于,所述音 頻識別裝置還具備狀態(tài)變換單元,其管理當(dāng)前的車輛狀態(tài);有效詞匯列表存儲單元,其存儲與車輛狀態(tài)對應(yīng)的副駕席側(cè)和駕駛 席側(cè)的有效詞匯列表;以及控制單元,其根據(jù)由所述狀態(tài)變換單元管理的當(dāng)前的車輛狀態(tài)和在所述有效詞匯列表存儲單元中存儲的詞匯列表,判斷通過所述音頻識別 單元識別出的詞匯是否有效,根據(jù)其判斷結(jié)果,進(jìn)行控制。
11. 一種具備權(quán)利要求1 7中的任意一項(xiàng)所述的聲源分離裝置的移 動電話機(jī)。
12. —種聲源分離方法,其特征在于,所述聲源分離方法包括 聲源信號接收步驟,向相互分開配置的至少2個(gè)傳聲器輸入從多個(gè)聲源發(fā)出的聲源信號;波束形成處理步驟,進(jìn)行第一波束形成處理和第二波束形成處理, 其中,在所述第一和第二波束形成處理中,使用頻域中滿足復(fù)共軛關(guān)系 的2個(gè)權(quán)重系數(shù)分別對來自所述傳聲器的輸出信號進(jìn)行運(yùn)算,從而分別 使從相對于連接2個(gè)傳聲器的直線的垂直線對稱的預(yù)定方向到來的聲源 信號衰減,功率計(jì)算步驟,分別對在所述波束形成處理步驟中得到的聲源信號計(jì)算功率譜信息;以及目標(biāo)聲譜提取步驟,根據(jù)在所述功率計(jì)算步驟中計(jì)算出的功率譜信 息彼此之間的差分,提取目標(biāo)聲源的波譜信息。
13. —種程序,其特征在于,所述程序使計(jì)算機(jī)執(zhí)行如下步驟 輸出信號取得步驟,從相互分開配置的至少2個(gè)傳聲器取得混合有從多個(gè)聲源發(fā)出的聲源信號的輸出信號;波束形成處理步驟,進(jìn)行第一波束形成處理和第二波束形成處理, 其中,在所述第一和第二波束形成處理中,使用頻域中滿足復(fù)共軛關(guān)系 的2個(gè)權(quán)重系數(shù)分別對在所述輸出信號取得步驟中取得的輸出信號進(jìn)行 運(yùn)算,從而分別使從相對于連接2個(gè)傳聲器的直線的垂直線對稱的預(yù)定 方向到來的聲源信號衰減,功率計(jì)算步驟,分別對在所述波束形成處理步驟中得到的聲源信號 計(jì)算功率譜信息;以及目標(biāo)聲譜提取步驟,根據(jù)在所述功率計(jì)算步驟中計(jì)算出的功率譜信 息彼此之間的差分,提取目標(biāo)聲源的波譜信息。
全文摘要
本發(fā)明提供一種聲源分離裝置、音頻識別裝置、移動電話機(jī)、聲源分離方法、以及程序,其不受傳聲器元件的靈敏度偏差影響地從混合有從多個(gè)聲源發(fā)出的聲源信號的混音中分離來自目標(biāo)聲源的聲源信號。聲源分離裝置(1)的波束形成部(3)對波譜分析后的來自傳聲器(10、11)的輸出信號乘以存在復(fù)共軛關(guān)系的權(quán)重系數(shù),從而進(jìn)行分別使從與連接2個(gè)傳聲器(10、11)的直線的垂直線成對稱的方向到來的聲源信號衰減的波束形成處理。功率計(jì)算部(40、41)計(jì)算功率譜信息,目標(biāo)聲譜提取部(50、51)根據(jù)功率譜信息彼此的差分提取目標(biāo)聲源的波譜信息。
文檔編號H04R1/40GK101238511SQ20068002850
公開日2008年8月6日 申請日期2006年8月11日 優(yōu)先權(quán)日2005年8月11日
發(fā)明者松井信也, 長濱克昌 申請人:旭化成株式會社