聲音處理設(shè)備、方法以及程序的制作方法
【專利摘要】本發(fā)明公開了一種聲音處理設(shè)備和聲音處理方法。該聲音處理設(shè)備包括因子分解單元和提取單元。因子分解單元被配置成將通過對(duì)多個(gè)聲道的聲音信號(hào)進(jìn)行時(shí)間頻率變換而獲得的頻率信息因子分解成表示聲道方向的屬性的聲道矩陣、表示頻率方向的屬性的頻率矩陣以及表示時(shí)間方向的屬性的時(shí)間矩陣。提取單元被配置成將聲道矩陣與閾值進(jìn)行比較,并且從聲道矩陣、頻率矩陣及時(shí)間矩陣提取由該比較的結(jié)果指定的分量,以生成關(guān)于來自所期望的聲音源的聲音的頻率信息。
【專利說明】聲音處理設(shè)備、方法以及程序
[0001] 相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求2013年4月25日提交的日本優(yōu)先權(quán)專利申請(qǐng)JP2013-092748的優(yōu)先 權(quán),其全部?jī)?nèi)容通過引用結(jié)合在本文中。
【技術(shù)領(lǐng)域】
[0003] 本技術(shù)涉及聲音處理設(shè)備、方法以及程序,更具體地,涉及能夠更容易地和更可靠 地進(jìn)行聲音源分離的聲音處理設(shè)備、方法以及程序。
【背景技術(shù)】
[0004] 已知技術(shù)將從多個(gè)聲音源輸出的聲音分離成各個(gè)聲音源的聲音。
[0005] 例如,已提出了背景聲音分離器(例如,見日本專利申請(qǐng)公開No. 2012-205161)作 為用于建立聲音通信裝置的真實(shí)感的傳輸和聲音清晰度的增強(qiáng)二者的基本技術(shù)。該背景聲 音分離器使用最小值檢測(cè)、僅背景聲音間隔中的譜平均等來估計(jì)穩(wěn)定的背景聲音。
[0006] 此外,已提出了能夠?qū)碜脏徑穆曇粼吹穆曇襞c來自彼此遠(yuǎn)離的聲音源的聲音 進(jìn)行適當(dāng)分離的聲音分離裝置(例如,見日本專利申請(qǐng)公開No. 2012-238964)作為聲音源分 離技術(shù)。該聲音分離裝置使用兩個(gè)麥克風(fēng)即鄰近的聲音源麥克風(fēng)(NFM)和遠(yuǎn)離的聲音源麥 克風(fēng)(FFM),通過獨(dú)立的分量分析進(jìn)行聲音源分離。
【發(fā)明內(nèi)容】
[0007] 另外,當(dāng)同時(shí)輸入接近麥克風(fēng)的較低聲音(下文中也被稱為局部聲音)和遠(yuǎn)離麥克 風(fēng)的響亮聲音(下文中也被稱為全局聲音)時(shí),需要分辨出局部聲音與全局聲音并且將局部 聲音與全局聲音彼此分離。
[0008] 然而,例如在將局部聲音與全局聲音彼此分離時(shí),上面的技術(shù)難以容易且可靠地 進(jìn)行聲音源分離。
[0009] 例如,背景聲音通常不只包括穩(wěn)定的分量,而是還包括許多不穩(wěn)定的分量,如作為 局部聲音的談話聲和撕撕聲。因此,日本專利申請(qǐng)公開No. 2012-205161中所描述的背景聲 音分離器難以去除不穩(wěn)定的分量。
[0010] 此外,理論上難以通過獨(dú)立的分量分析將數(shù)量大于麥克風(fēng)數(shù)量的聲音源分離。具 體地,在相關(guān)技術(shù)中,可以通過使用兩個(gè)麥克風(fēng)將聲音分離成全局聲音和局部聲音的兩個(gè) 聲音源,但是難以將局部聲音彼此分離開以及將聲音分離成總共三個(gè)聲音源。因此,例如, 難以吸收接近特定麥克風(fēng)的局部聲音。
[0011] 此外,由于日本專利申請(qǐng)公開No. 2012-238964中所描述的聲音分離裝置期望使 用兩種類型的特殊麥克風(fēng)(FFM和NFM),因此限制了麥克風(fēng)的數(shù)量和類型,并且聲音源分離 裝置只被用于有限的目的。
[0012] 本技術(shù)鑒于上述情況并且因此期望更容易且可靠地進(jìn)行聲音源分離。
[0013] 根據(jù)本技術(shù)的實(shí)施方式的聲音處理設(shè)備包括因子分解單元和提取單元。因子分解 單元被配置成將通過對(duì)多個(gè)聲道的聲音信號(hào)進(jìn)行時(shí)間頻率變換而獲得的頻率信息因子分 解成表示聲道方向的屬性的聲道矩陣、表示頻率方向的屬性的頻率矩陣以及表示時(shí)間方向 的屬性的時(shí)間矩陣。提取單元被配置成將聲道矩陣與閾值進(jìn)行比較,并且從聲道矩陣、頻率 矩陣及時(shí)間矩陣提取由該比較的結(jié)果指定的分量,以生成關(guān)于來自所期望的聲音源的聲音 的頻率信息。
[0014] 提取單元可以基于通過時(shí)間頻率變換獲得的頻率信息、聲道矩陣、頻率矩陣及時(shí) 間矩陣來生成關(guān)于來自聲音源的聲音的頻率信息。
[0015] 可以基于聲音源的位置與聲音采集單元的位置之間的關(guān)系來設(shè)置閾值,該聲音采 集單元被配置成采集各個(gè)聲道的聲音信號(hào)的聲音。
[0016] 可以針對(duì)聲道中的每個(gè)聲道設(shè)置閾值。
[0017] 聲音處理設(shè)備還可以包括信號(hào)同步單元,信號(hào)同步單元被配置成使得由不同的裝 置采集的多個(gè)聲音的信號(hào)彼此同步以生成多個(gè)聲道的聲音信號(hào)。
[0018] 因子分解單元可以將頻率信息假設(shè)為以聲道、頻率及時(shí)間幀作為各維度的三維張 量,并且通過張量因子分解將頻率信息因子分解成聲道矩陣、頻率矩陣及時(shí)間矩陣。
[0019] 張量因子分解可以是非負(fù)張量因子分解。
[0020] 聲音處理設(shè)備還可以包括頻率時(shí)間變換單元,頻率時(shí)間變換單元被配置成對(duì)提取 單元所獲得的關(guān)于來自聲音源的聲音的頻率信息進(jìn)行頻率時(shí)間變換,以生成多個(gè)聲道的聲 音信號(hào)。
[0021] 提取單元可以生成包含來自一個(gè)所期望的聲音源或多個(gè)所期望的聲音源的聲音 分量的頻率信息。
[0022] 根據(jù)本技術(shù)的實(shí)施方式的聲音處理方法或程序包括:將通過對(duì)多個(gè)聲道的聲音信 號(hào)進(jìn)行時(shí)間頻率變換而獲得的頻率信息因子分解成表示聲道方向的屬性的聲道矩陣、表示 頻率方向的屬性的頻率矩陣以及表示時(shí)間方向的屬性的時(shí)間矩陣;以及將聲道矩陣與閾值 進(jìn)行比較,并且從聲道矩陣、頻率矩陣及時(shí)間矩陣提取由比較的結(jié)果指定的分量,以生成關(guān) 于來自所期望的聲音源的聲音的頻率信息。
[0023] 根據(jù)本技術(shù)的實(shí)施方式,通過對(duì)多個(gè)聲道的聲音信號(hào)進(jìn)行時(shí)間頻率變換而獲得的 頻率信息被因子分解成表示聲道方向的屬性的聲道矩陣、表示頻率方向的屬性的頻率矩陣 以及表示時(shí)間方向的屬性的時(shí)間矩陣。此外,將聲道矩陣與閾值進(jìn)行比較,并且從聲道矩 陣、頻率矩陣及時(shí)間矩陣提取由比較的結(jié)果指定的分量,以生成關(guān)于來自所期望的聲音源 的聲音的頻率信息。
[0024] 根據(jù)本技術(shù)的實(shí)施方式,可以更容易且更可靠地進(jìn)行聲音源分離。
[0025] 如附圖中所示出的,根據(jù)下面對(duì)本公開內(nèi)容的最佳方式的實(shí)施方式的詳細(xì)描述, 本公開內(nèi)容的這些和其他目的、特征及優(yōu)點(diǎn)將變得更加明顯。
【專利附圖】
【附圖說明】
[0026] 圖1是描述由麥克風(fēng)采集聲音的圖;
[0027] 圖2是示出全局聲音提取設(shè)備的配置示例的圖;
[0028] 圖3是描述輸入復(fù)合譜的圖;
[0029] 圖4是描述輸入復(fù)合譜圖的圖;
[0030] 圖5是描述張量因子分解的圖;
[0031] 圖6是描述聲道矩陣的圖;
[0032] 圖7是描述聲音源提取處理的流程圖;以及
[0033] 圖8是示出計(jì)算機(jī)的配置示例的圖。
【具體實(shí)施方式】
[0034] 在下文中,將參照【專利附圖】
【附圖說明】應(yīng)用了本技術(shù)的實(shí)施例。
[0035] (本技術(shù)的概述)
[0036] 首先,將描述本技術(shù)的概述。
[0037] 例如,當(dāng)在現(xiàn)實(shí)世界中使用麥克風(fēng)記錄信息時(shí),輸入信號(hào)很少是從單個(gè)聲音源發(fā) 出的信號(hào),而通常是從多個(gè)聲音源發(fā)出的信號(hào)被混合在一起的信號(hào)。
[0038] 此外,每個(gè)聲音源組與麥克風(fēng)之間的距離不同。即使在聽到混合聲音時(shí)相同地感 覺到每個(gè)聲音源信號(hào)的聲壓,每個(gè)聲音源信號(hào)的聲音源也未必與麥克風(fēng)分離開相等的距 離。當(dāng)基于距離將每個(gè)聲音源組粗略地分成兩個(gè)組時(shí),一組是具有相對(duì)高的初始聲壓但是 具有較大聲壓衰減的信號(hào)組,另一組是具有相對(duì)低的初始聲壓但是具有較小聲壓衰減的信 號(hào)組。
[0039] 如上所述,具有相對(duì)高的初始聲壓并且具有較大聲壓衰減的信號(hào)是全局聲音的聲 音信號(hào),即,從遠(yuǎn)離麥克風(fēng)的聲音源發(fā)出的響亮的聲音。另一方面,具有相對(duì)低的初始聲壓 并且具有較小聲壓衰減的信號(hào)是局部聲音的聲音信號(hào),即,從接近麥克風(fēng)的聲音源發(fā)出的 較低聲音。
[0040] 當(dāng)由麥克風(fēng)記錄的信號(hào)只有一維時(shí),很難將全局聲音與局部聲音分離。然而,當(dāng)在 同一空間存在多個(gè)麥克風(fēng)時(shí),可以基于每個(gè)麥克風(fēng)的輸入信號(hào)中包含的每個(gè)聲音源信號(hào)的 分量比來將全局聲音與局部聲音分離。
[0041] 在本技術(shù)中,將聲壓比用作為分量比。例如,當(dāng)來自特定聲音源A的聲音的聲壓比 只是在特定的麥克風(fēng)Ml中較大時(shí),可以假設(shè)聲音源A接近麥克風(fēng)Ml。
[0042] 另一方面,當(dāng)從特定聲音源B輸入的信號(hào)對(duì)所有麥克風(fēng)具有相等的聲壓比時(shí),可 以假設(shè)具有高聲壓的聲音源B在遠(yuǎn)處。
[0043] 假設(shè)以某距離布置一組麥克風(fēng)而做出上面的假設(shè)。通過針對(duì)每個(gè)聲音源將信號(hào) 彼此分離開并且基于每個(gè)分離的信號(hào)的聲壓比將信號(hào)分類,可以將全局聲音與局部聲音分 離。
[0044] 此處,在可以接近每個(gè)麥克風(fēng)存在具有相同類型的聲音特征的多個(gè)聲音源的情況 下反駁上面的假設(shè),但是這種情況在現(xiàn)實(shí)世界中很少發(fā)生。
[0045] 在現(xiàn)實(shí)世界中,全局聲音的不例包括具有相對(duì)高的聲壓的信號(hào)的聲音,例如從交 通設(shè)施發(fā)出的聲音、從施工現(xiàn)場(chǎng)發(fā)出的聲音、從體育場(chǎng)館發(fā)出的歡呼聲及樂團(tuán)表演。另一方 面,局部聲音的不例包括具有相對(duì)低的聲壓的信號(hào)的聲音,例如談話聲、腳步聲及撕撕聲。
[0046] 本技術(shù)可應(yīng)用于例如真實(shí)感覺通信等。真實(shí)感覺通信是用于將輸入信號(hào)從安裝在 城鎮(zhèn)中的多個(gè)麥克風(fēng)傳送至遙遠(yuǎn)的地方的技術(shù)。在這種情況下,麥克風(fēng)不一定固定就位并 且假設(shè)麥克風(fēng)包括在由移動(dòng)的人等擁有的移動(dòng)裝置中安裝的麥克風(fēng)。
[0047] 由多個(gè)麥克風(fēng)獲取的聲音信號(hào)可以受到本技術(shù)中的信號(hào)處理,并且米集的聲音被 分類成全局聲音和局部聲音。因此,獲得各種次級(jí)效應(yīng)。
[0048] 為了方便理解,將作為示例描述城鎮(zhèn)圖像提供服務(wù),通過該服務(wù)指定地圖上期望 的地點(diǎn)以顯示在該地點(diǎn)拍攝的城鎮(zhèn)的圖像。在城鎮(zhèn)圖像提供服務(wù)中,城鎮(zhèn)的圖像隨著用戶 移動(dòng)地圖上的地點(diǎn)而改變。因此,用戶可以以如同他/她在實(shí)際地點(diǎn)一樣的感覺來享受對(duì) 地圖的觀看。
[0049]目前,一般的城鎮(zhèn)圖像提供服務(wù)只傳送靜止圖像。然而,當(dāng)假設(shè)開發(fā)提供動(dòng)態(tài)圖像 時(shí),出現(xiàn)了各種問題。例如,問題包括怎樣將由多個(gè)攝像機(jī)獲取的動(dòng)態(tài)圖像集成到一起的問 題以及是否保護(hù)在動(dòng)態(tài)圖像的聲音中所包含的人的聲音的隱私的問題。
[0050] 作為針對(duì)前一問題的對(duì)策,假設(shè)不使用接近每個(gè)麥克風(fēng)的局部聲音并且將具有更 大真實(shí)感覺的全局聲音用作集成聲音。此外,作為針對(duì)后一問題的對(duì)策,假設(shè)刪除并減少了 包含人的聲音的局部聲音或者變換了音質(zhì)。(全局聲音提取設(shè)備的配置不例)
[0051] 接下來,將描述應(yīng)用了本技術(shù)的【具體實(shí)施方式】。在下文中,使用全局聲音提取設(shè)備 作為不例,將描述應(yīng)用了本技術(shù)的全局聲音/局部聲音分離設(shè)備。注意的是,雖然全局聲音 /局部聲音分離設(shè)備當(dāng)然能從由麥克風(fēng)米集的聲音中只提取特定局部聲音的聲音信號(hào),但 是將給出只提取全局聲音的情況下的以下描述作為示例。
[0052] 全局聲音提取設(shè)備是這樣的設(shè)備:在由多個(gè)麥克風(fēng)記錄聲音的情況下,其分離并 去除只存在于由麥克風(fēng)中的每個(gè)麥克風(fēng)米集的聲音中的局部信號(hào),即僅局部聲音的聲音信 號(hào),并且獲取全局信號(hào),即僅全局聲音的聲音信號(hào)。
[0053] 此處,圖1示出了由兩個(gè)麥克風(fēng)記錄信號(hào)的示例。在圖1中,由位于左后側(cè)的麥克 風(fēng)Ml 1-L和位于右近側(cè)的麥克風(fēng)Ml 1-R采集聲音。注意的是,當(dāng)不能將麥克風(fēng)Ml 1-L和麥 克風(fēng)Ml 1-R具體地彼此區(qū)分時(shí),麥克風(fēng)Ml 1-L和麥克風(fēng)Ml 1-R僅被稱為Ml 1。
[0054] 在圖1的示例中,麥克風(fēng)Mil安裝在其中機(jī)動(dòng)車輛和火車運(yùn)行并且人存在的外部 環(huán)境中。此外,撕撕聲被混合在只由麥克風(fēng)Ml 1-L采集到的聲音中,而談話聲被混合在只由 麥克風(fēng)Ml 1-R采集到的聲音中。
[0055] 全局聲音提取設(shè)備使用由麥克風(fēng)Ml 1-L和麥克風(fēng)Ml 1-R獲取的聲音信號(hào)作為輸入 信號(hào)進(jìn)行信號(hào)處理以將全局信號(hào)與局部信號(hào)分離。
[0056] 此處,全局聲音是輸入到麥克風(fēng)Ml 1-L和麥克風(fēng)Ml 1-R二者的信號(hào)的聲音,局部聲 音是輸入到麥克風(fēng)M11-L和麥克風(fēng)M11-R之一中的信號(hào)的聲音。
[0057] 在圖1的不例中,撕撕聲和談話聲是局部聲音,其他聲音是全局聲音。注意的是, 雖然在圖1的示例中總共使用了兩個(gè)麥克風(fēng)Mil以簡(jiǎn)化描述,但是實(shí)際上可以存在兩個(gè)或 更多個(gè)麥克風(fēng)。此外,未具體限定麥克風(fēng)Mil的類型、方向特征、布置方向等。
[0058] 此外,給出其中多個(gè)麥克風(fēng)Mil被安裝在外部并且將全局聲音與局部聲音分離的 情況下的以上描述作為本技術(shù)的應(yīng)用示例。然而,本技術(shù)也可以應(yīng)用到例如多視圖記錄。多 視圖記錄是下述應(yīng)用程序:只提取和圖像一起獲取的多個(gè)聲音信號(hào)所共有的元素,并且在 其中許多觀眾例如在足球場(chǎng)館上傳動(dòng)態(tài)圖像并且在因特網(wǎng)上使用多視圖享受相同的圖像 的情形下再現(xiàn)該元素。
[0059] 如上所述,通過只提取共有元素,可以防止每個(gè)人或周圍人的談話聲與局部噪聲 混合。
[0060] 接下來,將描述全局聲音提取設(shè)備的特定配置示例。圖2是示出應(yīng)用了本技術(shù)的 全局聲音提取設(shè)備的實(shí)施方式的配置示例的圖。
[0061] 全局聲音提取設(shè)備11包括信號(hào)同步單元21、時(shí)間頻率變換單元22、聲音源因子分 解單元23、聲音源選擇單元24及頻率時(shí)間變換單元25。
[0062] 將由安裝在不同裝置中的多個(gè)麥克風(fēng)Mil采集到的多個(gè)聲音信號(hào)作為輸入信號(hào) 提供給信號(hào)同步單元21。信號(hào)同步單元21使得從麥克風(fēng)Mil提供的異步輸入信號(hào)彼此同 步,然后對(duì)多個(gè)相應(yīng)聲道中的各輸入信號(hào)進(jìn)行布置以生成準(zhǔn)多聲道輸入信號(hào)并且將其提供 給時(shí)間頻率變換單元22。
[0063] 提供給信號(hào)同步單元21的各輸入信號(hào)是由安裝在不同裝置中的麥克風(fēng)Mil采集 到的聲音的信號(hào),并且因此彼此不同步。因此,信號(hào)同步單元21使得異步輸入信號(hào)彼此同 步,然后將各個(gè)經(jīng)同步的輸入信號(hào)當(dāng)作各聲道的聲音信號(hào)以生成包括多個(gè)聲道的準(zhǔn)多聲道 輸入信號(hào)。
[0064] 注意的是,雖然描述了提供給信號(hào)同步單元21的各輸入信號(hào)不彼此同步的情況, 但是提供給全局聲音提取設(shè)備11的各輸入信號(hào)可以彼此同步。例如,可以將安裝在裝置中 的用于右聲道的麥克風(fēng)獲取的聲音信號(hào)以及安裝在裝置中的用于左聲道的麥克風(fēng)獲取的 聲音信號(hào)作為輸入信號(hào)提供給全局聲音提取設(shè)備11。
[0065] 在這種情況下,由于右聲道和左聲道的輸入信號(hào)彼此同步,全局聲音提取設(shè)備11 可以不具有信號(hào)同步單元21,并且將經(jīng)同步的輸入信號(hào)提供給時(shí)間頻率變換單元22。
[0066] 時(shí)間頻率變換單元22對(duì)從信號(hào)同步單元21提供的準(zhǔn)多聲道輸入信號(hào)進(jìn)行時(shí)間頻 率變換,并且使得準(zhǔn)多聲道輸入信號(hào)非負(fù)。
[0067] 也就是說,時(shí)間頻率變換單元22對(duì)所提供的準(zhǔn)多聲道輸入信號(hào)進(jìn)行時(shí)間頻率變 換,并且將產(chǎn)生的輸入復(fù)合譜作為頻率信息提供給聲音源選擇單元24。此外,時(shí)間頻率變換 單元22將包括通過使輸入復(fù)合譜非負(fù)而獲得的非負(fù)譜的非負(fù)譜圖提供給聲音源因子分解 單元23。
[0068] 聲音源因子分解單元23假設(shè)從時(shí)間頻率變換單元22提供的非負(fù)譜圖為具有聲 道、頻率及時(shí)間幀作為維度的三維張量,并且進(jìn)行NTF (非負(fù)張量因子分解)。聲音源因子分 解單元23將通過NTF獲得的聲道矩陣Q、頻率矩陣W及時(shí)間矩陣Η提供給聲音源選擇單元 24。
[0069] 聲音源選擇單元24基于從聲音源因子分解單元23提供的聲道矩陣Q、頻率矩陣W 及時(shí)間矩陣Η來選擇與全局聲音相對(duì)應(yīng)的各矩陣的分量,并且重新合成包括從時(shí)間頻率變 換單元22提供的輸入復(fù)合譜的譜圖。聲音源選擇單元24將輸出復(fù)合譜圖Υ作為通過重新 合成獲得的頻率信息提供給頻率時(shí)間變換單元25。
[0070] 頻率時(shí)間變換單元25對(duì)從聲音源選擇單元24提供的輸出復(fù)合譜圖Υ進(jìn)行頻率時(shí) 間變換,然后進(jìn)行產(chǎn)生的時(shí)間信號(hào)的交疊相加以生成并輸出全局聲音的多聲道輸出信號(hào)。
[0071] (信號(hào)同步單元)
[0072] 接下來,將更詳細(xì)地描述圖2中的全局聲音提取設(shè)備11的各單元。首先,將描述 信號(hào)同步單元21。
[0073] 信號(hào)同步單元21將從多個(gè)麥克風(fēng)Mil提供的輸入信號(hào)& (t)建立時(shí)間同步。例 如,使用交叉相關(guān)的計(jì)算來建立時(shí)間同步。
[0074] 此處,輸入信號(hào)Sj (t)中的j表示聲道索引并且由0彡j彡J-1表示。此外,J 表示準(zhǔn)多聲道輸入信號(hào)的聲道的總數(shù)目。此外,輸入信號(hào)h (t)中的t表示時(shí)間。
[0075] 當(dāng)假設(shè)輸入信號(hào)S」(t)中的基準(zhǔn)輸入信號(hào)SQ(t)是作為同步基準(zhǔn)的輸入信號(hào)并且 輸入信號(hào)1(〇中的目標(biāo)輸入信號(hào)\_(t)是作為同步目標(biāo)的輸入信號(hào)(其中,j尹0)時(shí),通 過下面的公式(1)來計(jì)算聲道j的交叉相關(guān)值& ( Y )。
[0076]
【權(quán)利要求】
1. 一種聲音處理設(shè)備,包括: 因子分解單元,被配置成將通過對(duì)多個(gè)聲道的聲音信號(hào)進(jìn)行時(shí)間頻率變換而獲得的頻 率信息因子分解成表示聲道方向的屬性的聲道矩陣、表示頻率方向的屬性的頻率矩陣以及 表不時(shí)間方向的屬性的時(shí)間矩陣;以及 提取單元,被配置成將所述聲道矩陣與閾值進(jìn)行比較,并且從所述聲道矩陣、所述頻率 矩陣及所述時(shí)間矩陣提取由所述比較的結(jié)果指定的分量,以生成關(guān)于來自所期望的聲音源 的聲音的所述頻率信息。
2. 根據(jù)權(quán)利要求1所述的聲音處理設(shè)備,其中 所述提取單元被配置成基于通過所述時(shí)間頻率變換獲得的所述頻率信息、所述聲道 矩陣、所述頻率矩陣及所述時(shí)間矩陣來生成關(guān)于來自所述聲音源的所述聲音的所述頻率信 息。
3. 根據(jù)權(quán)利要求1所述的聲音處理設(shè)備,其中 基于所述聲音源的位置與聲音采集單元的位置之間的關(guān)系來設(shè)置所述閾值,其中所述 聲音采集單元被配置成采集各個(gè)所述聲道的所述聲音信號(hào)的聲音。
4. 根據(jù)權(quán)利要求1所述的聲音處理設(shè)備,其中 針對(duì)所述聲道中的每個(gè)聲道設(shè)置所述閾值。
5. 根據(jù)權(quán)利要求1所述的聲音處理設(shè)備,還包括 信號(hào)同步單元,被配置成使得由不同的裝置采集的多個(gè)聲音的信號(hào)彼此同步以生成所 述多個(gè)聲道的所述聲音信號(hào)。
6. 根據(jù)權(quán)利要求1所述的聲音處理設(shè)備,其中 所述因子分解單元被配置成將所述頻率信息假設(shè)為以聲道、頻率及時(shí)間幀作為各維度 的三維張量,并且通過張量因子分解將所述頻率信息因子分解成所述聲道矩陣、所述頻率 矩陣及所述時(shí)間矩陣。
7. 根據(jù)權(quán)利要求6所述的聲音處理設(shè)備,其中 所述張量因子分解是非負(fù)張量因子分解。
8. 根據(jù)權(quán)利要求1所述的聲音處理設(shè)備,還包括 頻率時(shí)間變換單元,被配置成對(duì)所述提取單元所獲得的關(guān)于來自所述聲音源的所述聲 音的所述頻率信息進(jìn)行頻率時(shí)間變換,以生成所述多個(gè)聲道的聲音信號(hào)。
9. 根據(jù)權(quán)利要求1所述的聲音處理設(shè)備,其中 所述提取單元被配置成生成包含來自一個(gè)所述所期望的聲音源或多個(gè)所述所期望的 聲音源的聲音分量的所述頻率信息。
10. -種聲音處理方法,包括: 將通過對(duì)多個(gè)聲道的聲音信號(hào)進(jìn)行時(shí)間頻率變換而獲得的頻率信息因子分解成表示 聲道方向的屬性的聲道矩陣、表示頻率方向的屬性的頻率矩陣以及表示時(shí)間方向的屬性的 時(shí)間矩陣;以及 將所述聲道矩陣與閾值進(jìn)行比較,并且從所述聲道矩陣、所述頻率矩陣及所述時(shí)間矩 陣提取由所述比較的結(jié)果指定的分量,以生成關(guān)于來自所期望的聲音源的聲音的所述頻率 信息。
11. 一種使計(jì)算機(jī)執(zhí)行處理的程序,所述處理包括: 將通過對(duì)多個(gè)聲道的聲音信號(hào)進(jìn)行時(shí)間頻率變換而獲得的頻率信息因子分解成表示 聲道方向的屬性的聲道矩陣、表示頻率方向的屬性的頻率矩陣以及表示時(shí)間方向的屬性的 時(shí)間矩陣;以及 將所述聲道矩陣與閾值進(jìn)行比較,并且從所述聲道矩陣、所述頻率矩陣及所述時(shí)間矩 陣提取由所述比較的結(jié)果指定的分量,以生成關(guān)于來自所期望的聲音源的聲音的所述頻率 信息。
【文檔編號(hào)】G10L21/0272GK104123948SQ201410158313
【公開日】2014年10月29日 申請(qǐng)日期:2014年4月18日 優(yōu)先權(quán)日:2013年4月25日
【發(fā)明者】光藤祐基 申請(qǐng)人:索尼公司