專利名稱:聲源分離裝置、方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種聲源分離裝置,當(dāng)多個(gè)聲源位于不同位置時(shí),該裝置用兩個(gè)或更多的麥克風(fēng)對聲源的聲音進(jìn)行分離,還涉及這種聲源分離方法,以及讓計(jì)算機(jī)執(zhí)行該方法的程序。
背景技術(shù):
眾所周知,基于獨(dú)立分量分析的聲源分析方法是用于分離多個(gè)聲源中每一個(gè)聲源的聲音的一種技術(shù)(例如,見A.Hyvaerinen,J.Karhunen和E.Oja的“Independent component analysis”,John Wiley &Sons,2001)。獨(dú)立分量分析是這樣一種聲源分離技術(shù),它充分利用在聲源之間聲源的源信號是獨(dú)立的這一事實(shí)。在獨(dú)立分量分析中,根據(jù)聲源數(shù)量使用維數(shù)等于麥克風(fēng)數(shù)量的線性濾波器。當(dāng)聲源的數(shù)量小于麥克風(fēng)的數(shù)量時(shí),能夠完全恢復(fù)源信號。當(dāng)聲源數(shù)量小于麥克風(fēng)數(shù)量時(shí),基于獨(dú)立分量分析的聲源分離技術(shù)是一種有效的技術(shù)。
在聲源分離技術(shù)中,當(dāng)聲源數(shù)量超過麥克風(fēng)數(shù)量時(shí),可以使用l1范最小化方法,該方法利用了語音功率譜的概率分布接近拉普拉斯分布而不是高斯分布這一事實(shí)。(例如,見P.Bofill和M.Zibulevsky的“Blind separation of more sources than mixtures using sparsity of theirshort-time Fourier transform”,Proc.ICA2000,第87~92頁,2000/06)。
發(fā)明內(nèi)容
獨(dú)立分量分析存在的問題是當(dāng)聲源數(shù)量超過麥克風(fēng)數(shù)量時(shí)性能會變差。因?yàn)楠?dú)立分量分析中使用的濾波器系數(shù)的維數(shù)等于麥克風(fēng)的數(shù)量,因此,對濾波器的約束的數(shù)量必須小于或等于麥克風(fēng)的數(shù)量。當(dāng)聲源數(shù)量小于麥克風(fēng)的數(shù)量時(shí),即使只強(qiáng)調(diào)某一個(gè)聲源而抑制所有其它聲源,由于約束的數(shù)量最多為麥克風(fēng)的數(shù)量,所以能夠產(chǎn)生滿足約束條件的濾波器。但是,當(dāng)聲源的數(shù)量超過麥克風(fēng)的數(shù)量時(shí),由于限制的數(shù)量超過麥克風(fēng)的數(shù)量,就不能夠產(chǎn)生滿足約束條件的濾波器,利用產(chǎn)生的濾波器不能獲得充分分離的信號。l1范最小化方法的問題是,由于它假設(shè)不存在聲源以外的噪聲,因此在存在語音以外的噪聲比如回聲和混響的環(huán)境下性能就會變差。
本發(fā)明用于聲源分離的裝置或執(zhí)行它的程序可以包括A/D轉(zhuǎn)換單元,用于將模擬信號轉(zhuǎn)換為數(shù)字信號,該模擬信號來自至少包括兩個(gè)或更多個(gè)麥克風(fēng)的麥克風(fēng)陣列;頻帶分割單元,用于對所述數(shù)字信號進(jìn)行頻帶分割;誤差最小解計(jì)算單元,對于每個(gè)頻帶,該誤差最小解計(jì)算單元從具有零值的聲源數(shù)量超過麥克風(fēng)元件的數(shù)量的矢量中,為同樣的多個(gè)元件中具有零值的多個(gè)矢量的每一個(gè),輸出這樣一個(gè)解,該解在事先根據(jù)所述矢量和導(dǎo)引矢量計(jì)算出來的估計(jì)信號與輸入信號之間的誤差最小;最優(yōu)模型計(jì)算部件,對于每個(gè)頻帶,從具有零值的一組聲源中的誤差最小解之中,選擇這樣一個(gè)解,該解使得lp范數(shù)與所述誤差的加權(quán)和最小;以及信號合成單元,用于將所選解轉(zhuǎn)換成時(shí)域信號。
根據(jù)本發(fā)明,即使在聲源數(shù)量超過麥克風(fēng)數(shù)量,并且出現(xiàn)一些具有高S/N的背景噪聲、回聲和混響的環(huán)境里,也能夠分離出每個(gè)聲源的聲音。結(jié)果是,能夠在免提轉(zhuǎn)換(hands-free conversation)等等中用容易聽到的聲音進(jìn)行交談。
圖1說明本發(fā)明的硬件配置;圖2是本發(fā)明的軟件框圖;以及圖3是本發(fā)明的處理流程圖。
具體實(shí)施例方式
第一實(shí)施例圖1說明這個(gè)實(shí)施例的硬件配置。這個(gè)實(shí)施例中包括的全部計(jì)算是在中央處理單元1里執(zhí)行的。存儲裝置2是由例如RAM構(gòu)成的工作存儲器,在計(jì)算期間使用的所有變量可以放在一個(gè)或多個(gè)存儲裝置2中。在計(jì)算期間使用的數(shù)據(jù)和程序保存在由例如ROM構(gòu)成的存儲裝置3中。麥克風(fēng)陣列4包括至少兩個(gè)或更多的麥克風(fēng)元件。各個(gè)麥克風(fēng)元件測量模擬聲壓值。假設(shè)麥克風(fēng)元件的數(shù)量是M。
A/D轉(zhuǎn)換器將模擬信號轉(zhuǎn)換為數(shù)字信號(采樣),并且能夠同步地對M個(gè)或更多通道的信號采樣。將麥克風(fēng)陣列4中獲取的每個(gè)麥克風(fēng)元件的模擬聲壓值發(fā)送到A/D轉(zhuǎn)換器5。預(yù)先設(shè)置好要分離的聲音數(shù)量,并保存在存儲裝置2或3中。把要分離的聲音數(shù)量表示為N。當(dāng)N更大時(shí),由于處理量變大,因此設(shè)置適合中央處理單元1處理能力的值。
圖2示出了這個(gè)實(shí)施例的軟件框圖。在本發(fā)明中,除了分離聲音的時(shí)候由l1范最小化方法作為費(fèi)用函數(shù)使用的l1范外,分離出來的聲音中包含的噪聲分量的功率也作為費(fèi)用值加以考慮。圖2中的最優(yōu)模型選擇部件205輸出噪聲信號功率與l1范數(shù)的加權(quán)和最小的解。在l1范最小化方法中,費(fèi)用函數(shù)是在語音與時(shí)間方向無關(guān)的假設(shè)之下定義的。但是,在本發(fā)明中,費(fèi)用函數(shù)卻是在聲音與時(shí)間方向有關(guān),并且傾向于選擇具有與時(shí)間方向結(jié)構(gòu)有關(guān)的解這種假設(shè)之下定義的。
對應(yīng)的單元是在中央處理單元1中執(zhí)行的。A/D轉(zhuǎn)換單元201為每個(gè)通道將模擬聲壓值轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。A/D轉(zhuǎn)換器5中轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)是按預(yù)先設(shè)置的采樣率時(shí)序進(jìn)行的。例如,當(dāng)采樣率是11025Hz時(shí),轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)是按每秒11025次等間隔進(jìn)行的。轉(zhuǎn)換出來的數(shù)字?jǐn)?shù)據(jù)為x(t,j),其中t是數(shù)字化時(shí)間。當(dāng)A/D轉(zhuǎn)換器5在t=0時(shí)刻開始A/D轉(zhuǎn)換時(shí),每進(jìn)行一次采樣,t加1。j是麥克風(fēng)元件的編號。例如,將第0個(gè)麥克風(fēng)元件的第100個(gè)采樣數(shù)據(jù)表示為x(100,0)。為每次采樣將x(t,j)的內(nèi)容寫入RAM 2的指定區(qū)域。作為一種可選擇的方法,將采樣數(shù)據(jù)暫時(shí)保存在A/D轉(zhuǎn)換器5中的緩沖器里,每次將一定量的數(shù)據(jù)堆入緩沖器,可以將這些數(shù)據(jù)傳送到RAM 2的指定區(qū)域。把RAM 2中要寫入x(t,j)的內(nèi)容的區(qū)域定義為x(t,j)。
頻帶分割單元(band splitting unit)202對t=τ×frame_shift到t=τ×frame_shift+frame_size的數(shù)據(jù)進(jìn)行傅里葉變換或者小波分析,變換為頻帶分割信號。針對從j=1到j(luò)=M的每個(gè)麥克風(fēng)元件轉(zhuǎn)換成頻帶分割信號。用下面的表達(dá)式(1)描述轉(zhuǎn)換后的頻帶分割信號,作為具有對應(yīng)麥克風(fēng)元件的信號的矢量。
X(f,τ) (1)f是表示頻帶分割號的下標(biāo)。
人聲和音樂這種聲音很少具有大幅度值,它們是有很多零值的稀疏信號。因此,語音信號能夠用零值概率高的拉普拉斯分布,而不是高斯分布來近似。將語音信號近似為拉普拉斯分布時(shí),可以將對數(shù)似然看作在正負(fù)之間對l1范數(shù)的符號進(jìn)行反轉(zhuǎn)??梢詫⒒祀s有回聲、混響和背景噪聲的噪聲信號近似為高斯分布。因此,可以將輸入信號中包含的噪聲信號的對數(shù)似然看作輸入信號和語音信號之間平方誤差符號的反轉(zhuǎn)。從MAP估計(jì)的角度看要尋找最可能的解(最大似然解),因?yàn)閷⒃肼曅盘柕膶?shù)似然與語音信號的對數(shù)似然之和取最大的解作為最大似然解,因此可以將輸入信號與l1范數(shù)平方誤差的加權(quán)和最小的信號當(dāng)做最大似然解。但是,由于很難找到這樣的解,所以有必要通過一些近似尋找解。例如,在l1范最小化方法中,輸入的信號沒有誤差,找出l1范數(shù)的加權(quán)和最小的信號作為解。但是,在存在回聲、混響和背景噪聲的環(huán)境里,由于不能假設(shè)輸入信號沒有誤差,因此這樣的近似成為粗略近似,導(dǎo)致分離能力下降。
因此,在本發(fā)明中,在輸入信號中存在誤差的假設(shè)下,輸入信號與l1范數(shù)的平方誤差的加權(quán)和最小是近似的。如前所述,人聲和音樂這種聲音是很少有大幅度值的稀疏信號。簡而言之,將它們看作經(jīng)常具有近似零幅度(“零值”)的信號。因此,對于每個(gè)時(shí)刻和頻率,假設(shè)只有比麥克風(fēng)數(shù)量少的聲源具有非零的幅度值。l1范數(shù)隨著具有零值的元件數(shù)量增加而變小,隨著具有零值的元件數(shù)量減少而變大。因此,可以將它看作稀疏度度量(見Noboru Murata的“IntroductoryIndependent Component Analysis”,Tokyo Electricians’UniversityPublications Service,第215~216頁,2004/07)。
因此,當(dāng)具有零值的聲源的數(shù)量等于麥克風(fēng)數(shù)量時(shí),將l1范數(shù)近似為固定值。如果聲源數(shù)量為N(具有零值的N維復(fù)矢量)時(shí)應(yīng)用這個(gè)近似,可以給出相對于輸入信號具有最小誤差的解。
誤差最小解計(jì)算單元203根據(jù)表達(dá)式(2)進(jìn)行計(jì)算。
S^L(f,τ)=argmins(f,τ)∈L-dimensionalsparseset|X(f,τ)-A(f)S(f,τ)|2...(2)]]>為L維稀疏集(L-dimensional sparse set)的每一個(gè)計(jì)算出誤差最小解。L維稀疏集是具有L個(gè)零值元素的一個(gè)N維復(fù)矢量。計(jì)算出的具有最小誤差的解是L維稀疏集之中每個(gè)聲源信號的最大似然解。具有最小誤差的解是一個(gè)N維復(fù)矢量。對應(yīng)元素是對應(yīng)聲源的源信號的估計(jì)值。A(f)是M×N復(fù)矩陣,在它的列中具有從對應(yīng)聲源位置到麥克風(fēng)元件的聲音傳播(導(dǎo)引矢量)。例如,A(f)的第一列是從第一個(gè)聲源到麥克風(fēng)陣列的導(dǎo)引矢量。A(f)由圖2的方向搜索部件209計(jì)算并輸出。圖2中的誤差最小解計(jì)算單元203為L從1到M的每個(gè)L計(jì)算誤差最小解。當(dāng)L=M時(shí),計(jì)算出多個(gè)誤差最小解,在這種情況下全部多個(gè)解都是作為L=M的誤差最小解輸出的。在這個(gè)例子中,對于元素?cái)?shù)量等于具有零值的聲源數(shù)量的N維復(fù)矢量中的每一個(gè),已經(jīng)找到誤差最小解。但是,由于沒有約束到聲源的數(shù)量,因此對于元素?cái)?shù)量等于具有零值的元件的數(shù)量的N維矢量中的每一個(gè),都可以找到一個(gè)解。但是,即使不等于具有零值的元件的數(shù)量,如果等于聲源數(shù)量,那么由于可以將l1范數(shù)近似為固定值,具有零值的聲源的數(shù)量,也足以找到誤差最小解。
也可以應(yīng)用表達(dá)式(3)而不用上述表達(dá)式(2)。
S^L,j(f,τ)=argmins(f,τ)∈ΩL,j|X(f,τ)-A(f)S(f,τ)|2]]>errorL,j(f,τ)=‖X(f,τ)-A(f)S(f,τ‖2jmin=argminjΣm=-kkγ(m)errorL,j(f,τ+m)]]>S^L(f,τ)=S^L,jmin(f,τ)]]>(3)ΩL,j是L維稀疏集之中相同元素的值是零的一個(gè)N維復(fù)矢量集。語音功率在時(shí)間方向上具有正相關(guān)。因此,在給定τ具有大值的聲源,即使在τ±k中也可能具有大值。這意味著可以將誤差項(xiàng)τ方向上較小的滑動平均看作更加接近真解的解。換句話說,對于每個(gè)模型ΩL,j,通過將誤差項(xiàng)的滑動平均作為新的誤差項(xiàng),能夠找到更加接近真解的解。γ(m)是滑動平均的權(quán)。通過這種結(jié)構(gòu),容易選擇和時(shí)間方向有關(guān)的解。使用滑動平均找到誤差最小解時(shí),對于除零值聲源數(shù)量之外元件數(shù)量相等的每個(gè)N維復(fù)矢量,必須計(jì)算出誤差最小解。這是因?yàn)榧词孤曉磾?shù)量是相等的,如果元件數(shù)量不同,也由于在時(shí)間方向具有正相關(guān)而不能進(jìn)行近似。
圖2中的lp范計(jì)算單元204根據(jù)通過每個(gè)L維稀疏集計(jì)算出來的誤差最小解,利用下面的表達(dá)式計(jì)算lp范數(shù)lp,L(f,τ)=(Σi=1N|S^L,i(f,τ)|p)1p...(4)]]>S^L,i(f,τ)...(5)]]>S^L(f,τ)...(6)]]>表達(dá)式(5)是表達(dá)式(6)的第i個(gè)元素。
變量p是預(yù)先設(shè)置的在0到1之間的參數(shù)。lp范數(shù)是表達(dá)式(6)稀疏程度的度量(見Noboru Murata的“Introductory IndependentComponent Analysis”,Tokyo Electricians’University PublicationsService,第215~216頁,2004/07),并且在表達(dá)式(6)中有較多元素接近零時(shí)較小。由于語音是稀疏的,因此當(dāng)表達(dá)式(4)的值較小時(shí),可以認(rèn)為表達(dá)式(6)更接近真解。簡而言之,選擇真解時(shí)可以將表達(dá)式(4)用作選擇標(biāo)準(zhǔn)。
表達(dá)式(4)的lp范的計(jì)算值可以由滑動平均代替,就象誤差最小解的計(jì)算一樣avg-lp,L(f,τ)=Σm=-kkγ(m)(Σi=1N|S^L,jmini(f,τ+m)p)1p...(7)]]>由于語音功率在時(shí)間方向上具有正相關(guān),因此通過用滑動平均代替它,能夠找到接近真解的解。語音功率在時(shí)間方向上只是略有變化。因此,可以將在某一幀具有大幅度值的聲源看作在與這一幀相鄰的幀中也具有大幅度值。圖2中的最優(yōu)模型選擇部件205為相應(yīng)L維稀疏集的每一個(gè)找出所找到的誤差最小解的最優(yōu)解;Lmin=argmin,Lα||X(f,τ)-A(f)S(f,τ)||2+lp,L(f,τ)...(8)]]>S^(f,τ)=S^Lmin(f,τ)...(9)]]>表達(dá)式(8)和表達(dá)式(9)輸出解,使得誤差項(xiàng)與lp范項(xiàng)的加權(quán)平均值最小。這個(gè)解是后驗(yàn)概率最大解。為了找到最優(yōu)解,同誤差最小解和l1范最小解一樣,表達(dá)式(8)和表達(dá)式(9)可以用滑動平均值代替Lmin=argminL,αerrorL(f,τ)+avg-lp,L(f,τ)]]>S^(f,τ)=S^Lmin(f,τ)]]>(10)按照常規(guī)方法,在對應(yīng)于最優(yōu)模型選擇部件205的處理過程中,沒有選擇從L=2,……,M的解,而L=1是最優(yōu)解。這個(gè)方法存在產(chǎn)生噪聲的問題。在L=1的解中,對于每個(gè)f和τ,除一個(gè)聲源外,所有值都為零。在有些時(shí)候,除一個(gè)聲源外,可能存在所有值都接近零的解。滿足這一條件時(shí),L=1的解變成最優(yōu)解,但不是總能滿足條件。如果總是假設(shè)L=1,那么當(dāng)兩個(gè)或更多的聲源具有大值時(shí),就找不到解并會產(chǎn)生音樂噪聲(musical noise)。為了從為每個(gè)L維稀疏集找到的誤差最小解中找到最優(yōu)解,該最優(yōu)模型選擇部件205確定對于L從1到M哪個(gè)稀疏集是最優(yōu)的,并且即使兩個(gè)或更多聲源的值比零大也能找到解,從而抑制音樂噪聲的出現(xiàn)。
圖2中的信號合成單元206為每個(gè)頻帶進(jìn)行最優(yōu)解的計(jì)算S^(f,τ)...(11)]]>通過逆傅里葉變換或者逆小波變換返回到時(shí)域信號表達(dá)式(12)。
S^(f,τ)...(12)]]>通過這樣做,能夠獲得每個(gè)聲源的時(shí)域信號估計(jì)。圖2中的聲源定位部件207根據(jù)表達(dá)式(13)計(jì)算聲源的方向。
dir(f,τ)=argmaxθ∈Ω|aθ*(f,τ)X(f,τ)|2...(13)]]>Ω是聲源的搜索范圍,是預(yù)先在ROM 3中設(shè)置好的。
aθ(f,τ)(14)表達(dá)式(14)是從聲源方向θ到麥克風(fēng)陣列的導(dǎo)引矢量,并且它的大小是歸一化到1的。當(dāng)源信號是s(f,τ)時(shí),在麥克風(fēng)陣列中觀察到來自聲源方向θ的聲音,用表達(dá)式(15)來表示Xθ(f,τ)=s(f,τ)aθ(f,τ)(15)表達(dá)式(13)中包括的所有聲源的Ω事先保存在ROM 3中。圖2中的方向功率計(jì)算部件208用表達(dá)式(16)計(jì)算每個(gè)方向上的聲源功率。
P(θ)=ΣfΣτ=0Kδ(θ=dir(f,τ))log|aθ*(f,τ)X(f,τ)|2...(16)]]>δ是這樣一個(gè)函數(shù),只有當(dāng)變量的等式成立時(shí)才為1,不成立時(shí)為零。圖2中的方向搜索部件209搜索峰值P(θ)來計(jì)算聲源的方向,輸出M×N導(dǎo)引矢量矩陣A(f),該矩陣的列中具有聲源方向的導(dǎo)引矢量。峰值搜索按降序排列P(θ),可以計(jì)算N個(gè)高階聲源方向,或者當(dāng)P(θ)超出前后方向時(shí)(當(dāng)它變?yōu)樽畲笾禃r(shí)),計(jì)算N個(gè)高階聲源方向。誤差最小解計(jì)算單元203在表達(dá)式(2)中將該信息用作A(f),來尋找誤差最小解。方向搜索部件209搜索A(f)來自動估計(jì)聲音方向,即使聲音方向是未知的,從而能夠使聲源分離。
圖3示出了這個(gè)實(shí)施例的處理流程。輸入的語音是在各個(gè)麥克風(fēng)元件中以聲壓值接收的。將各個(gè)麥克風(fēng)元件的聲壓值轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。frame_size的頻帶分割處理是在對每個(gè)frame_shift的數(shù)據(jù)進(jìn)行偏移的時(shí)候進(jìn)行的(S1)。獲得的頻帶分割信號中只有τ=1,……,k被用來估計(jì)聲源方向,并計(jì)算導(dǎo)引矢量矩陣A(f)(S2)。
將A(f)用于搜索τ=1,……的頻帶分割信號的真解。所得最優(yōu)解是合成的,以獲得每個(gè)聲源的信號估計(jì)(S3)。在(S3)中合成的每個(gè)聲源的信號估計(jì)是輸出信號。這個(gè)輸出信號是為每個(gè)聲源分離出聲音的信號,并且產(chǎn)生容易理解每個(gè)聲源的說話內(nèi)容的聲音。
權(quán)利要求
1.一種聲源分離裝置,包括A/D轉(zhuǎn)換單元,用于將模擬信號轉(zhuǎn)換為數(shù)字信號,該模擬信號來自具有M個(gè)麥克風(fēng)的麥克風(fēng)陣列,其中M個(gè)麥克風(fēng)包括至少兩個(gè)麥克風(fēng);頻帶分割單元,用于對所述數(shù)字信號進(jìn)行頻帶分割,以轉(zhuǎn)換為頻域輸入;誤差最小解計(jì)算單元,對于每個(gè)頻帶,該誤差最小解計(jì)算單元具有超過所述數(shù)量M的聲源的矢量,具有從1到等于所述數(shù)量M的聲源的矢量,并且該誤差最小解計(jì)算單元輸出解集,該解集在根據(jù)聲源1到M的所述矢量和預(yù)定導(dǎo)引矢量計(jì)算出來的估計(jì)信號和所述頻域輸入之間具有最小誤差;最優(yōu)模型計(jì)算部件,用于為所述誤差最小解集之中的每個(gè)頻帶選擇頻域解,該頻域解具有最小的lp范數(shù)與所述誤差的加權(quán)和;以及信號合成單元,用于將所選頻域解轉(zhuǎn)換到時(shí)域。
2.根據(jù)權(quán)利要求1所述的聲源分離裝置,其中所述導(dǎo)引矢量是通過進(jìn)行源定位獲得的。
3.根據(jù)權(quán)利要求1所述的聲源分離裝置,其中所述誤差最小解計(jì)算單元為所述多個(gè)矢量中的每一個(gè)計(jì)算最小誤差解,這些矢量的零值聲源數(shù)量相等,并且零值元素?cái)?shù)量相等,以及其中所述最優(yōu)模型計(jì)算部件,從輸出的所述誤差最小解集之中選擇解,該解具有所述誤差的滑動平均值與lp范的所述滑動平均值的加權(quán)和。
4.根據(jù)權(quán)利要求3所述的聲源分離裝置,其中所述誤差最小解計(jì)算單元為所述多個(gè)矢量中的每一個(gè)計(jì)算具有最小誤差的解,這些矢量的零值聲源數(shù)量相等,零值元件數(shù)量相等,以及其中所述最優(yōu)模型計(jì)算部件從輸出的所述誤差最小解集之中選擇解,該解具有最小的所述誤差的滑動平均值與lp范的滑動平均值的加權(quán)和。
5.一種聲源分離程序,包括以下步驟將模擬信號轉(zhuǎn)換為數(shù)字信號,該模擬信號來自包含M個(gè)麥克風(fēng)的麥克風(fēng)陣列,其中M大于等于2;將所述數(shù)字信號頻帶分割到頻域;對于每個(gè)頻帶分割,從其中超過麥克風(fēng)元件數(shù)量的聲源具有零值的矢量中,并且對于聲源元件數(shù)量在1和M之間的每個(gè)矢量,輸出解集,該解集在根據(jù)所述矢量和導(dǎo)引矢量計(jì)算出的信號估計(jì)和所述頻域信號之間具有最小誤差;對于每個(gè)頻帶分割,并且從誤差最小解集之中,選擇lp范數(shù)值與所述誤差的加權(quán)和最小的解;以及將選擇出來的所述解轉(zhuǎn)換到時(shí)域。
6.一種用于聲源分離的方法,包括在M個(gè)麥克風(fēng)處接收模擬聲音輸入;將來自至少兩個(gè)聲源的所述模擬聲音輸入轉(zhuǎn)換為數(shù)字聲音輸入;將所述數(shù)字聲音輸入從時(shí)域轉(zhuǎn)換到頻域;產(chǎn)生第一解集,該解集使得來自聲源1到M中活動的那些的聲音的估計(jì)的誤差最?。桓鶕?jù)所述第一解集估計(jì)活動聲源的數(shù)量,以產(chǎn)生最優(yōu)分離解集,該最優(yōu)分離解集最接近收到的所述模擬聲音輸入的每個(gè)聲源;以及將所述最優(yōu)分離解集轉(zhuǎn)換到時(shí)域。
全文摘要
傳統(tǒng)的獨(dú)立分量分析存在聲源數(shù)量超過麥克風(fēng)數(shù)量時(shí)性能變差的問題。傳統(tǒng)的l1范最小化方法假設(shè)除聲源以外不存在噪聲,在存在語音以外的噪聲比如回聲和混響的環(huán)境中存在性能變差的問題。除了采用l1范最小化方法分離聲音的時(shí)候用作費(fèi)用函數(shù)的l1范以外,本發(fā)明還將噪聲分量的功率當(dāng)作費(fèi)用函數(shù)。在這種l1范最小化方法中,在語音與時(shí)間方向無關(guān)的假設(shè)下定義費(fèi)用函數(shù)。但是,在本發(fā)明中,在語音與時(shí)間方向有關(guān)的假設(shè)下定義費(fèi)用函數(shù),并且因?yàn)槠浣Y(jié)構(gòu),很容易選擇與時(shí)間方向有關(guān)的解。
文檔編號G10L19/00GK101030383SQ200710002400
公開日2007年9月5日 申請日期2007年1月15日 優(yōu)先權(quán)日2006年3月2日
發(fā)明者戶上真人, 天野明雄, 住吉貴志 申請人:株式會社日立制作所