本發(fā)明涉及數(shù)字信號處理技術(shù)領(lǐng)域,具體涉及對于語音信號在觀測數(shù)目小于源數(shù)的欠定情形下的盲分離問題。
背景技術(shù):
盲分離是指在混合系統(tǒng)參數(shù)和源數(shù)目未知的情形下,僅從混合后的信號中恢復(fù)源信號的問題。盲分離方法廣泛應(yīng)用于語音信號處理[1]、數(shù)字通信[2]、機械故障診斷[3]等領(lǐng)域。根據(jù)源信號數(shù)目N及混合信號數(shù)目M的相對關(guān)系,盲分離問題可分為三種情形:超定(M>N)、正定(M=N)、欠定(M<N)。早期盲分離的典型代表是獨立分量分析[4](Independent Component Analysis,ICA),然而經(jīng)典ICA方法僅適用于超定情形。
求解欠定盲分離問題多分成兩個階段:盲識別(估計混合矩陣)及盲恢復(fù)(恢復(fù)源信號)[5]。后者依賴于前者的結(jié)果,故盲識別估計性能對整個盲分離性能的影響較大。
盲識別方法主要有兩類:基于統(tǒng)計量的和基于稀疏表示的?;诮y(tǒng)計量的方法借助概率統(tǒng)計方法來估計混合矩陣。如文獻[6]將四階累積協(xié)方差擴展到張量域利用分層交替最小二乘算法對其進行非負庫克分解以估計混合矩陣。
基于稀疏表示的盲識別算法強調(diào)源信號在某個變換域內(nèi)(如短時傅立葉變換Short time Fourier transformation(STFT)[7],魏格納分布(WVD)[8]等)呈現(xiàn)稀疏分布。由于語音信號在時頻域往往呈現(xiàn)稀疏特性,故相比基于統(tǒng)計量的盲識別方法,該類方法更適用于語音信號盲分離。稀疏表示盲識別方法又可進一步細分為兩種:基于目標函數(shù)最大化的方法及基于單源域識別的方法。
基于目標函數(shù)最大化的方法(如勢函數(shù)法[9],EM法[10],非線性投影列屏蔽(NPCM)[11]法)具有較高估計精度,該類方法通過搜索整個時頻平面所有輸入向量的目標函數(shù)的極大值來估計混合向量的方向?;趩卧从蜃R別的方法(如WVD能量閾值法[12],TIFROM[13])需篩選出單源域,依據(jù)單源域時頻區(qū)域的混合向量的統(tǒng)計平均值來估計混合矩陣。
以上兩類基于稀疏表示的方法有如下幾方面的缺點:
1、基于目標函數(shù)最大化的方法為找到全局最優(yōu)的目標函數(shù)值,需考慮覆蓋整個時頻平面的所有輸入向量,且此類方法還涉及多變量(與混合信號數(shù)目相等)的優(yōu)化問題,故此類方法計算復(fù)雜度甚高;
2、基于單源域識別的方法由于僅僅利用部分時頻向量作為輸入,計算復(fù)雜度大為降低,然而其性能依賴于單源域?qū)ふ业臏蚀_性,因此其性能大大依賴于單源域判別準則的精確度,這難以實現(xiàn)高精度盲識別。
故這兩種方法都無法兼顧高估計精度和低計算復(fù)雜度。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種基于諧波提取的欠定語音盲分離方法及裝置,本發(fā)明兼顧了精度和計算復(fù)雜度,詳見下文描述:
一種基于諧波提取的欠定語音盲分離方法,所述欠定語音盲分離方法包括以下步驟:
在盲識別階段,對語音信號進行短時傅立葉變換,利用基于比值法頻譜校正的諧波提取技術(shù)提取語音信號中的諧波成分,通過相位一致性準則對所述諧波成分做篩選;
引入可估計源數(shù)的自適應(yīng)K-均值聚類法對篩選出的單源成分向量進行聚類,得到混合矩陣的估計;
在盲恢復(fù)階段,針對各路源語音信號在時頻域中存在重疊的情況,采用子空間投影法對混合矩陣的估計做逆推,實現(xiàn)了高質(zhì)量的語音信號源恢復(fù)。
其中,所述利用基于比值法頻譜校正的諧波提取技術(shù)提取語音信號中的諧波成分,通過相位一致性準則對所述諧波成分做篩選的步驟具體為:
1)將頻率集合進行混合,按照升序排列,得到Q個簇,對簇內(nèi)頻率進行合并,可得到合并后的頻率序列;
2)找出頻率序列中的有效模式;
3)將有效模式作為輸入,識別有效模式中的單源模式;收集所有時間幀得到的單源模式組成單源域。
其中,所述有效模式具體為:
滿足給定一個小閾值ε>0,對于每個m都存在且僅存在一個下標滿足。
其中,所述引入可估計源數(shù)的自適應(yīng)K-均值聚類法對篩選出的單源成分向量進行聚類,得到混合矩陣的估計的步驟具體為:
根據(jù)欠定情形,若K+1次的分類性能指數(shù)大于K次的分類性能指數(shù),則源數(shù)目即等于觀測數(shù)目,對應(yīng)的K-均值聚類中心則為混合矩陣的估計。
其中,所述采用子空間投影法對混合矩陣的估計做逆推,實現(xiàn)了高質(zhì)量的語音信號源恢復(fù)的步驟具體為:
令最大的重疊源信號數(shù)目為ρ=M-1,對于子矩陣求出其對應(yīng)的正交投影矩陣;獲取重疊信號的下標,并求出當前時頻點的短時傅立葉譜;
求出所有時頻點的短時傅立葉譜值后可得N個源信號的STFT譜估計,再對其進行逆短時傅立葉變換,可得到恢復(fù)信號。
一種基于諧波提取的欠定語音盲分離方法的分離裝置,所述分離裝置包括:
A/D轉(zhuǎn)換器,用于對采集到的多路觀測信號x(t)進行采樣,獲取樣本序列,并以并行數(shù)字輸入的形式進行數(shù)據(jù)傳輸;
DSP,獲取輸入的數(shù)據(jù),將數(shù)據(jù)用于內(nèi)部算法的處理,獲取合矩陣的估計,以此實現(xiàn)高質(zhì)量的語音信號源恢復(fù);
輸出驅(qū)動及其顯示模塊,用于顯示輸出結(jié)果。
本發(fā)明提出的基于諧波提取的欠定語音盲分離方法及裝置,在實際應(yīng)用中可以產(chǎn)生如下有益效果:
1、本發(fā)明針對語音信號的欠定盲分離系統(tǒng),可高精度地恢復(fù)源信號,其信號恢復(fù)質(zhì)量高于經(jīng)典的子空間投影法;
2、本發(fā)明的混合矩陣估計的性能對比于經(jīng)典子空間投影算法有了很大的提升;不需提前知道源信號的數(shù)目,適用范圍大于經(jīng)典子空間投影算法;
3、本發(fā)明利用頻譜校正法處理觀測信號,大大減少了計算復(fù)雜度,使得算法核心得以快速實現(xiàn),大大降低了后續(xù)步驟的計算量,提高了時效性;
4、本發(fā)明提出了單源模式的識別方法,進一步降低了計算復(fù)雜度,使的識別結(jié)果更加穩(wěn)健,應(yīng)用范圍更廣。
附圖說明
圖1為兩個語音信號的STFT時頻譜:
圖(a)為女聲信號的STFT時頻譜;圖(b)為男聲信號的STFT時頻譜。
圖2為本發(fā)明提供的欠定語音信號盲分離流程圖;
圖3為源信號波形的示意圖;
圖4為混合信號波形的示意圖;
圖5為單源成分篩選散點的示意圖:
圖(a)為所有時頻向量的示意圖;圖(b)為有效模式的示意圖;圖(c)為單源模式的示意圖。
圖6為本發(fā)明獲取到的恢復(fù)信號波形的示意圖;
圖7為本發(fā)明的硬件實施圖;
圖8為DSP內(nèi)部程序流圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面對本發(fā)明實施方式作進一步地詳細描述。
為了兼顧精度和計算復(fù)雜度,本發(fā)明實施例提出了基于諧波提取的語音信號盲識別方法。
該方法在盲識別階段,對語音信號進行短時傅立葉變換,利用基于比值法頻譜校正[14]的諧波提取技術(shù)提取語音信號中的諧波成分,通過相位一致性準則對其做篩選,并引入可估計源數(shù)的自適應(yīng)K-均值聚類法對篩選出的單源成分向量進行聚類,即可得到混合矩陣的估計。
在盲恢復(fù)階段,針對各路源語音信號在時頻面中存在重疊(即不符合W-DO條件[15])的情況,利用高精度的混合矩陣估計結(jié)果,采用子空間投影法對混合信號做逆推,實現(xiàn)了高質(zhì)量的語音信號源恢復(fù)。
一、盲源分離模型
按照混合系統(tǒng)的不同模型,盲分離可分為線性瞬時混合、線性卷積混合、非線性混合。線性瞬時混合是盲信號分離中結(jié)構(gòu)形式最簡單,也是最經(jīng)典的混合模型形式,因此本發(fā)明實施例采用線性瞬時混合系統(tǒng)模型,其模型為
x(t)=As(t)+n(t) (1)
其中,s(t)=[s1(t) s2(t) … sN(t)]T為源信號矢量,N為源信號數(shù)目;x(t)=[x1(t) x2(t) … xM(t)]T為混合信號矢量,M為混合信號數(shù)目;n(t)=[n1(t) n2(t) … nN(t)]T為噪聲矢量,A為M×N維混合矩陣。本發(fā)明實施例僅研究M<N的欠定混合情況。
1、語音信號的諧波結(jié)構(gòu)
由文獻[16]可知,語音信號由近似諧波的濁音部分和形似噪聲的清音部分組成,其中濁音部分占據(jù)了語音信號的大部分能量。圖1(a),圖1(b)分別為女聲及男聲的短時傅立葉譜圖,其中平坦的波紋狀的時頻分布即對應(yīng)近似諧波的濁音成分(圖1(a)中的女聲比圖1(b)中的男聲的諧波更為豐富)。由于濁音諧波成分與發(fā)聲器官的振動相關(guān)[17],而不同的發(fā)聲個體往往具有獨立性,這決定了語音信號混合后,在各個混合信號的時頻面上,必然存在僅對應(yīng)于單個源激勵的支撐區(qū)(本發(fā)明實施例稱之為單源域),若能將單源域有效識別出來,就可以去掉大量無用的時頻數(shù)據(jù),大大提高混合矩陣的估計效率。因而,語音信號的諧波結(jié)構(gòu)特征為有效識別單源域提供了可能。
2、時頻變換的頻譜泄漏問題
忽略加性噪聲,對式(1)做理想的時頻變換可得盲分離的時頻表示:
X(τ,ω)=AS(τ,ω) (2)
其中,τ為時間變量;ω為頻率變量;A為混合矩陣;S(τ,ω)為源信號時頻變換。若在某時刻τ0僅有第n個源信號活躍,且僅含一個頻率成分(假定該成分頻率、幅值、相位參數(shù)分別為ω0、c0、φ0),則
其中,Si(τ0,ω)為第n個源信號在τ0時刻的時頻變換;δ(ω-ω0)為頻率在ω0處的沖激函數(shù);i表示第i個源信號。
故聯(lián)立式(2)、式(3),可得時頻位置(τ0,ω0)上混合信號的理想時頻表示為:
因而單源時頻點(τ0,ω0)上的混合時頻向量X(τ0,ω0)=[X1(τ0,ω0),…,XM(τ0,ω0)]T與混合矩陣A第n個列向量an平行。故若找到所有的單源時頻點,即可確定整個混合矩陣A。其中,X(τ0,ω0)為混合信號在時間為τ0、頻率為ω0時的時頻變換矢量。
由于理想時頻分析工具是不存在的(如STFT存在分辨率低和譜泄漏問題,魏格納分布存在交叉項干擾等),即使對于某個單源成分,不理想的時頻分析也會導(dǎo)致其各路混合信號的時頻譜泄漏到期望的(τ0,ω0)位置附近的支撐區(qū),且單源支撐區(qū)內(nèi)的時頻點的幅值和相位與其理想值c0、φ0會產(chǎn)生偏差?,F(xiàn)有的方法(如TIFROM方法[13])對混合信號單源支撐區(qū)內(nèi)的時頻點做平均來消除偏差。此外,譜泄漏還使得距離比較近的成分間的支撐區(qū)相互重疊,這將產(chǎn)生相互干擾,會進一步增大誤差。
因此,本發(fā)明實施例提出用頻譜校正[14]取代單源支撐區(qū)域內(nèi)的時頻點的統(tǒng)計平均的方法,不僅可以彌補STFT的有限分辨率和譜泄漏的不足,還可精確地估計出諧波成分的頻率、幅值及相位。在頻譜校正基礎(chǔ)上,本發(fā)明實施例還提出一種基于相位一致性的準則,利用該準則可以找到可靠的、受譜間干擾小的單源支撐區(qū),從而進一步提升盲識別精度。
二、基于諧波提取的語音信號欠定盲分離方法
本發(fā)明實施例提出的欠定盲分離方法包括:頻譜校正、單源模式篩選、基于自適應(yīng)K-均值的混合矩陣估計和基于子空間投影的源信號恢復(fù)4個階段,分別詳述如下。
1、基于比值法的頻譜校正技術(shù)
由于WVD存在交叉項干擾的問題,且語音信號在STFT域內(nèi)呈現(xiàn)較為明顯的稀疏特性,本發(fā)明實施例選擇STFT做為稀疏表示方式。對所有觀測信號x1(t)~xM(t)做短時傅立葉變換,可得到其短時傅立葉譜X1(τ,kΔω)~XM(τ,kΔω)(其中τ=1,…,τtotal,τtotal為總的時間幀數(shù),k=1,2,…,L,L是STFT的窗長;Δω為頻域分辨率)。
針對上述提出的現(xiàn)有時頻工具的譜泄漏問題,本發(fā)明實施例引入基于比值法的譜校正技術(shù)[14]。譜校正的目的就是在某個固定的時刻τ0上,利用混合信號譜線Xm(τ0,kΔω)(簡記為Xm(τ0,k),k=1,2,…,L,L是STFT的窗長,m=1,…,M)提取所有諧波的三個參數(shù):(為第m路混合信號的頻率;為第m路混合信號的幅值;為第m路混合信號的相位;是當前時刻上的譜峰個數(shù),也即諧波分量個數(shù))。考慮到譜間干擾,在選擇譜校正算法時,要求使用的譜線數(shù)目越少越好,故引入僅使用兩根譜線的比值譜校正方法。在時刻τ0上,該方法校正步驟如表1所示。
表1比值法頻譜校正步驟
若考慮所有的τ0時刻,即τ0=1,…,τtotal(τtotal為總時間幀數(shù)),按照表1比值法頻譜校正流程,可估計得到大量參數(shù)對但這些參數(shù)對所對應(yīng)的成分不一定為單源成分,需要做進一步篩選。
2、單源模式篩選
如前所述,混合信號中各諧波成分間的互擾會降低諧波提取的精度;另外,多個源信號也可能包含相同的頻率成分(即重疊成分)。這兩種情況都會使單源域?qū)?yīng)的參數(shù)對難于識別。因而單源成分篩選不僅要剔除譜間干擾較嚴重的校正諧波參數(shù),還要剔除與重疊頻率對應(yīng)的校正諧波參數(shù)。因而該篩選過程分為有效成分生成和單源模式識別兩個步驟。
(1)有效成分生成
對于某特定時刻τ0,受噪聲及頻譜校正精度所限,同一頻率成分在所有M個混合信號上得到的頻率估計值往往存在小差異,因此需將這些小差異頻率估計結(jié)果進行合并。
假定τ0時刻所有混合信號的頻率成分估計為將這M個集合取并集,并按照升序排列,來自同一頻率成分的估計由于僅有很小的差異,必定會自動形成一個緊密的簇。假設(shè)第q個簇為(為第q個簇內(nèi)的混合信號的頻率成分估計;為該簇的元素數(shù)目),元素數(shù)目的頻率簇可視為無效成分并將之去除,僅保留包含M個元素的頻率簇。假設(shè)剩余的簇為Q個,則每個簇的元素可以按下式進行合并:
其中,為取均值合并后每個簇的頻率成分。
經(jīng)過篩選合并后,可剔除大量因噪聲和譜間干擾引起的偽成份,剩余的頻率成分必與源信號的某頻率成分(單源成分或重疊成分)對應(yīng),故稱為有效成分。對于每個有效成分可結(jié)合對應(yīng)通道的幅值和相位校正結(jié)果,定義一個與之對應(yīng)的有效模式向量
其中,為第m路混合信號的幅值;為第m路混合信號的相位。
式(11)和(12)所涉及的篩選操作,基本排除了噪聲和譜泄漏引起的偽成分,保證了式(12)所指的有效向量集合是源信號的真實成分,但這些成分有可能僅為單個源所擁有,也有可能為多個源共同擁有,故需進一步進行單源模式篩選。
(2)單源模式識別
由式(4)可知,在某個時刻τ0下,對于第n個源的單源頻率成分ω0,其理想的時頻混合向量X(τ0,ω0)(也即在時刻τ0下頻率成分ω0所對應(yīng)的模式向量)將平行于an。與此同時,X(τ0,ω0)的每項都由實數(shù)am,n(列向量an的第m個元素,m=1,…,M)和同一復(fù)數(shù)乘積生成,因而X(τ0,ω0)每項的理論相位應(yīng)與φ0相等。該特性可稱為相位一致性,即對于某個模式向量當其滿足:
時(ξ為給定的小閾值),可判定其為單源成分,進行單源模式識別后模式的數(shù)量由Q個減少為個。
其中,C為排列組合算法;為第r路混合信號的相位;為第l路混合信號的相位。
近一步可推知,符合式(13)相位一致性的頻率成分一定是單源的大幅值成分,這是因為:若該頻率成分不是單源的,而是被多個源共有的重疊成分,由式(2)推導(dǎo)到式(4)就必然不成立;若該頻率成分不是大幅值的,其相位必然會受到周圍其它成分的干擾,而不滿足式(13)的一致性條件。故經(jīng)過式(13)相位一致性準則篩選的模式具備很高的可靠性。
假設(shè)所有時刻的單源模式總數(shù)為P∑,篩選后的單源模式集為{zq,q=1,…,PΣ},將其進行下文所述能量歸一化,進一步對該集合做聚類即可獲得混合矩陣估計。
3、基于自適應(yīng)K-均值聚類的混合矩陣估計
模式聚類要解決兩個問題:一是估計源數(shù)目N,二是估計混合矩陣的N個列向量。本發(fā)明實施例根據(jù)文獻[18]的思路,引入自適應(yīng)K-均值聚類解決這兩個問題。
由于源數(shù)目N未知,故可試探性地指定傳統(tǒng)K-均值聚類方法的類參數(shù)K值,使之從M開始逐一遞增做多次聚類,依據(jù)各次聚類的性能變化來確定源數(shù)目。對于當前的K-均值聚類,其聚類性能指標DK[19]可定義為
其中,Gi為第i個簇(為第i個簇的有效模式向量;Ri為第i簇的元素數(shù)目;ci為第i個簇的聚類中心;)的類內(nèi)離散程度值,Gi表達式為
其中,Ri為第i個簇的元素數(shù)目。故類內(nèi)離散程度Gi越小,表示第i簇的數(shù)據(jù)越緊密。Mi,j為簇間距離參數(shù),其表達式為:
Mi,j=||ci-cj|| (16)
其中,cj為第j個簇的聚類中心。故第i類與第j類的距離越大,聚類的區(qū)分特性越好。
聯(lián)立式(14)-(16)可知,DK為聚類性能指標,DK值越小,聚類性能越好。因而DK值最小的K-均值聚類的類參數(shù)K值即為最佳的源數(shù)目估計值,即
其中,argmin為使得某個泛函取得最小值的函數(shù)。
在實現(xiàn)過程中,DK的極小值對應(yīng)的K值可作為N的估計。確定源數(shù)目N后,將對應(yīng)的K-均值聚類的聚類中心c1,…,cN進行組合即為混合矩陣估計為混合矩陣矢量。
4、基于子空間投影的盲恢復(fù)
本發(fā)明實施例引入子空間投影算法[12]恢復(fù)源信號。該算法允許源信號在時頻域的支撐區(qū)有一定重疊,但完全恢復(fù)需滿足如下條件:重疊成分只能被小于混合信號數(shù)目M的ρ個源信號共有。為提供足夠多的重疊可能,不妨令ρ=M-1。
為了實現(xiàn)子空間投影盲恢復(fù),需要在每個時頻點(τ0,ω0)上,找到與該點對應(yīng)的ρ個源信號下標α1,…,αρ,進一步從混合矩陣估計中獲得M×ρ維的子矩陣即
其中,為混合矩陣的M×ρ維子矩陣;利用可構(gòu)造投影到其噪聲子空間的M×M維正交投影矩陣Q;
其中,為矩陣的轉(zhuǎn)置。
根據(jù)噪聲子空間的定義,Q和混合矩陣估計滿足
其中,為第n個混合矩陣矢量。
因而{α1,…,αρ}可由下式求得:
其中,是與對應(yīng)的噪聲投影矩陣;β1,…,βρ為{1,2,…,n}的ρ維子集;為混合矩陣的M×ρ維子矩陣;為混合矩陣的M×ρ維子矩陣矢量。
從而與頻點(τ0,ω0)對應(yīng)的所有N個源信號的STFT可由下式恢復(fù)
其中,為ρ個含有頻點(τ0,ω0)的源信號的時頻變換;為混合矩陣的M×ρ維子矩陣;為其余不含(τ0,ω0)頻點的源信號的時頻變換。
對所有時頻點運行子空間投影算法,可以得到N個源信號的STFT譜估計再對其進行逆短時傅里葉變換,可得到恢復(fù)信號
實施例1
本發(fā)明實施例提供了一種基于諧波提取的欠定語音盲分離方法,參見圖2,該方法包括以下步驟:
101:在盲識別階段,對語音信號進行短時傅立葉變換,利用基于比值法頻譜校正的諧波提取技術(shù)提取語音信號中的諧波成分;通過相位一致性準則對所述諧波成分做篩選;
102:引入可估計源數(shù)的自適應(yīng)K-均值聚類法對篩選出的單源成分向量進行聚類,得到混合矩陣的估計;
103:在盲恢復(fù)階段,針對各路源語音信號在時頻域中存在重疊的情況,采用子空間投影法對混合矩陣的估計做逆推,實現(xiàn)了高質(zhì)量的語音信號源恢復(fù)。
其中,步驟101中的利用基于比值法頻譜校正的諧波提取技術(shù)提取語音信號中的諧波成分,通過相位一致性準則對所述諧波成分做篩選的步驟具體為:
1)將頻率集合進行混合,按照升序排列,得到Q個簇,對簇內(nèi)頻率進行合并,可得到合并后的頻率序列;
2)找出頻率序列中的有效模式;
3)將有效模式作為輸入,識別有效模式中的單源模式;收集所有時間幀得到的單源模式組成單源域。
其中,上述有效模式具體為:
滿足給定一個小閾值ε>0,對于每個m都存在且僅存在一個下標滿足。
其中,步驟102中的引入可估計源數(shù)的自適應(yīng)K-均值聚類法對篩選出的單源成分向量進行聚類,得到混合矩陣的估計的步驟具體為:
根據(jù)欠定情形,若K+1次的分類性能指數(shù)大于K次的分類性能指數(shù),則源數(shù)目即等于觀測數(shù)目,對應(yīng)的K-均值聚類中心則為混合矩陣的估計。
其中,步驟103中的采用子空間投影法對混合矩陣的估計做逆推,實現(xiàn)了高質(zhì)量的語音信號源恢復(fù)的步驟具體為:
令最大的重疊源信號數(shù)目為ρ=M-1,對于子矩陣求出其對應(yīng)的正交投影矩陣;獲取重疊信號的下標,并求出當前時頻點的短時傅立葉譜;
求出所有時頻點的短時傅立葉譜值后可得N個源信號的STFT譜估計,再對其進行逆短時傅立葉變換,可得到恢復(fù)信號。
綜上所述,本發(fā)明實施例采取頻譜校正措施來提取語音信號中的諧波參數(shù),大大提高了算法精度;提出基于相位一致特性準則對已提取的諧波參數(shù)做篩選,可有效地識別出強單源成分,增強了對噪聲的魯棒性;使用自適應(yīng)K-均值聚類法對單源模式進行聚類,可在源數(shù)目未知的情形下獲得混合矩陣及源數(shù)目估計;使用子空間投影法恢復(fù)源信號,從而允許源信號間有一定程度的頻率重疊,大大提高了方法的適用范圍,同時也可提高語音信號的恢復(fù)精度。
實施例2
下面結(jié)合具體的計算公式、對實施例1中的方案進行詳細的描述,詳見下文描述:
201:對給定的M路混合語音信號xm t,m=1,…,M做加漢寧窗L點50%重疊的STFT變換,得到觀測頻譜Xmτ,k;
202:逐幀對STFT混合信號頻譜做頻譜校正;
其中,對于某一特定時間幀τ0,具體操作見表1——比值法頻譜校正步驟。
203:對于上述特定時間幀τ0,對所有諧波參數(shù)對進行模式篩選;
其中,該步驟具體為:
1)將頻率集合進行混合,按照升序排列,得到Q個簇,其中第q(q=1,…,Q)個簇為Γq為該簇的元素個數(shù),按照式(11)對簇內(nèi)頻率進行合并,可得到合并后的頻率序列
2)找出頻率序列中滿足給定一個小閾值ε>0,對于每個m(1≤m≤M)都存在且僅存在一個下標滿足,則該頻率對應(yīng)一個有效模式如式12;
3)將有效模式作為輸入,按照式(13)識別中的單源模式,并記為
其中,為有效模式;為進行單源模式識別后模式的數(shù)量。
204:將上述步驟202和203中的操作逐幀進行,收集所有時間幀得到的單源模式組成
單源域Ω=zi,i=1,…,P;
205:對單源域中的單源模式進行自適應(yīng)K-均值,具體操作如下:
1)根據(jù)欠定情形,將類參數(shù)K初始化為混合信號數(shù)目M,并進行傳統(tǒng)K-均值聚類;
2)根據(jù)式(14)~(16)計算本次分類的性能指數(shù)DB指標DM;
3)令K=K+1,再次進行傳統(tǒng)K-均值聚類,并再次根據(jù)式(14)~(16)計算本次分類的性能指數(shù)DB指標DM+1;
4)若DM+1>DM則停止計算,源數(shù)目即等于觀測數(shù)目,否則令K=K+1繼續(xù)上述3),直到找到特定的值使得其對應(yīng)的DB指標滿足DK-1<DK<DK+1,則觀測數(shù)目為N=K,對應(yīng)的K-均值聚類中心則為混合矩陣的估計
其中,DK-1、DK以及DK+1分別為類參數(shù)分別為K-1、K、K+1的聚類性能指標。
206:利用步驟205中估計出的源數(shù)目及混合矩陣的估計,并通過子空間法恢復(fù)源信號,具體操作如下:
1)令最大的重疊源信號數(shù)目為ρ=M-1,對于子矩陣(見式(18)),利用式(19)求出其對應(yīng)的正交投影矩陣Q(最終共有個Q);
2)求出正交投影矩陣Q后,根據(jù)式(20)及式(21)求出重疊信號的下標,并最終通過式(22)求出當前時頻點的短時傅立葉譜;
3)求出所有時頻點的短時傅立葉譜值后可得N個源信號的STFT譜估計再對其進行逆短時傅立葉變換,可得到恢復(fù)信號
綜上所述,本發(fā)明實施例采取頻譜校正措施來提取語音信號中的諧波參數(shù),大大提高了算法精度;提出基于相位一致特性準則對已提取的諧波參數(shù)做篩選,可有效地識別出強單源成分,增強了對噪聲的魯棒性;使用自適應(yīng)K-均值聚類法對單源模式進行聚類,可在源數(shù)目未知的情形下獲得混合矩陣及源數(shù)目估計;使用子空間投影法恢復(fù)源信號,從而允許源信號間有一定程度的頻率重疊,大大提高了方法的適用范圍,同時也可提高語音信號的恢復(fù)精度。
實施例3
下面結(jié)合具體的試驗數(shù)據(jù)、附圖對實施例1和2中的方案進行可行性驗證,詳見下文描述:
1、基于諧波提取的單源域模式篩選過程
選取來自語音數(shù)據(jù)庫TIMIT的四段語音信號作為源信號,并將混合矩陣設(shè)定為:
其中,4個源信號時域波形如圖2所示,將源信號按照混合矩陣A進行混合,得到的3個混合信號時域波形如圖3所示。混合信號所有的STFT時頻向量(歸一化后)分布如圖5(a)所示。按照有效成分生成流程(表1中η=0.02),獲得的有效模式向量的分布如圖5(b)所示,依據(jù)相位一致性準則做進一步篩選后,得到的單源域模式向量分布如圖5(c)所示。
從圖5(a)中可以看出,混合信號的原始STFT時頻向量分布沒有展現(xiàn)方向聚集特性;從圖5(b)可看出,經(jīng)有效模式篩選后,混合信號向量的分布更加集中;從圖5(c)可看出,用相位一致性準則做進一步篩選后,其單源模式向量分布十分緊密,可清晰的觀察到4個簇。由此可知,單源模式篩選步驟大大降低了STFT的冗余,提高了算法效率。
2、欠定盲恢復(fù)性能對比試驗
仍然利用上節(jié)實驗的源信號及混合矩陣,用本發(fā)明實施例所提的欠定盲分離算法進行源信號恢復(fù)。同時,引入文獻[12]的原始子空間投影恢復(fù)算法作為對比。
1)本發(fā)明實施例所提方法實驗及結(jié)果
按照自適應(yīng)K-均值流程,對圖5(c)的單源模式集做聚類得到的混合矩陣估計為:
進而把式(23)的原始混合矩陣A與式(24)的估計矩陣代入如下恢復(fù)信噪比表達式SNRA:
可求得SNRA=46.99dB。
為了評估恢復(fù)信號的質(zhì)量,對于信號s(t),定義其能量歸一化的結(jié)果為:
基于此,可定義源信號si(t)與包含有次序不確定性的恢復(fù)信號的歸一化信噪比為:
其中,為歸一化源信號si(t)的能量;為歸一化的源信號si(t)與歸一化的包含有次序不確定性的恢復(fù)信號的能量差。
進而,可獲得與源信號si(t)對應(yīng)的恢復(fù)信號的索引序號Γi為:
其中,為源信號si(t)與包含有次序不確定性的恢復(fù)信號的歸一化信噪比;為包含有次序不確定性的恢復(fù)信號。
從而,可獲得消除次序不確定性后的恢復(fù)信號為:
其中,為索引序號為Γi的恢復(fù)信號。
圖6給出了用本方法得到的恢復(fù)信號的波形。
2)實驗對比及分析
為了進行對照,本實驗還用原始子空間投影法[12]對同樣的混合信號進行處理(其混合矩陣通過對所有大幅值的混合信號STFT時頻向量做K-均值聚類而得,且假設(shè)源數(shù)N為已知),考慮到原始子空間投影法結(jié)果不穩(wěn)定,分別將該方法和本方法重復(fù)做了20次測試,求得其混合矩陣估計的平均恢復(fù)信噪比為SNRA=26.88dB。表2列出了原始子空間投影法和本方法的最高信噪比、最低信噪比和平均信噪比。
表2兩種方法的恢復(fù)各路信號的信噪比(單位:分貝)
從表2的實驗數(shù)據(jù),可得到如下分析結(jié)果:
1)本方法的穩(wěn)定性高于原始子空間投影方法。所重復(fù)的20次算法測試中,對各路源信號而言,均得到了一致的恢復(fù)信噪比,而原始子空間投影方法的各個算法測試結(jié)果差異較大(最高和最低信噪比的差異普遍在8.77dB以上,最大的差異高達11.61dB)。這是因為,本方法包含有效模式生成、單源模式識別的模式篩選過程,經(jīng)過篩選后,可靠的模式個數(shù)大為減小(如圖5所示),故算法非常穩(wěn)定。而原始子空間投影方法沒有進行模式篩選,在對大量冗余的模式進行K均值聚類時,必然會因聚類初始化的差異導(dǎo)致算法的不穩(wěn)定。
2)本方法的信號恢復(fù)質(zhì)量高于原始子空間投影方法。從表2可以看出,本方法的平均恢復(fù)信噪比普遍比原始子空間投影方法高出約3dB。這是因為本方法引入的頻譜校正措施可獲得高精度的諧波參數(shù)估計,這既保證了混合矩陣的高精度估計(本方法比原始子空間投影方法高出20.11dB),又保證了最終恢復(fù)波形具有很高的信噪比,而原始子空間投影方法沒有考慮頻譜校正,因而不具備恢復(fù)信噪比的優(yōu)勢。
3)需強調(diào)的是,本方法是在不需要指定源數(shù)目而獲得高的算法穩(wěn)定度,而原始子空間投影算法則需要指定源數(shù)目。
實施例4
下面結(jié)合具體的附圖7和附圖8對實施例1和2中的方法對應(yīng)的硬件部分進行詳細描述,詳見下文:
參見圖7,將采集到的多路觀測信號x(t)經(jīng)過A/D(模數(shù)轉(zhuǎn)化器)采樣得到樣本序列x(n),以并行數(shù)字輸入的形式進入DSP芯片,經(jīng)過DSP芯片的內(nèi)部算法處理,得到混合矩陣的估計;最后借助輸出驅(qū)動及其顯示模塊顯示混合矩陣的估計值。
其中,圖7的DSP(Digital Signal Processor,數(shù)字信號處理器)為核心器件,在信號參數(shù)估計過程中,完成如下主要功能:
1、調(diào)用核心算法,完成信號的STFT變換,頻譜校正,單源模式篩選得到信號的單源域,利用自適應(yīng)K-均值,得到源數(shù)目及混合矩陣的估計;
2、利用估計出的混合矩陣及子空間投影算法得到估計信號的短時傅立葉譜,并通過逆傅里葉變換得到估計信號的時域波形;
3、將結(jié)果輸出至輸出驅(qū)動及其顯示模塊;
DSP器件的內(nèi)部程序流程如圖8所示。本發(fā)明實施例將所提出的“一種穩(wěn)健的欠定盲分離源數(shù)及混合矩陣估計方法”這一核心估計算法植入DSP器件內(nèi),基于此完成高精度、低復(fù)雜度、高效的源信號數(shù)目及混合矩陣的估計。
圖8流程分為如下幾個步驟:
1)首先需根據(jù)具體應(yīng)用要求,設(shè)置信號的采樣點數(shù)L;
2)其次,CPU主控器從I/O端口讀采樣數(shù)據(jù),進入內(nèi)部RAM;
3)最終,按圖2方法的處理過程進行欠定語音信號的盲分離,并將恢復(fù)信號通過外部顯示裝置進行顯示。
綜上所述,本發(fā)明實施例采取頻譜校正措施來提取語音信號中的諧波參數(shù),大大提高了算法精度;提出基于相位一致特性準則對已提取的諧波參數(shù)做篩選,可有效地識別出強單源成分,增強了對噪聲的魯棒性;使用自適應(yīng)K-均值聚類法對單源模式進行聚類,可在源數(shù)目未知的情形下獲得混合矩陣及源數(shù)目估計;使用子空間投影法恢復(fù)源信號,從而允許源信號間有一定程度的頻率重疊,大大提高了方法的適用范圍,同時也可提高語音信號的恢復(fù)精度。
參考文獻
[1]Zhao Huang,He Shaofang,Chen Zuo,et al.Dual key speech encryption algorithm based underdetermined BSS[J].The Scientific World Journal,2014,2014(8):1-8.
[2]湯俊杰,李輝,戴旭初.實現(xiàn)單通道MPSK信號盲分離的MCMC新算法[J].信號處理,2014,30(11):1321-1328.
[3]Cui Lingli,Wu Chunguang,Ma Chunqing,et al.Diagnosis of roller bearings compound fault using underdetermined blind source separation algorithm based on null-space pursuit[J].Shock and Vibration,2015,2015(5):1-8
[4]A,Oja E.A fast fixed-point algorithm for independent component analysis[J].Neural Computation,1997,9(7):1483-92.
[5]Liu Benxu,Reju V G,Khong A W.A linear source recovery method for underdetermined mixtures of uncorrelated AR-model signals without sparseness[J].IEEE Transactions on Signal Processing,2014,62(19):4947-4958.
[6]葛素楠,韓敏.基于四階累積張量方法的欠定盲源信號分離[J].電子學(xué)報,2014,42(5):992-997.
[7]王超,方勇.基于非連續(xù)多幀平滑的卷積混合盲分離頻域算法[J].信號處理,2009,25(1):90-93.
[8]Xie Shengli,Yang Liu,Yang Junmei,et al.Time-frequency approach to underdetermined blind source separation[J].IEEE Transactions on Neural Networks&Learning Systems,2012,23(2):306-16.
[9]Bofill P,Zibulevsky M.Underdetermined blind source separation using sparse representations[J].Signal Processing,2001,81(11):2353–2362.
[10]王惠剛,梁紅,李志舜.任意信號源的盲分離[J].信號處理,2002,18(2):151-154.
[11]Zhou Guoxu,Yang Zuyuan,Xie Shengli,et al.Mixing matrix estimation from sparse mixtures with unknown number of sources[J].IEEE Transactions on Neural Networks,2011,22(2):211-221.
[12]-El-Bey A,Linh-Trung N,Abed-Meraim K,et al.Underdetermined blind separation of nondisjoint sources in the time-frequency domain[J].IEEE Transactions on Signal Processing,2007,55(3):897-907.
[13]Abrard F,Deville Y.A time–frequency blind signal separation method applicable to underdetermined mixtures of dependent sources[J].Signal Processing,2005,85(7):1389-1403.
[14]Zhang Fusheng,Geng Z,Yuan W.The algorithm of interpolating windowed FFT for harmonic analysis of electric power system[J].IEEE Transactions on Power Delivery,2001,16(2):160-164.
[15]O,Rickard S.Blind separation of speech mixtures via time-frequency masking[J].IEEE Transactions on Signal Processing,2004,52(7):1830-1847.
[16]Siegel L J,Bessey A.Voiced/unvoiced/mixed excitation classification of speech[J].IEEE Transactions on Acoustics Speech&Signal Processing,1982,30(3):451-460.
[17]Vaseghi S V.Advanced digital signal processing and noise reduction[M].John Wiley&Sons,2008.
[18]付衛(wèi)紅,馬麗芬,李愛麗.基于改進K-均值聚類的欠定混合矩陣盲估計[J].系統(tǒng)工程與電子技術(shù),2014,36(11):2143-8.
[19]Davies D L,Bouldin D W.A cluster separation measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1979,PAMI-1(2):224-227.
本發(fā)明實施例對各器件的型號除做特殊說明的以外,其他器件的型號不做限制,只要能完成上述功能的器件均可。
本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。