融合基頻信息的雙麥克風(fēng)定向噪音抑制的系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及噪音抑制的系統(tǒng)和方法,具體設(shè)及一種融合基頻信息的雙麥克風(fēng)定向 噪音抑制的系統(tǒng)及方法。
【背景技術(shù)】
[0002] 基于語音的人機(jī)交互技術(shù)是人與人、人與計(jì)算機(jī)最便捷、自然的交互方式。隨著智 能手機(jī)、語音識(shí)別等相關(guān)產(chǎn)品技術(shù)的發(fā)展,市場(chǎng)對(duì)語音降噪相關(guān)技術(shù)的需求越來越迫切。而 用戶在使用智能語音相關(guān)產(chǎn)品的同時(shí),目標(biāo)語音通常伴隨著一些噪音,比如在家居環(huán)境下 電視、音響設(shè)備的聲音,運(yùn)些噪音限制了智能語音的效果與用戶體驗(yàn)。本專利發(fā)明的技術(shù)正 是基于運(yùn)項(xiàng)需求,通過信號(hào)處理,有效過濾掉相關(guān)噪音,確保語音信號(hào)的純凈度,提高語音 交互的用戶感知與體驗(yàn)。
[0003] 常規(guī)的基于噪音能量估計(jì)的方法,通常需要對(duì)噪音類型進(jìn)行限制,必須能量時(shí)不 變的平穩(wěn)信號(hào),才能有一定的噪音抑制效果。此外,由于語音譜也被破壞,不能提高后續(xù)語 音識(shí)別相關(guān)技術(shù)的準(zhǔn)確率。采用麥克風(fēng)陣列的beanrforming技術(shù),需要準(zhǔn)確估計(jì)用戶方位 信息,或者需要用戶必須站在某個(gè)固定的位置,限制了其應(yīng)用的靈活性。本項(xiàng)發(fā)明采用了計(jì) 算聽覺場(chǎng)景分析技術(shù),可W有效抑制真實(shí)環(huán)境下的非平穩(wěn)定向噪聲,并且只需要兩個(gè)麥克 風(fēng),對(duì)用戶方位信息并無特殊要求,應(yīng)用更為靈活。
[0004] 對(duì)現(xiàn)有的降噪技術(shù)和市場(chǎng)上的語音降噪類產(chǎn)品進(jìn)行仔細(xì)的對(duì)比和分析,可發(fā)現(xiàn)現(xiàn) 有的降噪技術(shù)技術(shù)或者只能抑制某一類噪音,或者對(duì)噪音的處理效果不佳,有很大的噪音 殘留,不能提高語音識(shí)別的準(zhǔn)確性,或者對(duì)麥克風(fēng)的數(shù)量有嚴(yán)格要求,使用并不靈活。比較 詳細(xì)的比較如下所示: 陽0化]W譜減法(spectralsubtraction)為代表的語音增強(qiáng)技術(shù),對(duì)噪音的平穩(wěn)性有嚴(yán) 格要求,只能有效處理白噪聲或者其他能量變化緩慢的噪音信號(hào);語音信號(hào)通常也會(huì)被誤 減,語音扭曲很大,降噪后語音感知質(zhì)量差、可懂度并未提高,由于語音扭曲會(huì)導(dǎo)致語音識(shí) 別率進(jìn)一步下降。
[0006] Wbeanrforming為代表的麥克風(fēng)陣列處理技術(shù),需要4個(gè)或者更多的麥克風(fēng)才能 達(dá)到相對(duì)良好的降噪效果,需要知道用戶方位的先驗(yàn)信息,對(duì)于定向噪音抑制性能有限。
[0007] W主成分分析為代表的盲源分離技術(shù),在理想無混響或者混響較弱的情況下,效 果良好,但是真實(shí)家居環(huán)境應(yīng)用下,混響通常很強(qiáng),導(dǎo)致性能下降;通常聲源的數(shù)量,不能多 于麥克風(fēng)的數(shù)量,比如W雙麥克風(fēng)為例,如果噪音源超過一個(gè)(用戶聲源也要計(jì)算),會(huì)導(dǎo) 致性能下降;此外過高的時(shí)間開銷也是限制其應(yīng)用的重要原因。
【發(fā)明內(nèi)容】
[0008] 針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明公開了一種融合基頻信息的雙麥克風(fēng)定向噪音抑制 的系統(tǒng)及方法。 陽009] 本發(fā)明的技術(shù)方案如下:
[0010] 一種融合基頻信息的雙麥克風(fēng)定向噪音抑制系統(tǒng),包括主聲音信號(hào)輸入設(shè)備和輔 助聲音信號(hào)輸入設(shè)備,所述輔助聲音信號(hào)輸入設(shè)備距離聲源的距離遠(yuǎn)于主聲音信號(hào)輸入設(shè) 備滿包括:
[0011] 單通道語音信號(hào)分離模塊,包括恢復(fù)語音信號(hào)中的諧波的缺失成分的模塊;
[0012] 雙通道語音信號(hào)分離模塊,包括構(gòu)造優(yōu)化目標(biāo)和最優(yōu)濾波器,所述最優(yōu)濾波器用 于計(jì)算系統(tǒng)在保證語音信號(hào)無扭曲的條件下抑制噪音; 陽〇1引輸出模塊;
[0014] 所述主聲音信號(hào)輸入設(shè)備的輸出端連接單通道語音信號(hào)分離模塊,單通道語音信 號(hào)分離模塊的輸出端和輔助聲音信號(hào)輸入設(shè)備的輸出端都連接雙通道語音信號(hào)分離模塊; 雙通道語音信號(hào)分離模塊的輸出端連接輸出模塊,所述輸出模塊輸出可識(shí)別文本。
[0015] 其進(jìn)一步的技術(shù)方案為,其特征在于,所述單通道語音信號(hào)分離模塊包括諧波結(jié) 構(gòu)缺失成分恢復(fù)模塊,具體包括:
[0016] 聽覺譜計(jì)算模塊,計(jì)算聽覺譜估計(jì)函數(shù);
[0017] 二值掩蔽估計(jì)模塊,設(shè)置有二值掩蔽函數(shù),根據(jù)聽覺譜估計(jì)函數(shù)區(qū)分由噪音主導(dǎo) 的時(shí)頻單元并將其排除,得到目標(biāo)語音譜估計(jì);
[0018] 諧波結(jié)構(gòu)模型分析模塊,設(shè)置有諧波結(jié)構(gòu)分析函數(shù),分析所述聽覺譜計(jì)算模塊的 輸出信號(hào)的諧波結(jié)構(gòu);
[0019] 諧波缺失成分恢復(fù)模塊,設(shè)置有時(shí)域到頻域的卷積函數(shù),可恢復(fù)所述二值掩蔽估 計(jì)模塊得到的目標(biāo)語音譜估計(jì)中的諧波缺失成分。
[0020] 其進(jìn)一步的技術(shù)方案為,所述單通道語音信號(hào)分離模塊還包括基于CASA和維納 濾波的平滑濾波模塊,具體包括:
[0021] 噪音譜估計(jì)模塊,可根據(jù)所述主聲音信號(hào)輸入設(shè)備所輸入的信號(hào)中的無語音信號(hào) 的空白時(shí)間段噪音譜估計(jì)函數(shù)和并估計(jì)噪音能量;
[0022] 自適應(yīng)噪音控制因子計(jì)算模塊,可根據(jù)噪音譜估計(jì)模塊和所述二值掩蔽估計(jì)模塊 所輸出的信息得到與噪音效果成負(fù)相關(guān)的噪音控制因子;
[0023] 浮值掩蔽計(jì)算模塊,設(shè)置有浮值掩蔽計(jì)算函數(shù),可根據(jù)噪音控制因子得到目標(biāo)語 音頻譜估計(jì)函數(shù);對(duì)語音頻譜估計(jì)函數(shù)進(jìn)行短時(shí)傅里葉逆變換得到目標(biāo)語音時(shí)域估計(jì)函 數(shù)。
[0024] 其進(jìn)一步的技術(shù)方案為,所述雙通道語音信號(hào)分離模塊包括對(duì)偶濾波器和最優(yōu)濾 波器;所述對(duì)偶濾波器用于提取所述單通道語音信號(hào)分離模塊所輸出的目標(biāo)語音信號(hào)和輔 助聲音信號(hào)輸入設(shè)備所輸出的背景噪音信號(hào);所述最優(yōu)濾波器內(nèi)設(shè)置有噪音殘留評(píng)價(jià)函 數(shù)、語音扭曲度評(píng)價(jià)函數(shù)和最優(yōu)濾波器估計(jì)函數(shù);所述噪音殘留評(píng)價(jià)函數(shù)與噪音抑制效果 呈負(fù)相關(guān);所述語音扭曲度評(píng)價(jià)函數(shù)與語音扭曲程度呈正相關(guān);所述最優(yōu)濾波器估計(jì)函數(shù) 在噪音抑制效果和語音扭曲度之間找到噪音抑制的最佳值。
[00巧]一種使用如上所述的融合基頻信息的雙麥克風(fēng)定向噪音系統(tǒng)抑制噪音的方法,包 括W下步驟:
[00%] 步驟1、主聲音信號(hào)輸入設(shè)備收集主要語音信號(hào),同時(shí)輔助聲音信號(hào)輸入設(shè)備收集 背景噪音信號(hào);
[0027] 步驟2、單通道語音信號(hào)分離模塊對(duì)主要語音信號(hào)進(jìn)行噪音過濾,恢復(fù)主要語音信 號(hào)諧波結(jié)構(gòu)缺失成分,輸出目標(biāo)語音信號(hào);
[0028] 步驟3、雙通道語音信號(hào)分離模塊對(duì)所收集的背景噪音信號(hào)和所述步驟2輸出的 目標(biāo)語音信號(hào)構(gòu)建對(duì)偶濾波器,并通過對(duì)偶濾波器建立優(yōu)化函數(shù),在語音不扭曲的基礎(chǔ)上 抑制所述目標(biāo)語音信號(hào)中含有的噪聲。
[0029] 其進(jìn)一步的技術(shù)方案為,所述步驟2具體包括:
[0030] 步驟2. 1、使用gammatone濾波器組對(duì)所屬主要語音信號(hào)進(jìn)行聽覺濾波并計(jì)算聽 覺譜估計(jì)函數(shù);gammatone濾波器的時(shí)域沖擊響應(yīng)函數(shù)為:
[0031] (1) 陽03引式(1)中,1為濾波器階數(shù),b為等效矩形帶寬,b= 1.019X24. 7X0). 0043f+l);
[0033] 步驟2.2、二值掩蔽估計(jì),根據(jù)所述步驟2. 1中得到的聽覺譜估計(jì)函數(shù),區(qū)分出由 噪音主導(dǎo)的時(shí)頻單元并將其排除,得到目標(biāo)語音譜估計(jì);
[0034] 二值掩蔽估計(jì)函數(shù)為: W對(duì)
(2)
[0036] 式(2)中,S(t,f)為語音聽覺譜估計(jì)函數(shù),N(t,f)為噪音聽覺譜估計(jì)函數(shù);LC為 口限闊值;
[0037] 步驟2. 3、諧波結(jié)構(gòu)分析,根據(jù)所述步驟2. 1中聽覺濾波器的輸出信號(hào),計(jì)算第f通 道、第m時(shí)間帖自相關(guān)譜:
[00 測(cè)
C3)
[0039]根據(jù)式(3)計(jì)算互通道相關(guān)系數(shù): W40]
(4) 陽0川式(4)中互通道相關(guān)系數(shù)C化m)的最大值對(duì)應(yīng)處為基頻對(duì)應(yīng)圓頻率f。,當(dāng)fuG[50, 800]化時(shí),對(duì)所述輸出信號(hào)進(jìn)行梳狀濾波,梳狀濾波器頻域響應(yīng)函數(shù)為:
[0042] Hwmb訊=1+aexpH2 31fFs/F。)妨
[0043] Hshift訊=1+aexp(-j(2 31fFs/F〇+ 31)) (6) W44] 式妨和式(6)中,a為控制參數(shù),F(xiàn)歷采樣頻率;Htumb訊用W抓取諧波結(jié)構(gòu)上 的語音能量,山ift訊用W抓取諧波結(jié)構(gòu)之間的語音能量;
[0045] 根據(jù)濾波后的時(shí)域信號(hào)計(jì)算梳狀濾波能量比:
[0046]
饑
[0047] 式(7)中CFR是進(jìn)行諧波結(jié)構(gòu)分析得到的特征;
[0048] 步驟2. 4、諧波缺失成分恢復(fù),
[0049] 通過相鄰的諧波成分對(duì)孤立出現(xiàn)的諧波成分的缺失進(jìn)行恢復(fù),恢復(fù)所述二值掩蔽 估計(jì)模塊得到的目標(biāo)語音譜估計(jì)中的諧波缺失成分。
[0050] 其進(jìn)一步的技術(shù)方案為,所述步驟2. 4中,采用半波整流的方法和窗函數(shù)恢復(fù)諧 波缺失成分,所述半波整流所對(duì)應(yīng)的頻域響應(yīng)函數(shù)為:
[0051]
C8)
[0052] 所述窗函數(shù)為: 柳5引
(9)
[0054] 式(9)中,W為窗長(zhǎng)為2M+1的窗函數(shù);根據(jù)所述步驟2. 2中二值掩蔽估計(jì)中得到 的語音譜估計(jì)函數(shù)卷積式巧)中的窗函數(shù),得到目標(biāo)語音譜估計(jì)。
[0055] 其進(jìn)一步的技術(shù)方案為,所述步驟2還包括抑制語音扭曲的基于CASA和維納濾波 的平滑濾波算法,與上述恢復(fù)主要語音信號(hào)諧波結(jié)構(gòu)缺失成分的步驟并行進(jìn)行,具體包括 W下步驟:
[0056] 步驟2. 5、噪音譜估計(jì)。對(duì)每一個(gè)時(shí)頻單元,選取前后M個(gè)時(shí)頻單元,根據(jù)步驟2. 1 所計(jì)算出的聽覺譜和步驟2. 2得到的二值掩蔽估計(jì)的結(jié)果,估計(jì)噪音譜:
[0057]
*^24) 陽05引式(24)中,N是前移帖長(zhǎng);
[0059] 根據(jù)噪音譜估計(jì),估計(jì)當(dāng)前語音譜能量^4(1); W60]
(25)
[0061] 式(25)中,|Y(1)I2為混合語音功率譜,e是一個(gè)正數(shù)闊值W避免估計(jì)值小于0 ;
[0062] 步驟2. 6、自適應(yīng)噪聲控制因子計(jì)算; 柳6引
(27)
[0064] 式(27)中,aB(l)是原二值掩蔽估計(jì)結(jié)果,《 (1)是為了保證每一個(gè)時(shí)頻單元 都有等權(quán)重W影響噪音控制因子的選擇,在每一時(shí)間帖,任一y對(duì)應(yīng)一組浮值掩蔽aU, L(aQe)定義為y與二值掩蔽的距離; W65] 對(duì)L(aU,Qe)優(yōu)化即得到自適應(yīng)噪聲控制因子其;
當(dāng)前第1頁
1 
2 
3 
4