本發(fā)明涉及語(yǔ)音處理領(lǐng)域,特別涉及一種基于語(yǔ)義先驗(yàn)的選擇性注意的多通道語(yǔ)音增強(qiáng)方法。
背景技術(shù):
隨著語(yǔ)音通信和人機(jī)語(yǔ)音交互系統(tǒng)的不斷普及,人們?cè)絹?lái)越期待拋開(kāi)話(huà)筒和耳機(jī)等繁瑣的設(shè)備,實(shí)現(xiàn)類(lèi)似人類(lèi)對(duì)話(huà)一般自然的人機(jī)語(yǔ)音交流。然而,語(yǔ)音是一種聲波,在空氣中傳輸時(shí)會(huì)受到各種影響,例如聲波的衰減,墻壁和障礙物的多次反射(混響),同時(shí)存在的其它聲源以及環(huán)境噪聲等。當(dāng)多個(gè)語(yǔ)音系統(tǒng)和多個(gè)說(shuō)話(huà)人處于同一環(huán)境時(shí),如何確保系統(tǒng)正確接收語(yǔ)音信息,更決定了語(yǔ)音系統(tǒng)能否走向?qū)嵱?。語(yǔ)音增強(qiáng)是一種復(fù)雜噪聲環(huán)境中有效的提取目標(biāo)語(yǔ)音信號(hào)的手段,分為單通道語(yǔ)音增強(qiáng)和多通道語(yǔ)音增強(qiáng)。
單通道語(yǔ)音增強(qiáng)主要利用語(yǔ)音和噪聲在時(shí)頻域分布的差異而實(shí)現(xiàn)噪聲消除。單通道語(yǔ)音增強(qiáng)的兩個(gè)核心問(wèn)題是噪聲估計(jì)和先驗(yàn)信噪比估計(jì);前者是降低噪聲的關(guān)鍵因素,而后者則關(guān)系到殘留"音樂(lè)噪聲"的程度。單通道增強(qiáng)算法在很多情況下能夠顯著提高信噪比,尤其對(duì)平穩(wěn)噪聲(白噪聲,車(chē)噪等)有較好的消除效果。
多通道語(yǔ)音增強(qiáng)利用了傳聲器陣列拾取空間信息的能力,可以結(jié)合時(shí)域,頻域以及空間信息,獲得帶有空間區(qū)分性的接收能力。通常,多通道語(yǔ)音增強(qiáng)需要先驗(yàn)的到達(dá)方位角信息,從而形成可靠的導(dǎo)向矢量,利用空余濾波理論,對(duì)來(lái)自非目標(biāo)方向的干擾聲加以抑制,相對(duì)于單通道語(yǔ)音增強(qiáng)來(lái)說(shuō),多通道語(yǔ)音增強(qiáng)具備更好的噪聲抑制的能力。
人類(lèi)聽(tīng)覺(jué)之所以能處理多聲源和有混響的問(wèn)題,甚至還能在多人說(shuō)話(huà)時(shí)檢測(cè)和跟蹤自己感興趣的語(yǔ)音,主要原因是人類(lèi)聽(tīng)覺(jué)具有特定的選擇注意能力。當(dāng)人類(lèi)對(duì)某種目標(biāo)聲音感興趣時(shí),能夠根據(jù)具體任務(wù)和環(huán)境,選取目標(biāo)語(yǔ)音與周?chē)曇糇钣袇^(qū)分性的特征,并根據(jù)先驗(yàn)知識(shí)進(jìn)行比對(duì)和篩選,排除干擾聲音并獲得目標(biāo)語(yǔ)音。
對(duì)語(yǔ)音應(yīng)用而言,日常家居、車(chē)載和戶(hù)外等實(shí)際場(chǎng)景中可能存在的噪聲或干擾是多方面的。而現(xiàn)有的語(yǔ)音增強(qiáng)或者分離方法,都很難達(dá)到對(duì)目標(biāo)語(yǔ)音無(wú)失真拾取,而同時(shí)消除或抑制非目標(biāo)信號(hào)的目的,特別是在多個(gè)相干聲源同時(shí)存在、混響較大和低信噪比情況下。
基于多通道(傳聲器陣列)的語(yǔ)音增強(qiáng)利用多個(gè)傳聲器收到信號(hào)的幅度和相位差,可以對(duì)目標(biāo)方向的信號(hào)形成空間選擇性,使得波束成形(Beamforming,BM)、空間活動(dòng)性檢測(cè)(Directive speech activity detection,DSAD)算法指向目標(biāo)方向,從而抑制或者拒絕非目標(biāo)方向的干擾信號(hào)。但目標(biāo)聲源的波達(dá)方向(DOA)依然無(wú)法事先知道。在單聲源假設(shè)下,可以用聲源定位(Source Location,SL)技術(shù)確定目標(biāo)聲源的DOA,然而實(shí)際應(yīng)用環(huán)境中,這種假設(shè)很難滿(mǎn)足。絕大多數(shù)情況下,會(huì)同時(shí)存在多個(gè)聲源,且個(gè)數(shù)未知。在有房間反射的混響場(chǎng),情況會(huì)更復(fù)雜,導(dǎo)致目標(biāo)聲源的噪聲過(guò)大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服目前多通道語(yǔ)音增強(qiáng)方法存在的上述缺陷,將基于語(yǔ)義的聲源識(shí)別和基于信號(hào)處理的聲源定位技術(shù)相結(jié)合,融合傳聲器陣列的“空間濾波”特性,提出了一種基于語(yǔ)義先驗(yàn)的選擇性注意的多通道語(yǔ)音增強(qiáng)方法,可以有效克服噪聲和干擾。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于語(yǔ)義先驗(yàn)的選擇性注意的多通道語(yǔ)音增強(qiáng)方法,所述方法包括:多傳聲器陣列拾取來(lái)自于混響環(huán)境中的任意方向的語(yǔ)音信號(hào),采集多路語(yǔ)音信號(hào)并進(jìn)行預(yù)處理;利用激活詞語(yǔ)音識(shí)別模型檢測(cè)預(yù)處理后的語(yǔ)音信號(hào)中存在的特定激活詞;對(duì)未經(jīng)切割的包含激活詞段的信號(hào)進(jìn)行處理得到完整的激活詞段;采用基于混響?hù)敯舻亩嗤ǖ老辔徊盥曉炊ㄎ环椒▽?duì)激活詞段進(jìn)行處理,得到目標(biāo)聲源的聲波到達(dá)方向;對(duì)該方向的語(yǔ)音進(jìn)行增強(qiáng),并抑制其它方向的噪聲以及遠(yuǎn)講場(chǎng)景下的房間混響,獲取得到目標(biāo)方向的增強(qiáng)語(yǔ)音。
上述技術(shù)方案中,所述具體方法包括:
步驟1)多傳聲器陣列拾取來(lái)自于混響環(huán)境中的任意方向的語(yǔ)音信號(hào),采集多路語(yǔ)音信號(hào);
步驟2)對(duì)步驟1)采集的多路語(yǔ)音信號(hào)進(jìn)行預(yù)處理;
步驟3)利用激活詞語(yǔ)音識(shí)別模型檢測(cè)預(yù)處理后的語(yǔ)音信號(hào)中是否存在特定的激活詞;如果檢測(cè)結(jié)果是肯定的,保留未經(jīng)切割的包含激活詞段的信號(hào),進(jìn)入步驟4);否則,轉(zhuǎn)入步驟1);
步驟4)對(duì)未經(jīng)切割的包含激活詞段的信號(hào)進(jìn)行語(yǔ)音活動(dòng)性檢測(cè)得到完整的激活詞段;采用基于混響?hù)敯舻亩嗤ǖ老辔徊盥曉炊ㄎ环椒▽?duì)激活詞段進(jìn)行分析,得到目標(biāo)聲源的聲波到達(dá)方向;對(duì)該方向的語(yǔ)音進(jìn)行增強(qiáng),并抑制殘余方向性噪聲和來(lái)自于環(huán)境的擴(kuò)散噪聲以及遠(yuǎn)講場(chǎng)景下的房間混響,獲取到目標(biāo)方向的增強(qiáng)語(yǔ)音。
上述技術(shù)方案中,所述步驟2)的具體過(guò)程為:如果多路語(yǔ)音信號(hào)中存在聲學(xué)回波,對(duì)拾取到的多路語(yǔ)音信號(hào)進(jìn)行回波抵消、抑制擴(kuò)散背景噪聲以及增益控制;否則,只對(duì)多路語(yǔ)音信號(hào)進(jìn)行擴(kuò)散背景噪聲抑制和增益控制。
上述技術(shù)方案中,所述步驟3)中的利用激活詞語(yǔ)音識(shí)別模型檢測(cè)預(yù)處理后的語(yǔ)音信號(hào)中是否存在特定的激活詞的具體過(guò)程為:根據(jù)先驗(yàn)的大量激活詞數(shù)據(jù)或特定說(shuō)話(huà)人的數(shù)據(jù),訓(xùn)練得到說(shuō)話(huà)人相關(guān)或者說(shuō)話(huà)人無(wú)關(guān)的激活詞語(yǔ)音識(shí)別模型;采用識(shí)別解碼策略對(duì)激活詞內(nèi)容進(jìn)行檢測(cè)并計(jì)算置信度,從而完成分類(lèi)判別,將語(yǔ)音識(shí)別和關(guān)鍵詞檢索算法相結(jié)合,實(shí)現(xiàn)對(duì)激活詞的檢測(cè)。
上述技術(shù)方案中,所述步驟4)具體包括:
步驟4-1)通過(guò)語(yǔ)音活動(dòng)性檢測(cè)將激活詞的起點(diǎn)和尾點(diǎn)檢出,獲取完整的多通道激活詞段;
步驟4-2)采用基于混響?hù)敯舻亩嗤ǖ老辔徊盥曉炊ㄎ环椒▽?duì)激活詞段進(jìn)行分析;得到目標(biāo)聲源的聲波到達(dá)方向信息,即獲取到發(fā)出該特定語(yǔ)義的目標(biāo)說(shuō)話(huà)人方向;根據(jù)聲波到達(dá)方向信息,對(duì)該方向的語(yǔ)音進(jìn)行增強(qiáng);
步驟4-3)采用多通道后濾波進(jìn)一步抑制殘余方向性噪聲和來(lái)自于環(huán)境的擴(kuò)散噪聲以及遠(yuǎn)講場(chǎng)景下的房間混響,獲取得到目標(biāo)方向的增強(qiáng)語(yǔ)音。
上述技術(shù)方案中,所述步驟4-2)具體包括:
步驟4-2-1)將激活詞段變換到時(shí)頻域,在每個(gè)頻點(diǎn)上,分別對(duì)信號(hào)的相干部分和非相干部分進(jìn)行跟蹤;
步驟4-2-2)統(tǒng)計(jì)被直達(dá)聲占據(jù)的時(shí)頻點(diǎn);
步驟4-2-3)在被直達(dá)聲占據(jù)的時(shí)頻點(diǎn)上,在低頻無(wú)空間混疊部分得到信號(hào)到達(dá)時(shí)差的分布;
步驟4-2-4)在高頻部分,根據(jù)低頻得到的信號(hào)到達(dá)時(shí)差信息,去除空間混疊的影響,獲取全頻帶的信號(hào)到達(dá)時(shí)差信息;繼而獲取聲波到達(dá)方向信息;
步驟4-2-5)根據(jù)聲波到達(dá)方向信息,對(duì)該方向的語(yǔ)音進(jìn)行增強(qiáng)。
上述技術(shù)方案中,所述步驟4-2-5)中對(duì)語(yǔ)音進(jìn)行增強(qiáng)的方式有兩種:
第一種方式:根據(jù)聲波到達(dá)方向信息,采用波束形成方法對(duì)已知方向語(yǔ)音進(jìn)行增強(qiáng),抑制來(lái)自于其他方向的相干性聲源;
第二種方式:利用該已知方向進(jìn)行空間目標(biāo)語(yǔ)音信號(hào)檢測(cè),接受來(lái)自于目標(biāo)區(qū)域的語(yǔ)音,拒絕來(lái)自于其他方向的聲源。
本發(fā)明的優(yōu)點(diǎn)在于:
1、本方明的方法可用于智能家電、智能家居、車(chē)載和可穿戴設(shè)備等需要遠(yuǎn)講式 語(yǔ)音輸入和交互的場(chǎng)合,特別適用于復(fù)雜的聲學(xué)噪聲和干擾環(huán)境場(chǎng)合;
2、本發(fā)明的方法能夠在遠(yuǎn)講免提(far-field hands-free)條件下有選擇性地拾取目標(biāo)信號(hào),抑制干擾和噪聲。
附圖說(shuō)明
圖1為本發(fā)明的基于語(yǔ)義先驗(yàn)的選擇性注意的多通道語(yǔ)音增強(qiáng)方法的流程圖;
圖2為本發(fā)明的利用已知方向進(jìn)行空間目標(biāo)語(yǔ)音信號(hào)檢測(cè)的流程圖。
具體實(shí)施方式
目標(biāo)語(yǔ)音區(qū)分于其它聲音的特征有很多,而要充分利用這類(lèi)特征進(jìn)行檢測(cè),則需優(yōu)先考慮先驗(yàn)知識(shí)最多和最可靠的特征。例如,當(dāng)揚(yáng)聲器播放聲音時(shí),與揚(yáng)聲器聲音相關(guān)的聲音都可以認(rèn)為是回聲干擾;如果目標(biāo)語(yǔ)音的語(yǔ)義已知,那么語(yǔ)義就是明顯的區(qū)分性特征;如果目標(biāo)語(yǔ)音的聲波到達(dá)方向(Direction of Arrival,DOA)已知,那么通過(guò)檢測(cè)DOA信息可以用于去除大量無(wú)關(guān)聲音。通過(guò)對(duì)各種區(qū)分性信息的檢測(cè)和比較,最終可以抑制聲音的影響,并從混合聲音中篩選出目標(biāo)語(yǔ)音段。
下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
如圖1所示,一種基于語(yǔ)義先驗(yàn)的選擇性注意的多通道語(yǔ)音增強(qiáng)方法,所述方法包括:
步驟1)多傳聲器陣列拾取來(lái)自于混響環(huán)境中的任意方向的語(yǔ)音信號(hào),采集多路語(yǔ)音信號(hào);
步驟2)對(duì)步驟1)采集的多路語(yǔ)音信號(hào)進(jìn)行預(yù)處理;
如果語(yǔ)音信號(hào)中存在聲學(xué)回波,對(duì)拾取到的多路語(yǔ)音信號(hào)進(jìn)行回波抵消、抑制擴(kuò)散背景噪聲以及增益控制;否則,只對(duì)多路語(yǔ)音信號(hào)進(jìn)行擴(kuò)散背景噪聲抑制和必要的增益控制;
步驟3)利用激活詞語(yǔ)音識(shí)別模型檢測(cè)預(yù)處理后的語(yǔ)音信號(hào)中是否存在特定的激活詞;如果檢測(cè)結(jié)果是肯定的,保留未經(jīng)切割的包含激活詞段的信號(hào),進(jìn)入步驟4);否則,轉(zhuǎn)入步驟1);
根據(jù)先驗(yàn)的大量激活詞數(shù)據(jù)或者某個(gè)特定說(shuō)話(huà)人的數(shù)據(jù),訓(xùn)練得到說(shuō)話(huà)人相關(guān)或者說(shuō)話(huà)人無(wú)關(guān)的激活詞語(yǔ)音識(shí)別模型;采用識(shí)別解碼策略對(duì)激活詞內(nèi)容進(jìn)行檢測(cè)并計(jì)算置信度,從而完成分類(lèi)判別,將語(yǔ)音識(shí)別和關(guān)鍵詞檢索算法相結(jié)合,實(shí)現(xiàn)對(duì)激活詞的檢測(cè)。
步驟4)對(duì)未經(jīng)切割的包含激活詞段的信號(hào)進(jìn)行語(yǔ)音增強(qiáng);具體包括:
步驟4-1)通過(guò)語(yǔ)音活動(dòng)性檢測(cè)(VAD:Voice Activity Detection)將激活詞的起點(diǎn)和尾點(diǎn)檢出,獲取完整的多通道激活詞段;
步驟4-2)采用基于混響?hù)敯舻亩嗤ǖ老辔徊盥曉炊ㄎ环椒▽?duì)激活詞段進(jìn)行分析;得到目標(biāo)聲源的DOA信息,即獲取到發(fā)出該特定語(yǔ)義的目標(biāo)說(shuō)話(huà)人方向;具體包括:
步驟4-2-1)將激活詞段變換到時(shí)頻域,在每個(gè)頻點(diǎn)上,分別對(duì)信號(hào)的相干部分和非相干部分進(jìn)行跟蹤;
步驟4-2-2)統(tǒng)計(jì)被直達(dá)聲占據(jù)的時(shí)頻點(diǎn);
步驟4-2-3)在被直達(dá)聲占據(jù)的時(shí)頻點(diǎn)上,在低頻無(wú)空間混疊部分得到到達(dá)時(shí)差(TDOA:Time Difference Of Arrival)的分布;
步驟4-2-4)在高頻部分,根據(jù)低頻得到的信號(hào)到達(dá)時(shí)差信息,去除空間混疊的影響,獲取全頻帶的信號(hào)的TDOA,繼而獲取DOA信息;
步驟4-2-5)根據(jù)DOA信息,對(duì)已知方向的語(yǔ)音進(jìn)行增強(qiáng);所述步驟4-2-5)中對(duì)已知方向的語(yǔ)音進(jìn)行增強(qiáng)的方式有兩種:
第一種方式:根據(jù)DOA信息,采用波束形成方法對(duì)已知方向語(yǔ)音進(jìn)行增強(qiáng),抑制來(lái)自于其他方向的相干性聲源;
在本實(shí)施例中,采用多通道基于對(duì)角加載(Diagonal Loading)的最小方差無(wú)失真響應(yīng)波束形成方法抑制來(lái)自于其他方向的相干性聲源,在其它實(shí)施例中,還可以基于子代的盲源分離技術(shù)(Blind Source Separation)實(shí)現(xiàn)方向性干擾的抑制。
第二種方式:利用該已知方向進(jìn)行空間目標(biāo)語(yǔ)音信號(hào)檢測(cè)(DSAD),接受來(lái)自于目標(biāo)區(qū)域的語(yǔ)音,拒絕來(lái)自于其他方向的聲源。
如圖2所示,以雙通道DSAD為例,對(duì)每個(gè)時(shí)頻點(diǎn)利用波束參考能量比(Beam-to-Reference Ratio,BRR)以及信噪比SNR進(jìn)行判決。對(duì)于BRR的判決閾值,結(jié)合了直達(dá)聲混相聲能量比(Direct-to-Reverberate Ratio,DRR)跟蹤機(jī)制,使得每個(gè)時(shí)頻點(diǎn)的檢測(cè)閾值可以根據(jù)環(huán)境自適應(yīng)調(diào)整,從而提高了每個(gè)時(shí)頻點(diǎn)似然估計(jì)的準(zhǔn)確性,利用旁瓣抑制機(jī)制降低高頻混疊的影響,繼而提高全帶判決的準(zhǔn)確性。
步驟4-3)采用多通道后濾波進(jìn)一步抑制殘余方向性噪聲和來(lái)自于環(huán)境的擴(kuò)散噪聲以及遠(yuǎn)講場(chǎng)景下的房間混響;獲取得到增強(qiáng)語(yǔ)音。