欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于語(yǔ)音特征判別的靜音檢測(cè)方法

文檔序號(hào):2829408閱讀:609來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于語(yǔ)音特征判別的靜音檢測(cè)方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理方法,具體地說(shuō)是一種用于網(wǎng)絡(luò)語(yǔ)音通話的基于語(yǔ)音特征判別的靜音檢測(cè)方法。
背景技術(shù)
在人說(shuō)話過(guò)程中,其聲音可以分為靜音和話音兩部分,平均有60%時(shí)間是靜音。而在多人交談時(shí),每一時(shí)刻,基本上只有一人說(shuō)話,而其他的人則表現(xiàn)為靜音。靜音及由語(yǔ)音采集設(shè)備引入的噪聲(包括氣流噪音)和語(yǔ)音數(shù)據(jù)一樣均在網(wǎng)絡(luò)中傳輸,引起語(yǔ)音質(zhì)量的降低。使用靜音抑制技術(shù),可以消除靜音部分,能夠節(jié)約50%以上的傳輸帶寬,減少網(wǎng)絡(luò)擁塞。
現(xiàn)有的靜音檢測(cè)方法包括提取音頻信號(hào)特征值和用預(yù)先設(shè)定好的門(mén)限值比較來(lái)判定靜音,傳統(tǒng)靜音檢測(cè)方法使用的參數(shù)包括短時(shí)過(guò)零率、短時(shí)能量、自相關(guān)系數(shù)、但語(yǔ)音信號(hào)和某些背景噪聲信號(hào)具有非平穩(wěn)性,因而系統(tǒng)識(shí)別率效果差;而且,由于門(mén)限值是固定的,不能很好的適應(yīng)不同噪聲,故這些檢測(cè)系統(tǒng)識(shí)別率都不高。
另外,隨著網(wǎng)絡(luò)語(yǔ)音通話的普及,大部分的應(yīng)用集中在個(gè)人電腦平臺(tái)上,為了使用便利,發(fā)言方一般都會(huì)選擇佩戴耳麥進(jìn)行交流,這就造成麥克風(fēng)離人的鼻、嘴非常近,人自然呼吸產(chǎn)生的氣流會(huì)進(jìn)入麥克風(fēng)并產(chǎn)生音頻流。雖然這種音頻信號(hào)比較弱,但它也是一種語(yǔ)音,而目前常用的一些靜音檢測(cè)方法(例如G.729B,G.723.1A等)會(huì)將部分氣流噪聲識(shí)別為正常語(yǔ)音,進(jìn)一步降低了檢測(cè)系統(tǒng)識(shí)別率。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于語(yǔ)音特征識(shí)別的靜音檢測(cè)方法,該靜音檢測(cè)方法可以提高靜音檢測(cè)成功率,并能對(duì)一些特殊語(yǔ)音加以識(shí)別。
本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的一種基于語(yǔ)音特征判別的靜音檢測(cè)方法,其特征在于它包含以下步驟(1)提取一幀音頻數(shù)據(jù)的多門(mén)限過(guò)零率,并對(duì)其用優(yōu)選的加權(quán)值求和。多門(mén)限過(guò)零率檢測(cè)法設(shè)3個(gè)高低不同的門(mén)限T1、T2、T3,,且T1<T2<T3,對(duì)每一幀用式(1)分別求相應(yīng)于T1、T2、T3的三種門(mén)限過(guò)零率Z1、Z2和Z3。
Zn=∑{|sgn[x(n)-Tn]-sgn[x(n-1)-Tn]|+|sgn[x(n)+Tn]-sgn[x(n-1)+Tn]|}(1)總過(guò)零率Z由下式表示*w(n-w)
Z=W1Z1+W2Z2+W3Z3其中W1、W2、W3為過(guò)零率權(quán)值;Z0定義為總過(guò)零率分界值。
(2)用多門(mén)限過(guò)零率加權(quán)和對(duì)靜音進(jìn)行預(yù)判,如果一幀音頻數(shù)據(jù)的總過(guò)零率Z小于設(shè)定閾值Z0,就判斷其為靜音,否則將該幀交由步驟(3)處理。
(3)提取一幀音頻數(shù)據(jù)的復(fù)合特征,復(fù)合特征包括過(guò)零率、短時(shí)能量值、基于變分辨率頻譜的Mel尺度倒譜系數(shù);基于變分辨率頻譜的Mel尺度倒譜系數(shù)的計(jì)算包括小波分解與重構(gòu)、傅立葉變換、Mel尺度倒譜提取模塊。Mel尺度倒譜系數(shù)(CMFCC)計(jì)算公式如下cMFCC(i)=2LΣl=1Llogm(l)cos{(l-12)iπL}---(2)]]>其中m(l)=Σk=o(l)h(l)Wl(k)|Xn(k)|,]]>l=1,2,...,L (3)Wl(k)=k-o(l)c(l)-o(l)o(l)≤k≤c(l)h(l)-kh(l)-c(l)c(l)≤k≤h(l)---(4)]]>式中,o(1)、c(1)和h(1)分別是1個(gè)三角形濾波器的下限、中心和上限頻率(4)用二分類(lèi)支持向量機(jī)對(duì)音頻的復(fù)合特征加以判別,得到正常語(yǔ)音和靜音兩類(lèi)結(jié)果,對(duì)于正常語(yǔ)音,壓縮后傳送到接收方,對(duì)于靜音,只在部分幀中加入自適應(yīng)噪聲后壓縮并傳送到接收方。
本發(fā)明通過(guò)提取多種語(yǔ)音參數(shù)對(duì)語(yǔ)音進(jìn)行分階段檢測(cè),可以有效預(yù)判靜音。對(duì)于在步驟(2)中未能識(shí)別的音頻數(shù)據(jù)由后續(xù)步驟進(jìn)行檢測(cè),步驟(3)中為了獲得信號(hào)的整體頻譜特征,先對(duì)該幀音頻數(shù)據(jù)進(jìn)行小波分解、重構(gòu)和傅立葉變換組成變分辨率頻譜,并提取該頻譜的Mel尺度倒譜作為最終音頻特征。步驟(4)中用支持向量機(jī)對(duì)音頻數(shù)據(jù)的復(fù)合特征進(jìn)行判別,得到最終判定結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明使用支持向量機(jī)音頻特征分類(lèi)方法,相對(duì)于傳統(tǒng)的分類(lèi)方法,更具有嚴(yán)格的理論基礎(chǔ),該方法已在文本分類(lèi)、圖像識(shí)別等領(lǐng)域得到應(yīng)用,取得了比傳統(tǒng)的機(jī)器學(xué)習(xí)方法更好的分類(lèi)效果,分類(lèi)的正確率高,而且該方法具有較好的魯棒性。


圖1是本發(fā)明方法的流程示意圖;圖2是本發(fā)明中音頻復(fù)合特征提取的原理圖;圖3是本發(fā)明中小波分解樹(shù)結(jié)構(gòu)圖;五具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作詳細(xì)說(shuō)明。
一種本發(fā)明所述的基于語(yǔ)音特征判別的靜音檢測(cè)方法,見(jiàn)圖1,具體檢測(cè)過(guò)程中采用8kHz的采樣頻率,以80點(diǎn)作為一幀進(jìn)行檢測(cè),每一幀10毫秒。它包含以下步驟(1)提取一幀音頻數(shù)據(jù)的多門(mén)限過(guò)零率,并對(duì)其用優(yōu)選的加權(quán)值求和。在步驟(1)中用到總過(guò)零率分界值Z0與最佳權(quán)重向量(W1、W2、W3),它們的值必須在靜音檢測(cè)之前就設(shè)置好。為了確定它們的值,要收集至少2000幀不同環(huán)境下音頻數(shù)據(jù),其中一半是靜音,一半是講話語(yǔ)音。以多門(mén)限過(guò)零率檢測(cè)產(chǎn)生的靜音誤判率為目標(biāo)函數(shù),遍歷每一個(gè)權(quán)重向量和門(mén)限值取值范圍,找出產(chǎn)生誤判率最低的權(quán)重向量和門(mén)限值,這就是最佳權(quán)重向量和門(mén)限值Z0。
(2)用多門(mén)限過(guò)零率加權(quán)和對(duì)靜音進(jìn)行預(yù)判,如果一幀音頻數(shù)據(jù)的總過(guò)零率Z小于設(shè)定閾值Z0,就判斷其為靜音,否則將該幀交由步驟(3)處理。
(3)提取一幀音頻數(shù)據(jù)的復(fù)合特征,復(fù)合特征包括過(guò)零率、短時(shí)能量值、基于變分辨率頻譜的Mel尺度倒譜系數(shù);基于變分辨率頻譜的Mel尺度倒譜(MFCC)系數(shù)的提取如圖2所示。對(duì)時(shí)域語(yǔ)音信號(hào)采用Daubechies4小波包變換把加窗信號(hào)分解成6個(gè)子帶的系數(shù),在各子帶進(jìn)行重構(gòu)至第一次小波分解后系數(shù)尺寸,如圖3所示。并對(duì)各子帶系數(shù)進(jìn)行歸一化處理,隨后對(duì)系數(shù)作FFT變換,將各子帶系數(shù)求和組成變分辨率頻譜,最后將變分辨率頻譜送交MFCC提取模塊。MFCC特征為L(zhǎng)=12個(gè),支持向量機(jī)的內(nèi)積函數(shù)選用徑向基函數(shù)(σ2=0.3),支持向量機(jī)的訓(xùn)練方法可以采用SMO方法,本發(fā)明對(duì)此并無(wú)限制。
(4)用二分類(lèi)支持向量機(jī)對(duì)音頻的復(fù)合特征加以判別,得到兩類(lèi)結(jié)果,一類(lèi)結(jié)果為正常語(yǔ)音,另一類(lèi)為靜音(包括氣流噪音)。對(duì)于正常語(yǔ)音,系統(tǒng)可以用g.729、g.723等語(yǔ)音壓縮方法進(jìn)行壓縮并發(fā)送到網(wǎng)絡(luò)接收方。
本發(fā)明中,對(duì)于步驟(2)、步驟(4)中被判別為靜音的幀,在實(shí)際使用中,如果使靜音期間完全不傳輸聲音,會(huì)使得聽(tīng)者覺(jué)得不舒適,因此需要人為地加入一些噪聲使得聽(tīng)者覺(jué)得通信沒(méi)有中斷,加入的噪聲需要保證使得發(fā)送方與接受方的噪聲功率一致,但不是每一幀靜音時(shí)都傳輸噪聲,只是傳輸連續(xù)靜音的第一幀即可。至于如何傳輸噪聲本發(fā)明對(duì)此并無(wú)限制。
權(quán)利要求
1.一種基于語(yǔ)音特征判別的靜音檢測(cè)方法,其特征在于它包含以下步驟(1)提取一幀音頻數(shù)據(jù)的多門(mén)限過(guò)零率,并對(duì)其加權(quán)值求和,得到總過(guò)零率Z;(2)用多門(mén)限過(guò)零率加權(quán)和對(duì)靜音進(jìn)行預(yù)判,一幀音頻數(shù)據(jù)的總過(guò)零率Z小于設(shè)定閾值Z0,判斷其為靜音,否則再進(jìn)行識(shí)別處理;(3)提取一幀音頻數(shù)據(jù)的復(fù)合特征,復(fù)合特征包括過(guò)零率、短時(shí)能量值、基于變分辨率頻譜的Mel尺度倒譜系數(shù);(4)用二分類(lèi)支持向量機(jī)對(duì)音頻的復(fù)合特征加以判別,得到正常語(yǔ)音和靜音兩類(lèi)結(jié)果,對(duì)于正常語(yǔ)音,壓縮后傳送到接收方,對(duì)于靜音,只在部分幀中加入自適應(yīng)噪聲后壓縮并傳送到接收方。
2.根據(jù)權(quán)利1所述的基于語(yǔ)音特征判別的靜音檢測(cè)方法,其特征在于步驟(1)中,提取音頻數(shù)據(jù)的3個(gè)多門(mén)限過(guò)零率,并對(duì)其加權(quán)值求和。
3.根據(jù)權(quán)利1所述的基于語(yǔ)音特征判別的靜音檢測(cè)方法,其特征在于步驟(4)中,所述靜音包括氣流噪音。
全文摘要
本發(fā)明公開(kāi)了一種基于語(yǔ)音特征識(shí)別的靜音檢測(cè)方法,首先提取一幀音頻數(shù)據(jù)的多門(mén)限過(guò)零率;用加權(quán)多門(mén)限過(guò)零率對(duì)靜音進(jìn)行預(yù)判,判別出明顯的靜音;提取一幀音頻數(shù)據(jù)的復(fù)合特征,復(fù)合特征包括過(guò)零率、短時(shí)能量值、基于變分辨率頻譜的Mel尺度倒譜系數(shù);用二分類(lèi)支持向量機(jī)對(duì)音頻的復(fù)合特征加以判別,一類(lèi)結(jié)果為正常語(yǔ)音,另一類(lèi)為靜音。本發(fā)明可以提高靜音檢測(cè)成功率,并能對(duì)一些特殊語(yǔ)音加以識(shí)別。本發(fā)明廣泛適用于網(wǎng)絡(luò)語(yǔ)音通話中,特別是在語(yǔ)音聊天、視頻會(huì)議中具有廣闊的市場(chǎng)前景。
文檔編號(hào)G10L11/00GK1835073SQ20061003969
公開(kāi)日2006年9月20日 申請(qǐng)日期2006年4月20日 優(yōu)先權(quán)日2006年4月20日
發(fā)明者都思丹, 薛衛(wèi), 周余, 孔令紅, 葉迎憲, 趙康漣 申請(qǐng)人:南京大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
堆龙德庆县| 灌云县| 岑巩县| 布尔津县| 磐石市| 涟水县| 昭苏县| 龙陵县| 凤冈县| 宁国市| 滦平县| 岐山县| 阿鲁科尔沁旗| 上饶市| 抚顺县| 同仁县| 克山县| 铜山县| 淮安市| 崇义县| 嘉禾县| 望城县| 嘉义县| 三江| 开封县| 苏尼特左旗| 营口市| 威信县| 顺昌县| 平凉市| 太仓市| 梁平县| 浙江省| 伊通| 江城| 鄂托克旗| 宣化县| 陆丰市| 奈曼旗| 洛宁县| 永平县|