欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語(yǔ)音信號(hào)自動(dòng)增益控制方法與流程

文檔序號(hào):11655874閱讀:2940來(lái)源:國(guó)知局

本發(fā)明涉及語(yǔ)音信號(hào)處理領(lǐng)域,特別涉及一種語(yǔ)音信號(hào)自動(dòng)增益控制方法。



背景技術(shù):

傳統(tǒng)的語(yǔ)音自動(dòng)增益控制(agc)電路通過(guò)識(shí)別麥克風(fēng)采集到的語(yǔ)音信號(hào)的強(qiáng)度,自動(dòng)調(diào)整功率放大電路的增益,即當(dāng)人說(shuō)話時(shí)離麥克風(fēng)近、人聲信號(hào)強(qiáng)度大,則降低功放電路增益,而當(dāng)人說(shuō)話時(shí)離麥克風(fēng)遠(yuǎn)、語(yǔ)音強(qiáng)度低,則調(diào)高功放增益。這一調(diào)整方法存在的弊端是在增強(qiáng)人聲信號(hào)的同時(shí),也放大了背景噪聲,對(duì)于需要較高語(yǔ)音品質(zhì)的網(wǎng)絡(luò)語(yǔ)音通信類產(chǎn)品、語(yǔ)音識(shí)別類產(chǎn)品,強(qiáng)的噪聲會(huì)造成較大的干擾。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一種語(yǔ)音信號(hào)自動(dòng)增益控制方法,以解決現(xiàn)有技術(shù)在增強(qiáng)人聲信號(hào)的同時(shí),也放大了背景噪聲,對(duì)于需要較高語(yǔ)音品質(zhì)的網(wǎng)絡(luò)語(yǔ)音通信類產(chǎn)品、語(yǔ)音識(shí)別類產(chǎn)品,強(qiáng)的噪聲會(huì)造成較大的干擾的問(wèn)題。

為解決上述問(wèn)題,作為本發(fā)明的一個(gè)方面,提供了一種語(yǔ)音信號(hào)自動(dòng)增益控制方法,包括:獲得來(lái)自麥克風(fēng)的語(yǔ)音信號(hào);將所述語(yǔ)音信號(hào)進(jìn)行時(shí)域預(yù)處理,以得到第一信號(hào);將所述第一信號(hào)從時(shí)域向頻域變換,以得到第二信號(hào);從所述第二信號(hào)中提取出描述人聲特征的基音、共振峰頻點(diǎn);將前256個(gè)所述頻點(diǎn)劃分為16個(gè)語(yǔ)音頻段;根據(jù)所述頻點(diǎn)的有效性判斷是語(yǔ)音幀還是靜音幀,如果有效則認(rèn)為當(dāng)前是有人說(shuō)話的語(yǔ)音幀,如果無(wú)效則視為無(wú)人說(shuō)話的靜音幀;對(duì)于語(yǔ)音幀執(zhí)行增益的自動(dòng)調(diào)整算法,對(duì)于靜音幀執(zhí)行非人聲噪聲幅度計(jì)算算法,以得到第三信號(hào);將所述第三信號(hào)通過(guò)快速傅立葉逆變換轉(zhuǎn)回時(shí)域以得到第四信號(hào);根據(jù)所述第四信號(hào)通過(guò)dac電路輸出語(yǔ)音。

優(yōu)選地,所述方法還包括:如果在當(dāng)前語(yǔ)音幀中未找到人聲特征信息,則當(dāng)前語(yǔ)音幀被視為靜音幀,此時(shí)對(duì)非人聲噪聲幅度進(jìn)行估算,并依次計(jì)算16個(gè)語(yǔ)音頻段的噪聲幅度值并記錄。

優(yōu)選地,對(duì)非人聲噪聲幅度進(jìn)行估算,并依次計(jì)算16個(gè)語(yǔ)音頻段的噪聲幅度值并記錄包括:

步驟1,采用下式計(jì)算每個(gè)語(yǔ)音段的噪聲幅度:

其中,af為噪聲幅度;

μ為前一語(yǔ)音幀所有頻段噪聲幅度值的均值;

σ為當(dāng)前頻段前一幀的、幅度值的、與μ的標(biāo)準(zhǔn)差;

a測(cè)量為當(dāng)前頻段處的實(shí)測(cè)各頻點(diǎn)噪聲幅度的累加值;

a估計(jì)為使用最小二乘算法、擬合當(dāng)前語(yǔ)音頻段噪聲參數(shù)隊(duì)列中前16個(gè)當(dāng)前頻段處的噪聲幅度值,得到的一個(gè)當(dāng)前頻點(diǎn)最新噪聲估計(jì)值;

步驟2,將步驟1計(jì)算出的當(dāng)前語(yǔ)音頻段的af加入語(yǔ)音頻段噪聲參數(shù)隊(duì)列末尾,隊(duì)列采用先進(jìn)先出模式,一直維持最新的16個(gè)計(jì)算值;

步驟3,當(dāng)前靜音幀所有語(yǔ)音頻段的噪聲幅度值均計(jì)算完后,計(jì)算μ、σ值,加入到語(yǔ)音頻段噪聲參數(shù)隊(duì)列,這一隊(duì)列中保存的數(shù)據(jù)將在下一個(gè)靜音幀到來(lái)時(shí)運(yùn)用到步驟1中的計(jì)算公式中。

優(yōu)選地,在語(yǔ)音幀中通過(guò)對(duì)256個(gè)語(yǔ)音頻點(diǎn)逐點(diǎn)調(diào)整語(yǔ)音的頻域幅度值,從而完成語(yǔ)音增益的自動(dòng)調(diào)整。

優(yōu)選地,所述自動(dòng)調(diào)整算法具體包括:步驟a,設(shè)置語(yǔ)音幀噪聲比例因子初始值kn=1;步驟b,依次計(jì)算16個(gè)語(yǔ)音頻段中各頻點(diǎn)實(shí)測(cè)幅度的累加值,并除以該頻段語(yǔ)音頻段噪聲參數(shù)隊(duì)列中最后一個(gè)af值,得到每個(gè)語(yǔ)音頻段的噪聲比例因子knf;步驟c,遍歷16個(gè)語(yǔ)音頻段的knf,找出knf<1.5的值中最大的一個(gè),并將其賦值給kn,如找不到符合條件的knf,則保持kn=1不變;步驟d,執(zhí)行增益自動(dòng)調(diào)整操作,使用下式逐頻點(diǎn)計(jì)算調(diào)整后的幅度值:

ag=g(ar-kn*af)

其中,g為增益比例調(diào)節(jié)因子,由用戶通過(guò)旋鈕進(jìn)行調(diào)整;ar為當(dāng)前頻點(diǎn)實(shí)測(cè)的幅度值。

優(yōu)選地,af是出現(xiàn)語(yǔ)音幀前,最后一個(gè)靜音幀的噪聲幅度值,從語(yǔ)音頻段噪聲參數(shù)隊(duì)列末尾取出。

由于采用了上述技術(shù)方案,本發(fā)明中的方法可依據(jù)人的聽(tīng)覺(jué)模型,僅對(duì)語(yǔ)音信號(hào)中包含的有效人聲進(jìn)行信號(hào)強(qiáng)度的自動(dòng)調(diào)整,因此避免了在增強(qiáng)人聲信號(hào)的同時(shí),放大了背景噪聲的問(wèn)題,解決了對(duì)于需要較高語(yǔ)音品質(zhì)的網(wǎng)絡(luò)語(yǔ)音通信類產(chǎn)品、語(yǔ)音識(shí)別類產(chǎn)品,強(qiáng)的噪聲會(huì)造成較大的干擾的問(wèn)題。

具體實(shí)施方式

以下對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說(shuō)明,但是本發(fā)明可以由權(quán)利要求限定和覆蓋的多種不同方式實(shí)施。

本發(fā)明提供了一種語(yǔ)音信號(hào)自動(dòng)增益控制方法,包括以下步驟:

步驟a,獲得來(lái)自麥克風(fēng)的語(yǔ)音信號(hào);其中,該語(yǔ)音信號(hào)由麥克風(fēng)電路接收,經(jīng)過(guò)4000hz的低通濾波器電路、100hz的高通濾波器電路、14bitsadc轉(zhuǎn)換電路,將語(yǔ)音信號(hào)送入主控dsp;

步驟b,將所述語(yǔ)音信號(hào)進(jìn)行時(shí)域預(yù)處理,以得到第一信號(hào);例如,由主控dsp完成語(yǔ)音信號(hào)的時(shí)域預(yù)處理,包括語(yǔ)音信號(hào)的8khz16bits采樣、加海明窗處理;

步驟c,通過(guò)dsp將所述第一信號(hào)從時(shí)域向頻域變換,以得到第二信號(hào);例如,使用512點(diǎn)快速傅立葉變換(fft)算法,獲得語(yǔ)音信號(hào)的頻域512個(gè)頻點(diǎn)的幅度譜;

步驟d,使用mel倒譜算法,從所述第二信號(hào)中提取出描述人聲特征的基音、共振峰頻點(diǎn);

步驟e,將前256個(gè)所述頻點(diǎn)劃分為16個(gè)語(yǔ)音頻段;

步驟f,根據(jù)所述頻點(diǎn)的有效性判斷是語(yǔ)音幀還是靜音幀,如果有效則認(rèn)為當(dāng)前是有人說(shuō)話的語(yǔ)音幀,如果無(wú)效則視為無(wú)人說(shuō)話的靜音幀;

步驟g,對(duì)于語(yǔ)音幀執(zhí)行增益的自動(dòng)調(diào)整算法,對(duì)于靜音幀執(zhí)行非人聲噪聲幅度計(jì)算算法,以得到第三信號(hào);

步驟h,將所述第三信號(hào)通過(guò)快速傅立葉逆變換轉(zhuǎn)回時(shí)域以得到第四信號(hào);

步驟i,根據(jù)所述第四信號(hào)通過(guò)dac電路輸出語(yǔ)音。

由于采用了上述技術(shù)方案,本發(fā)明中的方法可依據(jù)人的聽(tīng)覺(jué)模型,僅對(duì)語(yǔ)音信號(hào)中包含的有效人聲進(jìn)行信號(hào)強(qiáng)度的自動(dòng)調(diào)整,因此避免了在增強(qiáng)人聲信號(hào)的同時(shí),放大了背景噪聲的問(wèn)題,解決了對(duì)于需要較高語(yǔ)音品質(zhì)的網(wǎng)絡(luò)語(yǔ)音通信類產(chǎn)品、語(yǔ)音識(shí)別類產(chǎn)品,強(qiáng)的噪聲會(huì)造成較大的干擾的問(wèn)題。

由于流暢的網(wǎng)絡(luò)語(yǔ)音(voip)核心在于以較小的帶寬傳輸盡可能高質(zhì)量的語(yǔ)音,則語(yǔ)音壓縮的核心是只將有效人聲進(jìn)行壓縮,而背景或噪聲信號(hào)盡可能的拋棄,因此盡可能的放大人聲、壓制背景聲、噪聲能夠明顯的降低語(yǔ)音數(shù)據(jù)流對(duì)帶寬的要求;語(yǔ)音識(shí)別類應(yīng)用產(chǎn)品,為了提高語(yǔ)音的識(shí)別成功率,也需要盡可能純凈的人聲信號(hào)作為輸入,即需要同時(shí)放大人聲并壓制噪聲,因此本發(fā)明能最大程度的提升前述兩類已經(jīng)廣泛應(yīng)用的技術(shù)的品質(zhì)及效果。

優(yōu)選地,所述方法還包括:如果在當(dāng)前語(yǔ)音幀中未找到人聲特征信息,則當(dāng)前語(yǔ)音幀被視為靜音幀,此時(shí)對(duì)非人聲噪聲幅度進(jìn)行估算,并依次計(jì)算16個(gè)語(yǔ)音頻段的噪聲幅度值并記錄。具體地說(shuō),通過(guò)下述步驟1-3計(jì)算靜音幀噪聲幅度:

步驟1,采用下式計(jì)算每個(gè)語(yǔ)音段的噪聲幅度:

其中,af為噪聲幅度;

μ為前一語(yǔ)音幀所有頻段噪聲幅度值的均值;

σ為當(dāng)前頻段前一幀的、幅度值的、與μ的標(biāo)準(zhǔn)差;

a測(cè)量為當(dāng)前頻段處的實(shí)測(cè)各頻點(diǎn)噪聲幅度的累加值;

a估計(jì)為使用最小二乘算法、擬合當(dāng)前語(yǔ)音頻段噪聲參數(shù)隊(duì)列中前16個(gè)當(dāng)前頻段處的噪聲幅度值,得到的一個(gè)當(dāng)前頻點(diǎn)最新噪聲估計(jì)值;

步驟2,將步驟1計(jì)算出的當(dāng)前語(yǔ)音頻段的af加入語(yǔ)音頻段噪聲參數(shù)隊(duì)列末尾,隊(duì)列采用先進(jìn)先出模式,一直維持最新的16個(gè)計(jì)算值;

步驟3,當(dāng)前靜音幀所有語(yǔ)音頻段的噪聲幅度值均計(jì)算完后,計(jì)算μ、σ值,加入到語(yǔ)音頻段噪聲參數(shù)隊(duì)列,這一隊(duì)列中保存的數(shù)據(jù)將在下一個(gè)靜音幀到來(lái)時(shí)運(yùn)用到步驟1中的計(jì)算公式中。

靜音幀噪聲估計(jì)算法的核心思想是:由于背景噪聲在微小(小于1秒)的時(shí)間區(qū)間內(nèi),是不會(huì)發(fā)生驟變的,因此通過(guò)歷史(滾動(dòng)記錄的前16幀)信號(hào)幅度的擬合曲線能夠可靠的估計(jì)出當(dāng)前幀的噪聲幅度,但不會(huì)發(fā)生驟變不代表不會(huì)有變化,因此使用當(dāng)前幀實(shí)測(cè)噪聲幅度與歷史幀擬合出的估計(jì)噪聲幅度進(jìn)行加權(quán)平均(σ/μ即為加權(quán)系數(shù)),可以有效的慮除估計(jì)噪聲幅度、實(shí)測(cè)噪聲幅度中包含的計(jì)算與測(cè)量誤差,從而使算法得出的結(jié)果始終以5%的浮動(dòng)率跟隨真實(shí)噪聲水平。

優(yōu)選地,在語(yǔ)音幀中通過(guò)對(duì)256個(gè)語(yǔ)音頻點(diǎn)逐點(diǎn)調(diào)整語(yǔ)音的頻域幅度值,從而完成語(yǔ)音增益的自動(dòng)調(diào)整。

優(yōu)選地,所述自動(dòng)調(diào)整算法具體包括以下步驟a-d:

步驟a,設(shè)置語(yǔ)音幀噪聲比例因子初始值kn=1;

步驟b,依次計(jì)算16個(gè)語(yǔ)音頻段中各頻點(diǎn)實(shí)測(cè)幅度的累加值,并除以該頻段語(yǔ)音頻段噪聲參數(shù)隊(duì)列中最后一個(gè)af值,得到每個(gè)語(yǔ)音頻段的噪聲比例因子knf;

步驟c,遍歷16個(gè)語(yǔ)音頻段的knf,找出knf<1.5的值中最大的一個(gè),并將其賦值給kn,如找不到符合條件的knf,則保持kn=1不變;

步驟d,執(zhí)行增益自動(dòng)調(diào)整操作,使用下式逐頻點(diǎn)計(jì)算調(diào)整后的幅度值:

ag=g(ar-kn*af)

其中,g為增益比例調(diào)節(jié)因子,由用戶通過(guò)旋鈕進(jìn)行調(diào)整;ar為當(dāng)前頻點(diǎn)實(shí)測(cè)的幅度值。

語(yǔ)音幀語(yǔ)音增益自動(dòng)調(diào)整算法的核心思想是:統(tǒng)計(jì)上,盡管有可能長(zhǎng)時(shí)間說(shuō)話,但在毫秒級(jí)的時(shí)間分辨率上測(cè)量,人聲將被切分成持續(xù)時(shí)間短(1-2秒)的單句模式,而背景噪聲在長(zhǎng)時(shí)間(3-5秒)內(nèi)維持穩(wěn)定是客觀可靠的,因此語(yǔ)音段中我們使用最后一幀靜音段得到的噪聲幅度值做為基本的噪音閥值,并通過(guò)噪聲比例因子來(lái)描述在多個(gè)語(yǔ)音幀中噪聲變化的程度,從而使算法能夠始終在語(yǔ)音幀中以5%的浮動(dòng)率跟隨真實(shí)噪聲水平,從而得到真實(shí)的語(yǔ)音幅度水平。

優(yōu)選地,af是出現(xiàn)語(yǔ)音幀前,最后一個(gè)靜音幀的噪聲幅度值,從語(yǔ)音頻段噪聲參數(shù)隊(duì)列末尾取出。之所以直接使用靜音幀中的數(shù)據(jù),是因?yàn)樵诙虝r(shí)間(一句話的時(shí)間)內(nèi),環(huán)境噪音并不會(huì)出現(xiàn)突變,前一幀的噪聲閥值依然有效。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
栾川县| 甘德县| 万州区| 法库县| 中西区| 新昌县| 甘泉县| 昭通市| 黄梅县| 南城县| 大兴区| 简阳市| 克什克腾旗| 苍溪县| 呼和浩特市| 鄂伦春自治旗| 江阴市| 新丰县| 陇川县| 辉县市| 宣汉县| 青龙| 甘肃省| 河池市| 牙克石市| 安福县| 池州市| 磴口县| 喀喇沁旗| 乐平市| 枣强县| 简阳市| 阿鲁科尔沁旗| 太保市| 资溪县| 泰兴市| 瓦房店市| 西藏| 财经| 应城市| 南雄市|