欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于mmse的歌曲去伴奏方法和裝置制造方法

文檔序號:2827636閱讀:178來源:國知局
一種基于mmse的歌曲去伴奏方法和裝置制造方法
【專利摘要】本發(fā)明披露了一種基于MMSE(最小均方誤差估計)的歌曲去伴奏方法,包括步驟:輸入歌曲音頻信號和與其對應(yīng)的伴奏音頻信號;將歌曲音頻信號和伴奏音頻信號進(jìn)行分幀、加窗、FFT變換處理;對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng);根據(jù)增強(qiáng)后的伴奏音頻信號的幅度譜對歌曲音頻信號的頻譜進(jìn)行MMSE估計得到譜增益系數(shù),進(jìn)一步得到去伴奏音頻信號的頻譜,并進(jìn)行FFT逆變換即可得到去除伴奏后的音頻信號。本發(fā)明還提供了實(shí)現(xiàn)上述方法的裝置。本發(fā)明的技術(shù)效果為從歌曲中有效地提取出人聲信號,并且可以保持較好的音質(zhì),從而為下一步音頻數(shù)據(jù)的分析、檢索等奠定良好的基礎(chǔ),具有較強(qiáng)的實(shí)用價值以及應(yīng)用前景。
【專利說明】一種基于MMSE的歌曲去伴奏方法和裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及音頻信號處理領(lǐng)域

【背景技術(shù)】
[0002]歌聲分離系統(tǒng)在某些領(lǐng)域有廣泛的應(yīng)用,例如歌詞的自動識別和校正,就需要以先期的人聲分離作為基礎(chǔ)來進(jìn)行。歌詞自動識別通常要求輸入處理系統(tǒng)的是單獨(dú)的人聲,有伴奏干擾的情況下很難完成,但因為大多數(shù)歌曲都同時包含歌聲與樂器伴奏,直接進(jìn)行是不實(shí)際的。
[0003]在從不同聲源分離聲音問題上,這樣的任務(wù)對于人來說是容易的,但對于機(jī)器而言卻很困難。語音分離已經(jīng)得到廣泛的研究,但由于音樂是一種極其復(fù)雜的信號,包含歌聲以及不同樂器的多路信號混合在一起,并且樂器聲音與歌聲還是相關(guān)的,采用語音信號盲分尚技術(shù)很難分尚出純凈的歌聲。
[0004]最小均方誤差(Minimum Mean-Square Error, MMSE)估計是一種語音增強(qiáng)算法,其能夠有效地抑制背景噪聲,從而提高輸入信號的信噪比(Signal-to-Noise Rat1, SNR)。對于最小均方誤差估計,在Y.Ephraim和D.Malah的文獻(xiàn)《Speech enhancement using aminimum mean—square error short-time spectral amplitude estimator, IEEE Trans.Acoustic, Speech, and Signal Processing)) (Vol.ASSP-32, pp.1109-1121,1984)中進(jìn)行了詳細(xì)的描述。


【發(fā)明內(nèi)容】

[0005]為此,需要提供一種有效地從一歌曲音頻信號中分離或提取出人聲的方法。
[0006]為此,發(fā)明人提供了一種基于麗SE的歌曲去伴奏的方法,包括步驟:
[0007]輸入歌曲音頻信號和與其對應(yīng)的伴奏音頻信號,所述伴奏音頻信號與歌曲音頻信號存在時間同步關(guān)系;
[0008]分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號;
[0009]對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理;
[0010]根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù);
[0011]根據(jù)所述譜增益系數(shù)以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜;
[0012]將去伴奏音頻信號的頻譜逆變換為時域信號。
[0013]在步驟“分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號”之前還包括步驟:對歌曲音頻信號和伴奏音頻信號進(jìn)行歸一化處理,再將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預(yù)設(shè)數(shù)量的聲音采樣點(diǎn),并且相鄰幀之間有預(yù)設(shè)數(shù)量的重合采樣點(diǎn)。
[0014]步驟“將經(jīng)歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀”后還包括步驟:
[0015]對每幀進(jìn)行加漢寧窗濾波處理。
[0016]步驟“對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理”具體包括:
[0017]遍歷伴奏音頻信號的幅度譜的所有幀以及幀內(nèi)的所有頻點(diǎn),找出當(dāng)前幀、當(dāng)前幀的前m個幀、當(dāng)前幀的后m幀共2m+l幀中對應(yīng)頻點(diǎn)的最大幅度值,將該最大值作為當(dāng)前幀對應(yīng)頻點(diǎn)的新值,其中m為預(yù)設(shè)的正整數(shù)。
[0018]步驟“根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù)”具體包括步驟:
[0019]遍歷歌曲音頻信號的頻譜與經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的所有幀;
[0020]計算歌曲音頻信號當(dāng)前巾貞的能量譜power (i), i = O, I, 2...FN/2,其中FN表示FFT變換的點(diǎn)數(shù),公式為:
[0021]power(i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜;
[0022]計算經(jīng)增強(qiáng)處理的伴奏音頻幅度譜的對應(yīng)幀的估計能量譜noiSe(i),i =O, 1,2...FN/2,公式為:
[0023]noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜;
[0024]計算去伴奏音頻信號對應(yīng)幀的估計能量譜,公式為:
[0025]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2...FN/2 ;
[0026]其中,sigl(i)= max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數(shù),且0〈beta〈l。
[0027]根據(jù)signal⑴、noise⑴和power⑴計算先驗信噪比epsi⑴和后驗信噪比g(i),公式分別為:
[0028]epsi (i) = signal (i)/noise (i);以及
[0029]g (i) = power (i)/noise (i);
[0030]根據(jù)印si⑴和g(i)計算譜增益系數(shù)F (i),公式為:
[0031]F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (~v (i) /2) * ((1+v (i)) *besseli (0, v (i)/2)+v(i)*besseli (I, v(i)/2));其中,v(i) = epsi (i)/(1+epsi (i))*g(i), i = 0, 1,2...FN/2 ;
[0032]Ga_a表示伽馬函數(shù);besseli表示貝葉斯函數(shù);
[0033]對譜增益系數(shù)F⑴作修正處理,公式為:F⑴=min (F⑴,I)。
[0034]步驟“根據(jù)所述譜增益系數(shù)以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜”具體為:
[0035]根據(jù)歌曲音頻信號當(dāng)前幀的頻譜Y(i)和經(jīng)修正處理的譜增益系數(shù)F(i)確定去伴奏音頻信號的頻譜;公式為:
[0036]X⑴=F⑴*Y⑴,i = 0,1,2...FN/2,其中Y表示歌曲音頻信號的當(dāng)前幀的頻
-1'TfeP曰。
[0037]發(fā)明人還提供了一種基于MMSE的歌曲去伴奏裝置,包括變換單元、增強(qiáng)單元和計算單元;
[0038]所述變換單元用于分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號;
[0039]所述增強(qiáng)單元用于對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理;
[0040]所述計算單元用于根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù);
[0041]所述計算單元還用于根據(jù)所述譜增益系數(shù)以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜;
[0042]所述變換單元還用于將去伴奏音頻信號的頻譜逆變換為時域信號。
[0043]所述的基于MMSE的歌曲去伴奏裝置還包括歸一化單元、分幀單元、和濾波單元;
[0044]所述歸一化單元用于對輸入的歌曲音頻信號和伴奏音頻信號進(jìn)行歸一化處理;
[0045]所述分幀單元用于將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預(yù)設(shè)數(shù)量的聲音采樣點(diǎn),并且相鄰幀之間有預(yù)設(shè)數(shù)量的重合采樣點(diǎn);
[0046]所述濾波單元用于對每幀進(jìn)行加漢寧窗濾波處理。
[0047]在基于麗SE的歌曲去伴奏裝置中,增強(qiáng)單元對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理具體包括:
[0048]遍歷伴奏音頻信號的幅度譜的所有幀以及幀內(nèi)的所有頻點(diǎn),找出當(dāng)前幀、當(dāng)前幀的前m個幀、當(dāng)前幀的后m幀共2m+l幀中對應(yīng)頻點(diǎn)的最大幅度值,將該最大值作為當(dāng)前幀對應(yīng)頻點(diǎn)的新值,其中m為預(yù)設(shè)的正整數(shù)。
[0049]在基于MMSE的歌曲去伴奏裝置中,計算單元獲得譜增益系數(shù)具體包括:遍歷歌曲音頻信號的頻譜與經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的所有幀;
[0050]計算歌曲音頻信號當(dāng)前巾貞的能量譜power (i), i = O, I, 2...FN/2,其中FN表示FFT變換的點(diǎn)數(shù),公式為:
[0051]power(i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜;
[0052]計算經(jīng)增強(qiáng)處理的伴奏音頻信號幅度譜的對應(yīng)巾貞的估計能量譜noise (i), i =
O,1,2...FN/2,公式為:
[0053]noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜;
[0054]計算去伴奏音頻信號的對應(yīng)幀的估計能量譜,公式為:
[0055]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2...FN/2 ;;
[0056]其中,sigl(i)= max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數(shù),且0〈beta〈l。
[0057]根據(jù)signal⑴、noise⑴和power⑴計算先驗信噪比epsi⑴和后驗信噪比g(i),公式分別為:
[0058]epsi (i) = signal (i)/noise (i);以及
[0059]g(i) = power (i)/noise (i);
[0060]根據(jù)印Si⑴和g(i)計算譜增益系數(shù)F (i),公式為:
[0061]F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (~v (i) /2) * ((1+v (i)) *besseli (0, v (i)/2)+v(i)*besseli (I, v(i)/2));其中,v(i) = epsi (i)/(1+epsi (i))*g(i), i = 0, 1,2...FN/2 ;
[0062]Ga_a表示伽馬函數(shù);besseli表示貝葉斯函數(shù);
[0063]對譜增益系數(shù)F (i)作修正處理;公式為:
[0064]F (i) = min (F (i), I);
[0065]計算單元根據(jù)歌曲音頻信號的頻譜Y(i)和經(jīng)修正處理的譜增益系數(shù)F(i)確定去伴奏音頻信號的頻譜;公式為:
[0066]X⑴=F⑴*Y⑴,i = 0,1,2...FN/2,其中Y表示歌曲音頻信號的當(dāng)前幀的頻
-1'TfeP曰。
[0067]區(qū)別于現(xiàn)有技術(shù),上述技術(shù)方案能從歌曲中有效地提取出人聲,并且可以保持較好的音質(zhì),從而為下一步音頻數(shù)據(jù)的分析、檢索等奠定良好的基礎(chǔ),具有較強(qiáng)的實(shí)用價值以及應(yīng)用前景。

【專利附圖】

【附圖說明】
[0068]圖1為本發(fā)明一實(shí)施方式所述基于MMSE的歌曲去伴奏的流程圖;
[0069]圖2為本發(fā)明另一實(shí)施方式所述基于MMSE的歌曲去伴奏裝置的結(jié)構(gòu)示意圖;
[0070]圖3為歌曲《遇見》的歌曲音頻時域波形;
[0071]圖4為歌曲《遇見》的伴奏音頻時域波形;
[0072]圖5為歌曲《遇見》經(jīng)本發(fā)明實(shí)施方式所得去伴奏音頻的時域波形。
[0073]附圖標(biāo)記說明:
[0074]1-歸一化單元
[0075]2-分幀單元
[0076]3-變換單元
[0077]4-增強(qiáng)單元
[0078]5-計算單元
[0079]6-連接單元
[0080]7-濾波單元

【具體實(shí)施方式】
[0081]為詳細(xì)說明技術(shù)方案的技術(shù)內(nèi)容、構(gòu)造特征、所實(shí)現(xiàn)目的及效果,以下結(jié)合具體實(shí)施例并配合附圖詳予說明。
[0082]請參閱圖1,為本發(fā)明一實(shí)施方式所述基于MMSE的歌曲去伴奏的流程圖;所述方法包括步驟:
[0083]S1、輸入歌曲音頻和與其對應(yīng)的伴奏音頻的信號,所述伴奏音頻信號與歌曲音頻信號存在時間同步對應(yīng)關(guān)系。
[0084]并且,所述伴奏音頻信號與歌曲音頻信號中的伴奏成分具有較大的相關(guān)性,比如KTV系統(tǒng)中所提供的原唱音頻和與原唱音頻相對應(yīng)的伴奏音頻就滿足上述特點(diǎn)。
[0085]S2、對歌曲音頻信號和伴奏音頻信號進(jìn)行歸一化處理。
[0086]本步驟所述歸一化處理的方式是找出信號絕對值的最大值,將原信號除以該最大值,處理結(jié)果是使信號的正負(fù)幅值位于-1與+1之間。
[0087]S3、將經(jīng)歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預(yù)設(shè)數(shù)量的聲音采樣點(diǎn),并且相鄰幀之間有預(yù)設(shè)數(shù)量的重合采樣點(diǎn)。例如本實(shí)施方式中,將音頻時域信號劃分為N個幀,每幀包括512個聲音采樣點(diǎn)(音頻采樣率為16khz),并且相鄰幀之間有256個采樣點(diǎn)的重合。這種處理的目的是使幀與幀之間具有平滑過渡的效果。
[0088]S4、對每幀進(jìn)行加漢寧窗濾波處理。本步驟的處理效果是降低后續(xù)時域到頻域變換所可能造成的頻譜泄露程度。
[0089]S5、分別將歌曲音頻信號和伴奏音頻信號經(jīng)劃分后的各幀由時域信號變換為頻域信號。所采用的變換算法為快速傅里葉變換(Fast Fourier Transform,FFT)。并計算歌曲音頻信號的幅度譜sn(i),i = O, 1,2...256,η = O, 1,2…N-1和伴奏音頻的幅度譜Mn(i),i=O, I, 2—256, η = O, I, 2…N_l。
[0090]S6、對伴奏音頻的幅度譜進(jìn)行增強(qiáng)處理。本實(shí)施方式中,本步驟的具體做法包括:遍歷伴奏音頻信號的幅度譜的所有幀以及幀內(nèi)的所有頻點(diǎn),找出當(dāng)前幀、當(dāng)前幀的前m個幀、當(dāng)前幀的后m幀共2m+l幀中對應(yīng)頻點(diǎn)的最大幅度值,將該最大值作為當(dāng)前幀對應(yīng)頻點(diǎn)的新值,其中m為預(yù)設(shè)的正整數(shù)。本實(shí)施方式中m取2。
[0091]具體的計算公式為:
[0092]Mn(i) = max (MMn_2 (i), MMn^1 (i), MMn(i), MMn+1 (i), MMn+2 (i)), i = 0,1,2...256,η =2,3,七"^3其中,MMn (i) = Mn (i), i = O, 1,2…256,n = O, 1,2…N-1,表示拷貝的伴奏音頻信號幅度譜緩存。
[0093]S7、根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù)。具體包括:
[0094]遍歷歌曲音頻信號的頻譜與經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的所有幀,即η=O, I, 2…Ν-1。
[0095]S71、計算歌曲音頻信號當(dāng)前巾貞的能量譜power (i),公式為:
[0096]power (i) = Sn(i) ~2,i = 0,1,2...256。
[0097]S72、計算經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的對應(yīng)幀的估計能量譜noise (i);公式為:
[0098]noise (i) = b*Mn(i) '2, i = O, I, 2…256。
[0099]其中b為調(diào)整因子,可以調(diào)整從歌曲音頻信號中去除伴奏成分的程度,本實(shí)施方式中b的取值為1.5。
[0100]S73、計算去伴奏音頻信號的對應(yīng)幀的估計能量譜;公式為:
[0101]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2…256。
[0102]其中,sigl(i)= max (0,power (i)-noise (i)),i = 0,1,2...256 ;
[0103]sig2(i)表示上一巾貞去伴奏音頻信號的能量譜;
[0104]beta 為常數(shù),且 0〈beta〈l,這里取 0.95。
[0105]S74、根據(jù)signal (i)、noise (i)和power (i)計算先驗信噪比epsi (i)和后驗信噪t匕g(i);公式分別為:
[0106]epsi (i) = signal (i) /noise (i), i = O, 1,2...256 ;以及
[0107]g(i) = power (i)/noise (i),i = 0,1,2…256。
[0108]S75、根據(jù)印si(i)和g(i)計算譜增益系數(shù)F(i),公式為:
[0109]F (i) = gamma (1.5) *sqrt (V (i))/g (i) *exp (-V (i)/2) * ((1+v (i)) *besseli (0,V (i) /2) +V (i) *besseli (I, v (i) /2)) i = 0,1,2...256 ;
[0110]其中,V(i)= epsi (i)/(1+epsi (i))*g(i), i = 0, I, 2...256 ;
[0111]Ga_a表示伽馬函數(shù);besseli表示貝葉斯函數(shù)。
[0112]S76、對譜增益系數(shù)F(i)作修正處理。公式為:
[0113]F(i) = min(F(i), 1),i = 0,1,2...256。
[0114]S8、根據(jù)所述譜增益系數(shù)以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜;具體做法是根據(jù)歌曲音頻信號的當(dāng)前幀頻譜Y(i)和經(jīng)修正處理的譜增益系數(shù)F(i)確定,公式為:
[0115]X⑴=F⑴*Ya),i = O, 1,2…256,其中Y表示歌曲音頻信號的當(dāng)前幀的頻譜。所得到的X(i)即為去伴奏音頻信號的對應(yīng)幀的頻譜。
[0116]S9、將去伴奏音頻信號的頻譜逆變換為時域信號;算法為FFT逆變換。
[0117]重復(fù)執(zhí)行步驟S71-S9,直到遍歷完所有幀。
[0118]S10、得到所有的去伴奏音頻時域幀后,連接各幀得到完整的去伴奏音頻的時域信號。
[0119]請參閱圖3、圖4和圖5 ;圖3為歌曲《遇見》的歌曲首頻時域波形;圖4為歌曲《遇見》的伴奏音頻時域波形;圖5為歌曲《遇見》經(jīng)本發(fā)明實(shí)施方式所得去伴奏音頻的時域波形。用播放器播放去伴奏后的音頻,可以聽到,伴奏已經(jīng)基本去除干凈,人聲仍然保持很好的音質(zhì)。
[0120]請參閱圖2,為本發(fā)明另一實(shí)施方式所述歌曲去伴奏裝置的結(jié)構(gòu)示意圖。所述裝置包括歸一化單元1、分幀單元2、變換單元3、增強(qiáng)單元4和計算單元5。所述裝置實(shí)現(xiàn)歌曲去伴奏具體如下述方式進(jìn)行:
[0121]首先,歸一化單元I對歌曲音頻信號和伴奏音頻信號進(jìn)行歸一化處理。
[0122]所述歸一化處理的方式是找出信號絕對值的最大值,將原信號除以該最大值,處理結(jié)果是使信號的正負(fù)幅值位于-1與+1之間。
[0123]所述伴奏音頻信號與歌曲音頻信號存在時間同步對應(yīng)關(guān)系。
[0124]并且,所述伴奏音頻信號與歌曲音頻信號中的伴奏成分具有較大的相關(guān)性,比如KTV系統(tǒng)中所提供的原唱音頻和與原唱音頻相對應(yīng)的伴奏音頻就滿足上述特點(diǎn)。
[0125]分幀單元2用于將經(jīng)歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預(yù)設(shè)數(shù)量的聲音采樣點(diǎn),并且相鄰幀之間有預(yù)設(shè)數(shù)量的重合采樣點(diǎn)。例如本實(shí)施方式中,將音頻信號劃分為N個幀,每幀包括512個聲音采樣點(diǎn)(音頻采樣率為16khz),并且相鄰幀之間有256個采樣點(diǎn)的重合。這種處理的目的是使幀與幀之間具有平滑過渡的效果。
[0126]濾波單元7用于對經(jīng)分幀單元劃分所得到的每幀進(jìn)行加漢寧窗濾波處理。濾波單元7的處理效果是降低后續(xù)時域到頻域變換所可能造成的頻譜泄露程度。
[0127]變換單元3用于分別將歌曲音頻信號和伴奏音頻信號經(jīng)劃分后的各幀由時域信號變換為頻域信號。所采用的變換算法為快速傅里葉變換(Fast Fourier Transform,FFT)。并計算歌曲音頻信號的幅度譜Sn⑴,i = O, I, 2-256, η = O, I, 2...N-1和伴奏音頻的幅度譜^⑴,i = O, 1,2…256,η = O, 1,2...Ν_1。
[0128]增強(qiáng)單元4用于對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理。本實(shí)施方式中,所述增強(qiáng)處理的具體方式包括:遍歷伴奏音頻信號的幅度譜的所有幀以及幀內(nèi)的所有頻點(diǎn),找出當(dāng)前幀、當(dāng)前幀的前m個幀、當(dāng)前幀的后m幀共2m+l幀中對應(yīng)頻點(diǎn)的最大幅度值,將該最大值作為當(dāng)前幀對應(yīng)頻點(diǎn)的新值,其中m為預(yù)設(shè)的正整數(shù)。本實(shí)施方式中m取2。
[0129]計算公式為:
[0130]Mn(i) = max (MMn_2 (i), MMn^1 (i), MMn(i), MMn+1 (i), MMn+2 (i)), i = 0,1,2...256,n =2,3,七"^3其中,MMn (i) = Mn (i), i = 0,1,2…256,n = 0,1,2…N_l,表示拷貝的伴奏音頻信號幅度譜緩存。
[0131]計算單元5進(jìn)一步地根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù)。做法具體包括:
[0132]遍歷歌曲音頻信號的頻譜與經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的所有幀,即η=O, I, 2…N-1。對所遍歷的每一巾貞,做如下處理:
[0133]計算歌曲音頻信號當(dāng)前幀的能量譜poweHi);公式為:
[0134]power (i) = Sn(i) ~2,i = 0,1,2...256。
[0135]計算對經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的對應(yīng)幀的估計能量譜noiSe(i);公式為:
[0136]noise (i) = b*Mn(i) ~2,i = 0,1,2…256。
[0137]其中b為調(diào)整因子,可以調(diào)整從歌曲音頻信號中去除伴奏成分程度,本實(shí)施方式中b的取值為1.5。
[0138]計算去伴奏音頻信號對應(yīng)幀的估計能量譜;公式為:
[0139]signal (i) = (1-beta) *sigl (i)+beta*sig2 (i),i = 0,1,2…256。
[0140]其中,sigl(i)= max (0,power (i)-noise (i)),i = 0,1,2...256 ;
[0141]sig2(i)表示上一巾貞去伴奏音頻信號的能量譜;
[0142]beta 為常數(shù),且 0〈beta〈l,這里取 0.95。
[0143]根據(jù)signal (i)、noise (i)和power (i)計算先驗信噪比epsi⑴和后驗信噪比g(i);公式分別為:
[0144]epsi (i) = signal (i) /noise (i), i = O, I, 2…256 ;以及
[0145]g(i) = power (i)/noise (i),i = 0,1,2…256。
[0146]根據(jù)印Si (i)和g(i)計算譜增益系數(shù)F(i),公式為:
[0147]F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (~v (i) /2) * ((1+v (i)) *besseli (0, v (i) /2) +V (i) *besseli (I, v (i) /2)) i = 0,1,2...256 ;
[0148]其中,V(i)= epsi (i)/(1+epsi (i))*g(i), i = 0, I, 2...256 ;
[0149]Ga_a表示伽馬函數(shù);besseli表示貝葉斯函數(shù)。
[0150]對譜增益系數(shù)F(i)作修正處理。公式為:
[0151]F (i) = min (F (i), I), i = O, I, 2...256。
[0152]計算單元5進(jìn)一步地根據(jù)所述譜增益系數(shù)從歌曲音頻信號的頻譜中得到去伴奏音頻信號的頻譜;具體做法是根據(jù)歌曲音頻信號的頻譜Y(i)和經(jīng)修正處理的譜增益系數(shù)F(i)確定,公式為:
[0153]X⑴=F(i)*Y(i),i = 0,1,2…256,其中Y表示歌曲音頻信號的當(dāng)前幀的頻譜。所得到的X(i)即為去伴奏音頻的對應(yīng)幀的頻譜。
[0154]變換單元3進(jìn)一步被用于將去伴奏音頻信號的頻譜逆變換為時域信號;算法為FFT逆變換。
[0155]本發(fā)明所述的歌曲去伴奏裝置還包括連接單元6,得到所有的去伴奏音頻時域幀后,連接單元6用于連接所述各幀。即得到完整的去伴奏音頻的時域信號。
[0156]本發(fā)明所述實(shí)施方式能從歌曲中有效地提取出人聲,并且可以保持較好的音質(zhì),從而為下一步音頻數(shù)據(jù)的分析、檢索等奠定良好的基礎(chǔ),具有較強(qiáng)的實(shí)用價值以及應(yīng)用前旦
-5^ O
[0157]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,上述各實(shí)施例可提供為方法、裝置、或計算機(jī)程序產(chǎn)品。這些實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。上述各實(shí)施例涉及的方法中的全部或部分步驟可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計算機(jī)設(shè)備可讀取的存儲介質(zhì)中,用于執(zhí)行上述各實(shí)施例方法所述的全部或部分步驟。所述計算機(jī)設(shè)備,包括但不限于:個人計算機(jī)、服務(wù)器、通用計算機(jī)、專用計算機(jī)、網(wǎng)絡(luò)設(shè)備、嵌入式設(shè)備、可編程設(shè)備、智能移動終端、智能家居設(shè)備、穿戴式智能設(shè)備、車載智能設(shè)備等;所述的存儲介質(zhì),包括但不限于:RAM、ROM、磁碟、磁帶、光盤、閃存、U盤、移動硬盤、存儲卡、記憶棒、網(wǎng)絡(luò)服務(wù)器存儲、網(wǎng)絡(luò)云存儲等。
[0158]上述各實(shí)施例是參照根據(jù)實(shí)施例所述的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到計算機(jī)設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0159]這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)設(shè)備以特定方式工作的計算機(jī)設(shè)備可讀存儲器中,使得存儲在該計算機(jī)設(shè)備可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0160]這些計算機(jī)程序指令也可裝載到計算機(jī)設(shè)備上,使得在計算機(jī)設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實(shí)現(xiàn)的處理,從而在計算機(jī)設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0161]盡管已經(jīng)對上述各實(shí)施例進(jìn)行了描述,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改,所以以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利保護(hù)范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的【技術(shù)領(lǐng)域】,均同理包括在本發(fā)明的專利保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于麗SE的歌曲去伴奏的方法,包括步驟: 輸入歌曲音頻信號和與其對應(yīng)的伴奏音頻信號,所述伴奏音頻信號與歌曲音頻信號存在時間同步關(guān)系; 分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號; 對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理; 根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù); 根據(jù)所述譜增益系數(shù)以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜; 將去伴奏音頻信號的頻譜逆變換為時域信號。
2.如權(quán)利要求1所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:在步驟“分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號”之前還包括步驟:對歌曲音頻信號和伴奏音頻信號進(jìn)行歸一化處理,再將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預(yù)設(shè)數(shù)量的聲音采樣點(diǎn),并且相鄰幀之間有預(yù)設(shè)數(shù)量的重合采樣點(diǎn)。
3.如權(quán)利要求2所述的基于MMSE的歌曲去伴奏的方法中,其特征在于:在步驟“將經(jīng)歸一化處理的歌曲音頻信號和伴奏音頻信號分別劃分為若干幀”后還包括步驟: 對每幀進(jìn)行加漢寧窗濾波處理。
4.如權(quán)利要求1所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:步驟“對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理”具體包括: 遍歷伴奏音頻信號的幅度譜的所有幀以及幀內(nèi)的所有頻點(diǎn),找出當(dāng)前幀、當(dāng)前幀的前m個幀、當(dāng)前幀的后m幀共2m+l幀中對應(yīng)頻點(diǎn)的最大幅度值,將該最大值作為當(dāng)前幀對應(yīng)頻點(diǎn)的新值,其中m為預(yù)設(shè)的正整數(shù)。
5.如權(quán)利要求1或4所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:步驟“根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù)”具體包括步驟: 遍歷歌曲音頻信號的頻譜與經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的所有幀; 計算歌曲音頻信號當(dāng)前幀的能量譜power (i),i = O, 1,2...FN/2,其中FN表示FFT變換的點(diǎn)數(shù),公式為: power (i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜; 計算經(jīng)增強(qiáng)處理的伴奏音頻信號幅度譜的對應(yīng)幀的估計能量譜noiSe(i),i =O, 1,2...FN/2,公式為: noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜; 計算去伴奏音頻信號對應(yīng)幀的估計能量譜,公式為:
signal (i) = (1-beta) *sigl (i) +beta*sig2 (i), i = 0, 1,2...FN/2 ; 其中,sigl(i) = max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數(shù),且0〈beta〈l ; 根據(jù)signal (i)、noise(i)和power (i)計算先驗信噪比epsi (i)和后驗信噪比g(i),公式分別為:
epsi (i) = signal (i)/noise (i);以及
g(i) = power (i)/noise (i); 根據(jù)印si(i)和g(i)計算譜增益系數(shù)F (i),公式為:
F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (_v (i) /2) * ((1+v (i)) *besseli (0, v (i) /2) +V(i)*besseli (I, v(i)/2));其中,v(i) = epsi Q)/(1+epsi (i))*g(i),i = 0,1,2...FN/2 ; Gamma表示伽馬函數(shù);besseli表示貝葉斯函數(shù); 對譜增益系數(shù)F (i)作修正處理,公式為:F(i) =min(F(i),l)。
6.如權(quán)利要求1所述的基于麗SE的歌曲去伴奏的方法中,其特征在于:步驟“根據(jù)所述譜增益系數(shù)以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜”具體為: 根據(jù)歌曲音頻信號當(dāng)前幀的頻譜Y (i)和經(jīng)修正處理的譜增益系數(shù)F (i)確定去伴奏音頻信號的頻譜;公式為: X⑴=F(i)*Y⑴,i = O, 1,2...FN/2,其中Y表示歌曲音頻信號的當(dāng)前幀的頻譜。
7.一種基于MMSE的歌曲去伴奏裝置,其特征在于:包括變換單元、增強(qiáng)單元和計算單元; 所述變換單元用于分別將歌曲音頻信號和伴奏音頻信號由時域信號變換為頻域信號; 所述增強(qiáng)單元用于對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理; 所述計算單元用于根據(jù)增強(qiáng)處理后的伴奏音頻信號的幅度譜,對歌曲音頻信號的頻譜進(jìn)行最小均方誤差估計獲得譜增益系數(shù); 所述計算單元還用于根據(jù)所述譜增益系數(shù)以及歌曲音頻信號的頻譜得到去伴奏音頻信號的頻譜; 所述變換單元還用于將去伴奏音頻信號的頻譜逆變換為時域信號。
8.如權(quán)利要求7所述的基于麗SE的歌曲去伴奏裝置,其特征在于:還包括歸一化單元、分幀單元和濾波單元; 所述歸一化單元用于對歌曲音頻信號和伴奏音頻信號進(jìn)行歸一化處理; 所述分幀單元用于將歌曲音頻信號和伴奏音頻信號分別劃分為若干幀,每幀包括預(yù)設(shè)數(shù)量的聲音采樣點(diǎn),并且相鄰幀之間有預(yù)設(shè)數(shù)量的重合采樣點(diǎn); 所述濾波單元用于對每幀進(jìn)行加漢寧窗濾波處理。
9.如權(quán)利要求7或8所述的基于麗SE的歌曲去伴奏裝置中,其特征在于:所述增強(qiáng)單元對伴奏音頻信號的幅度譜進(jìn)行增強(qiáng)處理具體包括: 遍歷伴奏音頻信號的幅度譜的所有幀以及幀內(nèi)的所有頻點(diǎn),找出當(dāng)前幀、當(dāng)前幀的前m個幀、當(dāng)前幀的后m幀共2m+l幀中對應(yīng)頻點(diǎn)的最大幅度值,將該最大值作為當(dāng)前幀對應(yīng)頻點(diǎn)的新值,其中m為預(yù)設(shè)的正整數(shù)。
10.如權(quán)利要求7或8所述的基于麗SE的歌曲去伴奏裝置中,其特征在于:計算單元獲得譜增益系數(shù)具體包括:遍歷歌曲音頻信號的頻譜與經(jīng)增強(qiáng)處理的伴奏音頻信號的幅度譜的所有幀; 計算歌曲音頻信號當(dāng)前幀的能量譜power (i),i = 0,1,2...FN/2,其中FN表示FFT變換的點(diǎn)數(shù),公式為: power (i) = Sn(i)~2,其中sn(i)表示歌曲音頻信號的幅度譜; 計算經(jīng)增強(qiáng)處理的伴奏音頻信號幅度譜的對應(yīng)幀的估計能量譜noiSe(i),i =O, 1,2...FN/2,公式為: noise (i) = b*Mn(i) ~2,其中Mn(i)表示伴奏音頻信號的幅度譜; 計算去伴奏音頻信號的對應(yīng)幀的估計能量譜,公式為:
signal (i) = (1-beta) *sigl (i) +beta*sig2 (i), i = 0, 1,2...FN/2 ; 其中,sigl(i) = max (0, power (i) -noise (i)), sig2 (i)表示上一巾貞去伴奏音頻信號的能量譜,beta為常數(shù),且0〈beta〈l ; 根據(jù)signal (i)、noise(i)和power (i)計算先驗信噪比epsi (i)和后驗信噪比g(i),公式分別為:
epsi (i) = signal (i)/noise (i);以及
g(i) = power (i)/noise (i); 根據(jù)印si(i)和g(i)計算譜增益系數(shù)F (i),公式為:
F (i) = gamma (1.5) *sqrt (v (i)) /g (i) *exp (_v (i) /2) * ((1+v (i)) *besseli (0, v (i) /2) +V(i)*besseli (I, v(i)/2));其中,v(i) = epsi Q)/(1+epsi (i))*g(i),i = 0,1,2...FN/2 ; Gamma表示伽馬函數(shù);besseli表示貝葉斯函數(shù); 對譜增益系數(shù)F (i)作修正處理;公式為:
F(i) = min(F(i), I); 計算單元根據(jù)歌曲音頻信號的頻譜Y(i)和經(jīng)修正處理的譜增益系數(shù)F(i)確定去伴奏音頻信號的頻譜;公式為: X⑴=F(i)*Y(i),i = O, 1,2...FN/2,其中Y表示歌曲音頻信號的當(dāng)前幀的頻譜。
【文檔編號】G10L21/0272GK104134444SQ201410331430
【公開日】2014年11月5日 申請日期:2014年7月11日 優(yōu)先權(quán)日:2014年7月11日
【發(fā)明者】王子亮 申請人:福建星網(wǎng)視易信息系統(tǒng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
福泉市| 益阳市| 梁山县| 正宁县| 开化县| 昌乐县| 汝州市| 大兴区| 绥宁县| 精河县| 长岭县| 郁南县| 奎屯市| 桃江县| 项城市| 姜堰市| 凤庆县| 宁武县| 牟定县| 和林格尔县| 鹿泉市| 昌宁县| 三门县| 屯昌县| 阿勒泰市| 五华县| 磐石市| 孟州市| 洱源县| 桐乡市| 五原县| 东至县| 辰溪县| 永泰县| 河北省| 南昌县| 丰都县| 镇雄县| 牙克石市| 翁牛特旗| 东海县|