一種音頻信號的處理方法、裝置及設備的制作方法

文檔序號：2826436閱讀：220來源：國知局

一種音頻信號的處理方法、裝置及設備的制作方法
【專利摘要】本發(fā)明公開了一種音頻信號的處理方法、裝置及設備，屬于音頻處理領域。所述方法包括：將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，所述第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分；采用諧波類/敲擊類音樂分離HPSS算法從所述第一頻域信號中分離出第二頻域信號，所述第二頻域信號包括所述敲擊類樂聲成分和所述人聲成分；采用最相似鄰近幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分。所述裝置包括：轉(zhuǎn)換單元、分離單元和提取單元。所述設備用于執(zhí)行前述方法。本發(fā)明提高了從歌曲中提取出的人聲品質(zhì)。
【專利說明】一種音頻信號的處理方法、裝置及設備
【技術領域】
[0001]本發(fā)明涉及音頻處理領域，特別涉及一種音頻信號的處理方法、裝置及設備。
【背景技術】
[0002]單聲道或雙聲道歌曲的每個聲道信號一般包括人聲和伴奏兩種音頻信號。如果用戶想提取出歌曲中的人聲或伴奏，可以采用人聲或伴奏分離技術將人聲或伴奏從歌曲中提取出來。
[0003]以人聲分離為例，介紹一下現(xiàn)有分離方式，其包括以下步驟:第一步，分別將歌曲的左右聲道信號由時域轉(zhuǎn)換為頻域；第二步，計算左右聲道信號的相應頻點對的歸一化互相關值；第三步，對左右聲道信號相應頻點對的均值信號加權人聲增益，人聲增益與當前頻點對的歸一化互相關值成正比例取值；第四步，將加權人聲增益后的左聲道信號和右聲道信號的均值信號由頻域轉(zhuǎn)換為時域提取出人聲。
[0004]現(xiàn)有分離方式依據(jù)歌曲的左右聲道信號的相關性給予音樂成分不同增益，不同頻點對的增益不同，且不同頻點對的增益取值相互獨立，沒有一定的相關性，取不同增益時會改變音色特征，導致人聲失真；這樣，提取出的人聲效果比較差，無法滿足高品質(zhì)人聲的提取要求。

【發(fā)明內(nèi)容】

[0005]為了解決現(xiàn)有技術的問題，本發(fā)明實施例提供了一種音頻信號的處理方法、裝置及設備。所述技術方案如下:
[0006]第一方面，本發(fā)明實施例提供了一種音頻信號的處理方法，所述方法包括:
[0007]將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，所述第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分；
[0008]采用諧波類/敲擊類音樂分離HPSS算法從所述第一頻域信號中分離出第二頻域信號，所述第二頻域信號包括所述敲擊類樂聲成分和所述人聲成分；
[0009]采用最相似相鄰幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分。
[0010]在第一方面的第一種實現(xiàn)方式中，所述采用諧波類/敲擊類音樂分離HPSS算法從所述第一頻域信號中分離出第二頻域信號，包括:
[0011]對所述第一頻域信號中每個頻點取幅值，得到第一矩陣；
[0012]對所述第一矩陣中每一列進行中值濾波，得到第二矩陣，并對所述第一矩陣中每一行進行中值濾波，得到第三矩陣；
[0013]根據(jù)所述第二矩陣和所述第三矩陣，通過以下公式，從所述第一頻域信號中分離出所述第二頻域信號；
[0014]((Ρ.*Ρ)./ ((Η.*Η)+ (Ρ.*Ρ))).*Χ
[0015]H表示所述第二矩陣，P表示所述第三矩陣，X表示所述第一矩陣，./表示點除運算，.*表示點乘運算。
[0016]結(jié)合第一方面或第一方面的第一種實現(xiàn)方式，在第二種實現(xiàn)方式中，所述將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，包括:
[0017]采用快速傅里葉變換FFT將所述歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到所述第一頻域信號；所述FFT的米樣率為44.1KHz,幀長不小于8192點，幀移為所述幀長的一半。
[0018]結(jié)合第一方面、第一方面的第一種實現(xiàn)方式或第二種實現(xiàn)方式，在第三種實現(xiàn)方式中，所述采用最相似相鄰幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分之前，還包括: [0019]采用快速傅里葉反變換將所述第二頻域信號從頻域轉(zhuǎn)換成時域，再采用FFT進行時域到頻域的轉(zhuǎn)換，得到重復轉(zhuǎn)換的所述第二頻域信號；得到所述重復轉(zhuǎn)換的第二頻域信號所采用的FFT的采樣率為44.1KHz，幀長不大于4096點，幀移為得到所述重復轉(zhuǎn)換的第二頻域信號采用的FFT的幀長的四分之一；
[0020]所述采用最相似相鄰幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分，包括:
[0021]采用NNMF算法從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分。
[0022]結(jié)合第一方面的第三種實現(xiàn)方式，在第四種實現(xiàn)方式中，所述采用NNMF算法從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分，包括:
[0023]對所述重復轉(zhuǎn)換的第二頻域信號中每個頻點取幅值；
[0024]遍歷所述重復轉(zhuǎn)換的第二頻域信號中每一幀信號，計算每一幀信號分別與所述重復轉(zhuǎn)換的第二頻域信號中除所述每一幀信號外的其他幀信號之間的相似度；
[0025]根據(jù)所述相似度，獲取所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計；
[0026]通過以下公式，計算所述重復轉(zhuǎn)換的第二頻域信號與所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計之間相應頻點對的指數(shù)歸一化互相關值的差值，
[0027]QiiJ) = ? ?^1θ^(^./))-ΜΚ(/,/)))-ν
v ^Inamda '‘、namda Jj
[0028]并通過以下公式，根據(jù)所述差值計算所述敲擊類樂聲成分的權重；

[0,ρ(/,/)<0.85
[0029]lV(/\ j) =

[ι,ρ(/,./)>0.85
[0030]PP (i，j)表示所述重復轉(zhuǎn)換的第二頻域信號中第j幀第i個頻點'Y (i，j)表示所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計中第j幀第i個頻點；Q (i，j)表示所述重復轉(zhuǎn)換的第二頻域信號中第j幀第i個頻點與所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計中第j幀第i個頻點之間的指數(shù)歸一化互相關值的差值，W (i，j)表示所述重復轉(zhuǎn)換的第二頻域信號中第j幀第i個頻點的敲擊類樂聲成分的權重，namda為權重因子，namda=3 ；
[0031]通過以下公式，根據(jù)所述敲擊類樂聲成分的權重，從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分；
[0032]Pl= (1-W).*PP
[0033]Pl表示所述人聲成分，W表示所述敲擊類樂聲成分的權重，PP表示所述重復轉(zhuǎn)換的第二頻域信號。
[0034]結(jié)合第一方面的第四種實現(xiàn)方式，在第五種實現(xiàn)方式中，所述根據(jù)所述相似度，獲取所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計，包括:
[0035]根據(jù)所述相似度，獲取所述每一幀信號的預定數(shù)量的相似幀信號；
[0036]根據(jù)所述預定數(shù)量的相似幀信號，計算所述每一幀信號的頻域譜估計；
[0037]將計算出的所述每一幀信號的頻域譜估計構(gòu)成所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計。
[0038]結(jié)合第一方面的第四種實現(xiàn)方式，在第六種實現(xiàn)方式中，所述根據(jù)所述敲擊類樂聲成分的權重，從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分后，還包括:
[0039]通過以下公式，從所述重復轉(zhuǎn)換的第二頻域信號中分離出所述敲擊類樂聲成分，
[0040]P2=ff.*PP
[0041]P2表示所述敲擊類樂聲成分。
[0042]結(jié)合第一方面的第六種實現(xiàn)方式，在第七種實現(xiàn)方式中，所述從所述重復轉(zhuǎn)換的第二頻域信號中分離出所述敲擊類樂聲成分后，還包括:
[0043]從所述第一頻域信號分離出所述諧波類樂聲成分；
[0044]將所述分離出的所述諧波類樂聲成分從頻域轉(zhuǎn)換成時域，將所述敲擊類樂聲成分從頻域轉(zhuǎn)換成時域，并對轉(zhuǎn)換后的諧波類樂聲成分和轉(zhuǎn)換后的敲擊類樂聲成分進行合成，得到伴奏成分。
[0045]第二方面，本發(fā)明實施例提供了一種音頻信號的處理裝置，所述裝置包括:
[0046]轉(zhuǎn)換單元，用于將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，所述第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分；
[0047]分離單元，用于采用諧波類/敲擊類音樂分離HPSS算法從所述轉(zhuǎn)換單元得到的第一頻域信號中分離出所述第二頻域信號，所述第二頻域信號包括所述敲擊類樂聲成分和所述人聲成分；
[0048]提取單元，用于采用最相似鄰近幀間的中值濾波NNMF算法從所述分離單元分離出的第二頻域信號中提取出所述人聲成分。
[0049]在第二方面的第一種實現(xiàn)方式中，所述分離單元具體用于:
[0050]對所述轉(zhuǎn)換單元得到的第一頻域信號中每個頻點取幅值，得到第一矩陣；
[0051]對所述第一矩陣中每一列進行中值濾波，得到第二矩陣，并對所述第一矩陣中每一行進行中值濾波，得到第三矩陣；
[0052]根據(jù)所述第二矩陣和所述第三矩陣，通過以下公式，從所述第一頻域信號中分離出所述第二頻域信號；
[0053]((Ρ.*Ρ)./ ((Η.*Η)+ (Ρ.*Ρ))).*Χ
[0054]H表示所述第二矩陣，P表示所述第三矩陣，X表示所述第一矩陣，./表示點除運算，.*表示點乘運算。
[0055]結(jié)合第二方法或第二方面的第一種實現(xiàn)方式，在第二種實現(xiàn)方式中，所述轉(zhuǎn)換單元具體用于:
[0056]采用快速傅里葉變換FFT將所述歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到所述第一頻域信號；所述FFT的米樣率為44.1KHz,巾貞長不小于8192點，巾貞移為所述巾貞長的一半。
[0057]結(jié)合第二方法、第二方面的第一種實現(xiàn)方式或第二種實現(xiàn)方式，在第三種實現(xiàn)方式中，所述分離單元還用于:
[0058]采用快速傅里葉反變換將所述第二頻域信號從頻域轉(zhuǎn)換成時域，再采用FFT進行時域到頻域的轉(zhuǎn)換，得到重復轉(zhuǎn)換的第二頻域信號；得到所述重復轉(zhuǎn)換的第二頻域信號所采用的FFT的采樣率為44.1K，幀長不大于4096點，幀移為得到所述重復轉(zhuǎn)換的第二頻域信號采用的FFT的幀長的四分之一；
[0059]所述轉(zhuǎn)換單元具體用于:
[0060]采用所述NNMF算法從所述分離單元得到的所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分。 [0061]結(jié)合第二方面的第三種實現(xiàn)方式，在第四種實現(xiàn)方式中，所述提取單元包括:
[0062]第一獲取子單元，用于對所述分離單元得到的所述重復轉(zhuǎn)換的第二頻域信號中每個頻點取幅值；
[0063]第一計算子單元，用于遍歷所述重復轉(zhuǎn)換的第二頻域信號中每一幀信號，計算每一幀信號分別與所述重復轉(zhuǎn)換的第二頻域信號中除所述每一幀信號外的其他幀信號之間的相似度；
[0064]第二獲取子單元，用于根據(jù)所述第一計算子單元計算出的相似度，獲取所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計；
[0065]第二計算子單元，用于通過以下公式，計算所述重復轉(zhuǎn)換的第二頻域信號與所述第二獲取子單元獲取的所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計之間相應頻點對的指數(shù)歸一化互相關值的差值，
[0066]cxp1- (尸尸(/,力)~ log(叩")))
^ 、2 namda 中 namda j J
[0067]并通過以下公式，根據(jù)所述差值計算所述敲擊類樂聲信號的權重；
[0068]沙(/,/)= <|

11,0(/,./) >0.85
[0069]其中，PP (i，j)表示所述重復轉(zhuǎn)換的第二頻域信號中第j幀第i個頻點'Y (i, j)表示所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計中第j幀第i個頻點；Q (i，j)表示所述重復轉(zhuǎn)換的第二頻域信號中第j幀第i個頻點與所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計中第j幀第i個頻點之間的指數(shù)歸一化互相關值的差值，W (i，j)表示所述重復轉(zhuǎn)換的第二頻域信號中第j幀第i個頻點的敲擊類樂聲成分的權重，namda為權重因子,namda=3 ；
[0070]提取子單元，用于通過以下公式，根據(jù)所述第二計算子單元計算的敲擊類樂聲成分的權重，從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分；
[0071]Pl= (1-W).*ΡΡ
[0072]Pl表示所述人聲成分，W表示所述敲擊類樂聲成分的權重，PP表示所述重復轉(zhuǎn)換的第二頻域信號。
[0073]結(jié)合第二方面的第四種實現(xiàn)方式，在第五種實現(xiàn)方式中，所述第二獲取子單元具體用于:[0074]根據(jù)所述相似度，獲取所述每一幀信號的預定數(shù)量的相似幀信號；
[0075]根據(jù)所述預定數(shù)量的相似幀信號，計算所述每一幀信號的頻域譜估計；
[0076]將計算出的所述每一幀信號的頻域譜估計構(gòu)成所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計。
[0077]結(jié)合第二方面的第四種實現(xiàn)方式，在第六種實現(xiàn)方式中，所述提取單元還用于:
[0078]通過以下公式，從所述分離單元得到的所述重復轉(zhuǎn)換的第二頻域信號中分離出所述敲擊類樂聲成分，
[0079]P2=W.*PP
[0080]P2表示所述敲擊類樂聲成分。
[0081]結(jié)合第二方面的第六種實現(xiàn)方式，在第七種實現(xiàn)方式中，所述裝置還包括:
[0082]合成單元，用于從所述轉(zhuǎn)換單元得到的第一頻域信號分離出所述諧波類樂聲成分；將分離出的所述敲擊類樂聲成分從頻域轉(zhuǎn)換成時域，將所述敲擊類樂聲成分從頻域轉(zhuǎn)換成時域，并對轉(zhuǎn)換后的諧波類樂聲成分和轉(zhuǎn)換后的敲擊類樂聲成分進行合成，得到伴奏成分。
[0083]第三方面，本發(fā)明實施例提供了一種音頻信號的處理設備，所述設備包括處理器和存儲器，所述處理器用于執(zhí)行如下指令: [0084]將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，所述第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分；
[0085]采用諧波類/敲擊類音樂分離HPSS算法從所述第一頻域信號中分離出第二頻域信號，所述第二頻域信號包括所述敲擊類樂聲成分和所述人聲信號成分；
[0086]采用最相似鄰近幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分。
[0087]本發(fā)明實施例提供的技術方案帶來的有益效果是:通過將歌曲伴奏分為了諧波類樂聲成分和敲擊類樂聲成分，首先采用HPSS算法從歌曲中分離出第二頻域信號，第二頻域信號包括敲擊類樂聲成分和人聲成分；然后米用NNMF算法從敲擊類樂聲成分中分尚出人聲成分，使得分離出的人聲成分比較干凈，避免了較大的伴奏殘留；并且，通過NNMF算法從歌曲的單聲道信號中提取出人聲成分，能夠考慮到相似幀信號之間的頻率分布特點，充分利用伴奏具有很強的周期性而人聲富于變化性特征來提取人聲成分，避免了以單獨的頻點對的頻率分布特點來提取人聲時給人聲成分帶來的損傷，適用范圍廣，提取出的人聲成分效果較好，能夠滿足高品質(zhì)人聲的提取要求。
【專利附圖】

【附圖說明】
[0088]為了更清楚地說明本發(fā)明實施例中的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0089]圖1是本發(fā)明實施例一提供的一種音頻信號的處理方法的流程圖；
[0090]圖2是本發(fā)明實施例二提供的又一種音頻信號的處理方法的流程圖；
[0091]圖3是本發(fā)明實施例二提供的KTV應用場景的不意圖；[0092]圖4是本發(fā)明實施例三提供的一種音頻信號的處理裝置的結(jié)構(gòu)示意圖；
[0093]圖5是本發(fā)明實施例四提供的又一種音頻信號的處理裝置的結(jié)構(gòu)示意圖；
[0094]圖6是本發(fā)明實施例五提供的一種音頻信號的處理設備的結(jié)構(gòu)示意圖。
【具體實施方式】
[0095]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。
[0096]實施例一
[0097]參見圖1，本發(fā)明實施例提供了一種音頻信號的處理方法，該方法流程包括:
[0098]步驟101:將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，該第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分。
[0099]歌曲的單聲道信號可以為，單聲道歌曲的單聲道信號或雙聲道歌曲的左/右聲道信號。雙聲道歌曲包括雙聲道的立體聲歌曲。
[0100]其中，諧波類樂聲成分和敲擊類樂聲成分構(gòu)成歌曲中樂器演奏的伴奏成分。諧波類樂聲成分包括鋼琴一類的樂器發(fā)出的聲音，敲擊類樂聲成分包括鼓音和敲打音。
[0101]可以米用快速傅里葉變換(Fast Fourier Transformation,簡稱FFT)將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域?？蛇x地，進行FFT的采樣率為44.ΙΚΗζ，幀長不小于8192點，幀移可以是幀長的二分之一，例如，針對采樣率為44.1kHz的歌曲，采用8192點(185.7ms)幀長，4096點幀移，做FFT。
[0102]步驟102:采用諧波類/敲擊類音樂分離(Harmonic/Percussive SoundSeparation，簡稱HPSS)算法從第一頻域信號中分離出第二頻域信號。
[0103]其中，第二頻域信號包括敲擊類樂聲成分和人聲成分。
[0104]其中，HPSS算法包括中值濾波HPSS算法和譜擴散法(頻譜的互補擴散法)。
[0105]步驟103:采用最相似鄰近巾貞間的中值濾波(Nearest Neighbours and MedianFiltering,簡稱NNMF)算法從第二頻域信號中提取出人聲成分。
[0106]本發(fā)明實施例通過將歌曲伴奏分為了諧波類樂聲成分和敲擊類樂聲成分，首先采用HPSS算法從歌曲中分離出第二頻域信號，第二頻域信號包括敲擊類樂聲成分和人聲成分；然后米用NNMF算法從敲擊類樂聲成分中分尚出人聲成分,使得分尚出的人聲成分比較干凈，避免了較大的伴奏殘留；并且，通過NNMF算法從歌曲的單聲道信號中提取出人聲成分，能夠考慮到相似幀信號之間的頻率分布特點，充分利用伴奏具有很強的周期性而人聲富于變化性特征來提取人聲成分，避免了以單獨的頻點對的頻率分布特點來提取人聲時給人聲成分帶來的損傷，適用范圍廣，提取出的人聲成分效果較好，能夠滿足高品質(zhì)人聲的提取要求。
[0107]實施例二
[0108]參見圖2，本發(fā)明實施例提供了一種音頻信號的處理方法，該方法流程包括:
[0109]步驟201:將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，該第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分。
[0110]一般地，歌曲包括單聲道歌曲和雙聲道歌曲。歌曲的單聲道信號為，單聲道歌曲的單聲道信號或雙聲道歌曲的左/右聲道信號。[0111]其中，諧波類樂聲成分和敲擊類樂聲成分構(gòu)成歌曲中樂器演奏的伴奏成分。諧波類樂聲成分包括鋼琴一類的樂器發(fā)出的聲音，敲擊類樂聲成分包括鼓音和敲打音。
[0112]可選地，可以采用FFT將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號。該FFT的米樣率可以為44.1KHz,幀長不小于8192點，幀移可以是幀長的二分之一。例如，針對采樣率為44.1kHz的歌曲，采用8192點(185.7ms)幀長，4096點幀移，做FFT，將時域轉(zhuǎn)換成頻域，得到二維的“時頻帶”信息。第一頻域信號中，諧波類樂聲成分與敲擊類樂聲成分在頻譜特征上有顯著差異，而敲擊類樂聲成分與人聲成分的頻譜特征接近。
[0113]步驟202:采用HPSS算法從第一頻域信號中分離出第二頻域信號。
[0114]其中，由于HPSS算法可以實現(xiàn)頻譜差異大的信號之間的分離，因此，可以采用HPSS算法分離出歌曲中諧波類樂聲成分。需要注意的是，基于HPSS算法本身的特性，在步驟201中，進行FFT的幀長必須較大(不小于8192點)，這樣分離出的敲擊類樂聲成分和人聲成分比較干凈。同時，為了兼顧運算量，進行FFT的幀移不宜太大(選取幀長的二分之一)。
[0115]其中，第二頻域信號包括敲擊類樂聲成分和人聲成分?？蛇x地，步驟202包括: [0116]步驟2021:對第一頻域信號中每個頻點取幅值，得到第一矩陣。
[0117]其中，第一頻域信號為二維的“時頻帶”信息，假設該“時頻帶”信息為X (F，N)，N為時間維度的幀數(shù)，F(xiàn)為頻域維度的頻帶數(shù)(等于幀長)。X (F，N)中每個元素(對應頻域信號中每個頻點)用復數(shù)表示，包含了第一頻域信號中每個頻點的幅值和相位信息。
[0118]假設對X (F，N)中每個頻點取幅值后得到的第一矩陣為XX (F，N)。
[0119]步驟2022:對第一矩陣中每一列進行中值濾波，得到第二矩陣；并對第一矩陣中每一行進行中值濾波，得到第三矩陣。
[0120]以對第一矩陣中每一列進行中值濾波為例，介紹中值濾波的過程。其中，第一矩陣中每一列為F維向量。假設第一矩陣的第k列為向量X (k),x (k)= (X (kl),x (k2),…，x (kF))，x (k)進行中值濾波后輸出為F維向量y (k)，y (k)表示第二矩陣的第k列，y(k) = (y (kl), y (k2),..., y (kF)),且
[0121]y (k)=median{x (k_l:k+l), 1= (order-1) /2}, k=l, F ;median 表不取中位數(shù)；order為階數(shù)，可以是17。
[0122]假設第二矩陣為H (F，N)，第三矩陣為P (F，N)。
[0123]步驟2023:根據(jù)第二矩陣和第三矩陣，通過以下公式(1)，從第一頻域信號分離出
第二頻域信號。
[0124]((Ρ.*Ρ)./ ((Η.*Η)+ (Ρ.*Ρ))).*Χ (I)
[0125]其中，H表示第二矩陣，P表示第三矩陣，X表示第一矩陣，./表示點除運算，.*表示點乘運算，即矩陣按元素相乘。
[0126]從第一頻域信號分離出諧波類樂聲成分信號，諧波類樂聲成分信號可以表示為，((Η.*Η)./ ((Η.*Η)+ (Ρ.*Ρ))).*Χ。
[0127]步驟203:采用快速傅里葉反變換將第二頻域信號從頻域轉(zhuǎn)換成時域，再采用FFT進行時域到頻域的轉(zhuǎn)換，得到重復轉(zhuǎn)換的第二頻域信號。
[0128]可選地，得到重復轉(zhuǎn)換的第二頻域信號所采用的FFT的采樣率為44.ΙΚΗζ，幀長不大于4096點，幀移可以是幀長的四分之一。例如，針對采樣率為44.1KHz的第二頻域信號，采用4096點(92.8ms)幀長，1024點幀移，做FFT，將第二頻域信號從時域轉(zhuǎn)換成頻域，得到二維的“時頻帶”信息。
[0129]需要說明的是，在本發(fā)明實施例中，步驟203為可選步驟。在其他實施例中，在步驟202執(zhí)行完后，可以直接執(zhí)行步驟204，即采用NNMF算法從第二頻域信號中提取出人聲成分。
[0130]步驟204:采用NNMF算法從重復轉(zhuǎn)換的第二頻域信號中提取出人聲成分。
[0131]可選地，步驟204包括:
[0132]步驟2041:對重復轉(zhuǎn)換的第二頻域信號中每個頻點取幅值。
[0133]其中，重復轉(zhuǎn)換的第二頻域信號為二維的“時頻帶”信息，假設重復轉(zhuǎn)換的第二頻域信號為PP (F，N)，對PP (F，N)中每個頻點取幅值后得到第四矩陣Z (F，N)，N為時間維度的幀數(shù)，F(xiàn)為頻域維度的頻帶數(shù)(F可以為幀長的一半)。 [0134]步驟2042:遍歷重復轉(zhuǎn)換的第二頻域信號中每一幀信號，計算每一幀信號分別與重復轉(zhuǎn)換的第二頻域信號中除每一幀信號外的其他幀信號之間的相似度。
[0135]其中，可以用第五矩陣來表示每一幀信號分別與重復轉(zhuǎn)換的第二頻域信號中除每一幀信號外的其他幀信號之間的相似度。第五矩陣為N*N維的對稱矩陣，第五矩陣的對角元素設置為O (表示每一幀信號與自身的相似度)，除了對角元素外，第五矩陣的行或列按照幀的順序放置每幀信號與重復轉(zhuǎn)換的第二頻域信號中除每一幀信號外的其他幀信號之間的相似度。假設第五矩陣為D，D中第k列第I行的元素為D (k，l)，k或1=1，…，N;則有，
[0136]D (k，I) = (Z (:，k)_Z (:，I))2,
[0137]Z (:，k)表示第四矩陣中第k列元素(包含了第k幀信號的頻域信息)，Z (: ,1)表示第四矩陣中第I列元素。D (k，I)表示第四矩陣中第k列元素與第I列元素之間的相似度。容易知道的是，相似度越高，D (k，I)的值越小。
[0138]步驟2043:根據(jù)計算出的每一幀信號分別與重復轉(zhuǎn)換的第二頻域信號中除每一幀信號外的其他幀信號之間的相似度，獲取重復轉(zhuǎn)換的第二頻域信號的頻域譜估計。
[0139]可選地，步驟2043包括:首先，根據(jù)相似度，獲取每一幀信號的預定數(shù)量的相似幀信號，該相似幀信號與每一幀信號的相似度大于相似度中除去相似幀信號與每一幀信號的相似度外的其他相似度。具體地，可以將計算出的每一幀信號與不同幀信號之間的相似度按降序排列，并選擇預定數(shù)量的排列在前面的相似度。該相似幀信號與每一幀信號的相似度為選擇出的預定數(shù)量的排列在前面的相似度。然后，根據(jù)預定數(shù)量的相似幀信號，計算每一幀信號的頻域譜估計，每一幀信號中每個頻點的頻域譜估計為，為每一幀信號確定出的預定數(shù)量的相似幀信號中所有相應頻點的中值。最后，將計算出的每一幀信號的頻域譜估計構(gòu)成重復轉(zhuǎn)換的第二頻域信號的頻域譜估計。
[0140]例如，假設遍歷的當前幀為第i幀，預定數(shù)量為20。首先，將第五矩陣(第二頻域信號中每一幀信號與重復轉(zhuǎn)換的第二頻域信號中除每一幀信號外的其他幀信號之間的相似度)中第i列數(shù)據(jù)從小到大進行排序(數(shù)據(jù)越小相似度越高)，獲取前20個相似度。前20個相似度的行號對應第四矩陣(重復轉(zhuǎn)換的第二頻域信號中每個頻點取幅值后得到的矩陣)中與第i幀相似度最大的20幀的列號。其次，從第四矩陣中提取該20幀信號，形成第六矩陣。第六矩陣中每一行頻點對應第i幀的每一行頻點。然后，對第六矩陣每一行頻點取中值，得到第i幀的頻域譜估計。
[0141]假設重復轉(zhuǎn)換的第二頻域信號的頻域譜估計為第七矩陣Y (F，N)。[0142]步驟2044:通過以下公式(2)，計算重復轉(zhuǎn)換的第二頻域信號與重復轉(zhuǎn)換的第二頻域信號的頻域譜估計之間相應頻點對的指數(shù)歸一化互相關值的差值，并通過以下公式(3)，根據(jù)該差值計算敲擊類樂聲成分信號的權重。
【權利要求】
1.一種音頻信號的處理方法，其特征在于，所述方法包括: 將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，所述第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分；采用諧波類/敲擊類音樂分離HPSS算法從所述第一頻域信號中分離出第二頻域信號，所述第二頻域信號包括所述諧波類樂聲成分和所述人聲成分；采用最相似相鄰幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分。
2.根據(jù)權利要求1所述的方法，其特征在于，所述采用諧波類/敲擊類音樂分離HPSS算法從所述第一頻域信號中分離出第二頻域信號，包括: 對所述第一頻域信號中每個頻點取幅值，得到第一矩陣；對所述第一矩陣中每一列進行中值濾波，得到第二矩陣；對所述第一矩陣中每一行進行中值濾波，得到第三矩陣；根據(jù)所述第二矩陣和所述第三矩陣，通過以下公式，從所述第一頻域信號中分離出所述第二頻域信號；
((Ρ.*Ρ)./ ((Η.*Η)+ (Ρ.*Ρ))).*Χ H表示所述第二矩陣，P表示所述第三矩陣，X表示所述第一矩陣，./表示點除運算，.*表示點乘運算。
3.根據(jù)權利要求1或2所述的方法，其特征在于，所述將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，包括: 采用快速傅里葉變換FFT將所述歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到所述第一頻域信號；所述FFT的采樣率為44.ΙΚΗζ，幀長不小于8192點，幀移為所述幀長的一半。
4.根據(jù)權利要求1至3任一所述的方法，其特征在于，所述在采用最相似相鄰幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分之前，還包括: 采用快速傅里葉反變換將所述第二頻域信號從頻域轉(zhuǎn)換成時域，再采用FFT進行時域到頻域的轉(zhuǎn)換，得到重復轉(zhuǎn)換的第二頻域信號；得到所述重復轉(zhuǎn)換的第二頻域信號所采用的FFT的采樣率為44.1KHz，幀長不大于4096點，幀移為得到所述重復轉(zhuǎn)換的第二頻域信號采用的FFT的幀長的四分之一；所述采用最相似相鄰幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分，包括: 采用NNMF算法從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分。
5.根據(jù)權利要求4所述的方法，其特征在于，所述采用NNMF算法從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分，包括: 對所述重復轉(zhuǎn)換的第二頻域信號中每個頻點取幅值；遍歷所述重復轉(zhuǎn)換的第二頻域信號中每一幀信號，計算每一幀信號分別與所述重復轉(zhuǎn)換的第二頻域信號中除所述每一幀信號外的其他幀信號之間的相似度；根據(jù)所述相似度，獲取所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計；通過以下公式，計算所述重復轉(zhuǎn)換的第二頻域信號與所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計之間相應頻點對的指數(shù)歸一化互相關值的差值，
6.根據(jù)權利要求5所述的方法，其特征在于，所述根據(jù)相似度，獲取所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計，包括: 根據(jù)所述相似度，獲取所述每一幀信號的預定數(shù)量的相似幀信號；根據(jù)所述預定數(shù)量的相似幀信號，計算所述每一幀信號的頻域譜估計；將計算出的所述每一幀信號的頻域譜估計構(gòu)成所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計。
7.根據(jù)權利要求5所述的方法，其特征在于，所述根據(jù)所述敲擊類樂聲成分的權重，從所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分后，還包括: 通過以下公式，從所述重復轉(zhuǎn)換的第二頻域信號中分離出所述敲擊類樂聲成分，
P2=ff.*PP P2表不所述敲擊類樂聲成分。
8.根據(jù)權利要求7所述的方法，其特征在于，所述從所述重復轉(zhuǎn)換的第二頻域信號中分尚出所述敲擊類樂聲成分后，還包括: 從所述第一頻域信號分離出所述諧波類樂聲成分；將所述分離出的所述諧波類樂聲成分從頻域轉(zhuǎn)換成時域，將所述敲擊類樂聲成分從頻域轉(zhuǎn)換成時域，并對轉(zhuǎn)換后的諧波類樂聲成分和轉(zhuǎn)換后的敲擊類樂聲成分進行合成，得到伴奏成分。
9.一種音頻信號的處理裝置，其特征在于，所述裝置包括: 轉(zhuǎn)換單元，用于將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，所述第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分；分離單元，用于采用諧波類/敲擊類音樂分離HPSS算法從所述轉(zhuǎn)換單元得到的第一頻域信號中分離出所述第二頻域信號，所述第二頻域信號包括所述類樂聲成分和所述人聲成分；提取單元，用于采用最相似鄰近幀間的中值濾波NNMF算法從所述分離單元分離出的第二頻域信號中提取出所述人聲成分。
10.根據(jù)權利要求9所述的裝置，其特征在于，所述分離單元具體用于: 對所述轉(zhuǎn)換單元得到的第一頻域信號中每個頻點取幅值，得到第一矩陣；對所述第一矩陣中每一列進行中值濾波，得到第二矩陣，并對所述第一矩陣中每一行進行中值濾波，得到第三矩陣；根據(jù)所述第二矩陣和所述第三矩陣，通過以下公式，從所述第一頻域信號中分離出所述第二頻域信號；
11.根據(jù)權利要求9或10所述的裝置，其特征在于，所述轉(zhuǎn)換單元具體用于: 采用快速傅里葉變換FFT將所述歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到所述第一頻域信號；所述FFT的采樣率為44.ΙΚΗζ，幀長不小于8192點，幀移為所述幀長的一半。
12.根據(jù)權利要求9-11任一所述的裝置，其特征在于，所述分離單元還用于: 采用快速傅里葉反變換將所述第二頻域信號從頻域轉(zhuǎn)換成時域，再采用FFT進行時域到頻域的轉(zhuǎn)換，得到重復轉(zhuǎn)換的第二頻域信號；得到所述重復轉(zhuǎn)換的第二頻域信號所采用的FFT的采樣率為44.1KHz，幀長不大于4096點，幀移為得到所述重復轉(zhuǎn)換的第二頻域信號采用的FFT的幀長的四分之一；所述轉(zhuǎn)換單元具體用于: 采用所述NNMF算法從所述分離單元得到的所述重復轉(zhuǎn)換的第二頻域信號中提取出所述人聲成分。
13.根據(jù)權利要求12所述的裝置，其特征在于，所述提取單元包括: 第一獲取子單元，用于對所述分離單元得到的所述重復轉(zhuǎn)換的第二頻域信號中每個頻點取幅值；第一計算子單元，用于遍歷所述重復轉(zhuǎn)換的第二頻域信號中每一幀信號，計算每一幀信號分別與所述重復轉(zhuǎn)換的第二頻域信號中除所述每一幀信號外的其他幀信號之間的相似度；第二獲取子單元，用于根據(jù)所述第一計算子單元計算出的相似度，獲取所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計；第二計算子單元，用于通過以下公式，計算所述重復轉(zhuǎn)換的第二頻域信號與所述第二獲取子單元獲取的所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計之間相應頻點對的指數(shù)歸
14.根據(jù)權利要求13所述的裝置，其特征在于，所述第二獲取子單元具體用于: 根據(jù)所述相似度，獲取所述每一幀信號的預定數(shù)量的相似幀信號；根據(jù)所述預定數(shù)量的相似幀信號，計算所述每一幀信號的頻域譜估計；將計算出的所述每一幀信號的頻域譜估計構(gòu)成所述重復轉(zhuǎn)換的第二頻域信號的頻域譜估計。
15.根據(jù)權利要求13所述的裝置，其特征在于，所述提取單元還用于: 通過以下公式，從所述分離單元得到的所述重復轉(zhuǎn)換的第二頻域信號中分離出所述敲擊類樂聲成分，
P2=ff.*PP` P2表不所述敲擊類樂聲成分。
16.根據(jù)權利要求15所述的裝置，其特征在于，所述裝置還包括: 合成單元，用于從所述轉(zhuǎn)換單元得到的第一頻域信號分離出所述諧波類樂聲成分；將分離出的所述敲擊類樂聲成分從頻域轉(zhuǎn)換成時域，將所述敲擊類樂聲成分從頻域轉(zhuǎn)換成時域，并對轉(zhuǎn)換后的諧波類樂聲成分和轉(zhuǎn)換后的敲擊類樂聲成分進行合成，得到伴奏成分。
17.一種音頻信號的處理設備，其特征在于，所述設備包括處理器和存儲器，所述處理器用于執(zhí)行如下指令: 將歌曲的單聲道信號從時域轉(zhuǎn)換成頻域，得到第一頻域信號，所述第一頻域信號包括諧波類樂聲成分、敲擊類樂聲成分和人聲成分；采用諧波類/敲擊類音樂分離HPSS算法從所述第一頻域信號中分離出第二頻域信號，所述第二頻域信號包括所述敲擊類樂聲成分和所述人聲信號成分；采用最相似鄰近幀間的中值濾波NNMF算法從所述第二頻域信號中提取出所述人聲成分。
【文檔編號】G10L25/78GK103680517SQ201310587304
【公開日】2014年3月26日申請日期:2013年11月20日優(yōu)先權日:2013年11月20日
【發(fā)明者】徐德著, 顧鳳香, 趙翔宇申請人:華為技術有限公司

完整全部詳細技術資料下載