本發(fā)明涉及歌唱領(lǐng)域的音頻信號處理方法,特別是涉及一種人聲音色的定量表征方法。
背景技術(shù):
美國國家標準化研究所對音色做了如下定義,“音色是指聲音在聽覺上產(chǎn)生的某種屬性,聽音者能夠據(jù)此判斷兩個以同樣方式呈現(xiàn)、具有相同音高和響度的聲音的不同”。由此,演唱時的人聲音色是指當不同的演唱者演唱同一首歌曲時,人們用來判別出具體是哪個演唱者的聲音特征。
聲學實驗中常用聲譜圖進行聲音的分析。聲譜圖可以顯示幅度隨頻率和時間變化的特性,縱坐標代表頻率,橫坐標代表時間,幅度的大小用灰顏色的深淺表示或用光譜的不同顏色表示。從聲譜圖的角度來看,決定音色的因素是泛音的存在與否以及它們的相對強弱。
一直以來有大量的學者對聲音信號處理進行研究,希望能夠參照音高和響度,建立音色定量的、客觀的表征指標,但時至今日,音色的評價更多地依然停留在定性的、主觀的評價階段,仍未能對音色進行有效的建模及量化,沒有構(gòu)建一個定量的度量體系。因此,音色的特征表征、度量指標和相似度度量等方面有待繼續(xù)研究。
目前對于音色的研究主要包括樂器的分類與識別及歌手識別等,主要通過各類音色物理特征及分類模型實現(xiàn)。常見的音色分類的物理特征可以分為時域特征,頻域特征及倒頻域特征三大類。
時域特征:時域特征反應(yīng)聲音的動態(tài)變化。不同音頻信號的時域包絡(luò)都各不相同。為了全面分析樂音,可分為起振、穩(wěn)態(tài)和衰減三個階段。起振指樂音從無到有的開始部分,穩(wěn)態(tài)是樂音的主要部分,衰減指樂音從有到無的結(jié)束部分。樂音的起振和衰減部分持續(xù)時間大概是幾十毫秒,但是起振階段對音色的區(qū)分有著非常重要的作用。
頻域特征:頻域分析的尺度不同將會得到不同的頻譜。常見的頻譜有stft譜及cqt譜。
1)stft譜的濾波器組中心頻率成線性上升,每個濾波器的帶寬不變,計算公式如下:
其中,x(n)是某一幀的語音信號,w(n)為加窗函數(shù)。
2)cqt通過中心頻率成指數(shù)分布的濾波器組,將樂音信號表示為確定音樂單音的譜能量,濾波器組的品質(zhì)因子q保持常數(shù)。cqt變換在低頻處具有較高的頻率分辨率、較低的時間分辨率,在高頻處具有較高的時間分辨率、較低的頻率分辨率。樂音信號的低頻部分的信息往往更有價值,cqt變換能很好的符合這個特點。
倒頻域特征:mel頻率倒譜系數(shù)(melfrequencycepstrumcoefficient,mfcc)是基于人的聽覺感知模型提出的,在樂音、語音分類識別等領(lǐng)域中被證明是最重要的特征之一,人對頻域的主觀感知劃定是非線性的,即fmel=1125log(1+f/700),fmel是以美爾為單位的感知頻率,f是以赫茲為單位的實際頻率。將信號頻譜轉(zhuǎn)換到感知域可以很好的模擬聽覺處理的過程。計算mfcc時,先對信號進行分幀、加窗、預(yù)加重的預(yù)處理,然后把每幀信號進行fft變換變成頻域數(shù)據(jù)后,計算譜線能量,把每幀信號的譜線能量通過mel濾波器,計算在該濾波器中的能量。把通過mel濾波器的譜線能量取對數(shù)后計算dct,即得到mfcc。
盡管現(xiàn)有的人聲音色相關(guān)的研究可以比較有效地解決一些歌手識別問題,但是沒有定量的對人聲音色進行描述。因此,本專利基于上述分析,訓練深度卷積神經(jīng)網(wǎng)絡(luò)并構(gòu)建相應(yīng)的人聲音色嵌入空間,在音色嵌入空間中對音色進行定量的表征。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的是提供一種人聲音色的定量表征方法,對業(yè)余歌手演唱歌曲時的音色進行分析。
本發(fā)明采用以下方案實現(xiàn):一種人聲音色的定量表征方法,包括如下步驟:
步驟s1:獲取專業(yè)歌手演唱歌曲時的清唱音頻;
步驟s2:構(gòu)建三維的人聲音色嵌入空間r;
步驟s3:分析業(yè)余歌手的清唱音頻,并在人聲音色嵌入空間r中定量的表征該業(yè)余歌手的音色。
進一步地,所述步驟s2具體包括以下步驟:
步驟s21:采用常數(shù)q變換方法分析來自15個專業(yè)歌手的共計75個的清唱音頻,其中每個專業(yè)歌手有5個清唱音頻,計算音頻中每一幀的cqt系數(shù),cqt系數(shù)為192維;
步驟s22:選取60幀音頻,將這60個音頻幀的cqt系數(shù)構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣,矩陣大小為60*192;
步驟s23:構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),把60個音頻幀的cqt系數(shù)矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò),并對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練;
步驟s231:按照如下結(jié)構(gòu)構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò):
第一層為卷積層,使用20個卷積核,尺寸為(1,5,13),max-pooling為(2,2),輸入為60*192大小的矩陣,激活函數(shù)采用雙曲正切函數(shù);
第二層為卷積層,使用40個卷積核,尺寸為(20,5,11),max-pooling為(2,2),激活函數(shù)采用雙曲正切函數(shù);
第三層為卷積層,使用80個卷積核,尺寸為(1,1,9),max-pooling為(2,2),激活函數(shù)采用雙曲正切函數(shù);
第四層為全連接層,有256個輸出節(jié)點,激活函數(shù)采用雙曲正切函數(shù);
第五層為全連接層,有3個輸出節(jié)點,激活函數(shù)采用線性函數(shù),輸出為3維向量;
步驟s232:將步驟s22中得到的輸入矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò),采用成對訓練的方法對網(wǎng)絡(luò)進行迭代訓練,得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的音色嵌入空間r。
進一步地,所述步驟s21具體為:對專業(yè)歌手的清唱音頻進行分幀,幀長為4096個采樣點,幀移長度為半幀,窗函數(shù)選用漢明窗,再通過判斷每個音頻幀的短時能量是否低于某個閾值,來去除靜音幀,將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分,公式如下:
其中,nk為窗長,
進一步地,所述步驟s232具體為:將步驟s22中得到的輸入矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò),并采用成對訓練的方法對網(wǎng)絡(luò)進行迭代訓練,得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的音色嵌入空間r,成對訓練的兩個數(shù)據(jù)x1,x2分別輸入兩個獨立的神經(jīng)網(wǎng)絡(luò)ga和gb,兩個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一致且參數(shù)一致,ga和gb的輸出分別為z1和z2,將成本函數(shù)定義為z1和z2之間的歐幾里得距離d:
d=||z1-z2||2
根據(jù)兩個輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽相同與否,設(shè)置不同的損失函數(shù):
其中,md是一個常數(shù),與人聲音色嵌入空間的范圍有關(guān)。
進一步地,當所述md=10時,兩個輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽相同時的損失函數(shù)為lsim,當兩個輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽不同時的損失函數(shù)為ldis,通過輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽的相似性,合并兩個不同的損失函數(shù),合并后的損失函數(shù)如下式所示:
loss=v*lsim+(1-v)*ldis
其中,v的取值由下式?jīng)Q定:
網(wǎng)絡(luò)的學習率設(shè)為0.02,最大迭代次數(shù)設(shè)為30000。
進一步地,所述步驟s3具體包括以下步驟:
步驟s31:采用常數(shù)q變換方法分析業(yè)余歌手的清唱音頻,計算音頻中每一幀的cqt系數(shù),cqt系數(shù)為192維;
步驟s32:選取60個音頻幀的cqt系數(shù),構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣,大小為60*192;
步驟s33:把步驟s32中構(gòu)建的輸入矩陣輸入到步驟s23中訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)的輸出是對應(yīng)的音色嵌入空間r中的3維音色特征向量。
進一步地,所述步驟s31具體為:對業(yè)余歌手的清唱音頻文件進行分幀,幀長為4096個采樣點,幀移長度選為半幀,窗函數(shù)選用漢明窗,再通過判斷每個音頻幀的短時能量是否低于某個閾值,來去除靜音幀,將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分,公式如下:
其中,nk為窗長,
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點:該方法通過對專業(yè)歌手演唱歌曲時的清唱音頻進行預(yù)處理,具體包括分幀、加窗及去除靜音幀,再對得到的時域音頻幀進行cqt計算并分析,得到每幀的cqt系數(shù)。選定60個音頻幀的cqt系數(shù)組成深度卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣,用成對訓練的方式訓練深度卷積神經(jīng)網(wǎng)絡(luò),得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的人聲音色嵌入空間,在音色嵌入空間中,可實現(xiàn)對人聲音色的定量表征。對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練時,每兩個輸入cqt系數(shù)矩陣為一組,構(gòu)成一個訓練數(shù)據(jù)(當兩個cqt系數(shù)矩陣屬于同一專業(yè)歌手時,此訓練數(shù)據(jù)的標簽為1;當兩個cqt系數(shù)矩陣不屬于同一專業(yè)歌手時,此訓練數(shù)據(jù)的標簽為0),由于訓練數(shù)據(jù)的標簽是標稱的,因此深度卷積神經(jīng)網(wǎng)絡(luò)采用“siamese結(jié)構(gòu)”,并基于一個訓練數(shù)據(jù)中的兩個cqt系數(shù)矩陣間的關(guān)系來訓練網(wǎng)絡(luò),即成對訓練的方法,有效的避免了需要先驗的確定輸出的問題。
附圖說明
圖1是本發(fā)明的方法流程示意框圖。
圖2是本發(fā)明的實施例中應(yīng)用的深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。
具體實施方式
下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。
本實施例提供一種人聲音色的定量表征方法,如圖1所示包括如下步驟:
步驟s1:獲取專業(yè)歌手演唱歌曲時的清唱音頻;
步驟s2:構(gòu)建三維的人聲音色嵌入空間r;
步驟s3:分析業(yè)余歌手的清唱音頻,并在人聲音色嵌入空間r中定量的表征該業(yè)余歌手的音色。
在本實施例中,所述步驟s2具體包括以下步驟:
步驟s21:采用常數(shù)q變換方法(cqt)分析來自15個專業(yè)歌手的共計75個(每個專業(yè)歌手有5個清唱音頻)清唱音頻,計算音頻中每一幀的cqt系數(shù)(192維);
步驟s22:選取60幀音頻,將這60個音頻幀的cqt系數(shù)(cqt系數(shù)為192維)構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣,矩陣大小為60*192;
步驟s23:構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),把60個音頻幀的cqt系數(shù)矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò),并對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練;
步驟s231:按照如下結(jié)構(gòu)構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò):
第一層(卷積層)使用20個卷積核,尺寸為(1,5,13),max-pooling為(2,2),輸入為60*192大小的矩陣,激活函數(shù)采用雙曲正切函數(shù);
第二層(卷積層)使用40個卷積核,尺寸為(20,5,11),max-pooling為(2,2),激活函數(shù)采用雙曲正切函數(shù);
第三層(卷積層)使用80個卷積核,尺寸為(1,1,9),max-pooling為(2,2),激活函數(shù)采用雙曲正切函數(shù);
第四層(全連接層)有256個輸出節(jié)點,激活函數(shù)采用雙曲正切函數(shù);
第五層(全連接層)有3個輸出節(jié)點,激活函數(shù)采用線性函數(shù),輸出為3維向量;
步驟s232:將步驟s22中得到的輸入矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò),采用成對訓練的方法對網(wǎng)絡(luò)進行迭代訓練,得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的音色嵌入空間r。
在本實施例中,所述步驟s3具體包括以下步驟:
步驟s31:采用常數(shù)q變換方法(cqt)分析業(yè)余歌手的清唱音頻,計算音頻中每一幀的cqt系數(shù)(192維);
步驟s32:選取60個音頻幀的cqt系數(shù),構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣(大小為60*192);
步驟s33:把步驟s32中構(gòu)建的輸入矩陣輸入到步驟s23中訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)的輸出是對應(yīng)的音色嵌入空間r中的3維音色特征向量。
在本實施例中,以包含15個專業(yè)歌手的清唱音頻樂曲庫為例,根據(jù)以上方法給出實例,具體包括以下步驟:
步驟1:獲取專業(yè)歌手演唱歌曲時的清唱音頻。樂曲庫中包含15個專業(yè)歌手,每個歌手對應(yīng)5個清唱音頻,音頻格式為wav,采樣精度為16bit,采樣率為16khz。
步驟2:構(gòu)建三維的人聲音色嵌入空間r,具體步驟如下:
步驟21:對專業(yè)歌手的清唱音頻進行分幀,幀長為4096個采樣點,幀移長度為半幀,窗函數(shù)選用漢明窗,再通過判斷每個音頻幀的短時能量是否低于某個閾值,來去除靜音幀,將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分,公式如下:其中nk為窗長,
步驟22:每一幀的cqt系數(shù)為192維,選取60幀的cqt系數(shù),構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣,矩陣大小為60*192。
步驟23:構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),把60個音頻幀的cqt系數(shù)矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò),并對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練,具體步驟如下:
步驟231:按照如下結(jié)構(gòu)構(gòu)建如圖2所示的深度卷積神經(jīng)網(wǎng)絡(luò):
第一層(卷積層)使用20個卷積核,尺寸為(1,5,13),max-pooling為(2,2),輸入為60*192大小的矩陣,激活函數(shù)采用雙曲正切函數(shù);
第二層(卷積層)使用40個卷積核,尺寸為(20,5,11),max-pooling為(2,2),激活函數(shù)采用雙曲正切函數(shù);
第三層(卷積層)使用80個卷積核,尺寸為(1,1,9),max-pooling為(2,2),激活函數(shù)采用雙曲正切函數(shù);
第四層(全連接層)有256個輸出節(jié)點,激活函數(shù)采用雙曲正切函數(shù);
第五層(全連接層)有3個輸出節(jié)點,激活函數(shù)采用線性函數(shù),輸出為3維向量;
步驟232:將步驟22中得到的輸入矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò),并采用成對訓練的方法對網(wǎng)絡(luò)進行迭代訓練,得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的音色嵌入空間r,成對訓練的兩個數(shù)據(jù)x1,x2分別輸入兩個獨立的神經(jīng)網(wǎng)絡(luò)ga和gb,兩個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一致且參數(shù)一致,ga和gb的輸出分別為z1和z2,將成本函數(shù)定義為z1和z2之間的歐幾里得距離d。
d=||z1-z2||2
根據(jù)兩個輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽相同與否,設(shè)置不同的損失函數(shù)。
其中md是一個常數(shù),與人聲音色嵌入空間的范圍有關(guān),在本實施例中,md=10。當兩個輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽相同時的損失函數(shù)為lsim,當兩個輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽不同時的損失函數(shù)為ldis。通過輸入數(shù)據(jù)x1,x2對應(yīng)的人聲標簽的相似性,合并兩個不同的損失函數(shù)。合并后的損失函數(shù)如下式所示:
loss=v*lsim+(1-v)*ldis
其中,v的取值由下式?jīng)Q定:
網(wǎng)絡(luò)的學習率設(shè)為0.02,最大迭代次數(shù)設(shè)為30000。
步驟3:分析業(yè)余歌手的清唱音頻,并在人聲音色嵌入空間r中定量的表征該業(yè)余歌手的音色。具體步驟如下:
步驟31:對業(yè)余歌手的清唱音頻文件進行分幀,幀長為4096個采樣點,幀移長度選為半幀,窗函數(shù)選用漢明窗,再通過判斷每個音頻幀的短時能量是否低于某個閾值,來去除靜音幀,將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分,公式如下:其中nk為窗長,
步驟32:每一幀的cqt系數(shù)為192維,選取60幀的cqt系數(shù),構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣,矩陣大小為60*192。
步驟33:把步驟32中構(gòu)建的大小為60*192的輸入矩陣輸入到步驟23中訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)的輸出是對應(yīng)人聲音色嵌入空間中的3維的音色特征向量;
以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等變化與修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。