人聲音色的定量表征方法與流程

文檔序號：11628128閱讀：1419來源：國知局

本發(fā)明涉及歌唱領(lǐng)域的音頻信號處理方法，特別是涉及一種人聲音色的定量表征方法。

背景技術(shù)：

美國國家標準化研究所對音色做了如下定義，“音色是指聲音在聽覺上產(chǎn)生的某種屬性，聽音者能夠據(jù)此判斷兩個以同樣方式呈現(xiàn)、具有相同音高和響度的聲音的不同”。由此，演唱時的人聲音色是指當不同的演唱者演唱同一首歌曲時，人們用來判別出具體是哪個演唱者的聲音特征。

聲學實驗中常用聲譜圖進行聲音的分析。聲譜圖可以顯示幅度隨頻率和時間變化的特性，縱坐標代表頻率，橫坐標代表時間，幅度的大小用灰顏色的深淺表示或用光譜的不同顏色表示。從聲譜圖的角度來看，決定音色的因素是泛音的存在與否以及它們的相對強弱。

一直以來有大量的學者對聲音信號處理進行研究，希望能夠參照音高和響度，建立音色定量的、客觀的表征指標，但時至今日，音色的評價更多地依然停留在定性的、主觀的評價階段，仍未能對音色進行有效的建模及量化，沒有構(gòu)建一個定量的度量體系。因此，音色的特征表征、度量指標和相似度度量等方面有待繼續(xù)研究。

目前對于音色的研究主要包括樂器的分類與識別及歌手識別等，主要通過各類音色物理特征及分類模型實現(xiàn)。常見的音色分類的物理特征可以分為時域特征，頻域特征及倒頻域特征三大類。

時域特征：時域特征反應(yīng)聲音的動態(tài)變化。不同音頻信號的時域包絡(luò)都各不相同。為了全面分析樂音，可分為起振、穩(wěn)態(tài)和衰減三個階段。起振指樂音從無到有的開始部分，穩(wěn)態(tài)是樂音的主要部分，衰減指樂音從有到無的結(jié)束部分。樂音的起振和衰減部分持續(xù)時間大概是幾十毫秒，但是起振階段對音色的區(qū)分有著非常重要的作用。

頻域特征：頻域分析的尺度不同將會得到不同的頻譜。常見的頻譜有stft譜及cqt譜。

1)stft譜的濾波器組中心頻率成線性上升，每個濾波器的帶寬不變，計算公式如下：

其中，x(n)是某一幀的語音信號，w(n)為加窗函數(shù)。

2)cqt通過中心頻率成指數(shù)分布的濾波器組，將樂音信號表示為確定音樂單音的譜能量，濾波器組的品質(zhì)因子q保持常數(shù)。cqt變換在低頻處具有較高的頻率分辨率、較低的時間分辨率，在高頻處具有較高的時間分辨率、較低的頻率分辨率。樂音信號的低頻部分的信息往往更有價值，cqt變換能很好的符合這個特點。

倒頻域特征：mel頻率倒譜系數(shù)(melfrequencycepstrumcoefficient，mfcc)是基于人的聽覺感知模型提出的，在樂音、語音分類識別等領(lǐng)域中被證明是最重要的特征之一，人對頻域的主觀感知劃定是非線性的，即fmel＝1125log(1+f/700)，fmel是以美爾為單位的感知頻率，f是以赫茲為單位的實際頻率。將信號頻譜轉(zhuǎn)換到感知域可以很好的模擬聽覺處理的過程。計算mfcc時，先對信號進行分幀、加窗、預(yù)加重的預(yù)處理，然后把每幀信號進行fft變換變成頻域數(shù)據(jù)后，計算譜線能量，把每幀信號的譜線能量通過mel濾波器，計算在該濾波器中的能量。把通過mel濾波器的譜線能量取對數(shù)后計算dct，即得到mfcc。

盡管現(xiàn)有的人聲音色相關(guān)的研究可以比較有效地解決一些歌手識別問題，但是沒有定量的對人聲音色進行描述。因此，本專利基于上述分析，訓練深度卷積神經(jīng)網(wǎng)絡(luò)并構(gòu)建相應(yīng)的人聲音色嵌入空間，在音色嵌入空間中對音色進行定量的表征。

技術(shù)實現(xiàn)要素：

有鑒于此，本發(fā)明的目的是提供一種人聲音色的定量表征方法，對業(yè)余歌手演唱歌曲時的音色進行分析。

本發(fā)明采用以下方案實現(xiàn)：一種人聲音色的定量表征方法，包括如下步驟：

步驟s1：獲取專業(yè)歌手演唱歌曲時的清唱音頻；

步驟s2：構(gòu)建三維的人聲音色嵌入空間r；

步驟s3：分析業(yè)余歌手的清唱音頻，并在人聲音色嵌入空間r中定量的表征該業(yè)余歌手的音色。

進一步地，所述步驟s2具體包括以下步驟：

步驟s21：采用常數(shù)q變換方法分析來自15個專業(yè)歌手的共計75個的清唱音頻，其中每個專業(yè)歌手有5個清唱音頻，計算音頻中每一幀的cqt系數(shù)，cqt系數(shù)為192維；

步驟s22：選取60幀音頻，將這60個音頻幀的cqt系數(shù)構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣，矩陣大小為60*192；

步驟s23：構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)，把60個音頻幀的cqt系數(shù)矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò)，并對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練；

步驟s231：按照如下結(jié)構(gòu)構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)：

第一層為卷積層，使用20個卷積核，尺寸為(1，5，13)，max-pooling為(2，2)，輸入為60*192大小的矩陣，激活函數(shù)采用雙曲正切函數(shù)；

第二層為卷積層，使用40個卷積核，尺寸為(20，5，11)，max-pooling為(2，2)，激活函數(shù)采用雙曲正切函數(shù)；

第三層為卷積層，使用80個卷積核，尺寸為(1，1，9)，max-pooling為(2，2)，激活函數(shù)采用雙曲正切函數(shù)；

第四層為全連接層，有256個輸出節(jié)點，激活函數(shù)采用雙曲正切函數(shù)；

第五層為全連接層，有3個輸出節(jié)點，激活函數(shù)采用線性函數(shù)，輸出為3維向量；

步驟s232：將步驟s22中得到的輸入矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò)，采用成對訓練的方法對網(wǎng)絡(luò)進行迭代訓練，得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的音色嵌入空間r。

進一步地，所述步驟s21具體為：對專業(yè)歌手的清唱音頻進行分幀，幀長為4096個采樣點，幀移長度為半幀，窗函數(shù)選用漢明窗，再通過判斷每個音頻幀的短時能量是否低于某個閾值，來去除靜音幀，將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分，公式如下：

其中，nk為窗長，表示窗函數(shù)。

進一步地，所述步驟s232具體為：將步驟s22中得到的輸入矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò)，并采用成對訓練的方法對網(wǎng)絡(luò)進行迭代訓練，得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的音色嵌入空間r，成對訓練的兩個數(shù)據(jù)x1，x2分別輸入兩個獨立的神經(jīng)網(wǎng)絡(luò)ga和gb，兩個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一致且參數(shù)一致，ga和gb的輸出分別為z1和z2，將成本函數(shù)定義為z1和z2之間的歐幾里得距離d：

d＝||z1-z2||2

根據(jù)兩個輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽相同與否，設(shè)置不同的損失函數(shù)：

其中，md是一個常數(shù)，與人聲音色嵌入空間的范圍有關(guān)。

進一步地，當所述md＝10時，兩個輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽相同時的損失函數(shù)為lsim，當兩個輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽不同時的損失函數(shù)為ldis，通過輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽的相似性，合并兩個不同的損失函數(shù)，合并后的損失函數(shù)如下式所示：

loss＝v*lsim+(1-v)*ldis

其中，v的取值由下式?jīng)Q定：

網(wǎng)絡(luò)的學習率設(shè)為0.02，最大迭代次數(shù)設(shè)為30000。

進一步地，所述步驟s3具體包括以下步驟：

步驟s31：采用常數(shù)q變換方法分析業(yè)余歌手的清唱音頻，計算音頻中每一幀的cqt系數(shù)，cqt系數(shù)為192維；

步驟s32：選取60個音頻幀的cqt系數(shù)，構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣，大小為60*192；

步驟s33：把步驟s32中構(gòu)建的輸入矩陣輸入到步驟s23中訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)中，神經(jīng)網(wǎng)絡(luò)的輸出是對應(yīng)的音色嵌入空間r中的3維音色特征向量。

進一步地，所述步驟s31具體為：對業(yè)余歌手的清唱音頻文件進行分幀，幀長為4096個采樣點，幀移長度選為半幀，窗函數(shù)選用漢明窗，再通過判斷每個音頻幀的短時能量是否低于某個閾值，來去除靜音幀，將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分，公式如下：

其中，nk為窗長，表示窗函數(shù)。

與現(xiàn)有技術(shù)相比，本發(fā)明具有如下優(yōu)點：該方法通過對專業(yè)歌手演唱歌曲時的清唱音頻進行預(yù)處理，具體包括分幀、加窗及去除靜音幀，再對得到的時域音頻幀進行cqt計算并分析，得到每幀的cqt系數(shù)。選定60個音頻幀的cqt系數(shù)組成深度卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣，用成對訓練的方式訓練深度卷積神經(jīng)網(wǎng)絡(luò)，得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的人聲音色嵌入空間，在音色嵌入空間中，可實現(xiàn)對人聲音色的定量表征。對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練時，每兩個輸入cqt系數(shù)矩陣為一組，構(gòu)成一個訓練數(shù)據(jù)(當兩個cqt系數(shù)矩陣屬于同一專業(yè)歌手時，此訓練數(shù)據(jù)的標簽為1；當兩個cqt系數(shù)矩陣不屬于同一專業(yè)歌手時，此訓練數(shù)據(jù)的標簽為0)，由于訓練數(shù)據(jù)的標簽是標稱的，因此深度卷積神經(jīng)網(wǎng)絡(luò)采用“siamese結(jié)構(gòu)”，并基于一個訓練數(shù)據(jù)中的兩個cqt系數(shù)矩陣間的關(guān)系來訓練網(wǎng)絡(luò)，即成對訓練的方法，有效的避免了需要先驗的確定輸出的問題。

附圖說明

圖1是本發(fā)明的方法流程示意框圖。

圖2是本發(fā)明的實施例中應(yīng)用的深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。

具體實施方式

下面結(jié)合附圖及實施例對本發(fā)明做進一步說明。

本實施例提供一種人聲音色的定量表征方法，如圖1所示包括如下步驟：

步驟s1：獲取專業(yè)歌手演唱歌曲時的清唱音頻；

步驟s2：構(gòu)建三維的人聲音色嵌入空間r；

步驟s3：分析業(yè)余歌手的清唱音頻，并在人聲音色嵌入空間r中定量的表征該業(yè)余歌手的音色。

在本實施例中，所述步驟s2具體包括以下步驟：

步驟s21：采用常數(shù)q變換方法(cqt)分析來自15個專業(yè)歌手的共計75個(每個專業(yè)歌手有5個清唱音頻)清唱音頻，計算音頻中每一幀的cqt系數(shù)(192維)；

步驟s22：選取60幀音頻，將這60個音頻幀的cqt系數(shù)(cqt系數(shù)為192維)構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣，矩陣大小為60*192；

步驟s231：按照如下結(jié)構(gòu)構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)：

第一層(卷積層)使用20個卷積核，尺寸為(1，5，13)，max-pooling為(2，2)，輸入為60*192大小的矩陣，激活函數(shù)采用雙曲正切函數(shù)；

第二層(卷積層)使用40個卷積核，尺寸為(20，5，11)，max-pooling為(2，2)，激活函數(shù)采用雙曲正切函數(shù)；

第三層(卷積層)使用80個卷積核，尺寸為(1，1，9)，max-pooling為(2，2)，激活函數(shù)采用雙曲正切函數(shù)；

第四層(全連接層)有256個輸出節(jié)點，激活函數(shù)采用雙曲正切函數(shù)；

第五層(全連接層)有3個輸出節(jié)點，激活函數(shù)采用線性函數(shù)，輸出為3維向量；

在本實施例中，所述步驟s3具體包括以下步驟：

步驟s31：采用常數(shù)q變換方法(cqt)分析業(yè)余歌手的清唱音頻，計算音頻中每一幀的cqt系數(shù)(192維)；

步驟s32：選取60個音頻幀的cqt系數(shù)，構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣(大小為60*192)；

在本實施例中，以包含15個專業(yè)歌手的清唱音頻樂曲庫為例，根據(jù)以上方法給出實例，具體包括以下步驟：

步驟1：獲取專業(yè)歌手演唱歌曲時的清唱音頻。樂曲庫中包含15個專業(yè)歌手，每個歌手對應(yīng)5個清唱音頻，音頻格式為wav，采樣精度為16bit，采樣率為16khz。

步驟2：構(gòu)建三維的人聲音色嵌入空間r，具體步驟如下：

步驟21：對專業(yè)歌手的清唱音頻進行分幀，幀長為4096個采樣點，幀移長度為半幀，窗函數(shù)選用漢明窗，再通過判斷每個音頻幀的短時能量是否低于某個閾值，來去除靜音幀，將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分，公式如下：其中nk為窗長，表示窗函數(shù)。

步驟22：每一幀的cqt系數(shù)為192維，選取60幀的cqt系數(shù)，構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣，矩陣大小為60*192。

步驟23：構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)，把60個音頻幀的cqt系數(shù)矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò)，并對深度卷積神經(jīng)網(wǎng)絡(luò)進行訓練，具體步驟如下：

步驟231：按照如下結(jié)構(gòu)構(gòu)建如圖2所示的深度卷積神經(jīng)網(wǎng)絡(luò)：

第一層(卷積層)使用20個卷積核，尺寸為(1，5，13)，max-pooling為(2，2)，輸入為60*192大小的矩陣，激活函數(shù)采用雙曲正切函數(shù)；

第二層(卷積層)使用40個卷積核，尺寸為(20，5，11)，max-pooling為(2，2)，激活函數(shù)采用雙曲正切函數(shù)；

第三層(卷積層)使用80個卷積核，尺寸為(1，1，9)，max-pooling為(2，2)，激活函數(shù)采用雙曲正切函數(shù)；

第四層(全連接層)有256個輸出節(jié)點，激活函數(shù)采用雙曲正切函數(shù)；

第五層(全連接層)有3個輸出節(jié)點，激活函數(shù)采用線性函數(shù)，輸出為3維向量；

步驟232：將步驟22中得到的輸入矩陣輸入深度卷積神經(jīng)網(wǎng)絡(luò)，并采用成對訓練的方法對網(wǎng)絡(luò)進行迭代訓練，得到訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)及相應(yīng)的音色嵌入空間r，成對訓練的兩個數(shù)據(jù)x1，x2分別輸入兩個獨立的神經(jīng)網(wǎng)絡(luò)ga和gb，兩個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一致且參數(shù)一致，ga和gb的輸出分別為z1和z2，將成本函數(shù)定義為z1和z2之間的歐幾里得距離d。

d＝||z1-z2||2

根據(jù)兩個輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽相同與否，設(shè)置不同的損失函數(shù)。

其中md是一個常數(shù)，與人聲音色嵌入空間的范圍有關(guān)，在本實施例中，md＝10。當兩個輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽相同時的損失函數(shù)為lsim，當兩個輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽不同時的損失函數(shù)為ldis。通過輸入數(shù)據(jù)x1，x2對應(yīng)的人聲標簽的相似性，合并兩個不同的損失函數(shù)。合并后的損失函數(shù)如下式所示：

loss＝v*lsim+(1-v)*ldis

其中，v的取值由下式?jīng)Q定：

網(wǎng)絡(luò)的學習率設(shè)為0.02，最大迭代次數(shù)設(shè)為30000。

步驟3：分析業(yè)余歌手的清唱音頻，并在人聲音色嵌入空間r中定量的表征該業(yè)余歌手的音色。具體步驟如下：

步驟31：對業(yè)余歌手的清唱音頻文件進行分幀，幀長為4096個采樣點，幀移長度選為半幀，窗函數(shù)選用漢明窗，再通過判斷每個音頻幀的短時能量是否低于某個閾值，來去除靜音幀，將得到的時域音頻幀經(jīng)以下公式計算得到第n幀信號的cqt譜的第k個成分，公式如下：其中nk為窗長，表示窗函數(shù)。

步驟32：每一幀的cqt系數(shù)為192維，選取60幀的cqt系數(shù)，構(gòu)成神經(jīng)網(wǎng)絡(luò)的輸入矩陣，矩陣大小為60*192。

步驟33：把步驟32中構(gòu)建的大小為60*192的輸入矩陣輸入到步驟23中訓練好的深度卷積神經(jīng)網(wǎng)絡(luò)中，神經(jīng)網(wǎng)絡(luò)的輸出是對應(yīng)人聲音色嵌入空間中的3維的音色特征向量；

以上所述僅為本發(fā)明的較佳實施例，凡依本發(fā)明申請專利范圍所做的均等變化與修飾，皆應(yīng)屬本發(fā)明的涵蓋范圍。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：余春艷;蘇金池;齊子銘;郭文忠
技術(shù)所有人：福州大學
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

油氣藏定量表征及預(yù)測相關(guān)技術(shù)

表征方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

人聲音色的定量表征方法與流程