一種基于音頻特征的數(shù)字音頻延展方法

文檔序號：2825229閱讀：313來源：國知局

專利名稱：一種基于音頻特征的數(shù)字音頻延展方法
技術領域：
本發(fā)明涉及音頻處理技術領域，特別是涉及ー種基于音頻特征的數(shù)字音頻延展方法。
背景技術：
隨著互聯(lián)網(wǎng)和多媒體技術的迅速發(fā)展，音樂已經(jīng)成為人們生活中不可或缺的組成部分。在現(xiàn)實生活中，我們經(jīng)常會遇到為某個場景添加背景音樂的情況，一般而言背景音樂的時長和用戶需求的時長并不相符。在改變音樂時長時，為了保證音樂的播放質(zhì)量，我們需要調(diào)整樂曲的結構。現(xiàn)有的調(diào)整樂曲結構的方法分均勻和非均勻兩種。其中均勻的調(diào)整樂曲結構的方法在音頻時域改變較大的情況下的效果并不理想。而非均勻的調(diào)整樂曲結構的方法往往僅考慮了用戶需求的時長小于數(shù)字音頻時長的情況。因此，需要本領域技術人員迫切解決的ー個技術問題就是如何能夠創(chuàng)新的提出有一種有效措施以克服現(xiàn)有技術存在的缺陷，滿足實際中用戶的需求。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題是提供一種基于音頻特征的數(shù)字音頻延展方法，用以保證樂曲在被延展后聽覺效果與原樂曲接近，不破壞樂曲的欣賞性。為了解決上述問題，本發(fā)明公開了ー種基于音頻特征的數(shù)字音頻延展方法，所述方法包括將原始數(shù)字音頻文件按照預設標準進行分段，得到以段落為單位記錄樂曲信息的數(shù)據(jù)；根據(jù)段落間的相似性對段落分類；選取合適的連續(xù)段落插入原樂曲，使其達到用戶需求時長的80%到120% ；對于插入后的樂曲，選取抗性符合預設需求的段落，對該段落進行長度的時域修改，并重復該步驟，直到達到用戶需求時長。優(yōu)選的，所述音頻文件是以采樣點來記錄樂曲信息。優(yōu)選的，所述方法還包括預設指定個數(shù)采樣點為ー幀，獲取以幀為単位記錄樂曲信息的數(shù)據(jù)。優(yōu)選的，所述方法還包括采用音頻處理工具提取音頻文件中各個幀的特征值。優(yōu)選的，所述段落間相似性的度量以兩個段落內(nèi)所有幀的特征值組成的向量的距離為依據(jù)。優(yōu)選的，定義抗性為對樂曲進行時域修改(延展或者壓縮)后樂曲效果的變化，抗性好則表示對樂曲進行時域修改后樂曲效果變化小。與現(xiàn)有技術相比，本發(fā)明具有以下優(yōu)點本發(fā)明涉及一種基于音頻特征的數(shù)字音頻延展方法，在數(shù)字音頻時域延展前，根據(jù)樂曲段落的相似性在樂曲中選擇合適的位置插入音頻片段，保證插入操作后音頻片段之間自然銜接。在插入操作后，通過計算音頻片段的延展抗性找出最優(yōu)的可延展片段進行適度延展，重復進行至達到延展要求，最大限度地降低音頻延展對于音頻質(zhì)量的影響，保證整首樂曲在延展后的播放效果，由于樂曲在被延展后聽覺效果與原樂曲接近，沒有破壞樂曲的欣賞性。

圖I是本發(fā)明具體實施方式
所述的ー種基于音頻特征的數(shù)字音頻延展方法的示意圖；圖2是本發(fā)明具體實施方式
所述的方法的延展過程中，各個步驟的結構示意圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂，下面結合附圖和具體實
施方式對本發(fā)明作進ー步詳細的說明。參照圖1，示出了本發(fā)明ー種基于音頻特征的數(shù)字音頻延展方法的示意圖，(I)將原始數(shù)字音頻按照指定個數(shù)的采樣點進行劃分，得到ー個音頻幀序列，記為fi> f2> f3>.......し、fm，如圖 2(a)所示。在本發(fā)明的實施例中，上述原始數(shù)字音頻的音頻格式可以為WAV格式，其采樣率為fHz，原始時長為T秒。通常指定采樣點個數(shù)為N= 512Xn(n—般取1，2，4，8)，音頻結
尾采樣點個數(shù)不足N個則用0補足。則每個幀的時長t = f，單位為秒，上述音頻幀序列的幀的個數(shù)m = 7 =(2)對于上述音頻巾貞序列V t2、t3、.......し、fm,分別提取它們的音頻特征值，
得到ー個音頻巾貞特征值序列ft^ft^ftp.......ft^、ftm,如圖2(a)所示。在本發(fā)明的實施例中，上述的音頻特征值可以為基頻、過零率、梅爾倒譜系數(shù)的均值、譜質(zhì)心或者它們中幾個特征值的加權平均。(3)采用指定長度的方法，將上述音頻幀序列進行切分，得到ー個音頻片段序列Sl、S2、S3……Sn-PSn,同時，根據(jù)上述音頻幀特征值序列，得到一個音頻片段特征向量序列V1^ v2> v3>.......Vn-P vn,如圖 2(b)所示。在本發(fā)明的實例中，上述指定的長度為24，所以上述的音頻片段特征向量為24維的向量。(4)根據(jù)用戶輸入的目標時長Tu和上述原始數(shù)字音頻時長Tv，計算得出時域音頻延展率P =尹。在本發(fā)明實例中，上述時域音頻延展率的取值范圍為I < p < I m，Tv的初始值為每個幀的時長乘以上述音頻幀序列的長度m。 (5)將上述時域音頻延展率p與系統(tǒng)設定的最大延展閥域Pmax作比較，若P小于或者等于最大延展閥域P_，則跳轉至步驟10，否則，跳轉至步驟6。在本發(fā)明的實例中，上述系統(tǒng)設定的最大延展閥域的取值范圍為I く Pniax < 2，設
Pmax I 2 o
(6)對上述n個音頻片段中的任意兩個音頻片段Si、&通過計算它們所對應的上
述音頻片段特征向量序列中Vi、Vj的距離Dy，得到它們的相似度屯=^■，重復該步驟，遍
歷n個音頻片段中的任意兩個音頻片段，得到音頻片段兩兩之間的相似度，構成nXn維的音頻片段相似度矩陣Mnxn，如圖2(c)所示。在本發(fā)明的實例中，采用歐拉距離計算上述特征向量序列中Vi、'的距離。Dm =Dj,i，Cli,j = dp，上述相似度矩陣Mnxn為上三角矩陣。(7)根據(jù)上述音頻片段相似度矩陣Mnxn,將上述n個音樂片段分成w類，記為C1.
c2、c3.....Cx.....Cw，滿足類Cx中的任意ー個音頻片段Si，在類Cx中至少存在ー個音頻片
段Sp它們的相似度Cli, j大于或者等于系統(tǒng)指定閥域I，且在類Cx以外不存在音頻片段sk，它與Cx內(nèi)的任意ー個音頻片段相似度も,，大于或者等于系統(tǒng)指定閥域I。在本發(fā)明的實施例中，上述系統(tǒng)指定閥域I的取值范圍為0 < I < + °°，設定相似度閥域為I = 2。在圖2(c)所顯示的矩陣中，S1、SX的相似度Cl1,x > 2且sn、sx的相似度dn,x > 2，而Sl、sk的相似度Cl1,, < 2，sn、sk的相似度dn,k < 2，sx、sk的相似度dx,k < 2。如圖2 (d)所不，S:、sx> Sn屬于類C1, Sk不屬于類C:。(8)用上述類序列CpCpQ、. . .、CX、. . .、CW中的類名的下標為類中的每ー個音頻片段用上標的形式進行標識，得到帶標識的音頻片段序列Sレsf' s|, ......,s|，遍
歷帶標識的音頻片段序列，得到所有插入點以及對應的可插入子序列，插入點く與之間的空隙和對應的可插入子序列S-L1, ....... S，r S〖應滿足在帶標識的音頻片段序
列中存在兩個相鄰的帶標識的音頻片段，這兩個帶標識的音頻片段的標識符分別與帶標識的音頻片段 < 和stg的標識符相對應；同時，在帶標識的音頻片段序列中存在兩個相鄰的帶標識的音頻片段，這兩個帶標識的音頻片段的標識符分別與帶標識的音頻片段4和Sし,的標識符相對應；其中，a、b、c為正整數(shù)，用于下標，滿足I < b彡c < n，I < a < n ;p，q，r，t為正整數(shù),用于上標,滿足I彡p, q, r, t彡W。在圖2(e)中，如Si' Sf, S!'' ... ,S J這樣ー個帶標識的音頻片段序列，可以得到如圖2(f)中所示的插入點S11與sf之間的空隙、可插入子序列S;''' 4'……S^l1，插入點Sど'與s|之間的空隙、可插入子序列S卜
間的空隙、可插入子序列S11' Si等。(9)從上述所有可插入子序列中找出插入后數(shù)字音頻時長Th與上述用戶輸入的目標時長Tu差值最小的可插入子序列，在對應的插入點插入，得到新的帶標識的音頻片段序列si' s2' sS'…' sf' sb' sC' sa-l' ' sn-l' s S，新的帶標識的首頻片段序列的片段數(shù)n'=插入前帶標識的音頻片段序列的片段數(shù)+c-b+1，重新計算上述音頻延展
率P= _并與上述系統(tǒng)設定的最大延展閥域Pmax作比較，若P小于或者等于最大延展閥域
P_，則跳轉至步驟10，否則，跳轉至步驟8。在本發(fā)明的實施例中，插入后數(shù)字音頻時長Th計算方法為帶標識的音頻片段的時長t乘以帶標識的音頻片段序列的片段數(shù)。(10)根據(jù)上述音頻片段特征向量序列得到上述音頻片段數(shù)為n'的帶標識的音頻片段的延展抗性序列“山山、. .山、Lb、. .、Le、La+1、. .、Llri、Ln，從延展抗性序列中得到一個抗性最優(yōu)的音頻片段，使用數(shù)字音頻時域延展方法對其進行延展，延展時長為A T，得到新的音頻片段，提取新的音頻片段的特征向量，計算得到相應的延展抗性并修改其在延展抗性序列中的值。在本發(fā)明的實施例中，上述延展時長AT的取值范圍為0 く AT <上述音頻幀的時長，由系統(tǒng)設定，如果上述選擇的是延展抗性序列中Lb對應的帶標識的音頻片段<，經(jīng)過延展后，我們可以通過重新提取新的帶標識的音頻片段的特征向量并計算得到其新的延展抗性Li，進而得到上述帶標識的音頻片段的新的延展抗性序列Li L Ls, La' Lb, Lc, La-J,Ln。(11)比較上述用戶輸入的目標時長Tu和經(jīng)過上述延展時長AT延展后的當前數(shù)字音頻時長T。，若T。和Tu的差的絕對值大于或者等于系統(tǒng)設定閥域I，跳轉至步驟10，否貝U，輸出時域延展后的音頻文件。在本發(fā)明的實施例中，上述系統(tǒng)設定閥域I的取值范圍為0 く I <上述音頻幀的時長。以上對本發(fā)明所提供的一種基于音頻特征的數(shù)字音頻延展方法，進行了詳細介紹，本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領域的一般技術人員，依據(jù)本發(fā)明的思想，在具體實施方式
及應用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應理解為對本發(fā)明的限制。
權利要求
1.一種基于音頻特征的數(shù)字音頻延展方法，其特征在于，所述方法包括將原始數(shù)字音頻文件按照預設標準進行分段，得到以段落為單位記錄樂曲信息的數(shù)據(jù)；根據(jù)段落間的相似性對段落分類；選取合適的連續(xù)段落插入原樂曲，使其達到用戶需求時長的80%到120% ；對于插入后的樂曲，選取抗性符合預設需求的段落，對該段落進行長度的時域修改，并重復該步驟，直到達到用戶需求時長。
2.如權利要求I所述的方法，其特征在于所述音頻文件是以采樣點來記錄樂曲信息。
3.如權利要求2所述的方法，其特征在于，所述方法還包括預設指定個數(shù)采樣點為一幀，獲取以幀為單位記錄樂曲信息的數(shù)據(jù)。
4.如權利要求3所述的方法，其特征在于，所述方法還包括采用音頻處理工具提取音頻文件中各個幀的特征值。
5.如權利要求I所述的方法，其特征在于所述段落間相似性的度量以兩個段落內(nèi)所有幀的特征值組成的向量的距離為依據(jù)。
6.如權利要求I所述的方法，其特征在于定義抗性為對樂曲進行時域修改(延展或者壓縮)后樂曲效果的變化，抗性好則表示對樂曲進行時域修改后樂曲效果變化小。
全文摘要
本發(fā)明提供了一種基于音頻特征的數(shù)字音頻延展方法，在數(shù)字音頻時域延展前，根據(jù)樂曲段落的相似性在樂曲中選擇合適的位置插入音頻片段，保證插入操作后音頻片段之間自然銜接。在插入操作后，通過計算音頻片段的延展抗性找出最優(yōu)的可延展片段進行適度延展，重復進行至達到延展要求，最大限度地降低音頻延展對于音頻質(zhì)量的影響，保證整首樂曲在延展后的播放效果，由于樂曲在被延展后聽覺效果與原樂曲接近，沒有破壞樂曲的欣賞性。
文檔編號G10L21/04GK102855883SQ20111017719
公開日2013年1月2日申請日期2011年6月28日優(yōu)先權日2011年6月28日
發(fā)明者王朝坤, 王建民, 汪浩, 劉璋申請人:清華大學

完整全部詳細技術資料下載