欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于瓶頸特征的復(fù)雜音頻分割聚類方法與流程

文檔序號:11730565閱讀:383來源:國知局
一種基于瓶頸特征的復(fù)雜音頻分割聚類方法與流程

本發(fā)明涉及音頻信號處理與模式識別技術(shù),特別涉及一種基于瓶頸特征的復(fù)雜音頻分割聚類方法。



背景技術(shù):

隨著多媒體采集設(shè)備、互聯(lián)網(wǎng)及云存儲平臺的發(fā)展與普及,海量復(fù)雜音頻內(nèi)容分析與檢索的需求日益迫切。復(fù)雜音頻分割、聚類作為一種無監(jiān)督的方法,是音頻內(nèi)容分析的重要手段之一。雖然可以采用人工標(biāo)注的方法找出音頻流中的各音頻類型,但人工標(biāo)注成本高、主觀性強(qiáng)、效率低,而有監(jiān)督的音頻分類方法需要預(yù)先知道音頻流中的音頻類型、提前訓(xùn)練特定類型的分類器。因此無監(jiān)督的復(fù)雜音頻分割、聚類方法應(yīng)用范圍更廣,更適合海量復(fù)雜音頻數(shù)據(jù)的內(nèi)容分析。

傳統(tǒng)的復(fù)雜音頻分割聚類方法采用的特征大多來源于語音識別領(lǐng)域,如梅爾頻率倒譜系數(shù),感知線性預(yù)測系數(shù)等。由于復(fù)雜音頻中的各類音頻事件來源各異,沒有語音那樣的特定結(jié)構(gòu)單元(音素或音節(jié)),在語音識別中能有效刻畫語音單元差異的傳統(tǒng)音頻特征并不一定能有效刻畫復(fù)雜音頻類型之間的特性差異。因此,提取有效刻畫復(fù)雜音頻類型差異的特征是提升復(fù)雜音頻分割與聚類性能的關(guān)鍵。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足和缺點(diǎn),提供一種基于瓶頸特征的復(fù)雜音頻分割聚類方法:首先訓(xùn)練一個帶瓶頸層的深度神經(jīng)網(wǎng)絡(luò);接著,提取復(fù)雜音頻流的音頻特征并輸入深度神經(jīng)網(wǎng)絡(luò),從深度神經(jīng)網(wǎng)絡(luò)的瓶頸層提取瓶頸特征;以瓶頸特征作為輸入,采用基于貝葉斯信息準(zhǔn)則的音頻分割方法對復(fù)雜音頻流進(jìn)行分割,使得每個音頻段只包含一種音頻類型,相鄰音頻段的音頻類型不同;最后,采用譜聚類算法對分割后的音頻段進(jìn)行聚類,得到復(fù)雜音頻中的音頻類型個數(shù),并將相同音頻類型的音頻段合并在一起。

本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn):一種基于瓶頸特征的復(fù)雜音頻分割聚類方法,其特征在于,包括如下步驟:

s1、帶瓶頸層的深度神經(jīng)網(wǎng)絡(luò)構(gòu)造:讀入訓(xùn)練數(shù)據(jù)并提取梅爾頻率倒譜系數(shù)(melfrequencycepstralcoefficients,mfcc)特征,再通過無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督精確調(diào)整兩個步驟構(gòu)造一個帶瓶頸層的深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,dnn)特征提取器;

s2、端點(diǎn)檢測:讀入復(fù)雜音頻流,通過基于門限判決的靜音檢測方法找出音頻流中所有的靜音段和非靜音信號段,并將各個非靜音信號段拼接成一個長信號段;

s3、瓶頸特征提取:提取上述長信號段的mfcc特征并輸入dnn特征提取器,從dnn特征提取器的瓶頸層提取瓶頸特征;

s4、音頻分割:采用基于貝葉斯信息準(zhǔn)則(bayesinformationcriterion,bic)的方法檢測長信號段中的音頻類型改變點(diǎn),根據(jù)這些改變點(diǎn)把長信號段分割成若干個音頻段,使得每個音頻段只包含一種音頻類型且相鄰音頻段的音頻類型不同;

s5、音頻聚類:采用譜聚類算法對各音頻段進(jìn)行聚類,得到音頻類型個數(shù),并將相同音頻類型的音頻段合并在一起。

優(yōu)選的,步驟s1中帶瓶頸層的深度神經(jīng)網(wǎng)絡(luò)構(gòu)造具體包括以下步驟:

s1.1、讀入訓(xùn)練數(shù)據(jù)并提取mfcc特征,具體步驟如下:

s1.1.1、預(yù)加重:設(shè)置數(shù)字濾波器的傳遞函數(shù)為h(z)=1-αz-1,其中α為一個系數(shù)且取值為:0.9≤α≤1,讀入的音頻流通過該數(shù)字濾波器后實(shí)現(xiàn)預(yù)加重;

s1.1.2、分幀:設(shè)置音頻幀的幀長為25毫秒、幀移為10毫秒,幀長和幀移所對應(yīng)的采樣點(diǎn)個數(shù)分別為n=0.025×fs和s=0.01×fs,其中fs為音頻采樣頻率,將讀入的音頻流切分成音頻幀xt'(n),1≤t≤t,0≤n≤n-1,其中t和n分別表示幀數(shù)和每幀的采樣點(diǎn)數(shù);

s1.1.3、窗函數(shù)ω(n)為漢明窗:

將每幀音頻信號xt'(n)與漢明窗ω(n)相乘得到加窗后的音頻信號xt(n):

xt(n)=ω(n)×xt'(n)n=0,1,...,n-1;t=1,2,...,t

s1.1.4、提取mfcc特征:

s1.1.4.1、對第t幀音頻信號xt(n)做離散傅立葉變換(discretefouriertransformation,dft)得到線性頻譜xt(k):

s1.1.4.2、將上述線性頻譜xt(k)通過梅爾頻率濾波器組得到梅爾頻譜,再進(jìn)行對數(shù)運(yùn)算得到對數(shù)頻譜st(m),其中梅爾頻率濾波器組為若干個帶通濾波器hm(k),0≤m<m,m為濾波器的個數(shù),其值設(shè)置為13,每個濾波器具有三角形濾波特性,其中心頻率為f(m),當(dāng)m值較小時相鄰f(m)的間隔較小,隨著m的增加相鄰f(m)的間隔逐漸變大,每個帶通濾波器的傳遞函數(shù)為:

其中,0≤m<m,f(m)定義如下:

其中,fl、fh為濾波器的最低頻率和最高頻率,b-1為b的逆函數(shù):

b-1(b)=700(eb/1125-1),

因此由線性頻譜xt(k)到對數(shù)頻譜st(m)的變換為:

s1.1.4.3、將上述對數(shù)頻譜st(m)經(jīng)過離散余弦變換(discretecosinetransformation,dct)變換到倒譜域,得到第t幀音頻信號的mfcc特征,即ct(p):

s1.1.4.3、對每幀音頻信號重復(fù)步驟s1.1.4.1-s1.1.4.3,得到所有音頻幀的mfcc特征,將它們按幀的順序組合成一個mfcc特征矩陣;

s1.2、預(yù)訓(xùn)練:采用逐層堆疊受限玻爾茲曼機(jī)(restrictedboltzmannmachine,rbm)的方法構(gòu)造一個深度置信網(wǎng)(deepbeliefnets,dbn),得到預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù);

rbm采用基于能量的通用分布模型去表示任意概率分布,其能量函數(shù)定義為:

其中v,h分別代表可視層單元和隱含層單元的狀態(tài)矢量,wij表示可視層第i個節(jié)點(diǎn)與隱含層第j個節(jié)點(diǎn)的連接權(quán)重,vi和ai分別表示可視層的第i個節(jié)點(diǎn)的狀態(tài)和偏移量,hj和bj分別表示隱含層的第j個節(jié)點(diǎn)的狀態(tài)和偏移量,vis和hid分別表示可視層和隱含層的節(jié)點(diǎn)集合;當(dāng)所有參數(shù)都確定時,可以得到rbm能量函數(shù)關(guān)于v和h的聯(lián)合概率分布:

由聯(lián)合分布得到邊緣概率分布:

條件概率為:

高斯-伯努利rbm的條件概率分布可以表示為:

其中表示是均值為方差為v的高斯分布,表示輸入為的sigmoid函數(shù),sigmoid函數(shù)σ(x)的表達(dá)式為σ(x)=1/[1+exp(-x)],

伯努利-伯努利rbm的條件概率分布表示為:

在給定訓(xùn)練集其中ns為訓(xùn)練樣本數(shù)目,訓(xùn)練一個rbm就是通過調(diào)整參數(shù)θ={w,a,b}來表征給定的訓(xùn)練樣本,使得在該參數(shù)下由相應(yīng)rbm表示的概率分布盡可能地與訓(xùn)練數(shù)據(jù)相符,其中w表示權(quán)重系數(shù),a表示可視層的偏移量,b表示隱含層的偏移量,

訓(xùn)練rbm的目標(biāo)就是最大化似然函數(shù):

即:

其中p(d(t))為對樣本d(t)的似然估計(jì);

dbn的構(gòu)造過程具體包括如下步驟:

s1.2.1、選取當(dāng)前幀的前后5幀作為上下文信息,共計(jì)11*13=143維作為第一個rbm的可視層輸入節(jié)點(diǎn)數(shù),隱含層節(jié)點(diǎn)數(shù)取固定值1024,將輸入特征的每一維進(jìn)行倒譜均值方差歸一化,采用對比散度(contrastivedivergence,cd)算法訓(xùn)練一個高斯-伯努利rbm;

具體過程如下:

s1.2.1.1、將連接權(quán)重初始化,值為10-3,偏移量、似然函數(shù)對權(quán)重的偏導(dǎo)數(shù)、似然函數(shù)對可視層以及隱含層偏移量的偏導(dǎo)數(shù)均初始化為0,迭代次數(shù)設(shè)置為30;

s1.2.1.2、對每一次迭代,取初始值d(0),d(0)={di(0)},i∈vis,為訓(xùn)練樣本集合d中的任意一個樣本d,執(zhí)行k步gibbs采樣得到d(k),其中在第s步(s=0,2...,k-1)過程如下:

s1.2.1.2.1、隱含層中的每一個節(jié)點(diǎn)的激活概率可以表示為:

s1.2.1.2.2、產(chǎn)生[0,1]區(qū)間的隨機(jī)數(shù)rj,得到隱含層狀態(tài)h(s)

s1.2.1.2.3、根據(jù)隱含層狀態(tài)h(s),得到可視層每一個節(jié)點(diǎn)的激活概率為:

s1.2.1.2.4、產(chǎn)生[0,1]上的隨機(jī)數(shù)ri,重構(gòu)可視層輸入d(s+1)

s1.2.1.3、經(jīng)過k步gibbs采樣后得到的d(k)近似估計(jì)rbm參數(shù)的梯度:

其中p(hi=1|d(k))表示在可視層限定為已知的訓(xùn)練樣本d(k)時隱含層的激活概率,由于該rbm為高斯-伯努利rbm,則

s1.2.1.4、得到似然函數(shù)對權(quán)重的偏導(dǎo)數(shù)、似然函數(shù)對可視層以及隱含層偏移量的偏導(dǎo)數(shù)δw,δa和δb,其中

s1.2.1.5、更新參數(shù):

式中η為權(quán)重學(xué)習(xí)率,設(shè)置為0.01;

s1.2.2、保持上一個rbm的權(quán)重和偏移量不變,將上一個rbm的隱含層作為下一個rbm的可視層,并保持隱含層節(jié)點(diǎn)數(shù)與可視層節(jié)點(diǎn)數(shù)相同,迭代訓(xùn)練一個伯努利-伯努利rbm,其步驟與s1.2.1類似,只是在執(zhí)行k步gibbs采樣得到d(k)時,其可視層每一個節(jié)點(diǎn)的激活概率公式變?yōu)椋?/p>

此過程中,權(quán)重學(xué)習(xí)率變?yōu)?.04,迭代次數(shù)降為15次;

s1.2.3、按照s1.2.2中的步驟,重復(fù)迭代訓(xùn)練伯努利-伯努利rbm,直到瓶頸層的前一個隱含層;

s1.2.4、將rbm的隱含層節(jié)點(diǎn)數(shù)設(shè)置為mfcc特征維數(shù)的2倍,按照s1.2.2中的步驟,迭代訓(xùn)練伯努利-伯努利rbm;

s1.2.5、恢復(fù)隱含層節(jié)點(diǎn)數(shù)為1024,按照s1.2.2中的步驟,重復(fù)迭代訓(xùn)練伯努利-伯努利rbm,直到最后一個隱含層;

s1.2.6、將所有的rbm按照構(gòu)造時的順序依次堆疊起來,就構(gòu)成一個帶瓶頸層的dbn;

s1.3、精確調(diào)整:采用有監(jiān)督訓(xùn)練方法對預(yù)訓(xùn)練后的dbn網(wǎng)絡(luò)參數(shù)進(jìn)行精確調(diào)整,具體包括如下步驟:

s1.3.1、在dbn的基礎(chǔ)上再增加一個輸出層,并隨機(jī)初始化dbn最后一層與該增加的輸出層之間的網(wǎng)絡(luò)參數(shù),從而構(gòu)成一個完整的深度神經(jīng)網(wǎng)絡(luò)dnn;

s1.3.2、利用反向傳播(back-propagation,bp)算法有監(jiān)督地調(diào)整dnn網(wǎng)絡(luò)參數(shù),每一次迭代的具體步驟如下:

s1.3.2.1、計(jì)算樣本損失函數(shù):

對于單個有標(biāo)簽的訓(xùn)練樣本(x,t),其中x為聲學(xué)特征,t為樣本標(biāo)簽,其維度與輸出節(jié)點(diǎn)數(shù)相同,即訓(xùn)練的音頻類別數(shù),對于音頻類型集合y={y1,y2,..,yk,..,yk},t={t1,t2,…ti,…,tk},其中ti:

單個樣本損失函數(shù)記為:

其中hw,b(x)為網(wǎng)絡(luò)輸出層的激活函數(shù)的輸出值;

給定一個含有n個訓(xùn)練樣本集{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},則整體損失函數(shù)為:

其中ml為網(wǎng)絡(luò)總層數(shù),sl為第l層上的節(jié)點(diǎn)總數(shù),為第l層的節(jié)點(diǎn)i與第l+1層的節(jié)點(diǎn)j之間的連接權(quán)重,λ為平衡因子;

s1.3.2.2、根據(jù)s1.3.2.1中的整體樣本損失函數(shù),分別對網(wǎng)絡(luò)連接權(quán)重和偏移量求導(dǎo),利用反向傳播算法得到偏導(dǎo)數(shù)值,具體過程如下:

s1.3.2.2.1、首先利用前向傳播算法,分別計(jì)算隱含層以及輸出層中所有節(jié)點(diǎn)的激活值

其中σ(·)為選取的sigmoid激活函數(shù),表示第l層第i個單元的加權(quán)和,即:

s1.3.2.2.2、對于輸出層的每個輸出單元i,其殘差為:

其中ti表示輸出層第i個節(jié)點(diǎn)的標(biāo)簽,為輸出層第i個節(jié)點(diǎn)的激活值,表示輸出層第i個單元的加權(quán)和,

根據(jù)反向傳播算法,對于輸出層前的各個隱含層(l=2,3,…,ml-2,ml-1),依次計(jì)算其殘差為:

其中表示第l個隱含層的第i個節(jié)點(diǎn)與第l+1個隱含層中第j個節(jié)點(diǎn)的連接權(quán)重,為第l+1層的殘差,表示第l層第i個單元的加權(quán)和,表達(dá)式為:

s1.3.2.2.3、單個樣本最終的偏導(dǎo)數(shù)值為:

其中,δ(l+1)={δi(l+1)},i=1,2,...,sl為第l+1層的殘差向量,a(l)={ai(l)},i=1,2,...,sl為第l層的激活值,t為轉(zhuǎn)置符號,

對于i=1:n的所有訓(xùn)練樣本{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},則有:

其中δw(l)是一個與矩陣w(l)={wij(l)}維度相同的矩陣,初始化為0,δb(l)是一個與矩陣b(l)={bi(l)}維度相同的向量,初始值也為0,δw(l,i)和δb(l,i)分別表示對第i個訓(xùn)練樣本計(jì)算出的δw(l)和b(l),

s1.3.2.3、更新網(wǎng)絡(luò)的連接權(quán)重w(l)和偏移量b(l)

其中α為學(xué)習(xí)速率,設(shè)置為0.01,λ為平衡因子,設(shè)為0.08;

優(yōu)選的,所述步驟s2中對讀入的復(fù)雜音頻信號做端點(diǎn)檢測包括以下步驟:

s2.1、按照步驟s1.1.1-s1.1.3對復(fù)雜音頻信號做預(yù)加重,分幀,加窗處理,將讀入的音頻文件分成t幀,如果最后一幀音頻信號的采樣點(diǎn)個數(shù)小于n,則將其舍去;計(jì)算第t幀音頻信號xt(n)的能量et:

得到音頻流的能量特征矢量e={e1,e2,...,et},其中t為總幀數(shù);

s2.2、用固定的能量門限判斷靜音與非靜音信號段有很大的局限性,因?yàn)楦鞣N環(huán)境下的非靜音信號能量相差很大,但非靜音信號與靜音之間能量大小的相對關(guān)系是不變的,所以定義每幀音頻的能量門限te:

te=min(e)+0.3×[mean(e)-min(e)],

其中,min(e)是各幀能量的最小值,mean(e)是各幀能量的平均值。

s2.3、將每幀音頻的能量與能量門限比較,低于能量門限的幀為靜音幀,否則為非靜音幀,將所有靜音幀都舍棄,將相鄰的非靜音幀按時間順序拼接成一個非靜音信號段。

優(yōu)選的,步驟s3中瓶頸特征提取包括以下步驟:

s3.1、按照步驟s1.1.4提取端點(diǎn)檢測后非靜音信號的mfcc特征;

s3.2、將mfcc特征輸入到dnn特征提取器,從dnn特征提取器的瓶頸層提取瓶頸特征。

優(yōu)選的,步驟s4中音頻分割包括以下步驟:

s4.1、將長信號段的特征矩陣切分成數(shù)據(jù)窗,窗長為200幀,窗移為10幀;

s4.2、計(jì)算兩個相鄰數(shù)據(jù)窗(x和y)之間的bic距離,bic距離計(jì)算公式如下:

其中,z是將數(shù)據(jù)窗x和y合并之后得到的數(shù)據(jù)窗,nx和ny分別是數(shù)據(jù)窗x和y的幀數(shù),fx、fy和fz分別是數(shù)據(jù)窗x、y和z的特征矩陣,cov(fx)、cov(fy)和cov(fz)分別是特征矩陣fx、fy和fz的協(xié)方差矩陣,det(·)表示求矩陣的行列式值,α是懲罰系數(shù)且實(shí)驗(yàn)取值為2.0;

s4.3、如果bic距離δbic大于零,則這兩個數(shù)據(jù)窗被視為屬于兩個不同的音頻類型,否則這兩個數(shù)據(jù)窗被視為屬于同一個音頻類型并將它們合并;

s4.4、不斷滑動數(shù)據(jù)窗判斷兩個相鄰數(shù)據(jù)窗之間的bic距離是否大于零,并保存音頻類型改變點(diǎn),直到長信號段的所有相鄰數(shù)據(jù)窗之間的bic距離都被判斷完為止,得到若干只包含一種音頻類型的音頻段,且相鄰音頻段的類型不同。

優(yōu)選的,步驟s5中音頻事件聚類包括以下步驟:

s5.1、假設(shè)音頻分割后的所有音頻段特征矩陣集合f={f1,f2,...,fj},j為音頻段總個數(shù),根據(jù)f構(gòu)造親和矩陣a∈rj×j,a的第(j,k)個元素ajk定義如下:

其中d(fj,fk)是特征矩陣fj與fk之間的歐氏距離,σj是一個尺度參數(shù),定義為第j個特征矩陣fj與其他j-1個特征矩陣之間的歐氏距離矢量的方差;

s5.2、對角矩陣h的第(j,j)個元素代表親和矩陣中第j行所有元素之和,再根據(jù)對角矩陣h和a構(gòu)造歸一化的親和矩陣:

s5.3、計(jì)算矩陣l的前kmax個最大的特征值{λ1,λ2,...,λi,...,λkmax}及其特征矢量{q1,q2,...,qi,...,qkmax},其中1≤i≤kmax,qi為列矢量,λ1≥λ2≥...≥λi≥…≥λkmax,根據(jù)相鄰特征值之間的差值估計(jì)最優(yōu)類別數(shù)(即音頻類數(shù))k:

根據(jù)估計(jì)出來的音頻類型個數(shù)k,構(gòu)造矩陣q=[q1,q2,...,qk]∈rj×k;

s5.4、歸一化矩陣q的每一行,得到矩陣y∈rj×k,y的第(j,k)個元素yjk:

s5.5、將矩陣中的每一行當(dāng)作空間rk中的一個點(diǎn),利用k均值算法(k-meansalgorithm)將矩陣y的j行聚類成k類。將特征矩陣fj所對應(yīng)的音頻段判為第k類,當(dāng)且僅當(dāng)矩陣y的第j行被聚類在第k類中;

s5.6、根據(jù)上述聚類結(jié)果,得到音頻類型個數(shù),并將相同音頻類型的音頻段合并在一起。

本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:

1、本發(fā)明中的瓶頸特征是一種深層變換特征,比傳統(tǒng)音頻特征能更有效刻畫復(fù)雜音頻類型的特性差異,在復(fù)雜音頻分割聚類中獲得更加優(yōu)異的效果。

2、本發(fā)明方法是一種無監(jiān)督的音頻內(nèi)容分析方法,無需事先知道音頻類型及訓(xùn)練分類器,與有監(jiān)督的方法相比更具普適性。

3、本發(fā)明方法是復(fù)雜音頻內(nèi)容分析與檢索、音頻場景估計(jì)、音頻摘要提取等應(yīng)用的重要基礎(chǔ)。

附圖說明

圖1為本發(fā)明的rbm網(wǎng)絡(luò)結(jié)構(gòu)圖;

圖2為本發(fā)明的dbn網(wǎng)絡(luò)結(jié)構(gòu)圖;

圖3為本發(fā)明的帶瓶頸層的dnn生成過程示意圖;

圖4為本發(fā)明實(shí)施例的流程圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。

實(shí)施例

圖4是基于瓶頸特征的復(fù)雜音頻分割聚類方法的一個實(shí)施例的流程圖,它主要包括以下過程:

1、帶瓶頸層的深度神經(jīng)網(wǎng)絡(luò)構(gòu)造:讀入訓(xùn)練數(shù)據(jù)并提取mfcc特征,再通過無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督精確調(diào)整兩個步驟訓(xùn)練一個帶瓶頸層的dnn特征提取器;具體步驟包括:

s1.1、讀入訓(xùn)練數(shù)據(jù)并提取梅爾頻率倒譜系數(shù)特征,具體步驟如下:

s1.1.1、預(yù)加重:設(shè)置數(shù)字濾波器的傳遞函數(shù)為h(z)=1-αz-1,其中α為一個系數(shù)且取值為:0.9≤α≤1,讀入的音頻流通過該數(shù)字濾波器后實(shí)現(xiàn)預(yù)加重;

s1.1.2、分幀:設(shè)置音頻幀的幀長為25毫秒、幀移為10毫秒,幀長和幀移所對應(yīng)的采樣點(diǎn)個數(shù)分別為n=0.025×fs和s=0.01×fs,其中fs為音頻采樣頻率,將讀入的音頻流切分成音頻幀xt'(n),1≤t≤t,0≤n≤n-1,其中t和n分別表示幀數(shù)和每幀的采樣點(diǎn)數(shù);

s1.1.3、窗函數(shù)ω(n)為漢明窗:

將每幀音頻信號xt'(n)與漢明窗ω(n)相乘得到加窗后的音頻信號xt(n):

xt(n)=ω(n)×xt'(n)n=0,1,...,n-1;t=1,2,...,t,

s1.1.4、提取梅爾頻率倒譜系數(shù)特征:

s1.1.4.1、對第t幀音頻信號xt(n)做離散傅立葉變換得到線性頻譜xt(k):

s1.1.4.2、將上述線性頻譜xt(k)通過梅爾頻率濾波器組得到梅爾頻譜,再進(jìn)行對數(shù)運(yùn)算得到對數(shù)頻譜st(m),其中梅爾頻率濾波器組為若干個帶通濾波器hm(k),0≤m<m,m為濾波器的個數(shù),每個濾波器具有三角形濾波特性,其中心頻率為f(m),當(dāng)m值較小時相鄰f(m)的間隔較小,隨著m的增加相鄰f(m)的間隔逐漸變大,每個帶通濾波器的傳遞函數(shù)為:

其中,0≤m<m,f(m)定義如下:

其中,fl、fh為濾波器的最低頻率和最高頻率,b-1為b的逆函數(shù):

b-1(b)=700(eb/1125-1),

因此由線性頻譜xt(k)到對數(shù)頻譜st(m)的變換為:

s1.1.4.3、將上述對數(shù)頻譜st(m)經(jīng)過離散余弦變換變換到倒譜域,得到第t幀音頻信號的梅爾頻率倒譜系數(shù)特征,即ct(p):

s1.1.4.3、對每幀音頻信號重復(fù)步驟s1.1.4.1-s1.1.4.3,得到所有音頻幀的梅爾頻率倒譜系數(shù)特征,將它們按幀的順序組合成一個梅爾頻率倒譜系數(shù)特征矩陣;

s1.2、預(yù)訓(xùn)練:采用逐層堆疊受限玻爾茲曼機(jī)的方法構(gòu)造一個深度置信網(wǎng),得到預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù);rbm的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,dbn的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示;

受限玻爾茲曼機(jī)采用基于能量的通用分布模型去表示任意概率分布,其能量函數(shù)定義為:

其中v,h分別代表可視層單元和隱含層單元的狀態(tài)矢量,wij表示可視層第i個節(jié)點(diǎn)與隱含層第j個節(jié)點(diǎn)的連接權(quán)重,vi和ai分別表示可視層的第i個節(jié)點(diǎn)的狀態(tài)和偏移量,hj和bj分別表示隱含層的第j個節(jié)點(diǎn)的狀態(tài)和偏移量,vis和hid分別表示可視層和隱含層的節(jié)點(diǎn)集合;當(dāng)所有參數(shù)都確定時,可以得到受限玻爾茲曼機(jī)能量函數(shù)關(guān)于v和h的聯(lián)合概率分布:

由聯(lián)合分布得到邊緣概率分布:

條件概率為:

高斯-伯努利受限玻爾茲曼機(jī)的條件概率分布可以表示為:

其中表示是均值為方差為v的高斯分布,表示輸入為的sigmoid函數(shù),sigmoid函數(shù)σ(x)的表達(dá)式為σ(x)=1/[1+exp(-x)];

伯努利-伯努利受限玻爾茲曼機(jī)的條件概率分布表示為:

在給定訓(xùn)練集其中ns為訓(xùn)練樣本數(shù)目,訓(xùn)練一個受限玻爾茲曼機(jī)就是通過調(diào)整參數(shù)θ={w,a,b}來表征給定的訓(xùn)練樣本,使得在該參數(shù)下由相應(yīng)受限玻爾茲曼機(jī)表示的概率分布盡可能地與訓(xùn)練數(shù)據(jù)相符,其中w表示權(quán)重系數(shù),a表示可視層的偏移量,b表示隱含層的偏移量,

訓(xùn)練受限玻爾茲曼機(jī)的目標(biāo)就是最大化似然函數(shù):

即:

其中p(d(t))為對樣本d(t)的似然估計(jì);

深度置信網(wǎng)的構(gòu)造過程具體包括如下步驟:

s1.2.1、選取當(dāng)前幀的前后5幀作為上下文信息,共計(jì)11*13=143維作為第一個受限玻爾茲曼機(jī)的可視層輸入節(jié)點(diǎn)數(shù),隱含層節(jié)點(diǎn)數(shù)取固定值1024,將輸入特征的每一維進(jìn)行倒譜均值方差歸一化,采用對比散度算法訓(xùn)練一個高斯-伯努利受限玻爾茲曼機(jī);

具體過程如下:

s1.2.1.1、將連接權(quán)重初始化,值10-3,偏移量、似然函數(shù)對權(quán)重的偏導(dǎo)數(shù)、似然函數(shù)對可視層以及隱含層偏移量的偏導(dǎo)數(shù)均初始化為0,迭代次數(shù)設(shè)置為30;

s1.2.1.2、對每一次迭代,取初始值d(0),d(0)={di(0)},i∈vis,為訓(xùn)練樣本集合d中的任意一個樣本d,執(zhí)行k步gibbs采樣得到d(k),其中在第s步(s=0,2...,k-1)過程如下:

s1.2.1.2.1、隱含層中的每一個節(jié)點(diǎn)的激活概率可以表示為:

s1.2.1.2.2、產(chǎn)生[0,1]區(qū)間的隨機(jī)數(shù)rj,得到隱含層狀態(tài)h(s)

s1.2.1.2.3、根據(jù)隱含層狀態(tài)h(s),得到可視層每一個節(jié)點(diǎn)的激活概率為:

s1.2.1.2.4、產(chǎn)生[0,1]上的隨機(jī)數(shù)ri,重構(gòu)可視層輸入d(s+1)

s1.2.1.3、經(jīng)過k步gibbs采樣后得到的d(k)近似估計(jì)受限玻爾茲曼機(jī)參數(shù)的梯度:

其中p(hi=1|d(k))表示在可視層限定為已知的訓(xùn)練樣本d(k)時隱含層的激活概率,由于該rbm為高斯-伯努利rbm,則

s1.2.1.4、得到似然函數(shù)對權(quán)重的偏導(dǎo)數(shù)、似然函數(shù)對可視層以及隱含層偏移量的偏導(dǎo)數(shù)δw,δa和δb,其中

s1.2.1.5、更新參數(shù):

式中η為權(quán)重學(xué)習(xí)率,設(shè)置為0.01;

s1.2.2、保持上一個受限玻爾茲曼機(jī)的權(quán)重和偏移量不變,將上一個受限玻爾茲曼機(jī)的隱含層作為下一個受限玻爾茲曼機(jī)的可視層,并保持隱含層節(jié)點(diǎn)數(shù)與可視層節(jié)點(diǎn)數(shù)相同,迭代訓(xùn)練一個伯努利-伯努利受限玻爾茲曼機(jī),其步驟與s1.2.1類似,只是在執(zhí)行k步gibbs采樣得到d(k)時,其可視層每一個節(jié)點(diǎn)的激活概率公式變?yōu)椋?/p>

此過程中,權(quán)重學(xué)習(xí)率變?yōu)?.04,迭代次數(shù)降為15次;

s1.2.3、按照s1.2.2中的步驟,重復(fù)迭代訓(xùn)練伯努利-伯努利受限玻爾茲曼機(jī),直到瓶頸層的前一個隱含層;

s1.2.4、將受限玻爾茲曼機(jī)的隱含層節(jié)點(diǎn)數(shù)設(shè)置為梅爾頻率倒譜系數(shù)特征維數(shù)的2倍,按照s1.2.2中的步驟,迭代訓(xùn)練伯努利-伯努利受限玻爾茲曼機(jī);

s1.2.5、恢復(fù)隱含層節(jié)點(diǎn)數(shù)為1024,按照s1.2.2中的步驟,重復(fù)迭代訓(xùn)練伯努利-伯努利受限玻爾茲曼機(jī),直到最后一個隱含層;

s1.2.6、將所有的受限玻爾茲曼機(jī)按照構(gòu)造時的順序依次堆疊起來,就構(gòu)成一個帶瓶頸層的深度置信網(wǎng);

s1.3、精確調(diào)整:采用有監(jiān)督訓(xùn)練方法對預(yù)訓(xùn)練后的深度置信網(wǎng)絡(luò)參數(shù)進(jìn)行精確調(diào)整,具體包括如下步驟:

s1.3.1、在深度置信網(wǎng)的基礎(chǔ)上再增加一個輸出層,并隨機(jī)初始化深度置信網(wǎng)最后一層與該增加的輸出層之間的網(wǎng)絡(luò)參數(shù),從而構(gòu)成一個完整的深度神經(jīng)網(wǎng)絡(luò);其過程示意圖如圖3所示;

s1.3.2、利用反向傳播算法有監(jiān)督地調(diào)整深度神經(jīng)網(wǎng)絡(luò)參數(shù),最大迭代次數(shù)設(shè)為100,并且當(dāng)相鄰兩次迭代的損失變化率小于0.01時終止訓(xùn)練,對于每一次迭代,具體步驟如下:

s1.3.2.1、計(jì)算樣本損失函數(shù):

對于單個有標(biāo)簽的訓(xùn)練樣本(x,t),其中x為聲學(xué)特征,t為樣本標(biāo)簽,其維度與輸出節(jié)點(diǎn)數(shù)相同,即訓(xùn)練的音頻類別數(shù),對于音頻類型集合y={y1,y2,..,yk,..,yk},t={t1,t2,…ti,…,tk},其中ti:

單個樣本損失函數(shù)記為:

其中hw,b(x)為網(wǎng)絡(luò)輸出層的激活函數(shù)的輸出值;

給定一個含有n個訓(xùn)練樣本集{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},則整體損失函數(shù)為:

其中ml為網(wǎng)絡(luò)總層數(shù),sl為第l層上的節(jié)點(diǎn)總數(shù),為第l層的節(jié)點(diǎn)i與第l+1層的節(jié)點(diǎn)j之間的連接權(quán)重,λ為平衡因子;

s1.3.2.2、根據(jù)s1.3.2.1中的整體樣本損失函數(shù),分別對網(wǎng)絡(luò)連接權(quán)重和偏移量求導(dǎo),利用反向傳播算法得到偏導(dǎo)數(shù)值,具體過程如下:

s1.3.2.2.1、首先利用前向傳播算法,分別計(jì)算隱含層以及輸出層中所有節(jié)點(diǎn)的激活值

其中σ(·)為選取的sigmoid激活函數(shù),表示第l層第i個單元的加權(quán)和,即:

s1.3.2.2.2、對于輸出層的每個輸出單元i,其殘差為:

其中ti表示輸出層第i個節(jié)點(diǎn)的標(biāo)簽,為輸出層第i個節(jié)點(diǎn)的激活值,表示輸出層第i個單元的加權(quán)和,

根據(jù)反向傳播算法,對于輸出層前的各個隱含層(l=2,3,…,ml-2,ml-1),依次計(jì)算其殘差為:

其中表示第l個隱含層的第i個節(jié)點(diǎn)與第l+1個隱含層中第j個節(jié)點(diǎn)的連接權(quán)重,為第l+1層的殘差,表示第l層第i個單元的加權(quán)和,表達(dá)式為:

s1.3.2.2.3、單個樣本最終的偏導(dǎo)數(shù)值為:

其中,為第l+1層的殘差向量,a(l)={ai(l)},i=1,2,...,sl為第l層的激活值,t為轉(zhuǎn)置符號,

對于i=1:n的所有訓(xùn)練樣本{(x(1),t(1)),(x(2),t(2)),...,(x(n),t(n))},則有:

其中δw(l)是一個與矩陣w(l)={wij(l)}維度相同的矩陣,初始化為0,δb(l)是一個與矩陣b(l)={bi(l)}維度相同的向量,初始值也為0,δw(l,i)和δb(l,i)分別表示對第i個訓(xùn)練樣本計(jì)算出的δw(l)和b(l),

s1.3.2.3、更新網(wǎng)絡(luò)的連接權(quán)重和偏移量:

其中α為學(xué)習(xí)速率,設(shè)置為0.01,λ為平衡因子,設(shè)為0.08。

2、端點(diǎn)檢測:讀入復(fù)雜音頻流,通過基于門限判決的靜音檢測方法找出音頻流中所有的靜音段和非靜音信號段,并將各個非靜音信號段拼接成一個長信號段;具體步驟如下:

s2.1、按照步驟s1.1.1-s1.1.3對復(fù)雜音頻信號做預(yù)加重,分幀,加窗處理,將讀入的音頻文件分成t幀,如果最后一幀音頻信號的采樣點(diǎn)個數(shù)小于n,則將其舍去;計(jì)算第t幀音頻信號xt(n)的能量et:

得到音頻流的能量特征矢量e={e1,e2,...,et},其中t為總幀數(shù);

s2.2、用固定的能量門限判斷靜音與非靜音信號段有很大的局限性,因?yàn)楦鞣N環(huán)境下的非靜音信號能量相差很大,但非靜音信號與靜音之間能量大小的相對關(guān)系是不變的,所以定義每幀音頻的能量門限te:

te=min(e)+0.3×[mean(e)-min(e)],

其中,min(e)是各幀能量的最小值,mean(e)是各幀能量的平均值;

s2.3、將每幀音頻的能量與能量門限比較,低于能量門限的幀為靜音幀,否則為非靜音幀,將所有靜音幀都舍棄,將相鄰的非靜音幀按時間順序拼接成一個非靜音信號段。

3、瓶頸特征提?。禾崛〉纳鲜鲩L信號段的mfcc特征并輸入到dnn特征提取器,從dnn特征提取器的瓶頸層提取瓶頸特征;具體步驟如下:

s3.1、按照步驟s1.1.4提取端點(diǎn)檢測后非靜音信號的mfcc特征;

s3.2、將mfcc特征輸入到dnn特征提取器,從dnn特征提取器的瓶頸層提取瓶頸特征。

4、音頻分割:通過貝葉斯信息準(zhǔn)則檢測長信號段中的音頻類型改變點(diǎn),根據(jù)這些改變點(diǎn)把長信號段分割成若干個音頻段,使得每個音頻段只包含一種音頻類型,相鄰音頻段的音頻類型不同;

s4.1、將長信號段的特征矩陣切分成數(shù)據(jù)窗,窗長為200幀,窗移為10幀;

s4.2、計(jì)算兩個相鄰數(shù)據(jù)窗(x和y)之間的bic距離,bic距離計(jì)算公式如下:

其中,z是將數(shù)據(jù)窗x和y合并之后得到的數(shù)據(jù)窗,nx和ny分別是數(shù)據(jù)窗x和y的幀數(shù),fx、fy和fz分別是數(shù)據(jù)窗x、y和z的特征矩陣,cov(fx)、cov(fy)和cov(fz)分別是特征矩陣fx、fy和fz的協(xié)方差矩陣,det(·)表示求矩陣的行列式值,α是懲罰系數(shù)且實(shí)驗(yàn)取值為2.0;

s4.3、如果bic距離δbic大于零,則這兩個數(shù)據(jù)窗被視為屬于兩個不同的音頻類型,否則這兩個數(shù)據(jù)窗被視為屬于同一個音頻類型并將它們合并;

s4.4、不斷滑動數(shù)據(jù)窗判斷兩個相鄰數(shù)據(jù)窗之間的bic距離是否大于零,并保存音頻類型改變點(diǎn),直到長信號段的所有相鄰數(shù)據(jù)窗之間的bic距離都被判斷完為止,得到若干只包含一種音頻類型的音頻段,且相鄰音頻段的類型不同。

5、音頻聚類:采用譜聚類算法對各音頻段進(jìn)行聚類,得到音頻類型個數(shù),并將相同音頻類型的音頻段合并在一起。

s5.1、假設(shè)音頻分割后的所有音頻段特征矩陣集合f={f1,f2,...,fj},j為音頻段總個數(shù),根據(jù)f構(gòu)造親和矩陣a∈rj×j,a的第(j,k)個元素ajk定義如下:

其中d(fj,fk)是特征矩陣fj與fk之間的歐氏距離,σj是一個尺度參數(shù),定義為第j個特征矩陣fj與其他j-1個特征矩陣之間的歐氏距離矢量的方差;

s5.2、對角矩陣h的第(j,j)個元素代表親和矩陣中第j行所有元素之和,再根據(jù)對角矩陣h和a構(gòu)造歸一化的親和矩陣:

s5.3、計(jì)算矩陣l的前kmax個最大的特征值及其特征矢量其中1≤i≤kmax,qi為列矢量,根據(jù)相鄰特征值之間的差值估計(jì)最優(yōu)類別數(shù)(即音頻類數(shù))k:

根據(jù)估計(jì)出來的音頻類型個數(shù)k,構(gòu)造矩陣q=[q1,q2,...,qk]∈rj×k;

s5.4、歸一化矩陣q的每一行,得到矩陣y∈rj×k,y的第(j,k)個元素yjk:

s5.5、將矩陣中的每一行當(dāng)作空間rk中的一個點(diǎn),利用k均值算法(k-meansalgorithm)將矩陣y的j行聚類成k類。將特征矩陣fj所對應(yīng)的音頻段判為第k類,當(dāng)且僅當(dāng)矩陣y的第j行被聚類在第k類中;

s5.6、根據(jù)上述聚類結(jié)果,得到音頻類型個數(shù),并將相同音頻類型的音頻段合并在一起。

上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
乌兰浩特市| 炉霍县| 绿春县| 扎兰屯市| 无为县| 永昌县| 大安市| 德保县| 象州县| 九龙城区| 邻水| 海口市| 黄冈市| 肥西县| 公安县| 文化| 紫金县| 南安市| 崇左市| 冀州市| 双牌县| 松阳县| 紫金县| 永昌县| 阳朔县| 承德县| 吉木萨尔县| 杭锦旗| 唐山市| 永年县| 竹溪县| 无为县| 措美县| 德保县| 伽师县| 定远县| 通河县| 上饶市| 上饶市| 皋兰县| 广东省|