欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法

文檔序號:2826321閱讀:364來源:國知局
基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法
【專利摘要】本發(fā)明涉及一種基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于,包括以下步驟:S01:分別對純凈聲音和測試帶噪聲音進(jìn)行OMP稀疏分解,對應(yīng)輸出純凈聲音和測試帶噪聲音的重構(gòu)信號和OMP特征;S02:分別對純凈聲音和測試帶噪聲音提取包括OMP特征在內(nèi)的復(fù)合特征;S03:對重構(gòu)后的純凈聲音提取的復(fù)合特征進(jìn)行DBN模型訓(xùn)練;S04:對重構(gòu)后的測試帶噪聲音和訓(xùn)練后的純凈聲音提取的復(fù)合特征進(jìn)行DBN模型分類,輸出測試帶噪聲音所屬的生態(tài)聲音類別。本發(fā)明對系統(tǒng)抗噪性和魯棒性的提高更為顯著。
【專利說明】基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法。
【背景技術(shù)】
[0002]近年來,棲息地保護(hù)受到越來越廣泛的關(guān)注,部分地區(qū)已大規(guī)模部署監(jiān)控以掌握實時信息。通過分析和識別生態(tài)環(huán)境中包含的音頻信息,可以為入侵監(jiān)測、物種勘察等應(yīng)用提供數(shù)據(jù)支持。在現(xiàn)實環(huán)境中,復(fù)雜多變的背景噪聲是普遍存在的,因此,噪聲環(huán)境下的生態(tài)聲音識別具有重要的實際意義。
[0003]目前語音與音樂分類識別技術(shù)較多,而環(huán)境聲音的研究相對較少。不同環(huán)境包含的音頻信息差別很大,如餐廳,廣場等嘈雜環(huán)境中,更多的是說話聲、碰撞聲或車聲等,生態(tài)環(huán)境中的音頻更側(cè)重于動物和自然所產(chǎn)生的聲音。目前有較多方法針對如鳥叫或蛙叫等單類別聲音改進(jìn)的識別算法,應(yīng)用范圍較為有限,例如=Chen等人提出頻域特征多級平均譜(Mult1-StageAverageSpectrum, MSAS),結(jié)合音節(jié)長度對18種娃類聲音進(jìn)行兩次識別分類,識別效果優(yōu)于單獨利用MSAS特征,但是對于重疊的動物叫聲,音節(jié)長度分類顯然不能奏效;Lee等人使用高斯混合模型(GMM)對譜圖形態(tài)特征進(jìn)行建模,對連續(xù)型鳥叫進(jìn)行分類識別。還有一些多類別生態(tài)聲音識別的研究如=Raju等人提取基音,共振峰和短時能量特征集結(jié)合支持向量機(jī)(SVM)對包括貓狗獅子在內(nèi)的19種動物聲音進(jìn)行分類識別;Zhang等人提取改進(jìn)的Mel頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)作為特征并使用GMM對多種昆蟲聲音分類識別。
[0004]以上這些方法都存在一些不足之處,GMM和隱馬爾科夫模型(HMM)在語音等結(jié)構(gòu)化聲音上應(yīng)用較為廣泛,而生態(tài)聲音隨機(jī)性較大,且并非都是結(jié)構(gòu)化的,所以使用上述產(chǎn)生式模型并不穩(wěn)定。判別式模型SVM和一些傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)能夠較好的對非線性可分類進(jìn)行建模,但在高維特征及類別數(shù)量較多時,分類效果還不如GMM或HMM。

【發(fā)明內(nèi)容】

[0005]有鑒于此,本發(fā)明的目的是提供一種基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法。
[0006]本發(fā)明采用以下方案實現(xiàn):一種基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于,包括以下步驟:
[0007]SOl:分別對純凈聲音和測試帶噪聲音進(jìn)行OMP稀疏分解,對應(yīng)輸出純凈聲音和測試帶噪聲音的重構(gòu)信號和OMP特征;
[0008]S02:分別對純凈聲音和測試帶噪聲音提取包括OMP特征在內(nèi)的復(fù)合特征;
[0009]S03:對重構(gòu)后的純凈聲音提取的復(fù)合特征進(jìn)行DBN模型訓(xùn)練;
[0010]S04:對重構(gòu)后的測試帶噪聲音和訓(xùn)練后的純凈聲音提取的復(fù)合特征進(jìn)行DBN模型分類,輸出測試帶噪聲音所屬的生態(tài)聲音類別。
[0011]在本發(fā)明一實施例中,假設(shè)待分解信號f,長度為N,進(jìn)行稀疏分解之前,首先構(gòu)造過完備原子字典D=(gY) Y e r,時頻原子gY是Gabor原子,由參數(shù)組Y = (s,u, v,w)定義,平移因子u定義一個原子gY的中心位置,伸縮因子S,頻率因子V和相位因子w定義其波形,其離散化時頻參數(shù)Y = (s, u, V, w) = (aJ, paJ Δ u, ka_J Δ ν, 1八《0,其中,0〈」(1g2N,O ^ ρ ^ N2_J+1,0 ^ k〈2J+1,012, a=2, Δ u=l/2, Δ v= ji , Δ w= π /6 ;所述步驟 SOI 具
體步驟包括:
[0012]SOll:初始化信號殘差RQf=f,迭代次數(shù)k=l,最大迭代次數(shù)L ;
[0013]S012:從過完備原子字典D中選出第k次迭代與信號殘差最為相關(guān)的原子gYk,
【權(quán)利要求】
1.一種基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于,包括以下步驟: s01:分別對純凈聲音和測試帶噪聲音進(jìn)行OMP稀疏分解,對應(yīng)輸出純凈聲音和測試帶噪聲音的重構(gòu)信號和OMP特征; s02:分別對純凈聲音和測試帶噪聲音提取包括OMP特征在內(nèi)的復(fù)合特征; s03:對重構(gòu)后的純凈聲音提取的復(fù)合特征進(jìn)行DBN模型訓(xùn)練; s04:對重構(gòu)后的測試帶噪聲音和訓(xùn)練后的純凈聲音提取的復(fù)合特征進(jìn)行DBN模型分類,輸出測試帶噪聲音所屬的生態(tài)聲音類別。
2.根據(jù)權(quán)利要求1所述的基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于,假設(shè)待分解信號f,長度為N,進(jìn)行稀疏分解之前,首先構(gòu)造過完備原子字典D= (gY)Y e r,時頻原子8¥是Gabor原子,由參數(shù)組Y = (s, u, v, w)定義,平移因子u定義一個原子gY的中心位置,伸縮因子S,頻率因子V和相位因子W定義其波形,其離散化時頻參數(shù)Y = (S,U,V, w) = (aJ, paJ Δ u, ka_J Δ v, i Δ w),其中,0〈j ^ 1g2N, 0 ^ p ^ N2_J+1,0 ^ k〈2J+1,0 ^ i ^ 12,a=2, Δ u=l/2, Δ V= , Δ w= π/6 ;所述步驟SOI具體步驟包括: s011:初始化信號殘差RtlPf,迭代次數(shù)k=l,最大迭代次數(shù)L ; s012:從過完備原子字典D中選出第k次迭代與信號殘差最為相關(guān)的原子gYk,
3.根據(jù)權(quán)利要求2所述的基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于,所述步驟S012,利用GSO搜索最優(yōu)原子,具體步驟包括: s001:初始化螢火蟲種群規(guī)模n,熒光素Ii,決策域半徑IV最大迭代次數(shù)tmax并隨機(jī)生成螢火蟲;
s002:根據(jù) Xi (t) = (Si (t),Ui (t),Vi (t),Wi (t))和 f (Xi (t)) = I <Rkf, g Y (Xi (t))> 計算螢火蟲i在第t次迭代的所處位置Xi⑴的目標(biāo)值f (Xi⑴),并根據(jù)IJt-1)+ηf (Xi⑴)轉(zhuǎn)化為熒光素值Ii(t),其中,P e (O, I)為熒光素消失率,η e (O, I)為熒光素更新率; s003:每只螢火蟲i在其動態(tài)決策域rj(i)內(nèi)搜尋熒光素比自身大的個體組成鄰域集Ni (t),Ni(I) = {/: Ciij(J) < 1--(I)JiH) < Ij(J)S) < /;;(/) < /; ,其中 rs 為螢火蟲決策域的最大值; s004:計算螢火蟲個體i向鄰域集Ni⑴內(nèi)任一個體j移動的概率Pij,
4.根據(jù)權(quán)利要求1所述的基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于,所述步驟S02具體為:提取包括OMP特征、MFCCs特征和基音特征的復(fù)合特征;其中,提取OMP特征的方法具體為利用OMP分解每一幀聲音信號,獲得表示該幀信號的支撐集前L個原子時頻參數(shù)組中伸縮因子s和頻率因子V的均值和標(biāo)準(zhǔn)差,構(gòu)成4維OMP特征,
5.根據(jù)權(quán)利要求4所述的基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于:選取MFCCs補(bǔ)充OMP特征使用,首先采用24階Mel濾波器組,對重構(gòu)信號作離散傅里葉變換后得到12維MFCCs靜態(tài)特征,再加上對數(shù)能量作為其第13維特征。
6.根據(jù)權(quán)利要求4所述的基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于:選取PITCH補(bǔ)充OMP特征使用,采用循環(huán)平均幅度差函數(shù)法獲得每幀對應(yīng)的I維PITCH特征。
7.根據(jù)權(quán)利要求1所述的基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于:所述DBN模型訓(xùn)練包括兩個步驟,第一步采用無監(jiān)督逐層貪心的策略進(jìn)行預(yù)訓(xùn)練,將已標(biāo)記好的生態(tài)聲音特征初始化DBN最底層的可見層節(jié)點的狀態(tài)值,這樣使得具體特征逐漸抽象化;第二步使用正確標(biāo)注信息有監(jiān)督的訓(xùn)練BP網(wǎng)絡(luò),并將修正信息自頂向下的傳播至每一層RBM進(jìn)行微調(diào)。
8.根據(jù)權(quán)利要求7所述的基于快速稀疏分解和深度學(xué)習(xí)的生態(tài)聲音識別方法,其特征在于:RBM網(wǎng)絡(luò)采用ContrastiveDivergence準(zhǔn)則作為自訓(xùn)練策略,每層均由一個可視層V和隱層H組成,通過自底向上的層間加權(quán)連接組合多個RBM,用隱層單元的輸出作為上層RBM可視層的輸入,從而構(gòu)建一個DBN框架,RBM包含三個參數(shù),分別是可見層和隱層之間的權(quán)值W,以及各自偏置量b和C,因此對DBN分類器訓(xùn)練的過程轉(zhuǎn)化為對RBM參數(shù)的求解,假設(shè)可視層和隱層的節(jié)點值分別為Vi和hp可視層V每一個節(jié)點置I的概率為
【文檔編號】G10L17/04GK103531199SQ201310472330
【公開日】2014年1月22日 申請日期:2013年10月11日 優(yōu)先權(quán)日:2013年10月11日
【發(fā)明者】李應(yīng), 歐陽楨 申請人:福州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
达日县| 樟树市| 沾益县| 苏尼特左旗| 榆林市| 金乡县| 新巴尔虎左旗| 海原县| 宽城| 宁乡县| 久治县| 昌图县| 台州市| 双鸭山市| 内乡县| 广元市| 平潭县| 苏尼特右旗| 靖江市| 汝阳县| 兴海县| 襄垣县| 雷州市| 务川| 霸州市| 昌江| 庄浪县| 盘山县| 拜城县| 包头市| 高平市| 九寨沟县| 辽中县| 佛学| 苍南县| 博兴县| 司法| 镇康县| 潜山县| 张家口市| 奈曼旗|