欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種實時聲學事件檢測系統(tǒng)及檢測方法

文檔序號:2835905閱讀:542來源:國知局
專利名稱:一種實時聲學事件檢測系統(tǒng)及檢測方法
技術領域
本發(fā)明涉及一種聲學事件檢測系統(tǒng)及其方法。
背景技術
聲音無處不在,且承載著大量的信息,是人類感知和理解外部世界的重要信息渠道。隨著計算機技術、信號處理技術和多媒體技術的迅猛發(fā)展,越來越多的聲音信號被數(shù)字化處理,并以各種音頻格式存在。面對數(shù)字世界中規(guī)模越來越龐大的音頻數(shù)據(jù)流及其資源庫,人們迫切地需要能夠?qū)σ纛l內(nèi)容進行識別和理解的有效技術手段,從而合理地組織、管理和利用這些音頻資源,并為各種智能系統(tǒng)提供基于聲音的決策依據(jù)信息。聲學事件對應著能夠表征一個完整事件的一段連續(xù)的聲音,從人類聽覺感知的角度,它是具有一定意義的最小聲音單位,例如鼓掌聲、笑聲、腳步聲、槍聲、爆炸聲、玻璃碎裂聲、椅子移動聲、開關門聲、狗吠聲、鳥鳴聲等。聲學事件檢測系統(tǒng)即致力于對這些聲學事件進行識別和有效地分類。聲學事件檢測系統(tǒng)具有廣泛的應用前景(1)它可應用于對音頻內(nèi)容的索引和檢索,是構建多媒體搜索引擎的關鍵技術之一;( 它可以在數(shù)字圖書館、視頻網(wǎng)站等包含大量多媒體資源的機構中扮演重要的角色,對多媒體資源實現(xiàn)按內(nèi)容的統(tǒng)計、組織和管理; (3)它可以廣泛應用于監(jiān)控領域,實現(xiàn)對公共場所、公共服務窗口、公共交通等環(huán)境下突發(fā)狀況的監(jiān)測;(4)它可以在無人駕駛車輛、智能家居、智能會議室等領域,提供基于聲音的感知和理解信息,輔助智能決策過程;(5)它可以應用于信息內(nèi)容安全領域,用于監(jiān)測和屏蔽暴力和色情等有害信息。特定語義音頻場景檢測是音頻識別和理解以及多媒體內(nèi)容感知領域關鍵性研究之一,有助于推動視聽覺信息認知計算的整體發(fā)展,從而使計算機更好地為人類服務。

發(fā)明內(nèi)容
本發(fā)明是為了解決現(xiàn)有的聲學事件檢測系統(tǒng)的實時性差的問題,從而提供一種實時聲學事件檢測系統(tǒng)及檢測方法。一種實時聲學事件檢測系統(tǒng),它包括目標聲學事件識別模型、目標聲學事件識別模型訓練模塊、音頻讀取與播放模塊、音頻特征實時提取模塊、目標聲學事件識別檢測模塊、可視化模塊;目標聲學事件識別模型訓練模塊用于根據(jù)音頻特征實時提取模塊提取出的特征, 訓練目標聲學事件識別模型;音頻讀取與播放模塊,用于實時提取音頻特征并送入音頻特征實時提取模塊;還用于將音頻信號送入可視化模塊;音頻特征實時提取模塊用于對音頻讀取與播放模塊的音頻特征進行提?。荒繕寺晫W事件識別檢測模塊用于在對音頻特征實時提取模塊提取的特征的基礎上進行目標聲學事件識別模型實時事件檢測;并將實時檢測結果送入可視化模塊;
可視化模塊用于顯示音頻讀取與播放模塊的音頻的實時波形,還用于顯示目標聲學事件識別檢測模塊的實時檢測結果。音頻讀取與播放模塊包括音頻讀取模塊、音頻信息提取模塊和音頻播放模塊,音頻讀取模塊用于讀取用戶指定音頻,記錄音頻原始信息,并存儲音頻信號,然后對音頻信號進行預處理后送入音頻特征實時提取模塊;音頻信息提取模塊用于以幀為單位實時提取音頻特征,并對提取特征進行歸正, 將送入音頻特征實時提取模塊;音頻播放模塊用于對用戶指定音頻進行播放、暫停、停止或快進操作。目標聲學事件識別模型訓練模塊包括SVM模型訓練模塊和GMM訓練模塊,用于支持目標聲學事件識別模型建立過程中的多種模式分類方法。目標聲學事件識別檢測模塊包括單分類器識別模塊和分類結果融合模塊;單分類器識別模塊用于通過目標聲學事件的模型對實時提取的音頻特征進行分類,得到初步結果;分類結果融合模塊用于將所述初步結果進行分類及過融合獲得對音頻片段的實時檢測結果??梢暬K包含音頻文件波形顯示模塊和檢測結果顯示模塊;音頻波形顯示模塊用于實時可視化待檢測音頻數(shù)據(jù);檢測結果顯示模塊用于實時可視化檢測模塊得到的結果。它還包括模型管理模塊,所述模型管理模塊用于對訓練模塊中得到的模型進行管理操作,包括模型的加載、刪除和更新?;谏鲜鱿到y(tǒng)的一種實時聲學事件檢測方法,它由以下步驟實現(xiàn)步驟一、建立目標聲學事件識別模型,采用音頻特征實時提取模塊對音頻讀取與播放模塊的音頻特征進行提取,目標聲學事件識別模型訓練模塊根據(jù)提取的特征對目標聲學事件識別模型進行數(shù)據(jù)訓練;步驟二、目標聲學事件識別檢測模塊在對音頻特征實時提取模塊提取的特征的基礎上進行目標聲學事件識別模型實時事件檢測;并將實時檢測結果通過可視化模塊顯示輸
出ο步驟一中采用音頻特征實時提取模塊對音頻讀取與播放模塊的音頻特征進行提取,對提取到的音頻特征的處理方法包括如下步驟步驟Al、音頻信息提取模塊從待分析音頻頭文件中提取信息;步驟A2、根據(jù)待處理音頻數(shù)據(jù)結構信息,采用不同的變換系數(shù)進行設置;步驟A3、從待分析信號數(shù)據(jù)的排序緩沖區(qū)中,選擇能保存新到達數(shù)據(jù)的排序單元;步驟A4、判斷是否能夠找到能保存新到達數(shù)據(jù)的緩沖區(qū),如果判斷結果為是,則執(zhí)行步驟A5;如果判斷結果為否,則申請新的緩沖區(qū),并判斷是否成功申請到新的緩沖區(qū),如果判斷結果為是,則執(zhí)行步驟A5 ;如果判斷結果為否,則執(zhí)行步驟A7 ;步驟A5、將待分析信號數(shù)據(jù)保存到緩沖區(qū);步驟A6、從待分析信號中提取特征,存入特征數(shù)據(jù)單元;步驟A7、結束音頻特征的處理。
步驟二中所述目標聲學事件識別檢測模塊在對音頻特征實時提取模塊提取的特征的基礎上進行目標聲學事件識別模型實時事件檢測的具體方法包括以下步驟步驟Bi、從待分析特征數(shù)據(jù)單元隊列中讀取出一個寫滿特征數(shù)據(jù)的特征數(shù)據(jù)單元;步驟B2、判斷步驟一是否讀取成功,如果判斷結果為否,則在進行一個等待時間后返回執(zhí)行步驟Bl ;如果判斷結果為是,則執(zhí)行步驟B3 ;步驟B3、對讀取的特征數(shù)據(jù)單元中的每一個特征數(shù)據(jù)均做如下操作a、計算特征在不同分類器的分類結果;b、融合不同分類器的結果;C、將分類結果存入結果存儲隊列;步驟B4、當特征數(shù)據(jù)單元中的每一個特征數(shù)據(jù)均完成步驟B3的操作后,返回執(zhí)行步驟Bl,執(zhí)行下一個特征數(shù)據(jù)的讀取。步驟二中所述將實時檢測結果通過可視化模塊顯示輸出的具體方法是步驟Cl、從線程的待分析解碼數(shù)據(jù)單元隊列中取出解碼數(shù)據(jù)單元地址;步驟C2、判斷是否取到解碼數(shù)據(jù)單元地址,如果判斷結果為否,則返回執(zhí)行步驟 Cl ;如果判斷結果為是,則執(zhí)行步驟C3 ;步驟C3、顯示數(shù)據(jù);步驟C4、將數(shù)據(jù)單元中與識別模塊相對應的標識位置1,表示該模塊已經(jīng)完成對數(shù)據(jù)單元的顯示,并返回執(zhí)行步驟Cl。有益效果本發(fā)明的能夠滿足通用聲學事件檢測的實時處理要求。可以對用戶指定的任意有足夠辨識度的聲學事件進行檢測,例如生日、婚禮等聚會場景中的生日歌、婚禮進行曲、管風琴聲、教堂鐘聲等,戰(zhàn)爭、打斗、暴力場景中的槍聲、爆炸聲、搏擊聲、呼救聲等, 足球、籃球、棒球等運動比賽場景中的哨聲、人群的歡呼聲、打擊聲、撞擊聲等,電影街道追車場景中的警笛聲、車輛撞擊聲、急剎車聲、可能伴隨的槍擊聲等,都可以進行實時識別。


圖1是本發(fā)明系統(tǒng)的結構示意圖。
具體實施例方式具體實施方式
一、結合圖1說明本具體實施方式
一種實時聲學事件檢測系統(tǒng),它包括目標聲學事件識別模型1、目標聲學事件識別模型訓練模塊2、音頻讀取與播放模塊3、 音頻特征實時提取模塊4、目標聲學事件識別檢測模塊5和可視化模塊6 ;目標聲學事件識別模型訓練模塊2用于根據(jù)音頻特征實時提取模塊4提取出的特征,訓練目標聲學事件識別模型1 ;音頻讀取與播放模塊3,用于實時提取音頻特征并送入音頻特征實時提取模塊4 ; 還用于將音頻信號送入可視化模塊6 ;音頻特征實時提取模塊4用于對音頻讀取與播放模塊3的音頻特征進行提取;目標聲學事件識別檢測模塊5用于在對音頻特征實時提取模塊4提取的特征的基礎上進行目標聲學事件識別模型1實時事件檢測;并將實時檢測結果送入可視化模塊6 ;可視化模塊6用于顯示音頻讀取與播放模塊3的音頻的實時波形,還用于顯示目標聲學事件識別檢測模塊5的實時檢測結果。本實施方式中,音頻特征提取模塊,負責以幀為單位實時提取各種音頻特征,并傳送給目標聲學事件識別檢測模塊以及目標聲學事件識別模型訓練模塊;由于音頻信號處理中經(jīng)常會用到各種特征,例如梅爾倒譜系數(shù)(mel-frequency cepstral coefficients, MFCC)、線個生預 IlJ IlJ 譜系數(shù)(linear prediction coefficient derived cepstral coefficients, LPCC)、基頻等,所以本發(fā)明的音頻特征提取模塊中同時設置了各種特征提取模塊,例如MFCC特征提取模塊、LPCC特征提取模塊以及基頻特征提取模塊等。本實施方式的數(shù)據(jù)結構設計音頻數(shù)據(jù)結構音頻數(shù)據(jù)結構用于存儲用戶提供的待分析音頻的元信息。音頻數(shù)據(jù)結構包含了分析音頻所需的全部信息,包括采樣率、聲道數(shù)、比特率以及采樣點數(shù)組等等。音頻數(shù)據(jù)的主要結構如下波形塊的大??;格式塊大?。徊ㄐ尉幋a格式;波形文件數(shù)據(jù)中的通道數(shù);波形文件采樣率;平均每秒波形音頻所需要的記錄的字節(jié)數(shù);一個采樣所需要的字節(jié)數(shù);聲音文件數(shù)據(jù)的每個采樣的位數(shù);采樣點的數(shù)目;采樣點數(shù)組實際待分析音頻數(shù)據(jù)。音頻數(shù)據(jù)結構的主要操作如下Bark域變換系數(shù)數(shù)組用于保存變換系數(shù);音頻數(shù)據(jù)讀??;音頻數(shù)據(jù)顯示;FFT變換將時域信號變換到頻域;MFCC特征計算以幀為單位計算MFCC特征;基頻特征計算以幀為單位計算基頻特征;LPCC特征計算以幀為單位計算LPCC特征;識別模型識別模型存儲目標聲學事件的識別模型,不同的模型數(shù)據(jù)結構不同,本發(fā)明中用到SVM和GMM兩種模型。SVM識別模型的數(shù)據(jù)結構如下核的類型不同的核對應于不同SVM模型;多項式核的階數(shù)當使用多項式核時,表示多項式的最高階數(shù);支撐向量數(shù)目以及數(shù)組用于分類的支撐向量數(shù)組;正規(guī)化數(shù)組;伽瑪參數(shù);
偏差參數(shù)。GMM識別模型的數(shù)據(jù)結構如下GMM模型分量數(shù)目;GMM模型均值與協(xié)方差矩陣。SVM識別模型的主要操作如下加載SVM模型參數(shù);計算特征在模型上的打分;特征分類;GMM識別模型的主要操作如下加載GMM模型參數(shù);計算特征在模型上的打分;特征分類。識別模型的其他操作包括不同分類器結果融合。待分析特征數(shù)據(jù)隊列待分析特征數(shù)據(jù)隊列,實現(xiàn)的是待分析特征數(shù)據(jù)傳送緩沖區(qū)的功能。音頻特征提取與特征分類的處理雖是同步的,但可能存在瞬時的速度差異,該隊列用于消除這種瞬時速度差異,同時可以使音頻特征提取與特征分類相互獨立,提高了系統(tǒng)的靈活性。待分析特征數(shù)據(jù)隊列的主要結構如下隊列首指針;隊列尾指針;隊列實際長度;隊列指針數(shù)組保存特征數(shù)據(jù)單元的地址;用于同步控制的變量。特征數(shù)據(jù)單元隊列的主要操作初始化設置隊列最大長度,為隊列指針數(shù)組申請空間;取出單元從隊列中取出一個特征數(shù)據(jù)單元的地址;存入單元將一個特征數(shù)據(jù)單元的地址存入到隊列中;特征數(shù)據(jù)單元隊列采用固定長度指針數(shù)組的形式,長度與系統(tǒng)內(nèi)特征數(shù)據(jù)單元總數(shù)相當,即,能容納所有單元。音頻特征數(shù)據(jù)單元隊列僅僅將音頻特征數(shù)據(jù)單元的地址存入隊列之中,可避免在系統(tǒng)運行過程中的內(nèi)存拷貝、重復申請和釋放內(nèi)存而導致產(chǎn)生大量內(nèi)存碎片。由于指針型數(shù)組所占內(nèi)存較小,盡管其尺寸與系統(tǒng)內(nèi)音頻特征數(shù)據(jù)單元總數(shù)相當,但與系統(tǒng)中音頻特征數(shù)據(jù)單元所占內(nèi)存相比很小。在系統(tǒng)初始化時,首先確定系統(tǒng)內(nèi)的特征數(shù)據(jù)單元總數(shù),然后確定特征數(shù)據(jù)單元隊列大小。系統(tǒng)在運行過程中,將剝離的音頻幀寫入特征數(shù)據(jù)單元,寫滿后將其掛到待解碼特征數(shù)據(jù)單元隊列中,等待解碼處理。實時聲學事件檢測系統(tǒng)接口設計系統(tǒng)運行時,首先通過初始化函數(shù)設置各個模塊的運行參數(shù),如識別模塊中的SVM 參數(shù)、GMM參數(shù)以及音頻信息處理模塊中的預處理變換參數(shù)、Bark變換參數(shù)等。識別線程從特征數(shù)據(jù)緩沖區(qū)隊列中讀取特征數(shù)據(jù),計算特征所屬類別,將結果信息可視化模塊上報給用戶。為方便軟件功能擴展與維護,這些模塊均采用統(tǒng)一的接口,主要函數(shù)如下模塊初始化函數(shù)主要參數(shù)SVM模型文件存儲地址、GMM模型文件存儲地址、變換系數(shù)等;調(diào)用方式顯式調(diào)用;功能初始化音頻讀取與播放模塊、音頻特征提取模塊、目標聲學事件識別檢測模塊。音頻文件讀取函數(shù)主要參數(shù)音頻文件路徑調(diào)用方式顯式調(diào)用,阻塞運行;功能接收用戶提供的音頻數(shù)據(jù),讀入內(nèi)存。模型加載函數(shù)主要參數(shù)模型數(shù)據(jù)結構地址等調(diào)用方式顯式調(diào)用,阻塞運行;功能加載識別模型,包括SVM模型和GMM模型等。刪除指定模型函數(shù)主要參數(shù)模型數(shù)據(jù)結構地址調(diào)用方式顯式調(diào)用,阻塞運行;功能刪除指定的模型??紤]在系統(tǒng)運行的過程中,執(zhí)行刪除模型操作時,模型數(shù)據(jù)可能正在被使用,如果將模型數(shù)據(jù)直接刪除,可能會導致程序運行異常,因此采用兩階段刪除的方法模塊內(nèi)設立兩個模型指針有效模型指針和待刪除模型指針。刪除模型時,先將模型數(shù)據(jù)從有效模型指針移出,加入待刪除模型指針,并為該模型設置一個生命期,然后待其生命期結束后再將該模型徹底刪除。特征提取函數(shù)主要參數(shù)待提取信號數(shù)組首地址調(diào)用方式顯式調(diào)用,阻塞運行;功能對音頻信號以幀為單位提取不同音頻特征。特征識別函數(shù)主要參數(shù)輸入特征、模型結構地址等調(diào)用方式顯式調(diào)用,阻塞運行;功能計算特征在模型上的打分,判斷特征所屬類別。結果融合函數(shù)主要參數(shù)不同分類器分類結果調(diào)用方式顯式調(diào)用,阻塞運行;功能融合不同分類器的結果。本發(fā)明能夠滿足通用聲學事件檢測的實時處理要求??梢詫τ脩糁付ǖ娜我庥凶銐虮孀R度的聲學事件進行檢測,例如生日、婚禮等聚會場景中的生日歌、婚禮進行曲、管風琴聲、教堂鐘聲等,戰(zhàn)爭、打斗、暴力場景中的槍聲、爆炸聲、搏擊聲、呼救聲等,足球、籃球、 棒球等運動比賽場景中的哨聲、人群的歡呼聲、打擊聲、撞擊聲等,電影街道追車場景中的警笛聲、車輛撞擊聲、急剎車聲、可能伴隨的槍擊聲等,都可以進行實時識別,只需重新訓練識別模型即可,而且模型重新訓練的事件只需若干小時即可。
具體實施方式
二、本具體實施方式
具體實施方式
一所述的一種實時聲學事件檢測系統(tǒng)的區(qū)別在于,音頻讀取與播放模塊3包括音頻讀取模塊、音頻信息提取模塊和音頻播放模塊,音頻讀取模塊用于讀取用戶指定音頻(即用戶需要播放,并檢測目標聲音的音頻),記錄音頻原始信息(包括采樣率、聲道數(shù)等),并存儲音頻信號,然后對音頻信號進行預處理后送入音頻特征實時提取模塊;音頻信息提取模塊用于以幀為單位實時提取音頻特征,并對提取特征進行歸正, 將送入音頻特征實時提取模塊4 ;音頻信息提取模塊負責提取待分析音頻的信息,包括采樣率、聲道數(shù)、比特率等;音頻播放模塊用于對用戶指定音頻進行播放、暫停、停止或快進操作。
具體實施方式
三、本具體實施方式
具體實施方式
一所述的一種實時聲學事件檢測系統(tǒng)的區(qū)別在于,目標聲學事件識別模型訓練模塊2包括SVM模型訓練模塊和GMM訓練模塊,用于支持目標聲學事件識別模型建立過程中的多種模式分類方法。由于在數(shù)據(jù)建模中經(jīng)常會用到多種模式分類方法,包括支持向量機(support vector machine,SVM)、高斯混合模型(Gaussian mixture model,GMM)等,所以本發(fā)明的模型訓練模塊中同時設置了各種不同模型的訓練模塊,包括SVM模型訓練模塊、GMM訓練模塊寸。
具體實施方式
四、本具體實施方式
具體實施方式
一所述的一種實時聲學事件檢測系統(tǒng)的區(qū)別在于,目標聲學事件識別檢測模塊5包括單分類器識別模塊和分類結果融合模塊;單分類器識別模塊用于通過目標聲學事件的模型對實時提取的音頻特征進行分類,得到初步結果;分類結果融合模塊用于將所述初步結果進行分類及過融合獲得對音頻片段的實時檢測結果。
具體實施方式
五、本具體實施方式
具體實施方式
一所述的一種實時聲學事件檢測系統(tǒng)的區(qū)別在于,可視化模塊6包含音頻文件波形顯示模塊和檢測結果顯示模塊;音頻波形顯示模塊用于實時可視化待檢測音頻數(shù)據(jù);檢測結果顯示模塊用于實時可視化檢測模塊得到的結果。
具體實施方式
六、本具體實施方式
具體實施方式
一所述的一種實時聲學事件檢測系統(tǒng)的區(qū)別在于,它還包括模型管理模塊7,所述模型管理模塊7用于對訓練模塊中得到的模型進行管理操作,包括模型的加載、刪除和更新。
具體實施方式
七、基于具體實施方式
一所述的一種實時聲學事件檢測方法,它由以下步驟實現(xiàn)步驟一、建立目標聲學事件識別模型1,包括SVM模型和GMM模型等,采用音頻特征實時提取模塊4對音頻讀取與播放模塊3的音頻特征進行提取,目標聲學事件識別模型訓
10練模塊2根據(jù)提取的特征對目標聲學事件識別模型1進行數(shù)據(jù)訓練;步驟二、目標聲學事件識別檢測模塊5在對音頻特征實時提取模塊4提取的特征的基礎上進行目標聲學事件識別模型1實時事件檢測;并將實時檢測結果通過可視化模塊 6顯示輸出。步驟一中采用音頻特征實時提取模塊4對音頻讀取與播放模塊3的音頻特征進行提取,對提取到的音頻特征的處理方法包括如下步驟步驟Al、音頻信息提取模塊從待分析音頻頭文件中提取信息;步驟A2、根據(jù)待處理音頻數(shù)據(jù)結構信息,采用不同的變換系數(shù)進行設置;步驟A3、從待分析信號數(shù)據(jù)的排序緩沖區(qū)中,選擇能保存新到達數(shù)據(jù)的排序單元;步驟A4、判斷是否能夠找到能保存新到達數(shù)據(jù)的緩沖區(qū),如果判斷結果為是,則執(zhí)行步驟A5;如果判斷結果為否,則申請新的緩沖區(qū),并判斷是否成功申請到新的緩沖區(qū),如果判斷結果為是,則執(zhí)行步驟A5 ;如果判斷結果為否,則執(zhí)行步驟A7 ;步驟A5、將待分析信號數(shù)據(jù)保存到緩沖區(qū);步驟A6、從待分析信號中提取特征,存入特征數(shù)據(jù)單元;步驟A7、結束音頻特征的處理。步驟二中所述目標聲學事件識別檢測模塊5在對音頻特征實時提取模塊4提取的特征的基礎上進行目標聲學事件識別模型1實時事件檢測的具體方法包括以下步驟步驟Bi、從待分析特征數(shù)據(jù)單元隊列中讀取出一個寫滿特征數(shù)據(jù)的特征數(shù)據(jù)單元;步驟B2、判斷步驟一是否讀取成功,如果判斷結果為否,則在進行一個等待時間后返回執(zhí)行步驟Bl ;如果判斷結果為是,則執(zhí)行步驟B3 ;步驟B3、對讀取的特征數(shù)據(jù)單元中的每一個特征數(shù)據(jù)均做如下操作a、計算特征在不同分類器的分類結果;b、融合不同分類器的結果;C、將分類結果存入結果存儲隊列;步驟B4、當特征數(shù)據(jù)單元中的每一個特征數(shù)據(jù)均完成步驟B3的操作后,返回執(zhí)行步驟Bl,執(zhí)行下一個特征數(shù)據(jù)的讀取。步驟二中所述將實時檢測結果通過可視化模塊6顯示輸出的具體方法是步驟Cl、從線程的待分析解碼數(shù)據(jù)單元隊列中取出解碼數(shù)據(jù)單元地址;步驟C2、判斷是否取到解碼數(shù)據(jù)單元地址,如果判斷結果為否,則返回執(zhí)行步驟 Cl ;如果判斷結果為是,則執(zhí)行步驟C3 ;步驟C3、顯示數(shù)據(jù);步驟C4、將數(shù)據(jù)單元中與識別模塊相對應的標識位置1,表示該模塊已經(jīng)完成對數(shù)據(jù)單元的顯示,并返回執(zhí)行步驟Cl。本實施方式中,可根據(jù)每類線程處理任務的計算量不同,合理設置每一類線程的睡眠事件,以達到彼此間的協(xié)同。系統(tǒng)采用數(shù)據(jù)驅(qū)動的方式,將系統(tǒng)的運行結構主要劃分成三類獨立并發(fā)運行的線程特征數(shù)據(jù)提取線程、實時識別檢測線程、可視化顯示線程。并在特征數(shù)據(jù)提取線程與實時識別檢測線程之間、特征數(shù)據(jù)提取線程和實時識別檢測線程與可視化顯示線程之間,分別采用待提取特征數(shù)據(jù)單元隊列、待顯示數(shù)據(jù)單元隊列,協(xié)調(diào)線程間的處理速度。該方案能滿足音頻信息的實時在線分析處理要求。本領域普通技術人員可以理解實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。盡管參照優(yōu)選實施例描述了本發(fā)明,但是本發(fā)明不限于上述的實施例,鑒于上述說明,本領域的技術人員可對上述實施例進行各種修改和變化。這些修改和變化也都落入本發(fā)明的權利要求保護范圍之內(nèi)。
權利要求
1.一種實時聲學事件檢測系統(tǒng),其特征是它包括目標聲學事件識別模型(1)、目標聲學事件識別模型訓練模塊O)、音頻讀取與播放模塊(3)、音頻特征實時提取模塊、目標聲學事件識別檢測模塊( 和可視化模塊(6);目標聲學事件識別模型訓練模塊( 用于根據(jù)音頻特征實時提取模塊(4)提取出的特征,訓練目標聲學事件識別模型(1);音頻讀取與播放模塊(3),用于實時提取音頻特征并送入音頻特征實時提取模塊; 還用于將音頻信號送入可視化模塊(6);音頻特征實時提取模塊(4)用于對音頻讀取與播放模塊(3)的音頻特征進行提??; 目標聲學事件識別檢測模塊( 用于在對音頻特征實時提取模塊(4)提取的特征的基礎上進行目標聲學事件識別模型(1)實時事件檢測;并將實時檢測結果送入可視化模塊 (6);可視化模塊(6)用于顯示音頻讀取與播放模塊(3)的音頻的實時波形,還用于顯示目標聲學事件識別檢測模塊(5)的實時檢測結果。
2.根據(jù)權利要求1所述的一種實時聲學事件檢測系統(tǒng),其特征在于音頻讀取與播放模塊C3)包括音頻讀取模塊、音頻信息提取模塊和音頻播放模塊,音頻讀取模塊用于讀取用戶指定音頻,記錄音頻原始信息,并存儲音頻信號,然后對音頻信號進行預處理后送入音頻特征實時提取模塊;音頻信息提取模塊用于以幀為單位實時提取音頻特征,并對提取特征進行歸正,將送入音頻特征實時提取模塊;音頻播放模塊用于對用戶指定音頻進行播放、暫停、停止或快進操作。
3.根據(jù)權利要求1所述的一種實時聲學事件檢測系統(tǒng),其特征在于目標聲學事件識別模型訓練模塊(2)包括SVM模型訓練模塊和GMM模型訓練模塊,用于支持目標聲學事件識別模型建立過程中的多種模式分類方法。
4.根據(jù)權利要求1所述的一種實時聲學事件檢測系統(tǒng),其特征在于目標聲學事件識別檢測模塊( 包括單分類器識別模塊和分類結果融合模塊;單分類器識別模塊用于通過目標聲學事件的模型對實時提取的音頻特征進行分類,得到初步結果;分類結果融合模塊用于將所述初步結果進行分類及過融合獲得對音頻片段的實時檢測結果。
5.根據(jù)權利要求1所述的一種實時聲學事件檢測系統(tǒng),其特征在于可視化模塊(6)包含音頻文件波形顯示模塊和檢測結果顯示模塊;音頻波形顯示模塊用于實時可視化待檢測音頻數(shù)據(jù); 檢測結果顯示模塊用于實時可視化檢測模塊得到的結果。
6.根據(jù)權利要求1所述的一種實時聲學事件檢測系統(tǒng),其特征在于它還包括模型管理模塊(7),所述模型管理模塊(7)用于對訓練模塊中得到的模型進行管理操作,包括模型的加載、刪除和更新。
7.基于權利要求1的一種實時聲學事件檢測方法,其特征是它由以下步驟實現(xiàn) 步驟一、建立目標聲學事件識別模型(1),采用音頻特征實時提取模塊(4)對音頻讀取與播放模塊(3)的音頻特征進行提取,目標聲學事件識別模型訓練模塊( 根據(jù)提取的特征對目標聲學事件識別模型(1)進行數(shù)據(jù)訓練;步驟二、目標聲學事件識別檢測模塊( 在對音頻特征實時提取模塊(4)提取的特征的基礎上進行目標聲學事件識別模型(1)實時事件檢測;并將實時檢測結果通過可視化模塊(6)顯示輸出。
8.基于權利要求1的一種實時聲學事件檢測方法,其特征在于步驟一中采用音頻特征實時提取模塊(4)對音頻讀取與播放模塊(3)的音頻特征進行提取,對提取到的音頻特征的處理方法包括如下步驟步驟Al、音頻信息提取模塊從待分析音頻頭文件中提取信息; 步驟A2、根據(jù)待處理音頻數(shù)據(jù)結構信息,采用不同的變換系數(shù)進行設置; 步驟A3、從待分析信號數(shù)據(jù)的排序緩沖區(qū)中,選擇能保存新到達數(shù)據(jù)的排序單元; 步驟A4、判斷是否能夠找到能保存新到達數(shù)據(jù)的緩沖區(qū),如果判斷結果為是,則執(zhí)行步驟A5 ;如果判斷結果為否,則申請新的緩沖區(qū),并判斷是否成功申請到新的緩沖區(qū),如果判斷結果為是,則執(zhí)行步驟A5 ;如果判斷結果為否,則執(zhí)行步驟A7 ; 步驟A5、將待分析信號數(shù)據(jù)保存到緩沖區(qū); 步驟A6、從待分析信號中提取特征,存入特征數(shù)據(jù)單元; 步驟A7、結束音頻特征的處理。
9.根據(jù)權利要求7的一種實時聲學事件檢測方法,其特征在于步驟二中所述目標聲學事件識別檢測模塊( 在對音頻特征實時提取模塊(4)提取的特征的基礎上進行目標聲學事件識別模型(1)實時事件檢測的具體方法包括以下步驟步驟Bi、從待分析特征數(shù)據(jù)單元隊列中讀取出一個寫滿特征數(shù)據(jù)的特征數(shù)據(jù)單元; 步驟B2、判斷步驟一是否讀取成功,如果判斷結果為否,則在進行一個等待時間后返回執(zhí)行步驟Bl ;如果判斷結果為是,則執(zhí)行步驟B3 ;步驟B3、對讀取的特征數(shù)據(jù)單元中的每一個特征數(shù)據(jù)均做如下操作 a、計算特征在不同分類器的分類結果;b、融合不同分類器的結果;C、將分類結果存入結果存儲隊列;步驟B4、當特征數(shù)據(jù)單元中的每一個特征數(shù)據(jù)均完成步驟B3的操作后,返回執(zhí)行步驟 Bi,執(zhí)行下一個特征數(shù)據(jù)的讀取。
10.根據(jù)權利要求7的一種實時聲學事件檢測方法,其特征在于步驟二中所述將實時檢測結果通過可視化模塊(6)顯示輸出的具體方法是步驟Cl、從線程的待分析解碼數(shù)據(jù)單元隊列中取出解碼數(shù)據(jù)單元地址; 步驟C2、判斷是否取到解碼數(shù)據(jù)單元地址,如果判斷結果為否,則返回執(zhí)行步驟Cl ;如果判斷結果為是,則執(zhí)行步驟C3 ; 步驟C3、顯示數(shù)據(jù);步驟C4、將數(shù)據(jù)單元中與識別模塊相對應的標識位置1,表示該模塊已經(jīng)完成對數(shù)據(jù)單元的顯示,并返回執(zhí)行步驟Cl。
全文摘要
一種實時聲學事件檢測系統(tǒng)及檢測方法,涉及一種聲學事件檢測系統(tǒng)及其方法。它解決了現(xiàn)有的聲學事件檢測系統(tǒng)的實時性差的問題。其音頻波形實時顯示模塊以及音頻內(nèi)容分析結果實時顯示模塊,負責實時提供檢測結果以及波形可視化效果;音頻特征實時提取模塊,負責提取音頻特征,并傳送給音頻內(nèi)容實時分析模塊;目標聲學事件模型訓練模塊,負責訓練識別目標聲學事件的模型;目標聲學事件模型加載模塊,負責加載目標聲學事件的模型;音頻內(nèi)容實時分析模塊,負責對音頻信號內(nèi)容進行分析理解。本發(fā)明的技術方案能滿足通用聲學事件檢測的實時處理要求。本發(fā)明適用于用戶指定的任意有足夠辨識度的聲學事件進行檢測。
文檔編號G10L15/06GK102509545SQ20111028052
公開日2012年6月20日 申請日期2011年9月21日 優(yōu)先權日2011年9月21日
發(fā)明者石自強, 韓紀慶 申請人:哈爾濱工業(yè)大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
台中市| 仁怀市| 得荣县| 平度市| 林芝县| 黄大仙区| 老河口市| 鄢陵县| 横峰县| 新民市| 贵定县| 鄂托克前旗| 广灵县| 华容县| 宁安市| 广水市| 耿马| 霍林郭勒市| 巩义市| 安化县| 台山市| 旬阳县| 左贡县| 安陆市| 博野县| 白水县| 英德市| 鄂尔多斯市| 资兴市| 北川| 石柱| 黔西县| 海兴县| 碌曲县| 阜新| 镇巴县| 平邑县| 太原市| 韶山市| 根河市| 陆良县|