欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于音頻事件和主題模型的音頻場景識別方法及其裝置與流程

文檔序號:11954771閱讀:314來源:國知局
一種基于音頻事件和主題模型的音頻場景識別方法及其裝置與流程

本發(fā)明屬于音頻識別領(lǐng)域,尤其涉及一種基于音頻事件和主題模型的音頻場景識別方法及其裝置。



背景技術(shù):

音頻場景識別是指對于一個音頻文檔,識別出該音頻文檔所發(fā)生的環(huán)境,或者換句話說,音頻場景識別是指通過音頻信息來感知周圍環(huán)境。音頻場景識別技術(shù)具有非常廣泛的應(yīng)用價值,將其用于移動終端設(shè)備可以使設(shè)備很好地感知周圍環(huán)境,進而能自動地調(diào)整設(shè)備狀態(tài);音頻場景識別還可以用于智能家居、老年人健康監(jiān)護等等。

主題模型是在文本分析領(lǐng)域廣泛應(yīng)用的一類模型,近幾年有很多研究將其用于音頻領(lǐng)域,并且已有研究將主題模型用于音頻場景識別。當(dāng)前的研究在將主題模型用于音頻場景識別時一般都是遵循以下范式:首先將音頻文檔進行分割處理得到一系列幀;然后將這些幀進行聚類以創(chuàng)建音頻字典;根據(jù)字典將幀映射成音頻字;對映射后的音頻字進行統(tǒng)計以生成音頻文檔-音頻字共現(xiàn)矩陣;用主題模型對音頻文檔-音頻字共現(xiàn)矩陣進行分析可以得到每個音頻文檔的主題分布;用主題分布作為音頻特征來表征音頻文檔,最后通過分類模型實現(xiàn)音頻場景識別。

從以上范式可以看出當(dāng)前的研究主要都是對音頻文檔-音頻字共現(xiàn)矩陣進行主題分析,這種傳統(tǒng)的將主題模型用于音頻場景識別時所遵循的范式與人類進行音頻場景識別的思維模式不一致:通常人類在進行音頻場景識別時會首先分析音頻文檔中都有哪些音頻事件,然后根據(jù)這些音頻事件進一步分析這些音頻事件想要反映什么主題,最后,通過對這些主題的分析做出識別判斷;而上述傳統(tǒng)的做法中沒有考慮音頻事件,而是以音頻字作為統(tǒng)計單元,音頻字沒有明確的物理含義,也不是人類進行場景識別時所考慮的物理單元,因此上述傳統(tǒng)的識別方法與人類進行音頻場景識別的思維模式不一致。人工智能領(lǐng)域的專家一直都在致力于研究如何讓機器模仿人類的思維模式進行思考,研究表明,使機器模仿人類的思維模式進行思考能很好地提高機器的智能水平,因此,與那些和人類識別思維模式一致的方法相比,上述傳統(tǒng)的識別方法的識別準確率會相對較低,為了解決上述問題,本發(fā)明提出對音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析。

在求音頻文檔-音頻事件共現(xiàn)矩陣時,常規(guī)的方法是首先對音頻文檔中的音頻事件進行分類識別,然后進行統(tǒng)計得到音頻文檔-音頻事件共現(xiàn)矩陣。常規(guī)方法在分類識別音頻事件時需要創(chuàng)建分類模型,當(dāng)音頻事件類別較多時,計算量將會非常大;此外,常規(guī)的求取方法容易受音頻事件誤分類的影響,導(dǎo)致訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣和測試集的音頻文檔-音頻事件共現(xiàn)矩陣的一致性較差,進而降低音頻場景識別準確率。



技術(shù)實現(xiàn)要素:

為了解決現(xiàn)有技術(shù)的缺點,本發(fā)明提供一種基于音頻事件和主題模型的音頻場景識別方法及其裝置。本發(fā)明的該方法對音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析;同時,為了突出音頻文檔的主題,對音頻文檔的音頻事件分布進行了加權(quán)處理,加權(quán)的權(quán)值是根據(jù)音頻事件的主題熵來確定的。

為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種基于音頻事件和主題模型的音頻場景識別方法,包括:

步驟(1):訓(xùn)練音頻場景分類模型;

訓(xùn)練音頻場景分類模型的具體過程包括:

步驟(1.1):獲取訓(xùn)練音頻文檔并存儲至訓(xùn)練音頻文檔集中,對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔進行分幀和提取特征處理,創(chuàng)建音頻字典;

步驟(1.2):求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣;

步驟(1.3):用主題模型PLSA對訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析,求得訓(xùn)練音頻文檔集中每個音頻文檔的主題分布;

步驟(1.4):將每個音頻文檔的主題分布作為音頻文檔的音頻特征來訓(xùn)練音頻場景分類模型;

步驟(2):求取待識別音頻文檔的主題分布作為音頻特征,并將求取的音頻特征代入音頻場景分類模型中進行分類識別,最終輸出待識別音頻文檔的音頻場景類別。

本發(fā)明對音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析,對音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析與人類的音頻場景識別模式更加一致,因此本發(fā)明提出的音頻場景識別思路更加合理,能有效地提高識別準確率。

在步驟(1.1)中對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔進行分幀處理的過程中,因為音頻文檔是短時平穩(wěn)的,如果相鄰兩幀之間沒有重疊的話,很可能會導(dǎo)致后續(xù)特征提取步驟中提取的音頻特征在相鄰兩幀之間的變化較大,因此,為了使音頻特征平滑變化,在分幀處理時設(shè)置幀與幀之間有50%的重疊。

在步驟(1.1)中還對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔提取MFCC特征,在對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔提取MFCC特征之后,對訓(xùn)練音頻文檔集里每一音頻場景類中的所有幀進行聚類,聚類后取簇質(zhì)心組成音頻字典,簇質(zhì)心為音頻字典的音頻字。采用聚類的方法生成音頻字典是在用主題模型對音頻文檔進行主題分析時業(yè)內(nèi)常用的方法,該方法簡單高效。

在所述步驟(1.2)中求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣的過程中,包括:

根據(jù)音頻字典將訓(xùn)練音頻文檔集中所有幀映射成音頻字;

統(tǒng)計訓(xùn)練音頻文檔集里每個音頻文檔中各個音頻字的出現(xiàn)次數(shù),得到訓(xùn)練音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣;

統(tǒng)計訓(xùn)練音頻文檔集里每個標注的音頻事件中各個音頻字的出現(xiàn)次數(shù),得到訓(xùn)練音頻文檔集的音頻事件-音頻字共現(xiàn)矩陣。對于具有多個音頻事件標簽的音頻幀,其在參與統(tǒng)計音頻事件-音頻字共現(xiàn)矩陣時,是按比例分配給其內(nèi)包含的各個音頻事件,在標簽序列中排序越靠前的音頻事件獲得的比例成分越大;

采用主題模型PLSA將音頻文檔-音頻字共現(xiàn)矩陣分解成第一子矩陣和第二子矩陣相乘的形式,其中,第一子矩陣為音頻事件-音頻字共現(xiàn)矩陣,第二子矩陣中的每一列對應(yīng)一個訓(xùn)練音頻文檔在各個音頻事件上的概率分布;

采用主題模型PLSA對第一子矩陣進行矩陣分解,生成音頻事件-主題矩陣,音頻事件-主題矩陣的每一列表示一個音頻事件在各個主題上的概率分布;

根據(jù)音頻事件-主題矩陣的每一列中的音頻事件-主題分布求取各個音頻事件的主題熵;

根據(jù)主題熵求取各個音頻事件的加權(quán)系數(shù);

采用各個音頻事件的加權(quán)系數(shù)對訓(xùn)練音頻文檔中的音頻事件分布進行加權(quán),對加權(quán)后的音頻事件分布進行歸一化,并乘上訓(xùn)練音頻文檔集中音頻幀的總數(shù)目,最終得到訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣。

根據(jù)音頻字典將訓(xùn)練音頻文檔集中所有幀映射成音頻字的方法為:

對訓(xùn)練音頻文檔集中的每個幀,從音頻字典中找出與其最近鄰的音頻字來表示相應(yīng)的幀。

本發(fā)明提出的通過矩陣分解求取音頻文檔-音頻事件共現(xiàn)矩陣的方法能很好地保證訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣和測試集的音頻文檔-音頻事件共現(xiàn)矩陣的一致性,因而能有效地提高音頻場景識別準確率。

此外,音頻事件分布加權(quán)處理后,音頻文檔的主題將更加突出,將能更好地表征不同的音頻場景,因而更有利于后續(xù)的音頻場景識別;本發(fā)明提出的加權(quán)方法并不局限于對音頻事件分布的加權(quán),該加權(quán)方法的思路可以推廣至任何其它使用主題模型進行分類識別的方法中。

所述步驟(2)求取待識別音頻文檔的主題分布作為音頻特征的過程,包括:

獲取待識別音頻文檔并存儲至待識別音頻文檔集中,求取待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣;

采用主題模型PLSA對待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析,求得待識別音頻文檔集中每個音頻文檔的主題分布;

將待識別音頻文檔集中每個音頻文檔的主題分布作為待識別音頻文檔的音頻特征。

每個音頻文檔中可能包含多個主題,但是這些主題的主次地位不同,那些分布概率大的主題是音頻文檔的主要主題,那些分布概率小的主題是次要主題;同理,每一種音頻場景類可能包含多個主題,這些主題的主次地位不同,同一音頻場景類中的音頻文檔的主要主題將集中于某幾個主題上,不同音頻場景類中的音頻文檔的主要主題趨向于集中在不同的主題上,因此音頻文檔的主題分布能很好地表征其場景類別信息,將使得不同音頻場景類下的音頻文檔具有很好的區(qū)分性。

待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣求取過程,包括:

對待識別音頻文檔進行分幀處理,幀與幀之間有50%的重疊,并提取待識別音頻文檔每一幀的MFCC特征;

根據(jù)音頻字典將待識別音頻文檔集中所有幀映射成音頻字;

統(tǒng)計待識別音頻文檔集里每個音頻文檔中各個音頻字的出現(xiàn)次數(shù),得到待識別音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣;

采用主題模型PLSA將待識別音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣分解成第一子矩陣和第二子矩陣相乘的形式,其中,第一子矩陣為訓(xùn)練音頻文檔集的音頻事件-音頻字共現(xiàn)矩陣;第二子矩陣中的每一列對應(yīng)一個待識別音頻文檔在各個音頻事件上的概率分布;

采用訓(xùn)練階段求得的各個音頻事件的加權(quán)系數(shù)對待識別音頻文檔中的音頻事件分布進行加權(quán),對加權(quán)后的音頻事件分布進行歸一化,并乘上待識別音頻文檔集中音頻幀的總數(shù)目,最終得到待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣。

根據(jù)音頻字典將待識別音頻文檔集中所有幀映射成音頻字的方法為:

對待識別音頻文檔集中的每個幀,從音頻字典中找出與其最近鄰的音頻字來表示相應(yīng)的幀。

一種基于音頻事件和主題模型的音頻場景識別裝置,包括:

音頻場景分類模型生成模塊,所述音頻場景分類模型生成模塊包括音頻字典創(chuàng)建模塊,其被配置為獲取訓(xùn)練音頻文檔并存儲至訓(xùn)練音頻文檔集中,對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔進行分幀和提取特征處理,創(chuàng)建音頻字典;

音頻文檔-音頻事件共現(xiàn)矩陣求取模塊,其被配置為求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣;

音頻文檔的主題分布求取模塊,其被配置為采用主題模型PLSA對訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析,求得訓(xùn)練音頻文檔集中每個音頻文檔的主題分布;

音頻場景分類模型訓(xùn)練模塊,其被配置為將每個訓(xùn)練音頻文檔的主題分布作為音頻文檔的音頻特征來訓(xùn)練音頻場景分類模型;

所述音頻場景識別裝置還包括音頻特征提取模塊,其被配置為提取待識別音頻文檔的主題分布作為音頻特征;

輸出模塊,其被配置為將待識別音頻文檔的音頻特征代入音頻場景分類模型中進行分類識別,并輸出待識別音頻文檔的音頻場景類別。

本發(fā)明的有益效果為:

(1)本發(fā)明提出以音頻事件作為統(tǒng)計單元,創(chuàng)新性地對音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析,其與人類的音頻場景識別模式更加一致,因此本發(fā)明提出的音頻場景識別思路更加合理,更能提高識別的準確率。

(2)為了突出音頻文檔的音頻主題,本發(fā)明提出對音頻文檔的音頻事件分布進行加權(quán);該加權(quán)方法的權(quán)值是通過音頻事件的主題熵確定的,因此那些主題突出的音頻事件將得到加強,而那些主題不突出的音頻事件將被削弱。加權(quán)處理后,音頻文檔的主題將更加突出,將能更好地表征不同的音頻場景,因而更有利于后續(xù)的音頻場景識別;本發(fā)明提出的加權(quán)方法并不局限于對音頻事件分布的加權(quán),該加權(quán)方法的思路可以推廣至任何其它使用主題模型進行分類識別的方法中。

(3)本發(fā)明通過PLSA矩陣分解的方法求取音頻文檔-音頻事件共現(xiàn)矩陣,本發(fā)明提出的音頻文檔-音頻事件共現(xiàn)矩陣求取方法和常規(guī)的求取方法相比具有以下優(yōu)勢:本發(fā)明提出的矩陣分解方法不需要創(chuàng)建分類模型,因而計算量小,求解的效率高;能很好地保證訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣和測試集的音頻文檔-音頻事件共現(xiàn)矩陣的一致性,因而能有效地提高音頻場景識別準確率。

附圖說明

圖1是本發(fā)明提出的音頻場景識別方法示意圖;

圖2是訓(xùn)練音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣分解過程示意圖;

圖3是訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣分解過程示意圖;

圖4是待識別音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣分解過程示意圖;

圖5是識別階段對待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣分解過程示意圖。

具體實施方式

下面結(jié)合附圖與實施例對本發(fā)明做進一步說明:

如圖1所示,本發(fā)明提出的音頻場景識別方法主要分為兩大模塊:訓(xùn)練過程和識別過程。其中,訓(xùn)練過程包括創(chuàng)建音頻字典、求取音頻文檔-音頻事件共現(xiàn)矩陣、基于PLSA的主題分析和訓(xùn)練分類模型四部分;識別過程包括求取音頻文檔-音頻事件共現(xiàn)矩陣、基于PLSA的主題分析和識別輸出三部分。以下將對各個部分做詳細介紹。

首先介紹訓(xùn)練過程:

(一)創(chuàng)建音頻字典

對訓(xùn)練音頻文檔進行分幀處理。因為對音頻信號提取頻域特征時,要求信號必須是平穩(wěn)的,而音頻信號具有短時平穩(wěn)特性,因此分幀時幀長不能取得過長,通常幀長在20~60毫秒之間取值,本發(fā)明將幀長設(shè)定為30毫秒,將音頻文檔分割成30毫秒長的幀。為了使相鄰幀的特征平滑變化,設(shè)定幀與幀之間有50%的重疊。對每個幀提取39維的MFCC特征。標準的MFCC特征是13維的,標準MFCC只反映了音頻的靜態(tài)特征。研究表明把靜態(tài)、動態(tài)特征結(jié)合起來能有效地提高系統(tǒng)的識別性能,為此,本發(fā)明在提取標準MFCC的同時,通過一階差分和二階差分求得動態(tài)MFCC特征,靜態(tài)、動態(tài)特征總計39維。對訓(xùn)練集里每一音頻場景類中的所有幀進行k均值聚類,聚類后取簇質(zhì)心組成音頻字典,也就是說音頻字典是由訓(xùn)練集中各個音頻場景類聚類后的簇質(zhì)心創(chuàng)建成的,這些簇質(zhì)心稱為音頻字典的音頻字。

(二)求取音頻文檔-音頻事件共現(xiàn)矩陣

首先根據(jù)音頻字典將訓(xùn)練集中所有幀映射成音頻字,映射的方法是:對每個幀,從音頻字典中找出與其最近鄰(基于歐氏距離)的音頻字,用此音頻字來表示該幀;其次,統(tǒng)計訓(xùn)練集里每個音頻文檔中各個音頻字的出現(xiàn)次數(shù),得到訓(xùn)練集的音頻文檔-音頻字共現(xiàn)矩陣,記為Ctrain。訓(xùn)練音頻文檔中的音頻事件可以提前進行標注,因此訓(xùn)練集中各個幀的音頻事件標簽是已知的,為此,可以統(tǒng)計訓(xùn)練集里每個音頻事件中各個音頻字的出現(xiàn)次數(shù),進而得到訓(xùn)練集的音頻事件-音頻字共現(xiàn)矩陣,記為Atrain。

假設(shè)訓(xùn)練集中共有N個音頻文檔和n個不同的音頻事件,分別記為{d1,…,dN}和{e1,e2,…,en},假設(shè)音頻字典中共有M個音頻字,則Ctrain是一個M×N的矩陣,Atrain是一個M×n的矩陣。用主題模型PLSA(Probabilistic Latent Semantic Analysis)對矩陣Ctrain進行分解,將Ctrain分解成Atrain和Btrain相乘的形式,如圖2所示。Btrain是一個n×N的矩陣,其每一列對應(yīng)一個音頻文檔,表示音頻文檔在各個音頻事件上的概率分布;其中,N、M和n均為大于等于1的正整數(shù)。

由于在音頻文檔中,同一時刻經(jīng)常會有多個音頻事件同時發(fā)生,因此在為訓(xùn)練音頻文檔標注音頻事件時,某一時間段若有多個音頻事件同時發(fā)生,將標注所有的音頻事件標簽,但是要對這些標簽根據(jù)人類感知特性進行排序,也就是說最突出的、首先被感知的音頻事件的標簽排在第一位,其次被感知的音頻事件的標簽排在第二位,以此類推。在此標注情況下,訓(xùn)練集的音頻事件-音頻字共現(xiàn)矩陣Atrain的統(tǒng)計方法如下:

假設(shè)訓(xùn)練集中某個音頻文檔的某一幀的音頻事件標簽有m個,其音頻事件標簽序列為[l1,l2,…,lm],li(i=1,…,m)表示其音頻事件標簽序列中的第i個標簽,li從{e1,e2,…,en}中取值。其中,m為大于等于1的正整數(shù)。在統(tǒng)計音頻事件-音頻字共現(xiàn)矩陣Atrain時,這一音頻幀將參與其內(nèi)包含的所有音頻事件的統(tǒng)計,但參與的比例不同。在統(tǒng)計該音頻文檔中由li所代表的音頻事件的出現(xiàn)次數(shù)時,該音頻幀參與的比例co(li)為:

<mrow> <mi>c</mi> <mi>o</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mrow> <mo>(</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

滿足

這表明:對于具有多個音頻事件標簽的音頻幀,其在參與統(tǒng)計音頻事件-音頻字共現(xiàn)矩陣Atrain時,是按比例分配給其內(nèi)包含的各個音頻事件,在標簽序列中排序越靠前的音頻事件獲得的比例成分越大。之所以如此設(shè)置是因為人類在識別音頻場景時,主要是根據(jù)音頻文檔中的突出音頻事件進行判斷,而將其它次要音頻事件作為輔助,因此按照公式(1)將一幀按比例分配給各個音頻事件將有助于強調(diào)音頻文檔中的突出音頻事件。

在反映音頻文檔的主題時,各個音頻事件所發(fā)揮的作用是不同的,為了突出強調(diào)那些對反映主題起重要作用的音頻事件,有必要對音頻文檔的音頻事件分布進行加權(quán)。本發(fā)明認為如果一個音頻事件的主題十分突出,則這樣的音頻事件更加重要。

本發(fā)明用主題熵反映音頻事件的重要性,為此,首先通過PLSA對音頻事件-音頻字共現(xiàn)矩陣Atrain進行矩陣分解。假設(shè)有T1個潛在主題{z1,…,zT1},z1表示第1個潛在主題,zT1表示第T1個潛在主題,則經(jīng)過PLSA矩陣分解后可以生成一個尺寸為T1×n的音頻事件-主題矩陣,記為E,E的每一列表示一個音頻事件在主題{z1,…,zT1}上的概率分布。矩陣E的第(i,j)個元素記為其中,zi表示第i個主題,ej表示第j個音頻事件,表示音頻事件ej在主題zi上的概率值。用尺寸為1×n的向量H表示各個音頻事件的主題熵,其第j個元素記為H(ej),H(ej)表示音頻事件ej的主題熵,其值通過下式求解:

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>T</mi> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>p</mi> <msub> <mi>z</mi> <mi>i</mi> </msub> <msub> <mi>e</mi> <mi>j</mi> </msub> </msubsup> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msubsup> <mi>p</mi> <msub> <mi>z</mi> <mi>i</mi> </msub> <msub> <mi>e</mi> <mi>j</mi> </msub> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中,表示矩陣E的第(i,j)個元素,zi表示第i個主題,ej表示第j個音頻事件。對音頻事件來說,主題熵值越小意味著其主題越突出,換句話說,主題熵越小意味著該音頻事件的發(fā)生主要反映少數(shù)幾個主題;而主題熵值越大意味著該音頻事件的發(fā)生將會反映很多不同的主題。因此,本發(fā)明認為主題熵越小的音頻事件,其對反映音頻場景的主題的重要性越大?;谥黝}熵,本發(fā)明設(shè)計了一個系數(shù),用其來評價音頻事件的重要性,并用其對音頻文檔的音頻事件分布進行加權(quán)。用尺寸為1×n的向量c來表示各個音頻事件的加權(quán)系數(shù),其第i個元素記為c(ei),c(ei)表示音頻事件ei的加權(quán)系數(shù),其求解方法如下:

<mrow> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mo>|</mo> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>H</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>/</mo> <mn>2</mn> <mi>var</mi> <mrow> <mo>(</mo> <mi>H</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

c(ei)=c(ei)/min(c) (5)

公式(5)表示的是將c(ei)用min(c)進行歸一化以后再重新覆蓋原來的c(ei)的值。

其中,H(ei)表示音頻事件ei的主題熵,min(H)表示求向量H中元素的最小值,var(H)表示求向量H中元素的方差,min(c)表示求向量c中元素的最小值。

記矩陣Btrain的第(i,j)個元素為dj表示第j個音頻文檔,ei表示第i個音頻事件。用c對訓(xùn)練音頻文檔中的音頻事件分布進行加權(quán),即對Btrain中的各列進行加權(quán):

<mrow> <msubsup> <mi>p</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>j</mi> </msub> </msubsup> <mo>=</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msubsup> <mi>p</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>j</mi> </msub> </msubsup> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

加權(quán)后,為了使矩陣Btrain中的各列表達的是音頻文檔中各個音頻事件的出現(xiàn)次數(shù),而不是在各個音頻事件上的概率分布,為此還要對Btrain做以下處理:

<mrow> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>=</mo> <mi>n</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> <mrow> <mo>(</mo> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>=</mo> <mi>f</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mo>&CenterDot;</mo> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中,表示矩陣Btrain的第j列,表示對進行歸一化,fNum表示訓(xùn)練集中的幀的總數(shù)量。在做了以上處理之后的Btrain即為求取的訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣。

(三)基于PLSA的主題分析

本發(fā)明采用PLSA作為主題模型。用PLSA對(二)中求取的訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣Btrain進行矩陣分解,矩陣分解如圖3所示。假設(shè)共有T2個潛在主題,則矩陣分解后的Ptrain是一個尺寸為n×T2的矩陣,Qtrain是一個尺寸為T2×N的矩陣。Qtrain的每一列對應(yīng)一個音頻文檔,表示音頻文檔在T2個潛在主題上的概率分布。Qtrain中的每一列即為對訓(xùn)練音頻文檔集經(jīng)過PLSA主題分析后所得到的訓(xùn)練音頻文檔的主題分布。

(四)訓(xùn)練分類模型

Qtrain的每一列對應(yīng)一個音頻文檔的主題分布,將該主題分布作為音頻文檔的音頻特征,并用其訓(xùn)練分類模型。本發(fā)明采用支持向量機SVM(Support Vector Machine)作為分類模型。SVM是二值分類模型,在用其分類多個音頻場景時采用一對一的多類分類策略。

以下介紹識別過程:

(一)求取音頻文檔-音頻事件共現(xiàn)矩陣

識別階段對音頻文檔-音頻事件共現(xiàn)矩陣的求取和訓(xùn)練階段類似。首先將待識別的音頻文檔進行分幀處理,幀長30毫秒,幀與幀之間有50%的重疊;然后,對于每一幀,通過在字典中找到其最近鄰以將其映射成音頻字;統(tǒng)計待識別音頻文檔中各個音頻字的出現(xiàn)次數(shù)即可得到待識別音頻文檔的音頻文檔-音頻字共現(xiàn)矩陣,記為Ctest;用PLSA對Ctest進行矩陣分解,將Ctest分解成Atrain和Btest相乘的形式,矩陣分解如圖4所示。假設(shè)待識別的音頻文檔數(shù)目為Ntest,則Btest是尺寸為n×Ntest的矩陣。記矩陣Btest的第(i,k)個元素為dk表示第k個待識別的音頻文檔,ei表示第i個音頻事件,用訓(xùn)練階段求得的系數(shù)向量c對待識別音頻文檔中的音頻事件分布進行如下加權(quán):

<mrow> <msubsup> <mi>q</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>k</mi> </msub> </msubsup> <mo>=</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msubsup> <mi>q</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>k</mi> </msub> </msubsup> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>;</mo> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>N</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

為了使矩陣Btest中的各列表達的是音頻文檔中各個音頻事件的出現(xiàn)次數(shù),對Btest做以下處理:

<mrow> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>=</mo> <mi>n</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> <mrow> <mo>(</mo> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>=</mo> <msub> <mi>fNum</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mo>&CenterDot;</mo> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中,表示矩陣Btest的第k列,表示對進行歸一化,fNumtest表示待識別音頻文檔集中的幀的總數(shù)量。做了以上處理之后的Btest即為求取的待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣。公式(11)表示的是將用fNumtest與的乘積重新覆蓋原來的的值。

(二)基于PLSA的主題分析

在訓(xùn)練階段對矩陣Btrain進行矩陣分解得到了尺寸為n×T2的矩陣Ptrain;在識別階段用PLSA對矩陣Btest進行矩陣分解,將其分解成矩陣Ptrain和矩陣Qtest相乘的形式,矩陣分解如圖5所示。矩陣分解后得到的Qtest是一個尺寸為T2×Ntest的矩陣,Qtest的每一列對應(yīng)一個音頻文檔,表示音頻文檔在T2個潛在主題上的概率分布。Qtest的每一列即為對待識別音頻文檔集經(jīng)過PLSA主題分析后所得到的待識別音頻文檔的主題分布。

(三)識別輸出

Qtest的每一列對應(yīng)一個音頻文檔的主題分布,將該主題分布作為音頻文檔的音頻特征,并將其代入訓(xùn)練階段訓(xùn)練得到的SVM分類模型中進行分類識別,根據(jù)一對一的多類分類策略最終輸出得到待識別音頻文檔的音頻場景類別。

本發(fā)明的基于音頻事件和主題模型的音頻場景識別裝置,包括:

音頻場景分類模型生成模塊,所述音頻場景分類模型生成模塊包括音頻字典創(chuàng)建模塊,其被配置為獲取訓(xùn)練音頻文檔并存儲至訓(xùn)練音頻文檔集中,對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔進行分幀和提取特征處理,創(chuàng)建音頻字典;

音頻文檔-音頻事件共現(xiàn)矩陣求取模塊,其被配置為求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣;

音頻文檔的主題分布求取模塊,其被配置為采用主題模型PLSA對訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣進行主題分析,求得訓(xùn)練音頻文檔集中每個音頻文檔的主題分布;

音頻場景分類模型訓(xùn)練模塊,其被配置為將每個訓(xùn)練音頻文檔的主題分布作為音頻文檔的音頻特征來訓(xùn)練音頻場景分類模型;

所述音頻場景識別裝置還包括音頻特征提取模塊,其被配置為提取待識別音頻文檔的主題分布作為音頻特征;

輸出模塊,其被配置為將待識別音頻文檔的音頻特征代入音頻場景分類模型中進行分類識別,并輸出待識別音頻文檔的音頻場景類別。

上述雖然結(jié)合附圖對本發(fā)明的具體實施方式進行了描述,但并非對本發(fā)明保護范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護范圍以內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
自贡市| 霍城县| 兖州市| 泸溪县| 资源县| 仲巴县| 大足县| 乌鲁木齐县| 陕西省| 蚌埠市| 扶绥县| 阿巴嘎旗| 西贡区| 茶陵县| 麦盖提县| 阳原县| 虎林市| 平定县| 尖扎县| 鄢陵县| 三原县| 佛学| 偃师市| 古丈县| 杭锦旗| 广汉市| 常德市| 兴化市| 广平县| 富锦市| 旬阳县| 潮安县| 乌拉特后旗| 乌审旗| 宣汉县| 西乌珠穆沁旗| 普定县| 当涂县| 丰台区| 郑州市| 长岭县|