專利名稱:一種會議音頻中的精彩說話人發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音信號處理和模式識別技術(shù),尤其涉及一種會議音頻中的精彩說話人發(fā)現(xiàn)方法。
背景技術(shù):
精彩說話人是指在多人會話的會議中,能夠引起聽眾共鳴或使聽眾產(chǎn)生高興、激動等積極情感反應(yīng)的說話人。精彩說話人是與會人員中的關(guān)鍵說話人或重要說話人。人們在瀏覽分析會議音頻記錄時,一般最想聆聽的就是精彩說話人的精彩發(fā)言。因此,快速有效地發(fā)現(xiàn)會議音頻中的精彩說話人,即得到精彩說話人個數(shù)及其精彩發(fā)言,對于會議音頻的快速瀏覽、摘要提取、說話人檢索等應(yīng)用都具有非常重要的意義。
在多人會話的會議中,聽眾聽到精彩發(fā)言時一般都會自發(fā)地鼓掌,表示對說話人所說內(nèi)容的認(rèn)可。而且,認(rèn)可的程度越高,掌聲響度越大、掌聲持續(xù)時間越長。因此,通過檢測會議音頻中的掌聲音頻段就可以快速地定位精彩說話人的精彩語音段,然后再采用說話人聚類技術(shù)對各個精彩語音段進(jìn)行聚類處理,得到會議音頻中的精彩說話人的個數(shù)、精彩語音段及精彩語音段出現(xiàn)的位置。發(fā)明內(nèi)容
針對上述技術(shù)問題,本發(fā)明的目的在于提供一種基于掌聲檢測和說話人聚類的會議音頻中精彩說話人發(fā)現(xiàn)方法,高效快捷的得到會議音頻中的精彩說話人的個數(shù)、精彩語音段及精彩語音段出現(xiàn)的位置。
本發(fā)明是通過如下技術(shù)方案來實現(xiàn): 一種會議音頻中的精彩說話人發(fā)現(xiàn)方法,包括如下步驟: 51)讀入會議音頻:讀入記錄有多說話人語音的會議音頻文件; 52)精彩語音提取:通過基于門限判決的靜音檢測從上述讀入的會議音頻中找出所有靜音段和音頻段,再從上述音頻段中檢測出掌聲音頻段,最后將各個掌聲音頻段前面5秒語音段提取出來作為精彩語音段,同時得到這些精彩語音段在會議音頻中出現(xiàn)的位置; 53)說話人聚類:從上述精彩語音段中提取梅爾頻率倒譜系數(shù)(MelFrequencyCepstral Coefficients, MFCCs)及其一階差分(Delta-MFCCs)的音頻特征,再采用譜聚類算法對各個精彩語音段的音頻特征進(jìn)行說話人聚類,得到精彩說話人個數(shù)及其精彩語音段。
進(jìn)一步地,所述步驟2)中的靜音檢測具體包括以下步驟:S 2 O I ) 將 讀 入 的 會 議 音 頻 分 成T幀,幀長為40毫秒(幀長對應(yīng)的采樣點個數(shù)W = 0-04 X /s ,其中/s力音頻信號的采樣頻率),幀移為20毫秒,如果最后一幀語音的采樣點個數(shù)小于N,則將其舍去; S202)計算第f幀音頻信號A的能量ft:
權(quán)利要求
1.一種會議音頻中的精彩說話人發(fā)現(xiàn)方法,其特征在于,包括如下步驟: 51)讀入會議音頻:讀入記錄有多說話人語音的會議音頻文件; 52)精彩語音提取:通過基于門限判決的靜音檢測從上述讀入的會議音頻中找出所有靜音段和音頻段,再從上述音頻段中檢測出掌聲音頻段,最后將各個掌聲音頻段前面5秒語音段提取出來作為精彩語音段,同時得到這些精彩語音段在會議音頻中出現(xiàn)的位置; 53)說話人聚類:從上述精彩語音段中提取梅爾頻率倒譜系數(shù)及其一階差分的音頻特征,再采用譜聚類算法對各個精彩語音段的音頻特征進(jìn)行說話人聚類,得到精彩說話人個數(shù)及其精彩語音段。
2.根據(jù)權(quán)利要求1所述的會議音頻中的精彩說話人發(fā)現(xiàn)方法,其特征在于,所述步驟S2中的靜音檢測具體包括以下步驟: S 2 O I ) 將讀 入的 會議 音頻 分成T幀,幀長為40毫秒,幀移為20毫秒,如果最后一幀語音的采樣點個數(shù)小于N,則將其舍去; 5202)計算第
3.根據(jù)權(quán)利要求1所述的會議音頻中的精彩說話人發(fā)現(xiàn)方法,其特征在于,所述步驟S2中從音頻段中檢測掌聲音頻段及提取精彩語音段具體包括以下步驟: 5211)將上述提取出來的各個音頻段的時長與一個最短掌聲音頻段時長門限7"mi 進(jìn)行比較,如果某個音頻段的時長小于門限Tmin,則該音頻段被判為非掌聲音頻段;否則,繼續(xù)提取該音頻段的基音頻率G; 5212)如果上述提取出來的基音頻率全部為零,則該音頻段被判為掌聲音頻段,否則,按下述步驟將該音頻段判為非掌聲音頻段或混合音頻段; 5213)計算上述音頻段中所有基音頻率為零的子段和所有基音頻率不為零的子段的時長;5214)如果上述音頻段中有某個零值子段的時長既大于其緊鄰的前一個非零值子段時長又大于其緊鄰的后一個非零值子段時長,則上述音頻段被判為混合音頻段,并將滿足上述條件的零值子段判為掌聲音頻段;否則,該零值子段被判為非掌聲音頻段; 5215)如果上述音頻段中沒有一個零值子段既大于其緊鄰的前一個非零值子段時長又大于其緊鄰的后一個非零值子段時長,則上述音頻段整體被判為非掌聲音頻段; 5216)提取上述各掌聲音頻段前面5秒語音作為精彩語音段,各個掌聲音頻段出現(xiàn)位置前5秒即為相應(yīng)精彩語音段在會議音頻中的位置; 5217)重復(fù)步驟S211至S216,直到提取出所有精彩語音段及其出現(xiàn)的位置為止。
4.根據(jù)權(quán)利要求1所述的會議音頻中的精彩說話人發(fā)現(xiàn)方法,其特征在于,所述步驟S211中提取音頻段的基音頻率具體包括以下步驟: 52111)首頻段的分巾貞:設(shè)置首頻巾貞的巾貞長為40暈秒、巾貞移為20暈秒,巾貞長和巾貞移所對應(yīng)的采樣點個數(shù)分別為
5.根據(jù)權(quán)利要求1所述的會議音頻中的精彩說話人發(fā)現(xiàn)方法,其特征在于,從上述精彩語音段中提取梅爾頻率倒譜系數(shù)及其一階差分的音頻特征的具體步驟如下: 5301)將精彩語音段分成:Γ幀,幀長為40毫秒,幀移為20毫秒,如果最后一幀語音的采樣點個數(shù)小于W,則將其舍去; 5302)對第t(l<f <7>幀精彩語音票做離散傅立葉變換得到線性頻譜K幻:
6.根據(jù)權(quán)利要求1所述的會議音頻中的精彩說話人發(fā)現(xiàn)方法,其特征在于,步驟S3中采用譜聚類算法對各個精彩語音段的音頻特征進(jìn)行說話人聚類的具體步驟如下: S311)根據(jù)各個特征矩陣5得到所有待聚類精彩語音段的特征矩陣集合F = UJ, j為精彩語音段總個數(shù),再根據(jù)μ構(gòu)造親和矩陣4E , A的第(/".)個元素義如下:
全文摘要
一種會議音頻中的精彩說話人發(fā)現(xiàn)方法,步驟如下讀入會議音頻;檢測上述音頻中的掌聲音頻段,將各個掌聲音頻段前面5秒語音段提取出來作為精彩語音段,同時得到精彩語音段在會議音頻中出現(xiàn)的位置;對上述精彩語音段進(jìn)行說話人聚類,得到精彩說話人個數(shù)及其精彩語音段。本發(fā)明的有益效果是基于掌聲檢測和說話人聚類,快速有效地估計出會議音頻中的精彩說話人個數(shù)、精彩語音段及其在會議音頻中出現(xiàn)的位置,為會議音頻的快速瀏覽、摘要提取、說話人檢索等奠定基礎(chǔ)。
文檔編號G10L25/78GK103137137SQ20131006116
公開日2013年6月5日 申請日期2013年2月27日 優(yōu)先權(quán)日2013年2月27日
發(fā)明者李艷雄, 吳偉, 賀前華, 李廣隆 申請人:華南理工大學(xué)