專利名稱:一種音頻信號檢測方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻領(lǐng)域的信號檢測技木,尤其是一種音頻信號檢測方法和裝置。
背景技術(shù):
在通信系統(tǒng)中,通常對輸入的音頻信號進(jìn)行編碼后傳輸?shù)綄Χ?。在通信系統(tǒng)中,尤其是無線/移動通信系統(tǒng)中,信道帶寬是一個比較稀缺的資源。在一個雙向的通話中,某一方說話的時間大概只占總通話時間的一半左右,另一半都處在靜音狀態(tài)。在信道帶寬比較緊張的情況下,如果通信系統(tǒng)只在人說話的時候傳輸信號,而在靜音時停止信號的傳輸,將可以節(jié)省出大量的帶寬分配給其它用戶。為了達(dá)到這個目的,通信系統(tǒng)需要知道通話人何時開始說話,何時停止說話,即需要知道語音何時是激活的,這就需要語音激活檢測(voiceactivity detection, VAD)。一般在語音激活時,語音編碼器會采用較高的速率編碼,而在無語音的背景信號階段,編碼器會采用較低的速率編碼。通過語音激活檢測技術(shù),通信系統(tǒng)能夠區(qū)分輸入的音頻信號是語音還是背景噪音,并采用不同的編碼技術(shù)進(jìn)行編碼。 這種體制在通常的背景環(huán)境下都是可行的,但是當(dāng)背景信號是音樂信號時,較低速率的編碼會極大的影響聽者的主觀感受。因此ー種新的需求被提出來,即VAD系統(tǒng)需要能夠有效的識別出背景音樂的場景,并有針對性的提高背景音樂的編碼質(zhì)量。在AMR VADl中,有ー種檢測復(fù)雜信號的技術(shù),一般來說,這里的復(fù)雜信號就是指音樂信號。在該VAD中,對姆ー巾貞信號,從AMR編碼器中獲得該巾貞的最大相關(guān)向量best_corr_hpm,并將其歸ー化在
的范圍之內(nèi)。對歸ー化后的最大相關(guān)向量best_corr_hpm求其長時的滑動平均相關(guān)向量c0rr_hp,計算方法為corr_hp = α · corr_hp+(I-α ) · best_corr_hpm,其中α為取值范圍在
之間的遺忘系數(shù)將姆巾貞的corr_hp都與一高一低兩個門限進(jìn)行比較,如果出現(xiàn)連續(xù)8巾貞corr_hp都高于高門限的幀時,或者出現(xiàn)連續(xù)15幀corrjip都高于低門限的幀時,則ー個復(fù)雜信號標(biāo)志complex_warning被設(shè)為I,表示復(fù)雜信號被檢測到了。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺點(diǎn)上述技術(shù)雖然可以檢測出音樂信號,但是并不能區(qū)分出是前景音樂還是背景音樂,因而不能根據(jù)帶寬情況對背景音樂信號采用適合的編碼技木。并且,上述技術(shù)可能把一些常規(guī)的背景噪聲如babble噪聲也當(dāng)做是復(fù)雜信號,從而較大的影響了節(jié)省帶寬。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種音頻信號檢測方法和裝置,能夠從音頻信號中檢測出背
旦立Cl
雙曰·^、。根據(jù)本發(fā)明的ー實(shí)施例,提供一種音頻信號檢測方法,包括將輸入的音頻信號分為多個音頻信號幀;對每ー幀音頻信號幀進(jìn)行前景/背景檢測;
當(dāng)檢測到背景信號幀時,將ー個背景幀計數(shù)器加上ー個步長值;獲得所述背景信號幀的音樂特征值,將所述音樂特征值累加到ー個背景音樂特征累加值;當(dāng)背景幀計數(shù)器達(dá)到ー個預(yù)先設(shè)定的數(shù)量時,將背景音樂特征累加值與ー個門限做比較,當(dāng)背景音樂特征累加值符合門限判定法則時,則檢測到背景音樂。根據(jù)本發(fā)明的另ー實(shí)施例,提供一種編碼器,包括背景幀識別器,用于對輸入的每ー幀音頻信號進(jìn)行檢測,輸出背景信號幀或前景信號幀的檢測結(jié)果;背景音樂識別器,用于當(dāng)檢測到背景信號幀時,根據(jù)所述背景信號幀的音樂特征值對所述背景信號幀進(jìn)行檢測,輸出檢測到背景音樂的檢測結(jié)果;其中,所述背景音樂識別器包括
背景幀計數(shù)器,用于當(dāng)檢測到背景信號幀時,將步長值加到其值上;音樂特征值獲得単元,用于獲得所述背景信號幀的音樂特征值;音樂特征值累加器,用于累加所述音樂特征值;判決器,用于在背景幀計數(shù)器達(dá)到預(yù)先設(shè)定的數(shù)量時,確定背景特征累加值符合門限判定法則,輸出檢測到背景音樂的檢測結(jié)果。本發(fā)明實(shí)施例,對于背景信號進(jìn)ー步的根據(jù)音樂特征值進(jìn)行判斷,從而能夠檢測出背景音樂,提高語音/音樂分類器的分類性能;并能夠提供更加靈活的對背景音樂的處理方案,有針對性的調(diào)整背景音樂的編碼質(zhì)量。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明提供的音頻信號檢測方法的一個實(shí)施例的流程示意圖;圖2為獲得音頻幀的音樂特征值的ー個實(shí)施例的流程示意圖;圖3為獲得音頻幀的音樂特征值的另一個實(shí)施例的流程示意圖;圖4為獲得音頻幀的音樂特征值的另一個實(shí)施例的流程示意圖;圖5為本發(fā)明提供的音頻信號檢測方法的另ー個實(shí)施例的流程示意圖;圖6為本發(fā)明提供的音頻信號檢測裝置的一個實(shí)施例的結(jié)構(gòu)示意圖;圖7為本發(fā)明實(shí)施例提供的音樂特征值獲得単元一個實(shí)施例的結(jié)構(gòu)示意圖;圖8為本發(fā)明實(shí)施例提供的音樂特征值獲得單元另一個實(shí)施例的結(jié)構(gòu)示意圖;圖9為本發(fā)明提供的音頻信號檢測裝置的另ー個實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
根據(jù)本發(fā)明的一個實(shí)施例,一種音頻信號檢測方法,用于對音頻信號進(jìn)行檢測以區(qū)分背景噪音和背景音樂,音頻信號通常包含多個音頻幀。該方法可以應(yīng)用在編碼器的前處理裝置中。本發(fā)明實(shí)施例中提及的背景音樂指的是信號類型為音樂并且為背景信號的音頻信號。參考圖1,該方法包括以下步驟SlOO :將輸入的音頻信號劃分為多個音頻信號巾貞;S105 :對輸入的每ー幀音頻信號幀進(jìn)行前景/背景檢測,判定為前景信號或背景
信號;具體在判定音頻信號幀為前景信號或背景信號時,可以采用多種實(shí)現(xiàn)方式。在一種實(shí)現(xiàn)方式中,可以由VAD對輸入的音頻信號幀進(jìn)行判斷,識別出前景信號幀或背景信號 幀。VAD根據(jù)噪聲信號的某些固有特征識別出背景噪聲,并持續(xù)的跟蹤,同時估計出背景噪聲的某些特征參數(shù),例如特征參數(shù)A,以An來表示背景噪聲的該參數(shù)估計值。對輸入的音頻信號幀也提取其相應(yīng)的特征參數(shù)A,以As表示輸入信號的A參數(shù)值,計算該輸入信號的特征參數(shù)值A(chǔ)s到An的距離,當(dāng)距離小于ー個門限時,就認(rèn)為As和An很近了,則認(rèn)為輸入信號也是背景噪聲,否則就認(rèn)為As和An距離較遠(yuǎn),輸入信號就是前景信號。上述的特征參數(shù)A可以是ー個,也可以是幾個,當(dāng)特征參數(shù)為幾個時計算參數(shù)距離時就要計算ー個聯(lián)合的距離。SllO :當(dāng)檢測到背景信號幀時,將ー個背景幀計數(shù)器加上ー個步長值;獲得該音頻幀的音樂特征值,將該音樂特征值累加入ー個背景音樂特征累加值;音樂特征值指表征該音頻信號幀屬于音樂信號的特征值。發(fā)明人發(fā)現(xiàn)與背景噪音相比,背景音樂具有明顯的峰值特征;背景音樂的最大峰值位置波動較不明顯。在ー個實(shí)施例中,采用音頻信號幀頻譜的局部峰值計算獲得音樂特征值。在另ー個實(shí)施例中,采用相鄰音頻幀的最大峰值位置波動獲得音樂特征值。本領(lǐng)域技術(shù)人員可以理解的是,也可以根據(jù)其他特征值獲得音樂特征值。步長值可以取1,或者取大于I的數(shù)。S115:當(dāng)背景幀計數(shù)器達(dá)到ー個預(yù)先設(shè)定的數(shù)量時,將背景音樂特征累加值與ー個門限做比較,當(dāng)背景音樂特征累加值符合門限判定法則時,判定為檢測到背景音樂,否則為背景噪音。音樂特征值選不同的參數(shù),門限判斷法則也不同。在一種實(shí)施方式中,音樂特征值為歸一化峰谷距離值時,判斷法則為當(dāng)音樂特征值大于門限值,則判定為檢測到背景音樂,否則為背景噪音。在另ー種實(shí)施方式中,音樂特征值為最大峰值位置波動時,判斷法則為當(dāng)音樂特征值小于門限值,則判定為檢測到背景音樂,否則為背景噪音。在完成本次音頻信號檢測后,將背景幀計數(shù)器和音樂特征累加值分別清零,進(jìn)入下一次音頻信號檢測過程。進(jìn)ー步的,可以將檢測幀之后的預(yù)定數(shù)量幀的背景信號幀標(biāo)識為背景音樂,設(shè)置ー個保護(hù)幀值(保護(hù)幀值即預(yù)定數(shù)量),在后續(xù)音頻信號檢測過程中,每檢測到ー幀背景幀則將保護(hù)幀值減一。例如,當(dāng)當(dāng)前背景信號被判定為背景音樂時,設(shè)置背景音樂保護(hù)窗ロ b_mus_hang0Ver = 1000,表示需要將其后的1000幀背景幀都保護(hù)為背景音樂巾貞。在后續(xù)的檢測過程中,姆檢測出ー個背景巾貞,b_mus_hangover減I,當(dāng)b_mus_hangover小于O時,b_mus_hangover等于O。進(jìn)ー步的,上述檢測過程中的門限可以根據(jù)保護(hù)窗ロ狀態(tài)進(jìn)行調(diào)整,當(dāng)保護(hù)幀值大于0,則采用第一門限值,否則采用第二門限值;其中,當(dāng)所述門限判斷法則為音樂特征累加值大于所述門限時,第一門限值小于第二門限值;當(dāng)所述門限判斷法則為音樂特征累加值小于所述門限時,第一門限值大于第二門限值。檢測到背景音樂后,當(dāng)前幀之后的幀很可能也是背景音樂,通過門限值的調(diào)整,使檢測到的音樂背景之后的音頻幀更傾向于被判為背景音樂幀。例如,采用歸一化峰谷距離值表征音樂特征值時,當(dāng)背景音樂保護(hù)窗ロ b_mus_hangover大于O時,采用第一門限值mus_thr=1300,否則采用第二門限值mUS_thr=1500。由于當(dāng)當(dāng)前幀為背景音樂時下一幀也為背景音樂的概率大于當(dāng)前幀不是背景音樂時下ー幀為背景音樂的概率,采用這種方法調(diào)整門限值,能夠提高判斷的準(zhǔn)確度。在檢測到背景信號為背景音樂時,可以根據(jù)帶寬情況靈 活的調(diào)整背景音樂的編碼方式,有針對性的提高背景音樂的編碼質(zhì)量。一般情況下,音頻通信系統(tǒng)中背景音樂可以被當(dāng)做是前景信號傳輸,采用較高的速率編碼;在帶寬緊張的情況下,可以把背景音樂做為背景來傳輸,較低的速率編碼。此外,識別背景音樂還有助于提高語音/音樂分類器的分類性能,使其在有音樂背景的情況下能夠調(diào)整分類判決方法,從而提高語音檢測的準(zhǔn)確率。上述實(shí)施例中,對于背景信號進(jìn)ー步的根據(jù)音樂特征值進(jìn)行判斷,從而能夠檢測出背景音樂,提高語音/音樂分類器的分類性能;并能夠提供更加靈活的對背景音樂的處理方案,有針對性的調(diào)整背景音樂的編碼質(zhì)量。參考圖2,獲得該音頻幀的音樂特征值的ー個實(shí)施例包括S200 :對輸入的背景信號幀進(jìn)行FFT變換,獲得FFT頻譜;S205 :獲得頻譜上局部峰點(diǎn)的位置和能量大小;捜索并記錄頻譜上局部峰點(diǎn)的位置和能量大小,局部峰點(diǎn)指頻譜上能量大于前一個頻點(diǎn)和后ー個頻點(diǎn)的頻點(diǎn),局部峰點(diǎn)的能量為局部峰值。對頻譜上的第i個fft頻點(diǎn)fft(i),如果fft(i-l)〈fft(i)且fft(i+l)〈fft(i),則第i個頻點(diǎn)為局部峰點(diǎn),i為局部峰點(diǎn)位置,fft(i)為局部峰值。記錄頻譜上所有局部峰點(diǎn)的位置和能量。S210:根據(jù)位置和能量,分別計算所有局部峰點(diǎn)中每ー個對應(yīng)的歸ー化峰谷距離得到多個歸ー化峰谷距離值;歸ー化峰谷距離有多種不同計算方式,在一種實(shí)施例中,采用如下方式計算歸一化峰谷距離對于每ー個局部峰值peak (i),搜索其左右各相鄰若干個頻點(diǎn)內(nèi)的最小值,分別以vl(i)和vr(i)表示。計算局部峰值與左側(cè)最小值的差值及局部峰值與右側(cè)最小值的差值,用兩個差值之和除以所述音頻幀的頻譜的能量均值,獲得歸ー化峰谷距離。在另ー個實(shí)施例中所述兩個差值之和也可以除以所述音頻幀的部分頻譜的能量均值,獲得歸ー化峰谷距離。以64點(diǎn)的FFT頻譜為例,計算該局部峰值peak(i)的歸ー化峰谷距離Dp2v(i),
,、 .2 · peak{i) - v/(i) — vr(i)/ ,、!). {/) =」し^—U)
*m又其中,peak(i)表示位置為i的局部峰點(diǎn)的能量,vl (i)和vr(i)分別表示位置為i的局部峰點(diǎn)的左側(cè)最小值和右側(cè)最小值,avg表示該幀頻譜的能量均值。avg = -^-Y^ ni(J)1 2 )
i=2其中,fft(i)表示位置為i的頻點(diǎn)的能量。左右相鄰的頻點(diǎn)數(shù)可以根據(jù)需要選擇,例如,可以選擇4個。計算每ー個局部峰點(diǎn)對應(yīng)的歸ー化峰谷距離,得到多個歸ー化峰谷距離值。
在另ー種實(shí)施例中,采用如下方式計算歸一化峰谷距離對于每ー個局部峰點(diǎn),計算所述局部峰點(diǎn)與左側(cè)相鄰的至少ー個頻點(diǎn)的距離,所述局部峰點(diǎn)與右側(cè)相鄰的至少ー個頻點(diǎn)的距離;用兩個距離之和除以所述音頻幀的頻譜能量均值或部分頻譜能量均值,獲得歸ー化峰谷距離。例如,采用位置為i的局部峰值peak(i)左右側(cè)相鄰2個頻點(diǎn)的距離和,計算該局部峰值peak (i)的歸ー化峰谷距離Dp2v (i),
權(quán)利要求
1.一種音頻信號檢測方法,其特征在于,包括 將輸入的音頻信號分為多個音頻信號幀; 對每ー幀音頻信號幀進(jìn)行前景/背景檢測; 當(dāng)檢測到背景信號幀時,將ー個背景幀計數(shù)器加上ー個步長值;獲得所述背景信號幀的音樂特征值,將所述音樂特征值累加到ー個背景音樂特征累加值; 當(dāng)背景幀計數(shù)器達(dá)到ー個預(yù)先設(shè)定的數(shù)量時,將背景音樂特征累加值與ー個門限做比較,當(dāng)背景音樂特征累加值符合門限判定法則時,則檢測到背景音樂。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,獲得所述背景信號幀的音樂特征值包括 獲得所述背景信號幀的頻譜; 獲得至少部分頻譜上局部峰點(diǎn)的位置和能量; 根據(jù)位置和能量,分別計算所有局部峰點(diǎn)中每ー個對應(yīng)的歸ー化峰谷距離,得到多個歸ー化峰谷距離值; 根據(jù)所述多個歸ー化峰谷距離值,獲得音樂特征值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,采用如下方式計算所述局部峰點(diǎn)的歸ー化峰谷距離 對于每ー個局部峰點(diǎn),分別獲得其左右各相鄰4個頻點(diǎn)內(nèi)的最小值; 計算局部峰值與左側(cè)最小值的差值及局部峰值與右側(cè)最小值的差值,用兩個差值之和除以所述音頻幀的頻譜的能量均值或部分頻譜能量均值,獲得歸ー化峰谷距離。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,采用如下方式計算該峰點(diǎn)的歸ー化峰谷距離 對于每ー個局部峰點(diǎn),計算所述局部峰點(diǎn)與左側(cè)相鄰的至少ー個頻點(diǎn)的距離,所述局部峰點(diǎn)與右側(cè)相鄰的至少ー個頻點(diǎn)的距離; 用兩個距離之和除于所述音頻幀的頻譜能量均值或部分頻譜能量均值,獲得歸ー化峰谷距離。
5.根據(jù)權(quán)利要求2所述的方法,其特征在干,根據(jù)所述多個歸ー化峰谷距離值獲得音樂特征值,包括 選擇歸一化峰谷距離值的最大值作為音樂特征值;或 計算歸一化峰谷距離值中最大的至少兩個值之和,得到音樂特征值。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述門限判斷法則為所述音樂特征累加值大于門限。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,獲得所述背景信號幀的音樂特征值包括 根據(jù)背景信號幀的頻譜,獲得頻譜上局部峰值對應(yīng)的峰谷距離的最大值的第一位置; 根據(jù)背景信號幀的前ー幀的頻譜,獲得頻譜上局部峰值對應(yīng)的峰谷距離的最大值的第二位置; 計算第一位置和第二位置的差值,得到音樂特征值。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述門限判斷法則為所述音樂特征累加值小于門限。
9.根據(jù)權(quán)利要求I至8任一項所述的方法,其特征在于所述門限根據(jù)保護(hù)幀值調(diào)整,當(dāng)保護(hù)幀值大于O時,采用第一門限值,否則采用第二門限值。
10.根據(jù)權(quán)利要求I所述的方法,其特征在于,檢測到背景音樂后,還包括 將當(dāng)前音頻幀之后的預(yù)定數(shù)量的音頻幀標(biāo)識為背景音樂。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,還包括 當(dāng)檢測到背景信號幀時,則將預(yù)設(shè)的保護(hù)幀值減一,當(dāng)保護(hù)幀值大于0,則所述門限采用第一門限值,否則所述門限采用第二門限值;其中,當(dāng)所述門限判斷法則為音樂特征累加值大于所述門限時,第一門限值小于第二門限值;當(dāng)所述門限判斷法則為音樂特征累加值小于所述門限時,第一門限值大于第二門限值。
12.—種編碼器,其特征在于,包括 背景幀識別器,用于對輸入的每ー幀音頻信號進(jìn)行檢測,輸出背景信號幀或前景信號幀的檢測結(jié)果; 背景音樂識別器,用于當(dāng)檢測到背景信號幀時,根據(jù)所述背景信號幀的音樂特征值對所述背景信號幀進(jìn)行檢測,輸出檢測到背景音樂的檢測結(jié)果;其中,所述背景音樂識別器包括 背景幀計數(shù)器,用于當(dāng)檢測到背景信號幀時,將步長值加到其值上; 音樂特征值獲得単元,用于獲得所述背景信號幀的音樂特征值; 音樂特征值累加器,用于累加所述音樂特征值; 判決器,用于在背景幀計數(shù)器達(dá)到預(yù)先設(shè)定的數(shù)量時,確定背景特征累加值符合門限判定法則,輸出檢測到背景音樂的檢測結(jié)果。
13.根據(jù)權(quán)利要求12所述的編碼器,其特征在于,所述音樂特征值獲得單元包括 頻譜獲得単元,用于獲得所述背景信號幀的頻譜; 峰點(diǎn)獲得單元,用于獲得至少部分頻譜上的局部峰點(diǎn); 計算單元,用于分別計算所有局部峰點(diǎn)中每ー個對應(yīng)的歸ー化峰谷距離,得到多個歸一化峰谷距離值;并根據(jù)所述多個歸ー化峰谷距離值,獲得音樂特征值。
14.根據(jù)權(quán)利要求13所述的編碼器,其特征在于,采用如下方式計算所述局部峰點(diǎn)的歸ー化峰谷距離 對于每ー個局部峰點(diǎn),分別獲得其左右各相鄰4個頻點(diǎn)內(nèi)的最小值; 計算局部峰值與左側(cè)最小值的差值及局部峰值與右側(cè)最小值的差值,用兩個差值之和除以所述音頻幀的頻譜的能量均值或部分頻譜能量均值,獲得歸ー化峰谷距離。
15.根據(jù)權(quán)利要求13所述的編碼器,其特征在于,采用如下方式計算該峰點(diǎn)的歸ー化峰谷距離 對于每ー個局部峰點(diǎn),計算所述局部峰點(diǎn)與左側(cè)相鄰的至少ー個頻點(diǎn)的距離,所述局部峰點(diǎn)與右側(cè)相鄰的至少ー個頻點(diǎn)的距離; 用兩個距離之和除以所述音頻幀的頻譜能量均值或部分頻譜能量均值,獲得歸ー化峰谷距離。
16.根據(jù)權(quán)利要求12所述的編碼器,其特征在于,所述音樂特征值獲得單元包括 第一位置獲得單元,用于獲得背景信號幀的頻譜,獲得頻譜上局部峰值對應(yīng)的峰谷距離的最大值的第一位置; 第二位置獲得單元,用于獲得背景信號幀的前ー幀的頻譜,獲得頻譜上局部峰值對應(yīng)的峰谷距離的最大值的第二位置;計算單元,用于計算第一位置和第二位置的差值,得到音樂特征值。
17.根據(jù)權(quán)利要求12所述的編碼器,其特征在于,還包括 標(biāo)識單元,用于將當(dāng)前音頻幀之后的預(yù)定數(shù)量幀的音頻幀標(biāo)識為背景音樂。
18.根據(jù)權(quán)利要求17所述的編碼器,其特征在于,還包括 門限調(diào)整単元,當(dāng)檢測到背景信號幀時,則將預(yù)設(shè)的保護(hù)幀值減一,當(dāng)保護(hù)幀值大于O,則所述門限取第一門限值,否則所述門限取第二門限值;其中,當(dāng)所述門限判斷法則為音樂特征累加值大于所述門限時,第一門限值小于第二門限值;當(dāng)所述門限判斷法則為音樂特征累加值小于所述門限時,第一門限值大于第二門限值。
19.根據(jù)權(quán)利要求12所述的編碼器,其特征在于,所述判決器,還用于在背景幀計數(shù)器達(dá)到預(yù)先設(shè)定的數(shù)量時,確定背景特征累加值不符合門限判定法則,輸出檢測到非背景音樂的檢測結(jié)果。
全文摘要
本發(fā)明實(shí)施例公開了一種音頻信號檢測方法和裝置,對輸入的音頻信號進(jìn)行前景/背景檢測,對檢測到的背景信號幀進(jìn)一步根據(jù)音樂特征值結(jié)合判定法則進(jìn)行檢測,從而能夠檢測出背景音樂,提高語音/音樂分類器的分類性能。
文檔編號G10L11/00GK102693720SQ20121015138
公開日2012年9月26日 申請日期2009年10月15日 優(yōu)先權(quán)日2009年10月15日
發(fā)明者王喆 申請人:華為技術(shù)有限公司