專利名稱:聲音信號分類方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音編碼技術(shù)領(lǐng)域,特別涉及一種聲音信號分類方法和一種 聲音信號分類裝置。
背景技術(shù):
在語音通信中只有大約40%的信號是包含語音的,其它時間都是靜音 或背景噪聲,為了節(jié)省傳輸帶寬,在語音信號處理領(lǐng)域進行語音編碼中,采 用語音活動檢測(VAD, Voice Activity Detection)技術(shù),使得編碼器可以 對背景噪聲和活動的語音采用不同的速率進行編碼,即對背景噪聲用較低的 速率進行編碼,對活動的語音用較高的速率進行編碼,從而降低了平均碼率, 極大的促進了變速率語音編碼技術(shù)的發(fā)展。
現(xiàn)有的信號檢測器(VAD)均針對語音信號而開發(fā),只將輸入的音頻信 號分為兩種噪聲和非噪聲。較新的編碼器如AMR—WB+和SMV,包含音 樂信號的檢測,作為VAD判決以外的一個修正和補充。AMR-WB+編碼器 的重要特征是在VAD檢測之后,根據(jù)輸入音頻信號是語音還是音樂,用不 同的模式進行編碼,以在最大程度上減小碼率,保證編碼質(zhì)量。
AMR-WB+中的兩種不同編碼模式包括基于代數(shù)碼本激勵線性預(yù)測語 音編碼器ACELP(Algebraic Code Excited Linear Prediction )和變換激勵編 碼TCX ( Transform coded excitation )模式兩種核心編碼算法。ACELP屬于 通過建立語音發(fā)聲模型,充分利用了語音的特點,對于語音信號的編碼效率 很高,加之其技術(shù)已經(jīng)相當(dāng)成熟,故可以通過在通用音頻編碼器上擴展使用 前者使其語音編碼質(zhì)量得到很大提高。類似地,通過在低比特率的語音編碼 器上擴展使用TCX編碼使其寬帶音樂的編碼質(zhì)量得到提高。AMR-WB+編碼算法的ACELP和TCX才莫式選擇算法根據(jù)復(fù)雜度有兩
種開環(huán)選擇算法和閉環(huán)選擇算法。閉環(huán)選擇對應(yīng)高復(fù)雜度,為缺省選項,
是一種基于感知加權(quán)信噪比的遍歷搜索的選擇方式,顯然,這樣的選擇方法 是很準確的,但它運算復(fù)雜度非常高,代碼量也較大。
開環(huán)選擇包括如下步驟
首先在步驟101,由VAD模塊根據(jù)聲調(diào)標識(Tone—flag)和子帶能量 參數(shù)(Level[n]),確定信號是非有用信號還是有用信號。 然后在步驟102,進行初步模式選擇(EC);
在步驟103,對步驟102初步確定的模式進行修正和細化模式選擇 (ESC),以確定選擇的編碼模式,具體基于開環(huán)基音參數(shù)和ISF參數(shù)進行。
在步驟104、進行TCXS處理,即當(dāng)連續(xù)選擇語音信號編碼模式的次數(shù) 小于三次時,進行小規(guī)模的閉環(huán)遍歷搜索,最終確定編碼模式,其中語音信 號編碼模式為ACELP,音樂信號編碼模式為TCX。
在上述AMR-WB+的語音信號選擇算法具有如下缺點
1、 現(xiàn)有的VAD模塊在對信號進行分類時,對噪聲和一些種類的音樂信 號區(qū)分不夠理想,降低了聲音信號分類的準確性;
2、 計算開環(huán)基音參數(shù),對于ACELP編碼模式是必要的運算,然而對于 TCX編碼模式是不必要的。按照AMR-WB+的結(jié)構(gòu)設(shè)計,VAD和開環(huán)模式 選擇算法需要用到開環(huán)基音參數(shù),因此對所有幀都需要計算開環(huán)基音,而這 對于其它非ACELP編碼模式(例如TCX)來說,屬于冗余的復(fù)雜度,增加 了編碼模式選擇的計算量,降低了效率。
3、 雖然VAD檢測算法在語音檢測和噪聲免疫上的表現(xiàn)是當(dāng)前各種編碼 器中較優(yōu)的,但在某些特殊的音樂信號拖尾部分有可能誤將音樂信號判成噪 音,這將導(dǎo)致音樂的尾音被截斷,聽起來不自然。
4、 AMR-WB+的模式選擇算法不考慮信號所處的信噪比環(huán)境,在低信 噪比條件下區(qū)分語音和音樂的性能進一 步惡化。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種聲音信號分類方法和一種聲音信號分類裝 置,能夠提高對聲音信號分類檢測的準確性。
本發(fā)明提供的一種聲音信號分類檢測方法包括
接收聲音信號,根據(jù)背景噪聲頻i普分布參數(shù)和所述聲音信號的頻鐠分布 參數(shù)確定背景噪聲的更新速率;根據(jù)所述更新速率對噪聲參數(shù)進行更新,并 根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對所述聲音信號進行分類。
本發(fā)明提供的一種聲音信號分類裝置包括背景噪聲參數(shù)更新模塊和信 號初始分類PSC模塊;
背景噪聲參數(shù)更新模塊用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信 號的頻鐠分布參數(shù)確定背景噪聲的更新速率,并發(fā)送所述確定的更新速率;
PSC模塊用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率,對噪聲 參數(shù)進行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對當(dāng)前聲音信號進 行分類,并發(fā)送分類確定的聲音信號類型。。
從上述方案可以看出,本發(fā)明中通過確定背景噪聲的更新速率,并根據(jù) 該更新速率對噪聲參數(shù)進行更新,再根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù) 對信號進行初始分類,確定接收的語音信號中的非有用信號和有用信號,降 低了將有用信號判決為噪音信號的誤判,提高了聲音信號分類的準確性。
圖1為現(xiàn)有技術(shù)中的AMR-WB+編碼算法開環(huán)選擇示意圖2為本發(fā)明聲音信號分類檢測方法的總體流程圖3為本發(fā)明聲音信號分類裝置的組成示意圖4為本發(fā)明具體實施例所基于的系統(tǒng)組成示意圖5為本發(fā)明具體實施例中一種編碼器參數(shù)提取模塊計算各種參數(shù)的 流程圖6為本發(fā)明具體實施例中另一種編碼器參數(shù)提取模塊計算各種參數(shù)
的流程圖7為本發(fā)明具體實施例中PSC模塊組成示意圖8為本發(fā)明具體實施例中信號分類判決模塊確定特征參數(shù)的示意圖9為本發(fā)明具體實施例中信號分類判決模塊進行語音判決的示意圖10為本發(fā)明具體實施例中信號分類判決模塊進行音樂判決的示意
圖11為本發(fā)明具體實施例中信號分類判決模塊對初始判決結(jié)果進行修 正的示意圖12為本發(fā)明具體實施例中信號分類判決模塊對不確定信號進行初步 修正分類示意圖13為本發(fā)明具體實施例中信號分類判決模塊對信號進行最終分類修 正示意圖14為本發(fā)明具體實施例中信號分類判決模塊進行參數(shù)更新示意圖。
具體實施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明 作進一步的詳細描述。
本發(fā)明的主要思想是,根據(jù)當(dāng)前聲音信號的頻譜分布參數(shù)和背景噪聲頻 譜分布參數(shù)確定背景噪聲的更新速率,并根據(jù)該更新速率對噪聲參數(shù)進行更 新,則在確定接收的語音信號中的有用信號和非有用信號時,根據(jù)該更新后 的噪聲參數(shù)進行,從而使得在確定有用信號和非有用信號時,噪聲參數(shù)的準 確性更高,提高了聲音信號分類的準確性。
如圖2所示,本發(fā)明首先提供了一種聲音信號分類檢測方法,該方法包
括
步驟201、接收聲音信號,根據(jù)背景噪聲頻鐠分布參數(shù)和所述聲音信號 的頻鐠分布參數(shù)確定背景噪聲的更新速率;
步驟202、根據(jù)所述更新速率對噪聲參數(shù)進行更新,并根據(jù)子帶能量參 數(shù)和更新后的噪聲參數(shù)對所述聲音信號進行分類。
步驟202中,將聲音信號分類主要是分為有用信號類型和非有用信號類 型。此后,還可以進一步確定有用信號的類型,所述類型包括語音信號和音 樂信號,在確定時,根據(jù)噪聲是否收斂,選擇基于開環(huán)基音參數(shù)、導(dǎo)譜頻率 參數(shù)和子帶能量參數(shù)確定,或選擇基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)確定。
此外,為防止將音樂信號拖尾誤判為非有用信號,降低聲音效果,本發(fā) 明中還獲取確定的有用信號類型,根據(jù)該有用信號類型確定信號拖尾長度, 并進一步根據(jù)該信號拖尾長度確定接收的語音信號中的有用信號和非有用 信號。這里,對音樂信號的拖尾可以設(shè)置的較大,從而提高音樂信號的聲音 效果。
在將有用信號確定為語音信號或音樂信號時,可以首先將不能夠非常準 確確定的信號設(shè)置為不確定類型,然后再根據(jù)其他參數(shù)對不確定類型進行修 正,最終確定有用信號的類型。
由于非有用信號的編碼方式并非均需要計算導(dǎo)譜頻率參數(shù),因此為降低 分類過程中的計算量,提高分類效率,對確定出的非有用信號,如果其對應(yīng) 的編碼方式不需要計算導(dǎo)語頻率參數(shù),則不計算導(dǎo)譜頻率參數(shù)。
如圖3所示,本發(fā)明還提供了一種聲音信號分類裝置,包括背景噪聲參 數(shù)更新模塊和信號初始分類(PSC)模塊。其中,背景噪聲參數(shù)更新模塊用 于根據(jù)當(dāng)前聲音信號的頻譜分布參數(shù)和背景噪聲頻語分布參數(shù)確定背景噪 聲的更新速率,并將確定的更新速率傳送給所述PSC模塊;PSC模塊用于 根據(jù)來自所述背景噪聲參數(shù)更新模塊的更新速率,對噪聲參數(shù)進行更新,并 根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對信號進行初始分類,將接收的語音 信號確定為有用信號類型或非有用信號類型。
該聲音信號分類裝置進一步可以包括信號分類判決模塊;則PSC模 塊還將確定的信號類型傳送給信號分類判決模塊;信號分類判決模塊基于開 環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者基于導(dǎo)i普頻率參數(shù)和子帶 能量參數(shù),確定有用信號的類型,所述類型包括語音信號和音樂信號。
該聲音信號分類裝置進一步還可以包括分類參數(shù)提取模塊;則PSC 模塊通過分類參數(shù)提取模塊將確定的信號類型傳送給所述信號分類判決模 塊;分類參數(shù)提取模塊還用于獲取包括導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者 進一步獲取開環(huán)基音參數(shù),將獲取的參數(shù)處理為信號分類特征參數(shù)傳送給所 述分類判決模塊;以及根據(jù)將獲取的參數(shù)處理為聲音信號的頻譜分布參數(shù)和 背景噪聲頻語分布參數(shù),并將這些頻譜分布參數(shù)傳送給所述背景噪聲參數(shù)更 新模塊;則分類判決模塊根據(jù)上述信號分類特征參數(shù)和PSC模塊確定的信 號類型,確定有用信號的類型,所述類型包括語音信號和音樂信號。
PSC模塊進一步還可以用于將確定信號類型過程中計算的聲音信號的 信噪比傳送給所述信號分類判決模塊;信號分類判決模塊進一步根據(jù)所述信 噪比將有用信號確定為語音信號或音樂信號。
該聲音信號分類裝置進一步可以包括編碼器模式及速率選擇模塊;信 號分類判決模塊將確定的信號類型傳送給所述編碼器模式及速率選擇模塊; 編碼器模式及速率選擇模塊根據(jù)接收的所述信號類型確定聲音信號的編碼
模式及速率。
該聲音信號分類裝置進一步可以包括編碼器參數(shù)提取模塊,用于提取 導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者進一步提取開環(huán)基音參數(shù),并將提取的 所述參數(shù)傳送給所述分類參數(shù)提取模塊,以及將提取的子帶能量參數(shù)傳送給 PSC模塊。
以下通過一個具體實施例對本發(fā)明提供的聲音信號分類檢測方法和聲 音信號分類裝置進行說明。
如圖4所示,為本發(fā)明具體實施例基于的系統(tǒng)組成示意圖。其中包括聲 音信號分類檢測器(sound activity detector , SAD)它根據(jù)編碼器的需要, 將輸入音頻數(shù)字信號劃分為不同的類,可分為非有用信號、語音和音樂三類, 從而為編碼器提供編碼模式選擇和速率選擇的依據(jù)。
在圖4中可以看出,SAD模塊內(nèi)部包括背景噪聲估計控制模塊、信 號初始分類模塊、分類參數(shù)提取模塊和信號分類判決模塊共4個子模塊。SAD作為編碼器內(nèi)部使用的信號分類器,為減少資源耗占及計算復(fù)雜度, 將充分利用編碼器自有的參數(shù),所以通過編碼器中的編碼器參數(shù)提取模塊計 算子帶能量參數(shù)及編碼器參數(shù),并將計算的參數(shù)提供給SAD模塊。另外, SAD模塊最終輸出是信號判決類型,包括非有用信號、語音和音樂三類, 提供給編碼器模式和速率選擇模塊,供其選擇編碼器模式和速率。
以下分別對編碼器中與SAD相關(guān)的模塊、SAD中的各個子模塊,以及 各個模塊之間的交互過程進行詳細說明。
編碼器中的編碼器參數(shù)提取模塊計算子帶能量參數(shù)及編碼器參數(shù),并將 計算的參數(shù)提供給SAD模塊。其中,子帶能量參數(shù)的計算可以采用濾波器 組濾波的方法,具體的子帶數(shù)量根據(jù)計算復(fù)雜度要求和分類準確性要求確 定,在本實施例中下述以分為12個子帶進行說明。
本實施例中,編碼器參數(shù)提取模塊計算各種SAD模塊需要的參數(shù)的過 程可以如圖5或圖6所示,
其中,圖5所示的流程包括如下步驟
步驟501、編碼器參數(shù)提取模塊首先計算子帶能量參數(shù)。
步驟502、編碼器參數(shù)提取模塊根據(jù)來自PSC模塊的信號初始判決結(jié)果 (Vad_flag)決定是否需要進行導(dǎo)頻頻率(ISF)運算,如果需要執(zhí)行步驟 503;否則執(zhí)行步驟504。
本步驟中決定是否需要進行ISF運算包括如果當(dāng)前幀是非有用信號, 則根據(jù)編碼器的機制如果編碼器針對非有用信號的編碼需要ISF參數(shù),則 進行ISF運算;若不需要,則編碼器參數(shù)提取模塊結(jié)束。如果當(dāng)前幀是有用 信號,則進行ISF運算。對于有用信號計算ISF參數(shù),是大多數(shù)編碼模式都 需要的,因此不會給編碼器帶來冗余的復(fù)雜度。ISF參數(shù)計算的技術(shù)方案可 以參考各種編碼器的資料,在此不贅述。
步驟503、編碼器參數(shù)提取模塊計算ISF參數(shù),然后執(zhí)行步驟504。
步驟504、編碼器參數(shù)提取模塊計算開環(huán)基音參數(shù)。
通過上述圖5的流程計算出的子帶能量參數(shù)提供給SAD中的PSC模塊 和分類參數(shù)提取模塊,其余參數(shù)提供給SAD中的分類參數(shù)提取模塊。
圖6所示的流程中,在圖5流程的基礎(chǔ)上,增加了根據(jù)初始噪聲是否收 斂來決定是否計算開環(huán)基音參數(shù)的步驟。其中,步驟601至步驟603與圖5 中的步驟501至步驟503基本相同,而在步驟604,判斷初始化噪聲參數(shù), 即噪聲估計是否收斂,如果是則在步驟605計算開環(huán)基音參數(shù);否則不計算 開環(huán)基音參數(shù)。
由于開環(huán)基音參數(shù)對于有的編碼模式,如TCX編碼模式,屬于冗余的 計算,為降低計算復(fù)雜度,在噪聲估計收斂之后,基本可以確定信號對應(yīng)的 編碼模式不需要計算開環(huán)基音參數(shù),因此就不再計算開環(huán)基音參數(shù)。
在噪聲估計收斂之前,為確保噪聲估計能夠收斂及其收斂速度,需要計 算開環(huán)基音參數(shù),但這屬于啟動階段的計算,可以忽略其復(fù)雜度。開環(huán)基音 參數(shù)計算的技術(shù)方案可以參考基于ACELP的編碼,在此不贅述。判斷噪聲 估計是否收斂的依據(jù)可以是連續(xù)判決為噪聲幀的次數(shù)超過門限噪聲收斂門 限(THR1 ),本實施例的一個示例中THR1值取20。
上述提取出的子帶能量參數(shù)為level[i]。其中,i表示向量的成員索引, 本實施例中取1…12,分別對應(yīng)0-200hz, 200-400hz,機-600hz, 600-800hz, 800-1200hz, 1200-1600hz, 1600-2000hz , 2000-2400hz, 2橋-3200hz , 3200-40000hz, 4000-4800hz, 4800-6400hz。
上述提取出的ISF參數(shù)為^人W,其中,n表示幀索引,i取l…16表 示向量中成員索引。
上述提取出的開環(huán)基音參數(shù)包括
開環(huán)基因增益(open—loop pitch gain, ol_—gain )和開環(huán)基因延遲 (open—loop pitch lag , ol_lag),以及音調(diào)標志(tone—flag)。其中,如果 ol—gain的值大于音調(diào)門限(TONE—THR),則音調(diào)標志tone_flag設(shè)為1。 信號初始分類模塊(PSC)可以采用各種已有的VAD算法方案來實現(xiàn),
具體包括背景噪聲估計子模塊、計算信噪比子模塊、有用信號估計子模塊、 判決閾值調(diào)整字模塊、比較子模塊、拖尾保護有用信號子模塊。本實施例中,
如圖7所示,PSC模塊的具體實現(xiàn)也可以與現(xiàn)有的VAD算法模塊有以下三 點不同
I、 計算信噪比子模塊根據(jù)該參數(shù)和子帶能量參數(shù)計算信噪比,計算出 的信噪比參數(shù)(snr)除在PSC模塊內(nèi)部使用外,還將該snr參數(shù)傳送給信 號分類判決模塊,以使得信號分類判決模塊在低信噪比條件下對語音和音樂 的區(qū)分也更加準確。
II、 由于現(xiàn)有的VAD對噪聲和某些種類的音樂的區(qū)分不夠理想,本實 施例對VAD進行了以下改進首先背景噪聲參數(shù)的計算由背景噪聲參數(shù)更 新模塊提供的更新速率acc來控制。由背景噪聲估計子模塊接收來自背景噪 聲參數(shù)更新模塊的更新速率,對噪聲參數(shù)進行更新,并將根據(jù)更新后的噪聲 參數(shù)計算的背景噪聲子帶能量估計參數(shù)傳送給計算信噪比子模塊。具體對更 新速率的計算參見后續(xù)對背景噪聲參數(shù)更新模塊的說明,在本實施例的一個 示例中,更新速率可以取4個檔accl, acc2, acc3, acc4。對于不同的更 新速率,確定不同的向上更新參數(shù)(update—up )和向下更新參數(shù)
(update—down ) , update—up及update—down分另'J對應(yīng)背景噪聲向上及向下 的更新速率。
然后噪聲參數(shù)更新的方案具體可采用AMR一WB+中的方案 If( 6cAr 一 e《[w] < /ev《一!["])
update=update—up
else
update=update_down 則噪聲估計更新的公式為 k^-Wm+1["]=(1_update)* 6c^_"U"]+update*
則噪聲頻鐠分布參數(shù)向量更新的公式為
卩]=(1 _ — — *》m + e * pm [/]
其中,
m: 幀索引 n:子帶索引
i: 頻譜分布參數(shù)向量的元素索引,i=l,2,3,4 bckr_est:背景噪聲估計子帶能量
卜背景噪聲頻譜分布參數(shù)向量估計 當(dāng)前信號頻語分布參數(shù)向量
III、在現(xiàn)有的VAD中, 一般都通過拖尾來保護有用信號不被誤判為噪 聲,拖尾的長短應(yīng)在保護信號和提高傳輸效率兩方面取一個折衷。對于傳統(tǒng) 的語音編碼器,拖尾的長短可以經(jīng)學(xué)習(xí)取一個常量。而對于多速率編碼器, 面向的是包括音樂的音頻信號,這類信號經(jīng)常出現(xiàn)較長的低能量的拖尾,常 規(guī)VAD較難將這部分拖尾檢測出來,因此需要較長的拖尾對其進行保護。 在實施例中,將托尾保護有用信號子模塊中的拖尾長短設(shè)計為根據(jù)SAD信 號判決結(jié)果自適應(yīng),如果判決出是音樂信號(SADJlag-MUSIC)則設(shè)置較長 的拖尾參數(shù)(hang—len=HANG—LONG ),如果判決出是語音信號 (SAD—flag=SPEECH),則設(shè)置較短的拖尾參數(shù)(hang—len=HANG—SHORT), 具體設(shè)置方式如下
If(SAD一flag-MUSIC)
hang—len=HANG—LONG
else if(SAD—flag=SPEECH) hang—len=HANG—SHORT
else
hang—len=0
其中
SAD—flag SAD判決標志 hang一len 拖尾保護長度
本實施例的一個示例中,HANG—LONG= 100, HANG SHORT=20,單4立可以是幀H。
分類參數(shù)提取模塊用于根據(jù)信號初始分類模塊確定的Vad一flag參數(shù)和 編碼器參數(shù)提取模塊提供的子帶能量參數(shù)、ISF參數(shù)、開環(huán)基音參數(shù)計算信 號分類判決模塊和背景噪聲參數(shù)更新模塊需要的參數(shù),以及將子帶能量參 數(shù)、ISF參數(shù)、開環(huán)基音參數(shù)和計算出的參數(shù)對應(yīng)提供給信號分類判決模塊 和背景噪聲參數(shù)。分類參數(shù)提取模塊計算出的參數(shù)包括
1、 基音參數(shù)(pitch)
比較連續(xù)的開環(huán)基音延遲的差值,如果開環(huán)基音延遲的增量小于設(shè)定的 閾值,則延遲計數(shù)累加;如果連續(xù)兩幀的延遲計數(shù)之和足夠大,則設(shè)置 pitch-l,否則pitch-O。開環(huán)基音延遲的計算公式可參見AMR-WB+/AMR-WB 標準文檔。
2、 長時信號相關(guān)值參數(shù)(meangain)
meangain是相鄰三幀音調(diào)tone的滑動平均,其中tone=1000*tone—flg; tone—flg定義與AMR-WB+中的相同。
3、 過零率(zcr)
nW在當(dāng)a是truth是1 ,當(dāng)是false時為0。
4、 子帶能量時域波動(t—flux)
12
ZI/evWHeveUl
^ j"x = ~^-
■s7/oW 一 wear"—/ew/ 一
其中short—mean_level—energy表示短時平均能量
5、 高低子帶能量比(ra) 一 sw6/eve/ —A妙—ewergy
其中,本專利發(fā)明的一個實例
sublevel—high—energy = level [10]+ level[l l];
sublevel—low_energyalevel
十level[l]屮level[2]十 level[3]+ level[4]十level[5]+ level[6]十level[7] + level[8]十level[9];
6、 子帶能量頻域波動(f—flux)
<formula>complex formula see original document page 17</formula>
7、 導(dǎo)鐠距離短時平均(isf—meanSD):為五個相鄰幀導(dǎo)譜距離Isf_SD 的平均值,其中
<formula>complex formula see original document page 17</formula>
8、 子帶能量標準差平均參數(shù)(level—meanSD),表示兩個相鄰幀子帶 能量標準差(level—SD )的平均值,level一SD參數(shù)的計算方法參考上述Isf_SD 的計算方法。
上述8個參數(shù)中,提供給背景噪聲參數(shù)更新模塊的參數(shù)包括zcr、 ra、 f—flux和t—flux。提供給信號分類判決模塊的參數(shù)包括pitch 、 meangain 、 isf一meanSD和level一meanSD。
信號分類判決模塊用于根據(jù)來自信號初始分類模塊PSC的snr、 Vad—flag,以及來自分類參數(shù)提取模塊的子帶能量參數(shù)、pitch、 meangain、 Isf—meanSD、 level—meanSD將信號最終區(qū)分為非有用信號(NOISE)、語 音信號(SPEECH)和音樂信號(MUSIC)。信號分類判決模塊中可以包括 參數(shù)更新子模塊和判決子模塊;所述參數(shù)更新子模塊用于根據(jù)所述信噪比更 新信號分類判決過程中的門限,并將更新后的門限提供給所述判決子模塊;. 所述判決子模塊用于接收來自PSC模塊的聲音信號類型,并對其中的有用 信號基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)、子帶能量參數(shù)和所述更新后的門限, 或者基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)和所述更新后的門限,確定所述有用 信號的類型,并發(fā)送所確定的有用信號的類型到編碼器模式及速率選擇模 塊。
將有用信號確定為語音信號或音樂信號包括首先設(shè)置語音標識位的值和音樂標識位的值均為0,然后根據(jù)基音參數(shù)標識、長時信號相關(guān)值、導(dǎo)譜 距離短時平均參數(shù)和子帶能量子標準差平均參數(shù)將信號初步確定為語音類 型、音樂類型或不確定類型,并根據(jù)初步確定出的語音類型或音樂類型對應(yīng)
修改語音標識位或音樂標識位的值;再根據(jù)子帶能量、長時信號相關(guān)值、子 帶能量子標準差平均參數(shù)、speech—flag、 music—flag、 pitch值為1的連續(xù)幀 數(shù)是否超過預(yù)先設(shè)置的拖尾幀數(shù)門限、連續(xù)的音樂幀數(shù)、連續(xù)的語音幀數(shù), 以及上一幀的類型,對初步確定出的所述語音類型、音樂類型或不確定類型 進行修正,確定有用信號的類型,所述類型包括語音信號和音樂信號。
以下再對將有用信號確定為語音信號或音樂信號的具體流程進行說明
為保證信號判決的穩(wěn)定及避免頻繁的判決結(jié)果的轉(zhuǎn)換,本實施例提供了 參凄t的才示志拖尾才幾制,包4舌對pitch—flag 、 level—meanSD—high—flag 、 ISF_meanSD—high—flag 、 ISF_meanSD_low—flag 、 level—meanSDJow—flag 、 meangain_flag這些特征參數(shù)值的確定根據(jù)拖尾機制進行,這些特征參數(shù)值 的具體確定如圖8所示。
圖8中的拖尾期間的長度根據(jù)拖尾參數(shù)標識值確定,本實施例中提供了 兩種拖尾設(shè)置,即確定拖尾參數(shù)標識值的方案
第一種拖尾設(shè)置方案中,當(dāng)參數(shù)值高于或低于一定門限時,對應(yīng)的參數(shù) 拖尾計數(shù)器值加一;否則對應(yīng)的參數(shù)拖尾計數(shù)器值設(shè)置為0,并根據(jù)參數(shù)拖 尾計數(shù)器的值設(shè)定不同的參數(shù)拖尾標識。其中,參數(shù)拖尾計數(shù)器的值越大, 參數(shù)拖尾標識值的長度越長,具體在根據(jù)參數(shù)計數(shù)器設(shè)置參數(shù)拖尾標識值時 根據(jù)實際情況確定,這里不再贅述。
第二種拖尾設(shè)置方案中,根據(jù)訓(xùn)練參數(shù)對應(yīng)的決策樹的各內(nèi)部節(jié)點的錯 誤率ER來控制拖尾長短,錯誤率小的參數(shù),拖尾短;錯誤率大的參數(shù),拖 尾長。
此后,如果當(dāng)前的信號分類為有用信號,進行語音和音樂的初始分類 首先進行語音初始判決,如圖9所示,在步驟901設(shè)置語音標識位=0, 然后在步驟902,判斷Isf—meanSD是否大于預(yù)先設(shè)定的第一導(dǎo)鐠語音門限
(例如為1500 ),如果是則設(shè)置語音標識位的值為1;否則,
在步驟903,判斷是否pitch值為1,并且開關(guān)基音搜索獲得的基音延遲 值t—top—mean小于基音語音門限(例如為40),如果是,則設(shè)置語音標識 位的值為1;否則,
在步驟904,判斷pitch值為1的連續(xù)幀數(shù)是否超過預(yù)先設(shè)置的拖尾幀 數(shù)門限(例如為2幀),如果是,則設(shè)置語音標識位的值為1;否則,
在步驟卯5,判斷meangain是否大于預(yù)先設(shè)定的長時相關(guān)語音門限(例 如為8000),如果是,則設(shè)置語音標識位的值為1;否則,
在步驟906,判斷l(xiāng)evel—meanSD—high—flag和ISF—meanSD—high_flag中 是否有一個或兩個的值為1,如果是,則設(shè)置語音標識位的值為1;否則不 更改語音標識位的值。
然后,進行音樂初始判決,具體如圖10所示
在步驟1001,首先將音樂標識位設(shè)置為0,然后在步驟1002,判斷信 號同時滿足標志ISF—meanSD—low—flag = 1和level—meanSD—low—flag = 1 ,如 果是則設(shè)置音樂信號標志music—flag;否則,不更改音樂標識位的值。
此后,如圖11所示,對初始判決結(jié)果進行修正
首先在步驟1101、判斷是否子帶的即時能量小于子帶能量門限(例如 為5000 ),如果是則執(zhí)行步驟1102;否則將信號確定為不確定類 (UNCERTAIN);
在步驟1102,判斷是否meangain—flag = 1,并且音樂持續(xù)計數(shù)器小于音 樂持續(xù)計數(shù)語音判斷門限(例如為3),如果是則將信號確定為語音信號; 否則,
在步驟1103,判斷ISF—meanSD的值大于預(yù)先設(shè)定的第二導(dǎo)i瞽語音門限 (例如為2000),如果是則將信號確定為語音信號;否則,
在步驟1104,判斷是否level_energy小于10000,并且之前判決為噪聲
的幀數(shù)超過了五幀,如果是,則將當(dāng)前的信號類別置為不確定類,這是為了 降低將噪聲歸為音樂類的誤判;否則,
在步驟1105,判斷是否音樂標識位和語音標識位的值均為1,如果是,
則將當(dāng)前信號類別確定位不確定類;否則,
在步驟1106,判斷是否音樂標識位和語音標識位的值均為0,如果是, 則將當(dāng)前信號類別確定位不確定類;否則,
在步驟1107,判斷是否音樂標識位為O,語音標識位為1,如果是,則 將當(dāng)前信號類型確定為語音類;否則,
在步驟1108,由于音樂標識位為1,語音標識位為0,將當(dāng)前信號類型 確定為音樂類。
在上述步驟1104、 1105即步驟1106中確定出信號為不確定類后,執(zhí)行 步驟1109:判斷是否pitch—flag-l ,并且ISF_meanSD小于導(dǎo)語音樂門限(例 如為900),并且連續(xù)的語音幀數(shù)小于3,如果是,則將信號確定為音樂類; 否則,將信號仍確定為不確定類;
而在上述步驟1103和步驟1107將信號確定為語音類后,執(zhí)行步驟1110: 是否連續(xù)的音樂幀數(shù)大于3,并且ISF—meanSD小于導(dǎo)譜音樂門限,如果是, 則將信號確定為音樂信號;否則,將信號確定為語音信號。
在通過上述流程確定出語音信號和音樂信號后,對于仍然處于不確定類 的信號,執(zhí)行圖12所示的流程,進行初步修正分類,包括首先在步驟1201 判斷l(xiāng)evd—energy是否小于子帶能量不確定類門限(例如為5000 ),如果是, 仍將信號類型確定為不確定類;否則,在步驟1202,判斷是否音樂的持續(xù) 幀數(shù)大于1并且ISF—meanSD小于導(dǎo)譜音樂門限,如果是,將信號確定為音 樂類;否則
對語音和音樂拖尾標志清零,如果本幀之前為連續(xù)的語音類,且連續(xù)性 較強,那么根據(jù)語音的特征參數(shù)對語音進行判決,若滿足語音條件,那么設(shè) 置語音拖尾標志speechjiangover—flag = 1,具體包括圖12中的步驟1203至 步驟1206;如果本幀之前為連續(xù)的音樂類,且連續(xù)性較強,那么根據(jù)音樂 的特征參數(shù)對音樂進行判決,若滿足音樂條件,那么設(shè)置音樂拖尾的標志 music—hangover—flag = 1,具體包括圖12中的步驟1207至步驟1210。
此后,如圖12中的步驟1211至步驟1216所示,如果語音拖尾標志為 1,音樂拖尾標志為0,將當(dāng)前的信號類別置為語音類;如果音樂拖尾標志 為1,語音拖尾標志為0,則將當(dāng)前的信號類別置為音樂類;如果音樂拖尾 標志和音樂拖尾標志同時為1或同時為0,將信號類別設(shè)為不確定類,這時 如果之前音樂的連續(xù)性超過了 20幀,將信號確定為音樂類,如果之前語音 的連續(xù)性超過了20幀,將信號確定為語音類。
在經(jīng)過上述初步修正后,在圖13中對有用信號類型進行最終修正,繼 續(xù)根據(jù)當(dāng)前的語境進行類別的修正,在步驟1301,如果當(dāng)前的語境為音樂, 且持續(xù)性很強,超過了 3秒,即當(dāng)前連續(xù)的音樂幀數(shù)超過了 150幀,那么可 根據(jù)ISF一meanSD的值進行強制修正,確定音樂信號。在步驟1302,如果當(dāng) 前的語境為語音,并且持續(xù)性很強,超過了3秒,即當(dāng)前連續(xù)的語音幀數(shù)超 過了 150幀,那么可根據(jù)ISF—meanSD的值進行強制修正,確定語音信號類 型;此后如果信號類別還為不確定類,那么在步驟1303根據(jù)之前的語境對 信號類別進行修正,即將當(dāng)前不確定的信號類別歸納為之前的信號類別。
在通過上述流程確定了有用信號的類別后,需要更新三個類別計數(shù)器和 更新信號類別判決模塊中的各門限值。對于三個類別計數(shù)器,如果當(dāng)前分類 為音樂signal—sort = music, 則音樂計凄t器music—countinue—counter增力口 1 , 否則清零;其它類別計數(shù)器的處理類似,如圖14所示,這里不再詳述。而 門限值根據(jù)信號初始分類模塊輸出的信噪比大小來更新,在實施例中列舉的 各門限示例是在20db信噪比條件下學(xué)習(xí)得到的值。
背景噪聲參數(shù)更新模塊利用SAD中分類參數(shù)提取模塊中計算出的一些 頻譜分布參數(shù),來控制背景噪聲的更新速率。由于在實際應(yīng)用環(huán)境可能出現(xiàn) 背景噪聲的能量水平突然提高的情況,這時易出現(xiàn)背景噪聲估計因信號持續(xù)
被判為有用信號而一直不能更新的狀態(tài),背景噪聲參數(shù)更新模塊的設(shè)置即解 決了該問題。
該背景噪聲參數(shù)更新模塊根據(jù)來自分類參數(shù)提取模塊中的參數(shù),計算的
有關(guān)頻鐠分布參數(shù)向量包含以下元素 過零率zcr的短時平均 高低子帶能量比ra的短時平均 子帶能量頻域波動f—flux的短時平均 子帶能量時域波動t一flux的短時平均 其中,zcr—mean短時平均的計算方法如下,其它類似 zct — wecwm =爿LP/i4[kcr — + (1 — ^LP/i4)[icrm
其中ALPHA=0.96, m表示幀索引。
本實施例利用了背景噪聲的頻i普特性較為穩(wěn)定的特點,其中頻i普分布參 數(shù)向量的成員可不限于以上列出的4個。當(dāng)前背景噪聲的更新速率由當(dāng)前頻
鐠分布參數(shù)與背景噪聲頻譜分布參數(shù)估計之間的差異《來控制。該差異可以 通過歐式距離、Manhattan距離等算法來實現(xiàn)。本專利的一個發(fā)明實例采用 Manhattan距離(一種距離計算方式的命名,類似于歐式距離),即
,=1
其中,P是當(dāng)前信號的頻譜分布參數(shù)向量,》是背景噪聲頻譜分布參數(shù) 向量估計。
在本實施例的一個示例中,當(dāng)《^TH1時,模塊輸出更新速率accl,代
表最快更新速率;否則,當(dāng)《*<TH2時,輸出更新速率acc2;否則,當(dāng)《<TH3 時,輸出更新速率acc3;否則,輸出更新速率acc4。這里的TH1、 TH2、 TH3 和TH4為更新門限,具體根據(jù)實際環(huán)境情況確定。
以上是對本發(fā)明具體實施例的說明,在具體的實施過程中可對本發(fā)明的 方法進行適當(dāng)?shù)母倪M,以適應(yīng)具體情況的具體需要。因此可以理解,根據(jù)本 發(fā)明的具體實施方式
只是起示范作用,并不用以限制本發(fā)明的保護范圍。
權(quán)利要求
1、一種聲音信號分類方法,其特征在于,該方法包括A、接收聲音信號,根據(jù)背景噪聲頻譜分布參數(shù)和所述聲音信號的頻譜分布參數(shù)確定背景噪聲的更新速率;B、根據(jù)所述更新速率對噪聲參數(shù)進行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對所述聲音信號進行分類。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B后進一步包括C、 對所述分類得到的有用信號,基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和 子帶能量參數(shù)確定有用信號的類型,所述類型包括語音信號和音樂信號。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟C之前進一步 包括C0、檢測噪聲估計是否收斂,如果是,則執(zhí)行步驟C1;否則,執(zhí)行所 述步驟C;Cl、對所述分類得到的有用信號,基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù) 將有用信號的類型確定有用信號的類型,所述類型包括語音信號和音樂信一弓_
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟C0中,檢測 初始噪聲是否收斂為判斷所述接收的聲音信號前連續(xù)噪聲幀數(shù)是否超過預(yù) 先設(shè)定的噪聲收斂門限,如果是,則確定噪聲估計收斂;否則,確定噪聲估 計不收斂。
5、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟B中還獲取所 述確定的有用信號類型,根據(jù)該有用信號類型確定信號拖尾長度,并進一步 根據(jù)該信號拖尾長度對所述聲音信號進行分類。
6、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟C包括 初始化語音標識位和音樂標識位,然后根據(jù)基音參數(shù)標識、長時信號相 關(guān)參數(shù)、導(dǎo)語距離短時平均參數(shù)和子帶能量子標準差平均參數(shù),以及對應(yīng)的 門限,初步確定有用信號的類型,包括語音類型、音樂類型或不確定類型, 并根據(jù)初步確定出的語音類型和音樂類型對應(yīng)修改語音標識位和音樂標識位;根據(jù)子帶能量、長時信號相關(guān)參數(shù)、子帶能量子標準差平均參數(shù)子帶能 量子標準差平均參數(shù)、語音標識位、音樂標識位、基音參數(shù)標識值為i的連 續(xù)幀數(shù)是否超過預(yù)先設(shè)置的拖尾幀數(shù)門限、連續(xù)的音樂幀數(shù)、連續(xù)的語音幀 數(shù)、上一幀的類型及對應(yīng)的門限,對初步確定出的所述語音類型、音樂類型 或不確定類型進行修正,最終確定所述有用信號的類型,包括語音信號和音 樂信號。
7、 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述門限根據(jù)所述聲音 信號的信噪比進行調(diào)整。
8、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B后,進一步 包括D、對所述分類得到的非有用信號,確定其對應(yīng)的編碼方式,并根據(jù)確 定的編碼方式確定是否需要計算導(dǎo)傳頻率參數(shù)。
9、 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟B中所述的噪聲參 數(shù)包括噪聲估計參數(shù)和噪聲頻謙分布參數(shù)。
10、 根據(jù)權(quán)利要求1或9所述的方法,其特征在于,所述步驟A包括計算所述聲音信號頻譜分布參數(shù)與背景噪音頻譜分布參數(shù)之間的差異參數(shù), 然后根據(jù)該差異參數(shù)確定更新速率。
11、 根據(jù)權(quán)利要求10所述的方法,其特征在于,計算所述差異參數(shù)涉 及的頻語分布參數(shù)包括過零率短時平均參數(shù)、高低子帶能量比短時平均參 數(shù)、子帶能量頻域波動短時平均參數(shù)和子帶能量時域波動短時平均參數(shù)。
12、 一種聲音信號分類裝置,其特征在于,該裝置包括背景噪聲參數(shù) 更新模塊和信號初始分類PSC模塊;所述背景噪聲參數(shù)更新模塊用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信號的頻譜分布參數(shù)確定背景噪聲的更新速率,并發(fā)送所述確定的更新速率;所述psc模塊用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率, 對噪聲參數(shù)進行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對當(dāng)前聲音 信號進行分類,并發(fā)送分類確定的聲音信號類型。
13、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置進一步包括 信號分類判決模塊,用于接收來自psc模塊的聲音信號類型,并對其中的 有用信號基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者基于導(dǎo)鐠 頻率參數(shù)和子帶能量參數(shù),確定有用信號的類型,所述類型包括語音信號和 音樂信號,并發(fā)送所確定的有用信號的類型。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,該裝置進一步包括 分類參數(shù)提取模塊,用于接收來自psc模塊的聲音信號類型,并將該聲音 信號類型傳送給所述信號分類判決模塊;和獲取包括導(dǎo)譜頻率參數(shù)和子帶能 量參數(shù),或者進一步獲取開環(huán)基音參數(shù),將獲取的參數(shù)處理為信號分類特征 參數(shù)傳送給所述信號分類判決模塊;以及將獲取的參數(shù)處理為聲音信號的頻 譜分布參數(shù)和背景噪聲頻語分布參數(shù),并將這些頻鐠分布參數(shù)傳送給所述背 景噪聲參數(shù)更新模塊;則所述分類判決模塊根據(jù)所述信號分類特征參數(shù)和所述psc模塊確定 的聲音信號類型,確定有用信號的類型,所述類型包括語音信號和音樂信號。
15、 根據(jù)權(quán)利要求13或14所述的裝置,所述psc模塊中包括背景 噪聲估計子模塊、計算信噪比子模塊、有用信號估計子模塊、判決閾值調(diào)整 字模塊、比較子模塊、拖尾保護有用信號子模塊;其特征在于,所述背景噪聲估計子模塊接收來自所述背景噪聲參數(shù)更新模塊的更新 速率,對噪聲參數(shù)進行更新,并將根據(jù)更新后的噪聲參數(shù)計算的背景噪聲子 帶能量估計參數(shù)傳送給所述計算信噪比子模塊;所述計算信噪比子模塊用于接收所述背景噪聲子帶能量估計參數(shù),并根 據(jù)該參數(shù)和子帶能量參數(shù)計算信噪比,并將信噪比傳送給所述信號分類判決模塊;所述信號分類判決模塊包括參數(shù)更新子模塊和判決子模塊;所述參數(shù) 更新子模塊用于根據(jù)所述信噪比更新信號分類判決過程中的門限,并將更新后的門限提供給所述判決子模塊;所述判決子模塊用于接收來自PSC模塊的聲音信號類型,并對其中的 有用信號基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)、子帶能量參數(shù)和所述更新后的 門限,或者基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)和所述更新后的門限,確定所 迷有用信號的類型,并發(fā)送所確定的有用信號的類型。
16、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,該裝置進一步包括 編碼器模式及速率選擇模塊,用于接收來自信號分類判決模塊的有用信號的 類型,并根據(jù)接收的有用信號的類型確定聲音信號的編碼模式及速率。
17、 根據(jù)權(quán)利要求14所述的裝置,其特征在于,該裝置進一步包括 編碼器參數(shù)提取模塊,用于提取導(dǎo)謙頻率參數(shù)和子帶能量參數(shù),或者進一步 提取開環(huán)基音參數(shù),并將提取的所述參數(shù)傳送給所述分類參數(shù)提取模塊,以 及將提取的子帶能量參數(shù)傳送給所述PSC模塊。
全文摘要
本發(fā)明公開了一種聲音信號分類方法,包括接收聲音信號,根據(jù)背景噪聲頻譜分布參數(shù)和所述聲音信號的頻譜分布參數(shù)確定背景噪聲的更新速率;根據(jù)所述更新速率對噪聲參數(shù)進行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對所述聲音信號進行分類。本發(fā)明還公開了一種聲音信號分類裝置,包括背景噪聲參數(shù)更新模塊,用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信號的頻譜分布參數(shù)確定背景噪聲的更新速率,并發(fā)送所述確定的更新速率;PSC模塊,用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率,對噪聲參數(shù)進行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對當(dāng)前聲音信號進行分類,并發(fā)送分類確定的聲音信號類型。
文檔編號G10L25/78GK101197135SQ20061016445
公開日2008年6月11日 申請日期2006年12月5日 優(yōu)先權(quán)日2006年12月5日
發(fā)明者勤 嚴, 清 張, 偉 李, 杜正中, 桑盛虎, 珺 王, 許麗凈, 許劍峰, 鄧浩江 申請人:華為技術(shù)有限公司;中國科學(xué)院聲學(xué)研究所