專利名稱:基于概率密度比的壓縮域高魯棒語音/音樂分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于概率密度比的壓縮域高魯棒語音/音樂分割方法,主要是一種不同自
然環(huán)境噪聲低信噪比條件下基于概率密度比的語音/音樂改變點檢測方法。
背景技術(shù):
壓縮域語音/音樂的分類檢索、場景分類等技術(shù)是指利用信號處理及統(tǒng)計理論方法,在 大量的壓縮語音/音樂數(shù)據(jù)庫中搜索特定語音/音樂的技術(shù),而語音/音樂分割是實現(xiàn)分類檢索 技術(shù)的關(guān)鍵問題之一,特別是在自然環(huán)境噪聲低信噪比條件下的處理。
以往常用的語音/音樂分割方法,大部分都是在非壓縮域中迸行的,直接針對壓縮域語 音/音樂分割的問題涉及很少,特別是在低信噪比條件下的研究則更少。但是考慮到大部分的 壓縮域語音/音樂并不能都能在標(biāo)準(zhǔn)錄音棚中完成,有的甚至來自嘈雜的現(xiàn)實環(huán)境中,因此針 對自然環(huán)境噪聲低信噪比條件下壓縮域語音/音樂分割的研究顯得尤為重要。壓縮域語音/音 樂數(shù)據(jù)來自于原始語音/音樂編碼后的二進制碼流,但是僅從這些數(shù)據(jù)流并不能直接體現(xiàn)原始 語音/音樂的重要特性。因此,壓縮域語音/音樂數(shù)據(jù)分割首先要考慮的是特征提取的數(shù)據(jù)源 問題,即如何對壓縮數(shù)據(jù)進行處理,以最小的計算代價來提取有效的特征參數(shù)以滿足壓縮語 音/音樂數(shù)據(jù)的處理要求。理論分析及實驗結(jié)果證明通過對壓縮數(shù)據(jù)部分解碼,即可獲得與原 始語音/音樂譜特性相似的數(shù)據(jù),基于該數(shù)據(jù)提取的壓縮域語音/音樂數(shù)據(jù)特征可以體現(xiàn)語音 與音樂的顯著區(qū)別,并可用于進一步的分割與分類。本發(fā)明基于概率密度比的壓縮域高魯棒 語音Z音樂分割方法正是采用上述的思想,從基于MPEG1標(biāo)準(zhǔn)聲音第三層壓縮技術(shù)的壓縮域語 音/音樂數(shù)據(jù)中提取新的特征參數(shù)壓縮域概率密度比(Compressed probability density ratio ,CPR)、以及壓縮域概率密度比過零率(Compressed probability density ratio crossing rate , CPRCR),然后在壓縮域語音/音樂數(shù)據(jù)中檢測語音與音樂的改變點,最后由 此改變點得到分割結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對己有技術(shù)中存在的缺陷,提供一種基于概率密度比的壓縮域高魯 棒語音/音樂分割方法,解決壓縮域中不同自然環(huán)境噪聲低信噪比條件下語音/音樂改變點檢 測問題,可進一步用于壓縮域語音/音樂識別、語音/音樂分類檢索,語音/音樂場景分類等。
為達到上述目的,本發(fā)明的構(gòu)思是
本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法首先具有很好的抗噪性能,能
6夠在不同自然環(huán)境噪聲低信噪比條件下實現(xiàn)壓縮域語音/音樂數(shù)據(jù)分割,其信噪比可低至5dB。 這為壓縮域語音/音樂數(shù)據(jù)的進一步處理,如分類與檢索、識別,場景檢測等提供了很好的基 礎(chǔ)。
本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法的目的在于提供一種不同自 然環(huán)境噪聲低信噪比條件下壓縮域語音/音樂數(shù)據(jù)的分割方法,從壓縮域語音/音樂數(shù)據(jù)中直 接提取語音/音樂特征參數(shù),通過語音/音樂數(shù)據(jù)的改變點檢測將壓縮域語音/音樂數(shù)據(jù)分割成 不同類別的語音/音樂段,進而將分割結(jié)果用于壓縮域語音/音樂的分類及檢索等。
本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法解決其技術(shù)問題采用的技術(shù) 方案為先從不同自然環(huán)境噪聲低信噪比條件下的壓縮域語音/音樂數(shù)據(jù)中提取特征參數(shù),再 對該數(shù)據(jù)進行語音/音樂改變點檢測,最后由此改變點得到分割結(jié)果。
根據(jù)上述發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案-
一種基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征在于首先從基于
MPEG1標(biāo)準(zhǔn)聲音第三層壓縮技術(shù)的MP3 (MPEGl-layer3)文件中得到能體現(xiàn)原始語音/音樂 頻域特性的數(shù)據(jù),其次對這些數(shù)據(jù)提取新的壓縮域概率密度比特征參數(shù)(Compressed probability density ratio , CPR),然后基于此參數(shù)得到能夠體現(xiàn)語音與音樂不同特性的壓 縮域概率密度比過零率特征參數(shù)(Compressed probability density ratio crossing rate,CPRCR),最后在壓縮域語音/音樂數(shù)據(jù)中檢測語音與音樂的改變點,由此改變點最終得 到分割后的語音、音樂段。
該方法具體包括如下五個步驟
1) 、壓縮域語音/音樂數(shù)據(jù)的預(yù)處理包括壓縮域語音音樂混合數(shù)據(jù)的獲取、對解碼幀頭 及邊信息的讀取,主數(shù)據(jù)的讀取,哈夫曼解碼和量化;
2) 、生成修正離散余弦變換MDCT矩陣找出每一子帶中的MDCT系數(shù),對子帶中的系 數(shù)進行排列,形成矩陣;
3) 、壓縮域語音/音樂數(shù)據(jù)特征參數(shù)的提取包括壓縮域概率密度比以及壓縮域概率密度 比過零率特征參數(shù)的求??;
4) 、語音與音樂的改變點檢測基于步驟(3)中提取的特征參數(shù)進行語音/音樂的分割點檢5)、不同自然環(huán)境噪聲低信噪比條件下的語音與音樂的改變點檢測,輸出自然環(huán)境噪聲低 信噪比條件下壓縮域語音/音樂數(shù)據(jù)分割點,得到分割后的語音、音樂段。
本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的突出實質(zhì)性特點和顯著優(yōu)點本發(fā)明直
接從壓縮域語音/音樂數(shù)據(jù)中提取能有效體現(xiàn)語音/音樂顯著區(qū)別的特征參數(shù),它相對于將壓
縮數(shù)據(jù)全解壓后再提取特征的方法,既簡單又節(jié)省計算時間;利用壓縮域概率密度比過零率
特征參數(shù)能有效地將語音/音樂分割點找出,并且該方法對于不同環(huán)境噪聲,如汽車噪聲、火
車噪聲及人群吵雜聲等,也具有很好的分割效果。實驗結(jié)果表明,采用本發(fā)明得分割方法比
傳統(tǒng)分割方法,在準(zhǔn)確率、抗噪性和綜合性能方面均有顯著提高。
圖1是本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法的流程圖。
具體實施例方式
本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法的一個優(yōu)選實施例結(jié)合附圖 說明如下本基于概率密度比的壓縮域高魯棒語音/音樂分割方法,共分五步
第一步壓縮域語音/音樂數(shù)據(jù)的預(yù)處理
壓縮域語音/音樂數(shù)據(jù)的處理分為幀頭信息的讀取,邊信息的讀取,主數(shù)據(jù)的讀取,哈 夫曼解碼和量化。
1) 、壓縮域語音/音樂混合數(shù)據(jù)的獲取
A) 、從音頻噪音庫中獲取一段壓縮域白噪聲;
B) 、從語音/音樂庫獲取純凈的壓縮域語音和音樂樣本;
C) 、獲取信噪比為5dB的壓縮域語音/音樂混合數(shù)據(jù);
2) 、幀頭信息的讀取
A) 、讀取幀中的同步信息;
B) 、根據(jù)同步信息,使解碼器與數(shù)據(jù)流同步;
C) 、確定該幀數(shù)據(jù)的起始位置,同時得到其幀頭信息力eac/;
3) 、邊信息的讀取
A) 、確定該幀數(shù)據(jù)的邊信息起始位置,即其幀頭結(jié)束的地方;
B) 、得到該幀的邊信息數(shù)據(jù)57A;4)、主數(shù)據(jù)的讀取
A) 、根據(jù)邊信息計算主數(shù)據(jù)的長度船J'/7c/ata-,
B) 、讀取該幀的主數(shù)據(jù),其數(shù)據(jù)長度即為i&眾血ts;
C) 、從主數(shù)據(jù)信息中得到縮放英子5ba/e; 5)、哈夫曼解碼和反量化
A) 、根據(jù)邊信息^YA確定主數(shù)據(jù)中哈夫曼數(shù)據(jù)的起始位置;
B) 、對哈夫曼數(shù)據(jù)進行解碼,得到32*18維的哈夫曼解碼數(shù)組is;
C) 、對數(shù)組A中的數(shù)據(jù)進行反量化。
第二步生成修正離散余弦變換MDCT矩陣
每個顆粒的數(shù)據(jù)由32個子帶構(gòu)成且每一子帶含有18個系數(shù),根據(jù)頻率由低到高分布的 原則,每一顆??尚纬梢粋€32xl8的矩陣。該過程如下.-
1) 、找出每一子帶系數(shù)
A) 、根據(jù)哈夫曼解碼數(shù)組i5得到每一子帶的32個MDCT系數(shù);
B) 、從每一子帶的每個MDCT系數(shù)中得到18個子帶系數(shù);
C) 、按頻率高低原則重新排列每一子帶中的系數(shù),得到一組新的子帶系數(shù)數(shù)組5";
2) 、形成矩陣
A) 、根據(jù)子帶系數(shù)數(shù)組5"的行向量,依子帶序號組合得到32xl8維的子帶序號數(shù)組M;
B) 、依照上述原則,分別得到該幀數(shù)據(jù)中兩個顆粒的MDCT系數(shù)矩陣數(shù)組M/^7M2。 第三步壓縮域語音/音樂數(shù)據(jù)特征參數(shù)的提取
所提取的壓縮域特征包括概率密度比參數(shù)C/^和概率密度比過零率C尸i Ci 參數(shù)。 1)、求取壓縮域概率密度比CPR特征參數(shù)
A) 、基于統(tǒng)計學(xué)中貝葉斯準(zhǔn)則; 設(shè)定兩種假設(shè)
H。Z^W 純噪聲源
= W + S語音/音樂+噪聲音頻
其中H,就是壓縮語音+音樂+噪聲混合輸入,F(xiàn)。為純噪聲模型。
B) 、構(gòu)造噪聲模型;假設(shè)//。為壓縮域白噪聲模型,按照權(quán)利要求3、 4的方法,形成白噪聲的MDCT矩陣,
此處的構(gòu)造白噪聲相對于壓縮域語音/音樂數(shù)據(jù)必須為高信噪比環(huán)境。 C)、計算概率密度比貝葉斯準(zhǔn)則模型;
<formula>formula see original document page 10</formula>
其中£表示每一幀壓縮音頻MDCT系數(shù)的個數(shù),《是參數(shù)的計數(shù)器;Z《表示每一幀混合 壓縮語音/音樂數(shù)據(jù)的第〖個MDCT數(shù)據(jù),A(幻、4(K)分別表示音頻與噪聲的方差, 可從噪聲模型中估計得出,^(/Q可基于輸入信號模型由下式得出-
<formula>formula see original document page 10</formula>
其中尸(義)- ,—,"是權(quán)重系數(shù),本發(fā)明中取"=0"8,
0 C r/ e;^
D)基于概率密度比貝葉斯準(zhǔn)則模型計算概率密度比CPR;
<formula>formula see original document page 10</formula>
2)、求取壓縮域概率密度比過零率CPRCR參數(shù) A)、計算閾值;
計算每半秒的壓縮域概率密度比閾值,為了充分體現(xiàn)語音與音樂的顯著細節(jié)特性,選取 772兩個閾值,其中7; -0^均值,712 =0^均值*3,即
<formula>formula see original document page 10</formula>
其中CiW[/]為每一幀的概率密度比,W為半秒的幀數(shù)。
B)、計算過零率C/WcH , C7^ "2 ;<formula>formula see original document page 11</formula>[C尸^ (> -1) - T2
得到此段數(shù)據(jù)的= C/>U + CPi cT2 ;其中5卵是符號函數(shù),C7^"0)表示第《個半秒 第w個C/V 參數(shù)。
C)、計算每半秒最終的壓縮域概率密度比過零率CPRCR;
OT Ci 二 C尸i O / CPi cr max
其中 '"、 ;上述過程是對C/^"的歸一化處理。
第四步壓縮域語音/音樂數(shù)據(jù)的改變點檢測
為保證壓縮域語音/音樂數(shù)據(jù)分割的連續(xù)性以及防止誤判,本發(fā)明要求每段分割的語音
或音樂長度必須大于一秒,需要連續(xù)M(1^2)個CPRCR參數(shù)大于或小于閾值r才能作為有效 CPRCR分割點。
1) 、如步驟3中所述,計算每一幀壓縮語音/音樂數(shù)據(jù)的壓縮域概率密度比參數(shù),然后基 于此特征參數(shù)得到每半秒的壓縮域概率密度比過零率CPRCR參數(shù);
2) 、修正CPRCR;
我們將不滿足連續(xù)M個參數(shù)值大于或小于r(ri. 5)但卻出現(xiàn)大于或小于闞值的參數(shù)點稱 為奇異點。找出所有的奇異點并對之進行處理,即根據(jù)奇異點前后的數(shù)據(jù)代替當(dāng)前點-
a^o D'] = * (cm7邵—i〗+c尸織[/+1]) 在進行分割之前,找出所有的奇異點能夠保證分割的有效性,減少誤判概率。
3) 、閾值比較;
C7^CW閾值比較,設(shè)置閾值《=0'5。
4) 、分割點檢測;
鑒于語音音樂的概率密度比特性,語音的小概率密度比序列的數(shù)量遠比音樂的多,由此
可知,語音的c/^ci 遠比音樂的cp; a 小。所以比《小的段檢測為語音,比《大的段檢測
為音樂;5)、輸出壓縮語音/音樂數(shù)據(jù)的分割點。 第五步不同自然環(huán)境噪聲低信噪比條件下壓縮域語音/音樂改變點檢測 1)、不同自然環(huán)境噪聲下壓縮域語音音樂混合數(shù)據(jù)的獲取;
A) 、從音頻庫中獲取作為自然環(huán)境噪聲的火車聲、汽車聲;
B) 、從語音/音樂庫獲取純凈的壓縮域語音和音樂樣本;
C) 、基于自然環(huán)境噪聲,獲取信噪比為5dB的壓縮域語音/音樂混合數(shù)據(jù);
2)、重復(fù)第一步中2)到第四步結(jié)束,輸出對應(yīng)自然環(huán)境噪聲下壓縮域語音/音樂數(shù)據(jù)的 分割點。
本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法使用省級電視臺新聞播報語 音庫、"班得瑞"專輯音樂庫以及來源于sounddogs網(wǎng)站的自然環(huán)境噪聲庫(如汽車噪聲、火 車噪聲和人群吵雜聲等)。壓縮域語音/音樂資料的格式為MP3,采樣頻率為44.1KHz,總計 時間約為270分鐘(3分鐘*92個壓縮域混合語音/音樂數(shù)據(jù)段)。
我們對以上壓縮域語音/音樂數(shù)據(jù)資料用傳統(tǒng)BIC分割檢測方法和本發(fā)明基于概率密度 比的壓縮域高魯棒語音/音樂分割方法分別進行實驗,測試精度以語音/音樂數(shù)據(jù)分割點的判 斷準(zhǔn)確率來評估。分割點的判斷準(zhǔn)確率定義為已檢測出的判斷正確的分割點數(shù)占所有待檢 測分割點數(shù)的百分比,其計算公式如下.-
式中^"M表示原來為語音而被誤判為音樂的點數(shù);"w爿表示原來為音樂而被誤判為
語音的點數(shù),w表示待處理樣本中所有c^ cw點數(shù)。
分割點的判斷準(zhǔn)確率體現(xiàn)了檢測出的語音/音樂分割點中,正確的分割點在所有待檢測點 中所占有的比率,表征了檢測結(jié)果的正確性。
對實驗結(jié)果進行統(tǒng)計表明傳統(tǒng)的BIC檢測方法對白噪聲環(huán)境下信噪比為5dB時的壓縮 域語咅/音樂數(shù)據(jù)的分割點檢測準(zhǔn)確率僅達到30.56%,而在自然噪聲環(huán)境下其檢測準(zhǔn)確率則 更低,如火車噪聲環(huán)境下信噪比為5dB時的壓縮域語音/音樂數(shù)據(jù)的分割點檢測準(zhǔn)確率僅為
實驗結(jié)果
1225.27%,汽車噪聲環(huán)境下信噪比為5dB時的壓縮域語音/音樂數(shù)據(jù)的分割點檢測準(zhǔn)確率僅為 22.15%,這遠遠不能滿足正常的分割需求,可以認為是不能有效地進行壓縮域語音/音樂數(shù)據(jù) 的分割;使用本發(fā)明基于概率密度比的壓縮域卨魯棒語音/音樂分割方法,在白噪聲環(huán)境下信 噪比為5dB時的壓縮域語音/音樂數(shù)據(jù)分割點檢測的準(zhǔn)確率達到82.25%,在自然噪聲環(huán)境下 也能實現(xiàn)良好的分割效果,如火車噪聲環(huán)境下信噪比為5dB時壓縮域語音/音樂數(shù)據(jù)分割點的 檢測準(zhǔn)確率達到81.09%,汽車噪聲環(huán)境下信噪比為5dB時壓縮域語音/音樂數(shù)據(jù)分割點的檢 測準(zhǔn)確率達到78. 21%。
由此可見,本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法,可以對不同自然 環(huán)境噪聲低信噪比條件下壓縮域語音/音樂數(shù)據(jù)進行有效的語音/音樂分割點檢測,從而解決 了壓縮域中不同自然環(huán)境噪聲低信噪比條件下語音/音樂改變點檢測問題,該發(fā)明可進一步用 于壓縮域語音/音樂識別、語音/音樂分類檢索,音頻場景分析等多種應(yīng)用場合。
權(quán)利要求
1、一種基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征在于首先從低信噪比壓縮域語音/音樂混合數(shù)據(jù)中提取能夠體現(xiàn)語音與音樂不同特性的基于概率密度比的新特征參數(shù)壓縮域概率密度比和壓縮域概率密度比過零率;然后基于此新特征參數(shù)對壓縮域語音和音樂進行改變點檢測;最后由此進行分割,分別得到分割點后的語音、音樂段。
2、 根據(jù)權(quán)利要求1所述的基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征 在于具體操作步驟如下[1) 、壓縮語音/音樂數(shù)據(jù)的預(yù)處理包括壓縮域語音音樂混合數(shù)據(jù)的獲取、對解碼幀頭及 邊信息的讀取,主數(shù)據(jù)的讀取,哈夫曼解碼和量化;[2) 、生成修正離散余弦變換MDCT矩陣找出每一子帶中的MDCT系數(shù),對子帶中的系 數(shù)進行排列,形成矩陣;[3) 、壓縮域語音/音樂數(shù)據(jù)特征參數(shù)的提取包括壓縮域概率密度比以及壓縮域概率密度 比過零率特征參數(shù)的求??;[4) 、語音與音樂的改變點檢測基于步驟(3)中提取的特征參數(shù)進行語音/音樂的分割點檢測;[5) 、不同自然環(huán)境噪聲低信噪比條件下的語音與音樂的改變點檢測,輸出自然環(huán)境噪聲低 信噪比條件下壓縮域語音/音樂數(shù)據(jù)的分割點,得到分割后的語音、音樂段。
3、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征在 于所述步驟1)的壓縮語音/音樂數(shù)據(jù)的預(yù)處理具體步驟是① 、壓縮域語音音樂混合數(shù)據(jù)的獲取A) 、從音頻噪音庫中獲取一段壓縮域白噪聲B) 、從語音/音樂庫獲取純凈的壓縮域語音和音樂樣本;C) 、獲取信噪比為5dB的壓縮域語音/音樂混合數(shù)據(jù);② 、幀頭信息的讀取A) 、讀取幀中的同步信息;B) 、根據(jù)同步信息,使解碼器與數(shù)據(jù)流同步;C) 、確定該幀數(shù)據(jù)的起始位置,同時得到其幀頭信息力朋d③ 、邊信息的讀取A) 、確定該幀數(shù)據(jù)的邊信息起始位置,即其幀頭結(jié)束的地方;B) 、得到該幀的邊信息數(shù)據(jù) 、主數(shù)據(jù)的讀取A) 、根據(jù)邊信息計算主數(shù)據(jù)的長度ifei'/7c/ata;B) 、讀取該幀的主數(shù)據(jù),其數(shù)據(jù)長度即為ifei/7血ta;C) 、從主數(shù)據(jù)信息中得到縮放英子&a7e; ⑤、哈夫曼解碼和反量化A) 、根據(jù)邊信息5^/e確定主數(shù)據(jù)中哈夫曼數(shù)據(jù)的起始位置;B) 、對哈夫曼數(shù)據(jù)進行解碼,得到32*18維的哈夫曼解碼數(shù)組is;C) 、對數(shù)組is中的數(shù)據(jù)進行反量化。
4、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征在 于所述步驟2)的生成修正離散余弦變換MDCT矩陣具體步驟是① 、找出每一子帶系數(shù)A) 、根據(jù)哈夫曼解碼數(shù)組化得到每一子帶的32個MDCT系數(shù);B) 、從每一子帶的每個MDCT系數(shù)中得到18個子帶系數(shù);C) 、按頻率高低原則重新排列每一子帶中的系數(shù),得到一組新的子帶系數(shù)數(shù)組&② 、形成矩陣A) 、根據(jù)子帶系數(shù)數(shù)組5"的行向量,依子帶序號組合得到32xl8維的子帶序號數(shù)組M;B) 、依照上述原則,分別得到該幀數(shù)據(jù)中兩個顆粒的MDCT系數(shù)矩陣數(shù)組M/^/A/2。
5、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征在 于所述步驟3)壓縮域語音/音樂數(shù)據(jù)特征參數(shù)的提取的具體步驟是①、求取壓縮域概率密度比CPR特征參數(shù)A) 、基于統(tǒng)計學(xué)中貝葉斯準(zhǔn)則,設(shè)定兩種假設(shè)/f。,/f,:F。Z = JV 純噪聲源//,:Z-AT + S語音/音樂+噪聲音頻其中H,就是MP3語音+音樂+噪聲輸入,//。為純噪聲模型;B) 、構(gòu)造噪聲模型,假設(shè)/7。為壓縮域白噪聲模型,按照步驟2)中具體步驟②的方法,形成白噪聲的MDCT矩陣,此處的構(gòu)造白噪聲相對于壓縮域語音/音樂數(shù)據(jù)必須為高信噪比環(huán)境;C) 、計算概率密度比貝葉斯準(zhǔn)則模型<formula>formula see original document page 3</formula>其中z表示每一幀壓縮音頻mdct系數(shù)的個數(shù),at是參數(shù)的計數(shù)器;z《表示每一幀混合壓縮語音/音樂數(shù)據(jù)的第《個mdct數(shù)據(jù),;lz(x) 、 ;^(/o分別表示音頻與噪聲的方差,可從噪聲模型中估計得出,Az(尺)可基于輸入信號模型由下式得出<formula>formula see original document page 4</formula>其中戶(義):=<[義義》0,"是權(quán)重系數(shù),取^ = 0.98。 D)基于貝葉斯準(zhǔn)則模型計算壓縮域概率密度比cpr厶a>1②、求取壓縮域概率密度比過零率CPRCR參數(shù) A)、計算閨值計算每半秒的壓縮域概率密度比閾值,為了充分體現(xiàn)語音與音樂的顯著細節(jié)特性,選取772兩個閾值,其中?;=<:戶/ 均值,72 =<:尸及均值*3,即<formula>formula see original document page 4</formula>其中cr; [/]為每一幀的概率密度比,v為半秒的幀數(shù);B) 、計算過零率C尸及cK,CT及"2<formula>formula see original document page 4</formula> 得到此段數(shù)據(jù)的C尸及c" = Ci^crl + C^"2 ;其中是符號函數(shù),C尸A (w)表示第"個半秒第w個cp/ 參數(shù);C) 、計算每半秒最終的概率密度比過零率CPRCRC尸i O = C尸i C/ / max其中 '" ;上述過程是對C^ "的歸一化處理。
6、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征在 于所述步驟4)語音/音樂的改變點檢測具體步驟是① 、按所述步驟3)計算每一幀數(shù)據(jù)的壓縮域概率密度比參數(shù),然后基于此特征參數(shù)得到 每半秒的壓縮域概率密度比過零率CPRCR特征參數(shù);② 、修正CPRCR將不滿足連續(xù)M個參數(shù)值大于或小于r,r=0. 5,但卻出現(xiàn)大于或小于閾值的參數(shù)點稱為奇 異點,找出所有的奇異點并對之進行處理,即根據(jù)奇異點前后的數(shù)據(jù)代替當(dāng)前點C尸/JO [/] = * (C尸i C7 [/ 一 1] + C尸i C鄧+1])在進行分割之前,找出所有的奇異點能夠保證分割的有效性,減少誤判概率;③ 、閾值比較CP/ Ci 閾值比較,設(shè)置閾值《=0-5。
、分割點檢測鑒于語音音樂的概率密度比特性,語音的小概率密度比序列的數(shù)量遠比音樂的多,由此可知,語音的c尸i o 遠比音樂的cpi a 小。所以比《小的段檢測為語音改變點,比《大的段檢測為音樂改變點;5)、輸出壓縮語音/音樂數(shù)據(jù)的分割點。
7、 根據(jù)權(quán)利要求2所述的基于概率密度比的壓縮域高魯棒語音/音樂分割方法,其特征在 于所述步驟5)的不同自然環(huán)境噪聲低信噪比條件下語音/音樂改變點檢測的具體步驟是①、不同自然環(huán)境噪聲下壓縮域語音音樂混合數(shù)據(jù)的獲取 A)、從音頻庫中獲取作為自然環(huán)境噪聲的火車聲、汽車聲; B)、從語音/音樂庫獲取純凈的壓縮域語音和音樂樣本; C)、基于自然環(huán)境噪聲,獲取信噪比為5dB的壓縮域語音/音樂混合數(shù)據(jù); ②、按照權(quán)利要求3-6步驟處理此壓縮域語音/音樂混合數(shù)據(jù),輸出自然環(huán)境噪聲低信 噪比條件下壓縮域語音/音樂數(shù)據(jù)的分割點,從而得到分割后的語音、音樂段。
全文摘要
本發(fā)明涉及一種基于概率密度比的壓縮域高魯棒語音/音樂分割方法。本方法首先從低信噪比壓縮域語音/音樂混合數(shù)據(jù)中提取基于概率密度比的新特征參數(shù),然后基于此新特征參數(shù)對壓縮域語音和音樂進行改變點檢測,最后由此進行分割,分別得到分割后的語音、音樂段。實驗結(jié)果表明,采用本發(fā)明基于概率密度比的壓縮域高魯棒語音/音樂分割方法得到的語音/音樂分割方法比傳統(tǒng)的分割方法,在其準(zhǔn)確率、抗噪性和綜合性能方面均有顯著提高。
文檔編號G10L11/00GK101667423SQ20091019651
公開日2010年3月10日 申請日期2009年9月25日 優(yōu)先權(quán)日2009年9月25日
發(fā)明者萬旺根, 余小清, 李昌蓮, 許雪瓊 申請人:上海大學(xué)