一種基于局部頻譜圖像描述子的魯棒音頻識(shí)別方法
【專利摘要】本發(fā)明屬基于內(nèi)容的音樂檢索【技術(shù)領(lǐng)域】,涉及一種基于局部頻譜圖像描述子的魯棒音頻識(shí)別方法,本發(fā)明方法中,將一維音頻信號(hào)轉(zhuǎn)化為二維聽覺圖像,提取圖像特征作為音頻指紋,使其對(duì)時(shí)間縮放和變調(diào)等主要的音頻失真類型具有魯棒性;其包括指紋提取步驟和指紋匹配步驟)兩部分。本發(fā)明不同于現(xiàn)有技術(shù)的單純基于頻譜特征或節(jié)奏特征的方法,而是將一維音頻信號(hào)轉(zhuǎn)換為二維的圖像信號(hào),基于計(jì)算機(jī)視覺技術(shù)提取強(qiáng)魯棒性的局部圖像特征作為音頻指紋,同時(shí)將時(shí)間縮放攻擊和變調(diào)等失真行為視作對(duì)相應(yīng)圖像的伸縮和平移處理。本發(fā)明從全新思路提供了一種新的強(qiáng)魯棒性音頻指紋,從而實(shí)現(xiàn)在各種信號(hào)失真以及時(shí)-頻伸縮的情況下,仍能準(zhǔn)確地進(jìn)行音頻識(shí)別。
【專利說明】一種基于局部頻譜圖像描述子的魯棒音頻識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于基于內(nèi)容的音樂檢索【技術(shù)領(lǐng)域】,涉及一種基于局部頻譜圖像描述子的魯棒音頻識(shí)別方法,具體涉及一種基于計(jì)算機(jī)視覺技術(shù)的音頻指紋提取和匹配方法。
【背景技術(shù)】
[0002]音頻指紋是指能夠代表一段音樂重要音頻特征的緊致數(shù)字簽名,其主要目的是建立一種有效的機(jī)制來比較兩個(gè)音頻數(shù)據(jù)感知聽覺質(zhì)量的相似程度,使人們可以僅僅通過一個(gè)沒有任何文本標(biāo)記的音頻片段,便可以得到和該音頻相關(guān)的元數(shù)據(jù)。這里不是直接比較通常很大的音頻數(shù)據(jù)本身,而是比較其相應(yīng)通常較小的數(shù)字指紋。典型的音頻指紋方法一般遵循以下步驟:首先計(jì)算原始音頻的指紋并將其與相應(yīng)的元數(shù)據(jù)一同存入數(shù)據(jù)庫中;當(dāng)給定未知音頻片段時(shí),從該片段中提取指紋并將之與數(shù)據(jù)庫中存儲(chǔ)的指紋進(jìn)行比對(duì)。如果在比對(duì)過程中發(fā)現(xiàn)匹配,則未知音頻片段被確認(rèn),而相應(yīng)的元數(shù)據(jù)(比如歌曲名稱、詞曲作者、歌詞等)則被返回。
[0003]音頻指紋主要有以下三點(diǎn)好處:首先,因?yàn)橹讣y本身數(shù)據(jù)量較小,因此可以節(jié)省很多的計(jì)算和內(nèi)存要求;其次,指紋來源于音頻數(shù)據(jù)中聽覺最為重要的部分,往往保留了音頻在聽覺感知上的一些不變特性,因此能夠在音頻遭受攻擊和破壞,但感知特性又變化較小時(shí),依然可以進(jìn)行有效比對(duì);最后,保持指紋的數(shù)據(jù)庫(指紋庫)往往遠(yuǎn)小于媒體數(shù)據(jù)庫,因此可以進(jìn)行高效搜索。
[0004]目前音頻指紋的研究已有很大發(fā)展,商業(yè)應(yīng)用前景也非常明朗,大致有如下幾類:第一,指紋用于音頻的識(shí)別,如樂曲的識(shí)別和索引。當(dāng)用戶希望了解所聽到的某未知樂曲片斷的名字及其相關(guān)信息時(shí),可以用手機(jī)收集5?10s的聲音片斷并向服務(wù)器傳送,就會(huì)接收到關(guān)于該樂曲的完整信息反饋;第二,音頻指紋可以用來對(duì)音頻的內(nèi)容進(jìn)行控制和跟蹤,例如通過音頻指紋音樂電臺(tái)可以確定自己是否擁有某個(gè)音頻的播放權(quán);版權(quán)所有者可以監(jiān)視電臺(tái)是否已支付版權(quán)費(fèi),并進(jìn)行播放統(tǒng)計(jì);廣告商則可以監(jiān)視電臺(tái)是否按協(xié)議播放自己的廣告;第三,音頻識(shí)別可以用于增值服務(wù)。在音頻指紋的幫助下,不同用戶將得到自己感興趣的元信息,例如,普通用戶可能對(duì)一般信息如歌詞、歌曲名稱、詞曲作者、專輯年份、演唱者等感興趣;音樂家可能想知道樂器如何演奏以及節(jié)奏、旋律、和聲;而錄音師可能對(duì)錄音過程感興趣。元信息可以按照不同目的組織存儲(chǔ),使用指紋技術(shù)進(jìn)行正確的檢索來得到用戶感興趣的信息。
[0005]當(dāng)前,與本發(fā)明相關(guān)的已提出的主要音頻指紋方法有:
[0006]文獻(xiàn)[I]是著名的Philips音頻指紋系統(tǒng),作者將一個(gè)音頻信號(hào)分割成0.37秒長(zhǎng)、98%重疊的幀,從每幀的33個(gè)非重疊頻帶部分提取出32比特的子指紋,由于相鄰子指紋之間具有很大的相似性并且隨時(shí)間緩慢變化,因此對(duì)信號(hào)處理失真非常魯棒,并且可以識(shí)別在時(shí)域上縮放96%到104%的音頻文件,但是該系統(tǒng)對(duì)變調(diào)失真的抵抗能力較差。
[0007]文獻(xiàn)[2]對(duì)上述方法提出了兩個(gè)直觀的改進(jìn)方案:(I)在數(shù)據(jù)庫中增加原始音頻文件的各種變調(diào)版本;(2)對(duì)每個(gè)查詢片段進(jìn)行各種變調(diào)處理后再到數(shù)據(jù)庫里進(jìn)行識(shí)別。前一種方法增加了對(duì)存儲(chǔ)空間的消耗,后一種方法則增加了計(jì)算量。
[0008]文獻(xiàn)[3]提出的音頻指紋方法著重于抵抗音頻的線性速度變化,其主要思路是提取頻譜特征的局部最大值作為邊界對(duì)音頻信號(hào)進(jìn)行非固定分段,該方法能夠識(shí)別縮放因子介于859^115%之間的音頻信號(hào),然而這個(gè)系統(tǒng)對(duì)于諸如噪聲和壓縮等信號(hào)失真的抵抗性較差。
[0009]傳統(tǒng)的音頻識(shí)別方法多使用頻譜特征,與此不同,文獻(xiàn)[4]提出了一種新穎的方法,提取一組時(shí)間相關(guān)的特征用于捕獲音樂信號(hào)的速度、節(jié)奏和小節(jié)特性,通過把速度估計(jì)值量化分入各個(gè)速度類中,提取一種稱之為循環(huán)節(jié)拍譜(Cyclic Beat Spectrum, CBS)的有效特征,從而使查詢片段在縮放因子為799^126%之間時(shí)仍能正確地識(shí)別出原始歌曲。
[0010]與本發(fā)明相關(guān)的參考資料有:
[0011][I]J.Haitsma and T.Kalker.A highly robust audio fingerprinting system.1n International Symposium on Music Information Retrieval, pp.107 - 115, 2002.[0012][2]S.Baluja and M.Covel1.Waveprint: efficient wavelet-based audiofingerprinting.Pattern Recognition, 41(11):3467 - 3480,2008.[0013][3]R.Bardeli and F.Kurth.Robust identification of time-scaled audi0.1nAES 25th International Conference on Metadata for Audio,2004.[0014][4]F.Kurthj T.Gehrmannj and M.Miiller.The cyclic beat spectrum: temporelated audio features for time—scale invariant audio identification.1nInternational Symposium on Music Information Retrieval, pp.35-40, 2006.
【發(fā)明內(nèi)容】
[0015]本發(fā)明的目的 在于從全新思路設(shè)計(jì)一種新的強(qiáng)魯棒性音頻指紋,從而實(shí)現(xiàn)在各種信號(hào)失真以及時(shí)-頻伸縮的情況下,仍能準(zhǔn)確地進(jìn)行音頻識(shí)別。本發(fā)明提供了一種基于局部頻譜圖像描述子的魯棒音頻識(shí)別方法,具體涉及一種基于計(jì)算機(jī)視覺技術(shù)的音頻指紋提取和匹配方法。
[0016]本發(fā)明不同于現(xiàn)有技術(shù)的單純基于頻譜特征或節(jié)奏特征的方法,而是將一維音頻信號(hào)轉(zhuǎn)換為二維的圖像信號(hào),基于計(jì)算機(jī)視覺技術(shù)提取強(qiáng)魯棒性的局部圖像特征作為音頻指紋,同時(shí)將時(shí)間縮放攻擊和變調(diào)等失真行為視作對(duì)相應(yīng)圖像的伸縮和平移處理。
[0017]具體而言,本發(fā)明提供了一種基于計(jì)算機(jī)視覺技術(shù)的音頻指紋方法,其特征在于,將一維音頻信號(hào)轉(zhuǎn)化為二維聽覺圖像,提取圖像特征作為音頻指紋,使其對(duì)時(shí)間縮放和變調(diào)等主要的音頻失真類型具有魯棒性;其包括指紋提取步驟(1),(2)和指紋匹配步驟(3)兩部分:
[0018]步驟1,使用短時(shí)傅里葉變換(STFT)將I維音頻信號(hào)轉(zhuǎn)換為2維時(shí)-頻表示;
[0019]鑒于時(shí)間縮放攻擊(TimeScale Modification, TSM)和變調(diào)(Pitch Shifting)是音頻失真中最難以抵抗的兩種類型,兩者對(duì)音頻信號(hào)的作用可以等價(jià)視為對(duì)該音頻對(duì)應(yīng)的對(duì)數(shù)語譜圖進(jìn)行伸縮和平移處理(如圖1所示),因此,對(duì)語譜圖伸縮和平移具有良好魯棒性的圖像特征,也是對(duì)原音頻信號(hào)的TSM和變調(diào)失真具有良好魯棒性的音頻特征;
[0020]本發(fā)明中,
[0021](I)使用長(zhǎng)度為185.76ms、重疊率為75%的漢寧窗對(duì)音頻信號(hào)進(jìn)行時(shí)域上的重疊分段;本發(fā)明的實(shí)施例中,注意窗的時(shí)長(zhǎng)和重疊率的選取:由于長(zhǎng)時(shí)窗比短時(shí)窗在反映時(shí)域信息時(shí)更有效,故而選用時(shí)長(zhǎng)大于50ms的長(zhǎng)時(shí)窗;而由于原長(zhǎng)信號(hào)和用于檢索的短信號(hào)之間的不同步,故而需要一定的重疊性;
[0022](2)利用短時(shí)傅里葉變換得到時(shí)-頻平面語譜圖,再依照公式(I)將其量化成對(duì)數(shù)空間上的 64 個(gè)子頻帶
【權(quán)利要求】
1.一種基于局部頻譜圖像描述子的魯棒音頻識(shí)別方法,其特征在于,將一維音頻信號(hào)轉(zhuǎn)化為二維聽覺圖像,提取圖像特征作為音頻指紋,使其對(duì)時(shí)間縮放和變調(diào)主要的音頻失真類型具有魯棒性;其包括指紋提取步驟(1),(2)和指紋匹配步驟(3): 步驟1,使用短時(shí)傅里葉變換(STFT)將I維音頻信號(hào)轉(zhuǎn)換為2維時(shí)-頻表示; 其中, (1)使用長(zhǎng)度為185.76ms、重疊率為75%的漢寧窗對(duì)音頻信號(hào)進(jìn)行時(shí)域上的重疊分段; (2)利用短時(shí)傅里葉變換得到時(shí)-頻平面語譜圖,再依照公式(I)將其量化成對(duì)數(shù)空間上的64個(gè)子頻帶,
2.按權(quán)利要求1所述的方法,其特征在于,所述的基于LSH的最近鄰檢索的中兩個(gè)階段為,索引階段和檢索階段,其中,在索引階段,數(shù)據(jù)庫中的所有數(shù)據(jù)點(diǎn)被映射到L個(gè)哈希表中,每一個(gè)哈希表對(duì)應(yīng)一個(gè)隨機(jī)選取的哈希函數(shù);在檢索階段,給定一個(gè)檢索數(shù)據(jù)點(diǎn)q,所述的方法對(duì)L個(gè)哈希表進(jìn)行迭代;對(duì)每一個(gè)哈希表,所述方法遍歷和q處于同一桶中的所有數(shù)據(jù);最 終返回的最近鄰結(jié)果是L個(gè)哈希表中和q距離最近的數(shù)據(jù)點(diǎn)。
【文檔編號(hào)】G06F17/30GK103729368SQ201210389035
【公開日】2014年4月16日 申請(qǐng)日期:2012年10月13日 優(yōu)先權(quán)日:2012年10月13日
【發(fā)明者】李偉, 朱碧磊, 董旭炯 申請(qǐng)人:復(fù)旦大學(xué)