專利名稱:一種兩階段的音頻檢索方法
技術領域:
本發(fā)明涉及計算機互聯(lián)網(wǎng)多媒體搜索領域,尤其涉及一種兩階段的音頻檢索方法。
背景技術:
當今的信息檢索技術在處理文本文檔時取得了巨大的成功,這已經(jīng)由搜索引擎公司例如谷歌(Google)和雅虎(Yahoo!)所獲得的巨額商業(yè)利潤所證明。相對的,多媒體檢索技術仍然處于初期階段,而且也不存在能夠達到基于文本的搜索引擎所達到的用戶滿意度和流行度的產(chǎn)品或者工具。事實上,相比檢索沒有注釋的音頻這個問題的重要性和應用的廣泛性,得到的關注度卻較少。
現(xiàn)存的推薦系統(tǒng)在處理音頻數(shù)據(jù)的時候高度依賴于文本注釋[1]。這些注釋中包含有結構化或者非結構化的元數(shù)據(jù),例如,標題、藝術家以及歌詞?;谖谋咀⑨寵z索音頻的方法本質上和檢索文本文檔是一樣的。不過與可以由算法自動提取關鍵詞的網(wǎng)頁文件不同,從音頻文件中提取出文本注釋是個巨大的挑戰(zhàn)而且很容易出錯。然而,現(xiàn)實中只有少部分的音頻文件是由用戶手動注釋好的,并且這些注釋可能會有偏差或者相對太簡單了,所以基于文本的音頻檢索方法在適用性和可靠性上都有限制。Terveen和Hill指出了現(xiàn)在的基于內(nèi)容的推薦系統(tǒng)要推薦像音樂或者圖像一樣的非文本對象“實際上是不可能的”。然而,不使用任何推薦系統(tǒng),即使是在小音頻集(比如200個音頻)中搜索沒有注釋的音頻,也需要用戶有巨大的耐心和決心。
除了基于文本搜索的成果,人們還提出了用于基于內(nèi)容的音頻搜索的內(nèi)容相似度的計算方法?,F(xiàn)在這方面有許多積極的工作,例如,通過識別用戶語音的聲音音頻來進行音樂查詢[12,23],然后搜索引擎就可以通過音頻相似度來實現(xiàn)基于內(nèi)容的搜索。雖然這些工作也取得了一些值得矚目的進展,但是總體來說,因為音頻特征空間的高維度,依賴于用戶和查詢的內(nèi)容相似度的主觀性和模糊性,處理沒有注釋的音頻的任務仍然是困難的。
本專利與推導用于音樂查詢的語義描述研究相關[28]。[26]介紹了一類在多維向量空間中用于語音音頻檢索的方法。[31]提供了自動推導音樂語音描述的算法并將其用于音樂檢索[32]。[17]描述了一種從音樂的語義空間中推導社會標簽的算法。Sordo等[27]用音樂相似度傳播音樂的文本注釋。
查詢檢索音頻片段這個一般性的問題已經(jīng)研究了許多年[9],[21,30]介紹了許多音頻索引和檢索技術。其中的關鍵在于音頻相似度的定義,其中流行的方法為使用Mel頻率倒譜系數(shù)[19],[20]則應用了基于歌曲信號譜特征的聚類技術,可以用于比較不同的歌曲。[6]介紹了在大規(guī)模音樂檢索中使用聲學和主觀音樂相似度的方法。Berenzweig等在錨空間中引入了高斯混合模型來表達如歌曲一類的對象,然后用KL-散度的估計來定義相似度以匹配標記好的數(shù)據(jù)[5]。Aucouturier以及Pachet則在[3]中使用倒譜系數(shù)的高斯模型定義音色相似度用于比較音樂標題。節(jié)奏[10]與序列[7]信息也被用于定義音樂相似度。在聲學相似度中,Barrington等提出了用于檢索音頻數(shù)據(jù)的語義相似度[4]。
用于檢索口述文檔[33],演講音頻[24]和新聞[29]的特殊檢索系統(tǒng)也已被開發(fā)出來。最近,Eck等[8]研究了如何自動生成未標記或者弱標記音樂的社會標簽以減少推薦系統(tǒng)中的冷啟動問題。本專利與音頻分類問題相關聯(lián),許多標準的機器學習技術已經(jīng)被用于解決這個問題,例如支撐向量機[13,22]與半監(jiān)督學習[18]。
現(xiàn)在存在少量的音頻檢索系統(tǒng)[14],而其中基于用戶語音的查詢進行檢索是一個熱點研究的問題[12,23]。最近,Rice和Bailey提出了一個音頻文件搜索系統(tǒng)同時支持基于描述文本和聲音相似度的搜索[25]。
參考文獻G.Adomavicius and A.Tuzhilin.面向下一代推薦系統(tǒng)最新技術和可能擴展的調(diào)查(Toward the next generation of recommender systemsa survey of thestate-of-the-art and possible extensions).IEEE知識與數(shù)據(jù)工程會刊(IEEETransactions on Knowledge and Data Engineering),17(6)734-749,2005.C.C.Aggarwal and P.S.Yu.在高維空間中尋找普適的映射聚類(Findinggeneralized projected clusters in highdimensional spaces).In SIGMOD’00ACMSIGMOD數(shù)據(jù)管理國際會議(Proc.ACM SIGMOD International Conference onManagement of Data),pages70-81,New York,NY,USA,2000.ACM.J.-J.Aucouturier and F.Pachet.音樂相似度度量有什么用?(Music similaritymeasuresWhat’s the use?).音樂信息檢索國際會議(In International Conferenceon Music Information Retrieval),2002.L.Barrington,A.Chan,D.Turnbull,and G.Lanckriet.用語義相似度檢索音頻信息(Audio information retrieval using semantic similarity).IEEE聲學、演說與信號處理國際會議(In IEEE International Conference on Acoustics,Speech andSignal Processing),2007.A.Berenzweig,D.P.W.Ellis,and S.Lawrence.用于分類與音樂相似度度量的錨空間(Anchor space for classi?cation and similarity measurement of music).2003年多媒體國際會展(In Proceedings of the 2003 International Conference onMultimedia and Expo),2003.A.Berenzweig,B.Logan,D.P.W.Ellis,and B.Whitman.大規(guī)模聲學和主觀音樂相似度度量評估(A large-scale evaluation of acoustic and subjective musicsimilarity measures).第4屆國際音樂信息檢索討論會(In Proceedings of the 4thInternational Symposium on Music Information Retrieval),2003.M.Casey and M.Slaney.音樂相似度中序列的重要性(The importance ofsequences in musical similarity).IEEE聲學、演說與信號處理國際會議(In IEEEInternational Conference on Acoustics,Speech and Signal Processing),2006.D.Eck,P.Lamere,T.Bertin-Mahieux,and S.Green.自動生成用于音樂推薦的社會標簽(Automatic generation of social tags for music recommendation).In J.Platt,D.Koller,Y.Singer,and S.Roweis,editors,MPS 08’神經(jīng)信息處理系統(tǒng)進展(Proc.Advances in Neural Information Processing Systems),pages 385-392.MITPress,Cambridge,MA,2008.J.Foote.音頻信息檢索綜述(An overivew of audio information retrieval).多媒體系統(tǒng)(Multimedia Systems),7(1)2-10,1999.J.Foote,M.Cooper,and U.Nam.基于節(jié)奏相似度檢索音頻(Audio retrievalby rhythmic similarity).音樂信息檢索國際會議(In International Conference onMusic Information Retrieval),2002.Y.Freund and R.E.Schapire.用于實時學習與提升應用的決定論綜述(Adecision-theoretic generalization of on-line learning and anapplication to boosting).計算學習理論歐洲會議(In European Conference on Computational LearningTheory),pages 23-37,1995.A.Ghias,J.Logan,D.Chamberlin,and B.C.Smith.基于哼唱的查詢在音頻數(shù)據(jù)庫中檢索音樂信息(Query by hummingMusical information retrieval in anaudio database).ACM多媒體(In ACM Multimedia),1995.G.Guo and S.Z.Li.用支撐向量機進行基于內(nèi)容的音頻分類和檢索(Content-based audio classification and retrieval by support vector machines).IEEE神經(jīng)網(wǎng)絡會刊(IEEE Transactions on Neural Networks),14(1),2003.K.Hoashi,H.Ishizaki,K.Matsumoto,and F.Sugaya.使用面向用戶不同配置的查詢整合進行基于內(nèi)容的音樂檢索(Content-based music retrieval using queryintegration for users with diverse preferences).音樂信息檢索國際會議(InInternational Conference on Music Information Retrieval),2007.R.A.Hornand C.R.Johnson.矩陣分析(Topics in Matrix Analysis).劍橋大學出版社(Cambridge University Press),1991.I.T.Jolliffe.主成分分析(Principal Component Analysis).Springer,2002.M.Levy and M.Sandler.由社會標簽生成音樂的語義空間(A semantic spacefor music derived from social tags).第8屆音樂信息檢索國際會議(In 8thInternational Conference on Music Information Retrieval),2007.T.Li and M.Ogihara.從歌詞和內(nèi)容中使用半監(jiān)督學習識別音樂藝術風格(Music artist style identification by semi-supervised learning from both lyrics andcontent).第12屆CAN多媒體國際年會(In Proceedings of the 12th Annual ACMInternational Conference on Multimedia),2004.B.Logan.用于音樂建模的Mel頻率倒譜系數(shù)(Mel frequency cepstralcoefficients for music modeling).第1屆音樂信息檢索國際討論會(In Proceedingsof the First International Symposium on Music Informaiton Retrieval),2000.B.Logan and A.Salomon.一個基于信號分析的音樂相似度方程(A musicsimilarity function based on signal analysis).IEEE多媒體國際會展(In IEEEInternational Conference on Multimedia and Expo),2001.J.Makhoul,F(xiàn).Kubala,T.Leek,D.Liu,L.Nguyen,R.Schwartz,and A.Srivastava.用于音頻索引和檢索的演講與語言技術(Speech and languagetechnologies for audio indexing and retrieval).IEEE會刊(Proceedings of the IEEE),881338-1353,2000.M.Mandel and D.Ellis.用于音樂分類的歌曲級特征與支撐向量機方法(Song-level features and support vector machines for music classification).音樂信息檢索國際會議(In International Conference on Music Information Retrieval),2005.B.Pardo and W.P.Birmingham.基于哼唱的查詢能有多好的性能?(Queryby hummingHow good can it get?).音樂信息檢索研討會(In Workshop on MusicInformation Retrieval),2003.A.Park,T.J.Hazen,and J.R.Glass.自動處理用于信息檢索的音頻演講(Automatic processing of audio lectures for information retrieval).IEEE聲學、演說與信號處理國際會議(In IEEE International Conference on Acoustics,Speechand Signal Processing),2005.S.V.Rice and S.M.Bailey.搜索聲音模式的系統(tǒng)(A system for searchingsound palettes).第11屆藝術與技術隔年討論會(In Eleventh Biennial Symposiumon Arts and Technology),2008.M.Slaney.語義音頻檢索(Semantic-audio retrieval).IEEE聲學、演說與信號處理國際會議(In Acoustics,Speech,and Signal Processing,2002.Proceedings.(ICASSP’02).IEEE International Conference on),pages IV-4108-IV-4111 vol.4,2002.M.Sordo,C.Laurier,and O.Celma.標注音樂集內(nèi)容相似度如何幫助傳播標簽(Annotating music collectionshow content-based similarity helps to propagatelabels).第8屆音樂信息檢索國際會議(In8th International Conference on MusicInformation Retrieval),2007.D.Turnbull,L.Barrington,D.Torres,and G.Lanckriet.使用cal500數(shù)據(jù)集進行面向音樂基于語義描述的查詢(Towards musical query-by-semantic-descriptionusing the cal500 data set).第30屆ACM SIGIR信息檢索研究與發(fā)展國際會議(In30th annual international ACM SIGIR conference on Research and development ininformation retrieval),pages 439-446.ACM,2007.G.Tzanetakis and M.-Y.Chen.構造用于廣播新聞檢索的音頻分類器(Building audio classifiers for broadcast news retrieval).用于多媒體交互服務的圖像分析國際研討會(In International Workshop on Image Analysis for MultimediaInteractive Services),2004.G.Tzanetakis and P.Cook.音頻信息檢索工具(Audio information retrieval(AIR)tools).第1屆音樂信息檢索國際討論會(In Proceedings of the FirstInternational Symposium on Music Information Retrieval),2000.B.Whitman.學習音樂的意義(Learning the meaning of music).MIT博士學位論文(In PhDthesis.MIT),2005.B.Whitman and R.Rifkin.作為復類學習問題的音樂的基于描述的查詢(Musical query-by-description as a multiclass learning problem).IEEE多媒體信號處理研討會(In Multimedia Signal Processing,2002 IEEE Workshop onVolume),Issue,9-11Dec.2002,pages 153-156,2002.B.Zhou and J.H.L.Hansen.演講查找一個實時檢索歷史音頻檔案系統(tǒng)的實驗(SpeechFindAn experimental on-line spoken document retrieval system forhistorical audio archives).口述語言處理國際會議(In International Conference onSpoken Language Processing),2002.
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術的不足,提供一種兩階段的音頻檢索方法。
兩階段的音頻檢索方法包括以下步驟 1)提取數(shù)據(jù)庫中音頻文件的音頻特征; 2)對數(shù)據(jù)庫中音頻文件進行基于文本的檢索; 3)基于有文本注釋的音頻文件構成的訓練集合,用主成分分析方法尋找對于分類最可靠的特征集合; 4)基于訓練集合對特征集合所構成的弱分類器進行訓練,構造出強分類器; 5)以步驟4)訓練得到的強分類器進行檢索。
所述的提取數(shù)據(jù)庫中音頻文件的音頻特征步驟令Ai表示所有用于檢索的候選音頻集合,其中i=1,…,n,在此集合中,有na個音頻文件有文本注釋,如這些音頻文件為
對于其中的每一個音頻文件,用yi表示與Ai相關聯(lián)的文本,剩余的nu=n-na個未注釋音頻為
對于每一個音頻文件Ai,提取如下音頻特征(可擴展到任意數(shù)目、任意類型的音頻特征) 1.節(jié)奏模式(Rhythm Patterns) 2.統(tǒng)計譜描述子(Statistical Spectrum Descriptor) 3.節(jié)奏直方圖(Rhythm Histogram) 4.自相關(Auto-correlation) 5.對數(shù)沖擊時間(Log Attack Time) 6.時間質心(Temporal Centroid) 7.音頻功率(Audio Power) 8.基波頻率(Fundamental Frequency) 9.總響度(Total Loudness) 10.Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coeffcient) 11.頻譜質心(Audio Spectrum Centroid) 12.頻譜衰減(Audio Spectrum Rolloff) 13.頻譜擴展(Audio Spectrum Spread) 14.響度波帶(Sone/Bark Bands) 15.過零率(Zero-crossing Rate) 16.頻譜平度(Audio Spectrum Flatness)。
所述的對數(shù)據(jù)庫中音頻文件進行基于文本的檢索步驟給定用戶輸入的由一個或者多個關鍵字組成的查詢Q,對數(shù)據(jù)庫中音頻文件使用文本檢索方法進行基于文本的查詢,檢索注釋中包含查詢關鍵字的音頻,令
表示查詢的結果向量,其中如果Ai是上述文本查詢過程中檢索到的結果那么此向量的第i個分量ra(i)=1,否則ra(i)=0,對于沒有注釋的音頻,它們的ra(i)被置為0,上述基于關鍵字匹配的方法也可以被替換成為任意基于文本檢索方法,屬于本權利要求的變形。
所述的基于有文本注釋的音頻文件構成的訓練集合,用主成分分析方法尋找對于分類最可靠的特征集合步驟 對于兩個已注釋音頻文件,計算檢索到的音頻特征之間的協(xié)方差 其中μk和μl分別是在第k個和第l個特征維度上的均值,以及構造一個協(xié)方差矩陣C(k,l)=ρk,l,其中矩陣的第k列和第l行元素為ρk,l,定義特征vi的方差為vari,所有的特征vi根據(jù)方差vari的升序排序,選擇方差小于所有特征方差均值γ倍的特征vi,其中γ∈(0,1)是截斷閾值,這些選中的特征形成了一個新的特征集合V={vi},這一新的特征集V就是我們的方法對于該特定音頻檢索關鍵詞所確定的最可靠的音頻特征子集,記特征集V的維度為|V|,即該子音頻特征集含有|V|個音頻特征。
所述的基于訓練集合對特征集合所構成的弱分類器進行訓練,構造出強分類器步驟 (1)兩個音頻之間的相似度就在特征集合的投影子空間內(nèi)被重新定義為 其中vi∈V,即每個在上式中使用到的音頻特征vi均是權利要求4中檢測獲得的對于該特定音頻檢索關鍵詞所確定的最可靠的音頻特征之一,對于權重數(shù)列{κi|i=1,…,|V|},我們引入以下m個數(shù)列作為數(shù)列{κi|i=1,…,|V|}的候選以及常數(shù)列{1|i=1,…,|V|}這里m是一個用戶可調(diào)的參數(shù),它的默認值為5,除此之外權利要求4中的截斷閾值γ∈(0,1)也有x種取值候選,分別為這里x是一個用戶可調(diào)的整數(shù)型參數(shù),它的默認值為5,由于γ和{κi|i=1,…}各有x和m種賦值的候選方案,故共有xm種組合;此處數(shù)列{κi|i=1,…,|V|}和γ賦值的候選方案可以被替換成別的形式,均將視為本權利的變形; (2)基于文本檢索中得到的結果集合兩個音頻的內(nèi)容相似度構造一個n×n的音頻相似度矩陣S,矩陣中第i列和第j行的元素表示Ai和Aj之間的相似度,定義單步傳播過程如下 然后再對所有的音頻按照它們對應的ru(i)值降序排序并且以此順序推薦給用戶,上述單步傳播過程可也可以被實現(xiàn)成為以下的多步傳播過程 其中β是傳播步驟中的衰減常數(shù),并引入Adaboost方法,與查詢相關的音頻,就標記為+1,否則標記為-1,訓練集合從第一階段基于文本的查詢中得到,步驟(1)中由于xm種對數(shù)列{κi|i=1,…,|V|}和γ的賦值候選方案將產(chǎn)生xm種音頻相似度定義,根據(jù)(3)式或(4)式都可以計算出一個ru值,每一個ru(i)>τ的判定式都構成了一個弱分類器,對于xm個音頻相似度定義對應的弱分類器,搜索使弱分類器分類錯誤達到最小的τ和β優(yōu)化設置; (3)在上述的優(yōu)化設置搜索過程中使用k-folded交叉驗證技術以防止過擬合現(xiàn)象,其中的k設為第一階段基于文本的查詢中檢索得到的音頻數(shù)量,閾值τ和β通過相似度定義成對的組成一個弱分類器通過使用每一對音頻相似度的定義,都能構造一個相似度矩陣S,然后應用(3)或(4)式于ra,就得到了ru,對于ru(i)的每一個分量,如果大于τ,就把Ai標記為+1,否則標記為-1;這樣就得到了xm個弱分類器,再應用標準的Adaboost算法基于訓練集合得到一個強分類器對每一個弱分類器賦予一個對應的權重ω,應用Adaboost算法在每次的迭代中更新這個權重直到分類錯誤率小于給定閾值或者達到最大迭代次數(shù),最后如果就把Ai標記為+1,否則標記為-1,此判定式為得到的強分類器; (4)在第一階段基于文本的檢索過程中如果只找到一個相關的音頻,那么就不可能使用任何的交叉驗證方法,此時在第二階段的查詢過程中就使用默認分類器,其脫機訓練過程如下,對于數(shù)據(jù)庫中有注釋的訓練集合部分的所有音頻文件,使用k最近鄰居基礎聚類算法分成s個聚類組,對于每一個聚類組中的音頻,假設他們都屬于某一類特定的音頻內(nèi)容,然后使用上述的Adaboost方法通過增強xm個弱分類器來訓練一個強分類器以分類一個音頻是否屬于這一聚類組,這樣就產(chǎn)生了s個強分類器,每一個都是由上述的音頻聚類組所產(chǎn)生的,作為該聚類組中所有音頻的默認分類器。
所述的以步驟4)訓練得到的強分類器進行檢索步驟由步驟4)中得到的強分類器對整個數(shù)據(jù)庫的所有音頻進行分類,其中被標記為+1的音頻作為最后的查詢結果返回給用戶。
本發(fā)明提出了一種新的基于內(nèi)容的兩階段音頻檢索方法,對于只有部分或者少量人工標注的多媒體數(shù)據(jù)庫,先通過語義標簽來自動尋找相關音頻,然后基于語義標簽的音頻查詢結果動態(tài)在線訓練獲得與之相應的最佳音樂內(nèi)容特征及特征組合,從而用于第二階段的基于音頻內(nèi)容的查詢。通過對由此方法架構的系統(tǒng)原型性能進行評估,得到的結果證明了此方法的先進性,同時該方法也很容易的擴展到任意的非文本對象,例如圖像和視頻。
圖1(a)是基本方法在純音樂音頻集合中查精率箱式示意圖; 圖1(b)是基本方法在流行歌曲音頻集合中查精率箱式示意圖; 圖1(c)是基本方法在公眾演講音頻集合中查精率箱式示意圖; 圖1(d)是基本方法在電視節(jié)目音頻集合中查精率箱式示意圖; 圖2(a)是基本方法在純音樂音頻集合中查全率箱式示意圖; 圖2(b)是基本方法在流行歌曲音頻集合中查全率箱式示意圖; 圖2(c)是基本方法在公眾演講音頻集合中查全率箱式示意圖; 圖2(d)是基本方法在電視節(jié)目音頻集合中查全率箱式示意圖; 圖3(a)是基本方法在純音樂音頻集合中F-比率箱式示意圖; 圖3(b)是基本方法在流行歌曲音頻集合中F-比率箱式示意圖; 圖3(c)是基本方法在公眾演講音頻集合中F-比率箱式示意圖; 圖3(d)是基本方法在電視節(jié)目音頻集合中F-比率箱式示意圖; 圖4(a)是性能優(yōu)化方法在純音樂音頻集合中查精率箱式示意圖; 圖4(b)是性能優(yōu)化方法在流行歌曲音頻集合中查精率箱式示意圖; 圖4(c)是性能優(yōu)化方法在公眾演講音頻集合中查精率箱式示意圖; 圖4(d)是性能優(yōu)化方法在電視節(jié)目音頻集合中查精率箱式示意圖; 圖5(a)是性能優(yōu)化方法在純音樂音頻集合中查全率箱式示意圖; 圖5(b)是性能優(yōu)化方法在流行歌曲音頻集合中查全率箱式示意圖; 圖5(c)是性能優(yōu)化方法在公眾演講音頻集合中查全率箱式示意圖; 圖5(d)是性能優(yōu)化方法在電視節(jié)目音頻集合中查全率箱式示意圖; 圖6(a)是性能優(yōu)化方法在純音樂音頻集合中F-比率箱式示意圖; 圖6(b)是性能優(yōu)化方法在流行歌曲音頻集合中F-比率箱式示意圖; 圖6(c)是性能優(yōu)化方法在公眾演講音頻集合中F-比率箱式示意圖; 圖6(d)是性能優(yōu)化方法在電視節(jié)目音頻集合中F-比率箱式示意圖; 圖7是基本方法與性能優(yōu)化方法之間的性能查精率比較示意圖; 圖8是基本方法與性能優(yōu)化方法之間的性能查全率比較示意圖; 圖9是基本方法與性能優(yōu)化方法之間的性能F-比率比較示意圖。
具體實施例方式 兩階段的音頻檢索方法包括以下步驟 1)提取數(shù)據(jù)庫中音頻文件的音頻特征; 2)對數(shù)據(jù)庫中音頻文件進行基于文本的檢索; 3)基于有文本注釋的音頻文件構成的訓練集合,用主成分分析方法尋找對于分類最可靠的特征集合; 4)基于訓練集合對特征集合所構成的弱分類器進行訓練,構造出強分類器; 5)以步驟4)訓練得到的強分類器進行檢索。
所述的提取數(shù)據(jù)庫中音頻文件的音頻特征步驟令Ai表示所有用于檢索的候選音頻集合,其中i=1,…,n,在此集合中,有na個音頻文件有文本注釋,如這些音頻文件為
對于其中的每一個音頻文件,用yi表示與Ai相關聯(lián)的文本,剩余的nu=n-na個未注釋音頻為
對于每一個音頻文件Ai,提取如下音頻特征(可擴展到任意數(shù)目、任意類型的音頻特征) 1.節(jié)奏模式(Rhythm Patterns) 2.統(tǒng)計譜描述子(Statistical Spectrum Descriptor) 3.節(jié)奏直方圖(Rhythm Histogram) 4.自相關(Auto-correlation) 5.對數(shù)沖擊時間(Log Attack Time) 6.時間質心(Temporal Centroid) 7.音頻功率(Audio Power) 8.基波頻率(Fundamental Frequency) 9.總響度(Total Loudness) 10.Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coeffcient) 11.頻譜質心(Audio Spectrum Centroid) 12.頻譜衰減(Audio Spectrum Rolloff) 13.頻譜擴展(Audio Spectrum Spread) 14.響度波帶(Sone/Bark Bands) 15.過零率(Zero-crossing Rate) 16.頻譜平度(Audio Spectrum Flatness)。
所述的對數(shù)據(jù)庫中音頻文件進行基于文本的檢索步驟給定用戶輸入的由一個或者多個關鍵字組成的查詢Q,對數(shù)據(jù)庫中音頻文件使用文本檢索方法進行基于文本的查詢,檢索注釋中包含查詢關鍵字的音頻,令
表示查詢的結果向量,其中如果Ai是上述文本查詢過程中檢索到的結果那么此向量的第i個分量ra(i)=1,否則ra(i)=0,對于沒有注釋的音頻,它們的ra(i)被置為0,上述基于關鍵字匹配的方法也可以被替換成為任意基于文本檢索方法,屬于本權利要求的變形。
所述的基于有文本注釋的音頻文件構成的訓練集合,用主成分分析方法尋找對于分類最可靠的特征集合步驟 對于兩個已注釋音頻文件,計算檢索到的音頻特征之間的協(xié)方差 其中μk和μl分別是在第k個和第l個特征維度上的均值,以及構造一個協(xié)方差矩陣C(k,l)=ρk,l,其中矩陣的第k列和第l行元素為ρk,l,定義特征vi的方差為vari,所有的特征vi根據(jù)方差vari的升序排序,選擇方差小于所有特征方差均值γ倍的特征vi,其中γ∈(0,1)是截斷閾值,這些選中的特征形成了一個新的特征集合V={vi},這一新的特征集V就是我們的方法對于該特定音頻檢索關鍵詞所確定的最可靠的音頻特征子集,記特征集V的維度為|V|,即該子音頻特征集含有|V|個音頻特征。
所述的基于訓練集合對特征集合所構成的弱分類器進行訓練,構造出強分類器步驟 (1)兩個音頻之間的相似度就在特征集合的投影子空間內(nèi)被重新定義為 其中vi∈V,即每個在上式中使用到的音頻特征vi均是權利要求4中檢測獲得的對于該特定音頻檢索關鍵詞所確定的最可靠的音頻特征之一,對于權重數(shù)列{κi|i=1,…,|V|},我們引入以下m個數(shù)列作為數(shù)列{κi|i=1,…,|V|}的候選以及常數(shù)列{1|i=1,…,|V|}.這里m是一個用戶可調(diào)的參數(shù),它的默認值為5,除此之外權利要求4中的截斷閾值γ∈(0,1)也有x種取值候選,分別為這里x是一個用戶可調(diào)的整數(shù)型參數(shù),它的默認值為5,由于γ和{κi|i=1,…}各有x和m種賦值的候選方案,故共有xm種組合;此處數(shù)列{κi|i=1,…,|V|}和γ賦值的候選方案可以被替換成別的形式,均將視為本權利的變形; (2)基于文本檢索中得到的結果集合兩個音頻的內(nèi)容相似度構造一個n×n的音頻相似度矩陣S,矩陣中第i列和第j行的元素表示Ai和Aj之間的相似度,定義單步傳播過程如下 然后再對所有的音頻按照它們對應的ru(i)值降序排序并且以此順序推薦給用戶,上述單步傳播過程可也可以被實現(xiàn)成為以下的多步傳播過程 其中β是傳播步驟中的衰減常數(shù),并引入Adaboost方法,與查詢相關的音頻,就標記為+1,否則標記為-1,訓練集合從第一階段基于文本的查詢中得到,步驟(1)中由于xm種對數(shù)列{κi|i=1,…,|V|}和γ的賦值候選方案將產(chǎn)生xm種音頻相似度定義,根據(jù)(3)式或(4)式都可以計算出一個ru值,每一個ru(i)>τ的判定式都構成了一個弱分類器,對于xm個音頻相似度定義對應的弱分類器,搜索使弱分類器分類錯誤達到最小的τ和β優(yōu)化設置; (3)在上述的優(yōu)化設置搜索過程中使用k-folded交叉驗證技術以防止過擬合現(xiàn)象,其中的k設為第一階段基于文本的查詢中檢索得到的音頻數(shù)量,閾值τ和β通過相似度定義成對的組成一個弱分類器通過使用每一對音頻相似度的定義,都能構造一個相似度矩陣S,然后應用(3)或(4)式于ra,就得到了ru,對于ru(i)的每一個分量,如果大于τ,就把Ai標記為+1,否則標記為-1;這樣就得到了xm個弱分類器,再應用標準的Adaboost算法基于訓練集合得到一個強分類器對每一個弱分類器賦予一個對應的權重ω,應用Adaboost算法在每次的迭代中更新這個權重直到分類錯誤率小于給定閾值或者達到最大迭代次數(shù),最后如果就把Ai標記為+1,否則標記為-1,此判定式為得到的強分類器; (4)在第一階段基于文本的檢索過程中如果只找到一個相關的音頻,那么就不可能使用任何的交叉驗證方法,此時在第二階段的查詢過程中就使用默認分類器,其脫機訓練過程如下,對于數(shù)據(jù)庫中有注釋的訓練集合部分的所有音頻文件,使用k最近鄰居基礎聚類算法分成s個聚類組,對于每一個聚類組中的音頻,假設他們都屬于某一類特定的音頻內(nèi)容,然后使用上述的Adaboost方法通過增強xm個弱分類器來訓練一個強分類器以分類一個音頻是否屬于這一聚類組,這樣就產(chǎn)生了s個強分類器,每一個都是由上述的音頻聚類組所產(chǎn)生的,作為該聚類組中所有音頻的默認分類器。
所述的以步驟4)訓練得到的強分類器進行檢索步驟由步驟4)中得到的強分類器對整個數(shù)據(jù)庫的所有音頻進行分類,其中被標記為+1的音頻作為最后的查詢結果返回給用戶。
實施例 通過互聯(lián)網(wǎng)收集了7335個音頻數(shù)據(jù),大致上分成四類 1)純音樂從互聯(lián)網(wǎng)上下載了2147個純音樂的音頻,每一個音頻都用歌曲和樂器的名稱作為注釋。
2)流行音樂從互聯(lián)網(wǎng)上獲得了3496個流行音樂的音頻,每一個音頻都用歌曲、歌手的名稱和歌詞作為注釋。
3)公眾演講這個數(shù)據(jù)庫包含了234個公眾演講的音頻,使用的是將英語作為第二外語的學習網(wǎng)站上提供的資源。
4)電視節(jié)目這個數(shù)據(jù)庫包含了來源于娛樂站點的1458個電視節(jié)目的音頻,每一個音頻都用表演者姓名、節(jié)目標題和某些內(nèi)容腳本作為注釋。
實施例中使用參數(shù)設置如下 1)對于截斷閾值γ∈(0,1),選擇γ=0.2,0.4,…,1.0,對于權重數(shù)列{κi|i=1,…},選擇候選數(shù)列以及常數(shù)列{1|i=1,…,|V|},則γ和{κi|i=1,…}都有5個候選,產(chǎn)生25種組合,得到25個弱分類器; 2)對于數(shù)據(jù)庫中有注釋的訓練集合部分的所有音頻文件,使用k最近鄰居基礎聚類算法分成30個聚類組,得到30個強分類器。
使用一種全自動的方法來評估的兩階段音頻檢索方法的性能。為了生成測試查詢,對于不同類型的音頻隨機的選取如下關鍵字作為輸入1)對于純音樂,使用樂器名稱作為關鍵字;2)對與流行音樂,使用歌手姓名;3)對于公眾演講,使用演講者姓名;4)對于電視節(jié)目,使用表演者姓名。
為了估計的兩階段音頻檢索方法的性能,注意到在第一階段中找到的音頻的數(shù)量對于總體性能有顯著的影響。把第一階段中找到x個音頻的情況表示為Kx,為了清楚展示方法的性能,分別報告了對于K1,…,K10數(shù)據(jù)的性能估計。在第一階段中并不估計多于10個音頻的情況是因為K10中所有例子的F-比率已經(jīng)超過了0.4并且半數(shù)以上超過了0.5(使用了第二階段基于內(nèi)容的音頻檢索中的優(yōu)化配置),對于一個信息檢索系統(tǒng)來說這表示系統(tǒng)有很好的性能。當估計情況K10的時候,從數(shù)據(jù)庫中隨機尋找x個注釋中包含查詢關鍵字的音頻。然后把這些音頻作為第一階段基于文本檢索的結果,并且隱藏數(shù)據(jù)庫中所有其他音頻的注釋,之后再應用本文介紹的方法于此數(shù)據(jù)庫上進行音頻檢索。最后,通過簡單的檢查注釋中是否包含查詢關鍵字來決定檢索到的結果是否與查詢相關。為了得到每一種情況Kx的系統(tǒng)性能,重復上述過程五次然后得出查精率、查全率和F-比率的平均值。附圖1、2、3、4、5、6分別表示了在數(shù)據(jù)庫中的4類音頻上的得到的性能數(shù)據(jù)。作為對比,在附圖1、2、3中報告了在第二階段基于內(nèi)容的音頻檢索中沒有使用優(yōu)化方法的系統(tǒng)性能,在附圖4、5、6中報告了通過元學習進行過優(yōu)化之后的系統(tǒng)性能。這些數(shù)據(jù)表明了的兩階段音頻檢索方法在引入元學習方法優(yōu)化第二階段檢索過程中的模型參數(shù)后性能有顯著改進。在附圖7、8、9中通過對整個數(shù)據(jù)庫中音樂、流行歌曲、演講和電視節(jié)目分別報告查精率、查全率和F-比率的平均值,統(tǒng)計了使用基本方法和優(yōu)化方法系統(tǒng)的性能差異,表明了當有更多的樣本音頻在第一個基于文本查詢的階段被找到,則基本方法和優(yōu)化方法的查精率基本不變,然而查全率卻有明顯的提升,同時導致了F-比率同樣顯著的改進。在基本方法和優(yōu)化方法之間,優(yōu)化方法比基本方法能達到更高的查精率,查全率和F-比率。對于的優(yōu)化方法,平均的來說,達到較高F-比率(>0.4)所需要的樣本音頻數(shù)量為8,這個數(shù)量在大多數(shù)實際情況中都是可行的。
以上所述僅為本發(fā)明的兩階段音頻檢索方法及系統(tǒng)的較佳實驗,并非用以限定本發(fā)明的實質技術內(nèi)容的范圍。本發(fā)明的兩階段音頻檢索方法及系統(tǒng),其實質技術內(nèi)容是廣泛的定義于權利要求書中,任何他人所完成的技術實體或方法,若是與權利要求書中所定義者完全相同,或是同一等效的變更,均將被視為涵蓋于此專利保護范圍之內(nèi)。
權利要求
1.一種兩階段的音頻檢索方法,其特征在于包括以下步驟
1)提取數(shù)據(jù)庫中音頻文件的音頻特征;
2)對數(shù)據(jù)庫中音頻文件進行基于文本的檢索;
3)基于有文本注釋的音頻文件構成的訓練集合,用主成分分析方法尋找對于分類最可靠的特征集合;
4)基于訓練集合對特征集合所構成的弱分類器進行訓練,構造出強分類器;
5)以步驟4)訓練得到的強分類器進行檢索。
2.根據(jù)權利要求1所述的一種兩階段的音頻檢索方法,其特征在于所述的提取數(shù)據(jù)庫中音頻文件的音頻特征步驟令Ai表示所有用于檢索的候選音頻集合,其中i=1,…,n,在此集合中,有na個音頻文件有文本注釋,如這些音頻文件為
對于其中的每一個音頻文件,用yi表示與Ai相關聯(lián)的文本,剩余的nu=n-na個未注釋音頻為
對于每一個音頻文件Ai,提取如下音頻特征(可擴展到任意數(shù)目、任意類型的音頻特征)
1.節(jié)奏模式(Rhythm Patterns)
2.統(tǒng)計譜描述子(Statistical Spectrum Descriptor)
3.節(jié)奏直方圖(Rhythm Histogram)
4.自相關(Auto-correlation)
5.對數(shù)沖擊時間(Log Attack Time)
6.時間質心(Temporal Centroid)
7.音頻功率(Audio Power)
8.基波頻率(Fundamental Frequency)
9.總響度(Total Loudness)
10.Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coeffcient)
11.頻譜質心(Audio Spectrum Centroid)
12.頻譜衰減(Audio Spectrum Rolloff)
13.頻譜擴展(Audio Spectrum Spread)
14.響度波帶(Sone/Bark Bands)
15.過零率(Zero-crossing Rate)
16.頻譜平度(Audio Spectrum Flatness)。
3.根據(jù)權利要求1所述的一種兩階段的音頻檢索方法,其特征在于所述的對數(shù)據(jù)庫中音頻文件進行基于文本的檢索步驟給定用戶輸入的由一個或者多個關鍵字組成的查詢Q,對數(shù)據(jù)庫中音頻文件使用文本檢索方法進行基于文本的查詢,檢索注釋中包含查詢關鍵字的音頻,令
表示查詢的結果向量,其中如果Ai是上述文本查詢過程中檢索到的結果那么此向量的第i個分量ra(i)=1,否則ra(i)=0,對于沒有注釋的音頻,它們的ra(i)被置為0,上述基于關鍵字匹配的方法也可以被替換成為任意基于文本檢索方法,屬于本權利要求的變形。
4.根據(jù)權利要求1所述的一種兩階段的音頻檢索方法,其特征在于所述的基于有文本注釋的音頻文件構成的訓練集合,用主成分分析方法尋找對于分類最可靠的特征集合步驟
對于兩個已注釋音頻文件,計算檢索到的音頻特征之間的協(xié)方差
其中μk和μl分別是在第k個和第l個特征維度上的均值,以及構造一個協(xié)方差矩陣C(k,l)=ρk,l,其中矩陣的第k列和第l行元素為ρk,l,定義特征vi的方差為vari,所有的特征vi根據(jù)方差vari的升序排序,選擇方差小于所有特征方差均值γ倍的特征vi,其中γ∈(0,1)是截斷閾值,這些選中的特征形成了一個新的特征集合V={vi},這一新的特征集V就是我們的方法對于該特定音頻檢索關鍵詞所確定的最可靠的音頻特征子集,記特征集V的維度為|V|,即該子音頻特征集含有|V|個音頻特征。
5.根據(jù)權利要求1所述的一種兩階段的音頻檢索方法,其特征在于所述的基于訓練集合對特征集合所構成的弱分類器進行訓練,構造出強分類器步驟
(1)兩個音頻之間的相似度就在特征集合的投影子空間內(nèi)被重新定義為
其中vi∈V,即每個在上式中使用到的音頻特征vi均是權利要求4中檢測獲得的對于該特定音頻檢索關鍵詞所確定的最可靠的音頻特征之一,對于權重數(shù)列{κi|i=1,…,|V|},我們引入以下m個數(shù)列作為數(shù)列{κi|i=1,…,|V|}的候選 以及常數(shù)列{1|i=1,…,|V|}.這里m是一個用戶可調(diào)的參數(shù),它的默認值為5,除此之外權利要求4中的截斷閾值γ∈(0,1)也有x種取值候選,分別為這里x是一個用戶可調(diào)的整數(shù)型參數(shù),它的默認值為5,由于γ和{κi|i=1,…}各有x和m種賦值的候選方案,故共有xm種組合;此處數(shù)列{κi|i=1,…,|V|}和γ賦值的候選方案可以被替換成別的形式,均將視為本權利的變形;
(2)基于文本檢索中得到的結果集合兩個音頻的內(nèi)容相似度構造一個n×n的音頻相似度矩陣S,矩陣中第i列和第j行的元素表示Ai和Aj之間的相似度,定義單步傳播過程如下
然后再對所有的音頻按照它們對應的ru(i)值降序排序并且以此順序推薦給用戶,上述單步傳播過程可也可以被實現(xiàn)成為以下的多步傳播過程
其中β是傳播步驟中的衰減常數(shù),并引入Adaboost方法,與查詢相關的音頻,就標記為+1,否則標記為-1,訓練集合從第一階段基于文本的查詢中得到,步驟(1)中由于xm種對數(shù)列{κi|i=1,…,|V|}和γ的賦值候選方案將產(chǎn)生xm種音頻相似度定義,根據(jù)(3)或(4)式都可以計算出一個ru值,每一個ru(i)>τ的判定式都構成了一個弱分類器,對于xm個音頻相似度定義對應的弱分類器,搜索使弱分類器分類錯誤達到最小的τ和β優(yōu)化設置;
(3)在上述的優(yōu)化設置搜索過程中使用k-folded交叉驗證技術以防止過擬合現(xiàn)象,其中的k設為第一階段基于文本的查詢中檢索得到的音頻數(shù)量,閾值τ和β通過相似度定義成對的組成一個弱分類器通過使用每一對音頻相似度的定義,都能構造一個相似度矩陣S,然后應用(3)或(4)式于ra,就得到了ru,對于ru(i)的每一個分量,如果大于τ,就把Ai標記為+1,否則標記為-1;這樣就得到了xm個弱分類器,再應用標準的Adaboost算法基于訓練集合得到一個強分類器對每一個弱分類器賦予一個對應的權重ω,應用Adaboost算法在每次的迭代中更新這個權重直到分類錯誤率小于給定閾值或者達到最大迭代次數(shù),最后如果就把Ai標記為+1,否則標記為-1,此判定式為得到的強分類器;
(4)在第一階段基于文本的檢索過程中如果只找到一個相關的音頻,那么就不可能使用任何的交叉驗證方法,此時在第二階段的查詢過程中就使用默認分類器,其脫機訓練過程如下,對于數(shù)據(jù)庫中有注釋的訓練集合部分的所有音頻文件,使用k最近鄰居基礎聚類算法分成s個聚類組,對于每一個聚類組中的音頻,假設他們都屬于某一類特定的音頻內(nèi)容,然后使用上述的Adaboost方法通過增強xm個弱分類器來訓練一個強分類器以分類一個音頻是否屬于這一聚類組,這樣就產(chǎn)生了s個強分類器,每一個都是由上述的音頻聚類組所產(chǎn)生的,作為該聚類組中所有音頻的默認分類器。
6.根據(jù)權利要求1所述的一種兩階段的音頻檢索方法,其特征在于所述的以步驟4)訓練得到的強分類器進行檢索步驟由步驟4)中得到的強分類器對整個數(shù)據(jù)庫的所有音頻進行分類,其中被標記為+1的音頻作為最后的查詢結果返回給用戶。
全文摘要
本發(fā)明公開了一種兩階段的音頻檢索方法。包括以下步驟1)提取數(shù)據(jù)庫中音頻文件的音頻特征;2)對數(shù)據(jù)庫中音頻文件進行基于文本的檢索;3)基于檢索到的音頻文件構成訓練集合,用主成分分析方法尋找對于分類最可靠的特征集合;4)基于訓練集合對特征集合所構成的弱分類器進行訓練,構造出強分類器;5)以步驟4)訓練得到的強分類器進行檢索。本發(fā)明適用于任何一種檢索部分注釋的音頻集的基于內(nèi)容的推薦系統(tǒng),也適用于檢索任意的非文本對象,例如圖像和視頻。
文檔編號G06F17/30GK101364222SQ20081012068
公開日2009年2月11日 申請日期2008年9月2日 優(yōu)先權日2008年9月2日
發(fā)明者徐頌華, 陳蘇超, 秦學英, 劉智滿, 潘云鶴 申請人:浙江大學