欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于模式的音頻檢索方法和系統(tǒng)的制作方法

文檔序號(hào):6492111閱讀:236來源:國(guó)知局
基于模式的音頻檢索方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種基于模式的音頻檢索方法和系統(tǒng)。所述音頻檢索方法包括:基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列;獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列;基于目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度;以及輸出匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù),作為檢索結(jié)果。利用本發(fā)明的方法和系統(tǒng),能夠無需人工參與標(biāo)記而自動(dòng)基于背景模式迭代地進(jìn)行音頻類標(biāo)記和檢索,從而提供更準(zhǔn)確合理的音頻檢索結(jié)果。
【專利說明】基于模式的音頻檢索方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體上涉及多媒體信息檢索領(lǐng)域,特別地,涉及基于模式的音頻檢索方法和系統(tǒng)。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的廣泛普及推動(dòng)了多媒體信息技術(shù)的高速發(fā)展??蓮幕ヂ?lián)網(wǎng)上獲得的多媒體數(shù)據(jù)量急速增長(zhǎng)。例如,在YouTube網(wǎng)站上每分鐘上傳的音視頻文件達(dá)48小時(shí)之多。海量的數(shù)據(jù)使得不可能逐一進(jìn)行瀏覽,而且對(duì)數(shù)據(jù)的索引和檢索也更具挑戰(zhàn)。
[0003]如何從資料庫(kù)中準(zhǔn)確地找到所需題材的數(shù)據(jù)文件是多媒體信息檢索領(lǐng)域的研究熱點(diǎn)之一。例如,婚慶設(shè)計(jì)公司可能希望根據(jù)少量婚慶典禮樣本,找到海量素材用以制作最終的婚慶文件。電臺(tái)的節(jié)目制作人或者視頻網(wǎng)站的制作團(tuán)隊(duì),希望基于有限資料從海量數(shù)據(jù)中搜索到感興趣的節(jié)目類型,為快速的節(jié)目制作提供幫助。此外,用戶可能希望對(duì)自有的多媒體數(shù)據(jù)庫(kù)進(jìn)行自動(dòng)的標(biāo)記歸檔,從而進(jìn)行更有效的管理。
[0004]相比于基于視頻的檢索,基于音頻的檢索適用范圍更廣,例如在只能獲得音頻數(shù)據(jù)的情況下(例如,無線電廣播)。音頻包含了有助于理解內(nèi)容的相當(dāng)大量的信息,而且相比于視頻來說音頻文件通常較小。因此,在例如由于網(wǎng)絡(luò)上傳容量限制而不得不將視頻文件壓縮至略模糊的情況下,音頻卻可以制作得較為清晰。
[0005]然而,現(xiàn)有技術(shù)的音頻索引和檢索方法有諸多缺陷。首先,現(xiàn)有的音頻索引和檢索方法需要大量的手工標(biāo)記。例如對(duì)于音頻網(wǎng)站,通常存在大量的無標(biāo)記文件或者簡(jiǎn)單標(biāo)記的文件,這些文件之間沒有很好的描述,而且缺乏與其他數(shù)據(jù)有效的相關(guān)性推薦連接。工作人員只能人工對(duì)部分著名節(jié)目或者訪問量高的文件進(jìn)行手工標(biāo)記和推薦連接。因此,這樣的音頻索引和檢索方法僅能用于特定領(lǐng)域和有限的數(shù)據(jù)樣本集。
[0006]其次,現(xiàn)有的音頻索引和檢索方法僅僅基于音頻標(biāo)記本身進(jìn)行建模,這會(huì)使得索引和檢索結(jié)果不準(zhǔn)確。例如,同樣是水流聲,在自然河流背景模式下和家庭廚房背景模式下的意義是完全不同的。再例如,鼓掌聲在娛樂節(jié)目、談話節(jié)目或體育節(jié)目中也是有所不同的。如果用戶輸入一段河流流水聲作為樣本,希望從多媒體數(shù)據(jù)庫(kù)中檢索出類似的素材,那么現(xiàn)有的音頻檢索方法會(huì)不區(qū)分地給出包括自然河流模式下和家庭廚房模式下的水流聲的數(shù)據(jù)文件。顯然,在不考慮上下文的情況下,很多音頻檢索的結(jié)果是不準(zhǔn)確的。
[0007]再次,現(xiàn)有的音頻檢索方法通常采用單次順序檢索策略,即先將音頻數(shù)據(jù)分段,接著針對(duì)每段進(jìn)行分類識(shí)別。由此,先前步驟中的錯(cuò)誤會(huì)影響后續(xù)步驟的執(zhí)行結(jié)果,導(dǎo)致逐步累積到最后的檢索結(jié)果中,使得檢索結(jié)果不準(zhǔn)確甚至完全偏離檢索目標(biāo)。
[0008]因此,需要一種無需人工參與標(biāo)記而自動(dòng)執(zhí)行的音頻檢索方法和系統(tǒng)。
[0009]進(jìn)一步,需要一種基于背景模式并可以考慮音頻類相似度的音頻檢索方法和系統(tǒng)。
[0010]再進(jìn)一步,需要一種能夠自動(dòng)消除累積誤差從而提供更為準(zhǔn)確的檢索結(jié)果的音頻檢索方法和系統(tǒng)。
【發(fā)明內(nèi)容】

[0011]本發(fā)明的一個(gè)目的在于,自動(dòng)對(duì)源音頻數(shù)據(jù)進(jìn)行基于模式的標(biāo)記和建模,并考慮音頻類相似度地提供準(zhǔn)確的音頻檢索結(jié)果。
[0012]為此,本發(fā)明的音頻檢索方法和系統(tǒng)通過迭代分段與聚類整合處理來對(duì)源音頻數(shù)據(jù)進(jìn)行自動(dòng)音頻標(biāo)記,在每次迭代中構(gòu)建基于背景模式的判決樹并針對(duì)判決樹上的葉節(jié)點(diǎn)訓(xùn)練分段標(biāo)記模型,最后基于模式比較并結(jié)合音頻類相似度來提供音頻檢索結(jié)果。
[0013]根據(jù)本發(fā)明的第一方面,提供了一種基于模式的音頻檢索方法,包括:基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列;獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列;基于目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度;以及輸出匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù),作為檢索結(jié)果。
[0014]在一個(gè)實(shí)施例中,基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記包括,針對(duì)每個(gè)源音頻數(shù)據(jù)執(zhí)行如下操作:(a)對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分,以獲得多個(gè)分段;(b)基于所獲得的多個(gè)分段,利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列;(C)根據(jù)針對(duì)多個(gè)所述源音頻數(shù)據(jù)所確定的音頻類序列,基于模式構(gòu)建判決樹;(d)針對(duì)判決樹上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練分段標(biāo)記模型;(e)利用所訓(xùn)練的分段標(biāo)記模型,獲得每個(gè)源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)該源音頻數(shù)據(jù)的劃分;以及(f)在滿足預(yù)定迭代條件的情況下,重復(fù)上述操作(b)至(e)。
[0015]根據(jù)本發(fā)明的第二方面,提供了一種基于模式的音頻檢索系統(tǒng),包括:標(biāo)記裝置,配置為基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列;目標(biāo)獲取裝置,配置為獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列;匹配度確定裝置,配置為基于所述目標(biāo)獲取裝置獲取的目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和所述標(biāo)記裝置獲取的各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度;以及檢索輸出裝置,配置為輸出由所述匹配度確定裝置確定的匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù),作為檢索結(jié)果。
[0016]在一個(gè)實(shí)施例中,所述標(biāo)記裝置包括:劃分裝置,配置為對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分,以獲得多個(gè)分段;聚類裝置,配置為基于所獲得的多個(gè)分段,利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列;判決樹構(gòu)建裝置,配置為根據(jù)所述聚類裝置針對(duì)多個(gè)所述源音頻數(shù)據(jù)確定的音頻類序列,基于模式構(gòu)建判決樹;模型訓(xùn)練裝置,配置為針對(duì)由所述判決樹構(gòu)建裝置構(gòu)建的判決樹上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練分段標(biāo)記模型;分段調(diào)整裝置,配置為利用由所述模型訓(xùn)練裝置訓(xùn)練的分段標(biāo)記模型,獲得每個(gè)源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)該源音頻數(shù)據(jù)的劃分;以及迭代條件判斷裝置,配置為判斷是否滿足預(yù)定迭代條件。
[0017]利用本發(fā)明的方法和系統(tǒng),能夠無需人工參與標(biāo)記而自動(dòng)執(zhí)行音頻檢索。
[0018]利用本發(fā)明的方法和系統(tǒng),能夠基于背景模式迭代地進(jìn)行音頻類標(biāo)記,從而提供更準(zhǔn)確合理的音頻檢索結(jié)果。
[0019]利用本發(fā)明的方法和系統(tǒng),能夠考慮音頻類相似度并結(jié)合背景模式地進(jìn)行音頻檢索。【專利附圖】

【附圖說明】
[0020]通過結(jié)合附圖對(duì)本公開示例性實(shí)施方式進(jìn)行更詳細(xì)的描述,本公開的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯,其中,在本公開示例性實(shí)施方式中,相同的參考標(biāo)號(hào)通常代表相同部件。
[0021]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器的框圖。
[0022]圖2是例示了根據(jù)本發(fā)明實(shí)施例的基于模式的音頻檢索方法的總流程圖。
[0023]圖3示意性地示出了音頻類序列的一個(gè)示例。
[0024]圖4是例示了根據(jù)本發(fā)明實(shí)施例的用于對(duì)源音頻數(shù)據(jù)進(jìn)行基于模式的音頻類標(biāo)記的處理的流程圖。
[0025]圖5示意性地示出了聚類處理的一個(gè)示例。
[0026]圖6是例示了根據(jù)本發(fā)明實(shí)施例的用于基于模式構(gòu)建判決樹的處理的流程圖。
[0027]圖7示意性地示出了判決樹構(gòu)建處理的一個(gè)示例。
[0028]圖8是例示了根據(jù)本發(fā)明實(shí)施例的用于確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度的處理的流程圖。
[0029]圖9示出了根據(jù)本發(fā)明實(shí)施例的基于模式的音頻檢索系統(tǒng)的功能框圖。
【具體實(shí)施方式】
[0030]下面將參照附圖更詳細(xì)地描述本公開的優(yōu)選實(shí)施方式。雖然附圖中顯示了本公開的優(yōu)選實(shí)施方式,然而應(yīng)該理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施方式所限制。相反,提供這些實(shí)施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0031]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本公開可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實(shí)施例中,本發(fā)明還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0032]可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0033]計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括——但不限于——電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。[0034]計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合。
[0035]可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言一諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計(jì)語言一諸如”C”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0036]下面將參照本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,這些計(jì)算機(jī)程序指令通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行,產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
[0037]也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在能使得計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instructionmeans)的制造品(manufacture)。
[0038]也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而使得在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令能夠提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0039]圖1示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
[0040]如圖1所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。
[0041]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局域總線以及外圍組件互連(PCI)總線。
[0042]計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
[0043]系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(RAM)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖1中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。
[0044]具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。
[0045]計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14 (例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、RAID系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
[0046]如前所述,本發(fā)明的音頻檢索方法和系統(tǒng)通過迭代分段與聚類整合處理來對(duì)源音頻數(shù)據(jù)進(jìn)行自動(dòng)音頻標(biāo)記,在每次迭代中構(gòu)建基于背景模式的判決樹并針對(duì)判決樹上的葉節(jié)點(diǎn)訓(xùn)練分段標(biāo)記模型,最后基于模式比較并結(jié)合音頻類相似度來提供音頻檢索結(jié)果。
[0047]下面將參照?qǐng)D2至圖9來具體地描述本發(fā)明的實(shí)施例。圖2是例示了根據(jù)本發(fā)明實(shí)施例的基于模式的音頻檢索方法200的總流程圖。首先,需要對(duì)例如包括在音頻數(shù)據(jù)庫(kù)中的多個(gè)源音頻數(shù)據(jù)進(jìn)行基于模式的音頻類標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列(步驟202)。
[0048]需要說明的是,本文中所稱的“音頻類”是指針對(duì)音頻的一種分類。理想情況下,“音頻類”可以是一段音頻所涉及的事件類別,例如槍聲、流水聲、歡呼聲或尖叫聲等。然而,一般情況下,“音頻類”不一定嚴(yán)格對(duì)應(yīng)于音頻所涉及的事件類別,其可以僅僅是基于特定音頻處理算法(例如,聚類算法)的運(yùn)算結(jié)果,并且可能不具備語義含義。在本發(fā)明中無需知曉每個(gè)音頻類所具體代表的事件類別就能夠進(jìn)行準(zhǔn)確的音頻標(biāo)記和檢索,正因此本發(fā)明的音頻類和檢索方法是無需監(jiān)督而自動(dòng)執(zhí)行的。
[0049]音頻數(shù)據(jù)是由連續(xù)或不連續(xù)的多段音頻構(gòu)成,故而本文所稱的“音頻類序列”是指隨時(shí)間的一系列音頻類,其記載了音頻數(shù)據(jù)中順序出現(xiàn)的音頻類及其相應(yīng)的持續(xù)時(shí)間。圖3中示出了理想情況下的音頻類序列的一個(gè)示例。本文中所稱的“背景模式”或“模式”是指音頻數(shù)據(jù)所涉及的環(huán)境情況,例如自然河流、家庭廚房、車站、娛樂節(jié)目、談話節(jié)目或體育節(jié)目等。
[0050]圖4詳細(xì)地例示了步驟202的一種具體實(shí)現(xiàn)處理400,其中通過迭代分段與聚類整合處理來對(duì)源音頻數(shù)據(jù)進(jìn)行自動(dòng)音頻標(biāo)記,在每次迭代中構(gòu)建基于背景模式的判決樹并針對(duì)判決樹上的葉節(jié)點(diǎn)訓(xùn)練分段標(biāo)記模型。
[0051]處理400可以在步驟402處開始。在步驟402中,對(duì)多個(gè)源音頻數(shù)據(jù)中的每一個(gè)源音頻數(shù)據(jù)進(jìn)行劃分,以獲得多個(gè)分段。在一個(gè)實(shí)施例中,可以依照源音頻數(shù)據(jù)中的靜音進(jìn)行劃分。在另一實(shí)施例中,可以依照預(yù)定時(shí)長(zhǎng)的音頻窗對(duì)源音頻數(shù)據(jù)進(jìn)行劃分。在又一實(shí)施例中,可以按時(shí)間均勻劃分源音頻數(shù)據(jù)。在還一實(shí)施例中,可以采用靜音劃分、音頻窗劃分和按時(shí)間均勻劃分中任意多個(gè)的組合來對(duì)源音頻數(shù)據(jù)進(jìn)行劃分。
[0052]需要說明的是,步驟402中對(duì)源音頻數(shù)據(jù)的劃分結(jié)果可能比較粗略。通過后續(xù)的迭代聚類處理、判決樹構(gòu)建處理和模型訓(xùn)練處理,并通過采用Viterbi算法,可以得到越來越準(zhǔn)確的劃分。
[0053]然后,在步驟404中,基于步驟402中的劃分獲得的多個(gè)分段,利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列。在一個(gè)示例中,利用從所獲得的多個(gè)分段提取的音頻特征來構(gòu)建混合高斯模型(GMM)。一旦確定了模型,就可以確定各音頻類的距離。接著,基于所構(gòu)建的GMM,利用聚類算法基于特定音頻特征(例如,時(shí)域或頻域的音頻特征)和音頻類距離,逐級(jí)聚類并最終確定源音頻數(shù)據(jù)的音頻類序列。
[0054]根據(jù)聚類算法和預(yù)定聚類準(zhǔn)則,聚類處理可以在期望的聚類級(jí)別處停止。本例中將聚類處理停止的級(jí)別處的變量定義為“音頻類”,而將其下各級(jí)別處的變量定義為“音頻子類”。相應(yīng)地,一系列按時(shí)間順序排列的音頻類可以構(gòu)成“音頻類序列”。如前所述,應(yīng)當(dāng)理解,步驟404中獲得的音頻類和音頻子類可能是無語義含義的。
[0055]圖5示出了聚類處理的一個(gè)示例,其中LI中的各點(diǎn)表示根據(jù)從多個(gè)音頻分段提取的音頻特征構(gòu)建的GMM模型變量,L2、L3....Ln表示利用聚類算法基于特定時(shí)域或頻域音頻特征和音頻類距離獲得的音頻聚類級(jí)別,其中Ln中的各點(diǎn)(例如,a、b、C、d、e等)被定義為音頻類,而L2至Ln-1中的各點(diǎn)可以被認(rèn)為是該音頻數(shù)據(jù)的音頻子類。
[0056]接下來,在步驟406中,根據(jù)步驟404針對(duì)多個(gè)源音頻數(shù)據(jù)確定的多個(gè)音頻類序列,基于模式構(gòu)建判決樹。圖6示出了步驟406的基于模式構(gòu)建判決樹的一種具體實(shí)現(xiàn)處理600。首先,在步驟602處,將步驟404中確定的音頻類序列中的各音頻類(例如,圖5中Ln級(jí)中的a、b、C、d、e......)定義為判決樹的根節(jié)點(diǎn)。
[0057]接著,在步驟604中,基于被定義為根節(jié)點(diǎn)的音頻類在音頻類序列中的上下文,構(gòu)建模式問題集。模式問題集可以按照預(yù)定規(guī)則來構(gòu)建,例如使得分支的區(qū)分性最大。在一個(gè)示例中,音頻類的上下文可以指音頻類序列中在該音頻類之前和之后的音頻類。在另一示例中,音頻類的上下文可以指在步驟404中的聚類處理中針對(duì)該音頻類獲得的一個(gè)或多個(gè)音頻子類。音頻類的上下文在一定程度上可以反映音頻類的背景模式。例如,對(duì)于與火車汽笛聲相關(guān)的音頻類,若該音頻類在序列中的前一音頻類與廣播聲相關(guān),而該音頻類在序列中的后一音頻類與嘈雜人聲相關(guān),則很有可能是火車站的背景模式。但是,若前一音頻類與槍聲相關(guān),后一音頻類與歡呼聲相關(guān),那很有可能是“鐵道游擊隊(duì)”之類的電影場(chǎng)景模式。
[0058]最后,在步驟606中,以所構(gòu)建的模式問題集,對(duì)音頻類序列中的音頻類進(jìn)行分支,從而構(gòu)建判決樹的葉節(jié)點(diǎn)。本文中所稱的“判決樹的葉節(jié)點(diǎn)”是指判決樹中不具備任何向下的子節(jié)點(diǎn)的節(jié)點(diǎn)。即,任何具備向下的子節(jié)點(diǎn)的節(jié)點(diǎn)均定義為“根節(jié)點(diǎn)”。需要說明的是,可以將判決樹向下分支到預(yù)定節(jié)點(diǎn)級(jí)別,例如當(dāng)每個(gè)葉節(jié)點(diǎn)內(nèi)所包含的音頻標(biāo)記個(gè)數(shù)低于預(yù)定閾值時(shí)結(jié)束對(duì)判決樹的構(gòu)建。
[0059]圖7示出了判決樹構(gòu)建處理的一個(gè)示例,其中音頻類b例如是圖5的示例中通過聚類處理獲得的音頻類序列中的一個(gè)音頻類。假設(shè)通過聚類處理針對(duì)多個(gè)源音頻數(shù)據(jù)獲得的音頻類序列中包含音頻類b的共有四組,如圖7所示,分別為(a-b+c )、(a-b+e )、(d-b+a)和(d-b+c),其中符號(hào)表示音頻類b在序列中的前一音頻類,而符號(hào)“ + ”表示音頻類b在序列中的后一音頻類。S卩,(a-b+c)表示音頻類b在序列中的前一個(gè)音頻類是a而后一個(gè)音頻類是C。
[0060]利用基于上下文的問題集合,逐步將音頻類b向下分支直到例如bl、b2、b3、b4等的葉節(jié)點(diǎn)。例如,可以首先選擇“上下文中是否包含音頻類a”作為問題來對(duì)音頻類b進(jìn)行分支,因此,分支出(d-b+c)并將其定義為葉節(jié)點(diǎn)bl。接著,可以選擇“前一音頻類是否為a”作為問題來進(jìn)一步分支,由此分支出(d-b+a)并將其定義為葉節(jié)點(diǎn)b2。然后,可以選擇“后一音頻類是否為c”作為問題再進(jìn)一步分支,由此區(qū)分開(a-b+e)和(a-b+c)并將其分別定義為葉節(jié)點(diǎn)b3和b4。至此,完成了對(duì)判決樹的構(gòu)建。
[0061]回到圖4,接下來,在步驟408中,針對(duì)判決樹上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練分段標(biāo)記模型。在一個(gè)示例中,分段標(biāo)記模型可以包括隱馬爾可夫模型(HMM)和持續(xù)時(shí)間模型。然后,利用所訓(xùn)練的分段標(biāo)記模型,獲得每個(gè)源音頻數(shù)據(jù)的音頻標(biāo)記序列,并調(diào)整對(duì)該源音頻數(shù)據(jù)的劃分(步驟410)。需要說明的是,本文中所稱的“音頻標(biāo)記序列”與音頻類序列相關(guān)但不同于音頻類序列,其并不對(duì)應(yīng)于音頻所涉及的事件類別,而僅僅是基于某些音頻處理算法(例如,Viterbi算法)的運(yùn)算結(jié)果,以便于后續(xù)的匹配處理。在本發(fā)明的一個(gè)實(shí)施例中,步驟410可以通過如下操作來實(shí)現(xiàn):首先,利用在步驟408訓(xùn)練的分段標(biāo)記模型,確定源音頻數(shù)據(jù)的音頻類距離;接著,基于所訓(xùn)練的分段標(biāo)記模型,利用從源音頻數(shù)據(jù)提取的音頻特征和所確定的音頻類距離進(jìn)行Viterbi解碼;最后,根據(jù)Viterbi解碼結(jié)果,獲得源音頻數(shù)據(jù)的音頻標(biāo)記序列,并調(diào)整對(duì)源音頻數(shù)據(jù)的劃分。
[0062]接下來,進(jìn)入判定步驟412,確定是否滿足預(yù)定迭代條件。在一個(gè)示例中,預(yù)定迭代條件可以包括:對(duì)源音頻數(shù)據(jù)的劃分的調(diào)整量不小于預(yù)定分段差值,以及/或者,迭代次數(shù)小于預(yù)定迭代次數(shù)閾值。
[0063]在步驟412中判定需要進(jìn)行迭代的情況下,方法400轉(zhuǎn)到步驟404,以基于在步驟410中重新調(diào)整后的分段來進(jìn)行聚類處理、判決樹構(gòu)建處理和分段標(biāo)記模型訓(xùn)練處理。而在步驟412中判定可以跳出迭代,則在步驟414中輸出所獲得的音頻數(shù)據(jù)的音頻標(biāo)記序列。
[0064]在本發(fā)明的一個(gè)實(shí)施例中,在步驟402對(duì)音頻數(shù)據(jù)進(jìn)行劃分之前還可以確定源音頻數(shù)據(jù)是否為語音數(shù)據(jù)(步驟416)。音頻數(shù)據(jù)庫(kù)中所包含的源音頻數(shù)據(jù)可能是語音數(shù)據(jù)也可能是非語音數(shù)據(jù)??梢岳帽绢I(lǐng)域公知的支持向量機(jī)(SVM)方法來進(jìn)行語音/非語音的區(qū)分。準(zhǔn)確地區(qū)分語音和非語音,有助于后續(xù)的分段、聚類、判決樹構(gòu)建和模型訓(xùn)練步驟。
[0065]下面返回到圖2的方法200,在步驟202中獲取了各源音頻數(shù)據(jù)的音頻標(biāo)記序列之后,方法200進(jìn)行到步驟204。在步驟204中,獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列。在本發(fā)明的一個(gè)實(shí)施例中,可以基于例如在圖4的步驟408處訓(xùn)練好的分段標(biāo)記模型,對(duì)目標(biāo)音頻數(shù)據(jù)進(jìn)行Viterbi解碼,以獲得該目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列。
[0066]接下來,在步驟206處,基于步驟204處獲得的目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和步驟202處獲得的各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度。
[0067]圖8示出了步驟206的確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度的一種具體實(shí)現(xiàn)處理800,其中綜合考慮音頻類之間的相似度以及背景模式的匹配性來檢索和排序與目標(biāo)音頻數(shù)據(jù)相關(guān)的源音頻數(shù)據(jù)。
[0068]首先,在步驟802處,確定與目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)相關(guān)的音頻類之間的音頻類距離。例如可以基于在圖4的步驟408處訓(xùn)練好的分段標(biāo)記模型來確定音頻類距離。接著,在步驟804處,通過將目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列與源音頻數(shù)據(jù)的音頻標(biāo)記序列進(jìn)行比較,基于在步驟802中確定的音頻類距離來計(jì)算序列匹配得分。在一個(gè)示例中,可以利用動(dòng)態(tài)時(shí)間歸整(DTW)算法以音頻類距離作為權(quán)重來計(jì)算目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列與源音頻數(shù)據(jù)的音頻標(biāo)記序列之間的相似度,即序列匹配得分。
[0069]接著,在步驟806處,通過計(jì)數(shù)目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)的音頻類序列中各音頻類的個(gè)數(shù),計(jì)算計(jì)數(shù)匹配得分。例如,可以計(jì)數(shù)每種音頻類在特定時(shí)段內(nèi)出現(xiàn)多少次。計(jì)數(shù)匹配得分計(jì)算有助于發(fā)現(xiàn)類似的背景模式。最后,在步驟808中,以各自對(duì)應(yīng)的加權(quán)值組合步驟804中計(jì)算的序列匹配得分和步驟806中計(jì)算的計(jì)數(shù)匹配得分,從而確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)的匹配度。需要說明的是,序列匹配得分和計(jì)數(shù)匹配得分各自對(duì)應(yīng)的加權(quán)值可以根據(jù)實(shí)際需要或者根據(jù)經(jīng)驗(yàn)值來確定。在一個(gè)示例中,可以僅考慮序列匹配和計(jì)數(shù)匹配中的任一種。例如,可以僅僅基于序列匹配得分來確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)的匹配度。
[0070]回到圖2,在步驟206中確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度之后,方法200進(jìn)行到步驟208,即輸出匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù)作為檢索結(jié)果。到此,方法200結(jié)束。在有些實(shí)施例中,在確定了檢索結(jié)果之后,還可以將源音頻數(shù)據(jù)添加到音頻數(shù)據(jù)庫(kù)中用以進(jìn)一步訓(xùn)練如圖4的步驟408中的分段標(biāo)記模型。
[0071]圖9示出了根據(jù)本發(fā)明實(shí)施例的基于模式的音頻檢索系統(tǒng)900的功能框圖。音頻檢索系統(tǒng)900的功能模塊可以由實(shí)現(xiàn)本發(fā)明原理的硬件、軟件或硬件和軟件的結(jié)合來實(shí)現(xiàn)。本領(lǐng)域技術(shù)人員可以理解的是圖9中所描述的功能模塊可以組合起來或者劃分成子模塊,從而實(shí)現(xiàn)上述發(fā)明的原理。因此,本文的描述可以支持對(duì)本文描述的功能模塊的任何可能的組合、或者劃分、或者更進(jìn)一步的限定。
[0072]音頻檢索系統(tǒng)900能夠無需人工參與標(biāo)記而自動(dòng)基于背景模式迭代地進(jìn)行音頻類標(biāo)記和檢索,從而提供更準(zhǔn)確合理的音頻檢索結(jié)果。音頻檢索系統(tǒng)900可以包括標(biāo)記裝置902、目標(biāo)獲取裝置904、匹配度確定裝置906和檢索輸出裝置908。
[0073]標(biāo)記裝置902被配置為基于模式對(duì)例如包括在音頻數(shù)據(jù)庫(kù)中的多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列。在一個(gè)實(shí)施例中,標(biāo)記裝置902可以包括劃分裝置912、聚類裝置914、判決樹構(gòu)建裝置916、模型訓(xùn)練裝置918、分段調(diào)整裝置920以及迭代條件判斷裝置922。劃分裝置912配置為對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分,以獲得多個(gè)分段。在一個(gè)示例中,劃分裝置912可以通過以下中的任一個(gè)或任多個(gè)的組合來對(duì)源音頻數(shù)據(jù)進(jìn)行劃分:依照源音頻數(shù)據(jù)中的靜音進(jìn)行劃分;依照預(yù)定時(shí)長(zhǎng)的音頻窗對(duì)源音頻數(shù)據(jù)進(jìn)行劃分;以及按時(shí)間均勻劃分源音頻數(shù)據(jù)。在一個(gè)實(shí)施例中,劃分裝置912包括配置為確定源音頻數(shù)據(jù)是否為語音數(shù)據(jù)的語音識(shí)別裝置和配置為基于語音識(shí)別裝置確定的結(jié)果對(duì)源音頻數(shù)據(jù)進(jìn)行劃分以獲得多個(gè)分段的劃分執(zhí)行裝置。
[0074]聚類裝置914可以配置為基于所獲得的多個(gè)分段,利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列。在一個(gè)示例中,聚類裝置914包括:第一聚類子裝置,配置為利用從所獲得的多個(gè)分段提取的音頻特征來構(gòu)建GMM ;和第二聚類子裝置,配置為基于第一聚類子裝置構(gòu)建的GMM,利用聚類算法基于特定音頻特征和音頻類距離,確定源音頻數(shù)據(jù)的音頻類序列。
[0075]判決樹構(gòu)建裝置916可以配置為根據(jù)聚類裝置914針對(duì)多個(gè)源音頻數(shù)據(jù)確定的音頻類序列,基于模式構(gòu)建判決樹。在一個(gè)示例中,判決樹構(gòu)建裝置916包括:第一判決樹構(gòu)建子裝置,配置為定義由聚類裝置914確定的音頻類序列中的音頻類作為判決樹的根節(jié)點(diǎn);第二判決樹構(gòu)建子裝置,配置為基于被第一判決樹構(gòu)建子裝置定義為根節(jié)點(diǎn)的音頻類在音頻類序列中的上下文,構(gòu)建模式問題集;以及第三判決樹構(gòu)建子裝置,配置為基于所構(gòu)建的模式問題集,對(duì)所確定的音頻類序列中的音頻類進(jìn)行分支,從而構(gòu)建判決樹的葉節(jié)點(diǎn)。
[0076]模型訓(xùn)練裝置918可以配置為針對(duì)由判決樹構(gòu)建裝置916構(gòu)建的判決樹上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練分段標(biāo)記模型。在一個(gè)示例中,分段標(biāo)記模型例如為HMM和持續(xù)時(shí)間模型。
[0077]分段調(diào)整裝置920可以被配置為利用由模型訓(xùn)練裝置918訓(xùn)練的分段標(biāo)記模型,獲得每個(gè)源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)該源音頻數(shù)據(jù)的劃分。在一個(gè)示例中,分段調(diào)整裝置920包括:第一分段調(diào)整子裝置,配置為利用由模型訓(xùn)練裝置918訓(xùn)練的分段標(biāo)記模型,確定源音頻數(shù)據(jù)的音頻類距離;第二分段調(diào)整子裝置,配置為基于所訓(xùn)練的分段標(biāo)記模型,利用從源音頻數(shù)據(jù)提取的音頻特征和由第一分段調(diào)整子裝置確定的音頻類距離進(jìn)行Viterbi解碼;以及第三分段調(diào)整子裝置,配置為根據(jù)由第二分段調(diào)整子裝置獲得的Viterbi解碼結(jié)果,獲得源音頻數(shù)據(jù)的音頻標(biāo)記序列,并調(diào)整對(duì)源音頻數(shù)據(jù)的劃分。
[0078]迭代條件判斷裝置922可以被配置為判斷是否滿足預(yù)定迭代條件。在一個(gè)示例中,預(yù)定迭代條件可以包括:對(duì)源音頻數(shù)據(jù)的劃分的調(diào)整量不小于預(yù)定分段差值,以及/或者,迭代次數(shù)小于預(yù)定迭代次數(shù)閾值。
[0079]目標(biāo)獲取裝置904可以被配置為獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列。在一個(gè)實(shí)施例中,目標(biāo)獲取裝置904可以包括配置為基于模型訓(xùn)練裝置918訓(xùn)練的分段標(biāo)記模型,對(duì)目標(biāo)音頻數(shù)據(jù)進(jìn)行Viterbi解碼,以獲得該目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列的裝置。
[0080]匹配度確定裝置906可以被配置為基于目標(biāo)獲取裝置904獲取的目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和標(biāo)記裝置902獲取的音頻數(shù)據(jù)庫(kù)中的各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度。
[0081]在一個(gè)實(shí)施例中,匹配度確定裝置906包括:音頻類相似度確定裝置,配置為確定與目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)相關(guān)的音頻類之間的音頻類距離;序列比較裝置,配置為通過將目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列與源音頻數(shù)據(jù)的音頻標(biāo)記序列進(jìn)行比較,基于由音頻類相似度確定裝置確定的音頻類距離來計(jì)算序列匹配得分;計(jì)數(shù)比較裝置,配置為通過計(jì)數(shù)目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)的音頻類序列中各音頻類的個(gè)數(shù),計(jì)算計(jì)數(shù)匹配得分;以及匹配度計(jì)算裝置,配置為以各自的加權(quán)值組合由序列比較裝置計(jì)算的序列匹配得分和由計(jì)數(shù)比較裝置計(jì)算的計(jì)數(shù)匹配得分,計(jì)算目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)的匹配度。
[0082]檢索輸出裝置908可以被配置為輸出音頻數(shù)據(jù)庫(kù)中由匹配度確定裝置906確定的匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù),作為檢索結(jié)果。[0083]利用本發(fā)明的方法和系統(tǒng),能夠無需人工參與標(biāo)記而自動(dòng)執(zhí)行音頻檢索。
[0084]利用本發(fā)明的方法和系統(tǒng),能夠基于背景模式迭代地進(jìn)行音頻類標(biāo)記,從而提供更準(zhǔn)確合理的音頻檢索結(jié)果。
[0085]利用本發(fā)明的方法和系統(tǒng),能夠考慮音頻類相似度并結(jié)合背景模式地進(jìn)行音頻檢索。
[0086]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)記的功能也可以以不同于附圖中所標(biāo)記的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0087]以上已經(jīng)描述了本發(fā)明的各實(shí)施例,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實(shí)施例。在不偏離所說明的各實(shí)施例的范圍和精神的情況下,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨在最好地解釋各實(shí)施例的原理、實(shí)際應(yīng)用或?qū)κ袌?chǎng)中的技術(shù)的技術(shù)改進(jìn),或者使本【技術(shù)領(lǐng)域】的其它普通技術(shù)人員能理解本文披露的各實(shí)施例。
【權(quán)利要求】
1.一種基于模式的音頻檢索方法,包括: 基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列; 獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列; 基于目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度;以及 輸出匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù),作為檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其中,基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記包括: (a)對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分,以獲得多個(gè)分段; (b)基于所獲得的多個(gè)分段,利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列; (C)根據(jù)針對(duì)多個(gè)所述源音頻數(shù)據(jù)所確定的音頻類序列,基于模式構(gòu)建判決樹; Cd)針對(duì)判決樹上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練分段標(biāo)記模型; (e)利用所訓(xùn)練的分段標(biāo)記模型,獲得每個(gè)源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)該源音頻數(shù)據(jù)的劃分;以及 (f)在滿足預(yù)定迭代條件的情況下,重復(fù)上述操作(b)至(e)。
3.根據(jù)權(quán)利要求2所述的方法,其中, 對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分包括以下的任何一個(gè)或多個(gè): 依照源音頻數(shù)據(jù)中的靜音進(jìn)行劃分; 依照預(yù)定時(shí)長(zhǎng)的音頻窗對(duì)源音頻數(shù)據(jù)進(jìn)行劃分;以及 按時(shí)間均勻劃分源音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的方法,其中,基于所獲得的多個(gè)分段利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列包括: 利用從所獲得的多個(gè)分段提取的音頻特征來構(gòu)建混合高斯模型(GMM);和基于所構(gòu)建的GMM,利用聚類算法基于特定音頻特征和音頻類距離,確定源音頻數(shù)據(jù)的音頻類序列。
5.根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)針對(duì)多個(gè)所述源音頻數(shù)據(jù)所確定的音頻類序列基于模式構(gòu)建判決樹包括: 定義所確定的音頻類序列中的音頻類作為判決樹的根節(jié)點(diǎn); 基于被定義為根節(jié)點(diǎn)的音頻類在音頻類序列中的上下文,構(gòu)建模式問題集;以及基于所構(gòu)建的模式問題集,對(duì)所確定的音頻類序列中的音頻類進(jìn)行分支,從而構(gòu)建判決樹的葉節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求4所述的方法,其中,針對(duì)判決樹上的每個(gè)葉節(jié)點(diǎn)訓(xùn)練分段標(biāo)記模型包括: 針對(duì)判決樹上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練隱馬爾可夫模型(HMM)和持續(xù)時(shí)間模型。
7.根據(jù)權(quán)利要求2所述的方法,其中,利用所訓(xùn)練的分段標(biāo)記模型獲得源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)源音頻數(shù)據(jù)的劃分包括: 利用所訓(xùn)練的分段標(biāo)記模型,確定源音頻數(shù)據(jù)的音頻類距離; 基于所訓(xùn)練的分段標(biāo)記模型,利用從所述源音頻數(shù)據(jù)提取的音頻特征和所確定的音頻類距離進(jìn)行Viterbi解碼;以及 根據(jù)Viterbi解碼結(jié)果,獲得源音頻數(shù)據(jù)的音頻標(biāo)記序列,并調(diào)整對(duì)源音頻數(shù)據(jù)的劃分。
8.根據(jù)權(quán)利要求2所述的方法,其中,對(duì)源音頻數(shù)據(jù)進(jìn)行劃分以獲得多個(gè)分段包括: 確定源音頻數(shù)據(jù)是否為語音數(shù)據(jù);以及 基于所述確定的結(jié)果,對(duì)源音頻數(shù)據(jù)進(jìn)行劃分以獲得多個(gè)分段。
9.根據(jù)權(quán)利要求2所述的方法,其中,所述預(yù)定迭代條件包括以下的任何一個(gè)或多個(gè): 對(duì)源音頻數(shù)據(jù)的劃分的調(diào)整量不小于預(yù)定分段差值;以及 迭代次數(shù)小于預(yù)定迭代次數(shù)閾值。
10.根據(jù)權(quán)利要求2所述的方法,其中,獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列包括: 基于所訓(xùn)練的分段標(biāo)記模型,對(duì)所述目標(biāo)音頻數(shù)據(jù)進(jìn)行Viterbi解碼,以獲得該目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列。
11.根據(jù)權(quán)利要求2至10中任一項(xiàng)所述的方法,其中,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度包括: 確定與目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)相關(guān)的音頻類之間的音頻類距離; 通過將目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列與源音頻數(shù)據(jù)的音頻標(biāo)記序列進(jìn)行比較,基于所確定的音頻類距離來計(jì)算序列匹配得分; 通過計(jì)數(shù)目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)的音頻類序列中各音頻類的個(gè)數(shù),計(jì)算計(jì)數(shù)匹配得分;以及 以各自的加權(quán)值組合所計(jì)算的序列匹配得分和計(jì)數(shù)匹配得分,計(jì)算目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)的匹配度。
12.—種基于模式的音頻檢索系統(tǒng),包括: 標(biāo)記裝置,配置為基于模式對(duì)多個(gè)源音頻數(shù)據(jù)進(jìn)行標(biāo)記,以獲取各源音頻數(shù)據(jù)的音頻標(biāo)記序列; 目標(biāo)獲取裝置,配置為獲取目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列; 匹配度確定裝置,配置為基于所述目標(biāo)獲取裝置獲取的目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列和所述標(biāo)記裝置獲取的各源音頻數(shù)據(jù)的音頻標(biāo)記序列,根據(jù)預(yù)定匹配規(guī)則確定目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)之間的匹配度;以及 檢索輸出裝置,配置為輸出由所述匹配度確定裝置確定的匹配度高于預(yù)定匹配度閾值的源音頻數(shù)據(jù),作為檢索結(jié)果。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中,所述標(biāo)記裝置包括: 劃分裝置,配置為對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分,以獲得多個(gè)分段; 聚類裝置,配置為基于所獲得的多個(gè)分段,利用聚類算法確定每個(gè)源音頻數(shù)據(jù)的音頻類序列; 判決樹構(gòu)建裝置,配置為根據(jù)所述聚類裝置針對(duì)多個(gè)所述源音頻數(shù)據(jù)確定的音頻類序列,基于模式構(gòu)建判決樹; 模型訓(xùn)練裝置,配置為針對(duì)由所述判決樹構(gòu)建裝置構(gòu)建的判決樹上的每個(gè)葉節(jié)點(diǎn),訓(xùn)練分段標(biāo)記模型; 分段調(diào)整裝置,配置為利用由所述模型訓(xùn)練裝置訓(xùn)練的分段標(biāo)記模型,獲得每個(gè)源音頻數(shù)據(jù)的音頻標(biāo)記序列并調(diào)整對(duì)該源音頻數(shù)據(jù)的劃分;以及迭代條件判斷裝置,配置為判斷是否滿足預(yù)定迭代條件。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述劃分裝置通過以下的任何一個(gè)或多個(gè)來對(duì)每個(gè)源音頻數(shù)據(jù)進(jìn)行劃分: 依照源音頻數(shù)據(jù)中的靜音進(jìn)行劃分; 依照預(yù)定時(shí)長(zhǎng)的音頻窗對(duì)源音頻數(shù)據(jù)進(jìn)行劃分;以及 按時(shí)間均勻劃分源音頻數(shù)據(jù)。
15.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述聚類裝置包括: 第一聚類子裝置,配置為利用從所獲得的多個(gè)分段提取的音頻特征來構(gòu)建混合高斯模型(GMM);和 第二聚類子裝置,配置為基于所述第一聚類子裝置構(gòu)建的GMM,利用聚類算法基于特定音頻特征和音頻類距離,確定源音頻數(shù)據(jù)的音頻類序列。
16.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述判決樹構(gòu)建裝置包括: 第一判決樹構(gòu)建子裝置,配置為定義由所述聚類裝置確定的音頻類序列中的音頻類作為判決樹的根節(jié)點(diǎn); 第二判決樹構(gòu)建子裝置,配置為基于被第一判決樹構(gòu)建子裝置定義為根節(jié)點(diǎn)的音頻類在音頻類序列中的上下文,構(gòu)建模式問題集;以及 第三判決樹構(gòu)建子裝置,配置為基于所構(gòu)建的模式問題集,對(duì)所確定的音頻類序列中的音頻類進(jìn)行分支,從而構(gòu)建判決樹的葉節(jié)點(diǎn)。
17.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,所述模型訓(xùn)練裝置包括:配置為針對(duì)判決樹上的每個(gè)葉節(jié)點(diǎn)訓(xùn)練隱馬爾可夫模型(HMM)和持續(xù)時(shí)間模型的裝置。
18.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述分段調(diào)整裝置包括: 第一分段調(diào)整子裝置,配置為利用由所述模型訓(xùn)練裝置訓(xùn)練的分段標(biāo)記模型,確定源音頻數(shù)據(jù)的音頻類距離; 第二分段調(diào)整子裝置,配置為基于所訓(xùn)練的分段標(biāo)記模型,利用從所述源音頻數(shù)據(jù)提取的音頻特征和由所述第一分段調(diào)整子裝置確定的音頻類距離進(jìn)行Viterbi解碼;以及第三分段調(diào)整子裝置,配置為根據(jù)由所述第二分段調(diào)整子裝置獲得的Viterbi解碼結(jié)果,獲得源音頻數(shù)據(jù)的音頻標(biāo)記序列,并調(diào)整對(duì)源音頻數(shù)據(jù)的劃分。
19.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述劃分裝置包括: 語音識(shí)別裝置,配置為確定源音頻數(shù)據(jù)是否為語音數(shù)據(jù);和 劃分執(zhí)行裝置,配置為基于所述語音識(shí)別裝置確定的結(jié)果,對(duì)源音頻數(shù)據(jù)進(jìn)行劃分以獲得多個(gè)分段。
20.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述預(yù)定迭代條件包括以下的任何一個(gè)或多個(gè): 對(duì)源音頻數(shù)據(jù)的劃分的調(diào)整量不小于預(yù)定分段差值;以及 迭代次數(shù)小于預(yù)定迭代次數(shù)閾值。
21.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,所述目標(biāo)獲取裝置包括: 配置為基于所訓(xùn)練的分段標(biāo)記模型,對(duì)所述目標(biāo)音頻數(shù)據(jù)進(jìn)行Viterbi解碼,以獲得該目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列的裝置。
22.根據(jù)權(quán)利要求13至21中任一項(xiàng)所述的系統(tǒng),其中,所述匹配度確定裝置包括: 音頻類相似度確定裝置,配置為確定與目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)相關(guān)的音頻類之間的音頻類距離; 序列比較裝置,配置為通過將目標(biāo)音頻數(shù)據(jù)的音頻標(biāo)記序列與源音頻數(shù)據(jù)的音頻標(biāo)記序列進(jìn)行比較,基于由所述音頻類相似度確定裝置確定的音頻類距離來計(jì)算序列匹配得分; 計(jì)數(shù)比較裝置,配置為通過計(jì)數(shù)目標(biāo)音頻數(shù)據(jù)和源音頻數(shù)據(jù)的音頻類序列中各音頻類的個(gè)數(shù),計(jì)算計(jì)數(shù)匹配得分;以及 匹配度計(jì)算裝置,配置為以各自的加權(quán)值組合由所述序列比較裝置計(jì)算的序列匹配得分和由所述計(jì)數(shù)比較裝置計(jì)算的計(jì)數(shù)匹配得分,計(jì)算目標(biāo)音頻數(shù)據(jù)與源音頻數(shù)據(jù)的匹配度 。
【文檔編號(hào)】G06F17/30GK103853749SQ201210505562
【公開日】2014年6月11日 申請(qǐng)日期:2012年11月30日 優(yōu)先權(quán)日:2012年11月30日
【發(fā)明者】張世磊, 涂旭東, 金鋒, 金琴, 劉 文, 秦勇 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
大荔县| 时尚| 喀喇沁旗| 林州市| 荣成市| 奎屯市| 凤城市| 白银市| 军事| 苏州市| 富裕县| 五家渠市| 镇安县| 沅陵县| 荣成市| 株洲市| 伽师县| 永胜县| 绍兴市| 克山县| 锡林郭勒盟| 栾城县| 丹棱县| 华蓥市| 宜君县| 朝阳区| 南部县| 宁都县| 安陆市| 含山县| 玛纳斯县| 通道| 安徽省| 洪泽县| 蓝山县| 合作市| 栾川县| 新化县| 房产| 南部县| 萨迦县|