專利名稱:一種多媒體信息模糊檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體技術(shù)領(lǐng)域,尤其涉及一種多媒體信息模糊檢索方法。
背景技術(shù):
伴隨信息時代的發(fā)展、多媒體資料的增多,新聞廣播節(jié)目日益呈現(xiàn)海量化的規(guī)模。 相對比傳統(tǒng)的報紙、雜志、書籍等文本信息,以及先進(jìn)的互聯(lián)網(wǎng)的豐富文本信息,音視頻數(shù) 據(jù)等多媒體資料具有更加豐富、生動的展現(xiàn)形式,也更有利于人們輕松地接受。但是,由于 多媒體資料的多和雜,如何便捷的獲取感興趣的內(nèi)容成為一個亟待解決的課題。通常做的 方法是,用人工對這些資料進(jìn)行信息提取,這樣做很費(fèi)時費(fèi)力,因此近年來涌現(xiàn)了很多基于 人工智能的技術(shù)來應(yīng)用于該領(lǐng)域,其中最熱門的就是語音識別技術(shù)。語音識別技術(shù)是一種 語音到文本的轉(zhuǎn)換技術(shù),而變成了文本之后,就可以利用搜索技術(shù)進(jìn)行全方位的索引和檢 索。然而,語音識別技術(shù)并不是一個完全可靠的技術(shù),針對其中的識別錯誤進(jìn)行彌補(bǔ) 來修正檢索技術(shù),是非常有必要的。隨著自動語音識別技術(shù)的實(shí)用化和開源化,很多公司著 手買入或者搭建適合自己領(lǐng)域和需求的自動語音識別系統(tǒng)。利用語音識別技術(shù)對音視頻資 料中的文本進(jìn)行識別,就可以獲得該段資料中的文本信息,把這些文本信息輸入到數(shù)據(jù)庫 中,就可以方便的進(jìn)行檢索。常規(guī)的語音識別技術(shù)只能給出識別的最終漢字信息,一方面在具體索引詞的定位 精度上需要人工的判斷、費(fèi)時費(fèi)力,另一方面受到語音識別性能的限制,索引和搜索的準(zhǔn)確 率也是很難控制的。例如某處北京被識別成了“畢竟”,那么當(dāng)用戶向搜索“北京”時就找不 到這里了。有時候,“北京”可能被發(fā)成“北津”或者“北驚”,也是無法找到的。因此,傳統(tǒng) 的基于文本搜索的技術(shù),性能將會受到語音識別的影響。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種多媒體信息模糊檢索方法,能夠最大限度地增加檢索 到的數(shù)量,并在保證系統(tǒng)性能的前提下,極大提高檢索速度。為達(dá)此目的,本發(fā)明采用以下技術(shù)方案 一種多媒體信息模糊檢索方法,包括以下步驟
A、采集音視頻數(shù)據(jù);
B、獲取音頻數(shù)據(jù)的Lattice結(jié)果,包括時間點(diǎn)信息和匹配似然值打分信息,并轉(zhuǎn)成多 候選信息;
C、根據(jù)時間點(diǎn)信息和匹配似然值打分信息,獲得置信度打分信息;
D、采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序,并給出最優(yōu)識別結(jié)果;
E、采用多候選信息、時間點(diǎn)信息和置信度打分信息建立字詞級和音素級索引庫,構(gòu)成 后向索引庫,并將原始信息進(jìn)行編碼生成原始信息庫;
F、輸入待檢索文本和時間點(diǎn)信息,將待檢索文本轉(zhuǎn)成音素序列,并利用音素混淆矩陣,獲得類似的音素序列,拆分成不少于1個音素組合;
G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢,獲得一組原始信息庫的入口位置以及 對應(yīng)的置信度打分信息,按照置信度打分信息高低依次返回;
H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配,根據(jù)入口個數(shù)和置信度打分信息選擇置信度 閾值,返回大于置信度閾值的候選位置。步驟A還包括以下步驟
將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式,采樣率為16千赫。步驟A中,采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù);采用收音機(jī)和 聲卡的方式采集廣播信號中的音頻數(shù)據(jù)。步驟F中,根據(jù)字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。采用了本發(fā)明的技術(shù)方案,針對可能出現(xiàn)的語音識別錯誤類型,利用其在音素級 別的相似性,并通過音素混淆矩陣引入的模糊化,能夠最大限度的增加檢索到的數(shù)量,同時 針對音素級別重復(fù)率高的問題,引入多個音素組合建索引的方式,在保證系統(tǒng)性能的前提 下,大大提高了檢索速度。
圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過具體實(shí)施方式
來進(jìn)一步說明本發(fā)明的技術(shù)方案。圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。如圖1所示,該多 媒體信息檢索流程包括以下步驟
步驟101、采集音視頻數(shù)據(jù)。采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù), 采用收音機(jī)和聲卡的方式采集廣播信號中的音頻數(shù)據(jù),然后將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式(pcm無壓縮),采樣率為16千赫。由于電視卡以及聲卡錄制的格式是確定的,只需要針對特定格式進(jìn)行編程轉(zhuǎn)碼即可。步驟102、獲取音頻數(shù)據(jù)的Lattice結(jié)果,包括時間點(diǎn)信息、靜音信息和匹配似然 值打分信息,并轉(zhuǎn)成多候選信息。和通常的識別結(jié)果不同,本具體實(shí)施方式
的識別結(jié)果并不是常規(guī)意義上的最優(yōu)結(jié) 果(又稱Ι-Best),而是語音識別中保留的較豐富的解碼路徑,又稱Lattice格式結(jié)果。該格 式的主要特點(diǎn)是含有豐富的時間點(diǎn)和靜音信息、以及匹配似然值打分信息,并可以轉(zhuǎn)成逐 詞多候選信息,或者稱為混淆網(wǎng)絡(luò),以及最優(yōu)結(jié)果,混淆網(wǎng)絡(luò)上可以得到比最優(yōu)識別結(jié)果更 好的性能。步驟103、根據(jù)時間點(diǎn)信息和匹配似然值打分信息,計(jì)算得到評估識別效果的打 分,也稱置信度打分信息。步驟104、采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序,并給出最優(yōu)識別結(jié)果。步驟105、采用多候選信息、時間點(diǎn)信息和置信度打分信息建立字詞級和音素級索引庫,構(gòu)成后向索引庫,并將原始信息進(jìn)行編碼生成原始信息庫。在本步驟中,根據(jù)搜索引擎的原理,利用以上步驟得到的多重信息,對基本的索引 級別進(jìn)行索引。這里用到兩層索引級別,分別是字詞級和音素集,其中音素可以簡單的理解 為聲母或者韻母。這種做法在搜索引擎中也是很少用到的,之所以增加了音素級的索引,主 要是因?yàn)檎Z音識別可能出現(xiàn)識別錯誤,同時這些識別錯誤和正確文本之間又有一定的相關(guān) 性,例如音素還是比較相似的,根據(jù)常見的識別錯誤訓(xùn)練了音素混淆矩陣,因此有了音素級 的索引,就可以利用音素混淆矩陣了。同時考慮到音素的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高于單字,可以導(dǎo)致 大量的候選結(jié)果而降低搜索效率,因此采用了多個音素組合的索引方法,可以在保證搜索 質(zhì)量的前提下,大大提高搜索效率。兩層索引構(gòu)成了后向索引庫,它包含了時間點(diǎn)和置信度 信息,同時把原始信息進(jìn)行有效的編碼壓縮生成原始信息庫。步驟106、輸入待檢索文本和時間點(diǎn)信息,根據(jù)字轉(zhuǎn)音方式 (Grapheme-to-Phoneme, G2P)將待檢索文本轉(zhuǎn)成音素序列,并利用音素混淆矩陣,獲得類 似的音素序列,拆分成多個音素組合。步驟107、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢,獲得一組原始信息庫的入 口位置以及對應(yīng)的置信度打分信息,按照置信度打分信息高低依次返回。步驟108、分別進(jìn)入到原始信息庫進(jìn)行精確匹配,根據(jù)入口個數(shù)和置信度打分信息 選擇置信度閾值,返回大于置信度閾值的候選位置,供用戶瀏覽,完成一次檢索。通過本具體實(shí)施方式
,可以對多媒體信息進(jìn)行更徹底的標(biāo)注和建庫,后期查詢能 更加精細(xì)、快捷地索引和定位到感興趣的位置。利用音素級別的索引,可以大大增加查找到 的多媒體信息,利用置信度信息,可以過濾掉識別不是很好的多媒體信息,以上兩個技術(shù)都 可以有效地回避因?yàn)檎Z音識別的錯誤帶來的檢索錯誤。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋 在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種多媒體信息模糊檢索方法,其特征在于,包括以下步驟A、采集音視頻數(shù)據(jù);B、獲取音頻數(shù)據(jù)的Lattice結(jié)果,包括時間點(diǎn)信息和匹配似然值打分信息,并轉(zhuǎn)成多 候選信息;C、根據(jù)時間點(diǎn)信息和匹配似然值打分信息,獲得置信度打分信息;D、采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序,并給出最優(yōu)識別結(jié)果;E、采用多候選信息、時間點(diǎn)信息和置信度打分信息建立字詞級和音素級索引庫,構(gòu)成 后向索引庫,并將多媒體數(shù)據(jù)進(jìn)行編碼生成多媒體數(shù)據(jù)庫;F、輸入待檢索文本和時間點(diǎn)信息,將待檢索文本轉(zhuǎn)成音素序列,并利用音素混淆矩陣, 獲得類似的音素序列,拆分成不少于1個音素組合;G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢,獲得一組原始信息庫的入口位置以及 對應(yīng)的置信度打分信息,按照置信度打分信息高低依次返回;H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配,根據(jù)入口個數(shù)和置信度打分信息選擇置信度 閾值,返回大于置信度閾值的候選位置。
2.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法,其特征在于,步驟A還包括以 下步驟將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式,采樣率為16千赫。
3.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法,其特征在于,步驟A中,采用 電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù);采用收音機(jī)和聲卡的方式采集廣播信號 中的音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法,其特征在于,步驟F中,根據(jù) 字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。
全文摘要
本發(fā)明公開了一種多媒體信息模糊檢索方法,首先采集音視頻數(shù)據(jù),獲取音頻數(shù)據(jù)的Lattice結(jié)果,根據(jù)時間點(diǎn)信息和匹配似然值打分信息,獲得置信度打分信息,采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序,并給出最優(yōu)識別結(jié)果,建立字詞級和音素級索引庫,生成原始信息庫,輸入待檢索文本和時間點(diǎn)信息,轉(zhuǎn)成音素序列,并利用音素混淆矩陣,獲得類似的音素序列,拆分成多個音素組合,分別進(jìn)入后向索引庫進(jìn)行查詢,再進(jìn)入原始信息庫進(jìn)行精確匹配,返回候選位置。采用了本發(fā)明的技術(shù)方案,能夠最大限度地增加檢索到的數(shù)量,并在保證系統(tǒng)性能的前提下,極大提高檢索速度。
文檔編號G06F17/30GK102136001SQ201110073048
公開日2011年7月27日 申請日期2011年3月25日 優(yōu)先權(quán)日2011年3月25日
發(fā)明者伍昕, 劉趙杰, 吳鵬 申請人:天脈聚源(北京)傳媒科技有限公司