一種多媒體信息模糊檢索方法

文檔序號：6356780閱讀：178來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種多媒體信息模糊檢索方法
技術(shù)領(lǐng)域：
本發(fā)明涉及多媒體技術(shù)領(lǐng)域，尤其涉及一種多媒體信息模糊檢索方法。
背景技術(shù)：
伴隨信息時代的發(fā)展、多媒體資料的增多，新聞廣播節(jié)目日益呈現(xiàn)海量化的規(guī)模。相對比傳統(tǒng)的報紙、雜志、書籍等文本信息，以及先進(jìn)的互聯(lián)網(wǎng)的豐富文本信息，音視頻數(shù) 據(jù)等多媒體資料具有更加豐富、生動的展現(xiàn)形式，也更有利于人們輕松地接受。但是，由于多媒體資料的多和雜，如何便捷的獲取感興趣的內(nèi)容成為一個亟待解決的課題。通常做的方法是，用人工對這些資料進(jìn)行信息提取，這樣做很費(fèi)時費(fèi)力，因此近年來涌現(xiàn)了很多基于人工智能的技術(shù)來應(yīng)用于該領(lǐng)域，其中最熱門的就是語音識別技術(shù)。語音識別技術(shù)是一種語音到文本的轉(zhuǎn)換技術(shù)，而變成了文本之后，就可以利用搜索技術(shù)進(jìn)行全方位的索引和檢索。然而，語音識別技術(shù)并不是一個完全可靠的技術(shù)，針對其中的識別錯誤進(jìn)行彌補(bǔ) 來修正檢索技術(shù)，是非常有必要的。隨著自動語音識別技術(shù)的實(shí)用化和開源化，很多公司著手買入或者搭建適合自己領(lǐng)域和需求的自動語音識別系統(tǒng)。利用語音識別技術(shù)對音視頻資料中的文本進(jìn)行識別，就可以獲得該段資料中的文本信息，把這些文本信息輸入到數(shù)據(jù)庫中，就可以方便的進(jìn)行檢索。常規(guī)的語音識別技術(shù)只能給出識別的最終漢字信息，一方面在具體索引詞的定位精度上需要人工的判斷、費(fèi)時費(fèi)力，另一方面受到語音識別性能的限制，索引和搜索的準(zhǔn)確率也是很難控制的。例如某處北京被識別成了“畢竟”，那么當(dāng)用戶向搜索“北京”時就找不到這里了。有時候，“北京”可能被發(fā)成“北津”或者“北驚”，也是無法找到的。因此，傳統(tǒng) 的基于文本搜索的技術(shù)，性能將會受到語音識別的影響。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種多媒體信息模糊檢索方法，能夠最大限度地增加檢索到的數(shù)量，并在保證系統(tǒng)性能的前提下，極大提高檢索速度。為達(dá)此目的，本發(fā)明采用以下技術(shù)方案一種多媒體信息模糊檢索方法，包括以下步驟
A、采集音視頻數(shù)據(jù)；
B、獲取音頻數(shù)據(jù)的Lattice結(jié)果，包括時間點(diǎn)信息和匹配似然值打分信息，并轉(zhuǎn)成多候選信息；
C、根據(jù)時間點(diǎn)信息和匹配似然值打分信息，獲得置信度打分信息；
D、采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序，并給出最優(yōu)識別結(jié)果；
E、采用多候選信息、時間點(diǎn)信息和置信度打分信息建立字詞級和音素級索引庫，構(gòu)成后向索引庫，并將原始信息進(jìn)行編碼生成原始信息庫；
F、輸入待檢索文本和時間點(diǎn)信息，將待檢索文本轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成不少于1個音素組合；
G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢，獲得一組原始信息庫的入口位置以及對應(yīng)的置信度打分信息，按照置信度打分信息高低依次返回；
H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配，根據(jù)入口個數(shù)和置信度打分信息選擇置信度閾值，返回大于置信度閾值的候選位置。步驟A還包括以下步驟
將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式，采樣率為16千赫。步驟A中，采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)；采用收音機(jī)和聲卡的方式采集廣播信號中的音頻數(shù)據(jù)。步驟F中，根據(jù)字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。采用了本發(fā)明的技術(shù)方案，針對可能出現(xiàn)的語音識別錯誤類型，利用其在音素級別的相似性，并通過音素混淆矩陣引入的模糊化，能夠最大限度的增加檢索到的數(shù)量，同時針對音素級別重復(fù)率高的問題，引入多個音素組合建索引的方式，在保證系統(tǒng)性能的前提下，大大提高了檢索速度。

圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過具體實(shí)施方式
來進(jìn)一步說明本發(fā)明的技術(shù)方案。圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。如圖1所示，該多媒體信息檢索流程包括以下步驟
步驟101、采集音視頻數(shù)據(jù)。采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)，采用收音機(jī)和聲卡的方式采集廣播信號中的音頻數(shù)據(jù)，然后將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式(pcm無壓縮)，采樣率為16千赫。由于電視卡以及聲卡錄制的格式是確定的，只需要針對特定格式進(jìn)行編程轉(zhuǎn)碼即可。步驟102、獲取音頻數(shù)據(jù)的Lattice結(jié)果，包括時間點(diǎn)信息、靜音信息和匹配似然值打分信息，并轉(zhuǎn)成多候選信息。和通常的識別結(jié)果不同，本具體實(shí)施方式
的識別結(jié)果并不是常規(guī)意義上的最優(yōu)結(jié) 果(又稱Ι-Best)，而是語音識別中保留的較豐富的解碼路徑，又稱Lattice格式結(jié)果。該格式的主要特點(diǎn)是含有豐富的時間點(diǎn)和靜音信息、以及匹配似然值打分信息，并可以轉(zhuǎn)成逐詞多候選信息，或者稱為混淆網(wǎng)絡(luò)，以及最優(yōu)結(jié)果，混淆網(wǎng)絡(luò)上可以得到比最優(yōu)識別結(jié)果更好的性能。步驟103、根據(jù)時間點(diǎn)信息和匹配似然值打分信息，計(jì)算得到評估識別效果的打分，也稱置信度打分信息。步驟104、采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序，并給出最優(yōu)識別結(jié)果。步驟105、采用多候選信息、時間點(diǎn)信息和置信度打分信息建立字詞級和音素級索引庫，構(gòu)成后向索引庫，并將原始信息進(jìn)行編碼生成原始信息庫。在本步驟中，根據(jù)搜索引擎的原理，利用以上步驟得到的多重信息，對基本的索引級別進(jìn)行索引。這里用到兩層索引級別，分別是字詞級和音素集，其中音素可以簡單的理解為聲母或者韻母。這種做法在搜索引擎中也是很少用到的，之所以增加了音素級的索引，主要是因?yàn)檎Z音識別可能出現(xiàn)識別錯誤，同時這些識別錯誤和正確文本之間又有一定的相關(guān) 性，例如音素還是比較相似的，根據(jù)常見的識別錯誤訓(xùn)練了音素混淆矩陣，因此有了音素級的索引，就可以利用音素混淆矩陣了。同時考慮到音素的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高于單字，可以導(dǎo)致大量的候選結(jié)果而降低搜索效率，因此采用了多個音素組合的索引方法，可以在保證搜索質(zhì)量的前提下，大大提高搜索效率。兩層索引構(gòu)成了后向索引庫，它包含了時間點(diǎn)和置信度信息，同時把原始信息進(jìn)行有效的編碼壓縮生成原始信息庫。步驟106、輸入待檢索文本和時間點(diǎn)信息，根據(jù)字轉(zhuǎn)音方式 (Grapheme-to-Phoneme, G2P)將待檢索文本轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成多個音素組合。步驟107、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢，獲得一組原始信息庫的入口位置以及對應(yīng)的置信度打分信息，按照置信度打分信息高低依次返回。步驟108、分別進(jìn)入到原始信息庫進(jìn)行精確匹配，根據(jù)入口個數(shù)和置信度打分信息選擇置信度閾值，返回大于置信度閾值的候選位置，供用戶瀏覽，完成一次檢索。通過本具體實(shí)施方式
，可以對多媒體信息進(jìn)行更徹底的標(biāo)注和建庫，后期查詢能更加精細(xì)、快捷地索引和定位到感興趣的位置。利用音素級別的索引，可以大大增加查找到的多媒體信息，利用置信度信息，可以過濾掉識別不是很好的多媒體信息，以上兩個技術(shù)都可以有效地回避因?yàn)檎Z音識別的錯誤帶來的檢索錯誤。以上所述，僅為本發(fā)明較佳的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種多媒體信息模糊檢索方法，其特征在于，包括以下步驟A、采集音視頻數(shù)據(jù)；B、獲取音頻數(shù)據(jù)的Lattice結(jié)果，包括時間點(diǎn)信息和匹配似然值打分信息，并轉(zhuǎn)成多候選信息；C、根據(jù)時間點(diǎn)信息和匹配似然值打分信息，獲得置信度打分信息；D、采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序，并給出最優(yōu)識別結(jié)果；E、采用多候選信息、時間點(diǎn)信息和置信度打分信息建立字詞級和音素級索引庫，構(gòu)成后向索引庫，并將多媒體數(shù)據(jù)進(jìn)行編碼生成多媒體數(shù)據(jù)庫；F、輸入待檢索文本和時間點(diǎn)信息，將待檢索文本轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成不少于1個音素組合；G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢，獲得一組原始信息庫的入口位置以及對應(yīng)的置信度打分信息，按照置信度打分信息高低依次返回；H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配，根據(jù)入口個數(shù)和置信度打分信息選擇置信度閾值，返回大于置信度閾值的候選位置。
2.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法，其特征在于，步驟A還包括以下步驟將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式，采樣率為16千赫。
3.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法，其特征在于，步驟A中，采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)；采用收音機(jī)和聲卡的方式采集廣播信號中的音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法，其特征在于，步驟F中，根據(jù) 字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。
全文摘要
本發(fā)明公開了一種多媒體信息模糊檢索方法，首先采集音視頻數(shù)據(jù)，獲取音頻數(shù)據(jù)的Lattice結(jié)果，根據(jù)時間點(diǎn)信息和匹配似然值打分信息，獲得置信度打分信息，采用更強(qiáng)的語音模型對多候選信息進(jìn)行重新排序，并給出最優(yōu)識別結(jié)果，建立字詞級和音素級索引庫，生成原始信息庫，輸入待檢索文本和時間點(diǎn)信息，轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成多個音素組合，分別進(jìn)入后向索引庫進(jìn)行查詢，再進(jìn)入原始信息庫進(jìn)行精確匹配，返回候選位置。采用了本發(fā)明的技術(shù)方案，能夠最大限度地增加檢索到的數(shù)量，并在保證系統(tǒng)性能的前提下，極大提高檢索速度。
文檔編號G06F17/30GK102136001SQ201110073048
公開日2011年7月27日申請日期2011年3月25日優(yōu)先權(quán)日2011年3月25日
發(fā)明者伍昕, 劉趙杰, 吳鵬申請人:天脈聚源(北京)傳媒科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：伍昕;吳鵬;劉趙杰
技術(shù)所有人：天脈聚源(北京)傳媒科技有限公司
我是此專利的發(fā)明人

上一篇：一種多媒體信息檢索的方法
上一篇：人臉遮擋物識別方法及其裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

多媒體信息檢索相關(guān)技術(shù)

多媒體信息檢索技術(shù)相關(guān)技術(shù)

多媒體檢索相關(guān)技術(shù)

基于內(nèi)容的多媒體檢索相關(guān)技術(shù)

多媒體檢索技術(shù)包括相關(guān)技術(shù)

多媒體檢索技術(shù)相關(guān)技術(shù)

模糊檢索相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多媒體信息模糊檢索方法