一種混合音視頻檢索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種混合音視頻檢索方法及系統(tǒng),方法包括:步驟(1)將任意視頻數(shù)據(jù)分解成視頻序列和音頻序列;步驟(2)針對視頻序列,通過場景分析提取有限場景幀;步驟(3)在有限場景幀上提取特征點組成表征該場景幀的特征矢量;步驟(4)針對音頻序列,通過使用音頻轉文字的算法,將其轉換成和音頻時間軸匹配的文字串;步驟(5)根據(jù)音視頻同步時間軸信息將步驟(3)所述場景幀的特征矢量和步驟(4)所述文字串匹配,作為元數(shù)據(jù)附加在原始視頻數(shù)據(jù)頭文件,開放給上層接口檢索。本發(fā)明提出一種混合音視頻檢索系統(tǒng)。本發(fā)明通過綜合視頻特征提取,音頻轉文字,文字關鍵字自動傳遞,將海量視頻數(shù)據(jù)檢索效率和準確性大大提高。
【專利說明】一種混合音視頻檢索方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及一種視頻文件檢索技術,尤其涉及一種混合音視頻的檢索方法和系統(tǒng)。
【背景技術】
[0002]日前,70%乃至更多的網(wǎng)絡傳輸已被海量的多媒體數(shù)據(jù),特別是視頻數(shù)據(jù)占據(jù)。而這樣的趨勢還在繼續(xù)。這樣的多媒體數(shù)據(jù)包括視頻,音頻,文字,以及它們的聚合體。對于這樣海量的數(shù)據(jù),如何行之有效的檢索是一件非常挑戰(zhàn)的工作。
[0003]目前的檢索系統(tǒng)主要技術包括:
純文字關鍵字檢索:該技術目如最為成熟,通過匹配檢索的關鍵字獲取相關?目息,已被廣泛商用,例如Google, Bing, Baidu等。主要優(yōu)點是快速,技術成熟,但是對于圖形圖像需要定義統(tǒng)一的規(guī)則描述其內(nèi)容,難度較大。
[0004]純圖像檢索:該技術通過模式識別將上傳圖像作為特征矢量尋找數(shù)據(jù)庫中匹配或者近似的圖像。Google或者Baidu已經(jīng)集成了相關的技術給用戶進行圖片匹配檢索。此外,國際標準組織IS0/IEC針對圖片檢索的進行了圖片特征矢量標準化工作,以期通過統(tǒng)一的格式來傳輸檢索圖片特征。主要優(yōu)點是“所見即所得”,無需再通過文字進一步描述,但是檢索效率和準確率都不及文字檢索。
[0005]申請?zhí)枮?00810062073.8的專利申請公開了一種基于音頻內(nèi)容檢索的多媒體資源檢索方法。包括如下步驟:1)預處理服務器將視頻和音頻轉化為標準的待識別語音;2)語音識別服務器將訓練語料訓練成聲學模型,并將待識別語音和聲學模型匹配得到語意文本索引;3)索引服務器存儲和組織關鍵詞索引,并匹配檢索條件得到檢索結果。該發(fā)明利用音頻中關鍵詞檢出技術,獲得了音視頻資源內(nèi)在的語意信息,對文本化的語意信息進行索引,提供了全面可靠的音視頻資源信息索引,可以讓檢索系統(tǒng)更準確的匹配到多媒體資源,并且定位到檢索詞在音視頻中出現(xiàn)的精確位置。
[0006]申請?zhí)枮?01110073050.9的專利申請公開了一種多媒體信息檢索的方法,首先采集音視頻數(shù)據(jù),獲取音頻數(shù)據(jù)的Lattice結果,根據(jù)時間點信息和匹配似然值打分信息,獲得置信度打分信息,采用更強的語音模型對多候選信息進行重新排序,并給出最優(yōu)識別結果,建立前向索引和后向索引,輸入待檢索文本和時間點信息,進入后向索引庫進行查詢,獲得一組前向索引庫的入口位置以及對應的置信度打分信息,分別進行精確匹配,根據(jù)入口個數(shù)和置信度打分信息選擇置信度閾值,返回候選位置列表以及對應的音視頻位置處。采用了該發(fā)明的技術方案,能夠對多媒體信息進行更徹底的標注,能夠更加精細、快捷地索引和定位到感興趣的位置。
[0007]申請?zhí)枮?01110073048.1的專利申請公開了一種多媒體信息模糊檢索方法,首先采集音視頻數(shù)據(jù),獲取音頻數(shù)據(jù)的Lattice結果,根據(jù)時間點信息和匹配似然值打分信息,獲得置信度打分信息,采用更強的語音模型對多候選信息進行重新排序,并給出最優(yōu)識別結果,建立字詞級和音素級索引庫,生成原始信息庫,輸入待檢索文本和時間點信息,轉成音素序列,并利用音素混淆矩陣,獲得類似的音素序列,拆分成多個音素組合,分別進入后向索引庫進行查詢,再進入原始信息庫進行精確匹配,返回候選位置。采用該發(fā)明的技術方案,能夠最大限度地增加檢索到的數(shù)量,并在保證系統(tǒng)性能的前提下,極大提高檢索速度。
[0008]但是上述方案的流程比較復雜,需要消耗較多的系統(tǒng)資源。除去上述方法,現(xiàn)有的流行的檢索系統(tǒng)中還未有結合音頻特征進行檢索的文獻公開。
【發(fā)明內(nèi)容】
[0009]本發(fā)明所要解決的技術問題是針對【背景技術】的缺陷,從多媒體數(shù)據(jù)的內(nèi)在聯(lián)系出發(fā),通過分析視頻,圖像,音頻和相關文字的特征,提出一種高效精確的多媒體檢索方法。
[0010]本發(fā)明為解決上述技術問題采用以下技術方案:
一種混合音視頻檢索方法,包括以下步驟:
步驟(1)、將任意視頻數(shù)據(jù)分解成視頻序列和音頻序列;所述視頻序列和音頻序列中均包含音視頻同步時間軸信息;
步驟(2)、針對視頻序列,通過場景分析提取有限場景幀;
步驟(3)、在有限場景幀上提取特征點組成表征該場景幀的特征矢量;
步驟(4)、針對音頻序列,通過使用音頻轉文字的算法,將其轉換成和音頻時間軸匹配的文字串;
步驟(5)、根據(jù)音視頻同步時間軸信息將步驟(3)所述場景幀的特征矢量和步驟(4)所述文字串匹配,作為元數(shù)據(jù)附加在原始視頻數(shù)據(jù)頭文件,開放給上層接口檢索。
[0011]作為本發(fā)明的一種混合音視頻檢索方法進一步的優(yōu)化方案,步驟(2)中,有限場景幀是使用臨近幀的像素誤差分布進行場景分析提取獲得。
[0012]作為本發(fā)明的一種混合音視頻檢索方法進一步的優(yōu)化方案,步驟(3)中,特征點是使用SIFT算法提取獲得。
[0013]作為本發(fā)明的一種混合音視頻檢索方法進一步的優(yōu)化方案,步驟(4)中,音頻轉文字的算法為TranscribeMe。
[0014]作為本發(fā)明的一種混合音視頻檢索方法進一步的優(yōu)化方案,步驟(5)中,在檢索時,通過直接圖片檢索將圖片生成的特征矢量和頭文件中視頻場景幀的特征矢量匹配,輸出與特征矢量對應的視頻流。
[0015]作為本發(fā)明的一種混合音視頻檢索方法進一步的優(yōu)化方案,步驟(5 )中,在檢索時是通過關鍵字檢索,通過輸入關鍵字在文字串中找到匹配點,然后從匹配點輸出對應的視頻流。
[0016]本發(fā)明為解決上述技術問題還提出一種混合音視頻檢索系統(tǒng),包括:
分解單元,用于將任意視頻數(shù)據(jù)分解成視頻序列和音頻序列;
視頻特征獲取單元,用于對分解出的視頻序列通過場景分析提取有限場景幀,并在有限場景幀上提取特征點組成表征該場景幀的特征矢量;
音頻特征獲取單元,用于通過使用音頻轉文字的算法,將音頻序列轉換成和音頻時間軸匹配的文字串;
匹配單元,根據(jù)音視頻同步時間軸信息將視頻特征獲取單元獲取的特征矢量和音頻特征獲取單元獲取的文字串匹配,作為元數(shù)據(jù)附加在原始視頻數(shù)據(jù)頭文件。
[0017]作為本發(fā)明的一種混合音視頻檢索系統(tǒng)進一步的優(yōu)化方案,還包括一檢索單元,通過直接圖片檢索將圖片生成的特征矢量和頭文件中視頻場景幀的特征矢量匹配,輸出與特征矢量對應的視頻流。
[0018]作為本發(fā)明的一種混合音視頻檢索系統(tǒng)進一步的優(yōu)化方案,還包括一檢索單元,通過輸入關鍵字在文字串中找到匹配點,然后從匹配點輸出對應的視頻流。
[0019]本發(fā)明采用以上技術方案與現(xiàn)有技術相比,具有以下技術效果:
本發(fā)明提出一種新型混合框架,通過綜合視頻特征提取(Video FeatureExtract1n),音頻轉文字(Aud1-to-Text),文字關鍵字定位(Text Keywords Detect1n)等創(chuàng)新技術,將海量視頻數(shù)據(jù)檢索效率和準確性大大提高。
【專利附圖】
【附圖說明】
[0020]圖1是常見網(wǎng)絡視頻數(shù)據(jù)結構圖。
[0021]圖2是音頻文字轉化與時間軸匹配圖。
[0022]圖3是本發(fā)明的方法流程圖。
【具體實施方式】
[0023]下面結合附圖對本發(fā)明的技術方案做進一步的詳細說明:
本【技術領域】技術人員可以理解的是,除非另外定義,這里使用的所有術語(包括技術術語和科學術語)具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。
[0024]如圖1所示,圖1給出了常見的視頻數(shù)據(jù)結構,里面包括視頻圖像序列(VideoFrame Track)和相應的音頻序列(Aud1 Track)。音頻和視頻序列在時間軸上同步,例如圖中虛線框畫出的音視頻同步點在hh小時,mm分鐘和ss秒。
[0025]由于視頻圖像的數(shù)據(jù)量龐大,并且整個視頻理論上總是以有限個場景聚合而成。因此,本發(fā)明將分析視頻圖像序列,提取不同場景的代表幀來獲取圖像特征矢量。圖1中黑色圖像幀為該序列中所提取的場景幀。
[0026]如圖2所示,圖2給出了目前流行的音頻至文字轉換方法,例如TranscribeMe,轉換過程中保持音視頻時間軸對應關系不變。
[0027]本發(fā)明基準點著眼于現(xiàn)有的網(wǎng)絡中豐富的視頻和音頻數(shù)據(jù)。雖然現(xiàn)在可以通過人為的方式對視頻數(shù)據(jù)(例如YouTube)進行關鍵字標注,由于不可估計的龐大數(shù)據(jù)量,明顯這是一個不現(xiàn)實的方案。但是,網(wǎng)絡視頻數(shù)據(jù)通常帶有視頻圖像文件(Video Frame Track)和對應的音頻文件(Aud1 Track)。而視頻圖像和對應的音頻是該視頻數(shù)據(jù)的完備描述。此夕卜,為了利用文字檢索的高效和快速,本發(fā)明將視頻數(shù)據(jù)中音頻文件首先進行文字轉化,按照時間片分割和視頻圖像幀對應。一種方法是通過關鍵字檢索,直接操作音頻轉化后的文字片,精確定位視頻圖像。另外,除去文字檢索的方法,本發(fā)明還可以通過直接輸入圖片,檢索類似或者相同的視頻數(shù)據(jù)。為了達到這樣的目的,本發(fā)明將視頻圖像提取特征,并將特征矢量化。圖像特征矢量表征作為視頻的描述進行檢索定位。
[0028]本發(fā)明主要包括兩大部分:第一部分將網(wǎng)絡視頻數(shù)據(jù)元數(shù)據(jù)提取,包括視頻圖像特征提取,音頻文字片轉換,該部分主要在服務器后代操作;第二部分是前臺客戶端檢索,主要包括文字關鍵字和圖片直接輸入檢索。
[0029]如圖3所示,本發(fā)明具體實現(xiàn)步驟如下:
1、將任意視頻數(shù)據(jù)分解成視頻序列和視頻序列;
2、針對視頻序列,通過場景分析提取有限場景幀,場景幀的分析可以使用臨近幀的像素誤差分布;
3、在有限場景幀上提取特征點組成表征該場景幀的特征矢量,特征點的提取可以使用常用的SIFT算法(也可以使用其他方法,例如SURF);
4、針對音頻序列,通過使用音頻轉文字的算法,例如TranscribeMe(也可以使用其他方法,例如科大訊飛語音識別),將其轉換成和音頻時間軸匹配的文字串。
[0030]5、根據(jù)音視頻同步時間軸信息將特征場景幀矢量和文字串匹配,作為元數(shù)據(jù)附加在原始視頻數(shù)據(jù)頭文件,開放給上層接口檢索。
[0031]在第5步中,可以采用以下兩種方式進行匹配:
A)直接圖片檢索可以將圖片生成的特征矢量和頭文件中視頻場景幀矢量匹配;
B)輸入關鍵字在文字串中找到匹配,然后從匹配點輸出對應的視頻流。
[0032]本發(fā)明還提出一種混合音視頻檢索系統(tǒng),包括:
分解單元,用于將任意視頻數(shù)據(jù)分解成視頻序列和音頻序列;
視頻特征獲取單元,用于對分解出的視頻序列通過場景分析提取有限場景幀,并在有限場景幀上提取特征點組成表征該場景幀的特征矢量;
音頻特征獲取單元,用于通過使用音頻轉文字的算法,將音頻序列轉換成和音頻時間軸匹配的文字串;
匹配單元,根據(jù)音視頻同步時間軸信息將視頻特征獲取單元獲取的特征矢量和音頻特征獲取單元獲取的文字串匹配,作為元數(shù)據(jù)附加在原始視頻數(shù)據(jù)頭文件。
[0033]本發(fā)明的一種混合音視頻檢索系統(tǒng)還包括一檢索單元,通過直接圖片檢索將圖片生成的特征矢量和頭文件中視頻場景幀的特征矢量匹配,輸出與特征矢量對應的視頻流。也可以通過輸入關鍵字在文字串中找到匹配點,然后從匹配點輸出對應的視頻流。
[0034]本【技術領域】技術人員可以理解的是,可以用計算機程序指令來實現(xiàn)這些結構圖和/或框圖和/或流圖中的每個框以及這些結構圖和/或框圖和/或流圖中的框的組合。可以將這些計算機程序指令提供給通用計算機、專業(yè)計算機或其他可編程數(shù)據(jù)處理方法的處理器來生成機器,從而通過計算機或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行的指令創(chuàng)建了用于實現(xiàn)結構圖和/或框圖和/或流圖的框或多個框中指定的方法。
[0035]本【技術領域】技術人員可以理解的是,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進一步地,現(xiàn)有技術中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。
[0036]以上所述僅是本發(fā)明的部分實施方式,應當指出,對于本【技術領域】的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。
【權利要求】
1.一種混合音視頻檢索方法,其特征在于,包括以下步驟: 步驟(I)、將任意視頻數(shù)據(jù)分解成視頻序列和音頻序列;所述視頻序列和音頻序列中均包含音視頻同步時間軸信息; 步驟(2)、針對視頻序列,通過場景分析提取有限場景幀; 步驟(3)、在有限場景幀上提取特征點組成表征該場景幀的特征矢量; 步驟(4)、針對音頻序列,通過使用音頻轉文字的算法,將其轉換成和音頻時間軸匹配的文字串; 步驟(5)、根據(jù)音視頻同步時間軸信息將步驟(3)所述場景幀的特征矢量和步驟(4)所述文字串匹配,作為元數(shù)據(jù)附加在原始視頻數(shù)據(jù)頭文件,開放給上層接口檢索。
2.根據(jù)權利要求1所述的一種混合音視頻檢索方法,其特征在于,步驟(2)中,有限場景幀是使用臨近幀的像素誤差分布進行場景分析提取獲得。
3.根據(jù)權利要求1所述的一種混合音視頻檢索方法,其特征在于,步驟(3)中,特征點是使用SIFT算法提取獲得。
4.根據(jù)權利要求1所述的一種混合音視頻檢索方法,其特征在于,步驟(4)中,音頻轉文字的算法為TranscribeMe。
5.根據(jù)權利要求1所述的一種混合音視頻檢索方法,其特征在于,步驟(5)中,在檢索時,通過直接圖片檢索將圖片生成的特征矢量和頭文件中視頻場景幀的特征矢量匹配,輸出與特征矢量對應的視頻流。
6.根據(jù)權利要求1所述的一種混合音視頻檢索方法,其特征在于,步驟(5)中,在檢索時是通過關鍵字檢索,通過輸入關鍵字在文字串中找到匹配點,然后從匹配點輸出對應的視頻流。
7.一種混合音視頻檢索系統(tǒng),其特征在于,包括: 分解單元,用于將任意視頻數(shù)據(jù)分解成視頻序列和音頻序列; 視頻特征獲取單元,用于對分解出的視頻序列通過場景分析提取有限場景幀,并在有限場景幀上提取特征點組成表征該場景幀的特征矢量; 音頻特征獲取單元,用于通過使用音頻轉文字的算法,將音頻序列轉換成和音頻時間軸匹配的文字串; 匹配單元,根據(jù)音視頻同步時間軸信息將視頻特征獲取單元獲取的特征矢量和音頻特征獲取單元獲取的文字串匹配,作為元數(shù)據(jù)附加在原始視頻數(shù)據(jù)頭文件。
8.根據(jù)權利要求7所述的一種混合音視頻檢索系統(tǒng),其特征在于,還包括一檢索單元,通過直接圖片檢索將圖片生成的特征矢量和頭文件中視頻場景幀的特征矢量匹配,輸出與特征矢量對應的視頻流。
9.根據(jù)權利要求7所述的一種混合音視頻檢索系統(tǒng),其特征在于,還包括一檢索單元,通過輸入關鍵字在文字串中找到匹配點,然后從匹配點輸出對應的視頻流。
【文檔編號】G06F17/30GK104391924SQ201410668366
【公開日】2015年3月4日 申請日期:2014年11月21日 優(yōu)先權日:2014年11月21日
【發(fā)明者】馬展, 田海 申請人:南京訊思雅信息科技有限公司