本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一視頻文本跨模態(tài)檢索方法及裝置。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,視頻成為了信息傳播的主要載體之一。視頻內(nèi)容的爆炸式增長,使得常規(guī)檢索已不能滿足人們?nèi)找孀兓乃阉餍枨?。因此,視頻-文本跨模態(tài)檢索應(yīng)運(yùn)而生。目前跨模態(tài)檢索的方法主要有三種:基于跨模態(tài)特征向量匹配的檢索方法、基于注意力機(jī)制的跨模態(tài)交互檢索方法以及基于視覺和文本特征的對齊融合檢索方法。
2、然而,在目前跨模態(tài)檢索方法中,基于跨模態(tài)特征向量匹配的檢索方法存在以下問題:傳統(tǒng)的視頻-文本跨模態(tài)檢索方法視覺模態(tài)具備圖像模態(tài)所不具備的時(shí)空特性,往往忽略或關(guān)注不夠,限制了對視頻模態(tài)信息的挖掘,進(jìn)而影響提取準(zhǔn)確率;提取過程過度關(guān)注全局特征,忽略了局部細(xì)節(jié),導(dǎo)致檢索準(zhǔn)確率不高?;谧⒁饬C(jī)制的跨模態(tài)交互檢索方法存在以下問題:主要采用單一規(guī)模,低分辨率的視覺與文本特征間的注意力機(jī)制互動模型,在提取特征時(shí),缺乏細(xì)粒度特征交互,導(dǎo)致處理效率低,且精度不足;可能產(chǎn)生噪聲干擾,對檢索性能造成負(fù)面影響,同時(shí)增加計(jì)算成本?;谝曈X和文本特征的對齊融合檢索方法存在以下問題:對細(xì)粒度區(qū)域視覺信息的利用不足,導(dǎo)致匹配精度降低;在融合視頻-文本跨模態(tài)中,不同模態(tài)間的糾纏機(jī)制相比注意力機(jī)制跨模態(tài)交互檢索更為復(fù)雜;使用圖卷積網(wǎng)絡(luò)(graph?convolutional?network,gcn)在構(gòu)建完整時(shí)空關(guān)系圖時(shí)計(jì)算成本過高,效率較低。
3、因此,亟需一種跨模態(tài)檢索方法,以解決現(xiàn)階段進(jìn)行跨模態(tài)檢索時(shí)準(zhǔn)確率低、效率低以及成本高的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供了一種視頻文本跨模態(tài)檢索方法及裝置,以解決現(xiàn)階段進(jìn)行跨模態(tài)檢索時(shí)準(zhǔn)確率低、效率低以及成本高的問題。
2、第一方面,本發(fā)明實(shí)施例提供了一種視頻文本跨模態(tài)檢索方法,包括:
3、獲取目標(biāo)數(shù)據(jù)集中的原始數(shù)據(jù);其中,原始數(shù)據(jù)中包括視頻數(shù)據(jù)及其對應(yīng)的文本數(shù)據(jù);
4、對原始數(shù)據(jù)進(jìn)行預(yù)處理,得到多模態(tài)特征嵌入向量;
5、對多模態(tài)特征嵌入向量進(jìn)行特征提取,得到視頻特征和文本特征;其中,視頻特征包括視頻全局特征和視頻局部特征;
6、分別對視頻全局特征、視頻局部特征和文本特征進(jìn)行嵌入學(xué)習(xí),得到視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間;
7、基于視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間進(jìn)行視頻文本跨模態(tài)檢索。
8、在一種可能的實(shí)現(xiàn)方式中,對視頻局部特征進(jìn)行嵌入學(xué)習(xí),得到視頻局部關(guān)系嵌入空間,包括:
9、將視頻局部特征中任意一幀中檢測置信度最高的候選區(qū)域作為該幀的視覺表征;
10、基于視覺表征,對視頻局部特征每一幀內(nèi)部包含的實(shí)體間的數(shù)據(jù)流進(jìn)行處理;
11、基于視覺表征,對視頻局部特征每一幀之間的數(shù)據(jù)流進(jìn)行處理;
12、根據(jù)處理后的視頻局部特征每一幀內(nèi)部包含的實(shí)體間的數(shù)據(jù)流和視頻局部特征每一幀之間的數(shù)據(jù)流,得到視頻局部關(guān)系嵌入空間。
13、在一種可能的實(shí)現(xiàn)方式中,基于視覺表征,對視頻局部特征每一幀內(nèi)部包含的實(shí)體間的數(shù)據(jù)流進(jìn)行處理,包括:
14、針對跨模態(tài)跳躍連接網(wǎng)絡(luò)中的每個跳躍連接融合模塊,執(zhí)行以下步驟:
15、將文本表征輸入到任意一個跳躍連接融合模塊中的自注意力層中,得到經(jīng)過自注意力層后的文本表征;其中,文本表征基于文本數(shù)據(jù)確定;
16、將視頻局部特征中用于表征每一幀內(nèi)部包含的實(shí)體間的數(shù)據(jù)流的視覺表征與經(jīng)過自注意力層后的文本特征進(jìn)行融合,得到融合后的第一表征;
17、將融合后的第一表征通過該跳躍連接融合模塊中的前饋網(wǎng)絡(luò),得到帶視覺模態(tài)注意力的第一文本表征;
18、將帶視覺模態(tài)注意力的第一文本表征和視頻局部特征中用于表征每一幀內(nèi)部包含的實(shí)體間的數(shù)據(jù)流的視覺表征輸入到該跳躍連接融合模塊中的跨模態(tài)連接注意力模塊,得到該跳躍連接融合模塊對應(yīng)的第一多模態(tài)表征;
19、在得到跨模態(tài)跳躍連接網(wǎng)絡(luò)中的每個跳躍連接融合模塊對應(yīng)的第一多模態(tài)表征之后,將各第一多模態(tài)表征進(jìn)行殘差連接,以確定視頻局部特征中每一幀與視頻局部特征整體之間的關(guān)聯(lián)關(guān)系。
20、在一種可能的實(shí)現(xiàn)方式中,基于視覺表征,對視頻局部特征每一幀之間的數(shù)據(jù)流進(jìn)行處理,包括:
21、針對跨模態(tài)跳躍連接網(wǎng)絡(luò)中的每個跳躍連接融合模塊,執(zhí)行以下步驟:
22、在幀級別的空間上,將文本表征輸入到任意一個跳躍連接融合模塊中的自注意力層中,得到經(jīng)過自注意力層后的文本表征;
23、將視頻局部特征中用于表征每一幀的視覺表征與經(jīng)過自注意力層后的文本特征進(jìn)行融合,得到融合后的第二表征;
24、將融合后的第二表征通過該跳躍連接融合模塊中的前饋網(wǎng)絡(luò),得到帶視覺模態(tài)注意力的第二文本表征;
25、將帶視覺模態(tài)注意力的第二文本表征和視頻局部特征中用于表征每一幀的視覺表征輸入到該跳躍連接融合模塊中的跨模態(tài)連接注意力模塊,得到該跳躍連接融合模塊對應(yīng)的第二多模態(tài)表征;
26、在得到跨模態(tài)跳躍連接網(wǎng)絡(luò)中的每個跳躍連接融合模塊對應(yīng)的第二多模態(tài)表征之后,將各第二多模態(tài)表征進(jìn)行殘差連接,以得到包括時(shí)空信息的視頻局部關(guān)系信息。
27、在一種可能的實(shí)現(xiàn)方式中,根據(jù)處理后的視頻局部特征每一幀內(nèi)部包含的實(shí)體間的數(shù)據(jù)流和視頻局部特征每一幀之間的數(shù)據(jù)流,得到視頻局部關(guān)系嵌入空間,包括:
28、將視頻局部特征中每一幀與視頻局部特征整體之間的關(guān)聯(lián)關(guān)系,和包括時(shí)空信息的視頻局部關(guān)系信息進(jìn)行特征聚合,得到視頻局部關(guān)系嵌入空間。
29、在一種可能的實(shí)現(xiàn)方式中,基于視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間進(jìn)行視頻文本跨模態(tài)檢索,包括:
30、將視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間映射至聯(lián)合嵌入空間中進(jìn)行聯(lián)合嵌入學(xué)習(xí),得到經(jīng)過聯(lián)合嵌入學(xué)習(xí)后的視覺-文本跨模態(tài)特征;
31、將經(jīng)過聯(lián)合嵌入學(xué)習(xí)后的視覺-文本跨模態(tài)特征通過跨模態(tài)編碼器,將跨模態(tài)編碼器的輸出結(jié)果,用于視頻文本跨模態(tài)檢索。
32、在一種可能的實(shí)現(xiàn)方式中,將視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間映射至聯(lián)合嵌入空間中進(jìn)行聯(lián)合嵌入學(xué)習(xí),得到經(jīng)過聯(lián)合嵌入學(xué)習(xí)后的視覺-文本跨模態(tài)特征,包括:
33、在聯(lián)合嵌入空間中,基于視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間得到全局視頻-文本和局部關(guān)系-文本,計(jì)算全局視頻-文本和局部關(guān)系-文本之間的余弦相似度、計(jì)算鉸鏈基礎(chǔ)的三元排名損失,并基于超參數(shù)的平衡優(yōu)化余弦相似度的度量。
34、在一種可能的實(shí)現(xiàn)方式中,對原始數(shù)據(jù)進(jìn)行預(yù)處理,得到多模態(tài)特征嵌入向量,包括:
35、提取視頻數(shù)據(jù)的關(guān)鍵幀;
36、將關(guān)鍵幀及其對應(yīng)的文本數(shù)據(jù)輸入到預(yù)訓(xùn)練模型中,得到多模態(tài)特征嵌入向量。
37、在一種可能的實(shí)現(xiàn)方式中,對多模態(tài)特征嵌入向量進(jìn)行特征提取,得到視頻特征和文本特征,包括:
38、將多模態(tài)特征嵌入向量分別通過二維卷積神經(jīng)網(wǎng)絡(luò)和三維卷積神經(jīng)網(wǎng)絡(luò),得到視頻數(shù)據(jù)中的2d外貌和3d動作特征;
39、將2d外貌和3d動作特征結(jié)合,得到視頻全局特征;
40、對多模態(tài)特征嵌入向量進(jìn)行詞性提取,并基于詞性提取結(jié)果生成其對應(yīng)的語義關(guān)系圖,基于語義關(guān)系圖得到視頻局部特征;
41、對多模態(tài)特征嵌入向量采用等級化圖形提取和文本詞性提取,基于等級化圖形提取結(jié)果和文本詞性提取結(jié)果,得到文本特征。
42、第二方面,本發(fā)明實(shí)施例提供了一種視頻文本跨模態(tài)檢索裝置,包括:
43、采集模塊,用于獲取目標(biāo)數(shù)據(jù)集中的原始數(shù)據(jù);其中,原始數(shù)據(jù)中包括視頻數(shù)據(jù)及其對應(yīng)的文本數(shù)據(jù);
44、預(yù)處理模塊,用于對原始數(shù)據(jù)進(jìn)行預(yù)處理,得到多模態(tài)特征嵌入向量;
45、提取模塊,用于對多模態(tài)特征嵌入向量進(jìn)行特征提取,得到視頻特征和文本特征;其中,視頻特征包括視頻全局特征和視頻局部特征;
46、學(xué)習(xí)模塊,用于分別對視頻全局特征、視頻局部特征和文本特征進(jìn)行嵌入學(xué)習(xí),得到視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間;
47、檢索模塊,用于基于視頻嵌入空間、視頻局部關(guān)系嵌入空間和文本嵌入空間進(jìn)行視頻文本跨模態(tài)檢索。
48、本發(fā)明實(shí)施例提供一種視頻文本跨模態(tài)檢索方法及裝置,相比于傳統(tǒng)方法,本發(fā)明實(shí)施例通過對原始數(shù)據(jù)進(jìn)行預(yù)處理,能夠顯著提高跨模態(tài)檢索效率和精度,并降低后續(xù)計(jì)算成本,此外,由于現(xiàn)階段對視頻時(shí)空特征的挖掘不夠深入,或忽略了與其他模態(tài)的有效融合,從而限制了跨模態(tài)檢索的精度,本發(fā)明實(shí)施例特別強(qiáng)調(diào)了視頻中除視覺特征和文本特征之外的獨(dú)特時(shí)空特性,也即視頻局部嵌入空間,并將其與視覺和文本模態(tài)有效融合,最后,通過聯(lián)合視覺、文本以及局部關(guān)系進(jìn)行空間嵌入學(xué)習(xí),能更加精確高效地實(shí)現(xiàn)跨模態(tài)檢索。