本發(fā)明屬于視頻處理,特別是涉及一種面向視頻的事件知識(shí)抽取方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、事件知識(shí)抽取是信息抽取的一項(xiàng)重要技術(shù),其主要任務(wù)是從語(yǔ)料中識(shí)別出事件,并提取出事件的相關(guān)信息。準(zhǔn)確地發(fā)現(xiàn)事件并抽取相關(guān)信息,對(duì)于事件預(yù)測(cè)、安全監(jiān)控、自動(dòng)駕駛等領(lǐng)域有著重要意義。隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)和網(wǎng)絡(luò)通信技術(shù)的不斷普及與快速發(fā)展,視頻數(shù)據(jù)已成為現(xiàn)實(shí)世界中一大重要數(shù)據(jù)源。因此,如何對(duì)視頻中的事件進(jìn)行解讀,成為目前自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)領(lǐng)域都關(guān)注的一個(gè)熱門(mén)問(wèn)題。
2、相較于單模態(tài)的事件知識(shí)抽取,多模態(tài)的事件知識(shí)抽取更具優(yōu)勢(shì),因?yàn)樗芫C合不同模態(tài)的信息,不同模態(tài)信息之間起到互補(bǔ)作用。視頻數(shù)據(jù)包含大量視覺(jué)信息,視覺(jué)信息和文本信息的協(xié)同作用能夠提供更全面和準(zhǔn)確的事件描述。然而,該任務(wù)存在諸多難點(diǎn):
3、首先,直接對(duì)視頻進(jìn)行特征學(xué)習(xí)存在時(shí)間成本高、算力成本高的問(wèn)題。視頻數(shù)據(jù)量通常十分龐大,且處理視頻需要解析其連續(xù)幀中的每一幀圖像,這對(duì)計(jì)算資源和處理時(shí)間提出了極高的要求。其次,為視頻進(jìn)行細(xì)粒度的標(biāo)注時(shí)間成本高、人力成本高。視頻的細(xì)粒度標(biāo)注不僅需要精確到幀級(jí)別,還需要詳細(xì)描述每個(gè)事件的開(kāi)始和結(jié)束時(shí)間、參與的對(duì)象以及事件的具體內(nèi)容。這種標(biāo)注過(guò)程耗費(fèi)大量的人力和時(shí)間,而現(xiàn)實(shí)中大多數(shù)視頻缺乏這樣的詳細(xì)標(biāo)注數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種面向視頻的事件知識(shí)抽取方法、系統(tǒng)、設(shè)備及介質(zhì),以解決上述現(xiàn)有技術(shù)存在的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種面向視頻的事件知識(shí)抽取方法,包括:
3、獲取待處理視頻;
4、對(duì)所述待處理視頻進(jìn)行視頻幀分割,得到若干視頻幀;
5、基于物理空間角度和嵌入空間角度對(duì)各所述視頻幀進(jìn)行抽取,得到若干關(guān)鍵幀;
6、生成各所述關(guān)鍵幀對(duì)應(yīng)的圖像標(biāo)題;
7、將各所述關(guān)鍵幀及對(duì)應(yīng)的圖像標(biāo)題輸入多模態(tài)事件抽取模型中進(jìn)行事件提取,得到各所述關(guān)鍵幀對(duì)應(yīng)的事件;其中,所述多模態(tài)事件抽取模型包括依次連接的特征提取模塊、基于注意力機(jī)制的多模態(tài)特征融合模塊和分類(lèi)器構(gòu)成;
8、基于所述待處理視頻的固有時(shí)間順序信息,對(duì)各所述關(guān)鍵幀及對(duì)應(yīng)的事件進(jìn)行排序歸納,得到所述待處理視頻中的事件知識(shí)及事件演化軌跡。
9、可選的,基于物理空間角度和嵌入空間角度對(duì)各所述視頻幀進(jìn)行抽取,得到若干關(guān)鍵幀,具體包括:
10、基于各所述視頻幀中每?jī)蓚€(gè)視頻幀之間的互信息數(shù)據(jù)提取物理空間關(guān)鍵視頻幀;
11、基于各所述視頻幀中每?jī)蓚€(gè)視頻幀的特征向量之間的余弦相似度數(shù)據(jù)提取嵌入空間關(guān)鍵視頻幀;
12、將所述物理空間關(guān)鍵視頻幀和所述嵌入空間關(guān)鍵視頻幀作為所述關(guān)鍵幀。
13、可選的,基于各所述關(guān)鍵幀中每?jī)蓚€(gè)視頻幀之間的互信息數(shù)據(jù)提取物理空間關(guān)鍵視頻幀,具體包括:
14、步驟一:對(duì)各所述視頻幀進(jìn)行灰度處理;
15、步驟二:計(jì)算每?jī)蓚€(gè)視頻幀之間的互信息數(shù)據(jù);
16、步驟三:當(dāng)計(jì)算的互信息數(shù)據(jù)大于預(yù)設(shè)互信息閾值時(shí),舍棄兩個(gè)視頻幀中的后一幀;
17、重復(fù)步驟一至步驟二直至完成各所述視頻幀的計(jì)算,將剩余的視頻幀作為物理空間關(guān)鍵視頻幀。
18、可選的,基于各所述關(guān)鍵幀中每?jī)蓚€(gè)視頻幀的特征向量之間的余弦相似度數(shù)據(jù)提取嵌入空間關(guān)鍵視頻幀,具體包括:
19、步驟一:將各所述視頻幀輸入vit-b/16模型中進(jìn)行嵌入表示提取,得到各所述視頻幀對(duì)應(yīng)的高維嵌入表示數(shù)據(jù);
20、步驟二:計(jì)算每?jī)蓚€(gè)視頻幀對(duì)應(yīng)的高維嵌入表示數(shù)據(jù)之間的余弦相似度數(shù)據(jù),當(dāng)計(jì)算的余弦相似度數(shù)據(jù)大于預(yù)設(shè)余弦相似度閾值時(shí),舍棄兩個(gè)視頻幀中的后一幀;
21、重復(fù)步驟一至步驟二直至完成各所述視頻幀的計(jì)算,將剩余的視頻幀作為嵌入空間關(guān)鍵視頻幀。
22、可選的,生成各所述關(guān)鍵幀對(duì)應(yīng)的圖像標(biāo)題,具體包括:
23、獲取生成標(biāo)題提示數(shù)據(jù),將各所述關(guān)鍵幀及所述生成標(biāo)題提示數(shù)據(jù)輸入llava模型中進(jìn)行視覺(jué)信息捕獲,得到圖像描述;
24、將各所述關(guān)鍵幀對(duì)應(yīng)的圖像描述輸入llama模型中進(jìn)行語(yǔ)義概況,得到各所述關(guān)鍵幀對(duì)應(yīng)的圖像標(biāo)題。
25、可選的,所述多模態(tài)事件抽取模型的訓(xùn)練過(guò)程,具體包括:
26、獲取訓(xùn)練數(shù)據(jù),所述訓(xùn)練數(shù)據(jù)包括訓(xùn)練視頻幀數(shù)據(jù)及對(duì)應(yīng)的事件,所述訓(xùn)練視頻幀數(shù)據(jù)包括訓(xùn)練視頻幀及對(duì)應(yīng)的圖像標(biāo)題;
27、構(gòu)建初始多模態(tài)事件抽取模型,將所述訓(xùn)練數(shù)據(jù)輸入所述初始多模態(tài)事件抽取模型中進(jìn)行事件提取,并以事件提取后的初始訓(xùn)練結(jié)果與所述訓(xùn)練視頻幀數(shù)據(jù)對(duì)應(yīng)的事件之間的損失最小為目標(biāo),進(jìn)行訓(xùn)練,得到所述多模態(tài)事件抽取模型。
28、可選的,所述多模態(tài)事件抽取模型的處理過(guò)程,具體包括:
29、所述特征提取模塊包括文本特征提取子模型和圖像特征提取子模型;
30、通過(guò)所述文本特征提取子模型對(duì)所述關(guān)鍵幀對(duì)應(yīng)的圖像標(biāo)題進(jìn)行語(yǔ)義特征提取,得到文本語(yǔ)義表示數(shù)據(jù);
31、通過(guò)所述圖像特征提取子模型對(duì)所述關(guān)鍵幀進(jìn)行圖像識(shí)別,得到圖片序列向量表示數(shù)據(jù),對(duì)所述圖片序列向量表示數(shù)據(jù)進(jìn)行維度轉(zhuǎn)換,得到對(duì)象向量表示數(shù)據(jù);
32、將所述文本語(yǔ)義表示數(shù)據(jù)、圖片序列向量表示數(shù)據(jù)和所述對(duì)象向量表示數(shù)據(jù)輸入所述多模態(tài)特征融合模塊中進(jìn)行多模態(tài)特征融合,得到融合特征數(shù)據(jù);
33、將所述融合特征數(shù)據(jù)輸入所述分類(lèi)器中進(jìn)行事件提取,得到所述關(guān)鍵幀對(duì)應(yīng)的事件。
34、一種面向視頻的事件知識(shí)抽取系統(tǒng),包括:
35、數(shù)據(jù)采集模塊,用于獲取待處理視頻;對(duì)所述待處理視頻進(jìn)行視頻幀分割,得到若干視頻幀;基于物理空間角度和嵌入空間角度對(duì)各所述視頻幀進(jìn)行抽取,得到若干關(guān)鍵幀;生成各所述關(guān)鍵幀對(duì)應(yīng)的圖像標(biāo)題;
36、多模態(tài)事件抽取模塊,用于將各所述關(guān)鍵幀及對(duì)應(yīng)的圖像標(biāo)題輸入多模態(tài)事件抽取模型中進(jìn)行事件提取,得到各所述關(guān)鍵幀對(duì)應(yīng)的事件;其中,所述多模態(tài)事件抽取模型包括依次連接的特征提取模塊、基于注意力機(jī)制的多模態(tài)特征融合模塊和分類(lèi)器構(gòu)成;
37、視頻事件知識(shí)獲取模塊,用于根據(jù)所述待處理視頻的固有時(shí)間順序信息,對(duì)各所述關(guān)鍵幀及對(duì)應(yīng)的事件進(jìn)行排序歸納,得到所述待處理視頻中的事件知識(shí)及事件演化軌跡。
38、一種電子設(shè)備,包括存儲(chǔ)器及處理器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述處理器運(yùn)行所述計(jì)算機(jī)程序以使所述電子設(shè)備執(zhí)行所述的一種面向視頻的事件知識(shí)抽取方法。
39、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的一種面向視頻的事件知識(shí)抽取方法。
40、本發(fā)明的技術(shù)效果為:
41、本發(fā)明通過(guò)結(jié)合視頻畫(huà)面的物理空間和嵌入空間,對(duì)視頻進(jìn)行關(guān)鍵幀的提取,將視頻級(jí)任務(wù)降為圖像級(jí)任務(wù),在保證任務(wù)精度的前提下,大幅度降低計(jì)算成本。通過(guò)在物理空間中選擇具有代表性的幀,并在嵌入空間中進(jìn)一步優(yōu)化關(guān)鍵幀的選擇過(guò)程,可以有效減少需要處理的數(shù)據(jù)量,從而提高處理效率。本發(fā)明通過(guò)自動(dòng)生成與關(guān)鍵幀內(nèi)容高度相關(guān)的文本描述。這不僅提高了標(biāo)注的準(zhǔn)確性和一致性,還大大減少了人工參與的必要。本發(fā)明的模型能夠更好地理解和處理視覺(jué)信息和文本信息之間的關(guān)系,從而提升事件知識(shí)抽取的準(zhǔn)確性和豐富度。本發(fā)明利用視頻幀的時(shí)間戳,將抽取出的關(guān)鍵視頻幀的事件知識(shí)還原為整個(gè)視頻的完整事件鏈和脈絡(luò),構(gòu)筑最終的面向視頻的事件知識(shí)抽取結(jié)果。這樣不僅可以識(shí)別出視頻中獨(dú)立的子事件,還能夠理解子事件之間的關(guān)聯(lián)和演變過(guò)程。綜上所述,本發(fā)明通過(guò)關(guān)鍵幀提取、自動(dòng)生成標(biāo)題、多模態(tài)模型微調(diào)以及時(shí)間戳脈絡(luò)構(gòu)建,實(shí)現(xiàn)了面向視頻的事件知識(shí)抽取。