本發(fā)明屬于視頻檢測,具體涉及一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置。
背景技術(shù):
1、深度偽造技術(shù)是一種基于人工智能和深度學(xué)習(xí)的技術(shù),可通過模擬和偽造人類的面部特征、聲音和行為,生成高度逼真的虛假影像、視頻和語音等。當(dāng)前,視頻換臉、換聲等技術(shù)不僅在影視制作等領(lǐng)域得到廣泛應(yīng)用,也被濫用于制造虛假新聞、惡意視頻等,對(duì)個(gè)人隱私、社會(huì)穩(wěn)定及國家安全方面帶來了嚴(yán)重的安全威脅。
2、目前,常見的深度偽造檢測技術(shù)主要包括:基于傳統(tǒng)數(shù)字取證技術(shù)和基于深度學(xué)習(xí)模型的檢測技術(shù)。
3、(1)基于傳統(tǒng)數(shù)字取證技術(shù),對(duì)于音頻部分,主要是對(duì)聲音的音頻、波形、頻譜等聲音信號(hào)進(jìn)行特征分析;對(duì)于視頻和圖形部分,通常利用視頻和圖像的元數(shù)據(jù)、色彩分布、像素排列和壓縮痕跡等特征來判斷圖像和視頻是否經(jīng)過編輯和偽造。但該技術(shù)主要依賴對(duì)視頻或圖像內(nèi)容的靜態(tài)分析,但由于視頻在被壓縮后,幀數(shù)會(huì)產(chǎn)生嚴(yán)重的退化現(xiàn)象,且視頻幀之間的時(shí)序特征存在一定的變化,故多數(shù)基于靜態(tài)特征的深度偽造圖像檢測方法無法直接用于深度偽造視頻的檢測。
4、(2)基于深度學(xué)習(xí)模型的檢測技術(shù),通過使用訓(xùn)練的檢測模型對(duì)深度偽造內(nèi)容進(jìn)行自動(dòng)檢測。然而,隨著深度偽造技術(shù)的進(jìn)步,單一模態(tài)的檢測方式在應(yīng)對(duì)復(fù)雜、高度逼真的深度偽造視頻時(shí)有較大的局限性,尤其是在偽造內(nèi)容經(jīng)過壓縮、傳輸或編輯后,單一模態(tài)的檢測方法準(zhǔn)確性顯著下降。此外,經(jīng)過壓縮、傳輸或編輯后的深度偽造視頻中的多模態(tài)信息往往存在不一致性,單一模態(tài)的檢測方法無法充分捕捉這些跨模態(tài)的不一致性,導(dǎo)致檢測精度不高。
5、有鑒于此,特提出本發(fā)明。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置,用以解決現(xiàn)有的深度偽造視頻檢測技術(shù)依賴單一模態(tài)的檢測手段,導(dǎo)致其對(duì)復(fù)雜、高度逼真的深度偽造視頻檢測精度低的問題。
2、第一方面,本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法,包括:
3、s1.將待檢測視頻進(jìn)行預(yù)處理,得到多個(gè)視頻幀;所述待檢測視頻包括音頻,所述每個(gè)視頻幀包括所述音頻;
4、s2.獲取所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖;
5、s3.針對(duì)所述多個(gè)視頻幀的每個(gè)視頻幀,提取所述每個(gè)視頻幀的特征向量,對(duì)所述每個(gè)視頻幀的特征向量進(jìn)行融合得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a;
6、s4.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a分別進(jìn)行線性變換,分別映射到查詢(query,?q)、鍵(key,?k)和值(value,?v)空間中,得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力機(jī)制的特征維度 d k 、所述待檢測視頻的視頻幀特征向量 x v的查詢向量 q v、鍵向量 k v、值向量 v v及所述音頻mel頻譜圖的音頻特征向量 x a的查詢向量 q a、鍵向量 k a、值向量 v a,具體為:
7、;
8、其中, wq v ,wk v ,wv v是對(duì)所述待檢測視頻的視頻幀特征向量 x v進(jìn)行線性變換的權(quán)重矩陣, wq a ,wk a ,wv a是對(duì)所述音頻mel頻譜圖的音頻特征向量 x a進(jìn)行變換的權(quán)重矩陣;
9、s5.采用多頭自注意力機(jī)制分別處理所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a,計(jì)算所述待檢測視頻的視頻幀特征向量 x v的注意力權(quán)重矩陣 attention v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力權(quán)重矩陣 attention a ,具體為:
10、;
11、其中, d k用以對(duì) q* k t乘積結(jié)果進(jìn)行歸一化;
12、s6.引入模態(tài)間交互注意力機(jī)制,比較所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a之間的相似性來增強(qiáng)模態(tài)間的交互,具體為:
13、;
14、s7.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的兩種模態(tài)的特征加權(quán)融合,得到最終的多模態(tài)融合特征 f,具體為:
15、;
16、其中,是超參數(shù);
17、s8.將所述多模態(tài)融合特征 f輸入由批量歸一化層、全連接層、激活函數(shù)和輸出層構(gòu)成的多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’,具體為:
18、;
19、其中, w是權(quán)重, f是所述多模態(tài)融合特征, b是偏差;
20、s9.將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果,得到所述待檢測視頻為真實(shí)類別和偽造類別的概率,通過比較所述待檢測視頻真實(shí)類別和偽造類別的概率值,判定所述待檢測視頻是否為偽造視頻,具體為:
21、;
22、s10.當(dāng)所述待檢測視頻為偽造類別的概率大于真實(shí)類別的概率時(shí),判斷所述待檢測視頻為偽造視頻;否則,判斷所述待檢測視頻為偽造視頻。
23、進(jìn)一步地,s1中所述將待檢測視頻進(jìn)行預(yù)處理,得到多個(gè)視頻幀,包括:
24、s101.使用計(jì)算機(jī)視覺庫opencv中的videocapture函數(shù)讀取所述待檢測視頻,確定所述待檢測視頻的總幀數(shù);
25、s102.根據(jù)所述待檢測視頻的總幀數(shù),計(jì)算要提取視頻幀的間隔,均勻地從所述將待檢測視頻中提取多個(gè)視頻幀;
26、s103.將所述多個(gè)視頻幀進(jìn)行數(shù)據(jù)歸一化處理,變成浮點(diǎn)型數(shù)據(jù)。
27、進(jìn)一步地,s2中獲取所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖,包括:
28、s201.通過調(diào)用視頻處理庫moviepy中的videofileclip函數(shù)讀取所述待檢測視頻文件,獲取所述待檢測視頻文件中的音頻文件,并將所述音頻文件保存為wav格式;
29、s202.通過調(diào)用音頻處理庫librosa庫加載所述wav音頻文件,以時(shí)間序列的形式存儲(chǔ)所述wav音頻文件中的音頻數(shù)據(jù);
30、s203.通過調(diào)用音頻處理庫librosa庫中的melspectrogram函數(shù),將所述wav音頻文件中的音頻數(shù)據(jù)轉(zhuǎn)換為mel頻譜圖,將所述mel頻譜圖的浮點(diǎn)型數(shù)據(jù)歸一化處理為整數(shù)值數(shù)據(jù);
31、s204.對(duì)所述歸一化處理后mel頻譜圖進(jìn)行尺寸調(diào)整,將所述歸一化處理后mel頻譜圖縮放到指定的目標(biāo)大小。
32、進(jìn)一步地,s3中獲取所述檢測視頻的視頻幀特征向量 x v,包括:
33、s301.將輸入video?swin?transforme模型中所述多個(gè)視頻幀的每個(gè)視頻幀劃分為多個(gè)小的圖像塊,通過所述video?swin?transforme模型中線性嵌入層將所述多個(gè)小的圖像塊轉(zhuǎn)換為高維特征向量;
34、s302.引入時(shí)序編碼,將所述多個(gè)視頻幀之間的時(shí)間順序信息嵌入到所述高維特征向量中,經(jīng)所述video?swin?transforme模型處理后,得到所述檢測視頻的視頻幀特征向量 x v。
35、進(jìn)一步地,s3中獲取所述音頻mel頻譜圖的音頻特征向量 x a ,包括:
36、s303.將所述音頻mel頻譜圖輸入到預(yù)訓(xùn)練resnet18模型中,通過resnet18模型的多個(gè)卷積層和殘差模塊對(duì)所述音頻mel頻譜圖進(jìn)行深層次特征提??;
37、s304.通過resnet18模型的全局平均池化層,所述音頻mel頻譜圖被壓縮為音頻特征向量 x a,所述音頻特征向量 x a包含音頻信號(hào)的時(shí)頻信息。
38、進(jìn)一步地,s8中所得到述降維后的多模態(tài)融合特征 f’,包括:
39、s801.將所述多模態(tài)融合特征 f輸入所述批量歸一化層得到多模態(tài)融合特征 f1,確保所述多模態(tài)融合特征 f1具有零均值和單位方差;
40、s802.將所述多模態(tài)融合特征 f1輸入到全連接層,對(duì)所述多模態(tài)融合特征 f1進(jìn)行降維處理得到多模態(tài)融合特征 f2;
41、s803.將所述多模態(tài)融合特征 f2輸入所述批量歸一化層得到多模態(tài)融合特征 f3;
42、s804.將所述多模態(tài)融合特征 f3通過tanh激活函數(shù)進(jìn)行非線性變換,得到多模態(tài)融合特征 f4,其中:
43、;
44、s805.將所述多模態(tài)融合特征 f4輸入到輸出層,將所述多模態(tài)融合特征 f4壓縮為多模態(tài)融合特征 f’,其中所述多模態(tài)融合特征 f’是二維向量 。
45、第二方面,本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測裝置,采用了如第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法,包括:
46、數(shù)據(jù)處理模塊210:將待檢測視頻進(jìn)行預(yù)處理,獲取所述待檢測視頻的多個(gè)視頻幀及所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖;
47、特征向量提取模塊220:根據(jù)所述待檢測視頻的多個(gè)視頻幀及所述音頻文件轉(zhuǎn)換為mel頻譜圖獲取所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a;
48、多模態(tài)注意力融合模塊230:根據(jù)所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a,對(duì)所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a進(jìn)行多模態(tài)交叉注意力特征融合,得到多模態(tài)融合特征 f;
49、視頻偽造檢測模塊240:將所述多模態(tài)融合特征 f輸入多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’,將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果,判斷所述待檢測視頻是否是偽造視頻。
50、第三方面,本發(fā)明還提供了一種電子設(shè)備,包括:存儲(chǔ)器和處理器;
51、其中,存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)執(zhí)行指令;
52、處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,使得處理器執(zhí)行本發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。
53、第四方面,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有多條指令,指令由處理器加載,使處理器執(zhí)行本發(fā)明發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。
54、本發(fā)明的有益效果是:本技術(shù)方案提出的融合多模態(tài)信息的深度偽造視頻檢測方法及裝置,能解決偽造內(nèi)容在經(jīng)過壓縮、傳輸或編輯后,通過結(jié)合視頻中的視覺信息、音頻信息及其跨模態(tài)之間的關(guān)系,全面分析偽造內(nèi)容中的不一致性,進(jìn)而提高偽造視頻檢測的準(zhǔn)確性和魯棒性。