欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置與流程

文檔序號(hào):40615094發(fā)布日期:2025-01-07 21:03閱讀:21來源:國知局
一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置與流程

本發(fā)明屬于視頻檢測,具體涉及一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置。


背景技術(shù):

1、深度偽造技術(shù)是一種基于人工智能和深度學(xué)習(xí)的技術(shù),可通過模擬和偽造人類的面部特征、聲音和行為,生成高度逼真的虛假影像、視頻和語音等。當(dāng)前,視頻換臉、換聲等技術(shù)不僅在影視制作等領(lǐng)域得到廣泛應(yīng)用,也被濫用于制造虛假新聞、惡意視頻等,對(duì)個(gè)人隱私、社會(huì)穩(wěn)定及國家安全方面帶來了嚴(yán)重的安全威脅。

2、目前,常見的深度偽造檢測技術(shù)主要包括:基于傳統(tǒng)數(shù)字取證技術(shù)和基于深度學(xué)習(xí)模型的檢測技術(shù)。

3、(1)基于傳統(tǒng)數(shù)字取證技術(shù),對(duì)于音頻部分,主要是對(duì)聲音的音頻、波形、頻譜等聲音信號(hào)進(jìn)行特征分析;對(duì)于視頻和圖形部分,通常利用視頻和圖像的元數(shù)據(jù)、色彩分布、像素排列和壓縮痕跡等特征來判斷圖像和視頻是否經(jīng)過編輯和偽造。但該技術(shù)主要依賴對(duì)視頻或圖像內(nèi)容的靜態(tài)分析,但由于視頻在被壓縮后,幀數(shù)會(huì)產(chǎn)生嚴(yán)重的退化現(xiàn)象,且視頻幀之間的時(shí)序特征存在一定的變化,故多數(shù)基于靜態(tài)特征的深度偽造圖像檢測方法無法直接用于深度偽造視頻的檢測。

4、(2)基于深度學(xué)習(xí)模型的檢測技術(shù),通過使用訓(xùn)練的檢測模型對(duì)深度偽造內(nèi)容進(jìn)行自動(dòng)檢測。然而,隨著深度偽造技術(shù)的進(jìn)步,單一模態(tài)的檢測方式在應(yīng)對(duì)復(fù)雜、高度逼真的深度偽造視頻時(shí)有較大的局限性,尤其是在偽造內(nèi)容經(jīng)過壓縮、傳輸或編輯后,單一模態(tài)的檢測方法準(zhǔn)確性顯著下降。此外,經(jīng)過壓縮、傳輸或編輯后的深度偽造視頻中的多模態(tài)信息往往存在不一致性,單一模態(tài)的檢測方法無法充分捕捉這些跨模態(tài)的不一致性,導(dǎo)致檢測精度不高。

5、有鑒于此,特提出本發(fā)明。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置,用以解決現(xiàn)有的深度偽造視頻檢測技術(shù)依賴單一模態(tài)的檢測手段,導(dǎo)致其對(duì)復(fù)雜、高度逼真的深度偽造視頻檢測精度低的問題。

2、第一方面,本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法,包括:

3、s1.將待檢測視頻進(jìn)行預(yù)處理,得到多個(gè)視頻幀;所述待檢測視頻包括音頻,所述每個(gè)視頻幀包括所述音頻;

4、s2.獲取所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖;

5、s3.針對(duì)所述多個(gè)視頻幀的每個(gè)視頻幀,提取所述每個(gè)視頻幀的特征向量,對(duì)所述每個(gè)視頻幀的特征向量進(jìn)行融合得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a;

6、s4.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a分別進(jìn)行線性變換,分別映射到查詢(query,?q)、鍵(key,?k)和值(value,?v)空間中,得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力機(jī)制的特征維度 d k 、所述待檢測視頻的視頻幀特征向量 x v的查詢向量 q v、鍵向量 k v、值向量 v v及所述音頻mel頻譜圖的音頻特征向量 x a的查詢向量 q a、鍵向量 k a、值向量 v a,具體為:

7、;

8、其中, wq v ,wk v ,wv v是對(duì)所述待檢測視頻的視頻幀特征向量 x v進(jìn)行線性變換的權(quán)重矩陣, wq a ,wk a ,wv a是對(duì)所述音頻mel頻譜圖的音頻特征向量 x a進(jìn)行變換的權(quán)重矩陣;

9、s5.采用多頭自注意力機(jī)制分別處理所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a,計(jì)算所述待檢測視頻的視頻幀特征向量 x v的注意力權(quán)重矩陣 attention v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力權(quán)重矩陣 attention a ,具體為:

10、;

11、其中, d k用以對(duì) q* k t乘積結(jié)果進(jìn)行歸一化;

12、s6.引入模態(tài)間交互注意力機(jī)制,比較所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a之間的相似性來增強(qiáng)模態(tài)間的交互,具體為:

13、;

14、s7.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的兩種模態(tài)的特征加權(quán)融合,得到最終的多模態(tài)融合特征 f,具體為:

15、;

16、其中,是超參數(shù);

17、s8.將所述多模態(tài)融合特征 f輸入由批量歸一化層、全連接層、激活函數(shù)和輸出層構(gòu)成的多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’,具體為:

18、;

19、其中, w是權(quán)重, f是所述多模態(tài)融合特征, b是偏差;

20、s9.將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果,得到所述待檢測視頻為真實(shí)類別和偽造類別的概率,通過比較所述待檢測視頻真實(shí)類別和偽造類別的概率值,判定所述待檢測視頻是否為偽造視頻,具體為:

21、;

22、s10.當(dāng)所述待檢測視頻為偽造類別的概率大于真實(shí)類別的概率時(shí),判斷所述待檢測視頻為偽造視頻;否則,判斷所述待檢測視頻為偽造視頻。

23、進(jìn)一步地,s1中所述將待檢測視頻進(jìn)行預(yù)處理,得到多個(gè)視頻幀,包括:

24、s101.使用計(jì)算機(jī)視覺庫opencv中的videocapture函數(shù)讀取所述待檢測視頻,確定所述待檢測視頻的總幀數(shù);

25、s102.根據(jù)所述待檢測視頻的總幀數(shù),計(jì)算要提取視頻幀的間隔,均勻地從所述將待檢測視頻中提取多個(gè)視頻幀;

26、s103.將所述多個(gè)視頻幀進(jìn)行數(shù)據(jù)歸一化處理,變成浮點(diǎn)型數(shù)據(jù)。

27、進(jìn)一步地,s2中獲取所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖,包括:

28、s201.通過調(diào)用視頻處理庫moviepy中的videofileclip函數(shù)讀取所述待檢測視頻文件,獲取所述待檢測視頻文件中的音頻文件,并將所述音頻文件保存為wav格式;

29、s202.通過調(diào)用音頻處理庫librosa庫加載所述wav音頻文件,以時(shí)間序列的形式存儲(chǔ)所述wav音頻文件中的音頻數(shù)據(jù);

30、s203.通過調(diào)用音頻處理庫librosa庫中的melspectrogram函數(shù),將所述wav音頻文件中的音頻數(shù)據(jù)轉(zhuǎn)換為mel頻譜圖,將所述mel頻譜圖的浮點(diǎn)型數(shù)據(jù)歸一化處理為整數(shù)值數(shù)據(jù);

31、s204.對(duì)所述歸一化處理后mel頻譜圖進(jìn)行尺寸調(diào)整,將所述歸一化處理后mel頻譜圖縮放到指定的目標(biāo)大小。

32、進(jìn)一步地,s3中獲取所述檢測視頻的視頻幀特征向量 x v,包括:

33、s301.將輸入video?swin?transforme模型中所述多個(gè)視頻幀的每個(gè)視頻幀劃分為多個(gè)小的圖像塊,通過所述video?swin?transforme模型中線性嵌入層將所述多個(gè)小的圖像塊轉(zhuǎn)換為高維特征向量;

34、s302.引入時(shí)序編碼,將所述多個(gè)視頻幀之間的時(shí)間順序信息嵌入到所述高維特征向量中,經(jīng)所述video?swin?transforme模型處理后,得到所述檢測視頻的視頻幀特征向量 x v。

35、進(jìn)一步地,s3中獲取所述音頻mel頻譜圖的音頻特征向量 x a ,包括:

36、s303.將所述音頻mel頻譜圖輸入到預(yù)訓(xùn)練resnet18模型中,通過resnet18模型的多個(gè)卷積層和殘差模塊對(duì)所述音頻mel頻譜圖進(jìn)行深層次特征提??;

37、s304.通過resnet18模型的全局平均池化層,所述音頻mel頻譜圖被壓縮為音頻特征向量 x a,所述音頻特征向量 x a包含音頻信號(hào)的時(shí)頻信息。

38、進(jìn)一步地,s8中所得到述降維后的多模態(tài)融合特征 f’,包括:

39、s801.將所述多模態(tài)融合特征 f輸入所述批量歸一化層得到多模態(tài)融合特征 f1,確保所述多模態(tài)融合特征 f1具有零均值和單位方差;

40、s802.將所述多模態(tài)融合特征 f1輸入到全連接層,對(duì)所述多模態(tài)融合特征 f1進(jìn)行降維處理得到多模態(tài)融合特征 f2;

41、s803.將所述多模態(tài)融合特征 f2輸入所述批量歸一化層得到多模態(tài)融合特征 f3;

42、s804.將所述多模態(tài)融合特征 f3通過tanh激活函數(shù)進(jìn)行非線性變換,得到多模態(tài)融合特征 f4,其中:

43、;

44、s805.將所述多模態(tài)融合特征 f4輸入到輸出層,將所述多模態(tài)融合特征 f4壓縮為多模態(tài)融合特征 f’,其中所述多模態(tài)融合特征 f’是二維向量 。

45、第二方面,本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測裝置,采用了如第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法,包括:

46、數(shù)據(jù)處理模塊210:將待檢測視頻進(jìn)行預(yù)處理,獲取所述待檢測視頻的多個(gè)視頻幀及所述待檢測視頻中的音頻文件,并將所述音頻文件轉(zhuǎn)換為mel頻譜圖;

47、特征向量提取模塊220:根據(jù)所述待檢測視頻的多個(gè)視頻幀及所述音頻文件轉(zhuǎn)換為mel頻譜圖獲取所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a;

48、多模態(tài)注意力融合模塊230:根據(jù)所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a,對(duì)所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a進(jìn)行多模態(tài)交叉注意力特征融合,得到多模態(tài)融合特征 f;

49、視頻偽造檢測模塊240:將所述多模態(tài)融合特征 f輸入多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’,將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果,判斷所述待檢測視頻是否是偽造視頻。

50、第三方面,本發(fā)明還提供了一種電子設(shè)備,包括:存儲(chǔ)器和處理器;

51、其中,存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)執(zhí)行指令;

52、處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,使得處理器執(zhí)行本發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。

53、第四方面,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中存儲(chǔ)有多條指令,指令由處理器加載,使處理器執(zhí)行本發(fā)明發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。

54、本發(fā)明的有益效果是:本技術(shù)方案提出的融合多模態(tài)信息的深度偽造視頻檢測方法及裝置,能解決偽造內(nèi)容在經(jīng)過壓縮、傳輸或編輯后,通過結(jié)合視頻中的視覺信息、音頻信息及其跨模態(tài)之間的關(guān)系,全面分析偽造內(nèi)容中的不一致性,進(jìn)而提高偽造視頻檢測的準(zhǔn)確性和魯棒性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宝清县| 四会市| 遵义市| 三河市| 南宁市| 神农架林区| 林周县| 莲花县| 弥勒县| 彩票| 墨江| 高雄县| 贡山| 玉山县| 玉溪市| 金寨县| 南安市| 贵溪市| 保定市| 宝丰县| 长沙县| 田阳县| 湄潭县| 安西县| 三穗县| 玛多县| 新绛县| 思茅市| 文山县| 靖江市| 高平市| 无锡市| 纳雍县| 左贡县| 本溪市| 兰坪| 桃江县| 沙雅县| 龙海市| 泽普县| 迭部县|