一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置與流程

文檔序號(hào)：40615094發(fā)布日期：2025-01-07 21:03閱讀：21來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于視頻檢測，具體涉及一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置。

背景技術(shù)：

1、深度偽造技術(shù)是一種基于人工智能和深度學(xué)習(xí)的技術(shù)，可通過模擬和偽造人類的面部特征、聲音和行為，生成高度逼真的虛假影像、視頻和語音等。當(dāng)前，視頻換臉、換聲等技術(shù)不僅在影視制作等領(lǐng)域得到廣泛應(yīng)用，也被濫用于制造虛假新聞、惡意視頻等，對(duì)個(gè)人隱私、社會(huì)穩(wěn)定及國家安全方面帶來了嚴(yán)重的安全威脅。

2、目前，常見的深度偽造檢測技術(shù)主要包括：基于傳統(tǒng)數(shù)字取證技術(shù)和基于深度學(xué)習(xí)模型的檢測技術(shù)。

3、（1）基于傳統(tǒng)數(shù)字取證技術(shù)，對(duì)于音頻部分，主要是對(duì)聲音的音頻、波形、頻譜等聲音信號(hào)進(jìn)行特征分析；對(duì)于視頻和圖形部分，通常利用視頻和圖像的元數(shù)據(jù)、色彩分布、像素排列和壓縮痕跡等特征來判斷圖像和視頻是否經(jīng)過編輯和偽造。但該技術(shù)主要依賴對(duì)視頻或圖像內(nèi)容的靜態(tài)分析，但由于視頻在被壓縮后，幀數(shù)會(huì)產(chǎn)生嚴(yán)重的退化現(xiàn)象，且視頻幀之間的時(shí)序特征存在一定的變化，故多數(shù)基于靜態(tài)特征的深度偽造圖像檢測方法無法直接用于深度偽造視頻的檢測。

4、（2）基于深度學(xué)習(xí)模型的檢測技術(shù)，通過使用訓(xùn)練的檢測模型對(duì)深度偽造內(nèi)容進(jìn)行自動(dòng)檢測。然而，隨著深度偽造技術(shù)的進(jìn)步，單一模態(tài)的檢測方式在應(yīng)對(duì)復(fù)雜、高度逼真的深度偽造視頻時(shí)有較大的局限性，尤其是在偽造內(nèi)容經(jīng)過壓縮、傳輸或編輯后，單一模態(tài)的檢測方法準(zhǔn)確性顯著下降。此外，經(jīng)過壓縮、傳輸或編輯后的深度偽造視頻中的多模態(tài)信息往往存在不一致性，單一模態(tài)的檢測方法無法充分捕捉這些跨模態(tài)的不一致性，導(dǎo)致檢測精度不高。

5、有鑒于此，特提出本發(fā)明。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置，用以解決現(xiàn)有的深度偽造視頻檢測技術(shù)依賴單一模態(tài)的檢測手段，導(dǎo)致其對(duì)復(fù)雜、高度逼真的深度偽造視頻檢測精度低的問題。

2、第一方面，本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測方法，包括：

3、s1.將待檢測視頻進(jìn)行預(yù)處理，得到多個(gè)視頻幀；所述待檢測視頻包括音頻，所述每個(gè)視頻幀包括所述音頻；

4、s2.獲取所述待檢測視頻中的音頻文件，并將所述音頻文件轉(zhuǎn)換為mel頻譜圖；

5、s3.針對(duì)所述多個(gè)視頻幀的每個(gè)視頻幀，提取所述每個(gè)視頻幀的特征向量，對(duì)所述每個(gè)視頻幀的特征向量進(jìn)行融合得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a；

6、s4.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a分別進(jìn)行線性變換，分別映射到查詢（query,?q）、鍵（key,?k）和值（value,?v）空間中，得到所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力機(jī)制的特征維度 d k 、所述待檢測視頻的視頻幀特征向量 x v的查詢向量 q v、鍵向量 k v、值向量 v v及所述音頻mel頻譜圖的音頻特征向量 x a的查詢向量 q a、鍵向量 k a、值向量 v a，具體為：

7、；

8、其中， wq v ，wk v ，wv v是對(duì)所述待檢測視頻的視頻幀特征向量 x v進(jìn)行線性變換的權(quán)重矩陣， wq a ，wk a ，wv a是對(duì)所述音頻mel頻譜圖的音頻特征向量 x a進(jìn)行變換的權(quán)重矩陣；

9、s5.采用多頭自注意力機(jī)制分別處理所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a，計(jì)算所述待檢測視頻的視頻幀特征向量 x v的注意力權(quán)重矩陣 attention v和所述音頻mel頻譜圖的音頻特征向量 x a的注意力權(quán)重矩陣 attention a ，具體為：

10、；

11、其中， d k用以對(duì) q* k t乘積結(jié)果進(jìn)行歸一化；

12、s6.引入模態(tài)間交互注意力機(jī)制，比較所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a之間的相似性來增強(qiáng)模態(tài)間的交互，具體為：

13、；

14、s7.將所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a的兩種模態(tài)的特征加權(quán)融合，得到最終的多模態(tài)融合特征 f，具體為：

15、；

16、其中，是超參數(shù)；

17、s8.將所述多模態(tài)融合特征 f輸入由批量歸一化層、全連接層、激活函數(shù)和輸出層構(gòu)成的多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’，具體為：

18、；

19、其中， w是權(quán)重， f是所述多模態(tài)融合特征， b是偏差；

20、s9.將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果，得到所述待檢測視頻為真實(shí)類別和偽造類別的概率，通過比較所述待檢測視頻真實(shí)類別和偽造類別的概率值，判定所述待檢測視頻是否為偽造視頻，具體為：

21、；

22、s10.當(dāng)所述待檢測視頻為偽造類別的概率大于真實(shí)類別的概率時(shí)，判斷所述待檢測視頻為偽造視頻；否則，判斷所述待檢測視頻為偽造視頻。

23、進(jìn)一步地，s1中所述將待檢測視頻進(jìn)行預(yù)處理，得到多個(gè)視頻幀，包括：

24、s101.使用計(jì)算機(jī)視覺庫opencv中的videocapture函數(shù)讀取所述待檢測視頻，確定所述待檢測視頻的總幀數(shù)；

25、s102.根據(jù)所述待檢測視頻的總幀數(shù)，計(jì)算要提取視頻幀的間隔，均勻地從所述將待檢測視頻中提取多個(gè)視頻幀；

26、s103.將所述多個(gè)視頻幀進(jìn)行數(shù)據(jù)歸一化處理，變成浮點(diǎn)型數(shù)據(jù)。

27、進(jìn)一步地，s2中獲取所述待檢測視頻中的音頻文件，并將所述音頻文件轉(zhuǎn)換為mel頻譜圖，包括：

28、s201.通過調(diào)用視頻處理庫moviepy中的videofileclip函數(shù)讀取所述待檢測視頻文件，獲取所述待檢測視頻文件中的音頻文件，并將所述音頻文件保存為wav格式；

29、s202.通過調(diào)用音頻處理庫librosa庫加載所述wav音頻文件，以時(shí)間序列的形式存儲(chǔ)所述wav音頻文件中的音頻數(shù)據(jù)；

30、s203.通過調(diào)用音頻處理庫librosa庫中的melspectrogram函數(shù)，將所述wav音頻文件中的音頻數(shù)據(jù)轉(zhuǎn)換為mel頻譜圖，將所述mel頻譜圖的浮點(diǎn)型數(shù)據(jù)歸一化處理為整數(shù)值數(shù)據(jù)；

31、s204.對(duì)所述歸一化處理后mel頻譜圖進(jìn)行尺寸調(diào)整，將所述歸一化處理后mel頻譜圖縮放到指定的目標(biāo)大小。

32、進(jìn)一步地，s3中獲取所述檢測視頻的視頻幀特征向量 x v，包括：

33、s301.將輸入video?swin?transforme模型中所述多個(gè)視頻幀的每個(gè)視頻幀劃分為多個(gè)小的圖像塊，通過所述video?swin?transforme模型中線性嵌入層將所述多個(gè)小的圖像塊轉(zhuǎn)換為高維特征向量；

34、s302.引入時(shí)序編碼，將所述多個(gè)視頻幀之間的時(shí)間順序信息嵌入到所述高維特征向量中，經(jīng)所述video?swin?transforme模型處理后，得到所述檢測視頻的視頻幀特征向量 x v。

35、進(jìn)一步地，s3中獲取所述音頻mel頻譜圖的音頻特征向量 x a ，包括：

36、s303.將所述音頻mel頻譜圖輸入到預(yù)訓(xùn)練resnet18模型中，通過resnet18模型的多個(gè)卷積層和殘差模塊對(duì)所述音頻mel頻譜圖進(jìn)行深層次特征提??；

37、s304.通過resnet18模型的全局平均池化層，所述音頻mel頻譜圖被壓縮為音頻特征向量 x a，所述音頻特征向量 x a包含音頻信號(hào)的時(shí)頻信息。

38、進(jìn)一步地，s8中所得到述降維后的多模態(tài)融合特征 f’，包括：

39、s801.將所述多模態(tài)融合特征 f輸入所述批量歸一化層得到多模態(tài)融合特征 f1，確保所述多模態(tài)融合特征 f1具有零均值和單位方差；

40、s802.將所述多模態(tài)融合特征 f1輸入到全連接層，對(duì)所述多模態(tài)融合特征 f1進(jìn)行降維處理得到多模態(tài)融合特征 f2；

41、s803.將所述多模態(tài)融合特征 f2輸入所述批量歸一化層得到多模態(tài)融合特征 f3；

42、s804.將所述多模態(tài)融合特征 f3通過tanh激活函數(shù)進(jìn)行非線性變換，得到多模態(tài)融合特征 f4，其中：

43、；

44、s805.將所述多模態(tài)融合特征 f4輸入到輸出層，將所述多模態(tài)融合特征 f4壓縮為多模態(tài)融合特征 f’，其中所述多模態(tài)融合特征 f’是二維向量。

45、第二方面，本發(fā)明提出一種融合多模態(tài)信息的深度偽造視頻檢測裝置，采用了如第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法，包括：

46、數(shù)據(jù)處理模塊210：將待檢測視頻進(jìn)行預(yù)處理，獲取所述待檢測視頻的多個(gè)視頻幀及所述待檢測視頻中的音頻文件，并將所述音頻文件轉(zhuǎn)換為mel頻譜圖；

47、特征向量提取模塊220：根據(jù)所述待檢測視頻的多個(gè)視頻幀及所述音頻文件轉(zhuǎn)換為mel頻譜圖獲取所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a；

48、多模態(tài)注意力融合模塊230：根據(jù)所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a，對(duì)所述待檢測視頻的視頻幀特征向量 x v和所述音頻mel頻譜圖的音頻特征向量 x a進(jìn)行多模態(tài)交叉注意力特征融合，得到多模態(tài)融合特征 f；

49、視頻偽造檢測模塊240：將所述多模態(tài)融合特征 f輸入多層全連接神經(jīng)網(wǎng)絡(luò) d得到降維后的多模態(tài)融合特征 f’，將所述降維后的多模態(tài)融合特征 f’輸入分類器得到分類結(jié)果，判斷所述待檢測視頻是否是偽造視頻。

50、第三方面，本發(fā)明還提供了一種電子設(shè)備，包括：存儲(chǔ)器和處理器；

51、其中，存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)執(zhí)行指令；

52、處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令，使得處理器執(zhí)行本發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。

53、第四方面，本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中存儲(chǔ)有多條指令，指令由處理器加載，使處理器執(zhí)行本發(fā)明發(fā)明第一方面所述的任一融合多模態(tài)信息的深度偽造視頻檢測方法。

54、本發(fā)明的有益效果是：本技術(shù)方案提出的融合多模態(tài)信息的深度偽造視頻檢測方法及裝置，能解決偽造內(nèi)容在經(jīng)過壓縮、傳輸或編輯后，通過結(jié)合視頻中的視覺信息、音頻信息及其跨模態(tài)之間的關(guān)系，全面分析偽造內(nèi)容中的不一致性，進(jìn)而提高偽造視頻檢測的準(zhǔn)確性和魯棒性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李光輝,彭勝聰,郭玉剛
技術(shù)所有人：合肥高維數(shù)據(jù)技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種融合多模態(tài)信息的深度偽造視頻檢測方法及裝置與流程