欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于跨模態(tài)掩碼建模的深度偽造檢測方法、裝置和設(shè)備

文檔序號:40526972發(fā)布日期:2024-12-31 13:36閱讀:8來源:國知局
基于跨模態(tài)掩碼建模的深度偽造檢測方法、裝置和設(shè)備

本技術(shù)涉及深度偽造檢測,特別是涉及一種基于跨模態(tài)掩碼建模的深度偽造檢測方法、裝置和設(shè)備。


背景技術(shù):

1、深度偽造技術(shù)是指在視頻或圖像中對人物的面部進(jìn)行欺騙性的修改,該項技術(shù)可以制作高保真視頻,其中包括虛構(gòu)的面部表情、定制的語音陳述或在視覺媒體中無縫替換面部,目前已經(jīng)引起了包括娛樂、新聞和藝術(shù)在內(nèi)的各個行業(yè)的廣泛關(guān)注,迫切需要對深度偽造檢測機(jī)制進(jìn)行廣泛研究,以減少對該技術(shù)的濫用。

2、深度偽造檢測機(jī)制旨在通過識別視頻或圖像中的欺騙性線索來實現(xiàn)精確分類。這些技術(shù)通常分為兩大類:單模態(tài)和多模態(tài)方法。傳統(tǒng)的單模態(tài)檢測方法只關(guān)注基于圖像的內(nèi)容,仔細(xì)檢查面部區(qū)域的偽影、扭曲、頻率變化和其他指示操縱的微妙空間細(xì)節(jié)。然而,這種方法僅限于靜態(tài)圖像數(shù)據(jù),難以處理復(fù)雜多媒體內(nèi)容的動態(tài)性。近年來,利用多模態(tài)技術(shù)進(jìn)行深度偽造檢測的工作取得了顯著的成果。在處理音頻偽造場景時,不僅要考慮視覺上的人工制品,還要納入聽覺的線索。

3、現(xiàn)有的研究分別為視覺和聽覺數(shù)據(jù)開發(fā)了特定于模態(tài)的檢測模型,并隨后合并這些分類結(jié)果以產(chǎn)生統(tǒng)一的輸出。然而,這些方法分離了多模態(tài)信息,忽略了不同模態(tài)之間的相互關(guān)系。最新的研究主要集中在通過融合兩個模態(tài)的特征來提取模態(tài)之間的全局相關(guān)性。例如,深度假視頻與真實視頻相比,音頻和視覺之間的時間延遲存在巨大差異,采用自回歸模型來擬合真實視頻中模式之間的時間延遲分布,隨后將表現(xiàn)出異常時間延遲的樣本標(biāo)記為深度偽造視頻。雖然這些方法利用了來自視聽對的高級語義信息,但它們忽略了異構(gòu)模態(tài)的淺層細(xì)節(jié)的耦合,而這對于多模態(tài)深度假檢測至關(guān)重要。

4、因此,如何利用結(jié)合視聽對的高級語義信息以及異構(gòu)模態(tài)的淺層細(xì)節(jié)的耦合來提升深度偽造檢測模型的性能仍然是一項巨大的挑戰(zhàn)。


技術(shù)實現(xiàn)思路

1、基于此,有必要針對上述技術(shù)問題,提供一種基于跨模態(tài)掩碼建模的深度偽造檢測方法、裝置和設(shè)備,該方法利用掩碼建模技術(shù)來學(xué)習(xí)真實視頻的表征以及將視聽模態(tài)的特征進(jìn)行交叉融合和對比學(xué)習(xí)從而提高偽造檢測性能。

2、一種基于跨模態(tài)掩碼建模的深度偽造檢測方法,所述方法包括:

3、構(gòu)建包括多模態(tài)掩碼建模模塊、跨注意力融合模塊和對比學(xué)習(xí)模塊的深度偽造檢測模型;其中,多模態(tài)掩碼建模模塊用于提取音視頻序列中的視頻模態(tài)與音頻模態(tài),并分別針對視頻模態(tài)與音頻模態(tài)依次進(jìn)行切分、掩碼建模、位置編碼和特征編碼處理,輸出得到均由編碼類令牌和編碼特征組成的視頻特征和音頻特征;跨注意力融合模塊用于融合視頻特征和音頻特征中的編碼特征得到融合編碼特征,基于融合編碼特征進(jìn)行跨注意力建模,并將建模得到的視頻跨注意力編碼特征和音頻跨注意力編碼特征進(jìn)行特征解碼,輸出得到音視頻重建結(jié)果;對比學(xué)習(xí)模塊用于融合視頻特征和音頻特征中的編碼類令牌得到互信息矩陣,并基于互信息矩陣計算得到音視頻相似度;

4、根據(jù)跨注意力融合模塊輸出的音視頻重建結(jié)果構(gòu)建音視頻重建損失,根據(jù)對比學(xué)習(xí)模塊輸出的音視頻相似度構(gòu)建音視頻對比學(xué)習(xí)損失,綜合音視頻重建損失和音視頻對比學(xué)習(xí)損失對深度偽造檢測模型進(jìn)行訓(xùn)練優(yōu)化,直至得到訓(xùn)練好的深度偽造檢測模型;

5、將待檢測音視頻序列輸入訓(xùn)練好的深度偽造檢測模型,根據(jù)模型中的多模態(tài)掩碼建模模塊提取待檢測的音視頻編碼特征,根據(jù)跨注意力融合模塊融合待檢測的音視頻編碼特征并進(jìn)行跨注意力建模,輸出得到待檢測的音視頻跨注意力編碼特征,通過將待檢測的音視頻跨注意力編碼特征輸入分類器進(jìn)行音視頻匹配相關(guān)檢測,輸出得到音視頻序列的偽造檢測結(jié)果。

6、在其中一個實施例中,多模態(tài)掩碼建模模塊提取音視頻序列中的視頻模態(tài)與音頻模態(tài),并分別針對視頻模態(tài)與音頻模態(tài)依次進(jìn)行切分、掩碼建模、位置編碼和特征編碼處理,輸出得到均由編碼類令牌和編碼特征組成的視頻特征和音頻特征,包括:

7、提取音視頻序列中的視頻模態(tài),根據(jù)預(yù)設(shè)的第一步長與第二步長將視頻模態(tài)切分為視頻塊,針對每個視頻塊進(jìn)行掩碼建模,并對所有掩碼值為1的視頻塊依次進(jìn)行平鋪處理和位置編碼,得到位置編碼后的未掩碼視頻特征,將位置編碼后的未掩碼視頻特征以及視頻模態(tài)的可學(xué)習(xí)的嵌入向量clsv輸入至基于vit的編碼器進(jìn)行視頻特征編碼,輸出得到包含視頻編碼類令牌與視頻編碼特征的視頻特征;

8、提取音視頻序列中的音頻模態(tài)并轉(zhuǎn)換為對應(yīng)的梅爾譜圖,根據(jù)預(yù)設(shè)的第三步長將梅爾譜圖切分為單元塊,針對每個單元塊進(jìn)行掩碼建模,并對所有掩碼值為1的單元塊依次進(jìn)行平鋪處理和位置編碼,得到位置編碼后的未掩碼音頻特征,將位置編碼后的未掩碼音頻特征和音頻模態(tài)的可學(xué)習(xí)的嵌入向量clsa輸入至基于vit的編碼器進(jìn)行音頻特征編碼,輸出得到包含音頻編碼類令牌與音頻編碼特征的音頻特征。

9、在其中一個實施例中,提取音視頻序列中的視頻模態(tài),根據(jù)預(yù)設(shè)的第一步長與第二步長將視頻模態(tài)切分為視頻塊,針對每個視頻塊進(jìn)行掩碼建模,并對所有掩碼值為1的視頻塊依次進(jìn)行平鋪處理和位置編碼,得到位置編碼后的未掩碼視頻特征,將位置編碼后的未掩碼視頻特征以及視頻模態(tài)的可學(xué)習(xí)的嵌入向量clsv輸入至基于vit的編碼器進(jìn)行視頻特征編碼,輸出得到包含視頻編碼類令牌與視頻編碼特征的視頻特征,包括:

10、提取音視頻序列中的視頻模態(tài)v;其中,表示音視頻序列所屬的實數(shù)空間,d表示音視頻序列的深度,h、w和c分別對應(yīng)每幀的高度、寬度和通道數(shù);

11、根據(jù)預(yù)設(shè)的第一步長τ1與第二步長τ2將視頻模態(tài)v切分為視頻塊αd,h,w,表示為

12、

13、其中,d′、h′和w′分別表示d、h和w的總步數(shù),d、h和w分別表示d、h和w的索引;

14、針對每個視頻塊αd,h,w進(jìn)行掩碼建模,將每個視頻塊αd,h,w對應(yīng)的掩碼指定為其中,的值為0或1,當(dāng)取0時表示屏蔽該掩碼對應(yīng)的視頻塊,當(dāng)取1時表示保留該掩碼對應(yīng)的視頻塊;

15、利用patchemb3d算法對所有掩碼值為1的視頻塊進(jìn)行平鋪處理,得到未掩碼視頻特征ωv,表示為

16、

17、對未掩碼視頻特征ωv進(jìn)行位置編碼,得到位置編碼后的未掩碼視頻特征表示為

18、

19、其中,表示未掩碼視頻特征中每個位置對(m,n)的位置編碼,表示每個位置對(m,n)的未掩碼視頻特征,sincospos表示正弦位置編碼,m∈m且n∈n,m和n分別表示未掩碼視頻特征的高度和寬度;

20、將位置編碼后的未掩碼視頻特征以及視頻模態(tài)的可學(xué)習(xí)的嵌入向量clsv輸入至基于vit的編碼器進(jìn)行視頻特征編碼,輸出得到包含視頻編碼類令牌clsv與視頻編碼特征ξv的視頻特征,表示為

21、

22、其中,vitencoder表示基于vit的編碼器。

23、在其中一個實施例中,提取音視頻序列中的音頻模態(tài)并轉(zhuǎn)換為對應(yīng)的梅爾譜圖,根據(jù)預(yù)設(shè)的第三步長將梅爾譜圖切分為單元塊,針對每個單元塊進(jìn)行掩碼建模,并對所有掩碼值為1的單元塊依次進(jìn)行平鋪處理和位置編碼,得到位置編碼后的未掩碼音頻特征,將位置編碼后的未掩碼音頻特征和音頻模態(tài)的可學(xué)習(xí)的嵌入向量clsa輸入至基于vit的編碼器進(jìn)行音頻特征編碼,輸出得到包含音頻編碼類令牌與音頻編碼特征的音頻特征,包括:

24、提取音視頻序列中的音頻模態(tài)a,并將音頻模態(tài)a轉(zhuǎn)換為對應(yīng)的梅爾譜圖amel,并根據(jù)預(yù)設(shè)的第三步長τ3將梅爾譜圖amel切分為單元塊梅爾譜圖amel和單元塊分別表示為

25、

26、其中,mel_spectrogram表示梅爾譜圖轉(zhuǎn)換,h和w分別表示h和w的索引,表示音視頻序列所屬的實數(shù)空間,h和w分別對應(yīng)每幀的高度和寬度;

27、針對每個單元塊進(jìn)行掩碼建模,將每個單元塊對應(yīng)的掩碼指定為其中,的值為0或1,當(dāng)取0時表示屏蔽該掩碼對應(yīng)的單元塊,當(dāng)取1時表示保留該掩碼對應(yīng)的單元塊;

28、采用patchemb2d算法對所有掩碼值為1的單元塊進(jìn)行平鋪處理,得到未掩碼音頻特征表示為

29、

30、對未掩碼音頻特征進(jìn)行位置編碼,得到位置編碼后的未掩碼音頻特征表示為

31、

32、其中,表示未掩碼音頻特征的位置編碼,sincospos表示正弦位置編碼;

33、將位置編碼后的未掩碼音頻特征和音頻模態(tài)的可學(xué)習(xí)的嵌入向量clsa輸入至基于vit的編碼器進(jìn)行音頻特征編碼,輸出得到包括音頻編碼類令牌clsa與音頻編碼特征γa的音頻特征,表示為

34、

35、其中,vitencoder表示基于vit的編碼器。

36、在其中一個實施例中,跨注意力融合模塊融合視頻特征和音頻特征中的編碼特征得到融合編碼特征,基于融合編碼特征進(jìn)行跨注意力建模,包括:

37、通過融合視頻特征中的視頻編碼特征ξv與音頻特征中的音頻編碼特征γa,得到融合編碼特征βva,表示為βva=concat(ξv,γa),其中,concat表示融合處理;

38、基于融合編碼特征βva進(jìn)行跨注意力建模,得到視頻跨注意力編碼特征φv和音頻跨注意力編碼特征φa,分別表示為

39、

40、其中,q、k、v分別表示查詢向量、鍵向量和值向量,wq、wk和wv分別表示經(jīng)過注意力機(jī)制轉(zhuǎn)換后的查詢向量、鍵向量和值向量,softmax表示歸一化指數(shù)函數(shù),上標(biāo)t表示轉(zhuǎn)置操作。

41、在其中一個實施例中,跨注意力融合模塊將跨注意力建模得到的視頻跨注意力編碼特征和音頻跨注意力編碼特征進(jìn)行特征解碼,輸出得到音視頻重建結(jié)果,包括:

42、采用基于vit的解碼器,將跨注意力建模得到的視頻跨注意力編碼特征φv和音頻跨注意力編碼特征φa分別進(jìn)行特征解碼,得到視頻重建結(jié)果和音頻重建結(jié)果分別表示為

43、

44、其中,vitdecoder表示基于vit的解碼器。

45、在其中一個實施例中,對比學(xué)習(xí)模塊融合視頻特征和音頻特征中的編碼類令牌得到互信息矩陣,并基于互信息矩陣計算得到音視頻相似度,包括:

46、通過融合視頻特征的視頻編碼類令牌clsv與音頻特征中的音頻編碼類令牌clsa,得到互信息矩陣ψn×n,表示為

47、

48、其中,上標(biāo)t表示轉(zhuǎn)置操作,n表示未掩碼視頻特征的寬度;

49、將互信息矩陣ψn×n的對角元素進(jìn)行累加,得到音視頻相似度similar(v,a),表示為

50、

51、其中,v和a分別表示視頻模態(tài)與音頻模態(tài),ψi,j表示互信息矩陣中的第i行第j列元素。

52、在其中一個實施例中,根據(jù)跨注意力融合模塊輸出的音視頻重建結(jié)果構(gòu)建音視頻重建損失,根據(jù)對比學(xué)習(xí)模塊輸出的音視頻相似度構(gòu)建音視頻對比學(xué)習(xí)損失,綜合音視頻重建損失和音視頻對比學(xué)習(xí)損失對深度偽造檢測模型進(jìn)行訓(xùn)練優(yōu)化,直至得到訓(xùn)練好的深度偽造檢測模型,包括:

53、根據(jù)跨注意力融合模塊輸出的視頻重建結(jié)果與音頻重建結(jié)果構(gòu)建音視頻重建損失表示為

54、

55、其中,lossv表示視頻重建損失,lossa表示音頻重建損失,mae表示掩碼自編碼器,和分別表示視頻重建結(jié)果和音頻重建結(jié)果,表示視頻塊αd,h,w對應(yīng)的掩碼,表示單元塊對應(yīng)的掩碼;

56、根據(jù)對比學(xué)習(xí)模塊輸出的音視頻相似度similar(v,a)構(gòu)建音視頻對比學(xué)習(xí)損失表示為其中,v和a分別表示視頻模態(tài)與音頻模態(tài);

57、綜合音視頻重建損失和音視頻對比學(xué)習(xí)損失構(gòu)建最終損失表示為其中,λ表示平衡和的權(quán)重因子;

58、基于最終損失對深度偽造檢測模型進(jìn)行訓(xùn)練優(yōu)化,直至得到訓(xùn)練好的深度偽造檢測模型。

59、一種基于跨模態(tài)掩碼建模的深度偽造檢測裝置,所述裝置包括:

60、模型構(gòu)建單元,用于構(gòu)建包括多模態(tài)掩碼建模模塊、跨注意力融合模塊和對比學(xué)習(xí)模塊的深度偽造檢測模型;其中,多模態(tài)掩碼建模模塊用于提取音視頻序列中的視頻模態(tài)與音頻模態(tài),并分別針對視頻模態(tài)與音頻模態(tài)依次進(jìn)行切分、掩碼建模、位置編碼和特征編碼處理,輸出得到均由編碼類令牌和編碼特征組成的視頻特征和音頻特征;跨注意力融合模塊用于融合視頻特征和音頻特征中的編碼特征得到融合編碼特征,基于融合編碼特征進(jìn)行跨注意力建模,并將建模得到的視頻跨注意力編碼特征和音頻跨注意力編碼特征進(jìn)行特征解碼,輸出得到音視頻重建結(jié)果;對比學(xué)習(xí)模塊用于融合視頻特征和音頻特征中的編碼類令牌得到互信息矩陣,并基于互信息矩陣計算得到音視頻相似度;

61、模型訓(xùn)練單元,用于根據(jù)跨注意力融合模塊輸出的音視頻重建結(jié)果構(gòu)建音視頻重建損失,根據(jù)對比學(xué)習(xí)模塊輸出的音視頻相似度構(gòu)建音視頻對比學(xué)習(xí)損失,綜合音視頻重建損失和音視頻對比學(xué)習(xí)損失對深度偽造檢測模型進(jìn)行訓(xùn)練優(yōu)化,直至得到訓(xùn)練好的深度偽造檢測模型;

62、偽造檢測單元,用于將待檢測音視頻序列輸入訓(xùn)練好的深度偽造檢測模型,根據(jù)模型中的多模態(tài)掩碼建模模塊提取待檢測的音視頻編碼特征,根據(jù)跨注意力融合模塊融合待檢測的音視頻編碼特征并進(jìn)行跨注意力建模,輸出得到待檢測的音視頻跨注意力編碼特征,通過將待檢測的音視頻跨注意力編碼特征輸入分類器進(jìn)行音視頻匹配相關(guān)檢測,輸出得到音視頻序列的偽造檢測結(jié)果。

63、一種計算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)以下步驟:

64、構(gòu)建包括多模態(tài)掩碼建模模塊、跨注意力融合模塊和對比學(xué)習(xí)模塊的深度偽造檢測模型;其中,多模態(tài)掩碼建模模塊用于提取音視頻序列中的視頻模態(tài)與音頻模態(tài),并分別針對視頻模態(tài)與音頻模態(tài)依次進(jìn)行切分、掩碼建模、位置編碼和特征編碼處理,輸出得到均由編碼類令牌和編碼特征組成的視頻特征和音頻特征;跨注意力融合模塊用于融合視頻特征和音頻特征中的編碼特征得到融合編碼特征,基于融合編碼特征進(jìn)行跨注意力建模,并將建模得到的視頻跨注意力編碼特征和音頻跨注意力編碼特征進(jìn)行特征解碼,輸出得到音視頻重建結(jié)果;對比學(xué)習(xí)模塊用于融合視頻特征和音頻特征中的編碼類令牌得到互信息矩陣,并基于互信息矩陣計算得到音視頻相似度;

65、根據(jù)跨注意力融合模塊輸出的音視頻重建結(jié)果構(gòu)建音視頻重建損失,根據(jù)對比學(xué)習(xí)模塊輸出的音視頻相似度構(gòu)建音視頻對比學(xué)習(xí)損失,綜合音視頻重建損失和音視頻對比學(xué)習(xí)損失對深度偽造檢測模型進(jìn)行訓(xùn)練優(yōu)化,直至得到訓(xùn)練好的深度偽造檢測模型;

66、將待檢測音視頻序列輸入訓(xùn)練好的深度偽造檢測模型,根據(jù)模型中的多模態(tài)掩碼建模模塊提取待檢測的音視頻編碼特征,根據(jù)跨注意力融合模塊融合待檢測的音視頻編碼特征并進(jìn)行跨注意力建模,輸出得到待檢測的音視頻跨注意力編碼特征,通過將待檢測的音視頻跨注意力編碼特征輸入分類器進(jìn)行音視頻匹配相關(guān)檢測,輸出得到音視頻序列的偽造檢測結(jié)果。

67、上述基于跨模態(tài)掩碼建模的深度偽造檢測方法、裝置和設(shè)備,通過構(gòu)建并訓(xùn)練深度偽造檢測模型進(jìn)行偽造檢測,其中,基于模型中的多模態(tài)掩碼建模模塊能夠采用跨模態(tài)掩碼建模的方式來利用異質(zhì)模態(tài)的內(nèi)在交互,以重建視頻和音頻特征,增強(qiáng)多模態(tài)表示并減輕過擬合傾向,為偽造檢測奠定了堅實的數(shù)據(jù)基礎(chǔ);基于模型中的跨注意力融合模塊能夠局部精細(xì)融合兩種異構(gòu)模態(tài)的淺層特征,促進(jìn)了異構(gòu)模態(tài)間信息的無縫對接與互補(bǔ),進(jìn)一步提升了模型對偽造內(nèi)容的敏感度和識別能力;基于模型中的對比學(xué)習(xí)模塊能夠采用視音頻對比學(xué)習(xí)策略來在全球范圍內(nèi)對齊視頻特征和音頻特征,強(qiáng)化了特征間的一致性檢驗,這一策略不僅提升了模型對偽造內(nèi)容的全局辨識能力,還增強(qiáng)了模型在不同偽造手法下的泛化性能,確保了偽造檢測結(jié)果的穩(wěn)定性和可靠性。本技術(shù)通過多模態(tài)掩碼建模、跨注意力融合以及對比學(xué)習(xí),構(gòu)建了一個高效、精準(zhǔn)且魯棒性強(qiáng)的深度偽造檢測模型,為應(yīng)對日益復(fù)雜的偽造挑戰(zhàn)提供了強(qiáng)有力的技術(shù)支持。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
科尔| 昌江| 建瓯市| 栾城县| 盱眙县| 阿尔山市| 额尔古纳市| 江达县| 玉环县| 淮安市| 通渭县| 疏勒县| 榆林市| 滨海县| 南通市| 双辽市| 泰州市| 永定县| 托克托县| 集安市| 禹城市| 两当县| 浦县| 乌拉特中旗| 石门县| 白河县| 哈巴河县| 建平县| 宁明县| 嘉善县| 岳普湖县| 汽车| 永州市| 永泰县| 金湖县| 隆安县| 永平县| 玛曲县| 孝感市| 衡山县| 五河县|