本發(fā)明屬于自然語言處理領域,具體涉及一種融合多粒度特征的多模態(tài)謠言檢測方法及系統(tǒng)。
背景技術:
1、謠言檢測(rumor?detection),又稱虛假新聞檢測,是自然語言處理(nlp)領域中一項重要的研究任務。隨著社交媒體的興起,微博、twitter等社交媒體已經(jīng)成為人們不可缺少的交流工具。但由于社交媒體傳播速度快且范圍廣,謠言已逐漸成為人們關注的重要問題。在社交媒體中,謠言是一種未經(jīng)證實的信息表述,通常會使用虛假或者偽造的圖像以及煽動性的文字誤導用戶。謠言的出現(xiàn)常常會給個人或社會造成巨大的經(jīng)濟損失和嚴重的危害。雖然各社交媒體機構已陸續(xù)上線了辟謠平臺來加強對謠言的管控,但這些平臺仍需要耗費大量人力物力收集信息來判斷謠言的真實性。因此,迫切需要一種能夠有效檢測謠言的自動化方法。
2、由于深度學習方法相較于傳統(tǒng)機器學習方法具有很大的性能優(yōu)勢,越來越多的研究學者開始將深度學習方法應用到謠言檢測問題中。劉政等人]提出了基于卷積神經(jīng)網(wǎng)絡的謠言檢測模型。將謠言的文本內(nèi)容向量化,經(jīng)卷積神經(jīng)網(wǎng)絡挖掘文本深層特征,這些特征涵蓋一些不易被人發(fā)現(xiàn)的特征,從而提升了性能。ma等人首次將循環(huán)神經(jīng)網(wǎng)絡應用到謠言檢測中,該算法能夠?qū)W習微博帖子的隱藏表示,并通過該表示展示相關帖子隨著時間推移而發(fā)生變化的上下文信息,實驗結(jié)果表明深度學習模型在該領域的明顯優(yōu)勢。bi等人將微博的信息傳輸網(wǎng)絡建模為具有各種語義信息的異構圖,然后構建基于圖的謠言檢測模型,利用注意力層捕獲和聚合其語義信息。dou等人考慮到了用戶偏好對謠言檢測任務帶來的影響,文中表明,用戶的歷史、社交活動(例如帖子)提供了有關用戶對新聞偏好的豐富信息,并且具有促進謠言檢測的巨大潛力。
3、現(xiàn)如今,社交媒體上發(fā)布的帖子通常采用文本和圖像相結(jié)合的形式,這兩種不同模態(tài)可以提供各自獨特的信息,彼此相互補充。已經(jīng)有研究表明,圖像可以通過提供豐富的視覺信息,幫助用戶更好地理解和記憶文本內(nèi)容。因此,在謠言檢測任務中,有必要同時利用文本和圖像信息來識別謠言。khattar等人提出了一種用于謠言檢測的多模態(tài)變分自動編碼器來學習文本和圖片兩個模態(tài)的共享表示。zhang等人通過引入立場任務,設計了一個多模態(tài)多任務學習框架。zhou等人考慮文本信息和視覺信息之間的相關性,根據(jù)文本和圖像的不匹配信息來識別謠言。wang等人提出了kmgcn,將文本、視覺和知識信息整合到一個統(tǒng)一的框架中,對語義表示進行建模,進一步提高準確性。
4、盡管現(xiàn)有的謠言檢測方法已經(jīng)取得了一些成果,但是它們?nèi)匀淮嬖谝欢ǖ木窒扌裕绕涫窃诙嗄B(tài)謠言檢測研究方面,對于文本和圖像數(shù)據(jù)的充分利用以及兩種模態(tài)之間的有效融合兩個方面還有所欠缺,沒有效衡量圖像和文本的歧義性,導致噪聲的引入。其次,對于評論,只是簡單地引入所有評論,沒有研究評論的內(nèi)在關系。這些問題都可能導致謠言的檢測性能下降。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種融合多粒度特征的多模態(tài)謠言檢測方法及系統(tǒng),該方法及系統(tǒng)有利于提高謠言檢測的準確性和可靠性。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術方案是:一種融合多粒度特征的多模態(tài)謠言檢測方法,包括以下步驟:
3、步驟a:在社交媒體中收集多媒體帖子,提取出帖子中的文本、圖像和評論,并對帖子的真實性標簽進行標注,以此構建訓練數(shù)據(jù)集ds;
4、步驟b:構建融合多粒度特征的多模態(tài)謠言檢測模型m,所述多模態(tài)謠言檢測模型m提取帖子中的多粒度特征,深度融合圖文特征,并通過圖文相似度權重實現(xiàn)圖文歧義性的消解,還充分挖掘評論的信息,從不同角度利用評論,最終還通過對比學習捕獲同類別社交媒體帖子的相似信息;使用訓練數(shù)據(jù)集ds訓練多模態(tài)謠言檢測模型m;
5、步驟c:將未檢測多媒體帖子的文本、圖像和評論輸入到訓練好的多模態(tài)謠言檢測模型m中,獲得多媒體帖子的真實性標簽。
6、進一步地,所述步驟b具體包括以下步驟:
7、步驟b1:對訓練數(shù)據(jù)集ds中的所有訓練樣本進行處理,得到評論中的補充證據(jù)、主流觀點以及圖像的文本表示,使用amr圖工具生成文本的圖表示gt;
8、步驟b2:使用bert分別對文本、補充證據(jù)、主流觀點和圖像的文本表示進行編碼,得到文本細粒度表征向量tfine、補充證據(jù)表征向量csup、主流觀點表征向量cmain、圖像粗粒度表征向量vcoarse,使用swin-t對圖像進行編碼得到圖像細粒度表征向量vfine,使用bert對文本圖表示編碼,輸入gcn得到文本粗粒度表征向量tcoarse;
9、步驟b3:級聯(lián)圖像粗粒度表征向量vcoarse和文本粗粒度表征向量tcoarse得到圖文粗粒度表征向量tvcoarse,通過協(xié)同注意力機制融合文本細粒度表征向量tfine和圖像細粒度表征向量vfine,得到圖文細粒度表征向量tvfine,級聯(lián)圖文粗粒度表征向量tvcoarse和圖文細粒度表征向量tvfine,并乘以圖文相似度權重得到跨模態(tài)表征向量fm;
10、步驟b4:級聯(lián)聚合的文本細粒度表征向量tfine和聚合的文本粗粒度表征向量tcoarse,通過投影頭映射得到文本單模態(tài)表征向量ft,級聯(lián)聚合的圖像細粒度表征向量vfine和聚合的圖像粗粒度表征向量vcoarse,通過投影頭映射得到圖像單模態(tài)表征向量fv;
11、步驟b5:通過協(xié)同注意力機制分別實現(xiàn)補充證據(jù)表征向量csup與文本單模態(tài)表征向量ft、圖像單模態(tài)表征向量fv、跨模態(tài)表征向量fm的交互,得到文本評論交互表征向量ftc、圖像評論交互表征向量fvc、跨模態(tài)評論交互表征向量fmc;
12、步驟b6:級聯(lián)文本評論交互表征向量ftc、圖像評論交互表征向量fvc、跨模態(tài)評論交互表征向量fmc得到多模態(tài)表征向量fout,通過有監(jiān)督對比學習來對齊多模態(tài)表征向量fout;
13、步驟b7:將多模態(tài)表征向量fout和主流觀點表征向量cmain聯(lián)合輸入到全連接層中,獲得帖子的預測結(jié)果;然后根據(jù)目標損失函數(shù)loss,通過利用反向傳播方法計算多模態(tài)謠言檢測模型中各參數(shù)的梯度,并利用反向傳播迭代更新模型的所有參數(shù);
14、步驟b8:當多模態(tài)謠言檢測模型每次迭代產(chǎn)生的損失值變化小于所給閾值或者達到最大迭代次數(shù)時,則終止模型的訓練過程。
15、進一步地,所述步驟b1具體包括以下步驟:
16、步驟b11:對訓練數(shù)據(jù)集ds的樣本數(shù)據(jù)進行遍歷,對帖子的文本和評論內(nèi)容同時進行分詞處理并去除停用詞和特殊符號,并對包含無效圖像的帖子進行刪除;ds中的每個樣本帖子
17、si表示為si=(ti,ri,vi,a);其中,ti和ui分別表示帖子的文本和圖像,ri表示帖子si相應的評論集合,表示帖子si的第j條評論;a為帖子對應的真實性標簽,a∈{非謠言,謠言};
18、帖子的文本ti表示為:
19、
20、其中,為帖子文本內(nèi)容ti中的第k個詞,k=1,2,…,n,n為帖子文本ti的詞語數(shù)量;
21、帖子的評論表示為:
22、
23、其中,為評論內(nèi)容中的第k個詞,i=1,2,…,m,m為評論rj的詞語數(shù)量;
24、步驟b12:利用社交媒體帖子檢索評論,得到評論中的補充證據(jù)集合表示帖子si的第k條補充證據(jù);
25、通過基于相似度的選擇機制來提取主流觀點;首先使用bert對評論進行編碼,得到評論表征向量表示為:
26、
27、其中,表示第k個詞在bert編碼中最后一個隱藏狀態(tài)的輸出,d表示詞嵌入表征向量的維度;
28、通過計算每個評論與其他評論的相似度得到一個序列間注意矩陣其中n是一條社交媒體帖子下的評論數(shù);um,n表示評論m和評論n之間的相似度,形式化為:
29、
30、在獲取序列間注意矩陣后,計算每條評論與其他所有評論的相似度總和,選擇相似度總和最高的top-k個評論,作為主流觀點表示帖子si的第k條主流觀點;
31、步驟b13:使用多模態(tài)大模型visualglm對圖像進行翻譯,得到圖像的文本描述vti,i表示第i個社交媒體帖子的圖像;
32、步驟b14:使用amr圖解釋器生成帖子的文本的抽象語義圖表示gt,使用bert對gt進行編碼得到文本抽象語義表征ht。
33、進一步地,所述步驟b2具體包括以下步驟:
34、步驟b21:對步驟b11得到的文本通過bert進行編碼,得到文本ti的細粒度表征向量tfine;tfine表示為:
35、
36、其中,表示第k個詞在bert編碼中最后一個隱藏狀態(tài)的輸出,b表示詞嵌入表征向量的維度;
37、將帖子中的圖像vi輸入到swin-t中進行編碼,得到圖像細粒度表征向量vfine:
38、
39、其中,表示對應于輸入中的第k個窗口在模型最后一層輸出的隱藏狀態(tài),np是swin-t中的批次數(shù)量,s是視覺嵌入的隱藏大小;
40、步驟b22:對步驟b12得到的補充證據(jù)集合通過bert進行編碼,得到補充證據(jù)的初始表征向量
41、
42、其中,表示第k個詞在bert編碼中最后一個隱藏狀態(tài)的輸出,d表示詞嵌入表征向量的維度;
43、所有補充證據(jù)的初始表征向量的平均向量表示為最終的補充證據(jù)表征向量csup:
44、
45、對步驟b12得到的主流觀點集合通過bert進行編碼,得到主流觀點的初始表征向量
46、
47、其中,表示第k個詞在bert編碼中最后一個隱藏狀態(tài)的輸出,d表示詞嵌入表征向量的維度;
48、所有主流觀點的初始表征向量的平均向量表示為最終的主流觀點表征向量cmain:
49、
50、步驟b23:對步驟b13得到的圖像的文本描述vti使用bert進行編碼,得到圖像粗粒度表征向量vcoarse;vcoarse表示為:
51、
52、其中,表示第k個詞在bert編碼中最后一個隱藏狀態(tài)的輸出,d表示詞嵌入表征向量的維度;
53、步驟b24:將步驟b14得到的文本抽象語義表征ht輸入圖卷積神經(jīng)網(wǎng)絡gcn得到文本粗粒度表征向量tcoarse;tcoarse表示為:
54、tcoarse=gcn(ht)。
55、進一步地,所述步驟b3具體包括以下步驟:
56、步驟b31:對步驟b2中得到的文本細粒度表征向量tfine和圖像細粒度表征向量vfine,使用協(xié)同注意力變壓器ct來融合;
57、ct由一個多頭注意力網(wǎng)絡和一個前饋神經(jīng)網(wǎng)絡組成;
58、將不同的模態(tài)輸入表示為i1和i2;在ct中,u1用作查詢q,和u2用作鍵k和值v,ct將每個頭hi的協(xié)同注意力矩陣計算為:
59、
60、其中,softmax表示激活函數(shù),投影矩陣分別對應q、k、v,dh=dm/m,dm是ct的維度,m是頭的數(shù)量;
61、多頭注意力h是所有協(xié)同注意力矩陣級聯(lián)之后的投影:
62、h=(h1;h2;...;hm)wo
63、其中,符號;表示級聯(lián)操作,投影矩陣
64、之后h和i1通過具有兩層歸一化的前饋神經(jīng)網(wǎng)絡ffn,得到基于注意力的多模態(tài)表示h':
65、h'=norm(i1+ffn(norm(i1+hi1)))
66、多模態(tài)表示h'被平均池化為特征向量f作為ct的輸出;
67、特征tfine和特征vfine通過線性層被映射到相同維度作為i1和i2以不同的順序輸入到一個共享的加權ct中,得到輸出特征,包括一個視覺注意加權的文本特征fvt和一個文本注意加權的視覺特征ftv:
68、
69、其中,
70、步驟b32:級聯(lián)步驟b2得到的圖像粗粒度表征向量vcoarse和文本粗粒度表征向量tcoarse送入前饋神經(jīng)網(wǎng)絡ffn1得到圖文粗粒度表征向量tvcoarse,級聯(lián)步驟b31中的視覺注意加權的文本特征fvt和文本注意加權的視覺特征ftv送入前饋神經(jīng)網(wǎng)絡ffn2得到圖文細粒度表征向量tvfine:
71、
72、步驟b33:通過計算圖像粗粒度表征向量vcoarse和文本粗粒度表征向量tcoarse的余弦相似度,余弦相似度視為圖文相似度權重,作為跨模態(tài)特征的加權系數(shù)來指導分類器的學習過程;余弦相似度計算如下:
73、
74、級聯(lián)圖文粗粒度表征向量tvcoarse和圖文細粒度表征向量tvfine,并輸入投影頭φm中生成跨模態(tài)表示;輸出向量中的每個元素都乘以圖文相似度權重,最終的跨模態(tài)表征向量fm如下:
75、fm=similarity·φm(tvcoarse;tvfine)。
76、進一步地,所述步驟b4的具體實現(xiàn)方法為:在詞級維度上分別將文本細粒度表征向量tfine和文本粗粒度表征向量tcoarse聚合成特征向量并拼接,然后輸入帶有relu激活函數(shù)的兩個全連接網(wǎng)絡組成的投影頭,得到文本單模態(tài)表征向量ft;將聚合的圖像細粒度表征向量vfine和聚合的圖像粗粒度表征向量vcoarse拼接,輸入與文本分支結(jié)構相同但參數(shù)不同的投影頭得到圖像單模態(tài)表征向量fv:
77、
78、進一步地,所述步驟b5的具體實現(xiàn)方法為:
79、文本單模態(tài)表征向量ft和補充證據(jù)表征向量csup通過線性層被映射到相同維度作為i1和i2以不同的順序輸入到一個共享的加權ct中,得到輸出特征,一個評論注意加權的文本特征fts和一個文本注意加權的評論特征fst,通過送入前饋神經(jīng)網(wǎng)絡ffn3得到文本評論交互表征向量ftc:
80、
81、其中wt,
82、圖像單模態(tài)表征向量fv和補充證據(jù)表征向量csup通過線性層被映射到相同維度作為i1和i2以不同的順序輸入到一個共享的加權ct中,得到輸出特征,一個評論注意加權的圖像特征fvs和一個圖像注意加權的評論特征fsv,通過送入前饋神經(jīng)網(wǎng)絡ffn4得到圖像評論交互表征向量fvc:
83、
84、其中wt,
85、跨模態(tài)表征向量fm和補充證據(jù)表征向量csup通過線性層被映射到相同維度作為i1和i2以不同的順序輸入到一個共享的加權ct中,得到輸出特征,一個評論注意加權的圖像特征fms和一個圖像注意加權的評論特征fsm,通過送入前饋神經(jīng)網(wǎng)絡ffn5得到跨模態(tài)評論交互表征向量fmc:
86、
87、其中wt,
88、進一步地,所述步驟b6的具體實現(xiàn)方法為:
89、連接文本評論交互表征向量ftc、圖像評論交互表征向量fvc、跨模態(tài)評論交互表征向量fmc送入前饋神經(jīng)網(wǎng)絡ffn6得到多模態(tài)表征向量fout,通過有監(jiān)督對比學習來對齊多模態(tài)表征向量fout,隨機抽取樣本g為錨點,將與錨點標簽相同的p視為正多模態(tài)樣本,將與錨點標簽不同的a視為負多模態(tài)樣本,有監(jiān)督對比損失表示為lalign:
90、fout=ffn6(ftc;fvc;fmc)
91、
92、其中,g為訓練過程中抽取的小訓練集,a(g)為小訓練集中的負樣本集,p(g)是小訓練集中的正樣本集;sim(·)表示余弦相似度函數(shù),lg表示樣本g的多模態(tài)表征向量,lp表示樣本p的多模態(tài)表征向量,la表示樣本a的多模態(tài)表征向量,τ為溫度系數(shù)。
93、進一步地,所述步驟b7具體包括以下步驟:
94、步驟b71:將步驟b6得到的多模態(tài)表征向量fout和主流觀點表征向量cmain拼接輸入到分類器中,獲得帖子的預測結(jié)果:
95、
96、其中,fnc(·)為謠言分類器,由具有relu激活函數(shù)的兩層全連接網(wǎng)絡組成;
97、使用交叉熵損失函數(shù)作為分類的損失函數(shù)計算損失值,其計算公式如下:
98、
99、其中,y是真實標簽;
100、步驟b72:將對齊損失lalign和分類損失lclassify一起作為模型的最終損失函數(shù)loss,利用梯度優(yōu)化算法adam作為優(yōu)化器,通過反向傳播迭代更新模型的所有參數(shù),以最小化損失函數(shù)loss來訓練模型,計算公式如下:
101、loss=βalalign+βclclassify
102、其中,βa和βc用來平衡兩種損失。
103、本發(fā)明還提供了一種融合多粒度特征的多模態(tài)謠言檢測系統(tǒng),包括存儲器、處理器以及存儲于存儲器上并能夠被處理器運行的計算機程序指令,當處理器運行該計算機程序指令時,能夠?qū)崿F(xiàn)上述的方法步驟。
104、與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
105、1、結(jié)合多模態(tài)大模型visualglm,bert,swin-t實現(xiàn)了帖子的多模態(tài)多粒度特征提取,充分挖掘了帖子中圖文的信息,充分挖掘了帖子中的圖文信息,使得模型能夠更全面地理解和分析帖子內(nèi)容;
106、2、通過檢索與選擇機制,從評論中獲取補充證據(jù)與主流觀點,從不同角度充分挖掘帖子中的評論信息,豐富了信息來源,提高了模型對謠言的辨識能力,使其能夠更準確地判斷帖子內(nèi)容的真實性;
107、3、通過計算圖文相似度,用于引導跨模態(tài)融合特征的使用,有效緩解了圖文歧義性帶來的影響,使得模型在圖文弱相關的情況下更加健壯,增強了模型在處理圖文弱相關帖子時的表現(xiàn),提升了整體檢測的可靠性;
108、4、通過對比學習,捕獲了同類別謠言的相似信息,有助于邊緣樣本的正確分類,提高了模型對不同類型謠言的區(qū)分能力,顯著提高了模型的準確性和魯棒性,對于復雜的謠言檢測任務表現(xiàn)尤為出色。