本發(fā)明涉及自然語(yǔ)言處理,尤其涉及一種低資源環(huán)境謠言檢測(cè)方法及系統(tǒng)。
背景技術(shù):
1、謠言的傳播對(duì)社會(huì)造成了多方面的危害。例如:
2、公眾誤導(dǎo):謠言可能導(dǎo)致公眾對(duì)事件、政策和人物的誤解,影響公眾決策。社會(huì)恐慌:夸大的虛假信息可能引發(fā)公眾恐慌和不安。政治動(dòng)蕩:謠言可能被用作政治工具,影響選舉結(jié)果,破壞社會(huì)穩(wěn)定。經(jīng)濟(jì)損失:虛假信息可能對(duì)企業(yè)和市場(chǎng)造成嚴(yán)重經(jīng)濟(jì)損失。因此,開(kāi)發(fā)有效的謠言檢測(cè)技術(shù),對(duì)維護(hù)社會(huì)穩(wěn)定和信息健康具有重要意義。
3、低資源謠言檢測(cè)是指在標(biāo)注數(shù)據(jù)稀缺、數(shù)據(jù)不平衡或者計(jì)算資源有限的條件下,利用有限的信息和資源,依舊能夠識(shí)別和過(guò)濾虛謠言的技術(shù)。傳統(tǒng)的謠言檢測(cè)依賴于大量的標(biāo)注數(shù)據(jù)和強(qiáng)大的計(jì)算資源,但在實(shí)際應(yīng)用中,這些條件往往難以滿足,特別是在資源匱乏的環(huán)境中。
4、現(xiàn)有的謠言檢測(cè)方法包括基于遷移學(xué)習(xí)的方法、基于提示學(xué)習(xí)的方法、基于無(wú)監(jiān)督學(xué)習(xí)的方法、基于弱監(jiān)督學(xué)習(xí)的方法以及基于數(shù)據(jù)與輔助知識(shí)增強(qiáng)的方法。
5、其中,基于遷移學(xué)習(xí)的方法,通過(guò)在大規(guī)模語(yǔ)料上預(yù)訓(xùn)練模型,然后在目標(biāo)任務(wù)上進(jìn)行微調(diào),以提升模型在低資源環(huán)境下的表現(xiàn)。常見(jiàn)的預(yù)訓(xùn)練模型包括bert、gpt等。該方法需要大量的預(yù)訓(xùn)練數(shù)據(jù)和計(jì)算資源。預(yù)訓(xùn)練模型可能無(wú)法很好地適應(yīng)特定領(lǐng)域的謠言檢測(cè)任務(wù)。
6、基于提示學(xué)習(xí)的方法是通過(guò)設(shè)計(jì)任務(wù)特定的提示,將輸入轉(zhuǎn)換為特定的提示輸入,引導(dǎo)預(yù)訓(xùn)練模型進(jìn)行目標(biāo)任務(wù)。其需要針對(duì)不同任務(wù)設(shè)計(jì)合適的提示模板。高度依賴于預(yù)訓(xùn)練模型的能力和提示的設(shè)計(jì)質(zhì)量。
7、基于無(wú)監(jiān)督學(xué)習(xí)的方法主要是利用未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,通過(guò)捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)來(lái)進(jìn)行謠言檢測(cè)。常用方法包括聚類分析、降維等,其缺乏標(biāo)注數(shù)據(jù)指導(dǎo),模型的檢測(cè)精度和可靠性較低。無(wú)監(jiān)督方法往往難以解釋檢測(cè)結(jié)果,增加了實(shí)際應(yīng)用的難度。
8、基于弱監(jiān)督學(xué)習(xí)的方法是通過(guò)少量標(biāo)注數(shù)據(jù)和大量弱標(biāo)注數(shù)據(jù)(如啟發(fā)式規(guī)則生成的數(shù)據(jù))進(jìn)行訓(xùn)練,提升模型的檢測(cè)能力,其弱標(biāo)注數(shù)據(jù)的質(zhì)量較低,可能影響模型性能需要設(shè)計(jì)復(fù)雜的規(guī)則和啟發(fā)式方法生成弱標(biāo)注數(shù)據(jù)。
9、基于數(shù)據(jù)與輔助知識(shí)增強(qiáng)的方法主要通過(guò)增加數(shù)據(jù)和引入輔助知識(shí)(如知識(shí)庫(kù))來(lái)提升謠言檢測(cè)效果。方法包括數(shù)據(jù)增強(qiáng)(如回譯、同義詞替換)和知識(shí)庫(kù)利用。其數(shù)據(jù)增強(qiáng)方法可能無(wú)法覆蓋所有情況,且高度依賴外部知識(shí)庫(kù)的質(zhì)量和覆蓋范圍。
10、綜上,現(xiàn)有的謠言檢測(cè)算法通常在有足夠同領(lǐng)域數(shù)據(jù)支持的模型訓(xùn)練中表現(xiàn)出色,但當(dāng)面對(duì)低資源環(huán)境,即缺乏大規(guī)模訓(xùn)練數(shù)據(jù)時(shí),這些方法的效果顯著下降。
技術(shù)實(shí)現(xiàn)思路
1、為解決現(xiàn)有的謠言檢測(cè)算法在低資源環(huán)境下檢測(cè)效果顯著下降的技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種低資源環(huán)境謠言檢測(cè)方法及系統(tǒng)。
2、本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、本發(fā)明實(shí)施例提供了一種低資源環(huán)境謠言檢測(cè)方法,方法包括:從社交媒體爬取近期預(yù)設(shè)時(shí)間內(nèi)的原始數(shù)據(jù),所述原始數(shù)據(jù)包括用戶帖子內(nèi)容、用戶帖子評(píng)論及用戶信息;對(duì)所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)和生成器生成處理,獲得生成數(shù)據(jù);將所述原始數(shù)據(jù)和所述生成數(shù)據(jù)組成數(shù)據(jù)集,對(duì)所述數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行用戶情感特征向量和用戶信息特征向量提取,并利用注意力機(jī)制對(duì)所述用戶情感特征向量和所述用戶信息特征向量進(jìn)行特征融合,獲得融合特征;將所述數(shù)據(jù)集及其對(duì)應(yīng)的融合特征輸入判別器中進(jìn)行訓(xùn)練,訓(xùn)練所述判別器基于所述融合特征對(duì)所述原始數(shù)據(jù)、所述生成數(shù)據(jù)進(jìn)行謠言判別;獲取訓(xùn)練好的判別器,利用所述訓(xùn)練好的判別器進(jìn)行謠言檢測(cè)。
4、在一實(shí)施例中,對(duì)所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)和生成器生成處理,獲得生成數(shù)據(jù),包括:對(duì)所述原始數(shù)據(jù)進(jìn)行反義詞替換或因果反轉(zhuǎn)的數(shù)據(jù)增強(qiáng)方式,獲得增強(qiáng)數(shù)據(jù);利用雙生成器對(duì)所述增強(qiáng)數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,獲得生成數(shù)據(jù);
5、其中,所述雙生成器的函數(shù)表達(dá)式為:
6、
7、其中,x′y為生成數(shù)據(jù),xy為增強(qiáng)數(shù)據(jù),gn→r為第一生成器的生成函數(shù),用于對(duì)非謠言進(jìn)行懷疑或反對(duì)言論生成處理;gr→n為第二生成器的生成函數(shù),用于對(duì)謠言進(jìn)行支持性言論生成處理,y表示原始數(shù)據(jù)的標(biāo)簽,n為非謠言標(biāo)簽,r為謠言標(biāo)簽。
8、在一實(shí)施例中,對(duì)所述數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行用戶情感特征向量提取,包括:將所述數(shù)據(jù)集中每個(gè)用戶的每條推文輸入第一模型,獲得每個(gè)用戶每條推文的文本特征向量;對(duì)每個(gè)用戶所有推文的文本特征向量進(jìn)行平均,獲得所述數(shù)據(jù)集中每個(gè)用戶的文本特征向量;調(diào)用中文情感分析庫(kù)對(duì)所述數(shù)據(jù)集中每個(gè)用戶的每條推文進(jìn)行情緒詞劃分,并統(tǒng)計(jì)每個(gè)用戶所有推文的所有情緒詞的頻數(shù),基于所述頻數(shù)確定每個(gè)用戶的最大情緒詞;統(tǒng)計(jì)所述數(shù)據(jù)集中每個(gè)用戶所有推文的問(wèn)號(hào)和感嘆號(hào)的數(shù)量;將所述最大情緒詞的頻數(shù)、所述問(wèn)號(hào)的數(shù)量、所述感嘆號(hào)的數(shù)量組成的向量確定為所述數(shù)據(jù)集中每個(gè)用戶的情感特征;將所述數(shù)據(jù)集中每個(gè)用戶的文本特征向量和所述數(shù)據(jù)集中每個(gè)用戶的情感特征進(jìn)行橫向拼接,形成數(shù)據(jù)集中每個(gè)用戶的用戶情感偏好特征向量;
9、其中,所述第一模型為bert模型,所述第一模型的表達(dá)式為:
10、[mnt=bert([cls?unt?sep])]??計(jì)算式(2)
11、其中,mnt表示用戶n近期發(fā)布的第t條推文unt的文本特征向量,unt表示用戶n近期發(fā)布的第t條推文,bert(...)為bert模型,[cls]、[sep]為bert原始語(yǔ)料庫(kù)的特定標(biāo)識(shí)符;
12、使用如下公式對(duì)每個(gè)用戶所有推文的文本特征向量進(jìn)行平均:
13、
14、其中,ut為數(shù)據(jù)集中每個(gè)用戶的文本特征向量,mnt表示用戶n近期發(fā)布的第t條推文的文本特征向量,t為用戶n近期發(fā)布的推文數(shù)量;
15、將所述數(shù)據(jù)集中每個(gè)用戶的文本特征向量和所述數(shù)據(jù)集中每個(gè)用戶的情感特征使用如下公式進(jìn)行橫向拼接:
16、[up=ut⊕us]???計(jì)算式(4)
17、其中,up為數(shù)據(jù)集中每個(gè)用戶的用戶情感偏好特征向量,ut為數(shù)據(jù)集中每個(gè)用戶的文本特征向量,us為數(shù)據(jù)集中每個(gè)用戶的情感特征,⊕表示向量拼接操作。
18、在一實(shí)施例中,對(duì)所述數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行用戶信息特征向量提取,包括:根據(jù)所述數(shù)據(jù)集中的數(shù)據(jù)分別計(jì)算每個(gè)用戶的用戶信息完整度、用戶平臺(tái)認(rèn)證指數(shù)、用戶活躍度、用戶交際廣度和用戶權(quán)威度;將所述用戶信息完整度、所述用戶平臺(tái)認(rèn)證指數(shù)、所述用戶活躍度、所述用戶交際廣度和所述用戶權(quán)威度組成的向量,確定為所述數(shù)據(jù)集中每個(gè)用戶的用戶特征向量;利用兩層全連接網(wǎng)絡(luò)對(duì)所述數(shù)據(jù)集中每個(gè)用戶的用戶特征向量進(jìn)行學(xué)習(xí)和融合,獲得用戶信息特征向量;
19、其中,使用如下計(jì)算式計(jì)算每個(gè)用戶的用戶信息完整度:
20、
21、其中,i(u)為用戶信息完整度,vi∈v,v=(v1,v2,…,vn)表示用戶基本信息的填寫(xiě)情況,n表示向量v的維度;
22、使用如下計(jì)算式計(jì)算每個(gè)用戶的用戶平臺(tái)認(rèn)證指數(shù):
23、
24、其中,p(u)為用戶平臺(tái)認(rèn)證指數(shù);
25、使用如下計(jì)算式計(jì)算每個(gè)用戶的用戶活躍度:
26、
27、其中,a(u)為用戶活躍度,num(u)表示用戶在時(shí)間段t內(nèi)發(fā)布的帖子數(shù)量,t為從用戶注冊(cè)起到獲取數(shù)據(jù)的這段時(shí)間的天數(shù);
28、使用如下計(jì)算式計(jì)算每個(gè)用戶的用戶交際廣度:
29、
30、其中,c(u)為用戶交際廣度,ω1和ω2是權(quán)重系數(shù),pfans(u)表示用戶未回關(guān)的純粉絲數(shù),mfans(u)表示用戶互粉數(shù),fans(u)表示用戶總粉絲數(shù),att(u)表示用戶關(guān)注數(shù);
31、使用如下計(jì)算式計(jì)算每個(gè)用戶的用戶權(quán)威度:
32、[au(u)=(i(u),a(u),p(u),c(u))×μt]???計(jì)算式(9)
33、其中,au(u)表示用戶權(quán)威度,i(u)為用戶信息完整度,a(u)為用戶活躍度,p(u)為用戶平臺(tái)認(rèn)證指數(shù),c(u)為用戶交際廣度,μ是由層次分析法得到的權(quán)重向量,t表示轉(zhuǎn)置矩陣;
34、兩層全連接網(wǎng)絡(luò)的輸出表達(dá)式為:
35、[ui′=relu(wu1vu+bu1)]???????計(jì)算式(10)
36、[ui=relu(wu2u′+bu2)]?????計(jì)算式(11)
37、其中,wu1和wu2分別表示第一層和第二層全連接網(wǎng)絡(luò)的權(quán)重矩陣;bu1和bu2分別表示相應(yīng)的偏移項(xiàng),ui′表示第一層全連接網(wǎng)絡(luò)輸出的中間向量,ui表示第二層全連接網(wǎng)絡(luò)輸出的用戶信息特征向量,[vu=(vp,va,vc,vi,vr)],vp,va,vc,vi,vr每個(gè)值分別對(duì)應(yīng)平臺(tái)認(rèn)證指數(shù)、活躍度、交際廣度、信息完整度和權(quán)威度的數(shù)值。
38、在一實(shí)施例中,利用注意力機(jī)制對(duì)所述用戶情感特征向量和所述用戶信息特征向量進(jìn)行特征融合,包括:計(jì)算注意力權(quán)重,基于所述注意力權(quán)重利用注意力機(jī)制對(duì)所述用戶情感特征向量和所述用戶信息特征向量進(jìn)行特征融合;
39、其中,所述注意力權(quán)重的計(jì)算式為:
40、
41、其中,αi是第i個(gè)特征的注意力權(quán)重,n是特征數(shù)量在這里n=2,ei為第i個(gè)特征的注意力得分,[ei=wttanh(wffi+wqq)],w、wf和wq是可學(xué)習(xí)的參數(shù)矩陣/向量,q是查詢向量(可以是預(yù)設(shè)向量或可學(xué)習(xí)的向量),fi∈(f1、f2),f1、f2分別表示用戶情感特征向量和用戶信息特征向量;
42、利用注意力機(jī)制進(jìn)行特征融合的計(jì)算表達(dá)式為:
43、
44、其中,um表示融合特征,fi∈(f1、f2),f1、f2分別表示用戶情感特征向量和用戶信息特征向量,αi是第i個(gè)特征的注意力權(quán)重,n是特征數(shù)量在這里n=2。
45、在一實(shí)施例中,將所述數(shù)據(jù)集及其對(duì)應(yīng)的融合特征輸入判別器中進(jìn)行訓(xùn)練,訓(xùn)練所述判別器基于所述融合特征對(duì)所述原始數(shù)據(jù)、所述生成數(shù)據(jù)進(jìn)行謠言判別,包括:對(duì)所述數(shù)據(jù)集中的數(shù)據(jù),按照帖子的發(fā)布時(shí)間進(jìn)行分類,獲得對(duì)應(yīng)于不同時(shí)間步的輸入數(shù)據(jù);將所述輸入數(shù)據(jù)輸出所述判別器的第二模型中,獲得所述第二模型的輸出;利用所述判別器的門(mén)控循環(huán)單元對(duì)所述第二模型的輸出進(jìn)行處理,獲得所述數(shù)據(jù)集中數(shù)據(jù)的隱藏狀態(tài);將所述數(shù)據(jù)集中數(shù)據(jù)的隱藏狀態(tài)、所述融合特征輸入所述判別器的線性層中,獲得所述線性層輸出的預(yù)測(cè)概率向量;所述預(yù)測(cè)概率向量表征所述判別器進(jìn)行謠言判別的判別結(jié)果;
46、其中,所述第二模型為transformer模型,所述第二模型的表達(dá)式為:
47、[x'y=transformer(xy)]計(jì)算式(14)
48、其中,xy,x'y是第二模型在時(shí)間步t的輸入和輸出,transformer(...)為transformer模型;
49、所述門(mén)控循環(huán)單元的處理表達(dá)式為:
50、[st=gru(x'y,st-1;θd)]計(jì)算式(15)
51、其中,st為數(shù)據(jù)集中數(shù)據(jù)的隱藏狀態(tài),x'y是第二模型在時(shí)間步t的輸出,st-1為前一時(shí)間步的隱藏狀態(tài),θd為判別器中所有門(mén)控循環(huán)單元的參數(shù),gru(...)為門(mén)控循環(huán)單元;
52、所述線性層的處理表達(dá)式為:
53、
54、其中,是預(yù)測(cè)概率向量,wv是分類層的權(quán)重矩陣,st為數(shù)據(jù)集中數(shù)據(jù)的隱藏狀態(tài),um為融合特征,(by)是可訓(xùn)練的偏置向量,softmax(...)為線性層。
55、在一實(shí)施例中,將所述原始數(shù)據(jù)和所述生成數(shù)據(jù)組成數(shù)據(jù)集之前,所述方法還包括:利用重構(gòu)函數(shù)對(duì)所述生成數(shù)據(jù)進(jìn)行處理,將處理后的數(shù)據(jù)作為新的生成數(shù)據(jù);
56、所述重構(gòu)函數(shù)的表達(dá)式為:
57、
58、其中,x″y為重構(gòu)函數(shù)處理后的數(shù)據(jù),xy為增強(qiáng)數(shù)據(jù),gn→r為第一生成器的生成函數(shù),用于對(duì)非謠言進(jìn)行懷疑或反對(duì)言論生成處理;gr→n為第二生成器的生成函數(shù),用于對(duì)謠言進(jìn)行支持性言論生成處理,y表示原始數(shù)據(jù)的標(biāo)簽,n為非謠言標(biāo)簽,r為謠言標(biāo)簽;
59、其中,所述重構(gòu)函數(shù)的重構(gòu)損失為:
60、
61、其中,lrec為重構(gòu)損失,t是帖子序列長(zhǎng)度,xt和xt”分別是原始批次和重構(gòu)批次中第t個(gè)單元的表示。
62、在一實(shí)施例中,所述判別器的損失函數(shù)為:
63、
64、其中,為判別器的損失函數(shù),為預(yù)測(cè)概率向量,為真實(shí)類別概率分布,θd是鑒別器的參數(shù),λ為權(quán)衡系數(shù);
65、所述生成器的對(duì)抗損失為:
66、
67、其中,ladv為生成器的對(duì)抗損失,為判別器的損失函數(shù)。
68、在一實(shí)施例中,生成器和判別器的總體損失函數(shù)為:
69、
70、其中,α是平衡系數(shù),θg是生成器的參數(shù),θd是鑒別器的參數(shù),ladv為生成器的對(duì)抗損失,lrec為重構(gòu)損失。
71、本發(fā)明實(shí)施例還提供了一種低資源環(huán)境謠言檢測(cè)系統(tǒng),包括:處理器和用于存儲(chǔ)能夠在處理器上運(yùn)行的計(jì)算機(jī)程序的存儲(chǔ)器;其中,所述處理器用于運(yùn)行所述計(jì)算機(jī)程序時(shí),執(zhí)行上述任一項(xiàng)所述方法的步驟。
72、本發(fā)明實(shí)施例提供的低資源環(huán)境謠言檢測(cè)方法及系統(tǒng),具有如下有益效果:
73、(1)采用對(duì)抗網(wǎng)絡(luò)的方式,利用生成器和判別器之間的相互對(duì)抗訓(xùn)練,獲得識(shí)別效果較好的謠言檢測(cè)模型。生成器用于生成具有爭(zhēng)議性的數(shù)據(jù),判別器用于對(duì)數(shù)據(jù)是否為謠言進(jìn)行識(shí)別,通過(guò)生成器和判別器的相互對(duì)抗訓(xùn)練,系統(tǒng)能夠不斷提升對(duì)謠言的檢測(cè)能力,增強(qiáng)系統(tǒng)在識(shí)別謠言方面的魯棒性和適應(yīng)性。
74、(2)采用多視角特征融合的特征提取方式,綜合利用文本特征、情感特征、用戶情感偏好特征、用戶信息特征等,從多個(gè)角度全面提取特征,輔助判別器進(jìn)行判別,解決在低資源場(chǎng)景下,特征學(xué)習(xí)可能因數(shù)據(jù)稀缺變得困難,模型提取特征容易糾纏不清的問(wèn)題。
75、(3)采用雙步法獲得生成數(shù)據(jù),生成的數(shù)據(jù)迷惑性更高,爭(zhēng)議性更強(qiáng),更加難以區(qū)分,可迫使判別器去捕捉更深層次和微妙的特征,從而進(jìn)一步輔助鑒別器提高鑒別能力。
76、本實(shí)施例在低資源環(huán)境下能實(shí)現(xiàn)謠言的高效檢測(cè),具有優(yōu)秀的性能和泛化能力。