本發(fā)明涉及小樣本事件檢測,具體涉及一種面向小樣本事件檢測的多尺度對(duì)比預(yù)訓(xùn)練方法。
背景技術(shù):
1、事件檢測任務(wù)旨在從非結(jié)構(gòu)化的文本中識(shí)別并分類出具體的事件,幫助將文本信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),支持進(jìn)一步的分析和應(yīng)用。然而,事件檢測方法往往依賴于大量帶注釋的數(shù)據(jù)來進(jìn)行監(jiān)督訓(xùn)練,這對(duì)未見過或罕見事件的檢測提出了挑戰(zhàn)。由于這些事件類型在訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率低或根本未出現(xiàn),現(xiàn)有模型通常無法有效識(shí)別它們。因此,研究小樣本事件檢測任務(wù)顯得尤為重要,以提升模型在數(shù)據(jù)稀缺場景下的泛化能力和檢測能力。
2、進(jìn)一步地,在事件檢測任務(wù)中,現(xiàn)有方法幾乎遵循監(jiān)督學(xué)習(xí)范式并依賴于大規(guī)模的人工注釋數(shù)據(jù)集,在資源不足的情況下,現(xiàn)有的聯(lián)合模型無法僅用很少的樣本來識(shí)別新的事件類型,即小樣本事件檢測。在現(xiàn)代深度學(xué)習(xí)模型中,使用預(yù)訓(xùn)練在數(shù)據(jù)有限任務(wù)中帶來了顯著的優(yōu)勢,然而在事件檢測任務(wù)中,目前使用預(yù)訓(xùn)練方法的研究較少且大多數(shù)方法試圖以識(shí)別然后分類的方式解決用少量樣本識(shí)別新事件類型問題,但忽略了句子內(nèi)上下文語境對(duì)觸發(fā)器語義的影響,以及句子和事件類型之間語義的內(nèi)在關(guān)系,從而遭受錯(cuò)誤傳播。因此,本專利提出了一種面向小樣本事件檢測的多尺度對(duì)比預(yù)訓(xùn)練方法,分別在句子-觸發(fā)器級(jí)別信息和句子-事件類型級(jí)別信息兩個(gè)維度構(gòu)建了兩個(gè)不同的對(duì)比預(yù)訓(xùn)練編碼器,來豐富輸入文本信息和事件類型信息的語義表示,對(duì)事件類型補(bǔ)充標(biāo)簽描述,豐富事件類型信息語義,在微調(diào)中結(jié)合上述兩種類型信息可以顯著提高事件檢測模型在低資源場景下的性能。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在解決現(xiàn)有研究方法中,由于忽略了句子內(nèi)上下文語境對(duì)觸發(fā)器語義的影響導(dǎo)致事件檢測嚴(yán)重依賴觸發(fā)器識(shí)別,句子和事件類型之間語義的內(nèi)在關(guān)系,以及在低資源環(huán)境下新事件類型檢測效果不佳的問題。因此本發(fā)明基于公共知識(shí)庫,對(duì)于句子內(nèi)信息,將文本信息(語句、觸發(fā)器信息)輸入到觸發(fā)器語義增強(qiáng)編碼器中利用對(duì)比學(xué)習(xí)使觸發(fā)器根據(jù)上下文相應(yīng)論元得到不同的表示,降低事件檢測對(duì)觸發(fā)器識(shí)別的依賴性,提高上下文的利用率,更好地建模局部事件語義。對(duì)于句子間信息,通過雙編碼器架構(gòu)分別將新的文本表示和重構(gòu)事件類型表示映射到同一向量表示空間:利用對(duì)比學(xué)習(xí)促進(jìn)文本信息編碼器和事件類型信息編碼器之間的雙向?qū)W習(xí)進(jìn)而生成更魯棒的關(guān)系表示,提升小樣本事件檢測性能,從而解決了上述背景技術(shù)中提到的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種面向小樣本事件檢測的多尺度對(duì)比預(yù)訓(xùn)練方法,所述事件檢測方法具體步驟如下:
4、步驟s10:根據(jù)公共知識(shí)庫和大型語言模型,構(gòu)造事件類型標(biāo)簽概念字典,與訓(xùn)練語句共同構(gòu)建關(guān)聯(lián)知識(shí)庫;
5、步驟s20:使用自動(dòng)amr解析器得到句子集的amr結(jié)構(gòu);
6、步驟s30:創(chuàng)建觸發(fā)器語義增強(qiáng)編碼器,利用句子內(nèi)對(duì)比學(xué)習(xí)生成新的文本表示;
7、步驟s40:根據(jù)s30得到的新的文本表示,創(chuàng)建句子語義信息編碼器,生成句子語義表示;
8、步驟s50:創(chuàng)建事件類型類型語義信息編碼器,生成事件類型語義表示;
9、步驟s60:將s40和s50得到的句子語義表示和事件類型語義表示進(jìn)行對(duì)比學(xué)習(xí),建立預(yù)訓(xùn)練語言表示模型;
10、步驟s70:利用步驟s40和步驟s50中經(jīng)過預(yù)訓(xùn)練的句子語義信息編碼器和事件類型語義信息編碼器分別編碼句子和事件類型信息,輔助原型網(wǎng)絡(luò)進(jìn)行小樣本事件檢測。
11、優(yōu)選的,所述步驟s10的具體步驟如下:
12、步驟s101,從用于小樣本事件檢測預(yù)訓(xùn)練的公共知識(shí)庫中獲得原始句子集合sentenceset和對(duì)應(yīng)的事件類型標(biāo)注集合labelset。句子集合sentenceset中每個(gè)句子的原始表示為si=[t1,t2,…,tn],0<i<n,n為句子中單詞的數(shù)量,n表示句子集合中的句子數(shù)量;
13、步驟s102,在大型語言模型上獲取步驟s101中事件類型標(biāo)注標(biāo)注集合labelset中每個(gè)事件類型對(duì)應(yīng)的事件類型標(biāo)簽與標(biāo)簽描述,將事件類型標(biāo)簽與對(duì)應(yīng)的事件類型標(biāo)簽描述拼接起來,構(gòu)造事件類型標(biāo)簽概念字典typeset,其中每條事件類型的原始表示為ti=[labeli,desi]=[l1,l2,…,lt],0<i<n,t為事件類型信息中單詞的數(shù)量,n表示事件類型標(biāo)簽概念字典中的事件類型數(shù)量。步驟s101中的句子集合sentenceset與事件類型標(biāo)簽概念字典typeset共同構(gòu)建預(yù)訓(xùn)練的關(guān)聯(lián)知識(shí)庫。
14、優(yōu)選的,所述步驟s20的具體步驟如下:
15、步驟s201:已知原始句子集合sentenceset,根據(jù)自動(dòng)amr解析器得到amr圖集合gs=(vs,es),vs是詞合并后的節(jié)點(diǎn)集,es表示邊集。是定義的語義關(guān)系類型的集合。
16、優(yōu)選的,所述步驟s30的具體步驟如下:
17、步驟s301:已知原始句子集合sentenceset,對(duì)于其中第k個(gè)句子,令知表示句子sk中正觸發(fā)詞-論元對(duì)的集合,通過隨采樣mt個(gè)負(fù)觸發(fā)器與正論元a的組合來構(gòu)造mt個(gè)負(fù)樣本對(duì)。并且負(fù)觸發(fā)器不能和論元a具有定向arg,時(shí)間或位置邊。類似地,通過隨機(jī)采樣ma個(gè)負(fù)參數(shù)來構(gòu)造ma個(gè)更多的負(fù)樣本對(duì)。為了學(xué)習(xí)區(qū)分正觸發(fā)-論元對(duì)和負(fù)觸發(fā)-論元對(duì)并建模句內(nèi)事件語義,將正觸發(fā)-論元對(duì)(t,a)的訓(xùn)練目標(biāo)定義為正確分類正觸發(fā)-論元對(duì)的交叉熵?fù)p失:
18、
19、其中,mt、ma是負(fù)采樣的超參數(shù),w是學(xué)習(xí)相似性度量的可訓(xùn)練矩陣。對(duì)于句子集合sentenceset中的n個(gè)句子最后得到的總體損失函數(shù)為以及新的文本表示xt,a。
20、優(yōu)選的,所述步驟s40的具體步驟如下:
21、步驟s401,已知原始句子集合sentenceset中第i個(gè)句子的表示為si=[t1,t2,…,tr,…,tn],tr為該句子的觸發(fā)器詞語,在句子原始表示中插入特殊標(biāo)記[[unused0],tr,[unused1]]分別表示句子中觸發(fā)器的開始和結(jié)束位置,形成新的句子表示
22、步驟s402,構(gòu)建基于bert的句子語義信息編碼器φs,將上述的句子表示輸入到語義信息編碼器φs中生成句子向量表示其中hcls是句子的全局表示,f與g為插入的特殊標(biāo)簽[unused0],[unused1]的對(duì)應(yīng)位置。結(jié)合s30得到的文本表示得到最后的句子語義表示
23、優(yōu)選的,所述步驟s50的具體步驟如下:
24、步驟s501,已知重構(gòu)事件類型集合typeset中第j個(gè)句子的表示為tj=[e1,e2,…,ex,ex+1,…,em],[e1,e2,…,ex]為該事件類型名稱,[ex+1,…,em]為該事件類型的詳細(xì)描述,在事件類型原始表示中插入特殊標(biāo)記[sep]來分隔事件類型名稱和事件類型描述,形成新的事件類型表示
25、步驟s502,構(gòu)建基于bert的事件類型信息編碼器φt,已知原始事件類型概念字典typeset中第j個(gè)事件類型表示為將輸入到事件類型信息編碼器φt中生成事件類型向量表示其中ecls是事件類型向量的全局表示,得到第i種事件類型標(biāo)簽對(duì)應(yīng)的事件類型語義表示其中表示將兩個(gè)向量拼接起來,vmean是對(duì)事件類型向量進(jìn)行平均池化得到的。
26、優(yōu)選的,所述步驟s60的具體步驟如下:
27、步驟s601,步驟s402和步驟s502得到n個(gè)句子語義表示和m個(gè)事件類型,目標(biāo)是從n×m種可能的組合中預(yù)測實(shí)際的(句子、標(biāo)簽),在訓(xùn)練過程中目標(biāo)為最大化n個(gè)正確對(duì)的嵌入之間的余弦相似度,同時(shí)最小化屬于n×m-n個(gè)錯(cuò)誤對(duì)的嵌入的余弦相似度。為了實(shí)現(xiàn)有效對(duì)比,采用了雙向?qū)Ρ饶繕?biāo),其中包含兩個(gè)組成部分:句子-標(biāo)簽對(duì)比學(xué)習(xí)(scl)和標(biāo)簽-句子對(duì)比學(xué)習(xí)(scli)。這種對(duì)稱對(duì)比目標(biāo)確保該框架捕獲句子和標(biāo)簽之間的內(nèi)在關(guān)系對(duì)。
28、步驟s602,句子-標(biāo)簽對(duì)比學(xué)習(xí)以每個(gè)單獨(dú)的句子si作為錨點(diǎn),并從事件類型標(biāo)簽集中提取正樣本和負(fù)樣本。具體來說,對(duì)于正對(duì)(si,li)中的給定句子si,其余對(duì)中的任何標(biāo)簽與si形成負(fù)對(duì),表示為(si,lj),其中1≤j≤m-1,該訓(xùn)練過程損失函數(shù)表示如下:
29、
30、其中為s202步驟得到的句子信息表示,為s302步驟得到的事件類型信息表示,τ是溫度參數(shù),sim表示計(jì)算余弦相似度的函數(shù),exp()表示以e為底的指數(shù)函數(shù);
31、步驟s603,標(biāo)簽-句子對(duì)比學(xué)習(xí)對(duì)稱地將事件類型標(biāo)簽作為錨點(diǎn),并從相應(yīng)的句子集中提取正樣本和負(fù)樣本。對(duì)于給定標(biāo)簽li,集合a包括所有標(biāo)簽為li的正句子,而負(fù)對(duì)由標(biāo)簽不是li的句子組成,該訓(xùn)練過程損失函數(shù)表示如下:
32、
33、最后的對(duì)比訓(xùn)練損失計(jì)算為兩個(gè)損失的組合:
34、步驟s604,在進(jìn)行預(yù)訓(xùn)練反向傳播時(shí)要保持編碼器的語言理解能力,需要對(duì)輸入的向量進(jìn)行掩碼訓(xùn)練,語義信息編碼器φs和事件類型信息編碼器φt的掩碼訓(xùn)練損失函數(shù)分別為和與對(duì)比學(xué)習(xí)的損失函數(shù)加起來組成預(yù)訓(xùn)練表示模型的最終損失:
35、
36、優(yōu)選的,所述步驟s70的具體步驟如下:
37、步驟s701,應(yīng)用小樣本任務(wù)n-way-k-shot設(shè)置,就是將原始數(shù)據(jù)集分為兩個(gè)部分:支持集和查詢集,支持集中包含n種事件類型,每種事件類型有k個(gè)實(shí)例,而查詢集中有m個(gè)句子實(shí)例,但沒有句子對(duì)應(yīng)的事件類型標(biāo)注;
38、步驟s702,基于原型網(wǎng)絡(luò)的思想進(jìn)行小樣本事件檢測,通過步驟s40和步驟s50的語義信息編碼器φs和事件類型信息編碼器φt對(duì)支持集中的句子i和事件類型信息j進(jìn)行編碼,分別得到句子語義表示和事件類型信息表示再將兩種表示融合得到原型表示然后使用句子語義信息編碼器φs對(duì)查詢集中的句子實(shí)例q進(jìn)行編碼,得到句子語義表示
39、步驟s703,計(jì)算與不同原型表示rfinal的余弦相似度來表示查詢實(shí)例與不同的類原型表示空間的距離,并選擇距離最短的原型所對(duì)應(yīng)的事件類別作為預(yù)測的結(jié)果,該小樣本事件檢測任務(wù)使用的損失函數(shù)如下:
40、lce=-log(zy)
41、
42、其中y表示事件類型標(biāo)簽,zy表示對(duì)待預(yù)測句子語義表示進(jìn)行計(jì)算后,該句子屬于y事件類型的概率,i表示所屬的真實(shí)事件類型。
43、本發(fā)明的有益效果是:
44、本發(fā)明旨在解決現(xiàn)有研究方法中,由于忽略了句子內(nèi)上下文語境對(duì)觸發(fā)器語義的影響和句子和事件類型之間語義的內(nèi)在關(guān)系,導(dǎo)致現(xiàn)有方法在事件檢測研究中嚴(yán)重依賴觸發(fā)器識(shí)別、看不到事件類型之間的差異,檢測性能相當(dāng)不平衡的問題,以及在低資源環(huán)境下,由于無法獲取大量帶有標(biāo)注的數(shù)據(jù),導(dǎo)致新事件類型檢測效果不佳的問題。因此本發(fā)明基于公共知識(shí)庫,對(duì)于句子內(nèi)信息,將文本信息(語句、觸發(fā)器信息)輸入到觸發(fā)器語義增強(qiáng)編碼器中,利用對(duì)比學(xué)習(xí)使觸發(fā)器根據(jù)上下文學(xué)習(xí)到更多句子內(nèi)的語義信息,而并非只有觸發(fā)器本身的語義信息,降低事件檢測對(duì)觸發(fā)器識(shí)別的依賴性,提高上下文的利用率,更好地建模局部事件語義。對(duì)于句子間信息,通過雙編碼器架構(gòu)分別將新的文本表示和重構(gòu)事件類型表示映射到同一向量表示空間:利用對(duì)比學(xué)習(xí)促進(jìn)文本信息編碼器和事件類型信息編碼器之間的雙向?qū)W習(xí)進(jìn)而生成更魯棒的關(guān)系表示,提升小樣本事件檢測性能,從而有效解決了事件檢測中觸發(fā)器依賴性高、語義關(guān)聯(lián)薄弱以及新事件類型檢測效果不佳的問題,達(dá)到了更為準(zhǔn)確和魯棒的檢測效果。