欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于表格填充的聯(lián)合關(guān)系三元組提取方法

文檔序號:40585842發(fā)布日期:2025-01-07 20:25閱讀:8來源:國知局
一種基于表格填充的聯(lián)合關(guān)系三元組提取方法

本發(fā)明涉及關(guān)系三元組提取,特別是涉及一種基于表格填充的聯(lián)合關(guān)系三元組提取方法。


背景技術(shù):

1、關(guān)系三元組提取(rte)指的是從非結(jié)構(gòu)化文本(通常是句子)中提取關(guān)系三元組,通常表示為(主語,關(guān)系,賓語)三元組,其中,關(guān)系是主語和賓語語義之間的鏈接。關(guān)系三元組提取是一個重要的信息提取任務(wù),對許多下游領(lǐng)域(如知識圖譜)至關(guān)重要。在關(guān)系三元組提取過程中,提取主語和賓語之間的連接以及提取關(guān)系三元組之間的連接至關(guān)重要,前者有助于確定主語和賓語之間的關(guān)系,而后者有助于從已知的關(guān)系三元組中提取新的推理路徑。

2、目前,最常用的三元組提取方法是端到端的聯(lián)合三元組提取方法,該方法能夠同時提取實體對和關(guān)系,通過使用特定于關(guān)系的序列標注組件來解決關(guān)系重疊問題。但是,該方法忽視了句子中隱藏的兩個非常有價值的特點:關(guān)系三元組中主語和賓語之間的關(guān)聯(lián)以及關(guān)系三元組之間的關(guān)聯(lián)。

3、除了當前的端到端聯(lián)合rte方法外,基于表格填充的聯(lián)合rte方法也受到了越來越多的關(guān)注。該方法為每個關(guān)系維護一個表格來執(zhí)行rte,其中每個表格元素代表一個實體對。盡管這些方法在聯(lián)合rte方面做出了許多努力,但這些方法未能考慮主語和賓語之間的內(nèi)部連接以及關(guān)系三元組之間的連接對關(guān)系重疊三元組提取的影響。此外,先前的序列標注方法也未能考慮實體嵌套的情況。因此,關(guān)系重疊和實體嵌套問題仍有改進的空間。


技術(shù)實現(xiàn)思路

1、為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是提供一種基于表格填充的聯(lián)合關(guān)系三元組提取方法,充分考慮了主賓之間的關(guān)聯(lián)以及關(guān)系三元組之間的關(guān)聯(lián),有效降低了關(guān)系重疊和實體嵌套對表格填充準確性的干擾,使關(guān)系三元組的提取更加準確和高效。

2、為實現(xiàn)上述目的,本發(fā)明提供了如下方案:一種基于表格填充的聯(lián)合關(guān)系三元組提取方法,包括以下步驟:

3、s1、獲取文本數(shù)據(jù)并將文本數(shù)據(jù)編碼成一系列令牌表示,利用所述令牌表示生成主語相關(guān)特征和賓語相關(guān)特征;

4、s2、將所述主語相關(guān)特征和所述賓語相關(guān)特征進行第一次交互關(guān)聯(lián)并提取關(guān)聯(lián)有用信息,以確定實體對的關(guān)系類型;

5、s3、利用實體對的關(guān)系類型,將文本數(shù)據(jù)中所有表格特征進行連接實現(xiàn)所述主語相關(guān)特征和所述賓語相關(guān)特征的第二次交互關(guān)聯(lián),得到組合表格特征;

6、s4、利用最大池化操作和前饋神經(jīng)網(wǎng)絡(luò)模型處理所述組合表格特征,得到主語相關(guān)最大特征和賓語相關(guān)最大特征;

7、s5、將所述主語相關(guān)最大特征和所述賓語相關(guān)最大特征與文本數(shù)據(jù)的全局信息進行交互以提取關(guān)系三元組之間的推理路徑信息;

8、s6、多次迭代步驟s2-s5以輸出最終特征向量,基于所述最終特征向量生成全局實體任務(wù)和實體頭尾任務(wù)以得到頭尾實體關(guān)系集合,再基于所述頭尾實體關(guān)系集合和解碼策略生成關(guān)系三元組;

9、其中,在多次迭代過程中引入了防梯度消失機制和損失函數(shù)。

10、可選的,獲取文本數(shù)據(jù)并將文本數(shù)據(jù)編碼成一系列令牌表示,利用所述令牌表示生成主語相關(guān)特征和賓語相關(guān)特征,包括

11、將文本數(shù)據(jù)進行分詞和格式轉(zhuǎn)換,利用bert-base-cased的詞匯表將分詞后的句子轉(zhuǎn)換為對應(yīng)的索引序列,再利用bert模型將所述索引序列編碼為一系列的用于表示句子中每個詞上下文特征的令牌表示;

12、提取所述令牌表示的序列并將所述令牌表示輸入到兩個獨立的前饋神經(jīng)網(wǎng)絡(luò)中進行特征提??;所述前饋神經(jīng)網(wǎng)絡(luò)包括用于生成所述主語相關(guān)特征的第一前饋網(wǎng)絡(luò)和用于生成所述賓語相關(guān)特征的第二前饋網(wǎng)絡(luò)。

13、可選的,將所述主語相關(guān)特征和所述賓語相關(guān)特征進行第一次交互關(guān)聯(lián)并提取關(guān)聯(lián)有用信息,以確定實體對的關(guān)系類型,包括:

14、在所述令牌表示和所述前饋神經(jīng)網(wǎng)絡(luò)中提取主語相關(guān)特征向量集和賓語相關(guān)特征集;

15、利用第一多頭注意力機制和反向操作,將所述主語相關(guān)特征向量集設(shè)置為查詢并將所述賓語相關(guān)特征向量集設(shè)置為鍵-值進行第一次注意力運算,再將所述主語相關(guān)特征向量集設(shè)置為鍵-值并將所述賓語相關(guān)特征向量集設(shè)置為查詢進行第二次注意力運算,得到查詢向量和鍵向量;

16、基于所述第一多頭注意力機制,在每個注意力頭中,對所述查詢向量和所述鍵向量進行點積運算得到第一注意力得分,并將所述第一注意力得分轉(zhuǎn)化為第一注意力權(quán)重,再連接每個頭的所述第一注意力權(quán)重并通過線性變換獲得所述關(guān)聯(lián)有用信息。

17、可選的,利用實體對的關(guān)系類型,將文本數(shù)據(jù)中所有表格特征進行連接實現(xiàn)所述主語相關(guān)特征和所述賓語相關(guān)特征的第二次交互關(guān)聯(lián),得到組合表格特征,包括:

18、基于所述令牌表示,提取每個詞的特征表示得到基礎(chǔ)特征,提取表格特征并進行處理;

19、將所述基礎(chǔ)特征和處理后的所述表格特征進行連接得到綜合特征向量,再分離所述綜合特征向量得到主語特征向量和賓語特征向量;

20、引入交互機制將所述主語特征向量和所述賓語特征向量進行信息交換,得到交互信息;

21、利用所述交互信息融合所述主語特征向量和所述賓語特征向量,得到所述組合表格特征。

22、可選的,利用最大池化操作和前饋神經(jīng)網(wǎng)絡(luò)模型處理所述組合表格特征,得到主語相關(guān)最大特征和賓語相關(guān)最大特征,包括:

23、將所述組合表格特征分為主語相關(guān)特征片段和賓語相關(guān)特征片段;

24、利用最大池化操作提取所述主語相關(guān)特征片段中每個維度的最大值以生成用于捕捉主語所有重要特性的主語特征初始向量;

25、利用最大池化操作提取所述賓語相關(guān)特征片段中的重要信息以生成賓語特征初始向量;

26、將所述主語特征初始向量和所述賓語特征初始向量輸入到前饋神經(jīng)網(wǎng)絡(luò)中進行處理以得到所述主語相關(guān)最大特征和所述賓語相關(guān)最大特征。

27、可選的,將所述主語相關(guān)最大特征和所述賓語相關(guān)最大特征與文本數(shù)據(jù)的全局信息進行交互以提取關(guān)系三元組之間的推理路徑信息,包括:

28、利用第二多頭注意力機制,將所述主語相關(guān)最大特征和所述賓語相關(guān)最大特征設(shè)置為查詢,并將文本數(shù)據(jù)的全局信息設(shè)置為鍵-值,

29、基于所述第二多頭注意力機制,在每個注意力頭中進行點積運算,得到第二注意力得分,再將所述第二注意力得分轉(zhuǎn)化為用于對全局信息進行加權(quán)整合的第二注意力權(quán)重,實現(xiàn)交互信息提??;

30、將每個注意力頭進行交互整合,使每個頭捕捉到不同的全局特征元素,得到關(guān)系三元組之間的推理路徑信息。

31、可選的,多次迭代步驟s2-s5以輸出最終特征向量,基于所述最終特征向量生成全局實體任務(wù)和實體頭尾任務(wù)以得到頭尾實體關(guān)系集合,再基于所述頭尾實體關(guān)系集合和解碼策略生成關(guān)系三元組,包括:

32、設(shè)定迭代結(jié)束條件,并在步驟s2-s5的最后一次迭代中獲取輸出的最終特征向量;所述最終特征向量包括主語、賓語、句子全局上下文交互信息和句子深層次關(guān)系;

33、利用所述最終特征向量識別句子中所有參與關(guān)系的實體位置和類別以建立實體圖,利用序列標注在所述實體圖上構(gòu)建實體集合,完成全局實體任務(wù);

34、基于所述實體圖,利用所述最終特征向量對實體對進行預(yù)測以確定存在直接關(guān)系的實體對,完成實體頭尾任務(wù);所述實體對包括實體頭和實體尾;

35、結(jié)合所述實體集合和存在直接關(guān)系的實體對,得到頭尾實體關(guān)系集合;

36、利用解碼策略進行所述頭尾實體關(guān)系集合的解碼以得到句子中所有的關(guān)系三元組,再對所述關(guān)系三元組進行過濾、排序或修正以提高所述關(guān)系三元組的質(zhì)量和相關(guān)性。

37、可選的,所述防梯度消失機制包括用于在每次迭代中將輸入特征與輸出相加的殘差連接、用于使梯度傳播的正則化策略、用于防止梯度過小的激活函數(shù)、用于避免梯度爆炸和消失的梯度裁剪。

38、可選的,所述損失函數(shù)包括全局實體任務(wù)損失函數(shù)、實體頭尾任務(wù)損失函數(shù)和總損失函數(shù);所述總損失函數(shù)通過結(jié)合所述全局實體任務(wù)損失函數(shù)和所述實體頭尾任務(wù)損失函數(shù)得到,所述總損失函數(shù)的表達式為l=λ1l1+λ2l2,其中,l為總損失函數(shù),l1為全局實體任務(wù)損失函數(shù),l2為實體頭尾任務(wù)損失函數(shù),λ1和λ2為可調(diào)權(quán)重參數(shù)。

39、本發(fā)明通過提供一種基于表格填充的聯(lián)合關(guān)系三元組提取方法,公開了以下技術(shù)效果:

40、1、本發(fā)明通過將主語相關(guān)特征和賓語相關(guān)特征進行兩次交互關(guān)聯(lián),實現(xiàn)了主語和賓語之間有效的特征交互,在豐富的上下文信息中提煉出對關(guān)系判斷最有幫助的信息,能夠更快速、更準確地確定實體對的關(guān)系類型,且能夠有效地結(jié)合和交互句子中的所有表格特征,生成更具表現(xiàn)力的特征表示,使關(guān)系三元組的提取更加精確和高效。

41、2、本發(fā)明在關(guān)系三元組提取中,利用組合表格特征并結(jié)合最大池化操作和前饋神經(jīng)網(wǎng)絡(luò)來提取與主語和賓語相關(guān)的最大特征向量,其中,最大池化操作能夠幫助過濾掉不太相關(guān)的信息,僅保留最強信號。前饋神經(jīng)網(wǎng)絡(luò)能夠?qū)⒅髡Z最大特征向量被進一步壓縮、整合形成一個更具代表性的主語特征輸出,同時賓語最大特征向量也被處理,生成與賓語更加緊密相關(guān)的特征向量。通過上述過程使本發(fā)明能夠有效提取和增強組合特征中的關(guān)鍵信息,強調(diào)主體與賓語以及二者與關(guān)系之間的潛在關(guān)聯(lián),從而為關(guān)系三元組的判定提供強有力的支持。

42、3、本發(fā)明通過將最大特征與全局信息進行交互,充分利用了多頭注意力機制使主賓語特征獲得了與全局信息的深層次交互,這種融合不僅增強了對主賓語的表述,也揭示了明確的推理路徑,推理路徑即通過對上下文和特定細節(jié)的關(guān)聯(lián)推演,關(guān)注不同粒度和層次的信息,尤其是在句子間上下文里的綜合表現(xiàn),使得推斷出的三元組關(guān)系更準確。

43、4、本發(fā)明通過多次迭代主賓語交互和推理路徑提取等步驟,使特征逐步被細化,信息被反復處理和強化,捕捉到句子中更復雜和深層次的關(guān)系。同時在多次迭代過程中通過防梯度消失機制和損失函數(shù),能夠優(yōu)化關(guān)系抽取過程,使得每一輪迭代的訓練更高效、更具方向性,確保了關(guān)系三元組提取的準確性和可靠性。

44、5、本發(fā)明通過全局實體任務(wù)和實體頭尾任務(wù),能夠構(gòu)成完整的實體集合并確定哪些實體對(即頭實體和尾實體之間)存在直接關(guān)系,增強和豐富了關(guān)系識別的能力,從而提取出句子中的所有關(guān)系三元組。

45、下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鹤壁市| 九龙县| 张家港市| 星子县| 富锦市| 偏关县| 武鸣县| 前郭尔| 铁力市| 文山县| 桐梓县| 甘泉县| 崇礼县| 甘南县| 介休市| 亚东县| 娄烦县| 海阳市| 出国| 衡南县| 同仁县| 南昌县| 太康县| 英吉沙县| 辰溪县| 米脂县| 康马县| 晋江市| 鄂尔多斯市| 咸丰县| 株洲县| 兰州市| 永康市| 长治市| 绥江县| 怀远县| 泰州市| 宜兴市| 尚志市| 尖扎县| 新丰县|