欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于文件版本關(guān)系元信息的問答方法與流程

文檔序號(hào):40595322發(fā)布日期:2025-01-07 20:35閱讀:9來源:國知局
一種基于文件版本關(guān)系元信息的問答方法與流程

本發(fā)明屬于文本問答,具體涉及一種基于文件版本關(guān)系元信息的問答方法。


背景技術(shù):

1、隨著預(yù)訓(xùn)練語言模型技術(shù)的發(fā)展,出現(xiàn)了chatglm、通義千問、baichuan大模型等大語言模型。為了解決大模型的垂域知識(shí)缺失以及幻覺問題。這催生了一系列基于大語言模型和文本形式的知識(shí)庫的問答系統(tǒng)。問答的主要方式是根據(jù)用戶提供的問題,從知識(shí)庫中召回出與問題相關(guān)的多個(gè)文件塊。然后將召回的文件塊與用戶提供的問題作為大語言模型的輸入,得到回答內(nèi)容。

2、然而在實(shí)際使用過程此種召回方式則會(huì)存在各種問題,特別是針對(duì)各種有版本關(guān)系的文件如政策之類的問答時(shí)則會(huì)存在各種各樣的問題。針對(duì)一些有版本的文件如政策來說,有如下問題:1、有不同的版本問題,舉例來說,政策法律在不同的時(shí)間會(huì)有不同的版本,而用戶基于案例來查詢法律則需要針對(duì)該案例的判案時(shí)間來獲取對(duì)應(yīng)的法律;2、文件存在解釋補(bǔ)充說明,相關(guān)內(nèi)容也是對(duì)知識(shí)庫問答有幫助的,應(yīng)該根據(jù)相應(yīng)的情況進(jìn)行召回;3、部分文件還在修訂說明,修訂說明只是對(duì)內(nèi)容進(jìn)行更改說明,并沒有新的文件,這種文件需要通過操作將其修改到具體文件內(nèi)容中;4、文件具有有效期,有些文件會(huì)被新出的其他政策所替代,因此在召回時(shí)可能會(huì)同時(shí)召回兩部分的內(nèi)容塊,答案參考內(nèi)容中會(huì)出現(xiàn)混淆信息。


技術(shù)實(shí)現(xiàn)思路

1、為解決以上現(xiàn)有技術(shù)存在的問題,本發(fā)明提出了一種基于文件版本關(guān)系元信息的問答方法,該方法包括:獲取文件,對(duì)文件進(jìn)行分割處理;對(duì)分割后的文件提取重點(diǎn)元信息;根據(jù)各個(gè)文件的重點(diǎn)元信息構(gòu)建各個(gè)文件之間的關(guān)系;將文件之間的關(guān)系存儲(chǔ)在知識(shí)庫中;將分割后的文件向量化,并將向量化后的數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫中;獲取待問答語句,根據(jù)待問答語句的上下文環(huán)境提取用戶問句的上下文時(shí)間;采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊,并將匹配的向量塊從向量數(shù)據(jù)庫中召回;遍歷召回向量塊中的原始文件信息,根據(jù)根據(jù)上下文時(shí)間和原始文件信息得到該文件的上下關(guān)系;根據(jù)上下文時(shí)間采用訓(xùn)練后的大模型對(duì)文件的上下關(guān)系進(jìn)行篩選,根據(jù)篩選結(jié)果對(duì)用戶的問題進(jìn)行回答。

2、本發(fā)明的有益效果:

3、本發(fā)明在原有知識(shí)庫問答方法的基礎(chǔ)上,針對(duì)有版本的文件類型特定引入了文件關(guān)系構(gòu)建的流程,構(gòu)建一個(gè)基礎(chǔ)的文件關(guān)系元信息。在進(jìn)行知識(shí)庫問答的時(shí)候,在此前的召回流程中會(huì)增加元信息篩選與匹配的方式使得更加適配本場(chǎng)景下的問答。本發(fā)明解決了多版本文件問答時(shí)無法正確進(jìn)行召回的問題,可以更加準(zhǔn)確回答問題。



技術(shù)特征:

1.一種基于文件版本關(guān)系元信息的問答方法,其特征在于,包括:獲取文件,對(duì)文件進(jìn)行分割處理;對(duì)分割后的文件提取重點(diǎn)元信息;根據(jù)各個(gè)文件的重點(diǎn)元信息構(gòu)建各個(gè)文件之間的關(guān)系;將文件之間的關(guān)系存儲(chǔ)在知識(shí)庫中;將分割后的文件向量化,并將向量化后的數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫中;獲取待問答語句,根據(jù)待問答語句的上下文環(huán)境提取用戶問句的上下文時(shí)間;采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊,并將匹配的向量塊從向量數(shù)據(jù)庫中召回;遍歷召回向量塊中的原始文件信息,根據(jù)根據(jù)上下文時(shí)間和原始文件信息得到該文件的上下關(guān)系;根據(jù)上下文時(shí)間采用訓(xùn)練后的大模型對(duì)文件的上下關(guān)系進(jìn)行篩選,根據(jù)篩選結(jié)果對(duì)用戶的問題進(jìn)行回答。

2.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法,其特征在于,對(duì)文件進(jìn)行分割處理包括:設(shè)置文本長度閾值;對(duì)文件內(nèi)容進(jìn)行識(shí)別,得到連續(xù)的文本字符串以及對(duì)應(yīng)標(biāo)題關(guān)系;對(duì)文本字符串進(jìn)行語義層次識(shí)別,并根據(jù)對(duì)應(yīng)標(biāo)題關(guān)系對(duì)識(shí)別后的文本的層級(jí)關(guān)系進(jìn)行層次劃分,生成文檔樹,其中文檔樹的內(nèi)部節(jié)點(diǎn)為層級(jí)標(biāo)題,葉子節(jié)點(diǎn)為正文;獲取文檔樹中葉子節(jié)點(diǎn)的長度,將葉子節(jié)點(diǎn)的長度與文本長度閾值進(jìn)行對(duì)比,若大于設(shè)置的文本長度閾值,則采用自然分界字符對(duì)葉子節(jié)點(diǎn)進(jìn)行劃分,否則不進(jìn)行處理。

3.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法,其特征在于,對(duì)分割后的文件提取重點(diǎn)元信息包括:構(gòu)建大語言模型,對(duì)大語言模型進(jìn)行訓(xùn)練;采用訓(xùn)練后的大語言模型對(duì)文檔樹的每一個(gè)節(jié)點(diǎn)進(jìn)行信息提取,得到重點(diǎn)信息。

4.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法,其特征在于,構(gòu)建各個(gè)文件之間的關(guān)系包括:根據(jù)各個(gè)文件所提取的重點(diǎn)信息判斷各個(gè)文件的層級(jí)關(guān)系,根據(jù)層級(jí)關(guān)系得到各個(gè)文件之間的關(guān)系。

5.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法,其特征在于,提取用戶問句的上下文時(shí)間包括:獲取用戶問句時(shí)間,根據(jù)用戶問句時(shí)間以及用戶的問話歷史綜合判斷其用戶問句的上下文時(shí)間。

6.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法,其特征在于,采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊包括:將文本分割成單塊后,合并其標(biāo)題信息以及文件名信息;調(diào)用文本embedding模型生成一個(gè)1024維的向量;針對(duì)用戶的問題采用大模型生成對(duì)應(yīng)的向量;根據(jù)該向量進(jìn)行向量數(shù)據(jù)庫查詢,并返回其相應(yīng)的相似度最高的top-k文檔塊。

7.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法,其特征在于,對(duì)文件的上下關(guān)系進(jìn)行篩選包括:根據(jù)召回的內(nèi)容查找其對(duì)應(yīng)的元信息;對(duì)于每個(gè)文本塊根據(jù)問題以及其問題的上下文時(shí)間使用大模型判斷其該塊是否符合相關(guān)關(guān)系,不符合則直接過濾;即上下文時(shí)間不滿足的情況,則通過版本關(guān)系引入該上下文存在的真實(shí)法律政策文件;最終針對(duì)保留下來的文本塊以及其對(duì)應(yīng)的元信息,再次進(jìn)行重排,選擇top-n結(jié)合用戶問題以及用戶問答歷史提供給大模型,大模型對(duì)問題生成回答。


技術(shù)總結(jié)
本發(fā)明屬于文本問答領(lǐng)域,涉及一種基于文件版本關(guān)系元信息的問答方法,該方法包括:獲取文件,對(duì)文件進(jìn)行分割處理;對(duì)分割后的文件提取重點(diǎn)元信息;根據(jù)各個(gè)文件的重點(diǎn)元信息構(gòu)建各個(gè)文件之間的關(guān)系,并存儲(chǔ)在知識(shí)庫中;將分割后的文件向量化并存儲(chǔ)在向量數(shù)據(jù)庫中;獲取待問答語句,提取用戶問句的上下文時(shí)間;采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊,并從向量數(shù)據(jù)庫中召回;遍歷召回向量塊中的原始文件信息,根據(jù)原始文件信息得到該文件的上下關(guān)系;根據(jù)上下文時(shí)間采用訓(xùn)練后的大模型對(duì)文件的上下關(guān)系進(jìn)行篩選,根據(jù)篩選結(jié)果對(duì)用戶的問題進(jìn)行回答;本發(fā)明解決了多版本文件問答時(shí)無法正確進(jìn)行召回的問題,可以更加準(zhǔn)確回答問題。

技術(shù)研發(fā)人員:齊鵬,沈國陽,丁建勇,韓一笑,李斌,徐儉
受保護(hù)的技術(shù)使用者:滬渝人工智能研究院
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
屯昌县| 沽源县| 阿荣旗| 广东省| 辛集市| 新郑市| 万年县| 河源市| 红原县| 井研县| 慈利县| 崇礼县| 浏阳市| 文昌市| 镇康县| 大冶市| 德阳市| 深水埗区| 澳门| 从江县| 庆云县| 余干县| 苏尼特右旗| 微博| 曲麻莱县| 秦安县| 日照市| 牙克石市| 镇康县| 通渭县| 霍城县| 富阳市| 遂宁市| 精河县| 东乡族自治县| 平山县| 泰兴市| 修文县| 河北省| 称多县| 即墨市|