一種基于文件版本關(guān)系元信息的問答方法與流程

文檔序號(hào)：40595322發(fā)布日期：2025-01-07 20:35閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于文本問答，具體涉及一種基于文件版本關(guān)系元信息的問答方法。

背景技術(shù)：

1、隨著預(yù)訓(xùn)練語言模型技術(shù)的發(fā)展，出現(xiàn)了chatglm、通義千問、baichuan大模型等大語言模型。為了解決大模型的垂域知識(shí)缺失以及幻覺問題。這催生了一系列基于大語言模型和文本形式的知識(shí)庫的問答系統(tǒng)。問答的主要方式是根據(jù)用戶提供的問題，從知識(shí)庫中召回出與問題相關(guān)的多個(gè)文件塊。然后將召回的文件塊與用戶提供的問題作為大語言模型的輸入，得到回答內(nèi)容。

2、然而在實(shí)際使用過程此種召回方式則會(huì)存在各種問題，特別是針對(duì)各種有版本關(guān)系的文件如政策之類的問答時(shí)則會(huì)存在各種各樣的問題。針對(duì)一些有版本的文件如政策來說，有如下問題：1、有不同的版本問題，舉例來說，政策法律在不同的時(shí)間會(huì)有不同的版本，而用戶基于案例來查詢法律則需要針對(duì)該案例的判案時(shí)間來獲取對(duì)應(yīng)的法律；2、文件存在解釋補(bǔ)充說明，相關(guān)內(nèi)容也是對(duì)知識(shí)庫問答有幫助的，應(yīng)該根據(jù)相應(yīng)的情況進(jìn)行召回；3、部分文件還在修訂說明，修訂說明只是對(duì)內(nèi)容進(jìn)行更改說明，并沒有新的文件，這種文件需要通過操作將其修改到具體文件內(nèi)容中；4、文件具有有效期，有些文件會(huì)被新出的其他政策所替代，因此在召回時(shí)可能會(huì)同時(shí)召回兩部分的內(nèi)容塊，答案參考內(nèi)容中會(huì)出現(xiàn)混淆信息。

技術(shù)實(shí)現(xiàn)思路

1、為解決以上現(xiàn)有技術(shù)存在的問題，本發(fā)明提出了一種基于文件版本關(guān)系元信息的問答方法，該方法包括：獲取文件，對(duì)文件進(jìn)行分割處理；對(duì)分割后的文件提取重點(diǎn)元信息；根據(jù)各個(gè)文件的重點(diǎn)元信息構(gòu)建各個(gè)文件之間的關(guān)系；將文件之間的關(guān)系存儲(chǔ)在知識(shí)庫中；將分割后的文件向量化，并將向量化后的數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫中；獲取待問答語句，根據(jù)待問答語句的上下文環(huán)境提取用戶問句的上下文時(shí)間；采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊，并將匹配的向量塊從向量數(shù)據(jù)庫中召回；遍歷召回向量塊中的原始文件信息，根據(jù)根據(jù)上下文時(shí)間和原始文件信息得到該文件的上下關(guān)系；根據(jù)上下文時(shí)間采用訓(xùn)練后的大模型對(duì)文件的上下關(guān)系進(jìn)行篩選，根據(jù)篩選結(jié)果對(duì)用戶的問題進(jìn)行回答。

2、本發(fā)明的有益效果：

3、本發(fā)明在原有知識(shí)庫問答方法的基礎(chǔ)上，針對(duì)有版本的文件類型特定引入了文件關(guān)系構(gòu)建的流程，構(gòu)建一個(gè)基礎(chǔ)的文件關(guān)系元信息。在進(jìn)行知識(shí)庫問答的時(shí)候，在此前的召回流程中會(huì)增加元信息篩選與匹配的方式使得更加適配本場(chǎng)景下的問答。本發(fā)明解決了多版本文件問答時(shí)無法正確進(jìn)行召回的問題，可以更加準(zhǔn)確回答問題。

技術(shù)特征：

1.一種基于文件版本關(guān)系元信息的問答方法，其特征在于，包括：獲取文件，對(duì)文件進(jìn)行分割處理；對(duì)分割后的文件提取重點(diǎn)元信息；根據(jù)各個(gè)文件的重點(diǎn)元信息構(gòu)建各個(gè)文件之間的關(guān)系；將文件之間的關(guān)系存儲(chǔ)在知識(shí)庫中；將分割后的文件向量化，并將向量化后的數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫中；獲取待問答語句，根據(jù)待問答語句的上下文環(huán)境提取用戶問句的上下文時(shí)間；采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊，并將匹配的向量塊從向量數(shù)據(jù)庫中召回；遍歷召回向量塊中的原始文件信息，根據(jù)根據(jù)上下文時(shí)間和原始文件信息得到該文件的上下關(guān)系；根據(jù)上下文時(shí)間采用訓(xùn)練后的大模型對(duì)文件的上下關(guān)系進(jìn)行篩選，根據(jù)篩選結(jié)果對(duì)用戶的問題進(jìn)行回答。

2.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法，其特征在于，對(duì)文件進(jìn)行分割處理包括：設(shè)置文本長度閾值；對(duì)文件內(nèi)容進(jìn)行識(shí)別，得到連續(xù)的文本字符串以及對(duì)應(yīng)標(biāo)題關(guān)系；對(duì)文本字符串進(jìn)行語義層次識(shí)別，并根據(jù)對(duì)應(yīng)標(biāo)題關(guān)系對(duì)識(shí)別后的文本的層級(jí)關(guān)系進(jìn)行層次劃分，生成文檔樹，其中文檔樹的內(nèi)部節(jié)點(diǎn)為層級(jí)標(biāo)題，葉子節(jié)點(diǎn)為正文；獲取文檔樹中葉子節(jié)點(diǎn)的長度，將葉子節(jié)點(diǎn)的長度與文本長度閾值進(jìn)行對(duì)比，若大于設(shè)置的文本長度閾值，則采用自然分界字符對(duì)葉子節(jié)點(diǎn)進(jìn)行劃分，否則不進(jìn)行處理。

3.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法，其特征在于，對(duì)分割后的文件提取重點(diǎn)元信息包括：構(gòu)建大語言模型，對(duì)大語言模型進(jìn)行訓(xùn)練；采用訓(xùn)練后的大語言模型對(duì)文檔樹的每一個(gè)節(jié)點(diǎn)進(jìn)行信息提取，得到重點(diǎn)信息。

4.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法，其特征在于，構(gòu)建各個(gè)文件之間的關(guān)系包括：根據(jù)各個(gè)文件所提取的重點(diǎn)信息判斷各個(gè)文件的層級(jí)關(guān)系，根據(jù)層級(jí)關(guān)系得到各個(gè)文件之間的關(guān)系。

5.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法，其特征在于，提取用戶問句的上下文時(shí)間包括：獲取用戶問句時(shí)間，根據(jù)用戶問句時(shí)間以及用戶的問話歷史綜合判斷其用戶問句的上下文時(shí)間。

6.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法，其特征在于，采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊包括：將文本分割成單塊后，合并其標(biāo)題信息以及文件名信息；調(diào)用文本embedding模型生成一個(gè)1024維的向量；針對(duì)用戶的問題采用大模型生成對(duì)應(yīng)的向量；根據(jù)該向量進(jìn)行向量數(shù)據(jù)庫查詢，并返回其相應(yīng)的相似度最高的top-k文檔塊。

7.根據(jù)權(quán)利要求1所述的一種基于文件版本關(guān)系元信息的問答方法，其特征在于，對(duì)文件的上下關(guān)系進(jìn)行篩選包括：根據(jù)召回的內(nèi)容查找其對(duì)應(yīng)的元信息；對(duì)于每個(gè)文本塊根據(jù)問題以及其問題的上下文時(shí)間使用大模型判斷其該塊是否符合相關(guān)關(guān)系，不符合則直接過濾；即上下文時(shí)間不滿足的情況，則通過版本關(guān)系引入該上下文存在的真實(shí)法律政策文件；最終針對(duì)保留下來的文本塊以及其對(duì)應(yīng)的元信息，再次進(jìn)行重排，選擇top-n結(jié)合用戶問題以及用戶問答歷史提供給大模型，大模型對(duì)問題生成回答。

技術(shù)總結(jié)
本發(fā)明屬于文本問答領(lǐng)域，涉及一種基于文件版本關(guān)系元信息的問答方法，該方法包括：獲取文件，對(duì)文件進(jìn)行分割處理；對(duì)分割后的文件提取重點(diǎn)元信息；根據(jù)各個(gè)文件的重點(diǎn)元信息構(gòu)建各個(gè)文件之間的關(guān)系，并存儲(chǔ)在知識(shí)庫中；將分割后的文件向量化并存儲(chǔ)在向量數(shù)據(jù)庫中；獲取待問答語句，提取用戶問句的上下文時(shí)間；采用向量匹配的方式從向量數(shù)據(jù)庫中匹配對(duì)應(yīng)的向量塊，并從向量數(shù)據(jù)庫中召回；遍歷召回向量塊中的原始文件信息，根據(jù)原始文件信息得到該文件的上下關(guān)系；根據(jù)上下文時(shí)間采用訓(xùn)練后的大模型對(duì)文件的上下關(guān)系進(jìn)行篩選，根據(jù)篩選結(jié)果對(duì)用戶的問題進(jìn)行回答；本發(fā)明解決了多版本文件問答時(shí)無法正確進(jìn)行召回的問題，可以更加準(zhǔn)確回答問題。

技術(shù)研發(fā)人員：齊鵬,沈國陽,丁建勇,韓一笑,李斌,徐儉
受保護(hù)的技術(shù)使用者：滬渝人工智能研究院
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：齊鵬,沈國陽,丁建勇,韓一笑,李斌,徐儉
技術(shù)所有人：滬渝人工智能研究院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于文件版本關(guān)系元信息的問答方法與流程