欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法與流程

文檔序號:40535867發(fā)布日期:2025-01-03 10:55閱讀:5來源:國知局
面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法與流程

本發(fā)明涉及大語言模型,特別是涉及到一種面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法。


背景技術(shù):

1、隨著大語言模型(large?language?model,llm)的興起,利用其生成和涌現(xiàn)能力來解決專業(yè)領(lǐng)域問題已經(jīng)變得普遍。然而,由于對數(shù)據(jù)新鮮度的要求,llm對于一些時效性較強(qiáng)的問題可能會給出過時的答案。因此,通過檢索外部相關(guān)信息來增強(qiáng)llm的生成結(jié)果成為一種流行的解決方案,這種方案被稱為檢索增強(qiáng)llm或檢索增強(qiáng)生成rag(retr?i?evalaugmented?generat?i?on)。

2、信息檢索領(lǐng)域的研究者chengxi?ang?zhai和john?lafferty提出的檢索增強(qiáng)llm方法,就是給llm提供外部數(shù)據(jù)庫。對于用戶的問題(query),通過信息檢索(informat?ionretr?i?eval,ir)技術(shù),先從外部數(shù)據(jù)庫中檢索出與用戶問題相關(guān)的信息,然后讓llm結(jié)合這些相關(guān)信息來生成結(jié)果。利用檢索技術(shù)從大量外部數(shù)據(jù)中找出與輸入問題最相關(guān)的信息片段,不僅為llm生成回復(fù)提供參考,也在一定程度上過濾掉一些不相關(guān)信息的干擾。相比直接由llm生成答案,該方法提高了生成回復(fù)的準(zhǔn)確性。此外,上下文窗口越大,推理成本越高,因此引入相關(guān)信息檢索步驟也能降低不必要的推理成本。然而,對于一些復(fù)雜問題,這種通過一個步驟得到答案的方式可能會導(dǎo)致生成準(zhǔn)確率低的問題。

3、針對一些復(fù)雜問題,提出了多步驟問答。多步驟問答是自然語言處理(naturallanguage?proces?s,nlp)中的一項(xiàng)重要且具有挑戰(zhàn)性的任務(wù),它在回答問題時通過多步驟的檢索和信息推理,從多個來源中獲取和整合信息。另外,在將外部數(shù)據(jù)庫劃分成塊的過程中,以往的傳統(tǒng)做法是通過設(shè)置一個最大長度,然后根據(jù)最大長度將外部數(shù)據(jù)庫劃分成多個塊。

4、對于多步驟的檢索問答,盡管改進(jìn)了rag,但在生成答案的過程中仍存在明顯的局限性。首先,如果多跳qa(mult?i-hop?qa)系統(tǒng)在推理或信息整合過程中產(chǎn)生了錯誤的假設(shè)或理解,這種錯誤迭代可能導(dǎo)致生成的答案不準(zhǔn)確或存在偏差。其次,對于一些語義復(fù)雜或具有歧義性的問題,由于系統(tǒng)對語境理解不足,可能難以正確獲取并整合信息,導(dǎo)致答案質(zhì)量下降。

5、在將外部數(shù)據(jù)庫通過設(shè)置大小轉(zhuǎn)存進(jìn)數(shù)據(jù)庫并劃分成塊的過程中,會導(dǎo)致字符較少的兩個章節(jié)被放在一個分塊中。在后續(xù)檢索過程中,這樣的分塊會被檢索到,并作為上下文提供給llm以指導(dǎo)其輸出。這無疑會引入過多的干擾信息,導(dǎo)致生成答案質(zhì)量降低。

6、綜上所述,相比直接使用llm生成,多步驟問答在兩個方面實(shí)現(xiàn)了迭代創(chuàng)新:1)檢索指導(dǎo)生成;2)采用多步驟策略。即便如此,對于一些語義復(fù)雜和具有歧義性的問題,該方法仍可能因理解不足而產(chǎn)生錯誤的過程,并且這種錯誤過程的迭代會導(dǎo)致最終答案出現(xiàn)明顯的質(zhì)量問題。此外,外部知識庫劃分的問題也會引入大量干擾信息。為此我們發(fā)明了一種新的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種應(yīng)用于通過檢索增強(qiáng)大語言模型的生成能力中的檢索過程的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法。

2、本發(fā)明的目的可通過如下技術(shù)措施來實(shí)現(xiàn):面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法,該面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法包括:

3、步驟1,將輸入的問題分解為多個相關(guān)的子問題,通過構(gòu)建實(shí)體樹來確定子問題的求解順序;

4、步驟2,在每個檢索步驟中隨機(jī)加入子問題進(jìn)行檢索;

5、步驟3,通過將段落塊與對應(yīng)的標(biāo)題塊進(jìn)行關(guān)聯(lián),形成層次化的外部知識庫;

6、步驟4,結(jié)合關(guān)鍵詞檢索和向量檢索,從外部知識庫中找到與輸入問題最相關(guān)的分塊作為提示詞;

7、步驟5,使用大語言模型基于提示詞處理問題,生成對原始問題的最終回答。

8、本發(fā)明的目的還可通過如下技術(shù)措施來實(shí)現(xiàn):

9、步驟1包括:

10、步驟11,定位問句中的所有實(shí)體,并將這些實(shí)體作為實(shí)體樹的根節(jié)點(diǎn);

11、步驟12,查找包含這些實(shí)體樹根節(jié)點(diǎn)的段落,并將同一句子中出現(xiàn)的這些實(shí)體與對應(yīng)的實(shí)體樹根節(jié)點(diǎn)關(guān)聯(lián)起來,作為其子節(jié)點(diǎn);

12、步驟13,從這些子節(jié)點(diǎn)開始,重復(fù)上述過程,直到?jīng)]有新的子節(jié)點(diǎn)可以添加到樹中,形成實(shí)體樹;

13、步驟14,根據(jù)樹中的距離依次添加節(jié)點(diǎn)對應(yīng)的段落,從而得到過濾后的段落表示c_qetps;

14、步驟15,使用先進(jìn)的問答任務(wù)解決方案albertforquest?ionanswer?ing來回答每個子問題,并得到答案集。

15、在步驟13,為了防止干擾段落的影響,增加了查詢感知調(diào)節(jié)機(jī)制,只有查詢對應(yīng)句子中的子節(jié)點(diǎn)才能被添加;同時,使用最長公共子序列長度計算的f1值作為相似度,通過設(shè)置閾值來確定是否出現(xiàn)。

16、在步驟14,構(gòu)造實(shí)體樹后,認(rèn)為第i跳子問題的答案最有可能存在于與實(shí)體樹第i層節(jié)點(diǎn)相關(guān)聯(lián)的段落中;因此,根據(jù)樹中的距離依次添加節(jié)點(diǎn)對應(yīng)的段落,從而得到過濾后的段落表示c_qetps。

17、在步驟15,得到的答案集為:a={a_i},

18、a_i=reader(sq_i|c_qetps^i),i=1,2,3,...

19、其中的i代表子問題的個數(shù),a_i是第i個子答案,sq_i是第i個子問題,c_qetps^i是第i個過濾后的段落表示,reader是albertforquest?ionanswer?ing模型。

20、在步驟2,進(jìn)行多跳的每個檢索步驟中,基于防止推理幻覺的考慮,在每個檢索步驟中隨機(jī)加入一個子問題進(jìn)行檢索。

21、在步驟3,首先通過將標(biāo)題作為初始的分割部分,然后在每個標(biāo)題塊內(nèi)進(jìn)行段落級別的分割,可以同時保留標(biāo)題的主題結(jié)構(gòu)和段落的細(xì)節(jié)內(nèi)容;將分割得到的段落塊與其他相關(guān)的信息進(jìn)行關(guān)聯(lián)。

22、在步驟3,在讀取外部文檔并進(jìn)行分塊的過程中,每當(dāng)讀取到符合標(biāo)題特點(diǎn)的一行,則將其標(biāo)記為標(biāo)題;否則標(biāo)記為文本;當(dāng)讀取到下一個標(biāo)題時,將上一個標(biāo)題與對應(yīng)文本寫入分塊中;對于文本長度大于限定長度的分塊,將其拆分成多個固定大小的分塊,并在每個分塊中加入標(biāo)題,生成多個符合標(biāo)題-本文范式的分塊。

23、在步驟4,先用關(guān)鍵詞檢索標(biāo)題以得出最佳分塊,標(biāo)題即是每個分塊的第一行;因?yàn)殛P(guān)鍵詞檢索可以精準(zhǔn)匹配少量字符;接著,用向量檢索的方式對分塊中的文本進(jìn)行二次檢索;最后,將兩者的交集認(rèn)為是既有匹配關(guān)鍵詞又有語義匹配的最佳相關(guān)知識;再返回到子問題重新開始,直到生成中有答案是標(biāo)志時停止檢索。

24、在步驟5,將檢索到的知識作為大模型生成的提示,輸入到大語言模型中引導(dǎo)生成對原始問題的回答。

25、本發(fā)明中的面向大語言模型的基于數(shù)據(jù)庫分割與子問題增強(qiáng)檢索方法,針對將外部知識庫轉(zhuǎn)存進(jìn)數(shù)據(jù)庫劃分成塊過程中產(chǎn)生的干擾信息問題,提出了一種標(biāo)題分塊與組合檢索的方法,該方法以標(biāo)題為分塊標(biāo)準(zhǔn),將同一標(biāo)題下的段落放在一個分塊中,然后利用關(guān)鍵詞檢索和向量檢索組合的方式檢索出相關(guān)內(nèi)容。通過這種方法,不僅可以顯著提高檢索效率,還能夠在不同層次的細(xì)粒度和粗粒度檢索中取得理想的效果。在細(xì)粒度檢索方面,將同一標(biāo)題下的段落歸為一個分塊,并結(jié)合關(guān)鍵詞和向量檢索,可以對數(shù)據(jù)庫中的信息進(jìn)行精細(xì)化處理和分析,系統(tǒng)能夠識別和提取非常具體的細(xì)節(jié)信息,滿足用戶對高精度和詳細(xì)信息的需求。例如,用戶查詢特定問題時,系統(tǒng)能準(zhǔn)確定位到相關(guān)段落和句子,提供詳細(xì)且精確的答案。在粗粒度檢索方面,標(biāo)題分塊的方法有效減少檢索范圍,避免無關(guān)信息降低檢索效率,同時結(jié)合向量檢索,系統(tǒng)可以快速提取與用戶查詢相關(guān)的大量信息,提供總體趨勢和概要性結(jié)果。這對于需要快速了解大體情況或總體趨勢的用戶尤為重要,例如,在瀏覽某一主題的總體信息時,系統(tǒng)能迅速提供相關(guān)大塊內(nèi)容,提高用戶整體信息獲取效率。因此,這種方法不僅在提高檢索效率方面表現(xiàn)出色,而且在需要精細(xì)分析和快速概覽的不同場景中都能取得良好效果。

26、另一方面,針對一些語義復(fù)雜與歧義性較大的問題造成最終答案低質(zhì)量的問題,本發(fā)明提出了子問題增強(qiáng)檢索的方法,該方法將輸入的問題分解為多個子問題,然后每個步驟中添加子問題去引導(dǎo)檢索,取代了每個步驟中單一的用上次生成引導(dǎo)檢索,該方法的目的主要是從多個方面檢索,增加多樣性,防止思維定式。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
沙洋县| 三门县| 宣武区| 舟曲县| 镇宁| 江门市| 金华市| 闽侯县| 鹤峰县| 互助| 漾濞| 杂多县| 新巴尔虎右旗| 交口县| 贺兰县| 呼图壁县| 辰溪县| 禄劝| 肇源县| 巴彦县| 平潭县| 思南县| 五大连池市| 苍梧县| 承德县| 长春市| 鱼台县| 达拉特旗| 沈阳市| 西盟| 昭通市| 龙胜| 德保县| 铜鼓县| 莒南县| 乳山市| 大庆市| 和静县| 南召县| 湘阴县| 揭东县|