本發(fā)明涉及檢索增強(qiáng)生成和知識(shí)圖譜,?涉及文本內(nèi)容挖掘技術(shù),信息檢索技術(shù)和知識(shí)圖譜可視化技術(shù),是一種面向檢索增強(qiáng)的領(lǐng)域知識(shí)圖譜智能關(guān)聯(lián)及可視化方法。
背景技術(shù):
::0、技術(shù)背景1、隨著人工智能技術(shù)的飛速發(fā)展,大型語(yǔ)言模型以其卓越的自然語(yǔ)言處理能力,在諸多領(lǐng)域中展現(xiàn)出了強(qiáng)大的應(yīng)用潛力。例如文本和代碼領(lǐng)域的gpt系列和llama系列模型、圖像領(lǐng)域的dall-e和stable?diffusion模型、以及文生長(zhǎng)視頻背后的sora模型。然而,在實(shí)際應(yīng)用中,大型語(yǔ)言模型仍面臨著諸多挑戰(zhàn),?如信息準(zhǔn)確性問(wèn)題、知識(shí)更新緩慢以及答案不透明等。這些問(wèn)題在知識(shí)密集型任務(wù)中尤為突出,尤其是在專(zhuān)業(yè)領(lǐng)域,不準(zhǔn)確或誤導(dǎo)性的回答可能會(huì)帶來(lái)嚴(yán)重的后果。為了應(yīng)對(duì)這些問(wèn)題,檢索增強(qiáng)生成技術(shù)(rag)應(yīng)運(yùn)而生。它運(yùn)用信息檢索,在龐雜的外部數(shù)據(jù)中精準(zhǔn)地找到相關(guān)的現(xiàn)有信息。這些外部存儲(chǔ)的數(shù)據(jù)便于修改,能夠涵蓋更廣泛的長(zhǎng)尾知識(shí),同時(shí)還可以支持敏感數(shù)據(jù)編碼。2、知識(shí)圖譜結(jié)構(gòu)化地存儲(chǔ)了實(shí)體和關(guān)系,可以幫助更精確地找到相關(guān)信息。相比于傳統(tǒng)的文本檢索,知識(shí)圖譜可以更好地理解查詢(xún)中的實(shí)體和上下文關(guān)系,從而提供更準(zhǔn)確的結(jié)果。此外,知識(shí)圖譜通常來(lái)源于高質(zhì)量的數(shù)據(jù),使用它們來(lái)增強(qiáng)生成可以提高答案的可信度。此外,基于知識(shí)圖譜的回答可以追溯其來(lái)源,使結(jié)果更具可解釋性。所以,將知識(shí)圖譜作為檢索增強(qiáng)生成系統(tǒng)的召回源是一個(gè)越來(lái)越受關(guān)注的方向。3、在現(xiàn)有的關(guān)鍵詞匹配技術(shù)中,往往依賴(lài)于靜態(tài)的詞匯表或規(guī)則庫(kù),這在面對(duì)不斷變化的領(lǐng)域術(shù)語(yǔ)或長(zhǎng)尾實(shí)體時(shí)表現(xiàn)出明顯的局限性。例如,在醫(yī)療領(lǐng)域中,新的藥物名稱(chēng)或復(fù)雜的癥狀描述往往無(wú)法通過(guò)簡(jiǎn)單的關(guān)鍵詞匹配進(jìn)行準(zhǔn)確鏈接。這種不足在大規(guī)模知識(shí)圖譜中尤為明顯,因?yàn)閳D譜中的實(shí)體和關(guān)系往往具有高度的領(lǐng)域?qū)傩裕瑐鹘y(tǒng)方法難以捕捉這些細(xì)微差別;還有一種方法是將圖譜實(shí)體先進(jìn)行嵌入,然后從用戶(hù)的查詢(xún)中提取實(shí)體并對(duì)其用相同的模型進(jìn)行嵌入,選擇相似度最高的實(shí)體進(jìn)行鏈接,但是這種方法能提取到的實(shí)體較少,很可能無(wú)法充分獲得圖譜內(nèi)的知識(shí)。此外,檢索到的圖譜內(nèi)容存在大量噪聲,這容易導(dǎo)致大模型無(wú)法抓住問(wèn)題中的核心信息。同時(shí),這些方法沒(méi)有與知識(shí)圖譜的可視化相結(jié)合,導(dǎo)致檢查rag系統(tǒng)的效果(忠實(shí)性、幻覺(jué)情況等)比較困難;不利于識(shí)別知識(shí)圖譜中的空白和錯(cuò)誤,確保rag系統(tǒng)基于可靠的知識(shí)基礎(chǔ)。技術(shù)實(shí)現(xiàn)思路1、本發(fā)明的目的是針對(duì)上述不足之處提供了一種面向檢索增強(qiáng)的領(lǐng)域知識(shí)圖譜智能關(guān)聯(lián)及可視化方法,采用假設(shè)生成方法和重排序方法,提高了知識(shí)圖譜在檢索增強(qiáng)生成領(lǐng)域中的檢索召回率并降低了噪聲比率。通過(guò)將圖譜可視化的形式,可以更清晰地了解圖譜結(jié)構(gòu),更方便地檢查生成的效果,從而促進(jìn)檢索增強(qiáng)生成系統(tǒng)的優(yōu)化提升。2、本發(fā)明是采取以下技術(shù)方案實(shí)現(xiàn)的:3、s1、將圖譜的節(jié)點(diǎn)嵌入到數(shù)據(jù)庫(kù)中,作為潛在圖譜空間;4、s2、利用大模型從用戶(hù)輸入的問(wèn)題中進(jìn)行預(yù)回答,然后在預(yù)回答中提取出領(lǐng)域?qū)嶓w;5、s3、將步驟s2中提取出的領(lǐng)域?qū)嶓w進(jìn)行嵌入,與潛在圖譜空間實(shí)體的嵌入值進(jìn)行比較,選擇相似度較高的實(shí)體來(lái)檢索圖譜;6、s4、將針對(duì)步驟s3中檢索到的圖譜實(shí)體擴(kuò)展到它的鄰居節(jié)點(diǎn)進(jìn)行提取,并將提取的三元組轉(zhuǎn)換成自然語(yǔ)言,作為潛在上下文空間;7、s5、對(duì)步驟s4中轉(zhuǎn)換后的自然語(yǔ)言?xún)?nèi)容和原問(wèn)題放在一起進(jìn)行過(guò)濾和重排序;8、s6、將步驟s5中過(guò)濾和重排后的context和query輸入給大模型生成答案;9、s7、使用graphxr在unity3d中可視化領(lǐng)域知識(shí)圖譜。10、步驟s1的具體分析過(guò)程,包括如下步驟:11、s1-1、步驟s1首先將知識(shí)圖譜導(dǎo)入到圖形數(shù)據(jù)庫(kù)中。其中,圖譜中的每個(gè)節(jié)點(diǎn)含有描述類(lèi)的屬性。12、s1-2、從圖形數(shù)據(jù)庫(kù)中獲取知識(shí)圖譜指定標(biāo)簽的所有節(jié)點(diǎn),使用gte_encryption_chinese-large模型來(lái)執(zhí)行圖譜實(shí)體嵌入,此過(guò)程將實(shí)體名稱(chēng)和實(shí)體描述類(lèi)屬性轉(zhuǎn)換為384?維密集向量空間。最終,為指定標(biāo)簽的每個(gè)節(jié)點(diǎn)設(shè)置一個(gè)新embedding屬性,其值為該節(jié)點(diǎn)的嵌入向量。13、s1-3、設(shè)置向量維度和相似性函數(shù),創(chuàng)建向量索引。在這個(gè)嵌入模型中,向量維度設(shè)置為384,并使用余弦相似度函數(shù)。14、步驟s2的具體分析過(guò)程,包括如下步驟:15、s2-1、設(shè)計(jì)prompt1,并通過(guò)大模型對(duì)用戶(hù)的問(wèn)題進(jìn)行回答,并將回答的內(nèi)容記為預(yù)回答;16、s2-2、設(shè)計(jì)prompt2在步驟s2-1的預(yù)回答中提取相關(guān)的領(lǐng)域?qū)嶓w。為了實(shí)現(xiàn)這一點(diǎn),使用openai的gpt-3.5-turbo?模型上的few-shot方法,設(shè)計(jì)了一個(gè)系統(tǒng)提示來(lái)從輸入文本中提取疾病實(shí)體,并以?json?格式返回。17、步驟s3的具體分析過(guò)程,包括如下步驟:18、s3-1:使用步驟s1中的嵌入模型來(lái)進(jìn)行實(shí)體嵌入,檢索時(shí)采用余弦相似度檢索方法,超過(guò)預(yù)定義閾值的節(jié)點(diǎn)被視為匹配,此鏈接過(guò)程可以由以下公式表示:19、20、其中,為用戶(hù)查詢(xún)中提取的實(shí)體的向量表示,為圖譜實(shí)體的向量表示,為相似度的預(yù)設(shè)閾值。21、步驟s4的具體分析過(guò)程,包括如下步驟:22、s4-1:使用步驟s3中匹配的實(shí)體節(jié)點(diǎn)檢索其相關(guān)的上下文三元組(subject,predicate,?object),隨后將其轉(zhuǎn)換為句子,使其兼容于輸入大模型中的其他上下文。為確保結(jié)果的相關(guān)性,首先對(duì)鄰居節(jié)點(diǎn)進(jìn)行初步過(guò)濾,篩選出與原查詢(xún)最相關(guān)的節(jié)點(diǎn),然后提取這些節(jié)點(diǎn)的上下文三元組。23、步驟s5的具體分析過(guò)程,包括如下步驟:24、s5-1:?借助句子transformer模型,將用戶(hù)的原始查詢(xún)與步驟s4中提取的上下文信息嵌入到同一向量空間中。這一步驟通過(guò)將查詢(xún)與上下文在向量空間中統(tǒng)一表示,保證了后續(xù)相似度計(jì)算的準(zhǔn)確性。25、s5-2:通過(guò)計(jì)算嵌入向量之間的余弦相似度,篩選出與原始查詢(xún)最為相似的上下文進(jìn)行進(jìn)一步過(guò)濾。篩選標(biāo)準(zhǔn)包括兩個(gè)方面:(i)相似度必須高于匹配節(jié)點(diǎn)相關(guān)上下文相似度分布的第75百分位數(shù);(ii)相似度不得低于0.5,以確保所選擇的上下文具有足夠的相關(guān)性,從而提高最終輸出的質(zhì)量。26、步驟s6的具體分析過(guò)程,包括如下步驟:27、s6-1:為生成最終的回答,設(shè)置一個(gè)提示模板prompt3。在該模板中,上下文信息和用戶(hù)的原始查詢(xún)將作為核心變量,以確保大模型在生成回答時(shí)能夠充分利用已有信息,提供準(zhǔn)確且相關(guān)的答案。28、s6-2:將經(jīng)過(guò)精細(xì)過(guò)濾和重排序的上下文信息與用戶(hù)的原始問(wèn)題一起填入prompt3模板中,并將其輸入至大模型。大模型將基于此輸入生成最終的回答,該回答旨在精準(zhǔn)響應(yīng)用戶(hù)的需求,同時(shí)體現(xiàn)出高度的相關(guān)性與信息質(zhì)量。29、步驟s7的具體分析過(guò)程,包括如下步驟:30、s7-1:在可視化步驟中,首先將graphxr與neo4j圖形數(shù)據(jù)庫(kù)建立連接,確保兩者之間實(shí)現(xiàn)高效的數(shù)據(jù)交互和實(shí)時(shí)同步。這種集成確保了知識(shí)圖譜數(shù)據(jù)的及時(shí)更新,為后續(xù)的可視化展示提供了準(zhǔn)確的基礎(chǔ)。31、s7-2:在unity3d環(huán)境中,嵌入graphxr的url,并借助embedded?browser插件實(shí)現(xiàn)無(wú)縫集成。該操作確保了圖譜內(nèi)容能夠?qū)崟r(shí)反映步驟s6中生成的優(yōu)化數(shù)據(jù),使可視化圖譜與數(shù)據(jù)處理的結(jié)果保持一致。32、s7-3:為了提升用戶(hù)的交互體驗(yàn),對(duì)graphxr與unity3d中的參數(shù)配置進(jìn)行調(diào)整。調(diào)整過(guò)程需確??梢暬闹R(shí)圖譜與步驟s4和s5中生成的內(nèi)容一致,并在視覺(jué)表現(xiàn)上與unity3d中的其他組件無(wú)縫銜接,提供流暢且一致的用戶(hù)體驗(yàn)。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12