本發(fā)明屬于數(shù)據(jù)檢索領(lǐng)域,尤其涉及一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法、電子設(shè)備、介質(zhì)。
背景技術(shù):
1、隨著科技領(lǐng)域智能技術(shù)發(fā)展,涌現(xiàn)了越來越多公開的大規(guī)模領(lǐng)域綜合數(shù)據(jù)庫,如生命科學(xué)領(lǐng)域的英國生物樣本庫(uk?biobank,ukb),中國慢性病前瞻性研究隊(duì)列樣本庫(china?kadoorie?biobank,ckb),氣象科學(xué)領(lǐng)域的高空間分辨率全球天氣和氣候數(shù)據(jù)庫(worldclim)等等。領(lǐng)域綜合數(shù)據(jù)庫的數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)類型繁雜,但數(shù)據(jù)庫本身對(duì)于每一類型的數(shù)據(jù)僅僅預(yù)設(shè)了檢索代碼(如關(guān)鍵詞)和檢索標(biāo)準(zhǔn)字段信息(如數(shù)據(jù)描述)。為了充分、合理地利用這些專業(yè)領(lǐng)域、規(guī)模龐大的綜合性數(shù)據(jù)庫,行之有效的數(shù)據(jù)檢索方法變得尤為重要。
2、目前,針對(duì)大規(guī)模領(lǐng)域綜合數(shù)據(jù)庫的數(shù)據(jù)檢索方法存在以下問題:
3、1.傳統(tǒng)的人工檢索方法主要由研究人員或領(lǐng)域從業(yè)者作為檢索人員,通過自身的領(lǐng)域知識(shí)和專業(yè)經(jīng)驗(yàn)對(duì)領(lǐng)域數(shù)據(jù)庫進(jìn)行檢索,在處理大規(guī)模綜合數(shù)據(jù)庫時(shí)費(fèi)時(shí)費(fèi)力,并且檢索結(jié)果的質(zhì)量容易受到檢索人員專業(yè)能力的影響。
4、2.雖然通過關(guān)鍵詞語義相似度進(jìn)行檢索能夠快速地處理大規(guī)模綜合數(shù)據(jù)庫,但其性能容易受到數(shù)據(jù)庫自設(shè)關(guān)鍵詞和數(shù)據(jù)描述的限制,若關(guān)鍵詞較少或描述過于簡略,算法的檢索性能會(huì)受到較大影響。此外,該方法也容易受到戶輸入的查詢語言的影響,若查詢語言過于簡單或模糊,也會(huì)導(dǎo)致檢索錯(cuò)配、遺漏等問題。
5、3.通過大模型構(gòu)建高維特征向量進(jìn)行語義相似度匹配的方法也易受到數(shù)據(jù)庫自設(shè)關(guān)鍵詞和數(shù)據(jù)描述的限制。通過外部知識(shí)注入的方式可以彌補(bǔ)數(shù)據(jù)庫自設(shè)檢索字段的限制,但如若知識(shí)庫不完善或不全面,則會(huì)降低檢索結(jié)果的可信度。此外,針對(duì)不同的數(shù)據(jù)庫需獨(dú)立設(shè)置不同的外部知識(shí)庫進(jìn)行模型的微調(diào)與訓(xùn)練,通用性不足。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)不足,本發(fā)明提供了一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法、電子設(shè)備、介質(zhì)。
2、第一方面,本發(fā)明實(shí)施例提供了一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,所述方法包括:
3、獲取目標(biāo)領(lǐng)域數(shù)據(jù)庫中每一類型數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵詞及其描述,并將每一類型數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵詞及其描述與數(shù)據(jù)鏈接、內(nèi)容匹配,得到目標(biāo)領(lǐng)域的sql表格;定義第一語料模板,基于第一語料模板串聯(lián)關(guān)鍵詞及其描述,得到數(shù)據(jù)提示文本;
4、定義第二語料模板,基于第二語料模板串聯(lián)用戶輸入的查詢文本,得到查詢提示文本;
5、將數(shù)據(jù)提示文本和查詢提示文本分別輸入至大語言模型,分別生成響應(yīng)文本和檢索文本;
6、將查詢文本、檢索文本以及響應(yīng)文本分別輸入自然語言處理模型,生成查詢文本特征、檢索文本特征以及響應(yīng)文本特征;
7、對(duì)查詢文本特征和檢索文本特征進(jìn)行加權(quán)融合,得到融合文本特征;
8、計(jì)算融合文本特征與響應(yīng)文本特征之間的相似度,將相似度最高的前k個(gè)響應(yīng)文本特征對(duì)應(yīng)的數(shù)據(jù)從sql表格中導(dǎo)出,作為檢索結(jié)果。
9、第二方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器與所述處理器耦接;其中,所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)上述的基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法。
10、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法。
11、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法。
12、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:
13、(1)本發(fā)明通過獲取數(shù)據(jù)庫中不同類型數(shù)據(jù)的關(guān)鍵詞與描述,將查詢文本、檢索文本以及響應(yīng)文本分別輸入自然語言處理模型,生成查詢文本特征、檢索文本特征以及響應(yīng)文本特征,通過大語言模型進(jìn)行知識(shí)推理,利用大語言模型的知識(shí)庫和上下文理解能力,可以獲得更多相關(guān)的背景信息和細(xì)節(jié),更好地理解用戶查詢的意圖,同時(shí),可以克服專業(yè)領(lǐng)域數(shù)據(jù)庫自設(shè)關(guān)鍵詞和數(shù)據(jù)描述的限制,有效提升檢索性能。
14、(2)對(duì)查詢文本特征和檢索文本特征進(jìn)行加權(quán)融合,得到融合文本特征;融合文本特征再與響應(yīng)文本特征進(jìn)行相似度匹配,能夠快速地處理大規(guī)模綜合數(shù)據(jù)庫,有效提升數(shù)據(jù)的利用效率。
15、(3)本發(fā)明基于大語言模型的領(lǐng)域知識(shí)提升數(shù)據(jù)庫檢索性能,無需針對(duì)不同的專業(yè)領(lǐng)域數(shù)據(jù)庫設(shè)置外部知識(shí)庫,也無需對(duì)大語言模型進(jìn)行訓(xùn)練或微調(diào),具有更強(qiáng)的通用性和更廣泛的應(yīng)用場(chǎng)景;同時(shí),本發(fā)明充分利用大語言模型的領(lǐng)域知識(shí)進(jìn)行檢索,利用模型領(lǐng)域知識(shí)提升查詢語句與檢索內(nèi)容的語義匹配性能,不易受到檢索人員自身經(jīng)驗(yàn)不足或外部知識(shí)庫不完善的影響,檢索性能更加穩(wěn)定、可靠。
1.一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,其特征在于,所述目標(biāo)領(lǐng)域數(shù)據(jù)庫包括:英國生物樣本庫、中國慢性病前瞻性研究隊(duì)列樣本庫或氣象科學(xué)領(lǐng)域的高空間分辨率全球天氣和氣候數(shù)據(jù)庫。
3.根據(jù)權(quán)利要求1所述的一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,其特征在于,所述第一語料模板為命令句或疑問句。
4.根據(jù)權(quán)利要求1所述的一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,其特征在于,得到查詢提示文本的過程包括:
5.根據(jù)權(quán)利要求1所述的一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,其特征在于,將查詢文本、檢索文本以及響應(yīng)文本分別輸入自然語言處理模型,生成查詢文本特征、檢索文本特征以及響應(yīng)文本特征的過程包括:
6.根據(jù)權(quán)利要求1所述的一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,其特征在于,對(duì)查詢文本特征和檢索文本特征進(jìn)行加權(quán)融合,得到融合文本特征的過程包括:
7.根據(jù)權(quán)利要求1所述的一種基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法,其特征在于,計(jì)算融合文本特征與響應(yīng)文本特征之間的相似度包括:
8.一種電子設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器與所述處理器耦接;其中,所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)上述權(quán)利要求1-7任一項(xiàng)所述的基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一所述的基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一所述的基于大語言模型知識(shí)增強(qiáng)的專業(yè)領(lǐng)域數(shù)據(jù)庫檢索方法。