欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng)的制作方法

文檔序號(hào):40534139發(fā)布日期:2024-12-31 13:52閱讀:26來(lái)源:國(guó)知局
基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng)的制作方法

本發(fā)明涉及自然語(yǔ)言處理,尤其涉及一種基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng)。


背景技術(shù):

1、隨著大模型技術(shù)的快速發(fā)展,汽車問(wèn)答業(yè)務(wù)的知識(shí)庫(kù)和信息需求也在迅速增長(zhǎng)。并且在汽車領(lǐng)域智能問(wèn)答業(yè)務(wù)中,對(duì)于高效精準(zhǔn)的知識(shí)庫(kù)檢索系統(tǒng)也是問(wèn)答業(yè)務(wù)系統(tǒng)中重要的一部分。因此,亟需一種能夠提高召回準(zhǔn)確率和靈活性的知識(shí)庫(kù)檢索系統(tǒng),來(lái)幫助提高智能問(wèn)答的回復(fù)效果?,F(xiàn)有汽車智能問(wèn)答知識(shí)庫(kù)檢索系統(tǒng)中:類型一主要依賴于關(guān)鍵字匹配和布爾檢索。這種方法通過(guò)在數(shù)據(jù)庫(kù)中搜索與用戶查詢中出現(xiàn)的關(guān)鍵字相匹配的文檔來(lái)返回結(jié)果。其優(yōu)點(diǎn)在于實(shí)現(xiàn)簡(jiǎn)單、速度快,但在處理復(fù)雜查詢、同義詞、多義詞和上下文關(guān)聯(lián)性時(shí),準(zhǔn)確性和靈活性較差,無(wú)法滿足用戶的深層次信息需求;類型二通用的向量召回方式依賴于自然語(yǔ)言處理技術(shù),通過(guò)將文本轉(zhuǎn)化為向量(embedding),再利用向量空間中的相似性進(jìn)行檢索。這種方法能夠更好地捕捉文本之間的語(yǔ)義相似性,適用于處理復(fù)雜和多樣化的查詢。然而,這種方式在處理針對(duì)特定關(guān)鍵詞內(nèi)容,例如零部件故障等情況,可能會(huì)召回到錯(cuò)誤的零部件故障文檔。

2、中國(guó)專利公開(kāi)號(hào)cn113505209a公開(kāi)了一種面向汽車領(lǐng)域的智能問(wèn)答系統(tǒng),包括:知識(shí)庫(kù)模塊、可視化交互模塊、意圖識(shí)別模塊、圖匹配模塊、模板匹配模塊、檢索模塊和端到端模塊;知識(shí)庫(kù)模塊存儲(chǔ)有汽車領(lǐng)域的知識(shí)圖譜和語(yǔ)料庫(kù);當(dāng)用戶輸入問(wèn)題后,對(duì)用戶輸入內(nèi)容進(jìn)行判斷,根據(jù)判斷出的不同的用戶目的,調(diào)用系統(tǒng)的相應(yīng)模塊進(jìn)行處理,得到問(wèn)題的答案。將用戶目的分為汽車領(lǐng)域提問(wèn)和閑聊兩類,針對(duì)汽車領(lǐng)域提問(wèn),使用基于汽車領(lǐng)域知識(shí)圖譜的問(wèn)答方法得到問(wèn)題回答;針對(duì)閑聊則使用基于深度學(xué)習(xí)的端到端模塊,生成回答。本發(fā)明能夠提高分類精度,并能準(zhǔn)確識(shí)別用戶意圖;由此可見(jiàn),該方案進(jìn)行模板匹配時(shí)依賴于預(yù)定義的模板和觸發(fā)詞,可能會(huì)導(dǎo)致系統(tǒng)對(duì)新問(wèn)題的理解力較弱,用戶問(wèn)法的多樣性可能導(dǎo)致錯(cuò)誤匹配,存在汽車領(lǐng)域用戶問(wèn)答檢索準(zhǔn)確性低、用戶體驗(yàn)感差的問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),以解決現(xiàn)有技術(shù)存在的問(wèn)題中的至少一個(gè)。

2、為實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:

3、一種基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),包括:

4、數(shù)據(jù)采集模塊,用以采集對(duì)數(shù)數(shù)據(jù)和文本數(shù)據(jù);

5、數(shù)據(jù)切分模塊,用以對(duì)對(duì)話數(shù)據(jù)進(jìn)行清洗,并對(duì)文本數(shù)據(jù)進(jìn)行段落提取,還用以將清洗后的對(duì)話數(shù)據(jù)和段落提取后的文本數(shù)據(jù)切分為文本塊進(jìn)行存儲(chǔ);

6、實(shí)體抽取模塊,用以根據(jù)大模型結(jié)合lora微調(diào)技術(shù),從文本塊中做ner任務(wù)推理,以抽取實(shí)體信息;

7、引導(dǎo)分析模塊,用以對(duì)用戶首query進(jìn)行標(biāo)準(zhǔn)化改寫(xiě),并總結(jié)出sop流程;

8、圖譜構(gòu)建模塊,用以根據(jù)標(biāo)準(zhǔn)化改寫(xiě)后的用戶首query作為主節(jié)點(diǎn),將抽取的實(shí)體信息、存儲(chǔ)的文本塊和sop流程作為其他節(jié)點(diǎn),構(gòu)建首query與其他節(jié)點(diǎn)的關(guān)系,以形成由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所組成的完整知識(shí)圖譜;

9、圖譜查詢模塊,用以對(duì)用戶提交的新的查詢進(jìn)行實(shí)體信息抽取,還用以對(duì)抽取到的實(shí)體信息進(jìn)行過(guò)濾,以得到候選節(jié)點(diǎn),還用以對(duì)用戶提交的新查詢與候選節(jié)點(diǎn)的余弦相似度進(jìn)行計(jì)算,并根據(jù)計(jì)算結(jié)果向用戶進(jìn)行檢索結(jié)果推送。

10、進(jìn)一步地,所述數(shù)據(jù)切分模塊包括對(duì)話數(shù)據(jù)處理單元和文本數(shù)據(jù)處理單元,所述對(duì)話數(shù)據(jù)處理單元用以對(duì)對(duì)話數(shù)據(jù)進(jìn)行去除html臟數(shù)據(jù)、去除表情符、去除人名、去除手機(jī)號(hào)和關(guān)鍵詞命中處理,并將處理后的對(duì)話數(shù)據(jù)切分為文本塊后進(jìn)行存儲(chǔ)。

11、進(jìn)一步地,所述文本數(shù)據(jù)處理單元用以對(duì)文本數(shù)據(jù)進(jìn)行段落提取,并將段落提取后的文本數(shù)據(jù)切分為文本塊進(jìn)行存儲(chǔ)。

12、進(jìn)一步地,所述實(shí)體抽取模塊通過(guò)基座模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行構(gòu)建,并設(shè)置lora微調(diào)參數(shù),通過(guò)模型推理加載對(duì)命名實(shí)體識(shí)別任務(wù)進(jìn)行微調(diào),以抽取實(shí)體信息。

13、進(jìn)一步地,所述引導(dǎo)分析模塊包括查詢改寫(xiě)單元和流程總結(jié)單元,所述查詢改寫(xiě)單元用以根據(jù)大模型對(duì)用戶首query進(jìn)行標(biāo)準(zhǔn)化改寫(xiě),并將改寫(xiě)的結(jié)果將作為知識(shí)圖譜中的查詢主節(jié)點(diǎn)。

14、進(jìn)一步地,所述流程總結(jié)單元根據(jù)多輪對(duì)話數(shù)據(jù)利用大模型總結(jié)出sop流程。

15、進(jìn)一步地,所述圖譜構(gòu)建模塊用以將標(biāo)準(zhǔn)化改寫(xiě)后的用戶首query作為主節(jié)點(diǎn),利用langchain與向量模型bge將用戶首query轉(zhuǎn)化為向量形式存儲(chǔ)在neo4j圖數(shù)據(jù)庫(kù)中,并將抽取的實(shí)體信息、存儲(chǔ)的文本塊和sop流程作為其他節(jié)點(diǎn),構(gòu)建首query與其他節(jié)點(diǎn)的關(guān)系,以形成由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所組成的完整知識(shí)圖譜。

16、進(jìn)一步地,所述圖譜查詢模塊包括節(jié)點(diǎn)過(guò)濾單元、相似度計(jì)算單元和推送單元,所述節(jié)點(diǎn)過(guò)濾單元用以對(duì)用戶提交的新的查詢進(jìn)行實(shí)體信息抽取,并通過(guò)cypher語(yǔ)句對(duì)抽取到的實(shí)體信息進(jìn)行模糊匹配,以對(duì)抽取到的實(shí)體信息進(jìn)行過(guò)濾,從而在已構(gòu)建的圖譜中過(guò)濾出相關(guān)節(jié)點(diǎn),并將其作為候選節(jié)點(diǎn)。

17、進(jìn)一步地,所述相似度計(jì)算單元對(duì)用戶提交的新查詢與候選節(jié)點(diǎn)的余弦相似度進(jìn)行計(jì)算,以得到相似度similarity(a,b)。

18、進(jìn)一步地,所述推送單元用以將各候選節(jié)點(diǎn)與用戶提交的新查詢的相似度進(jìn)行降序排序,并將相似度前k個(gè)候選節(jié)點(diǎn)進(jìn)行關(guān)系查詢,以查詢出對(duì)應(yīng)完整信息的關(guān)系節(jié)點(diǎn),并向用戶進(jìn)行推送。

19、本發(fā)明的有益效果如下:通過(guò)結(jié)合圖譜與向量召回技術(shù),提高了汽車問(wèn)答業(yè)務(wù)的召回準(zhǔn)確率和靈活性,同時(shí),圖譜的構(gòu)建能夠充分利用用戶多輪對(duì)話中的信息,形成豐富的知識(shí)庫(kù);而混合檢索向量召回技術(shù)則能夠準(zhǔn)確匹配用戶查詢與知識(shí)庫(kù)中的信息,提高召回準(zhǔn)確率;此外,本發(fā)明還采用了大模型和lora微調(diào)技術(shù),進(jìn)一步提高了ner任務(wù)的準(zhǔn)確性和效率。因此,本發(fā)明在汽車智能問(wèn)答業(yè)務(wù)檢索系統(tǒng)中具有廣泛的應(yīng)用前景和重要的實(shí)用價(jià)值。



技術(shù)特征:

1.一種基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述數(shù)據(jù)切分模塊包括對(duì)話數(shù)據(jù)處理單元和文本數(shù)據(jù)處理單元,所述對(duì)話數(shù)據(jù)處理單元用以對(duì)對(duì)話數(shù)據(jù)進(jìn)行去除html臟數(shù)據(jù)、去除表情符、去除人名、去除手機(jī)號(hào)和關(guān)鍵詞命中處理,并將處理后的對(duì)話數(shù)據(jù)切分為文本塊后進(jìn)行存儲(chǔ)。

3.根據(jù)權(quán)利要求2所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述文本數(shù)據(jù)處理單元用以對(duì)文本數(shù)據(jù)進(jìn)行段落提取,并將段落提取后的文本數(shù)據(jù)切分為文本塊進(jìn)行存儲(chǔ)。

4.根據(jù)權(quán)利要求3所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述實(shí)體抽取模塊通過(guò)基座模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行構(gòu)建,并設(shè)置lora微調(diào)參數(shù),通過(guò)模型推理加載對(duì)命名實(shí)體識(shí)別任務(wù)進(jìn)行微調(diào),以抽取實(shí)體信息。

5.根據(jù)權(quán)利要求4所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述引導(dǎo)分析模塊包括查詢改寫(xiě)單元和流程總結(jié)單元,所述查詢改寫(xiě)單元用以根據(jù)大模型對(duì)用戶首query進(jìn)行標(biāo)準(zhǔn)化改寫(xiě),并將改寫(xiě)的結(jié)果將作為知識(shí)圖譜中的查詢主節(jié)點(diǎn)。

6.根據(jù)權(quán)利要求5所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述流程總結(jié)單元根據(jù)多輪對(duì)話數(shù)據(jù)利用大模型總結(jié)出sop流程。

7.根據(jù)權(quán)利要求6所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述圖譜構(gòu)建模塊用以將標(biāo)準(zhǔn)化改寫(xiě)后的用戶首query作為主節(jié)點(diǎn),利用langchain與向量模型bge將用戶首query轉(zhuǎn)化為向量形式存儲(chǔ)在neo4j圖數(shù)據(jù)庫(kù)中,并將抽取的實(shí)體信息、存儲(chǔ)的文本塊和sop流程作為其他節(jié)點(diǎn),構(gòu)建首query與其他節(jié)點(diǎn)的關(guān)系,以形成由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所組成的完整知識(shí)圖譜。

8.根據(jù)權(quán)利要求7所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述圖譜查詢模塊包括節(jié)點(diǎn)過(guò)濾單元、相似度計(jì)算單元和推送單元,所述節(jié)點(diǎn)過(guò)濾單元用以對(duì)用戶提交的新的查詢進(jìn)行實(shí)體信息抽取,并通過(guò)cypher語(yǔ)句對(duì)抽取到的實(shí)體信息進(jìn)行模糊匹配,以對(duì)抽取到的實(shí)體信息進(jìn)行過(guò)濾,從而在已構(gòu)建的圖譜中過(guò)濾出相關(guān)節(jié)點(diǎn),并將其作為候選節(jié)點(diǎn)。

9.根據(jù)權(quán)利要求8所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述相似度計(jì)算單元對(duì)用戶提交的新查詢與候選節(jié)點(diǎn)的余弦相似度進(jìn)行計(jì)算,以得到相似度similarity(a,b)。

10.根據(jù)權(quán)利要求9所述的基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),其特征在于,所述推送單元用以將各候選節(jié)點(diǎn)與用戶提交的新查詢的相似度進(jìn)行降序排序,并將相似度前k個(gè)候選節(jié)點(diǎn)進(jìn)行關(guān)系查詢,以查詢出對(duì)應(yīng)完整信息的關(guān)系節(jié)點(diǎn),并向用戶進(jìn)行推送。


技術(shù)總結(jié)
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種基于大模型與知識(shí)圖譜的汽車領(lǐng)域問(wèn)答檢索系統(tǒng),包括:數(shù)據(jù)采集模塊,用以采集對(duì)數(shù)數(shù)據(jù)和文本數(shù)據(jù);數(shù)據(jù)切分模塊,用以對(duì)對(duì)話數(shù)據(jù)進(jìn)行清洗,并對(duì)文本數(shù)據(jù)進(jìn)行段落提取,還用以將清洗后的對(duì)話數(shù)據(jù)和段落提取后的文本數(shù)據(jù)切分為文本塊進(jìn)行存儲(chǔ);實(shí)體抽取模塊,用以抽取實(shí)體信息;引導(dǎo)分析模塊,用以對(duì)用戶首query進(jìn)行標(biāo)準(zhǔn)化改寫(xiě),并總結(jié)出SOP流程;圖譜構(gòu)建模塊,用以構(gòu)建首query與其他節(jié)點(diǎn)的關(guān)系,以形成由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所組成的完整知識(shí)圖譜;圖譜查詢模塊,用以向用戶進(jìn)行檢索結(jié)果推送。本發(fā)明提高了汽車領(lǐng)域用戶問(wèn)答檢索準(zhǔn)確性與用戶體驗(yàn)感。

技術(shù)研發(fā)人員:宋瑞琦
受保護(hù)的技術(shù)使用者:北京百車寶科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乳山市| 丰镇市| 鄂托克旗| 穆棱市| 威宁| 上蔡县| 西华县| 翁牛特旗| 和平区| 乌鲁木齐市| 大丰市| 桂东县| 蕉岭县| 万安县| 南投县| 长宁区| 长海县| 新蔡县| 滁州市| 凌源市| 乌拉特后旗| 新巴尔虎左旗| 靖安县| 囊谦县| 永城市| 冀州市| 明水县| 阿勒泰市| 景德镇市| 文昌市| 石渠县| 吴旗县| 长葛市| 益阳市| 汉川市| 黄浦区| 泗阳县| 运城市| 宁波市| 巴彦淖尔市| 郁南县|