本發(fā)明屬于數(shù)據(jù)處理,具體涉及一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)前的生成式ai大模型技術(shù)中,雖然這些模型展示了強(qiáng)大的語(yǔ)言理解和生成能力,但它們通常是在廣泛的通用數(shù)據(jù)集上訓(xùn)練的,這導(dǎo)致了其在特定專業(yè)領(lǐng)域的應(yīng)用時(shí)存在明顯的局限性。特別是對(duì)于需要高度專業(yè)知識(shí)和精確性的領(lǐng)域,如征信行業(yè),現(xiàn)有的ai大模型往往無(wú)法有效地融合專業(yè)知識(shí),難以提供準(zhǔn)確、專業(yè)的回答。這是因?yàn)檎餍艛?shù)據(jù)具有較高的及時(shí)性和規(guī)定的解讀需要極高的專業(yè)性,而市面上的產(chǎn)品大多缺乏針對(duì)這類特性的優(yōu)化。
2、一個(gè)顯著的技術(shù)問(wèn)題在于,現(xiàn)有技術(shù)中的生成式ai大模型無(wú)法精準(zhǔn)理解并處理征信領(lǐng)域的特殊業(yè)務(wù)需求。例如,在面對(duì)復(fù)雜的征信查詢或規(guī)定解釋時(shí),這些模型可能會(huì)因?yàn)閷?duì)領(lǐng)域內(nèi)術(shù)語(yǔ)的誤解或不完全理解,而導(dǎo)致信息檢索不準(zhǔn)確或產(chǎn)生誤導(dǎo)性的解釋,從而無(wú)法滿足用戶的具體需求,甚至可能為客戶帶來(lái)額外的風(fēng)險(xiǎn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法及系統(tǒng),可以為廣大金融機(jī)構(gòu)、投資者提供全方位的規(guī)定解讀服務(wù)、企業(yè)信息掃描、企業(yè)征信數(shù)據(jù)分析及信用風(fēng)險(xiǎn)評(píng)估,以解決上述背景技術(shù)中提出的問(wèn)題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明一方面提供了一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,包括以下步驟:
3、對(duì)各種渠道獲取的大文本數(shù)據(jù)進(jìn)行預(yù)處理,將非文本數(shù)據(jù)轉(zhuǎn)換為文本格式,去除特殊字符和不相關(guān)信息,并分割長(zhǎng)篇文檔為多個(gè)文本塊;
4、使用包含基于規(guī)則和基于深度學(xué)習(xí)的分詞模型對(duì)文本塊中的專業(yè)詞匯、高頻詞匯、核心詞語(yǔ)、上下文關(guān)系進(jìn)行提??;
5、引入包含征信領(lǐng)域?qū)I(yè)詞匯、規(guī)定特色標(biāo)簽、復(fù)雜語(yǔ)義標(biāo)注、詞性標(biāo)注在內(nèi)的征信標(biāo)簽體系,對(duì)文本塊打上基礎(chǔ)標(biāo)簽和征信標(biāo)簽;
6、基于分詞打標(biāo)的結(jié)果,形成標(biāo)簽標(biāo)題,并通過(guò)句子嵌入式模型將文本塊與標(biāo)簽標(biāo)題轉(zhuǎn)化為向量表示,存入向量數(shù)據(jù)庫(kù)中。
7、優(yōu)選的,還包括:獲取用戶問(wèn)題后,使用征信分詞模型和征信標(biāo)簽體系對(duì)用戶問(wèn)題進(jìn)行分詞打標(biāo),并關(guān)聯(lián)標(biāo)簽標(biāo)題。
8、優(yōu)選的,所述獲取用戶問(wèn)題后,使用征信分詞模型和征信標(biāo)簽體系對(duì)用戶問(wèn)題進(jìn)行分詞打標(biāo),包括:
9、對(duì)復(fù)雜度較高的問(wèn)題進(jìn)行拆解,識(shí)別其中的實(shí)體、屬性和關(guān)系,并生成上下文關(guān)系標(biāo)簽,存入知識(shí)圖譜。
10、優(yōu)選的,所述對(duì)復(fù)雜度較高的問(wèn)題進(jìn)行拆解,包括:
11、對(duì)拆解后的問(wèn)題進(jìn)行二次分詞打標(biāo),并將拆解后的問(wèn)題及其打標(biāo)結(jié)果進(jìn)行向量化處理。
12、優(yōu)選的,所述對(duì)拆解后的問(wèn)題進(jìn)行二次分詞打標(biāo),包括:
13、檢索向量數(shù)據(jù)庫(kù),先通過(guò)關(guān)鍵詞匹配初步篩選符合的文本塊內(nèi)容,再通過(guò)語(yǔ)義相似度計(jì)算找到最相關(guān)的文本塊。
14、優(yōu)選的,所述通過(guò)語(yǔ)義相似度計(jì)算找到最相關(guān)的文本塊,包括:
15、分別獲得查詢內(nèi)容,并根據(jù)標(biāo)簽標(biāo)題中可能存在的上下文關(guān)系再次的關(guān)系標(biāo)注,確保輸出內(nèi)容的一致性和準(zhǔn)確性。
16、優(yōu)選的,所述根據(jù)標(biāo)簽標(biāo)題中可能存在的上下文關(guān)系再次的關(guān)系標(biāo)注,包括:
17、整合并生成最后輸出內(nèi)容,根據(jù)子查詢內(nèi)容的標(biāo)簽標(biāo)題產(chǎn)生的上下文關(guān)系修正或刪除錯(cuò)誤信息點(diǎn)。
18、優(yōu)選的,所述根據(jù)子查詢內(nèi)容的標(biāo)簽標(biāo)題產(chǎn)生的上下文關(guān)系修正或刪除錯(cuò)誤信息點(diǎn),包括:
19、提供關(guān)聯(lián)問(wèn)題給用戶選擇,避免用戶未能問(wèn)出實(shí)際想問(wèn)的問(wèn)題,或者引導(dǎo)用戶深入探索相關(guān)問(wèn)題。
20、另一方面,本發(fā)明提出一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答系統(tǒng),包括:
21、文本預(yù)處理模塊,用于執(zhí)行數(shù)據(jù)預(yù)處理;
22、分詞打標(biāo)模塊,用于執(zhí)行分詞打標(biāo)過(guò)程;
23、向量數(shù)據(jù)庫(kù)模塊,用于存儲(chǔ)和檢索經(jīng)過(guò)向量化處理后的文本塊和標(biāo)簽標(biāo)題;
24、用戶交互模塊,用于接收用戶問(wèn)題,以及提供最終整合后的輸出內(nèi)容和關(guān)聯(lián)問(wèn)題。
25、本發(fā)明的技術(shù)效果和優(yōu)點(diǎn):本發(fā)明提出的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法及系統(tǒng),與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):
26、本發(fā)明通過(guò)引入專門設(shè)計(jì)的征信分詞模型和征信標(biāo)簽體系,能夠更加準(zhǔn)確地捕捉征信領(lǐng)域的專業(yè)詞匯和語(yǔ)義關(guān)系,并將這些特征轉(zhuǎn)化為向量表示存儲(chǔ)于向量數(shù)據(jù)庫(kù)中。當(dāng)用戶提出問(wèn)題時(shí),系統(tǒng)可以通過(guò)匹配用戶問(wèn)題與數(shù)據(jù)庫(kù)中的標(biāo)簽標(biāo)題向量來(lái)快速定位最相關(guān)的文本塊,實(shí)現(xiàn)高精度的信息檢索和答案生成。因此,本發(fā)明不僅提升了智能問(wèn)答系統(tǒng)的響應(yīng)速度和準(zhǔn)確性,還確保了答案的專業(yè)性和可靠性,有效解決了現(xiàn)有技術(shù)中征信領(lǐng)域智能問(wèn)答不夠精準(zhǔn)的問(wèn)題。
1.一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,還包括:
3.根據(jù)權(quán)利要求2所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,所述獲取用戶問(wèn)題后,使用征信分詞模型和征信標(biāo)簽體系對(duì)用戶問(wèn)題進(jìn)行分詞打標(biāo),包括:
4.根據(jù)權(quán)利要求3所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,所述對(duì)復(fù)雜度較高的問(wèn)題進(jìn)行拆解,包括:
5.根據(jù)權(quán)利要求4所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,所述對(duì)拆解后的問(wèn)題進(jìn)行二次分詞打標(biāo),包括:
6.根據(jù)權(quán)利要求5所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,所述通過(guò)語(yǔ)義相似度計(jì)算找到最相關(guān)的文本塊,包括:
7.根據(jù)權(quán)利要求6所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,所述根據(jù)標(biāo)簽標(biāo)題中可能存在的上下文關(guān)系再次的關(guān)系標(biāo)注,包括:
8.根據(jù)權(quán)利要求7所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答方法,其特征在于,所述根據(jù)子查詢內(nèi)容的標(biāo)簽標(biāo)題產(chǎn)生的上下文關(guān)系修正或刪除錯(cuò)誤信息點(diǎn),包括:
9.一種用于實(shí)現(xiàn)根據(jù)權(quán)利要求1-8任意一項(xiàng)所述方法的基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答系統(tǒng),其特征在于,包括:
10.根據(jù)權(quán)利要求9所述的一種基于征信標(biāo)簽體系增強(qiáng)的rag大模型智能問(wèn)答系統(tǒng),其特征在于,還包括: