本發(fā)明涉及ai文本處理,特別是一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法。
背景技術(shù):
1、近年大語(yǔ)言模型已經(jīng)正式開(kāi)啟業(yè)界的廣泛落地應(yīng)用,大語(yǔ)言模型優(yōu)秀的通用問(wèn)答能力使得業(yè)界公司相關(guān)研發(fā)人員相繼投入研究,大語(yǔ)言模型落地應(yīng)用中的一項(xiàng)關(guān)鍵技術(shù)rag可以使得用戶在不訓(xùn)練模型的基礎(chǔ)上即可以實(shí)現(xiàn)領(lǐng)域知識(shí)問(wèn)答能力,成本低,同時(shí)不會(huì)出現(xiàn)大模型災(zāi)難性遺忘,受到大多數(shù)中小企業(yè)的熱愛(ài),rag即先將用戶的文本內(nèi)容切分成知識(shí)點(diǎn),然后將用戶的問(wèn)題向量化,通過(guò)語(yǔ)義檢索模型檢索相關(guān)的知識(shí)點(diǎn),然后采用prompt工程輸入大模型,因?yàn)檩斎氪竽P偷膬?nèi)容包含了用戶內(nèi)容,因而相當(dāng)于一個(gè)帶著參考內(nèi)容的學(xué)生參加考試,從而使得大語(yǔ)言模型在不訓(xùn)練的情況下可以回答領(lǐng)域相關(guān)的問(wèn)題。然而由于知識(shí)點(diǎn)不規(guī)范性、語(yǔ)義檢索模型的不準(zhǔn)確性、知識(shí)內(nèi)容中的噪聲、知識(shí)點(diǎn)的復(fù)雜性、知識(shí)點(diǎn)內(nèi)容過(guò)于長(zhǎng)等種種原因,大語(yǔ)言模型通常會(huì)出現(xiàn)幻覺(jué)問(wèn)題,為了解決這一問(wèn)題,本專利提出了一種大模型優(yōu)化大模型,來(lái)解決大模型幻覺(jué)問(wèn)題的一套完整的解決方案,我們?cè)谏褶r(nóng)一號(hào)農(nóng)業(yè)大模型開(kāi)發(fā)過(guò)程中進(jìn)行了實(shí)踐,提出了一套完整的解決大模型幻覺(jué)的技術(shù)方案。rag的價(jià)值在于領(lǐng)域知識(shí)問(wèn)答,如果領(lǐng)域知識(shí)沒(méi)有開(kāi)放模型的知識(shí)有價(jià)值,rag將失去意義,本專利提出了一種構(gòu)造領(lǐng)域知識(shí),同時(shí)解決大模型幻覺(jué)的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、神農(nóng)一號(hào)大模型開(kāi)發(fā)農(nóng)業(yè)知識(shí)問(wèn)答過(guò)程中,基于開(kāi)源的大語(yǔ)言模型chatglm3-6b、使用基于langchain框架作為rag引擎技術(shù)做領(lǐng)域知識(shí)問(wèn)答過(guò)程中,經(jīng)常出現(xiàn)幻覺(jué),例如對(duì)農(nóng)業(yè)某蟲(chóng)害特征進(jìn)行描述時(shí)會(huì)把體長(zhǎng)等數(shù)值描述為其他蟲(chóng)害。本專利通過(guò)分析,提出用大模型優(yōu)化大模型解決大模型幻覺(jué)的解決方案。更專業(yè)的農(nóng)業(yè)知識(shí)在rag中才更有價(jià)值,本專利提出了一種構(gòu)造適用于rag的農(nóng)業(yè)知識(shí)構(gòu)造方法,只需要簡(jiǎn)單的prompt設(shè)計(jì),即可以構(gòu)造更專業(yè)的農(nóng)業(yè)知識(shí),從而真正實(shí)現(xiàn)rag的價(jià)值。
2、本發(fā)明解決現(xiàn)有技術(shù)不足提供一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,包括如下步驟:
3、s1.收集數(shù)據(jù)源
4、通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù);
5、s2.農(nóng)業(yè)pdf收集處理:
6、首先通過(guò)python中pypdf2工具包從pdf文件中提取文字,其次對(duì)文字進(jìn)行切分;
7、第一步:判斷一行文字的末尾是否為“句號(hào)”或者“感嘆號(hào)”或者末尾不是標(biāo)點(diǎn)符號(hào);第二步:判斷該行文本長(zhǎng)度是否與前幾行文本長(zhǎng)度一致;第三步:如果滿足以上兩步要求,則表示該段文本內(nèi)容是一個(gè)初步完整語(yǔ)義內(nèi)容塊,切分組成語(yǔ)料塊;重復(fù)以上步驟,直到把整個(gè)文檔切分完畢;
8、其次使用基于開(kāi)源的qwen1.5-14b-chat模型針對(duì)語(yǔ)料塊細(xì)切分,每個(gè) 知識(shí)點(diǎn)在30 到50字,通過(guò)開(kāi)源的大模型從而細(xì)切分知識(shí)點(diǎn);
9、s3.農(nóng)業(yè)excel表格數(shù)據(jù):
10、知識(shí)點(diǎn)通過(guò)prompt替換為表格數(shù)據(jù);用字母段拼接組成知識(shí)點(diǎn),aaa代表【農(nóng)作物】、bbb代表【農(nóng)作物品種】、ccc代表【土壤條件】、ddd代表【種植技術(shù)】、eee代表【病蟲(chóng)害】、fff代表【存儲(chǔ)方法】,通過(guò)prompt技術(shù)構(gòu)建農(nóng)業(yè)知識(shí)點(diǎn);通過(guò)對(duì)excel中不同列進(jìn)行組合構(gòu)建prompt,從而形成字母段拼接的不同知識(shí)點(diǎn),進(jìn)而形成農(nóng)業(yè)詞典;
11、s4.開(kāi)源數(shù)據(jù)集處理:
12、農(nóng)業(yè)詞典針對(duì)開(kāi)源的數(shù)據(jù)集進(jìn)行粗過(guò)濾,選取農(nóng)業(yè)詞典相關(guān)的數(shù)據(jù)。
13、所述s1中通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行處理,包括數(shù)據(jù)清洗、特征縮放、特征編碼、特征選擇、?數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸一化、異常值處理、數(shù)據(jù)平衡、降維、時(shí)間序列處理步驟。
14、還包括如下步驟:
15、s5.農(nóng)業(yè)問(wèn)答數(shù)據(jù)集處理:
16、通過(guò)農(nóng)業(yè)問(wèn)答機(jī)器人積累農(nóng)業(yè)問(wèn)答數(shù)據(jù)集,補(bǔ)充數(shù)據(jù)源收集,擴(kuò)充數(shù)據(jù)源庫(kù);
17、s6.知識(shí)點(diǎn)總處理:
18、第一步:把農(nóng)業(yè)問(wèn)答數(shù)據(jù)集向量化;第二步:通過(guò)語(yǔ)義向量相似度檢索相關(guān)的知識(shí)點(diǎn);第三步:根據(jù)相似度得分閾值篩選知識(shí)點(diǎn)。
19、本發(fā)明有益效果:本專利提出了一種大模型優(yōu)化大模型的技術(shù)解決大模型在農(nóng)業(yè)知識(shí)問(wèn)答的技術(shù)解決方案,這種方案核心不在于一個(gè)prompt技術(shù)點(diǎn)的應(yīng)用,而是在于一種方法論,通過(guò)本專利提出的農(nóng)業(yè)知識(shí)建設(shè)方法,可以大幅提高大模型外掛知識(shí)庫(kù)做農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性,具體地為:pdf書(shū)籍知識(shí)粗切分、prompt農(nóng)業(yè)粗知識(shí)點(diǎn)輸入大模型語(yǔ)義精切分農(nóng)業(yè)知識(shí),完成了農(nóng)業(yè)書(shū)籍的知識(shí)建設(shè),有利于提高農(nóng)業(yè)知識(shí)回答的專業(yè)性;農(nóng)業(yè)excel數(shù)據(jù)和prompt模板形成excel數(shù)據(jù),為excel數(shù)據(jù)賦予意圖,解決用戶問(wèn)題和excel的語(yǔ)義鴻溝,提高回答的精準(zhǔn)性;開(kāi)源數(shù)據(jù)集詞典過(guò)濾處理、大模型行業(yè)分類過(guò)濾收集更廣泛農(nóng)業(yè)數(shù)據(jù)集,提高農(nóng)業(yè)知識(shí)問(wèn)答的覆蓋度;知識(shí)點(diǎn)總處理,將所有知識(shí)點(diǎn)長(zhǎng)的內(nèi)容通過(guò)大模型語(yǔ)義理解進(jìn)行知識(shí)壓縮,短的知識(shí)點(diǎn)通過(guò)大模型語(yǔ)義理解進(jìn)行文字?jǐn)U展。這樣避免語(yǔ)義檢索模型過(guò)多出現(xiàn)短文本搜索長(zhǎng)文本,長(zhǎng)文本搜索短文本出現(xiàn)的準(zhǔn)確率問(wèn)題。通過(guò)上述多種操作的組合,可以大幅提高大模型在農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性,且本專利提出的方法論在任何行業(yè),任何領(lǐng)域的知識(shí)問(wèn)答都具有很廣泛的借鑒意義。因?yàn)楸緦@岢龅募夹g(shù)方案大多數(shù)是通過(guò)大模型技術(shù)解決大模型準(zhǔn)確率的問(wèn)題,且在農(nóng)業(yè)大模型開(kāi)發(fā)過(guò)程中進(jìn)行了實(shí)操,因而本專利命名為:一種大模型優(yōu)化大模型解決大模型在農(nóng)業(yè)知識(shí)問(wèn)答領(lǐng)域應(yīng)用方法。
1.一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,其特征在于包括如下步驟:
2.根據(jù)權(quán)利要求1所述一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,其特征在于所述s1中通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行處理,包括數(shù)據(jù)清洗、特征縮放、特征編碼、特征選擇、?數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸一化、異常值處理、數(shù)據(jù)平衡、降維、時(shí)間序列處理步驟。
3.根據(jù)權(quán)利要求1所述一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法,其特征在于還包括如下步驟: