一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法與流程

文檔序號(hào)：40569406發(fā)布日期：2025-01-03 11:29閱讀：16來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及ai文本處理，特別是一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法。

背景技術(shù)：

1、近年大語(yǔ)言模型已經(jīng)正式開(kāi)啟業(yè)界的廣泛落地應(yīng)用，大語(yǔ)言模型優(yōu)秀的通用問(wèn)答能力使得業(yè)界公司相關(guān)研發(fā)人員相繼投入研究，大語(yǔ)言模型落地應(yīng)用中的一項(xiàng)關(guān)鍵技術(shù)rag可以使得用戶在不訓(xùn)練模型的基礎(chǔ)上即可以實(shí)現(xiàn)領(lǐng)域知識(shí)問(wèn)答能力，成本低，同時(shí)不會(huì)出現(xiàn)大模型災(zāi)難性遺忘，受到大多數(shù)中小企業(yè)的熱愛(ài)，rag即先將用戶的文本內(nèi)容切分成知識(shí)點(diǎn)，然后將用戶的問(wèn)題向量化，通過(guò)語(yǔ)義檢索模型檢索相關(guān)的知識(shí)點(diǎn)，然后采用prompt工程輸入大模型，因?yàn)檩斎氪竽Ｐ偷膬?nèi)容包含了用戶內(nèi)容，因而相當(dāng)于一個(gè)帶著參考內(nèi)容的學(xué)生參加考試，從而使得大語(yǔ)言模型在不訓(xùn)練的情況下可以回答領(lǐng)域相關(guān)的問(wèn)題。然而由于知識(shí)點(diǎn)不規(guī)范性、語(yǔ)義檢索模型的不準(zhǔn)確性、知識(shí)內(nèi)容中的噪聲、知識(shí)點(diǎn)的復(fù)雜性、知識(shí)點(diǎn)內(nèi)容過(guò)于長(zhǎng)等種種原因，大語(yǔ)言模型通常會(huì)出現(xiàn)幻覺(jué)問(wèn)題，為了解決這一問(wèn)題，本專利提出了一種大模型優(yōu)化大模型，來(lái)解決大模型幻覺(jué)問(wèn)題的一套完整的解決方案，我們?cè)谏褶r(nóng)一號(hào)農(nóng)業(yè)大模型開(kāi)發(fā)過(guò)程中進(jìn)行了實(shí)踐，提出了一套完整的解決大模型幻覺(jué)的技術(shù)方案。rag的價(jià)值在于領(lǐng)域知識(shí)問(wèn)答，如果領(lǐng)域知識(shí)沒(méi)有開(kāi)放模型的知識(shí)有價(jià)值，rag將失去意義，本專利提出了一種構(gòu)造領(lǐng)域知識(shí)，同時(shí)解決大模型幻覺(jué)的解決方案。

技術(shù)實(shí)現(xiàn)思路

1、神農(nóng)一號(hào)大模型開(kāi)發(fā)農(nóng)業(yè)知識(shí)問(wèn)答過(guò)程中，基于開(kāi)源的大語(yǔ)言模型chatglm3-6b、使用基于langchain框架作為rag引擎技術(shù)做領(lǐng)域知識(shí)問(wèn)答過(guò)程中，經(jīng)常出現(xiàn)幻覺(jué)，例如對(duì)農(nóng)業(yè)某蟲(chóng)害特征進(jìn)行描述時(shí)會(huì)把體長(zhǎng)等數(shù)值描述為其他蟲(chóng)害。本專利通過(guò)分析，提出用大模型優(yōu)化大模型解決大模型幻覺(jué)的解決方案。更專業(yè)的農(nóng)業(yè)知識(shí)在rag中才更有價(jià)值，本專利提出了一種構(gòu)造適用于rag的農(nóng)業(yè)知識(shí)構(gòu)造方法，只需要簡(jiǎn)單的prompt設(shè)計(jì)，即可以構(gòu)造更專業(yè)的農(nóng)業(yè)知識(shí)，從而真正實(shí)現(xiàn)rag的價(jià)值。

2、本發(fā)明解決現(xiàn)有技術(shù)不足提供一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法，包括如下步驟：

3、s1.收集數(shù)據(jù)源

4、通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù)；

5、s2.農(nóng)業(yè)pdf收集處理：

6、首先通過(guò)python中pypdf2工具包從pdf文件中提取文字，其次對(duì)文字進(jìn)行切分；

7、第一步：判斷一行文字的末尾是否為“句號(hào)”或者“感嘆號(hào)”或者末尾不是標(biāo)點(diǎn)符號(hào)；第二步：判斷該行文本長(zhǎng)度是否與前幾行文本長(zhǎng)度一致；第三步：如果滿足以上兩步要求，則表示該段文本內(nèi)容是一個(gè)初步完整語(yǔ)義內(nèi)容塊，切分組成語(yǔ)料塊；重復(fù)以上步驟，直到把整個(gè)文檔切分完畢；

8、其次使用基于開(kāi)源的qwen1.5-14b-chat模型針對(duì)語(yǔ)料塊細(xì)切分，每個(gè) 知識(shí)點(diǎn)在30 到50字，通過(guò)開(kāi)源的大模型從而細(xì)切分知識(shí)點(diǎn)；

9、s3.農(nóng)業(yè)excel表格數(shù)據(jù)：

10、知識(shí)點(diǎn)通過(guò)prompt替換為表格數(shù)據(jù)；用字母段拼接組成知識(shí)點(diǎn)，aaa代表【農(nóng)作物】、bbb代表【農(nóng)作物品種】、ccc代表【土壤條件】、ddd代表【種植技術(shù)】、eee代表【病蟲(chóng)害】、fff代表【存儲(chǔ)方法】，通過(guò)prompt技術(shù)構(gòu)建農(nóng)業(yè)知識(shí)點(diǎn)；通過(guò)對(duì)excel中不同列進(jìn)行組合構(gòu)建prompt，從而形成字母段拼接的不同知識(shí)點(diǎn)，進(jìn)而形成農(nóng)業(yè)詞典；

11、s4.開(kāi)源數(shù)據(jù)集處理：

12、農(nóng)業(yè)詞典針對(duì)開(kāi)源的數(shù)據(jù)集進(jìn)行粗過(guò)濾，選取農(nóng)業(yè)詞典相關(guān)的數(shù)據(jù)。

13、所述s1中通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行處理，包括數(shù)據(jù)清洗、特征縮放、特征編碼、特征選擇、?數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸一化、異常值處理、數(shù)據(jù)平衡、降維、時(shí)間序列處理步驟。

14、還包括如下步驟：

15、s5.農(nóng)業(yè)問(wèn)答數(shù)據(jù)集處理：

16、通過(guò)農(nóng)業(yè)問(wèn)答機(jī)器人積累農(nóng)業(yè)問(wèn)答數(shù)據(jù)集，補(bǔ)充數(shù)據(jù)源收集，擴(kuò)充數(shù)據(jù)源庫(kù)；

17、s6.知識(shí)點(diǎn)總處理：

18、第一步：把農(nóng)業(yè)問(wèn)答數(shù)據(jù)集向量化；第二步：通過(guò)語(yǔ)義向量相似度檢索相關(guān)的知識(shí)點(diǎn)；第三步：根據(jù)相似度得分閾值篩選知識(shí)點(diǎn)。

19、本發(fā)明有益效果：本專利提出了一種大模型優(yōu)化大模型的技術(shù)解決大模型在農(nóng)業(yè)知識(shí)問(wèn)答的技術(shù)解決方案，這種方案核心不在于一個(gè)prompt技術(shù)點(diǎn)的應(yīng)用，而是在于一種方法論，通過(guò)本專利提出的農(nóng)業(yè)知識(shí)建設(shè)方法，可以大幅提高大模型外掛知識(shí)庫(kù)做農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性，具體地為：pdf書(shū)籍知識(shí)粗切分、prompt農(nóng)業(yè)粗知識(shí)點(diǎn)輸入大模型語(yǔ)義精切分農(nóng)業(yè)知識(shí)，完成了農(nóng)業(yè)書(shū)籍的知識(shí)建設(shè)，有利于提高農(nóng)業(yè)知識(shí)回答的專業(yè)性；農(nóng)業(yè)excel數(shù)據(jù)和prompt模板形成excel數(shù)據(jù)，為excel數(shù)據(jù)賦予意圖，解決用戶問(wèn)題和excel的語(yǔ)義鴻溝，提高回答的精準(zhǔn)性；開(kāi)源數(shù)據(jù)集詞典過(guò)濾處理、大模型行業(yè)分類過(guò)濾收集更廣泛農(nóng)業(yè)數(shù)據(jù)集，提高農(nóng)業(yè)知識(shí)問(wèn)答的覆蓋度；知識(shí)點(diǎn)總處理，將所有知識(shí)點(diǎn)長(zhǎng)的內(nèi)容通過(guò)大模型語(yǔ)義理解進(jìn)行知識(shí)壓縮，短的知識(shí)點(diǎn)通過(guò)大模型語(yǔ)義理解進(jìn)行文字?jǐn)U展。這樣避免語(yǔ)義檢索模型過(guò)多出現(xiàn)短文本搜索長(zhǎng)文本，長(zhǎng)文本搜索短文本出現(xiàn)的準(zhǔn)確率問(wèn)題。通過(guò)上述多種操作的組合，可以大幅提高大模型在農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性，且本專利提出的方法論在任何行業(yè)，任何領(lǐng)域的知識(shí)問(wèn)答都具有很廣泛的借鑒意義。因?yàn)楸緦＠岢龅募夹g(shù)方案大多數(shù)是通過(guò)大模型技術(shù)解決大模型準(zhǔn)確率的問(wèn)題，且在農(nóng)業(yè)大模型開(kāi)發(fā)過(guò)程中進(jìn)行了實(shí)操，因而本專利命名為：一種大模型優(yōu)化大模型解決大模型在農(nóng)業(yè)知識(shí)問(wèn)答領(lǐng)域應(yīng)用方法。

技術(shù)特征：

1.一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法，其特征在于包括如下步驟：

2.根據(jù)權(quán)利要求1所述一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法，其特征在于所述s1中通過(guò)開(kāi)源的數(shù)據(jù)集收集數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行處理，包括數(shù)據(jù)清洗、特征縮放、特征編碼、特征選擇、?數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸一化、異常值處理、數(shù)據(jù)平衡、降維、時(shí)間序列處理步驟。

3.根據(jù)權(quán)利要求1所述一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法，其特征在于還包括如下步驟：

技術(shù)總結(jié)
本發(fā)明涉及AI文本處理技術(shù)領(lǐng)域，特別是一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法。本專利提出了一種構(gòu)造適用于RAG的農(nóng)業(yè)知識(shí)構(gòu)造方法，只需要簡(jiǎn)單的prompt設(shè)計(jì)，即可以構(gòu)造更專業(yè)的農(nóng)業(yè)知識(shí)，從而真正實(shí)現(xiàn)RAG的價(jià)值。通過(guò)本專利提出的農(nóng)業(yè)知識(shí)建設(shè)方法，可以大幅提高大模型外掛知識(shí)庫(kù)做農(nóng)業(yè)知識(shí)問(wèn)答的準(zhǔn)確性，具體地為：PDF書(shū)籍知識(shí)粗切分、prompt農(nóng)業(yè)粗知識(shí)點(diǎn)輸入大模型語(yǔ)義精切分農(nóng)業(yè)知識(shí)，完成了農(nóng)業(yè)書(shū)籍的知識(shí)建設(shè)，有利于提高農(nóng)業(yè)知識(shí)回答的專業(yè)性；農(nóng)業(yè)Excel數(shù)據(jù)和prompt模板形成Excel數(shù)據(jù)，為Excel數(shù)據(jù)賦予意圖，解決用戶問(wèn)題和Excel的語(yǔ)義鴻溝，提高回答的精準(zhǔn)性。

技術(shù)研發(fā)人員：楊毅,萇浩,王建立,王榮杰,曹肖攀,張少杰,張懷鍵,高浩,蔣嘉鵬
受保護(hù)的技術(shù)使用者：中電萬(wàn)維信息技術(shù)有限責(zé)任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊毅,萇浩,王建立,王榮杰,曹肖攀,張少杰,張懷鍵,高浩,蔣嘉鵬
技術(shù)所有人：中電萬(wàn)維信息技術(shù)有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：提高效率的分切機(jī)的制作方法
上一篇：一種便于空調(diào)安裝施工的可伸縮吊籃的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種大模型優(yōu)化農(nóng)業(yè)知識(shí)領(lǐng)域問(wèn)答應(yīng)用方法與流程