本發(fā)明涉及大語言模型評估,具體為一種針對大語言模型營養(yǎng)管理的評估方法。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展,尤其是自然語言處理(nlp)的進步,大語言模型(largelanguage?models,llms)在多個領(lǐng)域得到了廣泛應(yīng)用。這些模型能夠處理復(fù)雜的語言任務(wù),例如文本生成、機器翻譯和問答系統(tǒng)。在醫(yī)療保健領(lǐng)域,特別是營養(yǎng)管理方面,大語言模型因其強大的信息處理能力和快速響應(yīng)的特點而受到關(guān)注。
2、傳統(tǒng)的營養(yǎng)管理依賴于注冊營養(yǎng)師的專業(yè)知識,他們根據(jù)患者的個體情況制定個性化的飲食計劃。然而,隨著人口老齡化加劇和慢性病發(fā)病率上升,對專業(yè)營養(yǎng)師的需求日益增長,而營養(yǎng)師的數(shù)量卻難以滿足這一需求。此外,患者常常需要頻繁地獲取營養(yǎng)指導(dǎo),這對于營養(yǎng)師來說是一個巨大的負(fù)擔(dān)。
3、近年來,一些研究開始探討大語言模型在營養(yǎng)咨詢中的應(yīng)用潛力。這些模型能夠在短時間內(nèi)提供大量的信息,并且可以根據(jù)用戶的提問進行即時反饋。但是,由于營養(yǎng)管理涉及復(fù)雜的生物化學(xué)過程和個體化的醫(yī)療需求,大語言模型在提供準(zhǔn)確、安全的營養(yǎng)建議方面面臨著嚴(yán)峻的挑戰(zhàn)。具體來說,模型可能基于不完整或錯誤的數(shù)據(jù)生成建議,或者由于缺乏對最新醫(yī)學(xué)研究的理解而給出過時的信息。
4、目前對于大語言模型在營養(yǎng)管理方面的評估方法還處于初級階段,缺乏標(biāo)準(zhǔn)化的評估流程和明確的評價指標(biāo)?,F(xiàn)有的評估方法大多依賴于主觀的人工評判,缺少客觀的量化指標(biāo)。此外,這些方法往往局限于特定的知識點,未能全面考量大語言模型在營養(yǎng)管理中的綜合表現(xiàn)。
5、因此,亟需開發(fā)一套系統(tǒng)化、標(biāo)準(zhǔn)化的方法來評估大語言模型在營養(yǎng)管理領(lǐng)域的專業(yè)知識和應(yīng)用能力,以確保其提供的信息既準(zhǔn)確又安全。此評估方法應(yīng)考慮到營養(yǎng)學(xué)的廣泛性和復(fù)雜性,包括但不限于食品營養(yǎng)成分、不同人群的飲食需求、慢性病管理以及公共營養(yǎng)政策等方面。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種針對大語言模型營養(yǎng)管理的評估方法,解決了目前對于大語言模型在營養(yǎng)管理方面的評估方法還處于初級階段,缺乏標(biāo)準(zhǔn)化的評估流程和明確的評價指標(biāo)的問題。
2、為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):一種針對大語言模型營養(yǎng)管理的評估方法,所述方法包括:
3、s1、構(gòu)建一個評估數(shù)據(jù)集,所述數(shù)據(jù)集包括注冊營養(yǎng)師考試題目,所述題目包括食品與營養(yǎng)學(xué)、個人與群體營養(yǎng)管理、公眾營養(yǎng)與營養(yǎng)教育以及膳食管理;
4、s2、將所述評估數(shù)據(jù)集中的問題提交給待評估的大語言模型;
5、s3、收集所述大語言模型針對所述問題的回答,并根據(jù)回答的內(nèi)容進行分類,所述分類至少包括正確、邏輯錯誤、信息錯誤和計算錯誤;
6、s4、根據(jù)所述分類計算所述大語言模型回答的準(zhǔn)確率;
7、s5、對所述大語言模型的回答進行人工審核,所述人工審核包括由具備醫(yī)學(xué)背景的專業(yè)人員進行的標(biāo)簽標(biāo)記和交叉復(fù)核。
8、優(yōu)選的,還包括:
9、構(gòu)建一個關(guān)于生酮飲食食材推薦的評估數(shù)據(jù)集,所述數(shù)據(jù)集至少包含95種常見食材和飲料的分類;
10、向所述大語言模型詢問是否推薦特定食材用于生酮飲食;
11、收集所述大語言模型的回答,并將其與營養(yǎng)專家的推薦進行比較;
12、計算所述大語言模型推薦與營養(yǎng)專家推薦之間的一致性比率。
13、優(yōu)選的,還包括:
14、構(gòu)建一個包含生酮飲食基本概念、飲食執(zhí)行和不良反應(yīng)的常見問題評估數(shù)據(jù)集;
15、向所述大語言模型提問所述常見問題;
16、收集所述大語言模型的回答,并將其與營養(yǎng)專家的回答進行比較;
17、由至少六位具有10年以上工作經(jīng)驗的臨床營養(yǎng)師對所述回答進行評估,所述評估至少分為三個等級:不可接受、可接受、優(yōu)秀。
18、優(yōu)選的,還包括:
19、定義所述大語言模型的評估標(biāo)準(zhǔn),所述標(biāo)準(zhǔn)包括但不限于信息準(zhǔn)確性、邏輯連貫性和計算準(zhǔn)確性;
20、根據(jù)所述評估標(biāo)準(zhǔn),確定所述大語言模型在營養(yǎng)管理領(lǐng)域的專業(yè)知識水平。
21、優(yōu)選的,所述注冊營養(yǎng)師考試題目分為多個難度級別,所述難度級別至少包括簡單、一般和難題。
22、優(yōu)選的,其中所述大語言模型包括但不限于chatgpt及其后續(xù)版本。
23、有益效果
24、本發(fā)明提供了一種針對大語言模型營養(yǎng)管理的評估方法,具備以下有益效果:
25、1、提高評估的標(biāo)準(zhǔn)化和客觀性:通過構(gòu)建評估數(shù)據(jù)集,并設(shè)定明確的評估標(biāo)準(zhǔn),本發(fā)明的方法能夠提供一種更加系統(tǒng)化和標(biāo)準(zhǔn)化的評估手段,減少了人為因素的影響,提高了評估結(jié)果的客觀性和可靠性。
26、2、增強評估的全面性:本發(fā)明的方法涵蓋了營養(yǎng)學(xué)的多個方面,包括食品與營養(yǎng)學(xué)、個人與群體營養(yǎng)管理、公眾營養(yǎng)與營養(yǎng)教育以及膳食管理等多個維度,能夠全面評估大語言模型在營養(yǎng)學(xué)領(lǐng)域的綜合能力。
27、3、提升評估的實用性:通過模擬注冊營養(yǎng)師考試的實際問題和生酮飲食的具體應(yīng)用場景,本發(fā)明的方法不僅能夠評估大語言模型的基礎(chǔ)理論知識,還能測試其在實際應(yīng)用中的表現(xiàn),從而更好地評估其在真實場景中的適用性和有效性。
28、3、保障評估的安全性:通過對大語言模型生成的回答進行細(xì)致的分類和審核,本發(fā)明的方法有助于識別并減少模型輸出中的誤導(dǎo)性信息,保障了營養(yǎng)建議的安全性和準(zhǔn)確性。
29、4、促進模型改進:通過詳細(xì)記錄和分析模型的回答錯誤類型,本發(fā)明的方法為大語言模型的持續(xù)改進提供了依據(jù),有助于開發(fā)者針對性地優(yōu)化模型,提高其在營養(yǎng)管理領(lǐng)域的表現(xiàn)。
30、5、增強用戶信任:通過系統(tǒng)地評估大語言模型在營養(yǎng)管理領(lǐng)域的表現(xiàn),本發(fā)明的方法能夠增強醫(yī)療工作者和患者對這些工具的信任度,從而促進其在實際醫(yī)療服務(wù)中的應(yīng)用。
31、6、推動學(xué)術(shù)研究和技術(shù)進步:本發(fā)明提供了一套標(biāo)準(zhǔn)化的評估框架,有助于推動相關(guān)領(lǐng)域的學(xué)術(shù)研究和技術(shù)進步,為后續(xù)的模型開發(fā)和評估提供了參考標(biāo)準(zhǔn)。
32、綜上所述,本發(fā)明提出的評估方法不僅能夠有效地評估大語言模型在營養(yǎng)管理領(lǐng)域的專業(yè)知識,而且能夠促進其在實際應(yīng)用中的改進和發(fā)展,具有重要的實用價值和社會意義。
1.一種針對大語言模型營養(yǎng)管理的評估方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種針對大語言模型營養(yǎng)管理的評估方法,其特征在于,還包括:
3.根據(jù)權(quán)利要求1所述的一種針對大語言模型營養(yǎng)管理的評估方法,其特征在于,還包括:
4.根據(jù)權(quán)利要求1-3任一項所述的一種針對大語言模型營養(yǎng)管理的評估方法,其特征在于,還包括:
5.根據(jù)權(quán)利要求1所述的一種針對大語言模型營養(yǎng)管理的評估方法,其特征在于,所述注冊營養(yǎng)師考試題目分為多個難度級別,所述難度級別至少包括簡單、一般和難題。
6.根據(jù)權(quán)利要求1-3任一項所述的一種針對大語言模型營養(yǎng)管理的評估方法,其特征在于,其中所述大語言模型包括但不限于chatgpt及其后續(xù)版本。