本發(fā)明涉及自然語言處理,尤其涉及一種模型提示詞自動優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、大型語言模型(llm)已經(jīng)展示出在多種任務(wù)中作為通用代理的強大能力,能夠處理自然語言理解、生成和推理等復(fù)雜任務(wù)。然而,llm的性能在很大程度上依賴于手工編寫的提示(prompts),這些提示往往需要經(jīng)過大量的試驗和錯誤才能找到最佳的形式。這種費力的過程不僅耗時,還限制了模型在更廣泛場景中的應(yīng)用。
2、現(xiàn)有的一些技術(shù)嘗試通過各種方式來改進提示的效果。例如,使用輔助模型或可微提示(differentiable?prompts)來自動優(yōu)化提示的生成,從而減少人工干預(yù)的需求。然而,這些方法通常假設(shè)可以訪問llm的內(nèi)部狀態(tài)變量,這意味著它們要求對模型的底層機制有深入的了解和控制。這種要求在許多實際應(yīng)用中是難以實現(xiàn)的,特別是在使用預(yù)訓(xùn)練的黑箱模型時。
3、另外,也有研究采用強化學(xué)習(xí)或基于llm自身的反饋機制來對提示進行優(yōu)化。這些算法通過對提示進行離散操作,以提高提示的有效性。然而,這些方法通常需要對llm進行低級訪問,并且可能生成難以理解的輸出。此外,一些算法依賴于無方向的蒙特卡羅搜索,這種方法雖然能夠探索較大的搜索空間,但由于缺乏明確的方向性,可能導(dǎo)致計算資源的大量浪費,且不一定能夠找到最優(yōu)的提示。
4、因此,當(dāng)前技術(shù)在提示優(yōu)化過程中面臨著諸多挑戰(zhàn),如對模型內(nèi)部機制的依賴、生成輸出的復(fù)雜性以及計算效率的不足。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種模型提示詞自動優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì),旨在解決如何實現(xiàn)對提示詞的自動優(yōu)化,提高提示詞生成的效率和準(zhǔn)確性的技術(shù)問題。
2、為實現(xiàn)上述目的,本發(fā)明提供一種模型提示詞自動優(yōu)化方法,包括:
3、獲取初始提示詞和訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包含輸入數(shù)據(jù)與對應(yīng)的真實標(biāo)簽;
4、將所述初始提示詞與所述輸入數(shù)據(jù)一并輸入目標(biāo)模型中,得到預(yù)測標(biāo)簽;
5、使用反饋提示詞引導(dǎo)所述目標(biāo)模型基于所述預(yù)測標(biāo)簽與真實標(biāo)簽生成語言提示反饋,所述語言提示反饋用于識別所述初始提示詞中的缺陷;
6、基于生成的所述語言提示反饋對所述初始提示詞進行優(yōu)化,得到目標(biāo)提示詞。
7、在一個實施例中,在基于生成的所述語言提示反饋對所述初始提示詞進行優(yōu)化,得到目標(biāo)提示詞之后,還包括:
8、通過提示詞擴展方法基于所述目標(biāo)提示詞生成多個候選提示詞,所述提示詞擴展方法包括隨機采樣方法和/或遺傳算法;
9、根據(jù)生成的多個候選提示詞構(gòu)建提示詞候選集,通過多輪迭代對所述提示詞候選集中的候選提示詞進行選擇和淘汰;
10、每輪迭代時,從所述提示詞候選集中隨機抽樣一個候選子集,使用度量函數(shù)計算所述提示詞候選集中每個候選提示詞在所述候選子集上的評分,并從所述提示詞候選集中淘汰評分最低的候選提示詞;
11、直到多輪迭代后所述提示詞候選集中只剩下最后一個候選提示詞,得到優(yōu)化目標(biāo)提示詞。
12、在一個實施例中,在基于生成的所述語言提示反饋對所述初始提示詞進行優(yōu)化,得到目標(biāo)提示詞之后,還包括:
13、設(shè)定預(yù)設(shè)選擇數(shù)量以及預(yù)設(shè)迭代輪數(shù),設(shè)定波束集合并初始化,初始化后的波束集合以所述目標(biāo)提示詞為初始值;
14、對所述波束集合執(zhí)行預(yù)設(shè)迭代輪數(shù)的迭代,每輪迭代中初始化一個空的候選提示詞集合,對波束集合的每個提示詞進行擴展,生成多個候選提示詞并添加至候選提示詞集合中,使用度量函數(shù)對候選提示詞集合中的每個候選提示詞進行評分,選擇評分最高的預(yù)設(shè)選擇數(shù)量的候選提示詞加入波束集合中構(gòu)成下一輪迭代的波束集合;
15、直到執(zhí)行完預(yù)設(shè)迭代輪數(shù)的迭代,從最后一輪的波束集合中選擇得分最高的候選提示詞,得到優(yōu)化目標(biāo)提示詞。
16、在一個實施例中,對波束集合的每個提示詞進行擴展,生成多個候選提示詞并添加至候選提示詞集合中,包括:
17、從預(yù)設(shè)詞匯表中隨機替換波束集合中每個提示詞的關(guān)鍵詞,為每個提示詞生成多個多樣化提示詞;
18、隨機變換多樣化提示詞的句話結(jié)構(gòu),包括改變詞語或引入從句,得到變體提示詞;
19、根據(jù)所述目標(biāo)提示詞對應(yīng)的任務(wù)的上下文信息,增加或調(diào)整變體提示詞的背景描述,生成多個候選提示詞,將所述多個候選提示詞添加至候選提示詞集合中。
20、在一個實施例中,在使用反饋提示詞引導(dǎo)所述目標(biāo)模型基于所述預(yù)測標(biāo)簽與真實標(biāo)簽生成語言提示反饋之前,還包括:
21、收集所述目標(biāo)模型的用戶需求數(shù)據(jù)以及歷史性能數(shù)據(jù);
22、確定所述目標(biāo)模型需要滿足的任務(wù)要求,所述任務(wù)要求包括特定輸出形式;
23、根據(jù)所述目標(biāo)模型的用戶需求數(shù)據(jù)、歷史性能數(shù)據(jù)和任務(wù)要求生成所述反饋提示詞。
24、在一個實施例中,在使用反饋提示詞引導(dǎo)所述目標(biāo)模型基于所述預(yù)測標(biāo)簽與真實標(biāo)簽生成語言提示反饋之前,還包括:
25、分析所述初始提示詞的語義和結(jié)構(gòu),基于所述初始提示詞通過語義擴展和結(jié)構(gòu)調(diào)整的方式生成初步的反饋提示詞;
26、為所述初步的反饋提示詞引入一組引導(dǎo)語句,使所述初步的反饋提示詞能夠引導(dǎo)模型生成反饋信息,得到引導(dǎo)型反饋提示詞;
27、使用所述目標(biāo)模型對所述引導(dǎo)型反饋提示詞進行多輪測試,收集所述目標(biāo)模型輸出的反饋信息,根據(jù)所述反饋信息對所述引導(dǎo)型反饋提示詞進行調(diào)整,得到最終的反饋提示詞。
28、在一個實施例中,基于生成的所述語言提示反饋對所述初始提示詞進行優(yōu)化,得到目標(biāo)提示詞,包括:
29、識別所述語言提示反饋中的問題并確定具體優(yōu)化目標(biāo),所述具體優(yōu)化目標(biāo)包括提高語義準(zhǔn)確性、增強上下文關(guān)聯(lián)性或改進邏輯結(jié)構(gòu);
30、根據(jù)所述具體優(yōu)化目標(biāo)從優(yōu)化策略庫中選擇目標(biāo)優(yōu)化策略,根據(jù)所述目標(biāo)優(yōu)化策略優(yōu)化所述初始提示詞,得到多個待定提示詞;
31、使用所述目標(biāo)模型及度量函數(shù)對多個待定提示詞進行評分,選擇評分最高的待定提示詞作為所述目標(biāo)提示詞。
32、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種模型提示詞自動優(yōu)化裝置,包括:
33、數(shù)據(jù)獲取模塊,獲取初始提示詞和訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包含輸入數(shù)據(jù)與對應(yīng)的真實標(biāo)簽;
34、模型預(yù)測模塊,將所述初始提示詞與所述輸入數(shù)據(jù)一并輸入目標(biāo)模型中,得到預(yù)測標(biāo)簽;
35、反饋生成模塊,使用反饋提示詞引導(dǎo)所述目標(biāo)模型基于所述預(yù)測標(biāo)簽與真實標(biāo)簽生成語言提示反饋,所述語言提示反饋用于識別所述初始提示詞中的缺陷;
36、提示詞優(yōu)化模塊,基于生成的所述語言提示反饋對所述初始提示詞進行優(yōu)化,得到目標(biāo)提示詞。
37、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種模型提示詞自動優(yōu)化設(shè)備,所述模型提示詞自動優(yōu)化設(shè)備包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的模型提示詞自動優(yōu)化程序,所述模型提示詞自動優(yōu)化程序被所述處理器執(zhí)行時實現(xiàn)如上述所述的模型提示詞自動優(yōu)化方法的步驟。
38、進一步地,為實現(xiàn)上述目的,本發(fā)明還提供一種計算機存儲介質(zhì),所述存儲介質(zhì)上存儲有模型提示詞自動優(yōu)化程序,所述模型提示詞自動優(yōu)化程序被處理器執(zhí)行時實現(xiàn)如上所述的模型提示詞自動優(yōu)化方法的步驟。
39、有益效果:本發(fā)明涉及一種模型提示詞自動優(yōu)化方法,通過獲取初始提示詞及相應(yīng)的訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集包含輸入數(shù)據(jù)與對應(yīng)的真實標(biāo)簽。隨后,將初始提示詞與輸入數(shù)據(jù)一同輸入目標(biāo)模型,生成相應(yīng)的預(yù)測標(biāo)簽。在此基礎(chǔ)上,利用反饋提示詞引導(dǎo)目標(biāo)模型,通過比較預(yù)測標(biāo)簽與真實標(biāo)簽生成語言提示反饋。該反饋用于識別初始提示詞中的潛在缺陷,并基于此優(yōu)化初始提示詞,最終生成目標(biāo)提示詞。本發(fā)明不僅減少了人工調(diào)整提示詞的繁瑣過程,還通過反饋機制實現(xiàn)了提示詞的逐步改進,確保了模型輸出的高準(zhǔn)確性和一致性。